免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
宏觀控制圖像字幕的文本生成

重磅干貨,第一時(shí)間送達(dá)


小黑導(dǎo)讀

論文是學(xué)術(shù)研究的精華和未來(lái)發(fā)展的明燈。小黑決心每天為大家?guī)?lái)經(jīng)典或者最新論文的解讀和分享,旨在幫助各位讀者快速了解論文內(nèi)容。個(gè)人能力有限,理解難免出現(xiàn)偏差,建議對(duì)文章內(nèi)容感興趣的讀者,一定要下載原文,了解具體內(nèi)容。


摘要

盡管圖像字幕模型已經(jīng)能夠?qū)o定的圖像產(chǎn)生令人印象深刻的描述,但挑戰(zhàn)仍然存在:(1)現(xiàn)有模型的可控性和多樣性仍然遠(yuǎn)遠(yuǎn)不能令人滿意;(2)模型有時(shí)會(huì)產(chǎn)生極差的字幕。本文分別介紹了兩種解決問(wèn)題的新方法。針對(duì)上述問(wèn)題,作者引入了一種控制信號(hào)來(lái)控制句子的宏觀屬性,如句子質(zhì)量、句子長(zhǎng)度、句子時(shí)態(tài)和名詞數(shù)量等。通過(guò)這樣的控制信號(hào),增強(qiáng)了現(xiàn)有字幕模型的可控性和多樣性。針對(duì)后一種問(wèn)題,作者創(chuàng)新性地提出了一種策略,即通過(guò)訓(xùn)練圖像-文本匹配模型來(lái)衡量前后兩種方向生成的句子的質(zhì)量,并最終選擇更好的句子。因此,該策略可以有效減少劣質(zhì)句子的比例。作者提出的方法可以很容易地應(yīng)用于大多數(shù)圖像字幕模型,以提高其整體性能?;赨p-Down模型的實(shí)驗(yàn)結(jié)果表明,作者的方法在交叉熵訓(xùn)練的MSCOCO Karpathy檢驗(yàn)分裂上取得了37.5/120.3/21.5的BLEU4/ apple /SPICE分?jǐn)?shù),超過(guò)了目前采用交叉熵?fù)p失訓(xùn)練的方法的結(jié)果。


論文創(chuàng)新點(diǎn)

(1)引入控制信號(hào)。通過(guò)它,可以從外部控制句子質(zhì)量、句子長(zhǎng)度、句子時(shí)態(tài)、句子中名詞數(shù)量等宏觀句子屬性,從而增強(qiáng)了現(xiàn)有字幕模式的可控性和多樣性。

(2)創(chuàng)新地訓(xùn)練了一種圖像-文本匹配模型,對(duì)前后方向生成的句子質(zhì)量進(jìn)行判斷,并選擇較好的句子,可以有效地減少劣質(zhì)句子的比例,提高整體字幕性能。

(3)結(jié)合兩種方法,在交叉熵訓(xùn)練方面實(shí)現(xiàn)了MSCOCO數(shù)據(jù)集的最新性能。通過(guò)蘋果酒優(yōu)化,作者的方法與基線相比也有了很大的改進(jìn)。此外,作者的方法是通用的,可以應(yīng)用于大多數(shù)字幕模型。



框架結(jié)構(gòu)

作者的模型由兩個(gè)圖像標(biāo)題模型和一個(gè)圖像-文本匹配模型組成。作者將先分別介紹這兩個(gè)成分的具體結(jié)構(gòu),然后再詳細(xì)說(shuō)明如何將這兩個(gè)成分結(jié)合起來(lái),產(chǎn)生更可控、更優(yōu)質(zhì)的句子。

本文以提出的經(jīng)典的上下模型作為基礎(chǔ)模型,因?yàn)樗哂酗@著的性能。它由一個(gè)基于CNN的編碼器和一個(gè)帶有注意模塊的基于LSTM的解碼器組成。

為了得到對(duì)同一幅圖像的不同描述,作者首先分別訓(xùn)練兩個(gè)圖像標(biāo)題模型:正向LSTM Lfand反向LSTM Lb,分別生成正序和倒序的句子。在CIDEr上用交叉熵?fù)p失和自臨界優(yōu)化對(duì)它們進(jìn)行良好訓(xùn)練后,作者再用基于鉸鏈的三重組損失訓(xùn)練一個(gè)圖像-文本匹配模型掃描。使用掃描模型來(lái)選擇Lfand Lb生成的句子之間對(duì)圖像更符合的更好的掃描模型。

實(shí)驗(yàn)結(jié)果

不同控制信號(hào)的可控性樣本結(jié)果

為了充分展現(xiàn)每個(gè)控制信號(hào)的作用,作者分別用不同的控制信號(hào)訓(xùn)練三個(gè)模型,分別控制句子的長(zhǎng)度、句子的時(shí)態(tài)和句子中的名詞數(shù)。結(jié)果表明,對(duì)于給定的圖像,作者的方法可以根據(jù)需要生成各種描述。

結(jié)論

本文在字幕模型中引入了兩種新的方法。作者提出了一個(gè)控制信號(hào)來(lái)增強(qiáng)現(xiàn)有字幕模型的可控性和多樣性。通過(guò)控制信號(hào),作者可以控制句子的宏觀屬性,如句子質(zhì)量、句子長(zhǎng)度、句子時(shí)態(tài)、句子中名詞的數(shù)量等,使作者可以根據(jù)需要生成不同的句子。作者還創(chuàng)新地訓(xùn)練了一個(gè)圖像-文本匹配模型來(lái)判斷前后方向生成的句子的質(zhì)量。該方法減少了低質(zhì)量句子的比例,同時(shí)提高了整體字幕性能。在交叉熵訓(xùn)練方面,作者通過(guò)上下+控制+掃描實(shí)現(xiàn)了新的最先進(jìn)的性能。在上面的MSCOCO數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了作者方法的通用性。它們可以很容易地應(yīng)用于大多數(shù)字幕模型和其他序列生成任務(wù),如機(jī)器翻譯。

論文鏈接:https://arxiv.org/pdf/2101.08000.pdf

每日?qǐng)?jiān)持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學(xué)。

- END -

#投 稿 通 道#

 讓你的論文被更多人看到 

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。深度學(xué)習(xí)愛(ài)好者 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。 

深度學(xué)習(xí)愛(ài)好者 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?? 來(lái)稿標(biāo)準(zhǔn):

· 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向) 

· 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接 

· 深度學(xué)習(xí)愛(ài)好者 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
CLIP還能做視頻字幕任務(wù)!騰訊&清華提出CLIP4Caption,ACM MM2021挑戰(zhàn)賽第二名!
OpenViDial:一個(gè)大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集
【論文筆記】命名實(shí)體識(shí)別論文
盤點(diǎn)|2016深度學(xué)習(xí)重大進(jìn)展:從無(wú)監(jiān)督學(xué)習(xí)到生成對(duì)抗網(wǎng)絡(luò)
文本 視覺(jué),多篇 Visual/Video BERT 論文介紹
回顧來(lái)自哈佛、北大、FACEBOOK 、杜克、字節(jié)跳動(dòng)等的7篇NIPS熱點(diǎn)論文
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服