免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
OpenViDial:一個(gè)大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集

人類對(duì)話不僅僅只依靠聊天內(nèi)容,更需要利用視覺(jué)信息。本文構(gòu)建了一個(gè)大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集,從電影和電視劇中抽取出(句子,圖片)對(duì),經(jīng)過(guò)數(shù)據(jù)處理與清洗,最終得到一百萬(wàn)余條句子,及其對(duì)應(yīng)的圖片信息。此外,本文還構(gòu)造了三個(gè)融合多模態(tài)信息的模型。

實(shí)驗(yàn)表明,融合細(xì)粒度的視覺(jué)信息,模型能夠生成質(zhì)量更高的對(duì)話,而只有文本的模型效果最差,這驗(yàn)證了視覺(jué)信息在對(duì)話中的必要性。本文希望所提出的數(shù)據(jù)集及模型能促進(jìn)學(xué)界大規(guī)模多模態(tài)對(duì)話學(xué)習(xí)的發(fā)展。


論文標(biāo)題:

OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts


論文作者:

Yuxian Meng, Shuhe Wang, Qinghong Han, Xiaofei Sun, Fei Wu, Rui Yan, Jiwei Li


論文鏈接:

https://arxiv.org/abs/2012.15015


代碼與數(shù)據(jù)集鏈接:

https://github.com/ShannonAI/OpenViDial

對(duì)話中的視覺(jué)信息

人們?cè)谌粘?duì)話的過(guò)程中,大都需要依賴視覺(jué)信息,而不僅僅是文字本身。比如下面的兩個(gè)例子。在第一個(gè)例子中,右邊的女孩問(wèn)“你在干什么”,左邊的女孩回答“我在看圖片”。如果忽視視覺(jué)信息,只是回答“你在干什么”的話,那可能的回答就有無(wú)數(shù)種。在第二個(gè)例子中,母親問(wèn)孩子“你去干嘛”,孩子回答“去閣樓”。同理,如果把圖片遮住,人們就不能正確回答“去閣樓”。

上述兩個(gè)例子充分體現(xiàn)了視覺(jué)信息在人類對(duì)話中的必要性,正是這種多模態(tài)的信息融合,人們的對(duì)話才變得精準(zhǔn)而可靠。

然而,當(dāng)前的對(duì)話模型大都忽視了對(duì)話過(guò)程中的視覺(jué)信息,這主要是相應(yīng)數(shù)據(jù)集的缺失造成的。

下表是當(dāng)前相關(guān)數(shù)據(jù)集的比較。OpenSubtitles 與 Cornell Movie-Dialogs 都是基于純文本的對(duì)話數(shù)據(jù)集,而 VisDial,Guess-What?! 和 AVSD 這三個(gè)數(shù)據(jù)集,盡管都包含了多模態(tài)信息,但它們的關(guān)注點(diǎn)都在視覺(jué)問(wèn)答(Visual Question Answering),而非對(duì)話上。

基于上述視覺(jué)特征在對(duì)話中的必要性,以及當(dāng)前多模態(tài)對(duì)話數(shù)據(jù)集缺失的現(xiàn)狀,本文構(gòu)造了一個(gè)大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集 OpenViDial。OpenViDial 中的數(shù)據(jù)來(lái)自電影與電視劇,使用 OCR 從視頻中抽取出對(duì)話文本,并配以當(dāng)前對(duì)話所在的圖像,因此,每一句話都有相應(yīng)視覺(jué)背景,最終形成包含百萬(wàn)余條句子的大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集。

基于 OpenViDial,本文還構(gòu)建了三個(gè)視覺(jué)對(duì)話模型,將圖像信息融入到對(duì)話生成的過(guò)程中。實(shí)驗(yàn)表明,融入視覺(jué)信息的模型可以生成質(zhì)量更高的對(duì)話,而融入細(xì)粒度的視覺(jué)信息,如物體,可以實(shí)現(xiàn)最好效果。這驗(yàn)證了視覺(jué)信息對(duì)于對(duì)話生成的重要性。

總的來(lái)說(shuō),本文的貢獻(xiàn)如下:

  • 構(gòu)建并開(kāi)源 OpenViDial,一個(gè)大規(guī)模多模態(tài)對(duì)話生成數(shù)據(jù)集,包含百萬(wàn)余條對(duì)話句子,每條句子都配以對(duì)應(yīng)的視覺(jué)背景;
  • 提出視覺(jué)對(duì)話模型,將視覺(jué)信息以不同的粒度融入到對(duì)話生成中;
  • 通過(guò)實(shí)驗(yàn)驗(yàn)證了視覺(jué)信息對(duì)高質(zhì)量對(duì)話生成的必要性,促進(jìn)學(xué)界對(duì)多模態(tài)對(duì)話數(shù)據(jù)集及模型的研究。
數(shù)據(jù)集OpenViDial構(gòu)建
OpenViDial 從電影和電視劇中獲取數(shù)據(jù),對(duì)話來(lái)自于附帶的字幕,而圖片則是當(dāng)前字幕的視頻幀。在這個(gè)過(guò)程中,主要難點(diǎn)有以下兩個(gè):
  • 如何抽取視頻中的字幕?

  • 如何確保對(duì)話完整性與連續(xù)性?

OpenViDial 分別用 OCR 與后處理解決上述問(wèn)題。

抽取字幕作為對(duì)話:OCR

為了從視頻中抽取字幕文本,OpenViDial 首先訓(xùn)練了一個(gè) OCR 模型。訓(xùn)練數(shù)據(jù)通過(guò)“圖片+添加字幕”的形式構(gòu)造得到。所添加的字幕文本從 CommonCrawl 隨機(jī)獲得,而圖片則使用現(xiàn)有的 OCR 模型 EasyOCR,去檢測(cè)電影或電視劇中不包含任何文本的圖片。

這里沒(méi)有使用互聯(lián)網(wǎng)上普遍存在的圖片,如 ImageNet,而使用現(xiàn)有的 OCR 模型從視頻中抽取,是為了盡可能保證數(shù)據(jù)分布的一致性。

在獲得了文本和圖片后,就可以把文本隨機(jī)添加到圖片上構(gòu)造訓(xùn)練數(shù)據(jù)。在文本定位階段(detection),OpenViDial 使用 PSE 模型作為模型架構(gòu)。在文本識(shí)別階段(recognition),則使用 CRNN 作為模型架構(gòu)。

訓(xùn)練后的模型在測(cè)試集上取得字級(jí)別 99.98% 的準(zhǔn)確率,在句級(jí)別上取得 98.4% 的準(zhǔn)確率,滿足字幕抽取的需求。

由于視頻每一秒都包含 20~40 幀,所以首先隨機(jī)從每秒中選取 3 幀,然后使用該 OCR 模型從這 3 幀中抽取字幕。這樣就得到了原始數(shù)據(jù)集,每個(gè)數(shù)據(jù)點(diǎn)都是句子-圖片對(duì) 。

數(shù)據(jù)后處理

在得到原始數(shù)據(jù)集后,還需要考慮一些特殊情況,減少所包含的噪音。

首先是未登陸詞問(wèn)題。OpenViDial 構(gòu)造了一個(gè) 20 萬(wàn)詞的詞表,如果得到的句子 中包含未登陸詞,則舍棄該數(shù)據(jù)點(diǎn) 。

第二是重復(fù)圖片問(wèn)題。由于字幕停留往往會(huì)跨越多個(gè)連續(xù)圖片,所以就可能造成諸多高度相似的數(shù)據(jù)點(diǎn)。如果出現(xiàn)這種情況,則 OpenViDial 只保留中間的數(shù)據(jù)點(diǎn)而丟棄其他數(shù)據(jù)點(diǎn)。

最后是間斷對(duì)話問(wèn)題。有時(shí)候,一句完整的話被分到了不同的圖片中,不同的圖片包含了對(duì)話的不同部分。為此,OpenViDial 訓(xùn)練了一個(gè)判別模型,用于檢測(cè)當(dāng)前數(shù)據(jù)點(diǎn)中的對(duì)話 是否完整。如果不完整,則合并連續(xù)的數(shù)據(jù)點(diǎn)的文本,將它加入到中間的圖片中,形成新的數(shù)據(jù)點(diǎn)
下表是 OpenViDial 的最終數(shù)據(jù)統(tǒng)計(jì)。共包含 1.1M 個(gè)句子及其附帶的圖片,平均每句話包含 7.6 個(gè) Token,平均每一系列對(duì)話包含 14 輪,在使用 BPE 之后詞表大小為 30K。

模型

基于 OpenViDial,本文提出了三個(gè)模型,以不同的粒度融合視覺(jué)信息。所有的模型都基于 Transformer 實(shí)現(xiàn)。
5.1 NoVisual模型(NV)
第一個(gè)模型如過(guò)去基于純文本的對(duì)話生成模型一樣,忽視視覺(jué)信息而只依靠數(shù)據(jù)集中提供的對(duì)話文本。模型示意圖如下所示。模型的輸入是前 句話,輸出下一句對(duì)話。

5.2 CoarseVisual模型(CV)
第二個(gè)模型融入了粗粒度的視覺(jué)信息。首先,模型使用一個(gè)預(yù)訓(xùn)練的 ResNet-50 得到每句話對(duì)應(yīng)圖片的特征 ,然后把這個(gè)特征和該句子中每個(gè)詞的詞向量以及位置向量相加,這三者的和作為當(dāng)前詞的輸入。模型結(jié)構(gòu)如下圖所示。

之所以稱為粗粒度,是因?yàn)樵谶@個(gè)模型中,圖片是作為一個(gè)整體作為模型的輸入,但實(shí)際上,人們?cè)趯?duì)話時(shí)往往關(guān)注的是圖片中的具體物體,這就引出了第三個(gè)模型。
5.3 FineVisual模型(FV)
第三個(gè)模型融入了細(xì)粒度的視覺(jué)信息,其核心在于使用預(yù)訓(xùn)練的 Faster R-CNN 提取出每個(gè)圖片中的物體,然而將物體作為模型輸入而不是整個(gè)圖片。模型結(jié)構(gòu)如下圖所示。

假設(shè)當(dāng)前模型的輸入是前 輪對(duì)話 ,以及它們對(duì)應(yīng)的圖片 。對(duì)每個(gè)圖片 ,模型使用 Faster R-CNN 從中抽取出若干物體,。把所有圖片抽取的物體拼接在一起 作為輸入的第一部分,稱為視覺(jué)部分。輸入的第二部分是常規(guī)的對(duì)話,稱為文本部分。這兩部分使用了分段向量—— Segment Embedding 加以區(qū)分。
由于 Transformer 本身是基于自注意力機(jī)制,所以在生成下一段對(duì)話 的時(shí)候,我們能期望模型關(guān)注到重要的物體,而不是整個(gè)圖片。

實(shí)驗(yàn)

本文使用上述三個(gè)模型在 OpenViDial 上進(jìn)行實(shí)驗(yàn)。測(cè)評(píng)指標(biāo)有 BLEU、Diversity 和 Stopword%,用于衡量所生成對(duì)話的精確性、多樣性和豐富性。

下述兩表是實(shí)驗(yàn)結(jié)果。從結(jié)果看,有視覺(jué)信息的模型 CV/FV 比純文本模型 NV 表現(xiàn)更好,而細(xì)粒度的模型 FV 又顯著優(yōu)于粗粒度模型 CV。這表明視覺(jué)信息,尤其是細(xì)粒度視覺(jué)信息對(duì)對(duì)話生成的必要性。

下表是人工測(cè)評(píng)的結(jié)果。給定圖片及模型生成的對(duì)話,標(biāo)注者需要評(píng)價(jià)所生成的回答是否(1)與圖片相關(guān),(2)足夠具有多樣性,(3)可讀。人工給出的評(píng)價(jià)將被歸為 No/Unsure/Yes 這三個(gè)維度。

結(jié)果與自動(dòng)測(cè)評(píng)一致,細(xì)粒度模型優(yōu)于粗粒度模型,而粗粒度模型又優(yōu)于純文本模型。

下面是兩個(gè)具體的例子,給定前兩步的圖片與對(duì)話,模型需要根據(jù)當(dāng)前步的圖片生成對(duì)應(yīng)的對(duì)話。純文本模型 NV 與粗粒度模型 CV 總是生成無(wú)意義的回復(fù),如 I'm sorry 或者 I don't know,而細(xì)粒度模型 CV 能夠根據(jù)圖片中的物體生成相關(guān)的對(duì)話。

在第一個(gè)例子中,F(xiàn)V 抓住了圖片中的動(dòng)漫女王形象,生成了“queen of the castle”。在第二個(gè)例子中,F(xiàn)V 定位了圖中的電話,生成了“call me back”。盡管它們與“真正答案”仍有差距,但總的來(lái)說(shuō)具備了融入視覺(jué)信息的能力,并且生成的文本是多樣的、富有信息度的。

下圖呈現(xiàn)了 FV 模型在生成“i need you to call me back”時(shí)對(duì)圖片中物體的關(guān)注度。在 Head 3 中,模型在生成 call 的時(shí)候關(guān)注了電話與人,在 Head 5 中,模型在生成I的時(shí)候關(guān)注了人。這表明細(xì)粒度的視覺(jué)信息對(duì)對(duì)話生成是比較相關(guān)的。

小結(jié)

本文構(gòu)造了一個(gè)大規(guī)模多模態(tài)對(duì)話生成數(shù)據(jù)集 OpenViDial,包含了百萬(wàn)余條對(duì)話及其對(duì)應(yīng)的視覺(jué)信息?;?OpenViDial,本文還提出了三個(gè)不同模態(tài)、不同粒度的多模態(tài)對(duì)話生成模型,利用文本和視覺(jué)生成更高質(zhì)量的對(duì)話。實(shí)驗(yàn)表明,視覺(jué)信息,特別是細(xì)粒度的視覺(jué)信息對(duì)生成多樣性、相關(guān)性和豐富性的對(duì)話很有必要。本文希望能促進(jìn)學(xué)界多模態(tài)對(duì)話學(xué)習(xí)模型和數(shù)據(jù)集的發(fā)展。

更多閱讀



#投 稿 通 道#

 讓你的論文被更多人看到 

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。 

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?? 來(lái)稿標(biāo)準(zhǔn):

· 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向) 

· 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接 

· PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AGI之MFM:《多模態(tài)基礎(chǔ)模型:從專家到通用助手》翻譯與解讀之統(tǒng)一的視覺(jué)模型、加持LLMs的大型多模態(tài)模型
基于海量圖文數(shù)據(jù)和多粒度視覺(jué)特征的多模態(tài)預(yù)訓(xùn)練
中文版開(kāi)源Llama 2同時(shí)有了語(yǔ)言、多模態(tài)大模型,完全可商用
基于知識(shí)圖譜的語(yǔ)義理解技術(shù)及應(yīng)用
圖本檢索的Zero-Shot超過(guò)CLIP模型!FILIP用細(xì)粒度的后期交互獲得更好的預(yù)訓(xùn)練效率。
重磅!百度多模態(tài)模型ERNIE-ViL刷新5項(xiàng)任務(wù)記錄,登頂權(quán)威榜單VCR
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服