免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AI綜述專欄 | 多模態(tài)機(jī)器學(xué)習(xí)綜述

AI綜述專欄簡介


參考文獻(xiàn):T. Baltru?aitis, C. Ahuja and L. Morency, 'Multimodal Machine Learning: A Survey and Taxonomy,' in IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI), vol. 41, no. 2, pp. 423-443, 1 Feb. 2019.

【摘要】我們對世界的體驗是多模式的,我們看到物體,聽到聲音,感覺到紋理,聞到氣味和嘗到味道。模態(tài)是指某種事物發(fā)生或經(jīng)歷的方式,并且當(dāng)研究問題包括多種這樣的形式時,研究問題被描述為多模態(tài)。為了使人工智能在理解我們周圍的世界方面取得進(jìn)展,它需要能夠一起解釋這種多模信號。多模式機(jī)器學(xué)習(xí)旨在構(gòu)建可以處理和關(guān)聯(lián)來自多種模態(tài)信息的模型。這是一個充滿活力的多學(xué)科領(lǐng)域,具有越來越重要的意義和非凡的潛力。本文不是關(guān)注特定的多模態(tài)應(yīng)用,而是研究多模態(tài)機(jī)器學(xué)習(xí)本身的最新進(jìn)展。我們超越了典型的早期和晚期融合分類,并確定了多模式機(jī)器學(xué)習(xí)所面臨的更廣泛的挑戰(zhàn),即:表示,翻譯,對齊,融合和共同學(xué)習(xí)。這種新的分類法將使研究人員能夠更好地了解該領(lǐng)域的狀況,并確定未來研究的方向。

關(guān)鍵字:多模態(tài) 機(jī)器學(xué)習(xí) 介紹 綜述

1 介紹    

1、我們周圍的世界有多種模式-我們看到物體,聽到聲音,感覺質(zhì)地,聞到氣味,等等。一般來說,模態(tài)是指某物發(fā)生或經(jīng)歷的方式。大多數(shù)人把模態(tài)這個詞與代表我們主要溝通和感知渠道的感覺方式聯(lián)系起來,如視覺和觸覺。因此,當(dāng)一個研究問題或數(shù)據(jù)集包含多個這樣的模式時,它就具有多模態(tài)的特征。在本文中,我們主要關(guān)注但不限定三種模式:既可以寫也可以說的自然語言;通常用圖像或視頻表示的視覺信號;編碼聲音和副詞信息的聲音信號,如韻律、聲樂等。

2、為了讓人工智能在了解我們周圍的世界方面取得進(jìn)展,它需要能夠解釋和推理多模態(tài)信息。多模態(tài)機(jī)器學(xué)習(xí)旨在建立能夠處理和關(guān)聯(lián)來自多個模態(tài)的信息的模型。從早期的視聽語音識別研究到最近對語言和視覺模型的興趣激增,多模態(tài)機(jī)器學(xué)習(xí)是一個充滿活力的多學(xué)科領(lǐng)域,并且重要性日益提高,潛力巨大。

3、由于數(shù)據(jù)的異構(gòu)性,多模態(tài)機(jī)器學(xué)習(xí)的研究領(lǐng)域給計算研究者帶來了一些獨特的挑戰(zhàn)。從多模態(tài)信息源中學(xué)習(xí)提供了捕獲模態(tài)之間的對應(yīng)關(guān)系并獲得對自然現(xiàn)象深入理解的可能性。本文對多模態(tài)機(jī)器學(xué)習(xí)的五個核心技術(shù)挑戰(zhàn)(及其相關(guān)子挑戰(zhàn))進(jìn)行了識別和探討。

它們是多模態(tài)學(xué)習(xí)的中心,需要處理才能促進(jìn)該領(lǐng)域發(fā)展。我們的綜述超越了典型的早期和晚期融合分割,包括以下五個挑戰(zhàn):

  1. 表示:第一個基本挑戰(zhàn)是學(xué)習(xí)如何以一種利用多種模態(tài)的互補(bǔ)性和冗余性的方式表示和匯總多模式數(shù)據(jù)。多模數(shù)據(jù)的異構(gòu)性使得構(gòu)造這樣的表示方法具有挑戰(zhàn)性。例如,語言通常是象征性的,而音頻和視頻形式將被表示為信號。

  2. 翻譯:第二個挑戰(zhàn)是如何將數(shù)據(jù)從一種模式轉(zhuǎn)換(映射)到另一種模式。不僅異構(gòu)數(shù)據(jù),而且模式之間的關(guān)系往往是開放的或主觀的。例如,有許多正確的方法來描述一個圖像,一個完美的映射可能不存在。

  3. 對齊:第三個挑戰(zhàn)是確定來自兩種或兩種以上不同模式的(子)元素之間的直接關(guān)系。例如,我們可能希望將菜譜中的步驟與顯示正在制作的菜肴的視頻對齊。為了解決這一挑戰(zhàn),我們需要度量不同模式之間的相似性,并處理可能的長期依賴性和模糊性。

  4. 融合:第四個挑戰(zhàn)是連接來自兩個或多個模式的信息來執(zhí)行預(yù)測。例如,在視聽語音識別中,將唇動的視覺描述與語音信號融合,預(yù)測語音單詞。來自不同模式的信息可能具有不同的預(yù)測能力和噪聲拓?fù)浣Y(jié)構(gòu),其中至少有一種模式可能丟失數(shù)據(jù)。

  5. 共同學(xué)習(xí):第五個挑戰(zhàn)是在模態(tài)、它們的表示和它們的預(yù)測模型之間傳遞知識。這一點可以用協(xié)同訓(xùn)練、概念基礎(chǔ)和零樣本學(xué)習(xí)的算法來舉例說明。協(xié)同學(xué)習(xí)探索了從一個模態(tài)中學(xué)習(xí)知識如何幫助在不同模態(tài)中訓(xùn)練的計算模型。當(dāng)其中一種模式的資源有限(例如,注釋數(shù)據(jù))時,這一挑戰(zhàn)尤其重要。

針對這五個挑戰(zhàn)中的每一個,我們定義了分類和子類,以幫助構(gòu)建多模態(tài)機(jī)器學(xué)習(xí)這一新興研究領(lǐng)域的最新工作。我們首先討論多模態(tài)機(jī)器學(xué)習(xí)的主要應(yīng)用(第2節(jié)),然后討論多模態(tài)機(jī)器學(xué)習(xí)面臨的五個核心技術(shù)挑戰(zhàn)的最新發(fā)展:表示(第3節(jié))、翻譯(第4節(jié))、對齊(第5節(jié))、融合(第6節(jié))和共同學(xué)習(xí)(第7節(jié))。 最后,我們將在第8節(jié)進(jìn)行討論。

表一:多模態(tài)機(jī)器學(xué)習(xí)的應(yīng)用概述。對于每個應(yīng)用領(lǐng)域,我們都確定了為了解決它而需要解決的核心技術(shù)挑戰(zhàn)

2 應(yīng)用:歷史視角

1、多模式機(jī)器學(xué)習(xí)可以實現(xiàn)廣泛的應(yīng)用:從視聽語音識別到圖像描述。在本節(jié)中,我們簡要介紹了多模應(yīng)用的歷史,從視聽語音識別的開始到最近對語言和視覺應(yīng)用的新興趣。

2、多模態(tài)研究最早的例子之一是視聽語音識別(audio-visual speech recognition   avsr)[243]。它的靈感來自麥格克效應(yīng)(McGurk effect)[138]——在語音感知過程中聽覺和視覺之間的相互作用。當(dāng)受試者在觀看一個人說/ga-ga/時聽到音節(jié)/ba-ba/,他們感覺到第三個聲音是/da-da/。在給自愿者放映的一部影片中,一個音節(jié)“ga”在配音時發(fā)作了“ba”,而自愿者稱聽到的音節(jié)是卻是“da”。這樣一來,視聽信息聯(lián)手創(chuàng)造出了第三種全新的聲音,這個過程現(xiàn)在被叫做“麥格克效應(yīng)”。這是大腦對于來自眼睛和耳朵所提供的矛盾信息的努力猜測,這個理論也證明眼睛(視覺信息)對于大腦意識與知覺的影響比其他感覺器官所提供的信息更大。另一項研究發(fā)現(xiàn),視覺信息的不一致可以改變對于口語發(fā)音的感知,這表明了麥格克效應(yīng)可能在人們生活中許多外在感知上產(chǎn)生影響。

這些結(jié)果激發(fā)了許多來自言語社區(qū)的研究者們用視覺信息來擴(kuò)展他們的研究方法??紤]到隱藏馬爾可夫模型(hidden Markov model, HMMs)在當(dāng)時的語音社區(qū)中的突出地位[95],AVSR的許多早期模型基于各種HMM擴(kuò)展[24]、[25]就不足為奇了。雖然目前對AVSR的研究并不常見,但它已經(jīng)引起了深度學(xué)習(xí)界的新興趣[151]。

3、雖然AVSR的原始視覺是為了提高語音識別性能(例如,字錯誤率),但實驗結(jié)果表明,視覺信息的主要優(yōu)點提現(xiàn)在當(dāng)語音信號有噪聲(即,低信噪比)時[75]、[151]、[243]。換言之,模式之間的相互作用是增補(bǔ)的而不是補(bǔ)充(疊加式而非互補(bǔ)式)。兩種方法都獲得了相同的信息,提高了多模態(tài)模型的魯棒性,但沒有改善無噪聲場景下的語音識別性能。

4、第二種重要的多模態(tài)應(yīng)用來自多媒體內(nèi)容索引和檢索領(lǐng)域[11],[188]。隨著個人電腦和互聯(lián)網(wǎng)的發(fā)展,數(shù)字化多媒體內(nèi)容的數(shù)量急劇增加。[2] 雖然早期索引和搜索這些多媒體視頻的方法是基于關(guān)鍵字的[188],但在嘗試直接搜索視覺和多模態(tài)內(nèi)容時出現(xiàn)了新的研究問題。這導(dǎo)致了多媒體內(nèi)容分析領(lǐng)域的新研究課題,如自動鏡頭邊界檢測[123]和視頻總結(jié)[53]。這些研究項目得到了國家標(biāo)準(zhǔn)與技術(shù)研究所(National Institute of Standards and Technologies)的Trecvid倡議的支持,該倡議引入了許多高質(zhì)量數(shù)據(jù)集,包括2011年開始的多媒體事件檢測(multimedia event detection MED)任務(wù)[1]。

第三類應(yīng)用是在本世紀(jì)初圍繞多模態(tài)交互的新興領(lǐng)域建立的,目的是了解人類在社會交互過程中的多模態(tài)行為。AMI會議語料庫是該領(lǐng)域最早收集的具有里程碑意義的數(shù)據(jù)集之一,該語料庫包含100多個小時的會議視頻記錄,全部完整轉(zhuǎn)錄并標(biāo)注了[33]。另一個重要的數(shù)據(jù)集是SEMAINE語料庫,它可以研究說話者和聽者之間的人際動態(tài)[139]。該數(shù)據(jù)集是2011年組織的第一次視聽情感挑戰(zhàn)(AVEC)的基礎(chǔ)[179]。由于自動人臉檢測、面部標(biāo)志物檢測和面部表情識別[46]技術(shù)的強(qiáng)大進(jìn)步,情緒識別和情感計算領(lǐng)域在2010年代初蓬勃發(fā)展。AVEC的挑戰(zhàn)在之后每年都會繼續(xù),隨后的實例化包括醫(yī)療應(yīng)用程序,如抑郁和焦慮的自動評估[208]。D 'Mello 等[50]對多模態(tài)情感識別的最新進(jìn)展進(jìn)行了綜述。他們的元分析顯示,最近關(guān)于多模態(tài)情感識別的大部分研究表明,當(dāng)使用多個模態(tài)時,多模態(tài)情感識別效果有所改善,但這種改善在識別自然發(fā)生的情感時有所減弱。

最近,出現(xiàn)了一種強(qiáng)調(diào)語言和視覺的多模態(tài)應(yīng)用新類別:媒體描述。最具代表性的應(yīng)用程序之一是圖像描述,其中的任務(wù)是生成輸入圖像的文本描述[83]。這是由這種系統(tǒng)幫助視障人士完成日常任務(wù)的能力。媒體描述面臨的主要挑戰(zhàn)是評價:如何評價預(yù)測描述的質(zhì)量。視覺問答(visual question-answering, VQA)的任務(wù)最近提出,以解決一些評價挑戰(zhàn)的[9],其中的目標(biāo)是回答有關(guān)圖像的特定問題。

為了將上述的一些應(yīng)用帶到現(xiàn)實世界中,我們需要解決多模態(tài)機(jī)器學(xué)習(xí)所面臨的一些技術(shù)挑戰(zhàn)。我們在表1中總結(jié)了上述應(yīng)用領(lǐng)域的相關(guān)技術(shù)挑戰(zhàn)。最重要的挑戰(zhàn)之一是多模態(tài)表示,這是我們下一節(jié)的重點。

3、多模態(tài)表示

以計算模型可以使用的格式表示原始數(shù)據(jù)一直是機(jī)器學(xué)習(xí)中的一大挑戰(zhàn)。根據(jù)Bengio等人的工作[18],我們可以互換使用術(shù)語“特征”和“表示”,每一個都指一個實體的向量或張量表示,無論是圖像、音頻樣本、單個單詞或句子。多模表示是使用來自多個這樣的實體的信息來表示數(shù)據(jù)的一種表示。表示多種形式存在許多困難:如何組合來自不同來源的數(shù)據(jù);如何處理不同級別的噪聲;以及如何處理丟失的數(shù)據(jù)。以有意義的方式表示數(shù)據(jù)的能力對于多模式問題至關(guān)重要,并且是任何模型的主干。

良好的表示對于機(jī)器學(xué)習(xí)模型的性能非常重要,這一點在語音識別和視覺對象分類系統(tǒng)的性能最近的飛躍中得到了證明。Bengio等人的[18]識別了許多良好表示的屬性:平滑性、時間和空間相干性、稀疏性和自然聚類等。Srivastava和Salakhutdinov[198]確定了多模態(tài)表示的其他理想屬性:表示空間中的相似性應(yīng)該反映出相應(yīng)概念的相似性,即使在沒有一些模態(tài)的情況下也應(yīng)該很容易得到表示,最后,在給定觀察到的模態(tài)的情況下,應(yīng)該有可能補(bǔ)全缺失的模態(tài)。

單模態(tài)表示的發(fā)展已被廣泛研究[5],[18],[122]。在過去的十年中,已經(jīng)出現(xiàn)了從手工設(shè)計的特定應(yīng)用到數(shù)據(jù)驅(qū)動的轉(zhuǎn)變。例如,本世紀(jì)初最著名的圖像描述符之一,尺度不變特征變換(SIFT)是人工設(shè)計的[127],但目前大部分的視覺描述都是通過神經(jīng)網(wǎng)絡(luò)(CNN)等神經(jīng)結(jié)構(gòu)從數(shù)據(jù)中學(xué)習(xí)的[109]。類似地,在音頻領(lǐng)域,諸如梅爾頻率倒譜系數(shù)(MFCC)之類的聲學(xué)特征已被語音識別中的數(shù)據(jù)驅(qū)動的深度神經(jīng)網(wǎng)絡(luò)[79]和用于語言分析的遞歸神經(jīng)網(wǎng)絡(luò)所取代[207]。在自然語言處理中,文本特征最初依賴于計算文檔中的單詞出現(xiàn)次數(shù),但已被利用單詞上下文的數(shù)據(jù)驅(qū)動的單詞嵌入(word embeddings)所取代[141]。雖然在單模態(tài)表示方面有大量的工作,但直到最近,大多數(shù)多模態(tài)表示都涉及單模態(tài)的[50]的簡單連接,但這種情況正在迅速變化。

為了幫助理解工作的廣度,我們提出了兩類多模態(tài)表示:聯(lián)合和協(xié)調(diào)。聯(lián)合表示將單模態(tài)信號組合到同一個表示空間中,而協(xié)調(diào)表示單獨處理單模態(tài)信號,但對其施加一定的相似性約束,使其達(dá)到我們所說的協(xié)調(diào)空間。圖1展示了不同的多模態(tài)表示類型。在數(shù)學(xué)上,聯(lián)合表示為:

xm=f(x1...xn)                              (1)

其中,多模態(tài)表示xm使用依賴于單模態(tài)表示x1…xn的函數(shù)f(例如,深度神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機(jī)或遞歸神經(jīng)網(wǎng)絡(luò))計算.

協(xié)調(diào)表示如下:f(x1) ~ g(x2)                           (2)

其中每個模態(tài)都有對應(yīng)的投影函數(shù)(f和g),將其映射到一個協(xié)調(diào)的多模態(tài)空間。而投影到每個形態(tài)的多通道空間是獨立的,但它們之間產(chǎn)生的結(jié)果空間是協(xié)調(diào)的(表示為~)。這種協(xié)調(diào)的例子包括最小化余弦距離[61],最大化相關(guān)[7],以及在結(jié)果空間之間強(qiáng)制執(zhí)行偏序[212]。

圖一:聯(lián)合表示和協(xié)調(diào)表示的結(jié)構(gòu)。聯(lián)合表示使將關(guān)節(jié)表示投影到同一空間,作為輸入的模式。協(xié)調(diào)表示存在于各自的空間中,但通過相似性(例如歐幾里得距離)或結(jié)構(gòu)約束(例如部分順序)進(jìn)行協(xié)調(diào)。

3.1 聯(lián)合表示

我們從將單模表示投影到多??臻g(方程式1)的聯(lián)合表示開始討論。聯(lián)合表示法主要(但不是唯一)用于在訓(xùn)練和推理步驟中同時存在多模態(tài)數(shù)據(jù)的任務(wù)。聯(lián)合表示的最簡單示例是單個模態(tài)特征的串聯(lián)(也稱為早期融合[50])。在本節(jié)中,我們討論了創(chuàng)建聯(lián)合表示的更先進(jìn)的方法,首先是神經(jīng)網(wǎng)絡(luò),然后是圖形模型循環(huán)神經(jīng)網(wǎng)絡(luò)(代表性工作見表2)。

神經(jīng)網(wǎng)絡(luò)已成為一種非常流行的單模態(tài)數(shù)據(jù)表示方法。它們用于表示視覺、聲學(xué)和文本數(shù)據(jù),并且越來越多地用于多模態(tài)領(lǐng)域[151]、[156]和[217]。在本節(jié)中,我們將描述如何使用神經(jīng)網(wǎng)絡(luò)來構(gòu)建聯(lián)合多模態(tài)表示,如何訓(xùn)練它們,以及它們提供了哪些優(yōu)勢。

一般來說,神經(jīng)網(wǎng)絡(luò)由連續(xù)的內(nèi)積構(gòu)建塊和非線性激活函數(shù)組成。為了使用神經(jīng)網(wǎng)絡(luò)來表示數(shù)據(jù),首先要訓(xùn)練它執(zhí)行特定的任務(wù)(例如識別圖像中的對象)。由于深層神經(jīng)網(wǎng)絡(luò)的多層性,假設(shè)每一層后續(xù)的神經(jīng)網(wǎng)絡(luò)以更抽象的方式來表示數(shù)據(jù)[18],因此通常使用最后一層或倒數(shù)第二層神經(jīng)網(wǎng)絡(luò)作為一種數(shù)據(jù)表示形式。為了使用神經(jīng)網(wǎng)絡(luò)構(gòu)建一個多模態(tài)表示,每個模態(tài)都從幾個單獨的神經(jīng)層開始,然后是一個隱藏層,該層將模態(tài)投射到一個共同空間[9],[145],[156],[227]。

表二:多模表示技術(shù)綜述。我們確定了三個聯(lián)合表示的子類型(第3.1節(jié))和兩個協(xié)調(diào)表示的子類型(第3.2節(jié))。對于模態(tài)+表示組合模態(tài)

然后,聯(lián)合多模態(tài)表示通過多個隱含層本身或直接用于預(yù)測。這種模型可以進(jìn)行端到端訓(xùn)練——學(xué)習(xí)如何表示數(shù)據(jù)和執(zhí)行特定任務(wù)。在神經(jīng)網(wǎng)絡(luò)中,多模態(tài)表示學(xué)習(xí)與多模態(tài)融合有著密切的關(guān)系。

由于神經(jīng)網(wǎng)絡(luò)需要大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù),因此通常使用自動編碼器對無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練[80]。Ngiam等人提出的模型[151]將使用自動編碼器的思想擴(kuò)展到多模域。他們使用堆疊式去噪自動編碼器分別表示每個模態(tài),然后使用另一個自動編碼器層將它們?nèi)诤铣啥嗄B(tài)表示。同樣,Silberer和Lapata[184]提議使用多模自動編碼器來完成語義概念基礎(chǔ)的任務(wù)(見第7.2節(jié))。除了使用重構(gòu)損失訓(xùn)練表示,它們還將一個術(shù)語引入到使用表示來預(yù)測對象標(biāo)簽的損失函數(shù)中。由于使用AutoEncoder構(gòu)造的表示是通用的,不一定是針對特定任務(wù)優(yōu)化的,因此通常對手頭特定任務(wù)的結(jié)果表示進(jìn)行微調(diào)[217]。

基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合表示的主要優(yōu)勢在于其通常具有優(yōu)越的性能,并且能夠在無監(jiān)督的情況下對表示進(jìn)行預(yù)訓(xùn)練。然而,性能的提高取決于可用于訓(xùn)練的數(shù)據(jù)量。缺點之一是模型不能自然地處理丟失的數(shù)據(jù)——盡管有一些方法可以緩解這個問題[151],[217]。最后,深度網(wǎng)絡(luò)往往很難訓(xùn)練[69],但該領(lǐng)域在更好的訓(xùn)練技術(shù)方面正在取得進(jìn)展[196]。

概率圖形模型是另一種通過使用潛在隨機(jī)變量來構(gòu)造表示的常用方法[18]。在本節(jié)中,我們將描述如何使用概率圖模型來表示單模和多模數(shù)據(jù)?;趫D形模型的表示最流行的方法是受限玻爾茲曼機(jī):deep Boltzmann machines (DBM)[176],將restricted Boltzmann machines (RBM)[81]堆疊起來作為構(gòu)建塊。與神經(jīng)網(wǎng)絡(luò)類似,DBM的每個連續(xù)層都期望在更高的抽象級別上表示數(shù)據(jù)。DBMs的吸引力來自于他們不需要監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練的事實[176]。由于它們是圖形模型,因此數(shù)據(jù)的表示是概率的,但是可以將它們轉(zhuǎn)換為確定性神經(jīng)網(wǎng)絡(luò)——但這就失去了模型的生成方面[176]。

Srivastava和Salakhutdinov[197]的工作引入了多模態(tài)深度信念網(wǎng)絡(luò)作為多模態(tài)表征。Kim等[104]對每一種模態(tài)都使用了一個深度信念網(wǎng)絡(luò),然后將其組合成聯(lián)合表征進(jìn)行視聽情感識別。Huang and KingsburyAVSR[86]采用了類似的模型,Wu等[225]基于音頻和骨骼關(guān)節(jié)的手勢識別。

Srivastava和Salakhutdinov[198]將多模態(tài)深度信念網(wǎng)絡(luò)擴(kuò)展到了多模態(tài)DBMs中。多模態(tài)DBMs能夠從多種模態(tài)中學(xué)習(xí)聯(lián)合表示,方法是使用隱藏單元的二進(jìn)制層合并兩個或多個無向圖。由于模型的無向性,它們允許每個模態(tài)的低級表示在聯(lián)合訓(xùn)練后相互影響。Ouyang等[156]探討了多模態(tài)DBMs在多視圖數(shù)據(jù)人體姿態(tài)估計中的應(yīng)用。他們證明,在單模態(tài)數(shù)據(jù)經(jīng)過非線性轉(zhuǎn)換后的后期對數(shù)據(jù)進(jìn)行集成對模型是有益的。同樣,Suk等[199]利用多模態(tài)DBM表示法從正電子發(fā)射斷層掃描和磁共振成像數(shù)據(jù)中對阿爾茨海默病進(jìn)行分類。使用多模態(tài)DBMs學(xué)習(xí)多模態(tài)表示的最大優(yōu)點之一是其生成特性,這允許以一種簡單的方式處理丟失的數(shù)據(jù)——即使整個模態(tài)丟失,模型也有一種自然的處理方法。它還可以用于在另一種模態(tài)存在的情況下生成一種模態(tài)的樣本,或者從表示中生成兩種模態(tài)的樣本。與自動編碼器類似,可以以非監(jiān)督的方式對表示進(jìn)行訓(xùn)練,從而支持使用未標(biāo)記的數(shù)據(jù)。DBMs的主要缺點是訓(xùn)練困難,計算成本高,需要使用近似變分訓(xùn)練方法[198]。

順序表示。到目前為止,我們已經(jīng)討論了可以表示固定長度數(shù)據(jù)的模型,但是,我們通常需要表示不同長度的序列,例如句子、視頻或音頻流。在本節(jié)中,我們將描述可用于表示此類序列的模型。遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)及其變體,如長-短時記憶(LSTMs)網(wǎng)絡(luò)[82],由于在不同任務(wù)的[12]序列建模方面的成功,近年來受到了廣泛的歡迎[213]。到目前為止,RNNs主要用于表示單模態(tài)的單詞、音頻或圖像序列,在語言領(lǐng)域取得了很大的成功。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相似,RNN的隱藏狀態(tài)可以看作是數(shù)據(jù)的一種表示,也就是說,RNN在時間步t處的隱藏狀態(tài)可以看作是該時間步之前序列的總結(jié)。這在RNN編碼器框架中尤為明顯,編碼器的任務(wù)是以解碼器可以重構(gòu)的方式來表示處于RNN隱藏狀態(tài)的序列[12]。RNN表示的使用并不局限于單模態(tài)域。使用rns構(gòu)造多模態(tài)表示的早期使用來自Cosi等人在AVSR上的工作。它們還用于表示影響識別的視聽數(shù)據(jù)[37]、[152]和表示多視圖數(shù)據(jù),例如用于人類行為分析的不同視覺線索[166]。

3.2協(xié)同表示

聯(lián)合多模表示的一種替代方法是協(xié)同表示。我們不是將模態(tài)一起投影到一個聯(lián)合空間中,而是為每個模態(tài)學(xué)習(xí)單獨的表示,但是通過一個約束來協(xié)調(diào)它們。我們從強(qiáng)調(diào)表示之間的相似性的協(xié)調(diào)表示開始討論,接著討論在結(jié)果空間上加強(qiáng)結(jié)構(gòu)的協(xié)調(diào)表示(表2中可以看到不同協(xié)調(diào)表示的代表性作品)。相似模型最小化了協(xié)調(diào)空間中模態(tài)之間的距離。例如,這種模型鼓勵“狗”和“狗”兩個詞的表示,它們之間的距離小于“狗”和“汽車”兩個詞之間的距離[61]。最早的例子之一就是韋斯頓等人的研究。在WSABIE(通過圖像嵌入的網(wǎng)絡(luò)比例注釋)模型中,為圖像及其注釋構(gòu)建了一個協(xié)調(diào)的空間。WSABIE從圖像和文本特征構(gòu)造了一個簡單的線性映射,這樣相應(yīng)的注釋和圖像表示在它們之間會比不相關(guān)的注釋和圖像表示有更高的內(nèi)積(更小的余弦距離)。

近年來,神經(jīng)網(wǎng)絡(luò)由于具有學(xué)習(xí)表示的能力,已成為一種常用的構(gòu)造協(xié)調(diào)表示的方法。它們的優(yōu)勢在于能夠以端到端的方式共同學(xué)習(xí)協(xié)調(diào)的表示。這種協(xié)調(diào)表示的一個例子是設(shè)計——深度視覺語義嵌入[61]。設(shè)計使用了類似于WSABIE的內(nèi)積和排序損失函數(shù),但使用了更復(fù)雜的圖像和單詞嵌入。Kiros等[105]利用LSTM模型和兩兩排序損失來協(xié)調(diào)特征空間,將其擴(kuò)展到句子和圖像的協(xié)調(diào)表示。Socher等人[191]處理了相同的任務(wù),但將語言模型擴(kuò)展到依賴樹RNN以合并組合語義。Pan等人也提出了類似的模型。[159],但使用視頻而不是圖像。Xu等人[231]還使用主題、動詞、賓語組合語言模型和深層視頻模型構(gòu)建了視頻和句子之間的協(xié)調(diào)空間。然后將該表示用于跨模式檢索和視頻描述任務(wù)。

雖然上面的模型強(qiáng)制表示之間的相似性,但結(jié)構(gòu)化的協(xié)調(diào)空間模型超越了這一點,并且在模態(tài)表示之間強(qiáng)制執(zhí)行額外的約束。強(qiáng)制的結(jié)構(gòu)類型通常基于應(yīng)用程序,對于散列、跨模態(tài)檢索和圖像標(biāo)題有不同的約束。結(jié)構(gòu)化協(xié)調(diào)空間通常用于跨模式散列-將高維數(shù)據(jù)壓縮為緊湊的二進(jìn)制代碼,并對類似對象使用相似的二進(jìn)制代碼[218]??缒J缴⒘械乃枷胧菫榭缒J綑z索創(chuàng)建這樣的代碼[27]、[93]、[113]。哈希對產(chǎn)生的多模態(tài)空間施加一定的約束: 1)它必須是一個n維漢明空間-一個二進(jìn)制表示,位數(shù)可控;2)來自不同模態(tài)的同一對象必須具有相似的散列碼;3)空間必須保持相似性。學(xué)習(xí)如何將數(shù)據(jù)表示為哈希函數(shù),試圖實現(xiàn)這三個要求[27][113]。例如,Jiang和Li[92]提出了一種利用端到端可訓(xùn)練的深度學(xué)習(xí)技術(shù)來學(xué)習(xí)句子描述和相應(yīng)圖像之間這種常見的二進(jìn)制空間的方法。Cao等人對該方法進(jìn)行了擴(kuò)展,采用了更復(fù)雜的LSTM語句表示,引入了離群點不敏感的逐位邊緣損失和基于相關(guān)性反饋的語義相似約束。同樣,Wang等人[219]構(gòu)建了一個協(xié)調(diào)的空間,其中具有相似含義的圖像(和句子)彼此更接近。

結(jié)構(gòu)化協(xié)調(diào)表示的另一個例子來自圖像和語言的順序嵌入[212],[249]。Vendrov等[212]提出的模型強(qiáng)制執(zhí)行了一個不對稱的不相似度量,實現(xiàn)了多模態(tài)空間中的偏序概念。其思想是捕獲語言和圖像表示的部分順序——在空間上強(qiáng)制執(zhí)行層次結(jié)構(gòu);例如“遛狗的女人”的形象→文本“遛狗的女人”→文本“女人走路”。Young等人[238]也提出了一個使用符號圖的類似模型,其中符號圖用于誘導(dǎo)部分排序。最后,Zhang等人提出了如何利用文本和圖像的結(jié)構(gòu)化表示以一種無監(jiān)督的方式創(chuàng)建概念分類[249]。

結(jié)構(gòu)協(xié)調(diào)空間的一個特殊情況是基于正則相關(guān)分析(CCA)的情況[84]。CCA計算一個線性投影,該投影最大化了兩個隨機(jī)變量(在我們的例子中是模態(tài))之間的相關(guān)性,并強(qiáng)制新空間的正交性。CCA模型被廣泛用于跨模態(tài)檢索[76],[106],[169]和視聽信號分析[177],[187]。對CCA的擴(kuò)展試圖構(gòu)造一個最大相關(guān)非線性投影[7][116]。核正則相關(guān)分析(Kernel canonical correlation analysis, KCCA)[116]使用復(fù)制核希爾伯特空間進(jìn)行投影。但是,由于該方法是非參數(shù)的,因此它與訓(xùn)練集的大小之間的伸縮性很差,并且與非常大的實際數(shù)據(jù)集之間存在問題。引入了深正則相關(guān)分析(DCCA)[7]作為KCCA的替代方法,解決了可擴(kuò)展性問題,并給出了更好的相關(guān)表示空間。類似的通信自動編碼器[58]和深度通信RBMS[57]也被提議用于跨模式檢索。

CCA、KCCA和DCCA是無監(jiān)督的技術(shù),只優(yōu)化表示上的相關(guān)性,因此主要捕獲跨模式共享的內(nèi)容。深層規(guī)范相關(guān)的自動編碼器[220]還包括一個基于自動編碼器的數(shù)據(jù)重建術(shù)語。這促使表示也能捕獲模態(tài)特定的信息。語義相關(guān)最大化方法[248]也鼓勵語義相關(guān)性,同時保留相關(guān)最大化和由此產(chǎn)生的空間的正交性-這導(dǎo)致了CCA和跨模式散列技術(shù)的結(jié)合。

3.3討論

在本節(jié)中,我們確定了兩種主要的多模態(tài)表示形式——聯(lián)合和協(xié)調(diào)。聯(lián)合表示將多模態(tài)數(shù)據(jù)投射到一個公共空間中,最適合在推理過程中出現(xiàn)所有模態(tài)的情況。它們被廣泛用于AVSR、情感和多模手勢識別。另一方面,協(xié)調(diào)表示法將每個模態(tài)投影到一個單獨但協(xié)調(diào)的空間中,使其適用于測試時只有一個模態(tài)的應(yīng)用,例如:多模態(tài)檢索和翻譯(第4節(jié))、接地(第7.2節(jié))和零鏡頭學(xué)習(xí)(第7.2節(jié))。最后,雖然聯(lián)合表示用于構(gòu)建兩種以上模態(tài)的表示,但到目前為止,協(xié)調(diào)空間主要限于兩種模態(tài)。

表3:多模態(tài)翻譯研究的分類。對于每個類和子類,我們都包含了帶有引用的示例任務(wù)。我們的分類還包括翻譯的方向性:單向(?)和雙向(?)。

4 翻譯(以下部分翻譯的較好)

多模機(jī)器學(xué)習(xí)的很大一部分涉及從一種形式到另一種形式的翻譯(映射)。給定一個模態(tài)中的實體,任務(wù)是用不同的模態(tài)生成相同的實體。例如,給定一個圖像,我們可能希望生成一個描述它的句子,或者給定一個文本描述,生成一個匹配它的圖像。多模態(tài)翻譯是一個長期研究的問題,在語音合成[88]、視覺語音生成[136]、視頻描述[107]、跨模態(tài)檢索[169]等領(lǐng)域都有早期的工作。

近年來,由于計算機(jī)視覺和自然語言處理(NLP)社區(qū)[19]的共同努力,以及大型多模態(tài)數(shù)據(jù)集[38]最近的可用性,多模態(tài)翻譯重新引起了人們的興趣[205]。一個特別受歡迎的問題是視覺場景描述,也稱為圖像[214]和視頻字幕[213],它是許多計算機(jī)視覺和NLP問題的一個很好的測試平臺。要解決這一問題,我們不僅要充分理解視覺場景,識別其突出的部分,而且要在語法上正確、全面而簡潔的描述它的句子。雖然多模態(tài)翻譯的方法非常廣泛,而且通常是模態(tài)特有的,但它們有許多共同的因素。我們將它們分為兩類——基于實例的和生成的。基于實例的模型在模式之間轉(zhuǎn)換時使用字典。

另一方面,生成模型構(gòu)建了一個能夠產(chǎn)生翻譯的模型。這種區(qū)別類似于非參數(shù)和參數(shù)機(jī)器學(xué)習(xí)方法之間的區(qū)別,如圖2所示,表3總結(jié)了代表性示例。

生成模型可能更具挑戰(zhàn)性,因為它們需要生成信號或符號序列(例如句子)的能力。這對于任何形式來說都是困難的——視覺的、聽覺的或口頭的,尤其是當(dāng)需要生成時間上和結(jié)構(gòu)上一致的序列時。這導(dǎo)致了許多早期的多模態(tài)翻譯系統(tǒng)依賴于基于實例的翻譯。但是,隨著能夠生成圖像[171]、[210]、聲音[157]、[209]和文本[12]的深度學(xué)習(xí)模型的出現(xiàn),這種情況一直在發(fā)生變化。

圖2:基于實例和生成式多模態(tài)翻譯概述。前者從字典中檢索最佳翻譯,而后者首先在字典上訓(xùn)練翻譯模型,然后使用該模型進(jìn)行翻譯。

4.1基于實例

基于實例的算法受到訓(xùn)練數(shù)據(jù)字典的限制(見圖2a)。我們確定了這類算法的兩種類型:基于檢索的算法和基于組合的算法?;跈z索的模型直接使用檢索到的轉(zhuǎn)換,而不需要修改它,而基于組合的模型依賴于更復(fù)雜的規(guī)則來基于大量檢索到的實例創(chuàng)建轉(zhuǎn)換。

基于檢索的模型可以說是多模態(tài)翻譯的最簡單形式。它們依賴于在字典中找到最接近的樣本,并將其用作翻譯結(jié)果。檢索可以在單模態(tài)空間或中間語義空間進(jìn)行。

給定要翻譯的源模態(tài)實例,單模態(tài)檢索在字典中查找源空間中最接近的實例——例如圖像的視覺特征空間。這種方法已被用于視覺語音合成,檢索最匹配的音素[26]的視覺示例。它們也被用于連接文本到語音系統(tǒng)[88]。最近,Ordonez等[155]利用單模態(tài)檢索,利用全局圖像特征檢索標(biāo)題候選,生成圖像描述[155]。Yagcioglu等[232]利用一種基于cnn的圖像表示方法,利用自適應(yīng)鄰域選擇檢索視覺上相似的圖像。Devlin等人在[49]中證明了一個簡單的k近鄰檢索方法與更復(fù)雜的生成方法相比,具有一致標(biāo)題選擇的k近鄰檢索方法能夠獲得具有競爭力的翻譯結(jié)果。這種單模態(tài)檢索方法的優(yōu)點是,它們只需要表示我們所使用的單一模態(tài)進(jìn)行檢索。然而,它們通常需要額外的處理步驟,如重新排列檢索到的譯文[135]、[155]、[232]。這表明這種方法的一個主要問題——單模態(tài)空間的相似性并不總是意味著好的翻譯。另一種方法是在檢索過程中使用中間語義空間進(jìn)行相似性比較。手工語義空間的一個早期示例是Farhadi等人使用的。它們將句子和圖像映射到一個空間,這個空間包含了對象、動作、場景和相關(guān)檢索,然后在該空間中執(zhí)行圖像的標(biāo)題。Socher等[191]學(xué)習(xí)了句子的協(xié)調(diào)表示和CNN視覺特征(關(guān)于協(xié)調(diào)空間的描述,請參見3.2節(jié)),這與手工制作表示不同。他們使用該模型既可以將文本轉(zhuǎn)換為圖像,也可以將圖像轉(zhuǎn)換為文本。類似地,Xu等[231]使用視頻及其描述的協(xié)調(diào)空間進(jìn)行跨模態(tài)檢索。Jiang和Li[93]以及Cao等人[[32]]使用跨模態(tài)哈希(cross-modal hashing)來實現(xiàn)圖像到句子和句子之間的多模態(tài)轉(zhuǎn)換,Hodosh等人[83]使用多模態(tài)KCCA空間進(jìn)行圖像entence檢索。Karpathy等人[99]提出了一種多模態(tài)相似度度量方法,可以在內(nèi)部將圖像片段(視覺對象)與句子片段對齊,而不是在公共空間中對圖像和句子進(jìn)行全局對齊(依賴關(guān)系樹)。語義空間中的檢索方法往往比單模態(tài)的檢索方法表現(xiàn)得更好,因為它們是在一個更有意義的空間中檢索示例,該空間反映了兩種模式,而且通常是為檢索而優(yōu)化的。此外,它們允許雙向翻譯,這在單模態(tài)方法中不是很直觀。然而,它們需要手工構(gòu)建或?qū)W習(xí)這樣的語義空間,這通常依賴于大型訓(xùn)練字典(成對樣本的數(shù)據(jù)集)的存在。

基于組合的模型進(jìn)一步采用了基于檢索的方法。它們不只是從字典中檢索示例,而是以一種有意義的方式將它們組合起來,以構(gòu)建更好的翻譯?;诮M合的媒體描述方法的出發(fā)點是圖像的句子描述具有共性和簡單性可以利用的結(jié)構(gòu)。組合規(guī)則通常是手工制定的或基于啟發(fā)式的。Kuznetsova等[114]首先檢索描述視覺上相似的圖像的短語,然后將它們組合起來,使用整數(shù)線性規(guī)劃和一些手工規(guī)則生成查詢圖像的新描述。Gupta等[74]首先找到k個與源圖像最相似的圖像,然后使用從其標(biāo)題中提取的短語生成一個目標(biāo)句子。Lebret等[119]使用基于cnn的圖像表示來推斷描述它的短語。然后使用三元模型將預(yù)測的短語組合起來?;谑纠姆g方法面臨的一個大問題是,模型是整個詞典——使得模型變大,推理變慢(不過,諸如散列之類的優(yōu)化可以緩解這個問題)?;趯嵗姆g面臨的另一個問題是,除非任務(wù)簡單或字典很大,否則期望與源示例相關(guān)的完整和準(zhǔn)確的翻譯總是存在于字典中是不現(xiàn)實的。這部分由能夠構(gòu)建更復(fù)雜結(jié)構(gòu)的組合模型來解決。然而,它們只能在一個方向上執(zhí)行翻譯,而基于語義空間檢索的模型可以同時執(zhí)行這兩種方式。

4.2生成方法

在給定單模源實例的情況下,多模翻譯的生成方法構(gòu)造了能夠執(zhí)行多模翻譯的模型。這是一個具有挑戰(zhàn)性的問題,因為它需要同時理解源模態(tài)和生成目標(biāo)序列或信號的能力。正如下面一節(jié)所討論的,由于可能的正確答案空間很大,這也使得這些方法更難評估。

在這項調(diào)查中,我們關(guān)注三種形式的產(chǎn)生:語言、視覺和聲音。語言生成已經(jīng)探索了很長一段時間[170],最近很多人關(guān)注圖像和視頻描述等任務(wù)[19]。語音和聲音的產(chǎn)生也經(jīng)歷了許多歷史[88]和現(xiàn)代方法[157],[209]。照片般逼真的圖像生成一直沒有被探索過,并且仍然處于早期階段[132],[171],但是,在生成抽象場景[253]、計算機(jī)圖形[45]和說話的頭部[6]方面,已經(jīng)進(jìn)行了多次嘗試。

我們確定了三大類生成模型:基于語法的、編碼器-解碼器和連續(xù)生成模型?;谡Z法的模型通過使用語法限制目標(biāo)域來簡化任務(wù),例如,通過基于<subject,object,verb>模板生成受限制的句子。編碼器-解碼器模型首先將源模態(tài)編碼為潛在的表示形式,然后由解碼器使用該表示形式生成目標(biāo)模態(tài)。連續(xù)生成模型是在源模態(tài)輸入流的基礎(chǔ)上連續(xù)生成目標(biāo)模態(tài)適用于時間序列之間的轉(zhuǎn)換,如文本到語音。

基于語法的模型依賴于預(yù)定義的語法來生成特定的模態(tài)。它們首先從源模式檢測高級概念,例如圖像中的對象和視頻中的動作。然后將這些檢測與基于預(yù)定義語法的生成過程結(jié)合在一起,生成目標(biāo)模態(tài)。Kojima等[107]提出了一種利用檢測到的人的頭和手的位置以及基于規(guī)則的自然語言生成來描述視頻中人類行為的系統(tǒng),該系統(tǒng)融合了概念和行為的層次結(jié)構(gòu)。Barbu et al.[14]提出了一種視頻描述模型,該模型可以生成這種形式的句子:who did what to whom and where and how they did it。該系統(tǒng)基于手工制作的對象和事件分類器,并使用了適合任務(wù)的受限語法。Guadarrama等人[73]預(yù)測<subject,verb,object>三元組,使用語義層次描述視頻,在不確定的情況下使用更通用的詞。與語言模型一起,他們的方法允許翻譯字典中看不到的動詞和名詞。

為了描述圖像,Yao等[235]提出使用基于and或圖形的模型,結(jié)合領(lǐng)域特定的詞匯化語法規(guī)則、有針對性的視覺表示方案和層次知識本體。Li等[121]首先檢測對象、視覺屬性和對象之間的空間關(guān)系。然后在視覺提取的短語上使用n-gram語言模型生成<subject、preposition、object>樣式的語句。Mitchell等人[142]使用了更復(fù)雜的基于樹的語言模型生成語法樹而不是填充模板,從而導(dǎo)致更多樣化的描述。

大多數(shù)方法都將整個圖像聯(lián)合起來表示為一袋視覺對象,而不捕獲它們的空間和語義關(guān)系。為了解決這個問題,Elliott等人[51]建議顯式建模對象的鄰近關(guān)系,以生成圖像描述。

一些基于語法的方法依賴于圖形模型來生成目標(biāo)模態(tài)。一個例子是BabyTalk[112],它給出了一個圖像生成<object, preposition, object>三元組,和一個條件隨機(jī)字段一起使用來構(gòu)造句子。Yang等[233]利用從圖像中提取的視覺特征預(yù)測一組<名、動詞、場景、介詞>候選詞,并用統(tǒng)計語言模型和隱馬爾可夫模型風(fēng)格推理將其組合成一個句子。Thomason等[204]也提出了類似的方法,利用因子圖模型對形式<subject、verb、object、place>進(jìn)行視頻描述。因子模型利用語言統(tǒng)計信息處理噪聲的視覺表示。Zitnick等[253]則提出利用條件隨機(jī)域從句子中提取的語言三聯(lián)來生成抽象的視覺場景。

基于語法的方法的一個優(yōu)點是,當(dāng)它們使用預(yù)定義模板和受限制的語法時,它們更有可能生成語法上(對于語言)或邏輯上正確的目標(biāo)實例。然而,這限制了他們產(chǎn)生公式化,而不是創(chuàng)造性翻譯。此外,基于語法的方法依賴于復(fù)雜的管道進(jìn)行概念檢測,每個概念都需要單獨的模型和單獨的訓(xùn)練數(shù)據(jù)集。

基于端到端訓(xùn)練神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器模型是目前最流行的多模態(tài)翻譯技術(shù)之一。該模型的主要思想是首先將源模態(tài)編碼為矢量表示,然后使用解碼器模塊生成目標(biāo)模態(tài),所有這些都在一個單通道管道中。雖然該模型首次用于機(jī)器翻譯[97],但已成功用于圖像字幕[134]、[214]和視頻描述[174]、[213]。迄今為止,編碼器模型主要用于生成文本,但也可用于生成圖像[132]、[171]和語音連續(xù)生成[157]、[209]。

編碼器-解碼器模型的第一步是對源對象進(jìn)行編碼,這是以特定的方式完成的。常用的聲學(xué)信號編碼模型包括RNNs[35]和DBNs[79]。對單詞和句子進(jìn)行編碼的大部分工作使用分布語義[141]和RNNs[12]的變體。圖像通常使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行編碼[109],[185]。雖然學(xué)習(xí)CNN表示是常見的圖像編碼,但這不是視頻的情況,手工制作的功能仍然普遍使用[174],[204]。雖然可以使用單模態(tài)表示對源模態(tài)進(jìn)行編碼,但已經(jīng)證明使用協(xié)調(diào)空間(參見3.2節(jié))可以獲得更好的結(jié)果[105]、[159]和[231]。

解碼通常由RNN或LSTM執(zhí)行,使用編碼的表示作為初始隱藏狀態(tài)[54],[132],[214],[215]。對傳統(tǒng)的LSTM模型提出了一些擴(kuò)展,以幫助完成翻譯任務(wù)??梢允褂脤?dǎo)向量將圖像輸入中的解緊密耦合[91]。Venugopalan等[213]證明,在將解碼器LSTM微調(diào)為視頻描述之前,對其進(jìn)行圖像字幕預(yù)處理是有益的。Rohrbach等[174]探討了用于視頻描述任務(wù)的各種LSTM架構(gòu)(單層、多層、分解)和一些訓(xùn)練和正則化技術(shù)的使用。

使用RNN進(jìn)行翻譯生成所面臨的一個問題是,模型必須從圖像、句子或視頻的單個矢量表示生成描述。在生成長序列時,這一點尤其困難,因為這些模型往往會忘記初始輸入。神經(jīng)注意模型(見5.2節(jié))部分解決了這一問題,它允許網(wǎng)絡(luò)在生成過程中聚焦于圖像[230]、句子[12]或視頻[236]的某些部分。

基于生成注意的神經(jīng)網(wǎng)絡(luò)也被用于從句子中生成圖像的任務(wù)[132],盡管其結(jié)果仍遠(yuǎn)未達(dá)到照片真實感,但顯示出了很大的前景。近年來,利用生成對抗性網(wǎng)絡(luò)生成圖像的研究取得了很大進(jìn)展[71],該網(wǎng)絡(luò)已被用于替代RNNs從文本生成圖像[171]。

雖然基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器系統(tǒng)已經(jīng)取得了很大的成功,但仍然面臨許多問題。Devlin等人[49]認(rèn)為,網(wǎng)絡(luò)可能是在記憶訓(xùn)練數(shù)據(jù),而不是學(xué)習(xí)如何理解和生成視覺場景。

這是基于K-最近鄰模型與基于生成的模型的性能非常相似的觀察結(jié)果。此外,此類模型通常需要大量數(shù)據(jù)進(jìn)行培訓(xùn)。連續(xù)生成模型用于序列轉(zhuǎn)換,并以在線方式在每個時間步上生成輸出。這些模型在將序列轉(zhuǎn)換為序列(如文本到語音、語音到文本和視頻到文本)時非常有用。已經(jīng)為此類建模提出了許多不同的技術(shù)——圖形模型、連續(xù)編碼器-解碼器方法以及各種其他回歸或分類技術(shù)。這些模型需要解決的額外困難是模式之間的時間一致性要求。

許多早期的序列到序列翻譯工作使用圖形或潛在變量模型。Deena和Galata[47]提出使用共享高斯過程潛在變量模型進(jìn)行基于音頻的視覺語音合成。該模型在音頻和視頻特征之間創(chuàng)建了一個共享的潛在空間,可用于從另一個特征生成一個空間,同時在不同的時間點增強(qiáng)視覺語音的時間一致性。

隱馬爾可夫模型(HMM)也被用于視覺語音生成[203]和文本語音轉(zhuǎn)換[245]任務(wù)。它們還被擴(kuò)展到使用集群自適應(yīng)訓(xùn)練,以允許對多個揚聲器、語言和情感進(jìn)行訓(xùn)練,從而在生成語音信號[244]或視覺語音參數(shù)[6]時實現(xiàn)更大的控制。

編碼器-解碼器模型最近已成為序列到序列建模的流行模式。歐文斯等人。[157]使用LSTM根據(jù)視頻生成雞腿的聲音。雖然他們的模型能夠通過預(yù)測CNN視頻特征中的耳蝸圖來產(chǎn)生聲音,但他們發(fā)現(xiàn),根據(jù)預(yù)測的耳蝸圖檢索最近的音頻樣本可以獲得最佳結(jié)果。van den Oord等人提出了直接模擬語音和音樂生成的原始音頻信號?!?09〕。作者建議使用層次結(jié)構(gòu)的全卷積神經(jīng)網(wǎng)絡(luò),這表明在語音合成任務(wù)上,它比以前的先進(jìn)技術(shù)有了很大的改進(jìn)。RNN也被用于語音到文本翻譯(語音識別)[72]。最近,基于編碼器-解碼器的連續(xù)方法被證明能夠很好地預(yù)測語音信號中的字母,該語音信號表示為濾波器組光譜[35]——允許更準(zhǔn)確地識別稀有和詞匯外的單詞。Collobert等人[42]演示如何直接使用原始音頻信號進(jìn)行語音識別,無需音頻功能。許多早期的工作使用圖形模型來進(jìn)行連續(xù)信號之間的多模態(tài)轉(zhuǎn)換。然而,這些方法正被基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器技術(shù)所取代。特別是它們最近被證明能夠表示和產(chǎn)生復(fù)雜的視覺和聲學(xué)信號。

4.3模型評價與討論

多模態(tài)翻譯方法面臨的一個主要挑戰(zhàn)是很難對其進(jìn)行評價。雖然語音識別等任務(wù)只有一個正確的翻譯,但語音合成和媒體描述等任務(wù)沒有。有時,就像在語言翻譯中一樣,多個答案都是正確的,決定哪個翻譯更好往往是主觀的。幸運的是,在模型評估中有許多近似的自動度量。

通常,評價主觀任務(wù)的理想方法是通過人的判斷。那就是讓一組人評估每一個翻譯。這可以在Likert量表上進(jìn)行,在該量表中,每個翻譯都在一定的維度上進(jìn)行評估:語音合成的自然度和平均意見分?jǐn)?shù)[209]、[244]、視覺語音合成的現(xiàn)實性[6]、[203]以及媒體描述的語法和語義正確性、相關(guān)性、順序和細(xì)節(jié)[38]、[112]、[142]、[213]。另一種選擇是進(jìn)行偏好研究,即向參與者提供兩個(或多個)翻譯以進(jìn)行偏好比較[203],[244]。然而,雖然用戶研究的結(jié)果將得出最接近人類判斷的評價,但它們是費時和昂貴的。此外,在構(gòu)建和引導(dǎo)它們時需要小心,以避免流暢性、年齡、性別和文化偏見。

雖然人類研究是評估的黃金標(biāo)準(zhǔn),但已經(jīng)為媒體描述的任務(wù)提出了許多自動替代方案:BLUE [160]、ROUGE [124]、Meteor [48]和CIDEr[ 211]。這些指標(biāo)直接取自(或基于)機(jī)器翻譯中的工作,并計算出度量兩者之間相似性的得分生成的和基本的真實文本。

然而,它們的使用卻面臨著許多批評。Elliott和Keller[52]表明,句子水平的單格BLeu與人類判斷的相關(guān)性很弱。Huang等人[87]證明人類判斷與布魯和流星之間的相關(guān)性對于視覺故事講述任務(wù)來說非常低。此外,基于人類判斷的方法排序與在MS Coco挑戰(zhàn)[38]中使用自動度量的排序不匹配,因為在所有度量上,有大量算法優(yōu)于人類。最后,只有在大量參考翻譯很高的情況下,這些指標(biāo)才能很好地工作[211],這通常是不可用的,尤其是對于當(dāng)前的視頻描述數(shù)據(jù)集[205]。

這些批評導(dǎo)致Hodosh等人[83]提出使用檢索作為圖像字幕評價的代理,他們認(rèn)為這更好地反映了人類的判斷。基于檢索的系統(tǒng)不是生成標(biāo)題,而是根據(jù)標(biāo)題與圖像的匹配程度對可用標(biāo)題進(jìn)行排序,然后通過評估正確的標(biāo)題是否具有較高的排名來進(jìn)行評估。由于許多標(biāo)題生成模型具有生成性,因此它們可以直接用于評估給定圖像的標(biāo)題的可能性,而且圖像標(biāo)題社區(qū)正在對這些模型進(jìn)行調(diào)整[99],[105]。視頻字幕社區(qū)也采用了這種基于檢索的評價指標(biāo)[175]。

視覺問答(Visual question-answer, VQA)[130]任務(wù)的提出部分是由于圖像字幕評價面臨的問題。VQA是一項任務(wù),其中給定一個映像和一個關(guān)于其內(nèi)容的問題,系統(tǒng)必須回答它。由于有了正確的答案,評估這樣的系統(tǒng)就更容易了。然而,它仍然面臨著某些問題和答案的模糊性和問題傾向性等問題。

我們認(rèn)為,解決評價問題對多式翻譯系統(tǒng)的進(jìn)一步成功至關(guān)重要。這樣不僅可以更好地比較各種方法,而且可以優(yōu)化更好的目標(biāo)。

5 對齊

我們將多模態(tài)對齊定義為從兩個或多個模態(tài)中查找實例子組件之間的關(guān)系和對應(yīng)。例如,給定一幅圖像和一個標(biāo)題,我們希望找到與標(biāo)題的單詞或短語對應(yīng)的圖像區(qū)域[98]。另一個例子是,給定一部電影,將其與劇本或書中它所基于的章節(jié)進(jìn)行比對[252]。

我們將多模態(tài)對齊分為隱式對齊和顯式對齊兩種類型。在顯式對齊中,我們顯式地對在模式之間對齊子組件感興趣,例如,使用相應(yīng)的教學(xué)視頻對齊菜譜步驟[131]。隱式對齊用作另一個任務(wù)的中間(通常是隱藏)步驟,例如,基于文本描述的圖像檢索可以包括單詞和圖像區(qū)域之間的對齊步驟[99]。這些方法的概述見表4,并在以下章節(jié)中進(jìn)行了更詳細(xì)的介紹。

表4:多模式對齊挑戰(zhàn)的分類匯總。對于分類法的每個子類,我們都包含參考引文和對齊的模式

5.1顯式對齊

如果論文的主要建模目標(biāo)是來自兩個或多個模式的實例子組件之間的對齊,那么我們將其歸類為執(zhí)行顯式對齊。顯式對齊的一個非常重要的部分是相似性度量。大多數(shù)方法依賴于以不同模式度量子組件之間的相似性作為基本構(gòu)建塊。這些相似性可以手動定義,也可以從數(shù)據(jù)中學(xué)習(xí)。

我們確定了兩種處理顯式對齊的算法——無監(jiān)督算法和(弱)監(jiān)督算法。第一種類型不使用直接對齊標(biāo)簽(即來自不同模式的實例之間的通信。第二種類型可以訪問這些(有時是弱)標(biāo)簽。

無監(jiān)督的多模式校準(zhǔn)解決了模式校準(zhǔn)而無需任何直接校準(zhǔn)標(biāo)簽。大多數(shù)方法都是從早期的統(tǒng)計機(jī)器翻譯校準(zhǔn)工作[28]和基因組序列[3],[111]中得到啟發(fā)的。為了使任務(wù)更簡單,這些方法假定了對對齊的某些約束,例如序列的時間順序或模式之間存在相似性度量。

Dynamic time warping (DTW) [3],[111]是一種被廣泛用于多視圖時間序列對齊的動態(tài)規(guī)劃方法。DTW測量兩個序列之間的相似性,并通過時間扭曲(插入幀)找到它們之間的最優(yōu)匹配。它要求兩個序列中的時間步驟具有可比性,并要求它們之間的相似性度量。DTW可以通過手工繪制模態(tài)之間的相似性度量直接用于多模態(tài)校準(zhǔn);例如Anguera等人[8]在字形和音素之間使用手工定義的相似性;以及Tapaswi等人[201]根據(jù)相同字符的外觀定義視覺場景和句子之間的相似性[201]以對齊電視節(jié)目和情節(jié)概要。類似DTW的動態(tài)編程方法也被用于文本到語音[77]和視頻[202]的多模式對齊。由于原始的DTW公式需要預(yù)先定義模態(tài)之間的相似性度量,因此使用正則相關(guān)分析(canonical correlation analysis, CCA)對其進(jìn)行擴(kuò)展,將模態(tài)映射到一個協(xié)調(diào)空間。這允許(通過DTW)對齊和(通過CCA)在不同的模態(tài)流之間以無監(jiān)督的方式聯(lián)合學(xué)習(xí)映射[180]、[250]、[251]?;贑CA的DTW模型能夠找到線性變換下的多模態(tài)數(shù)據(jù)對齊,但不能建立非線性關(guān)系的模型。深度規(guī)范時間翹曲方法[206]已經(jīng)解決了這一問題,它可以看作是深度CCA和DTW的一種推廣。

各種圖形模型也已流行于無監(jiān)督的多模序列排列。Yu和Ballard的早期作品[239]使用生成圖形模型將圖像中的視覺對象與口語對齊。庫爾等人[44]也采用了類似的方法,將電影快照和場景與相應(yīng)的劇本對齊。Malmaud等。[131]使用系數(shù)化的hmm將食譜與烹飪視頻對齊,而noulas等人[154]使用動態(tài)貝葉斯網(wǎng)絡(luò)將揚聲器與視頻對齊。Naim等人。[147]使用分層HMM模型將句子與幀對齊,并使用改進(jìn)的IBM[28]算法對單詞和對象進(jìn)行對齊,從而將句子與相應(yīng)的視頻幀進(jìn)行匹配[15]。然后將該模型擴(kuò)展到使用潛條件隨機(jī)字段進(jìn)行對齊[146],并將動詞對齊與名詞和對象之外的動作結(jié)合起來[195]。

用于對齊的DTW和圖形模型方法都允許對對齊進(jìn)行限制,例如時間一致性、時間無大跳躍和單調(diào)性。雖然DTW擴(kuò)展允許共同學(xué)習(xí)相似性度量和對齊,但基于圖形模型的方法需要專家知識來構(gòu)造[44],[239]。

監(jiān)督對齊方法依賴于標(biāo)記對齊的實例。它們用于訓(xùn)練用于對齊模式的相似性度量。

許多有監(jiān)督序列對齊技術(shù)都是從無監(jiān)督序列對齊技術(shù)中獲得靈感的。Bojanowski等人[22],[23]提出了一種類似于canonical time warping的方法,但也將其擴(kuò)展到利用現(xiàn)有(弱)監(jiān)督對齊數(shù)據(jù)進(jìn)行模型訓(xùn)練。Plummer等[161]利用CCA在圖像區(qū)域和短語之間尋找一個協(xié)調(diào)的空間進(jìn)行對齊。Gebru等[65]對高斯混合模型進(jìn)行訓(xùn)練,將半監(jiān)督聚類與無監(jiān)督的隱變量圖形模型進(jìn)行聚類,將音頻信道中的揚聲器與視頻中的位置進(jìn)行對齊。Kong等[108]訓(xùn)練了馬爾可夫隨機(jī)場將三維場景中的對象與文本描述中的名詞和代詞進(jìn)行對齊。

基于深度學(xué)習(xí)的方法越來越流行于顯式對齊(特別是用于度量相似性),這是因為最近在語言和視覺社區(qū)中出現(xiàn)了對齊的數(shù)據(jù)集[133]和[161]。Zhu等。[252]通過培訓(xùn)CNN來測量場景和文本之間的相似性,使書籍與相應(yīng)的電影/劇本保持一致。毛等人。[133]使用LSTM語言模型和CNN視覺模型來評估引用表達(dá)式和圖像中對象之間匹配的質(zhì)量。Yu等人[242]將該模型擴(kuò)展到包括相對外觀以及上下文信息,以便更好地消除同一類型對象之間的歧義。最后,Hu等人[85]使用基于LSTM的評分函數(shù)查找圖像區(qū)域及其描述之間的相似性。

5.2隱對齊

與顯式對齊相反,隱式對齊用作另一個任務(wù)的中間(通常是隱藏)步驟。這使得在許多任務(wù)中,包括語音識別、機(jī)器翻譯、媒體描述和視覺問答,可以獲得更好的性能。這類模型不顯式地對齊數(shù)據(jù),也不依賴于監(jiān)督對齊示例,而是學(xué)習(xí)如何在模型培訓(xùn)期間對數(shù)據(jù)進(jìn)行隱式對齊。我們確定了兩種類型的隱式對齊模型:早期基于圖形模型的工作和更現(xiàn)代的神經(jīng)網(wǎng)絡(luò)方法。

圖形模型已經(jīng)看到了一些早期的工作,用于更好地對齊機(jī)器翻譯語言之間的單詞[216]和語音音素與其轉(zhuǎn)錄的對齊[186]。但是,它們需要手動構(gòu)造模式之間的映射,例如,將電話映射到聲學(xué)特性的生成電話模型[186]。構(gòu)建這樣的模型需要培訓(xùn)數(shù)據(jù)或人類專業(yè)知識來手動定義它們。

神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換(第4節(jié))是一個建模任務(wù)的例子,如果將對齊作為潛在的中間步驟執(zhí)行,那么該任務(wù)通??梢缘玫礁倪M(jìn)。如前所述,神經(jīng)網(wǎng)絡(luò)是解決這一翻譯問題的常用方法,可以使用編碼器-解碼器模型,也可以通過跨模態(tài)檢索。當(dāng)翻譯在沒有隱式對齊的情況下執(zhí)行時,它最終會給編碼器模塊帶來很大的負(fù)擔(dān),使其能夠使用單個矢量表示正確地總結(jié)整個圖像、句子或視頻。

解決這一問題的一種非常流行的方法是通過關(guān)注[12],它允許解碼器將焦點放在源實例的子組件上。這與在傳統(tǒng)編碼器-解碼器模型中將所有源子組件一起編碼形成對比。注意模塊將告訴解碼器看起來更有針對性的子組件的源代碼翻譯領(lǐng)域的一個圖像[230],單詞句子的[12],段音頻序列[35],[39],一個視頻幀和地區(qū)[236],[241],甚至部分指令[140]。例如,在圖像字幕而不是使用CNN對整個圖像進(jìn)行編碼時,注意力機(jī)制將允許解碼器(通常是RNN)在生成每個連續(xù)單詞時聚焦圖像的特定部分[230]。注意力模塊,它學(xué)習(xí)圖像的哪個部分要聚焦,通常是一個淺層的神經(jīng)網(wǎng)絡(luò),與目標(biāo)任務(wù)(如翻譯)一起進(jìn)行端到端的訓(xùn)練。

注意力模型也被成功地應(yīng)用于答題任務(wù)中,因為它允許將問題中的單詞與信息源的子組件(如文本[228]、圖像[62]或視頻序列[246])進(jìn)行對齊。這既可以在回答問題時提供更好的性能,也可以帶來更好的模型可解釋性[4]。尤其是不同類型的注意力模型其中包括分層[128]、層疊[234]和情景記憶注意[228]。

Karpathy等人提出了另一種將圖像與標(biāo)題對齊以進(jìn)行跨模式檢索的神經(jīng)替代方法?!?8〕,〔99〕。他們提出的模型使用圖像區(qū)域和詞表示之間的點積相似度度量將句子片段與圖像區(qū)域?qū)R,雖然它不使用注意,但通過訓(xùn)練檢索模型間接學(xué)習(xí)的相似度度量,提取出形式之間潛在的對齊。

5.3討論

多模態(tài)對齊面臨許多困難:1)具有顯式標(biāo)注對齊的數(shù)據(jù)集較少;2)兩種模式之間的相似度指標(biāo)難以設(shè)計;3)可能存在多種可能的對齊方式,一種模式中的元素不一定在另一種模式中都有對應(yīng)關(guān)系。早期關(guān)于多模對準(zhǔn)的工作主要集中在以無監(jiān)督的方式使用圖形模型和動態(tài)編程技術(shù)。

它依賴于手工定義的模式之間相似性的度量,或者在無監(jiān)督的情況下學(xué)習(xí)它們。隨著最近標(biāo)簽訓(xùn)練數(shù)據(jù)的可用性,監(jiān)督學(xué)習(xí)模式之間的相似性已經(jīng)成為可能。然而,無監(jiān)督的技術(shù)學(xué)習(xí)聯(lián)合起來對齊、轉(zhuǎn)換或融合數(shù)據(jù)也變得流行起來。

6 融合

多模態(tài)融合是多模態(tài)機(jī)器學(xué)習(xí)中最早提出的課題之一,以往的研究主要側(cè)重于早期、晚期和混合融合方法[50][247]。在技術(shù)術(shù)語中,多模態(tài)融合是將來自多種模態(tài)的信息集成在一起,并以預(yù)測結(jié)果為目標(biāo)的概念:通過分類來預(yù)測一個類別(例如,快樂vs.悲傷),或者通過回歸來預(yù)測一個連續(xù)值(例如,情緒的積極性)。這是25年前工作的多模態(tài)機(jī)器學(xué)習(xí)中研究最多的方面之一[243]。

對多模態(tài)融合的興趣來自于它能提供的三個主要好處。首先,能夠訪問觀察同一現(xiàn)象的多種模式,可能會使預(yù)測更加可靠。

AVSR社區(qū)尤其探索和利用了這一點[163]。其次,能夠訪問多種模式可能允許我們捕獲互補(bǔ)的信息——一些在單獨的模式中不可見的信息。第三,當(dāng)其中一種模態(tài)缺失時,多模態(tài)系統(tǒng)仍然可以運行,例如,當(dāng)一個人不講[50]時,從視覺信號中識別情緒。

多模態(tài)融合有著非常廣泛的應(yīng)用,包括視聽語音識別(AVSR)[163]、多模態(tài)情感識別[192]、醫(yī)學(xué)圖像分析[89]和多媒體事件檢測[117]。關(guān)于這個主題有很多評論[11]、[163]、[188],〔247〕。它們中的大多數(shù)集中在針對特定任務(wù)的多模式融合上,例如多媒體分析、信息檢索或情感識別。相反,我們專注于機(jī)器學(xué)習(xí)方法本身以及與這些方法相關(guān)的技術(shù)挑戰(zhàn)。

雖然之前的一些研究使用多模態(tài)融合這一術(shù)語來包含所有的多模態(tài)算法,但在本文的研究中,我們將在預(yù)測后期進(jìn)行多模態(tài)融合的方法歸為融合類,目的是預(yù)測結(jié)果度量。在最近的工作中,多模態(tài)表示和融合之間的界限已經(jīng)變得模糊,例如深度神經(jīng)網(wǎng)絡(luò),其中表示學(xué)習(xí)與分類或回歸目標(biāo)交織在一起。正如我們將在本節(jié)中描述的那樣,這條線對于其他方法(如圖形模型和基于內(nèi)核的方法)更加清晰。

我們將多模態(tài)融合分為兩大類:不直接依賴于特定機(jī)器學(xué)習(xí)方法的模型不可知方法(第6.1節(jié));以及在構(gòu)建中顯式處理融合的基于模型的方法(第6.2節(jié)),例如基于內(nèi)核的方法

方法,圖形模型和神經(jīng)網(wǎng)絡(luò)。這些方法的概述見表5。


表5:多模態(tài)融合方法的分類總結(jié)。輸出類型(類-分類或reg -回歸)、臨時-是時間建模的可能。

6.1模型不可知論方法

歷史上,絕大多數(shù)多模融合都是用模型不可知論方法完成的[50]。這種方法可以分為早期(即基于特征)、晚期(即基于決策)和混合融合[11]。早期融合在提取特征后立即集成特征(通常只需將其表示連接起來)。另一方面,后期融合在每種模式做出決定(例如分類或回歸)后執(zhí)行集成。最后,混合融合結(jié)合了早期融合的輸出和單個單模態(tài)預(yù)測因子。模型不可知方法的一個優(yōu)點是,它們幾乎可以使用任何單模態(tài)分類器或回歸器來實現(xiàn)。

早期融合可以看作是多模態(tài)研究人員進(jìn)行多模態(tài)表示學(xué)習(xí)的初步嘗試,因為它可以學(xué)習(xí)利用每種模態(tài)的低層特征之間的相關(guān)性和相互作用。此外,它只需要單個模型的訓(xùn)練,這使得訓(xùn)練管道比后期和混合融合更容易。

相比之下,延遲融合使用單模態(tài)決策值,并使用平均[181]、投票方案[144]、基于信道噪聲[163]和信號方差[53]的加權(quán)等融合機(jī)制將其融合,或者使用學(xué)習(xí)模型[68]、[168]。它允許對每個模態(tài)使用不同的模型,因為不同的預(yù)測器可以更好地為每個單獨的模態(tài)建模,從而提供更多的靈活性。此外,當(dāng)13種模式中的一種或多種缺失時,可以更容易地進(jìn)行預(yù)測,甚至可以在沒有并行數(shù)據(jù)可用時進(jìn)行培訓(xùn)。然而,晚期融合忽略了模式之間的低水平相互作用。

混合融合試圖在公共框架中利用上述兩種方法的優(yōu)點。它已成功地用于多模態(tài)揚聲器識別[226]和多媒體事件檢測(MED)[117]。

6.2基于模型的方法

雖然使用單模態(tài)機(jī)器學(xué)習(xí)方法很容易實現(xiàn)模型不可知的方法,但是它們最終使用的技術(shù)不是設(shè)計用來處理多模態(tài)數(shù)據(jù)的。在本節(jié)中,我們將描述用于執(zhí)行多模態(tài)融合的三種方法:基于內(nèi)核的方法、圖形模型和神經(jīng)網(wǎng)絡(luò)。

多核學(xué)習(xí)(multi kernel learning, MKL)方法是對內(nèi)核支持向量機(jī)(kernel support vector machines, SVM)的擴(kuò)展,它允許對數(shù)據(jù)的不同模式/視圖使用不同的內(nèi)核[70]。由于內(nèi)核可以看作是數(shù)據(jù)點之間的相似函數(shù),MKL中特定于模式的內(nèi)核可以更好地融合異構(gòu)數(shù)據(jù)。

MKL方法是一種特別流行的融合視覺描述符用于對象檢測[31]的方法[66],直到最近才被用于任務(wù)的深度學(xué)習(xí)方法所取代[109]。它們也被用于多模態(tài)情感識別[36],[90],[182],多模態(tài)情緒分析[162]和多媒體事件檢測(MED)[237]。此外,McFee和Lanckriet[137]提出使用MKL從聲學(xué)、語義和社會視角數(shù)據(jù)對音樂藝術(shù)家進(jìn)行相似性排序。最后,Liu等[125]在阿爾茨海默病分類中使用MKL進(jìn)行多模態(tài)融合。它們的廣泛適用性證明了這些方法在不同領(lǐng)域和不同模式中的優(yōu)勢。

除了內(nèi)核選擇的靈活性之外,MKL的優(yōu)點是損失函數(shù)是凸函數(shù),允許使用標(biāo)準(zhǔn)優(yōu)化包和全局最優(yōu)解進(jìn)行模型訓(xùn)練[70]。此外,mkl可以用于執(zhí)行回歸和分類。mkl的一個主要缺點是在測試期間依賴于訓(xùn)練數(shù)據(jù)(支持向量),從而導(dǎo)致推理緩慢和內(nèi)存占用大。

圖形模型是多模態(tài)融合的另一種常用方法。在本節(jié)中,我們概述了使用淺層圖形模型進(jìn)行多模態(tài)融合的工作。深度圖形模型的描述,如深度信念網(wǎng)絡(luò),可以在3.1節(jié)中找到。大多數(shù)圖形模型可分為兩大類:生成-建模聯(lián)合概率;或判別-建模條件概率[200]。最早使用圖形模型進(jìn)行多模態(tài)融合的方法包括生成模型,如耦合[149]和階乘隱馬爾可夫模型[67]以及動態(tài)貝葉斯網(wǎng)絡(luò)[64]。最近提出的多流HMM方法提出了AVSR模式的動態(tài)加權(quán)[75]。

可論證的是,生成模型的受歡迎程度不如條件隨機(jī)場(CRF)等判別模型[115],條件隨機(jī)場犧牲了聯(lián)合概率的建模來獲得預(yù)測能力。CRF模型通過結(jié)合圖像描述的視覺和文本信息來更好地分割圖像[60]。CRF模型已經(jīng)擴(kuò)展到使用隱藏的條件隨機(jī)字段來模擬潛在狀態(tài)[165],并已應(yīng)用于多模態(tài)會議分割[173]。潛在變量判別圖形模型的其他多模態(tài)應(yīng)用包括多視圖隱藏CRF[194]和潛在變量模型[193]。最近Jiang等[93]展示了多模態(tài)隱藏條件隨機(jī)域在多媒體分類任務(wù)中的優(yōu)勢。雖然大多數(shù)的圖形模型都是以分類為目的的,但CRF模型已經(jīng)擴(kuò)展到連續(xù)版本進(jìn)行回歸[164],并應(yīng)用于多模態(tài)設(shè)置[13]進(jìn)行聲像情感識別。

圖形化模型的優(yōu)點是能夠方便地利用數(shù)據(jù)的空間和時間結(jié)構(gòu),使其在時間建模任務(wù)(如AVSR和多模態(tài)影響識別)中特別受歡迎。它們還允許將人類的專家知識構(gòu)建到模型中。并經(jīng)常導(dǎo)致可解釋的模型。

神經(jīng)網(wǎng)絡(luò)在多模態(tài)融合中得到了廣泛的應(yīng)用[151]。使用神經(jīng)網(wǎng)絡(luò)進(jìn)行多模態(tài)融合的最早例子來自AVSR的研究[163]。

如今,它們被用來融合信息,用于視覺和媒體的問答[63]、[130]、[229]、手勢識別[150]、情感分析[96]、[153]和視頻描述生成[94]。雖然使用的模式、架構(gòu)和優(yōu)化技術(shù)可能有所不同,但在神經(jīng)網(wǎng)絡(luò)的聯(lián)合隱藏層中融合信息的總體思想是相同的。

神經(jīng)網(wǎng)絡(luò)也被用于融合時間多模態(tài)信息通過使用RNNs和LSTMs。較早的此類應(yīng)用之一是使用雙向LSTM進(jìn)行視聽情緒分類[224]。最近,Wollmer等人[223]使用–lstm模型進(jìn)行連續(xù)多模態(tài)情緒識別,顯示了其優(yōu)于圖形模型和SVM。同樣,Nicolaou等人[152]使用LSTMS進(jìn)行持續(xù)情緒預(yù)測。他們提出的方法使用一個lstm來融合模態(tài)特定(音頻和面部表情)lstms的結(jié)果。接近形態(tài)融合通過遞歸神經(jīng)網(wǎng)絡(luò)被用于各種圖像字幕任務(wù),例如模型包括:神經(jīng)圖像字幕[214],CNN是使用一種LSTM語言解碼圖像表示模型,gLSTM[91]包含了圖像數(shù)據(jù)的句子一起解碼在每一個時間步融合視覺和句子中的數(shù)據(jù)聯(lián)合表示。最近的一個例子是Rajagopalan等人提出的多視圖LSTM (mvc -LSTM)模型[166]。MV-LSTM模型通過顯式地建模特定于模態(tài)和跨模態(tài)的交互,允許靈活地融合LSTM框架中的模態(tài)。深度神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)融合方面的一大優(yōu)勢是能夠從大量數(shù)據(jù)中學(xué)習(xí)。其次,最近的神經(jīng)結(jié)構(gòu)允許對多模態(tài)表示組件和融合組件進(jìn)行端到端訓(xùn)練。最后,與基于非神經(jīng)網(wǎng)絡(luò)的系統(tǒng)相比,它們表現(xiàn)出了良好的性能,并且能夠?qū)W習(xí)其他方法所面臨的復(fù)雜決策邊界。

神經(jīng)網(wǎng)絡(luò)方法的主要缺點是缺乏可解釋性。很難判斷這種預(yù)測依賴于什么,以及哪種模式或特征起著重要作用。此外,神經(jīng)網(wǎng)絡(luò)需要大的訓(xùn)練數(shù)據(jù)集才能成功。

6.3討論

多模態(tài)融合是一個被廣泛研究的課題,提出了許多方法來解決它,包括模型不可知方法、圖形模型、多核學(xué)習(xí)和各種類型的神經(jīng)網(wǎng)絡(luò)。每種方法都有自己的優(yōu)點和缺點,有些方法更適合于較小的數(shù)據(jù)集,有些方法在嘈雜的環(huán)境中性能更好。

最近,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為處理多模態(tài)融合的一種非常流行的方法,然而圖形模型和多核學(xué)習(xí)仍在使用,特別是在訓(xùn)練數(shù)據(jù)有限或模型可解釋性很重要的任務(wù)中。

盡管取得了這些進(jìn)展,多模態(tài)融合仍然面臨以下挑戰(zhàn):1)信號可能不是時間對齊的(可能是密集連續(xù)信號和稀疏事件);2)難以建立利用補(bǔ)充信息而不僅僅是補(bǔ)充信息的模型;3)每種模態(tài)可能在不同的時間點表現(xiàn)出不同的類型和不同程度的噪聲。

7 協(xié)同學(xué)習(xí)

分類法中的最后一個多模態(tài)挑戰(zhàn)是協(xié)同學(xué)習(xí)——通過從另一個(資源豐富的)模態(tài)中獲取知識來幫助(資源貧乏的)模態(tài)建模。當(dāng)其中一種模式的資源有限時(缺少帶注釋的數(shù)據(jù)、有噪聲的輸入和不可靠的標(biāo)簽),它尤其重要。我們稱這種挑戰(zhàn)為共同學(xué)習(xí),因為大多數(shù)情況下,輔助模式只在模型訓(xùn)練中使用,在測試期間不使用。我們根據(jù)培訓(xùn)資源確定了三種類型的共同學(xué)習(xí)方法:并行、非并行和混合。并行數(shù)據(jù)方法需要訓(xùn)練數(shù)據(jù)集,其中來自一種模式的觀察直接鏈接到來自其他模式的觀察。換句話說,當(dāng)多模態(tài)觀測來自相同的實例時,例如在視聽語音數(shù)據(jù)集中,其中的視頻和演講樣本來自同一個演講者。相反,非并行數(shù)據(jù)方法不需要在不同模式的觀測之間建立直接聯(lián)系。這些方法通常通過在類別上使用重疊來實現(xiàn)共同學(xué)習(xí)。例如,在零鏡頭學(xué)習(xí)中,傳統(tǒng)的視覺對象識別數(shù)據(jù)集通過維基百科的第二個純文本數(shù)據(jù)集進(jìn)行擴(kuò)展,以提高視覺對象識別的通用性。在混合數(shù)據(jù)設(shè)置中,模式通過共享模式或數(shù)據(jù)集進(jìn)行橋接。共同學(xué)習(xí)方法的概述可以是

見表6,數(shù)據(jù)并行性總結(jié)見圖3。

圖3:用于共同學(xué)習(xí)的數(shù)據(jù)并行性類型:并行模式來自相同的數(shù)據(jù)集,實例之間存在直接對應(yīng)關(guān)系;非并行模式來自不同的數(shù)據(jù)集,沒有重疊的實例,但在一般類別或概念上有重疊;混合——實例或概念通過第三種模式或數(shù)據(jù)集進(jìn)行橋接。

7.1平行數(shù)據(jù)

在并行數(shù)據(jù)共同學(xué)習(xí)中,兩種模式共享一組實例——帶有相應(yīng)視頻、圖像及其句子描述的音頻記錄。這允許兩種算法利用這些數(shù)據(jù)來更好地建模模式:聯(lián)合訓(xùn)練和表示學(xué)習(xí)。

協(xié)同訓(xùn)練是在多模態(tài)問題[21]中只有少量的標(biāo)記樣本時,生成更多標(biāo)記樣本的過程。基本算法在每個模態(tài)中構(gòu)建弱分類器,以便為未標(biāo)記的數(shù)據(jù)彼此引導(dǎo)標(biāo)簽。研究表明,在Blum和Mitchell的開創(chuàng)性工作[21]中,人們發(fā)現(xiàn)了更多基于網(wǎng)頁本身和超鏈接的網(wǎng)頁分類培訓(xùn)樣本。根據(jù)定義,該任務(wù)需要并行數(shù)據(jù),因為它依賴于多模態(tài)樣本的重疊。

聯(lián)合訓(xùn)練已用于統(tǒng)計分析[178]以構(gòu)建更好的視覺檢測器[120]和視聽語音識別[40]。它還可以通過過濾不可靠的樣本[41]來處理兩種模式之間的不一致。雖然聯(lián)合訓(xùn)練是一種生成更多標(biāo)記數(shù)據(jù)的強(qiáng)大方法,但它也會導(dǎo)致訓(xùn)練樣本偏置,導(dǎo)致過擬合。轉(zhuǎn)移學(xué)習(xí)是利用并行數(shù)據(jù)協(xié)同學(xué)習(xí)的另一種方法。多模表示學(xué)習(xí)(第3.1節(jié))方法,如多模深Boltzmann機(jī)器[198]和多模自動編碼器[151]將信息從一種形式的表示轉(zhuǎn)移到另一種形式的表示。這不僅會導(dǎo)致多模態(tài)表示,而且會導(dǎo)致更好的單模態(tài)表示,在測試期間只使用一種模態(tài)[151]。Moon等[143]展示了如何將信息從語音識別神經(jīng)網(wǎng)絡(luò)(基于音頻)傳輸?shù)酱阶x神經(jīng)網(wǎng)絡(luò)(基于圖像),從而獲得更好的視覺表征,并建立了一個在測試期間無需音頻信息即可進(jìn)行唇讀的模型。同樣,Arora和Livescu[10]利用CCA在聲學(xué)和發(fā)音(嘴唇、舌頭和下巴的位置)數(shù)據(jù)上構(gòu)建了更好的聲學(xué)特征。他們只在CCA構(gòu)建期間使用發(fā)音數(shù)據(jù),在測試期間只使用產(chǎn)生的聲學(xué)(單模態(tài))表示。

7.2非并行數(shù)據(jù)

依賴于非并行數(shù)據(jù)的方法不需要模式具有共享實例,而只需要共享類別或概念。非并行協(xié)同學(xué)習(xí)方法在學(xué)習(xí)表示時可以提供幫助,允許更好地理解語義概念,甚至可以執(zhí)行不可見的對象識別。

遷移學(xué)習(xí)也可以在非并行數(shù)據(jù)上進(jìn)行,并允許通過將信息從使用數(shù)據(jù)豐富或干凈的模式構(gòu)建的表示傳輸?shù)綌?shù)據(jù)稀缺或嘈雜的模式來學(xué)習(xí)更好的表示。這種類型的傳輸學(xué)習(xí)通常是通過使用協(xié)調(diào)的多模態(tài)表示來實現(xiàn)的(見第3.2節(jié))。例如,F(xiàn)rome等人[61]通過將CNN視覺特征與在單獨大數(shù)據(jù)集上訓(xùn)練的Word2vec文本特征相協(xié)調(diào),使用文本改善圖像分類的視覺表示[141]。以這種方式訓(xùn)練出來的視覺表現(xiàn)形式會導(dǎo)致更有意義的錯誤——將物體誤認(rèn)為同類物體[61]。Mahasseni和Todorovic[129]演示了如何使用基于3D骨骼數(shù)據(jù)的LSTM自動編碼器,通過增強(qiáng)其隱藏狀態(tài)之間的相似性,來規(guī)范基于LSTM的彩色視頻。這種方法能夠改進(jìn)原始的LSTM,并在動作識別中實現(xiàn)最先進(jìn)的性能。

概念基礎(chǔ)是指學(xué)習(xí)語義意義或概念,不僅僅是基于語言,還包括視覺、聽覺、甚至是嗅覺[16]等附加形式。雖然大多數(shù)概念學(xué)習(xí)方法都是純語言為基礎(chǔ)的,但人類對意義的表征不僅是我們語言暴露的產(chǎn)物,而且也是通過我們的感覺運動經(jīng)驗和感知系統(tǒng)[17]而建立起來的[126]。人類的語義知識在很大程度上依賴于感知信息[126],許多概念是建立在感知系統(tǒng)的基礎(chǔ)上的,并非純粹的符號[17]。這意味著單純從文本信息中學(xué)習(xí)語義意義可能不是最優(yōu)的,并會激發(fā)使用視覺或聽覺線索來為我們的語言表征奠定基礎(chǔ)。

從工作由馮和Lapata[59],接地通常是由之間找到一個共同的潛在空間表征[59],[183](并行數(shù)據(jù)集的情況下)或通過學(xué)習(xí)單峰表示分開,然后導(dǎo)致一個多通道連接[29],[101],[172],[181](對于非并行數(shù)據(jù))。一旦構(gòu)建了多模態(tài)表示,它就可以用于純語言任務(wù)。Shutova et al.[181]和Bruni et al.[29]使用扎根表征對隱喻和字面語言進(jìn)行了更好的分類。這種表示法也有助于衡量概念上的相似性和關(guān)聯(lián)性——確定兩個詞在語義上或概念上是如何相關(guān)的[30]、[101]、[183]或行為[172]。此外,概念不僅可以使用視覺信號,還可以使用聲學(xué)信號,這使得概念在與聽覺相關(guān)的單詞上有更好的表現(xiàn)[103],對于與嗅覺相關(guān)的單詞甚至可以使用嗅覺信號[102]。最后,多模對齊和概念性接地之間有很多重疊,因為將視覺場景與其描述對齊會導(dǎo)致更好的文本或視覺表示[108]、[161]、[172]、[240]。

概念基礎(chǔ)已被發(fā)現(xiàn)是一種有效的方法,以提高性能的一些任務(wù)。它還表明,語言和視覺(或音頻)是互補(bǔ)的信息源,將它們組合在多模態(tài)模型中通??梢蕴岣咝阅堋5?,必須小心,因為接地并不總是能帶來更好的性能[102],[103],并且只有當(dāng)接地與任務(wù)相關(guān)時才有意義-例如,使用圖像進(jìn)行接地以獲得視覺相關(guān)概念。

零距離學(xué)習(xí)(Zero shot learning, ZSL)指在沒有明確看到任何例子的情況下識別概念。例如,在沒有見過(標(biāo)記的)貓的圖像的情況下對圖像中的貓進(jìn)行分類。這是一個需要解決的重要問題,例如在許多任務(wù)中,如可視化對象分類:為每一個感興趣的可想象對象提供培訓(xùn)示例是非常昂貴的。

ZSL主要有兩種類型——單模態(tài)和多模態(tài)。單模態(tài)ZSL查看對象的組成部分或?qū)傩?,如用于識別未聽過的單詞的音素,或用于預(yù)測未見的可視類[55]的視覺屬性,如顏色、大小和形狀。多模zsl通過第二模態(tài)的幫助識別主模態(tài)中的對象——在第二模態(tài)中,對象已經(jīng)被看到。根據(jù)定義,zsl的多模式版本是一個面臨非并行數(shù)據(jù)的問題,因為所見類的重疊在模式之間是不同的。Socher等[190]將圖像特征映射到概念詞空間,能夠?qū)梢姾筒豢梢姷母拍钸M(jìn)行分類。然后,看不見的概念可以分配給一個接近視覺表示的單詞——這是通過在一個單獨的數(shù)據(jù)集上訓(xùn)練語義空間來實現(xiàn)的,該數(shù)據(jù)集看到了更多的概念。而不是學(xué)習(xí)從視覺到概念空間的映射,F(xiàn)rome等[61]學(xué)習(xí)概念之間的協(xié)調(diào)多模態(tài)表示以及支持ZSL的圖像。Palatucci等人[158]根據(jù)功能磁共振圖像對人們正在思考的單詞進(jìn)行預(yù)測,他們展示了如何通過中間語義空間預(yù)測看不見的單詞。Lazaridou等人[118]提出了一種通過神經(jīng)網(wǎng)絡(luò)將提取的視覺特征向量映射到基于文本的向量的快速映射方法。

7.3混合數(shù)據(jù)

在混合數(shù)據(jù)設(shè)置中,兩個非并行模式由共享模式或數(shù)據(jù)集橋接(見圖3c)。最值得注意的例子是橋接相關(guān)神經(jīng)網(wǎng)絡(luò)[167],它使用一個中心模態(tài)來學(xué)習(xí)存在非并行數(shù)據(jù)的協(xié)調(diào)多模態(tài)表示。例如,在多語言圖像標(biāo)題的情況下,圖像模式在任何語言中總是與至少一個標(biāo)題配對。這些方法也被用來連接那些可能沒有并行語料庫但可以訪問共享的樞軸語言的語言,例如機(jī)器翻譯[148]、[167]和文檔音譯[100]。

有些方法不使用單獨的模式進(jìn)行橋接,而是依賴于來自類似或相關(guān)任務(wù)的大型數(shù)據(jù)集的存在,從而在僅包含有限注釋數(shù)據(jù)的任務(wù)中獲得更好的性能。Socher和Fei-Fei[189]利用大文本語料庫的存在來指導(dǎo)圖像分割。而Hendricks等[78]采用單獨訓(xùn)練的視覺模型和語言模型,可以得到更好的圖像和視頻描述系統(tǒng),但數(shù)據(jù)有限。

7.4討論

多模態(tài)聯(lián)合學(xué)習(xí)允許一種模態(tài)影響另一種模態(tài)的訓(xùn)練,利用跨模態(tài)的互補(bǔ)信息。需要注意的是,聯(lián)合學(xué)習(xí)是獨立于任務(wù)的,可以用于創(chuàng)建更好的融合、轉(zhuǎn)換和對齊模型。以協(xié)同訓(xùn)練、多模態(tài)表示學(xué)習(xí)、概念基礎(chǔ)和零鏡頭學(xué)習(xí)(zero shot learning, ZSL)等算法為例,在視覺分類、動作識別、視聽語音識別和語義相似度估計等領(lǐng)域得到了廣泛的應(yīng)用。

8 總結(jié)

作為綜述的一部分,我們介紹了多模式機(jī)器學(xué)習(xí)的分類法:表示、翻譯、融合、對齊和共同學(xué)習(xí)。其中一些,如融合,已經(jīng)研究了很長時間,但最近對表示和翻譯的興趣導(dǎo)致了大量新的多模態(tài)算法和令人興奮的多模態(tài)應(yīng)用。我們相信,我們的分類法將有助于編目未來的研究論文,并更好地理解多模機(jī)器學(xué)習(xí)所面臨的遺留問題。

@琪瑞

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
iPhone上也能運行OpenAI了!
基于功能連通性MRI對大腦皮層的局部功能分區(qū)進(jìn)行劃分
CLIP再創(chuàng)輝煌!西南交大&MSRA提出CLIP4Clip,進(jìn)行端到端的視頻文本檢索!
44篇論文強(qiáng)勢進(jìn)擊 CVPR 2018,商湯科技的研究員都在做哪些研究? | 機(jī)器之心
用于大規(guī)模視覺定位的直接2D-3D匹配(IROS 2021)
2021谷歌年度AI技術(shù)總結(jié):Jeff Dean展望人工智能的5大未來趨勢
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服