免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
AI:多模態(tài)和大模型的一些經(jīng)驗(yàn)總結(jié)daiding

AI:多模態(tài)和大模型的一些經(jīng)驗(yàn)總結(jié)daiding


文章更新中……

多模態(tài)相關(guān)

多模態(tài)機(jī)器學(xué)習(xí)旨在建立能夠處理和關(guān)聯(lián)來自多種模態(tài)信息的模型。

我們對(duì)世界的體驗(yàn)是多模態(tài)的(五大感官)——我們看到物體(視覺)聽到聲音(聽覺)感覺到質(zhì)地(觸覺)聞到氣味(嗅覺)品嘗味道(味覺)其實(shí)還包括第六感(心覺)。模態(tài)是指事物發(fā)生或經(jīng)歷的方式,當(dāng)一個(gè)研究問題包含多種模態(tài)時(shí),它就被稱為多模態(tài)。為了讓人工智能在理解我們周圍的世界方面取得進(jìn)展,它需要能夠同時(shí)解讀這些多模態(tài)信號(hào)。多模態(tài)機(jī)器學(xué)習(xí)旨在建立能夠處理和關(guān)聯(lián)來自多種模式信息的模型。這是一個(gè)充滿活力的多學(xué)科領(lǐng)域,其重要性和潛力都在不斷增加。本文不關(guān)注具體的多模態(tài)應(yīng)用,而是對(duì)多模態(tài)機(jī)器學(xué)習(xí)本身的最新進(jìn)展進(jìn)行了調(diào)查,并將它們以一種常見的分類方式呈現(xiàn)出來。我們超越了典型的早期和晚期融合分類,并確定了多模態(tài)機(jī)器學(xué)習(xí)面臨的更廣泛的挑戰(zhàn),即:表示、翻譯、對(duì)齊融合共同學(xué)習(xí)。這種新的分類方法將使研究人員更好地了解該領(lǐng)域的現(xiàn)狀,并確定未來的研究方向。

五個(gè)挑戰(zhàn):

1)、表示第一個(gè)基本挑戰(zhàn)是學(xué)習(xí)如何以一種利用多模態(tài)的互補(bǔ)性和冗余性的方式來表示和總結(jié)多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)的異質(zhì)性使得構(gòu)造這樣的表示具有挑戰(zhàn)性。例如,語言通常是符號(hào)化的,而視聽形式將被表示為信號(hào)。

2)、翻譯第二個(gè)挑戰(zhàn)是如何將數(shù)據(jù)從一種模態(tài)轉(zhuǎn)換(映射)到另一種模態(tài)。不僅數(shù)據(jù)是異質(zhì)的,而且模態(tài)之間的關(guān)系往往是開放的或主觀的。例如,存在許多描述圖像的正確方法,并且可能不存在一種完美的翻譯。

3)對(duì)齊第三個(gè)挑戰(zhàn)是識(shí)別來自兩個(gè)或更多不同模態(tài)的(子)元素之間的直接關(guān)系。例如,我們可能想要將菜譜中的步驟與顯示菜肴制作過程的視頻對(duì)齊。為了應(yīng)對(duì)這一挑戰(zhàn),我們需要衡量不同模態(tài)之間的相似性,并處理可能的長期依賴和歧義。

4)、融合第四個(gè)挑戰(zhàn)是將來自兩個(gè)或更多模態(tài)的信息連接起來進(jìn)行預(yù)測(cè)。例如,在視聽語音識(shí)別中,將嘴唇運(yùn)動(dòng)的視覺描述與語音信號(hào)融合在一起來預(yù)測(cè)口語單詞。來自不同模態(tài)的信息可能具有不同的預(yù)測(cè)能力和噪聲拓?fù)?#xff0c;至少在一種模態(tài)中可能丟失數(shù)據(jù)。

5)、共同學(xué)習(xí)第五項(xiàng)挑戰(zhàn)是如何在模態(tài)、表示和預(yù)測(cè)模型之間傳遞知識(shí)。這可以通過協(xié)同訓(xùn)練、概念基礎(chǔ)和零樣本學(xué)習(xí)的算法來例證。共同學(xué)習(xí)探索了如何從一個(gè)模態(tài)學(xué)習(xí)知識(shí)可以幫助在不同模態(tài)上訓(xùn)練的計(jì)算模型。當(dāng)其中一種模態(tài)的資源有限(例如,注釋數(shù)據(jù))時(shí),這個(gè)挑戰(zhàn)尤其重要。

作為調(diào)查的一部分,我們介紹了多模態(tài)機(jī)器學(xué)習(xí)的分類:表示、翻譯、對(duì)齊、融合共同學(xué)習(xí)

其中一些如融合已經(jīng)被研究了很長時(shí)間,但最近對(duì)表示、翻譯的興趣導(dǎo)致了大量新的多模態(tài)算法和令人興奮的多模態(tài)應(yīng)用。

我們相信我們的分類法將有助于對(duì)未來的研究論文進(jìn)行分類,并更好地理解多模態(tài)機(jī)器學(xué)習(xí)面臨的剩余未解決問題。

? ?" 模態(tài) "(Modality)是德國理學(xué)家赫爾姆霍茨提出的一種生物學(xué)概念,即生物憑借感知器官經(jīng)驗(yàn)接收信息通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態(tài)。多模態(tài)是指將多種感官進(jìn)行融合,而多模態(tài)交互是指人通過聲音、肢體語言、信息載體(文字、圖片、音頻、視頻)、環(huán)境等多個(gè)通道與計(jì)算機(jī)進(jìn)行交流,充分模擬人與人之間的交互方式
每一種信息的來源或者形式,都可以稱為一種模態(tài)。

不同模態(tài)(例如圖像、文本、音頻)中學(xué)習(xí)的方式存在很大差異

早期的深度學(xué)習(xí)算法專注于從一個(gè)單一的數(shù)據(jù)源訓(xùn)練其模型。而多模態(tài)人工智能是計(jì)算機(jī)視覺和交互式人工智能智能模型的最終融合,為計(jì)算器提供更接近于人類感知的場(chǎng)景。

?多模態(tài)學(xué)習(xí)成為當(dāng)中的重要趨勢(shì),它可以被應(yīng)用在歸一、表示、轉(zhuǎn)化、翻譯、對(duì)齊、融合協(xié)同學(xué)習(xí)上(representation/translation/alignment/fusion/co-learning)。按照下游任務(wù)則可以劃分為理解式任務(wù)(視覺問答、視覺推理、圖文檢索等)和生成式任務(wù)(文本生成(對(duì)話/故事/詩歌)、圖像生成文本、文字生成圖像等)。

要解決這個(gè)問題,需要從端到端打通各個(gè)模態(tài)之間的關(guān)系,形成可以真正多維度交互的智能機(jī)器,讓感知智能升級(jí)為認(rèn)知智能

大規(guī)模預(yù)訓(xùn)練模型

近年來,BERT和GPT等大型預(yù)訓(xùn)練模型(PTM)取得了巨大的成功,成為人工智能(AI)領(lǐng)域的一個(gè)里程碑。由于復(fù)雜的訓(xùn)練前目標(biāo)和龐大的模型參數(shù),大規(guī)模PTMs能夠有效地從大量有標(biāo)簽和無標(biāo)簽的數(shù)據(jù)中捕獲知識(shí)。通過將知識(shí)存儲(chǔ)到巨大的參數(shù)中,并對(duì)特定的任務(wù)進(jìn)行微調(diào),隱含在巨大參數(shù)中的豐富知識(shí)可以使各種下游任務(wù)受益,這已通過實(shí)驗(yàn)驗(yàn)證和經(jīng)驗(yàn)分析得到廣泛證明?,F(xiàn)在AI社區(qū)的共識(shí)是采用PTMs作為下游任務(wù)的骨干,而不是從零開始學(xué)習(xí)模型。在本文中,我們深入研究了預(yù)訓(xùn)練的歷史,特別是它與遷移學(xué)習(xí)自我監(jiān)督學(xué)習(xí)的特殊關(guān)系,以揭示PTMs在人工智能發(fā)展譜系中的關(guān)鍵地位。此外,我們?nèi)婊仡櫫薖TMs的最新突破。這些突破是由計(jì)算能力的激增數(shù)據(jù)可用性的增加驅(qū)動(dòng)的,朝著四個(gè)重要方向發(fā)展:設(shè)計(jì)有效的架構(gòu),利用豐富的上下文提高計(jì)算效率,以及進(jìn)行解釋和理論分析。。最后,我們討論了PTMs的一系列有待解決的問題和研究方向,希望我們的觀點(diǎn)能對(duì)PTMs的未來研究有所啟發(fā)和推動(dòng)。

深度神經(jīng)網(wǎng)絡(luò),與以前主要依賴手工特征和統(tǒng)計(jì)方法非神經(jīng)模型不同,神經(jīng)模型可以從數(shù)據(jù)中自動(dòng)學(xué)習(xí)低維連續(xù)向量(又稱分布式表示)作為任務(wù)特定的特征,從而擺脫復(fù)雜的特征工程。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
GPT-4下周發(fā)布 多模態(tài)大模型視頻首當(dāng)其沖
中金 | AI十年展望(五):從ChatGPT到通用智能,新長征上的新變化
[首藏作品](8830)AI從“一專一能”邁向“多專多能”
像人類一樣認(rèn)識(shí)世界,AI需要哪些底層思維?
一文看懂:華為盤古系列AI大模型到底是個(gè)啥?附:盤古發(fā)布會(huì)網(wǎng)址|ai|華為|大模型|模型圖|模態(tài)
GPT-4和ChatGPT大比拼,究竟誰勝?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服