楊立昆:Sora不是世界模型,V-JEPA才是。
作者 | 蘇霍伊
編輯 | 趙健
過去一周,Sora 的光芒有多耀眼,谷歌與 Meta 就有多落寞。
就在 Sora 發(fā)布的同一天,另有兩款重磅產(chǎn)品推出:一是谷歌發(fā)布支持 100 萬 tokens 上下文的大模型 Gemini 1.5 Pro;二是 Meta 發(fā)布“能夠以人類的理解方式看世界”的視頻聯(lián)合嵌入預(yù)測架構(gòu) V-JEPA(Video Joint Embedding Predictive Architecture)。
只是由于發(fā)布日期與 Sora “撞車”,與它們有關(guān)的消息基本都被埋在了鋪天蓋地的 Sora 新聞流里??梢哉f在話題熱度這塊兒,Gemini 1.5 Pro 和 V-JEPA 被 Sora 殺得片甲不留。
如果說作為語言模型的 Gemini 1.5 Pro 與 Sora 還不在同維度競爭的話,與 Sora 同屬視頻生成模型的 V-JEPA 便是“實慘”了,發(fā)布的前兩天基本無人問津,甚至連業(yè)內(nèi)都很少關(guān)注到。
Sora 之所以引發(fā)了全世界的關(guān)注,不僅僅在于它是一個高質(zhì)量的視頻生成模型,更在于 OpenAI 把它定義為一個“世界模擬器”(world simulators)。
OpenAI 表示:“ Sora 是能夠理解和模擬現(xiàn)實世界模型的基礎(chǔ),我們相信這種能力將成為實現(xiàn) AGI 的重要里程碑?!?/p>
英偉達(dá)高級研究科學(xué)家 Jim Fan 更是直接斷言,“Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎,是一個可學(xué)習(xí)的模擬器,或世界模型”。
Sora 是世界模型?這讓圖靈獎獲得者、Meta 首席科學(xué)家 Yann LeCun(楊立昆)坐不住了,LeCun 多次在社交平臺 X 上“狠批” Sora,表示 Sora 的生成式技術(shù)路線注定失敗。
LeCun 顯然出離地憤怒:“我從未預(yù)料到,看到那么多從未對人工智能或機(jī)器學(xué)習(xí)做出任何貢獻(xiàn)的人,其中一些人在達(dá)克效應(yīng)(Dunning-Kruger effect)上已經(jīng)走得很遠(yuǎn),卻告訴我我在人工智能和機(jī)器學(xué)習(xí)方面是錯誤、愚蠢、盲目、無知、誤導(dǎo)、嫉妒、偏見、脫節(jié)的......”
這場關(guān)于世界模型的巨大爭議,到底是如何發(fā)生的?
目前,幾乎所有的深度學(xué)習(xí)模型都是建立在 Transformer 架構(gòu)上。但是在追求通用人工智能(AGI)的道路上,存在不同的流派。
OpenAI 是自回歸生成式路線(Auto-regressive models),遵循“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線。從 ChatGPT 到 Sora,都是這一思路的代表性產(chǎn)物。
簡而言之,Sora 通過分析視頻來捕捉現(xiàn)實世界的動態(tài)變化,并利用計算機(jī)視覺技術(shù)重現(xiàn)這些變化,創(chuàng)造新的視覺內(nèi)容。它的學(xué)習(xí)不限于視頻的畫面和像素,還包括視頻中展示的物理規(guī)律。
Sora 采用了以 Transformer 為骨架的 Diffusion Model(擴(kuò)散模型),其拔群的效果也驗證了擴(kuò)展法則(scaling law)與智能涌現(xiàn)(Emergent)依舊成立。
值得一提的是,OpenAI 把 Scale 作為核心價值觀之一:我們相信規(guī)模——在我們的模型、系統(tǒng)、自身、過程以及抱負(fù)中——具有魔力。當(dāng)有疑問時,就擴(kuò)大規(guī)模。
但是,LeCun 卻認(rèn)為“自回歸生成模型弱爆了(Auto-Regressive Generative Models suck)”!
他認(rèn)為,自回歸路徑是無法通往 AGI 的。LeCun 本人不止一次公開表達(dá)了對自回歸生成模型熱潮的批評:“從現(xiàn)在起 5 年內(nèi),沒有哪個頭腦正常的人會使用自回歸模型?!?/p>
2 月 13 日,在 2024 年世界政府峰會(World Government Summit)上,LeCun 就談到“他并不看好生成式技術(shù)”。他認(rèn)為“文本處理的方法無法直接應(yīng)用于視頻”,并順?biāo)浦鄣匦麄饕幌伦约已芯?,“目前為止,唯一看起來可能適用于視頻的技術(shù),是我們研發(fā)的 JEPA 架構(gòu)”。
幾天后,他再次“狠批” Sora,僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界。LeCun 表示:“生成視頻的過程與基于世界模型的因果預(yù)測完全不同”;2 月 19 日,他又一次發(fā)文駁斥道:通過生成像素來對世界進(jìn)行建模是一種浪費,就像那些被廣泛拋棄的“通過合成來分析”的想法一樣,注定會失敗。
LeCun 認(rèn)為文本生成之所以可行,是因為文本本身是離散的,有著有限數(shù)量的符號。在這種情況下,處理預(yù)測中的不確定性相對容易。在高維連續(xù)的感覺輸入中處理預(yù)測不確定性基本上是不可能的。“這就是為什么針對感輸入的生成模型注定會失敗的原因”。
在不看好 Sora 技術(shù)路徑的質(zhì)疑聲中,不只有 LeCun。
Keras 之父 Fran?ois Chollet 也持有相似觀點。他認(rèn)為僅僅通過讓 AI 觀看視頻是無法完全學(xué)習(xí)到世界模型的。盡管像 Sora 這樣的視頻生成模型確實融入了物理模型,問題在于這些模型的準(zhǔn)確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。
Chollet 強(qiáng)調(diào),這些問題至關(guān)重要。因為它們決定了生成圖像的應(yīng)用范圍——是僅限于媒體生產(chǎn),還是用作現(xiàn)實世界的可靠模擬。
同時他還指出,僅僅依靠擬合大量數(shù)據(jù)(例如通過游戲引擎生成的圖像或視頻)來期待構(gòu)建出能廣泛適用于現(xiàn)實世界所有情況的模型是不現(xiàn)實的。原因在于,現(xiàn)實世界的復(fù)雜度和多樣性遠(yuǎn)遠(yuǎn)超出了任何模型通過有限數(shù)據(jù)所能學(xué)習(xí)到的范圍。
Artificial Intuition 作者 Carlos E. Perez 則認(rèn)為 Sora 并不是學(xué)會了物理規(guī)律,“只是看起來像學(xué)會了,就像幾年的煙霧模擬一樣。 ”
知名 AI 學(xué)者、Meta AI 研究科學(xué)家田淵棟也表示,關(guān)于 Sora 是否有潛力學(xué)到精確物理(當(dāng)然現(xiàn)在還沒有)的本質(zhì)在是:為什么像“預(yù)測下一個 token ”或“重建”這樣簡單的思路會產(chǎn)生如此豐富的表示?
最初,世界模型的概念源于人類對理解和模擬現(xiàn)實世界的追求。
它與動物(包括人類)如何理解和預(yù)測周圍環(huán)境的研究相關(guān),這些研究起源于認(rèn)知科學(xué)和神經(jīng)科學(xué)。隨著時間的推移,這一思想被引入到計算機(jī)科學(xué)、特別是人工智能領(lǐng)域,成為研究者設(shè)計智能系統(tǒng)時的一個重要考慮因素。
在人工智能領(lǐng)域,所謂的世界模型,是指機(jī)器對世界運作方式的理解和內(nèi)部表示,也可以理解為抽象概念和感受的集合。它能幫助 AI 系統(tǒng)理解、學(xué)習(xí)和控制環(huán)境中發(fā)生的事情。因此世界模型也可以看作是 AI 系統(tǒng)的“心智模型”,是 AI 系統(tǒng)對自身和外部世界的認(rèn)知和期望。
比如,玩家正在玩一個賽車游戲,世界模型可以協(xié)助玩家模擬賽車預(yù)測不同駕駛策略的結(jié)果,從而選擇最佳的行駛路線;或者在現(xiàn)實中,一個機(jī)器人可以使用世界模型來預(yù)測移動一件物體可能引起的連鎖反應(yīng),從而做出更安全、更有效的決策。
世界模型對于發(fā)展通用人工智能至關(guān)重要,因為它不僅提高了 AI 的抽象和預(yù)測能力,使其能夠理解復(fù)雜環(huán)境并規(guī)劃未來行動,還促進(jìn)了 AI 的創(chuàng)造性問題解決和社會互動能力。通過內(nèi)部模擬和推理,世界模型使 AI 能夠適應(yīng)新環(huán)境、有效合作以及自主學(xué)習(xí),從而推動 AI 技術(shù)向更高層次的智能進(jìn)化。
既然 LeCun 說生成式路線的 Sora 不行,那么 Meta 發(fā)布的非生成式路線的 V-JEPA 水平如何?
去年,LeCun 提出了一個全新思路,希望“打造接近人類水平的 AI”。他指出,構(gòu)建能夠?qū)W習(xí)世界模型或許就是關(guān)鍵。
通過這種方式,機(jī)器不僅能更迅速地學(xué)習(xí)和規(guī)劃解決復(fù)雜問題的策略,而且也能更有效地適應(yīng)新穎或未知的環(huán)境。并且 LeCun 還斷言:“掌握了如何學(xué)習(xí)和應(yīng)用這種世界模型的 AI ,將能夠真正地接近人類水平的智能”。
動物和人類的大腦運行著一種模擬世界的模型,這種模型在嬰兒期通過觀察世界就已經(jīng)學(xué)會,是動物(包括人類)對周圍發(fā)生情況做出良好猜測的方法。
LeCun 將這種直覺性的推理稱為“常識”(包含我們對簡單物理學(xué)的掌握)。他根據(jù)大腦運行機(jī)制,提出了一個端到端的仿生架構(gòu),包含 6 個核心模塊:配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊。
其中世界模型模塊是最復(fù)雜的部分。它主要承擔(dān)兩個關(guān)鍵任務(wù):一是補充感知模塊未能捕獲的信息;二是對世界未來狀態(tài)進(jìn)行預(yù)測,這不僅包括世界自然發(fā)展的趨勢,還有參與者行為可能引起的變化。
簡而言之,世界模型就像是一個現(xiàn)實世界的虛擬模擬器,它需要能夠應(yīng)對各種不確定性,做出多種可能的預(yù)測。
基于該理念設(shè)計的 V-JEPA 是一種“非生成模型”,通過預(yù)測抽象表示空間中視頻的缺失或屏蔽部分來進(jìn)行學(xué)習(xí)。
這與圖像聯(lián)合嵌入預(yù)測架構(gòu)(I-JEPA)相似,I-JEPA 通過比較圖像的抽象表示來進(jìn)行學(xué)習(xí),而不是直接對比“像素”。與嘗試重建每個缺失像素的生成式方法不同,V-JEPA 摒棄了預(yù)測那些難以捉摸的信息,這種方式使其在訓(xùn)練和樣本效率上實現(xiàn)了1.5到6倍的提高。
V-JEPA 采用了自我監(jiān)督的學(xué)習(xí)方法,就好比一個初生兒,通過觀察來理解世界,建立自己的認(rèn)知。因此,Meta 完全使用未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。標(biāo)簽僅用于在預(yù)訓(xùn)練后使模型適應(yīng)特定任務(wù)。Meta 表示,這種類型的架構(gòu)比以前的模型更有效,無論是在所需的標(biāo)記示例數(shù)量方面,還是在學(xué)習(xí)未標(biāo)記數(shù)據(jù)方面投入的總工作量方面。
V-JEPA模型的訓(xùn)練過程是,先遮蔽掉視頻中的大部分內(nèi)容,只向模型展示一小部分上下文,然后要求預(yù)測器填補缺失的部分——不是以實際像素的形式,而是在這個表示空間中以更抽象的描述來填補。
這個過程涉及到兩個核心步驟,一是掩蔽技術(shù),二是高效預(yù)測。
V-JEPA 并未接受過理解某一特定類型操作的訓(xùn)練。相反,它對一系列視頻進(jìn)行了自我監(jiān)督訓(xùn)練,并了解了許多有關(guān)世界如何運作的知識。Meta 團(tuán)隊仔細(xì)考慮了屏蔽策略——如果你不遮擋視頻的大片區(qū)域,而是到處隨機(jī)采樣補丁,那么任務(wù)就會變得過于簡單,并且模型不會學(xué)到任何關(guān)于世界的特別復(fù)雜的東西。
在抽象表示空間進(jìn)行預(yù)測至關(guān)重要,因為這使得模型能夠集中于視頻中更高層次的概念信息,而非那些對大多數(shù)任務(wù)來說并不重要的細(xì)節(jié)。畢竟,當(dāng)視頻展示一棵樹時,觀看者通常不會對每片葉子的細(xì)微動作感興趣。
Meta 表示,V-JEPA 是第一個擅長“凍結(jié)評估”的視頻模型,只要在編碼器和預(yù)測器上進(jìn)行所有自監(jiān)督預(yù)訓(xùn)練。當(dāng)想讓模型學(xué)習(xí)一項新技能時,只需訓(xùn)練一個小型輕量級專業(yè)層或在此之上訓(xùn)練一個小型網(wǎng)絡(luò),這是非常高效和快速的。
V-JEPA 中的“V”代表“視頻”,它只是一個關(guān)于感知的視頻模型。但 Meta 表示,正在仔細(xì)考慮將音頻與視覺效果結(jié)合起來,進(jìn)一步構(gòu)建世界模型。
現(xiàn)在,Meta已經(jīng)將V-JEPA代碼開源,供用戶下載使用。而Sora仍然沒有向普通用戶開放。
不論 LeCun 是真心覺得生成式路線無法實現(xiàn)世界模型,還是為了讓 V-JEPA 在與 Sora 的競爭中爭取用戶的關(guān)注度,Meta 都在用開源的方式真正實現(xiàn)“open 的 AI”。
這一次,V-JEPA 能否像去年的 LLama 一樣,利用開源模式在大模型的競賽中占得先機(jī)?
*參考資料:
《Meta發(fā)布V-JEPA,世界模型更進(jìn)一步,這是通往通用人工智能(AGI)之路嗎?》,作者:求索,知乎。
(封面圖來源:Meta官網(wǎng))