免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
圖靈獎獲得者Yann LeCun :學習“世界模型”的能力是構建人類級AI的關鍵所在 人類與任務無關的、無監(jiān)督的方式學習關于世界如何運作
userphoto

2022.05.07 江西省

關注

本文最初發(fā)布于 Meta AI 博客,由 InfoQ 中文站翻譯并分享。

盡管人工智能研究最近取得了顯著進展,但我們離創(chuàng)造出像人一樣善于思考和學習的機器還很遠。正如 Meta AI 首席人工智能科學家 Yann LeCun 所指出的那樣,一個從未摸過方向盤的青少年可以在大約 20 個小時內學會開車,而當今最好的自動駕駛系統(tǒng)也需要數百萬甚至數十億帶標簽的訓練數據和數百萬次虛擬環(huán)境中的強化學習試驗。即便如此,它們駕駛汽車也還是不如人類可靠。

構建接近人類水平的人工智能需要什么?僅僅是更多的數據和更大的人工智能模型嗎?

作為 2022 年 2 月 23 日 Meta AI 實驗室內部活動的一部分,LeCun 勾勒了一個構建人類級 AI 的愿景。LeCun 提出,學習“世界模型”的能力——關于世界如何運作的內部模型——可能是關鍵所在。

Meta AI 在此簡要分享下 LeCun 的一些想法,包括他對模塊化、可配置的自主智能架構的建議,以及人工智能研究界為構建這樣一個系統(tǒng)必須解決的關鍵挑戰(zhàn)。我們通常在研究完成后,通過發(fā)表論文、代碼和數據集以及博客文章來分享我們的研究成果。但為了與 Meta AI 開放科學方法保持一致,我們借此機會介紹下我們的研究愿景和思路,希望激發(fā)人工智能研究人員之間的討論與合作。一個簡單的事實是,我們需要共同合作來解決這些極具挑戰(zhàn)性的、令人興奮的問題。

我們計劃在即將發(fā)布的建議書中分享有關 LeCun 愿景的更多細節(jié)。

能夠模擬世界運作方式的人工智能

“人類和非人類動物似乎能夠通過觀察和少量難以理解的互動,以一種與任務無關的、無監(jiān)督的方式學習關于世界如何運作的大量背景知識,“LeCun 說?!备鶕茰y,這樣積累的知識可能就構成了我們通常所說的常識的基礎?!?/p>

而常識可以看作是世界模型的集合,可以解釋什么可能,什么合理,什么不可能。

這使得人類能夠在不熟悉的情況下有效地進行計劃。例如,那個青少年司機可能以前沒有在雪地上開過車,但他(很可能)知道雪地會很滑,如果開得太猛,車就會打滑。

常識性知識使動物不僅能夠預測未來的結果,而且能夠填補缺失的信息,無論是時間上的還是空間上的。當司機聽到附近有金屬撞擊的聲音時,馬上就知道發(fā)生了事故——即使沒有看到相關的車輛。

人類、動物和智能系統(tǒng)使用世界模型的想法可以追溯到幾十年前的心理學和工程領域,如控制與機器人學。LeCun 提出,當今人工智能最重要的挑戰(zhàn)之一是設計學習范式和架構,使機器能夠以自監(jiān)督的方式學習世界模型,然后使用這些模型進行預測、推理和規(guī)劃。 他在綱要中重新組合了不同學科提出的觀點,如認知科學、系統(tǒng)神經科學、最優(yōu)控制、強化學習和“傳統(tǒng)”人工智能,并將它們與機器學習的新概念相結合,如自監(jiān)督學習和聯合嵌入架構。

自主智能架構

LeCun 提出了一個自主智能的架構,它由六個獨立的模塊組成。每個模塊都是可微分的,因為它可以很容易地計算出一些目標函數相對于其自身輸入的梯度估計,并將梯度信息傳播給上游模塊。

自主智能的系統(tǒng)架構。配置器從其他模塊獲得輸入,但為了簡化圖表,我們省略了這些箭頭。

  • 配置器模塊負責執(zhí)行控制。給定一個要執(zhí)行的任務,它會針對這項任務預先配置感知模塊、世界模型、成本和行為者,可能是通過調整這些模塊的參數。

  • 感知模塊接收來自傳感器的信號并估計世界當前的狀態(tài)。對于一個特定的任務,感知到的世界狀態(tài)只有一小部分是相關和有用的。配置器模塊預先通知感知系統(tǒng),從感知到的狀態(tài)中提取與當前任務相關的信息。

  • 世界模型模塊是這個架構中最復雜的部分。它有兩個作用:(1)評估感知未能提供的關于世界狀態(tài)的缺失信息;(2)合理預測世界的未來狀態(tài)。世界模型可以預測世界的自然演變,也可以預測由行為者模塊采取的一系列行動所產生的未來世界狀態(tài)。世界模型就像是一個與當前任務相關的這部分世界的模擬器。由于世界充滿了不確定性,該模型必須能夠代表多種可能的預測。司機可能會在靠近十字路口時放慢速度,以防另一輛靠近十字路口的車沒有停在停車標志前。

  • 成本模塊會計算輸出一個標量,預測代理的不適程度。它由兩個子模塊組成:內在成本模塊,這是固有的,不可改變(不可訓練),它負責計算即時不適(如對代理的損害,違反硬編碼的行為約束等);批評者模塊是一個可訓練的模塊,負責預測內在成本的未來值。代理的最終目標是長期保持內在成本最小化。LeCun 說:“這是基本的行為驅動和內在動機?!耙虼?,它將考慮到內在成本,如不浪費能量以及特定于當前任務的成本。"因為成本模塊是可微分的,所以成本的梯度可以通過其他模塊反向傳播,用于規(guī)劃、推理或學習?!?/p>

  • 行為者模塊計算行動序列的建議?!毙袨檎呖梢哉业揭粋€最佳行動序列,使預估的未來成本最小,并輸出最佳序列中的第一個行動,其方式類似于經典的最優(yōu)控制,“LeCun 說。

  • 短期記憶模塊記錄了當前和預測的世界狀態(tài),以及相關成本。

世界模型架構和自監(jiān)督訓練

該架構的核心是預測性世界模型。構建這樣一個模型的關鍵挑戰(zhàn)是如何使它能夠代表多種多樣的合理預測?,F實世界并不是完全可預測的:一個特定的情況可能有許多演變方式,而且,一個情況有許多細節(jié)與當前任務無關。當我開車時,我可能需要預測周圍的汽車會做什么,但我不需要預測道旁樹上個別樹葉的準確位置。世界模型怎么樣才能習得世界的抽象表示,保留重要的細節(jié)信息而忽略不相關的,并在抽象表示的空間里進行預測?

聯合嵌入預測架構(JEPA)是解決方案的一個關鍵因素。JEPA 可以捕獲兩個輸入 x 和 y 之間的依賴關系。例如,x 可能是一個視頻片段,而 y 是該視頻的下一個片段。將 x 和 y 輸入可訓練的編碼器,提取出它們的抽象表示 sx 和 sy。訓練一個預測器模塊,它可以從 sx 預測 sy。預測器可以使用一個潛在變量 z 來表示 sy 中存在而 sx 中不存在的信息。JEPA 用兩種方式處理預測的不確定性:(1) 編碼器可以選擇放棄 y 中難以預測的信息;(2)潛變量 z 在一個集合中取值時,預測也會在一組可信的預測中變化。

我們如何訓練 JEPA?直到最近,還只有對比法一種方法,包括顯示 x 和 y 兼容的例子,以及許多 x 和 y 不兼容的例子。但當向量表示維數很高時,就很不可行了。過去兩年里出現了另一種訓練策略:正則化方法。當應用于 JEPA 時,該方法使用四個標準:

  1. 使 x 的表示包含 x 的最大信息量;

  2. 使 y 的表示包含 y 的最大信息量;

  3. 能從 x 的表示最大限度地預測 y 的表示;

  4. 使預測器盡可能少地使用潛在變量來表示預測的不確定性。這些標準可以通過各種方式轉化為可微分的成本函數。一種方法是VICReg方法,其中 VICReg 是變量(Variance)、不變性(Invariance)、協(xié)方差正則化(Covariance Regularization)的縮寫。VICReg 是通過保持 x 和 y 的分量的方差在某個閾值之上,并使這些分量盡可能地相互獨立,來最大化 x 和 y 的表示包含的信息量。同時,該模型試圖使 y 的表示可以從 x 的表示預測出來。此外,通過離散化、低維化、稀疏化或噪聲化,使?jié)撟兞康男畔⒘孔钚』?/p>

JEPA 之美在于它自然生成了輸入的信息性抽象表示,去掉了不相關的細節(jié),并且可以用它來進行預測。這使得 JEPA 可以一層層疊加,習得更高層次的抽象表示,用于進行更長期的預測。例如有一個場景,在比較高的層次上可以描述為“一個廚師正在做法式薄餅”。我們可以預測,廚師會去拿面粉、牛奶和雞蛋;混合原材料;把面糊舀到鍋里;讓面糊炸開;翻轉可麗餅;然后重復上述過程。在較低的層次上,倒勺子包括舀一些面糊并在鍋里攤開。再往下,可以精確到廚師的手每一毫秒的準確軌跡。在手的軌跡這么低的層次上,我們的世界模型只能做出短期的準確預測。但在更高的抽象層次上,它可以進行長期預測。

分層 JEPA 可用于在多個抽象層次和多個時間尺度上進行預測。它如何訓練呢?主要是通過被動觀察,少數時候通過互動。

嬰兒在出生后的頭幾個月里主要是通過觀察來了解世界的運作。她知道世界是三維的,一些物體在另一些物體的前面,當一個物體被遮擋時,它仍然存在。最終,在 9 個月大的時候,嬰兒學會了直觀的物理學知識,例如,沒有支撐的物體在重力作用下墜落。

希望分層 JEPA 可以通過觀看視頻和與環(huán)境互動來學習世界的運作方式。通過訓練自己預測視頻中會發(fā)生什么,來生成世界的分層表示。通過在世界中采取行動并觀察結果,世界模型將學會預測行動后果,使它能夠進行推理和計劃。

感知-行動過程

通過適當的訓練將分層 JEPA 變成世界模型,代理可以對復雜的行動進行分層規(guī)劃,將復雜的任務分解成一系列不太復雜、不太抽象的子任務,一直到效應器上的底層行動為止。

典型的感知-行動過程是這樣的。該圖說明了兩層結構的情況。感知模塊提取世界狀態(tài)的層次表示(圖中 s1[0]=Enc1(x),s2[0]=Enc2(s[0]))。然后,根據第二層行為者提出的抽象行動序列,多次應用第二層預測器預測未來狀態(tài)。行動者會優(yōu)化第二層行動序列,使總成本最小化(圖中的 C(s2[4]))。這個過程類似于最優(yōu)控制中的模型預測控制。這個過程會多次對二級潛變量進行重復繪制,可能產生不同的高層場景。由此產生的高層行動并不構成真正的行動,而只是定義了低層狀態(tài)序列必須滿足的約束條件(例如,各要素是否正確混合?) 。它們構成了真正的子目標。整個過程在較低的層次上重復:運行低層預測器,優(yōu)化低層行動序列以最小化來自上層的中間成本,并重復這一過程對低層潛變量進行多次繪制。一旦這個過程完成,代理就將第一個低層行動輸出給效應器,整個過程可以重復進行。

如果我們成功構建了這樣一個模型,所有模塊都是可微分的,那么整個行動優(yōu)化過程就可以用基于梯度的方法進行。

人工智能向人類級智能邁進

這樣一篇簡短的博文無法聊透 LeCun 的愿景,前方還有許多困難的挑戰(zhàn)。其中最有趣也最困難的是將世界模型的架構和訓練過程實例化。事實上,可以說,訓練世界模型是未來幾十年人工智能真正有所進展需要克服的主要挑戰(zhàn)。

但架構的許多其他方面仍有待定義,包括如何精確地訓練批評者,如何構建和訓練配置器,以及如何使用短期記憶來跟蹤世界狀態(tài)并存儲世界狀態(tài)的歷史、行動和相關的內在成本來優(yōu)化批評者。

LeCun 和 Meta AI 的其他研究人員期待在未來幾個月甚至幾年內探索這些問題,并與該領域的其他人交流想法及相互學習。創(chuàng)造能夠像人類一樣有效學習和理解的機器需要長期的科學努力——而且不能保證成功。但我們相信,基礎研究將繼續(xù)加深我們對思維和機器的理解,并將使每個人工智能用戶從中受益。

查看英文原文:

https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTE4Mjg0NTEsImZpbGVHVUlEIjoiZTFBejRPTzlnOFVkUlZxVyIsImlhdCI6MTY1MTgyODE1MSwidXNlcklkIjoyMDQxOTA5MH0.CjoZETnyH4qKFZfOXMw9oBEBklUtHQEqGky9ZVtVJQ4

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Yann LeCun最新發(fā)聲:自監(jiān)督 世界模型,讓 AI 像人類一樣學習與推理
LeCun用62頁論文公布未來十年研究計劃:AI自主智能
圖靈獎獲得者Yann LeCun:未來幾十年AI研究的最大挑戰(zhàn)是「預測世界模型」
思考總結10年,圖靈獎得主Yann LeCun指明下一代AI方向:自主機器智能
LeCun高徒超詳筆記曝光,Meta世界模型首揭秘!首個「類人」模型怎么來的?
自監(jiān)督學習:人工智能中的暗物質,來自Facebook AI Yann LeCun
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服