免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP
二十一世紀(jì)計(jì)算丨Yoshua Bengio

演講中,Bengio 以去年發(fā)布在 arXiv 的研究計(jì)劃論文“有意識(shí)先驗(yàn)”(The consciousness prior)為主旨,重申了他與 Yann Lecun 十年前提出的解糾纏(disentangle)觀念:我們應(yīng)該以“關(guān)鍵要素需要彼此解糾纏”為約束,學(xué)習(xí)用于描述整個(gè)世界的高維表征(unconscious state)、用于推理的低維特征(conscious state),以及從高維到低維的注意力機(jī)制——這正是深度學(xué)習(xí)通往人類水平 AI 的挑戰(zhàn)。雖然主題看起來(lái)比較廣大,但實(shí)際上,Bengio 討論了非常多的技術(shù)細(xì)節(jié)內(nèi)容。


Bengio 認(rèn)為,直觀上而言,目前的深度神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)于從文字圖像等原始數(shù)據(jù)抽取高層語(yǔ)義信息,它們會(huì)直接在隱藏空間做預(yù)測(cè),這就類似于在無(wú)意識(shí)空間做預(yù)測(cè)。但是實(shí)際上每一次預(yù)測(cè)所需要的具體信息都非常精簡(jiǎn),因此實(shí)際上我們可以使用注意力機(jī)制挑選具體的信息,并在這種有意識(shí)空間進(jìn)行預(yù)測(cè),這種模型和建模方法才能真正理解最初的輸入樣本。


Yoshua Bengio在“二十一世紀(jì)的計(jì)算”大會(huì)上的演講視頻


演講全文


今天我將介紹我與合作者共同探討的一些問(wèn)題,關(guān)于深度學(xué)習(xí)研究的下一步發(fā)展以及如何通向真正人工智能。


在此之前,我想先糾正一個(gè)目前看來(lái)非常普遍的誤解,即“深度學(xué)習(xí)沒(méi)有理論依據(jù),我們不知道深度學(xué)習(xí)是如何工作的?!?/span>


我的很多工作都圍繞深度學(xué)習(xí)理論展開(kāi)。這也是為什么我在大約 12 年前開(kāi)始研究深度學(xué)習(xí)的原因。雖然深度學(xué)習(xí)仍然有諸多未解之謎,但現(xiàn)在我們已經(jīng)對(duì)它的很多重要方面有了更好的理解。


我們更好地理解了為什么優(yōu)化問(wèn)題并不像人們想象中那樣棘手,或者說(shuō)局部極小值問(wèn)題并不像 90 年代的研究者認(rèn)為的那樣是一個(gè)巨大障礙。我們更好地理解了為什么像隨機(jī)梯度下降這樣看起來(lái)非?!澳X殘”的方法實(shí)際上在優(yōu)化和泛化方面都非常高效。


這只是我們?cè)谶^(guò)去十年中學(xué)到的一小部分,而它們有助于我們理解為什么深度學(xué)習(xí)真正好用。數(shù)學(xué)家和理論研究者仍然對(duì)此展現(xiàn)出了極大的興趣,因?yàn)樯疃葘W(xué)習(xí)開(kāi)始在諸多領(lǐng)域變得極為重要。



從人類的兩種認(rèn)知類型解釋
經(jīng)典 AI 與神經(jīng)網(wǎng)絡(luò)的失敗

我今天演講的主題是“通往人類水平的 AI”:我們?cè)噲D讓計(jì)算機(jī)能夠進(jìn)行人與動(dòng)物所擅長(zhǎng)的“決策”,為此,計(jì)算機(jī)需要掌握知識(shí)——這是幾乎全體 AI 研究者都同意的觀點(diǎn)。他們持有不同意見(jiàn)的部分是,我們應(yīng)當(dāng)如何把知識(shí)傳授給計(jì)算機(jī)。


經(jīng)典 AI(符號(hào)主義)試圖將我們能夠用語(yǔ)言表達(dá)的那部分知識(shí)放入計(jì)算機(jī)中。但是除此之外,我們還有大量直觀的(intuitive)、 無(wú)法用語(yǔ)言描述的、不能通過(guò)“意識(shí)”獲得的知識(shí),它們很難應(yīng)用于計(jì)算機(jī)中,而這就是機(jī)器學(xué)習(xí)的用武之地——我們可以訓(xùn)練機(jī)器去獲取那些我們無(wú)法以編程形式給予它們的知識(shí)。



深度學(xué)習(xí)和 AI 領(lǐng)域有很大進(jìn)步、大量行業(yè)應(yīng)用。但是它們使用的都是監(jiān)督學(xué)習(xí),即計(jì)算機(jī)無(wú)需真正發(fā)掘底層概念、高級(jí)表征和數(shù)據(jù)中的因果關(guān)系。事實(shí)上,如果你用不同的方式攻擊這些模型,就像很多對(duì)抗方法所做的那樣,僅僅微調(diào)輸入,也會(huì)使模型變得非常愚蠢。



舉例來(lái)說(shuō),我們?cè)谝黄撐闹懈淖儓D像的傅立葉頻譜,變換后,圖像的類別對(duì)于人類來(lái)說(shuō)仍然很明顯,但是在自然圖像上訓(xùn)練的卷積網(wǎng)絡(luò)的識(shí)別率則變得非常糟糕。


對(duì)我來(lái)說(shuō),現(xiàn)在的系統(tǒng)的失敗之處在于,它們無(wú)法捕捉我們真正想讓機(jī)器捕捉到的高級(jí)抽象(high level abstraction)。事實(shí)上,這是我和合作者希望設(shè)計(jì)出能夠發(fā)現(xiàn)高級(jí)表征的學(xué)習(xí)機(jī)器的原因:這樣的表征可以捕捉構(gòu)成數(shù)據(jù)的根本因素。



我在大約十年前介紹過(guò)“解糾纏”(disentangle)這個(gè)概念,即在一個(gè)好的表征空間中,不同要素的變化應(yīng)該可以彼此分離。(而在像素空間中,所有的變化都彼此糾纏著的。)十年之后,我們認(rèn)為,除了解糾纏變量,我們還希望系統(tǒng)能解糾纏計(jì)算。解糾纏和因果的概念相關(guān),而因果正是機(jī)器學(xué)習(xí)界需要重點(diǎn)關(guān)注的領(lǐng)域,我將在之后回到這個(gè)話題的討論。



五年前,我在一篇綜述論文提出,為了還原那些可以解釋數(shù)據(jù)的根本要素,我們需要引入知識(shí)。我們不能只是從零開(kāi)始學(xué)習(xí),還需要對(duì)世界作出一些可能比較溫和的假設(shè)。這對(duì)于解糾纏變量會(huì)有幫助??臻g、時(shí)間以及邊際獨(dú)立性可能是一些過(guò)于強(qiáng)的假設(shè),但也值得考慮。


一個(gè)先驗(yàn)是某些要素對(duì)應(yīng)于世界的某些“可控層面”(controllable aspect)。例如我手上這個(gè)翻頁(yè)器,它有一個(gè)三維坐標(biāo),而我可以通過(guò)移動(dòng)它改變坐標(biāo)。這種空間位置體系在我們的大腦中也明確存在,因?yàn)檫@是我們能控制的世界層面。


因此在世界的意圖、動(dòng)作、策略和層面的表征之間有著很強(qiáng)的聯(lián)系。與其用最底層的像素表征關(guān)于世界的信息,對(duì)于智能體而言,用更高級(jí)的、可交互的、與控制相關(guān)的要素來(lái)表征信息會(huì)方便的多。



在談及具體的深度學(xué)習(xí)工作之前,讓我先介紹一下心理學(xué)家是如何劃分人類認(rèn)知活動(dòng)的,這有助于我們理解當(dāng)前深度學(xué)習(xí)的優(yōu)勢(shì)以及我們應(yīng)該如何走向人類水平的 AI。


人類的認(rèn)知任務(wù)可以分為系統(tǒng) 1 認(rèn)知(System 1 cognition)和系統(tǒng) 2 認(rèn)知(System 2 cognition)。系統(tǒng) 1 認(rèn)知任務(wù)是那些你可以在不到 1 秒時(shí)間內(nèi)無(wú)意識(shí)完成的任務(wù)。例如你可以很快認(rèn)出手上拿著的物體是一個(gè)瓶子,但是無(wú)法向其他人解釋如何完成這項(xiàng)任務(wù)。這也是當(dāng)前深度學(xué)習(xí)擅長(zhǎng)的事情,“感知”。系統(tǒng) 2 認(rèn)知任務(wù)與系統(tǒng) 1 任務(wù)的方式完全相反,它們很“慢”。例如我要求你計(jì)算“23 56”,大多數(shù)人需要遵循一定的規(guī)則、按照步驟完成計(jì)算。這是有意識(shí)的行為,你可以向別人解釋你的做法,而那個(gè)人可以重現(xiàn)你的做法——這就是算法。計(jì)算機(jī)科學(xué)正是關(guān)于這項(xiàng)任務(wù)的學(xué)科。


而我對(duì)此的觀點(diǎn)是,AI 系統(tǒng)需要同時(shí)完成這兩類任務(wù)。經(jīng)典 AI 試圖用符號(hào)的方法完成系統(tǒng) 2 任務(wù),其失敗的原因很多,其中之一是我們擁有的很多知識(shí)并不在系統(tǒng) 2 層面,而是在系統(tǒng) 1 層面。所以當(dāng)你只使用系統(tǒng) 2 知識(shí),你的體系缺少了一部分重要的內(nèi)容:那些自下而上的有根源知識(shí)(Grounded knowledge)。有根源自然語(yǔ)言學(xué)習(xí)(Ground language learning)是 NLP 的一個(gè)子領(lǐng)域,研究者試圖用除了文本之外的其他形式,例如圖像、視頻,去將語(yǔ)言與感知層面的知識(shí)聯(lián)系起來(lái),構(gòu)建一個(gè)世界模型。



意識(shí)先驗(yàn)

我接下來(lái)將介紹意識(shí)先驗(yàn),意識(shí)領(lǐng)域的研究正逐漸變成主流。我在這里將聚焦于意識(shí)的最重要問(wèn)題:當(dāng)你注意某些東西,或者在你的意識(shí)中浮現(xiàn)了某些東西的時(shí)候,你意識(shí)到了它的某些現(xiàn)實(shí)層面情景。


深度學(xué)習(xí)的表征學(xué)習(xí)關(guān)注信息如何被表征,以及如何管理信息。因此對(duì)于意識(shí)先驗(yàn)很基本的一個(gè)觀察是,在特定時(shí)刻處于你意識(shí)中的想法(thought)是非常低維的。其信息量可能不超過(guò)一句話、一張圖像,并且處于一個(gè)你可以進(jìn)行推理的空間內(nèi)。


你可以將一個(gè)“想法”看做是經(jīng)典 AI 中的一條“規(guī)則”。每個(gè)想法只涉及很少的概念,就像一句話中只有幾個(gè)單詞。從機(jī)器學(xué)習(xí)的角度來(lái)看,你可以利用很少的變量進(jìn)行預(yù)測(cè),準(zhǔn)確度還很高。這種具有良好性質(zhì)的低維表征空間是非常罕見(jiàn)的,例如,嘗試通過(guò)給定的 3 到 4 個(gè)像素來(lái)預(yù)測(cè) 1 個(gè)像素是不可行的。但是人類可以通過(guò)自然語(yǔ)言做到這一點(diǎn)。例如,如果我說(shuō)“下雨時(shí),人們更可能會(huì)撐傘?!边@里僅有兩個(gè)二值隨機(jī)變量,是否下雨和是否撐傘。并且這種語(yǔ)句具備很強(qiáng)的預(yù)測(cè)能力。即使它僅使用了很少的變量,也能給出很高概率的預(yù)測(cè)結(jié)果。也就是說(shuō),根據(jù)很少的信息來(lái)執(zhí)行預(yù)測(cè)。


因此,我將“意識(shí)”稱作一個(gè)“先驗(yàn)”,是因?yàn)橐庾R(shí)是一個(gè)約束條件、一個(gè)正則化項(xiàng)、一個(gè)假設(shè):我們可以用非常少的變量進(jìn)行大量的預(yù)測(cè)。


滿足這些條件意味著我們需要好的空間表征。好的表征的一個(gè)特性是當(dāng)把數(shù)據(jù)映射到該空間時(shí),變量之間的依賴關(guān)系只需要用很少的概念表達(dá)(例如規(guī)則),且涉及很少的維度。


學(xué)習(xí)好的表征意味著可以將知識(shí)用兩種方式表達(dá):在編碼器中,將原始數(shù)據(jù)映射到高級(jí)空間;通過(guò)規(guī)則將變量關(guān)聯(lián)起來(lái)并執(zhí)行預(yù)測(cè)。


因此我們有兩種形式的解糾纏。我以前的論文僅考慮了解糾纏變量,現(xiàn)在我們還考慮了解糾纏規(guī)則。如果我們將這些變量看成是代表因果變量的因子,這對(duì)應(yīng)著一種因果機(jī)制。因果變量是指在因果陳述中使用的變量,例如“下雨導(dǎo)致人們撐傘”。這些變量需要處在一個(gè)好的表征空間來(lái)作出因果陳述。像素空間并非能夠進(jìn)行因果陳述的合適表征空間:我們無(wú)法說(shuō)某些像素的改變導(dǎo)致了其它像素的改變,而在因果空間中推理是可行的。



那么要如何實(shí)現(xiàn)這種表征呢?對(duì)此,注意力機(jī)制是一種很重要的工具。注意力機(jī)制在過(guò)去幾年獲得了很大的成功,尤其是在機(jī)器翻譯中,它可以按順序選取重點(diǎn)關(guān)注的信息。


更棒的是你可以使用軟注意力來(lái)實(shí)現(xiàn)整個(gè)系統(tǒng)的端到端訓(xùn)練。我們不需要設(shè)計(jì)一個(gè)獨(dú)立的系統(tǒng)來(lái)做這種選擇。你可以將注意力機(jī)制作為在某些全局目標(biāo)下端到端訓(xùn)練的更大系統(tǒng)的一部分。而這正是深度學(xué)習(xí)擅長(zhǎng)的地方。



在架構(gòu)方面,意識(shí)先驗(yàn)在“原始輸入”和“某些更高級(jí)的表征”之外,還引入了第三個(gè)層次:這也就是有意識(shí)狀態(tài)(conscious state)。


如上所示無(wú)意識(shí)狀態(tài)通常是深度學(xué)習(xí)所考慮的表征,是模型將數(shù)據(jù)映射到的一些表示空間。這些隱藏表征通常有非常高的維度與稀疏性,因?yàn)槿魏螘r(shí)候都只有少數(shù)變量與輸入相關(guān)。在此之外,我們還會(huì)使用注意力機(jī)制選擇無(wú)意識(shí)狀態(tài)(高維隱藏表征)的幾個(gè)重要維度,并在有意識(shí)狀態(tài)下表示它們。進(jìn)入有意識(shí)狀態(tài)的信息就像短期記憶,我們可以使用注意力機(jī)制選擇一些重要的信息,并通過(guò)某種交互表示它們。



這個(gè)理論框架還有非常多的細(xì)節(jié)需要完善,去年我們主要關(guān)注其中的一個(gè)方面:目標(biāo)函數(shù)。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的標(biāo)準(zhǔn)訓(xùn)練目標(biāo)函數(shù)都基于最大似然估計(jì),而即使與最大似然無(wú)關(guān)的目標(biāo)函數(shù),例如 GAN 的一些目標(biāo)函數(shù),也是在像素級(jí)別進(jìn)行構(gòu)建的。然而,我們實(shí)際上想要在隱藏空間中表現(xiàn)出可預(yù)測(cè)性。


這很難做到,但我們其實(shí)可以訓(xùn)練一些不需要返回到像素空間的機(jī)器學(xué)習(xí)算法,例如主成分分析(PCA)。我們可以像自編碼器那樣用最小化重構(gòu)誤差訓(xùn)練 PCA:這是在像素空間中構(gòu)造目標(biāo)函數(shù),但同時(shí)我們也可以在隱藏空間中訓(xùn)練它,例如我們希望降維后的表征每一個(gè)都有非常大的方差,從而捕捉到足夠多的輸入信息。


但我們不止想做 PCA,我們希望有更強(qiáng)大的模型。其中一個(gè)很好的擴(kuò)展概念是互信息(mutual information),它允許我們?cè)诰幋a器輸出的隱藏空間中定義目標(biāo)函數(shù)。這個(gè)想法很早就已經(jīng)提出來(lái)了,在聯(lián)接主義的早期,Suzanna Becker 就認(rèn)為我們應(yīng)該“尋找數(shù)據(jù)變換的方法,使空間中的近鄰特征擁有比較高的互信息水平”,以此進(jìn)行無(wú)監(jiān)督圖像學(xué)習(xí)。我認(rèn)為這是一個(gè)被遺忘的重要方向。


注:接下來(lái) Bengio 沿著互信息這個(gè)方向介紹了很多研究論文,包括它們的基本過(guò)程、核心思想和技術(shù)等,這里只給出了研究論文列表,感興趣的讀者可以查看原論文。

  • Learning Independent Features with Adversarial Nets for Non-linear ICA,ArXiv:1710.05050

  • MINE: Mutual Information Neural Estimation,ArXiv:1801.04062



意識(shí)先驗(yàn)的現(xiàn)實(shí)意義:
世界模型實(shí)現(xiàn)人類水平的語(yǔ)言模型

回到系統(tǒng) 1 和系統(tǒng) 2 認(rèn)知任務(wù),以及意識(shí)先驗(yàn)。這些概念的實(shí)際意義是什么?


首先,為了真正理解語(yǔ)言,我們要構(gòu)建同時(shí)具有系統(tǒng) 1 和系統(tǒng) 2 能力的系統(tǒng)。當(dāng)下的 NLP 算法與 NLP 產(chǎn)品,無(wú)論是機(jī)器翻譯、語(yǔ)音識(shí)別、問(wèn)答系統(tǒng),還是根本不能理解任何東西的閱讀理解,所有這些系統(tǒng)都僅僅是在大型文本語(yǔ)料庫(kù)和標(biāo)簽上做訓(xùn)練而已。



我認(rèn)為這樣是不夠的,你可以從它們犯的錯(cuò)誤中發(fā)現(xiàn)這一點(diǎn)。舉個(gè)例子,你可以對(duì)系統(tǒng)做個(gè)測(cè)試,看他們能否消除這些 Winograd 模式歧義句:“The women stopped taking pills because they were pregnant(懷孕).”這里的“they”指什么?是 women 還是 pills?“The women stopped taking pills because they were carcinogenic(致癌)”這句中的“they”又指代什么?事實(shí)證明,機(jī)器僅僅通過(guò)研究樣本的使用模式是不足以回答這個(gè)問(wèn)題的,機(jī)器需要真正理解“女性”和“藥”是什么,因?yàn)槿绻野选皯言小睋Q成“致癌”,答案就從“女性”變成了“藥”。在人類看來(lái)這個(gè)問(wèn)題非常簡(jiǎn)單,但是現(xiàn)有的機(jī)器系統(tǒng)回答起來(lái)比隨機(jī)猜測(cè)好不了多少。



當(dāng)我們想要構(gòu)建能理解語(yǔ)言的系統(tǒng)時(shí),我們必須問(wèn)問(wèn)自己,對(duì)于機(jī)器而言理解問(wèn)題或文檔意味著什么。如果它們需要相關(guān)知識(shí),那么從哪里獲取這些知識(shí)呢?我們又該如何訓(xùn)練那些具備特定知識(shí)的系統(tǒng)?


有一個(gè)思想實(shí)驗(yàn)可以幫助我們看清僅在文本上訓(xùn)練模型的局限。想象一下你乘坐宇宙飛船到達(dá)另一個(gè)星球。外星人說(shuō)著你聽(tīng)不懂的語(yǔ)言,這時(shí)如果你能夠捕捉到他們?cè)诮涣髦袀鬟_(dá)的信息,或許你可以訓(xùn)練語(yǔ)言模型以理解外星語(yǔ)言。而那個(gè)星球與地球有一個(gè)區(qū)別:那里的通信通道不帶噪聲(地球上的通信通道是有噪聲的,因此,人類語(yǔ)音為了在噪聲中保持魯棒性,包含了大量信息冗余。)


由于外星的通信通道沒(méi)有噪聲,因此傳輸信息的最佳方式是壓縮信息。而信息被壓縮后,看起來(lái)和噪聲沒(méi)什么區(qū)別:在你看來(lái),它們交換的都是一些獨(dú)立同分布的比特信息,語(yǔ)言建模和 NLP 工具也無(wú)法幫到你。



這個(gè)時(shí)候我們?cè)撛趺崔k呢?我們需要做更多工作。僅觀察信息本身是不夠的,你必須找出它們的意圖,理解它們的語(yǔ)境和行為的原因。因此,在語(yǔ)言建模之外,你必須建模環(huán)境并理解原因,這意味著大量額外工作。AI 領(lǐng)域研究者“懶惰”又“貪婪”,他們不想進(jìn)行額外工作,因此他們嘗試僅通過(guò)觀察文本來(lái)解決語(yǔ)言理解問(wèn)題。然而很不幸,這并不會(huì)給出有效解決方案。



一種可行方法是先學(xué)習(xí)一個(gè)不錯(cuò)的世界模型,然后基于該模型解決語(yǔ)言問(wèn)題,就像根據(jù)語(yǔ)言模型弄清楚某個(gè)單詞的意義一樣。我認(rèn)為嬰兒在一定程度上就是這么做的,因?yàn)閶雰翰⒎且婚_(kāi)始就使用語(yǔ)言進(jìn)行學(xué)習(xí),最初它們只是嘗試?yán)斫猸h(huán)境。但是在某個(gè)時(shí)間點(diǎn),將“學(xué)習(xí)語(yǔ)言模型”和“學(xué)習(xí)世界模型”兩種學(xué)習(xí)模式結(jié)合起來(lái)是有益的。



語(yǔ)言可以提供良好表征。因?yàn)槿绻肱@些語(yǔ)義變量,深度學(xué)習(xí)應(yīng)該從感知器中提取出語(yǔ)義。比如你媽媽說(shuō)“狗”,恰好這時(shí)你看到了一只狗,這就很有幫助,因?yàn)楫?dāng)你在不同語(yǔ)境中使用這個(gè)詞時(shí)你的感官感知是不同的。這就是監(jiān)督學(xué)習(xí)性能好的原因。


事實(shí)上,以監(jiān)督學(xué)習(xí)方式訓(xùn)練出的深層網(wǎng)絡(luò)的表征比無(wú)監(jiān)督模型好很多,最起碼對(duì)于目前的無(wú)監(jiān)督學(xué)習(xí)來(lái)說(shuō)。我認(rèn)為應(yīng)該將二者結(jié)合起來(lái),不過(guò)你必須理解世界的運(yùn)行方式。世界運(yùn)行方式的一個(gè)方面是因果關(guān)系,機(jī)器學(xué)習(xí)目前對(duì)此缺乏關(guān)注。



具體而言,我們的學(xué)習(xí)理論在這方面仍然很匱乏。目前的學(xué)習(xí)理論假設(shè)測(cè)試分布與訓(xùn)練分布相同,但是該假設(shè)并不成立。你在訓(xùn)練集上構(gòu)建的系統(tǒng)在現(xiàn)實(shí)世界中可能效果并不好,因?yàn)闇y(cè)試分布與訓(xùn)練分布不同。


因此我認(rèn)為我們應(yīng)該創(chuàng)建新的學(xué)習(xí)理論,它應(yīng)該不會(huì)基于“測(cè)試分布與訓(xùn)練分布相同”這樣生硬的假設(shè)。我們可以采用物理學(xué)家的方式,假設(shè)訓(xùn)練分布和測(cè)試分布的底層因果機(jī)制相同。這樣即使動(dòng)態(tài)系統(tǒng)的初始條件不同,底層物理機(jī)制仍然不會(huì)改變。



那么如何去做呢?事實(shí)上,構(gòu)建好的世界模型令人望而生畏,我沒(méi)有足夠的計(jì)算能力對(duì)真實(shí)世界建模,因此我認(rèn)為更合理的方法是利用機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)研究不是關(guān)于 AI 應(yīng)該具備哪些知識(shí)的研究,而是提出優(yōu)秀的學(xué)習(xí)算法的研究。優(yōu)秀的機(jī)器學(xué)習(xí)算法理應(yīng)在任何分布中都可以良好運(yùn)行。


近年來(lái)深度學(xué)習(xí)社區(qū)涌現(xiàn)了大量關(guān)于搭建虛擬環(huán)境的研究,如在深度強(qiáng)化學(xué)習(xí)體系下,人們構(gòu)建虛擬環(huán)境并在其中測(cè)試不同的智能體學(xué)習(xí)步驟。深度強(qiáng)化學(xué)習(xí)最酷的一點(diǎn)是便于做科學(xué)實(shí)驗(yàn),我們可以借助虛擬環(huán)境測(cè)試?yán)碚?,更快速地獲取反饋。



在我實(shí)驗(yàn)室開(kāi)始的一個(gè)項(xiàng)目,是 1971 年 Winograd 用 SHRDLU 系統(tǒng)進(jìn)行 blocks world 實(shí)驗(yàn)的延伸。他們當(dāng)初試圖建立一個(gè)能夠用自然語(yǔ)言執(zhí)行任務(wù)的系統(tǒng),比如“拿起一個(gè)紅色的木塊”,但他們?cè)噲D用基于規(guī)則的經(jīng)典 AI 來(lái)實(shí)現(xiàn)目標(biāo)。這在某種程度上起作用了,但它和大多數(shù)規(guī)則系統(tǒng)一樣非常脆弱。它無(wú)法擴(kuò)展,因?yàn)槟阈枰謩?dòng)設(shè)計(jì)大量知識(shí),像當(dāng)前大多數(shù)脆弱且無(wú)法擴(kuò)展的對(duì)話系統(tǒng)一樣。我認(rèn)為,除非我們真正做更多的基礎(chǔ)研究,否則這種情況不會(huì)改善。


BabyAI 平臺(tái):模擬世界模型


所以我們構(gòu)建了一個(gè)叫做 BabyAI(或 BabyAI game)的平臺(tái),其中設(shè)置了有一個(gè)“學(xué)習(xí)者”和一個(gè)“人類”的游戲或場(chǎng)景。


學(xué)習(xí)者就是“baby AI”,我們要為學(xué)習(xí)者設(shè)計(jì)學(xué)習(xí)算法,而其中的人類與學(xué)習(xí)者互動(dòng),并使用自然語(yǔ)言幫助它理解周圍的環(huán)境。人類可以通過(guò)課程學(xué)習(xí)(curriculum learning)、為學(xué)習(xí)者設(shè)計(jì)正確的問(wèn)題以及考慮學(xué)習(xí)者知道什么和不知道什么等等來(lái)幫助它。當(dāng)然了,課程學(xué)習(xí)本身就是一個(gè)有趣的研究領(lǐng)域,因?yàn)槿绻覀兡軌驑?gòu)建出計(jì)算機(jī)與人類互動(dòng)的更好系統(tǒng),那也會(huì)非常有用。


所以我們?cè)?2D 網(wǎng)格世界中構(gòu)建了一個(gè)非常簡(jiǎn)單的環(huán)境,并能在其中使用類似“把藍(lán)色鑰匙放在綠色的球旁邊”這種簡(jiǎn)單的自然語(yǔ)言表述。



在這個(gè)階段,我們有 19 個(gè)學(xué)習(xí)者應(yīng)該能夠?qū)W習(xí)的難度級(jí)別和任務(wù)類型。我們還設(shè)計(jì)和訓(xùn)練了一個(gè)知道如何解決任務(wù)的啟發(fā)式專家。當(dāng)然,這個(gè)專家扮演的是人類的角色,因?yàn)樵谶@個(gè)階段,我們實(shí)際上還不想讓人類參與進(jìn)來(lái)。所以我們希望能夠模擬人類,然后查看和測(cè)試不同的學(xué)習(xí)者表現(xiàn)如何。



我們有更大的版本,不同級(jí)別有不同的房間數(shù)量和不同類別的任務(wù)。我們定義了一系列的概念,比如房間和迷宮,也定義了一系列動(dòng)作,如去某個(gè)地方、打開(kāi)、撿、放等等,以及使用這些概念的不同任務(wù)。當(dāng)你進(jìn)階學(xué)習(xí)更加復(fù)雜的任務(wù),需要的概念也越來(lái)越多。



但是,我們目前嘗試過(guò)的機(jī)器學(xué)習(xí)方法還做不到這一點(diǎn)。如果我們有真正的人類來(lái)教 baby,他們就不需要給 baby 提供成百上千的軌跡示例。


我們嘗試了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,人類會(huì)提供獎(jiǎng)勵(lì)。在學(xué)習(xí)者收斂之前,他需要在數(shù)百萬(wàn)軌跡上提供數(shù)百萬(wàn)條獎(jiǎng)勵(lì)。但即使是效率更高的模仿學(xué)習(xí)(類似監(jiān)督學(xué)習(xí)),如果要從模仿示例中學(xué)習(xí),對(duì)于一個(gè)人來(lái)說(shuō),花時(shí)間訓(xùn)練這些系統(tǒng)還是遠(yuǎn)遠(yuǎn)超出了我們認(rèn)為的合理范圍。


我們還發(fā)現(xiàn)當(dāng)前的系統(tǒng)可以非常快速地學(xué)習(xí)來(lái)做這樣的工作,但要達(dá)到 99% 的正確回答率還需要大量訓(xùn)練。因此我們認(rèn)為可以用這些基準(zhǔn)來(lái)研究簡(jiǎn)單效率數(shù)據(jù)、不同學(xué)習(xí)程序效率。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Yoshua Bengio:注意力是“有意識(shí)”AI的核心要素
【學(xué)術(shù)人生】Yoshua Bengio:我的一生
Bengio 智源大會(huì)重磅演講:基于神經(jīng)因果系統(tǒng)2實(shí)現(xiàn)魯棒深度學(xué)習(xí)
學(xué)界 | Bengio最新論文提出GibbsNet:深度圖模型中的迭代性對(duì)抗推斷
圖靈獎(jiǎng)得主Yoshua Bengio:用因果打開(kāi)AI的黑盒
縱覽深度學(xué)習(xí)技術(shù)前沿,Yoshua Bengio為你解讀如何創(chuàng)造人類水平的AI
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服