免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
腦極體:用AlphaGo退役后的兩個月,讀懂DeepMind的陽謀


一般來說,某個企業(yè)在推出一個特別成功的產(chǎn)品后,CEO都會冠冕堂皇風輕云淡的說一句“這只是一個開始”。大家也知道,這基本是套話。

但培養(yǎng)出AlphaGo這個年度人工智能標簽的DeepMind好像有點實誠。按理來說,AlphaGo贏了柯潔之后,DeepMind應該好好休養(yǎng)生息一陣,融融資招招人,過一陣再憋個大招出來——贏了李世乭之后他們確實就是這么干的。

但DeepMind這種氣質(zhì)奇特的公司顯然不能讓你猜中套路。他們的CEO在AlphaGo退役時表示”這只是個開始“,然后居然就誠實地開動了。

從五月末AlphaGo退役到現(xiàn)在,正好經(jīng)過了兩個月,這兩個月里DeepMind發(fā)表論文、公開新技術(shù)和討論AI未來的次數(shù)都創(chuàng)下了記錄,差不多每五天就會有一篇新論文面世。而且其中干貨很多,涉及到不少AI的關(guān)鍵領(lǐng)域和空白領(lǐng)域。

在腦極體小伙伴們經(jīng)歷了痛苦(真的非常痛苦)的學習過程之后,得出結(jié)論是大部分AI關(guān)注者篇篇不落地閱讀這些內(nèi)容近乎不可能。所以我們希望能用這篇文章總結(jié)一下DeepMind兩個月中都做了哪些事,并且用相對容易理解的方式把這些事串起來。

當然,更重要的是,我們注意到DeepMind在涉及眾多領(lǐng)域的論文背后,似乎蘊藏著一定的關(guān)聯(lián)性和核心目標。這有點像圍棋里的布局,每個棋子都是獨立的,但他們合在一起卻是一個局。

大部分棋類游戲都是一種陽謀,一切信息都是公開的,計算藏在更深的地方。DeepMind今天在做的,好像也有點這個意思。

復雜環(huán)境處理:AI走出論文的第一步

任何技術(shù)都有其目的。按照目標差異來分類,可以把DeepMind最近公布的新技術(shù)分為兩種(當然不可能特別準確):一是復雜環(huán)境處理,二是AI對人類大腦獨有能力的模仿。

DeepMind最新一篇論文,是剛剛發(fā)表在ICML 2017上的。這篇名叫《強化學習的一個分布視角》的論文(這還屬于比較友善的論文名)中,DeepMind提出了在強化學習系統(tǒng)的訓練中加入一個新的變量:隨機性。

此前的強化學習訓練,基本是讓強化學習來預測平均值。比如基于你玩游戲的數(shù)據(jù),來預測你這一次游戲什么時候會輸?shù)?。但在游戲中,更多時候出現(xiàn)的是隨機情況來影響結(jié)果:操作失誤、忘記某些要素,甚至停電....針對這些隨機現(xiàn)象,顯然平均值的預測就沒用了。這篇論文里,DeepMind提出讓強化學習來預測變體的所有可能。比如預測出行時間時,正常情況要多久、下雨了要多久、車輛出現(xiàn)事故要多久。一旦出現(xiàn)隨機事件帶來的峰值,AI就會針對性建模,強化學習系統(tǒng)也就可以重新預測結(jié)果。

點擊播放GIF/1006K

(強化學習系統(tǒng)測算各種輸?shù)粲螒虻目赡苄裕?/p>

這種被稱為“價值分布”算法的最大啟發(fā),是將強化學習放置在了充滿可能性的環(huán)境里,根據(jù)每一種變化來開啟不同的對應訓練。而這種模式指向的核心問題就是:AI在面對復雜環(huán)境時如何應對。

相較于剛剛這篇論文,不久前DeepMind還發(fā)布了另一篇更知名的論文。之所以出名,是因為這篇名叫《豐富環(huán)境下運動行為的出現(xiàn)》的論文,干了一件很有意思的事:讓AI學跑酷。

說是跑酷,結(jié)果卻不怎么酷。根據(jù)論文中給出的結(jié)果,這些AI小人兒跑的有點像《進擊的巨人》,因此有不少媒體嘲笑其結(jié)果不理想,或者說勉強湊合。

點擊播放GIF/1361K

(進擊的強化學習君)

但這種評價有點站在人類立場的想當然。根據(jù)DeepMind給出的資料,他們在實驗中沒有給出復雜的獎勵機制:比如挺胸抬頭加分、姿勢優(yōu)美加分等等,而是制定了以通過為唯一目標的簡單獎勵機制。在布滿了落崖、障礙物,甚至墻壁的關(guān)卡里,強化學習系統(tǒng)完全憑借自己的分析能力來制定應對策略。結(jié)果證明,簡單指令下AI也可以應對復雜的環(huán)境并且完成目標。

這個實驗的目的,在于測試強化學習如何適應陌生的復雜環(huán)境。如果說上面介紹的那篇論文在于應對過程中的復雜性,這篇就是在應對瞬間出現(xiàn)的復雜情況。

這里面運用的一個核心技術(shù),是多任務強化學習。而有意思的是,DeepMind也在不久前公布了新的多任務學習框架Distral。這個系統(tǒng)的原理是利用提取學習和遷移學習相結(jié)合,在不共享參數(shù)的前提下提取多個任務之間的共同點,然后利用遷移學習來同步處理。多任務學習是AI應對復雜環(huán)境的基礎(chǔ)。這個新系統(tǒng)可以說是復雜環(huán)境處理的底層基石。

從以上內(nèi)容不難看出,DeepMind目前主攻方向之一就是AI如何處理復雜的問題和環(huán)境。兩個月中,他們討論了多種復雜環(huán)境的算法和技術(shù)支撐。

這么做的意義在于,真實世界中的AI應用,是很難出現(xiàn)簡單環(huán)境和簡單目標的。AI處理復雜問題,是強化學習這種深度AI從論文走向現(xiàn)實的第一步。

認知、推理和想象:不像人叫什么人工智能?

上周,DeepMind老大哈薩比斯親自出馬發(fā)表了一篇論文。有意思的是該文章并不是發(fā)表在人工智能領(lǐng)域的期刊上,而是發(fā)表在神經(jīng)醫(yī)學領(lǐng)域的最高規(guī)格刊物《神經(jīng)》當中。

這篇文章哈薩比斯討論的核心問題是,人工智能想要發(fā)揮最大可能性,唯一的方法是回到神經(jīng)科學領(lǐng)域,深入鉆研人類大腦。

這個不妨回到那個本原命題:到底什么是人工智能?有人說機器學習是人工智能,有人說人機交互是人工智能,但這顯然都是從結(jié)果去逆推初衷。從這個名字就知道,只有一種東西是人工智能,那就是模仿人類智能的智能。

哈薩比斯認為,現(xiàn)在雖然人工智能成果大量爆發(fā),但這些算法和技術(shù)大多只能解決一個問題:機器學習只能承擔一個任務、自然語言處理只能完成語音方面的交互、機器視覺只能辨認單一目標,這些能力水平絕不是類人的智能體。

這些所謂的人工智能,距離真正像人類大腦一樣去感知、思考、分析、想象,還差著十萬八千里,甚至根本還沒上路。

哈薩比斯在文章中感嘆,兼具神經(jīng)科學和人工智能特長的人才太難得了。顯然展示了DeepMind的一個核心思路:回到人類大腦,制造像人一樣的人工智能。

而他們確實也是這樣做的。比如在6月初,DeepMind公布了兩篇論文。雖然這兩篇文章研究的領(lǐng)域差別非常大,一篇是大體可以歸于計算機視覺的《視覺互動網(wǎng)絡》,一篇是神經(jīng)網(wǎng)絡領(lǐng)域的《用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡模塊》,但這兩篇文章指向的核心卻是一個:讓AI學會推理。

推理能力,尤其是基于人類感知方式(比如視覺資料)的推理能力,是機器培養(yǎng)類人智能的核心方向。

《視覺互動網(wǎng)絡》中提出了同名網(wǎng)絡模型 VIN,這種神經(jīng)網(wǎng)絡由一個視覺模塊和一個現(xiàn)實推理模塊組成。前者能夠接受并處理視覺信息,而后者可以預測不同物體在物理規(guī)律下會發(fā)生的情況。就像人腦能夠根據(jù)車輛距離的遠近和行駛快慢來推理避讓方式一樣,VIN也能達到類似的效果。

點擊播放GIF/986K

(左邊是真實結(jié)果,右邊是VIN的預測)

《用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡模塊》則描述了模塊化的、具有關(guān)系推理能力的神經(jīng)網(wǎng)絡架構(gòu) RN(關(guān)系網(wǎng)絡)。這種神經(jīng)網(wǎng)絡算法可以模擬大腦推理的過程,可以處理例如“在一堆幾何圖形中,灰色圖形和形狀相同的圖形有幾個?”這一類涉及關(guān)系推理的問題。更強大的地方在于,RN可以適配到其他神經(jīng)網(wǎng)絡算法中,也就是說它像游戲中的一個裝備,裝備它可以給其他AI提升推理能力。

在推理能力以上,人類更高級的能力叫做想象。而DeepMind也沒有放過這個領(lǐng)域。前不久,DeepMind又又又有兩篇論文,分別是《深度強化學習中的想象力增強劑》和《從零開始的學習模型規(guī)劃》,這兩篇論文里,DeepMind按照其不可救藥的玩游戲傳統(tǒng)。在推箱子等游戲中展示了讓深度學習系統(tǒng)通過簡單數(shù)據(jù)進行抽象推理和長期規(guī)劃的能力——基本也就是人類所說的想象力。

(借助想象增強能力,AI系統(tǒng)可以一次性規(guī)劃出推箱子的步驟)

這種解決方案的原理,是讓深度學習系統(tǒng)通過對環(huán)境信息的內(nèi)部模擬,進行粗淺的策略判斷。然后通過多條想象軌跡來構(gòu)思解決策略,最終選擇最優(yōu)解決方式。

事實上,AlphaGo在下圍棋的時候就是用類似的方式來進行局面判斷。但相對于圍棋的規(guī)則嚴謹性,在游戲里關(guān)卡是隨機生成的,規(guī)則自然也是相對開放和變化的,給AI想象力帶來的挑戰(zhàn)也就更大。

除了鉆研推理、想象這種讓AI學習人類解決問題的能力。DeepMind還借助于心理學,探索起了讓AI模仿人類認知的可能性。6月末的一篇論文里,DeepMind提出利用名叫“匹配網(wǎng)絡”(Matching Network)的神經(jīng)網(wǎng)絡模型,記憶并且提煉出AI是如何進行判斷的。

這個實驗的意義在于,未來可能會利用成熟的技術(shù),讓AI去解釋甚至理解自己的行為,甚至闡述自身在做選擇時表現(xiàn)出的偏好。

這種技術(shù)的未來想象空間可就厲害了,只知道能完成任務的是機器和奴隸。會思考自己為什么完成任務,甚至解釋自己完成任務的方法,可就距離獨立思考的人類不遠了。

在認知能力之外,DeepMind還在這個月提出了名叫SCAN(符號概念關(guān)聯(lián)網(wǎng)絡)的神經(jīng)網(wǎng)絡。它的作用是模仿人類的感官,讓AI從真實世界接受信息。這個網(wǎng)絡模型有哈薩比斯親自參與,重要程度也可見一斑。

短短兩個月里,DeepMind在模擬人類大腦與神經(jīng)系統(tǒng)工作當中,先后發(fā)布了對應感官、認知心理、推理能力、想象力的技術(shù)和算法。模擬人類大腦和神經(jīng)系統(tǒng),估計已經(jīng)成為了這家公司一個全面戰(zhàn)略目標。

而無論是第一步的復雜環(huán)境處理,還是升級版的類人智能,都指向著唯一的目標:通用。

通用,一切為了通用

我們知道,人工智能的最高階形式被稱為通用智能。這種形態(tài)的智能,不是解決單一目標:比如語音處理、圖像處理、駕駛輔助,而是像人一樣全面思考和反作用于真實世界。

這種說法可能過于科幻,但從非?,F(xiàn)實的角度出發(fā),人工智能想要擺脫其他智能硬件的附屬者身份,走向獨立完成任務,并且比人類操作機器更有優(yōu)勢,就必須能夠像人一樣判斷真實世界的復雜環(huán)境,進行各種各樣的判斷、推理、規(guī)劃和想象。

這些能力進化的終點,也許是人工智能開始質(zhì)疑和思考。

但這些能力才是真正有無限商業(yè)潛力的機會。否則人工智能的作用永遠是提升效率,而不是改變世界的運行規(guī)則和運行結(jié)構(gòu)。

綜合來看,DeepMind應該有非常復雜而且分工明細的目標規(guī)劃。在多個領(lǐng)域同時探索人工智能進一步擬人的可能性。這些能力集合起來,就是一個完整的智能體。

就像AlphaGo其實綜合了DeepMind的大量技術(shù),才最終達成了超越所有人類棋手的目標。將大量擬人的神經(jīng)網(wǎng)絡能力進行綜合,可能會得到更出色的智能體。這個智能體一定是在DeepMind另一個關(guān)注的核心領(lǐng)域“復雜環(huán)境”中發(fā)揮作用的——也就是現(xiàn)實世界當中。

總之,DeepMind在拆解和逐個攻克通用智能的達成條件,這應該是一場陽謀。雖然這場賽跑還很漫長,不知道何時才有結(jié)果面世。但它的結(jié)果,很可能是AI銀行家、AI律師,甚至AI首席執(zhí)行官這種可以全面應對多元環(huán)境,并且能夠推理、計劃、深度分析現(xiàn)實世界的“狠角色”,甚至可能是能夠自己發(fā)明AI的AI。

到那時我們或許就會發(fā)現(xiàn),人類不僅僅是在圍棋上沒有勝算。而是就像哈薩比斯說的:“這只是開始”。


本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
牛津計算機系主任:AI中符號主義和神經(jīng)網(wǎng)絡應融合發(fā)展
僅用3天,AlphaGo Zero就憑借自學以100:0擊敗AlphaGo,柯潔表示人類太多余了
【震驚】史上最強AlphaGo來了!自學3天碾壓“老狗”!人類贏不了了?
DeepMind新電腦已可利用記憶自學 人工智能邁上新臺階
AlphaGo開發(fā)團隊回顧2016 提三大發(fā)展方向
大腦竟和計算機用同一種算法?DeepMind新研究成果登上《Nature》
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服