北京時間 1 月 28 日,Google DeepMind 宣布在人工智能(Artificial Intelligence,以下簡稱 AI)方面取得重大突破,他們名為 AlphaGo 的人工智能在沒有任何讓子的情況下以 5:0 完勝歐洲冠軍、職業(yè)圍棋二段樊麾(完整論文點這里)。
這是 AI 第一次在全尺寸(19X19)的棋盤上擊敗了人類專業(yè)選手,在 AlphaGo 之前,業(yè)界普遍認為 AI 戰(zhàn)勝人類圍棋冠軍的時間點至少還要等上十年。當下,AlphaGo 借助深度學習技術(shù)實現(xiàn)了,描述 AlphaGo 研究成果的論文也成為了 1 月 28 日《自然》雜志的封面文章。
接下來的 3 月份,Google 還會讓 AlphaGo 與世界冠軍李世乭對戰(zhàn),贏家將獲得 Google 提供的 100 萬美金。李世乭是最近 10 年中獲得世界第一頭銜最多的棋手。
在歐美傳統(tǒng)里,棋類游戲被視為頂級人類智力試金石,人工智能挑戰(zhàn)棋類大師的好戲也接連上演。
1997 年,IBM 的深藍在正常時限的比賽中首次擊敗了當時排名世界第一的棋手加里 · 卡斯帕羅夫。2006 年,人類最后一次打敗頂尖的國際象棋 AI。
然而,圍棋卻一直被視為 AI 的強敵。國際象棋中,平均每回合有 35 種可能,一盤棋可以有 80 回合;而圍棋每回合有 250 種可能,一盤棋可以長達 150 回合。同時,圍棋有 3^361 種局面,而可觀測到的宇宙,原子數(shù)量才 10^80。
據(jù)卡耐基梅隆大學機器人系博士、Facebook 人工智能組研究員田淵棟解釋,圍棋難的地方在于它的估值函數(shù)非常不平滑,差一個子盤面就可能天翻地覆,同時狀態(tài)空間大,也沒有全局的結(jié)構(gòu)。這兩點加起來,迫使目前計算機只能用窮舉法并且因此進展緩慢。
在之前圍棋 AI 和人類選手的比賽中,人類選手都會讓子,而且 AI 主要和業(yè)余段位的棋手比賽。而 AlphaGo 這次的對手樊麾是法國國家圍棋隊總教練,已經(jīng)連續(xù)三年贏得歐洲圍棋冠軍的稱號。
另外,在與其他圍棋 AI 的比賽中,AlphaGo 總計 495 局中只輸了一局,勝率是 99.8%。
傳統(tǒng)的人工智能方法是將所有可能的走法構(gòu)建成一棵搜索樹 ,但這種方法對于走法如此之多的圍棋并不適用。AlphaGo 基于 Google 和 DeepMind 一直專研的深度學習技術(shù),將高級搜索樹與深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。
深度學習是機器學習的一個分支。機器學習這個概念認為,對于待解問題,無需編寫任何專門的程序代碼,只需要輸入數(shù)據(jù),算法會在數(shù)據(jù)之上建立起它自己的邏輯。深度學習強調(diào)的是使用的模型,最流行的是被用在大規(guī)模圖像識別任務(wù)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Nets,CNN),簡稱 ConvNets。
AlphaGo 運用到的深度神經(jīng)網(wǎng)絡(luò)是 Policy Network(策略網(wǎng)絡(luò))以及 Value Network(值網(wǎng)絡(luò))。
據(jù)果殼網(wǎng)作者開明的文章,策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)任務(wù)在于合作挑選出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍里,本質(zhì)上和人類棋手所做的一樣。
策略網(wǎng)絡(luò)負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。這樣 AI 就不用給每一步以同樣的重視程度,可以重點分析那些有戲的棋著。
值網(wǎng)絡(luò)負責減少搜索的深度——AI 會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑。
更通俗的解釋是,策略網(wǎng)絡(luò)著眼于當下,選擇下一步走法。值網(wǎng)絡(luò)思考得更加長遠,預測棋局的走向。
DeepMind 用人類圍棋高手的兩千萬步圍棋走法訓練 AI,這種方法稱為監(jiān)督學習(supervised learning),然后讓 AI 和自己對弈,這個流程稱之為強化學習(reinforcement learning)。
征服圍棋最重要的意義在于,AlphaGo 不僅是遵循人工規(guī)則的“專家”系統(tǒng),它還通過深度學習技術(shù)自行掌握了如何贏得圍棋比賽。
DeepMind 是一間英國人工智能初創(chuàng)企業(yè),創(chuàng)立之初主要業(yè)務(wù)是為游戲、電商等服務(wù)提供機器學習的智能算法。換句話說,DeepMind 是一家面向商用市場的技術(shù)提供商。
創(chuàng)始人 Demis Hassabis(德米斯 · 哈薩比斯)小時候是象棋神童,17 歲就達到了 A-level,比其編程銷售過百萬的模擬游戲“主題公園”的事跡還要早兩年。
(Demis Hassabis)
以優(yōu)異的成績畢業(yè)于劍橋大學計算機系之后,Demis 創(chuàng)立了具有開創(chuàng)性意義的電子游戲公司 Elixir Studios,為全球出版商如 Vivendi Universal 制作了許多獲獎游戲。
擁有十年成功的技術(shù)創(chuàng)業(yè)公司經(jīng)驗后, Demis 重新回到校園,在倫敦大學完成認知神經(jīng)科學博士學位,并在麻省理工和哈佛大學拿到博士后學位。
2011 年,Demis Hassabis 聯(lián)合 Shane Legg 以及 Mustafa Suleyman 一同創(chuàng)立了 DeepMind Technologies,專注于機器學習研究。
2014 年 1 月 DeepMind 被 Google 收購,Demis Hassabis 領(lǐng)導 Google 在人工智能方面的全方位工作。
在被 Google 收購后,DeepMind 一直保持低調(diào)。2015 年 11 月,DeepMind 發(fā)布了幾篇關(guān)于利用人工智能算法打敗 Atari 游戲的論文,獲得了不錯的反響。
當時,在和倫敦皇家學會的一次視頻會議中,與會者問及是否在進行圍棋相關(guān)研究,Demis Hassabis 透露,我們現(xiàn)在還不能講太多,但幾個月后會有太驚喜?,F(xiàn)在看來,這個大驚喜就是 AlphaGo 了。Demis Hassabis 描述道:
圍棋是人類發(fā)明的最復雜也是最美的游戲。通過戰(zhàn)勝樊麾,我們的程序贏得了長期以來一項重大人工智能挑戰(zhàn)的勝利。而這項技術(shù)在 Google 的首個用途將是開發(fā)更好的個人助理軟件。這樣的個人助理能夠從用戶在線行為中學習用戶偏好,并對產(chǎn)品和事件作出更符合直覺的建議。