日韩欧美亚洲精品,日本-区二区三区免费精品

AlphaGo外傳——機器學習與算法智能

2018.01.08

文章來源：科學網(wǎng) 王東明的博客 2018-1-7 20:46
?

阿狗數(shù)學的遠房親戚AlphaGo，即阿爾法圍棋，它是由谷歌旗下的DeepMind公司創(chuàng)始人Demis Hassabis團隊開發(fā)的人工智能程序。這個程序在2016年和2017年出盡風頭，它讓圍棋高手陷入窘境，讓天才對未來憂心忡忡。那么，AlphaGo的類腦機制的智商因何如此之高？

2015年10月，AlphaGo的初始版本AlphaGo Fan以5比0的傲人戰(zhàn)績擊敗歐洲圍棋三連冠棋手樊麾；2016年3月，升級版AlphaGo Lee與圍棋世界冠軍、職業(yè)九段棋手李世石對戰(zhàn)，以4比1的比分獲勝；2016年末至2017年初，再次升級的新版AlphaGo Master在中國棋類網(wǎng)站上以“大師”（Master）為注冊賬號與中日韓數(shù)十位圍棋高手進行快棋對決，連戰(zhàn)60局未嘗一??；2017年5月，在中國烏鎮(zhèn)圍棋峰會上，AlphaGo Master與排名世界第一的棋手柯潔對決3局，無一敗北。見好就收，AlphaGo團隊宣布不再參加圍棋比賽，退出了人類圍棋圈。圍棋界普遍認為，AlphaGo的棋力已經(jīng)超過了人類頂級職業(yè)棋手的水平。

2017年10月18日，DeepMind公司發(fā)布了AlphaGo的最新版本AlphaGo Zero。這個Zero經(jīng)過三天三夜的訓練，就以100比0的離奇戰(zhàn)績擊潰Lee。再經(jīng)過近四十天的訓練，它又擊敗了Master。Zero最引人注目的不僅僅在于它的戰(zhàn)績，更在于它完全脫離了人類棋譜，僅僅依靠自我訓練，就以更少的計算力度“超越”了前輩。AlphaGo神奇戰(zhàn)績的秘密都藏在它的腦組織：算法之中。

根據(jù)AlphaGo團隊發(fā)表的首篇論文，任何完全信息博弈都是一種搜索，而搜索的復雜性則由搜索空間的寬度與深度決定。對圍棋來說，搜索寬度約為250，深度約為150。AlphaGo的早期版本，包括Lee和Master，其主要原理是深度學習、強化學習與蒙特卡羅樹搜索。

深度學習主要在于建立兩個受過訓練的模型網(wǎng)絡：價值網(wǎng)絡和策略網(wǎng)絡。AlphaGo利用價值網(wǎng)絡來削減搜索的深度，利用策略網(wǎng)絡來削減搜索的寬度，從而極大地縮小了搜索空間。

價值網(wǎng)絡是一種用來評估、度量當前棋盤狀態(tài)的神經(jīng)網(wǎng)絡。它的輸入是棋盤中19×19個點的狀態(tài)，輸出是獲勝的期望值。理論上總存在一個高級函數(shù)，它可以用來計算這個期望值。但遺憾的是，目前還沒有找到計算期望值的高級函數(shù)，所以人們只能用多層的神經(jīng)元網(wǎng)絡來擬合這個函數(shù)。對某些棋盤狀態(tài)輸贏是很容易判斷的，因而它們的后續(xù)狀態(tài)并不需要繼續(xù)探索。價值網(wǎng)絡的目的就是通過確定那些輸贏容易判斷的棋盤狀態(tài)來削減搜索深度。

策略網(wǎng)絡則是一種根據(jù)當前的棋盤狀態(tài)，評估每種著子的勝率，并從中選擇最大勝率著子的神經(jīng)網(wǎng)絡。其實這就是給出選擇可能著子的概率分布。同樣，也存在一個高級函數(shù)，它可以用來計算所述概率分布。也出于同樣原因，人們只能利用多層神經(jīng)元網(wǎng)絡來擬合所述高級函數(shù)。因為有些著子獲勝概率極低，可以忽略，因此可以利用策略網(wǎng)絡確定可忽略的著子來削減搜索寬度。

AlphaGo具體使用深度卷積神經(jīng)網(wǎng)絡（CNNs）來訓練價值網(wǎng)絡與策略網(wǎng)絡。神經(jīng)網(wǎng)絡是用來模擬人類或動物大腦，利用多個神經(jīng)元共同計算逼近某種復雜函數(shù)的方法。任何一種價值判斷都可以理解為某種從輸入到輸出的多元函數(shù)。數(shù)學上已經(jīng)證明，使用神經(jīng)網(wǎng)絡可以無限逼近上述多元函數(shù)。由于圍棋盤可以看作一幅19×19的圖像，所以AlphaGo團隊選擇了適合處理圖像的深度（即多層的）卷積神經(jīng)網(wǎng)絡來構(gòu)建價值網(wǎng)絡與策略網(wǎng)絡。

基于深度卷積神經(jīng)網(wǎng)絡，AlphaGo先進行策略網(wǎng)絡學習，再進行價值網(wǎng)絡學習。策略網(wǎng)絡學習又分為兩步，第一步是有監(jiān)督的學習，即學習人類的既往棋譜，也就是KGS圍棋平臺上的3000萬個著子位置。AlphaGo會隨機選擇著子位置，利用以往的棋譜來預測人類棋手可能的應對著子位置，從而判斷每種著子的勝率。如果僅使用著子歷史和位置信息，預測成功率為55.7%；加上其他因素，成功率可以提高到57%。第二步是強化學習，即在監(jiān)督學習策略網(wǎng)絡的基礎(chǔ)上，不斷讓當前策略網(wǎng)絡與前一策略網(wǎng)絡進行對弈，并利用輸贏不同的反饋來優(yōu)化策略網(wǎng)絡。價值網(wǎng)絡訓練與策略網(wǎng)絡訓練類似，不過輸出的是獲勝的概率。

除了策略網(wǎng)絡和價值網(wǎng)絡，AlphaGo還有一個重要組成部分：快速著子分析模塊。該模塊與監(jiān)督學習策略網(wǎng)絡一樣，由人類棋譜訓練而來，可以看作是一個簡化版的監(jiān)督學習策略網(wǎng)絡，用于快速得到蒙特卡羅樹搜索過程中節(jié)點的模擬勝率。

在通過深度學習與強化學習完成價值網(wǎng)絡、策略網(wǎng)絡與快速著子分析模塊的構(gòu)建后，AlphaGo通過蒙特卡羅樹搜索來實現(xiàn)思考搜索，其過程大致如下。

首先假定當前棋局狀態(tài)為S，并且對每種可能的著子a，都有著子價值Q(S,a)、初始概率P(S,a)及訪問次數(shù)N(S,a)。然后針對當前棋局，蒙特卡羅樹搜索不斷地進行棋局模擬。

在一次棋局模擬過程中，假設從根節(jié)點(S,a)出發(fā)到達第t個節(jié)點時的棋局狀態(tài)是S(t)，這時在所有可能的著子a中找出著子a(t)，使得Q(S(t),a)+u(S(t),a)最大。式中的Q(S(t),a)為當前節(jié)點的著子價值，它是由之前所有經(jīng)過該節(jié)點的棋局模擬的最終勝率求平均得到，而且u(S(t),a)正比于P(S(t),a)/[1+N(S(t),a)]，其中初始概率P(S(t),a)為通過策略網(wǎng)絡得到的獲勝概率，訪問次數(shù)N(S(t),a)為到目前為止所有棋局模擬過程中經(jīng)過節(jié)點(S(t),a)的次數(shù)（這里引入節(jié)點訪問次數(shù)是為了鼓勵嘗試新的節(jié)點）。

之后將著子a(t)作為棋局模擬的下一節(jié)點，并重復這一過程直至一個從未展開過的節(jié)點，該節(jié)點的子節(jié)點的初始概率在之前的棋局模擬中尚未計算。接下來對該節(jié)點的所有子節(jié)點計算最終勝率和初始概率，其中最終勝率是由通過價值網(wǎng)絡得到的獲勝概率與通過快速著子分析模塊多次模擬棋局得到的模擬勝率加權(quán)平均所得到的。在選定最佳著子后，利用該著子的最終勝率，對當前棋局模擬經(jīng)過的所有節(jié)點的著子價值與訪問次數(shù)進行更新。最后，完成本次棋局模擬，并開始下一次棋局模擬。

在蒙特卡羅樹搜索結(jié)束之后，由于每次棋盤模擬都是選擇最佳節(jié)點，AlphaGo會選擇根節(jié)點下訪問次數(shù)最多的子節(jié)點作為下一步的著子節(jié)點。至于蒙特卡羅樹搜索什么時候終止，這要看AlphaGo有多少時間來走下一步棋。

以上是AlphaGo在Zero之前的幾個版本所使用的算法。而在2017年10月推出的Zero與前輩相比，棋力有了很大提高，當然所用的算法也有很大改善。下面我們來看一下Zero的算法有哪些改進。

首先，取代之前同時使用策略網(wǎng)絡與價值網(wǎng)絡，Zero使用同一神經(jīng)網(wǎng)絡，輸入棋局狀態(tài)和歷史著子，輸出當前棋局的獲勝概率以及選擇可能著子的概率分布。然后，不再進行監(jiān)督學習，Zero只進行強化學習，拋棄了人類棋局經(jīng)驗。之后，與以前的需要在棋局之前進行訓練的強化學習網(wǎng)絡不同，Zero可以直接通過棋局進行自我訓練。

最后，Zero在棋局中使用改進后的蒙特卡羅樹搜索來實現(xiàn)思考過程。之前的棋局模擬是在到達未展開的節(jié)點時結(jié)束，而改進后的棋局模擬在下列三種情形發(fā)生時也會結(jié)束：對手認輸，得到的最終勝率低于閾值，棋局模擬長度達到所規(guī)定的最大長度。在每次棋局模擬結(jié)束，Zero還會根據(jù)棋局模擬結(jié)果與神經(jīng)網(wǎng)絡計算結(jié)果來調(diào)整神經(jīng)網(wǎng)絡的參數(shù)，更新神經(jīng)網(wǎng)絡并開始下一輪棋局模擬。

Zero在不斷與自己對弈的過程中，獲得了許多關(guān)于圍棋博弈的新知識，并糾正了一些人類有關(guān)圍棋博弈的錯誤觀念。換句話說，Zero在探索圍棋博弈的過程中，大大提高了自身的博弈能力，其圍棋博弈技術(shù)與策略在某些方面已經(jīng)超越了人類。目前尚無合理的解釋，Zero是如何在如此短的時間內(nèi)達到了如此高的水平。

在圍棋領(lǐng)域AlphaGo雖然已經(jīng)在某種程度上超越了人類，可是它已經(jīng)堅定地退出了圍棋界，人們再也無法看到它與人類交手的場景。然而我們有足夠的理由相信，其他類似于AlphaGo的人工智能程序譬如BetaOx（百牛），還會出現(xiàn)，還會在不遠的將來讓許多其他領(lǐng)域的天才在與其挑戰(zhàn)中一敗涂地。更令人擔憂的是，人工智能會不會使很多職業(yè)人士失去自己熱愛的工作，無奈地離開自己的工作崗位？我們是應該期待還是拒絕人工智能時代的到來呢？

（本文參考了AlphaGo團隊的兩篇論文《Mastering the game of Go withdeep neural networks and tree search》、《Mastering the game of Go without human knowledge》，張夢迪等人的《從AlphaGo的成功說起》，趙浩彤的《科普一下AlphaGo的論文算法并談談自己的思考》和陳老師與待字閨中的《AlphaGo其實挺“笨”的》等著作。文中的圖片均來自網(wǎng)絡及所列參考文獻。）
?
? 來源：阿狗數(shù)學AlgoMath

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

［趙昊彤博士］AlphaGo是如何“思考”的，解讀AlphaGo的論文算法

深入淺出看懂AlphaGo元 | Go Further | Stay Hungry, Stay Fo...

AlphaGo圍棋論文中文翻譯

譯文丨AlphaGo論文：精通圍棋——深度神經(jīng)網(wǎng)絡和搜索樹

最強AlphaGo怎樣煉成？剛剛，DeepMind團隊進行了全面解讀

六一獻禮：這是迄今為止，AlphaGo算法最清晰的解讀

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版