免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
星陳圍棋的研發(fā)背景和星陳技術(shù)

研發(fā)背景

2016年3月,DeepMind團隊的圍棋AI程序AlphaGo 4:1戰(zhàn)勝世界冠軍李世石九段,成為人工智能歷史上的里程碑事件。2017年5月,改進后的AlphaGo再次與柯潔九段對弈,以3:0獲得完勝。DeepMind團隊發(fā)表在《自然》雜志上的兩篇重磅論文,闡釋了這兩次勝利背后的技術(shù)驅(qū)動力。

第一篇論文(Mastering the game of Go with deep neural networks and tree search)主要講述了如何使用監(jiān)督學習的方法,通過深度學習技術(shù),學習人類棋譜,達到略高于人類頂尖棋手的水平。這篇論文證明了深度學習技術(shù)的優(yōu)越性。戰(zhàn)勝李世石九段的AlphaGo版本就是這篇論文的工程實現(xiàn)。深度學習是一種數(shù)據(jù)驅(qū)動的方法,數(shù)據(jù)的數(shù)量和質(zhì)量決定了學習效果的上限。這篇論文對應(yīng)的AlphaGo版本,學習的數(shù)據(jù)是人類棋譜,因此其水平受限于人類棋譜的數(shù)量和質(zhì)量。

第二篇論文(Master the game of Go without human knowledge)發(fā)表于2017年,主要思想是使用強化學習方法突破人類棋譜水平和數(shù)量的瓶頸。通過自我對弈生成棋譜,再學習這些棋譜來自我提高,如此不斷重復(fù),螺旋上升,可以超越上一版的水平。2017年5月3:0擊敗柯潔的版本,就是第二篇論文的產(chǎn)物?;趶娀瘜W習技術(shù)的AlphaGo-Zero從零開始,學習40天后,達到了遠超人類頂尖棋手的水平。

AlphaGo-Zero在包括圍棋的完全信息博弈領(lǐng)域開辟了一條嶄新的道路。也給了后繼研究者站在巨人肩膀上持續(xù)工作,改進算法的可能空間。AlphaGo-Zero存在一些問題,使得它尚未達到完美:

首先,是水平上限的問題。AlphaGo-Zero證明了使用強化學習技術(shù)可以提高AI的棋力,但是從論文的實驗數(shù)據(jù)來看這種棋力增長的速度越來越慢,后期趨向停滯。也就是說,在這一框架下,棋力的提升存在瓶頸。

其次,是資源開銷問題。AlphaGo-Zero的方法自對弈消耗的計算資源空前巨大,DeepMind團隊為了打造AlphaGo-Zero,使用了2000個TPU進行自對弈,總耗資過億元。這樣的算力消耗是中小型學術(shù)機構(gòu)、研究團隊難以承受的,需要從算法層面做出改進,降低訓練使用的計算資源開銷。

第三,是算法的通用性、靈活性、可遷移性的問題。AlphaGo-Zero的強化學習算法,基于單一、特定的圍棋規(guī)則,從實現(xiàn)角度來說,就是中國規(guī)則黑貼3.75子。一旦規(guī)則改變,就需要重新訓練,之前投入的大量計算資源也白白浪費了。全世界的圍棋規(guī)則并沒有統(tǒng)一,而如果使用強化學習方法為各個圍棋規(guī)則分別訓練圍棋AI,會造成極大的浪費。

星陣技術(shù)

星陣圍棋力求使用更少的訓練資源,實現(xiàn)更具通用性、更人性化的高水平圍棋智能。它在AlphaGo的基礎(chǔ)上做了一些技術(shù)創(chuàng)新。星陣的主要貢獻涉及到機器學習的兩個重要領(lǐng)域,多任務(wù)學習和遷移學習。

多任務(wù)學習

多任務(wù)學習(MTL)是機器學習中一個很有前景的領(lǐng)域,它利用多個學習任務(wù)中包含的有用信息來幫助每個任務(wù)學習到更為準確的學習器。假定所有任務(wù)或部分任務(wù)的學習目標是相關(guān)聯(lián)的,那么聯(lián)合多個學習任務(wù)會比單獨學習它們得到更好的性能。

與AlphaGo只使用策略網(wǎng)絡(luò)(Policy Network)和價值網(wǎng)絡(luò)(Value Network)不同,星陣同時學習了四個任務(wù),另外兩個是領(lǐng)地網(wǎng)絡(luò)(Area Network)和子差網(wǎng)絡(luò)(Score Network)。領(lǐng)地網(wǎng)絡(luò)基于任意給定盤面,分別估算棋盤上每個交叉點最終歸屬黑棋或白棋的概率。子差網(wǎng)絡(luò)基于任意給定盤面,估算最終黑方子數(shù)與白方子數(shù)的差值。

在領(lǐng)地網(wǎng)絡(luò)和子差網(wǎng)絡(luò)的幫助下,星陣對局面的判斷更加全面、立體,這也讓星陣學會了像人一樣“點目”,而不僅僅是依靠勝率來下棋。在勝率接近的情況下,星陣會選擇子差更優(yōu)的下法,將領(lǐng)先的優(yōu)勢繼續(xù)擴大,或者試圖縮小落后的目數(shù),咬住局面尋找機會。這一技術(shù)特點也形成了星陣“不退讓圍棋”的棋風。

多任務(wù)學習能夠行之有效,有其深層次的原因。首先,越多任務(wù)的越多標簽,意味著數(shù)據(jù)量的增加,能夠顯著降低過擬合的風險。其次,越多任務(wù)同時學習,越容易捕捉到同一個隱藏特征的表示,這些隱藏特征能對多個任務(wù)同時產(chǎn)生作用。此外,還可以幫助某些任務(wù)獲取單獨訓練無法學習到的隱藏特征表示。

遷移學習

機器學習的模型訓練是靠數(shù)據(jù)驅(qū)動的,但在很多情況下數(shù)據(jù)極端匱乏,遷移學習就是解決數(shù)據(jù)量匱乏的一種重要方法。假定源域具有充足的數(shù)據(jù),并已經(jīng)訓練出足以解決源問題的模型,遷移學習利用源域中的現(xiàn)有模型,幫助在缺乏訓練樣本的目標域,訓練出解決目標任務(wù)的模型。使用遷移學習有兩個假設(shè),源域與目標域的樣本分布不同;目標域嚴重缺乏帶有標簽的樣本。

圍棋規(guī)則并沒有在全世界范圍內(nèi)統(tǒng)一,不同圍棋規(guī)則下的訓練樣本并不通用。目前圍棋AI大多使用19路棋盤,中國規(guī)則黑貼3.75子,此規(guī)則下的訓練樣本相對充足。星陣通過引入遷移學習技術(shù),將中國規(guī)則黑貼3.75子的模型,用較小的代價,遷移到其他規(guī)則下。遷移學習為星陣帶來了極大的算法靈活性。星陣因此可以進行任意路數(shù)的對局,也可以進行任意貼目的對局,可以進行讓子棋的對弈,完美適應(yīng)中國規(guī)則數(shù)子法和韓日規(guī)則數(shù)目法。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
零基礎(chǔ)起步的AlphaGoZero,這次真嚇了人類一大跳
Alphago對局分譜匯編(第一局)
AI脫離人類的40天,它突破極限棋力凌駕地球所有智能
阿法元引爆知社現(xiàn)象級傳播,AI哭笑不得讀留言
“阿爾法狗”再進化的哲學啟示
人類太多余?且慢,先聽AI科學家詳解AlphaGo Zero的偉大與局限
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服