yw193.c国产在线观看,福利午夜国产网站在线不卡

前言：AlphaGo Zero [1]提出了新的估算搜索評(píng)價(jià)函數(shù)的方法，即基于蒙特卡洛樹搜索的強(qiáng)化學(xué)習(xí)；部分地解決了超大狀態(tài)空間搜索的難點(diǎn)；成功地應(yīng)用到圍棋領(lǐng)域并完勝了人類；證明了強(qiáng)化學(xué)習(xí)的有效性，是人工智能史上一座里程碑。其學(xué)術(shù)貢獻(xiàn)中上，學(xué)術(shù)意義上，社會(huì)影響上上。

AlphaGo Zero雖然不是開創(chuàng)性工作，但它所提出的方法很好地結(jié)合了已有的兩種重要方法。對(duì)于類圍棋智力游戲，AlphaGo Zero是一個(gè)重要的結(jié)論性工作。但故事并沒有完全結(jié)束，因?yàn)閲宓谋貏俨呗赃€沒找到。對(duì)于能轉(zhuǎn)化成搜索問題的人工智能領(lǐng)域和難點(diǎn)，AlphaGo Zero有很大的用武之地，但這需要研究者們的艱辛努力。而對(duì)于人工智能其他領(lǐng)域和難點(diǎn)，或許能觸類旁通。但至少目前，AlphaGo Zero并不能提供直接幫助。

對(duì)AlphaGo Zero的評(píng)價(jià)，既沒有必要貶低，也不用神化。本著實(shí)事求是的精神，還原其真實(shí)面貌。更重要的是，期望AlphaGo Zero取得的成功能鼓勵(lì)同儕做出更好的工作，從而進(jìn)一步推動(dòng)人工智能發(fā)展。　　

作者 | 周熠

AlphaGo Zero的意義

AlphaGo Zero的成功意味著什么？我們從學(xué)術(shù)貢獻(xiàn)、學(xué)術(shù)意義和社會(huì)影響三個(gè)方面來談?wù)劇?/p>

從學(xué)術(shù)貢獻(xiàn)的角度，雖然AlphaGo Zero是一個(gè)里程碑式的工作，但不應(yīng)該對(duì)其過分神化。前文已經(jīng)論述，AlphaGo Zero的主要學(xué)術(shù)貢獻(xiàn)是提出了新的估算評(píng)價(jià)函數(shù)的方法，即基于蒙特卡洛樹搜索的強(qiáng)化學(xué)習(xí)方法。該方法是把已有的兩種方法，即蒙特卡洛樹搜索[2]和強(qiáng)化學(xué)習(xí) [3, 4]，融合到了一起，在圍棋領(lǐng)域取得了很好的效果。所以，AlphaGo Zero在人工智能學(xué)術(shù)界不算最頂級(jí)的開創(chuàng)性工作。

AlphaGo Zero更重要的，是其學(xué)術(shù)意義。首先，AlphaGo Zero某種程度上攻克了圍棋領(lǐng)域。至此，可以論斷，機(jī)器下圍棋可以完勝人類。由于圍棋難度在同類智力游戲中居首，由此推論，在同類智力游戲中，機(jī)器可以戰(zhàn)勝人類。

另外，AlphaGo Zero也再次驗(yàn)證了深度學(xué)習(xí)的有效性。深度學(xué)習(xí)給人工智能帶來了革命性的變革，使人工智能整體水準(zhǔn)有了質(zhì)的飛躍，并能真正應(yīng)用到不同的領(lǐng)域，取得商業(yè)上的成功。

圖1 AlphaGo Zero學(xué)習(xí)過程

圖片來源：Deepmind

更值得稱道的是，AlphaGo Zero摒棄了有監(jiān)督學(xué)習(xí)，僅使用強(qiáng)化學(xué)習(xí)就達(dá)到了很好的效果，而且發(fā)現(xiàn)了以前沒有被人類所有選手發(fā)現(xiàn)的知識(shí)。因此，AlphaGo Zero在圍棋這個(gè)領(lǐng)域，解決了困擾機(jī)器學(xué)習(xí)的兩個(gè)最重要的問題，數(shù)據(jù)的來源以及數(shù)據(jù)的質(zhì)量。如果這種方法能夠推廣到其他領(lǐng)域，那AlphaGo Zero的學(xué)術(shù)意義就會(huì)更加巨大。

同時(shí)，由于沒有用到人類先驗(yàn)知識(shí)和原始數(shù)據(jù)，AlphaGo Zero再次強(qiáng)調(diào)了算法的重要性。算法比數(shù)據(jù)重要一直是人工智能界的主流觀點(diǎn)，但近年由于基于大數(shù)據(jù)的人工智能應(yīng)用取得了重大的成功，“數(shù)據(jù)是王道”成為了一種新的潮流，某種程度上稍微忽略了對(duì)算法、原理以及理論的探索。AlphaGo Zero再次表明，算法、數(shù)據(jù)、原理和理論都很重要。

在上一段的論述中，筆者加了很多看似拗口的修飾詞，如“某種程度上”、“圍棋領(lǐng)域”、“同類智力游戲”、 “如果能夠推廣”等，而這些修飾詞是有其深意的。 “某種程度上”意味著AlphaGo Zero并沒有完全攻克圍棋領(lǐng)域。完全攻克需要找到圍棋的必勝策略（理論上一定存在）。戰(zhàn)勝世界冠軍和找到必勝策略之間存在相當(dāng)大的距離，前者代表相對(duì)于人類 “更好”，而后者代表絕對(duì)意義上的“最佳”。就象西洋跳棋程序一樣，Chinook 1994年戰(zhàn)勝了人類世界冠軍，2007年才找到必勝策略[5]?！皣孱I(lǐng)域”、“同類智力游戲”意味著AlphaGo Zero能夠應(yīng)用的領(lǐng)域，雖然可能很廣，但并不包括人工智能的全部。 “如果能夠推廣”意味著把AlphaGo Zero中的技術(shù)推廣和應(yīng)用到其他領(lǐng)域，并不是一個(gè)想當(dāng)然的事情，需要人工智能研究者們付出相當(dāng)大的努力。其根本原因在于其他領(lǐng)域的基本難點(diǎn)于環(huán)境和圍棋有本質(zhì)上的區(qū)別。

圖2 1992年，Chinook與Tinsley人機(jī)對(duì)戰(zhàn)現(xiàn)場(chǎng)

圖片來源：google

■

為何AlphaGo Zero取得了如此大的成功，而人工智能離總體成功卻仍然遙遠(yuǎn)？這就要先從人工智能的原理說起。

自人工智能出現(xiàn)以來，人們對(duì)于智能本質(zhì)是否可描述、可用數(shù)學(xué)刻畫就有不同的觀點(diǎn)。觀點(diǎn)的分歧導(dǎo)致了兩種截然不同的人工智能發(fā)展思路，即強(qiáng)人工智能和弱人工智能。前者強(qiáng)調(diào)需要弄清楚智能原理，而后者不管三七二十一，只要造出來的機(jī)器能夠體現(xiàn)某種智能行為即可，比如下棋、駕駛、高考、翻譯、玩游戲等。在弱人工智能中，又可以分為通用和專用。通用是指要讓造出的機(jī)器體現(xiàn)通用的智能，既可以用來下棋、又可以用來駕駛、高考、翻譯和玩游戲；而專用是指對(duì)每一種不同的智能行為，打造專用的機(jī)器，如程序A用來下棋，程序B用來駕駛等等。當(dāng)前的人工智能進(jìn)展，主要在專用弱人工智能上，通用弱人工智能和強(qiáng)人工智能幾乎沒有革命性的突破。

圖3 人工智能在翻譯軟件中的應(yīng)用

圖片來源：google

AlphaGo Zero再次為專用弱人工智能添磚加瓦，而且是最亮麗的一片琉璃瓦之一。AlphaGo Zero對(duì)通用人工智能和強(qiáng)人工智能可能會(huì)有些啟發(fā)，但至少目前并不明朗。但話說回來，從應(yīng)用角度，專用弱人工智能已經(jīng)非常強(qiáng)大非常重要，因?yàn)楹芏嗳祟惖墓ぷ骶褪窃谀撤N特定的場(chǎng)景下做特定的事情。

除了智能原理之外，再深入一點(diǎn)，人工智能可以細(xì)分為很多困難點(diǎn)，我試圖用九點(diǎn)來大致概括，插入與AlphaGo Zero戰(zhàn)勝人類的的圍棋問題作對(duì)比，供大家了解。

第一，建模。很多人工智能問題，連一個(gè)完整的數(shù)學(xué)模型都很難建立。例如玩星際爭(zhēng)霸游戲、高考、自然語言理解等，雖然很容易對(duì)其中的某一部分建立一個(gè)模型，但很難把整個(gè)模型完整地統(tǒng)一起來。而圍棋的建模非常簡(jiǎn)單。

第二，如何處理復(fù)雜函數(shù)，特別是是嵌套分層的函數(shù)。在圍棋中，作為數(shù)據(jù)的<輸入，輸出>對(duì)被定義得很清楚，輸入就是棋盤狀態(tài)而輸出就是當(dāng)前狀態(tài)下的選擇。但在很多開放問題上，函數(shù)的定義沒那么清楚。比如機(jī)器人足球，傳球這個(gè)行動(dòng)，不僅有參數(shù)，本身不好定義，而且可以進(jìn)一步細(xì)分成很多更加細(xì)粒度的行動(dòng)，如抬腳、踢球等等，而這些行動(dòng)又可以進(jìn)一步細(xì)分。

第三，行動(dòng)后果的不確定性。在圍棋中，每個(gè)行動(dòng)都有確定的結(jié)果，落子必定會(huì)成功。然而很多人工智能問題，行動(dòng)的后果是不確定的，并不保證一定成功。例如傳球的時(shí)候，球可能被敵方搶走，導(dǎo)致這個(gè)行動(dòng)失敗。

第四，環(huán)境的部分可觀察性和動(dòng)態(tài)性。例如星際爭(zhēng)霸游戲中，敵方的軍隊(duì)位置和動(dòng)向都是部分可觀察的，并且不是一成不變的。而在圍棋領(lǐng)域，這些都是完全可觀察的和靜態(tài)的。

第五，表示的規(guī)模和魯棒性。比如在自然語言理解中，自然語言的規(guī)則不僅相當(dāng)之多，而且很多情況下這些規(guī)則并不對(duì)所有情況都適用。而在圍棋中，規(guī)則都是很簡(jiǎn)單且很通用的。

第六，意外和突發(fā)情況。例如在自動(dòng)駕駛中，可能有很多意外情況，如突然躥出來一個(gè)小孩。在這些領(lǐng)域中，幾乎不可能列舉所有的突發(fā)情況。而在圍棋領(lǐng)域，完全沒有意外和突發(fā)。

第七，很多問題并不能簡(jiǎn)單的規(guī)約成搜索問題，比如帶有微分方程的混合動(dòng)力系統(tǒng)等。或者即使表示成搜索，搜索空間是不完整的或者是無窮的。而圍棋的搜索空間雖然非常巨大，但總歸是完整的和有窮的。

第八，如何獲取大規(guī)模高質(zhì)量的數(shù)據(jù)。在圍棋中，獎(jiǎng)懲機(jī)制相當(dāng)清楚。所以很容易獲取強(qiáng)化學(xué)習(xí)需要的數(shù)據(jù)。獲取有監(jiān)督學(xué)習(xí)的數(shù)據(jù)（即棋譜），相對(duì)困難一些。然而在有些領(lǐng)域，比如新聞的自動(dòng)分類以及我們?nèi)祟惐旧淼慕K身學(xué)習(xí)，并沒有嚴(yán)格定義好的獎(jiǎng)懲機(jī)制。

第九，也是唯一AlphaGo Zero某種程度上真正解決的難點(diǎn)，如何搜索龐大的搜索空間，因?yàn)檫@往往需要的計(jì)算量極為巨大。在圍棋領(lǐng)域中，只有最后一個(gè)才是難點(diǎn)，其他幾個(gè)方面難度幾乎等于零。當(dāng)然，AlphaGo Zero能做到這一點(diǎn)，已是很大的突破。

■

AlphaGo Zero的成功可不可以用來解決其他的難點(diǎn)？或者說移植到其他領(lǐng)域呢？這個(gè)答案沒有那么簡(jiǎn)單。首先可以肯定的是，AlphaGo Zero對(duì)解決一類特定問題，即可以表示成超大狀態(tài)空間搜索并有明顯獎(jiǎng)懲機(jī)制的問題（如很多智力游戲），有很大幫助。而對(duì)于這類問題之外的，比如高考、星際爭(zhēng)霸、機(jī)器翻譯、自然語言理解等，至少從文章和和目前的情況來看，并沒有直接幫助。其次，對(duì)于某些難點(diǎn)以及某些領(lǐng)域，比如邏輯推理和人工智能規(guī)劃等，AlphaGo Zero可以有幫助，但這需要人工智能研究者們付出艱辛努力。

在之前提到的難點(diǎn)中，有些是可以通過某些技術(shù)手段轉(zhuǎn)換成超大搜索空間問題的。例如第三點(diǎn)行動(dòng)的不確定性，可以通過引入一個(gè)行動(dòng)后果的概率分布。又如第七點(diǎn)的連續(xù)函數(shù)，可以通過采樣來離散化。但是這些技術(shù)手段往往會(huì)導(dǎo)致搜索空間急劇增長(zhǎng)。所以，把AlphaGo Zero借鑒過來，并不是一件容易的事。最后，對(duì)于其他一些難點(diǎn)，如建模、如智能原理等，可以說AlphaGo Zero的技術(shù)很難有用武之地?；诿商乜鍢渌阉鞯膹?qiáng)化學(xué)習(xí)，并沒有揭示人類下棋的智能原理。

與其學(xué)術(shù)貢獻(xiàn)和學(xué)術(shù)影響相比，AlphaGo Zero更重要的是它的社會(huì)影響。雖然有相當(dāng)多學(xué)者認(rèn)為社會(huì)影響不應(yīng)該被嚴(yán)肅對(duì)待，但在當(dāng)今的社會(huì)，特別是對(duì)于和工業(yè)界及應(yīng)用極度緊密相關(guān)、且如日中天的人工智能領(lǐng)域來說，社會(huì)影響的重要性不言而喻。AlphaGo Zero是前沿人工智能技術(shù)的一個(gè)杰出代表。對(duì)于大眾來說，圍棋就是人工智能的皇冠。再加上Google完美的營銷策略以及圍棋在中國文化中的神圣地位，AlphaGo Zero紅遍了全球。尤其在國內(nèi)，AlphaGo Zero幾乎成了人工智能的代名詞，也讓很多大眾對(duì)其既愛（因?yàn)楦杏X很厲害很高大上）又恨（因?yàn)閾?dān)心人類會(huì)被人工智能取代）。　

所以，有必要給AlphaGo Zero一個(gè)正確公允的評(píng)價(jià)。嚴(yán)格意義上，圍棋問題在人工智能領(lǐng)域不能說是最難或最重要的，同樣，AlphaGo Zero也不能說是目前人工智能最先進(jìn)最重要的工作。只是因?yàn)樗硎龊?jiǎn)單，其效果非常容易理解，易被大眾所接受，因此成為人工智能成就的代表展現(xiàn)在人們面前。

在全球范圍內(nèi)，AlphaGo Zero雖然也引起了廣泛關(guān)注和一片贊美，但并不像在國內(nèi)被捧到神壇的地步。AlphaGo Zero在技術(shù)上固然取得了重大突破，但它能解決的只是人工智能很多困難中的一種，而且只是部分解決。雖然這個(gè)技術(shù)可能對(duì)人工智能其他領(lǐng)域會(huì)有幫助，但這并不是顯然的，需要做大量努力。所以，AlphaGo Zero的成功并不代表人類會(huì)被人工智能取代。當(dāng)然，隨著AlphaGo Zero還有一些其他技術(shù)的出現(xiàn)，越來越多領(lǐng)域會(huì)被人工智能攻克，越來越多人類職業(yè)會(huì)被人工智能部分取代。但這點(diǎn)并不能完全歸功于AlphaGo Zero，它只是這一類工作的一個(gè)杰出代表。

機(jī)器戰(zhàn)勝人類，一直在發(fā)生。以前有，現(xiàn)在正在進(jìn)行，以后會(huì)更多。從弱人工智能的角度，人工智能的發(fā)展史，就是人類各種智能行為被機(jī)器復(fù)現(xiàn)并超越的歷史。只是這些都是在特定的領(lǐng)域，如西洋跳棋、國際象棋、問答秀、圍棋等等。暫時(shí)來說，還看不到機(jī)器在所有領(lǐng)域都能戰(zhàn)勝人類的希望。所以，至少現(xiàn)在還沒有到要擔(dān)心人類滅亡的時(shí)候。

粗略來分，智能的層次，從低到高，可以分為基礎(chǔ)智能（包括計(jì)算、記憶、行為能力等）、感知智能（包括語音識(shí)別、圖像識(shí)別等）、認(rèn)知智能（包括智力游戲、智力測(cè)試等）和創(chuàng)新智能（包括藝術(shù)創(chuàng)作和科學(xué)發(fā)現(xiàn)等）。雖然每個(gè)層次都有機(jī)器戰(zhàn)勝人類的案例，但總體來說，越高層次的智能，機(jī)器做的越差?；A(chǔ)智能，比如計(jì)算和記憶，總體上機(jī)器早就遠(yuǎn)遠(yuǎn)超過了人類。當(dāng)前深度學(xué)習(xí)的崛起，加速了機(jī)器在感知智能上接近并有時(shí)超過了人類水準(zhǔn)。然而，對(duì)認(rèn)知智能和創(chuàng)新智能，機(jī)器整體上比人類差了太多。AlphaGo Zero誠然是機(jī)器在認(rèn)知智能上對(duì)人類的又一次重大勝利。但從整體來看，并未改變整個(gè)格局。

圖4 人工智能在電商物流中的應(yīng)用

圖片來源：baidu

此外， AlphaGo Zero的宣傳文章上有著不少春秋筆法，有抬高工作之嫌。例如，宣傳100:0戰(zhàn)勝了AlphaGo李世石版本[6]，而不是89:11戰(zhàn)勝了AlphaGo Master，不與最近的成果作對(duì)比，不僅蹭前輩機(jī)的余光，還用100:0吸引人眼球；又比如，AlphaGo Zero號(hào)稱學(xué)到了圍棋知識(shí)（即定式），但這種基于使用頻率就判斷為之知識(shí)的做法某種意義上屬于事后諸葛亮，并不足夠令人信服。而且這些所謂的知識(shí)在AlphaGo Zero中完全沒有用上；又比如宣傳文中稱圍棋是“最有挑戰(zhàn)的領(lǐng)域”，這并不確切。之前論述過，對(duì)人工智能來說，圍棋只算最有挑戰(zhàn)的領(lǐng)域之一。這些寫法雖然不算錯(cuò)誤，但某種程度上誤導(dǎo)了讀者。這種自我標(biāo)榜的做法，甚至遭到了部分人工智能學(xué)者的反彈。

AlphaGo Zero的未來

AlphaGo Zero是一個(gè)人工智能史上的一座里程碑。對(duì)于它與人工智能的未來，我認(rèn)為還大有可為。比如，在AlphaGo Zero大放異彩的圍棋領(lǐng)域，就仍有三個(gè)方向值得繼續(xù)耕耘。

一、將戰(zhàn)勝人類轉(zhuǎn)化為必勝，找到比人類 “更好”的策略后，繼續(xù)尋求“最佳”策略。理論上，圍棋存在必勝策略，因此，后AlphaGo Zero時(shí)代的一個(gè)重要挑戰(zhàn)，就是把它找到。這個(gè)挑戰(zhàn)不僅是為了追求完美，而且有很大的實(shí)際意義。機(jī)器學(xué)習(xí)的最大優(yōu)點(diǎn)之一就是面對(duì)復(fù)雜問題時(shí)迅速找到很好的近似，避免計(jì)算復(fù)雜度的障礙。但這也是一個(gè)軟肋，即沒有找到復(fù)雜問題的最優(yōu)解。如果AlphaGo系列能突破這個(gè)軟肋，這將是非常偉大的學(xué)術(shù)貢獻(xiàn)。

二、現(xiàn)在的AlphaGo Zero是針對(duì)正規(guī)棋盤（19*19棋盤），如果能推廣到一般的情形，即n*n棋盤，也是很有意義的。機(jī)器對(duì)問題輸入的規(guī)模往往非常敏感，對(duì)于圍棋這類的問題，機(jī)器求解的難度隨著棋盤大小而指數(shù)遞增。AlphaGo Zero之前，人工智能已經(jīng)解決了7*7的圍棋問題，它出現(xiàn)后才解決了19*19的圍棋問題。相對(duì)來說，人類對(duì)于棋盤的輸入規(guī)模沒那么敏感，人們下7*7圍棋和19*19圍棋策略差別不大。這點(diǎn)對(duì)機(jī)器學(xué)習(xí)相當(dāng)重要。原因之一，這是從專用弱人工智能朝通用弱人工智能邁出的一步，即解決同樣問題不同規(guī)模的差異。原因之二，這能揭示從一個(gè)規(guī)模中學(xué)到的東西（如策略和贏面估算）是否能平移到另一個(gè)規(guī)模中。

三、AlphaGo Zero學(xué)到了不少圍棋的知識(shí)，也就是定式。但它下棋的策略和這些知識(shí)無關(guān)，還是通過評(píng)價(jià)函數(shù)來做的。所以這些知識(shí)，即使在學(xué)到了之后，在AlphaGo Zero中也沒什么用處。如果能夠先使用AlphaGo Zero學(xué)習(xí)知識(shí)，然后再僅僅表示和使用這些知識(shí)來下棋并戰(zhàn)勝人類，也將是非常大的貢獻(xiàn)。因?yàn)檫@連接了兩種完全不同的人工智能方法（機(jī)器學(xué)習(xí)和知識(shí)的表示與推理），也更加接近于人類下圍棋背后的智能原理，從而對(duì)強(qiáng)人工智能有所幫助。

■

AlphaGo Zero另一個(gè)可能的未來是把它應(yīng)用到圍棋之外的領(lǐng)域。AlphaGo Zero中應(yīng)用的新評(píng)價(jià)函數(shù)具有一定的普適價(jià)值，因?yàn)楹芏嗳斯ぶ悄苤械膯栴}都可以歸結(jié)為大規(guī)模搜索的問題。

這里僅枚舉兩個(gè)重要的領(lǐng)域，第一是命題邏輯推理，以及更廣義的約束可滿足問題。簡(jiǎn)而言之，約束可滿足問題是給定了一些變量（如ｘ，ｙ），每個(gè)變量有其值域（如ｘ只能是１或２，ｙ只能是０或１）；同時(shí)給定一些這些變量需要滿足的約束條件（如ｘ＋ｙ＝２），目的是求解滿足這些約束條件的變量（如ｘ＝２，ｙ＝０）。約束可滿足問題可以轉(zhuǎn)換成搜索問題，其中每一個(gè)節(jié)點(diǎn)是變量們部分賦值的某一個(gè)狀態(tài)，而它的子節(jié)點(diǎn)們是對(duì)下一個(gè)變量的不同賦值。既然約束可滿足問題能轉(zhuǎn)化成大規(guī)模狀態(tài)下的搜索，那么AlphaGo Zero就可能有幫助。

第二是人工智能規(guī)劃，即從給定初始狀態(tài)找到一系列行動(dòng)達(dá)成某個(gè)目標(biāo)。同樣，因?yàn)橐?guī)劃問題也能轉(zhuǎn)化成搜索，所以AlphaGo Zero有其用武之地。但是，注意到約束可滿足問題和規(guī)劃終極目標(biāo)都是要找到“最優(yōu)解”，AlphaGo Zero作為一種尋找“較優(yōu)解”的手段在這些領(lǐng)域里面到底能走到哪一步，還需要深入探索和時(shí)間來檢驗(yàn)。

除了這些明顯可以轉(zhuǎn)化成搜索問題的領(lǐng)域外，還有一些人工智能領(lǐng)域有可能借鑒AlphaGo Zero的思路，因?yàn)檫@些領(lǐng)域可以看成是搜索的某個(gè)變種，比如帶有概率分布的搜索。這些領(lǐng)域包括馬爾科夫決策、博弈論等等?？偠灾珹lphaGo Zero有很大潛力被廣泛地用到人工智能其他領(lǐng)域，尤其是和搜索密切相關(guān)的。但是，這并不是一件水到渠成的事情，需要研究者們付出艱辛努力，這些應(yīng)用并不比AlphaGo Zero本身簡(jiǎn)單。

圖5 視頻網(wǎng)站利用人工智能優(yōu)化搜索

圖片來源：google

更重要的未來在于用AlphaGo Zero來解決人工智能的其他難點(diǎn)。雖然目前從論文中來看，并沒有直接幫助，但如之前所述，人工智能的其他難點(diǎn)中有些能夠轉(zhuǎn)化成更大狀態(tài)空間下的搜索，比如部分可觀察、行動(dòng)不確定性、連續(xù)函數(shù)、甚至突發(fā)意外情況等，但這種轉(zhuǎn)化往往伴隨著狀態(tài)空間的指數(shù)上升，極有可能其搜索難度比19*19的圍棋還要大，甚至大很多。所以，怎么更好地轉(zhuǎn)換？轉(zhuǎn)化后AlphaGo Zero能不能處理？這都需要人工智能研究者們付出艱苦的探索和努力。

[1] Mastering the game of Go without human knowledge. D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis. Nature 550 (7676): 354--359. 2017.

[2] Monte-Carlo tree search and rapid action value estimation in computer Go. S. Gelly, D. Silver. Artificial Intelligence. 175(11): 1856-1875. 2011.

[3] Move evaluation in Go using deep convolutional neural networks. C. J. Maddison, A. Huang, I. Sutskever, D. Silver. In 3rd International Conference on Learning Representation. 2015.

[4] Training Deep Convolutional Neural Networks to Play Go. C. Clark, A. J. Storkey: In Proceedings of ICML 2015: 1766-1774. 2015.

[5] https://en.wikipedia.org/wiki/Chinook_(draughts_player).

[6] Mastering the game of Go with deep neural networks and tree search. D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N.Kalchbrenner, I. Sutskever, Ti. P. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis. Nature 529(7587): 484-489. 2016.

墨子原創(chuàng) ｜人工智能

作者介紹

周熠，現(xiàn)任澳大利亞西悉尼大學(xué)高級(jí)講師，天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院兼職教授。2001年、2006年分獲中國科技大學(xué)學(xué)士和博士學(xué)位。在人工智能、特別是知識(shí)表示與推理領(lǐng)域做出了重要貢獻(xiàn)。是一階回答集程序設(shè)計(jì)的奠基人及主要推動(dòng)人之一，提出了首個(gè)刻畫遺忘的公理系統(tǒng)等。在人工智能頂級(jí)期刊Artificial Intelligence上發(fā)表6篇長(zhǎng)文。長(zhǎng)期擔(dān)任人工智能頂級(jí)會(huì)議程序設(shè)計(jì)委員會(huì)委員，包括IJCAI、AAAI、KR等等。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版