原文以How rival bots battled their way to poker supremacy為標(biāo)題
發(fā)布在2017年3月2日的《自然》新聞上
原文作者:Elizabeth Gibney
人工智能利用博弈論策略和深度學(xué)習(xí)方法,在雙人德州撲克中擊敗人類職業(yè)選手。
這種復(fù)雜的撲克玩法是人工智能(AI)最新涉足的領(lǐng)域,目前已經(jīng)被成功征服——且成功了兩次,征服者分別為兩個(gè)不同研究團(tuán)隊(duì)所研制的對(duì)戰(zhàn)機(jī)器人。
這兩個(gè)人工智能挑戰(zhàn)的都是“無限注”雙人德州撲克,而且在過去幾個(gè)月中都取得了里程碑式的成就——他們打敗了人類職業(yè)選手。
去年12月,DeepStack率先贏得比賽。該人工智能由加拿大阿爾伯塔大學(xué)的計(jì)算機(jī)科學(xué)家同捷克布拉格查理大學(xué)和捷克理工大學(xué)的科學(xué)家共同研制而成。今年1月,由美國(guó)卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)研制的Libratus也取得了同樣的功績(jī)。
在過去的十年中,兩支團(tuán)隊(duì)爭(zhēng)相研制更為智能的機(jī)器人。如今,DeepStack的研究團(tuán)隊(duì)已經(jīng)正式將其人工智能細(xì)節(jié)發(fā)表在《科學(xué)》雜志上。
本文主要講述兩個(gè)人工智能有何區(qū)別,其成就對(duì)于網(wǎng)上賭場(chǎng)有何影響,以及人工智能還有哪些沒有攻克的領(lǐng)域。
頂級(jí)職業(yè)撲克選手已經(jīng)在無限注德州撲克中敗給了人工智能機(jī)器人。
Juice/Alamy
Q:人工智能研究者為何選擇撲克?
A:人工智能已經(jīng)精通了多種棋類游戲,包括國(guó)際象棋和圍棋等復(fù)雜的策略類游戲。而撲克比棋類游戲更為復(fù)雜,這是因?yàn)樗幸惶庯@著不同——選手必須在無法得知賽局所有信息的情況下,制定自己的策略。他們必須根據(jù)對(duì)下注等過程的觀察,猜測(cè)對(duì)手有什么手牌,并考慮對(duì)手對(duì)于他們自己的手牌又有怎樣的猜測(cè)。
這樣的“不完全信息”博弈更貼近現(xiàn)實(shí)生活中解決問題的場(chǎng)景。例如,在拍賣和金融談判中,就會(huì)出現(xiàn)類似情況。而撲克則成為了測(cè)試人工智能是否能應(yīng)對(duì)這種情景的平臺(tái)。
人工智能已經(jīng)掌握了較簡(jiǎn)單的撲克玩法:阿爾伯塔團(tuán)隊(duì)已經(jīng)于2015年基本掌握了雙人有限注德州撲克。DeepStack和Libratus挑戰(zhàn)的仍然是雙人德州撲克,但下注、跟注的籌碼沒有上限——正因如此,無限注玩法對(duì)于人工智能程序來說更為復(fù)雜,也更難掌握。
Q:人機(jī)比賽過程如何?
A:去年11月開始為期四周多的比賽中,DeepStack與11位職業(yè)選手各比賽3000手牌,并以統(tǒng)計(jì)上顯著的優(yōu)勢(shì)擊敗10名選手。
今年1月,Libratus則在約12萬手牌的比賽中,擊敗4名更為優(yōu)秀的專家級(jí)職業(yè)選手。比賽最終結(jié)束時(shí),Libratus共有約180萬美元的虛擬籌碼。
Q:這些人工智能背后有什么數(shù)學(xué)原理?
A:博弈論。兩個(gè)人工智能都需要摸索出在任何情況下,無論對(duì)手如何應(yīng)對(duì),都能必贏的策略。根據(jù)博弈論理論,在一對(duì)一撲克這樣的零和博弈(即一方有所得,另一方必有所失)里面,這樣必贏的策略必然存在。人類選手可能會(huì)利用較弱對(duì)手的失誤而贏得很多籌碼,而使用上述策略的人工智能則不在乎贏取籌碼的多寡——對(duì)于它而言,只要贏得牌局就好。這意味著它不會(huì)因?yàn)閷?duì)手的意外之舉而不知所措、自亂陣腳。
此前挑戰(zhàn)撲克的人工智能都是盡可能提前制定策略,計(jì)算大量“博弈樹”,列出賽局各種可能性的應(yīng)對(duì)辦法。但是存在太多的可能性——共有10^160個(gè)——不可能全部映射。因此,研究人員最終只處理部分可能情形。賽局中,人工智能會(huì)將當(dāng)前情形與曾經(jīng)進(jìn)行計(jì)算過的情形相比較,找出最接近的情形,將對(duì)應(yīng)的解決方案進(jìn)行“轉(zhuǎn)化”,再運(yùn)用到當(dāng)前賽局中。
與之不同的是,DeepStack和Libratus已經(jīng)可以實(shí)時(shí)計(jì)算解決方案——就與下國(guó)際象棋和圍棋的計(jì)算機(jī)一樣。
Q:兩個(gè)人工智能使用的具體方法有何不同?
A:DeepStack并非提前列出完整博弈樹,而是在牌局中的各個(gè)決策點(diǎn)僅重新計(jì)算少部分的博弈樹,預(yù)測(cè)可能出現(xiàn)的一些情形。
這一辦法利用了深度學(xué)習(xí),這是借鑒人類大腦的神經(jīng)網(wǎng)絡(luò)構(gòu)造而發(fā)明的一種技術(shù)(有賴于此,計(jì)算機(jī)得以打敗全世界最優(yōu)秀的圍棋選手)。
DeepStack經(jīng)歷逾一千一百萬種不同的賽局情形,不斷學(xué)習(xí),形成了“直覺”,已經(jīng)能夠在賽局的某一節(jié)點(diǎn)預(yù)判贏率。因此,它只需要較短的時(shí)間(僅約5秒)來計(jì)算較少的可能性,并實(shí)時(shí)做出決策。
Libratus團(tuán)隊(duì)還沒有將具體方法發(fā)表出來,因此目前還不清楚Libratus具體工作原理。不過已經(jīng)清楚的是,在牌局早期,Libratus借鑒曾經(jīng)進(jìn)行計(jì)算過的情形,使用“轉(zhuǎn)化”法,然后做出決策;而當(dāng)牌局進(jìn)行到后期,人工智能可以獲悉更多信息時(shí),再將策略進(jìn)行優(yōu)化。至于其他時(shí)候,隨著牌局的進(jìn)行,可能性越來越少,Libratus也會(huì)對(duì)解決方案進(jìn)行實(shí)時(shí)計(jì)算。
Libratus同樣加入了一種特殊的學(xué)習(xí)元素。它的開發(fā)者為它增加了自我優(yōu)化的模塊,可以自動(dòng)分析它的玩牌策略,了解對(duì)手如何利用其弱點(diǎn)。在此基礎(chǔ)上,他們?cè)賹?duì)Libratus方法上的漏洞進(jìn)行修復(fù)。
這兩種方法需要擁有明顯不同的計(jì)算能力:DeepStack受訓(xùn)175核年——相當(dāng)于一個(gè)處理器運(yùn)行175年、或幾百臺(tái)計(jì)算機(jī)運(yùn)行數(shù)月的工作量。而在牌局中,它僅需要一部筆記本電腦即可進(jìn)行操作。Libratus則不同,它在賽前和比賽中均使用超級(jí)電腦,大約相當(dāng)于2900核年的工作量。
Q:人工智能是否也會(huì)虛張聲勢(shì)?
A:會(huì)。通常人們認(rèn)為虛張聲勢(shì)是人類才會(huì)做的行為,至于計(jì)算機(jī),它們不會(huì)去了解、預(yù)測(cè)對(duì)手行為,而是完全基于牌局中隱含的數(shù)學(xué)原理而進(jìn)行決策。虛張聲勢(shì)通常只是為防止對(duì)手通過自己的下注規(guī)律猜到自己手牌而采取的一種策略。
Q:那么,哪個(gè)成果更為突出呢?
A:見仁見智。有關(guān)專家對(duì)于兩個(gè)方法的復(fù)雜性有些爭(zhēng)議,但總體來說,兩個(gè)人工智能都玩了足夠多手牌,均已取得統(tǒng)計(jì)上顯著的勝利——并且都是與職業(yè)選手進(jìn)行比賽。
Libratus玩了更多手,但DeepStack則不需要這么做,因?yàn)槠鋱F(tuán)隊(duì)使用了一種復(fù)雜的統(tǒng)計(jì)方法,可以通過較少的牌局就能取得顯著結(jié)果。Libratus擊敗的專業(yè)選手要更為優(yōu)秀,但平均來說,DeepStack獲勝的優(yōu)勢(shì)更大些。
Q:兩個(gè)人工智能會(huì)進(jìn)行對(duì)決嗎?
A:也許會(huì)。不過,兩者計(jì)算能力存在巨大差距,因此在牌局中的玩牌速度有所不同,這可能是比賽所面臨的一個(gè)癥結(jié)。因此,如何制定讓雙方都會(huì)同意的比賽規(guī)則就成了難題。
阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)家、同時(shí)也是DeepStack開發(fā)者之一的Michael Bowling表示,他們的團(tuán)隊(duì)愿意與Libratus進(jìn)行比賽。可是Libratus的開發(fā)者、卡內(nèi)基梅隆大學(xué)的Tuomas Sandholm則表示,他希望DeepStack能夠先打敗Baby Tartanian8,這是他們團(tuán)隊(duì)之前設(shè)計(jì)的人工智能,功能沒有Libratus強(qiáng)大。
Bowling強(qiáng)調(diào),比賽將存在一個(gè)重要的局限:贏得賽局也不一定意味著人工智能性能更好。兩者都盡力打出完美比賽,但能夠?qū)崿F(xiàn)這一目標(biāo)的策略在正面交鋒中未必總是存在。一方人工智能有可能無意中發(fā)現(xiàn)另一方策略上的漏洞,但這并不能說明另一方的整體策略上存在更多或者更嚴(yán)重的漏洞。Bowling說,除非一方以較大優(yōu)勢(shì)獲勝,“否則我覺得,這樣的比賽不會(huì)如人們期待那樣,提供很多有用的信息”。
Q:人工智能掌握撲克玩法,是否意味著網(wǎng)上撲克游戲的終結(jié)?
A:不是。雖然頂級(jí)選手已經(jīng)開始進(jìn)行人機(jī)對(duì)戰(zhàn)訓(xùn)練,但許多網(wǎng)上賭場(chǎng)禁止玩家在賽局中使用計(jì)算機(jī)。
Q:現(xiàn)在,計(jì)算機(jī)已經(jīng)達(dá)成了人工智能歷史上的又一座里程碑,那么還有哪些領(lǐng)域沒有被攻克呢?
A:至今仍存在著幾座高峰等待人工智能去攀登。從某種程度上來說,這是由于許多尚未被人工智能掌握的游戲,比如橋牌,其規(guī)則更為復(fù)雜,目標(biāo)也就不那么明顯。
兩個(gè)團(tuán)隊(duì)接下來的研究主題自然是掌握多人撲克。這幾乎意味著一切從頭開始,因?yàn)榱愫筒┺睦碚摬辉龠m用于這一領(lǐng)域。例如,在三人撲克中,某個(gè)選手的失誤,有可能會(huì)間接妨礙對(duì)手,而不是讓對(duì)手獲益。
不過Bowling也提到,哪怕理論不再適用,深度學(xué)習(xí)所形成的直覺,仍有望幫助人工智能找到解決方案。他說,他們的團(tuán)隊(duì)最初在有限注三人德州撲克中嘗試類似辦法時(shí),結(jié)果就出人意料的好。
另外一個(gè)挑戰(zhàn)則是訓(xùn)練人工智能在不知曉游戲規(guī)則的情況下進(jìn)行游戲,并且在游戲中逐漸自己發(fā)現(xiàn)游戲規(guī)則。這樣的場(chǎng)景更真實(shí)地反映了人類在現(xiàn)實(shí)世界處理問題時(shí)的情形。
最終的考驗(yàn)將是研究不完全信息算法如何在信息不完整的情況下,解決復(fù)雜的現(xiàn)實(shí)問題,比如金融和網(wǎng)絡(luò)安全方面的問題。?
Nature|doi:10.1038/nature.2017.21580
版權(quán)聲明:
聯(lián)系客服