科技洞察 丨 深入科技行業(yè)最前沿
這次和AI的競(jìng)技比賽,人類(lèi)又輸了。這次不僅僅是輸在計(jì)算慢,會(huì)失誤,還輸在不會(huì)忽悠。
Facebook 和卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的研究人員開(kāi)發(fā)出了迄今為止最有效的能?chē)樆H说墓ぞ摺_@款名為“Pluribus”的機(jī)器人是人工智能的一次飛躍,也是德州撲克的一名狡猾玩家。
AI智能首次在多人競(jìng)賽中獲勝
這并不是人工智能在撲克牌中打敗人類(lèi)的唯一案例,兩年前,卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的另一個(gè)人工智能系統(tǒng)Libratus甚至擊敗了一位撲克明星。
此次比賽Pluribus與13名德州撲克高手進(jìn)行了1萬(wàn)手不限注對(duì)局的六人桌比賽,每次比賽由機(jī)器對(duì)5名人類(lèi)選手,結(jié)果機(jī)器取得勝利。
另一種形式,5名Pluribus(它們之間無(wú)法合作)與1名人類(lèi)選手對(duì)局,結(jié)果Pluribus分別在5000手對(duì)局中先后擊敗了德州世界冠軍達(dá)倫·伊萊亞斯和克里斯·弗格森。
撲克職業(yè)選手Jason Les被計(jì)算機(jī)程序Pluribus擊敗
來(lái)源:The Wall Street Journal
“我感到非常絕望。你不會(huì)覺(jué)得你能做些什么來(lái)贏得比賽?!睋淇寺殬I(yè)選手杰森萊斯(Jason Les)這樣說(shuō)。
不得不說(shuō),在撲克這項(xiàng)賭博類(lèi)的競(jìng)技決賽中,練就的是懂博弈、會(huì)唬人的頂級(jí)玩家。
▏博弈與計(jì)算——從不完全信息博弈到新算法突破
人工智能其實(shí)已經(jīng)在多個(gè)領(lǐng)域打敗了人類(lèi),在圍棋、象棋、跳棋等戰(zhàn)績(jī)輝煌。那么這次在撲克取勝又有什么大驚小怪的呢?
我們知道,在棋牌游戲中,圍棋、象棋、跳棋等大部分的信息是完全公開(kāi)的,所有參與者掌握著相同的空間和組合信息。針對(duì)這種“完全信息博弈”比賽所要做的是向下推演,從以后所有可能性中選一個(gè)對(duì)自己獲勝最有利的行動(dòng)。
而像斗地主、德州撲克、橋牌這種不明牌的紙牌類(lèi)游戲,需要找到綜合對(duì)手存在的多種可能性向下推演,而從尋求一個(gè)期望值(勝率*賠率)盡可能高的一種結(jié)果。這種“不完全信息博弈”不追求每局都贏,而是追求能夠做到在最應(yīng)該投入的時(shí)候多贏和最應(yīng)該放棄的時(shí)候少輸?shù)淖顑?yōu)組合解。
更近一步,在此前卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的另一個(gè)人工智能系統(tǒng)Libratus,針對(duì)的一對(duì)一的撲克游戲,采用的“戰(zhàn)略性推理”,通過(guò)決策樹(shù)向前推理。Libratus軟件在選擇動(dòng)作之前會(huì)搜索到游戲結(jié)束,選出一個(gè)最佳組合方案。
而面對(duì)六人游戲,兩人以外的額外玩家?guī)?lái)了大量的隱藏信息。為此團(tuán)隊(duì)主要?jiǎng)?chuàng)建者布朗博士改進(jìn)了Libratus的算法,讓Pluribus能夠在只看后續(xù)幾個(gè)牌,而不是比賽搜索到結(jié)束后做出正確選擇的“有限前瞻搜索”算法,賦予了Pluribus展望前方兩三步的搜索功能,被成為“真正的突破”。
“與多個(gè)對(duì)手玩撲克意味著Pluribus必須能夠?qū)崟r(shí)推理。”
——Facebook人工智能研究科學(xué)家、Pluribus創(chuàng)始人之一諾姆·布朗(Noam Brown)
▏忽悠和反忽悠能力
有人認(rèn)為,多人撲克已經(jīng)不是一種游戲,而更像一種需要多種技能的藝術(shù)表達(dá),這種藝術(shù)需要我們能夠有效甄別其他人的互動(dòng)、肢體動(dòng)作甚至微表情,更需要決勝者可以利用這些信息在這次博弈中取勝,簡(jiǎn)單來(lái)說(shuō),這是忽悠和防忽悠能力的對(duì)抗。
Pluribus使用了DeepMind公司人工智能?chē)逋婕业牡膹?qiáng)化學(xué)習(xí)形式,從零開(kāi)始自學(xué)。它與自身的副本對(duì)弈,并且在每次手牌結(jié)束后,回顧自己的玩法,并檢查如果采取不同的選項(xiàng),看它是否能賺到更多的錢(qián)。經(jīng)過(guò)了數(shù)萬(wàn)億次的對(duì)弈訓(xùn)練慢慢發(fā)展獲勝的虛張聲勢(shì)技巧。
那么,Pluribus在棋牌中如何表達(dá)他們的忽悠和反忽悠技能?以下是比賽實(shí)例中選取的簡(jiǎn)單描述。
例子一:當(dāng)Pluribus發(fā)覺(jué)自己手氣比較差時(shí),接連下注和加注讓對(duì)手誤判或棄牌(fold)。
例子二:識(shí)破人類(lèi)牌很差而試圖嚇唬Pluribus,希望其棄牌獲勝的全部押注行為(All in),Pluribus最后跟注(call)取得勝利。
據(jù)報(bào)道,輸給Pluribus都是頂級(jí)人類(lèi)棋手。
我們一直以為,虛張聲勢(shì)是一種非常人性化的能力,我們直視對(duì)方的眼睛,聲東擊西讓對(duì)方難辨真假。
但是,在Pluribus與人類(lèi)的競(jìng)技中,虛張聲勢(shì)的含義似乎被提升為一種基于算法和訓(xùn)練的能力,一種進(jìn)階版的談判博弈能力。對(duì)手越多,需要處理博弈的隱藏信息越多。
此外Pluribus的能夠練就強(qiáng)大的忽悠能力還有一個(gè)得天獨(dú)厚的優(yōu)勢(shì),那就是他們永遠(yuǎn)不會(huì)累也不會(huì)餓。那些疲勞和壓力帶來(lái)的不利因素對(duì)于Pluribus都不存在。
▏人工智能未來(lái)還能贏我們什么?
撲克一直是人工智能和博弈論領(lǐng)域中最難掌握的游戲之一。從博弈論的創(chuàng)始人約翰·馮·諾伊曼1928年在他的論文《室內(nèi)游戲理論》中寫(xiě)的關(guān)于撲克的文章,到愛(ài)德華·索普的杰作《打敗莊家》,再到麻省理工學(xué)院的21點(diǎn)團(tuán)隊(duì),幾十年來(lái),撲克策略一直困擾著數(shù)學(xué)家們。
職業(yè)撲克玩家說(shuō),玩復(fù)雜的撲克之所以困難,是因?yàn)樗牟豢深A(yù)測(cè)性。專(zhuān)家說(shuō),這也正是技術(shù)進(jìn)步的核心動(dòng)力。人們對(duì)與撲克和星際爭(zhēng)霸等充滿了不確定因素的機(jī)器智能的游戲充滿了極大的興趣,正是因?yàn)槟抢锔袷乾F(xiàn)實(shí)世界的縮影,也讓我們更深刻了解到未來(lái)的機(jī)器智能是如何依靠數(shù)據(jù)和數(shù)學(xué)計(jì)算獲得勝利。
Pluribus的成功并不僅僅代表一個(gè)牌類(lèi)競(jìng)技的勝利符號(hào),他的成功或許是邁向自動(dòng)化談判,更好的欺詐檢測(cè)市場(chǎng)和自動(dòng)駕駛汽車(chē)等復(fù)雜應(yīng)用的關(guān)鍵一步。
據(jù)了解,卡內(nèi)基梅隆大學(xué)教授和Pluribus開(kāi)發(fā)人員Tuomas Sandholm參與了戰(zhàn)略機(jī)器人公司(Strategy Robot Inc.)和優(yōu)化市場(chǎng)公司(optimization Markets Inc.)這兩家初創(chuàng)公司的合作,他們正在利用與Pluribus類(lèi)似的技術(shù),將其應(yīng)用于國(guó)防、金融服務(wù)、游戲和醫(yī)療保健等領(lǐng)域。
未來(lái),也許機(jī)器智能還能在更多單一場(chǎng)景領(lǐng)域戰(zhàn)勝人類(lèi)。但在AI戰(zhàn)勝人類(lèi)的同時(shí),也帶給我們更多思考,思考如何借助人工智能的提升去開(kāi)辟新的市場(chǎng)。更重要的是,人類(lèi)在不斷的開(kāi)發(fā)機(jī)器智能和與機(jī)器智能競(jìng)賽中,也剛好慢慢的挖掘自身大腦的無(wú)限潛能。所以不必?fù)?dān)心,人工智能在進(jìn)步,人類(lèi)的大腦同樣也在進(jìn)化。
這么看來(lái),未來(lái)是誰(shuí)戰(zhàn)勝了誰(shuí),誰(shuí)造福了誰(shuí),還真不一定呢。
參考來(lái)源:
Computers Can Now Bluff Like a Poker Champ. Better, Actually., The Wall Street Journal, July, 16th, 2019
- 猜你愛(ài)看 -
聯(lián)系客服