?
GG。
隨著人類喊出這兩個(gè)字母,一切都結(jié)束了。
OpenAI研發(fā)的人工智能戰(zhàn)隊(duì),首次在5v5的Dota2開(kāi)黑團(tuán)戰(zhàn)對(duì)戰(zhàn)中,擊敗人類玩家戰(zhàn)隊(duì)。
這真是一個(gè)里程碑式的事件。
這個(gè)能打團(tuán)戰(zhàn)的AI名叫OpenAI Five,是OpenAI最新的研發(fā)成果。
OpenAI Five完全通過(guò)自我對(duì)戰(zhàn)來(lái)學(xué)習(xí)打Dota2,每天的對(duì)戰(zhàn)量據(jù)說(shuō)相當(dāng)于人類的180年。而且驚人的硬件消耗量,應(yīng)該也是創(chuàng)下紀(jì)錄:256塊GPU和12.8萬(wàn)個(gè)CPU……
人類就這么又一次全面陷落了么?
顯然,Dota2團(tuán)戰(zhàn)AI擊敗人類這件事,一點(diǎn)也不簡(jiǎn)單。這次我們分三個(gè)部分,帶來(lái)一份從實(shí)力到技術(shù)的最全解析。
第一部分:OpenAI Five有多強(qiáng)?
第二部分:現(xiàn)在去TI打?qū)I(yè)戰(zhàn)隊(duì)有戲嗎?
第三部分:AI一日,人間180年
開(kāi)始。
可能真的出乎你的預(yù)料。一起看下。
團(tuán)戰(zhàn)不虛
團(tuán)戰(zhàn),需要綜合使用技能、裝備和走位,最大化對(duì)敵方英雄的傷害,同時(shí)避免損失本方英雄。
來(lái)看實(shí)戰(zhàn)。
這是一波AI守高地的戰(zhàn)斗。當(dāng)時(shí)人類團(tuán)隊(duì)的裝備和等級(jí)都要更高。而且五位人類玩家全部集結(jié)在一路,準(zhǔn)備強(qiáng)行拆塔。
雙方甫一接觸時(shí),AI只有一位23級(jí)的英雄應(yīng)戰(zhàn),人類團(tuán)隊(duì)24級(jí)的巫妖(Lich)首先發(fā)難,使出“阿托斯之棍”,將AI一方23級(jí)的巫妖定在原地。
隨后,AI巫妖對(duì)自己釋放“EUL的神圣法杖”,這個(gè)技能可以讓自己被卷入龍卷風(fēng)中,并且暫時(shí)處于無(wú)敵狀態(tài)。通過(guò)這一招,AI的用意是拖住人類團(tuán)隊(duì),并且給自己的隊(duì)友趕來(lái)贏得時(shí)間。
?
隨后,AI巫妖繼續(xù)將人類團(tuán)隊(duì)拖上高地,誘使人類玩家信心爆棚。而其他AI英雄則開(kāi)始從后方包抄人類團(tuán)隊(duì)。
繞后的AI冰女(Crystal Maiden),對(duì)人類團(tuán)隊(duì)拖后的火槍(Sniper)率先使出“閃爍匕首”,緊接著用出“冰封禁制”把狙擊手凍住,接著再是一記“黑皇杖”,最后施法“極寒領(lǐng)域”召喚冰晶展開(kāi)轟炸。
?
AI冰女釋放的“極寒領(lǐng)域”,和AI毒龍(Viper)釋放的“幽冥劇毒”,迫使人類團(tuán)隊(duì)只能散開(kāi)。于是,AI火槍可以從安全距離上展開(kāi)遠(yuǎn)程攻擊。
在高傷害和群控的攻擊下,人類火槍和冰女想要撤退,卻只能以被擊殺而告終。隨后,在沒(méi)有視野的情況下,AI冰女使用“冰霜新星”,擊殺了人類巫妖。
?
隨后,AI冰女還不肯罷休,閃現(xiàn)追擊人類僅剩的最后一個(gè)英雄死靈法師(Necrophos),然而在凍住對(duì)方后,AI冰女已經(jīng)無(wú)技能可用,只得放棄追擊。
最終這波團(tuán)戰(zhàn),AI打了人類玩家一個(gè)2換4,而且守家成功。
詭計(jì)多端
遇到打不過(guò)的時(shí)候,人類英雄躲進(jìn)樹(shù)林想要避一避,沒(méi)用的。AI英雄即便失去了視野,也會(huì)一路追進(jìn)森林尋找,然后擊殺。
?
?
眼見(jiàn)AI殘血,人類玩家想要追擊,千萬(wàn)小心,因?yàn)槠渌鸄I英雄正趕來(lái)捉人。人類玩家不單收不了人頭,而且還要送命。
特別強(qiáng)調(diào)一點(diǎn),AI還學(xué)會(huì)了“擒賊先擒王”,不惜使用多重大招,只為確保能擊殺等級(jí)最高的那個(gè)敵方英雄。
而且AI英雄還會(huì)自我犧牲,把人類玩家引誘出高地,確保團(tuán)隊(duì)其他成員能推塔成功。
?
總之,OpenAI Five又能團(tuán),又能gank,足智多謀,詭計(jì)多端。
下面這個(gè)視頻,更全面的講述了AI掌握的七大技能。
實(shí)際上,按照官方的說(shuō)法,目前OpenAI Five在選擇攻擊目標(biāo)這一項(xiàng)上,達(dá)到了專業(yè)水平,但補(bǔ)兵能力還有不足。
回答這個(gè)問(wèn)題之前,先得明確一個(gè)事實(shí):目前OpenAI Five戰(zhàn)勝的對(duì)手,并不是人類頂尖高手。
雙方的對(duì)戰(zhàn),大約兩個(gè)月前已經(jīng)開(kāi)始。目前OpenAI Five已經(jīng)先后與五支人類團(tuán)隊(duì)有過(guò)交手:
1、最強(qiáng)OpenAI員工隊(duì):MMR匹配分 2500
2、最強(qiáng)觀眾隊(duì):MMR 4000-6000
3、Valve員工隊(duì):MMR 2500-4000
4、業(yè)余隊(duì):MMR 4200,有團(tuán)隊(duì)訓(xùn)練
5、半職業(yè)隊(duì):MMR 5500,有團(tuán)隊(duì)訓(xùn)練
4月23日,OpenAI Five首次擊敗了腳本基線版本。5月15日,與第1隊(duì)打成1:1。6月6日,與第1、2、3隊(duì)的對(duì)戰(zhàn)中,均取得勝利。
可以看到OpenAI Five一直在進(jìn)步。這個(gè)AI與第4、第5隊(duì)進(jìn)行了非正式的比賽,雖然沒(méi)能取勝,但是在前三場(chǎng)中贏下兩場(chǎng)。
與人類玩家相比,OpenAI Five平均每分鐘可進(jìn)行150-170次操作,平均反應(yīng)時(shí)間為80毫秒,明顯比人類更快。
不過(guò)這些不是決定5v5勝利與否的關(guān)鍵因素。
OpenAI還總結(jié)了OpenAI Five的幾個(gè)特點(diǎn):
屢次犧牲自己的優(yōu)勢(shì)路(夜魘軍團(tuán)的上路,天輝軍團(tuán)的下路),以壓制敵人的優(yōu)勢(shì)路,迫使戰(zhàn)斗轉(zhuǎn)移到對(duì)手更難防御的一邊。
比賽初期到中期的轉(zhuǎn)換比對(duì)手更快。方法:(1) 多次成功gank人類玩家 (2) 趕在對(duì)手集結(jié)之前,組隊(duì)推塔。
也有一些非主流打法。例如前期把錢(qián)和經(jīng)驗(yàn)讓給輔助英雄。OpenAI Five的優(yōu)先級(jí)使其傷害值能更快攀升,進(jìn)而贏得團(tuán)戰(zhàn)等。
這么厲害的隊(duì)伍,當(dāng)然也不是陪業(yè)余人類玩玩就算了的。
OpenAI說(shuō),他們打算8月份去DotA 2頂級(jí)賽事TI上,找一支頂級(jí)專業(yè)隊(duì)伍PK一下,7月底還要搞一場(chǎng)對(duì)戰(zhàn)專業(yè)團(tuán)隊(duì)的直播。
當(dāng)然,全部英雄OpenAI Five暫時(shí)還搞不定,和專業(yè)選手對(duì)局,雙方也只能在有限的英雄里選。
到時(shí)候這個(gè)“有限的英雄”究竟有多少,現(xiàn)在還不知道,不過(guò),這也說(shuō)明了一個(gè)很重要的問(wèn)題:現(xiàn)在OpenAI Five的能力,還不足以玩人類版的DotA 2。
那么,AI現(xiàn)在玩的DotA 2和人類版相比做了哪些簡(jiǎn)化呢?
?
OpenAI在博客最后列出了AI版DotA的限制:
雙方英雄陣容是固定的:死靈法師、火槍、毒龍、冰女、巫妖(他們的學(xué)名叫瘟疫法師、矮人狙擊手、冥界亞龍、水晶室女、巫妖);
不插眼;
沒(méi)有肉山;
沒(méi)有隱身裝備;
沒(méi)有召喚單位、沒(méi)有幻像;
少了一些物品:圣劍、瓶子、補(bǔ)刀斧、飛鞋、經(jīng)驗(yàn)書(shū)、凝魂之淚;
有5個(gè)無(wú)敵信使(雞),但是不能用來(lái)偵查或者防御;
沒(méi)有掃描。
這意味著什么?
有了這些限制,AI打的DotA就比人類版有了很多簡(jiǎn)化,也說(shuō)明了這個(gè)AI還有些沒(méi)掌握的技能。
比如英雄的選擇和陣容的搭配。雙方只有固定的5個(gè)英雄,就不需要掌握英雄之間的配合和克制情況,游戲也少了很多變化。
AI現(xiàn)在也還不懂得對(duì)視野的控制。AI玩的版本沒(méi)有隱身裝備、沒(méi)有插眼的操作、沒(méi)有掃描,于是雙方只能在游戲原本設(shè)定的視野中對(duì)戰(zhàn),不能靠自己的能力改變視野,也不需要偵查。
游戲中,如果不考慮信使,AI控制的單位也只能是5個(gè),這也就是為什么不能出現(xiàn)召喚單位和幻象。
另外,沒(méi)有游戲野區(qū)最強(qiáng)大的怪物肉山,也就沒(méi)有了打肉山能得到的復(fù)活盾。在職業(yè)比賽中,復(fù)活盾帶來(lái)的原地滿狀態(tài)復(fù)活能力,可以說(shuō)是個(gè)翻盤(pán)利器。
讓人類職業(yè)選手來(lái)打一個(gè)這樣的DotA,并沒(méi)有什么優(yōu)勢(shì);如果讓現(xiàn)在的OpenAI Five去打人類版DotA,這支沒(méi)學(xué)過(guò)選英雄、做視野、偷雞等等技能,還少學(xué)了很多裝備的隊(duì)伍,也會(huì)不知所措。
不過(guò),OpenAI也說(shuō)了,這些限制大都是因?yàn)橛螒蚶镉行┎糠诌€沒(méi)整合進(jìn)來(lái),像插眼、肉山這種職業(yè)比賽中的關(guān)鍵元素,他們會(huì)盡快加上。
雖然還有種種限制,但不可否認(rèn),AI的進(jìn)步還是快得嚇人。
OpenAI的解釋是,這個(gè)AI通過(guò)自我對(duì)戰(zhàn)來(lái)提升,從隨機(jī)參數(shù)開(kāi)始,不用人類玩家的方法引導(dǎo),也不人類玩家方法中搜索。
他們還特別提到,在訓(xùn)練1v1模型的時(shí)候,是專門(mén)針對(duì)卡兵這個(gè)操作設(shè)置了獎(jiǎng)勵(lì)的。但是在OpenAI Five模型中并沒(méi)有這個(gè)獎(jiǎng)勵(lì),但這個(gè)新模型還是自己學(xué)會(huì)了卡兵。
AI每天的訓(xùn)練量,相當(dāng)于打180年游戲??芍^真·勤學(xué)苦練,人類選手一輩子的訓(xùn)練量也不及它半天。
這些每天訓(xùn)練180年的選手,究竟是些什么怪物?
他們的長(zhǎng)相是這樣的:
?
不要被結(jié)構(gòu)圖嚇到,簡(jiǎn)單來(lái)說(shuō),每個(gè)選手,也就是每個(gè)智能體(agent),都是一個(gè)單層LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)),有1024個(gè)單元,能夠通過(guò)Valve的Bot API觀察當(dāng)前游戲狀態(tài),控制自己的英雄接下來(lái)選擇哪一種操作、釋放到XY坐標(biāo)系中的哪一點(diǎn)。
智能體能夠觀察到的信息和人類差不多,包括自身、隊(duì)友和敵人的狀況,比如位置、血量、攻擊力、護(hù)甲、攜帶物品、能力等等??赡軙?huì)有一點(diǎn)點(diǎn)區(qū)別的,就是智能體對(duì)過(guò)去12幀的血量、攻擊和被攻擊情況等歷史信息大概記得比人類清楚。
?這些信息,對(duì)于智能體來(lái)說(shuō)是一個(gè)包含20000數(shù)值的列表,而它判斷之后發(fā)出的行動(dòng)指令,是8個(gè)值的列表。
選手們的訓(xùn)練,使用的是擴(kuò)展版的近端策略優(yōu)化(PPO)方法,這也是OpenAI現(xiàn)在默認(rèn)的強(qiáng)化學(xué)習(xí)訓(xùn)練方法。這些智能體的目標(biāo)是最大化未來(lái)獎(jiǎng)勵(lì)的指數(shù)衰減和。
AI選手們?cè)谟?xùn)練中飯量驚人,承載它們需要256塊P100 GPU和12.8萬(wàn)個(gè)CPU核心。
?
上面的5v5版本與1v1版本對(duì)比,有一個(gè)令人欣慰的結(jié)果:OpenAI Five需要的CPU和GPU計(jì)算力,與去年擊敗Dendi的1v1版相比,并沒(méi)有翻到5倍。
5個(gè)智能體訓(xùn)練出來(lái),它們之間又是怎樣配合的呢?總不能像我們?nèi)祟愰_(kāi)黑一樣互相喊話吧?
答案是,他們之間沒(méi)有那種人類可以理解的溝通渠道,而是由一個(gè)“團(tuán)隊(duì)精神”超參數(shù)來(lái)統(tǒng)一控制。這個(gè)超參數(shù)的范圍在0到1之間,決定了選手對(duì)與自身獎(jiǎng)勵(lì)函數(shù)和隊(duì)友平均獎(jiǎng)勵(lì)函數(shù)的關(guān)注程度分配。
OpenAI說(shuō),他們打算在7月28日和頂級(jí)選手對(duì)戰(zhàn)一番,留給他們的時(shí)間,還有整整1個(gè)月。8月,他們還要和頂級(jí)人類專業(yè)選手在TI上較量,如果這一場(chǎng)較量在AI結(jié)束時(shí)的話,留給AI的時(shí)間還有兩個(gè)月。
按照“人間一天,AI界180年的”算法,加上肉山、插眼等關(guān)鍵元素之后,只要能給AI留半個(gè)月時(shí)間和自己對(duì)戰(zhàn),在它的世界里就可以說(shuō)修煉了“數(shù)千年”。
這場(chǎng)對(duì)戰(zhàn),還開(kāi)設(shè)了直播,等著和人類觀眾相見(jiàn)。
7月28日大戰(zhàn)的直播:
https://www.twitch.tv/openai
OpenAI博客詳解(包含各種場(chǎng)景下AI觀察到的情形和可采取行動(dòng)的交互圖解):
https://blog.openai.com/openai-five/
LSTM架構(gòu)大圖:
https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf
PPO:
https://arxiv.org/abs/1707.06347
— 完 —
實(shí)習(xí)生招聘
量子位正在招募市場(chǎng)運(yùn)營(yíng)實(shí)習(xí)生,策劃執(zhí)行AI明星公司CEO、高管等參與的線上/線下活動(dòng),有機(jī)會(huì)與AI行業(yè)大牛直接交流。一份豐富的實(shí)習(xí)經(jīng)歷等你解鎖~
工作地點(diǎn)在北京中關(guān)村。簡(jiǎn)歷歡迎投遞到quxin@qbitai.com
聯(lián)系客服