官方揭秘OpenAI Five打敗人類：遷移學習10個月訓練4.5萬年

懶人葛優(yōu)癱 >《人工智能》

2019.04.16

關(guān)注

【新智元導讀】在上周末徹底攻陷了Dota人類頂級職業(yè)戰(zhàn)隊OG后，OpenAI站出來介紹了OpenAI Five是如何訓練的、為什么選擇打Dota以及AI在打Dota的時候在想什么。

OpenAI Five是第一個在電子競技游戲中擊敗世界冠軍的人工智能，在上周末與2-0大敗世界冠軍Dota 2團隊OG，這是AI第一次在直播中擊敗了電子競技專家。

OG和OpenAI開發(fā)組

本次比賽還得出了兩個驚人的發(fā)現(xiàn)：

盡管訓練的時候?qū)Ｗ⒂趽魯∑渌偪耠娔X，但OpenAI Five在比賽中卻展現(xiàn)出和人類玩家的優(yōu)秀的團隊協(xié)作意識。這意味著未來的AI系統(tǒng)可以從競爭型AI轉(zhuǎn)變?yōu)楹献餍虯I
總決賽讓OpenAI的科學家可以回答一個重要的研究問題：OpenAI Five在多大程度、以何種方式能夠被確定的打??？并且可能是有史以來最大規(guī)模的、人們可以有意識地與之交互的高強度深層強化學習智能體的部署

徹底攻陷了人類頂級職業(yè)玩家后，OpenAI站出來介紹了OpenAI Five是如何訓練的、為什么選擇打Dota以及AI在打Dota的時候在想什么。

為什么選擇Dota？

OpenAI Five的初衷是為了解決現(xiàn)有深度強化學習算法無法實現(xiàn)的問題。為此需要大幅增加工具的的能力、復雜的算法思想（例如分層強化學習）。

OpenAI Five將世界視為一堆必須破譯的數(shù)字。它使用相同的通用學習代碼，無論這些數(shù)字代表Dota游戲（約20,000個數(shù)字）或機器人手（約200個）的狀態(tài)

為了構(gòu)建OpenAI Five，研究人員創(chuàng)建了一個名為Rapid的系統(tǒng)，以前所未有的規(guī)模運行PPO。結(jié)果超出了研究人員最大的期望，產(chǎn)生出了世界級的Dota機器人，沒有觸及任何基本的性能限制。

當今的監(jiān)督學習算法之所以能有如此強大功能，是以大量經(jīng)驗為代價的，這在游戲或模擬環(huán)境之外是不切實際的。研究人員認為減少經(jīng)驗量是深度學習的下一個挑戰(zhàn)。

研究人員表示，從今天開始OpenAI Five將不會繼續(xù)打比賽，但取得的進步和技術(shù)的發(fā)展將繼續(xù)推動未來的工作。研究人員認為Dota對于監(jiān)督學習開發(fā)來說比現(xiàn)在使用的標準環(huán)境更具有內(nèi)在的趣味性和難度。

算力

OpenAI Five這次的勝利是由于一次重大變化：訓練計算量增加了8倍。前期階段研究人員通過提高培訓規(guī)模來推動進一步的發(fā)展，之后將絕大部分算力用于培訓單一的OpenAI Five模型，相當于延長了訓練時間。

總的來說，當前版本的OpenAI Five已經(jīng)消耗了800 petaflop/s-days，并且在10個實時月內(nèi)獲得了45000年的游戲經(jīng)驗，平均每天獲得250年的模擬經(jīng)驗。OpenAI Five的總決賽版本與TI版本相比，勝率為99.9％。

遷移學習

盡管模型大小和游戲規(guī)則發(fā)生了變化，但目前版本的OpenAI Five自2018年6月以來一直在不斷訓練。在每種情況下，研究人員都能夠?qū)⒛Ｐ娃D(zhuǎn)移并繼續(xù)培訓，這對于其他領(lǐng)域的監(jiān)督學習來說是一個開放的挑戰(zhàn)。

據(jù)悉，這可能是監(jiān)督學習智能體第一次使用如此長期的訓練課程進行訓練。

協(xié)同模式

它實際上感覺很好; 我的毒蛇在某些時候為我獻出了生命。他試圖幫助我，想著“我確定她知道她在做什么”然后顯然我沒有。但是，你知道，他相信我。對于[人類]隊友，我并沒有那么多.-無論如何

在總決賽期間，研究人員展示了OpenAI Five與人類一起在團隊中的表現(xiàn)，兩隊的成員都是2個真人帶3個智能體

OpenAI Five與人類的協(xié)同作戰(zhàn)能力為人類與人工智能互動的未來提供了一個引人注目的愿景：人工智能系統(tǒng)能夠和人類協(xié)作并增強人類體驗。

玩家認為從機器人隊友哪里感受到了戰(zhàn)友之情，并從這些先進的系統(tǒng)中學到了很多東西，整體來說是一種有趣的體驗。

值得注意的是，OpenAI Five展示了zero-shot遷移學習，與人類并肩作戰(zhàn)或者對抗人類。研究人員非常驚訝這一點和它一樣有效。事實上，研究人員考慮在國際上進行協(xié)同作案韓比賽，但認為需要專門的訓練。

OpenAI Five Arena

目前研究人員還不知道OpenAI Five在多大程度上能夠通過更機智的策略被擊敗，所以研究人員推出了OpenAI Five Arena。這是一項公開的實驗，任何人都可以跟OpenAI Five組隊或者對戰(zhàn)。

競技場于4月18日星期四太平洋標準時間下午6點開放，并于4月21日星期日太平洋標準時間晚上11:59關(guān)閉。玩家需要注冊，所有游戲的結(jié)果將自動報告給競技場公共排行榜。

下一步干什么

一旦研究人員審查了OpenAI Five Arena的結(jié)果，研究人員將發(fā)布對OpenAI Five的更多技術(shù)分析，之后將繼續(xù)使用OpenAI中的Dota 2環(huán)境。

研究人員已經(jīng)看到過去兩年在監(jiān)督學習能力方面取得了快速進展，并認為Dota 2將在推進無論是通過較少的數(shù)據(jù)還是真正的人工智能合作實現(xiàn)有能力的表現(xiàn)方面，持續(xù)提供幫助。

參考鏈接：How to Train Your OpenAI Five

注冊地址：OpenAI Five Arena

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

DOTA2人類戰(zhàn)隊終結(jié)AI狂勝戰(zhàn)績：601-2，勝利來之不易

Dota2團戰(zhàn)AI擊敗人類最全解析：能團又能gank，AI一日人間180年

Dota2也被AI占領(lǐng)了！OpenAI打出4200逆天高分超過90%人類玩家

OpenAI輸了比賽，但贏了人心

Dota2冠軍OG如何被AI碾壓？OpenAI累積三年的完整論文終于放出

OpenAI 2:0碾壓世界冠軍OG！你可能再也打不贏Dota 2人機了

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

為什么選擇Dota？

算力

遷移學習

更多Dota英雄

協(xié)同模式

OpenAI Five Arena

下一步干什么

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

為什么選擇Dota？

算力

遷移學習

更多Dota英雄

協(xié)同模式

OpenAI Five Arena

下一步干什么

為什么選擇Dota？