DeepMind揭秘雷神之錘3背后AI真相：碾壓人類只是個開始

2019.06.01

【新智元導讀】雖然人類已經(jīng)無望在電子競技中打敗AI多智能體，但DeepMind的研究仍在繼續(xù)往前推進。最近他們公布了在強化學習方面的最新進展，并對未來進行了展望。AI智能體的能力還會繼續(xù)提高嗎？會有極限嗎？

是的是的我們都知道，已經(jīng)沒有什么電子競技能夠讓人類抱有哪怕1%穩(wěn)贏的希望了。但是！你有沒有想過，AI會不會有一個極限？它的潛力還有多少，無窮大？還是最終止步于某個境界？DeepMind的科學家也想知道。

他們最近更新了博客，以雷神之錘為例，為我們重新介紹了強化學習的最新發(fā)展、AI在《雷神之錘3·奪旗》中達到了什么樣的程度，以及未來的期望。

多智能體最大的挑戰(zhàn)：既要獨自打拼，還要團隊協(xié)作

掌握多人游戲中涉及到的策略、戰(zhàn)術、團隊配合，是AI研究的關鍵挑戰(zhàn)。而DeepMind的科學家已經(jīng)將AI調(diào)教到了和人類相當?shù)乃?，這一點在《雷神之錘3·奪旗》體現(xiàn)的淋漓盡致。

AI智能體在游戲中，無論是跟同類打配合，還是跟人類組團，完全天衣無縫，表現(xiàn)的不像個機器人。DeepMind的科學家已經(jīng)在籌劃將奪旗中的方法，應用在雷神之錘3的全部游戲模式中。

Quake III有非常多的游戲模式。自身提供4種，分別是Free For All（競技場模式）、Team Deathmatch（紅藍兩隊對戰(zhàn)模式）、Tournament（Duel）（單挑模式）、奪旗（紅藍兩隊奪旗模式）。其他包括MOD和以其開源游戲引擎衍生出的獨立游戲也非常多。

作為社群生物，我們幾十億人類共同生活在同一個地球上，每個人都有自己獨立的目標和行為，但仍然能夠通過團隊、組織和社會聚集在一起，展示出令人驚嘆的集體智慧。這樣的設置，我們稱之為多智能體學習：每個智能體獨立行動，同時要學會與其他智能體的互動以及合作。

參考系都是動態(tài)的，自由度非常高。想想我們?nèi)祟愔g團隊配合的難度，就知道設計這樣的多智能體有多難了！

多智能體克服難題的秘訣

具體到《雷神之錘3·奪旗》中，智能體面臨的挑戰(zhàn)是直接從原始像素中學習以產(chǎn)生動作。這種復雜性使得第一人稱多人游戲成為AI社區(qū)內(nèi)富有成效且活躍的研究領域。

奪旗原本是一項廣受歡迎的戶外運動，被廣泛的應用于電子游戲中。在一張給定的地圖中，紅藍雙方保護自己的旗子并搶奪對方旗子，5分鐘時間內(nèi)，奪旗次數(shù)最多的隊伍獲勝。在游戲中，還可以標記敵方隊員并將其送回出生點。

越是簡單的規(guī)則，越能衍生出多種多樣的玩法，在人類來說是增加了趣味性，在多智能體來講就是增加了難度。為了繼續(xù)刁難多智能體，游戲地圖被設置成每局一換，以防止多智能體靠著優(yōu)于人類的記憶來獲得地利優(yōu)勢。

多智能體應對時局變化的訣竅，來自基于強化學習的三個概念：

訓練一組多智能體而非只訓練單一個體，使其能夠在游戲中互相學習，提供多樣化的隊友和對手
每個智能體都學習自己的內(nèi)部獎勵信號，刺激智能體產(chǎn)生他們自己的內(nèi)在目標比如搶到旗子。然后使用雙層優(yōu)化流程直接優(yōu)化智能體的內(nèi)部獎勵以獲勝，同時利用內(nèi)部獎勵的強化學習來了解智能體的政策。
智能體以快速和慢速兩種速度運行，這提高了它們使用內(nèi)存和生成一致動作序列的能力

由此產(chǎn)生的智能體，被稱為For The Win（獨孤求勝）智能體，學會了以非常高的水平來玩奪旗。至關重要的是，學到的智能體政策，對地圖的大小、隊友的數(shù)量以及團隊中的其他玩家都很有用。

DeepMind組織了40個人，和多智能體一起隨機組隊。最終獨孤求勝智能變得比強基線方法強大得多，超過了人類玩家的勝率。事后調(diào)查顯示，智能體相比我們?nèi)祟?，更善于打配合！所以阻礙人類勝利的關鍵是人類不會好好打配合咯。

智能體在訓練期間的游戲表現(xiàn)。我們訓練的新智能體FTW游戲模式下的Elo得分比人類玩家和自游戲+ RS、自游戲的基線方法更高，該分數(shù)反映出游戲獲勝的概率。

除了對游戲表現(xiàn)進行評估之外，了解這些智能體的行為和內(nèi)部表示的復雜度也很重要。

為了理解智能體如何表示游戲狀態(tài)，我們來看一下在平面上表示的智能體神經(jīng)網(wǎng)絡的激活模式。下圖中的點集群表示在游戲期間與附近表示類似激活模式的點的游戲情況。這些點按照智能體發(fā)現(xiàn)自己的高級CTF游戲狀態(tài)著色：在哪個房間？旗幟的狀態(tài)是什么？可以看到哪些隊友和對手？我們觀察到相同顏色的聚類，表明智能體以類似的方式表示類似的高級游戲狀態(tài)。

我們的智能體在游戲世界中的表示。在上圖中，根據(jù)神經(jīng)的相似程度繪制出給定時間的神經(jīng)激活模式：圖中兩點在空間中距離越近，表明它們的激活模式越相似。然后根據(jù)實時比賽情況對它們進行上色：顏色相同，表示情況相同。這些神經(jīng)激活模式是有組織的，形成了顏色簇，表明智能體以刻板、有組織的方式表示出有意義的游戲玩法。訓練后的智能體甚至展示了一些人工神經(jīng)元，用于直接針對游戲中的特定情形。

智能體從未被告知有關游戲規(guī)則的任何內(nèi)容，但卻了解基本的游戲概念，并對CTF產(chǎn)生了有效的直覺。事實上，我們可以找到直接為某些最重要的游戲狀態(tài)編碼的特定神經(jīng)元，例如在智能體一方的旗子被奪時激活的神經(jīng)元，或者當智能體的隊友拿著旗幟時激活的神經(jīng)元。本文對此提供了進一步的分析，包括了智能體對記憶和視覺注意力的應用。

超強智能體：強加反應延遲，游戲中仍然勝過人類

我們的智能體在游戲中表現(xiàn)如何？首先，它們的反應時間非常短。由于人類的生物信號傳導速度較慢，人類處理和作用于感官輸入的速度也就相對較慢。因此，我們的智能體在游戲中的卓越表現(xiàn)，可能是因為它們具備更快的視覺處理能力和運動控制的結(jié)果。

然而，在我們?nèi)藶榻档土酥悄荏w的瞄準精度和反應時間后，發(fā)現(xiàn)這其實只是其表現(xiàn)優(yōu)秀的其中一個因素。在進一步的研究中，我們訓練了內(nèi)置延遲約四分之一秒（267毫秒）的智能體，也就是說，它們在觀察世界之前存在267毫秒的延遲，這與人類游戲玩家的反應時間差不多。但這些自帶反應延時的智能體仍然在游戲中的表現(xiàn)仍然優(yōu)于人類玩家，后者的勝率只有21%。

人類玩家面對響應延遲的智能體的勝率仍然很低，這表明，即使被加上了與人類相當?shù)姆磻訒r，智能體的游戲表現(xiàn)依然勝過人類玩家。此外，通過查看人類和相應延時的智能體的平均游戲事件數(shù)量，雙方的標記事件數(shù)量差不多，表明這些智能體在這方面沒有占據(jù)優(yōu)勢。

通過無監(jiān)督學習，我們建立了代理人和人類的典型行為，發(fā)現(xiàn)智能體實際上學習了類似人類的行為，比如跟隨隊友并在對手的基地安營扎寨等。

訓練后的智能體做出的幾種行為：防守己方基地、騷擾敵方基地、跟隨隊友。

這些行為在強化學習的訓練過程中逐步出現(xiàn)，智能體能夠逐漸學會以更加互補的方式進行合作。

一群獨孤求勝智能體的訓練進程。左上角：30個智能體的Elo評分，它們之間可以互相訓練和進化。右上：進化事件樹。下圖顯示了在整個智能體訓練過程中知識進展、一些內(nèi)部獎勵機制和行為概率

《星際爭霸2》并不是極限，多智能體將繼續(xù)前進

AI智能體在《雷神之錘》中的成功經(jīng)驗，被DeepMind應用在更復雜的即時戰(zhàn)略游戲中。比如基于人口信息學的多智能體強化學習，構(gòu)成了面向《星際爭霸2》的AlphaStar智能體構(gòu)建的基礎。這款游戲被稱為“人類最后的尊嚴”，但最終也沒能擋住AIphaStar稱霸的腳步。

而且，《星際爭霸2》不會成為AI多智能體能力的極限，DeepMind還在不斷給多智能體加大難度，利用多智能體訓練中總結(jié)出的經(jīng)驗，用于開發(fā)高魯棒性的、甚至可以與人類合作的強大智能體。

更多詳細信息，請參閱論文。

論文下載地址：

https://science.sciencemag.org/content/364/6443/859.full

參考鏈接：

https://deepmind.com/blog/capture-the-flag-science/

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

谷歌AI在游戲中組隊擊敗人類團隊這一壯舉到底有何意義？

趕超人類智能，深度學習還需要解決哪些難題？

阿爾法狗之父哈薩比斯訪談：人工智能未來將如何碾壓一切

AlphaStar【擅長游戲，博弈對抗】| DeepMind的Alpha家族又添新丁