1 文章信息
2 摘要
探索和開發(fā)是多智能體學習(MAL)中一個有力實用的工具,為理解其效果,作者探究了一種Q-learning的平滑模擬。作者首先表明,其學習模型作為研究探索-開發(fā)的最佳模型有很強的理論合理性。具體來說,作者證明了平滑的Q-learning 在任意博弈中對于明確地捕捉到的博弈成本和探索成本之間的平衡的成本模型存在約束,并且在異質學習智能體的加權潛在博弈中總能收斂到量化響應均衡(QRE)。作者接著轉向測量探索對集體系統(tǒng)性能的影響,描述了低維MAL系統(tǒng)中QRE面的幾何特征,并將其發(fā)現與災難(分叉)理論聯(lián)系起來。特別是,隨著探索超參數隨時間的演變,系統(tǒng)經歷了階段轉換,在這種情況下,給定探索參數的無限小變化,平衡的數量和穩(wěn)定性可以發(fā)生根本性變化。在此基礎上,作者提供了一個形式化的理論處理方法,以證明調整探索參數可以達到平衡選擇,同時對系統(tǒng)性能產生積極以及消極(和潛在的無限制)的影響。
3 動機
盡管在行為建模和人工智能方面都取得了顯著的進展,但是即使在簡單的設置中,MAS的理論學習仍然存在很大的不完整性。雖然還沒有理論來證實的解釋MAL算法的性能,特別是在“the e?ects ofexploration in MAS”, 但現有的研究表明,在無狀態(tài)矩陣博弈中已經出現了許多探索的病態(tài),在這些博弈中,自然出現的集體學習動態(tài)表現出不同的結果。缺少正式理論的原因是多方面的,首先即使沒有探索,博弈中MAL也會產生難以分析的復雜行為。一旦強制進行探索,在線學習的行為變得更加難以解決,因為納什均衡不在是智能體長久固定的目標。最后如果參數改變得足夠多,那么我們就會得到分叉現象和可能的混亂。
4 模型構建
作者研究了無狀態(tài)Q-learning 的平滑變體通過softmax或者Boltzmann探索,成為Boltzmann Q-learning 或 平滑Q-learning(SQL),每個智能體通過以下規(guī)則更新選擇的分布
定義1. 動力學方程:
定義2. Bounded regret:為了衡量(1)中SQL動態(tài)的性能,我們將使用累計的標準概念。
定義3. 考慮改變后的設置
定義4. 在異質智能體的加權勢博弈中收斂到QRE. 如果存在一個函數
定義5. 如果
定義6. 使
5 實驗結果
作者從2×2的協(xié)調游戲開始,然后進行具有任意大小的行動空間的潛在游戲。在所有情況下,作者考慮兩種具有代表性的探索-開發(fā)政策:一種是探索-然后-開發(fā)(ETE)策略,從(相對)高探索開始,線性地減少到零;另一種是一個周期的循環(huán)學習率(CLR-1)策略,從低探索開始,在周期中間增加到高探索,并衰減到(最終)零探索(即純開發(fā))。分別進行帕累托實驗和獵鹿實驗。
7 創(chuàng)新點
研究了無狀態(tài)Q-learning的平滑變體使用softmax或Boltzmann探索稱為Boltzmann Q-learning或平滑Q-learning(SQL)
1. 證明了平滑的Q-learning在任意博弈中對于明確地捕捉到的博弈成本和探索成本之間的平衡的成本模型句存在約束
2. 描述了低維MAL系統(tǒng)中QRE面的幾何特征,并將其發(fā)現與災難(分叉)理論聯(lián)系起來
3. 提供了一個形式化的理論處理方法,以證明調整探索參數可以達到平衡選擇,同時對系統(tǒng)性能產生積極以及消極(和潛在的無限制)的影響
8 參考文獻
S. Leonardos, and P. Georgios,'Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory MeetsGame Theory.' (2020).
Attention
如果你和我一樣是軌道交通、交通運輸、城市規(guī)劃相關領域的,也愿意分享自己的科研生活,請加微信:Dr_JinleiZhang,備注“進群”,我會拉你進交通大數據分享群!希望我們共同進步!