強化學習(RL)是一種通過環境交互產生的獎勵或懲罰信號驅動智能體決策的框架。深度強化學習整合深度學習與強化學習,利用深度神經網絡處理高維復雜數據。依托該框架,機器學習研究界在長時序決策領域取得突破性進展,包括雅達利游戲超人類表現[Mnih et al., 2015]、圍棋人機大戰勝利[Silver et al., 2017]、以及魯棒推薦系統構建[GomezUribe and Hunt, 2015, Singh et al., 2021]。本研究聚焦深度強化學習環境中的核心挑戰,優化智能體策略以提升性能、樣本效率與泛化能力。
論文第一部分針對單智能體稀疏獎勵環境下的探索難題展開研究。當智能體僅在任務完成時獲得反饋,傳統方法常因探索不足而無法獲取關鍵獎勵,導致策略欠優。本文提出語義驅動探索新范式,顯著提升稀疏獎勵任務的樣本效率與策略性能。第二部分延伸至協作式多智能體強化學習(MARL)領域,探究多智能體協同完成共享任務時的學習困境。在需嚴格協調且協調失誤懲罰嚴苛的場景中,現有MARL方法常陷于次優均衡態;同時,智能體聯合動作空間的維度爆炸式增長加劇探索難度。為此,本文創新提出通用價值探索框架與可擴展角色學習機制,有效促進智能體協調效率,加速聯合動作空間探索,并賦予跨環境任務零樣本泛化能力。此外,針對協作MARL中獨立策略學習方法(各智能體視他者為環境要素)的研究表明,該方法在主流多智能體基準測試中性能優于現有聯合學習范式。
本研究通過系統性創新,顯著推進深度(多智能體)強化學習的前沿水平。所開發智能體具備高效環境探索能力,可攻克復雜多智能體協調任務,并在多任務場景展現卓越泛化性能。
人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。
本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。
所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。
強化學習是人工智能領域的一個分支,研究智能體在特定系統中通過試錯學習采取行動的方法。其著名案例包括控制真實機器人或在多數人類熱門高難度游戲中實現超人類表現。為開展此類研究,學者通常使用標準化“環境”(如機器人仿真或電子游戲)評估學習方法性能。本文涵蓋以下內容:
PettingZoo:提供標準化API與多智能體強化學習參考環境集的庫,已獲廣泛應用;
SuperSuit:提供易用標準化預處理封裝器的庫,用于對接學習框架;
街機學習環境(Arcade Learning Environment)擴展:該流行工具被強化學習研究者用于Atari 2600游戲交互,本擴展支持多人游戲模式。
基于上述工具,本文還利用多智能體強化學習開發了一種自然科學研究新方法。“涌現行為”指智能體群體的協調行為(如人行道行人、鳥群編隊、交通車流或股市交易者),代表諸多科學領域中普遍未解的重要現象。本研究首次提出通過多智能體強化學習(MARL)系統搜索多智能體系統中所有可能良性(“成熟”)涌現行為的數學形式化框架,并構建基于深度強化學習的初級實現,可應用于任意環境。實驗表明,在12個多智能體系統中,該方法可發現超百種涌現行為,其中多數為環境設計者此前未知。此類方法有望解答各類開放科學問題,例如:“該系統可能存在哪些行為?”、“何種系統條件促成此類涌現行為?”或“如何調整系統以抑制特定涌現行為?”
人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。
本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。
強化學習(RL)是一種框架,在這種框架中,智能體通過與環境的交互,以行動獎勵或懲罰的形式獲得數據驅動的反饋,從而學會做出決策。深度 RL 將深度學習與 RL 相結合,利用深度神經網絡的強大功能來處理復雜的高維數據。利用深度 RL 框架,我們的機器學習研究界在使機器能夠在長時間范圍內做出連續決策方面取得了巨大進步。這些進步包括在雅達利(Atari)游戲中實現超人性能[Mnih 等人,2015],掌握圍棋游戲,擊敗人類世界冠軍[Silver 等人,2017],提供強大的推薦系統[GomezUribe 和 Hunt,2015, Singh 等人,2021]。本論文的重點是找出一些阻礙 RL 智能體在其特定環境中學習的關鍵挑戰,并改進方法,從而提高智能體的性能、改善樣本效率以及學習到的智能體策略的普適性。
在論文的第一部分,我們將重點放在單智能體 RL 設置中的探索上,在單智能體 RL 設置中,智能體必須與復雜的環境交互以追求目標。不探索環境的智能體不可能獲得高性能,因為它會錯過關鍵獎勵,因此無法學習到最佳行為。一個關鍵的挑戰來自于獎勵稀少的環境,在這種環境中,智能體只有在任務完成后才會收到反饋,這使得探索更具挑戰性。我們提出了一種能進行語義探索的新方法,從而提高了樣本效率和稀疏獎勵任務的性能。
在論文的第二部分,我們將重點放在合作式多智能體強化學習(MARL)上,這是對通常的 RL 設置的擴展,我們考慮多個智能體在同一環境中為共同的任務進行交互。在多智能體任務中,各智能體之間需要進行大量協調,并對協調失誤進行嚴格懲罰,而最先進的 MARL 方法往往無法學習到有用的行為,因為各智能體會陷入次優平衡狀態。另一個挑戰是在所有智能體的聯合行動空間中進行探索,而這一空間會隨著智能體數量的增加而呈指數級增長。為了應對這些挑戰,我們提出了通用價值探索和可擴展的基于角色的學習等創新方法。這些方法有助于改善智能體之間的協調,加快探索速度,并增強智能體適應新環境和新任務的能力,展示零鏡頭泛化能力,從而提高樣本效率。最后,我們研究了合作式 MARL 中基于獨立策略的方法,其中每個智能體都將其他智能體視為環境的一部分。我們表明,在一個流行的多智能體基準上,這種方法的表現優于最先進的聯合學習方法。
總之,本論文的貢獻大大提高了深度(多智能體)強化學習的最新水平。本論文中開發的智能體可以高效地探索其環境以提高采樣效率,學習需要大量多智能體協調的任務,并在各種任務中實現零點泛化。
深度強化學習(DRL)在各個領域的序列決策任務中取得了顯著的成功,但其依賴于黑箱神經網絡架構的特點限制了解釋性、可信度以及在高風險應用中的部署。可解釋深度強化學習(XRL)通過在特征級、狀態級、數據集級和模型級的解釋技術來解決這些挑戰,從而提高透明度。本綜述提供了XRL方法的全面回顧,評估了其定性和定量評估框架,并探討了它們在策略優化、對抗魯棒性和安全性中的作用。此外,我們還考察了強化學習與大語言模型(LLMs)的結合,特別是通過基于人類反饋的強化學習(RLHF),該方法優化了AI與人類偏好的對齊。最后,我們總結了當前的研究挑戰并展望了未來的發展方向,以推進可解釋、可靠和負責任的DRL系統的研究進展。
1 引言
深度強化學習(DRL)作為一種解決復雜序列決策問題的變革性范式,已經取得了顯著進展。通過使自主智能體與環境互動、接收獎勵反饋,并不斷優化策略,DRL在多個領域取得了卓越的成功,包括游戲(如:Atari [Mnih, 2013; Kaiser et al., 2020],圍棋 [Silver et al., 2018, 2017],以及星際爭霸 II [Vinyals et al., 2019, 2017]),機器人技術 [Kalashnikov et al., 2018],通信網絡 [Feriani and Hossain, 2021],以及金融 [Liu et al., 2024]。這些成功凸顯了DRL超越傳統基于規則系統的能力,尤其是在高維度和動態變化的環境中。盡管取得了這些進展,仍然存在一個根本性挑戰:DRL智能體通常依賴于深度神經網絡,這些網絡作為黑箱模型運行,遮蔽了其決策過程的背后原理。這種不透明性在安全關鍵和高風險應用中構成了顯著障礙,因為在這些領域中,可解釋性對于信任、合規性和調試至關重要。DRL中缺乏透明度可能導致不可靠的決策,使其在需要可解釋性的領域(如醫療、自動駕駛和金融風險評估)中不適用。 為了解決這些問題,可解釋深度強化學習(XRL)領域應運而生,旨在開發能夠提高DRL策略可解釋性的技術。XRL致力于提供智能體決策過程的洞察,幫助研究人員、實踐者和最終用戶理解、驗證并優化學習到的策略。通過促進更大的透明度,XRL有助于開發更安全、更穩健、以及更符合倫理的AI系統。 此外,強化學習(RL)與大語言模型(LLMs)的日益融合,使得RL成為自然語言處理(NLP)領域的前沿技術。諸如基于人類反饋的強化學習(RLHF)[Bai et al., 2022; Ouyang et al., 2022]等方法已經成為使LLM輸出與人類偏好和倫理指南對齊的重要手段。通過將語言生成視為序列決策過程,基于RL的微調使LLM能夠優化諸如事實準確性、連貫性和用戶滿意度等屬性,超越了傳統的監督學習技術。然而,RL在LLM對齊中的應用進一步加劇了可解釋性問題,因為RL更新與神經網絡表示之間的復雜交互仍然不完全為人所理解。 本綜述提供了關于DRL中可解釋性方法的系統性回顧,特別關注其與LLM和人類參與系統的集成。我們首先介紹了強化學習的基本概念,并突出展示了DRL的關鍵進展。接著,我們對現有的解釋方法進行分類和分析,涵蓋了特征級、狀態級、數據集級和模型級的技術。此外,我們討論了評估XRL技術的方法,考慮了定性和定量評估標準。最后,我們探討了XRL在現實應用中的實踐,包括策略優化、對抗性攻擊緩解以及在現代AI系統中確保可解釋性的挑戰。通過本綜述,我們旨在提供關于XRL當前狀態的全面視角,并概述未來的研究方向,以推進可解釋且值得信賴的DRL模型的發展。
隨著人工智能(AI)的出現,基于個人經驗和判斷進行行動和思考的自主概念為未來的自主決策鋪平了道路。這種未來可以解決相互依存的多計算系統這一復雜領域的問題,而這些系統面臨的主要挑戰是,它們之間的相互作用會產生不可預測且往往不穩定的結果。為相互依存計算系統設想和設計人工智能驅動的自主性至關重要,它涵蓋了從物聯網(IoT)到網絡安全等各種用例。這可以通過克隆人類決策過程來實現,克隆過程要求人類在決定如何行動之前,先感知未知的隨機環境,執行行動,最后評估感知到的反饋。每個人都會根據自己的行為特征和推理,主觀地評估反饋是否令人滿意。上述步驟的重復迭代構成了人類的學習過程。因此,其核心思想是將人類的認知注入到相互依存的計算系統中,使其轉變為人工智能決策體,模仿人類的理性行為屬性,自主優化其主觀標準。
無人駕駛飛行器(UAV)或多接入邊緣計算服務器(MEC)等相互依賴的計算系統的快速發展帶來了海量數據和嚴格的服務質量(QoS)要求。當這些系統以自主方式行動時,它們會表現出競爭行為,因為每個系統都想自私地優化自己的主觀標準。這就引入了非合作環境中交互決策的概念,即每個系統的反饋都取決于其他系統可能相互沖突的行動。因此,本文利用博弈論來有效捕捉非合作環境中相互依賴的計算系統之間的戰略互動,并證明存在解決方案,即穩定的均衡點。均衡點被認為是穩定的解決方案,因為每個系統都沒有單方面改變自身行動的戰略動機。為了以分布式方式確定這些均衡點,我們采用了強化學習(RL)技術,該技術可使相互依存的自主計算系統在隨機環境中利用自身行動和經驗的反饋,通過試錯進行智能學習。此外,傳統的強化學習方法還加入了獎勵重塑技術,通過契約理論考慮自主互聯計算系統之間類似勞動經濟學的安排,并通過貝葉斯信念模型考慮它們的行為特征。同時利用博弈論和強化學習與獎勵重塑技術,是向自感知人工智能(SAAI)邁出的一步。本文證明,它極有可能成為構建基于人工智能的自主決策相互依賴計算系統的主要組成部分,并能有效地應用于各種應用領域。
圖 1.1: 總體決策框架
本文首先分析了所使用的數學工具的理論基礎。此外,除了傳統的單智能體環境,還引入了多個非集中式低復雜度框架,根據人工智能原理將相互依存的多智能體計算系統轉化為自主決策者。在多智能體應用環境中,提出了以第 1.1 節所述 IDU 約束為特征的非合作博弈,并應對了由此帶來的挑戰。具體來說,博弈論與強化學習的融合帶來了新穎的低復雜度分布式學習框架。此外,通過注入人類認知屬性,傳統的 RL 框架得到了豐富,從而使決策過程更加有效。證明了納什均衡點的存在,并表明基于人工智能的自主相互依存計算系統能夠接近這些均衡點,而無需集中式閉合解決方案。通過建模和仿真,在各種實際應用案例中對所提出的框架進行了評估。本論文的主要貢獻如下。
1.引入了新穎的低復雜度分布式決策框架,將傳統的資源有限、相互依賴的計算系統轉變為自主、智能的計算系統。我們研究了兩種情況: (a) 完整信息情景,即計算系統可以交換所有必要信息,并以分布式方式收斂到均衡點;以及 (b) 不完整信息情景,即利用強化學習讓智能相互依賴計算系統以自主方式接近均衡點。對這兩種情況下的運行性能進行了實證評估。
2.在處理非合作博弈的應用領域,通過證明博弈是潛在的或子/超模的方式,用數學方法證明納什均衡點的存在。如果環境是完全可觀察的,則采用傳統的閉式求解方法,如最佳響應動力學,反之,則采用各種強化學習算法,從經驗上接近納什均衡點。
3.通過利用契約理論和貝葉斯信念,將人類認知和行為特征分別納入決策框架。此外,當在信息不對稱的環境中運用契約理論時,提供了優化問題的閉式激勵解的完整證明,這反過來又從一個非凸問題正式轉化為一個凸問題。通過適當地將這些人類意識屬性納入獎勵重塑的強化學習框架,計算系統可以自主優化其主觀目標并做出有效決策。這是向增強型自我意識人工智能邁出的一步。
4.除了多智能體設置,還將強化學習應用于單智能體問題,例如離線深度強化學習,表明基于 RL 的決策智能體比許多替代策略(例如基于機器學習(ML)的方法)能帶來更好的結果。
5.通過在廣泛的應用領域進行大規模模擬,對所提出的決策方法進行了實證評估,突出了這些方法的主要操作特點。此外,還引用了與其他方法的詳細比較評估,強調了所引入框架的優越性。
圖 3.7:移動邊緣計算中的人工智能無人機數據卸載框架
多智能體強化學習(RL)研究的是環境中存在多個智能體并共同決定環境轉變的情況下的順序決策問題。智能體之間的關系可以是合作、競爭或混合的,這取決于各智能體的獎勵如何協調。與單智能體 RL 相比,多智能體 RL 具有獨特而復雜的結構,尚未得到充分認識。本論文的總體目標是加強對各種環境下多智能體 RL 結構的理解,并建立利用和/或尊重該結構的可靠而高效的算法。
首先,我們發現 RL 中的許多數據驅動算法,如梯度時差學習算法和行動者批判算法,本質上都是通過跟蹤決策變量之外的人工輔助變量并以不同的速率更新它們來解決雙層優化問題。我們提出了一種特殊梯度甲骨文下的雙時間尺度隨機梯度下降方法,將這些算法及其分析抽象到一個統一的框架中。我們根據 RL 問題中常見的目標函數的幾個結構特性,描述了雙時間尺度梯度算法的收斂速率。這個框架以單智能體 RL 問題為目標,為設計和研究數據驅動的多智能體 RL 算法奠定了數學基礎。
其次,我們考慮的是完全合作環境下的多智能體 RL,在這種環境下,一個連接的、分散的智能體網絡會合作解決多個 RL 任務。我們的第一個問題表述是,每個任務部署一個智能體,并考慮學習一個能使所有任務的平均累積收益最大化的單一策略。我們描述了多任務 RL 與單任務 RL 在結構上的主要區別,這使得多任務 RL 從根本上成為一個更具挑戰性的問題。然后,我們擴展了我們的表述,考慮在每個任務的回報率受到約束的情況下最大化平均回報率,這形成了一個更靈活的框架,對于現實生活中的多任務 RL 應用建模可能更實用。我們提出并研究了分散(受限)策略梯度算法,用于優化這兩種表述中的目標,并通過富有啟發性的數值模擬驗證了我們的分析。
上一章研究了合作智能體,現在我們將重點轉移到智能體相互競爭的情況。我們研究的是雙人零和馬爾可夫博弈,它是競爭性多智能體 RL 的一個特例,被自然地表述為一個非凸非凹 minimax 優化程序,并考慮用簡單的梯度下降上升(GDA)算法來解決它。底層目標函數的非凸/非凹性給 GDA 算法的分析帶來了巨大挑戰。我們通過熵正則化為馬爾可夫博弈引入了強結構。我們將 GDA 應用于正則化目標,并提出了調整正則化權重的方案,以使 GDA 算法高效收斂到全局納什均衡。
到目前為止,我們討論的作品都是從優化的角度來處理 RL 的。在最后一章,我們將應用 RL 來解決優化問題。具體來說,我們針對通過 ADMM 解決的交流最優功率流 (ACOPF) 問題,開發了一種基于多智能體 RL 的懲罰參數選擇方法,目標是最大限度地減少迭代次數,直至收斂。與最先進的手工設計參數選擇方案相比,我們的方法大大加快了 ADMM 的收斂速度,并表現出卓越的普適性。
各章安排如下。在第 2 章中,討論了雙時間尺度隨機優化框架,該框架模擬了基于樣本的單智能體 RL 算法。第 3 章,研究多任務多智能體 RL 問題。第 4 章介紹了一種基于正則化的雙人零和馬爾可夫博弈 GDA 方法。第 5 章應用 RL 改進電力系統優化問題的解決方案。最后,在第 6 章中對未來可能開展的工作進行了總結和評論。由于這些工作都是數學性質的,在正文中介紹了問題的表述、算法、假設和主要理論結果,并將分析工作推遲到 A-C 章的附錄中進行。
多智能體強化學習(MARL)是一個種類繁多、高度活躍的研究領域。隨著深度學習在 2015年引入多智能體強化學習,該領域的研究活動出現了爆炸式增長,現在所有主要的人工智能和機器學習會議都會例行討論開發新的多智能體強化學習算法或以某種方式應用多智能體強化學習的論文。此后發表的調查論文數量不斷增加,也證明了這一急劇增長,我們在附錄 A 中列出了其中的許多論文。
隨著這一增長,該領域顯然需要一本教科書來對 MARL 進行原則性介紹。本書部分基于 "多智能體學習:基礎與最新趨勢 "教程,并在很大程度上沿用了該教程的結構: Stefano V. Albrecht 和 Peter Stone 在澳大利亞墨爾本舉行的 2017 年國際人工智能聯合會議上所做的題為 "多智能體學習:基礎與最新趨勢 "的教程。編寫本書的目的是對MARL中的模型、求解概念、算法思想和技術挑戰進行基本介紹,并描述MARL中融合深度學習技術以產生強大新算法的現代方法。從本質上講,我們認為本書所涉及的材料應該為每一位 MARL 研究人員所了解。此外,本書還旨在為研究人員和從業人員在使用 MARL 算法時提供實用指導。為此,本書附帶了用 Python 編程語言編寫的代碼庫,其中包含本書討論的幾種 MARL 算法的實現。代碼庫的主要目的是提供自成一體、易于閱讀的算法代碼,以幫助讀者理解。
本書假定讀者具有本科水平的基礎數學背景,包括統計學、概率論、線性代數和微積分。要理解和使用代碼庫,需要熟悉基本的編程概念。一般來說,我們建議按照給定的順序閱讀本書的各個章節。對于不熟悉強化學習和深度學習的讀者,我們分別在第2章、第7章和第8章提供了基礎知識。已經熟悉強化學習和深度學習的讀者,如果想快速掌握基于深度學習的最新 MARL 算法,可以先閱讀第 3 章,然后跳到第 9 章及以后的章節。為了幫助講師采用本書,我們制作了講義幻燈片(可從本書網站獲取),講義幻燈片可根據課程需要進行修改。
MARL 已成為一個龐大的研究領域,本書并未涵蓋 MARL 的所有方面。例如,關于在 MARL 中使用通信的研究成果越來越多,但本書并未涉及。這包括的問題有:當通信渠道嘈雜、不可靠時,智能體如何學會穩健地進行通信;以及智能體如何利用 MARL 學習特定任務的專用通信協議或語言。雖然本書的重點不是 MARL 中的通信,但本書介紹的模型具有足夠的通用性,也可以表示智能體可以觀察到但不影響環境狀態的通信行為。此外,還有關于使用進化方法進行多智能體學習的研究,即智能體種群中的突變和交叉,本書不涉及這方面的內容。最后,近年來,MARL 領域的研究活動急劇增加,試圖寫一本書來跟上新算法的步伐是徒勞的。我們將重點放在 MARL 的基本概念和思想上,并參考調查論文(包括附錄 A 中列出的論文),以獲得更完整的算法發展列表。
強化學習(RL)的成功,如《星際爭霸》和《DOTA 2》等視頻游戲達到了高于人類的性能水平,這就提出了關于該技術在軍事建設性模擬中的未來作用的問題。本研究的目的是使用卷積神經網絡(CNN)來開發人工智能(AI)Agent,能夠在具有多個單位和地形類型的簡單場景中學習最佳行為。這篇論文試圖納入一個可用于軍事建設性模擬領域的多Agent訓練方案。八個不同的場景,都有不同的復雜程度,被用來訓練能夠表現出多種類型戰斗行為的Agent。總的來說,結果表明,人工智能Agent可以學習在每個場景中實現最佳或接近最佳性能所需的強大戰術行為。研究結果還表明,對多Agent訓練有了更好的理解。最終,CNN與RL技術的結合被證明是一種高效可行的方法,可以在軍事建設性模擬中訓練智能Agent,其應用有可能在執行實戰演習和任務時節省人力資源。建議未來的工作應研究如何最好地將類似的深度RL方法納入現有的軍事記錄構建性模擬項目中。
正確預測對手在戰爭中的戰略或戰術行為的愿望與人類進行這些戰爭的能力一樣古老[1]。在中國古代,像魏黑和圍棋這樣的游戲最初被用作加強軍事和政治領導人的戰略思維能力的方法。后來,羅馬人利用沙盤在戰役或戰斗前討論自己和敵人的可能行動。然而,直到19世紀初,普魯士人用他們的兵棋推演(Kriegsspiel)才開始利用具有嚴格規則的游戲來預測軍事交戰的可能結果。雖然這些兵棋推演在接下來的幾十年里在世界各地的許多武裝部隊中越來越受歡迎,但進行必要計算的能力有限,總是限制了這些基于棋盤的兵棋推演所能達到的復雜程度。此外,棋盤游戲的物理限制限制了設計者簡化行為和游戲元素,而不是努力追求真實。然而,計算能力的提高和用戶友好的圖形界面使設計者在20世紀末能夠以更高的復雜性來模擬兵棋推演的規則和游戲中的組件數量。此外,計算機的使用允許實施基于計算機的對手,在基于硬編碼規則的人工智能軟件的基礎上成功地與人類玩家進行比賽。
今天,基于計算機的兵棋推演,也被稱為建設性模擬[2],已經成為整個國防部(DOD)的一個有用工具。它們使軍事領導人能夠進一步學習和發展他們在那些通常被認為成本太高或太危險而無法定期演練的領域的行動程序。領導人有能力在實際執行前針對多種紅色力量設計使用他們的部隊,使他們有機會在不承擔任何額外風險的情況下驗證他們的機動方案。在戰略層面上,大型單位的工作人員經常使用建設性的模擬作為訓練方法[3],領導人可以在模擬環境中進行投入,但他們不參與確定場景的結果[2]。
在基于計算機的兵棋推演中用來表現對抗行為的方法,需要由場景設計者通過腳本直接編碼,或者使用真人玩家進行所有紅軍的決策。這兩種方法都能提供足夠的分辨率來表現對抗性行為,但每種方法都有其缺點[4]。對于低級別的場景來說,直接對特定行為進行編碼可能是可行的,但隨著場景的擴大,單位的數量和可能的行動對于腳本的控制來說變得太有挑戰性,往往會導致不現實的行為[4]。對于大型場景,使用人類玩家作為紅色力量可能會提供更真實的結果,但額外的人力資源會造成后勤方面的壓力,而且整體的生產力也受限于單個玩家的知識和能力。
解決這個問題的一個可能的方法可能在于利用人工神經網絡。在計算機游戲領域,這種方法最近已被證明是相當成功的。例如,對于實時戰略游戲《星際爭霸II》,一個人工神經網絡被開發出來,打敗了99.8%經常參加在線比賽的玩家[5]。雖然在計算機游戲領域,人工神經網絡的利用最近取得了巨大的進展,但在軍事用途的兵棋推演領域,研究才剛剛開始。在最近的研究中,Boron[6]和Sun等人[7].已經表明,人工神經網絡適合解決簡單軍事兵棋推演場景中的挑戰。基于以前的工作,特別是Boron[6]的工作,本論文旨在提高所使用的軍事場景的復雜性。雖然Boron使用了簡單的多層感知器(MLP)神經網絡,但在處理己方和敵方單位的動態起始位置以及敵人的動態行為時,這種結構被證明是不合適的。此外,所使用的場景被限制在戰場上最多五個單位[6]。在本論文中,將建立一個支持卷積神經網絡(CNN)架構的訓練模擬,包括多個單位和地形類型以克服這些限制。此外,將在一個確定的場景中應用多智能體訓練,以測試這種方法是否可以成功地用于軍事建設性模擬領域。
一個綜合的人工智能系統應該不止能“感知”環境,還要能“推斷”關系及其不確定性。深度學習在各類感知的任務中表現很不錯,如圖像識別,語音識別。然而概率圖模型更適用于inference的工作。這篇survey提供了貝葉斯深度學習(Bayesian Deep Learning, BDL)的基本介紹以及其在推薦系統,話題模型,控制等領域的應用。
基于深度學習的人工智能模型往往精于 “感知” 的任務,然而光有感知是不夠的,“推理” 是更高階人工智能的重要組成部分。比方說醫生診斷,除了需要通過圖像和音頻等感知病人的癥狀,還應該能夠推斷癥狀與表征的關系,推斷各種病癥的概率,也就是說,需要有“thinking”的這種能力。具體而言就是識別條件依賴關系、因果推斷、邏輯推理、處理不確定性等。
概率圖模型(PGM)能夠很好處理概率性推理問題,然而PGM的弊端在于難以應付大規模高維數據,比如圖像,文本等。因此,這篇文章嘗試將二者結合,融合到DBL的框架之中。
比如說在電影推薦系統中,深度學習適于處理高維數據,比如影評(文本)或者海報(圖像);而概率圖模型適于對條件依賴關系建模,比如觀眾和電影之間的網絡關系。
從uncertainty的角度考慮,BDL適合于去處理這樣的復雜任務。復雜任務的參數不確定性一般有如下幾種:(1)神經網絡的參數不確定性;(2)與任務相關的參數不確定性;(3)perception部分和task-specific部分信息傳遞的不確定性。通過將未知參數用概率分布而不是點估計的方式表示,能夠很方便地將這三種uncertainty統一起來處理(這就是BDL框架想要做的事情)。
另外BDL還有 “隱式的”正則化作用,在數據缺少的時候能夠避免過擬合。通常BDL由兩部分組成:perception模塊和task-specific模塊。前者可以通過權值衰減或者dropout正則化(這些方法擁有貝葉斯解釋),后者由于可以加入先驗,在數據缺少時也能較好地進行建模。
當然,BDL在實際應用中也存在著挑戰,比如時間復雜性的問題,以及兩個模塊間信息傳遞的有效性。