先進的任務規劃軟件包(如 AFSIM)使用傳統的人工智能方法,包括分配算法和腳本狀態機來控制軍用飛機、艦船和地面單位的模擬行為。我們開發了一種新穎的 AI 系統,該系統使用強化學習為軍事交戰生成更有效的高級策略。然而,它不是從頭開始學習具有初始隨機行為的策略,而是利用現有的傳統 AI 方法來自動化簡單的低級行為,簡化問題的協作多智能體方面,并利用可用的先驗知識引導學習以實現數量級更快的訓練。
圖 1 - 涉及空中、海上和地面單位的復雜 AFSIM 場景示例。分析師必須對所有這些平臺進行建模,并使用基于規則的系統指定它們的行為。
圖 2 - 我們最初探索的 AFSIM 場景的概念圖。許多紅色和藍色的戰斗機被放置在地圖上的隨機位置。基線腳本 AI 用于控制紅隊,我們的新混合 RL 智能體學習擊敗紅隊的策略。
圖 3 - 簡化的 MA2D 環境,完全用 Python 編寫。此示例包含兩個藍色戰斗機和兩個紅色戰斗機。深灰色區域代表每個單位的武器區域。目標是通過讓每個對手進入該區域來摧毀所有對手,同時避免類似地摧毀友軍飛機。這種簡化消除了對導彈飛行建模的需要。
圖 4 - 我們的混合架構概述,將高級強化學習器與低級腳本行為策略配對。強化學習代理選擇腳本行為,然后生成發送到環境的實際控制輸出。
自主系統的開發者需要通過測試來訓練和驗證他們的算法。最終用戶在決定如何有效利用系統時也可以使用這些數據。模擬是在真實環境中進行實驗的另一種選擇,它更安全,成本更低,并允許執行可重復和可控的實驗。傳統上,機器人專家使用的模擬器專注于與系統相關的細節,同時簡化了與環境、通信和資產間關系相關的方面。作為替代方案,CMRE提出了一個海事仿真框架(MSF),可與機器人中間件(即MOOS和ROS)互操作,采用了一種硬件和軟件循環仿真方法,允許模擬通常被簡化的重要外部因素。這些擴展元素包含內容可以發現自主系統的開發人員可能不知道的交互,從而提高開發中的系統的健壯性。這項工作的目的是建立一個可配置和可擴展的仿真框架,以訓練和測試海事系統的自主行為,以協助系統開發者和支持最終用戶的操作決策。
該框架由高級體系結構(HLA)中的專用模擬器、聯邦成員模擬環境、平臺動態、傳感仿真、通信和直觀的可視化組成。提出的框架提供了一種模擬情況,包括復雜的海上操作的挑戰,以水下領域為重點,提供了比傳統方法更全面和現實的能力。到目前為止,MSF已經被用于支持地雷對抗(MCM)和反潛戰(ASW)任務中自主系統算法的發展,具有單個或多個車輛配置。
現代戰爭的特點是復雜性越來越高,敵手聰明且技術優良。為了解決現代戰爭的一些復雜性,基于機器學習(ML)的技術最近為戰場上的自動化任務提供了合適的手段。然而,配備了ML技術的聰明敵人不僅在戰場上參與公平競爭,而且還利用欺騙和隱蔽攻擊等策略,制造惡意方法來破壞ML算法,獲得不公平的優勢。為了應對這些威脅,自動化戰場系統上使用的ML技術必須能夠強大地抵御敵方的攻擊。
我們在一種稱為“示范學習”(LfD)的強化學習算法的背景下,分析了競爭場景中的對抗學習問題。在LfD中,學習智能體觀察由專家完成的操作演示,以學習快速有效地執行任務。LfD已成功應用于軍事行動,如使用機器人團隊進行自主搜索和偵察,或自主抓取拆除簡易爆炸裝置。然而,惡意的敵人可以通過植入敵對的專家來利用LfD,這些專家要么給出不正確的演示,要么修改合法的演示,從而使學習智能體在任務中失敗。為了解決這個問題,我們首先分析了在LfD框架內對抗專家可以使用的不同的演示修改策略,根據對手的修改成本和修改學習代理對任務性能的影響。然后,我們提出了一個新的概念,利用對手和學習智能體之間的博弈,學習智能體可以使用LfD從潛在的對手專家演示中戰略性地學習,而不顯著降低其任務性能。在AI-Gym環境中,我們對提出的魯棒學習技術進行了評估,該技術通過對雅達利類游戲“LunarLander”中的專家演示進行對抗性修改。
圖1所示。(左)使用LfD學習自動駕駛設置時敵對軌跡對策略的影響。(右)在我們提出的方法中,干凈(綠色)和對抗(紅色)軌跡首先是等分的。然后,在使用選項(金虛線)接受或拒絕軌跡部分后,對每個分區學習策略,或對未分區的軌跡使用傳統的強化學習(藍虛線)。
我們考慮這樣一個場景,學習智能體必須通過從專家給出的任務演示(LfD)中進行強化學習來在環境中執行任務。一些專家可能是敵對的,并修改軌跡演示的意圖,使學習智能體不能正確執行任務,而遵循修改的演示。在本文的其余部分中,為了便于閱讀,我們將對抗性專家稱為專家。LfD框架采用馬爾可夫決策過程(MDP)[12]進行形式化。LfD算法的輸出是一個策略,該策略為執行任務提供狀態到動作映射。RL通過一個叫做訓練的過程學習策略,在這個過程中,它探索環境,觀察在探索過程中收到的狀態-行為-獎勵配對,最后選擇一系列導致更高期望獎勵的狀態-行為-獎勵配對作為它的策略。
專家們的演示以被稱為軌跡的狀態-行動-獎勵元組序列的形式給出。專家軌跡可能是良性的,也可能是敵對的。良性和敵對的專家軌跡分別展示了完成任務的正確和不正確的方式,并幫助或阻礙了學習智能體學習執行任務。專家演示被整合到智能體的學習中,使用名為DAGGER[1]的LfD算法執行任務。DAGGER使用來自專家演示軌跡的監督學習來學習策略,但添加了一個權重參數β,該參數表示學習主體在將軌跡納入其學習策略時的權重或信任度。
算法1。學習器用來接受或拒絕軌跡演示的算法。
算法2。由專家用來修改干凈軌跡的算法。
現代多域沖突日益復雜,使得對戰術和戰略的理解以及對適當行動方案的確定具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分,建模和仿真以比物理操作所能達到的更高速度和更低成本提供了新的洞察力。其中,通過計算機博弈進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,就預編程的條件計算機動作而言。如果博弈的一方可以用人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這便能夠使用數據農場方法創造并分析一個包含大量博弈的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了強大的能力。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。
在這項工作中,我們研究了人工智能系統,特別是基于神經網絡的蒙特卡羅樹搜索算法,以支持地面防空 (GBAD) 領域的規劃、培訓和決策。我們將人工智能應用于商業 (COTS) 兵棋推演“Command: Modern Operations(CMO)”,以探索復雜的決策空間,并生成新紅軍行動方案。這將挑戰藍軍作戰人員的預案,并促進新技術、戰術和概念的發展。
上述應用程序涉及兩個主要軟件組件。首先,需要有要模擬場景的規則和物理約束的模型(所謂的模擬器),其次,在模型所代表的沖突中控制一個或兩個參與者的 AI 算法。本節介紹了這兩個組件及其集成。在當前場景中,博弈的一方由 AI 智能體進行,而另一方則由游戲引擎本身通過預先編寫好的條件動作進行控制。具體來說,AI 控制攻擊的紅色戰斗機,而游戲引擎控制藍色防空炮組。
圖2-1: Command: Modern Operations兵棋推演平臺的用戶界面
圖2-2:Command: Modern Operations兵棋推演平臺回合制博弈模式
圖 4-1:經過訓練的紅色智能體在藍色防空系統范圍內的示例軌跡
提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源,從而提高用戶感知的整體態勢感知。用于優化應用程序的規則,描述其合適跨層策略(啟發式)的規范仍然是一項具有挑戰性的任務。
我們之前介紹了一種學習環境架構,旨在訓練分散的強化學習 (RL) 智能體,這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景,因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景,從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體,它在博弈環境中模擬軍事單位。
在本文中,我們展示了這個戰術模型,實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體,通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡,因此我們提出了基于近端策略優化 [2] 的智能體,以適應協作多智能體通信網絡問題。此外,該博弈的最終軌跡用于在 DIL 設置中訓練智能體。
圖4-1:戰術模型的高層架構
圖4-2:戰術環境的可視化
圖5-2:在PoIs和單個單位被打破之前積累單位
我們將歸納偏差引入到強化學習中,這種強化學習受到人類高級認知功能的啟發。這些架構約束使得規劃能夠動態地將注意力引導到想象的未來軌跡的每個步驟中有趣的狀態部分。
【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey
【作者團隊】Sven Gronauer, Klaus Diepold
【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf
【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。
強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。
本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
主題: Deep Reinforcement Learning with Applications in Transportation
簡介: 交通運輸,特別是移動乘車共享領域,存在許多傳統上具有挑戰性的動態決策問題,這些問題涉及研究文獻,而且很容易從人工智能(AI)中受益匪淺。一些核心示例包括在線乘車指令調度,該系統將可用的駕駛員與乘車共享平臺上的出行請求乘客實時匹配;路線規劃,用于規劃行程起點和終點之間的最佳路線;交通信號控制,可動態自適應地調整區域內的交通信號以實現低延遲。所有這些問題都有一個共同的特征,即在我們關注某個范圍內的一些累積目標時,要做出一系列決定。強化學習(RL)是一種機器學習范例,可訓練代理通過與之交互并獲取反饋信號來學習在環境中采取最佳行動(以所獲得的總累積獎勵衡量)。因此,它是用于解決順序決策問題的一類優化方法。得益于深度學習研究和計算能力的飛速發展,深度神經網絡和RL的集成為解決復雜的大規模學習問題在RL中產生了爆炸性的進展,近年來引起了巨大的興趣。深度學習和RL的結合甚至被認為是通往真正AI的道路。它具有巨大的潛力,以前所未有的方式解決運輸中的一些難題。
目錄簡介: