本研究致力于提升人機協同導航能力,使機器人團隊與人類作為整體單元協同移動并完成任務。通常情況下,團隊協同導航受預定義標準操作程序(SOP)的強約束,該程序為成員行動路徑與任務執行提供高層級指導。本研究提出"受限集體運動(CCM)"概念,描述團隊成員如何在環境約束與應用約束平衡下,通過隊內與跨隊導航執行聯合任務。該研究推進機器人在城市搜救、火場人員搜索、軍事建筑物清剿等場景中與人類協同作業的能力。引入機器人可降低人員風險,同時提升團隊執行關鍵任務(如向受困者輸送救援裝備)的效能。現有研究多聚焦純模型驅動方法實現復雜協同導航,但需人工編碼規則,耗費大量領域知識且易導致非自然行為。
本論文創新性融合高層級模型驅動知識表征與低層級行為克隆技術,實現人機團隊協同導航的CCM。采用Unity游戲引擎開展仿真實驗驗證,結果表明:所設計方法可學習高層級行為要素(準確率達88%),并掌握低層級機器人控制行為(準確率達89%)。據現有文獻,此為首個將經典AI方法與前沿機器學習相結合的人機協同導航研究范式。該成果不僅提升協同導航效能,更為聯合制造、社會輔助機器人等協作型人機應用提供技術啟示。
太空軍任務在于保障商業及軍事行動的外層空間自由通行。實現該目標需深化對太空環境的認知,并探索可資利用的潛在戰略優勢。高保真仿真系統為操作人員理解太空戰術提供工具支撐,同時為現役航天器技術需求決策提供依據。本研究通過軌道微分博弈與線性二次博弈仿真,深入解析單對單軌道沖突機理。研究成果不僅提出航天器高效計算策略以規避高性能追蹤衛星,更為未來彈性衛星的態勢感知能力需求確立基準準則。核心發現包括:規避方可在合理測量誤差范圍內,僅憑角度測量數據即可從有限路徑選項中判定追蹤者軌跡;當追蹤方遵循現實控制律時,垂直于"規避方-追蹤方"矢量的推力策略成為應對各類追蹤目標的最優規避方案。盡管研究聚焦于空間動力學領域的特定控制與估計系統,其方法論適用于模擬任意目標環境與控制律,故本質上涵蓋廣義追逃博弈理論框架,可廣泛應用于制導、導航與控制研究領域。
美太空軍條令[2]明確指出"太空通行權關乎美國繁榮與安全",該權益衍生全球定位服務、公共安全防護及國防保障等多元效益。美國國家太空情報中心(NASIC)發布的《太空競爭》報告[3]闡明,外國勢力通過采納天基技術體系正挑戰美國的太空技術主導權。面對全球沖突威脅,在軌對抗已成為太空資產的安全隱患。因此,深入認知軌道作戰形態將強化美國資產防護能力。軌道沖突仿真作為關鍵認知路徑,可將追逃博弈映射至太空場景:某衛星(追蹤方)試圖達成相對于第二衛星(規避方)的特定目標狀態。通過求解預設目標(如交會對接、攔截摧毀等)下的優化路徑,傳統方法假設雙方均知曉所有狀態(含目標狀態);但實戰中規避方往往無法確知追蹤方意圖。本研究通過微分博弈構建多路徑對應狀態估計模型,創立在追蹤目標不確定條件下航天器的最優規避方法。此類方法經分析驗證后可應用于真實航天器,切實提升在軌對抗防御能力。
本研究聚焦追逃博弈中的目標不確定性,相關結論將輔助特定太空任務規劃,并為系統級性能需求論證提供決策工具。通過應用本文技術路徑,既可制定現役航天器的在軌對抗策略,亦能在新型航天器研制中確立應對在軌威脅的能力需求。所提算法既可在地面任務規劃中實施,亦可集成至在軌自主任務規劃系統。因此,本研究核心目標是構建并驗證不確定環境下航天器規避策略生成算法。基于"規避方未知追蹤目標"的微分博弈框架,重點探究提升規避效能的估計與制導技術。關鍵研究問題包括:
本文包含四個主體章節:第二章闡述軌道動力學、隨機軌道微分博弈及估計技術理論基礎;第三章詳述方法論體系,提供可復用于特定軌道場景的算法群;第四章應用前述方法分析多場景測試數據,提出規避航天器能力需求建議及任務規劃通用策略;第五章總結研究成果并指明后續研究方向。本研究旨在為美國太空軍開發具備智能規避策略的彈性衛星系統提供核心技術支撐。
人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。
本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。
所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。
強化學習是人工智能領域的一個分支,研究智能體在特定系統中通過試錯學習采取行動的方法。其著名案例包括控制真實機器人或在多數人類熱門高難度游戲中實現超人類表現。為開展此類研究,學者通常使用標準化“環境”(如機器人仿真或電子游戲)評估學習方法性能。本文涵蓋以下內容:
PettingZoo:提供標準化API與多智能體強化學習參考環境集的庫,已獲廣泛應用;
SuperSuit:提供易用標準化預處理封裝器的庫,用于對接學習框架;
街機學習環境(Arcade Learning Environment)擴展:該流行工具被強化學習研究者用于Atari 2600游戲交互,本擴展支持多人游戲模式。
基于上述工具,本文還利用多智能體強化學習開發了一種自然科學研究新方法。“涌現行為”指智能體群體的協調行為(如人行道行人、鳥群編隊、交通車流或股市交易者),代表諸多科學領域中普遍未解的重要現象。本研究首次提出通過多智能體強化學習(MARL)系統搜索多智能體系統中所有可能良性(“成熟”)涌現行為的數學形式化框架,并構建基于深度強化學習的初級實現,可應用于任意環境。實驗表明,在12個多智能體系統中,該方法可發現超百種涌現行為,其中多數為環境設計者此前未知。此類方法有望解答各類開放科學問題,例如:“該系統可能存在哪些行為?”、“何種系統條件促成此類涌現行為?”或“如何調整系統以抑制特定涌現行為?”
人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。
本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下
提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。
表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。
在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。
由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。
偏遠軍事基地的安保是一項艱巨而又關鍵的任務。偏遠地區通常離敵方戰斗人員更近,離支援部隊更遠;負責保衛基地的人員裝備較少。這些地點通常還依賴空中補給任務來維持任務的準備狀態和有效性。本論文分析了小型自主無人機群如何協助防御行動。為此,創建了一個基于智能體的計算機仿真模型,該模型創建了一個戰術問題(敵人試圖攻擊或滲透一個假想基地),無人機群試圖抵御該問題。結果表明,如果每架無人機負責覆蓋的范圍不超過 0.18 平方英里,并且至少有 40% 的無人機配備武器,那么蜂群可以有效阻止 95% 的攻擊者。結論是,無人機是基地防御的絕佳補充,尤其有助于有機能力較弱(視野、防御資產等有限)的偏遠前哨。雖然這項研究專門針對反擊對中央基地的威脅,但蜂群動態算法可應用于未來的移動車隊或飛機防御問題,甚至和平時期的搜索和救援等應用。
異構多智能體系統為解決農業、軍事、裝配和倉庫自動化等不同領域的復雜問題提供了可能,否則單個智能體是無法解決這些問題的。要有效部署異構多機器人團隊,研究必須解決不同抽象程度的四個問題:任務規劃(是什么)、運動規劃(如何)、任務分配(誰)和調度(何時)。這些問題高度相互依存,先前的工作已經證明,利用這些問題的單個解決方案之間的協同作用的系統可以提高多機器人協調的效率和效益。
本文研究了在多智能體組隊應用中使用基于特質的模型來表示單個智能體,以及如何利用基于特質的建模來實現更穩健、更高效的多智能體聯盟組建解決方案。具體來說,我們研究了如何在聯盟組建算法中使用這些技術來回答任務分配、調度、運動規劃和任務規劃這四個問題。
我們的研究表明,利用基于機器人和任務特質建模的算法可以在異構多機器人團隊中實現高效的協調,并且在時間進度、分配質量和計算效率方面優于現有方法。本論文的貢獻如下:
創建一個建模框架,使現代任務分配算法能夠推理動態特征。通過使用基于轉換的建模框架,我們創建了對以往基于特質的建模技術的擴展,以更好地推理智能體的特質如何隨時間變化。
為異構多機器人系統開發基于時間擴展特質的任務分配和路徑規劃統一框架。我們引入了一種基于搜索的方法,用于基于特質的時間擴展任務分配和運動規劃,命名為增量任務分配圖搜索(ITAGS)。
整合任務規劃、任務分配、調度和運動規劃的新型多機器人協調問題的形式化和解決方案。我們形式化了一類新的多機器人協調問題,該問題融合了這些問題中的每一個,并提出了一種解決方案(圖形遞歸同步任務分配、規劃和調度(GRSTAPS))。
為 ITAGS 的動態變體創建框架,該變體能夠進行基于特征的任務分配修復: 我們對 ITAGS 進行了擴展,使用基于特質的動態時間擴展任務分配算法,如果智能體的特質或任務要求在執行過程中發生變化,該算法可以修復任務分配。
創建一個主動學習框架,用于學習多智能體任務分配問題的特質要求: 由于理解一個聯盟的特質與該聯盟在特定任務中的表現之間的關系可能具有挑戰性,因此我們提出了一種主動學習框架來學習任務與特質之間的關系。此外,我們還提供了一種新的時間擴展任務分配算法,該算法能夠優化學習到的質量模型。
圖 2.1: 顯示各種多機器人協調問題交叉點的維恩圖。
虛擬環境(VE)技術的最新進展,以及虛擬環境在治療和培訓個人方面的應用的增長,為在安全和豐富的環境中進行演練開辟了新的可能性。研究表明,虛擬環境可用于治療創傷后應激障礙(PTSD)患者,但很少有研究提出創建有效環境的良好指導原則。本研究旨在為系統設計提供參考,讓退伍軍人在實際進入該環境之前,在安全的環境中演練潛在的壓力體驗。我們調查了退伍軍人對虛擬環境特定設計組件的反應,以幫助開發對退伍軍人有效的系統。評估了對建議的六種刺激的反應,以及兩種類型的系統視角:第一視角和第三視角。采用的測量方法包括參與者的行為、主觀不適單元(SUD)以及包括心率、心率變異性和呼吸頻率在內的生理反應。對于患有創傷后應激障礙的退伍軍人來說,最有效的系統應該包括一套初始刺激,這些刺激可以進行配置,以便關注個人所經歷的特定創傷,或許還可以改變刺激強度。這些刺激應包括擁擠的房間和驚嚇噪音場景。第一人稱視角和頭戴式顯示器是首選的設計,除非是曾經有過暈動癥的人。這些人應該先在中性的第一人稱 VE 環境中接受網絡暈動癥測試,然后再在演練環境中接受測試。結果表明,創傷后應激障礙患者的心率反應與非創傷后應激障礙患者有明顯不同,創傷后應激障礙患者的 SUD 分數變化提供了有關個人對每種刺激的反應的有用信息。創傷后應激障礙患者在 VE 中也會表現出回避刺激等行為。本研究的結果表明,除虛擬戰斗區域外,其他虛擬環境也能引起創傷后應激障礙患者的行為、情緒和生理反應,因此應進一步研究這些類型的環境是否適用于創傷后應激障礙退伍軍人。
本文的主要重點是開發一種低成本、魯棒性和高效的合作定位解決方案,以幫助無人自主飛行器在全球定位系統缺失或性能下降的條件下進行導航。
首先,推導出固定翼無人機(UAV)和多旋翼無人機的完全可觀測性條件。創建了一個相對位置測量圖(RPMG),圖中的節點是車輛或已知特征(地標),它們之間的邊代表測量結果。利用圖論和線性代數概念,得出了可觀測矩陣最大秩的條件,并建立了可觀測矩陣秩與系統中可用測量值之間的關系。該分析條件的缺點之一是必須在所有時間時刻保持一個連通的 RPMG。因此,我們提出了一種離散時間可觀測性條件,即一個時間間隔內的 RPMG 的聯合必須是相連的。
接下來,將討論無人飛行器 (UV) 緊密協調和控制的一個基本問題。在各種應用中,飛行器的慣性位置并不重要。在這種情況下,車輛之間的相對姿態和方位對開發控制器非常有用。眾所周知,擴展卡爾曼濾波器(EKF)的性能非常出色,前提是它的初始化接近真實位置并能接收到測量結果。對于沒有任何全球定位系統(GPS)測量數據或網絡延遲嚴重(需要重新初始化濾波器)的長距離行駛車輛,已知先驗信息的假設是無效的。為了規避這些問題,我們開發了一種多假設卡爾曼濾波器(MHEKF),該濾波器在初始化過程中沒有先驗信息,這意味著相關的不確定性非常大。
最后,解決了地面車輛的分布式合作定位問題。集中式合作定位需要大量計算。我們開發了一種分布式合作定位算法,使組內的每輛車都能估計自己的慣性狀態。該算法是為自主地面車輛開發的,在仿真中僅使用測距數據。
圖 1.1:合作定位的相對位置測量圖,其中塔作為地標(已知興趣點),不同的 UV 相互合作。