利用僅能部分觀測系統的傳感器,對具有時空演化特征的大規模隨機現象進行建模與監測,是諸多應用領域的核心難題。尤其是在機器人協調與驅動的智能決策中,機器人需基于稀疏測量數據實時預測動態環境全態。本論文旨在推進這一挑戰性問題的研究。緊湊型系統與機器人技術算力的飛速發展,推動了分布式信息物理系統的實際應用爆發式增長。本研究將在理論與實驗層面呈現該領域的進展:首先闡述核觀測器(KO)方法,推導適用于時空演化系統泛化的演化高斯過程(E-GP)模型,論證該方法在非線性流體建模中的有效性,并揭示其與計算流體動力學(CFD)領域公認的Koopman算子理論及動態模態分解(DMD)間的深層理論關聯。進一步研究聚焦動態模型分解分析,以此確定傳感器最優布設位置,實現系統真實狀態的快速精準估計。隨后,論文將探討分布式信息物理系統的具體應用難題——局部環境信息條件下的多智能體協同田間除草。本章在適配E-GP模型的同時,解決動態信息受限環境中智能體任務分配的經典"探索-開發"權衡問題。前述章節構建的理論體系為終章奠定基礎,其中將分析與解決另一挑戰性應用:利用云臺變焦(PTZ)相機實施大規模環境視覺搜索。通過系統化方法整合時空建模與智能決策,本研究為部分可觀測環境下的自主系統優化提供理論支撐與實踐路徑。
本論文提出一種融合基于核的建模、系統理論與貝葉斯濾波的時空監測問題解決框架。監測問題定義如下:基于歷史數據學習獲得的時空現象近似預測模型,在傳感器數量與位置受限條件下,估計存在不確定性的當前潛在現象狀態。本文主張,針對時空現象的預測推理,采用卡爾曼濾波器式預測校正方法(結合最小化傳感器反饋),是應對現實世界不確定性與固有建模誤差的穩健路徑。就該具體問題而言,本研究證明時空函數演化可通過在混合權重上疊加線性動態系統層的平穩核進行建模。相較于現有研究,此方法無需設計復雜時空核,且可適配任意定義域上的正定核(含黎曼流形、字符串、圖結構與圖像等非歐幾里得域)[Jayasumana et al., 2015]。該范式首創研究者[Kingravi et al., 2015a]通過建立基于核模型可觀測性的基礎理論,推導出保障函數演化隱態可通過核模型特征空間內貝葉斯狀態估計器(卡爾曼濾波器)進行估計所需采樣點位數量下限的非保守邊界。作者對該方法的貢獻體現在三方面:其一,通過開發可泛化至相似時空系統(含流體流動等復雜非線性系統)的模型[Whitman and Chowdhary, 2017],為替代高成本數值模擬的高效機器學習模型奠定基礎(服務于設計與自主目的);其二,借助Koopman算子理論分析模型,證明該模型可生成Koopman模態、特征值與特征函數的關鍵理論成果[Whitman et al., 2021b, Jayaraman et al., 2019],由此開發出求解模型線性轉移算子不變子空間的穩健數值算法(克服了傳感器布設前期研究的核心局限)[Whitman et al., 2021b];其三,深入探究時空建模在多智能體動態環境任務執行的實際自主問題中的應用,展示本工作所述方法在不同場景中的適應性與性能提升潛力[McAllister et al., 2020b,Whitman et al., 2021a]。
除時空監測問題的研究外,本論文對自主系統決策領域做出貢獻——該領域與時空監測問題天然關聯,因所選行動不僅影響智能體收益積累,還決定獲取何種傳感器測量。諸多應用場景存在環境已知特征開發與未知特征探索間的權衡(經典"探索-開發"困境),而當測量數據極度稀疏且行動成本高昂時,問題復雜性加劇:自主系統必須基于有限測量推斷全局環境以實現成功。
本工作分析兩個具此特征的現實問題:
其一,工業化農業協同除草問題——面對田間雜草分布與動態生長不確定性,機器人須決策優先處理哪些作物行列;
其二,云臺變焦相機視覺搜索問題——在大規模城市環境中目標位置不確定條件下,機器人動態決策場景中需高倍率探查的特定區域。
這些應用級自主與控制研究與時空學習預測的理論工作形成互補。
??圖1.1??:對具有復雜不確定動態特性的系統進行建模、監測與控制,是控制學界亟待突破的開放性挑戰。左下象限描述具單尺度動態的線性時不變系統(傳統動態系統反饋控制理論足以應對);右下象限展示隨機單尺度系統(卡爾曼濾波器與高斯優化等方法已獲顯著成功,支撐登月至GPS導航等成就);左上象限表征多尺度動態系統(偏微分方程高效求解是研究熱點);而右上象限所示多尺度隨機信息物理系統(如分布式農業機器人系統、交通網絡、移動/固定傳感器氣象監測系統)的自主決策,仍需基礎理論突破與實踐算法創新。
人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。
本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。
所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。
強化學習是人工智能領域的一個分支,研究智能體在特定系統中通過試錯學習采取行動的方法。其著名案例包括控制真實機器人或在多數人類熱門高難度游戲中實現超人類表現。為開展此類研究,學者通常使用標準化“環境”(如機器人仿真或電子游戲)評估學習方法性能。本文涵蓋以下內容:
PettingZoo:提供標準化API與多智能體強化學習參考環境集的庫,已獲廣泛應用;
SuperSuit:提供易用標準化預處理封裝器的庫,用于對接學習框架;
街機學習環境(Arcade Learning Environment)擴展:該流行工具被強化學習研究者用于Atari 2600游戲交互,本擴展支持多人游戲模式。
基于上述工具,本文還利用多智能體強化學習開發了一種自然科學研究新方法。“涌現行為”指智能體群體的協調行為(如人行道行人、鳥群編隊、交通車流或股市交易者),代表諸多科學領域中普遍未解的重要現象。本研究首次提出通過多智能體強化學習(MARL)系統搜索多智能體系統中所有可能良性(“成熟”)涌現行為的數學形式化框架,并構建基于深度強化學習的初級實現,可應用于任意環境。實驗表明,在12個多智能體系統中,該方法可發現超百種涌現行為,其中多數為環境設計者此前未知。此類方法有望解答各類開放科學問題,例如:“該系統可能存在哪些行為?”、“何種系統條件促成此類涌現行為?”或“如何調整系統以抑制特定涌現行為?”
在傳統由人類主導的決策領域,人工智能(AI)正逐步接管多項任務。對此,與AI系統交互的人類決策者可能難以對AI生成信息建立信任。當前決策被概念化為證據積累的建構過程,但此過程可能因交互設計差異呈現不同演化路徑。本研究旨在探究通過對AI建議進行中間判斷時信任的時間演化特征。在線實驗(N=192)發現信任隨時間呈現波動,且對AI建議的中間判斷具有信任強化效應。此外,研究發現參與者行為違背全概率定律,現有建模技術無法捕捉此類現象。因此,采用量子開放系統建模方法(將信任表示為單一概率分布的時間函數)相比傳統馬爾可夫方法,能更優地模擬對AI系統的信任演化。研究成果可優化AI系統行為,引導人類決策者趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。
美國政府內外研究表明,AI信任是復雜概念,但美國防部(DOD)仍將其視為人本AI設計的核心認知過程。AI技術持續發展,在指揮控制(C2)等復雜環境中擴展能力。除功能增強外,AI可主動改變決策空間并實施信息干預(Strich等,2021年)。預測顯示人類將日益依賴AI輸出進行決策(Fuchs等,2023年)。
理解AI技術如何影響人類決策具有必要性。軍事機構正經歷AI驅動的技術與組織變革(Wrzosek,2022年)。多起先進技術事故揭示了自動化系統的潛在危害:伊拉克愛國者導彈誤擊事件(Hawley & Mares,2012年)、文森斯號擊落客機事件(Bisantz等,2000年;Hestad,2001年;Marsh & Dibben,2003年)、美軍黑鷹直升機誤擊事件(Snook,2011年),以及近期阿富汗平民誤殺事件(Denning & Arquilla,2022年),均表明誤解自動化系統信息的災難性后果。這些悲劇的共同點在于自動化技術對人類決策的影響。更令人擔憂的是,人類決策正被機器決策周期主導而非系統輔助(Blair等,2021年)。因此,理解AI對人類決策的影響機制是改進人機交互研究的必經之路。
當前,決策過程普遍被概念化為證據積累的建構性過程。然而,該建構過程可能因交互設計的不同而呈現差異化的演化路徑。本研究通過分析對AI建議的中間判斷,探究信任隨時間演變的特征。在線實驗(N=192)發現:信任度隨時間呈波動狀態,且對AI建議進行判斷會觸發信任強化效應;參與者行為存在現行建模技術無法捕捉的全概率定律違背現象。盡管多種定量與定性方法已部分揭示AI信任及其與系統效能的關系,但結合信任時間演化特征的生成性理論可深化對此的全面理解。因此,采用開放系統建模方法(將信任表征為單一概率分布的時間函數),較傳統馬爾可夫方法與量子技術更能優化AI系統的信任建模。
馬爾可夫動態與量子動態的相互作用為決策動態建模(尤其是人機協同決策)提供了新視角。若人類決策確遵循量子開放系統路徑,開發更優的人機交互策略可能產生突破性成果(Snow等,2022年)。研究成果可優化AI系統行為,引導人類決策偏好趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。盡管研究前景廣闊,仍需深入探索技術細節并驗證其普適性邊界。
開發人在回路人工智能(HITL-AI)系統仍面臨重大挑戰。如何將人類融入AI增強的態勢感知與決策(或反向整合),將呈現多樣化形態。研究表明人機共享決策將持續存在(Blaha,2018年;van den Bosch & Bronkhorst,2018年),核心問題在于決策權的讓渡邊界及組織多重理性的協調機制。量子開放系統理論在HITL-AI設計中的應用,亦為重新評估既有研究開啟新路徑。
AI系統開發與應用始終涉及人類決策流程。任何形式的AI采用都將保留人類決策元素,但研究者與實踐者需明確界定適宜委托機器智能的范疇(Floridi & Cowls,2019年)。需清醒認知:AI無法超越訓練數據提供新功能(Kauffman & Roli,2022年),亦無法預判反事實結果(Pearl & Mackenzie,2018年)。此類局限不應阻礙AI提升決策的實踐,但需將HITL-AI視為需聯合優化的復雜社會技術系統(如構建結構理性決策框架)。因此,人類在HITL-AI系統中的角色響應機制將呈現多元化演進。應對這些挑戰,需確保概念演進與技術進步同步,持續監控以保證決策的結構理性與多方利益攸關者的共贏。
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
本研究致力于提升人機協同導航能力,使機器人團隊與人類作為整體單元協同移動并完成任務。通常情況下,團隊協同導航受預定義標準操作程序(SOP)的強約束,該程序為成員行動路徑與任務執行提供高層級指導。本研究提出"受限集體運動(CCM)"概念,描述團隊成員如何在環境約束與應用約束平衡下,通過隊內與跨隊導航執行聯合任務。該研究推進機器人在城市搜救、火場人員搜索、軍事建筑物清剿等場景中與人類協同作業的能力。引入機器人可降低人員風險,同時提升團隊執行關鍵任務(如向受困者輸送救援裝備)的效能。現有研究多聚焦純模型驅動方法實現復雜協同導航,但需人工編碼規則,耗費大量領域知識且易導致非自然行為。
本論文創新性融合高層級模型驅動知識表征與低層級行為克隆技術,實現人機團隊協同導航的CCM。采用Unity游戲引擎開展仿真實驗驗證,結果表明:所設計方法可學習高層級行為要素(準確率達88%),并掌握低層級機器人控制行為(準確率達89%)。據現有文獻,此為首個將經典AI方法與前沿機器學習相結合的人機協同導航研究范式。該成果不僅提升協同導航效能,更為聯合制造、社會輔助機器人等協作型人機應用提供技術啟示。
多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下
提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。
表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。
在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。
由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。
隨著人工智能(AI)的出現,基于個人經驗和判斷進行行動和思考的自主概念為未來的自主決策鋪平了道路。這種未來可以解決相互依存的多計算系統這一復雜領域的問題,而這些系統面臨的主要挑戰是,它們之間的相互作用會產生不可預測且往往不穩定的結果。為相互依存計算系統設想和設計人工智能驅動的自主性至關重要,它涵蓋了從物聯網(IoT)到網絡安全等各種用例。這可以通過克隆人類決策過程來實現,克隆過程要求人類在決定如何行動之前,先感知未知的隨機環境,執行行動,最后評估感知到的反饋。每個人都會根據自己的行為特征和推理,主觀地評估反饋是否令人滿意。上述步驟的重復迭代構成了人類的學習過程。因此,其核心思想是將人類的認知注入到相互依存的計算系統中,使其轉變為人工智能決策體,模仿人類的理性行為屬性,自主優化其主觀標準。
無人駕駛飛行器(UAV)或多接入邊緣計算服務器(MEC)等相互依賴的計算系統的快速發展帶來了海量數據和嚴格的服務質量(QoS)要求。當這些系統以自主方式行動時,它們會表現出競爭行為,因為每個系統都想自私地優化自己的主觀標準。這就引入了非合作環境中交互決策的概念,即每個系統的反饋都取決于其他系統可能相互沖突的行動。因此,本文利用博弈論來有效捕捉非合作環境中相互依賴的計算系統之間的戰略互動,并證明存在解決方案,即穩定的均衡點。均衡點被認為是穩定的解決方案,因為每個系統都沒有單方面改變自身行動的戰略動機。為了以分布式方式確定這些均衡點,我們采用了強化學習(RL)技術,該技術可使相互依存的自主計算系統在隨機環境中利用自身行動和經驗的反饋,通過試錯進行智能學習。此外,傳統的強化學習方法還加入了獎勵重塑技術,通過契約理論考慮自主互聯計算系統之間類似勞動經濟學的安排,并通過貝葉斯信念模型考慮它們的行為特征。同時利用博弈論和強化學習與獎勵重塑技術,是向自感知人工智能(SAAI)邁出的一步。本文證明,它極有可能成為構建基于人工智能的自主決策相互依賴計算系統的主要組成部分,并能有效地應用于各種應用領域。
圖 1.1: 總體決策框架
本文首先分析了所使用的數學工具的理論基礎。此外,除了傳統的單智能體環境,還引入了多個非集中式低復雜度框架,根據人工智能原理將相互依存的多智能體計算系統轉化為自主決策者。在多智能體應用環境中,提出了以第 1.1 節所述 IDU 約束為特征的非合作博弈,并應對了由此帶來的挑戰。具體來說,博弈論與強化學習的融合帶來了新穎的低復雜度分布式學習框架。此外,通過注入人類認知屬性,傳統的 RL 框架得到了豐富,從而使決策過程更加有效。證明了納什均衡點的存在,并表明基于人工智能的自主相互依存計算系統能夠接近這些均衡點,而無需集中式閉合解決方案。通過建模和仿真,在各種實際應用案例中對所提出的框架進行了評估。本論文的主要貢獻如下。
1.引入了新穎的低復雜度分布式決策框架,將傳統的資源有限、相互依賴的計算系統轉變為自主、智能的計算系統。我們研究了兩種情況: (a) 完整信息情景,即計算系統可以交換所有必要信息,并以分布式方式收斂到均衡點;以及 (b) 不完整信息情景,即利用強化學習讓智能相互依賴計算系統以自主方式接近均衡點。對這兩種情況下的運行性能進行了實證評估。
2.在處理非合作博弈的應用領域,通過證明博弈是潛在的或子/超模的方式,用數學方法證明納什均衡點的存在。如果環境是完全可觀察的,則采用傳統的閉式求解方法,如最佳響應動力學,反之,則采用各種強化學習算法,從經驗上接近納什均衡點。
3.通過利用契約理論和貝葉斯信念,將人類認知和行為特征分別納入決策框架。此外,當在信息不對稱的環境中運用契約理論時,提供了優化問題的閉式激勵解的完整證明,這反過來又從一個非凸問題正式轉化為一個凸問題。通過適當地將這些人類意識屬性納入獎勵重塑的強化學習框架,計算系統可以自主優化其主觀目標并做出有效決策。這是向增強型自我意識人工智能邁出的一步。
4.除了多智能體設置,還將強化學習應用于單智能體問題,例如離線深度強化學習,表明基于 RL 的決策智能體比許多替代策略(例如基于機器學習(ML)的方法)能帶來更好的結果。
5.通過在廣泛的應用領域進行大規模模擬,對所提出的決策方法進行了實證評估,突出了這些方法的主要操作特點。此外,還引用了與其他方法的詳細比較評估,強調了所引入框架的優越性。
圖 3.7:移動邊緣計算中的人工智能無人機數據卸載框架
網絡化多智能體系統已成為許多工程系統不可或缺的一部分。多智能體系統中的協同決策面臨許多挑戰。本文將研究信息及其對智能體的可用性對多智能體系統中協同決策的影響。
本文考慮了使用兩個觀測器從觀測數據中檢測馬爾可夫模型和高斯模型的問題。考慮兩個馬爾可夫鏈和兩個觀察者。每個觀察者觀察真實未知馬爾可夫鏈狀態的不同函數。給定觀察結果后,目標是找出兩個馬爾可夫鏈中哪一個產生了觀察結果。本文為每個觀察者提出了塊二元假設檢驗問題,并證明每個觀察者的決策是局部似然比的函數。本文提出了一種共識方案,讓觀察者就其信念達成一致,并證明了共識決策對真實假設的漸近收斂性。使用兩個觀測者檢測高斯模型時,也考慮了類似的問題框架。為每個觀測者提出了序列假設檢驗問題,并使用局部似然比求解。考慮到觀察者隨機和不對稱的停止時間,提出了一種共識方案。本文引入了 “信息價值 ”的概念,以理解為達成共識而交換的信息的 “有用性”。
接下來,考慮有兩個觀察者的二元假設檢驗問題。自然界有兩種可能的狀態。有兩個觀察者,他們收集的觀察結果在統計學上與真實的自然狀態相關。假設這兩個觀察者是同步的。觀測者的目標是根據觀測結果,共同找出真實的自然狀態。考慮采用集中式和分散式方法來解決問題。每種方法都分為兩個階段:(1) 構建概率空間:已知真實假設,收集觀測數據以建立假設與觀測數據之間的經驗聯合分布;(2) 給定一組新的觀測數據,為觀測者制定假設檢驗問題,以找到他們各自對真實假設的信念。提出了讓觀察者就其對真實假設的信念達成一致的共識方案。比較了集中式方法中錯誤概率的衰減率和分散式方法中就錯誤信念達成一致的概率的衰減率。比較了集中式方法和分散式方法的數值結果。
多智能體系統中一個智能體的事件集中的所有命題可能無法同時驗證。研究了文獻中的事件狀態運行結構和不相容關系的概念,并將其作為研究事件集結構的工具。舉了一個多智能體假設檢驗的例子,在這個例子中,事件集并不構成布爾代數,而是構成了一個正晶格。還討論了 “非交換概率空間 ”的可能構造,其中包含不相容事件(無法同時驗證的事件)。作為這種概率空間中可能存在的決策問題,考慮了二元假設檢驗問題。提出了解決這一決策問題的兩種方法。在第一種方法中,將可用數據表示為來自通過投影估值度量(PVM)建模的測量結果,并檢索使用經典概率模型求解的底層檢測問題的結果。在第二種方法中,使用正算子估值方法(POVM)來表示測量結果。證明,第二種方法實現的最小錯誤概率與第一種方法相同。
最后,考慮了學習經驗分布的二元假設檢驗問題。在任一假設下,觀測值的真實分布都是未知的。經驗分布是從觀測數據中估計出來的。利用經驗分布序列解決一系列檢測問題。經驗分布下的信息狀態和最優檢測成本向真實分布下的信息狀態和最優檢測成本的收斂情況如圖所示。還給出了最佳檢測成本收斂的數值結果。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。