強化學習是人工智能領域的一個分支,研究智能體在特定系統中通過試錯學習采取行動的方法。其著名案例包括控制真實機器人或在多數人類熱門高難度游戲中實現超人類表現。為開展此類研究,學者通常使用標準化“環境”(如機器人仿真或電子游戲)評估學習方法性能。本文涵蓋以下內容:
PettingZoo:提供標準化API與多智能體強化學習參考環境集的庫,已獲廣泛應用;
SuperSuit:提供易用標準化預處理封裝器的庫,用于對接學習框架;
街機學習環境(Arcade Learning Environment)擴展:該流行工具被強化學習研究者用于Atari 2600游戲交互,本擴展支持多人游戲模式。
基于上述工具,本文還利用多智能體強化學習開發了一種自然科學研究新方法。“涌現行為”指智能體群體的協調行為(如人行道行人、鳥群編隊、交通車流或股市交易者),代表諸多科學領域中普遍未解的重要現象。本研究首次提出通過多智能體強化學習(MARL)系統搜索多智能體系統中所有可能良性(“成熟”)涌現行為的數學形式化框架,并構建基于深度強化學習的初級實現,可應用于任意環境。實驗表明,在12個多智能體系統中,該方法可發現超百種涌現行為,其中多數為環境設計者此前未知。此類方法有望解答各類開放科學問題,例如:“該系統可能存在哪些行為?”、“何種系統條件促成此類涌現行為?”或“如何調整系統以抑制特定涌現行為?”
人工智能分布式部署中智能體系統的廣泛應用,對高效選擇影響智能體學習行為的參數、在復雜環境中實施機制設計,以及整合多元智能體能力實現目標結果提出了新挑戰。算法機制設計作為計算機科學、數學和經濟學的交叉領域,致力于開發引導理性智能體達成預期行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣等場景。然而,傳統方法受限于計算約束與靜態假設,在充滿不確定性與動態變化的環境中效果不佳。
本論文通過融合強化學習(RL)與貝葉斯優化(BO),針對動態多智能體場景開發自適應機制以突破上述局限。我們提出多智能體強化學習(MARL)中機制設計的新框架,依托創新的BO方法高效探索潛力方案。MARL可捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈以學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(I)擴展后繼特征至納什均衡策略的遷移學習;(II)采用BO框架限定評估預算,使問題可解。
所提機制設計框架的有效性在出租車平臺司機服務費設定、共享自然資源開發管理(社會福利最大化)、探索任務機器人集群硬件采購決策優化,以及激勵機制與招募策略設計(委托方目標最優化)等實際應用的基準研究中得到驗證。該方法在現實問題上展現的優越性,凸顯了BO與MARL融合優化復雜多智能體系統的潛力,為機制設計領域的未來研究奠定了堅實基礎。
在傳統由人類主導的決策領域,人工智能(AI)正逐步接管多項任務。對此,與AI系統交互的人類決策者可能難以對AI生成信息建立信任。當前決策被概念化為證據積累的建構過程,但此過程可能因交互設計差異呈現不同演化路徑。本研究旨在探究通過對AI建議進行中間判斷時信任的時間演化特征。在線實驗(N=192)發現信任隨時間呈現波動,且對AI建議的中間判斷具有信任強化效應。此外,研究發現參與者行為違背全概率定律,現有建模技術無法捕捉此類現象。因此,采用量子開放系統建模方法(將信任表示為單一概率分布的時間函數)相比傳統馬爾可夫方法,能更優地模擬對AI系統的信任演化。研究成果可優化AI系統行為,引導人類決策者趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。
美國政府內外研究表明,AI信任是復雜概念,但美國防部(DOD)仍將其視為人本AI設計的核心認知過程。AI技術持續發展,在指揮控制(C2)等復雜環境中擴展能力。除功能增強外,AI可主動改變決策空間并實施信息干預(Strich等,2021年)。預測顯示人類將日益依賴AI輸出進行決策(Fuchs等,2023年)。
理解AI技術如何影響人類決策具有必要性。軍事機構正經歷AI驅動的技術與組織變革(Wrzosek,2022年)。多起先進技術事故揭示了自動化系統的潛在危害:伊拉克愛國者導彈誤擊事件(Hawley & Mares,2012年)、文森斯號擊落客機事件(Bisantz等,2000年;Hestad,2001年;Marsh & Dibben,2003年)、美軍黑鷹直升機誤擊事件(Snook,2011年),以及近期阿富汗平民誤殺事件(Denning & Arquilla,2022年),均表明誤解自動化系統信息的災難性后果。這些悲劇的共同點在于自動化技術對人類決策的影響。更令人擔憂的是,人類決策正被機器決策周期主導而非系統輔助(Blair等,2021年)。因此,理解AI對人類決策的影響機制是改進人機交互研究的必經之路。
當前,決策過程普遍被概念化為證據積累的建構性過程。然而,該建構過程可能因交互設計的不同而呈現差異化的演化路徑。本研究通過分析對AI建議的中間判斷,探究信任隨時間演變的特征。在線實驗(N=192)發現:信任度隨時間呈波動狀態,且對AI建議進行判斷會觸發信任強化效應;參與者行為存在現行建模技術無法捕捉的全概率定律違背現象。盡管多種定量與定性方法已部分揭示AI信任及其與系統效能的關系,但結合信任時間演化特征的生成性理論可深化對此的全面理解。因此,采用開放系統建模方法(將信任表征為單一概率分布的時間函數),較傳統馬爾可夫方法與量子技術更能優化AI系統的信任建模。
馬爾可夫動態與量子動態的相互作用為決策動態建模(尤其是人機協同決策)提供了新視角。若人類決策確遵循量子開放系統路徑,開發更優的人機交互策略可能產生突破性成果(Snow等,2022年)。研究成果可優化AI系統行為,引導人類決策偏好趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。盡管研究前景廣闊,仍需深入探索技術細節并驗證其普適性邊界。
開發人在回路人工智能(HITL-AI)系統仍面臨重大挑戰。如何將人類融入AI增強的態勢感知與決策(或反向整合),將呈現多樣化形態。研究表明人機共享決策將持續存在(Blaha,2018年;van den Bosch & Bronkhorst,2018年),核心問題在于決策權的讓渡邊界及組織多重理性的協調機制。量子開放系統理論在HITL-AI設計中的應用,亦為重新評估既有研究開啟新路徑。
AI系統開發與應用始終涉及人類決策流程。任何形式的AI采用都將保留人類決策元素,但研究者與實踐者需明確界定適宜委托機器智能的范疇(Floridi & Cowls,2019年)。需清醒認知:AI無法超越訓練數據提供新功能(Kauffman & Roli,2022年),亦無法預判反事實結果(Pearl & Mackenzie,2018年)。此類局限不應阻礙AI提升決策的實踐,但需將HITL-AI視為需聯合優化的復雜社會技術系統(如構建結構理性決策框架)。因此,人類在HITL-AI系統中的角色響應機制將呈現多元化演進。應對這些挑戰,需確保概念演進與技術進步同步,持續監控以保證決策的結構理性與多方利益攸關者的共贏。
人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。
本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。
強化學習(RL)是一種通過環境交互產生的獎勵或懲罰信號驅動智能體決策的框架。深度強化學習整合深度學習與強化學習,利用深度神經網絡處理高維復雜數據。依托該框架,機器學習研究界在長時序決策領域取得突破性進展,包括雅達利游戲超人類表現[Mnih et al., 2015]、圍棋人機大戰勝利[Silver et al., 2017]、以及魯棒推薦系統構建[GomezUribe and Hunt, 2015, Singh et al., 2021]。本研究聚焦深度強化學習環境中的核心挑戰,優化智能體策略以提升性能、樣本效率與泛化能力。
論文第一部分針對單智能體稀疏獎勵環境下的探索難題展開研究。當智能體僅在任務完成時獲得反饋,傳統方法常因探索不足而無法獲取關鍵獎勵,導致策略欠優。本文提出語義驅動探索新范式,顯著提升稀疏獎勵任務的樣本效率與策略性能。第二部分延伸至協作式多智能體強化學習(MARL)領域,探究多智能體協同完成共享任務時的學習困境。在需嚴格協調且協調失誤懲罰嚴苛的場景中,現有MARL方法常陷于次優均衡態;同時,智能體聯合動作空間的維度爆炸式增長加劇探索難度。為此,本文創新提出通用價值探索框架與可擴展角色學習機制,有效促進智能體協調效率,加速聯合動作空間探索,并賦予跨環境任務零樣本泛化能力。此外,針對協作MARL中獨立策略學習方法(各智能體視他者為環境要素)的研究表明,該方法在主流多智能體基準測試中性能優于現有聯合學習范式。
本研究通過系統性創新,顯著推進深度(多智能體)強化學習的前沿水平。所開發智能體具備高效環境探索能力,可攻克復雜多智能體協調任務,并在多任務場景展現卓越泛化性能。
多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下
提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。
表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。
在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。
由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。
強化學習(RL)是一種框架,在這種框架中,智能體通過與環境的交互,以行動獎勵或懲罰的形式獲得數據驅動的反饋,從而學會做出決策。深度 RL 將深度學習與 RL 相結合,利用深度神經網絡的強大功能來處理復雜的高維數據。利用深度 RL 框架,我們的機器學習研究界在使機器能夠在長時間范圍內做出連續決策方面取得了巨大進步。這些進步包括在雅達利(Atari)游戲中實現超人性能[Mnih 等人,2015],掌握圍棋游戲,擊敗人類世界冠軍[Silver 等人,2017],提供強大的推薦系統[GomezUribe 和 Hunt,2015, Singh 等人,2021]。本論文的重點是找出一些阻礙 RL 智能體在其特定環境中學習的關鍵挑戰,并改進方法,從而提高智能體的性能、改善樣本效率以及學習到的智能體策略的普適性。
在論文的第一部分,我們將重點放在單智能體 RL 設置中的探索上,在單智能體 RL 設置中,智能體必須與復雜的環境交互以追求目標。不探索環境的智能體不可能獲得高性能,因為它會錯過關鍵獎勵,因此無法學習到最佳行為。一個關鍵的挑戰來自于獎勵稀少的環境,在這種環境中,智能體只有在任務完成后才會收到反饋,這使得探索更具挑戰性。我們提出了一種能進行語義探索的新方法,從而提高了樣本效率和稀疏獎勵任務的性能。
在論文的第二部分,我們將重點放在合作式多智能體強化學習(MARL)上,這是對通常的 RL 設置的擴展,我們考慮多個智能體在同一環境中為共同的任務進行交互。在多智能體任務中,各智能體之間需要進行大量協調,并對協調失誤進行嚴格懲罰,而最先進的 MARL 方法往往無法學習到有用的行為,因為各智能體會陷入次優平衡狀態。另一個挑戰是在所有智能體的聯合行動空間中進行探索,而這一空間會隨著智能體數量的增加而呈指數級增長。為了應對這些挑戰,我們提出了通用價值探索和可擴展的基于角色的學習等創新方法。這些方法有助于改善智能體之間的協調,加快探索速度,并增強智能體適應新環境和新任務的能力,展示零鏡頭泛化能力,從而提高樣本效率。最后,我們研究了合作式 MARL 中基于獨立策略的方法,其中每個智能體都將其他智能體視為環境的一部分。我們表明,在一個流行的多智能體基準上,這種方法的表現優于最先進的聯合學習方法。
總之,本論文的貢獻大大提高了深度(多智能體)強化學習的最新水平。本論文中開發的智能體可以高效地探索其環境以提高采樣效率,學習需要大量多智能體協調的任務,并在各種任務中實現零點泛化。
在線持續學習(OCL)是機器學習中的一個關鍵領域,旨在使模型能夠在實時適應不斷變化的數據流的同時,解決諸如災難性遺忘和穩定性-可塑性權衡等挑戰。本研究對在線持續學習(OCL)進行了首次全面的系統性文獻綜述(SLR),分析了81種方法,提取了超過1000個特征(這些方法所解決的具體任務),并識別出了超過500個組件(方法中的子模型,包括算法和工具)。我們還回顧了83個數據集,涵蓋了圖像分類、目標檢測和多模態視覺-語言任務等應用領域。我們的研究結果突出了關鍵挑戰,包括減少計算開銷、開發領域無關的解決方案,以及在資源受限的環境中提高可擴展性。此外,我們還識別出一些有前景的未來研究方向,例如利用自監督學習處理多模態和序列數據,設計集成稀疏檢索和生成回放的自適應記憶機制,以及為處理噪聲或不斷變化的任務邊界的真實世界應用創建高效的框架。通過對當前在線持續學習(OCL)領域的嚴格而結構化的綜述,本研究為推動該領域的發展,解決其關鍵挑戰和機會提供了寶貴的資源。完整的系統性文獻綜述方法步驟和提取的數據可以通過以下鏈接公開訪問: //github.com/kiyan-rezaee/Systematic-Literature-Review-on-Online-Continual-Learning 關鍵詞:在線持續學習、災難性遺忘、增量學習、終身學習、穩定性-可塑性權衡
1 引言
人工智能(AI)在各行各業的日益融合凸顯了需要能夠適應動態和不斷發展的環境的模型。持續學習(CL)是機器學習的一個子領域,旨在使模型能夠從連續的數據流中逐步學習并更新其知識[2, 48–51]。持續學習模型的能力對于開發能夠適應和恢復的模型至關重要,這些模型能夠在不斷變化的環境中運行,同時避免喪失以前學到的知識,這一挑戰通常被稱為災難性遺忘[1, 47, 113]。 在線持續學習(OCL)在持續學習的基礎上,強調能夠從實時數據流中學習的能力[46, 62]。這種方法與人類認知過程相似,因為它是隨著時間的推移逐漸獲得并完善知識。OCL在解決動態和不可預測環境中的現實挑戰方面表現出色,例如自動駕駛、端到端語音處理和機器人技術[40, 41]。與持續學習類似,OCL模型的一個關鍵挑戰是解決災難性遺忘問題。為了解決這一問題,研究人員提出了各種方法。經驗回放方法[39]保存并回顧過去的數據,以強化先前學到的知識。知識蒸餾[68]也有助于通過將舊模型的知識傳遞給更新的模型,從而支持在早期任務中的性能保持。 近年來,OCL的研究興趣大幅增長,相關文獻數量不斷增加。然而,盡管如此,仍然缺乏一項全面的研究,提供對該領域所有提議方法的清晰和全面的概述。盡管已有一些關于OCL的綜述性研究,但它們的重點仍相對狹窄。Parisi等人[88]提供了OCL中基礎概念的全面概述,例如災難性遺忘和穩定性-可塑性權衡。他們還討論了受生物啟發的策略,這些策略汲取了大腦如何隨著時間的推移學習和適應的見解。為了解決由順序、非獨立同分布(non-i.i.d.)數據所帶來的挑戰,他們將現有方法分為三類:基于突觸的方法,專注于通過突觸正則化等技術保護重要參數;結構適應策略,涉及動態調整網絡架構,如添加或修剪神經元和連接;以及自組織神經網絡模型,這些模型受到生物網絡的啟發,專注于在響應新數據時組織和調整其結構。同樣,Hayes等人[89]研究了受限設備下的OCL,重點關注內存和計算限制,并評估了各種CNN架構中的樣本效率和推理方法。Mai等人[110]對OCL技術進行了實證分析,強調了在類和領域增量設置中的遺忘管理,并討論了準確性和知識轉移等關鍵指標。 雖然這些綜述研究提供了寶貴的見解,但它們的范圍有限,更多聚焦于特定方法或類別,而不是對OCL的全面概述。為了解決這一空白,我們進行了首次OCL的系統性文獻綜述(SLR),遵循Newman的指南[45],確保對當前領域狀態的嚴格和結構化綜合分析。我們的方法提供了對現有研究的全面且無偏的綜述,重點明確的納入標準、數據提取協議和質量評估[43, 44]。 在我們的研究中,我們分析了81種獨特的OCL方法,識別出了500多個組件,包括模塊化子模型、算法和工具,并提取了超過1,000個特征,這些特征涵蓋了任務設置和應對OCL特定挑戰的策略。此外,我們還編制了一份詳盡的83個數據集清單,突出顯示了OCL方法在多個領域中的廣泛應用。這份詳細的綜述為未來的研究奠定了堅實的基礎,并為推進OCL理解提供了寶貴的見解。 我們的貢獻總結如下: 1. 我們進行了首次OCL的系統性文獻綜述(SLR),嚴格遵循Newman的指南。我們的結構化SLR方法確保了無偏和全面的分析,使我們能夠識別未解決的挑戰,提出未來的研究方向,并突出該領域的進展機會。 1. 我們對81種OCL方法進行了深入分析,識別出了超過500個組件,并提取了超過1,000個特征,涵蓋了任務設置和應對OCL特定挑戰的策略。 1. 我們編制了一個詳盡的83個數據集清單,提供了一個寶貴的資源,供研究人員在多個領域的OCL應用中使用,從圖像分類到自動化系統和機器人等專門領域。
本文的其余部分組織如下:第2節概述了系統化的方法論,包括研究問題的制定、選擇標準和數據提取程序。第3節全面分析了OCL方法、數據集和評估指標,重點介紹了方法的策略分類以及關鍵組件和挑戰的識別。在第4節中,我們回答了研究問題,討論了未解決的挑戰,提出了未來的研究方向,并提供了推進OCL研究的寶貴資源。
多智能體強化學習(RL)研究的是環境中存在多個智能體并共同決定環境轉變的情況下的順序決策問題。智能體之間的關系可以是合作、競爭或混合的,這取決于各智能體的獎勵如何協調。與單智能體 RL 相比,多智能體 RL 具有獨特而復雜的結構,尚未得到充分認識。本論文的總體目標是加強對各種環境下多智能體 RL 結構的理解,并建立利用和/或尊重該結構的可靠而高效的算法。
首先,我們發現 RL 中的許多數據驅動算法,如梯度時差學習算法和行動者批判算法,本質上都是通過跟蹤決策變量之外的人工輔助變量并以不同的速率更新它們來解決雙層優化問題。我們提出了一種特殊梯度甲骨文下的雙時間尺度隨機梯度下降方法,將這些算法及其分析抽象到一個統一的框架中。我們根據 RL 問題中常見的目標函數的幾個結構特性,描述了雙時間尺度梯度算法的收斂速率。這個框架以單智能體 RL 問題為目標,為設計和研究數據驅動的多智能體 RL 算法奠定了數學基礎。
其次,我們考慮的是完全合作環境下的多智能體 RL,在這種環境下,一個連接的、分散的智能體網絡會合作解決多個 RL 任務。我們的第一個問題表述是,每個任務部署一個智能體,并考慮學習一個能使所有任務的平均累積收益最大化的單一策略。我們描述了多任務 RL 與單任務 RL 在結構上的主要區別,這使得多任務 RL 從根本上成為一個更具挑戰性的問題。然后,我們擴展了我們的表述,考慮在每個任務的回報率受到約束的情況下最大化平均回報率,這形成了一個更靈活的框架,對于現實生活中的多任務 RL 應用建模可能更實用。我們提出并研究了分散(受限)策略梯度算法,用于優化這兩種表述中的目標,并通過富有啟發性的數值模擬驗證了我們的分析。
上一章研究了合作智能體,現在我們將重點轉移到智能體相互競爭的情況。我們研究的是雙人零和馬爾可夫博弈,它是競爭性多智能體 RL 的一個特例,被自然地表述為一個非凸非凹 minimax 優化程序,并考慮用簡單的梯度下降上升(GDA)算法來解決它。底層目標函數的非凸/非凹性給 GDA 算法的分析帶來了巨大挑戰。我們通過熵正則化為馬爾可夫博弈引入了強結構。我們將 GDA 應用于正則化目標,并提出了調整正則化權重的方案,以使 GDA 算法高效收斂到全局納什均衡。
到目前為止,我們討論的作品都是從優化的角度來處理 RL 的。在最后一章,我們將應用 RL 來解決優化問題。具體來說,我們針對通過 ADMM 解決的交流最優功率流 (ACOPF) 問題,開發了一種基于多智能體 RL 的懲罰參數選擇方法,目標是最大限度地減少迭代次數,直至收斂。與最先進的手工設計參數選擇方案相比,我們的方法大大加快了 ADMM 的收斂速度,并表現出卓越的普適性。
各章安排如下。在第 2 章中,討論了雙時間尺度隨機優化框架,該框架模擬了基于樣本的單智能體 RL 算法。第 3 章,研究多任務多智能體 RL 問題。第 4 章介紹了一種基于正則化的雙人零和馬爾可夫博弈 GDA 方法。第 5 章應用 RL 改進電力系統優化問題的解決方案。最后,在第 6 章中對未來可能開展的工作進行了總結和評論。由于這些工作都是數學性質的,在正文中介紹了問題的表述、算法、假設和主要理論結果,并將分析工作推遲到 A-C 章的附錄中進行。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
傳統的建模、仿真和分析(MS&A)大多由工程模型支持,即基于牛頓物理學的封閉系統的確定性表征。這種方法并不適合表現人類行為的復雜性。這項研究倡導并試圖闡明一種更加以人為本的 MS&A 方法的概念,這種方法可以更好地代表決策和人類行為的其他認知方面,就像代表身體活動一樣。
首先將個人和群體視為復雜的適應系統,而這種系統最好使用基于智能體的建模來表示。通過智能體對人類行為的表征包含了決策模型、知識工程和知識表征,以及人與人之間及其與環境之間的心理和生理互動的全部內容。這種表征方式的典型例子是將態勢感知/態勢理解(SA/SU)作為核心要素加以考慮。
由此,開發了一個概念驗證模擬,模擬一個具體、易于理解和量化的人類行為實例:智能體在模擬世界中試圖導航時在空間上 "迷失 "了方向。這個模型被命名為 "智能迷失模型"(MOBIL),因為這兩種狀態的能力是模擬的核心。MOBIL 采用面向對象的軟件原理與基于智能體的建模相結合的方式,建立了應用以人為本的分析方法的實用性。
在一些虛擬實驗中應用該模擬,說明了它如何支持對個人的 SA/SU 和相關決策過程進行調查。