隨著AI系統在人類事務中的作用日益增強,基于人類行為洞察構建系統的重要性愈發凸顯。特別是遵循人類合理性原則開發的模型,更可能產生產生可問責且可解釋的結果,從而更好地確保系統行為與利益相關者期望的一致性。本論文將呈現基于人類合理性原則的三個應用研究:
(i)合理表征:提出優先級調整后繼表征回復(PARSR)算法——一種融合優先級回放與后繼表征學習的單智能體強化學習算法。兩種機制的結合使算法更具生物學合理性,能夠模擬人類將先前任務知識遷移與泛化至新任務的能力。
(ii)合理推理:構建弱證據效應的實用解釋模型,揭示社會認知中當人類必須考量說服性目標時整合他人證據的反直覺現象。由此推導出遞歸貝葉斯模型,闡釋AI系統與人類利益相關者在存在既定利益時的雙向理解機制。
(iii)合理評估:提出多智能體系統合作行為的可量化普適測度,該測度具有反事實對比性、情境依賴性及環境參數可定制性特征。其核心價值在于區分集體福利的實現路徑——源自真實合作或個體自利行為(兩者可能導致相同結果)。
強化學習是人工智能領域的一個分支,研究智能體在特定系統中通過試錯學習采取行動的方法。其著名案例包括控制真實機器人或在多數人類熱門高難度游戲中實現超人類表現。為開展此類研究,學者通常使用標準化“環境”(如機器人仿真或電子游戲)評估學習方法性能。本文涵蓋以下內容:
PettingZoo:提供標準化API與多智能體強化學習參考環境集的庫,已獲廣泛應用;
SuperSuit:提供易用標準化預處理封裝器的庫,用于對接學習框架;
街機學習環境(Arcade Learning Environment)擴展:該流行工具被強化學習研究者用于Atari 2600游戲交互,本擴展支持多人游戲模式。
基于上述工具,本文還利用多智能體強化學習開發了一種自然科學研究新方法。“涌現行為”指智能體群體的協調行為(如人行道行人、鳥群編隊、交通車流或股市交易者),代表諸多科學領域中普遍未解的重要現象。本研究首次提出通過多智能體強化學習(MARL)系統搜索多智能體系統中所有可能良性(“成熟”)涌現行為的數學形式化框架,并構建基于深度強化學習的初級實現,可應用于任意環境。實驗表明,在12個多智能體系統中,該方法可發現超百種涌現行為,其中多數為環境設計者此前未知。此類方法有望解答各類開放科學問題,例如:“該系統可能存在哪些行為?”、“何種系統條件促成此類涌現行為?”或“如何調整系統以抑制特定涌現行為?”
在傳統由人類主導的決策領域,人工智能(AI)正逐步接管多項任務。對此,與AI系統交互的人類決策者可能難以對AI生成信息建立信任。當前決策被概念化為證據積累的建構過程,但此過程可能因交互設計差異呈現不同演化路徑。本研究旨在探究通過對AI建議進行中間判斷時信任的時間演化特征。在線實驗(N=192)發現信任隨時間呈現波動,且對AI建議的中間判斷具有信任強化效應。此外,研究發現參與者行為違背全概率定律,現有建模技術無法捕捉此類現象。因此,采用量子開放系統建模方法(將信任表示為單一概率分布的時間函數)相比傳統馬爾可夫方法,能更優地模擬對AI系統的信任演化。研究成果可優化AI系統行為,引導人類決策者趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。
美國政府內外研究表明,AI信任是復雜概念,但美國防部(DOD)仍將其視為人本AI設計的核心認知過程。AI技術持續發展,在指揮控制(C2)等復雜環境中擴展能力。除功能增強外,AI可主動改變決策空間并實施信息干預(Strich等,2021年)。預測顯示人類將日益依賴AI輸出進行決策(Fuchs等,2023年)。
理解AI技術如何影響人類決策具有必要性。軍事機構正經歷AI驅動的技術與組織變革(Wrzosek,2022年)。多起先進技術事故揭示了自動化系統的潛在危害:伊拉克愛國者導彈誤擊事件(Hawley & Mares,2012年)、文森斯號擊落客機事件(Bisantz等,2000年;Hestad,2001年;Marsh & Dibben,2003年)、美軍黑鷹直升機誤擊事件(Snook,2011年),以及近期阿富汗平民誤殺事件(Denning & Arquilla,2022年),均表明誤解自動化系統信息的災難性后果。這些悲劇的共同點在于自動化技術對人類決策的影響。更令人擔憂的是,人類決策正被機器決策周期主導而非系統輔助(Blair等,2021年)。因此,理解AI對人類決策的影響機制是改進人機交互研究的必經之路。
當前,決策過程普遍被概念化為證據積累的建構性過程。然而,該建構過程可能因交互設計的不同而呈現差異化的演化路徑。本研究通過分析對AI建議的中間判斷,探究信任隨時間演變的特征。在線實驗(N=192)發現:信任度隨時間呈波動狀態,且對AI建議進行判斷會觸發信任強化效應;參與者行為存在現行建模技術無法捕捉的全概率定律違背現象。盡管多種定量與定性方法已部分揭示AI信任及其與系統效能的關系,但結合信任時間演化特征的生成性理論可深化對此的全面理解。因此,采用開放系統建模方法(將信任表征為單一概率分布的時間函數),較傳統馬爾可夫方法與量子技術更能優化AI系統的信任建模。
馬爾可夫動態與量子動態的相互作用為決策動態建模(尤其是人機協同決策)提供了新視角。若人類決策確遵循量子開放系統路徑,開發更優的人機交互策略可能產生突破性成果(Snow等,2022年)。研究成果可優化AI系統行為,引導人類決策偏好趨向貝葉斯最優理性(在復雜任務環境的時效性決策中尤為重要)。盡管研究前景廣闊,仍需深入探索技術細節并驗證其普適性邊界。
開發人在回路人工智能(HITL-AI)系統仍面臨重大挑戰。如何將人類融入AI增強的態勢感知與決策(或反向整合),將呈現多樣化形態。研究表明人機共享決策將持續存在(Blaha,2018年;van den Bosch & Bronkhorst,2018年),核心問題在于決策權的讓渡邊界及組織多重理性的協調機制。量子開放系統理論在HITL-AI設計中的應用,亦為重新評估既有研究開啟新路徑。
AI系統開發與應用始終涉及人類決策流程。任何形式的AI采用都將保留人類決策元素,但研究者與實踐者需明確界定適宜委托機器智能的范疇(Floridi & Cowls,2019年)。需清醒認知:AI無法超越訓練數據提供新功能(Kauffman & Roli,2022年),亦無法預判反事實結果(Pearl & Mackenzie,2018年)。此類局限不應阻礙AI提升決策的實踐,但需將HITL-AI視為需聯合優化的復雜社會技術系統(如構建結構理性決策框架)。因此,人類在HITL-AI系統中的角色響應機制將呈現多元化演進。應對這些挑戰,需確保概念演進與技術進步同步,持續監控以保證決策的結構理性與多方利益攸關者的共贏。
利用僅能部分觀測系統的傳感器,對具有時空演化特征的大規模隨機現象進行建模與監測,是諸多應用領域的核心難題。尤其是在機器人協調與驅動的智能決策中,機器人需基于稀疏測量數據實時預測動態環境全態。本論文旨在推進這一挑戰性問題的研究。緊湊型系統與機器人技術算力的飛速發展,推動了分布式信息物理系統的實際應用爆發式增長。本研究將在理論與實驗層面呈現該領域的進展:首先闡述核觀測器(KO)方法,推導適用于時空演化系統泛化的演化高斯過程(E-GP)模型,論證該方法在非線性流體建模中的有效性,并揭示其與計算流體動力學(CFD)領域公認的Koopman算子理論及動態模態分解(DMD)間的深層理論關聯。進一步研究聚焦動態模型分解分析,以此確定傳感器最優布設位置,實現系統真實狀態的快速精準估計。隨后,論文將探討分布式信息物理系統的具體應用難題——局部環境信息條件下的多智能體協同田間除草。本章在適配E-GP模型的同時,解決動態信息受限環境中智能體任務分配的經典"探索-開發"權衡問題。前述章節構建的理論體系為終章奠定基礎,其中將分析與解決另一挑戰性應用:利用云臺變焦(PTZ)相機實施大規模環境視覺搜索。通過系統化方法整合時空建模與智能決策,本研究為部分可觀測環境下的自主系統優化提供理論支撐與實踐路徑。
本論文提出一種融合基于核的建模、系統理論與貝葉斯濾波的時空監測問題解決框架。監測問題定義如下:基于歷史數據學習獲得的時空現象近似預測模型,在傳感器數量與位置受限條件下,估計存在不確定性的當前潛在現象狀態。本文主張,針對時空現象的預測推理,采用卡爾曼濾波器式預測校正方法(結合最小化傳感器反饋),是應對現實世界不確定性與固有建模誤差的穩健路徑。就該具體問題而言,本研究證明時空函數演化可通過在混合權重上疊加線性動態系統層的平穩核進行建模。相較于現有研究,此方法無需設計復雜時空核,且可適配任意定義域上的正定核(含黎曼流形、字符串、圖結構與圖像等非歐幾里得域)[Jayasumana et al., 2015]。該范式首創研究者[Kingravi et al., 2015a]通過建立基于核模型可觀測性的基礎理論,推導出保障函數演化隱態可通過核模型特征空間內貝葉斯狀態估計器(卡爾曼濾波器)進行估計所需采樣點位數量下限的非保守邊界。作者對該方法的貢獻體現在三方面:其一,通過開發可泛化至相似時空系統(含流體流動等復雜非線性系統)的模型[Whitman and Chowdhary, 2017],為替代高成本數值模擬的高效機器學習模型奠定基礎(服務于設計與自主目的);其二,借助Koopman算子理論分析模型,證明該模型可生成Koopman模態、特征值與特征函數的關鍵理論成果[Whitman et al., 2021b, Jayaraman et al., 2019],由此開發出求解模型線性轉移算子不變子空間的穩健數值算法(克服了傳感器布設前期研究的核心局限)[Whitman et al., 2021b];其三,深入探究時空建模在多智能體動態環境任務執行的實際自主問題中的應用,展示本工作所述方法在不同場景中的適應性與性能提升潛力[McAllister et al., 2020b,Whitman et al., 2021a]。
除時空監測問題的研究外,本論文對自主系統決策領域做出貢獻——該領域與時空監測問題天然關聯,因所選行動不僅影響智能體收益積累,還決定獲取何種傳感器測量。諸多應用場景存在環境已知特征開發與未知特征探索間的權衡(經典"探索-開發"困境),而當測量數據極度稀疏且行動成本高昂時,問題復雜性加劇:自主系統必須基于有限測量推斷全局環境以實現成功。
本工作分析兩個具此特征的現實問題:
其一,工業化農業協同除草問題——面對田間雜草分布與動態生長不確定性,機器人須決策優先處理哪些作物行列;
其二,云臺變焦相機視覺搜索問題——在大規模城市環境中目標位置不確定條件下,機器人動態決策場景中需高倍率探查的特定區域。
這些應用級自主與控制研究與時空學習預測的理論工作形成互補。
??圖1.1??:對具有復雜不確定動態特性的系統進行建模、監測與控制,是控制學界亟待突破的開放性挑戰。左下象限描述具單尺度動態的線性時不變系統(傳統動態系統反饋控制理論足以應對);右下象限展示隨機單尺度系統(卡爾曼濾波器與高斯優化等方法已獲顯著成功,支撐登月至GPS導航等成就);左上象限表征多尺度動態系統(偏微分方程高效求解是研究熱點);而右上象限所示多尺度隨機信息物理系統(如分布式農業機器人系統、交通網絡、移動/固定傳感器氣象監測系統)的自主決策,仍需基礎理論突破與實踐算法創新。
帶時空約束的聯盟形成問題(CFSTP)旨在刻畫任務分配與聯盟形成的交叉場景。該模型中,數十個異構智能體部署于數公里區域執行數千項任務(每項任務具有截止時間與工作量)。為最大化任務完成量,智能體需通過組建、解散與重組聯盟實現協作。本論文首先深入分析前瞻性聯盟形成算法(CFLA)——當前最先進的CFSTP算法,揭示其核心局限,進而提出擴展版本CFLA2。研究表明CFLA2無法完全消除CFLA缺陷,因此開發新型算法"基于集群的任務調度"(CTS),首次實現即時性、高效性與收斂性保障的統一。實證驗證CTS相較CFLA與CFLA2的優越性,并提出簡化并行版本S-CTS。在RoboCup救援仿真生成的任務場景中,S-CTS性能媲美高性能二進制最大和(Binary Max-Sum)與分布式隨機算法(DSA),同時速度提升兩個數量級。隨后,提出CFSTP最小化數學規劃模型,將其簡化為動態分布式約束優化問題,并設計CTS分布式版本D-CTS。構建模擬消防員調度的測試框架,驗證D-CTS在大規模動態環境中的有效性。最后,針對"任務解決越快、效益越大"場景,提出"多智能體聯盟路由調度問題"(MARSC)——涵蓋CFSTP與帶時間窗團隊定向問題(TOPTW)的通用模型。建立二進制整數規劃模型,提出首創新型算法"任意時精準并行節點遍歷"(ANT),該算法同時適用于MARSC與CFSTP。此外定義近似變體ANT-ε。基于擴展版CTS與實時系統常用"最早截止期優先"技術,在本土化測試框架中驗證兩類算法性能。
章節概要
第二章 針對1.3節界定領域綜述多智能體聯盟形成任務分配研究,目標有二:詳述研究領域選擇依據;論證現有模型雖接近研究目標,但無法全面滿足,從而引出第六章MARSC提案。
第三章 奠定后續章節理論基礎:CFSTP的約束規劃模型、CFLA算法及原始混合整數規劃模型。
第四章 提出CFLA改進算法CFLA2;設計新型最優CFSTP算法CTS;定義并行變體S-CTS;基于RoboCup救援仿真對比評估CTS、Binary MaxSum與DSA算法性能。
第五章 構建CFSTP最小二進制整數規劃模型并簡化為DynDCOP形式;設計CTS分布式版本D-CTS;基于倫敦消防隊記錄的大規模真實場景測試框架進行實證評估。
第六章 構建適用于實時領域的通用模型MARSC(涵蓋CFSTP與TOPTW);設計首個任意時精準并行MARSC算法ANT及其近似變體ANT-ε。
結論 總結研究優勢與局限,提出未來研究方向清單。
本研究致力于提升人機協同導航能力,使機器人團隊與人類作為整體單元協同移動并完成任務。通常情況下,團隊協同導航受預定義標準操作程序(SOP)的強約束,該程序為成員行動路徑與任務執行提供高層級指導。本研究提出"受限集體運動(CCM)"概念,描述團隊成員如何在環境約束與應用約束平衡下,通過隊內與跨隊導航執行聯合任務。該研究推進機器人在城市搜救、火場人員搜索、軍事建筑物清剿等場景中與人類協同作業的能力。引入機器人可降低人員風險,同時提升團隊執行關鍵任務(如向受困者輸送救援裝備)的效能。現有研究多聚焦純模型驅動方法實現復雜協同導航,但需人工編碼規則,耗費大量領域知識且易導致非自然行為。
本論文創新性融合高層級模型驅動知識表征與低層級行為克隆技術,實現人機團隊協同導航的CCM。采用Unity游戲引擎開展仿真實驗驗證,結果表明:所設計方法可學習高層級行為要素(準確率達88%),并掌握低層級機器人控制行為(準確率達89%)。據現有文獻,此為首個將經典AI方法與前沿機器學習相結合的人機協同導航研究范式。該成果不僅提升協同導航效能,更為聯合制造、社會輔助機器人等協作型人機應用提供技術啟示。
多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下
提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。
表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。
在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。
由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。
在相互作用的個體或智能體之間出現協調行動是日常行為的一個共同特征。多智能體活動組織的關鍵在于智能體有效決定如何以及何時行動的能力,而強有力的決策往往是區分專家和非專家表現的關鍵。在本論文中,我們研究并模擬了人類和智能體在完成各種放牧任務時的行為協調和決策行為。放牧任務涉及兩組自主智能體的互動--需要一個或多個放牧智能體來控制一組異質目標智能體。這類活動在日常生活中無處不在,是日常多智能體行為的典型范例。我們首先提出了一套簡單的局部控制規則和目標選擇策略,使放牧智能體能夠收集和控制一群不合作、不鎖定的目標智能體。然后,我們研究了所提出的控制過程對牛群規模變化和牧民對目標施加的排斥力強度變化的穩健性。我們還通過 ROS 仿真和使用真實機器人進行的實驗證實了建議方法的有效性。然后,我們采用監督機器學習(SML)來預測人類牧民的目標選擇決策。研究結果表明,無論是在短(< 1 秒)還是長(> 10 秒)時間尺度上,都可以使用 SML 有效地預測人類行為者的決策行為,而且可以使用由此產生的模型賦予人工牧民 “類人”決策能力。最后,我們利用可解釋人工智能來了解人類牧民在做出目標選擇決策時所使用的狀態信息。研究結果揭示了專家牧民和新手牧民在決策時如何權衡狀態信息的差異,這是第一項強調可解釋人工智能技術在理解多智能體快節奏互動過程中人類決策標記行為的潛在效用的研究。
圖 3.6: ROS 模擬。頂部面板顯示了在 Gazebo 環境中模擬的目標智能體(綠線)和牧民(灰線)采用 (a) 靜態競技場分區、(b) 領導者-追隨者和 (c) 點對點牧民策略的軌跡。封閉區域 G 用紅圈表示。黑色方形標記表示牧民的初始位置和最終位置(實心色)。綠色圓圈標記表示目標智能體的初始和最終(純色)位置。下圖顯示,所有牧民都能按照(d)靜態競技場分區、(e)領導者-追隨者和(f)點對點牧民策略規定的角度邊界(紅線),在 500 秒內收集牧群。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
本論文研究決策的各個方面,重點是認知建模的概率工具。其中一種工具就是所謂的經典概率理論(CPT,或貝葉斯理論;Tenenbaum & Griffiths, 2001; Chater et al. 其廣泛的論點是,認知處理必須反映出對環境統計結構的某種最佳適應,因此,人類認知必須與貝葉斯理論的原則相一致(Oaksford & Chater, 2009)。在許多情況下,CPT 似乎確實能準確描述行為,尤其是決策制定(Siegel 等人,2018 年),而這正是本研究的重點。
CPT在決策文獻中的主導地位之所以受到挑戰,部分原因在于兩位最具影響力的心理學家:特維爾斯基和卡尼曼(前者是被引用次數最多的心理學家之一,后者獲得過諾貝爾經濟學獎)。Tversky 和 Kahneman 提供了幾個例子,在這些例子中,人類決策者不斷做出與 CPT 原則截然相反的判斷。舉例來說,他們要求參與者判斷假設的女性琳達更有可能是 "銀行出納員和女權主義者",還是 "銀行出納員"。由于琳達被描述為女權主義者,而完全不是銀行出納員,大多數參與者傾向于推斷概率(銀行出納員和女權主義者)>概率(銀行出納員)。這一結論被稱為連接謬誤(CF,Tversky & Kahneman,1983 年)。根據 CPT(在單一概率空間中),這是不可能的,這就好比問倫敦 12 月下雪和下雨的頻率與倫敦 12 月只下雪的頻率。顯然,我們不可能讓前一個(連帶)事件的發生天數多于后一個,這是不可能的。
現代決策理論的發展已經超越了將 CPT 作為決策正規化的主要方法。雖然 CF 與 CPT(基本)框架不兼容,但我們可以借鑒其他框架,如量子理論(QT),來考慮 CF 決策是否可以被視為合理。量子理論已被確立為決策制定的重要替代形式框架。在量子理論中,概率是以不同的方式計算的(使用不同的公理),因此,與 CPT 相比,對于哪些判斷是適當的,所產生的直覺可能會有很大不同。事實上,CPT 和 QT 之間有許多不同之處,這些不同之處為我們提供了一個細微的圖景,說明在什么情況下,CPT 或 QT 可能是更適合理解人類決策的框架。例如,在 CPT 中,事件肯定是真的或假的,但在 QT 中,有些事件可能既不是真的也不是假的。在 CPT 中,原則上一組問題都可以同時得到解決,因此我們可以討論任何問題結果組合的概率(這些聯合概率總是必須存在的)。在 QT 中,有些問題是不相容的,這意味著通常不可能同時解決這些問題。對于不相容的問題,一個問題的確定性會帶來另一個問題的不確定性。QT 中的概率推理強烈依賴于上下文和視角,而 CPT 則(自然地)不依賴于上下文和視角。
CPT 和 QT 都是允許我們理解事件概率的模型,盡管方式不同--CPT 和 QT 基于不同的公理,通常做出不同的預測。讓我們先來探討一下 CPT。假設你擲了一個六面骰子。如果你再擲一百次或一百萬次,每次擲出 4 的概率仍然是六分之一。擲出 4 然后擲出 6 的概率與擲出 6 然后擲出 4 的概率相同。這一點具有重要意義,因為在 CPT 中,我們對結果的任何疑問原則上都可以同時得到解決。例如,連續擲一百次 4 的概率是多少?事實上,我們可以討論任何問題結果組合的概率,以及這些概率是如何始終存在的。
現在讓我們來看看 QT。假設我們現在拿起了一組新的六面 "量子 "骰子(當然,請注意,這個例子是臆造出來的)。它們的量子特性是什么?它們的結果將不再能夠同時得到解決。我們將不得不使用不同的基本算術來計算結果組合的概率,骰子結果的分布將與 CPT 的預期結果形成鮮明對比。例如,這次當我們擲出 4 和 6 時,擲出 6 和 4 的概率是不同的。當我們開始將量子規則應用于行為場景時,這將產生非凡的影響。例如,讓我們問某人一組問題: "你喜歡你的工作嗎?"和 "你快樂嗎?" 根據你回答這些問題的順序,你很可能得到截然不同的回答。
本論文分為五個部分。本章是對當前工作的總體介紹。第 2 章至第 4 章介紹了測試 QT 在不同決策環境中的實用性的實驗研究。第 5 章是總結論,概述了本研究的理論成果和局限性。
Sigma認知架構是智能行為綜合計算模型的開始,旨在實現通用人工智能(AGI)的宏偉目標。然而,盡管它已經被證明能夠對廣泛的智能行為進行建模,但Sigma的現有實現卻受到了幾個重要的限制。最突出的是對連續變量的推理和學習支持不足。在這篇文章中,我們為這一局限性提出了解決方案,這些方案應共同提高Sigma的大統一水平;也就是說,它能夠跨越傳統的認知能力和對一般智能至關重要的非認知能力,彌合符號、概率和神經處理之間的差距。由此產生的設計變化匯聚成了一個能力更強的架構版本,稱為PySigma。我們通過深度生成模型,特別是變異自動編碼器,作為一個具體的例子,證明PySigma在神經概率處理方面的能力。