本論文研究決策的各個方面,重點是認知建模的概率工具。其中一種工具就是所謂的經典概率理論(CPT,或貝葉斯理論;Tenenbaum & Griffiths, 2001; Chater et al. 其廣泛的論點是,認知處理必須反映出對環境統計結構的某種最佳適應,因此,人類認知必須與貝葉斯理論的原則相一致(Oaksford & Chater, 2009)。在許多情況下,CPT 似乎確實能準確描述行為,尤其是決策制定(Siegel 等人,2018 年),而這正是本研究的重點。
CPT在決策文獻中的主導地位之所以受到挑戰,部分原因在于兩位最具影響力的心理學家:特維爾斯基和卡尼曼(前者是被引用次數最多的心理學家之一,后者獲得過諾貝爾經濟學獎)。Tversky 和 Kahneman 提供了幾個例子,在這些例子中,人類決策者不斷做出與 CPT 原則截然相反的判斷。舉例來說,他們要求參與者判斷假設的女性琳達更有可能是 "銀行出納員和女權主義者",還是 "銀行出納員"。由于琳達被描述為女權主義者,而完全不是銀行出納員,大多數參與者傾向于推斷概率(銀行出納員和女權主義者)>概率(銀行出納員)。這一結論被稱為連接謬誤(CF,Tversky & Kahneman,1983 年)。根據 CPT(在單一概率空間中),這是不可能的,這就好比問倫敦 12 月下雪和下雨的頻率與倫敦 12 月只下雪的頻率。顯然,我們不可能讓前一個(連帶)事件的發生天數多于后一個,這是不可能的。
現代決策理論的發展已經超越了將 CPT 作為決策正規化的主要方法。雖然 CF 與 CPT(基本)框架不兼容,但我們可以借鑒其他框架,如量子理論(QT),來考慮 CF 決策是否可以被視為合理。量子理論已被確立為決策制定的重要替代形式框架。在量子理論中,概率是以不同的方式計算的(使用不同的公理),因此,與 CPT 相比,對于哪些判斷是適當的,所產生的直覺可能會有很大不同。事實上,CPT 和 QT 之間有許多不同之處,這些不同之處為我們提供了一個細微的圖景,說明在什么情況下,CPT 或 QT 可能是更適合理解人類決策的框架。例如,在 CPT 中,事件肯定是真的或假的,但在 QT 中,有些事件可能既不是真的也不是假的。在 CPT 中,原則上一組問題都可以同時得到解決,因此我們可以討論任何問題結果組合的概率(這些聯合概率總是必須存在的)。在 QT 中,有些問題是不相容的,這意味著通常不可能同時解決這些問題。對于不相容的問題,一個問題的確定性會帶來另一個問題的不確定性。QT 中的概率推理強烈依賴于上下文和視角,而 CPT 則(自然地)不依賴于上下文和視角。
CPT 和 QT 都是允許我們理解事件概率的模型,盡管方式不同--CPT 和 QT 基于不同的公理,通常做出不同的預測。讓我們先來探討一下 CPT。假設你擲了一個六面骰子。如果你再擲一百次或一百萬次,每次擲出 4 的概率仍然是六分之一。擲出 4 然后擲出 6 的概率與擲出 6 然后擲出 4 的概率相同。這一點具有重要意義,因為在 CPT 中,我們對結果的任何疑問原則上都可以同時得到解決。例如,連續擲一百次 4 的概率是多少?事實上,我們可以討論任何問題結果組合的概率,以及這些概率是如何始終存在的。
現在讓我們來看看 QT。假設我們現在拿起了一組新的六面 "量子 "骰子(當然,請注意,這個例子是臆造出來的)。它們的量子特性是什么?它們的結果將不再能夠同時得到解決。我們將不得不使用不同的基本算術來計算結果組合的概率,骰子結果的分布將與 CPT 的預期結果形成鮮明對比。例如,這次當我們擲出 4 和 6 時,擲出 6 和 4 的概率是不同的。當我們開始將量子規則應用于行為場景時,這將產生非凡的影響。例如,讓我們問某人一組問題: "你喜歡你的工作嗎?"和 "你快樂嗎?" 根據你回答這些問題的順序,你很可能得到截然不同的回答。
本論文分為五個部分。本章是對當前工作的總體介紹。第 2 章至第 4 章介紹了測試 QT 在不同決策環境中的實用性的實驗研究。第 5 章是總結論,概述了本研究的理論成果和局限性。
多智能體強化學習(RL)研究的是環境中存在多個智能體并共同決定環境轉變的情況下的順序決策問題。智能體之間的關系可以是合作、競爭或混合的,這取決于各智能體的獎勵如何協調。與單智能體 RL 相比,多智能體 RL 具有獨特而復雜的結構,尚未得到充分認識。本論文的總體目標是加強對各種環境下多智能體 RL 結構的理解,并建立利用和/或尊重該結構的可靠而高效的算法。
首先,我們發現 RL 中的許多數據驅動算法,如梯度時差學習算法和行動者批判算法,本質上都是通過跟蹤決策變量之外的人工輔助變量并以不同的速率更新它們來解決雙層優化問題。我們提出了一種特殊梯度甲骨文下的雙時間尺度隨機梯度下降方法,將這些算法及其分析抽象到一個統一的框架中。我們根據 RL 問題中常見的目標函數的幾個結構特性,描述了雙時間尺度梯度算法的收斂速率。這個框架以單智能體 RL 問題為目標,為設計和研究數據驅動的多智能體 RL 算法奠定了數學基礎。
其次,我們考慮的是完全合作環境下的多智能體 RL,在這種環境下,一個連接的、分散的智能體網絡會合作解決多個 RL 任務。我們的第一個問題表述是,每個任務部署一個智能體,并考慮學習一個能使所有任務的平均累積收益最大化的單一策略。我們描述了多任務 RL 與單任務 RL 在結構上的主要區別,這使得多任務 RL 從根本上成為一個更具挑戰性的問題。然后,我們擴展了我們的表述,考慮在每個任務的回報率受到約束的情況下最大化平均回報率,這形成了一個更靈活的框架,對于現實生活中的多任務 RL 應用建模可能更實用。我們提出并研究了分散(受限)策略梯度算法,用于優化這兩種表述中的目標,并通過富有啟發性的數值模擬驗證了我們的分析。
上一章研究了合作智能體,現在我們將重點轉移到智能體相互競爭的情況。我們研究的是雙人零和馬爾可夫博弈,它是競爭性多智能體 RL 的一個特例,被自然地表述為一個非凸非凹 minimax 優化程序,并考慮用簡單的梯度下降上升(GDA)算法來解決它。底層目標函數的非凸/非凹性給 GDA 算法的分析帶來了巨大挑戰。我們通過熵正則化為馬爾可夫博弈引入了強結構。我們將 GDA 應用于正則化目標,并提出了調整正則化權重的方案,以使 GDA 算法高效收斂到全局納什均衡。
到目前為止,我們討論的作品都是從優化的角度來處理 RL 的。在最后一章,我們將應用 RL 來解決優化問題。具體來說,我們針對通過 ADMM 解決的交流最優功率流 (ACOPF) 問題,開發了一種基于多智能體 RL 的懲罰參數選擇方法,目標是最大限度地減少迭代次數,直至收斂。與最先進的手工設計參數選擇方案相比,我們的方法大大加快了 ADMM 的收斂速度,并表現出卓越的普適性。
各章安排如下。在第 2 章中,討論了雙時間尺度隨機優化框架,該框架模擬了基于樣本的單智能體 RL 算法。第 3 章,研究多任務多智能體 RL 問題。第 4 章介紹了一種基于正則化的雙人零和馬爾可夫博弈 GDA 方法。第 5 章應用 RL 改進電力系統優化問題的解決方案。最后,在第 6 章中對未來可能開展的工作進行了總結和評論。由于這些工作都是數學性質的,在正文中介紹了問題的表述、算法、假設和主要理論結果,并將分析工作推遲到 A-C 章的附錄中進行。
許多數據集可以被視為圖結構上的信號。為此,圖形模型領域一直是一個富有成果的研究領域。本論文研究了一種稱為粘性層次狄利克雷過程隱馬爾可夫模型(Sticky Hierarchical Dirichlet Process Hidden Markov Model, SHDPHMM)的時間序列數據模型,該模型由Emily Fox提出。它適用于聚類時間序列數據,在實際中常常遇到隱藏狀態數量未知的情況。本論文的貢獻是推導了用于對SHDPHMM進行推理的確定性變分推理更新方程。這比Fox提出的馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo, MCMC)算法有所改進,因為它允許直接評估收斂性,并且運行速度更快。對于圖中節點上的噪聲信號,融合套索可以作為一種去噪方法。融合套索是廣義套索的一個特例,廣義套索是一種正則化回歸問題,它鼓勵回歸系數的線性變換中的稀疏性。本論文完成了廣義套索、其對偶問題、受限子空間套索(Subspace Constrained Lasso, SCL)及其對偶問題之間的等價性全景。在SCL中,稀疏性直接表達出來。這個問題的結構允許進行碼字篩選。本論文為SCL派生了許多篩選方法,包括單次和順序兩種類型,這些方法依賴于對偶問題的結構。在這種情況下,篩選的效果不如套索那樣有效,后者可以將非常大的字典減少到一小部分大小。然而,它仍然是一個重要工具,可以提高解決SCL乃至廣義套索的速度。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
傳統的建模、仿真和分析(MS&A)大多由工程模型支持,即基于牛頓物理學的封閉系統的確定性表征。這種方法并不適合表現人類行為的復雜性。這項研究倡導并試圖闡明一種更加以人為本的 MS&A 方法的概念,這種方法可以更好地代表決策和人類行為的其他認知方面,就像代表身體活動一樣。
首先將個人和群體視為復雜的適應系統,而這種系統最好使用基于智能體的建模來表示。通過智能體對人類行為的表征包含了決策模型、知識工程和知識表征,以及人與人之間及其與環境之間的心理和生理互動的全部內容。這種表征方式的典型例子是將態勢感知/態勢理解(SA/SU)作為核心要素加以考慮。
由此,開發了一個概念驗證模擬,模擬一個具體、易于理解和量化的人類行為實例:智能體在模擬世界中試圖導航時在空間上 "迷失 "了方向。這個模型被命名為 "智能迷失模型"(MOBIL),因為這兩種狀態的能力是模擬的核心。MOBIL 采用面向對象的軟件原理與基于智能體的建模相結合的方式,建立了應用以人為本的分析方法的實用性。
在一些虛擬實驗中應用該模擬,說明了它如何支持對個人的 SA/SU 和相關決策過程進行調查。
基于模型的決策支持系統(MDSS)在航空、應急管理、軍事指揮與控制、醫療保健、核行動、情報分析和海上行動等許多后果嚴重的專業領域都非常突出。MDSS 通常使用任務和操作員的簡化模型,對決策情況進行結構化處理,并向操作員提供對決策任務有用的信息提示。模型是一種簡化,可能會被錯誤定義,并存在誤差。采用和使用這些錯誤的模型會導致用戶的決策貧乏。本文把決策者的這種貧乏狀態稱為 "模型盲"。我們進行了兩個系列實驗,以研究模型盲對人類決策和績效的不利影響,以及如何通過可解釋人工智能(XAI)干預來減輕這些影響。本論文還報告了模擬結果,通過展示模型盲區和模型盲區緩解技術對性能的影響來激發實驗。實驗將模擬路線推薦系統作為具有真實數據生成模型(不可觀測世界模型)的 MDSS 來實施。在實驗 1 中,生成推薦路線的真實模型以及額外的非推薦路線和相關屬性信息被錯誤地指定為不同級別,從而對 MDSS 用戶造成了模型盲區。在實驗 2 中,同樣的路線推薦系統采用了緩解技術,以克服模型失當對決策質量的影響。總體而言,這兩項實驗的結果幾乎都不支持由于模型盲區而導致的性能下降,因為模型盲區是由錯誤的系統造成的。實驗 1 和實驗 2 中捕捉到的行為對參與者所處的不同誤設統計環境的敏感性極低。有確鑿證據表明,在不同條件下,推薦的替代方案以及參與者對這些方案的依賴或偏離都會產生影響。XAI 干預為了解參與者如何調整決策以考慮系統中的偏差以及如何偏離模型推薦的備選方案提供了寶貴的見解。參與者的決策策略表明,他們能夠從反饋或解釋中理解模型的局限性,并相應地調整策略以考慮模型中的錯誤規范。這些結果為評估決策策略在模型盲區匯合模型中的作用提供了有力支持。這些結果有助于確定在 MDSS 的開發、實施和使用階段仔細評估模型盲區的必要性。
圖 3. 為實驗開發的路線推薦系統中使用的模型
我們提出了因果ABM,一種推導描述復雜潛在行為現象的因果結構的方法。基于智能體的建模(ABM)在因果建模方面具有強大的優勢,而這些優勢還沒有得到充分的探索。與傳統的因果估計方法不同的是,ABM的兩個特性--等價性(不同的條件集或模型代表產生相同結果的能力)和多重性(同一ABM可能產生不同的結果)--可以被利用來從數據中學習多種不同的 "可靠因果模型"。我們用社交網絡上的新聞分享為例,展示了這一想法如何應用于學習這種因果集。我們還表明,由于遺傳算法的平行搜索結構,它可以作為一種估計技術,從數據中學習多種可靠因果模型。然而,在普遍應用之前,仍然存在重大的計算挑戰,因此,我們強調了在未來工作中需要解決的具體關鍵問題。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
貝葉斯統計是一種基于貝葉斯定理的數據分析方法,統計模型中有關參數的可用知識會隨著觀測數據中的信息而更新。背景知識以先驗分布的形式表示,并以似然函數的形式與觀測數據結合來確定后驗分布。后驗也可以用來預測未來的事件。這本入門書描述了貝葉斯分析中涉及的各個階段,從指定先驗模型和數據模型到推導推理、模型檢查和細化。我們討論了前驗和后驗預測檢驗、從后驗分布中選擇合適的抽樣技術、變分推理和變量選擇的重要性。本書提供了貝葉斯分析在不同研究領域的成功應用實例,包括社會科學、生態學、遺傳學、醫學等。我們提出了重現性和報告標準的策略,概述了一個更新的WAMBS(什么時候需要擔心以及如何避免貝葉斯統計的誤用)清單。最后,我們概述了貝葉斯分析對人工智能的影響,這是未來十年的主要目標。
這本書向讀者介紹點估計、置信區間和統計檢驗。基于線性模型的一般理論,本文對以下內容進行了深入的概述:固定效應、隨機效應和混合效應模型的方差分析;在擴展到非線性模型之前,回歸分析也首先出現在具有固定、隨機和混合效應的線性模型中;統計多決策問題,如統計選擇程序(Bechhofer和Gupta)和順序測試;從數理統計的角度設計實驗。大多數分析方法都補充了最小樣本量的公式。這些章節還包含了解答的提示練習。
在復雜的以人為中心的系統中,每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是,它們沒有能力處理概率和事件不精確的情況。在這本書中,我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束,從行為決策的外部建模轉向組合狀態的框架。
這本書將有助于在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學的專業人員,學者,經理和研究生。
讀者:專業人士,學者,管理者和研究生在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學。