多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下
提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。
表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。
在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。
由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。
網絡化多智能體系統已成為許多工程系統不可或缺的一部分。多智能體系統中的協同決策面臨許多挑戰。本文將研究信息及其對智能體的可用性對多智能體系統中協同決策的影響。
本文考慮了使用兩個觀測器從觀測數據中檢測馬爾可夫模型和高斯模型的問題。考慮兩個馬爾可夫鏈和兩個觀察者。每個觀察者觀察真實未知馬爾可夫鏈狀態的不同函數。給定觀察結果后,目標是找出兩個馬爾可夫鏈中哪一個產生了觀察結果。本文為每個觀察者提出了塊二元假設檢驗問題,并證明每個觀察者的決策是局部似然比的函數。本文提出了一種共識方案,讓觀察者就其信念達成一致,并證明了共識決策對真實假設的漸近收斂性。使用兩個觀測者檢測高斯模型時,也考慮了類似的問題框架。為每個觀測者提出了序列假設檢驗問題,并使用局部似然比求解。考慮到觀察者隨機和不對稱的停止時間,提出了一種共識方案。本文引入了 “信息價值 ”的概念,以理解為達成共識而交換的信息的 “有用性”。
接下來,考慮有兩個觀察者的二元假設檢驗問題。自然界有兩種可能的狀態。有兩個觀察者,他們收集的觀察結果在統計學上與真實的自然狀態相關。假設這兩個觀察者是同步的。觀測者的目標是根據觀測結果,共同找出真實的自然狀態。考慮采用集中式和分散式方法來解決問題。每種方法都分為兩個階段:(1) 構建概率空間:已知真實假設,收集觀測數據以建立假設與觀測數據之間的經驗聯合分布;(2) 給定一組新的觀測數據,為觀測者制定假設檢驗問題,以找到他們各自對真實假設的信念。提出了讓觀察者就其對真實假設的信念達成一致的共識方案。比較了集中式方法中錯誤概率的衰減率和分散式方法中就錯誤信念達成一致的概率的衰減率。比較了集中式方法和分散式方法的數值結果。
多智能體系統中一個智能體的事件集中的所有命題可能無法同時驗證。研究了文獻中的事件狀態運行結構和不相容關系的概念,并將其作為研究事件集結構的工具。舉了一個多智能體假設檢驗的例子,在這個例子中,事件集并不構成布爾代數,而是構成了一個正晶格。還討論了 “非交換概率空間 ”的可能構造,其中包含不相容事件(無法同時驗證的事件)。作為這種概率空間中可能存在的決策問題,考慮了二元假設檢驗問題。提出了解決這一決策問題的兩種方法。在第一種方法中,將可用數據表示為來自通過投影估值度量(PVM)建模的測量結果,并檢索使用經典概率模型求解的底層檢測問題的結果。在第二種方法中,使用正算子估值方法(POVM)來表示測量結果。證明,第二種方法實現的最小錯誤概率與第一種方法相同。
最后,考慮了學習經驗分布的二元假設檢驗問題。在任一假設下,觀測值的真實分布都是未知的。經驗分布是從觀測數據中估計出來的。利用經驗分布序列解決一系列檢測問題。經驗分布下的信息狀態和最優檢測成本向真實分布下的信息狀態和最優檢測成本的收斂情況如圖所示。還給出了最佳檢測成本收斂的數值結果。
本論文探討了理論機器學習的多個方面,特別是關于優化、博弈論和泛化界的研究。因此,論文分為三個部分: 第一部分 關注機器學習中的優化問題。具體而言,我們為介于隨機學習和對抗學習問題之間的在線凸優化問題提供了新的遺憾界。此外,我們對多種一階算法在時變變分不等式上的行為提供了新的見解。這些結果與強凸優化問題的動態遺憾界以及時變博弈的平衡追蹤保證相關,因此也與第三部分(關于機器學習中的博弈論方面)的研究有關。在第三部分中,我們首次提出了零和博弈中計算納什均衡的查詢復雜性的非平凡下界。此外,我們為廣義納什均衡問題引入了一種在線可行點方法。對于廣義博弈的一個子類,我們證明了該方法可以保證收斂到廣義納什均衡,同時在所有迭代中保持可行性。
第二部分 研究了算法和數據相關的泛化保證。通過引入一種新的算法依賴的Rademacher復雜性定義,我們推導出了與算法輸出集合的分形維度相關的幾何解釋性界限。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
本論文研究決策的各個方面,重點是認知建模的概率工具。其中一種工具就是所謂的經典概率理論(CPT,或貝葉斯理論;Tenenbaum & Griffiths, 2001; Chater et al. 其廣泛的論點是,認知處理必須反映出對環境統計結構的某種最佳適應,因此,人類認知必須與貝葉斯理論的原則相一致(Oaksford & Chater, 2009)。在許多情況下,CPT 似乎確實能準確描述行為,尤其是決策制定(Siegel 等人,2018 年),而這正是本研究的重點。
CPT在決策文獻中的主導地位之所以受到挑戰,部分原因在于兩位最具影響力的心理學家:特維爾斯基和卡尼曼(前者是被引用次數最多的心理學家之一,后者獲得過諾貝爾經濟學獎)。Tversky 和 Kahneman 提供了幾個例子,在這些例子中,人類決策者不斷做出與 CPT 原則截然相反的判斷。舉例來說,他們要求參與者判斷假設的女性琳達更有可能是 "銀行出納員和女權主義者",還是 "銀行出納員"。由于琳達被描述為女權主義者,而完全不是銀行出納員,大多數參與者傾向于推斷概率(銀行出納員和女權主義者)>概率(銀行出納員)。這一結論被稱為連接謬誤(CF,Tversky & Kahneman,1983 年)。根據 CPT(在單一概率空間中),這是不可能的,這就好比問倫敦 12 月下雪和下雨的頻率與倫敦 12 月只下雪的頻率。顯然,我們不可能讓前一個(連帶)事件的發生天數多于后一個,這是不可能的。
現代決策理論的發展已經超越了將 CPT 作為決策正規化的主要方法。雖然 CF 與 CPT(基本)框架不兼容,但我們可以借鑒其他框架,如量子理論(QT),來考慮 CF 決策是否可以被視為合理。量子理論已被確立為決策制定的重要替代形式框架。在量子理論中,概率是以不同的方式計算的(使用不同的公理),因此,與 CPT 相比,對于哪些判斷是適當的,所產生的直覺可能會有很大不同。事實上,CPT 和 QT 之間有許多不同之處,這些不同之處為我們提供了一個細微的圖景,說明在什么情況下,CPT 或 QT 可能是更適合理解人類決策的框架。例如,在 CPT 中,事件肯定是真的或假的,但在 QT 中,有些事件可能既不是真的也不是假的。在 CPT 中,原則上一組問題都可以同時得到解決,因此我們可以討論任何問題結果組合的概率(這些聯合概率總是必須存在的)。在 QT 中,有些問題是不相容的,這意味著通常不可能同時解決這些問題。對于不相容的問題,一個問題的確定性會帶來另一個問題的不確定性。QT 中的概率推理強烈依賴于上下文和視角,而 CPT 則(自然地)不依賴于上下文和視角。
CPT 和 QT 都是允許我們理解事件概率的模型,盡管方式不同--CPT 和 QT 基于不同的公理,通常做出不同的預測。讓我們先來探討一下 CPT。假設你擲了一個六面骰子。如果你再擲一百次或一百萬次,每次擲出 4 的概率仍然是六分之一。擲出 4 然后擲出 6 的概率與擲出 6 然后擲出 4 的概率相同。這一點具有重要意義,因為在 CPT 中,我們對結果的任何疑問原則上都可以同時得到解決。例如,連續擲一百次 4 的概率是多少?事實上,我們可以討論任何問題結果組合的概率,以及這些概率是如何始終存在的。
現在讓我們來看看 QT。假設我們現在拿起了一組新的六面 "量子 "骰子(當然,請注意,這個例子是臆造出來的)。它們的量子特性是什么?它們的結果將不再能夠同時得到解決。我們將不得不使用不同的基本算術來計算結果組合的概率,骰子結果的分布將與 CPT 的預期結果形成鮮明對比。例如,這次當我們擲出 4 和 6 時,擲出 6 和 4 的概率是不同的。當我們開始將量子規則應用于行為場景時,這將產生非凡的影響。例如,讓我們問某人一組問題: "你喜歡你的工作嗎?"和 "你快樂嗎?" 根據你回答這些問題的順序,你很可能得到截然不同的回答。
本論文分為五個部分。本章是對當前工作的總體介紹。第 2 章至第 4 章介紹了測試 QT 在不同決策環境中的實用性的實驗研究。第 5 章是總結論,概述了本研究的理論成果和局限性。
傳統的建模、仿真和分析(MS&A)大多由工程模型支持,即基于牛頓物理學的封閉系統的確定性表征。這種方法并不適合表現人類行為的復雜性。這項研究倡導并試圖闡明一種更加以人為本的 MS&A 方法的概念,這種方法可以更好地代表決策和人類行為的其他認知方面,就像代表身體活動一樣。
首先將個人和群體視為復雜的適應系統,而這種系統最好使用基于智能體的建模來表示。通過智能體對人類行為的表征包含了決策模型、知識工程和知識表征,以及人與人之間及其與環境之間的心理和生理互動的全部內容。這種表征方式的典型例子是將態勢感知/態勢理解(SA/SU)作為核心要素加以考慮。
由此,開發了一個概念驗證模擬,模擬一個具體、易于理解和量化的人類行為實例:智能體在模擬世界中試圖導航時在空間上 "迷失 "了方向。這個模型被命名為 "智能迷失模型"(MOBIL),因為這兩種狀態的能力是模擬的核心。MOBIL 采用面向對象的軟件原理與基于智能體的建模相結合的方式,建立了應用以人為本的分析方法的實用性。
在一些虛擬實驗中應用該模擬,說明了它如何支持對個人的 SA/SU 和相關決策過程進行調查。
與決策相關的活動,如自下而上和自上而下的策略制定、分析和規劃,都將受益于基于計算機的模型的開發和應用,這些模型能夠在當地環境中表現人類的時空社會行為。在努力了解和尋找減緩氣候變化特定影響的方法時尤其如此,在這種情況下,此類模型需要包括相互影響的社會和生態要素。此類模型的開發和應用一直受到以下挑戰的嚴重阻礙:設計行為以經驗證據和理論為基礎的智能體,以及測試智能體代表現實世界決策者行為的能力。本論文通過以下方法克服了這些挑戰,從而提高了開發此類模型的能力: (a) 三個新框架,(b) 兩種新方法,以及 (c) 兩種新的開源建模工具。這三個新框架包括 (a) SOSIEL 框架,它為開發新一代認知、多智能體和基于知識的模型提供了一個有理論基礎的藍圖,這些模型由具有認知架構的智能體組成; (b) 一個分析決策者有界理性的新框架,它為分析決策情境與決策者決策之間的關系提供了洞察力和便利;以及 (c) 一個分析人工智能體雙重有界理性(DBR)的新框架,它對決策情境與人工智能體決策之間的關系做了同樣的分析。這兩種新方法包括 (a) 用于獲取和操作決策知識的 SOSIEL 方法,它提高了我們為認知模型、多智能體模型和基于知識的模型獲取、處理和表示決策知識的能力;以及 (b) 用于測試人工智能體表示人類決策能力的 DBR 方法。這兩個開源建模工具包括 (a) SOSIEL 平臺,這是一個基于認知、多智能體和知識的平臺,用于模擬人類決策;以及 (b) 將該平臺作為 SOSIEL 人類擴展(SHE)應用于現有的森林氣候變化模型,即 LANDIS-II,以便分析人類與森林氣候之間的共同進化互動。為了提供示例背景和知識獲取指南,論文包括烏克蘭喀爾巴阡山地區社會生態互動的案例研究,該地區目前正在應用 LANDIS-II 和 SHE。因此,本論文通過以下方式推動科學發展 (a) 為下一代基于認知、多智能體和知識的模型提供理論基礎并展示其實施;(b) 為理解、分析和測試人工智能體代表人類決策的能力提供植根于心理學的新視角。
本論文將雷達信號處理與數據驅動的人工神經網絡(ANN)方法相結合。信號處理算法通常基于對數據形成過程的建模假設。在某些情況下,這些模型足以設計出良好甚至最優的解決方案。
但在很多情況下,這些模型可能過于復雜,無法形成分析解決方案;可能過于簡化,導致實際結果與理論上的結果大相徑庭;可能是未知的,即多個已知模型或參數值中的一個可能適合數據,但我們不知道是哪個;或者過于復雜,導致解決方案的計算量過大。
數據驅動的方差網絡方法提供了彌合這些差距的簡單方法。我們在四項不同的研究中證明了這一點,在這些研究中,我們利用雷達數據模型來制定數據驅動型解決方案,這些解決方案既準確又具有計算效率。
我們將基于 ANN 的結果與計算要求極高的最小二乘法和窮舉匹配過濾法進行了比較。結果表明,ANN 的性能可與這些方法相媲美,但計算量卻很小。我們在使用各種參數值的模型采樣數據上訓練人工智能網絡。這自然可以處理漂移和未知參數值,它們可能會改變數據,但不會改變所需的預測結果。我們的研究表明,根據簡單模型的數據訓練出的 ANN 分類器的實際表現可能比理論預期的要差得多。我們通過將有限的真實數據與合成模型數據相結合來改善這種情況。在所有情況下,我們都使用了易于評估的模型。然而,這些模型的分析方法并不簡單,無法創建分析解決方案。
特別是,我們提出了一種實現非相干脈沖壓縮的方法,可在單脈沖寬度內分辨目標。我們提出了一種檢測微弱目標軌跡的方法,該方法無需事先假設目標加速度、信噪比等。我們介紹了在訓練無人機和非無人機目標分類器時納入不完美模型數據的不同方法。最后,我們介紹了一種估算海面多徑傳播路徑差的方法,用于目標跟蹤。
本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。
論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。
這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。
近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。
在不確定的情況下做出決策,往往要權衡現有選擇方案的預期成本和收益。成本與收益的權衡會使決策變得容易或困難,尤其是在成本與收益不確定的情況下。在這項研究中,我們評估了基于實例學習理論(IBLT)的認知模型和兩種著名的強化學習(RL)算法如何在不確定和決策復雜度不斷增加的情況下,學會在尋求目標的網格世界任務中做出更好的選擇。我們還使用隨機代理作為基礎比較。我們的結果表明,IBL 模型和 RL 模型在簡單設置下的準確度相當,盡管 RL 模型比 IBL 模型更有效。然而,隨著決策復雜度的增加,IBL 模型不僅比 RL 模型更準確,而且更高效。我們的結果表明,即使成本增加,IBL 模型也能追求高回報的目標;而 RL 模型似乎會被較低的成本 "分散注意力",從而達到較低回報的目標。
本文提出了計算概率神經網絡局部魯棒性的方法,特別是由貝葉斯推理得到的魯棒性。從理論上講,將貝葉斯推理應用到神經網絡參數的學習中,有望解決頻繁主義學習范式下出現的許多實際困擾問題。特別是,貝葉斯學習允許有原則的架構比較和選擇,先驗知識的編碼,以及預測不確定性的校準。最近的研究表明,貝葉斯學習可以導致更多的對抗魯棒預測。雖然從理論上講是這樣的,并且在具體實例中已經證明了這一點,但提高魯棒性的軼事證據并不能為那些希望在安全關鍵環境中部署貝葉斯深度學習的人提供足夠的保證。雖然有方法可以保證確定性神經網絡的魯棒性,但貝葉斯神經網絡權重的概率性質使這些方法不可操作。本文研究了貝葉斯神經網絡的魯棒性概念,允許同時考慮模型的隨機性和模型決策的魯棒性保證。本文提供了一種方法,可以為給定的貝葉斯神經網絡計算這些數量,這些方法要么對估計的精度有先驗的統計保證,要么有可靠的概率上下界。最后,我們將魯棒性作為神經網絡參數貝葉斯推斷的主要要求,并演示了如何修改似然,以推斷出具有良好魯棒性的后驗分布。對似然的修正使我們的方法對貝葉斯神經網絡的近似推理技術是透明的。
我們使用貝葉斯神經網絡來評估我們提出的方法的實用性,這些神經網絡訓練了幾個真實的數據集,包括空中碰撞避免和交通標志識別。此外,我們評估了使用五種不同近似推理方法近似推斷的貝葉斯后驗分布的魯棒性。我們發現,我們的方法為貝葉斯神經網絡提供了第一個可證明的魯棒性保證,從而使它們能夠部署在安全關鍵場景中。此外,我們提出的神經網絡參數的魯棒貝葉斯推理方法使我們能夠推斷出后驗分布,這大大提高了可證明的魯棒性,即使是在全色圖像上。概述經典計算機科學關注的是如何創建解決給定問題的程序。相應地,經典程序驗證是確保(通常通過形式證明)給定程序在每個實例[6]中正確解決給定問題的任務。近年來,計算機科學家們已經將他們想要解決的問題的類別擴大到那些過于復雜或定義欠佳而無法用經典編程范式處理的任務。在程序不能再由人類設計的地方,它們可以通過示例[57]學習。隨著學習到的解決方案變得比手工編碼的解決方案好得多,它們所應用的領域也變得更加復雜。學習具有最大潛在影響的領域也具有最大的危害風險,這并不奇怪[1,10]。針對這類任務(包括醫療診斷和自動駕駛汽車)的學習解決方案,在部署和獲得公眾信任之前,必須保證其安全性。不幸的是,為這些任務編寫經典程序的障礙也阻礙了它們的正式驗證[79]。此外,檢驗習得解的基本穩定性的初步嘗試揭示了它們顯著的脆弱性[136]。這種脆弱性表現為過度自信、不正確的預測,幾乎對學習算法的每個輸入都可能產生這種預測。
因此,如果我們想要利用機器學習算法的光明未來,我們必須確保它們在部署之前是安全的。在這篇論文中,我們將關注到目前為止最流行和最強大的學習算法:深度神經網絡神經網絡是功能強大的函數逼近器,它有望在廣泛的任務中對先進性能的進步做出持續和重要的貢獻。神經網絡已經在諸如醫療診斷和病理以及控制和規劃等安全關鍵領域取得了顯著的強大性能。然而,在這些領域采用神經網絡的主要障礙是它們的預測缺乏可解釋性和可靠性[1]。我們將使用兩個主要漏洞來激發貝葉斯神經網絡(BNNs)的魯棒性研究,BNNs是由貝葉斯規則推斷的參數分布的神經網絡。第一個潛在的漏洞是確定性神經網絡(DNNs)缺乏校準的不確定性,即知道自己不知道什么[81]。當確定性神經網絡用于對統計上偏離訓練數據的數據點進行推斷時,這是一個特別的挑戰。在這種情況下,DNN經常會做出高度自信、不正確的預測,如果依賴這些預測,可能會導致糟糕的行為[104]。第二個弱點是對抗性的例子[136]。一個對抗性的例子是一個輸入,它被精心設計成與自然發生的輸入無法區分,但這會導致神經網絡在輸出中做出錯誤的分類或不安全的更改。在醫學診斷中,這可能是由于病理幻燈片色調的輕微變化而預測患者患有癌癥,或者在自主導航中,這可能是基于照明條件的輕微變化而預測轉向角度的較大變化[105]。對抗攻擊已被證明不僅在圖像分類[58]中存在安全隱患,在音頻識別[163]、惡意軟件識別[126]和自然語言處理[41]中也存在安全隱患。這些對安全性和安全性關鍵型應用程序構成了巨大的安全風險。當然,證明對抗實例的安全性是在安全關鍵環境下部署任何神經網絡的先決條件。
在過去幾年里,證明神經網絡預測的安全性一直是一個重要而活躍的研究領域,并且在有效證明對抗例子不存在方面取得了巨大進展[79,22,152]。雖然這滿足了我們的一個愿望(缺乏對抗性的例子),但確定性神經網絡在校準不確定性方面仍然提供很少的東西。特別是,給定一個確定性神經網絡和一個我們想要分類的輸入,通常的情況是,如果一個對抗的例子存在,那么它被錯誤地分類,置信度非常高[58]。這意味著,基于輸出,無法推斷輸入是否可能不正確或損壞。此外,有關于確定性神經網絡的研究表明,對于許多任務來說,對抗實例的存在是不可避免的[47,46],進一步說,魯棒確定性學習是不可能的[59]。雖然合理的局部驗證(證明不存在對抗性例子)對于向用戶保證在特定情況下的正確性能是必要的,但貝葉斯學習范式提供了一種系統的方法,可以在更一般的水平上減輕這些不可能結果的擔憂。通過引入校準的不確定性,貝葉斯神經網絡在理論和經驗上都被證明對對抗性例子具有更強的魯棒性,并且可以潛在地削弱或擊敗確定性網絡的不可能結果[53,23,7]。因此,在需要安全性和魯棒性證明的安全關鍵場景中,貝葉斯神經網絡似乎是一種自然和可行的部署方案。
盡管貝葉斯神經網絡有許多吸引人的特性,但無法用確定性神經網絡開發的技術直接分析貝葉斯神經網絡[168]。貝葉斯網絡與確定性網絡的主要區別在于前者的參數值具有后驗分布。為了驗證這種模型的魯棒性,必須找到一種方法來執行確定性神經網絡可用的正確性分析,同時以合理的方式考慮到范圍或可能的參數值。這樣做是在安全關鍵場景中安全部署貝葉斯神經網絡的必要前提。在這篇論文中,我們開發了一些工具,允許我們在貝葉斯環境下利用確定性神經網絡的魯棒性量化方面的進展。特別地,我們研究了貝葉斯神經網絡魯棒性的兩個概念,這允許從業者在給定貝葉斯神經網絡部署之前量化其最壞情況的行為。貝葉斯神經網絡魯棒性的第一個概念是概率魯棒性(在第4章中定義)。這允許從業者理解模型固有的隨機性及其對抗魯棒性之間的相互作用,也可以被視為不確定性的最壞情況度量。魯棒性的第二個概念是貝葉斯決策魯棒性。貝葉斯神經網絡除了在其權重上有一個分布之外,還與確定性神經網絡不同,因為我們必須對其預測分布和錯誤決策的風險或損失進行推理,以便做出預測。決策魯棒性考慮了考慮中的貝葉斯模型的決策過程,并允許我們證明即使在對手存在的情況下,也會發布正確的決策。這些定義允許我們量化貝葉斯神經網絡的概率正確性。