網絡化多智能體系統已成為許多工程系統不可或缺的一部分。多智能體系統中的協同決策面臨許多挑戰。本文將研究信息及其對智能體的可用性對多智能體系統中協同決策的影響。
本文考慮了使用兩個觀測器從觀測數據中檢測馬爾可夫模型和高斯模型的問題。考慮兩個馬爾可夫鏈和兩個觀察者。每個觀察者觀察真實未知馬爾可夫鏈狀態的不同函數。給定觀察結果后,目標是找出兩個馬爾可夫鏈中哪一個產生了觀察結果。本文為每個觀察者提出了塊二元假設檢驗問題,并證明每個觀察者的決策是局部似然比的函數。本文提出了一種共識方案,讓觀察者就其信念達成一致,并證明了共識決策對真實假設的漸近收斂性。使用兩個觀測者檢測高斯模型時,也考慮了類似的問題框架。為每個觀測者提出了序列假設檢驗問題,并使用局部似然比求解。考慮到觀察者隨機和不對稱的停止時間,提出了一種共識方案。本文引入了 “信息價值 ”的概念,以理解為達成共識而交換的信息的 “有用性”。
接下來,考慮有兩個觀察者的二元假設檢驗問題。自然界有兩種可能的狀態。有兩個觀察者,他們收集的觀察結果在統計學上與真實的自然狀態相關。假設這兩個觀察者是同步的。觀測者的目標是根據觀測結果,共同找出真實的自然狀態。考慮采用集中式和分散式方法來解決問題。每種方法都分為兩個階段:(1) 構建概率空間:已知真實假設,收集觀測數據以建立假設與觀測數據之間的經驗聯合分布;(2) 給定一組新的觀測數據,為觀測者制定假設檢驗問題,以找到他們各自對真實假設的信念。提出了讓觀察者就其對真實假設的信念達成一致的共識方案。比較了集中式方法中錯誤概率的衰減率和分散式方法中就錯誤信念達成一致的概率的衰減率。比較了集中式方法和分散式方法的數值結果。
多智能體系統中一個智能體的事件集中的所有命題可能無法同時驗證。研究了文獻中的事件狀態運行結構和不相容關系的概念,并將其作為研究事件集結構的工具。舉了一個多智能體假設檢驗的例子,在這個例子中,事件集并不構成布爾代數,而是構成了一個正晶格。還討論了 “非交換概率空間 ”的可能構造,其中包含不相容事件(無法同時驗證的事件)。作為這種概率空間中可能存在的決策問題,考慮了二元假設檢驗問題。提出了解決這一決策問題的兩種方法。在第一種方法中,將可用數據表示為來自通過投影估值度量(PVM)建模的測量結果,并檢索使用經典概率模型求解的底層檢測問題的結果。在第二種方法中,使用正算子估值方法(POVM)來表示測量結果。證明,第二種方法實現的最小錯誤概率與第一種方法相同。
最后,考慮了學習經驗分布的二元假設檢驗問題。在任一假設下,觀測值的真實分布都是未知的。經驗分布是從觀測數據中估計出來的。利用經驗分布序列解決一系列檢測問題。經驗分布下的信息狀態和最優檢測成本向真實分布下的信息狀態和最優檢測成本的收斂情況如圖所示。還給出了最佳檢測成本收斂的數值結果。
在相互作用的個體或智能體之間出現協調行動是日常行為的一個共同特征。多智能體活動組織的關鍵在于智能體有效決定如何以及何時行動的能力,而強有力的決策往往是區分專家和非專家表現的關鍵。在本論文中,我們研究并模擬了人類和智能體在完成各種放牧任務時的行為協調和決策行為。放牧任務涉及兩組自主智能體的互動--需要一個或多個放牧智能體來控制一組異質目標智能體。這類活動在日常生活中無處不在,是日常多智能體行為的典型范例。我們首先提出了一套簡單的局部控制規則和目標選擇策略,使放牧智能體能夠收集和控制一群不合作、不鎖定的目標智能體。然后,我們研究了所提出的控制過程對牛群規模變化和牧民對目標施加的排斥力強度變化的穩健性。我們還通過 ROS 仿真和使用真實機器人進行的實驗證實了建議方法的有效性。然后,我們采用監督機器學習(SML)來預測人類牧民的目標選擇決策。研究結果表明,無論是在短(< 1 秒)還是長(> 10 秒)時間尺度上,都可以使用 SML 有效地預測人類行為者的決策行為,而且可以使用由此產生的模型賦予人工牧民 “類人”決策能力。最后,我們利用可解釋人工智能來了解人類牧民在做出目標選擇決策時所使用的狀態信息。研究結果揭示了專家牧民和新手牧民在決策時如何權衡狀態信息的差異,這是第一項強調可解釋人工智能技術在理解多智能體快節奏互動過程中人類決策標記行為的潛在效用的研究。
圖 3.6: ROS 模擬。頂部面板顯示了在 Gazebo 環境中模擬的目標智能體(綠線)和牧民(灰線)采用 (a) 靜態競技場分區、(b) 領導者-追隨者和 (c) 點對點牧民策略的軌跡。封閉區域 G 用紅圈表示。黑色方形標記表示牧民的初始位置和最終位置(實心色)。綠色圓圈標記表示目標智能體的初始和最終(純色)位置。下圖顯示,所有牧民都能按照(d)靜態競技場分區、(e)領導者-追隨者和(f)點對點牧民策略規定的角度邊界(紅線),在 500 秒內收集牧群。
在結構良好、信息完備的環境中,決策制定是無法保證的。研究中的任務通常側重于在無限時間框架內利用完整信息做出決策,而在信息缺失或不確定的情況下,當前的研究并未涉及缺失信息在環境中的分布所產生的影響。本文旨在具體了解這些信息分布如何影響時間壓力下的決策者,以及如何在一系列決策策略中為不完美環境下的決策提供最佳支持。這項工作有三方面的貢獻。首先,研究結果表明,在六項以不同信息復雜性和決策策略偏差為特征的獨立人體研究中,所研究的三個信息分布因素(即總信息、完整屬性對和信息不平衡)對決策準確性具有顯著的預測作用。其次,本論文通過信息估計和決策前信息搜索的視角,強調了專家和新手行為的關鍵差異,這進一步解釋了不確定性下的個體差異,并為這些環境下的決策支持系統(DSS)提供了新穎的設計考慮。最后,在啟發式和分析式偏差環境中,信息修正和選項預測決策支持系統的應用表明,各成績組的準確性顯著提高,響應時間顯著縮短。
圖 3.2:參照兩個示例目標(危險程度高的導彈和危險程度低的運輸工具)的可視化決策任務。
要回答所有研究問題,就必須能夠在信息不完整的情況下,在人體實驗中將這些問題具體化。為此,下文將簡要介紹本論文中使用的兩種決策環境,并在后續章節中對其設計和實施進行詳細說明。
第一個環境要求參與者扮演一艘軍艦上的防空作戰協調員(AAWC),其領空內有目標。決定目標敵意的決策標準基于四個二元線索:高度、速度、與中立空中走廊的距離和大小。標準分數由每個選項的提示分數的線性加權組合計算得出,提示按提示加權的等級順序顯示。參與者只需從兩個目標中選擇一個最危險的目標,并與飛機交戰。每個決定都必須在 20-30 秒內做出,參與者可使用彩色計時器進行時間管理。
第二個環境是由 Unity 游戲引擎構建和托管的車道防御游戲。游戲的每一輪都有一組獨特的三個選項,它們從屏幕左側沿著三條車道中的一條向屏幕右側移動。參與者有 60 秒的時間來判斷這三個選項中哪個最危險。為了做出決定,參與者可以訪問詳細的情報菜單,該菜單顯示了描述每個敵人敵意程度的五個提示值(武器、體型、裝甲、盾牌、頭盔),這些提示值按提示權重排序顯示。在以前的 AAWC 環境中,參與者需要根據閾值臨界值對每個可用線索值做出敵意/非敵意判斷。在這個環境中,參與者的這一過程被簡化了,非敵意提示值用綠色向下箭頭表示,敵意提示值用紅色向上箭頭表示。新環境的特點包括幾乎雙倍的可能信息總量、信息訪問跟蹤以及更靈活的用戶界面設計,所有這些都有助于對所有三個研究問題進行更詳細的探討。
在信息缺失或不確定的環境中,信息的分布如何影響決策結果,文獻尚未對此有全面的認識。本論文在一系列決策環境的人類受試者研究中考察了信息結構的三種測量方法(TI、CAP、II),并證明信息不平衡最小化和完整屬性對最大化最有利于提高決策準確性(第 4、5、8 章)。研究發現,總信息量的增加總體上有助于提高準確性,但如果不包含 CAP 和 II,則不足以解釋準確性的提高。此外,生態合理決策策略(由環境結構定義)對這些結果也有影響(第 8 章)。經測試發現,補償生態學(WADD、高分散和低分散)對信息結構的變化更為敏感,而非補償生態學(TTB)則不太敏感,尤其是對信息不平衡的變化。
此外,本論文還研究了對缺失信息進行估計的作用,并首次對決策者的估計策略進行了直接征詢。這項在 AAWC 環境中完成的研究(第 5 章)表明,新手傾向于估計幾乎所有缺失信息,而任務專家則能夠忽略信息,主要根據第一個可用的(也是最重要的)線索來估計信息。這與 Lane Defense 研究(第 8、9、10 章)中的策略選擇數據相吻合,這些數據表明,無論環境結構如何,新手都傾向于補償性決策行為,這違反了非補償偏置環境中的生態合理性。
最后,決策支持在被拒止和退化的環境中所能發揮的作用在這里得到了更充分的證實。第 6 章測試了獲取和限制信息的概率方法和基于規則的方法,結果表明基于規則和基于概率的修改技術都能帶來更大的決策結果。第 9 章將支持系統的設計向前推進了一步,對比了基于圖形用戶界面的隊友與基于獲取的隊友,前者可以卸載信息估算,而后者則采用第 6 章中基于規則的方法為參與者收集缺失的信息。結果發現,這兩種方法都能顯著提高新手和專家的成績。
面對未來復雜多變的戰場,軍事行動越來越需要自主能力更強的機器人為士兵提供支持。要在軍事行動的整個過程中建立人類與機器人團隊合作的共同基礎,就必須進行有效的溝通。然而,人們對混合主動協作的溝通類型和形式仍不完全了解。本研究探討了人機交互中的兩種交流方式--透明度和通信模式,并研究了在協作演習中,機器人隊友操縱這些元素對人類隊友的影響。參與者與計算機模擬的機器人一起執行一項類似 “警戒搜索 ”的任務。人機界面提供了不同類型的透明度--關于機器人單獨的決策制定過程,或關于機器人的決策制定過程及其對人類隊友決策制定過程的預測--以及不同的通信模式--或者向參與者傳遞信息,或者既向參與者傳遞信息又從參與者那里獲取信息。實驗結果表明,與互動性較弱的機器人相比,既能傳遞信息又能征求信息的機器人更有活力、更討人喜歡、也更智能,但與這些機器人合作會導致在目標分類任務中出現更多失誤。此外,回應機器人的行為也會導致正確識別的數量減少,但只有當機器人只提供有關其自身決策過程的信息時才會出現這種情況。這項研究成果為設計支持人機協作的下一代視覺顯示器提供了參考。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
本論文將雷達信號處理與數據驅動的人工神經網絡(ANN)方法相結合。信號處理算法通常基于對數據形成過程的建模假設。在某些情況下,這些模型足以設計出良好甚至最優的解決方案。
但在很多情況下,這些模型可能過于復雜,無法形成分析解決方案;可能過于簡化,導致實際結果與理論上的結果大相徑庭;可能是未知的,即多個已知模型或參數值中的一個可能適合數據,但我們不知道是哪個;或者過于復雜,導致解決方案的計算量過大。
數據驅動的方差網絡方法提供了彌合這些差距的簡單方法。我們在四項不同的研究中證明了這一點,在這些研究中,我們利用雷達數據模型來制定數據驅動型解決方案,這些解決方案既準確又具有計算效率。
我們將基于 ANN 的結果與計算要求極高的最小二乘法和窮舉匹配過濾法進行了比較。結果表明,ANN 的性能可與這些方法相媲美,但計算量卻很小。我們在使用各種參數值的模型采樣數據上訓練人工智能網絡。這自然可以處理漂移和未知參數值,它們可能會改變數據,但不會改變所需的預測結果。我們的研究表明,根據簡單模型的數據訓練出的 ANN 分類器的實際表現可能比理論預期的要差得多。我們通過將有限的真實數據與合成模型數據相結合來改善這種情況。在所有情況下,我們都使用了易于評估的模型。然而,這些模型的分析方法并不簡單,無法創建分析解決方案。
特別是,我們提出了一種實現非相干脈沖壓縮的方法,可在單脈沖寬度內分辨目標。我們提出了一種檢測微弱目標軌跡的方法,該方法無需事先假設目標加速度、信噪比等。我們介紹了在訓練無人機和非無人機目標分類器時納入不完美模型數據的不同方法。最后,我們介紹了一種估算海面多徑傳播路徑差的方法,用于目標跟蹤。
本文的主要重點是開發一種低成本、魯棒性和高效的合作定位解決方案,以幫助無人自主飛行器在全球定位系統缺失或性能下降的條件下進行導航。
首先,推導出固定翼無人機(UAV)和多旋翼無人機的完全可觀測性條件。創建了一個相對位置測量圖(RPMG),圖中的節點是車輛或已知特征(地標),它們之間的邊代表測量結果。利用圖論和線性代數概念,得出了可觀測矩陣最大秩的條件,并建立了可觀測矩陣秩與系統中可用測量值之間的關系。該分析條件的缺點之一是必須在所有時間時刻保持一個連通的 RPMG。因此,我們提出了一種離散時間可觀測性條件,即一個時間間隔內的 RPMG 的聯合必須是相連的。
接下來,將討論無人飛行器 (UV) 緊密協調和控制的一個基本問題。在各種應用中,飛行器的慣性位置并不重要。在這種情況下,車輛之間的相對姿態和方位對開發控制器非常有用。眾所周知,擴展卡爾曼濾波器(EKF)的性能非常出色,前提是它的初始化接近真實位置并能接收到測量結果。對于沒有任何全球定位系統(GPS)測量數據或網絡延遲嚴重(需要重新初始化濾波器)的長距離行駛車輛,已知先驗信息的假設是無效的。為了規避這些問題,我們開發了一種多假設卡爾曼濾波器(MHEKF),該濾波器在初始化過程中沒有先驗信息,這意味著相關的不確定性非常大。
最后,解決了地面車輛的分布式合作定位問題。集中式合作定位需要大量計算。我們開發了一種分布式合作定位算法,使組內的每輛車都能估計自己的慣性狀態。該算法是為自主地面車輛開發的,在仿真中僅使用測距數據。
圖 1.1:合作定位的相對位置測量圖,其中塔作為地標(已知興趣點),不同的 UV 相互合作。
本文是研究指揮與控制(C2)未來表現形式的四篇系列論文中的第一篇。第一篇論文通過探討未來指揮與控制(C2)系統需要在其中運行的未來作戰環境,為后續研究設定了基線。具體來說,本文探討了復雜性的驅動因素、表現形式和影響,而此前的研究表明,復雜性很可能是這一環境的特征。為此,它討論了 C2 和復雜性等關鍵術語的定義;介紹了未來運行環境中復雜性的一些驅動因素,并討論了這些因素如何對 C2 系統和組織造成新的壓力;研究了分析和理解復雜性的可能方法;并概述了 2030 年代及以后可能產生的一些實際考慮因素。由于本文旨在為本系列的后續三篇論文提供資料,因此沒有全面涵蓋未來 C2 思考的所有方面,包括提出具體建議。
C2 沒有直截了當的定義,對于該術語在當代作戰環境中的范圍和相關性也存在爭議。對 C2 傳統定義的批判來自于對 21 世紀有效領導力構成要素的更廣泛質疑。在英國、美國和北約,最近出現了大量與 C2 相關的新術語,并將重點從聯合思維轉向多領域思維。我們的研究將 C2 定義為一個動態的、適應性強的社會技術系統,因此有必要考慮組織、技術和人力要素。
同樣,復雜性也沒有一個公認的定義。學術界對復雜性的研究日益增多,涉及多個科學學科,但缺乏統一的方法或理論框架。一個有用的出發點是區分簡單系統、復雜系統、復雜系統和復雜適應系統。文獻還描述了在這些條件下可能出現的所謂 "棘手"或 "超級棘手問題"。還可以對有限博弈和無限博弈進行重要區分--這是考慮作為復雜適應系統的國家間競爭時的一個有用視角。鑒于這些爭論,我們的研究避開了對復雜性的僵化定義,而是從其關鍵屬性的角度對這一現象進行了 DCDC 式的描述。
未來作戰環境的特征--以及國防 C2 系統和組織預計將執行的任務類型--具有很大的不確定性,因此任何預測都必須謹慎。盡管如此,文獻指出了各種政治、經濟、社會、技術、法律、環境和軍事(PESTLE-M)趨勢,預計這些趨勢將影響國際體系的演變,進而影響 2030 年及以后的國防行動。這些趨勢包括以下宏觀趨勢
最重要的是,沒有一個單一或主要的趨勢推動著變化或復雜性;相反,最令人擔憂的是多種因素的融合及其不可預測的相互作用。這種認識為進一步研究這些趨勢影響國際體系復雜性水平和特征的具體機制提供了基礎,從而為在這一領域開展工作的 C2 帶來了新的挑戰。
上述 PESTLE-M 趨勢為未來組織應對 C2 帶來了一系列困境和壓力,包括但不限于
此外,無論是理論家還是實踐者,在處理包含非線性動態的問題時,都缺乏有力的措施來衡量所做決定或采取的行動的有效性。因此,很難確切地說未來作戰環境中的復雜性是否在客觀上不斷增加(而不是以不同的形式出現),但對軍隊應處理的復雜任務的政治期望與當前 C2 方法的執行能力之間顯然存在巨大差距。當前的學術理論為決定如何在復雜環境中配置 C2 提供了一個方法工具包的初步輪廓和一些指導原則,但并沒有提供靈丹妙藥。該理論強調審議分析方法,即讓不同利益相關者參與共同設計、借鑒多學科和知識體系的見解,并在分析和決策過程中建立靈活性,以便根據反饋意見不斷迭代和改進的方法。
要應對復雜的自適應系統,就必須摒棄當前的線性 C2 流程和等級結構,盡管在處理非復雜任務和問題時,更傳統的方法可能仍然有用。在競爭激烈的世界中,英國既需要培養能夠對他人施加建設性影響的特性和能力(例如,將復雜性強加給對手的 C2),也需要培養能夠增強自身駕馭復雜性能力的特性和能力。
要影響敵對行動者的觀念、決策和行為,首先要深入了解其 C2 結構、流程和文化。根據這種了解,英國國防需要一套動能和非動能杠桿,對敵方的 C2 施加建設性影響,包括施加復雜性。除了敵對行動者,英國國防部還需要進一步了解如何對 PAG、盟友、合作伙伴、工業界、學術界、公民和對 C2 采取截然不同方法的其他人施加建設性影響。
在增強英國自身應對復雜性的能力方面,未來的 C2 系統和組織必須促進靈活性、復原力以及學習和適應能力等特性。整個決策周期都需要變革。例如,傳感器和通信技術的進步為獲取更多深度和廣度的數據提供了機會,包括有關復雜問題的數據。因此,提高認知能力對于理解所有這些數據至關重要,既要利用人類和機器的優勢,又要減少各自的缺點。要改變決策方法,還需要改變領導風格,以培養更善于駕馭復雜適應系統的決策者。在做出決策或計劃后,提高跨部門或跨層級的能力,在實施階段更好地整合活動或匯聚效應,對于抵消英國的局限性(如在質量方面)至關重要。
同樣,整合也不是萬全的;如果國防缺乏足夠深度的力量和能力,無法在充滿敵意的威脅環境中采取可信行動或維持高節奏行動,那么即使是最高效的指揮控制系統也無法在未來取得成功。此外,還需要采取防御措施以及恢復和失效模式,以阻止或減輕敵方破壞 C2 系統和組織的努力所造成的影響。鑒于所面臨的威脅,以及英國國防可能需要解決的不同形式的復雜問題,很可能會同時出現多種并行的 C2 模式,而不是單一的方法。應對復雜性意味著不斷學習、適應、創新和開放求變。因此,必須從一開始就將效果衡量標準、信號和變革機制納入計劃以及 C2 系統和組織,使其能夠隨著時間的推移不斷學習和調整,以應對各種情況。至關重要的是,未來 C2 系統和組織的設計只是挑戰的一部分--它們還必須得到更廣泛的國防企業緊急改革的支持,以確保獲得所需的使能因素(人員、技術等)。從 C2 的角度來看,這本身就是一個挑戰,因為改變這個企業--一個復雜的適應性系統--本身就是一個棘手的問題。
學術理論家和政府、軍事或工業從業人員對復雜性或復雜適應系統的理解并不全面,而這正是未來 C2 運行環境的特點。雖然文獻提供了處理復雜性的有用方法和工具,以及未來 C2 的一些初步設計考慮,但英國 C2(本身就是一個社會技術系統)的現代化和轉型將是一項高度復雜的工作。這意味著要與不斷發展的作戰環境、不斷變化的威脅和技術環境共同適應,從而進行迭代和不斷學習。因此,最緊迫的挑戰或許是,考慮到 C2 系統在未來面對復雜性時取得成功所需的轉型(技術、結構、流程、文化、教育等)的程度和性質,了解如何在一段時間內最好地引導這一過程。
自相矛盾的是,要克服實現以應對復雜性為目標的 C2 系統所面臨的障礙,可能需要英國國防部已經表現出其所尋求建立的系統的許多特征。面對這樣的循環邏輯,英國國防部可能需要某種外部沖擊來迫使其進行創造性的破壞,或者利用(或不顧)更傳統、線性的 C2 方法來啟動自身的激進改革努力,并隨著時間的推移,隨著變化的到來而進行調整。
**近年來,具有復雜自主行為的智能體和系統的發展加快。**隨著這些智能體行動的后果開始在社會中顯現,對理解其決策的需求推動了對機制的研究,以獲得與人類推理兼容的解釋。然而,可解釋系統的設計往往沒有考慮解釋可能給機器和人類智能體帶來的影響。本文探討了這一挑戰。
**該方法首先著眼于具有復雜監管的分散環境,在這些環境中,必須交換解釋,以確保智能體之間的有序交互。**為將人類規則集轉換為機器兼容的推理機制,本文提出一種基于辯論的人-智能體架構,將人類規則映射到具有可解釋行為的人工智能體的文化中。在混合的、可解釋的人-智能體設置下的用戶研究表明,系統復雜性是解釋對人類有用的決定因素。對于自主智能體,隱私性和部分可觀察性會在分散系統中引入主觀不公平性的概念。本文表明,這種影響也可以通過使用有效的解釋來緩解。
**以類似的方式,研究了強化學習(RL)智能體,并研究了定向具有可解釋特征的學習機制的可能性。**將此過程稱為解釋感知經驗回放(XAER),并證明了解釋工程可以用來代替具有可解釋特征的環境的獎勵工程。進一步,將這一概念擴展到多智能體強化學習中,并展示了如何在具有部分可觀測性的環境中交換解釋,以獲得更魯棒和有效的集體行為。結論是,可解釋系統的設計不僅要考慮解釋的生成,還要考慮解釋的消耗。解釋可以作為交流精確和精煉信息的工具,人類智能體獲得的見解也可以由機器智能體獲得,特別是在具有分散智能體或部分知識的系統中。
圖聚類是無監督學習中的一個基本問題,在計算機科學和分析現實世界數據中有著廣泛的應用。在許多實際應用中,我們發現聚類具有重要的高層結構。這在圖聚類算法的設計和分析中經常被忽視,因為這些算法對圖的結構做了強烈的簡化假設。本文討論了聚類結構是否可以有效學習的自然問題,并描述了四個用于學習圖和超圖中聚類結構的新算法結果。論文的第一部分對經典的譜聚類算法進行了研究,并對其性能進行了更嚴格的分析。這一結果解釋了為什么它在更弱、更自然的條件下工作,并有助于縮小譜聚類算法的理論保證與其優秀的經驗性能之間的差距。
論文的第二部分在前一部分的理論保證的基礎上,表明當底層圖的簇具有一定的結構時,少于k個特征向量的譜聚類能夠比使用k個特征向量的經典譜聚類產生更好的輸出,其中k是聚類的個數。本文首次討論和分析了少于k個特征向量的譜聚類的性能,并表明一般的聚類結構可以用譜方法學習。第三部分考慮使用局部算法高效地學習簇結構,其運行時間僅依賴于目標簇的大小,且與底層輸入圖無關。經典的局部聚類算法的目標是找到一個與圖其他部分稀疏連接的簇,本文的這一部分提出了一種局部聚類算法,它可以找到一對彼此緊密連接的簇。這一結果表明,即使在現實世界中普遍存在的大圖中,某些聚類結構也可以在局部環境中有效地學習。
論文的最后研究了超圖中密集連接聚類的學習問題。該算法基于一種新的熱擴散過程,擴展了最近在超圖譜理論方面的一系列工作。它允許在建模對象的高階關系的數據集中學習簇的結構,可以應用于有效分析在實踐中發生的許多復雜數據集。在不同領域的合成數據集和真實數據集上進行了廣泛的評估,包括圖像分類和分割、遷移網絡、合著網絡和自然語言處理。實驗結果表明,新提出的算法是實用、有效的,可以立即應用于實際數據的聚類結構學習。
信息論和統計學之間的相互作用是兩個領域發展的永恒主題。本課程將討論基于信息理論的技術如何在理解高維統計問題的極大極小風險和樣本復雜性的基本極限方面發揮關鍵作用。特別地,我們將嚴格證明通過固有低維(稀疏性、平滑性、形狀等)或不太熟悉的外在低維(功能估計)來降維的現象。為了補充理解基礎極限的目標,另一個重要的方向是開發達到統計最優的計算效率程序。