在現代的統計和機器學習模型中,通常會施加結構約束以提高模型的可解釋性和降低模型復雜性。在這篇論文中,我們展示了一些可擴展的優化方法,用于處理在結構約束下的大規模機器學習問題,特別關注的是非參數統計的形狀約束和高維統計的稀疏性。在第一章中,我們考慮了梯度正則化的凸回歸問題,該問題的目標是在目標變量和協變量之間擬合一個凸函數。我們提出了新穎的大規模算法,這些算法基于近端梯度下降和活動集方法,并為我們提出的算法推導出了新穎的線性收斂保證。從實證結果來看,我們的框架可以在幾分鐘內大致解決?? = 105 和?? = 10的實例。在第二章中,我們開發了一個新的計算框架,用于計算對數凹密度的最大似然估計,這個框架基于平滑技術和逐漸提高精度的適當積分離散化。我們證明了我們的方法的收斂性,并顯示出比早期的凸方法明顯的運行時間改善。在第三章中,我們關注的是高斯圖形模型,該模型旨在從獨立同分布的多元高斯樣本中估計稀疏的精確矩陣。我們通過?0?2-penalized偽似然提出了一種新的估計器。然后,我們設計了一種專門的非線性Branch-and-Bound(BnB)框架,該框架解決了提出的估計器的混合整數編程(MIP)公式。我們的估計器在計算上可以擴展到?? ~ 10,000,并且相比于競爭的?1方法提供了更快的運行時間,同時帶來了優越的統計性能。
在第四章中,我們進一步研究如何改進用于具有?0?2懲罰和一般凸平滑損失的稀疏學習問題的BnB框架。我們在BnB框架內提出了一種新穎的篩選程序,以保證將松弛變量固定為0或1。我們的實驗表明,這種篩選程序可以顯著減少BnB求解器的運行時間。
本論文聚焦于兩個選定的學習問題:1)圖模型上的統計推斷;2)神經網絡上的梯度下降,共同的目標是定義和分析表征基本限制的度量。
在論文的第一部分,我們考慮了圖上的自旋同步問題,該問題包括基于圖邊緣上它們的交互的噪聲觀察來重構圖頂點上的n個獨立自旋的向量。特別是,我們考慮了帶擦除(BEC)邊信息的同步模型,在這些模型中,一小部分節點的自旋被揭示,并研究了這樣的邊信息如何影響遠距離位點上的自旋的相關性。我們表明,在樹上,當邊緣觀察給出的遠距離位點上的自旋幾乎是獨立的時,那么給出邊緣觀察和邊信息的自旋仍然幾乎是獨立的。我們推測這對任何圖都適用。另一方面,(Kanade等人,2014)推測,在正規樹和Galton-Watson樹上,只要揭示了任何小部分節點標簽,無窮深度處的邊界就無法檢測到根位,即使在重構范圍內也是如此。我們解釋了這如何用于計算具有兩個對稱社區的稀疏隨機塊模型(SBM)的極限熵。最后,我們表明,后一推測不適用于每一棵樹。
在論文的第二部分,我們考慮了用全連接神經網絡上的梯度下降(GD)學習布爾目標函數的問題。我們引入了一個概念,即神經網絡在初始化時與目標函數之間的“初始對齊”(INAL),并證明如果網絡和目標在初始時沒有顯著的INAL,那么在具有i.i.d. 高斯初始化的全連接網絡上的帶噪聲梯度下降無法在多項式時間內學習目標。我們表明,對于用相關性損失訓練的有限深度網絡,結果可以擴展到布爾輸入之外。此外,我們證明,在相似的設置中,泛化誤差可以用目標函數的噪聲穩定性來下界,支持了(Zhang等人,2021)提出的一個推測。
然后,我們展示,在分布轉換設置中,當數據扣留對應于凍結單一特征時,泛化誤差在幾個相關架構上都承認布爾影響的緊密特征。這一點在線性模型上得到了證明,并在其他模型,如MLP和Transformers上得到了實驗支持。特別是,這提出了這樣一個假設,對于這些架構和學習邏輯函數,GD傾向于對低度表示有一個隱性偏好。
最后,我們考慮了一種‘課程學習’(CL)策略,用于學習二進制字符串上的k奇偶校驗。我們表明,一個明智的訓練樣本選擇,涉及兩個或更多的產品分布,允許在d^O(1)時間內用GD訓練的全連接神經網絡學習k奇偶校驗。我們進一步表明,對于另一類函數,即‘漢明混合’,涉及有界數量的產品分布的CL策略不是有益的。
視頻場景理解涵蓋了多個基礎且具有挑戰性的計算機視覺任務,這些任務相互補充。其中一些任務本質上是基于一系列連續的圖像進行推理,而其他任務可以分別在每個幀上處理。在這篇論文中,我們專注于這些任務的一個子集,從全局場景理解的角度開始,使用語義分割,最終關注于更局部的視覺對象跟蹤(VOT)和視頻對象分割(VOS)。在這個范圍內,我們探討了利用和結合時間線索來提高處理視頻時場景理解算法的不同方法。更具體地說,我們首先在第一部分分析了視頻中發現的時空相關性如何用來提高單幀語義分割方法的幀率或準確性。首先,我們使用光流作為在幀之間傳播語義信息的手段,并構建了一個實時視頻語義分割的流程,該流程在GPU和CPU之間平衡計算負載。我們沒有設計一個重型的神經網絡在GPU上推斷所有內容,而是建議將GPU任務集中在從零開始預測分割掩模或完善傳播的標簽上。與此同時,運行在CPU上的快速光流提供了從一個幀移動到下一個幀的運動矢量。對于可能的光流錯誤,精細化由一個輕量級模塊進行。我們提出了幾個操作點,提供了速度和準確性之間的不同權衡,并觀察到我們的方法可以在分割準確性略有下降的情況下大大加速。接著,我們提出直接利用時態相關性和外觀線索,而無需額外的光流模塊。為了實現這一目標,我們在一個記憶模塊中匯總來自先前幀的語義信息,該模塊可以通過注意機制來使用。我們設計了我們的流水線,首先訪問存儲在內存中的過去幀的深度特征,并在每個像素周圍的局部鄰域中匹配它們。這些時空線索隨后與當前幀編碼融合,以提高最終的分割預測。我們的方法引入了一套簡單而通用的模塊,這些模塊可以將幾乎任何現有的單幀方法轉換為視頻流水線。我們在兩個流行的單幀語義分割網絡上展示了我們的架構在分割準確性方面的改進。在第二部分,我們將注意力轉向在視頻中跟蹤和分割單個對象的任務,并希望彌合兩者之間的鴻溝。我們特別研究它們之間的關系,并展示在VOT背景下使用分割掩模的好處。為此,我們提出了一個以分割為中心的方法,與大多數現有方法相反,該方法在內部使用分割掩模,并無需額外模塊就能預測分割掩模。一個受現有跟蹤器啟發的專用實例定位分支被用來為VOT挑戰帶來必要的魯棒性,并調節分割解碼器以預測正確的分割掩模。我們展示了與其他跟蹤器相比,我們的統一架構在魯棒性和準確性方面都取得了最先進的結果,同時生成了準確的分割掩模。
在這篇論文中,我們研究了深度強化學習中的對稱性和結構。我們將論文分為兩部分。在第一部分,我們探討如何在強化學習中利用對稱性的知識。在第二部分,我們提出了一些方法,用于學習智能體的環境和狀態的結構。我們提出了MDP 同態網絡,這是一種在 MDP 的聯合狀態-動作空間下對稱性下是等變的神經網絡。由于等變性,我們發現與非等變的基線相比,數據效率得到了提高。我們提出了多智能體MDP 同態網絡,一類網絡,允許使用僅局部信息的分布式執行,但能夠在合作多智能體系統的聯合狀態-動作空間的全局對稱性之間分享經驗。我們顯示全局等變性比對稱協調問題的非等變分布式網絡的數據效率更高。我們提出了 PRAE。PRAE 利用動作等變性進行強化學習中的表示學習。動作下的等變性表明輸入空間中的轉換被潛在空間中的等效轉換所鏡像,而映射和轉換函數也應該交換。我們證明,在某些假設下,學到的映射是一個 MDP 同態,并且通過實驗證明該方法是數據高效的,易于訓練,能很好地推廣到具有相同環境動力學的新目標狀態和實例。我們提出了 C-SWMs,它使用對比編碼和圖神經網絡轉換函數,從像素中找到狀態的面向對象的表示。我們顯示與使用解碼器、非結構化轉換或非結構化表示相比,在多步預測和泛化到未見環境配置方面有所改善。
對稱性和結構無處不在。當我們行走時,右腿的運動鏡像了左腿的運動。當分子旋轉時,它們的分子性質不變。當我們導航到一個目的地時,我們會考慮不同路段的連通性。當我們交談時,我們可以將單詞串聯起來,形成完全新的句子。在日常生活中,我們使用關于任務的對稱性和結構的信息來指導我們的決策制定。
在人工智能中,對稱性和結構也無處不在。考慮一下在運動過程中鏡像左右腿運動的機器人,自動化芯片設計,追蹤野生動物運動的無人機群,玩 Atari Pong 的機器人,其中屏幕的上下部分是彼此的反射,分子設計,計算機玩家在圍棋游戲中考慮旋轉的棋盤狀態,以及自動駕駛車輛從荷蘭的右側道路切換到英國的左側道路。這些都是 AI 中展示了某種對稱性或結構的任務的例子。利用固有對稱性和結構的知識是構建可擴展系統的重要一步。
強化學習是人工智能的一個基礎研究領域,它鼓勵智能體從正反饋信號中學習,我們稱這為獎勵。通過試錯,智能體可以學會將情境、動作和反饋關聯起來,從而改善其決策。例如,我們可以給一個機器人正向獎勵以鼓勵它快速行走,而給它負向獎勵以防止它跌倒。同樣,我們可以給計算機玩家正向獎勵以鼓勵它贏得比賽,負向獎勵以防止輸掉比賽,或者給一個提出特別高效的芯片設計的智能體正向獎勵。使用強化學習領域的概念,我們可以將上述示例正式化,以提出導致智能體做出良好決策的方法。在深度強化學習中,智能體使用神經網絡來決定采取哪個動作,而神經網絡會根據收到的獎勵信號適應任務。然而,即使是那些遠遠不及人類能力的智能任務,對于人工決策者來說也可能會遇到問題。考慮任何一個在現實世界中運作的基于視覺的控制系統。智能體接收到攝像頭輸入作為觀測,然后必須學習采取最佳動作。可能的觀測數量是極其龐大的,而智能體不太可能遇到兩個完全相同的狀態。因此,我們希望智能體能夠重用先前狀態的經驗,以便在具有相似特征的未見狀態中做出良好的決策。例如,在決定如何移動左腿時,智能體應該模仿它學到的移動右腿的動作。
上述示例只是強化學習問題中對稱性和結構出現的幾個案例。這可以通過考慮在一個狀態中采取一個動作是否等同于在另一個狀態中采取另一個動作來形式化。在這篇論文中,我們將研究當我們知道對稱性和結構時如何在強化學習中使用它,以及如果不知道時如何提取它。智能體不應該學習已知的東西。知識是由系統設計者作為先驗知識提供的,還是通過智能體自身的泛化獲得的,應取決于問題的上下文。通過適當地重復使用知識,我們可以減少智能體需要與世界互動的次數,這是擴展到真實世界設置的重要部分。在這篇論文中,我們將特別關注強化學習中的對稱性和結構。
在這篇論文中,我們研究了穩定性的兩個不同方面:神經網絡動態模型的穩定性以及強化學習算法的穩定性。在第一章中,我們提出了一種新的方法,用于學習李雅普諾夫穩定的動態模型,這些模型在隨機初始化時甚至也是穩定的。我們在阻尼多鏈接擺上展示了這種方法的有效性,并展示了如何將其用于生成高保真度的視頻紋理。在第二和第三章中,我們關注強化學習的穩定性。在第二章中,我們證明了正則化作為解決不穩定性的常見方法在強化學習環境中的行為是違反直覺的。它不僅有時無效,還可能導致不穩定性。我們在線性和神經網絡環境中展示了這一現象。此外,標準的重要性抽樣方法也容易受到這種影響。在第三章中,我們提出了一種通過重新采樣來穩定離策略強化學習的機制。稱為“投影離策略時序差分(POP-TD)”,它重新采樣TD更新,使其來自“安全”分布的凸子集,而不是(如其他重新采樣方法中的情況)重新采樣到在策略分布上。我們展示了這種方法如何在一個旨在最大化分布偏移的任務中緩解離線強化學習中的分布偏移問題。總體而言,這篇論文在動態模型穩定性和強化學習訓練穩定性方面提出了新穎的方法,對領域內現有的假設提出了質疑,并指出了模型和強化學習穩定性的有希望的發展方向。
在這篇論文中,我們研究了兩種穩定性概念:神經網絡動態模型的穩定性和強化學習算法的訓練穩定性。從第一個穩定性概念自然地過渡到第二個穩定性概念:穩定訓練模型的參數在參數空間中限定了一個穩定軌跡。這種穩定性之間的關系在時序差分(Temporal Difference,TD)學習理論的基礎工作中有重要的先例[54]。
在第一章中,我們提出了一種全新的方法,以完全端到端的方式學習李雅普諾夫穩定的動力學模型和認證的李雅普諾夫函數。與通過某種損失函數強制穩定性不同,我們通過構造確保在任何地方都能保證穩定性。這通過精心構建一個神經網絡作為李雅普諾夫函數,學習一個單獨的、無約束的動力學模型,然后將這兩個模型與一種新穎的重新投影層結合起來實現。這樣可以在狀態空間的任何地方通過構造保證模型穩定,即使沒有任何訓練。我們展示了這種學習系統能夠模擬簡單的動態系統,如擺,還可以與額外的深度生成模型結合,以完全端到端的方式學習復雜的動態,例如視頻紋理。
在現代強化學習中,時序差分(Temporal Difference,TD)與函數逼近(即神經網絡)和離策略學習相結合。然而,這三者被稱為“致命三重奏”[48,第264頁],因為它們可能在學習過程中引發嚴重的不穩定性(Tsitsiklis和Van Roy [54])。盡管許多TD的變體在訓練不穩定性的情況下可以證明收斂,但在收斂時解的質量通常會非常差[24]。在文獻中,人們普遍認為正則化可以緩解這種不穩定性,這在對三個標準示例的基本分析中得到了支持。
然而,這并不正確!在第二章中,我們引入了一系列對正則化不敏感的新的反例。我們展示了存在“虛無”示例,無論正則化的數量如何,這些示例都不會比極限情況表現得更好。這個問題在大多數基于TD的算法中仍然存在,而這涵蓋了廣泛的強化學習文獻;我們通過展示這個例子如何迫使張、姚和Whiteson [63]得出的誤差界在實際中變得極其寬松來使我們的分析更具體。我們進一步證明,在TD環境中,正則化并不是單調的,而且正則化可能會在某些臨界值附近增加錯誤(或導致發散)。我們將這些例子擴展到神經網絡情況,表明這些影響并不局限于線性情況,并為在實際強化學習應用中更加謹慎地進行正則化提出了理由。最后,從Emphatic-TD開始,有一系列旨在通過重新采樣TD更新以使其出現在策略上來穩定離策略訓練的工作。當代的Emphatic算法通常使用反向版本的TD來估計重新采樣函數,這使它們容易受到與原始TD相同來源的不穩定性的影響。我們展示了這些技術同樣容易受到攻擊。我們表明,正則化并不是解決TD學習中穩定性問題的萬應草。
在第三章中,我們探討了對離策略發散有抵抗力的穩定TD學習的新方法。從Kolter [24]提出的一個想法出發,我們推導出了投影離策略時序差分(Projected Off-Policy TD,POP-TD),它將TD更新重新加權為最接近的分布,該分布在其訓練的固定點處是非擴張的。我們在訓練循環中使用隨機梯度下降學習重新加權因子(即時間和空間復雜度與學習值函數相當),然后將這些重新加權因子應用于每個TD更新。關鍵的是,與文獻中的現代工作不同,POP-TD不會重新采樣為在策略分布,而是尋找一個接近數據分布的“安全”分布。將其應用于新穎的離線強化學習示例中,我們可以清楚地演示POP-TD如何在盡量少重新采樣的情況下緩解數據集和學習策略之間的分布偏移問題[30]。
在這篇論文中,我們研究了穩定性的兩個不同方面:神經網絡動態模型的穩定性和強化學習算法的穩定性。在第一章中,我們提出了一種新的學習方法,可以構造出穩定的Lyapunov動態模型,即使在隨機初始化時也是穩定的。我們通過對阻尼多連桿擺進行實驗,展示了這種方法的有效性,并展示了如何用它來生成高保真的視頻紋理。在第二章和第三章中,我們關注強化學習(RL)的穩定性。在第二章中,我們展示了正則化,一種常見的解決不穩定性的方法,在RL環境中的反直覺行為。它不僅有時無效,而且可能導致不穩定性。我們在線性和神經網絡環境中都證明了這種現象。此外,標準的重要性采樣方法也容易受到這種影響。 在第三章中,我們提出了一種通過重新采樣來穩定離策略強化學習的機制。這種方法被稱為投影離策略TD(POP-TD),它將TD更新重新采樣為來自“安全”分布的凸子集,而不是(如在其他重新采樣方法中)重新采樣為在策略分布。我們展示了這種方法如何在一個設計為最大化此類轉換的離線RL任務中緩解分布轉換問題。總的來說,這篇論文提出了動態模型穩定性和強化學習訓練穩定性的新方法,對該領域的現有假設提出了質疑,并指出了模型和強化學習穩定性的有前景的研究方向。
機器學習算法廣泛應用于具有社會高風險的決策環境中,如兒童福利、刑事司法、醫療保健、招聘和消費者貸款。近期的歷史已經揭示出許多這些算法證明不可靠或不公平的例子。本論文提出了一種遵循原則的方法,用于在社會高風險環境中使用機器學習,該方法由三大支柱引導:有效性、公平性和監管。我們借鑒了包括統計學、機器學習和社會科學在內的各個領域的方法,開發出處理數據挑戰和復雜偏見的新方法,這些偏見嵌入在社會技術系統中。我們通過開發考慮到選擇偏差、混淆和bandit反饋的算法風險評估方法,解決了挑戰算法決策支持系統有效性的數據問題。我們對整個系統中使用算法進行決策的偏見進行了因果審計。在整個過程中,我們提出了使用雙重穩健技術進行偏差修正的新方法。我們使用來自阿利根尼縣人力服務部、澳大利亞聯邦銀行和斯坦福公開警察項目的數據,展示了在兒童福利、消費者信貸和刑事司法環境中的實證結果。 機器學習越來越多地被用于做出高風險決策,例如兒童福利、刑事司法、消費者貸款、教育和醫療保健(Saxena等人,2020;Vaithianathan等人,2017;Raghavan等人,2020a;Chouldechova,2017;Cattell等人,2021)。這些決策影響未來的健康和經濟機會,總的來說,它們塑造了我們的社會結構。通常,這類任務可用的數據豐富,但往往噪音大,存在偏見或不完整。如果不能妥善處理這些數據問題,可能會對弱勢和歷史上邊緣化的群體造成不成比例的傷害(Barocas和Selbst,2016b;Obermeyer等人,2019a;Coston等人,2020b, 2021a)。在這篇論文中,我們開發了統計方法和一個審議框架,用來識別并解決挑戰機器學習在重要環境中負責任使用的數據問題。當機器學習被用于高風險決策時,一個常見的方法是應用標準的監督學習范式。在這種方法下,人們識別出一個感興趣的結果(通常是實際感興趣的結果的代理),然后使用其他變量作為預測因子,構建一個對這個結果的預測模型。當數據集并不代表機器學習工具將要部署的目標人群,且預測結果與決策任務相關的結果可能大相徑庭時,這種標準方法通常并不適合,這在現實世界的應用中是常見的(Mullainathan和Obermeyer,2021;Coston等人,2020b;Fogliato等人,2021;Wang等人,2022)。此外,計算在保留的集合上的測試指標的標準性能評估方法,往往不能對目標人口的性能提供有效的評估(Kallus和Zhou,2018b;Coston等人,2021b)。
這篇論文的一個核心原則是,我們必須確保我們打算測量的內容(例如,我們希望機器學習工具預測的內容,或者我們希望評估衡量的內容)與方法實際測量的內容保持一致。這種屬性被稱為有效性(Coston等人,2023)。未處理的數據問題,如選擇偏見或缺失數據,可能導致不一致,使機器學習工具無效。我們討論了在兒童福利、刑事司法和消費者貸款環境中這些問題的例子,并提出了解決方法。我們展示了有效性和我們的第二個原則,公平性,之間的關系,公平性要求機器學習工具不無理由地使某些人口群體比其他群體獲得優勢。我們表明,通常是弱勢或歷史上處于劣勢的人群最有可能在可用數據中被忽視或被誤解。我們提出了可靠評估算法中人口偏見的方法,以及在算法工具部署的更廣泛環境中審查有效性和公平性的方法。在實踐中有效地分析有效性和公平性需要治理工具,提供保護和結構化流程,以謹慎設計和評估機器學習工具。我們開發了一個框架,指導圍繞威脅預測算法的有效性和合法性的常見問題進行審議。本文提出的方法構成了對于重大決策的標準機器學習范式的一種替代方法。我們的原則性方法明確了目標人口和目標結果,調整了數據樣本和目標人口之間的任何差異,做出了合理的假設以確定目標結果和評估指標。我們開發了高效的方法,使用來自因果推斷的影響函數技術來估計這些量,這是一種適用于決策可以改變下游結果的決策環境的學科。我們為我們的方法提供了理論分析,說明如何適當地量化不確定性。本論文提出的方法套件組成了一套用于模型構建、評估和公平性評估的負責任使用的工具包。
我們在§ 0.1中描述了問題設定和符號。接下來的三個部分考慮在缺失數據的性質不同假設下如何獲得有效的預測、評估和公平性評估。§ 1描述了當我們已經測量了所有共同影響決策和感興趣結果的混淆因素時的方法。在許多決策支持環境中,混淆因素可能難以在運行時測量并輸入到預測模型中,但在離線數據集中可能仍然可用于訓練和評估。§ 2為這種“運行時混淆”設置提供了方法。§ 3通過拉舍蒙效應的視角深入研究公平和公正的問題,拉舍蒙效應是一種實證現象,即多種模型在總體上達到可比較的好的表現,但在個別預測上卻明顯不同。§ 4描述了一個框架,用于在算法設計中審查有效性,并最終決定是否在高風險環境中部署一個工具。擴大我們的范圍到算法被訓練和使用的更廣泛的背景中,§ 5提出了一個對刑事司法系統中人類決策的種族偏見進行回顧性統計審計的方法。我們在本節提出的方法也展示了如何在對社會有重大影響的領域使用機器學習來評估這些系統以及在其中行使權力的行動者。我們將本論文中提出的工作與我們的三個指導原則:有效性、公平性和治理,聯系起來。
在這篇論文中,我們考慮了多模態在機器學習決策和協調問題中的作用。我們提出使用一系列多模態概率方法,使用(有限)混合模型的擴展來解決時間序列預測的挑戰,神經網絡中的高效不確定性量化,對抗模型和多智能體協調。在論文的第一部分中,我們關注多模態不確定性估計在時間序列預測中的應用,表明這種方法提供了易于操作的、有益的替代點估計方法,點估計仍然是預測的普遍選擇方法。我們討論了多模態不確定性的意義,并展示了更熟練的方法估計后驗目標分布的必要性。我們提出了一系列計算高效,但有能力的方法來估計豐富的多模態后驗分布。我們將我們的模型與用點測量或單峰分布估計不確定性的技術進行了比較,并在生成對抗網絡的啟發下,對所開發的方法進行了擴展,以此結束本部分。我們表明,該方法對加性噪聲提供了最先進的魯棒性,使其特別適用于包含大量未知隨機的數據集。
在本工作的第二部分,我們研究了協作多智能體系統(CMASs)的多模態模型的重要性,并將我們的工作擴展到采用概率方法。到目前為止,這一領域的大多數研究都局限于考慮自玩范式,即使這些方法解決了各種具有挑戰性的問題。雖然這些進步是重要的,但在自玩中使用任意約定會導致當智能體在此設置之外玩時的協調問題。我們考慮了特殊的CMAS設置,遠離了自玩框架。這是機器學習中一個特別具有挑戰性的領域,也是近年來備受關注的一個領域,為AI智能體在現實世界中能夠與人類(和其他智能體)有效交互提供了希望。我們通過在其他主體的策略上建立后驗信念來解決特別協調問題。這是通過吉布斯抽樣的擴展來實現的,以獲得接近最優的即席性能。我們在具有挑戰性的游戲Hanabi上測試了我們的算法,Hanabi是合作多智能體強化學習中最著名的測試平臺之一,近年來已成為一個具有發展勢頭的基準。我們表明,我們的方法可以實現強大的交叉游戲,即使與看不到的合作伙伴,實現成功的臨時協調,無需預先了解合作伙伴的戰略。
多模態數據融合是將不同的數據源集成到一個適用于復雜推理的共享表示的過程。因此,人們可以對潛在現象做出比單獨使用每個數據源更精確的推論。在論文中,我們采用貝葉斯觀點的多模態數據融合,它將推理定義為對潛在變量的后驗推理。在貝葉斯設置中,我們提出了一種新的數據集成方法,我們稱之為輕量級數據融合(LDF)。LDF解決了數據源子集的正向模型未知或特征不佳的情況。LDF利用剩余的數據源學習適合后驗推斷的逆模型,該模型結合了這兩種類型的數據。此外,我們開發了分層Dirichlet過程(mmHDPs)的多模態擴展,其中,與LDF的設置相比,我們缺乏跨模態的觀察級對應,數據來自隱式潛在變量模型。最后,我們為Dirichlet過程和HDP混合模型開發了一種新穎的表示,可以在推理過程中實現并行化,并擴展到更復雜的模型,包括mmHDPs。
我們解決數據融合的問題,即從多個數據源學習。我們考慮了幾個具體的挑戰:例如,某些數據源可能缺乏特征良好的正向模型,或者底層模型的復雜性可能未知。我們采用貝葉斯視角,將數據融合問題視為對潛在變量結構的后驗推斷,并允許進行各種分析,包括不確定性量化、優雅地處理缺失數據和模型檢查。然而,貝葉斯推斷也提出了自己的挑戰。后驗推斷的常見方法不適應缺乏前向模型或難以適應大數據集的觀察模式。
本論文的一個重要重點是開發能夠實現高效和并行的后驗推理的表示。我們特別關注多模態數據融合中的兩個明顯挑戰。首先,當一個或多個觀察模態缺乏特征良好的前向模型,并且我們也缺乏明確標記的訓練數據,從而允許直接學習前向模型時,我們考慮學習。在這里,我們使用了來自不同模態的數據,它具有一個特征良好的正態模型,與未校準的數據一起出現。我們提出了一種方法,該方法使用具有良好校準數據的聯合觀測來學習一種模態的逆模型。其次,我們試圖從多種測量模態中學習,其中跨模態的觀察之間的直接對應是不可用的。我們利用不同模態的數據組之間的對應關系來揭示共同表示。在這里,我們開發了層次Dirichlet過程(HDP)混合模型的擴展,將不同的模態表示為子文檔。本文解決了這兩個問題,并開發了一種新的Dirichlet過程(DP)和HDP混合模型的表示,從而產生了一個并行推理過程。
在第三章中,我們提出了輕量級數據融合(LDF)。LDF是一種基于多源數據的貝葉斯推理新方法,其中一些源缺乏已知的正演模型。雖然與論文中的其他章節略有不同,但LDF確實解決了多模態數據融合中的一個常見挑戰。LDF的一個核心組成部分是它將未校準的數據源簡化為一組描述后驗分布的信息統計數據。我們為一般的模型結構制定了LDF,并表明我們的構造導致了有效的推理和一個易于處理的學習過程,具有吸引人的信息理論屬性。LDF使用具有已知可能性的數據類型來幫助學習如何對具有未知可能性的數據類型設置條件。
在第四章中,我們開發了一種新的DP和HDP混合模型的表示,這對設計高效的推理程序有重要的意義。在本章中,我們假設數據的正向模型是已知的,與第3章不同;我們將使用在第5章中開發的方法。特別地,我們引入了DP和HDP混合模型的聚合表示,它們既有被實例化的顯式原子,也有被聚合成未實例化組件的隱式原子。未實例化組件是延遲實例化Gibbs采樣器的核心,它允許并行執行許多采樣操作。
我們在第5章中介紹了DP和HDP混合模型的擴展,它可以容納多個數據源,并允許學習聯合依賴。在第4章中,我們假設數據的正向模型是已知的。本章使用底層的泊松過程表示定義了多模態DP和HDPs,并將它們用作混合模型的基礎。所得到的模型可以被視為所有模態的聯合措施,也可以被視為適用于單個模態的邊際隨機措施。我們提供了這些模型的幾種特征,指定了折疊推理過程,并使用第4章中的延遲實例化開發了一個并行推理過程。
在本論文中,我們研究了兩類涉及大規模稀疏圖的問題,即圖數據的壓縮問題和網絡中的負載均衡問題。我們利用局部弱收斂的框架,或所謂的目標方法來實現這一點。這個框架提供了一個觀點,使人們能夠理解稀疏圖的平穩隨機過程的概念。
利用局部弱收斂框架,我們引入了有根圖上概率分布的熵概念。這是Bordenave和Caputo將熵概念推廣到頂點和邊帶有標記的圖上。這樣的標記可以表示關于真實數據的信息。這種熵的概念可以看作是稀疏圖數據世界中香農熵率的自然對應。我們通過介紹一種用于稀疏標記圖的通用壓縮方案來說明這一點。此外,我們研究了圖數據的分布式壓縮。特別地,我們介紹了一個關于稀疏標記圖的Slepian-Wolf定理的版本。
除了研究壓縮問題外,我們還研究了網絡中的負載均衡問題。我們通過將問題建模為超圖來實現這一點,其中每個超邊表示承載一個單元負載的任務,而每個頂點表示一個服務器。配置是分配此負載的一種方式。我們研究平衡分配,粗略地說,就是沒有需求希望改變其分配的分配。將局部弱收斂理論推廣到超圖,研究了均衡分配的某些漸近行為,如典型服務器上的漸近經驗負荷分布,以及最大負荷的漸近性。
本文所研究的問題可以作為實例來說明局部弱收斂理論和上述熵概念的廣泛適用性。事實上,這個框架為稀疏標記圖提供了平穩隨機過程的觀點。時間序列理論在控制理論、通信、信息論和信號處理等領域有著廣泛的應用。可以預料,平穩隨機過程的組合結構理論,特別是圖形,將最終有類似廣泛的影響。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-166.html