潛在博弈中的學習和基于共識的分布式優化是這項工作的重點。對潛在博弈的分析是由博弈論設計激發的,它將多智能體系統中的優化問題轉化為模型化的潛在博弈中函數最大化問題。在不同的工程應用中,處理網絡系統越來越受歡迎,這支持了人們對基于分布式共識的優化的興趣。
本書研究了使系統中的多智能體收斂到某種最優狀態的算法。這些算法可以根據系統的信息結構進行分類。所考慮的程序的一個共同特點是,它們不要求智能體有記憶來遵循規定的規則。提出了一個適用于具有離散狀態和基于預言機信息的無記憶系統的一般學習動力學。提供了一些保證該算法的有效行為的設置。考慮了這種高效的一般學習程序的一個特殊類型,稱為Logit動力學。此外,異步和同步Logit動力學被擴展到具有連續行動的博弈情況。也討論了這種連續狀態動力學的收斂保證。此外,還開發了基于通信和收益的算法。它們被證明可以在連續行動潛力博弈建模的系統中學習局部最優。用來研究后一程序收斂特性的隨機近似技術也被應用于網絡系統中基于分布式共識的優化。在這種情況下,所提出的推和算法的隨機性允許系統擺脫次優臨界點,并收斂到目標函數的局部最小值,而目標函數不被假定為凸的。
近年來,現代網絡應用的技術和服務取得了重大進展,包括智能電網管理、無線通信、網絡安全以及多智能體自主系統。考慮到網絡實體的異構性質,新興的網絡應用程序需要博弈論模型和基于學習的方法,以創建分布式網絡智能,以響應動態或對抗環境中的不確定性和中斷。
本文闡述了網絡、博弈和學習的融合,為理解網絡上的多智能體決策奠定了理論基礎。我們在隨機近似理論的框架內提供了博弈論學習算法的選擇性概述,以及在現代網絡系統的一些代表性環境中的相關應用,例如下一代無線通信網絡、智能電網和分布式機器學習。除了現有的關于網絡上的博弈論學習的研究工作外,我們還強調了與人工智能的最新發展相關的博弈學習的幾個新角度和研究工作。一些新的角度是從我們自己的研究興趣中推斷出來的。本文的總體目標是讓讀者清楚地了解在網絡系統背景下采用博弈論學習方法的優勢和挑戰,并進一步確定理論和應用研究方面富有成果的未來研究方向。
網絡上的多智能體決策最近吸引了來自系統和控制界的呈指數增長的關注。該領域在工程、社會科學、經濟學、城市科學和人工智能等各個領域獲得了越來越大的發展勢頭,因為它是研究大型復雜系統的普遍框架,并被廣泛應用于解決這些領域中出現的許多問題。例如社交網絡分析 [1]、智能電網管理 [2, 3]、交通控制 [4]、無線和通信網絡 [5-7]、網絡安全 [8,9] 以及多智能體自主系統[10]。
由于現代網絡應用中先進技術和服務的激增,解決多智能體網絡中的決策問題需要能夠捕捉新興網絡系統的以下特征和自主控制設計的新模型和方法:
博弈論為解決這些挑戰提供了一套自然的工具和框架,并將網絡連接到決策制定。它需要開發數學模型,以定性和定量地描述具有不同信息和理性的自利行為體之間的相互作用是如何達到一個全局目標或導致在系統水平上出現行為的。此外,通過底層網絡,博弈論模型捕獲了拓撲結構對分布式決策過程的影響,在分布式決策過程中,智能體根據其目標和可獲得的局部信息(如對其鄰居的觀察)獨立規劃其行動。
除了網絡上的博弈論模型之外,在為網絡系統設計分散管理機制時,學習理論也是必不可少的,以便為網絡配備分布式智能。通過博弈論模型和相關學習方案的結合,這種網絡智能允許異構智能體相互進行戰略性交互,并學會對不確定性、異常和中斷做出響應,從而在網絡或最優系統上產生所需的集體行為模式級性能。這種網絡智能的關鍵特征是,即使每個智能體自己的決策過程受到其他決策的影響,智能體也會以在線和分散的方式達到均衡狀態,即我們稍后將闡明的納什均衡.為了給網絡配備分布式智能,聯網智能體應該通過在他們可能不知道的大型網絡上通過有限的局部觀察來適應動態環境。在計算上,分散式學習可以有效地擴展到大型和復雜的網絡,并且不需要關于整個網絡的全局信息,這與集中式控制法則相比更實用。
本文闡述了網絡、博弈和學習的融合,為理解網絡上的多智能體決策奠定了理論基礎。
圖 1:網絡、博弈和學習的融合。博弈論建模和學習理論的結合為各種網絡系統帶來了彈性和敏捷的網絡控制。
我們的目標是對博弈論學習方法及其在網絡問題中的應用提供系統的處理,以滿足上述三個要求。如圖 1 所示,新興的網絡應用需要新的方法,并且由于分散的性質,博弈論模型以及相關的學習方法為解決來自各個領域的網絡問題提供了一種優雅的方法。具體來說,我們的目標有三個:
我們的目標是讓讀者清楚地了解在網絡系統的背景下采用新穎的博弈論學習方法的優勢和挑戰。除了突出顯示的內容外,我們還為讀者提供了進一步閱讀的參考。在本文中,完全信息博弈是本課題的基礎,我們將簡要介紹靜態博弈和動態博弈。關于這個主題的更全面的處理以及其他博弈模型,例如不完全信息博弈,可以在 [11-13] 中找到。由于大多數網絡拓撲可以通過博弈的效用函數結構來表征 [1, 14],因此我們沒有闡明網絡拓撲對博弈本身的影響。相反,我們關注它對博弈學習過程的影響,其中玩家的信息反饋取決于網絡結構,我們展示了具有代表性的網絡應用程序來展示這種影響。我們推薦讀者參考 [1,14] 以進一步閱讀各種網絡上的博弈。
我們的討論結構如下。在第 2 節中,我們介紹了非合作博弈和相關的解決方案概念,包括納什均衡及其變體,它們記錄了自利參與者的戰略互動。然后,在第 3 節,我們轉向本文的主要焦點:在收斂到納什均衡的博弈學習動態。在隨機逼近框架內,提供了各種動力學的統一描述,并且可以通過常微分方程(ODE)方法研究分析性質。在第 4 節中,我們討論了這些學習算法在網絡中的應用,從而導致了網絡系統的分布式和基于學習的控制。最后,第 5 節總結了本文。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
強化學習是一種學習范式,它關注的是如何控制一個系統,從而最大化一個表示長期目標的數值性能度量。強化學習與監督學習的區別在于,對于學習器的預測,只會給予部分反饋。此外,這些預測可能通過影響被控制系統的未來狀態而產生長期影響。因此,時間扮演著特殊的角色。強化學習的目標是發展有效的學習算法,以及了解算法的優點和局限性。強化學習之所以引起人們極大的興趣,是因為它可以用于解決大量的實際應用,從人工智能到運籌學或控制工程的問題。在這本書中,我們專注于那些建立在強大的動態規劃理論基礎上的強化學習算法。我們給出了一個相當全面的學習問題的目錄,描述了核心思想,關注大量的最先進的算法,然后討論了它們的理論性質和局限性。
本書提供了分布式優化、博弈和學習的基本理論。它包括那些直接從事優化工作的人,以及許多其他問題,如時變拓撲、通信延遲、等式或不等式約束,以及隨機投影。本書適用于在動態經濟調度、需求響應管理和智能電網插電式混合動力汽車路由等領域使用分布式優化、博弈和學習理論的研究人員和工程師。
無線技術和計算能力的進步使得理論、模型和工具的發展成為必要,以應對網絡上大規模控制和優化問題帶來的新挑戰。經典的優化方法是在所有問題數據都可用于集中式服務器的前提下工作的。然而,這一前提不適用于由電力系統、傳感器網絡、智能建筑和智能制造等應用驅動的分布式環境中的大型網絡系統。在這樣的環境中,每個節點(agent)根據自己的數據(信息)以及通過底層通信網絡從相鄰的agent接收到的信息進行本地計算,從而分布式地解決大規模控制和優化問題。最終,集中式優化方法必然會走向衰落,從而產生一種新的分布式優化類型,它考慮了多個agent之間的有效協調,即所有agent共同協作,使一個局部目標函數之和的全局函數最小化。
本書研究了近年來分布式優化問題中的幾個標準熱點問題,如無約束優化、有約束優化、分布式博弈和分布式/分散學習等。為了強調分布式優化在這些主題中的作用,我們將重點放在一個簡單的原始(次)梯度方法上,但我們也提供了網絡中其他分布式優化方法的概述。介紹了分布式優化框架在電力系統控制中的應用。這本書自然主要包括三個部分。第一部分討論了分布式優化算法理論,共分為四章:(1)多智能體時滯網絡中的協同分布式優化;(2)時變拓撲多智能體系統的約束一致性;(3)不等式約束和隨機投影下的分布式優化;(4)隨機矩陣有向圖上的加速分布優化。第二部分作為過渡,研究了分布式優化算法理論及其在智能電網動態經濟調度問題中的應用,包括兩章:(5)時變有向圖約束優化的線性收斂性;(6)時變有向圖上經濟調度的隨機梯度推動。第三部分對分布式優化、博弈和學習算法理論進行了分析和綜合,本部分所有算法都是針對智能電網系統內的特定案例場景設計的。本部分共分三章:(7)智能微電網能源交易博弈中的強化學習;(8)不完全信息約束博弈的強化學習;(9)基于擁塞博弈的插電式混合動力汽車路徑選擇強化學習。其中,給出了仿真結果和實際應用實例,以說明前面提出的優化算法、博弈算法和學習算法的有效性和實用性。
一旦相關信息以某種方式組織起來,許多困難的問題就可以很容易地解決。這篇文章的目的是教你如何組織信息在某些情況下,特定的數學結構是存在的。一般來說,線性代數就是研究這些結構的。也就是說,線性代數是關于向量和線性函數的研究。廣義上說,向量是可以相加的線性函數是向量的函數,考慮向量相加。這本書的目的是教你如何組織向量空間的信息,使涉及許多變量的線性函數的問題變得容易。為了了解信息組織、向量和線性函數的一般概念,本章對每一種都有簡要的章節。我們從這里開始,希望能讓學生們在接下來的奧德賽之旅中擁有正確的心態; 后幾章以較慢的速度介紹同樣的材料。請準備好改變你對一些熟悉的數學對象的思考方式,并隨身攜帶一支鉛筆和一張紙。
地址: //www.math.ucdavis.edu/~linear/
目錄內容:
Chapter 1: What is Linear Algebra? Chapter 2: Systems of Linear Equations Chapter 3: The Simplex Method Chapter 4: Vectors in Space, n-Vectors Chapter 5: Vector Spaces Chapter 6: Linear Transformations Chapter 7: Matrices Chapter 8: Determinants Chapter 9: Subspaces and Spanning Sets Chapter 10: Linear Independence Chapter 11: Basis and Dimension Chapter 12: Eigenvalues and Eigenvectors Chapter 13: Diagonalization Chapter 14: Orthonormal Bases and Complements Chapter 15: Diagonalizing Symmetric Matrices Chapter 16: Kernel, Range, Nullity, Rank Chapter 17: Least Squares and Singular Values Appendices: Symbols, Fields, Sample Exams, Online Resources, Movie Scripts Index
本書將側重于統計學習和序列預測(在線學習)的理論方面。在本筆記的第一部分,我們將使用經典的工具:集中不等式、隨機平均、覆蓋數字和組合參數來分析學習的i.i.d.數據。然后,我們將重點放在序列預測上,并開發許多用于在此場景中學習的相同工具。后一部分是基于最近的研究,并提出了進一步研究的方向。我們在整個課程中強調的極大極小方法,提供了一種比較學習問題的系統方法。除了理論分析,我們將討論學習算法,特別是學習和優化之間的重要聯系。我們的框架將處理開發接近最優和計算效率的算法。我們將用矩陣補全、鏈路預測等問題來說明這一點。如果時間允許,我們將深入了解信息理論和博弈論,并展示我們的新工具如何無縫地產生許多有趣的結果。
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。