亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文研究具有已知動力學和對抗性干擾動態系統的多智能體控制問題。我們的研究重點是沒有集中的預計算策略的最優控制,而是對不同的智能體只配備一個穩定控制器的自適應控制策略。我們給出了一個從任何(標準)遺憾最小化控制方法到分布式算法的還原方法。該還原法保證了所產生的分布式算法相對于最佳預計算的聯合策略具有較低的遺憾。我們的方法包括將在線凸優化推廣到多智能體環境中,并應用最近從非隨機控制中得出的單智能體工具。我們在一個過度行動的飛機模型上對我們的方法進行了經驗評估。我們表明,分布式方法對故障和動態中的對抗性擾動是穩健的。

付費5元查看完整內容

相關內容

ICLR 2022 放出了本屆會議的論文接收結果:共有 54 篇 Oral(口頭報告)論文和 176 篇 Spolight 論文,論文接收總數 1095 篇,最終投稿量 3391 篇,論文接收率 32.3%。

摘要

深度學習(DL)已經成為現代人工智能中最成功和最廣泛采用的方法之一。伴隨著這些成功的是越來越復雜和高成本的架構設計,其基礎是一個核心概念:層。本論文對層的這一基本作用提出了挑戰,并深入介紹了一種新的、無層的深度學習范式,該范式將輸出計算為動態系統的固定點:深度均衡(DEQ)模型。

首先,我們介紹了深度均衡模型的一般表述。我們討論了這些模型如何表達 "無限層"的神經網絡,解耦前向和后向通道,但成本和設計復雜度只有一個傳統層--即使在一些最具競爭力的背景中(如語言建模、語義分割等)。

其次,我們進一步討論這種均衡方法帶來的挑戰和機遇。我們表明,DEQ的表述揭示了深度學習的許多新特性,這些特性長期以來被傳統的層堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的和輕量級的均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個方面的結果(例如,光流估計)。

DEQ的方法已經在理論和經驗兩端導致了社區中關于隱性深度學習的新研究領域(例如NeurIPS 2020教程)。因此,在本論文的結尾,我們討論了未來的工作如何進一步利用這種均衡的觀點來建立更多可擴展的、高效的和準確的下一代DL算法,包括對科學計算的算法,其特點是對復雜的、高維的動態系統的解決。

第1章 簡介

在過去的十年里,現代深度學習方法的研究和發展呈現出爆炸式的增長。然而,幾乎所有這些方法(也許是迄今為止的深度學習領域)的核心是一個關鍵的概念和基本單位,沒有一個模型架構師可以避免:層。具體來說,深度模型是通過將許多層堆疊在一起建立的,這就形成了一個巨大的架構,旨在適應一些特定的任務。例如,深度卷積網絡是由幾個卷積層和其他非線性或正則化組件組成的,如ReLU[175]、規范化[13, 110, 246]和dropout[214]。然后,這些組件以多種方式連接起來(如ResNets[96],U-Nets[195]),以提取特征圖,通常遵循一個復雜的時間表(如何時降采樣/升采樣,多少個階段,每個階段的哪些層)。同時,出現了不同種類的圖層設計,如多頭自注意力[233],以及圖層[124, 202]。過去幾年中最著名的人工智能應用,如高分辨率圖像合成[118]、蛋白質結構預測[117]和文本生成[32],都包含了數百、數千或更多的這些基本單元。

在高層次上,這種基于層的觀點將深度網絡視為一個巨大的計算圖,有規定的、詳細的指令,說明我們如何從輸入中計算輸出(就像一個計算器)。然而,這產生了許多挑戰。首先,作為一個超參數,構建深度網絡的深度和連接性往往是模型設計師的責任。這迅速增加了這些模型的設計、使用和測試的復雜性,特別是當它們變得龐大時[96, 220, 233, 250]。其次,這些網絡都依賴于一種叫做梯度反向傳播的算法[89, 197]來訓練。這需要深層網絡在正向傳遞中記憶所有中間層的激活,以反向遍歷計算圖[46]。這經常會造成內存占用的瓶頸,因為內存消耗會隨著架構深度的增加而迅速增長,并達到硬件的極限。第三,這樣的層構成使得深層網絡相當缺乏彈性,因為無論輸入的復雜程度如何,它們都要進行同樣的計算量(例如,見圖1.1)。例如,我們不能簡單地跳過一個層(除非我們添加更多的層來幫助我們控制,比如SkipNet[238]),因為任何這樣的任意移除都會使模型的功能與它的訓練方式不同。

圖1.1: 想象一下,一輛自主車輛。當它接收和處理流式攝像機幀時,每個幀都需要經過完全相同的深度網絡計算圖(比如20層)。然而,輸入是高度相關的,幾乎是相同的。基于層的深度學習導致該模型不斷重復相同的工作量。來自Cityscapes[53]數據集的圖像。

盡管有這些缺點,層還是被深深地堆積起來,并被認為是現代深度學習中不可或缺的,原因如下。

  • 表達性。長期以來,人們認為由許多層組成的模型為復雜的輸入輸出映射(經常是非線性的)奠定了基礎[89, 102]。

  • 特征層次結構。一個常見的觀點是,層代表決議。例如,Lee等人[136]假設,不同的層次提取圖像的不同抽象部分。

  • 可擴展性。為了建立大規模的模型,我們依賴于靈活連接大量圖層的能力;非常深入的訓練已經被證明是可行的,如規范化[13,110],剩余連接[96]等技術。

本論文旨在重新審視層的這個基本概念。我們要解決的一個關鍵問題是:我們到底需不需要層

我們提出了一種新的、隱含的、無層的深度學習方法,被稱為深度均衡(DEQ)模型。通過這種均衡方法,我們基本上提出了一種做深度學習的不同方式,以及如何將這些深度網絡作為算法(而不是計算器)來構建和分析。這些DEQ模型代表了無限深的神經網絡,但只有一個單層是隱式建模的(稍后定義)。我們表明,深度學習中的這種隱含性使我們即使在沒有層的情況下也能保持上述三個特性(表現力、特征層次和現實世界環境中的可擴展性),同時糾正了傳統DL所遭受的主要缺點(例如,內存占用)。

在本章的其余部分,我們首先闡述了 "隱性 "在深度學習背景下的含義,以及與此方向相關的先前工作概述。然后,我們提供了本論文的總體路線圖,我們希望它能作為深度隱含層的過去、現在和未來的藍圖。

1.1 深度學習的隱性觀點

在這一節中,我們將對過去關于深度學習方法的隱性和連續性的相關工作進行簡要的調查。正如將在第二章介紹的那樣,DEQ模型可以被看作是一個無限深的網絡,但也是一個單層網絡,需要注意的是這一層是隱性定義的:給定輸入x和一個(通常是參數化的)函數F,輸出z?被定義為解決一些非線性方程的值,即

特別是,幾十年來,深度學習界一直在探索隱性狀態的隱性建模,尤其是在遞歸網絡背景下。例如,Pineda[186]和Almeida[4]研究了用于訓練遞歸動力學的隱式分化技術,也被稱為遞歸反向傳播(RBP)。在這些情況下,RNN被結構化(例如,通過Lyapunov函數),因此它們的推理階段是一個可證明的收斂動態系統,人們需要解決RNN序列的穩定狀態(它在每個時間步驟吸收相同的輸入)。在這些工作之后,Liao等人[144]還將RBP理論擴展到基于諾伊曼級數和共軛梯度的更穩定和更有效的變體(并主要研究了它們與這些RNN中截斷反向傳播-通過時間(TBPTT)的關系)。Zhang等人[263]同樣也在RNN架構內執行固定點條件。然而,這些RNN只能應用于極其有限的設置,即每個時間步長都有相同的輸入,這在實踐中很少發生(如文本數據、時間序列等)。

網絡設計的隱性方法最近在非常不同的形式和背景下重新引起了人們的興趣。Amos和Kolter[6]、Gould等人[90]、Johnson等人[116]都提議通過優化問題(即arg min算子)進行區分,從而將公式(1.1)視為優化(如KKT)條件。例如,Amos和Kolter[6]提出在深度網絡的每個單獨的層中解決一個二次方程序(QP);例如,給定前一層的隱藏狀態z[i],OptNet[6]的第i+1層計算以下QP:

其中z[i]是優化(隱藏)變量,Q?0,q,A,b,G,h是定義這個QP優化層的參數。通過這個層的微分立即從公式(1.1)(當Q?0時)中得出,因為我們可以通過其KKT方程K(z?, ν?, λ? )=0進行微分,其中ν, λ是對應于約束條件(1.3)和(1.4)的拉格朗日對等變量。本著類似的精神,Wang等人[237]嵌入了一個基于優化的邏輯結構學習層;de Avila BelbutePeres等人[60],Qiao等人[188]使用這些更多的結構層來構建可微分的物理引擎(例如,人們可以將約束的剛體動力學模擬為深度自動編碼器網絡[60]中的線性互補問題(LCP)[52,54]層)。El Ghaoui等人[69]從廣義的well-posed意義上看這種隱含層,并專注于通過拉格朗日方法訓練小模型。這些優化層通常作為一個專門的層嵌入到傳統的深度架構中,為特定的問題領域定制,其強大的結構假設(如QP[6])大大限制了其表達能力和可擴展性。

另一個相關的主線將公式(1.1)制定為微分方程,從而代表一個連續的深度神經網絡。這一觀點首先由LeCun等人[133]進行理論研究,后來的工作提出將ResNet[96]架構解釋為常微分方程(ODE)求解器的離散化,以利用其可逆性和架構變體。最近,這種解釋被神經ODE方法[45]大大推進,它直接使用黑盒ODE求解器和鄰接方法,通過ODE解決方案進行直接微分(因此,與自動微分軟件包集成)。具體來說,神經ODE解決了隱藏狀態z的以下初值問題(IVP):

其中fθ是一個參數化的層,可以采取靈活的形式,(即計算這個連續網絡相當于把這個層從t=0到T進行整合)。等價地,這些ODEs承認一個隱含的一般解決方案F(x, z?, T)=0。這個神經ODE表述后來被改進[67, 121],并成功地應用于許多場合,如流體動力學[35]和連續生成建模[91]。然而,由于解決高維ODEs的固有挑戰,這些方法還不是很有效[67, 77, 121],也不能擴展到更現實的領域(例如,僅CIFAR-10 32×32圖像分類就需要約100次ODE求解器迭代)。

我們在這篇論文中提出的工作對公式(1.1)采取了一種新的方法。雖然將其定性為優化條件會產生基于優化的層;微分方程會產生神經ODE;但我們引入了一個定點方程表述,產生 "無限層"均衡特征狀態;即對于一個層fθ,F(z?,x)=fθ(z?;x)-z?=0,因此我們將由此產生的算法稱為深均衡模型。有了這樣的表述,我們表明,DEQ模型。

1.恰好使用一個這樣的獨立隱含層fθ作為整個架構(與傳統的層堆疊相比)。

2.在眾多現實任務中表現出競爭性,甚至更好,如語言建模、圖像分類、語義分割、隱性神經表征和光流估計。

3.揭示了長期以來被傳統深度學習埋沒的眾多新特性(如定點循環),使我們能夠以內存和計算效率的方式計算深度網絡。

我們表明,深度均衡模型體現了一種完全隱含的深度學習架構,與之前的這些探索不同,整個架構只有一個隱含層,并且在最具競爭力的水平和規模上工作。圖1.2對比了傳統的(顯式)深度學習和隱式的DEQ模型,前者堆積了大量的運算符,后者解決了一個底層動態系統來模擬輸出。

圖1.2:傳統的深度神經網絡與隱式深度均衡(DEQ)模型。深度均衡模型定義了一個底層動態系統,可以采取任何解算器路徑(如牛頓、準牛頓等)導致固定點。

這篇論文首次深入分析了這種新方法的好處、應用、擴展和面臨的挑戰。我們證明了DEQ模型對隱式建模的性能、可擴展性、效率、靈活性、表示能力等方面帶來的重大改進。我們對隱含性的研究為我們提供了一種通過有限的計算對無限復雜的概念(例如,固定點的概念)進行建模的方法,無層的方法提出了一種令人興奮的深度學習計算的新范式。

1.2 我們的貢獻

在本論文的第一部分,我們將討論多種發現和動機,最終形成深度均衡模型的基本原理(即它們的通用公式)。雖然隱含性之前已經在深度學習中被利用為優化驅動的轉化(第1.1節),但我們從現有深度學習的成功(和前提)及其趨勢出發:非常深的--可能是無窮層的--神經網絡。更具體地說。

1.在第二章中,我們將推導出無限深的神經網絡如何能被一個計算層的固定點的均衡網絡所表示。我們將為這種單層方法的普遍性提供論據,(重要的是)這種定點計算如何通過使用隱含函數定理(IFT)直接在最終輸出中進行區分。我們進一步討論這對DL訓練的前向和后向通道的影響(這將在第五章、第六章和第七章中得到大量的利用。

2.鑒于DEQ模型的一般表述,我們將在第2章和第3章中展示它們如何在大規模的現實環境中涵蓋廣泛的現代和復雜的層設計(例如,多頭自我關注[233])。在第三章中,我們將研究如何使放棄了深層序列的均衡網絡能夠代表特征層次結構。我們將在第二章的DEQ構造的基礎上進行大幅擴展,引入同步均衡建模;也就是說,我們直接在所有特征尺度上同時優化穩定的表征,并為輔助損失和復合訓練程序提供自然接口。

因此,本論文的第一部分將大量強調這些均衡方法的表征能力以及它們與傳統深度學習的根本區別。我們希望傳遞的一個強有力的信息是:"你只需要一層"。

在本論文的第二部分,我們將更深入地討論深度學習的這種隱含觀點的含義。由于這些均衡網絡將訓練過程的前向和后向解耦(即,人們甚至可以只用最終的輸出來訓練模型),我們將證明這導致了傳統神經網絡以前沒有面臨的幾個新的挑戰和機會。特別是:

  1. 第四章將首先討論均衡方法引入的一些在傳統深度學習方法中不存在的新問題,如收斂穩定性和求解器的選擇(和成本)。我們將提供一些經驗證據,反映DEQ模型如何隨著訓練的進行而變得越來越不穩定(即越來越 "深"),以及這如何惡化了其他幾個問題,同時概述了一個原則,即根據這些模型的隱含性,通過基于正則化的解決方案穩定DEQ模型的動態系統。

  2. 深度均衡模型的單層結構可以將這些模型從昂貴的鏈式規則反向傳播過程中解放出來,這些過程構成了傳統深度學習的學習開銷。在第五章中,我們介紹了近似梯度的概念(又稱 "幻影 "梯度或不精確梯度),它使我們能夠極其有效地近似上述隱含函數定理(IFT)。我們將從理論上論證這些近似的可行性,這些近似使均衡模型的后向傳遞速度提高了5倍或幾乎是免費的,這是傳統神經網絡完全不具備的特性。

  3. 在并行線程上,這些隱含網絡還能使層fθ的內部結構(控制表征能力)與固定點的實際計算方式(影響推理時間效率)脫鉤,后者通常是通過Broyden方法[34]等經典技術。在第6章中,我們展示了可以利用這種解耦,并使用一個可以以無監督方式進行端到端訓練的定制神經解算器來大幅提高這個固定點的計算。

結合這些關于DEQ模型的討論,在本論文的第三部分,我們將展示這些見解如何轉化為各種應用和擴展(除了第一和第二部分的大規模設置之外)。我們還將在實踐中展示DEQ模型在各種數據模式下的一個關鍵優勢:自適應計算。雖然傳統的深度網絡需要經歷一個規定的計算圖,而不管輸入的復雜性如何,我們表明,均衡方法可以從高度相關的數據中大大受益,并有效地循環計算以攤銷成本。有了上述所有的技術:

  1. 在第七章中,我們將表明,基于DEQ的方法在內存上和計算上的效率比最好的傳統深度網絡在光流估計任務上的SOTA性能要高出數倍,同時提高了SOTA性能。我們提出DEQflow作為一個新的框架,與之前的建模工作兼容,并完全取代了現有的遞歸/滾動程序。

  2. 在第八章中,我們將表明這些隱含模型能更好地學習圖像、音頻、視頻和三維模型的隱含神經表征(INR),同時訓練時間和內存成本也大大降低。

在第九章中,我們對所有這些貢獻進行了總結,同時討論了一些與深度學習這一新范式相關的有趣的 "老問題"。例如,傳統的神經網絡是由人腦中的神經元激發的。DEQ模型在任何意義上都不那么 "生物 "嗎?再比如,這些動態系統視角的深度學習如何能最好地應用于現實生活中的動態系統?我們在最后一章中對這些問題(以及未來的研究)提出一些見解。

通過這些理論和經驗上的探索,我們希望能夠提出一種不同形式的深度學習,就像傳統上對這一主題的研究一樣。層對于深度學習來說是必要的嗎?這篇論文認為答案是否定的。或者說,至少它們不是全貌。我們將表明,這些隱性均衡方法是一個重要的研究議程,因為目前的深度學習有一些必須克服的基本天花板,而且DEQ模型在設計上經常更好。

本論文中包含的這些開創性工作挑戰了長期以來的觀點,即基于層的分層架構是現代深度學習不可或缺的組成部分,并導致了一個新的和快速增長的社區,稱為 "隱式深度學習",以及NeurIPS 2020官方教程 "深度隱式層"[68]。

1.2.1 其他貢獻

我們在此也簡要總結一下研究生學習期間的其他貢獻,這些貢獻在論文中沒有廣泛討論。許多工作(直接或間接)導致了本論文所關注的隱式深度學習的工作。

序列建模[15, 16] 。雖然遞歸網絡長期以來一直是序列任務的主導力量和默認工具包,但我們重新審視了序列建模的卷積方法。我們提出了卷積和遞歸架構在眾多序列任務(從合成任務到極大規模的任務)中最廣泛的系統比較之一[16]。具體來說,我們提煉了現代ConvNets中的最佳實踐,如剩余塊和擴張,以描述一個簡單的時間卷積網絡(TCN)。我們的實驗結果表明:1)TCN模型的性能大大超過了LSTM和GRU等通用的遞歸架構;2)RNN的 "無限序列內存 "優勢在實踐中基本不存在,而TCN表現出比相同容量的遞歸架構更長的內存。自引入以來,所提出的通用TCN模型由于其各種優點(如:并行性、良好的記憶保持),對現代現實時間序列的建模產生了驚人的影響。并行性、良好的記憶保持性),至今仍在許多領域(尤其是存在極長距離信息的領域)保持著最先進的水平,如語音分離[153, 159]、語音識別[51]、語音增強[182]、基因組學建模[71]、文本分類[111]、唇讀[1]、金融時間序列[203, 243]、動態推薦系統[255]、人類軌跡預測[173],以及更多。

深度學習架構[17, 228] 。我們還介紹了對前沿的深度序列模型的架構特性的研究。在Bai等人[17]中,我們提出了trellis網絡(TrellisNet),它是一種特殊的TCN,其特點是權重類型化和直接從輸入層進入深層的剩余連接。但另一方面,我們證明了截斷的遞歸網絡等同于在其權重矩陣中具有特殊稀疏結構的trellis網絡。因此,TrellisNet架構連接了兩個主要的、看似不相容的序列模型家族:遞歸和卷積網絡,并允許我們結合兩個世界的最佳實踐。此外,在Tsai等人的文章[228]中,我們從內核平滑器的角度研究了變形器,并對這些模型的自我注意機制和位置編碼的各個組成部分進行了深入剖析。

不對齊的多模態機器學習[227] 。多模態時間序列建模的一個主要挑戰是融合來自多種模態(如視覺、聲學和文本時間序列)的特征表示,這些特征表示是不同步的,通常需要費力的人工對齊。我們提出了多模態轉換器(MulT)[227],它使用跨模態的注意力來潛移默化地將未對齊的數據流從一種模態調整到另一種模態。這大大降低了對仔細的特征工程的要求(這經常涉及到大量的領域知識),我們表明基于注意力的多模態學習可以比之前的方法持續提高5%-15%。

用于科學計算的深度學習[30, 205] 。我們提出了圖形變換器神經網絡力場(GTFF)[205]作為一種計算算法,用于直接預測材料系統中分子動力學計算機模擬的原子力。盡管存在精確的方法來計算基本的原子力和行為,但它們也是非常昂貴的,因為應用這種方法需要巨大的計算資源(如每個分子需要幾天或幾周)。相比之下,我們的基于圖形變換器的方法可以快幾十萬倍,同時幾乎不損失精度。這一貢獻是作為Kaggle預測分子特性競賽的一部分[30],我們的方法在2,737個參賽隊中贏得第一名。

付費5元查看完整內容

摘要

強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。

在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。

簡介

強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。

然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。

從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。

這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。

雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。

總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。

付費5元查看完整內容

決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。

付費5元查看完整內容

摘要

多智能體強化學習 (RL) 解決了每個智能體應該如何在多個智能體同時學習的隨機環境中表現最佳的問題。它是一個歷史悠久的跨學科領域,位于心理學、控制理論、博弈論、強化學習和深度學習的聯合領域。繼 AlphaGO 系列在單智能體 RL 中取得顯著成功之后,2019 年是蓬勃發展的一年,見證了多智能體 RL 技術的重大進步;在開發許多具有挑戰性的任務(尤其是多人視頻游戲)上,勝過人類的人工智能已經取得了令人矚目的突破。盡管如此,多智能體 RL 技術的主要挑戰之一仍是可擴展性。設計高效的學習算法來解決包括遠多于兩個智能體 (N2) 的任務仍然不是一件容易的事,我將其命名為大量智能體強化學習 (many-agent reinforcement learning,MARL) 問題。

在本論文中,我從四個方面對解決MARL問題做出了貢獻。首先,我從博弈論的角度提供了多智能體 RL 技術的獨立概述。該概述填補了大多數現有工作要么未能涵蓋自 2010 年以來的最新進展,要么沒有充分關注博弈論的研究空白,我認為博弈論是解決多智能體學習問題的基石。其次,我在多智能體系統中開發了一種易于處理的策略評估算法——的關鍵優勢在于它可以在多人廣義和博弈中輕松計算 α-Rank 的解概念,而無需存儲整個收益矩陣。這與經典的解概念形成對比,例如納什均衡,即使在兩人的情況下也被認為是 PPAD 難的。讓我們第一次能夠實際進行大規模的多智能體評估。第三,我在多智能體系統中引入了一種可擴展的策略學習算法——平均場 MARL。平均場 MARL 方法利用了物理學中的平均場近似,它是第一個試圖打破 MARL 任務維數詛咒的可證明收斂的算法。使用所提出的算法,我給出了通過 MARL 方法解決 Ising 模型和多智能體戰斗博弈的第一個結果。第四,我研究了開放式元博弈(即策略空間中的博弈)中的多智能體學習問題。具體來說,我專注于對元博弈中的行為多樣性進行建模,并開發保證在訓練期間擴大多樣性的算法。所提出的基于行列式點過程的度量,是多樣性的第一個數學嚴格定義。重要的是,多樣性感知學習算法在可利用性方面大大擊敗了現有的最先進的博弈求解器。

除了算法開發之外,我還貢獻了 MARL 技術的兩個實際應用。具體來說,我展示了MARL的巨大應用潛力, 研究了自然界中涌現的人口動態,并為自動駕駛中的多樣化和現實交互建模。這兩個應用程序都體現了 MARL 技術可以在純視頻游戲之外的真實物理世界中產生巨大影響的前景。

MARL的重大挑戰

與單智能體 RL 相比,多智能體 RL 是一個通用框架,可以更好地匹配現實世界 AI 應用的廣泛范圍。然而,由于存在同時學習的多個智能體,除了單智能體 RL 中已經存在的那些之外,MARL 方法還提出了更多的理論挑戰。與通常有兩個智能體的經典 MARL 環境相比,解決大量智能體 RL 問題更具挑戰性。事實上,1 組合復雜性、2 多維學習目標、3 非平穩性問題,都導致大多數 MARL 算法能夠解決只有兩個玩家的博弈,特別是兩個玩家的零和博弈。

本文的結構及貢獻

本論文主要圍繞大量智能體強化學習的研究課題。我為這個主題貢獻的方法位于圖 1.8 中列出的三個研究領域:它們是博弈論,它提供了現實且易于處理的解決方案概念來描述大量智能體系統的學習結果; RL 算法,提供可證明的收斂學習算法,可以在順序決策過程中達到穩定和合理的均衡;最后是深度學習技術,它提供了學習算法表達函數逼近器。

圖 1.8:本論文的研究范圍包括三個支柱。深度學習是學習過程中強大的函數逼近工具。博弈論提供了一種描述學習成果的有效方法。 RL 提供了一種有效的方法來描述多智能體系統中智能體的激勵。

圖 1.9:本文后續章節的結構,與列出的三個挑戰(1 組合復雜性、2 多維學習目標、3 非平穩性)相關,每章都試圖解決這些挑戰。

以下各章的結構和貢獻如下(另請參見圖 1.9):

  • 第 2 章:由于 MARL 的可擴展性問題深深植根于其博弈論基礎,在本章中,我將首先概述現代 MARL 方法的博弈論方面,以及最近的進展。我相信這個概述是對社區的重要貢獻,因為大多數現有調查要么不關注博弈論,要么就遺漏了自 2010 年以來的大多數近期文獻而過時。第 1 章和第 2 章構成了 MARL 的獨立專著。該專著的目標是從博弈論的角度對當前最先進的 MARL 技術進行專門評估。我希望這項工作能夠為即將進入這個快速發展領域的新研究人員和想要獲得全景,并根據最新進展確定新方向的現有領域專家提供基礎。

  • 第 3 章:本章提供了 MARL 技術在理解 AI 智能體的新興種群動態方面的應用。本章的目標是在我介紹方法學發展之前作為開篇,展示 MARL 方法的巨大潛力。具體來說,在這項工作中,我將 RL 智能體放入模擬的捕食者-獵物世界中,并驗證自然界中開發的原理是否可用于理解人工創造的智能種群,反之亦然。這項工作的主要貢獻在于,它啟發了許多人口生物學家和計算生物學家,在對宏觀生物學研究中的自利智能體進行建模時,為他們提供了一種基于 MARL 的新方法。

  • 第 4 章:本章介紹了一種新的大量智能體系統策略評估方法:是 α-rank 的隨機變體,是一種新穎的解概念,在多人廣義和博弈中具有多項式時間解。的一個主要好處是,人們現在可以輕松地評估大型多智能體系統(即多人廣義和博弈),例如,具有聯合策略配置文件的多智能體系統只需一臺機器;這與計算納什均衡相反,即使在兩人的情況下,這也是眾所周知的 PPAD-hard。

  • 第 5 章:在本章中,我將重點解決大量智能體系統中策略學習的核心問題。具體來說,我提出了平均場 MARL (MFMARL) 方法,該方法利用了物理學中平均場近似的經典思想。 MF-MARL 通過僅??考慮總體的平均效應,有效地將大量智能體學習問題轉化為雙智能體問題。使用 MF-MARL 方法,可以有效地訓練數百萬智能體來解決大型合作博弈。我測試了 MF-MARL 算法來解決 Ising 模型,這是一個眾所周知的物理學難題,因為它的組合性質,并得出了第一個基于 MARL 的 Ising 模型解。總的來說,本章的主要貢獻是提供了第一個可證明收斂的可擴展 MARL 算法,并證明了它在遠不止兩個智能體的場景中的有效性。

  • 第 6 章:本章研究開放式元博弈(即策略級別的博弈,也稱為聯盟訓練或自動課程)中的大量智能體學習問題,其中行為多樣性是一個關鍵但尚未充分探索的主題。本章為策略空間中的行為多樣性提供了第一個數學上嚴格的定義,并提出了被證明可以在策略訓練期間擴大多樣性的學習算法。零和博弈的經驗結果表明,所提出的方法在很大程度上優于現有的最新技術。這項研究可能會產生重大的經濟影響,因為所提出的算法可以直接插入到開發游戲 AI 的聯盟訓練中(例如,訓練能夠在撲克游戲中擊敗人類玩家的 AI 群體)。

  • 第 7 章:除第3章外,本章介紹MARL的第二種應用,即自動駕駛(AD)。我展示了使用 MARL 技術來模擬 AD 中現實和多樣化的多智能體交互的巨大潛力。具體來說,我介紹了 SMARTS 平臺:第一個專門支持 RL 和 MARL 訓練的 AD 模擬器。基于 SMART,我分享了一個藍天理念,即在 MARL 中創建多樣化的自動課程是在 AD 中建模現實交互的關鍵。我詳細闡述了多樣化自動課程的必要性,并列出了應用這種技術的四個開放挑戰。本章的貢獻有兩方面:首先,我展示了 MARL 技術可以在真實的物理世界中產生有影響力的應用,而不是純粹的視頻游戲;其次,我向 AD 中的研究人員介紹了一種新方法,以便他們能夠生成當前缺失的高質量交互。

  • 第8章:在最后一章中,我總結了這篇論文,并提出了四個未來的研究方向;它們是深度 MARL 理論、安全魯棒的 MARL、基于模型的 MARL 和多智能體元 RL。

付費5元查看完整內容

【導讀】每年,CIFAR深度學習+強化學習(DLRL)暑期學校都會聚集研究生、博士后和專業人士,涵蓋深度學習和強化學習的基礎研究、新進展和現實應用。2021年DLRL暑期學校將于2021年7月26日至31日舉行。這所學校由CIFAR主辦,與我們的三個國家人工智能研究所合作:埃德蒙頓的Amii、蒙特利爾的Mila和多倫多的Vector研究所。

來自Google研究院Balaji Lakshminarayanan講述了《深度學習不確定》的報告,值得關注!

對深度學習中的不確定性進行量化是一個具有挑戰性且尚未解決的問題。預測的不確定性估計對于知道何時信任模型的預測是很重要的,特別是在實際應用中,在實際應用中,訓練和測試分布可能是非常不同的。報告的第一部分將集中于檢測分布外輸入(OOD)。深度生成模型被認為對OOD輸入更魯棒,但我將給出反例,其中生成模型可以為OOD輸入分配比訓練數據更高的可能性。具體來說,我們發現,在一個數據集(如CIFAR-10)上訓練的深度生成模型的模型密度賦予來自另一個數據集(如SVHN)的OOD輸入更高的可能性。我將討論一些最近的后續工作,其中我們將進一步詳細研究這些失效模式,并提出解決方案。演講的第二部分將集中討論判別模型的預測不確定性估計。我將討論我們在數據集漂移下校準的大規模基準研究的結果,并介紹我們在推進漂移校準的最先進一些工作。

Balaji Lakshminarayanan目前是谷歌Brain的研究人員。他最近的研究集中在概率深度學習,特別是不確定性估計,非分布魯棒性和深度生成模型。

//www.gatsby.ucl.ac.uk/~balaji/

付費5元查看完整內容

近年來,在控制和強化學習中出現了新的方法,這些方法結合了遺憾(regret )最小化和在線凸優化技術。由此產生的理論為控制和強化學習中一些長期存在的問題提供了可證明的保證:對數后悔和快速速率,沒有系統知識的端到端LQG-LQR,帶有對抗噪聲的卡爾曼濾波,具有可證明的有限時間保證的黑盒控制,系統識別的緊下界,等等。

這些結果的主要創新之處在于在線控制模型將隨機擾動替換為對抗性擾動,并以后悔最小為最優控制目標。我們將描述設置,以及基于梯度和依賴于新的凸松弛的新方法。

//icml.cc/media/icml-2021/Slides/10838_XuEBWTU.pdf

付費5元查看完整內容

主題: Learning for policy improvement

摘要: 強化學習在經驗易獲得的領域取得了許多成功,如電子游戲或棋盤游戲。這類區域的RL算法通常基于梯度下降:它們以較小的學習率進行許多噪聲更新。相反,我們研究每次更新花費更多計算的算法,試圖減少噪聲并進行更大的更新;當經驗比計算時間更昂貴時,這樣的算法是合適的。特別地,我們看幾種基于近似策略迭代的方法。

作者簡介: Geoff Gordon博士是微軟研究蒙特勒實驗室的研究主任,也是卡內基梅隆大學機器學習系的教授。他還擔任過機械學習系的臨時系主任和教育副系主任。戈登博士的研究集中在能夠進行長期思考的人工智能系統上,比如提前推理以解決問題、計劃一系列行動或從觀察中推斷出看不見的特性。特別是,他著眼于如何將機器學習與這些長期思考任務結合起來。1991年,戈登博士在康奈爾大學獲得計算機科學學士學位,1999年在卡內基梅隆大學獲得計算機科學博士學位。他的研究興趣包括人工智能、統計機器學習、教育數據、博弈論、多機器人系統,以及概率、對抗和一般和領域的規劃。他之前的任命包括斯坦福大學計算機科學系的客座教授和圣地亞哥燃燒玻璃技術的首席科學家。

付費5元查看完整內容
北京阿比特科技有限公司