深度學習(Deep learning, DL)已經成為現代人工智能中最成功和被廣泛采用的方法之一。與這些成功相伴而來的是越來越復雜和昂貴的架構設計,其基礎是一個核心概念:層。本文對層次的這一基本作用提出了挑戰,并深入介紹了一種新的、無層次的深度學習范式,將輸出計算為動態系統的不動點:深度均衡(DEQ)模型。
首先,我們介紹深度均衡模型的一般公式。我們討論了這些模型如何表達“無限級”的神經網絡,向前和向后解耦傳遞,但與傳統層的成本和設計復雜性-即使在一些最具競爭力的設置(例如,語言建模,語義分割等)。
其次,我們進一步討論了這種均衡方式帶來的挑戰和機遇。我們表明,DEQ公式揭示了深度學習的許多新特性,這些特性長期以來被傳統的層-堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的輕量級均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個現有結果(例如,光流估計)。
DEQ方法已經在理論和實證兩方面引領了社區內隱深度學習的新研究領域(例如,NeurIPS 2020教程)。因此,我們通過討論未來的工作如何進一步利用這一平衡視角來構建更可擴展、高效和準確的下一代DL算法,包括科學計算,這通常是復雜的、高維動力系統的解決方案。
深度學習(DL)已經成為現代人工智能中最成功和最廣泛采用的方法之一。伴隨著這些成功的是越來越復雜和高成本的架構設計,其基礎是一個核心概念:層。本論文對層的這一基本作用提出了挑戰,并深入介紹了一種新的、無層的深度學習范式,該范式將輸出計算為動態系統的固定點:深度均衡(DEQ)模型。
首先,我們介紹了深度均衡模型的一般表述。我們討論了這些模型如何表達 "無限層"的神經網絡,解耦前向和后向通道,但成本和設計復雜度只有一個傳統層--即使在一些最具競爭力的背景中(如語言建模、語義分割等)。
其次,我們進一步討論這種均衡方法帶來的挑戰和機遇。我們表明,DEQ的表述揭示了深度學習的許多新特性,這些特性長期以來被傳統的層堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的和輕量級的均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個方面的結果(例如,光流估計)。
DEQ的方法已經在理論和經驗兩端導致了社區中關于隱性深度學習的新研究領域(例如NeurIPS 2020教程)。因此,在本論文的結尾,我們討論了未來的工作如何進一步利用這種均衡的觀點來建立更多可擴展的、高效的和準確的下一代DL算法,包括對科學計算的算法,其特點是對復雜的、高維的動態系統的解決。
在過去的十年里,現代深度學習方法的研究和發展呈現出爆炸式的增長。然而,幾乎所有這些方法(也許是迄今為止的深度學習領域)的核心是一個關鍵的概念和基本單位,沒有一個模型架構師可以避免:層。具體來說,深度模型是通過將許多層堆疊在一起建立的,這就形成了一個巨大的架構,旨在適應一些特定的任務。例如,深度卷積網絡是由幾個卷積層和其他非線性或正則化組件組成的,如ReLU[175]、規范化[13, 110, 246]和dropout[214]。然后,這些組件以多種方式連接起來(如ResNets[96],U-Nets[195]),以提取特征圖,通常遵循一個復雜的時間表(如何時降采樣/升采樣,多少個階段,每個階段的哪些層)。同時,出現了不同種類的圖層設計,如多頭自注意力[233],以及圖層[124, 202]。過去幾年中最著名的人工智能應用,如高分辨率圖像合成[118]、蛋白質結構預測[117]和文本生成[32],都包含了數百、數千或更多的這些基本單元。
在高層次上,這種基于層的觀點將深度網絡視為一個巨大的計算圖,有規定的、詳細的指令,說明我們如何從輸入中計算輸出(就像一個計算器)。然而,這產生了許多挑戰。首先,作為一個超參數,構建深度網絡的深度和連接性往往是模型設計師的責任。這迅速增加了這些模型的設計、使用和測試的復雜性,特別是當它們變得龐大時[96, 220, 233, 250]。其次,這些網絡都依賴于一種叫做梯度反向傳播的算法[89, 197]來訓練。這需要深層網絡在正向傳遞中記憶所有中間層的激活,以反向遍歷計算圖[46]。這經常會造成內存占用的瓶頸,因為內存消耗會隨著架構深度的增加而迅速增長,并達到硬件的極限。第三,這樣的層構成使得深層網絡相當缺乏彈性,因為無論輸入的復雜程度如何,它們都要進行同樣的計算量(例如,見圖1.1)。例如,我們不能簡單地跳過一個層(除非我們添加更多的層來幫助我們控制,比如SkipNet[238]),因為任何這樣的任意移除都會使模型的功能與它的訓練方式不同。
圖1.1: 想象一下,一輛自主車輛。當它接收和處理流式攝像機幀時,每個幀都需要經過完全相同的深度網絡計算圖(比如20層)。然而,輸入是高度相關的,幾乎是相同的。基于層的深度學習導致該模型不斷重復相同的工作量。來自Cityscapes[53]數據集的圖像。
盡管有這些缺點,層還是被深深地堆積起來,并被認為是現代深度學習中不可或缺的,原因如下。
表達性。長期以來,人們認為由許多層組成的模型為復雜的輸入輸出映射(經常是非線性的)奠定了基礎[89, 102]。
特征層次結構。一個常見的觀點是,層代表決議。例如,Lee等人[136]假設,不同的層次提取圖像的不同抽象部分。
可擴展性。為了建立大規模的模型,我們依賴于靈活連接大量圖層的能力;非常深入的訓練已經被證明是可行的,如規范化[13,110],剩余連接[96]等技術。
本論文旨在重新審視層的這個基本概念。我們要解決的一個關鍵問題是:我們到底需不需要層?
我們提出了一種新的、隱含的、無層的深度學習方法,被稱為深度均衡(DEQ)模型。通過這種均衡方法,我們基本上提出了一種做深度學習的不同方式,以及如何將這些深度網絡作為算法(而不是計算器)來構建和分析。這些DEQ模型代表了無限深的神經網絡,但只有一個單層是隱式建模的(稍后定義)。我們表明,深度學習中的這種隱含性使我們即使在沒有層的情況下也能保持上述三個特性(表現力、特征層次和現實世界環境中的可擴展性),同時糾正了傳統DL所遭受的主要缺點(例如,內存占用)。
在本章的其余部分,我們首先闡述了 "隱性 "在深度學習背景下的含義,以及與此方向相關的先前工作概述。然后,我們提供了本論文的總體路線圖,我們希望它能作為深度隱含層的過去、現在和未來的藍圖。
在這一節中,我們將對過去關于深度學習方法的隱性和連續性的相關工作進行簡要的調查。正如將在第二章介紹的那樣,DEQ模型可以被看作是一個無限深的網絡,但也是一個單層網絡,需要注意的是這一層是隱性定義的:給定輸入x和一個(通常是參數化的)函數F,輸出z?被定義為解決一些非線性方程的值,即
特別是,幾十年來,深度學習界一直在探索隱性狀態的隱性建模,尤其是在遞歸網絡背景下。例如,Pineda[186]和Almeida[4]研究了用于訓練遞歸動力學的隱式分化技術,也被稱為遞歸反向傳播(RBP)。在這些情況下,RNN被結構化(例如,通過Lyapunov函數),因此它們的推理階段是一個可證明的收斂動態系統,人們需要解決RNN序列的穩定狀態(它在每個時間步驟吸收相同的輸入)。在這些工作之后,Liao等人[144]還將RBP理論擴展到基于諾伊曼級數和共軛梯度的更穩定和更有效的變體(并主要研究了它們與這些RNN中截斷反向傳播-通過時間(TBPTT)的關系)。Zhang等人[263]同樣也在RNN架構內執行固定點條件。然而,這些RNN只能應用于極其有限的設置,即每個時間步長都有相同的輸入,這在實踐中很少發生(如文本數據、時間序列等)。
網絡設計的隱性方法最近在非常不同的形式和背景下重新引起了人們的興趣。Amos和Kolter[6]、Gould等人[90]、Johnson等人[116]都提議通過優化問題(即arg min算子)進行區分,從而將公式(1.1)視為優化(如KKT)條件。例如,Amos和Kolter[6]提出在深度網絡的每個單獨的層中解決一個二次方程序(QP);例如,給定前一層的隱藏狀態z[i],OptNet[6]的第i+1層計算以下QP:
其中z[i]是優化(隱藏)變量,Q?0,q,A,b,G,h是定義這個QP優化層的參數。通過這個層的微分立即從公式(1.1)(當Q?0時)中得出,因為我們可以通過其KKT方程K(z?, ν?, λ? )=0進行微分,其中ν, λ是對應于約束條件(1.3)和(1.4)的拉格朗日對等變量。本著類似的精神,Wang等人[237]嵌入了一個基于優化的邏輯結構學習層;de Avila BelbutePeres等人[60],Qiao等人[188]使用這些更多的結構層來構建可微分的物理引擎(例如,人們可以將約束的剛體動力學模擬為深度自動編碼器網絡[60]中的線性互補問題(LCP)[52,54]層)。El Ghaoui等人[69]從廣義的well-posed意義上看這種隱含層,并專注于通過拉格朗日方法訓練小模型。這些優化層通常作為一個專門的層嵌入到傳統的深度架構中,為特定的問題領域定制,其強大的結構假設(如QP[6])大大限制了其表達能力和可擴展性。
另一個相關的主線將公式(1.1)制定為微分方程,從而代表一個連續的深度神經網絡。這一觀點首先由LeCun等人[133]進行理論研究,后來的工作提出將ResNet[96]架構解釋為常微分方程(ODE)求解器的離散化,以利用其可逆性和架構變體。最近,這種解釋被神經ODE方法[45]大大推進,它直接使用黑盒ODE求解器和鄰接方法,通過ODE解決方案進行直接微分(因此,與自動微分軟件包集成)。具體來說,神經ODE解決了隱藏狀態z的以下初值問題(IVP):
其中fθ是一個參數化的層,可以采取靈活的形式,(即計算這個連續網絡相當于把這個層從t=0到T進行整合)。等價地,這些ODEs承認一個隱含的一般解決方案F(x, z?, T)=0。這個神經ODE表述后來被改進[67, 121],并成功地應用于許多場合,如流體動力學[35]和連續生成建模[91]。然而,由于解決高維ODEs的固有挑戰,這些方法還不是很有效[67, 77, 121],也不能擴展到更現實的領域(例如,僅CIFAR-10 32×32圖像分類就需要約100次ODE求解器迭代)。
我們在這篇論文中提出的工作對公式(1.1)采取了一種新的方法。雖然將其定性為優化條件會產生基于優化的層;微分方程會產生神經ODE;但我們引入了一個定點方程表述,產生 "無限層"均衡特征狀態;即對于一個層fθ,F(z?,x)=fθ(z?;x)-z?=0,因此我們將由此產生的算法稱為深均衡模型。有了這樣的表述,我們表明,DEQ模型。
1.恰好使用一個這樣的獨立隱含層fθ作為整個架構(與傳統的層堆疊相比)。
2.在眾多現實任務中表現出競爭性,甚至更好,如語言建模、圖像分類、語義分割、隱性神經表征和光流估計。
3.揭示了長期以來被傳統深度學習埋沒的眾多新特性(如定點循環),使我們能夠以內存和計算效率的方式計算深度網絡。
我們表明,深度均衡模型體現了一種完全隱含的深度學習架構,與之前的這些探索不同,整個架構只有一個隱含層,并且在最具競爭力的水平和規模上工作。圖1.2對比了傳統的(顯式)深度學習和隱式的DEQ模型,前者堆積了大量的運算符,后者解決了一個底層動態系統來模擬輸出。
圖1.2:傳統的深度神經網絡與隱式深度均衡(DEQ)模型。深度均衡模型定義了一個底層動態系統,可以采取任何解算器路徑(如牛頓、準牛頓等)導致固定點。
這篇論文首次深入分析了這種新方法的好處、應用、擴展和面臨的挑戰。我們證明了DEQ模型對隱式建模的性能、可擴展性、效率、靈活性、表示能力等方面帶來的重大改進。我們對隱含性的研究為我們提供了一種通過有限的計算對無限復雜的概念(例如,固定點的概念)進行建模的方法,無層的方法提出了一種令人興奮的深度學習計算的新范式。
在本論文的第一部分,我們將討論多種發現和動機,最終形成深度均衡模型的基本原理(即它們的通用公式)。雖然隱含性之前已經在深度學習中被利用為優化驅動的轉化(第1.1節),但我們從現有深度學習的成功(和前提)及其趨勢出發:非常深的--可能是無窮層的--神經網絡。更具體地說。
1.在第二章中,我們將推導出無限深的神經網絡如何能被一個計算層的固定點的均衡網絡所表示。我們將為這種單層方法的普遍性提供論據,(重要的是)這種定點計算如何通過使用隱含函數定理(IFT)直接在最終輸出中進行區分。我們進一步討論這對DL訓練的前向和后向通道的影響(這將在第五章、第六章和第七章中得到大量的利用。
2.鑒于DEQ模型的一般表述,我們將在第2章和第3章中展示它們如何在大規模的現實環境中涵蓋廣泛的現代和復雜的層設計(例如,多頭自我關注[233])。在第三章中,我們將研究如何使放棄了深層序列的均衡網絡能夠代表特征層次結構。我們將在第二章的DEQ構造的基礎上進行大幅擴展,引入同步均衡建模;也就是說,我們直接在所有特征尺度上同時優化穩定的表征,并為輔助損失和復合訓練程序提供自然接口。
因此,本論文的第一部分將大量強調這些均衡方法的表征能力以及它們與傳統深度學習的根本區別。我們希望傳遞的一個強有力的信息是:"你只需要一層"。
在本論文的第二部分,我們將更深入地討論深度學習的這種隱含觀點的含義。由于這些均衡網絡將訓練過程的前向和后向解耦(即,人們甚至可以只用最終的輸出來訓練模型),我們將證明這導致了傳統神經網絡以前沒有面臨的幾個新的挑戰和機會。特別是:
第四章將首先討論均衡方法引入的一些在傳統深度學習方法中不存在的新問題,如收斂穩定性和求解器的選擇(和成本)。我們將提供一些經驗證據,反映DEQ模型如何隨著訓練的進行而變得越來越不穩定(即越來越 "深"),以及這如何惡化了其他幾個問題,同時概述了一個原則,即根據這些模型的隱含性,通過基于正則化的解決方案穩定DEQ模型的動態系統。
深度均衡模型的單層結構可以將這些模型從昂貴的鏈式規則反向傳播過程中解放出來,這些過程構成了傳統深度學習的學習開銷。在第五章中,我們介紹了近似梯度的概念(又稱 "幻影 "梯度或不精確梯度),它使我們能夠極其有效地近似上述隱含函數定理(IFT)。我們將從理論上論證這些近似的可行性,這些近似使均衡模型的后向傳遞速度提高了5倍或幾乎是免費的,這是傳統神經網絡完全不具備的特性。
在并行線程上,這些隱含網絡還能使層fθ的內部結構(控制表征能力)與固定點的實際計算方式(影響推理時間效率)脫鉤,后者通常是通過Broyden方法[34]等經典技術。在第6章中,我們展示了可以利用這種解耦,并使用一個可以以無監督方式進行端到端訓練的定制神經解算器來大幅提高這個固定點的計算。
結合這些關于DEQ模型的討論,在本論文的第三部分,我們將展示這些見解如何轉化為各種應用和擴展(除了第一和第二部分的大規模設置之外)。我們還將在實踐中展示DEQ模型在各種數據模式下的一個關鍵優勢:自適應計算。雖然傳統的深度網絡需要經歷一個規定的計算圖,而不管輸入的復雜性如何,我們表明,均衡方法可以從高度相關的數據中大大受益,并有效地循環計算以攤銷成本。有了上述所有的技術:
在第七章中,我們將表明,基于DEQ的方法在內存上和計算上的效率比最好的傳統深度網絡在光流估計任務上的SOTA性能要高出數倍,同時提高了SOTA性能。我們提出DEQflow作為一個新的框架,與之前的建模工作兼容,并完全取代了現有的遞歸/滾動程序。
在第八章中,我們將表明這些隱含模型能更好地學習圖像、音頻、視頻和三維模型的隱含神經表征(INR),同時訓練時間和內存成本也大大降低。
在第九章中,我們對所有這些貢獻進行了總結,同時討論了一些與深度學習這一新范式相關的有趣的 "老問題"。例如,傳統的神經網絡是由人腦中的神經元激發的。DEQ模型在任何意義上都不那么 "生物 "嗎?再比如,這些動態系統視角的深度學習如何能最好地應用于現實生活中的動態系統?我們在最后一章中對這些問題(以及未來的研究)提出一些見解。
通過這些理論和經驗上的探索,我們希望能夠提出一種不同形式的深度學習,就像傳統上對這一主題的研究一樣。層對于深度學習來說是必要的嗎?這篇論文認為答案是否定的。或者說,至少它們不是全貌。我們將表明,這些隱性均衡方法是一個重要的研究議程,因為目前的深度學習有一些必須克服的基本天花板,而且DEQ模型在設計上經常更好。
本論文中包含的這些開創性工作挑戰了長期以來的觀點,即基于層的分層架構是現代深度學習不可或缺的組成部分,并導致了一個新的和快速增長的社區,稱為 "隱式深度學習",以及NeurIPS 2020官方教程 "深度隱式層"[68]。
我們在此也簡要總結一下研究生學習期間的其他貢獻,這些貢獻在論文中沒有廣泛討論。許多工作(直接或間接)導致了本論文所關注的隱式深度學習的工作。
序列建模[15, 16] 。雖然遞歸網絡長期以來一直是序列任務的主導力量和默認工具包,但我們重新審視了序列建模的卷積方法。我們提出了卷積和遞歸架構在眾多序列任務(從合成任務到極大規模的任務)中最廣泛的系統比較之一[16]。具體來說,我們提煉了現代ConvNets中的最佳實踐,如剩余塊和擴張,以描述一個簡單的時間卷積網絡(TCN)。我們的實驗結果表明:1)TCN模型的性能大大超過了LSTM和GRU等通用的遞歸架構;2)RNN的 "無限序列內存 "優勢在實踐中基本不存在,而TCN表現出比相同容量的遞歸架構更長的內存。自引入以來,所提出的通用TCN模型由于其各種優點(如:并行性、良好的記憶保持),對現代現實時間序列的建模產生了驚人的影響。并行性、良好的記憶保持性),至今仍在許多領域(尤其是存在極長距離信息的領域)保持著最先進的水平,如語音分離[153, 159]、語音識別[51]、語音增強[182]、基因組學建模[71]、文本分類[111]、唇讀[1]、金融時間序列[203, 243]、動態推薦系統[255]、人類軌跡預測[173],以及更多。
深度學習架構[17, 228] 。我們還介紹了對前沿的深度序列模型的架構特性的研究。在Bai等人[17]中,我們提出了trellis網絡(TrellisNet),它是一種特殊的TCN,其特點是權重類型化和直接從輸入層進入深層的剩余連接。但另一方面,我們證明了截斷的遞歸網絡等同于在其權重矩陣中具有特殊稀疏結構的trellis網絡。因此,TrellisNet架構連接了兩個主要的、看似不相容的序列模型家族:遞歸和卷積網絡,并允許我們結合兩個世界的最佳實踐。此外,在Tsai等人的文章[228]中,我們從內核平滑器的角度研究了變形器,并對這些模型的自我注意機制和位置編碼的各個組成部分進行了深入剖析。
不對齊的多模態機器學習[227] 。多模態時間序列建模的一個主要挑戰是融合來自多種模態(如視覺、聲學和文本時間序列)的特征表示,這些特征表示是不同步的,通常需要費力的人工對齊。我們提出了多模態轉換器(MulT)[227],它使用跨模態的注意力來潛移默化地將未對齊的數據流從一種模態調整到另一種模態。這大大降低了對仔細的特征工程的要求(這經常涉及到大量的領域知識),我們表明基于注意力的多模態學習可以比之前的方法持續提高5%-15%。
用于科學計算的深度學習[30, 205] 。我們提出了圖形變換器神經網絡力場(GTFF)[205]作為一種計算算法,用于直接預測材料系統中分子動力學計算機模擬的原子力。盡管存在精確的方法來計算基本的原子力和行為,但它們也是非常昂貴的,因為應用這種方法需要巨大的計算資源(如每個分子需要幾天或幾周)。相比之下,我們的基于圖形變換器的方法可以快幾十萬倍,同時幾乎不損失精度。這一貢獻是作為Kaggle預測分子特性競賽的一部分[30],我們的方法在2,737個參賽隊中贏得第一名。
強化學習是人工智能中一個強大的工具,其中虛擬或物理代理學習優化他們的決策,以實現長期目標。在某些情況下,這種機器學習方法可以節省程序員的時間,超越現有的控制器,達到超人的性能,并不斷適應不斷變化的條件。這本書認為,這些成功表明強化學習可以成功地應用于許多不同的情況,包括機器人控制、股票交易、供應鏈優化和工廠控制。
然而,強化學習傳統上僅限于虛擬環境或模擬環境中的應用,在這些環境中已經提供了設置。此外,實驗可以完成幾乎無限次的嘗試無風險。在許多現實生活任務中,使用強化學習并不像(1)數據沒有正確的形式;(2)數據稀缺,(3)自動化在現實世界中有局限性。
因此,這本書是寫來幫助學者,領域專家,和數據愛好者一樣理解的基本原則,應用強化學習到現實世界的問題。這是通過將重點放在使用實際示例和將標準數據建模為所需的正確形式,然后應用基本智能體的過程來實現的。為了進一步幫助讀者獲得對這些方法的深入和接地氣的理解,本書展示了完整的手工計算示例,以及如何用代碼以更自動化的方式實現這一點。
對于對強化學習作為解決方案感興趣但不精通的決策者,本書在介紹和案例研究部分包括簡單的、非技術的例子。這些提供了強化學習的背景,以及在實踐中應用它的挑戰和風險。具體來說,這些部分闡述了強化學習和其他機器學習方法的區別,以及知名公司如何成功地使用這種方法解決他們的問題。
//www.morganclaypool.com/doi/abs/10.2200/S01170ED1V01Y202202AIM052
在構建機器學習管道時,一些常見的假設是:(1)訓練數據足夠 "干凈",表現良好,因此很少或沒有離群值,或者數據的分布沒有長尾,(2)測試數據遵循與訓練數據相同的分布,以及(3)數據產生于或接近于一個已知的模型類,如線性模型或神經網絡。
然而,隨著計算機、互聯網和各種基于傳感器的技術更容易獲得,科學和工程的各個分支中出現的現代數據集不再是精心策劃的,往往是以分散的、分布式的方式收集。因此,它們受到異質性、對抗性操作和異常值等復雜因素的困擾。隨著我們進入這個臟的數據時代,上述的機器學習管道的假設越來越站不住腳。
對于機器學習的廣泛采用,我們認為任何模型都必須具備以下三個基本要素:
穩健性。該模型即使在有噪音和損壞的數據下也能被訓練。
可信賴。在訓練結束后,當在現實世界中部署時,該模型在分布的良性變化下不應該崩潰。
有彈性。建模程序應該在模型錯誤指定的情況下工作,也就是說,即使建模假設崩潰,模型也應該找到可能的最佳解決方案。
在這篇論文中,我們的目標是修改最先進的ML技術并設計新的算法,使其即使在沒有上述假設的情況下也能工作,并且是穩健、可信和有彈性的。我們的貢獻如下。
在第二章中,我們提供了一類新的統計最優估計器,這些估計器對各種環境是穩健的,如任意污染和重尾數據等。
在第三章中,我們用一類新的計算效率高的穩健風險最小化估計器來補充我們的統計最優估計器。這些結果為一般的統計模型,如線性回歸、邏輯回歸等,提供了一些最早的可計算的、可證明的穩健估計器。
在第四章中,我們研究了在基礎分布中的一些樣本可能被任意破壞的情況下學習Ising模型的問題。
最后,在第五章,我們討論了我們的結果對現代機器學習的影響。
多智能體影響圖 (MAID) 是一種流行的圖形模型形式,對于某些類別的博弈,與傳統的擴展形式博弈 (EFG) 表示相比,它已被證明具有關鍵的復雜性和可解釋性優勢。在本文中,我們擴展了先前關于 MAID 的工作,通過引入 MAID 子博弈的概念,以及子博弈完美和顫抖手完美均衡進行改進。然后,我們證明了 MAID 和 EFG 之間的幾個等價結果。最后,我們描述了一個用于推理 MAID 和計算它們的均衡的開源實現。
多智能體影響圖 (MAID) 是非合作博弈的緊湊且富有表現力的圖形表示。由 Koller 和 Milch(以下稱為 K&M)[14, 19] 介紹,與經典的廣泛形式博弈 (EFG) 表示相比,它們提供了三個關鍵優勢。首先,MAID 可以比 EFG 更簡潔地描述許多博弈,尤其是那些信息不完整的博弈。其次,MAID 對變量之間的條件獨立性進行編碼。這意味著大型 MAID 通常可以分解為幾個較小的 MAID,從而可能會以指數級速度加速尋找納什均衡 [14]。第三,MAID 通常可以明確表示在 EFG 中模糊的博弈結構方面。雖然可以將任何 EFG 轉換為最多相同大小的 MAID(第 3.3.2 節),但確實 EFG 有時更適合建模非對稱決策問題。話雖如此,每個模型都有其弱點,特定表示的有用程度取決于其優勢。我們進一步開發了 MAID 的理論和實踐工具,以使研究人員和從業人員都能充分發揮他們的優勢。
以前關于 MAID 的工作集中在納什均衡作為核心解決方案概念 [20]。雖然這可以說是非合作博弈論中最重要的解決方案概念,但如果有許多納什均衡,我們通常希望刪除一些不太“理性”的。已經提出了對納什均衡的許多改進[17],其中最重要的兩個是子博弈完美納什均衡[26]和顫抖手完美均衡[27]。第一個排除“不可信”的威脅,第二個要求每個玩家在其他玩家犯小錯誤時仍然在做出最佳反應。在實際方面,雖然有很多軟件用于普通或擴展形式的博弈,但沒有這樣的實現來推理表示為 MAID 的博弈,盡管它們具有計算優勢。
在本文中,我們做出以下貢獻。首先,我們通過引入 MAID 子博弈的概念(第 3.1 節)來擴展 MAID 的適用性,并在此概念的基礎上引入子博弈完美和顫抖手完美平衡改進(第 3.2 節)。其次,我們證明了 MAID 和 EFG 之間的幾個等價結果,證明了在將 EFG 表示為 MAID 時保留了上述關鍵博弈論概念,從而進一步證明了使用該模型的合理性。這些證明是建設性的,并且基于 EFG 和 MAID 之間的轉換程序,其全部細節包含在附錄 A.1 和 A.2 中。第三,我們報告了我們的開源代碼庫,用于計算我們在 MAID 中的平衡改進(第 4 節)。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
我們設計并實現了一個Python庫,以一種高效、可擴展和簡單的方式,幫助非專業人士使用所有這些強大的工具,并將其整合到數據科學家、實踐者和應用研究人員的工作流程中。這個庫中實現的算法在設計時考慮到了可用性和GPU效率,它們可以添加到任何PyTorch模型中,只需要額外的一行代碼。我們展示了這些工具在時間序列分析設置的流形優化應用上的有效性。在這種情況下,使用正交和幺正優化來約束和正則化循環模型,避免消失和爆炸梯度問題。為GeoTorch設計的算法允許我們在該系列模型的標準測試中實現最先進的結果。我們使用比較幾何中的工具來給出優化問題中感興趣的量的邊界。特別地,我們建立在(Kaul 1976)的工作之上,給出黎曼指數二階導數的范數的明確界限。
近年來,深度學習已經成為機器學習和計算機視覺、自然語言處理等相關領域的中心范式。但是對這一努力的許多方面的數學理解仍然缺乏。訓練何時成功,速度有多快? 用了多少例子? 各種架構的優點和局限性是什么? 本書重點研究深度學習的理論方面。
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/
本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》,是信息檢索領域值得關注的最新工作。
作者介紹:
Zhuyun Dai
卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力,構建下一代信息助理系統,幫助人們無縫地獲取世界上的知識。
//www.cs.cmu.edu/~zhuyund/index.html
信息檢索中的神經匹配與重要性學習
地址:
在50-60年的時間里,信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制,但解決這些問題的嘗試大多是不成功的。最近,神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢,以帶來更深入的語言理解IR。
本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配,這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示,我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲,本文提出了一種新的核池技術,該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域,以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。
本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重,但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡,以估計詞的重要性,基于如何相互作用的語言語境。開發了一種弱監督方法,允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行,在不影響效率的前提下顯著提高了第一階段的檢索。
總之,本文提出了一種新的神經檢索范式,克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。