該項目基于博弈論、不確定性量化和數值逼近等方法,致力于兩個主要目標:(I)將它們應用于計算數學中具有實際意義的高影響問題;(II)它們向機器學習方向發展。本著這一目的,以及對概念/理論進步和算法/計算復雜性進步的雙重強調,本計劃的成就如下:(1) 我們開發了學習核的一般穩健方法,包括:(a) 通過核流(交叉驗證的一種變體)進行超參數調整,并應用于學習動態系統和天氣時間序列的外推;(b) 通過可解釋回歸網絡(核模式分解)對核進行規劃,并應用于經驗模式分解。(2) 我們發現了一種非常穩健和大規模并行的算法,基于Kullback-Liebler發散(KL)最小化,計算密集核矩陣的反Cholesky因子的精確近似值,具有嚴格的先驗復雜度與準確度的保證。(3) 我們引入了競爭梯度下降法,這是梯度下降法在雙人博弈環境中的一個令人驚訝的簡單而強大的概括,其中更新是由基礎游戲的正則化雙線性局部近似的納什均衡給出。該算法避免了交替梯度下降中出現的振蕩和發散行為,而且選擇較大步長的能力進一步使所提出的算法實現更快的收斂。(4)我們開發了一個嚴格的框架,用于分析人工神經網絡作為離散化的圖像注冊算法,圖像被高維空間的高維函數所取代。(5) 我們引入了一種通用的高斯過程/核方法來解決和學習任意的非線性PDEs。(6) 我們引入了一個新的不確定性量化框架,解決了傳統方法的局限性(在準確性、穩健性和計算復雜性方面)。
深度學習經歷了巨大的增長,這主要得益于更強大的計算機、更大數據集的可用性和軟件基礎設施的進步,而深度神經網絡在機器學習中考慮的幾乎每一項任務中都設置了新的最先進的技術。深度神經網絡在經驗上的成功是無可爭議的,但我們對這些模型為什么有效(當它們有效時)的理解仍然有很大的差距,而且它們可能以令人驚訝的方式失敗(當被篡改時)。本文研究了為什么強大的深度神經網絡有時會失敗,以及可以做什么來防止這種情況。雖然深度神經網絡對隨機噪聲具有很強的魯棒性,但已有研究表明,在面對所謂的對抗性例子時,它們的準確性會急劇下降,即輸入信號的專門設計的小擾動,通常是人類無法察覺的,足以導致模型輸出的大變化。這種明顯的脆弱性令人擔憂,因為深度神經網絡開始在現實世界中激增,包括在安全關鍵部署中。最直接和流行的魯棒化策略稱為對抗訓練,它在訓練過程中使用對抗例子作為數據增強。本文在深度神經網絡的對抗性訓練和算子范數正則化之間建立了理論聯系。證明了?p -范數約束的投影梯度上升對抗性訓練,在干凈和擾動輸入的logits上具有?q -范數損失,與數據依賴(p, q)算子范數正則化等價。這種基本聯系證實了長期存在的論點,即網絡對對抗性樣本的敏感性與其譜特性有關,并暗示了增強和抵御對抗性攻擊的新方法。我們還提出了一種利用對抗性攻擊引入的某些異常的檢測方法。具體來說,我們提出了一種測量特征表示和對數概率在噪聲下如何變化的方法:如果輸入是對位攝動的,噪聲誘導的特征變化傾向于有一個特征方向,而如果輸入是自然的,它傾向于沒有任何特定的方向。我們評估了針對強迭代攻擊的方法,并表明即使對手意識到防御也無法躲過我們的檢測器。
量化對抗脆弱性的首選策略是針對特定的攻擊算法評估模型。然而,這種方法本身就有局限性,因為它很少提及模型對不包括在評估中的更強大攻擊的魯棒性。我們開發了一個統一的數學框架來描述基于松弛的魯棒性認證方法,它超越了對手特定的魯棒性評估,而是提供了可證明的魯棒性保證,以抵御任何對手的攻擊。
我們還提出一種新的正則化方法來穩定生成對抗網絡(GANs)的訓練。我們證明了使用噪聲或卷積密度的訓練等價于基于梯度的鑒別器正則化,這產生了一個更平滑的鑒別器家族,而不必顯式地添加噪聲。由此產生的正則化器是一種簡單而有效的GAN目標修改,計算成本低,產生穩定的GAN訓練過程。 我們還研究了貝葉斯神經網絡(BNN),它學習模型參數的分布,或者等效地對可能模型的集合進行抽樣,而不是優化單個網絡。盡管貝葉斯神經網絡有望獲得更好的泛化性能(無過擬合)和原則性的不確定性量化(穩健預測),但是,貝葉斯神經網絡的使用仍然受到限制。
我們通過仔細的MCMC抽樣證明,與SGD獲得的點估計等更簡單的方法相比,貝葉斯后驗預測誘導的后驗預測系統地產生了更糟糕的預測。另一方面,我們證明了貝葉斯預測性能可以通過使用夸大證據的“冷后驗”顯著提高。這種冷后驗嚴重偏離貝葉斯范式,但通常被用作貝葉斯深度學習中的啟發式。我們的研究結果對目前對貝葉斯深度學習的理解提出了質疑,并表明現在是時候關注理解冷后視表現改善的起源了。
我們開發了一個深度學習框架來發現Koopman網絡模型,該模型映射了所有測量的生物電路輸出、實驗輸入參數和背景設計參數之間的因果關系。我們發現了測量(如多個熒光報告器)和監測的實驗參數(如光密度(OD)、溫度、誘導劑濃度、培養基的年齡)的因果關系的動態網絡模型,從而概括了任意非線性系統的動態結構函數(和傳遞函數)的概念。這些模型被用來確定具有類似行為的生物部分或生物電路的類別和關系,推斷潛在變量的狀態以產生實驗驚喜的假設,預測和評估穩定系統行為的操作包絡,并定量預測生物電路動態響應作為實驗參數的函數。我們項目中的方法結合了深度學習算法的表達能力、可擴展性和Koopman算子理論的嚴謹性,以發現數據驅動的動態系統模型,用于假設生成和生物電路表征。
最先進的模型發現方法通常利用關于模型結構的先驗信息。例如,貝葉斯分層模型識別方法基于模型先驗知識推斷出模型類別和參數。壓縮感應算法基于預先定義的基礎函數字典來識別輸入-輸出和動態模型。最先進的學習Koopman算子的方法依賴于動態模式分解(DMD),它利用線性模型來近似無窮大的Koopman算子。因此,這些方法依賴于科學家的創造力來提供先驗的典型模型。這限制了它們在缺乏規范模型的領域的適用性,如合成生物學、神經科學、人機系統或社會系統。
在合成生物電路設計方面,數據驅動的科學模型發現受到三個主要技術挑戰的阻礙。1)在未建模的動態情況下學習生物電路變量之間的定量關系,2)了解這些關系如何作為生物電路背景的函數而變化,以及3)在生物電路模型中轉換設計變量和背景之間的關系,以預測生物電路的穩定運行包絡。由于這些挑戰,科學發現通常依賴于手工或半自動的數據收集,然后由人類對數據進行解釋。模型被視為確認人類產生的假設的一種手段,而不是發現新的科學假設的一種手段。同樣,這是因為模型是圍繞科學家提供的第一原理而構建的,而不是來自數據驅動的算法。
我們開發了一種數據驅動的方法來學習網絡模型,其分辨率與數據中可用的空間和時間尺度相稱。我們沒有試圖為一個詳細的第一原理模型完全填充所有的動力學參數,而是開發了只描述測量的或已知的實驗變量之間因果關系的網絡模型。利用這個計算框架,我們項目的主要成果將在下面的章節中概述。
本報告介紹了對動態數據驅動應用系統(DDDAS)異常檢測和響應的研究,以建立抗攻擊的多智能體系統。報告涵蓋了2019年1月至2021年11月期間的情況。除了之前報告中介紹的成就,我們還展示了一些關于所述策略實際執行的新結果,以及完成項目所有活動所需的最后細節。由于Covid-19大流行病,封鎖阻礙了實驗室的工作,不被允許雇用研究生研究助理,項目要求延期,并在2020年11月獲得批準。大學在2021年第二學期開放了實驗室,當時能夠雇用四個本科生研究人員。因此,所有的活動都是由這些本科生、三名研究生和兩名主要研究人員制定的。
這份最終報告的組織結構如下:
(i) 第一節總結了項目的目標和活動,到目前為止取得的進展,所需要素的購買情況,以及書面論文的清單。
(ii) 第二節介紹了一些與所制定的戰略共同的初步情況。
(iii) 第3節介紹了開發的方法和實驗結果。
(iv) 第4節提出了一種新穎的離散時間種群動力學來實現機器人的編隊。
(v) 第5節介紹了所開發的策略的發展和進一步的實際執行情況,以供測試。
(vi) 最后,第7節介紹了所開發工作的最終結論。
具有多個智能體的系統使我們能夠開發不同的策略來控制大規模的互連系統。與有單個智能體的系統相比,有多個智能體的系統可以更容易和更快地完成監視等任務。對這類系統的研究使我們能夠對動物和人類的行為進行建模,并根據這些行為設計控制策略。這種策略從基于鳥群和蜜蜂覓食的算法[1],沿網絡的分布式傳感[2],延伸到耦合振蕩器的同步[3],等等[4,5]。
進化博弈論對生物種群有重要的啟發作用,當與物理系統適當結合時,博弈論可以優化系統行為。這種理論的使用允許為不同的應用設計分布式控制器,如水系統的控制[6],或孤立的微電網的同步[3]。大多數提出的問題解決方案都采用連續時間的方法。然而,為了在一些系統上正確實施這些策略,需要有離散時間控制器。即使連續時間控制器是穩定的,離散化也可能變得不穩定。因此,必須發展理論結果以確保離散時間控制器是穩定的。
除了提到的離散化問題,控制器和系統還面臨另一個問題,因為它們很容易受到攻擊。惡意智能體可以修改系統信息以損害用戶和物理工廠。在多智能體系統中,對一個智能體的攻擊可以滲透到整個系統中,因為它向其余的智能體發送了損壞的信息。此外,攻擊者可以修改一個智能體發送給其鄰居的信息。對真實系統的一些攻擊表明,有必要開發一種自動反應來面對其影響[7, 8]。
該項目解決了上述問題,即使用離散時間群體動力學的系統控制和緩解對控制系統的攻擊。因此,本項目所取得的貢獻可以概括為以下幾點。首先,我們開發了一種策略來檢測和緩解對系統智能體之一的傳感器的攻擊。該策略減輕了對被攻擊智能體的影響,并防止攻擊通過通信網絡傳播到整個系統。第二,我們設計了一個使用新的離散時間群體動力學來優化凸函數的策略。我們開發了理論結果以確保系統的穩定性。這一新穎的發展使我們能夠設計一個控制器來實現機器人的編隊。第三,我們開發了一個基于軟件定義的網絡(SDN)的策略,以減輕對通信鏈路的攻擊。我們說明,使用SDN為網絡物理系統提供了不同的能力,以減輕智能體之間的通信攻擊。最后,我們不僅模擬,而且還在一個有多個差動驅動機器人的系統上實施了上述的一些策略,以顯示其效率。
為無人駕駛地面車輛(UGVs)設計并實現一個能夠減輕對傳感器讀數攻擊的編隊控制器。這項工作的重點是至少有三個機器人的編隊,并限于完整性和重放攻擊。
之前所說的目標可以在以下具體目標中分開:
開發一個編隊控制器,用于幾個UGV,即三到六個機器人,以及至少三個幾何編隊分布。
開發一種能夠檢測機器人傳感器異常情況(攻擊/失敗)的機制。
開發至少一種機制,能夠協調測量值和估計值,并計算控制行動所需的調整,以減輕異常情況對機器人編隊的影響。
開發一個機制的性能指數,以量化當緩解機制被添加到編隊控制器中時攻擊的影響的減少。
為了實現這些目標,我們在項目提案中陳述了以下活動:
(i) 設計和實現編隊隊長的控制器。
(ii) 設計和實現緩解對編隊領導的路徑跟蹤任務的攻擊的機制。
(iii) 選擇要探索的編隊集合,即定義每個編隊的機器人數量和幾何形狀(至少有三種情況)。
(iv) 為三個機器人系統的每個編隊中的跟隨者機器人設計和實現控制器。
(v) 開發機制,以檢測由領導者發送和/或由兩個追隨者接收的信息的異常情況(被攻擊的信息可能是不同的)。
(vi) 開發機制以減輕攻擊對編隊中兩個跟隨者機器人的影響。
(vii) 在一次專門會議上發表部分成果。該出版物將包括緩解對一個有三個機器人的編隊中的領導者和追隨者機器人的攻擊。
(viii) 設計和實現六個機器人的多智能體系統中的領導者和跟隨者的編隊控制器。
(ix) 開發機制,以檢測有六個智能體的系統中由領導者發送和/或由追隨者接收的信息的異常情況(在攻擊下可能是不同的)。
(x) 為六個智能體和不同的隊形形狀擴展緩解機制。
(xi) 定義一個性能指數,以量化受攻擊系統和包括緩解機制的受攻擊系統之間的差異。
(xii) 在專業期刊上發表最終結果。
圖1:不同移動地面機器人平臺的比較。EPFL是洛桑聯邦理工學院,USC是南加州大學。改編自[9]。
為了完成上述活動,我們已經購買了一些硬件。圖1顯示了不同研究小組制造的一些機器人的主要特征。盡管有些機器人如Khepera IV呈現出許多功能,但這些機器人的價格很高,或者它們沒有商業化的供應。因此,我們選擇了e-puck第2版;它有足夠的功能來開發目前的工作,其價格允許我們用現有的預算購買幾個機器人。
我們總共購買了六個地面機器人,一臺高性能的和三臺中等大小的計算機。表1顯示了每個部件的不含稅成本。機器人的價格是不同的,因為它們是在不同的日期購買的。此外,為了實現機器人的分布式通信,購買了6個樹莓派,為了檢測機器人的位置,還購買了一個攝像頭。作為項目的對應方,博士生Luis Francisco C′ombita在2015年獲得Colciencias 727資助的預算中的一些資源被用來購買項目用品,以及博士生Jorge Alfredo Lopez Jimenez的一些預算資源。Colciencias是哥倫比亞相當于國家科學基金會(NSF)的機構。
表1:為項目發展所獲得的要素
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構
美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。
本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。
在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。
RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰
我們并不是生活在真空中!我們與環境中的其他主體互動以做出理性的決定。例如,選擇從你的公寓到校園的最快或最簡單的路線,在eBay拍賣中選擇最合適的出價,決定是否在雙人撲克游戲中認輸,或在石頭剪刀布游戲中選擇獲勝的一步棋。在所有這些例子中,我們在做決策時必須與其他代理交互。特別是,我們的最佳策略取決于環境中其他代理的行為(例如,選擇的路線取決于使用這些路線的其他人的數量,如果我的對手選擇剪刀,我就選擇石頭)。在給定的環境中,面對其他戰略主體時,我們如何做出理性的決策?最好的策略是什么?博弈論幫助我們回答這些問題。
博弈論是一種數學工具,它允許我們對特定環境下的利己主義和理性行為者的戰略互動進行推理。該結構提供了一組框架,描述了在這樣一個戰略代理人的環境下的理性結果。雖然博弈論領域起源于經濟文獻,但計算機科學家在過去幾十年里從建模和計算的角度對這一領域做出了重大貢獻(這導致了計算博弈論)。此外,許多博弈論應用在現實世界中(例如,分配警力到洛杉磯國際機場的檢查站,分配巡邏人員來保護非洲的野生動物,預測美國參議員的投票行為)。
觀眾將會學習到: (1) 引入基本的博弈論決策工具,建模和理解自利和戰略代理的戰略互動; (2) 了解建模工具的解決方案概念,以及如何使用它們來預測agent的決策行為; (3) 介紹了計算方面的計算這些解的概念; (4 )接觸了博弈論在安全和社會科學領域的一些主要應用。 此外,如果時間允許,講座將涵蓋更高級的主題,包括解決復雜策略空間的博弈,博弈中的學習,完全信息的動態博弈,不完全信息的靜態博弈,不完全信息的動態博弈。
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。