盡管神經網絡在各種應用中的高度公開化的成就備受矚目,但它們尚未在安全關鍵的應用中得到廣泛部署。實際上,關于深度學習系統的魯棒性、公平性、隱私性和可解釋性存在基本的疑慮。在這篇論文中,我們致力于通過提出有關神經網絡驗證和訓練的貢獻,提高對深度學習系統的信任。首先,通過為流行的網絡松弛設計雙重求解器,我們提供了快速且可擴展的神經網絡輸出邊界。具體來說,我們提出了兩種求解元素激活函數凸殼的求解器,以及基于ReLU激活與前線性層組合凸殼的兩種算法。我們展示了這些方法比現有求解器明顯快,并且改善了以往雙重算法的速度-精度權衡。為了有效地利用它們進行正式的神經網絡驗證,我們圍繞邊界算法設計了一個大規模并行的分枝定界框架。我們的貢獻,作為OVAL驗證框架的一部分,已經公開發布,它們改善了現有網絡驗證器的可擴展性,并對更近期的算法開發產生了影響。其次,我們提出了一種直觀且經濟的算法,通過分枝定界來訓練神經網絡以進行可驗證性。我們的方法被證明可以在驗證對小的敵對性擾動的魯棒性方面達到最先進的性能,同時比之前的算法降低了訓練成本。最后,我們進行了全面的實驗評估,評估了一次訓練網絡執行多個任務的專門訓練方案,顯示它們與簡單基線的性能相當。我們對我們的驚人結果提供了部分解釋,旨在進一步激發對深度多任務學習理解的研究。
在過去的幾年里,神經網絡在各種備受關注的應用中取得了顯著的性能,從蛋白質折疊(Senior等人,2020;Jumper等人,2021)到快速矩陣乘法(Fawzi等人,2022)。由于這些成就的宣傳,基于神經網絡的系統現在常常出現在主流信息媒體中(Geddes,2022;Larousserie,2022;Iannaccone,2022),這導致了媒體曝光率的持續增加。直接的結果是,人們對機器學習算法的可信度產生了極大的興趣(Varshney,2022)。特別的,人們的努力已經朝著確保神經網絡的公平性(Du等人,2020),可解釋性(Angelov和Soares,2020),魯棒性(Carlini和Wagner,2017)和隱私性(Abadi等人,2016)方向發展。深度學習在計算機視覺方面的進展(Krizhevsky等人,2012;Voulodimos等人,2018)尤其迅速,其中已經在標準化任務上取得了超過人類的性能(O’Mahony等人,2019)。然而,對敵對性例子的發現(Szegedy等人,2014;Goodfellow等人,2015),即人類無法察覺的擾動可以顯著改變網絡預測,對這種進步的基礎產生了嚴重的質疑。因此,越來越多的注意力開始致力于提供關于神經網絡行為的正式保證(Liu等人,2021b)。此外,人們注意到深度學習的實踐常常基于民間觀察和固定的流程,而不是對正在使用的復雜算法的嚴謹理解(Sculley等人,2018;Hutson,2018)。幸運的是,有許多工作試圖提供對預先存在的算法的全面評估(Greff等人,2017;Lucic等人,2018),常常揭示了更簡單基線的競爭性能(Brockschmidt,2020;Narang等人,2021)。 在這篇論文中,我們通過開發或為神經網絡驗證和訓練的高效算法提供支持,向可信任的深度學習邁進一步。在概述這篇論文中提出的各項貢獻(§1.4)之前,我們現在將介紹神經網絡驗證(§1.2)以及我們感興趣的背景下的神經網絡訓練(§1.3)。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。
隨著機器學習系統被部署到現實世界中的安全關鍵應用中,確保這些系統的魯棒性和可信度變得越來越重要。當深度神經網絡脆弱的本質被發現時,機器學習魯棒性的研究引起了大量的關注。對這種行為的迷戀和擔憂導致了對對抗魯棒性的大量研究,這種研究考察的是模型在最壞情況下的擾動輸入(即對抗性樣本)上的性能。在這篇論文的第一章中,我們展示了對抗性訓練方法在開發經驗魯棒深度網絡方面的改進。首先,我們顯示,通過某些修改,使用快速梯度符號方法的對抗性訓練可以產生比以前認為可能的更魯棒的模型,同時保持相比于其他對抗性訓練方法的更低的訓練成本。然后,我們討論我們在對抗性訓練過程中發現的過擬合的有害影響,并顯示,通過使用基于驗證的早期停止,可以極大地提高對抗性訓練模型的魯棒測試性能。對更自然、非對抗性魯棒性設置的日益關注已經導致研究者們以模型在隨機采樣輸入腐敗的平均性能來衡量魯棒性,這也是標準數據增強策略的基礎。在這篇論文的第二章中,我們將平均和最壞情況下的魯棒性的看似獨立的概念,在一個統一的框架下進行概括,這使我們能夠在廣泛的魯棒性水平上評估模型。對于實際使用,我們介紹了一種基于路徑采樣的方法,用于精確地近似這種中間魯棒性目標。我們使用這個度量來分析并比較深度網絡在零射擊和微調設置中,以更好地理解大規模預訓練和微調對魯棒性的影響。我們表明,我們也可以使用這個目標來訓練模型到中間級別的魯棒性,并進一步探索更有效的訓練方法,以彌補平均和最壞情況下的魯棒性之間的差距。
多任務學習對于機器學習的實際應用至關重要。現代方法以算法復雜性為特征,往往并無充分的理由,導致解決方案不切實際。相比之下,這篇論文證明了一種極簡主義的替代方案是可行的,展示了簡單方法的吸引力。"為深度多任務學習的統一標量化辯護"激勵了本論文的其余部分,證明在公平的比較下,沒有更復雜的多任務優化器超過簡單的每任務梯度求和方法。此外,它從正則化的角度提出了一種新的看待多任務優化器的方式。本論文的其余部分關注深度強化學習,這是一個用于順序決策的通用框架。特別是,我們關注當觀察(輸入到模型的)被表示為圖(即,相互連接的節點的集合)時的設定。在"將GNNs擴展到高維連續控制"和"形態在基于圖的不兼容控制中的作用"中,我們通過將觀察集元素表示為圖并部署圖神經網絡(包括變換器)來學習一個針對不同形態的代理的單一控制策略。在前一章中,我們設計了一種簡單的方法來擴展圖網絡,通過凍結網絡的一部分來穩定學習并防止過擬合。在后一章中,我們顯示圖連接性可能對下游任務來說并不是最優的,證明了在沒有圖連接性信息的情況下,限制較少的變換器表現顯著更好。最后,在"對SAT求解器的可推廣分支啟發式"中,我們將多任務強化學習應用于布爾滿足性,這是學術界和工業應用中的基本問題。我們證明了,配備了圖神經網絡進行函數逼近的Q-learning(一種強化學習算法的基礎)可以學習一種可推廣的分支啟發式。我們希望我們的發現將推動該領域的進一步發展:創建更復雜的基準,增加對任務相似性和模型容量的假設,以及探索其他目標函數,而不是專注于跨任務的平均性能。
隨著時間的推移,更復雜、更強大的深度神經網絡的設計不斷推動各種任務的最新水平。在追求增加性能的過程中,計算復雜性常常受到嚴重阻礙,這體現在參數數量的顯著增加、需要的浮點運算以及延遲。盡管深度神經網絡的巨大進步增加了人們在下游應用(如機器人技術和增強現實)中使用它們的興趣,但這些應用需要計算效率高的替代方案。這篇論文關注的是設計高效的深度神經網絡,具體來說,是在給定的計算約束下提高性能,或者在性能下降不大的情況下降低復雜性。首先,我們介紹了一種新穎的卷積操作重參數化及其在多任務學習中的應用。通過重參數化卷積操作,我們可以以總參數數量的一部分實現與單任務模型相當的性能。其次,我們進行了廣泛的研究,評估自我監督任務作為多任務學習框架中的輔助任務的效果。我們發現,與自我監督任務一起訓練目標任務可以提高性能和魯棒性,常常優于有標簽的輔助任務,而且不需要修改部署時使用的架構。
第三,我們提出了一種新穎的用于高效單物體視覺跟蹤的變換器層。我們證明了實時單物體追蹤器的性能可以在不影響延遲的情況下顯著提高,同時始終優于其他變換器層。最后,我們研究了適應利用點檢測和描述神經網絡用于計算能力有限的平臺的有效性。我們發現,網絡組件的混合精度量化,結合二元描述符歸一化層,可以在性能稍有下降的同時,至少提高一個數量級的稀疏3D地圖的大小、匹配速度和推理速度。總結來說,這篇論文關注的是在計算限制下設計深度神經網絡。隨著對高效深度網絡的興趣和需求的增加,我們預見所提出的工作將為更高效的方法鋪平道路,彌合與性能更好的替代方案之間的差距。
1. 引言
通過計算機自動視覺感知和理解物理世界是計算機視覺研究的一個基本目標。受人類視覺系統的啟發,計算機視覺研究旨在構建能利用視覺輸入(如圖像)的算法,使機器能對視覺輸入內容有高級理解。在這個范圍內,研究關注的是自動提取、分析和理解重要且有用的信息。早期的計算機視覺嘗試可以追溯到Lawrence Roberts的工作[Rob63],但直到David Marr的開創性工作,該領域才有了顯著的改進[Mar76; Mar82]。Marr的框架遵循自下而上的場景理解方法,利用低級線索,如角和邊緣,作為獲得高級信息目標的基礎模塊。這個框架最早和最突出的例子之一是將Canny邊緣檢測器[Can86]與Hough變換[Bal81]結合,以獲取形狀信息,如線和圓。在各種任務上,如立體匹配[Mor81]、運動跟蹤[HS+88; Har93]、圖像匹配[Zha+95]和圖像檢索[SM97],利用低級線索的持續成功激發了對更強大、更描述性的低級特征的興趣。一些最知名的手工特征提取器包括SIFT[Low04]、HOG[DT05]和SURF[BTG06]。將這些特征與機器學習方法(如SVM[CV95])結合,使得更具挑戰性的高級任務,如圖像分類成為可能[Csu+04; SWP05]。然而,這種特性的手動設計性質使得它們在設計假設不成立時變得次優。
受到手工特征提取器限制的啟發,深度神經網絡(DNNs)旨在通過直接優化期望的行為來聯合學習自下而上的特征提取器和預測頭,如分類器[LBH15]。DNNs基于線性函數、非線性激活函數和池化操作的組合。這些模型使用捕獲期望的輸出行為的成本函數進行優化,例如分類的交叉熵,和大規模數據集。自從Krizhevsky等人[KSH12]贏得了ImageNet分類挑戰[Rus+15],大幅超過了使用傳統手工特征提取器的方法,計算機視覺社區就大量采用了DNNs,尤其是卷積神經網絡(CNNs)[LeC+89]。自那時以來,CNNs不僅被用來改進圖像分類[SZ15; Sze+15; Sze+16; He+16; ZK16],還被用來執行廣泛的任務。這些任務包括但不限于語義分割[YK16a; Che+17; Zha+17; Yu+18; Che+18a]、人體姿態估計[NYD16; Cao+17; Sun+19; Cao+19]、單目深度估計[Zho+17; Fu+18; God+19]、物體檢測[Gir+14; Gir15; Ren+15; Red+16]和視覺物體跟蹤[Ber+16; Bha+19]。
為了提高CNNs的表示能力,網絡變得更深[SZ15; He+16]、更寬[ZK16; Sun+19],甚至用更具描述性的替代品替換卷積操作[Dos+21; Tol+21]。我們在圖1.1a中描繪了隨著時間推移在ImageNet分類基準[Rus+15]上的進展。如圖所示,雖然隨著時間的推移,我們看到了持續的性能提高,但這些進步往往以增加的計算復雜性為代價,例如參數的數量(圖1.2a)和FLOPs的數量(圖1.2b)。在一定程度上,這些進步主要需要高端的圖形處理單元(GPUs)和張量處理單元(TPUs),這些通常可以在云服務器上找到。
DNNs的巨大進步進一步激發了人們對其在機器人、增強現實(AR)、虛擬現實(VR)、自動駕駛汽車、物聯網(IoT)和移動電話[Sar+22]中的應用的興趣。然而,云計算的限制阻止了其在這些應用中進行推理的使用。首先,不穩定或丟失的網絡連接使得使用云處理成為不可能。其次,根據數據保護規定,如通用數據保護規定(GDPR)[Cus+19],禁止處理和存儲敏感數據。最后,隨著任何設備或服務的用戶數量的增加,云服務器需要處理增加的數據傳輸以及增加的處理需求,使得云計算不可行且成本效益低。為了緩解這些問題,上述應用依賴于在板上處理,也稱為邊緣計算。DNNs的在板處理解決了云計算的所有限制,并有可能提供確定的和實時的體驗[DD17]。然而,與云服務器、大型機和工作站不同,嵌入式平臺有限的存儲、內存、計算能力、電池壽命,且通常需要更快和更小的軟件更新。這些限制可以,部分地,通過結合以下方法來解決,具體取決于設備特定的約束:
拓撲優化:拓撲優化旨在通過改變網絡的架構來提高每操作的精度或每參數的精度。值得注意的例子包括MobileNets [How+17; San+18; How+19],ShuffleNets [Zha+18a; Ma+18],EfficientNets [TL19; TL21],等等 [Gho+18; Hua+18; Zop+18; Liu+18a; LSY18; Rad+20]。
硬件感知優化:嵌入式平臺通常對全精度(FP)運算提供有限的甚至沒有支持。此外,它們通常被優化為執行SIMD(單指令,多數據)整數(Int)運算 [Ign+18]。盡管標準的深度學習庫使用32位FP表示法 [Pas+19; Mar+15],但對Int表示法的需求呼喚量化神經網絡(QNNs)。通過用Int操作數替換FP,QNNs減少了相對于等效DNNs的存儲和內存需求,同時復雜的FP運算可以被更簡單的Int運算所替代。由于這些性質,QNNs可以以更高的吞吐量(每周期的操作數)和算術強度(每內存事務的算術操作數)執行 [CBD15; KS15; Ras+16; LZP17; Zhu+17; Liu+18b; Jac18; Nag+19; LS20]。
知識蒸餾:從一個大模型(稱為“教師”)開始,目標是將知識轉移到一個更適合部署的小模型(稱為“學生”) [HVD15]。具體來說,這可能包括同一架構家族的模型之間的知識轉移,從ResNet-101 [He+16] 到 ResNet-50 [He+16],也可能是不同的架構,例如從ResNet-101 [He+16] 到 MobileNet [How+17]。知識蒸餾可以被看作是兩個網絡之間的函數匹配,并在實踐中展示了優異的結果 [HVD15; Rom+15; TV17; MM18; CH19; SS20; Xie+20; Bey+22]。
模型剪枝和分解:由于DNNs的過度參數化,剪枝方法旨在識別并消除網絡中的冗余操作。這可能包括剪枝獨立的神經元 [Han+15; HMD16],但通常整個過濾器都用新的具有規則形狀的內核 [Li+17; Gor+18; Yan+18]。與剪枝類似,分解方法用低秩近似替換現有的過濾器。這可能是在二維過濾器上 [Den+14; JV 多任務學習:到目前為止討論的方法主要關注于每個任務學習一個網絡。不同的是,多任務學習(MTL)專注于用單個網絡學習多個任務。MTL最初是為了通過利用額外相關任務的訓練信號作為歸納偏差來提高目標任務的性能而提出的 [Car97]。然而,神經網絡的自下而上的方法使得不同任務之間可以共享參數和計算,使它們成為不僅可以提高任務性能 [Mis+16; Xu+18; Ran+19; Hoy+21; Bru+21] ,也可以減少總參數數量和FLOPs [Kok17; RBV17; BV17; RPC17; RBV18; MRK19; Bru+20; Sta+20]的優秀框架。
最近,深度學習研究在包括計算機視覺、自然語言處理和強化學習在內的廣泛任務中取得了令人印象深刻的快速進展。這些系統的非凡性能常常給人一種印象,即它們可以用來使我們的生活變得更好。然而,正如最近的研究指出的,這些系統存在一些問題,使其在現實世界中使用不可靠,包括易受對抗性攻擊(Szegedy等人[243]),傾向于記憶噪聲(Zhang等人[286]),對錯誤的預測(錯誤校準)過于自信(Guo等人[99]),以及不適合處理私人數據(Gilad-Bachrach等人[88])。在本分析中,我們將詳細研究這些問題,研究它們的原因,并提出在實踐中減少它們的計算成本低廉的算法。為此,我們確定了深度神經網絡中的結構,可以利用這些結構來減輕上述導致深度學習算法不可靠的原因。在第4章中,我們展示了最小化神經網絡中單個權重矩陣的矩陣的一個屬性,稱為穩定秩,降低了網絡記憶噪聲的趨勢,而不犧牲其在無噪聲數據上的性能。在第5章中,我們證明了記憶標簽噪聲或進行不適當的表示學習使實現對抗魯棒性成為不可能。第6章表明,神經網絡表示空間上的低秩先驗增加了神經網絡對對抗性擾動的魯棒性,而在實踐中不會導致與精度的任何權衡。在第7章中,我們重點介紹焦點損失(focal loss)的使用,它根據神經網絡對每個樣本的分類情況,對單個樣本的損失分量進行差異加權,作為交叉熵的替代損失函數,以最小化神經網絡中的錯誤校準。在第8章中,我們首先定義了一個名為加密預測即服務(Encrypted Prediction As a Service, EPAAS)的新框架,以及一系列計算和隱私約束。然后,我們提出使用一種完全同態加密[84]方案,該方案可與二元神經網絡[61]一起使用,以及一組代數和計算技巧,以滿足我們對EPAAS的所有條件,同時計算效率高。
//ora.ox.ac.uk/objects/uuid:1b9afe07-718b-404a-af25-470d476d5c30
神經網絡在處理大量數據方面表現優異,從家庭助手到自動駕駛汽車,在很多方面都極大地造福了我們的生活。然而,人們發現神經網絡是脆弱的。通過以一種人類察覺不到的方式輕微擾亂輸入,神經網絡幾乎不能做出任何正確的預測。這嚴重限制了它們在安全關鍵領域的應用,如醫療健康和金融。在本文中,我們研究了魯棒神經網絡,希望促進神經網絡的更廣泛和更可靠的應用。具體來說,我們專注于評估和訓練魯棒的神經網絡。我們首先考慮魯棒性評估。評估神經網絡魯棒性的一種常用方法是通過形式化驗證,這通常是計算開銷很大的。我們為加快這一進程做出了一些貢獻。簡單地說,我們采用了在統一的分支和定界框架下可以重新制定大多數驗證方法的思想。通過直接處理統一框架,對分支和邊界組件提出了高層次的改進,包括啟發式和學習框架。此外,我們引入了新的數據集,使我們的方法能夠與其他現有的方法進行綜合比較分析。在構造魯棒神經網絡方面,我們提出了一種新的魯棒訓練算法。許多流行的魯棒訓練方法依賴于強對手,當模型復雜度和輸入維數較高時,計算成本較高。我們設計了一個新的框架,可以更有效地利用對手。因此,為了達到類似的性能,可以使用廉價而弱小的對手。在此基礎上,介紹了算法ATLAS。我們通過展示ATLAS在幾個標準數據集上的出色表現來證明它的有效性和效率。
深度學習正變得越來越普遍,由于它的成功,它很可能在未來幾年被應用到我們生活的幾乎每個方面。然而,它的成功故事掩蓋了在現實世界中不慎應用它所帶來的危險。事實上,即使深度學習模型在準確性(或任何其他選擇的指標)方面報告了驚人的高性能,它們也不能保證模型在實際使用時不會出現任何意外行為。這在安全關鍵型應用程序中尤其危險,在這種應用程序中,即使一個無法預見的錯誤也可能造成嚴重的后果。此外,每走錯一步,人類對這項技術的信心就會動搖,從而延緩了它的采用。因此,通過減少(如果不是完全排除)所有意想不到的行為來提高這些模型的可信性是極其重要的。
//ora.ox.ac.uk/objects/uuid:6a59319b-fe5e-44b8-875c-fa679e578f2e
在這篇論文中,我要解決的問題是,如何構建基于深度學習的模型能夠 (I)保證滿足給定的一組需求,這些需求陳述了模型的正確行為,(ii)從需求本身指定的背景知識中學習以提高性能。我特別關注(I)多標簽分類問題的深度學習模型,以及(ii)作為硬邏輯約束建模的需求。為了實現這一目標,我首先考慮具有層次約束的多標簽分類問題,然后逐步增加約束的表達能力。在項目的第一階段,專注于分層多標簽分類問題,這是在A1→A形式的輸出空間上有分層約束的多標簽分類問題,表示A1是A的子類。針對這類問題,我開發了一個新的模型C-HMCNN(h),對于底層的多標簽分類問題,給定網絡h,利用層次結構信息來產生預測,保證滿足層次結構約束并提高h的性能。在項目的第二階段,我考慮了用正常邏輯規則表示的約束,即A1,…, Ak, k+1,…, An→a這個表達式強制每當類A1,…, Ak為預測值,而Ak+1,…,則應預測A類。針對這個問題,我開發了CCN(h),它是C-HMCNN(h)的擴展。對于底層的多標簽分類問題,該模型給出了一個網絡h,它能夠(i)產生保證滿足約束的預測,并且(ii)利用約束中包含的信息來提高性能。最后,為了說明本文所處理問題的重要性,我創建了帶有邏輯需求的ROad事件感知數據集(ROad - r),這是第一個公開的自動駕駛數據集,其需求建模為輸出空間上的約束,并表示為命題邏輯公式。通過創建ROADR,我能夠表明當前最先進的模型不能僅從數據點了解需求。我的實驗結果表明,他們超過90%的預測違反了約束條件,并且有可能利用給定的需求來創建(i)具有更好的性能和(ii)保證符合給定的需求的模型。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
一些相互競爭的擔憂是,深度學習在“邊緣”設備上的計算機視覺應用緩慢。邊緣設備僅為設備上的算法提供有限的資源,從而限制了功耗、內存和存儲使用。例如,移動電話、自動駕駛汽車和虛擬現實耳機都需要高精度和低延遲,這兩個目標會爭奪資源。
為了解決這個西西弗式的任務,現代方法花費了大量的計算來設計解決方案,超過了數千個小時或數年的GPU計算來設計一個單一的神經網絡。更不用說,在單一的一組資源約束下,這些工作只最大化了一個性能指標——準確性。如果資源約束的集合改變了怎么辦?如果額外的性能指標出現在前面,比如可解釋性或泛化?設計高效神經網絡的現代方法由于目標過于單一和狹隘而需要過多的計算而受到限制。
本文直接解決了現代方法的瓶頸,通過高效設計高效的深度神經網絡實現了最先進的性能。這些改進不僅減少了計算量或提高了精度;相反,我們的方法提高了性能,減少了計算需求,盡管增加了搜索空間大小的數量級。我們還展示了被錯過的機會,表現指標超越了準確性,重新設計任務,使準確性、可解釋性和泛化共同提高,這是傳統智慧不可能實現的,這表明,可解釋性和準確性參與了零和游戲。
這篇的論文最終提出了一組模型,為生產就緒的模型設置了新的靈活性和性能標準:這些模型是最先進的,精確的,可解釋的,可概括的,并且可以在CPU時間內配置任何資源約束。
過去的十年見證了深度學習(DL)應用數據量的巨大增長。因此,深度神經網絡(DNNs)的訓練時間過長已經成為機器學習(ML)開發者和研究者的瓶頸。例如,在8個P100 gpu上完成90-epoch ImageNet/ResNet-50的訓練需要29個小時。在16個v3 TPU芯片上完成BERT預訓練需要81小時。本文主要研究的是快速準確的ML訓練。盡管生產團隊希望充分利用超級計算機來加速訓練過程,但傳統的優化器無法擴展到數千個處理器。在本論文中,我們設計了一系列基本的優化算法來提高DL系統的并行度。我們的算法為谷歌、英特爾、騰訊、英偉達等最先進的分布式系統提供支持。本文的重點是彌合高性能計算(HPC)和ML之間的差距。
在2017年HPC和ML之間有很大的差距。一方面,我們擁有強大的超級計算機,每秒可以執行2x10^17個浮點運算。另一方面,我們甚至不能充分利用1%的計算能力來訓練一個最先進的機器學習模型。原因是超級計算機需要極高的并行度才能達到其峰值性能。然而,高并行性導致ML優化器的收斂性很差。為了解決這個問題,我和我的合著者提出了LARS優化器、LAMB優化器和CA-SVM框架。這些新方法使ML訓練擴展到數千個處理器而不會失去準確性。在過去的三年里,我們觀察到ResNet-50的訓練時間從29小時下降到67.1秒。事實上,自2017年12月以來,所有最先進的ImageNet訓練速度記錄都是由LARS創造的。LARS在MLPerf v0.6中成為行業指標。此外,即使沒有超級計算機,我們的方法也比現有的求解器要快。如果我們固定訓練預算(例如1個GPU 1小時),我們的優化器可以達到一個更高的精度比最先進的基線。