基礎模型迅速從實驗室走向實際部署和應用。在這篇論文中,我討論了兩個相關的研究方向,旨在彌合這一鴻溝,以便基礎模型可以在實際環境中得到有效應用,例如工程、醫學或科學領域。第一個方向是使模型更加領域無關:雖然用于訓練基礎模型的技術最初是為語言和視覺領域開發的,但我們展示了簡單的技術可以將這些方法推廣到至少十二個不同的領域中。第二個方向是在任務模糊性的情況下使模型更加有用,即用戶所需任務可能模糊或沒有完全明確,這在實際環境中經常發生。在這里,我們展示了如何衡量和改進基礎模型在任務模糊性下的性能,并探討了模型本身如何協助消除用戶意圖的歧義過程。最后,我們討論了未來的方向以及面臨的挑戰和機遇的廣闊前景。
通用機器學習模型已經問世。雖然它們往往是不完美的、不可靠的、不可信賴的或帶有偏見的,但現在存在著機器學習模型,能夠通過自然語言或圖像示例快速學習各種新任務。使用這些模型的一般公式包括兩個步驟。首先,模型在大量廣泛的數據上進行訓練,例如從互聯網中篩選出的圖像或文本,然后根據所需的任務進行適應,例如使用一組輸入-輸出示例的自然語言指令。這種范式被稱為基礎模型,因為訓練的第一階段產生了一個可以作為許多后續用例的中心基礎的模型。支撐這些模型的進展源于各種研究實驗室的進展,這里無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如C4,ImageNet),為評估模型構建后續任務和基準測試(例如GLUE,SQuAD,ImageNet),開發用于專門的機器學習加速器的硬件和軟件堆棧(例如CUDA,AlexNet,TPUs),用于訓練神經網絡的編程抽象(例如Torch,Theano,TensorFlow,PyTorch,JAX),可擴展的機器學習架構(例如ResNets,Transformers),優化器和分布式訓練的改進(例如Adam,Megatron),當然還有大規模無監督預訓練和遷移學習(例如BERT,GPT-3)。
像許多技術一樣,機器學習在開發過程中使用了一套假設,以使上述的發展變得可行。這些假設就像訓練輪,它們支持技術在初期的發展,但隨著技術成熟并在更廣泛的社會中部署,這些假設需要被摒棄,以免阻礙進一步的進展。盡管上面提到的進展令人矚目,但機器學習算法必須摒棄一些重要的訓練輪,以推動在實際問題中的進展,例如科學、工程和醫學領域。特別是,這篇論文關注的是兩個訓練輪,即領域特定性和明確的任務,隨著這些技術繼續從實驗室走向真實世界,它們已經不再可行。
本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。
論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。
這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。
近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。
機器學習(ML)的訓練將繼續增長,消耗更多的計算周期,其推斷將在更多種類的設備上擴展,而且其功能將在更多的領域中得到應用。未來的一些核心目標是使ML模型高效,從而使其保持實用性并能夠被訓練和部署,并開啟具有新功能的新應用領域。我們描述了一些針對硬件的算法的最新發展,以提高ML模型的效率與質量之間的權衡,并為它們裝備長時間的上下文信息。
//searchworks.stanford.edu/view/14784052
在第2章中,我們關注結構化稀疏性,這是一種自然的方法來減輕大型ML模型的計算和內存成本。我們描述了一種關于可學習的快速變換的工作,由于它們的表現能力和效率,產生了一些首批稀疏訓練方法,可以在實際計時(2×)中加速大型模型而不影響其質量。
在第3章中,我們關注長序列的高效Transformer訓練和推斷。我們描述了FlashAttention,一種快速且內存高效的算法,用于計算注意力而無需近似。通過在不同層次的內存結構之間仔細地讀/寫計算,FlashAttention比現有最好的注意力實現快2-4倍,使用的內存少10-20倍,使我們能夠訓練具有8倍更長上下文的更高質量的Transformers。FlashAttention現在廣泛用于一些最大的研究實驗室和公司。
在第4章中,我們研究了狀態空間模型,這是一種為長期記憶設計的有前途的架構。當我們試圖理解為什么早期的狀態空間模型在語言建模任務上表現不佳時,我們提出了簡單的乘法交互來擴展它們的表現能力。我們還設計了對硬件友好的算法來訓練它們。結果,我們能夠訓練達到千億參數規模的狀態空間模型,展示了一種與語言建模中占主導地位的Transformers競爭的新型模型。我們總結了ML和系統中的一些令人興奮的方向,如軟硬件協同設計、用于科學AI的結構化稀疏性以及用于新AI工作流程和模態的長上下文。
基礎模型正在迅速從實驗室起源轉向現實世界的部署和使用。在這篇論文中,我討論了兩個相互關聯的研究線,它們致力于彌合這個鴻溝,以便基礎模型能夠在現實世界的環境中,如工程、醫學或科學等領域中,得到有效的應用。第一種研究是使模型更加領域無關:盡管訓練基礎模型的技術是為語言和視覺領域開發的,但我們證明了簡單的技術可以將這些方法推廣到至少十二個不同的領域。第二個研究是使模型在任務模糊性的情況下更有用,也就是說用戶希望完成的任務可能模糊或未完全明確,這在現實世界環境中往往是常態。在這里,我們展示了如何衡量和提高基礎模型在任務模糊性下的性能,并探索了模型本身如何幫助澄清用戶意圖的過程。我們在討論未來的方向和更廣闊的挑戰及機遇前景時結束。
通用機器學習模型已經到來。盡管它們常常不完美、不可靠、不值得信賴或存在偏見,但現在存在的機器學習模型能夠通過自然語言或圖像示例快速學習一系列新任務。使用這些模型的一般公式有兩個步驟。首先,對模型進行大量廣泛的數據訓練,如從互聯網上策略性地抓取的圖像或文本,然后將其適應于所需的任務,例如,通過一組輸入輸出示例的自然語言指令。對于這種范例,已經創造了基礎模型這個術語,因為第一階段的訓練產生了一個模型,可以作為這些許多下游用例的集中基礎[Bommasani等人,2021]。
支撐這些模型的進步源自于各大研究實驗室的廣泛進展——太多以至于無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如,C4 [Raffel et al., 2020],ImageNet [Deng et al., 2009a]),為評估模型構建下游任務和基準測試(例如,GLUE [Wang et al., 2018a],SQuAD [Rajpurkar et al., 2016],ImageNet [Deng et al., 2009a]),為專用機器學習加速器開發硬件和軟件堆棧(例如,CUDA [Catanzaro et al., 2008, Garland et al., 2008],AlexNet [Krizhevsky, 2009a],TPUs [Jouppi et al., 2017]),訓練神經網絡的編程抽象(例如,Torch [Collobert et al., 2011],Theano [Team et al., 2016],TensorFlow [Abadi et al., 2016],PyTorch [Paszke et al., 2019],JAX [Frostig et al., 2018]),可擴展的機器學習架構(例如,ResNets [He et al., 2016],Transformers [Vaswani et al., 2017b]),優化器和分布式訓練的改進(例如,Adam [Kingma and Ba, 2014],Megatron [Shoeybi et al., 2019]),當然還有大規模無監督預訓練和遷移學習(例如,BERT [Devlin et al., 2018],GPT-3 [Brown et al., 2020])。
我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。
研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。
從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。
在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。
我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。
在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。
DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。
這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。
在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。
第二章:增強大型語言模型的魯棒性
在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。
第三章:解決大型語言模型的可擴展性挑戰
在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。
第四章:大型預訓練數據集的管理
在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0
最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。
數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。
(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。
盡管數據規模在增長,但我們希望將學習算法的許多應用都受到數據數量和質量的限制。生成模型提出了一個框架,可以自然地將先驗信念與現實世界的數據結合起來。生成式方法的核心是概率推理的挑戰,或估計給定觀測的潛變量。這一挑戰催生了涵蓋多種統計技術的豐富研究領域。最近,深度學習方法被用來解決推理查詢,被恰當地命名為深度推理。在我的論文中,我將探索深度推理的擴展,以應對現實世界的稀疏性和效率的挑戰。我將介紹實際應用的案例研究,其中深度推理在以前的工作上取得了相當大的改進。
本文主要圍繞三個部分展開。我們介紹了生成模型和深度推理的背景,重點是現代變分方法。第一部分將提出新的泛化推理算法,以對不同的稀疏性概念(如多模態數據、缺失數據或計算約束)具有魯棒性。其次,我們研究了元平攤推理,或“推斷如何推斷”。一種雙平攤推理算法將能夠廉價地解決一個新的生成模型的推理查詢。我們將展示一種新的算法來重新利用掩碼語言建模來實現這一點。
第三,我們提出了深度推理在教育中的兩個現實應用:(a)在項目反應理論和相關心理測量模型下估計學生的能力,(b)為學生學習解決編程問題推理教育反饋。總之,這些貢獻展示了深度推理在教育中的豐富性和實用性,以及在現實世界中更廣泛的應用。
自從深度學習和深度強化學習出現以來,已經有大量的經驗成功地利用某種人工神經網絡來解決給定的優化問題。然而,許多公司的內部運作方式只被人們模糊地了解,并隱藏在成功的故事中。通過揭示各種含義,這篇論文試圖建立一個理解為什么某些神經網絡架構設計工作,以及關鍵的是為什么其他的不能工作。本文不關注實證結果,而是從研究反向傳播在架構設計和訓練中的簡單數學含義開始。然后,提出一種稀疏的全連接層替代方案,以避免信號傳播中的瓶頸。它進一步展示了如何設計單調神經網絡,以及如何使用這些網絡在連續動作空間控制設置中為智能體提供更靈活的策略表示。這本書進一步討論了將神經網絡分成多個模塊的權衡和設計。特別是,模塊化的需求在目標相互沖突的多任務設置中得到了體現。最后,討論了最近提出的注意力架構及其隱含含義。貫穿整篇論文的結果強調了超參數之間的關聯效應和定制架構設計的必要性。本文適合有技術背景的讀者。它被寫得讓剛開始接觸神經網絡的人也能理解。然而,即使是該領域的資深研究人員也可能對所呈現的獨特觀點感興趣。
//www.research-collection.ethz.ch/handle/20.500.11850/541752
作為一個由經驗結果驅動的領域,深度學習是眾多神經結構設計方案的發源地。幾乎每天都有新的論文發表,建議對某些架構組件進行輕微修改,以提高性能。然而,由于大量的混雜因素,通常不清楚性能的提高實際上是由于架構的變化,還是由于超參數的差異,數據預處理的變化,表示能力的增加,或者只是初始化參數的幸運抽獎。本文著眼于深度強化學習的應用前景,旨在更好地理解神經網絡的基本內部工作原理及其設計。
特別地,本文首先強調了反向傳播的隱式內存需求、常用激活函數的工作范圍以及體系結構組件對梯度傳播的影響。展示了架構瓶頸和門控機制如何導致梯度消失,并討論了殘差連接對梯度動態的影響。它還強調了通過體系結構提供算法結構的必要性,以及結構和有利的訓練動態之間的內在權衡。在第一個實際示例中,本文提出了一種全連接層的稀疏替代方案,可以減少參數計數,而不會引入不必要的瓶頸。在強化學習方面,本文提出了一種在連續動作空間環境中控制的新方法。該方法基于分位數回歸和神經網絡的單調性約束。這種組合允許在網絡參數中隱式地表示策略,從而提供了表示復雜動作分布的靈活性。這種策略的必要性在競爭游戲和約束內存設置中得到了證明。此外,該方法還提高了經典控制問題的學習性能。本文進一步探討了多任務學習的局限性,并針對干擾任務目標的問題提出了兩種解決方案——一種是基于注意力架構先驗的解決方案,另一種是基于與無監督任務聚類配對的神經網絡解決方案。這兩種方法都有效地緩解了這個問題,從而提高了性能,并在不同的環境中具有更廣泛的適用性。 本文最后深入研究了注意力架構和transformer對超參數的敏感性。它強調了將注意力權重約束到概率單形的含義,以及這些如何反映訓練表現。它進一步展示了內部softmax激活如何像sigmoid一樣容易飽和,以及transformer在初始化時如何不是序列長度獨立的。在對抽象任務的大規模實證研究中,將Transformer與可選架構設計進行比較。結果突出了超參數選擇的相關效應,不同架構對數據偏差的魯棒性,以及算法對齊對底層任務的重要性。
機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。
常見的圖像編輯方法側重于低級特征。在本論文中,我利用機器學習使圖像編輯在更高的概念層次上運行。從根本上說,所提出的方法旨在通過結合通用的視覺知識,從可能被編輯的信息中提取出必須在編輯過程中維護的視覺信息。因此,新方法可以以人類可理解的方式轉換圖像,比如將一個物體轉換為另一個物體,將照片程式化到特定藝術家的畫作中,或將日落加到白天拍攝的照片中。我們探索在不同的設置和不同數量的監督設計這樣的方法: 逐像素標簽,逐圖像標簽,和沒有標簽。首先,利用逐像素監督,我提出了一種新的深度神經網絡架構,可以從場景布局和可選目標風格合成逼真的圖像。其次,使用每個圖像監督,我探索了域翻譯的任務,其中一個類的輸入圖像被轉換為另一個類。最后,我設計了一個框架,可以從一組未標記的圖像中發現結構和紋理的分離操作。我們在廣泛的應用中提供令人信服的視覺效果,包括交互式照片繪圖工具、對象變形、虛擬和真實環境之間的域間隙減少,以及圖像紋理的逼真操作