生成式數據增強(GDA)已成為緩解機器學習應用中數據稀缺問題的有前景技術。本論文提供了GDA領域的全面綜述和統一框架。首先,我們簡要介紹GDA,討論其動機、分類法和與合成數據生成的主要區別。接下來,我們系統地分析了GDA的關鍵方面 - 選擇生成模型、使用它們的技術、數據選擇方法、驗證方法以及各種應用。我們提議的統一框架對廣泛的GDA文獻進行了分類,揭示了例如缺乏通用基準的缺口。這篇論文總結了有前景的研究方向,包括有效的數據選擇、大規模模型在GDA中的應用的理論發展和為GDA建立基準。通過建立一個結構化的基礎,本論文旨在促進生成式數據增強這一重要領域的更有凝聚力的發展和加快進展。
在當代機器學習領域中,深度學習算法已經成為眾多任務的強大工具,展示了前所未有的準確性和能力[1; 2; 3]。然而,它們效能的關鍵基石在于它們能夠訪問大量的數據[4; 5; 6]。在當今的數字環境中,收集如此廣泛和原始的數據集,矛盾地,證明是復雜的,并可能昂貴得令人望而卻步。這種數據收集的復雜性源于多方面的挑戰,包括但不限于隱私關注[7; 8],多樣化的數據來源,以及需要費勁標注的需求[9]。 因此,科學界已經轉向數據增強技術,作為一個務實的解決方案,以抵消可用數據的匱乏。數據增強是指一套用于人為擴大數據集的容量和多樣性的技術,通過對其現有條目進行控制修改,而不改變它們的固有語義解釋[11; 12]。傳統的數據增強方法[10],雖然很好,但主要圍繞線性變換或初級的非線性修改。盡管這些方法有益,但它們已經顯示出了局限性,尤其是在它們顯著提高模型性能的能力方面,特別是當底層數據多樣化時。
認識到這些局限性,研究人員越來越感興趣于探索更為復雜的數據增強途徑。在這一追求中的一個顯著方向是集成生成模型進行數據增強,即生成式數據增強(GDA)。生成模型的吸引力在于它們固有的模擬數據復雜概率分布的能力[13; 14; 15],從而提供了更為細致和廣泛的增強景觀。通過挖掘這種潛力,生成式數據增強為改進深度學習模型性能提供了一個有前景的視野,特別是在數據有限的情境中。 本文提供了關于生成式數據增強(GDA)的全面綜述。雖然該領域已經見證了眾多的方法和方法論,但這些技術的結構化和統一的理解通常是難以捉摸的。許多作品將GDA應用于某個數據集,但在GDA的發展上鮮有創新和貢獻。統一的框架可以通過提供清晰的結構和分類來解決這個問題,使研究人員更容易識別缺口并基于現有方法進行構建。
為了解決這個缺口,我們提出了一個統一框架,系統地對GDA的廣泛景觀進行了分類。這個框架作為一個路線圖,指導讀者了解GDA的多方面:從選擇生成模型,到利用它們的技術,選擇高質量合成數據的策略,驗證這些數據的方法,以及GDA被證明是關鍵的各種應用。
總數組織
第2節:初步 - 本節提供了關于生成式數據增強(GDA)的基礎知識。本文中使用的核心概念、關鍵術語、符號和概念都將在此處呈現。第3節:選擇生成模型 - 在此,我們深入探討了我們可用的各種生成結構。從傳統的VAEs[16; 17; 18; 19; 20; 21]和GANs[22; 23; 24; 25; 26; 27; 28; 29; 30],到新興的基于GPT[31; 32; 33; 34; 35; 36; 37; 38; 39; 40]和基于擴散的創新[41; 42; 43; 44; 45; 46; 47],我們闡明了它們的機制、優點、缺點和使用場景。第4節:利用技術 - 本段專門探討如何有效利用選定的生成模型。我們探索了潛在空間操作和提示工程,評估它們對數據質量和相關性的影響。第5節:合成數據的選擇策略 - 考慮到生成的大量合成數據,我們如何篩選最好的數據?本節深入探討了幫助提高合成數據質量的技術,無論是既定的還是新興的。第6節:合成數據的驗證 - GDA的一個關鍵方面是驗證生成樣本的可靠性。在此,我們涵蓋了確定合成數據集的質量和相關性的理論和實證方法。第7節:GDA的應用 - 在這一部分,GDA的多功能性是首要的。我們概述了其在多個領域的變革潛力,從醫療保健的醫學成像到農業等領域的應用。第8節:生成式數據增強的統一框架 - 基于前幾節的見解,我們介紹并詳細描述了我們提議的統一框架。本節闡明了框架結構背后的理念以及如何簡化從模型選擇到應用的GDA過程。第9節:當前挑戰和未來方向 - 當我們接近綜述的結束時,本節對GDA的持續挑戰進行了反思,并設想了潛在的突破。它為希望進一步拓展GDA邊界的研究者提供了指導。統一框架也可以視為本文的流程,在圖1中可以直觀地看到。本綜述的主要貢獻如下:
廣泛且最新的編譯:從過去三年中的230多部開創性工作中摘錄,本綜述提供了關于生成式數據增強(GDA)的最全面的評論,有效地捕捉了該領域的快速進展。
統一框架提案:我們引入了一個結構化和有凝聚力的GDA框架,包括模型選擇、利用技術、合成數據選擇、驗證和應用。這為研究者和實踐者提供了一個系統的指南,用于改進GDA并在各種背景下實施GDA。
深入選擇和驗證:我們的綜述深入探討了合成數據選擇和驗證的細微差別,這在以前的研究中很少受到關注,強調了GDA技術的有效部署中它們的重要性。
未來路線圖:從廣泛的文獻綜述中受益,我們辨別并討論了現有的挑戰和潛在的突破途徑,為GDA的未來研究提供了一個有遠見的路線圖。
這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。
在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。
第二章:增強大型語言模型的魯棒性
在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。
第三章:解決大型語言模型的可擴展性挑戰
在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。
第四章:大型預訓練數據集的管理
在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0
優化技術是數據科學的核心,包括數據分析和機器學習。對基本優化技術及其基本特性的理解為這些領域的學生、研究人員和從業人員提供了重要的基礎。本文以緊湊、獨立的方式涵蓋了優化算法的基本原理,重點關注與數據科學最相關的技術。其中一章介紹了數據科學中的許多標準問題都可以表述為優化問題。其次,對優化中的許多基本方法進行了描述和分析,包括:光滑(特別是凸)函數的無約束優化的梯度法和加速梯度法;隨機梯度法,機器學習中的主要算法;坐標下降法;求解約束優化問題的若干關鍵算法數據科學中最小化非光滑函數的算法非光滑函數分析的基礎與優化對偶以及與神經網絡相關的反向傳播方法。 本書探討了非線性優化的理論和算法,特別關注機器學習和數據分析中出現的問題。本文平衡了最壞情況分析與實施問題,旨在強調為優化實踐提供合理指導的核心理論工具。
這本書涵蓋了適合計算機科學、工業工程、電氣工程和相關領域的研究生的四分之一長度的優化課程的材料。 //people.eecs.berkeley.edu/~brecht/opt4ml_book/ 目錄內容: 1. Introduction 1. Foundations 1. Elementary Descent Methods 1. Gradient Methods Using Momentum 1. Stochastic Gradient Methods 1. Coordinate Descent Methods 1. First-Order Methods for Constrained Optimization 1. Nonsmooth Functions and Subgradients 1. Nonsmooth Optimization Methods
Bibliography (still in progress)
強大的統計模型可以從大量數據中有效地學習,目前正在徹底改變計算機視覺。這些模型具有豐富的內部結構,反映了特定于任務的關系和約束。本教程向讀者介紹計算機視覺中最流行的結構化模型類。我們的重點是離散無向圖模型,我們詳細介紹了概率推理和最大后驗推理的算法。我們分別討論了最近在一般結構化模型中成功的預測技術。在本教程的第二部分中,我們將描述參數學習的方法,其中我們將經典的基于最大似然的方法與最新的基于預測的參數學習方法區分開來。我們著重介紹了增強當前模型的發展,并討論了核化模型和潛變量模型。為了使教程具有實用性并提供進一步研究的鏈接,我們提供了計算機視覺文獻中許多方法的成功應用實例。 //www.nowozin.net/sebastian/papers/nowozin2011structured-tutorial.pdf
盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640
在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。
盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。
此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。
我們的貢獻總結如下:
有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。
圖是數據和系統表示的強大工具。許多類型的復雜和高度結構化的數據都可以用圖表示,比如社交網絡、計算機網絡和分子。圖還可以用來表示計算機系統,例如分布式存儲網絡和對等通信網絡。在本論文中,我們討論了處理大規模圖數據和使用圖來設計更好的系統的方法。
我們首先討論兩種處理大規模圖數據的方法。雖然它們非常強大,但圖數據集對其處理和存儲提出了獨特的挑戰。圖神經網絡(GNNs)是將深度學習應用于圖結構數據的一種有效方法。但是,由于圖的互連和高度結構化的特性,訓練GNN的計算可能非常昂貴。研究了一種提高GNN訓練效率的分層聚合方法。另一種理解圖數據集的方法是檢查小的、重復的模式的頻率。我們提出了時間活動狀態塊模型(Temporal Activity State Block Model),這是一種用于計算時間圖中預期母題頻率的分析模型,它增加了邊在大時間跨度內到達的復雜性。
接下來我們將介紹兩種應用圖來設計更好系統的方法。在分布式存儲系統中,在服務器故障的情況下,通常需要使用冗余存儲數據,而在何處以及以何種頻率創建這種冗余的設計可以表示為一個圖問題。部分重復(FR)代碼是一種用于實現這一目的的方法,旨在最大化存儲容量,同時確保故障節點可以通過從幸存節點發送替換數據來替換。我們提出了負載平衡的分數重復碼,這是FR碼的加強,有額外的保證,如何迅速地更換失敗的節點。接下來我們考慮在對等網絡中發送消息的問題。這個問題可以用一個圖來表示哪個對等點擁有另一個對等點想要的數據。索引編碼是一種設計從中央服務器到一組接收器的客戶端通信的方法。我們將這種方法應用于點對點模型,并引入和研究了嵌入索引編碼。
//searchworks.stanford.edu/view/14230534
在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。
隨著廣泛的應用,人工智能(AI)催生了一系列與人工智能相關的研究活動。其中一個領域就是可解釋的人工智能。它是值得信賴的人工智能系統的重要組成部分。本文概述了可解釋的人工智能方法,描述了事后人工智能系統(為先前構建的常規人工智能系統提供解釋)和事后人工智能系統(從一開始就配置為提供解釋)。解釋的形式多種多樣:基于特征的解釋、基于說明性訓練樣本的解釋、基于嵌入式表示的解釋、基于熱度圖的解釋。也有結合了神經網絡模型和圖模型的概率解釋。可解釋人工智能與許多人工智能研究前沿領域密切相關,如神經符號人工智能和機器教學
基于最近關于非凸優化算法在訓練深度神經網絡和數據分析中的其他優化問題中的應用,我們對非凸優化算法全局性能保證的最新理論成果進行了綜述。我們從經典的論證開始,證明一般的非凸問題不可能在合理的時間內得到有效的解決。然后,我們給出了一個可以通過盡可能多地利用問題的結構來尋找全局最優解的問題列表。處理非凸性的另一種方法是將尋找全局最小值的目標放寬到尋找一個平穩點或局部最小值。對于這種設置,我們首先給出確定性一階方法收斂速度的已知結果,然后是最優隨機和隨機梯度格式的一般理論分析,以及隨機一階方法的概述。然后,我們討論了相當一般的一類非凸問題,如α-弱擬凸函數的極小化和滿足Polyak- Lojasiewicz條件的函數,這些函數仍然可以得到一階方法的理論收斂保證。然后我們考慮非凸優化問題的高階、零階/無導數方法及其收斂速度。
本講座的大部分內容將致力于兩篇論文,它們試圖做到這一點:通過使用概率和基于信息理論的度量,公平地比較生成模型的表現。第一篇論文詳細介紹了如何通過總比特來評價(單語)開放詞匯語言模型,第二篇論文思考了“信息”的意義以及如何使用它來比較機器翻譯模型。