摘要
數學推理作為人類認知的核心方面,在許多領域中至關重要,從教育問題解決到科學進展都離不開它。隨著人工通用智能(AGI)的發展,將大語言模型(LLMs)與數學推理任務相結合變得愈發重要。本研究是對多模態大語言模型(MLLMs)時代數學推理的首次全面分析。我們回顧了自2021年以來發布的200多篇相關研究,重點分析了數學-大語言模型(Math-LLMs)領域的最新進展,特別是在多模態設置下的應用。我們將該領域劃分為三個維度:基準、方法論和挑戰。特別地,我們探討了多模態數學推理流程,及其中文化的(M)LLMs和相關方法論的角色。最后,我們識別出五個主要挑戰,這些挑戰阻礙了該領域AGI的實現,并為提升多模態推理能力提供了見解。本綜述為研究界提供了重要資源,助力大語言模型在處理復雜多模態推理任務時的能力提升。
1 引言
數學推理是人類認知能力的關鍵方面,涉及通過邏輯和系統化思維從一組前提推導結論的過程(Jonsson et al., 2022;Yu et al., 2024b)。它在許多應用領域中發揮著重要作用,從教育中的問題解決到科學發現的突破。隨著人工通用智能(AGI)的不斷發展(Zhong et al., 2024),將大語言模型(LLMs)與數學推理任務相結合變得愈加重要。這些模型在語言理解方面具有卓越的能力,能夠模擬曾被認為是人類特有的復雜推理過程。近年來,學術界和工業界都日益關注這一方向(Wang et al., 2024d;Xu et al., 2024a;Lu et al., 2022b)。
數學推理任務的輸入是多樣化的,不僅限于傳統的文本輸入,還擴展到多模態設置,如圖1所示。數學問題通常不僅涉及文本信息,還包括視覺元素,如圖表、圖形或方程式,它們為解決問題提供了必要的背景(Wang et al., 2024e;Yin et al., 2024)。在過去的一年中,多模態數學推理已成為多模態大語言模型(MLLMs)的研究重點(Zhang et al., 2024c;Bai et al., 2024;Wu et al., 2023a)。這一轉變源于認識到,像數學這樣的推理任務需要能夠同時整合和處理多種模態的模型,才能實現類似人類的推理表現。然而,多模態數學推理面臨著顯著的挑戰,包括不同模態之間的復雜交互、對深層語義理解的需求,以及跨模態背景信息保持的重要性(Liang et al., 2024a;Song et al., 2023;Fu et al., 2024b)。這些挑戰是實現AGI的核心問題,模型必須能夠無縫地整合多種知識形式,執行復雜的推理任務。
Math-LLM進展
圖2展示了自2021年以來,隨著LLM的快速發展,數學特定的大語言模型(Math-LLMs)數量穩步增長,并且支持多語言和多模態能力的水平也有所提升(更多細節見附錄A)。這一領域的標志性進展包括GPT-f(Polu和Sutskever,2021)和Minerva(Lewkowycz等,2022)的推出,以及Hypertree Proof Search(Lample等,2022)和Jiuzhang 1.0(Zhao等,2022),前者突出了定理證明能力的進展,后者則展示了數學問題理解的提升。2023年,隨著SkyworkMath(Zeng等,2024)等模型的推出,出現了多樣化和專業化的趨勢,并且增強了多模態支持。在2024年,數學指導(如Qwen2.5-Math(Yang等,2024a))和證明(如DeepSeek-Proof(Xin等,2024a))能力得到了顯著提升。此外,本年度還涌現出一些帶有視覺組件的Math-LLM,如MathGLM-Vision(Yang等,2024b)。
研究范圍
以往的綜述未能全面捕捉到多模態大語言模型時代數學推理的進展與挑戰。如表1所示,一些研究集中于深度學習技術在數學推理中的應用(Lu et al., 2022b)或特定領域,如定理證明(Li et al., 2024f),但忽視了LLM崛起所帶來的快速進展。另一些則擴展了范圍,討論了LLM在教育(Wang et al., 2024d;Xu et al., 2024a;Li et al., 2023a)或數學領域(Ahn et al., 2024;Liu et al., 2023b)中的作用,但未深入探討多模態設置下數學推理的發展和挑戰。因此,本綜述旨在填補這一空白,首次全面分析多模態大語言模型時代數學推理的現狀,重點關注三個關鍵維度:基準、方法論和挑戰。
結構
本文回顧了自2021年以來,AI領域關于基于(M)LLM的數學推理的200多篇相關文獻,并總結了Math-LLM的進展。我們首先從基準的角度分析該領域,討論LLM-based數學推理任務的三個關鍵方面:數據集、任務和評估(第2節)。接下來,我們探討(M)LLM在數學推理中的作用,并將其分類為推理者、增強者和規劃者(第3節)。最后,我們識別出多模態大語言模型時代數學推理面臨的五大核心挑戰(第4節)。本綜述旨在為學術界提供全面的見解,推動LLM在處理復雜多模態推理任務方面的能力提升。
基準測試在數學推理中的作用
基準測試在推動大語言模型(LLM)研究方面發揮著至關重要的作用,因為它為評估推理任務的表現提供了標準化、可復現的流程。雖然像GSM8K(Cobbe et al., 2021)和MathQA(Amini et al., 2019)這樣的先前基準在LLM出現之前發揮了重要作用,但我們關注的重點是與(M)LLM相關的基準。在本節中,我們將對近年來在(M)LLM背景下的數學推理基準進行全面分析(見表2)。本節分為三個子節:數據集(第2.2節)、任務(第2.3節)和評估(第2.4節)。
**方法論視角 **概述與發現 多模態大語言模型(MLLMs)已被應用于多種方式,以解決廣泛的數學推理任務。根據我們對近期方法論的全面回顧(總結見表3),我們將相關研究分類為三種不同的范式:LLM作為推理者(第3.2節)、LLM作為增強者(第3.3節)和LLM作為規劃者(第3.4節)。
研究發現 首先,當前以方法為導向的研究主要集中在單一模態設置上,大多數研究僅關注代數任務。然而,自2024年以來,越來越多的多模態方法被引入,將數學推理的范圍擴展到幾何、圖形,甚至更廣泛的數學概念。這一轉變標志著通過多模態學習增強模型魯棒性的興趣日益增長,因為它能夠應對數學問題的多樣性。其次,關于評估任務,問題求解和定理證明正逐漸成為研究的重點,而部分研究也集中在錯誤檢測或其他任務上(例如,RefAug將錯誤修正和后續問答作為評估任務(Zhang et al., 2024i))。最后,關于LLM的角色,推理者(Reasoner)是最常見的角色,其次是增強者(Enhancer),而規劃者(Planner)仍然是較少研究的領域,但由于多智能體智能的最新進展,它具有很大的潛力。
**結論
**在本綜述中,我們全面回顧了多模態大語言模型(MLLMs)背景下數學推理的進展與挑戰。我們強調了Math-LLMs發展的重要進展,以及多模態集成在解決復雜推理任務中的日益重要性。我們識別出了五個關鍵挑戰,這些挑戰對繼續發展能夠執行復雜數學推理任務的AGI系統至關重要。隨著研究的持續推進,解決這些挑戰對于釋放LLM在多模態設置中的全部潛力至關重要。我們希望本綜述為未來的LLM研究提供有價值的見解,最終推動AI系統在數學推理方面達到更高的效能和更接近人類的能力。
C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。
本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。
提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。
提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。
理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。
開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:
結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。
結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。
描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。
根據上下文,生成的目標和績效衡量標準是否合理?
步驟是否反映了情景的邏輯時間進程?
鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。
大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/
大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。
本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理
模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。
由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。
最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。
摘要
大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。
近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。
面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。
為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。
本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。
本綜述的貢獻總結如下:
通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。
我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。
數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。
數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。
2.1.1 數據標注
數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。
2.1.2 數據重組
數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。
另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。
2.2.3 模型自我改進
模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。
數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。
數據挖掘:概念、模型、方法與算法(第三版)
介紹了在高維數據空間中分析和提取大量數據的最新技術
修訂和更新后的第三版《數據挖掘》在一本書中系統性地介紹了大數據集分析的方法,整合了統計學、人工智能、數據庫、模式識別和計算機可視化等學科的成果。深度學習技術的進步開辟了全新的應用領域。作者——該領域的知名專家——解釋了近年來發展起來的基本概念、模型和方法。 這新版書籍引入并擴展了許多主題,同時更新了關于軟件工具和數據挖掘應用的部分。其他更新內容還包括進一步研究的參考文獻列表的更新,以及與每章相關的問題和習題的擴展列表。第三版提供了新的和擴展的信息,包括:
探討大數據和云計算 研究深度學習 包含卷積神經網絡(CNN)的信息 提供強化學習內容 包含半監督學習和S3VM* 回顧不平衡數據的模型評估
這本修訂后的第三版《數據挖掘》為計算機科學的研究生、計算機工程師和計算機信息系統專業人員提供了關于這項技術的基本原理以及該領域最新發展的重要指南。
目的:本文旨在研究國家沖突建模中的區域變量如何影響預測的準確性,并確定進一步改進預測的方法。
設計/方法/途徑:本文使用統計學習方法評估國家聚類的數據量,并根據使用的聚類數量量化準確性。
研究結果:本研究表明,只要模型穩健,增加建模聚類的數量可提高預測沖突的能力。
獨創性/價值:本研究調查了沖突建模中使用的聚類數量,而之前的研究在建模前假設了特定的數量。
戰爭是一場混亂的戰爭。戰爭不僅會付出當前的生命代價,還會影響未來的生命、財富和榮譽(聲望)。盡管 20 世紀 40 年代在德國發生的事件已經過去了 70 多年,但人們仍然對大屠殺的宗教種族滅絕感到精神痛苦。如今,也門的政治沖突阻礙了發展,各派爭奪政府的官方合法性。戰爭奪走的不僅僅是生命,它滲透到生活的方方面面。
從最高權力層到最底層的貧困地區,研究人員都在尋求并努力了解使戰火持續不熄的構造--大量的時間、資源和研究推動著國家沖突與和平模型的建立。然而,具有諷刺意味的是,研究人員往往從狹隘的角度看待沖突,認為沖突與經濟資源分配和信息博弈論有關(Brito 和 Intriligator,1985 年)。例如,Gartzke 主要關注資本相互依存的經濟貢獻(Gartzke et al. 然而,國家沖突總是比這更復雜--它是一個包含政治、經濟和社會方面的產物。在對預測國家沖突的重要變量進行調查時,有五個代用指標不斷浮出水面: 政體(通過政權類型)、人均國內生產總值(GDP)、沖突歷史、人口數量和地區。然而,許多非政府組織在開發特定數據集方面花費了大量時間和資金。除地區分組外,所有變量都可追溯到開放源數據庫。然而,區域往往是定性的,同時也顯示出提高預測準確性的整體性(Hegre 等人,2013 年;Ahner 等人,2015 年;Leiby,2017 年)。盡管先前的研究將國家劃分為多個地區,但在揭示地區代理的驅動因素及其重要性方面仍存在差距。有一種假設認為,地區代表了產生共同文化的各種變量的復雜混合物,驅動著其他變量如何影響國家的不穩定性。換句話說,在一個穩健的國家沖突預測模型中,地區替代值設定了所有其他替代值的系數水平。因此,我們的任務就是發展這些地區,使其他獨立變量的預測影響最大化。
本研究考慮的變量遠遠多于以往文獻中考慮的變量,在發展整體文化概念的同時,還形成了區域,以通過文化界限更好地模擬國家沖突。最值得注意的是,它研究了在建模過程中需要考慮的最佳區域數量,以及每個區域的地理邊界劃分,同時還考慮了數據的相似性。
在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。
圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。
認識到當前軍事教育體系的特殊性,并考慮到軍事工程培訓快速現代化的必要性,人機界面需要采用創新技術來加強教育過程。我們的目的是詳細分析在培訓未來軍事工程軍官時人工智能技術的實施情況,概述現有策略,并制定通過人工智能技術強化教育過程的可行策略。為實現研究目的,通過五份問卷對 154 名教官進行了開放式和封閉式調查,以解決研究問題。采用傳統的內容分析法和數據統計處理法對答案進行了研究。結果揭示了人工智能在軍事工程訓練中應用的基本方向,以及人工智能在未來軍事工程軍官專業能力培養中的可能應用。但與此同時,研究結果表明,軍事工程訓練過程正面臨著一些挑戰,使人工智能驅動的轉型實施變得更加復雜。為了克服人工智能目前面臨的挑戰,并為人工智能在人機界面的應用提出建議,概述了通過人工智能技術加強軍事工程訓練的策略。
圖 3:通過人工智能技術加強軍事工程訓練的戰略。
根據調查結果,可以考慮通過人工智能技術加強軍事工程訓練的五項策略。
首先,對未來軍事工程軍官進行有效培訓和數據隱私控制需要制定使用人工智能的法律框架。特別是對于信息獲取受限的人機交互界面而言,這一點至關重要。由于所有烏克蘭教育機構都根據《歐盟-烏克蘭聯系協議》中烏克蘭立法與歐盟(EU)法律相協調的原則運作,因此擬議的歐盟人工智能法(歐盟委員會,2021 年)成為設計人工智能法規的基礎。同時,高校的教育過程近似于北大西洋公約組織(NATO)的標準,他們有義務在北約實施人工智能政策(Stanley-Lockman & Christie, 2021)。針對特定機構的規定可以幫助教師處理具體情況,并解決人工智能應用所帶來的具體風險。此外,官方指南還包括一份不能在人機界面中使用的高風險應用程序清單,并規定了人工智能用戶(包括教員和學員)的具體義務。我們預計,制定使用人工智能的法律框架將促進教育進程,并使學員能夠從已有的幾項創新技術中受益。
其次,將人工智能納入課程涉及將人工智能的原則、道德、法規和基本功能納入人機界面教授的課程,以及創建使用人工智能工具的綜合課程。該戰略以在培養未來軍事工程軍官的過程中有效應用人工智能工具為導向,可用于培養人工智能素養和數字能力。此外,這種影響可能有助于擴大工程單元的運作可能性,提高未來軍事工程軍官專業活動的生產力。將人工智能納入課程是培養教員和學員適應人機界面創新數字教育環境的必要條件。因此,修改現有課程將為在軍事工程訓練中正確和合乎道德地使用人工智能創造一個穩定的位置。
第三,教育過程參與者的高水平人工智能數字化能力意味著他們已準備好正確使用人工智能工具,能夠處理來自不同來源的大量信息,并理解在專業軍事活動中進行數字化轉型的必要性(Ng 等人,2023 年)。培養人工智能數字化能力需要為教官和學員開設專門課程,教授如何在數字化環境中操作以及如何避免可能出現的錯誤。人工智能數字化能力對于優化教育過程、在線環境下的工作、改善學習材料的視覺感知、使用人工智能工具創建高質量內容、收集和系統化數據、開發基于人工智能的項目、積極的在線交流、改善教學實踐、高效的課堂管理等都是必不可少的。
第四,通過人工智能技術加強軍事工程訓練需要制定具體的方法,旨在選擇教學方法和活動,使教學過程高效。適當的方法論可以讓教員合理使用學習材料,在學員中形成深厚的知識和技能,培養未來軍事工程軍官的持續學習能力。目前,人機界面的教學科目正面臨著快速轉型,我們看到的是從傳統教學方法向個性化學習和互動式教學方式的轉變。一方面,行為模型、數據分析和學習管理系統等人工智能工具促進了軍事教育的現代化,形成了有效的定制學習。另一方面,人工智能工具的使用要求根據教學科目和教學目標采用特定的教學方法。
有效決策是組織成功的核心。在數字化轉型時代,企業越來越多地采用數據驅動的方法來獲得競爭優勢。根據現有文獻,人工智能(AI)代表了這一領域的重大進步,它能夠分析大量數據、識別模式、做出準確預測,并為組織提供決策支持。本研究旨在探討人工智能技術對組織決策不同層面的影響。通過將這些決策按照其屬性分為戰略決策和運營決策,本研究可以更全面地了解人工智能在組織決策中實施的可行性、當前采用率以及阻礙因素。
深度學習(DL)已經成為現代人工智能中最成功和最廣泛采用的方法之一。伴隨著這些成功的是越來越復雜和高成本的架構設計,其基礎是一個核心概念:層。本論文對層的這一基本作用提出了挑戰,并深入介紹了一種新的、無層的深度學習范式,該范式將輸出計算為動態系統的固定點:深度均衡(DEQ)模型。
首先,我們介紹了深度均衡模型的一般表述。我們討論了這些模型如何表達 "無限層"的神經網絡,解耦前向和后向通道,但成本和設計復雜度只有一個傳統層--即使在一些最具競爭力的背景中(如語言建模、語義分割等)。
其次,我們進一步討論這種均衡方法帶來的挑戰和機遇。我們表明,DEQ的表述揭示了深度學習的許多新特性,這些特性長期以來被傳統的層堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的和輕量級的均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個方面的結果(例如,光流估計)。
DEQ的方法已經在理論和經驗兩端導致了社區中關于隱性深度學習的新研究領域(例如NeurIPS 2020教程)。因此,在本論文的結尾,我們討論了未來的工作如何進一步利用這種均衡的觀點來建立更多可擴展的、高效的和準確的下一代DL算法,包括對科學計算的算法,其特點是對復雜的、高維的動態系統的解決。
在過去的十年里,現代深度學習方法的研究和發展呈現出爆炸式的增長。然而,幾乎所有這些方法(也許是迄今為止的深度學習領域)的核心是一個關鍵的概念和基本單位,沒有一個模型架構師可以避免:層。具體來說,深度模型是通過將許多層堆疊在一起建立的,這就形成了一個巨大的架構,旨在適應一些特定的任務。例如,深度卷積網絡是由幾個卷積層和其他非線性或正則化組件組成的,如ReLU[175]、規范化[13, 110, 246]和dropout[214]。然后,這些組件以多種方式連接起來(如ResNets[96],U-Nets[195]),以提取特征圖,通常遵循一個復雜的時間表(如何時降采樣/升采樣,多少個階段,每個階段的哪些層)。同時,出現了不同種類的圖層設計,如多頭自注意力[233],以及圖層[124, 202]。過去幾年中最著名的人工智能應用,如高分辨率圖像合成[118]、蛋白質結構預測[117]和文本生成[32],都包含了數百、數千或更多的這些基本單元。
在高層次上,這種基于層的觀點將深度網絡視為一個巨大的計算圖,有規定的、詳細的指令,說明我們如何從輸入中計算輸出(就像一個計算器)。然而,這產生了許多挑戰。首先,作為一個超參數,構建深度網絡的深度和連接性往往是模型設計師的責任。這迅速增加了這些模型的設計、使用和測試的復雜性,特別是當它們變得龐大時[96, 220, 233, 250]。其次,這些網絡都依賴于一種叫做梯度反向傳播的算法[89, 197]來訓練。這需要深層網絡在正向傳遞中記憶所有中間層的激活,以反向遍歷計算圖[46]。這經常會造成內存占用的瓶頸,因為內存消耗會隨著架構深度的增加而迅速增長,并達到硬件的極限。第三,這樣的層構成使得深層網絡相當缺乏彈性,因為無論輸入的復雜程度如何,它們都要進行同樣的計算量(例如,見圖1.1)。例如,我們不能簡單地跳過一個層(除非我們添加更多的層來幫助我們控制,比如SkipNet[238]),因為任何這樣的任意移除都會使模型的功能與它的訓練方式不同。
圖1.1: 想象一下,一輛自主車輛。當它接收和處理流式攝像機幀時,每個幀都需要經過完全相同的深度網絡計算圖(比如20層)。然而,輸入是高度相關的,幾乎是相同的。基于層的深度學習導致該模型不斷重復相同的工作量。來自Cityscapes[53]數據集的圖像。
盡管有這些缺點,層還是被深深地堆積起來,并被認為是現代深度學習中不可或缺的,原因如下。
表達性。長期以來,人們認為由許多層組成的模型為復雜的輸入輸出映射(經常是非線性的)奠定了基礎[89, 102]。
特征層次結構。一個常見的觀點是,層代表決議。例如,Lee等人[136]假設,不同的層次提取圖像的不同抽象部分。
可擴展性。為了建立大規模的模型,我們依賴于靈活連接大量圖層的能力;非常深入的訓練已經被證明是可行的,如規范化[13,110],剩余連接[96]等技術。
本論文旨在重新審視層的這個基本概念。我們要解決的一個關鍵問題是:我們到底需不需要層?
我們提出了一種新的、隱含的、無層的深度學習方法,被稱為深度均衡(DEQ)模型。通過這種均衡方法,我們基本上提出了一種做深度學習的不同方式,以及如何將這些深度網絡作為算法(而不是計算器)來構建和分析。這些DEQ模型代表了無限深的神經網絡,但只有一個單層是隱式建模的(稍后定義)。我們表明,深度學習中的這種隱含性使我們即使在沒有層的情況下也能保持上述三個特性(表現力、特征層次和現實世界環境中的可擴展性),同時糾正了傳統DL所遭受的主要缺點(例如,內存占用)。
在本章的其余部分,我們首先闡述了 "隱性 "在深度學習背景下的含義,以及與此方向相關的先前工作概述。然后,我們提供了本論文的總體路線圖,我們希望它能作為深度隱含層的過去、現在和未來的藍圖。
在這一節中,我們將對過去關于深度學習方法的隱性和連續性的相關工作進行簡要的調查。正如將在第二章介紹的那樣,DEQ模型可以被看作是一個無限深的網絡,但也是一個單層網絡,需要注意的是這一層是隱性定義的:給定輸入x和一個(通常是參數化的)函數F,輸出z?被定義為解決一些非線性方程的值,即
特別是,幾十年來,深度學習界一直在探索隱性狀態的隱性建模,尤其是在遞歸網絡背景下。例如,Pineda[186]和Almeida[4]研究了用于訓練遞歸動力學的隱式分化技術,也被稱為遞歸反向傳播(RBP)。在這些情況下,RNN被結構化(例如,通過Lyapunov函數),因此它們的推理階段是一個可證明的收斂動態系統,人們需要解決RNN序列的穩定狀態(它在每個時間步驟吸收相同的輸入)。在這些工作之后,Liao等人[144]還將RBP理論擴展到基于諾伊曼級數和共軛梯度的更穩定和更有效的變體(并主要研究了它們與這些RNN中截斷反向傳播-通過時間(TBPTT)的關系)。Zhang等人[263]同樣也在RNN架構內執行固定點條件。然而,這些RNN只能應用于極其有限的設置,即每個時間步長都有相同的輸入,這在實踐中很少發生(如文本數據、時間序列等)。
網絡設計的隱性方法最近在非常不同的形式和背景下重新引起了人們的興趣。Amos和Kolter[6]、Gould等人[90]、Johnson等人[116]都提議通過優化問題(即arg min算子)進行區分,從而將公式(1.1)視為優化(如KKT)條件。例如,Amos和Kolter[6]提出在深度網絡的每個單獨的層中解決一個二次方程序(QP);例如,給定前一層的隱藏狀態z[i],OptNet[6]的第i+1層計算以下QP:
其中z[i]是優化(隱藏)變量,Q?0,q,A,b,G,h是定義這個QP優化層的參數。通過這個層的微分立即從公式(1.1)(當Q?0時)中得出,因為我們可以通過其KKT方程K(z?, ν?, λ? )=0進行微分,其中ν, λ是對應于約束條件(1.3)和(1.4)的拉格朗日對等變量。本著類似的精神,Wang等人[237]嵌入了一個基于優化的邏輯結構學習層;de Avila BelbutePeres等人[60],Qiao等人[188]使用這些更多的結構層來構建可微分的物理引擎(例如,人們可以將約束的剛體動力學模擬為深度自動編碼器網絡[60]中的線性互補問題(LCP)[52,54]層)。El Ghaoui等人[69]從廣義的well-posed意義上看這種隱含層,并專注于通過拉格朗日方法訓練小模型。這些優化層通常作為一個專門的層嵌入到傳統的深度架構中,為特定的問題領域定制,其強大的結構假設(如QP[6])大大限制了其表達能力和可擴展性。
另一個相關的主線將公式(1.1)制定為微分方程,從而代表一個連續的深度神經網絡。這一觀點首先由LeCun等人[133]進行理論研究,后來的工作提出將ResNet[96]架構解釋為常微分方程(ODE)求解器的離散化,以利用其可逆性和架構變體。最近,這種解釋被神經ODE方法[45]大大推進,它直接使用黑盒ODE求解器和鄰接方法,通過ODE解決方案進行直接微分(因此,與自動微分軟件包集成)。具體來說,神經ODE解決了隱藏狀態z的以下初值問題(IVP):
其中fθ是一個參數化的層,可以采取靈活的形式,(即計算這個連續網絡相當于把這個層從t=0到T進行整合)。等價地,這些ODEs承認一個隱含的一般解決方案F(x, z?, T)=0。這個神經ODE表述后來被改進[67, 121],并成功地應用于許多場合,如流體動力學[35]和連續生成建模[91]。然而,由于解決高維ODEs的固有挑戰,這些方法還不是很有效[67, 77, 121],也不能擴展到更現實的領域(例如,僅CIFAR-10 32×32圖像分類就需要約100次ODE求解器迭代)。
我們在這篇論文中提出的工作對公式(1.1)采取了一種新的方法。雖然將其定性為優化條件會產生基于優化的層;微分方程會產生神經ODE;但我們引入了一個定點方程表述,產生 "無限層"均衡特征狀態;即對于一個層fθ,F(z?,x)=fθ(z?;x)-z?=0,因此我們將由此產生的算法稱為深均衡模型。有了這樣的表述,我們表明,DEQ模型。
1.恰好使用一個這樣的獨立隱含層fθ作為整個架構(與傳統的層堆疊相比)。
2.在眾多現實任務中表現出競爭性,甚至更好,如語言建模、圖像分類、語義分割、隱性神經表征和光流估計。
3.揭示了長期以來被傳統深度學習埋沒的眾多新特性(如定點循環),使我們能夠以內存和計算效率的方式計算深度網絡。
我們表明,深度均衡模型體現了一種完全隱含的深度學習架構,與之前的這些探索不同,整個架構只有一個隱含層,并且在最具競爭力的水平和規模上工作。圖1.2對比了傳統的(顯式)深度學習和隱式的DEQ模型,前者堆積了大量的運算符,后者解決了一個底層動態系統來模擬輸出。
圖1.2:傳統的深度神經網絡與隱式深度均衡(DEQ)模型。深度均衡模型定義了一個底層動態系統,可以采取任何解算器路徑(如牛頓、準牛頓等)導致固定點。
這篇論文首次深入分析了這種新方法的好處、應用、擴展和面臨的挑戰。我們證明了DEQ模型對隱式建模的性能、可擴展性、效率、靈活性、表示能力等方面帶來的重大改進。我們對隱含性的研究為我們提供了一種通過有限的計算對無限復雜的概念(例如,固定點的概念)進行建模的方法,無層的方法提出了一種令人興奮的深度學習計算的新范式。
在本論文的第一部分,我們將討論多種發現和動機,最終形成深度均衡模型的基本原理(即它們的通用公式)。雖然隱含性之前已經在深度學習中被利用為優化驅動的轉化(第1.1節),但我們從現有深度學習的成功(和前提)及其趨勢出發:非常深的--可能是無窮層的--神經網絡。更具體地說。
1.在第二章中,我們將推導出無限深的神經網絡如何能被一個計算層的固定點的均衡網絡所表示。我們將為這種單層方法的普遍性提供論據,(重要的是)這種定點計算如何通過使用隱含函數定理(IFT)直接在最終輸出中進行區分。我們進一步討論這對DL訓練的前向和后向通道的影響(這將在第五章、第六章和第七章中得到大量的利用。
2.鑒于DEQ模型的一般表述,我們將在第2章和第3章中展示它們如何在大規模的現實環境中涵蓋廣泛的現代和復雜的層設計(例如,多頭自我關注[233])。在第三章中,我們將研究如何使放棄了深層序列的均衡網絡能夠代表特征層次結構。我們將在第二章的DEQ構造的基礎上進行大幅擴展,引入同步均衡建模;也就是說,我們直接在所有特征尺度上同時優化穩定的表征,并為輔助損失和復合訓練程序提供自然接口。
因此,本論文的第一部分將大量強調這些均衡方法的表征能力以及它們與傳統深度學習的根本區別。我們希望傳遞的一個強有力的信息是:"你只需要一層"。
在本論文的第二部分,我們將更深入地討論深度學習的這種隱含觀點的含義。由于這些均衡網絡將訓練過程的前向和后向解耦(即,人們甚至可以只用最終的輸出來訓練模型),我們將證明這導致了傳統神經網絡以前沒有面臨的幾個新的挑戰和機會。特別是:
第四章將首先討論均衡方法引入的一些在傳統深度學習方法中不存在的新問題,如收斂穩定性和求解器的選擇(和成本)。我們將提供一些經驗證據,反映DEQ模型如何隨著訓練的進行而變得越來越不穩定(即越來越 "深"),以及這如何惡化了其他幾個問題,同時概述了一個原則,即根據這些模型的隱含性,通過基于正則化的解決方案穩定DEQ模型的動態系統。
深度均衡模型的單層結構可以將這些模型從昂貴的鏈式規則反向傳播過程中解放出來,這些過程構成了傳統深度學習的學習開銷。在第五章中,我們介紹了近似梯度的概念(又稱 "幻影 "梯度或不精確梯度),它使我們能夠極其有效地近似上述隱含函數定理(IFT)。我們將從理論上論證這些近似的可行性,這些近似使均衡模型的后向傳遞速度提高了5倍或幾乎是免費的,這是傳統神經網絡完全不具備的特性。
在并行線程上,這些隱含網絡還能使層fθ的內部結構(控制表征能力)與固定點的實際計算方式(影響推理時間效率)脫鉤,后者通常是通過Broyden方法[34]等經典技術。在第6章中,我們展示了可以利用這種解耦,并使用一個可以以無監督方式進行端到端訓練的定制神經解算器來大幅提高這個固定點的計算。
結合這些關于DEQ模型的討論,在本論文的第三部分,我們將展示這些見解如何轉化為各種應用和擴展(除了第一和第二部分的大規模設置之外)。我們還將在實踐中展示DEQ模型在各種數據模式下的一個關鍵優勢:自適應計算。雖然傳統的深度網絡需要經歷一個規定的計算圖,而不管輸入的復雜性如何,我們表明,均衡方法可以從高度相關的數據中大大受益,并有效地循環計算以攤銷成本。有了上述所有的技術:
在第七章中,我們將表明,基于DEQ的方法在內存上和計算上的效率比最好的傳統深度網絡在光流估計任務上的SOTA性能要高出數倍,同時提高了SOTA性能。我們提出DEQflow作為一個新的框架,與之前的建模工作兼容,并完全取代了現有的遞歸/滾動程序。
在第八章中,我們將表明這些隱含模型能更好地學習圖像、音頻、視頻和三維模型的隱含神經表征(INR),同時訓練時間和內存成本也大大降低。
在第九章中,我們對所有這些貢獻進行了總結,同時討論了一些與深度學習這一新范式相關的有趣的 "老問題"。例如,傳統的神經網絡是由人腦中的神經元激發的。DEQ模型在任何意義上都不那么 "生物 "嗎?再比如,這些動態系統視角的深度學習如何能最好地應用于現實生活中的動態系統?我們在最后一章中對這些問題(以及未來的研究)提出一些見解。
通過這些理論和經驗上的探索,我們希望能夠提出一種不同形式的深度學習,就像傳統上對這一主題的研究一樣。層對于深度學習來說是必要的嗎?這篇論文認為答案是否定的。或者說,至少它們不是全貌。我們將表明,這些隱性均衡方法是一個重要的研究議程,因為目前的深度學習有一些必須克服的基本天花板,而且DEQ模型在設計上經常更好。
本論文中包含的這些開創性工作挑戰了長期以來的觀點,即基于層的分層架構是現代深度學習不可或缺的組成部分,并導致了一個新的和快速增長的社區,稱為 "隱式深度學習",以及NeurIPS 2020官方教程 "深度隱式層"[68]。
我們在此也簡要總結一下研究生學習期間的其他貢獻,這些貢獻在論文中沒有廣泛討論。許多工作(直接或間接)導致了本論文所關注的隱式深度學習的工作。
序列建模[15, 16] 。雖然遞歸網絡長期以來一直是序列任務的主導力量和默認工具包,但我們重新審視了序列建模的卷積方法。我們提出了卷積和遞歸架構在眾多序列任務(從合成任務到極大規模的任務)中最廣泛的系統比較之一[16]。具體來說,我們提煉了現代ConvNets中的最佳實踐,如剩余塊和擴張,以描述一個簡單的時間卷積網絡(TCN)。我們的實驗結果表明:1)TCN模型的性能大大超過了LSTM和GRU等通用的遞歸架構;2)RNN的 "無限序列內存 "優勢在實踐中基本不存在,而TCN表現出比相同容量的遞歸架構更長的內存。自引入以來,所提出的通用TCN模型由于其各種優點(如:并行性、良好的記憶保持),對現代現實時間序列的建模產生了驚人的影響。并行性、良好的記憶保持性),至今仍在許多領域(尤其是存在極長距離信息的領域)保持著最先進的水平,如語音分離[153, 159]、語音識別[51]、語音增強[182]、基因組學建模[71]、文本分類[111]、唇讀[1]、金融時間序列[203, 243]、動態推薦系統[255]、人類軌跡預測[173],以及更多。
深度學習架構[17, 228] 。我們還介紹了對前沿的深度序列模型的架構特性的研究。在Bai等人[17]中,我們提出了trellis網絡(TrellisNet),它是一種特殊的TCN,其特點是權重類型化和直接從輸入層進入深層的剩余連接。但另一方面,我們證明了截斷的遞歸網絡等同于在其權重矩陣中具有特殊稀疏結構的trellis網絡。因此,TrellisNet架構連接了兩個主要的、看似不相容的序列模型家族:遞歸和卷積網絡,并允許我們結合兩個世界的最佳實踐。此外,在Tsai等人的文章[228]中,我們從內核平滑器的角度研究了變形器,并對這些模型的自我注意機制和位置編碼的各個組成部分進行了深入剖析。
不對齊的多模態機器學習[227] 。多模態時間序列建模的一個主要挑戰是融合來自多種模態(如視覺、聲學和文本時間序列)的特征表示,這些特征表示是不同步的,通常需要費力的人工對齊。我們提出了多模態轉換器(MulT)[227],它使用跨模態的注意力來潛移默化地將未對齊的數據流從一種模態調整到另一種模態。這大大降低了對仔細的特征工程的要求(這經常涉及到大量的領域知識),我們表明基于注意力的多模態學習可以比之前的方法持續提高5%-15%。
用于科學計算的深度學習[30, 205] 。我們提出了圖形變換器神經網絡力場(GTFF)[205]作為一種計算算法,用于直接預測材料系統中分子動力學計算機模擬的原子力。盡管存在精確的方法來計算基本的原子力和行為,但它們也是非常昂貴的,因為應用這種方法需要巨大的計算資源(如每個分子需要幾天或幾周)。相比之下,我們的基于圖形變換器的方法可以快幾十萬倍,同時幾乎不損失精度。這一貢獻是作為Kaggle預測分子特性競賽的一部分[30],我們的方法在2,737個參賽隊中贏得第一名。
摘要
多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式,其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。
本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,給出了MTL的定義,并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類,并討論了每種方法的特點。
為了進一步提高學習任務的性能,MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時,我們回顧了在線、并行和分布式的MTL模型,以及維數降維和特征哈希,揭示了它們在計算和存儲方面的優勢。
許多現實世界的應用程序使用MTL來提高它們的性能,我們在本文中回顧了代表性的工作。最后,我們對MTL進行了理論分析,并討論了MTL的未來發展方向。
引言
人類可以同時學習多個任務,在這個學習過程中,人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如,根據我們學習打網球和壁球的經驗,我們發現打網球的技巧可以幫助學習打壁球,反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式,受人類這種學習能力的啟發,它的目標是共同學習多個相關的任務,使一個任務中包含的知識能夠被其他任務利用,從而提高手頭所有任務的泛化性能。
在其早期階段,MTL的一個重要動機是緩解數據稀疏問題,即每個任務都有有限數量的標記數據。在數據稀疏性問題中,每個任務中標記數據的數量不足以訓練出一個準確的學習器,而MTL則以數據增強的方式將所有任務中的標記數據進行聚合,從而為每個任務獲得更準確的學習器。從這個角度來看,MTL可以幫助重用已有的知識,降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時,人們發現,深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比,它利用了更多來自不同學習任務的數據。有了更多的數據,MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型,從而更好地實現任務間的知識共享,提高每個任務的性能,降低每個任務的過擬合風險。
MTL與機器學習中的其他學習范式有關,包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似,但存在顯著差異。在MTL中,不同任務之間沒有區別,目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能,因此目標任務比源任務起著更重要的作用。總之,MTL對所有的任務一視同仁,但在遷移學習中目標任務最受關注。從知識流的角度來看,遷移學習中的知識轉移流是從源任務到目標任務,而在多任務學習中,任何一對任務之間都存在知識共享流,如圖1(a)所示。持續學習[4]是一個一個地學習任務,任務是有順序的,而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中,每個數據點都與多個標簽相關聯,這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務,那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況,不同的任務在訓練和測試階段總是共享相同的數據。一方面,這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如,排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數,可以用于多標簽學習,但它不適合MTL,因為不同的任務擁有不同的數據。另一方面,這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如,在2.7節中討論的一個MTL問題中,每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分,不同的患者/任務不應該共享生物醫學數據。總之,多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的,因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外,多視圖學習是機器學習的另一種學習范式,每個數據點與多個視圖相關聯,每個視圖由一組特征組成。雖然不同的視圖有不同的特征集,但是所有的視圖是一起學習同一個任務的,因此多視圖學習屬于具有多組特征的單任務學習,這與圖1(c)所示的MTL是不同的。
在過去的幾十年里,MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來,并在其他領域得到了廣泛的應用。此外,對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,首先給出了MTL的定義,然后將不同的MTL算法分為5類: 特征學習方法,又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后,我們討論了MTL與其他學習范式的結合,包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務,我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據,引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式,在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度,對MTL的相關工作進行回顧。最后,討論了MTL的未來發展方向。