大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/
大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。
本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理
模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。
由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。
最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。
本文提出了一種通過語義分析將戰略框架與決策啟發法相結合來推薦可操作策略的新方法。盡管戰略框架為評估與規劃提供了系統化模型,而決策啟發法則編碼了經驗性知識,但這兩大傳統領域在歷史上長期處于割裂狀態。我們的方法論運用先進自然語言處理(NLP)技術彌合了這一鴻溝,并通過將6C模型與三十六計等框架相整合進行了實證展示。該方法采用向量空間表示與語義相似度計算,將框架參數映射到啟發式模式,其計算架構融合了深度語義處理與受限的大型語言模型應用。通過將主內容體與次級元素(圖表、矩陣)作為互補性語言表征進行統一處理,以企業戰略案例研究驗證了該方法的有效性。該框架可推廣至各類分析模型與啟發式集合,最終形成即插即用的推薦系統架構,能夠生成融合戰略框架與決策啟發法的可操作性指導方案,實現二者的有機統一。
當今的組織在戰略管理和決策方面依賴于兩種主要但歷史上各自獨立的文本傳統:分析框架和決策啟發法。這兩種傳統都以自然語言編碼戰略知識--通常輔以圖表或結構化表述--但在范圍和風格上有所不同。波特五力分析法、SWOT 分析法和價值鏈分析法等分析框架為形勢評估和長期規劃提供了系統的視角。同時,決策啟發式方法--從早期的軍事智慧(如三十六計)到現代的 “經驗法則”--提供了通過實際經驗總結出的簡明、可行的見解。
在實踐中,將這兩種傳統結合起來會帶來明顯的優勢:更平衡的戰略規劃方法、更清晰的循證建議途徑以及更少的詳盡分析時間。然而,框架和啟發式方法很少在一個統一的過程中相互作用。框架擅長全面性和嚴謹性,但存在分析癱瘓的風險,而啟發式方法更加靈活,但可能會過度簡化復雜的情況。彌合這一差距將使決策者能夠獲得每種方法的互補優勢,從而提出既全面又可迅速實施的建議戰略。
人工智能(AI)和自然語言處理(NLP)的最新進展為整合這些傳統方法提供了有力的途徑。通過應用語義分析來揭示戰略文本中的語言模式、修辭結構和概念之間的相互依存關系,我們可以在分析框架的方法結構和啟發式方法的簡明行動步驟之間構建自動映射。本文提出了一種推薦系統架構,利用這些映射生成可操作的戰略建議,最終加快決策進程并提高戰略洞察力。
為了具體說明這種語義整合,我們重點討論了兩個具有代表性的模型:6C 框架和三十六計。6C 框架綜合了軍事和商業文獻中反復出現的戰略主題(進攻/防御力量、關系能力、潛在能量、時間可用性和環境適應性)。相比之下,根植于中國政治、軍事和民間話語的三十六計則以精煉的表達方式囊括了數百年來的啟發式見解。通過先進的 NLP 工具(如向量空間嵌入、主題建模和模式識別),我們展示了每條計策中的語言線索如何與特定的 6C 參數相關聯。然后,這種系統化的分析會驅動一個自動管道,將任何給定的戰略情況與合適的啟發式方法相匹配,從而產生基于證據、上下文感知的建議。
我們的方法有兩大創新。首先,我們將系統嵌入到互動模擬環境中,促使決策者用自然語言表達情景。該環境會分析這些文本輸入,計算相關性得分,并根據所選戰略框架返回如何最佳組合或選擇啟發式方法的建議。其次,我們以可控的方式使用大型語言模型(LLMs)來生成連貫、敘述式的報告,闡明每項建議背后的理由。通過將 LLMs 整合為解釋器而非自主決策者,我們既保持了分析的嚴謹性,又提供了易于理解的解釋。
在下文中,我們將詳細介紹我們的語義方法,討論實現框架-啟發式整合的計算架構,并通過企業戰略案例研究說明其現實意義。然后,我們將展示這種即插即用架構如何超越 6C 和三十六計,適應波特五力和 SWOT 等其他廣為人知的框架。最終,我們旨在展示企業如何部署推薦系統方法,將全面的戰略分析與經過驗證的啟發式洞察力相結合,提供既穩健又可隨時應用于復雜環境的可行指導。
本文其余部分的結構如下:
C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。
本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。
提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。
提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。
理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。
開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:
結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。
結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。
描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。
根據上下文,生成的目標和績效衡量標準是否合理?
步驟是否反映了情景的邏輯時間進程?
鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。
摘要
大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。
近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。
面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。
為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。
本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。
本綜述的貢獻總結如下:
通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。
我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。
數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。
數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。
2.1.1 數據標注
數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。
2.1.2 數據重組
數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。
另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。
2.2.3 模型自我改進
模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。
數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。
表格數據廣泛應用于醫療、金融、交通等行業,但由于其異構性和缺乏空間結構的特性,給深度學習帶來了獨特的挑戰。本綜述回顧了用于表格數據的深度學習模型的演變,從早期的全連接網絡(FCN)到先進的架構,如TabNet、SAINT、TabTranSELU和MambaNet。這些模型結合了注意力機制、特征嵌入和混合架構,以應對表格數據的復雜性。TabNet通過順序注意力機制進行逐實例的特征選擇,提高了模型的可解釋性;而SAINT結合了自注意力機制和樣本間注意力機制,捕捉特征和數據點之間的復雜交互,從而在提高可擴展性的同時減少計算開銷。混合架構如TabTransformer和FT-Transformer將注意力機制與多層感知機(MLP)結合,處理類別和數值數據,其中FT-Transformer專門為表格數據集調整了Transformer模型。研究仍在繼續,以在大規模數據集上平衡性能和效率。基于圖的模型如GNN4TDL和GANDALF結合了神經網絡與決策樹或圖結構,通過先進的正則化技術增強了特征表示,并在小數據集上緩解了過擬合問題。基于擴散的模型如表格去噪擴散概率模型(TabDDPM)通過生成合成數據解決數據稀缺問題,從而提高模型的魯棒性。同樣,TabPFN和Ptab等模型利用了預訓練語言模型,將遷移學習和自監督技術引入表格任務。本綜述重點介紹了這些領域的關鍵進展,并概述了在多樣化的表格數據應用中關于可擴展性、泛化性和可解釋性的未來研究方向。
表格數據由表示結構化信息的行和列組成[1, 2],是許多行業中最常用的數據格式,包括醫療、金融和交通等。與圖像和文本等非結構化數據不同,表格數據以結構化形式直接表示現實世界現象,這使其在風險評估、預測分析和安全監測等決策過程中至關重要。例如,在交通工程領域,表格數據在記錄事故事件、車輛屬性、環境因素和人類行為方面起著關鍵作用,幫助研究人員利用數據驅動的洞察來預測事故嚴重性并改善安全措施。盡管深度學習在計算機視覺和自然語言處理(NLP)等領域取得了成功,但其在表格數據中的應用并不那么直接。深度學習模型在處理表格數據時面臨多個挑戰:(1) 樣本量小:與大規模的圖像或文本數據集相比,許多表格數據集相對較小,導致復雜的深度學習模型容易發生過擬合。 (2) 高維性:表格數據通常包含許多特征,這些特征可能是稀疏的或無關的,使得模型難以識別有意義的模式。 (3) 復雜的特征交互:與局部結構突出的圖像或文本不同,表格數據中的特征交互是非局部的且復雜的,因此需要更為專業的架構來有效捕捉這些關系。這些因素使得基于樹的模型(如XGBoost和隨機森林)在許多表格數據任務中更為有效,因為它們更適合處理稀疏特征和復雜的交互。近年來,針對表格數據的深度學習模型取得了顯著進展,解決了此類數據所帶來的獨特挑戰。盡管早期的全連接網絡(FCN)顯示出了一定的潛力,但隨著新架構的出現,這一領域得到了顯著發展[3-6]。其中領先的模型之一是FT-Transformer,該模型將最初為序列數據開發的Transformer模型適配用于表格數據,通過注意力機制編碼特征[7, 8]。由于其能夠學習特征之間的復雜交互,這一模型在處理高維數據時表現出色。另一個近期的創新是自注意力和樣本間注意力Transformer(SAINT),它通過引入樣本間注意力機制改進了原始的Transformer,使得模型能夠更好地捕捉表格數據行之間的關系[9]。在多個基準測試中,SAINT相較于傳統模型如XGBoost和深度學習模型如神經遺忘決策集成(NODE)表現出色。此外,TabTransformer等模型專門用于分類特征編碼的Transformer,提供了一種更具可擴展性的解決方案,能夠處理表格數據集中混合的數據類型。這種方法使模型能夠從分類變量中捕捉有意義的表示,而這些分類變量通常是傳統深度學習架構難以有效處理的。這些新模型在特征編碼、復雜交互學習和模型可解釋性方面引入了重要的創新,這對推動深度學習在表格數據中的應用具有重要意義。本文的目標是詳細回顧這些進展,探討其歷史演變(如圖1所示)、關鍵技術、數據集及潛在的應用方向。 表格深度學習
雖然之前的研究[7]對表格數據的深度學習進行了結構化的綜述,重點關注了處理類別變量、數據轉換和模型比較等挑戰,但本綜述采取了不同的視角,強調了該領域的歷史演變和算法進展。我們著重介紹了MambaNet、SwitchTab和TP-BERTa等最新模型的開發,展示了這些架構如何演變以應對表格數據的獨特復雜性。通過探討注意力機制、混合架構以及其他近期的突破,本綜述突出了深度學習模型向更高效、可擴展且可解釋的解決方案的轉變。與以往的工作不同,本研究不專注于模型比較,因為全面評估不同模型需要根據各種類型的表格數據進行專門的分析。 在快速發展的表格深度學習領域,每年都有新的架構設計被提出,以應對表格數據日益增長的復雜性,并帶來了顯著的改進。近期的模型,如HyperTab和GANDALF,推動了可擴展性和可解釋性的邊界,提供了處理異構特征和高維數據的增強方法。這些新架構基于基礎工作,顯著提升了相較于傳統方法的性能改進。如圖9所示,表格深度學習的演變強調了關鍵貢獻,從2019年Semek等人[83]和Arik等人[24]的研究,到最近的最新進展,并按引用次數排列,展示了該領域研究影響力的不斷增長。
在這些進展的基礎上,表2展示了這一期間引入的主要模型的時間線,詳細描述了它們的架構及關鍵性能特點。這些模型展示了表格深度學習中的重大突破,從混合架構到高級注意力機制,推動了性能和可擴展性的進步。
TabTransformer模型通過利用注意力機制和混合架構,顯著推動了表格深度學習的發展,解決了表格數據帶來的獨特挑戰[19]。TabTransformer的核心是采用了多頭自注意力層,該層改編自傳統用于自然語言處理(NLP)的Transformer架構,用于捕捉數據集中復雜的特征交互和依賴關系,如圖10所示。這種注意力機制使模型能夠有效地捕捉特征之間的關系,尤其適用于包含大量類別變量的數據集。 TabTransformer架構將Transformer層與MLP組件結合,形成了針對表格數據優化的混合結構。類別特征通過列嵌入層進行嵌入,將每個類別轉換為可學習的密集表示。這些嵌入通過Transformer層傳遞,聚合來自其他特征的上下文信息,以捕捉相互依賴的關系。上下文化的類別特征隨后與連續特征進行拼接,并通過MLP進行最終預測。這種設計利用了Transformer在類別數據上的上下文學習優勢和MLP在處理連續數據上的傳統優勢。此外,TabTransformer還引入了掩碼語言建模(MLM)和替換標記檢測,使其能夠在大量無標簽數據上進行預訓練,從而在低標簽數據場景中提升性能,使其在現實世界應用中更加有效。
TabTransformer模型的最新進展,如Vyas[94]提出的自監督TabTransformer,進一步優化了該架構,通過在預訓練階段利用MLM從無標簽數據中學習。這種自監督方法通過自注意力機制捕捉復雜的特征依賴性,提高了模型的泛化能力。通過將Transformer層與MLP結合用于最終預測,模型能夠有效處理混合數據類型和較小的數據集。然而,雖然模型在半監督環境中表現出了顯著的性能提升,但依賴于掩碼語言模型預訓練增加了計算開銷,可能限制其可擴展性。解釋性保持在中等水平,注意力得分可以提供有關特征重要性的洞察,但模型的解釋性仍然不如傳統模型如GBDT。
另一個顯著的進展是由Cholakov和Kolev[95]提出的GatedTabTransformer,該模型通過引入門控多層感知機(MLP)增強了原始的TabTransformer。此修改通過空間門控單元提高了模型捕捉跨標記交互的能力。GatedTabTransformer在AUROC方面比標準TabTransformer的性能提升了約1個百分點,特別是在二分類任務中。然而,這也帶來了額外的計算復雜性,因為空間門控單元需要額外的處理。盡管模型性能有所提升,但其可擴展性和解釋性仍然較為有限,相比之下,簡單的模型如MLP或GBDT則更具優勢。
因此,雖然TabTransformer模型通過注意力機制和混合架構在處理表格數據方面提供了顯著改進,但在性能、可擴展性和解釋性方面存在權衡。近期的變體如自監督TabTransformer和GatedTabTransformer展示了這些模型相較于傳統方法的潛力,盡管以更高的計算需求為代價。
由Gorishniy等人[96]提出的FT-Transformer模型,通過利用注意力機制、混合架構和基于Transformer的方法,提出了一種新穎的方式來應對表格數據的挑戰。該模型將最初為NLP等任務設計的注意力機制進行了適配,以處理表格數據。在這一背景下,注意力機制使模型能夠捕捉異構特征之間的復雜關系,包括數值和類別數據,如圖11所示。通過使用注意力機制動態優先考慮某些特征,模型有效地建模了傳統表格數據方法中常難以檢測到的交互關系。
除了注意力機制,FT-Transformer還采用了一個集成特征標記化的混合架構。這個過程將數值和類別特征都轉化為嵌入表示,然后通過Transformer架構層進行處理。其結果是,一個高度靈活的模型,能夠處理各種類型的表格數據,這對于特征類型和分布變化多樣的任務而言尤為關鍵。這種混合設計將傳統特征編碼方法與基于Transformer的強大學習能力結合起來,從而在不同的數據集上實現更好的泛化能力。
最近的研究表明,FT-Transformer在各種應用中表現出色。在心力衰竭預后領域,FT-Transformer通過捕捉醫療特征之間的非線性交互,如人口統計和臨床數據,超越了傳統模型如隨機森林和邏輯回歸的表現[97]。注意力機制的使用使模型能夠動態優先處理重要的健康指標,從而得出更準確的預測。同樣,在入侵檢測系統中,FT-Transformer在處理網絡流量數據的高度結構化特性時表現出更高的準確性,能夠識別網絡異常[98]。混合架構無縫地整合了類別和數值特征,提高了模型檢測已知和未知威脅的能力。此外,通過堆疊多個Transformer層來增強模型捕捉數據中的長距離依賴性的能力,使其在復雜任務中更加有效[99]。雖然FT-Transformer模型在多項表格任務上相較于其他模型,如ResNet和MLP,表現出更高的性能,但也有一些權衡需要考慮。在解釋性方面,模型的復雜性帶來了挑戰。像GBDT這樣的傳統模型具有更清晰的解釋性,因為它們的決策過程更加透明。相比之下,FT-Transformer依賴于注意力機制和深層網絡,雖然注意力分數能夠提供特征重要性的某些洞察,但整體上難以解釋。此外,模型的可擴展性也是一個考慮因素,特別是Transformer模型的注意力機制隨特征數量呈二次增長的計算需求,可能在應用于大規模數據集時成為限制。
盡管存在這些限制,FT-Transformer能夠跨不同的數據集進行泛化,使其成為表格數據分析中頗具前景的模型,帶來了預測性能方面的顯著進步。基于這些進展,我們展示了TabNet和FT-Transformer在性能和log-loss方面的比較。如圖12所示,隨著隨機搜索迭代次數的增加,FT-Transformer始終表現出更優的性能,而兩種模型的log-loss則以不同的速率下降。此比較突顯了FT-Transformer在較大搜索空間中相較于TabNet的更強泛化能力。雖然這一圖示例展示了性能差異,但與之前的表格深度學習綜述[7]不同,本次研究并未對所有表格深度學習模型進行比較,因為跨多個模型和不同數據集的全面評估超出了當前綜述的范圍。未來的研究應著眼于更廣泛的性能評估,以全面檢驗這些模型的優劣。
DeepGBM模型通過結合注意力機制、混合架構和知識蒸餾等先進技術,為解決表格數據在深度學習中的挑戰提供了一種創新的方法[63]。盡管該模型并未顯式使用傳統的注意力機制,它通過GBDT(梯度提升決策樹)中的特征重要性來優先考慮某些特征。此過程模仿了注意力機制,通過將模型的注意力集中在最具信息量的特征上,而不是平等對待所有輸入。通過強調最相關的特征,DeepGBM增強了其處理稀疏類別數據和密集數值數據的能力,這在表格數據任務中至關重要。
最近在表格深度學習領域的進展進一步突顯了DeepGBM在將神經網絡與GBDT結合以提升性能方面的作用。特別是,該模型的混合架構利用了CatNN處理稀疏類別特征,通過嵌入和分解機技術進行特征處理,而GBDT2NN則將GBDT的輸出轉化為神經網絡格式,優化了對密集數值特征的處理[100]。圖13展示了DeepGBM的結構。通過這種集成,DeepGBM能夠利用這兩類模型的優勢,克服傳統方法在統一框架下處理混合特征類型的局限性。盡管DeepGBM并未直接實現基于Transformer的模型,但它采用了來自Transformer架構的思想,特別是在知識蒸餾的形式上。通過將GBDT樹中獲得的知識(包括預測結果、樹結構和特征重要性)蒸餾到神經網絡中,DeepGBM保留了GBDT的優勢,同時增強了其學習能力[101]。這類似于Transformer通過蒸餾來簡化復雜模型的方式,同時保持其性能。
在性能、可解釋性和可擴展性之間的權衡,反映了表格深度學習中更廣泛的挑戰。DeepGBM通過結合GBDT和神經網絡實現了更高的準確性,但犧牲了一部分可解釋性,因為神經網絡組件的增加降低了樹模型通常具有的透明度。可擴展性也是一個挑戰,因為神經網絡部分需要更多的計算資源。然而,像WindTunnel這樣的模型表明,這種方法可以在保持原有GBDT結構優勢的同時提升準確性[101]。這些權衡需要根據應用場景進行仔細平衡,因為DeepGBM在性能和效率方面表現出色,特別是在大規模和實時應用中。
在表格深度學習的最新進展中,DANets模型利用了注意力機制、混合架構和基于Transformer的方法,以應對表格數據處理中的特定挑戰。DANets的關鍵創新之一是使用動態特征選擇過程,通過可學習的稀疏掩碼[102]來識別和強調相關特征。該方法基于Entmax稀疏映射,使模型能夠在網絡的每個階段有選擇性地專注于最重要的特征,從而增強其從數據中提取有意義表示的能力。這種機制類似于Transformer模型中使用的注意力機制,但特別針對表格數據的不規則性和異構性進行了調整。
DANets還采用了混合架構,融合了類似于卷積神經網絡(CNN)的特征分組和層次抽象過程,但進行了適配以應對表格數據的獨特結構。如圖14所示,引入的抽象層(ABSTLAY)使模型能夠通過連續的層來分組相關特征并抽象出更高層次的表示。此外,模型還采用了捷徑路徑,使得原始特征可以在網絡的更高層次重新引入,確保關鍵信息得以保留,從而增強了模型的魯棒性,特別是在較深的架構中。這種設計類似于ResNet風格的連接,殘差路徑防止了深層網絡中信息丟失和退化,從而提升了性能。
DANets通過使用動態加權和類似注意力機制的方式,結合了Transformer的思想,使模型在特征選擇和抽象過程中能夠選擇性地關注重要特征。盡管這并不是Transformer模型的直接應用,這些方法改善了表格數據的處理并提升了性能,使得DANets優于傳統模型如XGBoost和神經網絡模型如TabNet。然而,這種性能提升以降低可解釋性為代價。雖然基于注意力的特征選擇提供了對特定特征重要性的洞察,但層次抽象的復雜性掩蓋了決策過程,使其不如簡單模型如決策樹那樣透明。為了解決可擴展性問題,DANets采用了結構重新參數化技術,這在推理過程中降低了計算復雜度,從而允許構建更深的網絡而不會導致計算成本過高。盡管更深的架構提升了性能,但研究指出,由于表格數據中的特征空間有限,進一步增加深度帶來的回報遞減。
最近在表格深度學習中的進展利用了注意力機制和基于Transformer的方法,解決了表格數據處理中的挑戰。SAINT模型通過整合注意力機制、混合架構和基于Transformer的方法,克服了表格數據的獨特挑戰。SAINT使用了兩種類型的注意力機制:自注意力和樣本間注意力[25]。自注意力使模型能夠捕捉單個數據樣本中特征之間的復雜關聯,能夠建模那些簡單模型可能忽略的關系。而樣本間注意力作為一種新穎的補充機制,使模型可以將一個數據行(數據點)與其他行進行比較,從而根據整個數據集中的模式進行更動態的學習過程。這一機制在某些特征可能存在噪聲或缺失時尤為有用,因為模型可以從其他相似的數據點中學習。 SAINT的混合架構結合了自注意力和樣本間注意力,創建了一個綜合的學習系統。SAINT的先進架構在軟件缺陷預測任務中也表現出色[103]。通過利用注意力機制和基于Transformer的方法,SAINT能夠有效處理數據點之間的復雜交互,從而提升缺陷預測的性能。在處理混合數據類型時,SAINT始終優于傳統模型如XGBoost和隨機森林。然而,盡管SAINT提高了準確性,其復雜性影響了可解釋性,因為引入了樣本間注意力,這使得它不如簡單模型直觀。此外,與SAINT的注意力機制相關的計算需求在處理大型數據集時可能會帶來可擴展性挑戰。
除了這些創新之外,SAINT的改進版本SAINTENS進一步增強了模型處理表格數據的能力,解決了SAINT的一些局限性[104]。SAINTENS使用相同的注意力機制,但引入了MLP集成,以提高在處理缺失或噪聲數據時的魯棒性。該方法與對比預訓練及Mixup和Cutmix等增強技術相結合,使SAINTENS能夠生成更強的數據表示,特別是在缺失值較多的醫療數據集中。這些增強措施在性能、可解釋性和可擴展性三個關鍵領域表現出相應的權衡。在性能方面,SAINT和SAINTENS在處理混合特征類型及標簽數據有限的數據集時,一貫優于傳統機器學習模型如GBDT以及深度學習模型如TabNet。SAINT的注意力機制提供了一定程度的可解釋性,允許用戶可視化重要的特征和數據點。然而,樣本間注意力引入的復雜性使其相比于簡單模型更難以直觀解釋。最后,雖然SAINT和SAINTENS在大型數據集上表現良好,但注意力機制,尤其是樣本間注意力的計算需求,可能使這些模型在較大的數據集上更耗資源。
TaBERT模型通過引入注意力機制、混合架構和基于Transformer的方法,解決了表格數據的挑戰。TaBERT的關鍵創新之一是其使用的注意力機制,特別是縱向自注意力機制,該機制在各行之間的垂直對齊表格單元表示上運行[105]。這使得模型能夠捕捉不同行之間的依賴關系,通過關注與給定自然語言查詢相關的列和行,改善了表格數據的表示。雖然這一機制提升了處理表格結構的性能,但也引入了額外的計算復雜性,使其在處理非常大的數據集或包含大量行的表格時,擴展性受到限制。圖15展示了TaBERT的架構,該架構聯合處理自然語言話語和表格模式,強調了模型如何使用多頭注意力和池化機制同時捕捉文本和表格結構,從而生成用于下游任務(如語義解析)的統一表示。
在架構方面,TaBERT采用了一種稱為“內容快照”的混合方法來減少計算開銷。與對表格中所有行進行編碼的高成本做法不同,TaBERT選擇與自然語言查詢最相關的部分行。這使得模型能夠保留進行文本與表格聯合推理所需的關鍵信息,同時減少處理不必要數據的負擔。然而,這也帶來了權衡:雖然內容快照機制幫助模型擴展到更大的表格,但如果所選擇的行不足以充分代表表格的整體結構和內容,則可能會丟失關鍵信息。 TaBERT基于Transformer預訓練框架,能夠學習自然語言和結構化數據(表格)的表示。該模型在包含2600萬張表格及其相應文本的大規模語料庫上進行預訓練,采用類似于BERT的掩碼語言建模目標,并結合了表格特定的目標,如掩碼列預測和單元格值恢復。這種預訓練提高了模型對齊文本和表格數據的能力,支持下游任務如語義解析。
在性能與可解釋性之間的平衡上,TaBERT在語義解析任務中表現出色,尤其在WikiTableQuestions等基準測試中表現優于BERT,如圖15所示。然而,由于Transformer和注意力機制的使用引入了復雜性,TaBERT的可解釋性不如決策樹等簡單的機器學習模型,后者能夠為其決策提供更直接的解釋。在可擴展性方面,內容快照機制幫助模型更高效地處理大型表格,但這也伴隨著無法完全捕捉表格信息的風險。
TabTranSELU模型結合了近期表格深度學習的多項進展,利用注意力機制、混合架構和基于Transformer的方法,解決了表格數據的獨特挑戰。一個關鍵創新是自注意力機制的使用,使模型能夠捕捉表格數據集中不同特征之間的依賴關系[26]。這一自注意力方法對識別輸入特征之間的關系至關重要,因為表格數據缺乏圖像或文本中的固有結構,增加了這一任務的復雜性。注意力機制通過將輸入轉換為查詢、鍵和值矩陣來計算得分,從而使模型能夠確定不同特征的加權重要性。這有助于模型更有效地學習特征間的關系,最終提升其預測性能。圖16展示了TabTranSELU模型中的輸入層、Transformer層和密集層。 該模型還采用了混合架構,通過簡化傳統的Transformer設計以適應表格數據。不同于NLP任務中使用的完整的編碼器和解碼器堆棧,TabTranSELU僅使用了單個編碼器和解碼器層。這種簡化在不犧牲性能的情況下,調整了架構以滿足表格數據的特定需求。此外,該模型集成了神經網絡和Transformer的元素,能夠同等高效地處理類別和連續特征。這些特征分別通過嵌入層進行處理,其中類別特征類似于NLP中的token進行處理,數值特征則通過位置編碼來保留其在不同數據實例中的重要性。
TabTranSELU模型最顯著的改進之一是將修正線性單元(ReLU)激活函數替換為縮放指數線性單元(SELU),解決了由于表格數據中負值存在而加劇的“ReLU失效”問題。SELU保留了正值和負值,防止了在訓練過程中丟失潛在信息,使其更適合表格數據集。此外,數值特征的使用位置編碼保留了其順序和重要性,增強了模型處理連續數據的能力。在性能方面,TabTranSELU與傳統算法如梯度提升決策樹(如XGBoost)相比展現了競爭力,在大型數據集上僅有0.2%的微小差距。它還在類似的基于Transformer的模型(如TabTransformer)中表現良好,盡管在性能上略有犧牲,但在功能的廣泛性上表現出色。 可解釋性是TabTranSELU模型的一大優勢,其嵌入層提供了對特征關系的清晰理解。通過對嵌入應用主成分分析等技術,用戶可以直觀地看到特征和類別之間的交互,尤其在處理匿名或不熟悉的數據集時,這種見解非常有價值——而這些見解通常在傳統深度學習方法中更難獲得。除了可解釋性之外,該模型在可擴展性方面也表現出色。通過減少層數并引入SELU激活函數,該模型比傳統的Transformer模型更加精簡,計算強度也較低,因此非常適合更大規模的數據集,并且可以在資源需求最小化的情況下高效訓練。總體而言,TabTranSELU在性能、可解釋性和可擴展性之間取得了良好的平衡,使其成為多種表格數據應用的強有力選擇。雖然我們已經討論了2022年至2024年的多個模型,但需要注意的是,2022年之前的綜述論文[7]未包含這些最新的研究。接下來的部分將探討更前沿的架構創新和進一步推動邊界的模型,這標志著表格深度學習演變的新階段。
近年來,針對表格數據的深度學習模型發展迅速,隨著領域的復雜性增加,涌現出許多新架構。表3總結了2023年至2024年間引入的關鍵模型,包括LF-Transformer和ReConTab等創新方法,這些模型利用先進的基于Transformer和混合技術,解決了特征交互和噪聲等挑戰。表格還概述了它們的架構、訓練效率和顯著特點,展示了該領域最新的進展。以LF-Transformer為例,該模型通過行間和列間注意力機制捕捉復雜的特征交互,使用矩陣分解和潛在因子嵌入來提高預測精度,尤其是在噪聲或數據不完整的情況下[106]。雖然該模型在回歸和分類任務中表現出色,但其復雜性降低了可解釋性,并增加了處理較大數據集時的計算需求。同樣,ReConTab利用基于Transformer的不對稱自動編碼器從原始數據中提取關鍵信息,并引入特征破壞技術以增強模型的魯棒性,盡管增加了復雜性,導致更高的計算成本和透明度下降[5]。GNN4TDL也基于Transformer的自動編碼器結構,利用特征破壞提高對噪聲的魯棒性和泛化能力,但在可擴展性和可解釋性上面臨挑戰[27]。
為了擴展Transformer模型的應用范圍,MambaTab結合了結構化狀態空間模型和特征增量學習,比標準的自注意力機制更有效地捕捉表格數據中的長距離依賴關系[3]。MambaTab適應不斷變化的特征集,增強了可擴展性,但犧牲了可解釋性,因為它缺乏像TabNet那樣解釋特征重要性的注意力機制。SwitchTab采用了不對稱的編碼器-解碼器架構,通過分離項目器將共同特征和顯著特征解耦,改善了表格數據中的特征表示[6]。通過使用基于特征破壞的方法,SwitchTab提高了性能和可解釋性,但其復雜性影響了可擴展性,因此在處理非常大規模數據集時效率較低。上下文感知表格條目表示 (CARTE) 也采用了先進的架構,結合了圖神經網絡(GNN)與圖注意力層,將每個表格行表示為一個小圖,使模型能夠捕捉跨表格的復雜上下文關系[108]。CARTE在遷移學習中表現出色,并且在異構數據集上表現良好,盡管其圖注意力機制在處理大型數據集時降低了可解釋性和可擴展性。
在分詞和基于提示的模型領域,TP-BERTa通過應用相對幅度分詞(RMT)脫穎而出,將標量數值轉換為離散標記,有效地將數值數據視為語言模型框架中的詞匯[107]。此外,其內部特征注意力(IFA)模塊將特征名稱和值統一為一致的表示,減少了特征干擾并提高了預測準確性。然而,與梯度提升決策樹等更簡單的模型相比,這種深度集成降低了可解釋性。Trompt采用了受提示學習啟發的方法,通過使用列和提示嵌入來推導樣本特定的特征重要性,從而根據每個數據實例調整特征的相關性[112]。盡管Trompt在高變異表格數據集上提升了性能,但其嵌入的抽象性質損害了可解釋性并增加了復雜性。
其他模型結合了創新機制和現有架構以應對表格數據的挑戰。TabR集成了一個檢索增強機制,利用基于L2的最近鄰居以及前饋神經網絡,通過從訓練數據中檢索相關上下文來增強局部學習[110]。盡管這種方法顯著提高了預測準確性,但在訓練過程中引入了計算開銷,影響了可擴展性。BiSHop利用雙向稀疏Hopfield模塊來處理表格數據,按列和按行捕捉特征內部和特征之間的交互[109]。其專門設計的表格嵌入和可學習的稀疏性提供了強大的性能,但以降低可解釋性和更高的計算需求為代價,限制了其在大型數據集上的應用。 最后,超圖增強的表格數據表示學習 (HYTREL) 使用超圖結構感知Transformer,利用超圖表示表格,以捕捉復雜的單元格、行和列關系[111]。這使得HYTREL能夠保留關鍵的結構屬性,并在列注釋和表格相似性預測等任務上表現出色,盡管超圖的復雜性降低了可解釋性。TabLLM是一種新穎的方法,它將表格數據序列化為自然語言字符串,使大語言模型(LLMs)像處理文本一樣處理它[84]。雖然在零樣本和少樣本學習場景中有效,但TabLLM面臨可擴展性問題和可解釋性挑戰,因為LLMs的高計算需求以及它們對表格數據的抽象表示。
本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。
流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。
盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。
實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:
在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。
接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。
與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。
數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。
盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。
總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。
近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。
“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:
上下文學習 * 規模定律 * 同質化
上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。
通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強
這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640
在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。
盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。
此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。
我們的貢獻總結如下:
有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。
有關實體及其關系的真實世界事實的知識庫是各種自然語言處理任務的有用資源。然而,由于知識庫通常是不完整的,因此能夠執行知識庫補全或鏈接預測是很有用的。本文全面概述了用于知識庫完成的實體和關系的嵌入模型,總結了標準基準數據集上最新的實驗結果。