国产免费一区二区三区在线能观看,日韩一区国产二区不卡

摘要

大型語言模型（LLMs）的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而，高質量數據的增長速度遠遠落后于訓練數據集的擴展，導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下，合成數據作為一種有前景的解決方案出現。目前，數據生成主要包括兩大方法：數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術，包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外，我們討論了這些方法當前面臨的限制，并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解，幫助他們在構建LLM時快速識別合適的數據生成策略，并為未來的探索提供寶貴的見解。

1 引言

近年來，大型語言模型（LLMs）在廣泛的任務中展現了無與倫比的能力【9, 68, 166】，牢固地確立了它們作為通用人工智能（AI）系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展，不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系，使其能夠高效執行復雜任務，例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。然而，LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加，以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰，因為數據收集成本高昂，同時還面臨隱私問題。此外，高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去，現有的數據將最終耗盡，意味著如果不能顯著提高數據效率或發現新的數據源，LLMs的增長可能會顯著放緩。

面對這些迫在眉睫的限制，數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】，如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成，已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題，但它們仍難以充分捕捉真實世界數據的復雜性【55】，難以大規模生成數據【233】，并且難以抵御對抗性樣本【162】，這限制了它們在LLM訓練中的有效性。

為了克服這些挑戰，研究人員越來越多地轉向面向LLM的數據合成和增強技術，認識到LLM能夠從大型數據集中建模復雜模式，并生成與真實世界分布高度相似的合成數據，同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴，并能夠生成高質量、多樣化的數據，以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度，我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢，反映了該領域日益增長的興趣。截至2024年10月，我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解，并為未來的研究奠定了基礎。 盡管取得了這些進展，但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險，特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外，合成數據在將AI模型與人類價值對齊時經常引入歧義，可能導致偏見結果。評估訓練于合成數據上的模型也很復雜，因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題，因為原始數據集中的偏見和不準確性可能在合成數據中持續存在，限制了它的跨領域泛化能力。此外，LLM的計算需求，以及處理不常見語言或新穎指令的挑戰，也使得其更廣泛的應用變得復雜。最后，缺乏統一的框架來組織和比較學術界和工業界提出的方法，這也是研究人員在應對這一快速發展的領域時面臨的障礙。

本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示，與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同，我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同，該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐，我們的綜述不僅提供了實際指導，還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法，還研究了這些技術如何在LLM的各個階段和功能中發揮作用，提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言，我們從兩個關鍵角度系統回顧和分類了現有研究：LLM生命周期（從預訓練到微調和應用）及其核心功能（理解、邏輯、記憶和生成）。通過圍繞這兩個角度展開討論，我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外，我們還識別了關鍵挑戰，探索了新興的研究方向，并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。

本綜述的貢獻總結如下：

首個綜述：據我們所知，我們提供了首個專注于通過數據合成和增強推進LLMs的全面綜述，系統涵蓋了LLM生命周期各個階段和核心功能。該綜述提供了對現有方法的深入分析，并突出了各階段的獨特挑戰。
新的分類法：我們引入了創新的組織框架，從兩個關鍵角度對現有研究進行分類：LLM的生命周期階段及其核心功能。此分類法更清晰地理解了不同方法的進展、相互聯系和應用性，為LLM數據合成和增強的開發和功能方面提供了寶貴的見解。
新的前沿：我們識別了關鍵挑戰，探索了新興研究方向和潛在突破。這一討論旨在激發未來的研究并指導數據為中心的LLM改進技術的發展。
豐富的資源：我們組織并維護了一個專門的資源庫，以支持LLM數據合成和增強的持續研究和協作。此資源包括相關論文的精選集合、跟蹤最新進展的多個排行榜，并定期更新以促進創新、引導未來的研究方向，并加速該領域的突破。

通過提供LLM數據合成和增強方法的全面概述，本綜述旨在闡明該領域的現狀，并激發未來的研究方向，以通過數據合成和增強方法進一步提升LLM的能力。

我們對本綜述的其余部分進行如下組織：第2節對LLM數據合成和增強的主要領域進行了分類，概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法，詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中，我們從LLM核心功能的角度回顧了這些方法，探討了數據合成和增強如何提升關鍵能力，如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略，涵蓋了評估基準、評估指標和排行榜，用于評估和比較現有方法的有效性。最后，第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢，并提出了未來的研究建議，以促進LLM通過數據合成和增強方法的持續進步。

2 分類

數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用，從而提升模型性能和泛化能力。如圖4所示，我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類，區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性，而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同，但目標都是擴展數據集。此外，數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用，使研究人員能夠根據特定需求和目標定制其數據生成策略。

**2.1 數據增強

數據增強是一種從數據到數據的生成方法，通常涉及對原始數據進行操作，以增加其多樣性和數量，而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本，旨在提高其豐富性。在不同的模態中，數據增強技術往往具有相似性。例如，在圖像數據中，增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地，在文本數據中，增強操作包括同義詞替換【95】、復制粘貼【185】等。此外，為滿足多模態學習的需求，現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本，所生成的圖文對中的語義關系保持一致并匹配。近年來，在快速發展的LLM領域，數據增強已成為通過多樣化訓練示例來提升模型性能的基石，從而避免了大量額外數據收集的必要性。從數據中心的角度來看，我們系統地將現有的數據增強研究分為三類：數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。

2.1.1 數據標注

數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域（如跨語言處理和多模態學習【3, 63, 275】）中特別有用，在這些領域中，自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力，例如GPT-4對政治推特的標注【198】。此外，Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據，專注于視覺問答（VQA）任務。

2.1.2 數據重組

數據重組涉及將現有數據轉化并重組為更多樣化的變體，從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境，增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來，利用LLM的策略也開始出現。例如，Chen等人【27】提出了Disco方法，該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢，協同標注不僅降低了標注成本，還同時提升了標注性能，從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架，通過評估LLM的標注不確定性，策略性地分配數據點給人類或LLM進行標注。

**2.2 數據合成

另一方面，數據合成旨在從頭或基于生成模型創建全新的數據，這些數據與真實數據的分布相似。近年來，隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步，合成數據的質量和生成效率取得了顯著進展。根據LLM的需求，本文將數據合成方法分為三大類：通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾通用模型蒸餾涉及利用功能強大的通用模型，通常具有更多參數和更優性能，如StableVicuna、ChatGPT和GPT-4，來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種，例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明，通過利用GPT-3.5生成教科書和習題的全面內容，一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型，也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如，在代碼編程領域，領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域，Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答，同時確保其準確性和多樣性。此外，行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。

2.2.3 模型自我改進

模型自我改進是指模型生成更高質量的數據以提升其能力。例如，利用現有指令調整模型，并促使其以特定風格（如維基百科風格或問答風格）改寫網絡上的文檔，可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能，極少需要人工干預。

結論

數據合成和增強對于推動LLMs的發展至關重要，特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術，系統地探討了這些技術在LLM整個生命周期及核心功能中的應用，并構建了一個連接現有研究的框架，突出關鍵方法，闡明其優勢與局限性。我們相信，面向LLM的數據合成和增強方法的進步將開辟新的可能性，以提升數據效率、改善任務間的泛化能力，并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎，激發該領域的數據合成和增強的創新與進步。

付費5元查看完整內容

1 引言

表格數據由表示結構化信息的行和列組成[1, 2]，是許多行業中最常用的數據格式，包括醫療、金融和交通等。與圖像和文本等非結構化數據不同，表格數據以結構化形式直接表示現實世界現象，這使其在風險評估、預測分析和安全監測等決策過程中至關重要。例如，在交通工程領域，表格數據在記錄事故事件、車輛屬性、環境因素和人類行為方面起著關鍵作用，幫助研究人員利用數據驅動的洞察來預測事故嚴重性并改善安全措施。盡管深度學習在計算機視覺和自然語言處理（NLP）等領域取得了成功，但其在表格數據中的應用并不那么直接。深度學習模型在處理表格數據時面臨多個挑戰：(1) 樣本量小：與大規模的圖像或文本數據集相比，許多表格數據集相對較小，導致復雜的深度學習模型容易發生過擬合。 (2) 高維性：表格數據通常包含許多特征，這些特征可能是稀疏的或無關的，使得模型難以識別有意義的模式。 (3) 復雜的特征交互：與局部結構突出的圖像或文本不同，表格數據中的特征交互是非局部的且復雜的，因此需要更為專業的架構來有效捕捉這些關系。這些因素使得基于樹的模型（如XGBoost和隨機森林）在許多表格數據任務中更為有效，因為它們更適合處理稀疏特征和復雜的交互。近年來，針對表格數據的深度學習模型取得了顯著進展，解決了此類數據所帶來的獨特挑戰。盡管早期的全連接網絡（FCN）顯示出了一定的潛力，但隨著新架構的出現，這一領域得到了顯著發展[3-6]。其中領先的模型之一是FT-Transformer，該模型將最初為序列數據開發的Transformer模型適配用于表格數據，通過注意力機制編碼特征[7, 8]。由于其能夠學習特征之間的復雜交互，這一模型在處理高維數據時表現出色。另一個近期的創新是自注意力和樣本間注意力Transformer（SAINT），它通過引入樣本間注意力機制改進了原始的Transformer，使得模型能夠更好地捕捉表格數據行之間的關系[9]。在多個基準測試中，SAINT相較于傳統模型如XGBoost和深度學習模型如神經遺忘決策集成（NODE）表現出色。此外，TabTransformer等模型專門用于分類特征編碼的Transformer，提供了一種更具可擴展性的解決方案，能夠處理表格數據集中混合的數據類型。這種方法使模型能夠從分類變量中捕捉有意義的表示，而這些分類變量通常是傳統深度學習架構難以有效處理的。這些新模型在特征編碼、復雜交互學習和模型可解釋性方面引入了重要的創新，這對推動深度學習在表格數據中的應用具有重要意義。本文的目標是詳細回顧這些進展，探討其歷史演變（如圖1所示）、關鍵技術、數據集及潛在的應用方向。 表格深度學習

雖然之前的研究[7]對表格數據的深度學習進行了結構化的綜述，重點關注了處理類別變量、數據轉換和模型比較等挑戰，但本綜述采取了不同的視角，強調了該領域的歷史演變和算法進展。我們著重介紹了MambaNet、SwitchTab和TP-BERTa等最新模型的開發，展示了這些架構如何演變以應對表格數據的獨特復雜性。通過探討注意力機制、混合架構以及其他近期的突破，本綜述突出了深度學習模型向更高效、可擴展且可解釋的解決方案的轉變。與以往的工作不同，本研究不專注于模型比較，因為全面評估不同模型需要根據各種類型的表格數據進行專門的分析。在快速發展的表格深度學習領域，每年都有新的架構設計被提出，以應對表格數據日益增長的復雜性，并帶來了顯著的改進。近期的模型，如HyperTab和GANDALF，推動了可擴展性和可解釋性的邊界，提供了處理異構特征和高維數據的增強方法。這些新架構基于基礎工作，顯著提升了相較于傳統方法的性能改進。如圖9所示，表格深度學習的演變強調了關鍵貢獻，從2019年Semek等人[83]和Arik等人[24]的研究，到最近的最新進展，并按引用次數排列，展示了該領域研究影響力的不斷增長。

在這些進展的基礎上，表2展示了這一期間引入的主要模型的時間線，詳細描述了它們的架構及關鍵性能特點。這些模型展示了表格深度學習中的重大突破，從混合架構到高級注意力機制，推動了性能和可擴展性的進步。

1 TabTransformer

TabTransformer模型通過利用注意力機制和混合架構，顯著推動了表格深度學習的發展，解決了表格數據帶來的獨特挑戰[19]。TabTransformer的核心是采用了多頭自注意力層，該層改編自傳統用于自然語言處理（NLP）的Transformer架構，用于捕捉數據集中復雜的特征交互和依賴關系，如圖10所示。這種注意力機制使模型能夠有效地捕捉特征之間的關系，尤其適用于包含大量類別變量的數據集。 TabTransformer架構將Transformer層與MLP組件結合，形成了針對表格數據優化的混合結構。類別特征通過列嵌入層進行嵌入，將每個類別轉換為可學習的密集表示。這些嵌入通過Transformer層傳遞，聚合來自其他特征的上下文信息，以捕捉相互依賴的關系。上下文化的類別特征隨后與連續特征進行拼接，并通過MLP進行最終預測。這種設計利用了Transformer在類別數據上的上下文學習優勢和MLP在處理連續數據上的傳統優勢。此外，TabTransformer還引入了掩碼語言建模（MLM）和替換標記檢測，使其能夠在大量無標簽數據上進行預訓練，從而在低標簽數據場景中提升性能，使其在現實世界應用中更加有效。

TabTransformer模型的最新進展，如Vyas[94]提出的自監督TabTransformer，進一步優化了該架構，通過在預訓練階段利用MLM從無標簽數據中學習。這種自監督方法通過自注意力機制捕捉復雜的特征依賴性，提高了模型的泛化能力。通過將Transformer層與MLP結合用于最終預測，模型能夠有效處理混合數據類型和較小的數據集。然而，雖然模型在半監督環境中表現出了顯著的性能提升，但依賴于掩碼語言模型預訓練增加了計算開銷，可能限制其可擴展性。解釋性保持在中等水平，注意力得分可以提供有關特征重要性的洞察，但模型的解釋性仍然不如傳統模型如GBDT。

另一個顯著的進展是由Cholakov和Kolev[95]提出的GatedTabTransformer，該模型通過引入門控多層感知機（MLP）增強了原始的TabTransformer。此修改通過空間門控單元提高了模型捕捉跨標記交互的能力。GatedTabTransformer在AUROC方面比標準TabTransformer的性能提升了約1個百分點，特別是在二分類任務中。然而，這也帶來了額外的計算復雜性，因為空間門控單元需要額外的處理。盡管模型性能有所提升，但其可擴展性和解釋性仍然較為有限，相比之下，簡單的模型如MLP或GBDT則更具優勢。

因此，雖然TabTransformer模型通過注意力機制和混合架構在處理表格數據方面提供了顯著改進，但在性能、可擴展性和解釋性方面存在權衡。近期的變體如自監督TabTransformer和GatedTabTransformer展示了這些模型相較于傳統方法的潛力，盡管以更高的計算需求為代價。

FT-Transformer

由Gorishniy等人[96]提出的FT-Transformer模型，通過利用注意力機制、混合架構和基于Transformer的方法，提出了一種新穎的方式來應對表格數據的挑戰。該模型將最初為NLP等任務設計的注意力機制進行了適配，以處理表格數據。在這一背景下，注意力機制使模型能夠捕捉異構特征之間的復雜關系，包括數值和類別數據，如圖11所示。通過使用注意力機制動態優先考慮某些特征，模型有效地建模了傳統表格數據方法中常難以檢測到的交互關系。

除了注意力機制，FT-Transformer還采用了一個集成特征標記化的混合架構。這個過程將數值和類別特征都轉化為嵌入表示，然后通過Transformer架構層進行處理。其結果是，一個高度靈活的模型，能夠處理各種類型的表格數據，這對于特征類型和分布變化多樣的任務而言尤為關鍵。這種混合設計將傳統特征編碼方法與基于Transformer的強大學習能力結合起來，從而在不同的數據集上實現更好的泛化能力。

最近的研究表明，FT-Transformer在各種應用中表現出色。在心力衰竭預后領域，FT-Transformer通過捕捉醫療特征之間的非線性交互，如人口統計和臨床數據，超越了傳統模型如隨機森林和邏輯回歸的表現[97]。注意力機制的使用使模型能夠動態優先處理重要的健康指標，從而得出更準確的預測。同樣，在入侵檢測系統中，FT-Transformer在處理網絡流量數據的高度結構化特性時表現出更高的準確性，能夠識別網絡異常[98]。混合架構無縫地整合了類別和數值特征，提高了模型檢測已知和未知威脅的能力。此外，通過堆疊多個Transformer層來增強模型捕捉數據中的長距離依賴性的能力，使其在復雜任務中更加有效[99]。雖然FT-Transformer模型在多項表格任務上相較于其他模型，如ResNet和MLP，表現出更高的性能，但也有一些權衡需要考慮。在解釋性方面，模型的復雜性帶來了挑戰。像GBDT這樣的傳統模型具有更清晰的解釋性，因為它們的決策過程更加透明。相比之下，FT-Transformer依賴于注意力機制和深層網絡，雖然注意力分數能夠提供特征重要性的某些洞察，但整體上難以解釋。此外，模型的可擴展性也是一個考慮因素，特別是Transformer模型的注意力機制隨特征數量呈二次增長的計算需求，可能在應用于大規模數據集時成為限制。

盡管存在這些限制，FT-Transformer能夠跨不同的數據集進行泛化，使其成為表格數據分析中頗具前景的模型，帶來了預測性能方面的顯著進步。基于這些進展，我們展示了TabNet和FT-Transformer在性能和log-loss方面的比較。如圖12所示，隨著隨機搜索迭代次數的增加，FT-Transformer始終表現出更優的性能，而兩種模型的log-loss則以不同的速率下降。此比較突顯了FT-Transformer在較大搜索空間中相較于TabNet的更強泛化能力。雖然這一圖示例展示了性能差異，但與之前的表格深度學習綜述[7]不同，本次研究并未對所有表格深度學習模型進行比較，因為跨多個模型和不同數據集的全面評估超出了當前綜述的范圍。未來的研究應著眼于更廣泛的性能評估，以全面檢驗這些模型的優劣。

DeepGBM

DeepGBM模型通過結合注意力機制、混合架構和知識蒸餾等先進技術，為解決表格數據在深度學習中的挑戰提供了一種創新的方法[63]。盡管該模型并未顯式使用傳統的注意力機制，它通過GBDT（梯度提升決策樹）中的特征重要性來優先考慮某些特征。此過程模仿了注意力機制，通過將模型的注意力集中在最具信息量的特征上，而不是平等對待所有輸入。通過強調最相關的特征，DeepGBM增強了其處理稀疏類別數據和密集數值數據的能力，這在表格數據任務中至關重要。

最近在表格深度學習領域的進展進一步突顯了DeepGBM在將神經網絡與GBDT結合以提升性能方面的作用。特別是，該模型的混合架構利用了CatNN處理稀疏類別特征，通過嵌入和分解機技術進行特征處理，而GBDT2NN則將GBDT的輸出轉化為神經網絡格式，優化了對密集數值特征的處理[100]。圖13展示了DeepGBM的結構。通過這種集成，DeepGBM能夠利用這兩類模型的優勢，克服傳統方法在統一框架下處理混合特征類型的局限性。盡管DeepGBM并未直接實現基于Transformer的模型，但它采用了來自Transformer架構的思想，特別是在知識蒸餾的形式上。通過將GBDT樹中獲得的知識（包括預測結果、樹結構和特征重要性）蒸餾到神經網絡中，DeepGBM保留了GBDT的優勢，同時增強了其學習能力[101]。這類似于Transformer通過蒸餾來簡化復雜模型的方式，同時保持其性能。

在性能、可解釋性和可擴展性之間的權衡，反映了表格深度學習中更廣泛的挑戰。DeepGBM通過結合GBDT和神經網絡實現了更高的準確性，但犧牲了一部分可解釋性，因為神經網絡組件的增加降低了樹模型通常具有的透明度。可擴展性也是一個挑戰，因為神經網絡部分需要更多的計算資源。然而，像WindTunnel這樣的模型表明，這種方法可以在保持原有GBDT結構優勢的同時提升準確性[101]。這些權衡需要根據應用場景進行仔細平衡，因為DeepGBM在性能和效率方面表現出色，特別是在大規模和實時應用中。

表格數據的深度注意力網絡 (DANets)

在表格深度學習的最新進展中，DANets模型利用了注意力機制、混合架構和基于Transformer的方法，以應對表格數據處理中的特定挑戰。DANets的關鍵創新之一是使用動態特征選擇過程，通過可學習的稀疏掩碼[102]來識別和強調相關特征。該方法基于Entmax稀疏映射，使模型能夠在網絡的每個階段有選擇性地專注于最重要的特征，從而增強其從數據中提取有意義表示的能力。這種機制類似于Transformer模型中使用的注意力機制，但特別針對表格數據的不規則性和異構性進行了調整。

DANets還采用了混合架構，融合了類似于卷積神經網絡（CNN）的特征分組和層次抽象過程，但進行了適配以應對表格數據的獨特結構。如圖14所示，引入的抽象層（ABSTLAY）使模型能夠通過連續的層來分組相關特征并抽象出更高層次的表示。此外，模型還采用了捷徑路徑，使得原始特征可以在網絡的更高層次重新引入，確保關鍵信息得以保留，從而增強了模型的魯棒性，特別是在較深的架構中。這種設計類似于ResNet風格的連接，殘差路徑防止了深層網絡中信息丟失和退化，從而提升了性能。

DANets通過使用動態加權和類似注意力機制的方式，結合了Transformer的思想，使模型在特征選擇和抽象過程中能夠選擇性地關注重要特征。盡管這并不是Transformer模型的直接應用，這些方法改善了表格數據的處理并提升了性能，使得DANets優于傳統模型如XGBoost和神經網絡模型如TabNet。然而，這種性能提升以降低可解釋性為代價。雖然基于注意力的特征選擇提供了對特定特征重要性的洞察，但層次抽象的復雜性掩蓋了決策過程，使其不如簡單模型如決策樹那樣透明。為了解決可擴展性問題，DANets采用了結構重新參數化技術，這在推理過程中降低了計算復雜度，從而允許構建更深的網絡而不會導致計算成本過高。盡管更深的架構提升了性能，但研究指出，由于表格數據中的特征空間有限，進一步增加深度帶來的回報遞減。

自注意力和樣本間注意力 (SAINT)

最近在表格深度學習中的進展利用了注意力機制和基于Transformer的方法，解決了表格數據處理中的挑戰。SAINT模型通過整合注意力機制、混合架構和基于Transformer的方法，克服了表格數據的獨特挑戰。SAINT使用了兩種類型的注意力機制：自注意力和樣本間注意力[25]。自注意力使模型能夠捕捉單個數據樣本中特征之間的復雜關聯，能夠建模那些簡單模型可能忽略的關系。而樣本間注意力作為一種新穎的補充機制，使模型可以將一個數據行（數據點）與其他行進行比較，從而根據整個數據集中的模式進行更動態的學習過程。這一機制在某些特征可能存在噪聲或缺失時尤為有用，因為模型可以從其他相似的數據點中學習。 SAINT的混合架構結合了自注意力和樣本間注意力，創建了一個綜合的學習系統。SAINT的先進架構在軟件缺陷預測任務中也表現出色[103]。通過利用注意力機制和基于Transformer的方法，SAINT能夠有效處理數據點之間的復雜交互，從而提升缺陷預測的性能。在處理混合數據類型時，SAINT始終優于傳統模型如XGBoost和隨機森林。然而，盡管SAINT提高了準確性，其復雜性影響了可解釋性，因為引入了樣本間注意力，這使得它不如簡單模型直觀。此外，與SAINT的注意力機制相關的計算需求在處理大型數據集時可能會帶來可擴展性挑戰。

除了這些創新之外，SAINT的改進版本SAINTENS進一步增強了模型處理表格數據的能力，解決了SAINT的一些局限性[104]。SAINTENS使用相同的注意力機制，但引入了MLP集成，以提高在處理缺失或噪聲數據時的魯棒性。該方法與對比預訓練及Mixup和Cutmix等增強技術相結合，使SAINTENS能夠生成更強的數據表示，特別是在缺失值較多的醫療數據集中。這些增強措施在性能、可解釋性和可擴展性三個關鍵領域表現出相應的權衡。在性能方面，SAINT和SAINTENS在處理混合特征類型及標簽數據有限的數據集時，一貫優于傳統機器學習模型如GBDT以及深度學習模型如TabNet。SAINT的注意力機制提供了一定程度的可解釋性，允許用戶可視化重要的特征和數據點。然而，樣本間注意力引入的復雜性使其相比于簡單模型更難以直觀解釋。最后，雖然SAINT和SAINTENS在大型數據集上表現良好，但注意力機制，尤其是樣本間注意力的計算需求，可能使這些模型在較大的數據集上更耗資源。

表格 BERT (TaBERT)

TaBERT模型通過引入注意力機制、混合架構和基于Transformer的方法，解決了表格數據的挑戰。TaBERT的關鍵創新之一是其使用的注意力機制，特別是縱向自注意力機制，該機制在各行之間的垂直對齊表格單元表示上運行[105]。這使得模型能夠捕捉不同行之間的依賴關系，通過關注與給定自然語言查詢相關的列和行，改善了表格數據的表示。雖然這一機制提升了處理表格結構的性能，但也引入了額外的計算復雜性，使其在處理非常大的數據集或包含大量行的表格時，擴展性受到限制。圖15展示了TaBERT的架構，該架構聯合處理自然語言話語和表格模式，強調了模型如何使用多頭注意力和池化機制同時捕捉文本和表格結構，從而生成用于下游任務（如語義解析）的統一表示。

在架構方面，TaBERT采用了一種稱為“內容快照”的混合方法來減少計算開銷。與對表格中所有行進行編碼的高成本做法不同，TaBERT選擇與自然語言查詢最相關的部分行。這使得模型能夠保留進行文本與表格聯合推理所需的關鍵信息，同時減少處理不必要數據的負擔。然而，這也帶來了權衡：雖然內容快照機制幫助模型擴展到更大的表格，但如果所選擇的行不足以充分代表表格的整體結構和內容，則可能會丟失關鍵信息。 TaBERT基于Transformer預訓練框架，能夠學習自然語言和結構化數據（表格）的表示。該模型在包含2600萬張表格及其相應文本的大規模語料庫上進行預訓練，采用類似于BERT的掩碼語言建模目標，并結合了表格特定的目標，如掩碼列預測和單元格值恢復。這種預訓練提高了模型對齊文本和表格數據的能力，支持下游任務如語義解析。

在性能與可解釋性之間的平衡上，TaBERT在語義解析任務中表現出色，尤其在WikiTableQuestions等基準測試中表現優于BERT，如圖15所示。然而，由于Transformer和注意力機制的使用引入了復雜性，TaBERT的可解釋性不如決策樹等簡單的機器學習模型，后者能夠為其決策提供更直接的解釋。在可擴展性方面，內容快照機制幫助模型更高效地處理大型表格，但這也伴隨著無法完全捕捉表格信息的風險。

帶有縮放指數線性單元的表格Transformer (TabTranSELU)

TabTranSELU模型結合了近期表格深度學習的多項進展，利用注意力機制、混合架構和基于Transformer的方法，解決了表格數據的獨特挑戰。一個關鍵創新是自注意力機制的使用，使模型能夠捕捉表格數據集中不同特征之間的依賴關系[26]。這一自注意力方法對識別輸入特征之間的關系至關重要，因為表格數據缺乏圖像或文本中的固有結構，增加了這一任務的復雜性。注意力機制通過將輸入轉換為查詢、鍵和值矩陣來計算得分，從而使模型能夠確定不同特征的加權重要性。這有助于模型更有效地學習特征間的關系，最終提升其預測性能。圖16展示了TabTranSELU模型中的輸入層、Transformer層和密集層。該模型還采用了混合架構，通過簡化傳統的Transformer設計以適應表格數據。不同于NLP任務中使用的完整的編碼器和解碼器堆棧，TabTranSELU僅使用了單個編碼器和解碼器層。這種簡化在不犧牲性能的情況下，調整了架構以滿足表格數據的特定需求。此外，該模型集成了神經網絡和Transformer的元素，能夠同等高效地處理類別和連續特征。這些特征分別通過嵌入層進行處理，其中類別特征類似于NLP中的token進行處理，數值特征則通過位置編碼來保留其在不同數據實例中的重要性。

TabTranSELU模型最顯著的改進之一是將修正線性單元（ReLU）激活函數替換為縮放指數線性單元（SELU），解決了由于表格數據中負值存在而加劇的“ReLU失效”問題。SELU保留了正值和負值，防止了在訓練過程中丟失潛在信息，使其更適合表格數據集。此外，數值特征的使用位置編碼保留了其順序和重要性，增強了模型處理連續數據的能力。在性能方面，TabTranSELU與傳統算法如梯度提升決策樹（如XGBoost）相比展現了競爭力，在大型數據集上僅有0.2%的微小差距。它還在類似的基于Transformer的模型（如TabTransformer）中表現良好，盡管在性能上略有犧牲，但在功能的廣泛性上表現出色。可解釋性是TabTranSELU模型的一大優勢，其嵌入層提供了對特征關系的清晰理解。通過對嵌入應用主成分分析等技術，用戶可以直觀地看到特征和類別之間的交互，尤其在處理匿名或不熟悉的數據集時，這種見解非常有價值——而這些見解通常在傳統深度學習方法中更難獲得。除了可解釋性之外，該模型在可擴展性方面也表現出色。通過減少層數并引入SELU激活函數，該模型比傳統的Transformer模型更加精簡，計算強度也較低，因此非常適合更大規模的數據集，并且可以在資源需求最小化的情況下高效訓練。總體而言，TabTranSELU在性能、可解釋性和可擴展性之間取得了良好的平衡，使其成為多種表格數據應用的強有力選擇。雖然我們已經討論了2022年至2024年的多個模型，但需要注意的是，2022年之前的綜述論文[7]未包含這些最新的研究。接下來的部分將探討更前沿的架構創新和進一步推動邊界的模型，這標志著表格深度學習演變的新階段。

8 新架構與創新

近年來，針對表格數據的深度學習模型發展迅速，隨著領域的復雜性增加，涌現出許多新架構。表3總結了2023年至2024年間引入的關鍵模型，包括LF-Transformer和ReConTab等創新方法，這些模型利用先進的基于Transformer和混合技術，解決了特征交互和噪聲等挑戰。表格還概述了它們的架構、訓練效率和顯著特點，展示了該領域最新的進展。以LF-Transformer為例，該模型通過行間和列間注意力機制捕捉復雜的特征交互，使用矩陣分解和潛在因子嵌入來提高預測精度，尤其是在噪聲或數據不完整的情況下[106]。雖然該模型在回歸和分類任務中表現出色，但其復雜性降低了可解釋性，并增加了處理較大數據集時的計算需求。同樣，ReConTab利用基于Transformer的不對稱自動編碼器從原始數據中提取關鍵信息，并引入特征破壞技術以增強模型的魯棒性，盡管增加了復雜性，導致更高的計算成本和透明度下降[5]。GNN4TDL也基于Transformer的自動編碼器結構，利用特征破壞提高對噪聲的魯棒性和泛化能力，但在可擴展性和可解釋性上面臨挑戰[27]。

為了擴展Transformer模型的應用范圍，MambaTab結合了結構化狀態空間模型和特征增量學習，比標準的自注意力機制更有效地捕捉表格數據中的長距離依賴關系[3]。MambaTab適應不斷變化的特征集，增強了可擴展性，但犧牲了可解釋性，因為它缺乏像TabNet那樣解釋特征重要性的注意力機制。SwitchTab采用了不對稱的編碼器-解碼器架構，通過分離項目器將共同特征和顯著特征解耦，改善了表格數據中的特征表示[6]。通過使用基于特征破壞的方法，SwitchTab提高了性能和可解釋性，但其復雜性影響了可擴展性，因此在處理非常大規模數據集時效率較低。上下文感知表格條目表示 (CARTE) 也采用了先進的架構，結合了圖神經網絡（GNN）與圖注意力層，將每個表格行表示為一個小圖，使模型能夠捕捉跨表格的復雜上下文關系[108]。CARTE在遷移學習中表現出色，并且在異構數據集上表現良好，盡管其圖注意力機制在處理大型數據集時降低了可解釋性和可擴展性。

在分詞和基于提示的模型領域，TP-BERTa通過應用相對幅度分詞（RMT）脫穎而出，將標量數值轉換為離散標記，有效地將數值數據視為語言模型框架中的詞匯[107]。此外，其內部特征注意力（IFA）模塊將特征名稱和值統一為一致的表示，減少了特征干擾并提高了預測準確性。然而，與梯度提升決策樹等更簡單的模型相比，這種深度集成降低了可解釋性。Trompt采用了受提示學習啟發的方法，通過使用列和提示嵌入來推導樣本特定的特征重要性，從而根據每個數據實例調整特征的相關性[112]。盡管Trompt在高變異表格數據集上提升了性能，但其嵌入的抽象性質損害了可解釋性并增加了復雜性。

其他模型結合了創新機制和現有架構以應對表格數據的挑戰。TabR集成了一個檢索增強機制，利用基于L2的最近鄰居以及前饋神經網絡，通過從訓練數據中檢索相關上下文來增強局部學習[110]。盡管這種方法顯著提高了預測準確性，但在訓練過程中引入了計算開銷，影響了可擴展性。BiSHop利用雙向稀疏Hopfield模塊來處理表格數據，按列和按行捕捉特征內部和特征之間的交互[109]。其專門設計的表格嵌入和可學習的稀疏性提供了強大的性能，但以降低可解釋性和更高的計算需求為代價，限制了其在大型數據集上的應用。最后，超圖增強的表格數據表示學習 (HYTREL) 使用超圖結構感知Transformer，利用超圖表示表格，以捕捉復雜的單元格、行和列關系[111]。這使得HYTREL能夠保留關鍵的結構屬性，并在列注釋和表格相似性預測等任務上表現出色，盡管超圖的復雜性降低了可解釋性。TabLLM是一種新穎的方法，它將表格數據序列化為自然語言字符串，使大語言模型（LLMs）像處理文本一樣處理它[84]。雖然在零樣本和少樣本學習場景中有效，但TabLLM面臨可擴展性問題和可解釋性挑戰，因為LLMs的高計算需求以及它們對表格數據的抽象表示。

付費5元查看完整內容

擴散模型 · 條件圖像生成 · 生成模型 ·

2024 年 10 月 1 日

[付費5元查看完整內容]《基于擴散模型的條件圖像生成》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來，基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法，導致了相關文獻的爆炸式增長。然而，擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性，為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中，我們根據條件如何融入擴散模型的兩個基本組件（即去噪網絡和采樣過程）對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時，各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后，我們指出了一些關鍵但仍未解決的未來問題，并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型，擴散模型，條件圖像生成，條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時，它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破，如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而，早期基于深度學習的生成模型（如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200]）在條件圖像生成中的表現并不令人滿意，這是由于它們的內在局限性：GANs 容易出現模式崩潰和訓練不穩定的問題 [49]；VAEs 通常生成模糊的圖像 [81]；而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來，擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角，憑借其強大的生成能力和多功能性，得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中，圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能，表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外，與一步生成模型相比，擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具，近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展，模型架構、訓練方法和采樣技術的眾多變化，以及潛在的條件生成任務的廣泛性，研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述，提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述，如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64]，或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解，但它們并未涵蓋不同條件生成任務在模型框架中的共同特征，特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述，但它們的范圍有限，主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作，忽略了早期將條件集成到無條件去噪網絡中的工作，或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎，并且在低級任務如圖像修復中仍然廣泛應用。此外，[182] 主要關注基于擴散模型的圖像編輯框架，缺乏對該領域其他任務統一框架的系統分析，而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此，它們的分類方法缺乏系統性，并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下，本綜述旨在提供一個全面且結構化的框架，涵蓋當前廣泛的 DCIS 研究工作，基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說，我們通過審查和總結現有的 DCIS 方法，探討條件如何集成到擴散建模的兩個基本組件中：去噪網絡和采樣過程。在去噪網絡方面，我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中，我們將六種主流的采樣中條件機制進行分類，詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述，使他們能夠設計適用于其所需任務的條件生成框架，包括尚未探索的新任務。

本綜述的其余部分組織如下：首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來，我們在第三部分總結去噪網絡中的條件集成方法，并在第四部分總結采樣過程中的方法。最后，我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

表格數據 · 語言建模 · 大型語言模型 ·

2024 年 8 月 23 日

[付費5元查看完整內容]表格數據的語言建模：基礎、技術與演變綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

表格數據作為各個領域中廣泛存在的數據類型，由于其異質性和復雜的結構關系，帶來了獨特的挑戰。在表格數據分析中實現高預測性能和魯棒性，對眾多應用具有重要意義。受自然語言處理領域近期進展的影響，特別是Transformer架構的影響，表格數據建模的新方法不斷涌現。早期技術集中在從頭開始訓練Transformers，但往往遇到可擴展性問題。隨后，利用預訓練語言模型（如BERT）的方法得到了發展，這些方法需要較少的數據，并且表現出更好的性能。最近，隨著大型語言模型（如GPT和LLaMA）的出現，這一領域發生了進一步的革命，使得僅需最少微調便可實現更先進和多樣的應用。

盡管人們對此領域的興趣日益增長，但關于表格數據語言建模技術的全面綜述仍然缺乏。本文填補了這一空白，系統回顧了表格數據語言建模的發展，內容包括：(1) 不同表格數據結構和數據類型的分類；(2) 模型訓練中使用的關鍵數據集和評估任務的回顧；(3) 建模技術的總結，包括廣泛采用的數據處理方法、流行架構和訓練目標；(4) 從傳統的預訓練/預訓練語言模型到大型語言模型的演變；(5) 識別表格數據分析中語言建模的持續挑戰和潛在的未來研究方向。與本綜述相關的GitHub頁面可訪問：//github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git。關鍵詞: 語言建模, 表格數據, 預訓練語言模型, 大型語言模型

表格數據由具有一致特征集的行組成，是現實世界中最常見的數據類型之一，廣泛應用于不同領域[1, 2]。在某些關鍵領域[3-5]，實現高預測性能和魯棒性可以帶來顯著的利益。然而，由于表格數據的復雜結構，進行有效分析具有一定挑戰性。例如，表格數據中的一個樣本可以是表格中的單行（1D表格數據），也可以是一組表格中的完整表格（2D表格數據）。此外，表格數據通常具有廣泛的異質特性[6]，如數值型、分類型和文本元素等多種數據類型。同時，表格中的列與行之間往往存在復雜的關系。在過去的幾十年中，自然語言處理（NLP）領域的語言建模取得了顯著的進展，特別是Transformer架構的出現。在表格建模的背景下，早期研究主要集中于使用NLP技術處理表格數據，如嵌入機制、預訓練方法和架構修改。這些工作主要涉及從頭開始為表格數據預訓練基于Transformer的模型，這需要大量的數據，在某些領域（如醫療[7, 8]）中可能不切實際。雖然這些方法在某些場景中有效，但往往面臨可擴展性和效率方面的挑戰。同時，一些研究者利用預訓練語言模型（PLMs）（如BERT [9]）對表格數據進行建模。這些基于PLM的模型需要較少的訓練數據，同時提供了更優越的預測性能。這表明，在特定任務的表格數據集上調整和重用預訓練語言模型的有效性[10]。

最近，大型語言模型（LLMs）的出現進一步改變了這一領域的格局。諸如GPT [11]和LLaMA [12]等模型展示了卓越的能力，在多種任務中實現了最先進的結果，且僅需少量微調。這些模型在少樣本和零樣本學習場景中表現出色，能夠在幾乎無需額外訓練數據的情況下執行復雜任務。這一發展為在表格數據中利用LLMs進行更高級和多樣化的應用開辟了新的途徑[13]。這一從從頭訓練模型或使用PLMs到采用LLMs的演變，標志著表格數據語言建模中的一個重大范式轉變。

盡管對從表格數據中提取廣泛知識的興趣日益濃厚，但研究社區中缺乏一個全面的綜述，能夠清晰地整理現有的表格數據語言建模方法，概述技術趨勢，識別挑戰，并提出未來的研究方向。為填補這一空白，本文通過對表格數據語言建模的系統回顧，提供了一次全面的綜述。本文旨在在這一范式轉變的關鍵時刻，對表格數據語言建模的發展進行全面的總結和分類，展示這一前景廣闊的研究領域的全貌。總而言之，本綜述的主要貢獻有三點。首先，本文首次將表格數據分類為1D和2D數據格式。與現有綜述只關注用于傳統任務（如推理和數據生成）的1D表格數據[14, 15]或專注于更復雜任務（如信息檢索和表格理解）的2D表格數據[16, 17]不同，本文首次對兩種類型的表格數據的任務和數據集進行系統回顧。其次，本文回顧了表格數據語言建模技術的最新進展，并提供了詳盡的分類。第三，本文強調了表格數據語言建模中的各種研究挑戰和潛在的探索方向。

本文的結構如圖2所示。首先，我們在第2節介紹了表格數據的基礎，提供了四個主要部分的全面概述：數據結構（第2.1節）、數據類型（第2.2節）、下游任務（第2.3節）和數據集（第2.4節）。我們解釋了最近研究關注的兩種主要表格數據結構：1D和2D表格數據。同時，我們討論了表格領域中的不同數據類型。接下來，我們詳細描述了八大主要下游任務：表格問答（第2.3.1節）、表格檢索（第2.3.2節）、表格語義解析（第2.3.3節）、表格元數據預測（第2.3.4節）、表格內容填充（第2.3.5節）、表格預測（第2.3.6節）、表格事實核查（第2.3.7節）和表格生成（第2.3.8節）。隨后，我們概述了一些常用的數據集及其關鍵特性，這些數據集與不同的下游任務相關聯。

接下來，我們呈現了對近期研究的分類，總結了表格數據語言建模技術，并將其分為三個關鍵領域：輸入處理（第3.1節）、中間模塊（第3.2節）和訓練目標（第3.3節）。具體而言，輸入處理專注于將原始表格數據轉換為適合語言模型的格式。我們進一步將輸入處理技術分為具體的子類別：數據檢索（第3.1.1節）、表格序列化（第3.1.2節）和上下文整合（第3.1.3節）。在中間模塊中，我們討論了兩個組成部分：位置編碼（第3.2.1節）和注意力機制（第3.2.2節），這些組件經過修改以在表格領域中實現更好的預測性能。此外，我們討論了訓練目標，它在幫助語言模型學習語義信息方面起著關鍵作用。隨后，我們分析了語言模型在表格領域的演變（第4節）。首先，我們描述了早期從頭預訓練和使用PLM的適應性及其優勢，特別是Transformer的引入（第4.1節）。然后，我們回顧了LLMs在表格數據建模中的最新進展，并強調了它們與以往方法的不同之處（第4.2節）。最后，我們在第5節中指出了表格數據語言建模中的若干挑戰和未來的機遇，并在第6節總結了本文的內容。

付費5元查看完整內容

大型語言模型 · 多模態數據 · 以數據為中心的人工智能 · 多模態大型語言模型 ·

2024 年 7 月 13 日

[付費5元查看完整內容]數據與多模態大型語言模型的協同作用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，我們見證了大型語言模型（LLM）的快速發展。基于強大的LLM，多模態LLM（MLLM）將模態從文本擴展到更廣泛的領域，因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力，數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作，我們發現模型和數據的發展并不是兩條獨立的路徑，而是相互關聯的。一方面，更大量和更高質量的數據有助于MLLM的更好表現；另一方面，MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點：1）在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力，2）通過利用哪些能力和扮演哪些角色，模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展，我們系統地回顧了現有與MLLM相關的工作，從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。

近年來，大型語言模型（LLM）在廣泛的任務中展示了令人印象深刻的性能，并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態，多模態LLM（MLLM）逐漸進入視野，例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2]，以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中，MLLM受到廣泛關注。正如圖1所示，自2023年初以來，與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明，擴大模型規模需要更加海量的數據來補充[6], [7], [8]，例如擴展法則[9], [10]。具體而言，研究表明，多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此，一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法，專注于高質量數據的策劃[12], [13], [14], [15], [16], [17]，以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出，在現有關注MLLM的論文中，與數據中心方法密切相關的論文也表現出強勁的增長趨勢，并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現，一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行，而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態，重點關注現有的數據中心方法，并根據所提出的數據管道階段進行組織[35]。實際上，數據和模型的發展是交織在一起的，而不是分開的。更大數量和更高質量的數據提高了模型性能，而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本，擴大了數據量，并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型（SAM）[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高，它逐漸取代人在標注任務中的角色，從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展，即受益于高質量數據集的MLLM可以幫助改進訓練數據，反過來進一步增強MLLM。 數據-模型共同發展范式很有前途，但尚未得到充分研究。根據我們的調查，目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系，也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力，以及了解模型可以扮演的角色，以改進多模態數據。因此，本綜述旨在通過綜合回顧回答以下研究問題，推進MLLM的數據-模型共同發展： * RQ1：在MLLM的生命周期中，哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力？ * RQ2：模型可以扮演哪些角色以促進不同的數據中心方法，并在每種情況下利用模型的哪些特定能力？

為了回答這兩個關鍵研究問題，我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型：數據對模型的貢獻和模型對數據的互惠貢獻，建立其在MLLM能力中的深層連接。隨后，我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查，揭示了推進數據-模型共同發展范式的巨大潛力，主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解，我們描繪了若干進步的未來方向，以更好地利用數據和模型之間的互補，從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點： * MLLM開發的新視角：我們提出了一種新分類法，強調多模態數據與MLLM之間的協同作用，旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織，為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述：我們系統地回顧了快速增長的MLLM工作，闡明1）哪些MLLM能力可以通過特定的數據中心方法增強，2）經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知，這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖：我們提供了一個進步組織的路線圖，涵蓋若干先進和有前途的子方向，重點關注數據和MLLM之間的內部互動。通過這項工作，我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。

組織結構。本文余下部分的組織如下。第二節提供了背景，包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集，并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。

付費5元查看完整內容

大型語言模型 · 合成數據 · 綜述 ·

2024 年 7 月 5 日

[付費5元查看完整內容]基于大語言模型（LLM）的合成數據生成、策展和評估的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在不斷發展的深度學習領域，數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型（LLMs）的出現為合成數據生成提供了一種以數據為中心的解決方案，緩解了現實世界數據的限制。然而，目前對這一領域的研究缺乏統一的框架，大多停留在表面。因此，本文基于合成數據生成的一般工作流程，整理了相關研究。通過這樣做，我們突出了現有研究中的空白，并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下，數據數量和質量的問題一直是一個長期存在的困境。大語言模型（LLMs）的革命性出現引發了深度學習領域的顯著范式轉變（Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023）。盡管有這些進展，大量高質量數據仍然是構建穩健自然語言處理（NLP）模型的基礎（Gandhi et al., 2024）。具體來說，這里的高質量數據通常指的是包含豐富監督信號（通常以標簽形式）并與人類意圖緊密對齊的多樣化數據。然而，由于高成本、數據稀缺、隱私問題等原因，依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的（Kurakin et al., 2023）。此外，多項研究（Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023）表明，人類生成的數據由于其固有的偏見和錯誤，可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題：是否有其他更有效和可擴展的數據收集方法可以克服當前的限制？

鑒于LLMs的最新進展，它們展示了生成與人類輸出相當的流暢文本的能力（Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a），由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說，合成數據旨在模仿真實世界數據的特征和模式（Liu et al., 2024）。一方面，LLMs通過廣泛的預訓練，積累了豐富的知識庫，并展現出卓越的語言理解能力（Kim et al., 2022; Ding et al., 2023a），這為生成真實的數據奠定了基礎。另一方面，LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性，從而能夠為特定應用創建定制的數據集，并設計更靈活的流程（Eldan and Li, 2023）。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用，合成數據生成對于深度學習的發展具有重要意義。如圖1所示，LLMs驅動的合成數據生成（Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023）使整個模型訓練和評估過程實現自動化，最小化了人類參與的需求（Huang et al., 2023），從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外，LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories（Eldan and Li, 2023）和Phi系列（Gunasekar et al., 2023; Li et al., 2023b）的見解強調了數據質量對于有效模型學習的重要性，而LLMs賦予我們主動“設計”模型學習內容的能力，通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月，Hugging Face上已有超過300個被標記為“合成”的數據集，許多主流LLMs利用高質量的合成數據進行訓練，包括Alpaca（Taori et al., 2023）、Vicuna（Zheng et al., 2023）、OpenHermes 2.5和Openchat 3.5（Wang et al., 2023a）。

盡管看似簡單，但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程，并涉及許多技巧（Gandhi et al., 2024），使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務（如預訓練（Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023）、微調（Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a）、評估（Feng et al., 2023; Wei et al., 2024））和不同領域（如數學（Yu et al., 2023a; Luo et al., 2023a）、代碼（Luo et al., 2023b; Wei et al., 2023b）、指令（Honovich et al., 2023a; Wang et al., 2023d））進行數據生成，但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題，并開發通用工作流程，本綜述調查了最近的研究，并根據生成、策展和評估三個密切相關的主題進行組織，如圖2所示。我們的主要目的是提供該領域的全面概述，確定關鍵關注領域，并突出需要解決的空白。我們希望為學術界和工業界帶來見解，并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

大型語言模型 · 加速生成技術 ·

2024 年 5 月 25 日

[付費5元查看完整內容]《大型語言模型加速生成技術》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

盡管在大型語言模型（LLMs）中加速文本生成對于高效產生內容至關重要，但這一過程的順序性往往導致高推理延遲，從而對實時應用構成挑戰。為了解決這些挑戰并提高效率，已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述，旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域：投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述，我們希望能夠提供對當前LLMs技術領域的見解，并為該自然語言處理關鍵領域的未來研究方向提供指導。

大語言模型（LLMs）的推理需要大量的計算資源，這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性，這些模型通常包含數百萬甚至數十億個參數。因此，通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外，推理過程計算密集，涉及復雜的操作，如矩陣乘法、非線性激活和跨多個層的注意力機制。此外，LLMs需要大內存分配，因為它們的參數中包含了廣泛的數據存儲，包括詞嵌入和注意力矩陣。此外，自回歸解碼的性質，即輸出令牌基于先前生成的令牌逐步生成，限制了并行化的潛力，特別是對于較長的序列，導致推理速度較慢。最后，LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系，這增加了計算復雜性，特別是在計算大輸入序列的注意力分數時。綜上所述，這些因素使得大語言模型的推理需要大量的計算資源和時間。

為了解決加速大語言模型推理的挑戰，已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而，提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制，探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌，以在每一步構建連貫且有意義的序列。然而，加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性，即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力，特別是在較大模型中導致推理速度較慢。另一個挑戰是，在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力，同時所需的計算資源可能非常龐大。

本文全面討論了各種加速生成技術。第2節討論了投機解碼方法，第3節探討了提前退出方法，第4節研究了非自回歸算法（并行解碼）策略。通過詳細分類和深入分析，我們提供了對這些大語言模型機制的深刻見解，強調其優點、局限性和未來研究方向。如圖1所示，圖中展示了不同算法的分類法，本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。

投機解碼：并行預測與驗證

投機解碼技術通過并行預測多個令牌并同時驗證這些預測，有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術，通過并行執行任務來驗證其必要性，從而提高并發性。

**Blockwise 解碼

Blockwise解碼是一種經典的投機解碼方法，通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層，并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時，這些模型并行生成下一個k個令牌，并通過基本模型對這些令牌進行評分，確定最長的前綴。如果這個前綴的長度超過1，則可以跳過一個或多個貪心解碼循環，從而加快推理速度。

**SpecDec 方法

SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件，進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型，專注于高效準確地生成令牌草稿，而Spec-Verification則允許接受略微偏離貪心解碼的令牌，從而提高接受率。實驗結果表明，SpecDec方法在保持生成質量的同時，實現了約5倍的速度提升。

**自我投機解碼（SSD）

自我投機解碼（SSD）是一種不需要輔助草稿模型的新穎推理方案，而是利用單一LLM同時進行草稿生成和驗證，從而減少了總內存使用。在草稿階段，部分中間層被跳過，選擇這些層是通過貝葉斯優化完成的。在驗證階段，使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成，但也可能降低令牌接受率，增加整體推理時間。因此，層選擇過程被設計為優化問題，目標是最小化每個令牌的平均推理時間。

提前退出機制：動態計算資源分配

提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配，有效地加速了生成過程。這一機制基于對樣本難度的觀察，動態調整計算資源，避免對簡單樣本的過度計算，同時確保復雜樣本的精確處理。

**CALM 框架

Confident Adaptive Language Modeling（CALM）框架通過動態分配計算資源，根據中間層的置信度得分決定是否提前退出計算，從而加速生成過程。CALM框架探索了三種不同的置信度測量方法：Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法，模型可以在達到預定義閾值時提前退出，避免全層計算，從而加速推理。

**FREE 方法

Fast and Robust Early-Exiting（FREE）方法通過引入淺層-深層模塊和同步并行解碼，提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型，在解碼時同步處理來自淺層模型的早退出令牌，直到遇到非退出令牌。通過Beta混合模型（BMM），FREE方法能有效捕捉置信度得分與預測一致性的關系，從而動態調整閾值，提高推理效率。

**HASH EE

Hash-based Early Exiting（HASH EE）通過哈希函數為每個令牌分配固定的退出層，避免了傳統方法中的內部分類器或額外參數，從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出，適用于多種任務，包括語言理解和生成任務。

非自回歸模型：并行生成目標令牌

非自回歸模型通過同時或并行生成所有目標令牌，避免了自回歸模型中逐令牌生成的順序性，顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時，表現出更高的推理效率。

**NAT 模型

非自回歸Transformer（NAT）模型在機器翻譯任務中首次引入，通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中，NAT模型通過復制源輸入來初始化解碼器輸入，并使用繁殖預測器來決定每個輸入詞應復制多少次，從而構建目標句子長度。通過這種方法，NAT模型實現了與自回歸模型相當的質量，同時推理延遲降低了十倍以上。

**FlowSeq 模型

FlowSeq模型使用生成流技術，通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼，引入潛變量，從而在非自回歸生成過程中建模輸出令牌之間的依賴關系，同時實現高效并行解碼。實驗結果表明，FlowSeq在保持性能的同時，實現了顯著的推理加速。

**依賴感知解碼器（DePA）

依賴感知解碼器（DePA）通過雙向依賴建模和注意力轉換過程，提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模，在非自回歸訓練之前進行自回歸前向-后向預訓練，增強解碼器對目標依賴的建模能力。

結論與未來展望

本文全面探討了各種加速生成技術，包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析，我們總結了當前技術的優勢、局限性和最新進展，為研究人員和工程師在實際應用中提供了寶貴的參考。未來，隨著技術的不斷發展，這些加速生成方法有望進一步優化，提高LLMs在各種應用場景中的實用性和效率。通過不斷優化和創新，我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力，實現實時高效的文本生成。

付費5元查看完整內容

生成式人工智能 · AI與軍事 ·

2024 年 4 月 22 日

[付費5元查看完整內容]《生成式人工智能模型：機遇與風險》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成式人工智能模型能夠執行一系列傳統上需要創造力和人類理解力的任務。在訓練過程中，它們可以從現有數據中學習模式，然后根據這些模式生成文本、圖像和音樂等新內容。一方面，由于它們的多功能性和普遍的高質量結果，它們代表了數字化的機遇。另一方面，人工智能生成模型的使用也帶來了新的 IT 安全風險，在全面分析與 IT 安全相關的威脅時需要考慮這些風險。

針對這種潛在風險，使用生成式人工智能的公司或機構在將生成式人工智能集成到工作流程之前，應進行單獨的風險分析。這同樣適用于開發人員和運營商，因為生成式人工智能的許多風險必須在開發時就考慮到，或者只能由運營公司來影響。在此基礎上，可以調整現有的安全措施，并采取額外的措施。

付費5元查看完整內容

AI與軍事 · 強化學習 · 空戰 · 計算機生成部隊 ·

2024 年 1 月 21 日

[付費5元查看完整內容]《基于開源軟件強化學習的計算機生成兵力》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

為計算機生成兵力（CGF）創建行為模型是一項具有挑戰性且耗時的任務，通常需要具備復雜人工智能算法編程方面的專業知識。因此，對于了解應用領域和培訓目標的主題專家來說，很難建立相關的場景并使培訓系統與培訓需求保持同步。近年來，機器學習作為一種為合成智能體建立高級決策模型的方法，已顯示出良好的前景。這類智能體已經能夠在撲克、圍棋和星際爭霸等復雜游戲中擊敗人類冠軍。我們有理由相信，軍事模擬領域也有可能取得類似的成就。然而，為了有效地應用這些技術，必須獲得正確的工具，并了解算法的能力和局限性。

本文討論了深度強化學習的高效應用，這是一種機器學習技術，可讓合成智能體學習如何通過與環境互動來實現目標。我們首先概述了現有的深度強化學習開源框架，以及最新算法的參考實現庫。然后，我們舉例說明如何利用這些資源為旨在支持戰斗機飛行員培訓的計算機生成兵力軟件構建強化學習環境。最后，基于我們在所介紹環境中進行的探索性實驗，我們討論了在空戰訓練系統領域應用強化學習技術的機遇和挑戰，目的是為計算機生成的兵力有效構建高質量的行為模型。

計算機生成兵力的學習環境

在實驗中，將強化學習環境構建為實現 OpenAI Gym 接口的 Python 模塊，因為許多現有的強化學習算法實現都支持該接口。環境的結構如圖 2 所示。環境的大部分功能都在 EnvironmentCore 類中實現。該類通過 SimulationInterface 與本地或遠程計算機上運行的仿真進程通信，在仿真中的實體和控制它們的強化學習智能體之間傳輸觀察結果和操作。SimulationInterface 還用于在計算機生成兵力軟件中加載模擬場景。

模擬與環境模塊之間的通信是通過 ZeroMQ 實現的，ZeroMQ 是一個開源、輕量級的消息傳遞中間件，可綁定多種編程語言，包括 C++ 和 Python。ZeroMQ 可以輕松實現幾種流行的消息傳遞模式，如請求-回復、發布-訂閱和推-拉。ZeroMQ使用谷歌協議緩沖區（Google protocol buffers）來指定消息，這是一種語言中立、平臺中立的結構化數據序列化機制。使用簡單的協議語言創建消息規范，然后將其編譯成各種編程語言（包括 C++ 和 Python）的源代碼。

要配置特定的環境，需要使用一些委托對象：

ActionDelegate： ActionDelegate 指定環境的動作空間（OpenAI Gym 中提供的空間定義之一）。在執行過程中，它將該空間中的動作作為輸入，并將其轉換為 ActionRequest 消息，然后由 EnvironmentCore 發送給模擬中的實體。 -ObservationDelegate：指定環境的觀察空間（OpenAI Gym 中提供的空間定義之一）。在執行過程中，它將來自模擬實體的狀態更新信息作為輸入，并將其轉換為來自觀察空間的狀態觀察信息，然后將其呈現給智能體。
RewardDelegate：將狀態觀測信息作為輸入，并計算出一個標量獎勵信號，然后將其發送給智能體。
ScenarioDelegate：管理要模擬的情景，包括終止標準。對于訓練過程中的每個情節，委托機構都會根據需要調整場景內容，并生成模擬請求（SimulationRequest）消息，由環境核心（EnvironmentCore）發送給模擬。
RenderDelegate：會渲染模擬場景當前狀態的視圖。這對調試非常有用。我們使用 Python Matplotlib 和 Basemap 庫實現了簡單的地圖渲染。

空戰仿真領域的深度強化學習

在空戰模擬領域的深度強化學習實驗中，我們發現了一些挑戰，這些挑戰通常不存在于許多強化學習的簡單基準環境中。狀態和行動空間的維度高且復雜，使得智能體難以學習重要的狀態特征和合適的決策策略。例如，在許多場景中，由于傳感器的限制或電子戰的影響，環境只能被部分觀測到。此外，在大多數場景中，智能體不會單獨行動，而是必須與盟友合作，同時與敵人競爭，以達到目標。為了處理長期和短期目標，可能需要在不同的時間尺度上進行決策。代表最重要目標的獎勵通常是延遲的、稀疏的，例如，如果智能體取得了勝利，就會在情景結束時給予獎勵，這樣就很難將功勞歸于正確的行動。此外，根據訓練需要，智能體的目標也有可能在不同的模擬運行中有所不同。例如，我們可能需要調整模擬的難度，以適應受訓者的熟練程度。最后，由于運行高保真模擬的計算成本很高，因此盡可能提高學習過程的樣本效率非常重要。在下面的章節中，我們將討論一些可以用來應對這些挑戰的技術。

付費5元查看完整內容

加州大學伯克利分校 (UC Berkeley) · 深度學習 · 博士論文 ·

2022 年 10 月 20 日

[付費5元查看完整內容]【伯克利博士論文】硬件感知的高效深度學習，154頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

神經網絡(NNs)的準確性已經在廣泛的問題中得到了顯著的提高，通常是通過高度過參數化的模型實現的。盡管這些最先進的模型具有準確性，但它們的龐大規模使其無法部署到許多資源受限的應用程序中，如實時智能醫療保健監測、自動駕駛、音頻分析和語音識別。這就給實現普適深度學習帶來了一個問題，它需要低能耗、高精度的實時推理和有限的計算資源。

要實現能實現實時約束和最佳精度的高效NN，需要1)NN架構設計、2)模型壓縮方法和3)硬件引擎設計的協同優化。以前追求高效深度學習的工作更多地關注于優化代理指標，如內存大小和FLOPs，而硬件規格實際上在決定整體性能方面起著重要作用。此外，由于設計空間非常大，在以往的文獻中，上述三個方面往往是單獨的、經驗的優化，使整個設計過程耗時且次優。

本文首先系統地研究了一種廣泛應用的標準模型壓縮技術——量化方法。我們沒有使用啟發式設計或昂貴的搜索，而是利用Hessian信息來解決混合精度量化問題，我們提出的Hessian- aware量化(HAWQ)方法在不同的網絡和數據集上實現了最先進的性能。我們進一步使整個管道全自動(HAWQV2)，并探索了不同任務(QBERT)上量化(ZeroQ)的不同方面。

基于我們的系統量化方法，我們將硬件規格和部署納入設計空間(HAWQV3)。該神經結構被納入協同設計(CoDeNet)，并被自動搜索(HAO)。最后，通過引入基于教師的分段蒸餾餾(ETA)，提高了HW-SW自動化協同設計管道的整體效率。總之，我們在本文中的工作展示了從傳統的神經網絡設計到硬件感知的高效深度學習的進化步驟。我們相信，這將進一步加速在資源有限的設備和現實應用中部署先進的神經網絡。

引言

隨著最先進的深度學習模型的參數大小和計算量急劇增長，在不同的硬件平臺上高效部署這些模型變得越來越重要。在特定的硬件資源和約束條件下，1) 模型壓縮，2) 神經結構設計/搜索，3) 硬件優化是獲得可行解的主流方法。模型壓縮包括量化、修剪、知識蒸餾和因式分解等方法，其目的是對預先訓練好的模型進行壓縮，包括模型大小和計算量。隨著當前硬件對低精度計算的支持，量化已經成為解決這些挑戰的流行過程。從另一個角度來看，NAS算法試圖尋找一個有效的神經結構，然后從零開始訓練它。相比之下，硬件優化總是在神經結構和模型壓縮方法固定之后進行。盡管有這些優點，但為了充分利用該系統，實現硬件感知的高效深度學習，在本文中我們試圖解決的問題有三個。

首先，我們要注意的是，實現高效深度學習的三個組成部分并不相互正交。如圖1.1所示，特定神經體系結構的性能實際上與模型壓縮方法和硬件規格高度相關。例如，在具有適當配置的FPGA板上，具有4位量化的ResNet50可以比具有8位量化的ResNet50運行得更快。但是在只支持8位整數的GPU上，8位量化ResNet50可以達到與4位ResNet50相同的速度，同時能夠獲得更高的精度。在本文中，我們的目標是實現硬件感知的高效深度學習，我們綜合考慮了這三個方面，并試圖在它們之間的權衡中獲得最佳點。

其次，之前的工作試圖優化代理指標，如模型大小和神經網絡模型的FLOPs，假設這些理論指標與實際有效指標(如延遲、吞吐量和能耗)高度相關。然而，有人指出，代理指標在特定情況下可能具有誤導性。為了避免次優解的出現，本文利用已開發的硬件引擎或模擬器直接優化實際指標。

最后，綜合考慮神經網絡架構、模型壓縮和硬件設計，可以形成一個非常大的搜索空間。以關節空間的一小部分為例，混合精度量化允許神經網絡的每一層選擇特定的量化位寬，這導致位寬配置的搜索空間呈指數級大。考慮到搜索空間的大小，以前的方法通常是啟發式的，這需要領域知識和人工努力，或者是耗時的，這需要強大的計算資源來執行搜索過程。

在本文中，我們通過應用Hessian分析和整數優化等優化方法，以及基于學習的技術，如延遲和精度模擬器，以及塊知識蒸餾，使我們的方法自動化和高效。本文提出的方法能夠在解決上述問題的同時取得良好的性能。例如，通過我們的混合精度量化，我們在各種模型上實現了10倍的壓縮比，只有大約1%的精度下降(請參閱第6章和第7章)。此外，作為我們使用HW-SW聯合設計的一個例子，我們的4位/8位混合精度模型在Pascal VOC上得到67.1 AP50，只有2.9 MB大小，比Tiny-YOLO小21倍，但精度更高10%(如第12章)。

在本文中，我們首先介紹了在第二章中我們用來定義硬件感知的高效深度學習的指標。在第三章中，我們展示了應用硬件感知的高效深度學習的動機。然后我們將我們的工作分為兩行，第一行展示了我們在系統量化方面的進展，第二行描述了我們在圖1.1中自動和共同探索三個設計空間的技術。具體來說，第四章介紹了量化的概念和相關工作，第五章到第八章介紹了我們的工作HAWQ, HAWQV2, Q-BERT, ZeroQ，第九章給出了結論。第十章介紹了軟硬件協同設計的研究方向和已有的研究成果。我們在第11章到第14章展示了我們的作品HAWQV3, CoDeNet, HAO和ETA，并以第15章作為結論。最后，在第16章中，我們回顧了我們工作的重要性，并討論了未來可能的方向。