摘要：

本綜述研究了經典軟件設計模式如何提升大型語言模型（LLM）驅動的代理型人工智能系統中通信的可靠性與可擴展性，重點聚焦于模型上下文協議（Model Context Protocol，簡稱 MCP）。文章考察了基于 LLM 的代理的基礎架構及其從孤立運行向復雜多代理協作演進的過程，分析了在這一轉變中出現的關鍵通信難題。本研究重新審視了多個成熟的軟件設計模式，包括中介者（Mediator）、觀察者（Observer）、發布-訂閱（Publish-Subscribe）和代理（Broker）模式，并分析了它們在構建符合 MCP 框架的代理交互結構中的適用性。為闡明這些交互機制，文中提供了概念圖示與形式模型，以描繪通信路徑并優化數據流動。此外，文章還探討了適應不同代理自主性與系統復雜度的架構變體，并通過實時金融處理與投資銀行等領域的實際應用，展示了這些設計模式與 MCP 如何滿足特定的運行需求。最后，文章總結了當前尚待解決的挑戰、潛在的安全風險，以及推動強健、可互操作且具備可擴展性的大型語言模型多代理生態系統發展的未來方向。

1. 引言

**1.1 基于 LLM 的智能體式 AI 與多智能體系統的興起

大型語言模型（Large Language Models，LLMs）正經歷一次范式轉變——從作為靜態的信息提供者（通常嵌入于對話型智能體中）演化為具備自主決策與任務執行能力的計算型智能體，即所謂的智能體式人工智能（agentic AI）[1]。這一轉變標志著智能體式 AI 的興起，LLM 被賦予了與外部系統交互、隨時間存儲與提取信息，以及執行可操作行為的能力[2]。

這些增強后的智能體專為完成那些需要迭代推理、規劃、記憶與工具使用的任務而設計——這些能力是傳統 LLM 因上下文窗口受限、易產生幻覺以及難以處理復雜行為序列等限制所無法勝任的[3]。隨著任務需求超出單一智能體的能力范圍，**由多個 LLM 智能體組成的多智能體系統（LLM-MAS）**應運而生。這類系統通過在多個智能體之間分配認知任務，實現協作式問題求解與專業化分工[4]。這一演進趨勢背后的動因在于：許多現實世界任務過于復雜，單一智能體難以勝任，需要通過有組織的交互實現智能的擴展[5]。關鍵在于，LLM-MAS 的整體表現不僅取決于個體模型的性能，而更取決于這些智能體在架構上如何實現通信、協調與知識共享[6]。

盡管早期的 LLM 在單智能體場景中表現強勁，但在涉及長期依賴、上下文連續性和工具使用策略的任務中卻表現不足。智能體式 AI 通過將 LLM 嵌入具備規劃、記憶和模塊化推理功能的框架中來填補這些能力空缺[4]。然而，即便具備這些增強功能，孤立運行的智能體仍然存在局限。向多智能體協作的轉變，反映出人們認識到：結構化的智能體間通信所產生的分布式智能[7]，是應對高復雜度場景的關鍵。最終，LLM-MAS 所展現的智能，更源自系統層級的整體設計，而非任何單一智能體[8]。

**1.2 智能體間通信在復雜 AI 工作流中的關鍵作用

在多智能體系統中，尤其是由大型語言模型（LLM）驅動的系統中，智能體之間的通信是協調與共享目標的基石。正是通過通信，智能體才能對齊任務目標、共享上下文理解，并協同規劃行動[5]。然而，這種依賴通信的方式本身也帶來了巨大的挑戰。在多智能體系統中，相比于單個智能體自身的能力局限，智能體之間交互的復雜性更容易成為導致系統性失敗的根源。常見的問題包括目標不一致、任務驗證機制薄弱、系統擴展性受限、面臨安全攻擊威脅，以及缺乏被廣泛接受的健壯通信協議架構標準。在基于 LLM 的多智能體系統中，通信不僅僅是信息的傳遞媒介，它更是群體推理的基礎機制。然而，正是這種優勢也成為潛在的弱點：支持智能體協同工作的通信通道，同樣也可能傳播錯誤、放大設計缺陷，甚至暴露系統于諸如“中間人智能體攻擊”（Agent-in-the-Middle, AiTM）等對抗性攻擊之下。因此，LLM-MAS 中的通信存在一個核心張力：它既是智能涌現的關鍵媒介，又是潛在的系統脆弱點——如果設計不當，可能削弱整個系統的安全性與可靠性。因此，構建具有韌性、語義一致性和結構良好的通信架構不是可選項，而是打造可信、穩健且可持續發展的下一代智能體式 AI 系統的核心前提[11]。

**1.3 模型上下文協議（MCP）：一種通用互操作性標準

模型上下文協議（Model Context Protocol，MCP）由 Anthropic 于 2024 年底提出，是一種開放的互操作性標準，旨在簡化并統一 AI 模型與外部工具、系統及結構化數據之間的連接方式。MCP 常被稱為“AI 應用領域的 USB-C”，目標是成為通用的接口層，大幅降低在多平臺間集成的復雜性。 MCP 的核心目標是解決長期存在的“N × M”集成瓶頸問題：即每一個 LLM 都需為每種數據源或工具單獨編寫對接代碼，造成工程重復、系統脆弱且維護困難。MCP 提供了一種統一協議，使任意 AI 助手都可以與任何兼容的服務、工具或數據集交互，從而極大簡化集成流程[14]。 MCP 采用客戶端–主機–服務器的架構模式，使用 JSON-RPC 實現通信，支持持久化、具備狀態感知的通信會話。它還定義了嚴格的數據攝取格式、元數據注釋規則、平臺無關的模型協調方式，以及安全的雙向連接機制。這種結構化方法不僅提升了互操作性，也增強了系統的可追蹤性與可管理性。 MCP 更深遠的影響在于推動 AI 基礎設施朝著模塊化、可組合的方向演進。與其構建大量定制化連接導致系統混亂，不如通過 MCP 實現組件之間的清晰解耦，使工具、模型與數據層能夠獨立替換與升級。這種模塊化架構大幅減少工程負擔、加快創新速度，同時為可擴展、可審計且面向未來的 AI 部署奠定基礎。此外，MCP 還提供了明確的消息結構與通信生命周期定義，支持關鍵的合規性與監控功能——這是在企業級與監管密集型場景中不可或缺的能力。

**1.4 綜述范圍與貢獻：連接設計模式、LLM 智能體與 MCP

本綜述融合了大型語言模型（LLM）驅動的智能體式 AI、經典軟件設計方法論，以及新興的模型上下文協議（MCP）三方面的研究進展，目標是為構建魯棒、可擴展的智能體間通信框架提供系統性指導。本文探討了如何將久經驗證的軟件架構設計模式，適配到以 LLM 為基礎的現代多智能體系統中，并將 MCP 定位為推動互操作性與結構化協作的核心支柱。通過理論模型與概念圖示，本文分析了通信動態、系統復雜度與數據交換效率。同時，本文還評估了這些設計策略如何在面對智能體自主性提升與系統復雜化時保持可擴展性。文章還結合實時金融系統與投資平臺等現實應用場景，展示在這些關鍵領域中，強健的智能體協同架構如何滿足運行需求。最終，本文旨在為開發者與系統架構師提供一個切實可行的框架，用于構建安全、高效、可維護的基于 LLM 的多智能體生態系統。

付費5元查看完整內容

1 引言

生成模型已成為學術界和工業界的熱門話題，主要由于它們能夠生成大量高質量和多樣性的合成數據。從早期的系統如 DALL-E [1]（用于圖像生成）和 GPT-3 [2]（用于文本生成）到最近的進展，如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4]，生成模型在其輸出的質量和規模上迅速發展。內容生成旨在創造與訓練樣本相似的連貫材料，而決策制定則專注于生成能夠實現最佳結果的行動序列。與內容生成不同，決策制定涉及復雜、動態的環境和長期的決策。因此，盡管生成模型在內容生成方面取得了成功，將它們應用于決策制定仍面臨諸多挑戰。這些挑戰包括：1）如何通過與環境的交互來學習策略，而不僅僅是模仿專家行為；2）如何基于學習到的行為生成新策略，從策略學習過渡到策略生成；3）如何建立一個能夠在各種環境中適應的穩健基礎決策生成模型，且只需最少的調優工作；4）如何構建策略的多步推理和長期演化能力。這些挑戰強調了生成模型不僅僅是生成數據的需要。

在實際應用中，決策制定通常被稱為序列決策制定，其中決策者隨著時間推移做出一系列觀察，每個決策都會影響隨后的選擇。目標是識別一個策略，以優化期望的回報或最小化跨越序列行動的成本。經典算法，如動態規劃（DP）和強化學習（RL），廣泛應用于解決建模為馬爾可夫決策過程（MDPs）的問題。這些方法通過基于觀察到的回報和狀態轉移來更新策略，而不是生成新策略，來優化決策制定。盡管這些傳統方法在許多應用中取得了成功，但它們通常依賴于試錯或預定義的狀態和轉移，這限制了探索，并可能錯過更好的解決方案。此外，它們需要大量的計算和優化，這在高維或大規模問題中可能不切實際。傳統方法還需要在面對新環境時進行大規模的重新配置或再訓練，從而降低了靈活性。

另一方面，生成模型被設計為對數據分布進行建模，而不僅僅是擬合標簽。一旦訓練完成，它們可以生成與原始數據相似的新樣本，從而能夠探索不同的場景和結果。這一能力使得在傳統方法可能難以立即顯現的情況下，發現新的策略成為可能。在復雜或標簽不明確的數據場景中，生成模型提供了對可能決策路徑的更深入理解，有時能引導出更符合高回報或期望目標的策略。然而，傳統方法如優化或強化學習在決策空間較清晰、目標更直接的簡單環境中仍然有效。選擇這些方法之間的差異，取決于任務的復雜性和環境的特點。認識到這些優勢，近年來，開發新的生成模型并將其應用于決策制定的研究工作大幅增加。圖 1 展示了生成模型及其在決策制定中的應用的研究趨勢，進一步強調了這些方法在解決此類挑戰中的重要性。然而，目前缺乏全面的綜述，能夠總結過去的工作并為新的研究方向鋪平道路。這個空白促使我們撰寫本文綜述。該綜述的三大貢獻包括：1）提出了一個全面的分類法，用于分類當前的生成決策制定方法。我們識別了七種用于決策制定的生成模型，并將其功能分類為三個關鍵角色：控制器、建模器和優化器；2）我們回顧了生成模型在決策制定中的多樣化實際應用，重點討論了機器人控制、結構生成、游戲、自動駕駛和優化任務；3）最后，我們總結了現有工作的優缺點，并討論了未來在決策制定任務中開發高性能生成模型的前景。本文其余部分的組織結構如下（參見圖 2 了解總體大綱）：第二部分作為引言，介紹了序列決策制定的基本公式，并提供了所有研究方法的基礎知識。具體而言，我們詳細介紹了七種生成模型，并將它們與傳統方法進行對比。第三部分提出了用于分類生成決策制定方法的分類法。第四部分根據介紹的分類法回顧并分析現有文獻。第五部分展示了生成模型在決策制定中的實際應用。最后，第六部分討論了生成模型在決策制定中的未來發展方向，第七部分總結了本文的整體內容。

付費5元查看完整內容

AI與軍事 · 場景生成 · 大型語言模型 · C2SIM ·

2024 年 12 月 24 日

[付費5元查看完整內容]《探索用于場景生成的大型語言模型：支持 C2SIM 自主系統本體擴展開發》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

C2SIM Autonomous Systems（C2SIM自主系統）團隊已著手進行一項探索性研究，采用大型語言模型（LLM）GPT-4來促進場景開發，為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果，并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法，包括 “0-shot 學習 ”和 “提示工程”，它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法，不僅可以總結文獻中的現有知識，還可以從模型中提取嵌入式領域知識，從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義，從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后，本文根據目前在該領域應用 LLMs 的經驗教訓，規劃了未來研究的潛在途徑。

本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力，沒有通過樣本（少數幾次）或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述，但經過精心設計，可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示，結果可能會有所不同，有時甚至會大相徑庭。因此，對提示的改進需要采用迭代開發方法。

提示符的開發遵循一個循環，即逐步完善提示符，以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行，這是一個簡單而有效的網絡環境，用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。

提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本，并逐步添加、編輯或刪除細節，以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。

理想情況下，對提示版本（或一般微調模型）的評估應基于可量化的測量結果，如在已知預期結果的測試用例集上，被評估版本產生的正確結果所占的百分比。在這里，沒有精確的典型情景可用作基準，因為沒有一種單一的方法來描述情景。因此，對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。

開發工作主要是通過評估論文中情景提取任務（第 4.1 節）的提示質量來進行的，因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題，評分標準為 0 至 5 分：

結果是否包含標準場景模板的所有要素？評估是否有遺漏（或添加）的要素偏離預期結果。
結果是否只反映了文件中包含的場景？評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下，假設只是整個論文的一小部分，可能僅用于說明目的，這給提取帶來了困難。
描述是否是對論文場景的公平總結？評估生成的摘要與論文描述的 “要點 ”的匹配程度，以及是否包含幻想的細節（“幻覺”）。
根據上下文，生成的目標和績效衡量標準是否合理？
步驟是否反映了情景的邏輯時間進程？

鑒于對相同輸入進行連續運行會產生不同的結果，評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。

付費5元查看完整內容

混合專家模型 · 推理優化 ·

2024 年 12 月 21 日

[付費5元查看完整內容]《混合專家模型推理優化技術綜述》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大規模混合專家（MoE）模型的出現標志著人工智能領域的一項重大進展，通過條件計算提供了更強的模型容量和計算效率。然而，這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌，涵蓋了整個系統堆棧。我們首先建立了一個分類框架，將優化方法分為模型級、系統級和硬件級優化。在模型級別，我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術，以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上，我們研究了分布式計算方法、負載平衡機制和高效調度算法，這些方法使得可擴展部署成為可能。此外，我們還深入探討了硬件特定的優化和協同設計策略，以最大化吞吐量和能效。本綜述不僅提供了現有解決方案的結構化概述，還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展，我們已建立了一個公開的資源庫，網址為：//github.com/MoE-Inf/awesome-moe-inference/

1 引言

大規模語言模型（LLM）已經徹底改變了人工智能領域，展示了在多個領域，包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型，在從自然語言理解到復雜推理和代碼生成等任務上，取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模，包括模型參數的數量和訓練過程中投入的計算資源。實踐中，越來越多的實證研究表明，隨著模型規模的增大，性能不斷提高，這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而，這一發展趨勢在推理階段（尤其是實際部署中）面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。混合專家（MoE）模型作為一種有前景的架構解決方案，已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出，作為一種在神經網絡中學習子任務的方法，許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代，MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上，每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模，同時通過稀疏激活保持計算開銷的可控性。近期的實現，如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等，已經證明了這一策略在將語言模型擴展到萬億級參數的同時，仍能保持合理的計算需求。 MoE在擴展模型方面的成功，使其被廣泛應用于各種前沿系統中。例如，谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地，最近的開源MoE模型Mixtral 8x7B[70]，盡管模型規模遠小于密集型模型，但仍表現出與更大模型相媲美的競爭性能，并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型，進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注，促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。然而，MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性，這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面：在模型級別，專家架構和路由機制的設計直接影響推理性能；在系統級別，分布式計算和負載平衡的管理變得日益復雜；而在硬件級別，需要專門的加速技術來處理稀疏計算模式。為了解決MoE部署和推理中的這些挑戰，已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性，但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架，用于分析和開發綜合性的MoE推理優化解決方案。為了彌補這一空白，本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架，將優化方法分為模型級、系統級和硬件級優化，如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述，但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法，為研究人員和實踐者提供了一個寶貴的資源，幫助他們將MoE模型部署到不同的實際應用中。

本綜述的其余部分組織如下：第2節介紹了MoE模型及其推理特性；第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術；第6節討論了未來的挑戰和機遇；第7節對綜述進行了總結。 混合專家（MoE）的基本原理

模型層級優化

模型層級優化旨在通過架構、參數優化和算法設計的系統性改進，增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域：高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構，壓縮技術則通過剪枝、量化和知識蒸餾等方法，減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性，包括路由機制和專家組合策略。圖3展示了本節的詳細結構。

系統層級優化

由于MoE架構的獨特結構，許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程，尤其是在系統層級。通常，MoE模型在兩種場景下部署：云環境中的多個服務器和邊緣環境中的單個設備。在云集群中，MoE模型分布在多個設備上，以實現并行執行。除了傳統的并行化技術，如數據并行、張量并行和流水線并行[69, 110, 126]，專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上，受限于GPU內存，往往無法容納MoE模型的所有參數，因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題，專家卸載技術被開發出來，以充分利用專家的稀疏激活模式，實現高效執行。圖6展示了本節的詳細結構。

硬件層級優化

最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數（Op/B）效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理（NDP）解決方案，旨在解決稀疏激活和專家參數傳輸開銷的問題（圖8）。該架構將基于CXL（計算擴展鏈接）的NDP控制器與專用的NDP核心結合，用于內存中的計算，利用LPDDR SDRAM（低功耗雙倍數據速率同步動態隨機存儲器）提供高帶寬和能效。系統實現了一種混合計算策略，其中GPU處理頻繁訪問的“熱”專家，而NDP單元處理“冷”專家，通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別，FLAME采用M:N剪枝來減少不必要的計算，這可以在列平衡結構剪枝和無結構剪枝之間取得平衡；在專家級別，通過CEPR（循環專家預測）進行稀疏激活預測。通過改變專家激活路徑的模式，可以有效提高專家預測的準確性。然后，使用雙緩沖機制在計算前一個專家的同時加載預測的專家，以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理，M3ViT 只激活與任務相關的稀疏“專家”路徑，以提高效率，并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現，提出了一些激進的技術，包括一種近似方法來解決FPGA上GELU函數計算的復雜性，以及一個統一的線性層模塊，以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備，該設備結合了xPU和邏輯PIM（內存中處理）。這意味著它可以集成兩種類型的處理單元，共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸，能夠在同一設備上同時實現高計算和內存訪問利用率。此外，它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔（TSVs）優化了低Op/B操作，從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外，它可以并行執行專家和注意力階段，以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM（同時定位與建圖）任務的加速器設計。主要包括一個無序（OoO）SMoE路由器，用于緩解低延遲的數據傳輸，以及單跳（SS）和雙跳（DS）異構核心架構，利用相同專家中相似零模式導致的粗粒度稀疏性，以實現高吞吐量和能效。

付費5元查看完整內容

大語言模型 · 數據合成 · 數據增強 ·

2024 年 10 月 19 日

[付費5元查看完整內容]《大語言模型的數據合成與增強綜述》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

大型語言模型（LLMs）的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而，高質量數據的增長速度遠遠落后于訓練數據集的擴展，導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下，合成數據作為一種有前景的解決方案出現。目前，數據生成主要包括兩大方法：數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術，包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外，我們討論了這些方法當前面臨的限制，并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解，幫助他們在構建LLM時快速識別合適的數據生成策略，并為未來的探索提供寶貴的見解。

1 引言

近年來，大型語言模型（LLMs）在廣泛的任務中展現了無與倫比的能力【9, 68, 166】，牢固地確立了它們作為通用人工智能（AI）系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展，不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系，使其能夠高效執行復雜任務，例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。然而，LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加，以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰，因為數據收集成本高昂，同時還面臨隱私問題。此外，高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去，現有的數據將最終耗盡，意味著如果不能顯著提高數據效率或發現新的數據源，LLMs的增長可能會顯著放緩。

面對這些迫在眉睫的限制，數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】，如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成，已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題，但它們仍難以充分捕捉真實世界數據的復雜性【55】，難以大規模生成數據【233】，并且難以抵御對抗性樣本【162】，這限制了它們在LLM訓練中的有效性。

為了克服這些挑戰，研究人員越來越多地轉向面向LLM的數據合成和增強技術，認識到LLM能夠從大型數據集中建模復雜模式，并生成與真實世界分布高度相似的合成數據，同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴，并能夠生成高質量、多樣化的數據，以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度，我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢，反映了該領域日益增長的興趣。截至2024年10月，我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解，并為未來的研究奠定了基礎。 盡管取得了這些進展，但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險，特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外，合成數據在將AI模型與人類價值對齊時經常引入歧義，可能導致偏見結果。評估訓練于合成數據上的模型也很復雜，因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題，因為原始數據集中的偏見和不準確性可能在合成數據中持續存在，限制了它的跨領域泛化能力。此外，LLM的計算需求，以及處理不常見語言或新穎指令的挑戰，也使得其更廣泛的應用變得復雜。最后，缺乏統一的框架來組織和比較學術界和工業界提出的方法，這也是研究人員在應對這一快速發展的領域時面臨的障礙。

本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示，與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同，我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同，該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐，我們的綜述不僅提供了實際指導，還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法，還研究了這些技術如何在LLM的各個階段和功能中發揮作用，提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言，我們從兩個關鍵角度系統回顧和分類了現有研究：LLM生命周期（從預訓練到微調和應用）及其核心功能（理解、邏輯、記憶和生成）。通過圍繞這兩個角度展開討論，我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外，我們還識別了關鍵挑戰，探索了新興的研究方向，并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。

本綜述的貢獻總結如下：

首個綜述：據我們所知，我們提供了首個專注于通過數據合成和增強推進LLMs的全面綜述，系統涵蓋了LLM生命周期各個階段和核心功能。該綜述提供了對現有方法的深入分析，并突出了各階段的獨特挑戰。
新的分類法：我們引入了創新的組織框架，從兩個關鍵角度對現有研究進行分類：LLM的生命周期階段及其核心功能。此分類法更清晰地理解了不同方法的進展、相互聯系和應用性，為LLM數據合成和增強的開發和功能方面提供了寶貴的見解。
新的前沿：我們識別了關鍵挑戰，探索了新興研究方向和潛在突破。這一討論旨在激發未來的研究并指導數據為中心的LLM改進技術的發展。
豐富的資源：我們組織并維護了一個專門的資源庫，以支持LLM數據合成和增強的持續研究和協作。此資源包括相關論文的精選集合、跟蹤最新進展的多個排行榜，并定期更新以促進創新、引導未來的研究方向，并加速該領域的突破。

通過提供LLM數據合成和增強方法的全面概述，本綜述旨在闡明該領域的現狀，并激發未來的研究方向，以通過數據合成和增強方法進一步提升LLM的能力。

我們對本綜述的其余部分進行如下組織：第2節對LLM數據合成和增強的主要領域進行了分類，概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法，詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中，我們從LLM核心功能的角度回顧了這些方法，探討了數據合成和增強如何提升關鍵能力，如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略，涵蓋了評估基準、評估指標和排行榜，用于評估和比較現有方法的有效性。最后，第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢，并提出了未來的研究建議，以促進LLM通過數據合成和增強方法的持續進步。

2 分類

數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用，從而提升模型性能和泛化能力。如圖4所示，我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類，區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性，而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同，但目標都是擴展數據集。此外，數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用，使研究人員能夠根據特定需求和目標定制其數據生成策略。

**2.1 數據增強

數據增強是一種從數據到數據的生成方法，通常涉及對原始數據進行操作，以增加其多樣性和數量，而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本，旨在提高其豐富性。在不同的模態中，數據增強技術往往具有相似性。例如，在圖像數據中，增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地，在文本數據中，增強操作包括同義詞替換【95】、復制粘貼【185】等。此外，為滿足多模態學習的需求，現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本，所生成的圖文對中的語義關系保持一致并匹配。近年來，在快速發展的LLM領域，數據增強已成為通過多樣化訓練示例來提升模型性能的基石，從而避免了大量額外數據收集的必要性。從數據中心的角度來看，我們系統地將現有的數據增強研究分為三類：數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。

2.1.1 數據標注

數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域（如跨語言處理和多模態學習【3, 63, 275】）中特別有用，在這些領域中，自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力，例如GPT-4對政治推特的標注【198】。此外，Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據，專注于視覺問答（VQA）任務。

2.1.2 數據重組

數據重組涉及將現有數據轉化并重組為更多樣化的變體，從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境，增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來，利用LLM的策略也開始出現。例如，Chen等人【27】提出了Disco方法，該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢，協同標注不僅降低了標注成本，還同時提升了標注性能，從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架，通過評估LLM的標注不確定性，策略性地分配數據點給人類或LLM進行標注。

**2.2 數據合成

另一方面，數據合成旨在從頭或基于生成模型創建全新的數據，這些數據與真實數據的分布相似。近年來，隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步，合成數據的質量和生成效率取得了顯著進展。根據LLM的需求，本文將數據合成方法分為三大類：通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾通用模型蒸餾涉及利用功能強大的通用模型，通常具有更多參數和更優性能，如StableVicuna、ChatGPT和GPT-4，來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種，例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明，通過利用GPT-3.5生成教科書和習題的全面內容，一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型，也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如，在代碼編程領域，領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域，Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答，同時確保其準確性和多樣性。此外，行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。

2.2.3 模型自我改進

模型自我改進是指模型生成更高質量的數據以提升其能力。例如，利用現有指令調整模型，并促使其以特定風格（如維基百科風格或問答風格）改寫網絡上的文檔，可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能，極少需要人工干預。

結論

數據合成和增強對于推動LLMs的發展至關重要，特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術，系統地探討了這些技術在LLM整個生命周期及核心功能中的應用，并構建了一個連接現有研究的框架，突出關鍵方法，闡明其優勢與局限性。我們相信，面向LLM的數據合成和增強方法的進步將開辟新的可能性，以提升數據效率、改善任務間的泛化能力，并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎，激發該領域的數據合成和增強的創新與進步。

付費5元查看完整內容

計算流體力學（CFD） · 機器學習 ·

2024 年 8 月 24 日

[付費5元查看完整內容]《計算流體力學中的機器學習最新進展》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文探討了通過機器學習（ML）技術增強計算流體力學（CFD）任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集，然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻，并為前向建模提出了一種新的分類方法：數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外，我們還回顧了逆向設計和控制中的最新ML方法，提出了新的分類，并進行了深入討論。接著，我們重點介紹了ML在CFD中的實際應用，涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外，我們還識別了關鍵挑戰，并倡導未來研究方向來應對這些挑戰，例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南，激發未來進步的洞見。我們得出的結論是，ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析，顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科，它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學（CFD）通過偏微分方程（PDEs）來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果，從而減少實際實驗的高昂成本，并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展，CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本，捕捉湍流等次級動力學的困難，以及數值算法的穩定性問題等。另一方面，ML因其從觀測數據中學習模式和動力學的能力而聞名，最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合，提供了一種變革性的方式來增強CFD實踐（見圖1）。隨著ML領域的迅速擴展，研究人員越來越難以跟上最新進展。因此，本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上，已有一些關于ML在CFD領域應用的綜述。然而，這些綜述大多有以下兩點局限性：1）僅限于早期嘗試。例如，Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法，強調了動態系統和混合方法。同樣，Vinuesa等人從CFD領域的角度探討了ML的前景方向，如直接數值模擬、大渦模擬（LES）、湍流譜圖、雷諾平均Navier-Stokes（RANS）模擬以及降維方法。然而，他們僅回顧了2021年前PDEs的早期ML應用。2）概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML，強調了四個關鍵挑戰，但忽略了系統分類及其在這一領域的潛在應用。同時，Lino等人大致區分了物理驅動和數據驅動的方法，并討論了一些方法學上的限制，但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在，但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示，組織如下：

在第2部分中，我們介紹了CFD的基本概念和知識，并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后，我們系統地回顧了近五年的文獻，將所選研究分為三個主要類別，并在圖4中展示：數據驅動的代理模型（第3部分），依賴于觀測數據進行訓練；物理驅動的代理模型（第4部分），將選定的物理先驗整合到ML建模中；以及ML輔助數值解（第5部分），部分替代傳統的數值求解器，以在效率、準確性和泛化之間實現平衡。此外，我們介紹了逆向設計和控制問題的設置（第6部分），這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數，如初始和邊界條件，以達到特定的設計目標；后者則通過施加時變外力來控制物理系統以實現特定目標。

接著，第7部分討論了這些方法在關鍵科學和工程領域中的應用，展示了它們的影響和潛力。最后，第8部分探討了當前技術狀態中的關鍵挑戰和局限性，并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注，通過豐富的CFD基礎知識和先進的發展，激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比，我們的綜述具有四個獨特特點：（1）最新總結。本綜述基于當前的發展狀況，重點關注2020年至2024年的最新論文。相比之下，現有的相關綜述均在2022年之前發表。（2）創新分類。本綜述系統地回顧了CFD領域中的ML方法，并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。（3）全面討論。本綜述提供了全面的討論，涵蓋背景、數據、前向建模/逆向設計方法和應用，幫助研究人員快速而全面地理解該領域。（4）未來指導。我們的工作總結了CFD的最新進展，強調了當前CFD研究中的挑戰，并為該領域未來的工作提供了指導和方向，例如科學基礎模型。廣泛影響。我們的綜述的影響體現在兩點：（1）對科學相關社區。我們的綜述總結了CFD中的有效ML方法，可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。（2）對ML社區。我們的綜述還可以為ML研究人員提供指導，幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法，以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展，具有重要的影響。根據其對空間離散化的處理方式，這些模型可以大致分為兩類：1）依賴離散化的方法，2）獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構，并設計相應的模型架構，而后者則不依賴離散化技術，而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力，但它們也面臨一些挑戰，如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此，將物理先驗知識融入模型至關重要，這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類：1）物理信息驅動，2）約束信息驅動。前者將物理知識轉化為神經網絡的約束，確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感，將這些方法整合到神經網絡的訓練過程中。

結論

總之，本文系統地探討了利用機器學習（ML）在計算流體力學（CFD）中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法，并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外，我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言，顯而易見的是，ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

深度學習 · 人工智能 · 深信度卷積網絡 · 博士論文 ·

2022 年 8 月 4 日

[付費5元查看完整內容]《現代深度學習的均衡方法》卡內基梅隆大學2022最新155頁博士學位論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

深度學習（DL）已經成為現代人工智能中最成功和最廣泛采用的方法之一。伴隨著這些成功的是越來越復雜和高成本的架構設計，其基礎是一個核心概念：層。本論文對層的這一基本作用提出了挑戰，并深入介紹了一種新的、無層的深度學習范式，該范式將輸出計算為動態系統的固定點：深度均衡（DEQ）模型。

首先，我們介紹了深度均衡模型的一般表述。我們討論了這些模型如何表達 "無限層"的神經網絡，解耦前向和后向通道，但成本和設計復雜度只有一個傳統層--即使在一些最具競爭力的背景中（如語言建模、語義分割等）。

其次，我們進一步討論這種均衡方法帶來的挑戰和機遇。我們表明，DEQ的表述揭示了深度學習的許多新特性，這些特性長期以來被傳統的層堆疊方案所掩蓋。利用它們，我們可以訓練和部署這些新的和輕量級的均衡算法，大大補充了深度學習的現有發展，并使我們能夠在最先進的水平上改善多個方面的結果（例如，光流估計）。

DEQ的方法已經在理論和經驗兩端導致了社區中關于隱性深度學習的新研究領域（例如NeurIPS 2020教程）。因此，在本論文的結尾，我們討論了未來的工作如何進一步利用這種均衡的觀點來建立更多可擴展的、高效的和準確的下一代DL算法，包括對科學計算的算法，其特點是對復雜的、高維的動態系統的解決。

第1章簡介

在過去的十年里，現代深度學習方法的研究和發展呈現出爆炸式的增長。然而，幾乎所有這些方法（也許是迄今為止的深度學習領域）的核心是一個關鍵的概念和基本單位，沒有一個模型架構師可以避免：層。具體來說，深度模型是通過將許多層堆疊在一起建立的，這就形成了一個巨大的架構，旨在適應一些特定的任務。例如，深度卷積網絡是由幾個卷積層和其他非線性或正則化組件組成的，如ReLU[175]、規范化[13, 110, 246]和dropout[214]。然后，這些組件以多種方式連接起來（如ResNets[96]，U-Nets[195]），以提取特征圖，通常遵循一個復雜的時間表（如何時降采樣/升采樣，多少個階段，每個階段的哪些層）。同時，出現了不同種類的圖層設計，如多頭自注意力[233]，以及圖層[124, 202]。過去幾年中最著名的人工智能應用，如高分辨率圖像合成[118]、蛋白質結構預測[117]和文本生成[32]，都包含了數百、數千或更多的這些基本單元。

在高層次上，這種基于層的觀點將深度網絡視為一個巨大的計算圖，有規定的、詳細的指令，說明我們如何從輸入中計算輸出（就像一個計算器）。然而，這產生了許多挑戰。首先，作為一個超參數，構建深度網絡的深度和連接性往往是模型設計師的責任。這迅速增加了這些模型的設計、使用和測試的復雜性，特別是當它們變得龐大時[96, 220, 233, 250]。其次，這些網絡都依賴于一種叫做梯度反向傳播的算法[89, 197]來訓練。這需要深層網絡在正向傳遞中記憶所有中間層的激活，以反向遍歷計算圖[46]。這經常會造成內存占用的瓶頸，因為內存消耗會隨著架構深度的增加而迅速增長，并達到硬件的極限。第三，這樣的層構成使得深層網絡相當缺乏彈性，因為無論輸入的復雜程度如何，它們都要進行同樣的計算量（例如，見圖1.1）。例如，我們不能簡單地跳過一個層（除非我們添加更多的層來幫助我們控制，比如SkipNet[238]），因為任何這樣的任意移除都會使模型的功能與它的訓練方式不同。

圖1.1: 想象一下，一輛自主車輛。當它接收和處理流式攝像機幀時，每個幀都需要經過完全相同的深度網絡計算圖（比如20層）。然而，輸入是高度相關的，幾乎是相同的。基于層的深度學習導致該模型不斷重復相同的工作量。來自Cityscapes[53]數據集的圖像。

盡管有這些缺點，層還是被深深地堆積起來，并被認為是現代深度學習中不可或缺的，原因如下。

表達性。長期以來，人們認為由許多層組成的模型為復雜的輸入輸出映射（經常是非線性的）奠定了基礎[89, 102]。
特征層次結構。一個常見的觀點是，層代表決議。例如，Lee等人[136]假設，不同的層次提取圖像的不同抽象部分。
可擴展性。為了建立大規模的模型，我們依賴于靈活連接大量圖層的能力；非常深入的訓練已經被證明是可行的，如規范化[13，110]，剩余連接[96]等技術。

本論文旨在重新審視層的這個基本概念。我們要解決的一個關鍵問題是：我們到底需不需要層？

我們提出了一種新的、隱含的、無層的深度學習方法，被稱為深度均衡（DEQ）模型。通過這種均衡方法，我們基本上提出了一種做深度學習的不同方式，以及如何將這些深度網絡作為算法（而不是計算器）來構建和分析。這些DEQ模型代表了無限深的神經網絡，但只有一個單層是隱式建模的（稍后定義）。我們表明，深度學習中的這種隱含性使我們即使在沒有層的情況下也能保持上述三個特性（表現力、特征層次和現實世界環境中的可擴展性），同時糾正了傳統DL所遭受的主要缺點（例如，內存占用）。

在本章的其余部分，我們首先闡述了 "隱性 "在深度學習背景下的含義，以及與此方向相關的先前工作概述。然后，我們提供了本論文的總體路線圖，我們希望它能作為深度隱含層的過去、現在和未來的藍圖。

1.1 深度學習的隱性觀點

在這一節中，我們將對過去關于深度學習方法的隱性和連續性的相關工作進行簡要的調查。正如將在第二章介紹的那樣，DEQ模型可以被看作是一個無限深的網絡，但也是一個單層網絡，需要注意的是這一層是隱性定義的：給定輸入x和一個（通常是參數化的）函數F，輸出z?被定義為解決一些非線性方程的值，即

特別是，幾十年來，深度學習界一直在探索隱性狀態的隱性建模，尤其是在遞歸網絡背景下。例如，Pineda[186]和Almeida[4]研究了用于訓練遞歸動力學的隱式分化技術，也被稱為遞歸反向傳播（RBP）。在這些情況下，RNN被結構化（例如，通過Lyapunov函數），因此它們的推理階段是一個可證明的收斂動態系統，人們需要解決RNN序列的穩定狀態（它在每個時間步驟吸收相同的輸入）。在這些工作之后，Liao等人[144]還將RBP理論擴展到基于諾伊曼級數和共軛梯度的更穩定和更有效的變體（并主要研究了它們與這些RNN中截斷反向傳播-通過時間（TBPTT）的關系）。Zhang等人[263]同樣也在RNN架構內執行固定點條件。然而，這些RNN只能應用于極其有限的設置，即每個時間步長都有相同的輸入，這在實踐中很少發生（如文本數據、時間序列等）。

網絡設計的隱性方法最近在非常不同的形式和背景下重新引起了人們的興趣。Amos和Kolter[6]、Gould等人[90]、Johnson等人[116]都提議通過優化問題（即arg min算子）進行區分，從而將公式（1.1）視為優化（如KKT）條件。例如，Amos和Kolter[6]提出在深度網絡的每個單獨的層中解決一個二次方程序（QP）；例如，給定前一層的隱藏狀態z[i]，OptNet[6]的第i+1層計算以下QP：

其中z[i]是優化（隱藏）變量，Q?0，q，A，b，G，h是定義這個QP優化層的參數。通過這個層的微分立即從公式（1.1）（當Q?0時）中得出，因為我們可以通過其KKT方程K（z?, ν?, λ? ）=0進行微分，其中ν, λ是對應于約束條件（1.3）和（1.4）的拉格朗日對等變量。本著類似的精神，Wang等人[237]嵌入了一個基于優化的邏輯結構學習層；de Avila BelbutePeres等人[60]，Qiao等人[188]使用這些更多的結構層來構建可微分的物理引擎（例如，人們可以將約束的剛體動力學模擬為深度自動編碼器網絡[60]中的線性互補問題（LCP）[52，54]層）。El Ghaoui等人[69]從廣義的well-posed意義上看這種隱含層，并專注于通過拉格朗日方法訓練小模型。這些優化層通常作為一個專門的層嵌入到傳統的深度架構中，為特定的問題領域定制，其強大的結構假設（如QP[6]）大大限制了其表達能力和可擴展性。

另一個相關的主線將公式（1.1）制定為微分方程，從而代表一個連續的深度神經網絡。這一觀點首先由LeCun等人[133]進行理論研究，后來的工作提出將ResNet[96]架構解釋為常微分方程（ODE）求解器的離散化，以利用其可逆性和架構變體。最近，這種解釋被神經ODE方法[45]大大推進，它直接使用黑盒ODE求解器和鄰接方法，通過ODE解決方案進行直接微分（因此，與自動微分軟件包集成）。具體來說，神經ODE解決了隱藏狀態z的以下初值問題（IVP）：

其中fθ是一個參數化的層，可以采取靈活的形式，（即計算這個連續網絡相當于把這個層從t=0到T進行整合）。等價地，這些ODEs承認一個隱含的一般解決方案F(x, z?, T)=0。這個神經ODE表述后來被改進[67, 121]，并成功地應用于許多場合，如流體動力學[35]和連續生成建模[91]。然而，由于解決高維ODEs的固有挑戰，這些方法還不是很有效[67, 77, 121]，也不能擴展到更現實的領域（例如，僅CIFAR-10 32×32圖像分類就需要約100次ODE求解器迭代）。

我們在這篇論文中提出的工作對公式（1.1）采取了一種新的方法。雖然將其定性為優化條件會產生基于優化的層；微分方程會產生神經ODE；但我們引入了一個定點方程表述，產生 "無限層"均衡特征狀態；即對于一個層fθ，F（z?，x）=fθ（z?；x）-z?=0，因此我們將由此產生的算法稱為深均衡模型。有了這樣的表述，我們表明，DEQ模型。

1.恰好使用一個這樣的獨立隱含層fθ作為整個架構（與傳統的層堆疊相比）。

2.在眾多現實任務中表現出競爭性，甚至更好，如語言建模、圖像分類、語義分割、隱性神經表征和光流估計。

3.揭示了長期以來被傳統深度學習埋沒的眾多新特性（如定點循環），使我們能夠以內存和計算效率的方式計算深度網絡。

我們表明，深度均衡模型體現了一種完全隱含的深度學習架構，與之前的這些探索不同，整個架構只有一個隱含層，并且在最具競爭力的水平和規模上工作。圖1.2對比了傳統的（顯式）深度學習和隱式的DEQ模型，前者堆積了大量的運算符，后者解決了一個底層動態系統來模擬輸出。

圖1.2：傳統的深度神經網絡與隱式深度均衡（DEQ）模型。深度均衡模型定義了一個底層動態系統，可以采取任何解算器路徑（如牛頓、準牛頓等）導致固定點。

這篇論文首次深入分析了這種新方法的好處、應用、擴展和面臨的挑戰。我們證明了DEQ模型對隱式建模的性能、可擴展性、效率、靈活性、表示能力等方面帶來的重大改進。我們對隱含性的研究為我們提供了一種通過有限的計算對無限復雜的概念（例如，固定點的概念）進行建模的方法，無層的方法提出了一種令人興奮的深度學習計算的新范式。

1.2 我們的貢獻

在本論文的第一部分，我們將討論多種發現和動機，最終形成深度均衡模型的基本原理（即它們的通用公式）。雖然隱含性之前已經在深度學習中被利用為優化驅動的轉化（第1.1節），但我們從現有深度學習的成功（和前提）及其趨勢出發：非常深的--可能是無窮層的--神經網絡。更具體地說。

1.在第二章中，我們將推導出無限深的神經網絡如何能被一個計算層的固定點的均衡網絡所表示。我們將為這種單層方法的普遍性提供論據，（重要的是）這種定點計算如何通過使用隱含函數定理（IFT）直接在最終輸出中進行區分。我們進一步討論這對DL訓練的前向和后向通道的影響（這將在第五章、第六章和第七章中得到大量的利用。

2.鑒于DEQ模型的一般表述，我們將在第2章和第3章中展示它們如何在大規模的現實環境中涵蓋廣泛的現代和復雜的層設計（例如，多頭自我關注[233]）。在第三章中，我們將研究如何使放棄了深層序列的均衡網絡能夠代表特征層次結構。我們將在第二章的DEQ構造的基礎上進行大幅擴展，引入同步均衡建模；也就是說，我們直接在所有特征尺度上同時優化穩定的表征，并為輔助損失和復合訓練程序提供自然接口。

因此，本論文的第一部分將大量強調這些均衡方法的表征能力以及它們與傳統深度學習的根本區別。我們希望傳遞的一個強有力的信息是："你只需要一層"。

在本論文的第二部分，我們將更深入地討論深度學習的這種隱含觀點的含義。由于這些均衡網絡將訓練過程的前向和后向解耦（即，人們甚至可以只用最終的輸出來訓練模型），我們將證明這導致了傳統神經網絡以前沒有面臨的幾個新的挑戰和機會。特別是：

第四章將首先討論均衡方法引入的一些在傳統深度學習方法中不存在的新問題，如收斂穩定性和求解器的選擇（和成本）。我們將提供一些經驗證據，反映DEQ模型如何隨著訓練的進行而變得越來越不穩定（即越來越 "深"），以及這如何惡化了其他幾個問題，同時概述了一個原則，即根據這些模型的隱含性，通過基于正則化的解決方案穩定DEQ模型的動態系統。
深度均衡模型的單層結構可以將這些模型從昂貴的鏈式規則反向傳播過程中解放出來，這些過程構成了傳統深度學習的學習開銷。在第五章中，我們介紹了近似梯度的概念（又稱 "幻影 "梯度或不精確梯度），它使我們能夠極其有效地近似上述隱含函數定理（IFT）。我們將從理論上論證這些近似的可行性，這些近似使均衡模型的后向傳遞速度提高了5倍或幾乎是免費的，這是傳統神經網絡完全不具備的特性。
在并行線程上，這些隱含網絡還能使層fθ的內部結構（控制表征能力）與固定點的實際計算方式（影響推理時間效率）脫鉤，后者通常是通過Broyden方法[34]等經典技術。在第6章中，我們展示了可以利用這種解耦，并使用一個可以以無監督方式進行端到端訓練的定制神經解算器來大幅提高這個固定點的計算。

結合這些關于DEQ模型的討論，在本論文的第三部分，我們將展示這些見解如何轉化為各種應用和擴展（除了第一和第二部分的大規模設置之外）。我們還將在實踐中展示DEQ模型在各種數據模式下的一個關鍵優勢：自適應計算。雖然傳統的深度網絡需要經歷一個規定的計算圖，而不管輸入的復雜性如何，我們表明，均衡方法可以從高度相關的數據中大大受益，并有效地循環計算以攤銷成本。有了上述所有的技術：

在第七章中，我們將表明，基于DEQ的方法在內存上和計算上的效率比最好的傳統深度網絡在光流估計任務上的SOTA性能要高出數倍，同時提高了SOTA性能。我們提出DEQflow作為一個新的框架，與之前的建模工作兼容，并完全取代了現有的遞歸/滾動程序。
在第八章中，我們將表明這些隱含模型能更好地學習圖像、音頻、視頻和三維模型的隱含神經表征（INR），同時訓練時間和內存成本也大大降低。

在第九章中，我們對所有這些貢獻進行了總結，同時討論了一些與深度學習這一新范式相關的有趣的 "老問題"。例如，傳統的神經網絡是由人腦中的神經元激發的。DEQ模型在任何意義上都不那么 "生物 "嗎？再比如，這些動態系統視角的深度學習如何能最好地應用于現實生活中的動態系統？我們在最后一章中對這些問題（以及未來的研究）提出一些見解。

通過這些理論和經驗上的探索，我們希望能夠提出一種不同形式的深度學習，就像傳統上對這一主題的研究一樣。層對于深度學習來說是必要的嗎？這篇論文認為答案是否定的。或者說，至少它們不是全貌。我們將表明，這些隱性均衡方法是一個重要的研究議程，因為目前的深度學習有一些必須克服的基本天花板，而且DEQ模型在設計上經常更好。

本論文中包含的這些開創性工作挑戰了長期以來的觀點，即基于層的分層架構是現代深度學習不可或缺的組成部分，并導致了一個新的和快速增長的社區，稱為 "隱式深度學習"，以及NeurIPS 2020官方教程 "深度隱式層"[68]。

1.2.1 其他貢獻

我們在此也簡要總結一下研究生學習期間的其他貢獻，這些貢獻在論文中沒有廣泛討論。許多工作（直接或間接）導致了本論文所關注的隱式深度學習的工作。

序列建模[15, 16] 。雖然遞歸網絡長期以來一直是序列任務的主導力量和默認工具包，但我們重新審視了序列建模的卷積方法。我們提出了卷積和遞歸架構在眾多序列任務（從合成任務到極大規模的任務）中最廣泛的系統比較之一[16]。具體來說，我們提煉了現代ConvNets中的最佳實踐，如剩余塊和擴張，以描述一個簡單的時間卷積網絡（TCN）。我們的實驗結果表明：1）TCN模型的性能大大超過了LSTM和GRU等通用的遞歸架構；2）RNN的 "無限序列內存 "優勢在實踐中基本不存在，而TCN表現出比相同容量的遞歸架構更長的內存。自引入以來，所提出的通用TCN模型由于其各種優點（如：并行性、良好的記憶保持），對現代現實時間序列的建模產生了驚人的影響。并行性、良好的記憶保持性），至今仍在許多領域（尤其是存在極長距離信息的領域）保持著最先進的水平，如語音分離[153, 159]、語音識別[51]、語音增強[182]、基因組學建模[71]、文本分類[111]、唇讀[1]、金融時間序列[203, 243]、動態推薦系統[255]、人類軌跡預測[173]，以及更多。

深度學習架構[17, 228] 。我們還介紹了對前沿的深度序列模型的架構特性的研究。在Bai等人[17]中，我們提出了trellis網絡（TrellisNet），它是一種特殊的TCN，其特點是權重類型化和直接從輸入層進入深層的剩余連接。但另一方面，我們證明了截斷的遞歸網絡等同于在其權重矩陣中具有特殊稀疏結構的trellis網絡。因此，TrellisNet架構連接了兩個主要的、看似不相容的序列模型家族：遞歸和卷積網絡，并允許我們結合兩個世界的最佳實踐。此外，在Tsai等人的文章[228]中，我們從內核平滑器的角度研究了變形器，并對這些模型的自我注意機制和位置編碼的各個組成部分進行了深入剖析。

不對齊的多模態機器學習[227] 。多模態時間序列建模的一個主要挑戰是融合來自多種模態（如視覺、聲學和文本時間序列）的特征表示，這些特征表示是不同步的，通常需要費力的人工對齊。我們提出了多模態轉換器（MulT）[227]，它使用跨模態的注意力來潛移默化地將未對齊的數據流從一種模態調整到另一種模態。這大大降低了對仔細的特征工程的要求（這經常涉及到大量的領域知識），我們表明基于注意力的多模態學習可以比之前的方法持續提高5%-15%。

用于科學計算的深度學習[30, 205] 。我們提出了圖形變換器神經網絡力場（GTFF）[205]作為一種計算算法，用于直接預測材料系統中分子動力學計算機模擬的原子力。盡管存在精確的方法來計算基本的原子力和行為，但它們也是非常昂貴的，因為應用這種方法需要巨大的計算資源（如每個分子需要幾天或幾周）。相比之下，我們的基于圖形變換器的方法可以快幾十萬倍，同時幾乎不損失精度。這一貢獻是作為Kaggle預測分子特性競賽的一部分[30]，我們的方法在2,737個參賽隊中贏得第一名。

付費5元查看完整內容

多任務學習 · 機器學習 · 人工智能 ·

2021 年 4 月 6 日

[付費5元查看完整內容]《多任務學習》最新綜述論文，20頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式，其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。

本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面，給出了MTL的定義，并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類，并討論了每種方法的特點。

為了進一步提高學習任務的性能，MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時，我們回顧了在線、并行和分布式的MTL模型，以及維數降維和特征哈希，揭示了它們在計算和存儲方面的優勢。

許多現實世界的應用程序使用MTL來提高它們的性能，我們在本文中回顧了代表性的工作。最后，我們對MTL進行了理論分析，并討論了MTL的未來發展方向。

引言

人類可以同時學習多個任務，在這個學習過程中，人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如，根據我們學習打網球和壁球的經驗，我們發現打網球的技巧可以幫助學習打壁球，反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式，受人類這種學習能力的啟發，它的目標是共同學習多個相關的任務，使一個任務中包含的知識能夠被其他任務利用，從而提高手頭所有任務的泛化性能。

在其早期階段，MTL的一個重要動機是緩解數據稀疏問題，即每個任務都有有限數量的標記數據。在數據稀疏性問題中，每個任務中標記數據的數量不足以訓練出一個準確的學習器，而MTL則以數據增強的方式將所有任務中的標記數據進行聚合，從而為每個任務獲得更準確的學習器。從這個角度來看，MTL可以幫助重用已有的知識，降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時，人們發現，深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比，它利用了更多來自不同學習任務的數據。有了更多的數據，MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型，從而更好地實現任務間的知識共享，提高每個任務的性能，降低每個任務的過擬合風險。

MTL與機器學習中的其他學習范式有關，包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似，但存在顯著差異。在MTL中，不同任務之間沒有區別，目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能，因此目標任務比源任務起著更重要的作用。總之，MTL對所有的任務一視同仁，但在遷移學習中目標任務最受關注。從知識流的角度來看，遷移學習中的知識轉移流是從源任務到目標任務，而在多任務學習中，任何一對任務之間都存在知識共享流，如圖1(a)所示。持續學習[4]是一個一個地學習任務，任務是有順序的，而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中，每個數據點都與多個標簽相關聯，這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務，那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況，不同的任務在訓練和測試階段總是共享相同的數據。一方面，這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如，排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數，可以用于多標簽學習，但它不適合MTL，因為不同的任務擁有不同的數據。另一方面，這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如，在2.7節中討論的一個MTL問題中，每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分，不同的患者/任務不應該共享生物醫學數據。總之，多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的，因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外，多視圖學習是機器學習的另一種學習范式，每個數據點與多個視圖相關聯，每個視圖由一組特征組成。雖然不同的視圖有不同的特征集，但是所有的視圖是一起學習同一個任務的，因此多視圖學習屬于具有多組特征的單任務學習，這與圖1(c)所示的MTL是不同的。

在過去的幾十年里，MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來，并在其他領域得到了廣泛的應用。此外，對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面，首先給出了MTL的定義，然后將不同的MTL算法分為5類: 特征學習方法，又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后，我們討論了MTL與其他學習范式的結合，包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務，我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據，引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式，在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度，對MTL的相關工作進行回顧。最后，討論了MTL的未來發展方向。

付費5元查看完整內容

游客

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

大型語言模型

智能體通信

模型上下文協議（Model Context Protocol, MCP)

分布式智能

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

1. 引言

**1.1 基于 LLM 的智能體式 AI 與多智能體系統的興起

**1.2 智能體間通信在復雜 AI 工作流中的關鍵作用

**1.3 模型上下文協議（MCP）：一種通用互操作性標準

**1.4 綜述范圍與貢獻：連接設計模式、LLM 智能體與 MCP

相關內容

1 引言

1 引言

模型層級優化

系統層級優化

硬件層級優化

1 引言

2 分類

**2.1 數據增強

**2.2 數據合成

結論

數據驅動的代理模型

物理驅動的代理模型

結論

摘要

第1章簡介

1.1 深度學習的隱性觀點

1.2 我們的貢獻

1.2.1 其他貢獻

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

1. 引言

**1.1 基于 LLM 的智能體式 AI 與多智能體系統的興起

**1.2 智能體間通信在復雜 AI 工作流中的關鍵作用

**1.3 模型上下文協議（MCP）：一種通用互操作性標準

**1.4 綜述范圍與貢獻：連接設計模式、LLM 智能體與 MCP

相關內容

1 引言

1 引言

模型層級優化

系統層級優化

硬件層級優化

1 引言

2 分類

**2.1 數據增強

**2.2 數據合成

結論

數據驅動的代理模型

物理驅動的代理模型

結論

摘要

第1章 簡介

1.1 深度學習的隱性觀點

1.2 我們的貢獻

1.2.1 其他貢獻

第1章簡介