當前假新聞已成為全球性嚴峻挑戰,社交媒體快速傳播錯誤信息的能力加劇了這一問題。本文提出基于大語言模型(LLM)能力的新型特征計算流程構建方法,應對假新聞檢測的緊迫挑戰。核心目標在于優化可疑文本屬性轉化為分類適用數值向量的過程,從而填補系統整合語言線索與深度上下文嵌入的研究空白。在英語(FakeNewsNet)和烏克蘭語(真假新聞)數據集上的實驗表明:該方法以88.5%(英語)和86.7%(烏克蘭語)準確率超越四個基線模型。關鍵發現顯示:將復述比率、情感比率等數值指標與LLM嵌入結合,可提升欺詐文章檢測召回率,較標準技術平均提高2-3個百分點。這些結果表明所提特征計算流程在保持模型決策透明度的同時顯著提升檢測精度。研究最終強調:系統化設計的數值特征對LLM嵌入的補充至關重要,為構建更可靠、適應性強且可解釋的假新聞檢測系統指明路徑。
假新聞——偽裝成可信新聞的虛假或誤導性內容——在數字時代已發展為全球性重大威脅[1,2]。超過36億社交媒體用戶使未經核實信息突破傳統編輯監管快速傳播,加速虛假敘事擴散[2]。2016年美國總統大選[3]與2019年印度大選[4]等事件印證了錯誤信息影響輿論的速度。例如新冠疫情期間,關于病毒及疫苗的有害謠言在網絡蔓延,削弱公共衛生信息公信力。研究表明假新聞比真實新聞傳播更快更廣[5],可能加劇社會極化、侵蝕主流媒體信任[6]甚至煽動暴力[7,8]。過去十年研究者聚焦機器學習(ML)與自然語言處理(NLP)方法實現大規模虛假信息識別[9]。早期嘗試將假新聞檢測形式化為二分類問題——僅通過文本分析區分真假新聞[2]。傳統方法采用樸素貝葉斯、支持向量機(SVM)或隨機森林等算法,結合n元語法或專業詞典等特征工程,有時取得較好效果[10]。然而假新聞制造者適應偽裝能力意味著捕捉深層語義線索仍是開放挑戰[7,11,12]。
深度神經網絡(特別是卷積神經網絡CNN與長短期記憶網絡LSTM)被提出用于自動學習潛在文本表征。盡管LSTM在某些基準任務中準確率超99%[10],但綜合實驗證實:除非融入更豐富上下文理解,高度復雜或領域特定的假新聞仍能規避這些模型[7,8]。同時詞嵌入技術(如TF-IDF、Word2Vec和FastText)通過將單詞映射為稠密向量改進了詞袋模型[13]。盡管能捕獲語義關系,這些靜態嵌入仍難以應對多義詞與語境變化[1]。基于Transformer的模型開創了上下文嵌入新范式:雙向Transformer編碼器(BERT)[14]可捕捉微妙語言線索,尤其在領域特定任務微調后。研究證實BERT在包括虛假信息檢測的多個NLP任務中顯著超越傳統基線[15]。但在實際假新聞場景(尤其多語言環境)部署BERT仍受限于領域數據匱乏與資源開銷[16]。
大語言模型(LLM)如OpenAI的GPT-4[17]與Meta的LLaMA[18]的興起,為利用海量預訓練語料獲取高級文本表征提供機遇。初步研究表明LLM嵌入能識別小模型無法察覺的微妙虛假信息線索[19]。然而高計算需求與LLM決策解釋難題仍未解決[20,21]。對此可解釋人工智能(XAI)領域研究提出將深度學習預測能力與可解釋機制結合以闡明分類結果[22]。但多數文本分類XAI方法仍難將內在特征映射為終端用戶可理解的文本線索。基于這些挑戰,本研究引入新型特征計算流程構建方法,借鑒可解釋LLM流程的洞見:將檢測分解為合成可疑特征→數值化計算特征→構建魯棒模型→生成透明結論的鏈式任務。
本研究目標是通過整合LLM驅動的特征提取選擇框架與闡明特征重要性的可解釋策略,增強假新聞檢測能力。旨在證明該流程能提升多語言文本數據的準確性與可解釋性。主要貢獻如下:
? 受可解釋AI研究啟發,提出假新聞檢測特征計算流程構建方法
? 在傳統LLM對比(TF-IDF/Word2Vec/BERT)基礎上,新增使用大語言模型計算解釋特征的顯式步驟,彌合原始嵌入與透明決策的鴻溝
? 在雙數據集驗證LLM驅動特征實現最高精度(英語88.5%/烏克蘭語86.7%),并闡釋框架如何揭示文本被判定虛假的原因
本文結構如下:第2章精煉相關工作,闡明方法如何融合現有特征提取技術與可解釋性;第3章詳述新提出的任務分解架構、數據流及特征計算優化機制;第4章報告實驗結果(含現有方法定量對比);第5章探討優勢缺陷與開放性問題;第6章展望未來(聚焦數值結果、現存挑戰及研究方向)。
圖1:本方案整體工作流程
融合基于LLM的嵌入表示、數值化特征計算及最終專家結論模板。圖示闡明本方法的四大核心任務:
(i) 特征合成 → (ii) 特征計算流程構建 → (iii) 機器學習模型建立 → (iv) 專家結論模板生成
展示原始文本與衍生特征在各階段的流向。
物聯網與人工智能的進步推動數字孿生(DT)從概念構想邁向可實施現實。然而,標準化框架的缺失使學術成果向工業轉化復雜化。本文基于作者先前建立的支撐標準化DT開發的功能性與信息性需求體系,聚焦關鍵維度:可移植性。現有DT研究主要關注資產遷移,而"虛轉實遷移"與"實轉虛遷移"(在仿真環境與現實操作間傳遞知識)對DT全生命周期管理至關重要。該過程的核心挑戰在于校準"現實鴻溝"——仿真預測與實際結果間的偏差。本研究通過將單一現實鴻溝分析(RGA)模塊集成至現有DT框架,探究其管理虛實雙向遷移的效能。數據管道將RGA模塊與DT框架組件(歷史存儲庫、仿真模型等)連接實現集成。卡內基梅隆大學人行橋案例展示了本方法與現有框架的不同集成層級性能。當RGA模塊與完整數據管道全面實施時,該方法能在無損效能前提下實現仿真環境與現實操作的雙向知識遷移。
物聯網(IoT)與人工智能(AI)技術的迅猛發展,正將數字孿生(DT)從愿景轉化為實體。DT作為物理系統的虛擬鏡像,通過實時數據更新反映系統結構、環境與行為,指導價值驅動型決策。其本質在于虛擬與物理世界的雙向交互(美國國家科學院2023)。這些虛擬構造通常通過模型集實現,其能力超越依賴有限信息源的傳統建模方法,涵蓋精確復制、增強仿真與高級可視化,共同構建物理實體在虛擬空間的多維表征。鑒于土木工程領域應用場景廣泛(如結構健康監測、基礎設施管理),探索DT如何革新任務執行與決策流程的研究日益增長。但行業標準化框架缺失阻礙學術成果轉化——各應用場景根據需求定制化DT技術,導致領域碎片化,迄今未形成普適定義與計算框架。亟需精確定義支撐DT的基礎需求,以引導開發通用框架滿足多元利益相關方訴求。
Ma等(2023)以資產維護為切入點奠定路線圖基礎——該領域在土木工程中具普適性且關鍵。資產維護不僅應用廣泛,更因DT能提升其精確性、效率、協同決策及從被動響應向預測性維護(PMx)轉型的潛力而成為理想載體。該研究通過PMx技術綜述,識別并定義支撐DT自動化的信息需求(IR)與功能需求(FR)。這些需求構成PMx流程中各利益相關方的責任認知基礎,明確系統信息獲取與功能實施路徑。共享框架確保各方在角色、責任與期望上協同,優化協作流程并提升PMx系統效能(Flanigan等2022)。為獲跨領域認可,PMx型DT必須滿足所有既定IR與FR。Ma等確立14項基礎IR與FR,涵蓋物理屬性集成、可解釋性及魯棒性等要素。鑒于需求規模,建議漸進式推進實施。
可移植性作為關鍵缺失需求,指PMx系統跨資產或變工況自適應預測能力。該特性對計劃采用DT進行機群管理的行業至關重要。但可移植性不應局限于資產遷移。鑒于DT最初被構想為引導資產全生命周期的整體方案,不同生命周期階段(如設計到運營)的知識遷移同等重要(Grieves與Vickers 2017)。階段間知識遷移涉及兩類挑戰:"虛轉實遷移"與"實轉虛遷移"(Müller等2022)。領域知識遷移的難點在于"現實鴻溝"——仿真環境與現實世界的差異。DT不僅是分析預測工具,更是實時映射物理系統的精細虛擬模型。仿真模型各組件相較現實的微小偏差會累積導致顯著結果差異(Stocco等2023)。缺乏識別、測量與管理現實鴻溝的有效方法仍是阻礙可移植性的主要障礙。
本研究探究在現有DT框架集成現實鴻溝分析(RGA)模塊的影響,旨在驗證該集成能否實現仿真與現實操作間的知識遷移。為具象化分析,將方案融入Gratius等(2024)的DT框架。針對跨領域知識遷移的現實鴻溝挑戰,本方法具三大特征:首先采用置信度方法量化單體資產的仿真-現實數據鴻溝;其次利用量化鴻溝修正仿真數據以更準確反映現實資產(實現虛轉實遷移);最后通過逆向應用量化鴻溝至關鍵工況采集的現實數據,擴展歷史存儲庫知識庫(消除現實偏差影響,實現實轉虛遷移)。該方法在卡內基梅隆大學紐厄爾-西蒙鋼桁架人行橋的工況監測任務中實施。方案與現有框架的集成分為三級(集成度LoI),涵蓋從基礎框架到RGA模塊與完整數據管道的全面實施。LoI對比表明本方法能在無損效能前提下同步實現虛實雙向遷移。
為破解軍事智能裝備預測性維護中智能化與網絡化程度低、物理模型構建困難等問題,本研究針對人工智能技術在軍事智能裝備中的應用框架、關鍵技術及保障決策方法展開探索。通過將預測性健康管理(PHM)系統架構融入軍事智能裝備健康管理體系,充分發揮人工智能全域通信、泛在感知與自主學習等核心能力,實現軍事智能裝備健康管理的數據驅動化、智能化和網絡化轉型。本研究成果可為復雜戰場環境下軍事智能裝備保障提供參考路徑,有效降低運維成本,持續提升保障效能。
本文重點研究人工智能技術(AIT)在機電控制系統(MECS)中的應用:首先闡釋AIT基礎理論與概念框架,繼而開發現代化AIT核心技術,結合我國現代企業機電控制系統現狀剖析現存瓶頸,最終探究AIT與機械系統的融合路徑,重點討論其在機械電子孔口子系統與電氣控制系統集成中的實踐應用。
"軍事智能裝備"泛指具備預測、感知、分析、推理、決策及控制能力的裝備體系。其在裝備數控化基礎上演進為更高級形態,可顯著提升生產效能與制造精度。其發展關鍵技術涵蓋缺陷檢測與健康維護技術(如高端數控機床、工業機器人),而故障預測與健康管理(PHM)技術正成為未來保障體系的核心方向。隨著軍事智能裝備復雜度提升,構建部件或系統的精確數學模型愈發困難。利用裝備全生命周期多節點歷史數據進行建模,相較物理分析模型更有利于實現PHM功能。鑒于軍事智能裝備向信息化、智能化、網絡化演進,其維護流程也需同步實現網絡協同與智能決策。本研究聚焦PHM與人工智能的融合應用,著力提升軍事裝備智能保障的決策水平、力量編成、方法革新及效能增益,為PHM智能化與網絡化維護模式的落地實施提供支撐。
高端技術的廣泛運用正在深刻改變制勝機理。信息力已超越火力成為戰爭勝負的決定性要素,控制取代摧毀成為壓制對手的首選手段。作戰體系中集群單元的影響力超越傳統集中兵力效果,催生出三大新型作戰樣式:基于集群協同的"新型智能作戰"(亦稱分布式協同戰)、基于多域集群的"集群攻防戰"、以及創新理論體系衍生的"電磁全維戰",三者共同構成未來智能化戰爭的基本形態。
本文闡述圖像處理技術在軍事領域的應用方案。展示數字圖像分析在軍事安全防御中的多元應用場景,重點探討地球地圖與合成孔徑雷達(SAR)數據中的目標檢測、武器識別、關鍵軍事據點/物體/目標的偵測與分割技術。此外,基于數學離散算法自主開發專用軟件,實現SAR數據中物體、區域、地形區域乃至軍事目標的智能檢測。通過數學建模實現圖像分割,并完成計算機軟件自主開發實現圖像分割功能。該技術使軍事指揮員可分析可視化戰場態勢,評估圖像中具體目標的威脅等級。軍事管理部門可據此制定安防策略與防御戰術決策。
摘要:
本綜述研究了經典軟件設計模式如何提升大型語言模型(LLM)驅動的代理型人工智能系統中通信的可靠性與可擴展性,重點聚焦于模型上下文協議(Model Context Protocol,簡稱 MCP)。文章考察了基于 LLM 的代理的基礎架構及其從孤立運行向復雜多代理協作演進的過程,分析了在這一轉變中出現的關鍵通信難題。 本研究重新審視了多個成熟的軟件設計模式,包括中介者(Mediator)、觀察者(Observer)、發布-訂閱(Publish-Subscribe)和代理(Broker)模式,并分析了它們在構建符合 MCP 框架的代理交互結構中的適用性。為闡明這些交互機制,文中提供了概念圖示與形式模型,以描繪通信路徑并優化數據流動。 此外,文章還探討了適應不同代理自主性與系統復雜度的架構變體,并通過實時金融處理與投資銀行等領域的實際應用,展示了這些設計模式與 MCP 如何滿足特定的運行需求。最后,文章總結了當前尚待解決的挑戰、潛在的安全風險,以及推動強健、可互操作且具備可擴展性的大型語言模型多代理生態系統發展的未來方向。
大型語言模型(Large Language Models,LLMs)正經歷一次范式轉變——從作為靜態的信息提供者(通常嵌入于對話型智能體中)演化為具備自主決策與任務執行能力的計算型智能體,即所謂的智能體式人工智能(agentic AI)[1]。這一轉變標志著智能體式 AI 的興起,LLM 被賦予了與外部系統交互、隨時間存儲與提取信息,以及執行可操作行為的能力[2]。
這些增強后的智能體專為完成那些需要迭代推理、規劃、記憶與工具使用的任務而設計——這些能力是傳統 LLM 因上下文窗口受限、易產生幻覺以及難以處理復雜行為序列等限制所無法勝任的[3]。 隨著任務需求超出單一智能體的能力范圍,**由多個 LLM 智能體組成的多智能體系統(LLM-MAS)**應運而生。這類系統通過在多個智能體之間分配認知任務,實現協作式問題求解與專業化分工[4]。這一演進趨勢背后的動因在于:許多現實世界任務過于復雜,單一智能體難以勝任,需要通過有組織的交互實現智能的擴展[5]。關鍵在于,LLM-MAS 的整體表現不僅取決于個體模型的性能,而更取決于這些智能體在架構上如何實現通信、協調與知識共享[6]。
盡管早期的 LLM 在單智能體場景中表現強勁,但在涉及長期依賴、上下文連續性和工具使用策略的任務中卻表現不足。智能體式 AI 通過將 LLM 嵌入具備規劃、記憶和模塊化推理功能的框架中來填補這些能力空缺[4]。然而,即便具備這些增強功能,孤立運行的智能體仍然存在局限。向多智能體協作的轉變,反映出人們認識到:結構化的智能體間通信所產生的分布式智能[7],是應對高復雜度場景的關鍵。最終,LLM-MAS 所展現的智能,更源自系統層級的整體設計,而非任何單一智能體[8]。
在多智能體系統中,尤其是由大型語言模型(LLM)驅動的系統中,智能體之間的通信是協調與共享目標的基石。正是通過通信,智能體才能對齊任務目標、共享上下文理解,并協同規劃行動[5]。 然而,這種依賴通信的方式本身也帶來了巨大的挑戰。在多智能體系統中,相比于單個智能體自身的能力局限,智能體之間交互的復雜性更容易成為導致系統性失敗的根源。常見的問題包括目標不一致、任務驗證機制薄弱、系統擴展性受限、面臨安全攻擊威脅,以及缺乏被廣泛接受的健壯通信協議架構標準。 在基于 LLM 的多智能體系統中,通信不僅僅是信息的傳遞媒介,它更是群體推理的基礎機制。然而,正是這種優勢也成為潛在的弱點:支持智能體協同工作的通信通道,同樣也可能傳播錯誤、放大設計缺陷,甚至暴露系統于諸如“中間人智能體攻擊”(Agent-in-the-Middle, AiTM)等對抗性攻擊之下。因此,LLM-MAS 中的通信存在一個核心張力:它既是智能涌現的關鍵媒介,又是潛在的系統脆弱點——如果設計不當,可能削弱整個系統的安全性與可靠性。 因此,構建具有韌性、語義一致性和結構良好的通信架構不是可選項,而是打造可信、穩健且可持續發展的下一代智能體式 AI 系統的核心前提[11]。
模型上下文協議(Model Context Protocol,MCP)由 Anthropic 于 2024 年底提出,是一種開放的互操作性標準,旨在簡化并統一 AI 模型與外部工具、系統及結構化數據之間的連接方式。MCP 常被稱為“AI 應用領域的 USB-C”,目標是成為通用的接口層,大幅降低在多平臺間集成的復雜性。 MCP 的核心目標是解決長期存在的“N × M”集成瓶頸問題:即每一個 LLM 都需為每種數據源或工具單獨編寫對接代碼,造成工程重復、系統脆弱且維護困難。MCP 提供了一種統一協議,使任意 AI 助手都可以與任何兼容的服務、工具或數據集交互,從而極大簡化集成流程[14]。 MCP 采用客戶端–主機–服務器的架構模式,使用 JSON-RPC 實現通信,支持持久化、具備狀態感知的通信會話。它還定義了嚴格的數據攝取格式、元數據注釋規則、平臺無關的模型協調方式,以及安全的雙向連接機制。這種結構化方法不僅提升了互操作性,也增強了系統的可追蹤性與可管理性。 MCP 更深遠的影響在于推動 AI 基礎設施朝著模塊化、可組合的方向演進。與其構建大量定制化連接導致系統混亂,不如通過 MCP 實現組件之間的清晰解耦,使工具、模型與數據層能夠獨立替換與升級。這種模塊化架構大幅減少工程負擔、加快創新速度,同時為可擴展、可審計且面向未來的 AI 部署奠定基礎。 此外,MCP 還提供了明確的消息結構與通信生命周期定義,支持關鍵的合規性與監控功能——這是在企業級與監管密集型場景中不可或缺的能力。
本綜述融合了大型語言模型(LLM)驅動的智能體式 AI、經典軟件設計方法論,以及新興的模型上下文協議(MCP)三方面的研究進展,目標是為構建魯棒、可擴展的智能體間通信框架提供系統性指導。 本文探討了如何將久經驗證的軟件架構設計模式,適配到以 LLM 為基礎的現代多智能體系統中,并將 MCP 定位為推動互操作性與結構化協作的核心支柱。 通過理論模型與概念圖示,本文分析了通信動態、系統復雜度與數據交換效率。同時,本文還評估了這些設計策略如何在面對智能體自主性提升與系統復雜化時保持可擴展性。 文章還結合實時金融系統與投資平臺等現實應用場景,展示在這些關鍵領域中,強健的智能體協同架構如何滿足運行需求。最終,本文旨在為開發者與系統架構師提供一個切實可行的框架,用于構建安全、高效、可維護的基于 LLM 的多智能體生態系統。
摘要——智能體時代已然來臨,而這一變革的驅動力正是大語言模型的突破性進展。大語言模型(LLM)智能體憑借其目標驅動行為與動態適應能力,很可能成為通往通用人工智能的關鍵路徑。本文通過方法論導向的體系化分類,系統解構LLM智能體系統,揭示其架構基礎、協作機制與進化路徑之間的深層關聯。我們整合了當前零散的研究脈絡,闡明智能體設計原則與其在復雜環境中涌現行為之間的本質聯系。本研究提供了一種統一的架構視角,涵蓋智能體的構建方式、協作機制與演化過程,同時探討了評估方法、工具應用、現實挑戰及多樣化應用場景。通過梳理這一快速發展領域的最新進展,我們為研究者提供了理解LLM智能體的結構化分類體系,并指明了未來研究的潛在方向。本文集可通過
//github.com/luo-junyu/Awesome-Agent-Papers獲取。 **
**關鍵詞——大語言模型,LLM智能體,AI智能體,智能代理,多智能體系統,LLM,文獻綜述 1 引言人工智能正邁入一個關鍵時代,其標志是**大語言模型智能體(LLM Agent)**的崛起——這些由大語言模型(LLMs)驅動的智能實體能夠感知環境、推理目標并執行行動[1]。與傳統AI系統僅被動響應用戶輸入不同,現代LLM智能體通過持續學習、推理和適應,主動與環境交互。這一轉變不僅是技術升級,更是對人機關系的根本性重構。商用LLM智能體系統(如DeepResearch、DeepSearch和Manus)印證了此范式變革:它們能自主完成從深度研究到計算機操作等曾需人類專業知識的復雜任務,同時適配用戶個性化需求。相較于傳統智能體系統[2],基于LLM的智能體在知識來源[3]、泛化能力[4]和交互模式[5]等維度實現了代際跨越。當今智能體的質變源于三大關鍵進展的融合:? LLMs前所未有的推理能力[6],? 工具操控與環境交互技術的進步[7],以及? 支持長期經驗積累的精密記憶架構[8][9]。這種融合將理論構想轉化為實用系統,日益模糊"助手"與"協作者"的界限。其本質在于LLMs作為通用任務處理器,通過生成式架構在語義空間內統一感知、決策與行動,從而形成類人認知閉環[10]。本研究通過構建-協作-演化的統一分類框架,首次系統解構智能體系統。我們提供全景視角,追溯智能體的定義方式、獨立/協同運作機制及長期進化路徑。除厘清現狀外,更揭示了預示未來發展的新興范式。智能體技術的快速演進亟需及時綜述,為研究者提供理解這一動態領域的最新分類體系。圖1展示了我們設計的LLM智能體生態框架:以方法論為核心,我們從三個互相關聯的維度分析智能體技術基礎:構建(定義與實現方式)協作(交互與協同機制)演化(學習與優化路徑)此三維基礎輔以實踐考量,包括評估方法、開發工具、安全與倫理等現實挑戰,以及多樣化應用場景。該框架貫穿全文,實現對每個維度的系統性探索及其關聯性的強調。與既有綜述的差異盡管近年有多篇AI智能體綜述,本研究通過方法論聚焦與LLM智能體架構的全面分析做出獨特貢獻。既往研究或局限于特定應用(如游戲[11][12])、部署環境[13][14]、多模態[15]或安全[16],或僅提供寬泛概述而缺乏方法論分類[1][17]。近期工作雖對比了LLM與傳統AI智能體[9]、多智能體交互[18]、工作流[19]及協作決策機制[20],但本研究的特色在于:方法論導向的分類體系:提出系統化分類法,從角色定義、記憶機制、規劃能力到行動執行[21]解構LLM智能體核心組件。構建-協作-演化框架:通過三維度聯動分析(構建/協作/演化),提供比既往研究[22][23]更整體的認知,凸顯個體設計與協作系統的連續性——而前人常割裂討論這些方面[22][24]。前沿應用與現實聚焦:除理論探討外,深入剖析LLM智能體的尖端工具、通信協議及跨領域應用,并對安全、隱私與倫理等現實挑戰進行全面分析。在智能體技術從研究邁向大規模落地的關鍵階段,這一前瞻視角尤為重要。本綜述為研究者和從業者提供結構化分類體系,助力從多視角理解、比較和推進LLM智能體研究。隨著LLM智能體日益深入各關鍵領域,理解其架構基礎不僅對學術界,對政策制定者、產業界乃至全社會都至關重要。本文旨在奠定這一基礎,同時為這一快速演進領域指明發展方向。
摘要—近年來,生成模型在生成任務中的卓越表現激發了人們對其在決策過程中應用的濃厚興趣。由于其處理復雜數據分布的能力和強大的模型能力,生成模型可以通過生成軌跡,有效地融入決策系統,引導智能體朝向高回報的狀態-動作區域或中間子目標。本文全面回顧了生成模型在決策任務中的應用。我們對七種基礎生成模型進行了分類:能量模型、生成對抗網絡、變分自編碼器、標準化流、擴散模型、生成流網絡和自回歸模型。關于它們的應用,我們將其功能分為三個主要角色:控制器、建模器和優化器,并討論每個角色如何為決策提供貢獻。此外,我們還探討了這些模型在五個關鍵實際決策場景中的部署情況。最后,我們總結了當前方法的優缺點,并提出了三條推進下一代生成決策模型的關鍵方向:高性能算法、大規模通用決策模型以及自我進化與自適應模型。 關鍵詞—生成模型、決策制定、生成決策制定
生成模型已成為學術界和工業界的熱門話題,主要由于它們能夠生成大量高質量和多樣性的合成數據。從早期的系統如 DALL-E [1](用于圖像生成)和 GPT-3 [2](用于文本生成)到最近的進展,如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4],生成模型在其輸出的質量和規模上迅速發展。 內容生成旨在創造與訓練樣本相似的連貫材料,而決策制定則專注于生成能夠實現最佳結果的行動序列。與內容生成不同,決策制定涉及復雜、動態的環境和長期的決策。因此,盡管生成模型在內容生成方面取得了成功,將它們應用于決策制定仍面臨諸多挑戰。這些挑戰包括:1)如何通過與環境的交互來學習策略,而不僅僅是模仿專家行為;2)如何基于學習到的行為生成新策略,從策略學習過渡到策略生成;3)如何建立一個能夠在各種環境中適應的穩健基礎決策生成模型,且只需最少的調優工作;4)如何構建策略的多步推理和長期演化能力。這些挑戰強調了生成模型不僅僅是生成數據的需要。
在實際應用中,決策制定通常被稱為序列決策制定,其中決策者隨著時間推移做出一系列觀察,每個決策都會影響隨后的選擇。目標是識別一個策略,以優化期望的回報或最小化跨越序列行動的成本。經典算法,如動態規劃(DP)和強化學習(RL),廣泛應用于解決建模為馬爾可夫決策過程(MDPs)的問題。這些方法通過基于觀察到的回報和狀態轉移來更新策略,而不是生成新策略,來優化決策制定。盡管這些傳統方法在許多應用中取得了成功,但它們通常依賴于試錯或預定義的狀態和轉移,這限制了探索,并可能錯過更好的解決方案。此外,它們需要大量的計算和優化,這在高維或大規模問題中可能不切實際。傳統方法還需要在面對新環境時進行大規模的重新配置或再訓練,從而降低了靈活性。
另一方面,生成模型被設計為對數據分布進行建模,而不僅僅是擬合標簽。一旦訓練完成,它們可以生成與原始數據相似的新樣本,從而能夠探索不同的場景和結果。這一能力使得在傳統方法可能難以立即顯現的情況下,發現新的策略成為可能。在復雜或標簽不明確的數據場景中,生成模型提供了對可能決策路徑的更深入理解,有時能引導出更符合高回報或期望目標的策略。然而,傳統方法如優化或強化學習在決策空間較清晰、目標更直接的簡單環境中仍然有效。選擇這些方法之間的差異,取決于任務的復雜性和環境的特點。 認識到這些優勢,近年來,開發新的生成模型并將其應用于決策制定的研究工作大幅增加。圖 1 展示了生成模型及其在決策制定中的應用的研究趨勢,進一步強調了這些方法在解決此類挑戰中的重要性。然而,目前缺乏全面的綜述,能夠總結過去的工作并為新的研究方向鋪平道路。這個空白促使我們撰寫本文綜述。該綜述的三大貢獻包括:1)提出了一個全面的分類法,用于分類當前的生成決策制定方法。我們識別了七種用于決策制定的生成模型,并將其功能分類為三個關鍵角色:控制器、建模器和優化器;2)我們回顧了生成模型在決策制定中的多樣化實際應用,重點討論了機器人控制、結構生成、游戲、自動駕駛和優化任務;3)最后,我們總結了現有工作的優缺點,并討論了未來在決策制定任務中開發高性能生成模型的前景。 本文其余部分的組織結構如下(參見圖 2 了解總體大綱):第二部分作為引言,介紹了序列決策制定的基本公式,并提供了所有研究方法的基礎知識。具體而言,我們詳細介紹了七種生成模型,并將它們與傳統方法進行對比。第三部分提出了用于分類生成決策制定方法的分類法。第四部分根據介紹的分類法回顧并分析現有文獻。第五部分展示了生成模型在決策制定中的實際應用。最后,第六部分討論了生成模型在決策制定中的未來發展方向,第七部分總結了本文的整體內容。
本文提出了一種通過語義分析將戰略框架與決策啟發法相結合來推薦可操作策略的新方法。盡管戰略框架為評估與規劃提供了系統化模型,而決策啟發法則編碼了經驗性知識,但這兩大傳統領域在歷史上長期處于割裂狀態。我們的方法論運用先進自然語言處理(NLP)技術彌合了這一鴻溝,并通過將6C模型與三十六計等框架相整合進行了實證展示。該方法采用向量空間表示與語義相似度計算,將框架參數映射到啟發式模式,其計算架構融合了深度語義處理與受限的大型語言模型應用。通過將主內容體與次級元素(圖表、矩陣)作為互補性語言表征進行統一處理,以企業戰略案例研究驗證了該方法的有效性。該框架可推廣至各類分析模型與啟發式集合,最終形成即插即用的推薦系統架構,能夠生成融合戰略框架與決策啟發法的可操作性指導方案,實現二者的有機統一。
當今的組織在戰略管理和決策方面依賴于兩種主要但歷史上各自獨立的文本傳統:分析框架和決策啟發法。這兩種傳統都以自然語言編碼戰略知識--通常輔以圖表或結構化表述--但在范圍和風格上有所不同。波特五力分析法、SWOT 分析法和價值鏈分析法等分析框架為形勢評估和長期規劃提供了系統的視角。同時,決策啟發式方法--從早期的軍事智慧(如三十六計)到現代的 “經驗法則”--提供了通過實際經驗總結出的簡明、可行的見解。
在實踐中,將這兩種傳統結合起來會帶來明顯的優勢:更平衡的戰略規劃方法、更清晰的循證建議途徑以及更少的詳盡分析時間。然而,框架和啟發式方法很少在一個統一的過程中相互作用。框架擅長全面性和嚴謹性,但存在分析癱瘓的風險,而啟發式方法更加靈活,但可能會過度簡化復雜的情況。彌合這一差距將使決策者能夠獲得每種方法的互補優勢,從而提出既全面又可迅速實施的建議戰略。
人工智能(AI)和自然語言處理(NLP)的最新進展為整合這些傳統方法提供了有力的途徑。通過應用語義分析來揭示戰略文本中的語言模式、修辭結構和概念之間的相互依存關系,我們可以在分析框架的方法結構和啟發式方法的簡明行動步驟之間構建自動映射。本文提出了一種推薦系統架構,利用這些映射生成可操作的戰略建議,最終加快決策進程并提高戰略洞察力。
為了具體說明這種語義整合,我們重點討論了兩個具有代表性的模型:6C 框架和三十六計。6C 框架綜合了軍事和商業文獻中反復出現的戰略主題(進攻/防御力量、關系能力、潛在能量、時間可用性和環境適應性)。相比之下,根植于中國政治、軍事和民間話語的三十六計則以精煉的表達方式囊括了數百年來的啟發式見解。通過先進的 NLP 工具(如向量空間嵌入、主題建模和模式識別),我們展示了每條計策中的語言線索如何與特定的 6C 參數相關聯。然后,這種系統化的分析會驅動一個自動管道,將任何給定的戰略情況與合適的啟發式方法相匹配,從而產生基于證據、上下文感知的建議。
我們的方法有兩大創新。首先,我們將系統嵌入到互動模擬環境中,促使決策者用自然語言表達情景。該環境會分析這些文本輸入,計算相關性得分,并根據所選戰略框架返回如何最佳組合或選擇啟發式方法的建議。其次,我們以可控的方式使用大型語言模型(LLMs)來生成連貫、敘述式的報告,闡明每項建議背后的理由。通過將 LLMs 整合為解釋器而非自主決策者,我們既保持了分析的嚴謹性,又提供了易于理解的解釋。
在下文中,我們將詳細介紹我們的語義方法,討論實現框架-啟發式整合的計算架構,并通過企業戰略案例研究說明其現實意義。然后,我們將展示這種即插即用架構如何超越 6C 和三十六計,適應波特五力和 SWOT 等其他廣為人知的框架。最終,我們旨在展示企業如何部署推薦系統方法,將全面的戰略分析與經過驗證的啟發式洞察力相結合,提供既穩健又可隨時應用于復雜環境的可行指導。
本文其余部分的結構如下:
C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。
本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。
提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。
提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。
理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。
開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:
結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。
結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。
描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。
根據上下文,生成的目標和績效衡量標準是否合理?
步驟是否反映了情景的邏輯時間進程?
鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。
大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/
大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。
本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理
模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。
由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。
最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。
摘要
大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。
近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。
面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。
為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。
本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。
本綜述的貢獻總結如下:
通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。
我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。
數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。
數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。
2.1.1 數據標注
數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。
2.1.2 數據重組
數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。
另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。
2.2.3 模型自我改進
模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。
數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。