亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

<tfoot id='mvhk0'></tfoot>

<legend id='mvhk0'><style id='mvhk0'><dir id='mvhk0'><q id='mvhk0'></q></dir></style></legend>

<i id='mvhk0'><tr id='mvhk0'><dt id='mvhk0'><q id='mvhk0'><span id='mvhk0'><b id='mvhk0'><form id='mvhk0'><ins id='mvhk0'></ins><ul id='mvhk0'></ul><sub id='mvhk0'></sub></form><legend id='mvhk0'></legend><bdo id='mvhk0'><pre id='mvhk0'><center id='mvhk0'></center></pre></bdo></b><th id='mvhk0'></th></span></q></dt></tr></i><div id='mvhk0'><tfoot id='mvhk0'></tfoot><dl id='mvhk0'><fieldset id='mvhk0'></fieldset></dl></div>

·

檢索增強生成 · 智能體 · 大語言模型 · 多智能體協作 · 上下文 ·

[付費5元查看完整內容]智能體檢索增強生成：關于智能體RAG的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大語言模型（LLMs）通過實現類人文本生成和自然語言理解，徹底改變了人工智能（AI）領域。然而，它們對靜態訓練數據的依賴限制了它們對動態實時查詢的響應能力，導致輸出結果過時或不準確。檢索增強生成（RAG）作為一種解決方案，通過集成實時數據檢索來增強LLM，提供上下文相關且最新的響應。盡管如此，傳統的RAG系統仍受到靜態工作流的限制，缺乏應對多步驟推理和復雜任務管理所需的適應能力。智能體檢索增強生成（智能體RAG）通過將自主AI智能體嵌入到RAG管道中，超越了這些局限性。這些智能體利用智能體設計模式——反思、規劃、工具使用和多智能體協作——動態管理檢索策略、迭代優化上下文理解，并調整工作流以滿足復雜的任務需求。這種集成使智能體RAG系統能夠在各種應用中提供無與倫比的靈活性、可擴展性和上下文感知能力。本綜述全面探討了智能體RAG，從其基礎原理及RAG范式的演變開始，呈現了智能體RAG架構的詳細分類法，突出了醫療、金融和教育等行業中的關鍵應用，并考察了實際實施策略。此外，本文還討論了擴展這些系統、確保倫理決策和優化實際應用性能的挑戰，同時提供了有關實施智能體RAG框架和工具的詳細見解。

關鍵詞: 大語言模型（LLMs） · 人工智能（AI） · 自然語言理解 · 檢索增強生成（RAG） · 智能體RAG · 自主AI智能體 · 反思 · 規劃 · 工具使用 · 多智能體協作 · 智能體設計模式 · 上下文理解 · 動態適應性 · 可擴展性 · 實時數據檢索 · 智能體RAG的分類法 · 醫療應用 · 金融應用 · 教育應用 · 倫理AI決策 · 性能優化 · 多步驟推理

1 引言

大語言模型（LLMs）[1, 2] [3]，如OpenAI的GPT-4、Google的PaLM和Meta的LLaMA，憑借其生成類人文本和執行復雜自然語言處理任務的能力，已顯著改變了人工智能（AI）領域。這些模型推動了各個領域的創新，包括對話代理[4]、自動內容創作和實時翻譯。最近的進展已將它們的能力擴展到多模態任務，如文本到圖像和文本到視頻生成[5]，使得從詳細提示生成和編輯視頻和圖像成為可能[6]，從而拓寬了生成式AI的潛在應用范圍。盡管取得了這些進展，大語言模型仍面臨顯著的局限性，主要源于它們依賴于靜態的預訓練數據。這種依賴通常導致信息過時、產生幻覺響應[7]，并且無法適應動態的現實世界場景。這些挑戰突顯了需要集成實時數據、動態調整響應以保持上下文相關性和準確性的系統。檢索增強生成（RAG）[8, 9]作為應對這些挑戰的一個有前景的解決方案應運而生。通過將大語言模型的生成能力與外部檢索機制[10]結合，RAG系統增強了響應的相關性和時效性。這些系統從知識庫[11]、API或網絡等來源檢索實時信息，有效彌合了靜態訓練數據與動態應用需求之間的鴻溝。然而，傳統的RAG工作流仍然受限于其線性和靜態的設計，限制了它們執行復雜多步驟推理、整合深層次上下文理解以及迭代優化響應的能力。智能體[12]的演進進一步增強了AI系統的能力。現代智能體，包括大語言模型驅動的和移動智能體[13]，是能夠感知、推理并自主執行任務的智能實體。這些智能體利用智能體工作流模式，如反思[14]、規劃[15]、工具使用和多智能體協作[16]，使其能夠管理動態工作流并解決復雜問題。檢索增強生成與智能體智能的融合催生了智能體檢索增強生成（智能體RAG）[17]，這一范式將智能體集成到RAG管道中。智能體RAG通過動態檢索策略、上下文理解和迭代優化[18]，實現了信息處理的自適應和高效性。與傳統的RAG不同，智能體RAG通過自主智能體來協調檢索、篩選相關信息并優化響應，在需要精確性和適應性的場景中表現出色。本綜述探討了智能體RAG的基礎原理、分類法和應用。它全面回顧了RAG范式，如樸素RAG、模塊化RAG和圖結構RAG[19]，以及它們向智能體RAG系統演變的過程。主要貢獻包括詳細的智能體RAG框架分類法、在醫療[20, 21]、金融和教育[22]等領域的應用，并提供了實施策略、基準測試和倫理考慮的見解。

本文的結構如下：第2節介紹RAG及其演變，強調傳統方法的局限性。第3節詳細闡述智能體智能及智能體模式的原理。第4節提供智能體RAG系統的分類法，包括單智能體、多智能體和基于圖的框架。第5節探討智能體RAG的應用，第6節討論實施工具和框架。第7節聚焦于基準測試和數據集，第8節總結并展望智能體RAG系統的未來發展方向。

2. 檢索增強生成（RAG）的基礎

2.1 RAG概述

檢索增強生成（RAG）是人工智能領域的一項重要進展，它將大型語言模型（LLMs）的生成能力與實時數據檢索相結合。盡管LLMs在自然語言處理任務中表現出色，但其依賴靜態預訓練數據的特性導致其生成的響應往往過時或不完整。RAG通過從外部數據源動態檢索相關信息并將其整合到生成過程中，提供了更具上下文準確性和時效性的輸出。

2.2 RAG的核心組件RAG系統的架構通常包括三個主要組件：檢索器（Retriever）：負責從外部數據源（如知識庫、API或向量數據庫）中查詢相關信息。先進的檢索器利用密集向量搜索和基于Transformer的模型來提高檢索精度和語義相關性。增強器（Augmentation）：處理檢索到的數據，提取并總結與查詢上下文最相關的信息。生成器（Generation）：將檢索到的信息與LLMs的預訓練知識相結合，生成連貫且上下文相關的響應。

2.3 RAG范式的演進RAG范式經歷了從簡單到復雜的演進過程，逐步適應了現實世界應用中對上下文準確性、可擴展性和多步推理的需求。以下是RAG范式的主要演進階段： 2.3.1 Naive RAGNaive RAG是RAG的最基礎實現，依賴于簡單的關鍵詞檢索技術（如TF-IDF和BM25）從靜態數據集中獲取文檔。盡管Naive RAG易于實現，但其缺乏上下文意識，生成的響應往往過于碎片化或泛化。

2.3.2 Advanced RAGAdvanced RAG在Naive RAG的基礎上引入了語義理解和增強的檢索技術，如密集檢索模型（Dense Passage Retrieval, DPR）和神經排序算法。這些改進使得Advanced RAG能夠處理更復雜的查詢，尤其是在需要高精度和細致理解的場景中。

2.3.3 Modular RAGModular RAG將檢索和生成流程分解為獨立的、可重用的組件，允許根據特定任務進行優化和定制。這種模塊化設計使得Modular RAG能夠靈活應對多領域任務，同時保持高精度和可擴展性。

2.3.4 Graph RAGGraph RAG通過引入圖數據結構，增強了多跳推理和上下文豐富性。圖RAG系統能夠捕捉實體之間的關系和層次結構，從而生成更準確和豐富的輸出，尤其是在需要結構化關系推理的領域（如醫療診斷和法律研究）中表現出色。

2.3.5 Agentic RAGAgentic RAG通過引入自主智能體，實現了動態決策和工作流優化。與靜態系統不同，Agentic RAG能夠根據查詢的復雜性動態調整檢索策略，并通過迭代優化提升響應質量。Agentic RAG在客戶支持、金融分析和自適應學習平臺等需要動態適應性和上下文精確性的領域中表現出色。

3. Agentic RAG的核心原則與背景

Agentic RAG的核心在于其集成了自主智能體，能夠進行動態決策、迭代推理和協作工作流。這些智能體通過以下設計模式來增強系統的適應性和精確性： 3.1 智能體設計模式3.1.1 反思（Reflection）反思是智能體工作流中的基礎設計模式，允許智能體通過自我反饋機制迭代評估和優化其輸出。通過反思，智能體能夠識別并糾正錯誤、不一致性，并改進其性能。在多智能體系統中，反思可以涉及不同角色的智能體，如一個智能體生成輸出，另一個智能體對其進行批判，從而促進協作改進。 3.1.2 規劃（Planning）規劃使智能體能夠將復雜任務分解為更小的子任務，從而在多步推理和動態問題解決中表現出色。通過規劃，智能體能夠動態確定完成任務的步驟序列，確保在不確定和動態環境中保持靈活性。3.1.3 工具使用（Tool Use）工具使用允許智能體通過與外部工具、API或計算資源交互來擴展其能力。通過動態集成工具，智能體能夠適應復雜任務并提供更準確和上下文相關的輸出。 3.1.4 多智能體協作（Multi-Agent Collaboration）多智能體協作通過任務分配和并行處理來提高系統的可擴展性和適應性。每個智能體專注于特定的子任務，并通過通信和共享中間結果來確保整體工作流的高效性和一致性。

4. Agentic RAG系統的分類

Agentic RAG系統可以根據其架構的復雜性和設計原則進行分類，主要包括單智能體架構、多智能體系統和分層智能體架構。每種架構都針對特定的挑戰進行了優化，并在不同的應用中表現出色。4.1 單智能體Agentic RAG：路由器單智能體Agentic RAG系統采用集中式決策機制，由單個智能體負責檢索、路由和信息的整合。這種架構簡化了系統設計，特別適用于工具或數據源數量有限的場景。工作流程查詢提交與評估：用戶提交查詢，協調智能體接收并分析查詢，確定最合適的信息源。知識源選擇：根據查詢類型，協調智能體選擇不同的檢索選項，如結構化數據庫、語義搜索、網絡搜索或推薦系統。數據整合與LLM合成：檢索到的數據傳遞給大型語言模型（LLM），LLM將來自多個源的信息整合成連貫且上下文相關的響應。輸出生成：系統生成綜合性的用戶響應，并以簡潔、可操作的格式呈現。關鍵特性與優勢集中化簡化：單個智能體處理所有檢索和路由任務，簡化了系統設計和維護。效率與資源優化：由于智能體數量較少，系統對計算資源的需求較低，能夠快速處理查詢。動態路由：智能體實時評估每個查詢，選擇最合適的知識源。跨工具的多功能性：支持多種數據源和外部API，適用于結構化和非結構化工作流。 4.2 多智能體Agentic RAG系統多智能體RAG系統通過多個專用智能體處理復雜的工作流和多樣化的查詢類型。每個智能體專注于特定的任務或數據源，從而提高了系統的靈活性和可擴展性。工作流程查詢提交：用戶查詢由協調智能體接收，并根據查詢需求分配給專用檢索智能體。專用檢索智能體**：每個智能體負責特定類型的數據源或任務，如結構化查詢、語義搜索、網絡搜索或推薦系統。工具訪問與數據檢索：每個智能體將查詢路由到其領域內的適當工具或數據源，檢索過程并行執行，以提高效率。數據整合與LLM合成：檢索完成后，所有智能體的數據傳遞給LLM，LLM將信息整合成連貫的響應。輸出生成：系統生成綜合性的響應，并以簡潔、可操作的格式呈現給用戶。關鍵特性與優勢模塊化：每個智能體獨立運行，允許根據系統需求無縫添加或移除智能體。可擴展性：多個智能體并行處理查詢，能夠高效處理高查詢量。任務專業化：每個智能體針對特定類型的查詢或數據源進行優化，提高了檢索的準確性和相關性。效率：通過將任務分配給專用智能體，系統減少了瓶頸，提升了復雜工作流的性能。 4.3 分層智能體Agentic

RAG系統分層智能體RAG系統采用多層次的信息檢索和處理方法，增強了系統的效率和戰略決策能力。智能體按層次組織，高層智能體負責監督和指導低層智能體，確保查詢由最合適的資源處理。工作流程查詢接收：用戶提交查詢，由頂層智能體接收并進行初步評估。戰略決策：頂層智能體評估查詢的復雜性，并決定優先使用哪些子智能體或數據源。任務分配：頂層智能體將任務分配給低層智能體，低層智能體執行其分配的任務。數據整合與合成：低層智能體的結果由高層智能體整合，并生成連貫的響應。響應交付：最終的合成響應返回給用戶，確保響應全面且上下文相關。關鍵特性與優勢戰略優先級：頂層智能體可以根據查詢的復雜性、可靠性或上下文優先選擇數據源或任務。可擴展性：通過將任務分配給多個層次的智能體，系統能夠處理高度復雜或多方面的查詢。增強的決策能力：高層智能體通過戰略監督提高了響應的整體準確性和連貫性。

5. Agentic RAG的應用Agentic RAG系統在多個領域中展示了其變革潛力，尤其是在需要實時數據檢索、生成能力和自主決策的場景中。以下是Agentic RAG在幾個關鍵領域中的應用：

5.1 客戶支持與虛擬助手Agentic RAG系統通過實時、上下文感知的查詢解決，徹底改變了客戶支持。傳統的聊天機器人和虛擬助手通常依賴于靜態知識庫，導致生成通用或過時的響應。相比之下，Agentic RAG系統能夠動態檢索最相關的信息，適應用戶的上下文，并生成個性化的響應。用例：Twitch廣告銷售增強Twitch利用Agentic RAG系統動態檢索廣告商數據、歷史活動表現和受眾 demographics，生成詳細的廣告提案，顯著提升了運營效率。

5.2 醫療與個性化醫療在醫療領域，Agentic RAG系統通過整合患者特定數據和最新的醫學研究，幫助臨床醫生進行診斷和治療規劃。用例：患者病例摘要Agentic RAG系統通過整合電子健康記錄（EHR）和最新的醫學文獻，生成全面的患者病例摘要，幫助臨床醫生更快地做出決策。

5.3 法律與合同分析Agentic RAG系統通過快速文檔分析和決策支持工具，重新定義了法律工作流程。用例：合同審查Agentic RAG系統可以分析合同，提取關鍵條款并識別潛在風險，自動化合同審查過程，確保合規性并降低風險。

5.4 金融與風險分析Agentic RAG系統通過提供實時洞察，徹底改變了金融行業，支持投資決策、市場分析和風險管理。用例：汽車保險理賠處理Agentic RAG系統可以自動化理賠處理，通過檢索保單詳情并結合事故數據，生成理賠建議，同時確保符合監管要求。

5.5 教育與個性化學習Agentic RAG系統在教育領域也取得了顯著進展，通過生成解釋、學習材料和反饋，支持個性化學習。用例：研究論文生成Agentic RAG系統通過從多個來源綜合關鍵發現，幫助研究人員生成研究論文摘要，提升研究效率。

5.6 圖增強的多模態工作流圖增強的Agentic RAG（GEAR）結合了圖結構和檢索機制，特別適用于需要多模態數據的工作流。用例：市場調查生成GEAR能夠生成包含文本、圖像和視頻的詳細市場調查報告，幫助營銷團隊分析市場趨勢和客戶偏好。

6. Agentic RAG的工具與框架

Agentic RAG系統的開發依賴于多種工具和框架，這些工具和框架提供了強大的支持，幫助開發者構建復雜的Agentic RAG系統。以下是一些關鍵的工具和框架：

6.1 LangChain與LangGraphLangChain提供了模塊化組件，用于構建RAG管道，無縫集成檢索器、生成器和外部工具。LangGraph則通過引入基于圖的工作流，支持循環、狀態持久化和人機交互，增強了Agentic RAG系統的復雜性和自校正能力。

6.2 LlamaIndexLlamaIndex的Agentic Document Workflows（ADW）支持端到端的文檔處理、檢索和結構化推理。它引入了元智能體架構，子智能體管理較小的文檔集，頂層智能體負責協調任務，如合規性分析和上下文理解。

6.3 Hugging Face Transformers與QdrantHugging Face提供了預訓練模型，用于嵌入和生成任務，而Qdrant則通過自適應向量搜索能力增強了檢索工作流，允許智能體動態切換稀疏和密集向量方法。

6.4 CrewAI與AutoGen這些框架強調多智能體架構。CrewAI支持分層和順序流程、強大的記憶系統和工具集成。AutoGen則通過多智能體協作，支持代碼生成、工具執行和決策制定。

6.5 OpenAI Swarm框架OpenAI Swarm框架是一個輕量級的多智能體編排框架，強調智能體的自主性和結構化協作。

6.6 Agentic RAG與Vertex AIGoogle的Vertex AI平臺與Agentic RAG無縫集成，提供了構建、部署和擴展機器學習模型的平臺，支持強大的上下文感知檢索和決策工作流。

6.7 Amazon Bedrock for Agentic RAGAmazon Bedrock提供了一個強大的平臺，用于實現Agentic RAG工作流。

6.8 IBM Watson與Agentic RAGIBM的watsonx.ai支持構建Agentic RAG系統，通過集成外部信息和增強響應準確性，回答復雜查詢。

6.9 Neo4j與向量數據庫Neo4j是一個開源的圖數據庫，擅長處理復雜的關系和語義查詢。與Neo4j一起，向量數據庫如Weaviate、Pinecone、Milvus和Qdrant提供了高效的相似性搜索和檢索能力，構成了高性能Agentic RAG工作流的基礎。

7. 基準測試與數據集

當前的基準測試和數據集為評估Agentic RAG系統提供了寶貴的見解。以下是一些關鍵的基準測試和數據集：

7.1 BEIR（信息檢索基準測試）BEIR是一個多功能的基準測試，用于評估嵌入模型在各種信息檢索任務中的表現，涵蓋了生物信息學、金融和問答等多個領域的17個數據集。

7.2 MS MARCO（微軟機器閱讀理解）MS MARCO專注于段落排序和問答任務，廣泛用于RAG系統中的密集檢索任務。

7.3 TREC（文本檢索會議，深度學習賽道）TREC提供了段落和文檔檢索的數據集，強調檢索管道中排序模型的質量。

7.4 MuSiQue（多跳順序問答）MuSiQue是一個多跳推理基準測試，強調從斷開連接的上下文中檢索和綜合信息的重要性。

7.5 2WikiMultihopQA2WikiMultihopQA是一個多跳問答數據集，專注于跨多個來源連接知識的能力。7.6 AgentG（Agentic RAG知識融合）AgentG專為Agentic RAG任務設計，評估跨多個知識庫的動態信息綜合能力。

7.7 HotpotQAHotpotQA是一個多跳問答基準測試，要求對互連的上下文進行檢索和推理，適用于評估復雜的RAG工作流。

7.8 RAGBenchRAGBench是一個大規模、可解釋的基準測試，包含10萬個跨行業領域的示例，提供了可操作的RAG指標。

7.9 BERGEN（檢索增強生成基準測試）BERGEN是一個用于系統化基準測試RAG系統的庫，支持標準化實驗。7.10 FlashRAG工具包FlashRAG工具包實現了12種RAG方法，并包含32個基準測試數據集，支持高效和標準化的RAG評估。

7.11 GNN-RAGGNN-RAG評估圖基RAG系統在節點級和邊級預測任務中的表現，重點關注知識圖譜問答（KGQA）中的檢索質量和推理性能。

8. 結論

Agentic Retrieval-Augmented Generation (Agentic RAG) 代表了人工智能領域的一項重大進步，通過集成自主智能體，克服了傳統RAG系統的局限性。Agentic RAG系統通過動態決策、迭代推理和協作工作流，顯著提升了系統的適應性和精確性，使其能夠應對復雜的現實世界任務。盡管Agentic RAG系統展示了巨大的潛力，但仍面臨一些挑戰，如多智能體架構的協調復雜性、可擴展性和延遲問題，以及倫理決策的確保。未來的研究需要進一步探索這些挑戰，并開發專門的基準測試和數據集，以評估Agentic RAG系統的獨特能力。隨著人工智能系統的不斷發展，Agentic RAG將成為創建自適應、上下文感知和具有影響力的解決方案的基石，滿足快速變化的世界需求。通過解決這些挑戰并探索未來的方向，研究人員和從業者可以充分發揮Agentic RAG系統的潛力，推動跨行業和領域的變革性應用。

付費5元查看完整內容

相關內容

檢索增強生成

檢索增強生成

多模態檢索增強生成 · 綜述 ·

[付費5元查看完整內容]多模態檢索增強生成的綜合綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）由于依賴靜態訓練數據，常常面臨幻覺和過時知識的問題。檢索增強生成（RAG）通過整合外部動態信息來緩解這些問題，從而增強事實性和更新性基礎。最近的多模態學習進展促成了多模態RAG的發展，結合了文本、圖像、音頻和視頻等多種模態，以增強生成的輸出。然而，跨模態對齊和推理為多模態RAG帶來了獨特的挑戰，這使其與傳統的單模態RAG有所不同。本綜述提供了對多模態RAG系統的結構化和全面分析，涵蓋了數據集、度量標準、基準測試、評估、方法論以及在檢索、融合、增強和生成中的創新。我們精確回顧了訓練策略、魯棒性增強和損失函數，同時也探討了多樣化的多模態RAG場景。此外，我們討論了支持該領域進展的開放挑戰和未來研究方向。本綜述為開發更強大、更可靠的AI系統奠定了基礎，這些系統能夠有效利用多模態動態外部知識庫。資源可在 //github.com/llm-lab-org/Multimodal-RAG-Survey 獲取。 1 引言與背景

近年來，語言模型取得了顯著的突破，主要得益于變換器（Vaswani et al., 2017）的出現、計算能力的增強以及大規模訓練數據的可用性（Naveed et al., 2024）。基礎性大型語言模型（LLMs）（Ouyang et al., 2022；Grattafiori et al., 2024；Touvron et al., 2023；Qwen et al., 2025；Anil et al., 2023）的出現徹底改變了自然語言處理（NLP），展現了在廣泛任務中的前所未有的能力，包括指令跟隨（Qin et al., 2024）、復雜推理（Wei et al., 2024）、上下文學習（Brown et al., 2020）以及多語言機器翻譯（Zhu et al., 2024a）。這些進展提升了各種NLP任務的表現，開辟了新的研究和應用途徑。盡管取得了顯著成就，LLMs仍面臨重大挑戰，包括幻覺、過時的內部知識以及缺乏可驗證的推理（Huang et al., 2024a；Xu et al., 2024b）。它們依賴于參數化內存，限制了訪問最新知識的能力，使其在知識密集型任務中的表現不如任務特定架構。此外，提供其決策的來源并更新世界知識仍然是關鍵的開放問題（Lewis et al., 2020）。 檢索增強生成（RAG）

檢索增強生成（RAG）（Lewis et al., 2020）作為一種有前景的解決方案應運而生，通過使LLMs能夠檢索和整合外部知識，從而提高事實準確性并減少幻覺（Shuster et al., 2021；Ding et al., 2024a）。通過動態訪問龐大的外部知識庫，RAG系統在增強知識密集型任務的同時，確保響應保持在可驗證的來源中（Gao et al., 2023）。在實踐中，RAG系統通過檢索器-生成器管道運作。檢索器利用嵌入模型（Chen et al., 2024b；Rau et al., 2024）從外部知識庫中識別相關段落，并可選地應用重新排序技術以提高檢索精度（Dong et al., 2024a）。這些檢索到的段落隨后傳遞給生成器，生成器結合外部上下文生成知情響應。RAG框架的最新進展（Asai et al., 2023；An et al., 2024；Lee et al., 2024；Liu et al., 2024c）引入了迭代推理過程，通過優化檢索和生成階段，使回答更加準確和可靠。然而，傳統的RAG架構主要設計用于文本信息，這限制了其處理多模態挑戰的能力，而多模態挑戰需要整合多種數據格式。 多模態學習

與這些發展并行，多模態學習的顯著進展通過使系統能夠整合和分析異構數據源，為信息的整體表示提供了新的視角，從而重塑了人工智能。CLIP（對比語言-圖像預訓練）（Radford et al., 2021）的引入標志著連接視覺和文本信息的關鍵時刻，通過對比學習促進了后續許多模型和應用的發展（Alayrac et al., 2024；Wang et al., 2023；Pramanick et al., 2023）。這些突破推動了各個領域的進展，包括情感分析（Das and Singh, 2023）和前沿的生物醫學研究（Hemker et al., 2024），證明了多模態方法的價值。通過使系統能夠處理和理解文本、圖像、音頻和視頻等多種數據類型，多模態學習已成為推動人工通用智能（AGI）（Song et al., 2025）發展的關鍵。 多模態RAG

將LLMs擴展到多模態LLMs（MLLMs）進一步增強了其能力，使其能夠跨多種模態進行處理、推理和生成輸出（Liu et al., 2023a；Team et al., 2024；Li et al., 2023b）。例如，GPT-4（OpenAI et al., 2024）通過接受文本和圖像兩種輸入，在多個基準測試中表現出人類級別的性能，標志著多模態感知和交互的一個重要里程碑。在此基礎上，多模態RAG系統通過結合圖像和音頻等多模態知識源，擴展了傳統RAG框架，為生成提供豐富的上下文（Hu et al., 2023；Chen et al., 2022a）。這種整合不僅增強了生成輸出的精度，同時利用多模態線索提高了MLLMs的推理能力。多模態RAG管道的基本流程如圖1所示。然而，這些多模態系統也帶來了獨特的挑戰，包括確定檢索哪些模態、有效融合多種數據類型以及處理跨模態相關性的復雜性（Zhao et al., 2023）。 任務公式化

我們給出了多模態RAG系統的通用任務數學公式。這些系統針對一個查詢q（通常是文本格式）生成一個多模態響應r。設D = {d1, d2, ..., dn}為一個由n個多模態文檔組成的語料庫。每個文檔di ∈ D與一個模態Mdi關聯，并通過模態特定的編碼器EncMdi處理：

相關工作

由于多模態RAG領域是新興且迅速發展的，特別是在近年來，對于探索這些系統的當前創新和前沿的綜述需求迫切。盡管已有超過十篇關于RAG相關主題的綜述文章（如代理RAG（Singh et al., 2025）），但沒有一篇詳細全面地概述多模態RAG的進展。迄今為止唯一的相關綜述（Zhao et al., 2023）通過根據應用和模態對相關文獻進行分類。然而，我們的綜述提供了一個更詳細且創新驅動的視角，提供了詳細的分類法，并深入探討了新興趨勢和挑戰。此外，自該綜述發布以來，領域內已經取得了顯著進展，對該主題的研究興趣也顯著增長。在本綜述中，我們回顧了近年來發表的100多篇關于多模態RAG的論文，主要來自ACL文集和其他如ACM數字圖書館等資源庫。貢獻

在本研究中，（i）我們提供了對多模態RAG領域的全面回顧，涵蓋了任務公式化、數據集、基準、任務和領域特定應用、評估以及檢索、融合、增強、生成、訓練策略和損失函數的關鍵創新。（ii）我們引入了一個精確的結構化分類法（圖2），根據其主要貢獻對最先進的模型進行了分類，突出方法學進展和新興前沿。（iii）為了支持進一步的研究，我們公開了包括數據集、基準和關鍵創新在內的資源。（iv）我們識別了當前的研究趨勢和知識空白，提供了見解和建議，以指導該不斷發展的領域的未來進展。

付費5元查看完整內容

多智能體協作 · 大語言模型 ·

[付費5元查看完整內容]多智能體協作機制：大語言模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大語言模型（LLMs）的最新進展，代理式人工智能（Agentic AI）在現實應用中取得了顯著進展，朝著基于多個大語言模型的智能體邁進，實現感知、學習、推理和協同行動。這些基于大語言模型的多智能體系統（MASs）使得一組智能體能夠協作解決復雜任務，并以大規模方式實現集體行動，從孤立的模型轉向以協作為核心的方法。

本文提供了關于多智能體系統協作方面的廣泛綜述，并提出了一個可擴展的框架來指導未來的研究。我們的框架根據關鍵維度對協作機制進行表征：參與者（涉及的智能體）、類型（例如，合作、競爭或合作競爭）、結構（例如，點對點、集中式或分布式）、策略（例如，基于角色或基于模型）以及協調協議。通過對現有方法的回顧，我們的研究成果為揭示和推動基于大語言模型的多智能體系統向更加智能和協作的解決方案發展，特別是在復雜的現實應用中，提供了基礎。

此外，本文還探討了多智能體系統在不同領域的各種應用，包括5G/6G網絡、工業5.0、問答系統、以及社會文化環境，展示了它們的廣泛應用和更深遠的影響。最后，我們總結了關鍵經驗教訓，分析了多智能體系統面臨的開放挑戰，并指出了朝著人工集體智能發展的潛在研究方向。

CCS概念：

? 一般和參考 → 綜述與概覽； ? 計算方法 → 多智能體系統；自然語言生成；神經網絡。 附加關鍵詞： 人工智能，大語言模型，多智能體協作

1 引言

1.1 動機

大語言模型（LLMs）的最新進展已徹底改變了人工智能（AI），使其能夠執行復雜的任務，如創造性寫作、推理和決策，堪比人類水平 [156]。盡管這些模型在單獨使用時展現了顯著的能力，但它們仍然存在一些內在的局限性，如幻覺問題 [57]、自回歸特性（例如，無法進行深思熟慮的推理 [49]）和擴展法則 [55, 69]。為了應對這些挑戰，代理式人工智能（Agentic AI）利用LLM作為大腦或協調者，將它們與外部工具和任務（如規劃）結合，使基于LLM的智能體能夠采取行動、解決復雜問題，并與外部環境進行交互。此外，研究者們越來越多地探索橫向擴展——利用多個基于LLM的智能體協作實現集體智能。這種方法與多智能體系統（MASs）和協作AI的研究方向一致，后者專注于使一組智能體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的多智能體系統，利用多個LLM的集體智能來應對復雜的多步挑戰 [118]。MAS的靈感不僅來自技術進展，還源于人類集體智能（例如，心智社會 [87]，心智理論 [45]）。人類社會擅長通過團隊合作和專業化實現共享目標，從日常任務到科學發現都可以體現這一點。同樣，MAS旨在模擬這些原則，使AI智能體能夠通過結合各自的優勢和視角有效協作。

基于LLM的MAS可以通過不同的協作渠道進行協作，這些渠道具有不同的特征，如圖1所示。MAS在各個領域取得了顯著成功，通過讓智能體之間進行協作和協調，增強了單個LLM的能力。這些系統將任務分配給智能體，允許智能體共享知識、執行子任務，并將其努力與共享目標對齊。MAS的潛在優勢是變革性的。它們擅長知識記憶，使得分布式智能體能夠保持并共享多樣的知識庫，而不會使單一系統過載 [51, 154]。它們通過將任務分配給不同的智能體來增強長期規劃，支持在延續的交互中持續解決問題 [58]。此外，MAS通過匯聚來自多個模型的專業知識和提示/角色，能夠實現更有效的泛化，比單一模型更有效地解決各種問題。最后，MAS通過通過專業智能體同時管理子任務，提高了交互效率，加速了解決復雜的多步任務。MAS力求實現集體智能，其中多個智能體的綜合能力超過了它們單個貢獻的總和 [24]。

有效的MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132]，它們促使從傳統的孤立模型向強調互動的方法過渡，使得智能體能夠連接、協商、做決策、規劃并共同執行任務，從而推動集體環境中AI能力的發展。深入理解MAS中的協作機制是解鎖其全部潛力的關鍵。

1.2 現狀與貢獻

由于基于LLM的多智能體協作系統的重要性和迫切需求，已有一些綜述文章討論了這一主題。然而，這些工作往往未能充分探討基于LLM的MAS的協作方面和機制，而這些方面對實現智能體朝著共享目標高效協作至關重要，具體總結見表1。例如，[47, 107, 136] 主要關注單智能體系統，僅在表面層次上提及多智能體協作。 [136] 通過提出一個框架為LLM智能體奠定了基礎，框架由三部分組成：大腦、感知和行動。該工作強調了使用LLM作為智能體的大腦，利用輸入模態整合、提示、檢索和工具使用等技術。然而，他們對多智能體協作的討論僅限于智能體行為和個性，未深入探討使智能體協同工作的機制。[47] 綜述了基于LLM的MAS成功應用的領域和場景，概述了這些系統的通信結構（分層、去中心化、集中式和共享消息池），但沒有涉及協作的其他特征，如類型、策略或協調架構。

其他一些工作，如 [82]，關注協作策略，將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLM，并將合作擴展到傳統的融合技術之外，但忽略了競爭與合作競爭等其他重要的協作機制，以及超越流行的協作類型的維度。與此不同，[120] 提出了一個增強LLM能力的通用框架，展示了Auto-GPT等工具如何與該框架對接。然而，協作機制仍然停留在概念層面，缺乏詳細的實現和表征。[50] 的研究重點是配置LLM以利用多樣的能力和角色，如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上，強調基于智能體角色和專業化的全局與局部任務規劃。同時，[46] 的工作將焦點縮小到基于LLM的MAS在基于智能體的建模與仿真中的應用，討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管這些工作對于仿真特定應用有啟發性，但缺乏對深入協作機制的廣泛視角。同樣，[68] 綜述了這些系統在數字孿生應用中的應用，[52, 70] 聚焦于軟件工程領域。

從上述總結和說明中可以看出，在充分探索基于LLM的MAS的協作方面和機制上存在明顯的不足，這對于使智能體朝著共享目標有效協作至關重要。本工作旨在提供基于LLM的多智能體協作系統中智能體間協作基礎的全面視角。以協作為主要焦點，我們的研究將基于LLM的智能體間協作表征為：參與者（涉及的智能體）、類型（如合作、競爭或合作競爭）、結構（如點對點、集中式或分布式）、策略（如基于角色、基于規則或基于模型）和協調層。我們強調促進有效協作的機制和“訣竅”，識別MAS設計中的關鍵特征和趨勢。通過綜述現有方法并識別開放挑戰，我們將這些發現綜合成一個連貫的框架。該框架為未來研究提供基礎，推動LLM在MAS中的集成，為更具適應性、智能性和合作性的AI系統鋪平道路，使其能夠應對復雜的現實應用。 我們的主要貢獻如下：

基于LLM的MAS中的協作方面和機制：我們關注基于LLM的多智能體協作的操作機制，強調實現有效協作所需的“訣竅”，包括協作類型、策略、通信結構和協調架構。
基于LLM的MAS通用框架：我們提出了一個綜合框架，整合了MAS的多種特征，幫助研究人員理解、設計和開發多智能體協作系統。
現實世界應用的綜述：我們審視了基于LLM的MAS在不同領域的實際應用，突出了其實際應用、成功案例和局限性。經驗教訓與開放問題的討論：我們識別了MASs發展的關鍵挑戰，如集體推理和決策，并概述了解決這些挑戰的潛在研究方向。1.3 論文結構

本文組織結構如下。第2節提供了理解本研究所需的背景信息，包括LLM、MAS和協作AI的概述。第3節介紹了基于LLM的多智能體協作系統的基礎概念，通過數學符號強調協作的關鍵作用。接著，第4節對基于LLM的多智能體協作系統進行了廣泛的綜述，按協作的關鍵特征進行分類，包括類型、策略、結構和協調與 orchestration。第5節回顧了基于LLM的多智能體協作系統在工業和學術領域中的關鍵應用。第6節討論了這一新興研究領域中的開放問題和潛在的未來研究方向。最后，第7節對本文進行了總結。

2. 背景知識

2.1 多智能體系統（MAS）

多智能體系統（MAS）是由多個相互作用的智能體組成的計算機化系統。這些智能體具有自主性，能夠感知環境、與其他智能體交互，并通過協作解決復雜的任務。MAS 的關鍵組成部分包括：

智能體：系統中的核心參與者，具有角色、能力、行為模式和知識模型。智能體的能力包括學習、規劃、推理和決策制定，這些能力賦予了智能體和整個系統智能。
環境：智能體所處的外部世界，智能體可以感知并作用于環境。環境可以是模擬的或物理空間，如工廠、道路、電網等。
交互：智能體之間通過標準的智能體通信語言進行通信。智能體的交互包括合作、協調、協商等，具體取決于系統的需求。
組織：智能體可以按照層次結構進行控制，或基于涌現行為進行組織。

MAS 的顯著特征包括靈活性、可靠性、自組織和實時操作，使其成為解決復雜任務的有效解決方案。通過將復雜任務分解為多個子任務，每個子任務由不同的智能體處理，MAS 能夠以較低的成本和較高的可靠性完成任務。

2.2 大語言模型（LLMs）

大語言模型（LLMs）是基于 Transformer 架構的深度學習模型，如 OpenAI 的 GPT、Meta 的 LLaMA 和 Google 的 Gemini 系列。這些模型通過在大規模文本語料庫上進行訓練，具備了強大的語言理解和生成能力。LLMs 的規模使其能夠解決未經過明確訓練的任務，如類比推理和零樣本學習。盡管 LLMs 在單智能體任務中表現出色，但在多智能體環境中，協調、通信和決策制定的復雜性增加，LLMs 的局限性變得更加明顯。例如，級聯幻覺（cascading hallucinations）問題在多智能體交互中尤為突出，即一個錯誤的輸出可能導致連鎖的錯誤反應。然而，通過引入結構化工作流和共識機制，研究人員正在探索如何克服這些挑戰，使 LLMs 在多智能體環境中發揮更大的作用。

2.3 協作式人工智能（Collaborative AI）

協作式人工智能（Collaborative AI）是指設計用于與其他 AI 智能體或人類協作的 AI 系統。協作式 AI 的研究方向包括多智能體系統、人機交互、博弈論和自然語言處理。通過集成這些技術，協作式 AI 有潛力推動具有深遠經濟和社會影響的新型應用。協作是使 AI 智能體能夠相互交互和合作的關鍵。協作機制不僅限于簡單的合作，還包括競爭和競合等高級機制。協作式 AI 推動了從傳統的孤立模型向強調協作的方法的轉變，新的方法使智能體能夠交互、協商、決策、規劃和共同行動，從而推動 AI 在集體環境中的能力。

3. 多智能體協作概念

3.1 智能體與協作系統的定義

在 LLM 多智能體協作系統中，智能體可以數學表示為 a={m,o,e,x,y}，其中：

模型 mm：AI 模型，包括其架構（arch）、智能體的特定內存（mem）和可選的適配器（adp）。適配器是自適應智能模塊，允許智能體通過機制（如推測解碼和參數高效適配器）從其他智能體獲取額外知識。
目標 oo：智能體的目標或任務，指導其在系統中的行為。
環境 ee：智能體所處的環境或上下文，通常由上下文窗口中的令牌數量限制。
輸入 xx：智能體的輸入感知，如文本或傳感器數據。
輸出 yy：智能體的相應動作或輸出，定義為 y=m(o,e,x)。

3.2 問題定義

在 LLM 驅動的 MAS 中，智能體之間的協作至關重要。每個協作都有一個通信通道 cc，協作包括：

任務分配：根據智能體的獨特專業知識和資源，將任務分配給多個智能體。
協作機制：定義智能體之間的協作機制，使它們能夠共同工作。
決策制定：智能體之間的決策制定，以達到最終目標。

協作通道通過特定的屬性進行表征，包括參與者（涉及的智能體）、類型（如合作、競爭或競合）、結構（如點對點、集中式或分布式）和策略（如基于角色、基于規則或基于模型）。任何屬性的差異都會導致不同的協作通道。

4. 方法論

4.1 協作類型

**4.1.1 合作

合作是 LLM 多智能體系統中最常見的協作類型。當智能體將其個體目標 oi與共享的集體目標 Ocollab對齊時，它們會共同努力實現互利的結果。合作在需要協作問題解決、集體決策和互補技能的任務中尤為重要。

**4.1.2 競爭

競爭發生在智能體的個體目標 oi與其他智能體的目標沖突或資源有限的情況下。競爭可以推動智能體發展更高級的推理能力和創造性問題解決能力，增強系統的適應性。

**4.1.3 競合

競合是合作與競爭的結合，智能體在某些任務上合作，而在其他任務上競爭。競合機制在需要權衡和妥協的場景中尤為有效。

4.2 協作策略

**4.2.1 基于規則的協議

基于規則的協議通過預定義的規則嚴格控制智能體之間的交互，確保智能體按照系統范圍內的約束協調行動。這種策略在任務程序明確且變化有限的情況下非常有效，但在面對意外情況時缺乏適應性。

**4.2.2 基于角色的協議

基于角色的協議通過為每個智能體分配特定的角色或分工，使智能體能夠專注于其專業領域內的子任務。這種策略提高了系統的效率和結構，但在角色定義不明確時可能導致沖突或功能缺陷。

**4.2.3 基于模型的協議

基于模型的協議在輸入感知存在不確定性的環境中提供了決策制定的靈活性。智能體根據對環境的感知、共同目標和固有的不確定性做出概率性決策。這種策略在動態環境中表現出色，但設計和部署復雜，計算成本較高。

4.3 通信結構

**4.3.1 集中式結構

集中式結構中，所有智能體都連接到一個中央智能體，中央智能體負責管理和協調智能體之間的交互。集中式結構在資源分配和任務協調方面具有優勢，但中央節點的故障可能導致整個系統崩潰。

**4.3.2 分布式結構

分布式結構中，控制權和決策權分布在多個智能體之間，每個智能體基于本地信息和有限的通信進行操作。分布式結構在系統容錯性和可擴展性方面具有優勢，但資源分配效率較低，通信開銷較大。

**4.3.3 分層結構

分層結構中，智能體按層次組織，每個層次的智能體具有不同的功能和權限。分層結構在任務分配和資源管理方面具有優勢，但邊緣設備的故障可能導致系統失效。

4.4 協調與編排

**4.4.1 靜態架構

靜態架構依賴于領域知識和預定義的規則來建立協作通道。這種架構在任務執行一致性和利用領域知識方面具有優勢，但在面對動態環境時缺乏靈活性。

**4.4.2 動態架構

動態架構能夠適應變化的環境和任務需求，通過管理智能體或自適應機制實時分配角色和定義協作通道。動態架構在處理復雜和動態任務時表現出色，但資源使用較高，動態調整可能失敗。

5. 實際應用

5.1 5G/6G 網絡與工業 5.0

LLMs 在 5G/6G 網絡和工業 5.0 中的應用顯著提升了邊緣網絡的性能。例如，LLM-SC 框架利用 LLMs 建模文本的語義信息，設計基于 LLMs 的語義通信系統，實現了語義級和技術級性能的平衡。

5.2 問答與自然語言生成（QA/NLG）

LLMs 在問答和自然語言生成任務中的應用顯著提升了系統的能力。例如，OpenAI 的 Swarm 框架通過引入“交接”機制，使多個智能體能夠無縫協作，提升系統的效率和適應性。

5.3 社會與文化領域

LLMs 和 MASs 在社會和文化領域的應用展示了這些系統在模擬人類行為、社會動態和文化互動方面的潛力。例如，CulturePark 框架通過模擬跨文化互動，促進了跨文化理解和減少偏見。

6. 開放問題與討論

6.1 集體智能的實現

實現集體智能需要解決多個開放挑戰，包括統一治理、共享決策制定、智能體作為數字物種的設計、可擴展性和資源管理，以及發現和探索意外的泛化能力。

6.2 綜合評估與基準測試

評估 MASs 的性能和行為比評估單個 LLMs 更為復雜。需要建立統一的、廣泛的基準測試框架，以確保評估結果的可重復性和一致性。

6.3 倫理風險與安全性

LLMs 在多智能體系統中的部署可能放大幻覺和對抗性攻擊的風險。確保智能體在倫理邊界內操作，并防止有害行為的發生，是確保系統安全性和可靠性的關鍵。

7. 結論

通過對 LLM 多智能體協作機制的全面綜述，我們提出了一個結構化和可擴展的框架，以指導未來的研究。我們的框架基于參與者、類型、結構、策略和協調機制五個關鍵維度，提供了分析和設計 LLM 多智能體協作交互的系統方法。我們相信，這項工作將為未來的研究提供靈感，并推動 MASs 向更智能和協作的解決方案邁進。

付費5元查看完整內容

半監督目標檢測 · 卷積神經網絡 · Transformer ·

2024 年 7 月 12 日

[付費5元查看完整內容]半監督目標檢測：從卷積神經網絡（CNN）到 Transformer 的進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

半監督學習的顯著進展推動了研究人員在計算機視覺領域探索其在目標檢測任務中的潛力。半監督目標檢測（SSOD）利用小規模標注數據集和大規模未標注數據集的組合，有效減少了對大規模標注數據集的依賴，這些數據集通常昂貴且耗時。最初，SSOD模型在有效利用未標注數據和管理生成的未標注數據偽標簽中的噪聲方面遇到了挑戰。然而，許多最近的進展已經解決了這些問題，導致SSOD性能顯著提升。本文全面回顧了27項最前沿的SSOD方法發展，從卷積神經網絡（CNNs）到Transformers。我們深入探討了半監督學習的核心組件及其在目標檢測框架中的整合，涵蓋數據增強技術、偽標簽策略、一致性正則化和對抗訓練方法。此外，我們對各種SSOD模型進行了比較分析，評估它們的性能和架構差異。我們旨在激發更多關于克服現有挑戰和探索半監督學習在目標檢測中新方向的研究興趣。

深度學習 [42], [43], [44], [45] 已成為一個活躍的研究領域，并在模式識別 [46], [47]、數據挖掘 [48], [49]、統計學習 [50], [51]、計算機視覺 [52], [53] 和自然語言處理 [54], [54], [55] 等多個領域中有著廣泛的應用。特別是在有監督學習環境中，深度學習通過有效利用大量高質量的標注數據，取得了顯著的成就。然而，這些有監督學習方法 [56], [57], [58] 依賴于昂貴且耗時的標注數據進行訓練。半監督目標檢測 (SSOD) [59] 通過結合標注數據和未標注數據 [60] 來彌補這一缺口，在計算機視覺領域 [52], [53] 尤其是在獲取大規模標注數據 [59] 具有挑戰性或成本高昂的行業中顯示出顯著進步。SSOD 應用于包括自動駕駛汽車 [61], [62] 和醫學影像 [63], [64] 在內的各個行業。在農業 [65] [66] 和制造業 [67] 等數據豐富但標注耗時的行業中，SSOD 有助于提高效率。

半監督方法 [68], [69] 通過利用未標注和標注數據 [70], [71] 提升模型性能并減少標注需求。此外，以前的目標檢測方法 [72], [73] 主要涉及手動特征工程 [74], [75] 和簡單模型的使用。這些方法在準確識別不同形狀和尺寸的物體時遇到困難。后來，卷積神經網絡 (CNNs) [77], [78] 的引入，通過直接從原始數據中提取分層特征 [79]，實現了端到端學習 [80]，大大提高了準確性和有效性。近年來，半監督目標檢測在深度學習架構 [81], [82]、優化技術 [83] 和數據集增強策略 [84], [85], [86], [87] 的推動下取得了顯著進步。研究人員開發了各種針對目標檢測的半監督學習 (SSL) 方法，每種方法都有其獨特的優缺點 [88], [89], [90]。這些方法主要分為偽標簽 [91], [92], [93] 和一致性正則化 [94]，兩者在訓練過程中都有效利用了標注和未標注數據。此外，將SSL方法與最先進的目標檢測架構（如FCOS [95]，Faster R-CNN [96] 和 YOLO [97]）相結合，顯著提升了半監督目標檢測系統的性能和可擴展性。這種結合不僅提高了檢測準確性，還幫助模型在處理新的和未見過的數據集時表現良好。

隨著DEtection TRansformer（DETR） [98], [99], [100] 的出現，目標檢測取得了顯著進展。Transformers最初為自然語言處理 [54], [54], [55] 開發，在捕捉長距離依賴關系 [101] 和上下文信息 [102], [103] 方面表現出色，使其在復雜空間排列的目標檢測中理想 [104], [105]。與依賴于局部卷積并需要非極大值抑制 (NMS) [106] 來過濾冗余檢測的CNNs [78], [79], [80] 不同，DETR使用自注意力機制 [107], [108]，不需要NMS。它將目標檢測任務視為直接的集合預測問題，消除了傳統的NMS [106] 和錨生成 [109] 過程。盡管有優勢，DETR仍存在如訓練期間收斂速度慢和小物體檢測困難等局限性。為了應對這些問題，DETR通過改進的注意力機制和優化技術 [110] 提高了性能和效率。在DETR取得成功后，研究人員現在在半監督目標檢測方法中采用基于DETR的網絡 [1], [2], [3]，結合DETR的優勢與半監督學習，利用未標注數據 [88], [94]，減少對大規模標注數據的需求。

由于基于transformer的半監督目標檢測（SSOD） [60], [111] 方法的快速進步，跟上最新進展變得越來越具有挑戰性。因此，從基于CNN到基于Transformer的SSOD方法的最新發展進行回顧對于該領域的研究人員具有重要意義。本文對從基于CNN到基于Transformer的半監督目標檢測（SSOD）方法的轉變進行了全面概述。如圖1所示，綜述將SSOD方法分為基于CNN（單階段和兩階段） [4], [6], [7], [8], [10], [24], [27], [45] 和基于Transformer的方法 [1], [2], [3]，重點介紹了偽標簽和基于一致性的標注等技術。它還詳細介紹了包括強、弱和混合技術在內的數據增強策略 [85], [86], [87], [112], [113], [114], [115]。

圖2展示了一種為半監督目標檢測量身定制的教師-學生架構。一個預訓練的教師模型用于為未標注數據生成偽標簽。這些偽標簽與標注數據一起用于共同訓練學生模型。通過結合偽標注數據，學生模型從更廣泛和多樣化的數據集中學習，增強其準確檢測物體的能力。此外，數據增強方法也應用于標注和偽標注數據集。這種協同學習方法有效利用了標注和未標注數據，提高了目標檢測系統的整體性能。本文其余部分組織如下：第2節回顧了以前的SSOD綜述。第3節討論了該領域的相關工作。第8節探討了SSOD在各種視覺任務中的作用。第4節是本文的核心，提供了SSOD方法的全面概述。第5節研究了SSOD中使用的不同損失函數。第6節對SSOD方法進行了比較分析。第7節解決了開放的挑戰和未來的方向。最后，第9節對本文進行了總結。

付費5元查看完整內容

大型語言模型 · 終身學習 ·

2024 年 6 月 15 日

[付費5元查看完整內容]大語言模型的終身學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大語言模型（LLM）在各個領域的應用不斷擴大，它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應，整合新知識，同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀，根據新知識的整合方式將策略分為兩類：內在知識，LLM通過完全或部分訓練將新知識吸收到其參數中；外部知識，通過將新知識作為外部資源（如維基百科或API）引入而不更新模型參數。我們的綜述的主要貢獻包括：（1）引入了一種新穎的分類法，將終身學習的大量文獻劃分為12種情景；（2）識別了所有終身學習情景中的常見技術，并將現有文獻分類到不同的技術組中；（3）強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型（LLM）在各個領域的應用不斷擴大，這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM，越來越無法應對現實世界信息的動態特性。終身學習（也稱為持續學習、增量學習），或LLM在其運行生命周期內持續和自適應學習的能力，解決了這一挑戰，通過整合新知識，同時保留先前學習的信息，從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域，根據新知識的整合方式將策略分為兩大類：內在知識和外部知識。每個類別包含不同的方法，旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中，包括持續預訓練和持續微調等策略。例如，在工業應用中，常采用持續垂直領域預訓練，公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能，但也有可能削弱模型的廣泛知識基礎，說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法，如文本分類、命名實體識別、關系抽取和機器翻譯等，以及任務無關的方法，如指令微調、對齊和知識編輯。此外，在持續對齊中使用了人類反饋的強化學習，以確保LLM遵守人類價值觀，如安全和禮貌，突顯了所謂的“對齊稅”，即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源（如維基百科或API）引入，而不更新模型參數，包括基于檢索和工具的終身學習，利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略，如檢索增強生成，通過提供上下文相關、準確和最新的外部數據庫（如維基百科）信息來增強文本生成，確保模型輸出隨時間保持相關性。同時，工具學習類借鑒人類工具使用的類比，模型學習使用外部計算工具，從而無需直接修改其核心知識庫，拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查，本文旨在強調將終身學習能力整合到LLM中，從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新，本綜述旨在為開發更強大和多功能的LLM做出貢獻，使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來，終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡（CNN）的終身學習，探討了CNN的各種終身學習情景，包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外，一些綜述探討了圖神經網絡的終身學習。然而，只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理（NLP）中終身學習的早期綜述，但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景，包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧，包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向（或垂直持續學習）和水平方向（或水平持續學習）兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式，包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻，但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景，并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知，我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括：

新穎的分類法：我們引入了一個詳細且結構化的框架，將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**：我們在所有終身學習情景中識別了常見技術，并將現有文獻分類到每個情景內的各種技術組中。

未來方向：我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向，并總結了本綜述。

付費5元查看完整內容

大型語言模型 · 持續學習 ·

2024 年 4 月 26 日

[付費5元查看完整內容]《大型語言模型持續學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在靜態、預先收集的通用數據集上的訓練取得的最近成功，已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習（CL）社區進行了廣泛研究，但在LLMs領域呈現出新的表現形式。在這篇綜述中，我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外，這篇綜述被分為四個主要部分：我們首先描述了持續學習LLMs的概覽，包括兩個連續性方向：垂直連續性（或垂直持續學習），即從一般到特定能力的持續適應；和水平連續性（或水平持續學習），即跨時間和領域的持續適應（第3節）。在垂直連續性之后，我們總結了在現代CL背景下學習LLMs的三個階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。然后我們提供了LLMs的持續學習評估協議的概覽，以及當前可用的數據來源（第5節）。最后，我們討論了有關LLMs持續學習的引人深思的問題（第6節）。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域，表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準，以及專門設計的方法論，以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型（LLMs）的進步顯示了實現人工普遍智能（AGI）的巨大潛力。研究人員觀察到，隨著參數規模的增加，多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性，促使機器學習從業者重新考慮傳統的計算范式，用于處理一些曾經具有挑戰性的人類水平任務，如問答、機器翻譯和對話系統。然而，LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練，導致性能隨時間逐漸降低，并且在不同內容領域之間也會降低。此外，單一的預訓練大模型無法滿足每個用戶的需求，需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案，但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務，同時盡量減少對以前知識領域的性能退化，研究者采用了持續學習的方法，也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發，涉及按順序在一系列任務上訓練機器學習模型，期望在所有任務中保持性能。在訓練過程中，模型對以前的數據有限或無法訪問，這在保留過去知識時構成了一個挑戰，因為在當前任務學習時，來自未見過的以前數據的優化約束是不存在的。這一挑戰，被稱為災難性遺忘，自持續學習研究開始以來一直是研究的中心焦點。多年來，研究者探索了各種技術來減輕機器學習模型中的遺忘，這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下，CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變，在這篇綜述中，我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況，我們將其分為兩個需要由從業者解決的連續性方向（第3節）：

垂直連續性（或垂直持續學習），指的是LLMs從大規模通用領域到小規模特定領域的持續適應，涉及學習目標和執行實體的轉變。例如，醫療機構可能開發專門為醫療領域定制的LLMs，同時保留其一般推理和問答能力，以服務用戶。
水平連續性（或水平持續學習），指的是跨時間和領域的持續適應，通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如，社交媒體平臺不斷更新LLMs以反映最近的趨勢，確保精確地定位下游服務如廣告和推薦，同時為現有用戶提供無縫的用戶體驗。

在圖1中，繼垂直連續性之后，我們勾畫了現代CL中LLM學習的三個關鍵階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。在CPT中，現有研究主要調查三種類型的分布式轉變：時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中，雖然它主要被視為為下游任務準備LLMs的過程，但頻繁地使用CL評估和技術。然而，這些技術的多樣性明顯不足，考慮到傳統CL社區的成熟度。在CFT中，我們關注的是學習LLMs的新興領域，涵蓋持續指令調整（CIT）、持續模型精煉（CMR）、持續模型對齊（CMA）和持續多模態LLMs（CMLLMs）等主題。接下來，我們呈現了一系列公開可用的評估協議和基準（第5節）。我們總結我們的綜述，討論了LLMs持續學習的最新出現的特性，傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化，以及這個主題的潛在研究方向（第6節）。總結而言，本文提供了一份詳盡的現有持續學習研究LLMs的綜述，顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域，特別是在持續預訓練（CPT）和領域適應性預訓練（DAP）領域的研究。我們強調需要社區更多的關注，迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外，需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角，在迅速變化的LLMs領域中，幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看，它可以大致分為三個階段的LLMs持續訓練，我們將在第4節逐一介紹每個階段。在4.3節中，將介紹持續微調LLMs的獨特方面，包括持續指令調整（4.3.3節）、持續模型精煉（4.3.4節）、持續模型對齊（4.3.5節）和持續多模態大型語言模型（4.3.6節）。在第5節中，我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后，在第6節中，我們討論了在大型語言模型時代持續學習的角色，包括大規模持續LLMs的新興能力（6.1節）、三種類型的持續學習（6.2節）、LLMs持續學習中的記憶角色（6.3節）以及未來的研究方向（6.4節）。持續學習與大型語言模型相遇：概覽****大型語言模型（LLMs）在多個維度上都非常龐大，包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰，特別是在快速變化的環境中保持更新。舉例來說，2023年，用戶發布的新推文的平均每日流量超過5億，即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時，有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側，模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后，消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率，他們最初對持續預訓練的LLMs進行了幾項關鍵觀察，聚焦于模式連接性和功能相似性。此外，他們提出在上游預訓練LLM進行重大更新后，復用過時的微調組件。基于《可回收調整》引入的概念框架，我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架，涉及持續LLM預訓練、適應和部署，如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向：垂直連續性和水平連續性。

結論

在這項工作中，我們提供了一份關于持續LLMs的綜述，從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置，對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長，但我們也注意到幾個缺失的基石，包括算法多樣性以及對大模型行為（如知識遺忘、轉移和獲取）的基本理解。通過全面而詳細的方法，我們希望這篇綜述能激勵更多從業者探索持續學習技術，最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

大型語言模型 · 檢索增強生成 ·

2024 年 4 月 18 日

[付費5元查看完整內容]《大型語言模型中基于檢索的文本生成》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

檢索增強型生成（Retrieval-Augmented Generation, RAG）將檢索方法與深度學習的進展結合起來，旨在解決大型語言模型（LLMs）的靜態限制，通過動態整合最新的外部信息。這種方法主要關注文本領域，提供了一個成本效益高的解決方案，用以改進LLMs生成的可能正確但實際錯誤的回答，從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長，并融入多個可能影響其性能的概念，本文將RAG范式組織為四個類別：預檢索（pre-retrieval）、檢索（retrieval）、后檢索（post-retrieval）和生成（generation），從檢索的視角提供了詳細的觀點。文中概述了RAG的發展，并通過分析重要研究討論了該領域的進展。此外，本文還介紹了對RAG的評估方法，討論了所面臨的挑戰，并提出了未來的研究方向。通過提供一個有組織的框架和分類，該研究旨在整合現有關于RAG的研究，闡明其技術基礎，并強調其擴展LLMs的適應性和應用潛力。

//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb

ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界，已成為領先的人工智能工具（Laskar等人，2023年；Jahan等人，2023年；Huang與Huang，2024年）。ChatGPT的核心是大型語言模型（LLM）GPT-4，正如（OpenAI等人，2023年）所詳述，它在其前身的基礎上進行了多項增強，展示了在各種自然語言處理（NLP）任務中的卓越能力（Laskar等人，2020年）。盡管有這些進步，LLMs的采用突顯了幾個關鍵問題，主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力，導致三個主要挑戰。首先，側重于廣泛和通用數據以最大化可訪問性和適用性，結果在專業領域的性能不佳。其次，網絡數據的快速創建，加上數據注釋和模型訓練所需的大量資源，阻礙了LLMs的更新能力。第三，LLMs易于生成令人信服但不準確的回答，這種情況被稱為“幻覺”，可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成（Retrieval-Augmented Generation，RAG）技術，該技術通過在回應查詢時獲取外部數據來補充模型，從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人（Lewis等人，2020b）在2020年引入RAG技術以來，特別是受到ChatGPT成功的影響，RAG技術已經取得了重大進展。然而，在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外，該領域的研究重點多樣，對類似方法使用的術語含糊其辭，導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法，并對這一研究領域提供深入理解，以闡明這些方面。本綜述主要關注RAG的文本應用，反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題：有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述，將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節，對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結，以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向，專注于基于文本的研究，并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面：本文為理解RAG領域提供了一個全面的框架，確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析，考察了它們在解決檢索和生成問題上的優勢。此外，它介紹了RAG研究中使用的評估方法，突出了當前的挑戰，并提出了未來研究的有希望的方向。 2 RAG框架

幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息，提出了解決這一問題的方案，從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇，相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型（LMs），動態地合并新鮮信息，無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性，便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據，這不僅簡化了生成過程，還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究（Khandelwal等人，2020年）表明，從訓練數據集本身獲取相關信息可以顯著提高LLM的性能，凸顯了RAG的有效性。隨著時間的推移，RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性，并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化，增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。

2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型，該模型將檢索到的信息與查詢結合，以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引，其中數據準備是關鍵。這一階段涉及文本規范化過程，如分詞、詞干提取和停用詞移除，以增強文本的索引適用性（Manning等人，2008年）。然后，文本段落被組織成句子或段落，以便進行更有針對性的搜索，允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示，徹底革新了索引技術。這些向量被存儲，使從龐大的數據集中快速且精確地檢索成為可能，顯著提高了檢索效率。

2.1.2 檢索傳統的檢索方法，如BM25算法（Hancock-Beaulieu等人，1996年），側重于文檔排名的術語頻率和存在性，但通常忽視了查詢的語義信息。當前策略利用像BERT（Devlin等人，2019年）這樣的預訓練語言模型，更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構，提高搜索精度，通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的，將傳統檢索指標與語義理解結合，以產生既相關又符合用戶意圖的搜索結果。

2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來，然后輸入到一個LLM中進行文本生成（Li等人，2022年）。盡管確保生成文本的一致性和準確性面臨挑戰，但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致，同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究，提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制，對生成高質量結果至關重要。因此，從檢索角度看，這一范式被結構化為四個主要階段：預檢索、檢索、后檢索和生成。單跳和多跳檢索方法，包括迭代檢索-生成周期，遵循這四個階段的結構。圖3是RAG核心技術的分類樹。

2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎，確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引：過程從索引開始，建立一個有組織的系統，以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如，針對問答系統，句子級索引有助于精確定位答案，而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作：索引后，進行查詢操作以更好地匹配索引數據。這涉及查詢重構（Jansen等人，2009年；Yu等人，2020年），它重寫查詢以更緊密地符合用戶意圖；查詢擴展（Huang等人，2013年），通過同義詞或相關術語擴展查詢以捕獲更相關的結果；以及查詢規范化，解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改：數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術，如移除無關或冗余信息以提高結果質量，并通過如元數據等附加信息豐富數據，以增強檢索內容的相關性和多樣性（Bevilacqua等人，2022a）。

2.2.2 檢索搜索與排名：檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔，以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據，查找與用戶查詢匹配的文檔。識別相關文檔后，開始對這些文檔進行初步排名，按其與查詢的相關性進行排序。

2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔，提高文本生成的質量。這一階段包括重新排序和過濾，每項都旨在優化文檔選擇以完成最終的生成任務。重新排序：在重新排序步驟中，之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔，并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下，可以有效地使用精確度更高但效率較低的預訓練模型，因為可用的候選文檔集有限（Huang和Hu，2009年）。過濾：過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成，例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外，使用用戶或先前相關性評估的反饋有助于調整過濾過程，確保只保留用于文本生成的最相關文檔（Khattab和Zaharia，2020年；Huang和Huang，2023年）。

2.2.4 生成生成階段是RAG流程的關鍵組成部分，負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強：生成階段的核心是增強步驟，其目標是將檢索到的信息與用戶的查詢合并，創建一個連貫且相關的響應。這包括闡述過程，向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量，增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起，提供全面的視角，并進行驗證，以確保內容的準確性和相關性。定制：定制是一個可選步驟，涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容，并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要，確保輸出既信息豐富又簡潔。

付費5元查看完整內容

上下文學習 · 大語言模型 · 大模型 ·

2024 年 1 月 24 日

[付費5元查看完整內容]谷歌等最新《使用檢索示例的大語言模型上下文學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

語言模型，特別是預訓練的大型語言模型，在作為少示例上下文學習者（ICL）方面展示了顯著的能力，擅長僅通過輸入上下文中的幾個示例適應新任務。然而，模型執行ICL的能力對少示例演示的選擇非常敏感。與其使用固定的示例集，一種新的發展趨勢是檢索針對每個輸入查詢定制的示例。演示檢索的實現相對直接，利用現有的數據庫和檢索系統。這不僅提高了學習過程的效率和可擴展性，而且已顯示出減少手動示例選擇中固有偏見的潛力。鑒于這些鼓舞人心的結果和使用檢索示例的ICL領域的研究日益增長，我們進行了這一領域研究的廣泛綜述。在這篇綜述中，我們討論并比較了不同的檢索模型設計選擇、檢索訓練程序和推理算法。

少示例上下文學習（ICL）是大型語言模型（LLMs）在給定新任務的幾個輸入-輸出示例或演示以及實際任務輸入時，執行新任務的能力。重要的是，模型參數不需要針對新任務進行微調。ICL的流行源于對預訓練大型語言模型的研究，這些模型可以在沒有被訓練執行ICL的情況下執行ICL（Brown et al., 2020），盡管較小的語言模型也可以被明確訓練以執行ICL（Min et al., 2022a）。ICL相較于傳統方法（即先進行初始預訓練，然后進行下游任務的微調）在適應語言模型到下游任務方面有幾個優勢。ICL的一個顯著優點是避免了微調，這在由于無法訪問模型參數或計算資源限制的情況下可能無法實現（Brown et al., 2020）。此外，ICL避免了微調常見的問題，例如過擬合（Ying, 2019; Kazemi et al., 2023a）。與參數高效微調方法（PEFT）相比（Hu et al., 2021; Dettmers et al., 2023; Lester et al., 2021），ICL在計算上更經濟，且保持模型參數不變，從而保持了LLMs的通用性。早期ICL實現使用針對每個目標任務的固定示例集。這些示例可以由人工精心制作（Hendrycks et al., 2021; Wei et al., 2022; Kazemi et al., 2023b），從訓練數據中隨機選擇（Brown et al., 2020; Lewkowycz et al., 2022），或基于復雜度或信息內容等指標選擇（Fu et al., 2022; Hongjin et al., 2022; Li and Qiu, 2023a; Wang et al., 2023b）。此類示例的有效性受到示例質量、數量和排序等因素的影響。重要的是，這些示例保持與上下文無關（即不管查詢如何，都使用相同的示例），這可能阻礙釋放LLMs的真正潛力。

基于檢索的ICL（RetICL）在優化語言模型性能方面呈現了一種范式轉變，從靜態、預定義的示例集轉向動態、與上下文敏感的方法。這一創新的核心是自適應示例選擇的概念，其中專門的檢索器為每個具體任務輸入智能地策劃定制示例。這種方法不僅一致地優于依賴隨機或靜態手工制作示例的方法，而且還顯示出對多種影響因素的顯著抵抗力。RetICL的有效性取決于所選示例的“相關性”和“有用性”，這一過程受到多個因素的復雜影響。這些包括檢索器的性質（從通用的現成模型到精細調整的特定領域變體）、檢索語料庫的來源和多樣性、檢索器的目標（專注于相似性或多樣性）以及集成多個示例的策略。在過去兩年中，眾多有時并行的研究已經研究了RetICL，每個研究使用不同的術語，并在問題定義和隨后的方法論上有所不同，使得理解RetICL的當前研究和實踐狀態，特別是對于該領域的新手來說，變得困難。在這篇全面的綜述中，我們詳細分析了RetICL領域的22篇開創性論文（如表1所示），并對其主要構建模塊進行了分類（見圖1）。我們的工作不僅提供了現有研究的全面綜合，而且強調了RetICL在超越以往ICL方法方面的重要領域，并為該領域未來的創新照亮了許多前進的道路，因此成為ICL的關鍵資源。

少樣本上下文學習的語言模型神經語言模型（LM）的增強能力催生了一種新的自然語言處理（NLP）問題學習范式。從歷史上看，NLP問題的主導學習范式是從頭開始對特定任務的數據進行模型訓練。因此，對于每一個新任務，模型都必須從頭開始學習。這通常導致泛化能力較差，尤其是在測試時遇到之前未觀察到的詞匯的情況下。在隨后的范式中，首先在大量文本語料庫上預訓練一個LM，使其了解語言如何運作并獲得關于世界的大量知識（Petroni et al., 2019; Lin et al., 2020; Sung et al., 2021; Yuan et al., 2023）；然后再在新任務的數據上進一步對預訓練的LM（PLM）進行微調（Sarzynska-Wawer et al., 2021; Devlin et al., 2018），從而教會通用的PLM新任務的特定內容。這一范式通常導致學習速度更快和預測性能更高。后來的研究表明，對PLM進行多任務微調可以更好地實現任務間知識轉移，并可能導致在新任務上的性能提升（Raffel et al., 2020）。隨著預訓練大型語言模型（LLMs）的規模和用于預訓練這些模型的數據集規模的增大，人們發現預訓練的LLMs（為簡潔起見，以下簡稱為LLMs）具有通過少量示例在上下文中學習的顯著能力（Brown et al., 2020）。也就是說，LLMs被證明能夠僅通過在輸入中看到幾個新任務的示例來適應新任務，而不需要額外的訓練數據或微調。這通常被稱為少示例上下文學習。

與上述涉及預訓練后進行微調的大型語言模型（LLMs）使用方法相比，上下文學習（ICL）提供了幾個關鍵優勢。首先，由于對LLM的訪問受限、計算資源不足或數據標記不充分（Brown et al., 2020），微調可能并不總是可行的，而ICL則需要更少的資源、更少的數據，并且通過API調用更易于服務。此外，ICL避免了常與微調相關的問題，如過擬合或沖擊（Ying, 2019; Kazemi et al., 2023a），因為它不修改模型的參數，使其保持通用性。

**什么構成了好的演示？**許多研究試圖提供理論上的解釋和洞見，來說明大型語言模型（LLMs）是如何從少量上下文演示中學習的（Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023）。然而，這種能力背后的確切原因仍然不甚明了，這使得選擇最佳的少示例演示變得困難。幸運的是，各種實證結果展示了少示例演示對LLMs預測準確性的影響，并就準備它們的最佳實踐提供了建議。這些研究還展示了LLMs在選擇、格式和少示例演示順序方面的脆弱性。在此，我們描述了其中一些更為顯著的研究。

演示數量：大型語言模型（LLMs）通常受益于更多的演示，但隨著演示數量的增加，改進的速度通常會減少（Brown et al., 2020; Ye et al., 2023b; Min et al., 2022b）。生成任務比分類任務更能從增加的演示數量中受益（Li et al., 2023）。增加演示數量的一個障礙是LLM的最大上下文大小。盡管隨著新型LLM的出現，上下文的大小一直在增加，但對于文本輸入較長的數據集或分類數據集中類別較多的情況，這可能仍然是個問題。

演示格式：不同的工作表明，提示的格式和措辭在LLM的性能中起著至關重要的作用（Jiang et al., 2020; Shin et al., 2020; Kojima et al.; Yang et al., 2023）。例如，Kojima等人展示了僅在提示中添加“讓我們一步一步思考”可以使LLM逐步推理并解決更多問題，Weller等人（2023）展示了在提示中添加“根據維基百科”可以使其更具事實性。此外，Min et al.（2022b）指出，除了文本格式，標簽空間和演示中的輸入文本分布也非常重要。

演示順序：演示的順序已被證明會顯著影響模型性能。例如，Lu et al.（2022b）表明，在某些任務上，模型性能可能會根據提示的順序從接近隨機到最先進水平不等，而Zhao et al.（2021）表明，在提示的末尾出現的答案更可能被模型預測。演示多樣性：少示例學習成功的另一個重要因素是演示的多樣性。Naik et al.（2023）提出了DiversePrompting方法，其中對于演示的問題，使用LLM生成解決問題的不同方法，然后將這些解決方案用于提示。Zhang et al.（2022b）建議選擇一個多樣化的問題集作為少示例。Ma et al.（2023）提出了一個公平性指標用于選擇演示，鼓勵選擇多樣化的少示例演示，以產生對語義自由輸入的近似均勻預測分布。

思維鏈（CoT）：已有研究表明，包含答案的理由顯著提高了模型性能，尤其是對于超過特定大小的模型（Suzgun et al., 2022）。這種理由通常被稱為思維鏈（CoT）（Wei et al., 2022）。在CoT提示的情況下，演示通常格式化為：查詢：qi，理由：ri，答案：ai其中理由出現在最終答案之前。已有多項研究探討了CoT提示的有效性原因以及如何改進提示和理由（Wang et al., 2022a; Lanham et al., 2023）。

使用檢索演示的上下文學習傳統上，所有查詢都使用相同的少示例演示集，這在查詢之間存在高度變化時可能并不理想。另一種方法是檢索針對當前查詢定制的少示例演示。先前的工作表明，與手工策劃或隨機選擇的演示相比，演示檢索在任務指標上帶來了顯著改進（Luo et al., 2023; Ye et al., 2023a）。此外，當使用檢索的演示時，已經證明大型語言模型（LLMs）對于演示順序等因素（第2.2節）變得不那么敏感（Li et al., 2023）。本節提供了基于檢索的上下文學習（RetICL）的概述。我們首先定義了使用檢索演示的上下文學習。正式地，給定一個查詢q?和一個檢索語料庫C，演示檢索器DR選擇一組演示{d1, . . . , dk} ～ C，其中每個演示為di = (qi, ai)。大型語言模型（LLM）的輸入序列變為(d1, . . . , dk, q?)。檢索器的目標是選擇能最大化正確答案a?概率的演示。RetICL的成功取決于多個因素。本節探討了設計選擇，包括檢索目標、檢索推理策略和檢索語料庫。然后在第4節和第5節中，我們探索了檢索器模型以及如何訓練它們以適應下游任務。

檢索目標：

相似性與多樣性為了選擇和定制適合大型語言模型（LLMs）的上下文示例，已經探索了各種檢索目標（Luo et al., 2023; Rubin et al., 2022; Ye et al., 2023a; Dalvi et al., 2022; Cheng et al., 2023; Li et al., 2023）。選擇演示的兩個主要檢索目標是相似性和多樣性。相似性涉及選擇最類似于查詢的演示，并可基于語言相似性（術語匹配或語義匹配）、結構方面（句子結構、推理結構等）或其他標準。大多數研究關注語言相似性，較少涉及結構相似性，這通常是由于在許多任務中提取查詢結構的挑戰（Levy et al., 2022）。除了相似性，一些工作發現演示的多樣性很重要。多樣性的動機包括避免重復的演示（Zhang et al., 2022b），帶來不同的視角（Yu et al., 2023），以及最大化演示對測試查詢的覆蓋，無論是覆蓋其詞匯還是句法結構（Levy et al., 2022）。衡量多個演示的多樣性是一個主要的技術挑戰。Ye et al. (2023a) 應用了決定性點過程（DPP）這一概率模型來衡量負相互作用（Kulesza et al., 2012），以衡量多樣性。Levy et al. (2022) 發現當模型對輸出符號空間不熟悉時，多樣性和覆蓋是重要的。值得注意的是，研究人員發現，在某些情況下，上下文學習（ICL）更多地從更高復雜性的演示中受益（Fu et al., 2022），其中復雜性是根據查詢長度或推理步驟定義的。然而，Fu et al. (2022) 使用啟發式規則來定義復雜性并相應地預選演示。他們的研究表明，使用基于相似性的檢索器在特定的數學推理任務中提高了性能。這可能表明結合相似性和復雜性考慮可能是增強推理任務方法的一個有前景的策略。

現成演示檢索器為了實現上述檢索目標，研究人員探索了各種類型的演示檢索器。典型的演示檢索器將檢索語料庫中的示例和查詢編碼為一些向量表示，然后計算候選演示嵌入和查詢嵌入之間的相似度度量（例如余弦相似度），以定位最相關的演示。鑒于對檢索演示增強大型語言模型（LLMs）性能的底層機制理解有限，最初的研究工作集中在對這一任務現成可用的檢索器進行啟發式評估。后續研究努力探索了特別為檢索演示而定制的基于學習的檢索器的設計和開發。本節回顧了代表性的現成模型，我們將在第5節討論基于學習的模型。

微調的演示檢索器盡管現成的檢索器在llm的檢索演示中顯示出了一些希望，但現成的檢索器給出的檢索演示可能不能代表任務的性質以及一般應如何解決任務。因此，它可能會導致次優性能。因此，研究人員已經開始探索基于學習的方法，以進一步突破邊界。設計一個好的演示檢索器的典型目標是:如果LLM發現一個演示在用作演示示例時有用，則應該鼓勵檢索器將演示排序更高。這使得我們可以直接依賴感興趣任務中的查詢和輸出對的信號來訓練模型，而無需人工注釋。為了開發演示檢索器，大多數方法利用當前的雙編碼器模型(Karpukhin等人，2020;Ni et al.， 2021)。關鍵的變化在于收集訓練數據和制定訓練目標的方法。我們將在后續章節中更詳細地探討這些方面。在這里，我們總結了各種檢索器模型的優點和缺點。現成的檢索器易于使用，無需進行下游任務的微調，通常表現比隨機演示更強大。唯一的例外是在常識推理任務中，Zhang等人（2022b）和Ye等人（2023a）發現對于這些任務，隨機演示始終比檢索方法更好。Cheng等人（2023）還表明，檢索到的演示對常識推理和共指解析任務產生了不利影響。在現成的檢索器的三個類別中，如BM25等稀疏檢索器更具索引效率。這個特性在處理大量演示和有限的硬件內存時特別有價值，使得在這種情況下BM25成為首選。相比之下，基于句子嵌入相似性的方法和基于雙編碼器的檢索系統，這些方法在語言任務上訓練，更擅長捕捉更語義上關注的檢索結果。就性能而言，Luo等人（2023）在5個任務中比較了BM25和雙編碼器（GTR），發現這兩者的平均性能非常相似（在0.5％的差異范圍內），在某些任務中BM25勝過雙編碼器，反之亦然。在另一項研究中，Ye等人（2023a）觀察到了類似的趨勢，強調沒有單一的檢索器在不同任務中始終表現優于其他檢索器。Rubin等人（2022）和Li等人（2023）發現，在語義解析任務中，BM25要優于SBERT，而Li等人（2023）發現，在情感分析任務中，SBERT要優于BM25。然而，經過微調的檢索器在性能上表現出優勢，相對于現成的檢索器。經過微調的檢索器的主要缺點在于獲取訓練數據的成本較高。

此外，采用任務特定的檢索器的常見做法使系統變得復雜，并限制了其通用性。Li等人（2023）提出了訓練通用檢索器的概念，該檢索器在大多數任務上表現優于任務特定的演示檢索器（例如EPR（Rubin等人，2022））。

結論

本調查集中討論了使用檢索到的示例進行少樣本上下文學習（ICL）的方法，這是檢索增強生成（RAG）的關鍵方面。我們概述了各種檢索策略、多樣化的檢索模型、檢索池、訓練演示檢索器的技術以及應用。基于對當前趨勢的全面了解，我們提出了增強這一方法的有效性和功能性的一些有前途的未來發展方向。

付費5元查看完整內容

人類反饋強化學習 (RLHF) · 強化學習 ·

2023 年 12 月 25 日

[付費5元查看完整內容]基于人工反饋的強化學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人類反饋強化學習（RLHF）是強化學習（RL）的一個變體，它從人類反饋中學習，而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習（PbRL）的先前工作上，它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑，同時也改善了它們的目標與人類價值觀的一致性。在近年來，大型語言模型（LLMs）的訓練已經令人印象深刻地展示了這一潛力，其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述，探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF，但我們的綜述采取了更廣泛的視角，考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則，闡明算法與人類反饋之間的共生關系，并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景，本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。

1 引言

在強化學習（RL）中，智能體傳統上通過環境導航，并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義，以確保學習智能體接收到學習正確行為所需的信號。然而，手動設計獎勵函數是具有挑戰性的。在許多應用中，成功難以正式定義和衡量。除此之外，稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形（Ng等人，1999），即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響，即因通常與真正目標相關而被獎勵的行為，并不本身具有價值。這最終導致了獎勵黑客問題（Skalse等人，2022b），即學習智能體利用獎勵特定的漏洞以實現不希望的結果，同時仍然產生高獎勵。

作為對這些挑戰的回應，人類反饋強化學習（RLHF）作為一種實際意義上的替代方案出現，它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之，RLHF與RL的不同之處在于，目標是由循環中的人定義并迭代完善的，而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題，而且對智能體對齊有潛在的好處，其中智能體的學習目標與人類價值觀更緊密對齊，促進倫理上健全和社會負責的AI系統。自上一次類似的綜述（Wirth等人，2017）以來，RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型（LLMs）（OpenAI 2022）到圖像生成（Lee等人，2023），連續控制（Christiano等人，2017）和游戲（Ibarz等人，2018）以及機器人（Hejna等人，2023a）。與此同時，自上次類似的綜述（Wirth等人，2017）以來，方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度（Park等人，2022），使用元學習快速適應學習的偏好到新任務（Ren等人，2022），融合多種反饋類型（Palan等人，2019），使用自監著表征學習提高反饋效率（Metcalf等人，2022），主動合成假設行為進行查詢（Reddy等人，2020），以及優化查詢以便于回答（B?y?k等人，2020b）。最后，RLHF領域也取得了一些理論成果，為基礎數學問題的建模提供了新的見解，但也提出了新的問題。

因此，在這項綜述中，我們討論了RLHF正在進行的研究的當前狀態，分類了當前的方法以及簡潔地描述了它們的主要特征，并對應用領域進行了簡要概述。

1.1 為何需要人類反饋在傳統的RL中，代理的目標由其旨在最大化的獎勵函數定義（Sutton等人，2018）。特別是在復雜領域，指定這個獎勵函數可能是具有挑戰性的：對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車，合適的獎勵函數是什么樣的？此外，即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為，引發實際和安全問題。從人類反饋中學習代理的目標，可以繞過獎勵工程挑戰，并促進穩健訓練，隨著代理學習，獎勵函數會動態地細化和調整，以適應分布變化。反饋與示范逆向RL旨在從人類示范中推斷出獎勵函數（Arora等人，2021）。雖然這可以部分解決獎勵工程挑戰，但它面臨內在困難：（i）通常不可能從示范中穩健地識別獎勵（Cao等人，2021a），（ii）僅適用于可以獲得良好示范的場景，（iii）難以超越示范者的表現，以及（iv）人類通常不會展示他們希望機器采用的行為（Basu等人，2017）。相比之下，交互式反饋可以使用主動查詢區分人類偏好和無關噪聲，比提供示范更容易，不要求人類評估者接近最優表現，并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范，在這種情況下，它可以用來塑造和完善通過初步訓練（如行為克隆）學到的能力，從而防止過擬合于示范行為（Abramson等人，2022）。避免獎勵工程在RL中的獎勵工程提出了重大挑戰，因為準確指定獎勵函數是眾所周知的困難（Amodei等人，2016; Knox等人，2023）。通過利用人類反饋，可以緩解這些挑戰，使代理能夠訓練難以手動定義的任務，并幫助避免由不匹配的獎勵引起的安全問題（Skalse等人，2022b）。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題（Gabriel 2020），特別是代理對齊和價值對齊（Kirchner等人，2022）。盡管RLHF在解決這些對齊問題的有效性仍存在爭議（Christiano 2023），但它提出了一個促進對齊的有希望的方法（Leike等人，2018）。過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵（Lehman等人，2020; Baker等人，2020）或參與獎勵黑客行為（Skalse等人，2022b），即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標（Clark等人，2016）或為避免負面獎勵而過早退出游戲（Saunders等人，2018）的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道，但在諸如醫療保健和自動駕駛等安全關鍵的環境中，其含義則更為嚴重。在這些環境中，防止不匹配的獎勵函數導致有害結果至關重要，比如護理機器人造成傷害或自動駕駛汽車危及道路安全。

1.2 人類反饋強化學習的起源

作為RL的一個子領域，從人類反饋中學習行為已經被研究了很長時間，但方法和術語隨時間發展而演變。如Knox（2012）更詳細討論的早期方法，側重于直接從人類獎勵中學習（Isbell等人，2001；Knox等人，2008）。然而，本綜述關注的是更間接的方法，即從人類反饋中推斷目標。人類反饋強化學習（RLHF）的現代形式起源于偏好基強化學習（PbRL）的設置，最初由Akrour等人（2011）和Cheng等人（2011）獨立引入。PbRL的原始想法是從定性反饋中推斷目標，如行為或給定狀態下行動之間的成對偏好，而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出（Askell等人，2021；Ouyang等人，2022；OpenAI 2022），盡管最初指的是從相對反饋中學習行為的同一概念。由于文獻中的使用重疊，PbRL和RLHF的區分具有挑戰性。例如，Christiano等人（2017）自己使用了PbRL這個術語，但卻常被引用為RLHF的開創性參考（Daniels-Koch等人，2022；Ouyang等人，2022）。這表明了這些術語的可互換性。實際上，RLHF通常與獎勵建模和深度RL相關聯，而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人（2020）強調，他們將PbRL限定為僅從偏好直接進行策略學習。然而，這與其他來源不同，后者將獎勵學習包括在RLHF的范圍內（Christiano等人，2017；Wirth等人，2017）。

盡管存在重疊和有時存在沖突的使用，RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標，但PbRL主要關注相對反饋，如二元比較和排名。RLHF不僅包括這些方面，還擴展到更廣泛的反饋類型（Metz等人，2023）。表1提供了我們對這些術語的解釋性概述。

從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究，但隨著時間的推移，方法和術語已經發展。早期方法，如Knox（2012）詳細討論的，側重于直接從人類獎勵中學習（Isbell等人，2001；Knox等人，2008）。然而，本綜述關注的是更間接的推斷目標的方法，即從人類反饋中推斷。人類反饋強化學習（RLHF）的現代形式起源于偏好基強化學習（PbRL）的設置，最初由Akrour等人（2011）和Cheng等人（2011）獨立引入。PbRL的原始想法是從定性反饋中推斷目標，而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出（Askell等人，2021；Ouyang等人，2022；OpenAI 2022），盡管最初指的是從相對反饋中學習行為的同一概念。

由于文獻中的使用重疊，PbRL和RLHF的區分具有挑戰性。例如，Christiano等人（2017）自己使用了PbRL這個術語，但卻常被引用為RLHF的開創性參考（Daniels-Koch等人，2022；Ouyang等人，2022）。這表明了這些術語的可互換性。實際上，RLHF通常與獎勵建模和深度RL相關聯，而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人（2020）將PbRL限定為僅從偏好直接進行策略學習，而Christiano等人（2017）和Wirth等人（2017）則將獎勵學習包括在RLHF的范圍內。

盡管存在重疊和有時存在沖突的使用，RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標，但PbRL主要關注相對反饋，如二元比較和排名。RLHF不僅包括這些方面，還擴展到更廣泛的反饋類型（Metz等人，2023）。我們的綜述提供了這些術語的解釋性概述。

1.3 綜述范圍

本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。

獎勵建模我們關注的是從人類反饋中學習獎勵模型，然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略（Wirth等人，2017），但到目前為止，這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。

人類定義盡管有許多方法將人類包括在RL循環中，但在本綜述中，我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。

互動和在線我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。可擴展和異步我們關注的是將人類包括在循環中，但代理不被人類反饋阻塞，人類也不需要持續存在的工作。此外，我們主要關注2017年后發表的作品，因為更早的作品已由Wirth等人（2017）綜述。然而，為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念，我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣，將會作出例外。

1.4 先前的綜述

根據上一節提到的標準，我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來，這些領域共享人類參與RL的共同主題。然后，我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。

付費5元查看完整內容

序列數據分析 · 數據增強 · 深度學習 ·

2021 年 7 月 21 日

[付費5元查看完整內容]序列數據的數據增強方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

為了追求精度，深度學習模型框架的結構越來越復雜，網絡越來越深。參數量的增加意味著訓練模型需要更多的數據。然而人工標注數據的成本是高昂的，且受客觀原因所限，實際應用時可能難以獲得特定領域的數據，數據不足問題非常常見。數據增強通過人為地生成新的數據增加數據量來緩解這一問題。數據增強方法在計算機視覺領域大放異彩，讓人們開始關注類似方法能否應用在序列數據上。除了翻轉、裁剪等在時間域進行增強的方法外，也描述了在頻率域實現數據增強的方法；除了人們基于經驗或知識而設計的方法以外，對一系列基于GAN的通過機器學習模型自動生成數據的方法也進行了詳細的論述。介紹了應用在自然語言文本、音頻信號和時間序列等多種序列數據上的數據增強方法，亦有涉及它們在醫療診斷、情緒判斷等問題上的表現。盡管數據類型不同，但總結了應用在這些類型上的數據增強方法背后的相似的設計思路。以這一思路為線索，梳理應用在各類序列數據類型上的多種數據增強方法，并進行了一定的討論和展望。

//fcst.ceaj.org/CN/abstract/abstract2790.shtml

付費5元查看完整內容

圖對比學習 · 對比學習 ·

2021 年 6 月 19 日

[付費5元查看完整內容]【ICML2021】圖對比學習自動化

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖結構數據的自監督學習最近引起了從無標記圖學習可泛化、可遷移移和魯棒表示的興趣。其中，圖對比學習(GraphCL)以良好的表征學習性能出現。不幸的是，與圖像數據不同的是，GraphCL的有效性依賴于特定的數據擴展，由于圖數據的多樣性，必須根據經驗或反復試驗的規則手動選擇每個數據集。這極大地限制了GraphCL更普遍的適用性。為了填補這一關鍵空白，本文提出了一個統一的雙層優化框架，在對特定圖形數據執行GraphCL時自動、自適應、動態地選擇數據增強。聯合增強優化(JOint Augmentation Optimization, JOAO)的通用框架被實例化為最小最大化優化。JOAO所做的增強的選擇通常與從手工調優中觀察到的以前的“最佳實踐”一致:但現在已經自動化，更加靈活和通用。此外，我們提出了一種新的增強感知投影頭機制，在每個訓練步驟中，通過選擇不同的投影頭對應不同的增強來路由輸出特征。大量實驗表明，JOAO在不同規模和類型的多個圖數據集上的性能與最先進的競爭對手(包括GraphCL)相當，有時甚至更好，而無需對增強選擇進行任何費力的數據集特定調優。我們在//github.com/ Shen-Lab/GraphCL_Automated發布了代碼。

付費5元查看完整內容

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

檢索增強生成

大語言模型

多智能體協作

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

<tfoot id='mvhk0'></tfoot>

<legend id='mvhk0'><style id='mvhk0'><dir id='mvhk0'><q id='mvhk0'></q></dir></style></legend>

<i id='mvhk0'><tr id='mvhk0'><dt id='mvhk0'><q id='mvhk0'><span id='mvhk0'><b id='mvhk0'><form id='mvhk0'><ins id='mvhk0'></ins><ul id='mvhk0'></ul><sub id='mvhk0'></sub></form><legend id='mvhk0'></legend><bdo id='mvhk0'><pre id='mvhk0'><center id='mvhk0'></center></pre></bdo></b><th id='mvhk0'></th></span></q></dt></tr></i><div id='mvhk0'><tfoot id='mvhk0'></tfoot><dl id='mvhk0'><fieldset id='mvhk0'></fieldset></dl></div>