国产成人精品三级在线,国产日本亚洲欧美一区二区,全免一级久久久久片

檢索增強型生成（Retrieval-Augmented Generation, RAG）將檢索方法與深度學習的進展結合起來，旨在解決大型語言模型（LLMs）的靜態限制，通過動態整合最新的外部信息。這種方法主要關注文本領域，提供了一個成本效益高的解決方案，用以改進LLMs生成的可能正確但實際錯誤的回答，從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長，并融入多個可能影響其性能的概念，本文將RAG范式組織為四個類別：預檢索（pre-retrieval）、檢索（retrieval）、后檢索（post-retrieval）和生成（generation），從檢索的視角提供了詳細的觀點。文中概述了RAG的發展，并通過分析重要研究討論了該領域的進展。此外，本文還介紹了對RAG的評估方法，討論了所面臨的挑戰，并提出了未來的研究方向。通過提供一個有組織的框架和分類，該研究旨在整合現有關于RAG的研究，闡明其技術基礎，并強調其擴展LLMs的適應性和應用潛力。

//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb

ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界，已成為領先的人工智能工具（Laskar等人，2023年；Jahan等人，2023年；Huang與Huang，2024年）。ChatGPT的核心是大型語言模型（LLM）GPT-4，正如（OpenAI等人，2023年）所詳述，它在其前身的基礎上進行了多項增強，展示了在各種自然語言處理（NLP）任務中的卓越能力（Laskar等人，2020年）。盡管有這些進步，LLMs的采用突顯了幾個關鍵問題，主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力，導致三個主要挑戰。首先，側重于廣泛和通用數據以最大化可訪問性和適用性，結果在專業領域的性能不佳。其次，網絡數據的快速創建，加上數據注釋和模型訓練所需的大量資源，阻礙了LLMs的更新能力。第三，LLMs易于生成令人信服但不準確的回答，這種情況被稱為“幻覺”，可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成（Retrieval-Augmented Generation，RAG）技術，該技術通過在回應查詢時獲取外部數據來補充模型，從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人（Lewis等人，2020b）在2020年引入RAG技術以來，特別是受到ChatGPT成功的影響，RAG技術已經取得了重大進展。然而，在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外，該領域的研究重點多樣，對類似方法使用的術語含糊其辭，導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法，并對這一研究領域提供深入理解，以闡明這些方面。本綜述主要關注RAG的文本應用，反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題：有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述，將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節，對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結，以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向，專注于基于文本的研究，并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面：本文為理解RAG領域提供了一個全面的框架，確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析，考察了它們在解決檢索和生成問題上的優勢。此外，它介紹了RAG研究中使用的評估方法，突出了當前的挑戰，并提出了未來研究的有希望的方向。 2 RAG框架

幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息，提出了解決這一問題的方案，從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇，相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型（LMs），動態地合并新鮮信息，無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性，便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據，這不僅簡化了生成過程，還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究（Khandelwal等人，2020年）表明，從訓練數據集本身獲取相關信息可以顯著提高LLM的性能，凸顯了RAG的有效性。隨著時間的推移，RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性，并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化，增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。

2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型，該模型將檢索到的信息與查詢結合，以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引，其中數據準備是關鍵。這一階段涉及文本規范化過程，如分詞、詞干提取和停用詞移除，以增強文本的索引適用性（Manning等人，2008年）。然后，文本段落被組織成句子或段落，以便進行更有針對性的搜索，允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示，徹底革新了索引技術。這些向量被存儲，使從龐大的數據集中快速且精確地檢索成為可能，顯著提高了檢索效率。

2.1.2 檢索傳統的檢索方法，如BM25算法（Hancock-Beaulieu等人，1996年），側重于文檔排名的術語頻率和存在性，但通常忽視了查詢的語義信息。當前策略利用像BERT（Devlin等人，2019年）這樣的預訓練語言模型，更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構，提高搜索精度，通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的，將傳統檢索指標與語義理解結合，以產生既相關又符合用戶意圖的搜索結果。

2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來，然后輸入到一個LLM中進行文本生成（Li等人，2022年）。盡管確保生成文本的一致性和準確性面臨挑戰，但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致，同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究，提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制，對生成高質量結果至關重要。因此，從檢索角度看，這一范式被結構化為四個主要階段：預檢索、檢索、后檢索和生成。單跳和多跳檢索方法，包括迭代檢索-生成周期，遵循這四個階段的結構。圖3是RAG核心技術的分類樹。

2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎，確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引：過程從索引開始，建立一個有組織的系統，以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如，針對問答系統，句子級索引有助于精確定位答案，而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作：索引后，進行查詢操作以更好地匹配索引數據。這涉及查詢重構（Jansen等人，2009年；Yu等人，2020年），它重寫查詢以更緊密地符合用戶意圖；查詢擴展（Huang等人，2013年），通過同義詞或相關術語擴展查詢以捕獲更相關的結果；以及查詢規范化，解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改：數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術，如移除無關或冗余信息以提高結果質量，并通過如元數據等附加信息豐富數據，以增強檢索內容的相關性和多樣性（Bevilacqua等人，2022a）。

2.2.2 檢索搜索與排名：檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔，以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據，查找與用戶查詢匹配的文檔。識別相關文檔后，開始對這些文檔進行初步排名，按其與查詢的相關性進行排序。

2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔，提高文本生成的質量。這一階段包括重新排序和過濾，每項都旨在優化文檔選擇以完成最終的生成任務。重新排序：在重新排序步驟中，之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔，并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下，可以有效地使用精確度更高但效率較低的預訓練模型，因為可用的候選文檔集有限（Huang和Hu，2009年）。過濾：過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成，例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外，使用用戶或先前相關性評估的反饋有助于調整過濾過程，確保只保留用于文本生成的最相關文檔（Khattab和Zaharia，2020年；Huang和Huang，2023年）。

2.2.4 生成生成階段是RAG流程的關鍵組成部分，負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強：生成階段的核心是增強步驟，其目標是將檢索到的信息與用戶的查詢合并，創建一個連貫且相關的響應。這包括闡述過程，向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量，增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起，提供全面的視角，并進行驗證，以確保內容的準確性和相關性。定制：定制是一個可選步驟，涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容，并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要，確保輸出既信息豐富又簡潔。

付費5元查看完整內容

相關內容

大型語言模型

關注 94

多模態大模型 · 大型語言模型 · 綜述 ·

2024 年 5 月 20 日

[付費5元查看完整內容]《高效多模態大型語言模型》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在過去的一年中，多模態大型語言模型（MLLMs）在視覺問答、視覺理解和推理等任務中表現出色。然而，龐大的模型規模和高昂的訓練與推理成本阻礙了MLLMs在學術界和工業界的廣泛應用。因此，研究高效且輕量級的MLLMs具有巨大的潛力，特別是在邊緣計算場景中。在這篇綜述中，我們對當前高效MLLMs的研究現狀進行了全面而系統的回顧。具體來說，我們總結了代表性高效MLLMs的時間線、高效結構和策略的研究現狀以及應用。最后，我們討論了當前高效MLLM研究的局限性和未來有前景的研究方向。更多詳情請參考我們的GitHub倉庫：//github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

大規模預訓練作為人工智能（AI）領域的一種領先方法，使得像大型語言模型和多模態模型這樣的通用模型在許多任務中超越了專門的深度學習模型。大型語言模型（LLM）的卓越能力激發了將它們與其他基于模態的模型結合起來以增強多模態能力的努力。這一概念得到了OpenAI的GPT-4V[1]和Google的Gemini[2]等專有模型顯著成功的進一步支持。因此，多模態大型語言模型（MLLMs）應運而生，包括mPLUG-Owl系列[3, 4]、InternVL[5]、EMU[6]、LLaVA[7]、InstructBLIP[8]、MiniGPT-v2[9]和MiniGPT-4[10]。這些模型通過有效利用每種模態的預訓練知識，繞過了從頭開始訓練的計算成本。MLLMs繼承了LLM的認知能力，展示了許多顯著特性，如強大的語言生成和遷移學習能力。此外，通過與其他基于模態的模型建立強大的表示連接和對齊，MLLMs能夠處理來自多種模態的輸入，顯著拓寬了它們的應用范圍。 MLLMs的成功主要歸因于規模定律：隨著數據、計算能力或模型規模等資源的增加，AI模型的性能會提高。然而，可擴展性伴隨著高資源需求，這阻礙了大型模型的發展和部署。例如，MiniGPT-v2的訓練需要基于NVIDIA A100 GPU計算出的總計超過800個GPU小時[9]。這對主要企業外的研究人員來說是一個巨大的費用負擔。除了訓練之外，推理也是MLLMs資源消耗的主要部分。考慮一個典型場景，模型輸入包括一個尺寸為336 × 336像素的圖像和一個長度為40個tokens的文本提示，使用LLaVA-1.5和Vicuna-13B LLM骨干進行推理需要18.2T的FLOPS和41.6G的內存使用量。大規模模型的資源密集型特性也引發了關于民主化和隱私保護的擔憂，因為當前主流的MLLMs，如GPT-4V和Gemini，由少數幾家主導企業控制，并在云端運行。如上述實驗所示，即使是開源的MLLMs，對計算資源的高要求也使得在邊緣設備上運行它們變得具有挑戰性。這進一步加劇了確保公平訪問和保護用戶隱私的挑戰。

鑒于這些挑戰，高效MLLMs的研究受到了越來越多的關注。這些努力的主要目標是減少MLLMs的資源消耗，擴大其適用性，同時盡量減少性能下降。高效MLLMs的研究始于用輕量級替代品替換大型語言模型，并進行典型的視覺指令微調。隨后，研究進一步通過以下方式增強了能力并擴展了用例：(1)引入更輕量的架構，注重效率，旨在減少參數數量或計算復雜度[25, 13, 18]；(2)開發了更專業的組件，聚焦于高級架構的效率優化或賦予特定屬性，如局部性[19, 17, 12]；(3)支持資源敏感任務，一些工作采用視覺token壓縮來提高效率，使MLLM的能力能夠轉移到資源密集型任務中，如高分辨率圖像和視頻理解[35, 39, 14, 40]。

在本綜述中，我們旨在呈現快速發展的高效MLLMs領域的最新進展，如圖2所示。我們將文獻組織成六個主要類別，涵蓋高效MLLMs的各個方面，包括架構、高效視覺、高效LLMs、訓練、數據和基準測試以及應用。Architecture 關注通過高效技術開發的MLLM框架，以降低計算成本。該架構由多個基于模態的基礎模型組成，具有不同于單模態模型的特征，從而促進了新技術的發展。

Efficient Vision 探討優化高效視覺特征提取策略，強調在保持準確性的同時提高效率的方法。它解決了集成高質量視覺數據以實現有效跨模態理解的問題。

Efficient LLMs 探索提高語言模型計算效率和可擴展性的策略。它研究了模型復雜性與性能之間的權衡，并提出了平衡這些競爭因素的有前景途徑。

Training 調查了對高效MLLMs開發至關重要的訓練方法的現狀。它解決了與預訓練階段、指令微調階段及整體訓練策略相關的挑戰，以實現最先進的結果。

Data and Benchmarks 評估用于多模態語言模型評估的數據集和基準測試的效率。它評估了數據集規模、復雜性和計算成本之間的權衡，同時倡導開發優先考慮效率和與現實世界應用相關性的基準測試。

Application 研究高效MLLMs在各個領域的實際影響，強調性能和計算成本之間的平衡。通過解決諸如高分辨率圖像理解和醫療問答等資源密集型任務，本節強調了高效MLLMs在拓寬其應用范圍和解決現實問題方面的潛力。

總之，這篇綜述深入探討了這些研究工作，探索了多種使MLLMs更具資源效率的策略。我們回顧了高效MLLMs的發展歷史，提供了高效MLLMs策略的分類法，并全面比較了現有高效MLLMs的性能。通過這一探索，我們希望提供對當前最先進技術的全面理解，從而揭示這一新興領域的復雜細微之處。此外，這篇綜述還充當了路線圖，突出了未來研究的潛在途徑，促進了對高效MLLMs領域挑戰和機遇的更深入理解。除了這篇綜述，我們還建立了一個GitHub倉庫，收錄了綜述中提到的論文，并按照相同的分類法進行整理，地址為：

按照標準的MLLM框架，高效MLLMs可以分為三個主要模塊：視覺編碼器g，負責接收和處理視覺輸入；預訓練語言模型，管理接收到的多模態信號并進行推理；視覺-語言投影器P，作為連接兩種模態的橋梁。為了提高通用MLLMs的效率，主要的優化在于處理高分辨率圖像、壓縮視覺令牌、實施高效結構以及使用緊湊的語言模型等策略。圖3展示了架構圖。表1概述了高效MLLMs的總結，包括基礎LLM、視覺編碼器、圖像分辨率和用于連接視覺和語言的投影器。這些高效MLLMs包括：MobileVLM[20]、LLaVA-Phi[21]、Imp-v1[22]、TinyLLaVA[23]、Bunny[24]、Gemini Nano-2[2]、MobileVLMv2[17]、MoE-LLaVA-3.6B[25]、Cobra[13]、Mini-Gemini[26]、Vary-toy[27]、TinyGPT-V[28]、SPHINX-Tiny[14]、ALLaVA[29]、MM1-3B[30]、LLaVA-Gemma[31]、Mipha-3B[32]、VLMamba[18]、MiniCPM-V2.0[70]、DeepSeek-VL[34]、KarmaVLM[71]、moondream2[72]。在本節中，我們將按順序全面概述這三個模塊以及其他高效組件。

Vision Transformer (ViT) [94] 架構在計算機視覺應用中獲得了顯著的關注并被廣泛使用。然而，隨著ViT模型規模的增長，可訓練參數和操作數量也隨之增加，影響了它們的部署和性能。此外，自注意力機制的計算和內存成本隨著圖像分辨率的增加呈二次增長。參考論文[95]，本綜述旨在探索可用于高效MLLMs的最有效的視覺編碼方法。

付費5元查看完整內容

視覺Transformer ·

2024 年 5 月 5 日

[付費5元查看完整內容]《模型量化與視覺變換器硬件加速》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

視覺變換器（Vision Transformers，ViTs）最近引起了相當大的關注，作為卷積神經網絡（CNNs）的有希望替代品，在幾個與視覺相關的應用中顯現出來。然而，它們龐大的模型尺寸以及高計算和內存需求阻礙了部署，特別是在資源受限的設備上。這強調了針對ViTs的算法-硬件協同設計的必要性，旨在通過定制算法結構和底層硬件加速器來優化它們的性能，以彼此的優勢為依托。模型量化通過將高精度數值轉換為低精度，減少了ViTs的計算需求和內存需求，允許創建專門為這些量化算法優化的硬件，提高效率。本文提供了ViTs量化及其硬件加速的全面綜述。我們首先深入探討ViTs的獨特架構屬性及其運行特性。隨后，我們檢查模型量化的基本原理，接著是對ViTs最先進量化技術的比較分析。此外，我們探索了量化ViTs的硬件加速，強調了硬件友好算法設計的重要性。最后，本文將討論持續的挑戰和未來研究方向。我們在

//github.com/DD-DuDa/awesome-vit-quantization-acceleration 上持續維護相關的開源材料。

在計算機視覺領域，卷積神經網絡（CNNs）歷來是基石，已在眾多任務中展示出顯著的效果。然而，隨著變換器（Transformer）架構的出現，情況開始發生變化。變換器在自然語言處理（NLP）中取得了巨大成功之后，被適配用于計算機視覺，形成了視覺變換器（Vision Transformers，ViTs）。ViTs的關鍵特性是自注意力（self-attention），它允許模型通過學習圖像標記序列中元素之間的復雜關系，從而在上下文中分析視覺數據。這種把握更廣泛上下文及圖像內部依賴關系的能力，推動了基于變換器的視覺模型的迅速發展，并隨后將它們確立為多種任務的新基礎，包括圖像分類、對象檢測、圖像生成、自動駕駛和視覺問題回答，展示了它們在計算機視覺中的多功能性和變革性影響。盡管ViTs具備卓越的能力，但由于其本質上龐大的模型尺寸以及自注意力機制導致的計算和內存需求呈二次方增長，特別是在圖像分辨率提高時，這些因素顯著阻礙了其在計算和內存資源受限的設備上的部署，尤其是在如自動駕駛和虛擬現實等實時應用中，滿足低延遲需求和提供高質量用戶體驗至關重要。這強調了對模型壓縮技術如剪枝、量化、知識蒸餾和低秩分解等進步的迫切需要。此外，ViTs的迅速采用不僅歸功于算法創新和數據可用性，還歸功于處理器性能的提升。雖然CPU和GPU提供廣泛的計算多樣性，但它們固有的靈活性可能導致效率低下。鑒于ViTs的重復性但又獨特的操作特性，利用專門設計的硬件來優化數據重用，從而提高ViT部署的效率，存在明顯的機會。量化是一種將高精度映射為低精度的技術，已成功地促進了輕量級和計算效率高的模型的創建，增強了算法與硬件的交互。在算法方面，有多種專門為ViTs設計的技術，旨在在數據壓縮至較低位寬后保持應用的準確性。其中一些技術被設計得更符合硬件友好，考慮到現有的架構，如GPU的INT8/FP8 Tensorcore。在硬件方面，高級量化算法的優化推動了更高效處理器的設計，可能包括更有效的數據重用模塊，用于并行處理低位數據。算法和硬件的共同設計是現代硬件加速器開發中的常見方法，顯著提高了它們的性能。然而，近年來發布的大量相關工作使得初學者難以獲得全面的概述和清晰的比較結果。此外，一些在不考慮實際硬件的情況下模擬算法設計的方法，在部署時可能導致意外的精度低下。迫切需要一項全面的綜述，總結、分析并比較這些方法。本文力求填補這一空白，提供了關于ViTs量化及其硬件加速的廣泛回顧。具體而言，我們深入探討了ViTs量化的細微挑戰，從算法和硬件兩個角度出發，提供了不同量化方法的縱向比較，并在圖1中進行了說明。此外，我們展示了先進的硬件設計解決方案，并推測未來的趨勢和潛在機會。與近期的綜述相比——有些專注于各種高效技術但不考慮硬件，有些僅限于推理優化且算法細節有限，還有些提供了主要針對大型語言模型的模型壓縮的廣泛概覽——本文提供了詳細的描述和比較，以協同的方式處理算法與硬件的相互作用，從而提供了對ViTs量化領域更清晰、更有結構的洞見。本文的組織結構如下所述。第二部分深入探討了視覺變換器的架構，介紹了其變體，并通過分析其運行特性和瓶頸進行了剖析。第三部分闡述了模型量化的基本原理。隨后，第四部分檢查了與ViTs量化相關的迫切挑戰，并提供了先前方法性能的比較回顧。第五部分探索了可用于硬件加速的方法范圍。最后，第六部分總結了本文，突出了潛在的機會和挑戰。

付費5元查看完整內容

大型語言模型 · 持續學習 ·

2024 年 4 月 26 日

[付費5元查看完整內容]《大型語言模型持續學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在靜態、預先收集的通用數據集上的訓練取得的最近成功，已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習（CL）社區進行了廣泛研究，但在LLMs領域呈現出新的表現形式。在這篇綜述中，我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外，這篇綜述被分為四個主要部分：我們首先描述了持續學習LLMs的概覽，包括兩個連續性方向：垂直連續性（或垂直持續學習），即從一般到特定能力的持續適應；和水平連續性（或水平持續學習），即跨時間和領域的持續適應（第3節）。在垂直連續性之后，我們總結了在現代CL背景下學習LLMs的三個階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。然后我們提供了LLMs的持續學習評估協議的概覽，以及當前可用的數據來源（第5節）。最后，我們討論了有關LLMs持續學習的引人深思的問題（第6節）。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域，表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準，以及專門設計的方法論，以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型（LLMs）的進步顯示了實現人工普遍智能（AGI）的巨大潛力。研究人員觀察到，隨著參數規模的增加，多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性，促使機器學習從業者重新考慮傳統的計算范式，用于處理一些曾經具有挑戰性的人類水平任務，如問答、機器翻譯和對話系統。然而，LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練，導致性能隨時間逐漸降低，并且在不同內容領域之間也會降低。此外，單一的預訓練大模型無法滿足每個用戶的需求，需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案，但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務，同時盡量減少對以前知識領域的性能退化，研究者采用了持續學習的方法，也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發，涉及按順序在一系列任務上訓練機器學習模型，期望在所有任務中保持性能。在訓練過程中，模型對以前的數據有限或無法訪問，這在保留過去知識時構成了一個挑戰，因為在當前任務學習時，來自未見過的以前數據的優化約束是不存在的。這一挑戰，被稱為災難性遺忘，自持續學習研究開始以來一直是研究的中心焦點。多年來，研究者探索了各種技術來減輕機器學習模型中的遺忘，這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下，CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變，在這篇綜述中，我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況，我們將其分為兩個需要由從業者解決的連續性方向（第3節）：

垂直連續性（或垂直持續學習），指的是LLMs從大規模通用領域到小規模特定領域的持續適應，涉及學習目標和執行實體的轉變。例如，醫療機構可能開發專門為醫療領域定制的LLMs，同時保留其一般推理和問答能力，以服務用戶。
水平連續性（或水平持續學習），指的是跨時間和領域的持續適應，通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如，社交媒體平臺不斷更新LLMs以反映最近的趨勢，確保精確地定位下游服務如廣告和推薦，同時為現有用戶提供無縫的用戶體驗。

在圖1中，繼垂直連續性之后，我們勾畫了現代CL中LLM學習的三個關鍵階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。在CPT中，現有研究主要調查三種類型的分布式轉變：時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中，雖然它主要被視為為下游任務準備LLMs的過程，但頻繁地使用CL評估和技術。然而，這些技術的多樣性明顯不足，考慮到傳統CL社區的成熟度。在CFT中，我們關注的是學習LLMs的新興領域，涵蓋持續指令調整（CIT）、持續模型精煉（CMR）、持續模型對齊（CMA）和持續多模態LLMs（CMLLMs）等主題。接下來，我們呈現了一系列公開可用的評估協議和基準（第5節）。我們總結我們的綜述，討論了LLMs持續學習的最新出現的特性，傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化，以及這個主題的潛在研究方向（第6節）。總結而言，本文提供了一份詳盡的現有持續學習研究LLMs的綜述，顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域，特別是在持續預訓練（CPT）和領域適應性預訓練（DAP）領域的研究。我們強調需要社區更多的關注，迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外，需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角，在迅速變化的LLMs領域中，幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看，它可以大致分為三個階段的LLMs持續訓練，我們將在第4節逐一介紹每個階段。在4.3節中，將介紹持續微調LLMs的獨特方面，包括持續指令調整（4.3.3節）、持續模型精煉（4.3.4節）、持續模型對齊（4.3.5節）和持續多模態大型語言模型（4.3.6節）。在第5節中，我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后，在第6節中，我們討論了在大型語言模型時代持續學習的角色，包括大規模持續LLMs的新興能力（6.1節）、三種類型的持續學習（6.2節）、LLMs持續學習中的記憶角色（6.3節）以及未來的研究方向（6.4節）。持續學習與大型語言模型相遇：概覽****大型語言模型（LLMs）在多個維度上都非常龐大，包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰，特別是在快速變化的環境中保持更新。舉例來說，2023年，用戶發布的新推文的平均每日流量超過5億，即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時，有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側，模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后，消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率，他們最初對持續預訓練的LLMs進行了幾項關鍵觀察，聚焦于模式連接性和功能相似性。此外，他們提出在上游預訓練LLM進行重大更新后，復用過時的微調組件。基于《可回收調整》引入的概念框架，我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架，涉及持續LLM預訓練、適應和部署，如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向：垂直連續性和水平連續性。

結論

在這項工作中，我們提供了一份關于持續LLMs的綜述，從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置，對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長，但我們也注意到幾個缺失的基石，包括算法多樣性以及對大模型行為（如知識遺忘、轉移和獲取）的基本理解。通過全面而詳細的方法，我們希望這篇綜述能激勵更多從業者探索持續學習技術，最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

圖強化學習 · 組合優化 · 綜述 ·

2024 年 4 月 10 日

[付費5元查看完整內容]《圖強化學習在組合優化中的應用》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖是一種自然表示方式，適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時，會出現組合優化問題，這些問題通常具有挑戰性，因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法，如精確算法和（元）啟發式算法，用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域，但它們具有顯著的共性。因此，我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中，將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后，我們回顧了這些研究工作，并沿著是否旨在優化給定過程的圖結構，或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后，我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同，本工作關注于非典型圖問題，對于這些問題，通常沒有已知的高效算法，而強化學習能夠提供高效且有效的解決方案。

圖是一個數學概念，用于形式化由關系（邊）連接的實體（節點）的系統。超越原始拓撲結構，圖中的節點和邊常常與屬性相關聯：例如，一個邊可以與距離度量的值相關聯（Barthélemy, 2011）。通過這樣的特性增強，圖成為了一種強大的形式主義，能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域（Newman, 2018）。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為，構建預測模型和算法，并將它們應用于實際問題。除了描述在圖上發生的過程外，一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性，因為解決方案空間的迅速增長。一個著名的例子是旅行商問題（TSP），它要求在一個完全連通的圖中找到一個哈密頓回路，使得路徑長度總和最小化。

近年來，機器學習（ML）開始作為解決組合優化問題的有價值工具而興起，研究人員預計其影響將是革命性的（Bengio et al., 2021; Cappart et al., 2021）。特別是，強化學習（RL）的范式已顯示出通過試錯發現能夠勝過傳統精確方法和（元）啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程（MDP），在其中，一個代理逐步構建解決方案，并根據其優化目標函數的能力獲得獎勵。從MDP公式開始，可以透明地應用各種RL算法，這使得這種方法在可以解決的問題類型上非常靈活。與此同時，開始出現了使用RL解決圖組合優化問題的工作，涵蓋了從化學（You et al., 2018a），計算機科學（Valadarsky et al., 2017），經濟學（Darvariu et al., 2021b）到統計學（Zhu et al., 2020）等多種科學領域。

本綜述的目標是提出一個統一框架，我們稱之為圖強化學習（Graph RL），用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題，重點是那些通常不知道有效、高性能算法的非典型問題。事實上，最近的綜述關注的是應用RL解決典型問題的作品，我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如，僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文（1954），并且存在非常有效的算法可以最優地（Applegate et al., 2009）或近似地（Lin & Kernighan, 1973; Helsgaun, 2000）解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集（Ahn et al., 2020）、最大割（Khalil et al., 2017; Ahn et al., 2020）以及諸如車輛路徑問題（VRP）（Kool et al., 2019; Kim & Park, 2021）等路由問題。除了少數例外，盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要，但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此，本文與其他綜述（Mazyavkina et al., 2021; Wang & Tang, 2021）和觀點（Bengio et al., 2021; Cappart et al., 2021）相輔相成，無論是在提出統一范式還是關注非典型問題方面。

本文的其余部分如下組織。在第2節中，我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后，在第3節中，我們回顧了考慮優化圖結構的工作（即，從頭開始創建圖或修改現有圖）以使目標函數最大化。然后，在第4節中，我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰，這些也可以視為未來工作中需要解決的重要研究問題，此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。

圖結構優化在機器學習（ML）處理典型圖組合優化問題的工作中，一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說，需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分，我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作，并使用強化學習（RL）來發現實施這一過程的策略。這是通過與環境的互動來執行的。

在高層次上，這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G，其中G是要搜索的可能圖的集合，F如前所述，是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題，并可能涉及從一個空圖開始還是從一個現有的圖開始選擇，以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示，動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連，或者這些操作的某種組合。鑒于范圍的自然限制，我們只考慮那些（1）使用圖表示問題；（2）通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行，并可被視為經典圖生成模型的基于ML的替代方法，例如Barabási & Albert（1999）的模型。這些工作主要使用最終圖（即“成品”）的示例數據集，并不使用中間的，從某種意義上說，對應于生成過程本身的步驟。它們還需要大量相關的示例集合，這些可能并不總是可用的，具體取決于領域。

在這一領域，使用自回歸模型（如LSTM或GRU）的工作類似于MDP公式；例如添加邊的決策可以被視為序列中的一個標記，由模型學習。這一領域的一些值得注意的工作包括Li等人（2018）提出的技術，GraphRNN（You等人，2018b），以及圖重復注意網絡（Liao等人，2019）。其他類型的生成模型，如變分自編碼器和生成對抗網絡，也被用于生成分子（Kusner等人，2017; Guimaraes等人，2018; De Cao & Kipf, 2018; Jin等人，2018）。

本節的其余部分深入回顧了相關論文，按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。在這項綜述中，我們討論了圖強化學習這一新興領域，這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題，以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化，包括需要找到最優圖結構的問題，這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化，將圖結構視為固定不變，代理在離散的可能控制行動空間中進行搜索，以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后，我們討論了該領域面臨的主要挑戰，其解決可能具有非常重大的影響。

付費5元查看完整內容

大語言模型 · 提示學習 ·

2024 年 4 月 2 日

[付費5元查看完整內容]大型語言模型的高效提示方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

提示 (Prompting) 已成為將大型語言模型（LLMs）適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門，但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示，特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果，LLM領域見證了高效提示方法的顯著增長。在本文中，我們提供了這些方法的全面綜述。從高層次來看，高效提示方法大致可以分為兩種途徑：具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式，后者采用自動提示優化的技術。我們介紹了提示的基本概念，回顧了高效提示的進展，并突出了未來研究方向。

大型語言模型（LLMs）已顯著推進了各種自然語言處理（NLP）任務的最新進展，例如對話、機器翻譯和摘要生成（Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023）。提示是人機交互的一個重要媒介，用于向LLMs明確傳達清晰的任務描述，然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化，特別是包含指令、問題、帶有特定輸出格式的多重演示，以及額外要求，如復雜的推理過程和角色扮演命令。在本文中，“提示”一詞指的是用戶輸入給LLMs的內容。

然而，隨著LLMs的上下文學習（ICL）能力變得更強（Dong et al., 2022），為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題：1) 對LLM本身而言，上下文窗口是有限的，影響其處理過度冗長上下文的潛力；2) 對LLM用戶而言，它要求使用大量的計算資源來訓練開源模型，或者承擔調用閉源模型接口的高成本。從這個角度來看，LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然，性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進，如高效注意力機制（參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作），可以有效減輕推理成本，在本文中，我們更側重于高效提示方法，以節省不必要的財務開銷。

考慮到財務和人力資源，效率可以從三個角度得到改善：1) 推理加速，2) 內存消耗下降，和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現，而第三個目標可以基于提示工程而非手工設計，通過自動提示優化實現。據我們所知，文獻中關于高效提示方法的全面整合存在顯著差距。

在這篇綜述中，我們從第2節的提示背景介紹開始。隨后，我們從計算（第3節）和設計（第4節）的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別：知識蒸餾（第3.1節）、編碼（第3.2節）和過濾（第3.3節）。后者探討基于傳統梯度下降（第4.1節）和智能進化算法（第4.2節）的自動提示優化。特別地，我們將高效提示抽象為一個多目標優化問題，并從理論角度展望未來方向（第5節）。最后，我們在第6節總結了全文。此外，我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。

總述

**提示范式 **

提示的出現與預訓練語言模型（PLMs）的演進和大型語言模型（LLMs）的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer（Vaswani et al., 2017）被提出以來，它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解（NLU）和自然語言生成（NLG）任務，主流PLMs逐漸演化成BERT（Devlin et al., 2019）和GPT（Radford et al., 2018）系列模型。有許多優化策略，如探索編碼方法（Su et al., 2021）、改進自監督學習機制（Roy et al., 2021）和精煉模型結構（Li et al., 2021），以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變（Liu et al., 2023b），從“完全監督學習”演化為“預訓練與微調”，最終演化為“預訓練、提示和預測”（如圖1所示）。在這篇綜述中，我們將專注于目前最廣泛采用的提示范式，深入探討其最近的發展。值得注意的是，GPT-3（Brown et al., 2020）在引入硬提示方面發揮了開創性作用，使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數，它使GPT-3具備了深入理解自然語言的能力，從而允許它利用復雜的硬提示進行少量樣本學習，無需微調。LLM進展在GPT-3開創LLM時代之后，ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則（Wei et al., 2022a）展示了顯著的新興能力（例如，指令跟隨、上下文學習和復雜推理），研究人員持續探索提示的性能邊界，無論是開源還是閉源的LLMs。例如，像思維鏈（CoT）（Wei et al., 2022b）這樣的復雜提示通過大聲思考，增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位，LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此，有效的提示方法以節約資源引起了廣泛興趣。

提示類型

本質上，提示的主要目標是實現有效的少量樣本學習，而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型，如圖2所示：離散的自然語言提示（稱為硬提示）和連續的可學習向量（稱為軟提示）。2.2.1 硬提示硬提示特別適用于生成性語言模型，尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看，由于大量的預訓練數據集成到LLMs中，人類可以通過母語輕松地與世界知識壓縮器（即LLM）交互，最終獲得有用的響應。從消極的角度來看，由于當前LLMs廣泛采用閉源性質，使得其參數權重不可訪問，用戶別無選擇，只能通過API調用與LLMs使用硬提示。盡管如此，LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎，而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初，硬提示包括類似于Cloze任務設計的簡潔任務指令。然而，隨著LLMs的理解能力不斷提高，硬提示已演化為包含更廣泛元素的數組，最常見的包括演示和思維鏈，如圖3所示。當前NLP社區對硬提示的日益興趣，甚至是解鎖LLMs全部潛力的教程，表明了對人模型對齊導致人工通用智能（AGI）的渴望。2.2.2 軟提示在提示相關研究的早期階段，軟提示以適配器（Houlsby et al., 2019）、前綴（Li & Liang, 2021）甚至是無法解釋的向量的形式出現。許多研究（Lester et al., 2021; Liu et al., 2022）探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數，僅訓練軟提示以實現完整參數微調的效果。Ding et al.（2022）的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新，軟提示顯然更有利于LLMs有效理解提示。需要注意的是，本文討論的軟提示僅僅是LLMs的硬提示的向量表示，如圖2所示，而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示（參見第3.1節和第3.2節以獲取詳細見解）。

挑戰

鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性，因此導致更長且更復雜的提示。在這篇綜述中，我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰：長度問題提示的長度通常取決于特定任務，演示越多，性能越好。例如，思維鏈（CoT）提示顯著增強了LLMs的邏輯推理能力，導致出現了各種基于CoT的方法。像Self-Ask（Press et al., 2022）和最少到最多提示（Zhou et al., 2022a）幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.（2022）采樣了多樣化的推理路徑，而Wang et al.（2023b）指導LLMs生成正確的PS（計劃和解決方案），然后選擇最終答案。然而，使用這種復雜提示的優勢伴隨著更高的財務負擔，以及LLMs的信息感知能力降低。難以設計的提示由于自然語言的離散性質，早期可用的硬提示通常是手工設計的，然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識，并涉及明顯的人為主觀性。但是，人類解決問題的方法與神經網絡之間存在差異，換句話說，LLMs的可解釋性仍然是持續探索的話題，目前尚無公認的理論指導。因此，針對LLMs的提示設計面臨許多挑戰，包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯，以及提示的模型和任務特定屬性。因此，面對不同模型和不同任務，手動設計高質量提示既耗時又費力。總之，提示有效地緩解了應用于下游任務時的參數冗余問題，從而節省了財務資源。然而，在LLMs時代，提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰，這偏離了提示的原始目的。因此，這篇綜述深入探討了當前在LLMs中使用的高效提示方法。

使用高效計算的提示

隨著大型語言模型（LLMs）規模的不斷擴大，“使用高效計算的提示”概念應運而生，旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到，壓縮的提示可以被LLMs有效重構，并減少生成文本的長度（Jiang et al., 2023a）。在本節中，我們提供了與提示壓縮相關研究的見解，將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息，以便LLMs能夠保持與原始提示相當的性能水平。

使用高效設計的提示

“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺，以及梯度基礎的提示微調方法不再適用于閉源LLMs，基于提示工程（PE）的自動優化逐漸成為焦點。具體來說，本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示，以最大化任務準確性。基于LLMs的強大通用能力，自動提示優化顯示出了有希望的進展，其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題，因此將本節分為基于梯度的方法和基于進化的方法。

結論

在這項工作中，我們總結了用于LLMs的高效提示方法，目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作，揭示了各類別內部的固有聯系，并從理論角度深度抽象這些方法。最后，我們為LLM實踐者提供了一個開源項目清單A.2，以便在科學研究和商業部署中快速參考，以及一個類型學圖A.3，以概覽高效提示領域。

付費5元查看完整內容

多模態大模型 · 大型語言模型 ·

2024 年 2 月 23 日

[付費5元查看完整內容]《多模態大型語言模型進化》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此，受到大型語言模型成功的啟發，大量研究努力正被投入到多模態大型語言模型（MLLMs）的開發中。這些模型能夠無縫整合視覺和文本模態，無論是作為輸入還是輸出，同時提供基于對話的界面和遵循指令的能力。在這篇論文中，我們提供了近期基于視覺的MLLMs的全面回顧，分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析，包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外，我們編制并描述了訓練數據集和評估基準，就性能和計算需求在現有模型之間進行了比較。總的來說，這篇綜述提供了當前藝術狀態的全面概述，為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構（Vaswani et al., 2017）的引入，使得創建能夠處理各種模態的模型成為可能，并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初，這一突破被用于語言特定模型（Devlin et al., 2018; Brown et al., 2020），但很快擴展到支持視覺處理骨干（Dosovitskiy et al., 2021），最終用于集成多種模態的模型（Radford et al., 2021）。復雜大型語言模型（LLMs）的涌現，特別是它們進行上下文學習的能力，鼓勵研究人員將這些模型的應用范圍拓寬到多模態，包括作為輸入和輸出。這一擴展導致了如GPT-4V（Achiam et al., 2023）和Gemini（Anil et al., 2023）等尖端模型的開發，展示了最先進的性能。多模態大型語言模型（MLLMs）的開發涉及將視覺和語言的單模態架構合并，通過視覺到語言的適配器建立它們之間的有效連接，并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下，我們的目標是提供關于MLLM領域的全面概述，重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新，也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面：它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著，我們深入訓練過程和使用的數據。然后，我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人（2020）發現上下文學習，即在提示前附加一些示例以演示大型語言模型（LLM）的期望輸出（Chowdhery等人，2023；Hoffmann等人，2022；Tay等人，2022），可以提高其性能，特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述，可以進一步提高泛化能力。這種技術，稱為指令調優（Chung等人，2022；Wang等人，2022b,a；Jiang等人，2024），對于使LLM的行為與人類的行為對齊至關重要，目前賦能了最先進的LLM，最終通過來自人類反饋的強化學習（RLHF）（Ouyang等人，2022；Achiam等人，2023；Chen等人，2023j；Bai等人，2023a）得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時，參數高效微調（PEFT）方案代表了訓練整個LLM的一個重要替代方案，因為這些策略只引入少量新參數。其中，提示調優（Hambardzumyan等人，2021；Lester等人，2021；Li和Liang，2021；Liu等人，2023j）學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是，LoRA（Hu等人，2021）通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA（Dettmers等人，2023）等量化方法正交，進一步減少了LLM的內存占用，與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似，Flamingo（Alayrac等人，2022）是首個在視覺-語言領域探索大規模上下文學習的模型。然后，視覺指令調優（Liu等人，2023e）迅速成為多模態領域中最突出的訓練范式，以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件（圖1）：作為與用戶接口的LLM主干，一個（或多個）視覺編碼器，以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族（Touvron等人，2023a,b），鑒于它們的權重是自由可獲取的，它們僅在公開數據上進行了訓練，并且它們擁有不同的大小以適應各種用例。此外，它們的衍生版本也很受歡迎，例如Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。前者在GPT-3編寫的指令上微調LLaMA，而后者利用用戶與ChatGPT（OpenAI，2022）的共享對話。其他選擇包括OPT（Zhang等人，2022b），Magneto（Wang等人，2023b），MPT（MosaicML，2023），以及經過指令調優（Chung等人，2022）或多語言（Xue等人，2020）版本的T5（Raffel等人，2020），一種為多個任務預訓練的編解碼器語言模型。本調查中涵蓋的MLLM的總結報告在表1中，指出每個模型基于哪個LLM，視覺編碼器，用于連接視覺和語言組件的適配器，MLLM是否經過視覺指令調優訓練，以及主要任務和能力的簡短列表。視覺編碼器在MLLM中，一個關鍵組件是視覺編碼器，它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器，同時只訓練一個可學習的接口，將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer（ViT）模型，具有CLIP-based目標，以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP（Radford等人，2021）的ViT-L模型，OpenCLIP（Wortsman等人，2022）的ViT-H主干，以及EVA-CLIP（Fang等人，2023）的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練，采用對比方法對正確的圖像-文本對進行對齊。相反，EVA-CLIP是一系列模型，提供了訓練CLIP模型的實用有效解決方案。特別是，EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征，條件是可見的圖像塊。正如（Li等人，2023f）所示，更強大的圖像編碼器導致更好的性能。基于這一見解，Lin等人（2023b）和Gao等人（2024）提出了一個凍結視覺主干的集合，以捕獲魯棒的視覺表示和不同級別的信息粒度。同時，PaLI模型（Chen等人，2023i,g），注意到語言和視覺參數之間的不平衡，分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的，如（Li等人，2023f；Huang等人，2023a；Gao等人，2023；Chen等人，2023f）中所觀察到的。然而，使用凍結的視覺編碼器有一些局限性，主要是由于參數數量有限，導致視覺和語言模態之間對齊不足。具體來說，從視覺模型提取的密集特征可能會碎片化細粒度圖像信息，并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題，其他方法（Ye等人，2023c,d）采用兩階段訓練范式。在第一階段，他們結合了可訓練的視覺主干，同時保持預訓練的LLM凍結。根據他們的發現，使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而，它可能導致其他任務的性能下降，表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊，稱為“適配器”，旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍，從基本架構（如線性層或MLP）到高級方法（如基于Transformer的解決方案），如Q-Former模型，以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射，將視覺特征轉換為與文本對應部分相同的維度。一些方法，如LLaMA-Adapter（Gao等人，2023）和FROMAGe（Koh等人，2023b）只使用單個線性層來執行多模態連接，而LLaVA-1.5（Liu等人，2023d）采用了兩層MLP，顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影，但即使在對視覺輸入有更深入理解的最新方法中，線性投影的使用也被證明非常有效（Chen等人，2023f；Lin等人，2023a；Wang等人，2023c；You等人，2023；Zhao等人，2023a）。因此，它是一種簡單而有效的技術，用于將視覺特征與文本對應部分對齊。不同的方法（Cha等人，2023）提議用卷積層替換線性層，顯示出適度的改進。 Q-Former。它是BLIP-2（Li等人，2023f）中提出的基于Transformer的模型，然后在幾種其他方法（Chen等人，2023d；Dai等人，2023；Hu等人，2024）中使用。它的特點是具有可適應的架構，由兩個共享相互注意力層的Transformer塊組成，促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢，在自注意力層內部交互，并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感，引入了各種修改版本。在這方面，mPLUG-Owl模型（Ye等人，2023c,d）簡化了Q-Former架構，并提出了一個視覺抽象器組件，通過將視覺信息壓縮為不同的可學習令牌來操作，以獲得更富語義的視覺表示。同一線上，Qwen-VL（Bai等人，2023b）使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征，還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo（Alayrac等人，2022）中被提出，通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用，以確保在初始化時，條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們，與其他替代方案相比，增加了可訓練參數的數量。為了減少計算復雜性，這種策略通常與基于Perceiver的組件（Jaegle等人，2021）配對使用，該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來，幾個模型（Awadalla等人，2023；Chen等人，2023b；Lauren?on等人，2023；Li等人，2023a）采用這種技術將視覺模態與底層LLM連接起來，顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始，MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下，都使用標準的交叉熵損失來預測下一個令牌，作為自回歸目標。單階段訓練。這種可能性由LLaMA-Adapter（Gao等人，2023）探索，它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點，模型使用圖像-文本對和指令進行聯合訓練，操作獨立的參數。同時，（Koh等人，2023b）中提出的模型通過整合兩個對比損失來適應最終損失函數，用于圖像-文本檢索。在訓練期間，只更新三個線性層。另一方面，Kosmos-1（Huang等人，2023a）考慮了一個凍結的視覺主干，并從頭開始訓練1.3B參數的語言模型。 Flamingo（Alayrac等人，2022）及其開源變體（Awadalla等人，2023；Lauren?on等人，2023），相反，訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外，Otter（Li等人，2023a）擴展了Flamingo的訓練以增加其上下文能力。鑒于目前可用的訓練數據量，像SPHINX-X（Gao等人，2024）這樣的方法選擇執行單一的一體化訓練階段，在此階段更新所有模型組件，可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個，目標是將圖像特征與文本嵌入空間對齊。經過這一階段后，輸出往往是碎片化的且不連貫的。因此，進行第二步以提高多模態對話能力。LLaVA（Liu等人，2023e,d）是首批引入視覺指令遵循訓練方案的方法之一，作為第二訓練階段執行，更新多模態適配器和LLM的參數。在第一階段，相反，只有多模態適配器是可訓練的。不同的是，MiniGPT4（Zhu等人，2023a）值得注意的是，在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段，它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法，如InstructBLIP（Dai等人，2023）所示，涉及凍結視覺編碼器和LLM。在兩個訓練階段中，只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比，mPLUG-Owl（Ye等人，2023c,d）在初始階段更新它，便于捕獲低層次和高層次的視覺信息。此外，在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地，Shikra（Chen等人，2023f）在兩個階段中更新所有權重，唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段（或單一階段）訓練中，通常使用來自不同來源的圖像-文本對，使用的數據集包括LAION-2B（Schuhmann等人，2022）、LAION-400M（Schuhmann等人，2021）、Conceptual Captions（Sharma等人，2018）、COYO-700M（Byeon等人，2022）和DataComp（Gadre等人，2023）。一些方法（Lin等人，2023a）將這些與一個或多個數據集結合使用，這些數據集的特點是文本與圖像交錯，通常從網絡上抓取，如WebLI（Chen等人，2023i）、MMC4（Zhu等人，2023d）、MMDialog（Feng等人，2023b）和OBELICS（Lauren?on等人，2023）。

為了解決以前數據集中的偏差和噪聲問題，StableLLaVA（Li等人，2023h）引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據，并使用Stable Diffusion（Rombach等人，2022）生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中，常用的LLaVA-Instruct（Liu等人，2023e）擴展了COCO（Lin等人，2014）并加入了由GPT-4生成的指令。遵循這一趨勢，Zhao等人（2023a）通過結合手動生成的數據和高質量多樣性的數據，擴大了尺寸。此外，還提出了其他多輪對話數據集，如（Dai等人，2023）中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集，LRV-Instruction（Liu等人，2023c）旨在通過更穩健的指令減少幻覺，而LLaVAR（Zhang等人，2023h）則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務，例如視覺問答（VQA）、圖像描述和多輪對話。然而，最近對處理更細粒度的視覺任務，如視覺定位和圖像生成，有了更大的興趣。

結論與未來方向

在本綜述中，我們提供了最近多模態大型語言模型（MLLMs）進化的全面概述，首先關注如何為LLMs裝備多模態能力，然后探討這些模型處理的主要任務。基于所呈現的分析，以下我們概述了重要的開放挑戰和有前景的未來研究方向，以進一步增強MLLMs的能力。修正幻覺現象。幾項研究（Liu等人，2023b；Zhu等人，2023a）表明MLLMs傾向于展現高幻覺率，特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題（Liu等人，2023b；Wang等人，2023a；Wu等人，2023c；Yin等人，2023a），但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰，值得解決，以允許這些模型在更關鍵的背景中（例如，醫學）應用，并保證它們的準確性和可信度。預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明，基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象（Schramowski等人，2023；Friedrich等人，2023），但需要進一步探索以防止MLLMs中出現相同的行為（Pi等人，2024）。減少計算負荷。如補充材料所示，MLLMs高度依賴于計算。需要有效的策略（Chu等人，2024）來減少計算需求，使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求，無論是在模型規模還是數據量方面，以及優化推理階段。

付費5元查看完整內容

大型語言模型 · 表格推理 ·

2024 年 2 月 14 日

[付費5元查看完整內容]大型語言模型在表格推理中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

表格推理旨在根據提供的表格以及可選的表格文本描述，按照用戶需求生成相應的問題答案，有效提高獲取信息的效率。近來，使用大型語言模型（LLMs）已成為表格推理的主流方法，因為它不僅顯著降低了注釋成本，還超過了以往方法的性能。然而，現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏，哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題，仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究，我們呈現了這篇綜述，以分析現有研究，激發未來的工作。在這篇論文中，我們分析了在LLM時代用于提高表格推理性能的主流技術，以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導，以激發未來的研究。

付費5元查看完整內容

上下文學習 · 大語言模型 · 大模型 ·

2024 年 1 月 24 日

[付費5元查看完整內容]谷歌等最新《使用檢索示例的大語言模型上下文學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

語言模型，特別是預訓練的大型語言模型，在作為少示例上下文學習者（ICL）方面展示了顯著的能力，擅長僅通過輸入上下文中的幾個示例適應新任務。然而，模型執行ICL的能力對少示例演示的選擇非常敏感。與其使用固定的示例集，一種新的發展趨勢是檢索針對每個輸入查詢定制的示例。演示檢索的實現相對直接，利用現有的數據庫和檢索系統。這不僅提高了學習過程的效率和可擴展性，而且已顯示出減少手動示例選擇中固有偏見的潛力。鑒于這些鼓舞人心的結果和使用檢索示例的ICL領域的研究日益增長，我們進行了這一領域研究的廣泛綜述。在這篇綜述中，我們討論并比較了不同的檢索模型設計選擇、檢索訓練程序和推理算法。

少示例上下文學習（ICL）是大型語言模型（LLMs）在給定新任務的幾個輸入-輸出示例或演示以及實際任務輸入時，執行新任務的能力。重要的是，模型參數不需要針對新任務進行微調。ICL的流行源于對預訓練大型語言模型的研究，這些模型可以在沒有被訓練執行ICL的情況下執行ICL（Brown et al., 2020），盡管較小的語言模型也可以被明確訓練以執行ICL（Min et al., 2022a）。ICL相較于傳統方法（即先進行初始預訓練，然后進行下游任務的微調）在適應語言模型到下游任務方面有幾個優勢。ICL的一個顯著優點是避免了微調，這在由于無法訪問模型參數或計算資源限制的情況下可能無法實現（Brown et al., 2020）。此外，ICL避免了微調常見的問題，例如過擬合（Ying, 2019; Kazemi et al., 2023a）。與參數高效微調方法（PEFT）相比（Hu et al., 2021; Dettmers et al., 2023; Lester et al., 2021），ICL在計算上更經濟，且保持模型參數不變，從而保持了LLMs的通用性。早期ICL實現使用針對每個目標任務的固定示例集。這些示例可以由人工精心制作（Hendrycks et al., 2021; Wei et al., 2022; Kazemi et al., 2023b），從訓練數據中隨機選擇（Brown et al., 2020; Lewkowycz et al., 2022），或基于復雜度或信息內容等指標選擇（Fu et al., 2022; Hongjin et al., 2022; Li and Qiu, 2023a; Wang et al., 2023b）。此類示例的有效性受到示例質量、數量和排序等因素的影響。重要的是，這些示例保持與上下文無關（即不管查詢如何，都使用相同的示例），這可能阻礙釋放LLMs的真正潛力。

基于檢索的ICL（RetICL）在優化語言模型性能方面呈現了一種范式轉變，從靜態、預定義的示例集轉向動態、與上下文敏感的方法。這一創新的核心是自適應示例選擇的概念，其中專門的檢索器為每個具體任務輸入智能地策劃定制示例。這種方法不僅一致地優于依賴隨機或靜態手工制作示例的方法，而且還顯示出對多種影響因素的顯著抵抗力。RetICL的有效性取決于所選示例的“相關性”和“有用性”，這一過程受到多個因素的復雜影響。這些包括檢索器的性質（從通用的現成模型到精細調整的特定領域變體）、檢索語料庫的來源和多樣性、檢索器的目標（專注于相似性或多樣性）以及集成多個示例的策略。在過去兩年中，眾多有時并行的研究已經研究了RetICL，每個研究使用不同的術語，并在問題定義和隨后的方法論上有所不同，使得理解RetICL的當前研究和實踐狀態，特別是對于該領域的新手來說，變得困難。在這篇全面的綜述中，我們詳細分析了RetICL領域的22篇開創性論文（如表1所示），并對其主要構建模塊進行了分類（見圖1）。我們的工作不僅提供了現有研究的全面綜合，而且強調了RetICL在超越以往ICL方法方面的重要領域，并為該領域未來的創新照亮了許多前進的道路，因此成為ICL的關鍵資源。

少樣本上下文學習的語言模型神經語言模型（LM）的增強能力催生了一種新的自然語言處理（NLP）問題學習范式。從歷史上看，NLP問題的主導學習范式是從頭開始對特定任務的數據進行模型訓練。因此，對于每一個新任務，模型都必須從頭開始學習。這通常導致泛化能力較差，尤其是在測試時遇到之前未觀察到的詞匯的情況下。在隨后的范式中，首先在大量文本語料庫上預訓練一個LM，使其了解語言如何運作并獲得關于世界的大量知識（Petroni et al., 2019; Lin et al., 2020; Sung et al., 2021; Yuan et al., 2023）；然后再在新任務的數據上進一步對預訓練的LM（PLM）進行微調（Sarzynska-Wawer et al., 2021; Devlin et al., 2018），從而教會通用的PLM新任務的特定內容。這一范式通常導致學習速度更快和預測性能更高。后來的研究表明，對PLM進行多任務微調可以更好地實現任務間知識轉移，并可能導致在新任務上的性能提升（Raffel et al., 2020）。隨著預訓練大型語言模型（LLMs）的規模和用于預訓練這些模型的數據集規模的增大，人們發現預訓練的LLMs（為簡潔起見，以下簡稱為LLMs）具有通過少量示例在上下文中學習的顯著能力（Brown et al., 2020）。也就是說，LLMs被證明能夠僅通過在輸入中看到幾個新任務的示例來適應新任務，而不需要額外的訓練數據或微調。這通常被稱為少示例上下文學習。

與上述涉及預訓練后進行微調的大型語言模型（LLMs）使用方法相比，上下文學習（ICL）提供了幾個關鍵優勢。首先，由于對LLM的訪問受限、計算資源不足或數據標記不充分（Brown et al., 2020），微調可能并不總是可行的，而ICL則需要更少的資源、更少的數據，并且通過API調用更易于服務。此外，ICL避免了常與微調相關的問題，如過擬合或沖擊（Ying, 2019; Kazemi et al., 2023a），因為它不修改模型的參數，使其保持通用性。

**什么構成了好的演示？**許多研究試圖提供理論上的解釋和洞見，來說明大型語言模型（LLMs）是如何從少量上下文演示中學習的（Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023）。然而，這種能力背后的確切原因仍然不甚明了，這使得選擇最佳的少示例演示變得困難。幸運的是，各種實證結果展示了少示例演示對LLMs預測準確性的影響，并就準備它們的最佳實踐提供了建議。這些研究還展示了LLMs在選擇、格式和少示例演示順序方面的脆弱性。在此，我們描述了其中一些更為顯著的研究。

演示數量：大型語言模型（LLMs）通常受益于更多的演示，但隨著演示數量的增加，改進的速度通常會減少（Brown et al., 2020; Ye et al., 2023b; Min et al., 2022b）。生成任務比分類任務更能從增加的演示數量中受益（Li et al., 2023）。增加演示數量的一個障礙是LLM的最大上下文大小。盡管隨著新型LLM的出現，上下文的大小一直在增加，但對于文本輸入較長的數據集或分類數據集中類別較多的情況，這可能仍然是個問題。

演示格式：不同的工作表明，提示的格式和措辭在LLM的性能中起著至關重要的作用（Jiang et al., 2020; Shin et al., 2020; Kojima et al.; Yang et al., 2023）。例如，Kojima等人展示了僅在提示中添加“讓我們一步一步思考”可以使LLM逐步推理并解決更多問題，Weller等人（2023）展示了在提示中添加“根據維基百科”可以使其更具事實性。此外，Min et al.（2022b）指出，除了文本格式，標簽空間和演示中的輸入文本分布也非常重要。

演示順序：演示的順序已被證明會顯著影響模型性能。例如，Lu et al.（2022b）表明，在某些任務上，模型性能可能會根據提示的順序從接近隨機到最先進水平不等，而Zhao et al.（2021）表明，在提示的末尾出現的答案更可能被模型預測。演示多樣性：少示例學習成功的另一個重要因素是演示的多樣性。Naik et al.（2023）提出了DiversePrompting方法，其中對于演示的問題，使用LLM生成解決問題的不同方法，然后將這些解決方案用于提示。Zhang et al.（2022b）建議選擇一個多樣化的問題集作為少示例。Ma et al.（2023）提出了一個公平性指標用于選擇演示，鼓勵選擇多樣化的少示例演示，以產生對語義自由輸入的近似均勻預測分布。

思維鏈（CoT）：已有研究表明，包含答案的理由顯著提高了模型性能，尤其是對于超過特定大小的模型（Suzgun et al., 2022）。這種理由通常被稱為思維鏈（CoT）（Wei et al., 2022）。在CoT提示的情況下，演示通常格式化為：查詢：qi，理由：ri，答案：ai其中理由出現在最終答案之前。已有多項研究探討了CoT提示的有效性原因以及如何改進提示和理由（Wang et al., 2022a; Lanham et al., 2023）。

使用檢索演示的上下文學習傳統上，所有查詢都使用相同的少示例演示集，這在查詢之間存在高度變化時可能并不理想。另一種方法是檢索針對當前查詢定制的少示例演示。先前的工作表明，與手工策劃或隨機選擇的演示相比，演示檢索在任務指標上帶來了顯著改進（Luo et al., 2023; Ye et al., 2023a）。此外，當使用檢索的演示時，已經證明大型語言模型（LLMs）對于演示順序等因素（第2.2節）變得不那么敏感（Li et al., 2023）。本節提供了基于檢索的上下文學習（RetICL）的概述。我們首先定義了使用檢索演示的上下文學習。正式地，給定一個查詢q?和一個檢索語料庫C，演示檢索器DR選擇一組演示{d1, . . . , dk} ～ C，其中每個演示為di = (qi, ai)。大型語言模型（LLM）的輸入序列變為(d1, . . . , dk, q?)。檢索器的目標是選擇能最大化正確答案a?概率的演示。RetICL的成功取決于多個因素。本節探討了設計選擇，包括檢索目標、檢索推理策略和檢索語料庫。然后在第4節和第5節中，我們探索了檢索器模型以及如何訓練它們以適應下游任務。

檢索目標：

相似性與多樣性為了選擇和定制適合大型語言模型（LLMs）的上下文示例，已經探索了各種檢索目標（Luo et al., 2023; Rubin et al., 2022; Ye et al., 2023a; Dalvi et al., 2022; Cheng et al., 2023; Li et al., 2023）。選擇演示的兩個主要檢索目標是相似性和多樣性。相似性涉及選擇最類似于查詢的演示，并可基于語言相似性（術語匹配或語義匹配）、結構方面（句子結構、推理結構等）或其他標準。大多數研究關注語言相似性，較少涉及結構相似性，這通常是由于在許多任務中提取查詢結構的挑戰（Levy et al., 2022）。除了相似性，一些工作發現演示的多樣性很重要。多樣性的動機包括避免重復的演示（Zhang et al., 2022b），帶來不同的視角（Yu et al., 2023），以及最大化演示對測試查詢的覆蓋，無論是覆蓋其詞匯還是句法結構（Levy et al., 2022）。衡量多個演示的多樣性是一個主要的技術挑戰。Ye et al. (2023a) 應用了決定性點過程（DPP）這一概率模型來衡量負相互作用（Kulesza et al., 2012），以衡量多樣性。Levy et al. (2022) 發現當模型對輸出符號空間不熟悉時，多樣性和覆蓋是重要的。值得注意的是，研究人員發現，在某些情況下，上下文學習（ICL）更多地從更高復雜性的演示中受益（Fu et al., 2022），其中復雜性是根據查詢長度或推理步驟定義的。然而，Fu et al. (2022) 使用啟發式規則來定義復雜性并相應地預選演示。他們的研究表明，使用基于相似性的檢索器在特定的數學推理任務中提高了性能。這可能表明結合相似性和復雜性考慮可能是增強推理任務方法的一個有前景的策略。

現成演示檢索器為了實現上述檢索目標，研究人員探索了各種類型的演示檢索器。典型的演示檢索器將檢索語料庫中的示例和查詢編碼為一些向量表示，然后計算候選演示嵌入和查詢嵌入之間的相似度度量（例如余弦相似度），以定位最相關的演示。鑒于對檢索演示增強大型語言模型（LLMs）性能的底層機制理解有限，最初的研究工作集中在對這一任務現成可用的檢索器進行啟發式評估。后續研究努力探索了特別為檢索演示而定制的基于學習的檢索器的設計和開發。本節回顧了代表性的現成模型，我們將在第5節討論基于學習的模型。

微調的演示檢索器盡管現成的檢索器在llm的檢索演示中顯示出了一些希望，但現成的檢索器給出的檢索演示可能不能代表任務的性質以及一般應如何解決任務。因此，它可能會導致次優性能。因此，研究人員已經開始探索基于學習的方法，以進一步突破邊界。設計一個好的演示檢索器的典型目標是:如果LLM發現一個演示在用作演示示例時有用，則應該鼓勵檢索器將演示排序更高。這使得我們可以直接依賴感興趣任務中的查詢和輸出對的信號來訓練模型，而無需人工注釋。為了開發演示檢索器，大多數方法利用當前的雙編碼器模型(Karpukhin等人，2020;Ni et al.， 2021)。關鍵的變化在于收集訓練數據和制定訓練目標的方法。我們將在后續章節中更詳細地探討這些方面。在這里，我們總結了各種檢索器模型的優點和缺點。現成的檢索器易于使用，無需進行下游任務的微調，通常表現比隨機演示更強大。唯一的例外是在常識推理任務中，Zhang等人（2022b）和Ye等人（2023a）發現對于這些任務，隨機演示始終比檢索方法更好。Cheng等人（2023）還表明，檢索到的演示對常識推理和共指解析任務產生了不利影響。在現成的檢索器的三個類別中，如BM25等稀疏檢索器更具索引效率。這個特性在處理大量演示和有限的硬件內存時特別有價值，使得在這種情況下BM25成為首選。相比之下，基于句子嵌入相似性的方法和基于雙編碼器的檢索系統，這些方法在語言任務上訓練，更擅長捕捉更語義上關注的檢索結果。就性能而言，Luo等人（2023）在5個任務中比較了BM25和雙編碼器（GTR），發現這兩者的平均性能非常相似（在0.5％的差異范圍內），在某些任務中BM25勝過雙編碼器，反之亦然。在另一項研究中，Ye等人（2023a）觀察到了類似的趨勢，強調沒有單一的檢索器在不同任務中始終表現優于其他檢索器。Rubin等人（2022）和Li等人（2023）發現，在語義解析任務中，BM25要優于SBERT，而Li等人（2023）發現，在情感分析任務中，SBERT要優于BM25。然而，經過微調的檢索器在性能上表現出優勢，相對于現成的檢索器。經過微調的檢索器的主要缺點在于獲取訓練數據的成本較高。

此外，采用任務特定的檢索器的常見做法使系統變得復雜，并限制了其通用性。Li等人（2023）提出了訓練通用檢索器的概念，該檢索器在大多數任務上表現優于任務特定的演示檢索器（例如EPR（Rubin等人，2022））。

結論

本調查集中討論了使用檢索到的示例進行少樣本上下文學習（ICL）的方法，這是檢索增強生成（RAG）的關鍵方面。我們概述了各種檢索策略、多樣化的檢索模型、檢索池、訓練演示檢索器的技術以及應用。基于對當前趨勢的全面了解，我們提出了增強這一方法的有效性和功能性的一些有前途的未來發展方向。

付費5元查看完整內容

人類反饋強化學習 (RLHF) · 強化學習 ·

2023 年 12 月 25 日

[付費5元查看完整內容]基于人工反饋的強化學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人類反饋強化學習（RLHF）是強化學習（RL）的一個變體，它從人類反饋中學習，而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習（PbRL）的先前工作上，它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑，同時也改善了它們的目標與人類價值觀的一致性。在近年來，大型語言模型（LLMs）的訓練已經令人印象深刻地展示了這一潛力，其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述，探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF，但我們的綜述采取了更廣泛的視角，考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則，闡明算法與人類反饋之間的共生關系，并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景，本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。

1 引言

在強化學習（RL）中，智能體傳統上通過環境導航，并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義，以確保學習智能體接收到學習正確行為所需的信號。然而，手動設計獎勵函數是具有挑戰性的。在許多應用中，成功難以正式定義和衡量。除此之外，稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形（Ng等人，1999），即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響，即因通常與真正目標相關而被獎勵的行為，并不本身具有價值。這最終導致了獎勵黑客問題（Skalse等人，2022b），即學習智能體利用獎勵特定的漏洞以實現不希望的結果，同時仍然產生高獎勵。

作為對這些挑戰的回應，人類反饋強化學習（RLHF）作為一種實際意義上的替代方案出現，它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之，RLHF與RL的不同之處在于，目標是由循環中的人定義并迭代完善的，而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題，而且對智能體對齊有潛在的好處，其中智能體的學習目標與人類價值觀更緊密對齊，促進倫理上健全和社會負責的AI系統。自上一次類似的綜述（Wirth等人，2017）以來，RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型（LLMs）（OpenAI 2022）到圖像生成（Lee等人，2023），連續控制（Christiano等人，2017）和游戲（Ibarz等人，2018）以及機器人（Hejna等人，2023a）。與此同時，自上次類似的綜述（Wirth等人，2017）以來，方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度（Park等人，2022），使用元學習快速適應學習的偏好到新任務（Ren等人，2022），融合多種反饋類型（Palan等人，2019），使用自監著表征學習提高反饋效率（Metcalf等人，2022），主動合成假設行為進行查詢（Reddy等人，2020），以及優化查詢以便于回答（B?y?k等人，2020b）。最后，RLHF領域也取得了一些理論成果，為基礎數學問題的建模提供了新的見解，但也提出了新的問題。

因此，在這項綜述中，我們討論了RLHF正在進行的研究的當前狀態，分類了當前的方法以及簡潔地描述了它們的主要特征，并對應用領域進行了簡要概述。

1.1 為何需要人類反饋在傳統的RL中，代理的目標由其旨在最大化的獎勵函數定義（Sutton等人，2018）。特別是在復雜領域，指定這個獎勵函數可能是具有挑戰性的：對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車，合適的獎勵函數是什么樣的？此外，即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為，引發實際和安全問題。從人類反饋中學習代理的目標，可以繞過獎勵工程挑戰，并促進穩健訓練，隨著代理學習，獎勵函數會動態地細化和調整，以適應分布變化。反饋與示范逆向RL旨在從人類示范中推斷出獎勵函數（Arora等人，2021）。雖然這可以部分解決獎勵工程挑戰，但它面臨內在困難：（i）通常不可能從示范中穩健地識別獎勵（Cao等人，2021a），（ii）僅適用于可以獲得良好示范的場景，（iii）難以超越示范者的表現，以及（iv）人類通常不會展示他們希望機器采用的行為（Basu等人，2017）。相比之下，交互式反饋可以使用主動查詢區分人類偏好和無關噪聲，比提供示范更容易，不要求人類評估者接近最優表現，并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范，在這種情況下，它可以用來塑造和完善通過初步訓練（如行為克隆）學到的能力，從而防止過擬合于示范行為（Abramson等人，2022）。避免獎勵工程在RL中的獎勵工程提出了重大挑戰，因為準確指定獎勵函數是眾所周知的困難（Amodei等人，2016; Knox等人，2023）。通過利用人類反饋，可以緩解這些挑戰，使代理能夠訓練難以手動定義的任務，并幫助避免由不匹配的獎勵引起的安全問題（Skalse等人，2022b）。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題（Gabriel 2020），特別是代理對齊和價值對齊（Kirchner等人，2022）。盡管RLHF在解決這些對齊問題的有效性仍存在爭議（Christiano 2023），但它提出了一個促進對齊的有希望的方法（Leike等人，2018）。過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵（Lehman等人，2020; Baker等人，2020）或參與獎勵黑客行為（Skalse等人，2022b），即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標（Clark等人，2016）或為避免負面獎勵而過早退出游戲（Saunders等人，2018）的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道，但在諸如醫療保健和自動駕駛等安全關鍵的環境中，其含義則更為嚴重。在這些環境中，防止不匹配的獎勵函數導致有害結果至關重要，比如護理機器人造成傷害或自動駕駛汽車危及道路安全。

1.2 人類反饋強化學習的起源

作為RL的一個子領域，從人類反饋中學習行為已經被研究了很長時間，但方法和術語隨時間發展而演變。如Knox（2012）更詳細討論的早期方法，側重于直接從人類獎勵中學習（Isbell等人，2001；Knox等人，2008）。然而，本綜述關注的是更間接的方法，即從人類反饋中推斷目標。人類反饋強化學習（RLHF）的現代形式起源于偏好基強化學習（PbRL）的設置，最初由Akrour等人（2011）和Cheng等人（2011）獨立引入。PbRL的原始想法是從定性反饋中推斷目標，如行為或給定狀態下行動之間的成對偏好，而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出（Askell等人，2021；Ouyang等人，2022；OpenAI 2022），盡管最初指的是從相對反饋中學習行為的同一概念。由于文獻中的使用重疊，PbRL和RLHF的區分具有挑戰性。例如，Christiano等人（2017）自己使用了PbRL這個術語，但卻常被引用為RLHF的開創性參考（Daniels-Koch等人，2022；Ouyang等人，2022）。這表明了這些術語的可互換性。實際上，RLHF通常與獎勵建模和深度RL相關聯，而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人（2020）強調，他們將PbRL限定為僅從偏好直接進行策略學習。然而，這與其他來源不同，后者將獎勵學習包括在RLHF的范圍內（Christiano等人，2017；Wirth等人，2017）。

盡管存在重疊和有時存在沖突的使用，RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標，但PbRL主要關注相對反饋，如二元比較和排名。RLHF不僅包括這些方面，還擴展到更廣泛的反饋類型（Metz等人，2023）。表1提供了我們對這些術語的解釋性概述。

從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究，但隨著時間的推移，方法和術語已經發展。早期方法，如Knox（2012）詳細討論的，側重于直接從人類獎勵中學習（Isbell等人，2001；Knox等人，2008）。然而，本綜述關注的是更間接的推斷目標的方法，即從人類反饋中推斷。人類反饋強化學習（RLHF）的現代形式起源于偏好基強化學習（PbRL）的設置，最初由Akrour等人（2011）和Cheng等人（2011）獨立引入。PbRL的原始想法是從定性反饋中推斷目標，而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出（Askell等人，2021；Ouyang等人，2022；OpenAI 2022），盡管最初指的是從相對反饋中學習行為的同一概念。

由于文獻中的使用重疊，PbRL和RLHF的區分具有挑戰性。例如，Christiano等人（2017）自己使用了PbRL這個術語，但卻常被引用為RLHF的開創性參考（Daniels-Koch等人，2022；Ouyang等人，2022）。這表明了這些術語的可互換性。實際上，RLHF通常與獎勵建模和深度RL相關聯，而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人（2020）將PbRL限定為僅從偏好直接進行策略學習，而Christiano等人（2017）和Wirth等人（2017）則將獎勵學習包括在RLHF的范圍內。

盡管存在重疊和有時存在沖突的使用，RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標，但PbRL主要關注相對反饋，如二元比較和排名。RLHF不僅包括這些方面，還擴展到更廣泛的反饋類型（Metz等人，2023）。我們的綜述提供了這些術語的解釋性概述。

1.3 綜述范圍

本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。

獎勵建模我們關注的是從人類反饋中學習獎勵模型，然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略（Wirth等人，2017），但到目前為止，這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。

人類定義盡管有許多方法將人類包括在RL循環中，但在本綜述中，我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。

互動和在線我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。可擴展和異步我們關注的是將人類包括在循環中，但代理不被人類反饋阻塞，人類也不需要持續存在的工作。此外，我們主要關注2017年后發表的作品，因為更早的作品已由Wirth等人（2017）綜述。然而，為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念，我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣，將會作出例外。

1.4 先前的綜述

根據上一節提到的標準，我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來，這些領域共享人類參與RL的共同主題。然后，我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。

付費5元查看完整內容

視覺語言模型 · 提示工程 · 自然語言處理 · 計算機視覺 ·

2023 年 7 月 29 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Prompt工程是一種技術，涉及用任務特定的提示，即prompts，增強大型預訓練模型，以使模型適應新任務。提示可以作為自然語言指令手動創建，或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能，而不更新模型參數，也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里，Prompt工程在自然語言處理中得到了深入研究。近期，它在視覺-語言建模中也得到了深入的研究。然而，目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查，涉及三種類型的視覺-語言模型：多模態到文本生成模型（例如Flamingo）、圖像-文本匹配模型（例如CLIP）和文本到圖像生成模型（例如Stable Diffusion）。對于每一種模型，我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外，還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后，總結了這一話題的挑戰、未來方向和研究機會，以促進未來的研究。

Prompt工程是一種方法，通過用任務特定的提示增強模型輸入，將大型預訓練模型（也稱為基礎模型）適應新任務。具體而言，模型的輸入被增加了一個額外的部分，稱為提示，這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5]，或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示，而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現，并因此而變得突出，這兩者一起導致了機器學習（ML）的范式轉變。傳統的范式要求標記大量的數據，然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量，這可能需要大量的資源來獲取。此外，傳統范式需要在某種程度上調整模型的參數，即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數，或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性，并要求每個任務都有一個特定的模型副本。最近，提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起，引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言（硬提示），相關的研究被稱為InContext Learning[7]，它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外，提示也可以是連續的向量表示（軟提示）。相關的工作被稱為Prompt-Tuning[6]，它直接在模型的嵌入空間中優化提示。 在本文中，我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查，來彌補這一缺口。具體來說，我們根據模板的可讀性將提示方法分類為兩個主要類別，即硬提示和軟提示。硬提示可以進一步劃分為四個子類，即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面，軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意，這項調查主要關注保持模型架構的提示方法，因此，如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程，分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外，我們從編碼器-解碼器的角度分類現有的Prompt工程方法，如圖1所示，即編碼端提示或解碼端提示，其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中，我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展，每一節首先介紹相應模型的初步情況，然后詳細討論提示方法，再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較，并對它們的相似之處和差異進行了深入討論。最后，在Sec. 7中，我們強調了挑戰和潛在的研究方向。為了方便文獻搜索，我們還建立并發布了一個項目頁面，其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類：硬提示，它們是勞動密集型的、手工制作的文本提示，帶有離散的標記；而軟提示是可優化的、可學習的張量，與輸入嵌入連接在一起，但由于與真實詞嵌入不對齊，所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性，包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型，強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術，研究人員可以在視覺語言模型中獲得顯著的性能提升，而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而，重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外，調查主要從提示工程的角度關注預訓練的視覺語言模型，并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性，我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術，如強化學習或元學習，的集成，以提高視覺語言模型的性能和泛化能力。此外，研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說，這項調查為現有的知識體系做出了貢獻，為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響，這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白，為預訓練模型在視覺和語言的背景下的適應提供了見解，為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容