一级a视频免费一区二区,亚洲国产日韩欧美在线视频,免费毛片高清的视频播放

語言模型，特別是預訓練的大型語言模型，在作為少示例上下文學習者（ICL）方面展示了顯著的能力，擅長僅通過輸入上下文中的幾個示例適應新任務。然而，模型執行ICL的能力對少示例演示的選擇非常敏感。與其使用固定的示例集，一種新的發展趨勢是檢索針對每個輸入查詢定制的示例。演示檢索的實現相對直接，利用現有的數據庫和檢索系統。這不僅提高了學習過程的效率和可擴展性，而且已顯示出減少手動示例選擇中固有偏見的潛力。鑒于這些鼓舞人心的結果和使用檢索示例的ICL領域的研究日益增長，我們進行了這一領域研究的廣泛綜述。在這篇綜述中，我們討論并比較了不同的檢索模型設計選擇、檢索訓練程序和推理算法。

少示例上下文學習（ICL）是大型語言模型（LLMs）在給定新任務的幾個輸入-輸出示例或演示以及實際任務輸入時，執行新任務的能力。重要的是，模型參數不需要針對新任務進行微調。ICL的流行源于對預訓練大型語言模型的研究，這些模型可以在沒有被訓練執行ICL的情況下執行ICL（Brown et al., 2020），盡管較小的語言模型也可以被明確訓練以執行ICL（Min et al., 2022a）。ICL相較于傳統方法（即先進行初始預訓練，然后進行下游任務的微調）在適應語言模型到下游任務方面有幾個優勢。ICL的一個顯著優點是避免了微調，這在由于無法訪問模型參數或計算資源限制的情況下可能無法實現（Brown et al., 2020）。此外，ICL避免了微調常見的問題，例如過擬合（Ying, 2019; Kazemi et al., 2023a）。與參數高效微調方法（PEFT）相比（Hu et al., 2021; Dettmers et al., 2023; Lester et al., 2021），ICL在計算上更經濟，且保持模型參數不變，從而保持了LLMs的通用性。早期ICL實現使用針對每個目標任務的固定示例集。這些示例可以由人工精心制作（Hendrycks et al., 2021; Wei et al., 2022; Kazemi et al., 2023b），從訓練數據中隨機選擇（Brown et al., 2020; Lewkowycz et al., 2022），或基于復雜度或信息內容等指標選擇（Fu et al., 2022; Hongjin et al., 2022; Li and Qiu, 2023a; Wang et al., 2023b）。此類示例的有效性受到示例質量、數量和排序等因素的影響。重要的是，這些示例保持與上下文無關（即不管查詢如何，都使用相同的示例），這可能阻礙釋放LLMs的真正潛力。

基于檢索的ICL（RetICL）在優化語言模型性能方面呈現了一種范式轉變，從靜態、預定義的示例集轉向動態、與上下文敏感的方法。這一創新的核心是自適應示例選擇的概念，其中專門的檢索器為每個具體任務輸入智能地策劃定制示例。這種方法不僅一致地優于依賴隨機或靜態手工制作示例的方法，而且還顯示出對多種影響因素的顯著抵抗力。RetICL的有效性取決于所選示例的“相關性”和“有用性”，這一過程受到多個因素的復雜影響。這些包括檢索器的性質（從通用的現成模型到精細調整的特定領域變體）、檢索語料庫的來源和多樣性、檢索器的目標（專注于相似性或多樣性）以及集成多個示例的策略。在過去兩年中，眾多有時并行的研究已經研究了RetICL，每個研究使用不同的術語，并在問題定義和隨后的方法論上有所不同，使得理解RetICL的當前研究和實踐狀態，特別是對于該領域的新手來說，變得困難。在這篇全面的綜述中，我們詳細分析了RetICL領域的22篇開創性論文（如表1所示），并對其主要構建模塊進行了分類（見圖1）。我們的工作不僅提供了現有研究的全面綜合，而且強調了RetICL在超越以往ICL方法方面的重要領域，并為該領域未來的創新照亮了許多前進的道路，因此成為ICL的關鍵資源。

少樣本上下文學習的語言模型神經語言模型（LM）的增強能力催生了一種新的自然語言處理（NLP）問題學習范式。從歷史上看，NLP問題的主導學習范式是從頭開始對特定任務的數據進行模型訓練。因此，對于每一個新任務，模型都必須從頭開始學習。這通常導致泛化能力較差，尤其是在測試時遇到之前未觀察到的詞匯的情況下。在隨后的范式中，首先在大量文本語料庫上預訓練一個LM，使其了解語言如何運作并獲得關于世界的大量知識（Petroni et al., 2019; Lin et al., 2020; Sung et al., 2021; Yuan et al., 2023）；然后再在新任務的數據上進一步對預訓練的LM（PLM）進行微調（Sarzynska-Wawer et al., 2021; Devlin et al., 2018），從而教會通用的PLM新任務的特定內容。這一范式通常導致學習速度更快和預測性能更高。后來的研究表明，對PLM進行多任務微調可以更好地實現任務間知識轉移，并可能導致在新任務上的性能提升（Raffel et al., 2020）。隨著預訓練大型語言模型（LLMs）的規模和用于預訓練這些模型的數據集規模的增大，人們發現預訓練的LLMs（為簡潔起見，以下簡稱為LLMs）具有通過少量示例在上下文中學習的顯著能力（Brown et al., 2020）。也就是說，LLMs被證明能夠僅通過在輸入中看到幾個新任務的示例來適應新任務，而不需要額外的訓練數據或微調。這通常被稱為少示例上下文學習。

與上述涉及預訓練后進行微調的大型語言模型（LLMs）使用方法相比，上下文學習（ICL）提供了幾個關鍵優勢。首先，由于對LLM的訪問受限、計算資源不足或數據標記不充分（Brown et al., 2020），微調可能并不總是可行的，而ICL則需要更少的資源、更少的數據，并且通過API調用更易于服務。此外，ICL避免了常與微調相關的問題，如過擬合或沖擊（Ying, 2019; Kazemi et al., 2023a），因為它不修改模型的參數，使其保持通用性。

**什么構成了好的演示？**許多研究試圖提供理論上的解釋和洞見，來說明大型語言模型（LLMs）是如何從少量上下文演示中學習的（Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023）。然而，這種能力背后的確切原因仍然不甚明了，這使得選擇最佳的少示例演示變得困難。幸運的是，各種實證結果展示了少示例演示對LLMs預測準確性的影響，并就準備它們的最佳實踐提供了建議。這些研究還展示了LLMs在選擇、格式和少示例演示順序方面的脆弱性。在此，我們描述了其中一些更為顯著的研究。

演示數量：大型語言模型（LLMs）通常受益于更多的演示，但隨著演示數量的增加，改進的速度通常會減少（Brown et al., 2020; Ye et al., 2023b; Min et al., 2022b）。生成任務比分類任務更能從增加的演示數量中受益（Li et al., 2023）。增加演示數量的一個障礙是LLM的最大上下文大小。盡管隨著新型LLM的出現，上下文的大小一直在增加，但對于文本輸入較長的數據集或分類數據集中類別較多的情況，這可能仍然是個問題。

演示格式：不同的工作表明，提示的格式和措辭在LLM的性能中起著至關重要的作用（Jiang et al., 2020; Shin et al., 2020; Kojima et al.; Yang et al., 2023）。例如，Kojima等人展示了僅在提示中添加“讓我們一步一步思考”可以使LLM逐步推理并解決更多問題，Weller等人（2023）展示了在提示中添加“根據維基百科”可以使其更具事實性。此外，Min et al.（2022b）指出，除了文本格式，標簽空間和演示中的輸入文本分布也非常重要。

演示順序：演示的順序已被證明會顯著影響模型性能。例如，Lu et al.（2022b）表明，在某些任務上，模型性能可能會根據提示的順序從接近隨機到最先進水平不等，而Zhao et al.（2021）表明，在提示的末尾出現的答案更可能被模型預測。演示多樣性：少示例學習成功的另一個重要因素是演示的多樣性。Naik et al.（2023）提出了DiversePrompting方法，其中對于演示的問題，使用LLM生成解決問題的不同方法，然后將這些解決方案用于提示。Zhang et al.（2022b）建議選擇一個多樣化的問題集作為少示例。Ma et al.（2023）提出了一個公平性指標用于選擇演示，鼓勵選擇多樣化的少示例演示，以產生對語義自由輸入的近似均勻預測分布。

思維鏈（CoT）：已有研究表明，包含答案的理由顯著提高了模型性能，尤其是對于超過特定大小的模型（Suzgun et al., 2022）。這種理由通常被稱為思維鏈（CoT）（Wei et al., 2022）。在CoT提示的情況下，演示通常格式化為：查詢：qi，理由：ri，答案：ai其中理由出現在最終答案之前。已有多項研究探討了CoT提示的有效性原因以及如何改進提示和理由（Wang et al., 2022a; Lanham et al., 2023）。

使用檢索演示的上下文學習傳統上，所有查詢都使用相同的少示例演示集，這在查詢之間存在高度變化時可能并不理想。另一種方法是檢索針對當前查詢定制的少示例演示。先前的工作表明，與手工策劃或隨機選擇的演示相比，演示檢索在任務指標上帶來了顯著改進（Luo et al., 2023; Ye et al., 2023a）。此外，當使用檢索的演示時，已經證明大型語言模型（LLMs）對于演示順序等因素（第2.2節）變得不那么敏感（Li et al., 2023）。本節提供了基于檢索的上下文學習（RetICL）的概述。我們首先定義了使用檢索演示的上下文學習。正式地，給定一個查詢q?和一個檢索語料庫C，演示檢索器DR選擇一組演示{d1, . . . , dk} ～ C，其中每個演示為di = (qi, ai)。大型語言模型（LLM）的輸入序列變為(d1, . . . , dk, q?)。檢索器的目標是選擇能最大化正確答案a?概率的演示。RetICL的成功取決于多個因素。本節探討了設計選擇，包括檢索目標、檢索推理策略和檢索語料庫。然后在第4節和第5節中，我們探索了檢索器模型以及如何訓練它們以適應下游任務。

檢索目標：

相似性與多樣性為了選擇和定制適合大型語言模型（LLMs）的上下文示例，已經探索了各種檢索目標（Luo et al., 2023; Rubin et al., 2022; Ye et al., 2023a; Dalvi et al., 2022; Cheng et al., 2023; Li et al., 2023）。選擇演示的兩個主要檢索目標是相似性和多樣性。相似性涉及選擇最類似于查詢的演示，并可基于語言相似性（術語匹配或語義匹配）、結構方面（句子結構、推理結構等）或其他標準。大多數研究關注語言相似性，較少涉及結構相似性，這通常是由于在許多任務中提取查詢結構的挑戰（Levy et al., 2022）。除了相似性，一些工作發現演示的多樣性很重要。多樣性的動機包括避免重復的演示（Zhang et al., 2022b），帶來不同的視角（Yu et al., 2023），以及最大化演示對測試查詢的覆蓋，無論是覆蓋其詞匯還是句法結構（Levy et al., 2022）。衡量多個演示的多樣性是一個主要的技術挑戰。Ye et al. (2023a) 應用了決定性點過程（DPP）這一概率模型來衡量負相互作用（Kulesza et al., 2012），以衡量多樣性。Levy et al. (2022) 發現當模型對輸出符號空間不熟悉時，多樣性和覆蓋是重要的。值得注意的是，研究人員發現，在某些情況下，上下文學習（ICL）更多地從更高復雜性的演示中受益（Fu et al., 2022），其中復雜性是根據查詢長度或推理步驟定義的。然而，Fu et al. (2022) 使用啟發式規則來定義復雜性并相應地預選演示。他們的研究表明，使用基于相似性的檢索器在特定的數學推理任務中提高了性能。這可能表明結合相似性和復雜性考慮可能是增強推理任務方法的一個有前景的策略。

現成演示檢索器為了實現上述檢索目標，研究人員探索了各種類型的演示檢索器。典型的演示檢索器將檢索語料庫中的示例和查詢編碼為一些向量表示，然后計算候選演示嵌入和查詢嵌入之間的相似度度量（例如余弦相似度），以定位最相關的演示。鑒于對檢索演示增強大型語言模型（LLMs）性能的底層機制理解有限，最初的研究工作集中在對這一任務現成可用的檢索器進行啟發式評估。后續研究努力探索了特別為檢索演示而定制的基于學習的檢索器的設計和開發。本節回顧了代表性的現成模型，我們將在第5節討論基于學習的模型。

微調的演示檢索器盡管現成的檢索器在llm的檢索演示中顯示出了一些希望，但現成的檢索器給出的檢索演示可能不能代表任務的性質以及一般應如何解決任務。因此，它可能會導致次優性能。因此，研究人員已經開始探索基于學習的方法，以進一步突破邊界。設計一個好的演示檢索器的典型目標是:如果LLM發現一個演示在用作演示示例時有用，則應該鼓勵檢索器將演示排序更高。這使得我們可以直接依賴感興趣任務中的查詢和輸出對的信號來訓練模型，而無需人工注釋。為了開發演示檢索器，大多數方法利用當前的雙編碼器模型(Karpukhin等人，2020;Ni et al.， 2021)。關鍵的變化在于收集訓練數據和制定訓練目標的方法。我們將在后續章節中更詳細地探討這些方面。在這里，我們總結了各種檢索器模型的優點和缺點。現成的檢索器易于使用，無需進行下游任務的微調，通常表現比隨機演示更強大。唯一的例外是在常識推理任務中，Zhang等人（2022b）和Ye等人（2023a）發現對于這些任務，隨機演示始終比檢索方法更好。Cheng等人（2023）還表明，檢索到的演示對常識推理和共指解析任務產生了不利影響。在現成的檢索器的三個類別中，如BM25等稀疏檢索器更具索引效率。這個特性在處理大量演示和有限的硬件內存時特別有價值，使得在這種情況下BM25成為首選。相比之下，基于句子嵌入相似性的方法和基于雙編碼器的檢索系統，這些方法在語言任務上訓練，更擅長捕捉更語義上關注的檢索結果。就性能而言，Luo等人（2023）在5個任務中比較了BM25和雙編碼器（GTR），發現這兩者的平均性能非常相似（在0.5％的差異范圍內），在某些任務中BM25勝過雙編碼器，反之亦然。在另一項研究中，Ye等人（2023a）觀察到了類似的趨勢，強調沒有單一的檢索器在不同任務中始終表現優于其他檢索器。Rubin等人（2022）和Li等人（2023）發現，在語義解析任務中，BM25要優于SBERT，而Li等人（2023）發現，在情感分析任務中，SBERT要優于BM25。然而，經過微調的檢索器在性能上表現出優勢，相對于現成的檢索器。經過微調的檢索器的主要缺點在于獲取訓練數據的成本較高。

此外，采用任務特定的檢索器的常見做法使系統變得復雜，并限制了其通用性。Li等人（2023）提出了訓練通用檢索器的概念，該檢索器在大多數任務上表現優于任務特定的演示檢索器（例如EPR（Rubin等人，2022））。

結論

本調查集中討論了使用檢索到的示例進行少樣本上下文學習（ICL）的方法，這是檢索增強生成（RAG）的關鍵方面。我們概述了各種檢索策略、多樣化的檢索模型、檢索池、訓練演示檢索器的技術以及應用。基于對當前趨勢的全面了解，我們提出了增強這一方法的有效性和功能性的一些有前途的未來發展方向。

付費5元查看完整內容

相關內容

[付費5元查看完整內容]《多模態大型語言模型進化》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此，受到大型語言模型成功的啟發，大量研究努力正被投入到多模態大型語言模型（MLLMs）的開發中。這些模型能夠無縫整合視覺和文本模態，無論是作為輸入還是輸出，同時提供基于對話的界面和遵循指令的能力。在這篇論文中，我們提供了近期基于視覺的MLLMs的全面回顧，分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析，包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外，我們編制并描述了訓練數據集和評估基準，就性能和計算需求在現有模型之間進行了比較。總的來說，這篇綜述提供了當前藝術狀態的全面概述，為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構（Vaswani et al., 2017）的引入，使得創建能夠處理各種模態的模型成為可能，并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初，這一突破被用于語言特定模型（Devlin et al., 2018; Brown et al., 2020），但很快擴展到支持視覺處理骨干（Dosovitskiy et al., 2021），最終用于集成多種模態的模型（Radford et al., 2021）。復雜大型語言模型（LLMs）的涌現，特別是它們進行上下文學習的能力，鼓勵研究人員將這些模型的應用范圍拓寬到多模態，包括作為輸入和輸出。這一擴展導致了如GPT-4V（Achiam et al., 2023）和Gemini（Anil et al., 2023）等尖端模型的開發，展示了最先進的性能。多模態大型語言模型（MLLMs）的開發涉及將視覺和語言的單模態架構合并，通過視覺到語言的適配器建立它們之間的有效連接，并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下，我們的目標是提供關于MLLM領域的全面概述，重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新，也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面：它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著，我們深入訓練過程和使用的數據。然后，我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人（2020）發現上下文學習，即在提示前附加一些示例以演示大型語言模型（LLM）的期望輸出（Chowdhery等人，2023；Hoffmann等人，2022；Tay等人，2022），可以提高其性能，特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述，可以進一步提高泛化能力。這種技術，稱為指令調優（Chung等人，2022；Wang等人，2022b,a；Jiang等人，2024），對于使LLM的行為與人類的行為對齊至關重要，目前賦能了最先進的LLM，最終通過來自人類反饋的強化學習（RLHF）（Ouyang等人，2022；Achiam等人，2023；Chen等人，2023j；Bai等人，2023a）得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時，參數高效微調（PEFT）方案代表了訓練整個LLM的一個重要替代方案，因為這些策略只引入少量新參數。其中，提示調優（Hambardzumyan等人，2021；Lester等人，2021；Li和Liang，2021；Liu等人，2023j）學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是，LoRA（Hu等人，2021）通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA（Dettmers等人，2023）等量化方法正交，進一步減少了LLM的內存占用，與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似，Flamingo（Alayrac等人，2022）是首個在視覺-語言領域探索大規模上下文學習的模型。然后，視覺指令調優（Liu等人，2023e）迅速成為多模態領域中最突出的訓練范式，以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件（圖1）：作為與用戶接口的LLM主干，一個（或多個）視覺編碼器，以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族（Touvron等人，2023a,b），鑒于它們的權重是自由可獲取的，它們僅在公開數據上進行了訓練，并且它們擁有不同的大小以適應各種用例。此外，它們的衍生版本也很受歡迎，例如Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。前者在GPT-3編寫的指令上微調LLaMA，而后者利用用戶與ChatGPT（OpenAI，2022）的共享對話。其他選擇包括OPT（Zhang等人，2022b），Magneto（Wang等人，2023b），MPT（MosaicML，2023），以及經過指令調優（Chung等人，2022）或多語言（Xue等人，2020）版本的T5（Raffel等人，2020），一種為多個任務預訓練的編解碼器語言模型。本調查中涵蓋的MLLM的總結報告在表1中，指出每個模型基于哪個LLM，視覺編碼器，用于連接視覺和語言組件的適配器，MLLM是否經過視覺指令調優訓練，以及主要任務和能力的簡短列表。視覺編碼器在MLLM中，一個關鍵組件是視覺編碼器，它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器，同時只訓練一個可學習的接口，將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer（ViT）模型，具有CLIP-based目標，以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP（Radford等人，2021）的ViT-L模型，OpenCLIP（Wortsman等人，2022）的ViT-H主干，以及EVA-CLIP（Fang等人，2023）的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練，采用對比方法對正確的圖像-文本對進行對齊。相反，EVA-CLIP是一系列模型，提供了訓練CLIP模型的實用有效解決方案。特別是，EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征，條件是可見的圖像塊。正如（Li等人，2023f）所示，更強大的圖像編碼器導致更好的性能。基于這一見解，Lin等人（2023b）和Gao等人（2024）提出了一個凍結視覺主干的集合，以捕獲魯棒的視覺表示和不同級別的信息粒度。同時，PaLI模型（Chen等人，2023i,g），注意到語言和視覺參數之間的不平衡，分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的，如（Li等人，2023f；Huang等人，2023a；Gao等人，2023；Chen等人，2023f）中所觀察到的。然而，使用凍結的視覺編碼器有一些局限性，主要是由于參數數量有限，導致視覺和語言模態之間對齊不足。具體來說，從視覺模型提取的密集特征可能會碎片化細粒度圖像信息，并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題，其他方法（Ye等人，2023c,d）采用兩階段訓練范式。在第一階段，他們結合了可訓練的視覺主干，同時保持預訓練的LLM凍結。根據他們的發現，使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而，它可能導致其他任務的性能下降，表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊，稱為“適配器”，旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍，從基本架構（如線性層或MLP）到高級方法（如基于Transformer的解決方案），如Q-Former模型，以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射，將視覺特征轉換為與文本對應部分相同的維度。一些方法，如LLaMA-Adapter（Gao等人，2023）和FROMAGe（Koh等人，2023b）只使用單個線性層來執行多模態連接，而LLaVA-1.5（Liu等人，2023d）采用了兩層MLP，顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影，但即使在對視覺輸入有更深入理解的最新方法中，線性投影的使用也被證明非常有效（Chen等人，2023f；Lin等人，2023a；Wang等人，2023c；You等人，2023；Zhao等人，2023a）。因此，它是一種簡單而有效的技術，用于將視覺特征與文本對應部分對齊。不同的方法（Cha等人，2023）提議用卷積層替換線性層，顯示出適度的改進。 Q-Former。它是BLIP-2（Li等人，2023f）中提出的基于Transformer的模型，然后在幾種其他方法（Chen等人，2023d；Dai等人，2023；Hu等人，2024）中使用。它的特點是具有可適應的架構，由兩個共享相互注意力層的Transformer塊組成，促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢，在自注意力層內部交互，并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感，引入了各種修改版本。在這方面，mPLUG-Owl模型（Ye等人，2023c,d）簡化了Q-Former架構，并提出了一個視覺抽象器組件，通過將視覺信息壓縮為不同的可學習令牌來操作，以獲得更富語義的視覺表示。同一線上，Qwen-VL（Bai等人，2023b）使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征，還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo（Alayrac等人，2022）中被提出，通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用，以確保在初始化時，條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們，與其他替代方案相比，增加了可訓練參數的數量。為了減少計算復雜性，這種策略通常與基于Perceiver的組件（Jaegle等人，2021）配對使用，該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來，幾個模型（Awadalla等人，2023；Chen等人，2023b；Lauren?on等人，2023；Li等人，2023a）采用這種技術將視覺模態與底層LLM連接起來，顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始，MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下，都使用標準的交叉熵損失來預測下一個令牌，作為自回歸目標。單階段訓練。這種可能性由LLaMA-Adapter（Gao等人，2023）探索，它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點，模型使用圖像-文本對和指令進行聯合訓練，操作獨立的參數。同時，（Koh等人，2023b）中提出的模型通過整合兩個對比損失來適應最終損失函數，用于圖像-文本檢索。在訓練期間，只更新三個線性層。另一方面，Kosmos-1（Huang等人，2023a）考慮了一個凍結的視覺主干，并從頭開始訓練1.3B參數的語言模型。 Flamingo（Alayrac等人，2022）及其開源變體（Awadalla等人，2023；Lauren?on等人，2023），相反，訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外，Otter（Li等人，2023a）擴展了Flamingo的訓練以增加其上下文能力。鑒于目前可用的訓練數據量，像SPHINX-X（Gao等人，2024）這樣的方法選擇執行單一的一體化訓練階段，在此階段更新所有模型組件，可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個，目標是將圖像特征與文本嵌入空間對齊。經過這一階段后，輸出往往是碎片化的且不連貫的。因此，進行第二步以提高多模態對話能力。LLaVA（Liu等人，2023e,d）是首批引入視覺指令遵循訓練方案的方法之一，作為第二訓練階段執行，更新多模態適配器和LLM的參數。在第一階段，相反，只有多模態適配器是可訓練的。不同的是，MiniGPT4（Zhu等人，2023a）值得注意的是，在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段，它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法，如InstructBLIP（Dai等人，2023）所示，涉及凍結視覺編碼器和LLM。在兩個訓練階段中，只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比，mPLUG-Owl（Ye等人，2023c,d）在初始階段更新它，便于捕獲低層次和高層次的視覺信息。此外，在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地，Shikra（Chen等人，2023f）在兩個階段中更新所有權重，唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段（或單一階段）訓練中，通常使用來自不同來源的圖像-文本對，使用的數據集包括LAION-2B（Schuhmann等人，2022）、LAION-400M（Schuhmann等人，2021）、Conceptual Captions（Sharma等人，2018）、COYO-700M（Byeon等人，2022）和DataComp（Gadre等人，2023）。一些方法（Lin等人，2023a）將這些與一個或多個數據集結合使用，這些數據集的特點是文本與圖像交錯，通常從網絡上抓取，如WebLI（Chen等人，2023i）、MMC4（Zhu等人，2023d）、MMDialog（Feng等人，2023b）和OBELICS（Lauren?on等人，2023）。

為了解決以前數據集中的偏差和噪聲問題，StableLLaVA（Li等人，2023h）引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據，并使用Stable Diffusion（Rombach等人，2022）生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中，常用的LLaVA-Instruct（Liu等人，2023e）擴展了COCO（Lin等人，2014）并加入了由GPT-4生成的指令。遵循這一趨勢，Zhao等人（2023a）通過結合手動生成的數據和高質量多樣性的數據，擴大了尺寸。此外，還提出了其他多輪對話數據集，如（Dai等人，2023）中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集，LRV-Instruction（Liu等人，2023c）旨在通過更穩健的指令減少幻覺，而LLaVAR（Zhang等人，2023h）則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務，例如視覺問答（VQA）、圖像描述和多輪對話。然而，最近對處理更細粒度的視覺任務，如視覺定位和圖像生成，有了更大的興趣。

結論與未來方向

在本綜述中，我們提供了最近多模態大型語言模型（MLLMs）進化的全面概述，首先關注如何為LLMs裝備多模態能力，然后探討這些模型處理的主要任務。基于所呈現的分析，以下我們概述了重要的開放挑戰和有前景的未來研究方向，以進一步增強MLLMs的能力。修正幻覺現象。幾項研究（Liu等人，2023b；Zhu等人，2023a）表明MLLMs傾向于展現高幻覺率，特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題（Liu等人，2023b；Wang等人，2023a；Wu等人，2023c；Yin等人，2023a），但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰，值得解決，以允許這些模型在更關鍵的背景中（例如，醫學）應用，并保證它們的準確性和可信度。預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明，基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象（Schramowski等人，2023；Friedrich等人，2023），但需要進一步探索以防止MLLMs中出現相同的行為（Pi等人，2024）。減少計算負荷。如補充材料所示，MLLMs高度依賴于計算。需要有效的策略（Chu等人，2024）來減少計算需求，使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求，無論是在模型規模還是數據量方面，以及優化推理階段。

付費5元查看完整內容

大型語言模型 · 圖表示學習 ·

2024 年 2 月 14 日

[付費5元查看完整內容]大型語言模型圖表示學習：技術的全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

將大型語言模型（LLMs）與圖表示學習（GRL）的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性，從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域，但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白，該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分，包括知識提取器和組織器，以及兩種操作技術，包括整合和訓練策略，揭示了有效的模型設計和訓練策略。此外，我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向，提出了持續進步的路徑。

付費5元查看完整內容

大型語言模型 · 表格推理 ·

2024 年 2 月 14 日

[付費5元查看完整內容]大型語言模型在表格推理中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

表格推理旨在根據提供的表格以及可選的表格文本描述，按照用戶需求生成相應的問題答案，有效提高獲取信息的效率。近來，使用大型語言模型（LLMs）已成為表格推理的主流方法，因為它不僅顯著降低了注釋成本，還超過了以往方法的性能。然而，現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏，哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題，仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究，我們呈現了這篇綜述，以分析現有研究，激發未來的工作。在這篇論文中，我們分析了在LLM時代用于提高表格推理性能的主流技術，以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導，以激發未來的研究。

付費5元查看完整內容

深度學習 · 多標簽學習 ·

2024 年 1 月 31 日

[付費5元查看完整內容]《深度學習多標簽學習》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多標簽學習是一個迅速發展的研究領域，旨在從單個輸入數據點預測多個標簽。在大數據時代，涉及多標簽分類（MLC）或排名的任務提出了重大而復雜的挑戰，在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽，傳統方法在這些方面效果不佳。近年來，采用深度學習（DL）技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是，有一個增長中的努力旨在利用DL的強大學習能力，以改進對標簽依賴性及MLC中其他挑戰的建模。然而，值得注意的是，專門針對多標簽學習的DL的綜合研究相對有限。因此，這項綜述旨在徹底回顧DL在多標簽學習中的最新進展，以及MLC中開放研究問題的總結。該綜述整合了DL在MLC中的現有研究努力，包括深度神經網絡、變換器（Transformer）、自編碼器、卷積和循環架構。最后，該研究提出了現有方法的比較分析，以提供有洞察力的觀察，并激發該領域未來研究方向的思考。

在許多實際應用中，一個對象可能同時與多個標簽關聯，這類問題被認為是多標簽學習（MLL）【1】。MLL是標準單標簽學習范式的擴展，在這個范式中，通常有一個有限的潛在標簽集，這些標簽可以應用于多標簽數據（MLD）的實例。基本目標是同時預測給定單個輸入的輸出向量，這意味著它可以解決更復雜的決策問題。這與單標簽分類相對，單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中，一個實例通常與一組標簽相關聯，構成稱為相關標簽（活動標簽）的不同組合，而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量，其大小與MLD中標簽的總數對齊。根據目標的不同，MLL中存在兩個主要任務：多標簽分類（MLC）和多標簽排名（MLR）【2】。MLC是主要的學習任務，涉及學習一個模型，該模型輸出一個標簽集的二分劃分，將其分為與查詢實例相關和不相關的標簽。另一方面，MLR關注于學習一個模型，該模型輸出類標簽的排序，根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上，但它們的重要性正在逐漸增長，涵蓋了多個領域，如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用，如視頻注釋、網頁分類和語言建模，也可以從被構建為MLC任務中獲益，這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰，例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性，包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法，如問題轉換和算法適配【22】【23】，在解決這些挑戰時表現出次優性能。

除了傳統方法外，深度學習（DL）技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰，這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前，MLC中的一個主要趨勢是廣泛地結合DL技術，即使是對于更具挑戰性的問題，如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要，從而使DL能夠有效地解決MLC問題。一些研究表明，專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧，旨在識別一系列基于DL的技術用于MLC問題，以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述，如在【35】【23】【36】中引用的那些。此外，還有一些綜述包含了傳統方法和DL方法【37】【38】，但這些綜述對MLC的DL方法的覆蓋有限，并且集中在特定領域。然而，本文獨特地關注于一系列DL架構，包括循環和卷積網絡、變換器、自編碼器和混合模型，用于解決多個領域中的MLC挑戰。在圖1中，我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下：

據作者所知，本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的，涵蓋了多種領域和數據模態，包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結（表I、II和III），簡要概述了每種DL方法并進行了深刻的討論。因此，本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外，我們還總結了在MLC中使用的多標簽數據集，以及評估這些數據集特性所用的屬性定義。最后，本文提供了一項涉及各種DL技術的現有方法的比較研究，并調查了每種方法的優缺點（表V）。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。本文的后續部分組織如下。第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論，重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分，討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析，包括優勢和局限。最后，第VII部分給出了本文的結論。

近年來，DL（深度學習）的進步顯著豐富了MLC（多標簽分類）的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用，例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構，以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽，并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

大模型 · 長上下文 · 綜述 ·

2024 年 1 月 31 日

[付費5元查看完整內容]大模型如何處理長上下文？亞馬遜等最新《大型語言模型中上下文長度擴展技術》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）的出現代表了自然語言處理（NLP）領域的一個顯著突破，為文本理解和生成方面的顯著進展做出了貢獻。然而，在這些進展中，值得注意的是，LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中，我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰，并對研究人員采用的現有策略進行了有組織的概述。此外，我們討論了評估上下文擴展技術的復雜性，并強調了研究人員在該領域面臨的未解之謎。此外，我們探討了研究社區是否就評估標準達成共識，并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源，引導他們了解上下文長度擴展技術的細微之處，并促進對這一不斷發展領域未來進展的討論。

大型語言模型（LLMs）的成功案例隨處可見，隨著現代LLMs的出現，它們顯著推動了眾多自然語言處理（NLP）挑戰的發展，達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中，一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念，而Anthropic最近提出了超過200頁的更長上下文。然而，這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下，引發了幾個問題：(a) 有哪些應用需要理解如此擴展的上下文？(b) 當LLMs理解更長的上下文時，我們如何有效地衡量應用程序的改進性能？(c) 雖然注意力機制在NLP中得到了廣泛研究，但是否需要設計一種專門針對更長上下文的新型注意力形式？

采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能，從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力，從而提高其在各種語言任務中的整體有效性，如：(接下來列舉具體的任務)。

? 文檔摘要：改進長上下文處理有助于更加連貫和簡明地進行文檔摘要，捕捉擴展文本段落中的關鍵信息，并提高生成摘要的質量。全面理解整個文檔，同時識別關鍵詞和主題，需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力，可能導致關鍵細節的忽視。此外，使用較長的上下文窗口有助于減少歧義，因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。

? 問答系統：考慮長上下文的能力提高了模型對復雜的問答關系的理解，從而產生更準確和上下文相關的回答。此外，LLMs在處理問答任務方面表現出更高的熟練度，因為解決代詞的共指問題與上下文實體密切相關。此外，在面對多輪對話時，擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。

? 語言翻譯：在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力，特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域（Falkum和Vicente，2015）中構成了重要障礙，而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外，在面對技術術語時，LLMs在擁有擴展的輸入范圍時表現出更高的效能，尤其是在容納特定領域上下文微妙性方面。

? 指代消解：高級處理長上下文有助于解決擴展文本跨度內對實體的引用，從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息，因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。

? 對話型人工智能：通過長上下文模型促進對擴展對話的更好跟蹤和理解，可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。

盡管持續的研究工作，仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外，LLMs的不斷發展已經引入了用于外推上下文長度的創新方面，這給現有的擴展方法帶來了挑戰，并強調了需要全面、多樣化的外推方法的必要性。本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示，我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后，我們探討了LLMs上下文長度外推的潛在未來挑戰。當代技術已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度，我們提出了一個分類法，如圖1所示。該分類法劃分為兩個主要類別：插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反，外推涉及對觀察數據的范圍之外的值進行預測，旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后，還有用于進一步分類的零樣本（Rashid等人，2021）和微調技術。分類法中的其他小節將在隨后的部分中討論。

位置技術

與絕對位置嵌入不同，相對位置嵌入是基于鍵（keys）和查詢（queries）之間的差異制定的（Shaw等人，2018）。相對位置嵌入的一種普遍變體在Transformer-XL中引入（Dai等人，2019b；Yang等人，2019）。計算鍵和查詢之間的注意力得分已經改變，以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比，配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力，表現出了外推的熟練性（Press等人，2021b）。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。

外推在這次探索中，我們將其分類并深入探討了兩種主要策略：外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解，采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面，插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力，從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術，提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。

插值在上下文長度外推的背景下，插值技術專注于對模型進行微調或優化，以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力，從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解，確保模型在訓練期間接觸到的上下文長度內表現最佳。

總結而言，本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件，如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略，以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型，以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解，涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新，旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述，本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向，強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加，改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。

付費5元查看完整內容

知識編輯 · 大型語言模型 · 知識更新 ·

2023 年 10 月 26 日

[付費5元查看完整內容]大模型如何做知識編輯？弗吉尼亞大學最新《大型語言模型的知識編輯》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型語言模型（LLMs）因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力，已經重塑了學術和工業領域。盡管如此，LLMs的一個主要缺點是由于其前所未有的參數量，其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時，這一缺點會被放大。因此，開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而，重新訓練LLMs可能在計算上很密集，并且面臨退化與模型更新無關的寶貴預訓練知識。最近，基于知識的模型編輯（KME）受到了越來越多的關注，其目的是精確修改LLMs以納入特定的知識，而不負面影響其他無關的知識。在這次綜述中，我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式，以涵蓋不同的KME策略。之后，我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類，并研究現有的KME策略，同時分析每個類別的方法的關鍵見解、優點和局限性。此外，相應地介紹了KME的代表性指標、數據集和應用。最后，我們對KME的實用性和剩余挑戰進行了深入的分析，并建議在這一領域進一步發展的有前景的研究方向。

近期，大型語言模型（LLMs）已成為一個熱門話題，徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練，獲得了大量的事實知識和推理能力，LLMs展示了對文本信息的前所未有的理解，能夠像人類專家一樣分析和生成文本。然而，LLMs的一個主要缺點是由于參數數量龐大，訓練過程的計算開銷極高。隨著世界的不斷進化，經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求，這使得該問題進一步加劇[124]。例如，在圖1中，一個過時的LLM無法準確描述Lionel Messi的最新成就，這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型（LLMs）的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116]，在此，預訓練LLMs的參數直接被優化，以從新數據中編碼新知識[5, 72, 80, 122]。例如，提出了各種基于指令調整的方法，以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用，并且能夠將新知識注入到LLMs中，但它們因以下缺點而聞名：(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120]，微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據，尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是，微調LLMs會不受約束地改變預訓練的權重，這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點，更多的注意力已被賦予基于知識的模型編輯(KME)，也被稱為知識編輯。一般來說，KME旨在精確修改預訓練LLMs的行為，以更新特定的知識，而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中，LLMs中特定知識的更新通常被制定為一個編輯，例如將“誰是美國總統？”的答案從“特朗普”更正為“拜登”。關于特定的編輯，KME策略通常通過引入輔助網絡（或一組參數）到預訓練模型[41, 63, 124]，或更新（部分）參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略，KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新，從而精確地將知識注入模型。此外，某些方法還引入明確的損失以包含更新過程，從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢，KME技術可以提供一種高效且有效的方法，不斷地用新知識更新LLMs，而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處，但它在更新LLMs方面具有獨特的優勢，值得深入研究。特別是，KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而，除了這一共同目標外，KME更加關注兩個關鍵屬性，這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如，當有關美國總統的編輯得到更新時，編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力，這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說，它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如，當模型關于總統的部分被編輯時，對總統配偶的查詢的答案也應相應地改變。在實踐中，確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之，由于這兩個獨特的目標，KME仍然是一個具有挑戰性的任務，需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別：已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此，仍然缺乏徹底的綜述，可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如，最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而，KME的獨特性，即局部性和普遍性，并沒有得到充分的討論，這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是，他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能，而沒有解決基于特定知識的編輯任務。據我們所知，與我們的綜述最相關的論文是[119]，它提供了KME的簡要概述，并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此，這項綜述缺乏對KME的更多細節，例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現，而對不同策略的技術細節的重視較少。最近，一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性，而它相對較短，缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展，我們認為有必要回顧所有代表性KME方法的細節，總結共同點，同時討論每種方法的獨特性，并討論KME領域的開放挑戰和前瞻性方向，這將促進該領域的進一步發展。

本次綜述的貢獻：本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述，以及一個創新的公式化。特別是，我們將一般的KME任務公式化為一個受限制的優化問題，同時結合了準確性、局部性和普遍性的目標。然后，我們將現有的KME策略分類為三個主要類別，即外部記憶、全局優化和局部修改。重要的是，我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題，其中的特性基于一般的公式化理論總結。此外，我們提供了關于每個類別中方法的有效性和可行性的有價值的見解，這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之，我們的主要貢獻可以總結為以下三個方面：

?** 新的分類法**：我們引入了一個全面和結構化的分類框架，系統地總結了LLM編輯的現有工作。具體來說，基于如何將新知識引入預訓練的LLMs，我們的分類包括三個不同的類別：外部記憶、全局優化和局部修改，其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析：我們將LLM編輯任務公式化為一個受約束的優化問題，其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外，我們強調了每個類別的主要見解、優點和局限性。在這個背景下，我們深入研究了每個類別的代表性方法，并系統地分析了它們之間的聯系。 ? 未來方向：我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰，并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式，可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結，這對于公正地比較各種方法至關重要。在深入探討具體方法之前，我們在第5.1節為現有方法提供了一個全面的分類，其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法，其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后，我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現，各種KME方法已經被提議來更新預先訓練的LLMs，以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs，而不會負面影響與編輯無關的預訓練知識。在這份調查中，我們將現有的KME方法分為以下三個主要類別：

? 基于外部記憶的方法利用外部存儲器來存儲新的知識，以進行編輯，而不修改預訓練的權重，其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識，基于記憶的策略能夠準確地表示新知識，并具有良好的可伸縮性，因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**，其中引入了定制策略來限制其他預訓練知識的影響，與簡單的微調區分開來。然而，由于需要優化的參數數量眾多，這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數，并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分，從而與基于記憶的方法相比提供了相當的內存效率，并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置（例如，外部參數或內部權重）和方式（例如，通過優化或直接合并）進行的。具體而言，每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如，當計算資源有限而需要大量編輯時，外部記憶在場景中占優勢，因為記憶的大小可以控制以適應不同的要求。另一方面，當實踐者更關注編輯知識的普遍性時，全局優化是有利的，因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明，并在表2中總結了所有方法的具體特點。

在這次綜述中，我們對知識為基礎的模型編輯（KME）技術進行了全面而深入的調研，以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標，該目標同時確保編輯的準確性和保留，這適用于包括不同KME策略。接著，我們提供了KME的評估指標概述，這有助于了解編輯模型的理想屬性。隨后，我們提出了一個結構化的分類框架，以系統地分類現有的KME技術。在每個類別中，我們概述了核心挑戰，詳細說明了代表性方法，并討論了它們的優勢和劣勢。此外，我們總結了廣泛用于評估KME技術的數據集，強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現，我們還強調了KME技術的實際應用。最后，我們確定了未來研究的幾個潛在挑戰，并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

向量數據庫 · 大型語言模型 ·

2023 年 10 月 24 日

[付費5元查看完整內容]大模型如何用向量數據庫？清華等最新《向量數據庫管理系統》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現如今，已有超過20種商業向量數據庫管理系統（VDBMSs），它們都是在過去五年內推出的。但基于嵌入的檢索（EBR）已經被研究了超過十年，而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的，尤其是大型語言模型（LLMs），它們需要大量的非結構化數據，以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求，但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙，即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分，以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理，各種相似性分數和查詢類型現已被充分理解；對于存儲和索引，技術包括向量壓縮，即量化，以及基于隨機化、學習劃分和“可導航”的劃分技術；對于查詢優化和執行，我們描述了混合查詢的新運算符，以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上，包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。然后，我們討論基準測試，并最后概述了幾個研究挑戰，并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型（LLMs）[71] 的崛起，以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長，有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能，如查詢優化、事務處理、可擴展性、容錯能力，以及隱私和安全性，但這是針對非結構化數據的。由于這些數據并不是由固定模式中的屬性表示的，因此它們不是通過結構化查詢而是通過相似性搜索來檢索的，在這種搜索中，與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索，實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量，然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程，也稱為密集檢索 [73]。

因此，VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器；而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用，如LLMs，都是讀取密集型的，需要高查詢吞吐量和低延遲。其他應用，如電子商務，也是寫入密集型的，需要高寫入吞吐量。此外，一些應用需要高查詢準確性，這意味著檢索到的實體與查詢在語義上真正匹配，而其他應用可能對錯誤更為寬容。因此，開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解，但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞，但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞（例如 <, >, = 和 ∈）大多可以在O(1)時間內評估，但相似性比較通常需要O(D)時間，其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性，從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面，使磁盤檢索更加昂貴，同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的，導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序，也不是序數，這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作，如并集或交集，將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止，與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面，修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發，旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術，包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構，都是較近期的發明。

在本文中，我們首先從通用VDBMS的角度對這些技術進行調研，將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后，我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者，有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者，基本運算符是相似性投影，但由于它可能效率不高，因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統，這是通過向量搜索索引實現的。我們將索引分類為基于表的索引，如E2LSH [49]、SPANN [44] 和IVFADC [69]，這些索引通常容易更新；基于樹的索引，如FLANN [96]、RPTree [47,48] 和ANNOY [1]，旨在提供對數搜索；以及基于圖的索引，如KGraph [52]、FANNG [66] 和HNSW [90]，已經被證明在經驗上表現良好，但理論理解較少。為了解決劃分向量集合的難題，技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小，已經為壓縮向量上的索引開發了幾種技術，包括量化[62,69,91,113,129,133]，以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢，已經開發了幾種混合運算符，基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術，包括基于規則和基于成本的選擇[133,125]。對于查詢執行，有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符，利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術，即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統，這些系統專門圍繞向量管理設計，包括Vearch [81]、Milvus [125] 和Manu [63]；擴展系統在現有的數據管理系統之上增加向量功能，包括AnalyticDB-V [133] 和PASE [139]；以及搜索引擎和庫，旨在僅提供搜索功能，如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術，而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用，主要關注VDBMS的基本概念和用例。同樣，有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型，如時間序列和字符串，但VDBMS不支持。與這些其他數據類型的系統不同，VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分，我們在第6節簡要討論基準測試，然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

大模型 · SelfCheckGPT · 大型語言模型 · 知識幻覺 ·

2023 年 8 月 22 日

[付費5元查看完整內容]如何檢測大模型“幻覺”？劍橋提出SelfCheckGPT: 針對生成型大型語言模型的零資源黑盒子幻覺檢測

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成型大型語言模型（LLMs）如 GPT-3 能夠為各種用戶提示生成流暢的響應。但是，LLMs 有時會產生錯誤的事實，這可能會損害人們對它們輸出的信任。現有的事實檢查方法要么需要訪問輸出概率分布（這對于如 ChatGPT 這樣的系統可能不可用），要么需要通過復雜的模塊接口外部數據庫。在這項工作中，我們提出了 "SelfCheckGPT"，一個簡單的基于抽樣的方法，可用于在不需要外部數據庫的情況下對黑盒模型進行事實檢查。SelfCheckGPT 的核心思想是，如果LLM知道某個概念，抽樣的響應很可能會類似并包含一致的事實。但對于錯誤的事實，隨機抽樣的響應可能會有所不同并互相矛盾。我們使用 GPT-3 生成 WikiBio 數據集中的個人文章，并手動注釋生成的文章的事實性。我們證明 SelfCheckGPT 可以：i) 檢測非事實性和事實性的句子；以及 ii) 根據事實性對文章進行排名。我們將我們的方法與幾種基線方法進行比較，結果顯示在句子錯誤檢測中，我們的方法的 AUC-PR 分數與灰盒方法相當或更好，而 SelfCheckGPT 在文章事實性評估方面表現最佳。

付費5元查看完整內容

視覺語言模型 · 提示工程 · 自然語言處理 · 計算機視覺 ·

2023 年 7 月 29 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Prompt工程是一種技術，涉及用任務特定的提示，即prompts，增強大型預訓練模型，以使模型適應新任務。提示可以作為自然語言指令手動創建，或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能，而不更新模型參數，也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里，Prompt工程在自然語言處理中得到了深入研究。近期，它在視覺-語言建模中也得到了深入的研究。然而，目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查，涉及三種類型的視覺-語言模型：多模態到文本生成模型（例如Flamingo）、圖像-文本匹配模型（例如CLIP）和文本到圖像生成模型（例如Stable Diffusion）。對于每一種模型，我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外，還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后，總結了這一話題的挑戰、未來方向和研究機會，以促進未來的研究。

Prompt工程是一種方法，通過用任務特定的提示增強模型輸入，將大型預訓練模型（也稱為基礎模型）適應新任務。具體而言，模型的輸入被增加了一個額外的部分，稱為提示，這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5]，或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示，而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現，并因此而變得突出，這兩者一起導致了機器學習（ML）的范式轉變。傳統的范式要求標記大量的數據，然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量，這可能需要大量的資源來獲取。此外，傳統范式需要在某種程度上調整模型的參數，即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數，或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性，并要求每個任務都有一個特定的模型副本。最近，提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起，引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言（硬提示），相關的研究被稱為InContext Learning[7]，它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外，提示也可以是連續的向量表示（軟提示）。相關的工作被稱為Prompt-Tuning[6]，它直接在模型的嵌入空間中優化提示。 在本文中，我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查，來彌補這一缺口。具體來說，我們根據模板的可讀性將提示方法分類為兩個主要類別，即硬提示和軟提示。硬提示可以進一步劃分為四個子類，即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面，軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意，這項調查主要關注保持模型架構的提示方法，因此，如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程，分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外，我們從編碼器-解碼器的角度分類現有的Prompt工程方法，如圖1所示，即編碼端提示或解碼端提示，其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中，我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展，每一節首先介紹相應模型的初步情況，然后詳細討論提示方法，再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較，并對它們的相似之處和差異進行了深入討論。最后，在Sec. 7中，我們強調了挑戰和潛在的研究方向。為了方便文獻搜索，我們還建立并發布了一個項目頁面，其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類：硬提示，它們是勞動密集型的、手工制作的文本提示，帶有離散的標記；而軟提示是可優化的、可學習的張量，與輸入嵌入連接在一起，但由于與真實詞嵌入不對齊，所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性，包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型，強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術，研究人員可以在視覺語言模型中獲得顯著的性能提升，而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而，重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外，調查主要從提示工程的角度關注預訓練的視覺語言模型，并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性，我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術，如強化學習或元學習，的集成，以提高視覺語言模型的性能和泛化能力。此外，研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說，這項調查為現有的知識體系做出了貢獻，為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響，這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白，為預訓練模型在視覺和語言的背景下的適應提供了見解，為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容

信息檢索 · 預訓練語言模型 ·

2020 年 11 月 29 日

[付費5元查看完整內容]【WSDM 2021】面向信息檢索的預訓練語言模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在大規模無標簽文本上預訓練語言模型，然后在下游任務微調的學習模式已經在自然語言處理（NLP）領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展，然而，研究人員發現當預訓練任務的目標更接近于下游任務的目標時，模型在下游任務上能取得更大幅度的性能提升，例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3]，都取得了相較于原始預訓練語言模型更好的性能。近年來，在信息檢索（IR）中，預訓練語言模型在文檔排序任務上取得了一定的效果，然而，如何設計更符合信息檢索需求的預訓練目標，是一個值得探索的新領域。

在這項工作中，我們提出了一個新穎的針對信息檢索的預訓練任務，叫做“代表詞預測”任務（Representative Words Prediction）。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發，在查詢似然模型的基本假設中，查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本，因此通過貝葉斯定理推導，查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此，我們就構建了這樣一個新的代表詞預測任務（簡稱為ROP任務），具體來說，對于一個給定的文檔，我們根據文檔語言模型（狄利克雷平滑的多項式語言模型）采樣出該文檔的代表性詞集，然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測，我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練，我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容