大型語言模型(LLMs)在處理通用知識任務方面表現出色,但在用戶個性化需求方面存在挑戰,如理解個人情感、寫作風格和偏好。個性化大型語言模型(PLLMs)通過利用個體用戶數據,例如用戶資料、歷史對話、內容和互動,解決了這些問題,以提供在上下文上相關且量身定制的回答,滿足每個用戶的特定需求。這是一個極具價值的研究課題,因為PLLMs可以顯著提升用戶滿意度,并在對話代理、推薦系統、情感識別、醫療助手等領域具有廣泛的應用。 本綜述從三個技術角度回顧了個性化大型語言模型(PLLMs)的最新進展:針對個性化上下文的提示設計(輸入層)、個性化適配器的微調(模型層)以及個性化偏好的對齊(目標層)。為了提供更深入的洞察,我們還討論了當前的局限性,并概述了未來研究的幾個有前景的方向。有關本綜述的最新信息,請訪問Github倉庫。
1 引言
近年來,像GPT、PaLM、LLaMA、DeepSeek及其變種等大型語言模型(LLMs)取得了顯著進展。這些模型展現了卓越的多功能性,在各種自然語言處理任務中取得了最先進的表現,包括問答、推理和機器翻譯 [Zhao et al., 2023],且幾乎不需要針對特定任務的適應。
個性化LLMs(PLLMs)的必要性
雖然LLMs在通用知識和多領域推理方面表現出色,但它們缺乏個性化,導致在用戶特定理解至關重要的場景中遇到挑戰。例如,對話代理需要適應用戶的偏好語氣,并結合過去的互動,提供相關的個性化回應。隨著LLMs的發展,集成個性化能力已成為推動人機交互在多個領域發展的一個有前景的方向。 技術挑戰
盡管個性化LLMs具有巨大潛力,但個性化過程中仍面臨若干挑戰。這些挑戰包括如何高效地表示和整合多樣化的用戶數據、解決隱私問題、管理長期用戶記憶、適應用戶的多樣化需求以及應對用戶行為的變化 [Salemi et al., 2023]。此外,實現個性化通常需要在準確性和效率之間找到平衡,同時解決偏見問題并保持生成結果的公平性。 貢獻
盡管個性化LLMs日益受到關注,但該領域缺乏一篇系統性的綜述文章來整合最新的研究進展。本文旨在填補這一空白,通過系統地組織現有的PLLMs研究,并提供對其方法論和未來方向的深入見解。本文的貢獻可以總結如下:(1)結構化分類法:我們提出了一種全面的分類法,從技術角度對現有的PLLMs構建方法進行分析。(2)全面綜述:我們系統地回顧了PLLMs的最先進方法,分析了各個方法的特點和優缺點。
2 預備知識
大語言模型 大語言模型(LLMs)通常指利用Transformer架構并配備數十億參數的模型,這些模型在數萬億文本標記上進行訓練。這些模型在自然語言理解和生成任務中表現出顯著改進,越來越多地證明其在輔助人類活動中的益處。在本報告中,我們主要關注自回歸LLMs,它們基于兩種主要架構:僅解碼器模型和編碼器-解碼器模型。編碼器-解碼器模型如Flan-T5和ChatGLM通過編碼器分析輸入以獲取語義表示,使其在語言理解和生成方面表現出色。僅解碼器LLMs專注于從左到右的生成,通過預測序列中的下一個標記,許多實例在此范式下實現了指令跟隨和推理等高級能力的突破。 然而,這些模型通常在通用數據上進行預訓練,缺乏對特定用戶信息的理解。因此,它們無法生成適應用戶獨特品味、偏好和期望的響應,限制了其在需要用戶特定適配的個性化應用中的有效性。 問題陳述 個性化大語言模型(PLLMs)生成與用戶風格和期望一致的響應,為不同用戶提供多樣化的答案。PLLMs定義為不僅基于輸入查詢qq,還基于用戶uu的個性化數據CuCu生成響應的LLMs。其目標是預測給定查詢qq和個性化上下文CuCu的最可能響應序列yy,即:y=argmaxyP(y∣q,Cu)y=argmaxyP(y∣q,Cu)。個性化數據CuCu可能包含用戶偏好、歷史、上下文和其他用戶特定屬性的信息。這些信息可以包括(圖1): 檔案/關系:用戶檔案,包括屬性(如姓名、性別、職業)和關系(如朋友、家人),例如Cu={A,18,學生,朋友{B,C,D}… }Cu={A,18,學生,朋友{B,C,D}…}。 歷史對話:歷史對話,如用戶uu與LLM互動的問答對(例如Cu={(q0,a0),(q1,a1),…,(qi,ai)}Cu={(q0,a0),(q1,a1),…,(qi,ai)}),其中每個qiqi是查詢,aiai是相應的答案。 歷史內容:包括用戶uu的文檔、先前評論、評論或反饋。例如,Cu={1喜歡Avtar因為…,… }Cu={1喜歡Avtar因為…,…}。 歷史互動:包括用戶uu的歷史互動、偏好、評分。例如,Cu={指環王:5,星際穿越:3… }Cu={指環王:5,星際穿越:3…}。 通過整合個性化數據,PLLMs增強了傳統LLMs,改進了響應生成、推薦和分類任務。 注意,我們的報告與角色扮演相關的LLM個性化有顯著不同。雖然角色扮演側重于在對話中模仿角色,但本報告中的PLLMs側重于理解用戶的上下文和偏好,以滿足其特定需求。與強調廣泛類別的[29]相比,我們的工作提供了增強PLLM效率和性能技術的系統性分析,并提供了更詳細的技術分類。 提出的分類法 我們提出了一個從技術角度出發的分類法(如圖1和圖2所示),將個性化大語言模型(PLLMs)的方法分為三個主要層面:(1)輸入層面:個性化提示側重于處理用戶特定數據并將其注入模型。(2)模型層面:個性化適配強調設計框架以高效微調或適配模型參數以實現個性化。(3)目標層面:個性化對齊旨在優化模型行為以有效對齊用戶偏好。由于篇幅限制,分析論文、數據集和基準測試總結在Github Repo中。 3 個性化提示
提示工程作為用戶與LLMs之間的交互橋梁。在本報告中,提示涉及使用各種技術引導LLM生成期望的輸出,從傳統文本提示到軟嵌入等高級方法。軟嵌入不僅可以通過輸入擴展,還可以通過交叉注意力或調整輸出logits實現,從而實現更靈活和上下文敏感的響應。 該框架可以表示為,對于每個用戶uu:
其中,fLLMfLLM是生成響應的LLM模型;??是從用戶個人上下文CuCu中提取相關上下文的函數;⊕⊕表示將查詢qq和相關個性化上下文?(Cu)?(Cu)結合的組合運算符,為LLM生成豐富的信息。 檔案增強提示 檔案增強提示方法明確利用總結的用戶偏好和檔案的自然語言來增強LLMs的輸入(??是總結器模型)。圖3(a)展示了該方法的示意圖。 非調優總結器:凍結的LLM可以直接用作總結器,以總結用戶檔案,因其具有強大的語言理解能力,即?(Cu)=fLLM(Cu)?(Cu)=fLLM(Cu)。例如,_Cue-CoT_使用思維鏈提示進行個性化檔案增強,利用LLMs從歷史對話中提取和總結用戶狀態(如情感、個性和心理)。_PAG_利用指令調優的LLMs基于歷史內容預總結用戶檔案。這些總結離線存儲,從而在滿足運行時約束的同時實現高效的個性化響應生成。_ONCE_提示閉源LLMs從用戶的瀏覽歷史中總結主題和興趣區域,增強個性化推薦。 調優總結器:黑箱LLMs對輸入噪聲(如離題總結)敏感,難以提取相關信息。因此,訓練總結器以適應用戶偏好和風格至關重要。_Matryoshka_使用白箱LLM總結用戶歷史,類似于PAG,但微調總結器而不是生成器LLM。_RewriterSIRI_重寫查詢qq而不是連接總結,通過監督學習和強化學習進行優化。 _CoS_是一個特殊情況,假設一個簡短的用戶檔案?(Cu)?(Cu),并通過比較有和沒有檔案的輸出概率來放大其在LLM響應生成中的影響,從而在不微調的情況下調整個性化。 檢索增強提示 檢索增強提示[8, 10, 11]擅長從用戶數據中提取最相關的記錄以增強PLLMs(見圖3(b))。由于用戶數據的復雜性和體量,許多方法使用額外的記憶來實現更有效的檢索。常見的檢索器包括稀疏檢索器(如BM25 [21])和密集檢索器(如Faiss [23], Contriever [24])。這些方法有效地管理了LLM上下文限制內不斷增長的用戶數據量,通過整合用戶個性化數據中的關鍵證據來提高相關性和個性化。 3.2.1 個性化記憶構建 這部分設計了保留和更新記憶的機制,以實現高效檢索相關信息。 非參數記憶:此類記憶維護一個基于標記的數據庫,以原始標記形式存儲和檢索信息,而不使用參數化向量表示。例如,_MemPrompt_和_TeachMe_維護基于字典的反饋記憶(錯誤和用戶反饋的鍵值對)。MemPrompt側重于基于提示的改進,而TeachMe強調通過動態記憶進行持續學習,隨時間適應。_Mal.P_進一步整合了多種記憶類型,利用工作記憶進行即時處理,短期記憶(STM)進行快速訪問,長期記憶(LTM)存儲關鍵知識。 參數記憶:最近的研究將個性化用戶數據參數化并投影到可學習空間中,參數記憶過濾冗余上下文以減少噪聲。例如,_LD-Agent_維護具有獨立短期和長期庫的記憶,將長期事件編碼為通過可調模塊精煉的參數向量表示,并通過基于嵌入的機制進行檢索。_MemoRAG_采用不同的方法,利用輕量級LLM作為記憶來學習用戶個性化數據。它不維護用于檢索的向量數據庫,而是生成一系列標記作為草案以進一步指導檢索器,提供更動態和靈活的檢索增強方法。 3.2.2 個性化記憶檢索 個性化檢索器設計的關鍵挑戰在于選擇不僅相關而且具有代表性的個性化數據用于下游任務。_LaMP_研究通過兩種機制(提示內增強(IPA)和解碼器內融合(FiD))檢索的個性化信息如何影響大語言模型(LLMs)的響應。_PEARL_和_ROPG_同樣旨在通過個性化生成校準指標增強檢索器,提高檢索文檔的個性化和文本質量。同時,_HYDRA_訓練一個重排序器,從頂部檢索的歷史記錄中優先選擇最相關的信息以增強個性化。 軟融合提示 軟提示與檔案增強提示不同,它將個性化數據壓縮為軟嵌入,而不是將其總結為離散標記。這些嵌入由用戶特征編碼器??生成。 在本報告中,我們概括了軟提示的概念,表明軟嵌入不僅可以通過輸入集成,還可以通過交叉注意力或調整輸出logits集成,從而實現更靈活和上下文敏感的響應(見圖3(c))。 輸入前綴:軟提示作為輸入前綴,專注于嵌入級別,通過將查詢嵌入與軟嵌入連接,通常應用于推薦任務。_UEM_是一個用戶嵌入模塊(變換器網絡),生成基于用戶個性化數據的軟提示。_PERSONA_通過采用重采樣增強UEM,根據相關性和重要性選擇用戶互動的子集。_REGEN_通過協作過濾和項目描述結合用戶-項目互動的項目嵌入,使用軟提示適配器生成上下文個性化的響應。_PcaPOD_通過將用戶偏好提煉為有限的一組可學習的動態加權提示來個性化軟提示。與之前提到的方法不同,這些方法側重于直接嵌入用戶互動或重采樣相關數據,PcaPOD通過加權共享提示集來適應用戶興趣。 交叉注意力:交叉注意力使模型能夠通過允許其關注個性化數據和查詢來處理和整合多個輸入源。_User-LLM_使用自回歸用戶編碼器通過自監督學習將歷史互動轉換為嵌入,然后通過交叉注意力集成。該系統采用聯合訓練來優化檢索器和生成器以獲得更好的性能。_RECAP_利用為對話域設計的層次變換器檢索器獲取個性化信息。該信息通過上下文感知前綴編碼器集成到響應生成中,提高了模型生成個性化、上下文相關響應的能力。 輸出Logits:_GSMN_從個性化數據中檢索相關信息,將其編碼為軟嵌入,并與查詢向量在注意力中使用。之后,生成的嵌入與LLM生成的嵌入連接,修改最終logits以生成更個性化和上下文相關的響應。 討論 三種提示方法各有優缺點:1)檔案增強提示通過壓縮歷史數據提高效率,但存在信息丟失和個性化降低的風險。2)檢索增強提示提供豐富的上下文感知輸入,適用于長期記憶,但可能受計算限制和無關數據檢索的影響。3)軟提示高效嵌入用戶特定信息,捕捉語義細微差別而不冗余,但僅限于黑箱模型,缺乏明確的用戶偏好分析。總體而言,基于提示的方法高效且適應性強,能夠以最小的計算開銷實現動態個性化。然而,它們缺乏更深入的個性化分析,因為它們依賴于預定義的提示結構來注入用戶特定信息,并且由于提示范圍狹窄,訪問全局知識的能力有限。 4 個性化適配
PLLMs需要在微調的深度適應性和提示的效率之間取得平衡。因此,需要專門為PLLMs設計的方法,利用參數高效微調方法(PEFT),如LoRA [Hu et al., 2021, Yang et al., 2024], IA3 [Liu et al., 2022]等(見圖4)。 一個PEFT適用于所有用戶 該方法使用共享的PEFT模塊對所有用戶的數據進行訓練,消除了每個用戶單獨模塊的需求。共享模塊的架構可以進一步分類。 單一PEFT:_PLoRA_和_LMP_利用LoRA進行LLM的PEFT,分別通過用戶嵌入和用戶ID注入個性化信息。PLoRA進一步擴展并支持冷啟動場景的在線訓練和預測。_UserIdentifier_使用靜態、不可訓練的用戶標識符來調節模型對用戶特定信息的條件,避免了可訓練用戶特定參數的需求,降低了訓練成本。_Review-LLM_將用戶的歷史行為和評分聚合到提示中以引導情感,并利用LoRA進行高效微調。然而,這些方法依賴于具有固定配置的單一架構(如隱藏大小、插入層),使其無法存儲和激活多樣化的個性化信息[Zhou et al., 2024]。為了解決這個問題,_MiLP_利用貝葉斯優化策略自動識別應用多個LoRA模塊的最佳配置,從而實現高效和靈活的個性化。 專家混合(MoE):幾種方法使用LoRA模塊,但所有用戶使用靜態配置。這種缺乏參數個性化限制了適應用戶動態和偏好變化的能力,可能導致次優性能[Cai et al., 2024]。_RecLoRA_通過維護一組并行、獨立的LoRA權重并采用軟路由方法聚合元LoRA權重來解決這一限制,從而實現更個性化和自適應的結果。類似地,_iLoRA_創建了一組多樣化的專家(LoRA)以捕捉用戶偏好的特定方面,并生成動態專家參與權重以適應用戶特定行為。 共享PEFT方法依賴于集中式方法,其中用戶特定數據被編碼到集中式LLMs的共享適配器中。這限制了模型提供深度個性化體驗的能力。此外,使用集中式模型通常要求用戶與服務提供商共享個人數據,引發了對這些數據的存儲、使用和保護的擔憂。
每個用戶一個PEFT
為每個用戶配備用戶特定的PEFT模塊使LLM部署更加個性化,同時保護數據隱私。然而,挑戰在于確保在資源有限的環境中高效運行,因為用戶可能缺乏足夠的本地資源來執行微調。 無協作:此類別中適配器之間或學習過程中沒有協作或協調。_UserAdapter_通過前綴調優個性化模型,為每個用戶微調唯一的前綴向量,同時保持底層變換器模型共享和凍結。_PocketLLM_利用基于MeZo [Malladi et al., 2023]的無導數優化方法,在內存受限的移動設備上微調LLMs。_OPPU_為每個用戶配備一個LoRA模塊。 協作努力:沒有協作的“每個用戶一個PEFT”范式在計算和存儲方面非常密集,特別是對于大型用戶群。此外,個人擁有的PEFTs阻礙了社區價值,因為個人模型無法輕松共享知識或從協作改進中受益。_PER-PCS_通過跨用戶共享一小部分PEFT參數實現高效和協作的PLLMs。它首先將PEFT參數劃分為可重用的部分,并存儲在共享池中。對于每個目標用戶,從其他用戶自回歸選擇部分,確保可擴展性、效率和個性化適配,而無需額外訓練。 另一種高效的協作策略基于聯邦學習(FL)框架。例如,Wagner et al.[2024]引入了用于設備上LLM微調的FL框架,使用策略聚合LoRA模型參數并高效處理數據異質性,優于純本地微調。FDLoRA_引入了一個個性化的FL框架,使用雙LoRA模塊捕捉個性化和全局知識。它僅與中央服務器共享全局LoRA參數,并通過自適應融合結合它們,在最小化通信和計算成本的同時提高性能。 還有其他框架可以探索,例如_HYDRA,它也采用基礎模型來學習共享知識。然而,與聯邦學習相比,它為每個個體用戶分配不同的頭以提取個性化信息。 討論 微調方法通過修改大量模型參數實現深度個性化,而參數高效微調方法(如前綴向量或適配器)在保持高個性化水平的同時降低了計算成本和內存需求。這些方法通過針對特定用戶需求定制模型來提高任務適應性,增強情感分析和推薦等任務的性能。它們還提供了靈活性,允許用戶特定調整,同時利用預訓練知識。然而,它們仍然面臨過擬合的風險,特別是在有限或嘈雜的用戶數據情況下,這可能影響對新用戶或多樣化用戶的泛化和性能。 5. 個性化對齊
個性化對齊技術 [Bai et al., 2022; Rafailov et al., 2024] 通常旨在優化大型語言模型(LLMs),使其符合人類的通用偏好。然而,現實中,個體在語言風格、知識深度、價值觀等方面對LLM回答的偏好可能存在顯著差異。個性化對齊則力圖進一步滿足個體用戶的獨特偏好,超越通用的偏好。個性化對齊面臨的一大挑戰是構建高質量的用戶特定偏好數據集,這比通用對齊數據集更為復雜,原因在于數據的稀缺性。第二個挑戰來自于需要改進傳統的基于強化學習的人類反饋(RLHF)框架 [Ouyang et al., 2022],以處理用戶偏好的多樣化問題,這對于整合個性化偏好而不妥協效率和性能至關重要。
高質量的數據構建對于學習個性化大型語言模型(PLLMs)至關重要,主要涉及通過與LLM的交互生成自我生成的數據。Wu 等 [2024c] 構建了一個數據集,用于將LLM與個體偏好對齊,該數據集通過初步創建一個包含3,310個用戶角色池,并通過迭代自我生成和過濾進行擴展。這種方法與PLUM [Magister et al., 2024] 相似,后者通過多輪對話樹模擬動態交互,使得LLM能夠推斷并適應用戶的偏好。為了讓LLM能夠在不重新訓練的情況下適應個體用戶的偏好,Lee 等 [2024] 使用了多樣化的系統消息作為元指令來指導模型的行為。為此,創建了MULTIFACETED COLLECTION數據集,其中包含197,000條系統消息,代表了廣泛的用戶價值觀。為了支持邊緣設備上的實時隱私保護個性化,并解決數據隱私、存儲有限和最小化用戶干擾的問題,Qin 等 [2024] 提出了一個自監督方法,該方法能夠高效地選擇并綜合重要的用戶數據,從而在最小化用戶交互的情況下改善模型適應性。 研究工作也越來越集中于開發能夠評估模型理解個性化偏好的數據集。Kirk 等 [2024] 引入了PRISM Alignment Dataset,該數據集將來自75個國家的1,500名參與者的社會人口統計信息和偏好映射到他們與21個LLM的實時交互反饋中,重點關注關于有爭議話題的主觀和多文化視角。PersonalLLM [Zollo 等,2024] 提出了一個新型的個性化測試數據庫,它策劃了開放式提示和多個高質量的回應,以模擬用戶之間的多樣化潛在偏好。該方法通過從預訓練的獎勵模型生成模擬用戶群體,解決了個性化中的數據稀缺問題。
個性化偏好對齊通常被建模為一個多目標強化學習(MORL)問題,其中個性化偏好是由多個偏好維度的用戶特定組合來決定的。基于此,典型的對齊范式包括使用從多個獎勵模型派生的個性化獎勵來指導LLM策略的訓練階段,以實現個性化目標。MORLHF [Wu 等,2023] 為每個偏好維度分別訓練獎勵模型,并使用鄰近策略優化(PPO)重新訓練策略語言模型,指導模型通過多個獎勵模型的線性組合。這種方法允許重用標準的RLHF管道。 MODPO [Zhou 等,2023] 引入了一種新穎的無強化學習(RL-free)算法,擴展了直接偏好優化(DPO),以管理多個對齊目標。它將線性標量化直接集成到獎勵建模過程中,使得通過簡單的基于邊際的交叉熵損失來訓練語言模型,作為隱式的集體獎勵函數。 另一種MORL策略是在解碼階段考慮多個訓練好的策略LLM的即席組合,以實現個性化。Personalized Soups [Jang 等,2023] 和Reward Soups [Rame 等,2024] 通過首先獨立訓練多個具有不同偏好的策略模型,然后在推理階段合并它們的參數來解決個性化人類反饋中的RL挑戰。兩種方法都允許根據用戶偏好動態加權網絡,增強模型對齊并減少獎勵的誤差。此外,策略LLM的個性化融合不僅可以通過參數合并來實現,也可以通過模型集成來實現。MOD [Shi 等,2024] 從所有基礎模型的線性組合中輸出下一個令牌,允許通過組合它們的預測來精確控制不同目標,而無需重新訓練。與參數合并基準相比,該方法顯示出了顯著的效果。PAD [Chen 等,2024b] 利用個性化獎勵建模策略生成令牌級別的個性化獎勵,并用這些獎勵來指導解碼過程,從而動態地調整基礎模型的預測,以適應個體偏好。圖5可視化了上述典型的MORL方法,用于個性化對齊。 還有一些新興的個性化對齊研究,超越了“多目標”范式。PPT [Lau 等,2024] 通過生成每個用戶提示的兩個潛在回答,要求用戶對其進行排名,并將該反饋融入到模型的上下文中,以動態適應用戶的個性化偏好,從而解鎖了上下文學習在可擴展性和高效性上的潛力。VPL [Poddar 等,2024] 利用變分推斷框架,通過用戶特定的潛在變量來捕捉多樣化的人類偏好。從少量偏好注釋推斷用戶特定的潛在分布,能夠以更高的數據效率實現更準確的個性化獎勵建模。
當前主流的個性化對齊技術主要將個性化建模為多目標強化學習問題,其中通過經典的RLHF框架在策略LLM的訓練階段或通過參數合并或模型集成在解碼階段考慮個性化用戶偏好。通常,這些方法限于少數(例如三個)預定義的偏好維度,并通過文本用戶偏好提示來表示。然而,在現實場景中,可能存在大量個性化用戶,并且他們的偏好向量可能并不完全已知,僅能訪問到他們的交互歷史。因此,開發更現實的對齊基準,以有效評估這些技術,是未來研究的一個關鍵方向。6. 未來方向盡管個性化大型語言模型(PLLMs)近年來取得了顯著進展,但仍然面臨許多挑戰和機遇。本節將討論一些關鍵的局限性和未來研究的有前景的方向。復雜的用戶數據盡管當前的方法有效處理了基本的用戶偏好,處理復雜的、多源的用戶數據仍然是一個顯著的挑戰。例如,使用圖結構表示用戶關系的方法仍然局限于檢索增強 [Du et al., 2024]。如何有效利用這些復雜的用戶信息來微調LLM參數仍然是一個巨大的挑戰。大多數方法主要關注文本數據,而針對多模態數據(如圖像、視頻、音頻)的個性化基礎模型仍然沒有得到充分探索,盡管這些數據對現實世界的部署和應用至關重要 [Wu et al., 2024b; Pi et al., 2024]。邊緣計算邊緣計算中的一個關鍵挑戰是如何在資源有限的設備(如手機)上高效地更新模型,這些設備的存儲和計算資源有限。例如,微調可以提供更深層次的個性化,但它需要大量資源,并且難以擴展,尤其是在實時應用中。平衡資源和個性化需求是非常重要的。一種潛在的解決方案是為邊緣設備構建個性化的小型模型 [Lu et al., 2024],利用量化和蒸餾等技術。邊緣-云協作在現實世界場景中部署PLLMs會遇到邊緣-云計算環境中的重大挑戰。當前利用協作努力的方法通常缺乏云和邊緣設備之間的高效同步機制。這突顯了探索本地計算與云端處理之間平衡的必要性,尤其是在個性化模型(PLLMs)的部署中 [Tian et al., 2024]。高效適應模型更新當基礎LLM參數更新(例如推出新版本時),如何高效地調整每個用戶的微調PEFT參數成為一個挑戰。考慮到用戶數據的龐大量和資源的有限性,重新訓練的成本可能非常高昂。未來的研究應該聚焦于高效的策略來更新用戶特定的參數,而無需完全重新訓練,例如利用增量學習、遷移學習或更具資源效率的微調技術。終身更新鑒于用戶行為的多樣性,一個關鍵的挑戰是如何防止災難性遺忘,同時確保長期和短期記憶的高效更新。未來的研究可以探索持續學習 [Wu et al., 2024d] 和知識編輯 [Wang et al., 2024b],以促進用戶特定信息的動態更新。信任問題確保用戶隱私至關重要,尤其是在使用總結或檢索的數據生成個性化響應時。由于資源限制,LLMs無法本地部署,這可能導致隱私泄露的風險。未來的研究可以集中于隱私保護方法,例如聯邦學習、安全計算和差分隱私,以保護用戶數據 [Yao et al., 2024; Liu et al., 2024a]。7. 結論本文綜述了個性化大型語言模型(PLLMs),重點強調了根據個體用戶數據量身定制的個性化響應。我們提出了一個結構化的分類法,將現有的方法分為三個關鍵技術視角:個性化提示(輸入層)、個性化適配(模型層)和個性化對齊(目標層),并在每個層次內進一步細分。我們還討論了當前的局限性,并提出了幾個有前景的未來研究方向。我們的工作為推動PLLMs的發展提供了寶貴的見解和框架。
冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,
鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。
在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。
早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。
本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。
表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。
為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。
內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。
圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。
在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。
大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。
在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:
語言模型(LM)基于深度神經網絡(DNN)的構建,最近在軟件工程任務中,如代碼生成、代碼補全和代碼修復,表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路,這些技術對于提升現有程序的性能,特別是加速程序執行時間,具有重要意義。然而,專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白,我們進行了一項系統的文獻綜述,分析了超過50篇核心研究,識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰,例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外,我們提供了八個未來的研究方向,以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此,本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。
1. 引言
代碼優化,或程序優化,長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標,例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程(SE)任務,包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。
傳統上,代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合,以捕獲程序的關鍵屬性,例如數據和控制依賴,進而識別出優化代碼的最有效方法。隨著時間的推移,已經開發出多種優化技術,涵蓋從低級策略,如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略,旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。
代碼優化的一個關鍵挑戰是存在大量可能的優化方式,使得窮舉搜索在計算上是不可行的,通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中,好的優化往往是稀缺的,并且在不同的程序之間差異很大[48, 137]。對于低級性能優化,最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法,它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。
在過去的幾十年中,已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明,機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年,基于深度神經網絡(DNN)的語言模型(LM)和生成性人工智能(genAI)的出現,標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44],并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理,進一步推動了將語言模型應用于軟件工程的廣泛研究[57],并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用,為這一領域的研究和創新開辟了新的方向。
然而,盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展,現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域,如自動程序修復[155]。值得注意的是,文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示,本文旨在填補這一空白,提供一項系統的文獻綜述(SLR),聚焦于基于語言模型的最前沿代碼優化方法。具體來說,我們通過六個學術索引引擎進行檢索,識別并系統地回顧了53篇核心研究[1]。基于四個研究問題(RQ)和11個具體的子問題,我們對這些研究進行了分類,概括了結果中的關鍵發現,并為讀者提供了有價值的建議。例如,我們的主要發現包括:
像 GPT-4 這樣的通用語言模型(LM)被比專門用于代碼的語言模型(43個實例)更廣泛地采用(61個實例),這是由于其更廣泛的理解和推理能力。
大多數研究(57%)利用了預訓練模型,以節省時間和資源,而43%的研究通過微調模型來定制任務特定需求。
最常被提到的挑戰是性能和代碼相關的問題,例如一步優化的限制(18項研究)、平衡正確性和效率(15項研究)以及代碼語法的復雜性(10項研究)。
大多數研究通過設計專門的模型(51個實例)來解決現有挑戰,這些模型雖然有效,但缺乏通用性。提示工程(Prompt Engineering)作為第二大類(34個實例)因其數據效率而脫穎而出,盡管依賴于專家知識。另一類則通過提出新的代碼優化問題(33個實例)提供了更大的優化靈活性,但也需要大量的數據集準備工作。
此外,我們還揭示了現有文獻中的五個關鍵挑戰,并提供了未來研究的潛在方向,總結如下:
語言模型(LM)的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時,需要大量的計算資源,這就提出了模型壓縮和集成技術的需求。
基于語言模型的代碼優化方法通常在孤立的環境中操作,缺乏與外部系統的無縫集成,強調了具有主動性(agentic)的語言模型的重要性。
單語言研究的主導地位(81%)和對單一性能指標的強調(79%)凸顯了通用性問題,以及對多語言和多目標優化方法的需求。
大多數基于語言模型的方法的研究(68%)是在合成數據集上進行評估的,而不是在更大且更復雜的真實世界代碼庫上進行的,這表明需要標準化基準測試,以反映不同的真實世界場景。
語言模型常常生成不一致或幻覺化的輸出,因此人類與語言模型的協作對于利用AI的計算能力至關重要,同時確保優化結果的可信度和可靠性。
本文的其余部分安排如下:第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述(SLR)方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后,第9節總結了本文內容。 方法論
本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述(SLR)指南,這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示,研究方法包括三個關鍵階段:
圖5提供了所有問題的分類概述,接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。
結論我們為語言模型(LMs)在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄,我們盡力提供了一個全面且易于理解的綜述,涵蓋了主要的研究領域和未來的發展方向。具體來說,我們識別出五個關鍵的知識空白,這些空白可能會阻礙該領域的發展,包括平衡模型復雜性與實際應用性之間的挑戰,以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究,并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局,本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習,這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反,它們實際上為增強創造力和探索新的研究前沿提供了機會。
大型語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務中展示了令人矚目的表現,充分利用了它們理解和生成類人文本以進行視覺推理的固有能力。鑒于視覺數據的多樣性,多模態大型語言模型(MM-LLMs)在理解圖像、短視頻和長視頻時,在模型設計和訓練上表現出不同的變異性。本文重點討論長視頻理解相較于靜態圖像和短視頻理解所帶來的巨大差異和獨特挑戰。與靜態圖像不同,短視頻包含具有空間和事件內時序信息的連續幀,而長視頻則由多個事件組成,涵蓋事件間和長期時序信息。在本次綜述中,我們旨在追蹤并總結從圖像理解到長視頻理解的MM-LLMs進展。我們回顧了各種視覺理解任務的差異,強調了長視頻理解中的挑戰,包括更細粒度的時空細節、動態事件以及長期依賴關系。接著,我們詳細總結了在長視頻理解中MM-LLMs的模型設計和訓練方法的進展。最后,我們比較了現有MM-LLMs在不同長度視頻理解基準測試中的表現,并討論了MM-LLMs在長視頻理解中的未來潛在發展方向。
//www.zhuanzhi.ai/paper/72b285bc61f4bbb1c7ca164cf4d23606
大型語言模型(LLMs)通過擴大模型規模和訓練數據展示了在理解和生成類人文本方面的顯著多功能性和能力(Raffel等, 2020; Brown, 2020; Chowdhery等, 2023; Touvron等, 2023a)。為了將這些能力擴展到視覺理解任務中,已經提出了各種方法將LLMs與特定的視覺模態編碼器相結合,從而賦予LLMs視覺感知能力(Alayrac等, 2022; Li等, 2023a)。單張圖像或多幀被編碼為視覺標記,并與文本標記集成,以幫助多模態大型語言模型(MM-LLMs)實現視覺理解。對于長視頻理解,MM-LLMs(Dai等, 2023; Liu等, 2024c)設計用于處理大量視覺幀和多樣化事件,使其能夠應用于諸如自動分析體育視頻集錦、電影、監控錄像和具身AI中的自我視角視頻等多種現實世界應用。例如,機器人可以通過長時間的自我視角視頻學習如何制作咖啡,它需要分析長視頻中的關鍵事件,包括:1)每6盎司水加入一到兩湯匙咖啡粉;2)向咖啡機的水箱加水;3)將咖啡粉放入過濾籃中;4)啟動咖啡機并等待其煮咖啡。對包含復雜時空細節和依賴關系的長視頻進行建模仍然是一個挑戰性問題(Wang等, 2023a; Mangalam等, 2024; Xu等, 2024b; Wu等, 2024)。 長視頻理解與其他視覺理解任務之間存在顯著差異。相比于靜態圖像理解,它僅關注靜態圖像的空間內容,而短視頻理解還必須考慮事件內跨連續幀變化的時間信息(Li等, 2023b; Zhang等, 2023; Maaz等, 2023)。此外,長視頻(超過一分鐘的)(Wu 和 Krahenbuhl, 2021; Zhang等, 2024d; Song等, 2024a)通常由多個事件組成,場景和視覺內容各異,需要捕捉事件間和長期的變化以實現有效理解。在有限的視覺標記數量下,如何有效平衡空間和時間細節,對長視頻語言模型(LV-LLMs)提出了相當大的挑戰(Song等, 2024a; He等, 2024; Xu等, 2024b)。與僅包含幾十幀的短視頻不同,長視頻往往包含數千幀(Ren等, 2024; Zhang等, 2024d)。因此,LV-LLMs必須能夠記住并不斷學習跨幾分鐘甚至幾小時的視頻中的長期關聯。為了實現對長視頻的全面理解,MM-LLMs在模型設計和訓練方面的進展值得特別關注(Fu等, 2024a; Wu等, 2024)。 我們在圖2中總結了MM-LLMs在圖像、短視頻和長視頻理解中的比較。除了上文討論的長視頻理解與其他視覺理解任務的繼承和發展關系外,LV-LLMs也在多圖像和短視頻MM-LLMs的進展基礎上構建,具有相似的視覺編碼器、LLM主干和跨模態連接器結構。為有效解決長視頻理解任務中新出現的挑戰,LV-LLMs設計了更高效的長視頻級連接器,這些連接器不僅能橋接跨模態表示,還能將視覺標記壓縮到可管理的數量(Li等, 2023c; Zhang等, 2024d)。此外,時間感知模塊通常被引入,以增強LV-LLMs對時間信息的捕捉(Qian等, 2024)。對于預訓練和指令調優,視頻-文本對和視頻指令數據對于MM-LLMs處理具有共享空間感知和推理能力的圖像和視頻至關重要(Li等, 2023b)。長視頻訓練數據集在時間跨模態語義對齊和捕捉長期關聯方面尤為重要,這對LV-LLMs至關重要(Song等, 2024b)。我們的綜述將提供對模型設計和訓練方法進展的全面總結,追蹤MM-LLMs從圖像理解到長視頻理解的演變。 近期關于視覺理解任務的綜述通常采用單一視角,要么從全球視角審視MM-LLMs(Yin等, 2023; Zhang等, 2024a),要么從局部視角聚焦于圖像或視頻理解任務(Zhang等, 2024b; Nguyen等, 2024)。雖然這些工作對研究主題進行了廣泛審查,但它們沒有討論不同任務和方法之間的繼承與發展關系。此外,現有關于視頻理解任務的綜述(Tang等, 2023)更傾向于關注一般的視頻理解,而非更具挑戰性的長視頻理解任務。超過一分鐘的長視頻在教育、娛樂、交通等領域廣泛應用,需要強大的模型來實現全面的自動理解(Apostolidis等, 2021)。我們的工作是最早從發展視角總結和討論長視頻理解任務的研究之一。 本綜述的結構如下:首先,我們發現長視頻理解任務相比于圖像和短視頻理解任務更為復雜(第2.1節),并在第2.2節總結了長視頻理解的獨特挑戰。接下來,我們從模型架構(第3節)和訓練方法(第4節)的角度詳細總結了MM-LLMs的進展,重點關注LV-LLMs在全面長視頻理解中的實現。然后,我們比較了視頻LLMs在從秒到分鐘(第5.1節)以及從分鐘到小時(第5.2節)的視頻理解基準測試中的表現,為LV-LLMs的現有研究成果提供了見解。最后,我們在第6節中討論了長視頻理解領域未來的研究方向,以推進這一研究領域的發展。
由于長視頻理解與圖像或短視頻理解之間的固有差異,包括多幀和動態場景中存在的各種事件,長視頻理解任務在視覺理解方面提出了額外的挑戰。
視覺推理要求模型能夠理解和解釋視覺信息,并將多模態感知與常識性理解相結合(Johnson等, 2017; Chen等, 2024c)。視覺推理任務主要有三種類型:視覺問答(VQA)、視覺字幕生成(VC)或描述(VD),以及視覺對話(VDia)。VQA(Antol等, 2015; Zakari等, 2022)涉及根據輸入的視覺數據和伴隨的問題生成自然語言答案。VC和VD系統(Vinyals等, 2015; Sharma等, 2018; Li等, 2019)分別生成簡潔的自然語言句子以總結視覺數據的主要內容,或生成詳細且全面的視覺數據描述。VDia(Das等, 2017; Qi等, 2020)則涉及圍繞視覺內容進行的多輪對話,由一系列問題-答案對組成。 圖像理解。如圖3(a)所示,圖像理解任務涉及單張圖像的各種視覺推理任務,例如圖像字幕生成和以圖像為中心的問答(Sharma等, 2018; Mathew等, 2021; Changpinyo等, 2022; Li等, 2023a; Chen等, 2024a)。這些任務僅關注空間信息,包括對全局視覺內容的粗粒度理解(Ordonez等, 2011; Sohoni等, 2020)以及對局部視覺細節的精細理解(Wei等, 2021; Liu等, 2024b; Peng等, 2024)。 短視頻理解。與圖像理解任務僅涉及靜態視覺數據不同,短視頻理解還結合了多幀視覺數據中的時間信息(Xu等, 2016; Bain等, 2021; Li等, 2023b, 2024e)。除了空間推理(Ranasinghe等, 2024)外,事件內的時間推理和跨幀的時空推理對于短視頻理解至關重要(Huang等, 2018; Lin等, 2019; Diba等, 2023)。 長視頻理解。長視頻通常跨越數分鐘甚至數小時,通常包含多個事件,與短視頻相比,長視頻涵蓋更豐富的空間內容和時間變化(Mangalam等, 2024; Li等, 2024f; Song等, 2024a,b)。如圖3(c)總結的那樣,長視頻理解不僅涉及空間和事件內的時間推理,還涉及事件間的推理和跨不同視頻事件的長期推理(Wu等, 2019; Wu和Krahenbuhl, 2021; Wang等, 2023a; Zhou等, 2024; Fang等, 2024)。
與圖像和短視頻相比,長視頻帶來了全面視覺理解的新挑戰,具體如下: 豐富的細粒度時空細節。長視頻涵蓋廣泛的主題、場景和活動,包含不同的細節,如物體、事件和屬性(Fu等, 2024a; Wu等, 2024)。與靜態圖像和具有相似多幀的短視頻相比,這些細節更加豐富,使長視頻理解更具挑戰性。例如,可以在任何幀中引入細粒度的空間問答,而時間問答可以在長視頻推理任務的幀間或幀內引入(Song等, 2024a)。用于長視頻理解的多模態LLMs必須捕捉跨越數分鐘甚至數小時的視頻幀中的所有相關細粒度時空細節,并使用有限數量的視覺標記。 場景轉換和內容變化中的動態事件。長視頻通常包含各種動態事件,場景和內容變化顯著(Wu等, 2024)。這些事件可能根據出現的順序在語義上相關并按時間協調(Bao等, 2021),也可能由于情節反轉(Papalampidi等, 2019)而表現出顯著的語義差異。事件間推理涉及多個具有不同視覺信息的事件,對于準確的內容理解至關重要(Cheng等, 2024a; Qian等, 2024)。對于多模態LLMs來說,區分語義差異并在不同事件中保持語義一致性對長視頻理解尤為重要。 長期關聯和依賴關系。長視頻通常包含跨長時間段的動作和事件。捕捉長期依賴關系并理解視頻的不同部分在長時間段內如何相互關聯是一項挑戰(Wu等, 2019)。用于圖像或短視頻的LLMs通常無法將當前事件與遠離當前時間的過去或未來事件聯系起來(Wu和Krahenbuhl, 2021),也無法進行長期決策(Wang等, 2024b)。
在本節中,我們從模型架構的角度討論了多模態大型語言模型(MM-LLMs)從圖像目標模型到長視頻目標模型的進展。如圖4所示,用于圖像、短視頻和長視頻的MM-LLMs具有相似的結構,包括視覺編碼器、LLM主干和中介連接器。與圖像目標MM-LLMs中的圖像級連接器不同,視頻級連接器在跨幀視覺信息的整合中起著關鍵作用。在長視頻LLMs(LV-LLMs)中,設計連接器更加具有挑戰性,要求有效壓縮大量視覺信息并結合時間知識來管理長期關聯。
MM-LLMs,包括圖像目標和視頻目標模型,通常使用相似的視覺編碼器來提取視覺信息。LLM主干在早期的MM-LLM方法中也比較通用,而現有的LV-LLMs傾向于在實現中使用長上下文LLMs。 視覺編碼器。預訓練的視覺編碼器負責從原始視覺數據中捕捉視覺知識。如表1所示,圖像編碼器如CLIP-ViT-L/14(Radford等, 2021)、EVA-CLIP-ViT-G/14(Sun等, 2023)、OpenCLIP-ViT-bigG/14(Cherti等, 2023)和SigLIP-SO400M(Zhai等, 2023)廣泛用于圖像和視頻目標的LLMs。近期工作(Li等, 2024a)表明,視覺表示(包括圖像分辨率、視覺標記的大小和預訓練視覺資源)比視覺編碼器的大小更重要。 LLM主干。LLM是視覺理解系統中的核心模塊,繼承了推理和決策的屬性。相比于GPT-3/4(Brown, 2020;Achiam等, 2023)和Gemini-1.5(Reid等, 2024)等閉源LLMs,更多的開源LLMs更常用于實現視覺LLMs。這些開源LLMs包括Flan-T5(Chung等, 2024)、LLaMA(Touvron等, 2023b,c;Dubey等, 2024)、Vicuna(Chiang等, 2023)、QWen(Bai等, 2023a)、Mistral(Jiang等, 2023)、Openflamingo(Awadalla等, 2023)、Yi(Young等, 2024)和InternLM(Team, 2023;Cai等, 2024)。 LLM的強度通常與視覺LLMs的多模態能力相關聯(Li等, 2024b,a)。這意味著對于相同規模的LLM,語言能力更強的模型表現更好;而對于相同LLM的不同規模模型,規模更大的模型通常會帶來更好的多模態性能。此外,長上下文LLMs通過將上下文長度擴展到成千上萬的標記,支持更多數據的學習(Yang等, 2024)。最近的LV-LLMs有效地將LLM的長上下文理解能力轉移到視覺模態(Zhang等, 2024d)。
視覺編碼器和LLMs之間的連接器作為模態接口,將視覺特征映射到語言特征空間。鑒于視覺數據來源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。 圖像級連接器。圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺標記,它們廣泛用于圖像目標和視頻目標的MM-LLMs中。這些連接器可以分為三類:第一類直接使用單層線性層(Liu等, 2024c)或多層感知器(MLP)(Liu等, 2024a)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺標記的方法不適用于涉及多圖像的視覺理解任務。為了應對保留所有視覺標記的局限性,第二類采用了基于池化的方法,包括空間池化(Maaz等, 2023)、自適應池化(Xu等, 2024a)、語義相似標記合并(Jin等, 2024)和相鄰標記平均(Zhang等, 2024e;Li等, 2024c)。第三類利用了基于交叉注意力或Transformer的結構,例如Q-Former(Li等, 2023a)和Perceiver Resampler(Jaegle等, 2021),用于圖像特征壓縮。Q-Former是一種輕量級Transformer結構,使用一組可學習的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai等, 2023;Li等, 2023b;Ma等, 2023a;Liu等, 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma等, 2023b;Jiang等, 2024)選擇使用Perceiver Resampler來通過提取補丁特征降低計算負擔。 視頻級連接器。視頻級連接器用于提取連續的視覺數據并進一步壓縮視覺特征。相比于圖像目標MM-LLMs中的圖像級連接器,視頻級連接器在視頻目標MM-LLMs,包括LV-LLMs中尤為重要。一些方法直接將圖像標記串聯后輸入到LLMs,使其對幀圖像數量較為敏感(Dai等, 2023;Lin等, 2023)。用于標記壓縮的圖像級連接器的類似結構可以適用于視頻級接口,如基于池化和Transformer的結構。沿時間序列維度的池化是減少時間信息冗余的直接方式(Maaz等, 2023;Song等, 2024a)。基于Transformer的方法,如Video Q-Former(Zhang等, 2023;Ma等, 2023a;Ren等, 2024)和Video Perceiver(Wang等, 2023b),在提取視頻特征的同時降低了數據復雜性。此外,基于3D卷積的方法可以從空間和時間維度提取并壓縮視覺數據(Cheng等, 2024b;Liu等, 2024d)。 長視頻級連接器。專為長視頻LLMs設計的連接器考慮了兩個特殊因素:處理長視頻數據的高效視覺信息壓縮和時間感知設計以保留時間信息。 有效壓縮視覺信息不僅需要將輸入的視覺標記減少到可接受的數量,還需要保留長視頻中包含的完整時空細節。視頻包含兩種類型的數據冗余:幀內的空間數據冗余和幀間的時空數據冗余(Li等, 2022;Chen等, 2023a)。一方面,當幀內的像素在區域級別相同時,空間數據冗余就會產生,從而導致通過完整的視覺標記表示冗余視覺幀時效率低下。為了減少空間視頻數據冗余,LLaVA-Next系列方法(Zhang等, 2024e;Li等, 2024d;Liu等, 2024b;Li等, 2024c)合并了相鄰幀補丁標記,而Chat-UniVi(Jin等, 2024)合并了相似的幀補丁標記。另一方面,時空數據冗余包括幀間像素冗余和運動冗余(Pourreza等, 2023),其中這些冗余視頻幀之間的語義信息相似。為了減少時空視頻冗余,MovieChat(Song等, 2024a)和MALMM(He等, 2024)在將幀特征輸入到LLMs之前合并了相似幀特征。在減少冗余信息的同時,保留更多視頻時空細節對于準確的長視頻推理至關重要(Diba等, 2023)。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA(Xu等, 2024b)采用了低幀率的慢路徑來提取特征,同時保留更多的視覺標記,以及高幀率的快路徑,通過更大的空間池化步長關注運動線索。 此外,時間相關的視覺數據可以有效管理長視頻固有的時空信息(Hou等, 2024)。時間感知設計可以增強視頻相關LLMs的時間捕捉能力,這對于長視頻理解特別有益。VTimeLLM(Huang等, 2024a)和InternLM-XComposer-2.5(IXC-2.5)(Zhang等, 2024c)都使用幀索引來增強時間關系。不同之處在于其方法:VTimeLLM通過訓練包含幀索引的解碼文本來學習時間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat(Ren等, 2024)和Momentor(Qian等, 2024)將時間信息直接注入幀特征中,以捕捉細粒度的時間信息。具體而言,TimeChat設計了一個時間感知幀編碼器,用于在幀級別提取視覺特征,并添加相應的時間戳描述,而Momentor利用了一個時間感知模塊,用于連續時間編碼和解碼,將時間信息注入幀特征中。
本文總結了視覺LLMs從圖像到長視頻的進展。基于對圖像理解、短視頻理解和長視頻理解任務差異的分析,我們識別了長視頻學習的關鍵挑戰。這些挑戰包括在動態連續事件中捕捉更多的細粒度時空細節和在場景轉換與內容變化中壓縮視覺信息中的長期依賴關系。接著,我們介紹了從圖像LLMs到長視頻LLMs在模型架構和模型訓練方面的進展,旨在提升長視頻的理解與推理能力。隨后,我們回顧了多個不同長度的視頻基準測試,并比較了不同方法的視頻理解性能。該比較為長視頻理解的未來研究方向提供了見解。我們的論文是首個聚焦于長視頻LLMs的開發和改進,以提升長視頻理解的研究工作。我們希望本研究能推動LLMs在長視頻理解與推理領域的進步。
近年來,隨著大型模型的顯著發展,大型視覺-語言模型(LVLMs)在各種多模態理解和推理任務中展示了卓越的能力。相比于傳統的大型語言模型(LLMs),由于更接近多資源的現實世界應用和多模態處理的復雜性,LVLMs 展示了巨大的潛力和挑戰。然而,LVLMs 的脆弱性相對較少被探索,在日常使用中可能存在潛在的安全風險。在本文中,我們對現有的各種 LVLM 攻擊形式進行了全面的回顧。具體來說,我們首先介紹了針對 LVLMs 攻擊的背景,包括攻擊的初步知識、攻擊的挑戰和攻擊資源。然后,我們系統地回顧了 LVLM 攻擊方法的發展,如操縱模型輸出的對抗攻擊,利用模型漏洞進行未授權操作的越獄攻擊,設計提示類型和模式的提示注入攻擊,以及影響模型訓練的數據投毒攻擊。最后,我們討論了未來有前景的研究方向。我們相信,我們的調查為 LVLM 脆弱性的現狀提供了洞見,激勵更多研究人員探索和緩解 LVLM 開發中的潛在安全問題。最新的 LVLM 攻擊論文會在 //github.com/liudaizong/Awesome-LVLM-Attack 持續收集。
大型視覺-語言模型(LVLMs)在各種多模態下游任務中取得了顯著成功,并展示了很有前途的能力,如文本生成圖像 [91], [102], [104]、視覺問答 [2], [61], [115] 等等,這得益于數據量、計算資源和模型參數數量的增加。通過進一步利用大型語言模型(LLMs)[56], [63], [71], [94], [112], [143] 的強大理解能力,最近的 LVLMs [33], [75], [144] 基于 LLMs 展示出在解決復雜視覺-語言任務方面的優異表現,利用了適當的人類指令提示。盡管 LVLMs 具有顯著的能力,但其復雜性和部署的增加也暴露了其面臨的各種安全威脅和脆弱性,使得對這些模型攻擊的研究成為一個重要的研究領域。 一般來說,LVLMs 通過使用預訓練的視覺編碼器與語言模型結合,具備處理視覺信息和自然語言理解的能力。由于這種多模態特性,LVLMs 特別容易受到攻擊,因為多模態整合不僅放大了它們的脆弱性,還引入了在單模態系統中不存在的新攻擊向量。例如,視覺領域中的對抗樣本,通過細微改變圖像來欺騙模型,可以擴展到多模態場景中,在圖像和文本輸入都被操縱的情況下。類似地,針對語言理解組件的攻擊,如惡意設計的提示詞,當與視覺輸入結合時,可以破壞模型輸出的完整性。因此,有必要探索 LVLM 模型的潛在攻擊的安全性。 在過去的兩年中,有很多關于 LVLM 攻擊的論文提出。然而,如圖 1 所示,現有的 LVLM 攻擊發展多種多樣,從對抗攻擊、越獄攻擊、提示注入和數據投毒/后門攻擊到更微妙的形式,如偏見操縱和隱私泄露。具體來說,對抗攻擊是故意擾亂輸入以導致錯誤輸出,可能導致錯誤分類或錯誤的圖像描述,這在自動駕駛 [88], [106], [135] 或醫療診斷 [11], [68] 等應用中構成顯著風險。越獄攻擊利用模型的弱點繞過其預定限制,可能導致執行未授權命令或訪問敏感信息。提示注入攻擊通過操縱模型的提示輸入來改變其行為或輸出,這在依賴精確和準確響應的系統中特別危險。數據投毒,即篡改訓練數據,可能破壞模型的性能和可靠性。因此,對現有 LVLM 攻擊進行全面系統的回顧是必要的。 進行這項調查的動機。在過去的兩年中,提出了大量 LVLM 攻擊方法,并取得了相當的對抗性能。然而,這些方法的可用性很容易使研究人員或從業者在嘗試選擇或比較適用于手頭具體問題的算法時感到困惑。因此,有必要編寫一篇全面系統的調查,以供參考。盡管有少量針對大模型攻擊的相關調查論文,但我們在表 I 中列出了這些論文,并認為它們未能從完整的視角總結現有 LVLM 攻擊方法的全部類別和詳細發展。特別是,Chowdhury 等人 [29] 通過提供不同的文本提示修改策略,對 LLM 攻擊進行了調查,但在多模態場景中缺乏對更復雜 LVLM 的普遍性。劉等 [77] 是第一篇討論 LVLM 研究高層次安全問題的調查,但該文中提出的分類相對不完整和粗略。Fan 等 [38] 只總結了現有的基于圖像的 LVLM 攻擊方法,無法很好地涵蓋各種模態類型的 LVLM 攻擊方法(如文本提示注入)。因此,缺少對現有 LVLM 攻擊方法的全面回顧。 我們希望通過本調查論文能夠完整系統地梳理現有的 LVLM 攻擊方法,并以清晰的方式呈現出來。特別是,我們的調查涵蓋了 LVLM 攻擊的最新進展。首先,我們仔細整理了準備特定類型 LVLM 攻擊的基本背景知識。然后,我們全面總結了不同類型的 LVLM 攻擊方法,通過抽象出所有方法的共性,建立一個更全面的分類體系,并提出更具體和有前景的未來研究方向。通過這樣的視角,信息豐富的從業者可以自信地評估各種 LVLM 攻擊的權衡,并在使用一系列技術設計所需的 LVLM 攻擊時做出明智的決策。同時,系統開發者也可以認識到現有 LVLM 攻擊的局限性,并設計相應的防御策略,以提高模型的魯棒性。 進行這項調查的貢獻。我們的調查主要貢獻可以總結為三點:
**方法 **
現有的 LVLM 攻擊者通常可以分為四類:對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊。對于對抗攻擊,它們利用梯度優化噪聲,以一種對人類來說通常是不可察覺的方式擾亂輸入數據,但卻導致模型產生不正確或不理想的輸出。這些擾動是精心設計的,旨在利用模型的脆弱性。對于越獄攻擊,它們利用模型中的弱點繞過其預定的限制和控制。這種類型的攻擊可能導致模型執行未經授權的命令、訪問受限數據或執行超出其設計能力的操作。對于提示注入攻擊,它們通過操縱模型的輸入提示來以意想不到的方式改變其行為或輸出。通過注入惡意或誤導性提示,攻擊者可以引導模型生成不正確、偏見或有害的響應。對于數據投毒/后門攻擊,攻擊者篡改訓練數據以破壞模型的性能和可靠性。在這些攻擊中,惡意數據被插入訓練數據集中,導致模型學習和傳播錯誤的模式。特別是,后門攻擊通常涉及在數據訓練中嵌入隱藏觸發器。當觸發器被激活時,會導致模型以特定和有害的方式行為。基于上述攻擊者的動機和架構,我們提出了圖 2 中的分類法來分類 LVLM 攻擊方法。接下來,我們將按照此分類法回顧現有的研究工作,并討論每種方法類別的特征。
** **
**未來方向 **
盡管當前的研究已經識別并探索了大型視覺-語言模型(LVLMs)上的各種攻擊方法,但我們期望未來在潛在 LVLM 攻擊方面取得更多進展。未來的研究應深入了解和開發新穎的攻擊方法,以全面評估和提高這些模型的魯棒性。未來研究的關鍵領域包括:
在本節中,我們將描述以下主題。 A. 提高攻擊的實用性現有的 LVLM 攻擊方法嚴重依賴于先驗模型知識,使得攻擊的實用性較低。然而,在現實情況下,攻擊者只能查詢 LVLMs 以獲得相應的輸出結果,這使得在優化過程中很難在正確的優化方向上引導對抗擾動。此外,這些針對 LVLMs 的攻擊者只能生成對抗樣本來欺騙單個過程中的特定下游任務。因此,為了破壞不同的下游任務,他們必須為每個任務生成不同的對抗擾動,這會耗費大量時間和資源。因此,有必要設計一種通用擾動,通過僅查詢 LVLM 模型來跨不同任務和樣本使用。實現通用攻擊的潛在解決方案是將先前基于圖像的策略[20], [87] 應用于多模態任務。通過對多個任務和輸入進行對抗訓練通用擾動,攻擊在各種 LVLM 模型中更具實用性。此外,為了處理梯度估計,可以采用硬標簽策略[26], [27] 通過僅查詢模型來獲得梯度。 B. 自適應和可遷移攻擊一種穩健的攻擊應減少對特定受害網絡的依賴,并更好地泛化到不同的網絡。因此,研究對抗攻擊如何在不同的 LVLMs 之間轉移或隨時間自適應也很重要。然而,現有的 LVLM 攻擊者未能考慮這種特性,而是直接生成特定于某個受害模型的對抗樣本。為了提高生成的對抗樣本的可遷移性,我們建議幾種設計思路:一方面,攻擊者可以遵循集成學習[35], [97],聯合學習攻擊多個 LVLM 模型。這樣,梯度可以指向多個模型之間的全局對抗性方向。另一方面,有許多基于圖像的工作[123], [125], [138] 被提出以提高對抗圖像的可遷移性。通過適當地將這些策略應用于 LVLM 模型中的特定設計,攻擊者也可以生成可遷移的對抗樣本。總體而言,理解對抗樣本在不同模型和任務之間的可遷移性有助于開發通用的攻擊方法。 C. 跨模態對抗樣本盡管在單個模態(視覺或語言)中設計對抗攻擊取得了很大進展,但模態之間的交互仍未被充分探索。現有的攻擊者通常將不同模態的擾動視為不同的,并分別設計它們。然而,這將導致擾動多模態輸入之間的交互關系較少,并且容易被安全對齊系統識別。因此,未來的工作應探索新的方法,同時擾動視覺和文本輸入并具有強關聯性。這包括研究模態之間的交互和依賴關系,以創建更有效的跨模態攻擊,從而躲避當前的防御。潛在的解決方案可以利用多鍵策略[118]或多模態對比學習[12]來增強多模態擾動之間的關系,以共同控制攻擊。 D. 基于數據偏見的攻擊現有的 LVLM 模型數據需求量大,需要大量完全標注的數據進行訓練。因此,LVLMs 容易繼承并甚至放大其訓練數據中的偏見。未來的研究可以集中于理解、識別和緩解這些偏見,以確保公平和公正的結果。例如,可以開發偏見放大攻擊[14], [85] 來研究如何通過有針對性的操縱放大訓練數據中的現有偏見。這涉及創建利用這些偏見的輸入,以生成偏斜或有害的輸出,從而突出并加劇模型的內在弱點。具體來說,受此啟發,我們可以首先研究偏見在訓練和推理過程中如何通過 LVLMs 傳播和放大,然后開發技術來創建利用和放大這些偏見的輸入,以更好地了解其影響。此外,潛意識操縱攻擊[141]也是一種有前景的方法,用于開發在沒有直接對抗輸入的情況下微妙地影響模型行為的方法,例如通過在訓練期間引入不可察覺的偏見,影響模型在特定未預期方式中的決策過程。通常研究在訓練期間如何引入微小且不可察覺的偏見,這些偏見僅在特定條件下顯現。 E. 人工智能與人類協作的攻擊現有的 LVLM 攻擊完全基于數字環境開發。然而,除了模型的輸入和輸出,現實世界的應用還具有允許人與 LVLM 系統互動的能力。因此,結合人類智能與 AI 能力為實施攻擊提供了有力的方法。這里,我們將簡單介紹兩種代表性的攻擊視角:(1) 人機協作攻擊[16], [60]:探索人類在環中的攻擊策略的潛力,將人類專長與 AI 工具結合,以設計更復雜和有效的攻擊。這涉及利用人類的直覺和創造力,識別和利用自動化方法可能遺漏的模型弱點。特別是,開發人類攻擊者在 AI 工具的協助下迭代優化對抗輸入的框架。這可以包括人類設計初始攻擊向量,然后由 AI 系統優化以達到最大效果。(2) 社會工程與操縱[48], [86]:這種類型的攻擊研究如何將社會工程技術與對 LVLMs 的技術攻擊結合。它包括研究如何基于社會背景或用戶行為設計操縱輸入,以欺騙模型及其用戶。 F. 綜合基準和評估為了確保 LVLM 模型對各種攻擊方法的魯棒性和安全性,全面的基準和評估框架是必不可少的。這些框架不僅有助于評估 LVLMs 當前對攻擊的抵御能力,還能指導開發更魯棒的模型。未來在這一領域的研究可以集中在以下關鍵方面:(1) 標準化攻擊基準[54]:開發全面的基準來評估各種攻擊策略對 LVLMs 的有效性。這些基準應包括多種攻擊類型、場景和指標,以提供模型魯棒性的整體評估。(2) 持續評估框架[58]:開發持續集成和測試管道,定期評估 LVLMs 對最新已知攻擊的抵御能力。這些管道應自動更新新的攻擊方法和數據集,以確保模型持續進行魯棒性測試。(3) 綜合攻擊分類法[19]:創建詳細的分類法,根據攻擊的特征進行分類,例如其目標模態(視覺、語言或兩者)、執行方法(例如對抗樣本、數據投毒、模型反演)及其影響。(4) 魯棒性指標和評估標準[83]:開發和標準化量化 LVLMs 對各種攻擊抵御能力的魯棒性指標。這些指標應捕捉攻擊的嚴重性以及模型在各種攻擊下的性能。
通過在這些領域擴展研究,社區可以更深入地了解 LVLM 模型的脆弱性,并開發更有效的策略來評估和增強其安全性。這種前瞻性的方法對于確保 LVLMs 在各種現實應用中的安全可靠部署至關重要。
**結論 **
總體而言,這篇綜述論文全面概述了 LVLM 攻擊的研究,旨在幫助研究人員了解該領域。首先,我們介紹了 LVLM 攻擊的背景,包括一般 LVLM 攻擊的初步知識、實施 LVLM 攻擊的挑戰以及當前的 LVLM 攻擊資源,如數據集、模型和評估指標。有了這些先驗知識,研究人員可以輕松開始探索,并迅速了解 LVLM 攻擊。然后,我們總結并分類了現有的 LVLM 攻擊文獻,提出了一個新穎的分類法,即對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊,以幫助理清其發展脈絡。最后,我們指出了幾個有前景的 LVLM 攻擊未來研究機會。我們希望這篇綜述能為研究人員提供見解,并吸引更多研究人員為這一領域做出貢獻。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。
大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。
然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。
考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。
在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。
總述
**提示范式 **
提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。
提示類型
本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。
挑戰
鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。
使用高效計算的提示
隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。
使用高效設計的提示
“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。
結論
在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
大型語言模型(LLMs)展示了出色的泛化能力,這促進了眾多模型的發展。這些模型提出了各種新的架構,微調了現有架構的訓練策略,增加了上下文長度,使用了高質量的訓練數據,并增加了訓練時間,以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類,訓練策略,訓練數據集,性能評估,并討論了未來的研究方向。此外,這篇論文還討論了LLMs背后的基本構建模塊和概念,然后對LLMs的重要特性和功能進行了全面概述。最后,這篇論文總結了LLMs研究的重要發現,并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展,我們打算定期更新這篇論文,通過添加新的部分并展示最新的LLMs模型。
//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652
1. 引言
語言在人類的交流和自我表達中起著基礎性的作用,同樣,通信對于機器與人類和其他系統的互動也極為重要。大型語言模型(LLMs)已經成為處理和生成文本的尖端人工智能系統,旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求,包括翻譯,摘要,信息檢索和對話交互。最近,語言模型方面取得了顯著的突破,主要歸功于深度學習技術,像transformers這樣的神經結構的進步,增加的計算能力,以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變,使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型(LLMs)成為可能[3],[4]。尤其是預訓練語言模型(PLM),在大規模文本語料庫的自監督設置下訓練,展示了對于文本理解和生成任務的巨大泛化能力[5],[6],[7]。當預訓練語言模型(PLMs)微調用于下游任務時,其性能顯著提升,超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs,他們發現,進一步擴大模型和數據集的規模可以提高泛化能力。
如今,現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務,在零樣本和少樣本的情況下,甚至不需要在下游任務上進行任何微調就能做到這一點[8],[9],[10]。以前,較小的模型無法達到這樣的泛化,這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮,導致了眾多LLMs的開發[11],[12],[13],[8],[9],[10],[14]。圖1展示的圖表顯示了隨著時間的推移,發布的LLMs數量(包括開源和閉源模型)的增加趨勢。此外,圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型(LLMs)的早期階段,許多研究工作都集中在為下游任務開發轉移學習的模型[11],[12],[15],直到像GPT-3這樣的模型的出現[8],即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質,人們對開源替代品有需求,這導致了各種模型的開發[9],[10],這些模型與GPT-3的規模相當,并在廣泛的基于網絡的數據集上進行訓練[16],[17],[18],[19]。隨后,研究人員提出了幾種架構設計和訓練策略,這些設計和策略在各種任務上顯示出優于GPT-3的性能[15],[14],[20],[21]。
LLMs的性能可以通過指令微調進一步提高,超越了在各種基準測試中預訓練的LLMs的表現[22],[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法,以指導輸出,從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令,也可以是根據任務需求的示例演示。在文獻中,已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務,進一步提高了對基線的性能[24],[23],[25],[26]。進行指令微調時,需要更新所有的模型參數。然而,參數效率微調采取了不同的方法,只更新少數參數,同時仍然保持良好的性能。這種方法保持原模型不變,而在模型的不同位置添加少量額外的參數[27],[28],[29],[30],[31]。這種方法有助于實現高效的微調,同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外,還有一篇全面的評論可供參考,涵蓋了架構,微調,新能力,以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而,這些評論論文并未深入探討個別模型的具體細節,只提供了對架構和訓練方法的表面理解。相反,我們的論文旨在通過討論細節,提供更深入的分析單個LLMs。
大型語言模型(LLMs)的架構、訓練數據集以及其他顆粒度方面的細節,特別是從歷史的角度來看,缺乏全面和詳細的討論,這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析,深入探討其開發、架構、訓練數據集和相關組件的細節。
據我們所知,這是第一篇討論LLMs細節的全面調查論文。 我們對各種LLMs架構及其分類進行了深入分析。此外,我們還討論了LLMs的基礎知識,以使對LLMs不熟悉的讀者能夠自給自足,從而使論文更具生產力。 我們的論文側重于為每一個LLM模型提供全面的細節,并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。 我們的目標是在我們的論文中總結這些關鍵細節,以幫助研究人員在他們的工作中確定更好的架構和訓練方法。
我們的論文補充了一篇關于LLMs的最新綜述論文[33],其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息,但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個,或者更多,類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35],[36],[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景,簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準,然后在結論部分給出了總結和未來方向。