本文綜述了在快速發展的領域中,如何通過強化學習(RL)增強大型語言模型(LLMs)的研究。強化學習是一種使LLMs能夠通過基于輸出質量的獎勵反饋來提高其性能的技術,從而生成更準確、一致、并在語境上更合適的回應。本文系統回顧了最新的強化學習增強LLMs的研究,試圖整合并分析這一快速發展的領域的研究成果,幫助研究人員理解當前的挑戰和進展。具體來說,我們:(1)詳細介紹了強化學習的基本原理;(2)介紹了流行的強化學習增強的大型語言模型;(3)回顧了基于獎勵模型的兩種廣泛使用的強化學習技術:來自人類反饋的強化學習(RLHF)和來自AI反饋的強化學習(RLAIF);(4)探索了直接偏好優化(DPO)方法,這是一組繞過獎勵模型、直接使用人類偏好數據來調整LLM輸出以符合人類期望的方法。我們還將指出現有方法的挑戰和不足,并提出一些進一步改進的方向。
大型語言模型(Jiang et al., 2023; OpenAI, 2023; Dubey et al., 2024)是經過大規模文本數據預訓練的復雜語言模型,使其能夠對多種輸入生成連貫流暢的回應。然而,這些預訓練的大型語言模型的互動能力可能不一致,有時會產生雖然技術上正確,但可能有害、偏見、誤導或與用戶需求無關的回應。因此,在將其應用于各種自然語言任務之前,將預訓練大型語言模型的輸出與人類偏好對齊至關重要(Wang et al., 2023b; Wan et al., 2023; Sun et al., 2023c,b; Giray, 2023; Zhang, 2023; Long, 2023; Sun, 2023; Gao et al., 2023; Paranjape et al., 2023; Sun et al., 2023a; Diao et al., 2023; Wang et al., 2023a; Zhang et al., 2023b; Sun et al., 2023d; Liu et al., 2024d; Yao et al., 2024; Liu et al., 2024c; Lee et al., 2024; Kambhampati, 2024; Wang et al., 2024c)。 此前,將預訓練的大型語言模型的輸出與人類偏好對齊的廣泛采用的方法是監督微調(SFT)(Hu et al., 2021; Mishra et al., 2021; Wang et al., 2022; Du et al., 2022; Dettmers et al., 2023; Taori et al., 2023; Zhang et al., 2023a; Chiang et al., 2023; Xu et al., 2023; Peng et al., 2023; Mukherjee et al., 2023; Li et al., 2023; Ding et al., 2023; Luo et al., 2023; Wang et al., 2024d; Zhou et al., 2024)。這種方法通過(指令,答案)對進一步訓練LLMs,其中“指令”代表給模型的提示,“答案”是符合指令的目標輸出。SFT有助于引導LLMs生成符合特定特征或領域知識的回應,使得人類能夠與LLMs進行交互。盡管SFT有效,但它也有局限性:在訓練過程中,模型被限制為學習我們提供的特定答案,并且使用困惑度(PPL)等指標來懲罰同義詞的使用。一方面,這可能阻礙LLM的泛化能力,因為任務如寫作和總結有多種有效的表述方式。另一方面,它可能導致在與人類偏好對齊時表現不佳,因為訓練過程中沒有直接融入人類反饋。 為了緩解上述問題,采用了強化學習(RL)來將LLM的輸出與人類偏好對齊,強化學習過程可分為三個步驟:(1)首先,在微調之前,訓練一個獎勵模型(或獎勵函數),以近似人類偏好并為不同的LLM輸出評分;(2)然后,在每次微調迭代中,給定一個指令,LLM生成多個回應,每個回應都由訓練好的獎勵模型評分;(3)最后,使用強化學習的優化技術——策略優化,基于這些偏好評分更新LLM的權重,以改進預測。用強化學習微調LLM可以同時解決上述問題。一方面,強化學習不再限制模型僅學習一個特定答案,而是根據各種偏好評分調整LLM,獎勵任何有效且措辭恰當的回應。另一方面,獎勵模型被設計為近似人類偏好,從而使得可以直接在人工偏好上訓練,并增強LLM的創造力。 本文將整合強化學習(RL)在大型語言模型(LLMs)中的最新研究成果,試圖分析并總結這一快速發展的領域,幫助研究人員理解當前的研究進展、挑戰和前景。具體來說:
強化學習在大型語言模型中的應用
在強化學習(RL)中,有六個關鍵組件:代理(Agent)、環境(Environment)、狀態(State)、動作(Action)、獎勵(Reward)和策略(Policy)。要將RL應用于微調大型語言模型(LLMs),第一步是將這些組件映射到LLM框架中。 LLMs在預測下一個詞元(next-token prediction)方面非常高效,它們將一系列詞元作為輸入,并根據給定的上下文預測下一個詞元。從RL的角度來看,我們可以將LLM本身視為策略(Policy)。當前的文本序列代表狀態(State),根據這個狀態,LLM生成一個動作(Action)——即下一個詞元。這個動作會更新狀態,形成一個新的狀態,其中包含新增的詞元。在生成完整的文本序列后,使用預訓練的獎勵模型來評估LLM輸出的質量,從而決定獎勵(Reward)。 圖2 展示了Ouyang等人(2022)提出的LLM強化學習框架。Ouyang等人(2022)首先使用通過監督學習訓練的指令微調模型,使其能夠生成結構化的響應。接著,Ouyang等人(2022)應用了以下兩個步驟: 步驟1:收集比較數據并訓練獎勵模型
Ouyang等人(2022)收集了一個數據集,包含指令微調模型輸出之間的比較,標注者指出對于給定輸入,他們更喜歡哪個輸出。然后,收集到的數據集用于訓練一個獎勵模型(Reward Model, RM),以預測人類偏好的輸出。 步驟2:使用PPO優化策略對抗獎勵模型
Ouyang等人(2022)將獎勵模型的輸出作為標量獎勵,并通過PPO算法(Schulman等人,2017)對指令微調模型進行微調,優化該獎勵。
近期流行的強大功能的大型語言模型(LLMs)幾乎都利用強化學習(RL)來進一步增強其在后期訓練過程中的表現。這些模型所采用的強化學習方法通常可以分為兩大類: 1. 傳統的RL方法,如基于人類反饋的強化學習(RLHF)和基于AI反饋的強化學習(RLAIF)。這些方法需要訓練一個獎勵模型,并且涉及復雜且通常不穩定的過程,使用如近端策略優化(PPO)(Schulman 等人,2017)等算法來優化策略模型。像InstructGPT(Ouyang 等人,2022)、GPT-4(OpenAI,2023)和Claude 3(Anthropic,2024)等模型都采用了這一方法。 1. 簡化的方法,如直接偏好優化(DPO)(Rafailov 等人,2024)和獎勵感知偏好優化(RPO)(Adler 等人,2024)。這些方法摒棄了獎勵模型,提供了一種穩定、性能強大且計算效率高的解決方案。像Llama 3(Dubey 等人,2024)、Qwen 2(Yang 等人,2024a)和Nemotron-4 340B(Adler 等人,2024)等模型都采用了這一方法。
在這一部分,我們將詳細描述每個模型,首先簡要概述這些強化學習增強的大型語言模型,并解釋強化學習如何在它們的后期訓練過程中應用。有關這些強化學習增強的LLMs的概覽見表1。
基于人類反饋的強化學習(RLHF)是一種訓練方法,它將強化學習(RL)與人類反饋相結合,以將大型語言模型(LLMs)與人類的價值觀、偏好和期望對齊。RLHF包含兩個主要組件: 1. 收集人類反饋以訓練獎勵模型:在人類評估者提供反饋時,他們通過根據質量、相關性等因素對LLM的輸出進行評分或排名。這些反饋隨后用于訓練一個獎勵模型,該模型用于預測輸出的質量,并作為RL過程中的獎勵函數。 1. 使用人類反饋進行偏好優化:訓練好的獎勵模型指導LLM輸出的優化,以最大化預測獎勵,從而使LLM的行為與人類的偏好對齊。
接下來,我們將通過近期的研究來闡述這兩個組件。
將大型語言模型(LLM)適應于新的多樣化知識,對于其在實際應用中的長期有效性至關重要。本綜述概述了擴展LLM知識的最先進方法,重點介紹了整合多種知識類型的方法,包括事實信息、領域專業知識、語言能力和用戶偏好。我們探討了持續學習、模型編輯和基于檢索的顯式適應等技術,同時討論了知識一致性和可擴展性等挑戰。本綜述旨在為研究人員和實踐者提供指導,闡明了將LLM發展為可適應且強大的知識系統的機會。 //arxiv.org/abs/2502.12598
1 引言
隨著大型語言模型(LLM)在實際應用中的逐漸普及,它們適應不斷變化的知識的能力對于保持相關性和準確性變得至關重要。然而,LLM 通常只進行一次訓練,因此它們的知識更新僅限于某個截止日期,限制了它們與新信息保持同步的能力。本綜述全面概述了使 LLM 能夠整合各種類型新知識的方法,包括事實知識、領域特定知識、語言知識和用戶偏好知識。我們調查了適應策略,包括持續學習、模型編輯和基于檢索的方法,并旨在為研究人員和實踐者提供指導。 為了保持有效性,LLM 需要在多個維度上進行更新。事實知識包括一般真理和實時信息,而領域知識則涉及特定領域,如醫學或法律。語言知識增強了多語言能力,偏好知識使模型的行為與用戶的期望和價值觀保持一致。確保 LLM 能夠在這些維度上整合更新對于其持續的實用性至關重要。 現有的 LLM 適應方法在方法和應用上有所不同。持續學習使得模型的參數化知識能夠進行增量更新,減輕災難性遺忘(McCloskey 和 Cohen,1989),同時確保長期表現。模型編輯允許精確修改已學習的知識,提供受控的更新,而不需要完全重新訓練。與這些隱式知識擴展方法不同,基于檢索的方法在推理過程中顯式地動態訪問外部信息,從而減少對靜態參數化知識的依賴。不同知識類型的這些方法的適用性和一般性已在表 1 中總結。通過利用這些策略,LLM 可以保持準確性、上下文意識,并適應新信息。 在第二節中,我們將我們的工作置于背景中(第 2 節),并在第三節中定義本文涉及的知識類型。我們還概述了不同的知識擴展方法,如圖 1 所示。因此,本工作綜述了多種研究努力,并可作為研究人員和實踐者開發和應用可適應且強大的 LLM 的指南。我們強調了研究機會,并提供了優化適應技術以應對各種實際應用的見解。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
摘要——本綜述深入探討了在基礎模型(Foundation Models, FMs)背景下的高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)。PEFT是一種具有成本效益的微調技術,旨在通過最小化參數和計算復雜度,同時追求下游任務的最佳性能。基礎模型,如ChatGPT、DALL-E和LLaVA,專注于語言理解、生成任務和多模態任務,訓練數據集涵蓋文本、圖像和視頻等多種形式。基礎模型的多樣性引導了多種PEFT適配策略。因此,本綜述旨在提供一個全面的PEFT技術概述,應用于不同的基礎模型,并解決在理解這些技術、趨勢和應用方面的關鍵空白。我們首先詳細介紹基礎模型和PEFT的發展,隨后系統地回顧了在不同基礎模型中PEFT的主要類別和核心機制,以提供對趨勢的全面理解。我們還探討了PEFT在各種基礎模型中的最新應用,展示了其多樣性,揭示了系統化PEFT方法與多種基礎模型集成的可能性。此外,我們還指出了未來改進PEFT的潛在研究與發展方向。本綜述為初學者和專家提供了一個寶貴的資源,幫助他們理解和使用PEFT在不同基礎模型中的強大能力。所有綜述中的論文可在//github.com/THUDM/Awesome-Parameter-Efficient-Fine-Tuning-for-Foundation-Models找到。 關鍵詞——高效參數微調,基礎模型,大型語言模型,視覺基礎模型,多模態基礎模型
I. 引言
基礎模型(Foundation Models, FMs)通過在大規模數據集上進行預訓練[1, 2, 3, 4, 5, 6](通常涵蓋文本、圖像、視頻等多種類型),以應對多種任務,如語言理解[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]、代碼生成[18, 19]、圖像或視頻理解[20]、視覺內容生成[21, 22, 23],如圖2(左)所示。目前,各種基礎模型在不同領域占據主導地位,例如,語言相關任務由ChatGPT [4]、ChatGLM [24, 25]和Qwen [26]支持,而視覺語言任務則由ChatGPT-4V [27]應對。DALL-E [28]、Sora [29]和Veo21專注于生成任務,LLaVA [30]和NExT-GPT [31]則擅長多模態任務,如圖2(中)所示。在實際應用中,通常需要在未見過的下游數據集上微調這些基礎模型,以達到特定任務的最佳性能。 高效參數微調(Parameter-Efficient Fine-Tuning, PEFT)技術[32, 33, 34, 35],作為一個高度活躍的研究主題,在微調過程中展示了顯著的成本效益,如圖1和圖2(右)所示。這項技術通過最小化可訓練參數和計算開銷,同時力求在下游任務中達到接近完全微調的性能。以GPT-3 [3]為例,完全微調需要訓練所有的1750億個參數,而LoRA [36]只需訓練470萬或3770萬個參數,節省了超過99.97%的參數,且結果在性能上比完全微調提高了0.1%到0.5%。這種特性為社區和實際應用帶來了顯著的實踐價值。然而,基礎模型的多樣性推動了不同PEFT適配策略的發展。例如,在提示微調方法中,可訓練提示模塊的設計通常根據基礎模型的類型(例如,大型語言模型(LLMs)的文本提示[37],和視覺語言模型(VLMs)的視覺提示[38])有所不同。類似地,LoRA [36]根據基礎模型的架構(例如,大型語言模型的變換器塊[39]或視覺內容生成模型的去噪U-Net[40])集成到不同的組件中。因此,全面綜述PEFT技術如何在不同基礎模型中進行適配,對于推動該領域的發展至關重要。這一理解將為PEFT在多種任務和領域中的更系統和有效應用鋪平道路。 正如上文所強調,基礎模型在結構、方法和應用方面正以前所未有的速度迭代。這種快速演化促使PEFT領域同樣變得動態活躍。因此,跟蹤PEFT在基礎模型中的技術趨勢勢在必行。如圖1所示,我們統計了過去五年中PEFT方法在不同基礎模型中的引用總數,并根據這一趨勢指標得出以下三大趨勢:
趨勢一:PEFT領域正在經歷顯著增長,涵蓋了包括語言、視覺和多模態領域在內的多種任務和基礎模型。 趨勢二:大型語言模型(LLMs)和視覺基礎模型(VFMs)主導了當前的研究格局,研究活動呈現快速且顯著的增長,而視覺語言模型(VLMs)和視覺內容生成模型(VGMs)作為次要研究方向也在逐漸獲得關注。 趨勢三:相比之下,多模態基礎模型(MFMs)仍然相對較少被研究,表明這一領域在未來具有顯著的研究和創新潛力。 在本綜述中,我們旨在探索將PEFT與不同基礎模型集成以提升可擴展性的潛力。此外,鑒于這兩個領域的相互動態發展,近年來出現了幾篇概述綜述文章,如表I所示。例如,Xin等人[32]系統性地回顧了視覺PEFT(涵蓋常見數據集和應用),并識別了未來的研究方向。Zhou等人[34]將范圍擴展到多模態大型語言模型,并呈現了幾種主流PEFT方法的實證研究。他們的研究結果強調了適配器微調的優越性,以及連接層在微調多模態基礎模型中的積極作用。Wang等人[35]則專注于各種PEFT算法的核心思想和原則,為快速理解提供了理論指導。值得注意的是,Han等人[33]從算法角度深入分析了大型語言模型的PEFT,提出了在實際場景中系統設計的建議。這些有價值的綜述為PEFT的某些方面提供了深入的見解。然而,這些見解分散在不同的研究中,且側重于一般化的基礎模型。其次,當前缺乏對PEFT在不同基礎模型中的發展脈絡以及更直觀、統一的示意圖的關注。因此,結構化且全面的綜述變得愈加必要。 因此,我們首先回顧了基礎模型的發展趨勢和PEFT的分類(第二部分)。隨后,我們深入探討了五種模型結構下的PEFT設計(第三部分),包括選擇性PEFT、加法性PEFT、提示PEFT、重參數化PEFT和混合PEFT,并在表II中提供了相應的特征總結。我們還探索了PEFT在不同下游任務中的應用及其相應的場景(LLMs的第四部分,VFMs的第五部分,MFMs的第六部分)。最后,我們在第七部分提供了關于當前研究趨勢和未來研究方向的觀察,以促進PEFT在各個領域的發展。 通過本綜述,我們為廣泛的基礎模型與系統化PEFT方法的整合提供了更深入的理解。
****二、背景
基礎模型概述 基礎模型主要在大規模數據集上進行預訓練,并可以通過微調適應各種下游任務。根據輸入模態和功能的不同,我們將其大致分為五類: 大型語言模型(LLM):設計用于理解、生成和操作文本。這些模型在大量文本語料庫上進行訓練,能夠執行廣泛的語言相關任務,如翻譯、摘要、文本生成和問答。例如BERT、LLaMA、GPT-4和ChatGPT。 視覺基礎模型(VFM):專注于從視覺數據(如圖像)中理解和生成洞察。它們可以處理圖像分類、目標檢測、分割等任務。這些模型在大規模圖像數據集上進行預訓練,使其能夠很好地泛化到各種視覺相關任務。例如Grounding DINO和SAM。 視覺語言模型(VLM):整合了視覺和文本模態,能夠處理需要理解圖像和語言之間關系的任務。它們用于應用如接地、圖像字幕和視覺問答。例如CLIP、BLIP、GPT-4V和GLM-4V。 視覺內容生成模型(VGM):專注于從各種輸入(文本、草圖或其他視覺提示)生成高質量的視覺內容,如圖像、視頻或3D模型。它們用于藝術生成、視頻合成,甚至為其他AI模型創建合成訓練數據。例如Stable Diffusion、DALL-E、Zero-1-to-3和CogVideo-X。 多模態基礎模型(MFM):擴展了LLM的能力,能夠處理多種模態,如文本、圖像和音頻。這些模型可以同時處理和生成文本、圖像和音頻等,從而實現多模態任務中更豐富的交互。例如LLaVA-1.5、Gemini 1.5 Pro、CoDi、SEED-X和NEXT-GPT。
參數高效微調的發展 PEFT已成為微調基礎模型(如BERT和GPT-3)的重要方法,旨在減少微調過程中需要更新的參數數量,從而降低計算和存儲成本。以下是PEFT關鍵發展和相關方法的總結: 選擇性PEFT:這類方法專注于僅微調模型參數的一個子集,而不是所有參數。其基本假設是,在大型預訓練模型中,某些參數對特定任務尤為重要,調整這些關鍵參數可以獲得滿意的結果。早期方法如逐層凍結在微調過程中逐漸解凍模型的層。更多部分策略也出現了,通過經驗方法或學習過程識別哪些層應該解凍和調整。 加法PEFT:加法方法涉及在基礎模型的層之間插入小型適配器網絡(也稱為瓶頸適配器),以實現微調。最早的適配器方法在模型層之間插入瓶頸層,更新這些瓶頸參數,同時保持原始模型基本不變。適配器顯著減少了需要更新的參數數量。 提示PEFT:這類方法涉及學習軟命令(即嵌入向量的序列),以指導模型有效執行任務。 重參數化PEFT:這些方法提出重新表示或分解現有模型參數,以便在微調過程中僅調整部分參數,從而保留大部分未更改的參數。 混合PEFT:這些方法結合了多種PEFT策略,以實現最佳結果,結合了適配器、提示和參數化等技術。最近的方法專注于為不同任務和場景找到這些策略的最佳配置。 三、方法論
本節將描述PEFT方法的幾個重要類別,涵蓋LLM、VFM、VLM、MFM和VGM中的PEFT分類。我們還將分析每個類別的優缺點,以便更深入地理解。 1. 選擇性PEFT
這類方法指的是選擇性地微調原始模型參數的一個子集,同時保持其余參數凍結,或者引入最少數量的額外參數進行訓練,而不改變原始參數。 1.1 選擇性PEFT的基礎 在這組中,包括兩種核心類型:特定選擇和自動選擇。特定選擇是指預先確定要選擇的參數,而自動選擇是指模型自動決定要調整的參數。 特定選擇:這類方法旨在選擇特定的層或神經元進行微調。常用的方法包括凍結層、BitFit和PASTA。 自動選擇:這類方法旨在利用各種算法自動確定要訓練的參數,如Masking、Diff-Pruning、FISH、AutoFreeze Layers和CHILD-TUNING。 1.2 選擇性PEFT在更多基礎模型中的應用 線性探針(Linear Probe)展示了CLIP模型,該模型聯合訓練文本編碼器和圖像編碼器,以在測試時進行零樣本預測。FC-CLIP使用共享的凍結卷積CLIP骨干構建了一個單階段系統,用于開放詞匯分割。Tune-A-Video提出了一種文本-視頻對微調方法,并提出了針對文本到視頻生成的定制時空注意力機制。LayerNorm Tuning僅調整注意力塊中的歸一化層權重,展示了在GPU內存使用和可訓練參數方面的顯著減少。 2. 加法PEFT 如圖3所示,適配器的核心思想是學習一組參數,可以將一層的輸出轉換為下一層的輸入,以適應特定任務。適配器是小型參數集,可以插入基礎模型的層之間。它們允許網絡在不修改其原始參數的情況下對新任務進行微調。 2.1 加法PEFT的基礎 對于這組,包括三種關鍵類型:瓶頸適配器、多適配器和適配器稀疏性。 瓶頸適配器:這類方法在NLP領域提出,靈感來自跨域圖像分類任務中的殘差適配器和ResNet。適配器層具有簡單的結構:它被下投影到較小的維度,通過非線性激活函數,然后上投影回原始維度,類似于瓶頸。此外,整個適配器層的輸入和輸出之間存在殘差連接。 多適配器:這類方法指的是向模型添加更多適配器模塊,以增強其可轉移性。這些方法作為專門的知識插件提出,以整合各種任務的知識,而不會忘記先前任務的知識,并提高瓶頸適配器的性能。 適配器稀疏性:這類方法旨在根據適配器的內部結構充分利用參數效率。如AdapterDrop、LST和Convpass。
2.2 加法PEFT在更多基礎模型中的應用 LST在T5和CLIP-T5模型上進行了評估,揭示了當微調整個網絡時,LST減少了69%的內存成本,而其他方法在類似參數使用情況下僅實現了26%的減少。Convpass通過在ViT中引入卷積旁路作為視覺Transformer適配器,引入了不到0.5%的可訓練參數來適應視覺模型。AdaptFormer引入了一個輕量級模塊,參數少于ViT的2%,以提高識別性能。ViT-Adapter通過集成圖像特定的歸納偏差增強了標準ViT骨干的內在表示能力。SAN將掩碼提議生成和類別識別任務分離,以實現開放詞匯語義分割。通過將輕量級側網絡附加到固定的CLIP模型,預測掩碼提議和注意力偏差,以指導CLIP識別掩碼的類別。CSN(DTL)通過緊湊的側網絡從骨干中解耦權重更新以識別對象。T2I-Adapter學習輕量級適配器模式以在不更新文本到圖像模型固有框架的情況下提高文本到圖像模型的性能。IP-Adapter使用圖像提示并引入交叉注意力機制以有效學習圖像嵌入。I2V-adapter僅需微調基礎擴散模型的1%參數。ControlNet添加了空間局部化條件。隨后,ControlNeXt引入了一個輕量級條件控制模塊,進一步將可學習參數減少到ControlNet的不到10%,擴展到視頻生成和超分辨率。LLaMA Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter。CLIP-Adapter和Tip-Adapter等建議插入可訓練適配器以將VLM微調執行到固定的CLIP模型中。 3. 提示PEFT
提示微調幾乎是基礎模型中最常見的PEFT方法,如圖4所示。這類方法涉及將精心設計的提示納入輸入或Transformer的層中,旨在將輸入分布與原始訓練數據對齊,并引導模型生成所需的輸出。 3.1 提示PEFT的基礎 這里討論三種類型:硬提示、自動提示和軟提示。 硬提示:這類方法意味著提示的初始形式涉及手動指定模板并將其與輸入連接以生成所需輸出,而不修改原始模型參數。 自動提示:這類方法提出了一種自動提示搜索方法,使用探索性搜索自動生成提示,以解決硬提示手動設計的挑戰。 軟提示:這類方法進一步擴展了范圍,超越了詞匯表中人類可理解的單詞。這些提示稱為連續或軟提示。在這個高級進展中,生成過程從離散的、人類驅動的轉變為連續的、機器驅動的。代表方法包括Prefix Tuning、Prompt Tuning、P-Tuning、PPT等。 3.2 提示PEFT在更多基礎模型中的應用 VP通過向圖像的像素空間添加提示(如沿圖像邊緣填充像素)來適應基礎模型到新任務,而不改變模型的參數。VPT在輸入空間中引入了一些可學習參數,這些參數少于原始模型參數的1%。DAM-VP通過自適應選擇和優化不同圖像子集的視覺提示,提高了預訓練模型在具有高多樣性和大數據集的下游任務上的性能。ILM-VP通過引入基于迭代標簽映射的框架,顯著提高了目標任務的精度,并優于現有方法。EVP通過將提示視為可學習實體并應用輸入多樣性和梯度歸一化,顯著提高了各種數據集的分類準確率。LION是一種輕量級且有效的視覺提示微調方法,利用隱式平衡層以最小的計算成本將預訓練模型適應下游任務。Textual Inversion找到了一種在CLIP的文本編碼器中描述新概念的方法,以微調擴散模型(使用少于20k參數)生成特定風格的內容。CoOp使用可學習向量對提示的上下文詞進行建模,以實現PEFT以識別或檢測對象。OVSeg結合了掩碼和彩色提示,顯著提高了VFM的微調性能。Q-Former使用輕量級投影橋接模態差距,大大減少了可訓練參數。 4. 重參數化PEFT 雖然加法PEFT通過采用下投影和上投影技術減少了可調參數的數量,但其合成結構可能會對模型的推理速度產生負面影響。同樣,訓練提示在提示微調中可能不穩定,因為它依賴于人類輸入,這通常是主觀的。此外,在輸入序列中包含提示標記可能會減少有效序列長度,可能導致次優性能。為了解決這些限制,我們引入了另一種PEFT技術,即重參數化,如圖5和表VI所示。該技術對初始模型參數的低維表示進行重參數化以進行訓練,同時在推理時將權重轉換回來。 4.1 重參數化PEFT的基礎 重參數化主要包括兩組:LoRA及其變體和MPO。 LoRA及其變體:LoRA利用了許多機器學習問題中固有的低秩結構作為基本重參數化技術。Aghajanyan等人深入研究了內在維度,并證明自然語言任務可以用非常少的參數解決,有時只有幾百個。這一發現意味著基礎模型的預訓練可以被視為一種知識壓縮形式,其中每個任務對應于模型子空間中的唯一內在維度。實證研究表明,較大的模型往往比其基線對應物具有更低的內在維度。 MPO:矩陣乘積算子是張量網絡的表示,其特征是隨著輸入維度的增加,參數和計算復雜度增長緩慢,使其適合壓縮基礎模型。MPO分解參數矩陣并定義中心張量和輔助張量。鑒于MPO分解的性質,中心張量包含的參數明顯多于輔助張量,表明它封裝了基礎模型的基本語言信息。對于下游任務適應,僅需要訓練低參數的輔助張量。 4.2 重參數化PEFT在更多基礎模型中的應用 LoRand利用低秩分解創建緊湊的適配器進行微調,僅使用原始模型參數的1-3%即可實現競爭性能,顯著減少了計算開銷。LyCORIS提供了一套先進的工具,用于微調Stable Diffusion模型,增強了其文本到圖像生成的能力,具有改進的控制和質量。DiffuseKronA采用Kronecker積分解來最小化擴散模型注意力層中的參數,在不影響圖像生成質量的情況下實現了顯著的效率提升。Mix-of-Show提出了嵌入分解的LoRA(ED-LoRA)來訓練單個概念,梯度融合用于中心節點概念融合,以及區域可控采樣用于擴散模型。LoRA-Sparse開發了低秩線性投影層用于稀疏注意力,以增強LLaVA-1.5的性能。 5. 混合PEFT PEFT領域中一個獨特且有前途的方法圍繞多種方法的集成。這種戰略組合將幾種獨特的PEFT技術(如LoRA、BitFit、P-Tuning等)結合到一個單一的戰略框架中。這種集成方法允許模型借鑒每種方法的優勢和見解,從而建立一個全面而強大的框架。通過這種融合,模型能夠更有效地優化參數,減少計算負擔,并可能提高性能,為PEFT提供了一個有趣且有前途的途徑,如表VII所示。 5.1 混合PEFT的基礎 主要的混合技術包括UniPELT、COMPACTER、S4、NOAH和DiffFit。 UniPELT:這是一個統一的框架,集成了適配器、前綴微調和LoRA的核心方面,并采用門控機制來調節這些模塊。線性層門控機制本質上決定了每個模塊的貢獻和操作。實驗結果表明,與集成的獨立PELT方法相比,UniPELT始終顯示出1%到4%的性能提升。總的來說,UniPELT支持了集成方法在進一步提高基礎模型適應特定任務的效率和有效性方面的承諾。 COMPACTER:通過創新放置和訓練方法擴展了基本適配器的概念,引入了一種基于低秩矩陣Kronecker積的新型輕量級適配器結構。這一進步僅需添加原始模型參數的0.05%到0.2%,但在GLUE和SuperGLUE等基準測試中表現出色。 MAM適配器:進行了深入研究,重點關注適配器的排列和軟提示的使用,以呈現參數高效遷移學習的統一視角。他們得出了幾個啟示和關鍵結論,包括:1)縮放并行適配器在修改FFN方面脫穎而出。2)并行放置的適配器明顯優于順序放置的適配器。此外,直接比較多頭注意力和FFN并行放置顯示出優越的結果。3)在受限參數預算的情況下,對注意力頭的修改導致最佳結果。相反,當允許更大的容量設置時,FFN受益最多。4)實施軟提示(如前綴微調)通過調整極小比例的參數(0.1%)帶來了顯著的性能提升。基于這些見解,MAM適配器引入了多頭注意力適配器,該模型代表了FFN層的并行適配器和軟提示的集成。該模型結合了在注意力子層中實現的前綴修改(較小的瓶頸維度為l=30)和用于修改FFN表示的縮放并行適配器(瓶頸維度為r=512)。盡管僅使用了6.7%的參數數量,MAM適配器展示了獨特的效率和性能組合。此外,與BitFit和提示微調等方法相比,它顯著領先,始終超越LoRA、適配器和前綴微調等核心方法。 S4:探索了各種以較少參數微調模型的方法。它研究了將層分為四組、調整可訓練參數、選擇要微調的組以及應用特定技術。它引入了一種名為S4的創新方法,將層分為G1、G2、G3和G4,類似于紡錘形狀。中間組有更多層,而頂部和底部有較少層。所有組保持可訓練,參數均勻分布在層中,并應用不同的PEFT技術。G1使用適配器,G2受益于適配器和前綴微調,G3使用適配器、前綴微調和BitFit進行微調,G4則進行前綴微調、BitFit和LoRA。實驗表明,僅使用0.5%參數的S4方法在不同模型、大小和任務中始終優于單個技術。 5.2 混合PEFT在更多基礎模型中的應用 NOAH(神經提示搜索)實現了神經架構搜索以設計提示模塊,并將適配器、LoRA和VPT集成到每個Transformer塊中。DiffFit僅微調偏置項并引入縮放因子以實現訓練效率和存儲減少。V-PEFT通過研究微調位置,提出了基于視頻任務的PEFT方法的統一分析。DreamBooth利用少量個體圖像并引入了一種新的自生類特定先驗保留損失,以將獨特標識符與主題關聯,同時保持類變化。 四、大型語言模型的PEFT
因果語言模型的PEFT 因果LLM在LLM社區中非常流行,作為一種基礎語言模型,也稱為自回歸LLM,例如GPT-3、BLOOM、Falcon和LLaMA系列。這里我們簡要回顧了因果LLM中PEFT的進展。例如,LLaMA-adapter在凍結的LLaMA-7B的Transformer層之后注入了一組可學習的適應提示,僅需1.2M可訓練參數即可擴展語言指令。類似地,串行適配器微調和并行適配器微調有效地微調了GPT-J-6B和BLOOM-7.1B,并在數學推理上優于GPT-3.5。此外,LoRA系列經常用于這組LLM,例如QLoRA引入了一系列內存節省技術來微調LLaMA,而不會犧牲性能。LoRA-Sparse基于LLaMA減少了超過一半的自注意力計算,同時增強了NLP任務性能。MoSLoRA融合了MoE和LoRA來微調LLaMA,提高了常識推理。此外,Prefix tuning、P-Tuning和Prompt tuning也支持各種因果LLM,請參閱開源庫以獲取詳細信息。
前綴語言模型的PEFT 前綴LLM,也稱為非因果LLM,是LLM社區中的另一個主流,主要由ChatGPT系列代表。回顧一下,P-tuning系列利用提示標記僅使用0.1-0.3%的可訓練參數微調ChatGPT,作為跨各種模型規模和語言理解任務的通用解決方案。OrehMoE利用多適配器模塊化技能架構微調ChatGPT,從而推進了PEFT中的前向轉移。同時,FATE-LLM利用LoRA和P-Tuning v2調整ChatGPT-6B,以評估聯邦場景中的語言能力,分別僅需0.06%和0.048%的可訓練參數。類似的工作包括DP-LoRA,而CPMI-ChatGLM應用P-Tuning v2和LoRA微調ChatGPT-6B,以更好地理解現實場景。MoELoRA通過使用任務驅動的門函數控制每個LoRA的貢獻,有效地微調了ChatGPT-6B。 總的來說,我們回顧了PEFT方法在兩種代表性基礎語言模型中的進展:因果LLM和前綴LLM。在實踐中,編碼器-解碼器LLM如T5也是流行的之一,上述大多數PEFT方法同樣適用于它們。例如,LLaMAFactory靈活定制了各種PEFT方案以增強語言建模,如LoRA、DoRA、rsLoRA、PiSSA等。該存儲庫還涵蓋了多種類型的LLM,包括但不限于我們討論的兩種類型。 五、視覺基礎模型的PEFT
基礎視覺模型的PEFT ViT是VFM的主流和基礎骨干。因此,本小節關注ViT中PEFT的最新進展。廣義上講,該類別的VFM僅考慮圖像作為輸入。具體來說,一系列PEFT方法已被考慮用于VFM,如適配器微調(AdaptFormer、Conypass、AIM、ST-Adapter、Rob-Adapter、LoRand、SCT、Polyhistor、VMT-Adapter)、提示微調(VPT、CVP、LPT、IDPT、Pro-tuning、LION、ViPT、VP、EVP、DAM-VP、EVP-L、ProSFDA、P2P、ILM-VP)、前綴微調(Prefix-tuning、PATT、eTT、LAM、VQT)、側微調(Side-Tuning、SAN、ViT-Adapter、LST、SAM-LST、E3VA、CSN (DTL))、規格微調(Linear Probe、BitFit、DP-BiTFiT、DiffFit、LN-TUNE)和重參數微調(LoRA、KAdaptation、FacT、EFFT、SSF、RepAdapter、ATTNSCALE、PHNNs、DnA)等。 如上所述,各種PEFT方法廣泛出現在VFM的下游任務中。例如,i)圖像識別是PEFT的主要場景,如AdaptFormer、VPT、CSN (DTL)。Rob-Adapter提出了無損適應,以實現操作任務中的最佳性能。此外,相當多的工作也在圖像相關場景中取得了成功,如LPT、FacT、LoRA、NOAH、MONA等。ii)PEFT在視頻理解中也具有影響力。其中,AdaptFormer、VPT和LoRA在視頻相關任務中非常受歡迎。ST-adapter僅需少量(~8%)的每任務參數成本即可理解視頻。AIM提出了空間、時間和聯合適應,具有顯著較少的可調參數,以實現高效的視頻理解。APT涉及注意力提示微調,參數少于1%,以減少視頻識別中的延遲和FLOPs。此外,LoSA、RaSTFormer等也在時間動作定位和短視頻中做出了努力。
提示視覺語言模型的PEFT 本小節關注提示VLM中PEFT的最新進展。一般來說,該類別的VFM考慮視覺和文本信息作為輸入。具體來說,一系列PEFT方法已應用于提示VLM,如視覺接地(CoOp、CoCoOp、ProGrad、MaPLe、TPT、CPT、DiffTPT、CLIP-Adapter、Tip-Adapter、PromptSRC、BadCLIP、MePT、NODE-Adapter、AAPL、CoPL、Any-Shift Prompting、PIN、CLAP、TCP、DePT)、語義分割(SAN、LLM-Former、FC-CLIP、MasQ-Tuning、Test Time Prompt Tuning (TTPT from FreeSeg)、mask prompt tuning、EVP、ETRIS)、視頻理解(Vita-CLIP、MA-CLIP、DualPath、Text-Adapter (M2-CLIP)、TDS-CLIP、Omni-CLIP、EVL、Side4Video、EZ-CLIP、ActPrompt、MV-Adapter)、點云分割(PointCLIP v2、P2P、CLIP2Point、EPCL、IDPT、DAPT)等。 根據輸入到模型的提示類型,現有工作大致分為文本提示和視覺提示VLM。i)文本提示:一系列工作(如CoOp、KgCoOp)使用提示微調方法對文本輸入執行PEFT以進行視覺任務。TCP使用基于文本的類感知提示來解鎖文本標記對未見域的有限泛化。請注意,該組中的一些方法最初是為文本提示VLM提出的,盡管它們也常用于更廣義的VLM。ii)視覺提示:這類PEFT方法(如OVSeg和CPT)需要圖像和視覺或文本提示來執行微調,這些通常包括視覺提示(點、邊界框、掩碼、顏色)、文本提示、參考提示、組合等。GP-SAM和VRP-SAM等將各種視覺參考和幾何提示(點、框、涂鴉、掩碼)編碼為提示嵌入作為輸入以分割任何內容。PIN提出了一種視覺提示方法,即輸入不可知的位置插入,以探索視覺接地的定位能力。簡而言之,這類PEFT方法遵循定制不同視覺任務和提示的原則。
視覺內容生成模型的PEFT 最近,擴散模型作為視覺內容生成的基礎模型趨勢。在本小節中,我們回顧了擴散模型中PEFT方法的最新進展,如圖6所示。具體來說,一系列PEFT方法在各種擴散模型場景中實施。例如,圖像生成(Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、GLIGEN、Uni-ControlNet、ControlNeXt、CCM、IP-Adapter、CTRL-Adapter、X-Adapter、LoRA-Composer、DiffuseKronA、SVDiff、SODA)、視頻生成(SimDA、StyleCrafter、I2V-Adapter、Still-Moving、Tune-A-Video、CTRL-Adapter、Customize-A-Video、ControlNeXt)、編輯(Concept Sliders、PTI、CCEdit、SVDiff、DiffMorpher)、超分辨率(ResAdapter、DiffFit、ControlNeXt)、3D生成(IPDreamer)等。在這些方法中,LoRA、ControlNet和Adapter相關方法在各種擴散模型中經常使用。而PEFT在各種場景中的趨勢分析,圖像生成和視頻生成顯然更受青睞。 具體來說,ControlNet系列調整可訓練副本以學習各種可控條件,例如Openpose、Depth、Canny、Lineart、Animel_lineart、Mlsd、Scribble、Hed、Pidi、Teed、Segment、Norma及其排列。LoRA相關技術在圖像或視頻生成、編輯等方面得到了應用,如Smooth Diffusion、STAMIlNA、DreamSync、StyleAdapter、Mix-of-Show和DragVideo。廣義上講,LoRA通常配置在注意力模塊中,而在穩定視頻擴散中,更多努力用于時間跨幀注意力,如Customize-A-Video中的T-LoRA。Adapter相關技術傾向于引入各種單一或組合的輕量級適配器模塊,以微調擴散模型以實現各種條件的精確控制。 六、多模態基礎模型的PEFT
廣義多模態基礎模型的PEFT 狹義上講,前一小節中提到的一些VLM包含了多模態模型的范圍,因為它們涉及文本和視覺。然而,上述模型更強調視覺任務的個別技能,例如接地和分割。因此,我們在視覺范圍內回顧它們。在這里,我們調查了廣義MFM中的PEFT方法,這些模型不僅限于單一語言或視覺技能,而是更廣泛的多模態理解。例如,PEFT-MLLMs對LLaVA-1.5、ShareGPT4V、Qwen-VL_Chat執行了適配器、LoRA、前綴微調、IA3的實證探索。LLaMA-Adapter V2通過解鎖更多可學習參數有效增強了LLaMA-Adapter,從而通過僅在LLaMA上插入14M參數(0.04%)執行開放式多模態指令。LayerNorm Tuning僅調整每個注意力塊中的LayerNorm,足以提高多模態性能。LoRA-Sparse引入了用于稀疏注意力的低秩線性投影層,以提升LLaVA-1.5的多模態性能。此外,LoRA和Q-Former在Monkey、mPLUG-Owl、CogVLM和GLM-4V等中盛行,以增強不同的多模態能力。
下一代多模態基礎模型的PEFT 下一代MFM不僅限于少數模態,它們可以感知輸入并生成任何組合的文本、圖像、視頻和音頻輸出,如CoDi系列、HuggingGPT、Visual-ChatGPT、SEED-X、Gemini 1.5 Pro、Show-o和NExT-GPT。在這里,我們調查了這類模型中PEFT的最新進展。例如,SEED-X首先在Llama2-chat-13B上進行預訓練,然后在大量多模態數據上使用LoRA。Anole利用數據高效(約6000個樣本)和參數高效(少于40M參數)的微調策略,促進了視覺和多模態生成。NExT-GPT同樣使用LoRA調整相當少的參數(1%)以更新特定投影層,從而增強多模態能力。 七、討論與未來方向
當前趨勢的觀察 可靠性:PEFT方法對超參數敏感,例如瓶頸維度、秩和層順序。此外,由于PEFT中使用的結構或網絡顯著小于基礎模型本身,最佳超參數通常與全微調使用的超參數大不相同。例如,PEFT的最佳學習率通常比全微調的學習率高得多。因此,開發簡單且高效的低敏感性超參數解決方案至關重要。 可解釋性:理解PEFT方法的內部機制仍然是一個挑戰。在LLM中,提示可以以相對直觀的方式解釋。然而,在基礎模型中,主要挑戰是各種提示作為無序的基于標記的提示學習,難以轉化為可理解的格式。此外,不同的PEFT方法面臨特定的可解釋性挑戰。例如,理解適配器中學習到的參數與層之間的關系是一個重要課題。 統一基準:盡管有Hugging Face的PEFT和AdapterHub等庫,但PEFT仍然缺乏全面的基準。不同的研究使用不同的評估數據集和任務設置,導致性能評估標準不一致,從而影響用戶評估不同PEFT方法的優缺點。為了解決這個問題,當前的趨勢是建立標準化的基線,以便更公平地比較不同方法。
未來方向 跨學科:PEFT的未來進展可能來自跨學科的見解,特別是隨著基礎模型應用于從醫學和自然科學到社會科學的各個領域。特別是,將領域特定的約束集成到PEFT框架中可能會導致更量身定制的微調方法。例如,在醫學成像中,結合醫學領域知識和低維先驗或因果關系可以增強模型性能,即使只有最少的參數更新。 持續PEFT:PEFT為在特定任務上微調基礎模型提供了一個表現良好的解決方案。然而,當這些方法適應一系列任務或動態數據流時,模型可能會干擾或覆蓋已學習的知識。相比之下,持續學習專注于開發可以持續學習新任務同時保留已學習任務記憶和性能的系統。PEFT和持續學習的結合將使PEFT在動態變化的任務或環境中更加穩健。因此,開發用于持續學習的PEFT可能有助于在現實世界中構建更智能的學習系統。 PEFT的架構:了解特定架構對PEFT的適用性和優勢,并探索如何為特定架構設計更有效的PEFT方案。例如,分析Transformer架構中不同層和組件對PEFT的響應特性,為架構優化和定制PEFT方法提供基礎。 PEFT的縮放定律:當前的努力揭示了在可訓練參數超過某個閾值后收益遞減,表明參數選擇的最佳范圍。對于PEFT方法,理解這些縮放行為對于優化效率和指導未來研究至關重要。例如,當增加或減少PEFT方法(如LoRA、適配器或前綴微調)中的可訓練參數數量時,性能如何縮放?這可以為未來的模型設計和微調策略提供指導。 分層抽象:PEFT中的分層抽象類似于人類大腦如何分層處理和存儲信息。在大腦中,感官輸入通過從低級感官神經元到高級認知區域的層層復雜性進行處理。這種分層方法使大腦能夠創建抽象表示并理解復雜信息。類似地,PEFT通常通過調整模型不同層次的參數(如早期層用于一般特征,后期層用于任務特定適應)來工作。通過微調特定層或添加模塊化結構,PEFT促進了任務的分層適應——反映了大腦從簡單到復雜表示的能力。這種分層設計不僅提高了模型的靈活性,還允許跨任務有效重用現有知識。 腦啟發的PEFT:有趣的是,PEFT與神經科學中的原則一致,特別是高效編碼和突觸可塑性理論。在大腦中,適應和學習通過優先考慮能量效率同時保持靈活性和穩健性的機制發生——這一概念與PEFT的目標產生了共鳴。例如,在人類大腦中,當我們學習新事物時,不是調整所有神經連接,而是僅修改特定的突觸通路。這種選擇性調整有助于在不顯著破壞現有知識的情況下有效整合新信息。類似地,PEFT允許模型通過更新最少數量的參數來專門化和適應新任務,這與大腦中的神經回路為新技能或經驗重組的方式一致。這種相似性為結合生物啟發的機制提供了有趣的機會,這可能會導致更符合生物學和高效的微調過程。 八、結論
總之,PEFT與基礎模型的集成展示了跨各種任務和領域高效模型適應的一個有前途的途徑。正如本報告所強調的,基礎模型的快速發展和活躍的PEFT社區強調了跟上技術趨勢以實現最佳性能的重要性。通過探索適應策略(如選擇性、加法、提示、重參數化和混合PEFT)以及跨不同模型結構(如LLM、VFM、VLM、MFM和VGM),本報告提供了關于提高效率和有效性的見解。報告強調了在多樣化基礎模型背景下系統理解PEFT技術的必要性,為該領域的未來進展和應用鋪平了道路。
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
大型語言模型(LLMs)以其卓越的能力徹底改變了自然語言處理。然而,由于計算資源有限、內存約束以及邊緣硬件異構性,將LLMs部署在資源受限的邊緣設備上面臨重大挑戰。本文綜述了邊緣LLMs在其生命周期中的最新發展,重點探討了從部署前技術到運行時優化的資源高效設計。此外,還探討了LLMs在個人、企業和工業場景中的設備端應用。通過總結最新進展并指出未來的研究方向,本綜述旨在為LLMs在邊緣設備上的部署提供全面的理解,彌合其巨大潛力與邊緣計算限制之間的差距。
基于Transformer的大型語言模型(LLMs)近年來取得了重大進展,徹底改變了自然語言處理(NLP)領域。隨著這一快速進步,多個開源LLM陸續涌現,包括Meta的Llama系列[5, 185, 186]、Mistral AI的Mistral系列[80, 81]以及Google的Gemma[180, 188]。LLM的成功歸因于其在自然語言理解和生成方面的卓越性能[44, 45, 230],這使得其在文本摘要[91, 94, 121]、問答任務[119, 143, 154]和代碼生成[103, 176, 205]等領域廣泛應用。這些應用在學術和工業領域產生了深遠影響,為ChatGPT[145]、Copilot[133]和Claude[12]等AI語言工具鋪平了道路。LLM的興起與成就代表了人工智能[107, 195, 250]、信息檢索[35, 108, 159]和人機交互[93, 197, 204]領域的重大飛躍。LLM的快速發展引發了在資源受限的邊緣設備上部署這些強大AI模型的需求,從智能手機[25, 156]和可穿戴設備[49]到智能家居助理[209]和工業物聯網(IoT)傳感器[207]。這種方法稱為邊緣LLM[41],需要將LLM直接部署在網絡邊緣的設備上,而不是依賴于集中式云服務器。這種方法的好處是多方面的。首先,邊緣計算使LLM可以本地執行,從而實現更快的響應和低延遲的分析[25, 148]。這種本地執行還允許LLM在沒有互聯網連接的情況下運行,使其非常適合在連接有限的區域中使用,例如關鍵基礎設施和需要即時決策的應用,如自動駕駛汽車和機器人[170, 175]。其次,將LLM部署在邊緣設備上可以增強隱私和安全性,因為敏感的用戶數據在設備內處理,避免了傳輸到云端所帶來的隱私泄露風險[51, 234]。最后,邊緣LLM通過設備端學習和自適應功能實現個性化用戶體驗。這種本地化的定制允許模型根據用戶的偏好、使用模式和特定場景調整其響應和功能,而無需犧牲隱私或頻繁的云同步[31, 251]。盡管有諸多優勢,但在資源受限的邊緣設備上部署LLM仍面臨多項重大挑戰。首先,計算和內存的限制對LLM的訓練和推理施加了巨大的限制。LLM計算密集且內存需求高,常常超出邊緣硬件的能力范圍。LLM中的自注意力機制需要大量的張量乘法運算,而這些運算在邊緣設備上執行速度較慢[169]。此外,這些模型的龐大內存占用通常超過了邊緣設備的可用RAM,使得無法加載整個模型[251]。其次,邊緣計算設備的異構性為LLM的設計、部署和跨設備優化帶來了巨大挑戰。邊緣設備從配備ARM處理器的智能手機到帶有專用低功耗芯片的物聯網設備不一而足,每種設備的處理能力各異。這種多樣性還體現在內存系統上,不同設備的緩存級別、RAM容量和存儲類型各不相同,直接影響LLM性能,因而需要針對設備的內存管理策略[97]。軟件環境同樣多樣化,不同的操作系統需要定制化的LLM框架[101]。跨設備優化必須解決如智能手機和筆記本電腦等設備之間的計算差異[24, 73],這需要資源感知的調度算法來動態分配計算資源,基于每臺設備的處理能力和能耗限制[63]。此外,硬件和軟件的協同設計必須使算法與各種硬件配置相匹配,要求對每個平臺的特性有深入了解,以實現有效的性能分析和硬件感知的推理實現[191]。最后,開發實際的邊緣應用程序,以彌合集中式LLM處理和分布式邊緣使用場景之間的差距也是一項重大挑戰。在個人和企業環境中,像AutoDroid[209]和GPTDroid[123]這樣的框架展示了將LLM集成到移動應用中的復雜性,同時保持任務自動化和圖形用戶界面(GUI)測試等任務的響應性和準確性。主要困難在于如何在不影響用戶體驗的情況下,在邊緣設備上高效部署復雜的LLM功能。此外,工業領域在將LLM與其他關鍵應用程序一起調度到邊緣節點時也面臨挑戰。在機器人和自動駕駛等工業領域[56, 175],需要復雜的調度算法來平衡LLM的計算需求與實時進程的要求。這需要動態的資源分配和任務優先級,以確保基于LLM的分析能夠補充而非阻礙關鍵功能。因此,開發者必須將LLM有效適應資源受限的設備,并適應各領域中動態的用戶行為。解決這些挑戰需要在整個應用部署生命周期中采用多方面的設計,如圖1所示。首先,為了在資源受限的邊緣設備上部署LLM,離線的預部署技術聚焦于開發更小、更高效的模型,這些模型在減少計算和內存需求的同時保留其功能。接下來,壓縮后的模型部署到邊緣設備上,在那里應用在線的運行時優化,以適應異構邊緣設備上的模型。最后,優化后的模型在各個不同領域的設備端應用中發揮作用,展示其實際價值。這個端到端的過程無縫集成了離線壓縮、在線優化和多樣化的應用開發,有效應對了LLM在邊緣設備上部署的關鍵挑戰,并展示了這些優化模型的現實應用潛力。為此,本綜述旨在全面探索在邊緣和移動設備上啟用大型語言模型(LLMs)所涉及的關鍵領域。如圖2所示,我們深入探討了三個關鍵方面:離線預部署模型設計技術、在線模型執行優化以及基于邊緣LLM的應用。我們旨在識別當前最先進的技術,找出研究空白,并提出未來在資源受限設備上部署LLM的研究方向,最終為創新的智能應用和服務鋪平道路。具體來說:
預部署技術。預部署技術包括各種模型壓縮方法,旨在減少模型大小,同時降低邊緣部署對內存和存儲的需求。關鍵方法包括量化、剪枝、知識蒸餾、低秩近似等。雖然這些方法已在傳統深度學習模型中取得了良好效果,但它們在LLM中的應用面臨著獨特的挑戰。LLM的規模、基于Transformer的架構以及在多種語言任務中保持性能的需求使得壓縮過程更加復雜[2, 219]。這些挑戰推動了針對LLM開發專門壓縮方法的研究。量化通過使用更少的比特來表示權重或激活值來減小LLM的大小[115, 164]。剪枝通過結構化或非結構化地移除不必要的模型組件以簡化模型[96, 215]。知識蒸餾將大模型中的知識傳遞給較小的模型,保留關鍵特性[82, 113]。此外,低秩近似通過利用矩陣中的固有冗余來壓縮大矩陣[71, 112]。其他方法,如復雜的預訓練技術、數據策劃策略以及架構優化,也有助于實現顯著的壓縮效果[136, 138, 180]。
運行時優化。運行時優化指的是直接在邊緣和移動設備上優化LLM的推理或微調過程。主要的優化指標包括系統響應速度、資源利用效率和計算負載。優化旨在通過各種方法增強LLM在邊緣設備上的性能,例如跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化以及硬件級優化。跨設備優化通過邊緣設備和云服務器之間的協作策略來提高整體系統響應速度并減少本地計算負載[24, 232]。資源感知調度則通過動態分配計算資源,提升效率并適應不同的工作負載[63, 148]。硬件-軟件協同設計將軟件算法與硬件能力對齊,使得硬件性能的分析更高效,并實現硬件感知的推理算法,從而提升整體系統效率[51, 191]。框架級優化使用專門的引擎來進行高效的內存管理和張量運算,減少內存占用并優化資源利用率[142, 251]。硬件級優化通過利用低功耗的NPUs和AI加速器,顯著提高能效并加速特定AI操作[87, 124]。
設備端應用。設備端應用是指直接在邊緣設備上實施和使用LLM的實際應用。這些應用涵蓋了多個領域,包括個人、企業和工業場景。在個人計算中,設備端LLM為AI助手提供支持,幫助完成上下文數據到文本生成以及日常生活中的復雜任務自動化[25, 95]。可穿戴設備也因設備端LLM受益,能夠實現自然語言接口進行數據搜索和常時AI輔助[49, 156]。在企業環境中,設備端LLM可增強軟件開發流程,例如自動化GUI測試和崩潰重現[74, 123]。此外,設備端LLM還能夠進行安全的本地化文檔處理和問答任務,確保辦公環境中的數據隱私[131, 151]。在工業領域,設備端LLM推動了機器人和人機交互的進步[56, 175],并且能夠進行輕量級文本識別和實時傳感器數據分析,提高運營效率和決策能力,廣泛應用于各種工業場景[42, 207]。 通過采用這些創新技術和方法,開發者能夠利用減少的模型大小和改進的計算效率,促進LLM在邊緣設備上的無縫集成。這不僅提升了邊緣計算的性能,還擴展了LLM在各種資源受限環境中的應用潛力,可能徹底改變邊緣AI應用的格局。本文的其余部分結構如下:第2節分析了LLM復雜性與邊緣設備能力之間的不斷擴大的差距,回顧了關于高效LLM和邊緣計算的相關工作,并分析了設備端LLM優化的研究趨勢,為本綜述奠定背景。第3節和第4節分別全面探討了離線預部署技術和在線運行時優化的最先進方法。第5節深入研究了LLM在設備端應用的廣闊潛力。第6節討論了設備端LLM領域的未來方向和開放性挑戰,而第7節總結了本綜述的關鍵結論和所獲得的見解。
為了補充這些努力,自然語言處理(NLP)領域的研究也取得了顯著進展。Xu和McAuley [218]回顧了提高預訓練語言模型壓縮和加速效率的方法。Hedderich等人[67]綜述了在低資源NLP環境中提升性能的方法。Wan等人[196]全面回顧了高效LLM的研究,將文獻劃分為模型中心、數據中心和框架中心的研究方法。Treviso等人[187]總結了在數據、時間、存儲或能量受限的條件下進行NLP的方法,強調了性能與資源消耗之間的權衡。雖然這些綜述為LLM優化提供了寶貴的見解,但它們并未專門解決邊緣和移動環境中的獨特約束。因此,迫切需要針對邊緣計算限制下LLM的高效實現和管理進行專門研究。 我們的綜述區別于這些工作,提供了LLM在邊緣和移動計算環境中的全面深入分析。兩個最相關的綜述是關于LLM的移動邊緣智能[155],主要側重于跨不同計算節點的協作資源管理,和個人LLM助手[111],探討了LLM助手在個人計算環境中的應用和場景。然而,前者未充分解決邊緣設備的低級別優化問題,后者缺乏對邊緣設備運行時優化的系統分析。為了彌合這一差距,我們從整體的、自上而下的角度探討了用于邊緣和移動設備的LLM,涵蓋了從離線預部署技術到在線運行時優化以及在各個領域中的設備端應用的整個優化流程。我們的分析不僅提供了對邊緣部署的LLM模型架構和推理/訓練范式的細致理解,還為基于Transformer架構的框架和硬件級優化提供了寶貴的見解。此外,我們探討了硬件-軟件協同設計策略,以增強LLM在資源受限設備上的性能。這種多方面的研究方法使我們的綜述與眾不同,提供了對LLM在邊緣設備上部署的挑戰和解決方案的全面分析,從高級架構考慮到低級框架和硬件優化。 如圖4所示,設備端LLM研究方向的時間分布清晰展示了從2019年到2024年的演變過程,分為三大類:預部署技術(藍色)、運行時優化(紫色)和設備端應用(綠色)。量化、剪枝、知識蒸餾和低秩近似等離線預部署技術在整個時間段內持續受到研究關注。在線運行時優化,包括跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化和硬件級優化,自2021年起獲得了顯著的發展。個人、企業和工業應用中的設備端應用在時間線的后半段尤為引人注目,表明了邊緣AI和移動LLM部署的日益增長的趨勢。該圖表突出了在優化和部署用于資源受限環境的LLM方面方法的快速發展和多樣化,反映了高效設備端AI在各個領域中日益重要的作用。我們的綜述綜合了這些發展,提供了關于設備端LLM部署的最新全面分析。通過這樣做,我們希望為研究人員和從業者提供一個堅實的基礎,以推動這一快速發展的領域的進一步進步。
大型語言模型(LLMs)的普及引發了在移動和邊緣設備上部署的需求激增,這一需求源于對增強隱私、降低延遲以及在連接受限環境中提高服務可用性的迫切要求。這種向邊緣計算轉變的范式為LLMs帶來了新的發展前景。然而,由于LLMs固有的計算復雜性和巨大的內存需求[52],這一過程面臨重大挑戰。因此,離線預部署技術成為了關鍵策略,旨在大幅減少LLMs的計算和內存占用,同時保持其性能完整性。這些技術在模型部署到目標邊緣設備之前應用,為在資源受限環境中的高效執行提供了保障。 如圖5所示,LLMs離線預部署方法的核心是模型壓縮,主要分為四類:量化、剪枝、知識蒸餾和低秩近似。除了這些核心技術外,其他創新方法也在離線預部署階段發揮著重要作用,進一步提升了模型的效率和性能。
我們已經討論了在預部署階段的離線優化技術,重點是預訓練小型模型。雖然這些方法可能無法完全在邊緣設備上執行,但它們生成的緊湊LLM適合高效部署。本節介紹了用于直接在邊緣設備上進行高效推理或微調的在線運行時優化方法。如圖7所示,LLM的運行時優化可分為五個主要方面。從自上而下的角度來看,包括跨設備優化、資源感知調度、框架級優化和硬件級優化。此外,硬件-軟件協同設計跨越了多個層次。
本綜述全面回顧了設備端LLM的最新進展和技術,這是一個快速發展的研究領域,旨在普及這些強大的AI模型。通過結構化的分類體系,我們系統地探討了優化LLM以便在資源受限設備上進行預部署和執行的兩種主要方法:離線預部署技術和在線運行時優化。此外,我們還分析了設備端LLM的多樣化應用,突出了其廣闊的潛力。展望未來,效率將是邊緣LLM發展的關鍵驅動力,推動創新并應對主要挑戰。本綜述為研究人員和從業者提供了寶貴的資源,奠定了進一步發展高效設備端LLM的堅實基礎,推動更具可訪問性和可持續性的AI解決方案的實現,進而釋放LLM的全部潛力,惠及更多用戶并支持更多樣化的應用。
摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。
關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習
1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:
多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:
在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。
基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:
架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。
固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。
動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。
重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。
直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。
偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。
基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。
本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。
這一部分總結了兩個專門為MMCL構建的數據集:
除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:
隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。
當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:
MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:
MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:
在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:
隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:
結論
以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。
摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。
人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。
1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。
最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。
時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。
LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。
A. 構建大型語言模型的信任
黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。
2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。
另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。
最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。
具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。
3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。
4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。
5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。
B. 本綜述的主要貢獻
本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。
? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。
C. 本綜述的局限性
本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。
我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。
需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。
擴散模型(Diffusion Models)是近年來在各種視覺任務中廣受關注的生成建模方法。由于這些模型不依賴標簽注釋,因此可以被視為一種獨特的自監督學習方法。本文綜述了擴散模型與表示學習之間的相互關系,概述了擴散模型的基本方面,包括數學基礎、流行的去噪網絡架構和指導方法。此外,本文還詳細介紹了與擴散模型和表示學習相關的各種方法,包括利用預訓練擴散模型學習的表示進行后續識別任務的框架,以及利用表示學習和自監督學習進展來增強擴散模型的方法。本文旨在提供擴散模型與表示學習之間分類法的全面概述,識別現有問題和潛在探索的關鍵領域。
擴散模型(Diffusion Models)最近在生成建模領域中脫穎而出,展示了在圖像合成、自然語言處理、計算化學和音頻合成等領域的非凡成果。擴散模型的卓越生成能力表明,它們不僅可以學習輸入數據的低層次特征,還可以學習高層次特征,使其成為通用表示學習的理想候選者。與生成對抗網絡(GANs)和變分自編碼器(VAEs)等其他生成模型不同,擴散模型沒有固定的架構組件來捕獲數據表示,這使得基于擴散模型的表示學習具有挑戰性。然而,利用擴散模型進行表示學習的方法受到了越來越多的關注,同時也得益于擴散模型在訓練和采樣方面的進展。
目前最先進的自監督表示學習方法展示了良好的可擴展性,因此,擴散模型也可能表現出類似的擴展特性。用于獲得最先進的生成結果的控制生成方法(如分類器指導和無分類器指導)依賴于帶注釋的數據,這成為擴展擴散模型的瓶頸。利用表示學習的指導方法無需注釋,提供了一種解決方案,可能使擴散模型能夠在更大的、無注釋的數據集上進行訓練。
本文旨在闡明擴散模型與表示學習之間的關系和相互作用。我們重點介紹兩個核心觀點:利用擴散模型本身進行表示學習,以及利用表示學習來改進擴散模型。我們介紹了當前方法的分類,并總結了展示當前方法共性的通用框架。
自Ho等人、Sohl-Dickstein等人和Song等人最初提出擴散模型以來,對探索擴散模型表示學習能力的興趣不斷增加。正如圖1所示,我們預計這一趨勢將在今年繼續。擴散模型和表示學習方面發表的作品數量增加,使得研究人員更難識別最先進的方法并跟上當前的發展。這可能會阻礙這一領域的進展,這也是為什么我們認為需要對這一領域進行全面概述和分類。
擴散模型和表示學習的研究還處于初期階段。許多當前的方法僅依賴于為生成合成訓練的擴散模型進行表示學習。因此,我們假設未來在這一領域有顯著的進步機會,擴散模型可以越來越多地挑戰當前表示學習的最先進水平。圖2展示了現有方法的定性結果。我們希望這份綜述可以通過澄清當前方法的共性和差異,促進基于擴散的表示學習的進展。總結而言,本文的主要貢獻如下:
全面概述:提供擴散模型與表示學習相互作用的全面綜述,澄清如何利用擴散模型進行表示學習,反之亦然。
方法分類:我們引入了基于擴散表示學習的當前方法的分類,突出它們之間的共性和差異。
通用框架:本文為擴散模型特征提取和基于分配的指導提出了通用框架,提供了對大量擴散模型和表示學習作品的結構化視角。
未來方向:我們確定了這一領域進一步發展的關鍵機會,鼓勵探索擴散模型和流匹配作為表示學習的新前沿。
摘要
深度強化學習 (RL) 中的泛化研究旨在產生 RL 算法,其策略可以很好地泛化到部署時新的未知情況,避免過度擬合其訓練環境。如果要在現實世界的場景中部署強化學習算法,解決這個問題至關重要,在現實世界中,環境將是多樣的、動態的和不可預測的。本綜述是對這一新興領域的概述,在已有研究的基礎上,通過提供了一個統一的格式和術語來討論不同的泛化問題。繼續對現有的泛化基準以及解決泛化問題的方法進行分類。最后,對該領域的現狀進行了批判性討論,包括對未來研究的建議。本文認為對基準設計采用純程序性內容生成方法不利于推廣,其建議快速在線適應和解決RL特定問題,并在未充分探索的問題環境中建立基準,如離線RL概括和獎勵函數變化。
引言
強化學習(RL)可以用于一系列應用,如自動駕駛汽車[1]和機器人[2],但為了實現這一潛力,我們需要可以在現實世界中使用的RL算法。現實是動態的、開放的、總是在變化的,RL算法需要對其環境的變化具有健壯性,并在部署過程中具有遷移和適應不可見(但類似)環境的能力。
然而,目前許多RL研究工作都是在諸如Atari[3]和MuJoCo[4,5]等基準測試上進行的,這些基準測試不具備上述屬性:它們在訓練策略時所處的環境中評估策略,這與現實場景不匹配(圖1左列)。這與監督學習的標準假設形成了鮮明的對比,在監督學習中,訓練集和測試集是不相交的,很可能導致強評估過擬合[6]。這導致策略即使在稍微調整的環境實例(環境中的特定關卡或任務)上表現也很糟糕,并且經常在用于隨機初始化上失敗[7,8,9,10]。
許多研究人員已經認真對待這些批評,現在專注于提高RL的泛化(從這項綜述的內容可以看出)。本研究的重點是生成策略具有預期魯棒性、遷移和自適應特性的算法,挑戰訓練和測試將是相同的基本假設(圖1中右列)。雖然這項研究是有價值的,但目前它經常缺乏清晰或連貫的論文。我們認為,這部分是因為泛化(尤其是在RL中)是一類問題,而不是一個特定的問題。改進“泛化”,但不明確需要哪種泛化,這是不明確的;我們不太可能從總體上改進泛化,因為這類問題太廣泛了,以至于適用于一些類似于No Free Lunch定理[11]的類比:在某些情況下改進泛化可能會損害在其他情況下的泛化。圖1中右兩欄顯示了兩大類泛化問題。
我們將泛化概念作為一個單一的問題來解決。我們提出了一種理解這類問題的形式化(建立在以前的工作[12,13,14,15,16]),以及在指定一個泛化問題時有哪些選擇。這是基于特定基準所做出的選擇,以及為驗證特定方法而做出的假設,我們將在下面討論這些。最后,我們在泛化中提出了一些尚未被探索的設置,但對于RL的各種現實應用仍然至關重要,以及未來在解決不同泛化問題的方法上的許多途徑。我們的目標是使該領域的研究人員和實踐者在該領域內外更容易理解,并使討論新的研究方向更容易。這種新的清晰性可以改善該領域,并使更通用的RL方法取得穩健的進展。
綜述結構。綜述的結構如下。我們首先在第2節中簡要描述相關工作,如其他概述。在第3節中,我們介紹了RL中泛化的形式化和術語,包括相關的背景。然后,在第4節中,我們繼續使用這種形式化來描述用于RL泛化的當前基準,討論環境(第4.1節)和評估協議(第4.2節)。我們將在第5節中對處理泛化的工作產生方法進行分類和描述。最后,我們將在第6節中對當前領域進行批判性的討論,包括在方法和基準方面對未來工作的建議,并在第7節中總結綜述的關鍵結論。
我們提出了關于泛化的一種形式主義和術語,這是建立在以往多部工作[12,13,14,15,16]中提出的形式主義和術語基礎上的。我們在這里的貢獻是將這些先前的工作統一為RL中被稱為泛化的一類問題的清晰的正式描述。
我們提出了一個現有基準的分類,可以用來進行泛化測試,將討論分為分類環境和評估協議。我們的形式主義讓我們能夠清楚地描述純粹的PCG方法在泛化基準和環境設計方面的弱點:擁有一個完全的PCG環境限制了在該環境下進行研究的精確度。我們建議未來的環境應結合PCG和可控變異因素。
我們提出現有的分類方法來解決各種泛化問題,出于希望使它容易對從業人員選擇的方法給出一個具體的問題。我們指出了許多有待進一步研究的途徑,包括快速在線適應、解決RL特定的一般化問題、新穎的架構、基于模型的RL和環境生成。
我們批判性地討論了RL研究的泛化現狀,并提出了未來的研究方向。特別地,我們指出,構建基準將使離線的RL一般化和獎勵功能變化取得進展,這兩者都是重要的設置。此外,我們指出了幾個值得探索的不同設置和評估指標:調查上下文效率和在連續的RL設置中工作都是未來工作的必要領域。
摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。