與只考慮文本的傳統情感分析相比,多模態情感分析需要同時考慮來自多模態來源的情感信號,因此更符合人類在現實場景中處理情感的方式。它涉及處理來自各種來源的情感信息,如自然語言、圖像、視頻、音頻、生理信號等。然而,盡管其他模態也包含多樣的情感線索,自然語言通常包含更豐富的上下文信息,因此在多模態情感分析中總是占據關鍵位置。ChatGPT的出現為將大型語言模型(LLMs)應用于文本中心的多模態任務打開了巨大的潛力。然而,目前尚不清楚現有的LLMs如何能更好地適應文本中心的多模態情感分析任務。本綜述旨在:(1)全面回顧文本中心的多模態情感分析任務的最新研究,(2)探討LLMs在文本中心的多模態情感分析中的潛力,概述其方法、優勢和局限性,(3)總結基于LLM的多模態情感分析技術的應用場景,以及(4)探索未來多模態情感分析的挑戰和潛在研究方向。
基于文本的情感分析是自然語言處理領域中的一項關鍵研究任務,旨在自動揭示我們對文本內容持有的潛在態度。然而,人類往往在多模態環境中處理情感,這與基于文本的情感分析在以下幾個方面有所不同:
人類能夠獲取并整合多模態細粒度信號。人類經常處于多模態情境中,通過語言、圖像、聲音和生理信號的綜合效果,能夠無縫理解他人的意圖和情感。當處理情感時,人類能夠敏銳地捕捉并整合來自多種模態的細粒度情感信號,并將其關聯起來進行情感推理。
多模態表達能力。人類表達情感的方式包括語言、面部表情、身體動作、語音等。例如,在日常對話中,我們的自然語言表達可能是模糊的(如某人說“好吧”),但當結合其他模態信息(如視覺模態中的快樂面部表情或音頻模態中的拉長語調)時,表達的情感是不同的。
顯然,在多模態環境中研究情感分析使我們更接近于人類真實的情感處理。對具有類人情感處理能力的多模態情感分析技術的研究將為現實世界中的應用提供技術支持,如高質量智能伴侶、客戶服務、電子商務和抑郁癥檢測。
近年來,大型語言模型(LLMs)展示了令人驚嘆的人機對話能力,并在廣泛的自然語言處理任務中表現出色,表明它們具有豐富的知識和強大的推理能力。同時,增強理解圖像等模態能力的大型多模態模型(LMMs)也為多模態相關任務提供了新的思路。它們可以直接進行零樣本或少樣本上下文學習,無需監督訓練。雖然已經有一些嘗試將LLMs應用于基于文本的情感分析,但對于LLMs和LMMs在多模態情感分析中的應用缺乏系統和全面的分析。因此,目前尚不清楚現有的LLMs和LMMs在多模態情感分析中的適用程度。 鑒于自然語言在多模態情感分析中的關鍵作用及其作為當前LLMs和LMMs的重要輸入,我們集中于可以利用LLMs提升性能的文本中心的多模態情感分析任務,如圖文情感分類、圖文情緒分類、音頻-圖像-文本(視頻)情感分類等。在這項工作中,我們旨在全面回顧基于LLMs和LMMs的文本中心的多模態情感分析方法的當前狀態。具體而言,我們關注以下問題:
LLMs和LMMs在各種多模態情感分析任務中的表現如何?
在各種多模態情感分析任務中,利用LLMs和LMMs的方法有什么不同,它們各自的優勢和局限性是什么?
多模態情感分析的未來應用場景是什么? 為此,我們首先介紹文本中心的多模態情感分析任務及其最新進展。我們還概述了當前技術面臨的主要挑戰,并提出潛在解決方案。我們分析了總共14個多模態情感分析任務,這些任務傳統上是獨立研究的。我們分析了每個任務的獨特特征和共性。綜述研究的結構如圖1所示。由于LMMs也是基于LLMs的,為了方便表述,下面基于LLMs的方法包括基于LMMs的方法。
本文的其余部分組織如下。第2節介紹LLMs和LMMs的背景知識。第3節對廣泛的文本中心多模態情感分析任務進行了廣泛的綜述,詳細描述了任務定義、相關數據集和最新方法。我們還總結了LLM在多模態情感分析任務中相比于以前技術的優勢和進展,以及仍然面臨的挑戰。第4節介紹了基于LLMs的文本中心多模態情感分析方法的提示設置、評估指標和參考結果。第5節展望了多模態情感分析的未來應用場景,并在第6節做出總結性評論。
一般來說,大型語言模型(LLMs)指的是具有數百億甚至更多參數的Transformer模型,這些模型通過在大量文本數據上進行高成本訓練,如GPT-3 [2]、PaLM [22]、Galactica [23] 和 LLaMA2 [24]。LLMs通常具備廣泛的知識,并展示出在理解和生成自然語言以及解決實際復雜任務方面的強大能力。LLMs展示了一些小模型所不具備的能力,這是LLMs與以往預訓練語言模型(PLMs)的最顯著區別,例如上下文學習(ICL)能力。
假設語言模型已獲得自然語言指令和幾個任務演示,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新;指令跟隨。通過對通過自然語言描述格式化的多任務數據集進行微調(稱為指令適配),LLMs在未見過的任務上表現出色。這種通過微調指令,使得LLMs能夠在不使用明確示例的情況下遵循新任務的任務指令,從而提高泛化能力。逐步推理。對于小型語言模型(SLMs),通常難以解決涉及多步推理的復雜任務,例如數學詞題。相反,通過使用連鎖思維(CoT)提示策略[25–27],LLMs可以利用涉及中間推理步驟的提示機制來解決此類任務并得出最終答案。
已經有一些初步嘗試評估LLMs在文本情感分析任務中的表現。在[7]中,作者觀察到LLMs的零樣本性能可以與微調的BERT模型[105]相媲美。此外,在[8]中,作者對ChatGPT在一些情感分析任務中的能力進行了初步研究,特別研究了其處理極性變化、開放域場景和情感推理問題的能力。在[9]中,作者全面測試了LLMs在文本情感分析數據集中的有效性。在[28]中,作者測試了商用LLMs在基于視頻的多模態情感分析數據集上的有效性。盡管已有的努力,范圍通常僅限于部分任務,并涉及不同的數據集和實驗設計。我們的目標是全面總結LLMs在多模態情感分析領域的表現。
大型多模態模型(LMMs)旨在處理和整合各種數據類型,如文本、圖像、音頻和視頻。LMMs通過引入額外的模態擴展了LLMs的能力,從而更全面地理解和生成多樣化的內容。LMMs的發展是為了更準確地反映人類交流和感知的多模態性質。雖然傳統的LLMs如GPT-4主要是基于文本的,LMMs能夠處理和生成跨各種數據類型的輸出。例如,它們可以解釋視覺輸入、生成圖像的文本描述,甚至處理音頻數據,從而彌合不同信息形式之間的差距。
LMMs的關鍵進展之一是創建統一的多模態嵌入空間。這涉及為每種模態使用單獨的編碼器生成特定數據的表示,然后將這些表示對齊到一個一致的多模態空間。這種統一的方法允許模型無縫整合和關聯來自不同來源的信息。著名的例子包括Gemini [111]、GPT-4V和ImageBind [110]。這些模型展示了處理文本、圖像、音頻和視頻的能力,增強了翻譯、圖像識別等功能。
除了這些知名模型,其他新興模型也取得了顯著進展:BLIP-2 [112]引入了一種新的方法,通過Q-former模塊將凍結的預訓練視覺編碼器與凍結的大型語言模型集成。這個模塊使用可學習的輸入查詢與圖像特征和LLM交互,允許有效的跨模態學習。這種設置在保持LLM的多功能性的同時,能夠有效地結合視覺信息。LLava [113]是一種集成預訓練的CLIP [116]視覺編碼器(ViT-L/14)、Vicuna [115]語言模型和一個簡單的線性投影層的大型多模態模型。其訓練分為兩個階段:特征對齊預訓練,僅使用595K圖文對照對來自Conceptual Captions數據集[118]訓練投影層;以及端到端微調,使用158K指令跟隨數據和ScienceQA數據集[117]微調投影層和LLM。這種設置確保了視覺和文本信息的有效整合,使LLava在圖像字幕生成、視覺問答和視覺推理任務中表現出色。Qwen-VL [114]在多模態領域表現出色。Qwen-VL在零樣本圖像字幕生成和視覺問答任務中表現突出,支持中英文文本識別。Qwen-VL-Chat增強了多圖像輸入和多輪問答的交互能力,在理解和生成多模態內容方面展示了顯著改進。
參數凍結應用:這種范式直接在LLMs上應用提示方法,而不需要對模型參數進行調整。根據是否需要少樣本演示,參數凍結應用包括零樣本學習和少樣本學習。
參數調優應用:這種范式需要對LLMs的參數進行調整。根據是否需要對所有模型參數進行微調,參數調優應用包括全參數調優和參數高效調優。
以文本為中心的多模態情感分析主要包括圖文情感分析和音頻-圖像-文本(視頻)情感分析。其中,根據不同的情感注釋,最常見的任務是情感分類任務(如最常見的三分類任務:積極、中立和消極)和情緒分類任務(包括快樂、悲傷、憤怒等情緒標簽)。與基于文本的情感分類類似,以文本為中心的多模態情感分析也可以根據觀點目標的粒度分為粗粒度多模態情感分析(如句子級別)和細粒度多模態情感分析(如方面級別)。 現有的細粒度多模態情感分析通常集中在圖文配對數據上,包括多模態方面術語抽取(MATE)、多模態基于方面的情感分類(MASC)以及聯合多模態方面-情感分析(JMASA)。此外,多模態諷刺檢測近年來也成為一個廣泛討論的任務。由于需要分析不同模態情感之間的沖突,它突顯了非文本模態在現實場景中情感判斷中的重要性。我們將在以下小節中介紹這些任務,并在表1中對它們進行總結。
因果推斷在統計、市場營銷、醫療保健和教育等各個領域的解釋性分析和決策中起著重要作用。其主要任務是估計處理效果并制定干預政策。傳統上,以往的大多數工作通常集中在二元處理設置,即一個單位要么采用要么不采用某種處理。然而,實際上,處理可以更加復雜,涵蓋多值、連續或組合選項。在本文中,我們將這些稱為復雜處理,并系統全面地回顧了處理它們的因果推斷方法。首先,我們正式重新審視了問題定義、基本假設及其在特定條件下可能的變體。其次,我們依次回顧了與多值、連續和組合處理設置相關的方法。在每種情況下,我們試探性地將方法分為兩類:符合無混雜假設的方法和違反無混雜假設的方法。隨后,我們討論了可用的數據集和開源代碼。最后,我們對這些工作進行了簡要總結,并提出了未來研究的潛在方向。
因果推斷在許多領域中具有廣泛應用,如統計學、市場營銷、流行病學、教育、推薦系統等。盡管關聯模型在這些領域中引起了興趣,但它們僅限于獨立同分布(i.i.d.)數據的特定設置。相反,因果方法在確定特定干預或處理對結果的實際影響時,已經考慮到了這種數據分布差距。形式上,處理效應是指在采取特定處理的情況下,與不采取處理的情況下所產生的結果差異。這種估計不僅對效果測量有幫助,還對一些下游任務如預測、決策、特征選擇和解釋性分析有幫助。
估計處理效應的關鍵挑戰是控制混雜偏差。這意味著混雜因素可能同時影響自變量(處理)和因變量(結果),從而導致因果關系和處理效應的錯誤估計。例如,在研究吸煙對肺癌影響時,年齡是一個混雜因素,因為年齡既可能影響一個人是否吸煙,也可能影響罹患肺癌的概率。
在實踐中,估計處理效應的金標準方法是隨機對照試驗(RCTs),即隨機分配處理給個體。然而,進行RCTs通常很昂貴,并且很難揭示復雜處理的效果。此外,特別是在醫學場景中,這可能與倫理原則相沖突。例如,在研究某種藥物對死亡率的影響時,強迫患者接受或不接受某種處理是不道德和非法的。因此,許多最新研究集中于如何從自然收集的觀察數據中精確估計處理效應。本文我們重點回顧觀察性研究中的因果推斷方法。 為了正式研究這個問題,我們采用了因果推斷文獻中廣泛使用的潛在結果框架。已經出現了各種方法,包括基于傾向評分的方法、基于表示的方法、生成建模方法等。傾向評分估計了在給定協變量的情況下,樣本采取特定處理的條件概率。在傾向評分的基礎上,提出了匹配、分層和重新加權等方法來控制混雜偏差。進一步考慮選擇偏差,利用傾向評分的平衡性質模擬觀察數據中的隨機化。為了控制來自不同個體的變量分布,發展了平衡方法,包括熵平衡、協變量平衡傾向評分、近似殘差平衡和核平衡。隨著深度學習的進展,最近的研究應用神經網絡學習個體協變量的表示,然后通過假設網絡推斷潛在結果。這些方法鼓勵兩個組表示之間的相似性,有助于分布平衡。包括平衡神經網絡(BNN)、反事實回歸(CFR)、重要性采樣權重的反事實回歸(CFR-ISW)、Dragonnet等。此外,還有一些利用多任務學習和元學習的方法。生成建模方法是另一種主流方法,利用生成對抗網絡(GAN)或變分自編碼器(VAE)。GANITE是前者的代表,通過生成器直接生成潛在結果。對于后者,主要思想是通過重構損失和分布差異測量獲得目標的潛在變量或嵌入。具體來說,因果效應VAE(CEVAE)中的目標是未測量的混雜因素,它們被恢復為潛在變量并用于隨后因果效應的估計。
以往的研究主要集中在二元處理的設置,即只有一個處理要么采用要么不采用。然而,在實際應用中,處理可能是多值的、組合的、連續的,甚至更復雜的。我們以藥物決策為例進行說明。如圖1所示,如果處理是單個變量,患者可以決定是否服用某種藥物(二元),從多個替代方案中選擇一種(多值),甚至考慮注射劑量(連續)。另一方面,處理也可以包含多個變量,患者需要考慮多種藥物的組合(組合)。
因此,復雜處理下的因果推斷在近年來引起了越來越多的關注。廣義傾向評分(GPS)是傾向評分的擴展,基于GPS的方法被提出用于估計多值處理和連續處理的因果效應。同樣,基于表示的方法在復雜處理的設置下也起著重要作用。例如,CFR擴展到多值處理情況下的MEMENTO和組合處理情況下的后悔最小化網絡(RMNet)。劑量反應網絡(DRNet)和變系數網絡(VCNet)也是連續處理下基于表示方法的良好例子。對于使用GAN的生成建模方法,只要將判別器的任務改為多類分類,GANITE自然可以應用于多值處理的效應估計。SCIGAN是在連續設置下的進一步探索。研究人員還利用VAE,開發了任務嵌入因果效應VAE(TECE-VAE)和變分樣本重新加權(VSR)用于組合處理,以及用于連續處理的可識別處理條件VAE(Intact-VAE)。除了這三種主流方法,MetaITE為多值處理提供了另一種解決方案。具體來說,它將有足夠樣本的處理組視為源域,從而訓練元學習者。另一方面,樣本有限的組被視為目標域進行模型更新。
由于信息收集的限制,可能存在未觀測到的混雜因素。如圖2(b)所示,陰影中的未觀測到的混雜因素U意味著它不能被測量或未出現在數據集中。它也被稱為混雜因素,因為它同時影響處理T和結果Y。注意,U可能與可觀測的混雜因素X存在因果關系。解決這個問題的一種方法是找到代理變量作為未測量混雜因素的替代。如圖2(c)所示,Z被恢復為未測量混雜因素的代理,影響X和T。要求是X在給定Z的情況下獨立于T。許多研究致力于找到這樣的代理變量,如用于多值處理的信息多重因果估計(MCEI),用于組合處理的去混雜器,以及用于連續處理的深度特征代理變量(DFPV)。此外,工具變量(IV)也廣泛用于這種情況,如圖2(d)所示。給定X,工具變量Z有助于識別T→Y。DeepIV和使用再生核希爾伯特空間(RKHS)的IV是這種工具變量方法的兩個實例。
因果推斷領域有幾篇綜述,例如,兩個聚焦于二元處理的綜述,總結工具變量方法的工作,以及討論多值處理匹配方法的綜述。然而,估計復雜處理因果效應的問題很少被討論,而這在實際應用中是常見且重要的。本文我們在潛在結果框架下對復雜處理的方法進行了全面回顧。我們澄清了多值、連續和組合處理設置的問題設置,并區分了它們之間的相似性和差異性。我們簡要介紹了一些代表性方法,以及常用的實驗數據集和細節。我們還將討論由不同處理設置引起的關鍵挑戰。
論文組織架構。本文的結構如圖3所示。第2節介紹了復雜處理的因果推斷的初步知識。第3節列出了二元處理的相關方法,第4節介紹了多值處理,第5節介紹了連續處理,第6節介紹了組合處理。隨后,我們在第7節收集了若干可用的數據集和開源代碼。第8節我們對未來工作的方向進行了進一步討論,第9節進行了簡要總結。
近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。
** 1 引言**
近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。
因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。
持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。
在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。
本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。
本綜述論文的主要貢獻如下:
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產生的顯著內存和計算成本,使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中,我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調整的算法。(2)大型模型強調的是通用性和泛化能力,而不是在單一任務上的性能。因此,許多算法,如知識蒸餾,關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。
大型語言模型(LLMs)已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比,LLMs(例如ChatGPT、LLaMA、Claude)對未見數據顯示出了更強的泛化能力。此外,它們甚至展現出了較小模型所不具備的能力(即,突現能力),如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而,在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如,一個帶有float32權重的10B模型消耗37GB內存,更不用說隨著序列長度增加,推理內存成本會以平方速度進一步增加。為了在資源受限的設備上,甚至是移動設備上部署模型,許多LLMs采用模型壓縮方法,如量化,以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的(甚至是預訓練的)模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本,以便模型可以在各種資源受限的設備上運行。從算法上講,常見的模型壓縮方法包括:
許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而,由于微調LLMs的巨大預算,研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務(如神經機器翻譯)不同,大型語言模型強調跨各種任務和未見數據的通用性和泛化能力,甚至是突現能力。因此,壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。 面對這些挑戰,提出了許多專門針對LLMs的壓縮方法。在本文中,我們將對這些方法進行全面綜述。為了更好地展示這些方法,我們進一步將參數約為十億或更少的語言模型,如BERT、GPT2,稱為中等模型,盡管它們通常被視為大型語言模型。參數超過十億的模型,如LLaMA、Claude、ChatGPT等,保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小,即中等模型相對容易進行微調,展示較少的突現能力。結果,許多針對中等模型的壓縮方法仍與較小模型的方法相似。 以下各節的組織如下:第2節將介紹一些初步知識。然后,我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。
量化
量化是指將輸入值(在一個大的(通常是連續的)集合中)映射到輸出值(在一個小的(通常是有限的)集合中)的過程(例如,見圖2)。量化是減少內存成本和提高LLMs推理速度的最直接方法,特別是在支持低位數據類型(如INT4)快速操作的硬件上。值得注意的是,量化在神經網絡訓練和推理中都取得了令人印象深刻的成功,而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法(如剪枝和蒸餾)有幾個優勢。1)高壓縮比:將LLMs中的權重從32位浮點數量化為4位整數,可以將模型大小大幅壓縮至大約1/8,這對于內存受限的過程(如LLMs推理)至關重要。2)低成本:許多量化方法不需要重新訓練整個LLMs,使其對于計算資源有限的研究人員更加可行。3)高靈活性:量化與大多數其他壓縮方法兼容,為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法,我們首先在3.1小節介紹標準量化方法和一些基本概念。然后,在3.2節,我們將簡要總結LLMs出現之前一些針對中等大小語言模型(如BERT,GPT2等)的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難,我們根據技術是否需要重新訓練,將LLMs量化方法分為兩部分。不需要重新訓練的方法(即,訓練后量化,PTQ)在3.3節討論,而需要重新訓練的方法(即,量化感知訓練,QAT)在3.4節討論。最后,在3.5節,我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。
剪枝
作為一種常規技術,用于壓縮和加速神經網絡,剪枝通過消除模型中非必需的權重或結構,同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡(CNNs)中顯示出顯著結果,但與量化和蒸餾等其他壓縮技術相比,其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大,微調的高成本使得實現剪枝的全部效果變得更加困難。然而,剪枝是壓縮模型的關鍵技術,需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分,我們將在4.1節提供剪枝方法和基本概念的概覽。隨后,在4.2節,我們將詳細闡述為中等大小語言模型(即,參數達到數十億的模型)量身定制的剪枝技術,鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后,在4.4節,我們將介紹一些輔助技術,這些技術雖然不是剪枝方法,但與剪枝相關,用于改進LLMs的剪枝結果,并討論LLMs剪枝領域未來進步的挑戰。
知識蒸餾知識蒸餾(KD)是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中,從而實現教師模型知識的更簡潔高效的表示。在5.1節中,我們將介紹知識蒸餾的一些基本概念,并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型(具有大約10億參數的語言模型)的各種知識蒸餾方法,并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后,我們將在5.3節提供大型語言模型(具有超過10億參數的語言模型)知識蒸餾的詳細概述,將它們分類為黑盒蒸餾和白盒蒸餾。
緊湊架構設計是一種追求效率和簡化的設計哲學,其目標是通過優化網絡結構和算法,在減少計算資源和內存使用的同時,實現模型效率的顯著提升。具體而言,它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分,并且對于大型和中等大小模型來說沒有區別,因此我們在這里不會特別按模型大小分類方法。
動態網絡
擴大語言模型的規模已被證明是提升其在自然語言處理(NLP)任務上性能的有效方法。然而,擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題,同時仍然利用規模增加的好處,動態神經網絡(DyNNs)只針對每個輸入處理網絡的一個子集,使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域,當前對DyNNs的研究主要包括以下三種方法:提前退出、級聯推理和專家混合(MoE)。提前退出旨在動態地在深度神經網絡(DNNs)的早期層次終止推理過程,從而減少計算成本并提高響應時間。直覺是,對于不太復雜的詞匯,往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器,這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型,如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統,以確定輸入查詢的處理策略,并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢,并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度,并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標,以決定是否利用更強大的LLMs。一般來說,這一系列工作最近才出現,并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比,MoE的研究有著橫跨多個機器學習領域(包括NLP)的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡(FFN),其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中,以提供高效而強大的服務。因此,在本節的剩余部分,我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念,接著是對將MoE整合到LLMs中的當代研究的廣泛綜述,包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧,這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起,突出了其在開發更全面和成本效益更高的LLM系統中的潛力。
隨著基于Transformer的模型的快速發展,出現了各種模型。由于不同的應用場景,它們在延遲、吞吐量、內存等方面有著額外的需求,這使得我們難以部署模型。在本節中,我們介紹了一些最近開發的針對LLM的推理加速框架,這些框架有效地提高了不同場景下模型的效率,如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357],由于本文關注于推理,我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理,可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。
結論
在本文中,我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查,包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外,我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而,正如我們在引言中提到的,與較小模型相比,大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰,但許多算法仍然依賴于為壓縮小型模型而設計的框架,壓縮大型模型的挑戰依然存在。未來,需要進一步探索,以開發更高效、更有效的壓縮算法,同時確保大型模型的通用性和泛化能力。
表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。
語義分割作為計算機視覺領域的重要研究方向之一,應用十分廣泛,其目的是根據預先定義好的類別對輸入圖像進行像素級別的分類,實時語義分割則在一般語義分割的基礎上又增加了對速度的要求,被廣泛應用于如無人駕駛、醫學圖像分析、視頻監控與航拍圖像等領域。其要求分割方法不僅要取得較高的分割精度,且分割速度也要快。隨著深度學習和神經網絡的快速發展,實時語義分割也取得了一定的研究成果。本文在前人已有工作的基礎上對基于深度學習的實時語義分割算法進行系統地歸納總結,特別是最新的基于transformer和剪枝的方法,全面介紹實時語義分割方法在各領域中的應用。本文首先介紹實時語義分割的概念,再根據標簽的數量和質量,將現有的基于深度學習的實時語義分割方法分為強監督學習、弱監督學習和無監督學習三個類別;在分類的基礎上,結合各個類別中最具有代表性的方法,對其優缺點展開分析,并從多個角度進行比較。隨后介紹目前實時語義分割常用的數據集和評價指標,并對比分析各算法在各數據集上的實驗效果。闡述現階段實時語義分割的應用場景。最后,討論了基于深度學習的實時語義分割存在的挑戰,并對實時語義分割未來值得研究的方向進行展望,為研究者們解決存在的問題提供便利。
目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
隨著人工智能技術的飛速發展,深度神經網絡在計算機視覺、信號分析和自然語言處理等領域中都得到了廣泛應用.自然語言處理通過語法分析、語義分析、篇章理解等功能幫助機器處理、理解及運用人類語言.但是,已有研究表明深度神經網絡容易受到對抗文本的攻擊,通過產生不可察覺的擾動添加到正常文本中,就能使自然語言處理模型預測錯誤.為了提高模型的魯棒安全性,近年來也出現了防御相關的研究工作.針對已有的研究,全面地介紹自然語言處理攻防領域的相關工作,具體而言,首先介紹了自然語言處理的主要任務與相關方法;其次,根據攻擊和防御機制對自然語言處理的攻擊方法和防御方法進行分類介紹;然后,進一步分析自然語言處理模型的可驗證魯棒性和評估基準數據集,并提供自然語言處理應用平臺和工具包的詳細介紹;最后總結面向自然語言處理的攻防安全領域在未來的研究發展方向.
傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。