亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。

1. 引言

多模態基礎模型(MMFMs)的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如,文本到圖像模型(Rombach等,2022;Ramesh等,2022;Podell等,2023)促進了圖像生成和編輯,生成式視覺-語言模型(VLMs)(Zhu等,2023;Agrawal等,2024)支持視覺問答(VQA)或圖像描述等任務,而對比(即非生成式)VLMs,如CLIP(Radford等,2021),則廣泛用于圖像檢索。隨著多模態模型的不斷進步,人們對理解其內部機制和決策過程的需求也日益增加(Basu等,2024a)。機制可解釋性不僅對解釋模型行為至關重要,還對啟用下游應用(如模型編輯(Basu等,2024a)、減少虛假相關(Balasubramanian等,2024)、以及提高組合泛化能力(Zarei等,2024))具有重要意義。 機器學習中的可解釋性,LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念,因任務、目標和利益相關者需求的不同而有所變化。在本綜述中,我們采用Murdoch等(2019)提出的定義:“提取并闡明模型所學習的相關知識、機制、特征和關系的過程,無論這些知識是編碼在其參數中還是通過輸入模式表現出來,從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識,但“相關知識”的定義取決于應用的背景。例如,在記憶編輯應用中,可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能;而在安全性場景中,它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角,本綜述探討了可解釋性方法,研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。 盡管在單模態大規模語言模型(LLMs)(Meng等,2022a;Marks等,2024)方面,關于可解釋性的研究取得了顯著進展,但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器(Transformer)的,出現了幾個關鍵問題:LLM的可解釋性方法能否適應多模態模型?如果能,它們是否能提供類似的見解?多模態模型與單模態語言模型在機制上是否存在根本的差異?此外,分析跨模態交互等多模態特有過程時,是否需要全新的方法?最后,我們還探討了可解釋性的實際影響,提出問題——多模態可解釋性方法如何增強下游應用? 為了解答這些問題,我們進行了一項全面的綜述,并引入了一個三維的多模態模型機制可解釋性分類法:(1)模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs;(2)可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法;(3)應用——分類多模態機制見解增強的實際任務。 我們的綜述綜合了現有的研究,并揭示了以下見解:(i)基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs,特別是在將視覺和文本輸入類似對待時。(ii)出現了新的多模態挑戰,如如何將視覺嵌入轉化為人類可理解的形式,這需要全新的專門分析方法。(iii)盡管可解釋性有助于下游任務,但在多模態模型中,像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。 最近,Dang等(2024)提供了一個關于MMFMs的可解釋性方法的廣泛概述,涵蓋了數據、模型架構和訓練范式。另一項并行工作(Sun等,2024)從歷史視角回顧了多模態可解釋性方法,涵蓋了2000年至2025年的研究。盡管具有啟發性,我們的工作在重點和范圍上有所不同。具體來說,我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型,分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。 我們的貢獻總結如下:

  • 我們提供了一份關于多模態基礎模型的機制可解釋性的全面綜述,涵蓋了生成式VLMs、對比VLMs和文本到圖像擴散模型。
  • 我們引入了一個簡單直觀的分類法,有助于區分單模態和多模態基礎模型中的機制方法、發現和應用,突出了關鍵的研究空白。
  • 基于LLMs和多模態基礎模型之間的機制差異,我們識別了多模態可解釋性中的基本開放挑戰和局限性,并為未來的研究提供了方向。

2. 分類法

在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節

在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。

4 多模態模型的LLM可解釋性方法

我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測

探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens

Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤

與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解

在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。

5. 專門針對多模態模型的可解釋性方法

許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM(大型語言模型)的方法不同,這些方法僅為多模態基礎模型設計和應用。這些方法包括:用于用人類可理解的語言注釋嵌入或神經元的技術(第5.1節和第5.2節);利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解(第5.3節);開發量身定制的多模態模型數據歸因方法,例如文本到圖像擴散模型(第5.4節);以及特定的可視化方法(第5.5節)。

6. 基于機制見解的多模態模型應用

在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準

在LLMs領域,已有許多可解釋性工具涵蓋了注意力分析(Nanda 和 Bloom,2022;Fiotto-Kaufman等,2024)、SEA分析(Joseph Bloom 和 Chanin,2024)、電路發現(Conmy等,2023a)、因果追蹤(Wu等,2024)、向量控制(Vogel,2024;Zou等,2023)、logit鏡頭(Belrose等,2023)和token重要性(Lundberg 和 Lee,2017)等。然而,針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou(2024d);Stan等(2024)主要聚焦于生成式VLMs中的注意力機制。Aflalo等(2022)提出了一種工具,用于可視化生成式VLMs的注意力和隱藏狀態。Joseph(2023)提出了一種針對視覺變換器(Vision Transformers)的工具,主要集中于注意力圖、激活補丁和logit鏡頭。此外,對于擴散模型,Lages(2022)提供了一種可視化生成圖像過程中的內部擴散步驟的工具。 統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中,Huang等(2024b)提出了一個基準,用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer(2024)提出了一種新方法,用于生成LLMs的可解釋性測試平臺,節省了手動設計實驗數據的時間。Nauta等(2023);Schwettmann等(2024)也提供了LLMs可解釋性的基準。然而,目前尚未有針對多模態模型的基準,這是未來的重要研究方向。 總體來說,與LLMs領域中的全面工具和基準相比,多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。


8. 主要開放挑戰

盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域,但對于多模態模型而言,它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰,重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器(Diffusion Transformers)的內部層次,用于諸如模型編輯等任務;將機制見解擴展到超出視覺問答(VQA)或簡單圖像生成的任務;開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型;探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性;設計基于機制見解的透明數據歸因方法;以及通過更深的機制理解改進多模態上下文學習。此外,擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型(例如Xie等,2024a)也是一個開放的研究方向。


9. 結論

我們的綜述回顧了多模態基礎模型(MMFMs)中的機制理解方法,包括對比性VLMs、生成式VLMs和文本到圖像擴散模型,重點關注下游應用。我們引入了一種新穎的分類法,區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外,我們還比較了語言模型和多模態模型的機制見解,識別了理解上的差距及其對下游應用的影響。

付費5元查看完整內容

相關內容

多模態推薦系統(Multimodal Recommender Systems,MRS)融合了來自用戶和物品的異構數據,如文本、圖像和結構化信息,以提升推薦性能。大語言模型(Large Language Models,LLMs)的興起為MRS帶來了新的機遇,使其具備語義推理、上下文學習(in-context learning)以及動態輸入處理的能力。與早期的預訓練語言模型(Pre-trained Language Models,PLMs)相比,LLMs 在靈活性與泛化能力方面具有顯著優勢,但同時也帶來了可擴展性和模型可訪問性等方面的挑戰。

本綜述全面回顧了LLMs與MRS交叉領域的最新研究進展,重點探討了提示策略、微調方法以及數據適配技術。我們提出了一種新的分類體系,用以刻畫融合模式,并識別可從相關推薦領域遷移的通用技術。此外,綜述還涵蓋了評估指標與數據集的概況,并指出了未來的研究方向。我們的目標是闡明LLMs在多模態推薦中的新興作用,助力該快速發展領域的后續研究。

1 引言

多模態推薦系統(Multimodal Recommender Systems,MRS)旨在整合用戶和物品的多樣化信息,包括文本、圖像、結構化數據和用戶行為等,以構建連貫的推薦流程。傳統方法,如協同過濾和神經編碼器,常面臨數據稀疏、冷啟動問題以及模態不對齊等挑戰。大語言模型(Large Language Models,LLMs)通過其預訓練知識、語義靈活性和推理階段的適應能力,為解決上述問題提供了新范式。 與早期的預訓練語言模型(Pre-trained Language Models,PLMs),如BERT或RoBERTa相比,LLMs(例如GPT-3、PaLM、LLAMA)不僅具備更豐富的世界知識,還支持高級推理能力與基于提示(prompt-based)的控制機制。這使得LLMs能在無需重新訓練的前提下處理多樣化且不斷變化的推薦輸入,尤其適用于冷啟動與跨領域場景。

本綜述旨在探討LLMs如何重塑多模態推薦系統的設計。我們聚焦于通過提示、訓練與數據適配等方式的融合(詳見第2節),這些技術也與跨模態學習中的關鍵組件相互作用,如解耦(disentanglement)、對齊(alignment)與融合(fusion)(第3節)。此外,我們還綜合近期研究進展,并指出未來的研究方向(第4節)。為進一步支持后續工作,我們附錄中提供了多模態數據集列表(附錄A.1)、評估指標結構化分類(附錄A.2)以及縮略語對照表(附錄A.3)。

**1.1 研究策略

本綜述聚焦于LLMs特有能力——推理、提示和模態適配——如何重新定義MRS的設計(第1.3節)。為保持這一焦點,我們有意弱化對傳統架構組件(如模態特定編碼器)的討論,這些已在先前綜述中被廣泛覆蓋 [69, 151]。同樣,我們也不涉及推薦系統架構的分類(如圖神經網絡、Transformers等),相關內容已在 [2, 24, 30, 54] 等文獻中詳盡討論。 相反,我們強調了以往研究中較少探討的模態,如表格數據和數值數據,并分析它們如何被集成進LLMs。此外,我們還引入了推薦系統其他分支中的方法(如序列推薦、知識感知推薦),當其LLM方法具有遷移潛力時,也被納入本綜述,以拓展MRS的設計空間并更全面地刻畫LLM與MRS的交互方式。

**1.2 與其他MRS綜述的區別

盡管已有大量關于MRS的綜述,但大多采用基于編碼器的分類方法,聚焦于模態特定編碼器、融合機制或損失函數等架構組件 [69, 151]。相比之下,我們強調LLMs帶來的范式變革,其影響超越了傳統編碼器管線。 **LLMs 超越編碼器范式。**傳統綜述往往將編碼器視為模態表示的核心機制,而LLM驅動的模型改變了這一范式。LLMs支持通過提示工程靈活處理輸入,可直接作用于多模態摘要或結構化格式(如JSON、表格文本)。這種能力將模型從靜態的編碼-解碼結構轉變為具備上下文推理、意圖理解與外部工具交互能力的動態代理。 **基于LLM功能的分類體系。**我們的分類方法不再沿用標準的架構劃分,而是基于LLM驅動的融合策略展開,包括提示策略(第2.1節)、訓練方法(第2.2節)以及數據類型適配(第2.3節),并結合其在MRS任務中的角色,如解耦與對齊(第3.1與3.2節)。這些維度能更準確地捕捉LLMs如何實現推理與跨模態對齊的新形式。 **納入可遷移的相關技術。**考慮到LLMs在MRS中的應用尚屬新興,我們拓寬視角,引入了來自鄰近推薦領域(如文本、行為推薦)中基于LLM的策略,這些策略雖未直接應用于MRS,但具有高度遷移性,從而拓展了設計空間并揭示可通用的創新模式。

**1.3 分類體系(Taxonomy)

本綜述提出了一種面向LLM與MRS融合的新型分類體系,突破了以往基于編碼器或損失函數的分類方式 [68, 69, 151]。LLMs的引入帶來了以推理能力、提示控制與推理時動態適應為核心的全新設計空間。 該分類體系將相關研究歸納為三個主要類別: 1. LLM方法(第2.1–2.3節):以LLM特有技術為特征,細分為:

提示技術(第2.1節):包括硬提示(如ID標識符)、軟提示、混合模板及推理提示; * 訓練策略(第2.2節):涵蓋微調(fine-tuning)、參數高效方法(如LoRA、QLoRA)及代理結構; * 數據類型適配(第2.3節):包括將圖像、表格、行為數據等非文本模態適配為適用于LLM輸入的結構化格式(如摘要或結構化提示); 1. MRS特定技術(第3.1–3.3節):從LLM視角重新審視MRS中的長期挑戰:

解耦(第3.1節):通過潛變量建模、對比學習或變分推斷實現模態特征的分離; * 對齊(第3.2節):同步不同模態輸入,或將外部知識嵌入與LLM表示對齊; * 融合(第3.3節):多模態信息在早期、中間或后期階段的融合策略; 1. 主要趨勢與未來方向(第4節):總結該領域的研究趨勢,探討LLMs在推薦流程中作為“推理代理”的演進角色。

此外,在附錄A.2中,我們還提供了標準與新興評估指標的結構化概覽,包括BLEURT等NLP指標以及基于LLM的評估方法;在附錄A.1中,補充了覆蓋更廣領域與模態的多模態推薦數據集。

**1.4 本綜述的貢獻

現有MRS綜述往往忽視LLMs帶來的特定挑戰與機遇。例如,Liu等人 [69] 僅在未來展望中簡要提及多模態LLMs;而聚焦PLMs的推薦綜述則多集中于BERT類架構,缺乏對LLMs上下文推理與工具增強能力的系統分析。 本綜述填補了這一空白,系統梳理了LLMs在多模態推薦中的研究進展與前沿趨勢,并引入鄰近推薦子領域中具遷移性的策略。我們的主要貢獻包括: 1. 面向LLMs在MRS中的新分類框架:提出一種全新分類法,將LLM在MRS中的融合方式劃分為提示策略、參數高效微調方法、模態適配技術與對齊策略等獨立設計軸,便于更細致地理解其機制; 1. 跨領域整合與邊界拓展:涵蓋來自文本、行為等推薦分支的相關方法,如摘要、上下文學習或推理提示,并探討其在MRS中的遷移潛力; 1. 當前趨勢梳理與研究空白識別:對當前研究熱點與未充分探索方向進行整合(第4節),明確研究收斂點與亟待突破的環節; 1. 擴展的評估指標與數據資源:提供覆蓋MRS特定目標(如多樣性、新穎性、多目標權衡)與LLM相關實踐的評估指標綜述(附錄A.2),并匯總了更全面的公開數據集資源(附錄A.1)。

付費5元查看完整內容

將強化學習(Reinforcement Learning,RL)融入多模態大語言模型(Multimodal Large Language Models,MLLMs)推理能力的研究方向正迅速發展,成為一項具有變革性的前沿課題。盡管多模態大語言模型在傳統大語言模型(LLMs)的基礎上顯著擴展,能夠處理圖像、音頻和視頻等多種模態,但在多模態輸入下實現穩健推理仍面臨重大挑戰。本文系統回顧了基于強化學習的多模態推理研究進展,涵蓋核心算法設計、獎勵機制創新以及實際應用案例。我們重點分析了兩大類強化學習范式——無價值函數方法(value-free)和基于價值函數方法(value-based),并探討了RL如何通過優化推理軌跡與對齊多模態信息來增強推理能力。此外,本文還全面梳理了主流基準數據集、評估方法以及當前研究的局限性,并提出了未來可能的研究方向,以應對稀疏獎勵、低效的跨模態推理以及真實場景部署等關鍵瓶頸。我們的目標是為有志于推進多模態時代RL推理研究的學者提供一個系統而全面的參考指南。

1 引言

大型語言模型(Large Language Models,LLMs)的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元,展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而,實現類人智能不僅需要超越基礎感知能力,更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發,情境學習(In-context Learning,ICL)技術 [112, 113, 121] 賦予了LLMs逐步推理的能力,這種機制通常被稱為“思維鏈條”(Chain-of-Thought,CoT)推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色,引發了各領域對推理能力推理時間擴展(test-time scaling)研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49],該模型進一步提高了對復雜問題的回答準確性。

在LLMs中廣泛開展的CoT研究啟發下,多模態大語言模型(Multimodal Large Language Models,MLLMs)中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索(Monte Carlo Tree Search)[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據,并通過監督微調使模型學習自主推理能力。

隨著強化學習(Reinforcement Learning,RL)理論和技術的進步,DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法(如GRPO [85])自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”(Aha Moment),表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs,并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能,在域內測試中可媲美監督微調(SFT)方法,在分布外(OOD)評估中更是超越了SFT模型。

然而,正如圖1所示,這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效,但大多數仍延續文本思維范式,忽視了在多模態場景中其他模態所扮演的關鍵角色。此外,當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案,未能覆蓋更廣泛的泛化場景問題,如無明確答案的問題。 盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110],但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白,本文系統綜述了基于RL的MLLMs推理方法,全面梳理技術發展、方法體系、實際應用與未來方向,旨在為快速演進的MLLM推理研究提供系統化的參考與指導,從而推動該領域的持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略;第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估;最后,第7節探討當前限制與未來研究方向。 本文從以下四個關鍵視角出發,系統分析MLLMs中基于強化學習的推理方法: * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略:重點分析無價值函數方法(value-free)與基于價值函數方法(value-based)的核心理念與改進方向,探討其在提升訓練效率、穩定性與推理性能方面的創新方案,比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略:從所使用的強化學習算法、獎勵機制(以準確性或結構為導向)及多模態輸入整合(包括視覺、音頻與時序信息)等維度,對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議:分析數據集的構建流程,包括數據來源、模型輸出收集及偏好標注方法,涵蓋數學、科學、空間、交互等多種類型的推理任務,并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向:討論當前面臨的挑戰,如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題,探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。

付費5元查看完整內容

推薦系統仍然是一個重要的研究領域,因其在多個領域的廣泛應用以及背后的商業潛力。隨著深度學習的興起,常見的解決方案已利用神經網絡來促進協同過濾,并且有些方法通過生成對抗網絡(GANs)來增強數據集并解決數據稀疏問題。然而,這些方法在學習復雜的用戶和物品分布時仍然存在局限性,且常常面臨模型崩潰的問題。近期,擴散模型在計算機視覺領域展現了強大的生成能力,因此許多推薦系統已開始采用擴散模型,并在多個任務上取得了性能提升。擴散模型在推薦系統中能夠有效管理復雜的用戶和物品分布,并且不容易出現模式崩潰。憑借這些優勢,相關研究的數量迅速增長,迫切需要進行系統性的綜述。 在本綜述論文中,我們提出并構建了基于擴散模型在推薦系統中的應用的分類方法,回顧了過去的研究工作。與先前基于擴散模型角色進行分類的綜述不同,我們的分類是基于推薦任務本身。這個決定源自于這樣的邏輯:采用擴散模型的最終目的是提升推薦性能,而非反過來將推薦任務調整為適應擴散模型。然而,我們也為擴散模型在推薦系統中的應用提供了一個獨特的視角,作為現有綜述的補充。我們介紹了擴散模型的基礎算法及其在推薦系統中的應用,以總結這一領域的快速發展。最后,我們討論了開放的研究方向,以促進和鼓勵進一步推動該領域的努力。相關論文已整理并發布在一個公共的GitHub倉庫中。1 引言推薦系統旨在為用戶推薦所需的項目,隨著萬維網的興起,它們已經獲得了廣泛的關注。互聯網聚集了大量的用戶,并促進了電子商務等消費領域的發展。優化推薦系統不僅能為公司帶來巨大的利潤,也能提升用戶的生活質量。作為優化推薦系統的常見方法之一,協同過濾通過考慮用戶和物品之間的相似性,為目標用戶提供推薦。然而,鑒于用戶和物品的龐大數量,用戶通常只與少部分物品進行互動,導致數據集的稀疏性[19]。稀疏數據集常常給推薦系統帶來顯著挑戰,阻礙其提供有信心的推薦。為了解決這一問題,一些系統引入了生成對抗網絡(GAN)[42]來增強數據集并增加其密度[41]。然而,生成對抗網絡通常會面臨訓練不穩定和模式崩潰的問題。此外,推薦系統中龐大且復雜的用戶和物品集合,也為捕捉復雜模式帶來了額外的挑戰。鑒于這些挑戰,探索更合適的替代方法仍然是研究的重點,例如擴散模型[57, 132],它能夠更好地建模復雜模式而沒有這些缺點。最近,擴散模型在計算機視覺領域展現了這些優勢。它們具有建模復雜分布和估計噪聲的能力。該概念最初源自非平衡熱力學[129],旨在通過計算上可處理的概率分布來建模復雜的數據分布。該模型通過迭代的前向擴散過程逐漸破壞數據分布,并生成一個生成模型,通過反向過程學習恢復該分布。隨后,NCSN[132]提出了專門使用高斯噪聲擾動數據,并估計在各個噪聲層級下擾動分布的梯度。通過朗之萬動力學采樣,生成的圖像與生成對抗網絡所產生的圖像可媲美。在此基礎上,Ho等人[57]開發了去噪擴散概率模型(DDPM),作為另一類生成模型,依賴于固定的噪聲調度。結合這些研究,推動了近年來圖像生成領域的突破性模型,包括穩定擴散(Stable Diffusion)[120]、DaLLE[118]和DreamBooth[122]。通常,擴散模型在前向過程中向數據添加噪聲,并訓練神經網絡模型來估計添加的噪聲量。在推理階段,訓練好的模型通過迭代過程預測并去除從隨機噪聲中加入的噪聲,生成最終的去噪輸出。盡管這些模型在圖像生成任務中展現了引人注目的能力,其根本原因來自于它們在處理像素的復雜分布方面的優勢。鑒于數據分布,擴散模型展現了捕捉底層分布并據此生成數據的能力。通過將輸入(例如圖像)視為一種表示,擴散模型擅長學習表示。擴散模型的另一個優勢在于其去噪網絡的靈活性。盡管U-Net模型[121]在圖像生成任務中很常見,它們可以被其他模型替代,如多層感知機(MLP)或變壓器模型[140]。該網絡的目標是作為近似器,識別擴散過程中添加的噪聲量。此外,由于擴散模型專注于優化噪聲的估計,它們不會經歷生成對抗網絡常見的訓練不穩定問題。此外,迭代的去噪過程,在每一步中都包括從標準正態分布中進行隨機采樣,引入了最終生成樣本的變異性和多樣性。這種固有的隨機性幫助擴散模型避免了模式崩潰問題,這是生成對抗網絡常見的另一個挑戰。考慮到推薦系統中的挑戰以及擴散模型的優勢,它們在提升推薦系統性能方面展現了巨大的潛力。通過近年來的相關出版物,我們可以看到擴散模型在推薦系統中的應用呈現上升趨勢,如圖1所示。盡管NCSN[132]和DDPM[57]分別于2019年和2020年提出,但直到2022年才有研究將其應用于推薦系統。從那時起,相關出版物數量逐漸增加,代表了該領域日益增長的興趣,這也促使我們開展此項綜述工作。我們旨在提供一份全面的擴散模型在推薦系統中的應用方法列表,并描述該領域的現狀,識別研究空白并鼓勵進一步的研究努力。鑒于該領域發展迅速,我們旨在為研究人員提供全面的知識,幫助他們迅速把握該領域的整體格局,同時為希望進入該領域的研究生提供指導。我們的貢獻總結如下:提供一份全面的綜述,涵蓋擴散模型在推薦系統中的廣泛應用,包括協同過濾、序列推薦、多領域推薦和負責任的推薦。詳細介紹擴散模型的技術知識,包括從原始框架和技術的改進,以提高效率。總結擴散模型在推薦系統中的應用趨勢,概括并比較其在各自應用中的算法。提供對未來研究問題和視角的展望,識別當前研究現狀中的空白。 調研方法本綜述關注的是涉及擴散模型的推薦系統,我們通過使用Google Scholar檢索相關論文,關鍵詞包括“推薦系統中的擴散模型”和“推薦中的擴散模型”。為了與圖擴散和信息擴散區分開,我們手動檢查每篇論文中的擴散定義,確保只包含那些使用與NCSN[132]或DDPM[57]相同的擴散模型的論文。此外,我們在Google Scholar中深入挖掘,直到沒有相關論文為止,并通過手動檢查每篇相關論文的相關工作部分,確保收錄所有相關文獻。最終,我們收錄了70篇涉及擴散模型在推薦系統中的應用的論文,納入本綜述中。圖2展示了按照我們的分類法對一些相關論文的時間線進行分類。相關工作在推薦系統領域,已有多項綜述涉及諸如強化學習[1]、對話式推薦系統[66]、圖神經網絡[40, 154]、自監督學習[171]、多媒體內容[29, 89]以及基于會話的推薦系統[143]等子領域。這些綜述聚焦于推薦系統的特定子集,并未涵蓋擴散模型。[28]參考文獻專注于生成模型在推薦系統中的應用,包括擴散模型。然而,只有一小部分([28]中的第2.4節)涉及擴散模型,且引用較少,仍有很大的改進空間。另一方面,專注于擴散模型的幾篇綜述則涵蓋了通用方法和應用[166]、視覺[24]、視頻[160]、醫學影像[73]以及生物信息學和計算生物學[46]等領域。Lin等人[84]對擴散模型在推薦系統中的應用進行了綜述,基于擴散模型的作用將其分為三類:數據工程與編碼、推薦模型和內容呈現。在擴散模型和推薦系統的交集處,這一分類是從擴散模型的角度出發的。盡管這些見解有其價值,但我們認為,最終推薦任務仍然是最重要的關注點,因為采用擴散模型的目的是提升推薦性能,而不是反過來調整推薦任務以適應擴散模型。因此,我們提出了一個相反且互補的視角,專注于推薦任務的分類。我們將其分為四個主要類別:協同過濾、序列推薦、多領域推薦和負責任推薦。對于協同過濾,我們進一步根據輔助信息的類型劃分子類別,包括隱式反饋、顯式評分、物品圖和用戶圖。對于序列推薦,我們將興趣點推薦(POI)視為特殊情況,并劃分為三個子類別:序列作為擴散目標和引導、序列作為擴散目標、序列作為擴散引導。對于多領域推薦,我們將多模態屬性和跨域推薦歸為一類,還包括圖像生成和文本到推薦。對于負責任推薦,我們識別了公平性、問責制、透明度和分布外(OOD)四個方面。通過這種方式,讀者可以輕松識別他們感興趣的推薦領域,并了解擴散模型在其中的多樣化應用。此外,我們還介紹了各篇論文中使用的數據集,并描述了它們各自的屬性,增強了綜述的全面性。 本文其余部分的組織結構如下:第二節介紹擴散模型的基礎知識,第三節對相關文獻進行分類并突出其特點,第四節討論用于訓練和評估相關論文的數據集,第五節揭示開放的研究方向以鼓勵未來的研究,第六節對本綜述進行總結。

付費5元查看完整內容

隨著大型語言模型(LLMs)的快速發展,使策略模型與人類偏好保持一致變得愈發重要。直接偏好優化(DPO)作為一種不依賴強化學習(RL)的替代方法,逐漸成為對齊的有前途的途徑,替代了基于人類反饋的強化學習(RLHF)。盡管 DPO 在多方面取得了進展,并且其內在的局限性也備受關注,但目前文獻中尚缺乏對這些方面的深入綜述。在這項工作中,我們對 DPO 的挑戰和機遇進行了全面回顧,涵蓋了理論分析、變體、相關偏好數據集和應用。具體而言,我們根據關鍵研究問題對近期的 DPO 研究進行了分類,以全面了解 DPO 的現狀。此外,我們提出了多個未來研究方向,以為研究社區提供有關模型對齊的見解。

1 引言

通過使用預測下一個詞的目標,基于大規模、高質量語料庫進行預訓練,耗費大量計算資源,大型語言模型(LLMs)[OpenAI, 2022; Touvron等, 2023a; OpenAI, 2024a; Jiang等, 2023]將廣泛的世界知識內化于其內部參數中,展現了令人印象深刻的語言理解和生成能力。此外,LLMs 已經擴展到支持多模態輸入,包括語言和視覺,從而催生了大型視覺語言模型(LVLMs)[OpenAI, 2023a; Liu等, 2024a; Team等, 2023; Bai等, 2023]。這些基礎模型作為通用解決方案,在廣泛的語言和視覺語言任務中表現優異,標志著向人工通用智能(AGI)邁出了重要的一步。 隨著這些基礎模型規模的擴大和性能的提升,它們仍然難以完全遵循用戶的指令(顯式目標)并實現“有幫助、誠實、無害”(隱式目標),這歸因于預訓練階段使用的下一個詞預測任務的目標不完全對齊[Leike等, 2018; Askell等, 2021; OpenAI, 2023b]。因此,在典型的后訓練階段,會進行偏好優化(例如,從人類反饋中進行強化學習,RLHF),在響應級別上對預訓練的語言模型進行對齊,以確保它們與用戶的意圖保持一致,并且保持有幫助、誠實和無害[Ouyang等, 2022a; Dai等, 2024; Sun等, 2023]。RLHF 首先在收集的人工偏好數據上訓練顯式獎勵模型。隨后,RLHF使用強化學習算法(例如,近端策略優化(PPO; Schulman等, 2017a])微調策略模型(即目標微調的LLM),以生成能夠最大化由獎勵模型評分的響應獎勵的響應,但不偏離參考模型太遠,受KL散度約束。然而,RLHF需要精心調整超參數和大量計算資源來維持強化學習訓練的穩定性。此外,一些研究還指出與此顯式獎勵建模相關的一些挑戰,例如獎勵濫用[Casper等, 2023]、獎勵錯誤指定[Pan等, 2022]和分布外泛化問題[Tien等, 2023]。 為了避免上述RLHF的限制,提出了多種不依賴強化學習的偏好優化方法。Yuan等[2023]、Dong等[2023]、Liu等[2024b]、Song等[2024]提出從策略模型中采樣多個響應,并使用經過良好訓練的獎勵模型進行評分。然后,在沒有使用強化學習算法的情況下,直接在最優的響應(稱為拒絕采樣)或通過應用排序損失微調策略模型。另一方面,從RL中帶有KL約束的獎勵最大化目標出發,直接偏好優化(DPO; Rafailov等, 2023)推導出其學習目標,特別是基于離線偏好數據的簡單最大似然目標,直接在策略模型和參考模型上進行建模,從而繞過了顯式獎勵模型訓練階段,并消除了強化學習優化的需要。實際上,DPO的優化目標等同于Bradley-Terry模型[Bradley和Terry, 1952a],其中隱式獎勵函數由策略模型本身參數化。與RLHF相比,DPO在多種應用中表現出穩定、高效且計算輕量的優勢[Rafailov等, 2023; Ethayarajh等, 2024; Ivison等, 2024]。 最近的一些研究表明,盡管避免了計算成本高昂的強化學習,DPO仍然面臨一些重大挑戰。例如,DPO中的隱式獎勵建模可能導致偏向分布外響應的策略[Xu等, 2024a; Saeidi等, 2024],離線DPO在經驗上不如在線對齊方法[Ivison等, 2024],經過對齊的模型可能會經歷所謂的“對齊成本”[Lin等, 2024a; Lu等, 2024a]。因此,近期提出了多種改進版的DPO,包括KTO[Ethayarajh等, 2024]、IPO[Azar等, 2023]、CPO[Xu等, 2024b]、ORPO[Hong等, 2024]、simPO[Meng等, 2024],以及其他方法[Lu等, 2024b; Xiao等, 2024; Zeng等, 2024]。隨著DPO的快速發展,迫切需要一篇綜合性綜述,幫助研究人員識別該領域中的新興趨勢和挑戰。我們觀察到一些關于LLM對齊的同時進行的研究與我們的工作相關[Ji等, 2023; Wang等, 2023a; Shen等, 2023]。然而,現有的綜述文章主要關注LLMs的整體對齊,包括指令微調和RLHF。它們涉及DPO的部分不足以捕捉這一領域當前快速發展的態勢。此外,這些綜述往往關注于語言模型的對齊,未能提供對DPO特定的應用和數據集的深入介紹。 為了彌補這一空白,我們在本文中對DPO的最新進展進行了全面綜述,涵蓋了相關的偏好數據集、理論分析、變體和應用。具體而言,我們根據以下研究問題對當前的DPO研究進行分類:

  • 隱式獎勵建模的效果。DPO通過建立從獎勵函數到最優策略的直接映射,避免了訓練顯式獎勵模型。因此,研究人員已經研究了DPO中隱式獎勵建模的泛化能力[Lin等, 2024b; Li等, 2024a; Yang等, 2024a; Jia, 2024]。
  • KL懲罰系數與參考模型的影響。RL和DPO的優化目標都涉及KL散度正則化,它限制了策略模型保持在參考模型的特定范圍內。因此,最近的一些研究探討了KL懲罰系數和參考模型選擇的影響[Liu等, 2024c; Xu等, 2024a; Feng等, 2024; Rafailov等, 2024a]。
  • 不同反饋的效果。DPO使用點對點獎勵和成對偏好數據提供獎勵信號。然而,獲得高質量的成對偏好數據既昂貴又耗時,影響了可擴展性。此外,實例級優化可能未充分利用偏好數據的潛力。因此,一些研究使用其他形式的反饋(例如,列表級、二元、分步、詞級等)作為優化的獎勵信號[Dong等, 2023; Yuan等, 2023; Ethayarajh等, 2024; Zeng等, 2024; Chen等, 2024a; Xu等, 2024b]。
  • 在線DPO。與在線RLHF相比,DPO利用預收集的偏好數據,屬于離線偏好優化方法。一些研究強調了在線和離線算法之間的性能差距[Tang等, 2024; Wang等, 2024a]。為了解決這一問題,最近的研究探索了DPO的迭代和在線變體,以及有效收集新偏好數據集的策略[Xu等, 2024c; Guo等, 2024a; Yuan等, 2024a; Chen等, 2024b]。
  • 獎勵濫用。獎勵濫用是強化學習中的一個長期問題,其中策略獲得高獎勵,但未能實現實際目標[Dubois等, 2024; Singhal等, 2023]。近期研究發現,無論是RLHF還是DPO,獎勵濫用都普遍存在,策略利用潛在的捷徑(例如響應長度和風格)開發特定的響應模式以“欺騙”獎勵模型[Kabir等, 2024; Wang等, 2023b; Park等, 2024]。為克服這一限制,提出了一些方法以避免此類弱點被利用[Park等, 2024; Yuan等, 2024b; Meng等, 2024; Liu等, 2024d]。
  • 對齊成本。偏好優化的目標是使模型與人類偏好保持一致。然而,先前的研究發現了所謂的“對齊成本”現象,即在對齊目標上的改進可能導致與基線模型相比的性能下降[Ouyang等, 2022a]。因此,一些研究調查了對齊成本并提出了減少其影響的方法[Lin等, 2024a; Lou等, 2024a; Guo等, 2024b]。

我們希望這篇綜述能夠幫助研究人員抓住該領域中的新趨勢和挑戰,探索DPO在對齊LLMs和多模態LLMs(MLLMs)中的潛力,并為構建更具可擴展性和普適性的DPO做出貢獻。具體而言,我們認為未來的研究應優先開發更先進的DPO變體,這些變體能夠:(i)超越實例級反饋,捕捉更細粒度和準確的獎勵;(ii)通過數據、學習目標和獎勵展示出與在線RLHF相比具有競爭力或更強的泛化能力;并且(iii)促進復雜應用的發展,如深度推理系統(例如OpenAI o1 [OpenAI, 2024b])、混合模態模型(例如Chameleon [Team, 2024])。 本文其余部分的組織結構如下。(§ 2)介紹了RLHF和DPO的背景知識。(§ 3)介紹了DPO的研究問題和不同變體。DPO使用的數據集和應用分別在(§ 4)和(§ 5)中介紹。(§ 6)討論了DPO的機遇和挑戰。最后在(§ 7)中給出了簡短的結論。

付費5元查看完整內容

最近,人工智能領域的突破推動了范式的轉變,其中具有數十億或萬億參數的大型語言模型(LLM),如ChatGPT、LLaMA、PaLM、Claude和Qwen,經過在海量數據集上的訓練,在一系列語言任務中取得了前所未有的成功。然而,盡管取得了這些成功,LLM仍然依賴于概率建模,這種建模通常捕捉到的是植根于語言模式和社會刻板印象的虛假相關性,而不是實體與事件之間的真正因果關系。這個局限性使得LLM容易受到諸如人口偏見、社會刻板印象和LLM幻覺等問題的影響。這些挑戰凸顯了將因果性整合到LLM中的緊迫性,以超越依賴相關性驅動的范式,構建更可靠且符合倫理的人工智能系統。盡管許多現有的調查和研究主要集中在利用提示工程激活LLM的因果知識或開發基準來評估它們的因果推理能力,但大多數這些努力依賴于人為干預來激活預訓練模型。如何將因果性嵌入到LLM的訓練過程中,并構建更通用、更智能的模型,仍然是一個未被充分探索的領域。最新的研究表明,LLM的功能類似于“因果鸚鵡”,它們能夠復述因果知識,但并未真正理解或應用這些知識。這些基于提示的方法仍然局限于人類干預改進。本次調研旨在填補這一空白,探索如何在LLM生命周期的每個階段——從詞嵌入學習、基礎模型訓練到微調、對齊、推理和評估——通過整合因果性來增強模型的解釋性、可靠性和因果信息。此外,我們進一步提出了六個有前景的未來發展方向,以推進LLM的開發,增強它們的因果推理能力,并解決當前這些模型面臨的局限性。

GitHub鏈接: //github.com/causal-machine-learning-lab/Awesome-Causal-LLM.

大型語言模型(LLM)是一類旨在通過利用海量數據和計算能力來處理和生成類人文本的人工智能模型[1, 2, 3, 4, 5, 6]。這些模型是基于深度學習架構,尤其是Transformer網絡[7]構建的,通常在由書籍、網站、社交媒體和其他數字文本等多樣化來源組成的大型數據集上進行訓練[1, 2, 3, 8, 9, 10, 11]。大型語言模型的關鍵特征包括: 1. 規模和大小:LLM包含數十億到數萬億的參數,這些參數是在訓練過程中模型學習的內部配置。這些模型的例子包括OpenAI的GPT-3[11]、GPT-4[12],Meta的LLaMA[2, 3],谷歌的PaLM[13],Anthropic的Claude和阿里巴巴的Qwen[14]。模型越大,其對語言的理解和生成越細致。 1. 在海量數據集上的訓練:LLM是在廣泛的文本數據集上訓練的,涵蓋了多種數據來源。這些包括公開的互聯網內容,如網站、博客和社交媒體平臺,以及更結構化和正式的來源,如書籍、學術論文和新聞文章。通過利用這種海量的文本,LLM可以學習復雜的統計模式,包括語法、語義、上下文以及實體之間的關系。 1. 能力:LLM可以直接應用于廣泛的與人類語言相關的任務,包括:

自然語言理解:LLM可以解釋和理解文本的含義,適用于問答和信息檢索等任務。 * 自然語言生成:它們可以生成連貫且上下文相關的文本,通常模仿人類的寫作風格。 * 問題解決和推理:LLM能夠進行邏輯推理并解決復雜問題。 盡管LLM具備顯著的能力,但其快速進展也引發了關于其倫理使用、內在偏見和更廣泛社會影響的重大擔憂[4, 15, 16, 17]。這些模型通常依賴從訓練數據中學到的統計相關性來生成響應,而非真正理解所提出的問題。這種局限性常常導致一些問題,如幻覺——模型生成虛假或無意義的信息,以及訓練數據中存在的偏見得到加強。這些缺陷極大地削弱了LLM在現實世界應用中的可靠性、準確性和安全性,特別是在醫療和法律等關鍵領域。在這些場景中,生成錯誤的診斷或治療建議可能危害患者的健康和安全[18, 19],而錯誤的法律信息可能會損害司法決定的公平性和合法性[20, 21]。這些風險進一步強調了持續研究的重要性,以改進這些模型的可解釋性、可靠性和倫理對齊[4, 15, 16, 17, 22]。 因果性 指的是因果關系,即一個事件直接影響另一個事件,從而解釋了為什么以及如何發生某事。與只顯示兩個變量一起變化的相關性不同,因果性建立了一個有方向的和可操作的聯系,使我們能夠理解變化背后的機制。因果性是人類智能的一個重要標志,對于科學理解和理性決策至關重要[23, 24, 25, 26]。然而,當前的LLM主要是通過捕捉統計相關性而不是因果關系進行訓練的,這限制了它們推理支配世界的潛在機制的能力。雖然LLM在語言理解、生成和模式識別任務上表現出色,但它們在需要更深層因果推理的任務上往往表現不佳。在缺乏因果理解的情況下,LLM可能生成上下文相關但邏輯上不連貫的輸出,導致潛在問題,如幻覺、偏見輸出,以及在依賴因果關系的決策任務中表現不佳。將因果性整合到LLM中至關重要,原因有三:首先,它幫助模型超越表面相關性,使其生成更可靠且可解釋的輸出。其次,因果性通過使模型能夠考慮數據中存在的混雜因素和系統性偏見,從而提高公平性,最終產生更符合倫理的預測。第三,它增強了模型處理復雜任務的能力,例如醫療診斷、政策規劃和經濟預測,在這些任務中理解因果關系至關重要。此外,因果性使LLM能夠進行反事實推理,這對于探索“假設”場景并做出明智決策至關重要[26]。總體而言,將因果推理整合到LLM中代表了朝著開發不僅能理解語言,還能以更類人和科學上更嚴謹的方式推理世界的人工智能系統邁出的重要一步。雖然許多現有的調查和研究[25, 26, 75]集中于利用提示工程激活LLM以提取因果實體、恢復事件之間的因果關系以及回答反事實問題,但大多數這些努力仍然嚴重依賴人為干預以有效利用預訓練模型。將因果性直接嵌入訓練過程以創建更智能和更具泛化能力的模型仍然是一個未充分探索的領域。除了依賴人類設計的提示外,在將因果推理整合到LLM中還出現了幾個關鍵挑戰: 1. 對非結構化文本數據的依賴(需要因果嵌入):LLM主要是在非結構化文本數據上進行訓練的,這些數據主要傳達相關性而不是明確的因果知識。在沒有結構化因果數據或因果注釋的情況下,LLM很難推斷出實體、事件和行為之間的因果動態。在大規模語料庫上訓練LLM往往導致學習的是統計相關模式,而不是因果關聯,限制了它們執行因果推理任務的能力。 1. 理解反事實的挑戰(需要反事實語料庫):因果推理通常涉及評估反事實場景——探索“如果……會怎樣”的情境,這需要模型對假設的替代方案進行推理。LLM在根據統計模式預測下一個詞時,難以推理這些反事實場景,因為它們缺乏保持某些變量不變的機制,同時改變其他變量。這限制了它們在決策或政策相關任務中進行深層因果推理的能力。 1. 基于Transformer模型的局限性(需要因果基礎模型):Transformer的注意力機制是許多LLM的基礎,旨在通過關注輸入文本的不同部分來捕捉詞語之間的交互。雖然它在建模上下文和語言結構上表現出色,但在捕捉實體和事件之間的深層因果關系方面往往表現不佳。注意力機制傾向于學習虛假相關性,使其易受人口偏見和社會刻板印象的影響,并缺乏推斷因果關系的能力。 1. 預訓練模型中的因果盲區(需要因果微調):預訓練的LLM在初始訓練過程中并未設計為優先考慮或檢測因果關系。這些模型被優化用于文本生成和補全等任務,而不需要明確的因果推理。這種“因果盲區”限制了它們在沒有微調或提示工程的情況下進行有意義的因果推理的能力,從而限制了它們在需要因果理解的實際任務中的實用性。 這表明,雖然LLM在語言處理方面取得了重大進展,但因果推理的整合仍然是一個充滿挑戰且尚未解決的前沿問題。最新的研究指出,LLM是“因果鸚鵡”,能夠復述訓練語料庫中的因果知識,但并未真正理解或推理這些知識[64]。LLM可能是已有因果知識的優秀解釋者,但不是優秀的因果推理者。當前對訓練語料中統計相關性的依賴,雖然對許多自然語言任務有效,但在需要更深層次理解因果動態的任務中,LLM表現不佳。將因果性嵌入LLM的核心訓練過程,而不是依賴人工設計的提示或事后干預,代表了推動該領域發展的關鍵下一步。為解決這一差距并整合因果性到LLM中,如表1和圖1所述 我們回顧了因果推理如何在LLM生命周期的各個階段——從詞嵌入學習、基礎模型訓練到微調、對齊、推理和評估——增強其能力。基于這些階段,我們將因果性技術在LLM中的應用分為五個不同的類別(見表1)。最后,我們概述了六個有前景的未來方向,旨在推動LLM的發展,增強其因果推理能力,并克服當前模型面臨的局限性。實現這一目標將帶來超越傳統架構的新方法,重點是捕捉語言和推理背后的基本因果關系。本文的結構如圖1所示。其余部分的安排如下:在第2節中,我們概述了LLM的最新進展,并探討了因果性與語言模型之間的潛在關系。基于在LLM開發各階段應用的因果驅動技術(見表1),我們回顧并提出了通過因果性改進LLM能力和解決相關問題的潛在方法,涵蓋了模型生命周期的五個階段:預訓練(第3節)、微調(第4節)、對齊(第5節)、推理(第6節)和評估(第7節)。最后,在第8節中,我們重點介紹了幾個有前景的未來發展方向,并在第9節對本文進行了總結。

2 大型語言模型與因果關系的背景

大型語言模型(LLM)憑借其在廣泛的自然語言處理任務中的卓越表現,迅速獲得了廣泛關注,尤其是在2022年11月ChatGPT發布之后[1, 2, 3, 8, 9, 10, 11]。這些模型令人印象深刻的語言理解和生成能力主要歸功于其在龐大且多樣化的人類生成文本數據集上的自回歸訓練。盡管LLM研究領域相對較新,但其已經經歷了快速而重大的進展,并在各個領域催生了創新[4, 22, 15, 16, 17]。然而,關于LLM如何整合或從因果推理中獲益的問題仍然大多未被探索。雖然LLM擅長識別文本中的模式和相關性,但整合因果推理可以為更健壯的決策和預測建模開辟新途徑。將因果性引入LLM不僅有潛力提升語言任務,還可以在需要因果推理的領域(如醫療、經濟學和政策分析)中應用[18, 19, 20, 21]。

2.1 什么是大型語言模型?

大型語言模型(LLM)是一類先進的機器學習架構,旨在通過在海量、多樣化的人類生成文本語料庫上進行訓練來處理和生成自然語言[4, 15]。這些模型主要利用深度學習框架,其中Transformer架構是最為突出的[7]。通過這種架構,LLM能夠建模單詞、短語和句子之間的復雜依賴關系,從而捕捉人類語言中固有的豐富語言結構[76]。LLM的變革性力量在于其能夠進行自回歸訓練,即根據所有前面的單詞預測序列中的下一個單詞。這個過程使得模型不僅生成語法正確的文本,還能在上下文上連貫一致,從而模仿人類的文本生成[4, 15, 16, 67, 2, 3]。關鍵的是,LLM在學習這些表示時不需要人為干預進行特征設計,使其在廣泛的自然語言處理(NLP)任務中具有很高的通用性。這個自監督學習范式重塑了整個領域,大大減少了任務特定模型的需求,并開啟了普遍語言理解和生成的新時代[4, 15]。與傳統機器學習任務不同,LLM的開發流程要復雜得多,涵蓋了幾個關鍵階段,包括詞嵌入、基礎模型預訓練、監督微調、通過人類反饋的強化學習(RLHF)進行對齊、基于提示的推理以及評估。以下是這些階段的概述:

  1. 詞嵌入:原始文本被轉換為模型可以處理的數值表示(嵌入)。這些嵌入捕捉了語義和句法信息,為模型的語言理解提供了基礎[8, 77]。
  2. 基礎模型預訓練:模型在大規模、多樣化的語料庫上進行廣泛的預訓練,使用自監督學習技術。在這一階段,模型學習語言模式、結構和上下文的通用理解,獲取適用于多種任務的表示,而不需要任務特定的標注[2, 12, 60, 67]。
  3. 監督微調:在預訓練階段之后,模型通過監督微調進一步在特定的標注數據集上進行訓練,以適應下游任務,如機器翻譯、文本摘要或問答。這一過程提高了模型生成特定任務輸出的精度和可靠性[78, 79, 80]。
  4. 對齊:這一關鍵階段旨在使模型的輸出與人類價值觀、倫理考慮和期望的行為保持一致。通常使用人類反饋強化學習(RLHF),通過人類判斷優化模型的響應,從而確保生成的內容更符合社會和倫理標準[81, 82, 83]。
  5. 推理:在訓練完成后,模型被部署到實際應用中,其核心操作在于提示工程。通過精心設計的輸入提示,模型利用其所學表示生成連貫的文本、檢索信息或參與各種NLP任務中的對話。提示工程在引導模型響應以更有效地滿足用戶意圖中起著至關重要的作用,確保在多種應用中獲得最佳性能[84, 85]。
  6. 評估:模型的性能在多個維度上進行嚴格評估,包括任務特定的準確性、對未知數據的泛化能力、倫理對齊和魯棒性。這些評估確保模型不僅在目標任務中表現出色,還能遵循倫理準則,并在多樣且具有挑戰性的真實世界場景中表現出韌性[86, 87]。 在過去的幾年中,LLM的發展標志著一系列里程碑模型的誕生,它們從根本上推進了我們對語言表示和生成的理解。這些模型包括但不限于OpenAI的GPT-3[11]、GPT-4[12]、Meta的LLaMA[2, 3]、谷歌的PaLM[13]、Anthropic的Claude和阿里巴巴的Qwen[14]。除了傳統的NLP任務外,LLM現在還被集成到廣泛的前沿研究和實際應用中,從科學發現和醫療保健到政策分析。它們無與倫比的處理和生成大規模語言的能力正在推動多個領域的變革性進展,凸顯了它們在塑造AI驅動創新未來中的關鍵作用[88]。

因果性在預訓練中的應用

預訓練是大型語言模型(LLM)訓練流程中的基礎階段,為模型提供了可以應用于廣泛下游任務的基本語言理解能力。在這一階段,LLM接觸到大量通常未標注的文本數據,通常是在自監督學習環境下進行的。其目標是使模型能夠學習可泛化的語言模式和表示。預訓練方法有多種,包括下一詞預測(自回歸語言建模)、下一句預測、掩蔽語言建模以及專家混合(Mixture of Experts, MoE)等廣泛使用的技術。在本節中,我們首先回顧幾種傳統的預訓練模型,包括BERT[8]、T5[9]、BLOOM[1]、GPT[10, 11]和LLAMA[2, 3],以介紹LLM的模型架構。然后,我們將深入探討基礎模型預訓練中因果性的三個關鍵方面:(1) 去偏的詞嵌入,(2) 反事實訓練語料庫,(3) 因果基礎模型框架。

因果性在微調中的應用

為了使預訓練的基礎模型在特定和通用任務中發揮作用,微調是必不可少的。在監督微調(SFT)中,模型通過使用標注數據進行優化,以適應特定任務。盡管現代大型語言模型(LLM)通常可以在無需微調的情況下處理任務,但在優化任務特定或數據特定需求時,微調仍然是有益的。微調和預訓練共享一些共同的元素[33, 32, 31],例如特征提取,并且可以結合因果特征提取和反事實數據增強等高級方法。然而,兩者的主要區別在于訓練語料庫的規模和對特定任務的關注點。在本節中,我們將回顧幾種在微調階段有效應用的因果技術。這些方法旨在通過關注數據中潛在的因果關系來增強模型的泛化能力,確保微調不僅限于相關性,還能捕捉更深層次的、與任務相關的洞察[41, 42, 43, 44, 45]。

因果性在對齊中的應用

AI對齊(Alignment)是引導AI系統行為與人類目標、偏好和倫理標準保持一致的過程。這一點尤為重要,因為盡管大型語言模型(LLM)在預訓練階段主要用于完成諸如預測句子中下一個單詞的任務,但它們可能無意中生成有害、毒性、誤導或帶有偏見的內容。通過將AI系統與人類價值觀對齊,我們可以減少這些風險,確保模型生成更安全、可靠且符合倫理的輸出。為實現對齊,已經開發了多種技術,包括近端策略優化(Proximal Policy Optimization, PPO)[113],這是一種強化學習方法,旨在提高策略更新的穩定性和效率,通常用于在對齊過程中優化模型。通過人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[114],模型根據人類對其輸出的評估進行調整,引導其生成更符合人類偏好的響應。最近,直接偏好優化(Direct Preference Optimization, DPO)[115]被引入,用以直接調整模型以更好地匹配人類的偏好,而無需使用強化學習的復雜性。

因果性在推理中的應用

自然語言是知識和信息的存儲庫,主要用作交流工具,而不是思維的媒介[116]。大型語言模型(LLM)經過大規模的人類語言網絡訓練后,可以復述知識以應對各種語言任務,但它們仍然不知道如何應用這些知識或獨立思考。因此,需通過人為干預提供“深思熟慮”的提示,來引導LLM,從而塑造它們的響應,確保整合相關知識和推理。這些過程被稱為“提示工程”(Prompt Engineering)[84, 85]。為了提高LLM響應的可靠性和深度,最近的研究提出設計因果提示或因果鏈式推理,這些提示能夠激活LLM,召回因果知識并將其整合到響應中,從而提供更準確和有洞察力的答案[32, 49, 50, 51, 54, 57, 65, 66]。在圖3中,我們將這些研究分為四個不同的類別,分別關注因果性提示在不同任務中的LLM推理應用。這些包括用于因果發現、因果效應估計、反事實推理和去偏提示的精心設計的提示。在表4.1-4.4中提供了這些提示的詳細示例。

結論

在本文中,我們全面回顧了如何在大型語言模型(LLM)生命周期的各個階段——從詞嵌入、基礎模型訓練到微調、對齊、推理和評估——整合因果推理以提升其能力。我們重點探討了幾個關鍵領域:在預訓練階段使用去偏的詞嵌入和反事實訓練語料庫以減輕偏差并改進因果特征學習;在微調階段采用因果效應調優(Causal Effect Tuning, CET)和反事實蒸餾(Distilling Counterfactuals, DISCO)等技術,既保留基礎知識,又使模型適應需要更深層次因果推理的領域特定任務;在對齊策略中,采用因果偏好優化(Causal Preference Optimization, CPO),利用因果推理將倫理考慮與用戶偏好對齊。此外,我們還討論了因果發現方法的應用,以通過區分相關性與因果關系來增強推理能力,以及整合反事實推理以促進更具反思性和適應性的決策過程。 最后,我們提出了六個有前景的未來方向,以進一步提升LLM的因果推理能力。將因果推理整合到LLM中代表了一種范式轉變,使模型能夠超越純粹的統計相關性,參與結構化的因果推理。盡管像ChatGPT、LLaMA、PaLM、Claude和Qwen這樣的傳統模型在通過識別大型數據集中的詞級模式來理解和生成語言方面表現卓越,但它們在需要深刻因果理解的任務中往往表現不佳。這些模型在區分政策分析、科學研究和醫療等領域中至關重要的潛在因果關系方面存在困難。通過嵌入因果推理,LLM能夠提供更可靠且具有上下文意義的輸出,尤其是在準確的因果理解至關重要的高風險領域中。 因此,將因果性整合到LLM中標志著人工智能研究中的一個重要前沿,使這些模型能夠推理因果關系,并生成不僅更加準確,而且在上下文中更為適當且健全的輸出。將因果知識貫穿于模型的整個生命周期——從預訓練、微調到推理和對齊——使LLM能夠超越模式識別,解決現實世界問題的復雜性,從而實現更深層次的推理。該因果驅動的方法解鎖了LLM在醫療、科學發現和政策制定等關鍵領域做出重大貢獻的新潛力,在這些領域,辨別因果關系對于做出明智決策至關重要。

付費5元查看完整內容

Transformer模型在各類人工智能領域取得了顯著進展,包括自然語言處理、計算機視覺和音頻處理。這一成功自然引起了學術界和工業界研究人員的廣泛關注。因此,許多Transformer變體(通常稱為X-former)被開發用于這些領域。然而,針對這些特定模態轉換的全面而系統的審查仍然缺乏。模態轉換涉及將數據從一種表示形式轉化為另一種形式,模仿人類整合和解釋感官信息的方式。本文對應用于文本、視覺和語音等主要模態的基于Transformer模型進行了全面回顧,討論了它們的架構、轉換方法和應用。通過綜合模態轉換領域的文獻,這篇綜述旨在強調Transformer在推動AI驅動的內容生成和理解中的多樣性和可擴展性。

人工智能(AI)受人類感知能力的啟發,例如視覺、聽覺和閱讀,并試圖復制這些能力。通常,模態與特定的傳感器相關聯,形成一個獨特的通信通道,如視力、語音和書面語言。人類在感官感知中具有一種基本過程,能夠通過整合來自多個感官模態的數據,在動態和不受約束的情況下高效地與世界互動。每個模態作為信息的獨立來源,具有其獨特的統計特征。例如,一張描繪“大象在水中嬉戲”的照片通過無數像素傳遞視覺信息,而類似的文字描述則使用不同的詞語來傳達這一場景。同樣,聲音可以通過頻譜圖或語音特征來傳達相同的事件。數據轉換AI系統必須接收來自特定模態的輸入,處理、理解并以不同的模態再現其內容,模仿人類的感知方式。模態轉換(MC)是一種廣泛的方法,用于構建能夠從一種表示模態中提取并轉換信息到另一種模態的人工智能模型。

基于Transformer的(TB)技術通過利用其先進的注意力機制,準確地表示和轉換各種形式的輸入,極大地改變了數據從一種模態轉換到另一種模態的過程。這些模型在將文本轉換為語音、語音轉換為文本、語音轉換為圖像、圖像轉換為文本,甚至跨模態翻譯(如從文本生成圖像)等任務中表現出色。Transformer通過捕捉各種數據模態間的復雜依賴關系和上下文交互,促進了順暢且高度精確的轉換。由于其適應性和可擴展性,它們在擴展自然語言處理、計算機視覺和多模態數據集成的應用中起到了關鍵作用,推動了AI驅動的內容生產和理解的進步。

? 相關綜述:許多綜述已經探討了基于Transformer(TB)模型在文本處理、計算機視覺和語音處理領域的應用。這些綜述通常回顧了專注于單一模態的研究論文,處理輸入數據以生成特定應用所需的輸出。同時,還有一些關于數據融合的綜述,旨在整合來自不同模態的數據。這些論文通常回顧了各種類型的融合模型和輸入類型,如文本、視覺和語音。例如,Davis等人關于使用Transformer進行多模態學習的綜述探討了多種模態協同使用的情況,展示了在需要從多種數據源中獲得全面理解的任務中所取得的顯著改進。總的來說,目前還沒有一篇綜述全面回顧不同模態(文本、視覺和語音)間的數據轉換相關的文獻。

?** 論文貢獻**:在本文中,我們對用于數據模態轉換的基于Transformer的模型進行了全面回顧。我們重點關注三個主要模態:文本、視覺和語音。對于每個Transformer模型,輸入可以是這些模態中的任何一種,而輸出可以是相同或不同的模態。例如,給定文本輸入,輸出可以是翻譯后的文本(機器翻譯)、圖像(故事可視化)或語音。同樣,對于視覺和語音輸入,輸出也可以轉換為其他任一模態。我們系統地回顧了所有使用基于Transformer模型進行模態轉換的相關文獻(見圖1)。

?** 范圍**:我們的綜述限制在2017年至2024年間發表的論文,因為Transformer技術是Vaswani等人在2017年提出的,相對較新。聚焦于這一時期使我們能夠包含與模態表示和轉換相關的最新和最相關的Transformer進展。引用分析顯示,從2017年到2024年,共有95種方法,其中在2020年至2024年間的興趣達到了高峰。本綜述旨在通過整合這些領域中最先進的Transformer模型,為研究人員和實踐者提供服務。 本綜述的其余部分結構如下:第二部分匯集了所有關于TB模型的相關綜述。第三部分介紹了Transformer的架構和關鍵組件。第四、五、六部分分別回顧了以文本、視覺和語音為輸入的TB模型,其輸出可以是這三種模態中的任何一種。第七部分討論了Transformer的其他可能引起研究人員興趣的方面,并總結了本文的內容。

付費5元查看完整內容

隨著大規模預訓練模型的廣泛應用,自然語言處理的各領域(如文本分類和機器翻譯)均取得了長足的發展.然 而,受限于預訓練模型的“黑盒”特性,其內部的決策模式以及編碼的知識信息被認為是不透明的.以 OpenAI 發布的 ChatGPT 和 GPT-4 為代表的先進預訓練模型為例,它們在各領域取得重大性能突破的同時,由于無法獲知其內部是否真正 編碼了人們期望的世界知識或語言屬性,以及是否潛藏一些不期望的歧視或偏見現象,因此仍然無法應用于重視安全性和 公平性的領域.近年來,一種新穎的可解釋性方案“探針任務”有望提升人們對預訓練模型各層編碼的語言屬性的理解.探針 任務通過在模型的某一區域訓練輔助語言任務,來檢驗該區域是否編碼了感興趣的語言屬性.例如,現有研究通過凍結模型 參數并在不同層訓練探針任務,已經證明預訓練模型在低層編碼了更多詞性屬性而在高層編碼了更多語義屬性,但由于預 訓練數據的毒性,很有可能在參數中編碼了大量有害內容.本篇綜述中,我們首先介紹了探針任務的基本范式,包括任務的 定義和基本流程;然后對自然語言處理中現有的探針任務方案進行了系統性的歸納與總結,包括最常用的診斷分類器以及 由此衍生出的其他探針方法,為讀者提供設計合理探針任務的思路;接著從對比和控制的角度介紹如何解釋探針任務的實 驗結果,以說明探測位置編碼感興趣屬性的程度;最后對探針任務的主要應用和未來的關鍵研究方向進行展望,討論了當 前探針任務亟待解決的問題與挑戰.

付費5元查看完整內容

數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。

在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。

在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。

盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容
北京阿比特科技有限公司