亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基礎模型(Foundation Models)最早于 2021 年提出,是指大規模的預訓練模型(如大語言模型(LLMs)和視覺-語言模型(VLMs))。這些模型通過無監督方法從海量的未標注數據中學習,使其在多種下游任務中表現卓越。例如,GPT 等基礎模型可以適應各種應用場景,如問答系統和視覺理解,相較于傳統的任務專用 AI 模型具有更強的泛化能力,因此得名“基礎模型”,體現了其在多個領域的廣泛適用性。 生物醫學基礎模型的出現標志著人工智能(AI)在解析復雜生物現象、推進醫學研究與臨床實踐方面邁出了重要一步。本綜述探討了基礎模型在生物醫學領域的多種應用,包括計算生物學、藥物發現與開發、臨床信息學、醫學影像以及公共健康等方向。本文的目標是激發研究人員進一步探索基礎模型在健康科學中的應用潛力,推動該領域的持續發展。

1 引言(Introduction)

“基礎模型”(Foundation Model)這一術語最早于 2021 年提出 [1],通常指大語言模型(LLMs)和視覺-語言模型(VLMs)。這些模型基于大規模數據集進行預訓練,通常采用無監督學習方法,使其能夠勝任多種下游任務。通過從海量未標注數據中學習,基礎模型具備了強大的能力,可將輸入映射到潛在嵌入空間,從而能夠無縫適配各種任務,并持續優于傳統的任務專用 AI 模型 [2,3]。例如,GPT [4] 經過大規模語言與視覺數據的預訓練,在問答系統、信息檢索和視覺理解等任務中均表現出色。由于其變革性的潛力和廣泛的適用性,這些模型被統稱為“基礎模型”。 基礎模型的興起與發展可歸因于以下幾個關鍵因素:

  1. 海量未標注數據:雖然數據資源極其豐富,但監督訓練由于標注成本高昂而難以實現 [1]。
  2. AI 模型規模增長:AI 模型架構日趨龐大,但有限的標注數據限制了其充分利用模型能力 [5]。
  3. 通用化的擴展規律:研究發現,通過大規模訓練,模型性能會隨著模型尺寸、數據規模和計算資源的增加而穩定提升 [6]。
  4. 高效的下游任務適配:預訓練后,只需少量標注數據進行高效微調,即可在特定任務上超越傳統任務專用 AI 模型。

在自然語言和圖像處理領域,基礎模型(如 GPT 和 Claude)的成功,使得其在醫療健康領域的應用成為了直觀的延展方向。基礎模型在醫療健康中的應用涵蓋多個子領域:

  • 計算生物學:基礎模型的卓越自然語言處理能力可以促進計算生物學的發展。DNA、RNA 和蛋白質序列可被視為一種“自然語言”,基礎模型能夠學習其潛在模式,從而深入解析基因組信息。
  • 藥物發現與開發:基礎模型可加速靶點識別、優化分子設計,并預測分子間的相互作用與性質,從而降低新藥開發的時間和成本 [7]。
  • 臨床信息學:基礎模型能夠高效處理數百萬乃至數十億條臨床與患者數據(包括結構化和非結構化數據),提取癥狀模式,從而提升疾病評估能力,并助力個性化治療方案的制定。
  • 醫學影像分析:基礎模型可用于醫學影像的分割、異常檢測及跨模態(如 MRI、CT)診斷預測 [8],從而提高診斷準確性并優化醫療工作流。
  • 公共健康:基礎模型在疾病監測、流行病建模、錯誤信息檢測等方面的應用,有助于制定更有效的公共健康干預措施。

因此,生物醫學基礎模型正在不斷拓展應用邊界,為臨床醫生、研究人員和患者提供更強的支持。 本綜述旨在回顧現有生物醫學基礎模型的研究進展,概述其發展歷程,總結當前面臨的挑戰,并探討潛在的研究方向,以為健康科學領域的研究人員提供理論基礎。具體而言,本文將重點討論基礎模型在計算生物學、藥物發現與開發、臨床信息學、醫學影像和公共健康等多個生物醫學領域的應用(見圖 1)。

2 計算生物學(Computational Biology)

**

**

分子生物學的中心法則(central dogma)提供了一個基礎框架,描述了遺傳信息在生物體內的流動過程 [9](圖 2)。基因組信息以 DNA 形式編碼,并轉錄(transcription)為 RNA,隨后翻譯(translation)為蛋白質。這個過程將 DNA 的四種核苷酸代碼轉換為由 20 種氨基酸組成的蛋白質代碼,而蛋白質最終折疊成三維結構,以執行各種細胞功能。理解中心法則對于推進遺傳學、醫學、生物技術和進化生物學的發展至關重要,同時也是基因工程、基因治療和藥物開發等創新領域的基石。因此,諸如三維染色質遺傳信息、RNA 介導的基因表達譜,以及支撐細胞功能的蛋白質結構等主題,構成了計算生物學的核心內容。本節探討基礎模型(foundation models)在這些領域的應用,包括基因組信息、基于 RNA 的基因表達譜分析,以及蛋白質結構與功能的研究。


基因組信息(Genome Information)

盡管編碼蛋白質合成的遺傳密碼是通用的,但調控基因表達時間和方式的調控代碼在不同細胞類型和生物體之間存在差異 [10]。這種調控代碼主要存在于非編碼 DNA 區域,后者約占整個基因組的 98%,其中包含關鍵的功能元件,如增強子(enhancers)、啟動子(promoters)和絕緣子(insulators)。這些元件在調控基因表達和抑制過程中發揮重要作用,因此研究非編碼 DNA 對于理解基因調控、個體發育、疾病機理和進化過程至關重要。 鑒于 DNA 的巨大潛力和影響,研究者們開發了基礎模型來增強我們對 DNA 語言的理解。例如,BigBird [11] 率先在 DNA 序列編碼方面提出了一種基于 Transformers 的方法,能夠處理更長的序列。在此基礎上,一系列 DNA 語言模型相繼問世,并在多個下游任務(如 RNA 表達預測、增強子活性預測等)中展現了強大的能力。其他相關研究列于表 1。為了公平比較不同的模型,GenBench [12] 提出了一個全面的基準測試套件,以評估不同的基因組基礎模型。 除了 1D DNA 序列研究外,HiCFoundation [13] 最近被提出用于研究 3D DNA 及其功能意義。結合這些基礎模型的研究,有助于深入理解基因組序列與結構對基因調控和表達的影響。


RNA 介導的基因表達譜(Gene Expression Profiles by RNA)

基因表達譜 [14] 是研究基因動態活動的重要工具,能夠直接反映基因活性。通過對不同樣本或條件下 RNA 分子的豐度進行定量和比較,基因表達譜分析可以識別哪些基因被激活或抑制、哪些基因具有差異表達,或者哪些基因參與特定的生物過程。 傳統的整體 RNA 測序(bulk RNA-seq)提供的是樣本的平均基因表達水平,但這可能掩蓋細胞異質性,導致關鍵信息的丟失。相比之下,單細胞 RNA 測序(scRNA-seq)能夠在單細胞水平上解析基因表達模式,為研究細胞多樣性和變異性提供了更細粒度的信息。SCimilarity [15] 是單細胞基因表達分析領域最具代表性的基礎模型之一,能夠在不同單細胞 RNA 測序數據集中比較轉錄相似的細胞。其他相關基礎模型列于表 2。這些模型所生成的基因和細胞嵌入(embeddings)極大地促進了我們對不同細胞類型基因表達動態的理解,并在揭示個體發育、疾病機制和治療反應的分子基礎方面展現出巨大潛力。


蛋白質結構與蛋白質設計(Protein Structure and Protein Design)

預測蛋白質的三維結構和功能在解析生物學過程方面發揮著關鍵作用 [16]。蛋白質的三維結構決定了其具體功能,例如催化化學反應、傳遞信號等。準確的結構預測能夠揭示疾病的分子基礎,并進一步指導藥物發現。近年來,計算方法為填補蛋白質結構知識的空白、揭示分子層面的生命復雜性提供了一種高效且可擴展的方式。 AlphaFold2 [17] 作為高精度蛋白質結構預測的大規模模型,已在結構生物學領域引發革命。它能夠以接近實驗水平的準確度預測蛋白質結構,大幅加速了人們對蛋白質功能和相互作用的研究。在蛋白質結構預測取得突破的基礎上,蛋白質設計(protein design)也迅速發展為一個互補學科,研究人員可以通過計算方法創造或改造具有特定功能或性質的蛋白質。蛋白質設計使得新型酶、治療性分子和藥物的開發成為可能,為醫學、生物技術和合成生物學提供了新的解決方案,從而推動疾病治療和可持續工業流程的發展。 最近的研究進一步推動了大規模模型和基礎模型在蛋白質結構預測與蛋白質設計方面的應用,相關進展總結于表 3。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

多模態大型語言模型(Multimodal Large Language Models,MLLMs)已迅速發展,超越了文本生成的范疇,如今能夠覆蓋圖像、音樂、視頻、人類動作以及三維物體等多種輸出模態。它們通過在統一架構下將語言與其他感知模態整合,實現了跨模態的生成能力。本文綜述將六大主要生成模態進行分類,并探討了若干核心技術——包括自監督學習(Self-Supervised Learning, SSL)、專家混合機制(Mixture of Experts, MoE)、基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)以及思維鏈提示(Chain-of-Thought, CoT)——如何賦能跨模態能力。我們分析了關鍵模型、架構趨勢及其涌現的跨模態協同效應,并重點指出了可遷移的技術路徑與尚未解決的挑戰。諸如 Transformer 和擴散模型等架構創新為這種融合奠定了基礎,使得跨模態遷移與模塊化專精成為可能。本文還總結了跨模態協同的最新發展趨勢,并指出了評估方式、模塊化設計及結構化推理等方面的開放性難題。該綜述旨在提供一個關于 MLLM 發展的統一視角,并指明實現更通用、可適應、可解釋的多模態系統的關鍵路徑。

1 引言

自 2022 年底首次亮相以來,基于文本的大型語言模型(Large Language Models,LLMs)已成為人工智能領域的基礎支柱。這些模型不僅重塑了人工智能的格局,也深刻融入了我們的日常生活。它們的演進推動了自然語言處理、人機交互以及多模態應用等方面的創新,為各個領域的無縫集成鋪平了道路。隨著發展,LLMs 已從最初的簡單文本生成模型,演進為支持上下文學習(in-context learning)【16, 109, 149, 51】、指令跟隨(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的復雜系統,正在重塑我們與計算機交互、完成任務和創造數字內容的方式。

然而,智能并不局限于語言本身。人類通過豐富的模態——文本、視覺、音頻、動作等——來感知和理解世界。硬件的進步使得機器具備了處理、解釋和生成這些多樣化數據流的能力。這一技術趨勢正推動研究社區邁向更加整體化的多模態方法,促使人工智能與人類復雜的感知方式更緊密對齊。因此,先進模型不僅擅長理解和生成文本,還能將文本與視覺結合【123】,或與音頻整合【40】。這種演進也體現在輸出形式上,它們正日益呈現出多模態和通用化的特征,突破了傳統單一模態的響應模式。如今的模型常常以混合類型的數據作為輸入【109, 147】,這一多模態集成正在推動人工智能系統逐步理解現實世界的復雜性【1】,不斷逼近人類通用理解的能力。

雖然文本依然是這些模型處理的核心要素,但其生成能力已擴展至多個輸出模態。為更好地理解這種多樣性,本文提出了一個全新的分類方式,將多模態大型語言模型(Multimodal Large Language Models,MLLMs)的主要生成輸出劃分為六大關鍵類別:

文本生成文本(Text-to-Text, T2T):為所有語言類任務及自然語言處理的基礎,支撐著信息檢索、摘要生成、翻譯與對話系統。

文本生成圖像(Text-to-Image, T2I):用于視覺內容的生成與分析,是各類視覺生成任務的核心。 * 文本生成音樂(Text-to-Music, T2M):音樂是一種復雜的聽覺媒介,包含多種樂器與情感表達,其建模難度高于一般音頻。 * 文本生成視頻(Text-to-Video, T2V):結合時間與視覺信息以生成動態場景,涉及現實物理規律,類似一個世界模型。 * 文本生成人類動作(Text-to-Human-Motion, T2HM):廣泛應用于動畫、機器人與虛擬人等場景,是實現直觀人機交互的重要方式。 * 文本生成三維物體(Text-to-3D-Objects, T2-3D):對虛擬現實、游戲與設計等應用至關重要,有助于在沉浸式環境中實現想象與交互。

這六大類別代表了當前生成模型所涉及的主要模態,每種模態對應一種獨特的數據輸出形式與應用場景。本文將音樂單獨歸為 Text-to-Music(T2M),而非更廣義的 Text-to-Audio,這是因為語音與文本關系密切,本質上是一種可直接相互轉換的形式;而音樂則擁有與語言截然不同的結構、節奏、和聲與創作元素,建模復雜性更高,因此值得單獨對待。通過明確劃分這些能力,我們希望強調生成模型所能覆蓋的廣泛輸出范式,每種模式既有獨特的應用場景,也伴隨著專屬的技術挑戰。

支撐這些多模態生成能力的,是一系列基礎性的架構創新,主要包括 Transformer【152】及其核心的注意力機制【5】,以及在眾多視覺生成任務中表現突出的擴散模型(diffusion models)【106】。隨著模態復雜度的不斷提升,人工智能系統所需應對的問題日益復雜,模型結構與訓練方法也在不斷演進。這種演進往往是解鎖模型涌現能力的關鍵【165】。其中有四項技術在提升模型推理能力方面起到了決定性作用:三項主要用于訓練階段,分別是自監督學習(Self-Supervised Learning,SSL)【121】、專家混合機制(Mixture of Experts,MoE)【62】以及基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)【26】;第四項是用于推理階段的思維鏈提示(Chain-of-Thought,CoT)【164】。

自監督學習(SSL):在訓練階段使模型從海量未標注數據中學習,通過預測輸入中被遮蔽的信息,建立起對語言、模式與世界知識的基礎理解,為復雜推理提供必需支持。 * 專家混合機制(MoE):通過選擇性激活不同“專家”子網絡,以較低的計算開銷顯著提升模型容量,能更高效地學習多樣知識與復雜模式,是增強高級推理能力的關鍵手段。 * 基于人類反饋的強化學習(RLHF):一種訓練階段的微調方法,使模型更符合人類偏好與行為預期。通過人類排名數據訓練,RLHF 能提升模型輸出的一致性、可靠性與指令理解能力。 * 思維鏈提示(CoT):在推理階段引導模型生成一系列中間步驟,以增強多步推理能力。這種顯式的思維過程有助于更準確且透明地處理復雜問題。

已有的綜述文獻也為理解 MLLMs 的發展提供了重要參考。[8] 提出了多模態學習的核心框架,并總結了代表性挑戰,包括表示學習、模態翻譯、模態對齊、模態融合與協同學習,奠定了 MLLM 研究的基礎。[17] 評述了以視覺為中心的 MLLMs,涵蓋其架構、模態對齊策略以及視覺定位、圖像生成等應用。[183] 關注多模態模型中的人類偏好對齊機制,[30] 則深入探討了模型的可解釋性與可理解性,是可信 AI 的關鍵因素。[182] 詳盡梳理了 MLLMs 在粒度、多模態與多語言覆蓋及應用場景上的演進,并進一步推進了如多模態上下文學習、思維鏈推理、LLM 輔助視覺理解等新方法。[95] 系統地回顧了 MLLMs 在多種模態下的應用與安全性問題,[158] 則深入探討了多模態思維鏈推理(Multimodal Chain-of-Thought, MCoT)在不同任務中的潛力。

為全面理解這一不斷演化的研究圖景,本文結構如下:第 2 節介紹背景知識與基本概念,并定義本文的綜述范圍與方法論;第 3 節對前述六大生成模態(T2T, T2I, T2M, T2V, T2HM, T2-3D)的歷史發展進行梳理;第 4 節討論四項核心技術(SSL, MoE, RLHF, CoT)的發展過程與關鍵作用;第 5 節綜合分析跨模態的趨勢、面臨的挑戰以及架構層面的共性,探索模態與技術之間的協同效應;第 6 節展望未來研究方向,如擴展 SSL 至新模態、模塊化專家機制、以及非文本模態的思維鏈推理等;第 7 節總結全文核心觀點,并探討通向統一多模態系統的發展路徑。

付費5元查看完整內容

圖結構數據廣泛存在于社交網絡、生物系統、知識圖譜和推薦系統等領域。盡管基礎模型已通過大規模預訓練和強泛化能力在自然語言處理、計算機視覺和多模態學習中取得了革命性進展,但將這些能力擴展到圖數據上——該數據具有非歐幾里得結構和復雜的關系語義——仍面臨獨特挑戰,同時也帶來了新的機遇。為此,圖基礎模型(Graph Foundation Models, GFMs)旨在為結構化數據賦予可擴展的通用智能,從而支持跨圖任務和跨領域的廣泛遷移。 本綜述系統地回顧了GFMs的發展現狀,并提出一個統一的模塊化框架,將現有多種研究工作歸納為三個核心組成部分:主干架構預訓練策略適配機制。我們依據GFMs的泛化范圍將其分類為通用型任務特定型領域特定型三大類,并在每一類別下回顧具有代表性的方法、關鍵創新與理論洞察。 除了方法論,我們還探討了GFMs的理論基礎,包括可遷移性涌現能力,并指出當前面臨的核心挑戰,如結構對齊異質性處理可擴展性評估機制。GFMs位于圖學習與通用人工智能的交匯點,有望成為在結構化數據上進行開放式推理的基礎性基礎設施。 本綜述匯總了當前的研究進展,并展望了未來的發展方向,旨在為該快速演進的研究領域提供有價值的參考與指導。相關資源可訪問://github.com/Zehong-Wang/Awesome-Foundation-Models-on-Graphs。 在機器學習領域,實現“一模型通用”(one-model-fits-all)的范式一直被視為最具雄心和變革性的目標之一。該愿景旨在構建高度可泛化的模型,能夠在無需大量任務特定架構設計或訓練的情況下,勝任多個領域的廣泛任務。歷史上,機器學習一直以針對特定數據模態和任務目標的專用模型為主導[1],通常依賴手工設計的特征[2]和依賴領域的優化策略[3]。從早期的基于規則的系統和線性分類器,到深度學習的崛起,機器學習的發展體現了在表示學習、可擴展性和任務性能方面的持續提升[4, 5]。 傳統模型如決策樹、支持向量機(SVM)和k近鄰(KNN)在低維度、結構化環境中表現良好,但在處理高維、非結構化或多模態數據時面臨挑戰。深度學習模型的出現——如用于視覺的卷積神經網絡(CNN)[6]和用于序列數據的循環神經網絡(RNN)[7, 8]——顯著提升了感知任務的表現。然而,這些模型仍需進行任務特定的微調、架構調整,并依賴大規模標注數據以實現穩健的泛化能力。 隨著遷移學習[9]和自監督學習[10]的發展,模型可以從大規模未標注數據中學習具有廣泛可遷移性的表示,標志著范式的重大轉變。這些進展為**基礎模型(foundation models)**的出現奠定了基礎,后者通過在海量數據上訓練以獲取通用知識,能夠快速適配各種下游任務。 基礎模型的核心特征包括其規模性、通用性以及跨異構數據源的預訓練能力。它們被設計為捕捉可遷移的歸納偏置,使得在極少的任務監督下也能實現強大的性能表現。擴展法則(scaling laws)[12, 13]與數據驅動的學習范式推動了基礎模型在自然語言處理、計算機視覺、機器人等多個領域的成功。例如,大型語言模型(LLMs)[14, 15]通過將文本分詞處理,并將翻譯、摘要、推理等任務建模為自回歸的下一個token預測問題。同樣地,大型視覺模型(LVMs)[16, 17, 18]將視覺輸入視為token序列,使用基于Transformer的架構處理圖像問答、圖像描述或圖像生成任務。這些模型展現出驚人的零樣本(zero-shot)與小樣本(few-shot)泛化能力,能夠在無需大規模微調的情況下快速適應新任務。 在這一背景下,**圖基礎模型(Graph Foundation Models, GFMs)**的興起(見圖1)旨在將上述能力拓展至圖結構數據——這一具有關系依賴、排列不變性和非歐幾里得幾何特征的關鍵但本質上不同的數據模態[19, 20, 21]。GFMs致力于為各種基于圖的應用場景提供統一、可預訓練、可適配的解決方案,涵蓋從分子性質預測、知識圖譜推理到社交網絡分析和推薦系統等任務。

例如,OFA[22]在包含文本屬性的八個圖(TAGs)上運行,這些圖涵蓋引文網絡、Wikipedia網絡、知識圖譜和分子圖等,每個節點都附帶文本描述。通過共享的文本編碼器,OFA將節點描述映射至統一的嵌入空間,實現跨圖節點特征的對齊。為了彌合預訓練與下游任務之間的鴻溝,它引入了提示圖機制(prompt graph mechanism)以增強任務適配能力。類似地,GFT[23]通過將圖數據建模為計算樹來識別可遷移模式,借助樹結構重建任務對齊跨圖的節點表示,從而捕捉跨領域的泛化能力。GFT的一項關鍵創新是構建可遷移的樹結構詞表,編碼在不同圖域中共享的結構模式。 除了這些通用模型,還存在許多為特定任務(如節點分類[24, 25]、異常檢測[26]、推薦系統[27])或特定領域(如知識圖譜[28, 29]、分子圖[30, 31]、計算圖[32, 33])而設計的GFMs。 已有綜述。 盡管GFMs研究迅速發展,且受到了越來越多的關注,但當前文獻中仍缺乏一部全面、系統的綜述,以覆蓋該新興領域的廣度與深度。現有綜述通常聚焦于GFMs的某一方面,提供的是零散視角,尚未全面揭示其基礎技術、設計挑戰與研究方向。例如,Liu等[34]基于主干架構將GFMs分類為基于GNN、基于LLM和GNN+LLM混合模型,但其討論局限于方法層面,未涉及應用與理論理解。Zhao等[35]則圍繞預訓練目標進行分析,盡管提出了有價值的學習范式觀點,但未涵蓋系統設計與理論深度。Mao等[36]從轉移性視角出發,聚焦于泛化能力的理論解釋,但未對方法創新與實證研究進行系統整理。Wang等[37]也強調可遷移性與涌現能力,但未能涵蓋GFMs的完整架構、算法和應用維度。另有如Zhao等[38]關注跨領域圖學習,這雖是GFMs設計的一個重要維度,卻難以涵蓋跨任務泛化與結構對齊等核心問題。其他如Wu等[39]探討GFMs在推薦系統中的應用,而近期綜述[40, 41, 42, 43]聚焦于GNN與LLM的集成,更多地視為一個子領域而非整體GFMs框架的一部分。 我們的立場。 本綜述旨在填補上述空白,系統化地回顧圖基礎模型的發展。我們首先介紹GFMs的歷史演進與基本挑戰,隨后提出一個統一的模塊化框架,將GFMs分解為三大核心組件:主干架構、預訓練策略與適配機制。我們引入一個系統的分類體系,將GFMs劃分為通用型、領域特定型與任務特定型,并在每一類中進行詳盡的文獻回顧,涵蓋其設計理念與代表性模型。 此外,我們還分析GFMs的理論基礎(如擴展法則、可遷移性理論與涌現能力),并整理相關基準資源與當前局限。最后,我們總結該領域的關鍵開放問題與未來研究方向,以指導后續研究。 我們的主要貢獻如下: * GFMs設計挑戰(第3節):我們將構建圖基礎模型所面臨的核心挑戰歸納為三個維度:特征異質性結構異質性任務異質性,突出圖結構數據在大規模學習中的復雜性。 * 統一框架(第4節):提出一個統一的模塊化框架,將GFMs拆解為主干架構、預訓練策略與適配機制三個關鍵組成部分,為理解不同設計方案提供系統化視角,并支持方法的可組合性。 * 分類體系與全面綜述(第5、6、7節):提出基于泛化能力范圍的三分類體系:通用GFMs領域特定GFMs任務特定GFMs,并在每類下展開系統文獻綜述,介紹其設計理念與代表性模型。 * 理論基礎(第8節):探討GFMs的理論支撐,包括擴展法則、可遷移性理論,以及關于圖預訓練泛化能力的新興理解,為其實證成功提供理論基礎。 * 資源與GitHub倉庫(第9節):為促進可復現性和研究加速,我們整理并發布了一個資源庫,涵蓋基準數據集、開源實現、預訓練模型以及動態更新的GitHub項目: * 開放問題(第10節):總結GFMs發展中尚待解決的關鍵問題,包括:異構圖對齊的有效機制、可擴展與高效的適配方法、魯棒的評估協議以及更深入的理論理解,這些問題為下一代通用圖學習系統的發展指明方向。

圖基礎模型未來發展方向概述。 盡管GFMs取得了初步進展,其整體仍處于早期階段,面臨諸多挑戰,如可擴展性、數據可用性、評估標準、模型利用以及理論理解等方面。首先,與已建立擴展法則的LLMs和VLMs不同,GFMs需開發更具擴展性的架構、高層次的生成目標及統一的學習實例以實現性能躍遷。其次,圖數據的稀缺性亟需通過自動化采集、高保真合成生成和質量導向的數據集構建策略加以解決。第三,GFMs的評估需要反映真實世界任務的基準,以及能全面衡量泛化性、魯棒性與可信度的指標。第四,GFMs的高效利用有賴于優化適配機制(如零樣本學習與提示式學習)、拓展傳統圖任務之外的高影響應用場景,并融合多模態知識表示。最后,理論基礎仍待深化,關鍵問題包括轉移性的極限、跨域模式沖突的解決方案、分布偏移下的魯棒性保障,以及泛化能力的理論保證。解決這些問題對于GFMs在多領域充分發揮潛力具有決定性意義。更多討論詳見第10節。

付費5元查看完整內容

時空(ST)數據科學涵蓋跨空間和時間的大規模數據感知、管理和挖掘,是理解城市計算、氣候科學和智能交通等領域復雜系統的基礎。傳統的深度學習方法在這一領域取得了顯著進展,尤其是在時空數據挖掘階段。然而,這些模型仍然是任務特定的,通常需要大量標注數據。受基礎模型(FM),尤其是大語言模型成功的啟發,研究人員開始探索時空基礎模型(STFMs)的概念,以增強跨多樣化時空任務的適應性和泛化能力。與之前的架構不同,STFMs賦能了時空數據科學的整個工作流程,從數據感知、管理到挖掘,從而提供了一種更全面和可擴展的方法。盡管進展迅速,但對時空數據科學中STFMs的系統性研究仍然缺乏。本綜述旨在全面回顧STFMs,對現有方法進行分類,并確定推動時空通用智能發展的關鍵研究方向。//arxiv.org/pdf/2503.13502

1 引言 人類生活在一個由無數元素在空間和時間上動態交織而成的世界中。時空(ST)數據是指捕捉時空現象的數據,記錄了對象或事件在位置和時間上的演變[5],例如氣象記錄、交通模式和人類活動軌跡。這些數據通常來自各種平臺,包括物聯網設備、GPS傳感器、社交媒體和遙感技術。在這一背景下,時空數據科學專注于感知、管理和挖掘這些數據集,以揭示模式、理解復雜系統并預測未來動態。受其變革潛力的推動,這一領域解決了城市環境乃至整個地球面臨的關鍵挑戰,支持決策制定并促進創新,從而助力構建更智能、可持續和韌性的系統[178]。 在深度學習時代,研究社區主要集中于時空表示學習,作為時空數據挖掘的基礎步驟[129]。關鍵進展包括時空圖神經網絡(STGNN)[51]和基于Transformer架構的開發,這些技術在交通預測[80, 146]、空氣質量預測[82]和人類 移動性分析[132]等任務中表現出色。STGNN將圖神經網絡(GNN)與時間學習模塊(如GRU[6, 70]、TCN[140, 141])結合,以建模時空相關性,而Transformer模型則利用自注意力機制[37, 78, 177]處理跨空間和時間的復雜依賴關系。此外,自監督學習[46, 74, 92]也取得了顯著進展,這些模型能夠在最小化依賴大規模標注數據集的情況下提取強大的表示。 受基礎模型(FM),尤其是大語言模型(LLM)成功的推動,研究人員最近開始探索時空基礎模型(STFM)的概念[32, 81, 169]。通過利用LLM,可以開發更具通用性和適應性的解決方案,并能夠以最少的數據針對特定任務進行微調。另一種突出的方法是在跨領域時空數據上預訓練基礎模型(稱為PFM),并將其適應于特定領域。與之前的架構(如STGNN)相比,STFM整合了感知、推理和優化的能力,不僅有望徹底改變時空數據挖掘,還賦能了時空數據科學的其他階段,例如時空數據感知和管理(見圖1)。這一轉變有可能增強時空應用的可擴展性和效率,為應對城市計算、氣候科學等領域的挑戰提供更全面的方法。 盡管進展迅速,但對STFM在時空數據科學整個工作流程中的系統性分析仍然缺乏。首先,以往的綜述主要集中在利用LLM作為時空數據挖掘的關鍵工具[32, 54, 81, 169],而在理解這些模型如何在整個過程中整合方面存在顯著空白,即較少關注它們在感知和管理早期階段的作用。其次,這些研究主要探討了STFM在數值問題(如預測、插補)中的應用,而忽視了其在推理問題解決(如決策系統)中的作用。 為了填補這些空白,本文旨在對STFM在時空數據科學的所有階段(包括數據感知、管理和挖掘)進行更全面的綜述(見圖1)。例如,LLM可以通過主動處理公民報告、優化參與式感知策略以及大規模生成合成數據來增強時空數據感知。在數據管理方面,它們可以自動化數據清理任務,構建有意義的知識圖譜以支持數據集成,并促進跨模態數據集的更高效檢索。除了這些階段,我們的綜述還探討了STFM如何支持更廣泛的下游應用,包括數值和推理問題。通過這一努力,我們希望闡明STFM的整體愿景,從而增強對其優化時空數據科學潛力的理解,促進更集成和適應性強的解決方案。 同時,我們系統地研究了STFM建模多樣化時空數據的關鍵方法。我們首先將現有的STFM分為兩大類:LLM和預訓練基礎模型(PFM)。對于在語言數據上預訓練的LLM,我們重點關注其作為零樣本[33]或少樣本學習器[53, 73]的使用,分別探討了各種提示和微調策略。對于基于跨領域時空數據從頭訓練的PFM[40, 158, 189],我們研究了其神經架構、預訓練方法以及其對不同類型時空數據(包括位置數據、軌跡數據、事件、時空柵格數據和時空圖數據)的適應性。 總結而言,我們的主要貢獻體現在以下三個方面: * 全面且最新的綜述:我們首次對基礎模型在時空數據科學整個工作流程中的應用進行了全面且現代的綜述,涵蓋數據感知、管理和挖掘。與大多數現有綜述相比,我們還探討了更廣泛的下游任務和數據類型(見表1)。 * 愿景與方法論:我們提出了STFM的愿景,確定了其成功所需的關鍵能力,并詳細討論了實現這些能力的當前方法論。 * 未來方向:我們強調了利用基礎模型推進時空數據科學的有前景的方向,鼓勵在這一新興領域進行進一步研究和探索。

論文結構:本文的其余部分組織如下:第2節提供了關于基礎模型和時空數據的基本背景。第3節和第4節分別從工作流程和方法論的角度對STFM進行了分類。第5節提供了結論性意見,附錄A則強調了未來研究的有前景的方向。

付費5元查看完整內容

基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。

1. 引言

多模態基礎模型(MMFMs)的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如,文本到圖像模型(Rombach等,2022;Ramesh等,2022;Podell等,2023)促進了圖像生成和編輯,生成式視覺-語言模型(VLMs)(Zhu等,2023;Agrawal等,2024)支持視覺問答(VQA)或圖像描述等任務,而對比(即非生成式)VLMs,如CLIP(Radford等,2021),則廣泛用于圖像檢索。隨著多模態模型的不斷進步,人們對理解其內部機制和決策過程的需求也日益增加(Basu等,2024a)。機制可解釋性不僅對解釋模型行為至關重要,還對啟用下游應用(如模型編輯(Basu等,2024a)、減少虛假相關(Balasubramanian等,2024)、以及提高組合泛化能力(Zarei等,2024))具有重要意義。 機器學習中的可解釋性,LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念,因任務、目標和利益相關者需求的不同而有所變化。在本綜述中,我們采用Murdoch等(2019)提出的定義:“提取并闡明模型所學習的相關知識、機制、特征和關系的過程,無論這些知識是編碼在其參數中還是通過輸入模式表現出來,從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識,但“相關知識”的定義取決于應用的背景。例如,在記憶編輯應用中,可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能;而在安全性場景中,它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角,本綜述探討了可解釋性方法,研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。 盡管在單模態大規模語言模型(LLMs)(Meng等,2022a;Marks等,2024)方面,關于可解釋性的研究取得了顯著進展,但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器(Transformer)的,出現了幾個關鍵問題:LLM的可解釋性方法能否適應多模態模型?如果能,它們是否能提供類似的見解?多模態模型與單模態語言模型在機制上是否存在根本的差異?此外,分析跨模態交互等多模態特有過程時,是否需要全新的方法?最后,我們還探討了可解釋性的實際影響,提出問題——多模態可解釋性方法如何增強下游應用? 為了解答這些問題,我們進行了一項全面的綜述,并引入了一個三維的多模態模型機制可解釋性分類法:(1)模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs;(2)可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法;(3)應用——分類多模態機制見解增強的實際任務。 我們的綜述綜合了現有的研究,并揭示了以下見解:(i)基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs,特別是在將視覺和文本輸入類似對待時。(ii)出現了新的多模態挑戰,如如何將視覺嵌入轉化為人類可理解的形式,這需要全新的專門分析方法。(iii)盡管可解釋性有助于下游任務,但在多模態模型中,像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。 最近,Dang等(2024)提供了一個關于MMFMs的可解釋性方法的廣泛概述,涵蓋了數據、模型架構和訓練范式。另一項并行工作(Sun等,2024)從歷史視角回顧了多模態可解釋性方法,涵蓋了2000年至2025年的研究。盡管具有啟發性,我們的工作在重點和范圍上有所不同。具體來說,我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型,分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。 我們的貢獻總結如下:

  • 我們提供了一份關于多模態基礎模型的機制可解釋性的全面綜述,涵蓋了生成式VLMs、對比VLMs和文本到圖像擴散模型。
  • 我們引入了一個簡單直觀的分類法,有助于區分單模態和多模態基礎模型中的機制方法、發現和應用,突出了關鍵的研究空白。
  • 基于LLMs和多模態基礎模型之間的機制差異,我們識別了多模態可解釋性中的基本開放挑戰和局限性,并為未來的研究提供了方向。

2. 分類法

在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節

在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。

4 多模態模型的LLM可解釋性方法

我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測

探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens

Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤

與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解

在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。

5. 專門針對多模態模型的可解釋性方法

許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM(大型語言模型)的方法不同,這些方法僅為多模態基礎模型設計和應用。這些方法包括:用于用人類可理解的語言注釋嵌入或神經元的技術(第5.1節和第5.2節);利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解(第5.3節);開發量身定制的多模態模型數據歸因方法,例如文本到圖像擴散模型(第5.4節);以及特定的可視化方法(第5.5節)。

6. 基于機制見解的多模態模型應用

在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準

在LLMs領域,已有許多可解釋性工具涵蓋了注意力分析(Nanda 和 Bloom,2022;Fiotto-Kaufman等,2024)、SEA分析(Joseph Bloom 和 Chanin,2024)、電路發現(Conmy等,2023a)、因果追蹤(Wu等,2024)、向量控制(Vogel,2024;Zou等,2023)、logit鏡頭(Belrose等,2023)和token重要性(Lundberg 和 Lee,2017)等。然而,針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou(2024d);Stan等(2024)主要聚焦于生成式VLMs中的注意力機制。Aflalo等(2022)提出了一種工具,用于可視化生成式VLMs的注意力和隱藏狀態。Joseph(2023)提出了一種針對視覺變換器(Vision Transformers)的工具,主要集中于注意力圖、激活補丁和logit鏡頭。此外,對于擴散模型,Lages(2022)提供了一種可視化生成圖像過程中的內部擴散步驟的工具。 統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中,Huang等(2024b)提出了一個基準,用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer(2024)提出了一種新方法,用于生成LLMs的可解釋性測試平臺,節省了手動設計實驗數據的時間。Nauta等(2023);Schwettmann等(2024)也提供了LLMs可解釋性的基準。然而,目前尚未有針對多模態模型的基準,這是未來的重要研究方向。 總體來說,與LLMs領域中的全面工具和基準相比,多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。


8. 主要開放挑戰

盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域,但對于多模態模型而言,它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰,重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器(Diffusion Transformers)的內部層次,用于諸如模型編輯等任務;將機制見解擴展到超出視覺問答(VQA)或簡單圖像生成的任務;開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型;探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性;設計基于機制見解的透明數據歸因方法;以及通過更深的機制理解改進多模態上下文學習。此外,擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型(例如Xie等,2024a)也是一個開放的研究方向。


9. 結論

我們的綜述回顧了多模態基礎模型(MMFMs)中的機制理解方法,包括對比性VLMs、生成式VLMs和文本到圖像擴散模型,重點關注下游應用。我們引入了一種新穎的分類法,區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外,我們還比較了語言模型和多模態模型的機制見解,識別了理解上的差距及其對下游應用的影響。

付費5元查看完整內容

生成方法(生成式人工智能,Gen-AI)在解決機器學習和貝葉斯推斷任務中的應用進行了綜述。生成模型需要模擬一個大規模的訓練數據集,并使用深度神經網絡來解決監督學習問題。為了實現這一目標,我們需要高維回歸方法和用于降維的工具(即特征選擇)。生成式人工智能方法的主要優勢在于它們能夠不依賴具體模型,并利用深度神經網絡來估計條件密度或感興趣的后驗分位數。為了說明生成方法的應用,我們分析了著名的埃博拉數據集。最后,我們總結了未來研究的方向。

關鍵詞:生成式人工智能,神經網絡,深度學習,ABC,INN,歸一化流,擴散模型,分位貝葉斯,擬似推斷,埃博拉

1 引言

機器學習中的一個重要任務是:給定輸入-輸出對,其中輸入是高維的,構建一個“查找”表(即字典)來存儲輸入-輸出示例。這是一個編碼(即數據壓縮問題),用于快速搜索和檢索。另一個常見問題是找到一個簡單的預測規則(即算法),即:我們能否找到一個好的預測函數f(x)f(x)f(x),用來在給定xxx 的情況下預測輸出yyy?給定一個訓練數據集(yi,xi)i=1N(y_i, x_i)_{i=1}^{N}(yi,xi)i=1N 的輸入-輸出對,我們能否訓練一個模型,即找到函數fff?從計算角度來看,我們有一個高維的多變量函數f(x)f(x)f(x),其中x=(x1,…,xd)x = (x_1, \dots, x_d)x=(x1,…,xd)。 給定(y,x)(y, x)(y,x)-輸入-輸出對,我們有一個模式匹配(即監督學習)非參數回歸形式:

為了實現良好的泛化能力,我們需要能夠進行非線性降維,并找到一組合適的特征/因素。關鍵問題是:我們如何表示一個多變量函數,以便使訓練過程高效?許多高維統計模型需要數據降維方法。根據 Breiman(2001),我們將數據表示為由一個黑箱生成,其中輸入向量xxx 被黑箱轉化為輸出yyy,或生成一個描述從xxx 預測yyy 的不確定性的預測分布p(Y∣X)p(Y | X)p(Y∣X)。Fisher(1922)和Cook(2007)清楚地描述了降維問題。雖然通過篩選和將預測值與輸出變量繪制來尋找預測器是典型的做法。 統計推斷中的一個核心問題是計算一個感興趣的后驗分布。給定似然函數p(y∣θ)p(y | \theta)p(y∣θ) 或前向模型y=f(θ)y = f(\theta)y=f(θ),以及先驗分布π(θ)\pi(\theta)π(θ),目標是進行逆概率計算,即計算后驗分布p(θ∣y)p(\theta | y)p(θ∣y)。對于高維模型來說,這一任務非常困難。馬爾科夫鏈蒙特卡羅(MCMC)方法通過生成后驗樣本來解決這個問題,使用密度評估。 另一方面,生成式人工智能技術直接學習從均勻分布到目標分布的映射。生成式人工智能的主要優勢是它是無模型的,并且不需要使用迭代密度方法。逆貝葉斯映射被通過深度學習的輸入輸出映射的模式識別所替代。深度分位神經網絡(Deep Quantile NNs)提供了一個用于推斷決策的通用框架。分位神經網絡提供了一種替代不可逆神經網絡(如歸一化流)的方式。 生成方法通過以下方式解決這兩個問題。設Z~PZZ \sim P_ZZ~PZ 是潛變量ZZZ 的基礎度量,通常是標準多變量正態分布或均勻分布的向量。生成方法的目標是從訓練數據(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y 中表征后驗度量PX∣YP_{X|Y}PX∣Y,其中NNN 被選擇為適當的大值。使用深度學習器來估計f^\hat{f}f^,通過非參數回歸X=f(Y,Z)X = f(Y, Z)X=f(Y,Z)。深度學習器通過從三元組(Xi,Yi,Zi)i=1N~PX,Y×PZ(X_i, Y_i, Z_i){i=1}^{N} \sim P{X,Y} \times P_Z(Xi,Yi,Zi)i=1N~PX,Y×PZ 中學習來估計。隨后的估計器H^N\hat{H}NH^N 可以看作是從基礎分布到所需后驗分布的傳輸映射。在ZZZ 為均勻分布的情況下,這相當于逆累積分布函數(CDF)采樣,即X=FX∣Y?1(U)X = F{X|Y}^{-1}(U)X=FX∣Y?1(U)。 設(X,Y)~PX,Y(X, Y) \sim P_{X,Y}(X,Y)~PX,Y 是輸入-輸出對,且PX,YP_{X,Y}PX,Y 是聯合度量,我們可以從中模擬一個訓練數據集(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y。標準的預測技術是條件后驗均值X^(Y)=E(X∣Y)=f(Y)\hat{X}(Y) = E(X|Y) = f(Y)X^(Y)=E(X∣Y)=f(Y),即給定輸出YYY 時預測輸入XXX。為此,考慮多變量非參數回歸X=f(Y)+?X = f(Y) + \epsilonX=f(Y)+?,并提供估計條件均值的方法。通常的估計器f^\hat{f}f^ 包括 KNN 和核方法。最近,提出了深度學習器,并提供了關于仿射函數疊加(即嶺函數)的理論屬性(見 Montanelli 和 Yang(2020),Schmidt-Hieber(2020),Polson 和 Rockova(2018))。一般來說,我們可以為任何輸出YYY 表征后驗映射。只需通過使用傳輸映射:

從新的基礎抽樣ZZZ 中評估網絡。這里,ψ\psiψ 表示余弦嵌入,因此潛變量的架構對應于離散傅里葉近似。另一方面,生成方法通過構建訓練數據的“查找”表,并將深度神經網絡擬合到該表上,來解決監督學習問題。這提供了一種傳輸映射到基礎分布,基礎分布由潛變量zzz 的已知分布p(z)p(z)p(z) 給出。由于我們可以選擇樣本大小NNN,因此理解這些深度學習估計器的貝葉斯風險屬性及其插值屬性(稱為雙重下降)非常重要。 本文的其余部分安排如下:第 1.1 節描述了降維技術;第 2 節介紹了架構設計的多種選擇。例如,自動編碼器(Albert et al. 2022;Akesson et al. 2021)或隱式模型(參見 Diggle 和 Gratton 1984;Baker et al. 2022;Schultz et al. 2022);它還與間接推斷方法相關(參見 Pastorello et al. 2003;Stroud et al. 2003;Drovandi et al. 2011, 2015)。常用的生成方法包括:變分自動編碼器(VAE)、獨立成分分析(ICA)、非線性獨立成分估計(NICE)、歸一化流(NF)、可逆神經網絡(INN)、生成對抗網絡(GAN)、條件生成對抗網絡、近似貝葉斯計算(ABC)和深度擬似推斷(DFI)。第 3 節回顧了使用無密度深度分位 ReLU 網絡的生成貝葉斯計算(GBC);第 4 節提供了經典埃博拉數據集的應用。最后,第 5 節總結了未來研究的方向。 深度學習的民間傳說:淺層深度學習器能夠很好地表示多變量函數,并且在外推時表現良好。因此,我們可以在任何新的輸入上評估網絡并預測輸出,同時我們仍然可以學習感興趣的后驗映射。 雙重下降:關于深度神經網絡的逼近和插值屬性的問題依然存在。最近關于分位神經網絡插值屬性的研究,參見 Padilla 等(2022)和 Shen 等(2021),Schmidt-Hieber(2020)。另見 Bach(2024);Belkin 等(2019)。 **

**

付費5元查看完整內容

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容
北京阿比特科技有限公司