亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近的技術進步增強了我們收集和分析豐富多模態數據(如語音、視頻和眼動)的能力,以更好地改進學習和訓練體驗。盡管之前的綜述已經關注了多模態處理流程的部分內容(如概念模型和數據融合),但尚未有關于多模態學習和訓練環境方法的全面文獻綜述。本文提供了對這些環境中的研究方法的深入分析,提出了一個涵蓋該領域最新方法進展的分類法和框架,并根據五個模態組對多模態領域進行了描述:自然語言、視頻、傳感器、人本中心和環境日志。我們引入了一種新的數據融合類別——中級融合(mid fusion),以及一種用于優化文獻綜述的基于圖的技術,稱為引文圖剪枝。我們的分析表明,利用多種模態可以更全面地理解學習者和受訓者的行為和結果。即使多模態未能提高預測準確性,它通常也能揭示模式,以情境化和解釋單模態數據,揭示單一模態可能遺漏的細微差別。然而,仍需進一步研究以彌合多模態學習和訓練研究與基礎AI研究之間的差距。

1 引言與背景

1.1 簡史

隨著技術進步推動學習科學的發展,教育和訓練課程的個性化正在不斷推進,以滿足學習者和受訓者的獨特需求。這種轉變由數據驅動的方法支撐,這些方法已被整合到學習分析領域[61]。學習分析專注于收集和評估學習者和受訓者的行為數據——特別是他們在學習和訓練任務中的表現[94, 166]。例如,智能輔導系統如Practical Algebra Tutor [78]專注于診斷學生錯誤,開放式環境如Betty’s Brain [84]自適應地支架學習,而教師反饋工具(如[72, 124])則通過提供學生行為的洞察來幫助教育者改進教學。 學習分析中的一個核心研究問題是,哪些類型的數據對于深入了解學習者的行為和表現,以及在不同情境下促進學生學習和訓練提供有意義的支持是必要的?[108, 151]。最初,數據收集和分析的范圍受到教育環境中可用技術和計算方法的限制。早期的學習分析主要分析基于計算機環境的日志數據,將學生的行為與其數字交互建立關聯,從而為該領域的許多現代理論和方法奠定了基礎[71, 108]。 傳感器和數據收集技術的進步正將學習分析擴展到傳統的基于日志的分析之外[108]。在實際的學習空間中,日志數據不足以捕捉所有學習者的行為、情感狀態和協作行為。研究人員現在整合了額外的數據收集設備,如用于捕捉物理互動的視頻、用于記錄對話的麥克風、用于檢測壓力水平的生物傳感器和用于跟蹤注意力的眼動儀[151]。這種豐富的數據收集提供了對學生情感、認知、心理運動和元認知狀態的更全面理解,推進了多模態學習分析(MMLA)[12, 13, 158]。經過十年的研究,MMLA已經成熟,并通過期刊專題[52, 96, 109]、會議[60]、編輯書籍[64]和系統綜述[4, 22, 39, 50, 100, 130, 158]得到了廣泛傳播。本文基于這一堅實的基礎,重點關注MMLA中的應用研究方法。1.2 相關工作最近的MMLA研究、調查和綜述通過不同的視角探索了MMLA的全貌:多模態數據融合[22]、概念模型和分類法[50]、統計和定性評估[121, 131]、虛擬現實[118]、技術和數據工程[26]以及倫理考量[4]。我們的綜述集中在多模態學習和訓練環境中支持數據收集和分析的應用方法,特別關注使用學習理論收集、融合、分析和解釋多模態數據的方法。我們擴展和修改了現有的分類法,以反映MMLA的最新進展。 Di Mitri等人[50]提出了多模態學習分析模型(MLeAM),這是一個概念框架,概述了MMLA中行為、數據、機器學習和反饋之間的關系。該框架提供了一種分類法,并引入了數據可觀測性(data observability)的概念,將可量化的輸入證據與推斷的注釋(如情感、認知)區分開來。可觀測性線劃分了這些領域,對于MMLA研究中從輸入到假設的AI介導轉化至關重要。Chango等人[22]調查了MMLA中的融合方法,將研究按融合類型和在多模態管道中的應用階段進行分類。他們提出了三種融合類型:早期融合(特征級整合)、后期融合(決策級整合)和混合融合(兩者的結合)。這一分類澄清了融合方法及其在教育數據挖掘中的相關性。 整合了這兩項調查的見解后,我們提出了一種聚焦于特征可觀測性的分類法,區分感官數據和人類推斷的注釋。這一改進的分類方案精煉了我們對MMLA中數據融合的理解,并在第2節中展示了一個精細的分類法。

1.3 本綜述的范圍

在本文中,我們將數據收集媒介定義為一種獨特的原始數據流(如視頻、音頻、光體積描記(PPG)傳感器)。模態是從一個或多個數據流中派生出的獨特屬性,每個流傳達不同的信息,即使來自相同的媒介[108]。模態組是通過歸納編碼派生出的傳達相似信息的模態的獨立集合(見圖1)。多模態是多種模態或多種數據流的組合。例如,同一視頻數據流可以用來派生情感和姿勢模態,情感模態可以從音頻和視頻流中派生。這兩個例子都被認為是多模態的。我們在文中將“論文”和“作品”交替使用,包括會議和期刊之外的出版物(如書籍和書籍章節)。我們的定義旨在描述我們綜述的范圍,而不是建立“通用”的多模態和多模態分析的定義。 我們的綜述包括所有未被排除標準(見附錄B.2.2)排除的文獻搜索結果中的論文。這包括“順帶”進行的多模態學習和訓練分析。例如,一篇專注于多模態創作環境的論文,如果在此過程中進行了多模態學習分析,也會被納入。我們感興趣的是多模態分析所使用的方法,而不僅僅是其作為主要研究焦點的研究。我們審查了跨越多種媒介和模態的數據收集和分析的研究,包括完全物理環境(如物理治療)、混合現實環境(如基于假人的護理模擬)以及在線教育平臺(如基于計算機的物理教學)。值得注意的是,由于當前虛擬現實環境在教育環境中的可擴展性挑戰[37],我們的綜述排除了虛擬現實環境。

1.4 貢獻本文對多模態學習和訓練環境的方法進行了系統的文獻綜述,并做出了以下幾個新穎的貢獻:

  • 對多模態學習和訓練環境中使用的研究方法、遇到的挑戰以及文獻中報告的相關結果進行了全面綜述。同時,我們還識別了數據收集和分析方法中的研究空白;
  • 提出一個反映多模態學習和訓練方法最新進展的統一框架和分類法;
  • 引入了一種稱為中級融合(mid fusion)的額外數據融合分類(即介于早期融合和后期融合之間),用于區分相對于可觀測性線的已處理特征;
  • 提出一種基于圖的語料庫縮減程序,稱為引文圖剪枝(citation graph pruning),該程序允許通過程序化方式修剪文獻綜述語料庫。詳細描述見第3.2.1節。
付費5元查看完整內容

相關內容

現實世界中的信息通常以不同的模態出現。例如,圖像通常與標簽和文本解釋聯系在一起;文本包含圖像以便更清楚地表達文章的主要思想。不同的模態由迥異的統計特性刻畫。例如,圖像通常表示為特征提取器的像素強度或輸出,而文本則表示為離散的詞向量。由于不同信息資源的統計特性不同,發現不同模態之間的關系是非常重要的。多模態學習是一個很好的模型,可以用來表示不同模態的聯合表示。多模態學習模型也能在觀察到的情況下填補缺失的模態。多模態學習模型中,每個模態對應結合了兩個深度玻爾茲曼機(deep boltzmann machines).另外一個隱藏層被放置在兩個玻爾茲曼機上層,以給出聯合表示。

在多模態模型訓練和推理過程中,由于傳感器限制、成本約束、隱私問題、數據丟失以及時間和空間因素,數據樣本可能會缺失某些模態,導致模型性能下降。本綜述概述了在缺失模態的多模態學習(MLMM)領域的最新進展,重點關注深度學習技術。這是第一個全面的綜述,涵蓋了MLMM的歷史背景以及其與標準多模態學習設置的區別,隨后詳細分析了當前的MLMM方法、應用和數據集,并討論了該領域面臨的挑戰和未來可能的發展方向。

1 引言

多模態學習已成為人工智能(AI)領域的關鍵領域,專注于整合和分析各種數據類型,包括視覺、文本、聽覺和傳感器信息(圖1a)。這種方法反映了人類通過結合多種感官來更好地理解和與環境互動的能力。現代多模態模型利用深度學習的強大泛化能力,揭示單模態系統可能無法檢測到的復雜模式和關系。這種能力推動了多個領域的工作進展,包括計算機視覺。最近在這些領域的調查顯示,多模態方法的顯著影響,證明了它們能夠提高性能并實現更復雜的AI應用【7,224】。

然而,多模態系統在實際應用中往往面臨數據缺失或不完整的問題。這種情況的發生可能是由于傳感器故障、硬件限制、隱私問題、環境干擾和數據傳輸問題等多種因素造成的。如圖1b所示,在三模態的情況下,數據樣本可以分為全模態(包含所有三種模態的信息)或缺失模態(完全缺失一種或多種模態的數據)。這些問題可能在數據收集到部署的任何階段發生,顯著影響模型性能。現實世界中此類問題在多個領域廣泛存在。在情感計算領域,研究人員【31,150】發現,由于相機遮擋或麥克風噪聲過大,樣本中僅包含可用的圖像或音頻。同樣,在太空探索中,NASA的“機智號”火星直升機【36】由于火星上的極端溫度循環導致其傾角儀失效,面臨缺失模態的挑戰。為了解決這一問題,NASA應用了一項軟件補丁,修改了導航算法的初始化【169】。在醫療AI領域,由于隱私問題,某些數據樣本中某些模態可能不可用,導致多模態數據集中固有的模態缺失【222】。現實場景的不可預測性和數據來源的多樣性進一步加劇了這一挑戰。因此,開發能夠在模態缺失情況下有效運行的多模態系統,已成為該領域的關鍵研究方向。

在本綜述中,我們將處理缺失模態的挑戰稱為“缺失模態問題”。我們將解決該問題的方法稱為“缺失模態的多模態學習”(MLMM)。這一方法與傳統的全模態多模態學習(MLFM)形成對比。具體而言,在MLFM任務中,給定一個包含HHH模態的數據集,通常要求訓練模型能夠處理和融合所有HHH種模態的信息以進行預測。在訓練和測試過程中,使用來自所有HHH種模態的完整信息樣本。而在MLMM任務中,由于數據收集限制或部署環境中的約束,在訓練或測試時使用少于HHH種模態的數據。MLMM的主要挑戰在于在訓練和測試過程中動態且穩健地處理和融合任意數量的可用模態信息,同時保持與全模態樣本相當的性能。

本綜述涵蓋了MLMM的最新進展及其在信息檢索、遙感和機器人視覺等多個領域的應用。我們提供了對MLMM方法論、應用場景和相關數據集的細致分類。我們的工作擴展了現有專注于特定領域(如醫學診斷【5,151,235】、情感分析【179】和多視圖聚類【17】)的MLMM綜述。通過提供對當前研究的全面概述并識別未來工作的有前景方向,本綜述旨在為開發更穩健且適應性強的多模態學習系統做出貢獻。這些進展對于將智能系統部署在從行星探索的惡劣條件到日常生活中的動態和不可預測環境中至關重要。

本綜述的主要貢獻有三點:

  1. 對MLMM在各個領域的應用進行了全面的綜述,并收集了大量相關數據集,突顯了MLMM在應對現實挑戰中的多功能性。
  2. 提出了一個新穎的、細致的MLMM方法論分類體系,基于恢復策略、集成階段、參數效率方法和注意力機制等多方面的分類框架。
  3. 在所提出的分類框架下,深入分析了當前的MLMM方法、其挑戰以及未來的研究方向。

2 方法論

我們根據四個主要維度的分類框架對現有的深度缺失模態多模態學習(MLMM)方法進行分類和討論:模態增強、特征空間工程、架構工程和模型選擇。

**2.1 模態增強

我們將解決缺失模態問題的模態增強方法分為兩類,針對模態層次上的原始數據。第一類是模態組成方法,該方法使用零值/隨機值、從相似實例中直接復制的數據,或通過檢索算法獲得的匹配樣本,與缺失模態樣本組合形成全模態樣本。第二類是模態生成方法,它使用生成模型(如自動編碼器(AEs)[55],生成對抗網絡(GANs)[42],或擴散模型[56])生成缺失模態的原始數據。

2.1.1 模態組成方法 當數據集中缺失模態樣本較少時,刪除這些樣本是多模態數據集預處理中的常見方法。但這種方法會減少數據集的規模,并在數據集中包含許多缺失模態樣本時導致一些稀有樣本消失。模態組成方法因其簡單有效而廣泛使用,且可以保持數據集的規模。典型方法之一是零值/隨機值組成方法,用零值/隨機值替換缺失模態數據,如圖3所示。在最近的研究中[28, 102, 114, 163],這些方法經常作為基線與提出的方法進行比較。針對缺失序列數據問題,例如視頻中的缺失幀,提出了類似的幀-零值方法[135],用零幀替換缺失幀并與可用幀組合。這些方法在典型的多模態學習訓練過程中非常常見。通過這些方法,多模態模型可以在預測時平衡和整合來自不同模態的信息,從而避免模型過度依賴一個或幾個模態,增強其魯棒性。然而,當數據集中大多數樣本都是缺失模態樣本時,這些方法難以很好地泛化。另一種組成方法基于檢索算法(圖3),通過從具有相同模態和類別的檢索樣本中復制/平均原始數據來填充缺失模態數據。一些簡便的方法會隨機選擇一個具有相同類別和所需模態的樣本,并與輸入的缺失模態組合,形成用于訓練的全模態樣本。例如,研究人員[204]提出了Modal-mixup,隨機補充缺失模態樣本來完成訓練數據集。然而,這類方法在測試階段無法解決缺失模態問題。針對視頻等流數據中的缺失幀問題,研究人員提出了使用幀重復法[135],通過使用過去的幀來補足缺失幀。一些工作[14, 41, 204]嘗試使用K近鄰(KNN)或其變體來檢索最佳匹配樣本進行組合。實驗表明,基于KNN的方法在處理測試階段的缺失模態問題時,表現優于隨機選擇等方法。但簡單的聚類方法往往存在高計算復雜度、對不平衡數據敏感及高內存開銷等問題。此外,基于檢索的模態組合方法不適用于像素級任務(如分割),僅適用于簡單任務(如分類),因為它們可能導致模型混淆。此外,上述所有方法雖然能夠完成缺失模態的數據集,但它們會降低數據集的多樣性。這對于高模態缺失率(大部分樣本都是缺失模態樣本)的數據集尤其成問題,因為這增加了過擬合到某些少量全模態樣本類別的風險。

2.1.2 模態生成方法 在缺失數據研究中,提出了各種矩陣填充方法[41],利用矩陣元素之間的潛在相關性。然而,在多模態數據集中,缺失數據通常以大塊形式出現,使得傳統方法在大規模處理和高維計算中效率低下。隨著深度學習的發展,生成缺失模態變得更加高效。當前生成缺失模態原始數據的方法分為單模態生成方法和統一模態生成方法。單模態生成方法為每個模態訓練單獨的生成模型,以應對任意缺失模態的情況,如圖5a所示。早期工作使用高斯過程[117]或玻爾茲曼機[159]從可用輸入生成缺失模態數據。隨著深度學習的發展,諸如AEs和U-Net[147]等方法被用于生成原始模態數據。Li等人[87]使用3D-CNN從磁共振成像(MRI)數據生成正電子發射斷層掃描(PET)數據。Chen等人[24]通過訓練U-Net模型,從MRI數據中生成其他兩種模態以解決MRI分割中的缺失模態問題。最近的工作[113]將AEs作為基線方法之一,通過為每個模態訓練一個AE來完成數據集。在領域自適應中,Zhang等人[220]提出了一個多模態數據生成模塊,通過領域對抗學習生成每個缺失模態,學習領域不變特征。GANs通過使用生成器創建逼真的數據,并讓鑒別器區分其與真實數據,顯著提高了圖像生成的質量。研究人員開始用GANs代替AEs和U-Nets生成缺失模態。例如,GANs通過現有模態的潛在表示生成缺失模態的原始數據,在乳腺癌預測中得到了應用[3],而WGANs則應用于情感分析[184]。在遙感領域,Bischke等人[8]使用GANs生成深度數據,改善了RGB模型的分割性能。GANs還用于機器人識別中生成RGB和深度圖像[45]。最近的研究[113]表明,GANs在生成更真實的缺失模態時表現優于AEs,并能帶來更好的下游任務模型性能。最近,擴散模型的引入進一步提高了圖像生成質量。Wang等人提出了IMDer方法[190],利用可用模態作為條件,幫助擴散模型生成缺失模態。實驗表明,擴散模型減少了恢復模態與缺失模態之間的語義模糊性,并且在泛化性能方面優于以往的方法。然而,為每個模態訓練一個單獨的生成器效率低下,且無法捕捉模態之間的潛在相關性。研究人員開發了另一種生成方法,即統一模態生成方法,訓練一個統一模型可以同時生成所有模態(圖5b)。代表性模型之一是Cascade AE[174],通過堆疊AEs來捕捉缺失模態與現有模態之間的差異,從而生成所有缺失模態。最近的研究人員,如Zhang等人[221],嘗試使用注意力機制和最大池化層來整合現有模態的特征,使得模態特定的解碼器能夠生成每個缺失模態。實驗表明,該方法比僅使用最大池化[19]來整合多個模態特征生成缺失模態更加有效。盡管上述方法在一定程度上能夠緩解性能下降的問題,但訓練能夠生成高質量、類似真實世界分布的缺失模態的生成器仍然具有挑戰性,尤其是在訓練數據集中包含較少全模態樣本的情況下。此外,模態生成模型顯著增加了存儲需求。隨著模態數量的增加,這些生成模型的復雜性也隨之增加,進一步增加了訓練過程和資源需求的復雜性。

**2.2 特征空間工程

以下介紹在特征空間層次解決缺失模態問題的方法。首先,我們介紹兩種基于約束的方法,通過施加特定約束來增強更具辨別力和魯棒性的表示學習(圖6)。一種方法是通過正則化來提高學習表示的有效性和泛化能力。另一種方法側重于最大化相關性,使用特定的度量來加強特征之間的關系。接下來,表示組成方法可以借鑒2.1.1節討論的解決方案,在模態的特征層次上操作,或使用算術運算來處理動態數量的模態。最后,我們介紹表示生成方法,該方法能夠生成缺失模態的特征表示。

**2.3 架構工程

與上述生成模態或模態表示的方法不同,一些研究人員通過調整模型架構來適應缺失模態的情況。根據其在處理缺失模態中的核心貢獻,我們將其分為四類:基于注意力的方法、基于蒸餾的方法、基于圖學習的方法和多模態大語言模型(MLLMs)。

**2.4 模型選擇

模型選擇方法旨在使用一個或多個選定的模型進行下游任務,同時增強其魯棒性和性能。這些方法可以分為集成方法、專用方法和離散調度方法。集成方法通過投票、加權平均等方式組合多個選定模型的預測結果,以提高最終決策的準確性和穩定性。專用方法則為不同的子任務(如不同的缺失模態情況)分配專門的個體模型,專注于特定的子任務或子數據集。在離散調度方法中,用戶可以使用自然語言指令讓大型語言模型(LLMs)根據模態類型和下游任務自主選擇合適的模型。

3 應用與數據集

在過去十年中,基于深度學習的多模態學習經歷了爆炸式增長,在學術界和工業界得到了廣泛應用。與這些應用相伴的是各種形式的多模態數據集的出現。然而,此類數據集的收集往往需要大量人力和成本。在某些特定的應用方向上,諸如用戶隱私問題、數據收集設備的傳感器故障等因素,可能導致數據集中存在缺失模態。在嚴重的情況下,多達90%的樣本可能存在缺失模態問題,使得傳統的全模態多模態學習(MLFM)在模型訓練時難以取得良好的性能。這催生了缺失模態多模態學習(MLMM)的任務。由于導致數據集不完整的因素通常來自不同的應用方向,下面我們根據這些應用方向介紹相應的數據集:情感分析、醫療診斷、檢索/描述、遙感、機器人視覺等。我們還根據應用和數據類型在表3中對這些數據集進行了分類。

結論

在本綜述中,我們首次對缺失模態的深度多模態學習進行了全面回顧。我們首先簡要介紹了缺失模態問題的歷史發展及其在現實世界中的重要性原因。隨后,我們從兩個角度對該領域的當前進展進行了細致的分類和總結:方法論、應用與數據集。最后,我們討論了該領域現存的挑戰和未來可能的發展方向。盡管越來越多的研究人員參與到缺失模態問題的研究中,我們也關注到一些亟待解決的緊迫問題,例如統一的測試基準(如多模態大語言模型)以及更廣泛的應用需求(如自然科學)。通過我們的全面且詳細的綜述,我們希望能夠激勵更多的研究人員探索缺失模態的深度多模態學習技術,最終為開發出魯棒且高性能的AI系統做出貢獻。

付費5元查看完整內容

模型融合是機器學習社區中的一種高效賦能技術,它不需要收集原始訓練數據,也不需要昂貴的計算。隨著模型融合在各個領域中變得越來越普遍,全面了解現有的模型融合技術變得至關重要。然而,文獻中在系統且深入地審視這些技術方面存在顯著的空白。本綜述提供了對模型融合方法和理論的全面概述,涵蓋了它們在各個領域和場景中的應用,以及未來的研究方向。具體而言,我們首先提出了一種新的分類方法,對現有的模型融合方法進行了詳盡的討論。其次,我們討論了模型融合技術在大語言模型、多模態大語言模型以及10多個機器學習子領域中的應用,包括持續學習、多任務學習、少樣本學習等。最后,我們強調了模型融合的剩余挑戰,并討論了未來的研究方向。關于模型融合的論文完整列表請參見\url{this https URL}。

模型融合,也稱為模型合并,是一種有效的技術,通過融合多個具有不同能力的獨立模型的參數,構建一個通用模型,而無需訪問原始訓練數據或進行昂貴的計算。與模型融合最相關的概念是集成學習 [33, 109, 142, 180],因為它們都促進了知識的融合與傳遞。如圖1所示,它們之間的主要區別在于,集成學習必須保存所有的單個模型,并在推理階段融合多個模型的預測(或輸出),而模型融合則直接在參數層面進行合并,并且在推理時只有一個最終模型。這使得模型融合具備了更為吸引人的特性。盡管模型融合是一個相對年輕的課題,但它正在快速發展,并且已經在多個領域中找到了應用。例如,在基礎模型中,由不同下游任務微調的模型被合并,以增強大語言模型的能力,而具有不同風格的圖像生成模型被合并,以創建具有混合風格能力的新模型。特別是,近年來機器學習社區中的預訓練和微調檢查點數量呈指數級增長,包括開源庫如Huggingface [182]、torchvision [111]和timm [181],這使得用戶可以輕松獲取各種能力的訓練良好的專家模型。這些豐富的模型庫進一步推動了模型融合方向的快速發展。隨著模型融合在機器學習社區的各個領域中變得越來越流行,全面了解現有模型融合技術的優勢和局限性及其在不同領域的應用變得至關重要。盡管社區已經做出了一些努力 [48, 96, 157, 214],但仍有許多空白需要填補。更具體地說,MergeKit [48]和FusionBench [157]是技術報告,MergeKit中僅討論了七種代表性方法,FusionBench中討論了八種合并方法。此外,Zheng等人 [214] 討論了“從模型中學習”的話題,并且僅在整個論文中以一個子節(一頁)提到了模型融合。與“模型融合”主題最相關的工作是 [96],但在應用方面,它只討論了模型融合在聯邦學習、微調和蒸餾三種場景中的應用。由于模型融合方向的快速發展,它也忽略了許多最近發表的文章。為了解決這些空白,本綜述旨在闡明模型融合方向中的方法、理論、應用和未來趨勢,提供相關方法的全面分類。特別是,本文通過涵蓋三個主要方面來增強對模型融合的全面理解:

**首先,現有的模型融合方法是如何分類的?**我們首先在圖2(上半部分)中提出了一個新的分類法,將現有的模型融合方法分為兩個階段(§2):預融合和融合過程中。(i)預融合方法旨在為融合創造更好的條件。它進一步分為使用線性微調實現權重空間和輸入空間的解耦,執行架構轉換以將異構模型轉換為同質模型,以及對齊權重以將它們置于同一盆地。(ii)融合過程中的方法側重于設計復雜的技術,將多個模型融合為一個。這些方法解決了在融合模型時的任務沖突和干擾問題。它們可以進一步分為基本融合方法,即執行最簡單的參數融合策略;加權融合方法,即根據特定規則計算的重要性來融合多個模型;子空間融合方法,即將多個模型投影到稀疏子空間進行融合;基于路由的方法,即在推理過程中根據輸入樣本動態融合模型;以及基于后校準的方法,即對融合后的模型進行校正。除了這些方法外,我們還討論了模型融合的理論或實證分析。

**其次,哪些應用可以從模型融合中受益?**我們詳細討論了模型融合在基礎模型(§3)和機器學習的十多個子領域(§4)中的各種用例。如圖2(下半部分)所示,模型融合可以應用于多種基礎模型,包括大語言模型、多模態大語言模型和圖像生成模型。例如,模型融合在大語言模型中可以幫助減輕不真實和有害輸出,實現知識去學習,并加速訓練。此外,模型融合還出現在不同的機器學習子領域,如持續學習、多任務/多域學習、少樣本學習和其他子領域,以解決各種挑戰。例如,在持續學習中,模型融合可以減輕舊任務的災難性遺忘。在多任務學習、多目標學習和多域學習中,它促進了知識傳遞。此外,在對抗性學習中,模型融合可以用于攻擊和防御策略。**第三,模型融合的剩余挑戰和未來研究機遇是什么?**盡管融合方法取得了進展并且應用已經得到了充分發展,但該領域仍存在許多未解決的挑戰和未來的研究方向(§5)。例如,隨著任務數量的增加,現有方法與獨立專家模型之間的性能差距顯著擴大。此外,當前的模型融合方法在融合過程中產生了巨大的內存成本,并且缺乏信任保證以及深入的理論分析。解決這些空白需要研究人員做出大量努力,以進一步推動該領域的蓬勃發展。

總而言之,本文的主要貢獻包括以下三個方面: ? 方法概述:我們提供了對模型融合技術方面的全面總結。具體而言,我們提出了一個新的分類法,將現有的模型融合方法分為兩個階段,并根據關鍵技術進一步細分每個階段的方法。此外,我們還討論了與模型融合相關的理論分析工作。 ? 應用概述:我們提供了對模型融合應用方面的全面總結。具體而言,我們探索了模型融合在基礎模型和10多個機器學習子領域中的應用,展示了模型融合如何解決這些領域中的現有挑戰。 ? 未來方向:我們概述了模型融合的幾個剩余挑戰和未來方向。我們認為,未來需要從性能差距、理論分析、信任保證、跨學科應用等方面進一步探索模型融合。 本文的主要結構如下:§1是介紹,§2從技術角度對高級模型融合方法進行了全面討論。在§3和§4中,我們分別總結了模型融合在各種基礎模型和機器學習不同子領域中的應用。剩余的挑戰和未來的研究方向在§5中討論。最后,我們在§6中對本文進行了總結。

高級模型融合方法

在本節中,我們首先在§2.1中介紹模型融合的符號表示和問題定義。然后,我們詳細闡述了高級模型融合方法(表1總結了每類方法的主要目的)。現有的模型融合技術大致可以分為以下兩類: (i) 融合前方法 在§2.2中:為模型融合提供更好的先驗知識。 (ii) 融合過程中方法 在§2.3中:通過各種策略解決任務沖突/干擾,然后執行參數融合操作。最后,我們在§2.4中總結了模型融合有效性的理論或解釋。

模型融合在基礎模型中的應用

基礎模型的出現,包括大語言模型(LLM)、多模態大語言模型(MLLM)和圖像生成模型,是近年來人工智能領域技術進步的重要標志。然而,盡管這些大型模型取得了顯著進展,但它們仍面臨諸多挑戰,如LLM生成有害內容、MLLM在融合不同模態信息時的困難,以及圖像生成模型在生成混合風格圖像時的難度。最新研究表明,模型融合技術為這些基礎模型中固有的挑戰提供了一個有前景的解決方案。表2首先簡要總結了模型融合在基礎模型中的應用。然后,§3.1、§3.2和§3.3分別詳細討論了LLM、MLLM和圖像生成模型如何從模型融合中受益。

模型融合在不同機器學習子領域的應用

模型融合是一種簡單而有效的技術,廣泛應用于機器學習的各個子領域,如持續學習、多任務學習、領域泛化、聯邦學習、少樣本學習和對抗性防御等。在本節中,我們將全面討論模型融合在不同機器學習子領域中的應用。表3提供了簡要總結,§4.1至§4.6中詳細介紹了每個應用案例。

結論

模型融合是一種簡單而有效的模型增強技術,通過結合多個模型來實現多樣化的能力。在本綜述中,我們首先全面概述了當前在模型融合領域可用的高級方法和理論。接下來,我們討論了模型融合技術在各種基礎模型(如LLM、MLLM)和機器學習的十多個子領域中的應用,強調了它們在解決各種挑戰和困難中的作用。最后,我們識別了模型融合領域中尚存的問題,并提出了六個值得進一步探索的研究方向。我們相信,作為一種高效且模塊化的模型賦能解決方案,模型融合技術將在未來的更多實際場景中發揮重要作用。

付費5元查看完整內容

人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。

近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:

  • Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。

  • Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。

  • Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:

  • 新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述,考慮了文本、圖像、視頻和音頻等模態。
  • 數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
  • 數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
  • 開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題,并提出了若干未來研究方向。

本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

多模態查詢的知識檢索在支持知識密集型多模態應用中扮演著關鍵角色。然而,現有方法在有效性和訓練效率方面面臨挑戰,特別是在訓練和集成多個檢索器以處理多模態查詢時。在本文中,我們提出了一個創新的端到端生成式框架,用于多模態知識檢索。我們的框架利用了大型語言模型(LLMs)即使在有限數據訓練的情況下,也可以有效地作為虛擬知識庫的事實。我們通過兩步過程檢索知識:1)生成與查詢相關的知識線索;2)使用知識線索搜索數據庫以獲取相關文檔。特別是,我們首先引入了一個對象感知的前綴調優技術來指導多粒度的視覺學習。然后,我們將多粒度的視覺特征對齊到LLM的文本特征空間中,利用LLM捕獲跨模態交互。隨后,我們構建了具有統一格式的指導數據進行模型訓練。最后,我們提出了知識引導的生成策略,以在解碼步驟中施加先前約束,從而促進獨特知識線索的生成。通過在三個基準測試上進行的實驗,我們展示了與強大基線相比,在所有評估指標上的顯著提升,范圍從3.0%到14.6%。

付費5元查看完整內容

本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。

顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

在過去的幾年中,在自然語言處理(NLP)和計算機視覺(CV)中使用的方法取得了一些突破。除了這些對單模態模型的改進之外,大規模的多模態方法已經成為一個非常活躍的研究領域。

這本書是一個研討會的結果,在會上,我們回顧了多模態方法,并試圖創建一個該領域的堅實概述,從深度學習的兩個子領域的當前最先進的方法開始。此外,還討論了一種模態轉換為另一種模態的建模框架,以及利用一種模態來增強另一種模態的表示學習的模型。為總結第二部分,介紹了專注于同時處理兩種模態的架構。最后,還介紹了其他模態以及通用多模態模型,這些模型能夠在一個統一的架構內處理不同模態上的不同任務。

1. 引言

人類有五種基本的感官:聽覺、觸覺、嗅覺、味覺和視覺。擁有這五種模態,我們就能夠感知和理解周圍的世界。因此,“多模態”意味著同時結合不同的信息通道來理解我們的環境。例如,當幼兒學習單詞“cat”時,他們使用不同的模態,大聲說出這個單詞,指著貓,發出“喵”的聲音。利用人類的學習過程作為角色模型,人工智能(AI)研究人員還嘗試結合不同的模態來訓練深度學習模型。從表面上看,深度學習算法是基于一個神經網絡,該神經網絡被訓練來優化一些通過所謂的損失函數在數學上定義的目標。優化,即最小化損失,是通過稱為梯度下降的數值過程來完成的。因此,深度學習模型只能處理數值輸入,并且只能產生數值輸出。然而,在多模態任務中,我們經常面臨圖片或文本等非結構化數據。因此,第一個主要問題是如何用數字表示輸入。關于多模態任務的第二個問題是如何準確地結合不同的模態。例如,一個典型的任務可能是訓練一個深度學習模型來生成一張貓的圖片。首先,計算機需要理解輸入的文本“貓”,然后以某種方式將這些信息轉換為特定的圖像。因此,需要識別文本輸入中單詞之間的上下文關系和圖像輸出中像素之間的空間關系。對學齡前兒童來說可能很容易的事情,對電腦來說卻是一個巨大的挑戰。雙方都必須了解“貓”這個詞,它包含了動物的含義和外觀。現代深度學習中的一種常見方法是生成嵌入,將貓以數字形式表示為某些潛空間中的向量。然而,為了實現這一點,近年來開發了不同的方法和算法架構。本書概述了最先進的(SOTA)多模態深度學習中使用的不同方法,以克服來自非結構化數據和組合不同模態輸入的挑戰。

**由于多模態模型通常使用文本和圖像作為輸入或輸出,因此第2章將介紹自然語言處理(NLP)和計算機視覺(CV)方法作為基礎。**NLP領域的方法試圖處理文本數據,而CV處理的是圖像處理。關于NLP(第2.1節),一個重要的概念是所謂的詞嵌入,這是當今(幾乎)所有多模態深度學習架構的一個重要部分。這一概念也為基于transformer的模型奠定了基礎,如BERT (Devlin等人,2018a),它在幾個NLP任務中取得了巨大的改進。特別是transformer的(自)注意力機制(Vaswani et al., 2017a)徹底改變了NLP模型,這就是為什么大多數模型都依賴transformer作為骨干。在計算機視覺(第2.2小節)中,將介紹不同的網絡架構,即ResNet (He等人,2015)、EfficientNet (Tan和Le, 2019a)、SimCLR (Chen等人,2020a)和BYOL (Grill等人,2020b)。在這兩個領域,比較不同的方法及其在具有挑戰性的基準上的性能是非常有趣的。因此,第2章的最后2.3小節對CV和NLP的不同數據集、預訓練任務和基準進行了總體概述。 第二章(見3)側重于不同的多模態架構,涵蓋了文本和圖像如何結合的各種各樣。所提出的模型結合并改進了NLP和CV的不同方法。首先,查看Img2Text任務(第3.1小節),介紹用于物體識別的數據集Microsoft COCO (Lin等人,2014a)和用于圖像描述的網格記憶transformer (M2 transformer) (Cornia等人,2019)。相反,研究人員開發了基于短文本提示(第3.2節)的圖像生成方法。完成這項任務的第一個模型是生成對抗網絡(GANs) (Goodfellow等人,2014b)和變分自編碼器(vae) (Kingma和Welling, 2019)。這些方法是近年來改進的,今天的SOTA transformer架構和文本引導擴散模型,如DALL-E (Ramesh et al., 2021a)和GLIDE (Nichol et al., 2021a)取得了顯著的結果。另一個有趣的問題是如何利用圖像來支持語言模型(第3.3節)。這可以通過順序嵌入、更高級的接地嵌入或transformer內部來實現。另一方面,也可以查看支持CV模型的文本,如CLIP (Radford et al., 2021b)、ALIGN (Jia et al., 2021a)和Florence (Yuan et al., 2021)(第3.4小節)。他們使用基礎模型,這意味著重用模型(例如DALL-E 2中的CLIP)以及用于連接文本和圖像的對比損失。此外,零樣本使對新的和未見過的數據進行分類成為可能,而無需昂貴的微調。特別是用于圖像分類和生成的開源架構CLIP (Radford et al., 2021b)去年吸引了很多關注。在第二章的最后,我們會介紹一些可以同時處理文本和圖像的架構(第3.5節)。例如,Data2Vec對語音、視覺和語言使用相同的學習方法,以這種方式旨在找到一種通用方法來處理一個架構中的不同模態。此外,VilBert (Lu等人,2019a)擴展了流行的BERT架構,通過實現共同注意力(co-attention)來處理圖像和文本作為輸入。該方法也用于谷歌的Deepmind Flamingo (Alayrac等人,2022)。此外,Flamingo旨在通過少樣本學習和凍結預訓練的視覺和語言模型,用單個視覺語言模型解決多個任務。

在最后一章(見4)中,介紹了能夠處理文本和圖像以外的模態的方法,如視頻、語音或表格數據。這里的總體目標是基于挑戰而不是模態找到一個通用的多模態架構。因此,人們需要處理多模態融合和對齊的問題,并決定是使用連接表示還是協調表示(第4.1節)。此外,我們將更詳細地討論如何準確地組合結構化和非結構化數據(第4.2節)。因此,將提出近年來發展起來的不同融合策略。本書通過生存分析和經濟學中的兩個用例說明了這一點。除此之外,另一個有趣的研究問題是如何在一個所謂的多用途模型(第4.3小節)中解決不同的任務,就像谷歌研究人員(Barham et al., 2022)在他們的“路徑”模型中所打算創建的那樣。展示了多模態深度學習在藝術場景中的一個示例應用,其中DALL-E (Ramesh et al., 2021a)等圖像生成模型被用于生成藝術領域的藝術作品(第4.4節)。

付費5元查看完整內容

知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。

付費5元查看完整內容
北京阿比特科技有限公司