亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺-語言模態的集成一直是多模態學習的一個重要研究方向,傳統上依賴于視覺-語言預訓練模型。然而,隨著大語言模型(LLMs)的出現,越來越多的研究開始關注將LLMs與視覺模態相結合。隨之而來的是將視覺模態融入LLMs的訓練范式的演變。最初,集成模態的方法是通過預訓練模態集成器來實現,稱為單階段微調(Single-stage Tuning)。此后,這一方法逐漸分化為兩種主要的研究方向:一是專注于性能提升的二階段微調(Two-stage Tuning),二是優先考慮參數效率的直接適應(Direct Adaptation)。然而,現有的綜述主要集中在最新的視覺大語言模型(VLLMs)與二階段微調方法上,缺乏對訓練范式演變及其獨特的參數效率考慮的深入理解。 本文對34篇來自頂級會議、期刊和高引用的Arxiv論文中的VLLM進行了分類和綜述,重點從訓練范式角度討論在適應過程中的參數效率。我們首先介紹LLMs的架構和參數效率學習方法,接著討論視覺編碼器和模態集成器的全面分類。然后,我們回顧了三種訓練范式及其效率考量,并總結了VLLM領域的基準測試。為了更深入了解它們在參數效率上的效果,我們比較并討論了具有代表性的模型的實驗結果,其中包括復制直接適應范式的實驗。通過提供對近期發展的見解以及實際應用的參考,本綜述為研究人員和從業人員在高效集成視覺模態到LLMs中的探索提供了重要指導。 關鍵詞: 多模態 · 大語言模型 · 視覺-語言模型 · 參數效率學習 · 指令微調 · 強化學習

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

多模態視覺語言模型(VLMs)作為一種變革性技術,出現在計算機視覺與自然語言處理的交叉領域,使得機器能夠通過視覺和文本兩種模態感知和推理世界。例如,像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型,在視覺和文本數據上展示了強大的推理和理解能力,并在零-shot 分類任務中超過了傳統的單模態視覺模型 [108]。盡管在研究中的快速進展和在應用中的日益普及,關于VLM的現有研究的綜合綜述仍然顯著缺乏,特別是對于那些希望在特定領域利用VLM的研究者。為此,我們在以下幾個方面提供了VLM的系統性概述:[1] 過去五年(2019-2024)中開發的主要VLM模型的信息;[2] 這些VLM的主要架構和訓練方法;[3] 對VLM的流行基準和評估指標的總結和分類;[4] VLM的應用,包括具身智能體、機器人技術和視頻生成;[5] 當前VLM面臨的挑戰和問題,如幻覺、 fairness(公平性)和安全性。詳細的文獻和模型庫鏈接收集可見于 //github.com/zli12321/Awesome-VLM-Papers-And-Models.git。 預訓練的大型語言模型(LLMs),如LLaMA [237] 和 GPT-4 [199],在廣泛的自然語言處理(NLP)任務中取得了顯著成功 [173, 184]。然而,隨著這些模型的不斷擴展 [191],它們面臨著兩個挑戰:(1)高質量文本數據的有限供應 [241, 142];(2)單一模態架構在捕捉和處理需要理解不同模態之間復雜關系的現實世界信息時的固有限制 [73, 95]。這些局限性促使了對視覺語言模型(VLMs)的探索和開發,VLM結合了視覺(例如圖像、視頻)和文本輸入,提供了更全面的理解,能夠理解視覺空間關系、物體、場景和抽象概念 [22, 85]。VLM突破了此前單模態方法的表示邊界,支持了更豐富、更加具有上下文信息的世界觀 [59, 244, 168],例如視覺問答(VQA)[4]、自動駕駛 [235]。與此同時,VLM遇到了與單模態模型不同的新挑戰,例如視覺幻覺,當VLM生成響應時,沒有進行有意義的視覺理解,而是主要依賴存儲在LLM組件中的參數知識 [76, 152]。目前已經有若干關于單模態模型的綜述 [190, 30],但多模態模型的綜述仍然缺乏。在本文中,我們對VLM的研究成果進行了批判性審視,系統地回顧了當前主要的VLM架構、評估與基準、應用以及VLM面臨的挑戰。

付費5元查看完整內容

 計算機視覺(CV)領域面臨著許多挑戰。最初,它依賴于手工設計的特征和基于規則的算法,導致精度有限。機器學習(ML)的引入帶來了進展,特別是遷移學習(TL),通過重用預訓練模型解決了各種CV問題。遷移學習需要較少的數據和計算資源,同時提供接近相同的精度,使其成為CV領域的重要技術。我們的研究重點在于遷移學習的發展,以及CV應用如何利用它來解決現實世界中的問題。我們討論了最近的發展、局限性和機會。

1 引言

近年來,存儲容量和計算能力大幅提升,尤其是在互聯網和云服務的擴展下。人工智能(AI)是這一擴展的主要受益者之一。然而,即使在這些令人印象深刻的發展下,AI模型仍然面臨數據和計算能力不足的問題。因此,能夠有效利用這些能力的公司最終處于有利的競爭地位,正如Verizon研究中77%的企業所證實的那樣[5]。此外,隨著互聯網的日益普及,企業可用的數據量爆炸式增長。據諾基亞報道,從2017年到2022年,互聯網流量增長了30%[33]。如今,充足的數據和計算資源使研究人員和公司能夠嘗試解決以前無法解決的復雜問題。其中之一就是計算機視覺(CV)問題,涉及圖像處理[52]。在使用機器學習(ML)的計算機視覺問題中,數據量至關重要,更多的圖像通常能讓ML模型學習得更好。然而,在某些計算機視覺問題領域,獲取訓練數據可能非常困難且昂貴。因此,人們正在努力在一個CV領域中重用已訓練的ML模型,并將其應用于相關的CV領域。將一個領域中訓練的模型重新用于另一個領域的努力被稱為遷移學習(TL)[56]。盡管TL可以應用于許多問題領域,例如使用遺傳算法的自然語言處理(NLP),但我們的研究論文僅關注TL在CV問題中的應用。 在本研究論文中,我們介紹了TL和CV的概念,回顧了一些研究這些主題的論文,并分別在背景、文獻回顧和結論部分概述我們的研究工作。本研究旨在探討通過遷移學習技術解決各種計算機視覺問題的最新進展。值得注意的是,這并不是Kitchenham等人[30]定義的系統化文獻綜述,涵蓋所有發展性工作。相反,我們著重于幾個影響當前研究格局的熱門類別。

2 背景

在本節中,我們嘗試通過相關背景提供對該主題的初步理解。接下來我們將概述人工智能(AI)、機器學習(ML)、神經網絡(NN)、深度神經網絡(DNN)、卷積神經網絡(CNN)、遞歸神經網絡(RNN)和遷移學習(TL)之間的關系。請參考圖1以增強讀者的理解。為了保持研究的范圍,我們將背景部分限制在必要的細節上。人工智能(AI)是一個利用機器學習和模擬多種智能行為來解決現實問題的科學領域[8]。該領域分為基于規則的專家系統(ES)、模糊系統和機器學習(ML)。專家系統(ES)側重于通過基于人類推理和邏輯的規則創建決策算法來模擬決策能力[50]。與此相反,模糊邏輯是一種數學/統計方法,它處理基于真理度的推理,而不是傳統的布爾邏輯中的真或假。它為處理不確定性和模糊性提供了框架,取決于數據,可以在現實世界問題中實現更接近人類的決策。前兩者的結合引入了機器學習(ML)的發展,其重點是從現有數據集中學習,并通過開發算法和統計模型進行預測/決策,而無需顯式的基于規則的編程。機器學習有不同的子領域/分類。一種分類[31]包括監督學習(如線性回歸、邏輯回歸)、無監督學習(如k均值聚類)、強化學習(如Q學習)、基于邏輯的學習(如決策樹)、感知機技術、統計學習算法(如貝葉斯網絡)和支持向量機(SVM)。在所有機器學習技術中,神經網絡(NN)是一個子集,旨在模仿人腦中生物神經元的互連。它們由排列成層的互連節點(神經元)組成。當激活時,每個神經元處理輸入數據并將其傳遞到下一層。這個過程使神經網絡能夠學習并做出決策,而無需明確編程[44]。在這個范式中,深度學習(DL)是一種主要方法,它涉及開發具有多個隱藏層的復雜人工神經網絡(ANN)架構,以實現模式識別和問題解決。深度學習架構的例子包括遞歸神經網絡(RNN)、卷積神經網絡(CNN)等。每種神經網絡架構都有其獨特的特征,并適用于不同的數據類型和任務。例如,RNN擅長處理序列數據,而CNN在計算機視覺任務中表現優異。這些先進的神經網絡技術已經革新了許多領域,包括機器人技術[12, 41]、圖像[39]和語音識別[15]、自然語言處理(NLP)[37]、網絡安全[36, 38]、醫學診斷[42]等。 卷積神經網絡(CNN)是一種高級架構,最初用于在圖像中準確分類字符或郵政編碼[25]。該架構專門設計用于顯著加快圖像分類和模式識別的訓練和執行過程,使其異常高效。CNN已廣泛應用于計算機視覺任務,如人臉識別、目標檢測、機器人視覺以及自動駕駛的實現[54]。CNN通常包括三種主要類型的層:卷積層、池化層和全連接層,也稱為全連接神經網絡(FCN)。 圖3展示了為目標檢測定制的CNN架構。深度學習技術的成功取決于感知機,它是神經網絡的基本構建塊。感知機接收二進制輸入并生成二進制輸出。在基于感知機的人工神經網絡中,多個感知機排列成層次結構。它們接收輸入,處理后生成中間輸出,并將這些輸出傳遞到下一層,最終得到最終輸出。神經網絡的層次結構被稱為其架構(CNN、RNN、Transformer等)。深度神經網絡(DNN)中的“深度”一詞表示使用多個層次將輸入數據轉化為輸出,代表復雜的轉換過程,詳見圖2中的示意。 遷移學習(TL)是一種機器學習技術,它利用在一個領域中獲得的知識來加速另一個領域的學習過程。這種方法在獲得足夠大的數據集來訓練特定問題領域的模型時尤其有價值。例如,在COVID-19疫情初期,缺乏標注的胸部X光數據來訓練網絡以檢測該疾病。然而,通過應用遷移學習,研究人員成功開發出一種檢測COVID-19的模型[26]。此外,在Guo等人[20]的研究中,通過遷移學習,預先訓練的深度神經網絡模型在目標任務的數據上進行了微調。遷移學習可以應用于多種問題領域,使用不同的技術。為了舉例,不同的自然啟發優化算法如粒子群優化、引力搜索算法、帶電系統搜索算法和灰狼優化算法被用于優化簡單Takagi-Sugeno比例積分模糊控制器在伺服系統位置控制中的參數調整[46]。我們可以采用遺傳算法來優化模糊邏輯控制器設計階段的模糊規則庫。在訓練階段之前,我們可以通過遷移學習減少不同神經模糊系統的學習時間。據文獻[14],模糊邏輯、神經網絡和遺傳算法可以用于改進基于圖像處理的模式識別。然而,我們的研究僅限于使用DNN的TL在CV問題中的應用。換句話說,我們將其他領域中使用不同技術的應用排除在本研究范圍之外。遷移學習的復雜性將在文獻回顧部分(第3節)中詳細探討。

付費5元查看完整內容

半監督學習的顯著進展推動了研究人員在計算機視覺領域探索其在目標檢測任務中的潛力。半監督目標檢測(SSOD)利用小規模標注數據集和大規模未標注數據集的組合,有效減少了對大規模標注數據集的依賴,這些數據集通常昂貴且耗時。最初,SSOD模型在有效利用未標注數據和管理生成的未標注數據偽標簽中的噪聲方面遇到了挑戰。然而,許多最近的進展已經解決了這些問題,導致SSOD性能顯著提升。本文全面回顧了27項最前沿的SSOD方法發展,從卷積神經網絡(CNNs)到Transformers。我們深入探討了半監督學習的核心組件及其在目標檢測框架中的整合,涵蓋數據增強技術、偽標簽策略、一致性正則化和對抗訓練方法。此外,我們對各種SSOD模型進行了比較分析,評估它們的性能和架構差異。我們旨在激發更多關于克服現有挑戰和探索半監督學習在目標檢測中新方向的研究興趣。

深度學習 [42], [43], [44], [45] 已成為一個活躍的研究領域,并在模式識別 [46], [47]、數據挖掘 [48], [49]、統計學習 [50], [51]、計算機視覺 [52], [53] 和自然語言處理 [54], [54], [55] 等多個領域中有著廣泛的應用。特別是在有監督學習環境中,深度學習通過有效利用大量高質量的標注數據,取得了顯著的成就。然而,這些有監督學習方法 [56], [57], [58] 依賴于昂貴且耗時的標注數據進行訓練。半監督目標檢測 (SSOD) [59] 通過結合標注數據和未標注數據 [60] 來彌補這一缺口,在計算機視覺領域 [52], [53] 尤其是在獲取大規模標注數據 [59] 具有挑戰性或成本高昂的行業中顯示出顯著進步。SSOD 應用于包括自動駕駛汽車 [61], [62] 和醫學影像 [63], [64] 在內的各個行業。在農業 [65] [66] 和制造業 [67] 等數據豐富但標注耗時的行業中,SSOD 有助于提高效率。

半監督方法 [68], [69] 通過利用未標注和標注數據 [70], [71] 提升模型性能并減少標注需求。此外,以前的目標檢測方法 [72], [73] 主要涉及手動特征工程 [74], [75] 和簡單模型的使用。這些方法在準確識別不同形狀和尺寸的物體時遇到困難。后來,卷積神經網絡 (CNNs) [77], [78] 的引入,通過直接從原始數據中提取分層特征 [79],實現了端到端學習 [80],大大提高了準確性和有效性。近年來,半監督目標檢測在深度學習架構 [81], [82]、優化技術 [83] 和數據集增強策略 [84], [85], [86], [87] 的推動下取得了顯著進步。研究人員開發了各種針對目標檢測的半監督學習 (SSL) 方法,每種方法都有其獨特的優缺點 [88], [89], [90]。這些方法主要分為偽標簽 [91], [92], [93] 和一致性正則化 [94],兩者在訓練過程中都有效利用了標注和未標注數據。此外,將SSL方法與最先進的目標檢測架構(如FCOS [95],Faster R-CNN [96] 和 YOLO [97])相結合,顯著提升了半監督目標檢測系統的性能和可擴展性。這種結合不僅提高了檢測準確性,還幫助模型在處理新的和未見過的數據集時表現良好。

隨著DEtection TRansformer(DETR) [98], [99], [100] 的出現,目標檢測取得了顯著進展。Transformers最初為自然語言處理 [54], [54], [55] 開發,在捕捉長距離依賴關系 [101] 和上下文信息 [102], [103] 方面表現出色,使其在復雜空間排列的目標檢測中理想 [104], [105]。與依賴于局部卷積并需要非極大值抑制 (NMS) [106] 來過濾冗余檢測的CNNs [78], [79], [80] 不同,DETR使用自注意力機制 [107], [108],不需要NMS。它將目標檢測任務視為直接的集合預測問題,消除了傳統的NMS [106] 和錨生成 [109] 過程。盡管有優勢,DETR仍存在如訓練期間收斂速度慢和小物體檢測困難等局限性。為了應對這些問題,DETR通過改進的注意力機制和優化技術 [110] 提高了性能和效率。在DETR取得成功后,研究人員現在在半監督目標檢測方法中采用基于DETR的網絡 [1], [2], [3],結合DETR的優勢與半監督學習,利用未標注數據 [88], [94],減少對大規模標注數據的需求。

由于基于transformer的半監督目標檢測(SSOD) [60], [111] 方法的快速進步,跟上最新進展變得越來越具有挑戰性。因此,從基于CNN到基于Transformer的SSOD方法的最新發展進行回顧對于該領域的研究人員具有重要意義。本文對從基于CNN到基于Transformer的半監督目標檢測(SSOD)方法的轉變進行了全面概述。如圖1所示,綜述將SSOD方法分為基于CNN(單階段和兩階段) [4], [6], [7], [8], [10], [24], [27], [45] 和基于Transformer的方法 [1], [2], [3],重點介紹了偽標簽和基于一致性的標注等技術。它還詳細介紹了包括強、弱和混合技術在內的數據增強策略 [85], [86], [87], [112], [113], [114], [115]。

圖2展示了一種為半監督目標檢測量身定制的教師-學生架構。一個預訓練的教師模型用于為未標注數據生成偽標簽。這些偽標簽與標注數據一起用于共同訓練學生模型。通過結合偽標注數據,學生模型從更廣泛和多樣化的數據集中學習,增強其準確檢測物體的能力。此外,數據增強方法也應用于標注和偽標注數據集。這種協同學習方法有效利用了標注和未標注數據,提高了目標檢測系統的整體性能。本文其余部分組織如下:第2節回顧了以前的SSOD綜述。第3節討論了該領域的相關工作。第8節探討了SSOD在各種視覺任務中的作用。第4節是本文的核心,提供了SSOD方法的全面概述。第5節研究了SSOD中使用的不同損失函數。第6節對SSOD方法進行了比較分析。第7節解決了開放的挑戰和未來的方向。最后,第9節對本文進行了總結。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

零樣本學習(ZSL)通過進行視覺-語義交互來識別未見類別,將語義知識從已見類別傳遞到未見類別,這一過程得到了語義信息(例如,屬性)的支持。然而,現有的ZSL方法僅使用預訓練的網絡主干(即CNN或ViT)提取視覺特征,由于缺乏語義信息的指導,這些方法未能學習匹配的視覺-語義對應關系來表示與語義相關的視覺特征,導致視覺-語義交互不理想。為解決這一問題,我們提出了一個漸進式語義引導視覺變換器用于零樣本學習(簡稱ZSLViT)。ZSLViT主要考慮了整個網絡中的兩個屬性:一是顯式地發現與語義相關的視覺表征,二是丟棄與語義無關的視覺信息。具體來說,我們首先引入了語義嵌入的token學習,通過語義增強和語義引導的token注意力來改善視覺-語義對應關系,并顯式地發現與語義相關的視覺token。然后,我們融合低視覺-語義對應關系的視覺token以丟棄與語義無關的視覺信息,用于視覺增強。這兩種操作被整合到各種編碼器中,以便在ZSL中逐步學習與語義相關的視覺表征,以實現精確的視覺-語義交互。廣泛的實驗表明,我們的ZSLViT在三個流行的基準數據集上,即CUB、SUN和AWA2,取得了顯著的性能提升。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

Prompt工程是一種技術,涉及用任務特定的提示,即prompts,增強大型預訓練模型,以使模型適應新任務。提示可以作為自然語言指令手動創建,或者作為自然語言指令或向量表示自動生成。Prompt工程使得基于提示進行預測成為可能,而不更新模型參數,也更容易地將大型預訓練模型應用于實際任務中。在過去的幾年里,Prompt工程在自然語言處理中得到了深入研究。近期,它在視覺-語言建模中也得到了深入的研究。然而,目前缺乏對預訓練視覺-語言模型上的Prompt工程的系統性概述。本文旨在為視覺-語言模型上的Prompt工程提供一個全面的調查,涉及三種類型的視覺-語言模型:多模態到文本生成模型(例如Flamingo)、圖像-文本匹配模型(例如CLIP)和文本到圖像生成模型(例如Stable Diffusion)。對于每一種模型,我們都總結并討論了簡短的模型摘要、提示方法、基于提示的應用以及相應的責任和完整性問題。此外,還討論了在視覺-語言模型、語言模型和視覺模型上進行提示的共性和差異性。最后,總結了這一話題的挑戰、未來方向和研究機會,以促進未來的研究。

Prompt工程是一種方法,通過用任務特定的提示增強模型輸入,將大型預訓練模型(也稱為基礎模型)適應新任務。具體而言,模型的輸入被增加了一個額外的部分,稱為提示,這可以是手動創建的自然語言指示[4]、自動生成的自然語言指示[5],或自動生成的向量表示[6]。自然語言指令也被稱為離散提示或硬提示,而向量表示被稱為連續提示或軟提示。Prompt工程實際上與大型預訓練模型的出現同時出現,并因此而變得突出,這兩者一起導致了機器學習(ML)的范式轉變。傳統的范式要求標記大量的數據,然后從頭開始訓練一個特定任務的ML模型或對預訓練的大型模型進行微調。模型的性能在很大程度上依賴于標記數據的質量和數量,這可能需要大量的資源來獲取。此外,傳統范式需要在某種程度上調整模型的參數,即在從頭開始訓練ML模型或完全微調預訓練模型的情況下的所有參數,或在參數高效微調的情況下的部分參數。這限制了ML模型的可擴展性,并要求每個任務都有一個特定的模型副本。最近,提示預訓練的大型模型使其適應特定任務已成為一種新趨勢。Prompt工程的關鍵思想是提供提示并與輸入一起,引導預訓練模型使用其現有知識解決新任務。如果提示是人類可解釋的自然語言(硬提示),相關的研究被稱為InContext Learning[7],它使模型能夠從任務指示、用少數示例的示范或上下文中的支持信息中學習。此外,提示也可以是連續的向量表示(軟提示)。相關的工作被稱為Prompt-Tuning[6],它直接在模型的嵌入空間中優化提示。 在本文中,我們的目標是通過提供關于預訓練VLMs的Prompt工程的前沿研究的全面調查,來彌補這一缺口。具體來說,我們根據模板的可讀性將提示方法分類為兩個主要類別,即硬提示和軟提示。硬提示可以進一步劃分為四個子類,即任務指示、上下文學習、基于檢索的提示和思維鏈提示。另一方面,軟提示是可以使用基于梯度的方法進行微調的連續向量。請注意,這項調查主要關注保持模型架構的提示方法,因此,如P-tuning[13]和LoRa[14]這樣將額外模塊引入模型的方法并不是這項調查的主要范圍。我們研究了三種類型的VL模型上的Prompt工程,分別是多模態到文本生成模型、圖像文本匹配模型和文本到圖像生成模型。每種模型類型的明確定義在Sec. 2.1中提供。此外,我們從編碼器-解碼器的角度分類現有的Prompt工程方法,如圖1所示,即編碼端提示或解碼端提示,其中提示分別添加到編碼器和解碼器。本文的其余部分組織如下。在Sec. 2中,我們總結并定義了我們在此調查中使用的分類和符號。Sec. 3、4和5介紹了多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型上Prompt工程的當前進展,每一節首先介紹相應模型的初步情況,然后詳細討論提示方法,再研究這些提示方法的應用和負責任的AI考慮因素。Sec. 6提供了提示單模態模型和VLMs之間的比較,并對它們的相似之處和差異進行了深入討論。最后,在Sec. 7中,我們強調了挑戰和潛在的研究方向。為了方便文獻搜索,我們還建立并發布了一個項目頁面,其中列出了與我們主題相關的論文并進行了組織。

多模態-文本提示方法

圖2展示了提示方法的分類。提示方法分為兩類:硬提示,它們是勞動密集型的、手工制作的文本提示,帶有離散的標記;而軟提示是可優化的、可學習的張量,與輸入嵌入連接在一起,但由于與真實詞嵌入不對齊,所以缺乏人類可讀性。

在圖像-文本匹配中的提示模型

在文本-圖像生成中的提示模型

結論

這篇關于預訓練視覺語言模型的提示工程的調查論文為這個領域的當前研究狀況提供了寶貴的見解。通過分析確定的主要發現和趨勢揭示了在適應視覺語言任務中有效使用提示來調整大型預訓練模型的方法。一個關鍵的發現是提示工程在不同類型的視覺語言模型上的多功能性和適用性,包括多模態到文本生成模型、圖像-文本匹配模型和文本到圖像生成模型。此調查從它們各自的特點探討了每種模型類型,強調了在它們上的各種提示方法。這些發現對學術界和工業界都有重要意義。通過利用提示工程技術,研究人員可以在視覺語言模型中獲得顯著的性能提升,而不需要大量的標記數據。這有可能減少數據注釋的負擔并加速視覺語言模型在實際應用中的部署。然而,重要的是要承認這次調查的局限性。該領域迅速發展的性質和現有的廣泛提示工程方法使得提供一個詳盡的概述變得具有挑戰性。此外,調查主要從提示工程的角度關注預訓練的視覺語言模型,并可能沒有涵蓋其他相關領域的所有最新進展。為了解決這些局限性,我們將維護并發布一個平臺來持續跟蹤這一領域的進展。進一步的研究應探討提示工程技術與其他新興技術,如強化學習或元學習,的集成,以提高視覺語言模型的性能和泛化能力。此外,研究提示工程模型的可解釋性和魯棒性對于確保其在實際部署和倫理使用中的關鍵。總的來說,這項調查為現有的知識體系做出了貢獻,為預訓練視覺語言模型中的提示工程提供了一個全面的概述。通過闡明提示工程技術的當前狀況、關鍵趨勢和影響,這項調查為那些希望利用視覺語言模型進行各種應用的研究者和從業者提供了寶貴的資源。它在研究中填補了一個空白,為預訓練模型在視覺和語言的背景下的適應提供了見解,為這一令人興奮的領域的進一步進展鋪平了道路。

付費5元查看完整內容

多模態表示學習是一種學習從不同模態及其相關性中嵌入信息的技術,已經在視覺問答(Visual Question Answering, VQA)、視覺推理自然語言(Natural Language for Visual Reasoning, NLVR)和視覺語言檢索(Vision Language Retrieval, VLR)等領域取得了顯著的成功。在這些應用中,來自不同模態的跨模態交互和互補信息對于高級模型執行任何多模態任務至關重要,如理解、識別、檢索或優化生成。研究人員提出了不同的方法來解決這些任務。

//www.zhuanzhi.ai/paper/e354713123ff3c4d72713e37300d0784

**基于transformer的架構的不同變體在多種模態上表現出色。本綜述介紹了關于深度學習多模態架構的進化和增強,以處理各種跨模態和現代多模態任務的文本、視覺和音頻特征的全面文獻。**本文總結了(i)最近任務特定的深度學習方法,(ii)預訓練類型和多模態預訓練目標,(iii)從最先進的預訓練多模態方法到統一架構,以及(iv)多模態任務類別和未來可能的改進,可以設計出更好的多模態學習。為新研究人員準備了一個數據集部分,涵蓋了預訓練和微調的大多數基準。最后,探討了面臨的主要挑戰、差距和潛在的研究方向。與我們的綜述相關的不斷更新的論文列表保存在

1. 引言

**多模態系統利用兩個或多個輸入模態,如音頻、文本、圖像或視頻,來產生與輸入不同的輸出模態。**跨模態系統是多模態系統的一個分支,它利用一種模態的信息來增強另一種模態的性能。例如,多模態系統將使用圖像和文本模態來評估情況并執行任務,而跨模態系統將使用圖像模態來輸出文本模態[1,2]。視聽語音識別(AVSR)[3]、檢測模因[4]中的宣傳和視覺問答(VQA)[5]都是多模態系統的例子。多模態表示學習技術通過分層處理原始異構數據來縮小不同模態之間的異構鴻溝。來自不同模態的異構特征以上下文信息[6]的形式提供額外的語義。因此,互補信息可以通過多種模態學習到。例如,視覺模態可以通過在AVSR中提供[7]唇動來幫助語音識別。最近的深度學習方法的高級變體通過在表示空間中映射不同的模態,解決了經典的多模態挑戰(相關性、翻譯、對齊、融合)。

近年來,大量針對特定任務的深度學習方法提升了不同多模態任務的性能[8]。最近,由于語義豐富的表示和大規模公開可用模型[9],自然語言處理(NLP)和計算機視覺(CV)的預訓練和微調的實現得到了最大的關注。**本文回顧了深度多模態學習方法的演變,并討論了使主干對各種下游任務具有魯棒性所需的預訓練的類型和目標。**大多數預訓練方法都基于Transformer,這提出了統一架構的想法,以處理所有下游任務的所有模態[10]。本綜述全面介紹了最近幾種預訓練和統一架構的方法,以及它們在基準、應用和下游任務評估上的性能。

**去年,已經發表了一些關于視覺語言預訓練的研究[11,12]。相比之下,我們涵蓋了在最近的工作[13]中展示的視覺、語言和音頻預訓練模型的架構細節。**除了討論預訓練類型外,我們還回顧了預訓練目標的通用和多模態版本。此外,我們總結了最近的統一架構(通用模型),這些架構消除了對不同下游任務的微調,最終減少了時間和計算復雜性。與最近的調研相反,我們更關注由視覺和音頻模式增強的NLP應用,例如情感分析、文檔理解、假新聞檢測、檢索、翻譯和其他推理應用。圖1展示了本次調研中包含的深度學習多模態論文的分類百分比。該柱狀圖顯示了每年互聯網上深度學習多模態方法的發展和可用性。本次調研的貢獻如下: 我們對多模態表示學習技術進行了全面的調研,以有效的方式彌合語言、視覺和音頻輸入之間的差距。

解決多模態的特定任務和基于transformer的預訓練架構的發展。 * 詳細闡述了預訓練類型、多模態學習的高級預訓練目標、詳細的架構討論和比較。 * 統一架構的開發,以解決所有下游任務的多種模式進行調研。 * 我們開發了深度多模態架構和復雜多模態應用的分類。 * 數據集部分描述了用于預訓練、微調和評估多模態方法的所有基準的綜合信息,為初學者提供了現成的詳細信息。 * 最后,闡述了該領域的主要挑戰、開放缺口和可能的未來預測。

2. 多模態深度學習方法

本節介紹了多模態架構的眾多變體,主要分為特定任務架構和預訓練-微調架構(管道如圖2所示)。圖3展示了第3節的分類。第3.1節是本研究中提到的任務的首字母縮略詞。第3.2節全面總結了特定任務的方法,這些方法是近年來轉變為大規模預訓練方法的先進多模態方法的基礎。第3.3節演示了在多模態數據集上訓練的預訓練過程、類型、目標和SOTA框架,以執行增強的NLP和跨模態任務。此外,本文最后還詳細介紹了最近獲得關注的統一體系結構。第3.4小節對SOTA方法在各種多模態任務上產生的結果進行了比較討論。

3. 多模態應用

本節展示了由深度學習架構增強的多模態應用程序的分類細節,如圖4所示。多模態任務分為主要類別:理解、分類、檢索和生成。針對每個多模態應用,討論了最佳性能架構的基準、評估指標、描述和比較。

付費5元查看完整內容

目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。

在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。

本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。

//contrastive-nlp-tutorial.github.io/

對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability

經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions

講者:

付費5元查看完整內容
北京阿比特科技有限公司