亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,隨著提示學習方法在自然語言處理領域被提出,其日益受到研究人員廣泛關注.它通過將各類下游任務重 構成預訓練任務的形式,以參數高效和數據高效的方式將大規模預訓練模型應用在各類自然語言相關下游任務中.其中以 GPT 系列為代表的模型通過提示學習在對話生成和多模態圖文理解等任務上取得了巨大的成功.然而,這類模型及方法還不 能解決視覺中的稠密任務.受此啟發,一些研究人員逐漸將提示學習廣泛應用到視覺相關的各類任務當中,如圖像識別、目 標檢測、圖像分割、領域適應、持續學習等.由于目前還沒有提示學習應用在視覺相關領域中的綜述,本文將對視覺單模態 領域以及視覺語言多模態領域的提示學習方法展開全面論述和分析.作為回顧,我們首先簡要介紹自然語言處理領域的預訓 練模型,并對提示學習的基本概念、下游應用形式以及提示模版類型進行闡述和分類.其次,我們分別介紹視覺單模態領域 以及視覺語言多模態領域里提示學習方法適配的預訓練模型和任務.再次,我們分別介紹視覺單模態領域以及視覺語言多模 態領域的提示學習方法.在自然語言處理領域,提示學習方法以繼承預訓練形式實現多任務統一為主要目的;與此不同,在 視覺相關領域,提示學習方法側重于面向特定下游任務進行設計.為此,我們將從方法設計上進行簡單分類,然后從應用任 務角度詳細介紹視覺單模態提示學習和視覺語言多模態提示學習方法.最后,我們對比分析了自然語言處理領域和視覺相關 領域提示學習研究的進展,并對未來研究路線給出了展望。

近年來,隨著如 GPT[1],BERT[2],T5[3]等大規 模預訓練語言模型的相繼提出,“預訓練-微調”范 式極大地推動了自然語言處理領域的發展.在這個 范式中,首先對以 Transformer[4]為主干的模型在廣 泛無標注的語料數據集上通過語言建模[1,2,5]等任務 進行自監督預訓練,然后在下游應用中針對不同的 任務設計不同的優化目標和添加新的網絡模塊,通 過對模型和添加網絡模塊的全部參數進行微調來 實現部署和應用.由于預訓練數據體量大、模型參數 多,預訓練模型具有極強的文本綜合表征和理解能 力,使得“預訓練-微調”范式在各類下游任務上都 展現出了卓越的性能.然而,這種范式存在以下幾個 問題:(1)在不同任務上都需要優化和調整模型 的全部參數,造成了巨大的計算開銷以及部署成本 的增加;(2)需要針對不同任務進行不同的優化 目標設計,不可避免地造成了預訓練與下游任務之 間的差異,限制了對預訓練知識的充分利用;(3) 收集專屬各類下游任務的訓練集對模型進行微調 成為此范式必不缺少的一個環節,不適用于數據資 源匱乏的實際應用場景. 為此,LAMA[6]、GPT-3 [7]等大規模語言模型相 繼被提出,這些大規模語言模型采用一種“預訓練 -提示-預測”的新范式,一定程度地解決了“預訓 練-微調”范式中存在的問題,再次推動了自然語言 處理領域的發展,其中的提示學習也成為近幾年的 研究熱點.不同于“預訓練-微調”范式需要將預訓 練模型通過不同的目標設計適配應用到各類下游 任務中,“預訓練-提示-預測”范式通過將下游任 務重構成預訓練任務的形式,使得各類下游任務能 夠以預訓練預測的方式被解決,這些下游任務包括事實 調查[6,8]、文本分類[9,10]、自然語言推理[11]、命名體 識別[12]、常識推理[13,14]、問答[15]等.例如,在根據影 評“這部電影很好看”對電影情感類別判斷的例子 中,不需要專門收集下游數據和額外增加一個需訓 練優化的分類層到預訓練模型,只需要將影評與提 示模版“這部電影的類型是___”串接起來作為模 型的輸入,直接借助于預訓練階段的語言建模任務 就可以在空白處預測出電影的類別.總的來說,“預 訓練-提示-預測”范式展現出了以下優勢:(1)預 訓練模型的全部參數都可以保持不變,極大降低了 下游應用的計算和部署成本;(2)通過任務重構 保證了下游任務與預訓練任務的一致性,可以更加 充分地利用預訓練模型的知識;(3)額外收集下 游訓練集在這種范式下不是必要的,除了可以和微 調的方式一樣應用在數據充足的場景下,提示學習 還可以在零樣本或者少樣本場景下使用.

在視覺單模態以及視覺語言多模態領域,“預 訓練-微調”范式被廣泛采用[16,17],也同樣存在計算 成本高、部署復雜等難題.受提示學習高效利用大規 模預訓練語言模型的啟發,很多學者將提示學習引 入到視覺單模態和視覺語言多模態領域來解決各 類相關下游任務. 目前的視覺單模態提示學習方法包括串接可 優化向量序列[18-20],添加像素級可優化擾動[21-23], 學習提示網絡層[24-26],面向特定成分的組合提示學 習[27,28],建立標簽映射[29-31],任務重構[31],網絡結 構搜索[32]等.這些方法適用的下游任務包括數據均 衡視覺分類[18,21,24,31],持續學習[19,33,34],領域泛化、 適應[20,28,35],細粒度目標檢索[36],對抗魯棒學習[23], 語義分割[37],長尾識別[38],開放集學習[39]等. 在視覺語言多模態領域,提示學習方法包括純 文本提示學習[40-42],視覺信息引導的文本提示學習 [43,44],文本或外部知識引導的文本提示學習[45,46], 文本和視覺聯合提示學習[47,48],面向特定成分的組 合提示學習[49,50],基于分布的提示學習[51,52],多任 務共享的提示學習[53],梯度引導的提示學習[54],無 監督提示學習[55],建立顏色與標簽關系[56],視覺映 射到語言空間[57]等.這些視覺語言多模態提示學習 方法被應用于各類下游任務,包括數據均衡視覺分 類[40,43,47,51,53],基礎到新類別泛化[45,46,48,52],領域泛 化[40,43,48,58],領域適應[59,60],視覺問答[61,62],圖片 描述[63,64],圖文檢索[65],視覺蘊含[61],視覺推理[66], 多標簽分類[67],開放集識別[31,68],去偏差提示學習 [69,70],組合零樣本學習[71,72],圖像分割[73,74]等. 針對自然語言處理領域中的提示學習方法[6,75] 已經有相關綜述[76]展開了全面的介紹.而在視覺相 關領域中,目前只有針對預訓練技術的綜述[77,78], 而缺少視覺領域提示學習方法的綜述.為此,本文對 單模態視覺以及多模態視覺語言領域中的提示學 習方法展開全面介紹.

我們將首先介紹自然語言處理領域的預訓練 模型和提示學習方法[6,75]的基本概念,并且結合大 規模預訓練語言模型的預訓練任務簡要介紹提示 學習的應用形式和模版類型.其次,我們將分別介紹 視覺單模態與視覺語言多模態領域里的預訓練模 型.再次,我們將針對提示學習在各類下游任務上的 廣泛應用,分別詳細介紹視覺單模態以及視覺語言多模態領域中針對各類應用任務提示學習方法的 設計以及特點的分析.最后,我們給出在未來研究中 視覺和多模態提示學習方法發展的方向,并總結全 文.全文組織結構如圖 1 所示.

付費5元查看完整內容

相關內容

計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能系統。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

Transformer架構在自然語言處理和計算機視覺等多個領域展現了顯著的成功。當涉及到圖學習時,transformer不僅需要捕捉節點對之間的交互,還需要保持揭示它們之間潛在關系和鄰近性的圖結構,顯示出捕捉不同圖結構的表達能力。因此,已經提出并廣泛應用了各種結構保持圖transformer,用于生物信息學和化學信息學中的圖級任務。然而,與圖結構保持相關的策略在文獻中尚未得到良好的組織和系統化。在本文中,我們提供了結構保持圖transformer的全面概述,并從它們的設計目標的角度對這些方法進行了概括。首先,我們將策略分為四個主要組:節點特征調制、上下文節點采樣、圖重寫以及transformer架構改進。然后,我們根據圖結構保持的覆蓋范圍和目標進一步細分策略。此外,我們還討論了圖transformer模型在保持圖結構和理解圖的本質方面的挑戰和未來方向。

付費5元查看完整內容

終身學習(LLL)作為一種新興方法打破了傳統機器學習的局限性,并賦予了模型能夠像人類一樣在學習 過程中不斷積累、優化并轉移知識的能力。近年來,隨著深度學習的廣泛應用,越來越多的研究致力于解決深度神經 網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境,并將LLL方法應用于各種各樣的實際場景中,以推進人工 智能由弱向強的發展。針對計算機視覺領域,首先,在圖像分類任務中將LLL方法歸納為四大類型:基于數據驅動的 方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法;然后,介紹了 LLL方法在其他視覺任務中 的典型應用和相關評估指標;最后,針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向

傳統的機器學習總是被限制在一個封閉的靜態環境中, 通常被稱為孤立學習,這種學習方式不考慮任務以外的信 息,即針對一個任務,模型的訓練和推理只在符合獨立同分 布假設的數據上進行;然而這樣的學習方式是低效的,畢竟 現實場景顯然是一個開放的動態環境,人類在這種環境下會 不斷地積累知識并優化形成經驗,用于幫助解決出現的 問題[1] 。 終身學習(LifeLong Learning, LLL)范式是通過模仿人類 的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知 識的能力,例如會騎自行車的人能夠很快學會騎摩托車,在 遇到新任務或者新問題時會很快產生聯想并無縫地將這些 知識遷移,然后根據特定的問題進行特別的學習。這樣的學 習方式是高效且自然的,這也是終身學習過程中最為重要的 一環。

在計算機視覺領域,以深度學習為代表的學習框架尚未 達到終身學習范式的要求。例如要單獨訓練一個過參數化 的深度模型,就必須為每個任務收集大量的數據和進行繁瑣 的人工預處理等,這使得學習成本隨著任務量大幅增加,這 無疑是耗時且低效的方式,尤其是在一些對時間和性能有特 殊要求的應用場景下甚至是不被允許的。深度學習獨特的 訓練和推理模式使得深度學習模型還遠遠達不到人類的學 習效果,例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰:1)災難性遺忘,即網絡在學習了新的知識之后,可能會 徹底遺忘在先前任務上學到的知識[2] ;2)概念漂移,即網絡 對屬于同類但是不同分布的新數據表現效果差[3] 。因此要 求深度學習模型既要滿足一定的可塑性以適應新數據的輸 入,又要具備一定的穩定性以避免在整合新知識的同時產生 大量的遺忘,即擺脫穩定性-可塑性困境[4] 。 此外,一個簡單的思路是融合所有的數據訓練一個大規 模模型,即聯合訓練或者多任務學習,但這并不在本文定義 的終身學習范式內;因為把時間線拉長,無休止地存儲所有 數據必然無法實現,所以需要對它進行一定程度的限制,其 次每當接受新任務時就要重新訓練所有的數據也不符合人 類的學習方式。針對深度學習的框架,直觀上聯合訓練或許 是終身學習方法的一個上界,因為深度學習是一個優化問 題,聯合訓練更有可能找到所有任務的全局最優解。 為滿足對模型存儲上的限制要求,大量的研究者從深度 學習的框架入手,從多個角度探索終身學習的解決方式,并 在多個應用方向展現了它的可行性。本文調研并跟蹤了近 年來的終身學習相關文獻,相較于文獻[5-6],本文增加了評 估終身學習模型性能的相關指標,不僅考慮了模型在終身學 習過程中識別的能力,同時考慮了存儲即資源利用的能力; 相較于文獻[7-8],本文不僅在圖像分類中詳細調研了終身 學習的相關應用,還介紹了終身學習在其他計算機視覺如目 標檢測等中的應用。終身學習不僅要解決實際應用環境中 的成本問題,更有可能是現階段弱人工智能邁向未來強人工 智能的重要一步。

1 終身學習的定義

終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1,T2,?,TN,其中每個任務都 有對應的數據集 D1,D2,?,DN,任務之間沒有嚴格的約束并 且此時模型積累了源自這 N 個任務的知識并存儲于知識庫 中。當面對新的任務 TN + 1 及其數據 DN + 1 時,Mt 可以利用知 識庫中積累的先驗知識幫助學習 TN + 1,并且在學習 TN + 1 后, Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供 未來繼續使用,同時 Mt + 1 能最大限度地保留在先前 N 個任 務上的性能。由此可見,終身學習的關鍵是持續地學習和不 斷積累知識,即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲 新知識演化為 Mt + 1。在這個定義下,還額外需增加一個存儲 限制,即知識庫不能保留所有的訓練數據,否則將會與多任 務學習無異,違背終身學習的初衷。

2 終身學習方法的分類

計算機視覺作為深度學習最為成功的應用,框架一般可 以拆解為輸入、優化和結構這 3 個部分,用于積累和再應用 的知識就可以以這 3 個部分作為切入點,同時也可以組合使 用它們。本文將從知識的角度對終身學習方法進行分類與 歸納,如表 1所示。

3 終身學習的其他應用

終身學習不僅在解決基礎問題中開闊了研究空間,也逐 漸 助 力 于 目 標 檢 測(Object Detection)[77-81] 、語 義 分 割 (Semantic Segmentation)[77-81] 、圖像生成[90-95] 和其他[96-102] 等各 類計算機視覺的研究方向。

4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方 法,介紹了在其他計算機視覺任務上的成功應用,最后簡要 探討了在未來可以進一步推動終身學習發展的方向。終身 學習給予了模型在動態環境中更多更強大的學習能力,雖然 目前仍處于起步階段,但不可置疑這是人工智能發展的重要 一環,無論是理論上的研究,還是工業界的落地都具有非常 大的意義。

付費5元查看完整內容

源自自然語言處理的新范式——提示法,近來在計算機視覺領域掀起一股浪潮,為各種計算機視覺應用,如圖像識別和圖像生成,帶來顛覆性的變革。與傳統的一次確定、持續學習的架構(如針對特定類別集進行訓練的線性分類器)相比,提示法提供了更大的靈活性和更多用于創新應用的機會。它允許模型通過調整文本指令或修改模型輸入空間中少量參數(同時保持預訓練參數的大部分不變)來執行新任務,如識別新類別。這一范式顯著地推動了人工智能與人類對話交互達到前所未有的水平。在短時間內,提示法在廣泛的問題領域中展示了其有效性,包括圖像分類、物體檢測、圖像生成和編輯、視頻分析和機器人控制。在本教程中,我們的目標是通過建立計算機視覺與自然語言處理研究之間的聯系,為提示法提供全面的背景知識。我們還將回顧使用提示法解決計算機視覺問題的最新進展。

構建最先進的視覺識別系統的常見方法是使用離散標簽來訓練視覺模型,以預測固定的對象類別集合(He et al., 2016; Dosovitskiy et al., 2021)。從技術角度看,這是通過將視覺模型(如ResNet(He et al., 2016)或ViT(Dosovitskiy et al., 2021))生成的圖像特征與被視為視覺概念的固定權重集合相匹配來實現的,這些權重是隨機初始化的。雖然訓練類別通常具有文本形式,如“金魚”或“衛生紙”,但為了簡化交叉熵損失的計算,它們會被轉換為離散標簽,這使得文本中包含的語義在很大程度上未被利用。這種學習范式限制了視覺識別系統僅能處理封閉集的視覺概念,使它們無法處理新的類別,因為學習新的分類器需要額外的數據。

最近,像CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)這樣的視覺-語言預訓練方法作為視覺表示學習的有前景的替代方案而出現。其主要思想是使用兩個單獨的編碼器(每種模態一個)來對齊圖像和原始文本。例如,CLIP和ALIGN都將學習目標制定為對比損失,這種損失會在特征空間中拉近圖像及其文本描述,同時推離不匹配的配對。通過大規模的預訓練,模型可以學習多樣化的視覺概念,并且可以通過提示輕松地轉移到任何下游任務(Radford et al., 2021; Jia et al., 2021; F¨urst et al., 2021; Li et al., 2021; Singh et al., 2021; Yuan et al., 2021)。特別是,對于任何新的分類任務,人們可以首先通過給文本編碼器提供描述任務相關類別的句子來合成分類權重,然后與圖像編碼器生成的圖像特征進行比較。

我們觀察到,對于預訓練的視覺-語言模型,文本輸入(稱為提示)在下游數據集中起著關鍵作用。然而,確定正確的提示是一項不簡單的任務,通常需要花費大量時間來調整詞語——詞語的微小變化可能會對性能產生巨大影響。例如,對于Caltech101(圖1(a),第2個與第3個提示),在類別標記前加上“a”可以提高超過5%的準確度。此外,提示工程還需要對任務以及理想情況下語言模型的底層機制有先驗知識。圖1(b-d)中的例子說明,添加與任務相關的上下文可以帶來顯著的改進,即,對于Flowers102添加“flower”,對于DTD添加“texture”,對于EuroSAT添加“satellite”。調整句子結構可以進一步提高性能,例如,對于Flowers102,在類別標記后放置“a type of flower”,對于DTD,只保留上下文中的“texture”,并且對于EuroSAT,在“satellite photo”前加上“centered”。然而,即使進行了大量調整,也無法保證所得到的提示對這些下游任務來說是最優的。

受到自然語言處理(NLP)中最近的提示學習研究的啟發(Shin et al., 2020; Jiang et al., 2020; Zhong et al., 2021),我們提出了一種簡單的方法,稱為上下文優化(Context Optimization,CoOp)1,用于自動化提示工程,特別是針對預訓練的視覺-語言模型。具體來說,CoOp使用可學習的向量來對提示的上下文詞進行建模,這些向量可以用隨機值或預訓練的詞嵌入進行初始化(參見圖2)。我們提供了兩種實現,以處理不同性質的任務:一種是基于統一上下文的,它與所有類別共享相同的上下文,并且在大多數類別上表現良好;而另一種是基于類別特定上下文的,它為每個類別學習一組特定的上下文標記,發現這對一些細粒度類別更加適用。在訓練期間,我們只需使用交叉熵損失來最小化預測誤差,對可學習的上下文向量進行優化,同時保持整個預訓練參數不變。梯度可以通過文本編碼器進行反向傳播,將參數中編碼的豐富知識提煉出來,用于學習與任務相關的上下文。

付費5元查看完整內容

多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。

深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。

人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。

當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。

1 預訓練數據集與預訓練任務

在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。

預訓練任務

2 預訓練模型

2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。

單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。

2.2 圖像-文本多模態預訓練模型

單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。

由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。

2.3 視頻-文本多模態預訓練模型

Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。

Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。

Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。

3. 下游任務性能對比

3.1 圖像-文本多模態預訓練模型

圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。

3.2 視頻-文本多模態預訓練模型

關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹

4 問題與挑戰

視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:

1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。

2)知識驅動的預訓練模型

預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。

3)預訓練模型的評價指標

現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。

4)探索多樣的數據來源

視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。

5)預訓練模型的社會偏見和安全性

由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。

5 結 語

視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。

付費5元查看完整內容

深度學習在各個領域的顯著成功依賴于大規模注釋數據集的可用性。然而,使用人工生成的注釋會導致模型有偏差學習、領域泛化能力差和魯棒性差。獲取注釋也很昂貴,需要付出很大的努力,這對視頻來說尤其具有挑戰性。作為另一種選擇,自監督學習提供了一種不需要注釋的表示學習方法,在圖像和視頻領域都顯示出了前景。與圖像域不同,學習視頻表示更具有挑戰性,因為時間維度,引入了運動和其他環境動力學。這也為在視頻和多模態領域推進自監督學習的獨家想法提供了機會**。在這項綜述中,我們提供了一個現有的方法在視頻領域的自監督學習重點。**我們根據它們的學習目標將這些方法總結為三種不同的類別: 1) 文本預置任務,2) 生成式建模,和 3)對比學習。這些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我們進一步介紹了常用的數據集、下游評估任務、現有工作的局限性以及該領域未來的潛在方向。

對大規模標記樣本的要求限制了深度網絡在數據有限且標注困難的問題上的使用,例如醫學成像Dargan et al. [2020]。雖然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大規模標記數據集上進行預訓練確實能提高性能,但這種方法存在一些缺陷,如注釋成本Yang et al. [2017], Cai et al. [2021],注釋偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏魯棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自監督學習(SSL)已經成為預訓練深度模型的一種成功方法,以克服其中一些問題。它是一種很有前途的替代方案,可以在大規模數據集上訓練模型,而不需要標記Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些來自訓練樣本本身的學習目標來訓練模型。然后,這個預訓練的模型被用作目標數據集的初始化,然后使用可用的標記樣本對其進行微調。圖1顯示了這種方法的概覽。

付費5元查看完整內容

隨著功能強大的預訓練視覺語言模型(如CLIP)的興起,研究如何使這些模型適應下游數據集變得非常必要。最近提出的一種名為上下文優化(CoOp)的方法將提示學習的概念引入視覺領域,以適應預訓練的視覺語言模型。具體來說,CoOp將提示中的上下文單詞轉換為一組可學習的向量,并且僅使用少量標記的圖像進行學習,可以在經過大量調整的手動提示中實現巨大的改進。在我們的研究中,我們確定了CoOp的一個關鍵問題: 學習的上下文不能泛化到同一數據集內更廣泛的不可見類,這表明在訓練期間觀察到的CoOp基類過擬合。 為了解決這個問題,我們提出了條件上下文優化(CoCoOp),它通過進一步學習一個輕量級神經網絡來為每幅圖像生成一個輸入條件標記(向量)來擴展CoCoOp。與CoOp的靜態提示相比,我們的動態提示適應每個實例,因此對類遷移不那么敏感。大量的實驗表明,對于不可見的類,CoCoOp的泛化效果要比CoOp好得多,甚至在單個數據集之外還顯示出很好的可遷移性; 具有較強的域泛化性能。代碼可在//github.com/ KaiyangZhou/CoOp

付費5元查看完整內容

深度視覺生成是計算機視覺領域的熱門方向,旨在使計算機能夠根據輸入數據自動生成預期的視覺內容。深度視覺生成用人工智能技術賦能相關產業,推動產業自動化、智能化改革與轉型。生成對抗網絡(GAN)是深度視覺生成的有效工具,近年來受到了極大關注,成為快速發展的研究方向。GAN能夠接收多種模態的輸入數據,包括噪聲、圖像、文本、視頻,以對抗博弈的模式進行圖像生成和視頻生成,已成功應用于多項視覺生成任務,如廣告設計、藝術創作、動畫制作、虛擬現實等。利用GAN實現真實的、多樣化、可控的視覺生成具有重要的研究意義。本文通過系統調研,對近年來深度對抗視覺生成的相關工作進行綜述。首先介紹深度視覺生成背景及典型生成模型,然后根據深度對抗視覺生成的主流任務概述相關算法,總結深度對抗視覺生成目前面臨的痛點問題,在此基礎上分析深度對抗視覺生成的未來發展趨勢。

//www.cjig.cn/jig/ch/reader/download_new_edit_content.aspx?edit_id=202001&file_no=2022&journal_id=jig

付費5元查看完整內容

數據增強是通過轉換為機器學習人工創建訓練數據,是機器學習學科中一個廣泛研究的研究領域。雖然它對于提高模型的泛化能力很有用,但它也可以解決許多其他挑戰和問題,從克服有限數量的訓練數據到規范目標到限制數據量用于保護隱私。基于對數據增強的目標和應用的精確描述以及現有的分類法作品,該調查涉及用于文本分類的數據增強方法,旨在實現簡潔和研究人員和從業人員的綜合概述。根據分類法,我們將100多種方法分為12不同的分組,并提供最先進的參考資料,闡述哪些方法非常有前途。最后,研究給出了可能構成未來工作基石的觀點。

//www.zhuanzhi.ai/paper/6a3ab7686edb4fbbc9b7fe15b7a349a4

付費5元查看完整內容

Attention模型目前已經成為神經網絡中的一個重要概念,注意力模型(AM)自機器翻譯任務【Bahdanau et al 2014】首次引入進來,現在已經成為主流的神經網絡概念。這一模型在研究社區中非常受歡迎,適用領域非常廣泛,包括自然語言處理、統計學習、語音和計算機視覺方面的應用。本篇綜述提供了關于注意力模型的全面概述,并且提供了一種將現有注意力模型進行有效分類的分類法,調查了用于不同網絡結構的注意力模型,并顯示了注意力機制如何提高模型的可解釋性,最后,討論了一些受到注意力模型較大影響的應用問題。

付費5元查看完整內容
北京阿比特科技有限公司