亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

首篇時序預訓練綜述!

時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。

1. 引言

作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。

為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。

最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰

我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述

? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。

2. TS-PTMs的概述

在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。

2.1 有監督的PTMs

早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。

通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。

基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。

2.2 無監督預訓練模型

本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。

2.3 自監督預訓練模型

本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。

3. 實驗結果與分析

在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。

6. 結論

在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。

付費5元查看完整內容

相關內容

點云數據由于其緊湊的形式和在表示復雜3D結構方面的靈活性而得到了廣泛的研究。點云數據準確捕捉和表示復雜3D幾何形狀的能力使其成為計算機視覺、機器人技術和自動駕駛等廣泛應用的理想選擇,這些應用都需要了解底層空間結構。鑒于標注大規模點云數據的挑戰,近年來自監督點云表示學習越來越受到關注。這種方法旨在從未標記的數據中學習通用且有用的點云表示,從而避免了大量的手動標注。在本文中,我們對使用DNNs的自監督點云表示學習進行了全面調查。我們首先介紹研究動機和近期研究的一般趨勢。然后簡要介紹常用的數據集和評估指標。在此基礎上,我們深入探討了基于這些技術的自監督點云表示學習方法。最后,我們分享了一些關于自監督學習在預訓練3D點云方面可能面臨的挑戰和潛在問題的想法。

1. 引言

三維點云是一種緊湊而靈活的表示形式,提供了豐富的幾何、形狀和尺度信息。隨著3D采集技術的快速進步,用于捕獲點云的3D傳感器已經變得越來越容易獲得,包括各種類型的3D掃描儀,激光雷達和RGB-D相機[1],[2]。當與圖像結合時,這些3D點云數據可以幫助機器感知周圍環境,從而被廣泛應用于計算機視覺、機器人、自動駕駛、遙感和醫療[3]等與場景理解相關的應用中。

隨著深度神經網絡(DNN)的不斷發展,點云理解得到了越來越多的關注,導致了近年來許多深度架構和模型的發展。然而,深度網絡的有效訓練通常需要大規模的、人工標注的訓練數據,例如用于目標檢測的3D邊界框和用于語義分割的逐點標注。由于遮擋、形狀變化以及人類感知和點云顯示之間的視覺不一致等因素,收集這些注釋可能是費時費力的。因此,大規模標注點云的高效收集已成為深度神經網絡有效設計、評估和部署的瓶頸。

為了規避耗時且昂貴的數據標記過程,許多自監督方法被提出,以從大規模無標記點云中學習視覺特征,而不依賴任何人工生成的標簽。一種流行的方法涉及設計各種前置任務讓網絡來解決。通過優化前置任務的目標函數來訓練網絡,并在此過程中學習特征。各種前置任務已被提出用于自監督學習,包括點云重建、對比學習和多模態學習等。前置任務具有兩個共性:(1)深度神經網絡在求解前置任務時必須捕獲點云的視覺特征;(2)通過利用數據本身的結構,從數據本身(自監督)中產生監督信號。 為促進方法學的進步并進行全面的比較,本文回顧了3D預訓練的自監督學習(SSL)方法,并為比較和預測技術提供了一個統一的視角。對該問題的綜合方法突出了現有方法的差異和相似性,可能鼓舞人心的新解決方案。我們將本次調查的貢獻總結如下:

統一的框架和系統的分類。本文提出了一個統一的框架,基于該框架,將現有的工作分為兩大類:對象和室內層,以及室外層。構建了下游任務和SSL學習方案的分類,以提供對這一領域的全面理解。 全面和最新的綜述。本文對經典和前沿的3D預訓練SSL方法進行了全面和及時的調查。對于每種類型的方法,都提供了細粒度的分類、深入的比較和總結。據我們所知,本文對SSL進行了首次回顧,特別關注預訓練的3D點云數據。 展望未來方向。本文強調了當前研究的技術局限性,并為未來的工作提出了幾個有希望的途徑,從各種角度提供了見解,以激勵該領域的進一步發展。

本綜述的結構如下:第2節介紹了預訓練點云的自監督學習的背景知識、常用的數據集及其特點。第3節系統地回顧了在物體和室內場景級別預訓練點云的SSL方法,而第4節比較和總結了室外場景級別數據的方法。最后,第5節確定了自監督點云預訓練的幾個有希望的未來方向。

2 物體和室內場景級別的自監督學習(SSL)

物體級別的自監督學習(SSL)方法主要關注使用單個3D物體(如椅子、桌子、汽車等)預訓練模型,這些物體通常與語義標簽關聯,以提供有關其身份的上下文信息。這種類型的數據通常用于物體識別、檢測和分割等任務,旨在識別和定位更大場景中的單個物體。另一方面,室內場景級別的SSL方法專注于使用整個3D室內環境預訓練模型,這些環境通常包含多個物體及其空間布局。室內場景級別的數據通常與物體和建筑元素的語義標簽關聯,例如“墻”、“門”、“窗戶”和“地板”,或者根據功能標簽進行分類,例如“廚房”、“臥室”、“客廳”或“辦公室”。與物體級別的SSL方法相比,室內場景級別的SSL方法通常需要將輸入數據預先分割成語義區域或物體,以提供關于場景的上下文信息。

**2.1 基于重建的自監督學習 **基于重建的自監督學習方法采用重建任務,使網絡能夠學習更好的3D點云表示(見圖3)。根據預設任務的性質,它們可以大致分為兩個主要子類別:基于掩碼的和基于損壞的。還有一些方法不屬于這兩組,它們被歸類為“其他”方法。

2.2 基于對比學習的自監督學習

對比學習是一種流行的自監督學習方法。它通過輔助任務構建正樣本和負樣本,并訓練模型使正樣本對在嵌入空間中靠近,同時將正樣本與負樣本分開。與生成方法相比,對比學習不依賴于特定樣本的細節,而是依賴于在嵌入空間中區分正樣本和負樣本。這一特性使得模型更容易優化和更具泛化性。

3.3 基于空間的自監督學習

基于空間的自監督學習方法利用點云中固有的豐富幾何信息來開發預設任務。圖5展示了一些典型的幾何變換,如裁剪、剪裁、抖動、隨機丟棄、下采樣和歸一化。通過采用這些空間退化點云的恢復過程,可以有效地預訓練模型,利用數據中豐富的空間上下文。

2.4 基于時間的自監督學習

基于時間的自監督學習方法強調利用序列中或人工生成的變換中固有的時間信息。點云序列由連續的點云幀組成,類似于視頻數據。例如,從RGB-D視頻幀轉換的室內點云序列和由連續點云掃描組成的激光雷達序列數據。這些點云序列包含豐富的時間信息,可以通過為自監督學習設計預設任務并利用提取的數據作為監督信號來訓練網絡。所學習的表示可以有效地轉移到各種下游任務。

2.5 多模態自監督學習

多模態學習旨在利用不同模態之間的相關性,如圖像、文本和點云(圖7)。這些方法的優點包括能夠利用來自多個來源的互補信息,對任何一種模態中缺失或嘈雜數據的魯棒性,以及對新環境的改善泛化能力。

3 室外場景級別的自監督學習

室內級別和室外級別自監督學習之間的主要區別源于點云數據的復雜性和稀疏性。室內級別的自監督學習關注具有相對較少變化和較高點云密度的環境,如房間、建筑物或其他封閉空間。另一方面,室外級別的自監督學習處理更復雜和動態的環境,如街道、森林和城市景觀,其中點云通常更稀疏。與物體和室內場景級別數據相比,室外點云的稀疏性導致語義信息的稀缺,因為可能只有少數幾個點表示一個物體或類別。此外,由于各種未見過的類別,室外場景級別點云的感知通常被認為是一個開放集問題,使得任務更具挑戰性。 自動駕駛系統通常依賴于室外場景的LiDAR數據,這些數據稀疏且缺乏顏色信息[95]。雖然無標簽的LiDAR數據很容易獲得1,但有標簽的數據的生產成本很高。這為在自動駕駛中建立依賴大規模標記3D數據的感知模型提出了一個重大挑戰[97]。因此,最近的工作專注于利用對大量未標記3D數據的自監督學習,以提高自動駕駛中下游任務的性能。上述挑戰使得室外場景級點云的預訓練成為一項艱巨的任務。然而,一些基于預測和流的方法已經被開發出來以匹配室外場景級點云的內在特性。

3.1 基于重構的自監督學習

與物體和室內場景級別的數據類似,基于重構的自監督預訓練已成為室外場景級別數據的一個重要研究領域(如圖8所示)。然而,室外場景級別點云的稀疏性給3D重構帶來了挑戰。為了解決直接處理大規模點云所遇到的困難,基于體素的和鳥瞰視圖(BEV)的重構方法已成為解決這些挑戰的有效途徑。 **3.2 基于對比學習的自監督學習 **

與物體或室內場景級別點云相比,室外場景級別點云具有更大的尺寸、噪聲、稀疏性、復雜的天氣和光照條件。這些因素可能會影響基于對比學習的自監督預訓練方法的有效性。因此,在室外場景級別點云中應用基于對比學習的自監督學習需要根據室外場景的特點進行改進,以提高預訓練模型的性能和泛化能力。在本節中,我們主要關注室外場景級別點云的對比學習。 **3.3 多模態自監督學習 **

隨著距離的增加,由于激光束發散,點云的稀疏度會增加,這使得預測小型和遠離的物體的邊界和語義類別變得非常困難。結合多種傳感器,如激光雷達和攝像頭,可以提供互補信息,從而提高自動駕駛系統的整體魯棒性。使用攝像頭提供的高分辨率二維圖像,使系統能夠更好地處理那些僅通過激光雷達數據難以檢測和分類的小型和遠離的物體(如圖10所示)。然而,獲取和處理多模態數據以實現高質量數據融合是非常繁瑣的。盡管可以通常獲得更高的精度,但多模態探測器不可避免地要犧牲推理效率來處理額外的模態[113]。

**3.4 基于預測的自監督學習 **

點云預測有助于車輛提高其在路徑規劃和碰撞避免等任務中的決策能力。由于激光雷達掃描的后續幀中天然提供了地面真實情況,因此可以通過自監督學習進行訓練,無需昂貴的標注,使其成為自動駕駛應用的有前途的方法。基于距離圖像和視覺的預測方法已經被廣泛研究,用于從過去的一系列激光雷達掃描中預測未來的點云。[115]和[116]等方法利用RNN來建模時間相關性,而[117]、[118]、[119]和[120]等方法關注于估計體素化的點云。

**3.5 基于流的自監督學習 **

場景流指的是點云時間序列中每個3D點的相對運動。場景流估計是自動駕駛領域的一個重要主題,因為它通過幫助自動駕駛車輛感知周圍實體的動作來支持安全規劃和導航。

付費5元查看完整內容

通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。

//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b

1. 引言

預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。

盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。

構建 KEPLMS

隱性知識整合

以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。

一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。

顯性知識整合

PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新

參考文獻

[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.

付費5元查看完整內容

與2D圖像數據相比,3D信息與人類的視覺感知更密切相關,有助于智能機器更好地了解世界。三維信息預測和理解,如結構預測和語義分析,在三維視覺感知中起著重要的作用。具體到3D結構,比如深度數據,雖然我們可以從各種3D傳感器中獲取它,但在機器學習框架中,仍然有大量的嘗試從單個圖像、視頻序列、立體聲數據或多模態數據中預測它。主要原因是3D傳感器通常價格昂貴,捕獲的3D數據通常稀疏且有噪聲。此外,網站中還有大量的圖片,我們希望從中獲取深度圖。最近的研究表明,深度神經網絡,如深度卷積神經網絡(DCNNs),在相關任務中具有優勢。盡管深度學習取得了巨大的成功,但仍有許多具有挑戰性的問題需要解決。例如,盡管有監督深度學習促使深度估計模型的性能有了很大的提高,但在許多場景下,對大量真實深度數據的需求很難滿足。因此,訓練三維結構估計模型需要采用無監督學習策略。在本文中,我們以一個眾所周知的具體任務,即單目深度估計為例,來研究這一問題。為了降低對真實深度的要求,研究了在合成數據上學習深度模型的域自適應技術,并探索真實數據中的幾何信息,使域自適應過程感知真實域的幾何結構。除了單幅或多幅圖像的預測外,我們還可以從多模態數據中估計深度,例如RGB圖像數據與3D激光掃描數據的耦合。為了實現這一目標,需要解決一些具有挑戰性的問題。例如,由于3D數據通常是稀疏且不規則分布的,我們需要從稀疏數據中建模上下文信息并融合多模態特征。在本文中,我們通過研究深度完成任務來考察這些問題。具體而言,我們提出采用圖傳播來捕獲觀測到的空間上下文,并引入對稱門控融合策略來有效地結合提取的多模態特征。

目前,各種經典的DCNNs被提出用于處理二維圖像數據進行各種分析,如語義理解。而三維點集作為一種重要的三維信息表示形式,由于其稀疏性和無序性,為了理解語義內容,需要新的操作來建模局部形狀,而不是傳統的卷積。在本文中,我們選擇點集作為三維數據的表示形式,即三維點云,然后設計了一個點云分析的基本操作。以往的工作主要考慮相鄰點對之間的關系進行特征聚合,而忽略了編碼局部形狀結構的邊之間的關系。為了提供補救,本文提出了一個新的自適應邊到邊交互學習模塊。此外,由于三維激光掃描儀配置的多樣性,捕獲的三維數據往往因數據集的對象大小、密度和視角而異。因此,三維數據分析中的域泛化問題也是一個關鍵問題。然而,據我們所知,這個問題仍然沒有得到充分的探索。為了對這一問題進行初步探索,本文還通過提出一個熵正則化項來研究3D形狀分類中的域泛化,該項衡量學習到的特征和類標簽之間的依賴性。

本文通過對4個具體任務的研究,圍繞模型設計、多模態融合、稀疏數據分析、無監督學習、域適應和域泛化等關鍵問題展開研究。

//ses.library.usyd.edu.au/handle/2123/27482

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

多模態機器學習領域,為特定任務而制作的人工標注數據昂貴,且不同任務難以進行遷移而需要大量重新訓練,導致訓練多個任務的效率低下和資源浪費。預訓練模型通過以自監督為代表的方式進行大規模數據訓練,對數據集中不同模態的信息進行提取和融合,以學習其中蘊涵的通用知識表征,從而服務于廣泛的相關下游視覺語言多模態任務,這一方法逐漸成為人工智能各領域的主流方法。依靠互聯網所獲取的大規模圖文對與視頻數據,以及以自監督學習為代表的預訓練技術方法的進步,視覺語言多模態預訓練模型在很大程度上打破了不同視覺語言任務之間的壁壘,提升了多個任務訓練的效率并促進了具體任務的性能表現。為總結視覺語言多模態預訓練領域的進展,本文首先對常見的預訓練數據集和預訓練方法進行了匯總,然后對目前最新的以及近年來經典的方法進行系統概述,按輸入來源分為了圖像-文本預訓練模型和視頻-文本多模態模型兩大類,闡述了各方法之間的共性和差異,并將各模型在具體下游任務上的實驗情況進行了匯總。最后,本文總結了視覺語言預訓練面臨的挑戰和未來發展趨勢。

深度學習(deep learning, DL)方法在計算機視 覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態機器學習(multimodal machine learning, MMML)的各個具體任務 上取得了令人矚目的進展,但不同任務之間需要使 用專有的數據進行訓練,大量的重新訓練使得時間 和經濟成本顯著增加。預訓練模型(pre-trained model, PTM)與微調(fine-tuning)相結合的范式旨在緩解 這一困難,預訓練模型首先在大規模通用數據集上 利用自監督為代表的方式進行預訓練,使得模型在 遷移至下游任務之前學習到通用的表征,然后在小 型專有數據集中進行微調得以獲取特定任務知識 (Yosinski 等,2014)。這一方法在很大程度上打破 了各具體任務之間的壁壘,在避免重新訓練所造成 的資源浪費的同時,對下游任務的性能起到促進作 用。Transformer(Vaswani 等,2017)是當前預訓練 模型最為廣泛使用的基礎結構,其因為在處理長距 離依賴關系方面的優勢,最初在機器翻譯方面取得 了成功,隨后廣泛用于 NLP 領域。GPT(Radford 等, 2018)采用 Transformer 作為模型預訓練的基礎結構 在大規模語料庫中進行預訓練,將學習到語言知識 的參數模型用于具體任務,實驗中 12 個下游的 NLP 任務性能取得了顯著的提升。BERT(Devlin 等,2019) 采用了雙向語言模型進行預訓練,在語料中隨機對 15%的單詞令牌(token)進行掩碼,要求模型可以 預測出原有單詞令牌,此外還進行了句子預測任務, 實驗中 11 個下游的 NLP 任務性能取得了提升。隨 后的若干工作(Dong 等,2019;Liu 等,2019a;Radford 等,2019;Shoeybi 等,2019;Zellers 等, 2019;Yang 等,2019;Brown 等,2020;Lewis 等, 2020;Raffel 等,2020;Zhang 等,2020b,2021b;Fedus 等,2021;Sun 等,2021;琚生根 等,2022;強繼朋 等,2022)證明預訓練的語言模型能夠普適 地對下游任務性能起到促進作用。受到 NLP 領域的 啟發,CV 方面的研究者也相繼開展基于Transformer 的視覺預訓練工作。ViT(Dosovitskiy 等,2021)將圖像的補丁塊(patch)作為序列輸入 Transformer 進 行預訓練,克服 Transformer 結構難以處理圖像輸入 這一困難。CLIP(Radford 等,2021)將自然語言作 為監督以提升圖像分類效果,使用對比學習 (contrastive learning, CL)方法促進圖像和文本的匹 配能力。MAE(He 等,2021a)將 NLP 中常用的自 監督方法用于 CV 預訓練,其通過訓練自編碼器, 預測經過隨即掩碼而缺失的圖像 patch,從而高效、 準確地進行圖像分類任務。

人類最具有抽象知識表達能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態上開展預訓練并取得的成功。視覺語言任務(vision-and-language task)(Pan 等, 2016a,b;Tapaswi 等,2016;Yu 等,2016a;Jang 等,2017;Maharaj 等,2017)是典型的多模態機器 學習任務,其中視覺和語言兩種模態的信息互相作 為指引,需讓不同模態的信息對齊和交互,進行視 覺語言預訓練(visual-language pre-training, VLP)工 作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson 等,2017)、視頻描 述(video captioning)(Zhou 等,2018a,b,2019;)、 文本-視頻檢索(image-text retrieval)(Wang 等,2016, 2019;Song 和 Soleymani,2019b)等任務上的效果。視覺語言任務存在著很大的挑戰。其中一個難點是, 使用何種易于大規模獲得并且含有大量通用知識的 多模態數據來源,以構建訓練數據集;另一個難點 是,怎樣通過有效的機制,將屬性相差巨大的不同 模態的信息進行統一訓練。對于以上問題,一方面,當前的主要方法通過 獲取來自互聯網的圖文對、包含語言描述的教學視 頻、附帶字幕的影視劇以及其他各類視頻等視覺語 言多模態數據,制作涵蓋廣泛常識信息的大規模預 訓練數據集;另一方面,設計能夠處理多種模態信 息的神經網絡模型,通過以自監督為代表的方式進 行大規模數據訓練,對數據集中不同模態的信息進 行提取和融合,以學習其中蘊涵的通用知識表征, 從而服務于廣泛的相關下游視覺語言多模態任務。

當前對預訓練模型的綜述工作主要集中在單模態(Qiu 等,2020;Kalyan 等,2021;Min 等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理 視頻-文本多模態類型(Ruan 和 Jin,2021),但較為 全面的 VLP 綜述工作(Chen 等,2022)相對較少。本文梳理最新視覺語言多模態預訓練模型的相關研 究成果,首先對 VLP 模型常用的預訓練數據集和預 訓練方法進行了簡單介紹,然后在介紹基礎結構之 后對 VLP 模型按視覺輸入來源進一步分類, 介紹目 前具有代表性的圖像-文本預訓練模型和視頻-文本 預訓練模型,并根據模型結構不同分為了單流和雙 流類型,重點闡述各研究特點,對不同 VLP 預訓練 模型在主要下游任務上的性能表現也進行了匯總。最后對目前研究面臨的問題進行探討。

1 預訓練數據集與預訓練任務

在各類預訓練任務中,模型性能受預訓練數據 集質量的影響顯著。為了獲取通用的多模態知識, 視覺-語言預訓練任務主要使用帶有弱標簽的視覺語言對進行模型訓練。圖像-文本任務主要為圖像及 標題、內容描述、人物的動作描述等。類似地,視頻 -語言預訓練數據集包含大量的視頻-文本對,其標簽 來源包括視頻中的文字描述以及由自動語音識別 (automatic speech recognition, ASR)技術獲得的文 本信息等。部分模型為針對性提升某一模態的表征 提取能力,在多模態預訓練之外還進行單模態數據 集進行預訓練,使用如圖片數據集與純文本數據集。 預訓練中常用的公開數據集有,圖文數據集 SBU(Ordonez 等,2011),Flickr30k(Young 等, 2014),COCO Captions(Chen 等,2015),Visual Genome(VG)(Krishna 等,2017b),Conceptual Captions (CC, CC3M)(Sharma 等,2018)和 Conceptual 12M (CC12M)(Changpinyo 等,2021),VQA(Antol 等, 2015),VQA v2.0(Goyal 等,2019),Visual7W(Zhu 等,2016),GQA(Hudson 和 Manning,2019)。視 頻數據集 TVQA(Lei 等,2018),HowTo100M(Miech 等,2019),Kinetics(Kay 等,2017),Kinetics-600 (Carreira 等,2018),Kinetics-700(Carreira 等, 2019),YT-Temporal-180M(Zellers 等,2021),WebVid-2M(Bain 等,2021)。單模態圖片數據集 COCO (Lin 等,2014),OpenImages(Krasin 等,2017), 文本數據集 BooksCorpus(Zhu 等,2015)以及 English Wikipedia。數據集信息匯總如表 1 所示,以下對代 表性的數據集做進一步介紹。

預訓練任務

2 預訓練模型

2.1 模型基礎 本文根據特征在進行視覺和語言模態融合處理 之前,是否進行處理,將 VLP 模型按結構分為單流 式(single-stream)和雙流式(cross-stream),其對比 如下圖 1 所示。

單流模型將視覺特征和語言特征直接輸入融合 模塊,進行模型訓練,其典型方式如圖 1(a)所示。雙流模型將視覺特征和語言特征分別進行處理,然 后進行模態間的融合,典型類型包括但不限于圖中三類,圖 1(b1)中,模型首先對兩路特征分別進行 處理,然后進行跨模態融合;如圖 1(b2)中,視覺 特征經過視覺處理模塊后,與文本特征一同送入多 模態融合模塊進行交互;圖 1(b3)中,兩路特征送 入各自處理模塊后進行交互式的參數訓練。

2.2 圖像-文本多模態預訓練模型

單流模型相對雙流模型結構較簡單,一般將圖 像與文本兩種模態信息置于等同重要位置,對圖像 和文本編碼后共同輸入跨模態融合模塊進行預訓練。 對于輸入圖像是否采用采用目標檢測算法,可對研 究進行更細致的分類。

由于圖像和文本信息在屬性上區別較大,將不 同模態輸入置于相同輸入地位可能對模態間匹配造 成不良影響。在這一假設下,部分模型根據多模態 輸入特點設計雙流預訓練模型,使用不同編碼器靈 活處理各自模態特征,并通過后期融合對不同模態 進行關聯。

2.3 視頻-文本多模態預訓練模型

Sun 等人(2019b)提出的 VideoBERT 模型是第 一個將 Transformer 結構拓展到視頻語言預訓練的 工作,模型結構如圖 9 所示。對 ASR 得到的文本輸 入采取常用的類 BERT 處理,對于視頻輸入,按每 秒 20 幀采樣速度從視頻剪切多個 1.5s 視頻片段, 應用預訓練過的 S3D 提取視頻特征,然后采用層級 k 聚類(hierachical k-means)標記視覺特征,以聚類 中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯合特征被送入多模態 Transformer進行MLM,VTM和掩蔽視頻預測(video only mask completion, VOM)預訓練任務。VOM 以 聚類的視頻片段作為被掩蔽和預測的視覺單元。模 型目標是學習長時間高級視聽語義特征,如隨時間 推移而展開的事件與動作,采用網絡收集的廚藝教 學視頻作為預訓練數據,在預設下游任務上表現良 好,但由于視覺中心代表的視覺信息難以全面描述 視頻內容,使得模型的泛化性受到一定限制。

Miech 等人(2019)提出了視頻文本預訓練中被 廣泛使用的大規模敘述性視頻數據集 HowTo100M, baseline 方法將提取到的視頻和文本特征映射到相 同維度從而優化模態間的關聯性。Miech等人(2020) 進一步研究發現 HowTo100M 中由于人的講述與畫 面展示不同步,導致大約 50%的視頻剪輯片段與 ASR 描述文本沒有對齊(如圖 10 所示)。為解決這 一偏差問題引入了多實例學習(multiple instance learning, MIL),基于同一視頻中連續時間內畫面語 義相似的前提,在目標視頻片段的相鄰時間內截取 多個視頻-描述對作為對比學習的候選正例。然后采 用噪聲估計 NCE 來優化視頻文本聯合特征的學習, 提出了 MIL-NCE,在 8 個數據集 4 類下游任務中表 現良好。MIL-NCE 方法在后續使用 HowTo100M 數 據集的預訓練模型中廣泛使用。

Zhu 等(2020)提出了全局局部動作 VLP 模型 ActBERT,結構如圖 11 所示,對于視頻輸入采取兩 種編碼處理。首先是動作編碼,加入全局堆疊幀獲 取全局動作信息,動作信息來自每個視頻相應描述 中提取動詞所構建的字典,為簡化問題刪除了沒有 任何動詞的視頻片段。然后是視覺編碼,加入經 Faster-RCNN 對圖像提取的 RoI 特征獲取局部區域 信息。ActBERT 利用全局動作信息來促進文本與局 部目標區域間的交互,使一個視覺中心能同時描述 局部和全局視覺內容,提升視頻和文本的關聯性。 引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通 過其他信息如文本信息和物體信息來預測出動作標 簽。模型在 5 類下游任務上表現良好。

3. 下游任務性能對比

3.1 圖像-文本多模態預訓練模型

圖像-文本多模態下游任務繁多,代表性的任務 有分類任務如視覺問答(Johnson 等,2017;Hudson 和 Manning,2019)),自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr 等,2017, 2018),視覺常識推理(Gao 等,2019);指稱表達理解(referring expression comprehension, REC)(Yu 等, 2016b;Mao 等,2016),視覺蘊含(visual entailment, VE)(Xie 等,2018a,2019)等,檢索任務如圖文檢 索(image-text retrieval)(Karpathy 和 Li,2015; Plummer 等,2015;Lee 等,2018);生成任務如圖 像描述(Vinyals 等,2015;Xu 等,2015;Anderson 等,2018),新對象圖像描述(novel object captioning, NoCaps )( Agrawal 等 , 2019 ) 及 多 模 態 翻 譯 (multimodal translation)(Elliott 等,2016)。如下對 表 5 中 VLP 模型所進行對比的下游任務與相關數據 集進行進一步介紹。

3.2 視頻-文本多模態預訓練模型

關于視頻的視覺-語言交叉任務同樣覆蓋廣泛, 代表性的任務有視頻描述(Gan 等,2017;Krishna 等,2017a);文本-視頻檢索(Gao 等,2017;Hendricks 等,2017;Mithun 等,2018;Lei 等,2020b);視頻 問答(video question answering)(Yu 等,2018;Lei 等,2020a);動作分割(action segmentation)(Tang 等,2019);步驟定位(action step localization) (Zhukov 等,2019);動作識別(Kuehne 等,2011; Soomro 等,2012);視頻摘要(video summarization) (Plummer 等,2017);視覺故事講述(visual storytelling)(Agrawal 等,2016 ;Huang 等,2016)。 如下對表 6 中 VLP 模型所進行對比的下游任務與相 關數據集進行進一步介紹

4 問題與挑戰

視覺語言多模態預訓練作為前沿研究,盡管在 下游視覺語言交叉任務上已經有了不錯表現,但在 未來工作中還需考慮以下幾個方向:

1)訓練數據域的差異 預訓練數據集與下游任務數據集之間存在數據 域的差異,部分工作表明(Zhou 等 2021),與預訓 練數據集的域相一致的下游任務數據集可以顯著提 升任務表現,而數據域的差異是造成模型在不同任 務之間遷移時性能下降的重要原因。HERO(Li 等 2020b)指出,不能通過增加微調過程的數據規模, 來縮小下游任務數據與預訓練數據的域差異所造成 的影響。MERLOT(Zellers 等,2021)使用較為多 樣的預訓練數據,增大了數據域的分布,在一定程 度上提升了模型的性能,但也增加了訓練消耗。因 此,如何提升預訓練數據集的質量和多樣性是今后 預訓練任務的重要課題。

2)知識驅動的預訓練模型

預訓練模型的本質是通過參數量極大的神經網 絡對大規模訓練數據進行擬合,以學習潛在的通用 知識,在此過程中擴大數據規模可以帶來預訓練性 能的提升,但會增加計算資源和能耗的消耗,因此 一味通過增加數據和訓練量換取性能的思路是難以 持續的。對于輸入的圖文、視頻等多模態信息,存在 著大量隱含的外部常識信息可以用于更快速的引導 模型對于事件內容的挖掘(Chen 等,2021),因此探 索如何通過知識驅動的方式建立具有廣泛知識來源 的模型架構,將知識圖譜等結構化知識注入模型, 探索輕量化的網絡結構,從而增加模型的訓練效率 和可解釋性,是預訓練模型的具有前景的方向。

3)預訓練模型的評價指標

現有的視覺語言預訓練模型大多在少數幾個下 游數據集上進行效果的實驗驗證,難以確切判斷在 其它數據集上的有效性,而真正通用的預訓練系統 應該在廣泛的下游任務、數據域和數據集上進行推 廣,這就需要建立較為通用的預訓練評價指標,來 有效評價預訓練效果,并指出模型是否易于在不同 任務和數據之間進行遷移。VALUE(Li 等,2021a) 作為一個視頻語言預訓練評價基準,覆蓋了視頻、 文本、音頻輸入,包含了視頻檢索、視覺問答、字幕 匹配任務的 11 個數據集,根據不同難度的任務的元 平均得分(meta-average score)度量預訓練模型的性 能。但這類工作目前正處于起步階段,相關的研究 也被研究者重點關注。

4)探索多樣的數據來源

視頻中的音頻包含了豐富的信息,當前視頻預 訓練中常使用 ASR 方法將音頻轉換為文本,在此 過程中部分原有信息損失掉了,因此探索包含音頻 的預訓練模型是一個可取的方向。目前的多模態預 訓練數據來源以英文圖文和視頻為主,進行多語言 學習的預訓練工作較少,將模型在不同語言間進行 遷移還需要繼續研究。此外,探索從結構化的多模 態數據中進行更細粒度的預訓練工作(Zellers 等, 2021),如從圖表中進行目標推理的訓練等。

5)預訓練模型的社會偏見和安全性

由于大規模數據集在來源上涉及范圍廣泛,難 以逐一排查具體信息,數據中難以避免地存在部分 社會偏見以及錯誤知識,而通過預訓練模型由于學 習到了這些不良內容,其生成的結果會進一步增加 這類內容所造成了影響,造成更大的社會問題 (Dixon 2008)。因此在獲取數據時如何對存在的 數據隱私,以及涉及國家、種族、性別公平性等問 題進行考量,通過算法對選取的預訓練數據內容進 行過濾,在社會安全、倫理等方面尤其重要。

5 結 語

視覺和語言在人類學習視覺實體與抽象概念的 過程中扮演著重要的角色,本文對視覺語言多模態 預訓練領域自 2019 年以來的模型與方法,基于視覺 來源從圖像-文本與視頻-文本兩大方向進行綜述, 并進一步基于模型結構分別介紹各具體模型的特點 與研究貢獻。此外,還介紹了常用視覺語言多模態 預訓練模型數據集、預訓練任務設定以及各模型在 主要下游任務上的表現。 最后對該領域的問題與挑 戰進行了總結并提出未來研究方向。希望通過本文 讓讀者了解當前工作的前沿,以啟發進而做出更有 價值的多模態預訓練工作。

付費5元查看完整內容

【導讀】自監督學習是當下研究的熱點。如何在多模態時序數據進行自監督表示學習?最新來自皇家墨爾本理工大學RMIT等學者發表了《自監督表示學習:多模態與時序數據》,首次全面綜述多模態時序數據自監督學習方法,非常值得關注!

近年來,自監督表示學習(Self-Supervised Representation Learning, SSRL)在計算機視覺、語音、自然語言處理(natural language processing, NLP)等領域受到廣泛關注,近年來,它也逐漸被應用于傳感器數據的時間序列等模態。傳統模型通常需要大量注釋良好的數據進行訓練,這一事實推動了自我監督學習的流行。獲取帶注釋的數據可能是一個困難且代價高昂的過程。自監督方法通過使用從原始數據中自由獲取的監督信號對模型進行區分性預訓練來提高訓練數據的效率。現有的研究主要集中在單模態CV或NLP領域的方法,與此不同,本文的目的是首次全面綜述多模態時序數據自監督學習方法。為此,我們 1) 對現有的SSRL方法進行了全面的分類; 2) 通過定義SSRL框架的關鍵組件引入了一個通用流水線; 3) 就其目標功能、網絡架構和潛在應用對現有模型進行了比較; 4) 對每種類別和各種模態下的現有多模態技術進行了綜述。最后,我們提出了現有的弱點和未來的機會。我們相信,我們的工作為利用多模態和/或時間數據的領域的SSRL需求提供了一個視角。

//www.zhuanzhi.ai/paper/88836a11fa745f249523bdfcf9298998

表示學習

過去幾十年,深度學習技術取得了巨大的成功,催生了大量面向大規模數據集的應用。盡管深度學習具有顯著的影響,但許多最先進的技術仍然需要人工干預,例如手動數據預處理和數據注釋。這是監督學習模型的一個主要瓶頸,因為獲取數據注釋通常是一個耗時的過程,需要一些領域知識。自監督表示學習(SSRL)解決了這一瓶頸,它試圖通過從數據本身獲得的監督信號來訓練網絡模型,從而揭示關于數據的有意義的信息。這大大增加了用于訓練模型的數據帶寬,并已被證明可以減少對手動數據注釋的依賴[69]。這也可能被認為是邁向通用人工智能道路上的早期一步,因為與監督學習方法相比,計算機從觀察數據中學習所需的人工輸入要少得多。接下來,我們將概述表征學習和相關的自監督學習技術。

數據表示的研究最初依賴于特征工程,即定義人工步驟將原始數據轉換為有意義的特征。這種轉換的例子包括統計屬性(如均值和標準差)的計算和基于形狀或模式的特征(如圖1中的小波變換)。然而,為一項復雜任務設計良好的特征選擇通常需要大量的人力和大量的領域知識來確保特征的質量。此外,為一個任務選擇的特征可能不適合另一個任務,使其不可行的一般化使用這些方法。為此,提出了一種旨在從數據中自動提取鑒別特征的表示學習方法。其基本原理是降維算法,如主成分分析、流形學習和深度學習將只保留高維數據中信息量最大的特征,并在將數據映射到其低維表示時消除數據中的噪聲。之后,保留和去噪的特征可以用作后續機器學習模型的輸入。由于表示學習對人類干預的依賴程度最低,它不再被視為機器要解決的任務,而是學習一種技能(Satinder Singh),以發展對世界的一般性理解,并匯聚創造一種可以泛化到新場景的一般性共同理解89。因此,表示學習在計算機視覺(CV)、語音識別和自然語言處理(NLP)等多個領域受到了廣泛關注。

自監督表示學習

一個監督模型接受一個帶注釋的數據集用于給定的任務(例如圖像分類的ImageNet),并學習數據表示。由于訓練任務的普遍性,學習到的表示可以作為一個新的但類似的任務(如物體檢測)的良好起點。然而,監督表示學習的主要限制是對注釋數據集的要求。數據注釋是一個昂貴和耗時的過程,需要大量的人力工作。為了獲得高質量的數據集,需要在數據領域(如醫療、法律或生物數據集)擁有廣泛的專業知識。此外,對于一些應用領域(如與人類相關的應用),由于隱私問題,獲取標簽數據集是不可行的。

針對上述問題,提出了一種自監督表示學習方法。它直接處理未標記的數據,不需要外部注釋。與人類的自學習過程類似,這是一個“觀察、行動、觀察和推斷”的重復循環,SSRL以原始數據為輸入,對輸入數據應用一個或多個預定義的動作,觀察動作的結果,并推斷出模型參數的下一個優化步驟。重復這個過程,SSRL模型可以提取數據的分布和局部/全局特征。SSRL的一個關鍵組件是對數據輸入的預定義操作,它生成偽標簽來監督訓練過程。這種行為的一個例子是偽裝學習的前置任務,它掩蓋了一部分數據,使用被掩蓋的部分作為標簽,并引導模型恢復被掩蓋的部分。

由于SSRL不需要外部監督,它可以利用大量可用的未標記數據(例如,所有發布在互聯網上的圖像)。這導致了SSRL的顯著成功。在2000年代,Hinton等人(2006)[70]和Bengio等人(2007)[21]提出了一種自監督算法,在使用真實標簽對模型進行微調之前,對深度信任網絡進行預訓練。他們表明,使用預訓練的權值可以提高監督任務的性能。如今,基于深度學習的模型,SSRL不僅在許多下游任務中實現了與其他完全監督競爭方法相比的競爭精度,而且與類似的監督模型相比,具有參數少得多、網絡小得多的優勢; 因此,它們不容易發生過擬合[78]。此外,SSRL的用例不僅限于作為機器學習管道中的預處理步驟(如遷移學習),還包括其他領域的應用,如通過提高這些學習系統的標簽/獎勵效率的持續學習[113]和強化學習[124]。

多模態和時序數據的自監督表示學習

多模態時序數據在日常生活中無處不在。數字設備的廣泛使用和數字應用(如物聯網應用、無線通信和媒體消費)的普及,使時序數據的可用性越來越高。時序數據的例子包括傳感器讀數、股票價格和醫療記錄等等。時序數據分析在環境(如氣候建模)、公共安全(如犯罪預測)和智能交通(如城市交通管理)等各個領域都有廣泛的應用。

另外,由于產生了大量異構格式的數據,因此涵蓋了多種數據形式。例如,自動駕駛汽車的決策同時依賴視覺和傳感器數據。這些來自不同來源的數據可以被視為同一主題的不同觀點,并提供補充信息。因此,同時利用這兩類數據可以提高機器學習模型的有效性和可靠性。盡管多模態和時序數據很重要,但分析它們并非微不足道。時序數據與其他數據類型(如圖像和文本數據)相比具有獨特的特征,因為它與采集時間有很強的相關性。提取動態時間模式(例如周期模式)對于發現數據如何隨時間演變是至關重要的。當有多種可用的數據模式時,學習在不同模式下不僅有效而且語義一致的表示是至關重要的。

為了解決這些問題,許多SSRL模型被提出,利用大量未標記的多模態和/或可用的時間數據來學習可轉移到下游預測器的數據表示。這些模型在數據模式(如音頻、圖像、文本或時間序列或這些模式的組合)、生成監督信號的方法(如借口任務、聚類、對比數據樣本和相似性計算)和目標函數(如交叉熵、三元組損失和InfoNCE)等方面存在不同。本文系統地綜述了近年來多模態和時序數據SSRL的研究進展。本文對這些研究成果進行了綜述,對它們進行了定位和比較,并指出了未來可能的研究方向。

本文貢獻:

在這篇文章中,我們介紹了快速發展的表示學習領域,并回顧了SSRL技術。特別地,我們討論了現有綜述中較少涉及的模態(時間數據),并特別關注跨模態學習模型。本文將做出貢獻:

  • 據我們所知,這是第一次全面的SSRL調研,涵蓋了視覺數據之外的多種形態。我們包括音頻和時間序列數據類型及其與視覺和文本的組合。這將為研究人員提供一個快速了解這些領域最先進工作的全景圖。

  • 我們提出一個分類方案來定位、分類和比較審查的工作。比較分析可以作為讀者在現實生活中使用哪種模型的實踐指南。

  • 我們確定了多模態和時間數據SSRL領域的公開挑戰。我們進一步討論可能的未來研究方向,可能解決這些挑戰。

本文其余部分的組織如下:在第2節中,我們回顧了關于SSRL的現有綜述論文。在第3節中,我們解釋了重要的術語和背景信息,以使文章易于閱讀和理解。在第4節中,我們描述了現有的類別,并特別介紹了為單一時態數據模式提出的SSRL方法。在第5節中,我們將現有的框架擴展為跨模態方法,并研究跨模態應用可能的框架、需求和挑戰。在第6節中,我們關注用于自監督學習的目標函數的演變趨勢。最后,第7節討論了挑戰和未來的研究方向。

自監督表示學習(SSRL)工作流。首先,SSRL方法以未標記的數據為輸入,利用數據轉換、時間/空間掩蔽、先天關聯和交叉模態匹配等多種技術提取新的實例及其對應的偽標簽。接下來,學習表征的目的是預測那些提取的偽標簽。最后,一個預訓練的編碼器將被轉移到一個有監督/無監督的下游任務,只有有限的標記數據。

適用于所有基礎架構和模式的自監督表征學習框架的類別。

比較不同的自監督表示學習模型的整體架構。

付費5元查看完整內容

點云數據在各種不利條件下具有較高的準確性和魯棒性,因此得到了廣泛的研究。與此同時,深度神經網絡(DNN)在監控、自動駕駛等應用領域取得了令人矚目的成功。點云和DNN的融合產生了許多深度點云模型,這些模型主要是在大規模和密集標記的點云數據的監督下訓練的。無監督點云表示學習旨在從無標記點云數據中學習一般和有用的點云表示,由于大規模點云標記的約束,近年來受到越來越多的關注。本文對使用DNN的無監督點云表示學習進行了全面的綜述。首先介紹了近年來研究的動機、常用途徑和術語。相關背景包括廣泛采用的點云數據集和DNN架構,然后簡要介紹。接下來是根據其技術方法對現有的無監督點云表示學習方法的廣泛討論。我們也定量的基準和討論的方法,在多個廣泛采用的點云數據集。最后,我們對未來無監督點云表示學習研究中可能面臨的幾個挑戰和問題提出了自己的看法。

付費5元查看完整內容
北京阿比特科技有限公司