亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。

摘要

Transformer 是一種基于注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全面回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一系列基本但未開發的方面,這些方面可能使 Transformer 從眾多架構中脫穎而出,例如,松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后,提出了三個有前景的未來研究方向,以供進一步研究。

//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作為一種基于注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。

在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發,一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。

如上所述,基于注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之后,在過去的一年中,針對各個領域提出了數百種基于transformer的模型。因此,我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨干在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。

去年發表了幾篇關于Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了系統的綜述,并簡要地提到了可視化應用[89]。基于這些觀察,本文旨在對近期的視覺Transformer進行全面的回顧,并對現有的方法進行系統的分類:

(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。

(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限制下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一系列有前途的組件,包括: 基于層次結構的主干淺局部卷積,基于稀疏注意的空間先驗加速,以及用于分割的通用掩模預測方案。

(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關系,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。

本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類,并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討,并指出了未來進一步研究的方向。

總結

在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。

  • 對于分類,一個深度層次的Transformer主干可以有效地降低計算復雜度[39],并在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。

  • 在檢測方面,Transformer骨干得益于編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由于其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利于降低計算復雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利于Transformer的性能,收斂速度稍快。

  • 對于分割,編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。

付費5元查看完整內容

大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。

引言

近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

  • 先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。

  • 基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。

  • NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。

  • 生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:

  • 數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。

范式1: 先訓練,然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

  • 我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。

  • 我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。

  • 我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。

  • 我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。

  • 我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。

  • 我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。

  • 我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

摘要

Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer,然后提出了一個x-former的新分類。接下來,我們將從三個方面介紹不同的x -former架構修改,預訓練和應用。最后,展望了未來的研究方向。

//www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0

引言

Transformer[136]是一種出色的深度學習模型,被廣泛應用于自然語言處理(NLP)、計算機視覺(CV)和語音處理等各個領域。Transformer最初是作為一種用于機器翻譯的序列到序列模型提出的[129]。后來的工作表明,基于Transformer的預訓練模型(PTMs)[100]可以在各種任務上實現最先進的性能。因此,Transformer已經成為NLP的首選架構,特別是對于PTMs。除了語言相關的應用,Transformer也被應用于CV[13, 33, 94],音頻處理[15,31,41],甚至其他學科,如化學[113]和生命科學[109]。

由于成功,各種各樣的Transformer 變種(即x -former)在過去幾年里被提出。這些X-formers從不同的角度改進了vanilla Transformer。

(1) 模型的效率。應用Transformer的一個關鍵挑戰是它在處理長序列時效率低下,這主要是由于自注意力模塊的計算和存儲復雜性。改進方法包括輕量級注意力(例如稀疏注意變體)和分治法(例如循環和分層機制)。

(2) 模型泛化。由于Transformer是一種靈活的體系結構,并且很少對輸入數據的結構偏差進行假設,因此很難對小規模數據進行訓練。改進方法包括引入結構偏差或正則化、對大規模無標記數據進行預處理等。

(3) 模型的適應。該工作旨在使Transformer適應特定的下游任務和應用程序。

在這個綜述中,我們的目的是提供一個Transformer及其變體的全面綜述。雖然我們可以根據上面提到的觀點來組織x-former,但許多現有的x前輩可能會解決一個或幾個問題。例如,稀疏注意變量不僅降低了計算復雜度,而且在輸入數據上引入了結構先驗,緩解了小數據集上的過擬合問題。因此,將現有的各種X-formers進行分類,并根據它們改進Transformer的方式提出新的分類方法會更有條理: 架構修改、預訓練和應用。考慮到本次綜述的受眾可能來自不同的領域,我們主要關注于一般的架構變體,而只是簡單地討論了預訓練和應用的具體變體。

到目前為止,基于普通Transformer的各種模型已經從三個角度被提出:架構修改的類型、預訓練的方法和應用。圖2給出了Transformer變種的分類說明。

盡管“x-formers”已經證明了他們在各種任務上的能力,但挑戰仍然存在。除了目前關注的問題(如效率和泛化),Transformer的進一步改進可能在以下幾個方向:

(1) 理論分析。Transformer的體系結構已被證明能夠支持具有足夠參數的大規模訓練數據集。許多工作表明,Transformer比CNN和RNN有更大的容量,因此有能力處理大量的訓練數據。當Transformer在足夠的數據上進行訓練時,它通常比CNN或RNN有更好的性能。一個直觀的解釋是,Transformer對數據結構沒有什么預先假設,因此比CNN和RNN更靈活。然而,理論原因尚不明確,我們需要對Transformer能力進行一些理論分析。

(2) 注意力機制之外的全局交互機制更加完善。Transformer的一個主要優點是使用注意力機制來建模輸入數據中節點之間的全局依賴關系。然而,許多研究表明,對大多數節點來說,完全注意力是不必要的。在某種程度上,不可區分地計算所有節點的注意力是低效的。因此,在有效地建模全局交互方面仍有很大的改進空間。一方面,自注意力模塊可以看作是一個具有動態連接權的全連接神經網絡,通過動態路由聚合非局部信息; 因此,其他動態路由機制是值得探索的替代方法。另一方面,全局交互也可以通過其他類型的神經網絡來建模,比如記憶增強模型。

(3) 多模態數據統一框架。在許多應用場景中,集成多模態數據對于提高任務性能是非常有用和必要的。此外,一般的人工智能還需要能夠捕獲跨不同模式的語義關系。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大的成功,我們有機會建立一個統一的框架,更好地捕捉多模態數據之間的內在聯系。但是,在設計中對模式內和模式間的注意還有待改進。

付費5元查看完整內容

近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。

//www.joca.cn/CN/abstract/abstract24426.shtml

付費5元查看完整內容

文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。

本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。

在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。

盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。

//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e

付費5元查看完整內容

Transformer是一種主要基于自注意力機制的深度神經網絡,最初應用于自然語言處理領域。受Transformer強大的表征能力的啟發,研究人員提出將Transformer擴展到計算機視覺任務中。與卷積網絡和循環網絡等其他網絡類型相比,基于Transformer的模型在各種視覺基準上都具有競爭力,甚至表現出了更好的性能。在本文中,作者對這些視覺變換器模型進行了文獻綜述,將它們按照不同的任務進行分類,并分析了這些方法的優缺點。具體來說,主要包括基礎圖像分類(basic image classification)、高級視覺(high-level vision)、低級視覺(low-level vision)和視頻處理(video processing)。由于自注意力(self-attention)是變換器中的基礎部件,作者簡要重新審視了自注意力在計算機視覺中的位置。為變換器推向實際應用,本文包含了高效的變換器方法。最后,作者給出了視覺變換器的未來研究方向。

//arxiv.org/abs/2012.12556

深度神經網絡已成為現代人工智能系統的基礎設施。針對不同的任務,已經提出了不同的網絡類型。多層感知(Multi-layer perception, MLP)或稱全連接(full - connected, FC)網絡是由多個線性層和非線性激活疊加而成的經典神經網絡[104,105]。卷積神經網絡(CNNs)引入了卷積層和池化層,用于處理圖像等位移不變數據[68,65]。循環神經網絡(RNNs)利用循環細胞來處理順序數據或時間序列數據[106,49]。Transformer是一種新提出的神經網絡,主要利用自注意力機制[5,90]來提取內在特征[123]。其中轉換器網絡是新近發明的一種神經網絡,在人工智能方面具有廣泛的應用潛力。

Transformer最初應用于自然語言處理(natural language processing, NLP)任務,并帶來了顯著的改進[123,29,10]。例如,Vaswani等人[123]首先提出了完全基于注意力機制的轉換器,用于機器翻譯和英語分析任務。Devlin等人[29]引入了一種新的語言表示模型,稱為BERT,該模型通過聯合調節左右上下文,從未標記的文本中預訓練一個Transformer。BERT在當時的十一個NLP任務中獲得了最先進的結果。Brown等人[10]在45TB壓縮純文本數據上預訓練了一個具有1750億參數的基于巨型Transformer的GPT-3模型,在不進行微調的情況下,在不同類型的下游自然語言任務上實現了強大的性能。這些基于Transformer的模型顯示了較強的表示能力,并在自然語言處理領域取得了突破。

受自然語言處理中transformer 功能的啟發,近年來研究人員將transformer 擴展到計算機視覺任務中。CNN曾經是視覺應用的基礎組件[47,103],但transformer作為CNN的替代品正在表現出它的能力。Chen等人[18]訓練序列轉換器進行自回歸預測像素,實現與CNN在圖像分類任務上的相匹配結果。ViT是Dosovitskiy等人[31]最近提出的一種視覺transformer 模型,它將純transformer 直接應用于圖像貼片序列,在多個圖像識別基準上獲得了最先進的性能。除了基本的圖像分類,transformer還被用于解決更多的計算機視覺問題,如目標檢測[14,155]、語義分割、圖像處理和視頻理解。由于其優異的性能,越來越多的基于transformer的模型被提出用于改進各種視覺任務。

基于transformer的視覺模型如雨后春筍般涌現,這讓我們很難跟上新發展的步伐。因此,對現有工作的調研是有益的,對社區是有益的。在本文中,我們對視覺transformer的最新進展進行了全面的概述,并討論了進一步改進的潛在方向。為了獲得更好的存檔并方便不同主題的研究人員,我們按應用場景對transformer模型進行分類,如表1所示。具體來說,主要內容包括基本圖像分類、高級視覺、低級視覺和視頻處理。高級視覺處理圖像中看到的東西的解釋和使用[121],如對象檢測、分割和車道檢測。已經有許多transformer模型解決這些高級視覺任務,如DETR[14],用于目標檢測的變形DETR[155]和用于分割的Max-DeepLab[126]。低級別圖像處理主要涉及從圖像(通常表示為圖像本身)[35]中提取描述,其典型應用包括超分辨率、圖像去噪和樣式轉換。很少有研究[17,92]在低級視覺中使用transformer,需要更多的研究。除了基于圖像的任務外,視頻處理也是計算機視覺的一個重要部分。由于視頻的時序性,transformer自然可以應用于視頻中[154,144]。與傳統的CNN或RNNs相比,Transformer在這些任務上開始表現出具有競爭力的性能。本文對基于Transformer的可視化模型的研究工作進行了綜述,以跟上這一領域的發展步伐。視覺Transformer的開發時間表如圖所示,我們相信會有越來越多的優秀作品被鐫刻在里程碑上。

本文的其余部分組織如下。第二節首先制定了自注意力機制和標準transformer。我們在第三節中描述了在自然語言處理中transformer的方法,因為研究經驗可能有助于視覺任務。接下來,第四部分是本文的主要部分,總結了圖像分類、高級視覺、低級視覺和視頻任務上的視覺變形模型。我們還簡要回顧了CV的自注意力機制和高效Transformer方法,因為它們與我們的主題密切相關。最后,對全文進行了總結,并對今后的研究方向和面臨的挑戰進行了討論。

與卷積神經網絡相比,Transformer 以其優異的性能和巨大的潛力成為計算機視覺領域的研究熱點。為了發現和利用Transformer的效用,正如在調研中總結的那樣,近年來已經提出了一些解決方案。這些方法在基礎圖像分類、高級視覺、低級視覺和視頻處理等視覺任務中表現出優異的性能。然而,計算機視覺Transformer的潛力還沒有被充分發掘,還有一些挑戰有待解決。

雖然研究者們已經提出了許多基于Transformer的模型來處理計算機視覺任務,但這些工作只是初步的解決方案,還有很大的改進空間。例如,ViT[31]的transformer 架構遵循NLP的標準transformer [123]。針對CV的改進版本還有待探索。除此之外,transformer 還需要應用在更多的任務上。

此外,現有的視覺transformer 模型大多是針對單一任務而設計的。許多NLP模型,如GPT-3[10],都顯示了transformer在一個模型中處理多個任務的能力。在CV區域的IPT[17]還能夠處理多個低分辨率的視覺任務,如超分辨率、圖像去噪和去噪。我們認為,只有一種模式可以涉及更多的任務。最后,開發高效的CV轉換器模型也是一個有待解決的問題。transformer 模型通常是巨大的和計算昂貴的,例如,基本的ViT模型[31]需要180億次浮點運算來處理一個圖像。相比之下,輕量級的CNN模型GhostNet[44,45]只需約6億次FLOPs就能達到類似的性能。雖然有幾種壓縮transformer 的方法,但它們的復雜性仍然很大。而這些最初為自然語言處理設計的方法可能并不適用于CV。

付費5元查看完整內容

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容
北京阿比特科技有限公司