亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視頻Transformer最新綜述論文

Transformer模型在建模長范圍交互方面取得了巨大的成功。然而,他們的規模與輸入長度的平方和缺乏歸納偏差。在處理高維視頻時,這些限制可能會進一步加劇。正確的視頻建模,可以跨度從幾秒到幾小時,需要處理長范圍交互。這使得Transformer成為解決視頻相關任務的一個很有前途的工具,但還需要一些調整。雖然之前也有研究《Transformer》在視覺任務方面的進展的工作,但沒有一篇是針對特定視頻設計的深入分析。在本綜述中,我們分析和總結了用于視頻數據建模的Transformer的主要貢獻和趨勢。具體地說,我們深入研究了視頻是如何嵌入和標記化的,發現了一個非常廣泛的使用大型CNN主干來降低維數的方法,以及主要使用補丁和幀作為標記。此外,我們研究了如何調整Transformer層以處理更長的序列,通常是通過減少單個注意力操作中的令牌數量。此外,我們還分析了用于訓練視頻Transformer的自監督損耗,迄今為止,這些損耗大多局限于對比方法。最后,我們探討了其他模態是如何與視頻整合在一起的,并對視頻Transformer最常用的基準(即動作分類)進行了性能比較,發現它們在等效FLOPs的情況下優于3D CNN,且沒有顯著的參數增加。

引言

Transformers是[1]中首次提出的最新系列模型。這些架構最初是為了替換機器翻譯設置中的循環層而設計的,現在已經很快被用于建模許多其他數據類型[2]、[3]、[4],包括圖像[5]、[6]、[7]、[8]和視頻[9]、[10]、[11]、[12]、[13]、[14]。Transformer背后的關鍵成功在于其通過自注意力(SA)操作實現的非局部令牌混合策略。非局部操作在[15]中提出,是對非局部均值操作[16]的泛化。它基于所有元素之間的交互來演化輸入表示。這些相互作用是通過一對相似函數來調節的,該函數衡量每個元素對其他元素的貢獻。與全連接(FC)層不同,非局部操作不需要權重:輸入之間的關系不需要學習,而是完全依賴于輸入表示。盡管它們取得了成功,但SA的本質導致transformer對序列長度T的縮放效果很差。特別是,由于對親和計算,SA的復雜度為O(t2)。此外,transformer沒有任何歸納偏差,這可能是一個理想的特性,但它也會阻礙學習,除非[7]使用大量數據。

最近Transformer工作的激增,讓跟蹤最新的進展和趨勢變得復雜起來。最近的調研試圖通過分析和總結《Transformer》的總體架構設計選擇來填補這一空白,主要集中在NLP[18],或高效的設計,如[19]或[20]。雖然一些人已經廣泛地調研了視覺的進展,例如[21],[22],[23],[24]和Vision-Language transformer[25],但他們沒有對視頻模型進行深入的分析。[26]的調研集中于視頻和語言Transformer的預訓練,但是他們討論了一些架構選擇,并沒有涵蓋一般的視頻趨勢。視頻Transformer (vt)可以找到與其他Transformer設計的共同點(特別是在圖像領域),但視頻固有的大維度將加劇Transformer的局限性,需要特殊處理。額外的時間維度還需要不同的嵌入、標記化策略和架構。最后,視頻媒體通常與其他模態配對(例如,它很自然地伴隨著音頻),這使得它特別容易用于多模態設置。

視頻。本工作的重點是全面分析用于視頻數據建模的Transformer架構的最新進展。請注意,在Transformer層建模之前,使用傳統(非Transformer)架構將視頻映射到其他結構化形式(例如,接頭[27]或語音[28])的工作不在我們的范圍之內。我們對使用(時間)視覺特征作為SA層輸入的模型特別感興趣。我們分析了文獻采用這些模型的方式,使之能夠處理視頻的內在復雜性以及其他可選模態。然而,我們確實考慮在使用Transformer層之前利用某些CNN架構將視頻數據嵌入到低維空間的工作(參見第3.1.1節)。

Transformers。與基于位置的體系架構(如CNN)不同,Transformer在每一層對數據的全局交互進行建模。然而,有一個廣泛的基于全局的架構。我們關注的是將SA以非局部運算[15]的內嵌高斯變量形式,加上額外的歸一化因子的工作(見式(1))。已有文獻將其他形式的注意力視為SA[29],[30],[31],[32],但這些文獻通常使用FC層而不是點積來計算注意力權重。我們認為這些超出了本次調研的范圍。此外,與Transformers并行的研究方向還采用SA或等效的內嵌高斯版本的非局部算子來處理計算機視覺任務。例如,圖注意力網絡,如[33]和[34],或關系網絡,如[35]和[36]。類似地,我們也發現它們被用于增強CNN主干,通過添加中間層[15]、[37]、[38]、[39],或者通過增強輸出表示[40]、[41]、[42]。我們很高興地看到,在這么多不同的研究方向都采用了非局部操作。不過,在本工作中,我們只關注Transformer體系結構,并將非本地操作集成到不同體系結構中的各種方式留給未來的工作進行比較。

視頻Transformers(vt)的通用框架。在(a)中,我們展示了一個普通的Transformer Encoder1;在(b)中,我們展示了不同的標記化和嵌入策略,具體見3.1節;在(c)中,我們展示了一種常見的分層Transformer設計,它分解了視頻片段的空間和時間交互。這些和其他視頻設計在第3.2節中有描述。

視頻Transformer

視頻數據的高維性以及上述《Transformers》的局限性需要進行多種調整,以構建成功的視頻《Transformers》。在這里,我們對VTs進行一個全面的概述:在3.1節中,我們探討了在將視頻輸入Transformer之前如何處理它們,并探討了降維和標記化替代方案的主干。然后,在第3.2節中,我們詳細介紹了高效Transformer設計的建議,比如在視頻中顯式地利用時間結構。接下來,我們在第3.3節分析了視頻如何與其他模態整合。最后,我們概述VT訓練策略和損失,特別是在第3.4節中的自監督方法。

付費5元查看完整內容

相關內容

 是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支。

Transformer模型是當下的研究焦點。最近 Google Yi Tay發布了關于Transformers最新論文,提供這類模型的最新進展的全面概述。

摘要

Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

關鍵詞:深度學習,自然語言處理,Transformer模型,注意力模型

//www.zhuanzhi.ai/paper/39a97bd373cc6f37c6b2e9026f3422e8

介紹

Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在,在語言理解、圖像處理等許多領域都產生了巨大的影響。因此,在過去的幾年里,大量的研究致力于對該模型進行根本性的改進,這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究 ((Kitaev et al., 2020; Roy et al., 2020; Beltagy et al., 2020; Katharopoulos et al., 2020; Tay et al., 2020b; Wang et al., 2020c; Rae et al., 2020; Choromanski et al., 2020b; Dai et al., 2020; Correia et al., 2019; Sukhbaatar et al., 2019a; Vyas et al., 2020)。

最近出現了大量的Transformer模型變體,研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時,僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此,對現有文獻進行綜述,既有利于社區,又十分及時。

自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差,它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性,這可能阻礙模型在許多設置的可伸縮性。最近,為了解決這個問題,出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。

根據上下文,可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況,當模型運行的加速器的內存有限時,這一點非常重要。效率也可能指計算成本,例如,在訓練和推理期間的失敗次數。特別是對于設備上的應用,模型應該能夠在有限的計算預算下運行。在這篇綜述中,我們提到了Transformer在內存和計算方面的效率,當它們被用于建模大型輸入時。

有效的自注意力模型在建模長序列的應用中是至關重要的。例如,文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此,處理長序列的效率對于Transformer的廣泛采用至關重要。 本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新,我們還將在后面的章節簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法,并通過技術創新和主要用例對其進行了表征。特別地,我們回顧了在語言和視覺領域都有應用的Transformer模型,試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹,并繪制了它們之間的聯系。

本節概述了高效Transformer模型的一般分類,以其核心技術和主要用例為特征。盡管這些模型的主要目標是提高自注意機制的內存復雜度,但我們還包括了提高Transformer體系結構的一般效率的方法。

  • 固定模式(FP)——對自注意最早的修改是通過將視野限制在固定的、預定義的模式(如局部窗口和固定步距的塊模式)來簡化注意力矩陣。

  • 組合模式(CP)——組合方法的關鍵思想是通過組合兩個或多個不同的訪問模式來提高覆蓋率。例如,Sparse Transformer (Child et al., 2019)通過將一半的頭部分配給每個模式,將跨步注意力和局部注意力結合起來。類似地,軸向Transformer (Ho et al., 2019)運用了一系列以高維張量作為輸入的自注意計算,每個計算都沿著輸入張量的單個軸。從本質上說,模式的組合以與固定模式相同的方式降低了內存復雜度。但是,不同之處在于,多個模式的聚合和組合提高了自注意機制的整體覆蓋率。

  • 可學習的模式(LP)-固定的,預先確定的模式的擴展是可學習的模式。不出所料,使用可學習模式的模型旨在以數據驅動的方式學習訪問模式。學習模式的一個關鍵特征是確定令牌相關性的概念,然后將令牌分配到桶或集群(Vyas et al., 2020; Wang et al., 2020b)。值得注意的是,Reformer (Kitaev et al., 2020)引入了一種基于哈希的相似性度量,以有效地將令牌聚為塊。類似地,路由Transformer (Roy et al., 2020)對令牌使用在線k-means聚類。同時,Sinkhorn排序網絡(Tay et al., 2020b)通過學習對輸入序列的塊進行排序,暴露了注意權值的稀疏性。在所有這些模型中,相似函數與網絡的其他部分一起端到端訓練。可學習模式的關鍵思想仍然是利用固定模式(塊狀模式)。然而,這類方法學會了對輸入標記進行排序/聚類——在保持固定模式方法的效率優勢的同時,實現了序列的更優全局視圖。

  • 神經記憶——另一個突出的方法是利用可學習的側記憶模塊,它可以一次訪問多個令牌。一種常見的形式是全局神經存儲器,它能夠訪問整個序列。全局標記充當一種模型內存的形式,它學習從輸入序列標記中收集數據。這是在Set transformer (Lee et al., 2019)中首次引入的誘導點方法。這些參數通常被解釋為“內存”,用作將來處理的臨時上下文的一種形式。這可以被認為是參數關注的一種形式(Sukhbaatar et al., 2019b)。ETC (Ainslie et al., 2020)和Longformer (Beltagy et al., 2020)也使用了全局記憶令牌。在有限的神經記憶(或誘導點)中,我們能夠對輸入序列執行一個初步的類似于池的操作來壓縮輸入序列——在設計高效的自注意模塊時,這是一個可以隨意使用的巧妙技巧。

  • 低秩方法——另一種新興的技術是通過利用自注意矩陣的低秩近似來提高效率。

  • 內核——另一個最近流行的提高transformer效率的方法是通過內核化來查看注意力機制。

  • 遞歸-塊方法的一個自然擴展是通過遞歸連接這些塊。

  • 下采樣-另一種降低計算成本的常用方法是降低序列的分辨率,從而以相應的系數降低計算成本。

  • 稀疏模型和條件計算——雖然不是專門針對注意力模塊,稀疏模型稀疏地激活一個參數子集,這通常提高了參數與FLOPs的比率。

付費5元查看完整內容

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

摘要

我們介紹了使用神經模型的語音識別問題,強調了當輸入和輸出序列的長度不同時,訓練和推理的CTC損失。

我們討論了在推理過程中使用的beam搜索,以及如何使用圖Transformer網絡(Graph Transformer Network)在訓練時對該過程進行建模。圖Transformer網絡基本上是帶有自動微分的加權有限狀態自動機,它允許我們將先驗編碼到圖中。有不同類型的加權有限狀態和不同的操作,包括并集、克林閉包、交、合成和前向得分。損失函數通常是函數之間的區別。我們可以很容易地實現這些網絡使用GTN庫。

地址:

//atcold.github.io/NYU-DLSP21/en/week11/11/

付費5元查看完整內容

文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。

本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。

在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。

盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。

//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e

付費5元查看完整內容

摘要

Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

關鍵詞:深度學習,自然語言處理,Transformer模型,注意力模型

介紹

Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在,在語言理解、圖像處理等許多領域都產生了巨大的影響。因此,在過去的幾年里,大量的研究致力于對該模型進行根本性的改進,這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究。

最近出現了大量的Transformer模型變體,研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時,僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此,對現有文獻進行綜述,既有利于社區,又十分及時。

自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差,它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性,這可能阻礙模型在許多設置的可伸縮性。最近,為了解決這個問題,出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。

根據上下文,可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況,當模型運行的加速器的內存有限時,這一點非常重要。效率也可能指計算成本,例如,在訓練和推理期間的失敗次數。特別是對于設備上的應用,模型應該能夠在有限的計算預算下運行。在這篇綜述中,我們提到了Transformer在內存和計算方面的效率,當它們被用于建模大型輸入時。

有效的自我注意力模型在建模長序列的應用中是至關重要的。例如,文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此,處理長序列的效率對于Transformer的廣泛采用至關重要。

本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自我注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新,我們還將在后面的章節簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法,并通過技術創新和主要用例對其進行了表征。特別地,我們回顧了在語言和視覺領域都有應用的Transformer模型,試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹,并繪制了它們之間的聯系。

付費5元查看完整內容

多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司