亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在深度神經網絡之后,以多頭自注意力機制為核心的Vision Transformer因其對輸入全局關聯的強大建模能力得到了廣泛應用和研究。盡管現有研究在模型結構、損失函數、訓練機制等方面提出了諸多改進,但少有研究對Vision Transformer的工作機制進行了深入探索。本文為ICLR 2022中的亮點論文之一,提供了不同解釋來幫助理解Vision Transformer (ViT)的優良特性:1)多頭自注意力機制不僅提高了精度,而且通過使損失的超平面變得平坦,提高了泛化程度;2)多頭自注意力機制和卷積模塊表現出相反的行為。例如,多頭自注意力機制是低通濾波器,而卷積模塊是高通濾波器;3)多層的神經網絡的行為就像一系列小的個體模型的串聯;4)最后階段的卷積模塊在預測中起著關鍵作用。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

在Transformer模型[1,2,6,7,8]中,相對位置編碼顯式地對任意兩個Token的位置關系進行建模,提高了模型的表征能力。它的有效性在自然語言處理領域得到了充分證明[14,15,16,17,18]。然而,在計算機視覺領域,討論相對位置編碼的工作比較少[9,10,11,12,13]且存在不同的觀點。由于圖像可視為二維的序列,如何將一維相對位置編碼推廣到二維相對位置編碼,解決方案仍不清晰。本篇論文提出了四種二維相對位置編碼的映射方式,同時分析了Vision Transformer中影響二維相對位置性能的關鍵因素,得到了以下有趣的發現:

  1. 不需要調整訓練的超參數,相對位置編碼能給圖像分類和目標檢測的Vision Transformers模型帶來顯著的精度提升;

  2. 相對位置的方向信息在圖像分類、目標檢測任務中有著重要作用;

  3. 輸入相關的相對位置編碼比輸入無關的相對位置編碼更有效;

  4. 組合不同嵌入特征上的相對位置編碼,能夠進一步提升模型的表征能力;

  5. 在圖像分類任務中,相對位置編碼可以完全替代絕對位置編碼,因為圖像分類不需要預測物體的位置,相對位置編碼能夠讓模型更關注局部信息;在目標檢測任務中,相對位置編碼能提高模型精度,但絕對位置編碼是必須的,因為相對位置編碼不能提供物體定位所需的絕對位置信息。 //houwenpeng.com/publications/iRPE.pdf

付費5元查看完整內容

摘要

Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer,然后提出了一個x-former的新分類。接下來,我們將從三個方面介紹不同的x -former架構修改,預訓練和應用。最后,展望了未來的研究方向。

//www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0

引言

Transformer[136]是一種出色的深度學習模型,被廣泛應用于自然語言處理(NLP)、計算機視覺(CV)和語音處理等各個領域。Transformer最初是作為一種用于機器翻譯的序列到序列模型提出的[129]。后來的工作表明,基于Transformer的預訓練模型(PTMs)[100]可以在各種任務上實現最先進的性能。因此,Transformer已經成為NLP的首選架構,特別是對于PTMs。除了語言相關的應用,Transformer也被應用于CV[13, 33, 94],音頻處理[15,31,41],甚至其他學科,如化學[113]和生命科學[109]。

由于成功,各種各樣的Transformer 變種(即x -former)在過去幾年里被提出。這些X-formers從不同的角度改進了vanilla Transformer。

(1) 模型的效率。應用Transformer的一個關鍵挑戰是它在處理長序列時效率低下,這主要是由于自注意力模塊的計算和存儲復雜性。改進方法包括輕量級注意力(例如稀疏注意變體)和分治法(例如循環和分層機制)。

(2) 模型泛化。由于Transformer是一種靈活的體系結構,并且很少對輸入數據的結構偏差進行假設,因此很難對小規模數據進行訓練。改進方法包括引入結構偏差或正則化、對大規模無標記數據進行預處理等。

(3) 模型的適應。該工作旨在使Transformer適應特定的下游任務和應用程序。

在這個綜述中,我們的目的是提供一個Transformer及其變體的全面綜述。雖然我們可以根據上面提到的觀點來組織x-former,但許多現有的x前輩可能會解決一個或幾個問題。例如,稀疏注意變量不僅降低了計算復雜度,而且在輸入數據上引入了結構先驗,緩解了小數據集上的過擬合問題。因此,將現有的各種X-formers進行分類,并根據它們改進Transformer的方式提出新的分類方法會更有條理: 架構修改、預訓練和應用。考慮到本次綜述的受眾可能來自不同的領域,我們主要關注于一般的架構變體,而只是簡單地討論了預訓練和應用的具體變體。

到目前為止,基于普通Transformer的各種模型已經從三個角度被提出:架構修改的類型、預訓練的方法和應用。圖2給出了Transformer變種的分類說明。

盡管“x-formers”已經證明了他們在各種任務上的能力,但挑戰仍然存在。除了目前關注的問題(如效率和泛化),Transformer的進一步改進可能在以下幾個方向:

(1) 理論分析。Transformer的體系結構已被證明能夠支持具有足夠參數的大規模訓練數據集。許多工作表明,Transformer比CNN和RNN有更大的容量,因此有能力處理大量的訓練數據。當Transformer在足夠的數據上進行訓練時,它通常比CNN或RNN有更好的性能。一個直觀的解釋是,Transformer對數據結構沒有什么預先假設,因此比CNN和RNN更靈活。然而,理論原因尚不明確,我們需要對Transformer能力進行一些理論分析。

(2) 注意力機制之外的全局交互機制更加完善。Transformer的一個主要優點是使用注意力機制來建模輸入數據中節點之間的全局依賴關系。然而,許多研究表明,對大多數節點來說,完全注意力是不必要的。在某種程度上,不可區分地計算所有節點的注意力是低效的。因此,在有效地建模全局交互方面仍有很大的改進空間。一方面,自注意力模塊可以看作是一個具有動態連接權的全連接神經網絡,通過動態路由聚合非局部信息; 因此,其他動態路由機制是值得探索的替代方法。另一方面,全局交互也可以通過其他類型的神經網絡來建模,比如記憶增強模型。

(3) 多模態數據統一框架。在許多應用場景中,集成多模態數據對于提高任務性能是非常有用和必要的。此外,一般的人工智能還需要能夠捕獲跨不同模式的語義關系。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大的成功,我們有機會建立一個統一的框架,更好地捕捉多模態數據之間的內在聯系。但是,在設計中對模式內和模式間的注意還有待改進。

付費5元查看完整內容
北京阿比特科技有限公司