亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

動態注意力機制和全局建模能力使Transformer表現出較強的特征學習能力。近年來,Transformer在計算機視覺方面已經可以媲美CNN方法。本文主要研究了Transformer在圖像和視頻應用中的研究進展,對Transformer在視覺學習理解中的應用進行了全面的綜述。首先,回顧了在Transformer中起著重要作用的注意力機制。然后介紹了視覺Transformer模型和各個模塊的工作原理。第三,研究了現有的基于Transformer的模型,并比較了它們在視覺學習理解應用中的性能。研究了計算機視覺的三個圖像任務和兩個視頻任務。前者主要包括圖像分類、目標檢測和圖像分割。后者包括目標跟蹤和視頻分類。它對于比較不同模型在多個公共基準數據集上的不同任務性能具有重要意義。最后,總結了視覺Transformer存在的10個普遍問題,并對其發展前景進行了展望。

引言

深度學習[1]發展迅速,卷積神經網絡(CNN)在深度學習[2]、[3]的各個領域都占據了主導地位。然而,近年來Transformer[4]逐漸打破了這種局面。它摒棄了以往深度學習任務中使用的CNN和RNN,在自然語言處理(NLP)、計算機視覺(CV)等領域取得了突破。逐漸地,基于Transformer的模型在最近三年中得到了很好的發展。最初的Transformer模型是在2017年[4]題為“Attention is all you need”的論文中正式提出的。它來自于NLP中的機器翻譯模型seq2seq[5]。此外,在Transformer模型中也采用了編碼器-解碼器架構。它主要是從一個注意力模塊演變而來的,自注意力,這是現有的注意力模式之一。在注意力機制方面,出現了多種注意力模型來提高識別效果。現有的注意力模型主要包括通道注意力、空間注意力和自注意力[6]。《Transformer》的核心是自注意力。

首先,Transformer是一種新穎的方法,在自然語言處理中取得了巨大的成功。后來又擴展到CV中的不同任務,如高分辨率圖像合成[7]、目標跟蹤[8]、目標檢測[9]-[11]、分類[12]、分割[13]、圖像處理[14]、再識別[15]-[17]等。在過去的三年里,Transformer已經進化出了一系列變體,也被稱為X-Transformer[18]。各種Transformer 應運而生,并在各項任務中取得了良好的應用進展。研究表明,預訓練的Transformer模型在各種任務中都達到了最先進的水平。Transformer模型的效果是顯著的,特別是在ImageNet分類任務中。ViT[19]、BoTNet[20]、Swin Transformer[21]相繼提出,并一次又一次實現性能突破。本文綜述了Transformer在視覺學習理解的圖像和視頻應用方面的發展進展

對比[18]、[22]-[24]、[26]等相關綜述,從Transformer的模型機制、視覺學習理解應用的應用進展、各種模型在公共基準上的性能比較等方面進行了全面的研究。相關綜述及其主要內容見表一。這篇綜述旨在讓讀者全面了解Transformer、其原理以及現有的應用進展。此外,還為所研究的圖像和視頻研究提供了實驗比較。同時,也為深度學習研究者提供了進一步的思路。這項綜述的主要貢獻如下:

  1. 全面研究了基于Transformer的視覺學習理解方法,并給出了一些評論。
  2. 對注意力機制進行了回顧,它在Transformer中起著至關重要的作用。
  3. 對原始可視化Transformer模型的每個部分進行了詳細說明。充分理解視覺Transformer的原理是至關重要的。
  4. 總結了基于Transformer模型在視覺學習理解方面的應用進展,包括圖像分類、目標跟蹤、圖像分割、目標跟蹤、視頻分類等。然后,在每個小節中給出了各模型的性能比較,為相關研究人員提供了實驗比較。
  5. 總結Transformer的十大公共問題。為研究人員提供進一步的研究思路。

注意力機制

注意力機制是20世紀90年代提出的。它指的是將人類的感知和注意行為應用到機器上,機器可以學習感知數據中重要和不重要的部分。在CV中,注意力機制讓機器感知圖像中的目標信息,抑制圖像的背景信息。引入注意力機制可以緩解深度學習中計算能力和優化算法的限制。

根據不同的角度[28]對現有的深度學習注意機制進行了分類。解碼時是否考慮編碼器的所有隱藏狀態,分為全局注意力機制和局部注意力機制。從注意力域的角度看,可分為注意力域、空間力域、通道域和混合域。根據編碼方式的不同,可分為軟注意力機制、硬注意力機制和自注意力機制。其中,自注意力是Transformer模型的研究核心。

Transformers

Transformers的視覺學習和理解框架。針對圖像任務,主要研究了基于Transformer的主干、圖像分類、目標檢測和圖像分割。針對視頻任務,綜述了基于Transformer的目標跟蹤、視頻分類方法。

圖像分類、目標檢測和圖像分割是圖像分類的三個基本任務。針對這三項任務的基于Transformer的方法已經得到了很好的發展。有基于Transformer的骨干和基于Transformer的頸部。前者在所有的三個任務中進行評估,而后者通常在其中任何一個任務中進行評估。研究了相關的Transformer模型及其相應的實驗結果。

基于Transformer的圖像分類的總體框架

Transformer在視頻學習和理解方面得到了發展,包括目標跟蹤、視頻分類和視頻分割。本節主要研究基于Transformer的目標跟蹤和視頻分類方法。

基于Transformer的視頻分類的總體框架

總結

本文對Transformer在視覺學習理解方面的發展進行了全面的研究,并提出了一些看法。值得注意的是,基于transformer方法的一些關鍵實驗性能統計數據在多個圖像和視頻任務中得到了展示,為研究人員提供了實驗性能參考。同時,提出了基于Transformer的模型計算復雜、局部表示能力弱、依賴于大量預訓練數據等10個開放性問題。當然,也提出了一些發展方向。本綜述旨在使研究者對基于Transformer的研究有一個全面的認識,這對促進Transformer的發展具有重要意義。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。

摘要

Transformer 是一種基于注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全面回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一系列基本但未開發的方面,這些方面可能使 Transformer 從眾多架構中脫穎而出,例如,松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后,提出了三個有前景的未來研究方向,以供進一步研究。

//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作為一種基于注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。

在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發,一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。

如上所述,基于注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之后,在過去的一年中,針對各個領域提出了數百種基于transformer的模型。因此,我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨干在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。

去年發表了幾篇關于Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了系統的綜述,并簡要地提到了可視化應用[89]。基于這些觀察,本文旨在對近期的視覺Transformer進行全面的回顧,并對現有的方法進行系統的分類:

(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。

(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限制下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一系列有前途的組件,包括: 基于層次結構的主干淺局部卷積,基于稀疏注意的空間先驗加速,以及用于分割的通用掩模預測方案。

(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關系,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。

本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類,并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討,并指出了未來進一步研究的方向。

總結

在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。

  • 對于分類,一個深度層次的Transformer主干可以有效地降低計算復雜度[39],并在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。

  • 在檢測方面,Transformer骨干得益于編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由于其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利于降低計算復雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利于Transformer的性能,收斂速度稍快。

  • 對于分割,編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。

付費5元查看完整內容

摘要

Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer,然后提出了一個x-former的新分類。接下來,我們將從三個方面介紹不同的x -former架構修改,預訓練和應用。最后,展望了未來的研究方向。

//www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0

引言

Transformer[136]是一種出色的深度學習模型,被廣泛應用于自然語言處理(NLP)、計算機視覺(CV)和語音處理等各個領域。Transformer最初是作為一種用于機器翻譯的序列到序列模型提出的[129]。后來的工作表明,基于Transformer的預訓練模型(PTMs)[100]可以在各種任務上實現最先進的性能。因此,Transformer已經成為NLP的首選架構,特別是對于PTMs。除了語言相關的應用,Transformer也被應用于CV[13, 33, 94],音頻處理[15,31,41],甚至其他學科,如化學[113]和生命科學[109]。

由于成功,各種各樣的Transformer 變種(即x -former)在過去幾年里被提出。這些X-formers從不同的角度改進了vanilla Transformer。

(1) 模型的效率。應用Transformer的一個關鍵挑戰是它在處理長序列時效率低下,這主要是由于自注意力模塊的計算和存儲復雜性。改進方法包括輕量級注意力(例如稀疏注意變體)和分治法(例如循環和分層機制)。

(2) 模型泛化。由于Transformer是一種靈活的體系結構,并且很少對輸入數據的結構偏差進行假設,因此很難對小規模數據進行訓練。改進方法包括引入結構偏差或正則化、對大規模無標記數據進行預處理等。

(3) 模型的適應。該工作旨在使Transformer適應特定的下游任務和應用程序。

在這個綜述中,我們的目的是提供一個Transformer及其變體的全面綜述。雖然我們可以根據上面提到的觀點來組織x-former,但許多現有的x前輩可能會解決一個或幾個問題。例如,稀疏注意變量不僅降低了計算復雜度,而且在輸入數據上引入了結構先驗,緩解了小數據集上的過擬合問題。因此,將現有的各種X-formers進行分類,并根據它們改進Transformer的方式提出新的分類方法會更有條理: 架構修改、預訓練和應用。考慮到本次綜述的受眾可能來自不同的領域,我們主要關注于一般的架構變體,而只是簡單地討論了預訓練和應用的具體變體。

到目前為止,基于普通Transformer的各種模型已經從三個角度被提出:架構修改的類型、預訓練的方法和應用。圖2給出了Transformer變種的分類說明。

盡管“x-formers”已經證明了他們在各種任務上的能力,但挑戰仍然存在。除了目前關注的問題(如效率和泛化),Transformer的進一步改進可能在以下幾個方向:

(1) 理論分析。Transformer的體系結構已被證明能夠支持具有足夠參數的大規模訓練數據集。許多工作表明,Transformer比CNN和RNN有更大的容量,因此有能力處理大量的訓練數據。當Transformer在足夠的數據上進行訓練時,它通常比CNN或RNN有更好的性能。一個直觀的解釋是,Transformer對數據結構沒有什么預先假設,因此比CNN和RNN更靈活。然而,理論原因尚不明確,我們需要對Transformer能力進行一些理論分析。

(2) 注意力機制之外的全局交互機制更加完善。Transformer的一個主要優點是使用注意力機制來建模輸入數據中節點之間的全局依賴關系。然而,許多研究表明,對大多數節點來說,完全注意力是不必要的。在某種程度上,不可區分地計算所有節點的注意力是低效的。因此,在有效地建模全局交互方面仍有很大的改進空間。一方面,自注意力模塊可以看作是一個具有動態連接權的全連接神經網絡,通過動態路由聚合非局部信息; 因此,其他動態路由機制是值得探索的替代方法。另一方面,全局交互也可以通過其他類型的神經網絡來建模,比如記憶增強模型。

(3) 多模態數據統一框架。在許多應用場景中,集成多模態數據對于提高任務性能是非常有用和必要的。此外,一般的人工智能還需要能夠捕獲跨不同模式的語義關系。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大的成功,我們有機會建立一個統一的框架,更好地捕捉多模態數據之間的內在聯系。但是,在設計中對模式內和模式間的注意還有待改進。

付費5元查看完整內容

Transformer是一種主要基于自注意力機制的深度神經網絡,最初應用于自然語言處理領域。受Transformer強大的表征能力的啟發,研究人員提出將Transformer擴展到計算機視覺任務中。與卷積網絡和循環網絡等其他網絡類型相比,基于Transformer的模型在各種視覺基準上都具有競爭力,甚至表現出了更好的性能。在本文中,作者對這些視覺變換器模型進行了文獻綜述,將它們按照不同的任務進行分類,并分析了這些方法的優缺點。具體來說,主要包括基礎圖像分類(basic image classification)、高級視覺(high-level vision)、低級視覺(low-level vision)和視頻處理(video processing)。由于自注意力(self-attention)是變換器中的基礎部件,作者簡要重新審視了自注意力在計算機視覺中的位置。為變換器推向實際應用,本文包含了高效的變換器方法。最后,作者給出了視覺變換器的未來研究方向。

//arxiv.org/abs/2012.12556

深度神經網絡已成為現代人工智能系統的基礎設施。針對不同的任務,已經提出了不同的網絡類型。多層感知(Multi-layer perception, MLP)或稱全連接(full - connected, FC)網絡是由多個線性層和非線性激活疊加而成的經典神經網絡[104,105]。卷積神經網絡(CNNs)引入了卷積層和池化層,用于處理圖像等位移不變數據[68,65]。循環神經網絡(RNNs)利用循環細胞來處理順序數據或時間序列數據[106,49]。Transformer是一種新提出的神經網絡,主要利用自注意力機制[5,90]來提取內在特征[123]。其中轉換器網絡是新近發明的一種神經網絡,在人工智能方面具有廣泛的應用潛力。

Transformer最初應用于自然語言處理(natural language processing, NLP)任務,并帶來了顯著的改進[123,29,10]。例如,Vaswani等人[123]首先提出了完全基于注意力機制的轉換器,用于機器翻譯和英語分析任務。Devlin等人[29]引入了一種新的語言表示模型,稱為BERT,該模型通過聯合調節左右上下文,從未標記的文本中預訓練一個Transformer。BERT在當時的十一個NLP任務中獲得了最先進的結果。Brown等人[10]在45TB壓縮純文本數據上預訓練了一個具有1750億參數的基于巨型Transformer的GPT-3模型,在不進行微調的情況下,在不同類型的下游自然語言任務上實現了強大的性能。這些基于Transformer的模型顯示了較強的表示能力,并在自然語言處理領域取得了突破。

受自然語言處理中transformer 功能的啟發,近年來研究人員將transformer 擴展到計算機視覺任務中。CNN曾經是視覺應用的基礎組件[47,103],但transformer作為CNN的替代品正在表現出它的能力。Chen等人[18]訓練序列轉換器進行自回歸預測像素,實現與CNN在圖像分類任務上的相匹配結果。ViT是Dosovitskiy等人[31]最近提出的一種視覺transformer 模型,它將純transformer 直接應用于圖像貼片序列,在多個圖像識別基準上獲得了最先進的性能。除了基本的圖像分類,transformer還被用于解決更多的計算機視覺問題,如目標檢測[14,155]、語義分割、圖像處理和視頻理解。由于其優異的性能,越來越多的基于transformer的模型被提出用于改進各種視覺任務。

基于transformer的視覺模型如雨后春筍般涌現,這讓我們很難跟上新發展的步伐。因此,對現有工作的調研是有益的,對社區是有益的。在本文中,我們對視覺transformer的最新進展進行了全面的概述,并討論了進一步改進的潛在方向。為了獲得更好的存檔并方便不同主題的研究人員,我們按應用場景對transformer模型進行分類,如表1所示。具體來說,主要內容包括基本圖像分類、高級視覺、低級視覺和視頻處理。高級視覺處理圖像中看到的東西的解釋和使用[121],如對象檢測、分割和車道檢測。已經有許多transformer模型解決這些高級視覺任務,如DETR[14],用于目標檢測的變形DETR[155]和用于分割的Max-DeepLab[126]。低級別圖像處理主要涉及從圖像(通常表示為圖像本身)[35]中提取描述,其典型應用包括超分辨率、圖像去噪和樣式轉換。很少有研究[17,92]在低級視覺中使用transformer,需要更多的研究。除了基于圖像的任務外,視頻處理也是計算機視覺的一個重要部分。由于視頻的時序性,transformer自然可以應用于視頻中[154,144]。與傳統的CNN或RNNs相比,Transformer在這些任務上開始表現出具有競爭力的性能。本文對基于Transformer的可視化模型的研究工作進行了綜述,以跟上這一領域的發展步伐。視覺Transformer的開發時間表如圖所示,我們相信會有越來越多的優秀作品被鐫刻在里程碑上。

本文的其余部分組織如下。第二節首先制定了自注意力機制和標準transformer。我們在第三節中描述了在自然語言處理中transformer的方法,因為研究經驗可能有助于視覺任務。接下來,第四部分是本文的主要部分,總結了圖像分類、高級視覺、低級視覺和視頻任務上的視覺變形模型。我們還簡要回顧了CV的自注意力機制和高效Transformer方法,因為它們與我們的主題密切相關。最后,對全文進行了總結,并對今后的研究方向和面臨的挑戰進行了討論。

與卷積神經網絡相比,Transformer 以其優異的性能和巨大的潛力成為計算機視覺領域的研究熱點。為了發現和利用Transformer的效用,正如在調研中總結的那樣,近年來已經提出了一些解決方案。這些方法在基礎圖像分類、高級視覺、低級視覺和視頻處理等視覺任務中表現出優異的性能。然而,計算機視覺Transformer的潛力還沒有被充分發掘,還有一些挑戰有待解決。

雖然研究者們已經提出了許多基于Transformer的模型來處理計算機視覺任務,但這些工作只是初步的解決方案,還有很大的改進空間。例如,ViT[31]的transformer 架構遵循NLP的標準transformer [123]。針對CV的改進版本還有待探索。除此之外,transformer 還需要應用在更多的任務上。

此外,現有的視覺transformer 模型大多是針對單一任務而設計的。許多NLP模型,如GPT-3[10],都顯示了transformer在一個模型中處理多個任務的能力。在CV區域的IPT[17]還能夠處理多個低分辨率的視覺任務,如超分辨率、圖像去噪和去噪。我們認為,只有一種模式可以涉及更多的任務。最后,開發高效的CV轉換器模型也是一個有待解決的問題。transformer 模型通常是巨大的和計算昂貴的,例如,基本的ViT模型[31]需要180億次浮點運算來處理一個圖像。相比之下,輕量級的CNN模型GhostNet[44,45]只需約6億次FLOPs就能達到類似的性能。雖然有幾種壓縮transformer 的方法,但它們的復雜性仍然很大。而這些最初為自然語言處理設計的方法可能并不適用于CV。

付費5元查看完整內容
北京阿比特科技有限公司