露脸视频一区二区三区在线播放,国产污片在线观看网站,JULIA亚洲中文字幕久久图片,国产精品久久久久久久久美女,亚洲伊人久久综合一区二区

摘要

Transformer模型架構最近引起了極大的興趣，因為它們在語言、視覺和強化學習等領域的有效性。例如，在自然語言處理領域，Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近，提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型，其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導，本文描述了大量經過深思熟慮的最新高效X-former模型的選擇，提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

關鍵詞：深度學習，自然語言處理，Transformer模型，注意力模型

介紹

Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在，在語言理解、圖像處理等許多領域都產生了巨大的影響。因此，在過去的幾年里，大量的研究致力于對該模型進行根本性的改進，這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究。

最近出現了大量的Transformer模型變體，研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時，僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此，對現有文獻進行綜述，既有利于社區，又十分及時。

自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差，它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性，這可能阻礙模型在許多設置的可伸縮性。最近，為了解決這個問題，出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。

根據上下文，可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況，當模型運行的加速器的內存有限時，這一點非常重要。效率也可能指計算成本，例如，在訓練和推理期間的失敗次數。特別是對于設備上的應用，模型應該能夠在有限的計算預算下運行。在這篇綜述中，我們提到了Transformer在內存和計算方面的效率，當它們被用于建模大型輸入時。

有效的自我注意力模型在建模長序列的應用中是至關重要的。例如，文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此，處理長序列的效率對于Transformer的廣泛采用至關重要。

本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自我注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新，我們還將在后面的章節簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法，并通過技術創新和主要用例對其進行了表征。特別地，我們回顧了在語言和視覺領域都有應用的Transformer模型，試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹，并繪制了它們之間的聯系。

付費5元查看完整內容

注意力機制

將Transformer模型應用于非常大的文本序列時，第一個挑戰是如何處理注意力層。LSH通過計算一個哈希函數來實現這一點，該哈希函數將類似的向量匹配在一起，而不是搜索所有可能的向量對。例如，在翻譯任務中，網絡第一層的每個向量表示一個單詞(后續層中可能表示更大的上下文)，不同語言中相同單詞對應的向量可能得到相同的哈希。下圖中，不同的顏色描繪了不同的哈希，相似的單詞有相同的顏色。當哈希值被分配時，序列會被重組，將具有相同哈希值的元素放在一起，并被分成片段(或塊)，以支持并行處理。之后，注意力機制被應用于這些更短的塊中(以及相鄰塊，以覆蓋溢出)，從而大幅度減少了計算負載。

內存問題

雖然LSH解決了注意力的問題，但仍然存在一個內存問題。單個網絡層通常需要幾GB的內存，并且通常適用于一個GPU，所以即使是一個處理長序列的模型的單層網絡也是可以接受的。但當用梯度下降訓練一個多層模型時，為了反向傳播，模型需要存儲每層的激活值。典型的Transformer一般有幾十或更多層，如果緩存每層的值，內存會很快被消耗完。

Reformer中實現的第二個新方法是在反向傳播期間按需重新計算每個層的輸入，而不是將其存儲在內存中。這是通過使用可逆層來實現的，其中網絡最后一層的激活值被用來恢復來自任何中間層的激活值，這相當于反向運行網絡。在典型的殘差網絡中，棧中的每一層都不斷地向傳播信息中添加向量。每個可逆層有兩組激活值，一個遵循剛才描述的標準過程逐層更新，但另一個只捕獲變化。因此，要反向運行網絡，只需在每層激活值間做簡單的減法。

Reformer的應用

Reformer中這兩種方法的引用使得它非常高效，以至于它可以在單個16GB的加速器上處理包含100萬詞的長文本序列。由于Reformer非常高效，它可以直接應用于上下文窗口遠大于當前最先進文本領域數據集的上下文窗口的數據。也許Reformer能夠處理如此大數據集的能力將刺激社區創建它們。

圖像生成任務中不缺乏長上下文數據。下面鏈接的colab代碼中展現了Reformer如何被用于補全殘缺圖片。它可以基于第一行殘缺的圖片來像素級地生成第二行中完整的圖片。colab地址為：

//colab.research.google.com/github/google/trax/blob/master/trax/models/reformer/image_generation.ipynb

目前論文《Reformer: The Efficient Transformer》已經被ICLR 2020接收為Oral論文。更多細節可以參考原始論文。

付費5元查看完整內容

壓縮感知 · 深度學習 · 神經網絡 · 文獻綜述 · 卷積神經網絡 ·

2019 年 10 月 12 日

[付費5元查看完整內容]深度神經網絡模型壓縮與加速綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而，現有的深度神經網絡模型在計算上是昂貴的和內存密集型的，這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此，在不顯著降低模型性能的情況下，在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中，這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法，然后介紹其他技術。對于每種方案，我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法，例如，動態容量網絡和隨機深度網絡。然后，我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后，對全文進行總結，并對今后的研究方向進行了展望。

付費5元查看完整內容