亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】Transformer是當下流行的模型。牛津大學等學者發布首篇《Transformer多模態學習》綜述論文,23頁pdf涵蓋310篇文獻全面闡述MMT的理論與應用。

Transformer是一種很有前途的神經網絡學習器,在各種機器學習任務中都取得了很大的成功。隨著近年來多模態應用和大數據的普及,基于Transformer 的多模態學習已成為人工智能研究的熱點。本文介紹了面向多模態數據的Transformer 技術的全面綜述。本次綜述的主要內容包括:(1)多模態學習、Transformer 生態系統和多模態大數據時代的背景,(2)從幾何拓撲的角度對Vanilla Transformer、Vision Transformer和多模態Transformer 進行理論回顧,(3)通過兩個重要的范式,即多模態預訓練和具體的多模態任務,對多模態Transformer 的應用進行回顧。(4)多模態Transformer 模型和應用共享的共同挑戰和設計的總結,以及(5)對社區的開放問題和潛在研究方向的討論。

//www.zhuanzhi.ai/paper/0da69832c8fd261e9badec8449f6fe80

人工智能(AI)的最初靈感是模仿人類的感知,如視覺、聽覺、觸覺、嗅覺。通常情況下,一個模態通常與創建獨特通信通道的特定傳感器相關聯,例如視覺和語言[1]。對于人類來說,我們感官感知的一個基本機制是,為了在動態的、不受約束的環境下恰當地參與世界,我們能夠共同利用多種感知數據模式,每一種模式都是具有不同統計特性的獨特信息源。例如,一幅圖像通過數千個像素給出了“大象在水中玩耍”場景的視覺外觀,而相應的文本則用一個使用離散單詞的句子描述了這一時刻。從根本上說,多模態人工智能系統需要攝取、解釋和推理多模態信息源,以實現類似人類水平的感知能力。多模態學習(MML)是一種構建人工智能模型的通用方法,可以從多模態數據[1]中提取和關聯信息。

本綜述聚焦于使用Transformers[2]進行多模態學習(如圖1所示),其靈感來自于它們在建模不同模態(例如,語言、視覺、聽覺)和任務(例如,語言翻譯、圖像識別、語音識別)方面的內在優勢和可擴展性,并且使用較少的模態特定架構假設(例如,翻譯不變性和視覺中的局部網格注意偏差)[3]。具體地說,Transformer的輸入可以包含一個或多個令牌序列,以及每個序列的屬性(例如,形態標簽、順序),自然地允許在不修改架構的情況下使用MML[4]。此外,學習每模態特異性和多模態相關性可以簡單地通過控制自注意力的輸入模式來實現。關鍵的是,最近在不同學科探索Transformer架構的研究嘗試和活動激增,導致近年來開發了大量新穎的MML方法,以及在[4]、[5]、[6]、[7]、[8]等不同領域取得了顯著和多樣的進展。這就需要對具有代表性的研究方法進行及時的回顧和總結,以使研究人員能夠理解MML領域各相關學科的全局圖景,更重要的是能夠獲得當前研究成果和主要挑戰的整體結構圖。

為了提高不同學科之間的可讀性和可達性,本文采用了一種兩層的結構化分類法,分別基于應用維度和挑戰維度。這有幾個好處:(1)在特定應用領域具有專長的研究人員可以在連接到其他相關領域之前找到適合自己研究領域的應用。(2)將不同領域發展的相似模型設計和體系結構歸納在一個抽象的、公式驅動的視角下,使不同應用中形成的各種模型的數學思想在共同點上相互關聯和對比,跨越特定領域的限制。至關重要的是,我們的分類法提供了一個有趣的立體視角,個人作品在應用特異性和配方普遍性的見解。希望這有助于打破領域界限,促進更有效的理念溝通和跨模式交流。通過使用提示建模策略[9]作為研究的基礎,我們還包括了經典的分類問題(例如圖像分類)——通常被認為是傳統MML綜述中的單一模態學習應用——[1],[10],[11]——作為特殊的MML應用。

本綜述將討論Transformer架構的多模態具體設計,包括但不限于以下幾種模態:RGB圖像[5],深度圖像[13],視頻[7],音頻/語音/音樂[13],[14],[15],表[16],場景圖/布局[17],[18],[19],姿勢骨架[20],SQL[21],[22],菜譜[23],編程語言[24],手語[25],[26],[27],點云[28],符號知識(圖)[29],[30],多模式知識圖譜[31],草圖繪制[32],[33],[34],[35],3D對象/場景[36],[37],[38],文檔[39],[40],[41],[42],編程代碼[43]和抽象語法樹(AST)——一類圖[44]、光流[45]、醫學知識(如診斷代碼本體[46])。注意,本綜述將不討論多模態論文,其中Transformer只是作為特征提取器使用,而沒有多模態設計。據我們所知,這是第一個全面回顧基于Transformer的多模態機器學習的狀態。

這項綜述的主要特點包括:(1)我們強調Transformer的優勢是它們可以以一種模式無關的方式工作。因此,它們與各種模態(以及模態的組合)兼容。為了支持這一觀點,我們首次從幾何拓撲的角度對多模態環境下Transformer的內在特征進行了理解。我們建議將自注意視為一種圖風格的建模,它將輸入序列(包括單模態和多模態)建模為一個全連接圖。具體地說,自注意模型將任意模態中的任意標記嵌入為一個圖節點。(2) 我們在多模態環境中盡可能以數學的方式討論Transformer的關鍵部件。(3)基于Transformer,跨模態交互(如融合、對齊)本質上是由自注意及其變體處理的。在本文中,我們從自注意力設計的角度,提取了基于MML實踐的Transformer的數學本質和公式。在介紹了我們對多模態學習、Transformer生態系統和多模態大數據時代的綜述之后,我們總結了我們的主要貢獻如下。(1)我們從幾何拓撲的角度對Vanilla Transformer、視覺Transformer和多模態Transformer進行了理論回顧。(2)我們從兩個互補的角度對基于Transformer的MML進行了分類,即基于應用和基于挑戰。在第4節中,我們通過兩個重要的范例,即多模態預訓練和具體的多模態任務,對多模態Transformer的應用進行了回顧。在第5節中,我們進行總結各種多模態Transformer 模型和應用所共享的共同挑戰和設計。(3)討論了基于Transformer 的MML技術目前的瓶頸、存在的問題和潛在的研究方向。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】注意力機制是深度學習核心的構建之一,注意力機制是深度學習核心的構件之一,來自Mohammed Hassanin等學者發表了《深度學習視覺注意力》綜述論文,提供了50種注意力技巧的深入綜述,并根據它們最突出的特征進行了分類。

受人類認知系統的啟發,注意力是一種模仿人類對特定信息的認知意識的機制,將關鍵細節放大,從而更多地關注數據的本質方面。深度學習已經在許多應用中運用了注意力來提高性能。有趣的是,同樣的注意力設計可以適合處理不同的數據形式,并且可以很容易地并入大型網絡。此外,多個互補注意力機制可以整合到一個網絡中。因此,注意力技巧變得非常有吸引力。然而,文獻缺乏對注意力技術的全面研究,以指導研究者將注意力運用到深度模型中。注意,除了在訓練數據和計算資源方面的要求外,Transformers 在自注意力中只覆蓋了許多可用類別中的一個類別我們填補了這一空白,提供了50種注意力技巧的深入綜述,并根據它們最突出的特征進行了分類。我們通過介紹成功注意力機制背后的基本概念來開始我們的討論。接下來,我們提供了一些要素,如每種注意力類別的優勢和局限性,描述了它們的基本構建模塊,主要用途的基本公式,以及專門用于計算機視覺的應用。在此基礎上,對注意力機制所面臨的挑戰和有待解決的問題進行了綜述。最后,我們對未來可能的研究方向提出建議。

//www.zhuanzhi.ai/paper/6e69019b739b12b44c0806f84e842412

引言

注意力與人類的認知系統有著天然的聯系。根據認知科學,人類的視神經接收到的數據量超過了它的處理能力。因此,人腦對輸入的信息進行權衡,只關注必要的信息。隨著機器學習的最新發展,特別是深度學習,以及處理大型和多輸入數據流的能力不斷提高,研究人員在許多領域采用了類似的概念,并制定了各種注意機制,以提高機器翻譯[1]、[2]、視覺識別[3],生成模型[4],多智能體強化學習[5]等。在過去的十年中,深度學習取得了突飛猛進的發展,導致許多深度神經網絡架構能夠學習數據中的復雜關系。一般來說,神經網絡提供隱式注意力,從數據中提取有意義的信息。

在為機器翻譯問題[6]設計的編碼器-解碼器架構中,首次引入了深度學習中的顯式注意力機制來解決遺忘問題。由于網絡的編碼器部分側重于生成一個代表性的輸入向量,因此解碼器從表示向量生成輸出。采用雙向回歸神經網絡[6]解決遺忘問題,從輸入序列中生成上下文向量,然后根據上下文向量和之前的隱藏狀態對輸出進行解碼。上下文向量由中間表示的加權和計算,這使得該方法成為顯式注意力的一個例子。此外,利用LSTM[7]生成上下文向量和輸出。兩種方法都考慮到編碼器的所有隱藏狀態來計算上下文向量。然而,[8]引入了另一種思路,它讓注意力力機制只關注隱藏狀態的子集,從而生成上下文向量中的每個項。與之前的注意力方法相比,這種方法的計算成本較低,并顯示了全局注意力機制和局部注意力機制之間的權衡。

另一個基于注意力的突破是由Vaswani et al.[2]提出的,他們基于自注意機制創建了一個完整的架構。輸入序列中的項首先被并行編碼為稱為鍵、查詢和值的多個表示。此體系結構(稱為Transformer)有助于更有效地捕獲輸入序列中每個項相對于其他項的重要性。最近,許多研究人員對基本的Transformer架構進行了擴展,用于特定的應用。為了關注到圖像中的重要部分并抑制不必要的信息,基于注意力的學習的進步已經在多個計算機視覺任務中找到了方法,要么對每個圖像像素使用不同的注意力地圖,將其與其他像素[3]、[4]、或生成一個注意力映射來提取整個圖像[10],[11]的全局表示。然而,注意力機制的設計高度依賴于手頭的問題。為了加強對輸入中關鍵信息對應的隱藏狀態的選擇,注意力技術被用作基于視覺的任務中的插件單元,減輕了梯度消失的風險。綜上所述,計算注意力分數,并確定或隨機地選擇隱藏狀態。

在過去的幾年里,注意力一直是重要的研究工作的中心,在許多不同的機器學習和視覺應用中,對圖像注意力已經蓬勃發展,例如,分類[12],檢測[13],圖像描述[14],3D分析[15]等。盡管注意力技術在深度學習中的表現令人印象深刻,但目前還沒有文獻綜述對所有的注意力機制(尤其是基于深度學習的視覺注意機制)進行全面的綜述,并根據它們的基本底層結構對它們進行分類,突出它們的優缺點。最近,研究人員調研了特定于應用的注意力技術,重點是基于NLP的[16]、基于Transformer的[17]、[18]和基于圖形的方法[19]。然而,目前還沒有一項全面的研究對基于深度學習的注意力技術的進行廣泛調研。

在本文中,我們回顧視覺注意力技術。我們的調研涵蓋了許多基本的構建塊(操作和功能)和完整的架構,這些架構旨在學習合適的表示,同時使模型注意到輸入圖像或視頻中的相關和重要信息。我們的調研廣泛地對計算機視覺文獻中提出的注意力機制進行分類,包括軟注意力、硬注意力、多模態、算術、類注意力和邏輯注意力。我們注意到有些方法不只屬于一個類別;然而,我們將每個方法歸入與該類別的其他方法有主要關聯的類別。遵循這樣的分類有助于跟蹤常見的注意力機制特征,并提供了可能有助于設計新的注意力技術的見解。圖2顯示了注意力機制的分類。我們強調,由于大量的論文如圖1所示發表,因此在視覺方面有必要注意力調研。從圖1可以明顯看出,去年發表的文章數量與往年相比明顯增加,我們預計在未來幾年也會有類似的趨勢。此外,我們的綜述列出了重要的文章,以幫助計算機視覺和機器學習社區在他們的模型中采用最合適的注意力機制,并避免重復的注意方法。它還確定了研究差距,提供了當前的研究背景,提出了合理的研究方向和未來的重點領域。

注意力類型的分類。根據注意力的執行方法對注意力進行分類。有些注意力技巧可以適用于多個類別;在這種情況下,注意力是根據最主要的特征和主要應用進行分組的。

由于transformers 已經在許多視覺應用中使用; 一些綜述總結了transformers在計算機視覺中的最新趨勢。盡管transformers 提供了很高的精度,但這是以很高的計算復雜度為代價的,這阻礙了其在移動和嵌入式系統應用中的可行性。此外,基于transformers 的模型比CNN需要更多的訓練數據,缺乏有效的硬件設計和通用性。根據我們的綜述,在被調研的50種不同的注意力類別中,transformers只涵蓋了自注意力的一種類別。另一個顯著的區別是,我們的調查關注的是注意力類型,而不是基于transformers的調查[17]、[18]所涵蓋的應用。

視覺注意力

視覺中注意力的主要目的是模仿人類視覺認知系統,關注輸入圖像中的基本特征[20]。我們根據用于生成注意分數的主要功能對注意方法進行分類,如softmax或sigmoid。表1給出了這個綜述類別的總結、應用、優點和局限性。

軟注意力

本節回顧了軟注意力方法,如通道注意力、空間注意力和自注意力。在通道注意力方面,分數是根據通道計算的,因為每個特征圖(通道)都關注輸入的特定部分。在空間注意力方面,主要思想是注意力圖像中的關鍵區域。關注感興趣的區域有助于對象檢測、語義分割和人的重新識別。與通道注意力相反,空間注意力空間圖中的重要部分(以寬度和高度為界)。它可以獨立使用,也可以作為一種補充機制來引導注意力。另一方面,通過提取輸入序列標記之間的關系,提出了自注意力對高階交互和上下文信息進行編碼。它與通道注意力在產生注意力分數的方式上不同,它主要計算相同輸入的兩個映射(K, Q)之間的相似性,而通道注意從單個映射圖產生分數。然而,自注意力和通道注意力都在通道上起作用。軟注意力方法主要使用softmax、sigmoid等軟函數,以所有輸入實體[8]加權和計算注意力得分。由于這些方法是可微的,它們可以通過反向傳播技術進行訓練。然而,它們還面臨著其他問題,如高計算復雜度和為無參與對象分配權重。

基于通道注意力方法的核心結構。

硬(隨機)的注意力

不是使用隱藏狀態的加權平均,硬注意力選擇其中一個狀態作為注意力得分。提出硬注意力取決于回答兩個問題: (1) 如何對問題建模,以及 (2) 如何在不消除梯度的情況下訓練它。在這一部分中,討論了硬注意力的方法及其訓練機制。它包括貝葉斯注意、變分推理、強化注意力和高斯注意力的討論。貝葉斯注意力與變分注意力的主要思想是將潛在隨機變量作為注意力分數。強化注意力用伯努利-Sigmoid單位代替Softmax[174],而高斯注意力則使用二維高斯核來代替。同樣,自注意力[65]使用一種強化技術來生成注意力分數,而期望-最大化使用EM來生成分數。

硬注意力架構

付費5元查看完整內容

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

  • 我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。

  • 我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。

  • 我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。

  • 我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。

  • 我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。

  • 我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。

  • 我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

隨著以自然為靈感的純粹注意力模型,即transformer的出現,以及它們在自然語言處理(NLP)方面的成功,它們對機器視覺(MV)任務的擴展是不可避免的,而且感覺非常強烈。隨后,視覺變換器(ViTs)的引入給現有的基于深度學習的機器視覺技術帶來了挑戰。然而,純粹的基于注意力的模型/架構,如變換器,需要大量的數據、大量的訓練時間和大量的計算資源。最近的一些工作表明,這兩個不同領域的組合可以證明構建具有這兩個領域的優點的系統。據此,這一現狀的綜述論文是介紹,希望將幫助讀者得到有用的信息,這一有趣的和潛在的研究領域。首先介紹了注意力機制,然后討論了流行的基于注意力的深度架構。隨后,我們討論了基于機器視覺的注意機制與深度學習交叉的主要類別。然后,討論了本文研究范圍內的主要算法、問題和發展趨勢。

付費5元查看完整內容

引言

深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。

//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1

概述

機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。

我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。

人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.

在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。

付費5元查看完整內容

Transformer是一種主要基于自注意力機制的深度神經網絡,最初應用于自然語言處理領域。受Transformer強大的表征能力的啟發,研究人員提出將Transformer擴展到計算機視覺任務中。與卷積網絡和循環網絡等其他網絡類型相比,基于Transformer的模型在各種視覺基準上都具有競爭力,甚至表現出了更好的性能。在本文中,作者對這些視覺變換器模型進行了文獻綜述,將它們按照不同的任務進行分類,并分析了這些方法的優缺點。具體來說,主要包括基礎圖像分類(basic image classification)、高級視覺(high-level vision)、低級視覺(low-level vision)和視頻處理(video processing)。由于自注意力(self-attention)是變換器中的基礎部件,作者簡要重新審視了自注意力在計算機視覺中的位置。為變換器推向實際應用,本文包含了高效的變換器方法。最后,作者給出了視覺變換器的未來研究方向。

//arxiv.org/abs/2012.12556

深度神經網絡已成為現代人工智能系統的基礎設施。針對不同的任務,已經提出了不同的網絡類型。多層感知(Multi-layer perception, MLP)或稱全連接(full - connected, FC)網絡是由多個線性層和非線性激活疊加而成的經典神經網絡[104,105]。卷積神經網絡(CNNs)引入了卷積層和池化層,用于處理圖像等位移不變數據[68,65]。循環神經網絡(RNNs)利用循環細胞來處理順序數據或時間序列數據[106,49]。Transformer是一種新提出的神經網絡,主要利用自注意力機制[5,90]來提取內在特征[123]。其中轉換器網絡是新近發明的一種神經網絡,在人工智能方面具有廣泛的應用潛力。

Transformer最初應用于自然語言處理(natural language processing, NLP)任務,并帶來了顯著的改進[123,29,10]。例如,Vaswani等人[123]首先提出了完全基于注意力機制的轉換器,用于機器翻譯和英語分析任務。Devlin等人[29]引入了一種新的語言表示模型,稱為BERT,該模型通過聯合調節左右上下文,從未標記的文本中預訓練一個Transformer。BERT在當時的十一個NLP任務中獲得了最先進的結果。Brown等人[10]在45TB壓縮純文本數據上預訓練了一個具有1750億參數的基于巨型Transformer的GPT-3模型,在不進行微調的情況下,在不同類型的下游自然語言任務上實現了強大的性能。這些基于Transformer的模型顯示了較強的表示能力,并在自然語言處理領域取得了突破。

受自然語言處理中transformer 功能的啟發,近年來研究人員將transformer 擴展到計算機視覺任務中。CNN曾經是視覺應用的基礎組件[47,103],但transformer作為CNN的替代品正在表現出它的能力。Chen等人[18]訓練序列轉換器進行自回歸預測像素,實現與CNN在圖像分類任務上的相匹配結果。ViT是Dosovitskiy等人[31]最近提出的一種視覺transformer 模型,它將純transformer 直接應用于圖像貼片序列,在多個圖像識別基準上獲得了最先進的性能。除了基本的圖像分類,transformer還被用于解決更多的計算機視覺問題,如目標檢測[14,155]、語義分割、圖像處理和視頻理解。由于其優異的性能,越來越多的基于transformer的模型被提出用于改進各種視覺任務。

基于transformer的視覺模型如雨后春筍般涌現,這讓我們很難跟上新發展的步伐。因此,對現有工作的調研是有益的,對社區是有益的。在本文中,我們對視覺transformer的最新進展進行了全面的概述,并討論了進一步改進的潛在方向。為了獲得更好的存檔并方便不同主題的研究人員,我們按應用場景對transformer模型進行分類,如表1所示。具體來說,主要內容包括基本圖像分類、高級視覺、低級視覺和視頻處理。高級視覺處理圖像中看到的東西的解釋和使用[121],如對象檢測、分割和車道檢測。已經有許多transformer模型解決這些高級視覺任務,如DETR[14],用于目標檢測的變形DETR[155]和用于分割的Max-DeepLab[126]。低級別圖像處理主要涉及從圖像(通常表示為圖像本身)[35]中提取描述,其典型應用包括超分辨率、圖像去噪和樣式轉換。很少有研究[17,92]在低級視覺中使用transformer,需要更多的研究。除了基于圖像的任務外,視頻處理也是計算機視覺的一個重要部分。由于視頻的時序性,transformer自然可以應用于視頻中[154,144]。與傳統的CNN或RNNs相比,Transformer在這些任務上開始表現出具有競爭力的性能。本文對基于Transformer的可視化模型的研究工作進行了綜述,以跟上這一領域的發展步伐。視覺Transformer的開發時間表如圖所示,我們相信會有越來越多的優秀作品被鐫刻在里程碑上。

本文的其余部分組織如下。第二節首先制定了自注意力機制和標準transformer。我們在第三節中描述了在自然語言處理中transformer的方法,因為研究經驗可能有助于視覺任務。接下來,第四部分是本文的主要部分,總結了圖像分類、高級視覺、低級視覺和視頻任務上的視覺變形模型。我們還簡要回顧了CV的自注意力機制和高效Transformer方法,因為它們與我們的主題密切相關。最后,對全文進行了總結,并對今后的研究方向和面臨的挑戰進行了討論。

與卷積神經網絡相比,Transformer 以其優異的性能和巨大的潛力成為計算機視覺領域的研究熱點。為了發現和利用Transformer的效用,正如在調研中總結的那樣,近年來已經提出了一些解決方案。這些方法在基礎圖像分類、高級視覺、低級視覺和視頻處理等視覺任務中表現出優異的性能。然而,計算機視覺Transformer的潛力還沒有被充分發掘,還有一些挑戰有待解決。

雖然研究者們已經提出了許多基于Transformer的模型來處理計算機視覺任務,但這些工作只是初步的解決方案,還有很大的改進空間。例如,ViT[31]的transformer 架構遵循NLP的標準transformer [123]。針對CV的改進版本還有待探索。除此之外,transformer 還需要應用在更多的任務上。

此外,現有的視覺transformer 模型大多是針對單一任務而設計的。許多NLP模型,如GPT-3[10],都顯示了transformer在一個模型中處理多個任務的能力。在CV區域的IPT[17]還能夠處理多個低分辨率的視覺任務,如超分辨率、圖像去噪和去噪。我們認為,只有一種模式可以涉及更多的任務。最后,開發高效的CV轉換器模型也是一個有待解決的問題。transformer 模型通常是巨大的和計算昂貴的,例如,基本的ViT模型[31]需要180億次浮點運算來處理一個圖像。相比之下,輕量級的CNN模型GhostNet[44,45]只需約6億次FLOPs就能達到類似的性能。雖然有幾種壓縮transformer 的方法,但它們的復雜性仍然很大。而這些最初為自然語言處理設計的方法可能并不適用于CV。

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容
北京阿比特科技有限公司