好男人在线观看免费2019-国产在线精品99一区

長文本建模是自然語言處理(NLP)領域的一項重要技術。隨著長文檔數量的不斷增長，開發能夠處理和分析此類文本的有效建模方法變得非常重要。然而，長文本具有更為復雜的語義和特殊的特征，給現有文本模型帶來了重要的研究挑戰。本文綜述了基于Transformer模型的長文本建模的最新進展。首先，介紹長文本建模的形式化定義;然后，作為核心內容，討論了如何處理長輸入以滿足長度限制，并設計改進的Transformer架構以有效擴展最大上下文長度。討論了如何自適應Transformer模型來捕捉長文本的特殊特征。最后，介紹了4種典型的長文本建模應用，并對未來的研究方向進行了展望。本文旨在為研究人員提供長文本建模的相關工作的綜合和指導。在現實生活中，長文本是記錄人類活動或日常事件的一種主要信息媒體形式，如學術文章、官方報告、會議腳本等。由于文本量的不斷增長，人類難以閱讀、處理和提取大規模長文本中重要的相關信息。因此，對NLP系統自動建模長文本和提取人類感興趣的信息的需求很強烈。一般來說，長文本建模的任務旨在通過信息表示(如關鍵字)從文本中捕獲顯著的語義，這對各種下游應用都很有用。例如，將arXiv中的一篇長科學論文總結為摘要[Cohan et al.， 2018]，并將一篇長法律文件分類為不同類別[Wan et al.， 2019]。為了處理涉及長文本建模的任務，許多先前的研究基于循環神經網絡(RNNs) [Yang et al.， 2016]，其中有兩個突出的變體LSTM [Cohan et al.， 2018]和GRU [Yang et al.， 2016]。然而，循環神經網絡不能有效地處理長文本中的長程依賴關系。最近，基于Transformer的模型[Vaswani等人，2017]，特別是預訓練語言模型(PLMs)在NLP中取得了巨大成功[Devlin等人，2018;Radford等人，2019;Lewis等人，2019]。當涉及到在長文本任務中使用PLM時，許多工作只是采用相同的方法來處理相對較短的文本，而沒有考慮與長文本的區別[Lewis等人，2019]。然而，對長文本進行建模是自然語言處理中一項具有挑戰性的任務。首先，現有PLM對每個輸入序列的長度有限制。每個PLM預定義了一個最大上下文長度，通常超過長文本的長度，使得超過最大長度的標記直接被丟棄。因此，如何預處理長文本以適應現有的PLM是值得深入研究的。此外，計算效率也是一個不可避免的問題。隨著文檔長度的增加，對文本進行建模所需的時間和內存消耗呈二次增長，給實際應用程序帶來了巨大的負擔。此外，相對于短文本，長文檔包含了更多的特殊特征。由于長文本通常是具有復雜層次結構的特定領域文章，因此需要考慮長期依存關系、句間關系和篇章結構。盡管現有工作對相關領域進行了綜述，但沒有一項綜述系統地總結了長文本建模的最新進展。Koh等人[2022]對長文檔摘要的研究進行了簡要概述，但沒有深入長文本建模的核心技術。Tay等人[2022]和Lin等人[2022]專注于提高長文本建模中Transformer模型的計算效率。與現有的綜述不同，本綜述試圖對基于Transformer模型的長文本建模提供更通用和全面的概述，而不限于特定的應用或主題。

本綜述的其余部分組織如下(見圖1)。首先，我們在第2節中給出長文本建模的正式定義。為了對任意長度的長文本進行建模，本文介紹了第3節中處理PLM長度限制的預處理方法，以及第4節中有效擴展最大上下文大小同時保持計算效率的Transformer架構。由于長文本具有特殊的特性，我們將在第5節中解釋如何設計模型架構以滿足這些特性。隨后，在第6節介紹了典型的應用。最后，對全文進行了總結，并在第7節提出了未來的研究方向。

**長文本建模 **首先，提供了長文本建模的正式定義。在本綜述中，長文本表示為單詞序列X = (x1，…， xn)，與可以直接由Transformer處理的短文本或普通文本相比，它可能包含數千個或更多的標記。由于PLM的預定最大上下文長度，Transformer模型對整個長序列進行編碼是具有挑戰性的。因此，使用預處理函數g(·)將冗長的輸入轉換為較短的序列或片段集合(第3節)。此外，冗長的文檔將包含在建模過程中必須考慮的特殊特征C，例如長期依存關系、句子間關系和篇章結構(第5節)。使用Transformer架構M從輸入數據中捕獲上下文信息，并建模從輸入X到期望輸出Y的語義映射關系(第4節)。基于這些概念，建模長文本的任務被形式化描述如下:

預處理輸入長文本

現有的基于transformer的PLMs [Devlin等人，2018;Radford等人，2019;Lewis等人，2019]預定義了最大序列長度，例如，BERT只能處理多達512個token。根據第2節，當序列長度n超過最大上下文大小t時，使用預處理函數g(·)將輸入文檔轉換為一個或多個短段(見公式1)。在本節中，我們介紹了三種主要的文本預處理技術，以規避plm的長度限制，即截斷、分塊和內容選擇，如表1所示 * 文本截斷（Truncating Long Texts）：從頭開始對輸入文本進行截斷到PLM最大長度，將截斷后的文本送入PLM。 * 文本分塊（Chunking Long Texts）：將輸入文本分成一個個文本塊，其中每個文本塊長度小于等于PLM最大長度。之后，每個文本塊分別被PLM處理。 * 文本選擇（Selecting Salient Texts）：將輸入文本分成一個個文本塊，識別并連接其中重要的文本塊成為新的輸入序列。新的輸入需要滿足小于PLM最大長度并送往PLM進行處理。

用于長文本的Transformer架構

考慮到自注意力模塊的二次復雜度，在計算資源有限的情況下，基于transformer的PLM在長文本中不能很好地擴展。本文沒有對長文本進行預處理(第3節)，而是討論了Transformer模型的有效架構M(公式1)，降低了復雜性。之前的研究廣泛討論了提高Transformer計算效率的各種方法[Tay等人，2022;Lin等，2022]。在這里，我們主要討論可以有效擴展其最大上下文長度的變體。介紹了為長文本設計的transformer預訓練目標和策略。 * 高效Transformer（Efficient Transformer）：針對Transformer的自注意力機制進行改進降低復雜度。

固定模式（Fixed Attention Patterns）：根據位置選擇每個token可以交互的token子集。 * 可學習模式（Learnable Attention Patterns）：根據輸入的內容信息選擇每個token可以交互的token子集。 * 注意力近似（Attention Approximation）：對注意力機制進行近似改進，分為低秩近似和核近似。 * 高效編碼器解碼器注意力（Efficient Encoder-decoder Attention）：對解碼器和編碼器之間的注意力機制降低復雜度。 * 循環Transformer（Recurrent Transformer）：不改變自注意力機制，而是對輸入進行分塊，使用模型對當前以及存儲的先前塊的信息進行處理。 * 長文本預訓練（Pretraining for Long Texts）：針對長文本，設計更合適的預訓練目標函數，使用長文本作為訓練數據，并可以從現有的PLM開始繼續訓練。

長文本特殊性質（Special Characteristics of Long Text）

背景：之前兩個章節的方法理論上足以處理長文本問題。但是，相比于普通的文本，長文本含有許多獨特性質。利用這些獨特性質，可以更好地對長文本進行建模。 * 長期依賴（Long-term Dependency）：當前，許多方法關注局部細節信息的建模。然而，在長文本中，遙遠的詞之間可能存在依賴關系。

增強局部注意力：為了彌補高效Transformer中局部注意力的不足，增加模塊捕捉長期依賴信息。 * 建模塊間交互：文本分塊中不同分塊之間信息缺少交互，增加單向或者雙向的塊間信息交互。 * 句間關系（Inter-sentence Relations）：長文本中含有許多句子，因此擁有復雜的句間關系。然而，PLM大多更善于捕捉token級別的依賴，因此需要對于句子層面的關系進行額外建模。

層次化模型：將Transformer結構修改為層次化模式，利用編碼器顯式編碼句子級表示，解碼器利用兩個級別的信息。 * 圖模型：將下游任務轉化為結點分類任務，文本轉化為圖。其中，句子表示作為結點，利用邊捕獲句間關系，并使用圖神經網絡進行結點分類。 * 篇章結構（Discourse Structure）：長文本中通常含有復雜的篇章（含有多個句子的語義單元）結構信息，如科學論文中的章節。

顯式設計模型：在模型中設計模塊負責捕捉篇章結構信息。 * 隱式增強模型：不改變模型架構，在訓練，輸入預處理等階段引入歸納偏置。

應用（Applications）

文章介紹了涉及建模長文本的典型下游任務： * 文本摘要（Text summarization） * 問答（Question answering） * 文本分類（Text classification） * 文本匹配（Text matching）

未來方向（Future Directions）

最后，文章討論了一些可能的未來方向： * 探究適用于長文本模型架構 * 探究長文本預訓練語言模型 * 探究如何消除長文本和現有語言模型之間的差距 * 探究在低資源情況下對長文本進行建模 * 探究使用大型預訓練語言模型(LLMs)對長文本進行建模

總結

文章介紹了近年來使用Transformer解決長文本的一些研究工作，如果不足和遺漏，歡迎大家留言討論。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

Transformer · 視覺分割 · 計算機視覺 ·

2023 年 4 月 27 日

[付費5元查看完整內容]Transformer如何做視覺分割？南洋理工最新《基于Transformer的視覺分割》綜述，詳述120多個深度分割模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里，基于深度學習的方法在這個領域取得了顯著進展。最近，一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer，在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說，視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述，總結了近期的進展。我們首先回顧背景，包括問題定義、數據集和先前的卷積方法。接下來，我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構，我們檢查各種方法設計，包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置，包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外，我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后，我們確定了這個領域的開放性挑戰，并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題，涉及到諸多實際應用，如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始，分割問題已經得到了大量的研究關注。在過去的十年里，深度神經網絡，如卷積神經網絡（CNNs）[6]、[7]、[8]，例如全卷積網絡（FCNs）[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功，并帶來了更好的結果。與傳統分割方法相比，基于CNN的方法具有更好的泛化能力。由于它們的卓越性能，CNN和FCN架構一直是分割研究工作的基本組成部分。

最近，隨著自然語言處理（NLP）的成功，變換器（Transformer）[13]被引入作為循環神經網絡（RNNs）[14]的替代品。Transformer包含一個新穎的自注意力設計，并可以并行處理各種標記。然后，基于Transformer設計，BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能，加速了變換器進入視覺領域的發展。最近，研究人員將變換器應用于計算機視覺（CV）任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時，一些工作[19]、[20]使用純自注意力層替換卷積層。之后，兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer（ViT）[21]，它是一種純粹的Transformer，直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer（DETR）[22]，它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計，簡化了檢測和分割的流程。然后，隨后的工作在各種視覺任務上采用改進的設計，包括表示學習[23]、[24]，對象檢測[25]，分割[26]，低級圖像處理[27]，視頻理解[28]，3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面，最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比，大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起，有關視覺變換器的調查有很多[31]、[32]、[33]。然而，其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時，還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而，在我們所知范圍內，尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信，總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中，我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始，然后轉向基于Transformer的方法，涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是，對于主要的綜述部分，我們首先在第3.1節中將現有方法的核心框架總結為一個元架構，這是DETR的擴展。通過改變元架構的組件，我們將現有方法分為六類，包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外，我們還研究了密切相關的具體設置，包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外，還提供了以前基于CNN的模型和其他領域的相關文獻的概述，如目標檢測，目標跟蹤，以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務，包括語義分割、實例分割、全景分割及其變體，如視頻和點云分割。此外，我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法，只回顧了一些與cnn密切相關的方法，以供參考。雖然有很多預印本或已出版的作品，但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說，圖1顯示了我們調查的流程。在第2節中，首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后，回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后，我們在第六節提出了未來的研究方向，并在第七節總結了本文的研究。2. 方法綜述****在本節中，基于類似DETR的元架構，回顧了基于transformer的分割的關鍵技術。如圖3所示，元架構包含一個特征提取器、對象查詢和transformer解碼器。然后，以元體系結構為主線，綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后，在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。

在本節中，我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術，而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。

2.1 強表征

學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例，SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果，沒有花哨的東西。在vit之后，研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。

2.2 解碼器中的交互設計

本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計，另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域，用于VOD、VIS和VPS，重點是建模時間一致性和關聯。

3 優化對象查詢

與Faster-RCNN[111]相比，DETR[22]需要更長的收斂時間。由于對象查詢的重要作用，已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法，將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索，以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。

使用查詢進行關聯

得益于查詢表示的簡單性，最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯，另一種用于任務級關聯。前者采用實例判別的思想，解決視頻中的實例匹配問題，如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。

條件返回查詢融合

除了使用對象查詢進行多任務預測外，一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢，解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源，將這些工作分為兩方面:語言特征和圖像特征

4 相關的領域

在本節中，我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。

點云分割

包括語義級點云分割，實例級點云分割

調優基礎模型

我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法，使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識，并設計更好的方法來適應下游設置。對于開放詞匯表學習，核心思想是將預訓練的VLM特征與當前檢測器對齊，以實現新的類別分類。

領域感知分割

領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下，將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置，包括語義分割和目標檢測。在vit之前，之前的工作[291]，[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干，并提出了三種訓練策略，包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果，是UDA分割的強大基線。然后，HRDA[293]通過多分辨率訓練方法改進了DAFormer，并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發，MIC[294]提出了掩碼圖像一致性，以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊，在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反，它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是，通過引入領域查詢來實現對齊，并在解碼器上執行領域分類。同時，DA-DETR[295]提出了一種混合注意力模塊(HAM)，其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。

Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后，接下來的工作試圖通過各種方法來避免分類沖突。例如，Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法，LMSeg[252]使用可學習標記[268]擴展了這種嵌入，并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時，也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是，Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同，它基于公共語言嵌入來學習每個數據集的語義偏差，以避免領域鴻溝。最近，TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型，其中將Mask2Former擴展到視頻領域，并采用統一的圖像數據集預訓練和視頻微調。

標簽和模型高效分割

類無關的分割和跟蹤

醫學圖像分割

CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335]，[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功，最近的代表工作[260]，[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net，其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣，再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN，其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像，并設計了類似U-Net的架構。提取transformer中不同層的編碼表示，并通過跳躍連接與解碼器合并，以獲得最終的3D掩碼輸出。

5 基準測試結果

在本節中，我們報告了最近基于transformer的視覺分割，并列出了之前討論的算法的性能。對于每個審閱的領域，第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意，我們僅列出已發表的工作供參考。為簡單起見，我們排除了一些關于表示學習的工作，只介紹了特定的分割方法。關于全面的方法比較，請參閱補充資料，提供了更詳細的分析。

6 未來方向

通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26]，[153]，[162]，[163]，[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割，例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大，包括機器人導航和自動駕駛汽車。

多模態聯合學習。由于缺乏歸納偏差，transformer在處理任何模式方面都是通用的。因此，使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索，這也可能有利于相關的視覺語言任務，包括文本-圖像檢索和標題生成[343]。最近的工作[224]，[344]在一個通用的transformer架構中共同學習分割和視覺語言任務，這為結合跨多模態的分割學習提供了一個方向。

終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準，即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而，現實的場景通常是開放世界和非平穩的，其中新的類別可能連續出現[249]，[345]。例如，在自動駕駛汽車和醫療診斷中，可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此，我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中，使模型具有終身學習的能力。

動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入，可能難以關聯較長時間的實例。因此，新的方法必須納入長期記憶設計，并在更長的時期內考慮實例的關聯。其次，在長時間內保持分割掩碼的一致性可能是困難的，特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三，長視頻中可能會出現嚴重的遮擋，使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后，長視頻輸入往往涉及多種場景輸入，給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術，以確保模型可以處理不同的場景輸入。簡而言之，解決這些挑戰需要開發新的長視頻分割模型，該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。

生成式分割。隨著更強大的生成模型的興起，最近的工作[346]，[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發，通過生成建模解決了圖像分割問題[348]。采用生成式設計，避免了transformer解碼器和對象查詢設計，使整個框架更加簡單。然而，這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。

使用視覺推理進行分割。視覺推理[349]，[350]要求機器人理解場景中物體之間的聯系，這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入，用于各種應用，如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向，在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程，研究人員可以利用推理的力量來提高分割精度，而分割可以為視覺推理提供更好的輸入

7 結論

本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧，據我們所知，這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述，并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外，回顧了5個密切相關的領域，并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較，我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后，指出了基于transformer的視覺分割的未來研究方向。

付費5元查看完整內容

中文預訓練語言模型 · 自然語言處理 · 詞向量 · 預處理 · 深度學習 ·

2022 年 7 月 21 日

[付費5元查看完整內容]中文預訓練模型研究進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來,預訓練模型在自然語言處理領域蓬勃發展,旨在對自然語言隱含的知識進行建模和表示,但主流預訓練模型大多針對英文領域。中文領域起步相對較晚,鑒于其在自然語言處理過程中的重要性,學術界和工業界都開展了廣泛的研究,提出了眾多的中文預訓練模型。文中對中文預訓練模型的相關研究成果進行了較為全面的回顧,首先介紹預訓練模型的基本概況及其發展歷史,對中文預訓練模型主要使用的兩種經典模型Transformer和BERT進行了梳理,然后根據不同模型所屬類別提出了中文預訓練模型的分類方法,并總結了中文領域的不同評測基準,最后對中文預訓練模型未來的發展趨勢進行了展望。旨在幫助科研工作者更全面地了解中文預訓練模型的發展歷程,繼而為新模型的提出提供思路。

１引言

自然語言處理(NaturalLanguageProcessing,NLP)是計算機利用人類定義的算法對自然語言形式的輸入進行加工處理的過程,旨在讓計算機可以像人類一樣理解和生成語言,具備如人類一樣的聽、說、讀、寫、問、答、對話、聊天等的能力,并利用已有知識和常識進行推理分析.自然語言處理技術的發展經歷了從基于規則到基于統計的過程.隨著深度學習的發展,圖像、文本、聲音、視頻等不同形式的信息載體被自然語言處理技術突破,大量的神經網絡被引入自然語言理解任務中, 如循環神經網絡１、卷積神經網絡２、注意力機制３等.在特定的自然語言處理任務中,神經網絡可以隱性地學習到序列的語義表示與內在特征,因此,神經網絡成為了解決復雜自然語言處理任務最有效的方法.隨著計算力的不斷增強,深度學習在自然語言處理領域中不斷發展,分布式表示占據了主導地位,不僅在指定任務中可以端到端地學習語義表示,而且可以在大規模無標注的文本上進行自主學習,能更靈活地運用在各種下游任務中. 然而,早期在有監督數據上訓練淺層模型往往存在過擬合和標注數據不足等問題,在訓練深層模型參數時,為了防止過擬合,通常需要大量的標注數據,但有監督的標注數據成本較高,因此模型主要利用網絡中現存的大量無監督數據進行訓練.在此背景下,預訓練技術被廣泛地應用在自然語言處理領域.其中,最經典的預訓練模型是 BERT [４]模型,在多個自然語言處理任務中取得了最好結果(StateoftheArt,SOＧ TA).此后出現了一系列基于 BERT 的預訓練模型,掀起了深度學習與預訓練技術的發展浪潮。

隨著國內外研究者在預訓練模型方面的深入研究,目前已有很多關于預訓練模型的綜述,但缺少專門針對中文領域的相關綜述.當前,中文預訓練模型蓬勃發展并取得一定的成績,因此,對現有研究成果進行全面的分析和總結非常必要.本文期望能為中文預訓練相關領域的學者提供參考,幫助科研工作者了解目前的研究現狀和未來的發展趨勢.本文第２節概述預訓練模型的基本情況;第３節主要介紹兩種基本模型,即 Transformer和 BERT;第４節根據不同模型的所屬類別提出典型的中文預訓練模型的分類方法,并匯總了中文預訓練模型的相關資源;第５節梳理了中文領域的不同評測基準;最后總結全文并展望未來.

２預訓練模型

2.1 預訓練模型發展史

從預訓練語言模型的發展時間來看,可以將其分為靜態預訓練模型和動態預訓練模型.２０１３年,Mikolov等[５]在神經網絡語言模型(NeuralNetworkLanguageModel,NNLM) 思想的基礎上提出 Word２Vec,并引入大規模預訓練的思路, 旨在訓練具有特征表示的詞向量,其中包括 CBOW 和 SkipＧ Gram 兩種訓練方式.相比 NNLM 模型,Word２Vec可以更全面地捕捉上下文信息,彌補 NNLM 模型只能看到上文信息的不足,提高模型的預測準確性,Word２Vec極大地促進了深度學習在 NLP中的發展.自 Word２Vec模型被提出以來,一批訓練詞向量的模型相繼涌現,例如,Glove [６]和 FastText [７] 等模型均考慮如何得到文本單詞較好的詞向量表示,雖然對下游任務性能有所提升,但其本質上仍是一種靜態的預訓練模型.

２０１８年,Peters等[８]提出的 ELMo模型將語言模型帶入動態的預訓練時代.ELMo模型采用雙層雙向的 LSTM [９]編碼器進行預訓練,提取上下文信息,并將各層詞嵌入輸入特定下游任務中進行微調.該模型不僅可以學習到底層單詞的基礎特征,而且可以學到高層的句法和語義信息.然而,ELMo 模型只能進行串行計算,無法并行計算,模型訓練的效率較低;此外,該模型無法對長序列文本進行建模,常出現梯度消失等問題.而后,OpenAI提出了 GPT(GenerativePreＧtraiＧ ning)[１０]模型.與 ELMo模型不同,GPT 采用 Transformer 深度神經網絡,其處理長文本建模的能力強于 LSTM,僅使用 Transformer解碼器進行特征提取,在機器翻譯等生成式任務上表現驚人,但這一特點也導致 GPT 只利用到了當前詞前面的文本信息,并沒有考慮到后文信息,其本質上依舊是一種單向語言模型.為了解決 GPT等模型單向建模的問題,２０１８年, Devlin等[４]提出了 BERT 模型,該模型是第一個基于 Transformer的雙向自監督學習的預訓練模型,在英文語言理解評測基準[１１]榜單中的多個任務上達到了SOTA 結果,此后出現了一大批基于 BERT的預訓練模型,大幅提升了下游自然語言處理任務的性能.中文預訓練模型雖然起步較晚, 但發展迅速,已經取得了一定成果,本文第４節將對其進行重點介紹.

**2.2 研究中文預訓練模型的原因 **

首先,中文和英文分別是世界上使用人數最多和范圍最廣的兩種語言,然而在自然語言處理領域,英文預訓練模型較為普遍,例如,以 BERT 為首及其后出現的大量預訓練模型均是在單一語料英文數據集上進行訓練,此外模型的設計理念也更適用于英文,比如分詞方式及掩碼方式等.其次,中文和英文語言本質上存在差異,它們的主要區別是,中文文本通常由多個連續的字符組成,詞與詞之間沒有明顯的分隔符. 如果使用英文預訓練模型去處理常見的中文任務,效果往往不佳.因此,為了推動中文領域自然語言處理技術和預訓練模型在多語言任務方面的發展,構建以中文為核心的預訓練模型勢在必行.

３ Transformer和 BERT

自２０２１年以來,中文預訓練模型進入井噴式的發展階段,其架構主要基于 Transformer和 BERT 兩種基礎模型,本節主要介紹這兩種模型. 圖１為典型的 Transformer架構,該架構由６個結構相同的編碼器和解碼器堆疊而成.單個編碼器由堆疊的自注意力層和前饋神經網絡組成,解碼器由堆疊的自注意力層、掩碼注意力層和前饋神經網絡組成.有關 Transformer的詳細細節介紹請參考文獻[１４].

BERT

BERT [４] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一種面向自然語言處理任務的無監督預訓練語言模型,由 Transformer的雙向編碼器表示.BERT的架構如圖２所示.

圖２ BERT示意圖[４]

４中文預訓練模型分類

**在自然語言處理領域,繼 Transformer和 BERT 出現之后,涌現出大量的預訓練模型,這些模型主要針對英文領域, 中文領域的研究起步較晚.但在近兩年,中文預訓練模型受到廣大學者的關注并取得了一定的研究成果.為了闡明現有的中文預訓練模型,本節主要從以下６個方面對現有的預訓練模型進行分類,圖３展示了典型的中文預訓練模型的分類圖. (１) 預訓練模型的方法改進,主要包括掩碼方式的轉變、位置編碼的轉變、LN 層的位置變化、MoE 層的使用、多粒度訓練和其他改進. (２) 融入外部信息的預訓練,主要包括命名實體、知識圖譜、語言學知識和特定知識.(３) 關于多模態融合的預訓練模型. (４) 側重于高效計算的預訓練,主要包括數據處理階段、預訓練階段以及技術優化. (５) 指特定領域的預訓練,主要包括對話系統和其他領域的預訓練模型. (６) 介紹一些其他變體,主要側重于典型的英文預訓練模型開源的中文版本.

圖３中文預訓練模型分類圖

5. 中文領域的評測基準

5.1 為什么建立中文領域的評測基準

首先,從使用人數上看,中國人口占世界人口的五分之一,人數龐大,因此中文是世界上使用人數最多的語言;其次, 從語言體系上看,中文與英文差異較大;最后,從數據集角度出發,中文領域公開可用的數據集較少,此前提出的中文預訓練模型在英文評測基準上評估,無法完全體現出模型性能. 當下預訓練模型的發展極其迅速,英文領域的評測基準已步入成熟階段,而中文領域的缺失必然會導致技術落后,因此中文領域的評測基準必不可少.本節主要介紹４種不同的評測基準.

６研究趨勢與展望

中文預訓練模型已在多個領域實現商業化落地,并展現出一定的市場潛力,取得了長足發展,但也存在較多挑戰,例如預訓練模型規模和性能之間的平衡問題;如何構建更加通用型的預訓練模型;如何突破現有多模態和輕量化模型的瓶頸;如何構建融入更多中文特色的預訓練模型等.本文主要從以下幾個方面對未來進行展望.

6.1 規模隨著以 BERT和 GPT等為代表的大規模預訓練模型的出現,逐漸掀起了預訓練模型朝大規模方向發展的浪潮.大量的研究表明,模型參數量越大,訓練數據量越多的預訓練模型表現更出色.中文領域存在眾多大規模預訓練模型,如源１．０參數２４５７億,訓練數據集達５０００GB;ERNIE３．０Titan 參數２６００億;中文多模態模型 M６參數量已經擴展至十萬億級別.目前預訓練模型還未達到模型的性能極限,增大模型參數量和訓練數據仍是提高模型性能最有效的手段,探索超大規模預訓練模型的道路還將繼續,也需要更加注重模型的創新性、訓練的低碳化和應用的高效性. 然而,訓練超大規模的模型仍存在很大挑戰.首先,使用最大 GPU 也不可能在內存中擬合所有參數;其次,算法優化不足會耗費極長的訓練時間;最后,搭建超大規模模型會帶來巨大的成本,讓學術界和小型科技公司望而卻步.如何在模型性能和成本之間取得平衡也是當前學者探索的另外一條道路,如探索輕量化的預訓練模型.近期騰訊提出的“神農”、瀾舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等輕量化模型,僅以十億左右的參數量就在部分任務上達到了 SOＧ TA 結果,因此探索輕量化模型勢在必行.

6.2 融入外部信息預訓練模型在部分任務上已無限接近人類,甚至超越人類,然而,其對知識的掌握依舊不足,如何讓預訓練模型真正理解并運用知識是一個值得長期研究的課題,尤其是中華民族上下五千年形成的文化知識頗多,比如“常識性知識”和“特定領域的知識”等.特定領域的知識可以幫助模型挖掘不同領域特有的知識,如果能夠將特定領域的行業知識與模型結合起來訓練,不僅可以將預訓練模型更廣泛地應用到不同的下游任務,在各行各業中實現良好的產業落地,而且可以與腦科學、心理學、神經學等其他學科融合,更好地發展人工智能, 服務人類生活. 除了融入知識信息之外,還可以從中文字形和字音等方面考慮.因為中文語言的特殊性,其字符的符號也包含一些額外信息,這些額外信息能增強中文自然語言的表現力,如 ChineseBERT [４６]模型中提出將中文字形和拼音信息融入預訓練模型中,以此增強模型對中文語料的建模能力,但這一方向的研究還相對較少,仍有待完善.

6.3 多模態領域現實世界離不開語言,語言離不開語音和視覺信息,類似于人的感覺器官:眼、耳、嘴,任何一樣的缺失都會影響生活. 當前,互聯網音視頻資源占比較大,純文本信息只能覆蓋互聯網資源的一小部分,更加豐富的音視頻信息并沒有被充分利用,因此預訓練模型必然朝著多模態的趨勢發展.目前,多模態預訓練模型的研究大多只考慮了兩種模態,圖像文本或者視頻文本,而音頻信息大多被忽視.中文預訓練模型起步雖晚,但成績斐然.中科院自動化所提出了全球首個圖文音(視覺Ｇ文本Ｇ語音)三模態的預訓練模型 OPT [５１],該模型同時具備跨模態理解與生成的能力.通過上述分析可知,多模態的研究擁有很大的發展空間.

本文主要圍繞中文預訓練模型的研究現狀進行概述.從模型規模上看,中文預訓練模型的發展正處于兩條道路上.一是朝著超大規模預訓練模型的方向發展;二是尋求輕量化模型的發展.從外部信息來看,大多數的預訓練模型都融入了各種知識,預訓練與先驗知識的深度融合刻不容緩.從高效訓練上看,現有模型都在不斷地探索更加高效的訓練方式.從多模態的角度上看,中文多模態預訓練模型的發展正處于上升階段,正朝著更多模態、更加通用的方向發展.從特定領域的模型來看,預訓練模型可應用于多種領域, 具有較大的發展潛力.綜上所述,中文預訓練模型雖然取得了不可忽視的成績,但還有更大的發展空間,未來將朝著更大規模、更加高效、適用更多領域的方向發展.

付費5元查看完整內容

時間序列 · Transformer · 阿里巴巴 · 綜述論文 ·

2022 年 2 月 16 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Transformers在自然語言處理和計算機視覺的許多任務中都取得了卓越的性能，這也引起了時間序列社區的極大興趣。在Transformer的眾多優點中，捕獲長期依賴關系和交互的能力對時間序列建模特別有吸引力，這使得各種時間序列應用取得了令人興奮的進展。在本文中，我們系統地回顧了用于時間序列建模的Transformer方案，通過一個新的分類，從兩個角度總結了現有的時間序列Transformer，突出了它們的優勢和局限性。從網絡改造的角度，總結了時間序列Transformers的模塊級適應性和體系結構級適應性。從應用的角度出發，我們根據預測、異常檢測和分類等常用任務對時間序列Transformer進行分類。根據經驗，我們執行穩健分析、模型規模分析和季節性趨勢分解分析，以研究《Transformers》在時間序列中的表現。最后，我們討論并提出未來的研究方向，以提供有用的研究指導。

由于Transformer在自然語言處理(NLP) [Kenton and Toutanova, 2019]、計算機視覺(CV) [Dosovitskiy et al.， 2021]、語音處理[Dong et al.， 2018]和其他學科[Chen et al.， 2021b]方面的出色表現，其在深度學習方面的創新[Vaswani et al.， 2017]最近引起了極大的興趣。在過去的幾年中，許多Transformer的變種被提出，以大大提高各種任務的最先進的性能。不同方面的文獻綜述較多，如NLP應用方面的文獻[Qiu et al.， 2020;Han et al.， 2021]， CV applications [Han et al.， 2020;Khan等人，2021年;Selva等人，2022年)、高效Transformer [Tay et al., 2020]和注意力模型[Chaudhari et al., 2021; Galassi et al., 2020]。

在時序數據的長距離依賴和交互中，transformer表現出了很強的建模能力，因此在時間序列建模中很有吸引力。由于時間序列數據和時間序列任務的特殊特性，許多Transformer的變體被提出以適應各種時間序列任務中的時間序列數據，如預測[Li et al., 2019; Zhou et al., 2021; Zhou et al., 2022]，異常檢測[Xu et al., 2022; Tuli et al., 2022]，分類[Zerveas et al., 2021; Yang et al., 2021]，等等。例如，季節性或周期性是時間序列的一個重要特征[Wen等人，2021a]，如何有效地建模長期和短期的時間相關性，并同時捕獲季節性仍然是一個挑戰[Wu et al., 2021; Zhou et al., 2022]。由于Transformer for time series是深度學習領域的一個新興領域，對Transformer for time series進行系統、全面的研究將對時間序列學界大有裨益。我們注意到，存在一些關于時間序列深度學習的綜述，包括預測[Lim和Zohren, 2021;Benidis等人，2020年;Torres et al.， 2021]，分類[Ismail Fawaz et al., 2019], anomaly detection [Choi et al., 2021; Blazquez-Garc ′ ′?a et al., 2021]和數據增強[Wen et al., 2021b]，但很少或沒有對時間序列的Transformers 進行深入分析。

在本文中，我們旨在通過總結現有的時間序列Transformers來填補上述空白。具體來說，我們首先簡要介紹了普通的Transformer，然后從網絡修改和應用領域的角度提出了一種新的時間序列Transformer分類。對于網絡修改，我們考慮了針對時間序列數據優化的transformer的低層模塊調整和高層架構改進。在應用方面，我們總結和分析了用于流行時間序列任務的transformer，包括預測、異常檢測和分類。對于每個時間系列的《Transformers》，我們都分析了它的見解、優勢以及局限性。為了提供如何在時間序列中使用transformer的實用指南，我們進一步對時間序列transformer進行了一些實證研究，包括穩健性分析、模型規模分析和季節趨勢分解分析。最后，我們提出并討論未來可能的發展方向，包括時間序列Transformers的歸納偏差，時間序列Transformers和GNN，時間序列Transformers的預訓練，以及時間序列Transformers和NAS。據我們所知，本文是第一次全面系統地總結了Transformers在時間序列數據建模方面的最新進展。我們希望這個綜述將點燃對時間系列Transformers的進一步研究興趣。

//arxiv.org/abs/2202.07125

付費5元查看完整內容

預訓練語言模型 · 自然語言處理 · 綜述論文 ·

2021 年 11 月 4 日

[付費5元查看完整內容]基于大型預訓練語言模型的自然語言處理研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型的、預訓練的基于Transformer的語言模型，如BERT，已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研，這些研究使用了大型語言模型來解決NLP任務，通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法，用于訓練增強或其他目的。最后，我們討論了局限性，并提出了未來研究的方向。

引言

近年來，大型預訓練的基于Transformer的語言模型(PLMs)，如BERT (Devlin et al.， 2019)和GPT (Radford et al.， 2018)系列模型席卷了自然語言處理(NLP)，在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x，然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al.， 2015)。注意，每個新的NLP任務都需要重新學習潛在特征表示，而且在許多情況下，訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的，我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示，然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞，這是一項具有大量自然出現的文本的通用任務，可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上，最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務，研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調，提示PLMs執行期望的任務，或者將任務重新構造為文本生成問題，并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

先進行預訓練，然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練，然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM，這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞)，或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識，從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成，以充分利用生成語言模型(如GPT-2 (Radford et al.， 2019)和T5 (Raffel et al.， 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研，如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明，本文主要關注非生成性任務(如分類、序列標注和結構預測)，這些任務仍然涵蓋廣泛的NLP任務，包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外，還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據，通常生成的PLM是針對任務進行微調的，或者是一些輔助數據，如反例、澄清、上下文或其他。在第一種情況下，銀色標記數據可以添加到現有的標記數據中。在第二種情況下，輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景，并描述了第一種范式，即預訓練然后微調。第三節討論第二種范式，即基于提示的學習。第4節總結了第三種范式，即作為文本生成的NLP。在第5節中，我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向，并在第7節進行總結。

范式1: 先訓練，然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型，而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型，然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務，它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中，我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識，然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法，以鼓勵預訓練的模型執行特定任務(Yuan et al.， 2021)。使用提示符有幾個優點。提示，特別是上下文學習(例如Brown et al.， 2020)，可能不需要更新PLM的參數，與微調方法相比，或在2.4.4中描述的基礎上，減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合，從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al.， 2021b)，特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后，提示允許以一種不受監督的方式探索PLM，以評估PLM對特定任務所獲得的知識(如Petroni et al.， 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功，最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務，如分類和結構預測。例如，圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同，這些任務被重新表述為文本生成問題，從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息，從而能夠準確地重構預期的類標簽(即避免映射中的歧義)，并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中，我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述，并對其應用前景進行了總結。此外，我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

多輪對話 · 預訓練語言模型 ·

2021 年 10 月 12 日

[付費5元查看完整內容]上海交大最新《多輪對話理解》綜述論文，20頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

訓練機器理解自然語言并與人類進行交互是人工智能的一個難以捉摸的重要任務。隨著深度學習技術的快速發展，特別是最近出現的預訓練語言模型(pretraining language model, PrLM)，已經設計出了多種對話系統。在這些研究中，最基本但最具挑戰性的任務類型是對話理解，其角色是教機器在回答之前閱讀和理解對話語境。本文從對話建模技術的角度對對話理解任務中的對話建模方法進行了綜述。我們總結了對話理解相對于純文本閱讀理解的特點和挑戰。然后，我們討論了三種典型的對話模式。此外，我們對對話相關的前訓練技術進行了分類，這些技術被用于增強對話場景中的PrLMs。最后，我們重點介紹了近年來的技術進展，并指出了實證分析的經驗教訓和對一個新的研究前沿的展望。

引言

構建一個能夠與人類進行自然和有意義的交流的智能對話系統是人工智能(AI)長期以來的目標，由于其潛在的影響力和誘人的商業價值，學術界和工業界對其越來越感興趣。這是一個有著悠久歷史的人機交互經典課題。在計算機科學和人工智能被劃分為各個具體的分支之前，對話作為一種現象，已經成為一個具有明確應用場景的關鍵研究課題。對話也是語用學(Leech, 2003)和圖靈測試(Turing and Haugeland, 1950)的重要應用領域。

在分析輸入話語的場景后，提出了傳統的方法來幫助用戶使用預定義的手工模板完成特定的任務(Weizenbaum, 1966;Colby et al.， 1971)，被認為是基于規則的方法(Chizhik和Zherebtsova, 2020)。然而，這一領域的增長受到了數據稀缺問題的阻礙，因為這些系統需要從數量不足的高質量語料庫中學習語言知識、決策和問題回答(Zaib et al.， 2020)。為了緩解稀缺性，人們提出了多種任務，如響應選擇(Lowe et al.， 2015;Wu et al.， 2017;Zhang et al.， 2018b)，基于對話的問答(QA) (Sun et al., 2019; Reddy et al., 2019; Choi et al., 2018)，決策和問題生成(Saeidi et al.， 2018)。示例如圖1所示。

最近，隨著深度學習方法的發展(Serban et al.， 2016)，特別是最近的預訓練語言模型(PrLMs) (Devlin et al., 2019; Liu et al., 2019; Yang et al., 2019; Lan et al., 2020; Clark et al., 2020)，神經模型的能力得到了顯著提高。然而，大多數研究都集中在回復檢索或生成等個體任務上。受建立更廣泛有效和全面的系統來解決現實世界的問題的需求,傳統的自然語言處理(NLP)任務,包括dialogue-related任務,一直經歷著快速轉換,這些任務往往是交叉和統一的形式(Zhang et al ., 2020 b)。因此，我們可以用對話理解的一般形式來看待主要的對話任務: 給定語境，需要一個系統來理解語境，然后回答或回答問題。回復可以從檢索或生成中得到。作為衡量理解對話能力(相對于靜態文本)的一般概念，對話理解對NLP/AI社區有廣泛的啟發，如圖2所示。

在對話理解研究中，對話建模是基本的研究方法，它關注的是如何有效地對對話語境進行編碼，從而有效地解決對話任務，因此我們將對話建模作為對話理解的技術方面。早期的技術主要集中在對話語境的成對序列與候選回答或問題之間的匹配機制(Wu et al.， 2017;Zhang et al.， 2018b;Huang et al.， 2019a)。最近，PrLMs 對包括對話理解在內的各種下游NLP任務(Devlin et al.， 2019)顯示了令人印象深刻的評估結果。他們將整個文本作為連續符號的線性序列處理，并通過自注意力捕捉這些符號的語境化表征(Qu et al., 2019; Liu et al., 2020a; Gu et al., 2020a; Xu et al., 2021a)。這些語言模型衍生的詞嵌入是在大型語料庫上預先訓練的。通過提供細粒度的上下文嵌入，這些預先訓練好的模型可以作為編碼器輕松地應用于下游模型，或者用于微調。除了使用PrLMs 進行微調外，還出現了設計對話驅動的自監督任務進行預訓練的興趣。

本文從兩階段編碼器-解碼器框架的視角對對話理解的研究進行了綜述，該框架受PrLMs和機器閱讀理解的啟發(Zhang et al.， 2020b)，通過這種方式，我們彌合了對話建模和理解之間的鴻溝。希望能對未來前沿PrLMs的研究有所幫助。具體來說，我們將討論架構設計和預訓練的策略。我們總結了近年來的技術進展，并強調了我們可以從實證分析和展望一個新的研究前沿的經驗教訓。與專注于具體對話任務的現有綜述相比(Zaib et al., 2020; Huang et al., 2020; Fan et al., 2020; Qin et al., 2021b)，這項工作是任務不可知的，在對話理解的范圍內討論對話系統的共同模式和趨勢，以彌合不同任務之間的差距，使這些研究線可以相互學習的亮點。

付費5元查看完整內容

預訓練 · 提示學習 (Prompt-based Learning) · 語言模型 ·

2021 年 7 月 31 日

[付費5元查看完整內容]NLP新范式-預訓練，提示(Prompt)，預測！CMU劉鵬飛等論文綜述預訓練語言模型提示學習進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是，基于提示的學習是基于直接對文本概率建模的語言模型，監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務，使用模板將原始輸入x修改為文本字符串提示符x '，其中有一些未填充的槽，然后使用語言模型按概率填充未填充的信息，得到最終字符串x?，從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練，通過定義一個新的提示函數，模型能夠執行少量甚至零次學習，在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容，描述了一套統一的數學符號，可以涵蓋各種各樣的現有工作，并從幾個維度組織現有的工作，例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域，我們不僅對現有的工作進行了系統的回顧，并對基于提示的概念進行了高度結構化的類型化，而且還發布了其他資源。

地址： //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b

完全監督學習，即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型，長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al.， 2007)，自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的，早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011))，其中，NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征，并提供具有適當歸納偏差的模型，以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現，顯著特征的學習與模型本身的訓練結合在一起(Collobert et al.， 2011;Bengio et al.， 2013)，因此重點轉向了架構工程，其中的歸納偏差更傾向于通過設計一個合適的網絡架構，有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。

然而，從2017-2019年開始，NLP模型的學習發生了翻天覆地的變化，這種完全監督的范式現在正在發揮越來越小的作用。具體來說，標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中，一個具有固定架構的模型被預先訓練為語言模型(LM)，預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富，這些LMs可以在大型數據集中進行訓練，在此過程中學習它所建模的語言的魯棒通用特性。然后，通過引入額外的參數，并使用特定任務的目標函數對它們進行微調，將上述預先訓練的LM適應于不同的下游任務。在這個范例中，重點主要轉向了目標工程，設計在訓練前和微調階段使用的訓練目標。例如，Zhang等人(2020a)表明，引入一個預測文檔中顯著句子的損失函數，將導致更好的文本摘要預訓練模型。值得注意的是，預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調，使其更適合解決下游任務。

現在，在2021年寫這篇文章的時候，我們正處于第二次巨變之中，“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式，不是通過目標工程將預先訓練好的LMs應用到下游任務，而是將下游任務重新制定，使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如，當識別社交媒體帖子的情緒時，“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”，然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”)，LM可以用法語翻譯來填空。這樣，通過選擇適當的提示，我們可以操縱模型行為，使預先訓練的LM本身可以用來預測期望的輸出，有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是，給定一套適當的提示，在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣，這里有一個陷阱——這種方法引入了快速工程的必要性，找到最合適的提示，讓LM能夠解決手頭的任務。

付費5元查看完整內容

Transformer · 綜述論文 ·

2021 年 6 月 10 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此，自然會引起學術界和工業界研究人員的極大興趣。到目前為止，各種各樣的Transformer變種(即X-formers)已經被提出，但是，關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中，我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer，然后提出了一個x-former的新分類。接下來，我們將從三個方面介紹不同的x -former架構修改，預訓練和應用。最后，展望了未來的研究方向。

//www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0

引言

Transformer[136]是一種出色的深度學習模型，被廣泛應用于自然語言處理(NLP)、計算機視覺(CV)和語音處理等各個領域。Transformer最初是作為一種用于機器翻譯的序列到序列模型提出的[129]。后來的工作表明，基于Transformer的預訓練模型(PTMs)[100]可以在各種任務上實現最先進的性能。因此，Transformer已經成為NLP的首選架構，特別是對于PTMs。除了語言相關的應用，Transformer也被應用于CV[13, 33, 94]，音頻處理[15,31,41]，甚至其他學科，如化學[113]和生命科學[109]。

由于成功，各種各樣的Transformer 變種(即x -former)在過去幾年里被提出。這些X-formers從不同的角度改進了vanilla Transformer。

(1) 模型的效率。應用Transformer的一個關鍵挑戰是它在處理長序列時效率低下，這主要是由于自注意力模塊的計算和存儲復雜性。改進方法包括輕量級注意力(例如稀疏注意變體)和分治法(例如循環和分層機制)。

(2) 模型泛化。由于Transformer是一種靈活的體系結構，并且很少對輸入數據的結構偏差進行假設，因此很難對小規模數據進行訓練。改進方法包括引入結構偏差或正則化、對大規模無標記數據進行預處理等。

(3) 模型的適應。該工作旨在使Transformer適應特定的下游任務和應用程序。

在這個綜述中，我們的目的是提供一個Transformer及其變體的全面綜述。雖然我們可以根據上面提到的觀點來組織x-former，但許多現有的x前輩可能會解決一個或幾個問題。例如，稀疏注意變量不僅降低了計算復雜度，而且在輸入數據上引入了結構先驗，緩解了小數據集上的過擬合問題。因此，將現有的各種X-formers進行分類，并根據它們改進Transformer的方式提出新的分類方法會更有條理: 架構修改、預訓練和應用。考慮到本次綜述的受眾可能來自不同的領域，我們主要關注于一般的架構變體，而只是簡單地討論了預訓練和應用的具體變體。

到目前為止，基于普通Transformer的各種模型已經從三個角度被提出:架構修改的類型、預訓練的方法和應用。圖2給出了Transformer變種的分類說明。

盡管“x-formers”已經證明了他們在各種任務上的能力，但挑戰仍然存在。除了目前關注的問題(如效率和泛化)，Transformer的進一步改進可能在以下幾個方向:

(1) 理論分析。Transformer的體系結構已被證明能夠支持具有足夠參數的大規模訓練數據集。許多工作表明，Transformer比CNN和RNN有更大的容量，因此有能力處理大量的訓練數據。當Transformer在足夠的數據上進行訓練時，它通常比CNN或RNN有更好的性能。一個直觀的解釋是，Transformer對數據結構沒有什么預先假設，因此比CNN和RNN更靈活。然而，理論原因尚不明確，我們需要對Transformer能力進行一些理論分析。

(2) 注意力機制之外的全局交互機制更加完善。Transformer的一個主要優點是使用注意力機制來建模輸入數據中節點之間的全局依賴關系。然而，許多研究表明，對大多數節點來說，完全注意力是不必要的。在某種程度上，不可區分地計算所有節點的注意力是低效的。因此，在有效地建模全局交互方面仍有很大的改進空間。一方面，自注意力模塊可以看作是一個具有動態連接權的全連接神經網絡，通過動態路由聚合非局部信息; 因此，其他動態路由機制是值得探索的替代方法。另一方面，全局交互也可以通過其他類型的神經網絡來建模，比如記憶增強模型。

(3) 多模態數據統一框架。在許多應用場景中，集成多模態數據對于提高任務性能是非常有用和必要的。此外，一般的人工智能還需要能夠捕獲跨不同模式的語義關系。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大的成功，我們有機會建立一個統一的框架，更好地捕捉多模態數據之間的內在聯系。但是，在設計中對模式內和模式間的注意還有待改進。

付費5元查看完整內容

深度學習 · 序列標記學習 ·

2020 年 11 月 18 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

序列標記是一個基礎性研究問題，涉及詞性標記、命名實體識別、文本分塊等多種任務。盡管在許多下游應用(如信息檢索、問題回答和知識圖譜嵌入)中普遍和有效，傳統的序列標記方法嚴重依賴于手工制作或特定語言的特征。最近，深度學習已經被用于序列標記任務，因為它在自動學習實例的復雜特征和有效地產生藝術表現的強大能力。在本文中，我們旨在全面回顧現有的基于深度學習的序列標記模型，這些模型包括三個相關的任務，如詞性標記、命名實體識別和文本組塊。然后，在科學分類的基礎上，結合SL領域中廣泛使用的實驗數據集和常用的評價指標，系統地介紹了現有的方法。此外，我們還對不同的SL模型進行了深入分析，分析了可能影響SL領域性能和未來發展方向的因素。

//arxiv.org/abs/2011.06727

序列標記是自然語言處理(NLP)中重要的一種模式識別任務。從語言學的角度來看，語言中最小的意義單位通常被認為是語素，因此每句話都可以看作是語素構成的序列。相應的，NLP領域中的序列標記問題可以將其表述為一種任務，目的是為一類在句子語法結構中通常具有相似角色和相似語法屬性的語素分配標簽，所分配標簽的意義通常取決于特定任務的類型，經典任務的例子有詞性標注[71]、命名實體識別(NER)[52]、文本分塊[65]等，在自然語言理解中起著至關重要的作用，有利于各種下游應用，如句法解析[81]、關系提取[64]和實體共指解析[78]等，并因此迅速得到廣泛關注。

通常，傳統的序列標記方法通常基于經典的機器學習技術，如隱馬爾科夫模型(HMM)[3]和條件隨機字段(CRFs)[51]，這些技術通常嚴重依賴于手工制作的特征(如一個單詞是否大寫)或特定于語言的資源(如地名詞典)。盡管實現了卓越的性能，但對大量領域知識的需求和對特征工程的努力使得它們極難擴展到新的領域。在過去的十年中，深度學習(DL)由于其在自動學習復雜數據特征方面的強大能力而取得了巨大的成功。因此，對于如何利用深度神經網絡的表示學習能力來增強序列標記任務的研究已經有了很多，其中很多方法已經陸續取得了[8]，[1]，[19]的先進性能。這一趨勢促使我們對深度學習技術在序列標記領域的現狀進行了全面的綜述。通過比較不同深度學習架構的選擇，我們的目標是識別對模型性能的影響，以便后續研究人員更好地了解這些模型的優缺點。

本綜述的目的是全面回顧深度學習在序列標記(SL)領域的最新應用技術，并提供一個全景，以啟發和指導SL研究社區的研究人員和從業者快速理解和進入該領域。具體來說，我們對基于深度學習的SL技術進行了全面的調研，并按照嵌入模塊、上下文編碼器模塊和推理模塊三個軸進行了科學的分類，系統地總結了目前的研究現狀。此外，我們還概述了序列標記領域中常用任務的實驗設置(即數據集或評價指標)。此外，我們討論和比較了最具代表性的模型給出的結果，以分析不同因素和建筑的影響。最后，我們向讀者展示了當前基于dll的序列標記方法所面臨的挑戰和開放問題，并概述了該領域的未來發展方向。

本綜述旨在全面回顧深度學習技術在序列標注中的應用，并提供一個全景視圖，以便讀者對這一領域有一個全面的了解。我們以科學的分類學對文獻進行了總結。此外，我們提供了一般研究的序列標記問題的數據集和評價指標的概述。此外，我們還討論和比較了不同模型的結果，并分析了影響性能的因素和不同架構。最后，我們向讀者展示了當前方法面臨的挑戰和開放問題，并確定了該領域的未來方向。我們希望這項調查能對序列標記感興趣的研究者、從業者和教育者有所啟發和指導。