注意力模型已經成為神經網絡中的一個重要概念,在不同的應用領域得到了廣泛的研究。本綜述提供了一個關于注意力建模的結構化的和全面的概述。特別地,我們提出了一種分類法,將現有的注意力技術分組到一致類別中。我們回顧了顯著的注意力融入的神經結構,并討論了建模注意力已顯示出重大影響的應用。最后,我們還描述了如何使用注意力來提高神經網絡的可解釋性。我們希望這個調查能提供一個關于注意力模型的簡明介紹,并在為其應用開發方法時指導從業者。
注意力模型(AM)首先被引入到機器翻譯中[Bahdanau et al. 2015],現在已經成為神經網絡文獻中的一個主導概念。在人工智能(AI)領域,注意力作為神經架構的重要組成部分,在自然語言處理(Galassi et al. 2020)、語音(Cho et al. 2015)和計算機視覺(Wang and Tax 2016)等大量應用中非常受歡迎。
注意力背后的直覺可以用人類生物系統來最好地解釋。例如,我們的視覺處理系統傾向于選擇性地關注圖像的某些部分,而忽略其他可以幫助感知的無關信息[Xu et al. 2015]。同樣地,在涉及語言、言語或視覺的問題中,輸入的某些部分比其他部分更重要。例如,在翻譯和總結任務中,只有輸入序列中的特定單詞可能與預測下一個單詞相關。同樣,在圖像字幕問題中,輸入圖像的某些區域可能與生成標題中的下一個單詞更相關。AM通過允許模型動態地只關注幫助有效執行手頭任務的輸入的某些部分來合并相關性的概念。使用AM對Yelp評論進行情感分類的例子[Yang et al. 2016]如圖1所示。在這個例子中,AM了解到在五個句子中,第一個和第三個句子更相關。此外,這些句子中的delicious和amazing這兩個詞更有意義,更能決定評論的情緒。
目錄內容:
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
在本章中,我們將關注更復雜的編碼器模型。我們將介紹圖神經網絡(GNN)的形式,它是定義圖數據上的深度神經網絡的一般框架。關鍵思想是,我們想要生成實際上依賴于圖結構的節點的表示,以及我們可能擁有的任何特征信息。在開發復雜的圖結構數據編碼器的主要挑戰是,我們通常的深度學習工具箱不適用。例如,卷積神經網絡(CNNs)只在網格結構的輸入(如圖像)上定義良好,而遞歸神經網絡(RNNs)只在序列(如文本)上定義良好。要在一般圖上定義深度神經網絡,我們需要定義一種新的深度學習架構。
Attention模型目前已經成為神經網絡中的一個重要概念,注意力模型(AM)自機器翻譯任務【Bahdanau et al 2014】首次引入進來,現在已經成為主流的神經網絡概念。這一模型在研究社區中非常受歡迎,適用領域非常廣泛,包括自然語言處理、統計學習、語音和計算機視覺方面的應用。本篇綜述提供了關于注意力模型的全面概述,并且提供了一種將現有注意力模型進行有效分類的分類法,調查了用于不同網絡結構的注意力模型,并顯示了注意力機制如何提高模型的可解釋性,最后,討論了一些受到注意力模型較大影響的應用問題。