在深度學習中引入注意力機制提高了近年來各種模型的成功,并繼續成為最先進模型中無處不在的組成部分。因此,我們對注意力及其如何實現其有效性的關注是至關重要的。
在這篇文章中,我將介紹注意力背后的主要概念,包括一個從序列到序列的注意力模型的實現,然后介紹注意力在Transformer中的應用,以及如何將注意力用于最新的結果。建議您對遞歸神經網絡(RNNs)及其變體有一定的了解,或者對序列到序列模型如何工作有一定的了解。
Attention模型目前已經成為神經網絡中的一個重要概念,注意力模型(AM)自機器翻譯任務【Bahdanau et al 2014】首次引入進來,現在已經成為主流的神經網絡概念。這一模型在研究社區中非常受歡迎,適用領域非常廣泛,包括自然語言處理、統計學習、語音和計算機視覺方面的應用。本篇綜述提供了關于注意力模型的全面概述,并且提供了一種將現有注意力模型進行有效分類的分類法,調查了用于不同網絡結構的注意力模型,并顯示了注意力機制如何提高模型的可解釋性,最后,討論了一些受到注意力模型較大影響的應用問題。