注意力是一種在廣泛的神經結構中使用的越來越流行的機制。由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們定義了用于自然語言處理的注意力體系結構的統一模型,重點介紹了用于文本數據的向量表示的體系結構。我們討論了以往工作的不同方面,注意力機制的可能用途,并描述了該領域的主要研究工作和公開挑戰。
//web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf
注意力模型已經成為神經網絡中的一個重要概念,在不同的應用領域得到了廣泛的研究。本綜述提供了一個關于注意力建模的結構化的和全面的概述。特別地,我們提出了一種分類法,將現有的注意力技術分組到一致類別中。我們回顧了顯著的注意力融入的神經結構,并討論了建模注意力已顯示出重大影響的應用。最后,我們還描述了如何使用注意力來提高神經網絡的可解釋性。我們希望這個調查能提供一個關于注意力模型的簡明介紹,并在為其應用開發方法時指導從業者。
注意力模型(AM)首先被引入到機器翻譯中[Bahdanau et al. 2015],現在已經成為神經網絡文獻中的一個主導概念。在人工智能(AI)領域,注意力作為神經架構的重要組成部分,在自然語言處理(Galassi et al. 2020)、語音(Cho et al. 2015)和計算機視覺(Wang and Tax 2016)等大量應用中非常受歡迎。
注意力背后的直覺可以用人類生物系統來最好地解釋。例如,我們的視覺處理系統傾向于選擇性地關注圖像的某些部分,而忽略其他可以幫助感知的無關信息[Xu et al. 2015]。同樣地,在涉及語言、言語或視覺的問題中,輸入的某些部分比其他部分更重要。例如,在翻譯和總結任務中,只有輸入序列中的特定單詞可能與預測下一個單詞相關。同樣,在圖像字幕問題中,輸入圖像的某些區域可能與生成標題中的下一個單詞更相關。AM通過允許模型動態地只關注幫助有效執行手頭任務的輸入的某些部分來合并相關性的概念。使用AM對Yelp評論進行情感分類的例子[Yang et al. 2016]如圖1所示。在這個例子中,AM了解到在五個句子中,第一個和第三個句子更相關。此外,這些句子中的delicious和amazing這兩個詞更有意義,更能決定評論的情緒。
目錄內容:
對話人工智能系統通過完成用戶請求或進行簡單的聊天與人類用戶進行交互。這些系統的應用范圍從個人幫助、健康幫助到客戶服務等等。在這個由三部分組成的教程中,我們將首先概述最先進的模塊化對話AI方法,這些方法通常被面向任務的對話系統所采用。然后,我們將概述當前基于序列到序列、生成的對話AI方法。我們將討論普通的基于生成的模型的挑戰和缺點,如缺乏知識、一致性、同理心、可控性、多功能性等。然后我們將強調當前的工作,以解決這些挑戰,并在改進深度生成為基礎的ConvAI。在本教程的最后一部分,我們將指出對話AI的挑戰和未來研究的可能方向,包括如何減輕不適當的回復和終身學習。我們還將概述模塊化和基于生成的對話AI的共享任務和公開可用資源。
不確定性的概念在機器學習中是非常重要的,并且構成了現代機器學習方法論的一個關鍵元素。近年來,由于機器學習與實際應用的相關性越來越大,它的重要性也越來越大,其中許多應用都伴隨著安全要求。在這方面,機器學習學者們發現了新的問題和挑戰,需要新的方法發展。事實上,長期以來,不確定性幾乎被視為標準概率和概率預測的同義詞,而最近的研究已經超越了傳統的方法,也利用了更一般的形式主義和不確定性計算。例如,不確定性的不同來源和類型之間的區別,例如任意不確定性和認知不確定性,在許多機器學習應用中被證明是有用的。講習班將特別注意這方面的最新發展。
綜述論文:
不確定性的概念在機器學習中是非常重要的,并且構成了機器學習方法的一個關鍵元素。按照統計傳統,不確定性長期以來幾乎被視為標準概率和概率預測的同義詞。然而,由于機器學習與實際應用和安全要求等相關問題的相關性穩步上升,機器學習學者最近發現了新的問題和挑戰,而這些問題可能需要新的方法發展。特別地,這包括區分(至少)兩種不同類型的不確定性的重要性,通常被稱為任意的和認知的。在這篇論文中,我們提供了機器學習中的不確定性主題的介紹,以及到目前為止在處理一般不確定性方面的嘗試的概述,并特別將這種區別形式化。
一份來自FarizDarari的簡明教程
題目: Attention in Natural Language Processing
摘要:
注意力是一種越來越受歡迎的機制,在廣泛的神經結構中使用。該機制本身以各種格式實現。然而,由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們為自然語言處理中的注意力架構定義了一個統一的模型,重點是那些設計用來處理文本數據的向量表示的模型。根據四個維度提出了注意力模型的分類:輸入的表示、兼容性函數、分布函數和輸入和輸出的多樣性。然后展示了如何在注意力模型中利用先驗信息的例子,并討論了該領域正在進行的研究工作和面臨的挑戰。
教程簡介: 最近AI對話技術的飛躍式發展,無疑與越來越復雜的深度學習算法有關,而深度學習算法所捕捉到的模式是由各種數據收集機制生成的。因此,本教程的目標是雙重的。首先,它旨在讓學術界熟悉基于統計學的對話系統算法設計的最新進展,其中包括開放性領域和基于任務的對話范例。本教程的重點是介紹對話系統端到端的學習機制,以及它們與更加常見的模塊系統之間的關聯。從理論上講,從數據中學習端到端可以為對話系統提供無縫的、空前的可移植性,有著非常廣闊的應用前景。從實踐的角度來看,該領域仍然存在大量的研究挑戰和機會:在本教程中,我們會分析理論和實踐之間的差異,并介紹當前端到端對話學習的主要優勢和實踐中的局限性。
目錄:
下載鏈接: //pan.baidu.com/s/1qV4uQItQSZj0kWsXa4QgPg 提取碼: kk3v
Attention模型目前已經成為神經網絡中的一個重要概念,注意力模型(AM)自機器翻譯任務【Bahdanau et al 2014】首次引入進來,現在已經成為主流的神經網絡概念。這一模型在研究社區中非常受歡迎,適用領域非常廣泛,包括自然語言處理、統計學習、語音和計算機視覺方面的應用。本篇綜述提供了關于注意力模型的全面概述,并且提供了一種將現有注意力模型進行有效分類的分類法,調查了用于不同網絡結構的注意力模型,并顯示了注意力機制如何提高模型的可解釋性,最后,討論了一些受到注意力模型較大影響的應用問題。