我們將考慮流行的神經序列處理模型(如RNN和Transformer)與形式化模型(如自動機及其變體)之間的關系。特別地,我們將討論幾種RNN的提取方法,以及通過自動機變體來理解的各種RNN體系結構之間的差異。然后我們將考慮更現代的Transformer。特別是,我們將展示它如何(不!)與現有的正式類相關,并以編程語言的形式提出另一種抽象。
自然語言數據的一個重要子集包括跨越數千個token的文檔。處理這樣長的序列的能力對于許多NLP任務是至關重要的,包括文檔分類、摘要、多跳和開放域問答,以及文檔級或多文檔關系提取和引用解析。然而,將最先進的模型擴展到較長的序列是一個挑戰,因為許多模型都是為較短的序列設計的。一個值得注意的例子是Transformer模型,它在序列長度上有二次計算代價,這使得它們對于長序列任務的代價非常昂貴。這反映在許多廣泛使用的模型中,如RoBERTa和BERT,其中序列長度被限制為只有512個tokens。在本教程中,我們將向感興趣的NLP研究人員介紹最新和正在進行的文檔級表示學習技術。此外,我們將討論新的研究機會,以解決該領域現有的挑戰。我們將首先概述已建立的長序列自然語言處理技術,包括層次、基于圖和基于檢索的方法。然后,我們將重點介紹最近的長序列轉換器方法,它們如何相互比較,以及它們如何應用于NLP任務(參見Tay等人(2020)最近的綜述)。我們還將討論處理長序列的關鍵的各種存儲器節省方法。在本教程中,我們將使用分類、問答和信息提取作為激勵任務。我們還將有一個專注于總結的實際編碼練習。
注意力是一種在廣泛的神經結構中使用的越來越流行的機制。由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們定義了用于自然語言處理的注意力體系結構的統一模型,重點介紹了用于文本數據的向量表示的體系結構。我們討論了以往工作的不同方面,注意力機制的可能用途,并描述了該領域的主要研究工作和公開挑戰。
//web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf
靈活性和速度是深度學習框架的關鍵特性,允許快速地從研究想法過渡到原型和生產代碼。我們概述了如何為涵蓋各種模型和應用程序的序列處理實現統一框架。我們將以工具包RETURNN為例討論這種實現,它易于應用和用戶理解,靈活地允許任何類型的架構或方法,同時也非常高效。此外,對序列分類的不同機器學習工具包的性質進行了比較。將展示使用這些特定實現的靈活性,以描述最近最先進的自動語音識別和機器翻譯模型的設置。
//www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=372&id=294
在本課中我們將專注在序列數據上并講解機器學習方法如何來處理這種類型的數據。我們首先介紹關于序列建模的基礎概念,包括常用架構如RNN、LSTM。隨后我們將介紹序列到序列解碼和他的應用。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。
【導讀】來自Jordi Pons一份循環神經網絡RNNs簡明教程,37頁ppt
摘要:在這次演講中,我將帶領聽眾回顧我在建立神經序列模型方面的早期和近期經歷。我從早期使用循環網絡進行seq2seq學習的經驗出發,討論了注意機制。我討論了這些早期方法成功背后的因素,以及這些方法是如何被社區所接受的,甚至是在它們還沒有成型之前。然后,我會轉向講非常規神經序列模型的最新研究方向以及該模型可以自動學習確定生成的順序。
報告人簡介:Kyunghyun Cho是紐約大學計算機科學和數據科學副教授,也是Facebook人工智能研究中心的研究科學家。在2015年夏之前,他一直是蒙特利爾大學的博士后研究員,在yobengio教授的指導下,并于2014年初在Juha Karhunen教授、Tapani Raiko博士和Alexander Ilin博士的指導下獲得了阿爾托大學的博士和碩士學位。