報告題目: Attention in Deep learning
摘要:
注意力是非參數模型在深度學習中的關鍵機制。可以說,這是深度學習模型最新進展的基礎。除了在神經機器翻譯中介紹,它還可以追溯到神經科學。并且可以說是通過LSTMs的門控或遺忘機制引入的。在過去的5年里,注意力一直是推動自然語言處理、計算機視覺、語音識別、圖像合成、解決旅行推銷員問題或強化學習等領域的技術發展的關鍵。本教程對各種注意事項提供了一個連貫的概述,讓其親身體驗如何復制和應用注意力機制,并且更深入地了解潛在的理論,詳細展示了從最早的NWE到最新的Multiple Attention Heads的相關內容。
報告主要分為六個部分:
邀請嘉賓:
Alexander J. Smola是亞馬遜網絡服務總監,2016年7月,加入了亞馬遜網絡服務(Amazon Web Services),打造人工智能和機器學習工具。主要研究興趣包括深度學習:特別是狀態更新、不變性和統計測試的算法;算法的可伸縮性、統計建模。
Aston Zhang是亞馬遜網絡服務人工智能的一名應用科學家。他的研究興趣是深度學習。他在伊利諾伊大學香檳分校獲得了計算機科學博士學位。他曾擔任大數據前沿的編委會成員和ICML、NeurIPS、WWW、KDD、SIGIR和WSDM的項目委員會成員(審稿人)。他的書《深入學習》(Dive into Deep Learning)于2019年春季在加州大學伯克利分校(UC Berkeley)教授,并已被全世界用作教科書。
在過去幾年里,注意力和記憶已經成為深度學習的兩個重要的新組成部分。本講座由DeepMind研究科學家Alex Graves講授現在廣泛使用的注意力機制,包括任何深度網絡中的內隱注意力,以及離散和可區分的變體的顯性注意力。然后討論了具有外部記憶的網絡,并解釋了注意力是如何為他們提供選擇性回憶的。它簡要地回顧了Transformer,一種特別成功的注意力網絡類型,最后看可變計算時間,這可以被視為一種形式的“注意力集中”。
地址:
Alex Graves在愛丁堡大學(University of Edinburgh)完成了理論物理學的理學學士學位,在劍橋大學(University of Cambridge)完成了數學的第三部分,在IDSIA與尤爾根·施米德胡貝爾(Jurgen Schmidhuber)一起完成了人工智能博士學位,之后在慕尼黑工業大學(technology University of Munich)和杰夫·辛頓(Geoff Hinton)一起完成了博士后學位。他現在是DeepMind的一名研究科學家。他的貢獻包括用于序列標簽的連接主義時態分類算法,隨機梯度變分推理,神經圖靈機/可微分神經計算機架構,以及用于強化學習的A2C算法。
關于講座系列:
深度學習講座系列是DeepMind與UCL人工智能中心之間的合作。在過去的十年中,深度學習已發展成為領先的人工智能范例,使我們能夠以前所未有的準確性和規模從原始數據中學習復雜的功能。深度學習已應用于對象識別,語音識別,語音合成,預測,科學計算,控制等問題。由此產生的應用程序觸及我們在醫療保健和醫學研究,人機交互,通信,運輸,保護,制造以及人類努力的許多其他領域中的所有生活。認識到這一巨大影響,深度學習的先驅獲得了2019年圖靈獎,這是計算機領域的最高榮譽。
在本系列講座中,來自領先的AI研究實驗室DeepMind的研究科學家針對深度學習中的一系列令人興奮的主題進行了12次講座,內容涵蓋了通過圍繞記憶,注意力和生成建模的先進思想來訓練神經網絡的基礎知識,以及重要的 負責任的創新主題。
深度學習注意力與記憶機制
本次講座是關于深度學習的最新研究和發展,并希望在2020年。這不是一個SOTA基準測試結果的列表,而是一組機器學習和人工智能創新的亮點,以及學術界、工業界和整個社會的進步。本講座是麻省理工學院深度學習系列講座的一部分。
地址:
Lex Fridman是一名俄裔美國科學家,教授,來自馬薩諸塞州劍橋市的社交媒體名人。他目前是麻省理工學院的一名研究科學家。
報告主題: From System 1 Deep Learning to System 2 Deep Learning
報告簡介: 早期,深度學習的進展主要集中在對靜態數據集的學習上,主要用于各類感知任務,這些任務大都依靠人類的直覺,可以在無意識的情況下完成,可稱為第一代系統需求。然而,最近幾年,隨著研究方向的轉變和一些新工具的出現諸如soft-attention和深度強化學習領域的進展,它們為深度學習架構和訓練框架的進一步發展,開啟了新的大門,這種深度架構和訓練框架有助于解決第二代系統需求(這種系統任務需要人類有意識的去完成),如在自然語言處理和其他應用當中的推理、規劃、因果關系捕獲和系統歸納等。從第一代系統的深度學習,擴展到第二代系統的任務之中,對于完成之前挖掘高層次抽象特征的目標是非常重要的,因為我們認為第二代系統需求,將會對表征學習提出更高的要求,以發掘出某種人類可以用語言進行巧妙處理的高級內容。我們認為,為了達到這個目標,soft-attention機制是關鍵因素,它每次都關注其中某幾個概念并進行計算,因為意識先驗及其相關的假設中,許多高層次的依賴關系可以被一個稀疏因子圖近似地捕捉到。最后,報告介紹了元學習,這種先驗意識和代理視角下的表征學習,會更加有助于以新穎的方式,支持強大的合成泛化形式。
嘉賓介紹: Yoshua Bengio是蒙特利爾大學計算機科學與運籌學系的教授,Mila和IVADO的科學總監和創始人,2018年圖靈獎獲得者,加拿大統計學習算法研究主席以及加拿大AI CIFAR主席。 他開創了深度學習的先河,并在2018年每天獲得全球所有計算機科學家中最多的引用。 他是加拿大勛章的官員,加拿大皇家學會的成員,并于2017年被授予基拉姆獎,瑪麗·維克多獎和年度無線電加拿大科學家,并且是NeurIPS顧問的成員, ICLR會議的董事會和聯合創始人,以及CIFAR“機器和大腦學習”計劃的程序總監。 他的目標是幫助發現通過學習產生智力的原理,并促進AI的發展以造福所有人。
報告題目: Bayesian Deep Learning
報告摘要: 深度神經網絡是連接主義系統,通過它通過學習例子來完成任務,而不需要事先了解這些任務。它們可以很容易地擴展到數百萬個數據點,并且可以通過隨機梯度下降進行優化。貝葉斯方法可以用于學習神經網絡權重的概率分布。貝葉斯深度學習與貝葉斯深度學習(如何對DNNs進行貝葉斯推理?如何學習分層結構的貝葉斯模型?),本篇報告給出一定解釋。
嘉賓介紹: 朱軍博士是清華大學計算機系長聘副教授、智能技術與系統國家重點實驗室副主任、卡內基梅隆大學兼職教授。2013年,入選IEEE Intelligent Systems的“人工智能10大新星”(AI’s 10 to Watch)。他主要從事機器學習研究,在國際重要期刊與會議發表學術論文80余篇。擔任國際期刊IEEE TPAMI和Artificial Intelligence的編委、國際會議ICML 2014地區聯合主席、以及ICML、NIPS等國際會議的領域主席。
課程介紹: 最近兩年,注意力模型(Attention Model)被廣泛使用在自然語言處理、圖像識別及語音識別等各種不同類型的深度學習任務中,是深度學習技術中最值得關注與深入了解的核心技術之一,本課程從基礎著手,由淺及深,詳細介紹注意力神經網絡。
主講人: Xavier Bresson,人工智能/深度學習方面的頂級研究員,培訓師和顧問。在“圖深度學習”上的NeurIPS'17和CVPR'17(2019年頂級人工智能會議排名)上的演講者,在劍橋,加州大學洛杉磯分校,布朗,清華,龐加萊,海德堡等地進行了30多次國際演講。
課程大綱:
主題: Deep Learning Compiler
簡介:
Apache TVM是一個用于Cpu、Gpu和專用加速器的開源深度學習編譯器堆棧。它的目標是縮小以生產力為中心的深度學習框架和以性能或效率為中心的硬件后端之間的差距。在此次演講中主要圍繞AWS AI的深度學習編譯器的項目展開,講述了如何通過TVM使用預量化模型,完全從零開始添加新的操作或者是降低到現有繼電器操作符的序列。
邀請嘉賓:
Yida Wang是亞馬遜AWS AI團隊的一名應用科學家。在加入Amazon之前,曾在Intel實驗室的并行計算實驗室擔任研究科學家。Yida Wang在普林斯頓大學獲得了計算機科學和神經科學博士學位。研究興趣是高性能計算和大數據分析。目前的工作是優化深度學習模型對不同硬件架構的推理,例如Cpu, Gpu, TPUs。
在深度學習中引入注意力機制提高了近年來各種模型的成功,并繼續成為最先進模型中無處不在的組成部分。因此,我們對注意力及其如何實現其有效性的關注是至關重要的。
在這篇文章中,我將介紹注意力背后的主要概念,包括一個從序列到序列的注意力模型的實現,然后介紹注意力在Transformer中的應用,以及如何將注意力用于最新的結果。建議您對遞歸神經網絡(RNNs)及其變體有一定的了解,或者對序列到序列模型如何工作有一定的了解。
主題: A Tutorial on Attention in Deep Learning
摘要: 注意力是使非參數模型在深度學習中發揮作用的關鍵機制。可以說,這是深度學習模型最新進展的基礎。除了它在神經機器翻譯中的引入,它還可以追溯到神經科學。它可以說是通過LSTMs的選通或遺忘機制引入的。在過去的5年里,人們的注意力一直是提高自然語言處理、計算機視覺、語音識別、圖像合成、解決旅行推銷員問題或強化學習等領域的技術水平的關鍵。本教程對各種類型的注意力提供了一個連貫的概述;使用Jupyter筆記本電腦進行有效的實施,允許觀眾親身體驗復制和應用注意力機制;以及一本教科書(www.d2l.ai),使觀眾能夠更深入地鉆研基礎理論。
邀請嘉賓: Aston Zhang是Amazon Web Services人工智能的應用科學家。他的研究興趣是深入學習。他在伊利諾伊大學香檳分校獲得計算機科學博士學位。他曾擔任大數據領域前沿的編輯委員會成員和ICML、NeurIPS、WWW、KDD、SIGIR和WSDM的項目委員會成員(評審員)。他的書《深入學習》(www.d2l.ai)于2019年春季在加州大學伯克利分校(UC Berkeley)授課,并在全球范圍內被用作教科書。
Alex Smola,自2016年7月以來,擔任Amazon Web Services的機器學習總監。