靈活性和速度是深度學習框架的關鍵特性,允許快速地從研究想法過渡到原型和生產代碼。我們概述了如何為涵蓋各種模型和應用程序的序列處理實現統一框架。我們將以工具包RETURNN為例討論這種實現,它易于應用和用戶理解,靈活地允許任何類型的架構或方法,同時也非常高效。此外,對序列分類的不同機器學習工具包的性質進行了比較。將展示使用這些特定實現的靈活性,以描述最近最先進的自動語音識別和機器翻譯模型的設置。
//www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=372&id=294
注意力是一種在廣泛的神經結構中使用的越來越流行的機制。由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們定義了用于自然語言處理的注意力體系結構的統一模型,重點介紹了用于文本數據的向量表示的體系結構。我們討論了以往工作的不同方面,注意力機制的可能用途,并描述了該領域的主要研究工作和公開挑戰。
//web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf
第21屆國際語音通訊會議(Interspeech 2020)在繼2000年在北京成功舉辦后第二次回歸中國。本次大會是由中國科學院自動化所、香港中文大學、清華大學和上海交通大學共同主辦,大會主席由香港中文大學的蒙美玲教授,中國科學院自動化研究所徐波研究員和清華大學的鄭方教授聯合擔任。受疫情影響,原計劃將于10月25日~10月29日在上海召開的Interspeech 2020大會,將轉為全線上會議。屆時語音相關領域海內外知名專家學者將共聚一堂,交流相關研究領域的最新成果和發展趨勢。
Meta Learning and Its Applications to Human Language Processing
基于深度學習的人類語言技術(HLT),如自動語音識別、意圖和槽位識別或對話管理,已成為近年來的研究主流,并顯著優于傳統方法。然而,深度學習模型因對數據和計算的渴求而臭名昭著。這些缺點限制了此類模型在部署到不同語言、領域或風格時的應用,因為從頭收集標注數據和訓練模型的成本很高,而且人類語言的長尾特性使挑戰變得更大。
一個典型的機器學習算法,如深度學習,可以被認為是一個復雜的函數。該函數以訓練數據為輸入,以訓練模型為輸出。今天的學習算法大多是人為設計的。這些算法通常是針對某一特定任務而設計的,需要大量帶標記的訓練數據進行學習。一種可能克服這些挑戰的方法是元學習,也被稱為“學習的學習”,旨在學習學習算法,包括更好的參數初始化、優化策略、網絡架構、距離度量等。最近,在幾個HLT領域,元學習已經顯示出高潛力,允許更快的微調,收斂到更好的性能,并實現較少樣本學習。本教程的目的是介紹元學習方法,并回顧將此技術應用于HLT的工作。
可解釋的機器學習模型和算法是越來越受到研究、應用和管理人員關注的重要課題。許多先進的深度神經網絡(DNNs)經常被認為是黑盒。研究人員希望能夠解釋DNN已經學到的東西,以便識別偏差和失敗模型,并改進模型。在本教程中,我們將全面介紹分析深度神經網絡的方法,并深入了解這些XAI方法如何幫助我們理解時間序列數據。
神經網絡序列數據建模
摘要:
圖神經網絡(GNNs)最近變得越來越受歡迎,因為它們能夠學習復雜的關系系統,這些關系產生于從生物學和粒子物理學到社會網絡和推薦系統的廣泛問題。盡管在圖上進行深度學習的不同模型太多了,但迄今為止,很少有人提出方法來處理呈現某種動態性質的圖(例如,隨著時間的推移而進化的特征或連通性)。在本文中,作者提出了時序圖網絡(TGNs),一個通用的,有效的框架,用于深度學習動態圖表示為時間事件序列。在內存模塊和基于圖的操作符中,TGNs能夠顯著優于以前的方法,同時計算效率也更高。作者進一步表明,以前的幾個學習動態圖的模型可以轉換為TGN框架的具體實例。他們對TGN框架的不同組件進行了詳細的消融研究,并設計了最佳配置,在動態圖的幾個轉導和歸納預測任務上實現了最先進的性能。
討論的問題:
結論
地址: //ai.science/e/tgn-temporal-graph-networks-for-deep-learning-on-dynamic-graphs--eqAnR859q8wk2jfcGnbx
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。
主題: Efficient Processing of Deep Neural Networks: from Algorithms to Hardware Architectures
簡介: 本教程介紹了用于高效處理深度神經網絡(DNN)的方法,這些方法已在許多AI應用程序中使用,包括計算機視覺,語音識別,機器人等。DNN以高計算復雜度為代價,提供了一流的準確性和結果質量。因此,為深度神經網絡設計有效的算法和硬件架構是朝著在人工智能系統(例如,自動駕駛汽車,無人機,機器人,智能手機,可穿戴設備,物聯網等)中廣泛部署DNN邁出的重要一步。在速度,延遲,功耗/能耗和成本方面有嚴格的限制。 在本教程中,我們將簡要概述DNN,討論支持DNN的各種硬件平臺的權衡,包括CPU,GPU,FPGA和ASIC,并重點介紹基準測試/比較指標和評估DNN效率的設計注意事項。然后,我們將從硬件體系結構和網絡算法的角度描述降低DNN計算成本的最新技術。最后,我們還將討論如何將這些技術應用于各種圖像處理和計算機視覺任務。
嘉賓介紹: Vivienne Sze是麻省理工學院電氣工程和計算機科學系的副教授。她的研究興趣包括能量感知信號處理算法,便攜式多媒體應用的低功耗電路和系統設計,包括計算機視覺,深度學習,自主導航和視頻編碼。在加入MIT之前,她是TI研發中心的技術人員,在那里她設計了用于視頻編碼的低功耗算法和體系結構。在高效視頻編碼(HEVC)的開發過程中,她還代表TI參加了ITU-T和ISO / IEC標準機構的JCT-VC委員會,該委員會獲得了黃金時段工程艾美獎。她是《高效視頻編碼(HEVC):算法和體系結構》(Springer,2014年)的合編者,也是即將出版的《深度神經網絡的高效處理》(Morgan&Claypool)的合著者。她是2020年機器學習和系統會議(MLSys)的計劃共同主席,并教授MIT設計高效深度學習系統的專業教育課程。