自動微分(Automatic Differentiation,簡稱AD)也稱自動求導,算法能夠計算可導函數在某點處的導數值的計算,是反向傳播算法的一般化。自動微分要解決的核心問題是計算復雜函數,通常是多層復合函數在某一點處的導數,梯度,以及Hessian矩陣值。它對用戶屏蔽了繁瑣的求導細節和過程。目前知名的深度學習開源庫均提供了自動微分的功能,包括TensorFlow、pytorch等。
靈活性和速度是深度學習框架的關鍵特性,允許快速地從研究想法過渡到原型和生產代碼。我們概述了如何為涵蓋各種模型和應用程序的序列處理實現統一框架。我們將以工具包RETURNN為例討論這種實現,它易于應用和用戶理解,靈活地允許任何類型的架構或方法,同時也非常高效。此外,對序列分類的不同機器學習工具包的性質進行了比較。將展示使用這些特定實現的靈活性,以描述最近最先進的自動語音識別和機器翻譯模型的設置。
//www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=372&id=294
來自Pierre Alquier講述序列預測教程
一份來自FarizDarari的簡明教程
這本書的目標是介紹自動微分的基本算法,以及流行的數學和統計函數的自動微分規則的百科全書式的集合。
自動微分是一種通用的技術,用于將函數的計算值轉換為可計算導數的值。導數計算只給用于計算函數值的每個操作增加一個常數的開銷,因此可微函數與原始函數具有相同的復雜度階數。在描述了自動微分的標準形式之后,這本書提供了一個百科全書收集的正切和伴隨規則的前向模式和后向模式自動微分,涵蓋了最廣泛使用的標量,向量,矩陣和概率函數。附錄包含正向模式、反向模式和混合模式自動區分的工作示例代碼。
Deep Reinforcement Learning via Policy Optimization