深度學習系統在許多任務中都取得了顯著的性能,但要確保生成的模型服從硬約束(在許多控制應用程序中可能經常需要這樣做),常常是出了名的困難。在這次演講中,我將介紹一些最近的關于在深度學習系統中加強不同類型的約束的工作。具體來說,我將重點介紹最近的一些工作,包括將一般的凸優化問題集成為深網絡中的層次,研究保證表示凸函數的學習網絡,以及研究增強非線性動力學的全局穩定性的深層動力系統。在所有情況下,我們都強調我們可以設計網絡結構來編碼這些隱性偏見的方式,這種方式可以讓我們輕松地執行這些硬約束。
【導讀】深度學習中的優化問題是非常關鍵的。今年國立臺灣大學教授、IEEE Fellow、ACM Fellow、AAAI Fellow,也是大名鼎鼎LIBSVM作者林智仁教授開設了《深度學習優化方法》課程,講解深度學習涉及到非常難的非凸優化問題,研究了深度學習優化方法的實現,值得跟蹤學習。
//www.csie.ntu.edu.tw/~cjlin/courses/optdl2020/
Chih-Jen Lin,現任臺灣大學計算機科學系特聘教授。1993年獲國立臺灣大學學士學位,1998年獲密歇根大學博士學位。他的主要研究領域包括機器學習、數據挖掘和數值優化。他最著名的工作是支持向量機(SVM)數據分類。他的軟件LIBSVM是最廣泛使用和引用的支持向量機軟件包之一。由于他的研究工作,他獲得了許多獎項,包括ACM KDD 2010和ACM RecSys 2013最佳論文獎。因為他對機器學習算法和軟件設計的貢獻,他是IEEE fellow,AAAI fellow,ACM fellow。更多關于他的信息可以在
目錄內容:
本書介紹了在并行和分布式計算平臺上擴展機器學習和數據挖掘方法的代表性方法的集成集合。對并行學習算法的需求是高度特定于任務的:在某些情況下,并行學習算法是由龐大的數據集驅動的,而在另一些情況下,并行學習算法是由模型復雜性或實時性能需求驅動的。為大規模機器學習選擇適合于任務的算法和平臺,需要了解可用選項的好處、權衡和約束。本書提供的解決方案涵蓋了一系列的并行化平臺,從FPGAs和gpu到多核系統和商品集群,并發編程框架包括CUDA、MPI、MapReduce和DryadLINQ,以及學習設置(監督、非監督、半監督和在線學習)。廣泛的并行化的推進樹,支持向量機,譜聚類,信念傳播和其他流行的學習算法,并深入到幾個應用,這本書適合研究人員,學生,和從業者。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。
雖然生成對抗網絡在圖像合成任務中取得了巨大的成功,但眾所周知,它們很難適應不同的數據集,部分原因是訓練過程中的不穩定性和對超參數的敏感性。這種不穩定性的一個普遍接受的原因是,當真實和虛假分布的支持沒有足夠的重疊時,從鑒別器到發生器的梯度變得不具信息性。本文提出了多尺度梯度生成對抗網絡(MSG-GAN),這是一種簡單而有效的技術,通過允許梯度流從鑒別器到發生器在多個尺度上流動來解決這個問題。該技術為高分辨率圖像合成提供了一種穩定的方法,并作為常用的漸進生長技術的替代。結果表明,MSG-GAN在不同大小、分辨率和域的多種圖像數據集上,以及不同類型的丟失函數和結構上都穩定收斂,且具有相同的固定超參數集。與最先進的GAN相比,在我們嘗試的大多數情況下,我們的方法都能與之媲美或超越其性能。
本書的目的是考慮大型和具有挑戰性的多階段決策問題,這些問題可以通過動態規劃和最優控制從原則上解決,但它們的精確解在計算上是難以解決的。我們討論了依靠近似來產生性能良好的次優策略(suboptimal policies)的求解方法。這些方法統稱為強化學習(reinforcement learning),也包括近似動態規劃(approximate dynamic programming)和神經動態規劃( neuro-dynamic programming)等替代名稱。
我們的學科從最優控制和人工智能的思想相互作用中獲益良多。本專著的目的之一是探索這兩個領域之間的共同邊界,并形成一個可以在任一領域具有背景的人員都可以訪問的橋梁。
這本書的數學風格與作者的動態規劃書和神經動態規劃專著略有不同。我們更多地依賴于直觀的解釋,而不是基于證據的洞察力。在附錄中,我們還對有限和無限視野動態規劃理論和一些基本的近似方法作了嚴格的簡要介紹。為此,我們需要一個適度的數學背景:微積分、初等概率和矩陣向量代數等。
實踐證明這本書中的方法是有效的,最近在國際象棋和圍棋中取得的驚人成就就是一個很好的證明。然而,在廣泛的問題中,它們的性能可能不太可靠。這反映了該領域的技術現狀:沒有任何方法能夠保證對所有甚至大多數問題都有效,但有足夠的方法來嘗試某個具有挑戰性的問題,并有合理的機會使其中一個或多個問題最終獲得成功。因此,我們的目標是提供一系列基于合理原則的方法,并為其屬性提供直覺,即使這些屬性不包括可靠的性能保證。 希望通過對這些方法及其變體的充分探索,讀者將能夠充分解決他/她自己的問題。
CMU大神博士生Brandon Amos,馬上就要畢業了。博士期間,他在可微優化機器學習建模方向,發表了ICLR 一篇,ICML 三篇,NeurIPS 三篇,分析了可微優化機器學習建模的很多問題。近日,他將自己的博士論文也開放了出來,系統的講述了可微優化機器學習建模的方方面面。
博士論文簡介
我們提出了兩種基于優化建模的基本方法:
然后,我們將展示如何使用OptNet方法,1)將無模型和基于模型的強化學習與可微最優控制相結合,2)針對top-k學習問題,我們展示了如何將cvxpy領域特定的語言轉換為可微優化層,從而實現本文方法的快速原型化。