哥倫比亞大學Elias Bareinboim副教授ICML 2020教程《因果強化學習》!
因果推理提供了一套工具和原則,允許人們結合數據和環境的結構不變性來推理反事實性質的問題。如果現實不是這樣,會發生什么呢? 即使想象中的現實沒有數據可用。強化學習關心的是在交互和不確定的環境中有效地找到一個優化特定功能的策略(例如,獎勵,后悔)。這兩個學科是獨立發展的,它們之間幾乎沒有相互作用。然而,在現實中,它們對同一個構建塊的不同方面進行操作,這使得他們緊密相連。
在本教程中,我們將基于這一觀察結果引入統一的處理方法,并將這兩個學科置于相同的概念和理論框架下。我們表明,當這一聯系完全建立時,就會出現許多自然的和普遍的學習問題,而這不能單獨從任何一個學科中看到。特別地,我們將討論廣義策略學習(在線、非策略和做微積分學習的組合)、何時何地干預、反事實決策(自由意志、自主、人與人工智能協作)、策略通用性和因果模仿學習等等。這種新的理解導致了對什么是反事實學習的更廣泛的觀點,并暗示了因果關系和強化學習并行研究的巨大潛力。我們稱這種新的研究為“因果強化學習”(簡稱CRL)。
地址:
ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域國際頂級學術會議,今年的KDD大會將于8月23日至27日在線上召開。賓夕法尼亞州立大學ZhenhuiLi, Huaxiu Yao, Fenglong Ma等做了關于小數據學習《Learning with Small Data》教程,116頁ppt涵蓋遷移學習與元學習等最新課題,是非常好的學習材料!
摘要:
在大數據時代,數據驅動的方法在圖像識別、交通信號控制、假新聞檢測等各種應用中越來越受歡迎。這些數據驅動方法的優越性能依賴于大規模的標記訓練數據,而實際應用中可能無法獲得這些數據,即“小(標記)數據”挑戰。例如,預測一個城市的突發事件,發現新出現的假新聞,以及預測罕見疾病的病情發展。在大多數情況下,人們最關心的是這些小數據案例,因此提高帶有小標記數據的機器學習算法的學習效率一直是一個熱門的研究課題。在本教程中,我們將回顧使用小數據進行學習的最新的機器學習技術。這些技術被組織從兩個方面: (1) 提供一個全面的回顧最近的研究關于知識的泛化,遷移,和共享,其中遷移學習,多任務學習,元學習被討論。特別是元學習,提高了模型的泛化能力,近年來已被證明是一種有效的方法; (2) 引入前沿技術,著重于將領域知識融入機器學習模型中。與基于模型的知識遷移技術不同,在現實應用中,領域知識(如物理定律)為我們提供了一個處理小數據挑戰的新角度。具體地說,領域知識可以用來優化學習策略和/或指導模型設計。在數據挖掘領域,我們認為小數據學習是一個具有重要社會影響的熱門話題,將吸引學術界和產業界的研究者和從業者。
目錄:
地址:
許多ML任務與信號處理有共同的實際目標和理論基礎(例如,光譜和核方法、微分方程系統、順序采樣技術和控制理論)。信號處理方法是ML許多子領域中不可分割的一部分,例如,強化學習,哈密頓蒙特卡洛,高斯過程(GP)模型,貝葉斯優化,神經ODEs /SDEs。
本教程旨在涵蓋與離散時間和連續時間信號處理方法相聯系的機器學習方面。重點介紹了隨機微分方程(SDEs)、狀態空間模型和高斯過程模型的遞推估計(貝葉斯濾波和平滑)。目標是介紹基本原則之間的直接聯系信號處理和機器學習, (2) 提供一個直觀的實踐理解隨機微分方程都是關于什么, (3) 展示了這些方法在加速學習的真正好處,提高推理,模型建立,演示和實際應用例子。這將展示ML如何利用現有理論來改進和加速研究,并為從事這些方法交叉工作的ICML社區成員提供統一的概述。
Andrew Gordon Wilson,紐約大學Courant數學科學研究所和數據科學中心助理教授,曾擔任AAAI 2018、AISTATS 2018、UAI 2018、NeurIPS 2018、AISTATS 2019、ICML 2019、UAI 2019、NeurIPS 2019、AAAI 2020、ICLR 2020的區域主席/SPC以及ICML 2019、2020年EXO主席。 個人主頁://cims.nyu.edu/~andrewgw/
貝葉斯深度學習與概率模型構建
貝葉斯方法的關鍵區別屬性是間隔化,而不是使用單一的權重設置。貝葉斯間隔化尤其可以提高現代深度神經網絡的準確性和標度,這些數據通常不充分指定,并可以代表許多引人注目但不同的解決方案。研究表明,深層的綜合系統提供了一種有效的近似貝葉斯間隔化機制,并提出了一種相關的方法,在沒有顯著開銷的情況下,通過在吸引 basins 內間隔化來進一步改進預測分布。我們還研究了神經網絡權值的模糊分布所隱含的先驗函數,從概率的角度解釋了這些模型的泛化特性。從這個角度出發,我們解釋了一些神秘而又不同于神經網絡泛化的結果,比如用隨機標簽擬合圖像的能力,并表明這些結果可以用高斯過程重新得到。我們還表明貝葉斯平均模型減輕了雙下降,從而提高了靈活性,提高了單調性能。最后,我們提供了一個貝葉斯角度的調溫校正預測分布。
視頻地址:
摘要:
圖神經網絡(GNNs)最近變得越來越受歡迎,因為它們能夠學習復雜的關系系統,這些關系產生于從生物學和粒子物理學到社會網絡和推薦系統的廣泛問題。盡管在圖上進行深度學習的不同模型太多了,但迄今為止,很少有人提出方法來處理呈現某種動態性質的圖(例如,隨著時間的推移而進化的特征或連通性)。在本文中,作者提出了時序圖網絡(TGNs),一個通用的,有效的框架,用于深度學習動態圖表示為時間事件序列。在內存模塊和基于圖的操作符中,TGNs能夠顯著優于以前的方法,同時計算效率也更高。作者進一步表明,以前的幾個學習動態圖的模型可以轉換為TGN框架的具體實例。他們對TGN框架的不同組件進行了詳細的消融研究,并設計了最佳配置,在動態圖的幾個轉導和歸納預測任務上實現了最先進的性能。
討論的問題:
結論
地址: //ai.science/e/tgn-temporal-graph-networks-for-deep-learning-on-dynamic-graphs--eqAnR859q8wk2jfcGnbx
本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來進行決策——而不是將環境視為一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及規劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式,以及在設計未來的MBRL系統時,從人類認知中可以得到什么啟示。
//sites.google.com/view/mbrl-tutorial
近年來,強化學習領域取得了令人印象深刻的成果,但主要集中在無模型方法上。然而,社區認識到純無模型方法的局限性,從高樣本復雜性、需要對不安全的結果進行抽樣,到穩定性和再現性問題。相比之下,盡管基于模型的方法在機器人、工程、認知和神經科學等領域具有很大的影響力,但在機器學習社區中,這些方法的開發還不夠充分(但發展迅速)。它們提供了一系列獨特的優勢和挑戰,以及互補的數學工具。本教程的目的是使基于模型的方法更被機器學習社區所認可和接受。鑒于最近基于模型的規劃的成功應用,如AlphaGo,我們認為對這一主題的全面理解是非常及時的需求。在教程結束時,觀眾應該獲得:
來自DeepMind 的S. M. Ali Eslami · Irina Higgins · Danilo J. Rezende的ICML 2020教程-自監督學習,222頁ppt,非常干貨!
無標簽表示學習,也稱為無監督或自監督學習,正在取得重大進展。新的自監督學習方法在大規模基準測試中取得了接近甚至超過了完全監督技術的性能,如圖像分類。因此,無標簽表示學習最終開始解決現代深度學習中的一些主要挑戰。然而,為了繼續取得進步,系統地理解學習表示的性質以及產生這些表示的學習目標是很重要的。
【導讀】新加坡國立大學的Xiang Wang、Tat-Seng Chua,以及來自中國科學技術大學的Xiangnan He在WSDM 2020會議上通過教程《Learning and Reasoning on Graph for Recommendation》介紹了基于圖學習和推理的推薦系統,涵蓋了基于隨機游走的推薦系統、基于網絡嵌入的推薦系統,基于圖神經網絡的推薦系統等內容。
Tutorial摘要:
推薦方法構建預測模型來估計用戶-項目交互的可能性。之前的模型在很大程度上遵循了一種通用的監督學習范式——將每個交互視為一個單獨的數據實例,并基于“信息孤島”進行預測。但是,這些方法忽略了數據實例之間的關系,這可能導致性能不佳,特別是在稀疏場景中。此外,建立在單獨數據實例上的模型很難展示推薦背后的原因,這使得推薦過程難以理解。
在本教程中,我們將從圖學習的角度重新討論推薦問題。用于推薦的公共數據源可以組織成圖,例如用戶-項目交互(二部圖)、社交網絡、項目知識圖(異構圖)等。這種基于圖的組織將孤立的數據實例連接起來,為開發高階連接帶來了好處,這些連接為協作過濾、基于內容的過濾、社會影響建模和知識感知推理編碼有意義的模式。隨著最近圖形神經網絡(GNNs)的成功,基于圖形的模型顯示了成為下一代推薦系統技術的潛力。本教程對基于圖的推薦學習方法進行了回顧,重點介紹了GNNs的最新發展和先進的推薦知識。通過在教程中介紹這一新興而有前景的領域,我們希望觀眾能夠對空間有更深刻的理解和準確的洞察,激發更多的想法和討論,促進技術的發展。
Tutorial大綱: