8月5日,ACM SIGKDD 2021 正式公布了最佳博士論文獎,Runner Up獎、新星獎、研究時間檢驗獎、應用數據科學時間檢驗獎、創新獎和服務獎。
其中斯坦福大學的Aditya Grover獲得最佳博士論文獎,UIUC 的Shweta Jain獲得Runner Up 獎
SIGKDD 博士論文獎
論文標題: Learning to Represent and Reason Under Limited Supervision 標題:在有限監督條件下的學習表征和推理 作者:Aditya Grover 機構:Facebook AI研究院
論文摘要:
自然智能體,如人類,擅長構建世界的表征,并使用這些表征來有效地進行推理和做決策。即使在有限的監督下,這種高級推理能力也可以發展起來。與此形成鮮明對比的是,基于機器學習 (ML) 的智能體在獲得大規模標注數據集或模擬器的條件下取得主要進展,如目標識別和玩游戲等。
本論文由三部分組成。首先,論文建立了基礎的學習概率生成模型,目標是模擬所有可用的數據,即使在監督受限的環境中,也能夠為智能體提供一個自然的學習目標。論文討論了很多使用這些模型進行高維學習和推理所需要的取舍(trade-off),包括選擇特定的學習目標、優化流程和模型參數等。
基于這些結果,研究者開發了新算法來提高模型的性能,并在用未標記的數據集進行訓練時降低偏置。之后,研究者將這些模型擴展到關系數據領域,用來學習這些數據的表征。這一過程是無監督的,研究者探索并展示了模型在分類和序列決策中的性能。最后,論文介紹了這些模型在加速科學研究的兩個實際應用:1.學習壓縮感知的數據相關先驗;2.優化電池充電的實驗設計。這些案例說明, 智能體能夠克服現實世界中高維推理和決策問題的關鍵監督瓶頸。
本文分為三個主題部分。第1部分研究了概率生成建模的統計和計算基礎。
在第二章,我們提供必要的背景設置的問題和回顧一些關鍵的工作。
在第三章中,我們討論了生成模型的兩種中心學習范式: 最大似然估計和對抗學習。
在第四章,我們提出了一個模型不可知的算法,以提高任何現有生成模型的性能。本章以[Gro+19a]為基礎,以我們在[GE18]中的早期工作為基礎。
在第五章中,我們提出了另一種模型無關的算法,以解決融合多個未標記數據源訓練生成模型時的潛在數據集偏差問題。
第二部分深入研究了概率生成模型的使用,用于在關系域上表示和推理,其中數據點偏離了獨立和同分布(i.i.d)假設。
在第六章中,我們提出了一個用于學習圖節點表示的潛在變量生成模型。
在第七章中,我們提出了一種結合生成目標和對比目標的多智能體系統中智能體策略學習表示的算法。
第三部分討論了在科學發現和可持續發展的現實世界中運應用概率方法的使用。
在第八章中,我們提出了一個生成建模框架,用于統計壓縮感知中的學習獲取和恢復過程。
在第九章中,我們提出了一種最優的實驗設計方法,適用于設計空間大和實驗時間密集的領域。作為一個案例研究,我們使用它來優化電池充電協議。
在第10章中,我們總結了本論文的主要貢獻和未來的研究方向。
作者介紹:
Aditya Grover是Facebook AI核心機器學習團隊的一位研究者,同時也是UCLA計算機系的一名助理教授。
Aditya的主要研究方向是用于概率建模的機器學習,無監督表征學習,以及序列決策,這些研究已用于物理學、氣候變化等領域。Aditya于2020年畢業于斯坦福大學,獲得博士學位,并在谷歌大腦、微軟研究院、OpenAI等機構完成了實習。
概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。
深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。
本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。
我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。
在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。
深度卷積網絡的出現推動了視覺識別領域的新一波進步。這些學習到的表示大大優于手工設計的特征,在視覺任務上獲得更高的性能,同時在數據集上有更好的泛化性。盡管這些模型看起來很普遍,但當它們所訓練的數據與所要求操作的數據之間存在不匹配時,它們仍然會受到影響。領域適應提供了一種潛在的解決方案,允許我們將網絡從源領域訓練到新的目標領域。在這些領域中,標記數據是稀疏的或完全缺失的。然而,在端到端可學習表示出現之前,視覺域適應技術很大程度上局限于在固定的、手工設計的視覺特征上訓練的分類器。在這篇論文中,我們展示了如何將視覺域適應與深度學習相結合,以直接學習能夠適應域移動的表示,從而使模型能夠泛化到源域之外。
在第2章中,我們將演示如何設計損失,以衡量兩個領域的不同程度。我們表明,通過優化表示來最小化這些損失,我們可以學習從源到目標更好地泛化的表示。在第3章和第4章中,我們展示了我們可以訓練模型來嘗試測量域差異,而不是手工設計這些域損失。由于這些模型本身是端到端可學習的,我們可以通過它們反向傳播來學習表示,從而最小化學習的差異。這在概念上與生成式對抗網絡類似,我們還探索了兩者之間的關系,以及我們如何在對抗環境中使用為GANs開發的技術。最后,在第5章和第6章中,我們證明了適應性不需要局限于深度網絡的中間特征。對抗適應技術也可以用于訓練模型,直接改變圖像的像素,將它們轉換成跨域的類似物。然后,這些轉換后的圖像可以用作標記的偽目標數據集,以學習更適合目標領域的監督模型。我們表明,這種技術是基于特征的適應性的補充,當兩者結合時產生更好的性能。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html
新型深度學習模型的研究
深度學習是近年來機器學習領域中的熱點研究領域。深度森林模型是一 種新型深度學習模型,擴展了深度學習的內涵和適用范圍。本文開展深度森 林方面的相關研究工作,主要取得了以下創新結果:
1.基于森林的多層分布表示。多層分布式表示學習被認為是神經網絡獨有的 特性,本文提出了基于森林的多層模型 mGBDT,第一次顯示出多層分布 式表示通過森林模型也能進行。在表格數據和混合數據等各類建模任務 上,mGBDT 展示了其兼具表示學習和離散數據建模的能力。
2.基于森林的自編碼器模型。自編碼器被認為是只能通過神經網絡實現的獨 有模型,本文工作提出了第一個基于森林的自編碼器 eForest,在多類數 據上均取得了優異的性能體現。與此同時,還利用 Intel 眾核芯片 KNL, 通過多進程,向量化和編譯器優化等技術,獲得了近線性加速比,為大規 模應用提供了基礎。
Ronghang Hu (胡戎航)
胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科學家。他的研究興趣包括視覺和語言推理和視覺感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指導下獲得UC Berkeley的計算機科學博士學位。2019年夏天和2017年夏天,他在FAIR做研究實習生,分別與Marcus Rohrbach博士和Ross Girshick博士一起工作。2015年獲得清華大學學士學位。2014年,他在中國科學院計算技術研究所進行研究實習,得到了山時光教授和王瑞平教授的指導。
視覺與語言推理的結構化模型
視覺和語言任務(例如回答一個關于圖像的問題,為參考表達做基礎,或遵循自然語言指令在視覺環境中導航)需要對圖像和文本的兩種模式共同建模和推理。我們已經見證了視覺和語言推理的顯著進展,通常是通過在更大的數據集和更多計算資源的幫助下訓練的神經方法。然而,解決這些視覺和語言的任務就像用更多的參數建立模型,并在更多的數據上訓練它們一樣簡單嗎?如果不能,我們怎樣才能建立數據效率高、易于推廣的更好的推理模型呢?
這篇論文用視覺和語言推理的結構化模型為上述問題提供了答案——這些模型的架構考慮了人類語言、視覺場景和代理技能中的模式和規律。我們從表達式的基礎開始,我們在第二章中展示了通過考慮這些表達式中的組合結構,我們提出的組合模塊網絡(CMNs)可以實現更好的準確性和泛化。在第三章中,我們使用基于與問題推理步驟一致的動態組合模塊的端到端模塊網絡(N2NMNs)進一步解決了可視化的問題回答任務。在第四章中,我們擴展了模塊化推理的研究,提出了基于可解釋推理步驟的堆棧神經模塊網絡(SNMNs)。模塊化推理之外,我們也提出構建環境敏感的視覺表征與Language-Conditioned場景圖網絡(LCGNs)。第五章對于關系推理和解決問題的閱讀文本圖像的問答迭代pointer-augmented多通道變形金剛。在第六章,我們說明了嵌入任務也需要結構化模型,并在第7章中提出了說話者-跟隨者模型,其中說話者模型和跟隨者模型互為補充。在所有這些場景中,我們表明,通過考慮任務中的結構和輸入模式,我們的模型的執行和泛化明顯優于非結構化對應模型。
【導讀】本文為大家帶來了一份斯坦福大學的最新課程CS330——深度多任務和元學習,主講人是斯坦福大學Chelsea Finn,她是斯坦福大學計算機科學與電氣工程系的助理教授,元學習大牛。
她的博士論文——基于梯度的元學習(Learning to Learn with Gradients)很值得一讀,該論文系統性地闡述了Meta Learning以及她提出的MAML的方法和相關改進。作者從Meta Learning問題出發,然后提出了MAML理論,再進行一系列基于該理論的應用嘗試。
盡管深度學習在圖像分類、語音識別和游戲等有監督和強化學習問題上取得了顯著的成功,但這些模型在很大程度上是專門用于訓練它們的單一任務的。本課程將涵蓋需要解決多個任務的環境,并研究如何利用多個任務產生的結構來更有效地學習。
介紹
盡管深度學習在圖像分類、語音識別和游戲等有監督和強化學習問題上取得了顯著的成功,但這些模型在很大程度上是專門用于訓練它們的單一任務的。本課程將涵蓋需要解決多個任務的環境,并研究如何利用多個任務產生的結構來更有效地學習。
**這包括: ** 以目標為條件的強化學習技術,它利用所提供的目標空間的結構來快速地學習多個任務; 元學習方法旨在學習可以快速學習新任務的高效學習算法; 課程和終身學習,其中問題需要學習一系列任務,并利用它們的共享結構來實現知識轉移。
這是一門研究生水平的課程。在課程結束時,學生將能夠理解和實施最先進的多任務學習和元學習算法,并準備對這些主題進行研究。
課程鏈接: //cs330.stanford.edu/
課程安排
課程安排
01: 課程介紹,問題定義,應用(Course introduction, problem definitions, applications) 02:有監督的多任務學習,黑盒元學習(Supervised multi-task learning, black-box meta-learning) 03:TensorFlow教程(TensorFlow tutorial) 04:基于優化的元學習(Optimization-based meta-learning) 05:通過度量學習進行少量學習(Few-shot learning via metric learning) 06:貝葉斯元學習(Bayesian meta-learning) 07:強化學習入門,多任務RL,目標條件RL(Renforcement learning primer, multi-task RL, goal-conditioned RL) 08:Meta-RL,學習探索(Meta-RL, learning to explore) 09:用于多任務學習的基于模型的RL,基于元模型的RL(Model-based RL for multi-task learning, meta model-based RL) 10:終身學習:問題陳述,前后遷移(Lifelong learning: problem statement, forward & backward transfer) 11:前沿: 記憶,無監督元學習,開放性問題(Frontiers: Memorization, unsupervised meta-learning, open problems)
題目: Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data
摘要:
這篇論文探討了一個有趣的問題,即我們是否可以創建自動生成訓練數據、學習環境和課程的學習算法,以幫助人工智能智能體快速學習。我們證明了這種算法可以通過生成式教學網絡(GTNs)來實現,生成式教學網絡是一種理論上適用于有監督、無監督和強化學習的通用方法,盡管我們的實驗只關注有監督的情況。GTNS是生成數據和訓練環境的深度神經網絡,學習者(例如,一個新初始化的神經網絡)在對目標任務進行測試之前需要進行幾個SGD步驟的訓練。然后,我們通過元梯度來區分整個學習過程,更新GTN參數,以提高目標任務的性能。GTNS的有益特性是,理論上它們可以生成任何類型的數據或培訓環境,從而使它們的潛在影響很大。本文介紹了GTNS,討論了它們的潛力,并展示了它們可以極大地加速學習。我們還演示了一個實際的和令人興奮的應用:加速評估候選架構的神經架構搜索(NAS),這是由這種評估的速度限制,使大量的加速在NAS。GTN-NAS改進了NAS的狀態,在控制搜索建議機制時可以找到性能更好的架構。GTN-NAS還可以與現有的最先進的方法相競爭,這些方法在使用比典型NAS方法少幾個數量級的計算量的情況下獲得最佳性能。展望未來,GTNs可能代表著朝著算法的宏偉目標邁出的第一步,算法可以生成自己的訓練數據,并在此過程中打開各種有趣的新研究問題和方向。
作者簡介:
Felipe Petroski Such是一位專注于深度神經進化、強化學習和高性能計算的科學家。在加入Uber AI實驗室之前,他獲得了RIT的BS/MS學位,在那里他開發了圖形應用和ICR的深度學習架構,以及使用fpga的硬件加速。
Aditya RawalAditya Rawal是Uber AI實驗室的研究科學家。他的興趣在于兩個研究領域的融合——神經進化和深度學習。在此之前,Aditya在奧斯汀的德克薩斯大學獲得了計算機科學的碩士/博士學位,在他的博士期間,他開發了神經進化算法來進化序列預測問題的遞推架構,并構建了合作、競爭和交流的多主體系統。
Joel Lehman之前是哥本哈根IT大學的助理教授,研究神經網絡、進化算法和強化學習。
Generalization, i.e., the ability to adapt to novel scenarios, is the hallmark of human intelligence. While we have systems that excel at recognizing objects, cleaning floors, playing complex games and occasionally beating humans, they are incredibly specific in that they only perform the tasks they are trained for and are miserable at generalization. Could optimizing towards fixed external goals be hindering the generalization instead of aiding it? In this thesis, we present our initial efforts toward endowing artificial agents with a human-like ability to generalize in diverse scenarios. The main insight is to first allow the agent to learn general-purpose skills in a completely self-supervised manner, without optimizing for any external goal.
To be able to learn on its own, the claim is that an artificial agent must be embodied in the world, develop an understanding of its sensory input (e.g., image stream) and simultaneously learn to map this understanding to its motor outputs (e.g., torques) in an unsupervised manner. All these considerations lead to two fundamental questions: how to learn rich representations of the world similar to what humans learn?; and how to re-use such a representation of past knowledge to incrementally adapt and learn more about the world similar to how humans do? We believe prediction is the key to this answer. We propose generic mechanisms that employ prediction as a supervisory signal in allowing the agents to learn sensory representations as well as motor control. These two abilities equip an embodied agent with a basic set of general-purpose skills which are then later repurposed to perform complex tasks.
We discuss how this framework can be instantiated to develop curiosity-driven agents (virtual as well as real) that can learn to play games, learn to walk, and learn to perform real-world object manipulation without any rewards or supervision. These self-supervised robotic agents, after exploring the environment, can generalize to find their way in office environments, tie knots using rope, rearrange object configuration, and compose their skills in a modular fashion.