本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。
在現實世界中,存在許多難以用數學方法指定的約束條件。然而,對于強化學習(RL)的現實部署來說,RL agent意識到這些約束條件是至關重要的,這樣它們才能安全地行動。在這項工作中,我們考慮了學習約束的問題,從一個遵守約束的行為的示范。我們通過實驗驗證了我們的方法,并證明了我們的框架能夠成功地學習agent所尊重的最有可能的約束。我們進一步證明,這些習得的約束是可轉移到新個體的,這些新個體可能具有不同的形態和/或獎賞功能。在這方面,之前的工作要么主要局限于表格(離散)設置、特定類型的約束,要么假設環境的過渡動力學。相比之下,我們的框架能夠在完全無模型的環境中學習高維中的任意文本{馬爾可夫}約束。代碼可在:\url{//github.com/shehryar-malik/icrl}。
近年來,在控制和強化學習中出現了新的方法,這些方法結合了遺憾(regret )最小化和在線凸優化技術。由此產生的理論為控制和強化學習中一些長期存在的問題提供了可證明的保證:對數后悔和快速速率,沒有系統知識的端到端LQG-LQR,帶有對抗噪聲的卡爾曼濾波,具有可證明的有限時間保證的黑盒控制,系統識別的緊下界,等等。
這些結果的主要創新之處在于在線控制模型將隨機擾動替換為對抗性擾動,并以后悔最小為最優控制目標。我們將描述設置,以及基于梯度和依賴于新的凸松弛的新方法。
本教程將介紹自注意力機制在計算機視覺中的應用。Self-Attention在NLP中被廣泛采用,完全注意的Transformer模型已經在很大程度上取代了RNN,現在被用于最先進的語言理解模型,如GPT、BERT、XLNet、T5、Electra和Meena。因此,人們對研究自注意力是否能在計算機視覺中產生同樣巨大而深遠的影響產生了極大的興趣。然而,由于視覺任務與語言任務具有不同的性質,因此許多研究都致力于探索自注意力在視覺模型中的最佳應用方式。本教程將涵蓋視覺中自注意力的許多不同應用,以便讓用戶對這個子領域有一個廣泛而精確的理解。
人類具有不斷從經驗中學習的非凡能力。我們不僅可以把以前學到的知識和技能運用到新的情況下,我們也可以把這些作為以后學習的基礎。人工智能(AI)的宏偉目標之一是構建一個人工的“持續學習”代理,通過自主增量開發越來越復雜的知識和技能,從自身經驗構建對世界的復雜理解(Parisi, 2019年)。然而,盡管有早期的推測和很少的先前工作(Ring, 1998; Thrun, 1998; Carlson, 2010),很少有研究和努力致力于解決這一愿景。當前人工智能系統深受新數據或新環境的影響,這些新數據或新環境與他們所接受的訓練稍有不同(Goodfellow, 2013)。此外,學習過程通常被限制在限定和孤立的任務內的固定數據集,這可能很難導致出現更復雜和自主的智能行為。從本質上講,持續學習和適應能力,雖然經常被認為是每一個智能代理的基本支柱,但大多被排除在主要的人工智能研究重點之外。
在本教程中,我們提出根據機器學習研究和人工智能深度架構(Lomonaco, 2019)的最新進展總結這些想法的應用。從一個動機和一個簡短的歷史開始,我們將最近的持續學習進展與之前在相關主題上的研究努力聯系起來,并總結了主要方法、基準和關鍵結果方面的最新進展。在教程的第二部分,我們計劃涵蓋更多關于低監督信號的持續學習的探索性研究,以及與其他范式的關系,如無監督,半監督和強化學習。我們還將強調神經科學的最新發現對原始持續學習算法設計的影響,以及它們在現實應用中的部署。最后,我們將強調持續學習的概念,作為可持續機器學習的關鍵技術推動者及其社會影響,并概述有趣的研究問題和未來值得解決的方向。
強化學習(RL)使智能體能夠通過動態環境中的交互學習最佳決策。深度學習和強化學習的最新進展使得智能體在各個領域都取得了前所未有的成功,并在許多任務中取得了超人的表現。RL和深度學習影響了當今學術界和工業的幾乎所有領域,將它們應用于信息檢索(IR)的興趣越來越大。像谷歌和阿里巴巴這樣的公司已經開始使用基于強化學習的搜索和推薦引擎來個性化他們的服務,并在他們的生態系統中增強用戶體驗。
目前學習RL的在線資源要么專注于理論,犧牲了實踐,要么局限于實踐,缺乏足夠的直覺和理論背景。這個全天的教程是為信息檢索研究人員和實踐者精心定制的,以獲得最流行的RL方法的理論知識和實踐經驗,使用PyTorch和Python Jupyter 筆記本谷歌Colab。我們的目的是讓參加者具備RL的應用知識,幫助他們更好地了解有關RL的最新IR出版物,并使他們能夠使用RL解決自己的IR問題。
我們的教程不需要任何關于該主題的知識,并從基本概念和算法開始,如馬爾科夫決策過程,探索與利用,Q-學習,決策梯度和Actor-Critic算法。我們特別關注強化學習和深度學習的結合,使用深度Q-Network (DQN)等算法。最后,我們描述了如何利用這些技術來解決代表性的IR問題,如“學習排序”,并討論了最近的發展以及對未來研究的展望。
目錄內容: RL Basics and Tabular Q-Learning Deep Q-Network (DQN) 1/2 (presentation) Deep Q-Network (DQN) 2/2 (hands-on) IR Applications using DQN Policy Gradient (REINFORCE) IR Applications using REINFORCE Actor Critic Outlook
對話人工智能系統通過完成用戶請求或進行簡單的聊天與人類用戶進行交互。這些系統的應用范圍從個人幫助、健康幫助到客戶服務等等。在這個由三部分組成的教程中,我們將首先概述最先進的模塊化對話AI方法,這些方法通常被面向任務的對話系統所采用。然后,我們將概述當前基于序列到序列、生成的對話AI方法。我們將討論普通的基于生成的模型的挑戰和缺點,如缺乏知識、一致性、同理心、可控性、多功能性等。然后我們將強調當前的工作,以解決這些挑戰,并在改進深度生成為基礎的ConvAI。在本教程的最后一部分,我們將指出對話AI的挑戰和未來研究的可能方向,包括如何減輕不適當的回復和終身學習。我們還將概述模塊化和基于生成的對話AI的共享任務和公開可用資源。
注意力是一種在廣泛的神經結構中使用的越來越流行的機制。由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們定義了用于自然語言處理的注意力體系結構的統一模型,重點介紹了用于文本數據的向量表示的體系結構。我們討論了以往工作的不同方面,注意力機制的可能用途,并描述了該領域的主要研究工作和公開挑戰。
//web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf
本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來進行決策——而不是將環境視為一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及規劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式,以及在設計未來的MBRL系統時,從人類認知中可以得到什么啟示。
//sites.google.com/view/mbrl-tutorial
近年來,強化學習領域取得了令人印象深刻的成果,但主要集中在無模型方法上。然而,社區認識到純無模型方法的局限性,從高樣本復雜性、需要對不安全的結果進行抽樣,到穩定性和再現性問題。相比之下,盡管基于模型的方法在機器人、工程、認知和神經科學等領域具有很大的影響力,但在機器學習社區中,這些方法的開發還不夠充分(但發展迅速)。它們提供了一系列獨特的優勢和挑戰,以及互補的數學工具。本教程的目的是使基于模型的方法更被機器學習社區所認可和接受。鑒于最近基于模型的規劃的成功應用,如AlphaGo,我們認為對這一主題的全面理解是非常及時的需求。在教程結束時,觀眾應該獲得:
借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。
自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。
自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。