如何學習良好的潛在表示是現代機器學習時代的一個重要課題。對于強化學習,使用一個好的表示使決策過程更加有效。本次演講,我將介紹我們的工作,構建基于任務的潛在操作空間,用于基于搜索的黑盒函數優化,尋找策略變更的表示,該表示支持在不完全信息協同博弈中聯合策略搜索,以及不同的表示如何影響RL探索。
視頻:
強化學習(RL)的一個主要挑戰是在探索環境以收集信息和利用到目前為止觀察到的樣本來執行“好的”(近乎最佳的)行動之間進行權衡。在本研討會中,我們將回顧在連續狀態-動作空間中如何將探索技術與函數近似相結合。我們將特別關注探索機制與深度學習技術的整合。研討會應提供足夠的理論和算法背景,以了解現有的技術,并可能設計新的方法。在整個講座中,我們將討論開放性問題和未來可能的研究方向。
在這次演講中,我將介紹我們在學習知識圖推理邏輯規則方面的最新進展。邏輯規則在用于預測和推廣到其他任務時提供了可解釋,因此是學習的關鍵。現有的方法要么面臨在大搜索空間中搜索的問題(如神經邏輯編程),要么由于稀疏獎勵而無效優化(如基于強化學習的技術)。為了解決這些局限性,本文提出了一個稱為RNNLogic的概率模型。RNNLogic將邏輯規則視為一個潛在變量,同時用邏輯規則訓練規則生成器和推理預測器。我們開發了一種基于EM的優化算法。在每次迭代中,推理預測器首先更新,以探索一些生成的邏輯規則進行推理。在E-step中,我們通過后驗推理從所有生成的規則中選取一組既有規則生成器又有推理預測器的高質量規則;而在M步中,規則生成器將用E步中選擇的規則進行更新。在四個數據集上的實驗證明了RNNLogic的有效性。
視頻:
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多AAAI參與者來說越來越重要。
//sites.google.com/mit.edu/aaai2021metalearningtutorial
內容目錄:
探索 - 利用(exploration-exploitation)是多智能體學習(MAL)中強大而實用的工具,但其效果遠未得到理解。為了探索這個目標,這篇論文研究了 Q 學習的平滑模擬。首先,研究者認為其學習模型是學習「探索 - 利用」的最佳模型,并提供了強大的理論依據。具體而言,該研究證明了平滑的 Q 學習在任意博弈中對于成本模型有 bounded regret,該成本模型能夠明確捕獲博弈和探索成本之間的平衡,并且始終收斂至量化響應均衡(QRE)集,即有限理性下博弈的標準解概念,適用于具有異構學習智能體的加權潛在博弈。
該研究的主要任務轉向衡量「探索」對集體系統性能的影響。研究者在低維 MAL 系統中表征 QRE 表面的幾何形狀,并將該研究的發現與突變(分歧)理論聯系起來。具體而言,隨著探索超參數隨著時間的演化,系統會經歷相變。在此過程中,給定探索參數的無窮小變化,均衡的數量和穩定性可能會發生劇烈變化。在此基礎上,該研究提供了一種形式理論處理方法,即如何調整探索參數能夠可驗證地產生均衡選擇,同時對系統性能帶來積極和消極(以及可能無限)的影響。
//www.zhuanzhi.ai/paper/58dfd45f8af99a926fb48199e1447e9a
神經網絡中的對稱性與同變性
對稱可以以多種形式出現。對于三維的物理系統,我們可以自由選擇任何坐標系,因此任何物理屬性都必須在歐幾里得對稱的元素下(三維旋轉、平移和反演)可預見地變換。對于涉及圖的節點和邊的算法,我們在計算機內存中節點和邊的排列情況下具有對稱性。除非另外編碼,機器學習模型不會對一個問題的對稱性做出任何假設,并且會對坐標系統的任意選擇或數組中節點和邊的排序非常敏感。在機器學習模型中明確處理對稱的主要動機之一是消除對數據增強的需求。另一個動機是,通過將對稱編碼到方法中,我們可以保證即使模型沒有對“對稱等效”示例進行明確訓練,但模型對一個示例和一個“對稱等效”示例會給出“相同”的答案。在這節課中,我們將討論幾種使機器學習模型“對稱感知”的方法(例如輸入表示、丟失和模型架構)。我們將集中討論如何在神經網絡中處理三維歐幾里得對稱和置換對稱,描述這些對稱的非直觀和有益的結果,并討論如何建立與你的對稱假設一致的訓練任務。
來自DeepMind研究人員Feryal Behbahani, Matt Hoffman 和 Bobak Shahriari講解的強化學習教程。
【導讀】DeepMind開設了一系列深度學習課程。本次課講述了深度學習計算機視覺。
繼上一講之后,DeepMind研究科學家Viorica Patraucean介紹了圖像分類之外的經典計算機視覺任務(目標檢測、語義分割、光流估計),并描述了每種任務的最新模型以及標準基準。她討論了視頻處理任務的類似模型,如動作識別、跟蹤和相關挑戰。她特別提到了最近提高視頻處理效率的工作,包括使用強化學習的元素。接下來,她介紹了單模態和多模態(vision+audio, visio+language)自監督學習的各種設置,在這些設置中,大規模學習是有益的。最后,Viorica討論了視覺中的開放問題,以及計算機視覺研究在構建智能代理這一更廣泛目標中的作用。
強化學習(RL)是學習采取行動解決任務的強大框架。然而,在許多情況下,一個代理必須將所有可能的任務的大得令人難以置信的空間縮小到當前要求它解決的單個任務。我們是否可以將任務的空間限制在語義上有意義的范圍內呢?在這項工作中,我們介紹了一個使用弱監督的框架來自動地把這個語義上有意義的子空間的任務從巨大的無意義的“雜碎”任務中分離出來。我們證明了這個學習得的子空間能夠進行有效的探索,并提供了捕獲狀態之間距離的表示。對于各種具有挑戰性的、基于視覺的連續控制問題,我們的方法帶來了大量的性能收益,特別是隨著環境的復雜性的增長。
本文為大家帶來了一份斯坦福大學的最新課程CS234——強化學習,主講人是斯坦福大學Emma Brunskill,她是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組,主要研究強化學習。要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主系統。強化學習是這樣做的一個強有力的范例,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程通過講課、書面作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。
1.課程介紹(Description)
要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主系統。強化學習是這樣做的一個強有力的范例,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程將為強化學習領域提供扎實的介紹,學生將學習包括通用化和探索在內的核心挑戰和方法。通過講課、書面作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。作業將包括強化學習和深度強化學習的基礎,這是一個極有前途的新領域,將深度學習技術與強化學習相結合。此外,學生將通過期末專題來增進對強化學習領域的理解。
課程地址:
//web.stanford.edu/class/cs234/schedule.html
2.預備知識(Prerequisites)
1)熟練Python
所有的課程都將使用Python(使用numpy和Tensorflow,也可以使用Keras)。這里有一個針對那些不太熟悉Python的人的教程。如果你有很多使用不同語言(如C/ c++ / Matlab/ Javascript)的編程經驗,可能會很好。
2)大學微積分,線性代數(如 MATH 51, CME 100)
你應該能夠熟練地進行(多變量)求導,理解矩陣/向量符號和運算。
3)基本概率及統計(例如CS 109 或同等課程)
你應該了解基本的概率,高斯分布,均值,標準差等。
4)機器學習基礎
我們將闡述成本函數,求導數,用梯度下降法進行優化。CS 221或CS 229均可涵蓋此背景。使用一些凸優化知識,一些優化技巧將更加直觀。
3.主講:Emma Brunskill
Emma Brunskill是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組。
主要研究強化學習系統,以幫助人們更好地生活。并處理一些關鍵技術。最近的研究重點包括:1)有效強化學習的基礎。一個關鍵的挑戰是要了解代理商如何平衡勘探與開發之間的局限性。2)如果要進行順序決策,該怎么辦。利用巨大數量的數據來改善在醫療保健,教育,維護和許多其他應用程序中做出的決策,這是一個巨大的機會。這樣做需要假設/反事實推理,以便在做出不同決定時對潛在結果進行推理。3)人在回路系統。人工智能具有極大地擴大人類智能和效率的潛力。我們正在開發一個系統,用其他眾包商(CHI 2016)生產的(機器)固化材料對眾包商進行訓練,并確定何時擴展系統規格以包括新內容(AAAI 2017)或傳感器。我們也有興趣研究確保機器學習系統在人類用戶的意圖方面表現良好(Arxiv 2017),也被稱為安全和公平的機器學習。
個人主頁:
4.課程安排
01: 強化學習導論(Introduction to Reinforcement Learning)
02: 表格MDP規劃(Tabular MDP planning)
03: 表格RL政策評估(Tabular RL policy evaluation)
04: Q-learning
05: 帶函數逼近的強化學習(RL with function approximation)
06: 帶函數逼近的強化學習(RL with function approximation)
07: 帶函數逼近的強化學習(RL with function approximation)
08: 從馬爾可夫決策過程到強化學習(Policy search)
09: 從馬爾可夫決策過程到強化學習(Policy search)
10: 課堂中期(In-class Midterm)
11: 模仿學習/探索(Imitation learning/Exploration)
12: 探索/開發(Exploration/Exploitation)
13: 探索/開發(Exploration/Exploitation)
14: 批處理強化學習(Batch Reinforcement Learning)
15: 嘉賓講座:Craig Boutilier(Guest Lecture: Craig Boutilier)
16: 課堂測驗(In-class Quiz)
17: 蒙特卡洛樹搜索算法(Monte Carlo Tree Search)
18: 墻報展示(Poster presentations)