一级欧美一级日韩大片,日本成年黄色一区二区三区

訓練強化學習(RL)系統在實際任務中表現良好是困難的，原因有很多。一個重要的原因是，工程師和應用研究人員面臨著大量的設計選擇，旨在將現實世界的問題表示為部分可觀察馬爾可夫決策(POMDP)抽象，這不足以捕捉問題的所有方面。因此，工程師通過試驗和錯誤，優化RL系統設計，直到達到令人滿意的性能。這是一個累人、耗時和低效的過程。learn to learn和Auto RL將這個過程的部分自動化，允許用戶專注于更高層次的設計問題。在本教程中，我們將回顧當前建立的技術，如環境、算法、表示和獎勵學習，并討論可用的工具、它們如何以及為什么工作，以及它們何時會失敗。最后，由于這是一個新興的領域，我們將總結該領域的未來前景和面臨的開放問題。

//automl.cc/tutorials/

付費5元查看完整內容

相關內容

[付費5元查看完整內容]UCL& UC Berkeley | 深度強化學習中的泛化研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

深度強化學習 (RL) 中的泛化研究旨在產生 RL 算法，其策略可以很好地泛化到部署時新的未知情況，避免過度擬合其訓練環境。如果要在現實世界的場景中部署強化學習算法，解決這個問題至關重要，在現實世界中，環境將是多樣的、動態的和不可預測的。本綜述是對這一新興領域的概述，在已有研究的基礎上，通過提供了一個統一的格式和術語來討論不同的泛化問題。繼續對現有的泛化基準以及解決泛化問題的方法進行分類。最后，對該領域的現狀進行了批判性討論，包括對未來研究的建議。本文認為對基準設計采用純程序性內容生成方法不利于推廣，其建議快速在線適應和解決RL特定問題，并在未充分探索的問題環境中建立基準，如離線RL概括和獎勵函數變化。

引言

強化學習(RL)可以用于一系列應用，如自動駕駛汽車[1]和機器人[2]，但為了實現這一潛力，我們需要可以在現實世界中使用的RL算法。現實是動態的、開放的、總是在變化的，RL算法需要對其環境的變化具有健壯性，并在部署過程中具有遷移和適應不可見(但類似)環境的能力。

然而，目前許多RL研究工作都是在諸如Atari[3]和MuJoCo[4,5]等基準測試上進行的，這些基準測試不具備上述屬性:它們在訓練策略時所處的環境中評估策略，這與現實場景不匹配(圖1左列)。這與監督學習的標準假設形成了鮮明的對比，在監督學習中，訓練集和測試集是不相交的，很可能導致強評估過擬合[6]。這導致策略即使在稍微調整的環境實例(環境中的特定關卡或任務)上表現也很糟糕，并且經常在用于隨機初始化上失敗[7,8,9,10]。

許多研究人員已經認真對待這些批評，現在專注于提高RL的泛化(從這項綜述的內容可以看出)。本研究的重點是生成策略具有預期魯棒性、遷移和自適應特性的算法，挑戰訓練和測試將是相同的基本假設(圖1中右列)。雖然這項研究是有價值的，但目前它經常缺乏清晰或連貫的論文。我們認為，這部分是因為泛化(尤其是在RL中)是一類問題，而不是一個特定的問題。改進“泛化”，但不明確需要哪種泛化，這是不明確的;我們不太可能從總體上改進泛化，因為這類問題太廣泛了，以至于適用于一些類似于No Free Lunch定理[11]的類比:在某些情況下改進泛化可能會損害在其他情況下的泛化。圖1中右兩欄顯示了兩大類泛化問題。

我們將泛化概念作為一個單一的問題來解決。我們提出了一種理解這類問題的形式化(建立在以前的工作[12,13,14,15,16])，以及在指定一個泛化問題時有哪些選擇。這是基于特定基準所做出的選擇，以及為驗證特定方法而做出的假設，我們將在下面討論這些。最后，我們在泛化中提出了一些尚未被探索的設置，但對于RL的各種現實應用仍然至關重要，以及未來在解決不同泛化問題的方法上的許多途徑。我們的目標是使該領域的研究人員和實踐者在該領域內外更容易理解，并使討論新的研究方向更容易。這種新的清晰性可以改善該領域，并使更通用的RL方法取得穩健的進展。

綜述結構。綜述的結構如下。我們首先在第2節中簡要描述相關工作，如其他概述。在第3節中，我們介紹了RL中泛化的形式化和術語，包括相關的背景。然后，在第4節中，我們繼續使用這種形式化來描述用于RL泛化的當前基準，討論環境(第4.1節)和評估協議(第4.2節)。我們將在第5節中對處理泛化的工作產生方法進行分類和描述。最后，我們將在第6節中對當前領域進行批判性的討論，包括在方法和基準方面對未來工作的建議，并在第7節中總結綜述的關鍵結論。

我們提出了關于泛化的一種形式主義和術語，這是建立在以往多部工作[12,13,14,15,16]中提出的形式主義和術語基礎上的。我們在這里的貢獻是將這些先前的工作統一為RL中被稱為泛化的一類問題的清晰的正式描述。
我們提出了一個現有基準的分類，可以用來進行泛化測試，將討論分為分類環境和評估協議。我們的形式主義讓我們能夠清楚地描述純粹的PCG方法在泛化基準和環境設計方面的弱點:擁有一個完全的PCG環境限制了在該環境下進行研究的精確度。我們建議未來的環境應結合PCG和可控變異因素。
我們提出現有的分類方法來解決各種泛化問題,出于希望使它容易對從業人員選擇的方法給出一個具體的問題。我們指出了許多有待進一步研究的途徑，包括快速在線適應、解決RL特定的一般化問題、新穎的架構、基于模型的RL和環境生成。
我們批判性地討論了RL研究的泛化現狀，并提出了未來的研究方向。特別地，我們指出，構建基準將使離線的RL一般化和獎勵功能變化取得進展，這兩者都是重要的設置。此外，我們指出了幾個值得探索的不同設置和評估指標:調查上下文效率和在連續的RL設置中工作都是未來工作的必要領域。

付費5元查看完整內容

無監督學習 · 強化學習 · ICML 2021 ·

2021 年 7 月 23 日

[付費5元查看完整內容]【ICML2021-教程】無監督強化學習，285頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現，無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中，無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面，社區中有很多人感興趣。考慮到問題的連續決策性質，RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰，它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊，希望人們可以帶回最新的最先進的技術和實踐的知識，以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。

//icml.cc/Conferences/2021/Schedule

付費5元查看完整內容

自動機器學習 · 可解釋自動機器學習 ·

2021 年 4 月 23 日

[付費5元查看完整內容]【XAUTOML】可解釋自動機器學習，27頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自動化機器學習支持用戶、開發人員和研究人員快速開發新的ML應用程序。然而，AutoML工具的輸出并不總是能夠很容易地用人類的直覺或專家知識來解釋，因此專家有時會對AutoML工具缺乏信任。因此，我們開發了一些方法，提高了AutoML系統的透明度和可解釋性，增加了對AutoML工具的信任，并對其他不透明的優化過程產生了有價值的見解。解釋AutoML的方法包括:

超參數的重要性: 哪些超參數(或其他設計決策)對提高ML系統的性能具有全局重要性?[Hutter等人2014]

自動消融研究: 如果一個AutoML工具從一個給定的配置開始(例如，由用戶或ML算法的原始開發人員定義)，與AutoML工具返回的配置相比，哪些更改是重要的，以實現觀察到的性能改進?[Biedenkapp等人2017]

超參數效果的可視化: 我們如何可視化更改超參數設置的效果，無論是局部的還是全局的?[Hutter等人2014,Biedenkapp等人2018]

采樣過程的可視化: 在配置空間的哪些區域有一個AutoML工具在什么時候采樣，為什么采樣?我們在那兒能看到哪場演出?[Biedenkapp等人2018]

//www.automl.org/xautoml/

付費5元查看完整內容

機器學習 · 分布式機器學習 ·

2021 年 2 月 12 日

[付費5元查看完整內容]機器學習如何分布式？看CMU這份「分布式機器學習原理與策略」AAAI2021教程，附221頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

ML規模化常常被低估。在多臺機器上訓練一個ML模型(最初是針對單個CPU/GPU實現的)到底需要什么?一些痛點是: (1) 需要編寫許多新代碼行來將代碼轉換為分布式版本; (2)需要大量調整代碼以滿足系統/統計性能，這是模型開發的附加過程; (3)決定使用哪些/多少硬件資源來訓練和部署模型; (4) 從組織的角度出發，在許多用戶和作業之間實現資源共享自動化，以滿足用戶的需求，同時使資源利用率最大化，成本最小化。

在本教程中，我們將介紹自動化分布式ML基礎設施的改進技術。本教程涵蓋了對ML并行化至關重要的三個領域: (1)對并行ML構建塊進行編組和標準化; (2) ML并行表示和軟件框架; (3)自動ML并行化的算法和系統，以及在共享集群上ML作業的資源分配。通過揭示ML程序的獨特特征，并通過剖析成功案例來揭示如何利用它們，我們為ML研究人員和實踐者提供了進一步塑造和發展SysML領域的機會。

聽眾應該熟悉ML和DL的基礎知識。了解TensorFlow、PyTorch和分布式ML技術也有幫助，但不是必需的。

//sites.google.com/view/aaai-2021-tutorial-ah9/home

付費5元查看完整內容

機器學習 · 自動超參數優化 · 超參數優化 · 深度學習 ·

2020 年 11 月 30 日

[付費5元查看完整內容]2020新書《機器學習中的超參數優化》，177頁pdf闡述如何使您的機器學習和深度學習模型更有效

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深入機器學習模型的超參數調整，關注什么是超參數以及它們是如何工作的。這本書討論了不同的超參數調優技術，從基礎到高級方法。

這是一個關于超參數優化的分步指南，從什么是超參數以及它們如何影響機器學習模型的不同方面開始。然后介紹一些基本的超參數優化算法。此外，作者利用分布式優化方法解決了時間和內存約束的問題。接下來您將討論超參數搜索的貝葉斯優化，它從以前的歷史中吸取了教訓。

這本書討論了不同的框架，如Hyperopt和Optuna，它實現了基于順序模型的全局優化(SMBO)算法。在這些討論中，您將關注不同的方面，比如搜索空間的創建和這些庫的分布式優化。

機器學習中的超參數優化有助于理解這些算法是如何工作的，以及如何在現實數據科學問題中使用它們。最后一章總結了超參數優化在自動機器學習中的作用，并以一個創建自己的自動腳本的教程結束。

超參數優化是一項冗長乏味的任務，所以請坐下來，讓這些算法來完成您的工作。你將學到什么

了解超參數中的更改如何影響模型的性能。
對數據科學問題應用不同的超參數調優算法
使用貝葉斯優化方法來創建高效的機器學習和深度學習模型
使用計算機集群分發超參數優化
利用超參數優化方法實現機器自動學習

這本書是給誰的

從事機器學習的專業人員和學生。

在構建機器學習模型時選擇正確的超參數是數據科學從業者面臨的最大問題之一。這本書是超參數優化(HPO)的指南。它從超參數的最基本定義開始，并帶您使用高級HPO技術構建您自己的AutoML腳本。這本書是打算為學生和數據科學專業人員。這本書由五章組成。

第1章幫助您理解超參數是如何影響模型構建的整個過程的。它告訴我們HPO的重要性。
第2章介紹了基本且易于實現的HPO方法。
第3章介紹了解決時間和內存限制的各種技術。
第4章和第5章討論了貝葉斯優化、相關庫和AutoML。

這本書的目的是讓讀者以一種直觀和實用的方式來理解HPO的概念，每個部分都提供了代碼實現。我希望你能喜歡。

付費5元查看完整內容

強化學習 ·

2020 年 8 月 7 日

[付費5元查看完整內容]【DeepMind】強化學習教程，83頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

來自DeepMind研究人員Feryal Behbahani, Matt Hoffman 和 Bobak Shahriari講解的強化學習教程。

付費5元查看完整內容

自監督學習 ·

2020 年 5 月 29 日

[付費5元查看完整內容]【牛津大學&DeepMind】自監督學習教程，141頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

借助現代的高容量模型，大數據已經推動了機器學習的許多領域的革命，但標準方法——從標簽中進行監督學習，或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富，獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的，結構化輸出(場景解釋、交互、演示)要糟糕得多，尤其是當數據分布是非平穩的時候。

自監督學習是一個很有前途的替代方法，其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習，這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。

自監督學習(self-supervised learning, SSL)領域正在迅速發展，這些方法的性能逐漸接近完全監督方法。