四虎亚洲精品高清在线观看,国产日本亚洲欧美一区二区

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法，用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度，它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法，并表明要實現-全局最優，復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境，并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后，我們提供了仿真結果，以證明我們的方法的魯棒性。

付費5元查看完整內容

相關內容

ICML 2022

關注 16

國際機器學習大會(International Conference on Machine Learning，簡稱ICML ) 是由國際機器學習學會（IMLS）主辦的機器學習國際頂級會議，也是CCF-A類學術會議。ICML 2022 共收到5630 投稿，接收1117 篇 short oral，118篇 long oral，錄用率為21.94%。

ICML 2022 · 反事實解釋 ·

2022 年 7 月 7 日

[付費5元查看完整內容]【ICML2022】基于樹的集合的魯棒反事實解釋

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

反事實的解釋提供了從機器學習模型中獲得預期結果的方法。然而，這樣的解釋對于基礎模型中的某些真實世界的變化(例如，重新訓練模型，改變超參數，等等)并不是魯棒的，在幾個應用中質疑它們的可靠性，例如，信貸。在這項工作中，我們提出了一種新的策略——我們稱之為RobX——來為基于樹的集成生成魯棒的反事實，例如XGBoost。基于樹的集成在魯棒的反事實生成中帶來了額外的挑戰，例如，它們具有非光滑和不可微的目標函數，并且在非常相似的數據上進行再訓練時，它們可以在參數空間中發生很大的變化。我們首先引入了一種新的度量——我們稱之為反事實穩定性——它試圖量化反事實對再訓練下的模型變化的穩健性，并帶來理想的理論屬性。我們提出的策略RobX適用于任何反事實生成方法(基礎方法)，并通過使用我們的度量反事實穩定性迭代改進基礎方法生成的反事實來搜索魯棒的反事實。我們在基準數據集上比較了RobX與流行的反事實生成方法(基于樹的集成)的性能。結果表明，我們的策略生成的反事實比現有的最先進的方法更魯棒(在實際模型更改后，其有效性接近100%)，而且也更現實(就局部異常因素而言)。

付費5元查看完整內容

ICML 2022 · 元強化學習 · 任務表示 · 對比學習 ·

2022 年 6 月 23 日

[付費5元查看完整內容]【ICML2022】基于對比學習的離線元強化學習的魯棒任務表示

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們研究離線元強化學習，這是一種實用的強化學習范式，從離線數據中學習以適應新的任務。離線數據的分布由行為策略和任務共同決定。現有的離線元強化學習算法無法區分這些因素，導致任務表示對行為策略的變化不穩定。為了解決這個問題，我們提出了一個任務表示的對比學習框架，該框架對訓練和測試中的行為策略分布不匹配具有魯棒性。我們設計了一個雙層編碼器結構，使用互信息最大化來形式化任務表示學習，導出了一個對比學習目標，并引入了幾種方法來近似負對的真實分布。在各種離線元強化學習基準上的實驗表明，我們的方法比以前的方法更有優勢，特別是在泛化到非分布行為策略上。代碼可以在//github.com/PKU-AI-Edge/CORRO上找到。

付費5元查看完整內容

Transformer · ICML 2022 · 元強化學習 ·

2022 年 6 月 15 日

[付費5元查看完整內容]【ICML2022】Transformer是元強化學習器

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，Transformer架構和變體在許多機器學習任務中取得了顯著的成功。這種成功本質上與處理長序列的能力以及注意力機制中上下文相關的權重的存在有關。我們認為這些能力符合元強化學習算法的核心作用。事實上，元強化學習代理需要從一系列軌跡推斷任務。此外，它需要一個快速適應策略來適應新的任務，這可以通過使用自我注意機制來實現。在這項工作中，我們提出了TrMRL(transformer 元強化學習)，一個元強化學習l代理，模仿記憶恢復機制使用transformer 架構。它將最近過去的工作記憶聯系起來，遞歸地通過transformer層建立情景記憶。我們展示了自注意力計算出一種共識表示，在每一層將貝葉斯風險降到最低，并提供了有意義的特征來計算最佳行動。我們在運動和靈巧操作的高維連續控制環境中進行了實驗。結果表明，在這些環境中，與基線相比，TrMRL具有可比或更好的漸近性能、樣本效率和分布外泛化。

//www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

付費5元查看完整內容

ICML 2021 · 變分自編碼器 ·

2021 年 7 月 11 日

[付費5元查看完整內容]【ICML2021】統一魯棒半監督變分自編碼器

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在統一魯棒半監督變分自編碼器(URSVAE)中，通過同時處理噪聲標簽和異常值，提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數，以確保變分編碼器對異常值的魯棒性。隨后，我們將噪聲轉換模型自然地集成到我們的模型中，以減輕噪聲標簽的有害影響。此外，為了進一步增強魯棒性，采用魯棒散度測度，推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的，證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較，實驗結果表明了該框架的優越性。

//proceedings.mlr.press/v139/chen21a.html

付費5元查看完整內容

模仿學習 · ICML 2021 ·

2021 年 6 月 15 日

[付費5元查看完整內容]【ICML2021】策略梯度貝葉斯魯棒優化的模仿學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵，比如演示。然而，通常有許多不同的獎勵功能來解釋人類的反饋，這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性，但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL，它優化了平衡預期性能和風險的軟魯棒目標。據我們所知，PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法，該假設可以擴展到連續的MDPs。結果表明，PG-BROIL可以產生一系列從風險中性到風險厭惡的行為，并通過對沖不確定性從模糊的演示中學習，而不是尋求唯一識別演示者的獎勵功能時，表現優于最先進的模仿學習算法。

//www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694

付費5元查看完整內容

ICML 2021 · 博弈論 · 動態博弈 ·

2021 年 5 月 29 日

[付費5元查看完整內容]【ICML2021】為開放博弈中的學習建模行為多樣性。

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

促進行為多樣性對于解決具有非傳遞性的動態博弈至關重要，因為這些博弈的策略存在周期性，而且沒有一致的贏家（例如，剪刀石頭布）。然而，在定義多樣性和構建具有多樣性意識的學習動態方面缺乏嚴格的處理。這項工作提供了游戲中行為多樣性的幾何解釋，并引入了一種基于決定點過程（DPP）的新的多樣性度量。通過將多樣性度量納入最佳響應動態，我們開發了多樣化的策略空間響應機制，用于解決正常形式的博弈和開放式博弈。我們證明了不同最佳響應的唯一性和我們算法在兩人博弈上的收斂性。重要的是，我們證明了最大化基于DPP的多樣性度量保證了擴大由代理策略混合跨越的凸多面體。為了驗證我們的多樣性感知求解器，我們在數十個顯示出強非傳遞性的博弈上進行了測試。結果表明，通過找到有效和多樣化的策略，可以實現比最先進的求解器更低的可利用性。

//www.zhuanzhi.ai/paper/92bae43a935a4cb28d57af4652726ba7

付費5元查看完整內容

ICML2020 · 加州大學伯克利分校 (UC Berkeley) · 強化學習 ·

2020 年 7 月 14 日

[付費5元查看完整內容]【ICML2020-伯克利】穩定非策略強化學習的表示，Representations for Stable Off-Policy Reinforcement Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主題： Representations for Stable Off-Policy Reinforcement Learning

摘要： 具有函數逼近的強化學習可能不穩定，甚至會產生分歧，尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中，這些問題已通過調整和規范化表示形式（特別是輔助任務）以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中，我們正式表明，即使在學習非策略時，確實存在非平凡的狀態表示形式，規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣（例如原型值函數）的表示學習方案：逼近誤差，穩定性和易于估計性。在最一般的情況下，我們表明Schur基提供了收斂性保證，但是很難從樣本中進行估計。對于固定的獎勵函數，我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明，可以使用隨機梯度下降學習這些穩定的表示，從而為使用深度網絡進行表示學習的改進技術打開了大門。