国产特级黄色片A级无毛视频,日韩一区国产二区不卡,日本国产欧美精品视频一区二区三区,最新一区二区三区不卡免费高清

題目： Improving Policies via Search in Cooperative Partially Observable Games

摘要：

最近在游戲中的超人結果很大程度上是在各種零和游戲中實現的，比如圍棋和撲克，在這些游戲中，玩家需要與他人競爭。然而，就像人類一樣，現實世界的人工智能系統也必須在合作的、部分可觀察的環境中與其他智能體進行協調和通信。這些設置通常要求參與者既要解釋他人的行為，又要在解釋時提供信息。這些能力通常被總結為心智理論，并被視為社會交往的關鍵。在本文中，我們提出了兩種不同的搜索技術，可用于改進合作部分可觀察博弈中的任意一致策略。第一個是單智能體搜索，它可以有效地將問題轉換為單智能體。通過使除一個智能體外的所有智能體都按照商定的策略進行設置。相反，在多智能體搜索中，只要在計算上可行，所有智能體都會執行相同的公共知識搜索過程，否則就會退回到根據商定的策略進行搜索。我們證明了這些搜索過程在理論上至少保證了協議策略的原始性能(在有界近似誤差范圍內)。在Hanabi的基準挑戰問題中，我們的搜索技術極大地提高了每一個測試的性能我們測試了智能體，當應用到使用RL訓練的策略時，在游戲中獲得了24.61/25的最新分數，而之前最好的分數是24.08/25。

作者簡介：

Jakob Foerster是Facebook人工智能研究科學家，研究興趣是深度學習，多智能體，強化學習，博弈論。

Noam Brown是Facebook人工智能研究科學家，研究興趣是人工智能，博弈論算法，多智能體系統，機器學習。

付費5元查看完整內容

相關內容

智能體

關注 49

智能體，顧名思義，就是具有智能的實體，英文名是Agent。

ICML2020 · 多主題學習 · 多智能體確定性Q學習 ·

2020 年 6 月 3 日

[付費5元查看完整內容]【ICML2020-上海交大】多智能體確定性Q-Learning， Multi-Agent Determinantal Q-Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主題： Multi-Agent Determinantal Q-Learning

摘要： 具有分散執行力的集中訓練已成為多主體學習中的重要范例。盡管可行，但是當前的方法依賴于限制性假設來分解跨執行主體的集中價值函數。在本文中，我們通過提出多智能體確定性Q學習來消除這種限制。我們的方法是基于Q-DPP，這是一種將確定性點過程（DPP）擴展到多智能體設置的新方法。 Q-DPP促進代理商獲取多種行為模式；這允許對聯合Q函數進行自然分解，而無需對值函數或特殊網絡體系結構進行先驗結構約束。我們證明Q-DPP在可分散合作任務上概括了包括VDN，QMIX和QTRAN在內的主要解決方案。為了有效地從Q-DPP提取樣本，我們開發了具有理論近似保證的線性時間采樣器。在訓練過程中，我們的采樣器還通過協調代理覆蓋狀態空間中的正交方向而受益于探索。我們在多個合作基準上評估我們的算法；與最新技術相比，我們算法的有效性得到了證明。

付費5元查看完整內容

深度學習 · 自動超參數優化 · 計算機視覺 · 邊緣計算 ·

2020 年 5 月 26 日

[付費5元查看完整內容]【CMU博士論文】用動態超參數優化改進深度學習訓練和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

簡介：

在過去的十年中，深度學習證明了計算機視覺和自然語言處理所帶來的挑戰的最新準確性，從而使這些領域發生了革命性變化。深度學習模型現在是自動駕駛，醫學成像和神經機器翻譯等應用程序的基本構建塊。但是，在生產中部署這些模型時，仍然存在許多挑戰。研究人員和從業人員必須解決各種各樣的問題，包括如何有效地設計，培訓和部署資源密集型深度學習模型，以及如何在確保對變化條件的魯棒性的同時使這些方法自動化。本文提供并評估了提高深度學習訓練和推理效率以及底層系統對環境變化的魯棒性的新方法。我們通過關注為優化模型的準確性和資源使用而優化的許多超參數來解決這些問題。這些超參數包括模型架構的選擇，訓練數據集，優化算法，優化算法的超參數（例如學習率和動量）以及訓練時間預算。當前，在實踐中，幾乎所有超參數在訓練之前都進行了一次調整，此后保持不變，然而最佳的超參數值會隨時間變化（例如，隨著訓練的進行或替換用于推理的硬件時）。我們將動態調整應用于傳統上被認為是靜態的超參數。通過三個案例研究，我們表明，使用運行時信息來動態適應傳統上靜態的超參數可以提高機器學習訓練和推理的效率。首先，我們提出并分析Selective-Backprop，這是一種新的重要采樣方法，它以在線方式對高損失示例進行優先排序。在Selective-Backprop中，被認為具有挑戰性的示例是可調超參數。通過優先處理這些具有挑戰性的示例，Selective-Backprop可以將給定的目標錯誤率訓練到比靜態方法快3.5倍的目標。接下來，我們探索AdaptSB，它是Selective-Backprop的變體，可以動態調整我們對具有挑戰性的示例進行優先級排序的方式。在“選擇性反向傳播”中，分配給難度不同示例的優先級保持不變。在AdaptSB中，我們將分配給不同類別示例的優先級視為可調超參數。通過對數據集和訓練階段動態地調整示例優先級，AdaptSB在出現標簽錯誤的數據集上表現優于Selective-Backprop。最后，我們提出并分析了Mainstream，這是一種視頻分析系統，可讓并發應用共享共享邊緣資源，以最大程度地提高匯總結果質量。在Mainstream中，我們認為應用程序共享的程度是一個可調參數。 Mainstream在部署時使用更專業的DNN自動確定正確的權衡方案，以提高每幀的準確性并保留更多的非專業基礎模型。結果顯示，與靜態ap方法相比，Mainstream將平均事件檢測F1分數提高了多達87倍。

付費5元查看完整內容

強化學習 · 博弈論 ·

2020 年 4 月 19 日

[付費5元查看完整內容] 【基于模型的強化學習的博弈論框架】A Game Theoretic Framework for Model Based Reinforcement Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： A Game Theoretic Framework for Model Based Reinforcement Learning

摘要： 基于模型的強化學習(MBRL)最近獲得了極大的興趣，因為它具有潛在的樣本效率和合并非策略數據的能力。然而，使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計，我們開發了一個新的框架，將MBRL描述為:(1)一個策略參與者，它試圖在學習模型下最大化回報;(2)一個模型player，它試圖與策略player收集的真實數據相匹配。在算法開發方面，我們構造了一個雙方參與的Stackelberg博弈，并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法，基于這兩種算法，玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外，我們的框架是一致的，并提供了一個明確的基礎啟發式已知是重要的實踐，從以往的工作。最后，通過實驗驗證了所提出的算法具有較高的樣本效率，匹配無模型策略梯度的漸近性能，并能擴展到靈巧手操作等高維任務。

付費5元查看完整內容

AAAI2020 · 強化學習 · 深度學習 · 人機交互 ·

2020 年 2 月 8 日

[付費5元查看完整內容]【AAAI2020教程】強化學習中的Exploration-Exploitation in Reinforcement Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習（RL）研究的是當環境（即動力和回報）最初未知，但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果，包括游戲和機器人。然而，大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略，并且不能用于樣本昂貴和/或無法進行長時間模擬的領域（例如，人機交互）。朝著更具樣本效率的算法邁進的一個基本步驟是，設計適當平衡環境探索、收集有用信息的方法，以及利用所學策略收集盡可能多的回報的方法。

本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理（特別是，面對不確定性和后驗抽樣時的樂觀主義）、精確情況下的理論保證（即表格RL）及其在更復雜環境中的應用，包括參數化MDP、線性二次控制，以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景，以使AI和RL的研究人員在現有的RL算法中集成探索原理，并設計新穎的樣本高效的RL方法，能夠處理復雜的應用，例如人機交互（例如，會話代理），醫學應用（例如，藥物優化）和廣告（例如，營銷中的終身價值優化）。在整個教程中，我們將討論開放的問題和未來可能的研究方向。

付費5元查看完整內容

深度強化學習 ·

2020 年 2 月 1 日

[付費5元查看完整內容]深度強化學習策略梯度教程，53頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Deep Reinforcement Learning via Policy Optimization

付費5元查看完整內容

人工智能 · 強化學習 · 微軟研究院 · 卡內基梅隆大學 (Carnegie Mellon University) · Geoff Gordon ·

2019 年 10 月 3 日

[付費5元查看完整內容]【強化學習研討會|Microsoft Research】政策改進學習（Learning for policy improvement），卡內基梅隆大學教授| Geoff Gordon

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主題： Learning for policy improvement

摘要： 強化學習在經驗易獲得的領域取得了許多成功，如電子游戲或棋盤游戲。這類區域的RL算法通常基于梯度下降：它們以較小的學習率進行許多噪聲更新。相反，我們研究每次更新花費更多計算的算法，試圖減少噪聲并進行更大的更新；當經驗比計算時間更昂貴時，這樣的算法是合適的。特別地，我們看幾種基于近似策略迭代的方法。

作者簡介： Geoff Gordon博士是微軟研究蒙特勒實驗室的研究主任，也是卡內基梅隆大學機器學習系的教授。他還擔任過機械學習系的臨時系主任和教育副系主任。戈登博士的研究集中在能夠進行長期思考的人工智能系統上，比如提前推理以解決問題、計劃一系列行動或從觀察中推斷出看不見的特性。特別是，他著眼于如何將機器學習與這些長期思考任務結合起來。1991年，戈登博士在康奈爾大學獲得計算機科學學士學位，1999年在卡內基梅隆大學獲得計算機科學博士學位。他的研究興趣包括人工智能、統計機器學習、教育數據、博弈論、多機器人系統，以及概率、對抗和一般和領域的規劃。他之前的任命包括斯坦福大學計算機科學系的客座教授和圣地亞哥燃燒玻璃技術的首席科學家。

付費5元查看完整內容

多智能體系統 · 深度強化學習 · 文獻綜述 · Borealis AI · Pablo Hernandez-Leal ·

2019 年 8 月 30 日

[付費5元查看完整內容]【綜述】多智能體深度強化學習綜述，附49頁PDF

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介： 近年來，深度強化學習（RL）取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習，并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功，盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習（MDRL）文獻的概述。此外，我們通過更廣泛的分析對概述進行補充：（i）我們回顧了以前RL中介紹的基礎內容，并強調了它們如何適應多智能深度強化學習設置。（ii）我們為該領域的新開業者提供一般指導：描述從MDRL工作中汲取的經驗教訓，指出最新的基準并概述研究途徑。（iii）我們提出了MDRL的實際挑戰（例如，實施和計算需求）。

作者介紹： Pablo Hernandez-Leal，Borealis AI的研究員，在此之前，曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向：單智能體環境開發的算法以及多智能體。計劃開發一種算法，該算法使用博弈論，貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容

Hau Chan · 游戲開發 · 卡內基梅隆大學 (Carnegie Mellon University) · 博弈論 · 林肯大學 ·

2019 年 8 月 12 日

[付費5元查看完整內容]【IJCAI 2019 | tutorial】解決具有復雜策略空間的游戲中的問題 Solving Games With Complex Strategy Spaces，林肯大學|Hau Chan，卡內基梅隆大學|Fei Fang

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目主題： Solving Games With Complex Strategy Spaces

簡介： 計算博弈論的一個中心問題是對給定游戲描述的博弈理論解概念進行計算。在許多實際的多代理域中，包括基礎結構安全性，環境保護，電子商務和網絡路由，每個代理都需要做出由多個組件組成的復雜決策，例如選擇網絡中的路徑，選擇子集。保護/攻擊目標，為每個巡邏單位執行巡邏路線，多次競標或在連續區域采取行動。最終的策略空間可能由指數數量甚至是無限數量的純策略組成，因此標標準形式表示及其相關算法存在不足。本教程將總結具有復雜策略空間的游戲開發高效算法的最新進展，包括使用邊際概率，用于表示和求解具有結構化策略空間的游戲的通用框架，以及使用可區分學習和（多主體）深度強化學習。我們將涵蓋從基礎架構安全到環境和野生動植物保護的應用領域。

作者介紹： Hau Chan，林肯大學計算機科學與工程系助理教授，電子郵件：。 Chan博士曾在多代理系統和經濟的交叉領域工作。他早期的工作重點是應用圖形游戲來建模和研究相互依賴的安全域（例如，安全投資決策）。他最近正在進行的工作是關于一款具有復雜策略空間的游戲。他在AAMAS 2019上提供了有關計算游戲理論主題的教程。

Fei Fang，卡內基梅隆大學計算機科學學院助理教授，電子郵件：。方博士在多智能體系統上工作了七年多，專注于將博弈論和機器學習與應用程序集成到安全性，可持續性和移動性領域。她在綠色安全游戲和PAWS（野生生物安全保護助手）方面的工作在國際人工智能聯合會議（IJCAI'15）上獲得了計算可持續性軌道方面的杰出論文獎，并在人工智能創新應用中獲得了創新應用獎。她提供了有關計算游戲理論主題的教程，包括AAMAS 2019計算游戲理論教程，IJCAI 2018游戲理論和安全性機器學習教程，AAMAS 2018 AI促進社會公益教程以及ACM-EC 2017關于進步的教程安全與隱私的博弈論。

付費5元查看完整內容