主題: Multi-Agent Determinantal Q-Learning
摘要: 具有分散執行力的集中訓練已成為多主體學習中的重要范例。盡管可行,但是當前的方法依賴于限制性假設來分解跨執行主體的集中價值函數。在本文中,我們通過提出多智能體確定性Q學習來消除這種限制。我們的方法是基于Q-DPP,這是一種將確定性點過程(DPP)擴展到多智能體設置的新方法。 Q-DPP促進代理商獲取多種行為模式;這允許對聯合Q函數進行自然分解,而無需對值函數或特殊網絡體系結構進行先驗結構約束。我們證明Q-DPP在可分散合作任務上概括了包括VDN,QMIX和QTRAN在內的主要解決方案。為了有效地從Q-DPP提取樣本,我們開發了具有理論近似保證的線性時間采樣器。在訓練過程中,我們的采樣器還通過協調代理覆蓋狀態空間中的正交方向而受益于探索。我們在多個合作基準上評估我們的算法;與最新技術相比,我們算法的有效性得到了證明。
題目: Debiased Contrastive Learning
摘要:
自監督表示學習的一項突出技術是對比語義相似和不相似的樣本對。如果無法訪問標簽,通常會將不同的(負)點視為隨機采樣的數據點,隱式地接受這些點實際上可能具有相同的標簽。不足為奇的是,我們觀察到在具有標簽的綜合環境中,從真正不同的標簽中抽取負面樣本可以提高性能。受此觀察結果的啟發,開發了一種反偏差對比目標,即使不知道真實的標簽,也可以校正相同標簽的數據點的采樣。從經驗上講,擬議的目標在視覺,語言和強化學習基準方面始終優于最新的代表性學習。從理論上講,我們為下游分類任務建立概括邊界。
多智能體深度強化學習中的Q值路徑分解
Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
作者:
楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺
簡介:
近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。
方法:
在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。
在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。
使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。
效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。
主題: Locally Differentially Private (Contextual) Bandits Learning
摘要:
首先,我們提出了一種簡單的黑盒歸約框架,該框架可以解決帶有LDP保證的大量無背景的bandits學習問題。根據我們的框架,我們可以通過單點反饋(例如 private bandits凸優化等)改善private bandits學習的最佳結果,并在LDP下獲得具有多點反饋的BCO的第一結果。 LDP保證和黑盒特性使我們的框架在實際應用中比以前專門設計的和相對較弱的差分專用(DP)上下文無關強盜算法更具吸引力。此外,我們還將算法擴展到在(ε,δ)-LDP下具有遺憾約束ō(T~3/4 /ε)的廣義線性bandits,這被認為是最優的。注意,給定DP上下文線性bandits的現有Ω(T)下界,我們的結果表明LDP和DP上下文bandits之間的根本區別。
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。
元學習已被提出作為一個框架來解決具有挑戰性的小樣本學習設置。關鍵的思想是利用大量相似的小樣本任務,以學習如何使基學習者適應只有少數標記的樣本可用的新任務。由于深度神經網絡(DNNs)傾向于只使用少數樣本進行過度擬合,元學習通常使用淺層神經網絡(SNNs),因此限制了其有效性。本文提出了一種新的學習方法——元轉移學習(MTL)。具體來說,“meta”是指訓練多個任務,“transfer”是通過學習每個任務的DNN權值的縮放和變換函數來實現的。此外,我們還介紹了作為一種有效的MTL學習課程的困難任務元批處理方案。我們使用(5類,1次)和(5類,5次)識別任務,在兩個具有挑戰性的小樣本學習基準上進行實驗:miniImageNet和Fewshot-CIFAR100。通過與相關文獻的大量比較,驗證了本文提出的HT元批處理方案訓練的元轉移學習方法具有良好的學習效果。消融研究還表明,這兩種成分有助于快速收斂和高精度。
地址:
代碼:
強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。
本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
主題: Deep Reinforcement Learning with Applications in Transportation
簡介: 交通運輸,特別是移動乘車共享領域,存在許多傳統上具有挑戰性的動態決策問題,這些問題涉及研究文獻,而且很容易從人工智能(AI)中受益匪淺。一些核心示例包括在線乘車指令調度,該系統將可用的駕駛員與乘車共享平臺上的出行請求乘客實時匹配;路線規劃,用于規劃行程起點和終點之間的最佳路線;交通信號控制,可動態自適應地調整區域內的交通信號以實現低延遲。所有這些問題都有一個共同的特征,即在我們關注某個范圍內的一些累積目標時,要做出一系列決定。強化學習(RL)是一種機器學習范例,可訓練代理通過與之交互并獲取反饋信號來學習在環境中采取最佳行動(以所獲得的總累積獎勵衡量)。因此,它是用于解決順序決策問題的一類優化方法。得益于深度學習研究和計算能力的飛速發展,深度神經網絡和RL的集成為解決復雜的大規模學習問題在RL中產生了爆炸性的進展,近年來引起了巨大的興趣。深度學習和RL的結合甚至被認為是通往真正AI的道路。它具有巨大的潛力,以前所未有的方式解決運輸中的一些難題。
目錄簡介: