主題: Representations for Stable Off-Policy Reinforcement Learning
摘要: 具有函數逼近的強化學習可能不穩定,甚至會產生分歧,尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中,這些問題已通過調整和規范化表示形式(特別是輔助任務)以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中,我們正式表明,即使在學習非策略時,確實存在非平凡的狀態表示形式,規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣(例如原型值函數)的表示學習方案:逼近誤差,穩定性和易于估計性。在最一般的情況下,我們表明Schur基提供了收斂性保證,但是很難從樣本中進行估計。對于固定的獎勵函數,我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明,可以使用隨機梯度下降學習這些穩定的表示,從而為使用深度網絡進行表示學習的改進技術打開了大門。
主題: Learning Representations that Support Extrapolation
摘要: 外推-進行超出個人經驗范圍的推理的能力-是人類智慧的標志。 相比之下,當代神經網絡算法所表現出的一般性在很大程度上僅限于訓練語料庫中數據點之間的插值。在本文中,我們考慮了學習支持外推表示的挑戰。 我們引入了一種新穎的視覺類比基準,該基準允許外推的分級評估作為與訓練數據所定義的凸域的距離的函數。 我們還介紹了一種簡單的技術,即上下文規范化,它鼓勵強調對象之間關系的表示形式。 我們發現,該技術可以大大提高推斷能力,大大優于許多競爭性技術。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
多智能體深度強化學習中的Q值路徑分解
Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
作者:
楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺
簡介:
近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。
方法:
在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。
在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。
使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。
效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。
題目: Online Deep Clustering for Unsupervised Representation Learning
摘要:
聯合聚類和特征學習方法在無監督表示學習中表現出了顯著的效果。但是,特征聚類和網絡參數更新訓練計劃的交替導致視覺表征學習的不穩定。為了克服這個挑戰,我們提出在線深度集群(ODC),它可以同時執行集群和網絡更新,而不是交替進行。關鍵見解是,聚類中心應該穩步發展,以保持分類器的穩定更新。具體來說,設計和維護了兩個動態內存模塊,即樣本記憶用于存儲樣本標簽和特征,中心記憶用于中心進化。我們將全局聚類分解為穩定的內存更新和成批的標簽重新分配。該過程被集成到網絡更新迭代中。通過這種方式,標簽和網絡齊頭并進,而不是交替發展。大量的實驗表明,ODC能夠穩定訓練過程,有效地提高訓練性能。
主題: Multi-Agent Determinantal Q-Learning
摘要: 具有分散執行力的集中訓練已成為多主體學習中的重要范例。盡管可行,但是當前的方法依賴于限制性假設來分解跨執行主體的集中價值函數。在本文中,我們通過提出多智能體確定性Q學習來消除這種限制。我們的方法是基于Q-DPP,這是一種將確定性點過程(DPP)擴展到多智能體設置的新方法。 Q-DPP促進代理商獲取多種行為模式;這允許對聯合Q函數進行自然分解,而無需對值函數或特殊網絡體系結構進行先驗結構約束。我們證明Q-DPP在可分散合作任務上概括了包括VDN,QMIX和QTRAN在內的主要解決方案。為了有效地從Q-DPP提取樣本,我們開發了具有理論近似保證的線性時間采樣器。在訓練過程中,我們的采樣器還通過協調代理覆蓋狀態空間中的正交方向而受益于探索。我們在多個合作基準上評估我們的算法;與最新技術相比,我們算法的有效性得到了證明。
題目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning
摘要:
我們提出了CURL:用于強化學習的對比無監督表示法。CURL使用對比學習從原始像素中提取高級特征,并在提取的特征之上執行off-policy控制。在DeepMind控制套件和Atari游戲中,在100K交互步驟基準測試中,CURL在復雜任務上的表現優于先前基于模型和非模型的基于像素的方法,分別提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一個基于圖像的算法,它的效率和性能幾乎與使用基于狀態的特性的方法不相上下。
主題: A New Meta-Baseline for Few-Shot Learning
摘要: 近年來,元學習已經成為小樣本學習的流行框架,其目標是從少拍分類任務的集合中學習模型。雖然提出了越來越多的新穎元學習模型,但我們的研究發現了被忽視的簡單基準。我們通過在所有基類上預先訓練分類器,并在基于最近質心的少數鏡頭分類算法上進行元學習,提出了一種Meta-Baseline方法,該方法以較大的優勢勝過了最新的方法。為什么這個簡單的方法這么好?在元學習階段,我們觀察到在基礎類的未見任務上更好地推廣的模型在新型類任務上的性能可能會下降,這表明存在潛在的客觀差異。我們發現預訓練和從預訓練的分類器繼承良好的幾次快照分類法對于元基線都很重要,這可能有助于模型更好地利用具有更強可傳遞性的預訓練表示。此外,我們研究了何時需要在此元基線中進行元學習。我們的工作為該領域建立了一個新的基準,并為進一步了解元學習框架中的幾次學習現象提供了啟示。
我們研究了時間差分(TD)學習中泛化與干涉之間的關系。干涉被定義為兩個不同梯度的內積,表示它們的對齊。這個量從對神經網絡、參數共享和動態學習的各種觀察中產生。我們發現,TD很容易導致低干擾、欠泛化參數,而在監督學習中,這種效應似乎是相反的。我們假設,原因可以追溯到相互作用之間的動態干擾和bootstrapping。這是由幾個觀察:支持經驗之間的負面關系泛化間隙和干涉TD,引導對干擾的負面影響和當地的一致性目標,和信息的傳播速度之間的對比在TD(0)和TD(λ)和回歸蒙特卡羅政策評估等任務。我們希望這些新的發現能夠指導未來更好的引導方法的發現。
題目: Factorized Graph Representations for Semi-Supervised Learning from Sparse Data
簡介:
節點分類是圖數據管理中的一個重要問題。它通常由不同的標簽傳播方法來解決,這些方法從幾個有標簽的種子節點開始迭代地工作。對于具有類之間任意兼容性的圖,這些方法主要依賴于了解必須由領域專家或啟發式提供的兼容性矩陣。我們能否以一種有原則和可伸縮的方式,從一個稀疏標記的圖中直接估計正確的兼容性?我們肯定地回答了這個問題,并提出了一種稱為遠程兼容性評估的方法,這種方法甚至可以在標記極為稀疏的圖(例如,標記了10,000個節點中的1個)上工作,而這只是標記其余節點所需時間的一小部分。我們的方法首先創建多個因式圖表示(大小與圖無關),然后對這些更小的圖進行估計。我們將代數放大定義為利用算法更新方程的代數性質來放大稀疏信號的一般思想。我們證明了我們的估計器要比其他方法快幾個數量級,并且端到端的分類精度與使用標準兼容性相當。這使得它對于任何現有的標簽傳播方法都是一個廉價的預處理步驟,并且消除了當前對啟發式的依賴。
題目: Gradient Surgery for Multi-Task Learning
摘要: 雖然深度學習和深度強化學習(RL)系統在圖像分類、游戲和機器人控制等領域取得了令人印象深刻的成果,但數據效率仍然是一個重大挑戰。多任務學習是一種很有前途的跨任務共享結構的學習方法。然而,多任務設置帶來了許多優化挑戰,與獨立學習任務相比,很難實現大的效率提升。與單任務學習相比,多任務學習之所以具有如此大的挑戰性,其原因還不完全清楚。在這項工作中,我們確定了多任務優化環境中導致有害梯度干擾的三個條件,并開發了一種簡單而通用的方法來避免任務梯度之間的這種干擾。我們提出一種梯度手術的形式,將一個任務的梯度投影到任何其他具有沖突梯度的任務的梯度的法平面上。在一系列具有挑戰性的多任務監督和多任務RL問題上,該方法在效率和性能上都有顯著提高。此外,它與模型無關,可以與先前提出的多任務體系結構相結合以提高性能。
作者簡介: Tianhe Yu,加州大學伯克利分校研究助理。官方主頁://tianheyu927.github.io/等