大型基于Transformer的模型在各種自然語言處理和計算機視覺任務中表現出優越的性能。然而,這些模型包含大量的參數,這限制了它們在真實應用中的部署。為了減少模型的大小,研究人員根據權重的重要性評分對這些模型進行修剪。然而,這些分數通常是在訓練過程中的小批量估計,由于小批量抽樣和復雜的訓練動態,這帶來了很大的可變性/不確定性。由于這種不確定性,常用的修剪方法會對一些關鍵權重進行修剪,使得訓練不穩定,不利于泛化。為了解決這一問題,我們提出了PLATON算法,該算法通過重要性估計的置信上限(upper confidence bound, UCB)來捕捉重要性得分的不確定性。特別是對于重要性得分低但不確定性高的權重,PLATON傾向于保留它們并探索它們的容量。我們在自然語言理解、問題回答和圖像分類等多個基于transformer的模型上進行了大量實驗,以驗證PLATON的有效性。結果表明,在不同的稀疏度水平下,PLATON算法均有顯著的改進。 //arxiv.org/abs/2206.12562
最近的工作表明,離線強化學習(RL)可以被表述為一個序列建模問題(Chen et al., 2021; Janner et al., 2021),并通過類似于大規模語言建模的方法解決。然而,RL的任何實際實例還涉及到一個在線組件,其中在被動離線數據集上預訓練的策略通過與環境的特定任務交互進行微調。我們提出了在線決策Transformers (ODT),這是一種基于序列建模的RL算法,在一個統一的框架中融合了離線預訓練和在線微調。我們的框架使用序列級熵正則化器與自回歸建模目標相結合,用于樣本高效的探索和微調。根據經驗,我們表明,ODT在D4RL基準測試的絕對性能方面可以與最先進的技術相媲美,但在微調過程中獲得的收益要顯著得多。 //www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1
根據觀察數據估算反事實結果與許多應用(例如,個性化醫療)相關。然而,最先進的方法建立在簡單的長短期記憶(LSTM)網絡上,因此對復雜的、長期依賴關系的推斷產生了挑戰。在本文中,我們開發了一種新的因果Transformer ,用于隨著時間的推移估計反事實結果。我們的模型是專門設計的,以捕獲復雜的,長期的依賴性,時變混雜。為此,我們將三個Transformer子網絡與時變協變量、以前的處理和以前的結果的單獨輸入組合成一個中間交叉關注的聯合網絡。我們進一步為因果Transformer 開發了一個定制的端到端培訓程序。具體來說,我們提出了一種新的反事實領域混淆損失來解決混淆偏差:其目的是學習對抗性平衡表示,以便它們可以預測下一個結果,但不能預測當前的治療分配。我們基于合成的和真實的數據集評估我們的因果Transformer,在這些數據集中,它實現了優于當前基線的性能。據我們所知,這是第一個提出基于transformer的架構來從縱向數據估計反事實結果的工作。
深度學習(Deep learning, DL)已經成為現代人工智能中最成功和被廣泛采用的方法之一。與這些成功相伴而來的是越來越復雜和昂貴的架構設計,其基礎是一個核心概念:層。本文對層次的這一基本作用提出了挑戰,并深入介紹了一種新的、無層次的深度學習范式,將輸出計算為動態系統的不動點:深度均衡(DEQ)模型。
首先,我們介紹深度均衡模型的一般公式。我們討論了這些模型如何表達“無限級”的神經網絡,向前和向后解耦傳遞,但與傳統層的成本和設計復雜性-即使在一些最具競爭力的設置(例如,語言建模,語義分割等)。
其次,我們進一步討論了這種均衡方式帶來的挑戰和機遇。我們表明,DEQ公式揭示了深度學習的許多新特性,這些特性長期以來被傳統的層-堆疊方案所掩蓋。利用它們,我們可以訓練和部署這些新的輕量級均衡算法,大大補充了深度學習的現有發展,并使我們能夠在最先進的水平上改善多個現有結果(例如,光流估計)。
DEQ方法已經在理論和實證兩方面引領了社區內隱深度學習的新研究領域(例如,NeurIPS 2020教程)。因此,我們通過討論未來的工作如何進一步利用這一平衡視角來構建更可擴展、高效和準確的下一代DL算法,包括科學計算,這通常是復雜的、高維動力系統的解決方案。
本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。
在現實世界中,存在許多難以用數學方法指定的約束條件。然而,對于強化學習(RL)的現實部署來說,RL agent意識到這些約束條件是至關重要的,這樣它們才能安全地行動。在這項工作中,我們考慮了學習約束的問題,從一個遵守約束的行為的示范。我們通過實驗驗證了我們的方法,并證明了我們的框架能夠成功地學習agent所尊重的最有可能的約束。我們進一步證明,這些習得的約束是可轉移到新個體的,這些新個體可能具有不同的形態和/或獎賞功能。在這方面,之前的工作要么主要局限于表格(離散)設置、特定類型的約束,要么假設環境的過渡動力學。相比之下,我們的框架能夠在完全無模型的環境中學習高維中的任意文本{馬爾可夫}約束。代碼可在:\url{//github.com/shehryar-malik/icrl}。
Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。
在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
學生作者:王希梅,高敬涵
//www.zhuanzhi.ai/paper/2d828976f615c8c8bf691f9235b05fc1
摘要:大規模標記數據集推動深度學習獲得廣泛應用,但在現實場景中收集足量的標記數據往往耗時耗力。為了降低對標記數據的需求,半監督學習側重于同時探索標記和未標記數據,而遷移學習旨在將預訓練模型微調到目標數據中。然而,從頭訓練的半監督自訓練模型容易被錯誤的偽標簽所誤導,而僅僅挖掘有限標記數據的遷移學習方法則面臨模型漂移的挑戰。為了實現數據高效的深度學習,本文提出的Self-Tuning方法設計了一種新的“偽標簽組對比”機制,將標記和未標記數據的探索與預訓練模型的遷移統一起來。在多個基準數據集中,Self-Tuning的性能取得大幅提升,例如,在標簽比例為15%的Stanford Cars中,Self-Tuning相較標準fine-tuning獲得了翻倍的準確率。
arxiv鏈接: