亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多任務模仿學習 (MIL) 旨在基于多任務專家演示訓練能夠執行任務分布的策略,這對通用機器人至關重要。現有的 MIL 算法在復雜長水平任務上的數據效率低下且表現不佳。我們開發了多任務層次對抗逆強化學習 (MH-AIRL) 以學習層次結構化的多任務策略,這對于具有長視野的組合任務更有利,并且通過識別和跨任務傳輸可重復使用的基本技能,具有更高的專家數據效率。為實現這一目標,MH-AIRL 有效地綜合了基于上下文的多任務學習、AIRL (一種 IL 方法) 和層次策略學習。此外,MH-AIRL 可以應用于沒有任務或技能注釋的演示 (即,只有狀態動作對),這在實踐中更易獲取。MH-AIRL 的每個模塊都提供了理論依據,而在挑戰性的多任務設置上的評估證明,與 SOTA MIL 基線相比,MH-AIRL 學到的多任務策略具有優越的性能和可轉移性。

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議。 2023年7月23日至29日周六在夏威夷會議中心舉行。

強化學習(RL)的兩個主要挑戰是設計適當的獎勵函數和確保學習策略的安全性。為解決這些挑戰,我們提出了一個用于受限馬爾可夫決策過程中的反向強化學習(IRL)的理論框架。從凸分析的角度出發,我們擴展了關于獎勵可識別性和泛化性的先前結果,使其適用于受限環境和更一般的正則化類。特別地,我們表明,相對于潛在塑造(Cao等人,2021)的可識別性是熵正則化的結果,并且在其他正則化或安全性約束存在時,一般可能不再適用。我們還表明,為了確保對新的轉移法則和約束的泛化能力,必須識別出真實獎勵到一個常數。此外,我們得出了學習獎勵次優性的有限樣本保證,并在網格世界環境中驗證了我們的結果。

//www.zhuanzhi.ai/paper/d27fc0061d173d3b14cabaa7060943eb

付費5元查看完整內容

圖神經網絡(GNNs)在許多圖學習任務中表現出令人印象深刻的性能。然而,當輸入的圖數據信息弱,即結構不完整、特征不完整和標簽不足時,GNNs的性能可能會下降。大多數先前的研究試圖從具有特定類型弱信息的圖數據中學習,但在處理各種數據缺陷并相互影響的場景時,這些研究效果不佳。為了填補這個空白,我們在這篇論文中,試圖針對弱信息圖學習(GLWI)問題,開發一種有效且原則性的方法。基于我們的實證分析,我們得出了解決GLWI問題的兩個設計重點,即使GNNs能夠進行長距離傳播,并允許信息傳播到那些與最大連接組件隔離的漂泊節點。據此,我們提出了D2PT,一種雙通道GNN框架,它不僅在具有不完整結構的輸入圖上執行長距離信息傳播,而且還在編碼全局語義相似性的全局圖上執行信息傳播。我們進一步開發了一個原型對比對齊算法,它將從兩個通道中學到的類級原型進行對齊,以便兩種不同的信息傳播過程可以相互受益,最終學習的模型可以很好地處理GLWI問題。在八個真實世界的基準數據集上的大量實驗表明,我們提出的方法在各種GLWI場景中都表現出了有效性和效率。

付費5元查看完整內容

許多現有的模仿學習數據集是從多個演示者那里收集的,每個演示者在環境的不同部分具有不同的專長。然而,標準的模仿學習算法通常將所有演示者視為同質的,而不考慮他們的專業知識,吸收任何次優演示者的弱點。在這項工作中,我們表明,在演示者專業知識上的無監督學習可以導致模仿學習算法性能的持續提高。我們根據經驗豐富的策略和演示者的專業水平,開發和優化一個聯合模型。這使得我們的模型能夠從最優行為中學習,并過濾掉每個演示者的次優行為。我們的模型學習了一個單一的策略,這個策略甚至可以超過最好的演示者,并且可以用來評估任何狀態下任何演示者的專業知識。我們闡述了我們在Robomimic和離散環境(如MiniGrid和國際象棋)中對真實機器人連續控制任務的研究結果,在23個設置中有21個優于競爭方法,在最終獎勵方面平均提高7%,最高提高60%。

付費5元查看完整內容

人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。

付費5元查看完整內容

大型基于Transformer的模型在各種自然語言處理和計算機視覺任務中表現出優越的性能。然而,這些模型包含大量的參數,這限制了它們在真實應用中的部署。為了減少模型的大小,研究人員根據權重的重要性評分對這些模型進行修剪。然而,這些分數通常是在訓練過程中的小批量估計,由于小批量抽樣和復雜的訓練動態,這帶來了很大的可變性/不確定性。由于這種不確定性,常用的修剪方法會對一些關鍵權重進行修剪,使得訓練不穩定,不利于泛化。為了解決這一問題,我們提出了PLATON算法,該算法通過重要性估計的置信上限(upper confidence bound, UCB)來捕捉重要性得分的不確定性。特別是對于重要性得分低但不確定性高的權重,PLATON傾向于保留它們并探索它們的容量。我們在自然語言理解、問題回答和圖像分類等多個基于transformer的模型上進行了大量實驗,以驗證PLATON的有效性。結果表明,在不同的稀疏度水平下,PLATON算法均有顯著的改進。 //arxiv.org/abs/2206.12562

付費5元查看完整內容

Transformer在學習視覺和語言表示方面取得了巨大的成功,這在各種下游任務中都是通用的。在視覺控制中,學習可在不同控制任務間遷移的可遷移狀態表示對于減少訓練樣本的大小具有重要意義。然而,將Transformer移植到采樣高效的視覺控制仍然是一個具有挑戰性和未解決的問題。為此,我們提出了一種新穎的控制Transformer(CtrlFormer),它具有許多現有技術所沒有的吸引人的優點。首先,CtrlFormer在不同控制任務之間聯合學習視覺令牌和策略令牌之間的自注意力機制,可以在不發生災難性遺忘的情況下學習和遷移多任務表示。其次,我們精心設計了一個對比強化學習范式來訓練CtrlFormer,使其能夠達到較高的樣本效率,這在控制問題中是非常重要的。例如,在DMControl基準測試中,不像最近的先進方法在使用100k樣本遷移學習后在“Cartpole”任務中產生零分而失敗,CtrlFormer可以在僅使用100k樣本的情況下獲得769±34的最先進的分數,同時保持之前任務的性能。代碼和模型發布在我們的項目主頁上。

//www.zhuanzhi.ai/paper/9692ae63f6623f9fc8ad4d18583f4002

付費5元查看完整內容

近年來,Transformer架構和變體在許多機器學習任務中取得了顯著的成功。這種成功本質上與處理長序列的能力以及注意力機制中上下文相關的權重的存在有關。我們認為這些能力符合元強化學習算法的核心作用。事實上,元強化學習代理需要從一系列軌跡推斷任務。此外,它需要一個快速適應策略來適應新的任務,這可以通過使用自我注意機制來實現。在這項工作中,我們提出了TrMRL(transformer 元強化學習),一個元強化學習l代理,模仿記憶恢復機制使用transformer 架構。它將最近過去的工作記憶聯系起來,遞歸地通過transformer層建立情景記憶。我們展示了自注意力計算出一種共識表示,在每一層將貝葉斯風險降到最低,并提供了有意義的特征來計算最佳行動。我們在運動和靈巧操作的高維連續控制環境中進行了實驗。結果表明,在這些環境中,與基線相比,TrMRL具有可比或更好的漸近性能、樣本效率和分布外泛化。

//www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

付費5元查看完整內容

模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。

//www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa

付費5元查看完整內容

促進行為多樣性對于解決具有非傳遞性的動態博弈至關重要,因為這些博弈的策略存在周期性,而且沒有一致的贏家(例如,剪刀石頭布)。然而,在定義多樣性和構建具有多樣性意識的學習動態方面缺乏嚴格的處理。這項工作提供了游戲中行為多樣性的幾何解釋,并引入了一種基于決定點過程(DPP)的新的多樣性度量。通過將多樣性度量納入最佳響應動態,我們開發了多樣化的策略空間響應機制,用于解決正常形式的博弈和開放式博弈。我們證明了不同最佳響應的唯一性和我們算法在兩人博弈上的收斂性。重要的是,我們證明了最大化基于DPP的多樣性度量保證了擴大由代理策略混合跨越的凸多面體。為了驗證我們的多樣性感知求解器,我們在數十個顯示出強非傳遞性的博弈上進行了測試。結果表明,通過找到有效和多樣化的策略,可以實現比最先進的求解器更低的可利用性。

//www.zhuanzhi.ai/paper/92bae43a935a4cb28d57af4652726ba7

付費5元查看完整內容
北京阿比特科技有限公司