亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議,也是CCF-A類學術會議。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,錄用率為21.94%。

深度強化學習(DRL)智能體通常對其訓練環境中看不到的視覺變化敏感。為了解決這個問題,我們利用RL的順序特性來學習穩健的表示,這種表示只編碼來自基于無監督多視圖設置的觀察的任務相關信息。具體地說,我們為時間數據引入了一個新的多視圖信息瓶頸(MIB)目標的對比版本。我們用這個輔助目標從像素訓練RL智能體來學習魯棒的表示,它可以壓縮與任務無關的信息,并可以預測與任務相關的動態。這種方法使我們能夠訓練出高性能的策略,這些策略能夠抵御視覺干擾,并能夠很好地推廣到看不見的環境中。我們證明,當背景被自然視頻取代時,我們的方法可以在DeepMind控制套件中不同的視覺控制任務集上實現SOTA性能。此外,我們還展示了在Procgen基準測試中,我們的方法優于已建立的基線,可以泛化到看不見的環境。我們的代碼是開源的,可以在//github上找到。com/BU-DEPEND-Lab/DRIBO。

付費5元查看完整內容

最近的工作表明,離線強化學習(RL)可以被表述為一個序列建模問題(Chen et al., 2021; Janner et al., 2021),并通過類似于大規模語言建模的方法解決。然而,RL的任何實際實例還涉及到一個在線組件,其中在被動離線數據集上預訓練的策略通過與環境的特定任務交互進行微調。我們提出了在線決策Transformers (ODT),這是一種基于序列建模的RL算法,在一個統一的框架中融合了離線預訓練和在線微調。我們的框架使用序列級熵正則化器與自回歸建模目標相結合,用于樣本高效的探索和微調。根據經驗,我們表明,ODT在D4RL基準測試的絕對性能方面可以與最先進的技術相媲美,但在微調過程中獲得的收益要顯著得多。 //www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1

付費5元查看完整內容

我們研究離線元強化學習,這是一種實用的強化學習范式,從離線數據中學習以適應新的任務。離線數據的分布由行為策略和任務共同決定。現有的離線元強化學習算法無法區分這些因素,導致任務表示對行為策略的變化不穩定。為了解決這個問題,我們提出了一個任務表示的對比學習框架,該框架對訓練和測試中的行為策略分布不匹配具有魯棒性。我們設計了一個雙層編碼器結構,使用互信息最大化來形式化任務表示學習,導出了一個對比學習目標,并引入了幾種方法來近似負對的真實分布。在各種離線元強化學習基準上的實驗表明,我們的方法比以前的方法更有優勢,特別是在泛化到非分布行為策略上。代碼可以在//github.com/PKU-AI-Edge/CORRO上找到。

付費5元查看完整內容

近年來,Transformer架構和變體在許多機器學習任務中取得了顯著的成功。這種成功本質上與處理長序列的能力以及注意力機制中上下文相關的權重的存在有關。我們認為這些能力符合元強化學習算法的核心作用。事實上,元強化學習代理需要從一系列軌跡推斷任務。此外,它需要一個快速適應策略來適應新的任務,這可以通過使用自我注意機制來實現。在這項工作中,我們提出了TrMRL(transformer 元強化學習),一個元強化學習l代理,模仿記憶恢復機制使用transformer 架構。它將最近過去的工作記憶聯系起來,遞歸地通過transformer層建立情景記憶。我們展示了自注意力計算出一種共識表示,在每一層將貝葉斯風險降到最低,并提供了有意義的特征來計算最佳行動。我們在運動和靈巧操作的高維連續控制環境中進行了實驗。結果表明,在這些環境中,與基線相比,TrMRL具有可比或更好的漸近性能、樣本效率和分布外泛化。

//www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

付費5元查看完整內容

什么對對比學習很重要?我們認為對比學習在很大程度上依賴于有信息量的特征,或“困難的”(正例或負例)特征。早期的方法通過應用復雜的數據增強和大批量或內存庫來包含更多有信息量的特征,最近的工作設計了精細的采樣方法來探索有信息量的特征。探索這些特征的關鍵挑戰是源多視圖數據是通過應用隨機數據增強生成的,這使得始終在增強數據中添加有用信息是不可行的。因此,從這種增強數據中學習到的特征的信息量是有限的。**在本文中,我們提出直接增強潛在空間中的特征,從而在沒有大量輸入數據的情況下學習判別表示。**我們執行元學習技術來構建增強生成器,通過考慮編碼器的性能來更新其網絡參數。然而,輸入數據不足可能會導致編碼器學習坍塌的特征,從而導致增強生成器出現退化的情況。我們在目標函數中進一步添加了一個新的邊緣注入正則化,以避免編碼器學習退化映射。為了在一個梯度反向傳播步驟中對比所有特征,我們采用了優化驅動的統一對比損失,而不是傳統的對比損失。根據實驗驗證,我們的方法在幾個基準數據集上獲得了最先進的結果。

//www.zhuanzhi.ai/paper/31925f8729fad66bf497d7f85ba17dd6

付費5元查看完整內容

我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。

//www.zhuanzhi.ai/paper/9c5c176e0af7fe0b4b3c87ef99cd157c

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

模仿學習試圖通過利用專家行為來規避為訓練主體設計適當的獎勵功能的困難。在以Markov Decision Processes (MDP)建模的環境中,大多數現有的模仿算法都取決于在同一MDP中是否有專家演示,而在該MDP中要學習新的模仿策略。在本文中,我們研究了當專家和代理MDP存在差異時如何模擬任務的問題。這些跨領域的差異可能包括不同的動力學、觀點或形態;我們提出了一個新的框架來學習這些領域的響應。重要的是,與之前的工作相比,我們使用只包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用狀態空間和領域未知的潛在空間上的循環一致性約束來做到這一點。此外,我們通過一個歸一化的位置估計函數加強狀態的時間位置的一致性,以對齊兩個領域的軌跡。一旦找到了這種對應關系,我們就可以直接將一個領域的演示轉移到另一個領域,并將其用于模仿。在許多具有挑戰性的領域進行的實驗證明了我們的方法的有效性。

//www.zhuanzhi.ai/paper/6e5467bc6d82cc1e9e3236f5e44e08a4

付費5元查看完整內容

少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。

//arxiv.org/abs/2105.07029

付費5元查看完整內容
北京阿比特科技有限公司