我們提出了一種新算法,跨情境課程(CEC),以提高Transformer智能體的學習效率和泛化能力。CEC的核心是將跨情境的經驗置入Transformer的上下文中,從而形成課程的基礎。通過順序地構建在線學習試驗和混合質量的示范,CEC構建了封裝學習進展和跨情境中的熟練度提高的課程。這種協同作用結合了Transformer模型的強大模式識別能力,從而提供了一個強大的跨情境關注機制。在兩個代表性的場景下展示了CEC的有效性:一個涉及多任務強化學習與離散控制,如在DeepMind Lab中,課程捕捉到在個體和逐漸復雜的設置中的學習進展;另一個涉及模仿學習與混合質量的數據進行連續控制,如在RoboMimic中,課程捕捉到示范者專業知識的提高。在所有情況下,由CEC產生的策略都表現出卓越的性能和強大的泛化能力。為了促進Transformer智能體學習的研究,代碼已在項目網站cec-agent.github.io上開源。
由于離線多智能體強化學習面臨著分布偏移問題和多智能體環境中常見的高維度問題的耦合效應,所以非常具有挑戰性,導致動作超出分布(OOD)和價值過高估計現象極為嚴重。為了減輕這個問題,我們提出了一種新的多智能體離線RL算法,名為CounterFactual Conservative Q-Learning(CFCQL),用于進行保守的價值估計。CFCQL不是將所有智能體視為高維單一實體并直接對其應用單一智能體方法,而是以反事實的方式為每個智能體分別計算保守正則化,然后線性組合它們,以實現整體保守價值估計。我們證明,盡管它仍然具有低估特性和單一智能體保守方法的性能保證,但引入的正則化和安全政策改進邊界獨立于智能體數量,因此理論上優于上述直接處理方法,特別是當智能體數量較大時。我們還在包括離散和連續動作設置在內的四個環境中進行了實驗,這些環境包括現有的和我們制作的數據集,實驗表明CFCQL在大多數數據集上勝過現有方法,甚至在其中一些數據集上以顯著優勢勝出。
在這篇論文中,我們提出了用于學習和應用多源知識圖譜(KG)嵌入的“聯合預訓練和局部重訓”框架。我們的動機是,不同的KG包含可以改進KG嵌入和下游任務的互補信息。我們在鏈接的多源KG上預訓練一個大型的教師KG嵌入模型,并將知識蒸餾到針對特定任務的KG的學生模型中。為了實現不同KG之間的知識轉移,我們使用實體對齊來構建一個連接預訓練KG和目標KG的鏈接子圖。這個鏈接子圖被重新訓練,進行從教師到學生的三級知識蒸餾,即特征知識蒸餾,網絡知識蒸餾和預測知識蒸餾,以生成更有表現力的嵌入。教師模型可以被重復用于不同的目標KG和任務,無需從頭開始訓練。我們進行了大量的實驗來展示我們的框架的有效性和效率。
//www.zhuanzhi.ai/paper/7c51aae482b4dfe47e2d387915dbcf24
多任務模仿學習 (MIL) 旨在基于多任務專家演示訓練能夠執行任務分布的策略,這對通用機器人至關重要。現有的 MIL 算法在復雜長水平任務上的數據效率低下且表現不佳。我們開發了多任務層次對抗逆強化學習 (MH-AIRL) 以學習層次結構化的多任務策略,這對于具有長視野的組合任務更有利,并且通過識別和跨任務傳輸可重復使用的基本技能,具有更高的專家數據效率。為實現這一目標,MH-AIRL 有效地綜合了基于上下文的多任務學習、AIRL (一種 IL 方法) 和層次策略學習。此外,MH-AIRL 可以應用于沒有任務或技能注釋的演示 (即,只有狀態動作對),這在實踐中更易獲取。MH-AIRL 的每個模塊都提供了理論依據,而在挑戰性的多任務設置上的評估證明,與 SOTA MIL 基線相比,MH-AIRL 學到的多任務策略具有優越的性能和可轉移性。
在協同多智能體強化學習中,集中訓練和分散執行(CTDE)取得了顯著的成功。IGM (Individual Global Max)分解是CTDE的重要組成部分,用來衡量局部策略與聯合策略之間的一致性。大多數基于IGM的研究關注于如何建立這種一致的關系,但很少關注檢查IGM的潛在缺陷。在這項工作中,我們揭示了IGM條件是一個有損分解,并且有損分解的誤差會在基于超網絡的方法中積累。針對上述問題,本文提出采用模仿學習策略將有損分解與Bellman迭代分離,從而避免誤差累積。在零視點的《星際爭霸》多智能體挑戰賽基準問題上,對所提策略進行了理論驗證和實證驗證。結果也證實了提出的方法優于最先進的基于IGM的方法。//www.zhuanzhi.ai/paper/acf4a4b734b3127ef7ad948ba9fdda23
人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。
會話情緒識別(ERC)的目標是檢測每個話語的情緒標簽。最近的研究已經證明,以有意義的順序輸入訓練實例,而不是隨機考慮它們,可以提高模型的性能,基于此,我們提出了一個ercorient混合課程學習框架。我們的框架包括兩個課程:(1)對話水平課程(CC);(2)話語水平課程(UC)。在CC中,我們基于對話中的“情感轉移”頻率構建難度測量器,然后根據難度測量器返回的難度分數將對話安排在“易到難”模式中。UC則從情緒相似度的角度來實現,逐步增強了模型識別困惑情緒的能力。在提出的模型無關的混合課程學習策略下,我們觀察到現有的各種ERC模型的顯著性能提升,并且我們能夠在四個公共ERC數據集上實現新的最先進的結果。
現代神經網絡體系結構可以利用大量的數據來很好地泛化訓練分布。然而,對于從看不見的但相關的分布中提取的數據,它們的系統泛化能力較差,這需要組合推理和知識重用。在這項工作中,我們提出了神經解釋器,這是一種將自注意網絡中的推理分解為一個模塊系統的架構,我們稱之為函數。模型的輸入以端到端學習的方式通過一系列函數進行路由。該體系結構可以靈活地沿寬度和深度組合計算,易于訓練后的能力擴展。為了證明神經解釋器的通用性,我們在兩個不同的環境中評估它: 圖像分類和視覺抽象推理。在前者中,我們證明了神經解釋器在使用更少參數的情況下,與視覺transformer 的表現相當,同時可以以樣本有效的方式轉移到新任務中。在后者中,我們發現神經解釋器在系統概括方面與最先進的技術相比具有競爭力。
我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。
當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。
遷移學習技術在難以獲得大量高質量注釋數據的NLP任務中特別有用。目前的方法在對下游任務進行微調之前,直接對域內文本采用預先訓練好的語言模型(LM)。我們展示了使用特定于領域的術語擴展LM的詞匯表會帶來進一步的收獲。在更大的效果上,我們利用未標記數據中的結構創建輔助合成任務,這有助于LM向下游任務轉移。在事先訓練好的Roberta-large LM系統上逐步應用這些方法,并在IT領域的三個任務上顯示出可觀的性能提升:閱讀理解、文檔排序和重復問題檢測。