模仿學習試圖通過利用專家行為來規避為訓練主體設計適當的獎勵功能的困難。在以Markov Decision Processes (MDP)建模的環境中,大多數現有的模仿算法都取決于在同一MDP中是否有專家演示,而在該MDP中要學習新的模仿策略。在本文中,我們研究了當專家和代理MDP存在差異時如何模擬任務的問題。這些跨領域的差異可能包括不同的動力學、觀點或形態;我們提出了一個新的框架來學習這些領域的響應。重要的是,與之前的工作相比,我們使用只包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用狀態空間和領域未知的潛在空間上的循環一致性約束來做到這一點。此外,我們通過一個歸一化的位置估計函數加強狀態的時間位置的一致性,以對齊兩個領域的軌跡。一旦找到了這種對應關系,我們就可以直接將一個領域的演示轉移到另一個領域,并將其用于模仿。在許多具有挑戰性的領域進行的實驗證明了我們的方法的有效性。
在現實世界中,存在許多難以用數學方法指定的約束條件。然而,對于強化學習(RL)的現實部署來說,RL agent意識到這些約束條件是至關重要的,這樣它們才能安全地行動。在這項工作中,我們考慮了學習約束的問題,從一個遵守約束的行為的示范。我們通過實驗驗證了我們的方法,并證明了我們的框架能夠成功地學習agent所尊重的最有可能的約束。我們進一步證明,這些習得的約束是可轉移到新個體的,這些新個體可能具有不同的形態和/或獎賞功能。在這方面,之前的工作要么主要局限于表格(離散)設置、特定類型的約束,要么假設環境的過渡動力學。相比之下,我們的框架能夠在完全無模型的環境中學習高維中的任意文本{馬爾可夫}約束。代碼可在:\url{//github.com/shehryar-malik/icrl}。
通過利用先前學習的任務來加速復雜任務的學習過程一直是強化學習中最具挑戰性的問題之一,尤其是當源任務和目標任務之間的相似性較低時。本文針對深度強化學習中的知識遷移問題,提出了表示與實例遷移(REPAINT)算法。REPAINT 不僅在策略學習中轉移了預先訓練的教師策略的表示,而且還使用基于優勢的經驗選擇方法來轉移在非策略學習中按照教師策略收集的有用樣本。本文在幾個基準任務上的實驗結果表明,在任務相似的一般情況下,REPAINT 顯著減少了總訓練時間。尤其是當源任務與目標任務不同或子任務不同時,REPAINT 在訓練時間減少和返回分數的漸近表現方面都優于其他基線。
論文鏈接: //www.zhuanzhi.ai/paper/0439c2852ae341fff43de69e5c7062ff
最近最優傳輸(OT)理論在機器學習中的幾個應用都依賴于正則化,尤其是熵和Sinkhorn算法。由于矩陣向量乘積在Sinkhorn算法中是普遍存在的,一些工作已經提出使用低秩因子來近似其迭代中出現的核矩陣。另一種方法是在OT問題中考慮的可行耦合集上施加低非負秩約束,不需要對代價或核矩陣進行逼近。這條路線首先由forrow2018探索,他提出了一種為平方歐氏地面成本量身定制的算法,使用了一個代理目標,可以通過正則化的Wasserstein重心機制來解決。在此基礎上,我們引入了一種通用方法,旨在完全通用性地解決具有任意代價的低非負秩約束下的OT問題。我們的算法依賴于低秩耦合的顯式分解,將其作為由公共邊際連接的子耦合因子的乘積; 與NMF方法類似,我們交替更新這些因素。證明了該算法的非漸近平穩收斂性,并通過基準實驗證明了該算法的有效性。
元學習理論的一個關鍵問題是如何理解任務分布對遷移風險的影響,即從未知任務分布中得出的元學習器對新任務的預期錯誤。本文針對高斯噪聲和高斯任務(或參數)分布的固定設計線性回歸問題,給出了任意算法的分布相關的遷移風險下界,同時給出了一種新的,所謂的偏置正則化回歸方法的加權版本能夠將這些下界匹配到一個固定的常數因子。值得注意的是,權重是由高斯任務分布的協方差得到的。總之,我們的結果提供了在這種高斯設置下元學習的困難的精確表征。雖然這個問題設置可能看起來很簡單,但我們證明它足夠豐富,可以統一元學習的“參數共享”和“表示學習”流; 特別地,表示學習是作為任務分布的協方差矩陣未知的特殊情況得到的。在這種情況下,我們提出采用EM方法,這在我們的情況下顯示了有效的更新。本文通過對EM的實證研究完成,實驗結果表明,EM算法可以隨著任務數量的增加而達到下界,同時在表示學習環境中,該算法也能成功地與其他算法相媲美。
論文鏈接://www.zhuanzhi.ai/paper/bbfc8d3f4f1e8d947d1d18dee9aef466
端到端語音識別(Speech Recognition, SR)系統的訓練需要大量的標注數據,這對低資源場景來說是一個挑戰。為此,微軟亞洲研究院的研究員們提出了一種名為 UniSpeech 的方法,能夠同時利用監督數據和無監督數據來學習統一的上下文表示。
圖9:UniSpeech 方法示意圖
如圖9所示,研究員們的模型包含了基于卷積神經網絡(Convolution Neural Network,CNN)的特征提取網絡,基于 Transformer 的上下文網絡和一個特征量化模塊用于學習離散的向量。對于預訓練,研究員們采用了多任務學習的方式;對于標記數據,則指定了兩個訓練目標:第一個是音素級別的 CTC 損失函數,該函數作用于 Transformer 的輸出;第二個是在掩碼上下文表示和離散潛在表示上定義的對比任務,該任務與 wav2vec2.0 相同。CTC 將每個上下文表示與音素標簽對齊,同時,對比損失縮小了離散表示和上下文表示之間的距離。為了進一步明確指導量化器學習 SR 的特定信息,在計算 CTC 損失時,研究員們隨機將一部分 Transformer 輸出,替換為相應時間的離散表示。
在實驗中,研究員們發現這種方法可以激活量化器碼本中的更多碼字。對于那些未標記數據,研究員們只進行了對比學習。在預訓練之后,研究員們固定了特征提取器,并在少量標記的低資源數據上微調了 Transformer 部分。論文在 CommonVoice 數據集上驗證了該方法,如表2-表4所示,UniSpeech 在以下三種設置中,均明顯優于監督遷移學習和無監督對比學習:(1)單一高資源語言設置到單一低資源語言設置(One-to-One)(2)多語言高資源語言到單一低資源語言設置(Many-to-One)(3)多語言高資源語言到多語言低資源語言設置(Many-to-Many)。
模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。
在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。
促進行為多樣性對于解決具有非傳遞性的動態博弈至關重要,因為這些博弈的策略存在周期性,而且沒有一致的贏家(例如,剪刀石頭布)。然而,在定義多樣性和構建具有多樣性意識的學習動態方面缺乏嚴格的處理。這項工作提供了游戲中行為多樣性的幾何解釋,并引入了一種基于決定點過程(DPP)的新的多樣性度量。通過將多樣性度量納入最佳響應動態,我們開發了多樣化的策略空間響應機制,用于解決正常形式的博弈和開放式博弈。我們證明了不同最佳響應的唯一性和我們算法在兩人博弈上的收斂性。重要的是,我們證明了最大化基于DPP的多樣性度量保證了擴大由代理策略混合跨越的凸多面體。為了驗證我們的多樣性感知求解器,我們在數十個顯示出強非傳遞性的博弈上進行了測試。結果表明,通過找到有效和多樣化的策略,可以實現比最先進的求解器更低的可利用性。
當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。
模仿學習試圖通過利用專家行為來規避在為訓練代理設計適當的獎勵功能方面的困難。由于環境建模為馬爾可夫決策過程(MDP),大多數現有的模仿算法取決于專家演示的可用性,在同一MDP中,一個新的模仿策略是要學習的。本文研究了專家和代理MDP存在差異時如何進行任務模擬的問題。這些領域之間的差異可能包括不同的動態、觀點或形態; 我們提出了一個新的框架來學習通信跨這些領域。重要的是,與之前的工作相比,我們使用僅包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用在狀態空間和領域未知的潛在空間上的周期一致性約束來做到這一點。另外,我們通過一個歸一化的位置估計函數強制狀態的時間位置的一致性,以使兩個區域的軌跡對齊。一旦找到了這種對應關系,我們就可以直接將一個域上的演示轉移到另一個域,并使用它進行模仿。在各種具有挑戰性的領域進行的實驗證明了我們方法的有效性。