模仿學習試圖通過利用專家行為來規避在為訓練代理設計適當的獎勵功能方面的困難。由于環境建模為馬爾可夫決策過程(MDP),大多數現有的模仿算法取決于專家演示的可用性,在同一MDP中,一個新的模仿策略是要學習的。本文研究了專家和代理MDP存在差異時如何進行任務模擬的問題。這些領域之間的差異可能包括不同的動態、觀點或形態; 我們提出了一個新的框架來學習通信跨這些領域。重要的是,與之前的工作相比,我們使用僅包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用在狀態空間和領域未知的潛在空間上的周期一致性約束來做到這一點。另外,我們通過一個歸一化的位置估計函數強制狀態的時間位置的一致性,以使兩個區域的軌跡對齊。一旦找到了這種對應關系,我們就可以直接將一個域上的演示轉移到另一個域,并使用它進行模仿。在各種具有挑戰性的領域進行的實驗證明了我們方法的有效性。
模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。
最近的對比表示學習方法依賴于估計一個上下文的多個視圖之間的互信息。例如,我們可以通過應用數據增強獲得給定圖像的多個視圖,或者我們可以將序列分割成包含序列中某個步驟的過去和未來的視圖。MI的下界比較容易優化,但當評估大量的MI有強烈的低估偏見。我們提出將完整的MI估計問題分解為一個較小的估計問題。這個表達式包含一個無條件和條件MI項的和,每個測量總的MI的適度塊,這有助于通過對比界近似。為了使和最大化,我們給出了條件MI的一個比較下界,它可以有效地逼近。我們將我們的一般方法稱為互信息分解估計(DEMI)。我們證明了DEMI可以捕獲比標準的非分解對比界在綜合設置更大數量的MI,并在視覺域的對話生成學習更好的表示。
Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。
在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。
基于注意力的神經網絡已經在許多任務上取得了最先進的成果。這類模型大多采用確定性注意力,而隨機注意力由于優化困難或模型設計復雜,研究較少。本文介紹了貝葉斯注意力信念網絡,該網絡通過將非歸一化的注意力權值建立在伽馬分布的層次上來構造解碼器網絡,通過將具有確定性-向上-隨機-向下結構的Weibull分布疊加來近似后變分布來構造編碼器網絡。所得到的自編碼網絡可以以一種變分下界的可微方式進行優化。任何具有確定性注意力的模型,包括預訓練過的模型,都可以簡單地轉換為所提出的貝葉斯注意力信念網絡。在各種語言理解任務中,我們證明了我們的方法在準確性、不確定性估計、跨域泛化和對抗攻擊的魯棒性方面優于確定性注意和最新的隨機注意力。我們進一步證明了該方法在神經機器翻譯和視覺問答方面的普遍適用性,顯示了將該方法整合到各種注意力相關任務中的巨大潛力。
我們研究計算化學中的一個基本問題,即分子構象生成,試圖從二維分子圖中預測穩定的三維結構。現有的機器學習方法通常首先預測原子之間的距離,然后生成滿足這些距離的3D結構,而在3D坐標生成過程中,預測距離中的噪聲可能會導致額外的誤差。本文受傳統分子動力學力場模擬方法的啟發,提出了一種直接估算原子坐標對數密度梯度場的新方法ConfGF。估計的梯度場允許通過朗之萬動力學直接生成穩定的構象。然而,由于梯度場是旋轉平移等變的,因此該問題非常具有挑戰性。我們注意到估計原子坐標的梯度場可以轉化為估計原子間距離的梯度場,因此開發了一種基于最近的基于分數的生成模型的新算法來有效地估計這些梯度。跨多個任務的實驗結果表明,ConfGF顯著優于以前的最先進基線。
促進行為多樣性對于解決具有非傳遞性的動態博弈至關重要,因為這些博弈的策略存在周期性,而且沒有一致的贏家(例如,剪刀石頭布)。然而,在定義多樣性和構建具有多樣性意識的學習動態方面缺乏嚴格的處理。這項工作提供了游戲中行為多樣性的幾何解釋,并引入了一種基于決定點過程(DPP)的新的多樣性度量。通過將多樣性度量納入最佳響應動態,我們開發了多樣化的策略空間響應機制,用于解決正常形式的博弈和開放式博弈。我們證明了不同最佳響應的唯一性和我們算法在兩人博弈上的收斂性。重要的是,我們證明了最大化基于DPP的多樣性度量保證了擴大由代理策略混合跨越的凸多面體。為了驗證我們的多樣性感知求解器,我們在數十個顯示出強非傳遞性的博弈上進行了測試。結果表明,通過找到有效和多樣化的策略,可以實現比最先進的求解器更低的可利用性。
當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。
少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。