亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。

//www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa

付費5元查看完整內容

相關內容

在現實世界中,存在許多難以用數學方法指定的約束條件。然而,對于強化學習(RL)的現實部署來說,RL agent意識到這些約束條件是至關重要的,這樣它們才能安全地行動。在這項工作中,我們考慮了學習約束的問題,從一個遵守約束的行為的示范。我們通過實驗驗證了我們的方法,并證明了我們的框架能夠成功地學習agent所尊重的最有可能的約束。我們進一步證明,這些習得的約束是可轉移到新個體的,這些新個體可能具有不同的形態和/或獎賞功能。在這方面,之前的工作要么主要局限于表格(離散)設置、特定類型的約束,要么假設環境的過渡動力學。相比之下,我們的框架能夠在完全無模型的環境中學習高維中的任意文本{馬爾可夫}約束。代碼可在:\url{//github.com/shehryar-malik/icrl}。

付費5元查看完整內容

模仿學習試圖通過利用專家行為來規避為訓練主體設計適當的獎勵功能的困難。在以Markov Decision Processes (MDP)建模的環境中,大多數現有的模仿算法都取決于在同一MDP中是否有專家演示,而在該MDP中要學習新的模仿策略。在本文中,我們研究了當專家和代理MDP存在差異時如何模擬任務的問題。這些跨領域的差異可能包括不同的動力學、觀點或形態;我們提出了一個新的框架來學習這些領域的響應。重要的是,與之前的工作相比,我們使用只包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用狀態空間和領域未知的潛在空間上的循環一致性約束來做到這一點。此外,我們通過一個歸一化的位置估計函數加強狀態的時間位置的一致性,以對齊兩個領域的軌跡。一旦找到了這種對應關系,我們就可以直接將一個領域的演示轉移到另一個領域,并將其用于模仿。在許多具有挑戰性的領域進行的實驗證明了我們的方法的有效性。

//www.zhuanzhi.ai/paper/6e5467bc6d82cc1e9e3236f5e44e08a4

付費5元查看完整內容

在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。

//www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694

付費5元查看完整內容

我們研究計算化學中的一個基本問題,即分子構象生成,試圖從二維分子圖中預測穩定的三維結構。現有的機器學習方法通常首先預測原子之間的距離,然后生成滿足這些距離的3D結構,而在3D坐標生成過程中,預測距離中的噪聲可能會導致額外的誤差。本文受傳統分子動力學力場模擬方法的啟發,提出了一種直接估算原子坐標對數密度梯度場的新方法ConfGF。估計的梯度場允許通過朗之萬動力學直接生成穩定的構象。然而,由于梯度場是旋轉平移等變的,因此該問題非常具有挑戰性。我們注意到估計原子坐標的梯度場可以轉化為估計原子間距離的梯度場,因此開發了一種基于最近的基于分數的生成模型的新算法來有效地估計這些梯度。跨多個任務的實驗結果表明,ConfGF顯著優于以前的最先進基線。

//arxiv.org/abs/2105.03902

付費5元查看完整內容

當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。

//www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

付費5元查看完整內容

模仿學習試圖通過利用專家行為來規避在為訓練代理設計適當的獎勵功能方面的困難。由于環境建模為馬爾可夫決策過程(MDP),大多數現有的模仿算法取決于專家演示的可用性,在同一MDP中,一個新的模仿策略是要學習的。本文研究了專家和代理MDP存在差異時如何進行任務模擬的問題。這些領域之間的差異可能包括不同的動態、觀點或形態; 我們提出了一個新的框架來學習通信跨這些領域。重要的是,與之前的工作相比,我們使用僅包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用在狀態空間和領域未知的潛在空間上的周期一致性約束來做到這一點。另外,我們通過一個歸一化的位置估計函數強制狀態的時間位置的一致性,以使兩個區域的軌跡對齊。一旦找到了這種對應關系,我們就可以直接將一個域上的演示轉移到另一個域,并使用它進行模仿。在各種具有挑戰性的領域進行的實驗證明了我們方法的有效性。

付費5元查看完整內容

圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。

//www.zhuanzhi.ai/paper/f415f74f0c50433285945af702223eaf

付費5元查看完整內容

模仿學習(IL)旨在從專家演示中學習一種策略,使學習者和專家行為之間的差異最小化。針對預先確定的差異,提出了不同的模仿學習算法來量化差異。這自然會產生以下問題:給定一組專家演示,哪些分歧可以在更高的數據效率下更準確地恢復專家策略?在這項研究中,我們提出了一種新的生成性對抗模仿學習(GAIL)模型——f-GAIL,它可以自動地從f-divergence族中學習出一個差異度量,并且能夠產生與專家相似行為的策略。與具有各種預定義散度度量的IL基線相比,f-GAIL在6個基于物理的控制任務中學習了更好的策略和更高的數據效率。

//arxiv.org/abs/2010.01207

付費5元查看完整內容
北京阿比特科技有限公司