亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。

//www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

付費5元查看完整內容

相關內容

模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。

//www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa

付費5元查看完整內容

模仿學習的目的是從人類專家的演示或人工創造的代理中提取知識,以復制他們的行為。它已經成功在視頻游戲、自動駕駛、機器人模擬和物體操縱等領域得到了證明。然而,這種復制過程可能會有問題,比如性能高度依賴于演示質量,并且大多數經過訓練的代理在特定于任務的環境中只能表現良好。在本研究中,我們對模仿學習進行了系統的回顧。我們首先介紹了模仿學習的發展歷史和初步的背景知識,然后介紹了模仿學習的不同分類和該領域的關鍵里程碑。然后,我們詳細介紹學習策略中的挑戰,并通過次優演示、語音指令和其他相關優化方案提供學習策略的研究機會。

//www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654

引言

模仿學習(IL),也被稱為示范學習,通過模仿行為以一種相對簡單的方法作出反應。它提取有用的知識來重現環境中的行為,類似于演示。人工智能的存在促進了自主控制系統的研究和人工智能代理的設計,因為它在現實場景中展示了良好的前景和訓練策略的效率。深度學習、在線學習、生成對抗網絡[23]等機器學習領域的最新發展使IL得到了進一步的改進,不僅緩解了現有的動態環境、頻繁查詢、高維計算等問題,而且實現了更快的收斂。更魯棒的噪聲和更有效的樣本學習過程。這些改進促進了連續和離散控制領域的應用。例如,在連續控制領域,模仿學習可以應用于自動駕駛汽車操縱,在動態環境中重現適當的駕駛行為[11,13,14,22,31,52,53,80]。此外,模仿學習也應用于機器人,從基本的抓取和放置到手術輔助[21,37,43,46,48,49,67,79]。在離散控制領域,模仿學習對博弈論[5,19,24,55]、導航任務[28,62,76]、緩存管理[38]等領域做出了貢獻。

值得注意的是,可以從人類專家或人工代理那里收集演示。在大多數情況下,演示是從人類專家那里收集的,但也有一些研究通過另一個人工代理獲得演示。例如,Chen等人[13]提出了一個師生訓練結構,他們用額外的信息訓練一個教師代理,并使用這個經過訓練的代理來教導一個沒有額外信息的學生代理。這個過程不是多余的,使用來自其他代理的演示有助于訓練過程,因為學生代理可以通過經常查詢訓練過的代理來推出自己的策略,并從類似的配置中學習策略,而經典IL需要克服運動學轉移問題。

IL與強化學習(RL)有著密切的關系。IL和RL通常都解決了馬爾科夫決策過程下的問題,RL中的TRPO[60]等改進也可以使IL受益,但它們以不同的方式再現了行為。與RL相比,IL更高效、更易訪問和人機交互。在效率方面,與嘗試和錯誤相比,IL代理通常花費更少的時間來通過使用演示作為指導產生所需的行為。就可訪問性而言,在RL方法中實現自主行為需要熟悉問題設置的人類專家,以及硬編碼的獎勵功能,這些功能在某些情況下可能是不切實際的和非直覺的。例如,人們幾乎是通過演示而不是數學函數來學習游泳和走路的,而且很難用數學來表述這些行為。IL還促進跨學科的集成,編程新手專家可以為設計和評估范例做出貢獻。在人機交互方面,IL通過提供演示或偏好來加速學習過程,突出了人類的影響力,有效地利用和轉移專家的知識。盡管IL具有上述優點,但它也面臨著挑戰和機遇,這一內容將在下面的章節中詳細介紹。

  • 本研究在行為克隆vs.逆強化學習和無模型vs.基于模型三個類別下進行了模仿學習的研究。然后將IL研究歸納為兩個新的類別,即低級任務與高級任務,BC、IRL與對抗性結構化IL,更適應IL的發展。

  • 第2部分全面描述了IL的演變,第3部分介紹了基本知識,第5部分介紹了最常見的學習框架。

  • 該綜述提出了IL的剩余挑戰,如學習不同的行為,利用各種演示和更好的表現。然后從遷移學習和重要抽樣等方面探討了未來的研究方向。

付費5元查看完整內容

Density Constrained Reinforcement Learning

Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan

//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821

我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。

付費5元查看完整內容

在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。

//www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694

付費5元查看完整內容

促進行為多樣性對于解決具有非傳遞性的動態博弈至關重要,因為這些博弈的策略存在周期性,而且沒有一致的贏家(例如,剪刀石頭布)。然而,在定義多樣性和構建具有多樣性意識的學習動態方面缺乏嚴格的處理。這項工作提供了游戲中行為多樣性的幾何解釋,并引入了一種基于決定點過程(DPP)的新的多樣性度量。通過將多樣性度量納入最佳響應動態,我們開發了多樣化的策略空間響應機制,用于解決正常形式的博弈和開放式博弈。我們證明了不同最佳響應的唯一性和我們算法在兩人博弈上的收斂性。重要的是,我們證明了最大化基于DPP的多樣性度量保證了擴大由代理策略混合跨越的凸多面體。為了驗證我們的多樣性感知求解器,我們在數十個顯示出強非傳遞性的博弈上進行了測試。結果表明,通過找到有效和多樣化的策略,可以實現比最先進的求解器更低的可利用性。

//www.zhuanzhi.ai/paper/92bae43a935a4cb28d57af4652726ba7

付費5元查看完整內容

模仿學習試圖通過利用專家行為來規避在為訓練代理設計適當的獎勵功能方面的困難。由于環境建模為馬爾可夫決策過程(MDP),大多數現有的模仿算法取決于專家演示的可用性,在同一MDP中,一個新的模仿策略是要學習的。本文研究了專家和代理MDP存在差異時如何進行任務模擬的問題。這些領域之間的差異可能包括不同的動態、觀點或形態; 我們提出了一個新的框架來學習通信跨這些領域。重要的是,與之前的工作相比,我們使用僅包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用在狀態空間和領域未知的潛在空間上的周期一致性約束來做到這一點。另外,我們通過一個歸一化的位置估計函數強制狀態的時間位置的一致性,以使兩個區域的軌跡對齊。一旦找到了這種對應關系,我們就可以直接將一個域上的演示轉移到另一個域,并使用它進行模仿。在各種具有挑戰性的領域進行的實驗證明了我們方法的有效性。

付費5元查看完整內容

圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。

//www.zhuanzhi.ai/paper/f415f74f0c50433285945af702223eaf

付費5元查看完整內容

模仿學習(IL)旨在從專家演示中學習一種策略,使學習者和專家行為之間的差異最小化。針對預先確定的差異,提出了不同的模仿學習算法來量化差異。這自然會產生以下問題:給定一組專家演示,哪些分歧可以在更高的數據效率下更準確地恢復專家策略?在這項研究中,我們提出了一種新的生成性對抗模仿學習(GAIL)模型——f-GAIL,它可以自動地從f-divergence族中學習出一個差異度量,并且能夠產生與專家相似行為的策略。與具有各種預定義散度度量的IL基線相比,f-GAIL在6個基于物理的控制任務中學習了更好的策略和更高的數據效率。

//arxiv.org/abs/2010.01207

付費5元查看完整內容

逆合成設計是有機化學的關鍵問題之一。由于在反應的每一步理論上都有成千上萬種可能的轉化導致設計的搜索空間是巨大的,即使是有經驗的化學家處理這個問題也是十分棘手的。

單步逆合成預測對給定產物可能的直接反應物列表的預測,盡管單步合成法不斷得到改進,但現實世界中的大多數分子都無法在一步之內合成。合成步驟的數量可以達到60個甚至更多。單步逆合成法面臨著巨大的搜索空間和性能測量及基準測試模糊性的挑戰,為實現多步逆合成設計奠定基礎。

在本文中,作者提出了一種新的基于學習的逆合成設計算法Retro*來學習以前的設計經驗,該算法框架可以歸納出保證最優解的搜索算法。另外,作者提出了一種構建合成路線數據集的方法,用于對多步合成設計方法進行定量分析。其設計算法是通用的,它也可以應用于其他機器學習問題,如定理證明和分層任務設計,實驗結果表明該算法的性能大大優于現有方法。

//www.zhuanzhi.ai/paper/84dcdb8686f27852f81a0a23d48ce2dd

付費5元查看完整內容
北京阿比特科技有限公司