亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

模仿學習(IL)旨在從專家演示中學習一種策略,使學習者和專家行為之間的差異最小化。針對預先確定的差異,提出了不同的模仿學習算法來量化差異。這自然會產生以下問題:給定一組專家演示,哪些分歧可以在更高的數據效率下更準確地恢復專家策略?在這項研究中,我們提出了一種新的生成性對抗模仿學習(GAIL)模型——f-GAIL,它可以自動地從f-divergence族中學習出一個差異度量,并且能夠產生與專家相似行為的策略。與具有各種預定義散度度量的IL基線相比,f-GAIL在6個基于物理的控制任務中學習了更好的策略和更高的數據效率。

//arxiv.org/abs/2010.01207

付費5元查看完整內容

相關內容

模仿學習是學習嘗試模仿專家行為從而獲取最佳性能的一系列任務。目前主流方法包括監督式模仿學習、隨機混合迭代學習和數據聚合模擬學習等方法。模仿學習(Imitation Learning)背后的原理是是通過隱含地給學習器關于這個世界的先驗信息,比如執行、學習人類行為。在模仿學習任務中,智能體(agent)為了學習到策略從而盡可能像人類專家那樣執行一種行為,它會尋找一種最佳的方式來使用由該專家示范的訓練集(輸入-輸出對)。當智能體學習人類行為時,雖然我們也需要使用模仿學習,但實時的行為模擬成本會非常高。與之相反,吳恩達提出的學徒學習(Apprenticeship learning)執行的是存粹的貪婪/利用(exploitative)策略,并使用強化學習方法遍歷所有的(狀態和行為)軌跡(trajectories)來學習近優化策略。它需要極難的計略(maneuvers),而且幾乎不可能從未觀察到的狀態還原。模仿學習能夠處理這些未探索到的狀態,所以可為自動駕駛這樣的許多任務提供更可靠的通用框架。

我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。

//www.zhuanzhi.ai/paper/9ac766aec437a266e108f8dd71d3ab25

付費5元查看完整內容

神經結構搜索(NAS)旨在以全自動的方式找到表現出色且新穎的神經網絡結構。然而現有的搜索空間設計過度依賴于研究者的專業知識,所涵蓋的神經網絡相對比較單一,導致搜索策略雖然能找到表現不錯的結構,卻無法發現突破性的新型神經網絡。在這篇工作中,我們 1)首次提出了搜索最優的神經網絡結構生成分布(architecturegenerator)而不僅僅是單個神經網絡(single architecture) 的概念,2)并針對這個概念提出了一個全新的,多階層的,基于圖的搜索空間。該搜索空間不但能生成非常多樣化的網絡結構,而且只由幾個超參來定義。這極大減少了結構搜索的維度,使得我們能高效地使用貝葉斯優化作為搜索策略。與此同時,因為我們拓廣了搜索空間(包含眾多性能和存儲需求差異巨大的有效網絡結構),這使得多目標學習在我們的場景下更有意義。我們在六個圖像數據集上驗證了我們方法(NAGO)的高效性, 并展示了我們的方法能找到非常輕便且性能卓越的網絡結構。

//www.zhuanzhi.ai/paper/32eaa4b0ef54865420bd74ec5d831f7c

付費5元查看完整內容

在傳統的強化學習任務中,通常通過計算累積獎賞來學習最優策略(policy),這種方式簡單直接,而且在可以獲得較多訓練數據的情況下有較好的表現。然而在多步決策(sequential decision)中,學習器不能頻繁地得到獎勵,且這種基于累積獎賞及學習方式存在非常巨大的搜索空間。模仿學習(Imitation Learning)背后的原理是是通過隱含地給學習器關于這個世界的先驗信息,就能執行、學習人類行為。在模仿學習任務中,智能體(agent)為了學習到策略從而盡可能像人類專家那樣執行一種行為,它會尋找一種最佳的方式來使用由該專家示范的訓練集(輸入-輸出對)。來自微軟劍橋研究院的KAMIL CIOSEK給了關于《模仿學習》的最新教程,歡迎查看!

付費5元查看完整內容

模仿學習是一種基于專家示教重建期望策略的方法,一直是AI領域的研究熱點。為了提升模仿學習的通用性和在實際工程中的應用,相關的研究方向吸引了大量學術和工業界人士,其中利用多模態模仿學習提升模仿學習效果是重要的方向之一。例如,應用于自動駕駛中的駕駛行為學習,真實駕駛員示教數據由于駕駛技能和行為習慣的多樣性呈現多種模態并服從不同的分布,如果直接利用行為克隆(Behavioral Cloning,BC)或逆向強化學習(Inverse Reinforcement Learning,IRL)容易導致模態坍塌問題(mode collapse problem),因缺乏發現和區分示教數據中的模態變化的能力。為了針對多模態示教數據進行有效的模仿,我們提出了一種基于生成對抗模仿學習(Generative Adversarial Imitation Learning,GAIL)的多模態模仿學習算法框架(圖3),稱為Triple-GAIL,通過對模態選擇和行為模仿聯合學習并利用模態選擇器增量式生成數據促進模態區分優化模仿效果。Triple-GAIL在GAIL的基礎上增加了一個模態選擇器(Selector)用于區分多個模態,并和生成器(Generator)一起持續生成狀態-動作-模態數據序列,達到數據增廣的目的,而判別器(Discriminator)用于區分狀態-動作-模態數據序列是否來自于專家示教數據。與已有多模態模仿學習方法相比,Triple-GAIL既可以直接通過指定模態生成行為軌跡,也可以直接利用模態選擇器基于歷史數據判斷模態。

付費5元查看完整內容

自回歸文本生成模型通常側重于局部的流暢性,在長文本生成過程中可能導致語義不一致。此外,自動生成具有相似語義的單詞是具有挑戰性的,而且手工編寫的語言規則很難應用。我們考慮了一個文本規劃方案,并提出了一個基于模型的模仿學習方法來緩解上述問題。具體來說,我們提出了一種新的引導網絡來關注更長的生成過程,它可以幫助下一個單詞的預測,并為生成器的優化提供中間獎勵。大量的實驗表明,該方法具有較好的性能。

付費5元查看完整內容

論文題目: A Divergence Minimization Perspective on Imitation Learning Methods

論文摘要: 在許多情況下,希望通過專家演示的學習或引導來學習決策和控制策略。這種模仿學習(IL)框架下最常見的方法是行為克隆(BC)和逆強化學習(IRL)。IRL的最新方法已經證明了可以通過訪問非常有限的一組演示來學習有效策略的能力,一種情況BC方法經常失敗。不幸的是,由于變化的多種因素,直接比較這些方法并不能提供足夠的直覺來理解這種性能差異。在這項工作中,我們提出了基于散度最小化的IL算法的統一概率觀點。我們提出了f-MAX,這是AIRL的一種泛化概括,它是一種最新的IRL方法。 f-MAX使我們能夠關聯以前的IRL方法,例如GAIL和AIRL,并了解它們的算法特性。通過散度最小化的鏡頭,我們可以找出BC和成功的IRL方法之間的差異,并在模擬的高維連續控制域上經驗地評估這些細微差別。我們的發現最終確定了IRL的州際匹配目標是其卓越績效的最大貢獻。最后,我們將對IL方法的新理解應用于狀態-邊際匹配的問題,其中我們證明了在模擬推臂環境中,我們可以使用簡單的手動指定狀態分布來教給代理各種行為,而無需獎勵函數或專家。

論文作者: Richard Zemel ,Vector人工智能研究所的聯合創始人兼研究總監,多倫多大學機器學習工業研究主席,加拿大高級研究所高級研究員,研究興趣包括:圖像和文本的生成模型,基于圖的機器學習,少量數據學習,詞典,單詞列表和公平性。

github鏈接: //github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md

付費5元查看完整內容
北京阿比特科技有限公司