亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

用于解決模仿學習中因果混淆問題的察覺對象的正則化方法

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning

論文摘要:行為克隆是一種有效的從專家示范中學習策略的方法。然而,行為克隆常會產生因果混淆問題,即學到的策略關注的是專家動作的一個明顯的結果而非專家動作的因(即專家策略所關注的對象)。針對此問題,本文提出了一個察覺對象的正則化方法,主要思想是鼓勵待學策略去均勻地關注所有對象,以防它把注意力全部放在與專家動作強相關的干擾變量上。具體方法分為兩個階段:(a)我們利用量子化向量變分自編碼器的離散編碼從圖片中提取有語義的對象,然后(b)隨機地將具有相同離散編碼值的編碼分量一起丟棄,即掩蓋掉該語義對象。實驗表明所提方法顯著提升了行為克隆的性能,并在各種 Atari 環境及 CARLA 自動駕駛環境中超過了各種其他正則化方法和基于因果的方法,甚至優于可與環境交互的逆強化學習方法。

//www.zhuanzhi.ai/paper/53fb95a858607df85bb6d17b317fae15

付費5元查看完整內容

相關內容

模仿學習是學習嘗試模仿專家行為從而獲取最佳性能的一系列任務。目前主流方法包括監督式模仿學習、隨機混合迭代學習和數據聚合模擬學習等方法。模仿學習(Imitation Learning)背后的原理是是通過隱含地給學習器關于這個世界的先驗信息,比如執行、學習人類行為。在模仿學習任務中,智能體(agent)為了學習到策略從而盡可能像人類專家那樣執行一種行為,它會尋找一種最佳的方式來使用由該專家示范的訓練集(輸入-輸出對)。當智能體學習人類行為時,雖然我們也需要使用模仿學習,但實時的行為模擬成本會非常高。與之相反,吳恩達提出的學徒學習(Apprenticeship learning)執行的是存粹的貪婪/利用(exploitative)策略,并使用強化學習方法遍歷所有的(狀態和行為)軌跡(trajectories)來學習近優化策略。它需要極難的計略(maneuvers),而且幾乎不可能從未觀察到的狀態還原。模仿學習能夠處理這些未探索到的狀態,所以可為自動駕駛這樣的許多任務提供更可靠的通用框架。

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同,我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點,并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而,訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況,該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效,并表現出快速的訓練趨同。在已建立的VOS基準上,我們的方法超過了以前工作的分割精度,盡管使用的訓練數據和計算能力明顯更少。

//www.zhuanzhi.ai/paper/0ef8bdd09f3e46584b83f6236ca799fb

付費5元查看完整內容

論文題目:Instance-Conditional Knowledge Distillation for Object Detection

中文題目:用于物體檢測的實例條件知識蒸餾

論文鏈接://www.zhuanzhi.ai/paper/8175ccabb0b146d78a42919311b7b072

與分類不同, 檢測圖片散布著各式目標, 而有效的蒸餾區域與實例位置相關又不完全等同. 本文提出實例條件知識蒸餾:

a. 將實例標注編碼的查詢 (query) 表征與教師網絡提取的關鍵 (key) 表征計算關聯系數, 期望高系數處為空間中有效蒸餾區域;

b. 為學習靠譜關聯系數, 引入含定位和識別的輔助任務進行監督;

c. 關聯系數將以掩膜的型態, 在學生和教師網絡的特征蒸餾時使用

實驗表明, 我們的方法能顯著提升學生檢測器的效果, 有時甚至青出于藍 (超越教師)。

付費5元查看完整內容

零樣本學習(Zero-shot learning, ZSL)解決了未見類別識別問題,將語義知識從顯性類別轉移到未見類別。通常,為了保證理想的知識轉移,在ZSL中使用一個公共(潛在)空間來關聯視覺域和語義域。然而,現有的空間學習方法僅僅通過一步適應來緩解分布的分歧,從而使語義和視覺領域保持一致。這種策略通常是無效的,因為這兩個領域的特征表示具有異質性的本質,本質上包含了分布和結構的變化。為了解決這一問題,我們提出了一種新的層次語義-視覺自適應(HSVA)框架。具體來說,HSVA通過兩步層次適應,即結構適應和分布適應,對語義域和視覺域進行對齊。在結構調整步驟中,我們采用兩個特定于任務的編碼器將源數據(視覺域)和目標數據(語義域)編碼到一個與結構對齊的公共空間中。為此,提出了一個監督對抗差異(supervised adversarial不符,SAD)模塊,以對抗最小化兩個任務特定分類器預測之間的差異,從而使視覺和語義特征流形更緊密地對齊。在分布自適應步驟中,我們直接最小化潛在的多元高斯分布之間的Wasserstein距離,使用公共編碼器對齊視覺分布和語義分布。最后,在一個統一的框架下推導了在兩個部分對齊的變分自編碼器下的結構和分布自適應。在四個基準數據集上的大量實驗表明,HSVA在傳統ZSL和廣義ZSL上都取得了優異的性能。代碼可在//github.com/shiming-chen/HSVA上獲得。

付費5元查看完整內容

我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。

//www.zhuanzhi.ai/paper/9c5c176e0af7fe0b4b3c87ef99cd157c

付費5元查看完整內容

模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。

//www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa

付費5元查看完整內容

當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。

//www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

付費5元查看完整內容

本文首次在全卷積目標檢測器上去除了NMS(非極大值抑制)后處理,做到了端到端訓練。我們分析了主流一階段目標檢測方法,并發現傳統的一對多標簽分配策略是這些方法依賴NMS的關鍵,并由此提出了預測感知的一對一標簽分配策略。此外,為了提升一對一標簽分配的性能,我們提出了增強特征表征能力的模塊,和加速模型收斂的輔助損失函數。我們的方法在無NMS的情況下達到了與主流一階段目標檢測方法相當的性能。在密集場景上,我們的方法的召回率超過了依賴NMS的目標檢測方法的理論上限。

付費5元查看完整內容
北京阿比特科技有限公司