亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

理解強化學習(RL)智能體的新出現行為可能是困難的,因為此類智能體通常在復雜環境中使用高度復雜的決策程序進行訓練。這導致了強化學習中各種可解釋性方法的產生,這些方法旨在協調智能體的行為和觀察者預期的行為之間可能出現的差異。最近的大多數方法都依賴于領域知識(這可能并不總是可用的),依賴于對智能體策略的分析,或者依賴于對底層環境的特定元素的分析(通常建模為馬爾可夫決策過程(Markov Decision Process, MDP))。我們的關鍵主張是,即使底層的MDP不是完全已知的(例如,轉移概率沒有被準確地學習)或不是由智能體維護的(即,轉移概率不是由智能體維護的)。,當使用無模型方法時),它仍然可以被利用來自動生成解釋。出于這個目的,我們建議使用正式的MDP抽象和轉換(以前在文獻中用于加速搜索最優策略)來自動生成解釋。由于這種轉換通常基于環境的符號表示,它們可以表示預期和實際智能體行為之間差距的有意義的解釋。我們正式地定義了這個問題,提出了一類可以用來解釋突發行為的變換,并提出了能夠有效地尋找解釋的方法。我們將在一組標準基準上演示該方法。

付費5元查看完整內容

相關內容

基于模型的強化學習算法旨在學習環境模型,并通過環境模型做決策,其樣本效率高于無模型算法。基于模型的方法的樣本效率取決于模型能否很好地近似環境。然而,學習一個精確的模型是具有挑戰性的,特別是在復雜和嘈雜的環境中。為了解決這個問題,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。這是一種在不依賴精確學習模型的情況下實現了高樣本效率的新方法。具體而言,CMBAC從一組不準確的模型中學習Q值函數的多個估計值,并使用其最小的k個估計值的均值(即保守估計值)來優化策略。CMBAC的保守估計能夠有效地鼓勵智能體避免不可靠的“有前景的動作”,即那些僅在一小部分模型中估計價值高的動作。實驗結果表明,CMBAC方法在多個具有挑戰性的控制任務上的樣本效率明顯優于現有的方法,并且該方法在噪聲環境下比現有的方法更具魯棒性。原論文標題為《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》,由王杰教授指導MIRA Lab 的王治海、周祺等人發表于AAAI 2022。

//arxiv.org/abs/2112.10504

付費5元查看完整內容

Curriculum Learning for Vision-and-Language Navigation 視覺語言導航的課程學習

作者:Jiwen Zhang, Zhongyu Wei, Jianqing Fan, Jiajie Peng

類型:NeurIPS 2021,Poster Paper

視覺和語言導航 (VLN) 是指智能體在人類語言的指導下進行室內導航的一項任務。我們發現以前的工作忽略了數據集中樣本難度的分布。我們認為這潛在降低了那些智能體的性能。為此,我們為 VLN 任務提出了一種新的基于課程學習的訓練范式。該訓練范式可以平衡人類先驗知識和智能體對訓練樣本的學習進度。我們制定了課程設計原則,并重新排列了基準 Room-to-Room (R2R) 數據集,使其適合課程培訓。實驗表明,我們的方法與模型無關,并且可以在不增加模型復雜度的情況下顯著提高當前最先進導航代理的性能、通用性和訓練效率。

//www.zhuanzhi.ai/paper/ff17c28e135334c82edabc43efdcd6b1

付費5元查看完整內容

主動推理是一種關于感知和行動的統一理論,其基礎是大腦通過最小化自由能來維持世界的內部模型。從行為角度來看,主動推理代理可以被視為自我證明的存在,通過行動來實現他們的樂觀預測,即首選結果或目標。相反,強化學習需要人為設計的獎勵來實現任何期望的結果。盡管主動推理可以為控制提供一個更自然的自監督目標,但它的適用性受到限制,因為該方法在復雜環境下可擴展性不足。在這項工作中,我們提出了一個主動推理的對比目標,這大大減少了學習agent生成模型和規劃未來行動的計算負擔。在基于圖像的任務中,我們的方法比基于可能性的主動推理表現得明顯更好,同時計算成本更低,更容易訓練。我們將其與強化學習代理進行了比較,這些代理可以獲得人類設計的獎勵功能,表明我們的方法與它們的表現非常匹配。最后,我們還表明對比方法在環境干擾的情況下有顯著的更好的表現。

//arxiv.org/abs/2110.10083

付費5元查看完整內容

現代神經網絡體系結構可以利用大量的數據來很好地泛化訓練分布。然而,對于從看不見的但相關的分布中提取的數據,它們的系統泛化能力較差,這需要組合推理和知識重用。在這項工作中,我們提出了神經解釋器,這是一種將自注意網絡中的推理分解為一個模塊系統的架構,我們稱之為函數。模型的輸入以端到端學習的方式通過一系列函數進行路由。該體系結構可以靈活地沿寬度和深度組合計算,易于訓練后的能力擴展。為了證明神經解釋器的通用性,我們在兩個不同的環境中評估它: 圖像分類和視覺抽象推理。在前者中,我們證明了神經解釋器在使用更少參數的情況下,與視覺transformer 的表現相當,同時可以以樣本有效的方式轉移到新任務中。在后者中,我們發現神經解釋器在系統概括方面與最先進的技術相比具有競爭力。

//www.zhuanzhi.ai/paper/2bc15eecd32f4070c53c2f1346feaddd

付費5元查看完整內容

我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。

//www.zhuanzhi.ai/paper/0c63babe0fe06d384258215e6ab8f74c

付費5元查看完整內容

在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。

//www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694

付費5元查看完整內容

主題: Explainable Reinforcement Learning: A Survey

摘要: 可解釋的人工智能(XAI),即更透明和可解釋的AI模型的開發在過去幾年中獲得了越來越多的關注。這是由于這樣一個事實,即AI模型隨著其發展為功能強大且無處不在的工具而表現出一個有害的特征:性能與透明度之間的權衡。這說明了一個事實,即模型的內部工作越復雜,就越難以實現其預測或決策。但是,特別是考慮到系統像機器學習(ML)這樣的方法(強化學習(RL))在系統自動學習的情況下,顯然有必要了解其決策的根本原因。由于據我們所知,目前尚無人提供可解釋性強化學習(XRL)方法的概述的工作,因此本調查試圖解決這一差距。我們對問題進行了簡短的總結,重要術語的定義以及提議當前XRL方法的分類和評估。我們發現a)大多數XRL方法通過模仿和簡化一個復雜的模型而不是設計本質上簡單的模型來起作用,并且b)XRL(和XAI)方法通常忽略了方程的人為方面,而不考慮相關領域的研究像心理學或哲學。因此,需要跨學科的努力來使所生成的解釋適應(非專家)人類用戶,以便有效地在XRL和XAI領域中取得進步。

付費5元查看完整內容
北京阿比特科技有限公司