亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,RL的顯著成就使其在人工智能研究的前沿占有一席之地。最關鍵的是,這些結果大多是在模擬環境中獲得的,在模擬環境中,不良行為不會產生有害后果。然而,為了釋放RL的全部潛力,我們希望在現實世界中部署它。雖然這擴大了RL有益影響的范圍,但也放大了其有害行為的后果。因此,我們必須理解和解決可能導致RL智能體在現實世界中做出潛在破壞性決策的原因。

//www.research-collection.ethz.ch/handle/20.500.11850/540581

本文研究了小數據環境下由不準確的模型可能導致的RL不安全行為。特別地,它關注的是對分布偏移的魯棒性問題。不過度擬合訓練數據,而泛化到以前未見過的環境條件,以及安全探索,即。,在訓練過程中安全獲取數據。

我們首先從線性控制理論引入魯棒性指標的無模型近似。我們利用我們的方法為Furuta擺設計控制策略,并在模擬到現實和硬件實驗中演示了它們的魯棒性,其中包括一個顯著的分布位移。

在此基礎上,研究了將安全表示為一組未知光滑約束的目標導向安全勘探問題。針對這一問題,我們提出了一種保證安全性和完整性的算法,并在模擬實驗中表明,該算法在樣本效率方面較現有方法有明顯提高。然后,我們將其擴展到自適應控制問題,一類與外生變量引起的分布位移有關的經典控制問題。我們部署我們的算法來控制旋轉軸驅動器在不斷變化的環境。 最后,我們提出了一個新的框架,將先驗知識融入到安全勘探問題中,使我們可以解除以前的方法所做的許多假設,如平滑性。為該框架提供了安全保證,并將其與深度強化學習智能體相結合,以在具有挑戰性的環境中安全地訓練控制策略。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

混雜現象,即治療和結果變量都受到某些“混雜”變量的影響,是有效因果推斷的最大挑戰之一。它支撐了統計中的許多謬誤和誤解,如辛普森悖論或“相關性并不意味著因果關系”的例子。因此,混雜調整是因果關系領域的核心。然而,這通常不是一項容易的任務,即使我們的數據的因果結構是已知的。混雜變量的維度可能很大,混雜變量可以是離散的,連續的或分類變量的混合,或者它們可以以非參數的方式影響感興趣的變量。

//www.research-collection.ethz.ch/handle/20.500.11850/528993

當混雜變量在手邊的數據集中是已知的和可觀察到的情況下,存在許多不同的混雜調整方法。然而,很少有研究考慮到當混雜是潛在的具有挑戰性的情況。盡管因果文獻中普遍存在不存在未觀察到的混雜因素的假設,但在實踐中往往并不成立。這種數據模型的錯誤規范可能會導致傳統方法的性能下降。在這篇論文中,我們引入了新的混雜調整方法,既解決了混雜未被觀察到的情況,也解決了混雜變量被觀察到的情況,但它們對感興趣的變量的影響相當復雜,因此傳統的方法不適用。在論文A中,我們探討了潛在混雜的調整問題。由于這個問題極具挑戰性,我們考慮一個簡單的情況,即數據來自(高維)線性模型,混合變量線性影響觀察變量。本文提出頻譜反創始估計器,在對數據應用精心選擇的線性變換后使用標準Lasso。我們得到了有趣的理論結果,并通過實證驗證了它優于忽略潛在混雜存在的傳統方法。在論文B中,我們提出了雙去偏Lasso估計器,可以看作是譜反發現估計器的推廣,其優點是具有良好的漸近分布,從而允許構造漸近有效的置信區間。所提供的理論分析非常詳細,并擴展了論文A的理論結果。論文C考慮了生物統計學中的一個重要問題,即檢測兩種情況(例如癌癥和正常細胞)之間因果網絡的擾動。提出的方法也擴展到考慮潛在的潛在混雜。雖然它不是直接應用論文A和論文B中開發的方法,但它分享了論文A和論文B中開發的主要思想。在論文D中,我們討論了觀察到混雜的情況,但這種情況可能非常復雜。我們提出了一種稱為分布隨機森林的通用方法,它能夠非參數估計多變量聯合條件分布。這是以一種無模型和無目標的方式完成的,因此可以用于許多不同的學習問題,而不僅僅是最初的因果效應估計的混雜調整問題。

付費5元查看完整內容

由于物理世界是復雜的、模糊的、不可預測的,自主的智能體必須被設計成表現出人類水平的靈活性和通用性——遠遠超出我們顯式編程的能力。這種自主的實現不僅能夠可靠地解決特定的問題,而且還能夠預測可能出現的錯誤,以便制定戰略、適應和持續學習。要想做出如此豐富而復雜的決策,就需要在自主學習生命周期的所有階段重新思考智能的基礎

在本論文中,我們開發了新的基于學習的方法,以實現自主系統的動態、彈性和穩健決策。通過解決在所有階段出現的關鍵挑戰,從用于訓練的數據,到在這些數據上學習的模型,再到算法,以可靠地適應部署期間的意外事件,來推進野外的魯棒決策。我們首先探索如何通過計算設計豐富的合成環境,能夠模擬連續的難以收集的、分布外的邊緣情況,在訓練和評估期間易于使用。利用這個豐富的數據基礎,我們隨后創建了高效、富有表現力的學習模型,以及優化其表示的必要算法,并克服了代表性不足和具有挑戰性的數據中的不平衡。最后,使用經過訓練的模型,我們將轉向部署設置,在該設置中,我們仍然應該預期我們的系統將面臨在訓練中從未遇到過的全新場景。為此,我們開發了自適應和不確定性感知算法來估計模型的不確定性,并利用它的存在來實現一般化的決策,即使是在存在意外事件的情況下。

付費5元查看完整內容

深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。

在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。

//arxiv.org/pdf/2112.01423.pdf

付費5元查看完整內容

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。

付費5元查看完整內容

論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

導師:Pieter Abbeel and Sergey Levine

網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要:

在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容
北京阿比特科技有限公司