亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**本文的主要研究課題是自動駕駛的戰術決策。**自動駕駛汽車必須能夠處理一系列不同的環境和交通情況,這使得手動指定每個可能的場景的合適行為變得困難。因此,本文考慮基于學習的策略,介紹了不同的基于強化學習的方法。基于深度Q網絡(Deep Q-Network, DQN)算法,提出一種通用決策智能體。經過少量修改,該方法可以適用于不同的駕駛環境,并在多種高速公路和交叉路口的仿真場景中得到了驗證。通過引入更多的領域知識,以蒙特卡洛樹搜索和強化學習的形式將規劃和學習相結合,可以獲得樣本效率更高的智能體。在不同的高速公路場景中,組合方法優于單獨使用基于規劃或基于學習的策略,同時所需的訓練樣本比DQN方法少一個數量級。

許多基于學習的方法的一個缺點是它們會創建黑箱解決方案,這并不表明智能體決策的置信度。因此,引入集成分位數網絡(Ensemble Quantile Networks, EQN)方法,將分布式強化學習與集成方法相結合,以提供每個決策的偶然不確定性和認知不確定性的估計。結果表明,EQN方法可以在不同的遮擋交叉路口場景中平衡風險和時間效率,同時還可以識別智能體未經過訓練的情況。因此,智能體可以避免在訓練分布之外做出毫無根據的、有潛在危險的決定。最后,本文介紹了一種神經網絡架構,該架構對周圍車輛列出的順序排列是不變的。這種架構通過周圍車輛數量的階乘來提高智能體的采樣效率。

//research.chalmers.se/publication/526543/file/526543_Fulltext.pdf

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

許多目前自動化的順序決策問題,例如制造業或推薦系統中的問題,都是在幾乎沒有不確定性或零災難風險的環境中運行的。隨著公司和研究人員試圖在較少約束的環境中部署自主系統,賦予序列決策算法對不確定性和風險進行推理的能力變得越來越重要。在本文中,我們將討論序列決策的規劃和強化學習(RL)方法。在規劃設置中,假設提供了一個環境模型,并在該模型中優化策略。強化學習依賴于廣泛的隨機探索,因此通常需要一個模擬器來進行訓練。在現實世界的許多領域,不可能構建一個完全準確的模型或模擬器。因此,由于對環境的不完全了解,任何策略的執行都不可避免地具有不確定性。此外,在隨機領域中,由于環境固有的隨機性,任何給定運行的結果也是不確定的。這兩種不確定性的來源通常分別被歸類為認知的不確定性和偶然的不確定性。本文的首要目標是幫助開發算法,以減輕序列決策問題中的兩種不確定性來源

本文為這一目標做出了一些貢獻,重點是基于模型的算法。本文從考慮馬爾可夫決策過程(MDP)完全已知的最簡單情況開始,提出了一種優化風險規避目標的方法,同時將優化期望值作為次要目標。對于本文的其余部分,我們不再假設MDP是完全指定的。考慮MDP上不確定性的幾種不同表示,包括a)候選MDP的不確定性集合,b) MDP的先驗分布,以及c)與MDP交互的固定數據集。在設置a)中,提出了一種新的方法來近似最小化最大遺憾目標,并在所有候選MDP中找到一個低次優的單一策略。在b)中,我們建議在貝葉斯自適應MDP中優化風險規避,以在單一框架下避免認知和偶然不確定性帶來的風險。在c)中,離線強化學習設置,本文提出兩種算法來克服由于只能訪問固定數據集而產生的不確定性。第一種方法提出了一種可擴展的算法來解決離線強化學習的魯棒MDP公式,第二種方法基于風險敏感優化。在最后一章中,我們考慮一種從演示中學習的交互式表述。在這個問題上,有必要對當前政策執行的不確定性進行推理,有選擇地選擇何時要求進行示威。實驗證明,所提出的算法可以在許多不同的領域中產生風險敏感或魯棒的行為。

付費5元查看完整內容

本文為強化學習和計算機視覺應用構建深度學習模型,重點是設計新穎有效的表示學習框架。所提出的方法有兩個主要方面:神經網絡模型架構設計和目標工程。為演示如何操縱每個方面,深入研究了人工智能中兩個重要研究領域的代表性應用,即強化和計算機視覺。在這兩個領域,都強調了如何操縱抽象表示,以從目標任務和可用數據類型中建立強大的歸納偏差。我們希望我們的例子可以為今后處理相關領域和其他領域的問題提供啟發。 論文的第一部分研究了強化學習中的代表性任務。我們的貢獻如下:

作為起點,旨在改善通用和探索性行為,并反映一類流行的無模型、基于策略的強化學習算法、actor - critic方法的環境不確定性。本文提出隨機actor-critic方法(Shang et al., 2019b; Chapter 2;第2章)它采用了一種有效而靈活的方式將隨機性注入到actor-critic模型中。隨機性被注入到高級抽象表示中。測試了幾個用隨機激活增強的actor-critic模型,并在廣泛的Atari 2600游戲、連續控制問題和賽車任務中證明了它們的有效性。

接下來,我們將注意力轉向如何在一個更具體但更常見的RL問題設置中進行結構化探索:一個承載著不同任務套件的持久環境或世界。本文提出對環境進行世界圖分解,以加速強化學習(Shang et al., 2019a; Chapter 3;第3章)世界圖的節點是重要的航路點狀態,邊表示它們之間的可行遍歷。在識別世界圖之后,該框架將其應用于分層強化學習算法,以將探索偏向于與任務相關的航路點和區域。在一套具有挑戰性的迷宮任務上徹底評估了所提出方法,并表明使用環境的世界圖抽象可以顯著加速強化學習,實現更高的回報和更快的學習。

最后,考慮多智能體必須合作以實現共同目標的場景,這是多智能體強化學習的一個子集。建議將以智能體為中心的表示納入多智能體強化學習(Shang等人,2020a;第四章)以兩種方式。引入了一個以智能體為中心的注意力模塊,具有跨智能體的顯式連接。注意力模塊建立在智能體的抽象表示之上。利用了一個以智能體為中心的無監督預測目標,作為輔助損失或預訓練步驟的基礎。在谷歌Research Football環境和DeepMind Lab 2D上評估了這些方法,表明它們導致了智能體之間更復雜的合作策略的出現,并提高了樣本效率和泛化能力。

論文的第二部分將重點轉移到各種計算機視覺任務和領域的無監督學習。我們的貢獻如下:

為了更好地利用無標簽數據并增強無監督圖像建模,本文提出通道遞歸變分自編碼器(crVAE) (Shang等人,2018;第5章)。它將抽象卷積特征的跨通道循環連接集成到推理和生成步驟,允許以全局到局部、粗到細的方式捕獲由此產生的高級特征。結合對抗性損失,產生的通道循環VAE-GAN (crVAE-GAN)在生成不同光譜的高分辨率圖像方面優于基線VAE-GAN,同時保持相同的計算效率水平。

下一步,進一步擴展通道循環框架,并提出了注意力的條件通道循環自編碼;)屬性條件人臉合成。評估通過定性的視覺檢查和定量的指標進行,即inception分數、人類偏好和屬性分類精度。

考慮對無標記視頻序列進行無監督學習,并建議學習視頻級靜態和動態表示(Shang等人,2020b;第7章從時間一致性和動力學角度對視頻進行分解。本文展示了在幾個應用中學習到的表示的重要性,包括一個新的動力學檢索任務,在人臉、人類活動和機器人抓取數據集上。

付費5元查看完整內容

**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。

**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。

付費5元查看完整內容

**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。

**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。

**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。

付費5元查看完整內容

**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。

付費5元查看完整內容

深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c

付費5元查看完整內容

過去十年在人工智能和硬件開發方面的研究對自動駕駛的發展產生了重大影響。然而,在高風險環境中部署此類系統時,安全性仍然是一個主要問題。現代神經網絡已被證明很難正確識別自己的錯誤,并在面對看不清的情況時提供過度自信的預測,而不是放棄。在這些問題上取得進展,不僅對獲得交通主管部門的認證至關重要,而且對激發用戶的熱情也至關重要。

本論文的目的是開發為深度神經網絡提供可靠的不確定性估計的方法工具。特別是,我們的目標是改進測試時錯誤預測和異常的檢測。首先,我們引入了一種新的模型置信度目標準則——真類概率(TCP)。在故障預測任務中,TCP比當前的不確定性度量提供了更好的性能。由于真正的類在測試時本質上是未知的,我們提出使用輔助模型(知己網)從數據中學習TCP準則,并引入了一種適合這種情況的特定學習方案。在圖像分類和語義分割數據集上驗證了所提方法的相關性,證明了在故障預測方面強不確定性量化基線的優越性。

然后,我們將學習過的置信度方法擴展到語義分割的領域適應任務中。一種流行的策略是自訓練,它依賴于在未標記的數據上選擇預測,并用這些偽標簽重新訓練模型。這種被稱為ConDA的自適應方法通過提供用于選擇偽標簽的有效置信度估計改進了自我訓練方法。為了應對領域適應的挑戰,我們為輔助模型配備了多尺度的置信度體系結構,并用對抗訓練方案補充置信度損失,以加強源域和目標域的置信度映射之間的對齊。最后,我們考慮了異常的存在,并解決了聯合檢測錯誤分類和非分布樣本的最終實際目標。為此,我們引入了一種基于證據模型并定義在類概率單形上的不確定性測度KLoS。通過保留完整的分布信息,KLoS既捕獲了由于類別混亂而產生的不確定性,又捕獲了與分布不均樣本相關的知識缺乏。通過使用輔助模型和學習置信方法,我們進一步提高了不同圖像分類數據集的性能。

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司