基于搜索的規劃算法使得機器人能夠為實現特定任務目標制定基于合理推理的長期規劃。它們將問題表述為在域狀態空間中嵌入的圖上的最短路徑問題。許多研究致力于實現更快的規劃速度,以使機器人能夠快速響應環境變化。此外,隨著任務復雜性的增加,在規劃過程中納入更復雜的模型,如模擬器變得尤為重要。然而,這些復雜模型的計算代價高昂,嚴重降低了規劃速度。由于CPU時鐘速度的停滯,單線程規劃算法的性能已達到了瓶頸。另一方面,CPU核心數量顯著增長,這一趨勢可能將繼續。這就需要能夠利用并行化的規劃算法。然而,與基于采樣的規劃算法不同,由于其順序性質,要保持最優性或有界次優性,對基于搜索的規劃算法進行并行化并非易事。機器人領域的一個關鍵特征是,在規劃過程中,大部分計算工作都花在計算動作的結果和產生的邊的代價上,而非搜索圖。在本論文中,我們利用這一見解,開發了幾種能夠利用現代處理器的多線程功能并行計算邊的并行搜索規劃算法。我們證明了這些新穎算法在多個領域大大提高了規劃速度。我們的第一個貢獻是一個并行化的懶惰搜索算法,大規模并行懶惰規劃(MPLP)。現有的懶惰搜索算法旨在作為單個進程運行,并通過在搜索圖和評估邊之間智能平衡計算工作以實現更快的規劃。MPLP利用的關鍵思想是,搜索圖和評估邊可以異步并行執行。在理論上,我們證明了MPLP具有完整性和有界次優性的嚴格保證。
與所有懶惰搜索算法一樣,MPLP假設后繼狀態可以在不評估邊的情況下生成,從而使算法能夠推遲邊的評估并懶惰地進行搜索。然而,這個假設并不總是成立,例如,在使用計算量很大的模擬器生成后繼狀態的仿真規劃中。為此,我們的第二個貢獻是針對慢速評估的基于邊的并行A*(ePA*SE),它在保證最優性的同時,將規劃與邊的并行評估交織進行。我們還提出了其有界次優變體,用規劃速度換取最優性。
對于實時機器人領域的適用性,ePASE必須在時間預算下計算規劃,因此具有隨時性能。盡管期望降低解決方案的成本,但在這樣的環境下,它并不是首要考慮的因素。我們的第三個貢獻是隨時適用的針對慢速評估的基于邊的并行A(A-ePASE),它為ePASE帶來了隨時性能。
ePASE針對邊計算時間昂貴但相似的領域。然而,在許多機器人領域,動作空間在評估動作結果及其成本所需的計算工作方面具有異質性。因此,我們的第四個貢獻是通用的針對慢速評估的基于邊的并行A(GePASE),它將ePASE推廣到邊計算差異顯著的領域。我們展示了GePASE在異質動作領域優于ePASE和其他基線,因為它采用了一種并行化策略,明確考慮了評估所需的計算工作。
最后,我們在一個將圖搜索技術與軌跡優化相結合的算法(INSAT)中展示了并行化的實用性。由于軌跡優化的計算成本高昂,在單線程上運行INSAT限制了其實際應用。所提出的并行版本——并行搜索與軌跡優化交織(PINSAT)實現了規劃速度的數倍提升,并顯著提高了成功率。
自動駕駛車輛在公共道路上的部署已取得了巨大的進展,然而在人駕車和自動駕駛車共享道路的情況下進行安全導航對于即使是最先進的系統也是一項挑戰。我們需要算法和系統來為自動駕駛車輛開發和評估符合社會規范的規劃算法。在這篇論文中,我們提出了一個考慮到人類操作員在車輛軌跡規劃和運動控制中的社會效用的半合作自主性框架。此外,我們提出了一個新的機器人平臺,用于在安全的實驗室環境中部署和評估半合作自主性。在這篇論文中,我們結合了來自社會心理學的概念和博弈論規劃算法,以開發半合作自主規劃器。從一個自動駕駛車輛開始,我們提出了一種考慮到每個人駕駛員的社會價值取向,同時實現了可取的博弈論均衡的算法,稱為"想象共享控制的迭代最佳反應"。半合作框架被應用到更大規模的系統,例如為混合人機自主交通提供符合社會規范的交叉口管理器,以及理解社會價值取向對車輛交通流的影響。此外,我們提出了一個能感知可視性的軌跡優化算法,用于圍繞盲點的主動運動規劃,該算法將人類駕駛員的不確定性模型納入到半合作軌跡規劃器中。我們在人類和自動駕駛車輛的模擬中演示了這些算法的有效性,并研究了人類性格對算法性能的影響。其次,我們介紹了 MiniCity,這是一個1/10比例的城市環境,包括逼真的城市景觀、交叉口,以及配備了最先進傳感器和算法的多個完全自動駕駛的1/10比例車輛。我們描述了 MiniCity 機器人平臺如何用于半合作自主性的開發,從評估算法性能到開發新的智能交通系統。首先,我們使用 MiniCity 來評估車輛自主性,既測量上游感知對下游車輛性能的影響,又測量半合作交叉口管理器的效率。其次,我們利用 MiniCity 的人在環路駕駛員界面收集用戶偏好,用于共同設計穿越交叉口的共享控制器。最后,我們提出了一種新的基于基礎設施的故障檢測算法 FailureNet,該算法在 MiniCity 的自動駕駛車輛上進行訓練和部署。在所有這些中,MiniCity 為開發交互式算法提供了一個安全和可擴展的環境,使我們更接近在混合人工自主駕駛的道路上完全部署符合社會規范的自主性。
由于自動駕駛的復雜性和安全性關鍵性,最近的工作通常在為推進自動駕駛研究而設計的模擬器上測試他們的想法。盡管將自動駕駛建模為軌跡優化問題很方便,但這些方法中很少有借助在線強化學習(RL)來解決具有挑戰性的駕駛場景。這主要是因為經典的在線RL算法最初是為諸如Atari游戲之類的玩具問題設計的,這些問題可以在幾個小時內解決。相比之下,由于模擬耗時和問題本身的難度,使用這些在線強化學習方法可能需要幾周或幾個月的時間才能在自動駕駛任務上獲得令人滿意的結果。因此,一個有前途的自動駕駛在線強化學習流程應該是效率驅動的。
本文研究了由于昂貴的模擬成本,直接將通用單智能體或分布式RL算法應用于CARLA自動駕駛管道的低效性。本文提出兩種異步分布式強化學習方法,多并行SAC (off-policy)和多并行PPO (on-policy),致力于通過一個專門的分布式框架來加速CARLA模擬器上的在線強化學習訓練,該框架建立進程間和進程內并行。所提出的分布式多智能體強化學習算法在各種CARLA自動駕駛任務上以更短和合理的時間實現了最先進的性能。
自動駕駛的許多進展都集中在模塊化方法上,其中整個任務被劃分為多個子任務,如感知、規劃和控制[12,46,54,61,63,94]。雖然這種范式在典型的trac場景中表現良好,但在沒有為邊緣情況精心設計的特殊程序的情況下,它很難處理分布外駕駛情況。為了應對這個問題,強化學習(RL)受到了關注,因為自動駕駛可以自然地視為一個軌跡優化問題,我們需要對駕駛過程進行最優控制。經驗證據表明,強化學習方法能夠以高度自動化的方式實現這一目標,而不需要手動處理具有挑戰性的長尾和罕見情況。它們的成功已經在許多決策任務中得到了證明,例如玩策略游戲或操縱機器人[8,60,74,78,79,81,88]。
機器學習被廣泛應用于各種不同的學科,以開發感興趣的變量的預測模型。然而,構建這樣的解決方案是一個耗時且具有挑戰性的學科,需要經過高度訓練的數據科學家和領域專家。作為回應,自動化機器學習(AutoML)領域旨在通過自動化減少人工工作量并加快開發周期。由于超參數在機器學習算法中無處不在,以及調優的超參數配置可以對預測性能產生影響,超參數優化是AutoML的一個核心問題。最近,深度學習的興起推動了神經架構搜索(NAS),這是一個專注于自動化神經網絡設計的超參數優化問題的專門實例。對于大規模調優問題,網格搜索和隨機搜索等簡單的超參數優化方法在計算上是難以處理的。因此,本文的重點是開發高效和有原則的超參數優化和NAS方法。
**在回答以下問題方面取得了進展,目的是開發更高效和有效的自動化機器學習算法。**1. 超參數優化(a)我們如何有效地使用早期停止來加速超參數優化?(b)如何利用并行計算來執行超參數優化,同時在順序設置中訓練單個模型所需的時間?(c)對于多階段機器學習管道,我們如何利用搜索空間的結構來減少總計算成本?
鑒于這些問題,本文分為兩個部分。第一部分側重于通過解決1a, 1b和1c問題在高效超參數優化方面取得的進展。第二部分側重于通過解決問題2a, 2b和2c,在理解和改進神經架構搜索的權重共享方面取得的進展。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
**本文的主要研究課題是自動駕駛的戰術決策。**自動駕駛汽車必須能夠處理一系列不同的環境和交通情況,這使得手動指定每個可能的場景的合適行為變得困難。因此,本文考慮基于學習的策略,介紹了不同的基于強化學習的方法。基于深度Q網絡(Deep Q-Network, DQN)算法,提出一種通用決策智能體。經過少量修改,該方法可以適用于不同的駕駛環境,并在多種高速公路和交叉路口的仿真場景中得到了驗證。通過引入更多的領域知識,以蒙特卡洛樹搜索和強化學習的形式將規劃和學習相結合,可以獲得樣本效率更高的智能體。在不同的高速公路場景中,組合方法優于單獨使用基于規劃或基于學習的策略,同時所需的訓練樣本比DQN方法少一個數量級。
許多基于學習的方法的一個缺點是它們會創建黑箱解決方案,這并不表明智能體決策的置信度。因此,引入集成分位數網絡(Ensemble Quantile Networks, EQN)方法,將分布式強化學習與集成方法相結合,以提供每個決策的偶然不確定性和認知不確定性的估計。結果表明,EQN方法可以在不同的遮擋交叉路口場景中平衡風險和時間效率,同時還可以識別智能體未經過訓練的情況。因此,智能體可以避免在訓練分布之外做出毫無根據的、有潛在危險的決定。最后,本文介紹了一種神經網絡架構,該架構對周圍車輛列出的順序排列是不變的。這種架構通過周圍車輛數量的階乘來提高智能體的采樣效率。
//research.chalmers.se/publication/526543/file/526543_Fulltext.pdf
一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。
深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。
我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。
黑盒優化(BBO)問題經常發生在許多工程和科學學科中,在這些學科中,人們可以訪問一個函數(黑盒)的零階評估,該函數必須在特定的領域進行優化。在許多情況下,函數的計算成本很高,因此計算的次數受到預算的限制。貝葉斯優化(Bayesian Optimization)是一種流行的算法,它通過代理對黑箱函數進行建模,并通過評估最有可能導致最優結果的點進行運算。多目標優化(MOO)是優化中的另一個主題,其目標是在一個公共領域中同時優化定義的多個目標。通常情況下,對于相同的輸入,這些目標不會達到它們的最佳狀態。在這種情況下,不是尋找單一的最佳解決方案,而是需要一組帕累托最優解決方案。本文研究了BBO和MOO的幾種優化策略及其應用。
**本文的前半部分是關于昂貴函數的BBO。**首先,基于隨機擴展的思想,提出了一種簡單而靈活的多目標黑盒優化方法。我們引入了多目標后悔的概念,并表明隨著預算的增長,我們的策略實現了零后悔。接下來,我們研究了神經網絡對昂貴BBO的有效性。我們證明了一個簡單的貪心方法可以達到接近高斯過程貝葉斯優化的性能。利用最近研究的高斯過程和非常廣泛的神經網絡訓練動態之間的聯系,我們證明了我們提出的算法的遺憾的上界。最后,我們提出了一個考慮成本的貝葉斯優化框架,該框架考慮了每次評估的成本。這種方法在評估成本隨輸入域而變化的環境中很有用,低成本評估可以提供關于最大值的大量信息。
本文的后半部分是關于MOO在兩個可微MOO問題上的應用。我們的第一個應用是學習稀疏嵌入,使用神經網絡進行快速檢索。這里要優化的目標是檢索精度和檢索速度。我們引入了一種新的稀疏正則化方法,并演示了一種退火策略,與其他方法相比,該策略產生了更好的目標帕累托邊界。對于我們的第二個應用,我們考慮了分層時間序列預測的問題,其中多個相關的時間序列被組織成一個層次。我們提出了一種考慮層次結構的方法,同時可擴展到大型層次,并表明它在大多數層次級別上都能提高精度。我們還將其視為一個多目標問題,并演示了跨不同層次的性能權衡。為了總結我們的貢獻,在這篇論文中,我們提出了各種類型的黑盒和多目標函數的優化策略,并在合成或基準數據集上進行實驗評估。
自深度學習革命以來,機器學習文獻中的一個總體趨勢是大型深度模型將持續優于小型淺模型。然而,這種趨勢也帶來了計算需求不斷增加的缺點,最近許多最先進的成果所需的資源遠遠超出了頂級行業實驗室的范圍。這些問題引發了關于機器學習研究民主化的非常現實的擔憂,如果不加以解決,最終可能會導致更多的權力和財富集中在今天能夠向其人工智能研究項目投資巨額資金的機構中。
遷移學習技術是這些問題的潛在解決方案,它允許大型的、通用的模型經過一次訓練,然后在各種情況下重用,只需要最少的計算來適應它們。本文探索了遷移學習的新算法和應用,包括分層強化學習、生成式建模和計算社會科學等領域。在分層強化學習領域內,本文提出一種算法,允許在選項之間遷移(即在不同的選項之間遷移)。例如,時間上抽象的動作),用于獨立但相似的任務。在生成建模領域,我們提出了一種算法,可以在新的數據上重用現有的可逆生成模型,而不產生任何額外的訓練成本。最后,在計算社會科學領域,本文表明,可以從人類設計的模型中遷移知識,以檢測針對排名算法的惡意活動。
在這篇論文中提出的所有算法之間的共同線索是它們本質上是貝葉斯的。我們認為,貝葉斯范式自然適合于遷移學習應用,因為貝葉斯先驗可以作為適應性強的通用模型,通過推理過程可以轉換為特定任務的后驗。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。