優化是機器人的一個基本組成部分,在控制和仿真等領域的各個方面都有涉及。這兩個領域都涉及尋找各種優化問題的最佳解決方案,以獲得預期的結果。在解決這些優化問題時,效率是關鍵。通過快速可靠地找到解決方案,我們可以在硬件上實時執行基于優化的控制器。快速生成大量仿真數據的能力對于離線優化任務也很有價值,如策略優化、協同設計優化和系統識別。機器人控制與仿真中出現的優化問題往往具有結構性。有些問題可以直接歸入已經研究過的類別,例如線性二次調節器(LQR),其他控制問題可以歸為線性規劃(LP)或二次規劃(QP)。對于這些類別中的每一個,都存在高效和可靠的求解器。將你的問題歸入其中一類通常是一種安全的策略。
然而,存在涉及復雜優化問題的控制和仿真任務,目前還沒有令人滿意的求解器。本文主要研究這些問題。我們特別感興趣的是耦合優化問題,其中一個優化問題的解是另一個優化問題的參數。這些耦合優化問題在機器人仿真中自然會出現。例如,接觸物理的模擬需要解決最小作用原理和最大耗散原理。第6章和第7章將介紹如何聯合求解這兩個優化問題。耦合優化問題也經常出現在智能體交互的自動駕駛場景中。事實上,場景中的每輛車或行人都在優化其路徑,以盡可能快地重新聚集到目的地,同時避免碰撞。相反,我們可以故意選擇將一個復雜的優化問題分解為一組耦合優化問題。在第5章中我們會看到,分解是一種可以顯著提高求解器速度和可靠性的策略。在這種情況下,優化問題通過利用可微優化來交換梯度信息。這些選擇背后的策略就是我們所說的組合優化。本文主要研究機器人控制與仿真中的幾個應用,即博弈論控制、接觸控制、物理仿真和碰撞檢測。針對這些問題,利用組合優化來利用問題結構并設計高效的求解器。在某些情況下,我們可以將多個問題組合為一個優化問題,而在其他情況下,我們可以將問題分解為更簡單的塊。這種方法使我們能夠以結構化和高效的方式解決更復雜的優化問題。
近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。
在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。
在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。
自主系統在人類能力的基礎上進行擴展,可以在耐用性、力量和感知力等方面配備超人的屬性,并可以提供許多好處,如卓越的效率、準確性和耐力,以及探索危險環境的能力。開發這種潛力需要一個能熟練操作自主系統的控制系統來完成其目標。一個靜態的控制系統必須被精心設計以處理可能出現的任何情況。這促使在控制系統中引入學習,因為學習系統可以從其經驗中學習,以管理其操作環境中的新的意外事件和變化。
傳統的控制技術通常是在離線情況下設計的,假定對要控制的系統動態有確切的了解。這些基于知識的方法有一個重要的好處,即控制算法的穩定性特性可以被分析和認證,這樣人們就可以對控制系統安全運行能力有信心。然而,應用于非線性系統的線性控制技術(所有的實際系統在某種程度上都是如此)會導致越來越保守,因此被控系統的非線性程度越高,控制性能就越低。非線性控制技術通常具有相當大的在線計算復雜性,這使得它們對于具有快速動態的系統以及計算能力和能源有限的嵌入式控制應用來說是不可行的。
強化學習是一個開發自我優化控制器的框架,它通過試錯和根據觀察到的行動結果調整其行為來學習并改善其運行。一般來說,強化學習不需要關于被控系統動態的知識,可以學習操作任意的非線性系統,其在線操作可以被設計成高度計算效率。因此,它是一個有價值的工具,適用于動態快速、非線性或不確定且難以建模的控制系統。另一方面,強化學習控制的一個核心挑戰是它的行為是復雜和難以分析的,而且它沒有對操作約束條件規范的內在支持。
彌補強化學習控制的這些挑戰的方法是將其學習能力與現有的可信控制技術相結合。在本論文的第一部分,采用強化學習來優化模型預測控制(MPC)方案,這是一種強大而復雜的控制技術。提出了優化其元參數的新想法,即影響MPC解決的控制問題結構的參數,而不是影響給定問題解決方案的內部參數。特別是,優化了何時計算MPC和何種預測范圍的元參數,并表明通過智能地選擇計算條件,控制性能和計算復雜性可以同時得到改善。隨后提出了一個框架,在這個框架中,這些元參數以及MPC的任何其他內部參數都可以與一個可配置的目標共同優化。最后,論文的第一部分還考慮了如何利用現有的控制器來加速控制器的學習過程。
無人駕駛飛行器(UAVs)的控制正是這樣一種計算和能源資源有限的嵌入式應用,此外,其動力學是高度非線性的,并受到湍流等重大干擾的影響。在本論文的第二部分,我們提出了采用深度強化學習(DRL)對固定翼無人機進行低水平控制的新想法,與流行的多旋翼無人機設計相比,這種無人機的航程和有效載荷能力更強。我們提出了一種能夠學習適合飛行的DRL控制器的方法,只需與被控系統進行3分鐘的互動,并通過實際無人機的現場實驗證明,DRL控制器與現有最先進的自動駕駛儀相比具有競爭力,在受控狀態和控制信號中產生平滑的響應。
**本文的主要研究課題是自動駕駛的戰術決策。**自動駕駛汽車必須能夠處理一系列不同的環境和交通情況,這使得手動指定每個可能的場景的合適行為變得困難。因此,本文考慮基于學習的策略,介紹了不同的基于強化學習的方法。基于深度Q網絡(Deep Q-Network, DQN)算法,提出一種通用決策智能體。經過少量修改,該方法可以適用于不同的駕駛環境,并在多種高速公路和交叉路口的仿真場景中得到了驗證。通過引入更多的領域知識,以蒙特卡洛樹搜索和強化學習的形式將規劃和學習相結合,可以獲得樣本效率更高的智能體。在不同的高速公路場景中,組合方法優于單獨使用基于規劃或基于學習的策略,同時所需的訓練樣本比DQN方法少一個數量級。
許多基于學習的方法的一個缺點是它們會創建黑箱解決方案,這并不表明智能體決策的置信度。因此,引入集成分位數網絡(Ensemble Quantile Networks, EQN)方法,將分布式強化學習與集成方法相結合,以提供每個決策的偶然不確定性和認知不確定性的估計。結果表明,EQN方法可以在不同的遮擋交叉路口場景中平衡風險和時間效率,同時還可以識別智能體未經過訓練的情況。因此,智能體可以避免在訓練分布之外做出毫無根據的、有潛在危險的決定。最后,本文介紹了一種神經網絡架構,該架構對周圍車輛列出的順序排列是不變的。這種架構通過周圍車輛數量的階乘來提高智能體的采樣效率。
//research.chalmers.se/publication/526543/file/526543_Fulltext.pdf
深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c
這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。
本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。
我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。
多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。
這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。
本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類:
首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。
其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。
最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。
強化學習的一個主要挑戰是有效地探索一個環境,以便通過試驗和錯誤學習最佳策略。為了實現這一目標,智能體必須能夠有效地從過去的經驗中學習,使其能夠準確地了解某些行動對其他行動的好處。除此之外,一個明顯但核心的問題是,不知道的東西必須被探索,而以安全的方式探索的必要性又給問題增加了一層難度。這些都是我們在這篇博士論文中討論的主要問題。通過解構行為者批判框架,并利用方差概念對基礎優化問題進行替代性表述,我們探討了深度強化學習算法如何更有效地解決連續控制問題、困難探索環境和風險敏感任務。論文的第一部分集中在行為者批評框架的批評者部分,也被稱為價值函數,以及如何通過對價值函數估計中的方差的獨特使用,更有效地學習控制連續控制領域中的智能體。論文的第二部分是關于行為者-批評者框架的行為者部分,也被稱為策略。我們建議通過引入對手,為智能體解決的優化問題引入第三個元素。對手的性質與RL智能體相同,但經過訓練,可以提出模仿行為人的行動或抵消我們問題的約束。它由一些平均的策略分布來表示,行為者必須通過最大化與它的分歧來區分他的行為,最終鼓勵行為者在有效探索是一個瓶頸的任務中更徹底地探索,或者更安全地行動。
“在對同一情境做出的幾種反應中,那些伴隨著或緊隨其后的滿足感,與該情境的聯系更為牢固,因此,當它再次出現時,它們將更有可能再次出現。”出自《效果法則》,愛德華-桑代克(1911年)。
在本章中,我們將介紹強化學習問題背后的動機。我們將觸及深度學習在過去幾年的崛起,以及它能給我們的工作帶來的改進的特點。然后,我們將考慮我們希望我們的計算機能夠學習什么,考慮本論文中主要關注的問題,然后討論將在以下章節中提出的貢獻,以及他們的結果和潛在的新問題。
強化學習(RL)是機器學習(ML)的一門學科,它涉及到在不同情況下學習做出一連串的決定來最大化一些分數,后來被描述為獎勵。機器軟件可以采用這種技術來尋找最佳策略,以解決任何可以被表述為RL問題的問題。一些有直接用途的例子包括醫療保健問題(Schaefer, Bailey, Shechter, et al., 2005; Yu, Liu, and Nemati, 2019),復雜場景的一般視覺問題回答(Antol, Agrawal, Lu, et al., 2015; de Vries, Strub, Chandar, et al, 2017),能源管理問題(Dimeas和Hatziargyriou,2007;Levent,Preux,Pennec,等,2019)和高性能計算系統中的任務調度問題(Mao,Alizadeh,Menache,等,2016;Grinsztajn,Beaumont,Jeannot,等,2020)。其他值得注意的成就包括棋盤游戲(Tesauro,1995;Silver,Huang,Maddison,等,2016),視頻游戲(Mnih,Kavukcuoglu,Silver,等,2013;Berner,Brockman,Chan,等,2019;Vinyals,Babuschkin, Czarnecki,等。2019年),或機器人控制(Kober, Bagnell, and Peters, 2013; Heess, Tirumala, Sriram, et al., 2017; Andrychowicz, Baker, Chociej, et al., 2020)。一般的RL問題考慮一個采取決策的智能體和智能體運行的環境。在每個時間段,智能體采取一個行動,并獲得一個獎勵和一個觀察。作為一個說明性的例子,圖1.1將智能體描述為一只狗,它必須完成一連串的行動,把飛盤還給它的主人,而主人扮演著環境的角色。狗觀察它主人的動作,并受到玩耍的滿足感和結束時得到獎勵的激勵。在這種情況下,RL算法使用一個試錯學習過程來最大化決策智能體在先前未知環境中的總獎勵。舉個例子,在機器人學中,觀察是攝像機圖像或關節角度,行動是關節扭力,獎勵包括導航到目標位置,成功到達目標位置并保持平衡。
圖1.1 - 智能體與環境的互動
表征學習是學習從輸入數據中轉換或提取特征以解決一個任務的過程。機器學習主要關注的是從數據中的函數學習。深度學習關注的是將數據中的函數學習與表征學習相結合。深度學習與機器學習具有相同的實際目的,只是它得益于一個通常更具表現力的函數近似器(這一特征在之前的工作中已經用軌跡長度的概念進行了測量(Raghu, Poole, Kleinberg, et al., 2017)),即通過連續的梯度下降步驟訓練的深度神經網絡。深度神經網絡是一種輸入到目標的映射,由一連串簡單的數據轉換組成,稱為投影層(簡單的矩陣乘法)聚合在一起,并與非線性相結合。
這樣的深度學習模型通常涉及幾十或有時幾百個連續的表征層,這些表征層是通過接觸訓練數據學習的,其中計算階段的長因果鏈改變了神經網絡的總體激活。這種技術已經產生了一些顯著的經驗發現,特別是在語音識別(Dahl, Yu, Deng, et al., 2012)、圖像識別(Krizhevsky, Sutskever, and Hinton, 2012)和自然語言處理(Vaswani, Shazeer, Parmar, et al., 2017)。
在參數較少、缺乏構成性的簡單ML模型可能會失敗的情況下,深度學習可以成為涉及高維數據(如自然語言或圖像和視頻)的復雜任務的合適技術。深度強化學習(deep RL)是使用神經網絡作為函數近似器的強化學習學科,適用于智能體的輸入和輸出(觀察和行動)涉及高維數據的順序決策問題。例如,Tesauro的TD-Gammon(Tesauro,1995)將RL算法與神經網絡結合起來,學習玩雙陸棋,這是一個有大約1020個狀態的隨機游戲,并發揮了人類頂級選手的水平。大約在同一時期,Rummery和Niranjan(1994)學習了一個帶有函數近似的半梯度Sarsa,為Gullapalli(1990)的工作以及Lin和Tham的博士論文(Lin, 1992a; Tham, 1994)增加了內容,這些論文探索了各種RL算法與神經網絡的結合。
在Tesauro的開創性工作二十年后,深度RL作為一種有前途的方法出現,用于經驗驅動的自主學習,因為它們有能力獲得復雜的策略和處理高維復雜的感官輸入(Jaderberg, Mnih, Czarnecki, et al., 2017)。這樣的算法可以完全從圖像像素中學習玩幾個雅達利2600視頻游戲,達到超人的水平(Mnih, Kavukcuoglu, Silver, et al., 2013)。其他一些成就是開發了一個蒙特卡洛樹搜索(MCTS)規劃系統,加上深度RL模塊(Silver, Huang, Maddison, et al., 2016),打敗了一個世界圍棋冠軍,或者也可以直接從現實世界的攝像機輸入中學習機器人的控制策略(Levine, Finn, Darrell, et al., 2016; Zhu, Mottaghi, Kolve, et al., 2017; Levine, Pastor, Krizhevsky, et al., 2018)。
在深度RL中,神經網絡被用來近似實現從狀態到選擇每個可能行動的概率的映射的函數(稱為策略),估計智能體處于給定狀態的好壞的函數(稱為價值函數),動力學模型或RL算法所需的其他函數。特別是,在異步優勢actor-critic(Mnih, Badia, Mirza, et al., 2016)中使用的多步引導目標(Sutton, 1988)在廣泛的任務上使用梯度策略顯示了強大的結果。分布式Qlearning(Bellemare, Dabney, and Munos, 2017)學習貼現收益的分類分布,而不是估計平均值。Rainbow(Hessel, Modayil, Hasselt, et al., 2018)細致地結合了DQN(Mnih, Kavukcuoglu, Silver, et al., 2013)算法的若干改進,在數據效率和最終性能方面為Atari 2600基準提供了改進。Schulman, Levine, Abbeel, et al. (2015), Schulman, Wolski, Dhariwal, et al. (2017), Lillicrap, Hunt, Pritzel, et al. (2016), Haarnoja, Zhou, Abbeel, et al. (2018) and Fujimoto, Hoof, and Meger (2018) 探索了不同種類的策略梯度方法,重點是高性能、低樣品利用率和穩定性的改善。
圖1.2 - 強化學習算法的分類法。
通常,在強化學習中,智能體的行動是基于正在學習的最新版本的策略。在更新過程中,來自與環境互動的數據被用來推導出基于樣本的目標函數,其中策略和值近似器通過梯度下降進行更新。在深度RL中,近似器是深度神經網絡。這些算法的成功取決于在互動階段發現的軌跡:如果數據包括具有高獎勵的軌跡,那么這些軌跡就會被更新所加強,在新更新的策略下變得更有可能。因此,與環境的互動和近似器的更新是密切相關且高度依賴的。因此,在設計新的深度RL算法時,一個核心問題是什么應該被近似,以及如何被近似。圖1.2顯示了RL算法的高級分類法。在頂層,我們有動態規劃(DP)算法,可以用來計算給定環境的完美模型的最優策略。事實上,DP算法(例如策略迭代和價值迭代)是典型的基于模型的算法:這些算法都使用模型對下一個狀態和獎勵的預測或分布,以計算出最佳行動。具體來說,在動態規劃中,模型必須提供狀態轉換概率和任何狀態-行動對的預期獎勵。請注意,與大多數其他基于模型的RL算法相反,該模型很少是一個學習模型。
相反,無模型RL算法并不估計底層系統的動態,而是旨在直接優化一個策略。基于策略的方法明確地建立和學習一個策略,將狀態映射到選擇可能行動的概率上,并在學習期間將策略的近似值存儲在內存中,以供以后使用。基于價值的方法不存儲明確的策略,而是學習一個價值函數。策略是隱性的,通過選擇具有最佳價值的行動從價值函數中得出。至于行為批判方法,它們是一個框架的一部分,結合了基于價值和惡略的方法的元素。
選擇使用哪種方法主要取決于問題的規格(如系統動力學的復雜性)、要解決的背景(如策略的最優性)和實驗規格(如時間或資源預算)。例如,基于模型的RL方法通常會加快學習速度,其代價是缺乏對動態復雜問題的可擴展性。他們通常學習一個系統動力學模型,即控制器,并將其用于規劃。這樣的方法可以在低維連續控制問題中以高樣本效率學習成功的控制器(Deisenroth和Rasmussen,2011;Moldovan,Levine,Jordan等人,2015;Zhang,Vikram,Smith等人,2019)。這種方法的另一個應用是AlphaGo(Silver, Huang, Maddison, et al., 2016; Silver, Schrittwieser, Simonyan, et al., 2017),它通過使用蒙特卡洛樹搜索(MCTS)規劃模塊,有效地解決了計算機圍棋的問題,以利用游戲動態的知識。
在這篇論文中,我們將研究重點放在無模型方法的數據效率上,這些方法在行為批評框架中使用基于梯度的方法直接學習隨機策略函數。隨機策略的一個優點是,當在參數空間中移動時,它們允許策略的微小變化,而在確定性策略的情況下,類似的轉變有可能會極大地改變策略。因此,參數和策略之間的耦合似乎在一般情況下更容易控制,特別是對于離散的行動空間。隨機策略的另一個優點是其固有的探索性質,即通過對高斯噪聲進行抽樣來增加確定性的基本策略。最后,本論文主要關注的問題(連續控制任務、程序生成的任務和具有安全約束的連續控制任務)的復雜動態特征也鼓勵我們采用無模型設置,不需要對環境、規格或領域知識進行假設。
圖1.3 - 本論文圍繞行為者-批評者的構成部分展開的大綱。
在深入研究本論文之前,我們必須問自己,我們想解決什么問題,還有什么問題需要回答。促使本論文工作的一些困難來源可以描述如下。
對(深度)RL方法的優化和評估通常只基于對未來獎勵之和的智能體。來自監督或統計學習的替代統計數據可以作為額外的性能指標加以利用。
在一些連續控制問題或具有稀疏獎勵的任務中,策略梯度估計可能具有低振幅和不穩定,可能導致采樣效率低下。一個RL智能體可能從一些過渡中比其他過渡更有效地學習,因此過濾過渡似乎是一個自然的想法,可以考慮。
降低方差的方法,如基線減法,在激勵這些算法的概念框架和實踐中實施的估計行為者-批評者框架中的批評者部分之間表現出差異。需要更有效和穩健的目標函數來估計由批評者代表的價值函數。
有獎勵的狀態往往要被訪問很多次,特別是在獎勵稀少的任務中使用策略性方法,智能體才能學到任何有意義的東西。價值函數的估計必須對這些極端值敏感,并盡可能有效地捕捉與獎勵相對應的(有時是罕見的)信號。
在隨機策略誘導的探索中,如果這些狀態遠離出發點,那么在稀疏獎勵任務中訪問有獎勵的狀態的可能性將是無限小的。某種形式的記憶需要通過使用例如以前策略的移動平均值來保持,從而避免重復那些沒有導致相關學習的相同軌跡。
在同一想法的基礎上,一個有趣的問題是,是否可以通過學習,而不是以前的策略的混合物,來構建一個類似的先驗,如何打破安全約束,代表智能體應該避免的概率不安全區域。
所有這些情況都屬于同一范疇:在本論文中,我們試圖通過以下方式開發出比以前的方法更穩定、更節省樣本的策略梯度方法:(1)利用自我表現統計給出的信息,使用更適應策略梯度方法的其他學習函數估計方法;(2)在演員-批評家二人組中引入第三個主角,作為策略必須遠離的排斥性平均分布。本論文的關鍵是行為批評者框架,如圖1.3所示。我們通過方差的棱鏡來處理它的兩面,首先是批評者,然后是行為者:用解釋的方差和殘差計算的價值函數估計的方差,以及從對抗性先驗中得到的策略候選者的方差,維持策略的平均混合。
這篇論文總結了以前發表的四篇論文的研究貢獻。本論文的組織結構是按照論文發表的順序進行的,并對一些內容進行了重新組織。為了使論文有一個更連貫的結構并提高其可讀性,我們將其分為兩部分。第一部分從一般角度介紹了強化學習的問題。我們發展了本論文所采用的關于RL問題的一些困難的觀點,并詳細介紹了我們選擇作為本論文的一部分來解決的問題以及研究這些問題的動機。
第二部分專門討論在連續控制問題中更有效地學習控制智能體。在第三章中,我們介紹了學習連續控制策略的問題,并提出了在高維連續狀態和行動空間中學習深度神經網絡表示的推理方案。在第四章中,我們提出了在學習解決一個任務時使用更多的統計對象作為輔助損失。特別是,我們將價值函數估計的解釋方差確定為一個具有有趣特性的工具,并提出了一個具有編碼器共享的普遍適用的框架,以加快策略梯度智能體的學習。第五章提出了一個簡單而有效的想法,即RL智能體將從一些經驗數據中比其他數據更有效地學習。我們采用第四章中介紹的自我性能評估的統計數據,開發了一種對策略梯度算法的修改,在估計策略梯度時,樣本被過濾掉了。在第六章中,由于最近的研究表明傳統的行為批評算法不能成功地擬合價值函數,并呼吁需要為批評者確定一個更好的目標,我們引入了一種方法來改善行為批評框架中批評者的學習。
第三部分涉及圖1.3中的另一面:在行為者策略的背景下,通過在行為者-批評框架中引入第三個主角來表述差異性。這個新的主角作為一個對抗性的先驗,保持一個平均的策略混合物,策略分布應該被排斥在外。在第七章介紹了在具有更多現實世界特征的環境中學習的問題,如安全約束或有效探索是一個瓶頸的情況下,在第八章和第九章中,我們開發了一種在維持對抗性先驗中策略候選人的變異形式,作為以前策略的混合物(第八章)和作為尋求風險的策略的混合物(第九章)。
最后,我們在第四部分給出了論文的尾聲,討論了進展和未來的前景。
著作清單
在有論文集的國際會議上的出版物
Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, and Philippe Preux (2021)《利用殘差在深度策略梯度中學習價值函數》國際學習表征會議
Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, and Matthieu Geist (2021)《逆向引導的行為者-批評》國際學習表征會議
Yannis Flet-Berliac和Philippe Preux(2020年7月)《只有相關信息才重要:濾除噪聲樣本以促進RL》第29屆國際人工智能聯合會議論文集,IJCAI-20。Christian Bessiere編輯。主賽道。國際人工智能聯合會議組織,第2711-2717頁。
國際會議上的研討會發言或預印本
Yannis Flet-Berliac 和 Philippe Preux (2019b). MERL: Multi-Head Reinforcement Learning第33屆神經信息處理系統進展會議的深度強化學習研討會
Yannis Flet-Berliac and Debabrota Basu (2021)《SAAC:安全強化學習作為演員-批評家的對抗性游戲》預印本
在國際數字雜志上發表的文章
軟件
本論文中沒有介紹的合作項目
Jacques Demongeot, Yannis Flet-Berliac, and Hervé Seligmann (2020)《溫度降低傳播參數的新Covid-19案例動態》生物學9.5,第94頁
Yannis Flet-Berliac and Philippe Preux (2019a)《使用通用輔助任務的高維控制》Tech. rep. hal-02295705
Thomas Depas and Yannis Flet-Berliac (2019)《平行四邊形的公主》展覽全景21-勒弗斯諾伊國家當代藝術工作室
這篇論文在機器學習領域做出了一些貢獻,特別是在圖推理任務。每篇文章都研究并改進了幾種圖推理應用中的泛化: 經典圖分類任務、組合視覺推理和神經網絡圖參數預測的新任務。
在第一篇文章中,我們研究了圖神經網絡中的注意力機制。雖然注意力在GNN中得到了廣泛的研究,但它對泛化到更大的噪聲圖的影響還沒有被深入分析。我們證明,在合成圖任務中,可以通過仔細初始化GNN的注意力模塊來提高泛化能力。我們還開發了一種方法,降低了注意力模塊對初始化的敏感性,提高了實際圖任務的泛化能力。
在第二篇文章中,我們討論了將問題泛化到視覺場景中罕見或不可見的物體組合和關系。以往的工作多以頻繁的視覺構圖為主,構圖泛化能力較差。為了緩解這一問題,我們發現將損失函數與場景圖的結構進行歸一化是很重要的,這樣可以更有效地利用訓練標簽。用我們的損失訓練的模型顯著提高了合成泛化。
在第三篇文章中,我們將進一步討論視覺合成泛化。我們考慮一種數據增強方法,即在訓練數據中添加罕見的和不可見的成分。我們開發了一個基于生成對抗網絡的模型,該模型根據我們通過擾動真實場景圖獲得的罕見或不可見的場景圖生成合成視覺特征。我們的方法不斷改進合成的泛化。
在第四篇文章中,我們研究了在不可見的深度神經結構中預測參數的新任務中的圖推理。我們的任務的動機是由于用于訓練神經網絡的迭代優化算法的局限性。為了解決我們的任務,我們開發了一個基于Graph HyperNetworks的模型,并在我們的神經架構圖數據集上訓練它。我們的模型可以在一次向前傳遞中預測不可見的深度網絡(如ResNet-50)的性能參數。該模型可用于神經結構搜索和遷移學習。
//atrium.lib.uoguelph.ca/xmlui/handle/10214/26824
我們的世界是一個復雜的組合系統,簡單的組件用來創建更復雜的組件,所有組件以一種非平凡的方式交互。其中一個組成部分就是人類,人類天生就有能力積累多樣化的多領域知識,并學習周圍世界的豐富組成結構。這種知識使人類能夠輕松地解決大量復雜的任務。例如,給定一個復雜動態3D場景的靜態2D圖像,人類能夠識別物體,它們的部分,它們之間的關系,并預測場景中的未來事件。人類甚至可以預測場景的地理和人口背景,并推斷場景的情感等抽象屬性(圖1.1,a)。工程旨在開發能夠替代人類執行此類任務的系統和算法,特別是重復性、費力或危險的任務。在一些實際場景中,如理解2D圖像,這些系統需要從傳感器記錄的輸入中恢復原始成分結構(圖1.1,a-c)。例如,機器人或自動駕駛汽車需要從原始像素或點云中檢測物體及其關系。在其他場景中,組合結構已經提供(例如,由另一個系統或人類提供),算法需要對組合輸入進行推理,以做出復雜的高級決策(圖1.1,d-f)。例如:預測分子的性質,預測未來人與人之間的聯系,或預測生物或人工神經網絡的性質。
為了開發能夠從原始感官數據推斷組成結構的算法或預測結構屬性的算法,我們首先需要定義適合于這類任務的數據抽象。在數學和計算機科學中,有一種方便的抽象專門介紹了模型的組成和關系結構。這種抽象被稱為圖,其中節點對應結構的組件,而邊對應組件之間的交互。例如,分子通常表示為圖形,節點對應原子或更復雜的元素,邊對應化學鍵(圖1.1,d)。類似地,社會網絡是圖形,節點是人,邊是它們之間的不同類型的關系(圖1.1,e)。同樣地,生物或人工神經網絡是一個圖,其中節點可以是神經元,邊可以是它們之間的連接(圖1.1,f)。需要開發處理相關任務的算法。
本文探討了圖分類、場景圖合成視覺推理和神經網絡推理等圖推理任務中的泛化問題。使用從數據而不是工程特征中學習的模型來處理這些任務是事實上的標準。然而,這種模型的一個基本挑戰,尤其是神經網絡,是糟糕的泛化。出現這一問題的原因可能是模型依賴于偽相關(“捷徑”),而這些偽相關在訓練數據中常常大量存在(Shen et al., 2021; Zhou et al., 2021; Sch?lkopf et al., 2021)。當在測試數據上評估NN時,這個問題尤其值得注意,這些測試數據來自于與訓練數據略有不同的分布。雖然人類經常對各種分布轉移表現出很強的泛化能力,但機器學習模型在這方面要弱得多。這篇論文對理解和提高泛化做出了一些貢獻。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。