文獻中考慮的許多序列決策問題變體取決于反饋的類型和它們揭示的有關相關獎勵的信息量。之前的大多數工作都研究了行動的反饋揭示了與行動相關的獎勵的案例。然而,在許多領域,如眾包、醫療診斷和自適應資源分配,行動的反饋可能是薄弱的,即可能根本沒有揭示任何關于獎勵的信息。如果沒有任何關于獎勵的信息,就不可能了解哪種行動是最佳的。顯然,只有在問題結構是這樣的,即可以在不明確知道獎勵的情況下識別最佳行動的情況下,學習最佳行動才是可行的。本文的目標是研究一類問題,在不明確知道獎勵的情況下可以推斷出最優行動。研究了無監督順序選擇(USS),所選行動的回報/損失從未顯示,但問題結構適合于識別最優行動。本文還提出了一種名為審查半Bandits (CSB)的新設置,從一個行動中觀察到的獎勵取決于分配給它的資源數量。
本文的主要研究內容是USS問題。在USS問題中,無法從觀察到的反饋中推斷出與動作相關的損失。這種情況出現在許多現實應用中。例如,在醫療診斷中,患者的真實狀態可能不為人知;因此,測試的有效性無法得知。在眾包系統中,眾包工人的專業知識水平是未知的;因此,他們的工作質量是不可知的。在此類問題中,可以觀察到測試/工作者的預測,但由于缺乏真實值,無法確定其可靠性。通過比較不同動作得到的反饋,可以找到一類USS問題在滿足“弱支配”性質時的最優動作。針對該問題,本文提出了基于置信上界和Thompson采樣的性能最優算法。
本文提出一種稱為審查半bandits (CSB)的新設置,其中從行動中觀察到的反饋取決于分配的資源數量。如果沒有分配足夠的資源,反饋就會被“審查”。在CSB設置中,學習者在每一輪中在不同的活動(動作)之間分配資源,并從每個動作中接受審查損失作為反饋。目標是學習一種資源分配策略,使累計損失最小化。每個時間步長的損失取決于兩個未知參數,一個與動作有關,但與分配的資源無關,另一個取決于分配的資源數量。更具體地說,如果動作的資源分配超過一個恒定的(但未知的)閾值,該閾值可以取決于動作,則損失等于零。CSB模型可以應用于許多資源分配問題,如警察巡邏、交通規則和執行、偷獵控制、廣告預算分配、隨機網絡效用最大化等。
論文的最后一部分重點研究了多玩家多臂匪徒的分布式學習,以識別最優動作子集。這種設置是這樣的,獎勵只適用于那些只有一個玩家參與的行動。這些問題適用于無線ad hoc網絡和認知無線電中尋找最佳通信信道的問題。本文的貢獻是通過利用這些問題表現出的特定結構來解決上述序列決策問題。對于這些具有弱反饋的每個設置,開發了可證明的最優算法。最后,在合成數據集和真實數據集上驗證了它們在不同問題實例上的經驗性能。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
**本文的主要研究課題是自動駕駛的戰術決策。**自動駕駛汽車必須能夠處理一系列不同的環境和交通情況,這使得手動指定每個可能的場景的合適行為變得困難。因此,本文考慮基于學習的策略,介紹了不同的基于強化學習的方法。基于深度Q網絡(Deep Q-Network, DQN)算法,提出一種通用決策智能體。經過少量修改,該方法可以適用于不同的駕駛環境,并在多種高速公路和交叉路口的仿真場景中得到了驗證。通過引入更多的領域知識,以蒙特卡洛樹搜索和強化學習的形式將規劃和學習相結合,可以獲得樣本效率更高的智能體。在不同的高速公路場景中,組合方法優于單獨使用基于規劃或基于學習的策略,同時所需的訓練樣本比DQN方法少一個數量級。
許多基于學習的方法的一個缺點是它們會創建黑箱解決方案,這并不表明智能體決策的置信度。因此,引入集成分位數網絡(Ensemble Quantile Networks, EQN)方法,將分布式強化學習與集成方法相結合,以提供每個決策的偶然不確定性和認知不確定性的估計。結果表明,EQN方法可以在不同的遮擋交叉路口場景中平衡風險和時間效率,同時還可以識別智能體未經過訓練的情況。因此,智能體可以避免在訓練分布之外做出毫無根據的、有潛在危險的決定。最后,本文介紹了一種神經網絡架構,該架構對周圍車輛列出的順序排列是不變的。這種架構通過周圍車輛數量的階乘來提高智能體的采樣效率。
//research.chalmers.se/publication/526543/file/526543_Fulltext.pdf
**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。
**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。
**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。
為自動駕駛汽車等自動系統設計控制策略是復雜的。為此,研究人員越來越多地使用強化學習(RL)來設計策略。然而,對于安全攸關系統而言,保障其在實際訓練和部署過程中的安全運行是一個尚未解決的問題。此外,當前的強化學習方法需要精確的模擬器(模型)來學習策略,這在現實世界的應用中很少出現這種情況。**本文介紹了一個安全的強化學習框架,提供了安全保證,并開發了一種學習系統動力學的受限學習方法。本文開發了一種安全的強化學習算法,在滿足安全約束的同時優化任務獎勵。在提供基線策略時,考慮安全強化學習問題的一種變體。**基線策略可以產生于演示數據,可以為學習提供有用的線索,但不能保證滿足安全約束。本文提出一種策略優化算法來解決該問題。將一種安全的強化學習算法應用于腿部運動,以展示其在現實世界的適用性。本文提出一種算法,在使機器人遠離不安全狀態的安全恢復策略和優化的學習器策略之間進行切換,以完成任務。進一步利用系統動力學的知識來確定策略的切換。結果表明,我們可以在不摔倒的情況下在現實世界中學習腿部運動技能。重新審視了已知系統動力學的假設,并開發了一種從觀察中進行系統辨識的方法。知道系統的參數可以提高模擬的質量,從而最小化策略的意外行為。最后,雖然safe RL在許多應用中都有很大的前景,但目前的方法需要領域專業知識來指定約束。本文引入了一個新的基準,在自由格式的文本中指定約束。本文開發了一個模型,可以解釋和遵守這種文本約束。我們證明該方法比基線獲得了更高的回報和更少的約束違背。
深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c
多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。
這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。
本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類:
首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。
其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。
最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。
在過去的十年里,深度學習取得了巨大的成功,但在權值更新和訓練樣本數量方面,實際有用的深度模型的訓練仍然非常低效。為了解決這些問題的一個方面,本文研究了持續學習設置,該模型利用一系列的任務,利用之前的知識來快速學習新任務。持續學習的主要挑戰是,在為新任務更新模型時,避免模型災難性地忘記之前的信息。
//ora.ox.ac.uk/objects/uuid:7a3e5c33-864f-4cfe-8b80-e85cbf651946
為此,本文首先提出了一種持續學習算法,通過正則化兩個連續任務的條件似然之間的kl -散度來保留之前的知識。結果表明,這種正則化對網絡權值施加了二次懲罰,該懲罰基于上一個任務的最小曲率。其次,本文提出了一種更有效的持續學習算法,利用對過去任務的情景記憶作為約束,這樣當對新任務進行權重更新時,情景記憶的損失不會增加。結果表明,使用情景記憶約束目標比正則化網絡參數更有效。此外,為了提高學習新任務的速度,提出了使用組合任務描述符的聯合嵌入模型,大大提高了正向遷移。基于情景記憶的持續學習目標通過直接在損失函數中使用記憶來簡化。盡管它傾向于記憶出現在微小情景記憶中的數據,結果算法顯示出比使用記憶作為約束的算法更好的泛化。分析認為,這種驚人的概化是由于新任務數據帶來的正則化效應。然后利用該算法對合成數據和真實數據進行持續學習。為此,提出了一種方法,通過優化重放緩沖區上的事后遺忘損失,為每個任務生成合成數據點。設計了一個嵌套的持續學習優化目標,有效地利用這些綜合點來減少基于記憶的持續學習方法的遺忘。最后,本文提出了一種持續學習算法,在不重疊的特征子空間中學習不同的任務。通過保持不同任務的子空間相互正交來最小化重疊,可以減少這些任務表示之間的干擾。
本文介紹了在一系列背景下進行因果參數推理的程序,包括觀察性研究、完全隨機化設計、配對實驗和協變量自適應設計。首先,我們討論了凸優化在匹配觀測研究中進行方向推斷和靈敏度分析的應用。我們設計了一種算法,使信噪比最大化,同時考慮了未觀察到的混雜。我們分析算法輸出的漸近分布行為,以發展因果效應的漸近有效假設檢驗。由此產生的程序在廣泛的程序類上達到最大的設計靈敏度。其次,我們研究了特征信息在完全隨機實驗中對效應進行高精度推斷的作用。本文構建了一種基于線性回歸的校正技術,該技術構造了估計量的漸近方差的上界。該校準程序適用于任何可能是半參數有效的填補估計器,并自動證明所產生的非線性回歸調整估計器至少與均值之差一樣漸近精確;在模型錯誤規范下,非線性回歸調整估計器先前沒有保證的一個特性。第三,我們引入了高斯預軸:一種構建檢驗統計量的算法技術,即使在零中違反隨機化假設的對稱性時,隨機化推理仍保持漸近有效。我們證明了基于預軸統計量的隨機化檢驗在銳利的零值下是有限樣本精確的,而在弱零值下它們漸近地控制了錯誤拒絕的概率。這允許形成具有同聲傳譯的處理效應的置信區域,作為齊次相加處理效應的精確置信區域和異質相加處理效應的漸近置信區域;從而統一費雪和內曼推理的許多實驗設計,包括重隨機實驗。第四,我們構建了重采樣算法的嵌套層次結構,該算法利用了超總體、固定協變量和有限總體模型中的概率結構,以促進完全隨機設計中各種統計數據的非參數推斷。重采樣算法通過利用回歸調整和最優傳輸的現代結果擴展了經典的自舉范例,在固定協變量和有限人口模型下實現了顯著的增益。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/