為自動駕駛汽車等自動系統設計控制策略是復雜的。為此,研究人員越來越多地使用強化學習(RL)來設計策略。然而,對于安全攸關系統而言,保障其在實際訓練和部署過程中的安全運行是一個尚未解決的問題。此外,當前的強化學習方法需要精確的模擬器(模型)來學習策略,這在現實世界的應用中很少出現這種情況。**本文介紹了一個安全的強化學習框架,提供了安全保證,并開發了一種學習系統動力學的受限學習方法。本文開發了一種安全的強化學習算法,在滿足安全約束的同時優化任務獎勵。在提供基線策略時,考慮安全強化學習問題的一種變體。**基線策略可以產生于演示數據,可以為學習提供有用的線索,但不能保證滿足安全約束。本文提出一種策略優化算法來解決該問題。將一種安全的強化學習算法應用于腿部運動,以展示其在現實世界的適用性。本文提出一種算法,在使機器人遠離不安全狀態的安全恢復策略和優化的學習器策略之間進行切換,以完成任務。進一步利用系統動力學的知識來確定策略的切換。結果表明,我們可以在不摔倒的情況下在現實世界中學習腿部運動技能。重新審視了已知系統動力學的假設,并開發了一種從觀察中進行系統辨識的方法。知道系統的參數可以提高模擬的質量,從而最小化策略的意外行為。最后,雖然safe RL在許多應用中都有很大的前景,但目前的方法需要領域專業知識來指定約束。本文引入了一個新的基準,在自由格式的文本中指定約束。本文開發了一個模型,可以解釋和遵守這種文本約束。我們證明該方法比基線獲得了更高的回報和更少的約束違背。
深度神經網絡與強化學習(RL)的結合在解決其他棘手的學習任務方面顯示出巨大的前景。**然而,深度強化學習的實際演示仍然很少。將深度強化學習用于給定任務的挑戰可以分為兩類,大致上是“從經驗中學習什么?”和“從什么經驗中學習?”在本文中,我描述了解決第二類問題的工作。**具體來說,采樣包含與學習任務相關信息的動作、狀態和軌跡的問題。我從算法設計和任務復雜性的三個層次來研究這個挑戰,從算法組件到打破常見RL慣例的混合組合算法。在第一章中,我描述了穩定高效的動作采樣工作,以優化連續值動作的Q函數。通過將基于樣本的優化器與神經網絡近似相結合,可以獲得訓練、計算效率和精確推理的穩定性。在第二章中,我描述了在獎勵感知探索方面的工作,即發現常見采樣方法不足的理想行為。教師"探索"智能體發現狀態和軌跡,使學生"利用"智能體從這些經驗中學習到的數量最大化,并能使學生智能體解決其他不可能的困難任務。在第三章中,我描述了將強化學習與啟發式搜索相結合的工作,用于遷移模型已知的任務領域,但狀態空間的組合數學對于傳統搜索來說是難以解決的。通過將深度Q學習與最佳優先樹搜索算法相結合,可以用比普通搜索算法或僅使用強化學習更少的樣本來找到程序合成問題的解決方案。最后,總結了這項工作的主要收獲,并討論了強化學習中高效采樣的擴展和未來方向。
//dataspace.princeton.edu/handle/88435/dsp01x346d733f
深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c
深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。
在現實生活中部署人工智能體的一個基本問題是它們快速適應環境的能力。傳統的強化學習(RL)以兩種方式與這一需求作斗爭。首先,對不受約束的環境動態的迭代探索會產生大量信息不足的更新,從而導致適應速度緩慢。其次,最終的策略沒有能力適應未來的觀察結果,必須隨著觀察結果的發生緩慢地無限學習或完全重新訓練。本文探討了兩種旨在解決這些問題的表述。元強化學習對整個任務分布的考慮使策略能夠快速適應特定實例。通過強迫智能體特定地請求反饋,主動強化學習強制進行選擇性的觀察和更新。這兩個公式都簡化為貝葉斯-自適應設置,在其中保持對可能環境的概率信念。許多現有的解只提供了在實際環境中使用有限的漸近保證。我們開發了一種近似信念管理的變分方法,并通過廣泛的消融實證支持其有效性。然后,我們考慮最近成功的規劃方法,但發現和討論它們在應用到所討論的設置中的障礙。影響RL系統的數據需求和穩定性的一個重要因素是選擇合適的超參數。我們開發了一種貝葉斯優化方法,利用訓練過程的迭代結構,其經驗性能超過現有基線。本文的最后一個貢獻是提高高斯過程(GPs)的可擴展性和表達性。雖然我們沒有直接使用現有的框架,但GPs已經被用于在密切相關的設置中建模概率信念。
//ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077
現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。
本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。
論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
無人駕駛飛行器 (UAV) 在過去十年中受到無人機硬件和監管框架的快速創新推動,被設想用于為未來社會多種服務應用。從下一代無線網絡的角度來看,無人機不僅有望充當被動蜂窩連接用戶的角色,而且還可以作為無人機輔助網絡的一部分,作為連接的主動推動者。用例范圍從貨物的“最后一英里”交付、客運、基礎設施檢查、環境監測和測量到智能農業的推動者。它們快速靈活的部署使它們在地面通信基礎設施不堪重負或被破壞的情況下特別有用,例如在自然災害和搜救情況下。在擴展永久性網絡基礎設施不可行或經濟上不可行的偏遠地區,無人機可以為目前沒有移動互聯網的世界一半人口提供移動互聯網接入。
圖 1.1 無人機提供通信服務和支撐固定基礎設施的應用示例。
圖 1.2 無人機分類。
無人機在所有潛在應用場景中的決定性優勢是它們的移動性。為了充分利用它們的能力,靈活高效的路徑規劃方法是必要的。本論文的重點是探索機器學習 (ML),特別是強化學習 (RL),作為解決無人機移動管理挑戰的一類有前途的解決方案。隨著近年來RL與神經網絡相結合的研究進展,deep RL是為數不多的能夠直接解決通信場景下無人機控制與部署復雜任務的框架之一,因為這些問題通常是NP-hard優化問題,且受到非凸性的嚴重影響。此外,深度 RL 提供了以直接方式平衡無人機輔助網絡的多個目標的可能性,它在先驗或模型信息的可用性方面非常靈活,而深度 RL 推理在計算上是高效的。
中小型無人機路徑規劃的一個關鍵限制是它們的最大活動任務時間受到機載電池能量密度的限制。當用作向地面用戶提供數據服務的空中基站 (BS) 時,自主無人機需要共同優化其飛行時間和系統的通信性能目標。論文的第一部分探討了使用深度 Q 學習來控制空中 BS,該 BS 從地面用戶那里收集數據,同時集成專用著陸點,無人機可以在著陸點著陸,從而在繼續為用戶服務的同時在其軌跡上節省能源。深度 Q 學習允許無人機在沒有任何關于環境或任務的明確信息的情況下找到有效的軌跡。
圖 3.1 空中 BS 移動決策是根據無人機的當前狀態做出的,即位置和電池電量。 UAV 完全不知道環境的先驗知識,即不知道著陸點(LS)的存在或位置、用戶位置、信道模型或最終 UAV 著陸位置。雖然 LS 提供了節能的可能性,但 UAV BS 可能不得不為某些用戶犧牲一些 QoS。
雖然 RL 范式為解決無人機輔助網絡中的優化問題提供了許多優勢,但仍然存在一些實際挑戰,尤其是在無人機可以學習的訓練數據需求的背景下。在現實世界中收集訓練數據是一個昂貴且耗時的過程,而在傳統的 RL 方法中,如果任務參數發生變化,則需要重復冗長的訓練過程,例如無人機的電池容量。在本論文中,我們通過提出一種深度 RL 算法來解決這個問題,該算法將訓練擴展到來自分布式物聯網 (IoT) 設備的無人機數據收集任務的隨機實例,如果任務參數發生變化,則無需重新訓練。與傳統方法相比,結果是一個復雜得多的問題,因為需要同時找到數千個任務實例的解決方案。這可以通過利用任務密集城市環境的智能處理地圖信息來實現。我們將此設置擴展到協作多無人機案例,其中出現機群協作的額外挑戰,以及大型、復雜和現實的城市環境挑戰。
圖 4.7 同一智能體適應設備數量和設備位置差異以及飛行時間限制的圖示,顯示了曼哈頓場景中已使用和可用的飛行時間以及收集和可用的總數據。
圖 5.8 軌跡圖說明傳播條件的變化對已經訓練好的智能體的影響。圖 5.8a 顯示了在智能體訓練時使用路徑損耗指數的原始行為。圖 5.8b 顯示了相同智能體在其他情況不變的情況下,路徑損耗指數略低。
論文的以下部分探討了無人機輔助通信和機器人技術,這是兩個通常不相交的研究界。 RL 范式的固有靈活性為提出可在多個無人機路徑規劃實例中工作的解決方案提供了機會,例如物聯網數據收集和覆蓋路徑規劃 (CPP),這是一個經典的機器人問題。最后,在本文的最后一部分,研究了基于模型輔助學習框架的另一種解決RL算法訓練數據需求挑戰的方法。在這種方法中,UAV首先學習真實環境的模型,然后利用學習的模型生成模擬訓練數據,大大減少了對昂貴的真實世界數據的需求。
8月5日,ACM SIGKDD 2021 正式公布了最佳博士論文獎,Runner Up獎、新星獎、研究時間檢驗獎、應用數據科學時間檢驗獎、創新獎和服務獎。
其中斯坦福大學的Aditya Grover獲得最佳博士論文獎,UIUC 的Shweta Jain獲得Runner Up 獎
SIGKDD 博士論文獎
論文標題: Learning to Represent and Reason Under Limited Supervision 標題:在有限監督條件下的學習表征和推理 作者:Aditya Grover 機構:Facebook AI研究院
論文摘要:
自然智能體,如人類,擅長構建世界的表征,并使用這些表征來有效地進行推理和做決策。即使在有限的監督下,這種高級推理能力也可以發展起來。與此形成鮮明對比的是,基于機器學習 (ML) 的智能體在獲得大規模標注數據集或模擬器的條件下取得主要進展,如目標識別和玩游戲等。
本論文由三部分組成。首先,論文建立了基礎的學習概率生成模型,目標是模擬所有可用的數據,即使在監督受限的環境中,也能夠為智能體提供一個自然的學習目標。論文討論了很多使用這些模型進行高維學習和推理所需要的取舍(trade-off),包括選擇特定的學習目標、優化流程和模型參數等。
基于這些結果,研究者開發了新算法來提高模型的性能,并在用未標記的數據集進行訓練時降低偏置。之后,研究者將這些模型擴展到關系數據領域,用來學習這些數據的表征。這一過程是無監督的,研究者探索并展示了模型在分類和序列決策中的性能。最后,論文介紹了這些模型在加速科學研究的兩個實際應用:1.學習壓縮感知的數據相關先驗;2.優化電池充電的實驗設計。這些案例說明, 智能體能夠克服現實世界中高維推理和決策問題的關鍵監督瓶頸。
本文分為三個主題部分。第1部分研究了概率生成建模的統計和計算基礎。
在第二章,我們提供必要的背景設置的問題和回顧一些關鍵的工作。
在第三章中,我們討論了生成模型的兩種中心學習范式: 最大似然估計和對抗學習。
在第四章,我們提出了一個模型不可知的算法,以提高任何現有生成模型的性能。本章以[Gro+19a]為基礎,以我們在[GE18]中的早期工作為基礎。
在第五章中,我們提出了另一種模型無關的算法,以解決融合多個未標記數據源訓練生成模型時的潛在數據集偏差問題。
第二部分深入研究了概率生成模型的使用,用于在關系域上表示和推理,其中數據點偏離了獨立和同分布(i.i.d)假設。
在第六章中,我們提出了一個用于學習圖節點表示的潛在變量生成模型。
在第七章中,我們提出了一種結合生成目標和對比目標的多智能體系統中智能體策略學習表示的算法。
第三部分討論了在科學發現和可持續發展的現實世界中運應用概率方法的使用。
在第八章中,我們提出了一個生成建模框架,用于統計壓縮感知中的學習獲取和恢復過程。
在第九章中,我們提出了一種最優的實驗設計方法,適用于設計空間大和實驗時間密集的領域。作為一個案例研究,我們使用它來優化電池充電協議。
在第10章中,我們總結了本論文的主要貢獻和未來的研究方向。
作者介紹:
Aditya Grover是Facebook AI核心機器學習團隊的一位研究者,同時也是UCLA計算機系的一名助理教授。
Aditya的主要研究方向是用于概率建模的機器學習,無監督表征學習,以及序列決策,這些研究已用于物理學、氣候變化等領域。Aditya于2020年畢業于斯坦福大學,獲得博士學位,并在谷歌大腦、微軟研究院、OpenAI等機構完成了實習。
強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。
在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。
在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html