主題: Deep Reinforcement Learning with Applications in Transportation
簡介: 交通運輸,特別是移動乘車共享領域,存在許多傳統上具有挑戰性的動態決策問題,這些問題涉及研究文獻,而且很容易從人工智能(AI)中受益匪淺。一些核心示例包括在線乘車指令調度,該系統將可用的駕駛員與乘車共享平臺上的出行請求乘客實時匹配;路線規劃,用于規劃行程起點和終點之間的最佳路線;交通信號控制,可動態自適應地調整區域內的交通信號以實現低延遲。所有這些問題都有一個共同的特征,即在我們關注某個范圍內的一些累積目標時,要做出一系列決定。強化學習(RL)是一種機器學習范例,可訓練代理通過與之交互并獲取反饋信號來學習在環境中采取最佳行動(以所獲得的總累積獎勵衡量)。因此,它是用于解決順序決策問題的一類優化方法。得益于深度學習研究和計算能力的飛速發展,深度神經網絡和RL的集成為解決復雜的大規模學習問題在RL中產生了爆炸性的進展,近年來引起了巨大的興趣。深度學習和RL的結合甚至被認為是通往真正AI的道路。它具有巨大的潛力,以前所未有的方式解決運輸中的一些難題。
目錄簡介:
導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。
DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。
在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。
我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。
我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題
強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。
本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
Deep Reinforcement Learning via Policy Optimization
講座題目
深強化學習及其在交通運輸中的應用:Deep Reinforcement Learning with Applications in Transportation
講座簡介
交通領域,特別是移動共享領域,有許多傳統上具有挑戰性的動態決策問題,這些問題有很長的研究文獻,很容易從人工智能(AI)中受益匪淺。一些核心例子包括在線乘車命令調度,它將可用的駕駛員與在共享平臺上請求乘客的行程實時匹配;路線規劃,它規劃行程的起點和終點之間的最佳路線;交通信號控制,它動態和自適應地調整實現低延遲的區域。所有這些問題都有一個共同的特點,即當我們關注某一特定時間范圍內的一些累積目標時,需要做出一系列的決定。強化學習(RL)是一種機器學習范式,它通過與環境的交互和獲取反饋信號,訓練agent學會在環境中采取最佳行動(以獲得的總累積回報衡量)。因此,它是一類求解序列決策問題的優化方法。
講座嘉賓
Jen-Tzung Chien在臺灣新竹國立清華大學取得電機工程博士學位。現任職于臺灣新竹國立交通大學電子及電腦工程學系及電腦科學系講座教授。2010年,他擔任IBM沃森研究中心的客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。在2011年獲得了IEEE自動語音識別和理解研討會的最佳論文獎,并在2018年獲得了AAPM Farrington Daniels獎。2015年,劍橋大學出版社出版《貝葉斯語音與語言處理》;2018年,學術出版社出版《源分離與機器學習》。他目前是IEEE信號處理技術委員會機器學習的當選成員。
報告主題: Reinforcement Learning
報告簡介: 強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞,強化學習不同于連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由于外部環境提供的信息很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。其基本原理是:如果Agent的某個行為策略導致環境正的獎賞(強化信號),那么Agent以后產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。Nando教授將從強化學習的基礎入手,并結合強化學習的應用展開介紹。
嘉賓介紹: Nando曾在加州大學伯克利分校(UC Berkeley)從事人工智能工作,并于2001年成為加拿大不列顛哥倫比亞大學的教授,隨后于2013年成為英國牛津大學的教授。2017年,他全職加入DeepMind,擔任首席科學家,以幫助他們解決智力問題,使子孫后代可以過上更好的生活。 Nando還是加拿大高級研究所的資深研究員,并曾獲得多個學術獎項。
主題: Artificial Intelligence in Transportation
簡介:
交通是生活的基本必需品。在人類歷史上,探索更好的交通方式從來沒有停止過。近年來,拼車行業的革命和自動駕駛技術的創新每天都產生大量的交通數據。如此龐大的數據量開啟了現代智能交通的新時代。許多傳統的交通問題可以通過現代機器學習和數據挖掘方法找到更好的解決方案。本教程的目的是為參與者提供一個廣泛和全面的基礎,最近的發展和交通AI的開放問題。
交通運輸是一個非常廣泛的研究領域。本教程以全球最大的移動交通平臺滴滴出行的實際應用和需求為基礎,圍繞移動交通平臺的主題展開。我們將主題分為三類。首先是地圖服務,包括地圖匹配、交通預測、預計到達時間(ETA)和路線規劃等,為后續的決策過程提供準確的基礎信息。這些問題大多在純交通或地理信息系統的文獻中進行了研究。然而,這些都不能滿足實時移動交通平臺的準確性或效率要求。有必要以現代的觀點重新審視這些問題,并探索適應更嚴格要求的新解決方案。第二類是決策,構建核心共乘平臺。類似的問題在交通運輸以外的研究領域也得到了廣泛的研究。然而,隨著移動交通系統的新挑戰,它們被重新定義。最后一類是用戶體驗,如出行安全評估,這是移動交通平臺的獨特需求。
邀請嘉賓:
王征博士,滴滴AI實驗室研究員,滴滴智能地圖服務架構研究員。2011年獲得清華大學博士學位,2011-2014年在亞利桑那州立大學擔任研究員,2014-2016年在密歇根大學安娜堡分校擔任研究員。他獲得了多個獎項,包括KDD的最佳研究論文獎亞軍和IEEE國際社會計算會議(SocialCom)的最佳論文獎。曾擔任ICML、NIPS、SDM、IJCAI等重要會議PC委員,并在ICDM上做過輔導。他現在領導著研發團隊,致力于設計和開發新的機器學習系統和服務,用于滴滴地圖和滴滴能力預測平臺。他設計了滴滴ETA和路線規劃服務的新型機器學習和深度學習解決方案,每天服務超過200億次請求。
秦志偉博士在滴滴AI實驗室領導強化學習研究,致力于拼車市場優化的核心問題。他在哥倫比亞大學獲得運籌學博士學位,在溫哥華不列顛哥倫比亞大學獲得計算機科學和統計學學士學位。對優化和機器學習交叉領域的研究課題非常感興趣,最近的研究領域是強化學習及其在運營優化、數字營銷、交通信號控制和教育中的應用。曾在ICML、KDD、IEEE ICDM、WWW、JMLR和MPC等頂級會議和機器學習與優化期刊上發表文章。
主題: Exploration-Exploitation in Reinforcement Learning
摘要: 強化學習(RL)研究的是當環境(即動力和反饋)最初未知,但可以通過直接交互學習時的順序決策問題。學習問題的一個關鍵步驟是恰當地平衡對環境的探索,以便收集有用的信息,并利用所學的政策來收集盡可能多的回報。最近的理論結果證明,基于樂觀主義或后驗抽樣的方法(如UCRL、PSRL等)成功地解決了勘探開發難題,并且可能需要比簡單(但非常流行)的技術(如epsilon貪心)小指數的樣本來收斂到接近最優的策略。樂觀主義和后驗抽樣原則直接受到多臂bandit文獻的啟發,RL提出了具體的挑戰(例如,“局部”不確定性如何通過Markov動力學傳播),這需要更復雜的理論分析。本教程的重點是提供勘探開發困境的正式定義,討論其挑戰,并回顧不同優化標準(特別是有限時間和平均回報問題)的主要算法原則及其理論保證。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
邀請嘉賓: Ronan Fruit,Inria SequeL團隊的博士生。他目前是蒙特利爾Facebook人工智能研究(FAIR)的研究實習生。他的研究集中在理論上理解強化學習中的探索性開發困境,以及設計具有可證明的良好后悔保證的算法。
Alessandro Lazaric,自2017年以來一直是Facebook AI Research(FAIR)實驗室的研究科學家,他之前是SequeL團隊Inria的研究員。他的主要研究主題是強化學習,在RL的理論和算法方面都做出了巨大貢獻。在過去的十年中,他研究了多臂土匪和強化學習框架中的勘探與開發困境,特別是在遺憾最小化,最佳武器識別,純粹探索和分層RL等問題上。
Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)實驗室的研究科學家。之前,他是SequeL團隊的Inria博士后。2016年,他在米蘭理工大學(意大利)獲得計算機科學博士學位。他在強化學習方面的博士論文獲得了Dimitris N.Chorafas基金會獎和EurAI杰出論文獎。他的主要研究興趣是強化學習。近幾年來,他主要關注的是RL的勘探開發困境。