模仿學習是強化學習與監督學習的結合,目標是通過觀察專家演示,學習專家策略,從而加速強化學習。通過引入 任務相關的額外信息,模仿學習相較于強化學習,可以更快地實現策略優化,為緩解低樣本效率問題提供了解決方案。近年 來,模仿學習已成為解決強化學習問題的一種流行框架,涌現出多種提高學習性能的算法和技術。通過與圖形圖像學的最新 研究成果相結合,模仿學習已經在游戲 AI (artificial intelligence)、機器人控制、自動駕駛等領域發揮了重要作用。**本綜述圍 繞模仿學習的年度發展,從行為克隆、逆強化學習、對抗式模仿學習、基于觀察量的模仿學習和跨領域模仿學習等多個角度 進行了深入探討。**綜述介紹了模仿學習在實際應用上的最新情況,比較了國內外研究現狀,并展望了該領域未來的發展方向。 報告旨在為研究人員和從業人員提供模仿學習的最新進展,從而為開展工作提供參考與便利。//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202301140000005&journal_id=jig
1. 引言
深度強化學習(deep reinforcement learning,DRL) 有著樣本效率低的問題,通常情況下,智能體為了 解決一個并不復雜的任務,需要遠遠超越人類進行 學習所需的樣本數。人類和動物天生就有著模仿其 它同類個體的能力,研究表明人類嬰兒在觀察父母 完成一項任務之后,可以更快地學會該項任務 (Meltzoff 等,1999)。基于神經元的研究也表明,一 類被稱為鏡像神經元的神經元,在動物執行某一特 定任務和觀察另一個體執行該任務的時候都會被激 活(Ferrari 等,2005)。這些現象都啟發了研究者希望 智能體能通過模仿其它個體的行為來學習策略,因 此模仿學(imitation learning,IL)的概念被提出。模仿 學習通過引入額外的信息,使用帶有傾向性的專家 示范,更快地實現策略優化,為緩解樣本低效問題 提供了一種可行的解決途徑。
由于模仿學習較高的實用性,其從誕生以來一 直都是強化學習重要的研究方向。傳統模仿學習方 法主要包括行為克隆(Bain 和 Sammut,1995)、逆強 化學習(Ng 等,2000)、對抗式模仿學習(Ho 和 Ermon, 2016)等,這類方法技術路線相對簡單,框架相對單 一,通常在一些簡單任務上能取得較好效果 (Attia and Dayan,2018;Levine,2018)。隨著近年來計算 能力的大幅提高以及上游圖形圖像任務(如物體識 別、場景理解等)的快速發展,融合了多種技術的模 仿學習方法也不斷涌現,被廣泛應用到了復雜任務, 相關領域的新進展主要包括基于觀察量的模仿學習 (Kidambi 等,2021)、跨領域模仿學習(Raychaudhuri 等,2021;Fickinger 等,2021)等。
基于觀察量的模仿學習(imitation learning from observation,ILfO)放松了對專家示范數據的要求, 僅從可被觀察到的專家示范信息(如汽車行駛的視 頻信息)進行模仿學習,而不需要獲得專家的具體 動作數據(如人開車的方向盤、油門控制數據) (Torabi 等,2019)。這一設定使模仿學習更貼近現實 情況,使相關算法更具備實際運用價值。根據是否 需要建模任務的環境狀態轉移動力學(又稱為“模 型”),ILfO 類算法可以被分為有模型和無模型兩類。 其中,有模型方法依照對智能體與環境交互過程中 構建模型的方式,可以進一步被分為正向動態模型 (forward dynamics models)(Edwards 等 , 2019 ; Kidambi 等,2021)與逆向動態模型(inverse dynamics models)(Nair 等,2017;Torabi 等,2018;Guo 等,2019;Radosavovic 等,2021);無模型的方法主要包 括對抗式方法(Merel 等,2017;Stadie 等,2017; Henderson 等,2018) 與獎勵函數工程法(Gupta 等, 2017;Aytar 等,2018;Schmeckpeper 等,2021)。
跨領域模仿學習(cross domain imitation learning, CDIL)主要聚焦于研究智能體與專家處于不同領域 (例如不同的馬爾可夫決策過程)的模仿學習方法。 當前的 CDIL 研究主要聚焦于以下三個方面的領域 差異性(Kim 等,2020):1)狀態轉移差異(Liu 等, 2019),即環境的狀態轉移不同;2)形態學差異(Gupta 等,2017),即專家與智能體的狀態、動作空間不同; 3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020),即專家與智能體的觀察量不同。 根據算法依賴的主要技術路徑,其解決方案主要可 以分為:1)直接法(Taylor 等,2007),該類方法關注 形態學差異來進行跨領域模仿,通常使用簡單關系 函數(如線性函數)建立狀態到狀態之間的直接對 應關系;2)映射法(Gupta 等,2017;Sermanet 等, 2018;Liu 等,2018),該類方法尋求不同領域間的 深層相似性,利用復雜的非線性函數(如深度神經 網絡)完成不同任務空間中的信息轉移,實現跨領 域模仿;3)對抗式方法(Sharma 等,2019;Kim 等, 2020),該類方法通常包含專家行為判別器與跨領域 生成器,通過交替求解最小-最大化問題來訓練判別 器和生成器,實現領域信息傳遞;4)最優傳輸法 (Papagiannis 和 Li,2020;Dadashi 等,2021;Nguyen 等,2021;Fickinger 等,2021),該類方法聚焦專家 領域專家策略占用測度(occupancy measure)與目標 領域智能體策略占用測度間的跨領域信息轉移,通 過最優傳輸度量來構建策略遷移模型。
當前,模仿學習的應用主要集中在游戲 AI、機 器人控制、自動駕駛等智能體控制領域。圖形圖像 學方向的最新研究成果,如目標檢測(Feng 等,2021; Li 等,2022)、視頻理解(Lin 等,2019;Bertasius 等, 2021) 、視頻分類 (Tran 等 , 2019) 、視頻識別 (Feichtenhofer,2020)等,都極大地提升了智能體的 識別、感知能力,是模仿學習取得新進展與新應用 的重要基石。此外,近年來也有研究者開始探索直 接使用 IL 提高圖形/圖像任務的性能,如 3D/2D 模 型與圖像配準(Toth 等,2018)、醫學影像衰減校正 (Kl?ser 等,2021)、圖像顯著性預測(Xu 等,2021)等。 總體來說,模仿學習與圖像處理的有機結合,極大 地拓展了相關領域的科研范圍,為許多困難問題的 解決提供了全新的可能性。
本文的主要內容如下:首先簡要介紹模仿學習 概念,同時回顧必要的基礎知識;然后選取模仿學 習在國際上的主要成果,介紹傳統模仿學習與模仿 學習最新進展,同時也將展現國外最新的研究現狀; 接著選取國內高校與機構的研究成果,介紹模仿學 習的具體應用,同時也會比較國內外研究的現狀; 最后將總結本文,并展望模仿學習的未來發展方向 與趨勢,為研究者提供潛在的研究思路。本文是第 一個對模仿學習最新進展(即基于觀察量的模仿學 習與跨領域模仿學習)進行詳細調研的綜述,除本 文以外,(Ghavamzadeh 等,2015;Osa,2018;Attia 和 Dayan,2018;Levine,2018;Arora 和 Doshi, 2021)等文章也對模仿學習的其它細分領域進行了 調研。
**2 模仿學習新進展 **
隨著強化學習與模仿學習領域研究的不斷深入, 近些年模仿學習領域的研究取得了一些矚目的新進 展,相關的研究不再局限于理論分析與模擬環境, 而是轉向更貼近實際的方向,例如:基于觀察量的 模仿學習(2.1 節),跨領域模仿學習(2.2 節)。在 這些領域的許多工作,考慮了使用實際數據集進行 模仿學習訓練;同時其目標也并非局限于完成 Gym 等模擬環境上提供的標準任務,而是進一步轉向模 仿學習算法在機器人控制、自動駕駛等領域的實際 應用,為“模擬到現實”做出了堅實的推進。
**2.1 基于觀察量的模仿學習 **
當智能體試圖僅通過“觀察”來模仿專家的策略 時,就會出現基于觀察量的模仿學習(Imitation Learning from Observation,ILfO)這一任務(Torabi 等, 2019)。所謂的“觀察”,指的是僅包含狀態信息而不 包含動作信息的專家示范,它可以是僅包含狀態信 息的軌跡???????? = {????????}????=1 ???? ,也可以是單純的圖片或視頻。 相較于傳統模仿學習中既可以獲得專家所處的狀態, 又可以獲得專家在當前狀態下的策略(動作)的設 定,ILfO 放松了對專家示范數據的要求,從而成為 了一種更貼近現實情況、更具備實際運用價值的設 定。值得注意的是,ILfO 可以直接使用專家行為的 圖片數據作為輸入(Liu 等,2018;Torabi 等,2019; Karnan 等,2022),這在引入海量數據集的同時,也 將模仿學習與圖像圖形學、計算機視覺等領域有機 地結合起來,從而極大地拓展了相關領域的潛在研 究方向,為相關領域的進一步發展開辟了新的土壤。
IL 的目標類似,ILfO 的目標是讓智能體通 過模仿僅包含狀態信息的專家示范數據,輸出一個具有相同行為的策略。既然 ILfO 是一種更貼近現實 的設定,如何從現實的專家行為中獲得示范數據是 首先要解決的問題。一些早期的工作通過直接在專 家身上設置傳感器的方式記錄專家的行為數據 (Ijspeert 等,2001;Calinon 和 Billard,2007)。上述 方法的升級版本是采用動作捕捉技術,專家需要佩 戴專業的動作捕捉設備,這樣做的好處是計算機系 統可以直接對專家的行為進行 3 維建模,從而轉換 成模擬系統易于識別的輸入(Field 等,2009;Merel 等,2017)。隨著前些年卷積神經網絡在處理圖像數 據上大放異彩,現在較為常見的是直接使用攝像頭 拍攝專家行為,進而直接使用圖像、視頻數據作為 輸入(Liu 等,2018;Sharma 等,2019;orabi 等,2019; Karnan 等,2022)。 由于 ILfO 無法獲得專家動作,因此將專家動作 視為狀態標簽的方法將不再適用,這也使得 ILfO 變 成了更具挑戰的任務。一般來說,基于 ILfO 設定的 算法可以被分為有模型和無模型兩類。所謂的“模 型”,一般指的是環境的狀態轉移,通過對智能體與 環境交互過程中學習模型的方式作區分,可以進一 步將有模型的方法分為:正向動態模型(forward dynamics models)與逆向動態模型(inverse dynamics models);無模型的方法主要包括:對抗式方法與獎 勵函數工程法。
**2.2 跨領域模仿學習 **
跨領域模仿學習(cross domain imitation learning, CDIL)相關領域的研究最早可以追溯到機器人控制 領域通過觀察來讓機器人學習策略(Kuniyoshi 等, 1994;Argall 等,2009)。后來隨著對 ILfO(章節 2.1) 研究的深入,CDIL 的相關研究也越來越受重視。與 傳統設定下的 IL 相比,跨領域模仿學習與現實世界 中的學習過程兼容性更好(Raychaudhuri 等,2021)。 傳統的 IL 假設智能體和專家在完全相同的環境中 決策,而這一要求幾乎只可能在模擬系統(包括游戲) 中得到滿足。這一缺點嚴重地限制了傳統 IL 在現實 生活中可能的應用場景,并且將研究者的工作的重心轉移到對場景的準確建模,而并非算法本身的性 能上。CDIL 的產生打破了這一枷鎖,因為智能體可 以使用不同于自身領域的專家示范來學習策略。當 前 CDIL 所研究的領域差異主要集中在以下三個方 面(Kim 等,2020):1)狀態轉移差異(Liu 等,2019); 2)形態學差異(Gupta 等,2017);3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020)。 這些差異也對應第 2.1 章中提及的 ILfO 所面臨的挑 戰。
在模仿學習變得為人熟知之前,這一研究領域 更廣泛地被稱為遷移學習(Taylor 等,2008)。例如, Konidaris 等人(2006)通過在任務之間共享的狀態表 示子集上學習價值函數,來為目標任務提供塑性后 獎勵。Taylor 等人(2007)人工設計了一個可以將某一 MDP 對應的動作價值函數轉移到另一 MDP 中的映 射來實現知識遷移。直觀地說,為了克服智能體環 境和專家環境之間的差異,需要在它們之間建立一 個轉移或映射。Taylor 等人 (2008)介紹了一種“直接 映射”的方法,來直接學習狀態到狀態之間的映射關 系。然而,在不同領域中建立狀態之間的直接映射 只能提供有限的轉移,因為兩個形態學上不同的智 能體之間通常沒有完整的對應關系,但這種方法卻 不得不學習從一個狀態空間到另一個狀態空間的映 射(Gupta 等,2017),從而導致該映射關系是病態的。 早期的這些方法,大多都需要特定領域的知識,或 是人工構建不同空間之間的映射,這通常會使研究 變得繁瑣且泛化性較差,因此必須借助更為先進的 算法來提升性能。 隨著深度神經網絡的發展,更具表達性的神經 網絡被廣泛運用,CDIL 也迎來了較快的發展。 (Gupta 等,2017;Sermanet 等,2018;Liu 等,2018) 等文章研究機器人從視頻觀察中學習策略,為了解 決專家示范與智能體所處領域不同的問題,他們的 方法借助不同領域間成對的、時間對齊的示范來獲 得狀態之間對應關系,并且這些方法通常涉及與環 境進行交互的 RL 步驟。相較于“直接映射”的方法, 這些方法學習的映射并不是簡單的狀態對之間的關 系,而更多利用了神經網絡強大的表達性能,從而 取得更好的實驗效果。但不幸的是,成對且時間對 齊的數據集很難獲得,從而降低了該種方法的可實現性(Kim 等,2020)。
**3 模仿學習應用 **
隨著基于觀察量的模仿學習與跨領域模仿學習 的不斷發展,基于 IL 的算法也越來越符合現實場景 的應用要求,此外,圖形圖像學上的諸多最新研究 成果,也為 IL 的現實應用進一步賦能。模仿學習的 主要應用領域包括但不限于:1)游戲 AI;2)機器人 控制;3)自動駕駛;4)圖像圖形學等。本章節將列舉 有代表性的模仿學習應用類工作,同時由于現階段 國內關于模仿學習的研究主要集中在應用領域,因 此本章節將著重選取國內高校、機構的工作成果, 進而為國內該領域的研究者提供一些參考。 Gym(Brockman 等,2016)與 Mujoco(Todorov 等, 2012)是強化學習領域被最廣泛使用的訓練環境,其 為強化學習領域的研究提供了標準環境與基準任務, 使得不同的算法能在相同的設定下比較性能的優劣。 模仿學習作為強化學習最為熱門的分支領域,也廣 泛使用 Gym 與 Mujoco 作為訓練/測試環境。Gym 包 含多個基礎游戲環境以及雅達利游戲環境,Mujoco 包含多個智能體控制環境同時支持自建任務。值得 注意的是,Gym 與 Mujoco 都包含大量的圖像環境, 即以圖像的形式承載環境的全部信息,這就使得圖 像圖形學的眾多最新成果,直接推動了模仿學習的 應用。考慮到 Gym 與 Mujoco 的虛擬仿真特性,可 將其歸類為游戲環境。這些使用 Gym 與 Mujoco 進 行訓練或驗證的模仿學習算法,都能在一定程度上 推廣到其他游戲領域的應用。國內的諸多高校都在 該方面做出了自己的貢獻,包括 清華大學的 Yang 等人(2019)探究了基于逆向動態模型的 IL 算法性能, Jing 等人(2021)驗證了分層模仿學習的性能;上海交 通大學的 M.Liu 等人(2020)探究基于能量的模仿學 習算法性能,Liu 等人(2021)探究離線模仿學習算法 COIL(curriculum offline imitation learning)的性能, Liu等人(2022)探究通過解耦策略優化進行模仿學習。 南京大學的 Zhang 等人(2022)探究生成式對抗模仿 學習的性能,Xu 等人(2020) 探究模仿策略的誤差界 限,Jiang 等人(2020) 探究帶誤差的模擬器中的離線 模仿學習。
Gym 與 Mujoco 環境之外,模仿學習也被廣 泛用于訓練棋類與即時戰略類游戲 AI。這類游戲任 務的難度顯著增加,且通常包含較大信息量的圖像數據,因此也會更依賴于先進的圖像處理方法(例如 目標檢測)。對于這些復雜游戲環境,狀態動作空間 過于龐大,獎勵信息過于稀疏,智能體通常無法直 接通過強化學習獲得策略。進而,智能體首先通過 模仿人類選手的對局示范來學習較為基礎的策略, 然后使用強化學習與自我博弈等方式進一步提升策 略。其中最為代表的就是 Google 公司開發的圍棋游 戲 AI AlphaGo(Silver 等,2016)以及星際爭霸AI Alphastar(Vinyals 等,2019)。與國外的情況相似國內工業界也十分重視該類游戲 AI 的開發,包括 騰 訊公司開發的王者榮耀(復雜的多智能體對抗環境) 游戲 AI(Ye 等,2020);華為公司基于多模式對抗模 仿學習開發的即時戰略游戲 AI(Fei 等,2020),如圖 3 所示。考慮到該類游戲的超高復雜性,人工智能在 如此復雜的任務中完勝人類對手,可以預見人工智 能在游戲領域完全超越人類已經只是時間問題。 在機器人控制領域,由于機器人的價格昂貴, 部件易損且可能具備一定危險性,因此需要一種穩 定的方式獲得策略,模仿學習讓機器人直接模仿專 家的行為,可以快速、穩定地使其掌握技能,而不依 賴于過多的探索。斯坦福大學的 Abbeel 等人(2006), 早在 2006 年就將逆強化學習方法用在直升機控制 任務上(如圖 4 所示)。加州大學伯克利分校的 Nair 等人(2017),結合自監督學習與模仿學習的方法,讓 機器人通過模仿專家行為的視頻數據,學習完成簡 單的任務(如圖 5 所示)。國內高校也在該領域做出 了一定的貢獻,包括 清華大學的 Fang 等人(2019)調 研了模仿學習在機器人操控方面的研究。中國科學 院大學的 Jiayi Li 等人(2021)通過視頻數據進行元模 仿學習以控制機器(如圖 6 所示)。中科院自動化所 的 Y. Li 等人(2021)通過視頻數據進行模仿學習以精 確操控機器手臂的位置。 自動駕駛是當前人工智能最重要的應用領域 (Grigorescu 等,2020;Kiran 等,2021),模仿學習憑 借其優秀的性能也在該領域占據一席之地,特別是 基于觀察量的模仿學習與跨領域模仿學習兼容自動 駕駛的絕大部分現實需求,從而使得 IL 在該領域大 放異彩(Codevilla 等,2018;Bhattacharyya 等,2018Liang 等,2018;Chen 等,2019;Kebria 等,2019; Pan 等,2020)。國內的高校與企業也十分重視模仿 學習在自動駕駛領域的研究,包括 清華大學的 Wu 等人(2018)結合模仿學習進行水下無人設備訓練。浙 江大學的 Li 等人(2020)探究了用于視覺導航的基于 無監督強化學習的可轉移元技能;Wang 等人(2021) 探究從分層的駕駛模型中進行模仿學習(如圖 7 所 示);百度公司的 Zhou 等人(2021)使用模仿學習實現 自動駕駛。北京大學的 Zhu 等人(2021)關于深度強 化學習與模仿學習在自動駕駛領域的應用作了綜述。 事實上,近年來模仿學習也被直接用于圖像處 理上,在圖形圖像領域發揮出獨特的價值。Toth 等 人(2018)探究模仿學習在心臟手術的 3D/2D 模型與 圖像配準上的應用。Kl?ser 等人(2021)研究模仿學習 在改進3D PET/MR(positron emission tomography and magnetic resonance)衰減校正上的應用。北京航天航 空大學的Xu等人(2021)探究了生成對抗模仿學習在 全景圖像顯著性預測上的應用。 在其它領域,模仿學習也有著廣泛的應用,包 括電子有限集模型預測控制系統 (Novak 和 Dragicevic,2021)、云機器人系統(B. Liu 等,2020)、 異構移動平臺的動態資源管理(Mandal 等,2019)、 多智能體合作環境中的應用(Hao 等,2019)、信息檢 索(Dai 等,2021)、移動通信信息時效性(Wang 等, 2022)、黎曼流形(Zeestraten 等,2017)、運籌學 (Ingimundardottir 和 Runarsson,2018)、緩存替換(Liu 等,2020)等。
逆向強化學習(Inverse Reinforcement Learning, IRL)也稱為逆向最優控制(Inverse Optimal Control, IOC),是強化學習和模仿學習領域的一種重要研究方法,該方法通過專家樣本求解獎賞函數,并根據所得獎賞函數求解最優策略,以達到模仿專家策略的目的.近年來,逆向強化學習在模仿學習領域取得了豐富的研究成果,已廣泛應用于汽車導航、路徑推薦和機器人最優控制等問題中.該文首先介紹了逆向強化學習理論基礎,然后從獎賞函數構建方式出發,討論分析基于線性獎賞函數和非線性獎賞函數的逆向強化學習算法,包括最大邊際逆向強化學習算法、最大熵逆向強化學習算法、最大熵深度逆向強化學習算法和生成對抗模仿學習等.隨后從逆向強化學習領域的前沿研究方向進行綜述,比較和分析該領域代表性算法,包括狀態動作信息不完全逆向強化學習、多智能體逆向強化學習、示范樣本非最優逆向強化學習和指導逆向強化學習等.最后總結分析當前存在的關鍵問題,并從理論和應用方面探討了未來的發展方向.
//www.jos.org.cn/josen/article/abstract/6671
**1 引言 **
逆向強化學習(Inverse Reinforcement Learning, 簡稱 IRL)作為一種學習專家策略的模仿學習算法,已成功應用于汽車導航[1]、路徑規劃[2,3]、行為預測[4-8]和機器最優控制[9-11]等領域.近年來,鑒于以上任務的復雜性和應用前景,逆向強化學習已成為強化學習領域和模仿學習領域的研究熱點.本文旨在梳理逆向強化學習發展脈絡,介紹前沿研究進展和分析關鍵問題. 逆向強化學習方法將模仿學習問題抽象為馬爾可夫決策過程,應用強化學習方法模仿專家策略.與強化學習依據獎賞函數求解最優策略不同,逆向強化學習方法包含依據專家樣本求解獎賞函數過程,因其與強化學習方法學習過程相反,被稱為逆向強化學習算法. 強化學習(Reinforcement Learning, 簡稱 RL)起源于最優控制領域,是一種通過與環境交互求解最優策略的方法,廣泛應用于工業制造[12]、機器人最優控制[13]、游戲博弈[14,15]、優化與調度[16-18]和仿真模擬[19]等領域.強化學習方法基于馬爾可夫決策過程,通過智能體與環境交互獲得獎賞,并根據累積獎賞更新策略以選取最優動作,具有對環境探索的自學能力.算法在執行過程中持續探索環境和利用環境反饋信息,使智能體的策略逐步迭代收斂至最優策略.此外,強化學習方法中的獎賞函數由人工設定,作為設計人員與智能體之間的溝通媒介,獎賞函數中蘊含設計人員所期望目標的全部信息,而智能體通過與環境交互獲得獎賞的方式“解碼”獎賞函數, 完成期望任務.
模仿學習是一種通過專家樣本模仿專家策略的方法[20,21],包括行為克隆方法(Behavioral Cloning, 簡稱BC)和逆向強化學習方法. 行為克隆[22,23]方法直接學習狀態或標簽到動作或路徑的映射,無需建立獎賞函數,一般通過監督學習方法實現.對于小狀態空間問題,行為克隆是一種十分高效的方法.但在連續狀態-動作空間或大狀態-動作空間問題中,因為行為克隆方法只考慮在每個狀態采取的動作與專家樣本是否匹配,不考慮未來收益,所以若與環境交互路徑很長且專家樣本不足,則行為克隆方法會將細微誤差在連續決策中逐步放大,甚至環境發生一點變化,都會極大影響算法性能,這被稱為行為克隆方法中的復合誤差問題[24,25]. 逆向強化學習也被稱為逆向最優控制[26,27](Inverse Optimal Control, 簡稱 IOC),最初由Russell 于1998年提出[28].與強化學習方法相同,逆向強化學習方法基于馬爾可夫決策過程,通過智能體與環境交互求解最優策略. 在一般強化學習問題中,獎賞函數由人工設定,而在許多復雜問題中,很難設計出精確的獎賞函數,此時卻很容易通過專家策略采樣專家樣本,例如汽車駕駛[29]和操縱機器打結等[30,31].針對這類問題,逆向強化學習方法拋棄人工設定獎賞函數過程,直接通過專家樣本重建獎賞函數,并依據所得獎賞函數求解最優策略,達到模仿專家策略的目的[32]. 相比行為克隆方法,逆向強化學習方法具有更好的泛化性和魯棒性[33,34],若環境改變或在專家樣本狀態-動作空間之外,仍可保證算法性能.此外,由于逆向強化學習方法通過最大化累積獎賞值求解最優策略,所以逆向強化學習方法方法不存在行為克隆方法中的復合誤差問題.
逆向強化學習方法的獎賞函數最初為線性函數,由 Ng 等人于 2000 年提出[35],此后基于學徒學習的逆向強化學習算法[36]、最大邊際算法[37]、最大熵算法[38]和相對熵算法[39]等被相繼提出.這類算法假設狀態或狀態-動作對特征的線性組合為獎賞函數,算法的最終目標為求解每個特征的系數,當特征系數確定,獎賞函數隨之確定.逆向強化學習方法中多個獎賞函數均可求解專家策略,這被稱為非適定(ill-posed)問題,算法仍需在滿足條件的獎賞函數集合中選擇最優解.Ng 等人基于啟發式搜索思想要求獎賞函數滿足約束條件的同時還需滿足額外目標函數,這一思想可用線性規劃或二次規劃數學模型表示.因此,早期逆向強化學習方法使用線性規劃或二次規劃方法求解獎賞函數,且獎賞函數為線性基函數,依據不同目標函數,基于基函數的算法分為三類:基于最大邊際思想的算法、基于概率模型思想的算法和基于結構化分類思想的算法.上述三類算法要求獎賞函數滿足基本約束條件,在此基礎之上,基于最大邊際思想的算法要求獎賞函數盡可能區分專家策略(最優策略)與次優策略,即專家策略平均回報盡可能大于次優策略平均回報.基于概率模型思想的算法將問題抽象為概率模型,每個獎賞函數對應的最優路徑(trajectory)都滿足各自的概率分布[40].因此最大熵算法要求獎賞函數在滿足基本約束條件的同時,保證其所對應最優路徑概率分布的熵值最大,類似還有基于交叉熵[41,42]、相對熵和最大似然估計[43]等算法.基于結構化分類思想的算法通過多個線性參數化分類器求解獎賞函數,以使每個狀態的累積回報盡可能大.總體來說,基于線性獎賞函數的逆向強化學習算法在一些小狀態空間和離散狀態空間問題中取得了不錯的效果,且應用到汽車導航問題中.這類算法除相對熵算法外都是基于模型的算法,因此需要提供環境模型(狀態轉移概率),在一定程度上限制了算法的應用.另外,由于所有的獎賞函數都是特征的線性組合,導致以下問題:(1)特征需要憑借人的經驗來選取,增加了算法的難度和不穩定性;(2)線性獎賞函數形式簡單,存在表達能力有限的問題.
為克服線性獎賞函數的局限性,基于非線性獎賞函數的逆向強化學習算法被提出,包括基于貝葉斯的非參數化特征構建算法[44]和基于神經網絡的非線性逆向強化學習算法.基于貝葉斯的非參數化特征構建算法用高斯過程[45](Gaussian Processes, 簡稱GPs)構建非線性獎賞函數,在一定程度上解決了線性獎賞函數表征能力不足的問題,但同時也需要提供大量專家樣本.傳統逆向強化學習算法(例如學徒學習算法、最大邊際算法、最大熵算法、相對熵算法)與神經網絡結合,將神經網絡作為獎賞函數,取得了很好的效果.這類算法可以通過神經網絡自動提取狀態特征,具有更強的表征能力.目前,在游戲、自動駕駛、路徑導航和機器控制領域取得了一定成果.
Ho等人將在計算機視覺領域取得優秀成果的生成對抗網絡[46](Generative Adversarial Networks, 簡稱GAN)與逆向強化學習結合,提出生成對抗模仿學習算法[47](Generative Adversarial Imitation Learning, 簡稱GAIL).該算法將逆向強化學習過程抽象為求解獎賞函數的IRL過程和求解最優策略的RL過程,并指出兩個過程的交替迭代為零和博弈問題,因此可用生成對抗思想解決.相比非線性逆向強化學習算法,GAIL具有更小的計算量和更高的性能,但也存在訓練不穩定、模態崩塌[48](mode collapse)和生成樣本利用率低的問題[49,50]. 近年來,逆向強化學習方法在機器最優控制領域、狀態動作信息不完全領域、多智能體領域和提高專家樣本利用率等領域都取得了進展,也有學者將專家樣本最優性假設進行擴展,解決專家樣本非最優問題[51-53],此外還有指導逆向強化學習方法研究等[54-60]. 逆向強化學習方法發展至今,已成為模仿學習方法中最重要的實現方式.本文將基于以上分類,梳理逆向強化學習的發展脈絡,分析其發展的內部機理,探討其優勢和不足,并總結未來可能的發展方向.本文的結構框架如圖 1 所示,下文將按照圖 1 結構,介紹逆向強化學習領域的關鍵論文和最新進展.
2 逆向強化學習研究進展
2.1 基于線性獎賞函數的逆向強化學習
在逆向強化學習方法發展初期,用狀態-動作對特征的線性組合表示獎賞函數.因為獎賞函數的不確定性, 傳統逆向強化學習方法致力于通過啟發式搜索選擇最優獎賞函數,依據其不同實現方式,分為最大邊際方法、概率模型方法和結構化分類方法.本節從基于線性獎賞函數的逆向強化學習方法出發,介紹傳統逆向強化學習算法對獎賞函數的初選和擇優問題的解決.
2.2 基于非線性獎賞函數的逆向強化學習
在傳統逆向強化學習算法中,由于線性獎賞函數表達能力不足,限制了算法的應用.在解決連續高維狀態-動作空間問題時,線性獎賞函數難以準確表征真實獎賞函數.因此需要將線性獎賞函數變為非線性函數,提高其表達能力[84,85]. 另外,算法設計時,特征需憑借設計人員經驗選取,所選特征的范圍和正確性直接影響算法性能[1],增加了算法的難度和不穩定性.
表 1 將對前 9 章提到的主要算法以表格形式分析比較,介紹算法相比之前算法的創新點,并分析算法的優缺點和關鍵特性,例如:獎賞函數的類型、獎賞函數的選擇方式、基于模型算法(model-based)或無模型算法(model-free)、算法復雜度和樣本利用率等.
作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。
1. 引言
強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。
深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。
盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]。
解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。
該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。
1 基于課程學習的深度強化學習
課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。
常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。
課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。
2 深度強化學習中的課程學習研究進展
對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。
3 算法分析與總結
強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。
3. 1 強化學習中的課程學習算法理論分析與對比
在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。
(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。
(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。
(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。
(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。
3. 2 基于課程學習的深度強化學習研究方向
通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。
4 結束語
該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
1 引言
人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.
人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.
為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.
然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。
2 發展歷史
自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).
1.1 路線一:博弈論結合專家系統
在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.
1.2 路線二:博弈論結合學習方法
路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.
近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.
3 人機對抗中的博弈學習方法內涵
人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.
4 人機對抗中的博弈學習研究框架
通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).
5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:
6 總結與展望
人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.
深度分層強化學習是深度強化學習領域的一個重要研究方向,它重點關注經典深度強化學習難以解決的 稀疏獎勵、順序決策和弱遷移能力等問題.其核心思想在于,根據分層思想構建具有多層結構的強化學習策略,運用 時序抽象表達方法組合時間細粒度的下層動作,學習時間粗粒度的、有語義的上層動作,將復雜問題分解為數個簡 單問題進行求解.近年來,隨著研究的深入,深度分層強化學習方法已經取得了實質性的突破,且被應用于視覺導航、 自然語言處理、推薦系統和視頻描述生成等生活領域.該文首先介紹了分層強化學習的理論基礎;然后描述了深度 分層強化學習的核心技術,包括分層抽象技術和常用實驗環境;詳細分析了基于技能的深度分層強化學習框架和基 于子目標的深度分層強化學習框架,對比了各類算法的研究現狀和發展趨勢;接下來介紹了深度分層強化學習在多 個現實生活領域中的應用;最后,對深度分層強化學習進行展望和總結.
強化學習(reinforcement learning,簡稱 RL)是機器學習領域的一個重要分支,它以馬爾可夫決策過程 (markov decision process,簡稱 MDP)為理論基礎,是一種交互式學習方法[1] .深度強化學習(deep reinforcementlearning,簡稱 DRL)作為深度學習(deep learning,簡稱 DL)[2]和 RL 的結合算法,同時具備了 DL的感知能力和 RL的決策能力,初步形成從輸入原始數據到輸出動作控制的完整智能系統.近些年,劉全等人[3]對 DRL進行了全面 的分析和解讀,總結了深度??網絡(deep q-learning network,簡稱 DQN)[4]、深度確定性策略梯度(deep deterministicpolicy gradient,簡稱 DDPG)[5]和異步行動者-評論家(asynchronous advantage actor-critic,簡稱 A3C)[6]等經典算 法,并介紹了多種前沿研究方向.
分層強化學習(hierarchical reinforcement learning,簡稱 HRL)[7]作為 RL的重要分支,與經典 RL方法的最大 區別在于,它以半馬爾可夫決策過程(semi-markov decision process,簡稱 SMDP)[8]為理論基礎,基于分層抽象技 術,從結構上對 RL 進行改進,重點關注 RL 難以解決的稀疏獎勵、順序決策和弱遷移能力等問題,實現了更強的 探索能力和遷移能力.但是,HRL 仍然存在計算能力不足,無法對狀態特征進行高效表達的問題,通常只能處理 離散狀態-動作空間任務.在 DRL 的成功應用后,深度分層強化學習(deep hierarchical reinforcement learning,簡 稱 DHRL)[9]同樣將 DL 方法引入 HRL 框架,不僅從理論層面對 HRL 進行了拓展,還利用深度網絡實現了更強的 特征提取能力和策略學習能力,構建了更有效、更靈活的分層結構,可以有效解決更復雜的任務[10].隨著 DHRL理論的發展和完善,逐步形成了,以下層策略學習基礎任務實現能力,上層策略學習下游任務解決方案的問題求 解路線.目前,DHRL 已經被廣泛應用于視覺導航[11]、自然語言處理[12]、推薦系統[13]和視頻描述生成[14]等真實 世界應用領域.
為了對 DHRL 進行系統的分析和總結,我們首先在中國計算機學會推薦國際學術會議和期刊,以及 CNKI論文數據庫中,以“hierarchical reinforcement learning”,“option reinforcement learning”和“subgoal reinforcementlearning”等關鍵詞進行檢索,并在谷歌學術中,將被引次數超過 500 的核心論文[1, 15-17]作為基準,檢索引用了這些 論文的HRL和 DHRL論文;然后通過人工審查方式,對已檢索的論文進行篩選,排除與研究問題無關和已被收錄 的網絡論文.我們用圖 1 和圖 2 對所篩選論文進行展示.圖 1 反映了從 1998 年(HRL理論基礎被提出的年份[8])至 2021 年(截止到 2021 年 6 月),在各類會議、期刊和網絡上,較有影響力的 HRL和 DHRL相關論文的數量及 刊載情況,它們中的絕大多數都被收錄于 CCF A 類會議(112 篇)、CCF B類會議(25篇)、SCI 一區期刊(7篇)和 SCI 二區期刊(22 篇).圖 2 反映了從 1998 年至 2021 年(截止到 2021 年 6 月),HRL和 DHRL相關論文的被引次 數.從圖 1 和圖 2 可以看出,一方面,HRL 與 DHRL 的研究熱度逐年增加,尤其是在 2016之后,隨著 DL的發展和 DRL 的出現,國內外學者對 DHRL 的關注程度與日俱增.另一方面,相關論文的被引次數在 1999年和 2017年出 現高峰,這與 RL 奠基工作的開展和 DRL 的飛躍式發展有著密切關系.
本文以 HRL 基礎理論為研究脈絡,重點關注 DHRL 的研究現狀和發展趨勢. 第1章對 HRL的基礎理論進 行介紹;第 2 章描述了 DHRL 的核心技術,包括可以解決的問題、常用實驗環境和 DHRL主流框架的劃分依據;第 3、4 章分析了兩種 DHRL 框架下的核心算法,詳細說明了各類算法的發展歷程、研究重心和優缺點;第 5章 對 DHRL 在現實生活領域中的應用進行介紹;第 6、7 章對 DHRL 進行展望和總結.
深度分層強化學習技術
SMDP 和時序抽象法作為 DHRL 方法的核心技術,是構造分層結構的基礎,我們將這兩種核心技術統稱為 分層抽象技術.當一個序列動作包含多個序列動作或多個基礎動作時,可以認為前者是比后者層次更高、語義 更強的動作[8] .將這些動作以一定規則進行組合,便形成了 DHRL 的多層結構.與經典 DRL相比,DHRL算法有更 強的問題解決能力,具體來說,DHRL 常用來解決以下 3 種問題:
(1) 稀疏獎勵
DRL 的本質是利用獎勵函數強化行為的過程,好的獎勵函數可以反映任務的特性,引導狀態和動作的價值 被正確估計,進一步優化策略.但經典 DRL 把狀態空間看成一個巨大的、平坦的搜索空間[21] ,這意味著,智能體 從初始狀態到終止狀態的路徑非常長,過長的路徑會產生獎勵信號變弱、延遲增高等問題.一旦環境只能提供 稀疏獎勵信號,問題會變得更為棘手.此外, ? -貪婪策略和動作噪音作為 DRL常用的探索方案[22, 23],只能輔助智 能體探索臨近的、有限的狀態空間,尤其在稀疏獎勵環境下,無法為智能體提供探索更廣闊狀態空間的動力.反 過來,探索能力又會影響算法在稀疏獎勵環境中的性能.而 DHRL 利用分層抽象技術,可以組合多個時序擴展動 作,幫助智能體實現更大范圍的狀態空間快速覆蓋,強化探索能力;同時,也可以快速捕獲外部獎勵,或收集內部 獎勵,以此克服稀疏獎勵問題.
(2) 順序決策
許多任務的實現需要遵循一定的順序決策過程,例如在蒙特祖瑪的復仇中,需要先拿到鑰匙才可以打開門.該問題有時也被看成部分可觀測馬爾可夫決策過程(partially observable MDP,簡稱 POMDP)[24, 25],因為從本質 上來說,如果不給予先驗知識,鑰匙的獲取對智能體來說是不可觀測的.經典 DRL往往無法記錄中間過程,或找 不到決策規律.DHRL 的多層結構可以關注不同水平的知識結構[26] ,智能體在得到一些關鍵信息后,切換上層策 略,以實現對順序決策信息的隱性表達.
(3) 弱遷移能力
經典 DRL 通常存在策略可遷移能力不足的問題,即每一個任務都需要學習專屬的網絡[4] ,且一種算法往往 只可以在單一或少數幾個任務上取得較優結果.DHRL 能夠學到具有高遷移能力的 option,在面對相似任務時,智能體可以快速獲得學習能力[27] .同時,DHRL 充分利用狀態抽象法,將不同狀態轉化為相似的抽象特征,建立有 效的狀態特征表達機制[28] ,輔助 option 在相似狀態區域上的重用. DHRL 具有較強的學習能力,可以說,DHRL 對復雜問題的求解能力正是源于分層抽象技術的應用.但分層 抽象技術同樣也會引入一些額外問題,包括分層結構參數過多,訓練時間過長,option學習過程與組合過程的矛 盾,異策略分層同步訓練不穩定,以及子目標太遠難以到達等問題.對于一些更具體的情況,我們將在后續章節 于每一個核心算法的論述中進行說明,并介紹更為優秀的算法如何在前文基礎上進行改進,以解決這些額外問 題.
基于分層抽象技術,學者們提出了豐富多樣的 DHRL 方法,根據求解思路的差異,我們將它們分為: (1)基于技能的深度分層強化學習框架(option-based DHRL,簡稱 O-DHRL)(option 在 O-DHRL中常被稱為技能(skill),為保證符號的統一,下文依然用符號 o 來表示).下層網絡學習一組技能,然后由上層網絡調用這些技能,使用不 同的組合技能來解決下游任務;** (2) 基于子目標的深度分層強化學習框架**(subgoal-based DHRL,簡稱 G-DHRL).利用神經網絡提取狀態特征,然后將狀態特征作為子目標空間.上層網絡學習產生子目標,下層網絡根據內部驅 動來實現子目標.除此之外,早些年學者還提出了基于子任務的分層強化學習框架(subtask-based HRL,簡稱 S-HRL)[60] ,但該框架引入了嚴重的先驗知識問題,需要人工經驗進行任務分解,如果原問題復雜難分,則難以使 用該方法.因此,在追求端到端解決問題的 DRL 領域中,極少有論文[61-63]以 S-HRL為基礎進行拓展,不足以構成 完整的 DHRL 研究方向,故本文不討論該支線.
基于技能的深度分層強化學習
O-DHRL 與 SMDP 密不可分,而求解 SMDP 問題的關鍵在于如何定義和尋找 option.從內容上看,option既 可以由先驗知識定義,也可以由算法學習產生.從形式上看,option 既可以是單步的基礎動作,也可以是一組動作 序列,或是另一組 option. O-DHRL 的每個 option 可以由一個 3 元組 , 來表示[80] ,該 3 元組的含義分別是:(1)I表示 option初始狀態集,當且僅當狀態
時,option 才會被執行.初始條件 I 也可以被看成 option策略
,智能體通過 option 策略
選擇當前的 option;(2)
表示 option o 的內部策略,用于產生序列動作或序列 option;(3)
表示 option o 的中斷函數,當某一狀態滿足
條件時,該 option 結束.通常,智能體在某一初始狀態選擇某一 option后,執行該 option 內部策略,在到達某一狀態或滿足中斷函數時,停止該 option,并以此刻狀態為初始狀態,繼續執行 下一 option.盡管 O-DHRL 增加了 MDP 的復雜性,但它具有易實現和分層易拓展的優點. 根據近幾年 O-DHRL 的技術發展路線,以上下層策略是否同步訓練,將 O-DHRL框架分為同步式技能 (synchronous option,簡稱 SO)和異步式技能(asynchronous option,簡稱 AO):(1)在 SO-DHRL中,技能和上層策略 的訓練過程是同步的,根據對任務處理能力和技能遷移能力的側重差異,SO-DHRL又分為獨立型技能和共享型 技能.SO-DHRL 可以針對特定任務,直接得到與任務高度相關的技能組合,具有明顯的性能優勢,但單次訓練的 成本較高;(2)在 AO-DHRL 中,技能和上層策略的訓練過程是分離的,根據求解步驟,AO-DHRL又分為技能學習 和技能組合.下層網絡(技能網絡)在訓練好數個技能后,由上層策略在下游任務中調用這些技能.它通常要求技 能在任務無關的環境下進行訓練,使學到的技能具有較好的狀態覆蓋能力和可遷移能力.但技能的多樣性難以 被量化,組合技能也不一定總是優于非分層算法.
基于子目標的深度分層強化學習
深度分層強化學習應用
目前,DHRL 方法已經被廣泛應用于視覺導航、自然語言處理、推薦系統和視頻描述生成等真實世界應 用領域,以解決現實生活中的稀疏獎勵和順序決策等問題,并展現出巨大的商業價值.圖 7描述了從 2016年至 2021 年(截止到 2021 年 6 月),DHRL 在不同真實世界應用領域的論文數量占比情況(共 78篇).
視覺導航領域
視覺導航領域包括自動駕駛模擬和目標導向機器人兩種任務,它們不僅要求智能體具備對圖像數據的表 達能力,還要求控制器能夠以不同頻率更新路況信息和動作策略.考慮到這些特性,將分層抽象技術應用在視覺 導航領域,可以發揮重要作用.
大量研究表明,許多動物在自我定位和路徑規劃方面形成空間表達的能力,都依賴于大腦對原始感知信號 的特征編碼.在自動駕駛模擬任務中,慢性特征分析算法(slow feature analysis,簡稱 SFA)[123]從視覺圖像中學得 拓撲地圖,利用 DHRL 從拓撲地圖中學得豐富的環境層級表達,為車輛在不同空間尺度上實現自我定位和方向 檢測.在紅綠燈通行問題中,Chen 等人[11]提出了一種分層策略梯度方法,學習數個簡單且有差異的技能,然后組 合技能來獲得對復雜問題的求解能力,使車輛在交通燈變黃時做出正確選擇.這些算法的實驗結果均表明,相比 于經典 DRL,DHRL 有更好的學習能力,可以幫助車輛實現模擬駕駛,包括并道和等待紅綠燈等操作. 在目標導向機器人應用中,出于穩定和安全的考慮,位置估計器需要以較低頻率更新,而動作控制器必須在 幾毫秒內計算出電機指令.Jain 等人[124]針對 4 足機器人路徑跟蹤任務,充分利用 DHRL的分層結構特性和時序 解耦方案,為上下層控制器使用不同的狀態表達,強調位置估計和動作控制的不同關注點,確保下層策略的可重 用能力;并在可變的時間尺度上更新上下層策略,減輕硬件對上層狀態信息的處理需求.Li 等人[125]在 18自由度 機器人的多目標導向任務中,對技能進行預訓練,得到可以實現簡單目標的技能(如轉彎和直線行走),然后對技 能進行規劃學習.這種分層學習方式不僅可以利用預訓練技能提高對多目標任務的求解能力,還可以減少構建 上層模型所需的硬件數據.
自然語言處理領域
DHRL 在自然語言處理領域常用于任務導向型對話生成(task-oriented)和開放域對話生成(open-domain)方 向,與經典環境 Atari 相比,這些任務的動作維度要高出多個數量級. 在任務導向型對話生成任務中,Budzianowski 等人[126]利用 DHRL 的強遷移能力來學習跨領域對話系統.考 慮到不同領域中存在著相似的子域,如訂購房間和購買書本主域都有付款子域,該算法在不同主域的相似子域 中學習可共享的信息,以訓練通用的下層策略.Saha 等人[127, 128]利用 DHRL框架來學習多意圖對話策略.考慮到 大多數對話系統只使用了用戶語義,而忽略了用戶行為和情感在對話中的作用,該算法將基于情感的即時獎勵 引入到對話系統基礎獎勵中,使問答機器人具有自適應能力,意圖獲得最大用戶滿意度.實驗結果表明,用戶情 感和行為等信息在創造復合性的問答機器人和最大化用戶滿意度方面,均發揮了重要作用. 在開放域對話生成領域,經典 DRL 方法[129, 130]往往只能在單詞層面上構建獎勵模型,這種低水平的控制將 不利于信用分配,導致獎勵模型難以跟蹤長期對話目標.為克服這一挑戰,Saleh 等人[131]提出變分對話模型分層 強化學習算法(variational sequence model HRL,簡稱 VHRL),該算法不再單純考慮單詞級別的信息,而是在話語 層次上建立獎勵模型,提高模型的全局視野和靈活性,以學習長期的對話回報.VHRL避免了在電影這類長對話 數據中,可能產生的不適當、有偏見或攻擊性的文本,在人類評估和自動指標性能方面,均超過了最先進的對話 模型[132] .
** 推薦系統領域**
推薦系統具有巨大的商業價值,序列推薦(sequential recommendations)作為推薦系統中與 DRL技術緊密相關的研究方向[133, 134] ,意圖通過交互獲得的項目序列(item sequence)來刻畫用戶偏好. 對于同質項目(homogeneous items)(如不同類型的文章),注意力機制方法[132]已經可以區分不同歷史項目 對推薦目標項目的貢獻程度,但當用戶記錄存在過多噪音時,注意力機制的效果會變差.為了消除用戶記錄的噪 音,Zhang 等人[135]將推薦問題形式化為順序決策過程,在由數據集和基礎推薦模型構成的環境反饋下,上層控制 器判斷用戶記錄是否需要修改,下層控制器對需要修改的項目進行判定和刪除.該算法在慕課(open onlinecourses,簡稱 MOOCs)數據集中進行了驗證,結果顯示,可以有效消除用戶噪音的影響.此外,為了克服項目數據 過大和用戶記錄稀疏的問題,Wang 等人[136]提出基于聚類的分層強化學習算法(clustering-based reinforcementlearning,簡稱 CHRL).該算法先對基礎推薦系統進行預訓練,然后設計分層結構來過濾可能誤導推薦系統的交 互,同時加入聚類策略,以減少項目數據的稀疏問題. 相比于同質項目推薦系統,綜合推薦系統[137]需要在一個頁面中同時推薦異質項目(heterogeneous item)(如 文章和視頻).Xie 等人[138]提出綜合推薦分層強化學習框架(HRL framework for integrated recommendation,簡稱 HRL-Rec),在該框架中,上層控制器作為頻道選擇器,負責在列表推薦器中生成頻道序列;下層控制器作為項目 推薦器,負責在頻道列表中選擇項目,以此捕獲用戶不同粒度的偏好.目前,該方案已應用于微信看一看線上系 統,實現了 DHRL 在推薦系統領域的商業價值.
視頻描述生成領域
視頻描述(video captioning,簡稱 VC)作為集視覺和文本兩個維度的多模態任務,具有更高的復雜度.當前基 于 DL 的視頻描述方法通常利用自動編碼器(auto-encoder),來學習從視頻序列到文本序列的轉移過程[139],但這 些方法往往只能提取到粗粒度的視頻特征,無法在噪音背景下捕獲明確的對象,損失了對重要內容的理解能力.為消除視頻噪音,提取細粒度的視頻描述特征,Wang 等人[14]在 VC領域中引入 DHRL,將文本和視頻語境視 為強化學習環境,定義任務為一個順序決策過程.在該算法中,上層控制器為新文本片段產生子目標,下層控制 器按序列產生的單詞來生成文本片段,采用二元判定機制評估當前子目標是否被實現.為了克服更具挑戰的多 語句生成問題,Huang 等人[140]提出了一種 DHRL框架,上層控制器為每個圖像序列生成語義連貫的主題,下層控 制器根據主題,使用語義合成網絡生成句子描述,將句子生成建立在主題的基礎上.該算法在視覺故事(visualstorytelling,簡稱 VIST)數據集上的評測結果表明,其性能明顯優于其他 DL模型[141] .此外,Chen等人[142]首次將 DHRL 應用于視頻摘要生成領域,將整個任務分解成若干子任務,通過定義子目標和內部獎勵來解決稀疏獎勵 問題.該算法在視頻摘要數據集上的表現不僅超越了最先進的無監督方法[143] ,甚至超越了它的有監督擴展方法 [144] .
深度學習技術發展迅速,在醫學圖像處理領域取得了顯著成果。但是由于醫學圖像樣本少,標注困難,使得深度學習的效果遠未達到預期。近年,利用遷移學習方法緩解醫學圖像樣本不足的問題,提高深度學習技術在醫學圖像領域的效果,成為了研究熱點之一。介紹了遷移學習方法的基本概念、類型、常用策略及模型,根據遷移學習方法的類型,對當前醫學圖像領域具有代表性的相關研究進行了梳理與小結,對該領域的未來發展進行了總結和展望。
摘要: 推薦系統致力于從海量數據中為用戶尋找并自動推薦有價值的信息和服務,可有效解決信息過載問題,成為大數據時代一種重要的信息技術。但推薦系統的數據稀疏性、冷啟動和可解釋性等問題,仍是制約推薦系統廣泛應用的關鍵技術難點。強化學習是一種交互學習技術,該方法通過與用戶交互并獲得反饋來實時捕捉其興趣漂移,從而動態地建模用戶偏好,可以較好地解決傳統推薦系統面臨的經典關鍵問題。強化學習已成為近年來推薦系統領域的研究熱點。文中從綜述的角度,首先在簡要回顧推薦系統和強化學習的基礎上,分析了強化學習對推薦系統的提升思路,對近年來基于強化學習的推薦研究進行了梳理與總結,并分別對傳統強化學習推薦和深度強化學習推薦的研究情況進行總結;在此基礎上,重點總結了近年來強化學習推薦研究的若干前沿,以及其應用研究情況。最后,對強化學習在推薦系統中應用的未來發展趨勢進行分析與展望。
作為機器人技能學習中的一個重要分支, 模仿學習近年來在機器人系統中得到了廣泛的應用. 模仿學習能夠將人類的技能以一種相對直接的方式遷移到機器人系統中, 其思路是先從少量示教樣本中提取相應的運動特征, 然后將該特征泛化到新的情形. 本文針對機器人運動軌跡的模仿學習進行綜述. 首先 詳細解釋模仿學習中的技能泛化、收斂性和外插等基本問題; 其次從原理上對動態運動基元、概率運動基元和核化運動基元等主要的模仿學習算法進行介紹; 然后深入地討論模仿學習中姿態和剛度矩陣的學習問題、協同和不確定性預測的問題以及人機交互中的模仿學習等若干關鍵問題; 最后本文探討了結合因果推理的模仿學習等幾個未來的發展方向.
摘要:復雜未知環境下智能感知與自動控制是目前機器人在控制領域的研究熱點之一,而新一代人工智能為其實現智能自動化賦予了可能.近年來,在高維連續狀態-動作空間中,嘗試運用深度強化學習進行機器人運動控制的新興方法受到了相關研究人員的關注.本篇綜述首先回顧了深度強化學習的興起與發展,將用于機器人運動控制的深度強化學習算法分為基于值函數和策略梯度2類,并對各自典型算法及其特點進行了詳細介紹;其次,針對仿真至現實之前的學習過程,簡要介紹了5種常用于深度強化學習的機器人運動控制仿真平臺;然后根據研究類型的不同,綜述了目前基于深度強化學習的機器人運動控制方法在自主導航、物體抓取、步態控制、人機協作以及群體協同等5個方面的研究進展.最后,對其未來所面臨的挑戰以及發展趨勢進行了總結與展望.
自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1