摘要: 基于因果建模的強化學習技術在智能控制領域越來越受歡迎. 因果技術可以挖掘控制系統中的結構性因果知識, 并提供了一個可解釋的框架, 允許人為對系統進行干預并對反饋進行分析. 量化干預的效果使智能體能夠在復雜的情況下 (例如存在混雜因子或非平穩環境) 評估策略的性能, 提升算法的泛化性. **本文旨在探討基于因果建模的強化學習控制技術 (以下簡稱因果強化學習) 的最新進展, 闡明其與控制系統各個模塊的聯系. 首先介紹了強化學習的基本概念和經典算法, 并討論強化學習算法在變量因果關系解釋和遷移場景下策略泛化性方面存在的缺陷. **其次, 回顧了因果理論的研究方向, 主要包括因果效應估計和因果關系發現, 這些內容為解決強化學習的缺陷提供了可行方案. 接下來, 闡釋了如何利用因果理論改善強化學習系統的控制與決策, 總結了因果強化學習的四類研究方向及進展, 并整理了實際應用場景. 最后, 對全文進行總結, 指出了因果強化學習的缺點和待解決問題, 并展望了未來的研究方 向.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220823
近年來, 人工智能的研究范圍不斷拓寬, 并在醫療健康、電力系統、智慧交通和機器人控制等多個重要領域取得了卓越的成就. 以強化學習為代表的行為決策和控制技術是人工智能驅動自動化技術的典型代表, 與深度學習相結合構成了機器智能決策的閉環[1]. 強化學習控制是指基于強化學習技術制定控制系統中行動策略的方法. 強化學習的主體, 即智能體, 通過交互的手段從環境中獲得反饋, 以試錯的方式優化行動策略. 由于擅長處理變量間復雜的非線性關系, 強化學習在面對高維和非結構化數據時展現出了極大的優勢. 隨著大數據時代的到來, 強化學習控制技術快速崛起, 在學術界和產業界獲得了廣泛關注, 并在博弈[2-5]、電力系統[6-7]、自動駕駛[8-9]和機器人系統[10]等領域取得了巨大突破. 在實際系統應用中, 強化學習被廣泛應用于路徑規劃和姿態控制等方面, 并在高層消防無人機路徑規劃[11]和多四旋翼無人機姿態控制[12]等實際任務中取得了良好的控制性能.盡管如此, 強化學習在處理控制任務時仍面臨一些缺陷, 主要體現在以下兩個方面. 一是難以在強化學習過程中進行因果推理. 大多數強化學習控制算法是基于采樣數據間的相關關系完成對模型的訓練, 缺少對變量間因果效應的判斷. 而在控制任務中, 任務的泛化和模型的預測通常建立在因果關系之上. 越來越多的證據表明, 只關注相關性而不考慮因果性, 可能會引入虛假相關性, 對控制任務造成災難性的影響[13]. 二是無法在遷移的場景下保證控制算法的泛化性. 泛化性是指強化學習模型遷移到新環境并做出適應性決策的能力, 要求學習的策略能夠在相似卻不同的環境中推廣. 然而在面臨環境改變或者任務遷移時, 智能體收集到的觀測數據表現出非平穩性或異構性, 訓練數據和測試數據的獨立同分布條件受到破壞. 在這種情況下, 強化學習算法常常表現不佳, 無法保證策略的泛化性[14-15], 難以直接推廣到更普遍的控制場景.為了解決上述問題, 目前研究人員嘗試在強化學習任務中引入因果理論, 提出了基于因果建模的強化學習控制算法. 因果強化學習的中心任務是在控制問題中建立具有因果理解能力的模型, 揭示系統變量之間的因果關系, 估計數據之間的因果效應, 進一步通過干預和推斷, 理解智能體的運行機理. 近年來, 包括ICLR, NeurIPS, ICML和AAAI在內的人工智能重要國際會議多次設立研討會, 探索因果理論在機器學習領域的發展和應用[16-19]. 越來越多控制性能優異的因果強化學習算法被陸續提出, 成為最新的研究熱點. 建立可解釋的因果模型并保證算法的合理決策, 是加速推廣強化學習控制算法落地的必要條件, 具有理論意義和應用價值. 本文的主旨是梳理目前因果強化學習的研究現狀, 討論因果理論如何提供變量間因果關系的解釋, 幫助改善非平穩或異構環境下的可遷移的決策, 提高數據利用率, 并對未來工作方向提供可借鑒的思路.本文內容安排如下: 第1節介紹強化學習的基本概念和經典算法, 并指出傳統強化學習算法的缺陷. 第2節介紹因果關系和因果模型的概念, 總結因果效應估計和因果關系發現的研究內容, 為解決強化學習的缺陷提供了可行方案. 第3節構建因果強化學習系統的抽象模型, 在此基礎上整理出四個研究方向, 綜述了因果強化學習的最新研究進展并總結了應用場景. 第4節總結全文, 指出了因果強化學習的缺點和待解決的問題, 并對未來的發展趨勢進行展望.
在本節中, 我們將詳細闡述如何利用因果關系改善強化學習控制與決策. 強化學習的目標是最大化期望累積獎勵, 智能體本身不具備因果推理的能力. 如1.3節所述, 現有的強化學習算法存在兩類缺陷. 幸運的是, 這兩類缺陷恰好可以通過引入因果關系來解決. 與一般的強化學習控制不同, 因果強化學習可以區分系統變量之間的虛假相關性和因果關系. 接下來以倒立擺系統為例, 說明如何將因果分析融入強化學習系統, 辨別虛假相關性. 倒立擺系統是強化學習領域的基準測試環境. 智能體對小車施加動作a, 令其沿著無摩擦水平軌道左右移動, 控制目標是防止車上的桿跌落. 因此在桿保持直立的每個時刻, 智能體獲得獎勵rt=+1,. 狀態變量s分別為小車位置、小車速度、桿與車之間的角度和角速度. 因果強化學習的處理流程如下: 首先從控制任務 (如圖3(a)所示) 中采樣觀測數據, 具體包括狀態變量、動作變量和獎勵變量 (如圖3(b)所示); 然后利用因果理論, 從觀測數據中提取高層的因果特征, 并將其形式化表示成一個能夠反映數據生成過程的因果結構 (如圖3(c)所示). 通過這種方式直觀地展示虛假關系 (虛線) 和因果關系 (實線), 降低冗余信息的影響, 提高數據利用率. 此外, 強化學習數據采集過程中常常存在選擇偏倚問題. 在控制系統中引入因果分析有助于理解偏倚, 并利用do算子實現對干預效果的形式化推理. 例如, 在圖3(c)中對動作at進行干預do(A=a′t)(如綠線所示) 只會影響因果圖中的子代變量st+1,i 而對其他非因果變量st+1,j不產生影響, 從而可以進行有針對的干預.
圖 3 在倒立擺系統中提取系統變量之間的因果關系與一般機器學習算法不同, 在強化學習中, 智能體不僅能夠觀測環境, 還可以用行動 (或干預) 塑造環境. 因此與其他機器學習應用場景相比, 強化學習更易于融合因果理論. 目前, 因果理論在強化學習領域的研究已初現端倪. 因果強化學習的基本任務是將因果建模的思想融入強化學習過程中, 旨在解決強化學習的可解釋性問題和泛化性問題, 提高數據利用率. 研究的關鍵問題是如何利用因果知識顯式地提取系統的結構不變性, 同時提升控制性能.**2.1 學習算法的結構 **根據已有的研究成果, 我們在圖 4 中展示了如 何將因果技術集成到強化學習控制系統中, 并將因 果強化學習的研究方向分為兩大類: 1) 利用因果發 現構建因果模型, 即給定觀測數據 (尤其是高維和 非結構化數據), 提取系統的低維因果特征和因果關 系, 搭建系統的因果模型; 2) 利用因果推理實現策 略優化, 即給定因果模型, 分析系統對干預將作出 何種反應并進行策略規劃. 現有因果強化學習算法 總結在表 3 中.
2.2.1 因果表征提取在強化學習控制系統中, 系統的輸入狀態可能是高維或非結構化數據. 因此引入恰當的結構化表征可以對冗余的原始數據進行信息提取, 有助于解決強化學習的可解釋性問題. 總的來說, 和強化學習控制相關的因果表征提取主要分為基于POMDP的表征提取和存在混雜因子的表征提取.基于POMDP的表征提取通常假設觀測數據O(通常是高維或非結構化數據, 如像素輸入) 由潛在狀態S 生成, 智能體根據策略π(A|O)采取行動, 通過與環境交互獲得觀測數據, 并基于觀測數據恢復潛在狀態. 與顯式的MDP不同 (如圖5(a)所示), 基于POMDP的表征提取 (如圖5(b)所示) 的關鍵問題在于如何找到O→S的映射, 并根據過去的動作A≤t 和過去的潛在狀態S≤t預測未來的潛在狀態S>t, 學習底層因果圖結構. Yao和Sun等[82]指出潛在時序因果狀態在一定場景下是可識別的, 該研究為基于POMDP的表征提取提供了理論保證. 該類方法的代表性工作包括動作充分狀態表示ASR (Action-sufficient state representation)[83]和因果正確部分模型CCPM (Causally correct partial models)[84]. ASR以最大化累積獎勵為目標, 基于變量結構關系建立環境生成模型, 以因果結構為約束提取出足夠決策的最小狀態表示集. 在ASR的框架下, 策略學習與表征學習可以分開進行, 且策略函數只依賴于低維狀態表征, 從而提高了樣本利用率, 缺點是沒有擴展到可遷移的場景下. 為了在策略發生變化的情況下對模型進行修正, 解決部分模型中因果不正確的問題, CCPM結合概率模型和因果推理, 提出了因果正確的部分可觀模型, 提高了模型的魯棒性. 此外, 部分研究人員致力于將因果技術和POMDP融入一個框架內進行分析. Sontakke等[85]引入了因果好奇心 (Causal curiosity) 作為內在獎勵, 鼓勵智能體在探索性交互時, 通過自監督的方式發現環境中變化的因果機制. Gasse等[86]通過引入do算子, 將有模型的強化學習表示為因果推理問題, 并且使用觀測數據和干預數據共同推斷POMDP的狀態轉移方程. 由于假設觀測空間要小于離散狀態空間, 因此該方法的缺點是只能處理維數較低的觀測空間. 為了解決高維觀測空間問題, Zhang等[87]利用循環神經網絡從觀測數據中學習近似的因果狀態表示, 并在Lipschitz假設下為該表示連續版本的最優性提供了理論保證.
存在混雜因子的表征提取方法則考慮更一般的實際場景, 假設系統中存在未能直接觀測到的混雜因子. 此時, 系統的狀態轉移模型和獎勵模型將會受到影響, 阻礙行為策略的有效學習. 以自動駕駛場景為例, 智能體從不同場景中收集的離線數據可能依賴于某些未被觀測的因素 (如交通的復雜度或道路設計的合理性). 當訓練場景為行人過馬路時, 智能體可能會從觀測中錯誤地推斷出“只要踩下剎車, 就會有行人出現在汽車前面”這種結論, 從而引入虛假相關性. 這種由混雜因子導致的虛假相關性, 使得觀測數據無法提供有效信息, 甚至會誤導因果效應識別. 在此情況下, POMDP模型可能會被未能準確描述的觀測數據迷惑, 推導出錯誤的因果模型, 進而導致不正確的策略規劃. 因此存在混雜因子的表征提取方法的關鍵問題在于去除或估計混雜因子, 以減少虛假相關性對后續因果模型推導的影響. 在混雜因子建模上, 早期的工作包括存在未觀測混雜因子的多臂老虎機問題MABUC (Multi-armed bandit problem with unobserved confounders)[88]和Kullback-Leibler置信上限B-kl-UCB (B-Kullback–Leibler upper confidence bounds)[89]. MABUC通過引入結構因果模型, 將具有混雜因子的多臂老虎機問題表示為因果推理問題. MABUC首次將混雜因子和強化學習融入一個框架之中進行分析, 缺點是模型需要在線學習, 而且沒有考慮知識遷移的場景. 在MABUC的框架下, B-kl-UCB利用結構知識推導智能體分布的界限, 將工作拓展到離線且可遷移的場景下. 在混雜因子去除方面, Lu等[90]提出了去混雜強化學習框架, 使用自動變分編碼器估計潛在變量模型, 發現隱藏的混雜因子并推斷因果效應. 盡管該框架允許嵌入強化學習算法進行策略更新, 缺點是要求每一個混雜因子都需要體現在潛在變量模型中, 且無法給出明確的遺憾值③. 為了在有限遺憾值內識別最優治療方案, Zhang等[91]在觀測數據存在混雜因子的情況下, 利用結構因果模型和獨立性約束, 降低候選策略空間的維度, 簡化問題的復雜度, 缺點是模型需要在線學習. 為了充分利用離線數據提高樣本效率, Wang等[92]提出了一種去混雜的最優值迭代方法, 綜合考慮了部分可觀的混雜因子和完全不可觀的混雜因子兩種情況, 通過后門準則和前門準則顯式地調整觀測數據中的混雜偏差, 并且提供了遺憾值的表達.2.2.2 建立可遷移的環境因果模型強化學習問題通常假定訓練樣本和測試樣本滿足獨立同分布的條件. 在面臨環境改變或者任務遷移時, 獨立同分布的假設受到破壞, 在特定領域學習的最優策略無法推廣到其他領域, 導致控制性能下降[93]. 因此在面對非平穩或異構環境時, 智能體不僅需要識別變化, 更需要適應這些變化. 幸運的是, 非平穩或異構數據已被證明有助于識別因果特征. 可遷移的環境因果模型致力于實現可靠、低成本、可解釋的模型遷移, 關鍵問題在于提取正確的知識表示, 找出哪些因素發生了變化、在哪里變化、如何變化, 使得在源域訓練的模型能夠在新的場景下實現快速遷移. 可遷移的環境因果模型通常基于以下三個原則[94]: 1) 獨立因果機制. 系統變量的因果生成過程由互不影響的獨立模塊組成. 給定原因, 每個變量的條件分布不會影響其他模塊. 2) 最小變化原則[50]或稀疏機制遷移. 細微的分布變化往往以稀疏或局部的方式在因果分解P(X1,?,Xn)=∑ni=1P(Xi|Pa(Xi))中表現出來. 當數據分布發生變化時, 僅有少量的模塊和參數需要改變. 3) 相似因果動態. 該假設允許訓練數據和測試數據來自不同的分布, 但涉及 (大致) 相同的因果狀態轉移方程. 例如在機器人導航過程中, 房間內的光照條件可能會發生變化, 但環境的動力學模型仍然是相同的. 基于以上原則, 目前有三種研究方向用于構建可遷移的因果環境模型.1) 利用結構因果模型編碼變化模塊. 根據最小變化原則或稀疏機制遷移原則, 當因果模型得到恰當表示時, 僅需要更新少量的模塊和參數就可以實現分布遷移, 進而提高策略的魯棒性. 在強化學習框架下, 結構因果模型不僅能夠表征變量之間的結構關系, 還可以顯式地編碼跨域的變化模塊. 因此這類問題的研究重點在于如何編碼最小的可遷移模塊. 在MDP的框架下, Sun等[79]基于結構因果模型擬合環境的動態轉移方程, 并將跨域變化的模塊集成為一個外生變量λ, 通過更新λ實現環境分布的遷移. 在POMDP的框架下, Huang等[95]提出一種自適應強化學習算法AdaRL (Adaptive reinforcement learning). AdaRL利用圖模型實現最小狀態表征, 包括特定域的變化因素和共享域的狀態表示, 同時對狀態動態、觀察函數和獎勵函數的變化進行建模, 利用因子分解提高數據利用率, 只需要來自目標域的少量樣本就可以實現穩健有效的策略遷移.2) 尋找因果不變性. 得益于獨立因果機制, 我們可以將數據生成過程視為一些獨立模塊, 通過尋找因果不變性發現因果結構. 在這種情況下, 研究人員通常需要基于相似動態的多個環境挖掘環境的潛在結構, 進而實現良好的泛化. 對于觀測分布不同但是潛在因果結構相同的環境族, Zhang等[96]考慮區塊MDP的因果不變性預測, 其中不同場景下的觀測分布會發生變化, 但潛在狀態空間中環境動態和獎勵函數是相同的. 文章提出一種不變預測方法提取潛在狀態, 并將其遷移到多環境場景下, 解決了潛在空間動態結構的泛化問題. 遵循類似的思路, 因果情景強化學習算法CCRL (Causal contextual reinforcement learning)[97]假設情景變量的變化會導致狀態分布的變化. CCRL利用情景注意力模塊提取解耦特征, 并將其視為因果機制. 通過改變解耦特征, 提高智能體在新場景下的泛化性能. Zhu等[98]將不同狀態下的動作效果作為不變性來推斷因果關系, 提出了不變動作效果模型IAEM (Invariant action effect model). IAEM將相鄰狀態特征的殘差作為動作效果, 在不同場景下實現自適應遷移, 提高了樣本的利用率和策略的泛化性.3) 引入因果關系的模仿學習. 在模仿學習任務中, 智能體直接從專家提供的范例中學習控制策略. 由于傳統的模仿學習是非因果的, 智能體不知道專家與環境交互的因果結構. 忽略因果關系的盲目模仿會導致反直覺的因果錯誤識別現象[99], 進而導致模仿策略失效. Haan等[99]指出, 基于專家行為的真實因果模型可以減少因果錯誤識別的影響. 文章通過環境交互或專家查詢的方式對觀測數據進行有針對性的干預, 學習正確的因果模型. Etesami等[100]假定系統中某些模塊因果機制發生變化, 但動作效果機制保持不變, 并在此基礎上分析了因果機制的可識別情況, 解決了傳感器偏倚情況下的策略遷移問題. 盡管大多數模仿學習任務都假定專家變量可完全觀測, 但是實際系統中可能存在混雜因子, 對模仿學習造成不利影響. 針對存在未被觀測的混雜因子場景, Zhang等[101]利用結構因果模型學習專家范例的數據生成過程, 并利用觀測數據中包含的定量知識學習模仿策略. Park等[102]以提取語義對象的方式調整模仿策略, 提出了對象感知正則化算法OREO (Object-aware regularization). 為了防止策略學習到與專家行為密切相關的混雜因子, OREO鼓勵策略統一關注所有語義對象, 顯著提高了模仿學習的性能.
2.3.1 動作效果估計在強化學習的場景下, 動作效果估計的關鍵問題在于: 1) 量化智能體動作對環境造成的影響, 2) 獲得數據的無偏估計, 進而通過干預因果圖改變策略分布, 有效地指導策略更新.針對稀疏獎勵下的探索和信用分配問題, Corcoll等[103]提出了一種基于受控效果的分層強化學習結構CEHRL (Controlled effects for hierarchical reinforcement learning). CEHRL智能體基于隨機效應進行探索, 并依靠反事實推理識別動作對環境的因果影響. 分層式的結構允許高層策略設置跟時間有關的目標, 以此實現長期信用分配, 高效地學習特定任務的行為. Seitzer等[104]引入了基于條件互信息的情境相關因果影響度量SDCI (Situation-dependent causal influence), 用于衡量動作對環境的因果影響, 進而有效地指導學習. 通過將SDCI集成到強化學習算法中, 改進智能體探索能力和離線策略學習性能. 針對強化學習樣本效率不高的問題, Pitis等[105]定義了局部因果模型, 并提出了一種用于反事實數據增強的算法, 使用基于注意力的方法在解耦狀態空間中發現局部因果結構. 這種局部因果結構可用于提高模型的預測性能, 改善非策略強化學習的樣本效率. 為了構建與強化學習智能體相關的有效因果表示, Herlau等[106]以最大化自然間接效應為目標識別因果變量. 識別的因果變量可以集成環境的特征, 從而確保因果表征與智能體相關.此外, 雖然動作效果估計可以量化干預和結果之間的影響, 但是采集的觀測數據受現有的策略影響, 可能會間接造成選擇偏倚問題. 為了實現數據的無偏估計, 研究人員常常采用重要性采樣加權[107]進行離線策略評估, 但是該方法具有高方差和高度依賴權重的缺陷. 為了從觀測數據中選擇最佳策略, Atan等[108]考慮了觀測數據評估新策略時的產生的估計誤差, 提供了估計誤差的理論界限, 并提出了一種使用域對抗神經網絡選擇最優策略的方法, 結果表明估計誤差取決于觀測數據和隨機數據之間的H散度. 在批量學習的場景下, Swaminathan等[109]指出僅對離策略系統的性能進行無偏估計不足以實現穩健學習, 還需要在假設空間中推斷估計量的方差有何不同. 該項研究通過傾向性評分設計了反事實估計器, 提出了反事實風險最小化原則, 證明了傾向加權經驗風險估計計量方差的廣義誤差界限. 為了學習結構化輸出預測的隨機線性規則, 提出了指數模型策略優化器, 從而實現有效的隨機梯度優化. 為了消除由舊策略和新策略引起的分布偏倚, 精確評估新策略的效果, Zou等[110]提出了重點上下文平衡算法FCB (Focused context balancing), 用于學習上下文平衡的樣本權重.2.3.2 反事實動作推理利用因果框架, 智能體可以進一步回答與強化學習控制任務相關的反事實問題. 例如在已有觀測數據的前提下, “如果策略中的某些動作發生變化, 系統的控制性能能否提升”? 目前, 反事實動作推理已經被證明可以提高強化學習算法的樣本效率和可解釋性[81,111]. Madumal等[112]提出了一種基于結構因果模型的行為影響模型, 利用因果模型進行反事實分析, 提高了模型的可解釋性. 在非平穩數據的場景下, Lu等[81]提出了一種基于反事實的數據增強算法. 該算法利用結構因果模型對環境動態進行建模, 并基于多領域數據的的共性和差異進行因果模型估計. 智能體可以根據結構因果模型進行反事實推理, 解決了有限經驗導致策略偏倚的問題, 避免風險性探索. 同時利用反事實推理進行數據集擴充, 提高了數據利用率. 在POMDP的框架下, Buesing等[111]提出了反事實指導的策略搜索算法CF-GPS (Counterfactually-guided policy search), 基于結構因果模型對任意策略進行反事實評估, 改善策略性能, 消除模型預測的偏差.
因果強化學習作為一種通用的學習算法, 目前在機器人控制[104,113]、醫療健康[91]、推薦系統[114]、金融投資[115]和游戲控制[116]等多個領域中有著廣泛的應用. 在機器人控制領域, Liang等[113]在仿真機械臂控制系統中, 將神經網絡與概率圖模型相結合, 構建了觀測數據的因果圖模型, 控制機械臂進行繪畫操作和輪胎拆卸, 提高了數據利用率和強化學習算法的可解釋性. 在醫療健康領域, Zhang等[91]基于因果強化學習在肺癌和呼吸困難數據集上設計了最佳動態治療方案, 提升了算法的在線性能和數據效率. 在推薦系統領域, Bottou等[114]基于Bing搜索引擎的廣告投放系統, 利用因果推理理解用戶與環境交互的行為, 致力于合理地使用因果推理和機器學習技術進行廣告投放. 在金融投資領域, Wang等[115]提出了一種優化投資策略的深度強化學習方法DeepTrader. 該方法將風險收益平衡問題構建為強化學習問題, 并利用分層圖結構建模資產的時空相關性. 其估計的因果結構能夠反映資產之間的相互關系, 有效平衡收益與風險. 在游戲控制領域, Shi等[116]針對Atari 2600游戲環境, 提出了時空因果解釋模型, 對觀測數據與智能體決策之間的時序因果關系進行建模, 并使用一個單獨的因果發現網絡來識別時空因果特征. Madumal等[112]在星際爭霸游戲環境中使用因果模型來推導無模型強化學習智能體行為的因果解釋. 利用結構因果模型對系統進行建模, 然后基于反事實推理生成對動作的解釋.
由于在可解釋性以及跨域遷移等方面展現出優勢, 因果理論已經被廣泛應用于強化學習領域, 并且在控制系統中表現出了良好的性能. 本文致力于闡述因果強化學習算法如何探索數據之間的因果關系, 并在決策過程中提供因果解釋. 因果強化學習以無監督的的方式構建環境的因果模型, 實現跨域分布泛化, 并利用因果模型進行推理, 設計有效的干預措施進行策略更新. 本文首先概述了強化學習和因果理論的背景知識, 在此基礎上, 對因果強化學習的研究現狀進行闡述. 針對強化學習領域的兩類研究缺陷, 總結了四類研究方向, 具體包括: 1) 因果表征提取; 2) 可遷移的環境因果模型; 3) 動作效果估計和4) 反事實動作推理.雖然基于因果建模的強化學習控制可以解決強化學習可解釋性和可遷移性的問題, 提升數據利用率, 但是仍存在以下缺點: 1) 依賴不可測試假設. 盡管目前已有多項研究成果可以根據觀測數據估計因果結構, 但這些方法通常是不可擴展的, 依賴于不可測試的假設 (如因果忠誠性假設), 因此難以融入高維、復雜和非線性的強化學習系統. 2) 欠缺理論研究基礎. 目前針對因果強化學習理論層面上的研究還遠遠不夠. 例如在因果表征領域, 現有的可識別性理論研究大多基于非平穩或時序數據, 并且需要對模型類型做出較強的假設. 在更一般的場景下 (如因果關系發生變化或存在瞬時因果關系) 的可識別性理論研究目前還是空白. 3) 難以保證控制性能. 雖然利用因果理論, 動作策略能夠表現出良好的控制效果, 但是基于探索與試錯的方法并不能在理論上保證控制性能的收斂. 目前還沒有一套完善的框架能夠評估因果強化學習的控制策略是否穩定, 這可能阻礙因果理論在強化學習控制系統中的研究發展.綜上, 雖然因果強化學習展現出了具有潛力的應用前景, 但是目前研究成果相對較少, 研究的廣度和深度都略顯不足, 還存在以下待解決的問題.1) 探索歸納偏置對因果強化學習的影響. 歸納偏置指的是學習算法中假設的集合. 目前大多數因果遷移強化學習的研究都是基于獨立因果機制和最小變化原則. 當不滿足條件獨立性假設或沒有額外輔助信息的情況下, 如何選取歸納偏置, 使算法能夠自動檢測分布的變化并在有限時間內保證算法收斂是一個亟待解決的問題.2) 完善潛在因果變量的可識別性理論. 從因果表征的角度來說, 潛在因果變量的可識別性是因果變量提取和因果動態分析的理論基礎. 雖然已有研究表明在非參數非平穩模型或者線性高斯平穩模型的假設下, 潛在因果變量可識別性可以得到保證[82], 但是當變量間因果關系發生變化或存在瞬時因果關系時, 如何基于觀測數據恢復潛在因果變量是一個值得研究的問題.3) 構造因果強化學習框架的穩定性評估機制. 從策略學習的角度來說, 確保控制器的穩定是控制理論中首要考慮的問題. 雖然已有研究表明, 在反事實數據增強的場景下, Q學習可以收斂到最優值函數[81], 但是如何構造一套完整的因果強化學習框架以評估控制策略的穩定性是一個亟待解決的問題.解決上述問題并將因果強化學習推向更廣闊、更現實的應用場景將是未來的研究方向, 具體來說包括以下幾個方面.1) 合理利用觀測數據和干預數據. 在因果強化學習中, 根據有無人為干預可以將數據分為無人為干預的觀測數據和有人為干預的干預數據. 從數據分布上來看, 觀測數據可能受控制策略、混雜因子和潛在因果變量的影響, 干預數據受人為控制的影響, 由這些原因導致的分布不匹配會造成選擇偏倚的問題. 但是如果對選擇偏倚進行適當的修正, 則可以提高數據利用率, 增加模型的可解釋性. 因此在強化學習中合理地利用觀測數據和干預數據, 采取適當的方式將知識分解為獨立因果機制非常具有研究價值.2) 構建普適的基準測試環境. 在強化學習的應用背景下, 傳統的評估指標不足以判斷因果模型的好壞. 大多數研究成果都在不同的實驗場景下驗證算法性能, 無法橫向判斷模型結構的好壞, 也難以衡量因果模型和強化學習算法對控制性能的貢獻程度. 因此構建一個普適的因果強化學習基準數據集, 驗證和比較各類因果強化學習方法就顯得至關重要.3) 將因果強化學習拓展到多智能體場景. 目前針對因果強化學習的研究都是針對單智能體. 在多智能體場景下, 聯合狀態空間和聯合動作空間將隨著智能體個數的增加呈指數性擴大, 極大地加重了計算負擔. 考慮到使用恰當的結構化表征有利于提高系統控制性能, 如何在多智能體系統中構建可遷移的環境因果模型, 減輕計算負擔并提高系統的可解釋性, 將是非常有趣且可行的研究方向.
隨著大數據、云計算、物聯網等一系列新興技術的大量涌現,人工智能技術不斷 取得突破性進展。深度強化學習技術作為人工智能的最新成果之一,正被逐漸引入軍事領域 中,促使軍事領域走向信息化和智能化。在未來戰爭作戰模式及軍隊發展建設中,網絡化、 信息化、智能化和無人化形成重要特征已經成為不可逆轉的趨勢。因此,本文在回顧了深度 強化學習基本原理和主要算法的基礎上,對當前深度強化學習在武器裝備、網絡安全、無人 機編隊、智能決策與博弈等方面的應用現狀進行了系統的梳理與總結。最后,針對實際推進 深度強化學習技術在軍事領域應用落地所面臨的一系列問題和挑戰,提供了未來進一步研究 的思路。
近年來,隨著大數據、云計算、物聯網等 一系列新興技術的大量涌現,人工智能技術不 斷取得突破性進展。作為 21 世紀的頂尖技術之 一,人工智能給各個領域的發展都帶來了前所 未有的機遇和挑戰,軍事領域也不例外。2016 年 6 月,由國防大學舉辦的“戰爭復雜性與信息化戰爭模擬”學術研討會,對大數據時代的軍事 信息體系與發展戰略進行了重點研究[1],軍事 智能化已不再是一個陌生的概念,正在全面影 響著軍隊建設和未來戰爭形態[2]。從應用角度 來看,軍事智能化主要體現在五個層次[3]:以 無人機、無人車等仿生智能為主的單裝智能;以人機融合、集群、協同等概念為核心的協同 智能;以智能感知、決策、打擊、防御等多要 素作戰力量綜合運用的體系智能;以通信、網 絡、電子、輿情等專業領域管控的專項智能;以作戰體系基于數據、模型、算法獲取涌現效 應為目標的進化智能。人工智能技術為這些應 用的落地提供了堅實的基礎。深度學習(deep learning,DL)和強化學 習(reinforcement learning,RL)作為實現人工 智能的先進技術,分別在信息感知和認知決策 領域有著出色的表現[4]-[5]。深度強化學習(Deep Reinforcement Learning,DRL)[6]則是近幾年 提出的新興概念,結合了 DL 與 RL 的優勢, 是人工智能的最新成果之一,在機器人控制、 計算機視覺、自然語言處理、博弈論等領域都 取得了重要研究成果。在軍事領域中,針對作 戰任務規劃、智能軍事決策與智能博弈對抗等 問題的解決,DRL 也有著巨大的應用潛力,引 起了研究人員的廣泛關注。
目前,關于 DRL 的研究已經取得了較大進 展,有一些關于 DRL 的綜述性文獻陸續發表 [6]-[7],但它們更加偏向于對 DRL 算法的總結。除此之外,也有一些關于 DRL 在領域應用中的 綜述,如無人機[8]、通信與網絡[9]、智能制造[10] 等領域,然而關于 DRL 在軍事領域中的應用, 并沒有專門的綜述性文獻對其進行深入梳理和 總結。基于此,本文首先回顧了 DRL 的理論發 展歷程;然后對 DRL 的基本算法及改進算法進 行了歸納總結;最后對前人研究中 DRL 在軍事 領域武器裝備、網絡安全、無人機編隊、智能 決策與博弈等問題的應用現狀進行了系統性的 總結,并展望了其發展方向和前景。
深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。
如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。
模仿學習是強化學習與監督學習的結合,目標是通過觀察專家演示,學習專家策略,從而加速強化學習。通過引入 任務相關的額外信息,模仿學習相較于強化學習,可以更快地實現策略優化,為緩解低樣本效率問題提供了解決方案。近年 來,模仿學習已成為解決強化學習問題的一種流行框架,涌現出多種提高學習性能的算法和技術。通過與圖形圖像學的最新 研究成果相結合,模仿學習已經在游戲 AI (artificial intelligence)、機器人控制、自動駕駛等領域發揮了重要作用。**本綜述圍 繞模仿學習的年度發展,從行為克隆、逆強化學習、對抗式模仿學習、基于觀察量的模仿學習和跨領域模仿學習等多個角度 進行了深入探討。**綜述介紹了模仿學習在實際應用上的最新情況,比較了國內外研究現狀,并展望了該領域未來的發展方向。 報告旨在為研究人員和從業人員提供模仿學習的最新進展,從而為開展工作提供參考與便利。//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202301140000005&journal_id=jig
1. 引言
深度強化學習(deep reinforcement learning,DRL) 有著樣本效率低的問題,通常情況下,智能體為了 解決一個并不復雜的任務,需要遠遠超越人類進行 學習所需的樣本數。人類和動物天生就有著模仿其 它同類個體的能力,研究表明人類嬰兒在觀察父母 完成一項任務之后,可以更快地學會該項任務 (Meltzoff 等,1999)。基于神經元的研究也表明,一 類被稱為鏡像神經元的神經元,在動物執行某一特 定任務和觀察另一個體執行該任務的時候都會被激 活(Ferrari 等,2005)。這些現象都啟發了研究者希望 智能體能通過模仿其它個體的行為來學習策略,因 此模仿學(imitation learning,IL)的概念被提出。模仿 學習通過引入額外的信息,使用帶有傾向性的專家 示范,更快地實現策略優化,為緩解樣本低效問題 提供了一種可行的解決途徑。
由于模仿學習較高的實用性,其從誕生以來一 直都是強化學習重要的研究方向。傳統模仿學習方 法主要包括行為克隆(Bain 和 Sammut,1995)、逆強 化學習(Ng 等,2000)、對抗式模仿學習(Ho 和 Ermon, 2016)等,這類方法技術路線相對簡單,框架相對單 一,通常在一些簡單任務上能取得較好效果 (Attia and Dayan,2018;Levine,2018)。隨著近年來計算 能力的大幅提高以及上游圖形圖像任務(如物體識 別、場景理解等)的快速發展,融合了多種技術的模 仿學習方法也不斷涌現,被廣泛應用到了復雜任務, 相關領域的新進展主要包括基于觀察量的模仿學習 (Kidambi 等,2021)、跨領域模仿學習(Raychaudhuri 等,2021;Fickinger 等,2021)等。
基于觀察量的模仿學習(imitation learning from observation,ILfO)放松了對專家示范數據的要求, 僅從可被觀察到的專家示范信息(如汽車行駛的視 頻信息)進行模仿學習,而不需要獲得專家的具體 動作數據(如人開車的方向盤、油門控制數據) (Torabi 等,2019)。這一設定使模仿學習更貼近現實 情況,使相關算法更具備實際運用價值。根據是否 需要建模任務的環境狀態轉移動力學(又稱為“模 型”),ILfO 類算法可以被分為有模型和無模型兩類。 其中,有模型方法依照對智能體與環境交互過程中 構建模型的方式,可以進一步被分為正向動態模型 (forward dynamics models)(Edwards 等 , 2019 ; Kidambi 等,2021)與逆向動態模型(inverse dynamics models)(Nair 等,2017;Torabi 等,2018;Guo 等,2019;Radosavovic 等,2021);無模型的方法主要包 括對抗式方法(Merel 等,2017;Stadie 等,2017; Henderson 等,2018) 與獎勵函數工程法(Gupta 等, 2017;Aytar 等,2018;Schmeckpeper 等,2021)。
跨領域模仿學習(cross domain imitation learning, CDIL)主要聚焦于研究智能體與專家處于不同領域 (例如不同的馬爾可夫決策過程)的模仿學習方法。 當前的 CDIL 研究主要聚焦于以下三個方面的領域 差異性(Kim 等,2020):1)狀態轉移差異(Liu 等, 2019),即環境的狀態轉移不同;2)形態學差異(Gupta 等,2017),即專家與智能體的狀態、動作空間不同; 3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020),即專家與智能體的觀察量不同。 根據算法依賴的主要技術路徑,其解決方案主要可 以分為:1)直接法(Taylor 等,2007),該類方法關注 形態學差異來進行跨領域模仿,通常使用簡單關系 函數(如線性函數)建立狀態到狀態之間的直接對 應關系;2)映射法(Gupta 等,2017;Sermanet 等, 2018;Liu 等,2018),該類方法尋求不同領域間的 深層相似性,利用復雜的非線性函數(如深度神經 網絡)完成不同任務空間中的信息轉移,實現跨領 域模仿;3)對抗式方法(Sharma 等,2019;Kim 等, 2020),該類方法通常包含專家行為判別器與跨領域 生成器,通過交替求解最小-最大化問題來訓練判別 器和生成器,實現領域信息傳遞;4)最優傳輸法 (Papagiannis 和 Li,2020;Dadashi 等,2021;Nguyen 等,2021;Fickinger 等,2021),該類方法聚焦專家 領域專家策略占用測度(occupancy measure)與目標 領域智能體策略占用測度間的跨領域信息轉移,通 過最優傳輸度量來構建策略遷移模型。
當前,模仿學習的應用主要集中在游戲 AI、機 器人控制、自動駕駛等智能體控制領域。圖形圖像 學方向的最新研究成果,如目標檢測(Feng 等,2021; Li 等,2022)、視頻理解(Lin 等,2019;Bertasius 等, 2021) 、視頻分類 (Tran 等 , 2019) 、視頻識別 (Feichtenhofer,2020)等,都極大地提升了智能體的 識別、感知能力,是模仿學習取得新進展與新應用 的重要基石。此外,近年來也有研究者開始探索直 接使用 IL 提高圖形/圖像任務的性能,如 3D/2D 模 型與圖像配準(Toth 等,2018)、醫學影像衰減校正 (Kl?ser 等,2021)、圖像顯著性預測(Xu 等,2021)等。 總體來說,模仿學習與圖像處理的有機結合,極大 地拓展了相關領域的科研范圍,為許多困難問題的 解決提供了全新的可能性。
本文的主要內容如下:首先簡要介紹模仿學習 概念,同時回顧必要的基礎知識;然后選取模仿學 習在國際上的主要成果,介紹傳統模仿學習與模仿 學習最新進展,同時也將展現國外最新的研究現狀; 接著選取國內高校與機構的研究成果,介紹模仿學 習的具體應用,同時也會比較國內外研究的現狀; 最后將總結本文,并展望模仿學習的未來發展方向 與趨勢,為研究者提供潛在的研究思路。本文是第 一個對模仿學習最新進展(即基于觀察量的模仿學 習與跨領域模仿學習)進行詳細調研的綜述,除本 文以外,(Ghavamzadeh 等,2015;Osa,2018;Attia 和 Dayan,2018;Levine,2018;Arora 和 Doshi, 2021)等文章也對模仿學習的其它細分領域進行了 調研。
**2 模仿學習新進展 **
隨著強化學習與模仿學習領域研究的不斷深入, 近些年模仿學習領域的研究取得了一些矚目的新進 展,相關的研究不再局限于理論分析與模擬環境, 而是轉向更貼近實際的方向,例如:基于觀察量的 模仿學習(2.1 節),跨領域模仿學習(2.2 節)。在 這些領域的許多工作,考慮了使用實際數據集進行 模仿學習訓練;同時其目標也并非局限于完成 Gym 等模擬環境上提供的標準任務,而是進一步轉向模 仿學習算法在機器人控制、自動駕駛等領域的實際 應用,為“模擬到現實”做出了堅實的推進。
**2.1 基于觀察量的模仿學習 **
當智能體試圖僅通過“觀察”來模仿專家的策略 時,就會出現基于觀察量的模仿學習(Imitation Learning from Observation,ILfO)這一任務(Torabi 等, 2019)。所謂的“觀察”,指的是僅包含狀態信息而不 包含動作信息的專家示范,它可以是僅包含狀態信 息的軌跡???????? = {????????}????=1 ???? ,也可以是單純的圖片或視頻。 相較于傳統模仿學習中既可以獲得專家所處的狀態, 又可以獲得專家在當前狀態下的策略(動作)的設 定,ILfO 放松了對專家示范數據的要求,從而成為 了一種更貼近現實情況、更具備實際運用價值的設 定。值得注意的是,ILfO 可以直接使用專家行為的 圖片數據作為輸入(Liu 等,2018;Torabi 等,2019; Karnan 等,2022),這在引入海量數據集的同時,也 將模仿學習與圖像圖形學、計算機視覺等領域有機 地結合起來,從而極大地拓展了相關領域的潛在研 究方向,為相關領域的進一步發展開辟了新的土壤。
IL 的目標類似,ILfO 的目標是讓智能體通 過模仿僅包含狀態信息的專家示范數據,輸出一個具有相同行為的策略。既然 ILfO 是一種更貼近現實 的設定,如何從現實的專家行為中獲得示范數據是 首先要解決的問題。一些早期的工作通過直接在專 家身上設置傳感器的方式記錄專家的行為數據 (Ijspeert 等,2001;Calinon 和 Billard,2007)。上述 方法的升級版本是采用動作捕捉技術,專家需要佩 戴專業的動作捕捉設備,這樣做的好處是計算機系 統可以直接對專家的行為進行 3 維建模,從而轉換 成模擬系統易于識別的輸入(Field 等,2009;Merel 等,2017)。隨著前些年卷積神經網絡在處理圖像數 據上大放異彩,現在較為常見的是直接使用攝像頭 拍攝專家行為,進而直接使用圖像、視頻數據作為 輸入(Liu 等,2018;Sharma 等,2019;orabi 等,2019; Karnan 等,2022)。 由于 ILfO 無法獲得專家動作,因此將專家動作 視為狀態標簽的方法將不再適用,這也使得 ILfO 變 成了更具挑戰的任務。一般來說,基于 ILfO 設定的 算法可以被分為有模型和無模型兩類。所謂的“模 型”,一般指的是環境的狀態轉移,通過對智能體與 環境交互過程中學習模型的方式作區分,可以進一 步將有模型的方法分為:正向動態模型(forward dynamics models)與逆向動態模型(inverse dynamics models);無模型的方法主要包括:對抗式方法與獎 勵函數工程法。
**2.2 跨領域模仿學習 **
跨領域模仿學習(cross domain imitation learning, CDIL)相關領域的研究最早可以追溯到機器人控制 領域通過觀察來讓機器人學習策略(Kuniyoshi 等, 1994;Argall 等,2009)。后來隨著對 ILfO(章節 2.1) 研究的深入,CDIL 的相關研究也越來越受重視。與 傳統設定下的 IL 相比,跨領域模仿學習與現實世界 中的學習過程兼容性更好(Raychaudhuri 等,2021)。 傳統的 IL 假設智能體和專家在完全相同的環境中 決策,而這一要求幾乎只可能在模擬系統(包括游戲) 中得到滿足。這一缺點嚴重地限制了傳統 IL 在現實 生活中可能的應用場景,并且將研究者的工作的重心轉移到對場景的準確建模,而并非算法本身的性 能上。CDIL 的產生打破了這一枷鎖,因為智能體可 以使用不同于自身領域的專家示范來學習策略。當 前 CDIL 所研究的領域差異主要集中在以下三個方 面(Kim 等,2020):1)狀態轉移差異(Liu 等,2019); 2)形態學差異(Gupta 等,2017);3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020)。 這些差異也對應第 2.1 章中提及的 ILfO 所面臨的挑 戰。
在模仿學習變得為人熟知之前,這一研究領域 更廣泛地被稱為遷移學習(Taylor 等,2008)。例如, Konidaris 等人(2006)通過在任務之間共享的狀態表 示子集上學習價值函數,來為目標任務提供塑性后 獎勵。Taylor 等人(2007)人工設計了一個可以將某一 MDP 對應的動作價值函數轉移到另一 MDP 中的映 射來實現知識遷移。直觀地說,為了克服智能體環 境和專家環境之間的差異,需要在它們之間建立一 個轉移或映射。Taylor 等人 (2008)介紹了一種“直接 映射”的方法,來直接學習狀態到狀態之間的映射關 系。然而,在不同領域中建立狀態之間的直接映射 只能提供有限的轉移,因為兩個形態學上不同的智 能體之間通常沒有完整的對應關系,但這種方法卻 不得不學習從一個狀態空間到另一個狀態空間的映 射(Gupta 等,2017),從而導致該映射關系是病態的。 早期的這些方法,大多都需要特定領域的知識,或 是人工構建不同空間之間的映射,這通常會使研究 變得繁瑣且泛化性較差,因此必須借助更為先進的 算法來提升性能。 隨著深度神經網絡的發展,更具表達性的神經 網絡被廣泛運用,CDIL 也迎來了較快的發展。 (Gupta 等,2017;Sermanet 等,2018;Liu 等,2018) 等文章研究機器人從視頻觀察中學習策略,為了解 決專家示范與智能體所處領域不同的問題,他們的 方法借助不同領域間成對的、時間對齊的示范來獲 得狀態之間對應關系,并且這些方法通常涉及與環 境進行交互的 RL 步驟。相較于“直接映射”的方法, 這些方法學習的映射并不是簡單的狀態對之間的關 系,而更多利用了神經網絡強大的表達性能,從而 取得更好的實驗效果。但不幸的是,成對且時間對 齊的數據集很難獲得,從而降低了該種方法的可實現性(Kim 等,2020)。
**3 模仿學習應用 **
隨著基于觀察量的模仿學習與跨領域模仿學習 的不斷發展,基于 IL 的算法也越來越符合現實場景 的應用要求,此外,圖形圖像學上的諸多最新研究 成果,也為 IL 的現實應用進一步賦能。模仿學習的 主要應用領域包括但不限于:1)游戲 AI;2)機器人 控制;3)自動駕駛;4)圖像圖形學等。本章節將列舉 有代表性的模仿學習應用類工作,同時由于現階段 國內關于模仿學習的研究主要集中在應用領域,因 此本章節將著重選取國內高校、機構的工作成果, 進而為國內該領域的研究者提供一些參考。 Gym(Brockman 等,2016)與 Mujoco(Todorov 等, 2012)是強化學習領域被最廣泛使用的訓練環境,其 為強化學習領域的研究提供了標準環境與基準任務, 使得不同的算法能在相同的設定下比較性能的優劣。 模仿學習作為強化學習最為熱門的分支領域,也廣 泛使用 Gym 與 Mujoco 作為訓練/測試環境。Gym 包 含多個基礎游戲環境以及雅達利游戲環境,Mujoco 包含多個智能體控制環境同時支持自建任務。值得 注意的是,Gym 與 Mujoco 都包含大量的圖像環境, 即以圖像的形式承載環境的全部信息,這就使得圖 像圖形學的眾多最新成果,直接推動了模仿學習的 應用。考慮到 Gym 與 Mujoco 的虛擬仿真特性,可 將其歸類為游戲環境。這些使用 Gym 與 Mujoco 進 行訓練或驗證的模仿學習算法,都能在一定程度上 推廣到其他游戲領域的應用。國內的諸多高校都在 該方面做出了自己的貢獻,包括 清華大學的 Yang 等人(2019)探究了基于逆向動態模型的 IL 算法性能, Jing 等人(2021)驗證了分層模仿學習的性能;上海交 通大學的 M.Liu 等人(2020)探究基于能量的模仿學 習算法性能,Liu 等人(2021)探究離線模仿學習算法 COIL(curriculum offline imitation learning)的性能, Liu等人(2022)探究通過解耦策略優化進行模仿學習。 南京大學的 Zhang 等人(2022)探究生成式對抗模仿 學習的性能,Xu 等人(2020) 探究模仿策略的誤差界 限,Jiang 等人(2020) 探究帶誤差的模擬器中的離線 模仿學習。
Gym 與 Mujoco 環境之外,模仿學習也被廣 泛用于訓練棋類與即時戰略類游戲 AI。這類游戲任 務的難度顯著增加,且通常包含較大信息量的圖像數據,因此也會更依賴于先進的圖像處理方法(例如 目標檢測)。對于這些復雜游戲環境,狀態動作空間 過于龐大,獎勵信息過于稀疏,智能體通常無法直 接通過強化學習獲得策略。進而,智能體首先通過 模仿人類選手的對局示范來學習較為基礎的策略, 然后使用強化學習與自我博弈等方式進一步提升策 略。其中最為代表的就是 Google 公司開發的圍棋游 戲 AI AlphaGo(Silver 等,2016)以及星際爭霸AI Alphastar(Vinyals 等,2019)。與國外的情況相似國內工業界也十分重視該類游戲 AI 的開發,包括 騰 訊公司開發的王者榮耀(復雜的多智能體對抗環境) 游戲 AI(Ye 等,2020);華為公司基于多模式對抗模 仿學習開發的即時戰略游戲 AI(Fei 等,2020),如圖 3 所示。考慮到該類游戲的超高復雜性,人工智能在 如此復雜的任務中完勝人類對手,可以預見人工智 能在游戲領域完全超越人類已經只是時間問題。 在機器人控制領域,由于機器人的價格昂貴, 部件易損且可能具備一定危險性,因此需要一種穩 定的方式獲得策略,模仿學習讓機器人直接模仿專 家的行為,可以快速、穩定地使其掌握技能,而不依 賴于過多的探索。斯坦福大學的 Abbeel 等人(2006), 早在 2006 年就將逆強化學習方法用在直升機控制 任務上(如圖 4 所示)。加州大學伯克利分校的 Nair 等人(2017),結合自監督學習與模仿學習的方法,讓 機器人通過模仿專家行為的視頻數據,學習完成簡 單的任務(如圖 5 所示)。國內高校也在該領域做出 了一定的貢獻,包括 清華大學的 Fang 等人(2019)調 研了模仿學習在機器人操控方面的研究。中國科學 院大學的 Jiayi Li 等人(2021)通過視頻數據進行元模 仿學習以控制機器(如圖 6 所示)。中科院自動化所 的 Y. Li 等人(2021)通過視頻數據進行模仿學習以精 確操控機器手臂的位置。 自動駕駛是當前人工智能最重要的應用領域 (Grigorescu 等,2020;Kiran 等,2021),模仿學習憑 借其優秀的性能也在該領域占據一席之地,特別是 基于觀察量的模仿學習與跨領域模仿學習兼容自動 駕駛的絕大部分現實需求,從而使得 IL 在該領域大 放異彩(Codevilla 等,2018;Bhattacharyya 等,2018Liang 等,2018;Chen 等,2019;Kebria 等,2019; Pan 等,2020)。國內的高校與企業也十分重視模仿 學習在自動駕駛領域的研究,包括 清華大學的 Wu 等人(2018)結合模仿學習進行水下無人設備訓練。浙 江大學的 Li 等人(2020)探究了用于視覺導航的基于 無監督強化學習的可轉移元技能;Wang 等人(2021) 探究從分層的駕駛模型中進行模仿學習(如圖 7 所 示);百度公司的 Zhou 等人(2021)使用模仿學習實現 自動駕駛。北京大學的 Zhu 等人(2021)關于深度強 化學習與模仿學習在自動駕駛領域的應用作了綜述。 事實上,近年來模仿學習也被直接用于圖像處 理上,在圖形圖像領域發揮出獨特的價值。Toth 等 人(2018)探究模仿學習在心臟手術的 3D/2D 模型與 圖像配準上的應用。Kl?ser 等人(2021)研究模仿學習 在改進3D PET/MR(positron emission tomography and magnetic resonance)衰減校正上的應用。北京航天航 空大學的Xu等人(2021)探究了生成對抗模仿學習在 全景圖像顯著性預測上的應用。 在其它領域,模仿學習也有著廣泛的應用,包 括電子有限集模型預測控制系統 (Novak 和 Dragicevic,2021)、云機器人系統(B. Liu 等,2020)、 異構移動平臺的動態資源管理(Mandal 等,2019)、 多智能體合作環境中的應用(Hao 等,2019)、信息檢 索(Dai 等,2021)、移動通信信息時效性(Wang 等, 2022)、黎曼流形(Zeestraten 等,2017)、運籌學 (Ingimundardottir 和 Runarsson,2018)、緩存替換(Liu 等,2020)等。
無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。
1. 引言
無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。
強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。
本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。
1 強化學習的基本理論
強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。
2 強化學習在自動駕駛領域的應用
2.1 在避障問題中的應用
在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。
雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。
Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。
2.2 在變道與超車問題中的應用
在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。
針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。
在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。
針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。
2.3 在車道保持問題中的應用
在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。
原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。
基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。
2.4 在道路交叉口通行問題中的應用
在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。
3 強化學習在無人車領域的應用展望
無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:
1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。
2)提升強化學習在無人車決策上的可解釋性
當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。
3)提高強化學習在無人車決策上的安全性
當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。
4)研究無人車大數據背景下基于強化學習的
云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。
4 結論
本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。
摘要: 推薦系統致力于從海量數據中為用戶尋找并自動推薦有價值的信息和服務,可有效解決信息過載問題,成為大數據時代一種重要的信息技術。但推薦系統的數據稀疏性、冷啟動和可解釋性等問題,仍是制約推薦系統廣泛應用的關鍵技術難點。強化學習是一種交互學習技術,該方法通過與用戶交互并獲得反饋來實時捕捉其興趣漂移,從而動態地建模用戶偏好,可以較好地解決傳統推薦系統面臨的經典關鍵問題。強化學習已成為近年來推薦系統領域的研究熱點。文中從綜述的角度,首先在簡要回顧推薦系統和強化學習的基礎上,分析了強化學習對推薦系統的提升思路,對近年來基于強化學習的推薦研究進行了梳理與總結,并分別對傳統強化學習推薦和深度強化學習推薦的研究情況進行總結;在此基礎上,重點總結了近年來強化學習推薦研究的若干前沿,以及其應用研究情況。最后,對強化學習在推薦系統中應用的未來發展趨勢進行分析與展望。
摘要: 組合優化問題廣泛存在于國防、交通、工業、生活等各個領域, 幾十年來, 傳統運籌優化方法是解決組合優化問題的主要手段, 但隨著實際應用中問題規模的不斷擴大、求解實時性的要求越來越高, 傳統運籌優化算法面臨著很大的計算壓力, 很難實現組合優化問題的在線求解. 近年來隨著深度學習技術的迅猛發展, 深度強化學習在圍棋、機器人等領域的矚目成果顯示了其強大的學習能力與序貫決策能力. 鑒于此, 近年來涌現出了多個利用深度強化學習方法解決組合優化問題的新方法, 具有求解速度快、模型泛化能力強的優勢, 為組合優化問題的求解提供了一種全新的思路. 因此本文總結回顧近些年利用深度強化學習方法解決組合優化問題的相關理論方法與應用研究, 對其基本原理、相關方法、應用研究進行總結和綜述, 并指出未來該方向亟待解決的若干問題.
自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.
摘要: 工業4.0將工業制造流程以及產品質量優化從以前依照經驗和觀察進行判斷轉變為以事實為基礎, 通過分析數據進而挖掘潛在價值的完整智能系統. 人工智能技術的快速發展在工業4.0的實現中扮演著關鍵的角色. 然而, 傳統的人工智能技術通常著眼于日常生活、社會交流和金融場景, 而非解決工業界實際所遇到的問題. 相比而言, 工業人工智能技術基于工業領域的具體問題, 利用智能系統提升生產效率、系統可靠性并優化生產過程, 更加適合解決特定的工業問題同時幫助從業人員發現隱性問題, 并讓工業設備有自主能力來實現彈性生產并最終創造更大價值. 本文首先介紹工業人工智能的相關概念, 并通過實際的工業應用案例如元件級的滾珠絲杠、設備級的帶鋸加工機與機器群等不同層次的問題來展示工業人工智能架構的可行性與應用前景.
題目: A Survey and Critique of Multiagent Deep Reinforcement Learning
簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。
作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。