無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。
1. 引言
無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。
強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。
本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。
1 強化學習的基本理論
強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。
2 強化學習在自動駕駛領域的應用
2.1 在避障問題中的應用
在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。
雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。
Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。
2.2 在變道與超車問題中的應用
在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。
針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。
在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。
針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。
2.3 在車道保持問題中的應用
在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。
原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。
基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。
2.4 在道路交叉口通行問題中的應用
在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。
3 強化學習在無人車領域的應用展望
無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:
1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。
2)提升強化學習在無人車決策上的可解釋性
當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。
3)提高強化學習在無人車決策上的安全性
當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。
4)研究無人車大數據背景下基于強化學習的
云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。
4 結論
本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。
作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。
1. 引言
強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。
深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。
盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]。
解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。
該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。
1 基于課程學習的深度強化學習
課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。
常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。
課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。
2 深度強化學習中的課程學習研究進展
對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。
3 算法分析與總結
強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。
3. 1 強化學習中的課程學習算法理論分析與對比
在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。
(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。
(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。
(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。
(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。
3. 2 基于課程學習的深度強化學習研究方向
通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。
4 結束語
該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。
摘要: 知識圖譜是一種用圖結構建模事物及事物間聯系的數據表示形式,是實現認知智能的重要基礎,得到了學術界和工業界的廣泛關注.知識圖譜的研究內容主要包括知識表示、知識抽取、知識融合、知識推理4部分. 目前,知識圖譜的研究還存在一些挑戰.例如,知識抽取面臨標注數據獲取困難而遠程監督訓練樣本存在噪聲問題,知識推理的可解釋性和可信賴性有待進一步提升,知識表示方法依賴人工定義的規則或先驗知識,知識融合方法未能充分建模實體之間的相互依賴關系等問題.由環境驅動的強化學習算法適用于貫序決策問題.通過將知識圖譜的研究問題建模成路徑(序列)問題,應用強化學習方法,可解決知識圖譜中的存在的上述相關問題,具有重要應用價值. 首先梳理了知識圖譜和強化學習的基礎知識.其次,對基于強化學習的知識圖譜相關研究進行全面綜述.再次,介紹基于強化學習的知識圖譜方法如何應用于智能推薦、對話系統、游戲攻略、生物醫藥、金融、安全等實際領域.最后,對知識圖譜與強化學習相結合的未來發展方向進行展望.
自谷歌在2012年推出“知識圖譜”(knowledge graph,KG)后,知 識 圖 譜 技 術 已 迅 速 成 為 數 據 挖 掘、數據庫和人工智能等領域的研究熱點.知識圖譜 采用圖 結 構 來 描 述 知 識 和 建 模 事 物 及 事 物 間 關 系[1].它將信息表達成更接近人類認知的形式,提供 了一種組織、管理和認知理解海量信息的能力[2].知 識圖譜本質是一種大規模語義網絡,既包含了豐富 的語義信息,又天然具有圖的各種特征,其中,事物 或實體屬性值表示為“節點”,事物之間的關系或屬 性表示為“邊”.目前,知識圖譜相關的知識自動獲 取、知 識 推 理、知 識 表 示、知 識 融 合已成為搜索問答、大數據分析[4]、智能推薦[6]和 數據集成[11]的強大資產,被廣泛應用于多個行業 領域.
目前,大部分知識圖譜的研究是基于監督學習 的方法.然而,為模型獲得足夠的標注數據成 本較高.為此部分學者提出使用遠程監督的方法來 減少數據標注[15],遠程監督指的是借助外部知識庫 為數據提供標簽[16].但遠程監督獲得的訓練樣本中 存在噪聲.此外,現有方法還存在依賴人工預定義的 規則和先驗知識或模型缺乏可解釋性等問題.強化 學習(reinforcementlearning,RL)適用于貫序決策 問題,通過學習如何與環境交互,進而輔助人類決 策.它在進行策略選擇時更關注環境狀態,對行為的 選擇進行更好地理解和解釋.將知識圖譜研究的問 題建模成路徑或序列相關的問題,例如,將基于遠程 監督的命名實體識別中干凈樣本的選擇建模成序列 標注任務、將關系推理建模成路徑查找問題等,應用 強化學習算法可以避免依賴人工預定義的規則或先 驗知識,解決模型缺乏可解釋性或僅提供事后可解 釋性(postGhocexplanation)的問題,具有重要的研 究和應用價值.
近年來,學術界和工業界對知識圖譜、強化學習 2個領域進行了深入研究,有不少分別聚焦知識圖 譜和強化學習的綜述性文章.文獻分別圍繞知識圖譜的表示學習、知識獲取、知 識推理、知識圖譜構建與應用、多模態知識融合等進 行綜述.文獻分別對基于價值的和基于策略 的強化學習、深度強化學習算法、多智能體算法進行 綜述.文獻對強化學習在綜合能源管理和金 融交易領域的研究進行闡述.然而,盡管已有諸多的 知識圖譜、強化學習綜述文獻,但仍缺乏對知識圖譜 和強化學習相結合的研究進行系統地梳理和總結的 工作.與現有的工作相比,本文工作的不同主要體現 在2個方面:1) 通過系統調研已發表的基于強化學 習的知識圖譜相關研究的論文,全面總結了基于強 化學習的知識圖譜研究,包括知識抽取、知識推理、 知識表示、知識融合等研究成果.2) 介紹了基于強化 學習的知識圖譜如何應用于智能推薦、游戲攻略、生 物醫藥、金融、網絡安全等實際領域.本文是第1篇 系統介紹該研究方向的綜述論文.
基于強化學習的知識圖譜研究
目前,大多數知識圖譜的相關方法基于監督學 習,但對數據進行標注費時費力.為了解決標注困難 的問題,有學者提出了遠程監督的方法.遠程監督減 少了數據 標 注 成 本,但 又 在 訓 練 數 據 中 引 入 了 噪 聲[15].雖然,目前知識圖譜的研究方法在準確率、精 度、召回率等性能上取得了很好的效果,但這些方法 結果的透明性、可解釋性、可信賴性等還有待進一步 研究.強化學習方法不同于一般的監督學習, 它把相關問題建模為序列決策問題,近年來在知識 圖譜領域得到應用,可以幫助解決遠程監督的噪音 問題、知識推理結果可解釋性差[105]等問題.本節將 分別從命名實體識別、關系抽取、知識推理、知識表 示、知識融合等5個方面,詳細介紹強化學習方法在 各類研究中的進展,如圖3所示:
命名實體識別
**命名實體識別旨在對序列進行命名實體標注, 判斷輸入句子中的詞是否屬于人名、地名、組織機構 名等.現有命名實體識別方法依賴人工標注數據,但 標 注 成 本 較 高.遠 程 監 督 方 法 可 以 降 低 標 注 成 本[15],但遠程監督獲得的訓練樣本中又存在噪聲. 強化學習方法可以通過自主學習選擇高質量的訓練 樣本數據,解決上述問題.目前,基于強化學習的命 名實體識別方法思路主要有2類:1)使用深度強化 學習模型自動學習樣本選擇策略,過濾掉訓練數據 中的噪聲.2)將命名實體識別任務利用強化學習來 建模,即將序列標注任務轉換為序列決策問題.通過 利用 Markov決策過程模型來進行序列標注,即為 序列中的每個元素分配一個標簽.
關系抽取
關系可以定義為實體之間或實體與屬性之間的 某種聯系,關系抽取就是自動識別實體(或實體與屬 性)之間具有的某種語義關系.現有關系抽取方法大 多基于神經網絡模型[46G54],通過監督學習或遠程監 督學習來完成抽取任務.為了降低標注成本,學者們 提出使用遠程監督的方法.遠程監督方法雖然有效, 但在訓練樣本中引入了噪聲[15].強化學習方法可以 通過知識引導來避免噪聲數據帶來的影響.基于強 化學習的關系抽取方法主要可以分為3類:1)使用 強化學習模型對抽取結果進行知識驗證;2)利用強 化學習模型進行訓練樣本選擇;3)將實體識別與關 系抽取2個任務聯合建模,互為增強。
知識推理
知識圖譜通常是不完整的.知識推理是指根據 知識圖譜中已有的知識,采用某些方法,推理出新的 知識,包括實體預測和關系預測.傳統的推理方法, 例如基于規則的推理[55G56]會引入一些人類先驗知 識,專家依賴度過高.目前,大部分知識推理是基于 神經網絡模型[58G64].神經網絡模型通常更關注于推 理結果,模型可解釋性、可信賴性有待進一步提升. 除基于規則、基于神經網絡的推理方法外,知識 推理問題也可以建模成知識圖譜中路徑查找問題, 其中節點代表實體,關系代表邊.強化學習智能體根 據當前環境(所在節點)通過策略學習或價值函數學 習,來決定下一步的行動(通常為關系或(關系,實 體)),從而完成推理任務.因此,基于強化學習的知 識圖譜推理在學術界和工業界得到廣泛研究.基于 強化學習的知識圖譜推理方法依據智能體的個數可 以分為單智能體推理方法、多智能體推理方法.多智 能體推理方法指至少擁有2個智能體的基于強化學 習的知識推理方法.多智能體之間存在著一定的關 系,如合作、競爭或同時存在競爭與合作的關系.我 們將分別從單智能體推理、多智能體推理2個方面 進行詳細介紹.
**知識表示 **
知識圖譜 在 表 示 結 構 化 數 據 方 面 非 常 有 效, 但這種三元組的基本符號性質使知識圖譜難以操 作[135].為了解決這一問題,提出了知識表示學習[1]. 知識表示學習旨在將知識圖譜豐富的結構和語義信 息嵌入到低維節點表示中.目前,常用的知識表示學 習方法[1]有基于翻譯模型 Trans系列的方法[69G71]、基 于語義匹配的方法[68G69]、基于神經網絡的方法[71G76].基于翻譯模型的方法簡單易于理解,但是基于翻譯 模型的方法不能處理復雜關系,模型復雜度較高.基 于語義匹配的方法需要大量參數且復雜度較高,限 制了其在大規模稀疏知識圖譜上的應用.基于神經 網絡的方法雖然建模能力較強,但是結果缺乏一定 的可解釋性.基于圖的隨機游走模型[136G138]也是用于 知識表示學習的一類方法.這類方法依賴于人工設 置元路徑來捕獲圖的語義信息.然而,人工設置元路 徑需要豐富的專家領域知識,對于大規模、復雜且語 義豐富的知識圖譜來說,是一件充滿挑戰的任務.
**知識融合 **
知識圖譜中的知識來源廣泛,具有多源、異構等 特點,需要構建統一的大規模知識庫來支撐推理和理 解任務.知識融合研究如何將來自多個來源的關于 同一個實體或概念的描述信息融合起來[11],形成高質量統一的知識圖譜的一類任務.通常,知識融合包 括本體匹配(ontologymatching)、本體對齊(ontology alignment)、實 體 鏈 接 (entitylinking)、實 體 消 歧 (entitydisambiguation)、實體對齊(entityalignment) 等.現有的知識融合方法還存在受噪聲數據以及對 齊種子對數量的限制[141],或者未能充分建模實體 之間的相互依賴關系等問題.
基于強化學習的知識圖譜的應用
知識圖譜可以為各領域提供豐富的信息和先驗 知識,強化學習方法擁有強大的探索能力和自主學 習能力.基于強化學習的知識圖譜相關技術能夠降 低噪聲數據的干擾、自動選擇高質量的樣本數據、更 好地理解環境和提供可信解釋.因此,基于強化學習 的知識圖譜在很多領域得到應用.強化學習與知識 圖譜的結合,從結合方式上來看,可以分為2類.1) 將實際問題建模為包含多種節點類型和關系類型的 知識圖譜,強化學習在知識圖譜上進行探索學習策 略.2) 將知識圖譜作為外部信息引入強化學習框架 中,用來指導強化學習的探索過程.我們將介紹如何 將知識圖譜與強化學習結合解決實際應用中的問 題,包括智能推薦、對話系統、游戲攻略、生物醫藥、 金融、網絡安全等.
智能推薦
推薦系統常面臨數據稀疏、可解釋性等問題以及個性化定制、新型推薦任務等新的需求.知識圖譜 可以向推薦系統中引入輔助信息,如商品內容、跨領 域信息等.與常用的推薦方法不同,基于強化學習的 知識圖譜推薦是在知識圖譜中探索圖(路徑查找)來 找到從用戶到商品的有意義的路徑.強化學習智能體在探索過程中進行決策,解決數據稀疏,提高推薦 可解釋性,使得推薦結果更符合用戶需求。
**對話系統 **
自然語言處理領域的一個重要應用就是人機對 話系統,它是人機交互的核心功能之一.計算機想要 順利無障礙地和人類交流,必須具備豐富的背景知 識以及強大的決策能力,結合背景知識去理解對話 內容,從外部知識庫中找出相關的知識并進行推理, 從而生成合適的回答.知識圖譜為對話系統提供了 豐富的背景知識,而強化學習可以從相關知識集合 中選出恰當的知識,并且可以利用用戶的隱式負反 饋信息,確保對話效果持續穩步提升.
**游戲攻略 **
文字類冒險游戲是一種玩家必須通過文本描述 來了解世界,通過相應的文本描述來聲明下一步動 作的游戲.這類游戲中強化學習智能體根據接收到 的文本信息進行自動響應,以實現規定的游戲目標 或任務(例如拿裝備、離開房間等).強化學習善于序 列決策,知識圖譜善于建模文本的語義和結構信息. 因此,強化學習和知識圖譜相結合在文字類冒險游 戲中得到了成功的應用.基于強化學習的知識圖譜 方法在進行游戲策略學習時主要思路可分為2類: 1)將游戲狀態構建成一張知識圖,利用強化學習技 術進行游戲策略學習;2)將知識圖譜作為外部知識 輔助強化學習智能體進行決策.
**藥物∕疾病預測 **
在生物醫藥領域,藥物合成、新材料發現、疾病 預測等在科技迅速發展的今天顯得日益重要,給社會 發展和人們生活帶來巨大變化.引入強化學習方法, 可以利用智能體在知識圖譜中的自動探索做出最優 決策,同時找到的路徑可以為反應物生成或者疾病 預測提供可解釋性依據.目前,基于強化學習的知識 圖譜技術已經被應用于發現新的藥物或材料、化學 反應物預測以及藥物組合預測、疾病預測等領域。
未來發展方向
近幾年來,針對知識圖譜和強化學習的相關研 究已經成為人工智能領域的熱點方向.知識圖譜可 以同時建模數據的拓撲結構和語義信息,強化學習 是一種從試錯過程中發現最優行為策略的技術[84], 適用于解決貫序決策問題.知識圖譜與強化學習的 結合有利于提升訓練樣本質量,還有利于提高可解 釋性和可信賴性.但是,強化學習方法在知識圖譜領 域應用也存在一些不足,主要表現在2個方面:1)對 強化學習狀態的表示,文獻[134]提到目前強化學習 狀態表示大多使用預訓練得到的節點嵌入.然而,當 知識圖譜中增加新三元組時,節點的嵌入也需要重 新訓練,計算成本較大.文獻[126]提到除了結構信 息以外,節點的文本描述信息、層次結構的類型信息 也十分重要.在知識圖譜表示學習領域,文獻[172] 和文獻[173]分別將文本描述信息、關系路徑等信 息,用于構建更加精準的知識表示.然而,這些方法 還未廣泛應用于強化學習狀態的表示中.2)強化學 習的獎勵函數設計,與人工定義獎勵函數相比,文獻 [122]和文獻[147]已經開始嘗試利用知識圖譜中的 信息結合抗性學習來生成自適應的獎勵函數.如何 自動生成更合理的獎勵函數還有待進一步研究. 目前圍繞強化學習與知識圖譜結合的研究還處 于起步階段,有廣闊的發展空間.未來值得關注5個 方向:
1)基于強化學習的動態時序知識圖譜研究
隨著應用的深入,人們不僅關注實體關系三元 組這種簡單的知識表示,還需要掌握包括邏輯規則、 決策過程在內的復雜知識.目前基于強化學習的知 識圖譜研究主要圍繞靜態知識圖譜.然而,知識隨著 時間的推移往往是動態變化的.如何利用強化學習 在解決序列決策問題方面的優勢,來建模知識圖譜 的動態性,學習知識圖譜的變化趨勢,解決實際應用 中的復雜問題是一個值得研究的課題.Li等人[174]研 究了動態時序知識圖譜的時序推理問題.受人類推 理方式的啟發,CluSTeR(cluesearchingandtemporal reasoning)包含線索搜索和時序推理2部分.線索搜 索模塊采用隨機集束搜索算法,作為強化學習的動 作采樣方法,從歷史事件中推斷多條線索.時序推理 模塊使用基于 RGGCN 進行編碼,并應用 GRU 進行 時序預測,實現從線索中推理答案.
2)基于強化學習的多模態知識圖譜研究
面對越來越復雜多樣的用戶訴求,單一知識圖 譜已不能滿足行業需求.多模態數據[11]可以提供更 豐富的信息表示,輔助用戶決策,提升現有算法的性 能.目前,基于強化學習的知識圖譜研究主要針對文 本數據.如何利用強化學習技術進行多模態知識圖譜 的構建與分析仍是一個值得研究的方向.He等人[175] 將強化學習方法應用于視頻定位(videogrounding) ,即給定一段文本描述將其與視頻片段相匹配的任 務中.He等人將這個任務建模為一個順序決策的問 題,利用 ActorGCritic算法學習一個 逐步 調節時間 定位邊界的代理,完成視頻與文本的匹配.
3)基于新的強化學習方法的知識圖譜研究
強化學習作為人工智能領域研究熱點之一,其 研究進展與成果也引發了學者們的關注.強化學習 領域最近提出了一系列新的方法和理論成果,例如, 循環元強化學習[176]、基于 Transformer的 強 化 學 習[177]、逆強化學習[178]等相關的理論.如何將這些新 的理論方法應用在知識圖譜的構建或研究應用中, 值得深入思考.Hou等人[179]在強化學習動作選擇中 引入了知識圖譜中隱含的規則來約束動作選擇,進 一步精簡了動作空間,提高了強化學習效率.Hua等 人[180]提出了一種元強化學習方法來進行少樣本復 雜知識庫問答,以減少對數據注釋的依賴,并提高模 型對不同問題的準確性.
4)基于強化遷移學習的知識圖譜研究
基于強化學習的知識圖譜方法具有一定的可解 釋性和準確性.但強化學習不同于監督學習,樣本數 據來源于智能體與環境的交互,會導致收集大量無 用且重復的數據,成本較高.一種解決思路是將遷移 學習應用到強化學習中,通過將源任務學習到的經 驗應用到目標任務中,幫助強化學習更好地解決實 際問題.文獻[164]、文獻[170]將遷移學習和強化 學習結合起來,分別應用于同類游戲策略學習以及 動態金融知識圖譜構建領域,并取得了不錯的效果, 緩解了特定領域因訓練數據不足所帶來的挑戰,提 高了模型舉一反三和融會貫通的能力.因此,基于強 化遷移學習的知識圖譜研究也是未來一個重要的研 究方向.
5)算法可解釋性度量研究 由于知識圖譜能夠提供實體間的語義和結構信 息,強化學習智能體的學習過程和人類認知世界的 過程比較相似,產生的解釋更易于人類理解.因此, 一些研究者利用強化學習和知識圖譜開展可解釋性的研究.然而,這些研究工作可解釋性的效果只能通 過實例分析來進行評測.目前,針對解釋性還沒有統 一或者公認的衡量標準[84],如何衡量模型的可解釋 性是未來需要研究的問題之一.
自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1
深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
機器視覺是建立在計算機視覺理論工程化基礎上的一門學科,涉及到光學成像、視覺信息處理、人工智能以及機電一體化等相關技術。隨著我國制造業的轉型升級與相關研究的不斷深入,機器視覺技術憑借其精度高、實時性強、自動化與智能化程度高等優點,成為了提升機器人智能化的重要驅動力之一,并被廣泛應用于工業生產、農業以及軍事等各個領域。在廣泛查閱相關文獻之后,針對近十多年來機器視覺相關技術的發展與應用進行分析與總結,旨在為研究學者與工程應用人員提供參考。首先,總結了機器視覺技術的發展歷程、國內外的機器視覺發展現狀;其次,重點分析了機器視覺系統的核心組成部件、常用視覺處理算法以及當前主流的機器視覺工業軟件;然后,介紹了機器視覺技術在產品瑕疵檢測、智能視頻監控分析、自動駕駛與輔助駕駛與醫療影像診斷等四個典型領域的應用;最后分析了當前機器視覺技術所面臨的挑戰,并對其未來的發展趨勢進行了展望。希望為機器視覺技術的發展和應用推廣發揮積極作用。
最新的技術進步提高了交通運輸的質量。新的數據驅動方法為所有基于控制的系統(如交通、機器人、物聯網和電力系統)帶來了新的研究方向。將數據驅動的應用與運輸系統相結合在最近的運輸應用程序中起著關鍵的作用。本文綜述了基于深度強化學習(RL)的交通控制的最新應用。其中,詳細討論了基于深度RL的交通信號控制(TSC)的應用,這在文獻中已經得到了廣泛的研究。綜合討論了TSC的不同問題求解方法、RL參數和仿真環境。在文獻中,也有一些基于深度RL模型的自主駕駛應用研究。我們的調查廣泛地總結了這一領域的現有工作,并根據應用程序類型、控制模型和研究的算法對它們進行了分類。最后,我們討論了基于深度可編程邏輯語言的交通應用所面臨的挑戰和有待解決的問題。
【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。
論文鏈接: //arxiv.org/abs/2002.00444
介紹:
自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。
章節目錄:
section2: 介紹一個典型的自動駕駛系統及其各個組件。
section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。
section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。
section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。
section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。
section7: 總結