亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

完全依靠自主系統的技術在推動海底領域的環境研究方面發揮了重要作用。無人潛水器(UUV),如美海軍研究生院的UUV研究平臺,在推進用于研究目的的自主系統的技術水平方面發揮了作用。使用自主系統進行研究正變得越來越流行,因為自主系統可以將人類從重復性的任務中解脫出來,并減少受傷的風險。此外,UUVs可以以相對較低的成本大量制造。此外,由于計算和電池技術的進步,UUVs可以在沒有人類干預的情況下承擔更多的擴展任務。

UUV的重要部分之一是控制系統。UUV控制系統的配置可能會根據車輛的有效載荷或環境因素(如鹽度)而改變。控制系統負責實現和保持在目標路徑上的穩定飛行。PID控制器在UUV上被廣泛實施,盡管其使用伴隨著調整控制器的巨大成本。由于兩個主要問題,陡峭的成本并不能提供穩健或智能解決方案的好處。

第一個問題是,PID控制器依賴于復雜的動態系統模型來控制UUV。動態系統模型有簡化的假設,使控制問題得到有效解決。當假設不成立時,PID控制器可以提供次優的控制,甚至會出現完全失去控制的情況。第二個問題是,PID控制器并不智能,不能自主學習。PID控制器需要多名工程師和其他人員花數天時間收集和分析數據來調整控制器。調整PID控制器是一項手動任務,會帶來人為錯誤的機會。

在使用深度強化學習方法進行自主車輛控制系統方面,有很多正在進行的研究,并且已經顯示出有希望的結果[1,2]。深度強化學習控制器已被證明優于執行路徑跟蹤任務的UUV的PID控制器[3]。此外,與PID控制器相比,基于深度強化學習的控制器已被證明能夠為無人駕駛飛行器(UAVs)提供卓越的姿態控制[4-5]。雖然這個例子不是專門針對UUV的,但這個來自空中領域的概念可以轉化到海底領域。

一些最流行的深度強化學習算法被用于自主車輛控制系統的開發,包括近似策略優化(PPO)[6]和深度確定策略梯度(DDPG)[7]算法。本研究將重點關注DDPG算法。DDPG算法是一種角色批判型的深度強化學習算法。Actor-Critic算法同時學習策略和價值函數。Actor-Critic算法的概念是:策略函數(演員)根據當前狀態決定系統的行動,而價值函數(批評家)則對行動進行批評。在深度強化學習中,政策和價值函數是由DNNs近似的,在本研究中具體是多層感知器(MLPs)。

與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。

與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。

在利用降低精度來提高強化學習的計算效率方面,目前的研究很有限。[11]的作者展示了如何使用量化技術來提高深度強化學習的系統性能。文獻[12]的作者展示了一種具有6種方法的策略,以提高軟行為批評者(SAC)算法低精度訓練的數值穩定性。雖然正在進行的研究集中在基準強化學習問題上,但這一概念在科學應用上相對來說還沒有被開發出來,比如使用深度強化學習代理對UUV進行連續控制。

本研究將證明在混合精度和損失比例的情況下,訓練DDPG代理對UUV的連續控制不會影響控制系統的性能,同時在兩個方面使解決方案的計算效率更高。首先,我們將比較用固定和混合數值精度訓練的DDPG代理的性能與1自由度速度控制問題的PID控制器的性能。我們將研究用固定和混合精度訓練DDPG代理的訓練步驟時間。其次,本研究將研究DNN大小和批量大小的閾值,在此閾值下,用混合精度訓練DDPG代理的好處超過了計算成本。

本文的其余部分結構如下。問題表述部分將提供關于DDPG算法、NPSUUV動力學、PID控制和混合數值精度的簡要背景。實驗分析部分將描述本研究中運行的數值實驗的設置和結果。最后,在結論和未來工作部分將描述整體工作和未來計劃的工作。

付費5元查看完整內容

相關內容

未來的系統開發包括指揮和控制(C2)技術,以支持空戰管理人員(ABM)和戰斗機飛行員,因為他們支持在一個更大的系統系統中使用自主無人機系統(UAS)的復雜任務。在復雜的、不斷發展的和動態的環境中,人類作戰員有效地觀察、定位、決定和行動的能力是必不可少的。然而,在ABM和飛行員之間的UAS監管變化過程中,作戰者的表現可能會下降,這大大增加了作戰者的認知工作量,超過了以往任務中通常看到的工作量。不幸的是,C2技術的發展往往把重點放在自動化和硬件上,使人類作戰員的參與度不足,不利于人與自動化的互動。目前,數字工程和基于模型的系統工程(MBSE)工具正在迅速被系統開發、整合和管理所采用,以支持整合這些系統所需的復雜開發工作。目前的研究在MBSE工具中整合了人的考慮,以分析開發過程中人與自動化的合作。該方法支持在建模的任務模擬中用一對專門的活動圖表示自動化輔助和人類作戰者,稱為任務行為者圖和OODA2活動圖,允許分析作戰過程中的錯誤和瓶頸。這種方法說明有可能減少作戰員的認知工作量,改善作戰員的決策,提高系統性能,同時減少系統重新設計的時間。

付費5元查看完整內容

當自主導航到其目標時,地面機器人在檢測和識別其周圍環境和物體方面遇到了艱巨的挑戰。從它的感覺輸入來看,機器人的人工智能必須從語義上分割場景,如地形、植被、人造結構、碎片、水流等。然后,機載感知系統必須智能地評估并確定機器人可以安全地穿越場景的哪些部分,以達到目標。該項目的目標是開發一種新的基于視覺的感知方法,以評估自主地面車輛在自然或結構化環境中穿越時可能遇到的地形的可操作性。隨著深度學習的進展帶來的巨大成功,計算機視覺在物體識別任務中的表現有時超過了人類水平。然而,這些算法需要大量的類實例才能準確執行。

雖然視覺數據很豐富,但與地面導航相關的圖像,尤其是有類標簽的圖像卻很少。因此,需要一種計算機視覺算法,能夠在小的訓練集上有很高的性能,并且能夠識別新的物體。我們建議研究基于GAN的數據增強方法和有效的場景理解方法,以解決與自主機器人在以前未見過的環境中的操縱有關的感知問題的數據稀缺性問題。預期的相關機器人操縱環境和場景通常是不尋常的,而目前的深度學習范式的數據要么稀缺,要么不存在。因此,預計基于GAN的數據增強方法可以為開發能夠感知和理解新環境的陸地機器人車輛提供解決方案。

付費5元查看完整內容

無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。

1. 引言

無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。

強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。

本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。

1 強化學習的基本理論

強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。

2 強化學習在自動駕駛領域的應用

2.1 在避障問題中的應用

在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。

雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。

Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。

2.2 在變道與超車問題中的應用

在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。

針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。

在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。

針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。

2.3 在車道保持問題中的應用

在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。

原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。

基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。

2.4 在道路交叉口通行問題中的應用

在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。

3 強化學習在無人車領域的應用展望

無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:

1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。

2)提升強化學習在無人車決策上的可解釋性

當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。

3)提高強化學習在無人車決策上的安全性

當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。

4)研究無人車大數據背景下基于強化學習的

云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。

4 結論

本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。

付費5元查看完整內容

防御高超音速導彈在戰略上是必要的,在技術上是可行的,在財政上也是負擔得起的,但這并不容易。它的實現將需要不同于傳統彈道和巡航導彈防御任務所采用的方法和新的思維方式。高超聲速武器將彈道導彈的速度和射程與巡航導彈的低空和機動飛行輪廓相結合。雖然傳統防御可以單獨應對這些挑戰,但它們的組合將需要新的能力、作戰概念和防御設計。高超聲速導彈具有吸引力的相同特征也可能是擊敗它們的關鍵。與其將高超聲速防御視為傳統彈道導彈防御問題的附屬品,不如將其理解為一種復雜的防空形式。

幾十年前,美國向世界表明了其部署彈道導彈防御系統的意圖,特別注重攔截大氣層外可預測的目標。從那時起,導彈的威脅范圍已經擴大,變得更加大氣內和更靈活。在21世紀初,俄羅斯和中國開發了各種無人機系統、先進的巡航導彈、高超音速滑翔武器和日益復雜的彈道導彈。這些武器的特點減少了防御系統的覆蓋范圍,迫使防御者一次看多個方向,并需要更靈活的攔截器。

自2018年以來,俄羅斯已經測試了至少四種新的高超音速或高速武器,將其遠程Avangard高超音速滑翔飛行器和Kinzhal空射彈道導彈投入使用。與此同時,中國已經測試或部署了幾種類型的高超音速武器,并在培養高超聲速專業工程師、發表公開科學論文和建造高超聲速風洞方面超過了美國。俄羅斯等大國對先進導彈能力的投資是2021年3月發布的《臨時國家安全戰略指南》所稱的“旨在遏制美國實力并阻止我們捍衛我們在世界各地的利益和盟友的努力”的一部分。

高超聲速防御對于破壞這些努力、保衛美國領土、保護前方部署的部隊及其支持的防御態勢是必要的。有效的威懾既要利用懲罰的威脅,又要利用阻止攻擊的可靠能力。主動和被動防御措施的混合將提高攻擊的門檻,增加對手決策計算的不確定性,并增加對手的發展成本。有效的防御能力為采取其他軍事、外交和經濟應對措施贏得時間,以承受和減輕與危機中攻擊導彈發射裝置有關的政策和行動挑戰。高超音速防御系統的發展不需要也不應該在真空中進行,也不應該作為一個新的獨立的煙囪。高超聲速防御可以利用正在進行的彈道和巡航導彈防御和高超聲速打擊投資,所有這些都利用了類似的工業基礎,并利用了類似的傳感器和網絡。

拜登政府高級官員肯定了高超音速防御的重要性。在他成為國防部長的確認過程中,勞埃德·奧斯汀表示,他將“鼓勵努力解決各種導彈威脅,包括……高超音速導彈防御攔截能力的加速發展。”副國務卿凱瑟琳·希克斯同樣承諾將重點關注必要的傳感器能力:“如果得到證實,我將評估正在進行的改善國家導彈防御的努力,特別關注提高識別能力和探測彈道導彈和高超音速導彈的傳感器。”

高超聲速導彈的特性可能看起來很新穎,但它們實際上是導彈戰新時代的先兆。新型彈道導彈的飛行軌跡更低、形狀更重。新型巡航導彈保持更高的速度,而且越來越難以被發現。未來的威脅將包括導彈-無人機組合、航天飛機、飛行導彈和其他難以簡單分類的混合導彈。因此,高超音速導彈并不代表一個精品問題。它們是導彈威脅的更廣泛演變的例證——這需要對更廣泛的導彈防御模式進行變革。

2019年《導彈防御評估報告》指出,“不應低估恢復常規和導彈防御優勢所需變化的規模和緊迫性。”這里所要求的規模和緊迫性幾乎涉及導彈防御的每一個方面:傳感器、攔截器、防御設計、理論和政策。復雜的空中和導彈防御系統的問題與某些仍在出現的未來威脅無關。目前,與已經部署并準備使用的高超音速武器以及其他即將問世的武器進行競爭是當務之急。美國國防官員長期以來一直表示,有必要將名為彈道導彈防御系統(Ballistic Missile defense System)的主要國防采建項目轉變為導彈防御系統(Missile defense System),以應對不再由彈道導彈定義的威脅范圍。現在是這樣做的時候了。

關鍵研究發現

  • 部署高超聲速防御將需要綜合的、分層的、系統的方法、新的傳感和攔截能力、不同的作戰概念、教義和組織變化,以及修改的政策預期。

  • 高超音速飛行的定義是大氣飛行。因此,高超聲速防御可能被更好地理解為一種復雜的防空形式,而不是彈道導彈防御的附屬品。

  • 高超音速導彈威脅應該是重新考慮導彈防御和擊敗的方法,以及從彈道導彈防御系統中出現導彈防御系統的關鍵驅動因素。這樣做將有利于防御其他非彈道威脅的發展,包括亞音速和超音速巡航導彈、游蕩彈藥和其他新型投送系統。

  • 高超聲速防御最重要的項目元素是彈性和持久的空間傳感器層,能夠觀察、分類和跟蹤所有類型、方位角和彈道的導彈威脅。

  • 第二重要的項目元素是滑翔相位攔截器。到目前為止,高超聲速國防投資一直不多,只有一小部分用于高超聲速打擊。按照目前的速度,滑翔相攔截彈可能要到21世紀30年代才能部署,但這一時間表可能會加快。

  • 即使沒有空間傳感器層和滑翔相位攔截器,防御設計也可以使用現有的傳感器和替代效應器,以限制高超聲速導彈的機動預算,引導威脅,并以有利于防御方的方式施加其他成本。

  • 高超聲速武器具有吸引力的相同特征為防御者提供了新的失敗模式。一種綜合的方法可能受益于用區域范圍效應器補充命中殺傷攔截,包括高功率微波系統、21世紀版本的高射炮和其他針對高超聲速飛行體制漏洞的手段。

  • 美國不會與無限的資源競爭。積極防御高超聲速導彈可能瞄準的每一個關鍵資產甚至廣闊區域是不可能的。這一簡單的現實要求政策和戰略預期與優先防御和更有限的防御資產清單相一致。應優先考慮區域和部隊保護任務,以及在本土的少量關鍵資產。

  • 目前的教義和組織結構妨礙信息共享、交流和決策。這些需要適應,以支持跨多個領域、命令和責任領域的反高超聲速行動。

  • 高超聲速防御工作要求美國通過維持可預測的預算、深化與盟友的合作、投資消除工業瓶頸領域、改進測試和建模基礎設施以及持續持續的努力,重新獲得相關的科學和工業領先地位。

  • 防御高超聲速導彈全方位威脅的挑戰不可能由單一的銀彈解決方案解決。針對高超聲速飛行關鍵弱點的大量努力可以使高超聲速防御成為一個更容易處理的問題。

付費5元查看完整內容

水下監視技術是在冷戰時期出現的。這項技術在解密并被學術界追捧后才有了眾多的進步。海事領域的一個進步是開發了無人潛航器(UUVs),它有能力提高作戰能力,同時減少對人類生命的風險。盡管這項技術后來已經商業化,但海軍對它的接受程度有限。它所取得的有限進展主要是由開發商和資助他們的政府推動的。然而,由于這項技術為軍隊提供了許多好處,它需要盡早被納入海軍。這基本上意味著,為了使海軍的使用/應用獲得更大的接受度,將這項技術整合到海軍中是至關重要的。反過來,這需要回答許多疑問,了解事實,以便對該技術及其潛力產生更大的信心。因此,我們討論了其中一些有助于解決知識差距的問題,以促進未來UUV技術在海軍中的接受和應用。雖然試圖提供全面的答案,但這些答案并不被認為是完整的,而只是一個辯論的出發點。就目前而言,技術是存在的;然而,正是由于缺乏想象力,才使其不能被使用。

付費5元查看完整內容

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容

在這項研究中,基于強化學習(RL)的集中式路徑規劃被用于在人為的敵對環境中的無人作戰飛行器(UCAV)編隊。所提出的方法提供了一種新的方法,在獎勵函數中使用了閉合速度和近似的時間-去向項,以獲得合作運動,同時確保禁飛區(NFZs)和到達時間限制。近似策略優化(PPO)算法被用于RL智能體的訓練階段。系統性能在兩個不同的情況下進行了評估。在案例1中,戰爭環境只包含目標區域,希望同時到達以獲得飽和的攻擊效果。在情況2中,戰爭環境除了目標區和標準的飽和攻擊和避免碰撞的要求外,還包含NFZ。基于粒子群優化(PSO)的合作路徑規劃算法作為基線方法被實施,并在執行時間和開發的性能指標方面與提出的算法進行了比較。蒙特卡洛模擬研究被用來評估系統性能。根據仿真結果,所提出的系統能夠實時生成可行的飛行路徑,同時考慮到物理和操作限制,如加速限制、NFZ限制、同時到達和防撞要求。在這方面,該方法為解決UCAV機群的大規模合作路徑規劃提供了一種新穎的、計算效率高的方法。

引言

在空中攻擊和防御場景的應用中,無人駕駛戰斗飛行器(UCAVs)被用來執行監視、偵察和消滅放置在人為敵對環境中的敵方資產。在戰爭環境中可以使用不同類型的敵方防御單位,如高射炮(AAA)、地對空導彈(SAM)、探測/跟蹤雷達和通信系統。這些資產的選擇和放置是以被防御單位的戰略重要性和被防御地區的地理規格為依據的。通過使用通信系統和防御單位,可以開發一個無縫防空系統來保護地面資產。圖1給出了一個樣本戰爭環境的總體概況。從攻擊者艦隊的角度來看,它的目標是以艦隊特工的最小殺傷概率摧毀敵人的資產。如果行動中需要隱蔽性,也希望以最小的探測和跟蹤概率完成任務。這可以通過兩種方式獲得。1)如果飛行路線必須通過敵人的雷達區域,則使用隱身飛機;2)通過生成不通過敵人雷達區域的飛行路線。如果任務要求和戰爭環境條件合適,可以考慮采用第二種方案,以達到最低風險。因此,飛行路徑規劃對于生成可行的、安全的飛行路線具有至關重要的意義,它可以提高在戰爭環境中的任務成功率和生存概率。本研究通過開發基于強化學習(RL)的合作集中式路徑規劃應用,重點關注第二種方式,在考慮任務和系統要求的同時,以最小的占用量生成飛行路線。

空中飛行器的合作是空對地攻擊情況下的另一個重要問題。[1]中指出,自主無人機系統的合作意味著資源共享、信息共享、任務分配和沖突解決。它需要先進的傳感器和遠程數據鏈來提高UCAV機群的任務成功率和生存能力。從生存能力的角度來看,合作對于避免UCAVs之間可能發生的碰撞相當重要。因此,在進行飛行路徑規劃時,應考慮智能體與智能體之間的安全距離。定義UCAV飛行器之間距離和角度的相對幾何數據可用于評估這種情況并生成無碰撞的飛行路線。此外,從任務成功的角度來看,合作可用于生成可同時到達目標區域的飛行路線。同時到達是空對地攻擊的一個關鍵作戰概念,以便在戰爭環境中飽和敵人的防空系統。例如,如果機群中的UCAV潛入目標區域并同時向敵方資產發起攻擊,防空系統就會飽和,它就無法對UCAV機群作出有效反應。這增加了任務成功的概率,盡管它可能會降低機群中幾個UCAV智能體的生存能力。

戰爭環境中UCAV機群的合作路徑規劃是一個復雜的問題。正如我們之前提到的,在生成所需路徑時,應考慮許多敵方資產。一個成功的合作是通過結合操作者定義的機群的生存能力和任務成功要求而獲得的。

在文獻中,對UCAV機群的合作路徑規劃進行了許多研究。在[2]中,UCAV機群的路徑規劃是通過使用勢場方法來壓制地表的敵方資產,如雷達、防空導彈和大炮。此外,Voronoi圖也被用于同一問題,并與所提出的算法的性能進行了比較。雖然生成的路徑是連續和平滑的,但它需要很高的計算成本來解決這個問題。在文獻[3]中,通過整合近似的允許攻擊區域模型、約束條件和多準則目標函數,提出了UCAV機隊執行合作空對地攻擊任務的軌跡規劃問題。然后,通過結合微分平坦性理論、高斯偽譜法(GPM)和非線性編程,開發了虛擬運動偽裝(VMC),以解決合作軌跡最優控制問題。所提出的VMC算法的性能與基于GPM的直接拼合方法進行了比較,后者是為生成最優軌跡而開發的。仿真結果表明,盡管在優化性能上有小的損失,導致次優解,但所提方法能夠比GPM算法更快地生成可行的飛行軌跡。

最近航空器的計算和通信能力的進步加速了對合作的研究。將RL應用于自主飛行器的路徑規劃是文獻中的一個新興話題,因為它能夠在適當的情況下解決復雜問題。在文獻[4]中,作者通過使用深度強化學習(DRL)為自主地面車輛開發了一個省時的導航策略。他們引入了具有社會意識的DRL防撞方法,并將其推廣到多Agent場景中。提出的算法在一個行人眾多的環境中進行了測試。在[5]中,開發了一種混合算法,其中包含DRL和基于力的運動規劃方法。它被用來解決動態和密集環境中的分布式運動規劃問題。根據仿真結果,所提出的算法比DRL方法產生的成功場景多50%,比基于力的運動規劃到達目標所需的額外時間少75%。在[6]中,為蜂窩連接的無人機群網絡開發了干擾感知路徑規劃算法。在這一應用中,能源效率與無線延遲和干擾之間存在著權衡。提出了基于回聲狀態網絡的DRL算法來解決路徑規劃問題。仿真結果顯示,與啟發式基線方法相比,每個無人機的無線延時和每個地面用戶的速率都得到了改善。同時,仿真結果指出了無人機的最佳高度、數據速率要求和地面網絡密度之間的關系。在[7]中,DRL被用于使用自主飛機的分布式野火監視。在這個問題上,由于高維狀態空間、隨機的火災傳播、不完善的傳感器信息以及飛機之間需要協調,要最大限度地擴大森林火災的覆蓋范圍是相當復雜的。我們開發了兩種DRL方法。在第一種方法中,飛機是通過使用單個飛機的即時觀測來控制的。在第二種方法中,野火狀態和飛機所到之處的時間歷史被用作控制器的輸入,以提供飛機之間的協作。根據仿真結果,所提出的方法提供了對野火擴張的精確跟蹤,并超過了退避水平線控制器。報告還指出,這些方法對于不同數量的飛機和不同的野火形狀是可擴展的。在[8]中,DRL算法被用來解決無人駕駛地面車輛(USV)車隊的合作路徑規劃問題。采用了領導者-追隨者策略,并制定了一個集中協調方案。為了在車隊中提供合作,使用了與避免碰撞和編隊形狀有關的獎勵函數元素。然而,在路徑規劃問題中沒有考慮同時到達。

多智能體強化學習(MARL)也是一種新興的方法,用于解決包含合作要求的多智能體問題,如同時到達和避免碰撞[9-15]。在[16]中,針對部分可觀察情況和網絡帶寬等有限通信能力下的合作,開發了深度遞歸多智能體行為者批評框架(R-MADDPG)。實驗表明,所提出的R-MADDPG算法能夠處理資源限制的問題,并且它能夠在同時到達的智能體之間進行協調。然而,空中飛行器的運動學沒有被考慮,環境中也沒有包括障礙物。在[17]中,通過結合改進的陶氏重力(I-tau-G)制導策略和多智能體Q-Learning(MAQL)算法,為多個無人駕駛飛行器(UAV)開發了分布式4-D軌跡生成方法。考慮了避免碰撞和同時到達的要求來提供合作。

這項研究是[18]的延續,其中對UCAVs進行了基于RL的集中式路徑規劃。在戰爭環境中集成了一個五種狀態的生存能力模型,包括搜索、探測、跟蹤、交戰和擊中狀態。RL智能體的訓練階段是通過使用近似策略優化(PPO)算法進行的。為了定量評估所提系統的有效性,制定了跟蹤和命中概率的性能指標,并用于蒙特卡洛分析。仿真結果表明,擬議的算法能夠產生可行的飛行路線,同時使UCAV機群的生存概率最大化。然而,將生存能力模型(每個UCAV的五個狀態)納入學習過程增加了觀察向量的大小,使系統的擴展變得復雜。另外,[18]中沒有研究UCAV機群的合作性能,這也是本研究的主要議題。

本文采用RL方法解決了UCAV機群的路徑規劃問題。采用集中式結構,將總的觀測向量輸入單一的RL智能體,并生成總的行動向量,其中包含相關UCAV的單獨控制信號。與[18]不同的是,生存能力模型沒有被整合到觀察向量中以減少向量大小。相反,禁飛區(NFZs)被定義為模擬防空系統,如防空導彈和火炮。除了在[18]中進行的研究外,這里特別關注艦隊的合作,這從兩個方面得到。首先,研究了UCAV機群同時到達目標區域的情況,這是一種廣泛使用的使敵人的防空系統飽和的方法。其次,還研究了避免碰撞的問題,以提供艦隊的安全。考慮到這些要求,我們開發了獎勵函數。RL智能體的訓練階段是通過使用PPO算法進行的。為避免NFZ、避免碰撞和同時到達的要求制定了幾個性能指標,以獲得對所提方法的定量評價。通過使用蒙特卡洛分析,在NFZ位置不確定和外部干擾(即風的影響)存在的情況下,根據船隊的避免碰撞和同時到達能力,對系統的合作性能進行了評估。

這項研究從兩個方面對文獻做出了貢獻。首先,據作者所知,這是第一次為UCAV機隊開發出一種可行的和可操作的基于RL的集中式路徑規劃方法。例如,與典型的基于PSO的方法相比,基于RL的方法提供了艦隊在面對動態和反擊/防御威脅時重新規劃的實時能力。第二,與目前的方法相比,所提出的方法提供了同時考慮關鍵操作限制的能力,如同時到達和避免碰撞的要求,同時考慮NFZ限制和系統限制,如UCAVs的橫向加速指令限制。例如,典型的方法,如基于PSO的方法,只考慮了這些限制的有限子集,因此它們只適用于現實生活場景的某些方面。考慮到這兩個方面的貢獻,所提出的方法不僅為現實生活中適用的合作操作能力提供了手段,如關閉速度和近似的時間信息,而且還為高度非線性和大規模的UCAV艦隊優化問題提供了一個實時的近似。

本文的其余部分組織如下。在第二部分,解釋了路徑規劃問題中使用的數學模型和相對幾何學。在第三部分,給出了RL智能體的一般結構,并描述了訓練算法。第四節,給出了仿真結果,并對1)無NFZ和2)有NFZ約束的情況進行了評估。在第五部分,說明了結論和未來的工作。

圖 3 RL 智能體及其與戰爭環境交互的總體概述。

圖 4 a) 同時到達、b) NFZ 限制和 c) 避免碰撞的定義。

付費5元查看完整內容

澳大利亞皇家海軍 (RAN) 最近推出了一項開發和使用機器人、自主系統和人工智能 (RAS-AI) 的戰略,該戰略將通過一項運動計劃來實施。蘭德澳大利亞研究團隊正在通過建立證據基礎來支持 RAN 的這項工作,以幫助識別和塑造基礎活動。本報告概述了近期和長期(到 2040 年)海上 RAS-AI 技術的現狀和軌跡,并對近期、中期和長期可能執行的任務進行了高級審查根據相關的技術和非技術推動因素。

本報告并沒有研究人工智能在海上行動中更廣泛的整合,而是關注支撐無人平臺的任務和技術的進步,包括無人空中、水面和水下航行器。除了概述近期和長期 RAS-AI 任務的關鍵技術推動因素外,該報告還指出了在 RAS-AI 能力發展中應考慮的三個關鍵原則:(1)關注多種技術(新系統和“遺留”系統),而不是單一的技術解決方案; (2) 考慮國防和商業 RAS-AI 系統的互補性進展; (3) 監測非技術因素,例如不斷發展的監管、法律、政策和道德框架,這些框架可能會顯著影響未來的技術采用路徑

研究問題

  • RAS-AI 技術和任務在海洋領域的前景如何?
  • 到 2040 年,海上領域的 RAS-AI 技術和任務的可能軌跡是什么?
  • 哪些可能的技術推動因素會塑造未來海上區域的 RAS-AI 任務?

主要發現

  • 快速發展的技術環境使 RAS-AI 任務在海洋領域得以擴展
    • 無人駕駛飛行器 (UAV) 任務的跨度有所增長,特別是因為無人機的覆蓋范圍、適應性和生存能力不斷增加(盡管仍然相對有限)。
    • 由于通信、有效載荷和模塊化的進步,越來越多地使用無人水面航行器(USV)來支持海軍任務已經成為可能,盡管限制包括依賴載人平臺的遠程控制以及與其他車輛的有限集成。
    • 無人水下航行器 (UUV) 任務已經擴大,因為其在更深的深度、更遠的距離以及先進的傳感器和有效載荷下運行的能力越來越強。然而,水下通信、網絡和深水導航的有限耐力和未解決的障礙仍然對 UUV 任務施加了限制。
  • 在所有平臺上,海上 RAS-AI 任務可能會在短期內擴大,這得益于幾個關鍵技術領域的進步
    • 在自治、集群、互操作性、安全通信和信息交換、生存能力、推進和能源管理以及先進傳感和多任務平臺開發等領域取得了進展。
  • 從長遠來看,技術和非技術障礙可能會限制某些 RAS-AI 任務
    • 長期 RAS-AI 任務可能包括在有爭議的環境中部署以及在進攻性自主和動力應用中的部署,盡管后者可能會受到道德、法律和監管障礙的嚴重限制。
    • 長期任務和技術前景的特點是存在很大的不確定性,可能需要通過后續研究探索更多種類的具有潛在破壞性的未來 RAS-AI 任務、技術和戰術。
付費5元查看完整內容

在醫療、交通、教育、大學入學、招生、貸款等領域,人工智能(ai)和機器學習(ML)算法控制人類日常生活的決策正在增加。由于它們現在涉及到我們生活的許多方面,開發不僅準確而且客觀和公平的ML算法是至關重要的。最近的研究表明,算法決策可能天生就傾向于不公平,即使沒有這樣的意圖。本文概述了在分類任務上使用ML算法時識別、度量和改進算法公平性的主要概念。本文首先討論了算法偏見和不公平產生的原因,以及公平的常見定義和衡量標準。公平促進機制然后審查和分為前過程,在過程中,和后過程機制。然后對這些機制進行全面的比較,以便更好地理解在不同的場景中應該使用哪些機制。文章最后回顧了算法公平性的幾個新興研究子領域,不僅僅是分類。

//dl.acm.org/doi/10.1145/3494672

引言**

如今,越來越多的決策由人工智能(AI)和機器學習(ML)算法控制,自動化決策系統在商業和政府應用中的應用越來越多。自動化學習模型的動機很明確——我們希望算法比人類表現得更好,原因有幾個。**首先,算法可能會整合比人類所能掌握的更多的數據,并考慮更多的因素。第二,算法可以比人類更快地完成復雜的計算。第三,人類的決定是主觀的,通常包含偏見。

因此,人們普遍認為,使用自動算法會使決策更客觀或更公平。然而,不幸的是,情況并非如此,因為ML算法并不總是像我們期望的那樣客觀。ML算法無偏差的想法是錯誤的,因為注入模型的數據是無偏差的假設是錯誤的。更具體地說,一個預測模型實際上可能具有固有的偏見,因為它學習并保留了歷史偏見[125]。

由于許多自動化決策(包括個人將獲得工作、貸款、藥物、保釋或假釋)會對人們的生活產生重大影響,因此評估和改善這些自動化系統做出的決策的道德規范非常重要。事實上,近年來,對算法公平性的關注已經成為頭條新聞。最常見的例子之一是在刑事司法領域,最近的披露表明,美國刑事司法系統使用的算法錯誤地預測了非裔美國人未來的犯罪率,其預測率是白人的兩倍[6,47]。在另一個招聘應用的案例中,亞馬遜最近發現他們的ML招聘系統歧視女性求職者,尤其是在軟件開發和技術崗位上。一個值得懷疑的原因是,大多數記錄在案的歷史數據都是男性軟件開發人員[54]。在廣告業的另一個不同場景中,谷歌的廣告定位算法提出男性比女性獲得更高薪水的高管職位[56,187]。

這些證據和對算法公平性的關注使得人們對定義、評估和提高ML算法公平性的文獻越來越感興趣(例如,見[20,48,79,97])。然而,值得注意的是,提高ML算法的公平性的任務并不簡單,因為在準確性和公平性之間存在固有的權衡。換句話說,當我們追求更高程度的公平時,我們可能會犧牲準確性(例如,見[125])。本文綜述了ML中的公平問題。與該領域最近的其他綜述相比[48,79,147],我們的工作提出了一個全面和最新的領域概述,從公平的定義和措施到最先進的公平增強機制。我們的綜述還試圖涵蓋各種措施和機制的利弊,并指導它們應在何種環境下使用。最后,盡管本文的主要部分主要處理分類任務,但本綜述的主要目標是突出和討論分類之外的新興研究領域,這些研究領域預計將在未來幾年得到發展。總的來說,這項綜述提供了相關的知識,使新的研究人員進入該領域,告知當前的研究人員快速發展的子領域,并為實踐者應用結果提供必要的工具。

本文其余部分的結構如下。第二節討論了算法不公平的潛在原因。第三節介紹了公平的定義和衡量標準以及它們的權衡。第四節回顧了公平機制和方法,并對各種機制進行了比較,重點討論了每種機制的優缺點。第五節介紹了在ML中超越分類的公平性的幾個新興的研究子領域。第六節提供了結束語和概述幾個開放的挑戰,為未來的研究。

不公平性引起的潛在因素

  • 偏差已經包含在用于學習的數據集中,這些數據基于有偏差的設備測量、歷史上有偏差的人類決策、錯誤的報告或其他原因。ML算法本質上就是為了復制這些偏差而設計的。

  • 缺失數據引起的偏差,如缺失值或樣本/選擇偏差,導致數據集不能代表目標人群。

  • 來自算法目標的偏差,其目的是最小化總體總體的預測誤差,因此有利于多數群體而不是少數群體。

  • 敏感屬性的“代理”屬性導致的偏差。敏感屬性區分特權群體和非特權群體,例如種族、性別和年齡,通常不適合在決策中使用。代理屬性是可以用來派生敏感屬性的非敏感屬性。當數據集包含代理屬性時,ML算法可以在使用假定合法屬性[15]的掩護下,基于敏感屬性進行隱式決策。

公平性定義與度量**

算法公平的度量和定義****

算法公平性研究方向

公平序列學習 現有的算法公平性研究大多考慮批量分類,其中完整的數據可以提前獲得。然而,許多學習設置具有動態性質,數據是隨時間收集的。與批量學習不同,在這些設置中,系統包括反饋循環,因此每一步的決策都可能影響未來的狀態和決策。這也適用于公平決策,因為它們現在應該在每個步驟中考慮,其中短期的公平決策可能會影響長期的公平結果,這一設置通常被稱為順序學習。在這種情況下,有必要平衡利用現有知識(例如,雇傭一個已知的人群)和探索次優解決方案來收集更多的數據(例如,雇傭不同背景的人群,與當前員工不同)。

公平對抗學習 今天,公平對抗學習在公平分類和公平表征的生成方面越來越受到關注。在一起令人痛心的事件中,一款面部修改應用被曝光為種族主義應用,因為該應用的“圖像濾鏡”旨在將面部圖像變得更“有吸引力”,卻讓皮膚變得更白[167]。

公平詞嵌入 單詞嵌入模型構建單詞的表示,并將它們映射到向量(通常也稱為word2vec模型)。單詞嵌入的訓練是使用帶有大量文本文檔的原始文本數據進行的,并且是基于出現在相同上下文中的單詞往往具有相似含義的假設。這些模型的設計主要是為了使嵌入的向量能夠指示單詞之間的含義和關系(即,含義相似的單詞在向量空間中具有接近的向量)。因此,它們被廣泛應用于許多自然語言處理應用程序,如搜索引擎、機器翻譯、簡歷過濾、工作推薦系統、在線評論等。

公平視覺描述 由于CV模型在多個任務中產生了的偏倚結果,CV公平性的研究最近得到了廣泛的關注。例如,Buolamwini和Gebru[33]發現,由于數據集中女性深膚色面孔的代表性不足,面部分析模型對判別結果產生了負面影響。Kay等人[117]發現,谷歌引擎中對職業的圖像搜索會導致性別偏見的結果。谷歌的標簽申請魯莽地將美國黑人認定為“大猩猩”[160,188]。此外,一款根據照片對個人吸引力進行分類的應用被證明對黑皮膚有歧視[144]。

公平推薦系統 推薦系統在許多自動化和在線系統中都很普遍,其設計目的是分析用戶的數據,為他們提供符合每個用戶口味和興趣的個性化建議。推薦的一個固有概念是,對一個用戶來說最好的項目可能與對另一個用戶來說不同。推薦項目的例子有電影、新聞文章、產品、工作和貸款等。這些系統具有促進提供者和消費者活動的潛力;然而,他們也被發現表現出公平性問題[34,35,67,68]。例如,谷歌的廣告定位算法表明,男性比女性更容易獲得高薪的高管職位[56,187]。

公平因果學習 從真實世界系統中收集的觀測數據大多可以提供關聯和相關性,而不是因果結構理解。相反,因果學習依賴于作為因果模型構建的額外知識。僅基于可觀測數據的測量方法的一個局限性是,它們沒有考慮數據產生的機制,因此可能會產生錯誤的解釋[143]。此外,如第3節所述,公平概念存在著不兼容性的挑戰。觀測方法的另一個局限性是,如4.4節所述,它們可能會受到缺失數據的嚴重影響。

公平隱私學習 Dwork等人[60]對隱私與公平的關系進行了討論。我們注意到算法公平性研究與隱私研究密切相關,因為通過混淆敏感信息可以增強公平性和隱私,而對手的目標是最小化數據失真[65,118]。此外,侵犯隱私(例如,推理隱私[53,64,82])可能導致不公平,因為對手有能力推斷個人的敏感信息,并以一種有區別的方式使用這些信息。

參考文獻

  1. Himan Abdollahpouri, Gediminas Adomavicius, Robin Burke, Ido Guy, Dietmar Jannach, Toshihiro Kamishima, Jan Krasnodebski, and Luiz Pizzato. 2019. Beyond personalization: Research directions in multistakeholder recommendation. arXiv preprint arXiv:1905.01986 (2019).
  2. Himan Abdollahpouri, Gediminas Adomavicius, Robin Burke, Ido Guy, Dietmar Jannach, Toshihiro Kamishima, Jan Krasnodebski, and Luiz Pizzato. 2020. Multistakeholder recommendation: Survey and research directions. User Modeling and User-Adapted Interaction 30 (2020), 127–158.
  3. Adel Abusitta, Esma A?meur, and Omar Abdel Wahab. 2019. Generative adversarial networks for mitigating biases in machine learning systems. arXiv preprint arXiv:1905.09972 (2019).
  4. Alekh Agarwal, Alina Beygelzimer, Miroslav Dudik, John Langford, and Hanna Wallach. 2018. A reductions approach to fair classification. In Proceedings of the International Conference on Machine Learning. 60–69.
付費5元查看完整內容
北京阿比特科技有限公司