如何利用以攻擊型無人機(unmanned aerial vehicle,UAV)為代表的新型作戰力量增強戰斗力,是智能化、無人化戰爭研究的重點之一。研究了基于多智能體博弈強化學習的無人機智能攻擊關鍵技術,基于馬爾可夫隨機博弈的基本概念,建立了基于多智能體博弈強化學習的無人機智能攻擊策略生成模型,并利用博弈論中“顫抖的手完美”思想提出優化方法,改進了策略模型。仿真實驗表明,優化后的算法在原算法基礎上有所提升,訓練得到的模型可生成多種實時攻擊戰術,對智能化指揮控制具有較強的現實意義。
伴隨著機械化時代的結束和信息化、智能化時代的到來,現代戰爭戰斗力生成模式的發生域由物理域邁向信息域和認知域。在智能化時代,如何通過人工智能技術取得決策優勢,加快觀察、判斷、決策、行動(Observe, Orient, Decide, Act,OODA)循環,使對手陷入OODA死循環,值得深入思考[13]。 智能化、無人化作戰作為未來戰爭關注的焦點,迫切需要協同配合、自組織和快速決策[45]。構建無人機智能攻擊策略生成模型的重點,主要體現在以下兩個方面:
近年來,在單智能體領域,由深度學習與強化學習結合而產生的Atari游戲和圍棋的虛擬玩家均達到了人類頂級玩家的水平。在多智能體領域,基于值函數分解的多智能體深度強化學習算法,如值函數分解法[6]、混合多智能體值分解算法[7]等也在星際爭霸游戲中取得了很好的成績。從單智能體到多智能體,問題的復雜度大大增加,卻也更貼近軍事需要,因為真實的戰場空間存在大量需要協同組織與配合的基礎作戰單元。由于傳統的單智能體強化學習方法只能對單個作戰單元進行建模,如果將其直接應用于多智能體系統,即將其他智能體視為環境的一部分,那么將會違反強化學習的基本假設,產生環境不平穩的問題,從而不再適用。相比之下,多智能體強化學習方法在軍事對抗問題的建模及訓練和輔助決策上更有研究價值。另一方面,軍事對抗問題也屬于博弈問題,可以利用博弈論中的相關知識對其進行評估和優化。
目前,多智能體博弈強化學習作為多智能體和博弈論的結合體,在解決大規模智能體之間的交互計算困難[8]、學習對手的策略[9]、完成實時策略(real-time strategy,RTS)游戲中的微觀管理任務[10]和提升算法的魯棒性[11]方面均取得了不錯的成果。隨著研究的深入,越來越多的博弈論方法被用來分析多智能體問題,產生了平均場多智能體強化學習算法[12]、基于對手意識的學習算法[13]和多智能體深度確定性策略梯度算法[14]等多智能體博弈強化學習方法。因此,將多智能體博弈強化學習方法應用于無人機智能攻擊策略生成已成為人工智能作戰模擬仿真領域的關鍵技術之一。
目前,多智能體博弈的成功主要來自兩個領域的技術組合:深度強化學習和博弈論。前者用于在交互式環境中訓練具有特定目標的智能體,但無法直接被應用于多智能體場景[15];后者為分析多智能體的行為而生,但更多偏向理論研究,算法應用只局限于較小的范圍[16]。
強化學習[17]是讓智能體以最大化獎勵函數為目標,在試錯中學習的算法,非常適合解決序貫決策類問題。深度學習[18]是用神經網絡從原始輸入中提取高級特征的一類機器學習算法。在深度學習普及之前,強化學習需要用人工提取特征來表示復雜博弈的狀態信息,神經網絡可以作為一個自適應函數近似器,允許強化學習擴展到高維狀態空間[19]和續動作空間[20]。深度強化學習是上述兩種算法的結合,兼具二者的優點。 本文嘗試使用多智能體博弈強化學習方法來解決無人機智能攻擊策略的生成與優化問題。將無人機智能攻擊策略生成問題建模為博弈問題,并嘗試將多智能體深度確定性策略梯度算法應用于解決此類問題。
為提升無人機在復雜空戰場景中的存活率, 基于公開無人機空戰博弈仿真平臺, 使用強化學習方法生成機動策略, 以深度雙Q網絡(double deep Q-network, DDQN)和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法為基礎, 提出單元狀態序列(unit state sequence, USS), 并采用門控循環單元(gated recurrent unit, GRU)融合USS中的態勢特征, 增加復雜空戰場景下的狀態特征識別能力和算法收斂能力。實驗結果表明, 智能體在面對采用標準比例導引算法的導彈攻擊時, 取得了98%的規避導彈存活率, 使無人機在多發導彈同時攻擊的復雜場景中, 也能夠取得88%的存活率, 對比傳統的簡單機動模式, 無人機的存活率大幅提高。
現代空戰環境錯綜復雜, 空空導彈和機載雷達性能不斷提升, 超視距空戰已經在現代空戰中占據主導地位[1], 空空導彈也早已成為打擊空中單位的主要武器。無人機作為空中戰場的理想作戰目標之一, 被普遍運用到軍事領域當中[2]。利用無人機可持續大機動的飛行特點, 采取高效的機動策略以提高無人機對導彈的規避、逃逸成功率, 對提升無人機的空戰生存能力而言至關重要[3]。
無人機規避空空導彈問題一直都是空戰的研究熱點。王懷威等[4]采用蒙特卡羅方法驗證了無人機實施常規盤旋機動規避導彈的效果。Imado等[5]利用微分對策法研究導彈與無人機差速博弈的問題。另外, 還有諸多針對導彈的規避方式[6-10]、規避效能評估[11-13]以及無人機最優或次優規避策略解析解[14-16]等方面的研究。以上方法依賴于完備的空戰對戰模型以求解在單枚導彈打擊情況下的最優機動策略, 當導彈數量變化時, 模型很難理解, 而且建立空戰對戰模型本身就是一個非常復雜的過程, 需要使用大量微分函數結合積分函數,才能表征無人機與導彈狀態屬性的轉移規律。
深度強化學習(deep reinforcement learning, DRL)算法在馬爾可夫決策過程(Markov decision process, MDP)基礎上, 采用端到端學習方式, 以態勢信息為輸入, 直接利用神經網絡獲取輸出, 控制智能體作出決策, 被廣泛應用于自動化控制當中[17-22]。范鑫磊等[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[24]應用于無人機規避導彈訓練, 在簡易模型下對固定態勢攻擊的空空導彈進行仿真驗證。宋宏川等[25]針對導彈制導規則設計成型獎勵, 用DDPG算法訓練無人機規避正面來襲的導彈, 對比典型規避策略, 訓練出了僅次于置尾下降機動的逃逸策略。
上述研究表明, 無人機能夠通過特定的機動方式來規避空空導彈的打擊, 而深度強化學習算法可以訓練出自動規避空空導彈的智能體。總體而言, 以往研究大多基于單枚導彈打擊場景。但是在超視距空戰中, 多枚導彈從不同方向鎖定無人機并發動協同攻擊的情況屢見不鮮。在這種情形下, DRL算法會存在狀態空間維度大, 狀態信息維度不斷變化, 神經網絡輸入維度難以固定, 算法收斂性能差等問題。
針對以上問題, 本文提出一種基于單元狀態序列(unit state sequence, USS)的強化學習算法(reinforcement learning method based on USS, SSRL)。在該算法中,首先,將導彈和無人機進行一對一的特征編碼,形成特征單元; 其次,根據距離優先級對所有編碼后的特征單元進行排序, 組合成一個USS; 然后,使用門控循環單元(gated recurrent unit, GRU)對USS中的特征單元進行特征融合, 提取其中的隱藏特征信息; 最后,將隱藏特征信息看作該時刻的狀態信息,并將信息傳入強化學習算法的神經網絡。將該算法分別應用于深度雙Q網絡(double deep Q-network, DDQN)[26]和DDPG算法上, 在公開無人機空戰博弈仿真平臺上進行訓練。仿真結果表明, 由SSRL算法訓練的智能體能夠學到連續規避機動策略, 控制無人機進行規避導彈機動, 增加導彈脫靶量, 提升無人機連續規避導彈的成功率。
無人作戰飛機(unmanned combat aerial vehicle,UCAV)在進行空戰自主機動決策時,面臨大規模計算,易受敵方不確定性操縱的影響。針對這一問題,提出了一種基于深度強化學習算法的無人作戰飛機空戰自主機動決策模型。利用該算法,無人作戰飛機可以在空戰中自主地進行機動決策以獲得優勢地位。首先,基于飛機控制系統,利用MATLAB/Simulink仿真平臺搭建了六自由度無人作戰飛機模型,選取適當的空戰動作作為機動輸出。在此基礎上,設計了無人作戰飛機空戰自主機動的決策模型,通過敵我雙方的相對運動構建作戰評估模型,分析了導彈攻擊區的范圍,將相應的優勢函數作為深度強化學習的評判依據。之后,對無人作戰飛機進行了由易到難的分階段訓練,并通過對深度Q網絡的研究分析了最優機動控制指令。從而無人作戰飛機可以在不同的態勢情況下選擇相應的機動動作,獨立評估戰場態勢,做出戰術決策,以達到提高作戰效能的目的。仿真結果表明,該方法能使無人作戰飛機在空戰中自主的選擇戰術動作,快速達到優勢地位,極大地提高了無人作戰飛機的作戰效率。 目前無人作戰飛機(unmanned combat aerial vehicle, UCAV)被廣泛應用于軍事領域[1],UCAV在過去主要從事戰場監視、吸引火力和通信中繼等任務,隨著武器裝備的傳感器、計算機及通信等技術的發展,性能不斷提升,未來的UCAV將逐步升級成為可以執行空中對抗、對地火力壓制和參與制空權的奪取等作戰任務的主要作戰裝備之一。盡管UCAV的性能提升很大,但大多數的任務都離不開人工干預,控制人員通過基站在地面對UCAV進行控制,這種控制方法有延遲且易受到電磁干擾。因此研究UCAV的自主作戰能力已經成為空軍發展的必然趨勢,裝備了無人作戰決策系統的UCAV將逐步取代飛行員的位置,以達到減少成本,提高戰斗力的作用。在近距離格斗的階段,UCAV應根據當前的空戰態勢及時選取合適的飛行控制指令,搶占有利的位置,尋找擊落敵機的機會并保護自己[2]。
在空戰條件下,飛機模型本身為非線性同時目標的飛行軌跡是不確定的,這些都將給UCAV的機動決策帶來許多不便,因此良好的機動決策是UCAV自主空戰的一個重要環節,自動機動決策要求UCAV能在不同的空戰環境下自動生成飛行控制指令。常規的機動決策控制方法包括最優化方法、博弈論法、矩陣對策法、影響圖法、遺傳算法、專家系統、神經網絡方法以及強化學習方法等。文獻[3]將空戰視為一個馬爾可夫過程,通過貝葉斯推理理論計算空戰情況,并自適應調整機動決策因素的權重,使目標函數更加合理,保證了無人戰斗機的優越性。文獻[4]設計了一個基于遺傳學習系統的飛機機動決策模型,通過對機動的過程加以優化來解決空戰環境未知情況下的空戰決策問題,可以在不同的空戰環境中產生相應的戰術動作,但該方法的參數設計存在主觀性,不能靈活應用。文獻[5]利用統計學原理研究UCAV的空戰機動決策問題,具有一定的魯棒性,但該算法實時性能較差無法應用于在線決策。文獻[6]將可微態勢函數應用于UCAV微分對策中,可以快速反應空戰環境,但由于實時計算的局限性很難解決復雜的模型。文獻[7]采用博弈論對UCAV空戰決策進行建模,對不同的空戰環境具有通用性。雖然這些決策算法可以在一定程度上提高決策的效率、魯棒性和尋優率,但由于這些決策模型存在推理過程較為頻繁,會浪費大量時間尋優等問題,導致UCAV的響應變慢,并不適用于當今的戰場環境。
基于人工智能的方法包括神經網絡法、專家系統法以及強化學習算法。文獻[8]采用了專家系統法,通過預測雙方的態勢和運動狀態生成相應的機動指令控制UCAV飛行,但不足之處在于規則庫的構建較為復雜,通用性差。文獻[9]采用了自適應神經網絡技術設計PID控制器,對高機動目標具有較強的跟蹤精度,但神經網絡方法需要大量的空戰樣本,存在學習樣本不足的問題。與以上兩種方法相比,強化學習算法是一種智能體與環境之間不斷試錯交互從而進行學習的行為,智能體根據環境得到的反饋優化自己的策略,再根據策略行動,最終達到最優策略。由于強化學習的過程通常不考慮訓練樣本,僅通過環境反饋得到的獎勵對動作進行優化,可以提高了學習的效率,是一種可行的方法[10]。文獻[11]將空戰時的狀態空間模糊化、歸一化作為強化學習算法的輸入,并將基本的空戰動作作為強化學習的輸出,使得UCAV不斷與環境交互從而實現空戰的優勢地位。在此基礎上,文獻[12-13]將神經網絡與強化學習相結合,提高了算法的運算效率,但這些文章都沒有考慮飛機的姿態變化。
本文提出了一種深度強化學習(deep reinforcement learning, DRL)算法來解決UCAV自主機動決策作戰的問題,并在MATLAB/Simulink環境中搭建了某種六自由度UCAV模型,充分考慮了其非線性。同時選取適當的空戰動作作為UCAV的機動輸出,建立空戰優勢函數并設計UCAV空戰機動決策模型。通過強化學習方法可以減少人為操縱的復雜性,保證計算結果的優越性,提高UCAV的作戰能力,而神經網絡可以提升實時決策能力。最后通過仿真將該方法應用于UCAV機動作戰決策中,證明了其有效性和可行性。
為了應對在未來復雜的戰場環境下, 由于通信受限等原因導致的集中式決策模式難以實施的情況, 提出了一個基于多智 能體深度強化學習的分布式作戰體系任務分配算法, 該算法為各作戰單元均設計一個獨立的策略網絡, 并采用集中式訓練、分布 式執行的方法對智能體的策略網絡進行訓練, 結果顯示, 經過學習訓練后的各作戰單元具備一定的自主協同能力, 即使在沒有中 心指揮控制節點協調的情況下, 依然能夠獨立地實現作戰任務的高效分配.
馬賽克戰[1]、聯合全域指揮控制[2]等新型作戰概 念所構想的未來作戰場景中, 傳統的多任務平臺被 分解為了眾多的小型作戰單元, 這些小型作戰單元 通常具備更高的靈活性, 能夠根據戰場環境的變化 快速對自身所承擔的任務進行調整, 以實現更好的 整體作戰效果. 在未來的新型作戰場景中, 傳統的集 中式指揮控制模式存在著指揮鏈路過長、決策復雜 度過高等問題, 從而導致決策時效性和決策質量難 以滿足要求[3] . 近年來, 邊緣指揮控制等新型指揮控制 模式應運而生, 邊緣節點也即各作戰實體將具備一 定程度的自主決策能力[4] . 由于戰場環境的復雜多變 特性, 以及作戰實體的小型化、智能化發展趨勢, 分 布式決策的模式將在未來的戰場決策中發揮越來越 重要的作用. 作戰體系是為了完成特定的作戰任務由一系列 具備各項能力的作戰單元動態構建而成, 在以往的 集中式決策模式下, 體系設計人員會根據作戰任務 的能力需求以及作戰單元所具備的各項能力, 以最 大化作戰效能或最小化作戰單元的使用成本等為目 標, 來統一地對各作戰任務和作戰單元進行匹配. 作 戰體系的“作戰任務—作戰單元”匹配問題可以建模 為一個優化問題, 當問題規模較小時, 可以采用集中 式決策的模式運用整數線性規劃等運籌學方法快速 得到全局最優解[5] , 而當問題規模較大時可以采用遺 傳算法等啟發式算法[6]或者強化學習算法[7] , 得到問 題的近似最優解. 采用集中式決策的一個重要前提 條件是中心決策節點和作戰單元葉節點之間的通信 暢通, 因為葉節點需要將自身的狀態信息和觀測信 息發送給中心決策節點, 而中心節點需要將決策命 令發送給葉節點. 然而在未來的作戰場景中, 由于敵 方的通信干擾等原因, 中心節點和葉節點之間的通 信鏈接很難保證連續暢通, 同時頻繁的信息交互會 造成一定的通信負載和通信延遲, 因此, 在未來很多 的任務場景中, 需要作戰單元根據自身的狀態信息 和觀測到的信息獨立地進行決策.
強化學習是一種利用智能體與環境的交互信息 不斷地對智能體的決策策略進行改進的方法, 隨著深度強化學習技術的快速發展, 強化學習算法在無 人機路徑規劃[8]、無線傳感器方案調度[9]等領域都取 得了非常成功的應用, 同時近年來多智能體強化學 習算法在 StarCraft域[10]等環境中也取得了很好的效 果. 在作戰體系任務分配場景中, 可以將各作戰單元 視為多個決策智能體, 那么“作戰任務—作戰單元” 的匹配任務可以視為一個多智能體強化學習任務. 而當前尚未有將多智能體強化學習方法應用到類似 作戰體系的任務分配環境中的先例. 本文的主要工 作如下: 1)建立一個通信受限情況下的作戰體系“作 戰任務—作戰單元”匹配的任務場景;2)提出了一 個基于多智能體強化學習技術的作戰體系任務分配 算法;3)通過實驗驗證了采用上述算法訓練的各智 能體, 可以在通信受限的場景下, 實現一定程度的自 主協同, 在沒有中心決策節點的情況下依然能夠實 現作戰體系任務的有效分配
無人機集群協同作戰的自主化、智能化是未來軍事指揮控制技術發展的重要趨勢, 為滿足日趨重視的集群應用需求, 提出了面向協同作戰任務的無人機集群自主決策技術概念與體系, 建立了無人機集群多任務的通信-決策-規劃-控制(communication, decision, planning, control;CDPC)自主決策框架. 根據通信拓撲結構建立了集中式、完全分布式和混合式的決策樣式, 在此基礎上, 分別建立了感性任務推理決策模型和理性任務推理決策模型, 探討了模型的求解框架以及關鍵技術解決途徑, 表示無人機集群任務決策對協同作戰的規劃和實施具有較好的指導意義.
2020 年 1 月, 中國科學院發布的 《2019 年人工 智能發展白皮書》中將“群體智能技術”列為八大人工 智能關鍵技術之一[1] , 隨著智能系統與復雜體系、感 知與判斷、分布式協同、人工智能和算法戰等理論 與技術的不斷發展與突破, 智能系統已呈現出無人 化、集群化和自主化等特征[2] . 無人機集群作為未來集 群智能系統的主要形式, 能夠實現單平臺行為決策、 多平臺任務協同, 具有集群涌現特性, 表現出了巨大 的應用前景. 無人機集群任務環境彈性大、態勢變化 快、傳感器信息不完全、通信結構不穩定, 是以決策 為主的對抗. 因此, 協同自主決策作為“感知-判斷決策-行動 (observation-orientation-decision-action, OODA)”環路循環中的關鍵技術引起了國內外廣泛 關注[3-5] . 無人機集群在復雜動態變化的環境下, 如何 根據不確定的態勢信息, 實施可解釋的自主決策推 理, 確定高效可靠的任務協同執行方式對保障集群 安全, 提升作戰效能至關重要.
按照系統科學的觀點[6] , 無人機集群系統多平臺 異構、任務需求眾多、輸入態勢變化、戰術目的復 雜、約束條件耦合, 為解決以上問題, 需要面向無人 機集群多任務設計自主決策規劃框架, 降低系統研 究的復雜性. 文獻[7]基于不確定攻防博弈態勢信息 搭建了無人機集群對抗博弈模型, 并設計博弈成本 函數計算最優策略;文獻[8]提出了一種多無人機分 布式智能自組織算法, 將集群偵察-打擊任務優化問 題分解為多個局部優化問題, 并通過集群與環境和 集群之間的信息交流實現全局優化決策;文獻[9]針 對區域偵察等典型集群任務, 采用深度學習方法構 建任務決策模型, 然后基于遺傳算法對決策模型進 行優化, 為集群實現離線學習和在線決策提供了有 效支撐, 然而現有成果從多任務角度出發, 對集群自 主決策問題進行研究相對較少.
對于集群系統協同作戰任務方面的研究, 主要 以任務規劃問題為主[10] , 此類問題大都是事先擬定好 了任務輸入類型和約束, 是一種有目標信息的多約 束優化問題. 然而對于集群如何獲得準確的任務目 標信息, 并根據態勢進行動態任務調整并沒有考慮, 此問題正是集群協同任務決策的研究重點. 現階段 無人機決策問題研究大都聚焦于空戰過程中的機動 動作決策[11-12] , 或者某個明確任務場景中的決策, 如集 群打擊任務等[13-14] , 沒有從集群協同作戰過程中戰術 戰略及任務的多樣性和復雜性方面開展自主決策研 究. 因此, 本文針對這個問題, 分析了集群任務自主 決策概念、任務定義與分類, 設計了自主決策的流 程;應用分層研究思想提出一種自主決策框架, 并根 據通信結構定義不同的決策模式;結合多種技術途徑 對無人機集群自主決策建模的體系結構和求解框架 進行了分析和探討.