在可視范圍內執行空戰,需要飛行員在接近1馬赫的飛行速度下,每秒鐘做出許多相互關聯的決定。戰斗機飛行員在訓練中花費數年時間學習戰術,以便在這些交戰中取得成功。然而,他們決策的速度和質量受到人類生物學的限制。自主無人駕駛戰斗飛行器(AUCAVs)的出現利用了這一限制,改變了空戰的基本原理。然而,最近的研究集中在一對一的交戰上,忽略了空戰的一個基本規則--永遠不要單獨飛行。我們制定了第一個廣義的空戰機動問題(ACMP),稱為MvN ACMP,其中M個友軍AUCAVs與N個敵軍AUCAVs交戰,開發一個馬爾可夫決策過程(MDP)模型來控制M個藍軍AUCAVs的團隊。該MDP模型利用一個5自由度的飛機狀態轉換模型,并制定了一個定向能量武器能力。狀態空間的連續和高維性質阻止了使用經典的動態規劃解決方法來確定最佳策略。相反,采用了近似動態規劃(ADP)方法,其中實施了一個近似策略迭代算法,以獲得相對于高性能基準策略的高質量近似策略。ADP算法利用多層神經網絡作為價值函數的近似回歸機制。構建了一對一和二對一的場景,以測試AUCAV是否能夠超越并摧毀一個優勢的敵方AUCAV。在進攻性、防御性和中立性開始時對性能進行評估,從而得出六個問題實例。在六個問題實例中的四個中,ADP策略的表現優于位置-能量基準策略。結果顯示,ADP方法模仿了某些基本的戰斗機機動和分段戰術。
現代綜合防空系統(IADS)所帶來的日益復雜的反介入區域拒止(A2AD)威脅,加上高端隱形平臺所提供的日益強大的優勢,促使美國空軍高級領導人投資于徹底改變2030年及以后的空中力量。這一新設想的一個突出因素是蜂群武器,其目的是通過用大量低成本、可損耗的航空資產來壓倒國際航空運輸系統,并通過自主能力來解決這一挑戰。這項研究提出了一個框架,按照三個獨立的維度對不同級別的自主能力進行分類,即單獨行動的能力、合作能力和適應能力。使用模擬、集成和建模高級框架(AFSIM)構建了一個虛擬作戰模型,模擬以有人駕駛的穿透式轟炸機和自主巡航導彈群為特征的友軍空襲包與以A2AD角色行動的敵軍IADS之間的交戰。通過使用自主性框架作為設計實驗的基礎,評估了不同水平的自主性對攻擊包性能的影響。對實驗結果的分析揭示了哪些方面和什么級別的自主性對促進這一模擬場景的生存能力和殺傷力最有影響。
戰爭的技術性質正在迅速發展,人們越來越重視對大量數據的收集、處理和決策。隨著指揮與控制(C2)決策空間的復雜性增加,指揮系統根據現有信息采取行動的速度越來越成為一個限制性因素。具有不同程度的人與系統互動的自主系統為緩解這一不足提供了機會。美國2018年國防戰略(NDS)[18]明確要求國防部(DoD)"廣泛投資于自主性的軍事應用",作為促進大國競爭優勢的一項關鍵能力。
參與大國競爭的一個自然后果是反介入區域拒止(A2AD)環境在聯合沖突的所有方面擴散。從美國空軍(USAF)的角度來看,現代綜合防空系統(IADS)構成了卓越的A2AD威脅,這嚴重抑制了通過常規手段建立空中優勢的前景[2, 20]。這一挑戰促使部隊結構的優先事項發生了變化,因為將能力集中在相對較少的高端系統中的感知風險越來越大。美國空軍科學和技術戰略[26]設想,數量龐大的低成本、易受攻擊的航空資產將很快發揮曾經由數量有限的高價值資產完成的作用。這種大規模的蜂群的任務規劃和空戰管理(ABM)工作的規模可能很快超過人類的認知能力,這使得它成為非常適合自主性研究和開發的應用領域。
本研究試圖評估幾種自主巡航導彈群的行為對A2AD環境中藍方(友方)空中性能的影響。具體來說,所研究的A2AD場景考慮了紅方(對手)的IADS被藍方聯網的自主巡航導彈群吸引,以促進穿透式轟炸機的后續打擊。在任務規劃時沒有考慮到的突然出現的威脅,可能會進入該場景以增加紅色IADS的力量。蜂群必須在沒有外部反彈道導彈的幫助下,檢測并應對這些突發威脅以及任何其他對抗性任務參數的變化。A2AD場景的建模是使用模擬、集成和建模高級框架(AFSIM)完成的。
為了解決問題陳述,本研究將對以下問題提供答案:
1.具有自主反彈道導彈能力的巡航導彈蜂群能在多大程度上提高藍方空襲包在A2AD環境下的生存能力(即避免被紅方IADS發現和摧毀的能力)?
2.具有自主反彈道導彈能力的巡航導彈群能在多大程度上提高A2AD環境下藍方空襲包的殺傷力(即探測和摧毀紅方IADS元素的能力)?
本論文的其余部分包含四章,組織如下:第二章對包括自主性、A2AD環境、基于代理的建模和仿真(ABMS)以及實驗設計(DOE)等主題的參考材料進行了回顧。第三章建立了A2AD場景、AFSIM模型實現和實驗設計的結構,作為本研究的框架。第四章介紹了實驗模擬運行的結果和附帶的分析。最后,第五章討論了從這項研究中得出的結論,以及對未來研究方向的建議。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
人工神經網絡(ANN)已經成為完成一系列機器學習任務的流行工具,包括預測連續結果。然而,通常與預測相關的置信度的缺乏限制了它們的適用性,特別是在準確性至關重要的軍事環境下。用預測區間(PI)來補充點預測是其他學習算法的常見做法,但ANN的復雜結構和訓練使構建PI變得困難。如何在保持合理的計算時間的前提下,為ANNs的預測最好地構建最佳性能的PI是一個開放的問題。此外,人們對ANN構建的哪些因素會影響PI的性能知之甚少,這里定義為覆蓋率和效率等術語。這項研究回答了這些問題,通過在11個不同大小和維度的數據集(包括一個基于圖像的數據集)上執行兩步實驗來構建前饋神經網絡的PI。兩種非參數方法,即自舉和保形推理,被考慮用于構建PI。第一個實驗步驟的結果顯示,某些設計選擇,如網絡的激活、節點數和層數,確實會影響PI的性能。為了優化PI的覆蓋范圍和效率,無論是使用自舉還是保形推理,都對這些網絡設計特征提供了指導意見。在第二步中,實施了20種不同的構建PI的算法--每種算法都利用了引導或保形推理的原則--以確定哪種算法能提供最好的性能,同時承擔合理的計算負擔。結果表明,一般來說,優化這種權衡的方法是交叉共形法,它在減少計算負擔的同時保持了區間覆蓋和效率。這項工作提供了設計選擇和推理方法,可以為神經網絡創建性能更好的預測區間,以便使其適應軍事用途的先進算法。
從自動駕駛汽車到智能手機上的面部識別技術,人工智能(AI)在其可擴展性和日常用途方面已經出現了爆炸性增長("人工智能與自動駕駛";Pascu,2021)。因此,美國防部(DoD)也對如何利用人工智能確保美國的國家安全產生了興趣,這并不令人驚訝。事實上,2018年國防戰略將人工智能的利用列為其關鍵的現代化優先事項之一(美國防部,2018:7)。為此,美國防部現在資助了600多個不同的人工智能項目,2022財年總額為8.74億美元(OUSD(C),2021:3-2)。
在廣泛的人工智能技術類別中存在著神經網絡,它是松散地基于人腦學習方式的學習算法(Goodfellow, Bengio, and Courville, 2016:165)。像其他監督學習算法一樣,神經網絡學習輸入或特征數據如何與輸出或目標數據的值相關聯。神經網絡的新穎之處在于,它們可以學習復雜的模式,而不需要像其他機器學習算法那樣事先進行特征工程(Goodfellow, Bengio, and Courville, 2016:166)。神經網絡已經成為一種流行的強大工具,目前最先進的網絡在圖像和面部識別任務中達到了人類水平的表現(He, Zhang, Ren, and Sun, 2015; Taigman, Yang, Ranzato, and Wolf, 2014)。
盡管神經網絡的潛力和應用令人振奮,但其預測的準確性與傳統的回歸技術有相同的局限性。具體來說,建模者假設目標變量是一些系統過程(可以通過回歸算法學習)和隨機誤差(無法學習)的函數。因此,后者通常被稱為 "不可減少的誤差"(Gareth, Witten, Hastie, and Tibshirani, 2013:18)。因此,在回歸估計中提供一些信心的衡量標準,如預測區間(PI),以量化這種不可減少的誤差,往往是有幫助的。預測區間提供了一個值的范圍,建模者認為未來的值將在這個范圍內。預測區間的一個關鍵部分是它的置信系數,一般用百分比表示,當給定無限多的數據重樣時,表明其準確性(Casella 和 Berger, 2002:418)。
雖然有幾種計算神經網絡PI的方法,但建模者在區間的有效性和計算負擔方面面臨著權衡。分析方法,如最大似然法或貝葉斯技術,需要對數據的分布進行非簡單的假設(Papadopoulos, Edwards, and Murray, 2001),這些分布通常不能通過神經網絡來實現。此外,為了生成這些方法的PI,神經網絡的訓練是復雜的,并且由于重復計算梯度矩陣(即Hessian)而大大延長了訓練時間(Khosravi, Nahavandi, Srinivasan, and Khosravi, 2015)。無分布技術,如自舉和各種共形推理方法,消除了對大多數假設的需要,但仍有其自身的缺點。具體來說,自舉的PI通常需要訓練數百個甚至數千個模型。這通常是一個無法維持的任務,特別是對于時間和計算機內存受到限制的大型網絡。例如,考慮一個由20個VGG-16架構組成的集合--最先進的神經網絡,專門用于物體識別任務,對人臉數據集進行訓練(Rothe, Tomofte, and Van Gool, 2015)。根據這些網絡的大小("Keras應用"),該組合將占用超過10.5G的計算機內存。一些保形推理方法對從業者來說是一個潛在的有吸引力的選擇。例如,歸納("拆分")和聚合保形預測法需要訓練的模型比自舉法少得多,也不會像分析性PI方法那樣使網絡訓練復雜化。然而,這些方法產生的PI往往不如其他計算量更大的方法產生的PI信息量大(Cherubin, Chatzikokolakis, and Jaggi, 2021; Khaki and Nettleton, 2020)。此外,將保形推理用于神經網絡仍然是一個相對較新的概念(Kivaronovic, Johnson, and Leeb, 2019),不同的參數在其應用中的效果仍然未知。例如,用內核密度估計(KDE)修改保形推理算法,顯示出產生有利的PI的前景(Lei, Robins, and Wasserman, 2011),但在神經網絡的背景下還沒有被廣泛地應用。
因此,在使用PIs為神經網絡預測提供信心方面存在著知識差距。具體而言,人們對神經網絡的參數化如何影響PI的性能知之甚少。對于這些不同的PI方法在神經網絡環境中的比較效用和性能也知之甚少,因為建模者必須在準確性、訓練時間和計算機內存的權衡中做出決定。這種知識差距,加上神經網絡的困難訓練方法,導致PI很少被提供給網絡的回歸估計(da Silva Neves, Roisenberg, and Neto, 2009)。
PIs的有限使用阻礙了民用和軍用用戶利用神經網絡的全部優勢,并延伸到人工智能。將置信水平與神經網絡的預測聯系起來,通過提供一個可能的數值范圍,而不是單一的回歸估計,增加了網絡的可靠性和可用性(Papadopoulos, Edwards, and Murray, 2001)。可靠性是國防部的一個關鍵考慮因素,國防部試圖將人工智能部署在對人的生命和設備有高度風險的情況下。例如,蘭德公司調查了軍事和人工智能專家,詢問他們與軍事人工智能相關的道德問題是什么,如果有的話(Morgan和其他人,2020:20)。兩個最常見的擔憂是,人工智能 "可能會犯危險的錯誤",或者軍事領導人可能會對人工智能的產出 "過于信任"(Morgan and others, 2020:20)。這兩種擔憂都與人工智能的輸出缺乏相關的信心措施有關。
對這些問題的部分補救措施是改變這些人工智能的訓練,以便在其基線輸出之外提供PIs。然而,在做到這一點之前,需要更好地了解不同PI方法的比較性能,以及模型參數化如何影響這種性能。
這項研究探討了PI性能和神經網絡結構之間的關系,以及不同PI方法在特定網絡上的比較性能。調查的第一個研究問題是:
為了評估這個問題及其相關的子問題,我們設計了一個實驗,以適應不同層、節點和激活函數的網絡,跨越幾個數據集。一個單獨但可比較的設計探索了卷積神經網絡(CNN)的設計選擇,包括卷積層的數量,以及核的數量和大小。然后使用自舉法和分裂保理法為這些網絡中的每一個構建PI。然后使用方差分析(ANOVA)來確定哪些網絡超參數會顯著影響PI的性能,如統計學的 "有效性 "和 "效率 "所衡量。這些術語將在第2.3節進一步討論。此外,該研究還試圖回答。
在回答這個問題時,可以更好地理解哪些構建PI的方法在現實世界中表現最好,同時保持計算上可行的實現。用于回答第一個研究問題的網絡是根據其樣本外預測的平均平方誤差(MSE)進行評估的,這是衡量模型對數據擬合質量的一個指標。然后進一步研究每個數據集的最佳性能網絡結構。特別是,這些架構被重新訓練以構建以下每種方法的PI:
本研究的重點是第1.1節中討論的無分布技術,特別是自舉法和保形推理方法系列。自舉刀是一種流行的估計技術,使用留出的殘差,自舉方法最初就是由它發展起來的,在本分析中沒有探討(Efron, 1979)。本實驗還排除了構建 PIs 的分析技術,如最大似然法和貝葉斯法。正如第 2.3 節進一步討論的那樣,這類技術有時很難實現,需要反復計算梯度矩陣,而且還需要依賴漸進假設來創建有效的 PIs。假設國防部的神經網絡用戶將把重點放在更靈活的無分布方法上,這種方法可以在有限的分布假設下實施,而且不需要改變基線網絡的訓練過程。
按照同樣的思路,這項研究關注的是PI的構建,相對于置信區間而言,軍事應用中通常更關注PI。置信區間是對參數和預期值(平均值)的估計工具,而不是對隨機變量的新觀測值。在ML設置中,PI用于估計一個單一的、未知的目標變量在某組輸入下可能采取的價值的不確定性,而CI將用于測量上述數量的平均值或長期期望值的不確定性。測量前者通常是從業者更關心的問題。最后,本分析中考察的數據集都有實值、連續的目標變量。不考慮用于分類任務的具有離散目標的數據集。
本文件的組織結構如下。第二章概述了神經網絡,與預測區間相關的統計學概念,以及如何使用自舉和保形推理構建PI。第三章詳細介紹了用于回答研究問題的實驗,特別是使用的網絡和數據集的實驗設計,以及評估每種PI方法的方法。第四章介紹了該實驗的結果。最后,第五章討論了從結果中得出的結論。
美國空軍(USAF)繼續投資研究和開發人工智能技術,通過自主無人駕駛飛行器(AUAVs)產生競爭性攻擊行為。多架AUAVs的使用可以作為一種力量倍增器,確保對敵方的空中優勢,并消除對作戰人員的威脅。我們制定并解決了動態目標到達的多Agent路由問題(MRP-DTA),這是一個隨機系統,其中一隊AUAVs對一個名義上的對手執行了打擊協調和偵察(SCAR)任務。在任務期間發生的動態目標到達為AUAVs團隊提供了一個連續的決策過程,我們通過馬爾科夫決策過程(MDP)來模擬。狀態空間的高維度和連續性質使得經典的動態規劃技術在計算上難以實現。為了應對維度的詛咒,我們構建并實施了一個混合近似動態規劃(ADP)算法框架,該框架采用了參數化成本函數近似(CFA)和直接前瞻性(DLA)模型。我們利用網狀自適應直接搜索(MADS)算法來調整我們的CFA-DLA參數化,并為AUAVs團隊產生高質量的攻擊策略。為了證明我們算法方法的優點,我們設計了一個實驗,在MRP-DTA的多個實例上測試我們的解決方法。我們將超級ADP策略與競爭基準策略進行比較;推薦的ADP策略在測試的20個問題實例中,有19個比重復貪婪的邊際啟發式基準策略有統計學上的顯著改進,在測試的10個問題實例中,有8個比重復順序定向問題基準策略有統計學上的顯著改進。我們表明,高回報目標到達的概率和目標到達的區域是影響結果策略質量的關鍵問題特征。偏移分析的結果顯示,在為我們的CFA-DLA算法選擇基礎優化模型時,要平衡解決方案的質量和計算工作量的價值。
自主系統和機器人技術的不斷發展,為推進和發現有利于美國空軍(USAF)的作戰技術提供了潛力。美國空軍繼續面臨著科學和技術進步的挑戰,因為同行和近鄰的地緣政治競爭者對其力量投射的關鍵組成部分進行競爭(威爾遜,2019;空軍部,2021)。美國空軍認識到,人工智能、自主系統和機器人等新技術將確保它能在未來打仗并贏得戰爭(馬蒂斯,2018;空軍部,2019d)。
友軍和敵軍已經開始將自主無人飛行器(AUAVs)與部隊相互配合,以實現軍事目標并保持空中優勢。土耳其部隊最近在 "春盾行動 "中對敘利亞部隊使用了這種自主飛機,表明他們的AUAVs可以在部署載人資產之前積極機動和削弱各種軍事目標,包括防空系統、榴彈炮和軍事基地(Haider,2019)。美國空軍可以從自主飛機的應用中獲益,作為高度重復、危險行動的潛在力量倍增器(Cahoon, 2021)。自主飛機已經證明了它們在危險環境中的效用,并且可以在不適合載人飛機的飛行狀態(如加速力、高度)下進行機動。運籌學(OR)方法可以應用于自主系統領域,使美國空軍在開發未來自主技術、戰術和程序方面直接受益,以保持競爭優勢。
美國空軍尋求保持空中優勢,以便在沒有敵對作戰部隊干擾的威脅下開展軍事行動。從歷史上看,空中優勢一直是一個行動或戰役成功的必要條件(國防部,2017b)。美國空軍參謀長查爾斯-布朗(Charles Brown)將軍強調,需要將空中優勢本地化并實現聯合效應,作為美國安全的一個組成部分(Brown Jr, 2020)。友軍作戰部隊首先努力建立空中優勢,因此后續行動的執行不會受到其他敵對部隊的干擾(空軍部,2019a)。
在建立空中優勢后,美國空軍必須通過進攻性的攻擊行動來保持對戰斗的控制,以削弱敵人的動員和反擊能力。用來實現這一目標的一個主要任務是空中攔截。美國空軍主要將空中攔截定義為一種多方面的努力,以轉移、破壞、延遲或摧毀敵人的軍事潛力,使其能夠有效地對付友軍或實現聯合部隊指揮官(JFC)的目標。空中攔截必須與環境中的許多敵對條件相抗衡,需要及時和準確的情報報告來告知決策者敵人的能力、部署和意圖(Meilinger,2014)。美國空軍認為反陸作戰是用于完成空中攔截的關鍵任務。
美國空軍執行反陸作戰,攔截和摧毀分散在行動區的敵方地面目標。JFC將空對地攻擊的重點放在敵人的關鍵目標上,以削弱敵人的能力,并在整個行動區完成一套專門的任務目標(空軍部,2020)。美國空軍與其他部門一起使用的一套任務,以最大限度地有效摧毀敵人的資產,被稱為打擊協調和偵察(SCAR)任務。
SCAR任務是一個與反陸作戰相關的衍生任務,支持空中攔截任務目標。在SCAR任務中,美國空軍收集關于潛在敵方目標的情報、監視和偵察(ISR)信息,指導攻擊資產打擊目標,探測更多的目標,并為未來的行動提供戰損評估(BDA)。與載人資產相比,AUAVs提供了增加飛機續航能力、降低作戰人員風險和優越的目標選擇策略的潛力,是SCAR任務的一種潛在資產。美國空軍采用了一種邏輯結構的目標選擇過程,允許JFC進行情報管理。正如Brunson(2007)所介紹的,美國空軍完全依靠JFC的目標來確定攻擊目標或支持偵察工作的優先次序。情報部隊獲得ISR報告,并在攻擊領域的資產部署之前確定蓄意的目標。我們把攻擊領域稱為目標所在的二維地面空間和SCAR任務發生的時間領域。目標的分類是基于多種特性:攻擊窗口的時間敏感性、破壞的價值和對敵方部隊造成的退化(國防部,2017c)。由于這些不同的因素,JFC承認目標之間有不同的優先級別。高回報目標(HPT)是被認為是實現JFC主要目標的必要目標。JFC建立了一個聯合綜合優先目標清單(JIPTL),明確描述了目標服務順序。必須了解的是,JIPTL通常是根據每個目標的價值來構建的;然而,目標位置、目標價值和目標地形特征使清單上的目標的優先次序變得復雜,需要進一步仔細研究。除了為HPT提供服務外,SCAR任務的重點是被稱為命名興趣區(NAIs)的目標。NAIs被添加到JIPTL中,以促進未來關于目標位置的情報,并為JFC提供BDA,這可能為未來的攻擊任務提供信息。在現實中,隨著SCAR任務的進行,目標實時到達(即被識別)是很平常的。
動態目標描述的是在資產部署后確定一個新的目標(空軍部,2019c)。盡管動態目標是在所有蓄意目標被優先考慮后確定的,但如果它們符合JFC的目標,它們仍然是可行的目標。由于瞄準過程的靈活性,攻擊資產仍然可以為動態目標提供服務;然而,這些動態目標的到來有時會改變JIPTL的執行,從而影響行動的效率。與動態目標的到來相關的隨機性代表了我們問題中不確定性的主要來源。雖然資產進入攻擊域執行計劃中的SCAR任務并大步調整以應對動態目標的到來似乎是最佳選擇,但我們相信,通過預測動態目標在攻擊域的到來,我們可以開發高質量的多Agent攻擊策略,通過采用強化學習技術,這些策略將優于反應性的確定性策略。然而,在聯合空域中引入多架攻擊飛機需要額外的問題約束來模仿適當的空域控制。
美國空軍使用空域控制這一術語來定義在聯合攻擊領域內運作的多種資產的運用。空域控制是非常動態的,而且是因地制宜的,但是為了優化空域的使用,控制應該適應具有不同技術能力的用戶。空域控制的必要性是由威脅程度、可用的監視、導航以及空域用戶和控制機構的技術通信能力決定的。這些能力直接告知協調措施的發展(空軍部,2019年b),這些措施是消除空域沖突和確保按照(IAW)JFC的目標安全有效地開展行動的必要條件。
這項研究提出了具有動態目標到達的多Agent路由問題(MRP-DTA),重點是在一個給定的攻擊域中指揮多個自主攻擊Agent。任務目標是在SCAR任務中雇用一隊AUAVs為目標服務。AUAV的主要目標是獲得最高的總獎勵,其中AUAV從服務目標中獲得獎勵。AUAVs團隊必須適應動態目標的到來,并通過不同的通信方案適當地保持空域控制。具體來說,非盟飛行器之間的溝通對于建立一個富有成效的優先攻擊目標的團隊至關重要。為了最好地表現這種情況,我們使用了適當地表現AUAVs之間通信的隨機性和管理的建模技術。
在這項研究中,我們使用馬爾科夫決策過程(MDP)框架對MRP-DTA進行建模,并使用近似動態規劃(ADP)技術獲得了解決方案。MDP框架為定義大量的問題特征提供了一個結構化的表述。MDP框架模擬了現實世界系統中的隨機性。然后可以應用精確算法來解決MDP模型,使其達到最佳狀態。然而,由于問題的規模很大,這些解決技術對于MRP-DTA來說在計算上是不可行的。該問題的無數狀態和結果空間需要一個強大的近似技術,如ADP,以提供高質量的策略,更好地告知決策者在攻擊領域中的攻擊資產的路由。我們在一個二維的攻擊域中表示MRP-DTA。AUAVs小組進入攻擊域,利用JIPTL中包含的蓄意目標的知識尋找要摧毀的地面目標。在沒有動態目標的情況下,JIPTL能夠為每架AUAV確定一條初始的、靜態的、最佳的路線。雖然JFC可能要求首先攻擊蓄意目標,但我們研究了在給定選定的知識,即攻擊領域各部分的動態目標到達的特征時,AUAVs的性能。確定性的攻擊策略提出了激勵性的研究問題;我們認為,通過利用整個攻擊域中動態目標到達的已知概率,這些策略可以得到改進。我們實施了一個設計好的計算實驗來測試問題特征的敏感性及其對策略性能的影響。
本文后續是按照必要問題信息的邏輯表述的。第二章對類似的問題類別、類似的建模框架和適用的解決方法進行了深入的文獻回顧。第三章明確定義了問題描述,MRP-DTA的MDP模型表述,以及用于解決該模型的ADP求解方法。第四章介紹了該分析的結果、有針對性的分析和收集的見解。最后,第5章提供了擴展這項研究的建議。
美國空軍正在投資人工智能(AI)以加速分析,努力使自主無人駕駛戰斗飛行器(AUCAVs)在打擊協調和偵察(SCAR)任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程(MDP)模型,其中一個AUCAV必須優化其目標路線,以幫助消除時間敏感的目標,并收集所要求的指定興趣區域的圖像,同時躲避作為障礙物的地對空導彈(SAM)電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃(ADP)的解決方案,其中數學規劃技術與成本函數近似(CFA)政策一起被用來開發高質量的AUCAV路由政策,以提高SCAR任務的性能。CFA政策與確定的重復定向問題(DROP)基準政策進行了比較,在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務,并且防空導彈電池到達戰斗空間時,結果顯示,所提出的CFA政策優于DROP政策。總的來說,擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。
關鍵字:馬爾科夫決策過程(MDP)、近似動態規劃(ADP)、強化學習(RL)、人工智能(AI)、定向問題(OP)、車輛路由問題(VRP)、目標定位、成本函數近似(CFA)、直接前瞻近似(DLA)、網格自適應直接搜索(MADS)
根據美國國防部長(SecDef)的說法,美國(US)軍隊近期的重點是將目前的 "能力現代化,以應對未來的先進威脅",并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"(國防部,2021)。國防部長的重點可以通過美國國防部(DoD)有效調整其資源以應對不斷變化的威脅來實現(國防部,2021)。本論文支持國防部未來的首要任務,這些任務涉及使用自主無人駕駛作戰飛行器(AUCAVs)來壓制敵方防空(SEAD)和打擊任務。這些優先事項包括人工智能(AI)、偵察機能力、作戰司令部(COCOM)策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃(即基于模型的強化學習)算法,我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力,與國防部的主要倡議直接保持一致(國防部副部長(主計長)/首席財務官辦公室,2021)。這些資產的一個共同點是它們都對司令部的任務至關重要,并且可以與AUCAV打擊高價值目標的能力一起工作。
AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標(TST)的位置進行偵察,使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標,包括地對空導彈(SAM),并使用精確武器成功完成空對地任務(Military Advantage, 2014)。AUCAVs對薩姆導彈可能沒有那么有效,可能會被它們擊落。然而,AUCAVs有能力對要求命名的興趣區(NAIs)或更適合其他軍事資產打擊的目標類型進行偵察,如F-35或B-52。
F-15EX是美國國防部批準的項目,與F-35不同,它不是隱形的,不能在敵后不被察覺。然而,空軍已經考慮將F-15EX與隱形戰斗機配對,并將這對戰斗機作為遠程空對空導彈發射平臺(Mizokami,2021)。盡管F-15EX也有能力進行空對地打擊,但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力,包括二十多枚空對空導彈或高超音速武器(Mizokami, 2021)。這種作戰能力是需要考慮的,因為將一架隱身飛機(如F-35)與一架不具備相同屬性的飛機(如F-15EX)配對,以完成時間敏感的目標打擊任務,作為AUCAV的目標確認能力的結果,可能會達到優越的性能。
在每個COCOM的責任區(AOR),指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅(例如,防空導彈炮臺),AUCAV可以滿足指揮官的要求。然而,這種假設忽略了一個現實,即敵人可能會施加障礙,嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區(NFZ)的情報信息,以達到避免威脅的目的。本論文討論的近似動態規劃(ADP)算法將探討未預見的NFZ或戰斗區(例如,由于防空導彈電池)如何影響AUCAV的目標選擇,以及AUCAV如何隨著時間的推移學會避免這些區域。
美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器(UCAV)進行了作戰測試和評估(OT&E)(Butler and Colarusso, 2002)。因此,本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統(JSTARS)傳送的飛行中目標更新(IFTU)信息單獨指向其目標(Butler and Colarusso, 2002)。已經完成的測試表明,使用負擔得起的移動水面目標攻擊系統(AMSTE)而不是JSTAR,使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討,但在本論文中不會詳細討論。
美國特種作戰司令部(USSOCOM)正在投資人工智能(AI)以加快分析速度(國防部副部長(主計長)/首席財務官辦公室,2021)。這篇論文的重點是建立一個人工智能算法,使戰斗指揮部,如USSOCOM,能夠及時有效地執行目標打擊,并對要求的國家情報機構進行偵察。除各司令部外,聯合情報支援部隊(JISE)和聯合特遣部隊(JTF)也依賴偵察機,這是因為他們在管理各種形式的偵察和監視敵人方面的作用,這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的(國防部,2018a)。如果目前的AUCAV路徑規劃AI算法得到改進,所有這三個適用的軍事組織都可以提供更多的情報信息,從而在目前的限制性資源(如燃料容量、彈藥或在戰區的時間)下,產生更多的目標打擊和NAI的圖像。
鎖定目標是一項指揮職能,需要指揮官的監督和參與,以確保正確執行(美國空軍部,2019年)。它不是某類專業或部門的專屬領域,如情報或行動,而是融合了許多學科的專業知識(美國空軍部,2019)。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合,探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說,以更好地理解空軍如何定義目標。根據聯合學說,目標是一個實體或物體,被視為可能的交戰或其他行動(國防部,2018b)。實體可以被描述為設施、個人、虛擬(非物質)事物、設備或組織(美國空軍部,2019)。
有兩類目標:故意的和動態的(美國空軍部,2019年)。當有足夠的時間將目標添加到空中任務單或其他計劃中時,故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標,但當發現或定位時,符合實現目標的特定標準。
本論文試圖確定AUCAV的最佳路線,以選擇故意和動態目標的組合。AUCAV進入戰斗空間時,有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間,AUCAV就會遇到新的目標請求(即動態目標到達),必須重新計算其最佳目標選擇路線,并考慮到新到達的目標。
需要特別考慮的兩個目標子集是敏感和時間敏感(Department of the United States Air Force, 2019)。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標(Department of Defense, 2018b)。敏感目標并不總是與附帶損害相關(美國空軍部,2019)。它們也可能包括那些超過國家一級交戰規則閾值的目標,或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響(美國空軍部,2019)。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集,因為它們是高度有利可圖的、轉瞬即逝的機會目標,或者它們對友軍構成(或即將構成)危險(國防部,2018b)。
這篇論文的重點是AUCAV對時間敏感的目標進行打擊,并對可能包括敏感目標的NAI進行偵察,同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程(MDP)模型框架解決具有隨機目標到達的無人駕駛飛機定向問題,同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析,同時避開障礙物(即防空導彈電池),并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后,采用CFA策略的ADP解決方法來優化AUCAV的目標路線,在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。
本論文的其余部分的結構是:第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品,第三章討論問題的制定框架和解決方法,第四章討論計算測試和結果,第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論,提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。
在可視范圍內的空戰涉及執行高度復雜和動態的活動,需要快速、連續的決策以生存和擊敗對手。戰斗機飛行員花費數年時間來完善交戰戰術和機動動作,然而不斷出現的無人自主飛行器技術引起了一個自然的問題--自主無人作戰飛行器(AUCAV)能否被賦予必要的人工智能,以獨立完成具有挑戰性的空戰機動任務?我們制定并解決了空戰機動問題(ACMP),開發了一個馬爾可夫決策過程(MDP)模型來控制一個尋求摧毀對手飛行器的AUCAV。該MDP模型包括一個5自由度、點質量的飛機狀態轉換模型,以準確表示機動時的運動學和能量。ACMP中狀態空間的高維和連續性質使得經典的解決方法無法實施。相反,我們提出了一種近似動態規劃(ADP)方法,其中我們開發并測試了一種近似的策略迭代算法,該算法實現了神經網絡回歸,以實現AUCAV的高質量機動策略。為了計算測試的目的,我們指定了一個有代表性的攔截場景,其中AUCAV的任務是保衛一個責任區,必須與試圖穿透保衛空域的敵方飛機交戰并摧毀它。進行了幾個設計實驗,以確定飛機特性和對手的機動戰術如何影響擬議ADP解決方案的功效。此外,設計的實驗使高效的算法超參數調整成為可能。ADP生成的策略與目前ACMP文獻中發現的兩個公認的基準機動策略進行了比較,一個只考慮位置,一個同時考慮位置和能量。在調查的18個問題實例中,ADP策略在18個實例中的15個超過了只考慮位置的基準策略,在18個實例中的9個超過了位置-能量基準策略,在最能代表典型空中攔截交戰的問題實例中獲得了更好的殺傷概率。作為一個有趣的探索,以及對我們方法的定性驗證,由ADP策略產生的機動與標準的、基本的戰斗機機動和常見的特技飛行機動進行了比較。結果表明,我們提出的ADP解決方法產生了模仿已知飛行動作策略。
移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。
Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。
在不確定性下進行的決策序列出現在各種環境中,包括交通、通信網絡、金融、國防等。為序列決策問題找到最優決策策略的經典方法是動態規劃;然而,由于維度詛咒和建模詛咒,它的用處有限,因此許多現實世界的應用需要另一種方法。在運籌學中,過去的 25 年中,使用近似動態規劃 (ADP)(在許多學科中被稱為強化學習)來解決這些類型的問題越來越受歡迎。通過這些努力,成功部署了 ADP 生成的卡車運輸行業駕駛員調度、機車規劃和管理以及制造中高價值備件管理的決策策略。在本文中,我們首次回顧了 ADP 在國防背景下的應用,特別關注那些為軍事或文職領導層提供決策支持的應用。本文的主要貢獻是雙重的。首先,我們回顧了 18 個決策支持應用程序,涵蓋了部隊發展、生成和使用的范圍,它們使用基于 ADP 的策略,并針對每個應用重點介紹了其 ADP 算法的設計、評估和取得的結果。其次,基于所確定的趨勢和差距,我們討論了與將 ADP 應用于國防決策支持問題相關的五個主題:所研究的問題類別;評估 ADP 生成策略的最佳實踐;與當前實施的策略相比,設計漸進式策略與徹底改進策略的優勢;情景變化時策略的穩健性,例如從高強度沖突到低強度沖突的轉變;以及尚未在國防中研究的,可能從 ADP 中受益的順序決策問題。
關鍵詞:序列決策問題、馬爾可夫決策過程、近似動態規劃、強化學習、軍事
許多決策不是孤立地做出的;觀察到以前不確定的新信息;鑒于這些新信息,將做出進一步的決策;更多新信息到來;等等。這些類型的決策被恰當地描述為順序決策問題、不確定性下的順序決策或多??階段決策問題,其特點是決策對未來獲得的回報或產生的成本、未來決策的可行性以及在某些情況下的外生時間對決策的影響[1],[2],[3]。本質上,“今天的決策影響明天,明天的決策影響下一天”[2, p.1],如果不考慮決策之間的關系,那么所取得的結果可能既沒有效率也沒有效果。
自20世紀50年代以來,人們就知道這種順序決策可以被建模為馬爾科夫決策過程(MDP),它由五個部分組成:一組候選行動;選擇行動后得到的獎勵;做出決策的歷時;狀態,即選擇行動、確定獎勵和告知系統如何演變所需的信息;以及定義系統如何從一個狀態過渡到下一個狀態的過渡概率[4]。給定一個MDP,目標是找到一個決策策略--"一個規則(或函數),根據現有的信息確定一個決策"[3,p.221],也被稱為應急規劃、規劃或戰略[2,p.22]--作出的決策使得系統在給定的標準下表現最佳。尋找最優決策策略的經典方法是通過動態規劃(DP)解決貝爾曼的最優方程[5]。在國防背景下,DP已被應用于確定各種連續決策問題的決策策略,包括艦隊維護和修理[6]、基本訓練安排[7]、研究和開發項目選擇[8]、軍事人員的去留決策[9]以及醫療后勤資產調度[10]。
盡管DP為解決順序決策問題提供了一個巧妙的框架,但它在許多現實世界的應用中的作用有限,這一點早已得到認可。這是由于維度的詛咒[5]--"隨著變量(或維度)數量的增加,問題的難度異常快速增長"[11]--以及建模的詛咒,即需要一個明確的模型來說明系統如何從一個狀態過渡到下一個狀態[12]。雖然今天的計算機可以解決有數百萬個狀態的順序決策問題[13],但許多問題仍然太大,無法通過經典的DP方法有效解決。此外,通常的情況是,狀態之間的過渡概率根本不知道。具有這些特征的順序決策問題貫穿于整個國防領域,跨越了軍力發展、生成和使用的范圍。比如說:
在軍力發展中,關于能力投資的決策可能多達數百項,通常在業務規劃周期內的固定時間進行,并且每年重復。決策者必須考慮所選擇的投資的短期和長期影響,以及未選擇的投資,同時考慮到未來軍事合同的不確定性,聯盟和對手能力的變化,國防特定通脹,等等。
在軍力組建中,決定招募多少名軍人和軍士,以滿足各種軍事職業的要求,同時尊重國家的授權力度,并考慮到各種不確定因素,包括每年的退休、晉升、自然減員等等;
在軍力雇傭范圍內,在大規模疏散行動中決策,如重大海難期間,將哪些人裝上直升機,同時考慮到包括天氣變化、個人健康、直升機故障等不確定因素。
由于這些挑戰,在這些類型的問題中,通常不可能找到一個最優的決策策略,需要采用其他的方法,重點是找到一個好的或接近最優的策略。第一個方法是由Bellman和Dreyfus[14]提出的,在接下來的幾十年里,包括運籌學、控制論和計算機科學在內的各個領域都發展了更多的方法,詳細的討論和相關的參考文獻列表見Powell[15]。此外,數學規劃領域,特別是隨機規劃,已經開發了復雜的算法來解決高維決策和狀態向量的問題,這在現實世界的順序決策問題中經常看到[16]。
在運籌學中,這些方法以各種名義被開發出來;尤其是神經動態規劃、自適應動態規劃和近似動態規劃(ADP)。如圖1所示,這些方法在過去的25年里越來越受歡迎,從1995年到2021年4月9日,共發表了2286篇文章,年發表率從一篇文章增長到每年近250篇。最近,ADP--"一種在模擬中做出智能決策的方法"[17,p.205],其中 "產生的策略不是最優的,所以研究的挑戰是表明我們可以獲得在不同情況下穩健的高質量決策策略"[18,p.3]--已經成為更常用的術語[3]。作者們最近也開始使用強化學習這個標簽,最近出版的《強化學習和最優控制》一書[19]和即將出版的《強化學習和隨機優化:隨機決策的統一框架》一書[20]就是證明。值得注意的是,ADP生成的決策策略已經成功部署到工業領域,包括卡車行業的司機調度策略[21],[22],[23], 機車規劃和管理[24],[25], 以及制造業內高價值備件的管理[26]。
圖1. 1995年至2021年4月9日期間每年發表的ADP相關文章的數量。
在這篇文章中,我們首次回顧了ADP在國防背景下的應用。特別是,我們專注于軍事運籌學領域的同行評議文獻;也就是 "應用定量分析技術為軍事[或民事]決策提供信息"[27]。本文的主要貢獻有兩個方面。首先,我們回顧了18個決策支持應用,這些應用跨越了部隊發展、生成和使用的范圍,使用了基于ADP的策略,并為每個應用強調了其ADP算法是如何設計、評估和取得的結果。其次,基于所發現的趨勢和差距,我們討論了與將ADP應用于國防決策支持問題有關的五個主題:所研究的問題類別;評估ADP生成策略的最佳做法;與目前實行的策略相比,設計策略是漸進式的,而不是完全徹底的;隨著情景的變化,策略的穩健性,如沖突中從高強度到低強度的轉變;我們還建議提出國防內部可能受益于ADP生成策略的其他順序決策問題。
本文的其余部分組織如下。第2節提供了相關的背景信息。第3節介紹了進行此次審查的方法。第4節和第5節是審查的主要內容。第4節回顧了18個已確定的ADP在國防領域的決策支持應用,第5節介紹了與在國防領域應用ADP相關的五個主題。最后,第6節給出了總結性意見。
在本節中,我們介紹了通過上述文獻搜索確定的18篇基于應用的文章的摘要。表2列出了每項研究,其應用領域,以及所實施的ADP策略和算法的特征。所列的特征主要集中在第2.3節中討論的那些特征,即:
決策策略的類型--短視CFA、PFA、VFA、DLA或混合。
價值函數近似策略--查詢表、參數化或非參數化。
價值函數模型--層次聚合、線性結構、NN等。
算法策略-狹義搜索、數學規劃、隨機規劃、AVI、API。
更新價值函數模型參數的方法--時差學習、LSTD、LSPE、SVR,等等;
步長--常數、廣義調和、多項式等。
對于所列出的一些文章,沒有提供足夠的信息來確定作者是如何處理某些特征的。在這種情況下,該特征被列為未說明。此外,有些文章中的某些特征并不適用。在這種情況下,該特征被列為不適用。下面給出了進一步的細節。研究報告分為三類--軍力發展、軍力組建、軍力使用,然后按時間順序排列。
表2. 1995-2021年期間ADP在軍事作戰研究中的應用。文章按橫線分為三組:部隊發展(上組)、軍力組建(中組)和軍力使用(下組)。
當前的海軍作戰要求水手們根據動態作戰環境中的不確定態勢信息做出時間緊迫和高風險的決策。最近的悲慘事件導致了不必要的傷亡,海軍行動中涉及決策復雜性,并特別突出了 OODA 循環(觀察、定向、決策和評估)中的挑戰。涉及使用武器系統的殺傷鏈決策是 OODA 循環中一個特別緊張的類別——具有難以確定的意外威脅、縮短的決策反應時間和致命的后果。有效的殺傷鏈需要正確設置和使用船上傳感器;未知接觸者的識別和分類;基于運動學和智能的接觸意圖分析;環境意識;以及決策分析和資源選擇。
該項目探索了使用自動化和人工智能 (AI) 來改進海軍殺傷鏈決策。該團隊研究了海軍殺傷鏈功能,并為每個功能制定了特定的評估標準,以確定特定 AI 方法的功效。該團隊確定并研究了 AI 方法,并應用評估標準將特定的 AI 方法映射到特定的殺傷鏈功能。
圖:利用人工智能改進海軍殺傷鏈的作戰概念
當前的海軍行動通常是快節奏的、關鍵的,并且需要做出高風險的決策,這些決策有時基于非常動態的戰區中的不確定信息。許多例子強調了提高決策效率的必要性以及減輕觀察團隊負擔的必要性。缺乏上述情況的例子包括 2017 年的菲茨杰拉德號航空母艦 (DDG 62) 和 MV ACX Crystal相撞,以及 2009 年皇家港口號航空母艦 (CG 73) 的擱淺。一些根本原因是相關人員缺乏經驗、疲勞和壓力.
上述事故展示了軍事行動的難度,并展示了 OODA(觀察、定向、決策和評估)循環中的挑戰(Jones 等人,2020 年)。人為錯誤、人的認知限制和海軍作戰固有的決策復雜性導致了 OODA 循環中的挑戰,更具體地說,是殺傷鏈過程中的挑戰。
現代戰斗空間由來自常規陸地、空中和海洋等多個領域以及來自太空和網絡空間的大量數據組成。決策者需要考慮許多因素,包括交戰規則 (ROE)、要使用的武器、傳感器和意圖評估。發現、修復、跟蹤、瞄準、參與、評估 (F2T2EA) 殺傷鏈模型緩解了該過程的一些困難(參謀長聯席會議,2013 年)。人工智能 (AI) 和機器學習 (ML) 可以通過分析備選方案和使用評估標準將 AI 方法映射到殺傷鏈功能,從而幫助海軍在戰術領域做出殺傷鏈決策。這是在本報告的五個章節中分三個階段完成的。
本報告利用了數百個資源,主要利用了美海軍研究生院 AI-OODA 團隊在其 Capstone 報告(2020 年)中進行的先前研究,“利用人工智能 (AI) 進行空中和導彈防御 (AMD):以結果為導向的決策援助。”他們將他們的工作與 John Boyd 的觀察、定向、決定和行動決策框架相結合。作為他們分析的初步步驟,AI-OODA 團隊將特定的 OODA 功能明確且緊密地耦合到特定的 F2T2EA 功能。然而,本報告斷言 OODA 循環是一個決策循環,它嵌套在殺傷鏈的每個功能中,而不是在高壓力或低壓力情況下專門映射到一個或多個殺傷鏈功能。團隊基于 F2T2EA 模型開發了一組 28 個殺傷鏈功能。
在制定將 AI 方法映射到殺傷鏈的評估標準時,很難確定一個好的決策,這對于決策評估至關重要。在評估決策時,必須考慮選擇行動時的知識意識狀態以及解釋能力。使用了幾種對決策進行評分的方法,從定義和優先考慮感興趣的“武器-目標”到制定評分標準和報告評估結果,以供其他人審查。
目前,人工智能的狀態非常廣泛,必須對其進行解釋,以了解人工智能對殺傷鏈中功能的適用性。本報告討論了所選 AI 方法的高級概述,并突出顯示了部分最流行的方法。首先,沒有普遍接受的定義,這很難定義人工智能。其次,人工智能與機器學習 (ML) 存在差異。 ML 允許在準確性和可預測性方面取得增量收益; AI 接收數據并通過算法提供輸出。人工智能的歷史從 1940 年代艾倫·圖靈 (Alan Turing) 的加密機器到 1980 年代美國政府在戰略計算計劃中的使用,再到今天在聯合人工智能中心 (JAIC) 中的人工智能戰略五個支柱,從領先的人工智能人力到安全和倫理。美國國防高級研究計劃局 (DARPA) 在 3-wave 框架中描述了 AI 的發展方向,分為手工知識 (Wave 1)、統計學習 (Wave 2) 和上下文推理 (Wave 3) 在 1-4 個維度內情報參數的屬性(Launchbury 2017)。這些屬性包括感知、推理、抽象和學習。
人工智能涉及可以根據輸入值預測結果的監督學習。有幾種使用監督學習進行學習的技術。包括線性回歸和分類。此外,許多數值方法可以分析發生的學習有效性,例如 F-score 和 Accuracy score。人工智能還可以使用無監督學習,它使用算法來發現未標記數據集中的數據模式或分組。在分析未知(y)響應以揭示標記(x)數據中的模式時,無監督學習是有益的。數據分析界的一個著名例子是鳶尾花(Iris flower)數據集。僅使用標記的數據,可以看到響應聚集在一起,并且可以確定響應中存在模式(花的種類)。無監督學習的方法包括聚類和 K-means,但還有其他方法。強化學習有一個代理能夠接收來自環境的反饋并理解基本目標。此外,正如 Sutton 和 Barto 在(2018 年)中解釋的那樣,探索和開發之間存在權衡。最后,生成對抗網絡 (GAN) 利用無監督學習和強化學習,通常用于神經網絡 (NN)。神經網絡是機器學習算法的極好來源,它有大量的輸入,而這些輸入又會產生大量的計算。 NN 非常適合用于模擬、自然語言處理、博弈論和計算機視覺。 NN 只是一種將輸入映射到輸出的簡單方法,可以在此過程中進行學習。然而,NN 可以被描述為一種“黑盒”學習技術,因為很難解釋正在發生的事情,并且通常需要一種可解釋的 AI (XAI) 技術。 XAI 的三個主要組成部分是可解釋模型、解釋界面和解釋心理學(Gunning 2019)。數據安全必須與“大數據”一起考慮,“大數據”是指非結構化、復雜和大型數據集,具有五個 v 特征:數量、速度(數據量隨時間變化的增加)、多樣性、真實性和價值。其他理論包括決策理論、模糊邏輯和效用函數
使用上述文獻綜述,該團隊開發了一個框架,用于將 AI/ML 映射到 AMD(空中導彈防御)殺傷鏈。采取了四個步驟:1) 建立模型框架,2) 確定決策點,3) 應用 AI/ML 方法,以及 4) 分析結果。該團隊確定了以下用于殺傷鏈映射分析的 AI/ML 方法:線性回歸、邏輯回歸、聚類、關聯、隨機森林、神經網絡、GAN 和樸素貝葉斯。評估標準被稱為“決策點”并提出四個問題:(1)所需輸出的類型是什么,(2)所需的學習類型是什么,(3)可解釋性(XAI)是什么水平需要,以及 (4) 需要多少個預測變量?該團隊通過基于一組決策點和評分過程評估每個殺傷鏈功能的每種方法來執行映射。對于被認為非常適合某項任務的方法,得分為+1,如果該方法適合但次優,則為0,如果該方法不適合該任務,則為–1。
該團隊進行了映射分析,根據與殺傷鏈的 28 個功能中的每一個功能相關的評估標準(決策點)分析 AI 方法。該團隊使用評分方法來確定每個殺傷鏈功能的最佳整體 AI/ML 分數。團隊的映射顯示為 0。
該團隊的 AI/ML 映射到殺傷鏈功能為國防部和海軍提供了兩個關鍵好處。首先,映射本身是設計和開發支持殺傷鏈決策的人工智能戰術決策輔助工具的重要起點和基礎。其次,該團隊將 AI 方法映射到殺傷鏈的分析過程可用于了解 AI 在許多其他軍事和非軍事領域的應用。識別適當的人工智能方法、制定評估標準和評分過程以及制定過程功能以進行分析映射的過程對于支持許多不同人工智能系統的工程具有深遠的潛力。
表1:AI/ML方法到殺傷鏈的映射
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。