本論文利用強化學習(RL)來解決空戰機動模擬中的動態對抗博弈問題。空戰機動模擬是運籌學領域常見的一種順序決策問題,傳統上依賴于智能體編程方法,需要將大量領域知識手動編碼到模擬環境中。這些方法適用于確定現有戰術在不同模擬場景中的有效性。然而,為了最大限度地發揮新技術(如自動駕駛飛機)的優勢,需要發現新的戰術。作為解決連續決策問題的成熟技術,RL 有可能發現這些新戰術。
本論文探討了四種 RL 方法--表式、深度、離散到深度和多目標--作為在空戰機動模擬中發現新行為的機制。它實現并測試了每種方法的幾種方法,并從學習時間、基準和比較性能以及實現復雜性等方面對這些方法進行了比較。除了評估現有方法對空戰機動這一特定任務的實用性外,本論文還提出并研究了兩種新型方法,即離散到深度監督策略學習(D2D-SPL)和離散到深度監督 Q 值學習(D2D-SQL),這兩種方法可以更廣泛地應用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究領域:
本論文為有限時間范圍內的魯棒性分析和綜合提供了理論和計算工具。這項工作的動機之一是對導彈攔截系統性能進行可靠評估,這也將有助于此類系統的穩健設計。典型的性能指標具有無限時間范圍的性質,以穩定性為中心,并依賴于頻域概念,如增益/相位裕度。對于在有限時間范圍內運行的系統(如許多發射場景),這些指標可能不夠充分。相反,本論文側重于時域指標,例如,在考慮干擾、模型不確定性/可變性和初始條件的影響的同時,對系統在視界最后時間的狀態進行約束。建議的方法是沿軌跡對動力學進行數值線性化,以獲得線性時變(LTV)系統。然后在線性化系統上進行分析或綜合,該系統可捕捉到標稱軌跡周圍的一階擾動。與原始非線性模型相比,這種方法犧牲了一些精度,但卻能使用線性系統工具。建議的最壞情況 LTV 分析還提供了具體的不良干擾和不確定參數,可在高保真非線性仿真中進一步研究。
導彈防御: 威脅環境正在以許多前所未有的方式迅速演變,這主要是由于現有導彈能力的增強和無人駕駛飛行器的更加靈活。任何導彈防御系統的首要目標都是保護國土、文明和戰略資產(如航空母艦)。這些復雜的工程系統必須探測、跟蹤和攔截來襲的威脅導彈,在它們到達各自目標之前將其摧毀。目前,最常見的方法之一是使用攔截導彈,通過與威脅導彈碰撞(即命中摧毀)或在其附近爆炸(即定向破片)使其失效。
目前的局限性: 單一攔截器與威脅交戰的性能可能會因多種因素而下降,包括外部干擾(如陣風)、未建模的靈活動態、傳感器噪聲、跟蹤不準確、致動器飽和、威脅的規避機動等。這對單個攔截器系統的精度造成了極大的影響。因此,需要發射多個攔截器來提高成功的可能性。然而,這并不總是可行的;例如,一艘小型海軍艦艇可能只有有限的艦載導彈資源。替代方法包括反火箭、火炮和迫擊炮(C-RAM)系統或 CIWS 雷達控制速射炮,發射多發炮彈,直到成功識別并摧毀威脅。當同時受到多個威脅的攻擊時,這種防御能力很容易被壓垮。有些威脅導彈具有很強的機動性,可使用多種誘餌和反制手段,因此很難被攔截。此外,如果不能在短時間內做出反應,可能會造成災難性后果。總之,目前的多層導彈防御系統嚴重缺乏性能保證。
目標:這項研究的主要目標是開發理論和計算工具,用于對在有限時間范圍內運行的系統進行魯棒性分析。重點是快速可靠地計算適當的魯棒性指標,以確定最壞情況下的性能。這種分析可用于補充現有的蒙特卡洛方法,以便在設計迭代的早期發現邊緣情況,或確定二元結果(如任務成功或在最壞情況下失敗)。
挑戰: 總體而言,由于存在許多不確定性、干擾和參數變化,最壞情況分析問題是非線性和非凸的。目前還沒有任何數值上可靠的工具可用于此類分析。即使存在這樣的工具,其適用范圍也很可能有限,因為它們要么計算速度很慢,無法保證收斂,要么只適用于學術范例。例如,考慮在 F-16 飛機上應用非線性動力算法進行最壞情況軌跡分析[8]。這種算法不僅缺乏收斂性保證,而且計算速度很慢。得出最壞情況下的參數和陣風組合所需的時間(4 到 4.5 小時)與蒙特卡洛模擬所需的時間大致相同。
方法: 方法主要是沿標稱軌跡對系統的動態進行數值線性化,并評估由此產生的線性時變(LTV)系統的穩健性。這種線性化系統只捕捉標稱軌跡周圍的一階擾動。我們利用系統的線性特性,通過解決凸優化問題,為 LTV 性能提供正式保證。然而,這需要犧牲原始不確定非線性系統的精度(即以精度換取計算效益)。這種近似分析只需要一次非線性模擬,速度明顯更快。擬議的有限視界線性化分析還提供了最壞情況下的性能證明(如特定的 "壞 "干擾、參數等),可在非線性模擬中進一步分析。
通過與被稱為計算機生成兵力(CGF)的虛擬對手進行訓練,受訓戰斗機飛行員可以積累空戰行動所需的經驗,而其成本僅為使用真實飛機訓練的一小部分。但實際上,計算機生成兵力的種類并不豐富。這主要是由于缺乏 CGF 的行為模型。在本論文中,我們研究了空戰訓練模擬中 CGF 的行為模型在多大程度上可以通過使用機器學習自動生成。空戰領域非常復雜,在該領域內運行的機器學習方法必須適合該領域帶來的挑戰。我們的研究表明,動態腳本算法極大地促進了空戰行為模型的自動生成,同時又具有足夠的靈活性,可以根據挑戰的需要進行調整。然而,確保新生成行為模型的有效性仍是未來研究的一個關注點。
人工智能(ai)領域可以為行為建模過程提供一種替代方法,并通過糾正上一節中提到的兩種后果來提高模擬訓練的效果。這種替代方法是通過機器學習生成行為模型。機器學習程序在各種任務中的表現都優于人類,例如信用卡欺詐檢測、云計算資源分配,以及玩撲克和圍棋等游戲。對于此類任務,機器學習程序能夠通過以下三種特性的結合產生創造性的解決方案:(1)計算速度;(2)精確的約束滿足能力;(3)巧妙的學習算法。利用這三個特性并將其應用于行為模型的開發,我們就能獲得以下能力:(1) 以更快的速度開發行為模型;(2) 開發出比目前更多變化的行為模型。因此,使用機器學習程序開發行為模型有可能消除當前行為建模過程對訓練效果造成的兩種影響。
不過,在將機器學習應用于空戰模擬之前,我們必須先考慮空戰領域。空戰領域十分復雜,在這一領域內運行的機器學習方法必須適合該領域帶來的挑戰。五項挑戰:(a) 形成團隊合作,(b) 對 cgf 行為進行計算評估,(c) 有效重用已獲得的知識,(d) 驗證生成的行為模型,以及 (e) 生成可訪問的行為模型。這五大挑戰并非空戰領域所獨有。但是,這些挑戰需要適合該領域的解決方案。
研究問題 1:能在多大程度上生成能產生團隊協調的空戰行為模型?
動態腳本使用獎勵函數來評估使用生成的行為模型的空戰 cgf 所顯示的行為。獎勵函數產生的獎勵用于調整新生成的行為模型,以尋找最佳模型。如前所述(見挑戰 b),空戰行為評估存在兩個問題。在文獻中,這兩個問題分別被稱為獎勵稀疏和獎勵不穩定(見第 4 章)。不過,文獻中提出的空戰行為獎勵函數并不總是考慮到這兩個問題。然而,這樣做可能會產生更理想的行為模型。這就引出了第二個研究問題。
研究問題 2:能在多大程度上改進空戰 cgf 的獎勵功能?
動態腳本將 cgf 在整個學習過程中積累的知識以權重值的形式存儲在規則庫中的規則上。每條規則的權重值表示該規則相對于規則庫中其他規則的重要性。就重復使用而言,在一個空戰場景中構建的知識也有可能在另一個空戰場景中得到有效應用。我們將知識重用置于遷移學習的背景下,即讓一個 cgf 在一個場景中學習,然后將其知識遷移到一個新的、未見過的場景中。這就引出了第三個研究問題。
研究問題 3:使用動態腳本構建的知識在多大程度上可以在不同場景下的 cgf 之間成功轉移?
我們的目標是將生成的行為模型用于模擬訓練。驗證模型是實現有效使用模型的重要一步。行為建模過程中的第 4 步說明了驗證的重要性。然而,由于行為模型驗證沒有放之四海而皆準的解決方案,我們首先必須確定驗證的正確方法。這就引出了第四個研究問題。
研究問題 4:我們應該如何驗證機器生成的空戰行為模型以用于模擬訓練?研究問題 4 的答案就是驗證程序。通過該程序,我們可以確定我們在研究中生成的行為模型的有效性。所選擇的研究方法引出了第五個研究問題。
研究問題 5:通過動態腳本生成的空戰行為模型在多大程度上可用于模擬訓練?
回答了這五個研究問題,我們就能回答問題陳述。
在第 1 章中,我們介紹了問題陳述和五個研究問題。此外,還介紹了解決研究問題的研究方法。
在第 2 章中,我們提供了有關四個主題的文獻背景信息(另見第 1.1 節): (1) 行為建模過程的詳細步驟;(2) 在模擬訓練中使用機器學習的潛在好處和缺點;(3) 過去使用機器學習生成空戰行為模型的方法;(4) 動態腳本及其在空戰模擬中的適用性。
在第 3 章中,我們介紹了團隊協調的三種方法:(1) 默契;(2) 中心;(3) 體面。我們通過實驗研究團隊協調方法的益處,然后回答研究問題 1。
在第 4 章中,我們將深入研究動態腳本編寫過程的一個特定部分,即獎勵功能。我們將展示三種不同獎勵函數的使用如何影響我們的 cgfs 的行為,然后回答研究問題 2。
在第 5 章中,我們研究了 cgf 在某種空戰場景中積累的知識在多大程度上可以成功轉移到不同空戰場景中的 cgf 上,然后回答了研究問題 3。
在第 6 章中,我們設計了一個驗證程序,通過該程序可以驗證為空戰 cgf 生成的行為模型。此外,我們還介紹了 atacc,然后回答了研究問題 4。
在第 7 章中,我們將驗證程序應用于戰斗機 4 艦模擬器中新生成的行為模型,然后回答研究問題 5。
在第 8 章中,我們將對五個研究問題的答案進行總結,從而結束本論文。最后,基于這些答案,我們提出了問題陳述的答案。之后,我們將對未來的工作提出兩點建議。
本論文將雷達信號處理與數據驅動的人工神經網絡(ANN)方法相結合。信號處理算法通常基于對數據形成過程的建模假設。在某些情況下,這些模型足以設計出良好甚至最優的解決方案。
但在很多情況下,這些模型可能過于復雜,無法形成分析解決方案;可能過于簡化,導致實際結果與理論上的結果大相徑庭;可能是未知的,即多個已知模型或參數值中的一個可能適合數據,但我們不知道是哪個;或者過于復雜,導致解決方案的計算量過大。
數據驅動的方差網絡方法提供了彌合這些差距的簡單方法。我們在四項不同的研究中證明了這一點,在這些研究中,我們利用雷達數據模型來制定數據驅動型解決方案,這些解決方案既準確又具有計算效率。
我們將基于 ANN 的結果與計算要求極高的最小二乘法和窮舉匹配過濾法進行了比較。結果表明,ANN 的性能可與這些方法相媲美,但計算量卻很小。我們在使用各種參數值的模型采樣數據上訓練人工智能網絡。這自然可以處理漂移和未知參數值,它們可能會改變數據,但不會改變所需的預測結果。我們的研究表明,根據簡單模型的數據訓練出的 ANN 分類器的實際表現可能比理論預期的要差得多。我們通過將有限的真實數據與合成模型數據相結合來改善這種情況。在所有情況下,我們都使用了易于評估的模型。然而,這些模型的分析方法并不簡單,無法創建分析解決方案。
特別是,我們提出了一種實現非相干脈沖壓縮的方法,可在單脈沖寬度內分辨目標。我們提出了一種檢測微弱目標軌跡的方法,該方法無需事先假設目標加速度、信噪比等。我們介紹了在訓練無人機和非無人機目標分類器時納入不完美模型數據的不同方法。最后,我們介紹了一種估算海面多徑傳播路徑差的方法,用于目標跟蹤。
遙控飛機執行的軍事任務類型不斷擴展到包括空對空作戰在內的各個方面。雖然未來的視距內空對空作戰將由人工智能駕駛,但遙控飛機很可能將首先投入實戰。本研究旨在量化延遲對高速和低速交戰中一對一視距內空對空作戰成功率的影響。研究采用了重復測量實驗設計,以檢驗與指揮和控制延遲相關的各種假設。有空對空作戰經驗的參與者在使用虛擬現實模擬器進行的一對一模擬作戰中受到各種延遲輸入的影響,并對每次交戰的作戰成功率進行評分。這項研究是與美國空軍研究實驗室和美國空軍作戰中心合作進行的。
因變量 "戰斗得分 "是通過模擬后分析得出的,并對每次交戰進行評分。自變量包括輸入控制延遲(時間)和交戰起始速度(高速和低速)。輸入延遲包括飛行員輸入和模擬器響應之間的六種不同延遲(0.0、0.25、0.50、0.75、1.0 和 1.25 秒)。每種延遲在高速和低速交戰中重復進行。采用雙向重復測量方差分析來確定不同處理方法對戰斗成功率的影響是否存在顯著的統計學差異,并確定延遲與戰斗速度之間是否存在交互作用。
結果表明,在不同的潛伏期水平和交戰速度下,戰斗成功率之間存在顯著的統計學差異。潛伏期和交戰速度之間存在明顯的交互效應,表明結果取決于這兩個變量。隨著潛伏期的增加,戰斗成功率出現了顯著下降,從無潛伏期時的 0.539 降至高速戰斗中 1.250 秒潛伏期時的 0.133。在低速戰斗中,戰斗成功率從無延遲時的 0.659 降至 1.250 秒延遲時的 0.189。最大的遞增下降發生在高速潛伏期 1.00 至 1.25 秒之間,低速潛伏期 0.75 至 1.00 之間。高速交戰期間戰斗成功率的總體下降幅度小于低速交戰期間。
這項研究的結果量化了視距內空對空作戰中戰斗成功率的下降,并得出結論:當遇到延遲時,希望采用高速(雙圈)交戰,以盡量減少延遲的不利影響。這項研究為飛機和通信設計人員提供了信息,使他們認識到延遲會降低預期作戰成功率。這種模擬配置可用于未來的研究,從而找到減少延遲影響的方法和戰術。
本論文旨在研究飛行員在不同模擬環境中的表現與認知、情緒、疲勞和生理的關系。本論文拓寬了對飛行員在作戰環境中非技術技能發展的理解并擴大了其可能性。論文在低保真和高保真兩種環境下對這些現象進行了研究。在研究 I 中,使用低保真模擬對商業飛行員的動態決策進行了調查。接下來,在研究二、三和四中,使用高仿真環境,重點調查了軍事背景下長時間飛行任務中的認知、情緒及其生理關聯。
研究 I 表明,低保真模擬有助于了解商業飛行員動態決策中的認知過程。使用此類模擬可幫助飛行員識別可用于不明確問題的有用信息,這對成功的決策過程至關重要。飛行員決策能力的培養可以通過使用低保真模擬來補充。這可能有利于整個決策過程,包括診斷、判斷、選擇、反饋提示和執行。
研究二、研究三和研究四表明,在評估個人心理方面的情況時,需要高保真環境,這就要求對自然環境有較高的再現水平。長時間單人駕駛飛機執行任務時,應考慮到飛行員在執行任務約 7 小時后可能會出現持續注意力下降、積極情緒減少和消極情緒增加的情況。然而,在 11 小時的飛行任務中,更復雜的認知任務的表現可能不會下降。心率變異性與情緒評級之間的關聯可能表明生理喚醒水平。這可能有助于評估飛行員在這種情況下的整體心理狀態。對飛行員在這種環境下的心理狀態進行全面評估,可能有助于飛行員做好準備,并有助于制定長時間飛行任務的計劃。
綜上所述,本論文的結論表明,適當使用低保真和高保真模擬可促進飛行員認識到適應環境變化的必要性。這促進了作為安全基本要素的應變能力。
作為分布式海上作戰(DMO)的一個關鍵原則,盡管有人和無人、水面和空中、作戰人員和傳感器在物理時空上都有分布,但它們需要整合成為一支有凝聚力的網絡化兵力。本研究項目旨在了解如何為 DMO 實現有凝聚力的作戰人員-傳感器集成,并模擬和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境,尤其側重于有人和無人飛機的情報、監視和偵察 (ISR) 任務。
在半個世紀的建模和仿真研究與實踐(例如,見 Forrester, 1961; Law & Kelton, 1991),特別是四分之一世紀的組織建模和仿真工作(例如,見 Carley & Prietula, 1994)的基礎上,獲得了代表當前技術水平的計算建模和仿真技術(即 VDT [虛擬設計團隊];見 Levitt 等人, 1999)。這種技術利用了人們熟知的組織微觀理論和通過基于代理的互動而產生的行為(例如,見 Jin & Levitt, 1996)。
通過這種技術開發的基于代理的組織模型在大約三十年的時間里也經過了數十次驗證,能夠忠實地反映對應的真實世界組織的結構、行為和績效(例如,參見 Levitt, 2004)。此外,幾年來,已將同樣的計算建模和仿真技術應用到軍事領域(例如,見 Nissen, 2007),以研究聯合特遣部隊、分布式作戰、計算機網絡行動和其他任務,這些任務反映了日益普遍的聯合和聯盟努力。
本報告中描述的研究項目旨在利用計算建模來了解如何為 DMO 實現有凝聚力的戰斗傳感器集成,并建模和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境。在這第一項工作中,將對當今的海上行動進行建模、模擬和分析,重點是有人駕駛和無人駕駛飛機的情報、監視和偵察(ISR)任務。這為與執行 ISR 任務的一個或多個 DMO 組織進行比較確立了基線。這也為與其他任務(如打擊、防空、水面戰)進行比較建立了基線。第二階段接著對一個或多個備用 DMO 組織進行建模、模擬和分析。
在本技術報告的其余部分,首先概述了 POWer 計算實驗環境,并列舉了一個實例,以幫助界定 DMO 組織和現象的計算建模。依次總結了研究方法。最后,總結了沿著這些方向繼續開展研究的議程。這些成果將極大地提高理解和能力,使能夠為 DMO 實現戰斗員與傳感器的集成,并為集成實施所需的系統能力和行為建模和概述。
本文通過機器學習方法提出了一種雷達任務選擇的主動方法,并將其設計在雷達調度流程之前,以提高雷達資源管理過程中的性能和效率。該方法由兩個過程組成:任務選擇過程和任務調度過程,其中任務選擇過程利用強化學習能力來探索和確定每個雷達任務的隱藏重要性。在雷達任務不堪重負的情況下(即雷達調度器超負荷工作),將主動選擇重要性較高的任務,直到任務執行的時間窗口被占滿,剩余的任務將被放棄。這樣就能保證保留潛在的最重要任務,從而有效減少后續調度過程中的總時間消耗,同時使任務調度的全局成本最小化。本文對所提出的方法進行了數值評估,并將任務丟棄率和調度成本分別與單獨使用最早開始時間(EST)、最早截止時間(ED)和隨機偏移開始時間EST(RSST-EST)調度算法進行了比較。結果表明,與EST、ED和RSST-EST相比,本科學報告中提出的方法分別將任務丟棄率降低了7.9%、6.9%和4.2%,還將調度成本降低了7.8倍(EST為7.8倍)、7.5倍(ED為7.5倍)和2.6倍(RSST-EST為2.6倍)。使用我們的計算環境,即使在超負荷的情況下,擬議方法所消耗的時間也小于 25 毫秒。因此,它被認為是提高雷達資源管理性能的一種高效實用的解決方案。
雷達資源管理(RRM)對于優化作為飛機、艦船和陸地平臺主要傳感器的現代相控陣雷達的性能至關重要。報告》討論了雷達資源管理,包括任務選擇和任務調度。該課題對國防科技(S&T)非常重要,因為它與現代相控陣雷達的大多數應用相關。它對當前的海軍雷達項目尤為重要,該項目探索了雷達波束控制的人工智能(AI)/機器學習(ML)方法。所提出的算法有可能升級未來的艦船雷達,從而做出更好的決策并提高性能。
目前的自動空中加油(AAR)工作利用機器視覺算法來估計接收飛機的姿勢。然而,這些算法取決于幾個條件,如精確的三維飛機模型的可用性;在沒有事先給出高質量信息的情況下,管道的準確性明顯下降。本文提出了一個深度學習架構,該架構基于立體圖像來估計物體的三維位置。研究了使用機器學習技術和神經網絡來直接回歸接收飛機的三維位置。提出了一個新的位置估計框架,該框架基于兩個立體圖像之間的差異,而不依賴于立體塊匹配算法。分析了其預測的速度和準確性,并證明了該架構在緩解各種視覺遮擋方面的有效性。
圖3:利用的坐標系統。紅軸代表X軸,綠軸代表Y軸,藍軸代表Z軸。所有顯示的箭頭表示該軸上的正方向。
管理整個戰場上不斷增長的數據量和速度是作戰人員的一個關鍵問題。解決這個問題將需要從根本上改變戰場分析的方式。一種在戰場上做出決策的新方法將通過將分析能力移至數據源附近來消除數據傳輸延遲。決策周期取決于捕捉數據并將其轉化為可操作信息的速度,以便進行決策。實時態勢感知是通過將計算資產定位在戰術邊緣來實現的。
加速戰術決策過程需要利用三個技術領域的能力:(1)高性能計算(HPC),(2)機器學習(ML),以及(3)物聯網(IoT)。利用這些領域可以減少網絡流量,縮短將數據轉化為可操作信息所需的時間。更快的決策周期可能會徹底改變戰場上的行動。
本報告概述了一個人工智能(AI)系統的設計,用于在戰術作戰環境中的近實時分析,在同地的移動HPC硬件上執行。該報告包括以下幾個部分:(1)描述動機、背景和技術狀況的介紹;(2)利用HPC問題定義和用例的戰術決策過程描述;(3)HPC戰術數據分析框架設計,使數據變成決策。
戰術邊緣人工智能(AI)的方法被細分為三個主要研究領域:(1)研究延伸到戰術邊緣的移動或便攜式高性能計算(HPC)環境的硬件和架構;(2)研究機器學習(ML)算法和物聯網(IoT)架構及其與便攜式HPC的一致性;以及(3)利用邊緣HPC為戰術決策過程設計操作工作流框架。
HPC邊緣架構: 這項工作包括調查在移動和/或便攜式HPC環境中提供和支持數據科學能力所需的最先進的硬件、軟件、網絡和存儲。
ML邊緣分析: 機器學習已經通過尋找和分析大數據集的潛在特征的能力改變了數據分析。我們能否徹底改變戰場上的數據分析方式,然后建立讓ERDC解決這一類新問題的能力?
邊緣HPC:這項工作旨在將擬議的硬件能力創新與創新的分析能力結合起來,以最優化和最恰當的方式在戰術邊緣提供計算密集的決策支持分析。處理這項任務的方法將是在解決作戰需求的同時暴露出一個作戰過程。換句話說,當團隊直接為現實世界的戰場數據處理需求建立戰術邊緣分析時,為實現戰術邊緣分析所經歷的操作流程將開始定義一個可推廣的操作流程,以利用邊緣的HPC解決戰術決策分析問題。
技術創新(AI)在各行業和各國的快速發展和擴散性質正在削弱美國對國防技術應用的壟斷。獲得的優勢是暫時的,因為近似的對手能夠迅速利用這些日益普遍的能力。中國制定了一項發展計劃,到2030年成為人工智能的世界領導者,并創造一個1500億美元的產業。俄羅斯總統弗拉基米爾-普京表示,"誰成為這個領域(人工智能)的領導者,誰就會成為世界的統治者"(Gigova 2017)。美國防部(DoD)必須迅速而果斷地利用人工智能和自動化,使美國部隊能夠更有效和高效地運作。通過以戰略為重點的意圖和工作,適當地加以利用,人工智能可以成為最大的補償--或者說,如果缺乏遠見和方向,它可能會成為一個戰略赤字。
人工智能已經成為每一類企業的解決方案和問題的一個日益增長的來源。基于人工智能的技術已經融入如此多的部門,往往引起巨大的變化,從軍事或全球安全的角度來看,它不能被忽視。
潛在軍事應用的早期AI問題(通過全球安全集團的視角):
1.在近期內,人工智能的哪些軍事應用是可能的?
2.在這些應用中,哪些是對戰略威懾的穩定性有潛在影響的?人工智能是否會改變我們考慮威懾的方式?
3.人工智能輔助的軍事系統如何影響區域穩定?
4.區域穩定和戰略威懾之間有什么聯系?
5.人工智能帶來的意外后果和戰略意外的風險是什么?
目前國防界對什么是人工智能缺乏共同的模式、術語和基線。人工智能有許多應用和方法,但其中最大和最廣泛使用的是以一種形式提供價值的方式分析 "大數據"。狹義人工智能使用離散的問題解決工具來執行特定的狹義任務。通用人工智能包括旨在模仿和重現人腦功能的技術。狹義的人工智能有更多的采用,并被證明在各種領域提供價值。人工智能與商業應用的交叉,使數據豐富的領域有了預測分析的能力。大量的傳感器和相機,加上現有的以數據為中心的資源,正在推動人工智能的機會,以揭示隱藏的洞察力。
人工智能顯然有潛在的軍事潛力,但要到什么時候才能在實踐中真正顯現出來?美國防部在2018年6月建立了一個聯合人工智能中心,導致資金和研究的增加。與工業/學術界人工智能應用直接類似的軍事應用(物流、規劃、分析、運輸等)已經在整個國防和情報界迅速采用了人工智能支持的數據分析。戰爭有單獨的和不同的應用,對人工智能的采用較慢。適用于戰爭的人工智能應用的主要類別是:(1)那些主要在戰爭的戰役層面產生影響的應用;(2)那些主要在戰爭的戰略層面產生影響的應用。"在戰爭的戰役層面上的人工智能應用可能對使用通用軍事力量來實現戰術目標產生非常大的影響,從而對常規威懾的可信度產生影響。人工智能在戰略層面的應用可能會對有關戰爭規模和范圍、升級和降級的政治決策產生重大影響,進而影響戰略穩定和威懾"(Davis 2019)。
美國防部戰略的一個關鍵重點是確定關鍵的探路者,使該部能夠實現其人工智能的愿景:
繼續開展被稱為 "Maven項目 "的算法戰爭跨職能小組(AWCFT)的工作,以迅速整合和部署商業和政府開發的人工智能能力,支持反ISIS運動。
建立一個以國防部人工智能為重點的中心,在國防企業的多個領域創新和部署人工智能系統的操作原型,并確定將人工智能技術持續應用于各種用例的途徑。
在戰術邊緣提供世界級的計算能力。國防部將重新獲得嵌入式HPC的競爭優勢,以支持 "算法戰爭",重點是在運輸集裝箱中的前線部署HPC,以支持戰地戰術行動。設計利用世界一流的高功率架構來融合數以萬計的信息源。
美國國防部的人工智能目標是:
為人工智能建立跨領域的基礎。美國防部將加強跨領域的基礎,并制定法律和政策框架,以確保其能夠成功應用人工智能。它必須強調其開發的系統的互操作性,同時確保其部署的安全和保障。此外,它必須最大限度地追求國際、商業和學術伙伴關系,同時增長和培養自己的有能力的人工智能勞動力。
實現軍事技術的優勢。美國防部將集中投資并利用商業和學術投資,以便在關鍵領域實現對對手的軍事技術優勢,包括核心人工智能、機器學習、機器人、數據分析、高級計算和人類-人工智能協作。
轉變美國防部的關鍵業務職能。美國防部將通過大量利用商業AI/ML產品和投資來實現其業務運作的現代化和簡化。
建立、部署和維護基于AL/ML的能力,提供戰場上的軍事優勢。為了提高殺傷力,美國防部將投資于應用能力的開發,將新興技術與特定的軍事能力和行動概念聯系起來,快速過渡能力,并專注于關鍵的應用領域。
已經確定的(目前正在研究的)三個潛在應用的作戰目標:
無所不在和無所不知的自主車輛
高度重視人工智能的軍事應用
專注于所有級別的無人系統(陸、海、空)。
進行復雜的戰役戰術,快速調整,報告變化
大數據驅動的M&S和兵棋推演
人工智能已經在核武器系統中得到了一些應用。
對人工智能的兵棋推演方法的興趣增加,以探索和了解動態條件如何影響結果和決策。
集中的情報收集和分析
已經為戰略目標確定了四個潛在的應用(目前正在研究):
實現情報、監視和偵察(ISR)的系統體系
戰略資產的精確瞄準
有效的導彈防御
人工智能引導的網絡
這些都直接影響了戰爭的速度。"戰爭的速度已經改變,而這些變化的性質使得全球安全環境更加不可預測、危險和無情。決策空間已經崩潰,因此程序必須適應戰爭速度的發展"(Garamone 2017)。有人說,"軍隊必須最大限度地利用其決策空間,所以軍事領導人可以以戰爭的速度提出選擇"(Garamone 2017)。這可以通過 "建立一個框架,使高級領導人能夠及時做出決定"(Garamone 2017)來實現。
人工智能是實現迎戰戰爭速度變化這一總體目標的關鍵一環(圖1)。人工智能為指揮官提供了對態勢理解,并為高效和有效地處理、利用和傳播信息打開了大門,其速度是人類無法比擬的。人工智能使系統能夠學習和適應,加快作戰節奏,使士兵更聰明,并能自主操作。戰場系統需要有彈性,能夠適應不斷變化的情況。信息的增長已經超過了人類快速分析信息并將其應用于決策過程的能力。士兵和機器作為一個綜合認知系統工作,能夠大大擴展數據分析的深度和廣度。機器專注于分析低層次的細節,讓士兵將注意力集中在更高層次的戰略和規劃上。
人工智能對威懾和穩定有多種潛在影響。它也有很大的潛力通過增加感知到的突襲風險來侵蝕穩定。歪曲的數據可能導致人工智能系統采取意想不到的行動。人工智能確實會犯錯,但這些錯誤不能導致戰略不穩定或不必要的升級。人工智能的速度可能會意外地加速一些可以通過其他努力來降級的事情。當被賦予與外國和友好平臺有關的不同參數時,它也可能誤報意圖。人工智能只是跟上戰爭速度的大拼圖中的一塊。
定義邊緣
邊緣的定義是相對于事業內部的位置而言的。例如,移動網絡運營商(MNOs)認為邊緣是其無線接入網絡(RAN)的末端,是多接入邊緣計算(MEC)的一個大機會。數據中心服務提供商可能將邊緣視為部署在關鍵位置的基礎設施,以盡量減少通信延遲。HPC和邊緣服務器供應商將遠程站點的設備視為其邊緣。數據處理要求的范圍可以從邊緣的超低延遲和實時延遲,到 "近邊緣 "的中等延遲和本地數據處理,再到集中式數據中心的高延遲和高容量存儲和網絡。
人工智能邊緣計算將通過把計算帶到數據上而不是把數據移到這些強大的計算機資源上來減少網絡流量需求。這將減少從數據到決策所需的時間(圖2)。邊緣計算在將計算資源移至數據源附近時,利用了更小、更強大的設備,從而減少了網絡流量,使計算資源更接近前線(圖3)。它將分析數據所需的計算匯集到數據源;數據到決策(D2D)的時間減少了,從數據中提取的見解和信息被高度壓縮并更容易分享,更多的計算能力可以在更小的設備中得到。傳統的方法是在低層(戰術邊緣)收集數據,并將數據傳輸到高層進行處理和分析。這種方法的結果是隨著數據源的不斷增加而出現了擴展問題。它通過傳輸未處理的數據給網絡帶來了負擔。數據傳輸成為一個主要的瓶頸,影響了戰場的節奏。
目標
一個有效的指揮和控制(C2)系統必須為用戶提供作戰畫面,支持規劃過程,并能接收、處理和傳輸信息。
這項工作的目的是研究人工智能和HPC一起工作,以推進關鍵的軍事能力,如態勢感知(圖4)。邊緣的HPC加人工智能提供了對本地數據的近乎實時的利用,支持高度的自主性,計算資產被移到離數據源更近的地方,增加了數據分析的深度和廣度,減少了做決定的時間,洞察力為決策提供了依據。
本報告分為六章:
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。