摘要

軍事決策在不同的領域--陸地、海洋、空中、太空和網絡--以及不同的組織層面--戰略、作戰、戰術和技術上發揮著關鍵作用。建模和仿真被認為是支持軍事決策的一個重要工具，例如，生成和評估潛在的行動方案。為了成功地應用和接受這些技術，人們需要考慮到整個決策 "系統"，包括決策過程和做出決策的指揮官或操作員。

人工智能技術可以以各種方式改善這個決策系統。例如，人工智能技術被用來從（大）數據流中提取觀察結果，自動建立（物理/人類/信息）地形模型，產生對未來事件和行動方案的預測，分析這些預測，向人類決策者解釋結果，并建立人類決策者的用戶模型。

對于所有這些應用，人工智能技術可以在不同的情況下被使用，并且已經開始被使用，因此有不同的要求。在本文中，我們概述了人工智能技術和模擬在決策"系統"中的不同作用，目的是在我們的社區中促進對人工智能的綜合看法，并為用于軍事決策的各種人工智能研發奠定基礎。

1.0 引言

軍事決策有多種形式。它發生在不同的領域--陸地、海洋、空中、太空、網絡--以及不同的組織層次[7]。例如，在戰略層面上，決策是否以及何時在一個特定的作戰區域內開始一項軍事任務。在作戰層面上，聯合部隊指揮官決定為某項行動分配哪些軍事要素，并指定在具體行動中尋求的預期效果。在戰術層面上，例如，海上任務組的反空戰指揮官決定由哪艘護衛艦來應對來襲的威脅。最后，在技術層面上，要決定在什么范圍內使用什么武器來消滅對手。

建模和仿真被認為是支持這些現場決策過程的一個重要工具（例如，見[3]的清單）。它提供了一種理解復雜環境和評估潛在行動方案有效性的手段，而不必使用現場測試。因此，借助于建模和模擬可以更安全、更便宜、更快速，而且可以更容易地測試不同的操作方式。此外，對于戰場上的軍事行動來說，廣泛地試驗軍事行動應該如何進行，甚至可能在道德上不負責任。因為，在指揮官可以決定不繼續按照同樣的戰術行動之前，就已經產生了意想不到的效果。

現代建模和仿真經常得到人工智能（AI）技術的支持。例如，用于仿真單個節點、組織和社會行為模型（見一些背景資料[13][4]），以獲得對對手合理和可能行為的洞察力。在這種行為洞察力的基礎上，可以為許多決策層面的軍事行動設計提供智能分析和決策支持。此外，人工智能技術被用來構建這些模型，與這些模型互動，并迅速分析大量的模擬結果數據。這里的技術進步非常多，例如，使用機器學習來構建更真實的行為模型[11]，改善人機協作[5]，對大量的模擬數據進行理解[10]。然而，人工智能技術只有在對決策者有用的情況下才能也應該被用于軍事決策。這意味著，只有在決策質量提高或決策過程變得更容易的情況下，才應將人工智能技術（在建模和仿真中）整合起來。

成功應用和接受用于決策支持的模擬仿真--可能建立在人工智能技術之上--取決于與主要軍事決策過程的互動和不斷學習（[1]）。決策者和分析員應該知道如何提出正確的輸入問題，以便通過建模和仿真來回答。然后，這些問題應該通過建模和仿真研究轉化為正確的輸出答案。因此，在各種互補的人工智能技術的支持下，應該對軍事決策過程和軍事模擬之間的互動有一個廣泛、全面的看法，并服從不同的功能要求。在本文中，我們概述了由人工智能技術支持的軍事仿真在決策"系統"中的不同作用，目的是在我們的社區內促進對人工智能的綜合看法，并為軍事決策的各種人工智能研發奠定基礎。

2.0 基于仿真的軍事決策

如引言所述，決策發生在不同的領域和不同的組織層面。在這里，我們提出了一個決策系統的示意圖，以提供一個關于如何通過仿真來支持決策的一般見解。這一觀點（圖1）來自于對多個決策過程的分析，如聯合定位[5]、作戰計劃[7]、海上反空戰[1]，并與著名的OODA環[8]相結合。該觀點中的元素解釋如下。

圖1：由建模和仿真支持的軍事決策周期的系統觀點。

觀察：OODA循環的第一步是觀察，從廣義上講，就是觀察現實世界中正在發展和出現的事件和情況。觀察包括，例如，來自傳感器的（原始）數據，包括我們自己的眼睛和耳朵，以及來自報告、報紙和社會媒體的符號數據。還收集了來自高層指揮和控制實體的指導意見。這些數據由分析員處理，對鏡頭中的個體進行命名，計算某些Twitter標簽的出現次數，驗證某個事件是否真的發生，等等。根據[9]，這可以被稱為情境意識的第一級：對當前情況下的元素的感知。

世界模型：在OODA環的觀察步驟中，已經開始了構建世界模型的過程，無論是隱性的還是顯性的。符合軍事決策觀點的世界模型的另一個名稱是共同行動圖。所有相關的概念都在世界模型中得到體現，包括不確定因素和假設。請注意，世界模型可以被仿真，即個體、平臺、團體或社會的行為可以隨著時間的推移而被預測，即使是在用戶的頭腦中隱含完成。

定位：在OODA循環的第二步，分析者使用他的專業知識，對觀察結果進行推理，形成假設，例如對手的意圖。通過這樣做，實現了對真實世界的深入理解[12]，這反映在世界模型中（仍然是顯性或隱性的）。在態勢感知方面，這被稱為第2級（對當前形勢的理解）和態勢感知能力第3級（對未來狀態的預測）。在任何時候，推理的結果可能是世界模型結構是不充分的，例如，現實世界的一個方面被認為是不相關的，但最后發現是相關的。因此，世界模型需要被更新。

決定：決策者，可能是與分析員相同的人，將根據對現實世界的理解，考慮如何采取行動的選項。世界模型的預測能力被用來演繹各種情景，讓人了解什么是理想的行動方案，什么不是，或者讓人了解空間和/或時間上的關鍵點，這樣就可以對這些關鍵點給予額外考慮。當然，如果世界模型是隱含的，這都是決策者的精神努力。此外，對于感興趣的現實世界系統的預測行為，可以得出的結論的精確性和/或確定性有很大不同：從精確的路線，到可能的戰略和理論的廣泛指示。

行動：在OODA-環的這一步，行動被執行。這些行動發生在真實世界中，然后一個新的OODA-環開始觀察是否需要重新考慮已經做出的決定。另一個行動可以是向 "較低層次"的決策過程下達命令，例如，讓下屬單位計劃和執行他們所得到的任務。這就是不同組織層次的決策過程的互動方式。還要注意的是，盡管每個組織層面的世界模型都與真實世界相聯系，但這些世界模型的結構（即被認為是相關的）可能是不同的。

從概念上講，在上述的決策過程中引入模擬（實際上首先是建模的巨大努力）是很直接的。在第一步和第二步中，建立了世界相關部分的模型，在以后的時間里，它被用來評估許多不同的情景，分析由此產生的結果，并根據其結論做出決定。正如后面將顯示的那樣，人工智能技術的作用與建模和模擬的使用有很大關系。

雖然從概念上來說，納入仿真模擬和人工智能技術是很簡單的，但為了給行動提供真正的附加值，它需要被嵌入到具體的決策過程中。而每個決策過程都是不同的，有不同的時間限制，不同的行動者，在不同的操作環境中。這將對開發使用的解決方案，包括人工智能技術，提出不同的功能要求。此外，根據具體的作戰決策環境，應用人工智能技術的附加值（或缺乏附加值）將是不同的。在下一節中，我們將對一個具體的案例進行進一步的探索，盡管肯定不是詳盡的努力，以允許對這種系統在這個過程中可能具有的不同角色進行更通用的識別。

3.0 案例研究：聯合目標定位周期

本節提供了一個關于如何利用仿真和人工智能技術來支持作戰層面上的（蓄意）聯合目標定位決策的案例研究。對于每個想法，都有以下描述：被加強的行為者（決策者）和/或產品，人工智能如何提供支持，以及使用這種形式的支持的附加值是什么。請注意，這個案例研究的目的是為了更好地了解人工智能技術應用的廣度，因此，目標不是完全涵蓋所有的可能性，也不是過于詳細。這種類型的案例研究已經確保了可以得出初步的功能要求，人工智能技術和智能建模與仿真應該應用于此。

圖2顯示了北約盟國聯合出版物3.9中的聯合瞄準決策周期，其中強調了五個想法。

圖2--來自北約盟國聯合出版物3.9的聯合目標定位周期，JFC=聯合部隊指揮官，JTCB=聯合瞄準協調委員會，JTL=聯合瞄準清單，TNL=目標

想法1--基于AI的目標系統分析的所有來源分析。第一個想法是支持目標小組的成員在聯合目標定位周期的第二階段參與目標系統分析，進行目標開發。例如，假設從第一階段開始，就打算通過瞄準對手的石油生產來擾亂其資金能力。在第二階段，分析人員將研究石油生產的目標系統，以確定油井、煉油廠、管道、重要的道路，也許還有相關的關鍵人物，等等，基于他們擁有的所有來源（圖像、信號情報、人類情報，等等）。

人工智能技術可以協助人類分析員建立 "目標系統模型"，即通過采用模式識別算法來處理大量的所有來源的信息，通過使用推理算法將信息碎片組合成一個結構化和連貫的整體。分析傳入信息的算法可能--經過增量的人工智能驅動的創新--也能夠識別尚未反映在目標系統模型中的新概念，然后可以自動添加到模型中。另一種可能性是創建一個 "虛擬分析師"（見圖3），通過不斷挑戰假設、假說和人類偏見來協助人類分析師，這需要額外的用戶建模和可解釋的AI技術。

圖3：人類和虛擬分析員，一起解釋數據，推理信息和知識，以建立一個目標系統模型。

這個想法的潛在附加值首先體現在完整性上，更多的目標可以呈現給人類分析員--它仍然可以為交叉檢查的目的做最后一步的目標審查。因為所有來源的情報都被整合到目標識別決策中，所以可以得出更具體的目標信息。識別算法經過訓練后，與基于人眼從數據中識別目標時相比，可以更快更及時地進行識別。最后，該算法可以明確地轉向識別不同類型的目標，這些目標可能并不都在人類分析員的經驗或觀察能力范圍內。

想法2--通過算法識別來自目標系統分析的優先目標。第二個想法是支持從一個給定的目標系統分析中識別優先目標。這有助于目標支持小組成員得出一個聯合的優先目標清單，該清單是在聯合目標定位周期的第二階段，即目標開發階段制定的。人工智能技術的支持始于將目標系統分析（如果還沒有的話）轉化為計算機可理解的形式，該形式由功能關系連接的實體組成，并由目標任務的目標支持。然后，在相關的時間范圍內計算直接或間接瞄準不同實體所產生的效用（例如，效果和效果的持續時間）。

然后，最終結果可以由人類分析員檢查，該分析員可能會重新引導算法的某些部分，以確保最終結果選擇的優先目標盡可能地滿足和平衡任務目標。另一種可能性是，分析表明，對目標系統的某些部分還沒有足夠的了解，無法做出某種決定，然后發出新的情報請求，以減少這種不確定性。

在這種情況下，使用人工智能技術的附加價值首先體現在通過完整地確定優先事項，包括最大限度地實現任務目標，同時最大限度地減少負面問題，從而更好更快地確定優先次序。這種全面的分析可能會導致原始的目標選擇，在這種情況下，會發現反直覺但非常有效的目標。目標優先級的可追溯性增加了，因為目標選擇問題的算法規范以及積極和消極的相關功能迫使決策者在激發他們的偏好時完全明確。

想法3--能力和優先目標的自動映射。與目標開發（第二階段）密切相關的是第三階段的能力分析。第三個想法是協助，仍然支持目標支持小組的成員，找到最適當的（致命和非致命）能力的最佳同步組合，可以應用于產生所需的物理和心理效果。使用模擬和人工智能技術來自動生成和播放高水平和低水平的行動方案，可以獲得對計劃的優勢、機會、弱點和威脅的深刻理解。當然，只有在與人類分析員和決策者密切合作的情況下，建立這樣的理解才是有用的，這就需要有人類意識的 "虛擬分析員 "技術。

想法4--計算機輔助的穩健和適應性部隊規劃和分配。在聯合定位的第四階段，能力分析的結果被整合到進一步的行動考慮中，推動聯合部隊指揮官對目標的最終批準。仿真和人工智能優化技術可用于尋找稀缺資源對目標或其他任務的最佳分配。什么被認為是 "最好的 "可以是不同的，例如，爭取最大的效果、安全、穩健、靈活，或這些和更多因素的任何組合。這可能會提供原始的規劃和分配方案，從人類分析者的角度來看，這些方案部分是反直覺的，但卻富有成效。智能優化算法可以幫助確定時間和/或空間上值得監測的關鍵點。而且，如果可以實時跟蹤進展，在事件或機會實際發生之前就可以立即生成重新分配方案，在時間緊迫的情況下減少決策時間。

想法5--自動評估軍事行動績效措施。在聯合定位的最后階段，收集和分析數據和信息，以確定計劃的行動在多大程度上得到執行（績效的衡量），以及達到預期的效果（效果的衡量）。因為這種類型的分析與其他階段的分析基本相似（即需要觀察和理解），所以在這里采用的模擬和人工智能技術可以被重復使用。例如，"目標系統模型"可以用來事先確定哪些措施或措施的組合最能說明性能和/或成功，也許還要考慮到其他因素，如效果的可測量性和延遲性。這些見解可用于指導例如戰斗損失評估工作。算法可以自動產生多種假設，當數據/信息可用時，"虛擬分析師"可以協助對這些假設和信息進行推理，幫助人類分析師以結構化的方式更好地解釋復雜的情況。

4.0 討論：人工智能在軍事決策中的作用

在本節中，我們將討論人工智能技術在軍事決策中可以發揮的作用，并將這些作用與前面介紹的軍事決策系統聯系起來。這些作用是由上面的案例研究綜合而成的。不同的作用是沿著兩個層次結構的，從上到下：在 "過程"層面，不同但連貫的步驟/階段被執行；在 "個體"層面，人類（或團隊）負責執行決策過程的特定步驟。

在整個決策過程的層面上，有多個步驟可以區分。在前面介紹的決策系統觀點中，這些步驟是觀察、定位、決定和行動。在聯合定位案例研究中，這些對應于六個階段，由不同的人在不同的時間執行。在這個層面上，我們為人工智能技術定義了四個功能角色，以支持決策過程。

感知：這個角色中的人工智能技術，主要以模式識別的形式，幫助處理大量的數據，如在圖像中尋找人，檢測數據流中的異常情況等。
態勢理解：這個角色的功能是實現對當前或假設的作戰環境的理解[12]，從而描述所有相關實體、它們之間的關系以及不可觀察的屬性，如它們的野心和目標。例如，對關于最近敵對活動的現有信息進行推理，結合關于他們的理論的一般知識，可以用來產生關于他們最可能的意圖的假設。
計劃生成：在這個角色中，人工智能技術，例如搜索和優化，被用來生成旨在達到（或避免）某種目標情況的計劃、策略和行動方案。處理元標準，如計劃的穩健性或情況的實用性也是這個作用的一部分。顯然，在許多情況下，不確定性是行動環境所固有的，因此不能被忽視。盡管如此，對當前形勢的理解越好，預測能力就越強。
學習：扮演這一角色的人工智能技術被用來更新有關作戰環境的知識。例如，在某個時間點，人們可能會發現一個被認為是正確的關于敵人理論的假設不再有效了。為了能夠保持正確的理解，這種新知識應該反映在所有其他決策步驟中。

在單個節點層面上，決策過程的單一步驟被執行，通常由一個或一組人類分析員和/或決策者負責。無論這一步需要什么，人工智能技術都可以在不同的合作角色中被使用，以支持人類。

專家系統支持：在這個角色中，支持的形式就像一個經典的專家系統，以知識和優化結果的形式向人類決策者或分析員提供建議。重要的考慮因素是，例如，如何以人類能夠接受的方式向其提供建議。對可解釋人工智能的研究可能是一個方向。
虛擬團隊成員：在這個角色中，人工智能技術被用來在人類和支持系統之間創造一種更平等的互動關系，積極為一個共同的目標工作。例如，虛擬團隊成員可以通過提出問題使假設明確化或挑戰偏見來幫助做出決定的（認知）過程。人類-人工智能的研究可能是一個追求的方向。
自主決策：決策過程中的其他步驟的互動，專家系統和虛擬團隊成員支持的考慮同樣有效。例如，在其他決策中的人類需要能夠推斷出一個自主系統。

圖4顯示了在軍事決策系統視圖中繪制的人工智能的七個角色。當使用模擬和人工智能來支持決策過程時，應該始終考慮這些不同的角色是如何互動的，無論是在過程層面還是在個人層面。例如，在聯合目標定位的過程層面上，第二階段包括定位（目標系統分析）和決定（為達到預期效果而瞄準什么）。第三階段也包括定位（自身能力）和決定（如何實現預期效果）。這些階段共享相同的世界模型，在這個過程中引入人工智能支持將推動這些步驟的合并，這不是不可想象的。在個體層面上，例如再次考慮第2階段，分析員可以得到綜合態勢理解、規劃生成和學習技術的支持，以及虛擬團隊成員和專家系統支持技術的任何組合。

圖4：由建模和仿真支持的軍事決策周期的系統視圖，其中人工智能技術的功能（黃色）和協作（綠色）作用被描繪出來。

5.0 結論和進一步研究

在本文的第一部分，我們介紹了軍事決策的系統觀點，主要基于OODA循環，其中我們介紹了世界模型，作為向整個決策周期提供建模和仿真支持的核心手段。接下來，從我們的聯合目標定位案例研究中，我們推斷出人工智能可以為軍事決策做出貢獻的七個功能性和協作性角色。這些角色對應于決策步驟，或者對應于如何向負責該過程步驟的人提供支持。最后，我們將這些人工智能角色整合到決策系統視圖中。

本文的目標是為我們社區內人工智能的綜合觀點做出貢獻，并為軍事決策的人工智能各種研發奠定基礎。在開發支持軍事決策的模擬和人工智能時，我們建議同時考慮過程層面和單個節點層面。在過程層面上，通過使用建模和仿真可以獲得好處。在單個節點層面上，為人類分析員和決策者提供實際支持，人工智能技術可以通過不同的角色組合對此作出貢獻。鑒于決策過程的各個步驟都是不同的，并且提出了不同的要求，履行這些不同角色的人工智能技術需要作為一個整體來開發。

我們相信，隨著對這一主題的更多研究，軍事決策的速度和質量都可以得到改善。然而，非常重要的是，要持續關注特定的未來人工智能應用的附加值，以及研究這些應用可能對，例如，負責該過程的人的所需技能，甚至該過程本身的影響。最后需要的是一個系統，它的存在是因為它可以建立，而不是有人幫助。對于這一點，應該更普遍地回答如何限定然后量化應用人工智能進行具體軍事決策應用的附加價值的問題。這樣的見解反過來又會成為關于人工智能用于軍事決策的集體技術路線圖的寶貴基礎。

6.0 參考文獻

[1] Bloemen, A., Kerbusch, P., van der Wiel, W., Coalition Force Engagement Coordination, TNO Report TNO-2013-R12117, 2015.

[2] Connable B, Perry W, Doll A, et al. Modeling, Simulation, and Operations Analysis in Afghanistan and Iraq. Santa Monica, CA: RAND, 2014.

[3] Davis P., Kulick J., Egner M. Implications of Modern Decision Science for Military Decision-Support Systems. Santa Monica, CA: RAND, 2005.

[4] Kunc, M., Malpass, J., White, L.(2016). Behavioral Operational Research, Theory, Methodology and Practice. Palgrave Macmillan, London.

[5] Langley, P., Meadows, B., Sridharan, M., Choi, D. (2017). Explainable Agency for Intelligent Autonomous Systems. Proceedings of the Twenty-Ninth AAAI Conference on Innovative Applications (IAAI-17).

[6] NATO Allied Joint Doctrine For Joint Targeting AJP 3.9(B), 2015.

[7] NATO Allied Command Operations. Comprehensive Operations Planning Directive Interim V2.0.

[8] “OODA loop.” Wikipedia, The Free Encyclopedia. 10 Mar. 2018.//en.wikipedia.org/wiki/OODA_loop

[9] “Situation Awareness.” Wikipedia, The Free Encyclopedia. 17 Mar. 2018.

[10] Smit, S., Veldhuis, G., Ferdinandus,G., et al. KaV Advanced Visual Analytics, TNO Report DHWELSS-, 2016.

[11] Toubman, A., Poppinga, G., Roessingh, J. (2015). Modeling CGF Behaviour with Machine Learning Techniques: Requirements and Future Directions. Proceedings of Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2015.

[12] “Understanding.” Wikipedia, The Free Encyclopedia. 18 Apr. 2018.

[13] Zacharias, G., MacMillan, J., van Hemel, S. (2008). Behavioral modeling and simulation: From individuals to societies. National Research Council, National Academies Press.

付費5元查看完整內容

報告研究范圍與關注領域

1.1 范圍

近年來，所謂的 "顛覆性技術 "發展迅速，如人工智能（AI）、機器學習（ML）、大量數據的管理和處理（數據科學和大數據分析-BD）以及沉浸式技術（VR / AR / MR / XR）。

北約STO內部的各個小組/團體已經研究了這些新技術提供的可能性；特別是，NMSG工作組對研究新的架構和仿真系統的服務非常感興趣，這些系統將用于軍事訓練和決策領域的未來應用。北約MSG-189專家小組（ST）已經接受了這一挑戰，并進行了一項研究，以確定這樣一個仿真框架。

首先，讓我們看一下要追求的目標，這些目標最初列在技術活動建議TAP[1]中，然后列在One Pager文件[2]中：

概述每一種使能技術（AI、BD、XR等）的技術狀況，旨在確定每一種技術在確定擬議的未來培訓和決策支持的模擬框架方面可以發揮的作用。
指出培訓和決策軍事領域的差距，提出的技術可以提供有價值和可行的解決方案。
定義仿真框架的系統要求。
框架結構的定義。
對可能用于實施框架的軟件工具和硬件環境的調查。
主要功能的定義。
定義與其他系統的接口（例如C2和決策面板）。

定義一個模擬系統，使所有上述概念以整體的方式存在，這個想法當然具有挑戰性，而且在許多方面，超出了專家組的目標（和可能性）。

因此，工作組的首要任務是以更精確的方式確定工作范圍，并指出工作組研究活動的領域。這方面最重要的成果是定義一個 "參考架構"，在此基礎上建立MSG-189生態系統（后來經常被簡單地稱為系統）。這是一個抽象的架構形式，為未來的具體解決方案架構（項目架構）提供了一個模板解決方案。

必須強調的是，該框架的參考架構的主要基礎是長期存在且非常重要的NMSG活動，如MSaaS（建模與仿真服務）和MTDS（任務訓練分布式仿真）。MSG-189 ST活動將在這些參考文獻的基礎上，尋找新的和創新的解決方案，以加強對M&S這樣的關鍵技術的使用。

一個 "安全 "的設計概念，密切關注基礎設施對網絡威脅的高彈性（設計安全），也被指出是一個需要滿足的具體要求。出于這個原因，這些信息已經在這第一章中提出。

1.2 關注領域

特別是，本章介紹了軍事訓練和決策的概念，強調了這種系統必須考慮到的網絡安全方面的重要性，然后定義了MSG-189 ST活動的利益量。對所指出的問題的深入研究以及將其納入參考架構將是以下各章的主題。

本章的第一部分致力于識別和描述與培訓有關的問題，旨在為所有在軍事組織中工作的專業人員提供必要和關鍵的活動，并支持指揮官、其工作人員和參與任務的人員的決策過程。

本章概述的另一個主題與網絡安全有關：將定義與安全有關架構的要求限定方面；所提供的信息必須是框架設計的基礎，并滲透到其所有功能中（設計安全）。

在本章的最后部分，描述了研究的興趣領域，定義了該領域的維度（行動、專業知識和生命周期），并對每個維度指出和描述了需要考慮的層次。

最后，我們定義了MSG-189 ST的研究活動將在其中進行的興趣范圍。

1.2.1 軍事訓練

軍事訓練對不同的人是明確的但又非常不同的。在軍事單位指揮官的層面上，它意味著鍛煉戰場上的部隊或海上的水手，使他們作為一個綜合、協調的單位運作。在軍事人員管理者的層面上，它意味著對包括廚師、馴犬員、坦克炮塔技術員、雷達技術員和戰斗機飛行員在內的所有職業專業的個人進行準備和認證。在主要軍事系統的開發者和提供者層面，它意味著在模擬器或系統本身上進行演習。對所有相關人員來說，它意味著讓來自平民社會的個人準備好作為專業軍事人員執行任務。

軍事訓練與其他形式的訓練不同，它強調的是紀律、臨場準備和集體訓練[3]。

從中世紀的奎因時代開始，無疑在此之前，仿真在進行軍事訓練和評估個人、船員、團隊和單位執行軍事行動的準備情況方面一直很突出。今天，仿真對于參加野外演習的疲憊不堪的士兵來說非常熟悉，對于在我們的戰爭學院里操縱計算機生成的部隊（CGF）橫掃廣闊的電子平原的指揮官來說也是如此。它得到了各種設備的支持，從塑料模型到筆記本電腦，再到比它們所模擬的飛機更昂貴的全動飛機模擬器[3]。

模型、仿真器和仿真之間的一些粗略區分是有用的[3]：

模型提供了輸入和輸出的基本表示。它們是控制和決定模擬器和仿真對用戶反應的引擎。
仿真器是設備。它們旨在向學生表現自然界中可能遇到的其他設備或現象，并被用來產生對自然界的模擬。
仿真是仿真器及其基礎模型的產物。因此，仿真是一組模型和/或模擬器，代表一個系統或一個環境的運行或特征。

隨著技術的發展，只要技術的價值能夠證明比目前的方法有改進，如成本、安全或速度，軍隊也會隨之采用。它必須不斷地具有前瞻性、創新性和積極性，既要了解戰爭是如何演變的，又要調整訓練以應對這些挑戰。

什么是訓練？

訓練是任何組織的基本活動之一；特別是，它一直是所有時代的軍隊所開展的行動取得成功的決定性因素之一。

擁有訓練有素的軍事人員對于能夠在現代戰爭的復雜情況下開展行動至關重要，這些情況需要反應技能和分析能力，只有受過訓練的人才能具備這些能力。

訓練的類型數不勝數，從特定主題的個人理論訓練到涉及數千人和車輛的大型戰區演習，在時間和空間上復雜而銜接的行動。

因此，世界上所有的軍隊在訓練中投入巨大的資源并不是巧合。訓練技術和程序的演變必須不可避免地跟隨威脅的演變，同時也要跟隨新作戰概念的發展。軍事資源訓練水平的不斷更新產生了著名的格言："邊訓練邊戰斗，邊戰斗邊訓練"。

美國軍方將訓練定義為 "為獲得和保持完成特定任務所需的知識、技能、能力和態度（KSAAs）而進行的教學和應用練習"[4]。

一般來說，軍事訓練分為兩大類：個人和集體。個人訓練正是旨在發展個人技能的訓練。集體訓練的目的是將受過訓練的個人整合成一個有凝聚力的有效團隊，不管這個團隊是四人的坦克車組還是5000人的航空母艦船員。

訓練的規模可以小到為一個四人小組上一小時的如何包扎傷口的課，大到包括來自各軍種的數萬名人員和單位的多周聯合演習。訓練的主要領域是：機構領域，包括各軍種的各種正規學校；行動領域，包括在部隊和艦艇上的訓練，無論是在原地、部署地還是航行中。

另一種類型的培訓是自我發展：它由個人進行，以解決他們在自己的學習中看到的差距，（從更廣泛的角度來看）可以被視為一種教育[4]。

仿真是培訓的基礎，構成了培訓的本質；以培訓為導向的仿真環境允許以安全、高效、經濟的方式培訓人員，并隨著時間的推移保持培訓水平，即使是發生概率極低的事件。因此，即使是模擬環境，也必須跟隨（有時是預測）技術和理論的演變，以最好地完成其任務。

1.2.2 指揮官與參謀員的決策

決策的定義和描述有很多，但基本上它是一個認知過程，通過這個過程從一系列合理的、潛在的選項中做出一些選擇。當然，目標是要從現有的備選方案中挑選出 "最佳 "方案。

決策中典型的復雜因素是不確定性；也就是說，備選方案的許多方面以及每個預期方案的確切結果可能是未知的、不明確的或不可預測的[5]。

從歷史上看，一個單位的成功與工作人員執行軍事決策過程的能力直接相關。鑒于當今作戰環境的復雜性增加，以及大量的任務指揮系統和程序，與作戰有關的所有活動的整合和同步越來越困難[6]。

自19世紀末以來，軍事參謀程序一直在演變，試圖定義一個達成決策的共同過程。雖然理論成功地提供了一個指導決策過程的系統，但它幾乎沒有解決在評估和選擇潛在行動方案中固有的不確定性。使情況更加復雜的是，今天人們幾乎可以無限地獲得大量的信息，這些信息可能需要也可能不需要應用于特定的決策情況。因此，雖然看起來信息越多越好，但事實上，擁有太多的數據會增加認知負擔，并可能導致忽略其他與當前特定情況更相關的信息。軍事情報分析過程面臨的挑戰是通過向指揮官提供及時、相關、可靠的信息來加強軍事決策[5]。

在下文中，我們描述了關于決策過程的不同理論，并展示了關于這些理論如何在軍事領域應用的兩個觀點。

關于決策過程的理論

描述了可以支持的關于（軍事）決策的相關理論。

觀點1：技術/任務導向（如MDMP、OPP等）。
觀點2：非技術/技能導向（例如，OODA、系統1和2、認知偏差）

理論方法 [7]

人們可以把這個領域的許多模式分為兩大潮流和方法。

理性哲學的潮流依靠邏輯作為其主要工具，即要求對優勢、劣勢、機會和風險進行分析評估，盡可能做到最好。理性派認為決策過程是一種邏輯分析，以確定行動的最佳選擇。
認知-心理的潮流依靠人類所有的認知過程--分析推理和基于直覺的思考。這股潮流認為決策過程是使軍事領導人意識到或突然洞察到所需的行動方法。工作中的工具是認知性的，旨在為 "靈光一現 "創造自然條件，同時避免人類推理的一般缺陷，特別是在壓力下的推理。到目前為止，這兩種趨勢都沒有完全建立在全面闡明的理論基礎上，但研究工作正在對兩者進行投資。

1.2.3 網絡安全

安全方面的問題應該從最初的設計階段就開始計劃和解決，因為一旦部署和實施，甚至剛剛開始，要解決安全問題（考慮所有的觀點和方面）就會困難得多。

此外，由于系統架構可能是基于分布式和分散的模式--面向服務的系統（即MSaaS），其執行將在分布式計算資源上提供，基于網絡/云中心環境--網絡安全方面必須得到仔細考慮。

在實施分布式模擬系統時，有許多問題需要考慮，包括但不限于網絡、端點安全、認證和訪問控制等主題。傳統的網絡安全要求和最佳實踐為確保數據的保密性、完整性和可用性而采取的措施提供了指導。僅列舉一些例子。

應該對訪問進行管理，以確保只有經過授權的客戶才能訪問或操作數據，管理權限應該最小化，管理賬戶應該只在需要時使用。
應定期檢查用于限制誰可以訪問服務器和保護傳輸信息的認證和加密技術，以確定必要的安全要求。
適當的安全管理實踐對于操作和維護一個安全的環境至關重要：安全實踐包括識別信息系統資產和制定、記錄和實施有助于確保系統資源的保密性、完整性和可用性的政策、標準、程序和指南。

為了確保系統和支持整個基礎設施的安全，以下做法是網絡安全 "按原樣 "實施的標準參考（例子）：

服務器和客戶端的加固。
配置/變更控制和管理。
風險評估和管理，以確定潛在的弱點和漏洞--（同時進行定期測試）。
對操作系統進行修補和升級。
對標準化的軟件配置進行測試和保障。
通信渠道的安全。
確定應急計劃和業務的連續性--措施。
實施安全監控解決方案（例如，日志管理、終端安全、網絡安全等）；以及
定義和實施安全軟件開發生命周期（SSDLC），以協調與創建軟件組件有關的所有過程。

總之，應通過配置、保護和分析日志文件和配置，經常備份關鍵信息，建立和遵循從破壞中恢復的程序，及時測試和應用補丁，并定期測試安全，來持續維護基礎設施的安全。

此外，由于日益增長的技術創新和可用的計算資源和算法，還將有更多的網絡安全方面需要考慮。

1.2.4 MSG-189 的效益

這個活動提案的精神恰恰在于提供一個環境，它是一個生態系統的一部分，跟隨用戶從他/她的職業生涯的開始到最大經驗的階段，而不需要不斷地 "學習"（新的和不同的）系統。這種學習的努力往往與IT工具的真正目標相反，它應該促進工作經驗。此外，如果你是一個有經驗的用戶，你仍然可以訪問較低層次的信息（例如，能夠刷新、修改、獲得特定資產的技術信息，等等）。

1.3 報告結構

本報告分為：

執行摘要，概述了ST的理由、處理的主要議題和在1年活動期間開展的活動以及由此產生的結論和建議。
報告的主體部分，提供：
- 描述了MSG-189 ST活動的范圍和興趣領域。
- 對可用于建立NMSG-189生態系統的顛覆性技術現狀的調查。
- 對與網絡安全技術有關的技術現狀的調查。
- 對軍事訓練和決策支持領域的潛在差距的分析。
- 收集需求（歷史的和新的）來定義新系統。
- 定義一個參考架構，系統將在此基礎上建立。
- 該系統提供的產品和服務清單；以及
縮略語表。
引用的文獻、報告、標準和網站的參考資料。

付費5元查看完整內容

AI與軍事 · 人機接口 · 北約 · 多域作戰 ·

2022 年 9 月 19 日

[付費5元查看完整內容]【飛行員-戰機】《人機接口：為未來驅動的接口設計制定基準》譯文，北約2022最新報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

1 簡介

最佳的飛行員-飛機互動一直被認為是實現有效操作性能的基石，同時在任務或使命中保持高水平的安全。隨著飛行任務越來越復雜，越來越多的信息到達機組成員手中。市場上有新的技術解決方案，任務中的表現是可以衡量的。當考慮到基于神經科學進步的人機互動時，就有可能衡量和評估任何人機接口（HMI）的有效性。為了支持空勤人員的表現，必須利用現有的創新，如數據融合或人工智能（AI）輔助決策和任務管理，以成功執行軍事任務。人工智能和大數據管理與機器學習相結合，是改善和運行現代作戰場景的關鍵因素。以網絡為中心的綜合武器系統為聯合部隊指揮官提供了靈活性，有助于當前和即將到來的聯合任務的成功。

在聯合行動中，當兩個或更多的國家使用所有可用的領域時，盡可能快速有效地利用所有的資產和能力，以獲得戰斗空間的最佳總體情況將是至關重要的。因此，解決和驗證為機組人員優化的下一代駕駛艙的創建是很重要的。先進的指揮和控制系統，為執行任務提供安全和可互操作的支持，將確保獲得一個綜合和同步的系統，并將實現戰場上的信息優勢。在未來，各級指揮官對戰場的可視化和理解方式，利用某些輔助手段來指導和引導他們的部隊，將成為勝利的決定因素。

2 行動背景

根據JAPCC在2021年發布的聯合全域作戰傳單，全域作戰包括 "快速處理數據和管理情報，以及實現高效作戰所需的技術能力和政策，包括所有貢獻的資產"。其他北約出版物使用術語多域作戰（MDO），主要描述任務環境的相同挑戰。找到一個連貫的、共同使用的術語是不斷發展的，但它不會改變HMI定義背后的含義。此外，重要的是開發一個連接的、復雜的接口，能夠協助指揮官和他們的下屬軍事人員同時和毫不拖延地分享信息，并迅速做出決定和采取行動。

正如Todd Prouty在他的一篇文章中所認識到的，"聯合全域指揮與控制（JADC2）正在形成，成為連接行動的指導性概念"，"將使用人工智能和機器學習，通過以機器速度收集、處理和計算大量的數據來連接聯合部隊"。兩種類型的態勢感知（SA）都同樣重要，因為它們不僅可能影響任務的成功完成，甚至還可能影響戰略層面的意圖。定義SA的最簡單方法是對周圍環境的徹底了解。戰術上的SA意味著機組人員知道這個場景，知道自己在任務中的任務和角色，以及所有參與同一行動區域的部隊。他們知道如何飛行任務，也知道成功或失敗的目的和后果。飛行SA主要關注的是飛行的性能和參數，空間和時間上的位置，以及飛機的性能。這兩個SA是不同的，需要在飛行過程中不斷監測。通常情況下，兩者在任務的不同階段需要不同程度的關注，如果有能力的話，可以由機組成員共享。一些技術上的改進可以只提高一個SA，但最好是同時提高兩個SA，以滿足要求并提高整體SA。這些發展也必須支持戰略層面的意圖，并提供其在決策過程中需要的SA。

現代機體和駕駛艙應支持機組人員的機載工作量，戰斗飛行員需要這種支持以保持有效。這可以通過人工智能自動管理，使機組人員能夠將更多的精力放在他們的任務和使命上。可以說，用算法來增強機體的基本需要，以補充機組人員處理飛行期間增加的信息流的能力。

在開展行動期間，預計情況可能會迅速變化，指揮官必須立即采取行動，重新安排部隊的任務。在地面或飛行中，飛行員可能會在短時間內收到一個新的任務。這個新命令不應該被格式化為純粹的基本信息；當整個更新包也能被可視化時，支持將是最佳的。一個例子是數字移動地圖系統，它描述了關于友軍和敵軍的詳細信息，包括協調信息。當飛行員改變飛行計劃時，駕駛艙及其所有設置都將自動更新。正如《國防雜志》所指出的，"從無限的資源中收集、融合和分析數據，并將其轉化為可操作的情報傳遞到戰術邊緣的能力，需要前所未有的移動處理能力"。為了符合這些要求，推動下一代人機接口的整合應該在所有現代駕駛艙中實現標準化。

HMI-Cockpit的演變。左至右：Ramon Berk, Comando Aviazione dell'Eercito, Leonardo

3 優化民用飛機的人機接口

值得注意的是，最近飛機駕駛艙的技術發展已經出現了巨大的轉變。在短短幾年內，駕駛艙已經從帶有模擬象限的 "經典飛行甲板 "過渡到現代的 "玻璃駕駛艙"，其中經典的儀表通過復雜的多功能顯示器呈現。大多數信息在儀表、飛行管理系統和自動駕駛功能之間是相互聯系的。在現代駕駛艙中，傳統的 "旋鈕和表盤 "已經被拋棄，取而代之的是電子可重新配置的顯示器和多功能可重新配置的控制，即所謂的 "軟鍵"。

傳統上，駕駛艙設計和信息顯示方式的發展是由安全和性能提升驅動的，而現在似乎更多的是由效率和競爭力標準驅動。5例如，在全狀態操作和創新駕駛艙基礎設施（ALICIA）項目中，來自14個國家的41個合作伙伴正在合作進行研究和開發活動，旨在實現一個能夠提供全狀態操作的駕駛艙系統。考慮到在不久的將來商業航班數量的增加，該項目旨在通過使用新的操作概念和駕駛艙設計來實現更高水平的效率和競爭力。

ALICIA承諾新的解決方案能夠為機組人員提供更大的SA，同時減少機組人員的工作量并提高整個飛機的安全性。這是對HMI概念的徹底反思，尋求技術的整體整合。在設想的概念中，ALICIA利用多模態輸入/輸出設備，提供一個集成在增強的機組接口中的全條件操作應用程序。

4 優化軍用飛機的人機接口

改進軍用飛機的人機接口是一項更為復雜的任務。與商業飛行相比，需要分析的情況很多，也更復雜。在軍用駕駛艙中，與飛行本身相關的任務與完成戰斗任務所需的任務合并在一起，而且往往是在危險地區和退化的環境中飛行。此外，軍用飛機配備了更多的設備，旨在處理綜合戰斗任務和軍備系統管理。

軍事飛行的典型任務可分為兩類：

駕駛和導航：在整個飛行過程中執行。
戰斗任務：只在飛行任務的某些階段執行。

當戰斗任務發生時，它們必須與駕駛和導航任務同時進行，這是軍事和商業航空的主要區別。根據自己的經驗，軍事飛行員必須判斷在任何特定的飛行階段哪一個是優先的。因此，他們將大部分資源用于該任務，而將那些經常被誤認為不太重要的任務留給機載自動系統或利用他們的注意力的殘余部分來完成。

不幸的是，軍事飛行在任務、風險、威脅、持續時間、天氣條件等方面的復雜性和不可預測性，常常使機組人員很容易超過他們的個人極限。一旦發生這種情況，風險是任務無法完成，甚至可能被放棄。在最壞的情況下，飛機和機組人員可能會丟失，或者機組人員可能會在沒有適當或最佳SA的情況下采取行動，導致附帶損害的風險增加。

新興和顛覆性的技術可以改善未來軍用飛機上的人機接口。它們可以引入基于人工智能、深度學習或實時卷積神經網絡（RT/CNN）的新解決方案，以整合新的能力，如具有認知解決方案的系統。作為一個例子，認知人機接口和互動（CHMI2）的發展和演變，用于支持多個無人駕駛飛行器的一對多（OTM）概念中的自適應自動化，也可以被利用來支持完成 "軍事駕駛艙的多項任務 "的自適應自動化。

同樣地，研究和開發CHMI2來監測飛行員的認知工作量并提供適當的自動化來支持超負荷的機組。這些先進的系統應該能夠閱讀到達駕駛艙的命令，分析相關的威脅，并提出最 "適合任務 "的任務簡介和操作概念。同時，它們應該計算所有任務所需的數據，如燃料消耗、目標時間、"游戲時間"、路線、戰斗位置、敵人和友軍的部署、武器系統和彈藥的選擇、附帶損害估計以及適當的交戰規則等。然后，考慮到船員的認知狀態，將動態地選擇自動化水平和人機接口格式及功能。

在2009年的一項研究中，Cezary J. Szczepanski提出了一種不同的HMI優化方法，其依據是任務成功的關鍵因素是飛機操作員的工作量。如果工作量超過了一個特定的限度，任務就不能成功完成。因此，他提出了一種客觀衡量機組人員在執行任務期間的工作量的方法；具體來說，就是在設計人機接口時，要確保即使在最壞的情況下，工作量也不能超過人類操作員的極限。

將近11年后的2020年，北約科技組織成立了一個研究小組，以評估空勤人員是否有能力執行其分配的任務，并有足夠的備用能力來承擔額外的任務，以及進一步應對緊急情況的能力。該小組旨在確定和建立一種基于具體指標的實時客觀方法，以評估人機接口的有效性。

通過對神經生理參數的實時測量來評估認知狀態，有望支持新形式的適應性自動化的發展。這將實現一個增強的自主水平，類似于一個虛擬的機載飛行員，這將協助機組人員進行決策，并將他們從重復性的或分散注意力的任務中解放出來。自適應自動化似乎是實現最佳人機接口的一個重要組成部分。它有望支持高水平的自主性，以減少人類的工作量，同時保持足夠的系統控制水平。這在執行需要持續工作量的任務時可能特別重要。這預示著要全面分析與自主決策機相關的倫理和道德問題。然而，這已經超出了本文的范圍。

5 建議

未來的戰斗將變得越來越快節奏和動態。新興的和顛覆性的技術有望徹底改變各級指揮官計劃和實施戰場行動的方式。人工智能、機器學習、增強的指揮和控制系統以及先進的大數據管理將大大有利于指揮官，改善SA，并極大地加快決策過程。現代軍隊設想未來的行動是完全集成的、連接的和同步的，這催生了MDO概念，以完善指揮官在多個領域快速和有效地分派/重新分派所有部隊的能力。

在概念和規劃階段的這種明顯的動態性也必須反映在執行階段。因此，必須假定，雖然指揮官能夠在很少或沒有事先通知的情況下重組和重新分配部隊任務，但機組人員也必須能夠快速、有效和安全地處理和執行這些新命令，很少或沒有時間進行預先計劃或排練。

這些新要求無疑將影響下一代軍用飛機駕駛艙的設計和開發。有必要采用一種新的方式來構思下一代人機接口，更加關注飛行員的真正認知能力。此外，需要新的解決方案來為機組人員提供更大的安全空間，同時將他們的工作量減少到可以接受的最大水平，使他們保持高效。他們應該結合任務優先級原則，審慎地考慮機組人員可以將哪些任務交給自主程序或系統。

本文重點討論了空中力量和飛行員在飛機上的工作量。可以預見，在現代情況下，所有平臺都將面臨同樣的挑戰。在行動的各個層面，所有的軍事人員都應該發展一種新的思維方式，以反映人機接口的更多整合和使用。要做到這一點，需要重新認識到人的因素的重要性。與民用航空類似，北約將需要制定和采用新的標準來指導未來軍用航空接口的設計。人機接口的改進必須包括所有的航空任務，并著重于實現實時規劃和執行。如果不仔細關注軍事飛行員所面臨的壓力，人機接口的改進只會讓飛行員更加安全，而在任務執行過程中的效率卻沒有類似的提高。開發通過實時測量神經生理參數來評估機組人員的認知狀態的方法，以及隨后開發新形式的適應性自動化，對于實現符合未來戰場要求的人機接口至關重要。

作者

Imre Baldy，中校，于1988年加入匈牙利國防軍，并在匈牙利的'Szolnok'軍事航空學院開始了他的軍事教育。1992年，他作為武器操作員/副駕駛獲得了第一個少尉軍銜。1997年，他得到了他的第一個更高級別的任命，他加入了位于韋斯普雷姆的匈牙利空軍參謀部，在那里他獲得了國際關系和空軍防御規劃方面的經驗。2007年，他被調到塞克斯費厄爾，在那里建立了新的匈牙利聯合部隊司令部。除與直升機業務有關的其他職責外，他還負責空軍的短期規劃。他曾駕駛過米24、米8和AS-350直升機。從2018年7月開始，他成為JAPCC的載人空中/攻擊直升機的SME。

利維奧-羅塞蒂，中校，于1993年在意大利軍隊中被任命為步兵軍官。三年后，他轉入陸軍航空學校，并于1998年畢業，成為一名旋翼機飛行員。他曾擔任過排長、中隊指揮官和S3小組長。他曾駕駛過通用直升機。AB-206，AB-205，AB-212，AB-412，以及AW-129 Mangusta戰斗直升機。他曾多次作為機組成員或參謀被部署到巴爾干半島（阿爾巴尼亞，科索沃），中東（黎巴嫩，伊拉克）和中亞（阿富汗）。他還是一名合格的CBRN（化學、生物、輻射和核）專家，一名空中機動教官，他目前駐扎在JAPCC，擔任戰斗航空處的空地行動SME。

付費5元查看完整內容

AI與軍事 · 人工智能 · 戰斗機 · 人機協作 · 北約 ·

2022 年 9 月 15 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

1 簡介

戰斗機的時代已經過去。這話是埃隆-馬斯克在2020年空戰研討會上描述未來空戰時說的。這產生了巨大影響力。

馬斯克的立場似乎得到了美國國防部高級研究計劃局（DARPA）Alphadogfight（ADT）演示的支持。在ADT期間，幾個人工智能（AI）項目在一場斗狗比賽中相互對決。獲勝的人工智能隨后與人類戰斗機飛行員進行了面對面的較量。雖然DARPA聲稱比賽的目的是開發支持人類飛行員的人機共生的人工智能程序，但結果對飛行員本人來說不可能更糟。人類在與機器的每一次交戰中都輸了，而且比人工智能以前的機器對手輸得更快。

同樣值得考慮的是，在超視距情況下——在這種情況下，距離的計算、對飛機相對位置的了解、相對高度、速度和武器都必須在非常高的速度下完成——結果會如何。考慮到空對空戰術的復雜性以及欺騙和電子戰在其實施中的突出作用，結果可能會更加令人震驚。

盡管如此，許多飛機制造商仍在繼續開發有人駕駛的作戰飛機。即使是成本驅動的商業航空部門也不太可能取代人類飛行員。此外，盡管西方第五代戰斗機都是單座飛機，即使是出于訓練目的，雙座設計也回到了桌面上。最近，中國第五代殲-20戰斗機采用雙座配置，蘇霍伊公司正在考慮其蘇-75 "Checkmate"的雙座版本。回歸雙座設計背后的原因仍然不透明，但鑒于目前空中行動的復雜性和對更復雜的多域作戰（MDO）的預期，下一代戰斗機可能受益于武器系統官（WSO）。

另外，DARPA的空戰進化（ACE）計劃設想了一個中間地帶，人類飛行員信任人工智能來控制飛機，而他們需要人類來指揮任務，如決定交戰策略、選擇和優先考慮目標，以及確定最佳武器或效果。

未來幾乎肯定會包括馬斯克所宣稱的、DARPA所預期的人工智能優勢，但它們應該伴隨還是取代人類飛行員？許多挑戰依然存在。本文將強調最重要的挑戰。

2 挑戰和考慮因素

2.1 機器學習過程

支持人工智能的最常見的機器學習方法是強化學習（RL），它使計算機算法能夠從過去的事件中自我學習。機器使用一個獎勵系統來區分成功和不成功的動作，它可以在沒有指導的情況下快速進行，不需要人類的互動。同時，人類也可以指出錯誤，幫助強化未來的課程，讓機器尋求成功。

"未來的戰斗機......將急劇增加的飛行員工作量。人工智能必須在管理這種工作量方面發揮一些作用。"

獎勵函數設計是另一種機器學習技術，通過給交易分配相對價值來加速學習結果，從而補充RL。這個概念激勵人工智能通過利用它已經學到的關于其先前選擇的 "價值 "的東西，而進入到一個更高的獎勵狀態。這種評估使人工智能能夠在探索一系列行動以追求更高的獎勵時進行風險與獎勵計算。目標是在探索了所有可能的解決方案和獎勵之后，達到一個良好的平衡。

一個可能加速學習過程的額外優勢是，人工智能系統可以建立在其他人工智能系統的經驗上，使用額外的機器在所需的網絡內進行訓練，而無需人類參與，并將獲得的知識轉移到目標機器上。幾個模擬器，每個都應用不同的戰術，可以極大地加快學習過程。

然而，機器學習不應該被看作是萬能的。它仍然高度依賴于軟件設計、算法和數據選擇。納入機器學習技術內的不完整或有毒的信息會導致學習過程中出現重大缺陷或錯誤。因此，人工智能可能做出無效或危險的決策。

2.2 戰機的控制

盡管現在的趨勢是，只有在ACE計劃顯示人工智能飛得更好的情況下，人工智能才會幫助飛行員，但在真正的戰斗機上，這兩種選擇將如何合并？

一種選擇是，飛機由人類飛行員控制，只由人工智能提供建議，至少在機器識別出關鍵風險并評估出它能比人類更快或更好地做出反應之前。人類飛行員應該始終保留對這一決定的控制權，還是應該授權人工智能在沒有預先授權的情況下進行控制，以確保任務成功或飛機生存？同樣地，飛行員是否應該在知道他的反應時間意味著失去可能影響定位或射擊機會的關鍵秒數的情況下，采取所有武器使用行動？

此外，在飛機機動能力的極端情況下不會有失去意識的風險，這是人工智能相對于人類飛行員所具有的誘人優勢之一。雖然預計人工智能可以納入飛行員的健康狀況數據，但獲得對敵優勢的唯一方法可能是犧牲飛行員的意識。在飛行員沒有意識的情況下，人工智能應該自主地使用武器嗎？

此外，由于戰斗機傳統上是以雙機或四機編隊的形式運行，關于人類與人工智能控制的決定將影響到單個飛機和整個機隊。需要考慮人工智能控制的飛機如何與其他編隊的機組人員進行交流，以及是否通過數據鏈、語音或兩者進行。鑒于飛行中的一些（而不是所有）飛機有可能在人工智能的控制下--而且有可能是無意識的飛行員--整個編隊的控制權應該下放給人工智能，還是應該轉移給任何有意識的飛行員？

一個更直接的選擇是將人工智能限制在一個輔助角色，在準確的時刻提供適當的信息，以避免飽和，也許，在特殊情況下，如生存需要時，就像現有的線控系統在超過攻擊角限制或在某些失控的情況下對飛機進行指揮。

到今天為止，由于其相當復雜，最可能的演變是人工智能只是幫助飛行員。然而，隨著技術的快速發展，我們當然不應該回避人工智能的支持，尤其是知道潛在的對手會廣泛地使用它。

2.3 倫理學

許多作者都寫過關于機器人自主和人工智能控制的武器系統的道德和倫理問題，并探討了我們是否應該允許機器對人類做出生死決定。從倫理上評估的一個特殊案例是，人工智能凌駕于人類飛行員的控制之上。一些人認為，一個充分發展的人工智能將對其決定和后果負責，并承擔法律責任。相反，其他人認為至少有一個人必須保留責任和法律責任。如果人工智能控制的飛機出現錯誤，導致人類生命的損失，誰將負責？可以認為是人類飛行員，即使他可能沒有機會干預或取消行動，甚至是程序員，但最有可能的是，下令執行任務的指揮官將是負責的一方。

2.4 準確的情報和人工智能衍生的戰術

來自情報的數據將為人工智能的學習過程提供基礎。預計人工智能將處理飛機、其飛行成員以及可能更廣泛的云聯網系統的所有可用傳感器數據。在實時的情況下，這將支持單個飛機的決策優勢，并在測試和評估活動中提出和評估戰術的重要能力。然而，正如單靠數據不等于準確的情報，單靠數據也不會創造新的戰術。人類的判斷會解釋數據，推斷對手的能力和戰術，創造測試環境，并評估結果。這些人類選擇的準確性將不可避免地影響人工智能衍生的戰術，就像在傳統戰術開發中一樣。在這里，應該利用人工智能運行大量模擬集的能力來提供廣泛的潛在選擇，以應對不可預見的對手能力和戰術。

2.5 人工智能將位于何處？

當我們想到戰斗機中的人工智能與人類的共生關系時，不可避免地會想到R2D2、天行者盧克和《星球大戰》中的X-Wing戰斗機。然而，在真正的戰斗機中，人工智能將在哪里？它是在飛機上還是在云中？云端的人工智能會克服通信延遲，在斗狗中獲得對人類的優勢嗎？將人工智能或飛行員移位意味著應盡量減少風險，要知道通信方面的優勢永遠不是絕對的，也不是永久的。

為了設定預期，應該注意到ADT使用了一個計算機機架和服務器來處理由人類駕駛的戰斗機提供的實時數據。這樣的計算能力和啟用的數據優勢目前無法納入戰斗機中。

2.6 人工智能會有什么 "感覺"？

在ADT競賽中，人類飛行員使用高保真的虛擬現實系統來視覺追蹤人工智能駕駛的對手飛機。然而，由于比賽中使用的數字智能模型缺乏傳感器，人工智能收到的所有對手數據都是直接輸入的，減輕了感應和解釋等更復雜的任務。使用關于對手飛行參數的準確數據給機器帶來了巨大的優勢。在實際戰斗中，這種數據不容易獲得，而且即使收集到也不一定準確。人類飛行員必須推斷出對手的參數，使解釋和決策變得復雜。人工智能agent將不得不做同樣的事情。

為此，人工智能將需要的不僅僅是飛行員可用的信息（包括雷達、警告接收器、紅外傳感器和數據鏈），以 "感受"和保持對形勢的認識。人工智能將需要一套類似于自動駕駛汽車中的視覺傳感器，以實現與人類飛行員目前所完成的同等的視覺觀察。雖然預計人工智能在解釋適當集成的傳感器方面會更快--這本身就是一個不小的成就--但人工智能對需要 "感覺或直覺 "的非預期或異常情況的反應如何，還有待觀察。這將在ACE計劃的最后一步進行評估，即兩架戰斗機之間的真正交戰，一架由人類駕駛，另一架由人工智能駕駛。

3 結論

未來的戰斗機，特別是那些設想與人工智能駕駛的無人機/僚機一起使用并在MDO環境下運行的戰斗機，將經歷急劇增加飛行員工作量。人工智能必須在管理這種工作量方面發揮一些作用。

然而，考慮到各種可能性，很難想象人類作為人工智能駕駛的飛機上的乘客來管理空戰，而人工智能自主地操縱飛機進入射擊位置，然后將武器的控制權移交給飛行員或在沒有人類授權的情況下發射導彈。更容易設想的是，飛行員在人工智能的支持下駕駛飛機，以提高戰術信息的準確性和及時性，并提供威脅診斷、警告和可能的防御性機動，如使用反措施或其他戰術選擇。

雖然有理由認為，人工智能與人類的合作將不如對手使用不受約束的人工智能所能做到的，但人工智能是否能在未來的整個場景中取代人類飛行員，還有待觀察。盡管如此，預計人工智能與人類的合作將為未來的戰斗機提供一個更有彈性和有效的方法，但只有當優化的人工智能與人類的共生關系被優先考慮并實現時。

誠然，未來的戰斗機作戰行動將不斷發展，埃隆-馬斯克關于載人戰斗機時代結束的預言性警告與事實相去甚遠。

作者

拉斐爾-伊卡索，中校于1993年加入位于圣哈維爾的西班牙空軍學院。他于1997年完成了基礎飛行員培訓，并于1998年在第23聯隊完成了戰斗機武器課程。1998年至2007年，他在薩拉戈薩空軍基地第15戰斗機聯隊的151SQN中駕駛EF-18戰斗機。2007年被分配到巴達霍斯第23聯隊的戰斗機武器學校擔任教官飛行員。2009年回到第15聯隊，在152SQN和153改裝SQN擔任EF-18教官。2008年他被晉升為少校，2009年被分配到空軍學院的學術部門，擔任飛行教官以及國防大學的教師。2013年至2016年，他在北約總部空軍司令部拉姆施泰因的評估部門（TACEVAL）擔任飛行部隊項目官員和評估員。在馬德里的武裝部隊聯合參謀課程結束后，2017年他被提升為中校，并被派往托雷洪空軍基地的西班牙空戰司令部A7科（訓練、演習和評估）擔任參謀，之后被派往聯合空軍能力中心。在此期間，他參加了阿維亞諾空軍基地的幾次部署，在巴爾干半島上空飛行。他擁有聯合參謀課程和地緣政治和國際關系的碩士學位等。他已經在C-101、F-5和EF-18上飛行了2700多個小時。

付費5元查看完整內容

AI與軍事 · 人工智能 · 戰爭藝術 · 多域作戰 · 美國陸軍 ·

2022 年 9 月 11 日

[付費5元查看完整內容]《人工智能與作戰藝術》美國陸軍57頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國缺乏一套專門的人工智能（AI）戰爭的理論。這導致了在戰爭的作戰層面上缺乏對人工智能影響的討論。人工智能的定義通常采用技術視角，不考慮對作戰藝術的影響。提議的作戰藝術的新要素 "抓手（Grip）"解釋了人工智能和人類在兩個方面的基本關系：自主性和角色交換。“抓手”為人工智能戰爭的理論奠定了基礎，除了揭示改變任務指揮理論的必要性外，還提出了作戰的假設。美國空軍陸戰隊的發展以及由此產生的戰爭作戰水平（和作戰藝術）在歷史上有類似的案例，說明關鍵假設如何影響戰場的可視化。去除“人在回路中”的人工智能戰爭的假設，揭示了需要一種新的作戰藝術元素來安排部隊的時間、空間和目的，此外，美國陸軍任務指揮理論需要調整，以使指揮官能夠在各種形式的控制之間移動。

簡介

“機器人和人工智能可以從根本上改變戰爭的性質......誰先到達那里，誰就能主宰戰場。”- 美國陸軍部長馬克-埃斯佩爾博士，2018年

預計人工智能（AI）將極大地改變21世紀的戰爭特征。人工智能的潛在應用只受到想象力和公共政策的限制。人工智能擁有縮短決策周期的潛力，超過了人類的理論極限。人工智能也有望執行人類、機器和混合編隊的指揮和控制功能。人工智能在自主武器系統（AWS）中的潛力同樣是無限的：分布式制造、蜂群和小型化的先進傳感器為未來的指揮官創造了大量的配置變化。與圍繞人工智能的技術、倫理和概念問題相關的無數問題，為如何將這項技術整合到戰爭的戰術層面上蒙上了陰影。現代軍隊幾個世紀以來一直在為正確整合進化（和革命）的技術進步而奮斗。美國內戰期間的鐵路技術對 "鐵路頭 "軍隊和格蘭特將軍在維克斯堡戰役中的勝利都有貢獻。25年后，法國人忽視了普魯士的鐵路試驗，給第三帝國帶來了危險，同時也沒能把握住小口徑步槍的優勢。卡爾-馮-克勞塞維茨在《論戰爭》中指出，每個時代都有自己的戰爭和先入為主的觀念。本專著將探討當前的先入為主的觀念和人工智能在戰爭的操作層面的出現。

對作戰層面的討論側重于作戰藝術，以及指揮官和他們的參謀人員如何通過整合目的、方式和手段，以及在時間、空間和目的上安排部隊來發展戰役。在作戰藝術中缺乏以人工智能為主題的討論，增加了不適當地部署裝備和以不充分的理論進行戰斗的風險；實質上是在邦聯的火車上與追兵作戰。美國的政策文件和技術路線圖主要集中在能力發展和道德影響上，而沒有描述一個有凝聚力的人工智能戰爭的理論。但美國和中國在自主行動方面的實驗趨于一致；這引起了沖突的可能性，其特點是越來越多的被授權的人工智能和AWS沒有得到實際理論框架的支持。這個問題導致了幾個問題。美國軍隊的人工智能戰爭理論是什么？大國競爭者的人工智能戰爭理論是什么？有哪些關于顛覆性技術的歷史案例？理論應該如何改變以解釋顛覆性技術？

本專著旨在回答上述問題。它還提出了兩個概念，以使指揮官能夠在戰場上可視化和運用人工智能；一個被暫時稱為 "抓手"的作戰藝術的新元素和一個任務指揮理論的延伸。該論點將分三個主要部分進行闡述。第一節（理論）將證明人工智能需要一個認知工具來在時間、空間和目的上安排部隊，方法是：綜合美國的人工智能戰爭理論，描述中國的人工智能戰爭理論，以及揭示當前文獻中的“抓手”理論。第二節（歷史）是對1973年為應對技術轉變而從主動防御演變而來的空地戰（ALB）的案例研究。第二節將重點討論戰場維度的思想、任務指揮理論的演變以及相關的作戰藝術的正式出現。第三節（新興理論）提出了作戰藝術的新要素，作為一種認知工具，幫助指揮官和參謀部將21世紀的戰場可視化。第三節將把以前的章節整合成一個有凝聚力的模型，讓指揮官和參謀部在時間、空間和目的方面可視化他們與AI和AWS的關系。第三節還將提供一個任務指揮理論的建議擴展，以說明人機互動的情況。

主要研究成果

人工智能的復雜性導致了正式的戰爭理論的缺乏；然而，在美國的政策和發展文件中存在著一個初步的美國人工智能戰爭理論。人工智能戰爭理論必須解釋人類和人工智能之間的關系，這樣才能完整。通過作戰藝術和任務指揮的視角來看待人工智能，揭示了自主性和角色互換的兩個頻譜，通過不同的組合創造了人工智能戰爭理論的維度。這些維度，或者說掌握的形式，代表了作戰藝術的一個新元素。同樣，需要將任務指揮理論擴展到一個過程-產出模型中，以實現掌握形式之間的移動。

方法論

綜合美國目前的人工智能政策和AWS的發展路線圖，提供了一幅戰略領導人如何看待人工智能的圖景，允許發展一個暫定的戰爭理論。由于缺乏關于武器化人工智能的歷史數據，政策和發展路線圖是必需的，因此本專著中提出的理論是由提煉出來的概念產生的。由于中國的工業和技術基礎的規模，中國被選為對抗模式，預計在10到15年內，中國將超越俄羅斯成為美國最大的戰略競爭對手。

圖文并茂的案例研究方法將被用來分析主動防御和空地戰之間的過渡。該案例研究將整合技術、政策和戰爭理論，以喚起人們對多域作戰（MDO）和人工智能在21世紀戰爭中作用的疑問。第二節的批判性分析側重于理論的發展，而不是其應用。第二節的詳細程度是有限制的，因為它仍然是一個更大（和有限）整體的一部分，因此重點應繼續揭示戰場可視化和認知輔助工具之間的聯系。第三節通過作戰藝術的新元素和任務指揮理論的調整來回答每一節中發現的問題，從而將前幾節連接起來。人工智能缺乏歷史，考慮到人們不能直接分析以前的沖突，以獲得教訓或原則。在這種情況下，任務指揮理論提供了一種間接的方法來理解使人類能夠集中式和分布式指揮和控制功能的機制，以及為什么人工智能缺乏相應的機制會抑制我們感知機會的能力。第三節將把美國現行政策和路線圖中的幾個抓手成分匯總到任務指揮理論提供的框架中。

范圍和限制

本專著存在于美國陸軍多域作戰概念的框架內，其理解是解決方案是聯合性質的，因為 "陸軍不能單獨解決問題，概念發展必須在整個聯合部隊中保持一致，清晰的語言很重要。"本專著不能被理解為對MDO中提出的問題的單一解決方案，而是一種幫助實現戰斗力聚合的方法。

關于人工智能的討論充滿了倫理、法律和道德方面的考慮，本專著不會涉及這些方面。本專論的假設是，人工智能的軍事用途在政治上仍然是可行的，而且 "戰略前提 "允許該技術的軍事應用走向成熟。由于運用的變化幾乎是無限的，人工智能的戰術實施將不會被詳細討論，而重點是在作戰層面上的概念整合。一般能力將被限制在與作戰藝術和作戰過程有關的具體趨勢上。

付費5元查看完整內容

AI與軍事 · 人工智能 · 大數據 · 機器學習 · 5G ·

2022 年 8 月 4 日

[付費5元查看完整內容]【中文版】2022最新綜述《人工智能對使用下一代軍事技術的國防工業的影響》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

攻擊和防御工業對國家安全至關重要，通過提供最重要的信任度并穩定地滿足軍事需求。這項研究探討了人工智能、機器學習和電子信息在國防工業發展中的意義。隨著人工智能在國防工業中的出現和發展，本文回顧了目前國防工業生產什么產品，做什么研究，以及優勢/劣勢。國防工業和其他所有部門都受到人工智能、機器學習、機器人、大數據、數據科學、深度學習、模擬、模糊邏輯、5G和電子學的影響，這些都將成為下一代軍事技術。在這項研究中，還強調了混合戰爭，其與國防工業中發展的人工智能技術已變得相當“熟悉”。利用人工智能技術對大規模數據的處理，可能會產生巨大的軍事優勢，獨特的智能能力，以及各種業務的可觀改善。跟上人工智能的持續發展節奏，保持有效的防御將是至關重要的。

關鍵詞：人工智能，大數據，國防，國防工業，國防領域，深度學習，數據科學，電子，模糊邏輯，混合戰爭，機器學習，機器人，5G，物聯網。

1 引言

隨著人工智能（AI）快速發展，其為各個領域帶來益處，在國防工業領域也取得了巨大的成功。擴大國防工業產品的生產并達到該領域的最高水平是許多國家的主要戰略之一。由于這些融合了機器學習、機器人和人工智能的新技術發展，一個問題無疑會出現在我們的頭腦中：混合戰爭是否即將到來？

當然，這個問題是隨著自主車輛、無人駕駛飛行器（UAV）、武裝無人駕駛陸地車輛和無人駕駛戰機的研制而誕生的。雖然一開始看起來不可思議，但它為人工智能技術的形成做出了卓越的貢獻，它將通過把幾種算法結合到其結構中來促進高水平的發展。人工智能是旨在在機器人中模擬人類思維的技術集合，它需要多學科的研究。今天，人工智能技術在收集、處理和解釋數據方面發揮著關鍵作用，使目前不可行的解決方案和技術成為可能。如果沒有人工智能工具，不可能對使用現有技術獲取的數據進行處理分析。

另一方面，機器學習是人工智能的一個子領域，它做的是有監督-無監督的輔助學習，而不是代碼密集型解決方案。我們可以利用機器學習從豐富、復雜的數據中提取有效的推論。在談論國防工業生產的戰爭技術時，我們說它是用大量的數據創造的。最準確處理這些數據的方式是人工智能、機器學習和深度學習。有了這三樣，就不可能不看到數據科學在世界的普及。深度學習通常被認為是機器學習的一個子領域。它包括通過數據驅動的學習產生人工智能的策略。通過評估虛擬環境中真實飛行員在飛行模擬器中的瞬時決策和環境信息，人工智能飛行員可以在不寫程序的情況下制定規則集，并在包含高度復雜數據的環境中做出現實的飛行決策。混合戰爭的形成與過去使用的戰爭技術和現在使用的戰爭技術之間有許多變化。從現實意義上講，國防領域如此大的發展，其最大的關鍵是人工智能。

2 什么是國防工業中的混合戰爭？

隨著國防工業中通信和戰爭技術的發展，戰爭在總體上已經發生了變化。因為每個國家都想發展和變得更強大，所以很難預測我們在戰場上遇到的情況。在戰爭中，信心和動力一樣必要。只有一點點的安全感是令人欣慰的，它也會導致戰場上更健康的思維和戰略行為。

混合戰爭是一種戰爭概念，它以國際關系學科和安全戰略的多樣化以及發展中的技術所創造的新防御和攻擊載體來取代常規戰爭。由陸、空、海三層組成的常規戰爭被包括電磁波譜、空間、網絡和信息層，以及這三層的混合戰爭所取代。混合戰爭可以看成是如圖1所示。

圖1 混合戰爭。

在混合戰爭中，其目的是在不需要武裝沖突的情況下實現打破對手的聯盟、伙伴關系和決心。為此，首選外交和經濟行動、信息戰等方法，必要時還可使用常規部隊作為威懾威脅。在國家和聯盟內部制造不穩定；通過制造政治分離，減緩友好的解決方案、決策和反應的速度，最終導致戰略不確定性，從而達到目的。

在混合戰爭期間，國家開始為這些計劃中最有效的計劃做準備，制定各種戰略計劃（戰術、行動），以保護自己不受對方影響，獲得優勢和權力。混合戰爭最顯著的優勢是人工智能技術，它可以提供許多選擇，并確保先進能力的完整性，通過迷惑對手頭腦獲得優勢。

因此，混合戰爭對國防工業中正在發展的人工智能技術越來越“熟悉”，這場戰爭的范圍也隨著這些技術的發展而擴大。為了發展人工智能技術，我們必須收集數據，并適當地使用這些數據，以便我們能夠向目標邁出堅定的步伐。特別是在這個領域所做的技術，即使是最輕微的錯誤被忽視，也會對所有的研究產生不利的影響。在人工智能領域進行的研究中，每個國家都知道其重要性，有必要揭示出我們與其他國家不同的特點。例如，我們應該能夠在幾秒鐘內做出決定，而不是幾分鐘，并在99.9%的時間內發現并消滅敵人。首先通過在模擬中測試該領域的研究，然后將其應用到實際，我們可以及早發現不足之處，并采取必要的預防措施。

3 仿真技術在國防工業中的應用

仿真工具通過鼓勵可持續的生產環境來增強與生產有關的任務。自我配置是用于創建生產系統的數字工具的一個特點。因此，它顯示了一個實際研究的路線圖。國防工業中使用的模擬仿真器提供了關于將要完成的工作或已經完成的工作的信息，允許它被整合到計劃的戰略中。模擬器的數據允許制定（戰術、行動和戰略）規劃。仿真技術在國防工業中是必不可少的。因為在這個環境中，它能提供幾乎準確的數據，這促進了許多項目和新技術產品的出現。在圖2中，我們可以看到Havelsan的仿真技術。

圖2 仿真技術。

4 大數據

大數據處于不斷更新的科學和商業世界中。由此產生的數據來自于模擬器、視頻、音頻、圖像、帖子、社交網絡互動、科學數據、傳感器和手機以及所有其他連接設備和技術。

重要問題

大數據要求從傳統的數據分析中獲得革命性的飛躍，如圖3所示。大數據由其三個主要部分定義：種類、速度和數量。

圖3 大數據的三個特征。

多樣性將大數據帶入一個超大的格式。有三種類型的大數據來自于許多來源。它們是結構化、半結構化和非結構化。結構化數據增加了一個預先標記和快速排序的數據倉庫，但非結構化數據是隨機的，不容易分析。半結構化數據包含標簽，以分離數據項。

目前，數據的體積或數量超過了TB和PB。大規模的數據增長和擴展超過了標準的存儲和處理技術。因此，數據量在我們的生活中無處不在，而且產生的速度非常快。

在整個過程中，速度是一個重要的因素。這就是數據產生的速度。今天，由于數字和社會媒體的發展（發送、網絡互動、圖像、視頻），大數據迅速產生。在數字世界中，每天都有成千上萬GB的數據實時產生。

這個組件的數據流必須得到驗證，以便在國防工業中產生基于人工智能的技術。數據必須是安全的，因為獲取和驗證大數據是很困難的。在完成所有這些過程后，也就是處理數據將為將要生產的技術提供一個很好的優勢。這將使國防工業的強大技術得以生產。

5 數據科學

數據科學的最一般的定義可以表示為從數據中獲取信息的科學和藝術。利用數據科學，我們可以獲得數據，從這些數據中提取信息，并將這些信息用于塑造未來的研究。所進行的大多數新研究都會將從過去提取的數據與當前的數據進行比較，并向我們展示我們更喜歡哪一個步驟來實現我們的未來。數據科學包括組織和分析，可視化，以及報告數據。

總之，數據科學通過研究現狀為決策者提供意識，并通過預測當前和未來的研究增加決策的正確性。

5.1 數據分析

通過機器學習和深度學習提供的方式，可以獲取人工無法獲得的數據。為了了解所獲信息的質量，可以通過詳細調查分析，檢查方法步驟，探索數據的大小、速度和變化來了解。為了獲得最佳的解決方案，針對現有問題而選擇的機器學習算法應該能被分布式數據使用。

5.2 數據可視化

我們發現的數據有時會很復雜，所以它對我們來說變得有些難以理解。如果我們將這些數據可視化，就可以讓我們更好地理解它，其在腦海中的位置也會更加固定。此外，數據的速度和規模越大，數據就越接近實際。數據中的聯系將不容易看到，而且我們也很難理解它們。在這方面，數據的可視化是至關重要的。

6 人工智能在國防工業中的研究

隨著人工智能使用的增加，研究的數量也在增加。在這方面，國防工業已經進行了并將繼續進行突破性的研究。所產生的大部分技術仍處于設計、測試或評估階段。當然，目的是為了在戰場上取得優勢。

這些技術有望產生戰術偵察和監視，用炸彈或導彈進行空襲，為間接火力、特種作戰和心理作戰進行前方監視，邊境控制和保護，地雷搜索和銷毀，反走私，化學、生物和放射性掃描，海上和遏制中的船舶識別，戰斗搜索和救援，空中無線電鏈接和中繼任務，以及天氣數據收集。因此，國防工業的重點是人工智能。

研制的一些技術產品：

I）Baykar Bayraktar Akinci

這是一種高空長航時（HALE）級別的武裝無人駕駛飛行器，由土耳其國防工業公司Baykar Defense開發。它們在2021年8月29日首次進入土耳其武裝部隊。

Akinci的最大起飛重量為5500多公斤，配備兩個渦輪螺旋槳發動機。其中1350多公斤由有效載荷組成。它也被稱為突擊型無人駕駛飛行器（T?HA），因為它可以進行空對空作戰。Akinci配備了電子支持和反制系統、雙衛星通信系統、空對空雷達、防撞雷達和國產合成范圍的雷達。

圖4 Bayraktar Akinci。

II）HAVELSAN Barkan

世界上的安全威脅已經增加，特別是對陸軍來說。自主的無人駕駛陸地車輛將現代技術融入軍事單位，通過遠程管理和使用傳感器系統來感知環境，并在數字戰場的要求下無人執行偵察、監視和彈藥運輸等基本任務。

HAVELSAN公司設計和生產了HAVELSAN BARKAN，以滿足現代軍事領域的需求。BARKAN在許多方面是野戰人員的重要助手，特別是在提高行動的成功率、防止損失和降低行動成本方面。此外，BARKAN還被開發用于攜帶或牽引貨物、提供近身保護和武裝偵察等任務。

圖5 BARKAN。

7 國防工業中的5G技術

隨著人工智能工作的日漸深入，新產品將不斷涌現，因此，國防工業中生產的技術的多樣性也將增加。

全球智能設備數量的增加，技術的發展，以及對容量和覆蓋質量的要求提高等因素影響著通信領域新技術的發展。由于連接到互聯網的設備數量不斷增加，機器學習，物聯網，以及速度和容量需求的增加，已經開始研究5G的出現。通過5G技術，旨在更好地同時滿足這種多樣性的需求和要求。

第5代通信技術，不僅在通信領域，而且在許多領域都能創造和使用產品，它允許新的工作領域和經營方式；它將通過加速人工智能、機器學習、大數據和物聯網等創新應用的發展，在可持續發展目標中發揮重要作用。因此，5G進入我們的生活，其重要性可見一斑。

7.1 物聯網（IOT）的任務

對于國防工業中的物聯網，到目前為止，指揮、控制、通信、計算機、情報、監視和偵察都集中在火控系統的應用上。普遍的看法是，傳感器主要作為數據收集和共享工具，從而加強指揮和控制。物聯網使指揮官能夠根據合并無人駕駛傳感器和現場報告的數據所產生的實時分析結果做出選擇。

I）監視和偵察。許多傳感器被用來在防御中獲得優勢。雷達、視頻、紅外或無源射頻探測數據、監視衛星、空中平臺、無人駕駛飛行器、地面站和現場士兵從這些傳感器獲取數據。這些數據被傳遞到一個整合平臺，該平臺分析并向指揮鏈的上層和下層分發信息。
II）后勤。在這個地區部署了多個低級別的防御性傳感器。例如，RFID標簽已被用于跟蹤貨物和管理中央物流中心之間的供應。
III) 士兵健康。士兵可以被通知有異常情況，如脫水、睡眠不足、高心率或低血糖。如果需要，可以通知主醫院的醫療反應小組。
IV）監控。將先進的圖像分析和模式識別軟件與安全攝像機和傳感器相結合，有利于遠程監控設施的安全風險。將許多傳感器納入飛機、無人駕駛飛行器、衛星和船舶的就業是海洋和沿海監控的一個例子。如果我們把5G將給國防領域帶來的創新總結如下；戰場上的單位將能夠通過連接戰爭網絡獲得支持，關鍵任務控制將更有效地進行，可以快速決策，并在電子戰和導彈攻擊中采取行動。各國將能夠即時監控其武裝部隊。

圖6 5G技術。

8 在戰爭中使用模糊邏輯

隨著戰場的復雜化，人工智能技術在軍隊中逐漸普及。但從研究的情況來看，基于人工智能的技術在軍事領域還是不夠的，模糊邏輯也得到了應用。

在戰爭中，它是需要考慮的領域之一，因為空中是敵人攻擊最多的地方。因此，在行動前應確定防空因素以最好地支持各種計劃。應該選擇要得到防空支持的單位的防空優先程度。

在戰爭中，士兵們必須在短時間內做出正確的決定。然而，所做的決定并不總是100%的確定。有些時候或情況下，做決定的人必須選擇其他選項。在這種情況下，腦電路分析就是應用模糊邏輯。模糊邏輯是一種識別和解決真正的不確定和不確定問題的有效方法。模糊邏輯是一種多變量理論，它采用 "中"、"高"、"低 "等均值，而不是 "是"-"否"、"真"-"假"等傳統變量。

8.1 模糊邏輯處理

為了在模糊邏輯中創建一個更好的解決方案，要進行比較，以便通過成對的比較來決定哪個是 "好"、"更好 "或 "壞"。

作為一個例子，我們將研究BAHP方法，因為這種方法以人類的思維方式處理不確定性，并有效解決多標準決策問題。這種方法應該在戰爭環境中應用。其步驟如下：

步驟1：目標的模糊值；

步驟2：在計算出模糊值后，對這些值進行比較，得到選項和標準的可能性值V。

步驟3：比??模糊數更重要的凸模糊數的概率度定義為如下：

步驟4：通過歸一化得到歸一化的權重向量W，其中W不是模糊數。歸一化過程是通過將每個值除以總和得到的。

9 人工智能在國防工業中的優勢

國防工業生產的產品不僅在戰爭活動中至關重要，而且對國家的發展也有貢獻。人工智能、增強現實、機器學習、深度學習和機器人技術是所有這些的結合，由于新一代的戰爭技術，通過快速獲取戰場上的信息，提高了士兵在戰爭環境中的態勢感知，在不需要任何顯示器或面板的情況下，以理想的速度提供信息的獲取。國防工業生產的技術優勢：邊界監視，對手工制造的爆炸物進行干預，地雷探測和中和，用于搜索和救援行動，快速耐用和分析，許多功能將使我們的士兵受益。隨著國防技術中人工智能的增加，它應該有望在軍事領域獲得優勢。

10 人工智能在國防工業中的劣勢

在人工智能的工作下，許多新的戰爭技術已經產生。雖然這些技術受到大家的喜愛，讓人眼前一亮，但也有看不見的錯誤面。由于不容易發現這些生產出來的技術在生產過程中出現的錯誤，所以可能會被忽略掉。大多數技術和應用仍處于設計、測試或評估階段。當然，模擬器在發現這些錯誤方面有重要作用。

自主系統在任何情況下都會給我們帶來好處，因為它們會做出并執行自己的決定，但它們是否應該自己做決定仍是一個爭論的問題。在每一種情況下，他是否應該自己選擇，或者在必要時應該征求人類的同意？

出于這個原因，應該確定在哪些關鍵情況下，基于人工智能生產的國防技術需要人類的批準。

11 結論

因此，如果用于生產國防領域新技術的數據通過適當的算法進行處理，那么用人工智能建立、開發和使用的技術將在國防部門的發展中發揮重要作用，在軍事領域提供戰略、戰術和行動的好處。此外，這些技術將通過在戰爭期間做出適當的指導，給予目標導向。由于在這個由人工智能創造的新形勢下產生的每一項技術都將為自己正名，它將通過直接影響現在和未來而成為國防工業不可缺少的一部分。這些技術，在所有研究中需要的獨特功能中提供監測、監視和數據收集，大大影響了國防。盡管如此，他們還是配備了足夠的設備來化解對方，并預測每一步。為了從人工智能的重要性和力量中獲得更多好處，在這一領域不落后是至關重要的。即使看一下已經產生的技術，我們也能看到我們未來的國防領域將是多么強大。

付費5元查看完整內容

AI與軍事 · 強化學習 · 多智能體協同 · 戰略機動策略 · 美國陸軍研究實驗室（ARL） ·

2022 年 6 月 23 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在未來的軍事行動中，通過協調多智能體系統（MAS）來實施戰略機動以獲得對對手的優勢，是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施，以及通過多智能體強化學習（RL）來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為，這有可能抑制對抗性協作，反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域（如陸地、海洋、空中、網絡、電磁和空間）對美國構成的威脅所推動的，這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行，人工智能（AI）將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程（TTPs）。這些機器人將聚集在一起，形成智能多Agent團隊，與人類士兵有效協作，完成任務。

美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）的基本研究計劃（ERPs）構建了開發和實施智能多Agent系統（MAS）的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案，這些問題匯聚在一起，指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性（AIMM）和新興超限技術（EOT）是ERP的例子，明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃，并通過戰場上的自主機動（AIMM）和保護（EOT）向士兵提供支持。本報告重點關注需要進行的自主協作，以使多智能體系統（即人類、智能體或人類和智能體混合）在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步，重點是超越我們目前的能力，以有效地對付同等裝備的對手（同行或接近同行）的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動（OODA-Loop）。雖然新的努力促進了對多智能體范式中情報的一般理解，但目前對情報的解釋并不明確。最近的文獻表明，基于強化學習（RL）的方法可能為實現這種技術進步提供了一條可行的途徑，本文介紹的一系列工作就是證明。

在本報告中，介紹了RL領域的貢獻，以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作，以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外，協作的戰略機動可以通過各種RL方法學習，以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作，我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展（如alphago）促進了更復雜的多智能體強化學習（MARL）算法在現實世界應用。此外，近年來也有一些框架來實現多智能體協作。這些努力加在一起，可以為開發和實施多機器人協作提供一條道路，以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中，對近年來突出的RL方法進行了分類和概述，并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說，本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外，對選定的RL方法類別進行了分類，以深入了解戰略機動的潛在實施，并考慮到情報、監視、目標獲取和偵察（ISTAR）任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說，戰略機動可以解釋為一組智能體協調他們的行動，通過戰勝對手來實現一個共同的目標。破壞，是戰略機動的一個特例，可以表示為對對手協作戰略機動的抑制。因此，戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方，他們處于動態的斗爭中，通過限制、抑制或以其他方式破壞對手的協調或戰術，并強加自己的協作戰術來獲得對對方的優勢。

在本節中，提供了一個對抗性的交戰場景，其核心是使用選定的遠程資產，這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例，描述了與所述多域作戰（MDO）情景相關的選定資產和部隊的軍事符號學。根據MDO理論，在武裝沖突中，對手的遠程反介入和區域拒止（A2AD）火力系統可以被用來拒絕友軍在戰區的機動自由（見圖1）。這是通過將情報、監視和偵察（ISR）資產與致命性和非致命性火力相結合來實現的，以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產（如部隊和裝備）的傳統集結地（見圖2）。對手有能力在友軍后方深處識別和攻擊目標，導致這些實體在地理上與戰術支持區和近距離區分離，這有效地提高了友軍的損耗率，即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離，敵對勢力可以利用這種友軍孤立無援的情況，將其消滅。

圖1 友軍（BLUEFOR，左）和敵軍（OPFOR，右）部隊的資產和資源。在所描述的MDO情景中，假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍（OPFOR）使用遠程導彈和火箭炮干擾或破壞友軍（BLUEFOR）戰略支援區的維持行動，這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略，BLUEFOR執行反擊任務，以摧毀位于深火區的OPFOR遠程火力系統（藍色箭頭）。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術，它打破了對手的隊形和節奏。

圖3 壓制（S）或解除（N）敵方遠程火力系統和ISR資產，使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人，并使機動指揮官有能力利用他們的成功，迅速將部隊轉移到深度機動區，摧毀（D）脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定"，可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃（即對峙），以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰（即穿透和瓦解A2AD系統以利用機動自由）。在這里，我們只關注友軍（BLUEFOR）野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分，這可能需要在未來的戰斗中使用自主MAS。此外，據推測，圖1中友軍（BLUEFOR）和敵軍（OPFOR）的所有符號都將包含自主化的編隊（例如，機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產）。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示，敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視（未顯示）接收有針對性的情報，在狹窄的時間窗口內打擊高價值目標（即多管火箭系統[MLRS]），以減少對手的位置調整。除了監視之外，還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中，MARL可以通過利用敵軍理論和敵軍行動中的局部觀察，戰略性地照亮和跟蹤敵軍目標的位置。此外，經過MARL訓練的具有自主能力的編隊，結合高度機動和分散的空中和地面火力，可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP，進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅，戰略和作戰支援部隊能夠向前方的作戰部隊推進（機動）（見圖2）。

敵軍利用ISR資產識別作戰支援區的友軍資產，并從作戰縱深火力區用遠程火力系統（即多管火箭炮）攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力，這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外，這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論，為了消除對峙，友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制（C2）節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口，可以被機動指揮官所利用。在這種覆蓋下，友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區，近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊（即MAS），利用MARL訓練的策略來利用對手的TTP（來自理論）、本地觀察和ISR收集的信息。如圖2所示，聯合部隊將協調其ISR和遠程精確火力的能力，為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下，擁有自主能力的前線部隊可以在近距離和縱深地區進行協調，以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊（OPFOR），使遠程火力系統容易受到地面攻擊（瓦解），如圖2所示。

聯合火力（即友軍或BLUEFOR）壓制或消滅對手的遠程火力系統，使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊（見圖3）。然后，友軍機動部隊利用這一優勢，在深度機動區（見圖3中的D區）摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出，并在深層機動區域建立一個新的戰線。這個過程不斷重復，直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外，鑒于目前正在積極研究開發和部署這種自主系統，預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景；然而，在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試，或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中，我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講，RL是機器學習（ML）的一個分支，它超越了從數據中建立精確的預測，通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式，但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習（或訓練），最終確定在當前情況下（即該智能體在環境中的狀態），哪一個是智能體要選擇的最佳行動。例如，RL智能體可以與環境互動，產生與獎勵掛鉤的經驗，這將形成學習的策略（即一系列的狀態-行動對）。然而，在后面的章節中強調，目前的RL方法可能還不夠成熟，無法克服與人類類似的適應性相關的挑戰，以便在新情況或環境中進行智能決策。盡管RL算法有其缺點，但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中，協作通常是定義不清的，而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中，開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性，以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件，而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下，最佳行為可能是可取的，但如果任務以某種不可預見的方式發生了變化，一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此，未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分，描述了與開發戰略機動MAS有關的一些挑戰，其中時間尺度、能力和局部目標可能有很大的不同（例如，MDO），但需要某種程度的協作。此外，假設更大程度的靈活協作可以促進任務執行的改進（例如，更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成）。

隨著環境在動態戰場上的變化，敵對雙方（至少）可能需要重復規劃和預測，以便1）跟上，或2）領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外，如果學習智能體建立了一個關于對手協作行動的適當模型，然后采取行動破壞這種協作，也可以實現這一目標。

在一個理想的情況下，一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力（獲得新的能力或失去以前的能力）、團隊組成（例如，改變合作者）和局部目標的變化。然而，大多數最先進的（sota）方法受到經驗的限制（正如許多RL方法的情況一樣）。此外，在大多數模擬中，團隊的能力和組成通常是固定的，不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此，在選擇一種算法來指導旨在產生戰略機動的MAS的行為時，必須考慮新的或動態的事件、行為、資產和實體。

總之，目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1）數據要求，由于情況的新穎性，數據是有限的，數據集不足以產生準確的預測，或者數據以某種方式被污染（例如，嘈雜、臟亂或對手的改變），2）有限的計算資源，以及3）算法不能泛化到訓練期間遇到的情況之外（例如，不同的目標、改變的能力或修改的團隊組成），導致狹隘或脆弱的MAS解決方案。

在下一節中，我們將更詳細地討論RL的缺點，以闡明如何克服這些問題，為軍事防御MDO環境提供解決方案。為此，我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力，這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一，特別是因為這種任務可能需要大量的智能體來完成一個目標。此外，軍事任務可能涉及多個子任務，每個子任務都有自己的子目標，從而進一步復雜化了場景。在MDO中，預計一個子目標由無數復雜的戰略演習組成，這需要MAS的快速計算，以及使用最小計算資源（如在戰術邊緣計算）的最佳（或至少足夠）戰略。因此，一個可擴展的RL算法必須考慮到：1）環境和任務的復雜性；2）智能體（伙伴和對手）的數量，以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性（即智能體的狀態和行動空間的大小）可以指環境的狀態空間中可用的狀態數量，以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中，在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體（例如，擴展到MAS），其中狀態空間被放大以考慮到額外的智能體，而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的，因為連續的領域會使表格無法維持，而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源（如過多的計算機內存）來包含所有的狀態，在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反，一個解決方案是使用非參數函數近似器（例如，權重為參數的深度神經網絡）來近似整個狀態空間的值。然而，函數近似器必須是可微分的，這樣就可以計算出一個梯度，以提供參數調整的方向。

有兩種方法來訓練值函數近似器：1）增量方法和2）批量方法。增量方法使用隨機梯度，在梯度方向上調整近似器的參數，使估計值和目標值之間的誤差最小。然而，增量方法的樣本效率不高，因此不具備可擴展性。相比之下，批量處理方法從一組經驗中保存數據，并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處，即結果是已知的（例如，數據被標記），計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡（DQN）玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功，但如果不考慮額外智能體的加入（即非平穩性或部分可觀察性），單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比，策略學習方法依靠策略梯度（PG）的計算來明確優化策略，而不是間接依靠價值函數。與函數近似方法相比，PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效（即在復雜環境中可擴展）。在蒙特卡洛（MC）策略梯度（例如REINFORCE算法）中，實際回報（選擇行動）與一個分數函數相乘，以計算梯度。該梯度被用于策略調整（通過改變參數值）以找到最大的回報行動。MC策略梯度具有高方差，收斂速度慢，因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中，PG方程被修改為使用價值函數的近似值，而不是使用真實的行動-價值函數乘以分數（如REINFORCE算法）。這表明行為者按照評論者所指向的方向調整策略，以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法（即MC、時差-TD（0）和TD（λ））來完成。為了減少策略梯度的差異，可以使用一個優勢函數。優勢函數告訴我們，與一般的狀態值函數相比，一個行動比另一個行動（Q值）好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error，它是優勢函數的無偏樣本，評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是，MC（高方差）和TD方法可以與行為人一起使用，隨著時間的推移（即收集的經驗）修改策略。

由于MDO涉及軍事任務，RL算法必須有能力與許多其他智能體協調，以實現最佳的戰略機動，因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間（即許多智能體）和多領域環境的大量觀察能力。在接下來的章節中，我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法，其中狀態行動空間可以是連續的或離散的。在這一節中，討論了無模型算法的優勢和劣勢，以及它們如何與戰略機動相一致，從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡（DQN）

深度Q網絡（DQN）是一種單一的RL智能體算法，它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡，從高維輸入（連續圖像）中學習。

DQN算法是一種有效的樣本方法，因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大，可以使用相同的超參數進行訓練，玩六種不同的Atari游戲，其中智能體在其中三個游戲中的表現比人類專家更好。

然而，DQN的一個缺點是，在理論上不能保證訓練好的神經網絡實現穩定的Q值預測（即在不同的獨立模型中，訓練好的策略可能會有很大的差異）。

鑒于DQN本質上是一個單一的RL智能體模型，它應該不足以在MDO中進行戰略機動。在MDO中，多智能體RL算法可能更適合，因為智能體在執行時間內典型的分散化，允許智能體彼此獨立運作。此外，DQN的原始實現只利用了四個觀察序列來學習Q值，這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上，這是DQN在評估的三個Atari游戲（即Q*bert、Seaquest和Space Invaders）中與人類相比表現不好的主要原因。然而，存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體，它學習了一個Q網絡的集合，以提高采樣效率，并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法，以解決大的行動空間。帶有記憶類型的DQN（即循環神經網絡）也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境，這種方法就特別有用。另外，分布式DQN返回一個分布信息，可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途，但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術，而這是MDO中戰略機動的需要。此外，DQN在大多數情況下計算量太大，無法用于軍事相關環境。最后，DQN算法方法對未見過的例子（例如，伙伴的新行為或環境中出現的實體/障礙）缺乏足夠的適應性。

4.2 深度確定性策略梯度（DDPG）

在現實世界中，大多數常規任務涉及連續狀態和行動空間。然而，DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度（DDPG）方法。DDPG通過結合價值函數近似和確定性策略梯度（DPG），推進了DQN方法的進展。DDPG利用行為批判的方法，可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務（如車桿、靈巧的操縱、腿部運動或汽車駕駛）。

另一種使用深度神經網絡的方法是信任區域策略優化（TRPO）。這種方法直接構建一個隨機策略，而不需要演員-評論者模型（不要與環境模型混淆，這將使其成為一種基于模型的方法）。與TRPO類似，引導式策略搜索（GPS）不需要角色評論模型，而是使用軌跡引導的監督式策略學習以及一些額外的技術（例如，減少視覺特征的維度，在網絡的第一層增加機器人配置動態的信息）。因此，GPS的數據效率很高，如果需要的話，可以改編成DDPG。另一方面，PILCO首先學習一個概率模型，然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率；然而，它的計算量很大。此外，D4PG對DDPG算法提出了一些改進：分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級，以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看，DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法（即獨立學習者）。因此，DDPG算法不便于在多智能體場景中進行協作。因此，使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外，DDPG不具備處理基于角色的多目標任務的能力，而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度（MADDPG）

RL智能體互動對于戰略機動的人工智能系統至關重要，不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題，多智能體深度確定性策略梯度（MADDPG）算法擴展了一個演員評論家方法，這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練，并在測試期間部署分散的演員。一個評論者（每個智能體都有一個）接收每個智能體的策略，這允許開發具有潛在不同獎勵功能的依賴性策略（例如，MADDPG允許訓練具有相反獎勵功能的對抗性團隊）。相反，演員（即策略網絡）在訓練和測試期間只擁有本地知識。演員（通過訓練）在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是，對Q函數的輸入隨著環境中智能體數量的增加而增加（不可擴展）。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除，可能需要進行再訓練。在戰略機動中，智能體可能需要定期轉換角色或改變能力，這對MADDPG適應軍事領域構成了重大挑戰。此外，頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷，使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用，希望有一個強大的對手或智能體模型，以便使作戰時間最大化（即有足夠的時間來執行戰略機動）。

為解決其可擴展性問題，對MADDPG的一個潛在修改是形成智能體集群，為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下，可以推遲重新訓練的需要，因為從理論上講，一個智能體集群將有一套處理動態情況的可變能力。此外，這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而，問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務，并使最優分組策略的退化程度最小？

雖然MADDPG可以形成一組異質的多智能體策略，能夠完成不同的任務，但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加，策略梯度的方差會呈指數級增長。因此，這種方法不太適合MDO中的戰略機動，在這種情況下，必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法，該算法計算鄰近智能體Q值的均值估計，當智能體之間的鄰近互動變得復雜時，可能導致高誤差率。此外，進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合，使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功，可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是，反事實多智能體（COMA）方法對所有智能體使用一個集中的評論家，但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性，但它可能導致一套同質的策略，在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似，Minmax多智能體DDPG（M3DDPG）比MADDPG的原始版本增加了一項改進，允許智能體制定更穩健的策略來對抗對手（即具有對立獎勵結構的競爭游戲）。然而，M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法，有時需要利用常見的技術來操作輸入或輸出，如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中，離散的策略組件被用來計算連續的行動。從另一個角度來看，多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制，然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法，但這些算法方法沒有用連續信息進行訓練，這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的，其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值，而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體，仍需進行再訓練。然而，與MADDPG相比，它更具有可擴展性，因為單個Q值僅從局部觀察中學習，避免了通過學習因子化的Qtot來學習聯合行動值。但是，當有超過40個智能體時，這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性，已經提出了基于角色的算法RODE，其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動，RODE算法是非常有前途的，因為各組智能體可以被分配到不同的角色，其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為（對于盟友或甚至敵人）。然后，該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制，該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用，這可能會在未來的工作中進行研究。即使RODE是非常可擴展的，我們也不清楚當新的智能體將被添加到環境中時如何調整它；需要學習一個集中的策略以實現最佳協作。

與RODE算法相比，一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略，實驗表明它能夠擴展到1000多個智能體。如前所述，可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多，狀態空間越大。RODE是有限的，因為它使用一個集中的策略，當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法（即共享一個中央經驗重放緩沖器），其執行是分布式的（即每個智能體根據其本地觀察做出自己的控制決定），而不是來自中央控制器。由于這種分布式的方案，當智能體被添加或從系統中移除時，團隊不受影響，繼續執行他們的策略。

在可擴展性方面，訓練大型MAS（即許多智能體）是很困難的，而且已經表明，即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題，該方法允許在較小的智能體集合上訓練策略（例如，在目標追蹤場景中，四個智能體追蹤四個目標），并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整（即用1000個智能體測試和評估）。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化：它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看，這種提法是戰略機動的理想選擇，因為現場的智能體可能會在原地丟失或獲得，可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素，包括科技進步，美國的對手正在變得更加先進。在未來的MAS自主戰爭中，協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中，我們討論了一些最突出的RL算法，以發現訓練MAS的可行候選策略，這些MAS可以有效地進行戰略機動，從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法，并對最突出的RL算法進行了概述。研究發現，由于訓練和測試因素的不同，大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案，AIMM和EOT ERPs特別促成了研究，可以為協作的自主MAS提供一個路徑，可以克服與1）環境，2）對手戰術和能力，3）自身能力（即，獲得新的能力，失去以前的能力，或能力被改變），4）團隊組成（例如，增加、刪除或交換隊友），5）戰略團隊定位、進入、導航（機動）以支持部隊并壓倒對手，以及6）任務目標。最近，AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法，并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性，此外還評估了利用一系列集中訓練技術的新算法方法。

此外，還需要進行更多的調查，以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下，將完全自主的MAS送入高風險情況（即預期因果率高的情況）是可取的；然而，由于目前的技術限制，僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此，在未來的工作中，將進行研究以確定一套強有力的交戰方案。最后，這項工作將導致自主MAS的最終整合，以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

AI與軍事 · 軍事系統的網絡安全風險評估 · 北約 · 報告 ·

2022 年 4 月 18 日

[付費5元查看完整內容]北約《軍事系統的網絡安全風險評估》技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

引言

本文件是北約 IST-151 研究任務組 (RTG) 活動的最終報告，題為“軍事系統的網絡安全”。該 RTG 專注于研究軍事系統和平臺的網絡安全風險評估方法。 RTG 的目標如下：

? 協作評估軍事系統的網絡安全，并在 RTG 的北約成員國之間共享訪問權限；

? 在 RTG 的北約成員國之間共享風險評估方法和結果；

? 將 RTG 的北約成員國使用的評估方法整合到一個連貫的網絡安全風險評估方法中，以使北約國家受益。

軍事平臺比以往任何時候都更加計算機化、網絡化和受處理器驅動。他們大量使用數據總線，如 MIL-STD-1553A/B、CAN/MilCAN、RS-422/RS-485、AFDX 甚至普通以太網，以及戰術通信的舊標準，如 MIL-STD-188C 和 Link 16。此外，捕獲器、傳感器、執行器和許多嵌入式系統是擴展攻擊面的額外無人保護的潛在輸入。結果是增加了網絡攻擊的風險。然而，這些平臺的持續穩定運行對于軍事任務的成功和公共安全至關重要。

軍事系統和平臺是網絡攻擊的首選目標，不是因為它們像消費電子產品那樣普遍，而是因為它們潛在的戰略影響。一旦受到影響，就可以實現各種短期和長期影響，從拒絕能力到秘密降低其有效性或效率。因此，軍隊必須在各個層面解決網絡安全問題：戰略層面，同時獲取平臺和系統；作戰層面，同時規劃軍事任務和戰術。

北約國家擁有大量可能面臨網絡攻擊的軍事平臺和系統。因此，北約將受益于利用當前的流程和方法來設計更安全的系統并評估當前系統的網絡安全。

本報告介紹了針對軍事系統和平臺量身定制的網絡安全評估方法，該方法由 RTG 團隊成員合作開發，并建立在他們的經驗和專業知識之上。團隊成員已經使用的流程被共享、分析、集成和擴充，以產生本報告中描述的流程。本報告的目標受眾是愿意評估和減輕其軍事系統的網絡安全風險的決策者。

圖一：網絡安全評估過程的五個主要步驟。

報告結構

第 2 節介紹了 RTG 團隊在其存在的三年中用于開發流程的方法。第 3 節列出了可以應用該過程的系統的一些特征。最后，第 4 節描述了評估流程，而第 5 節總結本報告。

執行總結

軍事平臺比以往任何時候都更加計算機化、網絡化和受處理器驅動。這導致增加了網絡攻擊的風險。然而，這些平臺的持續穩定運行對于軍事任務和公共安全的成功至關重要。

絕對的網絡安全是不存在的。必須通過迭代風險評估持續管理網絡安全。傳統 IT 系統存在許多網絡安全風險管理框架和流程。然而，在軍事平臺和系統方面，情況遠非如此。本文檔介紹了針對軍事系統量身定制的網絡安全風險評估流程。該流程由北約 IST-151 研究任務組 (RTG) 活動的團隊成員開發，該活動名為“軍事系統的網絡安全”。該過程可以應用于傳統的 IT 和基于固件的嵌入式系統，這些系統在軍事平臺和系統中無處不在。

付費5元查看完整內容

AI與軍事 · 軍事威脅評估 · 空中威脅評估 · 人工智能 · 加拿大國防研究和發展部 ·

2022 年 4 月 15 日

[付費5元查看完整內容]《用于威脅評估的人工智能工具》加拿大國防研究和發展部技術報告，附中文版pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

這項工作的目的是深入了解人工智能 (AI) 工具以及如何將它們應用于空中目標威脅評估。人工智能工具是包含人工智能元素的軟件產品。關于人工智能有多種不同的思想流派，并且可以在同一個工具中使用不同的方法。許多現代人工智能方法都涉及機器學習 (ML)。本參考文檔將涵蓋不同類型的 AI 和 ML 以及如何將它們應用于威脅評估。這項工作將介紹所有 ML 模型共有的元素，例如數據收集、數據準備和數據清理。該報告還將討論選擇適合不同問題的最佳人工智能類型。

此外，這項工作將描述處理缺失數據或數據不確定性的方法。將提出實用的解決方案，包括通過數據插補填充缺失數據或修改人工智能工具的架構。

最后，該報告將檢查人工智能工具的輸出與現有基礎設施的集成。將結合威脅評估過程及其可以改進的元素來描述 AI 工具。還將討論 AI 工具系統的通用架構。

國防與安全的意義

威脅評估對于維護國家安全利益和維護各國主權具有重要意義。空中威脅評估對于一個有大片國土需要保護的國家（例如加拿大）很有價值。人工智能和機器學習都可以應用于威脅評估的研究領域。通過學習構建人工智能驅動的工具，加拿大的國防和安全將通過獲得持續的前沿研究得到改善。無論哪個國家開發出最有效和最可靠的威脅評估工具，在決策和威脅反應方面都將獲得優勢。通過利用前面提到的快速擴張的領域，加拿大可以獲得決定性的優勢。

1 簡介

評估所有領域(如空中、網絡、陸地、海洋、太空)的威脅是維護任何國家安全的一個重要方面。威脅分析包括查看敵人過去、現在和預期的行動，以及這些行動對友軍資產或單位的影響。威脅評估還考慮了為減少、避免或消除風險而可能采取的任何防御措施[1]。在防空的背景下，空中目標威脅評估的任務需要識別、確定空中目標和優先排序，并管理任何必要的資源以應對威脅[2,3]。

當前的空中目標威脅評估任務由操作室中的一組高技能和經驗豐富的人員執行[3,4]。該任務涉及考慮先驗信息（例如，情報報告和評估標準）和獲取的信息（例如，從傳感器系統動態收集的運動學信息），以確定目標對某個感興趣點/區域（POI/AOI)。此信息（運動學和非運動學）稱為提示。這些信息的心理整合需要相當水平的戰術專業知識，包括有關威脅類型、軍事條令和基于經驗的評估啟發式的知識[4]。人工智能(AI)將允許根據防空作戰員(ADO)可用的線索以及他們的威脅評估決策[5]或專業知識來創建工具。

本報告全面概述了AI工具及其構建。這些方法是尖端的并且非常有效。本報告將清晰地展示人工智能工具的開發方式。它將展示哪些組件是必要的，如何獲取數據并使其對機器學習(ML)模型有用，以及AI工具如何與更廣泛的威脅評估環境進行交互。

2 人工智能

本節將介紹人工智能的概念和許多現代人工智能算法。它將包含有關AI和ML主要主題的背景知識。它還將描述AI工具中經常出現的組件。

2.1 概述

從一個非常廣泛的角度來看，人工智能是人工系統“執行與智能生物相關的任務”的能力[6]。然而，這是一個非常寬泛的術語，涵蓋了許多系統。例如，它不區分人工智能系統、智能系統和自動化系統。關于什么構成人工智能，文獻和文化中有許多定義。本報告中使用的“人工智能系統”的定義是文獻和文化中各種來源的觀點的結合。

人工智能系統是一種具有以下能力的人工系統：

1.執行“有趣的”[7]任務，這些任務“通常與智能生物相關”[6]

2.“自學成才”[7,8]

早期的AI開發人員研究的問題在智力上對我們來說很困難，但對計算機來說卻相對簡單。這些問題可以用一組形式和數學規則來描述[9]。例如，國際象棋游戲由一組有限且嚴格的規則定義，這些規則可以編程到人工智能中。然而，人工智能很難處理使用人類直覺而不是使用一組正式的規則來處理的任務，例如圖像識別。人工智能的一種方法是基于知識的方法，它涉及嘗試設計形式語言和手工制作的邏輯推理規則，以使機器能夠推理和解決問題。另一種方法是讓計算機從經驗中收集知識，而不是讓人類對程序的行為進行硬編碼。

機器學習是通過從數據中發現模式來獲取知識的能力。因此，這些數據的表示會顯著影響機器學習算法的性能。換句話說，提供給機器的信息（即特征）會影響它解決問題的能力。然而，手工設計的特征受到人類知識的限制。讓機器發現哪種表示最好稱為表示學習。學習到的表示通常比手工設計的表現要好得多。本報告在2.3小節中探討了人工智能的機器學習方法。

2.2 AI 工具的組成部分

AI 工具的最終目標是通過減少操作員的認知和體力工作量來改善操作員的決策過程。為此，人工智能工具通過提供協作環境來補充操作員的角色。人工智能工具處理可用信息，從數據中獲得洞察力，并以有利于操作員體驗的方式呈現信息和洞察力。圖1顯示了AI工具流程的概覽。該模型基于[3]中提出的決策支持系統(DSS)架構。

1.操作員是與工具交互和監控工具、根據工具輸出做出決策并根據這些決策向相關個人報告的人。輸入工具的信息可以是靜態的或動態的。靜態信息（例如配置文件和靜態操作員首選項）在操作期間不會更改。動態信息，例如數據輸入和設備操作，在整個操作過程中不一定保持不變[3]。將操作員與咨詢能力聯系起來的箭頭強調了該工具的協作方面。

2.咨詢能力負責管理操作員和系統之間的交互。這包括管理操作員輸入（即靜態和動態信息），管理環境輸入（例如，約束和環境信息），促進操作員交互（例如，人機交互，人機界面）和顯示信息。要顯示的關鍵信息包括算法的結果和當前的操作限制。

3.領域知識由用于評估的規則和關系組成。例如，領域知識可能包括操作員對信息變化影響的意見。

4.算法組負責處理數據和執行評估或預測任務。可以考慮許多不同的算法和功能來實現算法組。該組將提供應用程序中的大部分AI功能，并且可以選擇或組合不同的AI或ML應用程序。

5.環境為人工智能工具提供操作約束。更具體地說，環境由檢測和測量目標的傳感器系統以及來自更高級別個人的任務概覽和命令組成。

雖然[3]對圖1中的大多數組件進行了詳細解釋，重點是咨詢能力部分，但本報告側重于架構的算法部分。

圖1:操作員、環境和人工智能工具的交互

上面介紹的AI工具被認為是基于第 2.1 節中介紹的定義的AI系統。評估的復雜性和重要性使其成為一項不容易解決的任務。人工智能工具的學習和適應方面可以通過機器學習方法來完成，這將在2.3小節中進行描述。

2.3 AI 中的機器學習

本節將討論機器學習和人工智能的結合。有許多不同類型的AI算法，ML是這些算法的一個子集。本節將描述使用ML從數據中學習的算法類型，以及這對AI工具有何用處。作者還在他們之前的工作中定義了機器學習中的許多基本概念[5]。

2.3.1 概述

根據柯林斯詞典，機器是“使用電力或發動機來完成特定工作的設備”[10]。在機器學習的背景下，機器就是計算機。更具體地說，是計算機中的程序完成了這項工作。正如[11]中所定義的那樣，“如果計算機程序在T中的任務（由P衡量）上的性能隨著經驗E提高，則可以說計算機程序從經驗E中學習某類任務T和性能度量P。”這個定義提出了機器學習問題的三個主要組成部分：任務T、性能度量P和經驗E。

1.任務是要解決的問題。例如，分類任務涉及確定某個輸入屬于哪個類別（例如，對象分類）。其他任務示例是回歸（例如，成本預測）、異常檢測（例如，欺詐檢測）和去噪（例如，信號處理）。

2.性能度量是用于評估ML算法性能的指標。例如，準確度是一種可用于分類任務的性能度量。準確率是模型正確分類的示例的分數。“示例”被定義為特征的集合，通常表示為向量，其中n為特征個數，每個元素為一個特征[9]。數據集是一組例子的集合。

3.經驗是指模型在學習過程中所接受的訓練類型。在無監督學習中，模型所體驗的數據集僅包含特征，并且由模型來學習數據的特征。例如，學習描述數據的概率分布可能很有用。聚類也可以使用無監督學習算法來執行。在監督學習中，模型體驗的數據集不僅包含特征，還包含與每個示例相關聯的標簽。無監督學習模型觀察幾個例子，而監督學習模型觀察幾個例子及其標簽。但是，在某些情況下，有監督和無監督之間沒有明確的區別。例如，半監督學習涉及從包含標記和未標記數據的數據集中學習。在強化學習中，模型不是從固定的數據集中體驗，而是模型與環境交互并從交互中學習。

為了了解模型在處理現實世界中的新數據時的表現如何，通常會分離出一部分數據集，以便僅在完成所有訓練后才能使用。這被稱為測試集，由于模型之前沒有看到測試集中的數據，因此測試集上的性能可以作為模型真實性能的指標。文獻提供了機器學習算法和模型的許多不同分類（例如，[12]提出了機器學習的五種范式：連接主義（例如，神經網絡、象征主義、進化論、貝葉斯和類比）。本報告并不是對機器學習中在空中目標威脅評估領域有用的不同方法的詳盡回顧。本報告重點關注三類特定的方法：監督機器學習、無監督機器學習和強化學習。

2.3.2 監督學習

在監督機器學習中，可以使用一組標記的訓練示例（即訓練集）。該模型的目標是能夠為示例分配正確的標簽，其中正確的標簽是與特定示例對應的標簽。通過基于一組標記的訓練數據最小化某個損失函數來調整模型。具體來說，迭代調整模型的參數，以減少訓練誤差。

1.模型：模型是根據樣本特征輸出標簽的算法。

2.參數：模型的參數根據選擇的模型而有所不同。例如，在神經網絡中，參數包括神經元的權重和偏差。

3.誤差：也稱為損失，誤差用于衡量模型的執行情況。可以針對特定應用設計和修改損失函數。

4.迭代調整：在訓練過程中，采用一定的方案來改變每次迭代的參數。具體來說，迭代調整模型的參數，以減少訓練誤差。一個例子是普通梯度下降法[13]：

其中θ是模型的參數，α是學習率（決定每次迭代調整多少參數的超參數），J(θ) 是模型在整個訓練集上的損失函數，是相對于θ的梯度。可以使用各種修改來改進普通梯度下降算法，例如動量[13]。這種改進產生的算法包括Adagrad[14]和Adam[15]。

2.3.3 無監督學習

由于機器學習，許多研究和應用領域都取得了許多成功。圖像理解（例如，檢測[16]、分類[17]）和自動化物理系統（例如，自動駕駛汽車[18]）只是成功的兩個例子。這些成功的很大一部分歸功于監督學習和強化學習的使用。然而，這兩種范式都僅限于人類輸入和經驗：監督學習的訓練信號是目標標簽，而在強化學習中，信號是期望行為的獎勵[19]。使用人類設計的標簽和獎勵的一個弱點是由于訓練信號的稀疏性而導致的信息丟失。例如，盡管用于訓練監督學習和強化學習模型的數據通常具有豐富的特征（例如，圖像），但目標和獎勵通常非常稀疏（例如，表示圖片標簽的單個向量）[19]。無監督學習的動機是更好地利用可用數據來更好地理解數據。因此，無監督學習范式“旨在通過獎勵智能體（即計算機程序）來創建自主智能，以學習他們在不考慮特定任務的情況下觀察到的數據。換句話說，智能體“為了學習而學習”[19]。無監督學習算法的強大之處在于它能夠發現標簽無法完全表達的數據的潛在模式和結構。

2.3.4 強化學習

強化學習（RL）的思想是學習采取什么行動來獲得最大的回報。這種范式背后的一個共同動機是智能體與環境之間的交互（圖2）。根據對環境的觀察，智能體執行影響環境的動作。作為響應，會生成新的觀察結果，并且智能體會收到獎勵或懲罰。

圖 2：智能體-環境交互

RL的兩個重要區別特征是試錯搜索和延遲獎勵。與程序員指定輸出應該是什么的監督學習不同，RL智能體必須進行實驗以發現導致最高獎勵的動作。此外，行動可能會產生長期影響。因此，較早采取的行動可能會導致稍后的獎勵或懲罰。

在監督學習中，該模型嘗試從訓練示例中學習以泛化并在新示例上表現良好。雖然功能強大，但在處理涉及交互的問題時，監督學習是不夠的。例如，在未知環境中學習時，獲得包含代表智能體在所有可能情況下應采取的行動方式的示例的訓練集可能是不切實際的。在這些情況下，智能體必須使用自己的經驗和與環境的交互來學習。

RL系統[20]有四個主要組成部分：

1.策略：策略根據智能體的感知狀態定義智能體的行為。換句話說，它決定了當智能體處于當前狀態時要采取什么行動（或行動的什么分布）。

2.獎勵信號：獎勵信號表明智能體在某個時刻的表現如何。獎勵的概念是RL問題的核心概念，因為從長遠來看最大化獎勵數量是智能體的最終目標。獎勵的類型是特定于問題的。例如，在訓練RL智能體玩游戲時，它可能會因獲勝而獲得正獎勵，而因失敗而獲得負獎勵。結果，通過監控獎勵信號來學習策略。例如，如果當前策略給出的某個動作導致了懲罰，那么該策略可能會以某種方式改變，以便在情況再次出現時避免該動作。

3.價值函數：價值函數表示如果遵循當前策略，智能體在未來的預期表現如何。雖然獎勵被視為即時指標，但價值函數是長期指標。例如，在當前狀態下投資獲得負回報可能會導致總回報為正。價值函數引入了延遲獎勵的方面：某個狀態的價值是預期在長期內獲得的總折扣獎勵，其中每個收到的獎勵都根據最近收到的時間進行折扣。

4.環境模型：環境模型存在于基于模型的RL問題中。它指示環境如何根據智能體在特定狀態下的行為做出反應。然而，環境模型并不總是可用的。無模型方法解決了這一挑戰。

正式表示完全可觀察的環境（即智能體的觀察完全描述當前環境狀態的環境）以進行強化學習的流行方法之一是使用馬爾可夫決策過程（MDPs）。馬爾可夫過程是服從馬爾可夫性質的一系列隨機狀態S：在給定當前狀態的情況下，未來狀態獨立于過去狀態。

其中是第時間步的狀態,t是當前時間步，是發生的概率。MDPs是馬爾可夫過程的擴展：除了表征馬爾可夫過程的狀態集S和狀態轉換集P之外，還有可能的動作集A和獎勵集R。

3 空中威脅評估——人工智能工具

本節將把空中威脅評估的任務與人工智能工具的能力聯系起來。 AI 能力將映射到威脅評估的每個階段，并將展示如何將其集成到現有能力中或改進現有能力。

3.1 AI 工具在威脅評估中的優勢

如第 1 節所述，ADOs等操作人員面臨認知和身體挑戰，這些挑戰不利于其做出可靠決策的能力。人工智能工具將通過提供以下兩個主要好處來應對這些挑戰：

1.減少認知和身體負荷量：人工智能工具為操作員提供的支持和顯示將緩解導致操作員總壓力的眾多因素。這種好處是通過使用決策支持系統(DSS)的設計原則來提供的。

2.利用最先進的方法：人工智能的機器學習方法是一個非常受歡迎的研究領域，因此在方法的開發和改進方面做了大量工作。通過使用AI支持空中目標決策，該系統可以使用和利用最先進的方法。

3.2 威脅評估中的 AI 工具組件

如2.2小節所述，通用AI工具中有多個組件可以專門用于評估。威脅評估AI工具中的組件及其專業化如下：

1.操作員（Operator）是評估過程中的ADO。操作員將負責確保提供給AI工具的信息盡可能準確。然后，ADO將與該工具交互，以充分了解威脅情況，并獲得AI生成的威脅評估。

2.咨詢能力（Advisory?Capability）負責與ADO以及各種傳感器和數據庫系統進行交互。這將涉及從雷達和其他傳感器收集數據，以及解釋從情報報告中獲得的數據。咨詢能力還負責確保ADO可以有效地與計算機界面一起工作。更新界面可能涉及一個可以結合機器學習的動態過程。

3.領域知識（Domain Knowledge）將包括ADO的經驗以及他們用來進行準確評估的任何規則。在空中威脅評估中，這可能包括常見的高度、異常的飛行模式或敵軍作戰節奏的變化。

4.算法組（Algorithms）負責目標數據的處理和威脅評估。這將包括處理軌跡數據以獲得提示數據，并使用提示數據和領域知識來評估目標的威脅。可能的評估算法包括基于規則的方法[3、4]、貝葉斯方法[3]和本報告[5]中提供的AI技術。

5.環境（Environment）為人工智能工具提供操作限制和目標數據。更具體地說，環境包括檢測和測量目標的傳感器系統以及來自更高軍事指揮鏈的任務概覽和命令。

3.3 機器學習在威脅評估中的應用

由于機器學習方法的種類和成功率眾多且不斷增加，機器學習在威脅評估中的應用數量僅限于研究人員的知識和經驗。本報告將概述如何將三種主要機器學習范式應用于人工智能工具進行威脅評估的示例。

3.3.1 監督學習

通過一組標記的過去目標示例，其中每個示例包含有關歷史目標及其相應威脅值標簽的信息，監督機器學習可用于將威脅值分配給目標。在[21]中，監督學習被用于構建多標準決策（MCDM）方法（EMCDM）的集成，以根據當時的線索值推斷目標在某個時間點的威脅值。EMCDM技術由各種MCDM方法組成，它們的輸出組合成一個單一的威脅值。MCDM方法的輸出基于作為輸入的提示值。用于訓練EMCDM技術的監督學習技術取決于集成技術的類型。例如，在加權組合EMCDM技術中，MCDM方法是使用監督學習調整的組合權重。在所有的EMCDM訓練中，示例集由標記的目標實例組成，其中目標實例被定義為目標在某個時間點的提示數據。

3.3.2 無監督學習

可以從目標中提取各種信息。因此，對于某個目標，可以為系統提供關于目標的大量線索，作為威脅評估的基礎。無監督學習可用于分析提示數據，以深入了解底層結構和模式。例如，無監督學習的一種用法是降維。通過降低提示數據的維數，系統可以處理更緊湊和簡潔的目標描述。換句話說，目標是以數據可以提供關于目標的大致相同信息但使用較少資源的方式轉換數據（例如，使用10個提示而不是50個提示）。

實現降維的一種方法是主成分分析（PCA）[23]。PCA旨在通過學習最大化新子空間中數據方差的線性變換，來表達低維子空間中的數據。最大化數據方差背后的直覺是假設更高的方差意味著更多的信息量。數據原本會有一定量的方差/信息。PCA嘗試使用低維子空間來近似數據，同時盡可能多地保留原始方差。PCA的結果之一是檢測和去除數據中的冗余，從而在沒有不必要的線索的情況下描述目標。然后可以將這些PCA生成的線索視為要使用的新的各種線索。然而，在應用過程中需要考慮基于PCA的假設（例如，方差足以描述信息量，主成分是正交的）。

自動編碼器[9]是經過訓練以將輸入重新創建為其輸出的神經網絡。自動編碼器通常由兩部分組成：編碼器和解碼器。編碼器網絡生成低維潛在特征。然后將潛在特征輸入到解碼器網絡中，該解碼器網絡嘗試輸出最初輸入到編碼器中的內容。通常存在約束和限制，以防止自動編碼器能夠完美地重新創建輸出（即，它只能提供近似值）。結果，模型被訓練為優先使用最有用的數據特征。因此，與PCA類似，自動編碼器可用于使目標提示數據更加簡潔，并且僅包含足以描述目標的提示數據。自動編碼器的其他用法也存在。例如，自動編碼器可用于去噪[24]應用程序。這在威脅評估中特別有用，因為目標數據（例如，傳感器數據、提示）本質上是含噪的。

除了降維之外，無監督學習的另一個用途是聚類。文獻中有大量關于用于聚類的無監督學習算法的工作，所有這些算法都用于威脅評估。在不關注特定算法的情況下，聚類的一種用途是將感興趣的目標與歷史目標進行聚類。這樣做的目的是發現感興趣的目標是否與歷史目標相似。如果有關于如何處理過去目標的知識，操作員可以在決定對當前感興趣的目標采取何種行動時考慮這些信息。

3.3.3 強化學習

可以將威脅評估過程建模為強化學習問題。例如，咨詢能力可以在操作期間使用RL來了解操作員希望如何顯示信息。這類似于社交網站知道在首頁上顯示哪些項目的方式。例如，如果RL模型有一個獎勵處理速度的策略，它可以測量從ADO開始評估到ADO提交威脅評估所花費的時間。這將允許模型因導致更短的威脅評估過程的行動而獲得獎勵，從而鼓勵更有效的交互選擇。如果某個深度為兩級的菜單項（即，它需要兩次單擊才能訪問）被頻繁使用，則模型可以將該菜單項放置為第一級深度項。如果該項目被非常頻繁地使用，則該項目應該在主屏幕上被賦予一個突出的按鈕位置。在空中威脅評估應用程序界面上工作的強化學習算法將能夠進行這些和其他更改，以檢查威脅評估的時間是否正在減少，在這種情況下，它將獲得獎勵。

有大量研究和許多資源可用于解決MDPs，這使得使用MDPs解決RL問題成為一個不錯的選擇[25]。

3.4 結構與流程

人工智能工具的結構需要考慮多種因素。該工具將在流程管道中運行，從數據收集和準備開始，到模型訓練，然后到模型預測，最后為用戶顯示結果。在AI工作流程中，可以更容易地將結構視為流程工作流[26]。一旦AI工具經過訓練，它就會不斷返回到周期的第一階段，并使用新數據和新見解進行重新訓練。這個過程使人工智能工具非常強大，可以隨著時間的推移保持準確性和有效性。

人工智能工具開發的第一階段是收集高質量數據。這些數據將存放在一個或多個可供AI工具訪問的數據庫中。人工智能工具將首先在數據庫中的現有數據上進行訓練，然后在生產時，它將主動監控任何操作數據庫中的最新數據，以便提供威脅評估。

除了收集數據，還必須確定最有效的機器學習或人工智能模型。該決定需要考慮可用數據的類型、數據的數量及其質量。與最終用戶面談也很重要，以確保所選模型將以對他們有用的格式輸出信息。這可能是一個要求，例如最終威脅評估值必須呈現為分類問題（例如，高、中、低）或回歸問題（例如，1.4、2.9、9.0）。要求也可能更嚴格，例如人工智能工具的推理必須能夠被人類操作員解釋。像這樣的要求可能會使現代機器學習研究的整個分支沒有吸引力，而是需要不同的模型。由于所選AI模型對整個工具的影響很大，因此必須在模型開發之前的早期階段收集最終用戶的需求。

一旦選擇了一個或多個模型類型，就必須對其進行訓練。在這個階段，由于上一步的需求分析，一些AI模型可能已經被淘汰。在此步驟中，將淘汰更多模型。在對數據進行訓練之前，通常很難判斷哪個機器學習平臺最有效。這意味著應該對多個模型進行數據訓練，并使用某種準確度指標進行比較。一旦確定了最準確的模型，該模型將被完全訓練并準備好在生產中使用。

下一階段是將模型部署到生產應用中。ADO獲得了一個功能性AI工具，可以連接到操作數據庫并協助威脅評估過程。輸出到ADO的最終值都將被處理和清理，最終格式將被確定。然后，隨著所有ADO將其威脅評估以及可用的線索提交給訓練數據庫，該工具將得到持續訓練。這將使該工具能夠與新出現的威脅和新情況保持同步。ADO還可以就AI工具提供的評估進行反饋。例如，如果AI工具提供“高”威脅評估，而ADO認為它應該是“中”，則ADO可以提供反饋信號，表明該工具不正確并且威脅等級太高。這將存儲在數據中并用于在線訓練，使其能夠不斷地向經驗豐富的ADO學習，也可以自學成型。

AI工具流程的最后階段是將工具轉移到精度維護。在這個階段，需要對工具進行監控，以確保準確性不會下降。該工具也將在此階段接收反饋并從ADO評估中學習。最后，人工智能工具的開發并沒有停留在這個最后階段；相反，它必須隨著威脅的演變、環境和要求的變化以及新的和更相關的數據變得可用，而相應地更新和改進。

圖3: AI工具中的模塊及其交互

圖 3 提供了AI工具中以下模塊的可視化表示：

1.數據庫組件

存儲傳感器數據、操作員情報和來自歷史數據的人為威脅評估。

2.數據訪問和存儲模塊

與數據庫交互以不斷地保存和讀取來自傳感器或人工操作員的數據。
查詢數據庫以提供關于1個目標的完整信息集，用于預測威脅評估。

3.數據預處理模塊

清理數據，處理缺失值，并正確格式化數據以用于訓練或訓練模型的推理。

4.ML 模型組件

實現機器學習模型的AI組件。這就是將整個工具定義為AI工具的原因。所有其他組件都用于支持該組件。
在訓練管道中，模型仍在開發中，可能會同時測試多個模型。
在推理管道中，已經選擇了一個模型，并由數據預處理模塊提供數據，以便它可以進行預測。

5.數據后處理模塊

在將推理步驟的結果顯示給用戶之前對其進行清理。
可以從零到一之間的預測值映射到更易讀的值或類別評級（例如，低、中、高）。

6.可視化/操作員交互模塊

負責所有操作員交互。提供數據的可視化和讀數，并以最佳方式傳達模型對威脅價值的預測。
獲取操作員對分配的威脅值的反饋（例如，太高、太低、非常準確）。
與數據訪問和存儲模塊通信，將操作員反饋存儲為有用的數據，以供未來訓練使用

3.4.1 人工智能工具集成

將ML組件集成到更大的AI工具中需要兩條不同的管道。第一個管道將是訓練管道，這是進行模型選擇、測試和訓練的地方。一旦確定了合適的ML模型，并且該模型已經針對所有當前可用的數據進行了訓練，它將在稱為推理管道的第二個管道中使用。

圖4顯示了訓練管道的可視化。第一步需要收集歷史威脅評估數據以及ADO威脅標簽（如果所需的ML模型使用監督學習算法）。接下來，這些數據將通過數據預處理模塊合并為格式良好的數據集。然后，這個大型數據集將被分成三個不同的集合：

1.訓練數據集：該數據集將是ML模型在訓練時唯一看到的數據集。它也將是三個數據集中最大的一個。通常在本節中描述的三組之間決定百分比分配。這取決于系統設計者的判斷。常見的比率是80/20或90/10，具體取決于可用訓練點的數量。這些點將用于訓練模型，但重要的是保留一個保留數據集，以確保您的模型不會過度擬合訓練數據（即，無法泛化到新的未見數據點）。

2.驗證數據集：這將在訓練進行時用作測試集。這些數據不會用于訓練模型，而是在訓練的非常時期結束時，將在這個小集合上測試模型。這對于確定模型何時得到充分訓練很有用。即使模型在訓練數據集上的損失可能會繼續減少，但如果驗證集上的損失已經趨于穩定，那么模型可能會過度擬合訓練數據集，應該停止訓練。

3.測試數據集：該數據集將為所有候選 ML 模型提供最終評估指標。它不會用于訓練，并且模型設計者也必須不要檢查此數據集。這將確保模型超參數不會根據此測試數據集進行調整。測試數據集的價值在于發現ML模型是否可以泛化到來自類似于訓練示例分布的看不見的數據點。如果測試數據集的損失遠高于訓練集和驗證集，則模型很可能對其訓練數據進行過擬合。如果有多個候選ML模型，則可以使用測試數據集上的損失和準確率來確定選擇哪個模型。

在模型訓練期間將使用訓練和驗證數據集，在模型評估期間將使用測試數據集。

圖4 ：ML 模型訓練管道

一旦最佳候選ML模型經過訓練和選擇，它將用于AI工具的生產版本。該模型將用于實時提供在線推理/預測。候選模型的訓練和測試可以繼續進行，也可以納入新模型或研究。這將確保AI工具始終使用性能最佳的ML模型。

一旦經過訓練的模型展示了所需水平的能力，就該使用推理管道了。推理管道是ML組件，將在操作中使用的實際AI工具中使用。該管道的示意圖如圖5所示。

圖5：ML 模型推理管道

人工智能工具將被要求不斷監控傳感器和操作員的情報，以獲得最準確的現實畫面。該數據將組合成與每個空中目標相關的提示數據集。一旦一組提示數據可用，它將被提供給ML模型，以便進行預測。然后，該預測將通過本工作前面討論的AI工具的其他組件提供給ADO。一旦投入生產，該模型還將通過運行來自新威脅評估情況的示例和迄今為止ADO對預測的反饋來保持最新狀態。這種訓練可以以在線方式（即連續）完成，也可以通過批量訓練（即以設定的時間間隔一次對所有示例進行訓練）完成。該模型還將對其性能進行監控，以確保準確性和損失不會隨著操作現實的變化而隨著時間的推移而降低。如果檢測到性能下降，則人工干預和糾正可以使系統恢復到以前的性能水平。

3.5 威脅評估和人工智能流程

本小節將解釋威脅評估過程的背景以及傳統上它是如何完成的。它還將標志著傳統流程中的挑戰和通過智能決策支持系統(DSS)改進的機會。還將介紹AI工具及其與傳統DSS威脅評估的關系。

3.5.1 用于威脅評估的因素和結構

有關因素信息和分類的描述，請參見[21]。出于 AI 目的，因素數據應構造為包含m個因素的向量，其中m是觀察中的因素數量，每個條目是一個因素值。每個完整的向量都是一個樣本，如果有足夠大的樣本訓練數據集，就可以進行機器學習。

對于空中威脅評估，已經確定了16個因素來構成關于目標的最有價值的信息[4]。這些見表 1。

表 1：用于目標威脅評估的因素。

3.5.2 挑戰和機遇

威脅評估過程絕非易事。這是一項壓力極大的任務，需要做出復雜的決策。該過程的認知和物理性質是由于各種原因造成的，當它們結合起來時，會對操作員的決策過程產生不利影響。

操作員不僅必須處理來自各種來源的大量和類型的信息，而且還要同時管理多個任務。例如，操作員管理可能來自眾多媒體、顯示器和人員的音頻、口頭和視覺信息[4]。除此之外，他們還必須執行其他任務，例如監控指定監視區域內的空中目標、了解可用資源以及準備情況報告[4]。這種高度的多任務處理和信息過載給威脅評估任務帶來了認知復雜性和身體壓力。

除了大量數據之外，運營商還面臨著信息中固有的不確定性。運營商必須考慮到數據源的不完善性以及人類行為的不可預測性[3]。不確定性量化和感知在威脅評估過程(和戰術軍事行動一般[3]，因為運營商依賴決策過程中的數據來獲取環境(和對手)的感知。

在時間限制下操作人員的工作也造成了相當大的壓力。需要時間來收集信息、處理信息并最大限度地減少不確定性。但是，空中目標正在高速移動，因此必須根據可用的融合做出決策此外，用于信息收集/處理和不確定性最小化的時間越多，制定后續決策和行動的時間就越少，對手收集/處理信息和行動的時間就越多。最后，錯誤決定的后果是嚴重的，甚至可能是災難性的。飛機的錯誤分類1988年造成290名平民死亡的事件[27]就是決策失誤的一個例子。操作員工作的重要性和不正確執行的后果增加了任務的壓力。

運營商在威脅評估過程中面臨的挑戰促使人們研究如何在不影響威脅評估可靠性的情況下減輕認知和物理工作量。更具體地說，有機會開發用于空中目標威脅評估的決策支持系統(DSS)[4]。圍繞DSS的設計原則（即DSS 所包含的內容）有許多著作。

DSS的關鍵要求之一是它不能取代運營商；相反，DSS是對運營商的補充。[3]將此要求描述為DSS充當“決策支持而非決策自動化”。這方面允許在威脅評估過程中操作員和系統之間的協作。讓人參與決策過程是至關重要的:人在環方面確保每個決策都有責任。軍事行動的合法性要求問責是其行動的組成部分，問責包括明確的合法性和道德標準。如果在這個過程中沒有操作者，那么誰應該為錯誤決策的后果負責的模糊性就會帶來法律和道德上的分歧。

除了確保操作員始終參與決策之外，文獻中還介紹了其他設計原則。[2]根據文獻及其實地工作，詳細列出了設計威脅評估系統的規則。顯著的設計特點包括：

1.透明度：DSS應該能夠證明其計算和后續建議的合理性[3,4]。因此，DSS應向操作員提供導致最終值[2]的中間計算以及每個提示對最終威脅值[4]的影響。消除DSS的黑盒特性的重要性在于建立對系統的信心和信任[3]。如果不知道決策/建議是如何生成的，人類不太可能接受自動化系統的決策/建議[29]。理解上的不透明為誤用和錯誤創造了機會[12]。由于使用機器學習方法來構建AI工具，因此這是這項工作的一個重要考慮因素。機器學習方法不限于人類定義的決策規則，因此可以表現出黑盒性質。因此，與傳統DSS相比，AI工具的透明度更為重要。

2.處理不確定性：DSS決策所依據的數據中有許多不確定性來源（例如，傳感器數據、威脅值計算中的參數）[2]。處理不確定性也是DSS的一個重要設計特征，因為它允許運營商調整他們對系統的信任級別。在[2]中，這個設計方面是通過使用提示數據的區間表示來實現的。

3.信息的有效和交互式顯示：使用圖形格式顯示信息很重要，因為威脅是一個模糊的概念[4]。應傳達給操作員的重要信息是威脅等級、威脅歷史、線索列表[4]，以及與建議相關的不確定性[3]。除了顯示信息之外，系統還必須能夠提供操作員可以與之交互的媒介。這可確保操作員留在威脅評估過程中[3]。

本報告中提出的人工智能工具可作為空中目標威脅評估的DSS。人工智能工具的人工智能方面在于系統的運行方式。更具體地說，人工智能工具將把人工智能概念（例如，機器學習、適應）納入其操作中。

3.6 AI 工具

AI工具將能夠集成到空中威脅評估的所有階段。本小節將描述威脅評估的每個階段與AI工具的能力之間的關系。

空中威脅評估的階段如下[4]：

1.掃描并選擇提示。

2.比較、調整適合和適應。

3.計算威脅等級。

4.繼續處理。

關于1（掃描并選擇提示），AI工具將能夠使用所有可用的提示。這與人類操作員不同，后者僅審查18個可用于評估飛機的線索中的6到13個[4]。這些信息將通過各種傳感器從環境中收集，然后通過通常的情報報告或傳感器讀數方式進行報告。這些數據將被編譯到一個數據庫中，供AI工具訪問以從中進行學習和預測。

關于2（比較、調整擬合和適應），AI工具將對數據庫中可用的線索進行計算。該數據可以與ADO專家提供的感知數據（例如預期海拔）進行比較，并檢查實際數據是否一致。如果數據與預期不一致，人工智能工具會將差異與歷史示例進行比較，以提供對差異的解釋或調整。如果數據無法協調，則可能需要調整模型的擬合度，人工智能工具可以選擇將飛機作為不同類型（即軍用、民用）進行處理。

關于3（計算威脅評級），人工智能工具將使用可用的線索，如果它增強預測，可能還會使用這些線索的子集，來預測目標的威脅評級。 Liebhaber、Kobus 和 Smith 在[30]中發現威脅等級獨立于檢查的線索數量。

關于4（繼續處理），如果所有提示數據都可以充分解釋，人工智能工具將完成分析，或者它將繼續搜索和處理新的提示。這個過程將一直持續到模型通過基于解釋的輸出獲得ADO的批準，或者直到所有可用的線索都被處理并且模型擬合得到盡可能好的調整。

3.7 AI 工具在威脅評估中的挑戰

第3.5.2節概述的關于操作員對DSS的信任的關鍵點之一是用于生成威脅評估結果的模型的透明度。操作員很難對沒有提供理由和解釋的機器輔助預測有信心[4]。出于這個原因，已經創建了許多在計算和標準加權方面具有透明度的DSS方法。例如，許多MCDM方法可以為每個單獨屬性的權重以及它們如何對最終威脅評估做出貢獻提供充分的理由。這是MCDM DSS工具的優勢之一。不幸的是，這種透明性可能會導致工具缺乏復雜性和表現力。相反，機器學習工具可以同時基于所有數據點之間的非常深的聯系做出假設，這可能是以人類不會的方式。這種增加的復雜性往往會降低工具的透明度和可解釋性。

某些機器學習方法的結果仍然是透明的，并且以與自學的MCDM方法相似的方式工作。例如，線性回歸模型可以提供每個線索如何影響最終威脅評估評估的完整理由。該模型既受益于透明度，也受益于無需人類專家參與的自學。

其他一些機器學習模型并沒有從透明度中受益。最先進的機器學習模型之一是神經網絡。這是一個擁有大量研究的大領域，也是深度學習分支的新爆炸。這些方法不那么透明。在[31]中發現的2020年文獻調查探索了許多現有的試圖使神經網絡和深度神經網絡推理對最終用戶可解釋的工作，但是，局限性仍然存在。

現實世界的威脅評估變量通常包括決策過程各個級別的不確定性。對威脅評估準確性的最大影響之一來自根本沒有獲取的數據。這種丟失的數據可能是由于無法收集、傳感器故障、傳感器誤報或許多其他原因造成的。當數據完全丟失時，就很難就目標所擁有的威脅做出明智的決定。幸運的是，機器擅長執行計算，可以估計、替換或忽略丟失的數據。

在[22]中，探索了為每個決策結構預先計算不同查找表的選項。這將涉及根據每種可能的信息缺乏狀態訓練許多不同的模型，并將它們與完整狀態相關聯。這假設對于訓練有大量完整的示例可供借鑒。不幸的是，“為所有可能的輸入組合訓練網絡的天真的策略在復雜性上呈爆炸式增長，并且需要為所有相關案例提供足夠的數據”[32]。相反，[32]建議定義一個可以被認為是真實的基礎模型，然后將所有數據與該模型相關聯。

在許多可能的情況下，在訓練時沒有或只有很少的完整示例可用。在這種情況下，必須確定是僅使用完整數據進行訓練，還是以某種方式合并不完整的示例。在[32]中，發現用均值代替缺失輸入會導致比僅基于完整示例訓練網絡更差的性能。因此，尋求改變神經網絡架構或訓練方法的方法，以有效地合并（可能大量）不完整的數據示例。

使用不完整數據進行訓練的最有效方法之一來自[33]。本文證實，在訓練神經網絡中使用原始不完整數據可能是比在學習開始之前填充缺失屬性更好的方法。所采用的方法涉及對神經網絡架構的輕微改變，但應該與大多數現有架構兼容。該方法通過將第一個隱藏層中典型神經元的響應替換為其期望值來工作。高斯混合模型在每個神經元的輸出上進行訓練，以學習概率密度函數和期望值。這消除了通過單個值對任何缺失屬性進行直接插補的需要。 “隱藏層不是計算單個數據點的激活函數（對于完整的數據點），而是計算神經元的預期激活”[33]。該方法還取得了與其他現有方法可比的結果，這些方法可以從不完整的數據中進行預測，但需要完整的數據進行訓練。

另一種方法可以通過提高缺失數據插補的準確性來采取。[34]研究了文獻中許多可能的數據插補解決方案。它還指出，一些無監督學習聚類算法，如分類和回歸樹(CART)和K-means，已適用于缺失數據的問題。缺失數據插補的優點是不需要對實際的機器學習模型或平臺進行任何更改。當前存在或將來構建的任何基于完整數據提供準確預測的方法都將有效地處理通過插補生成的數據。數據插補的目標是以盡可能接近現有真實數據分布的方式填充缺失值。如果成功完成，則可以對新完成的數據使用現有的統計分析和機器學習工具。

4 AI工具的架構

在本節中，將討論AI工具的潛在架構。將涵蓋從面向操作員的界面到AI組件組合的設計。所提出的AI工具的整體架構可以在參考文獻[35]中看到，它需要三個主要組件，如圖6所示。

圖6：AI 工具的概念框架

未來的人工智能工具可能會將舊的基于模型或自上而下的方法與新的數據驅動的自下而上的方法結合起來。這種類型的系統允許人工智能工具擁有一個由數百或數千個專家派生規則以及數百萬條特定領域知識（如歷史傳感器數據）組成的知識庫[36]。一種可以結合領域專業知識和數據驅動學習的人工智能系統是回歸樹。圍繞回歸或分類樹構建用于空中威脅評估的AI工具將是一個不錯的選擇。回歸樹的另一個好處是它們的輸出可以被人類操作員解釋，并且可以解釋它的選擇。整個模型基于一系列決策或規則，這些決策或規則可以在操作員界面中作為理由提供。這使ADOs可以對AI工具提供的評估充滿信心，或者質疑為什么某個值的解釋與他們的解釋不同。

AI工具的前端組件將是所有ADO交互發生的地方。它將顯示可用信息和AI工具獲得的見解。它還將允許ADO與信息交互并形成自己的結論。此前端將需要分析ADO工作流程。在[4]中已經對美國海軍ADOs進行了采訪，并提出了許多不同的圖形顯示建議。前端應顯示計算出的軌道威脅等級，并為該評估提供證據和解釋。還應提供原始數據，以便ADOs可以確認AI工具的假設。盡可能以圖形方式呈現給用戶的概率，因為這會減少冒險行為[37]。前端還將通過使用強化學習來利用AI功能。應制定一項獎勵快速完成ADO活動的政策，例如將資源分配到目標軌道以保護資產。此RL算法將能夠決定用戶界面(UI)元素的放置位置以及UI上顯示的內容。如果將常見動作從菜單移動到主顯示屏增加了RL功能獲得的獎勵，那么ADO完成任務所用的時間將會減少。這確保了前端最終變得最優，并適合實際ADOs的工作流程。

人工智能工具后端的兩個不同元素之間存在區別。在AI中，該工具可以是正在學習的，也可以是經過全面訓練并準備好執行的。首先將檢查學習后端。無論是第一次訓練AI工具還是處于持續學習狀態，它都會利用學習后端。學習后端連接到包含歷史數據的知識數據庫，可用于提供數百萬對自下而上的人工智能技術有用的數據點。這是機器學習和決策樹將特別有效的地方。如果實施決策樹學習算法，它將能夠創建有助于根據歷史數據和決策對新目標進行分類的規則。這些規則還允許AI工具向ADOs解釋其輸出。

當工具準備好用于生產并與前端交互時，將使用正在執行的后端。這種執行就緒狀態將存儲自上而下或基于模型的人工智能的人類專家規則。該組件將是一個由學習后端輔助的專家系統。通過對ADOs的專業知識和對目標線索重要性的看法的采訪中獲得的數千條規則將使其成為AI組件。同時，通過將這些人工規則與通過機器學習在學習后端找到的規則相結合，可以優化值和預測。

一些功能性和非功能性需求可以從目前已知的用于威脅評估的AI工具中指定。更高級的要求應通過與未來ADO 客戶的面談來制定。

4.1 功能需求

1.當傳感器或智能數據更新時，人工智能工具應攝取數據并進行訓練或預測。

2.AI 工具應為 ADO 定義的感興趣區域內的所有目標提供評估預測。

3.界面應提供評估說明并允許 ADO 交互。

4.AI 工具應提供自動模型訓練或新數據的重新訓練。

5.AI 工具應與 ADO 請求時可用的任何數據子集一起使用，并在新數據可用時合并它。

4.2 非功能性要求

1.AI 工具應在數據可用后 100 毫秒內提取數據。

2.AI 工具必須處理每個實例和感興趣區域的數百個目標。

3.AI 工具應在 2 秒內提供 ADO 要求的特定威脅評估。

4.界面必須符合 ADO 偏好，并允許在 3 次點擊內訪問所有常用命令。

5.人工智能工具必須對缺失的數據做出強有力的反應，并繼續進行評估和學習。

4.3 未來步驟

本報告之后的下一步將是開發供ADOs用于空中威脅評估的AI工具。為完成此目標應采取的一系列步驟如下：

1.需求分析：人工智能工具開發人員應在威脅評估過程的每個階段與關鍵決策者坐下來。應采訪ADOs，以確保該工具滿足其工作模式和預期結果的所有要求。還應與流程早期的關鍵人員進行面談，以確保系統兼容性。這將包括傳感器和其他資產經理，他們可以確認系統輸出將如何格式化并提供給AI工具。人工智能工具完成分析后，需要以有用的格式輸出和存儲，因此依賴人工智能工具輸出的系統中的決策者應該分析他們的需求。

2.確定AI工具所需的組件：完成需求分析后，開發人員應決定哪些通用AI工具組件將需要，哪些可以省略（如果有的話）。可能還需要開發某些專門的組件來支持威脅評估和軍事環境所面臨的獨特挑戰。應該開發工具的架構，并為每個組件分配明確的職責。該架構還將受益于每個組件之間的嚴格輸入和輸出合同，以便數據可用于現有系統。

3.AI和ML組件的選擇和評估：架構和需求確定后，應該明確哪些類型的AI和ML適合該問題。每個可能涉及AI或ML的組件都需要提出和訓練多個候選人。然后將比較這些候選者，以確定哪個最有效地解決了獨特的要求。一旦選擇了最佳模型并選擇了正確的AI類型，所有模型將被移入生產環境并準備連接到AI工具中的其他組件。

4.文檔和培訓：一旦開發了最終的AI工具并通過代碼注釋和其他文檔工具正確記錄了文檔，就該開發外部文檔了。該文檔應傳達AI工具的實用性以及如何有效使用它及其功能。審查ADO要求將有助于為受眾塑造文檔。一旦開發了該工具，培訓會和從ADOs收集反饋將很有用。

5.集成到生產系統：人工智能工具將投入生產，以協助ADOs進行空中威脅評估。需要檢查智能管道中較早的系統和管道中較晚的系統之間的所有連接以確認兼容性。

6.監控和維護：隨著時間的推移，隨著新威脅或新情況的發現，人工智能工具將能夠得到更新和改進。無論是通過人工還是自動系統，持續監控AI工具以確保預測質量不會隨著時間的推移而降低，這一點很重要。通過使用新版本更新舊模型，也可以納入AI和ML研究的新改進。

5 結論

人工智能工具是執行通常由人類處理的復雜任務的最先進方法。這為提高人類操作員的效率和有效性提供了許多可能性，例如執行高腦力任務的ADOs。威脅評估就是這樣一項非常適合人工智能協助的任務。重要的是要承認，人工智能工具不會取代操作員做出關鍵決策：相反，它們將為決策者提供更準確的數據，以有效地做出關鍵和及時的決策。

將ML集成到AI工具中可以帶來許多過去只能通過人類設計才能實現的新可能性。ML可以讓AI工具在沒有人類教授或者面對不斷變化的情境要求或敵人能力的情況下，從數據中學習。它可以重新設計AI工具交互，使其對 ADOs盡可能有用。它可以幫助將新目標與歷史示例進行聚類，從而為ADOs提供更好的威脅心理模型。可以自動檢測異常數據或空中目標并向操作員報告。

熟練和經驗豐富的ADOs與AI工具的結合將實現更快、更準確和更強大的空中威脅評估。通過讓人工操作員參與進來，該工具將保持ADO的責任和專業知識，同時提高生產力和效率。結合處理不完整數據狀態的現代方法也將使該工具對數據不準確或不可用具有魯棒性。

因此，該工具應該有助于國防和威脅評估過程。

付費5元查看完整內容

AI與軍事 · 人工智能 · 論文 ·

2022 年 4 月 10 日

[付費5元查看完整內容]【AI+軍事】附論文+PPT《機器智能與信任：人工智能對聯合作戰的影響》，挪威國防研究機構 20號研究所

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

人工智能領域的進展繼續擴大這組技術的潛在軍事應用范圍。本文探討了信任在人機聯合作戰中的關鍵作用，以及依靠人工智能來補充人類認知的潛在影響。如果依靠人工智能來準確處理傳感器數據，操作自主系統和平臺，或通過擬議的作戰概念（如以決策為中心的戰爭）提供有利的決策支持，設想機器智能的中央指揮和控制作用，那么信任機器智能將是未來作戰中的一個關鍵組成部分。鑒于這些技術和理論的發展，信任的概念對于機器智能在戰術和作戰層面的軍事行動中的使用變得高度相關，正確校準的信任水平是安全和有效行動的基礎。在簡要回顧了機器智能的最新進展和對信任概念的探索之后，本文概述了人工智能在戰場上的當前和潛在應用，以及由不充分或不合理的高信任度帶來的挑戰。

引言

縱觀歷史，技術已經擴大了武裝沖突的領域，戰術交戰的節奏，戰場的地理范圍，以及指揮官與部隊溝通的手段。技術創新--包括軍事和民用--改變了軍隊的作戰方式以及國家計劃和進行這些沖突的方式。在21世紀，迄今為止，很少有進步能像統稱為人工智能（AI）的一組技術那樣獲得如此多的關注。人工智能正準備迎來一個新的時代，在這個時代，機器智能和自主性正在為軍事行動的規劃和執行產生明顯的新概念。算法戰爭可能會帶來一些獨特的東西：增強甚至取代人類決策過程的系統，其速度可能超過人類規劃者的認知能力。
新興技術的整合提出了任何數量的基本組織和倫理問題，值得關注。本文將采用定性的社會科學方法，重點討論人類-自治團隊（HAT）的一個重要方面：鼓勵對機器智能的適當信任程度。有大量的學術文獻關注自動化或機器人技術中的信任問題，但有關具體軍事應用的工作較少。當人工智能在聯合作戰中被實際部署時，在信任方面有哪些挑戰和機會？在簡要回顧人工智能和概述機器智能在戰場上的可能應用之后，本文在分析鼓勵適當信任水平的陷阱和潛在解決方案之前，探討了信任和信任校準的概念。

人工智能的進展

幾十年來，人類一直對賦予機器某種形式的人工智能的可能性著迷，Nils Nilsson將其定義為 "致力于使機器智能化的活動，而智能是使一個實體在其環境中適當運作并具有預見性的品質"。在數字時代的早期，出現了兩種廣泛的人工智能方法。自上而下的專家系統方法使用復雜的預編程規則和邏輯推理來分析一個特定的數據集。對于具有可預測規則的明確定義的環境--諸如分析實驗室結果或下棋等應用--專家系統或 "符號 "人工智能（基于符號邏輯）的性能主要取決于處理速度和算法的質量。另一大類使用自下而上的機器學習方法，模擬人類通過檢測數據中的模式進行學習的方式。神經網絡是一種以人腦為模型的機器學習形式，能夠通過使用多個（因此是 "深"）人工神經元層來識別復雜的模式，是被稱為 "深度學習 "的技術的基礎。通過其在數據集中尋找關系的能力，這種技術也被稱為 "連接主義"。
自上而下、基于規則的符號系統和自下而上的機器學習連接主義技術之間的差異是很大的，特別是關于它們的潛在應用范圍和靈活性。深度學習方法的顯著特點是能夠將學習與它所訓練的數據集分開，因此可以應用于其他問題。基于規則的算法可以在狹義的任務中表現得非常好，而深度學習方法能夠迅速找到模式，并在 "蠻力 "專家系統計算方法無效的情況下有效地自學應用。最近的一些人工智能進展顯示了模仿創造力的能力，產生了有效的解決問題的方法，這些方法對人類來說可能是反直覺的。
然而，總的來說，人工智能仍然是狹窄的或 "脆弱的"，即它們在特定的應用中功能良好，但在用于其他應用時仍然不靈活。與人類的認知相比，鑒于機器的計算速度遠遠超過人腦，機器智能在將邏輯規則應用于數據集時要優越得多，但在嘗試歸納推理時，它必須對數據集或環境進行一般性的觀察，這就顯得不足。大多數機器學習仍然需要大量的訓練數據集，盡管新的方法（包括生成對抗網絡（GAN）和 "小于一次 "或LO-shot學習）正在出現，需要非常小的數據集。圖像識別算法很容易被混淆，不能像人類那樣立即或直觀地理解情景背景。這種脆性也延伸到了其他問題，比如游戲。雖然人工智能在視頻游戲中經常表現出超人的能力，但他們往往不能將這種專業知識轉移到具有類似規則或玩法的新游戲中。
雖然人工智能技術繼續在變得更加適應方面取得重大進展，但任何接近人類的人工通用智能仍然難以實現。評估人工智能的近期前景因該技術的漸進式進展而變得更加復雜。圍繞著人工智能的炒作--在很大程度上被深度學習方法的成功所推動--既導致了對該技術未來的不切實際的期望，也導致了對其非常大的進展的正常化。正如一份報告所指出的，"人工智能將一項新技術帶入普通人的視野，人們對這項技術習以為常，它不再被認為是人工智能，而出現了更新的技術"。盡管象征性的人工智能和各種形式的機器學習構成了該領域最近的大部分進展，也許除了融合這兩種方法的嘗試之外，未來仍然不確定。一些人猜測，機器學習技術帶來的進展可能會趨于平穩，而另一些人則保持樂觀。相關的技術進步，如短期內的計算機芯片設計和長期內的量子計算，可能會影響進一步進展的速度。

付費5元查看完整內容

游客

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

1.0 引言

2.0 基于仿真的軍事決策

3.0 案例研究：聯合目標定位周期

4.0 討論：人工智能在軍事決策中的作用

5.0 結論和進一步研究

6.0 參考文獻

相關內容

報告研究范圍與關注領域

1.1 范圍

1.2 關注領域

1.2.1 軍事訓練

1.2.2 指揮官與參謀員的決策

1.2.3 網絡安全

1.2.4 MSG-189 的效益

1.3 報告結構

1 簡介

2 行動背景

3 優化民用飛機的人機接口

4 優化軍用飛機的人機接口

5 建議

作者

1 簡介

2 挑戰和考慮因素

2.1 機器學習過程

2.2 戰機的控制

2.3 倫理學

2.4 準確的情報和人工智能衍生的戰術

2.5 人工智能將位于何處？

2.6 人工智能會有什么 "感覺"？

3 結論

作者

簡介

主要研究成果

方法論

范圍和限制

摘要

1 引言

2 什么是國防工業中的混合戰爭？

3 仿真技術在國防工業中的應用

4 大數據

5 數據科學

5.1 數據分析

5.2 數據可視化

6 人工智能在國防工業中的研究

7 國防工業中的5G技術

7.1 物聯網（IOT）的任務

8 在戰爭中使用模糊邏輯

8.1 模糊邏輯處理

9 人工智能在國防工業中的優勢

10 人工智能在國防工業中的劣勢

11 結論

1 引言

2. 多域作戰中多智能體系統的戰略機動

3 挑戰

4. RL技術和方法

4.1 深度Q網絡（DQN）

4.2 深度確定性策略梯度（DDPG）

4.3 多智能體深度確定性策略梯度（MADDPG）

4.4 價值為本

5. 洞察力和結論

引言

報告結構

執行總結

摘要

國防與安全的意義

1 簡介

2 人工智能

2.1 概述

2.2 AI 工具的組成部分

2.3 AI 中的機器學習

2.3.1 概述

2.3.2 監督學習

2.3.3 無監督學習

2.3.4 強化學習

3 空中威脅評估——人工智能工具

3.1 AI 工具在威脅評估中的優勢

3.2 威脅評估中的 AI 工具組件

3.3 機器學習在威脅評估中的應用