首先,美國軍隊所支持的作戰任務范圍涵蓋了在日益困難的作戰環境下的廣泛作戰需求。第二,對手的性質和普遍性,不僅包括主權國家,而且包括非國家恐怖組織,威脅到美國利益的關鍵地區穩定和美國在國內和國外的利益安全。 第三,當前和未來行動范圍和速度對及時有效地適應和應對局勢的能力提出了挑戰。預測對手的行動并以否定或最大限度地減少這些行動的影響的能力仍將是發展軍事能力的首要目標。 最后,技術的進步不僅提高了自身支持軍事行動的能力,也提高了敵人的技術先進性。他們在自己的行動中利用越來越多的新興技術能力的能力,或者,可能更具破壞性,利用技術漏洞來對付美軍,增加了新出現的威脅。
雖然美國繼續享有對那些威脅美國和盟國的重大技術優勢,但這種優勢永遠處于危險之中。隨著美國防部試圖處理其目前和未來行動中日益增加的復雜性,自主性的發展、部署和利用被吹捧為擴大作戰能力的基本手段。
盡管幾十年來,自動化一直是軍事和工業應用的主要內容,但自動化系統的早期應用也面臨著類似的挑戰。自動化的可靠性已大大改善,并繼續推進適應不確定和模糊的作戰環境動態的能力。然而,這些同樣的技術,像大多數技術進步一樣,導致了意想不到的,而且往往是不理想的后果。大量的研究致力于了解適應性自動化和人類-自動化協調在校準自動化系統以適應復雜環境中的動態情況方面所發揮的作用。 復雜環境中的動態情況。
第711人類性能聯隊的協作交互和團隊處發起了一項計劃,調查與先進人類自主性互動相關的問題,特別是與現有的人類-自動化協調研究的對比。決策優勢行動工具(COATDS)任務的啟動是為了調查人機交互的問題,了解自主系統發展的原則,并利用這種理解來指導交互的發展,以支持和加強復雜工作領域的人機協調。
這份最終報告總結了 COATDS 工作的整體文獻綜述部分。有關文獻綜述工作的更多信息也可在兩份早期出版物中找到(Hooper 等人,2015 年;Duffy 等人,2016 年)。本報告的主要目的是為讀者提供有價值的信息,讓他們了解算法和技術的工作知識,以及迄今為止為將其應用于集成的人類自主系統而開發的最佳實踐。除非另有說明,否則信息來自普遍接受的知識或人工智能的主要教科書“人工智能:現代方法”(Russell Norvig,2003 年)中的著作。由于本節的目的是收集和呈現為了讓讀者對這些技術有一個粗略的了解,許多示例直接取自本文,沒有明確引用以提高可讀性。此外,我們為這項工作開發的分類法中包含對方法的審查,包括介紹性材料定義關鍵術語并提供統一的框架和描述符。該報告最后對許多解決問題的方法進行了簡短的分析總結,以提供一個方便的參考工具,交互開發人員可以使用該工具快速檢索關鍵信息。
美國空軍的電子戰綜合重新編程(EWIR)項目旨在在電磁頻譜(EMS)檢測對手威脅情報(特別是雷達和干擾器),并配置電子戰軟件和硬件,使飛機或其他資源能夠對EMS環境的不利變化做出反應和/或回應。隨著美國對手的電子戰資產的日益進步,使復雜多樣的EMS能力成為可能,識別、跟蹤和應對這些威脅需要比現有EWIR企業的設計速度快得多的更新。研究小組進行了四項相互關聯的技術案例研究,它們共同構成了創建近實時、自主、機上軟件重新編程能力所必需的基本要素,更具體地說,是人工智能支持的認知電子戰能力--使用機器學習算法,使平臺能夠學習、重新編程、適應并有效地應對飛行中的威脅。研究小組還強調了現有EWIR企業的重要持續作用,即使美國空軍正朝著認知型的未來發展。
第一章
簡介
第二章
對當前EWIR企業的評估
第三章
對未來EWIR的展望
第四章
認知型電子戰的操作化
第五章
云整合和數據工程
第六章
飛行程序軟件和容器化微服務
第七章
機載高性能計算
第八章
設想未來的電子戰能力。小插曲分析
第九章
建議
附錄A
研究任務和方法
附錄B
關于情報挑戰的其他信息
進行的研究
過去幾年中,機器人技術的顯著發展導致了人工智能(AI)的新 "夏天"。值得注意的是,機器學習和深度學習改變了日常生活。人類越來越依賴 "外部 "智能而不自知。軍方也已經認識到人工智能的巨大潛力。例如,安全部隊采用AI工具進行信息分析和面部識別。然而,人們的興趣還不止于此。技術先進的國家,如美國、中國和俄羅斯,已經開始參與有關人工智能軍事應用的軍備競賽。目前正在進行重大的研究和開發項目,通常涉及國防部門、私營公司和學術界之間的合作。鑒于人工智能的顯著優勢,在安全事務方面有一種強烈的自主性增強的趨勢。這包括在對物體和人員使用武力方面的自主性不斷增強的趨勢。
各國和法律學者已經開始辯論人工智能的軍事應用是否以及如何與現有的國際法,特別是國際人道主義法(IHL--這里同義地稱為 "武裝沖突法 "或 "戰爭法")兼容。在聯合國大會的授權下,致命性自主武器領域的新興技術政府專家組自2016年以來在《特定常規武器公約》(CCW)的框架內對此進行了審議。在此背景下,一些國家強調了根據1949年《日內瓦公約》第一附加議定書第36條和國際習慣法對武器、作戰手段和方法進行法律審查的重要性。評估新武器合法性的法律審查程序將確保各國不會采用不符合國際人道主義法的人工智能系統。學者們的工作呼應了法律審查與武器系統相關的越來越多的自主權的相關性,并開始確定出現的挑戰。人們注意到,新技術 "在某些情況下會使進行第36條審查的過程變得非常困難",這 "可能需要重新修訂舊的法律概念或帶來新的風險,而這些風險本身可能需要新的風險評估方法。" 2019年12月,第33屆紅十字會和紅新月會國際會議也表示,"為了使法律審查有效,開發或獲取新武器技術的國家需要駕馭[其]復雜性"。
本文回應了這一進一步思考的呼吁,并對該問題進行了深入挖掘。它首先概述了新興的人工智能技術及其軍事應用,稱為 "戰爭算法"。因此,這種分析適用于任何類型的人工智能的作戰使用,屬于法律審查的義務,包括其在網絡行動中的使用,這必然導致對人工智能的使用與敵對行動的關系的關注。文章接著調查了各國在外交論壇上的辯論和現有的學術文獻,概述了關于自主系統背景下的法律審查的不同觀點。文章進一步詳細分析了國際人道主義法規定的對武器、作戰手段或方法進行法律審查的義務,以及與這種審查有關的國家實踐。文章認為,雖然法律審查對于防止部署不符合現有國際法的武器和系統至關重要,但現有做法并不完全適合審查人工智能系統的合法性。
文章認為,各國必須使其法律審查適應新興的人工智能技術。對于向人類操作者提供關鍵要素以作出目標決定的人工智能系統和自主作出相關決定的系統,法律審查必須評估是否符合額外的規則,特別是國際人道主義法規定的目標法。然而,人工智能的應用在其可預測性和可解釋性方面帶來了重大挑戰。這種可預測性問題首先是一個操作和技術上的挑戰,可以通過核查和驗證的技術過程來解決,這個過程通常在法律審查之前。本文認為,對于嵌入人工智能的軍事系統,隨著法律被轉化為技術規格,技術和法律評估最終會合二為一。因此,各國需要進行法律審查,作為技術驗證和核查過程的一部分。雖然這需要定義和評估有關可預測性的新參數,以及其他后果,但文章認為,國家和工業界正在出現的關于開發和使用人工智能的準則可以為制定人工智能驅動系統的法律審查的新指南提供要素。文章的結論是,法律審查對于人工智能技術變得比傳統武器更加重要。隨著人類對人工智能的依賴程度增加,法律審查是其法律運作的重要把關人。
(圖:作家兼戰略家彼得辛格(左)于 2018 年 11 月 1 日在一個未命名的空軍設施與一名軍官和一名國防部文職人員討論新技術。人工智能和腦機接口等進步將改變陸軍作戰的方式。)
長期以來,決策一直是戰爭的核心。最近,戰爭的節奏、規模、不透明性、非線性和連通性的增加對當代決策過程提出了越來越多的挑戰。在未來,這種變化將同時增加及時和有效決策的重要性,同時進一步加劇許多指揮官的認知和決策挑戰。指揮官將尋找結構不良、高度復雜的問題的解決方案,這些問題延伸到空中、陸地、海上、信息、網絡和空間這六個領域。隨著新技術和新應用的實現,未來的事態對復雜性構成了潛在的增長,并將以指數級的速度增加。人類的學習,甚至是最老練的指揮官的直覺能力都無法跟上不斷變化的戰爭特征。要想把贏得戰斗的洞察力帶到未來,必須對人類的認知、決策過程進行改進,或對其進行增強。
決策能力和現有支持的割裂造成了分析性決策過程、指揮官的直覺和有效決策之間日益擴大的能力差距。當前和未來的環境表明,有必要開發更加靈活的決策支持工具,以阻止這種差距,并為指揮官重新獲得決策優勢。在一個不透明和復雜的環境中有效地預測未來幾場戰斗的能力將是成功的關鍵。同時,在一個能夠迅速使以前的計劃失效的動態環境中,理解并首先做出反應的能力對于奪取和保持主動權至關重要。
復雜性科學和混沌研究已經與類似的問題進行了斗爭,并為軍事指揮官的突發挑戰提供了相關的見解。計算機建模和人工智能(AI)方面的工作已經取得了巨大的進展。在許多游戲中,計算機已經超越了人類的決策能力。
從人工智能的主導地位中適應和發展,國際象棋中的人機團隊已經達到了決策的新巔峰,將提前數個回合評估未來動作的算法的卓越戰術與人類的戰略能力相結合。目前美國與人工智能和決策有關的國防努力似乎集中在大數據和數據分析上。然而,如果沒有一個改進的軍事決策框架,就不能利用預測性分析。否則,增加的數據和分析只會加劇理解日益復雜和動態的作戰環境的挑戰。
軍事決策過程(MDMP)雖然在分析上是合理的,但其結構并沒有跟上未來環境的步伐。沖突的速度將超過工作人員處理分析貢獻的能力。
用人工智能對MDMP進行修改和增強,將創造一個過程,以更快的速度產生對環境的理解,并以物理信息的框架為基礎。行動方案的制定將不會像現在這樣,從一個理想的最終狀態向后發展,在理論上運用方法和手段來創造一個想象的未來。由人工智能支持的MDMP將從當前狀態向前工作。它將通過友軍和敵軍決策樹的可能分支向前探索,走向各種環境和敵軍的行動路線,通過最小化風格的決策樹,將其作為適應性代理來實現。替代行動的未來將通過可行性的出現來建立,并通過優化作戰功能的貢獻來完成,固有的區別,然后由人機團隊的人類部分來判斷是否合適和可接受。重新設想的人-機MDMP將與未來的操作環境保持同步,通過以接近機器的速度操作來保持相關性,使人能夠在日益濃厚的戰爭迷霧中獲得卓越的視野。
指揮官雖然得到參謀部的支持,但最終還是利用自己的能力進行決策。當指揮官在進行問題解決以制定對其工作人員或下屬的指導時,他們基本上是在進行 "手段-目的分析,這是一個尋找手段或步驟的過程,以減少當前情況與預期目標之間的差異"。即使是直覺,即對一個事件或數據的突然有洞察力的解釋,也以類似的方法發揮作用。"盡管表面上突然閃現的洞察力似乎產生了問題的解決方案,但研究表明,人們在解決洞察力問題時使用的思維過程最好被描述為一種漸進的、手段-目的的分析。" 領導者認識到相似性,并將其與個人和所研究的歷史聯系起來,從而獲得洞察力。心理學家、經濟學家和諾貝爾獎獲得者丹尼爾-卡尼曼(Daniel Kahneman)用這樣的描述來解釋內部的、經常是半意識的過程:"產生印象、直覺和許多決定的心理工作在我們的頭腦中默默地進行"。數學物理學家、科學哲學家和諾貝爾獎獲得者羅杰-彭羅斯描述了一種無意識的思想發展和對這些思想的有意識判斷。
MDMP有一個類似的、不亞于人類的動態。參謀部通過行動方案(COA)的制定產生備選方案,并由指揮官決定。然而,在行動方案的制定過程中,正如在手段-目的推理中一樣,用于簡化計算的啟發式方法以及一些神經心理學上的缺陷,限制了選擇并注入主觀性。歸根結底,目前MDMP內部的COA開發過程仍然需要大量的頭腦風暴來解決。
與主觀開發選項形成對比的是基于衡量和計算的選項開發,而這一過程將由人工智能支持的程序執行。通過一些基于現有信息和過去沖突的數據的計算,可以對比出AI賦能的MDMP會提供的建議。
對2008年俄格戰爭期間的決策和計劃進行評估,在與歷史上的決策、行動和結果進行對比時,可以深入了解人工智能驅動的MDMP的好處。以下是人工智能驅動的MDMP背后的邏輯和過程。
俗話說,如果情報是用來推動機動的,那么對戰場的情報準備的產出必須作為COA發展的起點,使友軍COA的創建能夠實現對對手的不對稱,并執行對對手行動最有利的行動。
從對敵方力量的評估中,可以根據具體的任務變量來確定所需的友軍力量。要做到這一點,需要一種衡量對手戰斗力的方法。有許多復雜程度不同的方法來確定一個代表戰斗力的數值。
人工智能程序可以使最繁瑣的系統變得可行,所以它不像參謀部那樣受到復雜性的限制,特別是在時間有限的時候。雖然這個例子使用了戰區分析模型(TAM),但TAM并不是重點。指揮官、參謀部或學說推薦的任何東西都可以使用。
在2008年俄格戰爭爆發前,俄羅斯部隊在北奧塞梯駐扎。這些部隊可以按地點轉化為戰斗力值。例如,在馬米森山口附近的俄羅斯部隊可以按其組成部件進行統計,如人員、T-72主戰坦克、2S3自行火炮和BM-21多管火箭炮系統。
圖 1. 俄羅斯軍隊戰斗力計算
圖1中顯示的戰斗力范圍可以告知所需的戰斗力,這些戰斗力來自于格魯吉亞部隊的位置,用藍色矩形標注,以便在各種可能的情況下擊敗這支俄羅斯部隊。圖1中描述的兩種情況是俄羅斯使用西面的馬米森山口或東面的羅基隧道(帶箭頭的紅線)。
與戰斗力計算一樣,從計算機建模中得出的計算結果可以用來預測基于部隊和手段的相應相關性的傷亡。在這里使用的算法中,戰斗力是根據地形和任務類型對每種能力或系統進行調整。一旦對戰斗力進行了調整,該模型描述了在部隊比例為1:1時的傷亡分布情況,有一條非線性曲線,在戰斗力比例大約為4.4:1時趨于平緩,顯示了一個粗略的收益遞減點。這種計算方法不能提供 "任務成功 "的百分比機會,但可以提供預期戰損和傷亡的迭代,顯示雙方的戰斗力如何隨著時間的推移而受到影響。必須對將導致失敗或撤退的戰斗力損失做出假設,但這是一個很好的例子,說明人類的洞察力可以被迫提供具體的情況。從這些計算中出現的洞察力的開端是,1:1的比例仍然是消耗性的,而2:1的比例有可能在兩次反復中增長到2.4:1然后是4.5:1。這就形成了一種機制,在時間上尋求有利的戰斗比例,可以決定性地改變平衡。這不是一個水晶球,而是現有的最佳估計,能夠由工作人員有條不紊地進行,或由程序以機器速度進行。由于戰爭是一種明顯的人類努力,因此可以將士氣或本例中未包括的其他因素納入到額外的修改因素中。這種對戰斗力隨時間推移的理解提供了一個關鍵的洞察力,并可以為部隊分配的決策提供參考。在這一點上,可以產生一個對應于特定地點的友軍的有利戰斗力要求。圖2強調了格魯吉亞部隊如果在俄羅斯入侵路線上的起伏地形中進行防守時的理想戰斗力。
隨著南奧塞梯局勢的升級,格魯吉亞總統米哈伊爾-薩卡什維利于2008年8月7日為軍隊確定了三個目標。他指示他們 "第一,阻止所有軍車從俄羅斯通過羅基隧道進入格魯吉亞;第二,鎮壓所有攻擊格魯吉亞維和人員和內政部崗位或格魯吉亞村莊的陣地;第三,在執行這些命令的同時保護平民的利益和安全"。正如格魯吉亞國家安全委員會秘書亞歷山大-洛馬亞后來所證實的,"我們行動的邏輯是解除茨欣瓦利郊區的射擊陣地,并試圖通過繞過茨欣瓦利,盡快向羅基隧道靠近"。這一指令和支撐格魯吉亞軍事反應的邏輯為本文中繼續發展人工智能的COA提供了一個有益的對比。
圖2. 兵力比的正反饋循環
前面分析的圖1中的俄羅斯部隊是后來試圖通過羅基隧道進入格魯吉亞的第一梯隊部隊。被描述為向格魯吉亞部隊和村莊開火的部隊在茨欣瓦利附近活動,由奧塞梯人組成,由俄羅斯和奧塞梯 "維和 "營協助,人數增加到830人,大約300名雇傭兵,以及更多的大炮。由于他們有相當多的步兵,不同的任務,以及從茨欣瓦利城市中心倉促防守的地形,通過以前使用的相同方法,他們的戰斗潛力被計算為60。
談到格魯吉亞部隊和繼續發展他們最有利的行動路線,格魯吉亞第二、第三、第四和第五步兵旅以及戈里的一個單獨的坦克營的戰斗力和位置,作為計算的起點。他們與俄軍的距離和旅行時間,或關鍵地形,都可以計算出來。將這些信息與之前概述的俄羅斯部隊和之前討論的兵力比例知識結合起來,就可以利用目標編程,從數學上優化從每個格魯吉亞地點到羅基隧道或茨欣瓦利的戰斗力,以滿足有利的兵力比例,同時最大限度地減少總的旅行距離,從而最大限度地減少時間和后勤要求。
圖3. 戰斗潛力優化Python計劃的結果和建議的第4旅的分步任務組織結果
圖3左上角的優化程序結果顯示,格魯吉亞的戰斗力分配足以達到2:1的兵力比,以對抗進攻的俄羅斯部隊。對于第4步兵旅,建議在各目標之間分配戰斗力,后續的優化程序是按作戰功能確定各目標的不同作戰系統的數量,如圖3右上方所示。其結果是以理論為基礎的理性選擇解決方案,并通過在后期MDMP的COA分析步驟中為裁決戰爭游戲而保留的計算類型形成。人工智能支持的MDMP所實現的是使用詳細的分析來告知行動方案的最初發展,防止未來對次優COA的路徑依賴。
這種輸出就像分析數據以創造信息。合并這些信息的組成部分可以創造出知識,指揮官或參謀部可以對其運用智慧。這種方法不是像直覺所注入的那樣擁有不可解釋的因素,而是可以解釋的,并且可以在指揮官的具體規劃指導下進行修改。在這種情況下,裝甲、步兵和炮兵在進攻和防守中的有效性,以及丘陵和城市地形,都被納入優化的考慮范圍,輸出結果將炮兵優先送到羅基隧道。這一建議,雖然源于算法,但遵守人類的軍事判斷,認識到在城市中使用火炮的相對困難,以及步兵的相對優勢。毫不奇怪,行動后的審查指出,格魯吉亞的炮兵在丘陵地帶對付前進中的俄羅斯縱隊是有效的。
同樣,在這種修改中,通常為COA分析的后期步驟保留的計算類型被應用于COA的最初發展。正如加里-卡斯帕羅夫所描述的與計算機合作的好處一樣,人類也可以將作戰藝術應用于已經納入科學的概念。
許多計算可以被整合到程序中,以減少認知負擔,讓工作人員進步到更高層次的人工分析,其中一個例子就是時間。對于建議的每條路線,可以進行計算,根據車輛數量和其他變量確定更準確的時間。
將上述初級人機開發的COA的輸出與格魯吉亞國家安全委員會對其一般行動方案的闡述相比較,突出了人工智能支持的MDMP可以提供的優勢。人工智能的建議將一支更強大的格魯吉亞部隊引向羅基隧道,同時向茨欣瓦利投入部隊。很可能更早和更多地將部隊投入到羅基隧道附近的防御中,會極大地擾亂已經被渠化的入侵俄羅斯部隊,并阻止他們將火箭系統移到茨欣瓦利的射程內,并通過隧道將彈道導彈炮組進一步嵌入格魯吉亞,這對俄羅斯人來說是決定性的。
到目前為止,修改后的方法已經建立了一種發展 "下一步行動 "的方法,其基礎是對友軍和敵軍戰斗力的理解,這種戰斗力如何受到任務類型和地形的影響,以及部隊在移動和機動接觸中的時間關系。地面部隊的這些例子必須自然延伸到所有領域的戰斗力和效果的應用。這種技術能夠同時分析各個領域,并為跨領域效果的整合提供一個機制。近距離空中支援的架次可以被整合到地面領域,以便在地面戰斗的關鍵地點和時間提供更好的戰斗力比率。此外,在進行空對空作戰計算時,可以將地面防空資產納入空對空計算的因素。圖4顯示了通過羅基隧道進攻的俄羅斯地面部隊和推薦的格魯吉亞地面部隊的戰斗力,另外還強調了如何將俄羅斯的蘇-25戰斗機或格魯吉亞的SA-11系統納入其中。這為在領域內和跨領域進行的作戰行動創建了一個多維框架,并提供了一種同步匯合的方法。當一個領域的條件發生變化時,對其他領域和行動的影響可以在開始大大超過工作人員計算的復雜程度上進行。
隨著核心COA的制定,每個作戰功能的最佳整合可以通過算法來確定。例如,有了通往目標的路線和距離,以及燃燒率和其他規劃因素,可以計算出支持概念的要素。
這個例子表明,有能力在多個領域整合所有作戰功能的規劃。有了充分的細節說明COA的完成和廣度,現在可以把解釋轉向深度。為了在作戰層面創建一個在時間和空間上都有深度的COA,它必須提前預測幾個交戰,以實現相對優勢的位置,并尋求實現轉化為成功的失敗機制。而之前的過程主要是將現有的軍事理論或學術研究進行算法連接的創造,它們很難實現超越即時決策的飛躍,并創造出作戰藝術。對于這一點,現有的人工智能提供了適用的例子。
國際象棋人工智能中使用的基本微分法對所有棋盤上的處置方式提前兩步進行打分,包括行動和反應,然后根據程序對分數進行比較,分數最差的那個選項被修剪掉。在排除了未來兩步棋中最差的選項后,剩下的最佳選項被選中。修剪和消除的過程可以防止出現這樣的情況:人們可以在最近的一步棋中拿下一個低價值的棋子,但在下一步棋中又會失去一個高價值的棋子。該算法基于每一步后續棋重復這一過程。在許多程序中,該算法會分析更多的未來棋步,以指數形式增加棋盤的處置,以評估和排列潛在的棋步。為了簡化計算機的計算,一個被稱為阿爾法-貝塔修剪的過程可以在明確它們不會是最佳選擇時刪除分支,并停止評估它們。根據已經證明的根據力量和手段的相關性來評估軍事編隊的能力,可以看到即使是簡單的國際象棋人工智能方法也可以成為發展作戰藝術的基礎。
圖4. 多域COFM框架
當使用決策樹和國際象棋人工智能的最小算法時,程序會對棋盤上的大多數或所有的替代性未來進行評估,并產生一個可比較的值。俄羅斯軍隊最初從西邊的馬米森山口進攻,而不是從東邊的羅基隧道進攻,就是一個選項的例子。這將產生一個不同的動作,格魯吉亞部隊需要對此作出反應。除了國際象棋人工智能中棋子的總價值外,還經常使用位置的修改器。對每一方的剩余棋子進行估值的方法在概念上類似于之前用于分析俄羅斯和格魯吉亞部隊的戰斗力的TAM計算方法。而不是單個棋子的價值,將考慮軍事編隊的戰斗力。這種機制設計起初似乎是以消耗為重點,保留友軍的戰斗力,消除對手的戰斗力,并根據價值來確定優先次序。從一開始看起來非常機械的東西中出現的顯著特征是在時間和空間上創造和連接有利的力量比例,實現不對稱性,以大量消耗對手并保存友軍的戰斗力。簡而言之,它創造了作戰藝術。
當以這種方式對格魯吉亞的多個行動方案進行比較時,就會出現與圖3中描述的不同的行動方案。由于通往羅基隧道的旅行時間的變化,以及對交戰的預測是如何沿著各自的決策樹展開的,因此確定了對通往羅基隧道的部隊的改變,如圖5所示。
當人工智能支持的COA開發過程繼續向前搜索時,在Troitskye的俄羅斯第503摩托步槍團(MRR)和在Khankala的第42摩托步槍師和第50自行火炮團被確定為需要考慮的俄羅斯作戰力量。以最小的方式,在最初決定在羅基隧道和茨欣瓦利之間分配部隊之前,沿著決策樹進一步考慮這一事件。一旦理解了時間上的力量以及二階和三階效應,就會發現一個非直覺性的決定,即與戈里的坦克營和第比利斯的第4旅一起向羅基隧道進攻,這是由于預測到俄羅斯第二梯隊部隊在未來的行動。
圖 5. 俄羅斯-格魯吉亞聯合決策樹和進化
如圖3所示,如果俄軍同時開始行動,格魯吉亞部隊的原始部署無法及時趕到羅基隧道進行防御。然而,當動用哥里的坦克營或第4步兵旅時,一支有利的部隊能夠在迪迪古普塔或爪哇附近進行防御,使俄軍在山丘上保持渠化,有足夠的戰斗力來預測俄軍的進攻會被擊敗。這種防御可以抵御俄軍第二梯隊的第503摩托化步兵師,但不能抵御緊隨其后的第42摩托化步兵師,圖5右上方描繪的是第503步兵師。正因為如此,格魯吉亞的防御部隊如果要完成他們的任務,就需要在503摩托化步兵師到來之前向隧道進行反擊,以在嚴重的渠化隧道處進行防御。有了這些從復雜中出現的聯系,格魯吉亞的領導層可以及時思考并產生贏得戰斗的洞察力。
建立可用COA的算法過程在很大程度上緩解了因時間不足而產生的差距,同時為MDMP引入了一定程度的學術嚴謹性,否則可能只是主觀評估,而這種評估中隱含著所有未知的危險。
在目前的作戰環境中,往往沒有時間來制定多個作戰行動方案,對所有制定的作戰行動方案進行戰爭演習,應用作戰行動方案評估標準,然后確定一個推薦的作戰行動方案。有了人工智能支持的MDMP,COA分析和比較就被烘托出來,并最大限度地利用現有的技術,所有這些都是在傳統的工作人員可以收集到的工具。
通過COA分析和COA比較步驟合并和修改COA開發步驟,以利用當前人工智能能力的速度、力量和洞察力,將提高預測多種替代性未來和選擇的能力,使指揮官不僅能夠在三維空間中思考,而且能夠在時間中思考。鑒于時間越來越稀少,了解時間,并擁有在多個領域與之合作并通過它的工具,可能是人工智能提供的最大優勢。
其他領域的人工智能工具已經展示了它們在提供快速、一致和準確計算的任務方面的能力。為了具有價值,人工智能不需要自主運作或復制有生命的人。人工智能只需要彌合當前規劃和決策工具的適用性與人類認知在復雜適應性系統中的有效性之間不斷擴大的差距。處理復雜性的適度改進,即使只是減少導致錯誤的認知負擔,也會確保比無助的指揮官有決策優勢。
在人工智能支持的MDMP的意義上更進一步,人工智能可以在第一次迭代后半自動地完成MDMP,幾乎連續地進行完整的MDMP過程,沒有疲勞感,納入每一個新發展。一個持續的人工智能運行的MDMP將提供關于部隊當前位置和行動的反饋。近乎實時的反饋將使我們能夠跟蹤下屬單位的當前行動、控制措施的遵守情況和進展。
其次,近乎連續的MDMP可以通過評估根據當前條件應該執行什么COA來預測分支,甚至預測隨著條件的變化,未來決定性交戰的設置。持續的人工智能支持的MDMP將與敵人而不是計劃作戰。一個人工智能支持的過程將有額外的好處,即為任何新出現的COA整合資源,同步和優化所有領域的效果,并使過渡到一個新的分支計劃更加可行。這種能力將在使部隊迅速適應在未來動蕩環境中的混亂邊緣茁壯成長方面取得不可思議的進展。
多域作戰(MDO)概念的核心是利用由分布在多個合作伙伴之間的遠程和自主傳感器以及人類智能組成的重疊系統的情報、監視和偵察(ISR)網絡。實現這一概念需要人工智能(AI)的進步,以改善分布式數據分析,以及智能增強(IA),以改善人機認知。本文的貢獻有三點。(1)我們將聯盟態勢理解(CSU)的概念映射到MDO ISR的要求上,特別關注對有保障和可解釋的人工智能的需求,以便在資產分布于多個合作伙伴的情況下進行強有力的人機決策。(2) 我們提出了MDO ISR中人工智能和IA的說明性情景,包括人機合作、密集的城市地形分析和增強資產互操作性;(3) 我們評估了與情景相關的可解釋人工智能的最新進展,重點是人機合作,以實現更快速和敏捷的聯盟決策。這三個要素的結合旨在展示CSU方法在MDO ISR背景下的潛在價值,基于三個不同的用例,強調了在多伙伴聯盟環境下對可解釋性的需求是如何的關鍵
多域作戰(MDO)需要在有爭議的環境中,針對近鄰對手,在多個領域--從密集的城市地形到空間和網絡空間--開展行動的能力、能力和耐力(美國陸軍2018年)。MDO作戰環境的一個關鍵特征是,對手將在所有領域、電磁頻譜和信息環境中進行爭奪,而盟軍的主導地位是無法保證的。敵人試圖通過在時間上、空間上、功能上和政治上等多個方面將友軍分開來實現對峙。通過降低盟軍的識別、決策和行動的速度,以及通過多種手段(外交、經濟、常規和非常規戰爭,包括信息戰)瓦解聯盟來實現對峙。在這種情況下,快速和持續地整合收集、處理、傳播和利用可操作的信息和情報的能力變得比以往任何時候都更重要。
為了應對這一挑戰,MDO中的分層ISR概念設想利用 "與合作伙伴開發的現有情報、監視和偵察(ISR)網絡。...由遠程和自主傳感器、人類情報和友好的特種作戰部隊的重疊系統組成'(美國陸軍2018年,第33-34頁)。在空前激烈的競爭環境中實現ISR資產的價值最大化,需要有能力在合作伙伴之間共享資源--在作為聯合、機構間和多國團隊的一部分進行的行動中--在一個可控但開放的聯盟環境中,以可知的信任和信心水平。
人工智能(AI)和機器學習(ML)技術被視為實現MDO中分層ISR愿景的關鍵:"迅速將數據傳播給采用人工智能或其他計算機輔助技術的野戰軍或軍團分析小組,以分析大量數據"(美國陸軍2018年,第39頁)。事實上,MDO環境的要求被視為需要一種能力,以超過人類認知能力的速度和規模,融合包括ISR在內的多個領域的能力。強大的、可互操作的人工智能/ML被認為是融合來自多種資產的數據并在行動伙伴之間傳播可操作的知識以告知決策和任務完成的關鍵(Spencer, Duncan, and Taliaferro 2019)。
總之,挑戰是使人類和機器智能體(軟件和機器人)能夠在聯合、機構間、多國和高度分散的團隊中有效運作,arXiv:1910.07563v1 [cs.AI] 2019年10月16日 在分布式、動態、復雜和雜亂的環境中。從人類的角度來看,人工智能和ML是克服人類因操作速度和規模而產生的認知限制的必要工具,其目的是增強--而不是取代--人類的認知和決策。在這里,我們把智能增強(IA)看作是對人工智能的補充,正如在人工智能歷史的最早時期(Engelbart 1962)所設想的那樣。我們專注于由人類和AI/ML智能體組成的快速形成的聯盟團隊,在網絡邊緣運作,具有有限的連接、帶寬和計算資源,發揮決策作用,例如,陸軍士兵在密集的城市環境中。然而,大部分的討論也將適用于其他領域的一系列其他角色,例如,進行網絡領域決策的情報分析員。
我們之前在一個相關的背景下研究了這一挑戰:聯盟情境理解(CSU)(Preece等人,2017年),其中我們確定了人機協作中兩個特別重要的屬性:可解釋性以支撐信心,可講述性以提高操作的靈活性和性能。本文主要關注其中的第一個屬性,但也涉及到第二個屬性。我們首先在MDO背景下重新審視了CSU的概念,然后研究了該概念在三個MDO小故事中的應用:人機協作、密集城市地形分析和增強資產互操作性。最后,我們評估了與小插曲相關的可解釋人工智能的最先進技術,強調了分層解釋的概念(Preece等人,2018)是如何與MDO分層ISR中的人工智能/ML保證需求相適應的。
在繼續之前,我們退一步指出,MDO環境的關鍵特征--(i)快速變化的情況;(ii)獲得真實數據來訓練AI的機會有限;(iii)行動期間的嘈雜、不完整、不確定和錯誤的數據輸入;以及(iv)采用欺騙性技術來擊敗算法的同行對手--并非軍事背景所獨有;它們通常在政府和公共部門的應用中更普遍存在,正如這些努力的聯合、機構間和多國方面。事實上,一般來說,MDO概念的多領域廣度及其對競爭和沖突階段的考慮,意味著MDO影響到屬于政府和公共部門的政治和社會領域。
形勢理解(SU)是 "將分析和判斷應用于單位的形勢意識,以確定現有因素的關系,并形成關于對部隊或任務完成的威脅、任務完成的機會和信息差距的邏輯結論的產物"(Dostal 2007)。英國的軍事學說(英國國防部2010年)對理解的定義如下:
理解(洞察力)=對形勢的認識和分析
理解力(預見力)=理解力和判斷力
在這里,理解包括預見性,即推斷(預測)潛在的未來狀態的能力,這與SU涉及能夠得出有關威脅的結論的常見定義是一致的(Dostal 2007)。預見性必然包括在時間上處理和推理信息的能力。這些關于SU的觀點與信息融合有著內在的聯系,因為它們涉及收集和處理來自多個環境來源的數據,作為得出SU的輸入。就數據融合的JDL(Joint Directors of Laboratories)模型而言(Blasch 2006),就考慮的語義實體和關系的種類而言,CSU問題可能涉及相對較高或相對較低的理解水平。例如,在相對較低的層次上,CSU問題可能只涉及車輛或建筑物等物體的探測、識別和定位(JDL 1級和2級)。在更高層次上,CSU問題將涉及到確定威脅、意圖或異常情況(JDL 3級)。此外,來源通常會跨越多種模式,例如,圖像、聲音和自然語言數據(Lahat, Adali, and Jutten 2015)。
圖1:CSU分層模型(來自(Preece等人,2017))虛擬分布于多個合作伙伴,并采用多種技術:人機協作(HCC)、知識表示和推理(KRR);多智能體系統(MAS);機器學習(ML);自然語言處理(NLP)、視覺和信號處理(VSP)。
我們在聯盟行動背景下的SU的概念架構--聯盟態勢理解(CSU)--如圖1所示。最底層由數據源(物理傳感器和人類產生的內容)的集合組成,可在整個聯盟內訪問,收集多模式數據。上面的三層大致對應于JDL模型的0-3層。對于每一層,圖中顯示了所采用的主要技術--包括人工智能和ML--,盡管其他技術也可能被利用。信息表示層使用傳入的數據流來學習概念,并對實體以及它們在多層次語義顆粒度上的關系進行建模。過去的觀察歷史以明確或隱含的方式被編碼在這些表示中。信息融合層采用所開發的算法和技術,對來自信息表示層的概念和實體進行賦值。該層估計世界的當前狀態,提供洞察力(態勢感知)。然后,預測和推理層使用估計的當前狀態,加上模型的狀態空間來預測未來的狀態,提供預見性(情景理解)。圖中描述了聯盟的虛擬視圖:所有四個層都分布在聯盟中。
根據用戶融合模型(Blasch 2006),圖1中的上層需要對人類開放,為推理提供專家知識;這些層也需要對人類用戶開放,即能夠對系統產生的洞察力和預見力進行解釋。不同層之間存在著雙向的信息交流:在向上(前饋)的方向,低層的推理作為下一層的輸入;在向下(反饋)的方向,信息被用來調整模型和算法參數,并可能以不同的方式給傳感器分配任務。要創建更好的系統來支持CSU,就必須開發成熟的模型和算法,在一段時間內減少人類的干預,實現更大的自主性,但不能取代人類的參與和監督。
以MDO的分層ISR概念為出發點("遠程和自主傳感器、人類智能和友好特種作戰部隊的重疊系統"(美國陸軍2018年)第34頁 ),我們認為人類是圖2中描述的多智能體環境中的三種ISR智能體之一,同時還有基于(i)亞符號AI技術(例如深度神經網絡(LeCun, Bengio, and Hinton 2015))和(ii)符號AI技術(例如基于邏輯的方法)的軟件智能體。為了實現這三種智能體(ISR資產)之間的互操作性,我們需要:
1.使亞符號人工智能智能體能夠分享不確定性意識到的見解和知識的表示,然后可以傳達給符號人工智能智能體。
2.使符號人工智能智能體能夠從數據中學習因果聯系的不確定性分布,同時能夠與亞符號人工智能智能體分享洞察力;以及
3.開發共生人工智能技術,以有效地與人類互動,首先是通過從人機合作活動中不斷學習來適應定型的行為。
圖2:CSU的多智能體非層次方法:(上)人類智能體,(左下)亞符號AI智能體,(右下)符號AI智能體。
前兩個案例的重點是機器資產之間的互操作性。在第三個案例中,我們超越了傳統的分層架構,即人類只與裝備了符號化人工智能的智能體進行互動,而這些智能體又利用亞符號化人工智能在特定任務上實現人類水平或卓越的性能。這樣的傳統架構是有限的,因為:(1)并不總是需要符號AI與人類互動(Ribeiro, Singh, and Guestrin 2016);(2)有些任務,符號AI可以支持亞符號AI智能體(Xu等人,2018);(3)有些任務,人類可以支持符號和/或亞符號AI智能體(Phan等人,2016),因此AI智能體需要配備學習和推理人類層次和結構的能力。
圖3提供了(Spencer, Duncan, and Taliaferro 2019)中設想的MDO分層ISR架構與前面對資產的符號化、亞符號化或混合化特征之間的映射。
圖3:來自(Spencer, Duncan, and Taliaferro 2019)的簡化版圖:矩形代表符號系統;圓形代表亞符號系統;圓角矩形代表混合元素。
我們的工作旨在提高能力,以促進復雜的聯盟任務,支持MDO,其中聯合和多國團隊和多領域的需求是至關重要的(美國陸軍2018)。最重要的是,在作戰情況發生時提供一個連貫的觀點和評估,從而在復雜、有爭議的環境中整合CSU的學習和推理,為網絡邊緣的決策者提供信息。如前所述,CSU既需要集體洞察力--從不確定且通常稀少的數據中獲得對局勢的準確和深刻理解,也需要集體預見力--預測未來會發生什么的能力(Preece等人,2017)。
多年來,承受力的概念一直是人機交互(HCI)領域的核心,指的是一個物體的 "用途",即 "該事物的感知和實際屬性,主要是那些決定該事物如何可能被使用的基本屬性"(Norman 1988)。在MDO分層ISR的背景下,有必要考慮人類和機器資產對一系列ISR任務的承受力。人機合作的目的是為了讓每一方都能利用對方的優勢,并彌補對方的弱點(Cummings 2014)。例如,(Crouser和Chang,2012年)將視覺分析范圍內的機器能力描述如下:
基于目前的機器能力,以下內容構成了人類資產的負擔(Crouser和Chang 2012):
在履行MDO的過程中,設想部署有人和無人的戰術總部(HQ)將變得很普遍,如圖4所示,該圖是根據(White等人,2019年)中的情景闡述的。在這里,在部署有人值守的總部A的同時,在高威脅地區進一步建立了第二個無人值守的總部B,由 "虛擬參謀 "組成。這些人被設計成與有人值守的總部中的對應人員一起工作,并減少總部的足跡以及人類操作員的工作量和威脅。自主和載人的傳感器混合在一起進入無人總部,人機合作提供了持久的要求,即有一個 "人在循環",以做出關鍵的最終決定。
圖4:戰術領域的人機協作:部署配備了亞符號和符號AI智能體的有人和無人戰術總部;闡述自(White等人,2019)。
全球城市化速度的加快,以及城市和特大城市的戰略重要性,確保了MDO行動將在密集的城市地形中進行。在這里,密度指的是這種環境的物理和人口性質,產生了特定的物理、認知和行動特征。在密集的城市地形中進行MDO的準備工作,需要進行情報活動以了解人類、社會和基礎設施的細節;這些地區的特點是多樣化的、相互聯系的人類和物理網絡,以及提供不同程度的現成掩護和隱蔽的三維交戰區。
在這種環境下,ISR將利用和增強民用基礎設施。例如,民用CCTV(閉路電視攝像機)的使用將越來越多地得到自動面部識別處理的增強,以探測和跟蹤高價值目標,或支持建筑的生活模式。隨著目標進入車輛,民用自動車牌識別技術可能被利用。這種城市基礎設施的多樣性--在某些情況下擴展到全面的 "智能城市 "整合--為ISR資產之間的敏捷互操作性提出了進一步的要求,特別是由于ISR任務不一定能事先計劃需要什么樣的收集和處理。在這種情況下,分析的構成將是動態的和針對具體情況的,并不斷地重新提供和優化資源(White等人,2019)。
在密集的城市地形中,對聯合、機構間以及經常是多國合作的需求進一步凸顯。如上所述,在這種情況下,CSU取決于人與人工智能的合作:AI智能體等機器流程在數據分析方面提供了強大的能力,但它們需要為其產出提供一定程度的保證(解釋、問責、透明),特別是當這些產出被沒有接受過信息科學技術培訓的決策者所使用,并且他們可能正在利用相對陌生的當地ISR資產。目前的ML方法在生成CSU所需的世界的可解釋模型(即表征)的能力上是有限的(Lake等人,2017)。此外,這些方法需要大量的訓練數據,并且缺乏像人和基于知識表示的系統那樣從少量的例子中學習的能力(Guha 2015)。人類專家告訴機器相關信息的能力--通常來自他們對當地環境的生活經驗--增加了人類與人工智能互動的節奏和顆粒度,以及系統在滿足任務要求方面的整體響應能力。因此,重要的是為聯盟機器智能體配備綜合學習和知識表示機制,以支持CSU,同時提供保證(可解釋性)和被告知關鍵信息的能力,以減輕稀疏數據的問題(可講述性)。在最近的研究中,我們為神經符號混合環境建立了重要的基礎,包括多模態數據的多智能體學習(Xing等人,2018)、證據性深度學習(Sensoy、Kaplan和Kandemir,2018)、概率邏輯編程(Cerutti等人,2019)、正向推理架構,其中神經網絡的輸出被送入概率邏輯引擎,檢測具有復雜時空特性的事件(Vilamala等人,2019)。
上一節中的三個小情節所產生的目標是,通過創建系統架構,使機器和人類智能體人之間能夠協同合作,在有爭議的環境中獲得可操作的洞察力和預見力,從而應對在MDO中快速利用適應性ISR知識為各聯盟提供決策依據這一挑戰。
在我們早期對CSU的研究中,我們發現需要將來自各聯盟伙伴的人類和機器智能體敏捷地整合到動態和反應的團隊中。我們已經將其正式化為人類-智能體知識融合(HAKF):一種支持這種深度互動的能力,包括可解釋性和可告知性的雙向信息流,從而使人工智能和人類之間進行有意義的溝通(Braines, Preece, and Harborne 2018),如圖5所示。這種HAKF能力支持可解釋性和可講述性自然地成為人類和機器智能體之間的對話過程(Tomsett等人,2018),使AI智能體能夠對復雜的機器/深度學習分類產生的結果提供解釋,并接收修改其模型或知識庫的知識。
圖5:人類-智能體知識融合,提高信心和性能,支持更好的決策。
一個關鍵的要求是在上一節強調的分布式符號/亞符號整合中加入人類互動,并建立各種人類和AI智能體需要掌握的最低限度的共同語言集,以確保特定任務的有效溝通。為了支持動態情境感知收集和信息處理服務背景下的直觀的機器可處理的表述,我們特別關注機器生成的信息的人類可消費性,尤其是在對話式交互的背景下,以及決策者可能缺乏信息科學的深度技術訓練的情況下。這種共同語言必須能夠傳達不確定性和適當的結構,以實現與亞符號層的整合,以及與該領域相關的更傳統的語義特征。我們并不局限于純粹的語言形式,新的視覺或圖表符號,或者其他交流技術,都可以作為解決方案的一部分。
此外,有必要考慮各種自主智能體之間自動談判的情況,其中一些將是人類。同時,人類本身也可以成為學習任務的對象:如果機器智能體對單個人類智能體(或一般的人類智能體)有足夠的了解,可以推斷出建議或變化的影響,他們自己的行為就有可能被推到特定的方向。此外,機器智能體可能需要在人類智能體中找出最適合某項任務的人,而歷史數據可以幫助他們實現這一目標。這種共生的人工智能技術可以用來更有效地與人類互動,起初是通過從人機互動中不斷學習來適應定型行為。
在有爭議的環境中,這種復雜和動態的混合設置特別有風險,容易被利用,因此需要整合不確定性意識和概率能力。所有這些都要在與決策任務和人類用戶的參與相適應的節奏下實現,機器智能體能夠支持實時互動。
在最近的工作中,我們從解釋接受者的角度研究了可解釋性,有六種(Tomsett等人,2018):系統創建者、系統操作者、根據系統輸出做出決定的執行者、受執行者決定影響的決策主體、其個人數據被用于訓練系統的數據主體,以及系統審查者,例如審計師或監察員。基于這個框架,我們提出了一種 "分層 "的方法,通過復合解釋對象為不同的利益相關者提供不同的解釋(Preece等人,2018),該對象將滿足多個利益相關者所需的所有信息打包在一起,并可以根據接收者的特定要求進行解包(例如,通過訪問器方法)。我們認為這樣一個對象是分層的,具體如下。
第1層--可追溯性:基于透明度的模型內部狀態的綁定,所以解釋并不完全是事后的合理化,顯示系統 "做了正確的事情"。
第二層--證明:與第一層相聯系的事后表述(可能是多種模式),提供輸入和輸出特征之間的語義關系,表明系統 "做了正確的事情"。
第三層--保證:與第二層相聯系的事后表述(同樣,可能是多種模式),明確提及政策/本體元素,以使接受者相信系統 "做了正確的事"。
我們考慮了一個密集的城市地形環境,借鑒了(Kaplan等人,2018),其中包括CCT V在內的民用傳感基礎設施得到了聯盟ISR資產的補充。正如(Vilamala等人,2019年)所闡述的那樣,使用活動識別AI/ML服務監測來自公共市場的視頻資料。在閉路電視畫面中突然檢測到爆發了異常的、"暴力 "的身體活動。此時,通過增強的資產互操作性,聯盟ISR系統按需訪問其他傳感方式,以獲得更多關于情況的數據,挖掘最近從市場上收集的音頻數據,這些數據通過聲學傳感器獲得。處理音頻流的相關部分顯示出有節奏的吟唱,與視覺活動融合在一起,表明該活動是該地區特有的無害舞蹈儀式。請注意,該活動不具威脅性的推論構成了情景理解:具有預見性的洞察力。此外,雖然可以想象,當有足夠的數據對活動進行分類時,無害的舞蹈可以通過機器處理來識別,但在(Kaplan等人,2018)中,我們考慮的情況是,識別這種活動需要當地的文化知識,并由人機合作處理:機器將異常的視覺活動,包括來自音頻的額外背景,提請有經驗的人類智能體注意。
我們的分層解釋概念支持 "打包 "三個層次的解釋,以支持本例中人類的自信決策。
就視頻和音頻中的突出特征而言的可追溯性,例如,使用(Hiley等人,2019年)中的技術來區分重要的空間和時間特征(在后者,"暴力 "運動)。
假設可以通過機器處理來推斷活動的意義(洞察力和預見力),那么推斷的理由就很充分;以及
保證反事實已被考慮(無害與攻擊性行動的可能性),可能通過(Kaplan等人,2018)的不確定性意識方法表示。
在本文中,我們將聯盟態勢理解的概念應用于在多領域作戰中實現分層ISR的問題,特別是在人工智能和機器學習服務提供改進的分布式數據分析,以及情報增強--特別是對有保證和可解釋的人工智能的需求--支持改進人機認知的情況下。我們重點關注實現分層ISR愿景的三個要素:人機協作、密集的城市地形分析和增強的資產互操作性,強調在多伙伴聯盟環境下對可解釋的人工智能的需求是如何的關鍵。
我們目前和未來的工作集中在圖2所示的一般問題上:使亞符號AI智能體分享不確定性意識到的見解和知識表示,然后可以傳達給符號AI智能體,同時也使符號AI智能體有能力將見解分享給亞符號AI智能體(即機器對機器的可解釋性)。最終,我們尋求開發技術,使人工智能/語言智能體能夠通過從人機合作活動中不斷學習而與人類協同互動。
本報告是“飛行決策和態勢感知”項目的第一個成果。該項目的總體目標是提供系統評估新興技術的方法建議,這些技術可能會影響或促成決策,并提高美國陸軍未來垂直升降機(FVL)飛行員的態勢感知(SA)。
這第一份報告的目標是:(1)回顧描述決策和SA的主要理論方法,以及(2)確定在美陸軍航空兵環境中,新技術對決策和SA的影響,及替代理論對作戰評估方法的影響。
為了理解FVL航空環境下的決策,我們采用了以下決策的定義:決策包括形成和完善一個信念或行動方案所涉及的認知活動。
回顧了人的因素和自然決策(NDM)研究界最突出的與FVL航空有關的決策模型。對于每一個模型,我們都簡要地總結了對評估決策的方法和措施的影響,以及新技術對個人和團隊決策的影響。審查的模型包括 "雙系統 "模型(Kahneman,2011)、識別-判斷(RPD)模型(Klein,1989)和SA模型(Endsley,1995)。我們還回顧了OODA循環模型,這是一個在軍事上很有影響力的模型,由一名戰斗機飛行員開發(Boyd, 1987),以及從過程控制界產生的決策階梯模型(Rasmussen, 1976),以及最近從NDM界出現的決策宏觀認知模型系列。我們還描述了兩個高度專業化的數學模型,它們在分析和評估新技術對人類決策的影響方面被證明非常有用--信號檢測理論和LENS模型。
我們包括一個題為 "把它放在一起 "的部分,綜合了我們審查的一系列模型,以(1)確定各模型的核心概念,這些概念對描述FVL環境中的決策特點很重要;(2)總結來自不同決策模型傳統的方法和措施,它們與評估新技術對FVL環境中決策的影響有關;以及(3)提出一個與FVL有關的決策綜合框架。這個框架綜合了我們所審查的各種決策模型中常見的核心概念,這些概念對于FVL背景下的建模和支持決策非常重要。
各個模型所確定的核心概念包括:
決策可以產生于直覺過程、審議過程或兩者的結合。
專家的表現往往是基于更直觀的、以識別為基礎的過程。
決策是一個動態的、循環的過程,與其他認知活動密不可分,而這些活動又反過來影響著決策(如感知、感性認識、計劃)。
感知包括自上而下(即根據預期搜索信息)和自下而上的過程(即檢測環境中的突出信息,然后影響理解并進一步反饋預期)。
人們積極嘗試了解當前的情況(即感覺),這種了解是決策的核心。
人們隨著對當前形勢的理解的發展而制定、修改和調整計劃。
有效的團隊合作需要對當前形勢和目標有共同的理解,有時稱為共同的SA或共同點。
這些核心概念為我們開發的綜合框架提供了基礎,以指導我們接下來的工作。
我們審查的決策模型為評估新技術對個人和團隊決策的影響提供了重要的觀點、方法和措施。最特別的是,我們審查的所有決策模型都強調了在現實條件下研究決策的重要性,這些條件反映了在感興趣的現實世界中出現的挑戰。許多模型對設計和進行評估決策的研究做出了方法上的貢獻。最重要的是,他們強調需要創造研究條件(例如,通過設計評價情景),以便觀察和測量決策的重要方面。許多模型還激發了用于評估決策的新措施。關于SA的文獻記載最多,使用最廣泛,但其他決策模型也導致了更多的新措施。這些都在報告中進行了總結,并將在項目的下一階段進行更充分的探討。
在本階段研究中開發的綜合框架強調了使有效決策得以實現的宏觀認知活動,以及它們是如何相互關聯的。它特別強調了感覺認知功能(對態勢的理解),這種功能產生的期望反過來又會驅動感知、注意和工作量管理(期望循環)。感知也會產生目標,反過來驅動決定和計劃,以及有效的團隊工作所需的溝通和協調(目標到行動的循環)。綜合框架為下一組任務的執行提供了基礎,最終確定了可用于評估新技術對動態陸軍航空決策的各種認知活動的影響的方法和措施。
圖11. 一個表征決策的綜合框架
本報告涵蓋了與設計評估人類和智能軟件Agent之間通信有關的問題,這些通信是實現協作關系所必需的。為了使人與Agent之間的互動在動態的現實世界中保持穩定,軟件Agent和人類都必須能夠在任務目標方面溝通他們的整體意圖。由于推理過程、能力和知識庫的不同,人類和Agent并不是人類團隊的模擬。我們討論了有效通信所涉及的技術問題,包括相互透明的模型、自然語言處理(NLP)、人工智能(AI)和可解釋的AI。由于缺乏使人類能夠洞察其隊友心理過程的心智理論,Agent很難預測人類的信息需求和未來行動。涉及多個Agent的協作計劃研究和合成共享心智模型的研究被作為嘗試將人類和Agent整合成一個協同單位典范。然而,我們的結論是,在人類和Agent在復雜的、不確定的任務中像人類團隊一樣通信之前,NLP、可解釋人工智能和人類科學的進展將是必要的。
自主系統的前景和問題都將改變未來系統的動態,這不僅體現在自主系統對社會的影響上,也體現在它們與人類的互動上(《經濟學人》2016;Schaefer等人,2017)。人類和自主系統之間的伙伴關系涉及到將人工和人類融合成一個有凝聚力的系統,這種結合意味著所有的優勢和限制(Bradshaw等人,2009;Chen和Barnes,2014)。自主系統的范圍可以從那些獨立的、只由人類偶爾監控的系統到由人類指導的、受到密切監督的系統(Barnes等人,2017)。能夠自主行動并根據新信息更新行動以實現其目標的軟件系統被確定為智能Agent(IA);Russell和Norvig 2009)。在人類與IA的合作關系中,人類和IA共享決策空間的混合倡議能力,但人類擁有最終的權力,在危險的時間有限的情況下,允許靈活性,同時保持人類的責任(Chen和Barnes 2015;Barnes等人2017)。在大多數情況下,不可能先驗地將每個人分配到動態環境中的特定角色,因為他們的角色可以隨著情況的變化而改變。例如,自適應Agent可以在高工作負荷的任務段中掌握決策主動權,而不需要等待操作者的許可,但在正常的操作中會將決策主動權還給操作者(Chen和Barnes 2014)。一些與任務分配有關的規定性規則可以根據任務的優先級預先設定。其他規則可能會根據情況的緊急程度而改變(例如,在時間期限過后自主擊落來襲導彈[Barnes等人,2017;Parasuraman等人,2007])。然而,在動態環境中,溝通、對意圖的理解和共同的態勢感知(SA)是有效協作的必要條件(Barnes等人,2017;Evans等人,2017;Holder,2018;Chen等人,2018)。
隨著IA復雜性的增加,有效通信的必要性也隨之增加。Cooke(2015)認為,高效的團隊合作關系更多的是取決于有效的互動,而不是擁有廣泛的共享知識庫。除了有一個共同的語言框架,每個團隊成員都必須知道什么時候向他們的伙伴推送信息,什么時候要求提供信息。因此,人類和IA不僅要有任務環境的SA,而且要有彼此角色的SA,以便在沒有公開交流的情況下回應伙伴的要求(Scherri等人,2003;Chen等人,2018)。我們討論三個主要的主題。第一個主題是對人-Agent架構的描述,以及為什么它與人-人團隊不同,強調相互透明度的重要性。接下來,我們討論了人類與人工智能(AI)系統通信所涉及的技術問題,包括多模態交互、語言限制、AI的類型以及可解釋AI(XAI)的重要性,以確保相互理解。最后,我們討論了共享意圖的重要性,以促進操作者和人工智能之間信息交互的自然節奏。
現代綜合防空系統(IADS)所帶來的日益復雜的反介入區域拒止(A2AD)威脅,加上高端隱形平臺所提供的日益強大的優勢,促使美國空軍高級領導人投資于徹底改變2030年及以后的空中力量。這一新設想的一個突出因素是蜂群武器,其目的是通過用大量低成本、可損耗的航空資產來壓倒國際航空運輸系統,并通過自主能力來解決這一挑戰。這項研究提出了一個框架,按照三個獨立的維度對不同級別的自主能力進行分類,即單獨行動的能力、合作能力和適應能力。使用模擬、集成和建模高級框架(AFSIM)構建了一個虛擬作戰模型,模擬以有人駕駛的穿透式轟炸機和自主巡航導彈群為特征的友軍空襲包與以A2AD角色行動的敵軍IADS之間的交戰。通過使用自主性框架作為設計實驗的基礎,評估了不同水平的自主性對攻擊包性能的影響。對實驗結果的分析揭示了哪些方面和什么級別的自主性對促進這一模擬場景的生存能力和殺傷力最有影響。
戰爭的技術性質正在迅速發展,人們越來越重視對大量數據的收集、處理和決策。隨著指揮與控制(C2)決策空間的復雜性增加,指揮系統根據現有信息采取行動的速度越來越成為一個限制性因素。具有不同程度的人與系統互動的自主系統為緩解這一不足提供了機會。美國2018年國防戰略(NDS)[18]明確要求國防部(DoD)"廣泛投資于自主性的軍事應用",作為促進大國競爭優勢的一項關鍵能力。
參與大國競爭的一個自然后果是反介入區域拒止(A2AD)環境在聯合沖突的所有方面擴散。從美國空軍(USAF)的角度來看,現代綜合防空系統(IADS)構成了卓越的A2AD威脅,這嚴重抑制了通過常規手段建立空中優勢的前景[2, 20]。這一挑戰促使部隊結構的優先事項發生了變化,因為將能力集中在相對較少的高端系統中的感知風險越來越大。美國空軍科學和技術戰略[26]設想,數量龐大的低成本、易受攻擊的航空資產將很快發揮曾經由數量有限的高價值資產完成的作用。這種大規模的蜂群的任務規劃和空戰管理(ABM)工作的規模可能很快超過人類的認知能力,這使得它成為非常適合自主性研究和開發的應用領域。
本研究試圖評估幾種自主巡航導彈群的行為對A2AD環境中藍方(友方)空中性能的影響。具體來說,所研究的A2AD場景考慮了紅方(對手)的IADS被藍方聯網的自主巡航導彈群吸引,以促進穿透式轟炸機的后續打擊。在任務規劃時沒有考慮到的突然出現的威脅,可能會進入該場景以增加紅色IADS的力量。蜂群必須在沒有外部反彈道導彈的幫助下,檢測并應對這些突發威脅以及任何其他對抗性任務參數的變化。A2AD場景的建模是使用模擬、集成和建模高級框架(AFSIM)完成的。
為了解決問題陳述,本研究將對以下問題提供答案:
1.具有自主反彈道導彈能力的巡航導彈蜂群能在多大程度上提高藍方空襲包在A2AD環境下的生存能力(即避免被紅方IADS發現和摧毀的能力)?
2.具有自主反彈道導彈能力的巡航導彈群能在多大程度上提高A2AD環境下藍方空襲包的殺傷力(即探測和摧毀紅方IADS元素的能力)?
本論文的其余部分包含四章,組織如下:第二章對包括自主性、A2AD環境、基于代理的建模和仿真(ABMS)以及實驗設計(DOE)等主題的參考材料進行了回顧。第三章建立了A2AD場景、AFSIM模型實現和實驗設計的結構,作為本研究的框架。第四章介紹了實驗模擬運行的結果和附帶的分析。最后,第五章討論了從這項研究中得出的結論,以及對未來研究方向的建議。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
我們的同行競爭者,利用科學、技術和信息環境的新興趨勢,已經投資于挑戰美國和重塑全球秩序的戰略和能力。他們采用創新的方法來挑戰美國和盟國在所有領域、電磁波譜和信息環境中的利益。他們經常尋求通過在武裝沖突門檻以下采取模糊的行動來實現其目標。在武裝沖突中,武器技術、傳感器、通信和信息處理方面的進步使這些對手能夠形成對峙能力,以在時間、空間和功能上將聯合部隊分開。為了應對這些挑戰,履行美國陸軍在保護國家和確保其重要利益方面的陸軍職責,陸軍正在調整其組織、訓練、教育、人員和裝備的方式,以應對這些圍繞多域作戰(MDO)概念的未來威脅。
陸軍的情報工作本質上是多領域的,因為它從多個領域收集情報,而且可以接觸到合作伙伴,彌補陸軍信息收集能力的不足。在競爭中,陸軍情報能力作為掌握作戰環境和了解威脅能力和脆弱性的一個關鍵因素。在整個競爭過程中,陸軍情報部門為每個梯隊的指揮官和參謀人員提供所需的態勢感知,以便在所有領域、電磁頻譜和信息環境中可視化和指揮戰斗,并在決策空間匯集內外部能力。
這個概念描述了關鍵的挑戰、解決方案和所需的支持能力,以使陸軍情報部門能夠在整個競爭過程中支持MDO,以完成戰役目標并保護美國國家利益。它是陸軍情報部隊、組織和能力現代化活動的基礎。這個概念還確定了對其他支持和輔助功能的影響。它將為其他概念的發展、實驗、能力發展活動和其他未來的部隊現代化努力提供信息,以實現MDO AimPoint部隊。
陸軍未來司令部的情報概念為陸軍情報部隊的現代化活動提供了一個規劃,以支持陸軍2035年的MDO AimPoint部隊在整個競爭過程中與同行競爭對手進行多域作戰。它提供了支持2035年以后MDO AimPoint部隊的見解。這個概念是對2017年美國陸軍情報功能概念中概述想法的修改:情報作為一個單位在所有領域的運作,有廣泛的合作伙伴投入。這個概念擴展了這些想法,以解決陸軍在進行大規模作戰行動中的頭號差距:支持遠距離精確射擊的深度傳感。領導陸軍情報現代化的舉措是組織上的變化,以提供旅級戰斗隊以上梯隊的能力,以及支持深層探測問題的四個物資解決方案。
支持MDO AimPoint Force 2035的組織變化使戰區陸軍、軍團和師級指揮官能夠以遠程精確火力和其他效果塑造深度機動和火力區域。在戰區層面,軍事情報旅的能力得到提高,新的多域特遣部隊擁有軍事情報能力。遠征軍的軍事情報旅被重新利用和組織,以支持軍團和師的指揮官,而不是最大限度地向下支持旅級戰斗隊。
支持MDO AimPoint Force 2035的物資變化,即將所有的傳感器、所有的火力、所有的指揮和控制節點與適當的局面融合在一起,對威脅進行近乎實時的瞄準定位。多域傳感系統提供了一個未來的空中情報、監視和偵察系統系列,從非常低的高度到低地球軌道,它支持戰術和作戰層面的目標定位,促進遠距離地對地射擊。地面層系統整合了選定的信號情報、電子戰和網絡空間能力,使指揮官能夠在網絡空間和電磁頻譜中競爭并獲勝。戰術情報定位接入節點利用空間、高空、空中和地面傳感器,直接向火力系統提供目標,并為支持指揮和控制的目標定位和形勢理解提供多學科情報支持。最后,通過分布式共同地面系統,陸軍提高了情報周期的速度、精度和準確性。
伴隨著這些舉措的是士兵培訓和人才管理方法,旨在最大限度地提高對目標定位和決策的情報支持。從2028年MDO AimPoint部隊開始,陸軍情報部門將繼續改進軍事情報隊伍,以支持2035年及以后的MDO AimPoint部隊。
這一概念確定了陸軍情報部門將如何轉型,以支持陸軍和聯合部隊在整個競爭過程中與同行競爭者抗衡。
圖1 邏輯圖
本文件是北約 IST-151 研究任務組 (RTG) 活動的最終報告,題為“軍事系統的網絡安全”。該 RTG 專注于研究軍事系統和平臺的網絡安全風險評估方法。 RTG 的目標如下:
? 協作評估軍事系統的網絡安全,并在 RTG 的北約成員國之間共享訪問權限;
? 在 RTG 的北約成員國之間共享風險評估方法和結果;
? 將 RTG 的北約成員國使用的評估方法整合到一個連貫的網絡安全風險評估方法中,以使北約國家受益。
軍事平臺比以往任何時候都更加計算機化、網絡化和受處理器驅動。他們大量使用數據總線,如 MIL-STD-1553A/B、CAN/MilCAN、RS-422/RS-485、AFDX 甚至普通以太網,以及戰術通信的舊標準,如 MIL-STD-188C 和 Link 16。此外,捕獲器、傳感器、執行器和許多嵌入式系統是擴展攻擊面的額外無人保護的潛在輸入。結果是增加了網絡攻擊的風險。然而,這些平臺的持續穩定運行對于軍事任務的成功和公共安全至關重要。
軍事系統和平臺是網絡攻擊的首選目標,不是因為它們像消費電子產品那樣普遍,而是因為它們潛在的戰略影響。一旦受到影響,就可以實現各種短期和長期影響,從拒絕能力到秘密降低其有效性或效率。因此,軍隊必須在各個層面解決網絡安全問題:戰略層面,同時獲取平臺和系統;作戰層面,同時規劃軍事任務和戰術。
北約國家擁有大量可能面臨網絡攻擊的軍事平臺和系統。因此,北約將受益于利用當前的流程和方法來設計更安全的系統并評估當前系統的網絡安全。
本報告介紹了針對軍事系統和平臺量身定制的網絡安全評估方法,該方法由 RTG 團隊成員合作開發,并建立在他們的經驗和專業知識之上。團隊成員已經使用的流程被共享、分析、集成和擴充,以產生本報告中描述的流程。本報告的目標受眾是愿意評估和減輕其軍事系統的網絡安全風險的決策者。
圖一:網絡安全評估過程的五個主要步驟。
第 2 節介紹了 RTG 團隊在其存在的三年中用于開發流程的方法。第 3 節列出了可以應用該過程的系統的一些特征。最后,第 4 節描述了評估流程,而第 5 節總結本報告。
軍事平臺比以往任何時候都更加計算機化、網絡化和受處理器驅動。這導致增加了網絡攻擊的風險。然而,這些平臺的持續穩定運行對于軍事任務和公共安全的成功至關重要。
絕對的網絡安全是不存在的。必須通過迭代風險評估持續管理網絡安全。傳統 IT 系統存在許多網絡安全風險管理框架和流程。然而,在軍事平臺和系統方面,情況遠非如此。本文檔介紹了針對軍事系統量身定制的網絡安全風險評估流程。該流程由北約 IST-151 研究任務組 (RTG) 活動的團隊成員開發,該活動名為“軍事系統的網絡安全”。該過程可以應用于傳統的 IT 和基于固件的嵌入式系統,這些系統在軍事平臺和系統中無處不在。