亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在現代軍事領域,及時的信息越來越重要。然而,攻擊正變得越來越復雜。快速識別、選擇和執行網絡防御響應至關重要。

新型人工智能 (AI) 統計前瞻規劃技術已用于對目標環境進行網絡攻擊。這些技術以前沒有在網絡建模中使用過,但它們在其他領域的成功表明了它們的實用性。人工智能展示了它能夠組裝復雜的攻擊,顯示出解決網絡領域問題的能力。

Mininet/Containernet 解決方案在目標環境的完整表示方面取得了重大進展,這使人們相信這種表示是可能的。這將允許構建具有代表性的目標環境以進行快速分析。

人工智能可用于大規模生成成功攻擊特征的數據,促進機器學習人工智能的訓練,以檢測此類攻擊,這在現實世界數據稀少的情況下至關重要。

這種方法的一個優點是人工智能不是在學習,而是在進行前瞻性規劃。因此,隨著新漏洞的識別,人工智能可用的攻擊和防御動作可以輕松更新,而無需重新訓練。這種敏捷性在快速發展的網絡領域中至關重要。

1 引言

軍事領域的計算機網絡,以及所有地方的計算機網絡,都越來越受到網絡攻擊。顯然,能夠快速檢測到此類攻擊的漏洞并選擇合適的應對措施是非常重要的。因此,人們對利用人工智能(AI)技術開發自動化的網絡防御程序產生了廣泛的興趣。例如,在2020年2月,微軟研究院建立了一個名為CyberBattleSim的網絡攻擊模擬器,參考文獻[1],它通過開源的AI Gym工具包使用強化學習(RL)算法。在谷歌上搜索可以很快找到半打類似的基于RL的網絡攻擊模擬器。

相比之下,本文描述了一種使用統計前瞻計劃而不是RL的自動化人工智能網絡模擬。統計前瞻規劃(SFP)算法是一系列穩健的隨機人工智能技術,使用統計模型(也稱為前瞻模型)來模擬未來可能的狀態。它們無需訓練,因此比基于學習的方法快得多。SFP算法的例子包括蒙特卡洛搜索、蒙特卡洛樹搜索和滾動地平線進化。最近的參考文獻,見Perez-Liebana等人,參考文獻[2],其中描述了SFP在視頻計算機游戲中的應用。快速算法和游戲在軍事方面當然也很重要。

本項目中使用的人工智能軟件是由QinetiQ訓練和模擬有限公司開發的任務規劃師人工智能工具的擴展。最初,任務規劃器(Mission Planner)被用于生成和分析陸上兵棋推演中的指令。此后,任務規劃器也被成功地用于反潛戰等情況下。任務規劃器中的人工智能引擎,在設計上對特定的應用一無所知,只根據特定指令序列的獎勵或效用來工作。這使任務規劃器具有相當大的通用性。特別是,任務規劃器可以被用來規劃網絡攻擊和防御。參見參考文獻[3]對任務規劃器在其最初的陸上兵棋推演角色中的討論。

任務規劃器內的人工智能引擎使用隨機優化算法(在這種情況下是模擬退火)來選擇一個最佳的訂單序列。或者,在網絡背景下,一個最佳腳本。由人工智能引擎生成的腳本在引擎本身沒有任何意義。它們被傳遞給任務規劃器中的一個特定應用組件,稱為解碼器。這將計算出一個數值,稱為獎勵或效用或價值,并將其傳回給人工智能引擎。優化算法迭代進行,產生一個腳本序列,其值逐漸(但通常不是單調的)收斂到一個最佳值。

這項工作的目的是確定任務規劃器是否可以用來產生對計算機網絡的網絡攻擊。必須牢記,本文只描述了這項工作的第一階段。

2 方法路徑

2.1 網絡攻擊結構

在一個遠程服務器上設置了一個包含幾個已知漏洞的目標虛擬目標網絡(例如,一些機器可能有舊版本的操作系統,缺少重要的安全補丁)。該目標網絡通過一個Middle Ware組件與任務規劃師解碼器進行通信。

圖 2-1:網絡攻擊結構:按計劃(左)和按實施(右)。

圖2-1中的左手圖顯示了預定的結構。

  • 解碼器將一個攻擊腳本傳遞給中間設備組件。
  • Middle Ware組件在評估網絡上執行攻擊腳本。
  • 對評估網絡的攻擊結果被返回到Middle Ware組件,該組件評估攻擊的成功率,并計算出一個結果的數值分數。
  • 這個數值分數被傳回給解碼器。

該項目最初考慮使用基于Mininet的目標環境,包括Containernet和libvirt支持,以允許使用docker容器和虛擬機。這將允許在評估網絡上快速生成和測試攻擊腳本。由于libvirt對Containernet的支持是實驗性的,并且已經5年沒有更新了,所以是不能用的,所以不可能用Mininet來實現目標網絡。出于這個原因,對評估網絡的調用被刪除了,取而代之的是一個腳本標記,用來評估人工智能生成的腳本與給定的人工生成的腳本的相似度。實施的網絡攻擊結構如圖2-1中的右圖所示。

2.2 腳本標記

正如參考文獻[3]所解釋的那樣,任務規劃器的腳本由樹組成,其中樹中的每個節點要么是:

  • 一個命令節點;
  • 一個輸入節點,包含一個用于指令節點的數值參數。

一個輸入節點總是一個指令節點的子節點,輸入節點的參數值被應用于父指令節點。一個輸入結點沒有任何子結點。

指令節點必須始終有至少一個子節點。指令節點的子節點本身可以是指令節點或輸入節點。指令節點只能是有限數量的可能類型中的一個。

對于給定的一對相同類型的指令節點,腳本標記可以按以下方式計算出一個相似度值。

1.將該值初始化為零。

2.如果兩個節點都沒有父節點,則加1(到值)。

3.如果兩個節點都有一個父節點,并且兩個父節點都是同一類型,則加1。

4.遍歷每個順序節點對的輸入節點,比較每個列表中的第一個條目,第二個條目,以此類推,當其中一個列表用完時結束;對于每一對具有相同價值的輸入節點,在相似性值上加1,對于每一對具有相同類型的輸入節點,再加1。

5.將相似度值規范化,用父節點的子節點數除以相似度值,以父節點的子節點數最少的為準。

腳本標記在兩個腳本A和B之間計算出一個整體的相似度分數,具體如下:

1.將分數初始化為零。

2.對于腳本A中的每個順序節點,找出腳本B中具有最大相似度的相同類型的順序節點,并將這個最大相似度值加到分數中。

3.將分數歸一化,用腳本中訂單節點的數量來計算,以指令節點數量最多的腳本為準。

這個算法返回一個介于0和1之間的值。如果所有的指令節點類型和輸入值完全匹配,它將返回1。如果沒有匹配,它將返回0。

圖 2-2:實時網絡:使用 VMWare 的完整企業架構。

2.3 實時網絡

圖2-2顯示了用于測試人工智能攻擊的實時網絡,其中一個雙宿主、域連接的網絡服務器按照洛克希德網絡殺戮鏈的7個步驟被破壞。見參考文獻[4]。在成功入侵網絡服務器后,人工智能重復偵察、武器化、交付等過程,以確定域中的漏洞,并將其攻擊性工具轉移到被入侵的服務器上,利用這一點來捕獲域用戶的NTLM哈希值。見參考文獻[5]。人工智能將NTLM哈希值復制到它用于初始訪問的攻擊箱,在那里它使用開膛手約翰來識別域用戶的用戶名和密碼。見參考文獻[6]。在這個例子中,收獲的用戶賬戶是域管理員的賬戶,AI現在使用這些憑據連接到ADServer,并在域上創建自己的賬戶。圖2-2左側的綠色方塊包含被攻擊的虛擬網絡。圖中間的紅色方塊包含攻擊框,它是本測試中攻擊源的物理計算機。

由于Covid的限制,該項目具有分散性,被破壞的實時網絡和承載任務規劃器的計算機在地理上是分開的,因此必須使用ZeroTier軟件定義網絡來提供安全通信。見參考文獻[7]。

最初,攻擊腳本是在攻擊箱上手工開發的,并通過觀察對網絡服務器的攻擊結果進行手工測試。一旦開發出令人滿意的攻擊腳本,它就被納入腳本標記,并使用任務規劃器AI來生成一個最佳的攻擊腳本。然后通過互聯網將其傳遞給攻擊箱,從那里向目標網絡發起攻擊。

圖 2-3:域接管所需的攻擊腳本組件、

2.4 AI攻擊語法

圖2-3顯示了領域接管所需的攻擊腳本組件(戰術用深藍色陰影,技術用淺藍色陰影),以及一些當前攻擊不需要的額外組件。任務規劃者可以從一個潛在的無限選項中決定哪些腳本是必需的。例如,不需要的組件來自于數據滲出攻擊。還要注意,PYTHONSERVER和PYTHON3SERVER是不同的實例;PYTHONSERVER用于webserver和wget,而PYTHON3SERV必須是python3。該項目以MITRE ATT&CK?中列出的戰術和技術為基礎,MITRE ATT&CK?是一個基于現實世界觀察的全球可訪問的網絡戰術和技術知識庫。見參考文獻[8]。這些組件被提供給Mission Planner,然后Mission Planner必須以正確的順序將它們組裝起來,以達到預期的結果。

有些組件有許多選項,例如INITIALACCESS可以是公共應用程序,或外部遠程服務。RECONNAISSANCE比較復雜,它可以是NMAP、NESSUS或OPENVAS中的一種,NMAP RECONNAISSANCE可以是任何一種可用的選項,從隱蔽性到攻擊性不等。這些組件選項在圖2-3中用虛線表示。實線箭頭表示域接管攻擊所需的腳本組件的正確順序。

3 AI的性能

表 3-1:域接管腳本的 AI 進度報告。

表3-2: AI進度報告的關鍵。

表3-1列出了Mission Planner在域接管腳本方面的AI進度報告,表3-2解釋了各欄的內容。表3-1顯示,在第15代時,優化器取得了93.994%的最佳分數。這個腳本與目標腳本只有一步之差,盡管它仍然導致了一次失敗的攻擊。在第21代時,得到了一個接近完美的解決方案,導致攻擊成功。總耗時為37秒。

圖 3-1:在域接管期間提高百分比分數。

圖3-1顯示了在每一代中取得的百分比分數的提高。最好的分數逐漸增加到100%。當然,平均得分不如最佳得分;然而,隨著最佳得分的接近,差異也在減少。這就是模擬退火算法的典型行為。

4 結論

我們已經表明,任務規劃器的人工智能引擎原則上可以用來發動自動網絡攻擊。雖然不可能將優化器直接連接到被攻擊的網絡,但這是通過腳本標記來模擬的。雖然適合于演示,但這確實限制了優化器,因為所采用的方法的一個重要優勢是,它能夠為以前從未解決過的問題找到新的解決方案。使用腳本標記評估不可能證明這一點。

因此,下一步將是用一個基于Mininet、Containernet、libvirt的解決方案來取代腳本標記。我們相信,這將允許優化器對目標環境進行快速原型設計。這項工作的一個重要部分將是評估對運行時間的影響。還應測試更廣泛的目標網絡和網絡攻擊類型。

任務規劃器的人工智能引擎也可以被擴展,以便它可以防御網絡攻擊。一旦實現了這一點,可以將攻擊和防御的人工智能引擎結合起來,形成一個對抗性的人工智能,其中攻擊和防御部分依次對立。每一次通過這個攻防循環都會進一步提高這兩個組件的實力和穩健性,因為每個組件都被迫對能力更強的對手做出反應。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

前言

美國陸軍未來與概念中心 未來戰爭部主任 克里斯-羅杰斯上校

歷史上的戰爭包含了大量改變戰爭性質的工具和技術的例子。自最初研究多域作戰(MDO)以來,美國陸軍發現人工智能是一種新興技術,有可能改變戰爭的特點,也許也會改變戰爭的性質。使用人工智能(AI)解決方案來緩解軍事問題是過去兩年未來戰爭研究、檢查和學習的一個反復出現的主題。作為2019年未來研究計劃的一部分,我們與陸軍、聯合、多國、學術和科技組織合作,探索和了解人工智能對多軍種的影響,并為未來的研究和發展制定一個操作框架。

多域作戰的人工智能運作最終報告提供了采用人工智能的組織框架,以幫助陸軍和聯合部隊更好地定義所需的能力以及相關的數據和網絡架構,以實現多域能力部隊。描述聯合部隊如何采用人工智能解決方案,為了解人工智能在時間和空間上對多域作戰的影響提供了一個操作說明。本報告確定并解決了與人工智能相關的好處、機會和挑戰,為進一步分析提供了基礎。諸如人工智能等新興技術使陸軍不僅可以改進當前的戰術、技術和程序,而且可以創造新的運用和融合能力的方法。

該報告支持美國陸軍人工智能任務組,該組織負責制定陸軍的人工智能戰略和政策。本文通過描述部隊如何在整個MDO框架內采用人工智能解決方案和相關技術,啟動了陸軍的人工智能運用工作。這份報告使概念發展團體能夠修改陸軍功能概念和戰場發展計劃。它為能力發展團體提供了作戰視角和部隊在確定所需能力時必須考慮的技術影響。此外,該報告還為作戰概念文件或基于能力的評估提供了開發情景或小插曲的基礎。該文件為科學和技術界提供了行動背景,以便為人工智能研究、開發、建模和模擬提供信息和指導。最后,它支持制定一個在未來使用人工智能的全面愿景,以告知陸軍現代化的努力,這將創造有能力的MDO部隊,準備好與任何對手作戰并取得勝利。

執行摘要

人工智能(AI)是未來聯合部隊實現多域作戰(MDO)全部潛力的基礎。人工智能系統提供了跨越領域、電磁頻譜和信息環境戰勝對手的能力。在競爭中使用這些系統使聯合部隊能夠近乎實時地了解作戰環境,從而更好地運用能力來擊敗旨在破壞區域穩定的威脅行動,阻止暴力升級,并將被拒絕的空間變成有爭議的空間。在從競爭到武裝沖突的過渡中,人工智能的機動、火力以及情報、監視和偵察能力為聯合部隊提供了拒絕敵人奪取優勢地位的能力。改進的維持能力與攻擊敵人的反介入/空中拒止網絡的能力相結合,為美國部隊提供了奪取作戰、戰略和戰術優勢位置的能力。通過由人工智能支持的多領域聯合行動圖(MDCOP)增加了解,使美國部隊有能力協調多領域的效果以創造優勢窗口。

制定人工智能的作戰概念使陸軍能夠更好地理解這些技術對戰爭的性質和特征的潛在影響。描述陸軍如何在未來的作戰環境中使用人工智能,有助于說明其對戰爭的暴力、互動和基本的政治性質的影響,以及戰爭不斷演變的特點。本文提供了一些小插曲(附錄A),說明了人工智能的組織運用,為美國陸軍RAS總體概念、作戰和組織概念、基于編隊的作戰概念以及系統或單個系統的運用概念的潛在發展提供信息。

人工智能的運作影響到未來部隊將如何運作,如何針對對手開展行動,以及指揮官如何利用軍事藝術和科學,運用部隊能力來實現預期效果和目標。在2019年未來研究計劃(FSP19)期間,人工智能工作線(LoE)確定了與實施人工智能支持的多領域解決方案有關的以下問題:

  • 數據管理--AI/ML應用程序依賴于對策劃的數據的訪問,以便發揮作用。陸軍必須培養一種以數據為中心的文化,以標準化的格式和協議有效地生成、存儲和訪問數據。人才管理的努力必須側重于發展、培訓和保留一支精通數據的員工隊伍。這可以通過以下方式實現:

    • 在整個部門培養一種以數據為中心的文化

    • 投資于整個員工隊伍的數據科學培訓

    • 簡化數據訪問

    • 設計和實施協議,以確保數據的可發現、可訪問、可共享和可互操作性

  • 功能分解--狹義的人工智能本質上是有限的,構建算法的數據科學家需要精確的問題定義,準確確定聯合部隊的要求。

  • 可解釋人工智能--人工智能支持的系統需要有能力解釋決策/建議和所采取的行動背后的邏輯。這種解釋 "為什么"的能力是人類對人工智能智能體的信任基礎。

  • 邊緣計算/人工智能--未來的作戰環境與有爭議的電磁頻譜預期要求有能力向前處理極其龐大的數據集,以及能夠自主行動的人工智能平臺。

  • 利用商業部門--美國防部實驗室繼續在人工智能/ML發展方面取得重大進展,特別是與聯邦資助的研究和發展中心合作。商業部門繼續探索和擴大可能適用于軍事應用的工作。

作為FSP19的一部分,人工智能LoE開發了五個小插曲和一個概念草圖(見附錄A),以協助人工智能和機器學習的運作。這些小插曲說明了聯合部隊如何利用人工智能/ML來解決多領域行動所需的關鍵能力。MDCOP概念將依靠幾個有限內存的人工智能來建立和維護描繪整個戰場的藍、紅、綠活動。一個反應式機器人工智能將為特定的指揮官和總部定制MDCOP。合作傳感、維持、攻擊和瞄準的小插曲依靠反應式機器人工智能來優化傳感器覆蓋、維持吞吐量、攻擊順序和射手選擇。

未來部隊需要人工智能來充分實現多領域作戰的潛力。人工智能支持的系統使未來部隊能夠進行信息收集和分析,以便在時間有限和信息競爭的環境中增加對形勢的了解。這種能力使快速、知情和合理的決策成為可能。人工智能的決策支持代理將減輕作戰人員的認知工作量并提高整體效率。由人工智能支持的無人系統將探測、識別和穿透高風險區域,以提高開展行動和保護部隊、人口和資源的能力。人工智能使MDO在與近似對手的沖突規模下實現了作戰速度的要求。

付費5元查看完整內容

執行摘要

本備忘錄報告是對美國海軍研究實驗室(NRL)資助項目 "對抗性在線學習"研究成果的總結,該項目資助周期為2017財年到2020財年。其主要目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法為支撐進行利用和反制。

1. 目標

對抗性在線學習項目中的目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法來支持開發和反措施。人工智能和機器學習算法經常被建模為具有單一目標函數的解決方案,這暗示著存在非智能對手。對抗性環境意味著有多個具有競爭性目標的智能Agent,需要一種更復雜的解決方法,這正是我們所尋求的。

2. 背景/動機

美國海軍研發框架(Naval R&D 框架)包括機器學習和推理算法,其是自主和無人系統的智能推動器。這項研究將學習與推理相結合,以減輕對手對數據的欺騙性操縱,從而影響旨在保護我們資產的在線學習算法的預測。此外,為了實現信息主導地位,未來的系統必須包括利用和操縱對手數據的能力,并保護我們數據的完整性。這項研究在信息主導權方面具有防御性以及進攻性的用途。

美國海軍信息優勢路線圖預測,未來的作戰環境將是高度競爭和信息密集的。它要求對對手進行快速分析和生成情報。探測對手的算法正在改進并變得越來越動態。然而,這些算法并不 "知道 "何時以及如何通過欺騙來隱藏自己的弱點,或對沖他們對數據的欺騙性操縱的預測,而這正是本研究的目標。

四年一度的國防審查和國防戰略越來越強調網絡空間對國家安全的重要性以及潛在對手探測我們關鍵基礎設施的風險。減輕網絡風險需要發展創新的行動概念,以挫敗對手戰略。

3. 技術方法

技術方法是基于一個博弈論的計算框架,我們將對抗性機器學習的問題視為一個被稱為學習器或防御器的機器學習算法與對手或攻擊者之間的博弈。

對抗性機器學習的背景。我們的研究主要考慮有監督的機器學習算法。在有監督的機器學習中,學習器被提供了一組稱為訓練集的樣本。訓練集中的每個樣本都可以被看作是從一組輸入變量或特征到稱為標簽或類別的輸出變量的映射。學習器的目標是通過觀察訓練集中的樣本(輸入和輸出對)來學習這種映射。訓練結束后,學習器使用其學到的映射來預測輸入的標簽,稱為查詢,其輸出或標簽并沒有提供給學習器。換句話說,機器學習算法使學習器能夠自動確定一個查詢的輸出。舉個例子,如果學習器是一個自動的垃圾郵件過濾器,對學習器的查詢可能是一個電子郵件的文本,而學習器則輸出該郵件是否是垃圾郵件。對抗性機器學習為上述機器學習問題增加了另一個層次的復雜性:對抗者通過不知不覺地修改有效的查詢來向學習器提供可疑的查詢,從而誤導學習器的輸出。例如,一個垃圾郵件發送者可以改變合法電子郵件中的有效超鏈接的幾個字符,并將超鏈接重定向到一個惡意網站,使該電子郵件成為有害或垃圾郵件。但是,學習器可以把不正確的超鏈接解釋為一個打字錯誤,并把修改后的電子郵件歸類為非垃圾郵件。對手略微修改合法軟件可執行文件的類似活動可以將良性軟件轉化為惡意軟件,從而繞過自動惡意軟件檢測器,嚴重損害受保護的計算機系統。顯然,在對抗性機器學習中,學習器有兩個目標:其主要目標是學習有效訓練實例的基礎功能,此外,還要學習識別和正確分類對抗者發送的查詢。在本報告的其余部分,我們根據討論的背景,交替使用了學習器和防御器,以及攻擊者和對手這些術語。

我們的技術方法將學習器和對手之間的互動建模為一個2人博弈。為此,學習器從過去與對手的互動中建立了一個對手的行為模型。然后,學習器與對手的模型進行多次互動,稱為博弈,以便從對手那里獲得不同的攻擊策略并確定相應的反應。例如,在我們的自動垃圾郵件檢測器學習者的例子中,學習器收到的詢問是對對手的模型所發送的電子郵件文本的不同修改。然后,學習器計算出適當的反應,以正確歸類敵方的電子郵件以及來自非敵方的合法電子郵件。我們在學習器與對手的博弈框架中考慮了三個主要方向,如下所述:

1.機器探測:我們專注于兩個問題:(1)如何找到學習器的盲點以操縱預測,以及(2)如何探測學習器以泄露有關其可預測性的信息以達到規避目的。這種類型的互動對應于探索性攻擊,試圖獲得關于學習器的信息(例如,它的偏見、它的特征或它的訓練數據)。

2.機器教學:這里的主要問題是如何毒害學習者,使其在盡可能少的嘗試中做出不準確的預測。這種類型的互動對應于通過訓練數據直接影響學習器的致病攻擊。機器教學被認為是機器學習的一個逆向問題,它將目標模型映射到一組樣本上。

3.反制措施:這方面的研究解決了從機器探測和機器教學中引出的漏洞。我們努力開發一個元學習器,作為學習器的封裝,它將權衡學習器的行動與自適應對手的關系,后者根據學習器的預測動態地演變其戰術。對于博弈的每個方面,探測或教學,我們在對手和學習器之間設置了一個博弈,對手的行動是對數據的操作,而學習器的行動是使用哪種策略來進行預測或攝取數據。收益是錯誤分類風險和學習器特征評估成本與修改對手數據成本的比值。我們的評估基于與非對抗性學習器的性能差異。

總之,我們的技術方法是在機器學習和計算博弈論的交叉點。該研究涉及分析和開發攻擊者與防御者之間的博弈,其中對手試圖回避或學習學習器使用的機器學習算法的信息,對手試圖主動修改學習器使用的機器學習算法的機器教學,以及反制措施,即學習器學會對對手的機器探測和機器教學相關行動做出戰略反應。

4. 結果

我們按財政年度總結了項目的主要結果和成果,如下所述。

4.1 2017財年

在項目的第一年,我們研究對比了應用于網絡安全的生成性和判別性機器學習(ML)模型。我們開發了一個基于深度學習的ML模型,利用字符級卷積神經網絡(CharCNN)[1]將電子郵件文本數據分類為垃圾郵件或非垃圾郵件,并使用Kaggle電子郵件和安然電子郵件數據集驗證了該ML模型(//www.kaggle.com/venky73/spam-mails-dataset,//www.kaggle.com/wanderfj/enron-spam)。我們還在[2]中發表了一個初步的基于博弈論的框架,使基于ML的分類器能夠預測它所收到的查詢是合法的還是來自對手的探測攻擊。

該項目涉及使用快速梯度符號法(FGSM)[3]從圖像數據的干凈樣本中生成擾動樣本的算法。該技術在生成來自MIST數據集的手寫數字的擾動圖像方面得到了驗證[4]。

4.2 2018財年

在項目的第二年,主要致力于開發ML技術,用于模擬對手生成對抗性數據的策略。最近關于最先進的網絡安全技術的調查顯示,電子郵件文本和網絡數據包經常被攻擊者用來繞過網絡防御,如電子郵件垃圾郵件過濾器或惡意軟件檢測器[5, 6]。基于這一觀察,主要使用字符串數據,如電子郵件和社交媒體上的帖子的文本數據,以及網絡流量數據作為我們研究的主要數據模式。

作為第一個任務,開發了一個生成對抗性文本數據的算法。實現了Liang等人[7]的算法的一個略微修改版本,用于對文本數據樣本進行最小化的擾動,以生成一個對抗性樣本。Liang等人的原始算法被設計為戰略性地確定在一個給定的干凈文本樣本中改變哪些字符和多少字符,從而使改變后的文本被分類為與干凈文本不同的標簽,而該模型已被預先訓練為文本數據的分類。我們略微修改了算法,使干凈文本中要被擾亂的字符數可以作為算法的輸入參數來指定。這使我們能夠對使用不同擾動量或擾動強度的對手進行建模,這與他們的能力(如可用的預算、計算資源等)相稱,以從干凈的數據中產生對抗性數據。

接下來,我們研究了當對手的預算有限時產生對抗性數據的問題。對用于分類查詢的ML模型的參數和超參數的了解是對手產生成功規避攻擊的一個關鍵因素。這種知識通常由對手通過發送查詢和觀察分類器的輸出或預測來探測分類器而獲得。現有的文獻主要考慮了對手可用的ML模型參數知識的兩個極端:白盒,即對手有完全的知識,和黑盒,即對手沒有知識。白盒攻擊通常需要對手有大量的預算來發送幾個探針,而黑盒攻擊則假設對手沒有預算來發送探針并獲得ML模型參數的知識。然而,在許多現實生活中,對手可能有有限的預算,可以負擔得起發送幾個探針以獲得ML模型參數的部分知識。我們研究了一個預算有限對手的場景,稱為灰盒技術[8]。我們用一個基于深度學習的文本分類器評估了我們提出的灰盒技術,同時對一個名為DBPedia(

我們研究的最后一個問題是確定文本數據的有效向量表示或嵌入,因為有效的數據表示將使防御者的分類器能夠快速計算出查詢的類別或標簽,同時減少錯誤。大多數現有的生成文本數據嵌入的技術都是在字符級或詞級對文本進行編碼。這兩種表示法都有一定的缺陷:字符級表示法會導致非常大的矢量表示法,消耗空間并需要更多的計算時間,而詞級表示法會導致對不太常用的詞的矢量表示法效率低下,或者對以前未見過的詞沒有表示,導致在從干凈的文本樣本中生成對抗性樣本時,矢量數學計算不精確。我們開發了一種混合的字詞嵌入,其中一個叫做注意力的自適應參數被用來動態地確定是使用字符級還是字詞級編碼來確定一段文本中每個字的向量表示[9]。該技術在一個由學生用英語書寫的考試答案的開源數據集上進行了評估,該數據集被稱為 "劍橋學習者語料庫-英語第一證書"(CLC-FCE)數據集(

我們還組織并主持了一個題為 "網絡安全中的對抗意識學習技術和趨勢 "的研討會,作為AAAI 2018秋季系列研討會的一部分,在弗吉尼亞州阿靈頓舉行。研討會上,人工智能和網絡安全領域的知名研究人員發表了兩個主題演講,并發表了十篇關于對抗性學習的同行評審研究論文。我們在2018年10月的 "AAAI對抗性學習技術和網絡安全趨勢研討會(ALEC 2018)論文集 "上發表了在線研討會的會議記錄[10]。

4.3 2019財年

在這一年里,我們的研究重點是將博弈論與ML結合起來,以開發針對ML模型的對抗性攻擊的反制措施或防御措施。我們今年的主要貢獻是開發了一個新的基于博弈論的框架和算法,稱為重復貝葉斯連續博弈(RBSG)。該技術使使用基于分類器的自動預測機制的學習者能夠降低其分類成本,而不影響在存在對抗性輸入時的分類質量。RBSG結合了一種稱為聯合蒙特卡洛樹搜索(MCTS)的隨機樹搜索算法,該算法有效地探索了學習者和對抗者之間的博弈樹,以及具有對手模型的強盜算法。然后,RBSG算法確定了學習者和對手的每個可能的 "動作 "或行動的效用,并向學習者推薦可能的最佳行動(換言之,具有最大預期效用的行動)。我們為這個問題建立了一個正式的數學模型,包括對防御者和對手可以使用的策略的描述,一個基于博弈論的技術,稱為自我發揮,使防御者能夠建立一個準確的對手行為模型,一個基于蒙特卡洛樹搜索(MCTS)的算法,使用自我發揮的對手模型使防御者能夠快速探索可能的策略,以及RBSG算法,使防御者能夠計算像納什均衡策略一樣的戰略反應,以有效地應對對手的攻擊。我們驗證了我們提出的在存在戰略性修改文本數據的對手的情況下預測文本數據標簽的技術,同時使用收集的亞馬遜產品評論、Yelp商業評論和電子郵件信息的開源文本數據集。我們的結果表明,我們能夠將分類成本降低30-40%,而不會降低分類器的性能指標,如準確率和精確度。

RBSG技術似乎對海軍和國防部有很高的價值潛力,因為它可以降低關鍵應用的操作成本,如網絡安全、導彈探測、雷達和其他信號分析技術,這些應用依賴于對傳入數據的分類,并可能受到對手的攻擊。我們通過NRL專利處理辦公室為RBSG技術的潛在美國專利申請提交了一份發明披露。我們還開始與一家名為Varonis的公司探討CRADA,以實現RBSG技術在網絡安全產品上的潛在商業化。

在這一年里,我們還發表了一份關于網絡安全任務中基于博弈論的對抗性學習技術的全面調查[11]。在調查中,我們將相關技術歸類為攻擊者和防御者之間的零和游戲和一般和游戲。我們為所調查的技術提出了一個新的分類,使用不同的類別,如防御者可獲得的關于對手的初始信息,防御者建立的代表對手攻擊的模型以及技術被驗證的應用領域。調查的最后,我們討論了網絡安全問題中與使用對抗性機器學習技術進一步調查有關的幾個開放性問題。

最后,我們為21財年6.1基礎項目提出了一個題為 "用于防御應用的博弈論機器學習 "的項目,該項目擴展了本報告中的結果,使用強化學習和基于博弈論的技術,在攻擊者與防御者的場景中建立有效的防御措施。

4.4 2020財年

在20財政年度,我們的研究主要集中在兩個方向:研究改進RBSG技術的計算技術,以及評估RBSG在網絡安全相關場景中的應用。在第一個方向下,我們開發了一種基于最近提出的基于博弈論的概念的技術,稱為安全值[12],用于計算防御者的策略。與原始的RBSG技術中基于納什均衡的計算不同,安全值方法假設攻擊者總是做出理性的決定,同時以最佳方式選擇其策略(即攻擊者選擇一個使其效用最大化的策略),安全值方法假設攻擊者可能偶爾會偏離最佳發揮,并且,使防御者能夠預測并利用攻擊者的偏離來改善防御者的表現(減少防御者分類器的操作成本)。我們實施了一種安全值方法,稱為安全的限制性斯塔克伯格反應(RSRS),并將其與RBSG算法相結合。RSRS算法的初步結果顯示,與在RBSG內部使用基于納什均衡的計算方法的成本相比,防御者的成本有5-10%的改善。

對于第二個方向,我們研究了生成惡意軟件數據的對抗性實例的技術,并建立了用于對抗性惡意軟件數據分類的ML模型。生成惡意軟件數據需要從干凈或正常運行的軟件可執行文件中創建惡意軟件可執行文件。這個問題的主要挑戰之一是,從圖像和文本模式的干凈數據中生成對抗性數據的相稱技術不能直接適用于軟件可執行文件,因為使用圖像或文本數據擾動技術擾動可執行文件內的二進制數據可能會破壞可執行文件的功能,使其無法正常工作。我們的研究基于MalGAN[13]技術,并在EMBER[14]和Kaggle惡意軟件數據集(

我們還開始研究一種合適的技術,以正式代表網絡安全場景中防御者與攻擊者的互動,如網絡入侵檢測。具體來說,我們研究了一個正式的數學模型,稱為攻擊圖博弈[15, 16]。在攻擊圖博弈中,攻擊者以順序的方式攻擊網絡資產,而防御者的目標是預測攻擊者未來的攻擊位置并保護它們。我們開始開發一種基于強化學習的算法,與納什均衡等博弈論概念相結合,在攻擊圖博弈框架內為防御者確定合適的策略,同時對攻擊者以前未見過的攻擊、隱蔽性和欺騙性做出智能反應。該算法在網絡入侵檢測場景中的實施和評估目前正在進行。

我們發表了幾篇關于RBSG技術研究成果的文章,包括在國防部AI/ML技術交流會議上的海報[17],在關于AI for Cyber-Security的非存檔研討會[18]上的論文(與AAAI 2020同地舉行),以及在名為FLAIRS(佛羅里達州AI研究協會)會議的同行評審存檔會議上對該研討會論文的略微擴展版本[19]。我們還在INFORMS(運籌學和管理科學研究所)2020年年會上發表了擴展摘要,并應邀介紹了我們在這個主題上的研究[20]。我們在19財年提交的RBSG技術的發明公開,在2020年7月被NRL審查小組批準獲得專利申請。

我們在人工智能、機器學習和網絡安全的交叉領域編輯了一本名為 "Adversary Aware Learning Techniques and Trends in Cyber-Security "的書[21]。該書由人工智能/ML和網絡安全領域的知名研究人員撰寫的10個章節組成,涵蓋了各種不同但又相互關聯的主題,包括以博弈的人工智能和博弈論作為對人工智能/ML系統攻擊的防御手段,有效解決在大型分布式環境(如物聯網)中運行的人工智能/ML的漏洞的方法,以及使人工智能/ML系統能夠與可能是惡意對手和/或善意隊友的人類進行智能互動的技術。

我們為上述書籍貢獻了一章,題為 "重新思考智能行為作為處理機器學習的對抗性挑戰的競爭性博弈"[22],其中我們描述了對抗性機器學習如何需要重新審視傳統的機器學習范式以及對抗性學習如何表現出智能行為。我們認為,發展對對手攻擊的抵抗力可以被建模為競爭性的多人博弈,包括具有矛盾和競爭性目標的不同玩家之間的戰略互動。在進一步的探索中,我們討論了不同的多人博弈環境的相關特征,這些環境被作為研究平臺來調查,以解決公開的問題和挑戰,從而開發出能夠超越人類智慧的人工智能算法。

繼續這個方向,我們在項目中研究的最后一個研究課題是如何通過機器學習技術發展智能能力,在復雜的互動場景中,如《星際爭霸-II》等實時戰略多人博弈中呈現的場景,發展對對手攻擊的抵抗能力[23]。我們開發了一種基于強化學習的算法,使防御者能夠智能地學習博弈戰術,包括何時以及部署多少游戲單位,以何種配置部署游戲單位等,以戰略性地擊敗更強大的對手。我們在虛擬舉行的2020年國防部AI/ML技術交流會上以海報形式展示了我們的研究成果[24],我們在會上表明,由防御者利用強化學習自動學習的策略可以勝過由人類專家手工編碼的基于啟發式的策略。我們目前正在繼續這一研究方向,同時將其擴展到更復雜的攻擊者-防御者類型的交互場景中。

付費5元查看完整內容

本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。

1. 引言

同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。

本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。

美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。

2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。

在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。

在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。

簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。

1.1 軍隊的相關性和問題領域

美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。

隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。

1.2 長期目標

到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。

DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。

1.3 DSI的目標

ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。

作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。

在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:

  • DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?

  • 我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?

  • 在人工智能支持的C2系統中,人類的干預有什么影響?

該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。

2. 實驗能力

作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。

圖1 C2基礎設施概述

2.1 虎爪行動

虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。

圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。

2.2 《星際爭霸II》模擬環境

星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。

作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。

圖3 《星際爭霸II》中的虎爪地圖

2.2.1 《星際爭霸II》編輯器

虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。

2.2.1.1 《星際爭霸II》地圖開發

我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。

圖4 《星際爭霸II》編輯器中的初始虎爪地圖

在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。

距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。

圖5 修改后的《星際爭霸II》編輯地圖

最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。

2.2.1.2 《星際爭霸II》單位修改

為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。

首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。

表1 虎爪部隊與《星際爭霸II》部隊的映射關系

為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。

修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。

圖6 使用MILSTD2525符號的星際爭霸II

2.2.1.3 星際爭霸II的獎勵實現

獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。

我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。

為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。

圖7 《星際爭霸II》中的區域和目標

觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。

  • 事件。啟動觸發器(例如,一個單位進入一個區域)。

  • 變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。

  • 條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。

  • 行動。事件的結果或成果(例如,單位獲得積分)。

圖8 《星際爭霸II》中虎爪場景的觸發實例

作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。

2.3 OpSim模擬環境

OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。

2.4 使用OpenAI Gym和RLlib接口的深度強化學習

強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。

對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。

圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架

DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。

同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。

3. 結果和討論

利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。

3.1 使用《星際爭霸》的深度強化學習

我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。

3.1.1 異步優勢演員批判結構

在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。

圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。

圖10 《星際爭霸II》的狀態輸入處理

表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵

A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。

圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。

3.1.2 實驗和結果

我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。

我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。

圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。

3.2 使用OpSim的深度強化學習

為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。

政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。

觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。

表3 OpSim模擬的觀察空間、行動空間和獎賞

3.2.1 實驗和結果

訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。

圖13 主題專家和人工智能指揮員之間的實體損失比較

圖14 一次推廣的開始和結束的快照

4. 結論

作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。

初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。

付費5元查看完整內容

1 簡介

最佳的飛行員-飛機互動一直被認為是實現有效操作性能的基石,同時在任務或使命中保持高水平的安全。隨著飛行任務越來越復雜,越來越多的信息到達機組成員手中。市場上有新的技術解決方案,任務中的表現是可以衡量的。當考慮到基于神經科學進步的人機互動時,就有可能衡量和評估任何人機接口(HMI)的有效性。為了支持空勤人員的表現,必須利用現有的創新,如數據融合或人工智能(AI)輔助決策和任務管理,以成功執行軍事任務。人工智能和大數據管理與機器學習相結合,是改善和運行現代作戰場景的關鍵因素。以網絡為中心的綜合武器系統為聯合部隊指揮官提供了靈活性,有助于當前和即將到來的聯合任務的成功。

在聯合行動中,當兩個或更多的國家使用所有可用的領域時,盡可能快速有效地利用所有的資產和能力,以獲得戰斗空間的最佳總體情況將是至關重要的。因此,解決和驗證為機組人員優化的下一代駕駛艙的創建是很重要的。先進的指揮和控制系統,為執行任務提供安全和可互操作的支持,將確保獲得一個綜合和同步的系統,并將實現戰場上的信息優勢。在未來,各級指揮官對戰場的可視化和理解方式,利用某些輔助手段來指導和引導他們的部隊,將成為勝利的決定因素。

2 行動背景

根據JAPCC在2021年發布的聯合全域作戰傳單,全域作戰包括 "快速處理數據和管理情報,以及實現高效作戰所需的技術能力和政策,包括所有貢獻的資產"。其他北約出版物使用術語多域作戰(MDO),主要描述任務環境的相同挑戰。找到一個連貫的、共同使用的術語是不斷發展的,但它不會改變HMI定義背后的含義。此外,重要的是開發一個連接的、復雜的接口,能夠協助指揮官和他們的下屬軍事人員同時和毫不拖延地分享信息,并迅速做出決定和采取行動。

正如Todd Prouty在他的一篇文章中所認識到的,"聯合全域指揮與控制(JADC2)正在形成,成為連接行動的指導性概念","將使用人工智能和機器學習,通過以機器速度收集、處理和計算大量的數據來連接聯合部隊"。兩種類型的態勢感知(SA)都同樣重要,因為它們不僅可能影響任務的成功完成,甚至還可能影響戰略層面的意圖。定義SA的最簡單方法是對周圍環境的徹底了解。戰術上的SA意味著機組人員知道這個場景,知道自己在任務中的任務和角色,以及所有參與同一行動區域的部隊。他們知道如何飛行任務,也知道成功或失敗的目的和后果。飛行SA主要關注的是飛行的性能和參數,空間和時間上的位置,以及飛機的性能。這兩個SA是不同的,需要在飛行過程中不斷監測。通常情況下,兩者在任務的不同階段需要不同程度的關注,如果有能力的話,可以由機組成員共享。一些技術上的改進可以只提高一個SA,但最好是同時提高兩個SA,以滿足要求并提高整體SA。這些發展也必須支持戰略層面的意圖,并提供其在決策過程中需要的SA。

現代機體和駕駛艙應支持機組人員的機載工作量,戰斗飛行員需要這種支持以保持有效。這可以通過人工智能自動管理,使機組人員能夠將更多的精力放在他們的任務和使命上。可以說,用算法來增強機體的基本需要,以補充機組人員處理飛行期間增加的信息流的能力。

在開展行動期間,預計情況可能會迅速變化,指揮官必須立即采取行動,重新安排部隊的任務。在地面或飛行中,飛行員可能會在短時間內收到一個新的任務。這個新命令不應該被格式化為純粹的基本信息;當整個更新包也能被可視化時,支持將是最佳的。一個例子是數字移動地圖系統,它描述了關于友軍和敵軍的詳細信息,包括協調信息。當飛行員改變飛行計劃時,駕駛艙及其所有設置都將自動更新。正如《國防雜志》所指出的,"從無限的資源中收集、融合和分析數據,并將其轉化為可操作的情報傳遞到戰術邊緣的能力,需要前所未有的移動處理能力"。為了符合這些要求,推動下一代人機接口的整合應該在所有現代駕駛艙中實現標準化。

HMI-Cockpit的演變。左至右:Ramon Berk, Comando Aviazione dell'Eercito, Leonardo

3 優化民用飛機的人機接口

值得注意的是,最近飛機駕駛艙的技術發展已經出現了巨大的轉變。在短短幾年內,駕駛艙已經從帶有模擬象限的 "經典飛行甲板 "過渡到現代的 "玻璃駕駛艙",其中經典的儀表通過復雜的多功能顯示器呈現。大多數信息在儀表、飛行管理系統和自動駕駛功能之間是相互聯系的。在現代駕駛艙中,傳統的 "旋鈕和表盤 "已經被拋棄,取而代之的是電子可重新配置的顯示器和多功能可重新配置的控制,即所謂的 "軟鍵"。

傳統上,駕駛艙設計和信息顯示方式的發展是由安全和性能提升驅動的,而現在似乎更多的是由效率和競爭力標準驅動。5例如,在全狀態操作和創新駕駛艙基礎設施(ALICIA)項目中,來自14個國家的41個合作伙伴正在合作進行研究和開發活動,旨在實現一個能夠提供全狀態操作的駕駛艙系統。考慮到在不久的將來商業航班數量的增加,該項目旨在通過使用新的操作概念和駕駛艙設計來實現更高水平的效率和競爭力。

ALICIA承諾新的解決方案能夠為機組人員提供更大的SA,同時減少機組人員的工作量并提高整個飛機的安全性。這是對HMI概念的徹底反思,尋求技術的整體整合。在設想的概念中,ALICIA利用多模態輸入/輸出設備,提供一個集成在增強的機組接口中的全條件操作應用程序。

4 優化軍用飛機的人機接口

改進軍用飛機的人機接口是一項更為復雜的任務。與商業飛行相比,需要分析的情況很多,也更復雜。在軍用駕駛艙中,與飛行本身相關的任務與完成戰斗任務所需的任務合并在一起,而且往往是在危險地區和退化的環境中飛行。此外,軍用飛機配備了更多的設備,旨在處理綜合戰斗任務和軍備系統管理。

軍事飛行的典型任務可分為兩類:

  • 駕駛和導航:在整個飛行過程中執行。

  • 戰斗任務:只在飛行任務的某些階段執行。

當戰斗任務發生時,它們必須與駕駛和導航任務同時進行,這是軍事和商業航空的主要區別。根據自己的經驗,軍事飛行員必須判斷在任何特定的飛行階段哪一個是優先的。因此,他們將大部分資源用于該任務,而將那些經常被誤認為不太重要的任務留給機載自動系統或利用他們的注意力的殘余部分來完成。

不幸的是,軍事飛行在任務、風險、威脅、持續時間、天氣條件等方面的復雜性和不可預測性,常常使機組人員很容易超過他們的個人極限。一旦發生這種情況,風險是任務無法完成,甚至可能被放棄。在最壞的情況下,飛機和機組人員可能會丟失,或者機組人員可能會在沒有適當或最佳SA的情況下采取行動,導致附帶損害的風險增加。

新興和顛覆性的技術可以改善未來軍用飛機上的人機接口。它們可以引入基于人工智能、深度學習或實時卷積神經網絡(RT/CNN)的新解決方案,以整合新的能力,如具有認知解決方案的系統。作為一個例子,認知人機接口和互動(CHMI2)的發展和演變,用于支持多個無人駕駛飛行器的一對多(OTM)概念中的自適應自動化,也可以被利用來支持完成 "軍事駕駛艙的多項任務 "的自適應自動化。

同樣地,研究和開發CHMI2來監測飛行員的認知工作量并提供適當的自動化來支持超負荷的機組。這些先進的系統應該能夠閱讀到達駕駛艙的命令,分析相關的威脅,并提出最 "適合任務 "的任務簡介和操作概念。同時,它們應該計算所有任務所需的數據,如燃料消耗、目標時間、"游戲時間"、路線、戰斗位置、敵人和友軍的部署、武器系統和彈藥的選擇、附帶損害估計以及適當的交戰規則等。然后,考慮到船員的認知狀態,將動態地選擇自動化水平和人機接口格式及功能。

在2009年的一項研究中,Cezary J. Szczepanski提出了一種不同的HMI優化方法,其依據是任務成功的關鍵因素是飛機操作員的工作量。如果工作量超過了一個特定的限度,任務就不能成功完成。因此,他提出了一種客觀衡量機組人員在執行任務期間的工作量的方法;具體來說,就是在設計人機接口時,要確保即使在最壞的情況下,工作量也不能超過人類操作員的極限。

將近11年后的2020年,北約科技組織成立了一個研究小組,以評估空勤人員是否有能力執行其分配的任務,并有足夠的備用能力來承擔額外的任務,以及進一步應對緊急情況的能力。該小組旨在確定和建立一種基于具體指標的實時客觀方法,以評估人機接口的有效性。

通過對神經生理參數的實時測量來評估認知狀態,有望支持新形式的適應性自動化的發展。這將實現一個增強的自主水平,類似于一個虛擬的機載飛行員,這將協助機組人員進行決策,并將他們從重復性的或分散注意力的任務中解放出來。自適應自動化似乎是實現最佳人機接口的一個重要組成部分。它有望支持高水平的自主性,以減少人類的工作量,同時保持足夠的系統控制水平。這在執行需要持續工作量的任務時可能特別重要。這預示著要全面分析與自主決策機相關的倫理和道德問題。然而,這已經超出了本文的范圍。

5 建議

未來的戰斗將變得越來越快節奏和動態。新興的和顛覆性的技術有望徹底改變各級指揮官計劃和實施戰場行動的方式。人工智能、機器學習、增強的指揮和控制系統以及先進的大數據管理將大大有利于指揮官,改善SA,并極大地加快決策過程。現代軍隊設想未來的行動是完全集成的、連接的和同步的,這催生了MDO概念,以完善指揮官在多個領域快速和有效地分派/重新分派所有部隊的能力。

在概念和規劃階段的這種明顯的動態性也必須反映在執行階段。因此,必須假定,雖然指揮官能夠在很少或沒有事先通知的情況下重組和重新分配部隊任務,但機組人員也必須能夠快速、有效和安全地處理和執行這些新命令,很少或沒有時間進行預先計劃或排練。

這些新要求無疑將影響下一代軍用飛機駕駛艙的設計和開發。有必要采用一種新的方式來構思下一代人機接口,更加關注飛行員的真正認知能力。此外,需要新的解決方案來為機組人員提供更大的安全空間,同時將他們的工作量減少到可以接受的最大水平,使他們保持高效。他們應該結合任務優先級原則,審慎地考慮機組人員可以將哪些任務交給自主程序或系統。

本文重點討論了空中力量和飛行員在飛機上的工作量。可以預見,在現代情況下,所有平臺都將面臨同樣的挑戰。在行動的各個層面,所有的軍事人員都應該發展一種新的思維方式,以反映人機接口的更多整合和使用。要做到這一點,需要重新認識到人的因素的重要性。與民用航空類似,北約將需要制定和采用新的標準來指導未來軍用航空接口的設計。人機接口的改進必須包括所有的航空任務,并著重于實現實時規劃和執行。如果不仔細關注軍事飛行員所面臨的壓力,人機接口的改進只會讓飛行員更加安全,而在任務執行過程中的效率卻沒有類似的提高。開發通過實時測量神經生理參數來評估機組人員的認知狀態的方法,以及隨后開發新形式的適應性自動化,對于實現符合未來戰場要求的人機接口至關重要。

作者

Imre Baldy,中校,于1988年加入匈牙利國防軍,并在匈牙利的'Szolnok'軍事航空學院開始了他的軍事教育。1992年,他作為武器操作員/副駕駛獲得了第一個少尉軍銜。1997年,他得到了他的第一個更高級別的任命,他加入了位于韋斯普雷姆的匈牙利空軍參謀部,在那里他獲得了國際關系和空軍防御規劃方面的經驗。2007年,他被調到塞克斯費厄爾,在那里建立了新的匈牙利聯合部隊司令部。除與直升機業務有關的其他職責外,他還負責空軍的短期規劃。他曾駕駛過米24、米8和AS-350直升機。從2018年7月開始,他成為JAPCC的載人空中/攻擊直升機的SME。

利維奧-羅塞蒂,中校,于1993年在意大利軍隊中被任命為步兵軍官。三年后,他轉入陸軍航空學校,并于1998年畢業,成為一名旋翼機飛行員。他曾擔任過排長、中隊指揮官和S3小組長。他曾駕駛過通用直升機。AB-206,AB-205,AB-212,AB-412,以及AW-129 Mangusta戰斗直升機。他曾多次作為機組成員或參謀被部署到巴爾干半島(阿爾巴尼亞,科索沃),中東(黎巴嫩,伊拉克)和中亞(阿富汗)。他還是一名合格的CBRN(化學、生物、輻射和核)專家,一名空中機動教官,他目前駐扎在JAPCC,擔任戰斗航空處的空地行動SME。

付費5元查看完整內容

1 簡介

深度學習技術在計算機視覺領域的快速發展,促進了基于人工智能(AI)應用的廣泛傳播。分析不同種類的圖像和來自異質傳感器數據的能力使這項技術在軍事和國防應用中特別有趣。然而,這些機器學習技術并不是為了與智能對手競爭而設計的;因此,使它們如此有趣的特性也代表了它們在這一類應用中的最大弱點。更確切地說,輸入數據的一個小擾動就足以損害機器學習算法的準確性,并使其容易受到對手的操縱--因此被稱為對抗性機器學習。

對抗性攻擊對人工智能和機器人技術的穩定性和安全性構成了切實的威脅。這種攻擊的確切條件對人類來說通常是相當不直觀的,所以很難預測何時何地可能發生攻擊。此外,即使我們能估計出對手攻擊的可能性,人工智能系統的確切反應也很難預測,從而導致進一步的意外,以及更不穩定、更不安全的軍事交戰和互動。盡管有這個內在的弱點,軍事工業中的對抗性機器學習話題在一段時間內仍然被低估。這里要說明的是,機器學習需要在本質上更加強大,以便在有智能和適應性強的對手的情況下好好利用它。

2 人工智能系統是脆弱的

在很長一段時間里,機器學習研究人員的唯一關注點是提高機器學習系統的性能(真陽性率/敏感度、準確性等)。如今,這些系統缺乏穩健性的問題已不容忽視;許多系統已被證明非常容易受到蓄意的對抗性攻擊和/或操縱。這一事實使它們不適合現實世界的應用,特別是關鍵任務的應用。

一個對抗性的例子是,攻擊者故意設計了一個機器學習模型的輸入,以導致該模型犯錯。一般來說,攻擊者可能無法接觸到被攻擊的機器學習系統的架構,這被稱為黑盒攻擊。攻擊者可以利用 "可轉移性 "的概念近似于白盒攻擊,這意味著旨在迷惑某個機器學習模型的輸入可以在不同的模型中觸發類似的行為。

最近針對這些系統的對抗性攻擊的演示強調了對抗性行為對穩定性影響的普遍關注,無論是孤立的還是互動的。

也許最廣泛討論的攻擊案例涉及圖像分類算法,這些算法被欺騙成 "看到 "噪聲中的圖像,即隨機產生的不對應于任何圖像的白噪聲被檢測為圖像,或者很容易被像素級的變化所欺騙,因此它們將一輛校車分類為鴕鳥,例如。同樣,如果游戲結構或規則稍有改變,而人類不會受到影響,那么表現優于人類的游戲系統(如國際象棋或AlphaGo)就會突然失敗。在普通條件下運行良好的自動駕駛汽車,只要貼上幾張膠帶,就會被誘導轉向錯誤的車道或加速通過停車標志。

3 人工智能在軍事上的應用

許多北約國家利用人工智能和機器學習來改善和簡化軍事行動和其他國家安全舉措。關于情報收集,人工智能技術已經被納入在伊拉克和敘利亞的軍事行動中,其中計算機視覺算法被用來檢測人和感興趣的物體。軍事后勤是這一領域的另一個重點領域。美國空軍使用人工智能來跟蹤其飛機何時需要維護,美國陸軍使用IBM的人工智能軟件 "沃森 "來預測維護和分析運輸請求。人工智能的國防應用還延伸到半自主和自主車輛,包括戰斗機、無人機或無人駕駛飛行器(UAV)、地面車輛和船舶。

人們認為對抗性攻擊在日常生活中相對罕見,因為針對圖像分類算法的 "隨機噪音 "實際上遠非隨機。不幸的是,對于國防或安全技術來說,這幾乎是不可能的。這些系統將不可避免地被部署在對方有時間、精力和能力來開發和構建正是這些類型的對抗性攻擊的環境中。人工智能和機器人技術對于部署在敵人控制或敵人爭奪的地區特別有吸引力,因為這些環境對于我們的人類士兵來說是最危險的環境,在很大程度上是因為對方對環境有最大的控制。

在意識到人工智能發展和應用的技術領先的重要性后,北約于2020年在多國能力發展運動(MCDC)下啟動了人工智能、自動化和機器人技術的軍事用途(MUAAR)項目。該項目的范圍是開發概念和能力,以應對開展聯合聯盟行動的挑戰,并對其進行評估。項目的目標是評估可能受益于人工智能、自動化和機器人技術的當前和未來的軍事任務和功能。它還考慮了效率和成本節約方面的回報。

在國防應用中,對抗性地操縱機器學習分類器所帶來的危險的例子很多,嚴重程度各不相同。例如,致命的自主武器系統(LAWS)可能會將友軍戰車誤認為是敵軍戰車。同樣,一個爆炸裝置或一架敵方戰斗機可能會被錯誤地識別為一塊石頭或一只鳥。另一方面,知道人工智能垃圾郵件過濾器跟蹤某些單詞、短語和字數進行排除,攻擊者可以通過使用可接受的單詞、短語和字數來操縱算法,從而進入收件人的收件箱,進一步增加基于電子郵件的網絡攻擊的可能性。

4 結論

綜上所述,人工智能支持的系統可能會因為對抗性攻擊而失敗,這些攻擊是故意設計來欺騙或愚弄算法以使其犯錯的。這種攻擊可以針對分類器的算法(白盒攻擊),也可以通過訪問輸入來針對輸出(黑盒攻擊)。這些例子表明,即使是簡單的系統也能以意想不到的方式被愚弄,有時還可能造成嚴重后果。隨著對抗性學習在網絡安全領域的廣泛應用,從惡意軟件檢測到說話人識別到網絡物理系統再到許多其他的如深度造假、生成網絡等,隨著北約增加對自動化、人工智能和自主代理領域的資助和部署,現在是時候讓這個問題占據中心位置了。在將這些系統部署到關鍵任務的情況下之前,需要對這些系統的穩健性有高度的認識。

已經提出了許多建議,以減輕軍事環境中對抗性機器學習的危險影響。在這種情況下,讓人類參與其中或在其中發揮作用是至關重要的。當有人類和人工智能合作時,人們可以識別對抗性攻擊,并引導系統采取適當的行為。另一個技術建議是對抗性訓練,這涉及給機器學習算法提供一組潛在的擾動。在計算機視覺算法的情況下,這將包括顯示那些戰略性放置的貼紙的停車標志的圖像,或包括那些輕微圖像改變的校車的圖像。這樣一來,盡管有攻擊者的操縱,算法仍然可以正確識別其環境中的現象。

鑒于一般的機器學習,特別是對抗性機器學習,仍然是相對較新的現象,對兩者的研究仍在不斷涌現。隨著新的攻擊技術和防御對策的實施,北約軍隊在關鍵任務的行動中采用新的人工智能系統時需要謹慎行事。由于其他國家,特別是中國和俄羅斯,正在為軍事目的對人工智能進行大量投資,包括在引起有關國際規范和人權問題的應用中,北約保持其戰略地位以在未來戰場上獲勝仍然是最重要的。

作者

Elie Alhajjar博士是美國陸軍網絡研究所的高級研究科學家,同時也是紐約州西點軍校數學科學系的副教授,他在那里教授和指導各學科的學員。在來到西點軍校之前,Alhajjar博士曾在馬里蘭州蓋瑟斯堡的國家標準與技術研究所(NIST)從事研究。他的工作得到了美國國家科學基金會、美國國立衛生研究院、美國國家安全局和ARL的資助,最近他被任命為院長的研究人員。他的研究興趣包括數學建模、機器學習和網絡分析。他曾在北美、歐洲和亞洲的國際會議上展示他的研究工作。他是一個狂熱的科學政策倡導者,曾獲得民用服務成就獎章、美國國家科學基金會可信CI開放科學網絡安全獎學金、Day One技術政策獎學金和SIAM科學政策獎學金。他擁有喬治-梅森大學的理學碩士和數學博士學位,以及圣母大學的碩士和學士學位。

付費5元查看完整內容

摘要

軍事決策在不同的領域--陸地、海洋、空中、太空和網絡--以及不同的組織層面--戰略、作戰、戰術和技術上發揮著關鍵作用。建模和仿真被認為是支持軍事決策的一個重要工具,例如,生成和評估潛在的行動方案。為了成功地應用和接受這些技術,人們需要考慮到整個決策 "系統",包括決策過程和做出決策的指揮官或操作員。

人工智能技術可以以各種方式改善這個決策系統。例如,人工智能技術被用來從(大)數據流中提取觀察結果,自動建立(物理/人類/信息)地形模型,產生對未來事件和行動方案的預測,分析這些預測,向人類決策者解釋結果,并建立人類決策者的用戶模型。

對于所有這些應用,人工智能技術可以在不同的情況下被使用,并且已經開始被使用,因此有不同的要求。在本文中,我們概述了人工智能技術和模擬在決策"系統"中的不同作用,目的是在我們的社區中促進對人工智能的綜合看法,并為用于軍事決策的各種人工智能研發奠定基礎。

1.0 引言

軍事決策有多種形式。它發生在不同的領域--陸地、海洋、空中、太空、網絡--以及不同的組織層次[7]。例如,在戰略層面上,決策是否以及何時在一個特定的作戰區域內開始一項軍事任務。在作戰層面上,聯合部隊指揮官決定為某項行動分配哪些軍事要素,并指定在具體行動中尋求的預期效果。在戰術層面上,例如,海上任務組的反空戰指揮官決定由哪艘護衛艦來應對來襲的威脅。最后,在技術層面上,要決定在什么范圍內使用什么武器來消滅對手。

建模和仿真被認為是支持這些現場決策過程的一個重要工具(例如,見[3]的清單)。它提供了一種理解復雜環境和評估潛在行動方案有效性的手段,而不必使用現場測試。因此,借助于建模和模擬可以更安全、更便宜、更快速,而且可以更容易地測試不同的操作方式。此外,對于戰場上的軍事行動來說,廣泛地試驗軍事行動應該如何進行,甚至可能在道德上不負責任。因為,在指揮官可以決定不繼續按照同樣的戰術行動之前,就已經產生了意想不到的效果。

現代建模和仿真經常得到人工智能(AI)技術的支持。例如,用于仿真單個節點、組織和社會行為模型(見一些背景資料[13][4]),以獲得對對手合理和可能行為的洞察力。在這種行為洞察力的基礎上,可以為許多決策層面的軍事行動設計提供智能分析和決策支持。此外,人工智能技術被用來構建這些模型,與這些模型互動,并迅速分析大量的模擬結果數據。這里的技術進步非常多,例如,使用機器學習來構建更真實的行為模型[11],改善人機協作[5],對大量的模擬數據進行理解[10]。然而,人工智能技術只有在對決策者有用的情況下才能也應該被用于軍事決策。這意味著,只有在決策質量提高或決策過程變得更容易的情況下,才應將人工智能技術(在建模和仿真中)整合起來。

成功應用和接受用于決策支持的模擬仿真--可能建立在人工智能技術之上--取決于與主要軍事決策過程的互動和不斷學習([1])。決策者和分析員應該知道如何提出正確的輸入問題,以便通過建模和仿真來回答。然后,這些問題應該通過建模和仿真研究轉化為正確的輸出答案。因此,在各種互補的人工智能技術的支持下,應該對軍事決策過程和軍事模擬之間的互動有一個廣泛、全面的看法,并服從不同的功能要求。在本文中,我們概述了由人工智能技術支持的軍事仿真在決策"系統"中的不同作用,目的是在我們的社區內促進對人工智能的綜合看法,并為軍事決策的各種人工智能研發奠定基礎。

2.0 基于仿真的軍事決策

如引言所述,決策發生在不同的領域和不同的組織層面。在這里,我們提出了一個決策系統的示意圖,以提供一個關于如何通過仿真來支持決策的一般見解。這一觀點(圖1)來自于對多個決策過程的分析,如聯合定位[5]、作戰計劃[7]、海上反空戰[1],并與著名的OODA環[8]相結合。該觀點中的元素解釋如下。

圖1:由建模和仿真支持的軍事決策周期的系統觀點。

觀察:OODA循環的第一步是觀察,從廣義上講,就是觀察現實世界中正在發展和出現的事件和情況。觀察包括,例如,來自傳感器的(原始)數據,包括我們自己的眼睛和耳朵,以及來自報告、報紙和社會媒體的符號數據。還收集了來自高層指揮和控制實體的指導意見。這些數據由分析員處理,對鏡頭中的個體進行命名,計算某些Twitter標簽的出現次數,驗證某個事件是否真的發生,等等。根據[9],這可以被稱為情境意識的第一級:對當前情況下的元素的感知。

世界模型:在OODA環的觀察步驟中,已經開始了構建世界模型的過程,無論是隱性的還是顯性的。符合軍事決策觀點的世界模型的另一個名稱是共同行動圖。所有相關的概念都在世界模型中得到體現,包括不確定因素和假設。請注意,世界模型可以被仿真,即個體、平臺、團體或社會的行為可以隨著時間的推移而被預測,即使是在用戶的頭腦中隱含完成。

定位:在OODA循環的第二步,分析者使用他的專業知識,對觀察結果進行推理,形成假設,例如對手的意圖。通過這樣做,實現了對真實世界的深入理解[12],這反映在世界模型中(仍然是顯性或隱性的)。在態勢感知方面,這被稱為第2級(對當前形勢的理解)和態勢感知能力第3級(對未來狀態的預測)。在任何時候,推理的結果可能是世界模型結構是不充分的,例如,現實世界的一個方面被認為是不相關的,但最后發現是相關的。因此,世界模型需要被更新。

決定:決策者,可能是與分析員相同的人,將根據對現實世界的理解,考慮如何采取行動的選項。世界模型的預測能力被用來演繹各種情景,讓人了解什么是理想的行動方案,什么不是,或者讓人了解空間和/或時間上的關鍵點,這樣就可以對這些關鍵點給予額外考慮。當然,如果世界模型是隱含的,這都是決策者的精神努力。此外,對于感興趣的現實世界系統的預測行為,可以得出的結論的精確性和/或確定性有很大不同:從精確的路線,到可能的戰略和理論的廣泛指示。

行動:在OODA-環的這一步,行動被執行。這些行動發生在真實世界中,然后一個新的OODA-環開始觀察是否需要重新考慮已經做出的決定。另一個行動可以是向 "較低層次"的決策過程下達命令,例如,讓下屬單位計劃和執行他們所得到的任務。這就是不同組織層次的決策過程的互動方式。還要注意的是,盡管每個組織層面的世界模型都與真實世界相聯系,但這些世界模型的結構(即被認為是相關的)可能是不同的。

從概念上講,在上述的決策過程中引入模擬(實際上首先是建模的巨大努力)是很直接的。在第一步和第二步中,建立了世界相關部分的模型,在以后的時間里,它被用來評估許多不同的情景,分析由此產生的結果,并根據其結論做出決定。正如后面將顯示的那樣,人工智能技術的作用與建模和模擬的使用有很大關系。

雖然從概念上來說,納入仿真模擬和人工智能技術是很簡單的,但為了給行動提供真正的附加值,它需要被嵌入到具體的決策過程中。而每個決策過程都是不同的,有不同的時間限制,不同的行動者,在不同的操作環境中。這將對開發使用的解決方案,包括人工智能技術,提出不同的功能要求。此外,根據具體的作戰決策環境,應用人工智能技術的附加值(或缺乏附加值)將是不同的。在下一節中,我們將對一個具體的案例進行進一步的探索,盡管肯定不是詳盡的努力,以允許對這種系統在這個過程中可能具有的不同角色進行更通用的識別。

3.0 案例研究:聯合目標定位周期

本節提供了一個關于如何利用仿真和人工智能技術來支持作戰層面上的(蓄意)聯合目標定位決策的案例研究。對于每個想法,都有以下描述:被加強的行為者(決策者)和/或產品,人工智能如何提供支持,以及使用這種形式的支持的附加值是什么。請注意,這個案例研究的目的是為了更好地了解人工智能技術應用的廣度,因此,目標不是完全涵蓋所有的可能性,也不是過于詳細。這種類型的案例研究已經確保了可以得出初步的功能要求,人工智能技術和智能建模與仿真應該應用于此。

圖2顯示了北約盟國聯合出版物3.9中的聯合瞄準決策周期,其中強調了五個想法。

圖2--來自北約盟國聯合出版物3.9的聯合目標定位周期,JFC=聯合部隊指揮官,JTCB=聯合瞄準協調委員會,JTL=聯合瞄準清單,TNL=目標

想法1--基于AI的目標系統分析的所有來源分析。第一個想法是支持目標小組的成員在聯合目標定位周期的第二階段參與目標系統分析,進行目標開發。例如,假設從第一階段開始,就打算通過瞄準對手的石油生產來擾亂其資金能力。在第二階段,分析人員將研究石油生產的目標系統,以確定油井、煉油廠、管道、重要的道路,也許還有相關的關鍵人物,等等,基于他們擁有的所有來源(圖像、信號情報、人類情報,等等)。

人工智能技術可以協助人類分析員建立 "目標系統模型",即通過采用模式識別算法來處理大量的所有來源的信息,通過使用推理算法將信息碎片組合成一個結構化和連貫的整體。分析傳入信息的算法可能--經過增量的人工智能驅動的創新--也能夠識別尚未反映在目標系統模型中的新概念,然后可以自動添加到模型中。另一種可能性是創建一個 "虛擬分析師"(見圖3),通過不斷挑戰假設、假說和人類偏見來協助人類分析師,這需要額外的用戶建模和可解釋的AI技術。

圖3:人類和虛擬分析員,一起解釋數據,推理信息和知識,以建立一個目標系統模型。

這個想法的潛在附加值首先體現在完整性上,更多的目標可以呈現給人類分析員--它仍然可以為交叉檢查的目的做最后一步的目標審查。因為所有來源的情報都被整合到目標識別決策中,所以可以得出更具體的目標信息。識別算法經過訓練后,與基于人眼從數據中識別目標時相比,可以更快更及時地進行識別。最后,該算法可以明確地轉向識別不同類型的目標,這些目標可能并不都在人類分析員的經驗或觀察能力范圍內。

想法2--通過算法識別來自目標系統分析的優先目標。第二個想法是支持從一個給定的目標系統分析中識別優先目標。這有助于目標支持小組成員得出一個聯合的優先目標清單,該清單是在聯合目標定位周期的第二階段,即目標開發階段制定的。人工智能技術的支持始于將目標系統分析(如果還沒有的話)轉化為計算機可理解的形式,該形式由功能關系連接的實體組成,并由目標任務的目標支持。然后,在相關的時間范圍內計算直接或間接瞄準不同實體所產生的效用(例如,效果和效果的持續時間)。

然后,最終結果可以由人類分析員檢查,該分析員可能會重新引導算法的某些部分,以確保最終結果選擇的優先目標盡可能地滿足和平衡任務目標。另一種可能性是,分析表明,對目標系統的某些部分還沒有足夠的了解,無法做出某種決定,然后發出新的情報請求,以減少這種不確定性。

在這種情況下,使用人工智能技術的附加價值首先體現在通過完整地確定優先事項,包括最大限度地實現任務目標,同時最大限度地減少負面問題,從而更好更快地確定優先次序。這種全面的分析可能會導致原始的目標選擇,在這種情況下,會發現反直覺但非常有效的目標。目標優先級的可追溯性增加了,因為目標選擇問題的算法規范以及積極和消極的相關功能迫使決策者在激發他們的偏好時完全明確。

想法3--能力和優先目標的自動映射。與目標開發(第二階段)密切相關的是第三階段的能力分析。第三個想法是協助,仍然支持目標支持小組的成員,找到最適當的(致命和非致命)能力的最佳同步組合,可以應用于產生所需的物理和心理效果。使用模擬和人工智能技術來自動生成和播放高水平和低水平的行動方案,可以獲得對計劃的優勢、機會、弱點和威脅的深刻理解。當然,只有在與人類分析員和決策者密切合作的情況下,建立這樣的理解才是有用的,這就需要有人類意識的 "虛擬分析員 "技術。

想法4--計算機輔助的穩健和適應性部隊規劃和分配。在聯合定位的第四階段,能力分析的結果被整合到進一步的行動考慮中,推動聯合部隊指揮官對目標的最終批準。仿真和人工智能優化技術可用于尋找稀缺資源對目標或其他任務的最佳分配。什么被認為是 "最好的 "可以是不同的,例如,爭取最大的效果、安全、穩健、靈活,或這些和更多因素的任何組合。這可能會提供原始的規劃和分配方案,從人類分析者的角度來看,這些方案部分是反直覺的,但卻富有成效。智能優化算法可以幫助確定時間和/或空間上值得監測的關鍵點。而且,如果可以實時跟蹤進展,在事件或機會實際發生之前就可以立即生成重新分配方案,在時間緊迫的情況下減少決策時間。

想法5--自動評估軍事行動績效措施。在聯合定位的最后階段,收集和分析數據和信息,以確定計劃的行動在多大程度上得到執行(績效的衡量),以及達到預期的效果(效果的衡量)。因為這種類型的分析與其他階段的分析基本相似(即需要觀察和理解),所以在這里采用的模擬和人工智能技術可以被重復使用。例如,"目標系統模型"可以用來事先確定哪些措施或措施的組合最能說明性能和/或成功,也許還要考慮到其他因素,如效果的可測量性和延遲性。這些見解可用于指導例如戰斗損失評估工作。算法可以自動產生多種假設,當數據/信息可用時,"虛擬分析師"可以協助對這些假設和信息進行推理,幫助人類分析師以結構化的方式更好地解釋復雜的情況。

4.0 討論:人工智能在軍事決策中的作用

在本節中,我們將討論人工智能技術在軍事決策中可以發揮的作用,并將這些作用與前面介紹的軍事決策系統聯系起來。這些作用是由上面的案例研究綜合而成的。不同的作用是沿著兩個層次結構的,從上到下:在 "過程"層面,不同但連貫的步驟/階段被執行;在 "個體"層面,人類(或團隊)負責執行決策過程的特定步驟。

在整個決策過程的層面上,有多個步驟可以區分。在前面介紹的決策系統觀點中,這些步驟是觀察、定位、決定和行動。在聯合定位案例研究中,這些對應于六個階段,由不同的人在不同的時間執行。在這個層面上,我們為人工智能技術定義了四個功能角色,以支持決策過程。

  • 感知:這個角色中的人工智能技術,主要以模式識別的形式,幫助處理大量的數據,如在圖像中尋找人,檢測數據流中的異常情況等。

  • 態勢理解:這個角色的功能是實現對當前或假設的作戰環境的理解[12],從而描述所有相關實體、它們之間的關系以及不可觀察的屬性,如它們的野心和目標。例如,對關于最近敵對活動的現有信息進行推理,結合關于他們的理論的一般知識,可以用來產生關于他們最可能的意圖的假設。

  • 計劃生成:在這個角色中,人工智能技術,例如搜索和優化,被用來生成旨在達到(或避免)某種目標情況的計劃、策略和行動方案。處理元標準,如計劃的穩健性或情況的實用性也是這個作用的一部分。顯然,在許多情況下,不確定性是行動環境所固有的,因此不能被忽視。盡管如此,對當前形勢的理解越好,預測能力就越強。

  • 學習:扮演這一角色的人工智能技術被用來更新有關作戰環境的知識。例如,在某個時間點,人們可能會發現一個被認為是正確的關于敵人理論的假設不再有效了。為了能夠保持正確的理解,這種新知識應該反映在所有其他決策步驟中。

在單個節點層面上,決策過程的單一步驟被執行,通常由一個或一組人類分析員和/或決策者負責。無論這一步需要什么,人工智能技術都可以在不同的合作角色中被使用,以支持人類。

  • 專家系統支持:在這個角色中,支持的形式就像一個經典的專家系統,以知識和優化結果的形式向人類決策者或分析員提供建議。重要的考慮因素是,例如,如何以人類能夠接受的方式向其提供建議。對可解釋人工智能的研究可能是一個方向。

  • 虛擬團隊成員:在這個角色中,人工智能技術被用來在人類和支持系統之間創造一種更平等的互動關系,積極為一個共同的目標工作。例如,虛擬團隊成員可以通過提出問題使假設明確化或挑戰偏見來幫助做出決定的(認知)過程。人類-人工智能的研究可能是一個追求的方向。

  • 自主決策:決策過程中的其他步驟的互動,專家系統和虛擬團隊成員支持的考慮同樣有效。例如,在其他決策中的人類需要能夠推斷出一個自主系統。

圖4顯示了在軍事決策系統視圖中繪制的人工智能的七個角色。當使用模擬和人工智能來支持決策過程時,應該始終考慮這些不同的角色是如何互動的,無論是在過程層面還是在個人層面。例如,在聯合目標定位的過程層面上,第二階段包括定位(目標系統分析)和決定(為達到預期效果而瞄準什么)。第三階段也包括定位(自身能力)和決定(如何實現預期效果)。這些階段共享相同的世界模型,在這個過程中引入人工智能支持將推動這些步驟的合并,這不是不可想象的。在個體層面上,例如再次考慮第2階段,分析員可以得到綜合態勢理解、規劃生成和學習技術的支持,以及虛擬團隊成員和專家系統支持技術的任何組合。

圖4:由建模和仿真支持的軍事決策周期的系統視圖,其中人工智能技術的功能(黃色)和協作(綠色)作用被描繪出來。

5.0 結論和進一步研究

在本文的第一部分,我們介紹了軍事決策的系統觀點,主要基于OODA循環,其中我們介紹了世界模型,作為向整個決策周期提供建模和仿真支持的核心手段。接下來,從我們的聯合目標定位案例研究中,我們推斷出人工智能可以為軍事決策做出貢獻的七個功能性和協作性角色。這些角色對應于決策步驟,或者對應于如何向負責該過程步驟的人提供支持。最后,我們將這些人工智能角色整合到決策系統視圖中。

本文的目標是為我們社區內人工智能的綜合觀點做出貢獻,并為軍事決策的人工智能各種研發奠定基礎。在開發支持軍事決策的模擬和人工智能時,我們建議同時考慮過程層面和單個節點層面。在過程層面上,通過使用建模和仿真可以獲得好處。在單個節點層面上,為人類分析員和決策者提供實際支持,人工智能技術可以通過不同的角色組合對此作出貢獻。鑒于決策過程的各個步驟都是不同的,并且提出了不同的要求,履行這些不同角色的人工智能技術需要作為一個整體來開發。

我們相信,隨著對這一主題的更多研究,軍事決策的速度和質量都可以得到改善。然而,非常重要的是,要持續關注特定的未來人工智能應用的附加值,以及研究這些應用可能對,例如,負責該過程的人的所需技能,甚至該過程本身的影響。最后需要的是一個系統,它的存在是因為它可以建立,而不是有人幫助。對于這一點,應該更普遍地回答如何限定然后量化應用人工智能進行具體軍事決策應用的附加價值的問題。這樣的見解反過來又會成為關于人工智能用于軍事決策的集體技術路線圖的寶貴基礎。

6.0 參考文獻

[1] Bloemen, A., Kerbusch, P., van der Wiel, W., Coalition Force Engagement Coordination, TNO Report TNO-2013-R12117, 2015.

[2] Connable B, Perry W, Doll A, et al. Modeling, Simulation, and Operations Analysis in Afghanistan and Iraq. Santa Monica, CA: RAND, 2014.

[3] Davis P., Kulick J., Egner M. Implications of Modern Decision Science for Military Decision-Support Systems. Santa Monica, CA: RAND, 2005.

[4] Kunc, M., Malpass, J., White, L.(2016). Behavioral Operational Research, Theory, Methodology and Practice. Palgrave Macmillan, London.

[5] Langley, P., Meadows, B., Sridharan, M., Choi, D. (2017). Explainable Agency for Intelligent Autonomous Systems. Proceedings of the Twenty-Ninth AAAI Conference on Innovative Applications (IAAI-17).

[6] NATO Allied Joint Doctrine For Joint Targeting AJP 3.9(B), 2015.

[7] NATO Allied Command Operations. Comprehensive Operations Planning Directive Interim V2.0.

[8] “OODA loop.” Wikipedia, The Free Encyclopedia. 10 Mar. 2018.//en.wikipedia.org/wiki/OODA_loop

[9] “Situation Awareness.” Wikipedia, The Free Encyclopedia. 17 Mar. 2018.

[10] Smit, S., Veldhuis, G., Ferdinandus,G., et al. KaV Advanced Visual Analytics, TNO Report DHWELSS-, 2016.

[11] Toubman, A., Poppinga, G., Roessingh, J. (2015). Modeling CGF Behaviour with Machine Learning Techniques: Requirements and Future Directions. Proceedings of Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2015.

[12] “Understanding.” Wikipedia, The Free Encyclopedia. 18 Apr. 2018.

[13] Zacharias, G., MacMillan, J., van Hemel, S. (2008). Behavioral modeling and simulation: From individuals to societies. National Research Council, National Academies Press.

付費5元查看完整內容

人工智能(AI)是機器顯示出來的智能行為。在日常用語中,當機器模仿人類進行學習和解決與認知功能相關的問題時,就會使用人工智能這個術語。人工智能中關鍵問題包括推理、規劃和學習。在軍事應用中,人工智能在不同軍事層面使用的系統中變得越來越重要,不管是從戰斗層面還是到戰術和作戰層面,人工智能都有極其重要的作用。這一發展導致決策支持系統被用于營級和旅級。基于通過以用戶為中心涉及軍事人員的結構化活動收集的經驗數據,本研究調查了人工智能如何在指揮和控制系統中應用。我們研究了它在情報和作戰過程中的用途。我們討論了人工智能方法如何用于決策支持的過程,這些過程提供了一個共同的作戰圖景,使用威脅分析來預測敵人的行動,并在執行前分析自己部隊的替代行動。我們的結論是,人工智能對武裝部隊的好處是,當時間有限或選擇太多,人們無法分析所有備選方案時,它可以提供關鍵的系統支持。我們相信,在指揮和控制系統中成功實施人工智能的一方可以成為分析信息的最優和最快的一方,并因此可以更快做出決策,獲得對對手的作戰優勢。

關鍵詞:人工智能;指揮與控制;OODA環;分析;規劃;執行

1 介紹

《牛津詞典》對人工智能(AI)的定義如下:"計算機系統的理論和開發,能夠完成通常需要人類智慧的任務,如視覺感知、語音識別、決策和語言之間的翻譯"。

目前,很難想象有什么比人工智能更突出的流行語了。當然,隨著最近性能的進步,人工智能在一些任務上的表現甚至超過了人類,如下圍棋、皮膚癌檢測和語音識別,而且使用它有一些很好的理由。

這些進展的共同點是都與深度學習(DL)這個子領域相關。深度學習是指由多層非線性處理單元組成的機器學習模型。通常,用人工神經網絡來表示這些模型,在這里,神經元指的是一個單一的計算單元,其輸出是通過一個(非線性)激活函數輸入的加權和(例如,一個只有在信號為正時才通過的函數)。

基于人工神經網絡的深度學習系統被稱為深度神經網絡(DNN),由并聯神經元組成的大量串聯層構成。對大量數據的處理和強大的計算機以及一系列創新(例如初始化策略和數據規范化)的結合使這些大容量網絡能夠成功訓練。表示學習是DNNs高性能的主要原因之一。使用 DL 和 DNN,不再需要手動制作學習特定任務所需的特征。相反,判別特征是在 DNN 的訓練過程中自動學習的。

應該強調的是,DNN不是解決所有人工智能問題的靈丹妙藥,根據具體場景和任務,還需要其他人工智能概念和機器學習模型。

根據McCann和Pigeau的說法,指揮和控制(C2)被定義為 "建立共同意圖以實現協作行動"。在軍事背景下,C2的核心問題如下:

  • 如何從一大批資源中獲得集體效應?
  • 如何處理內在的不確定性?
  • 如何能以比敵人更快的速度對敵方產生影響?

以比敵人更快的速度產生影響,迫使敵人做出反應而不是采取行動。實現這一目標的先決條件是要能夠處理大量的信息,并對不確定因素進行有效的建模。

為了以一種結構化的方式解決這些問題,C2總是伴隨著C2系統。C2系統由人、組織、流程、方法和設備組成。正如Brehmer所提到的,C2系統的產品是命令,為了產生命令,系統需要促進(i)數據收集,(ii)推理/感知(即分析信息并確定需要做什么),以及(iii)規劃(即把需要做的事情變成可以做的事情)。

對于軍事部門而言,將 AI 納入 C2 系統的好處在于,當時間有限或選項數量過多以至于人們無法分析替代行動方案時,它可能會提供關鍵系統支持。因此,在戰術和作戰層面使用人工智能的戰略重要性怎么強調都不為過。Ayoub和Payne寫道:"特定領域的人工智能可以從根本上轉變軍事力量的對比,使人工智能發展成熟的一方具有更強的軍事力量。特定領域的人工智能將對沖突產生變革性影響,并且與之前的軍事能力變革一樣,它有可能深刻地破壞戰略平衡。戰術和作戰系統最有希望被改變,而且這些系統將產生戰略影響。

在這份概念文件中,我們討論了AI方法在決策支持系統(DSS)中的應用。根據瑞典武裝部隊指揮與控制學校舉辦研討會的經驗數據,我們確定了人工智能在現有C2系統中對之前列出的C2的三個核心問題可能產生重大大影響的領域和任務。此外,我們還討論了人工智能方法的不同方面以及它們對具體任務的相應適合性。具體來說,能夠解釋人工智能產生的某些建議可能是基于人工智能的決策支持系統的核心。

本文的其余部分安排如下:在第2節中,我們介紹了C2系統的動態觀察、定位、決定和行動環路模型,并描述了以用戶為中心的方法,該方法被用來發現C2系統的挑戰,在這些挑戰中,人工智能有可能被利用來發揮作用。然后在第3節中總結了以用戶為中心的活動的結果。第4節和第5節分別介紹了在研討會上確定的人工智能方法在一些重點任務中的機會和挑戰。最后,第6節專門討論結論。

2 方法論

對于一個特定的任務,C2過程是一個高度動態的過程,正如博伊德所啟發的那樣,在某種程度上可以被抽象為一個動態的觀察、定位、決定和行動的循環(所謂的DOODA循環),如圖1所示。命令轉化為軍事活動,而軍事活動又會導致一些效果被摩擦(影響效果的未知因素)所過濾。這些影響由傳感器(在最廣泛的意義上,從電子傳感器到人的觀察)觀察這些影響,并將傳感器數據與來自系統內部狀態的數據(例如任務的進展)一起收集。對任務至關重要的事件與任務、資源和約束一起被識別并且確定。最后,命令依據規劃過程確定計劃、分配資產、評估風險、估計、選擇和排練計劃等。這個循環一直持續到任務完成、失敗或撤消。DOODA循環的所有階段都與C2系統必須考慮的一些不確定性有關。

圖1:DOODA-環的說明

在 C2 系統中的DSS中要處理的任務具有復雜性和多樣性等特點。因此,在不久的將來,我們不太可能擁有一個人工智能,它在給定所有可用傳感器數據和內部系統狀態的情況下簡單地輸出一組建議的命令。相反,在DSS中逐步引入人工智能似乎更有可能達到效果。為了確定當前武裝部隊C2系統中導致DOODA-循環速度降低的瓶頸所在,并確定哪里可以改進,我們采用了以用戶為中心的設計(UCD)方法。這種方法使最終用戶和非專業人員都可以發表意見,否則他們幾乎沒有機會影響未來技術的發展。UCD的特點是在一個復雜過程中使用適當的設計方法和設計活動。這些方法和活動取決于手頭的問題,需要哪些專家知識,以及最終用戶、設計工程師和決策者的可及性。這個想法是,設計師和設計工程師是促進設計活動和成為設計專家的推動者,而最終用戶和其他利益相關者被認為是各自領域內的專家。這明確了角色和能力,以便有關未來設計選擇和采購的決策可以基于相關和準確的信息。

在UCD哲學的啟發下,進行了一次結構化的頭腦風暴,目的是為了獲得有關用戶需求的更深層次的知識,并能夠設想未來C2系統的發展。參與者包括瑞典武裝部隊指揮與控制學校的軍官、設計工程師和研究人員。結構化的頭腦風暴內容包括個人和聯合的頭腦風暴活動,以及對需求的優先排序。

頭腦風暴中要回答的問題涉及到人工智能系統在C2系統背景下的目的、由誰和在哪里受益。為了確保考慮到未來技術的全部可能性,與會者被明確告知不考慮任何有關財務、法律和技術挑戰的問題。與會者被要求首先單獨寫下他們的想法。然后,所有參與者將這些想法分成若干組,每個組都有一個代表性的標簽。最后,為了評估所產生的想法的優先級,每個參與者在1到3的范圍內對三個不同的想法進行優先排序。

3 研究結果

三個不同的組別被確認:分析(和監測)、規劃和執行。這些都可以與前面描述的DOODA循環中的感知、規劃和行動過程聯系起來。鑒于參與者的背景和經驗,這并不令人驚訝。就重要性而言,分析組被認為具有最高的優先權,其次是規劃,然后是執行。

在分析組中,可以確定三個不同的子組:尋找信息、匯編信息和檢測信息中的異常情況。與尋找信息有關的例子是量身定做的搜索(針對個人或角色)和信息的自動元標記(例如,主題或安全級別)。在信息編纂子組中列出的一個想法是自動更新共同的作戰圖。最后,識別報告和命令之間以及報告之間的不一致被列為與檢測異常相關的示例。

規劃組內的想法可以分成兩個子組:規劃支持和戰術開發。在規劃支持方面,提出的想法有:地形分析(例如,以最小的可探測性顯示路線)、后勤計劃(例如,從A到B需要x、y和z)、預測敵人對形勢的認識、預測敵人的行為(從理論到實際數據)以及自動提出行動計劃。對于戰術的發展,有人提出將強化學習用于空戰和海戰,這將有可能引出新的軍事理論。

在執行組中列出的想法側重于為指揮官評估行動方案,以及在執行行動期間簡化軍事總部的人員工作。提出的兩個具體想法是自動生成(定制)報告摘要的人工智能和自動將語音轉錄為文本的人工智能。

4 機遇

今天,非軍事部門推動了人工智能的創新。然而,開發的技術和概念非常通用,可以用于軍事系統。在本節中,我們將討論在瑞典武裝部隊指揮與控制學校舉辦的研討會期間提煉出的一些問題背景下使用 AI 的機會。

重點是為分析形勢提供決策支持,并為我們自己的部隊提出和評估行動。我們確定了幾個子任務:分析當前形勢,為制定計劃提供決策支持,評估已經制定的規劃和執行過程中的規劃,為動態重新規劃提供決策支持,并隨著事件的發展不斷擴展和完善規劃

為獲得良好的決策支持,最重要的部分是為當前問題構建一個適當的知識表示。知識表示提供了一個框架,人工智能方法將在其中工作。構建知識表示是一個智力問題。鑒于這一點已經做得很好,決策支持的其余部分是在表示框架內的數學問題,并為決策者提供一個良好的演示。如果我們假設規劃、評估、實施和動態重新規劃的操作可以用具有多種可能值的參數形式完全描述,并且用幾種有效性措施(MOE)對這種計劃進行評估,那么問題就是要找到一個能提供良好MOE的計劃。

4.1 用于分析的人工智能

在分析階段,人們對信息進行處理和組合,以構建一個通用態勢圖(COP)。這包括對傳入的信息進行分類,確定當前的情況,構建一個動態更新的COP,并檢查自己的系統是否被欺騙了。利用信息融合技術,可以根據收到的一連串情報并且報告自動生成一個戰術性的行動計劃。因此,分析階段本身就很重要,但它還有一個進一步目的,即它的結果構成了在接下來的計劃和執行階段的決策支持的可用輸入。

理解已確定的情況意味著什么的方法很重要;"目前對理解的強調是由于英國軍事指揮官意識到一種軍事傾向,即對錯誤的問題匆忙采取精確的解決方案,而沒有充分考慮背景。美國指揮官也意識到了這一點"。這些指揮官認為有必要在進行數據分析、信息融合的基礎上構建一個抽象的COP并開始解決手頭的問題之前,制定方法來定義問題的框架。這是傳統上由情報單位進行的工作,但應該被納入總部的所有職能中。

研討會強調了三個不同的分析子組,它們都與信息處理有關:尋找信息、匯編信息和檢測信息中的異常情況。

尋找信息的問題存在于許多不同的尺度上。例如,一個常見的情況是檢索一組涉及某個主題的類似文件。如果所有的文件都有其主題的元標簽,那么這個過程就會很快。元標簽可以通過半監督學習自動進行。Salakhutdinov和Hinton使用深度自動編碼器的形式進行深度學習,將非常高維的文檔輸入向量(歸一化的字數)轉化為低維的潛在向量空間,其中相鄰的向量對應于相似的文件。學習自動編碼器本身可以以無監督的方式進行。然后,一個自動元標簽算法可以通過使用一些主題標記的樣本在潛空間中定義特定的聚類來構建。

在不同的尺度上尋找信息,可以確定文件中與某一主題相關的實體。例如,提取與后勤有關的物品和數量可以加速部隊調動的規劃過程,等等。在自然語言處理中,這個問題被稱為命名實體識別,神經網絡與命名實體詞典的結合已經顯示出很好的效果。

最后一個子組包含了與異常檢測有關的想法。目前最先進的異常檢測方法是使用深度自動編碼器作為基礎。假設“正常 "數據點位于自動編碼器的非線性低維嵌入模型上,因此在被自動編碼器解碼時具有較低的重建誤差。相反,異常值往往有較大的重建誤差。所描述的方法適用于大多數的問題,從檢測傳入傳感器數據中的異常到標記與標準非常不同的報告都可以適用。與異常檢測組相關的具體想法是檢測報告和命令中的沖突信息。最近的工作表明,在對兩個句子是否沖突進行分類方面取得了一些可喜的成果。

4.2 用于規劃的人工智能

對于規劃行動,人工智能與模擬的結合是一個富有成效的組合。那些必須規劃軍事行動的人可以進行 "如果 "測試,以衡量不同規劃的預期效果。目標是盡可能真實地模擬軍事行動產生的不同影響。這既包括對戰場的影響,也包括對道德、后勤和難民等其他因素的影響。

在演習中獲得的軍事知識可以幫助決策支持系統進行任務規劃這一點也同樣重要。在規劃制定要實現的目標、有效分配資源、執行任務以監控任務進展和根據需要重新規劃活動時,都需要這種知識。

在規劃過程中和計劃執行之前,可以用定性或定量的方法對計劃進行分析。在分析行動方案(COA)的定性方法中,一個強調論證模型之間相似性和差異性的框架可以用來選擇和完善觀點來評判軍事行動。這樣的框架在決策支持系統中很有用,可以對軍事計規劃進行支持和反對。當不同的規劃小組提出多個 COA 時,概念框架用于記錄領域專家對這些 COA 的批評。為了創建結構化的批評并系統地評估 COA 的某些方面,我們向專家提供了一個模板。這種方法有助于在規劃階段對備選COA進行結構化分析。

作為定性分析的替代方法,可以使用定量的方法。一個例子是將人工智能和多智能體系統結合起來組成紅隊。在軍事規劃和決策中,組建紅隊有一個長期的傳統劃分模式。一個藍隊代表我方的目的、目標和利益,而敵人則由紅隊代表。通過讓紅隊模仿敵人的動機、意圖、行為和預期行動,己方可以測試和評估自己的行動方案,找出利用敵人弱點的機會,并學習了解藍隊和紅隊的互動動態。組建紅隊是一種了解所有可能影響一個系統及其決策的設備的方法。從本質上講,敵人是一個單位,它和我們存在競爭關系,并采取行動阻止我們實現目標。在這里,可以集成人工智能和多智能體系統以支持決策和規劃。它允許決策者探索可能影響目標的事件發展情況,發現和評估我們自己的弱點,學習了解敵人的行為并找到獲勝的策略。

同樣值得一提的是最近關于為北約開發可操作的數據耕作決策支持工作(MSG-124),該工作使用數據耕作方法(即大規模并行模擬、數據分析和可視化)來分析模擬系統的輸出,其中有數十萬種地面戰爭作戰計劃的備選模擬。這是一種將模擬與大數據分析相結合的定性方法。

4.3 用于執行的人工智能

在執行行動時,重要的是迅速將可通過人工智能方法進行融合和分析的戰場信息送到指揮官手中。指揮官需要這些信息,以便在緊張的情況下迅速做出關鍵決定。處理和傳遞給指揮官的信息量往往很大,以至于存在信息過載的重大風險。如果信息沒有按照指揮官理解的邏輯、并且以簡明和有意義的方式呈現,就會出現問題。

除了人工智能和信息融合之外,高級模擬是決策支持系統框架內的一種重要方法,其中模擬可以與人工智能方法進行交互。 Moffat 和 Witty 開發了一種決策和軍事指揮模型,有助于深入了解軍事決策過程。 在這個模型中,軍事行動可以看作是一系列連續的對抗。 該模型基于博弈論和對抗分析。對抗不同方面的看法是基于他們對當前局勢的看法以及他們能夠采取的替代行動。該模型可用于高級模擬,以評估決策支持系統框架內的行動。

自2008年以來,美國國防部高級研究計劃局(DARPA)已經為軍事戰術指揮和控制開發了一項名為 "深綠"(DG)的技術。DG幫助指揮官發現和評估更多的行動選擇,從而積極主動地管理一項行動。DG背后的方法旨在進入對手的OODA環內。其想法是,決策應該非常迅速以至于OODA-環被分解成一個極快的OO-環,它提供一個定制的DA-環,當前的情況信息被用來模擬自己和對手的許多決策組合,以及模擬和評估這些選擇。該計劃在2013年被移交給美國陸軍。DARPA在DG之后采取了進一步的措施,最近開展了一個名為實時對抗性情報和決策(RAID)的研究項目,使用預測分析、人工智能和模擬來分析對手的行動 。

RAID開發的技術可以幫助戰術指揮官估計敵方部隊的位置、實力和目的,并有效打擊對手的行動時預測他們可能的戰術動向。這包括識別對手的意圖,預測對手的戰略,發現欺騙行為,規劃自己的欺騙行為,生成戰略等。這些問題發生在軍事行動的規劃、行動的執行、情報分析等方面。為了實現這一目標,RAID將用于規劃的人工智能與認知建模、博弈論、控制論和機器學習相結合。

機器學習也可以用來制定戰斗的戰術。然而,許多機器學習算法的速度不足以在空戰等應用中找到智能體的最佳行為。Q-learning是一種強化學習算法,已被成功用于評估空戰目標分配。該算法在不使用任何大型數據集或先驗數據的情況下,為智能體的行為學習最佳狀態-行動對。

有時,我們需要為一連串的類似場景學習行為規則。在這種情況下,我們可以使用遷移學習來減少學習時間。例如,當我們學習不同的2對2場景下的空戰規則時,我們可以先使用已經有2對1場景下戰斗經驗的智能體。一個實驗表明,在2對1場景中已經獲得的經驗在2對2場景中是非常有利的,因為進一步的學習所花費的成本是最小的。以這種方式使用遷移學習可以使智能體的行為在新的場景中得到快速發展。

如第3節所述,人工智能促進執行的重點還在于使工作人員在執行業務的過程中更有效地工作。其中提到的一個想法是自動生成報告摘要。確定的需求來自于分層的組織結構,每個上層都會收到來自相連的下層的報告,因此,如果不進行總結,可能會有一個指數級增長的信息向上傳遞。在過去,自動文本總結是提取式的,即從原始文件中剪切和粘貼相關的完整句子。隨著最近的深度學習技術--序列到序列模型的出現,抽象化的總結方法也隨之出現。抽象方法能夠產生摘要,其中產生了原始文件中不存在的新的表述方式。

另一個被提及的想法是將語音轉錄為文本。自計算機興起以來,機器學習一直是語音識別系統的基礎。今天最先進的算法都是基于深度學習技術。例如,微軟在2017年提出的算法能夠達到與人類相同的錯誤率。

5 挑戰

在本節中,我們討論了將人工智能納入決策支持系統時的一些潛在挑戰。具體來說,我們討論了當前人工智能技術的可行性和可解釋性。

5.1 可行性

研討會上浮現的不同想法具有不同的技術成熟度。 例如,美國軍方長期使用基于人工智能的后勤規劃工具“部署和執行聯合助理”(JADE),美國海軍研究實驗室開發了一種名為“狙擊手”的任務規劃和訓練工具 -RT。后者的工具是圍繞三維地形數據建立的,可以回答 "我能看到什么 "或 "我在哪里能被看到 "這類問題,這些問題在放置傳感器或保護部隊時是至關重要的。另一個技術上成熟的人工智能問題是自動語音識別。微軟、谷歌、亞馬遜和其他公司都有利用最新深度學習技術的產品,用于基于語音的對話系統。

在第4.1和4.3節中列出的自然處理語言應用中,尋找類似文件的有效算法已經足夠成熟,可以在實際系統中使用。稍微不那么成熟的是命名實體識別和自動總結的技術。然而,商業系統已經存在(參見www.primer.ai)。最困難的問題(在列出的分析想法中),因此也是最不成熟的問題,是尋找文件之間的矛盾。與更直接的分類問題相比,發現矛盾的學習算法需要另一層抽象的推理。

正如人工智能的最新進展所證明的那樣,海量數據的可用性是實現強大人工智能系統的基礎。根據場景或應用,這在某些軍事環境中可能是一個挑戰。如遷移學習之類的技術,其中針對相似但不同的應用程序訓練來說,機器學習模型被重新使用并適應新問題,當數據稀缺時,對于許多軍事應用程序來說將是重要的。例如,軍事報告和摘要與民用報告和摘要是不同的。然而,考慮到兩者的相似性,人們會期望對非軍事文本進行訓練算法將會是機器學習模型學習特定軍事用例摘要的良好起點。Kruithof研究了與使用遷移學習相比,深度學習需要多少輸入數據才能獲得更好的分類性能。

5.2 可解釋的人工智能

決策支持系統能夠解釋其建議對于決策者能夠理解和依賴該系統至關重要。在可解釋人工智能領域,重點是異構數據的分類、規劃、數據生成和決策策略的創建。該研究領域旨在創建能夠解釋模型的機器學習方法,其中機器學習系統能夠解釋其建議并描述其自身推理的優勢和局限性。

這個研究領域并不新鮮。它已經存在了幾十年,但隨著越來越多地在子符號級別上運行的機器學習方法的出現,它變得更加突出。人工智能系統有幾種方式可以解釋他們的建議。首先,一些類型的模型被認為比其他的更容易解釋,如線性模型,基于規則的系統,或決策樹。對這類模型的檢查可以讓人了解它們的組成和計算。此外,可解釋模型可用于近似亞符號人工智能系統的推理。近似推理可以對系統的整個決策區域或特定決策點周圍的區域進行采樣。

此外,混合系統是可以想象的,其中亞符號機器學習(如深度學習)層面與符號層面相連,在符號層面上進行近似推理,將來自不同推理過程的不確定數據結合到決策支持的基礎上。這樣一個可解釋的人工智能將連接機器學習和更高層次的近似推理和決策。每當決策部分是基于機器學習的結果時,它將為決策者提供解釋。

為了深入了解深度神經網絡的工作情況,必須對神經網絡進行概率性解釋,其中權重被視為概率,網絡被第二個解釋過程劃分為基于神經元之間共同信息處理行為的子網絡。這種劃分確實可以由另一個機器學習模塊來完成。對于這個次要任務,可以考慮幾種不同的方法(例如Kohonen網絡)。然后,每個子網絡(集群)可以被映射到決策樹中的一個節點,通過調查每個節點對決策樹得出的整體結論的影響,可以從可解釋性的角度進行分析。因此,這種方法將從詳細的子符號水平上的問題解決能力轉向聚合的符號水平上的問題解釋能力。 可以將深度學習與神經符號推理和可解釋的人工智能結合使用的應用程序來自通用應用程序池,這些應用程序要么具有大量歷史訓練數據、可從模擬器獲得的數據,要么具有事先不一定完全知道的流數據。 這些應用程序包含一個需要管理的問題(并且可能隨著時間的推移動態發展),需要高級近似推理來將來自不同來源的信息(包括機器學習過程)集成到提供管理問題解決方案的決策支持中。

可解釋人工智能的另一個活躍的研究領域是特征可視化,其中子符號推理被映射回了輸入空間。通常情況下,有兩種通用的方法被用于特征可視化,即激活最大化和DNN解釋。激活最大化計算哪些輸入特征將最大限度地激活可能的建議。DNN的解釋是通過突出有辨別力的輸入特征來解釋系統的建議,這些特征可以通過使用局部梯度或其他一些變化度量的敏感性來分析計算。

未來可解釋的人工智能可能會接近人們一般如何根據感知的信念、愿望和意圖來解釋其他智能體的行為。 Miller 對社會科學研究中的解釋以及如何使用這些知識來設計人工智能系統的解釋進行了回顧。 主要發現是(i)解釋是針對特定反事實事件的對比,(ii)解釋是有選擇的,集中在一個或兩個可能的原因上,以及(iii)解釋是一種社會對話和知識遷移的互動。

最后,對于已經在更高的符號水平上進行論證的軍事決策支持系統來說,基于敏感性分析的解釋特征是一種既定的方法,可以用來解釋為什么某項擬議的軍事計劃被認為是成功的。van Lent等人提出的另一個例子描述了一個人工智能架構,用于解釋野外作戰模擬系統中的人工智能智能體的戰術行為。該方法被美國陸軍用于培訓步兵軍官。

6 結論

本文提出的研究旨在調查人工智能如何被用于增強未來C2系統的決策支持功能。 該研究指出了不同的人工智能觀點,確定了人工智能工具可能產生影響的領域,并強調了可能從人工智能功能的引入中受益最大的具體 C2 任務。

從C2系統建模的角度來看,該研究指出了在C2過程中應該考慮人工智能的三個主要活動,即(i)感知,(ii)規劃,以及(iii)軍事活動,根據圖1中描述的公認的DOODA-循環。為了促進感知過程,管理和利用各種規模不同信息的工具,可以預期提供容易實現的有利條件。對于規劃,處理戰術數據庫(地形、后勤、理論等)的工具可以與決策支持工具相結合,使指揮官能夠在不同的抽象層次上評估不同的行動方案。最后,人工智能對執行的支持可以概括為指揮官評估行動方案,以及在執行行動期間促進不同類型的工作人員工作,例如使用語音到文本工具快速和正確地溝通不同的簡報。

從最終用戶的軍事角度來看,需要考慮的人工智能挑戰主要涉及成熟度和透明度。考慮到可行性,研究中出現的想法與研發方面的不同技術成熟度有關,這并不令人驚訝。一些工具,如語音轉文字工具、地形分析功能等,已經相當成熟,可以買到現成的工具,而其他領域,如推理對手想法的博弈論工具,還需要很多年的基礎研究才能實現其實際功能。關于透明度,這是軍事決策支持需要考慮的一個關鍵挑戰,在這方面,要求人工智能能夠解釋建議,并且人能夠理解和依賴系統是至關重要的。隨著可解釋人工智能領域地不斷探索,初步展現出利好結果,關于透明度還有很多需要學習的地方。

在未來,我們的目標是進行一系列的以用戶為中心的設計活動,目的是指定一套詳細的使用案例,這可以作為在涉及軍事人員的軍事C2環境中采購和進一步測試實際人工智能功能的基礎。

付費5元查看完整內容

美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。

本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。

在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。

研究問題

  • 當代 ML 智能體能否被訓練以有效地展示智能任務規劃行為,而不需要數十億可能情況組合的訓練數據?
  • 機器智能體能否學習使用攻擊機、干擾機和誘餌飛機的組合來對抗地對空導彈 (SAM) 的策略?干擾機需要離地空導彈足夠近才能影響它們,但又要保持足夠遠,以免它們被擊落。誘餌需要在正確的時間分散 SAM 對前鋒的注意力。
  • 是否可以建立足夠泛化的表示來捕捉規劃問題的豐富性?吸取的經驗教訓能否概括威脅位置、類型和數量的變化?

主要發現

RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰

  • 純 RL 算法效率低下,容易出現學習崩潰。
  • 近端策略優化是最近朝著解決學習崩潰問題的正確方向邁出的一步:它具有內置約束,可防止網絡參數在每次迭代中發生太大變化。
  • 機器學習智能體能夠學習合作策略。在模擬中,攻擊機與 SAM 上的干擾或誘餌效應協同作用。
  • 經過訓練的算法應該能夠相當容易地處理任務參數(資產的數量和位置)的變化。
  • 很少有關于成功和不成功任務的真實數據。與用于訓練當代 ML 系統的大量數據相比,很少有真正的任務是針對防空飛行的,而且幾乎所有任務都取得了成功。
  • 對于涉及使用大型模擬代替大型數據集的分析,所需的計算負擔將繼續是一個重大挑戰。針對現實威脅(數十個 SAM)訓練現實能力集(數十個平臺)所需的計算能力和時間的擴展仍不清楚。
  • 建立對人工智能算法的信任將需要更詳盡的測試以及算法可驗證性、安全性和邊界保證方面的根本性進步。

建議

  • 未來關于自動化任務規劃的工作應該集中在開發強大的多智能體算法上。RL 問題中的獎勵函數可以以意想不到的方式徹底改變 AI 行為。在設計此類功能時必須小心謹慎,以準確捕捉風險和意圖。
  • 盡管模擬環境在數據稀缺問題中至關重要,但應調整模擬以平衡速度(較低的計算要求)與準確性(現實世界的可轉移性)。
付費5元查看完整內容
北京阿比特科技有限公司