亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

盡管人工智能 (AI) 具有許多潛在的好處,但它也被證明在復雜的現實世界環境(如軍事行動)中表現出許多挑戰,包括脆弱性、感知限制、隱藏的偏見和缺乏因果關系模型,這些對于理解和預測未來事件很重要。這些限制意味著,在可預見的未來,人工智能仍不足以在許多復雜和新穎的情況下獨立運行,并且人工智能需要由人類仔細管理才能實現其預期的效用。

本報告“Human-AI Teaming: State-of-the-Art and Research Needs” 檢查了與人類操作相關的 AI 系統的設計和實施相關的因素。本報告概述了人機協作的研究現狀,以確定差距和未來的研究重點,并探討了實現最佳性能的關鍵人機系統集成問題

報告提綱

  • 總結 1
  • 1 引言 5
    • 研究背景和向委員會負責, 6
    • 委員會的方法, 7
    • 自動化和人工智能, 7
    • 人工智能的局限性, 8
    • 人工智能對人類表現的影響, 9
    • 報告結構和摘要, 10
  • 2 人類與人工智能協作的方法和模式 11
    • 協作編隊, 11
    • 人類與人工智能的協作模式和觀點, 12
    • 人類應該與人工智能合作嗎?
    • 人類與人工智能協作的改進模型, 16
    • 關鍵挑戰和研究差距, 17
    • 研究需求, 17
    • 總結, 18
  • 3 人類與人工智能的協作過程和效果 19
    • 人工智能成為隊友意味著什么?
    • 有效的人類-人工智能協作的過程和特征, 20
      • 編隊的異質性, 20
      • 共同的認知, 21
      • 溝通和協調, 22
      • 社會智能, 22
      • 有效協作的其他特征, 23
    • 主要挑戰和研究差距, 23
    • 研究需求, 23
    • 總結, 24
  • 4 人類與人工智能協作的態勢感知 25
    • 多域作戰中的態勢感知, 25
      • 關鍵挑戰和研究差距, 27
      • 研究需求, 27
    • 人類與人工智能編隊中的共享SA, 27
      • 關鍵挑戰和研究差距, 29
      • 研究需求, 29
    • 總結, 30
  • 5 AI的透明度和可解釋性 31
    • 顯示透明度, 34
      • 關鍵挑戰和研究差距, 35
      • 研究需求, 35
    • 人工智能的可解釋性, 36
      • 關鍵挑戰和研究差距, 37
      • 研究需求, 38
    • 總結, 40
  • 6 人類與人工智能編隊的互動 41
    • 自動化水平, 41
      • 關鍵挑戰和研究差距, 44
      • 研究需求, 44
    • 人工智能的動態和時間性, 44
      • 關鍵挑戰和研究差距, 45
      • 研究需求, 45
    • 控制的顆粒度, 46
      • 關鍵挑戰和研究差距,46
      • 研究需求, 46
    • 其他人類與人工智能編隊的互動問題, 47
      • 關鍵挑戰和研究差距, 47
      • 研究需求, 47
    • 總結, 48
  • 7 信任人工智能隊友 49
    • 過去和現在的信任框架, 49
    • 復雜工作環境下的人工智能信任, 51
    • 關鍵挑戰和研究差距, 51
    • 研究需求, 52
    • 總結, 55
  • 8 識別和減輕人類與人工智能編隊中的偏見 57
    • 人類的偏見, 57
    • 人工智能偏見, 57
    • 人與人工智能編隊的偏見, 59
    • 關鍵挑戰和研究差距, 60
    • 研究需求, 60
    • 總結, 61
  • 9 訓練人類與人工智能編隊 63
    • 為人類與人工智能編隊訓練提供參考的人與人編隊訓練, 63
      • 編隊訓練的策略, 64
      • 仿真的使用, 64
      • 訓練內容:任務工作和團隊合作, 65
    • 關鍵挑戰和研究差距, 65
    • 研究需求, 66
    • 總結, 67
  • 10 人類與人工智能編隊協作和績效的HSI過程和量化 69
    • 在人-AI編隊的設計和實施中采取HSI視角, 69
      • 關鍵挑戰和研究差距, 70
      • 研究需求, 70
    • 人類與人工智能編隊發展的研究要求, 71
      • 關鍵挑戰和研究差距, 71
      • 研究需求, 71
    • 研究團隊的能力, 72
      • 關鍵挑戰和研究差距, 73
      • 研究需求, 73
    • 人類與人工智能編隊的HSI考慮因素, 73
      • 關鍵挑戰和研究差距, 75
      • 研究需求, 75
    • 人類與人工智能編隊的測試、評估、驗證和確認,75
      • 關鍵挑戰和研究差距, 77
      • 研究需求,77
    • 人類與人工智能編隊研究試驗臺,77
      • 關鍵挑戰和研究差距,78
      • 研究需求, 78
    • 人類與人工智能編隊的措施和衡量標準, 78
      • 關鍵挑戰和研究差距, 80
      • 研究需求, 80
    • 敏捷軟件開發和HSI, 81
      • 關鍵挑戰和研究差距, 82
      • 研究需求, 82
    • 總結, 83
  • 11 結論 85
  • 參考文獻 91
  • 附錄
  • A 委員會簡歷 115
  • B 人類與人工智能協作研討會議程 119
  • C 定義 121

報告總結

美國軍方正加大對人工智能(AI)技術的投資,用于提高數據處理速度、任務規劃自動化,以及創建更快的預測目標和系統維護,該技術也會在多域作戰(MDO)的指揮控制中發揮關鍵作用。實現這一目標就要求人工智能系統具備任務執行的可靠性和健壯性,并且可以作為人類的隊友協同工作。

盡管人工智能技術優勢良多,但是也被證明在復雜的真實世界環境(如軍事行動)中面臨諸多挑戰,包括脆弱性、感知限制、隱藏的偏見以及缺乏預測關系模型等。這就意味著,在可預見的未來,人工智能將仍然不足以在復雜和新環境下獨立運行,人類需要仔細管理人工智能系統才能達到預期效果。

過去30年研究表明,人們作為復雜自動化(包括人工智能系統)的監控者同樣面臨巨大挑戰。人們可能會對系統正在做的事情缺乏了解,在嘗試與人工智能系統交互時工作負載高,在需要干預時缺乏態勢感知,基于系統輸入的決策偏差,以及手工技能的退化。這些眾多的挑戰將繼續在人類方面產生問題,即使是更有能力的基于人工智能的自動化。

因此,需要開發有效的人-智能協同編隊能力,利用人類和AI的獨特能力,克服各自的不足。一個高效的人-人工智能編隊最終會增強人的能力,提高性能,超越任何一個實體。為此,委員會制定了一套相互關聯的研究目標,旨在圍繞人類-人工智能編隊發展,這些目標基于對人類-人工智能編隊(第2章)、編隊流程(第3章)、態勢感知(SA)(第4章)、人工智能透明度和可解釋性(第5章)、人類-人工智能交互方法(第6章)、信任(第7章)、減少人和人工智能偏見(第8章)和培訓(第9章)的模型和度量的改進,并得到了人-系統集成(HSI)流程基金會(第10章)的支持。該報告總結提出人類-人工智能編隊研究目標,包括近期、中期和遠期目標。

人類-人工智能編隊模型

委員會研究發現,將人類和人工智能系統作為一個編隊來考慮具有重要價值。這種編隊結構促使人們認識到需要考慮每個團隊成員相互關聯的角色,并強調團隊互動的價值,包括溝通和協調,以提高綜合效能。在這樣的編隊安排中,研究認為,一般來說,出于倫理和實踐的原因,人類應該對人工智能系統擁有權威。需要改進人類-人工智能編隊的計算模型,考慮相互關聯的、動態發展的、分布式的和自適應的協同任務和條件,這些任務和條件也是MDO的網絡化指揮控制系統所需要的,并且在設計交互空間內是可預測的。需要改進人類-人工智能編隊的度量標準,考慮團隊管理相互依賴和動態角色分配能力,減少不確定性,并提高人工智能系統提供符合作戰人員期望的能力。

雖然假設人類-人工智能編隊將比人類或人工智能系統單獨運行更有效,但研究認為:除非人類能夠理解和預測人工智能系統的行為,否則情況不會如此;與人工智能系統建立適當的信任關系;根據人工智能系統的輸入做出準確的決策;以及時和適當的方式對系統施加控制。

人類-人工智能編隊流程

人類和人工智能系統進行編隊需要一個精心設計的系統,該系統具有任務分配工作和團隊合作的能力。沿著這條路線,需要通過改進團隊組合、目標對齊、溝通、協調、社會智能和開發新的人工智能語言來研究提高長期、分布式和敏捷的人工智能編隊的效率。這項研究可以利用現有人類-人類編隊的工作,但也認識到,需要新的研究來更好地理解和支持人類和人工智能系統之間的編隊流程。此外,研究認為,應該考察人工智能系統通過充當團隊協調員、指揮者或人力資源經理來提高團隊績效的潛力。

態勢感知

人們普遍認為,態勢感知(SA)對于有效的MDO性能至關重要,包括對人工智能系統的監督。在指揮控制作戰中支持個人和團隊SA的方法需要擴展到MDO,并且需要使用AI來支持信息集成、優先排序和跨聯合作戰空間路由的方法,以及提高SA對敵對攻擊的彈性。需要開發改善人工智能系統的人類SA的方法,這些方法考慮不同類型的應用、操作的時間以及與基于機器學習(ML)的人工智能系統能力。此外,旨在在人工智能團隊中創建共享SA的研究值得關注。人工智能系統需要在多大程度上既有自我意識又有對人類隊友的意識,這需要探索,以確定整體團隊表現的好處。最后,未來的人工智能系統將需要擁有綜合的態勢感知模型,以恰當地理解當前的情境,并預測未來情境。動態任務環境的人工智能模型是非常必要的,它可以與人類一起調整或消除目標沖突,并同步情景模型、決策、功能分配、任務優先級和計劃,以實現協調和下達的行動任務。

人工智能的透明度和可解釋性

改進的人工智能系統透明性和可解釋性是實現改進的人類SA和信任的關鍵。實時透明對于支持人工智能系統的理解和可預測性是至關重要的,并且已經被發現可以顯著地補償回路外的性能缺陷。需要研究更好定義信息需求和方法,以實現基于ML的AI系統的透明性,以及定義何時應該提供這樣的信息來滿足SA需求,而不會使人過載。需要進一步探索基于ML的人工智能系統的解釋的改進可視化,以及對機器人物角色的價值。此外,通過研究可以告知改進的多因素模型,解釋如何促進信任和信任影響的決策。需要開發有效的機制來使解釋適應接受者的需求、先驗知識和假設以及認知和情緒狀態。研究建議,應致力于確定對人類推理的解釋是否同樣可以改善人工智能系統和人-人工智能編隊的效能。

人-人工智能編隊互動

人-人工智能編隊中的交互機制和策略對團隊效率至關重要,包括隨著時間的推移支持跨職能靈活分配自動化級別(loa)的能力。需研究確定改進的方法,支持人類和人工智能系統在共享功能方面的合作,支持人類操作員在多個loa下與人工智能系統一起工作,并確定在高loa下與人工智能系統一起工作時保持或恢復SA的方法(在環控制)。還需要研究來確定新的要求,支持人-人工智能編隊之間的動態功能分配,并確定隨著時間的推移支持loa中動態過渡的最佳方法,包括這種過渡應該何時發生,誰應該激活它們,以及它們應該如何發生,以保持最佳的人-人工智能編隊效能。研究建議也對劇本控制方法進行研究,將其擴展到MDO任務和人-人工智能編隊中應用。最后,更好地理解和預測緊急人機交互的研究,以及更好地理解交互設計決策對技能保留、培訓要求、工作滿意度和整體人機團隊彈性影響的研究也是非常有益的。

信任

對人工智能的信任被認為是使用人工智能系統的一個基本因素。這將有利于未來的研究,以更好地記錄團隊環境中涉及的決策背景和目標,促進對更廣泛的社會技術因素如何影響人-人工智能編隊中的信任的理解。超越監督控制的交互結構也將受益于進一步的研究,特別是理解人工智能可指導性對信任關系的影響。需要改進信任措施,利用合作的重要性,將不信任的概念與信任分開。最后,需要信任的動態模型來捕捉信任如何在各種人-人工智能編隊環境中演變和影響效能結果。這項研究將很好地檢驗從二元團隊互動中出現的信任結果,并將這項工作擴展到信任如何在更大的團隊和多層級網絡中的效果。

偏差

人工智能系統中的潛在偏差,通常是隱藏的,會通過算法的開發以及系統偏差等因素造成。此外,人類可能會遇到決策偏差。特別重要的是,人工智能系統的準確性會直接影響人類的決策,從而產生人類-人工智能編隊偏見;因此,人類不能被視為人工智能建議的獨立裁決者。需要進行研究,以更好地理解人類和人工智能決策偏差之間的相互依賴性,這些偏差如何隨著時間的推移而演變,以及用基于ML的人工智能檢測和預防偏差的方法。還需要研究發現和防止利用這些偏見的攻擊行為。

訓練

需要對人-人工智能編隊進行訓練。考慮到各種團隊組成和規模,需要有針對性的研究如何訓練人-人工智能編隊。可以探索現有的訓練方法,看看它們是否適用于人-人工智能編隊。此外,可能需要訓練來更好地校準人類對人工智能隊友的期望,并培養適當的信任水平。開發和測試人-人工智能編隊工作程序需要特定的平臺。

HSI流程和措施

最后,要成功開發一個能像好隊友一樣工作的人工智能系統,需要HSI過程和方法改進。良好的HSI實踐將是新人工智能系統的設計、開發和測試的關鍵,特別是基于敏捷或DevOps實踐的系統開發。有效的人工智能團隊也需要新的HSI設計和測試方法,包括提高確定人工智能團隊要求的能力,特別是那些涉及人工智能的團隊。多學科人工智能開發團隊需要改進的方法,包括人工工程工程師、社會研究人員、系統工程師和計算機科學家。還需要圍繞人工智能生命周期測試和可審計性以及人工智能網絡漏洞的新團隊、方法和工具。需要開發用于測試和驗證進化的AI系統的方法,以檢測AI系統盲點和邊緣情況,并考慮脆弱性。支持這些新團隊研發活動的新人工智能試驗臺也很重要。最后,可能需要改進人機系協同的度量標準,特別是關于信任、心智模型和解釋質量的問題。

研究結論

總共提出了57個研究目標,以解決有效的人-人工智能編隊面臨的許多挑戰。這些研究目標分為近期(1-5年)、中期(6-10年)和遠期(10-15年)優先事項。這一組綜合的研究目標若實現,將在人-人工智能編隊競爭力方面取得重大進展。這些目標是將人工智能安全引入MDO等關鍵行動的基本前提,它們為更好地理解和支持人工智能系統的有效應用提供了參考框架。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

人工智能(AI)的最新進展為許多經典的AI應用帶來了突破,例如計算機視覺、自然語言處理、機器人和數據挖掘。因此,有很多人努力將這些進展應用于軍事領域,如監視、偵察、威脅評估、水雷戰、網絡安全、情報分析、指揮和控制以及教育和培訓。然而,盡管人工智能在軍事應用上有很多可能性,但也有很多挑戰需要考慮。例如,1)高風險意味著軍事人工智能系統需要透明,以獲得決策者的信任并能進行風險分析;這是一個挑戰,因為許多人工智能技術具有黑盒性質,缺乏足夠的透明度;2)軍用 AI 系統需要穩健可靠;這是一個挑戰,因為已經表明即使對所使用的 AI 技術沒有任何了解,AI 技術也容易受到輸入數據微小變動的影響,并且 3) 許多 AI 技術基于需要大量數據的機器學習訓練;這是一個挑戰,因為在軍事應用中經常缺乏足夠的數據。本文介紹了正在進行的項目成果,以說明軍事應用中人工智能的可能性,以及如何應對這些挑戰。

1 介紹

人工智能(AI),特別是機器學習(ML)和深度學習(DL),在十年內已經從研究機構和大學的原型設計轉向工業和現實世界應用。使用DL技術的現代人工智能已經徹底改變了傳統人工智能應用的性能,如機器翻譯、問答系統和語音識別。這一領域的許多進展也將其優秀的想法變成了卓越的人工智能應用,能夠進行圖像說明、唇語閱讀、語音模仿、視頻合成、連續控制等。這些成果表明,一個能夠自我編程的機器有潛力:1)提高軟件和硬件開發的效率,2)以超越人類的水平完成特定的任務,3)為人類以前沒有考慮過的問題提供創造性的解決方案,4)在人類已知的主觀、偏見、不公平、腐敗等方面提供客觀和公平的決定。

在軍事背景下,人工智能的潛力存在于所有維度的軍事空間中(即陸地、海洋、空中、空間和信息)和所有級別的戰爭內(即政治、戰略、作戰和戰術)。例如,在政治和戰略層面,人工智能可以通過制作和發布大量的虛假信息來破壞對手的穩定狀態。在這種情況下,人工智能很可能也是抵御這種攻擊的最佳人選。在戰術層面,人工智能可以改善無人系統的部分自主控制,以便人類操作員可以更有效地操作無人系統,最終擴大戰場影響力,增強戰場實力。

然而,正如我們將在這項工作中指出的那樣,有幾個關鍵挑戰可能會減緩或限制現代人工智能在軍事應用中的使用:

  • ML模型的透明度和可解釋性不足。舉一個例子,使用DL對使用深度神經網絡(DNN)的自動駕駛汽車進行控制建模需要幾十萬個參數。顯然,這樣一個復雜的程序不容易被解釋。即使是使用替代的ML算法生成的模型,其中模型可以被圖形化,如解析樹或決策樹,即使在應用于玩具模型問題時,也很難甚至不可能解釋。一個更重要的挑戰是人工智能系統向決策者或人類操作者解釋其推理的能力,或者在這種情況下是無能為力的。
  • 眾所周知,使用ML開發的模型很容易受到對抗性攻擊。例如,基于DL的模型可以很容易地通過操縱輸入信號而被欺騙,即使該模型對攻擊者來說是未知的。舉一個例子,使用最先進的目標檢測的無人駕駛飛行器(UAV)也有可能被地面上精心設計的偽裝圖案所欺騙。
  • 任何 ML 應用的原料是機器可以從中學習并最終深入理解的數據。軍事組織通常擅長收集數據用于匯報或重建目的。然而,不能保證同樣的數據可以成功用于ML。因此,軍事組織可能必須調整其數據收集過程,以充分利用現代人工智能技術,如DL。

本文的目的是強調人工智能在軍事應用中的可能性和主要挑戰。第2節簡要介紹了DL,它是本文關注的主要人工智能技術。第3節提供了幾個人工智能在軍事領域中應用的例子。第4節描述了與軍事領域中人工智能的關鍵挑戰,以及部分可用于解決這些挑戰的技術。第5節提出了結論。

2 深度學習

我們所說的DL是指由多個非線性處理單元層組成的機器學習模型。通常情況下,這些模型由人工神經網絡表示。在這種情況下,神經元指的是一個單一的計算單元,其輸出是通過一個(非線性)激活函數的輸入的加權和(例如,一個只有在信號為正時才通過的函數)。DNN指的是具有大量串連神經元層(神經元層由神經元并聯組成)的系統。與DNN相對的是淺層神經網絡,它只有一層平行連接的神經元。

直到大約十年前,DNN的訓練幾乎是不可能的。第一個成功的深度網絡的訓練策略是基于一次訓練一個層。逐層訓練的深度網絡的參數最終使用隨機梯度方法進行微調(同時),以最大限度地提高分類精度。此后,許多研究進展使得直接訓練DNN成為可能,而無需逐層訓練。例如,人們發現,網絡權重的初始化策略與激活函數的選擇相結合是解決問題的關鍵。甚至一些技術,如在訓練階段隨機停用神經元,以及在信號到達激活函數之前對其進行歸一化處理,也已證明對于使用 DNN 獲得良好結果非常重要。

表示學習是DNN高性能的主要原因之一。使用DL和DNN,不再需要手動制作學習特定任務所需的特征。相反,辨別特征是在 DNN 的訓練過程中自動學習的。

支持 DL 應用的技術和工具如今比以往任何時候都更加好用。通過廉價的計算資源、免費的 ML 框架、預訓練模型、開源數據和代碼,僅使用有限的編程/腳本技能即可成功應用和定制高級 DL。

3 軍事人工智能應用

本節介紹了幾個可以應用人工智能來提高軍事能力的例子。

3.1 監視

海上監視是利用固定雷達站、巡邏飛機、船舶,以及近年來使用自動識別系統(AIS)對海上船只進行的電子跟蹤。這些信息源提供了大量的關于船只運動的信息,這些信息可能會揭示船舶非法的、不安全的、有威脅的和異常的行為。然而,大量的船舶運動信息使得手動檢測此類行為變得困難。因此ML-方法被用來從船舶運動數據中生成常態模型。任何偏離常態模型的船舶運動都被認為是異常的,并提交給操作員進行人工檢查。

一種早期的海事異常檢測方法使用模糊 ARTMAP 神經網絡架構根據港口位置對正常船舶速度進行建模。另一種方法是利用運動模式的關聯學習來預測基于其當前位置和行駛方向的船舶運動。其他方法則使用基于高斯混合模型(GMM)和內核密度估計(KDE)的無監督聚類。這些模型能夠檢測出改變方向、穿越海路、向相反方向移動或高速行駛的船只。最近的方法是使用貝葉斯網絡來檢測錯誤的船舶類型,以及不連續的、不可能的和徘徊的船舶運動。海事異常檢測的未來發展還應該考慮周圍的船只和多艘船只之間的互動。

3.2 水下水雷戰

水雷對海上船只構成重大威脅,被用來限制船只行動或阻止船只通過受限水域。因此,反水雷措施(MCM)試圖定位和消除水雷,以實現行動自由。越來越多地使用配備合成孔徑聲納 (SAS) 的自主水下航行器 (AUV) 進行水雷搜索,該水下航行器能提供厘米分辨率的海底聲學圖像。由于AUV收集了大量的SAS圖像,自動目標分類對于區分潛在的水雷與其他物體是很有用的。雖然對水雷的自動目標分類已經研究了很長時間,但DNN在圖像分類方面的高性能表現使人們對如何將這種辦法用于自動地雷探測產生了興趣。

一些研究顯示了DNN在水雷探測方面的潛力。例如,這些研究描述了如何將假水雷的形狀、類似水雷的目標、人造物體和巖石放置在海底的各種地理圖形位置上。然后用AUV和SAS對海底進行測量。結果顯示,與傳統的目標分類器相比,DNN的性能明顯提高,對水雷形狀的檢測概率更高,誤報率更低。同樣,這些研究也描述了如何生成圓柱形物體和各種海底景觀的協同SAS圖像,并這些圖像用來訓練DNN。進一步的研究可能會探究如何從所有類型的雜波物體中分辨出水雷,結合檢測和分類,以及對噪聲、模糊和遮擋的魯棒性等

3.3 網絡安全

入侵檢測是網絡安全的重要組成部分,可在惡意網絡活動危及信息可用性、完整性或機密性之前對其進行檢測。入侵檢測是使用入侵檢測系統(IDS)進行的,該系統將網絡流量分類為正常或入侵。然而,由于正常的網絡流量往往具有與實際攻擊相似的特征,網絡安全分析師對所有入侵警報的情況進行分析,以確定是否存在實際的攻擊。雖然基于簽名的IDS通常擅長檢測已知的攻擊模式,但它們不能檢測以前未見過的攻擊。此外,基于簽名的檢測的開發往往是緩慢和昂貴的,因為它需要大量的專業知識。這限制了系統對快速演變的網絡威脅的適應性。

許多研究使用 ML 和其他 AI 技術來提高已知攻擊的分類準確性、檢測異常網絡流量(因為這可能表明新的攻擊模式偏離了正常網絡流量)以及自動化模型構建。然而,這些系統很少被實際使用。其原因是,入侵檢測給出了具體的挑戰,如缺乏訓練數據、網絡流量變化大、錯誤成本高以及難以進行相關評估。雖然可以收集大量的網絡流量,但這些信息往往是敏感的,只能部分匿名化處理。使用模擬數據是另一種選擇,但它往往不夠真實。然后,必須根據模式是正常還是入侵,或用于確保無攻擊的異常檢測來標記數據以進行監督學習,這通常很難做到。最后,模型需要是透明的,以便研究人員能夠理解檢測限制和特征的含義。

另一項提高網絡安全的措施是在安全審計期間進行滲透測試,以確定潛在的可利用的安全弱點。由于許多網絡的復雜性和其中的大量主機,滲透測試通常是自動化的。一些研究已經調查了如何使用網絡的邏輯模型而不是實際的網絡將 AI 技術用于模擬滲透測試。網絡通常用攻擊圖或樹來表示,描述對手如何利用漏洞闖入系統。描述了模型在表征方式方面的不同之處:1) 攻擊者的不確定性,從抽象的成功和檢測概率到網絡狀態的不確定性,以及 2) 從已知的前后條件到一般感知和觀察的攻擊者行為-結果的服務。此外,通過網絡和主機的正式模型,可以對不同的緩解策略進行假設分析。未來對滲透測試的研究可能會使用攻擊者和防御者之間交互的認知有效模型,例如,深度強化學習來探索可能攻擊的大問題空間。

4 挑戰

正如第3節中的案例所示,在為軍事目的開發和部署的基于人工智能的應用之前,有一些尚未解決的挑戰是很重要的。在本節中,我們將討論我們認為對軍事人工智能最關鍵的挑戰:1)透明度,2)脆弱性,以及3)在有限的訓練數據下的學習。其他重要的,但不太關鍵的,與優化、泛化、架構設計、超參數調整和生產級部署有關的挑戰,在本節中沒有進一步討論。

4.1 透明度

許多應用除了需要高性能外,還需要高透明度、高安全性以及用戶的信任或理解。這種要求在安全關鍵系統、監控系統、自主智能體、醫學和其他類似的應用中很典型。隨著最近人工智能技術的突破,人們對透明度的研究也越來越感興趣,以支持最終用戶在此類應用中的使用與透明度相關的成果。

4.1.1 對透明度的期望

人工智能所需的透明度取決于終端用戶的需求。利普頓描述了透明度可能涉及五種類型的用戶需求:

  • 1.信任-在用戶難以質疑系統建議的情況下。然而,可能不清楚用戶的信任是基于系統的性能或穩定性,相對于用戶的體驗,還是用戶對系統推薦的舒適度。
  • 2.理解之前未知的因果關系,可以用其他方法測試。
  • 3.由于與用戶的能力相比,模型的通用性有限,因此對系統性能的了解受到限制。
  • 4.有關系統建議的一些補充信息。
  • 5.公平性,以避免可能導致某些情況下的不平等待遇的系統性偏見。例如,對信貸申請的評估不應基于個人屬性,如性別或種族,盡管這種屬性可能在整體統計水平上用來區分人口群體。

原則上,有兩種方法可以使人工智能系統透明。首先,某些類型的模型被認為比其他的更容易解釋,例如線性模型、基于規則的系統或決策樹。檢查這些模型可以理解它們的組成和計算。Lipton描述了可解釋性取決于用戶是否能夠預測系統的建議,理解模型參數,以及理解訓練算法。其次,系統可以解釋其建議。這種解釋可以是文字的,也可以是視覺的。例如,通過指出圖像的哪些方面最有助于其分類。Miller 對社會科學研究中如何使用這些知識來設計 AI 系統的進行了的回顧。通常情況下,人們用他們感知到的信念、欲望和意圖來解釋其他智能體的行為。對于人工智能系統來說,信念對應于系統關于情況的信息,欲望對應于系統的目標,而意圖對應于中間狀態。此外,解釋可能包括行動的異常性、使成本或風險最小化的偏好、對預期規范的偏離、事件的回顧性和行動的可控性。主要的發現是:

  • 解釋是針對特定的反事實案例而進行的對比性解釋。因此,解釋的重點是為什么提出特定的建議而不是其他建議。
  • 解釋是有選擇的,并且集中在一兩個可能的原因上,而不是建議的所有原因。
  • 解釋是一種傳遞知識的社會對話和互動。

4.1.2 可解釋模型的實例

貝葉斯規則列表(BRL)是可解釋模型的一個例子。BRL由一系列的if(條件)then(結果)else(替代)語句組成。Letham等人描述了如何為一個高度準確和可解釋的模型生成BRL來估計中風的風險。條件離散化了影響中風風險的高維多變量特征空間,結果描述了預測的中風風險。BRL在預測中風風險方面具有與其他ML方法類似的性能,并且與其他現有評分系統一樣具有可解釋性,但其準確性較低。

基于詞典的分類器是文本分類的另一個可解釋模型的例子。基于詞典的分類器將術語的頻率與每個類別中出現的術語的概率相乘。得分最高的類別被選為預測對象。Clos等人使用一個門控遞歸網絡對詞典進行建模,該網絡同時學習術語和修飾語,如副詞和連詞。受過訓練的詞典是關于論壇中的帖子是支持還是反對死刑以及對商業作品的看法。詞典的表現比其他ML方法更好,同時也是可解釋的。

4.1.3 特征可視化的實例

盡管DNN在許多應用中提供了很高的性能,但它們的子符號計算可能有數百萬個參數,這使得人們很難準確理解輸入特征對系統推薦的貢獻。由于DNN的高性能對許多應用來說是至關重要的,因此人們對如何使它們更容易解釋產生了濃厚的興趣(見一篇評論)。許多用于解釋DNN的算法將DNN處理轉化為原始輸入空間,以便將辨別特征可視化。通常,有兩種通用方法用于特征的可視化,即激活最大化和DNN解釋。

激活最大化會計算哪些輸入特征將最大限度地激活可能的系統建議。對于圖像分類來說,這代表了理想的圖像,它顯示了每個類別的可區分和可識別的特征。然而,由于各類可能使用同一物體的許多方面,而且圖像中的語義信息往往是分散的,所以圖像往往看起來不自然。激活最大化的方法的一些例子是梯度上升法,更好的正則化方法以增加通用性,以及合成首選圖像法。

DNN的解釋是通過強調區分輸入特征來解釋系統建議。在圖像分類中,這種可視化可能會突出顯示支持或反對某個類別的區域,或者僅顯示包含區分特征的區域。計算鑒別特征的一種方法是使用局部梯度或其他變化度量的敏感性分析。然而,敏感性分析的一個問題是,它可能顯示輸入中不存在的判別特征。例如,在圖像分類中,敏感性分析可能會顯示物體被遮擋的部分,而不是可見部分。逐層相關性傳播通過考慮特征存在和模型反應來避免這個問題。

4.1.4 具體應用解釋的實例

與分類不同的是,人工智能規劃是基于動態的領域模型。Fox等人描述如何使用領域模型來解釋為什么行動被執行或不執行,為什么一些行動不能被執行,使未來行動的因果關系,以及重新規劃的需要。

由于公平性對許多人工智能應用來說非常重要,Tan等人描述了如何利用模型蒸餾來檢測黑箱模型的偏差。模型蒸餾法將更大更復雜的模型進行簡化,而沒有明顯的準確性損失。為了提高透明度,他們使用了基于淺層樹的廣義加性模型,對每個參數和兩個參數之間的相互作用進行建模。他們根據黑盒模型的系統建議訓練一個透明模型,并根據實際結果訓練一個透明模型。對兩個模型的推薦差異的假設檢驗體現了黑盒模型引入偏差的情況,然后可以通過比較兩個透明模型來診斷偏差。該系統在犯罪風險、借貸風險和卷入槍擊事件的個人風險方面進行了評估。結果顯示,一個黑盒模型低估了年輕罪犯和白種人的犯罪風險,而高估了美國本土非洲裔犯罪的風險。

4.2 脆弱性

在本節中,我們討論DNN在兩個不同方面的脆弱性。1)對輸入操縱的脆弱性和2)對模型操縱的脆弱性。我們首先看一下對輸入信號的操縱:

4.2.1 對輸入進行對抗性處理

在提供DNN的情況下,人們發現很容易調整輸入信號,從而使分類系統完全失敗。當輸入信號的維度很大時,例如圖片,通常只需對輸入中的每個元素(即像素)進行不易察覺的微小調整,就足以欺騙系統。用同樣的技術來訓練DNN,通常是采用隨機梯度法,通過觀察梯度的符號,你可以很容易地找到每個元素應該朝哪個方向改變,以使分類器錯誤地選擇目標類別或僅僅是錯誤分類。只需幾行代碼,最好的圖像識別系統就會被欺騙,相信一張車輛的圖片是一只狗。下面的圖 1 顯示了操作前后的圖像以及操作前后類的可能性。

上述方法假設有對DNN的完全訪問權,即所謂的白盒攻擊。人們發現,即使是所謂的黑箱攻擊,即你只觀察到系統的輸入和輸出類型,也是可能的。在其中,作者采用從他們想要攻擊的黑盒系統中稀疏采樣所獲得的數據來訓練一個替代網絡。鑒于替代網絡,你可以使用上述的白盒攻擊方法來制作對抗性輸入。一個學習替代網絡的替代方法被提出來,在這個方法中,遺傳算法被用來創建導致系統錯誤分類的攻擊向量。同一作者甚至表明,通常只需修改圖像中的一個像素,盡管常常是可察覺的,就能實現成功的攻擊。

圖 1:從小型貨車到西伯利亞雪橇犬。 原始圖像和操縱(對抗性制作)圖像之間的絕對差異(放大 20 倍)顯示在右側。 對抗性示例(中心)是使用 Kurakin 的基本迭代方法(BIM)生成的。

4.2.2 利用預訓練 DNN 中的隱藏后門

當設計一個DNN,但只能獲得少量的訓練數據時,通常會使用預訓練的模型來達到良好的性能。這個概念被稱為遷移學習,一個常見的應用是采用在大量數據上訓練過的模型,根據具體問題替換和定制網絡中的最后幾層,然后在最后階段(有時甚至是整個系統)利用可用的訓練數據微調參數。目前已經有大量的預訓練模型可以從互聯網上下載。那么一個相關的問題是:"我們怎么知道那些上傳模型的人沒有壞心眼?"。作者在識別美國交通標志的模型中插入后門,就考慮了這種類型的漏洞。例如,一個貼紙被訓練為屬于停止標志以外的類別。然后他們表明,當使用后門(即在交通標志上放置一個貼紙)時,基于美國交通標志網絡的識別瑞典交通標志的系統會有負面的反應(大大損害了瑞典交通標志系統的分類準確性)。

4.2.3 防御方法

減少DNN對輸入信號操縱的脆弱性的一種方法是在模型的訓練過程中明確包括被操縱/對抗的例子。也就是說,除了原始訓練數據外,還產生了對抗性例子,并用于模型的訓練。

另一種方法是使用一個叫做防御蒸餾的概念。簡而言之,該方法試圖降低輸出信號只指出真實類別的要求,并迫使其他類別的概率為零。這分兩步完成。第一步是對DNN進行常規訓練。在第二步,將第一個神經元網絡的輸出(類別概率)用作新的類別標簽,并使用新的(軟)類別標簽訓練一個新的系統(具有相同的架構)。這已被證明可以減少漏洞,因為你沒有把DNN與訓練數據貼得太緊,并保留了一些合理的類間關系。

其他防御方法,例如特征壓縮技術,例如均值或中值濾波或非線性像素表示,例如單熱或溫度計編碼。

不幸的是,所描述的方法都不能完全解決漏洞問題,尤其是如果攻擊者對模型和防御方法有充分的了解的話。

4.3 數據

在軍事背景下開發基于ML的應用是具有挑戰性的,因為軍事組織、訓練設施、平臺、傳感器網絡、武器等的數據收集應用最初不是為ML目的設計的。因此,在這個領域,往往很難找到真實世界的、高質量的、足夠大的數據集,可以用來學習和深入理解的。在本節中,我們將探討即使在有限的訓練數據中也可以用來建立ML應用的技術。

4.3.1 遷移學習

遷移學習(也在第4.2.2節中提到)是一種技術,通常在數據集較小和計算資源有限時使用。這個想法是在開發針對其他類似任務的新模型時,重復使用通常由 DNN 表示的預訓練模型的參數。至少有兩種方法可用于DL應用中的遷移學習:

  • 重新學習輸出層:使用這種方法,預先訓練好的模型的最后一層被替換成新的輸出層,與新任務的預期輸出相匹配。在訓練過程中,只有新輸出層的權重被更新,其他的都是固定的。
  • 微調整個模型:這種方法類似于第一種方法,但在這種情況下,可能會更新整個 DNN 的權重。 這種方法通常需要更多的訓練數據。

事實證明,遷移學習也可以提高模型的泛化能力。然而,隨著源任務和目標任務之間距離的增加,遷移學習的積極作用往往會減少。

4.3.2 生成性對抗網絡

生成性對抗網絡(GANs)是由Goodfellow等人發明的,是一種生成模型,可用于半監督學習,其中將一小組標記的數據與一大組未標記的數據相結合以提高模型的性能。基本的GAN實現由兩個DNN組成,分別代表一個生成器和一個判別器。生成器被訓練成產生假數據,而判別器被訓練成將數據分辨為真實或虛假。當這兩個網絡同時被訓練時,一個網絡的改進也會導致另一個網絡的改進,直到最后達到一個平衡。在半監督學習中,生成器的主要目標是產生未標記的數據,用于提高最終模型的整體性能。除了半監督學習之外,GANs還被用于:

  • 重建:填補部分被遮擋的圖像或對象的空白部分。
  • 超分辨率:將圖像從低分辨率轉換為高分辨率。
  • 磁帶到圖像的轉換:將圖像從冬天轉換為夏天,從夜晚轉換為白天,等等。這項技術的一個軍事應用是可以將夜視圖像轉換為日光圖像。

4.3.3 建模和仿真

建模和仿真已被軍隊廣泛用于培訓、決策支持和研究等。因此,有很多經過長期驗證的模型,也有可能被用于生成ML應用的合成數據。例如,飛行模擬器可以用來生成置于不同環境中飛機的合成圖像。在這種情況下,標簽是自動的,因為在生成合成圖像之前,飛機的類型是已知的。然而,不足為奇的是,在將模型應用于真實世界的圖像時,使用合成圖像可能會導致性能不佳。目前正在探索的一種方法是采用GANs增強合成圖像,使其具有照片般的真實性。這種方法已經得到成功的應用。

5 結論

人工智能最近的突破正在逐漸達到可以用于軍事應用的地步。 該論文描述了在監視、水下魚雷戰和網絡安全中使用人工智能的一些可能性。 其他潛在應用包括使用半自動駕駛車輛和傳感器系統進行偵察、在具有長時間要求的防空系統中進行威脅評估、新興模式的情報分析、指揮和控制系統以及教育和培訓。 然而,人工智能的軍事應用需要考慮以下方面的挑戰:

  • 確保模型性能符合軍事要求的透明度。
  • 脆弱性可能會導致系統性能大幅度降低。
  • ML的訓練數據不足。

專注于人工智能的透明度、可解釋性和可解釋性問題的研究人員已經取得了許多進展。這些進展中的許多部分也都可能被用于軍事人工智能應用中。然而,需要進行更徹底的需求分析以了解如何利用這些研究成果。軍事需求在風險、數據質量、法律要求等方面與一般情況相比非常不同,有些類型的透明度甚至可能不適用。此外,還需要對如何利用社會科學研究來提高人工智能的可解釋性進行更多研究。未來的研究還應該包括如何充分利用在視覺分析研究領域中開發地豐富的可視化技術。

由于目前還沒有解決脆弱性問題的有效方案,因此在監測這一研究領域不斷尋找有希望的解決方案非常重要。然而,在這種解決方案出現之前,有必要盡量減少外部對模型和防御技術的訪問。否則,對手可能會試圖利用這些漏洞來為自己謀利。

最后,遷移學習使其有可能將預先訓練好的模型應用于訓練數據和計算資源都有限的軍事應用。GAN是另一種有很前途的技術,它能夠采用標記的和未標記的數據進行學習(半監督學習)。GAN也可以與仿真結合使用,以提高合成的訓練數據的真實性。

付費5元查看完整內容

信任是團隊有效性的基礎,它影響著各種團隊過程,包括信息共享、決策和團隊的整體成功。在那些在惡劣的、不確定的、高壓力的環境中工作的高績效團隊中,如軍事、急救、醫療、搜救和救災,在關鍵時刻不適當的信任水平(無論是過高還是過低)會導致隊友之間的次優互動,從而導致不安全的行為(De Jong和Elfring 2010;Costa等人2018)。例如,太過信任,或 "過度信任",會使操作人員陷入自滿狀態,導致代價高昂的錯誤,并有可能失去人命和昂貴的設備;相反,信任太少,或 "信任不足",會使團隊成員感到需要不斷監督對方,造成不平衡和不適當的工作負荷(de Visser等人,2020)。信任是通過作為一個聯系緊密的團體訓練,以及隨著時間推移的共同經驗而建立的(Fulmer和Gelfand 2012;Costa和Anderson 2017)。

隨著自主技術的不斷發展,未來的團隊結構很可能包括自主成員,他們的功能不僅是提供支持的工具,而且是成熟的隊友(Phillips等人,2011)。雖然人類表現文獻中有豐富的方法來評估個體(或對)的信任,但在理解如何衡量大型團隊的信任方面還存在差距(Feitosa等人,2020),以及哪些措施可能最適合由多個人類和多個自主系統組成的團隊的復雜性。使信任度量更加復雜的是,團隊信任是一種動態狀態,在團隊的生命周期中不斷波動,并進一步受到社會、任務和環境背景的影響(Schaefer等人,2018a;Schaefer等人,2019a)。然而,信任在這些更大的、異質的團隊中發展和傳播的過程仍然不清楚。因此,為了使這些技術能夠充分支持團隊運作,關鍵是要了解在人類自主團隊的背景下,信任是如何發展、維持和衡量的。因為信任是復雜的,所以需要一種多模式的測量方法。因此,在本報告中,我們描述了一個概念性的工具包,它的開發是為了更準確、更有力地理解人類自主性團隊中的信任

鑒于我們的未來社會將看到由多個人類和多個自主系統組成的異質團隊的興起,量化團隊不同成員之間的信任關系,以及了解信任對全球團隊動態的一系列影響非常重要。從這個方法來看,人與人之間的信任與人機合作關系,甚至機器與機器合作關系內部的信任是不一樣的。這些不同類型的互動有不同的優先因素和特點,以及這些互動如何影響整個團隊的信任傳播。考慮到所有這些因素,關鍵是要首先了解現有信任措施的能力和局限性,以便對其進行調整以滿足這些需求,或者在必要時,開發新的措施來支持團隊信任評估。為此,本報告探討了信任評估技術的現狀,包括那些新穎的、超出主觀評估范圍的技術。

第2節我們首先定義了人類自主性團隊,并概述了人類自主性團隊特有的團隊信任。

第3節確定并描述了不同類型的信任,這些信任在其發展過程中是不同的,特別是它們如何影響人類自主性團隊合作。

第4節分解了文獻中已被充分記錄的不同的信任度量方法,其中包括團隊信任的主觀、溝通、行為和生理指標,以及這些如何為在動態環境中運作的人類自主性團隊的有效信任校準提供多模式度量方法。在下文中,我們利用一個說明性的案例研究,詳細介紹了度量團隊信任的多步驟方法,并對模式和后續指標的選擇提出了建議,還指出了團隊信任度量中涉及的一些限制和注意事項。

付費5元查看完整內容

人工智能(AI)和精準醫療的融合有望給醫療健康帶來一場革命。精準醫學方法識別出對治療不太常見的反應或有獨特醫療需求的患者表型。人工智能利用復雜的計算和推理來產生見解,使系統能夠推理和學習,并通過增強智能使臨床醫生做出決策。最近的文獻表明,探索這種融合的轉化研究將有助于解決精準醫療面臨的最困難的挑戰,尤其是那些非基因組和基因組決定因素,結合來自患者癥狀、臨床歷史和生活方式的信息,將有助于個性化診斷和預后。

在美國國家醫學院(National Academy of Medicine)最近發布的一份關于人工智能(AI)在醫療保健領域當前和未來狀態的報告中,作者指出,人工智能在應對人類現實(包括疲勞和注意力不集中)和機器出錯風險方面提供了“前所未有的機會”,以增強專家的護理和人工智能提供的幫助。重要的是,報告指出,盡管在使用這些技術時必須謹慎,但仍有很大的希望。健康相關數據的數字化和技術的快速吸收正在推動醫療領域AI開發和使用的變革和進步。然而,多模態數據集成、安全、聯邦學習(這需要在隱私、大規模機器學習和分布式優化等領域取得根本性進展)、模型性能和偏差可能會對人工智能在醫療保健中的使用構成挑戰在醫療保健領域成功采用人工智能的三個主要原則包括數據和安全、分析和見解以及共享專業知識。數據和安全等同于對人工智能系統的訓練方式以及用于訓練它們的數據和知識的完全透明和信任。隨著人類和人工智能系統越來越多地合作,我們必須信任這些系統的輸出。

分析和見解等同于“增強智能”和“可操作的見解”支持人類的行為,而不是取代它們。人工智能可以結合來自多個結構化和非結構化來源的輸入,在語義層面進行推理,并在計算機視覺、閱讀理解、對話系統和多模式應用中使用這些能力,以幫助衛生專業人員做出更明智的決定(例如,醫生作出診斷,護士制定護理計劃,或社會服務機構安排為老年人提供服務)。共享的專業知識等同于我們與人工智能系統的互補關系,人工智能系統由人類專業人員訓練,并為人類專業人員提供支持,從而導致勞動力的變化,從而產生新的技能。創建前沿AI模型和構建高質量業務應用的能力需要能夠訪問最新硬件的熟練專家。大量未開發的數據可能對我們的健康產生巨大的影響——然而這些數據存在于醫療系統之外我們個人的健康在很大程度上受到生活方式、營養、環境和獲得保健的途徑的影響。這些行為和社會決定因素以及其他外生因素現在可以通過可穿戴設備和一系列醫療設備進行跟蹤和測量。這些因素約占我們健康決定因素的60%(行為、社會經濟、生理和心理數據),我們的基因約占30%,而我們的實際病史僅占10%。在我們的一生中,我們每個人將產生相當于3億多本個人和健康相關數據的書籍,這些數據可能有助于我們了解更長壽、更健康的生活。

大數據現象可以用五個v來描述:體量、速度、多樣性、準確性和價值。量是指大量復雜異構的數據,使得數據集過于龐大,無法使用傳統的數據庫技術進行存儲和分析。速度是指新數據生成和移動的速度。多樣性指的是結構化、半結構化和非結構化數據的不同類型,例如社交媒體對話和語音記錄。準確性是指數據的確定性、準確性、相關性和預測性。價值指的是將數據轉化為業務洞察。然而,數據的數量、種類、速度和準確性正在導致數據管理和工作負載的日益復雜——創造了對高級分析的更大需求,以發現洞察力——移動設備使技術更容易消費,創造了用戶對可視化分析的交互工具的需求。

大數據分析和人工智能在整個醫療保健領域越來越無所不在,包括5P領域:付款人、提供商、決策者/政府、患者和產品制造商。高達10%的全球衛生健康支出是由欺詐和濫用造成的,基于人工智能的工具有助于減少支付人項目中的欺詐、浪費和濫用。可靠地識別醫療編碼錯誤和不正確的索賠,可以節省大量的金錢、時間和精力,從而對支付人、提供者和政府產生積極的影響例如,IBM DataProbe是一種基于人工智能的商業智能工具,它能夠在2年內檢測并收回艾奧瓦州醫療補助企業醫療補助欺詐案中4150萬美元的服務費。在提供者領域,人工智能用于循證臨床決策支持,檢測不良事件,并使用電子健康記錄(EHR)數據預測患者再次入院的風險醫療政策制定者和政府使用基于人工智能的工具來控制和預測感染和疫情。FINDER就是一個例子,這是一個機器學習的模型,用于使用匿名和聚合的網絡搜索和位置數據實時檢測食源性疾病。另一個例子是使用IBM Connect360和IBM Watson護理管理器的綜合數據中心和護理管理解決方案,加州索諾馬縣政府機構在整個社區發生危機時,利用該方案改變了社會弱勢群體和其他流離失所者的健康和醫療保健該解決方案實現了在2017年和2019年索諾馬縣野火期間,將孤立的數據和服務集成到統一的公民地位視圖中,從結構化和非結構化來源識別健康的臨床和社會決定因素,構建算法將客戶與服務匹配,并簡化護理協調。隨著2020年初全球大流行性冠狀病毒疾病2019 (COVID-19)的出現,這種模型可用于預測高危人群,并可能為護理高危患者的臨床醫生提供額外的風險信息。AI在患者和生命科學/健康產品中的使用將在以下各部分中進行廣泛討論

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

本報告由來自美國陸軍研究實驗室、美國國防情報局、美國國家地理空間情報局(NGA)、英國國防部國防科學技術實驗室(Dstl)、加拿大國防研究與發展部、德國弗勞恩霍夫FKIE研究所等多個單位聯合撰寫。介紹了北約信息系統技術(IST)探索小組111(ET-111)的調查結果。成立ET-111是為了在北約各國之間分享對知識表示和推理(KRR)現狀的理解,以了解技術現狀并考慮未來的合作活動是否有益。

為了支持高水平的數據融合,當下有一個基礎性的需求,即信息和知識要能被人類和機器理解。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵原因是,知識可以被推理。基于知識的系統也可能被稱為符號人工智能和基于規則的人工智能,并且在過去50多年里一直是一個活躍的研究領域。因此,它可能被一些人認為是 "老派 "的人工智能,與近年來日益突出的基于算法和機器學習的人工智能方法不同(眾所周知,后者存在可解釋性和概括性問題)。在 "大數據 "時代,知識表示和推理為利用靈活、可解釋和基于人類知識的數據提供了一個途徑。

這篇綜述的第一個目的是為知識表示和推理領域提供一個技術介紹。為讀者提供關鍵概念的知識--以培養理解力--將使人們能夠欣賞到知識系統的能力。第二個目的是通過實例,提供對創建知識系統過程的掌握,以及如何在軍事背景下使用這種系統來解決現實世界問題。對知識系統最適用的現實世界問題的理解,有助于成功實施KRR并將其與北約系統和理論相結合

在這份報告中,我們首先討論了北約成員國面臨的一些挑戰,以及北約的知識表示和推理可能會對這些領域產生的影響。然后,我們對知識表示、知識工程和推理方法的技術方面做了一個總結。我們討論了知識表示的具體例子,如MIP信息模型(MIM)、富事件本體(REO)、OPIS和國防情報核心本體(DICO)。我們還描述了WISDOM研發平臺和智能態勢感知(INSANE)框架,作為使用知識表示來支持感知的例子

隨后,我們回顧了更廣泛的研究,包括文本分析如何支持從報告和其他來源的文本中提取知識,關于因果關系的工作以及推理系統中的可解釋性和信任問題。

最后,我們總結了報告的結論和對北約聯盟的影響,提出了進一步工作的主要建議:

  • 建議1--北約科技組織應贊助一項技術活動,以展示符號和亞符號方法的互補使用及其對改善決策的益處。

  • 建議2--北約科技組織應贊助一個虛擬系列講座/研討會,以提高北約科學和業務部門對KRR技術的認識,從而為該領域的進一步技能發展提供催化作用。

  • 建議3--北約科技組織應贊助一個專門的探索小組,考慮因果模型的具體興趣,以及它在基于知識的系統中的應用,作為未來在諸如建議1活動下進行實際演示的先導。

報告目錄

  • 第1章 - 導言
    • 1.1 "戰爭"中的信息
    • 1.2 理解和信息融合
    • 1.3 知識表示和推理的作用
    • 1.4 IST-ET-111的宗旨和目標
    • 1.5 本報告的方法和結構
    • 1.6 參考文獻
  • 第2章 - 知識表示和推理的核心概念
    • 2.1 引言
    • 2.2 知識、知識系統的定義
    • 2.3 專業知識和知識工程
    • 2.4 推測和推理
    • 2.5 知識圖譜
    • 2.6 語義啟用和互操作性
    • 2.7 不確定性管理
    • 2.8 符號化與亞符號化的方法
    • 2.9 總結
    • 2.10 參考文獻
  • 第3章 - 實現知識表示和推理
    • 3.1 集成、互操作性和信息共享的本體論
    • 3.2 W3C語義網棧
    • 3.3 案例研究
      • 3.3.1 構建領域本體--DICO開發過程、設計原則和最佳實踐
      • 3.3.2 實踐中的知識表示和推理WISDOM研發平臺
      • 3.3.3 相關性過濾、信息聚合和充實 智能態勢感知框架
      • 3.3.4 在英國、"五眼"防務和安全社區內交換信息--英國國際信息交流中心的信息交流標準
    • 3.4 實施基于知識的系統的機遇和挑戰
      • 3.4.1 討論共同關心的問題
        • 3.4.1.1 我是否真的應該關心,ML方法是否能提供這一切?
        • 3.4.1.2 有了新的技術,這不就導致了新的復雜性嗎?
        • 3.4.1.3 KR方法是穩健的嗎?
        • 3.4.1.4 是否需要專家技能和專業知識?
      • 3.4.2 知識表示和推理方法的優勢和劣勢
    • 3.5 總結
    • 3.6 參考文獻
  • 第4章 - 當前知識表示和推理的研究主題
    • 4.1 多模態知識表示--處理文本、圖像和其他問題
      • 4.1.1 文本分析的符號化方法
      • 4.1.2 文本的矢量空間模型
      • 4.1.3 文本分析的向量空間和知識基礎相結合的方法
      • 4.1.4 文本和圖像的聯合建模
    • 4.2 人類交互的考慮因素--自然語言交互
      • 4.2.1 對話系統
      • 4.2.2 自然語言的語義表述
      • 4.2.3 言語行為和對話
    • 4.3 因果關系和因果模型
      • 4.3.1 自然語言處理中的因果關系
    • 4.4 推斷中的可解釋性和信任
    • 4.5 總結、展望和開放的挑戰
    • 4.6 參考文獻
  • 第5章 - 結論和對未來技術提案的建議
    • 5.1 結論 - KRR方法的機會
    • 5.2 結論--對基礎技能和專業知識的需求
    • 5.3 結論--當前的研究主題
    • 5.4 建議
  • 附件A--相關的NATO STO活動
  • 附件B - MIP信息模型和富事件本體論
    • B.1.1 MIP信息模型(MIM)
    • B.2.1 富事件本體論(REO)--事件表示的本體論樞紐
    • B.3.1 參考文獻
  • 附件C - 國防情報核心本體(DICO)
    • C.1.1 DICO開發過程、設計原則和最佳實踐
      • C.1.1.1 獨特的識別實體
      • C.1.1.2 本體實體和DICO實體類別
    • C.2.1 參考文獻
  • 附件D--實踐中的知識表示和推理--WISDOM研發平臺
    • D.1.1 WISDOM研發平臺
    • D.2.1 WISDOM數據策略
      • D.2.1.1 WISDOM研發平臺的自動推理能力
    • D.3.1 參考文獻
  • 附件E - 不確定性管理
    • E.1.1 不確定性類型學/分類法
    • E.2.1 什么是不確定性?
    • E.3.1 不確定性管理的形式主義
    • E.4.1 參考文獻
  • 附件F - 作者簡歷

報告導言

1.1 "戰爭"中的信息

隨著傳感器、性能、反饋和其他數據數量的不斷增加,國防面臨的最緊迫的挑戰之一是可靠地、快速地篩選、融合最相關的觀察和信息并采取作戰行動的能力。信息的重要性體現在北約的所有戰略重點中[2]。俄羅斯對歐洲-大西洋安全的威脅是基于旨在破壞戰略關系(如歐盟、北約等)的虛假信息;打擊一切形式和表現的恐怖主義,現在的前提是能夠將機密和公開來源的材料聯系起來,以確定可以采取行動的聯系和行為;網絡威脅主要是在信息空間進行的。

北約對聯盟地面監視(AGS)系統的收購代表了北約在支持其未來行動中提供豐富數據饋送的能力的重大提升[3]。但是,在英國的 "信息優勢 "等概念中,人們認識到,現在只有通過及時和有效地融合這些數據饋送,才能實現真正的優勢。

當然,處理信息過載的挑戰并不限于國防領域。金融、廣告和工程等領域,都在抓住機遇,改善決策,瞄準服務,提高新解決方案的交付速度。近年來,應用機器學習(ML)方法應對這些挑戰的潛力已經引起了公眾、投資者和世界各地高層領導人的注意。因此,這樣的ML方法正在展示其應對防御挑戰的潛力,包括圖像和視頻資料中的物體檢測和標記、提取實體和關系的文本分析以及語音檢測和翻譯。在計算能力、數據可用性和計算框架的重大突破基礎上,對數據和人工智能的興趣將大大增加。

因此,防御能力將越來越能夠處理最關鍵的信息流,節省分析員的時間,提高他們快速發展和保持態勢感知的能力。然而,由于人類分析員的注意力也被持續競爭時期的操作和作戰活動所牽制[5],仍然需要不斷提高他們在多個領域連接細微但重要的觀察的能力。例如,隨著作戰尋求常規的全頻譜效應,物理、社會和網絡領域之間觀察的相互聯系將越來越重要,但如果沒有其他能力支持,這種聯系可能不容易被發現。重要的是,將這些觀察結果與過去的知識、相關人員的固有專長以及之前的經驗聯系起來是至關重要的。

1.2 理解和信息融合

復雜性一直存在于自然和生物領域中。然而,隨著科學和技術的進步,人類現在有能力制造出其復雜性接近生命本身的人工制品。有必要使用先進的方法來處理這種復雜性。

這種復雜性源于數據的速度、密度和空間范圍的巨大增長,以及不斷增加的各種元素之間的耦合,其中一些是自然的,而許多是合成的。防御的一個核心挑戰是應對復雜情況的方法。我們面臨著技術的快速發展,提供了更多的數據、信息和能力,同時也面臨著具有挑戰性的地形,如城市環境和涉及叛亂分子、混合人口、非政府組織的 "人類地形"。這些復雜的情況實際上比以往任何時候都更需要及時的決策來戰勝威脅,而決策的質量將始終與對情況的理解程度密切相關。這種理解力受到如此快速的行動和技術變化的挑戰,需要新的方法來更好、更快地分解復雜的情況。雖然人類的思維方式仍然深深扎根于經典的還原論概念,即通過將問題分解為子問題來解決,但現在人們認識到,以有效的方式接近復雜性不能脫離還原論方法。

諸如英國的 "信息優勢"[6]等國家概念試圖催化信息在國防行動中的作用,強調必須進行創新,否則就有可能 "枯萎"并跟不上對手的步伐。美國的 "用機器增強情報"(AIM)倡議[7]也提供了一個戰略觀點,強調了AI和ML在未來情報能力中的作用。對于IST-ET-111來說,AIM倡議特別強調了代表知識方面的基礎研究進展。

多年來,JDL融合模型[8]對實現低層和高層數據融合的技術挑戰進行了很好的定義。然而,全面的解決方案,特別是高層的數據融合,仍然缺乏,而且是不斷研究和開發的主題。

信息融合的挑戰幾乎延伸到國防的所有方面,從后勤到人員管理、平臺維護和醫療。然而,在北約背景下,重點是聯盟行動,如在阿富汗的行動,考慮實現態勢感知以支持指揮與控制(C2)和情報功能的挑戰也許是最貼切的。這些活動的特點是需要:

  • 將主要觀察結果和不太明顯的信息和知識結合起來(硬/軟融合)。
  • 匯集來自多個領域的信息,而且往往是多種分類的信息。
  • 在有限的信息基礎上快速做出決定;
  • 處理不確定性、模糊性和不斷變化的信息。

C2和情報活動產出的主要作者和消費者是人類分析員和作戰人員,但隨著北約部隊更多地使用自動化和自主系統,機器在支持、增強和利用基礎態勢感知和高層融合活動中的作用將越來越重要,需要考慮。

1.3 知識表示和推理的作用

為了支持這種高層的融合,現在有一個基本的需求,即信息和知識要能被人類和機器理解。通過這樣做,就有可能應用機器推理(推測)方法,將規則和形式邏輯應用于現有數據,以提供更高層次的推理。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵但不是唯一的原因是,知識可以被推理。基于知識的系統也被稱為符號人工智能和基于規則的人工智能,并且在過去五十多年里一直是一個活躍的研究領域。

知識表示和對這些知識進行推理的愿望是北約七個新興和顛覆性技術(EDTs)中三個的核心:數據、人工智能和自主性,其中每一個都重疊并支持另一個[9]。

當然,正是最近對 "機器學習"(也被稱為亞符號)方法的興趣,專注于神經網絡等計算方法,一直處于公眾對人工智能敘述的最前沿,經常看到ML和AI這兩個術語被交替使用。這類系統已經在多種應用中證明了其價值,如產品推薦系統、交通模式的預測和貸款審批。使用ML來支持基于內容的多種數據類型(圖像、視頻、文本和社交媒體)的分析是現已完成的IST-RTG-144(多內容分析)的核心興趣。該小組清楚地展示了對單模態進行分析的潛力,以及在更廣泛的情報周期內結合這些分析的機會,但它沒有考慮自動/半自動融合或針對觀察結果進行推理,以支持高水平融合的目標。

ML方法通常利用大量的數據來開發模型,將輸出與輸入聯系起來。對于某些類別的任務,如圖像標記,ML是一種行之有效的應用,但即使是人工智能系統的領導者也很謹慎,甚至對它的成功持批評態度[10]。用ML方法表示和包含知識(所謂的神經符號方法)可能是提高未來解決方案的穩健性和性能的一個潛在步驟。

因此,實現這一目標的基本步驟是建立有效的知識表示(符號表示),可以被未來的混合系統所使用。符號方法可能更善于處理稀疏的數據,支持增強的可解釋性并納入過去的人類知識,并使用擅長模式識別和數據聚類/分類問題的計算方法。然而,如果這些方法/技術要支持未來的聯盟行動,就需要聯合起來努力。這包括

  • 開發特定領域的本體論(為特定領域定義的詞匯表)。

  • 部署和評估推理能力。

  • 為事件驅動的處理建立有效的架構。

  • 處理觀測中的不確定性和模糊性。

  • 信息共享和觀測數據來源。

  • 聯合部署和應對規模問題的方法。

1.4 IST-ET-111的宗旨和目標

正是在這種情況下,北約IST-ET-111 "知識表示和推理 "被提出來,目的是匯集北約伙伴對KRR現狀的理解,以了解技術現狀并考慮未來是否需要開展活動。

通過建立技術現狀和北約國家的技術能力,IST-ET-111團隊希望這份報告能夠支持圍繞實現有效的人機團隊的最有效方法進行對話。探索小組的建立也是確定如何利用其他北約國家的科學和技術活動來獲得近期和長期的業務利益的一個步驟。

最終,我們預計KRR的有效使用會帶來以下結果:

  • 更快的決策,以保持在潛在對手的OODA循環中。
  • 更強大的人工智能系統能夠處理新的信息和處理不確定性。
  • 透明的系統,提供充分理解和可評估的輸出。
  • 隨著工作人員在行動中的輪換或行動的結束,保留專題知識,但隨后允許更迅速地建立先驗能力。
  • 大幅提高利用和辨別現有數據知識的能力。

1.5 本報告的方法和結構

本報告針對的是更廣泛的北約STO社區和國家代表,他們

  • 可能需要領導技術變革舉措,并可能從在軍事背景下使用KRR方法和手段中受益。

  • 需要實施新的解決方案以更好地利用信息和知識;

  • 可能擁有ML方面的專業知識,并正在尋求其他方法來提高結果的穩健性和可解釋性。

首先,本報告關注知識表示的核心概念(第2章),認識到利用基于知識的方法的第一步是擁有表示知識的手段,然后才是對知識進行推理的方法,或者換句話說,從我們已經知道的知識中推導出新知識的方法。然后,報告轉向實施KRR方法的問題(第3章),用具體的例子來說明其中的問題。最后,對活躍的研究主題進行了簡短的討論(第4章),并提出結論和建議(第5章)

付費5元查看完整內容

毫無疑問,今天圍繞人工智能(AI)的最復雜的治理挑戰涉及國防和安全。CIGI正在促進戰略制定:人工智能對軍事防御和安全的影響項目將這一領域的主要專家與來自國防部的40多名公務員和加拿大武裝部隊的人員聚集在一起,討論人工智能對國家安全和軍事領域的力量倍增效應。

這一努力依賴于一系列的四次研討會,以產生關于數據驅動技術如何引發巨大的技術重組的前瞻性思考,這將對加拿大的國防規劃產生深遠影響。具體來說,這些研討會集中在數據治理和政策(道德、云計算、數據準備和互操作性);決策(可信賴性、人機一體化、生物技術和問責制);模擬工具(培訓、兵棋推演、人機合作、機器人、自主和可信的人工智能);以及信息時代的加拿大情報(將人工智能用于情報)。CIGI還主辦了一個研究生研討會,以激勵整個加拿大在全球公共政策、計算機科學和安全等領域學習的新興學者。

報告總結

本文探討了在人工智能(AI)和機器學習背景下的軍事特定能力的發展。在加拿大國防政策的基礎上,本文概述了人工智能的軍事應用和管理下一代軍事行動所需的資源,包括多邊參與和技術治理。

維持先進軍事能力的前景現在與人工智能的武器化直接聯系在一起。作為一項通用技術,人工智能代表著一種力量的倍增器,有能力重塑戰爭規則。事實上,在核彈頭仍然是一種單一的技術應用的情況下,人工智能有能力支持許多不同類型的武器和系統。正如北大西洋公約組織(NATO)的指導意見所指出的,人工智能和其他 "智能 "技術現在對加拿大及其盟國的未來安全至關重要。

新技術在改變戰爭的性質方面有著悠久的歷史。從馬匹和盔甲的使用到航空母艦和戰斗機的引進,人工智能和機器人只是代表了軍事技術發展的最新階段。常規武器與人工智能和機器學習的融合,必將重塑決策的性質和軍事戰略轉型中的武力應用。

即使當代人工智能系統的能力被限制在機器學習算法的狹窄范圍內,這種限制可能不會持續太久。與神經科學、量子計算和生物技術相重疊的發現領域正在迅速發展,代表了 "智能機器 "進化的未知領域。在這些新的研究領域中的科學和技術發現給加拿大的國防帶來了巨大的風險,但同時也代表著巨大的機遇。

顯而易見的是,新興技術已經成為高度緊張的地緣政治競爭的基礎,它與一系列商業產業和技術平臺相重疊。中國、俄羅斯、美國和其他國家和非國家行為者正在積極追求人工智能和其他前沿技術的軍事應用。競爭的領域包括云技術、高超音速和新導彈技術、空間應用、量子和生物技術以及人類增強。

盡管技術創新一直塑造著國家間沖突的性質,但新興和顛覆性技術(EDT)的規模和速度是前所未有的。加拿大的國防政策反映了這種擔憂,它呼吁使加拿大武裝部隊(CAF)適應不斷變化的地緣政治環境。加拿大國防規劃已著手擴大和發展加拿大武裝部隊,在新的軍事平臺整合中納入下一代偵察機、遙控系統和天基設施。

基于對不斷變化的技術環境的廣泛評估,加拿大國防部(DND)認識到,這個新時代的特點是全球力量平衡的變化。這包括在快速發展的創新經濟中大國競爭性質的變化。就像石油和鋼鐵為工業時代設定條件一樣,人工智能和機器學習現在也可能為數字時代設定條件。

這種規模的破壞是由技術和制度變化的融合所驅動的,這些變化可以以新的和不可預測的方式觸發復雜的反饋回路。在這個新的環境中,人工智能技術將迫使世界各國軍隊投射力量的能力倍增。確定軍事人工智能發展中的護欄對于避免未來危機至關重要。應用減少風險的措施來識別和減輕軍事人工智能可能帶來的一系列風險將是關鍵。事實上,在這些能力完全嵌入世界上目前和未來的軍隊之前,治理人工智能可能會更容易。

從整體上看,這種轉變預示著從初級機器到數據驅動技術和精密電子的巨大轉變。這種物理、數字和生物技術的加速融合代表了一場巨大技術革命的早期階段。在全球范圍內管理這些新興和顛覆性的技術,對于減少未來沖突的風險至關重要。

1 引言

從人工智能和機器人到電池存儲、分布式賬本技術(DLT)和物聯網(IoT),新興和顛覆性技術(EDT)現在正在激起一個商業創新的新時代。這一巨大的技術變革景觀正在醞釀一場社會和經濟變革,對中央銀行的發展具有巨大影響。正如北約最近的一份報告所指出的(北約新興和顛覆性技術咨詢小組2020),這些技術包括:

→ 人工智能和機器學習。人工智能/機器學習的發展及其對創新的潛在影響。這包括神經形態計算、生成式對抗網絡,以及人工智能從已經收集或尚未收集的數據中揭示出意想不到的見解的能力。

→ 量子技術。正在進行的從量子過程研究中獲得的知識轉化為量子技術的應用,包括量子計算、量子傳感、量子密碼系統,以及在量子尺度上對材料的操縱和開發。

→ 數據安全。用于保障和損害通信、數據交易和數據存儲安全的算法和系統的設計,包括量子證明加密方法、區塊鏈和分布式賬本架構,以及更廣泛的網絡安全領域。

→ 計算功能的硬件。微型化、電力采集和能源儲存方面的進展,包括在全球范圍內提供數字化關鍵基礎設施所需的物理系統(物聯網)和機器人的廣泛使用及其對全球系統和流程的持續影響。

→ 生物和合成材料。從原子/分子層面的材料設計、合成和操作到中觀和宏觀尺度的創新,支持生物工程、化學工程、基因層面的操作、增材制造和AI介導的生成設計。

正如蒸汽機和印刷術激發了工業革命一樣,人工智能和機器人技術現在也在軍事技術的性質和全球力量平衡方面引發了巨大變革。人工智能的興起并非沒有歷史先例,但伴隨著人工智能的變化表明,需要對國防規劃進行更精確的調整,以適應一個數據驅動的時代。

在大國競爭和多極體系的背景下,人工智能已經成為競爭的一個特別焦點。中國、俄羅斯、美國和其他許多國家都在積極追求人工智能能力,并把重點放在國防和安全方面。例如,中國希望到2030年在人工智能方面領先世界,并期望通過利用大量的豐富數據,擴大其在人工智能產業化方面的領先優勢(Lucas和Feng,2017年)。

事實上,數據和數據驅動的技術現在占據了全球經濟的制高點。整個全球數據經濟的競爭已經與大國競爭密不可分(Mearsheimer 2021)。盡管美國和中國的經濟深深地相互依存,但中國在整個歐亞大陸不斷擴大的投資將很快使其成為世界貿易的中心。

技術優勢仍然是北約國家的關鍵支柱,但中國正在迅速趕超。即使美國在人工智能發現方面建立了強大的領先優勢,中國也越來越有可能在人工智能驅動的應用產業化方面占據主導地位。中國不僅有先進的商業能力,而且還有一個連貫的國家戰略。中國的技術部門正在達到專業知識、人才和資本的臨界質量,正在重新調整全球經濟的指揮高度(Lucas and Waters 2018)(見圖1)。

中國產業部署的大部分技術創新都是 "漸進式 "的,而不是 "顛覆式 "的,但現在這種情況正在改變。將新興市場聚集在其軌道上,中國前所未有的經濟擴張現在對世界經濟產生了引力(The Economist 2018)。標志性項目,價值數萬億美元的 "一帶一路 "倡議(世界銀行2018年)為圍繞電動汽車、電信、機器人、半導體、鐵路基礎設施、海洋工程以及最終的人工智能的廣泛戰略轉變提供了一個全球平臺(McBride和Chatzky 2019年)。

毫不奇怪,中國已經是國際專利申請的世界領導者(世界知識產權組織2020)。隨著自主機器(Etzioni和Etzioni 2017)、可再生能源基礎設施、量子通信(?iljak 2020)、增強型腦機接口(Putze等人2020)和天基武器(Etherington 2020)的出現,重新思考加拿大國家安全,特別是加拿大國防的性質的壓力正在增加。鑒于技術創新的步伐不斷加快,以及亞洲作為世界貿易中心的崛起(Huiyao 2019),來自國外的技術的影響可能是巨大的。

圖1:按購買力平價計算的國內生產總值預測(以萬億美元計)

2 AI與軍事防御

2.1 AI定義

人工智能的概念已被廣泛討論,但該術語的精確定義仍然是一個移動的目標。與其說人工智能是一項具體的技術或特定的創新,不如說它是一個材料的集合。事實上,即使人工智能技術已經成為廣泛的主流商業應用的基礎,包括網絡搜索、醫療診斷、算法交易、工廠自動化、共享汽車和自動駕駛汽車,人工智能仍然是一個理想的目標。

盡管人工智能領域的研究始于20世紀40年代,但隨著機器學習和計算機處理能力的改進,過去十年對人工智能興趣的爆炸性增長已經加速。人工智能的持續進步被比喻為在人腦中發現的多尺度學習和推理能力。當與大數據和云計算相結合時,預計人工智能將通過將 "智能 "人工智能和機器學習系統與第五代(5G)電信網絡(即物聯網)上的大量聯網設備連接起來,使數字技術 "認知化"。

作為人工智能的一個子集,機器學習代表了人工智能的最突出的應用(見圖2)。機器學習使用統計技術,使機器能夠在沒有明確指令的情況下 "學習",推動許多應用和服務,改善一系列分析和物理任務的自動化。通過使用數據自動提高性能,這個過程被稱為 "訓練 "一個 "模型"。使用一種算法來提高特定任務的性能,機器學習系統分析大量的訓練數據集,以便做人類自然而然的事情:通過實例學習。

今天,機器學習的最常見應用是深度學習。作為更廣泛的機器學習家族的一部分,深度學習利用人工神經網絡層來復制人類智能。深度學習架構,如深度神經網絡、遞歸神經網絡和卷積神經網絡,支持一系列廣泛的研究領域,包括計算機視覺、語音識別、機器翻譯、自然語言處理和藥物設計。

圖2:人工智能的層級

2.2 加拿大國防部:將人工智能應用于國家安全

安全人工智能位于新興和顛覆性技術(EDT)星座的中心,包括機器人學、基因組學、電池存儲、區塊鏈、3D打印、量子計算和5G電信。在研究層面,美國仍然是人工智能的全球領導者。目前,國家科學基金會每年在人工智能研究方面的投資超過1億美元(國家科學基金會2018年)。國防高級研究計劃局(DARPA)最近宣布投資20億美元用于一項名為AI Next的計劃,其目標是推進上下文和適應性推理(DARPA 2018)。

與過去的原子武器或隱形飛機的技術發展不同,沒有國家會壟斷軍事人工智能。研究人員和領先的商業企業之間廣泛的全球合作意味著人工智能和機器學習的進步可能會在全球范圍內擴散。事實上,人工智能發展的大多數技術進步是由工業界而不是政府推動的。除了市場主導的技術公司,世界各地廣泛的網絡集群正在孵化新一代的商業創新(Li and Pauwels 2018)。因此,許多未來的軍事應用將可能是為商業產業開發的技術的改編。

幸運的是,加拿大一直是人工智能研究前沿的領導者,并繼續通過2017年推出的泛加拿大人工智能戰略下的幾個項目培育一個強大的人工智能生態系統。加拿大政府積極參與人工智能咨詢委員會和各種國際伙伴關系,包括2020年啟動的全球人工智能伙伴關系;人工智能國防伙伴關系,其第二次對話在2021年舉行;以及重疊人工智能驅動的安全和規劃的多邊協議(五眼,北約)。事實上,加拿大的國防政策,"強大、安全、參與"(SSE),反映了加拿大政府對增加年度國防開支的承諾,重點是技術。

目前的聯邦預算包括對人工智能發展的實質性承諾,承諾在10年內投入4.438億美元(Silcoff 2021)。在政府2021年的預算中,1.85億美元將支持人工智能研究的商業化;1.622億美元將用于在全國范圍內招聘頂尖的學術人才;4800萬美元將用于加拿大高級研究所;五年內4000萬美元將旨在加強埃德蒙頓、多倫多和蒙特利爾的國家人工智能研究所的研究人員的計算能力;五年內860萬美元將幫助推進人工智能相關標準的發展和采用(加拿大政府2021年,148)。

2.3 增強加拿大的情報能力

人工智能是一個影響廣泛的商業和軍事技術的模糊領域。像電力或化石燃料一樣,人工智能的廣泛應用意味著人工智能和其他通用技術有能力重新配置現代軍隊的步伐和組織(Bresnahan和Trajtenberg 1995)。從整體上看,人工智能代表了國家安全性質的結構性轉變。出于這個原因,SSE設想了一個未來的軍事態勢,更加注重開發、獲取和整合先進的變革性技術,包括網絡和自主系統。

即使加拿大在傳統聯盟(北美防空司令部、北約和五眼聯盟)中的持續作用仍然是國家安全的基礎,EDT正在從根本上改變沖突的性質。正如格雷格-菲夫(2021年)所觀察到的,人工智能作為戰爭工具的崛起與升級加拿大國家安全架構,特別是加拿大情報部門的日益增長的需求相重疊。技術變革和信息爆炸的復合周期,新的技能組合和新的數據分析戰略對國防規劃的演變變得至關重要。

在數字時代,戰爭正日益成為基于知識的戰爭。隨著沖突進入信息領域,軍事規劃開始重新聚焦于信息/虛假信息行動、網絡行動、情報行動和政治或經濟影響行動。事實上,這種混合戰爭作為一種戰爭工具由來已久,其目的是利用宣傳、破壞、欺騙和其他非動能軍事行動,從內部破壞對手(Bilal 2021)。

網絡仍然是潛在對手、國家代理人、犯罪組織和非國家行為者的一個關鍵目標。這包括對通信、情報和敏感信息的嵌入式監視和偵察。正如Amy Zegart(2021年)所解釋的那樣,技術正在通過極大地擴展數據和信息的獲取,使情報的性質民主化。事實上,今天驅動戰略情報的大部分信息實際上是開放源碼情報(OSINT)或在公共領域。

現代軍隊正變得嚴重依賴安全、及時和準確的數據。隨著數據的急劇膨脹,消化它變得不可能。這種數據爆炸正在推動對新的分析模式和新型網絡工具的需求。在數字時代,安全和情報人員需要新的平臺、新的工具和跨領域工作的新OSINT機構。在這方面,人工智能可能特別有幫助。

隨著數據的重要性增加,在廣闊的數字領域的對抗性競爭也在增加。人工智能和機器學習可以通過篩選巨大的數據庫來極大地提高加拿大的國家情報能力。人工智能不是銀彈。人工智能系統不能產生意義或提供因果分析。然而,人工智能和機器學習可以極大地增強人類在管理數據和數據驅動的分析方面的情報能力。

2.4 增強加拿大軍力

隨著決策者為數據驅動的世界調整其安全態勢,人工智能有望改變軍事沖突的既定模式。DND/CAF面臨的關鍵挑戰之一是數據驅動的網絡重塑指揮和控制系統的速度(Thatcher 2020)。集中式系統的優勢在于其協調人類活動的效率。在指揮系統中,人員和傳感器推動威脅檢測,將信息向決策堆棧上移,以便決策者可以做出適當的反應。數字技術深刻地加速了這個過程。

人工智能在軍事領域的應用可能被證明對傳統的指揮和控制系統具有挑戰性。例如,在美國,五角大樓的第一位首席軟件官最近辭職,以抗議技術轉型的緩慢步伐。在離開國防部職位后的一次采訪中,尼古拉-沙伊蘭告訴《金融時報》,美國未能對技術變革和其他威脅作出反應,使國家的未來面臨風險(Manson 2021)。

除了變化的速度緩慢,軍事指揮和控制系統的集中性意味著單點故障提供了脆弱的攻擊點。指揮機關和自動或人類控制者往往容易受到利用不良或欺騙性信息的對抗性技術的影響,甚至自上而下的決策在適應復雜的突發挑戰方面也會很緩慢。

神經形態計算、生成式對抗網絡(GANs)、人工智能決策支持、數據分析和情報分析方面的新創新在增強軍事行動的結構和進程方面可能會產生巨大影響。機器學習算法的快速發展已經在商業和軍事領域引發了一波投資熱潮。

超越對損耗和動能攻擊的傳統關注,轉向基于加速和適應的新方法,數據驅動的技術可能是促成國家安全性質徹底轉變的關鍵。人工智能不是一種單一的技術。相反,它是一類可以在一系列軍事和商業應用中整合的技術。這些技術不斷演變的基礎是數據。

數字技術現在由數據推動,并將繼續推動創造越來越多的數據驅動的技術--特別是人工智能。數據是訓練人工智能和先進機器學習算法的基礎。數據既是大規模運行的數字系統產生的 "操作廢氣",也是機器對數據輸入作出反應的過程,它現在推動了機器的 "自主性"。

數據驅動的技術支撐著現代社會的核心社會和經濟功能,涵蓋了基礎設施、能源、醫療保健、金融、貿易、運輸和國防。隨著5G網絡的全球推廣,預計在高度健全的全球信息網絡中創建、收集、處理和存儲的數據將出現爆炸性增長。根據市場研究公司IDC的數據,目前全球數據正以每年61%的速度增長(Patrizio 2018)。預計到2025年,數據將達到175 zettabytes(一萬億吉字節),改變數字經濟的性質和規模(同上)。

出于這個原因,DND/CAF將數據提升到國家資產的水平是明智的。這對經濟增長和加拿大國防都至關重要。將數據作為國家資產加以保護和利用,將意味著重新思考目前構成當代數據架構的大型集中式數字基礎設施。可以肯定的是,網絡時代的數據安全應該是分散的和聯合的,以避免集中式系統的脆弱性。

3 武器化AI:致命的自治系統

關于技術破壞的傳統預測往往會犯一個錯誤,即假設這種規模的系統變化只是以一對一的方式取代舊技術。在現實中,這種規模的顛覆往往會不成比例地取代舊的系統,使其具有巨大的新的架構、界限和能力(Arbib和Seba 2020)。

正在進行的人工智能武器化正在助長一場全球軍備競賽,有望重塑加拿大國防戰略的輪廓。事實上,世界上許多國家在人員系統自動化、設備維護、監視系統以及無人機和機器人的部署方面已經遠遠領先(斯坦利和平與安全中心、聯合國裁軍事務廳和史汀生中心2019)。從美國到俄羅斯到以色列再到中國,軍事研究人員正在將人工智能嵌入網絡安全舉措和支持遠程手術、戰斗模擬和數據處理的機器人系統。

以先進的物流、半自動車隊、智能供應鏈管理和預測性維護系統的形式將人工智能應用于軍事行動代表了人工智能的近期應用(Perry 2021)。然而,能夠在陸地、海洋、空中、太空和網絡領域針對個人(無論是否需要人類干預)的自主武器的演變代表了軍事沖突的可能未來(見圖3)。事實上,近100個國家的軍隊目前擁有某種程度的武裝或非武裝無人機能力(Gettinger 2019)。

圖3:全球無人機激增

商業無人機技術在采礦、農業和能源領域的縱橫捭闔,正在助長無人機技術的廣泛擴散。正如最近亞美尼亞和阿塞拜疆之間的沖突所表明的那樣,一群相對便宜的自主和半自主無人機可以被利用來壓倒傳統的軍事系統,使一系列當代平臺變得過時(Shaikh和Rumbaugh 2020)。輕型、可重復使用的武裝無人機,如土耳其的Songar(Uyan?k 2021)可以配備一系列有效載荷,包括迫擊炮、手榴彈和輕機槍。最近對沙特阿拉伯的Abqaiq石油加工設施(Rapier 2019)和俄羅斯的Khmeimim空軍基地(Hambling 2018)的攻擊反映了軍事無人機在不同戰場環境中的應用越來越多。

致命自主武器系統(LAWS)被定義為可以在沒有人類授權的情況下選擇和攻擊目標的武器,它被設計為在獨立識別目標之前在指定的行動區域內長期徘徊。多個無人機或機器人可以并行運作,以克服對手的防御或摧毀一個特定目標。開發人員傾向于將致命性武器系統分為三大類,即觀察、定位、決定和行動(OODA)循環(見圖4)。這些類別包括。"循環中的人"、"循環中的人 "和 "循環外的人"。這種區分也被框定為 "半自主"、"受監督的自主 "和 "完全自主 "的技術系統。不幸的是,受監督的致命性自主武器系統和完全自主的致命性自主武器系統之間的區別,可能只是一個軟件補丁或一個監管程序。

圖4:OODA環

隨著致命性自主武器系統和其他數據驅動的技術變得更便宜和更廣泛,它們可能會給廣泛的國家和非國家行為者提供平臺和工具,以新的和破壞性的方式利用人工智能和機器學習。除了收緊OODA循環外,軍事人員將需要了解人工智能在加速OODA循環方面的影響,以確定在特定情況下哪種模式最合適。

3.1 網絡平臺

鑒于EDT的范圍和規模,認為我們可以簡單地保持從上個世紀繼承的系統和做法是錯誤的。正如英國查塔姆研究所2018年的一份報告所警告的那樣,美國、英國和其他核武器系統正變得越來越容易受到網絡攻擊(Unal and Lewis 2018)。這些擔憂是有根據的。人工智能和EDT的擴散一起,幾乎肯定會通過利用人工智能和自主系統的規模效應,為小國和非國家行為者帶來好處。

對于許多北約國家來說,網絡平臺已經成為多領域行動的關鍵--海、空、陸、網絡和空間。大規模的網絡使得在復雜環境中可視化和協調大量資源成為可能。在5G電信和云計算的基礎上,信息系統現在可以有效地收集、傳輸和處理大量的戰場數據,提供實時數據分析。

連接設備正在成為協調空襲、駕駛無人機、消化戰斗空間的實時視頻和管理高度復雜的供應鏈的關鍵。在英國,國防數據框架提供了一個結構,以解決軍事組織與數據驅動的企業需求相一致的挑戰(Ministry of Defence 2021)。從戰略到通信到后勤到情報,數字平臺現在是協調復雜軍事行動的基礎。數據現在是所有作戰領域的命脈。

在一個數字化的戰斗空間中,每個士兵、平臺和資源現在都是一個復雜軍事網絡中的節點。從20世紀90年代以網絡為中心的美國軍事行動開始,數字技術已經成為先進武器、戰術和戰略的基礎。從戰場態勢感知和自主無人機到精確制導彈藥和機器驅動的心理行動,網絡正在使戰爭進入網絡時代。

在集中式機構對工業時代至關重要的地方,平臺和網絡正在成為數字時代的關鍵。人工智能本質上是一種 "自下而上 "的技術,依靠不斷 "喂養 "大量的數據來支持機器學習作為 "學習引擎"。隨著數字生態系統的激增,網絡平臺和它們所依賴的數據管理系統成為管理不斷擴大的資源和人員的關鍵。

與金融部門一樣,DND應該尋求區塊鏈等DLT,以加速加拿大軍隊的數字化轉型。通過在分散的網絡中橫向分配數據,CAF區塊鏈可以幫助減少官僚化系統固有的限制和脆弱性。DLT提供了一個高度分散的驗證系統,可以確保所有的通信和數據傳輸免受對手的攻擊,同時消除集中式節點的潛在故障。

3.2 無人機群和機器人技術

人工智能在軍事規劃中的應用正在迅速推進,許多國家在部署無人機和機器人方面已經取得了很大進展。事實上,無人機技術的全球擴散正在順利進行中。

世界各地的軍隊正在加速開發或采購攻擊型無人機(見圖5)。俄羅斯的 "閃電"(BulgarianMilitary.com 2021)、西班牙的Rapaz8以及英國、9美國10和以色列11的各種無人機項目共同代表了軍事技術新時代的早期階段。與工業時代的軍事技術不同,無人機可以以低成本獲得,并需要相對較少的技術技能。

無人機群技術涉及微型/迷你無人機/無人駕駛飛行器或無人機群,利用基于共享信息的自主決策。事實上,當代軍用無人機已經可以被設計成在沒有人參與的情況下定位、識別和攻擊目標。利用蜂群技術,數以百計的非武裝無人機可以從現場收集信息,同時用各種武器(即火器、火炮和/或彈藥)引導數以千計的無人機。

正如簡短的視頻 "Slaugherbots "所展示的那樣,完全自主的武器將使瞄準和殺死獨特的個人變得非常容易和便宜。在面部識別和決策算法的基礎上,國家和非國家行為者都可以廣泛使用致命性武器。數以千計的相對便宜的無人機配備了爆炸性的彈頭,有可能壓倒防空系統,攻擊基礎設施、城市、軍事基地等等。

圖5:無人機對比

3.3 馬賽克戰爭

無人機群壓倒加拿大軍事設施的威脅,以及對關鍵基礎設施的網絡攻擊或在衛星傳感器檢測到威脅時自動發射的高超音速導彈,代表了一個令人不安但越來越可能的未來。從復雜性科學和對昆蟲的研究中產生的,使用無人機來支持 "集群情報 "代表了一個加速戰爭節奏的新工具集。

為了應對這種不斷變化的環境,DARPA提出了 "馬賽克戰爭"的概念。馬賽克戰爭的中心思想是,模塊化系統可以成為應對高度網絡化環境的廉價、靈活和高度可擴展的工具。就像馬賽克中的瓷片一樣,單個作戰平臺可以被設計成高度可配置的。編隊利用分散的代理在 "殺戮網 "上進行重新配置。殺戮網的目標是避免 "單體系統 "的結構僵化。

與傳統戰爭中需要的復雜棋局不同,馬賽克戰爭利用數字網絡,利用模塊的靈活性和增強的決策(時間壓縮)加快動態響應時間。像自然界中的復雜系統一樣,殺傷性網絡使用算法來消除單點故障,通過模塊化設計加速反應時間。

從主導地位(預測)轉向加速反應(適應),"馬賽克戰爭 "旨在支持混合軍事單位,利用 "決策棧 "上下的橫向網絡。人工智能、無人機、傳感器、數據和人員結合在一起,為地面上的作戰指揮官提供支持,使小型編隊能以更快的速度獲得情報、資源和后勤資產。

像 "馬賽克戰爭 "這樣的模塊化系統表明,未來的戰爭將越來越多地利用現在驅動戰爭游戲和模擬的計算、數據分析和算法。推動高度流動、游戲化和不可預測的環境,未來的人工智能系統可以將戰爭加速到一個隨著結果范圍的擴大而變得極其密集的計算速度和節奏。

DARPA最近的AlphaDogfight(2019-2020年)為這一新現實提供了一個窗口。使用復雜的F-16飛行模擬器讓計算機與有經驗的人類飛行員對決,試驗的目的是為DARPA的空戰進化計劃推進人工智能開發者。毫不奇怪,F-16人工智能代理通過積極和精確的機動性擊敗了人類飛行員,而人類飛行員根本無法與之相提并論,五局為零。

4 對抗性攻擊

人工智能的武器化也在激起對抗人工智能系統的新戰略和方法。正如網絡行動(無論是間諜活動還是攻擊)可以指示計算機網絡或機器以它們不打算的方式運行,對手也可以對人工智能系統使用同樣的策略。這個過程被稱為對抗性機器學習,旨在找出機器學習模型的弱點并加以利用。攻擊可能發生在開發或部署階段,包括通過提供欺騙性輸入(例如,"毒化"數據)或針對模型本身來誤導模型。

這些方法在國家安全環境中特別危險,因為在許多情況下,它們是微妙的,人類無法察覺。此外,具有挑戰性的是,對手不一定需要對目標模型的具體知識或直接訪問其訓練數據來影響它。隨著人工智能系統變得更加普遍,更多的人可以接觸到,對手的吸引力和攻擊機會將增加。

4.1 攻擊數據

攻擊者可能試圖修改訓練數據或測試數據。這是通過創造對抗性樣本來實現的,這些樣本被故意 "擾亂 "或改變并提供給模型,從而導致錯誤。例如,通過改變洗衣機圖像的分辨率,研究人員能夠欺騙一個模型,將機器分類為 "安全 "或 "擴音器"(Kurakin, Goodfellow and Bengio 2017)。對人的眼睛來說,對抗性圖像看起來幾乎是一樣的。

在國家安全方面,對手可能會試圖使用同樣的技術來暗示武器系統實際上是一個社區中心。如果這是在孤立的情況下發生的,那么這個問題很可能被識別和解決。如果對手的樣本被長期大規模使用,這可能成為一個重大的挑戰,并影響對情報收集系統的信任。

此外,一些對手可能并不精確--或有技能--并可能試圖迫使一個模型對整個類別而不是特定類別進行錯誤分類。由于我們在國家安全環境中越來越依賴計算機圖像,并不總是能夠實時或在有爭議的空間進行驗證,因此在這種攻擊中出現誤判的風險是很大的。

高后果的人工智能系統并不是對抗性攻擊的唯一目標。受對抗性樣本影響的人工智能系統可以包括生物識別,其中假的生物特征可以被利用來冒充合法用戶,語音識別中攻擊者添加低量級的噪音來混淆系統(Zelasko等人,2021)和計算機安全(包括在網絡數據包中混淆惡意軟件代碼)。

由于DND/CAF尋求通過部署人工智能系統來提高效率--如軍艦上的語音助手(McLeod 2019)--必須在部署前評估對抗性使用的風險并制定對策。

4.2 攻擊模型

除了改變輸入,另一種攻擊方法可用于逆向工程模型以獲取訓練數據(Heaven 2021)。由于機器學習模型對訓練數據的表現比新的輸入更好,對手可以識別目標模型預測的差異,并與包括個人身份信息在內的已知數據相匹配(Shokri等人,2017)。隨著機器學習即服務變得越來越多--而且在許多情況下,被用作開發更復雜的能力的基礎--DND將需要仔細審查國家安全系統的數據泄漏風險。這甚至適用于看似無害的系統,如語音助手。

人工智能系統的弱點的例子很多(Hadfield-Menell等人,2017)。這些例子包括吸塵器將收集到的灰塵彈回它剛打掃過的地方,以便它能收集更多的灰塵,或者數字游戲中的賽艇在原地循環以收集分數,而不是追求贏得比賽的主要目的。雖然這些例子沒有生命危險,但同樣的技術--被稱為獎勵黑客(當一個模型被指示使其目標函數最大化,但卻以非故意的方式進行)--可以被用于更嚴重的效果。

從旨在用固定的訓練數據解決 "單步決策問題 "的機器學習過渡到解決 "順序決策問題 "和更廣泛的數據集的深度機器學習,將使對抗性攻擊更難發現。這種威脅是如此之大,以至于美國情報高級研究項目活動正在資助一個項目,以檢測木馬人工智能對已完成系統的攻擊。令人擔憂的是,政府可能會在不知情的情況下操作一個產生 "正確 "行為的人工智能系統,直到出現 "觸發 "的情況。例如,在部署過程中,對手可能會攻擊一個系統,并在更晚的時候才導致災難性的故障發生。這些類型的攻擊可能會影響到圖像、文本、音頻和游戲的人工智能系統。

4.3 防御和反制措施

正如對抗性樣本可以用來愚弄人工智能系統一樣,它們可以被納入訓練過程中,以使它們對攻擊更加強大。通過對最重要的國家安全人工智能系統進行清潔和對抗性數據的訓練--要么給它們貼上這樣的標簽,要么指示一個模型將它們分離出來--更大的防御是可能的。但是,復雜的對手很可能會自行躲避這種防御方法,而使用額外的戰術進行深度防御將是必要的。

GANs有各種各樣的用例,從創建深度假說到癌癥預后(Kim, Oh and Ahn 2018)。它們也可用于防御對抗性攻擊(Short, Le Pay and Ghandi 2019),使用一個生成器來創建對抗性樣本,并使用一個判別器來確定它是真的還是假的。一個額外的好處是,使用GANs作為防御,實際上也可能通過規范數據和防止 "過度擬合 "來提高原始模型的性能(IBM云教育2021)。

對抗性攻擊和防御模型進行基準測試--如使用GANs--是一種全面的對策,可以對AI系統進行比較。這種方法為制定和滿足安全標準提供了一個量化的衡量標準,并允許評估人工智能系統的能力和限制。

作為這個測試和評估過程的一部分,博弈論可能有助于建立對手的行為模型,以確定可能的防御策略。由于人工智能系統無法在傳統的信息安全意義上進行 "修補",因此在部署前應仔細分析針對國家安全人工智能系統的對抗性攻擊的風險,并定期進行審查。此外,訓練有素的模型--特別是那些關于機密數據和最敏感應用的模型--應該得到仔細保護。

5 關于人工智能的全球治理

數據驅動的戰爭的速度和范圍表明,我們正在進入一個新的時代,其中致命性武器系統的潛力--無論是否有人類參與--都可能極大地改變全球力量平衡。從殺手級無人機和人機合作到增強的軍事決策(殺手2020),人工智能技術將使世界各國軍隊投射力量的能力大大增加。正在進行的人工智能武器化也與空間武器化相重疊(《經濟學人》2019年),因為低地球軌道(LEO)日益成為軍事監視、遙感、通信、數據處理(Turner 2021)和彈道武器(Sevastopulo和Hille 2021)的操作環境。

人工智能與低地軌道和致命性自主武器系統的興起,代表了全球安全性質的一個關鍵轉折點。為此,世界各地的學術研究人員、技術企業家和公民都對人工智能的軍事化所帶來的危險表示擔憂。正如他們正確地指出的那樣,在規范負責任地開發和使用人工智能的規范和法律方面缺乏國際共識,有可能造成未來的危機。

5.1 戰爭法則

除了我們在科幻小說中經常看到的對人工智能的夸張描述,重要的是建立適當的制衡機制,以限制人工智能技術可能提供的權力集中。關于管理人工智能和其他數字技術的共同國際規則和條例將塑造未來幾十年的戰爭和沖突的輪廓。在軍事人工智能的發展中制定護欄,對于減少未來沖突的可能性至關重要。

加拿大和其他北約國家積極參與這一討論可能是未來全球和平與安全的關鍵。在發動戰爭的條件(jus ad bellum)和戰爭中的人工智能行為(jus in bello)方面,規范人工智能使用的戰爭法仍有待確定。鑒于美國和中國之間不斷擴大的競爭,需要制定關于致命性自主武器系統的使用及其擴散的條約是再及時不過了。

正如北約所觀察到的,加拿大及其盟國應尋求促進、參與和建立合作機會,以支持開發和應用人工智能和其他EDT的廣泛、全面的架構(北約新興和顛覆性技術咨詢小組2020)。盡管面臨著艱巨的挑戰,全球治理在規范軍事人工智能方面可以發揮重要作用。盡管對人工智能及其武器化有不同的看法,但過去的談判可以作為未來條約的基礎,特別是在定義戰爭規則方面。這包括關于常規武器、核軍備控制、生物和化學武器、地雷、外層空間和平民保護的條約(見圖6)。

到目前為止,《聯合國特定常規武器公約》(CCW)已經監督了一個討論應對自主武器帶來的人道主義和國際安全挑戰的進程。已經提出了一系列監管致命性自主武器系統的潛在方案,包括《特定常規武器公約》下的一項國際條約,一個不具約束力的行為準則,宣布各國承諾負責任地開發和使用致命性自主武器系統。在聯合國之外,2013年發起了 "停止殺手機器人 "運動,目標是完全禁止致命性自主武器系統。

聯合國秘書長安東尼奧-古特雷斯強調了人工智能和其他數字技術的風險和機遇(聯合國2020),并呼吁禁止致命性自主武器系統(古特雷斯2021)。不幸的是,聯合國成員國,特別是聯合國安理會的觀點存在分歧,一些國家認為監管是民族國家的專屬權限,而另一些國家則側重于更多部門的做法。除了人工智能的武器化,在圍繞人權、算法偏見、監控(公共和私人)以及國家支持的或國家支持的網絡攻擊等問題上也存在廣泛的分歧。

對于世界上的主要軍事大國來說,缺乏互信仍然是追求人工智能集體軍備控制協議的一個重大障礙。即使相當多的國家支持提供新的具有法律約束力的條約,禁止開發和使用致命性自主武器,但世界上大多數主要軍事大國都認為人工智能的武器化具有重大價值。鑒于這些分歧,致命性自主武器系統的多邊管理將需要建立信任措施,作為打開政治僵局的軍控進程的手段。

走向平凡的監管 也許制定管理人工智能的政策和監管制度的最具挑戰性的方面是難以準確地確定這些制度應該監管什么。與生物和化學武器不同,人工智能大多是軟件。事實上,人工智能是一個移動的目標:40年前被定義為人工智能的東西,今天只是傳統的軟件。

人工智能是一個模糊的技術領域,影響著廣泛的商業和軍事應用。例如,機器學習算法是搜索引擎(算法排名)、軍用無人機(機器人技術和決策)和網絡安全軟件(算法優化)的成分。但它們也支撐著平凡的行業,甚至兒童玩具(語義分析、視覺分析和機器人技術)、金融軟件和社交媒體網絡(趨勢分析和預測分析)。

與屬于這些平凡的監管領域的產品和流程一樣,人工智能技術不是被設計成最終實體,而是被設計成在廣泛的產品、服務和系統中使用的成分或組件。例如,一個 "殺手機器人 "不是一種特定技術的結果。相反,它是人工智能 "成分 "重新組合的結果,其中許多成分也被用來檢測癌癥或增加駕駛者的安全。

雖然人們傾向于使用一個專門的不擴散鏡頭來監管人工智能,但雙重用途的挑戰仍然存在。與核擴散或轉基因病原體不同,人工智能不是一種特定的技術。相反,它更類似于一個材料或軟件成分的集合。與大多數二元的核不擴散鏡頭相比,可以在食品監管中找到更相關(盡管不那么令人興奮)的監管模式的靈感,特別是食品安全和材料標準(Araya和Nieto-Gómez 2020)。

5.2 治理人工智能

鑒于對人工智能進行全面監管存在重大的概念和政治障礙,治理仍然是一項艱巨的挑戰。一方面,如果我們把人工智能理解為一系列復制人類活動的技術實踐,那么就根本沒有一個單一的領域可以監管。相反,人工智能的治理幾乎重疊了每一種使用計算來執行任務的產品或服務。另一方面,如果我們將人工智能理解為大幅改變人民和國家之間權力平衡的基礎,那么我們就會面臨重大挑戰。

幸運的是,這并不是民族國家第一次面臨影響全球安全的新技術。在第二次世界大戰之后,世界上最強大的國家--美國、英國、蘇聯、中國、法國、德國和日本--對核武器、化學制劑和生物戰的全球治理進行監督。當時和現在一樣,世界必須采取集體行動來治理人工智能。

與冷戰時期一樣,包括定期對話、科學合作和分享學術成果在內的建立信任措施可以幫助減少地緣政治的緊張。為管理軍事人工智能帶來的風險制定一個共同的詞匯,可以為隨著時間的推移制定更有力的人工智能多邊條約提供基礎。

在這方面,經濟合作與發展組織(OECD)已經公布了其關于人工智能的建議,作為一套政府間標準,于2020年2月啟動了人工智能政策觀察站。加拿大和法國政府還與經合組織一起領導了一個全球人工智能伙伴關系(GPAI),旨在成為一個人工智能政策的國際論壇。GPAI的成員專注于以 "人權、包容、多樣性、創新和經濟增長原則 "為基礎的負責任的人工智能發展。

除了GPAI,一些歐洲國家已經呼吁歐盟成員開始一個關于負責任地使用新技術的戰略進程--特別是人工智能。美國已經邀請盟國討論人工智能的道德使用問題(JAIC公共事務2020)。北約已經啟動了一個進程,鼓勵成員國就一系列道德原則和具有軍事用途的電子技術關鍵領域的國際軍備控制議程達成一致(Christie 2020;NATO 2020)。認識到EDT對全球安全的深遠影響,北約于2019年12月推出了EDT路線圖(北約科技組織2020)。

從整體上看,二十一世紀需要進行正式監管。從長遠來看,這很可能包括尋求與禁止生物武器、化學武器和殺傷人員地雷一樣的人工智能條約。然而,鑒于人工智能的創新速度和世界超級大國之間日益擴大的分歧,就人工智能的全球治理進行談判的機會之窗可能正在關閉。

圖6:人工智能的全球治理

6 結論:走向國家創新體系

即使在工業時代即將結束的時候,技術創新也在加速進行(Araya 2020)。自從大約80年前誕生以來,人工智能已經從一個神秘的學術領域發展成為社會和經濟轉型的強大驅動力。人工智能在戰爭中的整合被一些軍事分析家描述為一個不斷發展的 "戰場奇點"(Kania 2017)。在 "技術奇點"(Schulze-Makuch 2020)的概念基礎上,人們越來越多地猜測,人工智能和機器人將超越人類的能力,有效地應對算法驅動的戰爭。

人工智能和其他EDT的演變正在將先進的數據、算法和計算能力匯集起來,以 "認知 "軍事技術。在這種新環境下,現代軍隊正變得嚴重依賴提供安全、及時和準確數據的網絡。數據已經成為數字系統的 "作戰用氣 "和驅動 "智能機器 "的原料。隨著數據重要性的增加,在廣闊的數字領域的對抗性競爭也在增加。事實上,數據的真正價值在于其推動創新的數量和質量。

正如北約關于EDT的年度報告(北約新興和顛覆性技術咨詢小組2020)明確指出,要想跟上技術變革的步伐,就必須在技術的開發、實驗和應用方面保持靈活性和快速迭代。整個CAF的創新能力必須是一個更廣泛的創新生態系統的一部分,該系統有效地整合了公共和私人生態系統的研究和實施。這包括與加拿大工業界合作利用雙重用途的GPT的明確目標,以便利用已經存在的技術。

這種多領域的合作在歷史上被定義為國家創新體系(NSI)(OECD 1997)。事實上,NSI政策和規劃可以采取多種形式,從松散的協調到高度整合的伙伴關系。在美國(Atkinson 2020)、中國(Song 2013)和歐洲(Wirkierman, Ciarli and Savona 2018)應用的各種NSI規劃模式表明,在最大化政府-產業-研究伙伴關系方面可以找到大量的經濟和社會回報。政府應通過稅收優惠、采購和研究資金以及戰略規劃,努力建設加拿大的技術能力。但它不能單獨行動。

國家創新必然取決于機構參與者在一個共享的生態系統中進行合作。出于這個原因,一個協調的加拿大國家統計局將需要在推動長期創新的過程中,人們和機構之間的技術和信息的相互流動。鑒于EDT的許多創新是由工業界主導的,推進公私伙伴關系對加拿大軍隊的發展至關重要。對于國防部/加拿大空軍來說,要推進適合數字時代的軍隊,政府、工業界和學術界將需要以更綜合的方式進行合作。

建立一個強大的加拿大創新生態系統將意味著更廣泛的公私合作和持續的知識和資源的再培訓、培訓和孵化。盡管開發尖端人工智能需要人力資本投資,但大多數人工智能應用現在可以通過開源許可獲得,即使核心學習算法可以在公共平臺和整個學術生態系統中獲得。這種 "開放一切 "環境的影響是對封閉的等級制度和深思熟慮的官方機構的實質性挑戰。

政府程序和規劃將需要適應加速的創新生命周期,以配合EDT積極的淘汰周期。除了與網絡技術相關的巨大的不對稱安全風險外,向數據驅動型軍隊的轉變將需要大量關注數據安全和數據治理。與進行傳統的國家間沖突所需的大量成本和規劃不同,網絡攻擊的破壞性影響可以由僅有一臺個人電腦的小團體對關鍵基礎設施發動。鑒于未來不斷增加的挑戰,大型官僚機構(公司、政府、學術和軍事)的設計變化是不可避免的。

除了對新的和不同的知識、資源和專長的需求,加拿大政府和加拿大軍方將需要平衡硬實力和不斷變化的地緣政治格局的需求。在美國占主導地位的時代之外,二十一世紀正被一個以技術民族主義和后布雷頓森林體系為特征的多極體系所塑造。面對一個快速發展的數字時代,國際合作將是確保和平與安全的關鍵。信息共享、專家會議和多邊對話可以幫助世界各民族國家及其軍隊更好地了解彼此的能力和意圖。作為一個全球中等國家,加拿大可以成為推動這一努力的主要伙伴。

國際治理創新中心(CIGI)

國際治理創新中心(CIGI)是一個獨立的、無黨派的智囊團,其經同行評議的研究和可信的分析影響著政策制定者的創新。其全球多學科研究人員網絡和戰略伙伴關系為數字時代提供政策解決方案,目標只有一個:改善各地人民的生活。CIGI總部設在加拿大滑鐵盧,得到了加拿大政府、安大略省政府和創始人吉姆-巴爾西利的支持。

付費5元查看完整內容

摘要

在 2016 年人工智能促進協會 (AI) 發表的講話中,當時的協會主席呼吁 AI 為了魯棒性而犧牲一些最優性 [1]。對于 AI,魯棒性描述了系統在各種情況下保持其性能水平的能力 [5]。通過機器學習開發和驗證高質量模型面臨著特殊的挑戰。一般公認的大多數人工智能需要魯棒的原因包括:

? 訓練和運行數據的不確定性;

? 輸入來自不同訓練集,但在統計上或語義上與訓練群體一致;

? 訓練群體之外的輸入;

? 用有限的數據學習;

? 面對新穎的情況,需要不同于學習策略和分類器的開發方式;

? 對抗性行動。

此外,對于人類 AI 協作團隊,人類必須適當地信任 AI 系統;因此,透明度也可以被視為魯棒性問題。混合戰爭為人工智能的魯棒性帶來了額外的挑戰。決策的不同性質和必要的決策支持擴大了所需模型的范圍。在不同條件下開發的模型組合使用會影響可以對復合系統質量做出的統計聲明。

如果我們需要魯棒性,我們必須考慮它的度量。對與上述條件相關的魯棒性研究的調查,提供了一系列可能的措施。北約聯盟實施的混合戰爭需要了解所使用能力的魯棒性。在本文中,我們從當前文獻中調查了魯棒性度量的前景。在這樣做的過程中,我們有助于了解聯盟內部各種模型和軟件的組合。

1 引言

現代混合戰爭不僅包括傳統戰爭,還包括政治和網絡戰爭(以及其他),其越來越依賴人工智能 (AI) 在日益復雜的環境中執行任務。許多現代 AI 實現都是使用機器學習 (ML) 技術構建的,使用數據旨在來表示預期的情況。這意味著:

? 大多數當前的 AI 構建塊都是為特定目的而構建的,雖然旨在泛化以支持現實世界的輸入,但并不總是能夠處理不熟悉的情況(輸入)。它們是“黑盒”設計,可以實時或近乎實時地執行復雜的決策或環境解釋(分類),但通常只能為已知輸入產生可靠的答案。

? 如果提供以前從未見過的信息或通過人類可能察覺不到的攻擊,人工智能構建塊通常很容易被愚弄和混淆。

從本質上講,我們正在處理的是一個易受影響的問題:現代 ML 解決方案,實際上還有其他 AI 解決方案,本質上很容易被他們不熟悉的數據所欺騙 [2] [3]。例如,這使得依賴于它們的指揮和控制 (C2) 決策樹邏輯容易發生故障。當然,我們想知道如何通過確保利用人工智能的 C2 對故障具有魯棒性來保護自己免受此類漏洞的影響。

總結:

? 許多機器學習方法天生就容易受到環境變化和攻擊的影響;

? 因此,依賴機器學習(主要基于神經網絡(NN))的人工智能系統本質上是脆弱的;

? 因此,必須使依賴人工智能的混合戰爭變得強大。

1.1 魯棒性

ML 方法的訓練和運行都基于以下幾個方面:(1)輸入數據,(2)內部結構,以及(3)學習算法。機器學習的脆弱性可能是由許多因素造成的。出于本文的目的,我們假設網絡內部結構是靜態的、足夠強大且安全的,雖然還有許多其他因素,但我們考慮了兩個主要方面:(a) 訓練數據不佳,(b) 以前未使用的業務數據。因此,我們的重點是 ML 解決方案的輸入數據。

天真地,我們假設 ML 方法(尤其是 NN)是使用高質量(“好”)輸入數據訓練的:在運行期間可能期望 選擇性表示AI 處理的輸入范圍。這個想法是,在運行過程中,人工智能可以為運行數據產生“正確”的決策,這些決策與訓練它的數據相似。換句話說,人工智能必須能夠進行插值,并且在某種程度上還可以推斷其原理。

在最壞的情況下,糟糕的訓練數據會導致訓練出不符合目的的機器學習模型,或者在最好的情況下會導致生成“愚蠢”的模型;也就是說,只能做出具有高度不確定性的模糊決定。然而,在數據質量范圍的另一端也存在危險,因為雖然“好的”訓練數據可能會產生一個可以做出非常準確的決策的模型,但它可能只能使用窄范圍的輸入數據來做到這一點。當然,我們希望機器學習既能滿足其性能要求,又能適應它最初沒有訓練過的新環境;即能夠處理新穎事物場景。

因此,ML 的一個重要目標是構建一種泛化良好的能力。在狹窄的應用程序中,我們希望確保在環境樣本上訓練過的模型能夠像宣傳的那樣在整個環境中工作。最終,我們希望人工智能面向復雜環境的處理能力,可針對所有現實,或者至少是人類感知的所有現實。從某種意義上說,這完全涵蓋了所有情況,沒有新的情況。如果我們觀察牛頓宇宙并且擁有巨大內存量,那么所有情況都可以從當前數據中預測出來。但是,由于我們對宇宙建模的能力受到嚴重限制,因此可能會經常出現新穎情況。在不可能為復雜環境訓練模型的前提下,當這些模型被引入現實世界時,模型應該能應對各種突發情況。

因此,表征模型的魯棒性具有挑戰性,需要考慮模型的不同方面的魯棒性。雖然有許多可用的魯棒性定義,但應區分用于傳統軟件魯棒性的定義,例如 IEEE 24765[4] 的定義,以及與 AI 模型相關的定義。本文中使用 ISO CD22989 [5] 中提供的定義:

魯棒性是“系統在任何情況下保持其性能水平的能力。魯棒性屬性表明系統有能力(或無能力)在新數據上具有與訓練它的數據或典型運行數據相當的性能。”

1.1.1 魯棒性度量

在定義了術語“魯棒性”之后,由于本文的重點是魯棒性度量,我們現在將定義術語“度量”,應用于魯棒性。為了在編寫定義時為我們的思考過程提供信息,確定度量魯棒性可能具有的各種目的以及利益相關者可能是誰,是有用的。由于魯棒性度量的目的和要求將取決于 ML 模型的生命周期階段,因此我們分析了生命周期階段的目的。

盡管許多 ML 模型將基于 NN,但我們的分析擴展到涵蓋 ML 類型和架構的不同變體,并指出 ML 的主要變體是:NN、決策樹和強化學習。

在 ML 模型設計和開發階段,開發人員將試驗模型設計并調整模型的架構和參數,以優化模型的性能。在這個階段,魯棒性度量的目的既可以是提供一種在進行這些更改時度量魯棒性改進的方法,也可以描述模型如何表現魯棒性。此外,不同模型的開發人員之間商定的度量標準將允許在模型設計之間進行可靠的比較。

在系統設計階段,在選擇現成的ML模型納入整個系統時,度量魯棒性將通過提供一種方法來比較一個模型與另一個模型的魯棒性水平和性質,從而為系統設計者提供關于模型選擇的決策信息。

在部署之前,安全從業人員將使用魯棒性度量來為包含 ML 的系統的安全風險評估提供信息。具體來說,該度量將為 ML 模型的漏洞分析提供信息,若該模型具有低魯棒性,則表示攻擊者可以利用漏洞。

最后,在部署階段,從單個 ML 組件的魯棒性度量中得出的整體系統魯棒性度量,將支持最終用戶對系統輸出或行為的信任和信心。

鑒于上述使用范圍和相關利益者,出于本文的目的,我們將有意保留術語“度量”的寬泛定義。我們的定義超出了純粹的測量或量化行為,包括我們如何描述或表征 ML 在任何特定環境中的魯棒性。因此,我們將本文的其余部分基于以下定義:

魯棒性度量是 ML 模型在其生命周期中可能面臨的各種挑戰的魯棒性的度量或表征。特定度量的精確性質將取決于 ML 模型的類型、模型旨在完成的任務、以及模型所處生命周期的階段。

1.2 方法論和論文結構

在考慮魯棒性度量時,我們通過提出“面對……什么的魯棒性?”這個問題開始分析。這生成了一個 ML 模型可能面臨的情況列表,在這些情況下,它們的魯棒性可能會受到挑戰。我們稱這些為“面對”條件。

? 訓練和運行數據的不確定性;

? 不同于訓練集的輸入,但在統計上或語義上與訓練群體一致;

? 訓練群體之外的輸入;

? 用有限的數據學習;

? 新穎的情況,不同于學習策略和分類器的開發方式;

? 對抗性行動;

我們的文獻檢索提供了許多關于魯棒性的先前研究,對于每一項,我們都試圖確定它們適合哪些類別。雖然這并不總是顯而易見的,但它似乎代表了一種構建分析合乎邏輯的方式。因此,在以下段落中,我們嘗試以這種方式對文獻檢索中的單個研究進行分類。

對于每個類別,我們描述了每個魯棒性挑戰的性質和細節,然后是用于度量魯棒性的度量指標類型。盡管本文中對魯棒性的審查不包括混合戰爭示例,但所討論的內容適用于混合戰爭方法。

2 挑戰和度量方法

2.1 訓練和運行數據的不確定性

能夠處理訓練和運行數據中的不確定性對于 AI 來說至關重要,它代表了當前 ML 系統的關鍵組成部分,尤其是那些在軍事領域等危急情況下使用的系統。

2.1.1 挑戰

在 ML 中,目標是在給定的成本函數情況下,學習最適合訓練數據的模型參數。然后,部署該模型以獲取對新數據和未見過數據的預測。作為訓練過程的結果,任何學習模型都帶有不確定性,因為它的泛化能力必然基于歸納過程,即用數據生成過程的一般模型替換特定觀察[6]。盡管研究界做出了許多努力,但沒有任何現有的 ML 模型被證明是正確的,因為任何可能的實驗都嚴重依賴于假設,因此當受到以前未見的輸入數據影響時,每個當前的 ML 模型輸出仍然是不確定的。

不確定性在統計領域有著悠久的歷史,從一開始,它就經常被聯系起來并被視為一個類似于標準概率和概率預測的概念。然而,在最近,由于當前對 ML 的炒作以及如今基于此類解決方案的系統正在控制我們的日常生活,研究界對此類概念的興趣越來越大。這首先是出于安全要求,為此需要新的方法來應對。

在現有文獻中討論 ML 不確定性的不同方法中,可以根據所考慮的不確定性類型對它們進行聚類。當前的大多數作品都解決了偶然或認知不確定性。

2.1.1.1 偶然和認知不確定性

對 ML 中的不確定性進行建模的傳統方法是應用概率論。這種概率建模通常處理單個概率分布,因此忽略了區分偶然不確定性和認知不確定性的重要性 [7] [8]。

偶然不確定性:我們可以將其稱為統計不確定性,它源于實驗結果可變性的隨機性概念。簡而言之,當提到偶然不確定性時,我們隱含地指的是即使存在任何其他信息源也無法減少的不確定性。讓我們通過一個非常基本的例子來描述這一點:假設我們想要模擬拋硬幣的概率結果。我們可以定義一個概率模型,該模型能夠提供頭部或尾部的概率,但不能提供保證的結果。這種不確定性定義了總不確定性的不能復歸的部分。

認知不確定性:也稱為系統不確定性,這是由無知/缺乏知識決定的總不確定性的一部分。這種不確定性是由于機器學習系統的認知狀態造成的,并且可以通過附加信息來減少。例如,假設我們有一個 ML 模型學習一門新語言,并且給它一個新詞,它應該猜測它是指頭還是尾。智能體對正確答案的不確定性與預測拋硬幣時一樣不確定,但是通過在情況中包含額外信息(即提供同義詞或解釋單詞的正確含義),我們可以消除任何不確定性在答案中。因此應該很清楚,與偶然性相反,認知不確定性定義了總不確定性的可還原部分。

既然我們已經定義了偶然不確定性和認知不確定性,我們將考慮有監督的 ML 算法以及這兩種不同類型的不確定性如何在 ML 中表示。

在監督學習環境中,我們可以訪問由 n 個元組 (xi,yi) 組成的訓練集 D = {(x1,y1),…,(xn,yn)},其中 xi (屬于實例空間 X)是包含特征的第 i 個樣本 (即,測量值),而 yi 是來自可能結果集 Y 的相關目標變量。

在這種情況下,ML 算法具有三個不確定性來源:

? 偶然不確定性:通常,X 和 Y 之間的相關性不是確定性的。因此,對于給定的輸入 xi,我們可以有多個可能的結果。即使存在完整的信息,實際結果 yi 也存在不確定性。

? 模型不確定性:為解決給定問題而選擇的模型可能遠非最適合該任務的模型。這是由于模型的正確性和假設的正確性存在不確定性。

? 近似不確定性:通過優化過程學習的模型參數只是對真實假設的估計。這種估計是由于在學習過程中使用的數據缺乏保真度。

模型和近似不確定性都代表認知不確定性。

應該注意的是,對于 ML 算法,偶然不確定性和認知不確定性在很大程度上取決于環境。例如,通過允許學習過程改變最初定義的場景的可能性,可以減少偶然不確定性以支持認知不確定性;也就是說,原始環境中的偶然不確定性并沒有改變,而是通過改變環境而改變(類似于在擲硬幣的例子中加權硬幣的一側)。相反,如果我們考慮一個固定的初始場景,我們知道認知不確定性(即缺乏 ML 算法知識)取決于學習過程中使用的數據量(多少觀察)。由于訓練樣本的數量趨于無窮大,機器學習系統能夠完全降低逼近不確定性。

2.1.2 表示不確定性的機器學習方法

表示不確定性的不同 ML 方法具有不同的能力,可以根據以下內容進行聚類: (i) 表示不確定性的方式; (ii) 如果處理兩種類型的不確定性(偶然性和認知性)中的兩種或僅一種; (iii) 如果他們提供了任何可用于提供不確定性數量粗略估計的解決方案。

2.1.2.1 高斯過程

高斯過程 (GP) [9] 是一種用于監督學習的通用建模工具。它們可用于泛化多元隨機變量的貝葉斯推理和函數推理。在分類的情況下,GP 具有離散的結果,不確定性定義的困難在于知識的表示,然后將其識別為模型的認知不確定性,就像在貝葉斯方法中一樣。在回歸的情況下,可以將偶然不確定性(即誤差項的方差)與認知不確定性區分開來。

2.1.2.2 最大似然估計和Fisher信息數

在機器學習中,最大似然估計原理起著關鍵作用。事實上,如果一個模型可以“非常接近”似然函數的最大值,這意味著數據的微小變化可能對估計的影響有限。如果似然函數是平滑的,它可能是一個很好的指標,表明估計存在高度的不確定性,這可能是由于許多參數的配置具有相似的似然性。

在 ML 中,我們經常利用 Fisher 矩陣 [10] 來表示認知不確定性的數值 [11]。

2.1.2.3 生成模型

生成模型可用于量化認知不確定性。考慮到這些方法的概率性質,這些方法旨在模擬數據分布的密度,通過確定給定數據是否位于高密度或低密度區域,這些模型隱含地提供有關認知不確定性的信息。這一類別中最相關的工作是基于核密度估計或高斯混合,最近在深度自動編碼器方面取得了一些進展[12]。

密度估計是處理異常和異常值檢測方法的關鍵要素,后者只是一個分類問題,當樣本位于低密度區域時,它被認為是分布之外的問題。這樣的成果反而捕捉了偶然的不確定性。

一般來說,生成模型解決了一個非常具有挑戰性的問題,需要大量數據才能正常工作,并且通常具有很高的不確定性。

2.1.2.4 深度神經網絡

人工深度神經網絡 (DNN) 本質上是一個概率分類器,我們可以將訓練 DNN 的過程定義為執行最大似然推理。這導致模型能夠生成給定輸入數據的概率估計,但不能提供有關其概率置信度的詳細信息:捕獲了偶然的不確定性,而沒有捕獲認知。盡管如此,后者通常被稱為模型參數的不確定性。在文獻中,最近有一些作品 [13] [14] 試圖通過將貝葉斯擴展引入 DNN 來模擬這種認知不確定性。

2.1.2.5 模型集成

模型集成(Model Ensembles )模型類的常見示例是 bagging 或 boosting。這種方法非常受歡迎,因為它們可以通過產生一組預測而不是單個假設來顯著提高點預測的準確性[15]。可以包含在此類中的最相關的工作是隨機森林模型 [16]。此類別中的方法主要關注整體不確定性的任意部分。

2.1.2.6 Credal 集和分類器

Credal 集(Credal Sets)是一組概率分布,它是貝葉斯推理推廣的基礎,其中每個單一的先驗分布都被一個候選先驗的Credal 集所取代。作品 [17] [18] 研究如何定義Credal 集的不確定性以及相關表示,定義了存在于Credal 集中的兩種類型的不確定性:由于隨機性導致的“沖突”和“非特異性”。這些直接對應于任意和認知的不確定性;通常使用 Hartley 函數 [19] 作為標準不確定性度量; [20] 還定義了一種工具,可用于評估 ML 系統在面對訓練和操作數據的不確定性時的魯棒性。如果我們知道給定隨機變量的未知值在給定的有限集中,Hartley 函數可用于評估不確定性。此外,已經通過類似 Hartley [80] 和廣義 Hartley [81] 措施提出了對無限集的擴展。

2.2 與訓練集不同但在統計上或語義上與訓練群體一致的輸入

在運行期間,分類器為輸入數據的每個樣本分配一個類標簽。考慮到上述魯棒性的定義,類內可變性,即分配到同一類的所有樣本之間的可能變化,隱含地包含在用于學習分類器的訓練數據集中。

2.2.1 對語義數據變體的魯棒性

使用更具建設性的方法來定義魯棒性有助于更好地模擬用戶對分類器性能的期望。為此,如果分類器對于輸入數據的所有有意義的變體是不變的,我們將暫時稱其為魯棒分類器。顯然,所有有意義的變體的集合取決于應用場景,這通常很難描述。然而,對于許多分類問題,這種有意義的變體可以分為兩類:(i)物理修改(例如,噪聲添加、混合失真、裁剪、旋轉、縮放)和(ii) 輸入樣本的語義修改(例如發音的不同方式)。圖 1(1) 說明了手寫數字分類示例的這兩類可能變體。我們考慮書寫數字“9”的不同變體。而(如圖 1 所示)噪聲添加 (a) 和混雜失真 (b) 可被視為屬于第一類,第三類 (c) 在數字“9”上添加一個小弧線是有意義的(句法)變體,特別是不同國家的當地文化,它使符號(“九”)的語義保持不變。

圖 1 (1) 手寫數字 9 的可能數據變體,(2) 使用變分自動編碼器 (VAE) 重建的數字 3、8、9 的空間,該編碼器對來自 MNIST 語料庫的各個數字進行訓練,(3) 對應的潛在空間表示顏色編碼數字類型。

2.2.1.1 物理魯棒性

AI/ML 相對于第一類變體的魯棒性,尚未得到令人滿意的解決,但近年來已在相當程度上得到解決。在許多涉及對第一類變體的魯棒性的出版物中,基礎數據樣本被建模為歐幾里得向量空間中的向量。然后通過將范數有界向量添加到數據樣本來對失真進行建模。這里,通常使用 Lebesguetype 范數(lp norms)(特別是 l1、l2 和 l∞)。在一篇被廣泛引用的論文 [20] 中表明,這種 l2 范數有界的“對抗性攻擊”可用于在基于神經網絡的分類器中導致錯誤分類。隨后,在對抗性攻擊和相應的保護方法領域做了很多工作(本文稍后將進一步詳細討論)。結果表明,在許多情況下,攻擊很難檢測到,并且對于當時最先進的方法,可以繞過檢測 [21]。顯然,在這種情況下的魯棒性需要保護免受對抗性攻擊。在這種對抗性攻擊環境中定義魯棒性的許多方法可以在一個通用框架下捕獲,如 [22] 所示。

2.2.1.2 語義魯棒性

第二類,數據樣本的語義上有意義的變體,導致了迄今為止很大程度上尚未解決的重大挑戰。相應地,在[68]中,對所謂的感知擾動的魯棒性被稱為一個開放的研究問題。盡管現代基于 AI 的分類器,特別是深度神經網絡,在眾所周知的公共分類挑戰上取得了破紀錄的改進,但相比之下,它們的判別性自然不會導致分類結果的易解釋性。近年來,整個研究分支都集中在可解釋的 AI 上,即,研究通過給定分類器對映射到相同類別的樣本集進行形式化甚至語義化的方法。

理解分類器語義的一個重要方法是將成功的判別分類器與生成模型結合起來。生成方法的優點是可以使用這些模型生成來自原始(樣本)空間的示例。一種結合分類器和生成模型的成功方法是生成對抗網絡(GAN)[24]。

也可以適用于分類的生成模型是(變分)自動編碼器(VAE)[25]。自動編碼器的基本思想是通過訓練一個深度神經網絡來學習原始數據的緊湊表示,該網絡在兩端具有全維(相對于原始數據)層,中間有一個稀疏的“瓶頸”層。圖 1 (2) 和 (3) 說明了如何使用 VAE 來“理解”網絡學習的類別:(2) 顯示了一組具有代表性的重構,這些重構是由經過訓練的 VAE 的生成部分獲得的,用于對 MNIST 數據集的數字“3”、“8”和“9”進行分類。因此,在某種意義上,(2)總結了分類器準備識別的內容。在圖 1 的右側,(3)顯示了從 VAE 的分類器分支獲得的輸入樣本(即 MNIST 數字)的潛在空間表示。顏色對三個數字進行編碼。潛在空間點和重構樣本之間的對應關系如箭頭所示。在藍色中,繪制了將 9 的流形與其他數字分開的曲線,以指示學習的分類邊界。考慮到這個例子,我們注意到上述變體 (c) 在重建部分 (2) 中沒有很好地表示 - 考慮到語義庫受到北美書寫數字風格的偏見,這并不奇怪。因此,為了使分類器對變化 (c) 具有魯棒性,必須應用額外的措施,例如增加或添加到訓練數據中。

基于生成模型,Buzhinsky 等人[26] 提出了幾個指標來衡量分類器對“自然”對抗樣本的魯棒性。為此,他們提出了一組在潛在空間中工作的六個性能指標,并隨后顯示了上述經典對抗魯棒性和“潛在對抗魯棒性”之間的聯系,即對潛在空間擾動的魯棒性。后者的有趣之處在于,幾個示例的潛在空間擾動已被證明與原始樣本空間中語義上有意義的變體相對應。

我們注意到經典的對抗魯棒性已經可以用于獲得關于小范數有界擾動的人工智能分類器的“認證”魯棒性。然而,語義魯棒性更難以形式化,并且與正確理解和建模目標類密切相關。為此,生成模型是一個重要的工具。諸如投影信念網絡 (PBN) 等新概念,即基于前饋神經網絡結構的分層生成模型,具有易于處理的似然函數的優勢,在該領域非常有前景 [27]。

最近的一項工作 [75] 涉及一種稱為復雜事件處理的 ML 形式,其中融合了來自多個傳感器的具有空間和時間關系的多模態輸入,以允許深度學習模型推斷特定類型的事件,例如槍聲或爆炸。此類事件被稱為“復雜事件”。因此,魯棒性的概念并不適用于模型本身,而是適用于機器學習功能所包含的整個組件系統。該研究聲稱,(a)人類邏輯在基于模式和序列預定義復雜事件中與(b)來自單個傳感器的深度學習推斷相結合,提高了系統對錯誤分類的魯棒性。

2.3 訓練群體之外的輸入

在 [78]中,Ashmore 等人識別一組關于輸入域及其子集的定義:I 輸入域空間——模型可以接受的輸入集; O,運行域空間——模型在預期運行域中使用時可能預期接收的一組輸入; F,故障域空間——如果系統其他地方出現故障,模型可能接收到的一組輸入; A,對抗域空間——模型在被對手攻擊時可能收到的一組輸入;其中 O、F 和 A 都是 I 的子集。這些定義不僅在考慮訓練群體之外的輸入(可以從 O、F 或 A 中得出)時很有用,而且在推理模型的輸入時更普遍。

小的、像素空間的擾動,人類可能察覺不到,通常使用 lp 范數測量擾動幅度,是評估模型魯棒性的合理方法(將在 2.6 節后面討論);特別是在對抗性攻擊的可能性更高的混合戰爭領域。然而,在考慮評估模型的魯棒性時,這些小擾動不一定適用于 Ashmore 的攻擊域空間 (A) 之外。最近,獨立的工作 [79] [80] 已經開始研究擾動模型的輸入,使其遠離經常討論和研究的小擾動方法,而不是生成被認為與環境相關且人類可區分的擾動:這些擾動看起來會在輸入上引入純粹、模糊或朦朧等(這可以合理地代表來自 F 或 O 的輸入)。

此外,在 [80] 中,作者建議對語義相關的圖像引入有意義的擾動,但這些擾動可能尚未包含在模型訓練集中;例如,例如,將一群鵝引入一個場景,在這個場景中,模型正在識別停車場中的車輛數量。雖然最后一類有意義的擾動顯然是 Ashmore 的輸入域空間 (I) 的一部分,但可以說,如果訓練數據集不足,這些語義相關的擾動也可以被視為運行域空間 (O) 的一部分。有趣的是,[80] 還發現,當增加系統對小擾動的魯棒性時,模型在處理語義上有意義的擾動時可能變得不那么魯棒,因此考慮評估模型對這兩種擾動類型的魯棒性顯然很重要。

為了評估模型對這種語義上有意義或環境相關的擾動的魯棒程度,[80] 的作者提出了一種用于引入擾動的滴定方法,這樣可以逐步測量在模型的準確性變得可疑之前引入擾動(例如,通過其置信度或已知基礎事實的分類變化)。當考慮模型在預期的運行域空間中的應用時,這提供了一個進一步的度量標準來評估模型的魯棒性。

2.4 用有限的數據學習

眾所周知,使用深度學習需要大量數據來學習復雜的任務。如果訓練數據太小,模型會過擬合,泛化能力很差。不幸的是,獲取高質量的訓練數據既困難又昂貴,因為它通常需要人工標記。例如,細粒度的 Cityscapes 數據集平均需要 1.5 小時來標記每個樣本 [28]。此外,與為學術目的(概念驗證、評估、基準測試等)開發的數據集不同,軍事數據集還必須包含代表在現實世界可能發生但難以觀察甚至預測的大量邊緣情況的數據。如果沒有這樣的訓練數據,在可能最重要的時候,或者在條件因敵對行動而意外改變的時候,軍事模型的實際價值將是有限的。

軍事應用的數據采集挑戰是重大的,但也是必須解決的,以確保模型在現實世界中部署時是強大的。幸運的是,許多轉移學習技術[29][30][31]已經被提出,這些技術利用了深度神經網絡可以學習到可轉移的一般特征,因此,可以被其他類似的任務重新使用[32]。預訓練與微調相結合,通常用于利用少量/有限的數據進行學習,同時避免昂貴的大規模模型(如GPT-3)的再訓練,這些模型可能需要專門的硬件來學習。其主要思想是:

1.將預訓練的源模型的一部分復制到目標模型中;

2.向目標模型添加一個或多個隨機初始化的(未訓練的)層,使最后一層與目標的標簽空間相匹配;

3.使用標記的目標域數據訓練模型。

然而,這些技術不能用于軍事數據來自特殊傳感器(如激光雷達、紅外、合成孔徑雷達和高光譜)的情況,這些傳感器很少有預先訓練好的模型,或者過于敏感,甚至在盟友之間也不能共享。

無監督領域適應是另一種轉移學習技術,雖然它在淺層學習中已經被研究了幾十年,但最近在深度學習中也受到了很多關注[33]。使用這種技術,來自源域的標記訓練數據可以用來訓練一個使用目標域的無監督數據模型。該方法假設源域的標記數據成本低且容易獲得。

從軍事角度來看,這個想法很有吸引力,因為源數據有可能是合成的。也就是說,已經存在的模擬器或其他生成模型有可能被改編為不僅能生成完美標記的源數據,還能生成代表邊緣情況的數據,否則很難甚至不可能獲得這些數據。基于模擬的方法將完全消除人類的標記工作,否則可能會導致不正確、有偏見和不完整的數據集,這些數據集在訓練時也會轉移到模型中。使用無監督領域適應性來彌補 "模擬到真實"的差距(sim2real)正在積極進行[34][35],使用各種技術,其中許多依賴于使用對抗性方法,如領域損失函數[36][37]和生成性對抗網絡(GANs)[38][39]。

2.5 新情況,不同于學習策略和分類器的開發方式

為了在復雜環境中發揮作用,人工智能必須表現出對新事物的魯棒性。DeepMind[41]的演示表明,ML可以被用來開發策略,從而在僵硬的游戲中實現超人的發揮。圍棋“Go”這個游戲提供了一個復雜的環境,超過了我們對游戲可能狀態的存儲極限,因此提供了前面討論的關于我們對牛頓宇宙建模的極限的情況。然而,如果改變了游戲規則,生成的代理就會變得很脆弱或者完全失敗。在[42]中,這種類型的結果在一個更簡單的環境中被證明,實驗闡明不同的變化如何影響代理的魯棒性。

但新穎性不僅僅是數據點不包含在 ML 訓練集中的情況。為了將新穎性的研究結合起來,[43] 提出了一個描述新穎性的框架。圖 2 說明了人們如何以一種可以同時衡量新穎性和代理反應的方式看待新穎性。這種新穎性觀點的關鍵在于,可以將新穎性考慮到與世界有關的方面以及與代理人的經驗有關的方面。同樣,對代理任務有影響的新穎性,對魯棒性的影響不同于對任務沒有影響的新穎性。這也是 Chao [42] 中證明的一個發現。

圖 2. 考慮新穎性的框架。

2.5.1 DARPA SAIL-ON 計劃

DARPA SAIL-ON 計劃 [40] 中采用的一種基于游戲的新穎性實驗方法。 DARPA SAIL-ON 計劃假設智能體具有以下四個要素:

? 一種性能要素,它使用已知的專業知識通過感知、推理、規劃、控制機制來完成任務并實現目標(例如,尋找和收集具有所需特征的水下物體);

? 一個監控元素,將觀察結果與期望值進行比較,以檢測環境(例如,聲納不可靠、不熟悉的捕食者)和代理自身行為(例如,車輛向右轉向)中的異常情況;

? 一種診斷要素,可定位專業問題,生成有關原因(例如,非反射表面、橫流、未對準的螺旋槳)、評估備選方案并從中進行選擇;

? 修復被認為是造成性能問題的專業知識并糾正它們的維修要素(例如,更新的聲納方程、電流敏感控制器或新的螺旋槳模型)。

正如上文關于新穎性的介紹部分所述,這項研究的大部分開始于認識到 DeepMind 用于解決圍棋、國際象棋、將棋和星際爭霸游戲的方法對游戲規則的變化并不魯棒。一個例子是南加州大學 (USC) 開發并通過 GitHub 發布的 GNOME 框架。

NIWC Pacific 與 USC 合作開發了一個版本,英國 Dstl 使用 GNOME 框架開發了“Hunting of the Plark”游戲。這將允許對受過訓練以玩該游戲的代理的新穎性影響進行實驗,這是圖靈研究所研究小組的重點。計劃對使用 ML 開發的決策支持工具進行進一步實驗,我們不僅可以處理模擬情況,還可以與美國海軍進行現場實驗。

2.5.2 新穎性檢測

個體在不知道世界形勢發生變化的情況下對新穎事物有很強的抵抗能力。這很可能是由于新穎事物對正在執行的任務并不重要,或者至少是在敏感度較低的領域變化。然而,處理新穎事物的一個策略是至少檢測到一個代理處于一個新穎的情況,即使該代理不知道如何在新穎的環境中工作,除了退出或提醒其他人注意這種情況。

代理的基本問題是:環境是否發生了變化,或者正在分析的數據是否只是在以前分布的一個尾部?目前,對于大部分的ML來說,僅僅認識到數據不在樣本范圍內可能就足夠了。至少能認識到其自身局限性的ML在許多情況下是一個進步。在這方面,經典的對抗性例子演示經常被提起:在這些實驗中,代理往往對他們的錯誤答案非常自信[44]。

在規劃系統中,識別可能基于對任務進度的動態評估。如果規劃無效,一種可能是世界以一種模型未反映的方式發生了變化。早期檢測可能會防止災難性結果,但這并不能保證。事實上,人們可以設想無法恢復的情景(在黑洞的事件視界上轉彎是一個極端的例子)。

2.5.4對新穎性的魯棒響應

[45] 將提供魯棒響應的任務定義如下:

? 假定:使用專業知識在一類環境情況下運行的代理架構;

? 假定:支持此類環境中可接受的代理性能專業知識;

? 假定:在突然的、未通知的更改環境中,經驗有限會導致性能降低;

? 發現:當環境發生變化時,哪些修改后的專業知識將支持可接受的性能。

對新穎事物的響應類型與正在執行的任務類型有關。在分類器中,系統可能需要調整其模型,不僅允許改變其提供的答案,還允許解釋這種變化意味著什么。例如,想象一個感知代理,其可確定機器人是否存在障礙物。相機系統的改變,例如鏡頭上的蒼蠅附著可能會為系統創造一個新局面。如果系統能夠適應并確定不存在障礙,則需要對情況進行解釋以證明答案的合理性。

圖 3. SAIL-ON 新穎性指標假設。注意程序中的 TA2 代理是那些對環境中的新穎事物做出反應的代理。

對于規劃系統,新穎性可能表現為采用新的行動或發現行動的成本與以前不同;目標可能會發生巨大變化。規劃系統可能不得不調整他們的知識,重新計算以前的任務,利用經驗來改變他們的計算。上面圖 3 中的假設說明了測量環境。在環境中出現變化之前,學習和運行可能會進行一段時間。對特定變化還不夠魯棒的代理性能會下降,必須找到一種方法來檢測新事物的發生,確定發生了什么變化并在運行中對其進行解釋。

2.6 對抗性行動

在過去的幾十年里,已經證明基于深度學習技術的機器學習模型可以在各種任務中達到甚至超越人類水平的表現。另一方面,機器學習模型通常容易受到輸入擾動的影響,并且很容易被愚弄以產生不正確的輸出 [53] [54]。這些類型的操作被稱為對抗性攻擊,機器學習模型對抗這些攻擊的性能被測量為對抗魯棒性 [55]。在兩個不同方面研究了對抗魯棒性。第一個方面,研究人員試圖找到一種產生對抗性攻擊的方法,以最大程度地降低模型的魯棒性 [56] [57] [58] [59] [48]。第二方面,研究人員試圖找到更好的訓練或防御方法,使網絡架構對這種對抗性攻擊更加魯棒[60] [61] [62] [63] [64]。在本節中,我們調查了對抗性攻擊和防御方法,并從當前文獻中定義了對抗魯棒性的指標和測量方法。

2.6.1 對抗性攻擊

[54] 中針對機器學習系統 M 和輸入樣本 C(稱為干凈樣本)定義了對抗性攻擊,如下所示:

“假設樣本 C 被機器學習系統正確分類,即 M(C) = y。可以構建一個對抗性樣本 A,它在感知上與 C 無法區分,但分類錯誤,即 M(A) ≠ y。”

基于此定義,對抗性攻擊的目的是修改模型輸入以導致不正確的模型輸出,使其無法被人類觀察者區分。不可區分性標準對可應用于輸入的擾動有一些限制,這在文獻中稱為 lp 范數,即

其中 ? 是最大允許擾動。最常用的范數是 l2 和 l∞。

考慮到這一限制,提出了幾種方法來生成對抗性樣本 [65] [55] [48]。生成對抗樣本主要遵循兩種不同的方法,即黑盒和白盒。在黑盒方法中,用戶不了解模型,只能訪問給定輸入的預測概率或預測類別。另一方面,假設模型及其參數在白盒方法中是完全已知的[47]。

白盒攻擊在欺騙模型方面比黑盒攻擊更有效,并且在文獻 [56] [57] [58] [48] 中使用不同的方法進行了廣泛的研究。白盒攻擊主要是基于梯度的攻擊方法:它們通常構造一個損失函數,可以導致擾動攻擊能力的提高和擾動幅度的降低,然后通過梯度優化損失函數以生成對抗樣本[66]。使用損失函數的梯度來確定對抗性擾動,可以像快速梯度符號法(FGSM)[65]那樣在一個步驟中進行,用于快速生成對抗性樣本。為了提高效果并減少擾動,在基于迭代梯度的攻擊中,不是在梯度方向上采取單一步驟,而是采取多個較小的步驟[54][48]。

對抗性攻擊也可以作為訓練的一部分。最近的一些工作[46]背景是一個對等網絡,其中每個對等體都有一份神經網絡模型的副本,以創建一個分布式的學習環境,這并不依賴于中央協調節點的存在。這樣的機器學習架構非常適用于有多個伙伴的軍事聯盟場景。最初,每個對等體擁有總訓練數據集的一個子集,隨著模型訓練的進行,模型參數在每次訓練迭代時都在對等體之間共享。

本實驗基于 Fashion-MNIST 數據集,并非試圖提高點對點 ML 的魯棒性,而是測量和優化中毒技術在導致對等體錯誤分類方面的有效性。中毒效果的衡量標準是,就訓練迭代次數而言,惡意對等體能夠可靠地毒化良性對等體的速度有多快。然而,我們相信相同的指標可以用來推斷 ML 對這種中毒的魯棒性:實現錯誤分類所需的迭代次數越多,魯棒性就越高。

2.6.2 對抗性防御

已經提出了一些方法來保證在特定條件下對范數有界的對抗性攻擊的魯棒性。例如,Wong 和 Kolter [67] 使用對抗性多面體的概念為基于 ReLU 的分類器提出了可證明的防御措施。此外,[68] 中提出了一種有效且完整的分段線性神經網絡魯棒性驗證器。在該論文中,提出了一種算法,該算法基于最大 (l∞-) 范數在對抗性誤差上產生經過驗證的界限。

獲得強大的深度神經網絡的最成功的方法之一是通過對抗訓練。對抗性訓練的主要動機是將攻擊和防御都納入一個共同的理論框架,自然地封裝了大多數先前關于對抗性樣本的工作 [55]。在這種方法中,不是直接將原始數據集中的樣本輸入到訓練中,而是允許對抗性攻擊首先擾動輸入,然后將擾動的樣本輸入到訓練中。對抗性訓練以不同的方式得到增強,例如改變攻擊過程、損失函數或模型架構 [69] [50]。

對抗性訓練的性能很大程度上取決于生成增強訓練數據集時使用的損失函數和對抗性攻擊方法,并且由于需要生成對抗性樣本,與干凈訓練相比需要更長的時間。在 [73] 中,已經證明,使用具有早期停止的經典對抗訓練可以更容易地提高最先進的對抗訓練方法的性能。這表明我們對對抗性訓練的理解是有限的。在 [74] 中分析了對抗性訓練對魯棒性的影響,他們得出結論,在使用(隨機)梯度下降的干凈訓練過程中,神經網絡將在所有特征中積累一些與任何自然輸入,但極易受到(密集)對抗性擾動的影響。在對抗訓練期間,這種密集的混合物被“純化”以使模型更加魯棒。

2.6.2.1 訓練期間隨機噪聲的隱式生成建模提高了對抗魯棒性

最近開展的工作 [70] 專門研究了上述方法。事實上,這項工作旨在通過將隨機噪聲引入訓練輸入并使用隨機梯度下降 (SGD) 對其進行優化,同時最小化訓練數據的總體成本函數,從而使深度神經網絡對對抗性輸入更加魯棒。效果是在開始時隨機初始化的輸入噪聲在訓練過程中逐漸被學習。結果,噪聲近似地模擬了輸入分布,以有效地最大化給定輸入的類標簽的可能性。

作者 [70] 評估了他們在 MNIST、CIFAR10 和 CIFAR100 等分類任務上的方法,并表明以這種方式訓練的模型更具對抗性。發現噪聲和干凈圖像的組合方式對精度有重大影響,乘法比加法獲得更高的精度。魯棒性的直接度量沒有發展,而是隨著擾動水平的增加,魯棒性被量化為精度函數。

2.6.2.2 基于離散化的對抗性攻擊解決方案

繼對抗性訓練的主題之后,[72] 表明,圖像分類深度神經網絡對對抗性輸入的魯棒性可以通過輸入空間和模型參數空間的離散化來提高,同時精度損失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 數據集的實驗中,輸入空間的離散化涉及將像素強度的數量從 256 (28) 減少到 4 (22),參數空間的離散化涉及使用低精度權重訓練模型以及諸如二元神經網絡 (BNN) 之類的激活。此外,結合這兩種離散化技術極大地提高了模型的魯棒性。與更昂貴的對抗性訓練過程(即使用對抗性示例訓練模型)相比,這種組合方案可以被視為提高魯棒性的另一種方法。在每個實驗中,通過比較分類的準確性來衡量魯棒性,同時對抗性擾動 (ε) 逐漸增加。實際上,這項工作中魯棒性的度量似乎是在保持給定精度的同時可以容忍的擾動程度。

2.6.2.3 減輕神經網絡中的對抗性樣本

在最后一個示例中,進行了一項相對簡單的工作 [71]。對圖像分類器的輸入進行預處理是通過將輸入饋入高斯核來實現的,其效果相當于平滑低通濾波器,其中平滑程度取決于內核的標準偏差參數。該實驗是使用 MNIST 數據集進行的,并測量了平滑和各種對抗性噪聲水平的不同組合的準確度。結果表明,為了優化給定水平的對抗性噪聲的準確性,存在一個最佳的平滑水平。在這種情況下,用于魯棒性的度量是針對給定數量的對抗性噪聲的成功攻擊的百分比。該度量允許直接比較使用和不使用平滑的性能。

2.6.3 測量對抗魯棒性

對抗性魯棒性可以衡量為對抗性攻擊[47]擾動輸入的模型準確性。由于評估取決于應用的對抗性攻擊,因此很難衡量模型的實際對抗魯棒性。

文獻中的大多數作品通過使用在其訓練階段使用的相同或相似的對抗性攻擊方法和損失函數,來展示其方法的對抗性魯棒性。在[48]中已經表明,通過改變損失函數和生成對抗樣本的方法,可以實現比原始論文中報道的更低的對抗魯棒性。實際上,[48] 中指出,在 49 個案例中,有 13 個案例的魯棒性變化大于 10%,在 8 個案例中大于 30%。

在 [49] 中,通過將幾個深度神經網絡的性能與人類觀察者進行不同類型的操作進行比較,進行了類似的評估。在這項工作中,已經表明,只有在訓練階段知道所應用的操作時,深度神經網絡才能達到人類水平的性能。對于未知的操作,深度神經網絡的性能會急劇下降。此外,文獻中提出的許多防御策略都被更強大的對手打破了[48] [50]。因此,應仔細比較在不同方法下獲得的魯棒性,以確保評估盡可能有效[47]。

對抗魯棒性被報告為從擾動集中獲取的最壞情況輸入的模型精度。除了準確性之外,還可以測量兩種類型的性能指標來評估模型的魯棒性。第一個指標是對抗頻率,它衡量模型多久無法保持穩健[51]。第二個是對抗性嚴重性,用于衡量從原始輸入到對抗性樣本的預期最小距離 [51] [52],即模型被愚弄的難易程度。事實上,引用[51]:

“頻率和嚴重性捕獲了不同的魯棒性行為。神經網絡可能具有高對抗頻率但對抗嚴重程度低,這表明大多數對抗樣本距離原始點有非常小的距離。相反,神經網絡可能具有較低的對抗頻率但較高的對抗嚴重性,這表明它通常是魯棒的,但偶爾會嚴重不魯棒。頻率通常是更重要的指標,因為具有低對抗頻率的神經網絡在大多數情況下都是魯棒的。實際上,對抗性頻率對應于用于衡量魯棒性的對抗性樣本的準確性。嚴重性可用于區分具有相似對抗頻率的神經網絡。”

3 結束語

混合戰爭表明可能有許多系統和許多模型,因此如果假設人工智能將在混合戰爭系統的集合中使用,那么多種錯誤來源具有破壞人工智能在軍事領域應用的巨大潛力。

因此,上述當前技術的標準和調查都與了解將 AI 和 ML 應用于混合軍事領域的潛在弱點相關,因此在涉及與 AI 和 ML 的魯棒性有關的考慮時,顯然需要確保未來進行廣泛的評估。很明顯,有一個重要的考慮領域和可用的度量方法。然而,正如之前在第 2 節中提出的,這些度量方法適用于不同的利益相關者、不同的模型和潛在的不同任務。

因此,當前的問題是如何為特定模型確定和找到正確的度量方法,以獲得混合戰爭系統所需的置信度。 IST-169 打算推進這項初步調查來做到這一點。我們相信,開發各種類型的魯棒性及其適用于不同類型 AI 階段的圖形表示,將有助于全面了解 AI 魯棒性格局。這將加強并采取更嚴格的方法對人工智能應用進行開發。

付費5元查看完整內容

引言

俄羅斯總統弗拉基米爾·普京宣布 2021 年為俄羅斯科技年,11 月被命名為人工智能 (AI) 月,這表明俄羅斯領導層對這一總括性術語的濃厚興趣。俄羅斯國防部門尤其被這些人工智能技術相關機遇所吸引。近年來,人工智能、機器人技術以及將自動化和自主性進一步整合到武器系統和軍事決策中,都被強調為俄羅斯武裝部隊現代化的優先事項。

2017 年,普京有句名言:“人工智能是未來,不僅是俄羅斯,也是全人類……誰成為這一領域的領導者,誰就成為世界的統治者”。引用這句話,分析人士經常將俄羅斯的發展歸因于、測試和使用武器化的 AI 來與當前領先的 AI 開發商:美國和中國在所謂的全球 AI 競賽或全球技術競賽中競爭的必要性。雖然認為競爭和追趕的需求是俄羅斯動機的一部分,但它對軍事人工智能的興趣不應僅僅歸因于對相對實力的追求。要了解俄羅斯圍繞人工智能、自治和自動化的辯論的深度和復雜性,需要審查有關其對俄羅斯軍隊的戰略影響、自治的好處和風險,以及更廣泛地說技術現代化和技術現代化的重要性的討論。俄羅斯在世界上的地位的創新。

本報告旨在概述面向國際受眾的不同概念和動機,這些概念和動機一直并正在指導俄羅斯政治和軍事領導人實現其追求武器化人工智能的雄心。首先,它概述了俄羅斯軍隊追求人工智能、自主和自動化背后的各種外部和內部因素。其次,它介紹了俄羅斯在這一領域的一些計劃、對其能力的了解以及加強這些計劃所面臨的挑戰。第三,它深入探討了俄羅斯關于自主,特別是自主武器系統的辯論,以及關于開發所謂的“殺手機器人”或自主戰斗機器人的倫理討論,這是一個經常使用的術語在俄語文學中。

該分析基于對開源材料的調查,包括媒體報道、新聞稿、官方聲明和演講、同行評議的文章和智囊團報告,以及俄羅斯軍事期刊上的出版物。作者希望將其作為正在進行的博士研究項目的第一步,以及對新興的關于俄羅斯如何看待武器化 AI 的英語文獻做出貢獻。

概念注釋

本報告分析了自主、自動化和人工智能的概念——這三個術語在俄羅斯和國外經常相互混淆。值得從探索這些概念開始。自動化是一種基于特定動作或規則序列將任務委派給機器的方式,從而使流程更具可預測性。自動化系統是“根據預編程腳本執行具有定義的進入/退出條件的任務”。自主性是一個更復雜的過程,廣義上的意思是“對機器進行編程以執行通常由人員執行的某些任務或功能人類”,但沒有詳細的規則,因此更難以預測。人工智能可以定義為“數字計算機或計算機控制的機器人執行通常與智能相關的任務的能力。” 人工智能及其子集,例如機器學習,以及其在計算機視覺、面部和聲音識別等方面的應用,可用于實現武器系統更高水平的自動化和自主性。自主武器系統通常被定義為“一旦啟動,無需人工操作員進一步干預即可選擇和攻擊目標的機器人武器系統。” 聯合國安理會 2021 年 3 月發布的一份報告表明,土耳其制造的 Kargu-2在利比亞內戰期間,游蕩彈藥系統被編程為以自主模式選擇和攻擊目標。這被世界各地的媒體描述為首次使用致命的“殺手機器人”。但是,尚不清楚該系統在攻擊時是否真正自主運行。

【在人工智能進步的幫助下,武器系統可以在自主范圍內進一步發展,承擔更多任務,并最終在戰場上取代人類】

圖1. 武器系統的自主性

同時,這些領域之間的能力并不總是相同的。在俄羅斯的案例中,自動化和無人機器人系統的開發比集成更現代的基于機器學習的系統更先進。俄羅斯軍事文獻中經常提到的“自動化”(автоматизация)過程——其他術語包括“機器人化”(роботизация)、“智能化”(интеллектуализация)或“數字化”(дигитализация)并不是一個新現象。 俄羅斯在自動化和遠程控制武器系統方面的能力相對優于其在人工智能總稱下整合機器學習和廣泛技術的其他子元素的能力。許多軍事決策者和分析人士的立場是,借助人工智能的進步,武器系統可以在自主范圍內進一步發展,承擔更多任務,并最終在戰場上取代人類。

付費5元查看完整內容

概述

美政府問責局(GAO)日前發布報告《人工智能:國防部應改進策略和流程并加強協作指導》。該報告通過評估2018年《國防部人工智能戰略》,發現其存在片面性的一些特征,如九項人工智能相關戰略計劃“不包括與采用AI技術相關的資源、投資和風險的完整描述”等,呼吁國防部制定更全面的人工智能戰略,以使其更好地定位、問責和負責任地使用該技術。該報告還向國防部提出以下建議:發布含AI戰略所有特征的指南、建立定期審查國防部AI戰略的程序;開發含所有需求的高級計劃或路線圖;發布指南和協議,定義該機構在AI活動中的領導和參與者的責任等

背景

GAO的發現

2018 年國防部 (DOD) 人工智能 (AI) 戰略將 AI 定義為機器執行通常需要人類智能的任務的能力。戰略和相關計劃包括綜合戰略的一些(但不是全部)特征。 例如,國防部的九項人工智能相關戰略和計劃不包括對資源和投資以及與采用人工智能技術相關風險的完整描述(見圖)。發布指南以在未來與人工智能相關的戰略中包含綜合戰略的所有特征,可以幫助國防部更好地幫助管理人員確保問責制和負責任地使用人工智能。

國防部人工智能相關戰略和計劃的評估

國防部已開始識別和報告其 AI 活動,但其 AI 基線清單存在限制,例如排除機密活動。國防部官員表示,這些限制將在人工智能活動識別過程的后續階段得到解決。然而,國防部還沒有制定一個涵蓋所有需求和里程碑的高級計劃或路線圖。這樣的計劃將為國防部提供實現該計劃目標所需的所有功能的高級、端到端視圖,以向國會和國防部決策者提供完整和準確的人工智能活動清單。

國防部組織在人工智能活動上進行協作,但可以更充分地整合領先的協作實踐。國防部使用 GAO 先前工作已經確定的各種正式和非正式協作機制,例如跨部門小組。國防部已部分納入領先的協作實踐,例如識別領導力。然而,國防部官員告訴我們,他們正在制定指南和協議,明確定義參與人工智能活動的國防部組件的角色和職責。通過最終確定和發布此類指南,國防部可以幫助確保所有參與者就整個部門的人工智能工作的責任和決策達成一致。

為什么 GAO 做這項研究

國防部戰略指出,人工智能將改變戰爭的性質,不采用人工智能技術可能會阻礙作戰人員保衛我們國家的能力。國防部正在進行組織變革并投資數十億美元來整合人工智能技術,例如建立聯合人工智能中心以加速在整個國防部提供人工智能能力。

伴隨 2021 財年國防授權法案的眾議院報告 116-442,以及讓 GAO 評估國防部的資源、能力和人工智能技術計劃的規定。本報告評估了 (1) 國防部的人工智能戰略和相關計劃,包括綜合戰略的特征;(2) 國防部已確定并報告了整個部門的人工智能活動情況;(3) 國防部在其人工智能活動上的合作情況。GAO 審查了相關法律和國防部戰略,概述了整個部門管理人工智能的計劃和流程,采訪了官員,并進行了全部門調查。這是 GAO 于 2022 年 2 月發布的敏感報告的公開版本。國防部認為敏感的信息已被省略

付費5元查看完整內容
北京阿比特科技有限公司