本報告從技術角度關注人工智能(AI)系統在協助空軍C2方面的潛力。作者提出了一個分析框架,用于評估給定的人工智能系統對給定C2問題的適用性。該框架的目的是確定可滿足不同 C2 問題的不同需求的人工智能系統,并確定仍然存在的技術差距。盡管作者專注于 C2,但分析框架也適用于其它作戰功能和軍兵種。
C2 的目標是通過在時間和目的上規劃、同步和整合兵力來實現作戰上的可能性。作者首先提出了問題特征的分類方法,并將它們應用于眾多推演和 C2 流程。人工智能系統最近的商業應用強調人工智能提供了現實世界的價值,并且可以成功地作為更大的人-機團隊的組成部分。作者概述了解決方案能力的分類方法并將其應用于眾多的人工智能系統。
雖然主要側重于確定人工智能系統和 C2 流程之間的一致性,但本報告對 C2 流程的分析也為國防部人工智能系統所需的普遍技術能力提供了有關信息。最后,作者開發了基于性能、有效性和適用性的度量標準,一旦實施,可用于評估人工智能系統,并展示和社會化它們的效用。
在學術和商業背景下開發和部署的人工智能系統在軍事背景下是否有價值?
能否開發一個分析框架來理解不同人工智能系統對不同C2問題的適用性,并確定普遍存在的技術差距?
能否開發出足夠的衡量標準來評價人工智能系統在C2問題上的性能、有效性和適用性?
C2 流程與用于開發和演示人工智能系統的許多推演和環境有很大不同
C2 流程的獨特性質需要不同于推演優化所需的人工智能系統
需要新的指南、基礎設施和指標體系來評估人工智能在 C2 中的應用
需要混合方法來處理 C2 流程中存在的眾多問題特征
使用本報告描述的結構化方法系統地分析推演、問題和 C2 流程的特征,以確定現有人工智能測試平臺在哪些方面具有和不具有 C2 任務的代表性。
開發在種類和強度上代表C2 任務的問題特征的新人工智能測試平臺。
使用本報告描述的結構化方法來識別和投資高優先級解決方案能力,這些能力在廣泛的 C2 流程中需要,但目前不可用(例如,穩健性和可靠性)。
使用本報告描述的結構化方法來評估潛在人工智能系統特征與特定 C2 流程之間的一致性,以確定要開發的系統的優先級。
為人工智能解決方案制定指標體系,評估算法完整性和最優性之外的能力(例如,穩健性和可解釋性)。
使用本報告描述的結構化方法來確定給定 C2 流程的性能、有效性和適用性的關鍵度量。
根據確定的綜合性能評價指標體系,對給定 C2 流程的人工智能系統進行全面評估。
識別、重用和組合賦予關鍵人工智能系統能力的算法解決方案。
第一章 導言和項目概述
第二章 問題特征分類法
第三章 解決方案能力的分類法
第四章 將問題特征映射到解決方案能力上
第五章 評估人工智能解決方案的指標
第六章 結論和建議
圖S.1 人工智能系統能力圖和指揮與控制過程評估
本研究論文使用問題解決框架,研究了美國武器系統如何在采購生命周期的操作和支持階段陷入持續的陳舊和停滯循環,并提供了解決這種情況的方案。一些美國武器系統保持著它們最初在幾十年前投入使用時的能力。關鍵的發現,如厭惡風險的文化、系統要求低于計劃目標備忘錄的切割線、對財務指導的誤解、嚴格的維持法規、繁瑣的采購流程以及高于必要的決策,都被認為是導致根本問題的原因。這篇研究論文提出了幾個解決方案,解決了部分包容性的問題。對解決方案的整體可行性、對作戰人員的好處以及與實施相關的任何潛在風險進行了權衡。最后的建議包括鞏固和利用財務條例對作戰人員的好處,允許增加運營和維護資金的靈活性,允許在F3I重新設計中增加靈活性和性能,盡可能利用領先的商業技術,以及改變維持的心態,從保持準備狀態到保持相關性。結論強調,美國空軍在技術上落后于近似對手,高級領導人必須像對手一樣思考,以確保美國的法規不會抑制空軍比敵人更快地穿越OODA循環的能力。
自朝鮮戰爭以來,美國在每次交戰中都保持著空中優勢;然而,一些跡象表明,空中優勢在未來的沖突中可能不再有保障。據報道,他們最新的S-500防空導彈系統成功擊中了近300英里外的目標。中國在過去十年中對其軍事進行了大量投資,現在已經達到了一個關鍵的自信點。
這個問題可能源于美國如何運作和資助其軍事項目。美國空軍將 "維持 "定義為維持一個武器系統的現有基線能力。任何改進武器系統超過其現有性能閾值的手段都被認為是開發工程的努力,需要從研究開發測試和評估(RDT&E)撥款中獲得資金。許多系統一旦投入使用就不會獲得RDT&E資金,通常在其生命周期的剩余時間內由運營和維護(O&M)撥款資助。由于對現行財務條例的嚴格解釋,財務經理通常會拒絕使用運營和維護資金來提高系統能力和應對不斷變化的威脅的創造性努力。這使得綜合產品小組(IPTs)沒有什么選擇,只能對他們的武器系統進行意義不大的改變,以保持它們在操作上的相關性。
美國不僅在做錯誤的財務決定,而且在做這些決定時也很緩慢。在過去的幾十年里,采購時間周期已經增加。據美國空軍高級領導人目前的估計,從授予合同到投入使用一個系統的時間超過10年。美國的對手在采購周期上的運作速度至少是其兩倍。在過去的二十年里,一些主要的國防采購項目(MDAP)已經被取消。事實上,國防部(DOD)已經在那些永遠不會投入使用的項目上花費了超過460億美元。
為了解決這個問題,新的倡議,如第804條快速采購和破解國防部5000號文件正受到相當大的關注。雖然它們不能解決撥款問題,但它們試圖縮短采購時間周期。在幾十年來成本成為采購決策的主要因素之后,速度現在被強調為主要考慮因素。使用問題/解決方案框架,本文將研究美國武器系統是如何陷入陳舊和停滯的循環中的,以及可以實施哪些解決方案來有效維持美國武器系統。
本文將首先闡明這個問題,描述綜合維持活動組(CSAG)和空軍維持中心(AFSC)內的幾個低效的供應鏈政策。然后,它將討論系統過時和對商業技術的依賴,接著是國防部緩慢的采購過程。問題部分最后將詳細分析當前的撥款限制以及美國空軍的幾個文化問題。
解決方案部分將首先定義具體的評價標準。該文件將提出幾個潛在的解決方案,以及建議的行動。然后將根據規定的標準對每個解決方案進行詳細評估,包括實施中的任何潛在風險。還將討論其他被考慮但未被推薦的解決方案。最后,本文將對問題進行快速總結,提出最終建議,以及為什么這項研究與美國空軍有關。
報告探討了美國空軍在戰役層實施聯合全域指揮控制(JADC2)面臨的挑戰,分析了未來多域作戰中運用人工智能的機會,梳理了建設JADC2人工智能生態系統的最佳商業實踐。報告最后指出,指揮控制構造、指揮控制所需的數據和數據基礎設施以及利用數據來指揮控制所有領域部隊需要的工具、應用程序和算法必須調整以支持未來的多域作戰。JADC2應該以一種內聚、漸進、交互式的方式發展,美國空軍作戰集成中心應確保JADC2的指揮控制結構、數據管理以及工具、應用程序和算法開發的發展遵循統一的戰略。
作者研究并推薦了將人工智能(AI)以及更廣泛的自動化應用于美國空軍全域聯合指揮與控制(JADC2)。作者發現,為了支持未來的多域作戰,必須對三個主要的使能類別進行調整:(1)指揮和控制(C2)結構或部隊如何組織,當局在哪里,以及他們如何訓練和配備人員,(2)利用數據進行C2所需的數據和數據基礎設施,以及(3)利用數據進行C2全域部隊的工具、應用程序和算法,包括人工智能算法。轉向現代化的JADC2需要各利益相關者合作制定政策、指導、戰術、技術、程序、訓練和演習、基礎設施和工具,很可能利用人工智能,以實現概念。
美國空軍空中作戰中心(AOC)制定的72小時空中任務周期,已經無法滿足當前數字世界的要求。在未來有計劃規劃與動態規劃之間的平衡點會發生變化,動態規劃的比重會加大。全域聯合指揮控制工具和流程要具備為這種變化提供支持的能力。
將空軍作戰中心結構體系遷移到現代數字環境中面臨許多挑戰,包括對以人為中心的主題專家會議和委員會的依賴,“空氣隔離”系統中的數據分為多個保密級別;對商業服務產品的嚴重依賴等。
其他限制多域作戰速度和范圍的因素包括:權力和指揮關系,跨域同步戰斗節奏,各域使用的程序不同,不同戰區和地區使用不同的指揮控制結構,靈活健全的通信系統和程序。
要支持多域行動應協調一下三個范疇的內容:全域聯合指揮控制的指揮控制結構的確定,可用于多域作戰的數據源和計算基礎結構,以及實現多域決策者“在圈中”且支持機器對機器過程的算法開發。
目前有多個未來多域作戰概念,需求也因戰役而異。未來的指揮控制結構應具有靈活性,能夠適應各種變化。
美國空軍綜合作戰中心(AFWIC)應與美國空軍太平洋司令部、歐洲司令部、非洲司令部合作,通過兵棋推演和桌面演練進行假設并繼續研究多域作戰概念,為國防戰略提供支持。同時他們應該將最終確定的多域作戰概念告知空軍以外部門,以便與其他軍種和美國國防部進行合作。
美國空軍首席數據官應制定適用于整個作戰中心的數據管理政策,確保數據得到保存和適當標記方便之后使用,同時要保證有足夠的數據儲存能力。
美國空軍綜合作戰中心應該與美國空軍作戰司令部(ACC)合作,評估各種能夠實現多域作戰的指揮控制結構。同時還要另外開展兵棋推演以及研討會來對比和比較各種替代方案。美國空軍作戰司令部后續應該進行的工作,還包括制定開發、組織、培訓和裝備方案。
全域聯合指揮控制流程應該體現凝聚、漸進和交互原則。指揮結構、數據管理以及工具,應用程序和算法的開發都應根據總體戰略進行。
美國空軍綜合作戰中心應確保戰略的實施,并向空軍參謀長報告相關情況。
本報告從技術角度對一份有關人工智能(AI)系統輔助空軍指揮和控制(C2)的潛力的報告進行了分析。作者詳細介紹了10個 C2 問題特征的分類法。他們展示了結構化訪談協議的結果,該協議能與主題專家一起對 C2 流程的問題特征進行評分。使用問題分類法和結構化訪談協議,作者分析了10個推演和10個 C2 流程。為了演示 C2 問題的分類法和結構化訪談協議,他們隨后將其應用于由空戰管理人員執行的傳感器管理。
作者隨后轉向了8項人工智能系統解決方案能力。至于 C2 問題的特征,他們創建了一個結構化協議,以便對給定的人工智能系統的解決方案能力進行有效和可靠的評分。使用解決方案分類法和結構化訪談協議,作者分析了10個人工智能系統。
作者提供了有關專家小組設計、實施和結果的更多細節,由該小組在8種解決方案能力中擇一處理10個問題特征中的每個特征。最后,作者展示了3個技術案例研究,針對各種 C2 問題演示了廣泛的計算、人工智能和人工解決方案。
第一章 問題特征分析
第二章 解決方案能力分析
第三章 專家小組設計、實施和其他結果
第四章 評估人工智能解決方案的指標
第五章 案例研究 1:主空襲計劃
第六章 案例研究 2:自動目標識別與學習
第七章 案例研究 3:人員恢復的人機協作
附錄 A 人工智能歷史
附錄 B 閉環自動目標識別的數學細節
本文討論了在指揮和控制(C2)過程中確定人工智能(AI)和機器學習(ML)算法的潛在應用問題。至少三十年來,具有弱智能行為的軟件組件一直是C2的一部分。這不僅仍有很大的改進和加速空間,而且由于混合戰爭的特點,面對臨近檢測到的威脅必須更快、更靈活地做出反應。
為了挖掘人工智能解決方案在C2領域的潛力,在軍事領導人和人工智能專家之間達成更好的相互交流是不可避免的。這種相互交流的一個基本要求是將共同的詞匯標準化,并將不同的人工智能方法的基本思想傳達給軍事人員。這兩點可以通過使用合適的人工智能方法抽象來實現。
在這里,我們提出了一個軟件項目,以討論三個層次的抽象,區分人工智能軟件解決方案的不同顆粒度的信息交流。雖然最低級別的抽象過于復雜,無法創建一個標準化的詞匯表,但最高級別的抽象對于許多問題案例來說過于粗糙,無法設計一個合適的算法。然而,正如我們將展示的那樣,這種最高級別的抽象是很重要的,因為它是軍事操作人員和人工智能專家之間信息交流的最佳級別。最高級別的抽象是由一個平滑的人工智能模式表示的,稱為人工智能的周期表(PTA)。我們提出了一個基于PTA的新型指導性工作流程,以支持軍事人員和人工智能專家之間的交流,從而利用自動化工作的成果。我們將表明,PTA非常適合作為軍事操作人員和機器學習專家之間的交流手段。在未來的工作中,我們可以研究現有的PTA是否應該被改進,特別是在安全部隊的要求方面。
一個系統開發者面臨著確定客戶實際需求的問題。這在復雜的C2軍事過程中尤其困難,特別是在混合戰爭這個廣泛的領域。在這里,我們必須考慮到 "算法決策 "或 "部署新應用 "的速度。混合戰爭產生了新的挑戰,比如我們在這里所說的 "基于推特的態勢感知",它可以被看作是 "基于新聞的態度感知 "的一個組成部分。
在經典的客戶產品管理工作流程中,確定用戶需求的必要性是通過收集利益相關者的關注來達到的。但這種方法在有關場景中過于粗糙。為了設定一個足夠寬的時間框架,使人類的決策不至于減速,有必要對實際戰術任務的確定步驟有一個清晰的了解,貫穿于軍事等級制度觸及的所有層面。人工智能專家不具備這種軍事專業知識,而軍事領導人在大多數情況下沒有接受過足夠的人工智能培訓,無法識別使用人工智能軟件組件的機會。
第一步(第2.0節),我們將介紹必要的定義,包括我們對人工智能這一技術術語的使用(第2.1節),對C2過程的描述(第2.2.2節),對PTA的描述(第2.2.3節)以及我們對混合戰爭的理解(第2.4節)。在下一步(第3.0節),我們將介紹一個軟件項目,目前是我們軟件開發部門產品組合的一部分,其中包含重要的人工智能組件,并從不同的抽象層次的角度描述這個軟件項目。然后(第4.0節),我們將介紹一項用戶研究,并得出結論(第5.0節):PTA是表達使用人工智能所帶來機遇的一種合適的方式。
在 2016 年人工智能促進協會 (AI) 發表的講話中,當時的協會主席呼吁 AI 為了魯棒性而犧牲一些最優性 [1]。對于 AI,魯棒性描述了系統在各種情況下保持其性能水平的能力 [5]。通過機器學習開發和驗證高質量模型面臨著特殊的挑戰。一般公認的大多數人工智能需要魯棒的原因包括:
? 訓練和運行數據的不確定性;
? 輸入來自不同訓練集,但在統計上或語義上與訓練群體一致;
? 訓練群體之外的輸入;
? 用有限的數據學習;
? 面對新穎的情況,需要不同于學習策略和分類器的開發方式;
? 對抗性行動。
此外,對于人類 AI 協作團隊,人類必須適當地信任 AI 系統;因此,透明度也可以被視為魯棒性問題。混合戰爭為人工智能的魯棒性帶來了額外的挑戰。決策的不同性質和必要的決策支持擴大了所需模型的范圍。在不同條件下開發的模型組合使用會影響可以對復合系統質量做出的統計聲明。
如果我們需要魯棒性,我們必須考慮它的度量。對與上述條件相關的魯棒性研究的調查,提供了一系列可能的措施。北約聯盟實施的混合戰爭需要了解所使用能力的魯棒性。在本文中,我們從當前文獻中調查了魯棒性度量的前景。在這樣做的過程中,我們有助于了解聯盟內部各種模型和軟件的組合。
現代混合戰爭不僅包括傳統戰爭,還包括政治和網絡戰爭(以及其他),其越來越依賴人工智能 (AI) 在日益復雜的環境中執行任務。許多現代 AI 實現都是使用機器學習 (ML) 技術構建的,使用數據旨在來表示預期的情況。這意味著:
? 大多數當前的 AI 構建塊都是為特定目的而構建的,雖然旨在泛化以支持現實世界的輸入,但并不總是能夠處理不熟悉的情況(輸入)。它們是“黑盒”設計,可以實時或近乎實時地執行復雜的決策或環境解釋(分類),但通常只能為已知輸入產生可靠的答案。
? 如果提供以前從未見過的信息或通過人類可能察覺不到的攻擊,人工智能構建塊通常很容易被愚弄和混淆。
從本質上講,我們正在處理的是一個易受影響的問題:現代 ML 解決方案,實際上還有其他 AI 解決方案,本質上很容易被他們不熟悉的數據所欺騙 [2] [3]。例如,這使得依賴于它們的指揮和控制 (C2) 決策樹邏輯容易發生故障。當然,我們想知道如何通過確保利用人工智能的 C2 對故障具有魯棒性來保護自己免受此類漏洞的影響。
總結:
? 許多機器學習方法天生就容易受到環境變化和攻擊的影響;
? 因此,依賴機器學習(主要基于神經網絡(NN))的人工智能系統本質上是脆弱的;
? 因此,必須使依賴人工智能的混合戰爭變得強大。
ML 方法的訓練和運行都基于以下幾個方面:(1)輸入數據,(2)內部結構,以及(3)學習算法。機器學習的脆弱性可能是由許多因素造成的。出于本文的目的,我們假設網絡內部結構是靜態的、足夠強大且安全的,雖然還有許多其他因素,但我們考慮了兩個主要方面:(a) 訓練數據不佳,(b) 以前未使用的業務數據。因此,我們的重點是 ML 解決方案的輸入數據。
天真地,我們假設 ML 方法(尤其是 NN)是使用高質量(“好”)輸入數據訓練的:在運行期間可能期望 選擇性表示AI 處理的輸入范圍。這個想法是,在運行過程中,人工智能可以為運行數據產生“正確”的決策,這些決策與訓練它的數據相似。換句話說,人工智能必須能夠進行插值,并且在某種程度上還可以推斷其原理。
在最壞的情況下,糟糕的訓練數據會導致訓練出不符合目的的機器學習模型,或者在最好的情況下會導致生成“愚蠢”的模型;也就是說,只能做出具有高度不確定性的模糊決定。然而,在數據質量范圍的另一端也存在危險,因為雖然“好的”訓練數據可能會產生一個可以做出非常準確的決策的模型,但它可能只能使用窄范圍的輸入數據來做到這一點。當然,我們希望機器學習既能滿足其性能要求,又能適應它最初沒有訓練過的新環境;即能夠處理新穎事物場景。
因此,ML 的一個重要目標是構建一種泛化良好的能力。在狹窄的應用程序中,我們希望確保在環境樣本上訓練過的模型能夠像宣傳的那樣在整個環境中工作。最終,我們希望人工智能面向復雜環境的處理能力,可針對所有現實,或者至少是人類感知的所有現實。從某種意義上說,這完全涵蓋了所有情況,沒有新的情況。如果我們觀察牛頓宇宙并且擁有巨大內存量,那么所有情況都可以從當前數據中預測出來。但是,由于我們對宇宙建模的能力受到嚴重限制,因此可能會經常出現新穎情況。在不可能為復雜環境訓練模型的前提下,當這些模型被引入現實世界時,模型應該能應對各種突發情況。
因此,表征模型的魯棒性具有挑戰性,需要考慮模型的不同方面的魯棒性。雖然有許多可用的魯棒性定義,但應區分用于傳統軟件魯棒性的定義,例如 IEEE 24765[4] 的定義,以及與 AI 模型相關的定義。本文中使用 ISO CD22989 [5] 中提供的定義:
魯棒性是“系統在任何情況下保持其性能水平的能力。魯棒性屬性表明系統有能力(或無能力)在新數據上具有與訓練它的數據或典型運行數據相當的性能。”
在定義了術語“魯棒性”之后,由于本文的重點是魯棒性度量,我們現在將定義術語“度量”,應用于魯棒性。為了在編寫定義時為我們的思考過程提供信息,確定度量魯棒性可能具有的各種目的以及利益相關者可能是誰,是有用的。由于魯棒性度量的目的和要求將取決于 ML 模型的生命周期階段,因此我們分析了生命周期階段的目的。
盡管許多 ML 模型將基于 NN,但我們的分析擴展到涵蓋 ML 類型和架構的不同變體,并指出 ML 的主要變體是:NN、決策樹和強化學習。
在 ML 模型設計和開發階段,開發人員將試驗模型設計并調整模型的架構和參數,以優化模型的性能。在這個階段,魯棒性度量的目的既可以是提供一種在進行這些更改時度量魯棒性改進的方法,也可以描述模型如何表現魯棒性。此外,不同模型的開發人員之間商定的度量標準將允許在模型設計之間進行可靠的比較。
在系統設計階段,在選擇現成的ML模型納入整個系統時,度量魯棒性將通過提供一種方法來比較一個模型與另一個模型的魯棒性水平和性質,從而為系統設計者提供關于模型選擇的決策信息。
在部署之前,安全從業人員將使用魯棒性度量來為包含 ML 的系統的安全風險評估提供信息。具體來說,該度量將為 ML 模型的漏洞分析提供信息,若該模型具有低魯棒性,則表示攻擊者可以利用漏洞。
最后,在部署階段,從單個 ML 組件的魯棒性度量中得出的整體系統魯棒性度量,將支持最終用戶對系統輸出或行為的信任和信心。
鑒于上述使用范圍和相關利益者,出于本文的目的,我們將有意保留術語“度量”的寬泛定義。我們的定義超出了純粹的測量或量化行為,包括我們如何描述或表征 ML 在任何特定環境中的魯棒性。因此,我們將本文的其余部分基于以下定義:
魯棒性度量是 ML 模型在其生命周期中可能面臨的各種挑戰的魯棒性的度量或表征。特定度量的精確性質將取決于 ML 模型的類型、模型旨在完成的任務、以及模型所處生命周期的階段。
在考慮魯棒性度量時,我們通過提出“面對……什么的魯棒性?”這個問題開始分析。這生成了一個 ML 模型可能面臨的情況列表,在這些情況下,它們的魯棒性可能會受到挑戰。我們稱這些為“面對”條件。
? 訓練和運行數據的不確定性;
? 不同于訓練集的輸入,但在統計上或語義上與訓練群體一致;
? 訓練群體之外的輸入;
? 用有限的數據學習;
? 新穎的情況,不同于學習策略和分類器的開發方式;
? 對抗性行動;
我們的文獻檢索提供了許多關于魯棒性的先前研究,對于每一項,我們都試圖確定它們適合哪些類別。雖然這并不總是顯而易見的,但它似乎代表了一種構建分析合乎邏輯的方式。因此,在以下段落中,我們嘗試以這種方式對文獻檢索中的單個研究進行分類。
對于每個類別,我們描述了每個魯棒性挑戰的性質和細節,然后是用于度量魯棒性的度量指標類型。盡管本文中對魯棒性的審查不包括混合戰爭示例,但所討論的內容適用于混合戰爭方法。
能夠處理訓練和運行數據中的不確定性對于 AI 來說至關重要,它代表了當前 ML 系統的關鍵組成部分,尤其是那些在軍事領域等危急情況下使用的系統。
在 ML 中,目標是在給定的成本函數情況下,學習最適合訓練數據的模型參數。然后,部署該模型以獲取對新數據和未見過數據的預測。作為訓練過程的結果,任何學習模型都帶有不確定性,因為它的泛化能力必然基于歸納過程,即用數據生成過程的一般模型替換特定觀察[6]。盡管研究界做出了許多努力,但沒有任何現有的 ML 模型被證明是正確的,因為任何可能的實驗都嚴重依賴于假設,因此當受到以前未見的輸入數據影響時,每個當前的 ML 模型輸出仍然是不確定的。
不確定性在統計領域有著悠久的歷史,從一開始,它就經常被聯系起來并被視為一個類似于標準概率和概率預測的概念。然而,在最近,由于當前對 ML 的炒作以及如今基于此類解決方案的系統正在控制我們的日常生活,研究界對此類概念的興趣越來越大。這首先是出于安全要求,為此需要新的方法來應對。
在現有文獻中討論 ML 不確定性的不同方法中,可以根據所考慮的不確定性類型對它們進行聚類。當前的大多數作品都解決了偶然或認知不確定性。
對 ML 中的不確定性進行建模的傳統方法是應用概率論。這種概率建模通常處理單個概率分布,因此忽略了區分偶然不確定性和認知不確定性的重要性 [7] [8]。
偶然不確定性:我們可以將其稱為統計不確定性,它源于實驗結果可變性的隨機性概念。簡而言之,當提到偶然不確定性時,我們隱含地指的是即使存在任何其他信息源也無法減少的不確定性。讓我們通過一個非常基本的例子來描述這一點:假設我們想要模擬拋硬幣的概率結果。我們可以定義一個概率模型,該模型能夠提供頭部或尾部的概率,但不能提供保證的結果。這種不確定性定義了總不確定性的不能復歸的部分。
認知不確定性:也稱為系統不確定性,這是由無知/缺乏知識決定的總不確定性的一部分。這種不確定性是由于機器學習系統的認知狀態造成的,并且可以通過附加信息來減少。例如,假設我們有一個 ML 模型學習一門新語言,并且給它一個新詞,它應該猜測它是指頭還是尾。智能體對正確答案的不確定性與預測拋硬幣時一樣不確定,但是通過在情況中包含額外信息(即提供同義詞或解釋單詞的正確含義),我們可以消除任何不確定性在答案中。因此應該很清楚,與偶然性相反,認知不確定性定義了總不確定性的可還原部分。
既然我們已經定義了偶然不確定性和認知不確定性,我們將考慮有監督的 ML 算法以及這兩種不同類型的不確定性如何在 ML 中表示。
在監督學習環境中,我們可以訪問由 n 個元組 (xi,yi) 組成的訓練集 D = {(x1,y1),…,(xn,yn)},其中 xi (屬于實例空間 X)是包含特征的第 i 個樣本 (即,測量值),而 yi 是來自可能結果集 Y 的相關目標變量。
在這種情況下,ML 算法具有三個不確定性來源:
? 偶然不確定性:通常,X 和 Y 之間的相關性不是確定性的。因此,對于給定的輸入 xi,我們可以有多個可能的結果。即使存在完整的信息,實際結果 yi 也存在不確定性。
? 模型不確定性:為解決給定問題而選擇的模型可能遠非最適合該任務的模型。這是由于模型的正確性和假設的正確性存在不確定性。
? 近似不確定性:通過優化過程學習的模型參數只是對真實假設的估計。這種估計是由于在學習過程中使用的數據缺乏保真度。
模型和近似不確定性都代表認知不確定性。
應該注意的是,對于 ML 算法,偶然不確定性和認知不確定性在很大程度上取決于環境。例如,通過允許學習過程改變最初定義的場景的可能性,可以減少偶然不確定性以支持認知不確定性;也就是說,原始環境中的偶然不確定性并沒有改變,而是通過改變環境而改變(類似于在擲硬幣的例子中加權硬幣的一側)。相反,如果我們考慮一個固定的初始場景,我們知道認知不確定性(即缺乏 ML 算法知識)取決于學習過程中使用的數據量(多少觀察)。由于訓練樣本的數量趨于無窮大,機器學習系統能夠完全降低逼近不確定性。
表示不確定性的不同 ML 方法具有不同的能力,可以根據以下內容進行聚類: (i) 表示不確定性的方式; (ii) 如果處理兩種類型的不確定性(偶然性和認知性)中的兩種或僅一種; (iii) 如果他們提供了任何可用于提供不確定性數量粗略估計的解決方案。
高斯過程 (GP) [9] 是一種用于監督學習的通用建模工具。它們可用于泛化多元隨機變量的貝葉斯推理和函數推理。在分類的情況下,GP 具有離散的結果,不確定性定義的困難在于知識的表示,然后將其識別為模型的認知不確定性,就像在貝葉斯方法中一樣。在回歸的情況下,可以將偶然不確定性(即誤差項的方差)與認知不確定性區分開來。
在機器學習中,最大似然估計原理起著關鍵作用。事實上,如果一個模型可以“非常接近”似然函數的最大值,這意味著數據的微小變化可能對估計的影響有限。如果似然函數是平滑的,它可能是一個很好的指標,表明估計存在高度的不確定性,這可能是由于許多參數的配置具有相似的似然性。
在 ML 中,我們經常利用 Fisher 矩陣 [10] 來表示認知不確定性的數值 [11]。
生成模型可用于量化認知不確定性。考慮到這些方法的概率性質,這些方法旨在模擬數據分布的密度,通過確定給定數據是否位于高密度或低密度區域,這些模型隱含地提供有關認知不確定性的信息。這一類別中最相關的工作是基于核密度估計或高斯混合,最近在深度自動編碼器方面取得了一些進展[12]。
密度估計是處理異常和異常值檢測方法的關鍵要素,后者只是一個分類問題,當樣本位于低密度區域時,它被認為是分布之外的問題。這樣的成果反而捕捉了偶然的不確定性。
一般來說,生成模型解決了一個非常具有挑戰性的問題,需要大量數據才能正常工作,并且通常具有很高的不確定性。
人工深度神經網絡 (DNN) 本質上是一個概率分類器,我們可以將訓練 DNN 的過程定義為執行最大似然推理。這導致模型能夠生成給定輸入數據的概率估計,但不能提供有關其概率置信度的詳細信息:捕獲了偶然的不確定性,而沒有捕獲認知。盡管如此,后者通常被稱為模型參數的不確定性。在文獻中,最近有一些作品 [13] [14] 試圖通過將貝葉斯擴展引入 DNN 來模擬這種認知不確定性。
模型集成(Model Ensembles )模型類的常見示例是 bagging 或 boosting。這種方法非常受歡迎,因為它們可以通過產生一組預測而不是單個假設來顯著提高點預測的準確性[15]。可以包含在此類中的最相關的工作是隨機森林模型 [16]。此類別中的方法主要關注整體不確定性的任意部分。
Credal 集(Credal Sets)是一組概率分布,它是貝葉斯推理推廣的基礎,其中每個單一的先驗分布都被一個候選先驗的Credal 集所取代。作品 [17] [18] 研究如何定義Credal 集的不確定性以及相關表示,定義了存在于Credal 集中的兩種類型的不確定性:由于隨機性導致的“沖突”和“非特異性”。這些直接對應于任意和認知的不確定性;通常使用 Hartley 函數 [19] 作為標準不確定性度量; [20] 還定義了一種工具,可用于評估 ML 系統在面對訓練和操作數據的不確定性時的魯棒性。如果我們知道給定隨機變量的未知值在給定的有限集中,Hartley 函數可用于評估不確定性。此外,已經通過類似 Hartley [80] 和廣義 Hartley [81] 措施提出了對無限集的擴展。
在運行期間,分類器為輸入數據的每個樣本分配一個類標簽。考慮到上述魯棒性的定義,類內可變性,即分配到同一類的所有樣本之間的可能變化,隱含地包含在用于學習分類器的訓練數據集中。
使用更具建設性的方法來定義魯棒性有助于更好地模擬用戶對分類器性能的期望。為此,如果分類器對于輸入數據的所有有意義的變體是不變的,我們將暫時稱其為魯棒分類器。顯然,所有有意義的變體的集合取決于應用場景,這通常很難描述。然而,對于許多分類問題,這種有意義的變體可以分為兩類:(i)物理修改(例如,噪聲添加、混合失真、裁剪、旋轉、縮放)和(ii) 輸入樣本的語義修改(例如發音的不同方式)。圖 1(1) 說明了手寫數字分類示例的這兩類可能變體。我們考慮書寫數字“9”的不同變體。而(如圖 1 所示)噪聲添加 (a) 和混雜失真 (b) 可被視為屬于第一類,第三類 (c) 在數字“9”上添加一個小弧線是有意義的(句法)變體,特別是不同國家的當地文化,它使符號(“九”)的語義保持不變。
圖 1 (1) 手寫數字 9 的可能數據變體,(2) 使用變分自動編碼器 (VAE) 重建的數字 3、8、9 的空間,該編碼器對來自 MNIST 語料庫的各個數字進行訓練,(3) 對應的潛在空間表示顏色編碼數字類型。
AI/ML 相對于第一類變體的魯棒性,尚未得到令人滿意的解決,但近年來已在相當程度上得到解決。在許多涉及對第一類變體的魯棒性的出版物中,基礎數據樣本被建模為歐幾里得向量空間中的向量。然后通過將范數有界向量添加到數據樣本來對失真進行建模。這里,通常使用 Lebesguetype 范數(lp norms)(特別是 l1、l2 和 l∞)。在一篇被廣泛引用的論文 [20] 中表明,這種 l2 范數有界的“對抗性攻擊”可用于在基于神經網絡的分類器中導致錯誤分類。隨后,在對抗性攻擊和相應的保護方法領域做了很多工作(本文稍后將進一步詳細討論)。結果表明,在許多情況下,攻擊很難檢測到,并且對于當時最先進的方法,可以繞過檢測 [21]。顯然,在這種情況下的魯棒性需要保護免受對抗性攻擊。在這種對抗性攻擊環境中定義魯棒性的許多方法可以在一個通用框架下捕獲,如 [22] 所示。
第二類,數據樣本的語義上有意義的變體,導致了迄今為止很大程度上尚未解決的重大挑戰。相應地,在[68]中,對所謂的感知擾動的魯棒性被稱為一個開放的研究問題。盡管現代基于 AI 的分類器,特別是深度神經網絡,在眾所周知的公共分類挑戰上取得了破紀錄的改進,但相比之下,它們的判別性自然不會導致分類結果的易解釋性。近年來,整個研究分支都集中在可解釋的 AI 上,即,研究通過給定分類器對映射到相同類別的樣本集進行形式化甚至語義化的方法。
理解分類器語義的一個重要方法是將成功的判別分類器與生成模型結合起來。生成方法的優點是可以使用這些模型生成來自原始(樣本)空間的示例。一種結合分類器和生成模型的成功方法是生成對抗網絡(GAN)[24]。
也可以適用于分類的生成模型是(變分)自動編碼器(VAE)[25]。自動編碼器的基本思想是通過訓練一個深度神經網絡來學習原始數據的緊湊表示,該網絡在兩端具有全維(相對于原始數據)層,中間有一個稀疏的“瓶頸”層。圖 1 (2) 和 (3) 說明了如何使用 VAE 來“理解”網絡學習的類別:(2) 顯示了一組具有代表性的重構,這些重構是由經過訓練的 VAE 的生成部分獲得的,用于對 MNIST 數據集的數字“3”、“8”和“9”進行分類。因此,在某種意義上,(2)總結了分類器準備識別的內容。在圖 1 的右側,(3)顯示了從 VAE 的分類器分支獲得的輸入樣本(即 MNIST 數字)的潛在空間表示。顏色對三個數字進行編碼。潛在空間點和重構樣本之間的對應關系如箭頭所示。在藍色中,繪制了將 9 的流形與其他數字分開的曲線,以指示學習的分類邊界。考慮到這個例子,我們注意到上述變體 (c) 在重建部分 (2) 中沒有很好地表示 - 考慮到語義庫受到北美書寫數字風格的偏見,這并不奇怪。因此,為了使分類器對變化 (c) 具有魯棒性,必須應用額外的措施,例如增加或添加到訓練數據中。
基于生成模型,Buzhinsky 等人[26] 提出了幾個指標來衡量分類器對“自然”對抗樣本的魯棒性。為此,他們提出了一組在潛在空間中工作的六個性能指標,并隨后顯示了上述經典對抗魯棒性和“潛在對抗魯棒性”之間的聯系,即對潛在空間擾動的魯棒性。后者的有趣之處在于,幾個示例的潛在空間擾動已被證明與原始樣本空間中語義上有意義的變體相對應。
我們注意到經典的對抗魯棒性已經可以用于獲得關于小范數有界擾動的人工智能分類器的“認證”魯棒性。然而,語義魯棒性更難以形式化,并且與正確理解和建模目標類密切相關。為此,生成模型是一個重要的工具。諸如投影信念網絡 (PBN) 等新概念,即基于前饋神經網絡結構的分層生成模型,具有易于處理的似然函數的優勢,在該領域非常有前景 [27]。
最近的一項工作 [75] 涉及一種稱為復雜事件處理的 ML 形式,其中融合了來自多個傳感器的具有空間和時間關系的多模態輸入,以允許深度學習模型推斷特定類型的事件,例如槍聲或爆炸。此類事件被稱為“復雜事件”。因此,魯棒性的概念并不適用于模型本身,而是適用于機器學習功能所包含的整個組件系統。該研究聲稱,(a)人類邏輯在基于模式和序列預定義復雜事件中與(b)來自單個傳感器的深度學習推斷相結合,提高了系統對錯誤分類的魯棒性。
在 [78]中,Ashmore 等人識別一組關于輸入域及其子集的定義:I 輸入域空間——模型可以接受的輸入集; O,運行域空間——模型在預期運行域中使用時可能預期接收的一組輸入; F,故障域空間——如果系統其他地方出現故障,模型可能接收到的一組輸入; A,對抗域空間——模型在被對手攻擊時可能收到的一組輸入;其中 O、F 和 A 都是 I 的子集。這些定義不僅在考慮訓練群體之外的輸入(可以從 O、F 或 A 中得出)時很有用,而且在推理模型的輸入時更普遍。
小的、像素空間的擾動,人類可能察覺不到,通常使用 lp 范數測量擾動幅度,是評估模型魯棒性的合理方法(將在 2.6 節后面討論);特別是在對抗性攻擊的可能性更高的混合戰爭領域。然而,在考慮評估模型的魯棒性時,這些小擾動不一定適用于 Ashmore 的攻擊域空間 (A) 之外。最近,獨立的工作 [79] [80] 已經開始研究擾動模型的輸入,使其遠離經常討論和研究的小擾動方法,而不是生成被認為與環境相關且人類可區分的擾動:這些擾動看起來會在輸入上引入純粹、模糊或朦朧等(這可以合理地代表來自 F 或 O 的輸入)。
此外,在 [80] 中,作者建議對語義相關的圖像引入有意義的擾動,但這些擾動可能尚未包含在模型訓練集中;例如,例如,將一群鵝引入一個場景,在這個場景中,模型正在識別停車場中的車輛數量。雖然最后一類有意義的擾動顯然是 Ashmore 的輸入域空間 (I) 的一部分,但可以說,如果訓練數據集不足,這些語義相關的擾動也可以被視為運行域空間 (O) 的一部分。有趣的是,[80] 還發現,當增加系統對小擾動的魯棒性時,模型在處理語義上有意義的擾動時可能變得不那么魯棒,因此考慮評估模型對這兩種擾動類型的魯棒性顯然很重要。
為了評估模型對這種語義上有意義或環境相關的擾動的魯棒程度,[80] 的作者提出了一種用于引入擾動的滴定方法,這樣可以逐步測量在模型的準確性變得可疑之前引入擾動(例如,通過其置信度或已知基礎事實的分類變化)。當考慮模型在預期的運行域空間中的應用時,這提供了一個進一步的度量標準來評估模型的魯棒性。
眾所周知,使用深度學習需要大量數據來學習復雜的任務。如果訓練數據太小,模型會過擬合,泛化能力很差。不幸的是,獲取高質量的訓練數據既困難又昂貴,因為它通常需要人工標記。例如,細粒度的 Cityscapes 數據集平均需要 1.5 小時來標記每個樣本 [28]。此外,與為學術目的(概念驗證、評估、基準測試等)開發的數據集不同,軍事數據集還必須包含代表在現實世界可能發生但難以觀察甚至預測的大量邊緣情況的數據。如果沒有這樣的訓練數據,在可能最重要的時候,或者在條件因敵對行動而意外改變的時候,軍事模型的實際價值將是有限的。
軍事應用的數據采集挑戰是重大的,但也是必須解決的,以確保模型在現實世界中部署時是強大的。幸運的是,許多轉移學習技術[29][30][31]已經被提出,這些技術利用了深度神經網絡可以學習到可轉移的一般特征,因此,可以被其他類似的任務重新使用[32]。預訓練與微調相結合,通常用于利用少量/有限的數據進行學習,同時避免昂貴的大規模模型(如GPT-3)的再訓練,這些模型可能需要專門的硬件來學習。其主要思想是:
1.將預訓練的源模型的一部分復制到目標模型中;
2.向目標模型添加一個或多個隨機初始化的(未訓練的)層,使最后一層與目標的標簽空間相匹配;
3.使用標記的目標域數據訓練模型。
然而,這些技術不能用于軍事數據來自特殊傳感器(如激光雷達、紅外、合成孔徑雷達和高光譜)的情況,這些傳感器很少有預先訓練好的模型,或者過于敏感,甚至在盟友之間也不能共享。
無監督領域適應是另一種轉移學習技術,雖然它在淺層學習中已經被研究了幾十年,但最近在深度學習中也受到了很多關注[33]。使用這種技術,來自源域的標記訓練數據可以用來訓練一個使用目標域的無監督數據模型。該方法假設源域的標記數據成本低且容易獲得。
從軍事角度來看,這個想法很有吸引力,因為源數據有可能是合成的。也就是說,已經存在的模擬器或其他生成模型有可能被改編為不僅能生成完美標記的源數據,還能生成代表邊緣情況的數據,否則很難甚至不可能獲得這些數據。基于模擬的方法將完全消除人類的標記工作,否則可能會導致不正確、有偏見和不完整的數據集,這些數據集在訓練時也會轉移到模型中。使用無監督領域適應性來彌補 "模擬到真實"的差距(sim2real)正在積極進行[34][35],使用各種技術,其中許多依賴于使用對抗性方法,如領域損失函數[36][37]和生成性對抗網絡(GANs)[38][39]。
為了在復雜環境中發揮作用,人工智能必須表現出對新事物的魯棒性。DeepMind[41]的演示表明,ML可以被用來開發策略,從而在僵硬的游戲中實現超人的發揮。圍棋“Go”這個游戲提供了一個復雜的環境,超過了我們對游戲可能狀態的存儲極限,因此提供了前面討論的關于我們對牛頓宇宙建模的極限的情況。然而,如果改變了游戲規則,生成的代理就會變得很脆弱或者完全失敗。在[42]中,這種類型的結果在一個更簡單的環境中被證明,實驗闡明不同的變化如何影響代理的魯棒性。
但新穎性不僅僅是數據點不包含在 ML 訓練集中的情況。為了將新穎性的研究結合起來,[43] 提出了一個描述新穎性的框架。圖 2 說明了人們如何以一種可以同時衡量新穎性和代理反應的方式看待新穎性。這種新穎性觀點的關鍵在于,可以將新穎性考慮到與世界有關的方面以及與代理人的經驗有關的方面。同樣,對代理任務有影響的新穎性,對魯棒性的影響不同于對任務沒有影響的新穎性。這也是 Chao [42] 中證明的一個發現。
圖 2. 考慮新穎性的框架。
DARPA SAIL-ON 計劃 [40] 中采用的一種基于游戲的新穎性實驗方法。 DARPA SAIL-ON 計劃假設智能體具有以下四個要素:
? 一種性能要素,它使用已知的專業知識通過感知、推理、規劃、控制機制來完成任務并實現目標(例如,尋找和收集具有所需特征的水下物體);
? 一個監控元素,將觀察結果與期望值進行比較,以檢測環境(例如,聲納不可靠、不熟悉的捕食者)和代理自身行為(例如,車輛向右轉向)中的異常情況;
? 一種診斷要素,可定位專業問題,生成有關原因(例如,非反射表面、橫流、未對準的螺旋槳)、評估備選方案并從中進行選擇;
? 修復被認為是造成性能問題的專業知識并糾正它們的維修要素(例如,更新的聲納方程、電流敏感控制器或新的螺旋槳模型)。
正如上文關于新穎性的介紹部分所述,這項研究的大部分開始于認識到 DeepMind 用于解決圍棋、國際象棋、將棋和星際爭霸游戲的方法對游戲規則的變化并不魯棒。一個例子是南加州大學 (USC) 開發并通過 GitHub 發布的 GNOME 框架。
NIWC Pacific 與 USC 合作開發了一個版本,英國 Dstl 使用 GNOME 框架開發了“Hunting of the Plark”游戲。這將允許對受過訓練以玩該游戲的代理的新穎性影響進行實驗,這是圖靈研究所研究小組的重點。計劃對使用 ML 開發的決策支持工具進行進一步實驗,我們不僅可以處理模擬情況,還可以與美國海軍進行現場實驗。
個體在不知道世界形勢發生變化的情況下對新穎事物有很強的抵抗能力。這很可能是由于新穎事物對正在執行的任務并不重要,或者至少是在敏感度較低的領域變化。然而,處理新穎事物的一個策略是至少檢測到一個代理處于一個新穎的情況,即使該代理不知道如何在新穎的環境中工作,除了退出或提醒其他人注意這種情況。
代理的基本問題是:環境是否發生了變化,或者正在分析的數據是否只是在以前分布的一個尾部?目前,對于大部分的ML來說,僅僅認識到數據不在樣本范圍內可能就足夠了。至少能認識到其自身局限性的ML在許多情況下是一個進步。在這方面,經典的對抗性例子演示經常被提起:在這些實驗中,代理往往對他們的錯誤答案非常自信[44]。
在規劃系統中,識別可能基于對任務進度的動態評估。如果規劃無效,一種可能是世界以一種模型未反映的方式發生了變化。早期檢測可能會防止災難性結果,但這并不能保證。事實上,人們可以設想無法恢復的情景(在黑洞的事件視界上轉彎是一個極端的例子)。
[45] 將提供魯棒響應的任務定義如下:
? 假定:使用專業知識在一類環境情況下運行的代理架構;
? 假定:支持此類環境中可接受的代理性能專業知識;
? 假定:在突然的、未通知的更改環境中,經驗有限會導致性能降低;
? 發現:當環境發生變化時,哪些修改后的專業知識將支持可接受的性能。
對新穎事物的響應類型與正在執行的任務類型有關。在分類器中,系統可能需要調整其模型,不僅允許改變其提供的答案,還允許解釋這種變化意味著什么。例如,想象一個感知代理,其可確定機器人是否存在障礙物。相機系統的改變,例如鏡頭上的蒼蠅附著可能會為系統創造一個新局面。如果系統能夠適應并確定不存在障礙,則需要對情況進行解釋以證明答案的合理性。
圖 3. SAIL-ON 新穎性指標假設。注意程序中的 TA2 代理是那些對環境中的新穎事物做出反應的代理。
對于規劃系統,新穎性可能表現為采用新的行動或發現行動的成本與以前不同;目標可能會發生巨大變化。規劃系統可能不得不調整他們的知識,重新計算以前的任務,利用經驗來改變他們的計算。上面圖 3 中的假設說明了測量環境。在環境中出現變化之前,學習和運行可能會進行一段時間。對特定變化還不夠魯棒的代理性能會下降,必須找到一種方法來檢測新事物的發生,確定發生了什么變化并在運行中對其進行解釋。
在過去的幾十年里,已經證明基于深度學習技術的機器學習模型可以在各種任務中達到甚至超越人類水平的表現。另一方面,機器學習模型通常容易受到輸入擾動的影響,并且很容易被愚弄以產生不正確的輸出 [53] [54]。這些類型的操作被稱為對抗性攻擊,機器學習模型對抗這些攻擊的性能被測量為對抗魯棒性 [55]。在兩個不同方面研究了對抗魯棒性。第一個方面,研究人員試圖找到一種產生對抗性攻擊的方法,以最大程度地降低模型的魯棒性 [56] [57] [58] [59] [48]。第二方面,研究人員試圖找到更好的訓練或防御方法,使網絡架構對這種對抗性攻擊更加魯棒[60] [61] [62] [63] [64]。在本節中,我們調查了對抗性攻擊和防御方法,并從當前文獻中定義了對抗魯棒性的指標和測量方法。
[54] 中針對機器學習系統 M 和輸入樣本 C(稱為干凈樣本)定義了對抗性攻擊,如下所示:
“假設樣本 C 被機器學習系統正確分類,即 M(C) = y。可以構建一個對抗性樣本 A,它在感知上與 C 無法區分,但分類錯誤,即 M(A) ≠ y。”
基于此定義,對抗性攻擊的目的是修改模型輸入以導致不正確的模型輸出,使其無法被人類觀察者區分。不可區分性標準對可應用于輸入的擾動有一些限制,這在文獻中稱為 lp 范數,即
其中 ? 是最大允許擾動。最常用的范數是 l2 和 l∞。
考慮到這一限制,提出了幾種方法來生成對抗性樣本 [65] [55] [48]。生成對抗樣本主要遵循兩種不同的方法,即黑盒和白盒。在黑盒方法中,用戶不了解模型,只能訪問給定輸入的預測概率或預測類別。另一方面,假設模型及其參數在白盒方法中是完全已知的[47]。
白盒攻擊在欺騙模型方面比黑盒攻擊更有效,并且在文獻 [56] [57] [58] [48] 中使用不同的方法進行了廣泛的研究。白盒攻擊主要是基于梯度的攻擊方法:它們通常構造一個損失函數,可以導致擾動攻擊能力的提高和擾動幅度的降低,然后通過梯度優化損失函數以生成對抗樣本[66]。使用損失函數的梯度來確定對抗性擾動,可以像快速梯度符號法(FGSM)[65]那樣在一個步驟中進行,用于快速生成對抗性樣本。為了提高效果并減少擾動,在基于迭代梯度的攻擊中,不是在梯度方向上采取單一步驟,而是采取多個較小的步驟[54][48]。
對抗性攻擊也可以作為訓練的一部分。最近的一些工作[46]背景是一個對等網絡,其中每個對等體都有一份神經網絡模型的副本,以創建一個分布式的學習環境,這并不依賴于中央協調節點的存在。這樣的機器學習架構非常適用于有多個伙伴的軍事聯盟場景。最初,每個對等體擁有總訓練數據集的一個子集,隨著模型訓練的進行,模型參數在每次訓練迭代時都在對等體之間共享。
本實驗基于 Fashion-MNIST 數據集,并非試圖提高點對點 ML 的魯棒性,而是測量和優化中毒技術在導致對等體錯誤分類方面的有效性。中毒效果的衡量標準是,就訓練迭代次數而言,惡意對等體能夠可靠地毒化良性對等體的速度有多快。然而,我們相信相同的指標可以用來推斷 ML 對這種中毒的魯棒性:實現錯誤分類所需的迭代次數越多,魯棒性就越高。
已經提出了一些方法來保證在特定條件下對范數有界的對抗性攻擊的魯棒性。例如,Wong 和 Kolter [67] 使用對抗性多面體的概念為基于 ReLU 的分類器提出了可證明的防御措施。此外,[68] 中提出了一種有效且完整的分段線性神經網絡魯棒性驗證器。在該論文中,提出了一種算法,該算法基于最大 (l∞-) 范數在對抗性誤差上產生經過驗證的界限。
獲得強大的深度神經網絡的最成功的方法之一是通過對抗訓練。對抗性訓練的主要動機是將攻擊和防御都納入一個共同的理論框架,自然地封裝了大多數先前關于對抗性樣本的工作 [55]。在這種方法中,不是直接將原始數據集中的樣本輸入到訓練中,而是允許對抗性攻擊首先擾動輸入,然后將擾動的樣本輸入到訓練中。對抗性訓練以不同的方式得到增強,例如改變攻擊過程、損失函數或模型架構 [69] [50]。
對抗性訓練的性能很大程度上取決于生成增強訓練數據集時使用的損失函數和對抗性攻擊方法,并且由于需要生成對抗性樣本,與干凈訓練相比需要更長的時間。在 [73] 中,已經證明,使用具有早期停止的經典對抗訓練可以更容易地提高最先進的對抗訓練方法的性能。這表明我們對對抗性訓練的理解是有限的。在 [74] 中分析了對抗性訓練對魯棒性的影響,他們得出結論,在使用(隨機)梯度下降的干凈訓練過程中,神經網絡將在所有特征中積累一些與任何自然輸入,但極易受到(密集)對抗性擾動的影響。在對抗訓練期間,這種密集的混合物被“純化”以使模型更加魯棒。
最近開展的工作 [70] 專門研究了上述方法。事實上,這項工作旨在通過將隨機噪聲引入訓練輸入并使用隨機梯度下降 (SGD) 對其進行優化,同時最小化訓練數據的總體成本函數,從而使深度神經網絡對對抗性輸入更加魯棒。效果是在開始時隨機初始化的輸入噪聲在訓練過程中逐漸被學習。結果,噪聲近似地模擬了輸入分布,以有效地最大化給定輸入的類標簽的可能性。
作者 [70] 評估了他們在 MNIST、CIFAR10 和 CIFAR100 等分類任務上的方法,并表明以這種方式訓練的模型更具對抗性。發現噪聲和干凈圖像的組合方式對精度有重大影響,乘法比加法獲得更高的精度。魯棒性的直接度量沒有發展,而是隨著擾動水平的增加,魯棒性被量化為精度函數。
繼對抗性訓練的主題之后,[72] 表明,圖像分類深度神經網絡對對抗性輸入的魯棒性可以通過輸入空間和模型參數空間的離散化來提高,同時精度損失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 數據集的實驗中,輸入空間的離散化涉及將像素強度的數量從 256 (28) 減少到 4 (22),參數空間的離散化涉及使用低精度權重訓練模型以及諸如二元神經網絡 (BNN) 之類的激活。此外,結合這兩種離散化技術極大地提高了模型的魯棒性。與更昂貴的對抗性訓練過程(即使用對抗性示例訓練模型)相比,這種組合方案可以被視為提高魯棒性的另一種方法。在每個實驗中,通過比較分類的準確性來衡量魯棒性,同時對抗性擾動 (ε) 逐漸增加。實際上,這項工作中魯棒性的度量似乎是在保持給定精度的同時可以容忍的擾動程度。
在最后一個示例中,進行了一項相對簡單的工作 [71]。對圖像分類器的輸入進行預處理是通過將輸入饋入高斯核來實現的,其效果相當于平滑低通濾波器,其中平滑程度取決于內核的標準偏差參數。該實驗是使用 MNIST 數據集進行的,并測量了平滑和各種對抗性噪聲水平的不同組合的準確度。結果表明,為了優化給定水平的對抗性噪聲的準確性,存在一個最佳的平滑水平。在這種情況下,用于魯棒性的度量是針對給定數量的對抗性噪聲的成功攻擊的百分比。該度量允許直接比較使用和不使用平滑的性能。
對抗性魯棒性可以衡量為對抗性攻擊[47]擾動輸入的模型準確性。由于評估取決于應用的對抗性攻擊,因此很難衡量模型的實際對抗魯棒性。
文獻中的大多數作品通過使用在其訓練階段使用的相同或相似的對抗性攻擊方法和損失函數,來展示其方法的對抗性魯棒性。在[48]中已經表明,通過改變損失函數和生成對抗樣本的方法,可以實現比原始論文中報道的更低的對抗魯棒性。實際上,[48] 中指出,在 49 個案例中,有 13 個案例的魯棒性變化大于 10%,在 8 個案例中大于 30%。
在 [49] 中,通過將幾個深度神經網絡的性能與人類觀察者進行不同類型的操作進行比較,進行了類似的評估。在這項工作中,已經表明,只有在訓練階段知道所應用的操作時,深度神經網絡才能達到人類水平的性能。對于未知的操作,深度神經網絡的性能會急劇下降。此外,文獻中提出的許多防御策略都被更強大的對手打破了[48] [50]。因此,應仔細比較在不同方法下獲得的魯棒性,以確保評估盡可能有效[47]。
對抗魯棒性被報告為從擾動集中獲取的最壞情況輸入的模型精度。除了準確性之外,還可以測量兩種類型的性能指標來評估模型的魯棒性。第一個指標是對抗頻率,它衡量模型多久無法保持穩健[51]。第二個是對抗性嚴重性,用于衡量從原始輸入到對抗性樣本的預期最小距離 [51] [52],即模型被愚弄的難易程度。事實上,引用[51]:
“頻率和嚴重性捕獲了不同的魯棒性行為。神經網絡可能具有高對抗頻率但對抗嚴重程度低,這表明大多數對抗樣本距離原始點有非常小的距離。相反,神經網絡可能具有較低的對抗頻率但較高的對抗嚴重性,這表明它通常是魯棒的,但偶爾會嚴重不魯棒。頻率通常是更重要的指標,因為具有低對抗頻率的神經網絡在大多數情況下都是魯棒的。實際上,對抗性頻率對應于用于衡量魯棒性的對抗性樣本的準確性。嚴重性可用于區分具有相似對抗頻率的神經網絡。”
混合戰爭表明可能有許多系統和許多模型,因此如果假設人工智能將在混合戰爭系統的集合中使用,那么多種錯誤來源具有破壞人工智能在軍事領域應用的巨大潛力。
因此,上述當前技術的標準和調查都與了解將 AI 和 ML 應用于混合軍事領域的潛在弱點相關,因此在涉及與 AI 和 ML 的魯棒性有關的考慮時,顯然需要確保未來進行廣泛的評估。很明顯,有一個重要的考慮領域和可用的度量方法。然而,正如之前在第 2 節中提出的,這些度量方法適用于不同的利益相關者、不同的模型和潛在的不同任務。
因此,當前的問題是如何為特定模型確定和找到正確的度量方法,以獲得混合戰爭系統所需的置信度。 IST-169 打算推進這項初步調查來做到這一點。我們相信,開發各種類型的魯棒性及其適用于不同類型 AI 階段的圖形表示,將有助于全面了解 AI 魯棒性格局。這將加強并采取更嚴格的方法對人工智能應用進行開發。
美政府問責局(GAO)日前發布報告《人工智能:國防部應改進策略和流程并加強協作指導》。該報告通過評估2018年《國防部人工智能戰略》,發現其存在片面性的一些特征,如九項人工智能相關戰略計劃“不包括與采用AI技術相關的資源、投資和風險的完整描述”等,呼吁國防部制定更全面的人工智能戰略,以使其更好地定位、問責和負責任地使用該技術。該報告還向國防部提出以下建議:發布含AI戰略所有特征的指南、建立定期審查國防部AI戰略的程序;開發含所有需求的高級計劃或路線圖;發布指南和協議,定義該機構在AI活動中的領導和參與者的責任等。
2018 年國防部 (DOD) 人工智能 (AI) 戰略將 AI 定義為機器執行通常需要人類智能的任務的能力。戰略和相關計劃包括綜合戰略的一些(但不是全部)特征。 例如,國防部的九項人工智能相關戰略和計劃不包括對資源和投資以及與采用人工智能技術相關風險的完整描述(見圖)。發布指南以在未來與人工智能相關的戰略中包含綜合戰略的所有特征,可以幫助國防部更好地幫助管理人員確保問責制和負責任地使用人工智能。
國防部人工智能相關戰略和計劃的評估
國防部已開始識別和報告其 AI 活動,但其 AI 基線清單存在限制,例如排除機密活動。國防部官員表示,這些限制將在人工智能活動識別過程的后續階段得到解決。然而,國防部還沒有制定一個涵蓋所有需求和里程碑的高級計劃或路線圖。這樣的計劃將為國防部提供實現該計劃目標所需的所有功能的高級、端到端視圖,以向國會和國防部決策者提供完整和準確的人工智能活動清單。
國防部組織在人工智能活動上進行協作,但可以更充分地整合領先的協作實踐。國防部使用 GAO 先前工作已經確定的各種正式和非正式協作機制,例如跨部門小組。國防部已部分納入領先的協作實踐,例如識別領導力。然而,國防部官員告訴我們,他們正在制定指南和協議,明確定義參與人工智能活動的國防部組件的角色和職責。通過最終確定和發布此類指南,國防部可以幫助確保所有參與者就整個部門的人工智能工作的責任和決策達成一致。
國防部戰略指出,人工智能將改變戰爭的性質,不采用人工智能技術可能會阻礙作戰人員保衛我們國家的能力。國防部正在進行組織變革并投資數十億美元來整合人工智能技術,例如建立聯合人工智能中心以加速在整個國防部提供人工智能能力。
伴隨 2021 財年國防授權法案的眾議院報告 116-442,以及讓 GAO 評估國防部的資源、能力和人工智能技術計劃的規定。本報告評估了 (1) 國防部的人工智能戰略和相關計劃,包括綜合戰略的特征;(2) 國防部已確定并報告了整個部門的人工智能活動情況;(3) 國防部在其人工智能活動上的合作情況。GAO 審查了相關法律和國防部戰略,概述了整個部門管理人工智能的計劃和流程,采訪了官員,并進行了全部門調查。這是 GAO 于 2022 年 2 月發布的敏感報告的公開版本。國防部認為敏感的信息已被省略。
美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。
本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。
在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。
RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰
幾十年來,政治科學家和國家層面的軍方政策制定者一直在戰略層面使用博弈論,但對其在作戰層面的使用幾乎沒有評論。傳統上,三個主要挑戰阻礙了規劃人員和分析人員在作戰層面使用博弈論,即復雜的作戰環境、參與者的動態交互以及大多數陸軍參謀人員不具備使用復雜數學技能。
這本專著表明,這些挑戰是可以克服的,博弈論可以在規劃過程中提供新穎的見解。美陸軍參謀部規劃人員可以在作戰層面有效地使用基本博弈論和簡單的數學來了解作戰環境、了解行動者及其動機,并在軍事決策過程中比較行動方案。本專著展示了如何避免高級博弈論用于解決理論問題的繁瑣數學程序,而是專注于使用基本博弈論在規劃過程中提供價值。它通過回顧博弈論在戰略層面的應用、教授基本博弈論和涵蓋一些基本博弈概念來展示博弈論的實用性。然后,它考察了一場歷史性的行動,以展示博弈論的使用將如何達到另一個推薦行動方案和結果,也許會改變歷史進程。最后,它通過將博弈論應用于軍事決策過程、任務分析和行動制定過程的兩個步驟的練習,提供了使用博弈論的指南。
幾十年來,戰略規劃者和政策制定者在戰略層面有效地應用了博弈論,但軍事從業者往往不在作戰層面使用它。當約翰·馮·諾依曼和奧斯卡·摩根斯坦在 1940 年代初在蘭德公司工作期間發展博弈論時,他們尋求一種數學方法來為沖突領域,特別是經濟沖突提供解決方案。他們于 1944 年發表了開創性的著作《博弈論與經濟行為》
博弈論允許通過將場景建模為簡化的博弈來分析決策。博弈論試圖定義參與者、策略——或可供他們選擇的選項——以及博弈結果的預期回報。它試圖澄清由于參與者的選擇而導致的不確定性。它的主要用途是它認識到結果是通過多個參與者的互動共同決定的,而不僅僅是一個人自己決定的結果,它允許分析對手可能會做什么。由于這些原因,政策制定者和戰略家使用博弈論來理解戰略問題,例如核對手、貿易慣例、內戰解決和裁軍以及缺乏國際合作,從而制定政策建議以幫助解決這些問題
作戰層面的規劃者是否可以有效地應用博弈論仍然是一個懸而未決的問題。在作戰層面使用博弈論的批評者強調了動態交互的復雜性。他們指出,培訓軍官了解博弈論的基本概念并將操作層面問題的復雜性提煉成基本博弈需要大量時間。
本專著認為博弈論提供了一個有價值的框架,最適用于在軍事決策過程的任務分析和行動發展步驟過程中理解環境中的參與者。博弈論旨在提供對情況的理解。這需要了解參與者及其潛在計劃或戰略動機。博弈論提供了一種理性的方法來研究行動者如何制定他們的策略和他們的動機基礎。由此,指揮官和參謀人員可以獲得理解,然后疊加其他因素,包括行動方案和潛在結果。它提供了一種合理而直接的方法來簡化復雜的問題。因此,博弈論為作戰規劃者提供了另一種工具,可用于了解作戰環境。
本專著重點介紹博弈論在戰略層面的歷史應用、當前的規劃過程學說和相關框架,以回答作戰規劃者能否在作戰層面有效地使用博弈論。這本專著主要通過囚徒困境分析博弈論在戰略層面的應用,將其應用于冷戰、國際貿易和價格戰期間的降價。 1777 年的新澤西戰役為應用博弈論和理解喬治華盛頓將軍和查爾斯康沃利斯將軍之間的競爭環境提供了一個歷史例子。最后,它演示了如何以及在何處將博弈論工具實施到美國陸軍當前使用的規劃過程中。所使用的博弈論是一種基本的應用方法,而不是過于復雜和無用的高級學術博弈論。簡單的博弈可以使復雜的操作情況變得清晰。該研究回顧了陸軍規劃學說,以專注于了解作戰環境和問題。任務分析旨在了解環境中的參與者以及他們之間沖突的根源。這 3 項研究的重點是深入了解對抗性和中立的參與者、激勵措施、潛在的行動方案和回報。該專著追溯了博弈論的戰略應用和作戰應用之間的差異,以了解哪些要素是一致的,同時說明了差異。最后,它將討論如何克服實施中的潛在挑戰。
規劃人員可以在軍事決策過程中使用博弈論工具,特別是在任務分析期間,以不同的視角理解作戰環境和行動發展過程,以檢查未發現的假設。博弈論工具不是替代軍事決策過程中現有的步驟和工具,而是對其進行補充。戰地手冊 6-0 解釋說,指揮官和參謀人員使用任務分析來更好地了解作戰環境和部隊面臨的問題。接下來,規劃人員使用任務分析來制定假設以填補知識空白。最后,考慮到博弈論理解競爭的本質,任務分析也有助于理解友軍和敵軍如何互動。行動方案制定過程提供了一種客觀的方式來看待多個潛在計劃。在上面的歷史例子中,華盛頓將軍和康沃利斯將軍需要了解他們的潛在行動以及他們認為 30 名敵方指揮官可能會做什么。在某種程度上,歷史例子中的將軍們可以在他們的行動發展過程中使用博弈論來檢查他們的假設。開發從敘述性或定性評估開始,然后轉向帶有每個計劃的加權分數的可量化評估。博弈論允許另一種觀點來評估潛在的計劃。以下思想實驗提供了一個示例,說明工作人員如何在任務規劃期間使用一些博弈論工具。
演習如下:美國討論在一個靠近對手的友好國家增加軍事存在,這旨在阻止對手入侵友好國家。軍團工作人員了解國家決策者關于在一個地區增加軍事存在的辯論。此外,他們知道如果國家領導層追求升級,軍團是升級的一個因素。工作人員致力于了解作戰環境并了解國家層面的優先事項和激勵措施,以便他們可以就選項提出更高的建議并為預期的行動方案做好準備。其次,他們努力了解敵人的動機和行動計劃。敵人還面臨著增加其在該地區的軍事存在或維持現狀的前景。兩國都擁有核武器,都不想進行全面戰爭。最后,兩個大國都可以遷移的地區的人口不希望被外國勢力占領。國家決策者面臨的戰略決策具有操作層面的影響。
如上所述,任務分析提供了對情況和問題的理解。在任務分析過程中,工作人員開始對行動者的動機和動機有所了解。戰場情報準備是任務分析的關鍵步驟。參謀人員對友軍和敵軍如何在環境中相互作用做出假設。由此,工作人員開發了每個參與者在即將到來的操作中可以使用的潛在選項。此外,情報準備步驟確定了指揮官和參謀人員的知識差距。這些差距導致了獲取信息的情報需求的發展。正如文獻回顧中所述,人們根據他們擁有的信息做出決策,并預測競爭對手的行為。這些步驟不會取代或否定軍事決策過程的任何步驟,它們只是關于如何以及在何處實施博弈論工具的建議。
鑒于這種情況,參謀人員開始制定敵人的行動方案。當應用于博弈矩陣時,這些行動方案成為敵人的策略。敵人可以用他們的一個師或軍將該地區軍事化,也可以選擇不軍事化。是否軍事化的選擇為敵人創造了兩種不同的戰略。第二步著眼于每個策略的結果。如果雙方都軍事化,那么他們將面臨戰爭。如果雙方都沒有軍事化,那么他們就維持現狀。如果一個國家軍事化而另一個國家不軍事化,那么軍事化的國家就會在沒有爭議的環境中這樣做。表11顯示了這種情況的結果。
表11:定性結果
第三步要求參謀人員查看敵人的動機,然后對他們的選擇進行定性分析。敵人想在美國不決定將該地區軍事化的情況下將該地區軍事化。這為他們創造了一個無可爭議的環境。其次,他們既不看重自己也不看重美國將該地區軍事化,這是現狀。第三個可取的結果是美國軍事化,而敵人沒有,這意味著美國擁有無可爭議的軍事化。最后,如果美國也進行軍事化,敵人不想升級為戰爭,也不想將該地區軍事化。工作人員現在可以根據偏好對敵人的行動路線進行排序。作戰和情報人員可以利用收集資產并制定收集計劃,以確定有關敵人計劃的任何指標,例如在該地區集結部隊。信息收集計劃有助于回答信息需求并協助進行有效規劃。
工作人員現在進入行動開發過程。生成選項步驟概述了指揮官和參謀人員可用的選項。工作人員制定了可以切實擊敗敵人行動方案的選項,然后確定它們的優先級。工作人員還產生了兩個廣泛的選項。他們可以軍事化,也可以不軍事化。由于每個參與者的策略,工作人員現在可以對他們的行動方案進行排序。指揮官和參謀更愿意維持現狀。如果美國采取行動將該地區軍事化,它可能會擾亂地方、國家政府和民眾。因此,美國對該地區的軍事化和一個不軍事化的敵人是次要的選擇。這種選擇意味著美國擁有無可爭議的軍事化,但正如所述,當地政府感到不安。第三,排名是美國不軍事化,但敵人軍事化,給了他們無可爭議的優勢。最后,美國不希望發生戰爭,如果美國和敵人都進行軍事化,就會發生戰爭。
接下來,工作人員將博弈發展為矩陣或戰略形式。首先,他們進行定性分析,說明每次交戰的可能結果,見表 12。然后參謀人員從每個指揮官的角度對結果進行排序,以生成定量分析和回報,如表 13 所示。該表顯示了回報敵方第一,美國第二。使用倒序排列,最低數字的收益表示排后的選項,數字越大,表示首選的選項。每個戰斗人員都是近鄰,因此參謀人員認為交戰將有利于主動一方。
表12 :定性分析
表13:定量結果
這兩種的價值在于員工進行分析以掌握對潛在未來結果的理解。它提供了一個簡潔的可交付產品,參謀計劃人員可以在一張紙上將其交給指揮官或參謀長,以供將來參考或思考,因為指揮官和參謀人員開始在軍事決策過程的未來步驟中權衡選項。這種分析為員工提供了一個思考他們正在做什么以及他們的計劃可能產生什么結果。這是舍恩所說的實踐中反思的一個例子。正如他所說,它允許人們在執行任務時思考他們正在做什么,然后塑造他們所做的事情。
下一步要求參謀人員將可用選項縮小到只有指揮官可用的可信選項。參謀部尋找指揮官永遠不會使用任何主導策略。敵方指揮官沒有任何主導策略,并且兩種策略都可供他使用。但美國永遠不會在博弈中選擇軍事化,因為無論敵人選擇什么,不軍事化都會主導博弈。表 14 以粗體突出顯示哪個選項在美國占主導地位。例如,如果敵人決定軍事化,如果它決定軍事化,美國將獲得 1 的回報,否則將獲得 2 的回報。因此,在這種情況下,美國會選擇不進行軍事化。同樣,如果敵人不軍事化,那么如果它軍事化,美國將獲得三倍的回報,如果它不軍事化,美國將獲得四倍的回報,美國將再次選擇不進行軍事化。因此,工作人員將其排除在外。
表14:以粗體突出顯示的美國的收益
既然參謀人員了解美國沒有軍事化的動機,它就可以看看敵人可能會采取什么行動作為回應。敵人知道美國不想軍事化,并尋求使其結果最大化。因此,敵人選擇軍事化,因為這比不軍事化帶來更好的回報。這達到了納什均衡,即敵人軍事化并獲得四分之二的回報,而美國不軍事化并獲得三分之二的回報。表 15 顯示了圈出的所得納什均衡。
表15:軍事化為主
但現實生活中的情況并不總是一致的。一方通常首先采取行動,迫使另一方做出決定。在上述情況下,美國正在努力應對將該地區軍事化的決定。然后他們的決定迫使敵人做出決定。下一步著眼于在順序移動游戲中情況如何展開,以及納什均衡在決策分析中是否發生變化。順序博弈見表 16。該表首先顯示了敵人的收益,其次是美國的收益。
表16:順序多次博弈
參與者對每個結果的選擇和回報保持不變。唯一的區別是美國先行動,敵人必須做出反應。工作人員必須使用子博弈分析來分析這個博弈及其結果。敵人有第二步,因此分析從他們的預期步驟開始。這兩個參與者都知道,如果美國選擇軍事化,敵人將選擇不軍事化,因為兩個人的回報比一個人要好。如果美國選擇不軍事化,敵人會想要軍事化,因為四比三好。鑒于美國的選擇,上面的表 16 通過圈出每個敵人的首選選擇來表明這種行為。既然美國知道敵人會根據美國的選擇做出哪些選擇,他們就會在兩者之間做出選擇。美國選擇軍事化,知道敵人不會軍事化,從而為美國帶來三倍的回報。美國軍事化總比不軍事化并獲得兩個回報要好,因為知道敵人會選擇軍事化。因此,納什均衡變成了美國軍事化和敵人不軍事化,敵方兩分,美國三分,見表 17。
表17:納什均衡
序列博弈導致的納什均衡與同步博弈不同,為什么?每場比賽都會導致一方軍事化,而另一方不軍事化。在同步博弈中,敵人通過軍事化獲得了最有利的回報,美國知道這一點,因此選擇不軍事化。然而,在順序博弈中,美國先決勝負。如果他們不軍事化,他們將獲得最高的回報,而敵人也選擇不軍事化。兩國都不會軍事化,因為如果美國不軍事化,敵人就有動機進行軍事化。美國意識到這一點,因此認為他們的下一個最佳選擇是軍事化,因為它知道敵人不會軍事化,因為這會迫使兩個參與者之間發生戰爭。這個游戲提供了一個先發優勢的例子。如果敵人先選擇,他們也會有軍事化的動機
序列多次博弈反映了更現實的情況。但是運行這兩種類型的博弈為工作人員了解動機和潛在行動提供了分析價值。工作人員可以看到排序操作如何改變結果。如上所述,使用這種方法的價值在于分析。工作人員可以按照矩陣形式對每個結果進行簡要說明。然后他們可以看到他們的選擇之一不是一個可行的選擇。然后,他們查看了定量評估并確定可以使用平衡結果。所進行的定性分析重申了 Thomas Schelling 的觀點,即博弈論的數學并不總能解決沖突,不應過度依賴數學。而是對問題的思考增加了價值。
博弈論提供了一種分析工具來看待競爭情況。它使分析師能夠了解潛在的行動計劃、激勵措施以及回報或結果。此外,它可以突出信息差距和需要進一步理解的領域。在 20 世紀中葉,戰略層面的規劃者用它來更好地了解美國和蘇聯之間在使用核武器和原子戰方面的競爭。國防部以外的分析師使用它來了解競爭公司之間的貿易爭端和降價。
在作戰層面,博弈論允許對潛在計劃、激勵和結果進行相同類型的分析和理解。這本專著審視了博弈論的歷史并探索了基本的博弈論,確立了博弈論在分析沖突情況方面的有用性。文獻回顧揭示了博弈論的優勢和劣勢,這為如何最好地利用它以最大限度地發揮其潛力提供了信息。檢查諸如核局勢和國際貿易等戰略層面的決策為以前的努力如何有效地應用博弈論提供了背景。博弈論在特倫頓和普林斯頓的美國獨立戰爭中的應用與指揮官們所追求的不同,展示了使用博弈論如何提供獨特的見解,這對于像康沃利斯這樣經驗豐富的將軍來說并不明顯。最后,該專著展示了軍團級別的參謀人員如何使用博弈論來理解戰略級別的決策如何影響作戰級別的行動,比較了同步博弈和序列博弈的實用性。最后一部分提供了一個基本框架,工作人員可以通過將博弈論應用于任務分析和行動開發過程來解決操作問題。
博弈論的使用不僅限于軍事決策過程。博弈論非常適合國防部和美國陸軍目前使用的現有規劃流程。規劃人員可以在聯合作戰設計過程和陸軍設計方法中使用博弈論工具。具體來說,在聯合設計期間,博弈論工具最適合理解戰略指導和理解作戰環境。在軍隊設計期間,它最適合構建作戰環境和理解問題。博弈論是參謀人員或計劃團隊的工具包中的另一個有用工具。當通過軍事決策過程或設計過程應用時,博弈論分析與其他工具很好地結合在一起,可以更好地了解作戰環境。