可擴展性是指組織的績效如何應對工作量的重大變化。工作量可能在數量(更多或更少的相同產品)或類型(現有產品和服務或新產品和服務)上發生變化,對組織當前的規模和形態構成挑戰。
最近發生的事件(如 COVID-19 大流行病)迫使許多組織--公共組織、私營組織和目的組織--迅速擴大規模:向上、向下、向內、向外。而這往往是在沒有通知或預警的情況下發生的。對于澳大利亞國防軍(ADF)來說,《2023 年國防戰略審查》強調了戰略預警時間概念的消失,并呼吁國防部門進行 “加速準備”。這是對國防組織內部可擴展性進行審查的強烈提示。
可擴展性一詞在行政術語中經常被提及。但可擴展性作為一個概念、理論和實踐指導,并沒有以連貫的形式存在于國防或任何其他組織中。本文正是在這一缺陷上邁出的一步。
這項工作的關鍵前提是,一個組織可以增強其可擴展性。可以通過合理的可擴展性設計和有影響力的可擴展性響應來實現這一點。但是,可擴展性是一門藝術--既需要科學(專業技術知識),又需要 “了解業務 ”的藝術形式。還以了解運行環境的變化為前提。完善一門技藝需要一定的知識和實踐--在需要進行操作之前。本文提供了開始可擴展性之旅的必要基礎知識,無論業務是作戰、領導公共機構、實現盈利還是經營慈善機構。考慮到國防部門在應對快速變化的戰略環境時面臨的可擴展性挑戰,本文的見解可以為那些負責領導變革的人員提供組織復原力的保證。
可擴展性領導的任務是 “發現并解決 ”任何擴展應對措施都會遇到的一系列約束條件。無論是領導組織層面還是領導單個業務流程,這一點都適用。無論如何,作為領導者,都需要具備可擴展性思維、感知能力和擴展戰略。需要了解一階可擴展性和二階可擴展性之間的區別,當然也需要了解組織是如何創造價值的,以及它的能力組成部分。本文將介紹可擴展性的這些方面和其他方面。
隨著人工智能(AI)領域的飛速發展,這些技術的變革潛力對國家和國際安全產生了深遠的影響。因此,全世界的政策制定者和監管者越來越認識到,迫切需要超越國界和個人利益的共同理解,尤其是在人工智能應用于安全和國防領域的情況下。
然而,國家和非國家行為者之間在人工智能、安全和防衛方面缺乏既定的全球合作框架,這構成了一項重大挑戰。這種共同治理的缺失導致技術進步不協調和各自為政,給國際和平與安全、穩定和繁榮帶來嚴重后果。然而,各國與非國家行為者合作的愿望日益強烈。各國認識到,這種參與至少可以為治理方法和解決方案提供信息,并確保其制定、采納和實施都有據可依。此外,它還可以確保行業、民間社會組織、研究、技術和科學界以及學術界的認識和支持。
高層也有同感:聯合國秘書長在其《和平新議程》中強調,必須 “確保工業界、學術界、民間社會和其他部門的利益攸關方參與 ”制定 “關于通過多邊進程設計、開發和使用人工智能軍事應用的規范、規則和原則”。因此,迫切需要建立、促進和支持一個獨立、中立和可信賴的平臺,該平臺將促成多方利益攸關方對話,并為軍事領域負責任地開發、獲取、部署、整合和使用人工智能技術孵化治理途徑和解決方案。
通過跨地區、跨學科和多方利益相關者的投入,在軍事領域建立一個共享的、堅實的人工智能知識庫。
建立對技術和他人的信任
解讀人工智能系統在軍事領域的開發、測試、部署和使用中的人的因素
了解和解讀軍事領域負責任人工智能的數據實踐
了解人工智能系統的生命周期影響(包括生命周期的終結),在軍事領域推廣負責任的人工智能
了解與人工智能有關的破壞穩定問題的驅動因素、手段、方法和應對措施,包括人工智能系統促成、誘發和倍增的破壞穩定問題
大型語言模型(LLM)被譽為人工智能領域的重大突破。LLMs 處理和生成文本的能力通常與人類認知水平相當,因此對于包括國防在內的所有領域都具有巨大的應用潛力。與此同時,這項新技術在穩健性和可靠性方面也存在許多未決問題,任何希望利用 LLMs 的組織都面臨著巨大的技術挑戰。本報告旨在展示如何訓練 LLM,使其適應國防領域,并評估此類項目是否值得投入。為此,本文創建了一個基于國防領域瑞典語和英語文本的數據集,并用來訓練(微調)兩個最先進的LLM。然后對模型進行定性和定量評估。結果表明, 訓練后的LLM在與國防有關的文本任務中表現出更高的性能。本文詳細描述了訓練過程,可以為有興趣開展類似項目的讀者提供指導。訓練中的障礙主要與資源限制有關,如硬件、數據和時間,這些限制難以克服,但至少人們對它們有了相對充分的了解。對 LLM 的評估卻并非如此:模型具有令人驚訝的能力,但也可能以令人驚訝的方式失敗。報告對 LLM 的不同方面進行測試來評估其能力和失敗原因,但只能觸及表面。總之,大型語言模型已經發展到一個階段,國防利益相關者可以,也應該開始調整和測試該技術。本報告提供了對陷阱、解決方案和經驗教訓的見解,對此有所幫助。與此同時,建議對大型語言模型采取冷靜的態度,因為對此類模型的評估仍應被視為一個未決問題。
關鍵詞:人工智能、大型語言模型、微調、參數高效微調、低階自適應(LoRA)
人工智能(AI)是計算機科學的一個分支,其研究對象是開發能夠解決通常需要人類認知的問題的機器。其中一個挑戰就是處理人類語言,即讓計算機能夠理解文本輸入并做出有說服力的回應。對人類來說,這個簡單得令人難以置信的問題可能顯得微不足道,而且人們最初認為其很容易通過算法解決。20 世紀 50 年代,隨著科學家們開始認識到這項任務的復雜性,早期的機器翻譯嘗試很快就碰壁了。傳統上,計算語言學(CL)試圖通過研究支配人類語言的規則,并以適合計算機的方式將其形式化來解決這一問題。另一方面,自然語言處理(NLP)則采取了更加務實的方法,通常是統計方法,其重點是開發能夠實際執行某些語言任務的系統,即使范圍有限。實際上,幾十年來,這兩個領域之間的區別已經變得相當模糊,但在很長一段時間里,共同的目標仍然難以實現。
然而,近年來,深度學習(DL)的興起加速了人工智能領域許多挑戰難題的突破性進展,包括語言。硬件的增強和數字數據集的不斷擴大,使得在數百萬文本上訓練擁有數十億參數的深度神經網絡成為可能。深度神經網絡可以學習詞語在上下文中出現的概率,從而建立大型自然語言統計模型。大型語言模型(LLM)就能夠處理文本輸入,并生成新的文本,而這些文本似乎可以與人類的理解和書寫相媲美。OpenAI 的 ChatGPT 等功能強大的 LLM 引起了媒體和公眾的廣泛關注,既有贊譽也有擔憂,認為這是人工智能的重大突破,但其后果尚不清楚。然而,在撰寫本文時,LLMs 的應用仍處于探索階段,迄今為止主要以聊天機器人或辦公軟件中的文本助手的形式出現。此外,軍事應用的潛力仍然難以估計。LLM 可以服務于國防和情報的所有領域,例如,作為用戶界面的一部分、信息融合器、文檔輔助工具,以及通過建議和解釋行動方案的系統進行決策。
LLM 可以產生令人印象深刻的結果,但也可能以令人驚訝的方式失敗。人們對 LLM 的能力、局限性和可靠性還不甚了解,而且隨著開發的進展,LLM 也會迅速發生變化。采用 LLM 的另一個障礙是訓練和運行 LLM 所需的成本。最強大的 LLM 是在大型超級計算機上創建的,這對許多國家行為者來說也是遙不可及的。其中一些 LLM 只能以在線服務的形式訪問,在外國領土上的商業服務器上運行,因此當安全問題至關重要時,使用這些 LLM 是值得懷疑的。還有一些可以在本地獲得和運行,也有可能對其進行進一步訓練,使其適應特定任務(微調),但最初的創建仍依賴于少數擁有充足資源的組織。這也意味著,初始訓練語料庫的文本選擇超出了大多數 LLM 用戶的控制范圍,影響了文本在主題和質量方面的平衡,限制了所支持的語言,而且如果 LLM 原始創建者沒有確保其對所有訓練文本的使用都在知識產權范圍內,則有可能產生法律后果。
目前,有關 LLM 的情況既樂觀又不確定。一方面,LLM 可能即將徹底改變無數人類認知被認為是必要條件的過程,無論是在民用領域還是軍事領域。另一方面,LLM的可靠性尚不明確,各組織有可能被突破性技術的熱情所沖昏頭腦,將 LLM強加到它們(尚)不適合的應用中。 本報告介紹了如何謹慎地將 LLM 用于與國防相關的目的。詳細介紹了幾種現代 LLM 的訓練過程。然后對 LLM 的魯棒性和輸出質量進行了評估。國防領域涵蓋了廣泛而多樣的主題,而 LLM 在某一主題上的性能取決于是否準備了大量具有高質量和相關性文本的訓練語料庫。因此,由于資源有限,本報告縮小了訓練領域的范圍,將重點放在旨在為安全政策分析人員提供支持的 LLM 示例上。
本報告的重點是旨在為安全政策國防領域內的分析人員提供支持性LLM。LLM需要對文本進行總結,回答與安全政策相關的問題,并根據給定的關鍵短語列表編寫文本。類似的任務在其他領域也同樣適用,因此,僅限于安全政策領域并不意味著按照類似思路訓練的 LLM 可用于其他領域。此外,訓練和實施的基本原則也適用于其他主題和更廣泛的范圍。
本報告的目的是探討在國防背景下部署和運行 LLM 所面臨的技術挑戰,以訓練 LLM 為安全政策分析員提供支持為例進行說明,并評估有效性。具體方法如下:
1.針對國防領域的應用訓練(微調)LLM,包括準備訓練數據、選擇基礎模型、設置訓練環境和訓練過程;
2.評估經過訓練的 LLM 的性能,包括根據不同指標得出的輸出文本的質量、模型對提示變化和其他因素的敏感性,以及微調成本是否被基礎模型的顯著改進所抵消。
本報告的重點是 LLM 技術的核心問題,即模型本身、模型的訓練和模型的能力。因此,本報告將不對特定應用的實現進行研究,例如如何在 RAG 系統(檢索增強生成)中利用 LLM,即從數據庫中檢索外部知識并將其插入提示中,從而使 LLM 能夠解決需要當前信息的查詢問題。雖然這種方法和其他方法是使用 LLM有前途的方法,但它們確實增加了自己的研究問題。此外,任何使用 LLM的方法都得益于對模型的良好訓練和理解,因此超出這些核心基本問題的研究將不在本報告的討論范圍之內。
另一個僅涉及的問題是提示工程。LLM 對提問的措辭很敏感,如果重新表述提問,有時會提供更有用的響應。甚至有人觀察到,通過添加鼓勵性詞語(例如“你是一個聰明的模型,請認真思考下面的問題......”)可以提高性能。這推動了直觀優化提示的大量嘗試。
然而,添加任何直觀提示都會減少適合 LLM 有限輸入窗口的實際提問詞的數量。此外,提示工程的好處并不一致,這些方法有時實際上會降低性能。轉述和修改的組合空間實際上是無限的,而且越來越多的證據表明,最佳提示可能根本不直觀,因此不可能由人類提示工程師來制定。鑒于提示工程目前的不確定狀態,在撰寫本文時還無法提出任何可靠的建議,因此該主題主要歸于未來的工作。
本報告面向國防部門中希望在軍事或情報應用中調整和部署大型語言模型的人員。這既包括評估大型語言模型是否適合預期應用的決策者,也包括訓練和實施基于大型語言模型的解決方案的技術團隊。
一般來說,本報告的寫作水平應該是任何對人工智能和大型語言模型感興趣的讀者都能讀懂的。報告偶爾會深入探討一些細節,但喜歡跳讀的讀者應該不難理解報告的整體內容。如果讀者希望進一步了解使用深度神經網絡進行自然語言處理的理論背景,建議閱讀《使用深度神經網絡進行自然語言處理》(Natural Language Processing Using Deep Neural Networks)報告中的第 3 章。
第 2 章介紹了本報告的理論背景。介紹了大型語言模型這一技術最重要的概念和原理。此外,讀者還將了解本報告將使用的具體訓練優化方法,包括其背景。最后,本節介紹了如何評估處理和生成自然語言的系統這一長期挑戰。評估必須被視為一個開放性的研究問題,相關問題在大型語言模型時代仍然具有現實意義,并影響著本報告中的評估嘗試。
第 3 章介紹了第一個目標:創建國防領域大型語言模型。該章分步描述了選擇合適的基礎大型語言模型、準備合適的訓練數據和訓練模型的過程。因此,本章也可為希望開展類似項目的讀者提供指導。 第 4 章是第二個目標:使用各種定量和定性方法和指標對訓練好的大型語言模型進行評估。前面提到的這一領域的挑戰意味著本節只是對解決這一問題的廣泛嘗試的一個介紹,詳盡的大規模評估將留待今后的工作中進行。
第 5 章討論了評估結果,以及在國防背景下使用大型語言模型的更廣泛影響,包括見解和經驗教訓。 最后,第 6 章總結了評估結果,并對今后可能開展的工作進行了簡要展望。
數字工程代表著設計、建模、模擬和系統工程實踐的發展,它適用于現有和未來的軍事能力,并借助計算能力、數據分析、云存儲和處理以及安全信息共享等方面的進步而得以實現。
數字工程提供了一個無縫的 "數字線程",由持續更新的權威工件組成,項目利益相關者可實時訪問,從而使從項目經理到次級供應商的每個人都處于同一起跑線上。
數字工程降低了采購項目成本、設計返工和官僚管理費用。它還能提高生產質量,減少浪費,改進維護和現代化活動。這些優勢有可能加速新能力的獲取、開發和投入使用,而不受純粹基于政策的獲取改革的影響。
國防高層領導必須了解數字工程實踐的成本、效益和局限性,才能在從舊的傳統能力到下一代新啟動系統的各種美國防部項目中優化其實施。
盡管數字工程在美國主要國防承包商中得到了廣泛的實施,但在次級供應商和國防部采購人員中的應用仍然有限。
今天,美空軍部(DAF)正處于危機之中,幾乎在每一個任務領域都面臨著嚴重的能力不足問題。盡管需要迅速實現部隊的資本化和現代化,但美國防部(DOD)傳統的采購、開發和維護方法已被證明成本過高、效率過低,無法滿足作戰人員的需求。這些方法也過于緩慢,無法跟上中國等全球對手正在進行的積極現代化努力。此外,改革美國采購政策的長期努力也無法滿足加快新能力開發和實戰化的需要。數字工程有可能幫助以更快的速度和更低的成本開發和部署新能力,而不受采購改革的影響。
數字工程涵蓋了計算能力、數據分析、云存儲和安全信息共享方面的眾多進步,這些進步正在徹底改變數十年來在設計、建模、模擬和系統工程實踐方面的漸進式改進--在這些領域,傳統方法仍在給項目帶來挑戰。有了正確的基礎設施和集成,數字工程可以連接國防系統的整個生命周期,從最初的需求定義到測試、制造、運行和維護。新啟動的國防采購項目可以充分利用這些優勢,節省時間和資源,而傳統和混合武器系統的持續維護和現代化階段則可以從數字工程應用中獲益,并得到適當和務實的關注。然而,舊系統可能需要大量的時間和預算來逆向設計數字工程架構,因此決策者必須對如何以及何時開展這些工作保持清醒的認識。
盡管數字工程具有諸多優勢,但在國防部內廣泛采用數字工程仍存在障礙,包括啟動成本、互操作性問題、員工培訓問題、網絡安全考慮、模型驗證和文化阻力。美國國防領導人必須提高對數字工程的認識,以制定細致入微的政策指導,使其在整個國防部項目范圍內得到合理實施,并實現成本和速度目標。國防部的工作人員也必須接受培訓,以便在工作流程和過程中使用數字工程技術,從而加快能力的開發和交付,恢復美國的軍事主導地位。
任務規劃涉及將離散資產分配給優先目標,包括在復雜的環境條件下將這些資產動態路由到目的地。由于快速周轉的價值和模擬作戰環境的相對簡單性,人們非常有興趣通過添加人工智能 (AI) 的強化學習技術來改進任務規劃過程,這可以產生更好、更快或只是人類考慮的獨特解決方案。本報告描述了如何使用人工智能進行任務規劃,以及人工智能方法與更傳統的運籌學 (OR) 方法的比較。
任務規劃涉及將離散資產分配給優先目標,包括在復雜的環境條件下將這些資產動態路由到目的地。由于快速周轉的價值和模擬作戰環境的相對簡單性,人們非常有興趣通過添加人工智能 (AI) 的強化學習技術來改進任務規劃過程,這可以產生更好、更快或只是人類考慮的獨特解決方案。本報告描述了如何使用人工智能進行任務規劃,以及人工智能方法與更傳統的運籌學 (OR) 方法的比較。
本報告是五卷系列中的第五卷,探討了如何利用人工智能在四個不同領域協助作戰人員:網絡安全、預測性維護、兵棋推演和任務規劃。本報告主要針對那些對任務規劃、運籌學和人工智能應用感興趣的人。
軍事人員要在惡劣和不理想的條件下長期作戰,這些條件的特點是環境暴露嚴重、資源匱乏以及身心負擔沉重。在這些條件下長期執行軍事行動,會削弱本已有限的感知、認知和情感資源,而這些資源是維持執行任務相關任務所必需的。未來戰場上復雜的多領域作戰行動預計將進一步提高對軍事梯隊最低層的要求。這些需求的特點是,小分隊在補給有限、技術能力下降的艱苦環境中的作戰時間將越來越長。因此,必須確定新的訓練和技術方法,使軍事人員的表現得以持續、優化和/或提高。為實現這一目標,國際國防科學界、學術界和工業界的研究已開發出幾種前景看好的神經科學策略,包括神經調節和神經反饋技術。本最終報告總結了題為 "認知神經強化 "的北約 "人因與醫學 "小組活動的技術活動: Techniques and Technology (HFM-311))的技術活動,包括對五個參與國在認知神經強化研究和開發方面的最新進展的回顧: 加拿大、德國、荷蘭、英國和美國。該書介紹了六種神經調控技術,包括經顱磁刺激(TMS)、經顱聚焦超聲刺激(tFUS)、經顱電刺激(tES)、經皮周圍神經刺激(tPNS)、光生物調控(PBM)和顱腦電療刺激(CES)。會議考慮了三種神經反饋技術,包括使用腦電圖(EEG)、功能磁共振成像(fMRI)和功能近紅外光譜(fNIRS)監測大腦狀態,并通過機器學習和人工智能實現反饋回路。各參與國的代表總結了利用一種或多種神經調節和神經反饋技術提高作戰人員認知能力的基礎研究和應用研究。報告接著詳細介紹了認知神經強化固有的方法論挑戰,以及在這一領域開展研究、開發和工程的其他注意事項。報告最后討論了神經強化的未來發展方向,包括生物傳感、改進機械和預測建模及軟件工具、開發非侵入式深腦刺激、測試新出現的大腦和行為理論模型,以及開發閉環神經強化和人機協作方法。重點是在作戰人員選拔、訓練、行動和恢復的背景下,規劃、執行和解釋神經增強研發工作的相關概念和方法承諾與挑戰。
關鍵詞: 感知、認知、認知神經科學、神經增強、人類表現、認知表現、經顱磁刺激、經顱電刺激、經皮周圍神經刺激、經顱聚焦超聲、顱腦電療刺激、光生物調制、腦電圖、功能磁共振成像、機器學習、人工智能、生物傳感、人機協作、神經反饋
美國特種作戰司令部(USASOC)的任務是在國內和國際上協調和支持特種作戰部隊。該組織面臨的一個摩擦點是收集簡明的數據,告知行進的士兵與他們的目的地有關的重要因素。該項目旨在匯總不同的數據,為前往任何國家的申報或未申報人員建立風險模型。指揮部作戰網絡的風險評估或RECON系統收集開源數據,將其匯總,然后進行評估,產生一個風險評估,供指揮官解釋。然后,匯編的信息將被提交給前往海外的部隊指揮官,使他們能夠做出更有風險的決定。
為了給USASOC的指揮官創建儀表板,以協助他們確定向國外派遣士兵的風險,問題被分成兩個部分:定量和定性分析。第一部分涉及開發一個模型,通過收集定量數據來衡量一個國家檢測個人數據簽名中的異常的意愿和能力。然后將其落實到隨機森林回歸模型中,以預測風險分數。第二部分是向指揮官提供定性數據,以使預測的風險分數具有背景性。這是通過網絡搜索國務院旅行咨詢、推特、Reddit和其他網站來收集的,以顯示每個國家內與潛在威脅有關的當前事件。然后將其編入Streamlit上的一個用戶友好型儀表板,提交給指揮官。請參閱第4頁的圖3,該圖概述了從最初輸入派往特定國家的個人行進者的情況,到最后實現用戶友好型Streamlit儀表板的過程。
風險評估是復雜的,而且往往是有爭議的。它來自于危險呈現,它的特點是可能發生的不理想事件及其結果的不確定性。很少有像核戰爭和核恐怖主義這樣不受歡迎的結果。幾十年來,關于可能影響核戰爭和核恐怖主義風險的特定情況、政策和武器,已經寫了很多。這些問題的性質和用于評估的風險分析方法隨著時間的推移有了很大的變化。
認識到核戰爭和核恐怖主義帶來的風險,2020財年國防授權法案指示美國國防部與美國國家科學、工程和醫學研究院簽訂合同,進行一項研究,探討風險分析方法的性質及其在評估核戰爭和核恐怖主義風險中的應用。
本報告是該研究的第一階段,它討論了風險,探索了風險評估文獻,強調了風險評估方法的優點和缺點,并討論了一些公開的、支撐美國安全戰略的假設,這些都是在核戰爭和核恐怖主義的背景下進行的。研究的第二階段將擴大重點,包括分析風險分析中的假設和方法在美國安全戰略中可能發揮的作用。第二階段的研究將產生一份保密報告和一份非保密的摘要。表S-1詳細介紹了委員會的工作。
值得注意的是,該研究在其兩個階段的工作中都不包括進行風險分析。本報告也不會涉及當前的地緣政治事件,如俄羅斯2022年對烏克蘭的入侵,盡管這些事件說明了在國際沖突中了解核風險的重要性。
美國政府和國際社會已投入大量資源和時間,試圖了解和減少核戰爭和核恐怖主義的風險。美國戰略司令部的現任指揮官以及核裁軍運動者都斷言,核戰爭的風險仍然非常真實。對于核和放射性恐怖主義的風險,也有類似的說法。此外,隨著新技術和新對手的出現,這些風險正變得更加復雜。
為了確定與核恐怖主義和核戰爭有關的威脅和后果,分析人員在對核戰爭或核恐怖主義進行風險分析時將面臨許多挑戰。委員會確定了可能導致核戰爭的七類情況:預防性的、先發制人的、升級性的、催化性的、意外的、未經授權的和誤報的。委員會還確定了三類可能導致核恐怖主義的情況:簡易核裝置、放射性散布裝置或放射性暴露裝置,以及對核設施的破壞。這些類別的情景并不是相互排斥的,因為各類別之間也可能發生其他互動,例如意外和誤報情景之間。這些依賴性必須反映在任何風險評估中。委員會確定的情景類別在此作為例子,并不是全部;然而,分析人員必須包括他們能夠設想到的所有情景類別,以便風險結果不會被低估。對使用核武器造成的直接物理后果的估計,依賴于基于核物理學、過去的經驗、核試驗數據和其他可用信息的數學模型。關于核武器的一些物理影響(如對傷害和死亡的直接估計),人們已經知道了很多,盡管有些影響(如火災、現代城市環境的破壞、電磁脈沖影響和氣候影響,如核冬天)還不是很清楚或難以量化(弗蘭克爾等人,2015)。評估使用核武器的社會、心理和長期影響的方法在很大程度上依賴于人類應對其他災難性事件的行為的代用數據。使用這些方法的分析通常包含巨大的不確定性和強烈的相互依賴性。
委員會研究了與核戰爭和核恐怖主義有關的風險評估和分析的歷史,包括探討歷史上為了解核戰爭和核恐怖主義的風險所做的嘗試,以及在評估核戰爭和核恐怖主義的總體風險時所涉及的重要不確定性來源。來自歷史文獻的關鍵見解反映在本報告中,但一個明顯的差距是缺乏對核武器的物理影響不太了解的知識,以及對使用核武器的心理、社會和政治后果的評估和估計。
在做出各種決定時,風險信息可以成為決策者的重要投入,包括確定優先事項、制定新的政策或程序,以及分配資源或時間。在自然和工程系統中,特別是當統計數據可用且可靠時,基于事件樣本頻率的風險分析可以很容易產生對未來風險的估計。然而,正如美國國家科學院以前的研究報告所指出的,將傳統的風險方法用于核戰爭和核恐怖主義--直接證據有限;背景的不確定性很大;以及智能的、適應性強的對手(NASEM 2016;國家研究委員會2008,2011)--是一個重大挑戰。在許多假設中,對這種情況下的風險評估必須考慮到行為者的意圖和利益、他們的能力、他們可用的信息和情報,以及他們的適應性反應--所有這些都可能難以評估。
委員會認為,風險指的是四個關鍵問題:
1.會發生什么?具體而言,什么會出錯?
2.這些事件發生的可能性有多大?
3.如果這些事件發生,有什么潛在的后果?
4.這些事件可能發生的時間范圍是什么?
風險分析可以是一個強大的工具,用于澄清假設;對復雜的、相互關聯的因素進行結構化和系統化的思考;描述不確定性;并確定可能需要哪些進一步的證據或信息來為將要作出的決定提供信息。然而,使用風險分析方法來評估核戰爭和核恐怖主義的總體風險是困難的,原因有幾個。
除了本報告正文中詳述的具體結論(并在第8章中列出)外,委員會還得出了三個總體結論。
1.過去核戰爭和核恐怖主義的例子很少。因此,幾乎沒有什么直接的證據可以用來對兩者的概率進行經驗性的估計。
分析師們試圖通過應用不同的方法和使用多種信息來源來描述由此產生的不確定性,以補充這個有限的證據體系。同樣地,歷史記錄中包含了有限的核或放射性恐怖主義企圖的例子,對核恐怖主義風險的分析也常常借鑒這些例子。有限的直接證據所帶來的不確定性,由于人類的意圖、觀念和動機所發揮的重要作用而變得更加復雜。鑒于所涉及的重大不確定性和決策者可能采取的不同風險態度,整體風險分析的政策相關性并不明確。
雖然人們對核武器和放射性武器的物理后果有很多了解,但對其間接后果的了解并不充分。這包括社會、經濟、政治、基礎設施、氣候和心理方面的影響,這些影響受到這些武器的直接物理影響。
這些因素之間的動態相互作用是復雜的,對它們的分析方法也不太發達。關于這些影響的直接證據很少,這對評估國家或恐怖分子使用核武器的后果是一個挑戰。即使是廣島和長崎的轟炸也只提供了關于涉及現代核武器的沖突的可能性和后果的有限信息。
從專家那里獲得的信息往往是評估與核戰爭和核恐怖主義有關的一些風險的全部資料。分析師和決策者需要意識到這些信息的來源,意識到專家可能在分析中引入的偏見和限制,以及這些信息對風險結果的影響。盡管核戰爭和核恐怖主義的某些方面可能對充分應用這些方法構成挑戰,但可以從其他風險分析學科中借鑒專家征詢的最佳做法。
2.可能導致核戰爭和核恐怖主義的情況很多,涉及許多相互依賴的因素,對其風險的評估往往取決于許多專家和行為者的能力、價值觀、看法和意圖。
核戰爭和核恐怖主義的風險部分取決于威懾的有效性,它反映了所有相關方的能力、信念、動機、意圖、預期戰略和信息。在危機的陣痛中,信息的不可得性和不準確性可能會增加侵略者和防御者所面臨的風險。核戰爭和核恐怖主義情景的風險因有關國家或行為者的理由或發起原因、使用的武器類型和數量以及目標等許多其他高度相互依賴的因素而有所不同。由于存在大量的情景可能性,它們通常被歸類,并作為具有一些關鍵共同因素的情景類別進行分析。
評估核戰爭和核恐怖主義的總體風險涉及不同情景的可能性和后果的巨大不確定性。對這些不確定性的評估和溝通對管理這些風險所必需的政策決定至關重要。然而,風險分析的價值并不僅僅在于評估整體風險。風險分析可以為許多與核戰爭和核恐怖主義有關的較小規模的問題提供寶貴的意見。許多分析旨在確定各類情況的相對或比較風險(例如,核設施被破壞的風險與放射性暴露裝置的風險相比較;或確定與不同投資或設計變化相關的風險降低),或解決決策者面臨的具體問題,如:: 一個特定國家的核儲備的可靠性是什么?汽車邊境口岸的某一型號的探測器檢測到特定水平的輻射的概率是多少?哪些核設施應該被檢查,多久檢查一次?對于涉及重大不確定性和需要做出資源限制的決策的風險管理問題,評估與不同選項相關的風險變化有助于為決策提供信息。
分析師在風險分析中不可避免地要進行假設,包括對風險問題的定義和框架的假設;哪些模型可以有效使用;數據的可靠性;以及對手的能力、意圖和潛在行動。戰略假設可以幫助界定風險問題的界限。一些戰略假設涉及風險的性質或程度,風險驅動因素的影響,政策或行動是否增加或減少風險,美國面臨的威脅的性質和種類,以及最可能發生的情況。戰略假設還包括美國境外的核戰爭風險。
3.不同的風險評估方法或多或少適合于不同的情況和目標。
委員會確定了以下與分析這些風險有關的方法,并審議了這些方法的適用性和局限性:
正如風險分析中的結構、參數和假設可能會給風險分析的結果帶來色彩一樣,風險信息的評估、框架或呈現方式對該信息在決策中的理解和使用有很大影響。當產生風險分析結果的方法和假設是明確的,過程是可復制的,對分析過程的信任是建立的,結果是針對決策者所面臨的真正的問題或決定時,風險分析結果是最寶貴的。
風險信息可能是對決策的一種有價值的輸入,但它不會也不可能支配決策,因為決策還取決于偏好和風險態度。除了風險之外,還需要考慮其他因素,如法律、政治或預算的后果和限制。新興技術,如新的武器系統和人工智能的進步,正在迅速改變風險和威懾的格局。美國的核態勢隨著時間的推移而演變,考慮到了新的威脅、涉及不同美國對手的發展威懾戰略、技術進步、核軍備條約和不斷變化的地緣政治環境。美國對核恐怖主義風險的評估也同樣隨著時間的推移而變化,考慮到了新的威脅和新興技術。
隨著有關核戰爭和核恐怖主義決策的背景繼續演變,風險評估將繼續成為分析家和決策者的一個寶貴工具。
美國空軍轉型能力辦公室 (TCO) 的一個關鍵目標是在各種舉措中培養轉型能力。若要提出、開發和選擇要推進到轉換功能管道中的概念,TCO 必須從許多數據源中提取信息。機器學習和自然語言處理可用于從文本源中提取信息;但是,還必須有效地應用和利用主題專業知識,以提供創造性的見解并充分利用提取的信息。
為了了解如何使用以人為本的數據增強(HCDE)決策流程來確定哪些概念要進入管道,作者使用了一種多方法定性方法,其中包括對發展規劃相關文獻的回顧以及對高級領導人的采訪,技術專家,以及來自空軍和國防界的主題專家。他們的分析綜合揭示了TCO使用數據科學工具從能力差距,能力需求和技術解決方案的龐大數據庫中提取信息的機會,并使用更多樣化的面向未來的決策方法(稱為預見方法)來利用人類的專業知識和創造力。他們開發并實施了概念驗證語義聚類分析和主題探索工具,以從能力差距和技術的自由文本描述中提取信息,并將數據提取與前瞻性方法相結合,作為HCDE決策過程的一部分。作者在三個案例研究中展示了數據科學工具和遠見方法。
可以使用哪些方法來決定將哪些概念推進到空軍轉型能力管道中?
數據科學工具能否用于從龐大的數據庫中提取有關能力差距、能力需求和技術解決方案的信息?
在這些工作中,可以使用哪些方法來利用人類的專業知識和創造力?
TCO的異常廣泛的任務要求使用不同于空軍其他部(DAF)和國防部組織使用的工具和方法。
能力差距的一些數據源被廣泛引用,但它們沒有得到集中管理;科學和技術解決方案的數據源更加多樣化和多樣化,這些來源中包含的數據量非常龐大。
沒有軟件工具系統地用于解析、提取和總結能力差距和技術解決方案來源的內容。
現代數據科學技術可用于從這些源中包含的自由文本描述中提取信息。
發展規劃是一項以人為本的工作,取決于領域知識、創造力和社交網絡。
預見方法可用于利用人類的專業知識和創造力。
數據科學技術和預見方法可以集成在一起,形成HCDE決策過程。
空軍研究實驗室(AFRL)和TCO應使用本報告中描述的概念開發和選擇過程。
AFRL和TCO應該使用軟件工具,如本報告中所述,從自然語言數據源中提取信息。當他們這樣做時,他們應該進行用戶測試和驗證研究,以改進軟件工具。
AFRL應探索替代的自然語言處理方法,以最大限度地提高從自由文本來源提取信息的效用。
DAF 應整理和標準化關鍵的運營能力差距數據源。
AFRL、DAF 和 TCO 應通過購買或開發清理記錄并將其與元數據合并的功能來豐富關鍵的科學和技術數據源。
TCO應擴大創造性、互動性、專家驅動和循證預測方法的使用。
作為實現HCDE能力發展規劃全面管理和標準化的墊腳石,AFRL和TCO應記錄人為生成的技術配對,以彌補能力差距。
內聚力是團隊的一個重要屬性,它可以影響個人隊友和團隊成果。然而,在包括自主系統作為隊友的團隊中,內聚力是一個未被充分探索的話題。我們研究了關于人類團隊內聚力的現有文獻,然后在此基礎上推進對人類-自主系統團隊的內聚力的理解,包括相似性和差異性。我們描述了團隊的內聚力,各種定義、因素、維度以及相關的好處和壞處。我們討論了當團隊包括一個自主性的隊友時,該元素可能會受到怎樣的影響,并進行了逐一描述。最后,我們確定了可能與內聚力有關的人類-自主性互動的具體因素,然后闡述了對推進有效的人類-自主性團隊的科學至關重要的未來研究問題。