大型語言模型(LLM)被譽為人工智能領域的重大突破。LLMs 處理和生成文本的能力通常與人類認知水平相當,因此對于包括國防在內的所有領域都具有巨大的應用潛力。與此同時,這項新技術在穩健性和可靠性方面也存在許多未決問題,任何希望利用 LLMs 的組織都面臨著巨大的技術挑戰。本報告旨在展示如何訓練 LLM,使其適應國防領域,并評估此類項目是否值得投入。為此,本文創建了一個基于國防領域瑞典語和英語文本的數據集,并用來訓練(微調)兩個最先進的LLM。然后對模型進行定性和定量評估。結果表明, 訓練后的LLM在與國防有關的文本任務中表現出更高的性能。本文詳細描述了訓練過程,可以為有興趣開展類似項目的讀者提供指導。訓練中的障礙主要與資源限制有關,如硬件、數據和時間,這些限制難以克服,但至少人們對它們有了相對充分的了解。對 LLM 的評估卻并非如此:模型具有令人驚訝的能力,但也可能以令人驚訝的方式失敗。報告對 LLM 的不同方面進行測試來評估其能力和失敗原因,但只能觸及表面。總之,大型語言模型已經發展到一個階段,國防利益相關者可以,也應該開始調整和測試該技術。本報告提供了對陷阱、解決方案和經驗教訓的見解,對此有所幫助。與此同時,建議對大型語言模型采取冷靜的態度,因為對此類模型的評估仍應被視為一個未決問題。
關鍵詞:人工智能、大型語言模型、微調、參數高效微調、低階自適應(LoRA)
人工智能(AI)是計算機科學的一個分支,其研究對象是開發能夠解決通常需要人類認知的問題的機器。其中一個挑戰就是處理人類語言,即讓計算機能夠理解文本輸入并做出有說服力的回應。對人類來說,這個簡單得令人難以置信的問題可能顯得微不足道,而且人們最初認為其很容易通過算法解決。20 世紀 50 年代,隨著科學家們開始認識到這項任務的復雜性,早期的機器翻譯嘗試很快就碰壁了。傳統上,計算語言學(CL)試圖通過研究支配人類語言的規則,并以適合計算機的方式將其形式化來解決這一問題。另一方面,自然語言處理(NLP)則采取了更加務實的方法,通常是統計方法,其重點是開發能夠實際執行某些語言任務的系統,即使范圍有限。實際上,幾十年來,這兩個領域之間的區別已經變得相當模糊,但在很長一段時間里,共同的目標仍然難以實現。
然而,近年來,深度學習(DL)的興起加速了人工智能領域許多挑戰難題的突破性進展,包括語言。硬件的增強和數字數據集的不斷擴大,使得在數百萬文本上訓練擁有數十億參數的深度神經網絡成為可能。深度神經網絡可以學習詞語在上下文中出現的概率,從而建立大型自然語言統計模型。大型語言模型(LLM)就能夠處理文本輸入,并生成新的文本,而這些文本似乎可以與人類的理解和書寫相媲美。OpenAI 的 ChatGPT 等功能強大的 LLM 引起了媒體和公眾的廣泛關注,既有贊譽也有擔憂,認為這是人工智能的重大突破,但其后果尚不清楚。然而,在撰寫本文時,LLMs 的應用仍處于探索階段,迄今為止主要以聊天機器人或辦公軟件中的文本助手的形式出現。此外,軍事應用的潛力仍然難以估計。LLM 可以服務于國防和情報的所有領域,例如,作為用戶界面的一部分、信息融合器、文檔輔助工具,以及通過建議和解釋行動方案的系統進行決策。
LLM 可以產生令人印象深刻的結果,但也可能以令人驚訝的方式失敗。人們對 LLM 的能力、局限性和可靠性還不甚了解,而且隨著開發的進展,LLM 也會迅速發生變化。采用 LLM 的另一個障礙是訓練和運行 LLM 所需的成本。最強大的 LLM 是在大型超級計算機上創建的,這對許多國家行為者來說也是遙不可及的。其中一些 LLM 只能以在線服務的形式訪問,在外國領土上的商業服務器上運行,因此當安全問題至關重要時,使用這些 LLM 是值得懷疑的。還有一些可以在本地獲得和運行,也有可能對其進行進一步訓練,使其適應特定任務(微調),但最初的創建仍依賴于少數擁有充足資源的組織。這也意味著,初始訓練語料庫的文本選擇超出了大多數 LLM 用戶的控制范圍,影響了文本在主題和質量方面的平衡,限制了所支持的語言,而且如果 LLM 原始創建者沒有確保其對所有訓練文本的使用都在知識產權范圍內,則有可能產生法律后果。
目前,有關 LLM 的情況既樂觀又不確定。一方面,LLM 可能即將徹底改變無數人類認知被認為是必要條件的過程,無論是在民用領域還是軍事領域。另一方面,LLM的可靠性尚不明確,各組織有可能被突破性技術的熱情所沖昏頭腦,將 LLM強加到它們(尚)不適合的應用中。 本報告介紹了如何謹慎地將 LLM 用于與國防相關的目的。詳細介紹了幾種現代 LLM 的訓練過程。然后對 LLM 的魯棒性和輸出質量進行了評估。國防領域涵蓋了廣泛而多樣的主題,而 LLM 在某一主題上的性能取決于是否準備了大量具有高質量和相關性文本的訓練語料庫。因此,由于資源有限,本報告縮小了訓練領域的范圍,將重點放在旨在為安全政策分析人員提供支持的 LLM 示例上。
本報告的重點是旨在為安全政策國防領域內的分析人員提供支持性LLM。LLM需要對文本進行總結,回答與安全政策相關的問題,并根據給定的關鍵短語列表編寫文本。類似的任務在其他領域也同樣適用,因此,僅限于安全政策領域并不意味著按照類似思路訓練的 LLM 可用于其他領域。此外,訓練和實施的基本原則也適用于其他主題和更廣泛的范圍。
本報告的目的是探討在國防背景下部署和運行 LLM 所面臨的技術挑戰,以訓練 LLM 為安全政策分析員提供支持為例進行說明,并評估有效性。具體方法如下:
1.針對國防領域的應用訓練(微調)LLM,包括準備訓練數據、選擇基礎模型、設置訓練環境和訓練過程;
2.評估經過訓練的 LLM 的性能,包括根據不同指標得出的輸出文本的質量、模型對提示變化和其他因素的敏感性,以及微調成本是否被基礎模型的顯著改進所抵消。
本報告的重點是 LLM 技術的核心問題,即模型本身、模型的訓練和模型的能力。因此,本報告將不對特定應用的實現進行研究,例如如何在 RAG 系統(檢索增強生成)中利用 LLM,即從數據庫中檢索外部知識并將其插入提示中,從而使 LLM 能夠解決需要當前信息的查詢問題。雖然這種方法和其他方法是使用 LLM有前途的方法,但它們確實增加了自己的研究問題。此外,任何使用 LLM的方法都得益于對模型的良好訓練和理解,因此超出這些核心基本問題的研究將不在本報告的討論范圍之內。
另一個僅涉及的問題是提示工程。LLM 對提問的措辭很敏感,如果重新表述提問,有時會提供更有用的響應。甚至有人觀察到,通過添加鼓勵性詞語(例如“你是一個聰明的模型,請認真思考下面的問題......”)可以提高性能。這推動了直觀優化提示的大量嘗試。
然而,添加任何直觀提示都會減少適合 LLM 有限輸入窗口的實際提問詞的數量。此外,提示工程的好處并不一致,這些方法有時實際上會降低性能。轉述和修改的組合空間實際上是無限的,而且越來越多的證據表明,最佳提示可能根本不直觀,因此不可能由人類提示工程師來制定。鑒于提示工程目前的不確定狀態,在撰寫本文時還無法提出任何可靠的建議,因此該主題主要歸于未來的工作。
本報告面向國防部門中希望在軍事或情報應用中調整和部署大型語言模型的人員。這既包括評估大型語言模型是否適合預期應用的決策者,也包括訓練和實施基于大型語言模型的解決方案的技術團隊。
一般來說,本報告的寫作水平應該是任何對人工智能和大型語言模型感興趣的讀者都能讀懂的。報告偶爾會深入探討一些細節,但喜歡跳讀的讀者應該不難理解報告的整體內容。如果讀者希望進一步了解使用深度神經網絡進行自然語言處理的理論背景,建議閱讀《使用深度神經網絡進行自然語言處理》(Natural Language Processing Using Deep Neural Networks)報告中的第 3 章。
第 2 章介紹了本報告的理論背景。介紹了大型語言模型這一技術最重要的概念和原理。此外,讀者還將了解本報告將使用的具體訓練優化方法,包括其背景。最后,本節介紹了如何評估處理和生成自然語言的系統這一長期挑戰。評估必須被視為一個開放性的研究問題,相關問題在大型語言模型時代仍然具有現實意義,并影響著本報告中的評估嘗試。
第 3 章介紹了第一個目標:創建國防領域大型語言模型。該章分步描述了選擇合適的基礎大型語言模型、準備合適的訓練數據和訓練模型的過程。因此,本章也可為希望開展類似項目的讀者提供指導。 第 4 章是第二個目標:使用各種定量和定性方法和指標對訓練好的大型語言模型進行評估。前面提到的這一領域的挑戰意味著本節只是對解決這一問題的廣泛嘗試的一個介紹,詳盡的大規模評估將留待今后的工作中進行。
第 5 章討論了評估結果,以及在國防背景下使用大型語言模型的更廣泛影響,包括見解和經驗教訓。 最后,第 6 章總結了評估結果,并對今后可能開展的工作進行了簡要展望。
人工智能(AI)和機器學習(ML)技術的進步有可能徹底改變軍事組織在日益復雜和充滿競爭的未來作戰環境中如何確定情報的優先次序、收集、處理、分析、傳播和利用情報。通過快速整合大量不同的數據集,人工智能/ML 算法可以加快傳統情報流程,快速識別相關趨勢和異常情況,并協助人類分析人員對潛在威脅和機遇做出有據可依的判斷。當海軍陸戰隊在競爭激烈的信息環境(IE)中持續作戰時,將機器生成的知識與人類的洞察力相結合的能力對于保持認知優勢至關重要。
隨著 “信息 ”被指定為第七項作戰功能,美海軍陸戰隊已認識到信息在規劃和成功實施軍事行動中的重要作用。海軍陸戰隊頂層作戰概念(MOC)進一步認識到,需要利用新興技術在所有領域成功發動信息戰。雖然已經提出了一些支持性概念來解決 IE 的各個方面,但要確定如何系統地整合 AI/ML 技術以增強現有的情報能力和流程,仍有許多工作要做。這份擬議的未來作戰概念文件探討了一些新技術和人機界面可為海軍陸戰隊情報部門帶來重大紅利的初步領域,因為這些部門在快速發展的信息環境中運作并預測變化。
作為一個具有適應和創新歷史的機構,海軍陸戰隊完全有能力在決定如何采用和整合新興人工智能和 ML 技術以支持各種軍事行動方面發揮主導作用。雖然政策辯論通常集中在人工智能是否應用于致命的自主或半自主武器上,但人工智能技術可用于許多非動能用途,在提高情報和信息行動效率的同時,也不會引起太多道德問題。雖然人工智能機器無法取代海軍陸戰隊員和其他軍人固有的智慧和決心,但人類分析師與機器之間的新合作模式可以大大提高情報分析的及時性和實用性,為未來的軍事行動提供支持。
本概念文件探討了人工智能(AI)和機器學習(ML)技術如何幫助解決在未來作戰環境中可能變得更加普遍和復雜的新興軍事問題。它描述了人工智能和 ML 應用如何增強當前的情報收集和分析流程與能力,為在這些復雜環境中工作的軍事決策者提供更快速、更有洞察力的情報支持。盡管這些技術在幫助解決挑戰方面擁有巨大潛力,但任何技術解決方案或解決方案集都不應被視為萬能藥,因為競爭對手將無情地尋求利用漏洞,而人的創造力和性格將繼續是獲得優勢和贏得未來戰斗所需的最具決定性的要素。
近年來,人工智能(AI)和機器學習領域的進步為增強人類能力和提高各種自主系統的功能創造了前所未有的機遇,包括在國際安全領域。然而,在國防領域,訓練日益復雜的人工智能系統所需的高質量、高度多樣化和相關的真實世界數據集卻十分稀缺。因此,合成數據正逐漸成為開發和訓練人工智能系統的數據工具箱中必不可少的工具。合成數據的特點和潛在優勢,以及該技術在各個領域的成熟應用,使其成為圍繞在國際安全背景下使用人工智能的辯論的一個相關話題。
本入門指南簡要概述了合成數據,包括其特點、生成方式、增加的價值、風險以及在國防組織和軍事行動中的潛在用例。此外,本手冊還概述了現有的數據挑戰和限制,這些挑戰和限制促使合成數據成為開發日益復雜的人工智能系統的重要工具。
迄今為止,合成數據在國際安全領域的應用大多停留在實驗和探索階段。不過,合成數據的特點可對訓練人工智能系統產生有益影響。特別是,合成數據可以生成高度多樣化甚至新穎的數據集,對數據屬性進行精細控制,必要時自動注釋或標記數據,而且成本效益高。這本入門書探討了合成數據的主要特點如何使軍隊和國防組織受益,讓他們能夠在防御性和進攻性自主系統中集成能力更強、更可靠的人工智能系統。
雖然合成數據有利于訓練人工智能系統,并有助于緩解軍隊和國防組織面臨的一些數據問題,但它并不是靈丹妙藥,也伴隨著風險和挑戰。使用合成數據所帶來的好處將取決于各組織是否有能力駕馭這些風險,以便以負責任和安全的方式并按照法律要求和道德價值觀使用根據合成數據訓練的人工智能系統。
圖1所示。真實世界與合成數據
本報告介紹了美國陸軍研究實驗室內容理解處的研究人員在 2023 財年為采用增強型戰術推理(ETI)框架所做的工作。ETI 的開發旨在支持多智能體環境(數據源智能體、推理模型智能體和決策者智能體)中人工推理研究的實驗和演示。在本報告中,ETI 被用于在跨現實環境中演示基于不確定性的決策推薦功能。從模擬場景的數據開始,再加上額外的外部環境,ETI 智能體對態勢感知信息中的不確定性進行推理,為決策者提供建議選擇。最后,ETI 的產品被轉化為跨現實可視化,以探索新的人機交互模式。
增強戰術推理(ETI)框架的設計和創建是為了支持人工推理研究的實驗和演示。ETI 目前的結構包括三個主要智能體:數據源智能體、推理模型智能體和決策者智能體。數據源智能體分為幾大類:信息(圖像、音頻、文本)、設備、網絡和可視化。數據源智能體可以捕獲數據并將數據傳輸給其他智能體。其他信息系統也可以向這些智能體提供數據。推理模型智能體執行不同方面和不同層次的推理。推理智能體的輸出將有助于生成建議的決策。決策者智能體負責做出最終決策。這些 ETI 智能體可以是模塊化的,允許串行或并行處理,以及獨立或相互依存。在這項工作中,ETI 發揮著決策輔助工具的作用。主要的推理模型是信息不確定性(UoI)模塊。該 UoI 模塊可在決策建議中考慮任何信息的不確定性。ETI 的另一項功能是實現與人類的互動,包括未來的可視化和協作環境。我們在跨現實(XR)環境--運籌、研究與分析加速用戶推理(AURORA)中進行了演示。與 AURORA 等系統集成后,可以探索智能系統與人類交互的新模式。在本報告中,將詳細介紹我們的演示開發過程,包括將模擬環境中的數據映射到可視化環境中,將決策點和 ETI 建議納入行動方案中,以及用 "假設 "情況來增強場景,以探索基于推理的框架的影響。
這項研究的目標是開發、整合和演示基于推理的決策框架。ETI 框架的決策建議被用于師演習訓練和審查系統(DXTRS)中的模擬場景,并在 XR 環境 AURORA 中實現可視化。下文將介紹 DXTRS、場景和 AURORA 可視化的背景情況。
在該場景中,藍軍(BLUFOR)的目標是向東推進,穿過阿塞拜疆名為阿格達姆區的地區,同時與部署在河東的對方部隊(OPFOR)交戰并將其消滅。(見圖 1)
隨著任務的展開,BLUFOR 將遇到一條阻礙他們前進的河流,他們需要在那里進行濕空隙穿越。(見圖 2)
為了探索可視化和與 ETI 的交互,DXTRS 場景和相關的 ETI 推理信息在 XR 環境中顯示。該環境由美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)開發,名為 AURORA。AURORA 為安全、聯網、多設備跨現實信息調解和交互提供了一個通用作戰框架。為了便于可視化,將場景數據集合映射為 AURORA 可以處理的目標光標(CoT)信息。本報告第 3 部分將詳細解釋映射過程。圖 3 和圖 4 顯示了AURORA環境中的場景截圖。
如前所述,ETI 的設計是利用各種推理模型作為模塊,允許不同的推理配置。本次工作的推理模型是用戶體驗模塊。UoI 的概念包括產生或捕捉一個值,并用描述符對不確定值進行分類。這為決策者提供了不確定性的上下文信息,并支持對由此產生的建議進行推理。描述符基于格申論文中提出的不完全信息的性質。目前,該分類法包括不一致、損壞、不連貫、不完整、不精確、復雜和可疑。它們共同描述了特定信息源不確定性的原因和類型。
當前版本的UoI表達式是一個加權和,如式1所示。
公式 1. UoI 計算,其中 dp 為決策點,D 為變量,表示可能是任務關鍵因素的決策組成部分,W 為與這些組成部分的重要性相關的權重,T 為分類權重類別(相當于 G),S 為數據來源類別。UoI 值表示數據源和因素對所分類的不確定性的貢獻。
以下是分類法中七個術語的描述:
無人地面系統(UGS)的軍事試驗正在迅速展開。拆彈機器人已在武裝部隊服役數十年。現在,具有更強能力和自主性的系統正在開發和測試中。
其潛在用途包括運載貨物、傷員后送、偵察、化學智能體探測、通信和火力支援。然而,理想用途與現有技術能力之間存在巨大差距。將系統運送到使用地點、到達目的地后的實際用途以及機器與士兵的互動等問題經常未得到充分研究,但這些問題對于如何將 UGS 納入陸軍并提供真正的作戰優勢至關重要。UGS 的技術局限性必須反映在如何在陸軍中組織任務上。必須適當考慮 UGS 在戰場上的移動方式,因為這往往不是靠它們自己的動力。維護和修理 UGS 需要新的培訓課程以及與工業合作伙伴的密切關系。
可以得出的主要結論是,UGS 將需要人類的大力支持。此外,還必須考慮和管理操作人員的認知負擔。系統移動速度緩慢,在復雜地形中導航困難,這意味著它們不適合執行某些已提出的任務,如在復雜地形中的徒步近戰。重要的是讓盡可能多的士兵參與實驗,并讓他們盡早和經常接觸 UGS。要做到這一點,可以在士兵人數最多的地方(如射擊場和演習場)使用 UGS,并進行模擬。此外,初始培訓應包括對新兵的 UGS 教育和演示。這將有助于建立對這些系統的熟悉、好感和信任。
人機小組的潛力巨大,但炒作不應掩蓋 UGS 的局限性和將新技術融入現有結構的難度。
1.作用和管理:由于目前的技術限制,在有使用紅利的情況下,應在后方地區使用 UGS。將較大型的 UGS 視為可以競標獲得支持的飛機,這樣就可以對供需進行管理,并避免 UGS 成為低空編隊的負擔。
2.部隊設計:現在就需要在部隊規劃中考慮到 UGS 對工程師和輔助人員(隱形尾巴)的額外需求。事實上,管理 UGS 可能需要更多士兵。
3.后勤負擔:必須對 UGS 的運輸和儲存以及電池管理進行詳細規劃,不能簡單地將其添加到現有任務中,否則會進一步消耗稀缺資源。這將確保新技術對整個部隊的影響得到充分考慮。
4.教育:與 UGS 有關的教育和培訓應在實驗進行時立即開展,而不是等到系統正式投入使用時才進行。基本培訓應包括有關 UGS 的教育,哪怕是最基本的形式,以便開始建立信任和熟悉感,為大規模整合 UGS 提供便利。
5.試驗:應將 UGS 試驗納入那些有大量士兵的地區,如射擊場。此外,應確保決策者和進行試驗的人員了解 UGS 試驗和活動的整體情況,并確保領導者在項目的整個生命周期中保持參與,而不是在開始和結束時。明確整個生態系統的所有權是至關重要的,同時鼓勵自下而上的參與將創建一個準備好充分利用用戶信 息系統的用戶群。
研究要求:
由于傳感器數量不斷增加,人工智能(AI)的應用也日益廣泛,未來作戰環境的特點將是信息量大、決策速度快。因此,陸軍指揮官及其參謀人員將需要更快地做出決策和篩選大量信息的能力。商用人工智能系統具有提供這種能力的潛力,但陸軍不能假設 "開箱即用 "的商用人工智能系統具有全部能力,因為這些系統需要針對美國陸軍的具體情況進行充分的訓練。此外,還需要開展研究,以了解目前人工智能在陸軍中的應用情況。總的來說,人工智能往往擅長于主要通過模式識別來解決的任務,以及可以通過任務數據進行預測的任務,如圖像識別、醫療診斷和轉錄。然而,人工智能能否用于提高美國陸軍的信息收集效率,目前還不得而知。因此,在當前的研究中,探討了以下問題: 人工智能能否用于提高美國陸軍任務式指揮流程中的信息收集效率?
方法:
為了回答研究問題,使用了一個商業人工智能應用系統,它反映了陸軍任務式指揮人工智能應用原型的首次開發工作。在這項研究工作中,比較了這一適合陸軍的人工智能系統和其他兩種信息收集方法在信息收集任務中的表現:一種是傳統的信息收集方法(搜索計算機文件夾中的 PDF 文件),另一種是非適合陸軍的人工智能系統。針對軍隊的系統使用軍隊相關知識來幫助搜索(例如,它知道 "MDMP "等同于 "軍事決策過程"),而非針對軍隊的系統則沒有。在以下方面對三種搜索方法進行了比較 1) 參與者找到準確搜索結果所需的時間;2) 參與者搜索結果的準確性;3) 參與者對搜索結果的信心程度;4) 參與者使用系統的工作量感知;5) 參與者對系統可用性的感知。
研究結果:
與使用傳統搜索方法相比,學員在使用人工智能系統進行搜索時既沒有更快,也沒有更準確。在使用人工智能系統時,參與者對搜索結果的信心也沒有傳統方法高。不過,在使用軍隊定制的人工智能系統而不是非軍隊定制的系統時,參與者的搜索速度更快,但準確性也更低。最后,不同搜索方法的參與者對工作量和可用性的感知沒有明顯差異。
利用和傳播研究結果:
這項研究是確定人工智能系統對信息收集效率影響的第一步。總體而言,研究結果表明,人工智能系統可能不會大幅提高美國陸軍任務式指揮流程的信息收集效率,至少不會立即提高。雖然這項研究的重點是在受控實驗室中執行一項無害的任務(即針對戰術情況尋找條令解決方案),但未來計劃中的用途不會像現在這樣無害,這表明未來的研究需要對假設進行檢驗。在對人工智能進行投資的同時,還應在培訓和研究方面進行投資,以充分發揮人工智能的優勢并降低風險。假定人工智能系統是靈丹妙藥并非明智之舉,事實上,這項研究表明,人工智能系統需要經過全面審查。
美國仍然是世界上最突出的軍事和技術力量。在過去十年中,美國認識到人工智能作為力量倍增器的潛力,越來越多地將人工智能(AI)的熟練程度視為美國重要利益和保證美國軍事和經濟實力的機制。特別是,在過去十年中,人工智能已成為美國國防的一項關鍵能力,特別是考慮到2022年美國國防戰略對印度-太平洋地區的關注。
因此,美國國防部(DoD)(以及美國政府和國防機構總體上)對人工智能和相關新興技術表現出越來越大的熱情。然而,雖然美國目前在學術界和私營部門的人工智能研究和開發方面取得了巨大進展,但國防部尚未在廣泛范圍內成功地將商業人工智能的發展轉化為真正的軍事能力。
美國政府在利用國防人工智能和人工智能支持的系統方面通常處于有利地位。然而,在過去的幾年里,各種官僚主義、組織和程序上的障礙減緩了國防部在國防人工智能采用和基于技術的創新方面的進展。最關鍵的是,國防部遭受了復雜的收購過程和廣泛的數據、STEM和AI人才和培訓的短缺。從事人工智能和人工智能相關技術和項目的組織往往是孤立的,而且還存在必要的數據和其他資源相互分離。在美國防部內部存在一種傾向于可靠方法和系統的文化,有時趨向于勒德主義。所有這些因素都導致了人工智能采用的速度出奇的緩慢。美國家安全委員會2021年提交給國會的最終報告總結說,"盡管有令人興奮的實驗和一些小型的人工智能項目,但美國政府離人工智能就緒還有很長的路要走"。
因此,盡管人工智能有可能增強美國的國家安全并成為一個優勢領域,而且鑒于美國在軍事、創新和技術領導方面的長期傳統,人工智能有可能成為一個薄弱點,擴大 "美國已經進入的脆弱窗口"。 如果美國不加快創新步伐,達到負責任的速度,并奠定必要的制度基礎,以支持一支精通人工智能的軍隊,人工智能將繼續成為一個不安全點。
去年,美國防部在這些挑戰中的一些方面取得了進展,調整了國防人工智能的方法。2022年6月,美國防部發布了《負責任人工智能戰略和實施途徑》,將更有數據依據的、負責任的、可操作的人工智能工作列為優先事項,此后開始執行。最重要的是,美國防部已經啟動了對其人工智能組織結構的重大改革,創建了一個新的首席數字和人工智能辦公室(CDAO),以整合其不同的人工智能項目和利益相關者,并使其與該部門的數據流更好地協調。值得注意的是,美國國防部目前正在對其國防人工智能的整體方法進行重大變革和振興。然而,這些新的人工智能努力是否足以讓美國彌補失去的時間,還有待觀察。
人工智能(AI)應用于武器系統是過去10年研究的一個主要趨勢。這些舉措旨在提高武器的準確性,執行非主動的瞄準手段,幫助導航和制導與控制(例如,在全球定位系統被拒絕的情況下),并減少與傳統的基于物理學的方法相比的整體計算資源,以便在更小、更實惠的武器系統上實現智能瞄準。這項研究還包括將作戰人員的戰斗空間擴展到無人駕駛飛行器,并使用蜂群方法與有人和無人平臺進行合作。
我們首先概述了人工智能的描述和歷史,并概述了人工智能在武器系統中的原理、技術和應用。這包括對監督自主系統;制導、導航和控制;行為和路徑規劃;傳感器和信息融合;智能戰略和規劃;兵棋推演建模;以及認知電子戰的研究和計劃的回顧。
然后,對將人工智能應用于武器系統的系統和項目進行了調查。雖然重點是基于美國的系統和項目,但也包括一個關于俄羅斯和中國相關系統的小節。最后,我們對將人工智能用于武器系統的倫理考慮進行了簡要評論。
機器學習(ML)和人工智能研究的最新進展揭示了人工智能在實現創新、增加機器的效用以及增強人類能力和經驗方面的力量和潛力。人工智能技術的顛覆性和其影響的深度還沒有被廣大公眾完全掌握。考慮到新時代的新興技術威脅,展示關鍵和相關的人工智能研究和最先進的技術是很重要的,這些技術不僅為武器系統提供了比傳統武器系統更多的自主權,而且大大增加了它們的殺傷力和戰斗生存能力。最終,人工智能在開發改變游戲規則的技術方面帶來了巨大的戰略機遇,這將確保國家安全、繁榮和技術領先地位。
美國軍方在創造先進的常規武器技術方面取得了巨大的進步,這些技術支持了士兵在戰場上的任務并增強了他們的能力。這些常規武器技術大多是自動化系統,在計劃、執行和完成一項任務或使命時依靠一套預先編程的規則。然而,在中國和俄羅斯等國家新開發的武器的前沿陣地上,人工智能支持的戰爭和高超音速武器給美國武裝部隊帶來了新一代的質量挑戰。下一代戰斗的步伐要求為戰略決策進行時間緊迫和大量的戰斗信息處理,這使得美國的許多常規武器系統只能執行低風險的任務,并在核領域之外處于威懾力減弱的態勢。
必須承認,人是昂貴的訓練資產。在戰場上增加更多的人員并不是推進最先進的戰爭的優雅或廉價的解決方案。相反,用支持人工智能的智能硬件來增強人在回路中的系統,可以在戰區提供更多的眼睛和耳朵,并通過使人工智能系統執行一些簡單和常規的任務來釋放人類的決策。
此外,無人駕駛作戰飛機系統(UCAS)是一種成熟的具有成本效益的系統解決方案,用于執行情報、監視和偵察(ISR)任務和遠程空襲。然而,自動化能力仍然受到人類在環形操作、評估和接觸的限制。雖然在任何可預見的未來都沒有打算消除武器化人工智能系統中的人類元素,但人類的能力仍然構成這些系統協同潛力的上限。但是,一個由人工智能驅動的智能武器系統的新生態系統將迎來新的戰爭形式和戰略。
人工智能國家安全委員會在其2021年的報告中提出,美國國防部(DoD)的軍事企業在整合人工智能技術方面落后于商業部門,并敦促在2025年前為整個國防部廣泛整合人工智能奠定基礎[1]。
幾個世紀以來,哲學家們一直在考慮以某種形式人工復制人類智能的某個方面的概念。1869年,威廉-杰農創造了第一臺基于布爾邏輯實現邏輯計算的機器。該機器能夠比人類更快地計算布爾代數和維恩圖。隨著這種邏輯計算機器的發展,人們很自然地質疑機器是否可以通過邏輯推理來為人類解決問題并做出決定。圖1-1中的時間軸顯示了人工智能的歷史和演變,并在本節中進行了詳細說明[2]。
在理論計算機科學的一些最早的工作中,英國數學家阿蘭-圖靈(Alan Turing)思考了機器是否能像人類一樣智能地行為和解決問題的問題。他在他的圖靈測試中提出,如果一臺機器能模糊地模仿人類這樣的智能生物,那么這臺機器就是智能的。這一理論測試成為一種指導性的形式主義,在這種形式主義中,當前的機器被測試其模仿人類智能概念的能力或潛力。作為測試的見證,Loebner獎是一個圖靈測試競賽,其任務是根據圖靈提出的基本問題來評估機器智能研究的現狀。
1928年,約翰-馮-諾伊曼證明了Minimax算法的基本定理,該算法旨在提供一種在零和博弈過程中使最大可能損失最小的策略。
圖1-1. AI歷史年表
在第二次世界大戰的高峰期,阿蘭-圖靈和他的團隊開發了一種機器算法,可以破譯德國的英格瑪信息密碼。他的算法的成功,推動了將復雜任務委托給機器的進一步努力,是機器計算的基礎,也是ML發展的先導。
1943年,McCulloch和Pitts開創了神經網絡(NN)的最早概念--McCulloch-Pitts的形式網絡理論--這在1949年馮-紐曼在伊利諾伊大學的四次演講中得到了體現[3]。
大約在同一時間,約翰-麥卡錫,一位計算機科學家,在1955年創造了 "人工智能 "來指代機器智能;計算機科學家艾倫-紐維爾;以及赫伯特-A-西蒙,一位經濟學家和政治學家,開創了第一個旨在自動推理的真正程序(稱為邏輯理論家)。隨著這一突破性的努力,對智能機器的探索開始了,為人工智能作為計算機科學的一個新的學術研究領域鋪平了道路。
1957年,一位名叫弗蘭克-羅森布拉特博士的心理學家開發了一個名為 "感知器 "的簡化數學模型,描述了我們大腦中的神經元如何運作。這一成就被強調為 "Perceptron收斂定理"。
同年,理查德-貝爾曼開發了動態編程,用于解決一類最佳控制問題。他還介紹了離散隨機最優控制問題的馬爾科夫決策過程表述,這為現在所稱的 "強化學習 "奠定了重要基礎。
在這些發展之后,另一位名叫阿瑟-塞繆爾的人工智能先驅利用他早先在ML方面的開創性工作,成功地開發了第一個檢查者算法。他實現了現在被稱為 "Alpha-Beta修剪 "的早期版本,這是一種搜索樹方法,通過Minimax算法減少評估節點的數量。1959年,一位名叫威廉-貝爾森(William Belson)的統計學家開發了一種名為決策樹的非參數、監督學習方法的早期版本。
在20世紀60年代,人工智能研究的重點是解決數學和優化問題。1960年,羅納德-霍華德提出了馬爾科夫決策過程的策略迭代方法,建立了一些與強化學習有關的最早的工作。
到1968年,著名的路徑搜索算法A-star是由計算機科學家尼爾斯-尼爾森提出的。60年代末,機器人建模、控制和機器視覺方面取得了進展,導致在1972年開發了第一個名為WABOT-1的 "智能 "擬人機器人,并整合了肢體操縱、視覺和語音系統。
Harry Klopf的 "適應性系統的異質理論 "的復興對適應性系統的試錯范式的發展有很大影響。1977年,Ian Witten提出了最早的強化學習系統之一,使用了時間差法。理查德-薩頓和安德魯-巴托設計了一種強化學習算法,稱為演員批評法。
由于70年代中期到80年代末計算機的計算能力限制,人工智能研究在有大量數據處理要求的應用中發現了困難,如視覺學習或優化問題。同時,數學研究 "證明 "了(單層)感知器不能學習某些模式。此外,1973年發表的一份Lighthill報告對人工智能的潛力非常悲觀,這導致人工智能研究的資金被削減。結果,資金短缺導致人工智能的研究經歷了一個被稱為 "人工智能冬天 "的時期。
到了80年代中后期,繼1986年多層感知器的發展之后,在NNs方面也做出了重要的理論貢獻。這些貢獻是David Rumelhart在1986年開發的遞歸神經網絡(RNNs),John Denker等人在1987年開發的貝葉斯網絡,以及Yann LeCun在1989年開發的卷積神經網絡(CNNs)。
此外,Chris Watkins在1989年開發了另一種重要的強化學習方法,稱為 "Q-Learning"。1992年,在IBM的Thomas J. Watson研究中心,Gerald Tesauro通過自我強化學習為雙陸棋游戲訓練了TD Gammon程序。1997年,IBM的 "深藍 "計算機使用粗暴的、基于搜索的算法擊敗了國際象棋世界冠軍加里-卡斯帕羅夫,使其成為第一個在國際象棋中戰勝頂級職業選手的程序。
在90年代末和21世紀初,在ML中看到的大部分進展是由計算機處理、存儲和分布式計算方面的指數級進展所推動的。2007年,需要大量計算資源的保證最優玩法在跳棋中得到了解決。在過去的20年里,圖形處理單元用于通用計算的激增導致了今天人工智能應用的進一步進展,特別是在2012年和2014年,不同的NN拓撲結構,如殘差網絡和生成式對抗網絡的發展。
2015年,ImageNet競賽,一個為約400萬張圖像的ImageNet圖像集開發分類器的公開競賽,有一個冠軍,其錯誤率被認為低于一個人。2016年,DeepMind的AlphaGo程序在擊敗當時被認為是最優秀的圍棋選手李世石后,成為最佳AlphaGo選手。繼AlphaGo的學習能力之后,AlphaZero在2017年擴展了AlphaGo,成為國際象棋和Shogi的最佳棋手。
2019年,美國國防部高級研究計劃局(DARPA)推出了AlphaDogfight,這是基于人工智能的空戰算法在模擬的F-16狗斗中與經過頂級訓練的飛行員進行的一系列三輪競賽。第一輪和第二輪比賽中,人工智能程序相互競爭。第三輪將人工智能勝利者的飛行員提煉出來,與美國空軍武器學校的優秀畢業生進行競爭。蒼鷺系統的人工智能飛行員不僅在競爭激烈的人工智能空中戰斗人員中獲勝,而且在與訓練有素的人類F-16飛行員的較量中取得了令人難以置信的五次勝利。
OpenAI在2020年5月推出了一個名為GP3的 "自然語言處理 "模型,它生成的寫作內容與人類無異。其最新版本可以從簡單的描述性語言生成編程語言代碼[4]。人工智能的歷史繼續向前發展,特別是對國防部的武器系統應用。本報告的其余部分將調查與武器系統有關的當代人工智能技術和系統。
根據Barr和Feigenbaum的說法,人工智能被定義為 "計算機科學中與設計智能計算機系統有關的部分,即表現出我們與人類行為中的智能有關的特征的系統--理解語言、學習、推理、解決問題等等"[5]。
Stuart Russel和Peter Norvig在他們的《人工智能:一種現代方法》一書中對人工智能的最新定義是:"設計和建造能夠從環境中接收感知并采取影響環境的行動的智能體" [6]。
Pei Wang優雅地將智能定義為 "在知識和資源不足的情況下的適應"[7]。雖然該定義沒有說明適應的目的(如目標),但它揭示了為達到這種智能需要完成的工作。
如果要以人類為中心定義人工智能,即執行人類智能水平的任務,那么人工智能需要感知、推理、知識構建、推理、決策和計劃、學習、交流,以及有效移動和操縱環境的能力。
人工智能的科學目標是回答哪些關于知識表示、學習、規則系統、搜索等的想法可以解釋各種類型和水平的真實智能。工程目標是為不同的應用領域開發人工智能技術,以解決現實世界的問題。
在人工智能的科學基礎上,我們發現來自不同科學領域的可識別概念--哲學、邏輯/數學、計算、心理學和認知科學、生物學和神經科學以及進化。在尋求發現和更好地理解人工智能是什么或將是什么的過程中,來自這些不同知識領域的貢獻已經被證明是不可避免和不可或缺的了。許多研究人工智能的領域都在同時構建人類認知如何運作的模型,并在它們之間采用有用的概念。例如,NN,一個源于生物學的概念,試圖在簡化的人工神經元的基礎上建立人工系統,這個概念導致了一個簡單的抽象知識結構的表示,足以解決大型計算問題集。
人工智能大致分為三個主要層級--人工狹義智能(ANI)、人工通用智能(AGI)和人工超級智能(ASI)。圖1-2說明了這三個層級中的各種分組,本節將更多地討論這些分組。
ANI是對一個執行狹窄或單一任務的人工智能系統的描述。它可以包括各種方法來獲得結果,如傳統的ML(以圖像分類為例)或目標檢測(包括ML和基于規則的系統)。給定一組規則或約束,它的目標是提供一組代表狹義任務的輸出。ANI不會擴展或學習新的認知,也不會自我學習新的操作模式。數據挖掘、大多數專家系統和針對某一應用的預測功能(例如,垃圾郵件檢測和面部識別)都被認為是ANI的形式。ANI還包括 "有限記憶人工智能"--用于自動駕駛汽車的系統類型,使用過去的經驗(訓練),并學習做決定,隨著時間的推移而改進。
AGI是一種更強大的智能形式,因為它被更多類似人類智能的特征所增強,例如自主學習的能力和解釋情緒和語音語調的能力。這使得與AGI相關的智能與人類的智能水平相當。AGI的一些關鍵核心能力如下:
ASI是一種超越最聰明的人類頭腦的智能模型。實現ASI的方法仍在概念化中,但將是那些超越AGI并需要某種自我意識的系統。這些系統最好能代表所有人類的認知能力,甚至更多。
ML是機器從數據中學習的能力,目的是做出準確的預測。它大致分為四類學習,提供了豐富的專用和通用的技術家族。
在這種形式的學習中,訓練數據使用包含的輸入和標記的或預定的輸出數據。如果有缺失的輸入或輸出條目,它們會被預處理,以便將一個輸入正確地映射到其真正的對應輸出。通過從正確生成的訓練數據集中學習,系統學會了將不在原始數據集中的輸入與預測的輸出(標簽或值)聯系起來。這種類型的訓練解決的典型問題是回歸和分類[8]。
這種形式的學習中,系統直接從未標記的數據中發現有趣的或隱藏的結構[9]。無監督學習被用于聚類分析、降維或估計可能產生輸入數據的密度[8]。
當數據集包含有標記的和無標記的數據時,這種學習形式的系統利用無標記的數據來更好地捕捉潛在的數據分布,并獲得一個更好的預測,如果它只從標記的數據中訓練的話。這種學習形式適用于訓練數據集中的標注數據遠遠少于未標注數據的情況[8]。
在這種學習模式中,系統使用獎勵/懲罰機制進行訓練,這樣它所選擇和執行的行動,當行動可取時,會使系統得到獎勵,當行動不可取時,會受到懲罰。強化學習問題涉及學習如何做(如何將情況映射到行動上)以最大化數字獎勵信號[9]。
人工智能有可能應用于武器系統生態系統的許多方面。它被用來控制系統,從而實現自主性和提高性能,以在具有挑戰性的環境中選擇指導、導航和控制方面的問題。同樣,人工智能可用于解決任務和路徑規劃中的挑戰性問題,從而實現更高水平的復雜任務目標和操作要求。人工智能也被用于電子戰領域的支持、反制,甚至是反制措施。它還可能被用于來自不同系統層次和領域的信息融合,以泄露抽象的高價值戰場情報,并提供關鍵線索和快節奏的決策,從而在現代戰爭中創造寶貴的戰術優勢。
報告的這一部分將強調最先進的人工智能方法在適用于自主和武器系統的各種人工智能問題領域的使用。它是根據以下問題領域來組織的。
自主性
感知中的人工智能
制導、導航和控制中的人工智能
任務和路徑規劃
智能戰略
對手建模
認知型電子戰
第一章 引言
1.1問題陳述
1.2常規武器系統
1.3 AI簡史
1.4什么是AI?
1.4.1 ANI
1.4.2 AGI
1.4.3 ASI
1.5 ML
1.5.1監督學習
1.5.2無監督學習
1.5.3半監督學習
1.5.4強化學習
第二章 最先進的方法
2.1學習人工智能范例
2.1.1深度學習
2.1.2強化學習
2.2隨機優化和搜索算法
2.2.1隨機優化
2.2.2圖形搜索算法
2.3新興人工智能范例
2.3.1神經符號AI
2.3.2 NE
第三章 人工智能在武器系統中的應用
3.1自主性
3.1.1定義、級別和框架
3.1.2自主系統的功能組件
3.2感知中的人工智能
3.2.1圖像分割
3.2.2目標檢測、分類和場景理解
3.2.3傳感器融合
3.3制導、導航和控制中的人工智能
3.3.1 GN&C系統
3.3.2常規控制理論方法
3.3.3智能控制
3.3.4本地化和導航
3.3.5系統識別
3.4任務和路徑規劃
3.4.1GAs
3.4.2群體智能
3.5智能策略
3.6對手建模和兵棋推演
3.7認知電子戰
3.7.1電子支持措施
3.7.2 ECMs
3 .7.3 ECCMs
第四章 將人工智能應用于武器系統的系統和程序
4.1天線系統
4.1.1下一代空中優勢計劃
4.1.2 Shield AI Hivemind
4.1.3 Shield AI V-Bat
4.1.4 Kratos XQ-58 Valkyrie
4.1.5 MQ-20 Avenger UCAS
4.1.6自主彈藥
4.1.7 Dynetics X-61小精靈
4.2 海軍系統
4.3 陸軍系統
4.3.1 QinetiQ/Pratt Miller的遠征自主模塊化飛行器
4.3.2Textron系統公司的Ripsaw M5
4.3.3 Rheinmetall公司的Lynx KF41
4.4 群系統
4.4.1 DARPA的攻擊性蜂群戰術
4.4.2自主協同小直徑炸彈群
4.4.3 Perdix群
4.4.4 Mako UTAP22
4.4.5 Coyote UAS Block 3
4.4.6機器人代理命令和傳感群的控制架構
4.4.7激流勇進微型無人潛水器
4.5戰斗管理和智能指揮與控制
4.6 ISR和目標系統
4.6.1 SRC的HPEC Pod
4.6.2復仇女神
4.7導航
第五章 未來作戰中的AI
第六章 人工智能和外來威脅
6.1俄羅斯
6.2中國
第七章 倫理考量
第八章 總結
參考文獻
人工智能(AI)的最新進展為許多經典的AI應用帶來了突破,例如計算機視覺、自然語言處理、機器人和數據挖掘。因此,有很多人努力將這些進展應用于軍事領域,如監視、偵察、威脅評估、水雷戰、網絡安全、情報分析、指揮和控制以及教育和培訓。然而,盡管人工智能在軍事應用上有很多可能性,但也有很多挑戰需要考慮。例如,1)高風險意味著軍事人工智能系統需要透明,以獲得決策者的信任并能進行風險分析;這是一個挑戰,因為許多人工智能技術具有黑盒性質,缺乏足夠的透明度;2)軍用 AI 系統需要穩健可靠;這是一個挑戰,因為已經表明即使對所使用的 AI 技術沒有任何了解,AI 技術也容易受到輸入數據微小變動的影響,并且 3) 許多 AI 技術基于需要大量數據的機器學習訓練;這是一個挑戰,因為在軍事應用中經常缺乏足夠的數據。本文介紹了正在進行的項目成果,以說明軍事應用中人工智能的可能性,以及如何應對這些挑戰。
人工智能(AI),特別是機器學習(ML)和深度學習(DL),在十年內已經從研究機構和大學的原型設計轉向工業和現實世界應用。使用DL技術的現代人工智能已經徹底改變了傳統人工智能應用的性能,如機器翻譯、問答系統和語音識別。這一領域的許多進展也將其優秀的想法變成了卓越的人工智能應用,能夠進行圖像說明、唇語閱讀、語音模仿、視頻合成、連續控制等。這些成果表明,一個能夠自我編程的機器有潛力:1)提高軟件和硬件開發的效率,2)以超越人類的水平完成特定的任務,3)為人類以前沒有考慮過的問題提供創造性的解決方案,4)在人類已知的主觀、偏見、不公平、腐敗等方面提供客觀和公平的決定。
在軍事背景下,人工智能的潛力存在于所有維度的軍事空間中(即陸地、海洋、空中、空間和信息)和所有級別的戰爭內(即政治、戰略、作戰和戰術)。例如,在政治和戰略層面,人工智能可以通過制作和發布大量的虛假信息來破壞對手的穩定狀態。在這種情況下,人工智能很可能也是抵御這種攻擊的最佳人選。在戰術層面,人工智能可以改善無人系統的部分自主控制,以便人類操作員可以更有效地操作無人系統,最終擴大戰場影響力,增強戰場實力。
然而,正如我們將在這項工作中指出的那樣,有幾個關鍵挑戰可能會減緩或限制現代人工智能在軍事應用中的使用:
本文的目的是強調人工智能在軍事應用中的可能性和主要挑戰。第2節簡要介紹了DL,它是本文關注的主要人工智能技術。第3節提供了幾個人工智能在軍事領域中應用的例子。第4節描述了與軍事領域中人工智能的關鍵挑戰,以及部分可用于解決這些挑戰的技術。第5節提出了結論。
我們所說的DL是指由多個非線性處理單元層組成的機器學習模型。通常情況下,這些模型由人工神經網絡表示。在這種情況下,神經元指的是一個單一的計算單元,其輸出是通過一個(非線性)激活函數的輸入的加權和(例如,一個只有在信號為正時才通過的函數)。DNN指的是具有大量串連神經元層(神經元層由神經元并聯組成)的系統。與DNN相對的是淺層神經網絡,它只有一層平行連接的神經元。
直到大約十年前,DNN的訓練幾乎是不可能的。第一個成功的深度網絡的訓練策略是基于一次訓練一個層。逐層訓練的深度網絡的參數最終使用隨機梯度方法進行微調(同時),以最大限度地提高分類精度。此后,許多研究進展使得直接訓練DNN成為可能,而無需逐層訓練。例如,人們發現,網絡權重的初始化策略與激活函數的選擇相結合是解決問題的關鍵。甚至一些技術,如在訓練階段隨機停用神經元,以及在信號到達激活函數之前對其進行歸一化處理,也已證明對于使用 DNN 獲得良好結果非常重要。
表示學習是DNN高性能的主要原因之一。使用DL和DNN,不再需要手動制作學習特定任務所需的特征。相反,辨別特征是在 DNN 的訓練過程中自動學習的。
支持 DL 應用的技術和工具如今比以往任何時候都更加好用。通過廉價的計算資源、免費的 ML 框架、預訓練模型、開源數據和代碼,僅使用有限的編程/腳本技能即可成功應用和定制高級 DL。
本節介紹了幾個可以應用人工智能來提高軍事能力的例子。
海上監視是利用固定雷達站、巡邏飛機、船舶,以及近年來使用自動識別系統(AIS)對海上船只進行的電子跟蹤。這些信息源提供了大量的關于船只運動的信息,這些信息可能會揭示船舶非法的、不安全的、有威脅的和異常的行為。然而,大量的船舶運動信息使得手動檢測此類行為變得困難。因此ML-方法被用來從船舶運動數據中生成常態模型。任何偏離常態模型的船舶運動都被認為是異常的,并提交給操作員進行人工檢查。
一種早期的海事異常檢測方法使用模糊 ARTMAP 神經網絡架構根據港口位置對正常船舶速度進行建模。另一種方法是利用運動模式的關聯學習來預測基于其當前位置和行駛方向的船舶運動。其他方法則使用基于高斯混合模型(GMM)和內核密度估計(KDE)的無監督聚類。這些模型能夠檢測出改變方向、穿越海路、向相反方向移動或高速行駛的船只。最近的方法是使用貝葉斯網絡來檢測錯誤的船舶類型,以及不連續的、不可能的和徘徊的船舶運動。海事異常檢測的未來發展還應該考慮周圍的船只和多艘船只之間的互動。
水雷對海上船只構成重大威脅,被用來限制船只行動或阻止船只通過受限水域。因此,反水雷措施(MCM)試圖定位和消除水雷,以實現行動自由。越來越多地使用配備合成孔徑聲納 (SAS) 的自主水下航行器 (AUV) 進行水雷搜索,該水下航行器能提供厘米分辨率的海底聲學圖像。由于AUV收集了大量的SAS圖像,自動目標分類對于區分潛在的水雷與其他物體是很有用的。雖然對水雷的自動目標分類已經研究了很長時間,但DNN在圖像分類方面的高性能表現使人們對如何將這種辦法用于自動地雷探測產生了興趣。
一些研究顯示了DNN在水雷探測方面的潛力。例如,這些研究描述了如何將假水雷的形狀、類似水雷的目標、人造物體和巖石放置在海底的各種地理圖形位置上。然后用AUV和SAS對海底進行測量。結果顯示,與傳統的目標分類器相比,DNN的性能明顯提高,對水雷形狀的檢測概率更高,誤報率更低。同樣,這些研究也描述了如何生成圓柱形物體和各種海底景觀的協同SAS圖像,并這些圖像用來訓練DNN。進一步的研究可能會探究如何從所有類型的雜波物體中分辨出水雷,結合檢測和分類,以及對噪聲、模糊和遮擋的魯棒性等
入侵檢測是網絡安全的重要組成部分,可在惡意網絡活動危及信息可用性、完整性或機密性之前對其進行檢測。入侵檢測是使用入侵檢測系統(IDS)進行的,該系統將網絡流量分類為正常或入侵。然而,由于正常的網絡流量往往具有與實際攻擊相似的特征,網絡安全分析師對所有入侵警報的情況進行分析,以確定是否存在實際的攻擊。雖然基于簽名的IDS通常擅長檢測已知的攻擊模式,但它們不能檢測以前未見過的攻擊。此外,基于簽名的檢測的開發往往是緩慢和昂貴的,因為它需要大量的專業知識。這限制了系統對快速演變的網絡威脅的適應性。
許多研究使用 ML 和其他 AI 技術來提高已知攻擊的分類準確性、檢測異常網絡流量(因為這可能表明新的攻擊模式偏離了正常網絡流量)以及自動化模型構建。然而,這些系統很少被實際使用。其原因是,入侵檢測給出了具體的挑戰,如缺乏訓練數據、網絡流量變化大、錯誤成本高以及難以進行相關評估。雖然可以收集大量的網絡流量,但這些信息往往是敏感的,只能部分匿名化處理。使用模擬數據是另一種選擇,但它往往不夠真實。然后,必須根據模式是正常還是入侵,或用于確保無攻擊的異常檢測來標記數據以進行監督學習,這通常很難做到。最后,模型需要是透明的,以便研究人員能夠理解檢測限制和特征的含義。
另一項提高網絡安全的措施是在安全審計期間進行滲透測試,以確定潛在的可利用的安全弱點。由于許多網絡的復雜性和其中的大量主機,滲透測試通常是自動化的。一些研究已經調查了如何使用網絡的邏輯模型而不是實際的網絡將 AI 技術用于模擬滲透測試。網絡通常用攻擊圖或樹來表示,描述對手如何利用漏洞闖入系統。描述了模型在表征方式方面的不同之處:1) 攻擊者的不確定性,從抽象的成功和檢測概率到網絡狀態的不確定性,以及 2) 從已知的前后條件到一般感知和觀察的攻擊者行為-結果的服務。此外,通過網絡和主機的正式模型,可以對不同的緩解策略進行假設分析。未來對滲透測試的研究可能會使用攻擊者和防御者之間交互的認知有效模型,例如,深度強化學習來探索可能攻擊的大問題空間。
正如第3節中的案例所示,在為軍事目的開發和部署的基于人工智能的應用之前,有一些尚未解決的挑戰是很重要的。在本節中,我們將討論我們認為對軍事人工智能最關鍵的挑戰:1)透明度,2)脆弱性,以及3)在有限的訓練數據下的學習。其他重要的,但不太關鍵的,與優化、泛化、架構設計、超參數調整和生產級部署有關的挑戰,在本節中沒有進一步討論。
許多應用除了需要高性能外,還需要高透明度、高安全性以及用戶的信任或理解。這種要求在安全關鍵系統、監控系統、自主智能體、醫學和其他類似的應用中很典型。隨著最近人工智能技術的突破,人們對透明度的研究也越來越感興趣,以支持最終用戶在此類應用中的使用與透明度相關的成果。
人工智能所需的透明度取決于終端用戶的需求。利普頓描述了透明度可能涉及五種類型的用戶需求:
原則上,有兩種方法可以使人工智能系統透明。首先,某些類型的模型被認為比其他的更容易解釋,例如線性模型、基于規則的系統或決策樹。檢查這些模型可以理解它們的組成和計算。Lipton描述了可解釋性取決于用戶是否能夠預測系統的建議,理解模型參數,以及理解訓練算法。其次,系統可以解釋其建議。這種解釋可以是文字的,也可以是視覺的。例如,通過指出圖像的哪些方面最有助于其分類。Miller 對社會科學研究中如何使用這些知識來設計 AI 系統的進行了的回顧。通常情況下,人們用他們感知到的信念、欲望和意圖來解釋其他智能體的行為。對于人工智能系統來說,信念對應于系統關于情況的信息,欲望對應于系統的目標,而意圖對應于中間狀態。此外,解釋可能包括行動的異常性、使成本或風險最小化的偏好、對預期規范的偏離、事件的回顧性和行動的可控性。主要的發現是:
貝葉斯規則列表(BRL)是可解釋模型的一個例子。BRL由一系列的if(條件)then(結果)else(替代)語句組成。Letham等人描述了如何為一個高度準確和可解釋的模型生成BRL來估計中風的風險。條件離散化了影響中風風險的高維多變量特征空間,結果描述了預測的中風風險。BRL在預測中風風險方面具有與其他ML方法類似的性能,并且與其他現有評分系統一樣具有可解釋性,但其準確性較低。
基于詞典的分類器是文本分類的另一個可解釋模型的例子。基于詞典的分類器將術語的頻率與每個類別中出現的術語的概率相乘。得分最高的類別被選為預測對象。Clos等人使用一個門控遞歸網絡對詞典進行建模,該網絡同時學習術語和修飾語,如副詞和連詞。受過訓練的詞典是關于論壇中的帖子是支持還是反對死刑以及對商業作品的看法。詞典的表現比其他ML方法更好,同時也是可解釋的。
盡管DNN在許多應用中提供了很高的性能,但它們的子符號計算可能有數百萬個參數,這使得人們很難準確理解輸入特征對系統推薦的貢獻。由于DNN的高性能對許多應用來說是至關重要的,因此人們對如何使它們更容易解釋產生了濃厚的興趣(見一篇評論)。許多用于解釋DNN的算法將DNN處理轉化為原始輸入空間,以便將辨別特征可視化。通常,有兩種通用方法用于特征的可視化,即激活最大化和DNN解釋。
激活最大化會計算哪些輸入特征將最大限度地激活可能的系統建議。對于圖像分類來說,這代表了理想的圖像,它顯示了每個類別的可區分和可識別的特征。然而,由于各類可能使用同一物體的許多方面,而且圖像中的語義信息往往是分散的,所以圖像往往看起來不自然。激活最大化的方法的一些例子是梯度上升法,更好的正則化方法以增加通用性,以及合成首選圖像法。
DNN的解釋是通過強調區分輸入特征來解釋系統建議。在圖像分類中,這種可視化可能會突出顯示支持或反對某個類別的區域,或者僅顯示包含區分特征的區域。計算鑒別特征的一種方法是使用局部梯度或其他變化度量的敏感性分析。然而,敏感性分析的一個問題是,它可能顯示輸入中不存在的判別特征。例如,在圖像分類中,敏感性分析可能會顯示物體被遮擋的部分,而不是可見部分。逐層相關性傳播通過考慮特征存在和模型反應來避免這個問題。
與分類不同的是,人工智能規劃是基于動態的領域模型。Fox等人描述如何使用領域模型來解釋為什么行動被執行或不執行,為什么一些行動不能被執行,使未來行動的因果關系,以及重新規劃的需要。
由于公平性對許多人工智能應用來說非常重要,Tan等人描述了如何利用模型蒸餾來檢測黑箱模型的偏差。模型蒸餾法將更大更復雜的模型進行簡化,而沒有明顯的準確性損失。為了提高透明度,他們使用了基于淺層樹的廣義加性模型,對每個參數和兩個參數之間的相互作用進行建模。他們根據黑盒模型的系統建議訓練一個透明模型,并根據實際結果訓練一個透明模型。對兩個模型的推薦差異的假設檢驗體現了黑盒模型引入偏差的情況,然后可以通過比較兩個透明模型來診斷偏差。該系統在犯罪風險、借貸風險和卷入槍擊事件的個人風險方面進行了評估。結果顯示,一個黑盒模型低估了年輕罪犯和白種人的犯罪風險,而高估了美國本土非洲裔犯罪的風險。
在本節中,我們討論DNN在兩個不同方面的脆弱性。1)對輸入操縱的脆弱性和2)對模型操縱的脆弱性。我們首先看一下對輸入信號的操縱:
在提供DNN的情況下,人們發現很容易調整輸入信號,從而使分類系統完全失敗。當輸入信號的維度很大時,例如圖片,通常只需對輸入中的每個元素(即像素)進行不易察覺的微小調整,就足以欺騙系統。用同樣的技術來訓練DNN,通常是采用隨機梯度法,通過觀察梯度的符號,你可以很容易地找到每個元素應該朝哪個方向改變,以使分類器錯誤地選擇目標類別或僅僅是錯誤分類。只需幾行代碼,最好的圖像識別系統就會被欺騙,相信一張車輛的圖片是一只狗。下面的圖 1 顯示了操作前后的圖像以及操作前后類的可能性。
上述方法假設有對DNN的完全訪問權,即所謂的白盒攻擊。人們發現,即使是所謂的黑箱攻擊,即你只觀察到系統的輸入和輸出類型,也是可能的。在其中,作者采用從他們想要攻擊的黑盒系統中稀疏采樣所獲得的數據來訓練一個替代網絡。鑒于替代網絡,你可以使用上述的白盒攻擊方法來制作對抗性輸入。一個學習替代網絡的替代方法被提出來,在這個方法中,遺傳算法被用來創建導致系統錯誤分類的攻擊向量。同一作者甚至表明,通常只需修改圖像中的一個像素,盡管常常是可察覺的,就能實現成功的攻擊。
圖 1:從小型貨車到西伯利亞雪橇犬。 原始圖像和操縱(對抗性制作)圖像之間的絕對差異(放大 20 倍)顯示在右側。 對抗性示例(中心)是使用 Kurakin 的基本迭代方法(BIM)生成的。
當設計一個DNN,但只能獲得少量的訓練數據時,通常會使用預訓練的模型來達到良好的性能。這個概念被稱為遷移學習,一個常見的應用是采用在大量數據上訓練過的模型,根據具體問題替換和定制網絡中的最后幾層,然后在最后階段(有時甚至是整個系統)利用可用的訓練數據微調參數。目前已經有大量的預訓練模型可以從互聯網上下載。那么一個相關的問題是:"我們怎么知道那些上傳模型的人沒有壞心眼?"。作者在識別美國交通標志的模型中插入后門,就考慮了這種類型的漏洞。例如,一個貼紙被訓練為屬于停止標志以外的類別。然后他們表明,當使用后門(即在交通標志上放置一個貼紙)時,基于美國交通標志網絡的識別瑞典交通標志的系統會有負面的反應(大大損害了瑞典交通標志系統的分類準確性)。
減少DNN對輸入信號操縱的脆弱性的一種方法是在模型的訓練過程中明確包括被操縱/對抗的例子。也就是說,除了原始訓練數據外,還產生了對抗性例子,并用于模型的訓練。
另一種方法是使用一個叫做防御蒸餾的概念。簡而言之,該方法試圖降低輸出信號只指出真實類別的要求,并迫使其他類別的概率為零。這分兩步完成。第一步是對DNN進行常規訓練。在第二步,將第一個神經元網絡的輸出(類別概率)用作新的類別標簽,并使用新的(軟)類別標簽訓練一個新的系統(具有相同的架構)。這已被證明可以減少漏洞,因為你沒有把DNN與訓練數據貼得太緊,并保留了一些合理的類間關系。
其他防御方法,例如特征壓縮技術,例如均值或中值濾波或非線性像素表示,例如單熱或溫度計編碼。
不幸的是,所描述的方法都不能完全解決漏洞問題,尤其是如果攻擊者對模型和防御方法有充分的了解的話。
在軍事背景下開發基于ML的應用是具有挑戰性的,因為軍事組織、訓練設施、平臺、傳感器網絡、武器等的數據收集應用最初不是為ML目的設計的。因此,在這個領域,往往很難找到真實世界的、高質量的、足夠大的數據集,可以用來學習和深入理解的。在本節中,我們將探討即使在有限的訓練數據中也可以用來建立ML應用的技術。
遷移學習(也在第4.2.2節中提到)是一種技術,通常在數據集較小和計算資源有限時使用。這個想法是在開發針對其他類似任務的新模型時,重復使用通常由 DNN 表示的預訓練模型的參數。至少有兩種方法可用于DL應用中的遷移學習:
事實證明,遷移學習也可以提高模型的泛化能力。然而,隨著源任務和目標任務之間距離的增加,遷移學習的積極作用往往會減少。
生成性對抗網絡(GANs)是由Goodfellow等人發明的,是一種生成模型,可用于半監督學習,其中將一小組標記的數據與一大組未標記的數據相結合以提高模型的性能。基本的GAN實現由兩個DNN組成,分別代表一個生成器和一個判別器。生成器被訓練成產生假數據,而判別器被訓練成將數據分辨為真實或虛假。當這兩個網絡同時被訓練時,一個網絡的改進也會導致另一個網絡的改進,直到最后達到一個平衡。在半監督學習中,生成器的主要目標是產生未標記的數據,用于提高最終模型的整體性能。除了半監督學習之外,GANs還被用于:
建模和仿真已被軍隊廣泛用于培訓、決策支持和研究等。因此,有很多經過長期驗證的模型,也有可能被用于生成ML應用的合成數據。例如,飛行模擬器可以用來生成置于不同環境中飛機的合成圖像。在這種情況下,標簽是自動的,因為在生成合成圖像之前,飛機的類型是已知的。然而,不足為奇的是,在將模型應用于真實世界的圖像時,使用合成圖像可能會導致性能不佳。目前正在探索的一種方法是采用GANs增強合成圖像,使其具有照片般的真實性。這種方法已經得到成功的應用。
人工智能最近的突破正在逐漸達到可以用于軍事應用的地步。 該論文描述了在監視、水下魚雷戰和網絡安全中使用人工智能的一些可能性。 其他潛在應用包括使用半自動駕駛車輛和傳感器系統進行偵察、在具有長時間要求的防空系統中進行威脅評估、新興模式的情報分析、指揮和控制系統以及教育和培訓。 然而,人工智能的軍事應用需要考慮以下方面的挑戰:
專注于人工智能的透明度、可解釋性和可解釋性問題的研究人員已經取得了許多進展。這些進展中的許多部分也都可能被用于軍事人工智能應用中。然而,需要進行更徹底的需求分析以了解如何利用這些研究成果。軍事需求在風險、數據質量、法律要求等方面與一般情況相比非常不同,有些類型的透明度甚至可能不適用。此外,還需要對如何利用社會科學研究來提高人工智能的可解釋性進行更多研究。未來的研究還應該包括如何充分利用在視覺分析研究領域中開發地豐富的可視化技術。
由于目前還沒有解決脆弱性問題的有效方案,因此在監測這一研究領域不斷尋找有希望的解決方案非常重要。然而,在這種解決方案出現之前,有必要盡量減少外部對模型和防御技術的訪問。否則,對手可能會試圖利用這些漏洞來為自己謀利。
最后,遷移學習使其有可能將預先訓練好的模型應用于訓練數據和計算資源都有限的軍事應用。GAN是另一種有很前途的技術,它能夠采用標記的和未標記的數據進行學習(半監督學習)。GAN也可以與仿真結合使用,以提高合成的訓練數據的真實性。