本研究探討人工智能(AI)輔助軍事情報分析工作的潛力。專用AI工具集成文本檢索、自動摘要及命名實體識別(NER)功能。研究表明,在時間壓力下,使用AI功能的實驗組分析質量優于對照組,且其概率估計更接近專家評估值。盡管實驗組分析結果與概率估計均顯著更優,但未發現其對分析任務所使用信息來源的信心更高。最后,本文指出AI在軍事情報應用中的局限性,尤其體現在處理模糊矛盾信息時的分析能力。
當前可獲取的數據規模表明,軍事情報領域必須應用人工智能(AI)(Gartin, 2019)。AI的效益源于多維度優勢,需明晰其潛在附加值(Vogel等, 2021)。軍事情報的核心職能是收集與分析信息,輔助軍事決策者制定策略。從學術視角看,軍事情報是融合政治學、經濟學、社會學與心理學等多學科的交叉研究領域(Albrecht等, 2022;Svendsen, 2017)。
軍事情報旨在通過信息采集與分析構建全面態勢圖景,包括他國武裝力量數據收集、作戰計劃研判,以及影響本國安全態勢的動向監測(Sadiku與Musa, 2021)。分析師承擔情報數據收集、分析與呈現職責。AI技術發展為分析工具集成提供了多維支持可能(Cho等, 2020),預期將減輕分析師負擔,使其聚焦于核心分析評估工作(Hare與Coghill, 2016)。需強調的是,AI應作為輔助而非替代工具,確保分析師始終理解評估依據信息(Blanchard與Taddeo, 2023)。
本研究基于專有AI工具deepCOM開展實驗。該工具依托大語言模型(LLM),核心功能包括:語義搜索(支持直接提問并標注來源)、自動摘要(生成短句摘要定位相關文獻)及命名實體識別(NER)自動標注(標記時間、地點、組織與人名)(Devlin, 2018)。當前AI已滲透幾乎所有軍事領域(Rashid等, 2023),人機交互成為關鍵研究方向,涉及多媒介信息傳遞與對話形式優化,旨在提升個體創造力、生產力與決策效能(Dell'Acqua等, 2025)。信任構建(McNeese等, 2021)與協同態勢感知(Gorman等, 2017)亦是本研究重點。
相較于既有研究聚焦AI在大數據管理中的作用(Horlings, 2023),本文關注AI對人類分析評估的輔助價值。通過實驗驗證,探討AI在軍事情報分析中的增效機制,重點分析人機交互信任提升與AI透明度優化的路徑。
全文結構如下:第二章基于情報周期理論解析軍事情報分析流程;第三章闡釋實驗AI功能及其對分析師的支撐機制;第四章詳述實驗設計;第五章呈現實驗結果;第六章討論研究發現;第七章總結結論。
deepCOM演示器是一款集成AI功能的軍事情報分析工具,旨在輔助分析師工作。其實驗性測試的AI功能如下:三項AI功能中,AI搜索與自動摘要基于大語言模型(LLM),第三項為命名實體識別(NER)。盡管德國情報機構因北約、聯合國與歐盟等國際架構需使用英語工作,但其自產情報以德語生成,故deepCOM的界面與輸出均為德語。
AI搜索可解決上述問題:其能解析完整問句,減少信息損失。deepCOM的AI搜索基于LLM實現,根據問題復雜度呈現系統生成答案或直接引用原文。基于LLM的AI搜索答案不受問句措辭限制,且能處理同一實體的不同拼寫(如阿拉伯專有名詞的多種音譯形式)。答案始終附帶全文引用,提升可靠性并降低LLM“幻覺”(即生成看似合理但虛構的信息)風險。
NER可顯著提升分析效率:自動標注替代耗時的手工標注,幫助分析師快速篩選有價值文獻;閱讀時顏色標注加速關鍵信息定位;提取的實體可在地圖界面可視化,輔助事件定位與態勢整合(支持熱力圖顯示區域事件聚類)。
圖:上圖:NER自動從文本中提取時間、地點、組織和人名。中圖:[德語]文本中已識別實體的顏色編碼。下圖:在地圖上顯示已識別的位置。
摘要功能由deepCOM后端LLM驅動,神經網絡算法通過合并段落或刪減句子生成連貫摘要。當前實現主要依賴句子成分省略,測試表明摘要質量總體良好,但偶現LLM訓練數據引入的額外背景信息。
人工智能在軍事領域的應用已有數十年歷史,但隨著大型語言模型(LLM)能力激增,這些系統極有可能在現代戰爭中發揮更大作用。既往研究表明,LLM在兵棋推演模擬中傾向于支持沖突升級,暴露出軍事化人工智能潛在的危險邏輯缺陷。基于這些研究,我們測試了不確定性、思維鏈提示與溫度參數如何影響LLM建議采取激進行動的傾向。與先前結論不同,我們發現測試模型普遍優先選擇外交手段而非沖突升級。然而,研究同時揭示:時間與情報的不確定性、以及思維鏈提示機制,往往會導致更具攻擊性的行動建議。這些發現表明,特定威脅條件下采用基于LLM的決策支持系統可能更具安全性。
本文介紹了在定制的 Pygame 仿真環境中開發的基于人工智能(AI)的戰斗機智能體,旨在通過深度強化學習(DRL)解決多目標任務。噴氣式戰斗機的主要目標包括高效地在環境中導航、到達目標以及選擇性地與敵人交戰或躲避敵人。獎勵函數平衡了這些目標,而優化的超參數則提高了學習效率。結果顯示,任務完成率超過 80%,證明了決策的有效性。為了提高透明度,通過比較實際選擇的行動(事實行動)和替代行動(反事實行動)的獎勵,對噴氣機的行動選擇進行了分析,從而深入了解了決策原理。這項研究說明了 DRL 在利用可解釋的人工智能解決多目標問題方面的潛力。
在定制模擬環境中開發了一個可解釋的深度強化學習智能體,以透明決策的方式解決復雜的多目標任務。
圖 1(左)表示智能體最初階段的表現(綠色三角形:智能體,紅色三角形:敵人,藍色圓圈:目標),圖 2(中)表示智能體學習 640 次后的表現,圖 3(右)表示智能體完全了解環境后的表現
復雜的獎勵功能設計: 開發了一種全面的獎勵功能,可平衡多種相互競爭的目標,如效率和資源管理。該功能整合了推動有效學習的各種因素,鼓勵智能體優化任務完成和可用資源的使用。
在定制模擬環境中實施 DRL 智能體: 在一個定制的 Pygame 模擬環境中構建并訓練了一個基于 DRL 的智能體,以解決一個具有多重目標的復雜問題--導航環境、擊中指定目標以及適當地避開或與敵人交戰。該智能體在超過 80% 的試驗中成功完成了任務,展示了在各種場景下的強大決策能力。
全面的學習曲線分析: 對智能體的學習軌跡進行了詳細分析,展示了從最初的表現不佳到任務完成效率提高的過程。該分析突出了智能體如何隨著時間的推移完善其策略,有助于加深對 DRL 學習過程的理解。
推進多目標問題的可解釋人工智能: 該項目證明 DRL 能夠有效解決復雜的多目標問題。從獎勵函數和決策分析中獲得的見解有助于更廣泛地理解和改進人工智能驅動過程中的可解釋性。
通過事實和反事實分析實現可解釋性: 通過研究事實和反事實行動與獎勵,該項目提高了智能體決策過程的透明度。這種分析提供了重要的洞察力,讓用戶了解為什么會選擇某些行動而不是其他行動,從而理解特定決策背后的原因,尤其是在需要快速反應的復雜場景中。
隨著無人駕駛飛行器(UAV)越來越普及,價格也越來越低廉,確保其安全運行至關重要,尤其是在飛機的全球定位系統(GPS)等關鍵設備周圍。GPS 在航空系統中發揮著不可或缺的作用。本研究提出了一種高效的多類檢測方法來識別無人機上的 GPS 攻擊,重點是區分欺騙和干擾攻擊。所提出的方法優于現有方法。本研究獲得的結果有助于提高無人機的安全性,并為開發強大的檢測系統以應對無人機領域不斷演變的威脅提供了寶貴的信息。
近年來,在多項創新技術的推動下,無人駕駛飛行器(UAV)市場呈指數級增長(Li 等人,2019 年)。這些技術進步在提高盈利能力、減少業務流程瓶頸和推動無人機市場增長方面發揮了重要作用。隨著無人飛行器在各種應用中的使用持續增加,并認識到單一故障可能造成的嚴重后果,保護這些飛行器免受可能危及其完整性和運行的外部威脅至關重要。無人機通常通過無線網絡(如 Wi-Fi 或蜂窩網絡)運行,與任何連接設備一樣,無人機的軟件或固件也存在漏洞(Dey 等人,2018 年)。黑客可以利用這些漏洞破壞無人機或其所連接網絡的安全。可能會面臨多種威脅,如信號干擾、物理障礙、網絡攻擊企圖、網絡擁塞或附近設備的干擾。此外,與網絡連接的無人機可能成為黑客的攻擊目標,他們會尋求未經授權的訪問來控制無人機或獲取通過網絡傳輸的機密信息(Yaacoub 等人,2020 年)。
無人機最重要的部件之一是其全球定位系統(GPS)(Perez-Grau 等人,2018 年)。盡管全球定位系統被廣泛使用,但該系統并不安全(Ferrao、da Silva 等人,2020 年;Ferr ? ao、Pigatto ? 等人,2020 年)。民用信號沒有加密,這意味著任何人都可以偽裝和篡改 GPS 信號以達到自己的目的。無人機非常容易受到 GPS 欺騙攻擊,即攻擊者發送比合法信號更強的信號,使無人機的 GPS 信號接收器鎖定惡意偽造的 GPS 信號。鑒于這些定位系統的性質,利用無人機上的 GPS 漏洞相對容易(Ferrao, da Silva, et al., 2020; ? Ferrao, n.d.)。擁有適當技術知識的攻擊者可以破壞 GPS 信號,使無人機接收到錯誤的定位信息。
在這種情況下,提出了一種針對無人機 GPS 攻擊的多類檢測方法。該方法在檢測 GPS 欺騙和干擾攻擊方面效率很高,尤其是與文獻中的其他干擾和欺騙檢測機制相比,顯示出良好的效果。結果表明,該解決方案在使用大型數據集時效果最佳,該數據集是在對應于無人機通常飛行策略和問題飛行的一小部分數據上訓練出來的。
本研究提出了一種先進的多類檢測方法,以解決圍繞無人機 GPS 攻擊日益增長的問題。現有的方法通常側重于單類檢測或孤立地使用傳統的機器學習模型,而本研究提出了一種綜合方法,將幾種成熟的機器學習算法結合起來,以準確區分兩種類型的 GPS 攻擊,如欺騙和干擾。通過利用不同模型的協同作用,所提出的方法提高了準確度和精確度,在相同問題領域優于以往的技術。此外,還可以將這項工作歸納為對科學界的三大貢獻:
開發一種高效的多類別方法來檢測無人機上的 GPS 攻擊,檢測方法可以區分和識別欺騙和干擾攻擊;
共享數據集和信息處理,供科學界復制和比較;
與現有機制相比,結果表明所提出的機制優于文獻中發現的其他干擾和欺騙檢測機制。
本文接下來的內容安排如下。第 3 節介紹了相關工作。第 2 節介紹本研究的背景,第 4 節介紹開發的主要階段。第 5 節介紹所取得的主要成果。第 6 節是測試結論的可視化,第 7 節是本研究的總體結論。
地理信息系統(GIS)和遙感因其空間性而被認為在軍事中具有重要意義。本研究采用描述-分析方法來說明地理信息系統在軍事行動中的應用,從選定的研究中吸取陸基軍事發展的經驗教訓。最近的軍事發展表明,各種軍事機構在軍事行動中的指揮、控制、通信和協調都依賴于可靠和準確的空間測繪工具。研究指出,高分辨率衛星數據和無人機技術與機器學習和人工智能(AI)相結合,已在軍事領域得到廣泛應用,包括制圖、地形分析、情報收集和傳播、目標識別、保護軍事重要設施以及歷史建筑。GIS 機器學習與人工智能的結合對軍事規劃和部署具有重要意義,因為對地形的理解有助于實時確定戰場上的戰略位置。研究建議有必要對軍事人員進行地理空間技術培訓,并確保適當的部署,以便開展富有成效的軍事行動。
人們對使用語言模型(LM)進行自動決策的興趣與日俱增,多個國家都在積極測試 LM,以協助軍事危機決策。為了仔細研究在高風險環境中對 LM 決策的依賴,本文研究了危機模擬(“兵棋推演”)中反應的不一致性,這與美國軍方進行的測試報告類似。先前的研究表明了 LM 的升級傾向和不同程度的攻擊性,但僅限于預先定義行動的模擬。這是由于定量測量語義差異和評估自然語言決策而不依賴預定義行動所面臨的挑戰。在這項工作中,查詢 LM 的自由形式回答,并使用基于 BERTScore 的指標來定量測量回答的不一致性。利用 BERTScore 的優勢,證明了不一致性度量對語言變化的穩健性,在不同長度的文本中都能保持問題解答設置中的語義。研究表明,即使在調整兵棋推演設置、對涉及沖突的國家進行匿名化處理或調整采樣溫度參數 T 時,所有五個測試的 LM 都會表現出表明語義差異的不一致性水平。還研究了不同的提示敏感度變化對溫度 T=0 時不一致性的影響。我們發現,在不同的消融水平下,對于大多數研究模型而言,語義等同的提示變化導致的不一致性可能超過溫度采樣導致的響應不一致性。考慮到軍事部署的高風險性質,建議在使用 LMs 為軍事決策或其他高風險決策提供信息之前,應進一步加以考慮。
圖 3:LLM 的不一致性。繪制了所研究的每個 LLM 的不一致性得分。每個分布代表 20 個數據點,每個數據點代表在單個模擬中測出的不一致性得分。我們發現,LLMs 表現出較高的不一致性,這表明它們產生了語義不一致的反應。還發現,持續戰中兵棋推演的升級程度對 LM 響應的不一致性沒有顯著影響。
多年來,人工智能一直被用于改進信號情報的收集和分析,但本文探討了生成式人工智能可為戰略情報分析人員執行的一系列任務。文章認為,將生成式人工智能融入情報評估的最穩妥做法是作為人類分析師的 “副駕駛員”。盡管存在不準確、輸入偏差和 “幻覺 ”等問題,但生成式人工智能可以解放時間不足的分析人員,讓他們專注于人類最有價值的任務--運用他們的專業知識、隱性知識和 “現實感”。
人工智能(AI)是無法回避的。我們每個人每天都直接或間接地與它打交道。除了柯潔在圍棋比賽中輸給谷歌的 AlphaGo 這樣的偶然拐點之外,人工智能幾乎沒有大張旗鼓地滲入社會。但現在,圍繞人工智能的爭論非常突出。這主要與用戶友好型生成式人工智能軟件的發布和廣泛采用有關,其中最著名的是 ChatGPT 和 Google Bard。這些功能強大的程序潛力巨大,許多評論家認為它們的影響堪比另一場工業革命。的確,將人工智能應用到各個領域,尤其是醫學領域,可能會帶來革命性的變化;但同樣,它也會帶來巨大的潛在風險--安全、經濟、社會和文化風險。首相蘇納克(Rishi Sunak)希望英國能掌握這個等式的兩面:在人工智能監管和安全方面引領世界,11 月在布萊切利公園舉行的人工智能安全峰會就是一個標志;同時也要抓住這項技術帶來的機遇。八十年前,布萊切利公園的前主人--密碼破譯員、語言學家、數學家和工程師--曾與英格瑪機器搏斗并開創了計算技術的先河。本文關注的是生成式人工智能為他們在情報界的繼承者,特別是那些專注于情報評估技術的繼承者帶來的機遇和挑戰。文章認為,生成式人工智能有可能極大地補充分析工作。但就目前而言,它最有用的應用是作為輔助工具、副駕駛員,它有可能極大地增強分析人員的工作,但也應謹慎使用。
情報與技術是一對老朋友。幾十年來,它們彼此推動著對方的發展。這一點在電子和計算機領域體現得最為明顯。在秘密行動中,情報機構推動了技術的發展。它們還經常是新技術的早期采用者,利用新技術開發、維護和增強能力。畢竟,適應性是成功情報機構的標志之一。英國皇家情報總部成功地從模擬機構轉型為數字機構,如今甚至將自己定位為 “情報、安全和網絡機構”。人工智能已經以多種方式補充了情報工作。各國經常使用人工智能增強系統來協助收集情報。許多在秘密領域工作的私營部門承包商也在人工智能領域大顯身手。由人工智能軟件支持的閉路電視攝像網絡被廣泛用于識別和追蹤城市環境或恐怖風險較高地區(如火車站)的個人或物體。這種技術也為專制政府提供了無與倫比的機會來壓制不同意見或異議,新疆和其他地方的情況就說明了這一點。除數據收集外,這項活動的大部分內容還涉及更輕松、更高效地對數據進行鑒別或選擇,從而為時間有限的分析人員的工作提供便利,因為他們需要評估這些數據的含義。人工智能被廣泛應用于翻譯、將截獲的互聯網流量減少到可控水平、語音識別或在開放的互聯網上搜索對象的協會和聯系人等費力的任務。在英國,INDEX 系統允許分析人員在政府和外部報告中進行搜索。核心信息可以通過自然語言處理系統提取和匯總。但是,正如剛剛退休的英國聯合情報委員會主席西蒙-加斯(Simon Gass)爵士在今年 6 月指出的,“我們正處在這個階段的山腳下”。
需要將生成式人工智能和大型語言模型(LLM)整合到情報評估的正常業務中。簡單地說,生成式人工智能是指 “能夠根據訓練數據生成高質量文本、圖像和其他內容的深度學習模型”。這些技術已經在國防和情報領域受到高度重視。英國國防部國防創新總監約翰-里奇(John Ridge)最近指出,“我們可以肯定的一點是,這類能力將是絕對關鍵的”。這些能力是革命性的,還是只是情報工作的另一個發展階段,還有待觀察。但它們改變商業模式的潛力是顯而易見的。前幾代人工智能主要集中在更有效地收集數據和更有效地整理擺在民間和軍事情報分析師面前的材料上,而生成式人工智能則展示了承擔迄今為止只有人類分析師才能完成的任務的潛力。基于 LLM 的工具(如 ChatGPT)的主要賣點是,它們可以對問題或命令形式的提示做出響應,并利用現有材料在特定參數范圍內做出響應。或者換一種說法,可以命令它們按照特定規格撰寫類似人類的報告,以計算機的速度,根據大量數據提出見解或作出推論。
從這個意義上說,情報分析和評估與其他以研究為基礎的工作領域處于類似的地位,它們可能(而且幾乎肯定會)受到干擾。這些領域包括醫療和法律行業,在這些行業中,根據有關特定主題的全部數字化文獻資料快速、清晰地編寫報告或文件的前景非常誘人。教育領域也受到了影響,其傳統模式正在被檢測機器生成的作品這一挑戰以及人工智能時代究竟什么才是合法研究這一更具哲學意義的問題所顛覆。盡管如此,在這些領域中的每一個領域,理論上都可以在很大程度上將曾經由人類完成的基本任務外包給機器,盡管需要保持謹慎的警惕。這樣做已經產生了令人印象深刻、有時甚至發人深省的成果,比如一篇關于 ChatGPT 對檢測剽竊行為的影響的學術論文,該論文已提交給同行評審的學術期刊,并被其接受,但這篇論文是用 ChatGPT “寫 ”出來的。不過,如果從各行各業廣泛采用 LLM 的軼事證據來看,人類分析師的日子還遠未到頭。在不久的將來,應將 LLMs 視為情報分析員的額外工具,是提高效率和效力的輔助工具。他們是 “副駕駛員”,可以評估論點、進行數據分析或校對,而不是潛在的替代者。就目前而言,在這些領域中的任何一個領域,要想以其他方式開展工作,風險都太大了。情報工作也不例外:在全球競爭的環境中,整合這些工具的必要性只會越來越強,但過快或魯莽行事顯然存在風險。審慎的做法是,情報評估機構利用人工智能增強人類分析師的能力,為他們創造更多的時間和空間,讓他們運用不可或缺的隱性知識和 “現實感”--以賽亞-伯林(Isaiah Berlin)所說的感同身受的理解是歷史解釋的一個關鍵特征--來理解全局。
令人欣慰的是,谷歌Bard也同意這一點。當被問及它能為情報分析帶來哪些好處時,該程序回答說,它可以執行許多有用的任務。這些任務包括收集信息、分析信息、生成報告、交流研究結果、提出情報需求、管理情報資源和監督情報行動,以確保它們符合法律和道德標準。但是,當被要求確定使用 LLMs 進行戰略情報分析的風險時,它指出:"重要的是,要將機器的產出與情報分析結合起來: 重要的是要將機器輸出與人工分析和解釋以及對地緣政治環境的全面了解結合起來"。顯然,如果 “言聽計從”,該系統具有巨大的潛力。但在充分挖掘潛力之前,所有相關人員都需要考慮并解決幾個基本挑戰。
這些問題包括通常對 IT 網絡安全性和穩健性的擔憂,例如:確保集成軟件經過安全架構審查所面臨的挑戰、供應鏈風險的可能性、數據存儲的安全性、確保提交給任何系統的查詢都經過加密或不可能被敵方重建。其他值得注意的安全問題來自于大量的訓練數據、數十億個參數以及設計可行工具所需的訓練過程。目前,這項工作是在基于云的系統中進行的,因此除了常見的網絡安全問題外,還增加了數據主權問題。此外,為了最大限度地發揮其價值和效用,特別是在快速發展的情況下,LLM 需要經常或持續訪問互聯網。顯然,有必要將那些與開放互聯網保持聯系的系統與情報分析員處理更敏感材料和制作情報評估產品的封閉、保密網絡分開。
上述問題都不是不可克服的,但這些挑戰突出表明,必須有條不紊地解決這一問題,協調政府各相關機構利益攸關方,以成功實施這一至關重要的信息技術項目。這些挑戰也并不都集中在如何確保系統不被敵對勢力破壞上。還需要考慮監管問題。事實上,大衛-安德森(David Anderson)勛爵在上議院關于人工智能的辯論中指出,"在一個人人都在使用開源數據集來訓練大型語言模型的世界里,英國信息中心受到了《調查權力法》第 7 部分的獨特限制。這些限制'在某些重要情況下影響了英國信息中心的靈活性,影響了它與商業伙伴的合作,影響了它招聘和留住數據科學家的能力,并最終影響了它的效率'。
只要能找到令人滿意的解決方案,LLM 對分析師工作的許多方面都極為有用。其中包括較為傳統但費力的任務,如作為研究助理,就特定主題(如國際爭端的背景)提供近乎即時的不同長度和細節的摘要,或構建時間軸、撰寫簡介、總結或分析冗長的文本,或(假設版權和訂閱問題得到解決)將最新的學術著作納入其中。雖然第一批LLM是在英語語料庫中接受培訓的,但目前開發多語言模型的工作進展順利。當然,鑒于已發現生成式人工智能生成的回復在準確性和完整性方面存在問題,任何此類產品都必須經過主題專家的檢查,類似于跨白廳當前情報小組系統。這可能會提高穩健性和效率,并隨著時間的推移,促進機構學習和流程改革。
但潛力顯然不止于此。生成式人工智能還可以包括更先進、更重要的工作。例如,分析師可以使用 LLM 來審查和驗證他們的書面報告,從而增強現有的分析流程和產品審計程序。例如,可以要求提供任何對關鍵判斷提出質疑或證偽的數據;查詢長期以來生成的報告,以確定已成為傳統智慧的假設;或使用工具生成 “紅隊 ”評估。從理論上講,這種能力可以在幾個方面幫助分析人員識別或根除導致情報失敗的某些偏見因素,并確保報告盡可能是最新的。不難想象,這些工具的提供和適當使用將如何提高分析界的速度、影響范圍和批判性地反思其行為和業績的能力。
目前這一代 LLM 也可以撰寫報告或評估報告。將此類寫作任務的早期起草階段外包給一個工具,可為資源和時間貧乏的情報分析員創造經濟效益。毫無疑問,謹慎采用 LLM 是有道理的。但這項技術仍然有限,需要認真監測。這些局限性帶來了風險,這一點在 2023 年大眾廣泛嘗試使用 LLM 之后已經得到證明和充分記錄(在 META 推出 Threads 之前,沒有任何應用能像 ChatGPT 那樣迅速得到采用,該應用在推出后五天內用戶就達到了 100 萬)。對于情報分析師及其產品的接收者來說,其中許多挑戰都是非常棘手的。其中包括對這些工具所提供信息的準確性和可靠性的擔憂。這些系統非常善于生成似是而非的文本、聲明和結論。但這些可能在現實中沒有任何依據,甚至在建立 LLM 的訓練數據中也沒有任何依據。這種 “幻覺 ”已被廣泛觀察到;在學術工作中,經常出現的 “幻覺 ”是生成不存在的資料來源(例如,引用聽起來很有道理但實際上并不存在的網頁)來支持生成的主張。這究竟是 LLM 的一個特點還是一個缺陷,還存在爭議。無論如何,這都對采用 LLM 進行情報評估構成了重大挑戰。分析人員從這些工具中獲取材料并將其納入分析產品時,必須對基礎源數據進行系統檢查。因此,這項技術提出了一個悖論:一是節省時間,二是增加工作量。
與其他人工智能系統一樣,LLM 也會在其生成的任何內容中嵌入偏見。該系統的吸引力和潛力在于它有能力攝取和查詢大量資料--基本上是整個開放互聯網--但必然結果是,該系統也會攝取現有的偏見和廢話,這些偏見和廢話可能是關于特定主題的主流敘事,或者是關于特定主題的特定語言。同樣,毫無疑問,破壞性或惡意行為者會利用 LLM 快速、廉價地生成大量虛假信息并充斥網絡。毫無疑問,敵對行為者也會試圖毒害公共或專有 LLM。目前,大多數開放的生成式人工智能應用程序本質上都是黑盒子,這些系統不允許(或不會允許)用戶檢查它們得出特定判斷的過程。這是由于神經網絡依賴多層節點處理數據的本質所致。這種可觀察性的缺乏,再加上基于 LLM 的系統在可復制性方面的某種脆性--即它對準確提示措辭的依賴--帶來了風險和挑戰。事實上,鑒于在專業情報界對分析評估采用可審計程序的重要性,在這些工具被納入正常業務之前,這個問題構成了一個需要克服的重大障礙--或者說需要掌握的挑戰。正如在人工智能之前的時代一樣,結論必然需要由經驗豐富、訓練有素的人員進行檢查、驗證和整個過程的審計。
這些風險有可能被充分降低,使這些工具能夠相對迅速地融入分析流程。許多研究人員正在開發人工智能系統,以識別人工智能在各種情況下生成的內容,如學術論文或視頻文件。還有一些研究人員正在研究可審計的 LLM 系統;還有一些研究人員正在研究如何開發安全的系統,讓分析人員能夠在分類系統和開放的互聯網上進行搜索。但是,即使這些問題可以得到緩解,還有另一個根本性的問題,即這些系統是否只能是衍生系統,因為它們基本上完全建立在基于已有材料的計算模型之上。它們所提供的洞察力能否與任何接近 “想象力 ”的東西相匹配,還是說它們目前的貢獻仍將局限于語法和風格的練習,偶爾會出現幻覺?或者,換一種說法,他們可能會對某個問題進行極其(或表面上)合理的討論,但鑒于這些討論是根據一個統計模型得出的,該模型關注的是某個特定的詞或概念或 “標記 ”與另一個詞或概念或 “標記 ”相聯系的可能性,并以訓練材料為基礎,那么討論結果中是否會存在固有的保守主義或其他偏見?盡管如此,該領域的變化速度之快,即使預測其對情報評估的相對近期影響也充滿了不確定性,突出表明需要不斷審查該領域的發展。
雖然其他類型人工智能的貢獻已經得到證實,但對生成型人工智能的前景過于技術樂觀也會帶來風險。雖然這不是一個精確的類比,但美國情報界在 9/11 事件之前忽視人類情報(HUMINT)技能而青睞高科技的做法,應該為任何想把 LLM 的出現視為減少情報界人力的機會的人提供一個警示。選擇不當的捷徑會造成長期延誤。顯然,政府必須也必須與 LLM 打交道,必須不斷審查現有技術的效用,并愿意在這些系統得到驗證后擴大其使用范圍。但是,除了投資(擁有或使用)LLM,政府還應保留并加倍投資于人。在采用 LLM 的過程中,最大限度地提高效益和降低風險的一個關鍵因素將需要包括保持和發展對情報分析師的培訓,使他們能夠最好地利用這些強大的新工具。這可能包括專業途徑,培養一批善于將生成式人工智能融入分析實踐 “新常態 ”的官員,使他們能夠掌握現有系統,最大限度地發揮其效用,同時將其帶來的風險降至最低。但同時也應保持并優先培養主題和分析技術方面的專家,他們可以用經驗和智慧、隱性知識和人類特有的 “現實感 ”來補充生成式人工智能的巨大威力。在開展這項工作的同時,還應在政府內部(更不用說更廣泛的公眾)開展更廣泛的教育計劃,讓他們了解人工智能的用途和局限性。消費者,尤其是自詡為技術狂熱者和有遠見的 “深層國家 ”或 “小集團 ”的破壞者,應該仔細了解由于 LLM 的便利而繞過其分析機制的局限性和風險。世界不需要唐納德-拉姆斯菲爾德(Donald Rumsfeld)在伊拉克戰爭前的 “特別計劃辦公室”(ChatGPT)。就目前而言,將 LLM 衍生工具整合到分析流程中最合理的使用案例是,由經驗豐富、訓練有素的人類分析師作為 “副駕駛員”,嵌入到仍然樂于向消費者提供不受歡迎的消息的組織中。
本研究論文介紹了軍用無人機系統盒(The NeuronDrone-Box)中用于攻擊或防御決策的全自主人工智能:硬件、算法和一種新型專用軍用無人機或無人機。第一部分介紹了軍用無人機系統盒(The NeuronDrone-Box)中的攻擊或防御決策全自主人工智能,以適應任何無人機的主控系統。第二部分是使用混沌理論和經濟地理學的算法。第三部分介紹了被稱為 "黑色噩夢 V.7" 的開創性原型機。黑色噩夢 V.7 無人機投彈手擁有一系列與眾不同的功能和應用,本技術報告將對此進行詳細介紹。首先,主張在軍用無人機系統箱(The NeuronDrone-Box)中實施全自主人工智能攻防決策,以控制與全自主人工智能攻防決策軍用無人機系統箱(The NeuronDrone-Box)相連的多副翼系統(MAS)和多導彈系統(MM-System)。
本研究為基于人工智能的復雜作戰系統的運行和開發建立了 MUM-T 概念和分類系統。分析了該系統的核心方面:自主性、互操作性和程序級別。人工智能 MUM-T 可提高有人駕駛系統的生存能力、擴大其作戰范圍并提高戰斗力。利用美國和英國正在建造的人工智能 MUM-T 綜合作戰系統的數據,分析了技術挑戰和項目水平。目前,MUM-T 處于有人駕駛平臺和無人駕駛飛行器平臺復合運行的水平。從中長期來看,無人地面飛行器、無人水面飛行器和無人水下飛行器等異構平臺之間的互操作通信是可能的。根據人工智能 MUM-T 系統之間互操作性的通用架構和標準協議的發展水平,MUM-T 可以從 "1 到 N "的概念發展到從 "N 到 N "的各種操作概念組合。本研究與現有研究的不同之處在于,MUM-T 系統中體現了第四次工業革命的核心技術,如人工智能、自動駕駛和數據互操作性。此外,通過在現有的無人系統分類法中體現人工智能和自主性,建立了人工智能支持的自主 MUM-T 操作和設施分類系統,并在此基礎上對級別和程序進行了分析。
本研究確立了有人無人協同作戰(MUM-T)的概念,目的是操作、開發和利用智能聯合作戰系統。此外,它還分析了互操作性、自主性、挑戰和計劃水平。人工智能支持的自主無人 MUM-T 提高了有人系統的生存能力,擴大了作戰范圍,并顯著提高了作戰效率。與以往不同的是,MUM-T 的概念正隨著人工智能的發展而不斷擴展,互操作性和自主性也在相應提高。美國和北大西洋公約組織(NATO)國家提出了未來防御領域的挑戰,并在無人系統(UMS)和 MUMT 層面開展了解決這些挑戰的計劃。本研究分析了自主 MUM-T 聯合作戰系統的運行和使用所面臨的技術挑戰和計劃水平,并介紹了基本要素技術。研究方法基于現有定義和第四次工業革命建立了 MUM-T 概念。并利用北約、美國和英國的數據分析了互操作性、自主性、挑戰以及技術和利用方面的計劃水平。
圖 2 基于 NIST 和北約分類標準的人工智能自主 MUM-T 系統分析
美國防部(DoD)對 MUM-T 的定義各不相同。美國 陸軍無人機系統卓越中心(UAUCE)將有人駕駛平臺和無人機視為單一系統。有人系統和無人系統(如機器人、傳感器、無人飛行器和作戰人員)的集成增強了態勢感知、殺傷力和生存能力[1]。國防部將這種關系視為執行共同任務的綜合團隊,美國陸軍航空卓越中心(UAACE)將其定義為同時操作士兵、無人機和無人地面飛行器(UGV),以提高對態勢的了解和生存能力[2]。它采用了標準化的系統架構和通信協議,使來自傳感器的精確圖像數據能夠在整個部隊中共享。目前,它在國防領域的應用最為廣泛。陸軍航空動力局(AFDD 2015)將其定義為:為每個系統提供特殊功能,使現有有人平臺和無人資產能夠合作完成同一任務。這是一種規避風險的方法,通過從空中、陸地和海上無人系統向有人資產傳輸實時信息,提高單兵作戰人員的態勢感知能力[3]。圖 1 是戰場上 MUM-T 系統的層次示意圖。
在世界經濟論壇(WEF)議程的第四次工業革命(Fourth IR)之后,數字化(I2D2)作為一項核心技術被提出。這些技術在未來科學中具有自主、分析、通信和邊緣計算的特點。該技術的特征組合構成了自主系統和智能體(智能+分布式)、擴展領域(互聯+分布式)、作戰網絡(互聯+數字化)、精確作戰領域(智能+數字化)。智能人工智能將改變戰爭的格局,而數字數據的可用性將使分布式和互聯(自主)系統能夠進行分析、適應和響應。這些變化反過來又可能通過預測分析支持更好的決策。
北約(2020 年)以第四次工業革命的核心技術特征及其組合為導向,構建復雜的作戰系統[4-6]。美國國防發展機構(ADD 2018)認為,MUM-T 復雜系統是一種無人作戰系統,可以補充或替代作戰人員的能力,以最大限度地提高作戰效率,最大限度地減少戰場情況下的人員傷亡。它被定義為以一種復雜的方式操作包括戰斗人員在內的有人作戰系統的作戰系統[7]。考慮到美國國防部(2010)、北約(2020)和 ADD(2018)的定義,人工智能支持的自主 MUM-T 復雜作戰系統(以下簡稱 "自主 MUM-T")和 OODA 循環如表 1 所示[1,5,7]。本研究所指的 MUM-T 復合作戰系統通過聯合指揮與控制,在空中、地面、海上、太空、網絡和戰爭等所有領域提供觀察、分析和控制,可通過整合/連接所有軍事力量的有人和無人系統進行操作。它被定義為 "根據決策和行動執行聯合行動的作戰系統"。
圖 3 北約 STANAG LOI 5 和自主邊緣計算 MUM-T 互操作水平設計
在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。
圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。
在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。
在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。
本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。