人工智能(AI)在軍事行動中引發前所未有的不確定性,這在AI賦能的自主武器系統(AWS)與決策支持系統(DSS)中尤為顯著——其不僅影響關鍵戰場決策,更帶來新穎且不可預測的風險。盡管部分風險可預先研判管控,但因系統運行環境的復雜性、動態性與對抗性,諸多風險仍具固有性與不可避免性。即便秉持善意的AI操作員,在嚴格審查與謹慎部署后仍可能面臨不可預見的平民傷亡事件。實踐中,此類事件多被定性為"事故",即國際人道法(IHL)預期容忍的戰爭現實。
本文質疑該假設,主張通過迭代方法可緩解(若非預防)先驗不可預測的AI失效。該方法通過系統整合部署后評估洞見,使決策者能更新對現實使用中暴露的邊界案例及其他"已知未知項"的認知,為未來AI部署提供關鍵依據。我們提出由兩項互補機制——"部署迭代審查"與"部署迭代評估"——構成的迭代評估框架。該框架代表管理不確定性并最小化軍事AI使用中平民傷亡的最佳實踐。初始事故雖或難免,但通過結構化迭代流程(含報告、分析與適配),其復現率可顯著降低。致力于負責任運用軍事AI者應將該框架嵌入作戰規劃與法律合規的核心環節。
關鍵詞:不確定性;人工智能(AI);事故;自主武器系統;決策支持系統;可預測性;武器審查;國際人道法
圖1:迭代評估的可視化操作指南
隨著人工智能(AI)日益深入軍事行動,使用者將面臨加劇的不確定性、不可預測風險及系統脆弱性。諸多挑戰僅在事后顯現——即失效已導致平民傷亡等人道損害后。實踐中此類事件常被歸為"不可避免的事故",作為戰爭必然副產品被容忍。本文挑戰此假設,提出"迭代評估框架"作為軍隊在動態作戰環境中主動緩解AI相關平民傷害的最佳實踐方案。該框架基于兩大基石:一方面承認軍事AI失效初期或難避免,決策者無法預知不可知之事;另一方面強調國際人道法(IHL)精神要求交戰方采取一切可行措施防止可預知風險的傷害重演。為此,迭代評估框架引入雙層機制以支持快速自適應緩解新興AI風險。
本文結構如下:第2節剖析AI系統的高度不可預測性如何削弱傳統質控與風險緩解機制預防重復失效的效能;第3節半技術性解析AI不確定性的多元來源,論證多數源于技術固有屬性——故無法單靠技術手段消除,亦不能通過先驗預防完全解決。為應對此挑戰,本文倡導采納迭代思維:將IHL義務持續貫徹于全周期而非孤立節點。基于此理念,第4-5節分別探討迭代評估在武器審查與目標鎖定階段的應用;第6節整合模型為可視化操作指南;第7節提出將迭代評估嵌入軍事實踐的關鍵建議。
需先行闡明迭代評估框架的性質與目標:刻意選用"框架"而非"規范"或"原則",因其非法定約束性義務(尤其IHL嚴格解釋下),而是決策者在AI研發、測試與部署中可采納的結構化措施集,其核心是迭代優化哲學。該框架既非激進創新——諸多建議已存于當代軍事條令與學術研究;核心挑戰亦非概念新穎性,而在作戰與后勤現實約束下的持續落實。同時應承認其局限:無法消除所有不確定性(此乃軍事行動固有特征),但能通過預防可避免傷害強化IHL遵約。本質上,它旨在減少因決策者缺失理論上可知信息(而非魯莽行事)導致的傷害。
本文預設AI使用者秉持善意,力求遵守IHL并負責任管理不確定性;假定所有IHL要求的測試、審查及攻擊預防義務均已履行;不涉及惡意場景(如故意部署未經驗證的"黑箱系統")。迭代評估旨在補充而非替代這些IHL基礎義務。核心論點是:即使傳統IHL要求完全滿足,采納迭代路徑仍有持續改進空間。
人工智能(AI)在現代國防領域已發揮關鍵作用,而數據日益成為戰略資產。用于雷達輻射信號檢測、識別與分類的信號處理技術亦不例外,但大型語言模型(LLMs)在電子情報(ELINT)領域更廣泛的適應性仍未被公開研究充分探索。面對復雜不兼容數據集、海量數據及信息過載的環境挑戰,本研究深入探究LLMs解決此類難題的可行性及實施路徑。我們提出具備結構化與非結構化數據整合能力的AI驅動型聊天機器人系統,其模塊化架構設計旨在提升透明度與可解釋性。該系統在合成數據集上接受評估,其架構與設計選擇基于該敏感領域特性設定的約束條件。單元測試結果顯示:提示分類準確率達97.8%,生成SQL查詢正確率達93.3%,較人工查詢顯著節約時間成本。系統還通過決策日志與過程溯源實現可解釋性與透明度。然而對話測試暴露出錯誤傳播、模糊輸入應對缺陷、模型能力及用戶熟練度依賴等局限。盡管多數問題可被解決,研究仍揭示系統可靠性與資源可用度的強關聯性,凸顯作戰環境中的機遇與風險。盡管模擬數據與通用假設存在局限,該原型系統證實在軍事情報環境廣泛應用LLMs具備技術可行性與應用潛力。
本文由六章節構成:第一章為緒論,第二章文獻綜述,第三章深入闡述雷達技術軍事應用、電子戰、電子情報、信號處理管線及LLMs等理論基礎,第四章介紹方法論,第五章呈現并討論實驗結果,第六章給出最終結論。
盡管軍事革命相關論述或存過度炒作之嫌,但人工智能(AI)與自主技術改變戰爭形態的潛力正逐年增長。各國正部署可半自主導向目標的無人機,而AI正提升全球軍事目標鎖定流程效率。此類系統的風險真實且嚴峻——無論源自單體系統或系統集群,化解風險方能充分釋放技術潛能。國防部在載人系統安全研發部署方面經驗豐富,但AI與自主技術帶來新挑戰。作者前期報告曾探討AI與自主系統的新穎性,聚焦其對國防部門測試與評估(T&E)體系的持續及預期影響。AI單體系統特殊性構成挑戰,系統間交互亦然。本報告聚焦自主系統集群(無論是否AI驅動)引入的新漏洞(單體測試中或不存在)。自主平臺間沖突潛力顯著,其互操作性需求亟需跨軍種協同努力。鑒于美國與對手技術研發競速,當前正是為聯合部隊建立技術導向動態框架之機,確保美軍保持整體作戰能力。
本研究結論適用于AI與自主系統全生命周期(含研發及測試評估):
? 研發階段:涉及系統設計與工程技術要素
? 測試評估:涵蓋虛擬/實裝測試的實踐與政策要素
實現系統間真正互操作性需從開發早期至維護階段的全鏈條參與(概念設計者、項目經理至工程師均需介入)。各軍種應任命或授權領導層確保AI與自主系統研發符合作戰概念中的互操作性要求。鑒于作戰概念預設系統在共享環境中的協同能力,領導層應避免研發孤島化,強化預期互操作系統項目間協作。
國防部門應探索制定確保系統互操作性的行為標準(匹配操作員訓練及戰術、技術、程序的標準化程度)。現行技術標準側重接口等要素(機器通信方式),自主系統需建立類人操作員規程的行為標準以實現協調。此類標準應超越通信協議等底層要求,涵蓋共享環境中的預期交互方式(如機動與火力沖突自動化解)。
測試主管部門應協同制定實施T&E政策以確保自主系統兼容性。各軍種需在系統研發早期關注互操作性問題(建立作戰概念中共現項目的關聯),而認證后續互操作性(如本框架所述)屬T&E部門職責。T&E部門應運用通用建模與仿真(M&S)工具強化互操作性(輔以實裝測試)。標準提供顯性互操作路徑,而無需直接協調的M&S資源共享可驅動系統兼容性研發。
人工智能有可能從根本上改變國防,從后臺職能到前線,并在軍事競爭和沖突中提供決定性優勢。人工智能已在俄羅斯烏克蘭沖突中得到有效部署,這表明人工智能不再屬于未來戰爭,而是國防必須參與的現實。鑒于人工智能潛在應用的廣泛性,很少有國防領域不能從人工智能或人工智能增強中獲益,因此國防部門需要開始考慮將人工智能作為其解決問題和實現目標的一個組成部分。英國有潛力成為一流的國防人工智能部門,但目前國防部門發展不足,需要加以培育。這既需要實踐變革,也需要文化變革。
發展國防人工智能部門需要改善數字基礎設施、數據管理和人工智能技能基礎,國防部門需要找出存在的差距,以便著手解決這些問題。建議國防部門可以采取一些具體行動,比如讓人工智能成為軍事教育的更大一部分,讓人工智能專家更容易在民用和國防部門之間流動。國防部門還可能需要與規模較小的非傳統國防供應商合作,這些供應商目前在與國防部門合作方面面臨障礙,國防部門需要采用其工作方式,使自己成為更具吸引力和更有效的合作伙伴。國防部門需要更加適應承擔風險、快速開發周期以及與非傳統國防供應商合作。國防部門需要克服目前阻礙防務公司與國防部門合作的障礙,如復雜的采購流程和工作人員難以獲得安全許可。
除了這些實際變化之外,國防部門還需要進行更廣泛的文化變革,以適應這樣一個世界:軍事優勢越來越多地由數字化能力和可快速開發、部署和迭代的廉價平臺來實現。國防部門的政策文件認識到了這一點,但該部門的言論與現實之間存在差距,而且人工智能往往仍被視為一種新事物,而不是即將成為國防工具包核心部分的事物。正在進行的《戰略防御審查》是一個理想的時機,國防部門可以借此加快所需的文化轉型,并為新的人工智能時代實現能力和思維的現代化。
人工智能系統如果能與盟國的系統互操作,將發揮最大功效。英國和盟國在開發和部署國防人工智能的目標上相互理解,并在適當情況下共享標準和實踐。AUKUS 合作伙伴關系的支柱 2 是英國國防人工智能部門與澳大利亞和美國盟國在人工智能前沿領域開展合作的協議。
認識到,在國防領域使用人工智能會引發重要的倫理問題。上議院武器系統人工智能委員會于 2023 年 12 月發布了一份關于致命自主武器系統的全面報告,決定不再重復這項工作。因此,本報告重點關注英國在國防領域開發和部署人工智能的能力。
關于英國國防人工智能部門的規模和特點的公開研究很少。2023 年,英國政府委托進行的研究發現,英國有 3713 家人工智能公司;其中 2204 家公司的業務模式以人工智能產品或基礎設施為核心。目前尚不清楚英國有多少人工智能公司從事國防工作: 33% 的公司從事計算機視覺和圖像處理工作,另有 29% 的公司從事自主系統工作--智庫蘭德歐洲公司在其書面證據中指出,這些領域 “與國防高度相關”--但這部分行業還將包括許多非國防公司。人工智能是一個快速發展的行業,預計將在未來幾年內大幅擴張:據 KBR 和 Frazer-Nash Consultancy 提供的證據估計,2023 年英國軍事人工智能行業的價值約為 2.85 億英鎊,預計到 2028 年將增長到 12 億英鎊。
有關英國國防人工智能公司特點的數據很有限,但證據表明,這些公司既包括人工智能只占其業務一小部分的老牌國防公司,也包括專門從事國防人工智能的初創公司。大多數參與人工智能開發的公司規模都相對較小: 蘭卡斯特大學創新、技術和戰略教授西蒙娜-索阿雷(Simona Soare)博士將該行業描述為一個 “成熟的生態系統”,其中 75-80% 的公司都是小型企業或初創公司。在國防領域,這類公司包括 Adarga、AdvAI、Skyral、Ripjar 和 Mind Foundry。人工智能的發展跨越國界,微軟和亞馬遜等在人工智能領域處于全球領先地位的跨國公司都在英國設有分支機構。此外,一些專門從事人工智能國防應用的國際公司也在英國設有分支機構,如 Helsing 和 Anduril。
人工智能行業相對剛剛起步,現在判斷英國人工智能和國防人工智能行業將如何發展還為時尚早。但是,證據表明,英國擁有可以促進該行業成功發展的優勢,包括大學和強大的研究部門,以及在計算和數學科學等相關學科的現有優勢。英國還擁有強大的計算能力(計算),這是開發先進人工智能的重要資產,同時英國還擁有龐大的金融部門,可以吸引對先進研究的投資。英國的制度優勢也為人工智能公司提供了良好的發展環境,并能吸引投資者,其中包括強有力的監管制度和有效的法治。所有這些都意味著英國具備蘭德歐洲公司的詹姆斯-布萊克(James Black)所說的 “相當好的通用優勢”,可以支持人工智能行業取得成功。
與此同時,一些證人也指出了英國該行業目前存在的弱點。Simona Soare 博士強調,雖然英國確實存在人工智能 “生態系統”,但 “并沒有特別獨立的國防人工智能生態系統”。此外,初創公司的更替率非常高,只有不到五分之一的公司能持續四年或更長時間。這意味著該生態系統幾乎沒有彈性,這將使英國擴大國防人工智能能力面臨挑戰。小組委員會還聽說,各軍種內部對整個國防領域的人工智能方法缺乏一致性。退役空軍元帥 Edward Stringer認為:"在整個國防人工智能領域,有一些非常優秀的人員,但系統略顯分散。雖然英國總體上是一個充滿活力的風險投資(VC)環境,但薩里大學人工智能研究所的 Mikolaj Firlej 博士寫道,英國國防人工智能部門 “投資不足”,只有幾家較小的風險投資基金在投資。
雖然英國的人工智能部門和國防人工智能部門的絕對規模較小,但與同行相比,英國的表現相對較好,因為該部門在全球仍處于發展的早期階段。蘭德歐洲公司報告稱,英國的人工智能公司數量在全球排名第三。牛津洞察》(Oxford Insights)和Tortoise編制的《全球人工智能指數》(Global AI Indices)根據各種因素對各國進行排名,英國分別位列第三和第四。雖然這些指數并沒有對各國在國防人工智能方面的實力進行具體排名,但有理由相信英國在這一領域的表現相對較好: Simona Soare 博士指出,英國為人工智能提供的資金遠遠高于歐洲同行,據估計,英國在國防人工智能領域的投資是法國和德國的兩倍。與此同時,雖然英國領先于許多同行,但在許多關鍵指標上卻遠遠落后于人工智能領域的全球領導者--美國和中國。這兩個國家政府在人工智能方面的總支出是英國政府的四倍多,美國和中國超級計算機的數量和處理能力也遠遠超過英國。一些意見認為,英國不可能與美國部門的規模和投資能力競爭,但英國可以利用其現有優勢,在人工智能的某些領域發展世界領先的專業技術。
英國具備許多適當的條件,可以在國防人工智能發展方面成為全球領導者,但目前國防是英國人工智能生態系統中發展不足的一個方面,英國與目前人工智能領域的全球領導者美國和中國之間的差距很大。英國不能也不應該以在規模上與這些國家的部門相媲美為目標,而應該尋求在優勢領域實現專業化,并在這些領域達到一流的先進水平。
人工智能對有效防務的重要性與日俱增,因此英國的目標必須是擁有一流的國防人工智能生態系統。國防部門應制定措施,將英國的部門與國際上的其他部門進行比較,以便跟蹤該部門相對于同行的實力。
在國防和國家安全領域部署物聯網(IoT)系統面臨著一些限制,而邊緣計算(Edge Computing)方法可以解決這些問題。邊緣計算和物聯網范例的結合帶來了潛在的好處,因為它們正視了傳統集中式云計算方法的局限性,傳統云計算方法易于擴展、支持實時應用或移動性,但其使用在網絡安全等方面存在一定風險。本章確定了國防和國家安全機構可以利用商用現貨(COTS)邊緣物聯網功能為作戰人員或急救人員提供更高的生存能力,同時降低成本并提高運行效率和有效性的場景。此外,它還介紹了戰術邊緣物聯網通信架構的總體設計,指出了廣泛采用該架構所面臨的挑戰,并為國防和國家安全領域實現經濟高效的邊緣物聯網提供了研究指南和一些建議。
關鍵詞 物聯網、戰場物聯網、國防和公共安全、戰術物聯網、邊緣計算、公共安全響應者、信任管理、戰術邊緣
本章其余部分的內容安排如下。第 1.2 節介紹本章將使用的基本概念。第 1.3 節回顧了當前商用現成 (COTS) 邊緣物聯網應用為戰術環境創造的機遇。第 1.4 節介紹了一些有前景的戰術邊緣物聯網應用場景。第 1.5 節概述了戰術邊緣物聯網通信架構的總體設計。第 1.6 節概述了阻礙戰術邊緣物聯網技術應用的挑戰,并提出了一些進一步研究的建議。最后,第 1.7 節是結論部分。
圖 1.2:國防和公共安全領域戰術邊緣物聯網的目標場景。
以網絡為中心的戰爭(NCW)模式 [73] 將戰場資產與總部連接起來。這種概念通過促進用戶之間安全、及時地交換信息而帶來好處。此外,NCW 范式結合了三個域:物理域,在事件和行動發生的地方生成數據;信息域,傳輸和存儲數據;認知域,處理和分析數據,以實現決策和任務規劃。NCW 的三個域與當今商業邊緣物聯網的基礎相對應。
在以網絡為中心的 C2 行動中,責任被下放到戰場邊緣[74],形成了所謂的戰場物聯網 (IoBT),可將戰場上所有有助于做出明智決策的事物匯集在一起。然而,這些動態需要能確保網絡效率的網絡范例。在 [74] 中,作者將以信息為中心的網絡(ICN)與軟件定義網絡(SDN)結合起來,以滿足這些要求。
本節分析了一些與邊緣服務最相關的戰術物聯網應用場景,如圖 1.2 所示。指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)和火控系統的應用主導了國防和 PS 物聯網相關技術的采用,因為傳感器主要用于收集和通信數據,以改進 C2。雖然物聯網和邊緣計算技術以前曾用于與后勤和訓練有關的應用,但它們與其他系統的集成往往有限。
如前所述,邊緣物聯網功能可用于在戰場上提供卓越的態勢感知。指揮官可根據從無人機/無人駕駛傳感器和戰場報告中提取的 AI/ML 數據整合后得出的實時分析結果做出決策。地面傳感器和攝像機,以及人或無人設備、車輛或士兵都能為指揮官提供廣泛的信息。上述物聯網設備能夠掃描任務環境,然后將信息發送到前沿基地的邊緣計算服務器。這些信息的一部分可由指揮中心收集,并在那里與其他來源的信息進行處理和融合。
圖 1.3:戰術邊緣物聯網系統的通信架構
第五代 (5G) 技術的部署已被確定為包括軍事在內的各行業的關鍵戰略技術。美國防部(DOD)尤其強調了盡早采用 5G 技術以保持競爭優勢的重要性。然而,在戰術網絡中部署現成商用(COTS)5G 解決方案仍需進一步研究。戰術環境復雜多變,往往充滿敵意,給網絡通信帶來了獨特的挑戰。利用純軟件解決方案集成 5G 技術,實現戰術融合,可在成本、靈活性和可靠性方面帶來顯著優勢。本研究旨在收集和分析 5G 網絡實驗數據,以深入了解在戰術環境中部署和使用 5G 技術所面臨的挑戰和機遇。目標是推動開發更有效、更高效的網絡解決方案。這項研究揭示了顯式網絡切片的潛在性能權衡、5G 擴大頻譜接入的意義,以及 COTS 解決方案在加速戰術網絡開發方面的價值。提出的建議包括在實驗性戰術環境中全面實施網絡切片,以及探索用于資源優化和網絡防御的人工智能/ML 模型。
圖 1.1. 美通信陸戰隊員在加利福尼亞州 29 Palms 的一次野外訓練中安裝 COTS 解決方案。
論文闡述了戰術融合的復雜性及其與 5G 技術的融合,為現代國防通信的戰略需要指明了方向。
第 2 章 “背景和相關工作 ”首先簡要概述了 5G 的歷史,詳細介紹了支撐其徹底改變戰術通信潛力的關鍵技術創新。這一敘述不僅強調了 5G 的關鍵技術能力,還將討論置于相關著作的背景下,明確了本研究試圖解決的貢獻和差距。
第 3 章 “方法論 ”介紹了為探索 5G 的可擴展性及其增強美國海軍陸戰隊戰術網絡并與之整合的潛力而采用的研究方法。本章概述了實驗設計以及為評估 5G 在這些獨特環境中的實用性和有效性而制定的評估標準,為嚴格的實證調查奠定了基礎。在
第 4 章 “結果 ”介紹了實證研究的結果,詳細分析了 5G 網絡在戰術條件下的表現以及軟件解決方案在促進網絡整合方面的作用。分析的重點是評估戰術融合的可行性,利用數據為有關 5G 在支持戰術行動方面的適應性、復原力和作戰效能的討論提供信息。
最后,第 5 章 “結論與未來工作 ”對研究成果進行了總結,探討了在戰術網絡中采用戰術融合的戰略意義。它闡明了 5G 和戰術融合在增強未來國防通信系統方面的預期作用,同時也為進一步研究指明了道路。最后一章旨在總結本研究的見解,反思本研究對更廣泛的軍事通信技術討論的貢獻,并提出未來探索的途徑。
決策輔助系統是國防指揮與控制裝置的基礎,為各級決策過程提供信息。圍繞人工智能(AI)在決策輔助系統中的應用開展的現有研究認為,人工智能是此類系統性能和應用的關鍵驅動因素。然而,很少有研究探討時間因素和中間決策的存在對決策者對此類系統信任度的影響,或者當決策由另一個人輔助時,與由人工智能輔助時的影響有何不同。現有文獻認為,對人工智能的信任不同于其他信任對象。本論文通過探究信任的產生是否更多地取決于信任的對象或來源來探索這一假設。之前的一項實驗研究了當決策支持僅由人工智能系統提供時,時間和中間判斷對信任的影響。本論文對該實驗進行了擴展,同時操縱了決策輔助的來源,即人類,而不僅僅是人工智能。通過加入人與人之間信任的基礎案例,本研究可以就中間判斷和時間對決策輔助系統信任的相對影響進行比較分析。
決策輔助系統是美國防部(DOD)指揮與控制機構的基礎,為各級決策過程提供信息。團隊是美國軍隊組織和完成任務的主要要素。美國防部打算通過將人工智能嵌入戰術、組織和戰略層面的組織結構(團隊),更快地做出更好的決策,從而獲得優勢(國防部,2022、2023a、2023b)。圍繞人工智能(AI)在決策支持系統中應用的現有研究表明,信任是此類系統性能和采用的關鍵驅動因素。
問題在于,人們尚未充分認識到若干設計參數對信任和性能的影響,這可能會延遲或抵消人工智能決策支持系統的優勢(Ashoori & Weisz, 2019; Tangredi & Galdorisi, 2021)。由于這些系統將用于做出關鍵決策,或在動態、混亂的環境中為人類提供支持,因此這些系統必須值得信賴且性能良好(Babo?,2021;人工智能特設委員會,2023)。本研究的目的是,與人工智能(AI)相比,當人類的決策過程得到人類分析師的支持時,研究自變量(中間判斷和時機)對因變量(信任)的影響。這項研究旨在促進人機系統的整合,實現有效的機器/人工智能設計并更快地應用于軍事領域,加強這些機器的穩健性和復原力,并為設計有效的人機系統提供支持理論。
之前的一項調查試圖了解在僅與人工智能輔助決策系統互動時,信任是如何隨著時間的推移而演變的(Humr 等人,2023 年)。本調查比較了當決策支持來源是人類分析師和人工智能分析師時,信任度是如何演變的。通過操縱決策支持的來源,本調查旨在比較人類和人工智能群體的信任度和表現,并分析人類和人工智能群體本身的自變量的影響。
現有文獻的基本假設是,人類決策者對人工智能決策支持系統產生信任的過程不同于決策者對提供相同決策支持的另一個人類產生信任的過程。這一假設在人工智能研究中基本上沒有受到質疑。雖然人工智能系統中信任和性能的關鍵驅動因素須要并將繼續得到確定,但值得確定的是,它們與現有的以人類之間的信任為基本情況的信任模型相比有何不同。這種調查可能會挑戰現有的假設,即人類建立信任的過程因信任對象的不同而不同。按理說,無論是人類還是人工智能,信任決定都是由人類主體做出的,可能會也可能不會受到人類所信任的對象的影響。
現有文獻表明,人類建立信任的過程更多地取決于信任的對象(被信任的人或事物),而不是信任的來源(決定信任的人類)。鑒于人工智能系統的新穎性和細微差別,以及它們與人類的生物和社會稟賦的截然不同,當決策支持、信任對象是人工智能系統而非人類時,決策背景下的信任模型會有所不同這一假設通過了表面有效性的檢驗。然而,本次調查對現有文獻中這一近乎教條的假設提出了質疑,直接探討了人類對人工智能的信任是否與人類對其他人的信任有本質區別。畢竟,人類的信任過程已經發展了數千年,而機器和人工智能的存在不過是進化過程中的一眨眼。
這項研究試圖擴展之前的一項實驗(Humr 等人,2023 年),在這項實驗中,人工智能分析師為人類決策者提供意見。在該研究中,操縱的自變量是中間判斷形式的選擇和分配的時間。因變量是信任評價,其形式是詢問受試者在與決策支持體互動后,未來將某項任務委托給人工智能的可能性有多大。這項研究重復了之前的實驗,但用人類分析師代替了人工智能分析師。其他一切保持不變,以便在人類支持組和人工智能支持組之間進行比較。
這項研究發現,在由人類與人工智能系統支持決策的受試者之間,信任評價在統計學上沒有顯著差異。這些發現與人工智能信任研究領域的傳統假設相沖突,即人工智能信任是一種與一般信任根本不同的現象,因此需要獨立表達。
雖然這些發現并不能概括所有類型的信任、人工智能的使用案例或人類可能與之互動的人工智能類型,但它確實表明,與試圖重新發現人工智能或人工智能系統中可能使其值得信任的方面相比,更努力地識別人類之間信任的關鍵驅動因素對于設計可信任的人工智能可能更有價值。本研究建議未來的實驗探索信任的另一個關鍵驅動因素,即決策支持(人工智能或人類)的性能,并將其對信任的影響與本實驗中使用的自變量進行比較。此外,本研究還建議調查選擇和時機這兩個自變量如何影響決策者的整體決策表現。畢竟,信任是影響績效的一個中介變量,因此,通過直接觀察這些自變量對績效的影響,決策支持系統的設計者就能建立盡可能好的系統。
將人工智能(AI)融入軍事作戰決策過程(MCDMP)已引起眾多國家和國際組織的關注。本論文探討了軍事決策的復雜領域,其特點往往是高風險情況和時間限制,這可能導致認知偏差和啟發式錯誤。在需要做出關鍵決策的流程中添加新技術,需要人類操作員做出某些調整和采取某些方法。鑒于所做決定的人道主義影響,人工智能的整合必須謹慎進行,解決潛在的阻礙因素,以確保負責任地使用這些技術。其中一些因素圍繞著人類與人工智能的合作,特別是對技術的接受程度,這可能會影響技術的使用和發展,正如文獻所指出的那樣。我們的研究將采用多方面的定性方法,結合學術文獻綜述、對具有人工智能知識的軍事科學專家的訪談以及對軍事人員的訪談,全面了解專家和軍事人員對人工智能作為決策支持系統(DSS)的印象。
這項研究提高了人們對認知結構在促進人類與人工智能合作中的重要性的認識,并揭示了軍事作戰決策者目前對使用人工智能技術輔助決策的看法。我們的目標是為正在進行的有關將人工智能作為決策支持系統整合到軍事行動中的挑戰和機遇的討論做出貢獻。我們將提供有助于在高風險環境中更明智、更有效地采用人工智能技術的見解。通過技術接受模型(TAM)和技術框架理論,我們揭示了感知、假設、期望和信任這些影響人工智能作為決策支持系統接受程度的因素。因此,通過負責任地使用人工智能工具,可以提高軍事作戰決策的有效性。
關鍵詞:軍事作戰決策過程(MCDMP)、人工智能(AI)、人-AI 合作、假設、期望、信任、認知、新技術接受、AI 應用中的挑戰、AI 在軍事中、AI 在決策中的應用
隨后的一章建立了理論框架,全面概述了將人工智能納入 MCDMP 的現狀,并討論了人工智能和軍事決策過程等相關概念。它還介紹了重要的技術接受模型、技術框架和TAM,并討論了與模型相關的概念:感知、假設、期望和信任。第三章詳細介紹了研究方法,包括定性方法、選擇標準以及數據收集和分析方法。其中包括半結構式訪談、數據分析技術、有效性和可靠性的衡量標準,以及倫理方面的考慮。第四章對收集到的數據進行分析和討論。我們將揭示和討論來自文獻和訪談的研究結果,從人工智能在 MCDMP 中的整合現狀入手,將研究結果分為以下幾類:(1)感知有用性;(2)感知易用性;(3)期望和假設;(4)信任和可信度。此外,我們還將回答研究問題。最后,第五章將對研究進行反思,總結主要發現、研究貢獻以及對進一步研究和行業行動的建議。
圖 3:軍事戰斗決策過程中人工智能整合程度的簡化模型
在人工智能(AI)研究領域,制造人工通用智能(AGI)一直是一個難以實現的目標。AGI 將像人類一樣,有能力接觸新的問題領域,學習相關知識,然后使用推理過程做出決策。雖然人工智能技術已被廣泛應用于各種問題領域,但 AGI 要求人工智能能夠在編程和訓練之外進行推理。本文向制造 AGI 邁出了一小步。它描述了一種人工智能學習和開發推理路徑的機制,以便在先驗未知領域做出決策。它結合了一種經典的人工智能技術--專家系統和一種現代的改良技術--梯度下降訓練專家系統(GDTES),并利用生成式人工智能(GAI)為該系統創建網絡和訓練數據集。這些數據集可以從現有資源中創建,也可以借鑒 GAI 自己的預訓練模型中的知識。GDTES 中的學習過程用于優化人工智能的決策。雖然這種方法并不符合許多人對人工智能所定義的標準,但它提供了某種類似的能力,盡管在使用前需要一個學習過程。
本節介紹并描述 AMAIT 的設計,如圖 3 所示。首先,將提供一個概覽。然后,第 3.1 至 3.5 小節將更詳細地介紹 AMIT 系統的關鍵組成部分。
AMAIT 系統結合了 GAI、GDTES 和專家系統技術。為此,AMAIT 系統采用了 GDTES 形式的規則-事實專家系統,該系統利用小數/分數值(DFV)來表示規則。根據特定的應用領域和網絡設計,這些值可以代表部分成員資格、模糊性、置信度或其他類似內容。每種技術都發揮著關鍵作用。從根本上說,AMAIT 的長期目標是建立一個 DFV 專家系統,該系統可以對問題領域進行推理,除了設置所需的初始參數和幫助系統獲取相關數據外,無需人工干預。不過,可以在多個地方加入人工審核,以幫助學習過程并確保準確性和合規性。
系統首先要有一個 GAI 模型,能夠生成與問題領域相關的內容。這可以是一個預先訓練好的通用模型,也可以是一個為特定用途或應用領域創建的模型。該模型向翻譯/轉換器模塊提供內容,該模塊采用良好的數據格式、人類可讀的英語文本,并將其翻譯/轉換為專家系統網絡。
接下來,GAI 可用于以數據格式良好、人類可讀的英文文本形式創建訓練數據集。該數據集將提供給監督學習集創建者翻譯/轉換模塊,該模塊將為所有系統輸入生成輸入值,并為監督學習生成目標輸出。最初,該模塊用于優化應用于 GDTES 系統內規則的權重。
值得注意的是,如果有人工收集的數據,也可用于這一步驟。此外,也可以使用其他合成數據生成技術。
第三個主要步驟是利用 GAI 創建訓練數據集(同樣是格式化良好、人類可讀的英文文本),并將其提供給監督學習集創建翻譯器/轉換器模塊。在這種情況下,它被用來生成用于優化網絡本身的數據(如 [29] 中所述)。值得注意的是,在進行網絡優化后,應再次執行優化權重的過程,以最大限度地提高系統性能。為簡潔起見,圖中沒有單獨描述這一步驟。
如上所述,人工收集的數據或其他合成生成技術也可用于這一步驟。
最后,對 GDTES 模型進行測試,以確保其在投入使用前適合使用。首先,使用 GAI 提供的新數據(或人工收集的數據或以其他方式合成的數據)對其進行測試。然后,使用真實世界的數據(如果有的話)進行測試。如果適用于問題領域,還可在系統運行期間利用反饋機制對系統進行改進。
為響應美國國防部(DoD)的戰略現代化倡議,美國空軍(USAF)正在努力開發在未來行動中取得成功的技術和戰術,而做好準備取決于現在就進行投資。為了進行有效的投資,美國空軍和其他國防規劃機構都希望了解,當新技術和新概念方案改變軍事行動中使用的系統時,軍事行動的結果會發生怎樣的變化。在這一過程中,軍事模擬是一個重要的工具,可以幫助人們建立對替代技術和概念的理解和推理能力。
在早期能力設計中,需要考慮各種新興技術和創新概念,分析涉及在模擬環境中運行的模擬人和模擬機器的協作和沖突結果。美國空軍最近正在考慮的一個場景是空軍基地防空 (ABAD),其目標是了解如何在空軍基地遭受導彈和無人機襲擊的情況下有效運作。為了決定投資,為成功實現空中基地防御做好準備,美國空軍正在努力確定有問題的場景和有希望解決問題的替代方案。然而,在所考慮的各種情況和投資中,為應對技術變化和不斷發展的威脅而進行現代化所需的速度意味著需要加快基于模擬的分析,以便更快地建立理解并為決策提供依據。
目前的仿真分析是通過部隊設計過程,利用不同的作戰視角迭代建立對未來作戰的理解,從而應對未來預期作戰的復雜性。在美國空軍,這是在空軍作戰集成能力(AFWIC)領導的 "評估-發展-評價能力發展規劃"(CDP)設計循環中完成的。在這一迭代過程中,有兩大部分是有效模擬分析的核心。首先,通過產生重要的、突發的行為來積累知識;其次,通過桌面設計演練,將利益相關者聚集在一起,并允許與基于仿真的數據進行參數化交互,從而實現真實世界的決策。我們為管理突發行為的工作過程制定了一個框架--"在缺乏知識的情況下利用仿真分析管理突發行為的非線性和隨機未來行為探索(ENFLAME)",以構建相關活動的結構,并將研究重點放在這項工作上。
突發行為是軍事行動結果的關鍵性變化,通常難以預測,因為復雜性會導致一系列不幸事件,導致出人意料的壞結果,或一系列幸運事件,導致出人意料的好結果。在 ABAD 的例子中,這可能涉及各種技術和概念的組合,即使在導彈和無人機攻擊的預期困難情況下,也能產生出人意料的好結果。要找到這些突發行為,通常需要專家與模擬進行交互,并知道應關注和查詢哪些領域,或者使用蒙特卡羅模擬(MCS)進行隨機搜索。然而,美國空軍正在使用的高保真、昂貴的軍事仿真卻限制了蒙特卡洛仿真的使用,因為要找到罕見的、令人驚訝的行為,需要進行很多很多次仿真。此外,專家資源有限,只擅長某些領域,而且未來軍事行動十分復雜,即使是專家也難以預測。這些挑戰促使我們需要改進尋找重要突發行為的方法。
本論文的研究工作通過改進 "評估-開發-評估 "設計循環中的兩項關鍵活動,解決了加速仿真分析所面臨的挑戰。首先,為了加速基于仿真的突發行為分析,我們開發了一種能更快找到突發行為的新方法--使用數值優化(LANTERN)方法追蹤極端罕見事件的低成本自適應探索(LANTERN)。LANTERN 基于從文獻中歸納出的突發行為的特定定義,可以制定優化方法,以比蠻力 MCS 技術更快的速度搜索突發行為。具體來說,利用新穎的貝葉斯優化(BO)技術加速搜索作為罕見、局部和隨機極端事件的突發行為,該技術可自適應地查詢仿真響應以查找罕見事件。這些新技術針對的是與突發行為相關的高度局部極值和局部高變異性的獨特特征。與軍事智能體建模(ABM)的預期響應行為相匹配的測試問題實驗表明,與 MCS 相比,該技術有了很大改進。其次,為了在桌面設計演習中加快對隨機行為的分析,介紹了一種替代建模方法--ECDF-ROM 方法,該方法采用了從工程設計中借鑒的降序建模(ROM)技術,并結合了一種新的現場表示方法。
研究突發行為的實驗表明,使用新的 BO 技術比使用蠻力 MCS 有了顯著改進,可以更快地發現罕見的極端事件。針對桌面設計練習的智能體建模實驗也顯示了近似預測完整經驗分布的可行性。利用仿真、集成和建模高級框架(AFSIM)開發的兩個基于智能體的軍事模擬場景,完成了對 LANTERN 方法和 ECDF-ROM 方法的最后演示。首先,使用敵方防空壓制(SEAD)場景來演示 LANTERN 步驟在搜索罕見的局部極端事件方面的有效性。其次,使用四對四空戰場景演示 LANTERN 步驟在搜索罕見、隨機極端事件方面的有效性,同時演示 ECDF-ROM 智能體建模方法。通過這些演示,本論文中開發的 LANTERN 方法和相關方法(基于泰勒擴展的自適應設計 (TEAD)、針對多外延突發行為的分區貝葉斯優化 (PIONEER)、變異貝葉斯優化 (VarBO))以及 ECDF-ROM 智能體方法可用于加速基于迭代模擬的軍事場景分析的關鍵部分。研究結果還強調了對 ENFLAME 框架的重要更新,該框架旨在利用軍事仿真管理突發行為--再次強調利用仿真發現重要突發行為的能力,并使未來的工作重點放在基于新技術和新概念的漏洞識別與緩解以及機會利用上。
圖 1.5:描述和模擬軍事行動的智能體模擬方法圖解。注意重點是獨立感知、決策和行動的自主智能體,以及定義動態的一系列交互作用。
圖 2.2:管理突發行為的 ENFLAME 框架概述。
圖 2.2 是 ENFLAME 框架的示意圖。該框架有四個核心部分。首先,具體化情景涉及情景建模,包括行動概念(CONOPS)、參與者(系統、人員等)、情景中系統之間以及系統與環境之間的交互。此外,這還包括與直接用于決策的投資和感興趣的投資領域之間的聯系。主要的建模任務還包括翻譯和開發模擬表示法,在模擬表示法中對分辨率和范圍進行選擇,以滿足情景中的決策問題所提出的需求。
其次,一旦創建了情景模擬表示法,就需要探索如何發現重要的突發行為,以便對系統行為進行管理(從輸入和情景配置以及結果的角度找出系統的弱點和機會所在)。根據上述將突發行為定義為罕見的極端事件,要找到這些事件發生時的位置,就需要一種尋找突發行為的方法。這與分析中的 "評估 "階段關系最為密切。
第三,當發現突發行為時,就需要解決其極端性所帶來的問題漏洞或潛在機會。這就需要探索情景中各系統相互作用的因果動態,這些動態導致了極端事件的發生,并產生替代規則或變化,以減輕有問題的行為或強化良好的行為。這與分析中的 "發展 "階段關系最為密切。
最后,一旦設計出潛在的替代方案,使系統中的行為保持在可接受或有利的狀態,就需要評估這些替代方案的可行性和可負擔性,并將其與潛在的投資方案聯系起來。這與分析中的 "評估 "階段關系最為密切。
加固網絡物理資產既重要又耗費人力。最近,機器學習(ML)和強化學習(RL)在自動化任務方面顯示出巨大的前景,否則這些任務將需要大量的人類洞察力/智能。在RL的情況下,智能體根據其觀察結果采取行動(進攻/紅方智能體或防御/藍方智能體)。這些行動導致狀態發生變化,智能體獲得獎勵(包括正獎勵和負獎勵)。這種方法需要一個訓練環境,在這個環境中,智能體通過試錯學習有希望的行動方案。在這項工作中,我們將微軟的CyberBattleSim作為我們的訓練環境,并增加了訓練藍方智能體的功能。報告描述了我們對CBS的擴展,并介紹了單獨或與紅方智能體聯合訓練藍方智能體時獲得的結果。我們的結果表明,訓練藍方智能體確實可以增強對攻擊的防御能力。特別是,將藍方智能體與紅方智能體聯合訓練可提高藍方智能體挫敗復雜紅方智能體的能力。
由于網絡威脅不斷演變,任何網絡安全解決方案都無法保證提供全面保護。因此,我們希望通過機器學習來幫助創建可擴展的解決方案。在強化學習的幫助下,我們可以開發出能夠分析和學習攻擊的解決方案,從而在未來防范類似威脅,而不是像商業網絡安全解決方案那樣簡單地識別威脅。
我們的項目名為MARLon,探索將多智能體強化學習(MARL)添加到名為CyberBattleSim的模擬抽象網絡環境中。這種多智能體強化學習將攻擊智能體和可學習防御智能體的擴展版本結合在一起進行訓練。
要在CyberBattleSim中添加MARL,有幾個先決條件。第一個先決條件是了解CyberBattleSim環境是如何運行的,并有能力模擬智能體在做什么。為了實現這一點,該項目的第一個目標是實現一個用戶界面,讓用戶看到環境在一個事件中的樣子。
第二個先決條件是為CyberBattleSim添加MARL算法。目前CyberBattleSim的表Q學習和深Q學習實現在結構上無法處理這個問題。這是因為CyberBattleSim實現的表Q學習和深Q學習不符合適當的OpenAI Gym標準。因此,需要添加新的強化學習算法。
當前的防御者沒有學習能力,這意味著要啟用多智能體學習,防御者需要添加以下功能:添加使用所有可用行動的能力,將這些行動收集到行動空間,實現新的觀察空間,并實現獎勵函數。
最后,為了增加MARL,新創建的攻擊者算法和新的可學習防御者必須在同一環境中組合。這樣,兩個智能體就可以在相互競爭的同時進行訓練。