自二戰以來,戰爭背景下錯誤信息與宣傳戰的利弊已獲充分研究與記載。深度偽造技術通過結合人工智能(AI)與軍事情報(MI),能生成超逼真合成媒體,對軍事信息系統的機密性、完整性與可用性構成獨特挑戰。本文探究二戰、冷戰等歷史錯誤信息案例,評估深度偽造如何變革心理戰行動、欺騙策略與非動能作戰。研究強調通過軍事訓練、強化指揮體系、數字意識與技術監管構建防御機制,并指出需發展攻防兼備的雙用途能力。同時探討技術適應挑戰,提出在健全生態下開發印度本土方案以實現聯合信息戰的數字主導權。
信息向錯誤信息的轉化歷程已有充分歷史記錄與研究。利用錯誤信息贏得戰爭自古有之,其傳播通常旨在通過過度推銷特定敘事獲勝,或心理引導大眾敘事獲取聲望。在運用宣傳贏得戰爭層面,二戰堪稱最佳范例。若宣傳與錯誤信息是傳播敘事的手段,深度偽造則隨技術演進成為此類傳播的新興載體。本文將深度偽造定義為技術概念并分析案例研究,后續章節將剖析其如何成為強力"錯誤信息工具"。
深度偽造技術本質
"深度偽造"(Deepfake)由"深度學習"(deep learning)與"偽造"(fake)復合而成,指利用機器學習算法創建代表某人某物的合成媒體的人工智能能力。產物可為純語音或音視頻組合。技術發展已使公眾難辨真偽,其生成的錯誤信息能深刻影響輿論、扭曲現實、煽動恐慌。盡管圖像/語音/視頻生成技術復雜,但傳播極為便捷。經由社交媒體、WhatsApp或YouTube等數字渠道傳播的深度偽造內容可瞬間煽動公眾情緒,其傳播規模與速度呈指數級增長,故成為信息戰(IW)的理想武器與催化劑。
深度偽造技術原理
深度偽造基于深度學習算法構建,以生成對抗網絡(GANs)最為常用。本文無意深究技術細節,但理解合成數據創建的技術精妙性頗具價值。GANs超越"神經網絡"技術,因其運作機制類人腦神經元得名。GANs含兩大組件:生成器與判別器。生成器負責生成最終音視頻或合成數據;判別器則提取目標人物真實圖像特征。這對組件通過競爭機制——生成器優化合成輸出,判別器提升真實特征提取能力——實現協同進化。
隨時間推移,判別器經訓練可精準提取目標人物特征,生成器則能產出高質量數據。因GANs基于神經網絡架構,持續學習改進能力構成其核心價值。訓練數據集由目標對象的圖像視頻組成,編碼器-解碼器通過處理該數據集提取特征:編碼器壓縮輸入數據,解碼器重構數據。由此獲得的認知可將面部特征、表情及聲音跨個體、跨語境遷移。當特征提取成熟后,神經網絡訓練成果可無縫移植至不同場景或敘事。該技術還提升適應性——惡意使用者可基于不同場景訓練數據,重構適配新場景的特征。
本文強調知識圖譜在強化軍事偵察的智能信息系統中的重要作用,著重分析知識圖譜的推理能力價值,并探討開源工具在知識圖譜開發維護中的角色。為此,本文首先剖析不同開源知識圖譜工具提供的推理支持,探索如何利用現有軟件推理器增強知識圖譜功能。這為知識圖譜實踐者提供寶貴指南——洞察可用資源、推理支持及構建綜合知識圖譜的策略。其次,本文提供有效框架幫助用戶根據軍事偵察特定需求篩選和比較最適配工具。
圖1:情報周期內的知識工程流程。傳統情報周期通常由需求模塊起始的四個組件構成。新增的"處理"模塊通常作為分析模塊的子流程。此處將其視為獨立模塊,旨在突顯周期內兩個底層流程:一級數據處理與融合階段,二級高級情報生成階段。
軍事情報依賴收集處理偵察行動中獲取的海量異構數據,以消除情報知識缺口并支撐指揮官決策。多源信息的必要互聯通過提供作戰環境實時精準數據,對指揮控制(C2)智能信息系統(IIS)形成關鍵支撐。在"情報周期"(涵蓋任務分配、收集、處理、分析與分發流程)中,分析師需處理描述指揮官信息需求的優先/特定情報需求(PIRs/SIRs)。簡言之,指揮官需掌握敵軍戰力等信息以制定應對決策,而分析師通過解析偵察數據提供情報支持。數據通常經多技術手段采集,呈現多樣化格式(如圖像、書面報告、無線電訊號等)。當部隊無法獨立滿足情報需求時,需向上級或友鄰單位申請支援。所有采集數據與反饋信息必須有效整合。知識圖譜(KG)作為結構化多關系圖式知識表征——捕捉實體(如人員、載具、地點)及其關聯信息,為組織存儲檢索此類信息提供高效方法。知識圖譜可視為實體語義網絡、屬性及關系的符號化表征,其優勢在于明確定義的語義與推理能力:可檢測矛盾或通過領域知識豐富信息。具備推理能力的知識圖譜支持復雜作戰環境決策,類似指揮控制與情報知識信息系統的決策場景。
知識圖譜通過組織海量互連數據,構建軍事戰略行動相關信息的結構化表征。這種結構化知識促進精細化情境感知推理,從離散數據源提取可操作洞察。隨著系統演進,高級推理機制的整合進一步優化決策流程——基于知識圖譜實體間復雜關系推演潛在結果。本質上,指揮控制與情報智能信息系統融合知識圖譜及推理能力,不僅優化信息檢索與解讀,更為戰略領導者提供駕馭信息化現代戰爭復雜性的高階工具。相較于易產生幻覺的大語言模型(LLM),知識圖譜通常包含已驗證事實。目前LLM仍難從文本提取邏輯關聯:若模型訓練包含"A是B"句式,其無法自然推導"B是A"逆命題(此現象稱"逆轉詛咒")。LLM另一局限在于僅通過單次海量文本訓練且缺乏持續更新。解決方案之一是情境學習,如采用檢索增強生成(RAG)框架。知識圖譜及其嵌入表征亦可作為情境學習源,例如在基于最新信息構建問答系統的RAG流程中。
在軍事等敏感領域決策時,決策者終不可依賴直覺。因決策關乎人命,其必須基于有效事實可追溯、可解釋。知識圖譜及其推理能力相較LLM兼具二者特性,故LLM目前無法替代知識圖譜。構建知識圖譜面臨多維挑戰:需以有意義方式結構化信息以表征應用領域相關實體關系。成功創建維護知識圖譜主要依賴本體編輯器與推理器兩大工具:編輯器用于開發本體(定義特定知識領域核心概念、屬性及關系的概念框架);推理器基于既有事實推導新知識,用于深化洞察或檢驗知識圖譜信息一致性。
構建穩健本體需理解RDFS/OWL等本體語言與形式化標準。理想本體編輯器應配備圖形界面以隱藏形式化復雜性,使本體學家(專攻本體設計與實施的專家)聚焦核心術語與關系的明確定義。此過程通常為迭代協作式。開源工具在普及知識圖譜中發揮重要作用,歐盟委員會亦倡導使用促進知識圖譜開發維護的開源方案。開源工具具多重優勢:規避供應商鎖定、低成本可及性等。故本研究僅考量輔助知識圖譜構建維護的開源軟件。但并非所有開源編輯器或推理器均提供同等推理支持(知識圖譜核心能力)。因此,本文通過評估各類公開編輯器與推理器的推理能力,揭示此關鍵維度。
本文通過梳理現有開源工具為知識圖譜實踐者提供指南。重點聚焦推理能力及開源編輯器對其支持程度,同時介紹部分開源推理器及其與現有編輯器的協同使用方案。這涉及評估編輯器與推理引擎的兼容性,以通過自動推理提升知識圖譜構建質量精度。全文結構如下:第二章論述相關工作;第三、四章開展開源本體編輯器與推理器的比較評估;第五章探索構建全功能知識圖譜平臺;第六章總結全文。
無人機系統的興起重塑了戰爭的倫理與作戰環境。本文通過分析精密與簡易無人機系統的歷史應用及戰時法原則遵循情況,探討其在大國競爭中的角色定位。基于全球反恐戰爭(GWOT)與俄烏沖突的案例研究,剖析區分原則與相稱性原則的實踐應用,揭示無人機系統如何影響未來威懾與交戰策略。反恐戰爭案例研究聚焦精密系統在寬松環境下對非國家行為體實施情報監視偵察(ISR)與精確打擊的效能;俄烏沖突則凸顯低成本商用無人機在對抗性戰場中的顛覆性力量。這些案例評估了戰時法原則遵循度,并為未來沖突中的無人機作戰提供建議——在面臨先進反介入/區域拒止(A2/AD)體系嚴峻挑戰的背景下。本研究審視無人機系統在強對抗環境中的整合難題,主張運用精密無人機執行ISR與精確打擊任務,同時部署簡易無人機實施蜂群消耗戰術。研究最終提出以技術創新與去中心化控制為核心的無人機發展戰略,強調恪守戰時法原則以確保作戰效能與威懾力,同時最小化大國沖突中的升級風險。
無人機系統(UAS)在現代戰爭中的普及已重塑軍事行動的戰略與倫理考量。本論文通過考察針對國家與非國家行為體使用的精密/簡易無人機歷史案例,研判其在大國競爭(GPC)——特別是太平洋潛在沖突——中的未來角色。基于全球反恐戰爭與俄烏沖突的對比分析,揭示戰時法核心原則(區分性與相稱性)在戰場的實踐邏輯及其對威懾與作戰策略的塑造作用。
研究對比了MQ-9"死神"等精密無人機在反恐行動中的效能與低成本商用現貨(COTS)無人機在俄烏戰場的顛覆性影響。反恐戰爭中,無人機在非對抗環境下對非國家行為體提供無與倫比的ISR與精確打擊能力。這些以"9·11"后自衛權為法理依據的行動,仍引發關于目標合法性與道德責任的重大倫理爭議。核心挑戰在于如何界定遠超直接行動者的恐怖網絡中的合法目標。此外,多數反恐行動發生在非宣戰區域,對藏身平民的敵對分子實施定點打擊引發倫理質疑。區分原則尤其難落實——恐怖分子刻意混入平民使戰斗人員識別復雜化。但配備先進傳感器與生活模式分析系統的精密無人機提升了態勢感知與目標甄別能力。沖突的非對稱性使美國得以用尖端技術壓制低能力對手,降低大規模附帶損傷風險。然而公眾輿論與國際觀瞻成為主要挑戰——盡管精度提升,無人機打擊仍引發關于戰爭倫理、平民傷亡及軍事行動透明度的論戰。
反觀俄烏沖突,簡易可大規模部署的無人機展現出挑戰傳統軍事力量、助力消耗戰與瓦解常規戰場優勢的能力。烏克蘭有效運用低成本消耗型無人機實施蜂群戰術,為俄軍制造復雜目標選擇困境——此優勢在大型昂貴無人機上難以實現。通過加裝先進傳感器套件,烏軍提升戰場感知、目標識別與ISR能力,顯著增強作戰效能。去中心化無人機指揮結構加速決策流程,賦予烏軍相較俄軍集權模式的戰略優勢。但相稱性原則引發倫理關切——烏軍打擊目標從純軍事設施擴展至象征性城市中心,增加平民傷害風險。此舉招致報復性后果,鑒于俄羅斯核能力對手的不穩定屬性,沖突升級風險陡增。
兩案例的研究結論對理解無人機在強對抗印太環境的應用至關重要——先進A2/AD系統構成重大作戰挑戰。未來太平洋沖突需融合精密與簡易無人機系統,通過優勢互補突破防御體系:精密無人機承擔ISR、遠程精確打擊與電子戰任務;簡易無人機實施蜂群戰術制造目標選擇困境、干擾敵傳感器并強化戰場消耗。此類行動須符合國際倫理規范以避免意外升級,尤其面對具核能力的先進對手。
此潛在沖突中的目標合法性將更趨復雜——網絡與太空域作戰若缺乏明確責任方,可能意外加劇緊張并引發報復。動態環境中實施高效監管對防止沖突范圍失控至關重要。海戰可能為區分原則提供獨特優勢:因已知艦船名錄與分級標準,海上敵艦識別相對明確。但定位追蹤這些艦船需具備在A2/AD環境中存活的強健ISR能力,構成重大作戰挑戰。相稱性原則實踐或類俄烏沖突模式——初期聚焦軍事目標,隨敵方反應升級。
對美國國防部的核心建議聚焦無人機能力發展:優先開發配備先進傳感器套件、具備自主運行能力且能在A2/AD等高威脅對抗環境中存活的低成本消耗型無人機。這些系統需與其他自主平臺無縫集成,支持分布式作戰控制,并適配針對同級對手修訂的瞄準規則。無人機戰爭的持續演進要求平衡技術創新、戰略威懾與戰時法原則遵循,以確保作戰成功并最小化大國競爭演進中的意外升級風險。
隨著生成式人工智能(AI)技術迅猛發展,其對全球信息安全的潛在影響日益凸顯。本文探討俄羅斯國家關聯及親國家行為體如何在網絡傳播中討論、概念化與界定AI。基于對俄羅斯關聯網絡渠道的原創分析,本研究調查了俄影響力生態系統中的行為體如何看待AI在信息戰中的作用,以及其敘事揭示的威脅演變軌跡。報告發現:多元化的俄羅斯行為體正積極參與AI話題討論——不僅探索AI工具在內容自動化生產與傳播放大中的應用,更將其作為敘事工具加以探討:或宣揚其效力,或警示其風險,將其同時塑造為戰略資產與潛在威脅。
分析表明各類俄行為體(從瓦格納關聯組織到親俄黑客團體及網絡意見領袖)日益聚焦AI的雙重性。AI常被描繪為強大的信息操縱工具:能生成說服性內容、放大信息傳播量、以規模壓制對手。與此同時,眾多行為體對西方主導AI發展表示強烈憂慮,認為該技術可能顛覆公眾輿論、侵蝕自主權、破壞國內信息環境穩定性。關于監控、深度偽造(通過數字手段篡改音視頻以偽造人物言行)及算法偏見的擔憂在此類論述中尤為突出。這些討論遠非抽象臆測——本文記錄了國家關聯行為體如何積極辯論AI影響、分享實操知識、批判虛假信息實踐并招募技術人才。這些洞察表明俄影響力網絡正形成適應性演進文化,AI日益被視為未來信息戰的核心組件。
盡管本研究未觸及高層情報規劃內幕,但提供了行為體層面的獨特視角:揭示AI如何融入俄影響力網絡的戰略構想。這些發現不僅強調追蹤AI在未來虛假信息戰中的操作化應用至關重要,更需理解其已如何塑造行為體的思維方式、傳播模式及數字生態定位。
背景與方法
生成式AI的擴散引發廣泛擔憂——惡意行為體可能利用其破壞信息生態。早期關于AI生成虛假信息的警示多聚焦理論風險,而新近證據表明眾多行為體已將此類技術納入影響力行動。理解這些行為體如何認知、試驗及部署生成式AI,對預測未來威脅設計有效反制至關重要。此問題在俄信息戰背景下尤為迫切:俄政府長期將信息戰視為治國方略核心,視信息域為與傳統/核戰爭同等重要的沖突戰場。據信俄國家關聯虛假信息行為體已重金投入AI技術,以期在2024年歐洲議會選舉前夕影響歐洲受眾。隨著生成式AI更易獲取且功能增強,其降低了親俄行為體生態(含國家關聯媒體、黑客活動分子及網絡意見領袖)的操作門檻,使其能以更復雜方式試驗并應用這些工具。
盡管威脅嚴峻,對俄國家關聯行為體虛假信息戰的認知仍有限。現有討論多聚焦行動輸出,卻較少關注其如何看待AI在影響力行動中的作用。本文通過考察俄國家關聯行為體(含國家關聯社媒群組、黑客團體、軍事關聯組織及網絡意見領袖)對AI的討論填補此空白,探討AI如何成為其武器庫中的增效工具或補充現有技戰術。本研究通過測繪分析這些行為體的網絡傳播渠道與信息生態,為理解俄虛假信息戰提供新洞察。具體而言:分析其如何探討AI的認知理解、技術應用現狀及宣傳潛力,聚焦歐洲受眾影響與輿論極化嘗試。
本分析置于探索AI賦能信息戰的文獻脈絡中,提供更以行為體為中心的視角。研究未將俄虛假信息視為單一國家主導行為,而是強調參與者的異質性及其應用AI方式的多樣性與矛盾性。盡管聚焦戰術與中層級行為體,本文無意映射情報機構高層或決策者的戰略思想——此類洞察超出開源社媒監測范疇。本報告旨在精細呈現AI在俄影響力生態系統中如何被認知、討論與操作化,揭示這些演變實踐反映的實操與敘事層面新興威脅。
當今社會的技術發展要求對計算機及通信網絡實施有效防護,并實現網絡攻擊的快速精準檢測。本文探討如何應用機器學習(ML)算法強化網絡安全防護措施,重點聚焦勒索軟件檢測領域。據此,提出系列ML專屬方法——包括分類算法(隨機森林、支持向量機)、異常檢測(K均值聚類、自編碼器)與神經網絡(卷積神經網絡、循環神經網絡),并解析如何優化運用這些技術甄別各類應用的異常活動。同時,本文亦探究支撐ML模型的基礎設施所面臨的安全風險。
當前影響人類的威脅可分為五大領域:陸域、水域、空域、天域及網絡空間。但極端主義、輿論極化乃至虛假信息亦可能引發嚴峻社會問題。各領域均構成現代國家及組織實施防御與戰略安全布局的獨立維度。前四類威脅與網絡威脅的核心差異在于:前者受自然法則約束,而后者根植于人為因素。然而這些領域深度互嵌且頻繁交疊,例如網絡攻擊可干擾海空通信并影響導航系統,而衛星在涉及無人機導引或空中監視的地面行動中亦發揮關鍵作用。
在此具有虛擬屬性的新現實中,新型網絡威脅持續涌現,亟需縝密管控與追蹤。技術迭代速度加劇了基礎設施所有者(IT部門)與負責網絡安全防護、控制流程的安全團隊之間的割裂。根據曼迪昂特(Mandiant)最新安全效能報告:
? 53%的網絡攻擊未被上報
? 68%的勒索攻擊未被上報
? 91%的攻擊未觸發任何警報
? 1.23億高科技安全解決方案覆蓋9億用戶及11個行業
日益增多的實體正遭受多維度網絡攻擊,而網絡安全的核心使命正是保護信息資產并防范未授權訪問。
在此背景下,人工智能(AI)與量子計算技術通過增強實時數據分析處理能力,成為虛擬環境安全轉型的支柱。AI發展引發用戶群體分化:依賴AI實現流程自動化者,與通過保障數據質量及精確性優化模型者。這種動態要求采取雙軌策略——既要提升AI應用效能,亦須強化倫理矯正與監控機制。下文各章節將分別探討:
本文探討了在軍事網絡安全方法中應用生成式人工智能(Generative AI)所帶來的倫理和對抗影響。生成式人工智能已在眾多民用應用中展示于威脅模擬和威脅防御領域。盡管如此,其在軍事應用中存在重要的倫理考量,原因在于生成式人工智能可能被濫用。針對軍事系統的網絡威脅正變得比以往更加復雜,我們希望為該領域的研究體系增添數據,以幫助彌合在理解軍事環境中生成式人工智能風險方面所識別的知識差距。目標: 本文旨在探討圍繞生成式人工智能軍事應用的倫理困境,包括責任歸屬、自主性和濫用問題。本文審查了與生成式人工智能相關的對抗性風險,包括敵對行為體的操縱或其他利用。目標是提出考量倫理困境的措施,同時改進防御能力。方法: 方法論將評估倫理風險,如與人工智能系統相關的自主性、武器化和偏見問題。它將通過建議采用對抗性訓練策略、混合人工智能系統以及針對被對抗性操縱的人工智能生成威脅的穩健防御機制來確定對抗性風險。它還將為軍事網絡安全提出倫理框架和責任模型。結果: 本文提供了在傳統網絡環境和智能網絡環境下軍事網絡安全系統的性能比較評估。重要研究結果證明,生成式人工智能有可能提高檢測準確性,尤其是響應時間。但它也引入了新的風險,如對抗性操縱。實驗結果說明了對抗性訓練如何增強模型的魯棒性、減少漏洞,并提供更強的針對對抗性威脅的防御能力。結論: 與傳統方法相比,生成式人工智能在軍事網絡安全中具有相當可觀的益處,特別是在提升檢測性能、響應時間和適應性方面。如圖所示,人工智能增強系統的優勢使惡意軟件檢測準確率提高了15%,從80%上升到95%,釣魚郵件檢測準確率也提升了15%,從78%上升到93%。對新威脅的快速反應能力也很關鍵,響應時間縮短了60%,從5分鐘減至2分鐘,這在軍事環境中至關重要,快速響應將能最大限度減少影響。此外,人工智能系統顯示出將誤報率從10%降低到4%(這非常優秀)以及將漏報率從18%降低到5%的能力(這也很優秀),這很大程度上基于人工智能系統識別真實威脅樣貌的能力以及識別真實威脅的能力。
在過去的幾年中,由于人工智能(AI)和機器學習技術的發展,網絡安全經歷了根本性的轉變。作為人工智能的一個子類別,生成式人工智能,包括生成對抗網絡(GANs)和變分自編碼器(VAEs),正被迅速用于生成網絡威脅模擬以提供更好的防御。盡管這些人工智能模型在民用網絡安全應用中所展現的巨大效用已得到證明,但它們在軍事環境中的使用會產生額外的困境和變數。鑒于軍事領域的風險高得多,甚至在實施生成式人工智能之前,對其能力和風險獲得更深入的理解至關重要。將生成式人工智能用于軍事網絡安全工具存在諸多優勢。最顯著的好處在于,生成式人工智能能夠針對當前系統的極限,提供逼真、復雜且先進的網絡攻擊模擬。盡管在軍事網絡領域提出了無數解決方案(如復雜的關鍵基礎設施和武器系統),軍事網絡仍必須應對日益復雜的網絡攻擊,包括高級持續性威脅(APTs)、零日漏洞利用和定制攻擊。生成式人工智能模型可以生成基于情景的自適應攻擊,包括多態惡意軟件、相關釣魚郵件和自適應入侵模式,這可以匯總應對惡意網絡事件的最佳實踐。生成式人工智能也將允許檢測和/或響應系統的測試。最后,這些用于模擬的先進能力本身也帶來了必須加以考慮的顯著倫理/對抗風險。
生成式人工智能的軍事應用存在著嚴峻的倫理挑戰。首先是自主性問題。監督和管理對于人工智能的能力及其相應的自主決策至關重要。在軍事行動中由自主人工智能系統做出的決策可能產生嚴重后果,無論是沖突升級還是未知的損害。這要求現有系統配備監督機制,以確保對人工智能決策的責任追究或自主性,其決策范圍涵蓋從軍事到民用領域。第二個倫理挑戰是武器化。隨著生成式人工智能模型的改進,對手最終也會利用生成式人工智能來武器化新的網絡攻擊或發動人工智能支持的進攻策略。因此,我們必須確保強大的工具在國際法管轄的范圍內以符合倫理的方式使用。此外,人工智能系統中的偏見不容忽視。包括使用生成式人工智能在內的機器學習模型,都可能易受訓練數據中存在的偏見影響。如果這些偏見未被識別,它們必然會影響或玷污決策過程,導致負面的、武斷的或歧視性的結果,尤其是在風險巨大的軍事應用中。存在偏見的AI系統可能導致基于含有偏見的數據錯誤識別威脅或未能識別威脅行為,這會危及軍事系統的安全。
在軍事網絡應用中,生成式人工智能的應用既帶來對抗性風險,也涉及倫理考量。雖然人工智能提高了對事件的檢測和響應速度,但對手可以利用人工智能中的缺陷。網絡攻擊者可以添加對抗樣本并篡改人工智能的訓練數據,導致人工智能錯誤分類威脅或根本未能識別惡意活動。這是一個嚴重問題,特別是在涉及人員生命且生命損失風險以軍事防御規模來衡量的情況下。對抗性人工智能模型甚至可能能夠通過發動一次產生幻影的攻擊來偽造網絡攻擊,使其響應系統不堪重負,或者操縱軍事網絡安全系統陷入另一種、有效的對抗性系統復雜化。本文針對在軍事網絡安全中使用生成式人工智能所涉及的倫理和對抗性問題進行了論述。最終,本文將在后文探討減輕這些擔憂的方法,例如通過對抗性訓練、混合人工智能系統和責任歸屬機制。這項工作的最終目的是確保在恪守倫理原則、公平性和安全性的前提下,軍事領域對生成式人工智能的利用能夠增強網絡安全態勢。本文還將考慮如何在現實世界軍事行動動態多變的背景下,持續研究和評估這些模型對新興網絡威脅的抵御能力。
不可否認,新型技術、行為體與沖突情境的興起為戰爭注入了新變量。尤其值得關注的是,新技術戰爭手段及人工智能在軍事行動和決策中的應用,正引發重大安全與倫理關切。專家已就人工智能深度滲透及其引發的軍事變革拉響警報。本文重點剖析人工智能武器的安全與人道風險,聚焦有限人類監管與技術誤差帶來的多重影響。本文主張:缺乏人類監管的人工智能軍事技術大規模部署,不僅對國際法構成重大威脅,更可能在全球武裝沖突動態中開創危險先例,亟需監管干預。研究將以以色列國防軍(IDF)在當前加沙戰爭中生產部署的AI決策武器為案例,展開批判性反思與經驗總結。
本研究旨在揭示新型人工智能武器對國際法的危險沖擊,呼吁通過強化監管實現問責機制。通過檢視以色列在加沙的AI技術部署,聚焦自動化決策武器系統與弱化人類監管引發的安全影響及人道風險。最后,本文將對這類工具的廣泛非監管使用進行批判性反思,強調其必須遵循戰爭法,并探討歐盟作為監管力量的角色——依據其防務政策對人工智能武器構建系統性應對框架。
本背景資料簡報概述人工智能(AI)與國防領域的交匯點。AI現部署于教育、金融、交通、醫療與國家安全等多領域。國防領域作為國家安全體系的核心構成,涵蓋以維護國家主權與利益為目標的軍事能力與行動。盡管AI有望提升國防活動效能,但其應用引發人權與國防領域善治相關的諸多挑戰。本簡報將界定AI概念,探討其在國防領域的應用場景,剖析對善治的潛在風險,并就強化監管提出建議(包括完善監測機制、提升透明度、健全問責制及促進利益相關方協作)。
本背景資料簡報解答以下問題
? 何為人工智能(AI)?
? 國防領域的定義為何?
? 國防領域為何使用AI?
? AI對國防領域構成哪些風險?
? AI如何影響國防領域善治?
? 如何強化國防領域AI應用的監管?
主體 | 檢測 | 規劃 | 行動 | 后勤 |
---|---|---|---|---|
??武裝部隊?? | 收集分析多源數據,識別動態、威脅與異常 | 通過海量數據分析輔助戰略戰術規劃,預測未來場景并優化資源配置 | 提供實時作戰情報支持軍事行動 | 自動化物流供應鏈管理與人員調度 |
??行政管控機構?? | 分析風險并評估國防能力替代方案 | 起草國防立法框架,評估戰備狀態 | 實時監測作戰效能,動態調整資源分配 | 自動化國防采購預算與資產追蹤 |
??國內安全機構?? | 處理海量數據識別模式趨勢,研判潛在威脅 | 開發戰略報告,建立威脅優先級體系 | 部署AI增強型監控偵察系統提升行動精度 | 自動化數據處理與信息分發流程 |
??監督委員會?? | 監測分析國防開支與采購動態 | 制定戰略監督報告,評估項目合規性 | 實時追蹤國防項目執行情況 | 自動化審計程序與風險管理系統 |
??商業國防供應商?? | 整合Tranche 0衛星追蹤數據與地面傳感器網絡 | 開發下一代AI驅動武器系統,優化研發周期 | 維護升級AI作戰平臺軟件系統 | 構建智能供應鏈,實現備件預測性維護 |
??民間社會組織?? | 監控AI軍事化應用倫理風險 | 推動制定AI軍事應用國際規范框架 | 開展AI武器系統影響評估 | 建立AI軍事技術雙用途追蹤數據庫 |
行為主體 | 國內監管框架 | 透明度與問責制 | 伙伴關系與協作 |
---|---|---|---|
??武裝部隊?? | 實施人工智能專項審計與審查流程,監測系統開發、部署及運行 | 通過披露數據源、算法與決策流程等非涉密信息,提升人工智能系統透明度 | 與民間社會組織、學術機構、研究組織及產業伙伴合作,共享經驗教訓,促進治理創新 |
??行政管控機構?? | 建立專用監管機構/委員會,實施風險管理框架識別人工智能應用風險(技術/法律/安全) | 發布人工智能影響評估報告,詳述部署成效與運營結果 | 強化與議會委員會、政府監察機構及獨立審計部門協作,確保人工智能倡議透明度 |
??國內安全機構?? | 成立獨立審查小組,監控人工智能在國內安防應用中的倫理與法律影響 | 推動人工智能治理透明化與問責機制建設 | 與人權組織、隱私倡導機構及技術專家合作開展獨立評估,完善安防人工智能系統審查 |
??監督委員會?? | 制定人工智能采購與部署專項監管條例 | 定期公開國防人工智能項目進展與資金流向 | 搭建跨部門人工智能治理協作平臺,促進監管經驗共享 |
??商業國防供應商?? | 執行人工智能技術出口管制與雙用途技術監管 | 建立人工智能研發應用全周期可追溯機制 | 參與行業聯盟制定人工智能倫理標準,推動負責任技術創新 |
??民間社會組織?? | 倡導建立人工智能軍事應用倫理審查制度 | 開發公民監督平臺,完善人工智能應用違規舉報機制 | 聯合國際智庫開展人工智能軍事化影響研究,推動全球治理框架構建 |
本文聚焦武器管理系統及其自動化對國防領域創新與互操作性的促進作用。研究提出,自動化能以自下而上的方式全面優化軍事體系。方法論層面,通過解析創新與互操作性概念的當代價值,論證軍事管理數字化與流程精簡對國防建設的持續積極影響。研究發現,自動化可通過深化國防領域各板塊發展及其聯動效應推動創新,其中自下而上的視角成為軍事體系優化的關鍵維度。
在互操作性討論中,自下而上的視角揭示了當前歐洲框架在提升軍事互操作性方面的缺陷。武器管理系統自動化則表明,看似細微的舉措能夠有效滿足現代國防的關鍵需求。本研究因此大膽嘗試為歐洲防務關鍵步驟的實施提供新路徑。
在各國致力于軍事現代化、使其適應國際體系日益緊張局勢的過程中,人們日益意識到歐洲國家需要全面提升軍事能力。僅增加兵員數量和擴充武器庫的規模與種類遠遠不夠;軍事體系必須通過改進實現全流程作戰行動的順暢運轉。當前軍事體系仍缺乏保障這種順暢運作的基礎設施,武器管理與配發便是典型例證。匈牙利公司LoxoLock(2024b)指出,美軍射擊訓練中60%的時間耗費于行政流程。顯然,這些領域亟需改進以優化軍事行動全流程。LoxoLock正是推動此類變革的企業之一,其"將武器管理帶入數字時代"的口號承諾消除紙質文檔與人為失誤,實現全流程數字化與精簡,從而提升軍事內部運作效率(LoxoLock, 2024a, p.1)。
本文聚焦這一流程優化與數字化轉型過程,探討其如何引發軍事行政體系的根本性變革。具體而言,將研究武器管理數字化如何促進歐洲軍事創新與互操作性發展。本文核心論點是:在歐洲各國軍隊中推行標準化、數字化武器管理系統所具備的創新驅動力與互操作性優勢,能夠以自下而上的方式推動軍事體系的整體優化。研究旨在大膽論證:改進此類看似次要的環節可對國防領域產生全局性積極影響。選擇創新與互操作性作為研究視角,使其與當前國防領域的核心議題形成深度關聯。
為此,本研究首先概述武器管理系統的基本要素。內容涵蓋武器彈藥系統(WAM)的歷史沿革與現狀,解析該系統實現協調運作面臨的普遍挑戰與缺陷,并探討國際協作方式在軍事順暢運作中的必要性演進。第三、第四部分將直接切入流程優化與數字化議題,分析其對創新與互操作性的影響。
第三部分拓展研究視野,論證通過流程優化與數字化實現軍事行政自動化,如何對國防領域產生廣泛積極影響。通過建立這一宏觀視角,本節將剖析當代軍事格局中私營產業與國家軍隊的深度融合、研發在國防領域的關鍵作用以及國防治理機制,進而闡釋自下而上的自動化進程如何優化軍事體系的特定維度。
最后部分轉向互操作性議題,探討自動化如何促進歐洲軍事合作這一關鍵領域。基于第三部分建立的宏觀基礎,研究視角將再次聚焦具體問題,重點分析自動化如何助力互操作性國防治理體系的構建與運作。這為后續探討歐洲層面政策實施奠定理論基礎,從而強化"自動化可自下而上推動國防體系及其運作機制現代化"的核心觀點。
在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
1 引言
人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.
人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.
為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.
然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。
2 發展歷史
自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).
1.1 路線一:博弈論結合專家系統
在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.
1.2 路線二:博弈論結合學習方法
路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.
近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.
3 人機對抗中的博弈學習方法內涵
人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.
4 人機對抗中的博弈學習研究框架
通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).
5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:
6 總結與展望
人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.