人工智能(AI)中的知識推理與表征對推進威脅識別的預測性研究至關重要。大規模數據的快速增長催生了自動化解決方案的部署,但當前機器學習接口仍難以可靠預測異常行為——這限制了其在關鍵決策中的適用性。為應對此挑戰,圖神經網絡理論與動態系統現代庫普曼理論的最新進展,推動了結合知識圖譜構建的深度圖表示學習技術發展。該方法通過學習捕捉異常威脅評分的圖嵌入,提升威脅分類精度。通過預測生成圖與真實圖譜間的圖相似性度量進行迭代對比,進一步優化預測結果。利用庫普曼方法對新聞文章中的暴力事件信息進行降維處理。提出的"基于庫普曼學習演化的半監督預測自編碼器表征(SPARKLE)"方法,為動態情報構建提供可擴展、自適應的框架,最終在未來威脅監控系統中實現實時態勢感知。建議未來研究將此創新方法與多源權威數據整合,以推進AI驅動的現代威脅分析。
圖:俄烏沖突每周時間序列數據
數據量的持續激增常導致信息過載,這迫使人們采用自動化工具實現高效利用。然而,當前機器學習接口難以滿足威脅識別與分類所需的精準可靠預測,使其無法勝任關鍵決策流程。基于圖的方法與現代庫普曼理論的最新進展,增強了人工智能技術從復雜數據集中提煉關鍵信息的能力。快速制定明智決策的迫切需求,推動著威脅識別方法的改進。
傳感器及其能力在融入復雜互聯戰場環境后日益精密。空間、平流層氣球、浮標與山頂部署的系統,可在動態復雜網絡中同時充當數據生產者與消費者。聚合、格式化與綜合海量數據以提供預警、推斷意圖并列舉應對建議,需具備對作戰環境的深刻認知、復雜傳感器數據本體論,以及精細而全面的對抗行為模型。此外,傳感器數據產出效用與數據分析深度常受顯著制約。本研究通過多層次方法評估預測能力:(1)應用機器學習模型壓縮數據;(2)構建知識圖譜捕捉對抗行動與意圖的關聯線索,并借助海軍研究生院"哈明"高性能計算環境創新應用庫普曼算子實現圖譜動態演化;(4)通過檢索增強生成(RAG)最大化分析效用以優化結果。研究框架始于理論與領域概述,涵蓋知識圖譜、機器學習方法、生成式動態圖、庫普曼算子預測及RAG技術,最終通過"基于庫普曼學習演化的半監督預測自編碼器表征(SPARKLE)"展示威脅分類精度的顯著提升。研究結果表明,SPARKLE迭代框架的應用有效增強預測能力并改善威脅分類成效。
傳感器已遍布從海底到太空的全域。"新聞文章中的暴力事件信息(VIINA)"時間序列數據集用于評估多種方法的性能。全球部署的龐大傳感器網絡產生的觀測數據,已遠超人類未經自動化輔助處理信息與語境的能力。此環境為結合知識圖譜構建與機器學習塑造戰場空間感知提供了理想的實驗場。
A. 問題陳述
當前面臨的問題在于亟需對海量數據實施自動化預處理以提升威脅環境中的態勢感知能力。"數據豐富但信息貧乏(DRIP)"凸顯了現有缺陷——分析人員當前無法在目標監視要求時限內處理偵測信息以支撐識別任務。2022年成立的"全域異常現象解析辦公室(AARO)"需就限制空域與敏感空域內的"未識別異常現象(UAP)"活動向國會提交報告(AARO,2022年)。全球范圍內(包括AARO等機構)迫切需要通過改進異常檢測與威脅識別方法提升預測能力。問題核心在于:現有技術與有限專業分析人員難以有效識別未明現象,導致空天優勢喪失。需開發高效自動決策輔助系統實現異常檢測與威脅識別,分析目標威脅以制定明智交戰決策。當前威脅識別預測方法無法滿足實時高風險決策需求。
B. 研究目標
表征、推理與持續學習是智能人工系統的關鍵要素。本研究采用多路徑方法(聚焦圖技術),旨在通過不同數據表征與多種圖譜技術測試,探索知識表征與預測推理間的關系,以異常檢測支撐識別任務解決DRIP問題。核心目標是理解基于圖譜的自動化如何整合知識圖譜構建(KGC)與機器學習模型實現增量信息獲取,及其對推理預測效能的影響。
C. 研究問題與假設
引入基于圖譜的解決方案可提升自動化預測在人機協同中的作用。概率建模技術、圖神經網絡與聚類算法可應用于圖結構數據,此類系統可產生增強模式分析、異常檢測與威脅識別的新興特性。
? 研究問題1:當信息表征以知識圖譜形式構建時,機器學習模型能否實現可靠預測?
? 假設1:知識圖譜構建(KGC)能提升異常檢測的預測能力以支持威脅識別,通過捕捉強弱關聯提升預測精度。
? 研究問題2:圖結構數據集(知識圖譜)能否用于訓練機器學習模型,通過增量更新改進人機預測系統?
? 假設2:知識圖譜構建(KGC)可利用概率圖機器學習從數據中提取信息,創建實體與關系,作為訓練數據集對知識圖譜實施增量持續更新。
? 研究問題3:當庫普曼算子與圖技術結合機器學習模型時,能否有效檢測并精準預測威脅以支持識別任務?
? 假設3:生成式與基于圖的技術可彌補當前技術缺口,使預測結果更具可靠性。
D. 研究目的聲明
日益增長的圖譜分析與表征研究,或為決策者利用預測評估制定高置信度決策提供新路徑。海量作戰可用數據需自動化預處理,知識圖譜構建與實體抽取自動化至關重要。需理解機器如何利用圖譜表征實現知識圖譜實體的動態構建與關聯預測。本研究旨在證明:在數字化時代數據激增背景下,知識圖譜構建與圖譜表征支持學習模型持續更新,可有效處理大規模數據。
E. 普適性
有效利用海量數據需深刻理解作戰環境,包括識別威脅或目標的潛在可開發行為與異常活動。聯合目標選定學員指南將目標定義為"可能需實施打擊或其他行動的實體與對象"(美國防部[DoD],2017年)。其他考量因素包括機密情報收集需求、可用通信鏈路及數據處理能力以實現數據流動與運用。由于這些多樣化能力構成復雜互聯戰場環境的一部分,必須全面捕捉其二元關聯。圖論技術的應用為管理此能力網絡、從海量數據中提取有效信息以優化處理與融合提供了理論基礎。
F. 研究框架
本研究通過分析俄羅斯入侵烏克蘭相關新聞文章中的暴力事件文本預測潛在威脅。在決策者需及時獲取可操作預測信息的情境下,此類能力關乎生死存亡。支撐本研究的各要素模塊將在文獻綜述部分深入剖析。
方法論章節闡述SPARKLE迭代應用框架,展示知識圖譜在機器學習增量更新中的重要性,并描述流程輸出。后續分析通過模型對比與相似性分析開展預測精度比較評估,在討論環節提出復雜度測量方法以證明其在異常檢測中的表征能力超越傳統方案。
G. 研究意義與未來方向
當信息以知識圖譜形式結構化時,機器學習模型可實現更可靠預測。知識圖譜構建(KGC)通過捕捉強弱關聯提升預測精度。圖結構數據促進人機預測系統的增量更新,概率圖機器學習通過動態提取實體與關系實現持續學習,構建自適應演進的知識圖譜。庫普曼算子與圖譜技術的整合強化威脅識別能力,圖相似性度量與模型對比證明SPARKLE框架在復雜模式檢測中的預測提升。此概念可擴展至信號分類等其他領域(未來研究部分探討)。本研究核心貢獻在于提出AI驅動的現代威脅分析創新方法。
傳統軟件框架實現的智能體"信念-愿望-意圖(BDI)模型"未涵蓋人機協作場景,其焦點局限于情境智能體的自主目標導向行為。然而基于BDI框架開發的智能體已在諸多挑戰性領域成功部署,包括航天飛機故障診斷、無人機控制、空中交通管制、制造自動化及大規模軍事仿真(Jarvis等,2013)。此類部署得益于商用級軟件框架的支持:早期PRS(過程推理系統)(Georgeff & Lansky 1986)、dMARS(分布式多智能體推理系統)(D'inverno等,2005)、JACK智能體(Agent Oriented軟件公司2012b)以及近年問世的GORITE(Jarvis等,2013;R?nnquist 2007)。BDI框架與Soar(Laird, Newell & Rosenbloom 1987)共同成為知識密集型智能體應用開發的主流選擇(Jones & Wray 2006)。
但BDI框架在需要智能體與人類協作達成目標的情境中應用有限。核心癥結在于:傳統BDI智能體內部雖使用目標導向機制,其表征卻非顯性化,導致人類難以直接干預智能體活動,反之亦然。隨著GORITE框架問世,此表征限制已被突破,BDI智能體現具備與人類協同實現目標的能力,為新一代智能決策支持系統開發鋪平道路。本論文提出擴展BDI智能體模型的協作行為概念框架,并通過為GORITE框架增配協作功能模塊、基于擴展框架開發概念驗證應用進行模型驗證。
全文結構如下:第二章文獻綜述涵蓋BDI模型、人機團隊協作、半自主決策支持系統(含智能體與非智能體方案)的相關應用,最終凝練研究命題;第三章解析GORITE BDI智能體框架;第四章闡述研究方法論;第五、六章分別論述所開發的概念模型及其驗證過程;第七章總結研究成果并展望未來工作。
智能決策機制(IDM)作為人工智能(AI)的核心構成,旨在實現決策流程的自動化與能力增強。現代IDM技術范式通過整合先進框架,使智能體能夠制定高效且自適應的決策方案,并將復雜任務解構為可執行步驟——例如AI智能體架構與高級強化學習。基于多模態基礎模型的最新研究方法,正將視覺、語言與傳感數據等多樣化輸入模式統一為連貫的決策流程。
基礎模型(FMs)已成為科學界與產業界的關鍵支柱,深刻變革著決策能力與科研范式。其大規模多模態數據處理特性催生出極強的適應性,推動醫療健康、生命科學及教育等領域的跨學科突破。本綜述系統檢視IDM的技術演進路徑、FMs賦能的先進范式及其在多元化科學與產業領域的變革性影響,著重探討構建高效、自適應且符合倫理的決策體系所面臨的挑戰與發展機遇。
? 決策智能歷經從規則驅動向人工智能驅動的演進,實現具備情境感知能力的自適應決策。
? 基礎模型通過知識統一賦能醫療等領域的規模化自適應決策機制。
? 決策基礎模型的發展進程取決于安全防護、隱私保障及人機倫理框架的完善程度。
本研究探討人工智能(AI)在決策過程中不斷演變的角色,聚焦AI賦能技術如何與人類決策者互動及其影響。AI系統正加速融入商業管理至信息系統等各行業,或輔助或替代人類判斷。現有文獻強調AI融入生活與工作帶來的變革潛力與挑戰:以ChatGPT為代表的大語言模型憑借數據驅動洞察、效率提升與決策一致性等優勢被廣泛應用,但研究亦揭示需深入理解的領域——AI復制或放大人類偏見的風險、自主決策的倫理影響、人機交互的復雜性。盡管AI輔助、增強或替代人類決策已獲廣泛關注,但通過提示工程與情境應用賦予AI的角色如何影響決策結果、行為模式與建議生成,學界仍缺乏深入探索。
本論文包含四項研究,探討角色定義與目標設定對AI決策行為的影響,揭示精確定義AI角色如何在不同情境中塑造決策結果與人類決策流程。
研究1 通過系統性文獻綜述,論證機器學習與AI工具(如ChatGPT)結合提升文獻分析效率與深度的有效性。研究識別AI整合關鍵領域,揭示研究空白,指出高影響力期刊與主題,為未來研究繪制路線圖。該研究強調跨學科方法對全面理解與發揮AI潛力、應對倫理復雜性的重要性。
研究2 采用"人在回路"(HITL)框架分析AI賦能招聘流程,通過某國際招聘公司18個月質性案例研究,揭示AI工具、招聘專員與尋源分析師協作塑造招聘結果的合作模式。研究表明:AI系統實施需平衡效率與倫理及人本考量,人類判斷、監督與適應力不可或缺;組織領導力、方案適應性與人類自主權是成功關鍵要素。
研究3 通過系列實驗探究AI系統(以ChatGPT為例)被賦予的角色如何影響信息系統(IS)語境下的決策結果。研究發現:當ChatGPT被賦予人類角色時,其決策行為高度復現人類偏見;而作為AI角色時則表現出更高一致性與客觀性。研究揭示提示工程對引導AI系統符合預期決策流程的重要性——無論是模擬人類判斷還是提升決策客觀效率。
研究4 探索AI系統中的"算法厭惡"現象,測試GPT類模型在不同版本與溫度參數下對人工建議與算法輸入的響應差異。研究發現:GPT模型表現出類似人類的算法厭惡傾向,更偏好人工建議,但其表現形式與人類存在差異。該研究將算法厭惡概念擴展至AI系統,強調理解AI如何處理人機建議對設計決策支持系統的重要性,確保AI既能獨立運作又能與人類協作。
本研究在四方面深化對AI決策角色的理解:
綜上,這些研究為理解AI與人類決策者動態互動提供洞見,強調情境與角色設定對優化AI決策貢獻的重要性,為未來探索AI融入更復雜重大決策場景奠定基礎。
研究編號 | 研究重點 | 研究路徑、理論基礎與方法論 | 主要發現 | 理論貢獻 | 實踐貢獻 |
---|---|---|---|---|---|
研究1 | 商業與管理學者如何應對AI在組織中的興起?研究熱點與空白領域為何? | 采用結構化主題建模與機器學習方法進行系統性文獻綜述(CLR),結合ChatGPT輔助分析 | - 識別44個AI研究熱點(如客戶營銷、AI倫理) - 揭示體育、應急響應與智慧城市等領域的空白 |
提出"計算文獻綜述"方法論,結合AI工具提升文獻分析效率 | 指導研究者鎖定高影響力期刊,優化文獻檢索路徑 |
研究2 | AI賦能的招聘決策中如何平衡效率與倫理?人在回路(HITL)原則如何應用? | 對國際招聘機構開展18個月質性案例研究,基于社會技術系統理論與HITL框架 | - 發現協作型HITL配置模式 - 揭示行政負擔加重、權力重構等挑戰 |
拓展HITL理論在AI招聘場景的應用 | 提出AI招聘實施指南:強效領導力、系統適應性與人本考量 |
研究3 | ChatGPT在信息系統中多大程度能復現人類決策行為?角色設定如何影響決策輸出? | 通過提示工程實驗,測試ChatGPT在不同角色設定(人類/AI)下的決策行為 | - 人類角色設定下復現決策偏見 - AI角色設定下展現更高客觀性 |
提出"角色中心決策框架",揭示大語言模型角色工程對決策的影響機制 | 為提示工程提供設計準則,優化AI決策支持系統的角色配置策略 |
研究4 | AI系統是否存在算法厭惡?GPT模型對人類建議與算法輸入的響應差異如何? | 復現經典算法厭惡實驗范式,測試GPT不同版本(3.5/4.0)在多種溫度參數下對建議來源的偏好 | - GPT表現出類人算法厭惡傾向 - 對人工建議的偏好強度與溫度參數呈負相關 |
首次將算法厭惡理論拓展至AI系統,建立"元算法厭惡"概念 | 為AI協同決策系統設計提供新視角,優化人機建議權重分配機制 |
對可解釋人工智能模型的需求日益增長,這促使大量研究致力于提升強化學習(Reinforcement Learning, RL)方法生成策略的可解釋性與透明度。該研究領域的一個重要方向是在強化學習解決方案中開發基于決策樹的模型,因其具有內在可解釋性。本研究開發基于隨機森林的強化學習算法,標志著這一學術探索的合理演進。通過OpenAI Gym的三個標準基準環境——CartPole、MountainCar和LunarLander——對這些算法進行評估,并與深度Q學習網絡(DQN)及雙DQN(DDQN)算法在性能、魯棒性、效率和可解釋性等指標進行對比。基于隨機森林的算法在三個環境中的兩個表現出優于兩種基于神經網絡的算法,同時提供易于解釋的決策樹策略。然而,該方法在解決LunarLander環境時面臨挑戰,表明其當前在擴展至更大規模環境方面存在局限性。
人工智能(AI)致力于在機器中復現人類智能,使其能夠執行包括問題解決與決策制定在內的復雜任務。近年來,AI取得顯著進展,通過提升全球互聯性與技術擴展推動社會變革,為即將到來的革命鋪平道路(Makridakis, 2017)。
2017至2022年間,采用AI的企業比例增長逾一倍,近年穩定在50%-60%區間,這些企業報告稱顯著降低了成本并實現收入增長。此外,AI指數對127個國家立法記錄的分析顯示,含有"人工智能"術語的法案通過數量從2016年的1項增至2022年的37項;自2016年以來,全球81個國家立法程序中對AI的提及量增長近6.5倍(Maslej et al., 2023)。這一變革的核心驅動力是機器學習(Machine Learning, ML)——AI的一個專門分支,使機器無需顯式編程即可直接從數據中學習。ML在AI中的廣泛應用催生出日益強大的模型,標志著第四次工業革命(工業4.0)的到來(Sarker, 2022)。因此,在ML的推動下,AI引領著文本挖掘、自然語言處理、案例推理、視覺分析、計算機視覺、模式識別、搜索優化及混合系統等領域的進步(Sarker, 2022)。
憑借其獨特能力,AI正被廣泛應用于傳統依賴人類決策的領域,此時機器決策驗證變得至關重要。Bastani等(2018)指出,自動駕駛汽車、機器人控制器與空中交通管制系統是驗證可解釋自動決策重要性的典型案例。盡管計算機引導的進步為這些領域帶來顯著優勢,但在關鍵場景中,人類監督的驗證不可或缺。然而,隨著高不可解釋性ML方法(如深度神經網絡DNN)的普及,驗證過程可能低效甚至無法實現(Bastani et al., 2018)。DNN作為ML建模的重要分支,其卓越性能支撐了廣泛應用(Schmidhuber, 2015),但其復雜結構使驗證過程面臨挑戰。
由于完全自主的高性能AI代理存在遵循不透明決策的風險,對可解釋AI的需求日益增長。缺乏透明度可能導致高精度模型對決策者失去價值,而更高透明度可使決策者更清晰理解AI生成的控制邏輯,簡化硬件部署流程,并促進復雜系統的適應性改進(Dhebar et al., 2022)。
強化學習(Reinforcement Learning, RL)作為AI的重要分支,采用獨特學習范式:通過環境交互與決策反饋實現自適應(Sutton & Barto, 2018)。RL旨在使AI代理理解狀態-動作對的后果,通過試錯機制掌握不同情境下的最優動作選擇。Q-learning是一種通過近似最優動作價值Q函數實現目標的RL算法(Watkins & Dayan, 1992),而策略梯度法則是另一類廣泛應用的基于梯度下降的RL技術(Sutton et al., 1999)。本研究聚焦離策略Q-learning方法。
傳統Q-learning通過ML方法近似貝爾曼方程,迭代優化狀態-動作對特征組合的價值評估及策略生成。深度強化學習(Deep Reinforcement Learning, DRL)將DNN作為RL算法中的價值函數近似機制(Arulkumaran et al., 2017)。過去十年間,DNN與Q-learning結合的深度Q學習(DQN)取得突破性進展,首個成功案例證明AI代理在雅達利游戲中的表現超越人類(Mnih et al., 2013),后續研究更訓練出連續五次擊敗圍棋世界冠軍的代理(Silver et al., 2016)。雖然深度學習與RL的結合展現出強大潛力,但DNN的不可解釋性限制了其可驗證性。
這種可解釋性缺失反映了AI/ML領域的普遍認知:高性能模型往往復雜度高且難以理解。與支持向量機(SVM)和DNN等黑箱方法不同,基于樹的建模技術屬于高可解釋性范疇(Martens et al., 2011)。圖1清晰展示了不同機器學習方法在可讀性與性能間的權衡。這種權衡對決策者理解RL代理邏輯至關重要——只有理解代理決策邏輯,決策者才能有效驗證或批判其行動建議(Puiutta & Veith, 2020),這也構成本研究的核心關注點。
圖 1. 性能與可讀性的權衡。性能與可讀性的權衡概括了機器學習中常見的一種現象,即實現更高性能的方法往往會犧牲用戶的可讀性和可解釋性。改編自 Martens 等人(2011 年)。
基于此,本研究對比了基于DNN與決策樹(DT)的Q-learning解決方案,旨在全面探索兩類方法在精度、效率、魯棒性與可解釋性方面的權衡。作為最復雜的RL方法之一與最具可解釋性的方法之間的對比,本研究以隨機森林(Random Forest, RF)為DT集成基礎。Breiman(2001)提出的RF通過構建多棵隨機生成的分類樹,利用有限信息的多樹協同揭示數據特征重要性。傳統ML中,集成方法通常優于單棵決策樹,提示其可能在RL中展現優勢。本研究的創新在于將RF應用于Q-learning,并與DQN進行對比。
傳統DT與RF并非專為OpenAI Gym的流數據、在線或RL環境設計(Brockman et al., 2016),限制其在信息積累中的適應性(Silva et al., 2020)。但通過算法改良,本研究實現隨機DT裝袋在RL中的應用。受在線Q-learning啟發(Watkins & Dayan, 1992),本研究采用類似DQN的批處理模式構建Q函數近似,理論支持源自Ernst等(2005)在Q-learning中應用DT方法確保序列收斂的研究。相較于KD-Tree、CART、Extra-Trees等DT方法,裝袋技術被證明在RL中最有效(Ernst et al., 2005)。本研究創新性地采用優化的CART算法生成隨機樹,并應用加權裝袋實現在線批處理的RF構建。
為從RL視角審視可解釋AI問題,本研究選用三個典型環境:CartPole、MountainCar與LunarLander。CartPole環境因動態簡單且研究基礎廣泛,成為初期評估的基準;MountainCar通過稀疏獎勵結構與動量學習需求,檢驗算法在高維狀態空間的效率;LunarLander則通過連續空間的精確控制需求,評估算法處理多目標復雜任務的能力。這些環境共同構成評估RL算法可解釋性、適應性、魯棒性與擴展性的綜合框架(Brockman et al., 2016)。
本論文結構如下:第二章綜述相關文獻,系統梳理領域關鍵貢獻;第三章詳述研究方法論,涵蓋研究設計、模型構建與分析技術;第四章呈現研究結果與分析;第五章總結結論并提出未來研究方向。
本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。
第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。
本研究探討了政府和國防機構的情報搜索人員所面臨的數據超載問題。研究利用認知系統工程(CSE)文獻中的方法,對情報搜索工作領域進行深入分析。這些見解被應用于設計和評估專門用于情報搜索任務的人類-人工智能智能體團隊的支持概念和要求。領域分析揭示了 “價值結構 ”的動態性質,“價值結構 ”是一個術語,用于描述管理情報搜索過程的不斷變化的標準集。此外,領域洞察力還提供了搜索聚合和概念空間的詳細信息,可將價值結構有效地應用于情報搜索。利用這些發現的支持系統設計可以使情報搜索者在更抽象的層次上與數據互動并理解數據,從而提高任務效率。此外,新的系統設計還可以通過相關的系統提示,促進對大型數據域中未被選擇對象的 “環境感知”,從而為搜索者提供支持。通過支持概念和人工智能團隊實現的 “環境感知 ”有可能解決數據超載問題,同時提高搜索覆蓋范圍的廣度和深度。
圖 4. FAN 領域模型。為了強調整個 FAN 的抽象功能結構和目標互動,圖中模糊了流程塊的細節。詳細的智能搜索功能模型見補充材料圖 S1。
政府和國防機構的情報搜索人員面臨著越來越多的數據和文件,他們需要從中查找或 “發現 ”信息,以獲得支持明智決策的見解。這種情況被稱為數據超載問題,即個人在系統或其他代理的幫助下,難以選擇、組合或綜合所需的數據子集,以完成需要在更大的數據領域進行態勢評估的任務[1]。在這種情況下,情報搜索人員與同事一起利用搜索工具,協同努力從幾乎無限的可用于任務的文件中查找、收集和評估文件,以完成為情報目標提供信息的任務。具體地說,數據超載妨礙了搜索人員識別數據子集的能力,而這些數據子集能提供足夠的細節來滿足情報目標,這對行動任務的完成至關重要。
用于一般情報搜索任務的系統可能會導致數據超載癥狀。具體來說,情報搜索工具會表現出與 “鎖孔脆性”[2] 概念有關的缺陷。這里所說的 “鎖孔 ”是指縮小呈現數據的范圍,將剩余數據分配到更多的隱藏屏幕上。這種呈現方式要求研究人員手動瀏覽和綜合來自多個數據屏幕的信息,以了解搜索的效用。同時,這些現有工具的脆性與它們支持從情報搜索工作領域的數據中提取意義的潛力有關。因此,“脆性 ”產生于搜索工具對信息的狹隘表述。對于需要從大量數據中提取意義的復雜任務來說,這種局限性導致了效率的下降,而這些數據又超出了給定系統的表述范圍。此外,由于情報搜索工作和信息領域的結構復雜,無法充分捕捉和傳達,妨礙了對支持行動所需的信息的理解和管理。這就導致效率低下,搜索人員往往會錯過有價值的見解和與目標相關的數據,同時還要花費更多的時間瀏覽各個屏幕來完成任務。
情報工作領域的搜索所面臨的這些廣泛挑戰構成了本研究要探究的問題,圖 1 的頂部對此進行了總結。圖 1 中還列出了應對這些挑戰常用的術語和縮略語,作為本研究的路線圖。
人工智能(AI)/大型語言模型(LLMs)在各種任務中都顯示出了良好的前景,但在美國防部(DOD)中,對其在來源選擇評估因素編寫中的應用卻沒有進行深入研究。了解人工智能編寫的評估因素的有效性對于可靠的決策至關重要。LLM 技術在美國防部的整合與人工智能的興起相一致。這項探索性分析調查了美國防部采購專業人員對人工智能編寫的評估因素的信心和偏見。喬治梅森大學(GMU)和海軍研究生院的調查向專業人員提供了需求文檔和人工或人工智能生成的評估因素。由于這兩項調查在統計上存在顯著差異,因此只采用了喬治梅森大學的數據。統計和定性分析評估了不同參與者分組和作者披露情況下的信心評級差異。結果顯示,相對于人工智能編寫,尤其是在年長的專業人員中,對人工智能編寫的信心降低,并對算法略有反感。盡管存在包括抽樣限制在內的局限性,但在對人工智能與人類產出的看法上出現了明顯的差異。建議包括制定一份人工智能指南,以幫助在收購中負責任地使用人工智能。還需要對更多不同樣本和各種人工智能工具進行進一步研究。這項初步工作推動了人工智能集成政策的討論和公眾對國防采購的信任。
本報告探討了 GHOSTS 框架的非玩家角色(NPC)客戶端生成的活動(包括軟件使用)與 GHOSTS 的默認行為和大型語言模型(LLM)生成的活動之間的比較。還探討了基本結果在復雜性和情感方面的比較。在研究中,利用了生成式人工智能(AI)系統的高級自然語言處理能力,特別是 LLMs(即 OpenAI 的 GPT-3.5 Turbo 和 GPT-4)來指導 GHOSTS 框架中的虛擬智能體(即 NPC),GHOSTS 框架是一種在計算機上模擬現實人類活動的工具。設計了一種配置,通過使用 LLM 使活動完全自動化,其中文本輸出成為可執行的智能體指令。初步研究結果表明,LLM 可以生成指令,從而在模擬環境中產生連貫、逼真的智能體行為。然而,某些任務的復雜性和指令到行動的轉換帶來了獨特的挑戰。這項研究對于提高模擬的逼真度和推動類人活動建模中的人工智能應用具有潛在的意義。建議開展進一步研究,以優化智能體對 LLM 指令的理解和響應。
網絡靶場是一個模擬環境,里面有各種登錄到計算機和網絡上的 NPC。這些 NPC 在組織內執行其角色所應執行的任務。現有的 GHOSTS 框架采用客戶機-服務器安裝方式,客戶機安裝在不同的操作系統(OS)上,執行所模擬角色的預期活動。服務器組件收集已執行活動的日志,并能根據一系列可用數據為每個智能體的新活動提供指導。
每個智能體在執行活動時都有各種考慮因素,包括智能體的特定參數、智能體過去的活動以及環境因素。固定參數包括姓名、身體特征、教育程度、工作經歷等。智能體還可能具有可變的特征,如偏好、信念、動機以及隨時間演變的過去活動歷史。
標準的 GHOSTS 配置提供了一套合理的默認值,可以充分隨機化這些考慮因素,以達到 T&E 的目的。團隊成員和其他人(如研究人員、培訓/練習用戶)都使用過這些隨機化策略;我們認為這種方法已經成熟,足以應對大多數情況。例如,模擬運營部門角色的智能體可能會在工作日每 20 分鐘創建一份文檔,同時交替使用互聯網瀏覽時間,以模擬文檔創建與必要的相關研究相結合的情況。
將 OpenAI 開發的不同 LLM 集成到 GHOSTS Animator [SEI 2023b]中,以便其他研究人員和網絡練習社區能夠繼續嘗試我們在本報告中討論的功能。每個 LLM 都充當了智能體的決策功能,生成文本輸出,我們將其轉化為智能體活動的指令。
為了實現這一整合,開發了一個系統,用于解釋 LLM 的輸出,并將其映射到 GHOSTS 框架中智能體可以執行的潛在行動上。該系統考慮到了語言解釋的可變性和智能體可用行動的限制。在將范圍廣泛的可能 LLM 輸出映射到更具體的智能體行動集時,我們面臨著獨特的挑戰。(我們將在下面的章節中描述這些挑戰。)這種集成方法能夠為我們的研究目的提供最廣泛的 LLM 響應,而不管它們與 GHOSTS 的執行是否相關。
為了在 GHOSTS NPC 中模擬更復雜的行為,將人類推理和行為的幾個方面整合到了智能體的決策過程中。這些方面都是在每次系統迭代或周期中執行的詢問過程中考慮的。在這種情況下,詢問是 LLM 分析智能體屬性和過去活動以決定下一步行動的機會。
每個 tick 或周期的持續時間是可配置的,可以是每個 CPU 周期所需的時間,也可以是更長的持續時間,如五分鐘。在每個 tick 期間,服務器會隨機選擇幾個智能體,并詢問它們以確定潛在的行動。這些行動可以包括學習新信息、與其他智能體建立聯系或執行一項活動。
這些詢問使用我們現有的隨機化策略。其中一些策略涉及純粹的隨機決策,而另一些則依賴于基于真實世界數據的預定義范圍或概率內的隨機化。目前實施的策略圍繞四個關鍵概念:
動機: 為了更準確地模擬智能體參與特定內容或執行特定操作的原因,我們需要了解他們的動機。在現實世界中,個人目的、目標和興趣往往是個人活動的驅動力。通過將動機納入模擬,我們可以模擬真實用戶的各種目標驅動行為。為此,我們采用了史蒂文-雷斯博士(Steven Reiss)設計的心理評估工具--雷斯動機檔案(Reiss Motivational Profile,RMP)[Reiss 2012]。RMP 根據人類的 16 種基本欲望來確定個人的核心價值觀和動機:權力、獨立、好奇、接受、秩序、節約、榮譽、理想主義、社會接觸、家庭、地位、復仇、浪漫、飲食、體育鍛煉和寧靜。通過模擬智能體對這些 RMP 欲望的獨特組合,我們模擬出了在整個演習過程中促使他們做出某些決定的內在動機。因此,這種理解揭示了智能體的行為傾向,有助于以更接近人類的方式指導其模擬行動。
關系: 人際關系對人類行為的影響是毋庸置疑的,它塑造了我們在社交圈中的學習、決策和互動方式。為了在模擬中更好地模擬這些關系的動態變化,我們在智能體的框架中加入了關系紐帶。這種方法包括在智能體之間建立聯系,考察它們之間關系的深度,以及研究它們對彼此的影響。這種方法使我們能夠模擬大量的社會互動,例如智能體向其信任的同伴尋求建議、與同事分享內容或參與各種話題的討論。這一特點不僅增強了智能體互動的真實性,還促進了智能體之間的知識獲取過程,這與人類在家庭、工作或公共場所從社交互動中學習的方式如出一轍。因此,在我們的模擬框架中引入關系可以增強智能體行為的真實性,更好地反映現實世界中人類互動的復雜性和細微差別。
知識: 人類用戶的一個顯著特點是他們在不同領域的知識廣度和深度。根據這一特點,我們為每個智能體配備了一個獨特的知識庫,以幫助塑造他們的模擬交互。這些知識庫為智能體如何尋求信息、分享專業知識或參與討論提供了信息,而所有這些都會受到他們對特定主題的理解的影響。智能體之間的動態知識獲取過程在我們的模擬中也發揮著至關重要的作用。知識獲取不僅增強了智能體互動的真實性,還通過潛在的內部威脅識別為模擬提供了額外的深度。例如,智能體知識庫中的異常變化可能表明其未經授權獲取了敏感信息,或者其關注點轉向了可能出于惡意目的而感興趣的主題。因此,將知識及其動態獲取納入智能體框架不僅能豐富模擬互動,還能增強內部威脅檢測和預防模擬的潛力。
信念: 個人持有的不同信念體系是其網絡行為的基礎,包括個人價值觀、觀點以及對爭議問題的立場。這些信念左右著互動和對話,往往會影響討論的動態。為了在智能體中模擬這種信念系統,我們將貝葉斯模型集成到智能體的推理過程中,使其能夠受到觀察到的支持某種信念的證據的影響。這種整合使智能體能夠就各種問題表達自己的立場,為自己的觀點辯護,甚至參與辯論,從而模擬現實世界中的人類行為。在社交媒體的背景下,對智能體的信念進行建模有助于表現分歧話題上的兩極分化觀點,使模擬更能代表真實世界的社會動態。
總之,通過將動機、關系、知識和信念整合到智能體推理框架中,我們成功地在 NPC 中創建了更全面、更真實的人類行為模擬。有了上述這么多組合的優勢,團隊就可以配置豐富的決策詢問,以確定任何智能體可能采取的行動方案。下一步是將這些詢問完全外包給 LLM,并比較結果,以便在大多數 T&E 場景中使用。
為了嚴格控制系統對 LLM 的訪問,我們設計了一種方法,即只有 GHOSTS 的服務器組件與人工智能進行交互。然后,服務器將人工智能生成的結果傳播給相關客戶端。這一過程的執行過程如下:
1.智能體(即 NPC)根據其默認配置,利用我們現有的隨機化方法啟動并執行一項任務,如文檔創建和網頁瀏覽。
2.智能體每隔幾分鐘向服務器報告其完成的活動。
3.同時,在這五步過程中,服務器作業每輪都會詢問一個隨機的智能體子集。至關重要的是,在每一輪開始時,步驟 2 中的活動歷史記錄都是可用的,并且可以作為代理下一步應該執行什么活動的決策因素。
4.服務器將新確定的活動傳達給客戶端,然后由客戶端執行。
5.該過程循環往復。如果智能體已經在運行,它只需尋找下一個要執行的活動。
在步驟 3 中,目標是將決定智能體活動的任務委托給 LLM,同時考慮 (A) 有關智能體的具體信息和 (B) 已執行活動的歷史記錄。考慮到 LLM 可能需要處理大量信息所帶來的成本影響,我們將 (A) 中的信息限制為最相關的細節,如個人數據、教育和組織歷史以及軟件賬戶。(B) 中的活動信息及其執行參數則用于提供智能體已完成任務的歷史記錄。
許多 LLM 應用程序編程接口(API)會根據系統或用戶直接輸入信息的不同來區分信息提示。我們使用系統級提示,以便對我們傳輸的信息和預期響應進行更嚴格的控制。這種方法使我們能夠以更精確、更可控的方式引導 LLM 的行為。
近年來,人工智能(AI)系統有了長足的進步,其功能也在不斷擴展。特別是被稱為 "生成式模型 "的人工智能系統在自動內容創建方面取得了巨大進步,例如根據文本提示生成圖像。其中一個發展尤為迅速的領域是能夠生成原始語言的生成模型,這可能會給法律和醫療保健等多個領域帶來益處。
不過,生成式語言模型(簡稱 "語言模型")也可能存在負面應用。對于希望傳播宣傳信息--旨在塑造觀念以促進行為者利益的惡意行為者來說,這些語言模型帶來了自動創建有說服力和誤導性文本以用于影響力行動的希望,而不必依賴人力。對社會而言,這些發展帶來了一系列新的擔憂:那些試圖暗中影響公眾輿論的人可能會開展高度可擴展、甚至極具說服力的活動。
本報告旨在評估:語言模型的變化會如何塑造影響力行動,以及可以采取哪些措施來減輕這些威脅?由于人工智能和影響力行動都在迅速變化,這項任務本質上是推測性的。
作者于 2021 年 10 月召集了 30 位人工智能、影響力行動和政策分析領域的專家,討論語言模型對影響力行動的潛在影響,該研討會為報告中的許多觀點提供了參考。由此產生的報告并不代表研討會與會者的共識。
希望這份報告對那些對新興技術的影響感興趣的虛假信息研究人員、制定政策和投資的人工智能開發人員以及準備應對技術與社會交叉領域的社會挑戰的政策制定者有所幫助。
分析了生成式語言模型對影響力行動三個眾所周知的方面——發起行動的行為體、作為戰術的欺騙行為以及內容本身——的潛在影響,并得出結論:語言模型可能會極大地影響未來影響力行動的發起方式。表 1 總結了這些變化。
語言模型有可能以較低的成本與人類撰寫的內容相媲美,這表明這些模型與任何強大的技術一樣,可以為選擇使用它們的宣傳者提供獨特的優勢。這些優勢可以擴大與更多行為者的接觸,實現新的影響策略,并使競選活動的信息傳遞更有針對性和潛在的有效性。
表 1:語言模型如何塑造影響力行動
1、行為體
由于生成AI文本的潛在變化
對變化的解釋
2、行為
由于生成AI文本的潛在變化
對變化的解釋
3、內容
由于生成AI文本的潛在變化
對變化的解釋
語言模型的技術進步不可能停止,因此任何試圖了解語言模型將如何影響未來影響行動的嘗試都需要考慮到預期的進步。語言模型可能會變得更加可用(使模型更容易應用于任務)、可靠(減少模型產生明顯錯誤輸出的機會)和高效(提高應用語言模型進行影響行動的成本效益)。
這些因素促使我們做出高度自信的判斷,即語言模型在未來的影響力行動中將大有用武之地。然而,其應用的確切性質尚不明確。
有幾個關鍵的未知因素將塑造影響力行動如何以及在多大程度上采用語言模型。這些未知因素包括:
哪些新的影響力能力將作為善意研究的副作用而出現?傳統的研究過程以更廣泛的語言任務為目標,其結果是產生了可應用于影響力行動的系統。未來可能會出現新的能力,如制作長篇有說服力的論據。這些新出現的能力很難通過生成模型來預測,但可以決定宣傳人員將使用語言模型來執行哪些具體任務。
為影響力行動設計特定的語言模型是否比應用通用模型更有效?雖然目前大多數模型都是為通用任務或具有科學或商業價值的任務而建立的,但宣傳人員可以建立或調整模型,使其直接用于說服和社會工程等任務。例如,宣傳人員可以對一個較小、能力較弱的模型進行調整,這一過程被稱為微調。這很可能比建立一個更大、更通用的模型更便宜,盡管還不能確定會便宜多少。此外,對最先進的模型進行微調可以使宣傳者更容易獲得新的影響能力。
隨著時間的推移,參與者是否會對語言模型進行大量投資?如果許多參與者都投資并創建了大型語言模型,這將增加宣傳者獲取語言模型(合法或通過盜竊)的可能性。宣傳者本身也可以投資創建或微調語言模型,納入定制數據--如用戶參與數據--以優化其目標。
政府或特定行業是否會制定禁止將模型用于宣傳目的的規范?正如使用規范會限制其他技術的濫用一樣,它們也可能會限制語言模型在影響力行動中的應用。一個同意不將語言模型用于宣傳目的的國家聯盟可以讓那些不遵守的國家付出代價。在次國家層面,研究團體和特定行業可以制定自己的規范。
何時才能公開提供易于使用的文本生成工具?語言模型的熟練使用仍然需要操作知識和基礎設施。易于使用的工具可以生成推文或段落長度的文本,這可能會讓缺乏機器學習知識的現有宣傳人員依賴語言模型。
由于這些關鍵的可能性可能會改變語言模型對影響力行動的影響,因此為減少不確定性而開展更多研究是非常有價值的。
在2021 年 10 月召開的研討會的基礎上,對現有的大量文獻進行了調查、 試圖為各種可能的緩解戰略提供一個殺傷鏈框架,并對其類型進行調查。目的不是認可具體的緩解策略,而是展示緩解策略如何針對影響力行動流水線的不同階段。
表 2:緩解措施實例摘要
宣傳者的要求
1.能夠生成真實文本的語言模型
2.可靠地獲取此類模型
3.分發生成內容的基礎設施
4.易受影響的目標受眾
干預階段
1.模型設計與制作
2.模型接入
3.內容傳播
4.信念形成
說明性的緩解措施
1.1 人工智能開發人員建立對事實更敏感的模型
1.2 開發人員傳播擴散性數據,使生成模型可被檢測到
1.3 對數據收集施加限制
1.4 對人工智能硬件實施訪問控制
2.1 人工智能供應商對語言模型實施更嚴格的使用限制
2.2 人工智能開發者圍繞模型發布制定新規范
3.1 平臺和人工智能供應商協調識別人工智能內容
3.2 平臺要求發布"個人身份證明"
3.3 依賴公眾意見的實體采取措施減少誤導性人工智能內容的風險
3.4 數字出處標準得到廣泛采用
4.1 機構參與媒體掃盲運動
4.2 開發人員提供以消費者為中心的人工智能工具
上表表明,沒有什么靈丹妙藥能徹底消除影響力行動中語言模型的威脅。一些緩解措施可能在社會上不可行,而另一些則需要技術突破。還有一些可能會帶來不可接受的負面風險。相反,要有效減輕威脅,很可能需要一種結合多種緩解措施的全社會方法。
此外,有效的管理還需要不同機構之間的合作,如人工智能開發者、社交媒體公司和政府機構。只有這些機構通力合作,許多建議的緩解措施才能產生有意義的影響。除非社交媒體公司能與人工智能開發人員合作,將文本歸屬于某個模型,否則他們很難知道某個虛假信息活動是否使用了語言模型。最激進的緩解措施--比如在互聯網協議中加入內容出處標準--需要極度的協調,如果它們是可取的話。
也許最重要的是,強調的緩解措施需要更多的開發、審查和研究。對其有效性和穩健性的評估值得認真分析。
圖 4:人工智能賦能的影響力行動的干預階段。為了阻止宣傳者利用語言模型實施影響力行動,可針對以下四個階段采取緩解措施:(1) 模型設計與構建;(2) 模型獲取;(3) 內容傳播;(4) 信念形成。最終,在這些階段進行干預可減輕影響行動的直接和間接影響。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。