物聯網與人工智能的進步推動數字孿生(DT)從概念構想邁向可實施現實。然而,標準化框架的缺失使學術成果向工業轉化復雜化。本文基于作者先前建立的支撐標準化DT開發的功能性與信息性需求體系,聚焦關鍵維度:可移植性。現有DT研究主要關注資產遷移,而"虛轉實遷移"與"實轉虛遷移"(在仿真環境與現實操作間傳遞知識)對DT全生命周期管理至關重要。該過程的核心挑戰在于校準"現實鴻溝"——仿真預測與實際結果間的偏差。本研究通過將單一現實鴻溝分析(RGA)模塊集成至現有DT框架,探究其管理虛實雙向遷移的效能。數據管道將RGA模塊與DT框架組件(歷史存儲庫、仿真模型等)連接實現集成。卡內基梅隆大學人行橋案例展示了本方法與現有框架的不同集成層級性能。當RGA模塊與完整數據管道全面實施時,該方法能在無損效能前提下實現仿真環境與現實操作的雙向知識遷移。
物聯網(IoT)與人工智能(AI)技術的迅猛發展,正將數字孿生(DT)從愿景轉化為實體。DT作為物理系統的虛擬鏡像,通過實時數據更新反映系統結構、環境與行為,指導價值驅動型決策。其本質在于虛擬與物理世界的雙向交互(美國國家科學院2023)。這些虛擬構造通常通過模型集實現,其能力超越依賴有限信息源的傳統建模方法,涵蓋精確復制、增強仿真與高級可視化,共同構建物理實體在虛擬空間的多維表征。鑒于土木工程領域應用場景廣泛(如結構健康監測、基礎設施管理),探索DT如何革新任務執行與決策流程的研究日益增長。但行業標準化框架缺失阻礙學術成果轉化——各應用場景根據需求定制化DT技術,導致領域碎片化,迄今未形成普適定義與計算框架。亟需精確定義支撐DT的基礎需求,以引導開發通用框架滿足多元利益相關方訴求。
Ma等(2023)以資產維護為切入點奠定路線圖基礎——該領域在土木工程中具普適性且關鍵。資產維護不僅應用廣泛,更因DT能提升其精確性、效率、協同決策及從被動響應向預測性維護(PMx)轉型的潛力而成為理想載體。該研究通過PMx技術綜述,識別并定義支撐DT自動化的信息需求(IR)與功能需求(FR)。這些需求構成PMx流程中各利益相關方的責任認知基礎,明確系統信息獲取與功能實施路徑。共享框架確保各方在角色、責任與期望上協同,優化協作流程并提升PMx系統效能(Flanigan等2022)。為獲跨領域認可,PMx型DT必須滿足所有既定IR與FR。Ma等確立14項基礎IR與FR,涵蓋物理屬性集成、可解釋性及魯棒性等要素。鑒于需求規模,建議漸進式推進實施。
可移植性作為關鍵缺失需求,指PMx系統跨資產或變工況自適應預測能力。該特性對計劃采用DT進行機群管理的行業至關重要。但可移植性不應局限于資產遷移。鑒于DT最初被構想為引導資產全生命周期的整體方案,不同生命周期階段(如設計到運營)的知識遷移同等重要(Grieves與Vickers 2017)。階段間知識遷移涉及兩類挑戰:"虛轉實遷移"與"實轉虛遷移"(Müller等2022)。領域知識遷移的難點在于"現實鴻溝"——仿真環境與現實世界的差異。DT不僅是分析預測工具,更是實時映射物理系統的精細虛擬模型。仿真模型各組件相較現實的微小偏差會累積導致顯著結果差異(Stocco等2023)。缺乏識別、測量與管理現實鴻溝的有效方法仍是阻礙可移植性的主要障礙。
本研究探究在現有DT框架集成現實鴻溝分析(RGA)模塊的影響,旨在驗證該集成能否實現仿真與現實操作間的知識遷移。為具象化分析,將方案融入Gratius等(2024)的DT框架。針對跨領域知識遷移的現實鴻溝挑戰,本方法具三大特征:首先采用置信度方法量化單體資產的仿真-現實數據鴻溝;其次利用量化鴻溝修正仿真數據以更準確反映現實資產(實現虛轉實遷移);最后通過逆向應用量化鴻溝至關鍵工況采集的現實數據,擴展歷史存儲庫知識庫(消除現實偏差影響,實現實轉虛遷移)。該方法在卡內基梅隆大學紐厄爾-西蒙鋼桁架人行橋的工況監測任務中實施。方案與現有框架的集成分為三級(集成度LoI),涵蓋從基礎框架到RGA模塊與完整數據管道的全面實施。LoI對比表明本方法能在無損效能前提下同步實現虛實雙向遷移。
博弈論長期作為網絡安全領域的基礎工具,用于測試、預測和設計攻防雙方的策略互動。大型語言模型(LLM)的興起為計算機系統安全帶來新工具與挑戰;本研究探討經典博弈論框架能否有效捕捉LLM驅動智能體與機器人的行為特征。通過構建可復現的博弈論LLM智能體框架,我們檢驗兩種典型場景——單次零和博弈與動態囚徒困境——測試LLM是否收斂于預期結果或受內置偏差影響產生偏離。實驗涵蓋四種前沿LLM模型及英語、法語、阿拉伯語、越南語與漢語五類自然語言,以評估語言敏感性。研究發現:最終收益受智能體特性(如人格特質或重復博弈認知)顯著影響;收益結果對語言選擇呈現意外敏感性——警示LLM在網絡安全應用中需規避無差別部署,呼吁開展深度研究(因跨國部署可能引發行為異變)。研究同時采用量化指標評估LLM智能體的內在一致性與跨語言穩定性,為安全應用場景優選穩定模型提供決策依據。
據最新報告,網絡威脅成本預計未來數年將突破10萬億美元[1][2]。除企業、公民與政府機構經濟損失外,網絡攻擊更使數字社會面臨基礎設施崩潰風險——該風險隨信息技術全球擴散日益嚴峻。學界與業界持續開發新型防御方案應對多樣化網絡攻擊[3]之際,博弈論已成為研究攻防策略互動的強有力理論框架[4-8]。該理論將雙方戰略互動形式化(目標均為最大化自身收益[9]),通過捕捉攻防策略選擇評估防御(或攻擊)機制有效性。相較于純技術路徑,博弈論額外考量網絡攻擊者與安全層交互的成本收益,揭示安全與效率的固有沖突需動態平衡[10],并基于成本效益權衡優化特定條件下的網絡彈性[11]。其應用涵蓋入侵檢測、風險評估、信號干擾與竊聽,延伸至機制設計及安全投資(含網絡化應用)[12],提供數學證明、防御系統魯棒性分析及分布式解決方案等核心工具[4][7]。
伴隨傳統信息技術,大型語言模型(LLM)作為顛覆學術、工業與社會范式的強大AI應用迅速崛起[13-15]。網絡安全領域快速吸納LLM技術,其作用呈雙軌發展:場景生成器(建模范疇[16])與網絡安全場景內智能體(代理作用域[17][18][8])——后者既可扮演威脅源亦可作為防御增強體[19]。然而LLM對網絡安全應用的系統性影響研究尚處萌芽階段,亟需建立統一框架解析攻防LLM智能體的新興策略。博弈論為此提供天然理論基石,近期研究視角主張采用生成式AI開發戰略智能體以構建可靠網絡安全應用[20][21]。
此類構想雖具吸引力與潛力,其核心挑戰在于博弈論、網絡安全與LLM的三重交叉:當前對交互LLM的實際行為認知匱乏。關鍵問題包括:LLM行為是否契合博弈論預測(進而能否可靠預測博弈結果)?若出現新興不可預測結果,其與開發者目標(攻防雙方)的代表性如何?哪些特征主導此類結果?例如在模擬AI生態發展的博弈中[22],僅特定LLM(含GPT/Gemini/Mistral等流行模型)在限定條件下符合博弈論預測[23][24];其他研究表明即便在傳統博弈場景中LLM亦偏離理論預測[25-27]。因此亟需驗證:LLM在網絡安全博弈場景的行為模式、特定LLM是否具備更高可靠性、哪些因素或偏差可能挑戰基于博弈論的網絡威脅分析。
本研究通過首次探究LLM戰略智能體在兩大網絡安全經典博弈場景的表現回應上述問題:靜態零和博弈(應用于信號干擾與竊聽[28]、硬件木馬[29]等場景建模)與動態囚徒困境(用于多跳網絡自私行為[30]、國家級網絡入侵[31]研究,構成信息域復雜關系建模基礎[32])。采用用戶友好型可復現框架FAIRGAME[33]模擬博弈過程,測試多LLM服務商及配置方案。研究發現:隱藏偏差導致LLM博弈輸出偏離純博弈論結果;商業LLM呈現差異化行為模式(表明服務商選擇非中性——將直接影響研究與應用);開發防御系統時需審慎考量LLM服務商選擇。
圖1:模擬與分析工作流程。選定博弈模型后,通過FAIRGAME框架(虛線框內為框架流程;圖示改編自[50])將其實例化為LLM形式:用戶定義的配置文件與模板文件指定博弈設置及特征參數作為輸入;框架自動整合信息并通過調用目標LLM(灰色模塊區域)運行博弈;最終輸出回合歷史記錄、終局收益及指定度量指標以供分析。
人工智能在軍事教育與安全領域的融合既帶來機遇也伴隨挑戰。本研究結合場景矩陣與政策建議,為決策者和國防戰略家提供平衡人工智能發展與安全治理的見解,以促進軍事應用穩定性。該研究采用情景分析法評估四種模式——基于人工智能應用水平及治理力度的"樂觀采用"、"風險創新"、"可控進步"及"技術停滯"。研究表明:高強度人工智能應用配合強力監管可提升作戰效能與國際安全;缺乏監管的快速擴張則導致網絡安全漏洞與倫理困境。強力治理被確認為降低風險、確保人工智能負責任部署的核心要素。研究特別強調人工智能驅動的戰略模擬、網絡彈性防御及道德框架在國防戰略中的重要性。
人工智能正引發重大技術變革,深刻影響教育、安全及國防戰略等領域(Horowitz等,2018)。其在軍事應用中的整合及對全球安全的深遠影響,已引起政策制定者、研究者與國防分析專家的日益關注(Schmidt, 2022;Jensen, 2023)。當各國試圖利用人工智能增強戰略決策、情報行動和網絡安全時,必須同步應對倫理隱憂、地緣政治風險及現代戰爭形態演變等挑戰(Canton, 2020)。
人工智能在軍事備戰中的作用已超越傳統學習模式,涵蓋自適應訓練系統、自主決策支持工具及情景模擬推演(Jensen, 2023)。這些創新旨在為軍事人員提供數據驅動洞察力、預測建模能力及實時威脅分析,從而強化國家安全戰備水平(Horowitz等,2018)。然而在提升戰略運作效率、增強網絡防御的同時,人工智能整合亦引發算法偏見、人工智能賦能虛假信息威脅及對抗性人工智能操縱風險等復雜挑戰(Schmidt, 2022;Canton, 2020)。隨著各國日益依賴人工智能技術開展國防、情報及戰略行動,人工智能軍事化加劇了對其影響全球安全與戰爭形態的嚴重關切(Marwala, 2023)。
本文運用場景分析法探索人工智能在軍事教育與安全框架中潛在發展路徑。通過構建并評估"樂觀前景"、"風險創新"、"可控進步"和"技術停滯"四類場景,該研究建立結構化預測模型,剖析未來十年人工智能如何塑造全球安全格局(Jensen, 2023;Masakowski, 2020)。通過考察政策框架、技術進步及倫理考量等關鍵驅動因素,本研究致力揭示人工智能驅動教育體系與全球安全需求間的戰略契合點。最終,本文在人工智能治理框架、軍事領域負責任應用、以及人工智能教育與國家安全戰略交叉領域作出學術貢獻。通過情景分析方法論,該研究為軍事教育者、國防政策制定者及安全專家提供重要參照,闡明人工智能快速融入全球防務結構的機遇與風險。
當前假新聞已成為全球性嚴峻挑戰,社交媒體快速傳播錯誤信息的能力加劇了這一問題。本文提出基于大語言模型(LLM)能力的新型特征計算流程構建方法,應對假新聞檢測的緊迫挑戰。核心目標在于優化可疑文本屬性轉化為分類適用數值向量的過程,從而填補系統整合語言線索與深度上下文嵌入的研究空白。在英語(FakeNewsNet)和烏克蘭語(真假新聞)數據集上的實驗表明:該方法以88.5%(英語)和86.7%(烏克蘭語)準確率超越四個基線模型。關鍵發現顯示:將復述比率、情感比率等數值指標與LLM嵌入結合,可提升欺詐文章檢測召回率,較標準技術平均提高2-3個百分點。這些結果表明所提特征計算流程在保持模型決策透明度的同時顯著提升檢測精度。研究最終強調:系統化設計的數值特征對LLM嵌入的補充至關重要,為構建更可靠、適應性強且可解釋的假新聞檢測系統指明路徑。
假新聞——偽裝成可信新聞的虛假或誤導性內容——在數字時代已發展為全球性重大威脅[1,2]。超過36億社交媒體用戶使未經核實信息突破傳統編輯監管快速傳播,加速虛假敘事擴散[2]。2016年美國總統大選[3]與2019年印度大選[4]等事件印證了錯誤信息影響輿論的速度。例如新冠疫情期間,關于病毒及疫苗的有害謠言在網絡蔓延,削弱公共衛生信息公信力。研究表明假新聞比真實新聞傳播更快更廣[5],可能加劇社會極化、侵蝕主流媒體信任[6]甚至煽動暴力[7,8]。過去十年研究者聚焦機器學習(ML)與自然語言處理(NLP)方法實現大規模虛假信息識別[9]。早期嘗試將假新聞檢測形式化為二分類問題——僅通過文本分析區分真假新聞[2]。傳統方法采用樸素貝葉斯、支持向量機(SVM)或隨機森林等算法,結合n元語法或專業詞典等特征工程,有時取得較好效果[10]。然而假新聞制造者適應偽裝能力意味著捕捉深層語義線索仍是開放挑戰[7,11,12]。
深度神經網絡(特別是卷積神經網絡CNN與長短期記憶網絡LSTM)被提出用于自動學習潛在文本表征。盡管LSTM在某些基準任務中準確率超99%[10],但綜合實驗證實:除非融入更豐富上下文理解,高度復雜或領域特定的假新聞仍能規避這些模型[7,8]。同時詞嵌入技術(如TF-IDF、Word2Vec和FastText)通過將單詞映射為稠密向量改進了詞袋模型[13]。盡管能捕獲語義關系,這些靜態嵌入仍難以應對多義詞與語境變化[1]。基于Transformer的模型開創了上下文嵌入新范式:雙向Transformer編碼器(BERT)[14]可捕捉微妙語言線索,尤其在領域特定任務微調后。研究證實BERT在包括虛假信息檢測的多個NLP任務中顯著超越傳統基線[15]。但在實際假新聞場景(尤其多語言環境)部署BERT仍受限于領域數據匱乏與資源開銷[16]。
大語言模型(LLM)如OpenAI的GPT-4[17]與Meta的LLaMA[18]的興起,為利用海量預訓練語料獲取高級文本表征提供機遇。初步研究表明LLM嵌入能識別小模型無法察覺的微妙虛假信息線索[19]。然而高計算需求與LLM決策解釋難題仍未解決[20,21]。對此可解釋人工智能(XAI)領域研究提出將深度學習預測能力與可解釋機制結合以闡明分類結果[22]。但多數文本分類XAI方法仍難將內在特征映射為終端用戶可理解的文本線索。基于這些挑戰,本研究引入新型特征計算流程構建方法,借鑒可解釋LLM流程的洞見:將檢測分解為合成可疑特征→數值化計算特征→構建魯棒模型→生成透明結論的鏈式任務。
本研究目標是通過整合LLM驅動的特征提取選擇框架與闡明特征重要性的可解釋策略,增強假新聞檢測能力。旨在證明該流程能提升多語言文本數據的準確性與可解釋性。主要貢獻如下:
? 受可解釋AI研究啟發,提出假新聞檢測特征計算流程構建方法
? 在傳統LLM對比(TF-IDF/Word2Vec/BERT)基礎上,新增使用大語言模型計算解釋特征的顯式步驟,彌合原始嵌入與透明決策的鴻溝
? 在雙數據集驗證LLM驅動特征實現最高精度(英語88.5%/烏克蘭語86.7%),并闡釋框架如何揭示文本被判定虛假的原因
本文結構如下:第2章精煉相關工作,闡明方法如何融合現有特征提取技術與可解釋性;第3章詳述新提出的任務分解架構、數據流及特征計算優化機制;第4章報告實驗結果(含現有方法定量對比);第5章探討優勢缺陷與開放性問題;第6章展望未來(聚焦數值結果、現存挑戰及研究方向)。
圖1:本方案整體工作流程
融合基于LLM的嵌入表示、數值化特征計算及最終專家結論模板。圖示闡明本方法的四大核心任務:
(i) 特征合成 → (ii) 特征計算流程構建 → (iii) 機器學習模型建立 → (iv) 專家結論模板生成
展示原始文本與衍生特征在各階段的流向。
自主智能體技術的進步正通過支持偵察、障礙規避、路徑規劃與目標探測等多樣化任務,變革多域作戰模式。然而組建人類與自主智能體混合團隊時,因雙方“認知模型”及世界理解方式存在差異而產生挑戰。本研究著力構建“聯合認知系統”,旨在融合人類與自主智能體優勢以提升“情報監視偵察(ISR)”“協同作戰”“搜索救援(SAR)”及戰場“醫療后送”等任務的協作效能。此類軍事行動需協調具備多元能力與復雜“依存關系”的多智能體系統,對決策與資源管理構成嚴峻挑戰。本文提出基于“協同設計”的方法優化指揮控制決策,聚焦多智能體系統內部任務分配與協調的“可觀察性、可預測性與可導控性”(OPD)原則。該協同設計方法通過評估多智能體在各子任務中的相互“依存關系”及所需“能力”(如目標感知、障礙規避或區域值守),適用于“無人機”“有人駕駛載具”及“地面控制站人員”等多元團隊。
所提出的“聯合認知系統”(JCS)框架綜合評估人機智能體的能力與依存關系,結合環境參數、任務要素及“在線監測”(狀態與行為感知),動態推薦特定任務的最佳執行主體。研究通過在三維模擬環境中組織不同能力配置的人機混合團隊執行“搜索救援任務”展開實驗。團隊配對設計旨在考察操作員如何發展差異化“能力水平”,進而促使自主智能體在各任務階段提供相應層級的“支援”。測試八種機器學習算法后,最優模型的“任務分配預測準確率”達80%以上。研究核心在于探尋“人機控制權”的最優平衡,通過“預判失誤”或檢測操作員“失能狀態”,最大限度避免“自動化濫用”以保障“有效人類決策權”。這有望推動未來“C2指揮控制系統”實現:采集感知數據(“觀察”);輔助解析并“預判”態勢(“預測”);優化團隊內部任務“導控”(“可導控性”)。此類系統可增強“聯合全域指揮控制”(JADC2)在分布式團隊與混合編隊資源管理中的作戰效能,依托“人工智能”支撐加速決策進程。
“聯合全域指揮控制”(JADC2)代表一種復雜的決策模式,旨在快速整合全域作戰能力以獲取“競爭”與“沖突”場景中的戰略優勢[1]。根據文獻[2]闡述,JADC2涵蓋“感知”“研判”“行動”三大核心功能,貫穿“太空”“網絡”“空中”“陸地”及“海洋”五大作戰域[3]。該系統依托由先進傳感技術構成的“多域傳感體系”,包含“光電/紅外成像”“高光譜成像”“雷達(無源/有源)”“聲學傳感器”及“偵察衛星”等設備。跨域數據流生成分布于不同時空維度的海量信息。“有效管理”這些數據對支持“作戰管理”與“指揮決策”至關重要,需確保“精準情報”及時送達相應團隊或“智能體”以實現預期作戰效果。此類“數據點”要求構建統一的“多域網絡”——通過整合“多源信息”(取代孤立數據管道)形成“全域聯合態勢感知圖景”。這種“集成化路徑”有助于“全面把握作戰環境”。如圖1所示,應用“機器學習”“人工智能”與“預測分析”能進一步優化該流程,提供“數據融合”與“快速解析”的高級能力,將感知圖景轉化為作戰行動[2][3]。文獻[4]強調,“指揮控制”的根本目標是確保“精準情報”及時交付相應決策者,從而彰顯“敏捷性”并促進團隊間“互操作性”。實現此目標需依托“量子通信”“人工智能(AI)”及“自主系統”等關鍵技術。未來JADC2將構筑“類云環境”,實現“情報共享”“態勢監視”及“高速數據通信”以加速決策[2]至[5]。這些技術以遠超人類的“處理速度”與“規模”實現數據快速解析。文獻[4]著重指出“AI”與“機器學習(ML)”在自動化處理海量信息、支持決策流程中的整合作用。二者特別擅長在“動態多變量環境”中識別快速演變的“模式特征”,通過關聯“地形”“氣象”“行為模式”等離散情報源預判態勢并響應環境變化[2]至[5]。在“未來指揮控制系統”中,AI有望跨“梯隊”“作戰域”及“作戰資產”同步多重行動,從而把握“關鍵戰機窗口”。此項能力在“無人地面載具(UGV)”“無人機(UAV)”“水下潛航器(UUV)”“水面艇(USV)”等搭載智能傳感器的作戰平臺日益普及的戰場尤為重要。AI賦能的系統可評估作戰環境中“多源情報”,運用“歷史數據”生成行動建議,從而減輕“認知負荷”并賦能指揮官的“快速有效決策”。
無人系統與自主智能體的發展深刻重塑了“聯合全域指揮控制”(JADC2)框架內的團隊結構與角色定位。這些進步重新定義了“指揮控制”(C2)與“任務管理”的實施路徑,要求對多元化資源及團隊進行精密協同。這種整合需依托先進的“C2能力”以優化資源分配并實時調整任務指令——需綜合考量“性能評估”“任務修正”“動態環境條件”“人員工作負荷”“疲勞狀態”及“機器性能極限”等多元因素。為應對此挑戰,本節將探討“人機自主編隊”(HAT)在多智能體團隊中的興起,以及如何通過“協同設計”的HAT框架評估“有效人類決策權”。
人工智能與自主系統的應用顯著改變了團隊動態,催生出“人機自主編隊”(HAT)概念[6]。HAT重構了團隊結構、成員角色及其在權責體系中的層級關系[6]。將自主智能體融入人類團隊增加了復雜度:因其承載差異化能力與角色[7]至[8],可能導致“任務委派矛盾”“權責錯配”及“責任主體驗證缺失”。由此可能形成影響團隊動態與績效的“復雜依存關系網”[7]至[8]。影響該復雜性的因素包括:成員特性、任務構成、情境特征、環境條件及任務目標。有效評估HAT需建立并驗證性能度量標準,涵蓋:(i)單兵作戰效能(ii)單機性能表現(iii)整體團隊績效[6]。“客觀”與“主觀”度量工具有助于判定任務能力邊界[6]。傳統軍事團隊績效指標聚焦“安全性”與“作戰能力”,包括“團隊執行力”“壓力水平”“信任度”及“凝聚力”[2]。這些指標可深化團隊能力認知,優化“多智能體系統”協作效能以保障任務成功。
“有效人類決策權”概念包含三大核心原則:僅有人類在場不足以保證實質性控制;意向性決策貢獻取決于“心理認知能力”與“系統理解度”;差異化法律責任要求不同層級的控制權,由此可能引發“責任缺失”[9]。核心矛盾源于機器人與裝備從工具屬性向“團隊成員”的轉化——這要求建立“相互依存的通信”“協同決策”及“聯合作戰”機制[10]。因此有效訓練方法與“人因工程”研究致力于探索提升“團隊效能”與“個體效能”的路徑。例如“認知人機系統”研究領域正探索運用“生物標記物”作為人類“精神狀態”或“生理狀態”的評估指標[11]至[14]。“神經生理學數據”的運用有助于精準解析團隊協作中的人類支援需求(如根據“工作負荷”“疲勞狀態”或“功率譜密度”動態調整編隊層級)[11]至[15]。此類認知將優化“資源配置”,通過AI或“自主智能體”在操作員“失能狀態”時提供實質性支援。其還有助于提升“能力透明度”與“依存關系可見性”,發展“可調節的多智能體編隊模式”。這些信息可實現“人機資源動態調配”——例如當操作員“警覺度下降”時,自主智能體可增強“貢獻度”或接管特定任務“控制權”,從而提升“整體任務效能”。
當前各類“自主能力”已內嵌于無人機系統。這些能力使智能體能夠實施“自主決策”,發展“專項技能”以促進任務成功。此類技能通常通過“深度強化學習”(DRL)實現:路徑規劃(如D3-QN算法)、導航(DQN/PPO算法)及高度控制(DDPG算法)[16]至[18]。既有研究展示了嵌入式自主智能體的應用案例:無人機系統基于“視覺導航”實現“障礙規避”[19],或依托無人機平臺實施“目標定位”[20]。此外通過“卷積神經網絡”(CNN)與YOLO等算法增強無人機相機的“搜救任務目標檢測能力”[20]。多智能體團隊還包含其他“半自主系統”:如“陸基/海基水雷”“防空反導系統組件”[22],以及支撐近距空戰“基本戰術機動”的無人戰機“自主導引系統”[23]。但自主載具的“傳感器性能局限”(目標檢測置信度低、視覺識別偏差或導航執行錯誤)仍構成制約[24]。過度復雜的智能體模型可能引發“決策透明度”問題,導致團隊成員難以維持“態勢感知”[25]——例如人類操作員可能無法判斷何時介入接管自主智能體任務。
這些能力使多智能體團隊得以在人類與自動機器間分配“控制權”與任務。但當人機因“理解偏差”導致協作失敗,或“突發異常行為”引發“指揮控制”(C2)系統混亂與模糊性時,將影響多智能體團隊的“可預測性”與“作戰效能”。美國陸軍“訓練與條令司令部”(TRADOC)強調必須識別保證任務成功的“部隊作戰能力”。在戰場或災區等“動態環境”中,當異構團隊需與“地面傳感器”“無人載具”等資產交互時,須配置“實時學習”與“自適應算法”[2]。這些算法支撐“最優博弈策略”制定,提升部隊對“彈道導彈威脅”等動態條件的“響應力”與“適應性”[2]。北約“TG-HFM247工作組”指出人機編隊面臨“動態可調協作”挑戰:因編隊過程需“雙向認知學習”,雙方必須理解彼此“行為模式”“優勢”與“短板”。隨著團隊成熟度提升,這種互相認知將催生“互補增效”作用[26]。該工作組強調采用“人機編隊設計模式”可建構“心智模型”、明晰“角色定位”、優化“任務條件”,進而增強“團隊協作透明度”與“任務分配策略”[26]。2016年瑞典海軍演習中的指揮控制研究提煉出三維度框架:(i)“信息分布”(ii)“決策權分配”(iii)“交互模式”[9],凸顯“靈活響應的C2系統”對管理復雜多智能體環境的核心價值。整合“人機編隊框架”將提升“協同效能”,通過定義清晰角色與“任務分配策略”,釋放混合編隊的“互補能力潛能”,最終實現“團隊作戰效能”的全面增強。
“協同設計框架”評估協調多智能體能力以達成任務目標所需程度。該框架界定各智能體分配的功能與任務能否獨立執行,或因“執行能力缺失”必須協作完成[7]至[8]。其運作基于“依存關系”“從屬關系”及“執行能力”三原則:“依存關系”定義為聯合行動中兩個及以上實體為滿足依賴需求形成的互補關系[7]至[8];“從屬關系”通過“執行能力”概念展開——涵蓋實體獨立勝任任務所需的技能、知識與認知水平;當實體缺乏有效執行任務的能力時,即形成需他方支援的“從屬關系”。為評估任務完成所需的“能力依存狀態”,該框架提出采用“依存關系分析表”(IA)[7]至[8]。此表格通過定義任務、子任務、必備能力及團隊成員替代角色(執行主體或支援角色),輔助設計依存關系架構。這些能力對任務達成至關重要,指導評估人類操作員與自主智能體間的任務分配。分析結果將強化“決策回路”——該回路作為“聯合全域指揮控制”(JADC2)核心要素,遵循“可觀察性-可預測性-可導控性”(OPD)準則:“可觀察性”確保用戶清晰掌握系統內部狀態與行動;“可預測性”使用戶能基于實時和歷史數據預判系統行為;“可導控性”賦予用戶引導控制系統運作的權限,確保按需動態調整[7]至[8]。三要素協同作用旨在實現人機智能體間的無縫集成與高效協作。
本文旨在通過聚焦集成自主智能體與人類操作員的混合多智能體團隊,應對“聯合全域指揮控制”(JADC2)的核心挑戰。研究目標分為四方面:(1) 通過AI建議優化資源分配;(2) 建立“多模態數據管道”整合人機智能體與其他實體特征,提升互操作性與同步能力以改進信息融合;(3) 構建“人機自主協同框架”,運用3D仿真環境訓練測試多智能體團隊,評估性能與依存關系;(4) 應用“可觀察性-可預測性-可導控性”(OPD)原則增強JADC2決策流程保障“有效人類決策權”,同時研究人類神經生理信號中的“生物標記物”與“行為模式”以優化資源分配策略。達成這些目標將推動多域作戰中基于AI任務分配策略的“多智能體資源管理”進展。
本方法通過名為JCS的試驗性處理平臺實現,整合實驗設計與海量數據采集構建多模態管道及機器學習算法。該方法運用協同設計原則優化任務分配、資源管理及決策流程,強化“可觀察性”“可預測性”與“可導控性”(OPD)。
所提方案將人機數據整合為統一管道,依托協同設計原則與AI優化任務分配。JCS匯聚多元數據源——含“氣象數據”“地理環境地圖”(GEM)“任務狀態”“神經生理指標”“載具傳感器”“信號情報”(SIGNIT)“人工情報”(HUMINT)及“自主智能體性能指標”——形成“多模態集成框架”,增強復雜作戰環境中的透明度與動態任務分配能力。
聯合認知系統框架含五大模塊以提升作戰效能:(i)特征采集:獲取自主智能體與人類操作員數據;(ii)任務參數:定義子任務(含目標數量與位置);(iii)環境參數:監測風速、降雨、溫度等關鍵條件;(iv)能力評估:核定各智能體能力,確定其擔任“支援角色”或“主執行體”;(v)任務分配:運用機器學習技術根據評估能力與環境因素預測最佳子任務執行主體。該綜合框架(基于文獻[15]改進)旨在優化任務分配、資源管理及整體任務效能。
研究以“搜救任務”(SAR)為用例背景:救援隊在時間資源受限條件下部署無人機最優定位災后受困者。部署“無人機系統”(UAS)的核心目標是評估傷情(區分危重與非危重狀態),據此制定救援優先級。任務執行需人類操作員、救援調度員(通常為有人駕駛飛行器)與機器協同完成。無人機必須規避障礙物,規劃最優路徑定位“目標區域”(即災區)內所有受困者。任務依據協同設計框架分解,基礎能力與子任務如下:S1-目標探測感知;S2-障礙物感知;S3-偏差規避障礙物;S4-抵近目標獲取分析圖像;S5-在規避禁區的目標區域內導航。該結構化路徑確保人機組件協同應對SAR任務需求。
摘要:
本綜述研究了經典軟件設計模式如何提升大型語言模型(LLM)驅動的代理型人工智能系統中通信的可靠性與可擴展性,重點聚焦于模型上下文協議(Model Context Protocol,簡稱 MCP)。文章考察了基于 LLM 的代理的基礎架構及其從孤立運行向復雜多代理協作演進的過程,分析了在這一轉變中出現的關鍵通信難題。 本研究重新審視了多個成熟的軟件設計模式,包括中介者(Mediator)、觀察者(Observer)、發布-訂閱(Publish-Subscribe)和代理(Broker)模式,并分析了它們在構建符合 MCP 框架的代理交互結構中的適用性。為闡明這些交互機制,文中提供了概念圖示與形式模型,以描繪通信路徑并優化數據流動。 此外,文章還探討了適應不同代理自主性與系統復雜度的架構變體,并通過實時金融處理與投資銀行等領域的實際應用,展示了這些設計模式與 MCP 如何滿足特定的運行需求。最后,文章總結了當前尚待解決的挑戰、潛在的安全風險,以及推動強健、可互操作且具備可擴展性的大型語言模型多代理生態系統發展的未來方向。
大型語言模型(Large Language Models,LLMs)正經歷一次范式轉變——從作為靜態的信息提供者(通常嵌入于對話型智能體中)演化為具備自主決策與任務執行能力的計算型智能體,即所謂的智能體式人工智能(agentic AI)[1]。這一轉變標志著智能體式 AI 的興起,LLM 被賦予了與外部系統交互、隨時間存儲與提取信息,以及執行可操作行為的能力[2]。
這些增強后的智能體專為完成那些需要迭代推理、規劃、記憶與工具使用的任務而設計——這些能力是傳統 LLM 因上下文窗口受限、易產生幻覺以及難以處理復雜行為序列等限制所無法勝任的[3]。 隨著任務需求超出單一智能體的能力范圍,**由多個 LLM 智能體組成的多智能體系統(LLM-MAS)**應運而生。這類系統通過在多個智能體之間分配認知任務,實現協作式問題求解與專業化分工[4]。這一演進趨勢背后的動因在于:許多現實世界任務過于復雜,單一智能體難以勝任,需要通過有組織的交互實現智能的擴展[5]。關鍵在于,LLM-MAS 的整體表現不僅取決于個體模型的性能,而更取決于這些智能體在架構上如何實現通信、協調與知識共享[6]。
盡管早期的 LLM 在單智能體場景中表現強勁,但在涉及長期依賴、上下文連續性和工具使用策略的任務中卻表現不足。智能體式 AI 通過將 LLM 嵌入具備規劃、記憶和模塊化推理功能的框架中來填補這些能力空缺[4]。然而,即便具備這些增強功能,孤立運行的智能體仍然存在局限。向多智能體協作的轉變,反映出人們認識到:結構化的智能體間通信所產生的分布式智能[7],是應對高復雜度場景的關鍵。最終,LLM-MAS 所展現的智能,更源自系統層級的整體設計,而非任何單一智能體[8]。
在多智能體系統中,尤其是由大型語言模型(LLM)驅動的系統中,智能體之間的通信是協調與共享目標的基石。正是通過通信,智能體才能對齊任務目標、共享上下文理解,并協同規劃行動[5]。 然而,這種依賴通信的方式本身也帶來了巨大的挑戰。在多智能體系統中,相比于單個智能體自身的能力局限,智能體之間交互的復雜性更容易成為導致系統性失敗的根源。常見的問題包括目標不一致、任務驗證機制薄弱、系統擴展性受限、面臨安全攻擊威脅,以及缺乏被廣泛接受的健壯通信協議架構標準。 在基于 LLM 的多智能體系統中,通信不僅僅是信息的傳遞媒介,它更是群體推理的基礎機制。然而,正是這種優勢也成為潛在的弱點:支持智能體協同工作的通信通道,同樣也可能傳播錯誤、放大設計缺陷,甚至暴露系統于諸如“中間人智能體攻擊”(Agent-in-the-Middle, AiTM)等對抗性攻擊之下。因此,LLM-MAS 中的通信存在一個核心張力:它既是智能涌現的關鍵媒介,又是潛在的系統脆弱點——如果設計不當,可能削弱整個系統的安全性與可靠性。 因此,構建具有韌性、語義一致性和結構良好的通信架構不是可選項,而是打造可信、穩健且可持續發展的下一代智能體式 AI 系統的核心前提[11]。
模型上下文協議(Model Context Protocol,MCP)由 Anthropic 于 2024 年底提出,是一種開放的互操作性標準,旨在簡化并統一 AI 模型與外部工具、系統及結構化數據之間的連接方式。MCP 常被稱為“AI 應用領域的 USB-C”,目標是成為通用的接口層,大幅降低在多平臺間集成的復雜性。 MCP 的核心目標是解決長期存在的“N × M”集成瓶頸問題:即每一個 LLM 都需為每種數據源或工具單獨編寫對接代碼,造成工程重復、系統脆弱且維護困難。MCP 提供了一種統一協議,使任意 AI 助手都可以與任何兼容的服務、工具或數據集交互,從而極大簡化集成流程[14]。 MCP 采用客戶端–主機–服務器的架構模式,使用 JSON-RPC 實現通信,支持持久化、具備狀態感知的通信會話。它還定義了嚴格的數據攝取格式、元數據注釋規則、平臺無關的模型協調方式,以及安全的雙向連接機制。這種結構化方法不僅提升了互操作性,也增強了系統的可追蹤性與可管理性。 MCP 更深遠的影響在于推動 AI 基礎設施朝著模塊化、可組合的方向演進。與其構建大量定制化連接導致系統混亂,不如通過 MCP 實現組件之間的清晰解耦,使工具、模型與數據層能夠獨立替換與升級。這種模塊化架構大幅減少工程負擔、加快創新速度,同時為可擴展、可審計且面向未來的 AI 部署奠定基礎。 此外,MCP 還提供了明確的消息結構與通信生命周期定義,支持關鍵的合規性與監控功能——這是在企業級與監管密集型場景中不可或缺的能力。
本綜述融合了大型語言模型(LLM)驅動的智能體式 AI、經典軟件設計方法論,以及新興的模型上下文協議(MCP)三方面的研究進展,目標是為構建魯棒、可擴展的智能體間通信框架提供系統性指導。 本文探討了如何將久經驗證的軟件架構設計模式,適配到以 LLM 為基礎的現代多智能體系統中,并將 MCP 定位為推動互操作性與結構化協作的核心支柱。 通過理論模型與概念圖示,本文分析了通信動態、系統復雜度與數據交換效率。同時,本文還評估了這些設計策略如何在面對智能體自主性提升與系統復雜化時保持可擴展性。 文章還結合實時金融系統與投資平臺等現實應用場景,展示在這些關鍵領域中,強健的智能體協同架構如何滿足運行需求。最終,本文旨在為開發者與系統架構師提供一個切實可行的框架,用于構建安全、高效、可維護的基于 LLM 的多智能體生態系統。
多智能體系統(MAS)是模擬復雜現實世界自主交互實體的基礎架構。然而,傳統MAS架構常受限于僵化的協調機制與動態任務適應能力不足。本文提出MetaOrch——一種面向多領域任務環境的神經協調框架,用于實現智能體最優選擇。本系統采用監督學習方法,通過建模任務上下文、智能體歷史行為與預期響應質量,為每個任務選擇最適配智能體。創新的模糊評估模塊從完整性、相關性和置信度三個維度對智能體響應進行評分,生成軟監督標簽用于協調器訓練。相較于傳統硬編碼的智能體-任務映射機制,MetaOrch能動態預測最優智能體并同步評估選擇置信度。在異構智能體模擬環境中的實驗表明,該方法達到86.3%的選擇準確率,顯著優于隨機選擇與輪詢調度等基線策略。模塊化架構強調可擴展性,支持智能體的獨立注冊、更新與查詢。研究結果證明,神經協調為提升多智能體系統在多樣化任務領域中的自主性、可解釋性與適應性提供了有效解決方案。
摘要——智能體時代已然來臨,而這一變革的驅動力正是大語言模型的突破性進展。大語言模型(LLM)智能體憑借其目標驅動行為與動態適應能力,很可能成為通往通用人工智能的關鍵路徑。本文通過方法論導向的體系化分類,系統解構LLM智能體系統,揭示其架構基礎、協作機制與進化路徑之間的深層關聯。我們整合了當前零散的研究脈絡,闡明智能體設計原則與其在復雜環境中涌現行為之間的本質聯系。本研究提供了一種統一的架構視角,涵蓋智能體的構建方式、協作機制與演化過程,同時探討了評估方法、工具應用、現實挑戰及多樣化應用場景。通過梳理這一快速發展領域的最新進展,我們為研究者提供了理解LLM智能體的結構化分類體系,并指明了未來研究的潛在方向。本文集可通過
//github.com/luo-junyu/Awesome-Agent-Papers獲取。 **
**關鍵詞——大語言模型,LLM智能體,AI智能體,智能代理,多智能體系統,LLM,文獻綜述 1 引言人工智能正邁入一個關鍵時代,其標志是**大語言模型智能體(LLM Agent)**的崛起——這些由大語言模型(LLMs)驅動的智能實體能夠感知環境、推理目標并執行行動[1]。與傳統AI系統僅被動響應用戶輸入不同,現代LLM智能體通過持續學習、推理和適應,主動與環境交互。這一轉變不僅是技術升級,更是對人機關系的根本性重構。商用LLM智能體系統(如DeepResearch、DeepSearch和Manus)印證了此范式變革:它們能自主完成從深度研究到計算機操作等曾需人類專業知識的復雜任務,同時適配用戶個性化需求。相較于傳統智能體系統[2],基于LLM的智能體在知識來源[3]、泛化能力[4]和交互模式[5]等維度實現了代際跨越。當今智能體的質變源于三大關鍵進展的融合:? LLMs前所未有的推理能力[6],? 工具操控與環境交互技術的進步[7],以及? 支持長期經驗積累的精密記憶架構[8][9]。這種融合將理論構想轉化為實用系統,日益模糊"助手"與"協作者"的界限。其本質在于LLMs作為通用任務處理器,通過生成式架構在語義空間內統一感知、決策與行動,從而形成類人認知閉環[10]。本研究通過構建-協作-演化的統一分類框架,首次系統解構智能體系統。我們提供全景視角,追溯智能體的定義方式、獨立/協同運作機制及長期進化路徑。除厘清現狀外,更揭示了預示未來發展的新興范式。智能體技術的快速演進亟需及時綜述,為研究者提供理解這一動態領域的最新分類體系。圖1展示了我們設計的LLM智能體生態框架:以方法論為核心,我們從三個互相關聯的維度分析智能體技術基礎:構建(定義與實現方式)協作(交互與協同機制)演化(學習與優化路徑)此三維基礎輔以實踐考量,包括評估方法、開發工具、安全與倫理等現實挑戰,以及多樣化應用場景。該框架貫穿全文,實現對每個維度的系統性探索及其關聯性的強調。與既有綜述的差異盡管近年有多篇AI智能體綜述,本研究通過方法論聚焦與LLM智能體架構的全面分析做出獨特貢獻。既往研究或局限于特定應用(如游戲[11][12])、部署環境[13][14]、多模態[15]或安全[16],或僅提供寬泛概述而缺乏方法論分類[1][17]。近期工作雖對比了LLM與傳統AI智能體[9]、多智能體交互[18]、工作流[19]及協作決策機制[20],但本研究的特色在于:方法論導向的分類體系:提出系統化分類法,從角色定義、記憶機制、規劃能力到行動執行[21]解構LLM智能體核心組件。構建-協作-演化框架:通過三維度聯動分析(構建/協作/演化),提供比既往研究[22][23]更整體的認知,凸顯個體設計與協作系統的連續性——而前人常割裂討論這些方面[22][24]。前沿應用與現實聚焦:除理論探討外,深入剖析LLM智能體的尖端工具、通信協議及跨領域應用,并對安全、隱私與倫理等現實挑戰進行全面分析。在智能體技術從研究邁向大規模落地的關鍵階段,這一前瞻視角尤為重要。本綜述為研究者和從業者提供結構化分類體系,助力從多視角理解、比較和推進LLM智能體研究。隨著LLM智能體日益深入各關鍵領域,理解其架構基礎不僅對學術界,對政策制定者、產業界乃至全社會都至關重要。本文旨在奠定這一基礎,同時為這一快速演進領域指明發展方向。
C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。
本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。
提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。
提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。
理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。
開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:
結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。
結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。
描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。
根據上下文,生成的目標和績效衡量標準是否合理?
步驟是否反映了情景的邏輯時間進程?
鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。
本文介紹了一種通過整合領域知識和基于注意力的策略機制來增強多智能體強化學習(MARL)的替代方法。方法側重于將特定領域的專業知識融入學習過程,從而簡化協作行為的開發。這種方法旨在通過使智能體專注于復雜任務的重要方面,從而優化學習曲線,降低與 MARL 相關的復雜性和學習開銷。在我們的模型中,注意力機制的利用起到了關鍵作用。它可以有效處理動態上下文數據和智能體之間細微的互動,從而做出更精細的決策。在斯坦福智能系統實驗室(SISL)“追逐 ”和 “多粒子環境”(MPE)“簡單擴展 ”等標準 MARL 場景中的應用表明,我們的方法既能提高學習效率,又能提高協作行為的有效性。結果表明,我們基于注意力的方法可以在行動層面整合特定領域的知識,是提高 MARL 訓練過程效率的可行方法。
人工智能(AI)和統計機器學習(ML)與復雜系統的集成,給傳統的測試與評估(T&E)實踐帶來了各種挑戰。隨著更多不同級別的決策由人工智能系統(AIES)處理,我們需要測試與評估流程為確保系統的有效性、適用性和生存性奠定基礎。這涉及到評估 ML 模型和人工智能算法組件的方法,包括展示它們如何產生可重復和可解釋的決策的能力,以及對任何故障模式和故障緩解技術的了解。此外,還需要人工智能保證,以證明人工智能算法按預期運行,不存在因設計缺陷或惡意插入數據或算法代碼而產生的漏洞。T&E 需要新的流程來鑒定 ML 模型的訓練數據是否充足、算法和模型性能、系統性能以及運行能力。弗里曼(Freeman,2020 年)概述了當前復雜軟件支持系統的測試與評價方法所面臨的挑戰、嵌入式人工智能所加劇的關鍵挑戰,以及針對 AIES 的測試與評價需要如何改變的 10 個主題[1]。
為了充分測試 AIES,測試與評估界需要應對以下挑戰:
圖 1 總結了加強測試與評估的 10 個不同主題,以應對充分測試和評估 AIES 所面臨的挑戰。在過去的一年中,弗吉尼亞理工大學致力于測試和評估各種 AIES。本最佳實踐指南對圖 1 中的主題進行了進一步的完善和補充。本文所包含的最佳實踐將這些主題轉化為可執行的測試與評估實踐。在編寫本指南的過程中,我們充分利用了我們在人工智能系統開發和與更廣泛的人工智能社區合作方面的 T&E 工作經驗。這里所包含的最佳實踐反映了我們為使人工智能系統的測試與評估具有可操作性所做的初步嘗試。這些實踐需要在各種人工智能系統中進行測試,以確保它們是真正的最佳實踐。貫穿許多最佳實踐的一個亮點是數據的重要作用。數據不再僅僅是 T&E 的產物。現在,它已成為人工智能系統開發本身的輸入。這一顯著變化推動了對人工智能系統的技術與評估提出新的要求和實踐。此外,這份清單還遠遠不夠完整,應被視為一份活生生的實踐文檔。隨著越來越多的人工智能系統可供測試,新的實踐將不斷發展,本清單也需要不斷更新。不過,本文件中的每種做法都已證明在美國防部 AIES 測試中非常有用。