亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多智能體系統(MAS)是模擬復雜現實世界自主交互實體的基礎架構。然而,傳統MAS架構常受限于僵化的協調機制與動態任務適應能力不足。本文提出MetaOrch——一種面向多領域任務環境的神經協調框架,用于實現智能體最優選擇。本系統采用監督學習方法,通過建模任務上下文、智能體歷史行為與預期響應質量,為每個任務選擇最適配智能體。創新的模糊評估模塊從完整性、相關性和置信度三個維度對智能體響應進行評分,生成軟監督標簽用于協調器訓練。相較于傳統硬編碼的智能體-任務映射機制,MetaOrch能動態預測最優智能體并同步評估選擇置信度。在異構智能體模擬環境中的實驗表明,該方法達到86.3%的選擇準確率,顯著優于隨機選擇與輪詢調度等基線策略。模塊化架構強調可擴展性,支持智能體的獨立注冊、更新與查詢。研究結果證明,神經協調為提升多智能體系統在多樣化任務領域中的自主性、可解釋性與適應性提供了有效解決方案。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

戰場物聯網(IoBT)的發展為增強態勢感知創造了新機遇。為提升IoBT在關鍵決策中的態勢感知潛力,需將設備數據轉化為用戶端可讀信息對象,并按需提供訪問。為此,提出利用自然語言處理(NLP)技術查詢數據庫并返回自然語言響應的工作流程。該方案采用適配邊緣設備的“大型語言模型”(LLMs)執行NLP任務,并選用特別適用于IoBT動態連接網絡的“圖數據庫”架構。本系統運用LLMs實現雙重功能:將自然語言問題映射為Cypher數據庫查詢語句,同時將數據庫輸出總結為自然語言反饋。在代表美國陸軍多用途傳感區(MSA)公開數據的數據庫上評估多款中型LLMs的表現,觀察到Llama 3.1(80億參數)在所有指標上均優于其他模型。最關鍵的是,本方案通過兩步處理機制放松了對生成Cypher查詢與真值代碼“精確匹配”(EM)的要求,實現了19.4%的準確率提升。該工作流程為在邊緣設備部署LLMs奠定了基礎,支持通過自然語言交互獲取關鍵決策信息對象。

當前針對物聯網(連接溫度傳感器至移動設備的互聯網絡)的研究日益增多。海量設備產生巨量數據集,需要強大存儲、處理與分析能力。由此衍生的洞察可增強環境“態勢感知”并優化決策[1]。軍事環境中實時數據處理與分析至關重要,尤其在IoBT網絡存在間歇性連接時——此時“邊緣設備”通過本地處理數據突破云計算限制[2]。LLMs在其它領域的顯著優勢在于能從龐大數據集提煉有效信息[2]–[4],并能根據自然語言問題生成特定代碼輸出[5],這對將自然語言提示轉化為數據庫查詢具有重要意義。本研究旨在確立LLMs在設備端處理IoBT生成數據的性能邊界:首先選用“圖數據庫”構建模擬IoBT結構(其動態節點管理能力優于SQL數據庫),圖數據庫支持網絡動態更新,高效處理深度互聯的“多關系數據”,其可擴展性確保查詢僅針對相關圖段執行(而SQL數據庫會因數據量增長導致“連接操作”性能下降),且更有效處理層級數據關系。

在多種圖數據庫中,本研究聚焦Neo4j數據庫及其Cypher查詢語言[6]。“Cypher查詢語言”(CQL)是專為圖結構設計的成熟查詢語言。現有研究主要集中于利用LLMs實現自然語言到Cypher代碼的映射[7]–[11],當前多數LLMs均具備CQL處理能力。本工作核心目標是構建人機數據庫交互界面:1)自然語言問題轉為數據庫查詢 2)將數據庫輸出與原始問題結合生成自然語言響應。該系統設想將實時IoBT數據存入設備或鄰近網絡數據庫,作戰人員可直接用自然語言查詢。LLMs先將問題轉譯為Cypher查詢語句,返回結果再與原始問題融合生成最終響應,為非專業用戶提供高效IoBT數據訪問通道。

第二步使用LLM放松了Cypher生成的“精確匹配”要求——當Cypher查詢正確提取核心信息及輔助數據時,即使形式不完全匹配,數據庫響應仍包含正確答案所需內容。第二階段的LLM可從響應中提煉有效信息回答用戶問題。本研究探索適用于戰場設備端的輕量化前沿模型,實現在無云端支持條件下提供免數據庫知識的自然語言接口。

核心貢獻包括:
? 設計、實施并評估面向設備端計算的動態數據庫自然語言查詢流程
? 測試LLMs生成Cypher代碼提取數據的能力
? 驗證LLMs將數據庫響應重構為自然語言句子的性能
? 建立LLMs與圖數據庫交互的評估框架

本方案僅需提供數據庫模式及單條查詢示例即可驅動小模型生成Cypher語句,并采用“零樣本模式”評估方案以契合IoBT場景的嚴苛資源限制(如設備功耗約束)。

圖:數據庫自然語言交互工作流。

付費5元查看完整內容

自主智能體技術的進步正通過支持偵察、障礙規避、路徑規劃與目標探測等多樣化任務,變革多域作戰模式。然而組建人類與自主智能體混合團隊時,因雙方“認知模型”及世界理解方式存在差異而產生挑戰。本研究著力構建“聯合認知系統”,旨在融合人類與自主智能體優勢以提升“情報監視偵察(ISR)”“協同作戰”“搜索救援(SAR)”及戰場“醫療后送”等任務的協作效能。此類軍事行動需協調具備多元能力與復雜“依存關系”的多智能體系統,對決策與資源管理構成嚴峻挑戰。本文提出基于“協同設計”的方法優化指揮控制決策,聚焦多智能體系統內部任務分配與協調的“可觀察性、可預測性與可導控性”(OPD)原則。該協同設計方法通過評估多智能體在各子任務中的相互“依存關系”及所需“能力”(如目標感知、障礙規避或區域值守),適用于“無人機”“有人駕駛載具”及“地面控制站人員”等多元團隊。

所提出的“聯合認知系統”(JCS)框架綜合評估人機智能體的能力與依存關系,結合環境參數、任務要素及“在線監測”(狀態與行為感知),動態推薦特定任務的最佳執行主體。研究通過在三維模擬環境中組織不同能力配置的人機混合團隊執行“搜索救援任務”展開實驗。團隊配對設計旨在考察操作員如何發展差異化“能力水平”,進而促使自主智能體在各任務階段提供相應層級的“支援”。測試八種機器學習算法后,最優模型的“任務分配預測準確率”達80%以上。研究核心在于探尋“人機控制權”的最優平衡,通過“預判失誤”或檢測操作員“失能狀態”,最大限度避免“自動化濫用”以保障“有效人類決策權”。這有望推動未來“C2指揮控制系統”實現:采集感知數據(“觀察”);輔助解析并“預判”態勢(“預測”);優化團隊內部任務“導控”(“可導控性”)。此類系統可增強“聯合全域指揮控制”(JADC2)在分布式團隊與混合編隊資源管理中的作戰效能,依托“人工智能”支撐加速決策進程。

聯合全域指揮控制(JADC2)的未來

“聯合全域指揮控制”(JADC2)代表一種復雜的決策模式,旨在快速整合全域作戰能力以獲取“競爭”與“沖突”場景中的戰略優勢[1]。根據文獻[2]闡述,JADC2涵蓋“感知”“研判”“行動”三大核心功能,貫穿“太空”“網絡”“空中”“陸地”及“海洋”五大作戰域[3]。該系統依托由先進傳感技術構成的“多域傳感體系”,包含“光電/紅外成像”“高光譜成像”“雷達(無源/有源)”“聲學傳感器”及“偵察衛星”等設備。跨域數據流生成分布于不同時空維度的海量信息。“有效管理”這些數據對支持“作戰管理”與“指揮決策”至關重要,需確保“精準情報”及時送達相應團隊或“智能體”以實現預期作戰效果。此類“數據點”要求構建統一的“多域網絡”——通過整合“多源信息”(取代孤立數據管道)形成“全域聯合態勢感知圖景”。這種“集成化路徑”有助于“全面把握作戰環境”。如圖1所示,應用“機器學習”“人工智能”與“預測分析”能進一步優化該流程,提供“數據融合”與“快速解析”的高級能力,將感知圖景轉化為作戰行動[2][3]。文獻[4]強調,“指揮控制”的根本目標是確保“精準情報”及時交付相應決策者,從而彰顯“敏捷性”并促進團隊間“互操作性”。實現此目標需依托“量子通信”“人工智能(AI)”及“自主系統”等關鍵技術。未來JADC2將構筑“類云環境”,實現“情報共享”“態勢監視”及“高速數據通信”以加速決策[2]至[5]。這些技術以遠超人類的“處理速度”與“規模”實現數據快速解析。文獻[4]著重指出“AI”與“機器學習(ML)”在自動化處理海量信息、支持決策流程中的整合作用。二者特別擅長在“動態多變量環境”中識別快速演變的“模式特征”,通過關聯“地形”“氣象”“行為模式”等離散情報源預判態勢并響應環境變化[2]至[5]。在“未來指揮控制系統”中,AI有望跨“梯隊”“作戰域”及“作戰資產”同步多重行動,從而把握“關鍵戰機窗口”。此項能力在“無人地面載具(UGV)”“無人機(UAV)”“水下潛航器(UUV)”“水面艇(USV)”等搭載智能傳感器的作戰平臺日益普及的戰場尤為重要。AI賦能的系統可評估作戰環境中“多源情報”,運用“歷史數據”生成行動建議,從而減輕“認知負荷”并賦能指揮官的“快速有效決策”。

1.1 多智能體系統

無人系統與自主智能體的發展深刻重塑了“聯合全域指揮控制”(JADC2)框架內的團隊結構與角色定位。這些進步重新定義了“指揮控制”(C2)與“任務管理”的實施路徑,要求對多元化資源及團隊進行精密協同。這種整合需依托先進的“C2能力”以優化資源分配并實時調整任務指令——需綜合考量“性能評估”“任務修正”“動態環境條件”“人員工作負荷”“疲勞狀態”及“機器性能極限”等多元因素。為應對此挑戰,本節將探討“人機自主編隊”(HAT)在多智能體團隊中的興起,以及如何通過“協同設計”的HAT框架評估“有效人類決策權”。

1.1.1 人機自主編隊

人工智能與自主系統的應用顯著改變了團隊動態,催生出“人機自主編隊”(HAT)概念[6]。HAT重構了團隊結構、成員角色及其在權責體系中的層級關系[6]。將自主智能體融入人類團隊增加了復雜度:因其承載差異化能力與角色[7]至[8],可能導致“任務委派矛盾”“權責錯配”及“責任主體驗證缺失”。由此可能形成影響團隊動態與績效的“復雜依存關系網”[7]至[8]。影響該復雜性的因素包括:成員特性、任務構成、情境特征、環境條件及任務目標。有效評估HAT需建立并驗證性能度量標準,涵蓋:(i)單兵作戰效能(ii)單機性能表現(iii)整體團隊績效[6]。“客觀”與“主觀”度量工具有助于判定任務能力邊界[6]。傳統軍事團隊績效指標聚焦“安全性”與“作戰能力”,包括“團隊執行力”“壓力水平”“信任度”及“凝聚力”[2]。這些指標可深化團隊能力認知,優化“多智能體系統”協作效能以保障任務成功。

1.1.1.1 人機自主編隊中的“有效人類決策權”保障

“有效人類決策權”概念包含三大核心原則:僅有人類在場不足以保證實質性控制;意向性決策貢獻取決于“心理認知能力”與“系統理解度”;差異化法律責任要求不同層級的控制權,由此可能引發“責任缺失”[9]。核心矛盾源于機器人與裝備從工具屬性向“團隊成員”的轉化——這要求建立“相互依存的通信”“協同決策”及“聯合作戰”機制[10]。因此有效訓練方法與“人因工程”研究致力于探索提升“團隊效能”與“個體效能”的路徑。例如“認知人機系統”研究領域正探索運用“生物標記物”作為人類“精神狀態”或“生理狀態”的評估指標[11]至[14]。“神經生理學數據”的運用有助于精準解析團隊協作中的人類支援需求(如根據“工作負荷”“疲勞狀態”或“功率譜密度”動態調整編隊層級)[11]至[15]。此類認知將優化“資源配置”,通過AI或“自主智能體”在操作員“失能狀態”時提供實質性支援。其還有助于提升“能力透明度”與“依存關系可見性”,發展“可調節的多智能體編隊模式”。這些信息可實現“人機資源動態調配”——例如當操作員“警覺度下降”時,自主智能體可增強“貢獻度”或接管特定任務“控制權”,從而提升“整體任務效能”。

當前各類“自主能力”已內嵌于無人機系統。這些能力使智能體能夠實施“自主決策”,發展“專項技能”以促進任務成功。此類技能通常通過“深度強化學習”(DRL)實現:路徑規劃(如D3-QN算法)、導航(DQN/PPO算法)及高度控制(DDPG算法)[16]至[18]。既有研究展示了嵌入式自主智能體的應用案例:無人機系統基于“視覺導航”實現“障礙規避”[19],或依托無人機平臺實施“目標定位”[20]。此外通過“卷積神經網絡”(CNN)與YOLO等算法增強無人機相機的“搜救任務目標檢測能力”[20]。多智能體團隊還包含其他“半自主系統”:如“陸基/海基水雷”“防空反導系統組件”[22],以及支撐近距空戰“基本戰術機動”的無人戰機“自主導引系統”[23]。但自主載具的“傳感器性能局限”(目標檢測置信度低、視覺識別偏差或導航執行錯誤)仍構成制約[24]。過度復雜的智能體模型可能引發“決策透明度”問題,導致團隊成員難以維持“態勢感知”[25]——例如人類操作員可能無法判斷何時介入接管自主智能體任務。

這些能力使多智能體團隊得以在人類與自動機器間分配“控制權”與任務。但當人機因“理解偏差”導致協作失敗,或“突發異常行為”引發“指揮控制”(C2)系統混亂與模糊性時,將影響多智能體團隊的“可預測性”與“作戰效能”。美國陸軍“訓練與條令司令部”(TRADOC)強調必須識別保證任務成功的“部隊作戰能力”。在戰場或災區等“動態環境”中,當異構團隊需與“地面傳感器”“無人載具”等資產交互時,須配置“實時學習”與“自適應算法”[2]。這些算法支撐“最優博弈策略”制定,提升部隊對“彈道導彈威脅”等動態條件的“響應力”與“適應性”[2]。北約“TG-HFM247工作組”指出人機編隊面臨“動態可調協作”挑戰:因編隊過程需“雙向認知學習”,雙方必須理解彼此“行為模式”“優勢”與“短板”。隨著團隊成熟度提升,這種互相認知將催生“互補增效”作用[26]。該工作組強調采用“人機編隊設計模式”可建構“心智模型”、明晰“角色定位”、優化“任務條件”,進而增強“團隊協作透明度”與“任務分配策略”[26]。2016年瑞典海軍演習中的指揮控制研究提煉出三維度框架:(i)“信息分布”(ii)“決策權分配”(iii)“交互模式”[9],凸顯“靈活響應的C2系統”對管理復雜多智能體環境的核心價值。整合“人機編隊框架”將提升“協同效能”,通過定義清晰角色與“任務分配策略”,釋放混合編隊的“互補能力潛能”,最終實現“團隊作戰效能”的全面增強。

1.1.1.2 協同設計框架

“協同設計框架”評估協調多智能體能力以達成任務目標所需程度。該框架界定各智能體分配的功能與任務能否獨立執行,或因“執行能力缺失”必須協作完成[7]至[8]。其運作基于“依存關系”“從屬關系”及“執行能力”三原則:“依存關系”定義為聯合行動中兩個及以上實體為滿足依賴需求形成的互補關系[7]至[8];“從屬關系”通過“執行能力”概念展開——涵蓋實體獨立勝任任務所需的技能、知識與認知水平;當實體缺乏有效執行任務的能力時,即形成需他方支援的“從屬關系”。為評估任務完成所需的“能力依存狀態”,該框架提出采用“依存關系分析表”(IA)[7]至[8]。此表格通過定義任務、子任務、必備能力及團隊成員替代角色(執行主體或支援角色),輔助設計依存關系架構。這些能力對任務達成至關重要,指導評估人類操作員與自主智能體間的任務分配。分析結果將強化“決策回路”——該回路作為“聯合全域指揮控制”(JADC2)核心要素,遵循“可觀察性-可預測性-可導控性”(OPD)準則:“可觀察性”確保用戶清晰掌握系統內部狀態與行動;“可預測性”使用戶能基于實時和歷史數據預判系統行為;“可導控性”賦予用戶引導控制系統運作的權限,確保按需動態調整[7]至[8]。三要素協同作用旨在實現人機智能體間的無縫集成與高效協作。

2.0 研究目標

本文旨在通過聚焦集成自主智能體與人類操作員的混合多智能體團隊,應對“聯合全域指揮控制”(JADC2)的核心挑戰。研究目標分為四方面:(1) 通過AI建議優化資源分配;(2) 建立“多模態數據管道”整合人機智能體與其他實體特征,提升互操作性與同步能力以改進信息融合;(3) 構建“人機自主協同框架”,運用3D仿真環境訓練測試多智能體團隊,評估性能與依存關系;(4) 應用“可觀察性-可預測性-可導控性”(OPD)原則增強JADC2決策流程保障“有效人類決策權”,同時研究人類神經生理信號中的“生物標記物”與“行為模式”以優化資源分配策略。達成這些目標將推動多域作戰中基于AI任務分配策略的“多智能體資源管理”進展。

3.0 方法

本方法通過名為JCS的試驗性處理平臺實現,整合實驗設計與海量數據采集構建多模態管道及機器學習算法。該方法運用協同設計原則優化任務分配、資源管理及決策流程,強化“可觀察性”“可預測性”與“可導控性”(OPD)。

3.1 聯合認知系統(JCS)

所提方案將人機數據整合為統一管道,依托協同設計原則與AI優化任務分配。JCS匯聚多元數據源——含“氣象數據”“地理環境地圖”(GEM)“任務狀態”“神經生理指標”“載具傳感器”“信號情報”(SIGNIT)“人工情報”(HUMINT)及“自主智能體性能指標”——形成“多模態集成框架”,增強復雜作戰環境中的透明度與動態任務分配能力。

3.1.1 組件與架構

聯合認知系統框架含五大模塊以提升作戰效能:(i)特征采集:獲取自主智能體與人類操作員數據;(ii)任務參數:定義子任務(含目標數量與位置);(iii)環境參數:監測風速、降雨、溫度等關鍵條件;(iv)能力評估:核定各智能體能力,確定其擔任“支援角色”或“主執行體”;(v)任務分配:運用機器學習技術根據評估能力與環境因素預測最佳子任務執行主體。該綜合框架(基于文獻[15]改進)旨在優化任務分配、資源管理及整體任務效能。

3.2 實驗設計與用例

研究以“搜救任務”(SAR)為用例背景:救援隊在時間資源受限條件下部署無人機最優定位災后受困者。部署“無人機系統”(UAS)的核心目標是評估傷情(區分危重與非危重狀態),據此制定救援優先級。任務執行需人類操作員、救援調度員(通常為有人駕駛飛行器)與機器協同完成。無人機必須規避障礙物,規劃最優路徑定位“目標區域”(即災區)內所有受困者。任務依據協同設計框架分解,基礎能力與子任務如下:S1-目標探測感知;S2-障礙物感知;S3-偏差規避障礙物;S4-抵近目標獲取分析圖像;S5-在規避禁區的目標區域內導航。該結構化路徑確保人機組件協同應對SAR任務需求。

付費5元查看完整內容

視覺-語言模型(VLMs)在二維醫學圖像分析中已展現出潛力,但將其擴展到三維領域仍面臨挑戰,主要源于體數據的高計算需求以及三維空間特征與臨床文本的對齊困難。為此,我們提出Med3DVLM——一種通過三項關鍵創新解決這些難題的三維視覺-語言模型: 1. DCFormer編碼器:采用分解式三維卷積的高效架構,可規模化捕捉細粒度空間特征; 1. SigLIP對比學習策略:基于成對Sigmoid損失的訓練方法,無需依賴大批量負樣本即可提升圖文對齊效果; 1. 雙流MLP-Mixer投影器:融合圖像多層次特征與文本嵌入,生成更豐富的多模態表征。

我們在包含120,084例三維醫學影像的M3D數據集(含放射學報告和視覺問答數據)上評估模型性能,結果顯示Med3DVLM在多項基準測試中均取得突破: * 圖文檢索:在2,000樣本上R@1達61.00%,顯著超越當前最優模型M3D-LaMed(19.10%) * 報告生成:METEOR分數36.42%(基線14.38%) * 開放式視覺問答(VQA):METEOR 36.76%(基線33.58%) * 封閉式VQA:準確率79.95%(基線75.78%)

這些成果證明Med3DVLM能有效彌合三維影像與語言之間的鴻溝,為臨床應用的規模化多任務推理提供支持。項目代碼已開源:


付費5元查看完整內容

C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。

本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。

提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。

提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。

理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。

開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:

  • 結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。

  • 結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。

  • 描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。

  • 根據上下文,生成的目標和績效衡量標準是否合理?

  • 步驟是否反映了情景的邏輯時間進程?

鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。

付費5元查看完整內容

配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。

圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。

配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。

我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。

在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。

近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。

不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。

我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。

在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。

接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。

在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。

實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。

圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。

對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。

總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:

  • 實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。

  • 由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。

  • 通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。

付費5元查看完整內容

本文介紹了一種通過整合領域知識和基于注意力的策略機制來增強多智能體強化學習(MARL)的替代方法。方法側重于將特定領域的專業知識融入學習過程,從而簡化協作行為的開發。這種方法旨在通過使智能體專注于復雜任務的重要方面,從而優化學習曲線,降低與 MARL 相關的復雜性和學習開銷。在我們的模型中,注意力機制的利用起到了關鍵作用。它可以有效處理動態上下文數據和智能體之間細微的互動,從而做出更精細的決策。在斯坦福智能系統實驗室(SISL)“追逐 ”和 “多粒子環境”(MPE)“簡單擴展 ”等標準 MARL 場景中的應用表明,我們的方法既能提高學習效率,又能提高協作行為的有效性。結果表明,我們基于注意力的方法可以在行動層面整合特定領域的知識,是提高 MARL 訓練過程效率的可行方法。

付費5元查看完整內容

本文為具有混合狀態空間的多智能體系統提出了一種迭代規劃框架。該框架使用過渡系統在數學上表示規劃任務,并采用多個求解器來迭代改進規劃,直到計算資源耗盡為止。在整合不同求解器進行迭代規劃時,我們建立了數學框架的理論保證,以確保遞歸可行性。所提出的框架能夠持續改進解決方案的最優性,有效利用分配的計算資源。我們將所提出的方法應用于能源感知的 UGV-UAV 合作任務站點分配,對其進行了驗證。結果表明,與文獻中提出的算法相比,該方法在保持實時執行能力的同時,還能不斷改進解決方案。

付費5元查看完整內容

本項目的主要目標是開發一種原則性方法,在深度學習的生命周期中整合領域知識,有效降低模型復雜度,從而利用有限的訓練數據訓練出穩健而準確的深度模型。所提出的方法包括三大任務:

  • 整合來自輔助數據源的數據知識,以知識定義的結構正則化或參數空間約束的形式,修正深度學習的表述;
  • 整合模型知識,即利用同一任務中較簡單模型的決策面來指導深度模型的學習,從而有效降低模型復雜度;
  • 整合優化器知識,旨在改進深度模型訓練的優化程序。通過識別類似的學習任務并觀察它們的梯度軌跡,可以訓練優化器本身,以提供更快的收斂速度,還能避免不良的局部最優解;
  • 整合領域知識的一個副成果是為網絡決策提供可解釋性或可說明性,而這正是目前所缺乏的一種亟需的能力。
付費5元查看完整內容

本文提出了一種名為 "自適應蜂群智能體"(ASI)的新范例,在這種范例中,異構設備(或 "智能體")參與協作 "蜂群 "計算,以實現穩健的自適應實時操作。自適應群集智能是受自然界某些系統的協作和分散行為啟發而產生的一種范式,可應用于物聯網、移動計算和分布式系統等領域的各種場景。例如,網絡安全、聯網/自動駕駛汽車和其他類型的無人駕駛車輛,如 "智能 "無人機群。這絕不是一份詳盡無遺的清單,但卻說明了可以從這一范例中獲益的眾多不同領域。本文介紹了在未來聯網/自動駕駛車輛中進行合作傳感器融合的具體人工智能案例研究,該案例構成了由 IBM 主導的 DARPA DSSoC 計劃下的 "認知異構系統的高效可編程性"(EPOCHS)項目的驅動應用。鑒于 EPOCHS 的規模,我們將重點關注項目的一個具體部分:用于多車輛傳感器融合的 EPOCHS 參考應用 (ERA)。我們展示了 x86 系統上的特性分析結果,從而得出了有關 ERA 性能特征和實時需求的初步結論。本文簡要介紹了 EPOCHS 的路線圖和未來工作。

圖 4:作為 DARPA 贊助的 EPOCHS 項目的一部分,互聯/自動駕駛車輛中基于蜂群的傳感器融合。

付費5元查看完整內容

美國陸軍對人工智能和輔助自動化(AI/AA)技術在戰場上的應用有著濃厚的興趣,以幫助整理、分類和澄清多種態勢和傳感器數據流,為指揮官提供清晰、準確的作戰畫面,從而做出快速、適當的決策。本文提供了一種將作戰模擬輸出數據整合到分析評估框架中的方法。該框架有助于評估AI/AA決策輔助系統在指揮和控制任務中的有效性。我們的方法通過AI/AA增強營的實際操作演示,該營被分配清理戰場的一個區域。結果表明,具有AI/AA優勢的模擬場景導致了更高的預期任務有效性得分。

引言

美國陸軍目前正在開發將人工智能和輔助自動化(AI/AA)技術融入作戰空間的決策輔助系統。據美國陸軍機動中心稱,在決策輔助系統等人工智能/輔助自動化系統的協助下,士兵的作戰效率可提高10倍(Aliotta,2022年)。決策輔助工具旨在協助指揮官在作戰場景中減少決策時間,同時提高決策質量和任務效率(Shaneman, George, & Busart, 2022);這些工具有助于整理作戰數據流,協助指揮官進行戰場感知,幫助他們做出明智的實時決策。與使用AI/AA決策輔助工具相關的一個問題是,陸軍目前缺乏一個有效的框架來評估工具在作戰環境中的使用情況。因此,在本文中,我們將介紹我們對分析框架的研究、設計和開發,并結合建模和仿真來評估AI/AA決策輔助工具在指揮和控制任務中的有效性。

作為分析框架開發的一部分,我們進行了廣泛的文獻綜述,并與30多個利益相關者進行了利益相關者分析,這些利益相關者在人工智能/AA、決策輔助、指揮與控制、建模與仿真等領域具有豐富的知識。根據他們對上述主題的熟悉程度,我們將這些利益相關者分為若干焦點小組。我們與每個小組舉行了虛擬焦點小組會議,收集反饋意見,并將其用于推動我們的發現、結論和建議(FCR)。同時,我們還開發了一個逼真的戰場小故事和場景。利用該場景和我們的FCR輸出,我們與美國陸軍DEVCOM分析中心(DAC)合作開發了一個功能層次結構,通過建模和仿真來測量目標。我們將假設的戰斗場景轉移到 "一個半自動化部隊"(OneSAF)中,該模擬軟件利用計算機生成部隊,提供部分或完全自動化的實體和行為模型,旨在支持陸軍戰備(PEOSTRI, 2023)。使用分析層次過程,我們征詢了評估決策者的偏好,計算了功能層次中目標的權重,并創建了一個電子表格模型,該模型結合了OneSAF的輸出數據,并提供了量化的價值評分。通過A-B測試,我們收集了基線模擬和模擬AI/AA效果的得分。我們比較了A情景和B情景的結果,并評估了AI/AA對模擬中友軍任務有效性的影響。

文獻綜述

分析評估框架可針對多標準決策問題對定量和/或定性數據進行評估。定性框架,如卡諾模型(Violante & Vezzetti, 2017)、法式問答(Hordyk & Carruthers, 2018)和定性空間管理(Pascoe, Bustamante, Wilcox, & Gibbs, 2009),主要用于利益相關者的投入和頭腦風暴(Srivastava & Thomson, 2009),不需要密集的計算或勞動。定量評估框架以數據為導向,提供一種數學方法,通過衡量性能和有效性來確定系統的功能。分析層次過程(AHP)適用于我們的問題,因為它使用層次設計和成對的決策者偏好比較,通過比較權重提供定性和定量分析(Saaty,1987)。雖然AHP已被廣泛應用,但據我們所知,該方法尚未被用于評估人工智能/自動分析決策輔助工具,也未與A-B測試相結合進行評估。

指揮與控制(C2)系統用于提供更詳細、更準確、更通用的戰場作戰畫面,以實現有效決策;這些C2系統主要用于提高態勢感知(SA)。研究表明,使用數字化信息顯示方法的指揮官比使用無線電通信收集信息的指揮官顯示出更高水平的態勢感知(McGuinness和Ebbage,2002年)。AI/AA與C2的集成所帶來的價值可以比作戰斗視頻游戲中的 "作弊器":它提供了關于敵方如何行動的信息優勢,并幫助友軍避免代價高昂的后果(McKeon,2022)。對C2系統和SA的研究有助于推動本文描述的小故事和場景的發展。

建模與仿真(M&S)是對系統或過程的簡化表示,使我們能夠通過仿真進行預測或了解其行為。M&S生成的數據允許人們根據特定場景做出決策和預測(TechTarget,2017)。這使得陸軍能夠從已經經歷過的作戰場景和陸軍預計未來將面臨的作戰場景中生成并得出結論。模擬有助于推動陸軍的能力評估。測試和評估通常與評估同時進行,包括分析模型以學習、改進和得出結論,同時評估風險。軍隊中使用了許多不同的M&S工具。例如,"步兵戰士模擬"(IWARS)是一種戰斗模擬,主要針對個人和小單位部隊,用于評估作戰效能(USMA, 2023)。高級仿真、集成和建模框架(AFSIM)是一種多領域M&S仿真框架,側重于分析、實驗和戰爭游戲(West & Birkmire, 2020)。在我們的項目范圍內,"一支半自動化部隊"(OneSAF)被用于模擬我們所創建的戰斗情況,以模擬在戰場上擁有人工智能/自動機優勢的效果。

如前所述,人工智能/AA輔助決策的目標是提高決策的質量和速度。人工智能可用于不同的場景,并以多種方式為戰場指揮官和戰士提供支持。例如,人工智能/AA輔助決策系統可以幫助空中和地面作戰的戰士更好地 "分析環境 "和 "探測和分析目標"(Adams, 2001)。人工智能/自動機輔助決策系統可以幫助減少人為錯誤,在戰場上創造信息和決策優勢(Cobb, Jalaian, Bastian, & Russell, 2021)。這些由AI/AA輔助決策系統獲得的信息分流優勢指導了我們的作戰小故事和M&S場景開發。

本文方法

  • 行動示意圖和場景開發

在我們的作戰小故事中,第1營被分配到一個小村莊,直到指定的前進路線。營情報官羅伊上尉(BN S2)使用AI/AA輔助決策系統(即助手)準備情報態勢模板(SITTEMP),該系統可快速收集和整合積累的紅色情報和公開來源情報衍生的態勢數據。然后,它跟隨瓊斯少校和史密斯上尉,即營行動指揮員(BN S3)和S3助理(AS3),使用AI/AA輔助決策系統制定機動行動方案(COA),以評估 "假設 "情景、 她根據選定的機動方案開發指定的利益區域(NAI),然后在其內部資產和上層資源之間協調足夠的情報、監視和偵察(ISR)覆蓋范圍。假設時間為2030年,雙方均不使用核武器或采取對對方構成生存威脅的行動,天氣條件對藍軍和紅軍的影響相同,時間為秋季,天氣溫暖潮濕。

  • 利益相關者分析和功能層次開發

作為解決方案框架背景研究的一部分,我們與32位民用和軍用利益相關者進行了接觸,他們都是AI/AA及其對決策和仿真建模的貢獻方面的專家。我們進行的利益相關者分析過程如下: 1)定義和識別利益相關者;2)定義焦點小組;3)將利益相關者分配到焦點小組;4)為每個焦點小組制定具體問題;5)聯系利益相關者并安排焦點小組會議;6)進行焦點小組會議;7)綜合并分析利益相關者的反饋;以及8)制定FCR矩陣。我們利用FCR矩陣的結果來繪制功能層次圖,其中包括從模擬場景中生成/收集的目標、衡量標準和度量。然后根據這些目標、措施和指標對任務集的重要性進行排序。這為使用層次分析法(如下所述)奠定了基礎。

  • 層次分析法和A-B測試

AHP是托馬斯-薩蒂(Thomas Saaty)于1987年提出的一種方法,它利用專家判斷得出的一系列成對比較,將功能層次結構中的每個功能和子功能放入一個優先級表中。然后通過有形數據或專家定性意見對各種屬性進行排序。如表1所示,這些排序被置于1-9的范圍內。在賦予每個屬性1-9的權重后,再賦予標準和次級標準權重,以顯示其相對重要性(Saaty,1987)。

付費5元查看完整內容
北京阿比特科技有限公司