近十年來,中(zhong)國(guo)人(ren)民解放軍(jun)(PLA)持續(xu)追(zhui)蹤美(mei)軍(jun)通過"人(ren)機(ji)協(xie)同作(zuo)戰"(MUM-T)提(ti)升戰斗效能(neng)的(de)演進路徑。通過剖(pou)析美(mei)軍(jun)MUM-T發展關鍵節點,PLA旨在(zai)識別其軍(jun)事弱點、優化自身裝備采辦策略并研發反(fan)制措施。隨(sui)著MUM-T深度融(rong)入美(mei)空軍(jun)部(DAF)"協(xie)同作(zuo)戰飛(fei)機(ji)"(CCA)等計劃,PLA正開(kai)展適配(pei)自身作(zuo)戰需求的(de)同類技術試驗。截至2025年,PLA判定未來戰爭的(de)核(he)心特(te)征是將(jiang)人(ren)工智能(neng)增強無人(ren)系統融(rong)入以有(you)人(ren)平臺為主導的(de)作(zuo)戰網絡,以此優化作(zuo)戰效能(neng),同時積極布局未來戰場優勢(shi)地(di)位(wei)。
當美(mei)空軍部加速測試MUM-T概念并將CCA計劃(hua)納(na)入對抗高(gao)端對手的(de)作(zuo)戰體系時,美(mei)國(guo)防部(DoD)及空軍部的(de)規劃(hua)者、戰略家與分析(xi)人員(yuan)正在深入研究中(zhong)國(guo)對空戰自主系統的(de)認(ren)知路徑。掌握外國(guo)MUM-T能力(li)可指導美(mei)空軍部作(zuo)戰規劃(hua)、增(zeng)強盟軍互操作(zuo)性并引(yin)導關鍵(jian)技術投資(zi)。此外,洞悉中(zhong)國(guo)MUM-T發(fa)展模式有助于預(yu)判與反制(zhi)戰術,確保(bao)美(mei)軍在可預(yu)見未來保(bao)持(chi)戰略優勢。
本研(yan)究基于中文(wen)(wen)開(kai)源文(wen)(wen)獻解析(xi)中國(guo)防(fang)務界空戰技術觀點,據此識(shi)別軍工復合體內MUM-T核心利益方與倡導者。重點探究:(1)PLA是(shi)否計劃將MUM-T及(ji)反制策略納入作(zuo)戰概念(nian)開(kai)發;(2)PLA如何看待(dai)空軍部將MUM-T作(zuo)為未(wei)來作(zuo)戰能力標志性(xing)特征的戰略;(3)PLA關于人機關系(xi)(xi)及(ji)自(zi)主系(xi)(xi)統作(zuo)戰角色的認知體系(xi)(xi)。
? PLA判定MUM-T將成為智能系統作戰的標志性特征,當前處于將其融入現有條令的作戰概念萌芽期
? 自2015年起持續追蹤美軍MUM-T技術概念發展,旨在識別弱點并研發反制措施
? 截至2025年初,PLA采取區別于美空軍的MUM-T路徑:聚焦軟件算法升級,強化無人系統對有人平臺的輔助功能。雙方雖均重視CCA型效費比能力,但PLA更強調"單機功能強化"而非需更高自主性的"高級編組協同"
? PLA作戰(zhan)概念開發(fa)尚處初始階段,文獻強調需強化人機協同作戰(zhan)條(tiao)件(jian)下"戰(zhan)時黨委"職能,近期平衡自主化與政治管控仍是挑戰(zhan)
盡管美軍MUM-T融入未來作戰概念仍處初級階段,當前正是實施競爭策略確保空軍部保持技術概念優勢的關鍵窗口。基于本報告初步結論提出:
? 運用紅隊分析制定美軍MUM-T研發采辦的定制化戰略傳播方案
? 以MUM-T/CCA發展為案例實施"隱真示假"能力建設策略
? 未來十年PLA將加速自主系統軍事化集成,情報部門需重點分析其編制體制、作戰條令及訓練模式
? 針對性強化電磁頻譜防護能力,拓展與盟國軍工基地的電磁戰協作
? 美空軍部組建"綜合能力司令部"時,旨在確保其情報單元動態監控分析PLA電磁戰與信息戰能力
? 深入(ru)研(yan)判PLA在人工智(zhi)能與無人系統(tong)塑造的復(fu)雜戰(zhan)場態(tai)勢,據此開(kai)發(fa)定制(zhi)化CCA作(zuo)戰(zhan)概念
AI智能體式編程是一種新興范式,其中大型語言模型(LLMs)能夠自主規劃、執行,并與編譯器、調試器和版本控制系統等外部工具交互,以迭代完成復雜的軟件開發任務。 與傳統的(de)代碼生成工(gong)具不同,智能(neng)(neng)體系統能(neng)(neng)夠分解高層目標、協調多步流程(cheng),并(bing)基于中間反饋自(zi)適應(ying)地調整其行為。這些能(neng)(neng)力正在改變軟(ruan)件(jian)開發的(de)實踐。隨著這一新(xin)興領(ling)域的(de)快速發展,有必要明確其研究范(fan)圍,夯實其技術基礎(chu),并(bing)識別尚待解決(jue)的(de)研究挑戰(zhan)。
本綜述對 AI智能(neng)體(ti)式(shi)編程** 進(jin)行了(le)全面而(er)及時的回顧(gu)。我(wo)們提出了(le)一個關于智能(neng)體(ti)行為和系(xi)統架構的分類法(fa),并探討了(le)包括規(gui)劃、記(ji)憶與上下文(wen)管理、工(gong)具集成以及執(zhi)行監(jian)控在內(nei)的核心(xin)技術。我(wo)們還分析了(le)現有用于評估(gu)代(dai)碼(ma)智能(neng)體(ti)性能(neng)的基準和評價方法(fa)。**
我們的研究揭示了若干關鍵挑戰,包括:在處理長上下文方面的局限性、任務間缺乏持久性記憶,以及與安全性、用戶意圖對齊和與人類開發者協作相關的擔憂。同時,我們討論了在提高智能體系統的可靠性、適應性和透明性方面的前沿機遇。通過綜合近期進展并勾勒未來方向,本綜述旨在為構建下一代智能、可信賴的 AI編程智能體 提供(gong)研究與開發的(de)基礎。
隨著大型語言模型(LLMs)的興起,軟件開發范式正在發生迅速變化 [73]。這些模型使人工智能(AI)系統不僅能夠生成代碼 [44],還能夠理解任務需求、與開發工具交互,并迭代地優化其輸出 [29, 43]。近期研究表明,軟件開發者如今已常規性地使用LLMs來輔助日常編碼任務 [30, 72, 73]。與傳統的代碼生成工具 [31] ——它們往往只針對單一提示返回靜態代碼片段——不同,新興的AI編程智能體被設計為能夠在動態的軟件環境中運行,通過執行迭代的、工具增強的任務來實現復雜目標。 這一轉變催生了一種新的編程范式,即 AI智能體式編程。在(zai)該范式中,基(ji)于(yu)LLM的(de)(de)(de)編(bian)程智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)可以(yi)自主地規(gui)劃、執(zhi)行(xing)并(bing)優(you)化軟(ruan)(ruan)件(jian)(jian)開(kai)發(fa)任(ren)務 [36, 42]。這(zhe)(zhe)(zhe)些智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)不僅僅是代碼(ma)補全(quan):它們(men)可以(yi)根據自然(ran)語言規(gui)范生(sheng)成(cheng)完整的(de)(de)(de)程序或模塊,利用(yong)編(bian)譯(yi)器或測(ce)(ce)(ce)試反饋診斷并(bing)修復錯誤,編(bian)寫(xie)并(bing)執(zhi)行(xing)測(ce)(ce)(ce)試用(yong)例,并(bing)對代碼(ma)進行(xing)重構以(yi)提(ti)升可讀性(xing)(xing)或性(xing)(xing)能(neng)(neng)(neng)(neng)。它們(men)還能(neng)(neng)(neng)(neng)夠(gou)調用(yong)并(bing)交互外部(bu)工(gong)(gong)具,如(ru)編(bian)譯(yi)器、調試器、性(xing)(xing)能(neng)(neng)(neng)(neng)分(fen)析器或版本控(kong)制(zhi)系(xi)(xi)統(tong)(tong),從而(er)支(zhi)持端到端的(de)(de)(de)軟(ruan)(ruan)件(jian)(jian)開(kai)發(fa)工(gong)(gong)作(zuo)(zuo)流。 這(zhe)(zhe)(zhe)種新(xin)興的(de)(de)(de)編(bian)程范式有潛力(li)(li)從根本上改變軟(ruan)(ruan)件(jian)(jian)的(de)(de)(de)構建與(yu)(yu)維護方式。例如(ru),一(yi)(yi)個(ge)AI智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)可以(yi)從功能(neng)(neng)(neng)(neng)的(de)(de)(de)自然(ran)語言描述(shu)出發(fa),逐步完成(cheng)代碼(ma)編(bian)寫(xie)、測(ce)(ce)(ce)試生(sheng)成(cheng)與(yu)(yu)運(yun)行(xing)、問題(ti)分(fen)析與(yu)(yu)修復,直至準(zhun)(zhun)備好一(yi)(yi)個(ge)pull request。一(yi)(yi)些最先(xian)進的(de)(de)(de)編(bian)程智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)已(yi)展示出在(zai)保持任(ren)務一(yi)(yi)致性(xing)(xing)、避免死鎖以(yi)及(ji)(ji)從失(shi)敗操作(zuo)(zuo)中恢復的(de)(de)(de)前提(ti)下,連續工(gong)(gong)作(zuo)(zuo)數小時的(de)(de)(de)能(neng)(neng)(neng)(neng)力(li)(li) [29, 42]。這(zhe)(zhe)(zhe)些系(xi)(xi)統(tong)(tong)能(neng)(neng)(neng)(neng)夠(gou)生(sheng)成(cheng)和測(ce)(ce)(ce)試代碼(ma),在(zai)不同(tong)框架之(zhi)間遷移軟(ruan)(ruan)件(jian)(jian),調試運(yun)行(xing)時錯誤,并(bing)通(tong)過將(jiang)復雜(za)目(mu)標分(fen)解為可管(guan)理的(de)(de)(de)子任(ren)務來集成(cheng)新(xin)特性(xing)(xing) [34, 35]。這(zhe)(zhe)(zhe)標志著從靜態(tai)的(de)(de)(de)一(yi)(yi)次性(xing)(xing)AI代碼(ma)生(sheng)成(cheng)向交互式、迭代式、工(gong)(gong)具增(zeng)強型(xing)工(gong)(gong)作(zuo)(zuo)流的(de)(de)(de)顯著轉(zhuan)變。 盡(jin)管(guan)進展迅速,AI智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)式編(bian)程仍處于(yu)早(zao)期階段。現有系(xi)(xi)統(tong)(tong)在(zai)架構、自主性(xing)(xing)、工(gong)(gong)具集成(cheng)以(yi)及(ji)(ji)推理能(neng)(neng)(neng)(neng)力(li)(li)方面存在(zai)差異。目(mu)前尚無統(tong)(tong)一(yi)(yi)的(de)(de)(de)分(fen)類體(ti)(ti)系(xi)(xi)、基(ji)準(zhun)(zhun)測(ce)(ce)(ce)試套件(jian)(jian)或評估方法。此外,仍有多項(xiang)關鍵(jian)挑戰亟待解決,包(bao)括提(ti)升可靠性(xing)(xing) [73]、減(jian)少錯誤或幻覺 [30]、處理跨平(ping)臺與(yu)(yu)跨語言的(de)(de)(de)任(ren)務 [81],以(yi)及(ji)(ji)確保這(zhe)(zhe)(zhe)些系(xi)(xi)統(tong)(tong)在(zai)實際使(shi)用(yong)中安全(quan)可信 [54]。
AI編程(cheng)智能體(ti)的(de)(de)(de)成(cheng)功在很大程(cheng)度上依賴于其與(yu)外部(bu)(bu)工(gong)具(ju)(ju)的(de)(de)(de)高效(xiao)交(jiao)互能力。然而,當(dang)今的(de)(de)(de)編程(cheng)語言、編譯器(qi)與(yu)調試器(qi)從根本上是面(mian)向人類(lei)的(de)(de)(de),它們并(bing)(bing)(bing)非(fei)為自動化(hua)、自主(zhu)系統(tong)而設計。這(zhe)些工(gong)具(ju)(ju)通常(chang)會抽(chou)象(xiang)掉(diao)內(nei)部(bu)(bu)狀態(tai)與(yu)決(jue)策(ce)過程(cheng),以提(ti)高可(ke)用性、保(bao)證可(ke)移(yi)植性并(bing)(bing)(bing)降(jiang)低人類(lei)用戶的(de)(de)(de)認(ren)知(zhi)負擔 [129, 130]。雖然這(zhe)種(zhong)(zhong)抽(chou)象(xiang)對(dui)人類(lei)開發者(zhe)有益,但可(ke)能并(bing)(bing)(bing)不(bu)適(shi)合AI智能體(ti)。后(hou)者(zhe)需要對(dui)內(nei)部(bu)(bu)狀態(tai)、轉(zhuan)換(huan)序列(lie)和驗證邏輯進行細粒度、結構化(hua)的(de)(de)(de)訪(fang)問(wen)(wen),以便推(tui)理(li)(li)其操(cao)作效(xiao)果 [33]。缺(que)乏這(zhe)種(zhong)(zhong)訪(fang)問(wen)(wen)能力,AI智能體(ti)在診斷(duan)失(shi)敗(bai)(bai)、理(li)(li)解修(xiu)改的(de)(de)(de)影響或以合理(li)(li)方式(shi)恢復錯誤(wu)(wu)時會面(mian)臨困難。例如,當(dang)代碼轉(zhuan)換(huan)導(dao)致構建失(shi)敗(bai)(bai)時,智能體(ti)需要的(de)(de)(de)不(bu)僅(jin)僅(jin)是錯誤(wu)(wu)消息——它必須能夠追溯(su)失(shi)敗(bai)(bai)的(de)(de)(de)具(ju)(ju)體(ti)中間步驟,并(bing)(bing)(bing)理(li)(li)解為何修(xiu)改會引(yin)發該問(wen)(wen)題。現有開發環境并(bing)(bing)(bing)未提(ti)供支持這(zhe)種(zhong)(zhong)迭代式(shi)、工(gong)具(ju)(ju)集成(cheng)推(tui)理(li)(li)的(de)(de)(de)接口與(yu)反(fan)饋(kui)機制(zhi)。
同樣地,智能體編程系統極大地受益于支持迭代開發、狀態追蹤和豐富反饋傳播的工具鏈——而大多數傳統工具并未暴露這些能力。為了高效運行,AI智能體可能需要訪問編譯器的內部表示、轉換軌跡、符號信息以及執行元數據。這引出了一個根本性問題:在AI智能體式編程的時代,我們現有的編程語言和軟件開發工具是否仍然適用?抑或是時候重新思考編程語言、編譯器和調試器的設計,以將AI智能體視為開發過程中的一等參與者?
這些挑戰表明,AI智能(neng)體(ti)式編(bian)(bian)程并(bing)不僅僅是(shi)現有工具的(de)(de)一(yi)種新用(yong)(yong)法(fa),而是(shi)一(yi)種變革(ge),它暴(bao)露出當今軟件系(xi)統設計中的(de)(de)重(zhong)要(yao)缺口。隨著(zhu)該(gai)領(ling)域的(de)(de)快速發(fa)展,亟需澄清其概(gai)念(nian)圖(tu)景、識別共性(xing)模(mo)式與(yu)系(xi)統架(jia)構,并(bing)評估當前(qian)開發(fa)生態的(de)(de)適用(yong)(yong)性(xing)。此(ci)時正是(shi)回(hui)顧最(zui)新進(jin)展、總結(jie)經驗并(bing)提出研(yan)究者與(yu)開發(fa)者需要(yao)解決的(de)(de)關(guan)鍵問題的(de)(de)最(zui)佳時機。 因(yin)此(ci),本綜述旨在對(dui)AI智能(neng)體(ti)式編(bian)(bian)程這一(yi)新興(xing)領(ling)域進(jin)行全面(mian)回(hui)顧。具體(ti)而言(yan),涵(han)蓋以下(xia)幾個方(fang)面(mian): * AI編(bian)(bian)程智能(neng)體(ti)的(de)(de)概(gai)念(nian)基礎與(yu)分類體(ti)系(xi); * 核心系(xi)統架(jia)構與(yu)底層技術(shu)的(de)(de)綜述; * 當前(qian)應用(yong)(yong)與(yu)實(shi)際(ji)使用(yong)(yong)案例的(de)(de)總結(jie); * 評估策略與(yu)基準測試方(fang)法(fa)的(de)(de)分析; * 關(guan)鍵挑戰與(yu)當前(qian)局限性(xing)的(de)(de)討論; * 未來研(yan)究方(fang)向的(de)(de)探索,包(bao)括(kuo)跨編(bian)(bian)程語言(yan)、軟件工程、人工智能(neng)與(yu)人機交互等學科(ke)視角的(de)(de)交叉融合。
我們主要聚焦于由LLM驅動的軟(ruan)件(jian)開發(fa)智(zhi)(zhi)能(neng)體系統,但其中許多見解同(tong)樣(yang)適用于一般的任務型智(zhi)(zhi)能(neng)體。我們的目標是(shi)描繪當前研(yan)究版圖,澄清基(ji)礎(chu)概念,并支(zhi)持設計出穩健、高效且值得信賴的AI編程智(zhi)(zhi)能(neng)體。
人工智能(AI)作為成功(gong)范式已廣泛應用(yong)于多(duo)領域,但在偏遠地(di)區(qu)部署或弱連(lian)通場(chang)景下實施時,常(chang)需在數(shu)據采集源頭就近完成推(tui)理計(ji)算(suan)。本研究致力于探索AI模型優(you)化路徑,推(tui)動智能算(suan)法向邊緣端部署。聚焦農業(ye)等領域的(de)便攜式設(she)備應用(yong)場(chang)景(如氣培容器、無人機、移動機器人),核心目標(biao)是通過開發(fa)定(ding)制化模型并(bing)實現"模型尺寸(cun)壓縮"與"推(tui)理時延優(you)化"。為此系統探索了多(duo)維度(du)優(you)化方(fang)案:包括樣(yang)本數(shu)據"相關特征"提取技術、網絡剪枝及量化壓縮等方(fang)法。本論(lun)文提出涵蓋開發(fa)-實現-優(you)化的(de)全棧式框架,重點(dian)解(jie)決邊緣設(she)備部署所需的(de)輕量化與高效能需求(qiu)。
研究目(mu)標通過三(san)重(zhong)遞進步驟實(shi)現:驗(yan)證(zheng)至少存(cun)在(zai)(zai)一(yi)種AI模(mo)型可為目(mu)標應用提供有效預測(ce);探(tan)索(suo)并實(shi)施模(mo)型優化(hua)方法;最終在(zai)(zai)資源受限(xian)硬件平(ping)臺完(wan)成(cheng)部(bu)署(shu)。核(he)心創(chuang)新點在(zai)(zai)于(yu)建立定制模(mo)型通用優化(hua)流程,并首創(chuang)基于(yu)"模(mo)型可解釋性"的特征選擇框架——該方案在(zai)(zai)農業科技(ji)領域尚屬首次系(xi)統性實(shi)踐。優化(hua)體(ti)系(xi)以特征選擇為主體(ti),輔(fu)以剪枝與(yu)量(liang)化(hua)技(ji)術形成(cheng)完(wan)整(zheng)閉環。通過在(zai)(zai)準邊緣(yuan)設備部(bu)署(shu)驗(yan)證(zheng),實(shi)證(zheng)了本方案的工程可行性。
盡管本(ben)(ben)文構建了從(cong)模型設計到邊緣(yuan)部署的(de)完整研究鏈(lian),仍需指出若(ruo)干可(ke)深化方向(xiang):AI領域(yu)與邊緣(yuan)計算技(ji)術持(chi)續(xu)迭代(dai),硬件加速架構及軟件工具鏈(lian)的(de)革新為后續(xu)研究開辟(pi)廣闊空(kong)間。本(ben)(ben)工作(zuo)旨在填(tian)補現(xian)有(you)研究空(kong)白并提(ti)供方法論參考,寄望所提(ti)思(si)想能為未來邊緣(yuan)智能技(ji)術發(fa)展提(ti)供有(you)效(xiao)范式支撐。
自文明(ming)誕生以(yi)來,人(ren)類一直在(zai)努力(li)理解智(zhi)能(neng)的本質。 隨著(zhu)計(ji)算(suan)(suan)(suan)機的出現,人(ren)們開始(shi)嘗試用(yong)計(ji)算(suan)(suan)(suan)機算(suan)(suan)(suan)法來模(mo)擬人(ren)類智(zhi)能(neng)——這一領(ling)域由計(ji)算(suan)(suan)(suan)機科學家約翰·麥卡(ka)錫(John McCarthy)在(zai) 1956 年(nian)命(ming)名為“人(ren)工(gong)智(zhi)能(neng)”(Artificial Intelligence,AI),并(bing)在(zai)近年(nian)來迎(ying)來了(le)爆(bao)發(fa)式的發(fa)展。 人(ren)工(gong)智(zhi)能(neng)研究的許多(duo)努力(li)集中(zhong)在(zai)對人(ren)類認知標志(zhi)性能(neng)力(li)的研究與(yu)復現,例(li)如(ru)下智(zhi)能(neng)棋(qi)類游戲(xi)、語言能(neng)力(li)、視覺感(gan)知以(yi)及創造力(li)。在(zai)撰寫本文時,我們已(yi)經在(zai)上述(shu)領(ling)域取得(de)了(le)多(duo)項成(cheng)(cheng)功嘗試——如(ru)今,計(ji)算(suan)(suan)(suan)機在(zai)國際象棋(qi)與(yu)圍棋(qi)上可以(yi)擊敗任何人(ren)類棋(qi)手,可以(yi)在(zai)不借助詞典的情(qing)況(kuang)下將英語翻(fan)譯(yi)成(cheng)(cheng)中(zhong)文,可以(yi)在(zai)擁擠(ji)城(cheng)市中(zhong)實(shi)現自動駕駛,還能(neng)生成(cheng)(cheng)在(zai)藝術比賽中(zhong)獲獎的詩(shi)歌與(yu)繪畫作品(pin)。
然而,公平地說,我們依然未能完全理解何謂類人智能或“通用”智能,以及如何復現它。 上述大多數人工智能的典型案例,都是由深度學習(Deep Learning)驅動的。 深度學習是一類算法,其歷史可追溯到 20 世紀早期——當時人們嘗試以一種高度抽象的方式,將生物大腦中神經元的連接與工作機制在計算機中加以復現。這樣的系統被稱為(人工)神經網絡(neural networks),這是類比于生物神經網絡的命名。它由稱為“神經元”(neurons)的計算單元組成,這些單元通常按層次結構組織成多層(深度學習中的“深”即指擁有許多層的神經網絡)。 神經元包含可調節的參數,可以通過一種稱為學習(learning)的優化過程來針對特定任務進行調整。人工智能的一個分支領域——機器學習(Machine Learning, ML),則專注于研究用于設計和優化此類系統的數學方法。 深度學習(Deep Learning)是一個總稱,指依賴人工神經網絡的機器學習算法,而這些神經網絡通常由大量層結構組成。 近年來,各類人工神經網絡架構迅速涌現,它們分別提出了不同的連接模式以及學習系統所需執行的內部計算方式。 幾何深度學習(Geometric Deep Learning)是深度學習的一個分支領域 [5, 6],專注于為具有非歐幾里得結構(如圖、流形)的數據開發人工神經網絡。傳統的深度學習模型通常處理類網格(grid-like)結構的數據(如圖像、時間序列、文本),但許多現實世界問題涉及更復雜、不規則的幾何結構。 該領域尤其關注從幾何先驗(geometric priors)角度分析神經網絡。不同模型通過在具有對稱群(symmetry groups)結構的域上對信號建模,引入歸納偏置(inductive bias),以此對抗維度災難(curse of dimensionality)。幾何深度學習為將物理對稱性等先驗知識融入新型神經網絡架構的設計提供了一種結構化方法,同時還能在統一框架下歸納與理解現有的成功模型。
摘要:
人工智能(AI)正在重塑科學發現,其角色正從專門的計算工具演化為自主的科研伙伴。我們將**智能體科學(Agentic Science)**定位為“AI for Science”范式中的關鍵階段,在這一階段,AI 系統從部分輔助走向全面的科學自主性。借助大語言模型(LLMs)、多模態系統以及一體化研究平臺,智能體化 AI 展現出在假設生成、實驗設計、執行、分析與迭代改進等方面的能力——這些行為曾被認為是人類獨有的。本綜述從生命科學、化學、材料和物理等領域出發,對自主科學發現進行了面向學科的系統性回顧,綜合各學科的研究進展與突破。我們通過一個綜合框架統一了此前分散的三類視角——過程導向、自主性導向和機制導向——并將其與基礎能力、核心過程及領域特定實現聯系起來。在該框架的基礎上,我們:(i) 追溯 AI for Science 的演進,(ii) 識別支撐科學自主性的五大核心能力,(iii) 將科學發現建模為動態的四階段工作流,(iv) 回顧其在生命科學、化學、材料科學和物理學中的應用,(v) 綜合關鍵挑戰與未來機遇。本研究確立了一個面向學科的自主科學發現綜合視角,并將智能體科學定位為推動 AI 驅動科研進步的結構化范式。 關鍵詞: 智(zhi)能體(ti)科學(xue)(xue),自(zi)主科學(xue)(xue)發現,自(zi)然(ran)科學(xue)(xue),AI for Science,智(zhi)能體(ti)化 AI,大語言模型(xing)
科學發現正經歷著一場由人工智能(AI)快速演進所驅動的變革性轉變,AI 的角色正在從專門化的工具轉向科研合作者。這一進展標志著“AI for Science”范式中的關鍵階段,即 AI 系統已從充當面向特定任務的計算“神諭”【121, 306, 339, 42, 87, 281, 351】逐步走向智能體科學(Agentic Science)的興起(見圖 1)【229, 220, 81, 274, 157】。智能體科學指的是“AI for Science”演化中的特定階段——主要對應圖 1 中的第 3 級(完全智能體化發現),其前身是第 2 級(部分智能體化發現)。在這一階段,AI 作為自主科學智能體,能夠獨立提出假設、設計并執行實驗、解釋結果,并以更少的人類依賴性迭代完善理論【229, 22】。這種進展得益于諸如 Intern-Discovery 這樣的綜合平臺(其提供了對多樣化 AI 智能體和數據集的訪問),以及 Intern-S1 等展現出深度科學推理能力的多模態模型。 這一轉變受到基礎模型(尤其是大語言模型,LLMs)【82, 256, 351】的最新突破所推動。LLMs 在自然語言理解、復雜推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,從而催生出能夠超越靜態學習流程的 AI 智能體。這類智能體不再僅是被動的模型,而是作為動態的、目標驅動的實體,能夠自主探索科學方法【311, 89, 178, 358】。從假設生成【307, 209】,到自主實驗【22, 317】,再到合成數據集的構建【150】,這些智能體展現出曾被認為僅屬于人類的涌現行為。 與現有綜述的比較。 盡管該領域發展迅速,但關于如何理解與設計日益自主化的科學系統,目前仍缺乏統一的框架。現有綜述大體可分為三類互補視角。過程導向的綜述試圖將 LLM 的能力映射到經典的 與現有綜述的比較。 盡管研究進展迅速,但關于如何理解和設計日益自主的科學系統,仍缺乏統一框架。現有綜述可沿三條互補軸線加以歸類:過程導向的視角將 LLM 的能力映射到經典研究循環【172, 352, 39】;自主性導向的研究依據系統的主動性與責任劃分等級【346, 293】;機制導向的分析則剖析支撐智能體行為的架構基元及其演化角色【220, 331, 81, 274】。盡管這些工作奠定了重要基礎,但仍然碎片化——往往將工作流程、自主性分級或體系結構彼此割裂開來單獨考察。 我們的貢獻。 有別于既有綜述分別從過程、自主性或架構單點切入,本文通過圖 2 所示的綜合框架對上述視角進行統一與拓展,將自主科學發現中的基礎能力—核心過程—領域實現貫通起來。我們圍繞生命科學、化學、材料與物理四大領域,給出面向學科的自主科學發現綜述,系統綜合各學科的研究進展與代表性成果。該統一視角將智能體科學從一個抽象階段提升為貫穿“能力—過程—應用”的結構化研究范式。我們的具體貢獻如下: 1. 繪制 AI for Science 的演進圖譜。 我們追溯了從“計算神諭”到“自主科研伙伴”的演進,形式化地將智能體科學界定為 AI 系統展現自主性、目標驅動推理與迭代學習的階段。 1. 科學智能體的“機理解剖”:五大核心能力。 我們識別并分析科學智能體所需的五項基礎能力:(i) 推理與規劃,(ii) 工具整合,(iii) 記憶機制,(iv) 多智能體協作,以及 (v) 優化與進化。針對每一項能力,我們回顧最前沿的實現(如【169, 25, 189, 32】)與領域特定挑戰。 1. 智能體科學的動態工作流:四個核心階段。 我們將科學發現建模為由智能體驅動的動態四階段工作流:(i) 觀察與假設生成,(ii) 實驗規劃與執行,(iii) 數據與結果分析,(iv) 綜合、驗證與進化。我們強調,智能體可以靈活、動態地組合這些階段以解決復雜科學問題【12, 22, 74, 73】。 1. 跨自然科學的系統綜述。 我們在自然科學四大領域(見圖 4:生命科學、化學、材料、物理)系統回顧智能體系統,覆蓋十余個細分方向,從藥物發現【317】到材料設計【113】,展示了智能體科學的廣泛適用性與領域特定創新。 1. 挑戰與未來機遇。 我們綜合該領域面臨的主要技術、倫理與哲學挑戰——包括可復現性、新發現的驗證與人—智能體協作——并提出研究路線圖,以引導穩健、可信且具影響力的科學智能體的未來發展。
通過上述綜合,我們旨在為智能體科學奠定概念與方法論基礎,引導后續研究走向能夠與人類探究共進化的 AI 系統設計,從而加速科學發現前沿的推進。
未來戰爭將以數據、算法和算力為核心競爭要素,只有實現全面AI賦能的人機融合部隊,才能在未來沖突中掌握主動權。JADO強調多軍種深度聯合作戰,實現陸、海、空、天、網、電等全域的跨域融合;JADC2作為JADO概念走向實踐的核心要素之一,在預算投入上,2024財年美國為JADC2專門申請約14億美元研發經費。 未來戰場無人化勢在必行,無人化作戰主要可分為偵察、襲擾、定點打擊、飽和攻擊和支援增效,現代戰爭已經邁入以無人機、地面機器人為代表作戰核心的時代。全球軍用無人機市場正處于高速增長階段,根據FORTUNE Business Inights預測,預計到2032年,市場規模將超過500億美元,2024-2032年均復合增長率達到13.15%,這一增長得益于AI賦能無人機技術的飛速發展,自主作戰能力顯著提升成為核心驅動力。 AI與無人技術的深度結合正在引領現代戰爭的變革,不僅在俄烏沖突中展現了較大潛力,也得益于全球多家AI軍工領先 企業的共同推動。以Palantir、Anduril Industry、Scale AI、Shield AI為代表的軍工國防科創企業,正通過各自的創新產 品和技術為無人機領域注入新的活力;其中Palantir和Anduril正在與SpaceX、OpenAI、Saronic以及Scale AI等核心競 爭對手進行密切洽談,計劃2025年組建面向傳統軍火商的創新商業聯合體(LMT、波音和雷神等),以爭奪美國高達8500億美元年度國防預算中的更大份額。 以NVIDIA、高通、AMD等領先廠商為代表的軍用邊緣AI主控芯片供應商,憑借軍規級可靠性與豐富的傳感器接口,正加速驅動無人裝備等平臺的前沿智能化與自主化升級。我們認為,國產邊緣AI主控芯片以瑞芯微等為代表的企業正加速切入軍用無人平臺的邊緣算力市場,具備潛力市場空間。
創造如《鋼鐵俠》中虛構角色 J.A.R.V.I.S 般強大且多才多藝的 AI 助理,一直以來都是人們夢寐以求的目標。隨著(多模態)大語言模型((M)LLMs)的發展,這一夢想正逐步照進現實。基于 (M)LLM 的智能體通過在操作系統(OS)所提供的環境與界面(如圖形用戶界面 GUI)中運行,從而在計算設備(例如計算機和移動電話)上自動執行任務,其能力已取得顯著進展。本文對這一類先進的智能體進行了全面綜述,我們稱之為 操作系統智能體(OS Agents)。 我們首先闡述了 OS 智能體的基本概念,探討其關鍵組成部分,包括環境、觀測空間與動作空間,并梳理了其所需的核心能力,如理解、規劃與基礎對齊(grounding)。隨后,我們分析了構建 OS 智能體的方法,重點介紹了面向特定領域的基礎模型與智能體框架。此外,我們系統回顧了現有的評估協議與基準,展示了 OS 智能體在多種任務中的評估方式。 最后,我們討論了當前面臨的挑戰,并指出未來值得探索的研究方向,包括安全性與隱私、個性化以及自我演化等。本綜述旨在整合 OS 智能體研究的現狀,為學術研究與產業發展提供參考與啟發。我們還維護了一個開源的 GitHub 倉庫,作為促進該領域持續創新的動態資源。本研究的一篇 9 頁精簡版本已被 ACL 2025 接收,以便為該領域提供簡明的入門概覽。
構建一個類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助理——能夠協助托尼·斯塔克控制各種系統并自動化任務——一直是人類的長期愿景。這類實體被稱為操作系統智能體(Operating System Agents,簡稱 OS Agents),因為它們在操作系統(OS)提供的環境和界面(如圖形用戶界面 GUI)中運行,從而利用計算設備(例如計算機和移動電話)完成各種任務。OS 智能體能夠自主完成任務,具有顯著提升全球數十億用戶生活質量的潛力。想象這樣一個世界:在線購物、旅行安排預訂等日常事務都能由這些智能體無縫處理,從而大幅提升效率與生產力。 過去,Siri【Inc., 2024】、Cortana【Research, 2024】、Amazon Alexa【Google, 2024】和 Google Assistant【Amazon, 2024】等虛擬助手已初步展示了這種潛力,但由于模型能力(如上下文理解【Tulshan and Dhage, 2019】)的限制,這些產品未能實現廣泛應用和全面功能。 幸運的是,近年來多模態大語言模型((M)LLMs)如 Gemini【Google】、GPT【OpenAI】、Grok【xAI】、Yi【01.AI】和 Claude【Anthropic】系列的進展,開啟了 OS 智能體發展的新紀元。這些模型展現出卓越的能力,使得 OS 智能體能夠更好地理解復雜任務并執行計算設備操作。一些代表性案例包括 Anthropic 推出的 Computer Use【Anthropic, 2024a】、蘋果的 Apple Intelligence【Apple, 2024】、智譜 AI 的 AutoGLM【Liu et al., 2024a】和 Google DeepMind 的 Project Mariner【DeepMind, 2024】。 例如,Computer Use 利用 Claude【Anthropic, 2024b】直接與用戶的計算機交互,旨在實現無縫任務自動化。同時,研究界也提出了多種構建基于 (M)LLM 的 OS 智能體的方案【Gur et al., 2023; You et al., 2025; Gou et al., 2024; Meng et al., 2024; Chen et al., 2024a; Wu et al., 2024a; Zhang et al., 2023a; Yan et al., 2023; Ma et al., 2023; Zhang et al., 2024a; He et al., 2024a; Wang and Liu, 2024】。例如,Wu 等人【2024a】提出的 OS-Atlas 是一個基礎 GUI 動作模型,它通過跨平臺合成 GUI 對齊數據,顯著提升了 GUI 基礎對齊能力與分布外任務表現;OS-Copilot【Wu et al., 2024b】則是一個智能體框架,旨在開發通用型智能體以自動化各種計算機任務,在多種應用場景中展現出強大的泛化能力和自我提升能力,即便在弱監督下亦表現出色。 鑒于該領域的迅速發展和日益豐富的研究成果,有必要進行一次全面綜述,以整合當前研究現狀。 在本綜述中,我們首先在第 §2 節討論 OS 智能體的基本概念,定義何謂 OS 智能體,并如圖 2 所示,重點介紹三個核心組成部分:環境、觀測空間與動作空間(§2.1)。隨后,我們總結 OS 智能體應具備的關鍵能力,包括理解、規劃與基礎對齊(§2.2)。 接下來,在第 §3 節中我們深入探討構建 OS 智能體的兩個關鍵方面:(1)面向特定領域的基礎模型開發,涵蓋架構設計、預訓練、監督微調與強化學習等內容(§3.1);(2)圍繞這些模型構建高效的智能體框架,涵蓋感知、規劃、記憶與動作等核心模塊(§3.2)。 在第 §4 節中,我們回顧了 OS 智能體常用的評估協議(§4.1)與基準數據集(§4.2),以了解其在多樣任務中的性能表現。最后在第 §5 節,我們探討 OS 智能體當前所面臨的挑戰與未來研究方向,特別關注安全與隱私問題(§5.1)、個性化與自我演化能力(§5.2)。 本綜述旨在推動 OS 智能體的研究與開發,通過深入剖析其關鍵能力、構建方法與評估方式,幫助讀者全面理解該領域的最新趨勢、技術挑戰與未來發展。我們也認識到,OS 智能體仍處于早期階段,新的方法與應用正在迅速涌現。為支持該領域的持續進展,我們維護了一個開源的 GitHub 倉庫,作為動態資源。我們希望本研究能夠激發更多創新,推動 OS 智能體在學術研究與工業應用中的發展。 //arxiv.org/abs/2508.04482
并非所(suo)有人工智能(neng)(neng)(AI)都生而(er)平等。雖然基礎的(de)(de)(de)(de)大(da)型(xing)語言模(mo)型(xing)能(neng)(neng)夠處理和生成文本,但(dan)像OpenAI的(de)(de)(de)(de)GPT-4.5、Anthropic的(de)(de)(de)(de)Claude 4 Sonnet、Google的(de)(de)(de)(de)Gemini 2.5 Pro、Meta的(de)(de)(de)(de)LLaMA 4以及X的(de)(de)(de)(de)Grok 4這樣的(de)(de)(de)(de)“前沿模(mo)型(xing)”(frontier models)則要強(qiang)(qiang)大(da)得多(duo)。處于該領域最(zui)前沿的(de)(de)(de)(de)這類(lei)能(neng)(neng)力更(geng)強(qiang)(qiang)的(de)(de)(de)(de)模(mo)型(xing),相比(bi)其更(geng)老舊、更(geng)小且更(geng)不先進(jin)的(de)(de)(de)(de)同(tong)類(lei)產品,擁有更(geng)深厚的(de)(de)(de)(de)知識庫、更(geng)強(qiang)(qiang)的(de)(de)(de)(de)上(shang)下文理解能(neng)(neng)力以及增(zeng)強(qiang)(qiang)的(de)(de)(de)(de)推(tui)理能(neng)(neng)力。在軍(jun)隊探索人工智能(neng)(neng)之際,選擇能(neng)(neng)夠駕馭現代(dai)戰爭無(wu)定形且不斷變化本質的(de)(de)(de)(de)強(qiang)(qiang)大(da)模(mo)型(xing)至關重(zhong)要。在人工智能(neng)(neng)將在重(zhong)大(da)決策中發(fa)揮重(zhong)要作用(yong)(yong)的(de)(de)(de)(de)軍(jun)事應用(yong)(yong)中,前沿模(mo)型(xing)所(suo)具備(bei)的(de)(de)(de)(de)復雜程度并非奢侈品,而(er)是必需品。
前(qian)沿模型是利用海量數據訓練出來的強大(da)系統。然(ran)而,何為“前(qian)沿”會隨(sui)時(shi)間變化——而且變化極快。
衡量模型(xing)能(neng)力的(de)(de)(de)(de)(de)(de)(de)(de)(de)一(yi)個關鍵指標(biao)是(shi)其“參數(shu)(shu)”(parameters)數(shu)(shu)量——可(ke)將其視為(wei)模型(xing)從數(shu)(shu)據(ju)中學習(xi)時調整的(de)(de)(de)(de)(de)(de)(de)(de)(de)內部設置。參數(shu)(shu)越多(duo)通常(chang)意味(wei)著(zhu)模型(xing)能(neng)學習(xi)更(geng)細(xi)微的(de)(de)(de)(de)(de)(de)(de)(de)(de)模式。例如,擁(yong)有1750億(yi)參數(shu)(shu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)GPT-3.5在2022年(nian)底(di)被認為(wei)是(shi)先(xian)進的(de)(de)(de)(de)(de)(de)(de)(de)(de)。但僅(jin)僅(jin)幾(ji)個月后(hou),OpenAI發(fa)(fa)布了(le)GPT-4,“前(qian)沿(yan)”的(de)(de)(de)(de)(de)(de)(de)(de)(de)門檻也隨之改(gai)變。于2023年(nian)初發(fa)(fa)布的(de)(de)(de)(de)(de)(de)(de)(de)(de)GPT-4擁(yong)有超過一(yi)萬(wan)億(yi)參數(shu)(shu),構建所需的(de)(de)(de)(de)(de)(de)(de)(de)(de)計算資源是(shi)其前(qian)代的(de)(de)(de)(de)(de)(de)(de)(de)(de)十(shi)四倍多(duo)。GPT-4還展現出許多(duo)不尋常(chang)的(de)(de)(de)(de)(de)(de)(de)(de)(de)特性,即(ji)微軟所稱的(de)(de)(de)(de)(de)(de)(de)(de)(de)“涌現行為(wei)”(emergent behaviors)。據(ju)報道(dao),最(zui)近發(fa)(fa)布的(de)(de)(de)(de)(de)(de)(de)(de)(de)Grok 4擁(yong)有超過1.7萬(wan)億(yi)參數(shu)(shu),這是(shi)驚人(ren)的(de)(de)(de)(de)(de)(de)(de)(de)(de)。與它(ta)們更(geng)小、專注于特定任務的(de)(de)(de)(de)(de)(de)(de)(de)(de)前(qian)期(qi)模型(xing)不同,當(dang)今龐大的(de)(de)(de)(de)(de)(de)(de)(de)(de)前(qian)沿(yan)模型(xing)展現出遠(yuan)為(wei)強(qiang)大的(de)(de)(de)(de)(de)(de)(de)(de)(de)推理(li)、處(chu)理(li)復雜(za)性和(he)理(li)解上下文的(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)力。
更大的(de)(de)(de)模(mo)(mo)型(xing)更擅長思考,尤其(qi)(qi)是在(zai)(zai)(zai)任(ren)務(wu)需要(yao)(yao)多(duo)個邏(luo)(luo)輯(ji)步(bu)驟時(shi),例如(ru)(ru)起草完整(zheng)文件或(huo)進行技術分析。它們綜合海量數據集(ji)的(de)(de)(de)能(neng)力使其(qi)(qi)能(neng)夠進行邏(luo)(luo)輯(ji)推理(li)(li)(li)(li)、連接(jie)(jie)不(bu)同想(xiang)法,并在(zai)(zai)(zai)長篇論述中(zhong)保持連貫(guan)性。這在(zai)(zai)(zai)網絡(luo)安全和情報(bao)等領域至(zhi)關(guan)重(zhong)要(yao)(yao),因為好的(de)(de)(de)決策依賴于審視多(duo)種因素、發現(xian)隱藏模(mo)(mo)式并理(li)(li)(li)(li)解敵方行動。更大的(de)(de)(de)模(mo)(mo)型(xing)似乎也(ye)有助(zhu)于減(jian)少常(chang)見問題(ti)(ti),如(ru)(ru)編造(zao)信息(通常(chang)稱為“幻覺”,hallucinations)或(huo)表(biao)現(xian)出不(bu)公平傾向(“偏見”,biases)。另一方面(mian),較小的(de)(de)(de)模(mo)(mo)型(xing)在(zai)(zai)(zai)這些領域往往表(biao)現(xian)不(bu)佳。它們難以(yi)管理(li)(li)(li)(li)相互關(guan)聯的(de)(de)(de)信息片段,或(huo)在(zai)(zai)(zai)復雜(za)問題(ti)(ti)中(zhong)理(li)(li)(li)(li)清(qing)相互沖突的(de)(de)(de)細(xi)節。這可能(neng)導致思維脫節、答(da)案過于簡(jian)單,以(yi)及(ji)無法處理(li)(li)(li)(li)諸如(ru)(ru)分析多(duo)樣化威脅(xie)或(huo)理(li)(li)(li)(li)解復雜(za)作(zuo)(zuo)戰態勢等復雜(za)任(ren)務(wu)。當(dang)準確性和全面(mian)性至(zhi)關(guan)重(zhong)要(yao)(yao)時(shi),模(mo)(mo)型(xing)的(de)(de)(de)尺寸(cun)直(zhi)接(jie)(jie)影響(xiang)其(qi)(qi)分析信息和支(zhi)援作(zuo)(zuo)戰的(de)(de)(de)能(neng)力。
另(ling)一(yi)(yi)個(ge)關鍵區別在于(yu)(yu),更(geng)大的(de)模(mo)(mo)型(xing)(xing)能(neng)夠記住(zhu)并利用長文檔或討論(lun)中的(de)信息(xi)。這(zhe)在軍事應(ying)用中尤為重(zhong)(zhong)(zhong)要(yao),因(yin)為準確性和(he)(he)一(yi)(yi)致(zhi)性至關重(zhong)(zhong)(zhong)要(yao)。無論(lun)是處(chu)理情報報告、起草戰略指導,還是在網(wang)絡(luo)行(xing)動中綜合(he)大量(liang)日志,前沿模(mo)(mo)型(xing)(xing)都能(neng)保持(chi)一(yi)(yi)定程(cheng)度的(de)連貫(guan)性,從(cong)而減(jian)少不一(yi)(yi)致(zhi)性并減(jian)輕人類分析員的(de)認知(zhi)負擔。適應(ying)新(xin)情況對小模(mo)(mo)型(xing)(xing)來(lai)說也(ye)是一(yi)(yi)項挑戰;它們未經過足夠多樣(yang)化數據的(de)訓練,無法處(chu)理前所未見的(de)事物(wu)。前沿模(mo)(mo)型(xing)(xing)在龐大數據集上(shang)訓練而成,并能(neng)同(tong)時考慮大量(liang)信息(xi),因(yin)此(ci)更(geng)擅長處(chu)理通(tong)用任務,并能(neng)將舊(jiu)知(zhi)識應(ying)用于(yu)(yu)新(xin)問題而無需(xu)(xu)重(zhong)(zhong)(zhong)新(xin)訓練。較小的(de)架構需(xu)(xu)要(yao)大量(liang)微調才能(neng)達到類似性能(neng)水平,但隨后僅能(neng)在狹窄(zhai)領域取(qu)得成功,使其在需(xu)(xu)要(yao)靈活(huo)性和(he)(he)快速適應(ying)的(de)動態(tai)作戰環境中顯得脆弱。
誠然,小模(mo)型(xing)已展(zhan)現出(chu)相比其前代的顯著改(gai)進(jin),甚(shen)至在某些狹窄(zhai)指標(biao)上接近GPT-4等模(mo)型(xing)的能力。但GPT-4早已不再(zai)是最(zui)先(xian)進(jin)的前沿模(mo)型(xing)。這種比較并不具備(bei)許多人(ren)認(ren)為的分量。與(yu)此同時,現代前沿模(mo)型(xing)已變(bian)得如此強大,以(yi)至于讓它們的前輩(bei)看(kan)起來像玩具。
高(gao)級(ji)領(ling)導者處(chu)理復雜、模(mo)(mo)糊不(bu)清(qing)的(de)局面和過(guo)載的(de)信息。前沿模(mo)(mo)型(xing)可以(yi)成為決策的(de)有(you)力助(zhu)手,快速準確(que)地匯總海(hai)量數(shu)據并解釋(shi)要點。當參謀(mou)工作(zuo)需遵(zun)循特定政策、法(fa)律規則和作(zuo)戰目(mu)標時,這些適應性強的(de)模(mo)(mo)型(xing)可提供(gong)清(qing)晰的(de)評估(gu),確(que)保(bao)建議合乎邏輯且一(yi)致。與(yu)難以(yi)在變化環境中平(ping)衡多種因素的(de)小模(mo)(mo)型(xing)不(bu)同(tong),更大的(de)系統(tong)能(neng)(neng)結(jie)合過(guo)往案例、軍(jun)事條令和當前信息,提出切(qie)實可行的(de)行動方案。這能(neng)(neng)加(jia)速決策過(guo)程。高(gao)級(ji)領(ling)導者將獲得條理清(qing)晰的(de)分析,解釋(shi)風險、收益(yi)以(yi)及選擇可能(neng)(neng)對任務(wu)產生的(de)影響——一(yi)個(ge)單(dan)一(yi)的(de)AI系統(tong)有(you)可能(neng)(neng)完成當前需要多個(ge)龐大參謀(mou)團隊才能(neng)(neng)完成的(de)任務(wu)。在速度(du)與(yu)準確(que)性同(tong)等重要的(de)時代,利用先進AI輔助(zhu)決策不(bu)僅有(you)益(yi),而(er)且必(bi)不(bu)可少。
執行初(chu)(chu)步(bu)分析(xi)(xi)并(bing)加(jia)速(su)(su)調查。在(zai)當今(jin)的(de)網(wang)絡(luo)(luo)安全工(gong)(gong)作(zuo)中(zhong),數據(ju)(ju)的(de)海量和高(gao)速(su)(su)使(shi)得快速(su)(su)區分真實(shi)威脅(xie)與正常(chang)網(wang)絡(luo)(luo)活(huo)動(dong)變得困(kun)難。前沿模(mo)型(xing)通過自動(dong)化初(chu)(chu)步(bu)審(shen)視這(zhe)些(xie)(xie)數據(ju)(ju)可發揮關鍵(jian)作(zuo)用(yong):梳理安全日志、關聯來(lai)自不同系統的(de)相關告警、并(bing)在(zai)人(ren)類分析(xi)(xi)員介入前過濾掉(diao)不重要(yao)信(xin)息。這(zhe)將使(shi)分析(xi)(xi)員從常(chang)規工(gong)(gong)作(zuo)中(zhong)解脫(tuo)出來(lai),使(shi)其能專(zhuan)注于明確的(de)網(wang)絡(luo)(luo)攻擊跡象。除(chu)了這(zhe)種初(chu)(chu)步(bu)分類,這(zhe)些(xie)(xie)模(mo)型(xing)還能通過幫助創建高(gao)級(ji)數據(ju)(ju)檢查方法(fa)、發現異常(chang)活(huo)動(dong)以及提供通常(chang)需(xu)要(yao)數小時人(ren)工(gong)(gong)工(gong)(gong)作(zuo)的(de)背景信(xin)息來(lai)加(jia)速(su)(su)調查。較小的(de)模(mo)型(xing)難以進行多步(bu)驟(zou)思(si)考并(bing)比較來(lai)自不同(尤其是(shi)大型(xing))數據(ju)(ju)集的(de)信(xin)息。然而,前沿模(mo)型(xing)足夠(gou)強大,能夠(gou)處理這(zhe)些(xie)(xie)極(ji)其困(kun)難的(de)任務。隨著攻擊者行動(dong)更快更頻繁,這(zhe)種AI能力對(dui)于效率和成功防(fang)御我們(men)的(de)網(wang)絡(luo)(luo)都至關重要(yao)。
增強訓練。良好的(de)(de)網絡訓練需要的(de)(de)不僅僅是固定的(de)(de)課程(cheng)計(ji)劃和(he)老舊(jiu)案例;它需要適應新威(wei)脅的(de)(de)逼(bi)真、靈活的(de)(de)教(jiao)學。即使小型語言(yan)模型也有能力(li)通(tong)過動態(tai)數據集和(he)響(xiang)應式場(chang)景來補充這(zhe)種訓練,但(dan)只有前沿模型才具備構建訓練本身的(de)(de)能力(li)。
較小的模型缺(que)乏創(chuang)(chuang)建(jian)超越基礎練習的有用網(wang)絡訓(xun)練所(suo)需的深(shen)刻理解。利用前沿模型,組織可(ke)以創(chuang)(chuang)建(jian)一個隨著敵方方法(fa)變化而不斷更新(xin)的網(wang)絡訓(xun)練系統。這確保我們的網(wang)絡部隊為現實挑戰做好準(zhun)備,而不僅(jin)僅(jin)是(shi)教(jiao)科書案(an)例。
前沿模型(xing)對軍事應(ying)用的關(guan)鍵(jian)性引出了關(guan)于如何提供資(zi)源并(bing)實現該(gai)能(neng)力的重要(yao)(yao)問題(ti)。如果給予機會,許多士兵能(neng)做的遠不止(zhi)日(ri)常例行(xing)任務。這是“陸軍軟(ruan)(ruan)件工廠”(Army Software Factory)的基本假設,該(gai)工廠讓服役人員開發(fa)軟(ruan)(ruan)件,否則政(zheng)府可能(neng)需(xu)要(yao)(yao)向承(cheng)包(bao)商(shang)支(zhi)付兩倍、三倍甚至(zhi)十倍的費用。但(dan)這與在最(zui)尖端技術水(shui)平上構(gou)建、調優(you)或部署(shu)——或三者兼有——軍隊(dui)真正需(xu)要(yao)(yao)的那種最(zui)先進AI模型(xing)并(bing)非一(yi)回事。
另一個(ge)挑戰是(shi)變(bian)化的(de)快速步伐。一年(nian)前,若能(neng)(neng)在一個(ge)經認證的(de)平臺上(shang)使(shi)用(yong)現(xian)代模(mo)型(xing)(xing),會欣(xin)喜若狂(kuang)。如今,通過CamoGPT等(deng)平臺擁(yong)(yong)有(you)(you)了(le)這種(zhong)能(neng)(neng)力。然而,目(mu)標已(yi)經改變(bian)。在過去幾個(ge)月中,諸如用(yong)于增強(qiang)復雜問題(ti)解決的(de)專用(yong)推理引擎、像筆記本(ben)語言模(mo)型(xing)(xing)(NotebookLM)這樣(yang)用(yong)于整合(he)研究(jiu)與寫作的(de)工具(ju)、像深(shen)度研究(jiu)(Deep Research)這樣(yang)的(de)高級語義搜索(suo)能(neng)(neng)力,以及達到(dao)人類水平的(de)文本(ben)轉語音模(mo)型(xing)(xing)等(deng)變(bian)革性創新,極大(da)地提高了(le)大(da)型(xing)(xing)語言模(mo)型(xing)(xing)的(de)可(ke)(ke)(ke)靠性和實(shi)用(yong)性。軍(jun)隊花了(le)一年(nian)時(shi)間(jian)(jian)追趕(gan),結果卻發現(xian)當他們(men)趕(gan)上(shang)時(shi),業(ye)界已(yi)遙(yao)(yao)遙(yao)(yao)領先。美陸軍(jun)新的(de)生成式AI平臺——“陸軍(jun)企業(ye)大(da)型(xing)(xing)語言模(mo)型(xing)(xing)工作空間(jian)(jian)”(Army Enterprise Large Language Model Workspace),由Ask Sage提供支(zhi)持(chi),至少(shao)接近了(le)目(mu)標,但缺乏許多這些關鍵功(gong)能(neng)(neng)及更(geng)多功(gong)能(neng)(neng),并(bing)且還因采用(yong)基于令(ling)牌(pai)(token)的(de)訂閱方案(要求(qiu)各單位自費購買訪(fang)問權限)而執行不力——這是(shi)一個(ge)很(hen)少(shao)有(you)(you)人可(ke)(ke)(ke)能(neng)(neng)克(ke)服的(de)障礙。也許到(dao)2026年(nian),政(zheng)府系統將擁(yong)(yong)有(you)(you)2025年(nian)今天可(ke)(ke)(ke)在商(shang)業(ye)上(shang)獲(huo)得的(de)AI能(neng)(neng)力,但也可(ke)(ke)(ke)能(neng)(neng)沒有(you)(you)。即使(shi)有(you)(you),民用(yong)與軍(jun)用(yong)技術之間(jian)(jian)一年(nian)或更(geng)長(chang)時(shi)間(jian)(jian)的(de)延遲也是(shi)一個(ge)顯著差(cha)距(ju)。
然而,依賴(lai)外(wai)部創新將重大(da)的法律和數(shu)據(ju)(ju)安全挑戰推到了前沿。一個令人(ren)不安的事(shi)實(shi)(shi)是(shi),大(da)多數(shu)商業(ye)技(ji)術,包括軍隊所需的強大(da)前沿模(mo)(mo)型,在設計時并(bing)(bing)未考慮處理政府擁有的非密和密級數(shu)據(ju)(ju)的嚴(yan)格要(yao)求(qiu)。商業(ye)實(shi)(shi)體收集、匯總并(bing)(bing)最(zui)終將敏感軍事(shi)數(shu)據(ju)(ju)用于其自(zi)身訓練集、模(mo)(mo)型改(gai)進或商業(ye)利潤的前景,不僅是(shi)一個假設性擔憂,更是(shi)對數(shu)據(ju)(ju)主權(quan)的切(qie)實(shi)(shi)風險和對作戰安全的嚴(yan)重關(guan)切(qie)。
這(zhe)(zhe)種困境使(shi)“自建(jian)還是購買”的(de)(de)(de)權衡變得復雜。雖(sui)然內部(bu)開(kai)發真正的(de)(de)(de)前沿模(mo)型難(nan)度(du)陡(dou)增,但簡單地接(jie)入(ru)沒有(you)嚴(yan)格數據控制的(de)(de)(de)商業產品(pin)則是在(zai)招致災難(nan)。精心構建(jian)數據治理框架、為(wei)政(zheng)府用例建(jian)立獨立安(an)全的(de)(de)(de)模(mo)型運行(xing)和微調(diao)飛地(enclaves)、以及明(ming)確定義并嚴(yan)格執行(xing)知(zhi)識產權所有(you)權和數據使(shi)用權——確保政(zheng)府保留(liu)對其(qi)數據及任何利(li)用其(qi)開(kai)發的(de)(de)(de)AI能力的(de)(de)(de)控制權——至關重要。這(zhe)(zhe)些不(bu)僅(jin)僅(jin)是官僚障(zhang)(zhang)礙,而是必(bi)須從一(yi)開(kai)始就融入(ru)軍隊AI采用戰略的(de)(de)(de)基(ji)本保障(zhang)(zhang)措施(shi),以免旨在(zai)增強我們能力的(de)(de)(de)工具本身成為(wei)泄密(mi)的(de)(de)(de)渠道。
“軍(jun)(jun)用(yong)級(ji)”(military grade)一(yi)詞在(zai)(zai)軍(jun)(jun)隊中(zhong)常常是個笑(xiao)話(hua)。平(ping)民認為(wei)它意(yi)味著(zhu)“高質量”,但(dan)服役人(ren)員知(zhi)道(dao)(dao)它通(tong)常意(yi)味著(zhu)滿足(zu)某些(xie)(xie)模(mo)(mo)(mo)(mo)糊標準的(de)(de)(de)(de)最便宜產(chan)品(pin)。我們面臨AI領(ling)域發生同(tong)樣事情的(de)(de)(de)(de)風險。為(wei)加(jia)速國防(fang)部門(men)采用(yong)AI,美五角大樓設立了“AI快速能力小組”(AI Rapid Capabilities Cell),但(dan)軍(jun)(jun)隊對(dui)通(tong)用(yong)需求的(de)(de)(de)(de)偏好(hao),加(jia)上對(dui)大型(xing)語言模(mo)(mo)(mo)(mo)型(xing)糟糕的(de)(de)(de)(de)評估方法,很可能導致(zhi)軍(jun)(jun)隊配備性能不(bu)(bu)(bu)佳的(de)(de)(de)(de)聊天機器人(ren),僅僅因為(wei)它們成本更低,而非迫切(qie)需要的(de)(de)(de)(de)強(qiang)(qiang)大得多(duo)的(de)(de)(de)(de)力量倍增(zeng)器。CamoGPT、現已停用(yong)的(de)(de)(de)(de)非密互聯網協議路由器網絡GPT(NIPRGPT)等平(ping)臺雖好(hao)但(dan)不(bu)(bu)(bu)夠卓(zhuo)越——通(tong)過這些(xie)(xie)平(ping)臺可用(yong)的(de)(de)(de)(de)小模(mo)(mo)(mo)(mo)型(xing)與當今前(qian)(qian)沿(yan)模(mo)(mo)(mo)(mo)型(xing)之間模(mo)(mo)(mo)(mo)糊但(dan)至(zhi)關重(zhong)要的(de)(de)(de)(de)差異(yi)不(bu)(bu)(bu)容忽視,不(bu)(bu)(bu)能因為(wei)“夠用(yong)就好(hao)”的(de)(de)(de)(de)理念而被拋棄。事實(shi)上,在(zai)(zai)CamoGPT中(zhong)運(yun)行的(de)(de)(de)(de)小型(xing)開放權(quan)重(zhong)模(mo)(mo)(mo)(mo)型(xing)與在(zai)(zai)專用(yong)數據中(zhong)心運(yun)行的(de)(de)(de)(de)前(qian)(qian)沿(yan)模(mo)(mo)(mo)(mo)型(xing)之間的(de)(de)(de)(de)差異(yi)并非微(wei)不(bu)(bu)(bu)足(zu)道(dao)(dao)。AI應(ying)增(zeng)強(qiang)(qiang)決策能力、優化工作流程(cheng)并強(qiang)(qiang)化網絡防(fang)御(yu)。在(zai)(zai)這些(xie)(xie)AI將(jiang)在(zai)(zai)重(zhong)大軍(jun)(jun)事決策中(zhong)發揮重(zhong)要作用(yong)的(de)(de)(de)(de)背景下,前(qian)(qian)沿(yan)模(mo)(mo)(mo)(mo)型(xing)所具備的(de)(de)(de)(de)復(fu)雜(za)程(cheng)度(du)并非奢(she)侈品(pin),而是必(bi)需品(pin)。
通過投資并(bing)整合前(qian)(qian)沿模(mo)型(xing),軍隊(dui)可(ke)以(yi)(yi)實(shi)現AI的(de)(de)(de)潛力——不(bu)是(shi)作(zuo)為人類(lei)專業知識的(de)(de)(de)替代品,而(er)是(shi)作(zuo)為增強決策能力、優(you)(you)(you)化(hua)工(gong)作(zuo)流(liu)程并(bing)強化(hua)網絡防御(yu)不(bu)可(ke)或缺(que)的(de)(de)(de)工(gong)具。另一種選擇——由于(yu)采購惰性(xing)或未能優(you)(you)(you)先考慮(lv)而(er)固守老舊、受限的(de)(de)(de)模(mo)型(xing)——將導致(zhi)停滯不(bu)前(qian)(qian),而(er)對手則在迅速(su)采用(yong)——甚至(zhi)自行開發——更優(you)(you)(you)越的(de)(de)(de)AI技術(shu)(shu)。為避免喪失技術(shu)(shu)優(you)(you)(you)勢,軍隊(dui)不(bu)僅必(bi)須(xu)投資并(bing)整合當前(qian)(qian)的(de)(de)(de)前(qian)(qian)沿模(mo)型(xing),還必(bi)須(xu)培(pei)養制度(du)靈(ling)活性(xing)以(yi)(yi)持續適應不(bu)斷(duan)演變的(de)(de)(de)AI格局。在加(jia)速(su)變革的(de)(de)(de)時代,接受“夠用(yong)就好(hao)”的(de)(de)(de)AI是(shi)無法承受的(de)(de)(de)風險。
參考來源:美國陸軍
**2025 年 8 月 7 日,OpenAI 發布《GPT-5 System Card》(下稱 Card)。這是一份 50+ 頁的“白皮書”——既是模型能力的答卷,也是安全治理的藍圖。相比以往系統卡,GPT-5 在 架構形態、推理范式、安全框架 上都有質的躍遷,足以成為 AI 產品經理、技術決策者與政策觀察者的必讀材料
**
2011年12月(yue)美軍(jun)(jun)(jun)最(zui)終(zhong)從(cong)(cong)伊拉克(ke)撤軍(jun)(jun)(jun)后,美國(guo)大(da)多數(shu)軍(jun)(jun)(jun)事(shi)(shi)(shi)(shi)領導(dao)層渴望將(jiang)重心從(cong)(cong)“反叛(pan)亂作(zuo)(zuo)戰(zhan)(zhan)(zhan)”——該理念(nian)在(zai)2000年代末的(de)(de)(de)(de)(de)(de)(de)反恐(kong)戰(zhan)(zhan)(zhan)爭(zheng)期(qi)間于美軍(jun)(jun)(jun)中取得了思想主導(dao)地位(wei)——轉回(hui)(hui)常(chang)(chang)(chang)規(gui)(gui)作(zuo)(zuo)戰(zhan)(zhan)(zhan)。負責向作(zuo)(zuo)戰(zhan)(zhan)(zhan)司(si)令部(bu)(bu)(bu)提供部(bu)(bu)(bu)隊的(de)(de)(de)(de)(de)(de)(de)各軍(jun)(jun)(jun)種參(can)(can)謀(mou)(mou)長是(shi)(shi)最(zui)早提出其軍(jun)(jun)(jun)種需要“回(hui)(hui)歸基礎”并解(jie)決常(chang)(chang)(chang)規(gui)(gui)作(zuo)(zuo)戰(zhan)(zhan)(zhan)技能(neng)(neng)萎縮問題的(de)(de)(de)(de)(de)(de)(de)群體之一(yi)。相比之下(xia),聯(lian)合(he)(he)(he)(he)參(can)(can)謀(mou)(mou)部(bu)(bu)(bu)則忙于應對(dui)(dui)一(yi)系列(lie)危機,如利比亞局勢(shi)、敘利亞內戰(zhan)(zhan)(zhan)以(yi)及所謂“伊斯蘭國(guo)”的(de)(de)(de)(de)(de)(de)(de)崛起。此(ci)外,美國(guo)在(zai)阿富汗維持著逐步(bu)減弱的(de)(de)(de)(de)(de)(de)(de)軍(jun)(jun)(jun)事(shi)(shi)(shi)(shi)存在(zai),因此(ci)聯(lian)合(he)(he)(he)(he)參(can)(can)謀(mou)(mou)部(bu)(bu)(bu)陷(xian)入(ru)了關于未(wei)來(lai)方向的(de)(de)(de)(de)(de)(de)(de)似(si)乎永無止境的(de)(de)(de)(de)(de)(de)(de)爭(zheng)論,這種情況一(yi)直持續到2021年8月(yue)喀布爾撤離行(xing)動(dong)。2011年8月(yue)美國(guo)聯(lian)合(he)(he)(he)(he)部(bu)(bu)(bu)隊司(si)令部(bu)(bu)(bu)(USJFCOM)的(de)(de)(de)(de)(de)(de)(de)裁撤進(jin)一(yi)步(bu)強化了聯(lian)合(he)(he)(he)(he)參(can)(can)謀(mou)(mou)部(bu)(bu)(bu)對(dui)(dui)當下(xia)事(shi)(shi)(shi)(shi)務的(de)(de)(de)(de)(de)(de)(de)固有偏向。此(ci)舉(ju)將(jiang)概(gai)(gai)念(nian)與能(neng)(neng)力開發的(de)(de)(de)(de)(de)(de)(de)責任從(cong)(cong)作(zuo)(zuo)戰(zhan)(zhan)(zhan)司(si)令部(bu)(bu)(bu)性質的(de)(de)(de)(de)(de)(de)(de)USJFCOM轉移(yi)至聯(lian)合(he)(he)(he)(he)參(can)(can)謀(mou)(mou)部(bu)(bu)(bu)各局下(xia)屬部(bu)(bu)(bu)門——特(te)別(bie)是(shi)(shi)J-7和(he)J-8——使參(can)(can)謀(mou)(mou)長聯(lian)席會議主席成為未(wei)來(lai)聯(lian)合(he)(he)(he)(he)部(bu)(bu)(bu)隊唯一(yi)的(de)(de)(de)(de)(de)(de)(de)四(si)星倡(chang)導(dao)者。這些因素導(dao)致傳(chuan)統(tong)上專注于規(gui)(gui)劃與當前(qian)行(xing)動(dong)的(de)(de)(de)(de)(de)(de)(de)聯(lian)合(he)(he)(he)(he)參(can)(can)謀(mou)(mou)部(bu)(bu)(bu),直至2021年《聯(lian)合(he)(he)(he)(he)作(zuo)(zuo)戰(zhan)(zhan)(zhan)概(gai)(gai)念(nian)》發布前(qian),始(shi)終(zhong)無法有效領導(dao)聯(lian)合(he)(he)(he)(he)部(bu)(bu)(bu)隊向對(dui)(dui)抗(kang)對(dui)(dui)等敵人(ren)的(de)(de)(de)(de)(de)(de)(de)作(zuo)(zuo)戰(zhan)(zhan)(zhan)方式轉型(xing)。該概(gai)(gai)念(nian)是(shi)(shi)自美軍(jun)(jun)(jun)深陷(xian)反恐(kong)戰(zhan)(zhan)(zhan)爭(zheng)之前(qian)以(yi)來(lai),最(zui)具影(ying)響力的(de)(de)(de)(de)(de)(de)(de)聚焦常(chang)(chang)(chang)規(gui)(gui)作(zuo)(zuo)戰(zhan)(zhan)(zhan)的(de)(de)(de)(de)(de)(de)(de)聯(lian)合(he)(he)(he)(he)思想。它同時(shi)也是(shi)(shi)國(guo)防部(bu)(bu)(bu)(DOD)歷時(shi)十年重新以(yi)大(da)國(guo)為指向的(de)(de)(de)(de)(de)(de)(de)結(jie)果。重新定(ding)位(wei)聯(lian)合(he)(he)(he)(he)部(bu)(bu)(bu)隊于常(chang)(chang)(chang)規(gui)(gui)作(zuo)(zuo)戰(zhan)(zhan)(zhan)的(de)(de)(de)(de)(de)(de)(de)初期(qi)行(xing)動(dong)因缺乏(fa)緊迫感和(he)聚焦點而受阻。這在(zai)很(hen)大(da)程(cheng)(cheng)度(du)上源(yuan)于對(dui)(dui)美國(guo)主要軍(jun)(jun)(jun)事(shi)(shi)(shi)(shi)競爭(zheng)對(dui)(dui)手身(shen)份缺乏(fa)共(gong)識,或未(wei)能(neng)(neng)認識到在(zai)中東事(shi)(shi)(shi)(shi)務牽制美軍(jun)(jun)(jun)期(qi)間,其他大(da)國(guo)推進(jin)軍(jun)(jun)(jun)隊現代化的(de)(de)(de)(de)(de)(de)(de)程(cheng)(cheng)度(du)。
歡迎來到 《DeepSeek AI 從入門到付費職業》第一部分!在本篇中,我們將深入探討 DeepSeek——一個正在革新 AI 解決方案構建、部署與擴展方式的前沿平臺。無論你是剛剛踏入生成式 AI 領域的初學者,還是希望進一步提升技能的中級學習者,本部分內容都將為你提供實用的操作技能與理論知識,助你掌握 DeepSeek,并創建可部署的 AI 應用。 本書是所有希望不僅了解 如何使用 AI,更要明白 為什么 AI 在當今飛速發展的世界中如此重要 的讀者必讀之作。通過理解 AI 的社會與倫理維度,你將能夠更好地設計出既創新又負責任、真正有影響力的解決方案。 讓我們踏上這段激動人心的 DeepSeek 學習之旅吧!你將通過循序漸進的項目、真實的應用場景以及可擴展的 AI 解決方案,全面掌握相關技能。無論你是在構建第一個 AI 模型,還是在生產環境中部署高級系統,本部分內容都將賦能你把創意轉化為現實。現在,就開始吧!
大型語言模型(LLM)的出現極大地革新了網頁搜索。 基于 LLM 的搜索智能體的興起,標志著信息檢索向更深層次、更動態、更自主化方向的關鍵轉變。這類智能體能夠理解用戶意圖和環境上下文,并通過動態規劃執行多輪檢索,將搜索能力擴展到遠超傳統網頁搜索的范圍。 以 OpenAI 的 Deep Research 為代表的前沿案例,凸顯了它們在深度信息挖掘和真實世界應用中的巨大潛力。 本文首次對搜索智能體進行了系統性分析,從體系結構、優化方法、應用場景和評測方式四個維度,對現有研究進行了全面的分析與分類,最終識別出該領域中的關鍵開放挑戰,并提出了有前景的未來研究方向。 我們的資料庫可在以下地址獲取://github.com/YunjiaXi/Awesome-Search-Agent-Papers。
1 引言
**
**
大型語言模型(LLM)的出現,開啟了自然語言處理的新紀元,并從根本上改變了包括網頁搜索在內的眾多領域(Wang et al., 2024b; Zhao et al., 2023; Hadi et al., 2023; Xi et al., 2025c; Lin et al., 2025a, 2024; Xi et al., 2025b, 2024a)。如圖 1 所示,傳統網頁搜索需要用戶在結果列表中手動篩選和整合相關信息(Lin et al., 2021; Dai et al., 2021; Fu et al., 2023)。隨著 LLM 的興起,出現了LLM 增強搜索這一新范式,其中 LLM 會改寫用戶查詢以提升搜索準確性(Ma et al., 2023b; Liu and Mozafari, 2024; Xi et al., 2024b),或對搜索結果進行摘要以加快理解過程,即傳統的檢索增強生成(RAG)(Gao et al., 2023; Fan et al., 2024)。然而,這種集成(cheng)方式往往是靜態的,因為(wei) LLM 依賴于單輪或基于規則的迭代(dai)搜(sou)索,難以(yi)有效處理復雜且動態變化的上(shang)下文(wen)。
LLM 智能體的出現帶來了關鍵轉變,催生了搜索智能體(Zhang et al., 2024b)。借助自主性,搜索智能體能夠掌控整個搜索流程,更有效地利用上下文進行自適應推理與動態檢索。在這一范式中,搜索成為一種主動行為,不再局限于網頁,而是擴展到更廣泛的信息源,例如私有數據庫以及智能體內部的經驗。具體而言,搜索智能體可(ke)定義(yi)為:一(yi)種能(neng)(neng)夠理解用(yong)戶意(yi)圖與環(huan)境(jing)上下文、自動規(gui)劃搜索(suo)(suo)策(ce)略(lve)、從多(duo)樣化來源執行多(duo)輪動態檢索(suo)(suo),并整合信(xin)息以提(ti)供全面(mian)(mian)洞見的 LLM 智(zhi)能(neng)(neng)體(ti)。業界領先的解決方(fang)案,如(ru) OpenAI 的 Deep Research(OpenAI, 2025)、Gemini(Gemini, 2025)以及 Perplexity(Perplexity, 2025),充分展示了搜索(suo)(suo)智(zhi)能(neng)(neng)體(ti)在深度信(xin)息挖掘與商業化方(fang)面(mian)(mian)的潛力。
鑒于這些快速發展,本文從多個視角對搜索智能體進行首次系統性綜述,圍繞如何搜索、如何優化、如何應用以及如何評測四個維度展(zhan)(zhan)開(kai)分析。與近期僅聚(ju)焦于特(te)定子領域或(huo)單一視角的(de)綜述(shu)不同,例如強調從(cong)大量信息檢索(suo)生(sheng)成專業報告(gao)的(de) Deep Research(Xu and Peng, 2025; Huang et al., 2025b)或(huo)關注推理(li)與 RAG 結合的(de)研究(jiu)(Liang et al., 2025; Gao et al., 2025),我(wo)們的(de)工(gong)作全(quan)(quan)面(mian)剖析了搜索(suo)智能體的(de)全(quan)(quan)流程(cheng),包括其(qi)搜索(suo)結構、優化方(fang)法、應用場(chang)景、評測(ce)體系及面(mian)臨的(de)挑(tiao)戰,并對各部分的(de)代(dai)表性工(gong)作與發展(zhan)(zhan)趨勢進行了深(shen)入分析。
本文結構如下:第 2 節介紹搜索智能體的任務定義;第 3 節“如何搜索”探討智能體如何擴展搜索輪次并利用復雜的搜索結構(如并行、順序與混合)來確定查詢內容;第 4 節“如何優化”討論搜索智能體的多種優化方法,包括調參與無調參手段;第 5 節“如何應用”闡述搜索智能體的廣泛應用領域,涵蓋智能體內部增強(如推理、記憶與工具使用)與外部應用(如數學、醫學與金融);第 6 節“如何評測”介紹搜索智能體的評測方法,包括相關數據集與指標;最后,第 7 節總結當前的挑戰并展望未來的研究方向。
具身智能(Embodied AI)旨在發展能夠具備物理形態、并能在真實環境中進行感知、決策、行動與學習的智能系統,這為通用人工智能(AGI)的實現提供了一條有前景的路徑。盡管經過數十年的探索,具身智能體在開放動態環境中執行通用任務時,仍然難以達到人類水平的智能。近年來,大模型的突破性進展徹底革新了具身智能,顯著增強了其在感知、交互、規劃與學習方面的能力。 本文對大模型賦能的具身智能進行了全面綜述,重點聚焦于自主決策與具身學習。在決策方面,我們探討了分層決策與端到端決策兩類范式:具體而言,大模型如何增強分層決策中的高層規劃、低層執行與反饋機制;以及大模型如何提升視覺-語言-行動(Vision-Language-Action, VLA)模型以支持端到端決策。在具身學習方面,我們介紹了主流的學習方法,并深入闡述大模型如何提升模仿學習與強化學習。首次地,我們將**世界模型(World Models)**納入具身智能的綜述,介紹其設計方法及其在增強決策與學習中的關鍵作用。 盡管該領域已取得了實質性進展,但仍然存在諸多挑戰。本文最后對這些挑戰進行了討論,并展望了未來可能的研究方向。 附加關鍵詞與短語:具身智能,大模型,分層決策(ce),端到端,模仿學習,強化(hua)學習,世界模型
具身智能(Embodied AI)[209] 旨在發展具備物理形態的智能系統,使其能夠在真實環境中進行感知、決策、行動與學習。該領域認為,真正的智能源于智能體與環境的交互,因此為實現通用人工智能(AGI)[184] 提供了一條前景可期的路徑。盡管具身智能的探索已經持續了數十年,但要賦予智能體類人水平的智能,使其能夠在開放、非結構化且動態的環境中執行通用任務,仍然面臨巨大挑戰。 早期的具身智能系統[21, 200] 基于符號推理與行為主義,依賴僵化的預編程規則,因而表現出有限的適應性與表層智能。盡管機器人已廣泛應用于制造、物流和特定操作,但它們的功能依然局限于可控環境。機器學習[133],尤其是深度學習[99] 的進展,為具身智能帶來了重要轉折點。基于視覺引導的規劃和基于強化學習的控制[173] 顯著降低了智能體對精確環境建模的依賴。然而,這些模型往往依賴任務特定的數據集進行訓練,在泛化性與可遷移性方面仍然存在不足,限制了其在多樣化場景下的適應能力。 近年來,大模型[149, 150, 182, 183] 的突破性進展顯著提升了具身智能的能力。憑借更強的感知、交互與規劃能力,這些模型為通用型具身智能體[137] 的發展奠定了基礎。然而,大模型賦能的具身智能仍處于萌芽階段,在泛化性、可擴展性以及無縫環境交互方面依舊面臨挑戰[177]。因此,亟需對近年來大模型賦能具身智能的研究進行全面、系統的綜述,以揭示其差距、挑戰與機遇,從而推動 AGI 的實現。 通過對相關領域的系統調研,我們發現現有研究分散、主題復雜,但缺乏系統性分類。已有綜述大多聚焦于大模型自身,例如大語言模型(LLM)[29, 151, 225] 與視覺語言模型(VLM)[104, 113, 191],而較少關注大模型與具身智能體的協同作用。即便有些綜述涉及該方向,它們也往往集中于特定組件,如規劃[188]、學習[7, 26, 204]、模擬器[201]與應用[157, 201, 209],而缺乏對整體范式及各組件如何交互以提升智能的系統性分析。此外,一些較早的綜述遺漏了最新進展,尤其是自 2024 年以來迅速興起的視覺-語言-行動(Vision-Language-Action, VLA)模型[117]與端到端決策。例如,綜述 [119] 對 VLA 模型進行了詳細介紹,但缺少與分層范式的比較以及對學習方法的深入探討。同時,由于該領域發展迅速,早期的綜述[48, 220] 已難以跟上最新研究。 在本文中,我們聚焦于大模型賦能的具身智能中的決策與學習,對相關研究進行分析與分類,厘清最新進展,指出尚存挑戰與未來方向,為研究者提供清晰的理論框架與實踐指導。我們與相關綜述的對比見表1。 本文的主要貢獻如下: 1. 從具身智能視角探討大模型賦能。 在分層決策方面,具身智能涉及高層規劃、低層執行與反饋增強,我們據此對相關工作進行回顧與分類。在端到端決策方面,具身智能依賴于 VLA 模型,因此我們綜述 VLA 模型及其增強方法。在具身學習方面,我們重點考察模仿學習(IL)與強化學習(RL):在 IL 中,大模型如何賦能策略與網絡構建;在 RL 中,大模型如何賦能獎勵函數設計與策略網絡構建。 1. 全面綜述具身決策與具身學習。 本文不僅回顧了大模型賦能下的分層與端到端決策范式并進行對比,還系統性地討論了具身學習方法,包括模仿學習、強化學習,以及遷移學習與元學習。此外,我們首次將**世界模型(World Models)**納入具身智能的綜述,探討其在決策與學習中的作用。 1. 采用水平與垂直結合的雙重分析方法。 水平分析(xi)比較了(le)多(duo)種(zhong)方(fang)(fang)法(fa),包括不同類(lei)型(xing)的(de)大模型(xing)、分層與端(duan)到端(duan)決策(ce)、模仿學習與強(qiang)化(hua)學習,以及多(duo)樣化(hua)的(de)具身學習策(ce)略;垂直分析(xi)則追蹤(zong)核心模型(xing)或方(fang)(fang)法(fa)的(de)演化(hua)過程,闡述(shu)其起(qi)源、進展與開放問題。這(zhe)一雙重方(fang)(fang)法(fa)論既(ji)提供(gong)了(le)宏觀(guan)綜述(shu),也帶來了(le)對主流方(fang)(fang)法(fa)的(de)深入洞(dong)察。
本文的組織結構如圖1所示:第2節介紹具身智能的概念,綜述大模型并討論其通用能力提升,隨后分析大模型與具身智能的協同關系。第3節探討分層決策范式,詳細闡述大模型如何增強動態高層規劃、低層執行與基于反饋的迭代優化。第4節聚焦端到端決策,先介紹并分解 VLA 模型,再探討在感知、動作生成與部署效率方面的最新增強,并在最后與分層決策進行系統對比。第5節介紹具身學習方法,特別是大模型增強的模仿學習與強化學習。第6節討論世界模型及其在具身智能決策與學習中的作用。第7節總結開放挑戰與未來前景,第8節給出結論。
實(shi)(shi)(shi)現(xian)人(ren)(ren)工(gong)(gong)(gong)(gong)通(tong)(tong)用(yong)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(Artificial General Intelligence, AGI)需(xu)要開發(fa)能(neng)(neng)(neng)夠(gou)(gou)跨越多種(zhong)感(gan)知(zhi)(zhi)模態(tai)(tai)——不(bu)僅限于(yu)(yu)(yu)語(yu)(yu)言(yan)——去感(gan)知(zhi)(zhi)、理(li)(li)解(jie)(jie)并(bing)(bing)與(yu)(yu)(yu)(yu)世(shi)(shi)界交(jiao)互的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)模型(xing)(xing)(xing)(xing)(xing)。盡管自監督(du)(du)學(xue)(xue)習(xi)(xi)(xi)(self-supervised learning)已(yi)在(zai)(zai)大(da)(da)型(xing)(xing)(xing)(xing)(xing)語(yu)(yu)言(yan)模型(xing)(xing)(xing)(xing)(xing)(LLMs)中(zhong)(zhong)(zhong)(zhong)取(qu)得了(le)(le)(le)顯著突破,但在(zai)(zai)視(shi)(shi)(shi)(shi)覺(jue)領域復刻(ke)這(zhe)(zhe)一(yi)成(cheng)(cheng)(cheng)(cheng)功仍(reng)面(mian)臨重(zhong)大(da)(da)挑戰(zhan),其(qi)(qi)主要原(yuan)因(yin)在(zai)(zai)于(yu)(yu)(yu)當前(qian)仍(reng)高(gao)度依(yi)(yi)賴(lai)人(ren)(ren)工(gong)(gong)(gong)(gong)標(biao)注(zhu)(zhu)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)。本(ben)文(wen)(wen)(wen)探(tan)討了(le)(le)(le)自監督(du)(du)學(xue)(xue)習(xi)(xi)(xi)如何(he)突破人(ren)(ren)類監督(du)(du)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)限制,釋(shi)放視(shi)(shi)(shi)(shi)覺(jue)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)潛(qian)力,使(shi)模型(xing)(xing)(xing)(xing)(xing)能(neng)(neng)(neng)夠(gou)(gou)直接(jie)從(cong)視(shi)(shi)(shi)(shi)覺(jue)世(shi)(shi)界固(gu)有的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)結(jie)(jie)構(gou)(gou)(gou)(gou)與(yu)(yu)(yu)(yu)規(gui)(gui)律中(zhong)(zhong)(zhong)(zhong)學(xue)(xue)習(xi)(xi)(xi)。 本(ben)論(lun)文(wen)(wen)(wen)圍繞這(zhe)(zhe)一(yi)愿(yuan)景,展(zhan)開了(le)(le)(le)多項探(tan)索與(yu)(yu)(yu)(yu)實(shi)(shi)(shi)踐。首先(xian),我們研(yan)究了(le)(le)(le)自監督(du)(du)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)覺(jue)世(shi)(shi)界理(li)(li)解(jie)(jie),證明(ming)了(le)(le)(le)模型(xing)(xing)(xing)(xing)(xing)無需(xu)依(yi)(yi)賴(lai)如 Segment Anything Model(SAM)等監督(du)(du)方(fang)法(fa)所(suo)需(xu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)數(shu)(shu)(shu)(shu)十億標(biao)注(zhu)(zhu)掩膜,也(ye)能(neng)(neng)(neng)實(shi)(shi)(shi)現(xian)強大(da)(da)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)圖像分割(ge)性能(neng)(neng)(neng)。相反,我們的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)工(gong)(gong)(gong)(gong)作(zuo)表(biao)明(ming),模型(xing)(xing)(xing)(xing)(xing)可(ke)以(yi)(yi)(yi)(yi)(yi)通(tong)(tong)過(guo)利(li)用(yong)未(wei)(wei)標(biao)注(zhu)(zhu)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)中(zhong)(zhong)(zhong)(zhong)豐(feng)富的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)語(yu)(yu)義信息(xi)(xi),實(shi)(shi)(shi)現(xian)“分割(ge)任(ren)何(he)物體”的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)力。其(qi)(qi)次,論(lun)文(wen)(wen)(wen)提出了(le)(le)(le)基于(yu)(yu)(yu)自監督(du)(du)與(yu)(yu)(yu)(yu)合(he)(he)(he)成(cheng)(cheng)(cheng)(cheng)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)方(fang)法(fa),將生(sheng)成(cheng)(cheng)(cheng)(cheng)式(shi)與(yu)(yu)(yu)(yu)判別式(shi)視(shi)(shi)(shi)(shi)覺(jue)模型(xing)(xing)(xing)(xing)(xing)進(jin)行(xing)統(tong)一(yi),使(shi)二者能(neng)(neng)(neng)夠(gou)(gou)互補,從(cong)而(er)同(tong)(tong)時提升視(shi)(shi)(shi)(shi)覺(jue)理(li)(li)解(jie)(jie)與(yu)(yu)(yu)(yu)生(sheng)成(cheng)(cheng)(cheng)(cheng)能(neng)(neng)(neng)力。再次,論(lun)文(wen)(wen)(wen)探(tan)討了(le)(le)(le)如何(he)通(tong)(tong)過(guo)自監督(du)(du)去偏學(xue)(xue)習(xi)(xi)(xi)(debiased learning)構(gou)(gou)(gou)(gou)建(jian)魯棒的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)覺(jue)模型(xing)(xing)(xing)(xing)(xing),提出了(le)(le)(le)在(zai)(zai)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)條件不(bu)完美的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)情況下,緩解(jie)(jie)偏差并(bing)(bing)增強泛化性的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)技(ji)術方(fang)案,并(bing)(bing)將其(qi)(qi)置于(yu)(yu)(yu)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)中(zhong)(zhong)(zhong)(zhong)心(data-centric)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)表(biao)征(zheng)學(xue)(xue)習(xi)(xi)(xi)框(kuang)(kuang)架中(zhong)(zhong)(zhong)(zhong)進(jin)行(xing)系統(tong)化設(she)計。 總(zong)體而(er)言(yan),這(zhe)(zhe)些工(gong)(gong)(gong)(gong)作(zuo)服務于(yu)(yu)(yu)一(yi)個共(gong)同(tong)(tong)目標(biao):構(gou)(gou)(gou)(gou)建(jian)可(ke)擴(kuo)展(zhan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)、多模態(tai)(tai)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)覺(jue)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)系統(tong),使(shi)其(qi)(qi)學(xue)(xue)習(xi)(xi)(xi)方(fang)式(shi)不(bu)再是(shi)模仿人(ren)(ren)工(gong)(gong)(gong)(gong)標(biao)注(zhu)(zhu),而(er)是(shi)主動(dong)發(fa)現(xian)世(shi)(shi)界的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)潛(qian)在(zai)(zai)結(jie)(jie)構(gou)(gou)(gou)(gou)! 大(da)(da)型(xing)(xing)(xing)(xing)(xing)語(yu)(yu)言(yan)模型(xing)(xing)(xing)(xing)(xing)(Large Language Models,LLMs)[1]–[5],以(yi)(yi)(yi)(yi)(yi) GPT 系列為代表(biao),已(yi)經從(cong)根(gen)本(ben)上改變(bian)了(le)(le)(le)人(ren)(ren)類處理(li)(li)和交(jiao)互信息(xi)(xi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)方(fang)式(shi)。這(zhe)(zhe)些突破由兩(liang)個關(guan)鍵因(yin)素驅動(dong):互聯網規(gui)(gui)模數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)廣泛可(ke)得性,以(yi)(yi)(yi)(yi)(yi)及無需(xu)顯式(shi)人(ren)(ren)類監督(du)(du)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)自監督(du)(du)下一(yi)詞(ci)預測范(fan)(fan)式(shi)。然而(er),語(yu)(yu)言(yan)只是(shi)人(ren)(ren)類智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)一(yi)個狹窄投(tou)影。要實(shi)(shi)(shi)現(xian)真正的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)人(ren)(ren)工(gong)(gong)(gong)(gong)通(tong)(tong)用(yong)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(Artificial General Intelligence,AGI),模型(xing)(xing)(xing)(xing)(xing)必須整合(he)(he)(he)更豐(feng)富的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)感(gan)知(zhi)(zhi)模態(tai)(tai)——涵蓋視(shi)(shi)(shi)(shi)覺(jue)、物理(li)(li)交(jiao)互、空間導航與(yu)(yu)(yu)(yu)社會動(dong)態(tai)(tai)——遠(yuan)(yuan)遠(yuan)(yuan)超越僅限于(yu)(yu)(yu)文(wen)(wen)(wen)本(ben)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)范(fan)(fan)疇。其(qi)(qi)中(zhong)(zhong)(zhong)(zhong),視(shi)(shi)(shi)(shi)覺(jue)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)至(zhi)關(guan)重(zhong)要:它是(shi)系統(tong)直接(jie)從(cong)原(yuan)始像素中(zhong)(zhong)(zhong)(zhong)解(jie)(jie)析(xi)場景、定位目標(biao)、建(jian)模組(zu)(zu)合(he)(he)(he)結(jie)(jie)構(gou)(gou)(gou)(gou)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)力,使(shi)其(qi)(qi)能(neng)(neng)(neng)夠(gou)(gou)以(yi)(yi)(yi)(yi)(yi)最少的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)人(ren)(ren)類干預感(gan)知(zhi)(zhi)并(bing)(bing)推理(li)(li)視(shi)(shi)(shi)(shi)覺(jue)世(shi)(shi)界。 遺憾(han)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)是(shi),盡管大(da)(da)型(xing)(xing)(xing)(xing)(xing)語(yu)(yu)言(yan)模型(xing)(xing)(xing)(xing)(xing)已(yi)能(neng)(neng)(neng)通(tong)(tong)過(guo)利(li)用(yong)語(yu)(yu)言(yan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)組(zu)(zu)合(he)(he)(he)性與(yu)(yu)(yu)(yu)結(jie)(jie)構(gou)(gou)(gou)(gou)性實(shi)(shi)(shi)現(xian)令人(ren)(ren)印象(xiang)深刻(ke)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)泛化,將這(zhe)(zhe)些成(cheng)(cheng)(cheng)(cheng)果擴(kuo)展(zhan)到視(shi)(shi)(shi)(shi)覺(jue)領域仍(reng)是(shi)一(yi)個重(zhong)大(da)(da)未(wei)(wei)解(jie)(jie)難題。與(yu)(yu)(yu)(yu)文(wen)(wen)(wen)本(ben)不(bu)同(tong)(tong),視(shi)(shi)(shi)(shi)覺(jue)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)是(shi)連續且(qie)高(gao)維的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de),缺乏天(tian)然的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)離散(san)化單元或語(yu)(yu)義語(yu)(yu)法(fa)。此外,視(shi)(shi)(shi)(shi)覺(jue)領域的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)監督(du)(du)學(xue)(xue)習(xi)(xi)(xi)高(gao)度依(yi)(yi)賴(lai)大(da)(da)規(gui)(gui)模標(biao)注(zhu)(zhu)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)集(ji),而(er)這(zhe)(zhe)些數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)集(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)采集(ji)成(cheng)(cheng)(cheng)(cheng)本(ben)高(gao)昂,且(qie)內(nei)容與(yu)(yu)(yu)(yu)分布往(wang)往(wang)存在(zai)(zai)偏差。 本(ben)論(lun)文(wen)(wen)(wen)試圖回(hui)答:我們能(neng)(neng)(neng)否構(gou)(gou)(gou)(gou)建(jian)一(yi)種(zhong)通(tong)(tong)用(yong)視(shi)(shi)(shi)(shi)覺(jue)系統(tong),使(shi)其(qi)(qi)能(neng)(neng)(neng)從(cong)視(shi)(shi)(shi)(shi)覺(jue)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)自然結(jie)(jie)構(gou)(gou)(gou)(gou)中(zhong)(zhong)(zhong)(zhong)學(xue)(xue)習(xi)(xi)(xi)——以(yi)(yi)(yi)(yi)(yi)極少甚至(zhi)無需(xu)人(ren)(ren)類監督(du)(du)?我的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)目標(biao)是(shi)建(jian)立理(li)(li)論(lun)基礎與(yu)(yu)(yu)(yu)實(shi)(shi)(shi)用(yong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)自監督(du)(du)學(xue)(xue)習(xi)(xi)(xi)(Self-Supervised Learning,SSL)方(fang)法(fa),以(yi)(yi)(yi)(yi)(yi)處理(li)(li)多樣(yang)化的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)真實(shi)(shi)(shi)世(shi)(shi)界視(shi)(shi)(shi)(shi)覺(jue)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju),并(bing)(bing)將其(qi)(qi)應(ying)(ying)用(yong)于(yu)(yu)(yu)復雜的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)下游任(ren)務。通(tong)(tong)過(guo)增強面(mian)向多模態(tai)(tai)模型(xing)(xing)(xing)(xing)(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de) SSL 技(ji)術、最大(da)(da)限度地減少對人(ren)(ren)工(gong)(gong)(gong)(gong)標(biao)注(zhu)(zhu)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)集(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)依(yi)(yi)賴(lai),我力圖開發(fa)能(neng)(neng)(neng)夠(gou)(gou)理(li)(li)解(jie)(jie)并(bing)(bing)與(yu)(yu)(yu)(yu)環境(jing)交(jiao)互的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)系統(tong),使(shi)其(qi)(qi)在(zai)(zai)感(gan)知(zhi)(zhi)、認(ren)知(zhi)(zhi)與(yu)(yu)(yu)(yu)反應(ying)(ying)方(fang)面(mian)與(yu)(yu)(yu)(yu)人(ren)(ren)類相媲美,甚至(zhi)超越人(ren)(ren)類。 為實(shi)(shi)(shi)現(xian)這(zhe)(zhe)一(yi)目標(biao),我探(tan)索了(le)(le)(le)一(yi)系列基于(yu)(yu)(yu)自監督(du)(du)學(xue)(xue)習(xi)(xi)(xi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)技(ji)術,從(cong)未(wei)(wei)標(biao)注(zhu)(zhu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)圖像與(yu)(yu)(yu)(yu)視(shi)(shi)(shi)(shi)頻中(zhong)(zhong)(zhong)(zhong)直接(jie)獲取(qu)以(yi)(yi)(yi)(yi)(yi)物體為中(zhong)(zhong)(zhong)(zhong)心的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)、語(yu)(yu)義化的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)、可(ke)組(zu)(zu)合(he)(he)(he)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)表(biao)征(zheng)。我著重(zhong)利(li)用(yong)視(shi)(shi)(shi)(shi)覺(jue)歸納偏置(visual inductive bias)、借助合(he)(he)(he)成(cheng)(cheng)(cheng)(cheng)信號(hao)進(jin)行(xing)監督(du)(du),并(bing)(bing)在(zai)(zai)統(tong)一(yi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de) SSL 框(kuang)(kuang)架下閉合(he)(he)(he)判別式(shi)模型(xing)(xing)(xing)(xing)(xing)與(yu)(yu)(yu)(yu)生(sheng)成(cheng)(cheng)(cheng)(cheng)式(shi)模型(xing)(xing)(xing)(xing)(xing)之(zhi)間的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)回(hui)路。所(suo)有這(zhe)(zhe)些工(gong)(gong)(gong)(gong)作(zuo)共(gong)同(tong)(tong)體現(xian)了(le)(le)(le)一(yi)個更宏大(da)(da)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)愿(yuan)景:視(shi)(shi)(shi)(shi)覺(jue)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)應(ying)(ying)當從(cong)數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)結(jie)(jie)構(gou)(gou)(gou)(gou)中(zhong)(zhong)(zhong)(zhong)涌現(xian),而(er)非源于(yu)(yu)(yu)標(biao)簽的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)結(jie)(jie)構(gou)(gou)(gou)(gou)。這(zhe)(zhe)一(yi)觀點(dian)挑戰(zhan)了(le)(le)(le)傳統(tong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)監督(du)(du)學(xue)(xue)習(xi)(xi)(xi)范(fan)(fan)式(shi),并(bing)(bing)倡導構(gou)(gou)(gou)(gou)建(jian)一(yi)種(zhong)無需(xu)標(biao)簽、數(shu)(shu)(shu)(shu)據(ju)(ju)(ju)驅動(dong)且(qie)可(ke)擴(kuo)展(zhan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)覺(jue)系統(tong)。
當小型無人機系統(tong)(sUAS)由疏忽(hu)、魯莽或惡意操(cao)作(zuo)者(zhe)操(cao)控時,將對(dui)地(di)方及聯邦機構構成(cheng)(cheng)重(zhong)大威脅。隨著sUAS與傳(chuan)統(tong)航空(kong)器共享空(kong)域的情況日(ri)益(yi)增多,且其可能作(zuo)為(wei)武器侵入管制空(kong)域,人員、設施及資產防護已成(cheng)(cheng)為(wei)核心議題。本研究通過集成(cheng)(cheng)低(di)成(cheng)(cheng)本分布式傳(chuan)感(gan)器與機器學(xue)習(xi)(ML)模型,提升(sheng)戰場態(tai)勢感(gan)知能力,補(bu)強(qiang)現有傳(chuan)感(gan)平臺對(dui)sUAS的實時探測、分類(lei)與定位效能。
本文提出"無(wu)人(ren)機偵(zhen)測(ce)指揮中心"(DDCC)概念架構。該系統對(dui)(dui)接分(fen)(fen)布式節點(dian)網(wang)(wang)絡,通過聲(sheng)(sheng)(sheng)學(xue)(xue)(xue)(xue)與光學(xue)(xue)(xue)(xue)雙模(mo)(mo)態實時(shi)獲取sUAS數據(ju)(ju),并具備(bei)截取關鍵幀能(neng)力以增強(qiang)未(wei)來機器(qi)學(xue)(xue)(xue)(xue)習(xi)(xi)模(mo)(mo)型(xing)的預測(ce)性(xing)能(neng)。基(ji)于大疆Matrice 600 Pro采集的數據(ju)(ju)集,構建(jian)多(duo)組深度(du)學(xue)(xue)(xue)(xue)習(xi)(xi)模(mo)(mo)型(xing)實現sUAS存在(zai)性(xing)分(fen)(fen)類(lei)及(ji)節點(dian)距離預測(ce)。重點(dian)評(ping)估聲(sheng)(sheng)(sheng)學(xue)(xue)(xue)(xue)測(ce)距性(xing)能(neng)(與光學(xue)(xue)(xue)(xue)測(ce)距對(dui)(dui)比),最(zui)終融(rong)(rong)合多(duo)源(yuan)數據(ju)(ju)構建(jian)定制模(mo)(mo)型(xing),驗證融(rong)(rong)合數據(ju)(ju)是(shi)否優(you)于單模(mo)(mo)態方案。初(chu)步(bu)實驗顯示:聲(sheng)(sheng)(sheng)學(xue)(xue)(xue)(xue)分(fen)(fen)類(lei)準確率79.6%,光學(xue)(xue)(xue)(xue)分(fen)(fen)類(lei)準確率86.7%;獨(du)立測(ce)距任(ren)務中聲(sheng)(sheng)(sheng)學(xue)(xue)(xue)(xue)平均絕對(dui)(dui)誤(wu)差10.463米,光學(xue)(xue)(xue)(xue)誤(wu)差16.961米;經(jing)卷積循(xun)環神經(jing)網(wang)(wang)絡處理(li)融(rong)(rong)合數據(ju)(ju)后,平均絕對(dui)(dui)誤(wu)差降至9.57米,較(jiao)聲(sheng)(sheng)(sheng)學(xue)(xue)(xue)(xue)數據(ju)(ju)提升0.88米,較(jiao)光學(xue)(xue)(xue)(xue)數據(ju)(ju)提升7.385米。
本章首先闡明研究問題與目(mu)標,隨后介(jie)紹DDCC系統——該專有(you)平(ping)臺可同步聯動多傳感器執行"記錄"與"預測"指令。
在sUAS激增的背景下,無論操作者性(xing)質(疏忽/惡意/軍(jun)事(shi)),均對地(di)方及(ji)(ji)聯邦(bang)機構安全(quan)構成緊迫(po)威脅。面對sUAS與傳統航空(kong)器空(kong)域共享及(ji)(ji)其武器化趨勢,人員(yuan)設施防護(hu)已成關(guan)鍵挑(tiao)戰。本(ben)研究旨在驗證"低成本(ben)分(fen)布式傳感器+ML模型"在sUAS探測、分(fen)類及(ji)(ji)測距(ju)中的有效性(xing),并構建DDCC系統——該系統可(ke)加載預訓練模型,基于視頻、音頻及(ji)(ji)融合數據(ju)實現sUAS存(cun)在性(xing)識別與距(ju)離測算。
本文(wen)致力(li)于解(jie)決空(kong)基威脅(xie)探測的多維(wei)挑(tiao)戰(特指sUAS),通過(guo)在DDCC中融(rong)合"聲學特征卷(juan)積循環(huan)神經網絡"(CRNN)與"YOLOv8目(mu)標(biao)檢測模(mo)型",構(gou)建可(ke)實時識別、分(fen)類及測距的全域解(jie)決方案。研究(jiu)目(mu)標(biao)明確如下(xia):
DDCC作為(wei)專有系統,通過傳(chuan)感(gan)器(qi)網絡執行指(zhi)令(如(ru)記錄/預(yu)(yu)測)。其客戶端界面采用3x3網格排列的(de)(de)九宮格視頻流(liu)布(bu)局,每區塊均支持"連接"、"錄制(zhi)"、"預(yu)(yu)測"、"靜音"功能鍵,配備服務器(qi)主(zhu)機(ji)配置文本框及遠程重(zhong)啟下拉菜單。樹莓派4服務器(qi)傳(chuan)輸的(de)(de)實時音視頻流(liu)顯(xian)示于對(dui)應區塊,捕獲(huo)數(shu)據的(de)(de)分類預(yu)(yu)測結果(guo)集中呈現在日志(zhi)域。系統可加(jia)載(zai)預(yu)(yu)訓練模型(xing)(xing)執行定制(zhi)化預(yu)(yu)測任務,本研究特訓模型(xing)(xing)專注于基于視頻/音頻/融合數(shu)據的(de)(de)sUAS存在性識(shi)別與距離測算(suan)。
文檔結(jie)構如(ru)下:第(di)二章(zhang)詳述(shu)sUAS探測技術背景與研究進(jin)展;第(di)三章(zhang)解(jie)析DDCC系統設計與節(jie)點配(pei)置;第(di)四章(zhang)闡(chan)述(shu)數據采(cai)集、模型構建(jian)及訓練驗證方法(fa)論;第(di)五章(zhang)呈現全流程實驗結(jie)果(guo);第(di)六章(zhang)探討未來sUAS數據采(cai)集路徑;第(di)七章(zhang)總結(jie)研究并給出(chu)結(jie)論陳述(shu)。
信(xin)息戰(zhan)的(de)(de)(de)(de)(de)戰(zhan)場已(yi)轉移至在(zai)線社(she)交網(wang)(wang)(wang)絡,影(ying)(ying)響(xiang)力(li)行(xing)動(dong)在(zai)此(ci)以(yi)(yi)前所未有的(de)(de)(de)(de)(de)速度和規模(mo)運作。與(yu)任何戰(zhan)略領(ling)域(yu)一樣,成(cheng)功需要(yao)理解環境、建模(mo)對(dui)手并執行(xing)干(gan)預(yu)措(cuo)施(shi)(shi)。本教(jiao)程介紹(shao)了一種用(yong)于(yu)(yu)社(she)交媒(mei)體信(xin)息作戰(zhan)(IO)的(de)(de)(de)(de)(de)正式優(you)化框架(jia),其目標(biao)是通過(guo)有針對(dui)性的(de)(de)(de)(de)(de)行(xing)動(dong)塑造輿(yu)論。該(gai)框架(jia)由網(wang)(wang)(wang)絡結(jie)構、用(yong)戶(hu)觀點(dian)和活(huo)動(dong)水平等參數(shu)化——所有這些(xie)都必須從數(shu)據中估計(ji)或推斷。討論了支持此(ci)過(guo)程的(de)(de)(de)(de)(de)分析工(gong)(gong)具(ju)(ju),包括用(yong)于(yu)(yu)識別(bie)有影(ying)(ying)響(xiang)力(li)用(yong)戶(hu)的(de)(de)(de)(de)(de)中心(xin)性度量、用(yong)于(yu)(yu)檢測社(she)區結(jie)構的(de)(de)(de)(de)(de)聚類算法以(yi)(yi)及(ji)用(yong)于(yu)(yu)衡量公(gong)眾情緒的(de)(de)(de)(de)(de)情感分析。這些(xie)工(gong)(gong)具(ju)(ju)要(yao)么直接輸入(ru)優(you)化流(liu)程,要(yao)么幫助防(fang)(fang)(fang)御(yu)分析師解讀信(xin)息環境。在(zai)描繪環境圖景后(hou),我們重點(dian)強調(diao)了諸如(ru)協調(diao)的(de)(de)(de)(de)(de)機(ji)器人網(wang)(wang)(wang)絡、極端分子(zi)招募和病毒式虛假信(xin)息等威脅。應對(dui)措(cuo)施(shi)(shi)范圍廣(guang)泛,從內(nei)容層面的(de)(de)(de)(de)(de)干(gan)預(yu)到數(shu)學優(you)化的(de)(de)(de)(de)(de)影(ying)(ying)響(xiang)力(li)策(ce)(ce)略。最后(hou),生(sheng)成(cheng)式人工(gong)(gong)智能(neng)(AI)的(de)(de)(de)(de)(de)出現(xian)改變了進攻和防(fang)(fang)(fang)御(yu)兩方面,既(ji)“使說(shuo)服能(neng)力(li)擴(kuo)散(san)化”,又實現(xian)了可擴(kuo)展的(de)(de)(de)(de)(de)防(fang)(fang)(fang)御(yu)。這種轉變呼吁(yu)算法創新、政策(ce)(ce)改革和倫(lun)理監督,以(yi)(yi)保護我們數(shu)字(zi)公(gong)共領(ling)域(yu)的(de)(de)(de)(de)(de)完整(zheng)性。
國(guo)家(jia)選(xuan)舉(ju)候選(xuan)人勢均(jun)力敵。選(xuan)民分裂并固守于其意識形態陣營。但在(zai)集會和政(zheng)策辯論的(de)表象之下,一場(chang)更(geng)具戰略(lve)性的(de)行(xing)(xing)動正在(zai)展開。千里之外的(de)外國(guo)特工(gong)策劃行(xing)(xing)動以改變局(ju)勢平(ping)衡——不(bu)是通(tong)過(guo)投票機黑(hei)客(ke)攻擊或選(xuan)票造(zao)假,而是通(tong)過(guo)模(mo)因(yin)(meme)、假新聞和旨在(zai)操縱社(she)交媒體話語的(de)自動化賬戶(hu)網(wang)絡。
這就是(shi)信(xin)息(xi)戰(zhan)的(de)現代現實。影響(xiang)(xiang)力已從廣播和(he)報紙轉移到數十億(yi)人每日聚(ju)集的(de)數字網絡。在這里,戰(zhan)爭的(de)工具是(shi)推文(wen),戰(zhan)場是(shi)信(xin)息(xi)流和(he)時(shi)間線,而勝利者則是(shi)那些理(li)解(jie)信(xin)息(xi)如何(he)流動、觀點如何(he)形成以及公眾情緒如何(he)通過精(jing)心設計的(de)信(xin)息(xi)被影響(xiang)(xiang)的(de)人。
信(xin)(xin)息作戰(zhan)(IO)指的(de)是通(tong)過(guo)控制信(xin)(xin)息流來(lai)影響(xiang)、破(po)壞或(huo)操縱人(ren)群(qun)信(xin)(xin)念(nian)或(huo)決策的(de)協(xie)調行(xing)動。雖然(ran)信(xin)(xin)息作戰(zhan)長期以來(lai)以傳統(tong)形式存在(zai)——例如(ru)宣傳和(he)心(xin)理(li)戰(zhan)——但社(she)交(jiao)(jiao)媒體(ti)的(de)興(xing)起極大(da)(da)(da)地放(fang)大(da)(da)(da)了其影響(xiang)范圍和(he)效力(li)(li)。一(yi)條信(xin)(xin)息可以在(zai)早晨設計出來(lai),并在(zai)下午(wu)通(tong)過(guo)病毒(du)式分(fen)享和(he)參(can)與度優化(hua)的(de)算法傳播(bo)給數百萬人(ren)。這些(xie)(xie)平(ping)臺旨(zhi)(zhi)在(zai)最大(da)(da)(da)化(hua)用(yong)(yong)(yong)戶(hu)(hu)注意力(li)(li)而非確保真(zhen)實性,為(wei)試圖(tu)大(da)(da)(da)規模散(san)布混亂或(huo)分(fen)裂的(de)行(xing)為(wei)者創(chuang)造了理(li)想條件。要理(li)解信(xin)(xin)息作戰(zhan)如(ru)何(he)在(zai)線上顯現(xian),理(li)解關鍵行(xing)為(wei)者和(he)所涉及的(de)內(nei)容(rong)類型(xing)至(zhi)關重要。社(she)交(jiao)(jiao)媒體(ti)平(ping)臺由普通(tong)用(yong)(yong)(yong)戶(hu)(hu)、機器人(ren)(bot)、網絡水軍(troll)和(he)極端分(fen)子混合(he)組成(cheng)。機器人(ren)是模仿人(ren)類行(xing)為(wei)的(de)自動化(hua)賬戶(hu)(hu)——大(da)(da)(da)規模放(fang)大(da)(da)(da)內(nei)容(rong)、扭曲參(can)與度指標或(huo)用(yong)(yong)(yong)協(xie)調一(yi)致(zhi)的(de)信(xin)(xin)息淹沒對(dui)話。網絡水軍是故(gu)意挑釁、誤導或(huo)破(po)壞對(dui)話以散(san)布不和(he)或(huo)操縱輿(yu)論的(de)人(ren)類用(yong)(yong)(yong)戶(hu)(hu)。極端分(fen)子同樣利用(yong)(yong)(yong)社(she)交(jiao)(jiao)平(ping)臺,但其目(mu)標更為(wei)嚴(yan)重,旨(zhi)(zhi)在(zai)使受眾激進(jin)化(hua)、招募(mu)追隨者或(huo)煽動暴力(li)(li)。這些(xie)(xie)惡意行(xing)為(wei)者對(dui)平(ping)臺上的(de)普通(tong)用(yong)(yong)(yong)戶(hu)(hu)構成(cheng)重大(da)(da)(da)風險。
除了(le)極端分子構(gou)成的(de)(de)(de)直接威脅和(he)暴力(li)呼吁外,另一種危險來自虛假內(nei)容的(de)(de)(de)傳播。此類內(nei)容通常(chang)旨在引(yin)發強(qiang)烈情緒反應而(er)非(fei)傳遞(di)準(zhun)確信息(xi)(xi)。最(zui)常(chang)見(jian)的(de)(de)(de)類型包括錯誤信息(xi)(xi)(無意(yi)欺騙而(er)分享(xiang)的(de)(de)(de)虛假信息(xi)(xi))和(he)虛假信息(xi)(xi)(故意(yi)欺騙而(er)分享(xiang)的(de)(de)(de)虛假信息(xi)(xi))[11]。兩種形式都(dou)可能對(dui)個(ge)人造成傷害(hai)并侵(qin)蝕公眾信任(ren)。社(she)交媒(mei)體平臺(tai)的(de)(de)(de)高度連通性使此類內(nei)容得以(yi)(yi)(yi)迅速廣泛傳播,可能對(dui)個(ge)人、機構(gou)乃(nai)至(zhi)整個(ge)社(she)會造成嚴重損害(hai)。要設(she)計有(you)效的(de)(de)(de)信息(xi)(xi)作戰(zhan),我(wo)們首先(xian)必須了(le)解(jie)需(xu)要知道和(he)控制什么。我(wo)們需(xu)要描述(shu)網絡結構(gou)——誰(shui)(shui)與誰(shui)(shui)互動以(yi)(yi)(yi)及(ji)信息(xi)(xi)如何流動。需(xu)要了(le)解(jie)公眾輿論的(de)(de)(de)現(xian)狀,以(yi)(yi)(yi)及(ji)任(ren)何現(xian)有(you)影響力(li)活動的(de)(de)(de)存在和(he)有(you)效性。最(zui)后,我(wo)們必須明(ming)確可用于干預的(de)(de)(de)工具和(he)手段:我(wo)們可以(yi)(yi)(yi)部(bu)署的(de)(de)(de)代理(li)、他們可以(yi)(yi)(yi)創建(jian)的(de)(de)(de)內(nei)容以(yi)(yi)(yi)及(ji)我(wo)們可以(yi)(yi)(yi)觸(chu)達的(de)(de)(de)受眾。
這自然引出了一(yi)(yi)個優化(hua)(hua)公式(shi),稱之(zhi)為(wei)信(xin)息作戰優化(hua)(hua)問題,其(qi)中(zhong)先前(qian)研究[49, 6, 100]中(zhong)確(que)定的(de)影(ying)響(xiang)力(li)活動(dong)的(de)分析維(wei)度被(bei)轉化(hua)(hua)為(wei)決(jue)策變(bian)量和(he)目(mu)(mu)標。我們將(jiang)社交媒體環(huan)境表示為(wei)一(yi)(yi)個網絡(luo) G = (V, E),其(qi)中(zhong) V 是一(yi)(yi)組(zu)用戶,E 捕捉他們之(zhi)間(jian)的(de)關系——例如(ru)關注關系、行為(wei)相似(si)性或信(xin)息流速率。每個用戶 i ∈ V 在時間(jian) t 持(chi)有狀態 Θi,t,代表其(qi)對(dui)給定主(zhu)題的(de)觀(guan)點、信(xin)念或情緒。目(mu)(mu)標是在時間(jian)范(fan)圍 T 內(nei)引導這些觀(guan)點,以(yi)實(shi)現(xian)期望的(de)戰略成果,例如(ru)建(jian)立共識、減少兩極分化(hua)(hua)或對(dui)抗(kang)對(dui)手影(ying)響(xiang)力(li)。
這就是“監測、識別、評估、反制(zhi)”(MIAC)框(kuang)架發揮核心(xin)作用的(de)地方。它提供了信息作戰優(you)化(hua)問(wen)題的(de)結構化(hua)分解(jie),每個階(jie)段要么(me)貢獻于(yu)關鍵輸(shu)入(ru)的(de)確定,要么(me)貢獻于(yu)可操(cao)作干預措施的(de)設(she)計。如圖1所示,以(yi)反制(zhi)機器人影(ying)(ying)響這一(yi)具(ju)體問(wen)題為例(li),這個順序流程展示了如何將原始觀測數據轉化(hua)為有針對性的(de)影(ying)(ying)響力(li)活動。
圖1 MIAC流程將(jiang)信息作戰優化(hua)問(wen)題分解為(wei)四(si)個相互依存的(de)階段。每個階段為(wei)下(xia)一階段提供(gong)輸入,將(jiang)原始(shi)數據轉化(hua)為(wei)結構化(hua)的(de)干預措施。此示例說明了在(zai)在(zai)線討論(lun)中(zhong)反制機器人(ren)的(de)影響(xiang)。改編自[86]。
“監測”(Monitor)通(tong)(tong)過構建(jian)網(wang)絡(luo) G = (V, E) 并估計初始(shi)用(yong)(yong)戶(hu)狀(zhuang)態 θ0 來(lai)啟(qi)動該過程,利(li)用(yong)(yong)用(yong)(yong)戶(hu)互動、內(nei)(nei)容曝光模(mo)式(shi)和(he)情緒分布等數據。“識(shi)別”(Identify)檢(jian)測網(wang)絡(luo)中嵌入(ru)的(de)(de)對手行為(wei)者——機器人(ren)或(huo)其(qi)他協調團體——他們可能被移除(在(zai)平臺層(ceng)面行動的(de)(de)情況下)或(huo)明(ming)確納入(ru)狀(zhuang)態(例如觀點)動態建(jian)模(mo)中。“評估”(Assess)通(tong)(tong)過模(mo)擬(ni) f(·) 來(lai)建(jian)模(mo)狀(zhuang)態軌跡的(de)(de)演(yan)變,量化正在(zai)進行的(de)(de)活(huo)動的(de)(de)有效性,并幫(bang)助根(gen)據期(qi)望(wang)的(de)(de)網(wang)絡(luo)級結果定義目標函數 e(·)。最(zui)后,“反制”(Counter)通(tong)(tong)過選擇和(he)部署最(zui)優干預措施(shi)來(lai)完成(cheng)閉環。這涉及選擇適當的(de)(de)行為(wei)者類型、行為(wei)策略、內(nei)(nei)容特征和(he)定向計劃——表示為(wei)決策變量 (a, b, c, d)——以影(ying)響網(wang)絡(luo)。人(ren)工智(zhi)能(AI)工具通(tong)(tong)常用(yong)(yong)于(yu)大規(gui)模(mo)生(sheng)成(cheng)和(he)分發(fa)有說服力的(de)(de)內(nei)(nei)容,使這些(xie)干預措施(shi)更高效且可擴展。
這種(zhong)分(fen)解(jie)既提供了(le)流程(cheng)(cheng)清晰度,也提供了(le)計(ji)算可(ke)處理性(xing)(xing)。MIAC 不是端到端地(di)解(jie)決一個(ge)龐大(da)的(de)優(you)化問(wen)題,而(er)是實現(xian)了(le)一個(ge)模(mo)塊(kuai)化的(de)工作(zuo)流程(cheng)(cheng),其中每個(ge)階(jie)段(duan)約束(shu)并告知下一個(ge)階(jie)段(duan),從而(er)減少解(jie)空間的(de)維度并使干預(yu)措施與現(xian)實世界(jie)的(de)約束(shu)保(bao)持一致(zhi)。在(zai)實踐(jian)中,“反制”階(jie)段(duan)是戰略設(she)計(ji)變為執行的(de)環(huan)節。大(da)規(gui)模(mo)部署影響(xiang)力不僅(jin)需要確定說什么以及對誰說,還需要生成在(zai)情感和(he)修辭上能引起受眾共(gong)鳴的(de)內容。現(xian)代生成式人(ren)工智能工具(ju)——尤其是大(da)型語言(yan)模(mo)型(LLM)[126, 27, 3]——在(zai)此發揮著變革性(xing)(xing)作(zuo)用。這些系統可(ke)以生成由情緒、語氣、幽默和(he)用戶偏好塑造的(de)針對性(xing)(xing)、適應性(xing)(xing)強(qiang)的(de)信息,從而(er)使優(you)化的(de)輸(shu)出(chu)可(ke)操作(zuo)化,并閉合分(fen)析與行動之間的(de)循(xun)環(huan)。本教程(cheng)(cheng)的(de)其余(yu)部分(fen)遵循(xun) MIAC 結構。
第(di)(di)(di)(di)2節介紹社交媒體分(fen)析(xi)的(de)基(ji)礎方法,重點關注網(wang)絡中心性和社區檢測(ce)。第(di)(di)(di)(di)3至第(di)(di)(di)(di)6節為每個 MIAC 階段提供詳細方法。第(di)(di)(di)(di)7節探討人工智能工具(ju)如何增強信息作戰(zhan)威(wei)脅和防御。我們在第(di)(di)(di)(di)8節以這(zhe)個快速演進領域(yu)中的(de)開放(fang)研究問題作為結束(shu)。
近十(shi)年來,無人機(ji)(ji)(UAV)在(zai)(zai)軍(jun)事對(dui)抗、災害(hai)管(guan)(guan)理、氣象監(jian)測及(ji)物(wu)流配送等領域(yu)的(de)應用(yong)持續(xu)深(shen)化。隨著無人機(ji)(ji)從受控(kong)(kong)環境(jing)轉向真實場景,外源性及(ji)內源性"不確定性"因(yin)素深(shen)刻影響其任務規(gui)劃與(yu)決策機(ji)(ji)制(zhi)(zhi)。在(zai)(zai)無人機(ji)(ji)需求激增的(de)背景下,各國政府加速(su)完善監(jian)管(guan)(guan)體系(xi),亟(ji)需設計能高(gao)效管(guan)(guan)控(kong)(kong)空域(yu)交通的(de)"監(jian)視(shi)安防系(xi)統(tong)",尤(you)其在(zai)(zai)管(guan)(guan)制(zhi)(zhi)空域(yu)。基于此(ci)背景,本(ben)論文聚焦空域(yu)安全(quan)問題,在(zai)(zai)不確定環境(jing)下提供兼顧"目標捕(bu)獲"與(yu)"碰撞規(gui)避"的(de)安全(quan)規(gui)劃解決方案。
本文首先提出多(duo)智能體協(xie)同捕(bu)獲目標的空域安防策(ce)略。針(zhen)對"多(duo)追(zhui)捕(bu)者(zhe)-多(duo)逃逸者(zhe)"問(wen)題的計(ji)算(suan)(suan)復雜性,采(cai)用基于博弈幾(ji)何(he)特征的啟發(fa)式算(suan)(suan)法,開發(fa)計(ji)算(suan)(suan)高效(xiao)(xiao)的任(ren)務分(fen)配機制。研究(jiu)從雙追(zhui)捕(bu)者(zhe)單逃逸者(zhe)模型切入,通過解(jie)析最優(you)追(zhui)捕(bu)策(ce)略推導(dao)出獨立于逃逸策(ce)略的"動態(tai)分(fen)配算(suan)(suan)法"。該算(suan)(suan)法進一(yi)步擴(kuo)展至(zhi)任(ren)意數量、異(yi)速智能體的多(duo)追(zhui)捕(bu)多(duo)逃逸場景,實現追(zhui)捕(bu)方協(xie)同作戰效(xiao)(xiao)能最大(da)化(hua)。
隨(sui)后(hou)引入隨(sui)機(ji)(ji)干擾因素,運用"前(qian)向可達性分析(xi)"與"協方(fang)(fang)差控制"理論(lun)解(jie)(jie)析(xi)隨(sui)機(ji)(ji)流(liu)場(chang)中(zhong)(zhong)的(de)追逃博弈(yi)。首次在(zai)(zai)約束(shu)博弈(yi)框架下研究對抗場(chang)景(jing)中(zhong)(zhong)的(de)"高(gao)斯分布導(dao)向"問題,通過迭代技術數值求解(jie)(jie)協方(fang)(fang)差控制方(fang)(fang)程。所(suo)提方(fang)(fang)法成功應用于導(dao)彈"末(mo)段制導(dao)"場(chang)景(jing),并(bing)延伸(shen)至外源(yuan)隨(sui)機(ji)(ji)流(liu)場(chang)追逃博弈(yi):基于線(xian)性反饋控制策略(lve),在(zai)(zai)參(can)與者(zhe)標稱(cheng)解(jie)(jie)空間構(gou)建"機(ji)(ji)會約束(shu)協方(fang)(fang)差博弈(yi)"模型。線(xian)性/非線(xian)性流(liu)場(chang)仿真驗(yan)證表明,追捕方(fang)(fang)可有效引導(dao)博弈(yi)趨向捕獲狀態。
最(zui)終(zhong)聚焦參(can)數(shu)化不(bu)確定(ding)性(xing)研究。首先構建參(can)數(shu)不(bu)確定(ding)條件下(xia)的(de)最(zui)優(you)控制框架(jia),引入"敏(min)感度(du)函數(shu)"與(yu)"共態變量(liang)"技(ji)術增強參(can)數(shu)擾動(dong)魯棒性(xing)。利(li)用敏(min)感度(du)函數(shu)解決含"動(dong)態障(zhang)礙物"(運(yun)動(dong)模型不(bu)確定(ding))環境的(de)安全路徑規(gui)劃問題,進(jin)而將該方法擴(kuo)展(zhan)至類"戰爭迷(mi)霧"態勢的(de)博弈論建模。
圖1.1:(a)"極速航空(kong)"是(shi)亞馬(ma)遜(xun)開發(fa)的(de)未(wei)(wei)來(lai)物流系統,通過無(wu)(wu)(wu)人(ren)機(ji)(UAV)在30分鐘內將包(bao)裹安全送(song)達(da)客戶;(b)無(wu)(wu)(wu)人(ren)機(ji)攔截(jie)器追蹤侵(qin)入(ru)管(guan)制空(kong)域的(de)無(wu)(wu)(wu)人(ren)機(ji),使用抓捕網實施捕獲。基于多(duo)無(wu)(wu)(wu)人(ren)機(ji)協同的(de)反無(wu)(wu)(wu)人(ren)機(ji)技術,是(shi)構建未(wei)(wei)來(lai)智(zhi)能(neng)空(kong)基平臺(tai)的(de)解決(jue)方案之一。
AI技術(shu)演(yan)進及(ji)發展(zhan)背景 根據Gartner新興技術(shu)成(cheng)(cheng)熟度(du)曲線的(de)(de)(de)(de)(de)分析,生(sheng)成(cheng)(cheng)式Al于(yu)2022年底迎來(lai)爆發期,隨(sui)后(hou)快速發展(zhan),2024年末得益于(yu)DeepSeek的(de)(de)(de)(de)(de)開(kai)源模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing),低成(cheng)(cheng)本(ben)本(ben)地(di)(di)化(hua)大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)方(fang)案(an)(an)正(zheng)在大(da)(da)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)商(shang)(shang)業(ye)落地(di)(di),大(da)(da)大(da)(da)減低了(le)(le)A智(zhi)能(neng)(neng)體的(de)(de)(de)(de)(de)部(bu)署(shu)(shu)難(nan)度(du)及(ji)隱私風(feng)險(xian)。使(shi)大(da)(da)多數企業(ye)可(ke)以接(jie)觸到普(pu)惠可(ke)用(yong)的(de)(de)(de)(de)(de)本(ben)地(di)(di)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)。 同時生(sheng)成(cheng)(cheng)式Al能(neng)(neng)實(shi)現(xian)長(chang)(chang)文本(ben)、長(chang)(chang)代(dai)碼、圖片和視(shi)頻生(sheng)成(cheng)(cheng)的(de)(de)(de)(de)(de)多模(mo)(mo)(mo)(mo)(mo)(mo)(mo)態生(sheng)成(cheng)(cheng),Al智(zhi)能(neng)(neng)體已經(jing)鋪開(kai)試點,逐步(bu)走向(xiang)商(shang)(shang)業(ye)化(hua)。 Al Agent概念(nian)界(jie)定 Al Agent是(shi)一種(zhong)能(neng)(neng)夠感知環境、自主決策(ce)并(bing)執行(xing)(xing)任(ren)務以實(shi)現(xian)特(te)定目(mu)標(biao)的(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)系(xi)統,即“人工智(zhi)能(neng)(neng)代(dai)理”國(guo)內(nei)一般稱為為“Al智(zhi)能(neng)(neng)體”,一般可(ke)以根據用(yong)戶的(de)(de)(de)(de)(de)需要(yao),理解并(bing)執行(xing)(xing)對應操(cao)作,完成(cheng)(cheng)復雜(za)任(ren)務。相較于(yu)傳統大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing),AI智(zhi)能(neng)(neng)體具(ju)備(bei)調用(yong)多種(zhong)大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)、多種(zhong)API、多種(zhong)插件的(de)(de)(de)(de)(de)能(neng)(neng)力(li)(li),集合(he)了(le)(le)視(shi)覺聽覺識別功(gong)能(neng)(neng),具(ju)備(bei)多模(mo)(mo)(mo)(mo)(mo)(mo)(mo)態的(de)(de)(de)(de)(de)特(te)征。 目(mu)前主流GPT明(ming)顯如(ru)Chat-GPT、Kimi、DeepSeek等模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)已經(jing)具(ju)備(bei)部(bu)分Agent能(neng)(neng)力(li)(li),同時也是(shi)Agent主要(yao)調用(yong)的(de)(de)(de)(de)(de)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)。 大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)本(ben)地(di)(di)化(hua)部(bu)署(shu)(shu)利好Al Agent,Al Agent市(shi)場(chang)(chang)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)持續(xu)(xu)(xu)擴大(da)(da) AlAgent市(shi)場(chang)(chang)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)持續(xu)(xu)(xu)擴大(da)(da),預(yu)(yu)計從2023年的(de)(de)(de)(de)(de)574億元(yuan)(yuan)增長(chang)(chang)至(zhi)2028年的(de)(de)(de)(de)(de)33009億元(yuan)(yuan)。得以于(yu)DeepSeek的(de)(de)(de)(de)(de)開(kai)源模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing),低成(cheng)(cheng)本(ben)本(ben)地(di)(di)化(hua)大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)方(fang)案(an)(an)正(zheng)在大(da)(da)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)商(shang)(shang)業(ye)落地(di)(di),同時結合(he)大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)及(ji)RPA的(de)(de)(de)(de)(de)AI智(zhi)能(neng)(neng)體鋪開(kai)了(le)(le)試點。 得益于(yu)開(kai)源模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)和本(ben)地(di)(di)化(hua)大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)方(fang)案(an)(an),智(zhi)能(neng)(neng)體的(de)(de)(de)(de)(de)部(bu)署(shu)(shu)難(nan)度(du)和隱私風(feng)險(xian)顯著降(jiang)低。目(mu)前已有23%的(de)(de)(de)(de)(de)企業(ye)確(que)認(ren)本(ben)地(di)(di)化(hua)部(bu)署(shu)(shu),市(shi)場(chang)(chang)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)達到了(le)(le)640億元(yuan)(yuan),預(yu)(yu)計2028年比例增長(chang)(chang)至(zhi)90%。隨(sui)著GPU及(ji)AI處理單元(yuan)(yuan)迭代(dai)帶來(lai)的(de)(de)(de)(de)(de)性(xing)能(neng)(neng)提(ti)升,單位Token的(de)(de)(de)(de)(de)成(cheng)(cheng)本(ben)將(jiang)持續(xu)(xu)(xu)下降(jiang)。 預(yu)(yu)計2025年中(zhong)國(guo)國(guo)央企及(ji)政府(fu)部(bu)門大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)一體機部(bu)署(shu)(shu)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)可(ke)達1236億元(yuan)(yuan),未來(lai)行(xing)(xing)業(ye)滲透率增長(chang)(chang)可(ke)觀(guan)。大(da)(da)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)型(xing)(xing)(xing)一體機本(ben)地(di)(di)化(hua)部(bu)署(shu)(shu)對Al Agent發展(zhan)呈現(xian)利好關系(xi),數據安全與(yu)合(he)規(gui)性(xing)成(cheng)(cheng)為核心驅(qu)動(dong)力(li)(li),技術(shu)協同將(jiang)降(jiang)低部(bu)署(shu)(shu)與(yu)運維(wei)門檻(jian),性(xing)能(neng)(neng)優(you)化(hua)與(yu)場(chang)(chang)景適配能(neng)(neng)力(li)(li)增強,最終成(cheng)(cheng)本(ben)下降(jiang)推動(dong)規(gui)模(mo)(mo)(mo)(mo)(mo)(mo)(mo)化(hua)應用(yong)落地(di)(di)。
本(ben)文探索了(le)(le)(le)在物(wu)(wu)聯(lian)(lian)網(IoT)內(nei)動(dong)態(tai)(tai)(tai)無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)網絡(luo)格局(ju)下,高(gao)效(xiao)無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)控(kong)(kong)制(zhi)方(fang)(fang)法(fa)(fa)的(de)(de)(de)(de)(de)(de)(de)開發(fa)。隨(sui)著(zhu)無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)日益融入(ru)物(wu)(wu)聯(lian)(lian)網生態(tai)(tai)(tai)系(xi)統,解決(jue)(jue)其(qi)(qi)協(xie)同中(zhong)固有(you)(you)的(de)(de)(de)(de)(de)(de)(de)復雜(za)性和挑戰(zhan)(zhan),對于確(que)保可靠性和效(xiao)率(lv)至關重(zhong)要(yao)。論文始于對物(wu)(wu)聯(lian)(lian)網概念和無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)網絡(luo)的(de)(de)(de)(de)(de)(de)(de)深(shen)入(ru)探討,概述(shu)了(le)(le)(le)關鍵應用領(ling)域,并(bing)描述(shu)了(le)(le)(le)最先(xian)進(jin)的(de)(de)(de)(de)(de)(de)(de)解決(jue)(jue)方(fang)(fang)案,特別是在定(ding)(ding)位與跟(gen)蹤方(fang)(fang)面。此(ci)外,它還審視了(le)(le)(le)先(xian)進(jin)的(de)(de)(de)(de)(de)(de)(de)無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)航(hang)路規劃(hua)策(ce)略(lve),強調了(le)(le)(le)其(qi)(qi)帶來的(de)(de)(de)(de)(de)(de)(de)機(ji)(ji)(ji)(ji)遇和所蘊含的(de)(de)(de)(de)(de)(de)(de)關鍵挑戰(zhan)(zhan)。論文的(de)(de)(de)(de)(de)(de)(de)主體部分引入(ru)了(le)(le)(le)新穎的(de)(de)(de)(de)(de)(de)(de)協(xie)作算(suan)法(fa)(fa),這些(xie)算(suan)法(fa)(fa)源于確(que)定(ding)(ding)性原理和人(ren)(ren)(ren)(ren)工(gong)智能(neng)(neng)(AI)技術(shu)。這些(xie)算(suan)法(fa)(fa)受到鳥群(qun)等自然現象的(de)(de)(de)(de)(de)(de)(de)啟發(fa),使無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)能(neng)(neng)夠協(xie)作確(que)定(ding)(ding)其(qi)(qi)在動(dong)態(tai)(tai)(tai)物(wu)(wu)聯(lian)(lian)網環(huan)境(jing)中(zhong)追蹤移動(dong)傳(chuan)感器(qi)的(de)(de)(de)(de)(de)(de)(de)航(hang)線。隨(sui)著(zhu)這些(xie)方(fang)(fang)法(fa)(fa)有(you)(you)效(xiao)性的(de)(de)(de)(de)(de)(de)(de)證(zheng)明,它們如何增強無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)合(he)作并(bing)顯著(zhu)提升(sheng)跟(gen)蹤效(xiao)率(lv)變(bian)得顯而易見(jian)。基于此(ci)基礎,論文接下來介紹(shao)了(le)(le)(le)一(yi)種創新的(de)(de)(de)(de)(de)(de)(de)深(shen)度強化學習(DRL)方(fang)(fang)案,賦予自主無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)智能(neng)(neng)體能(neng)(neng)力,使其(qi)(qi)能(neng)(neng)在物(wu)(wu)聯(lian)(lian)網網絡(luo)內(nei)高(gao)效(xiao)地制(zhi)定(ding)(ding)最優數據(ju)收(shou)集策(ce)略(lve)。通過利用DRL,無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)持續從(cong)其(qi)(qi)環(huan)境(jing)和行動(dong)中(zhong)獲(huo)取洞見(jian),適(shi)應變(bian)化并(bing)做出智能(neng)(neng)決(jue)(jue)策(ce)以優化其(qi)(qi)數據(ju)收(shou)集策(ce)略(lve)。該方(fang)(fang)案調整了(le)(le)(le)最先(xian)進(jin)的(de)(de)(de)(de)(de)(de)(de)算(suan)法(fa)(fa),使其(qi)(qi)能(neng)(neng)有(you)(you)效(xiao)擴展到現實世(shi)界物(wu)(wu)聯(lian)(lian)網應用中(zhong)常(chang)見(jian)的(de)(de)(de)(de)(de)(de)(de)高(gao)維狀(zhuang)態(tai)(tai)(tai)-行動(dong)空間。本(ben)研究(jiu)為圍繞無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)-IoT集成(cheng)的(de)(de)(de)(de)(de)(de)(de)持續討論做出了(le)(le)(le)貢獻(xian),提供了(le)(le)(le)無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)控(kong)(kong)制(zhi)的(de)(de)(de)(de)(de)(de)(de)新穎方(fang)(fang)法(fa)(fa)。這些(xie)方(fang)(fang)法(fa)(fa)的(de)(de)(de)(de)(de)(de)(de)引入(ru)為在物(wu)(wu)聯(lian)(lian)網范式(shi)中(zhong)創建更高(gao)效(xiao)、更自主的(de)(de)(de)(de)(de)(de)(de)無人(ren)(ren)(ren)(ren)機(ji)(ji)(ji)(ji)網絡(luo)開辟(pi)了(le)(le)(le)新途(tu)徑,凸顯了(le)(le)(le)人(ren)(ren)(ren)(ren)工(gong)智能(neng)(neng)在此(ci)背景下的(de)(de)(de)(de)(de)(de)(de)未開發(fa)潛力,并(bing)為該領(ling)域的(de)(de)(de)(de)(de)(de)(de)未來發(fa)展奠(dian)定(ding)(ding)了(le)(le)(le)基礎。
本文后(hou)續包含五(wu)個不(bu)同的章節:一章是對(dui)該研究努力在論(lun)文背景下探索的相關文獻進行(xing)的綜述;三章——每章專門分(fen)析和解決一項既定主要研究目標(biao);以及一章討(tao)論(lun)研究發現、評(ping)估目標(biao)達成情況并總結論(lun)文。
第2章(zhang)深(shen)入探(tan)討了本工(gong)作(zuo)(zuo)的(de)背景(jing),其結(jie)構旨在(zai)為建(jian)立本論文基礎的(de)相關研究和(he)文獻提供(gong)詳盡的(de)分析。該章(zhang)首(shou)先(xian)全面概述了物聯網范式,確立了其在(zai)當前技術(shu)格局中的(de)關鍵作(zuo)(zuo)用(yong)。然后(hou)焦點轉(zhuan)向無人(ren)機(ji)網絡,討論了其獨特特性(xing)、操作(zuo)(zuo)應(ying)(ying)用(yong)(重點關注(zhu)定位與跟蹤方法),以及航路規劃優化面臨的(de)挑戰和(he)當前技術(shu)。這為理解當前無人(ren)機(ji)網絡的(de)能力和(he)局限性(xing)奠定了堅實(shi)基礎。綜述的(de)后(hou)半部(bu)分審視了人(ren)工(gong)智能在(zai)無人(ren)機(ji)集群(qun)管理中潛在(zai)的(de)作(zuo)(zuo)用(yong)。它(ta)始于評估(gu)機(ji)器(qi)學習在(zai)無人(ren)機(ji)控制中的(de)應(ying)(ying)用(yong),繼(ji)而探(tan)討如何使用(yong)深(shen)度強化學習技術(shu)來實(shi)現高效無人(ren)機(ji)導航。
第3章題為“新型(xing)無人(ren)(ren)機(ji)(ji)控制確(que)定(ding)(ding)性技(ji)術的(de)(de)開發”,涉及在協(xie)作(zuo)式無人(ren)(ren)機(ji)(ji)控制領(ling)域研(yan)究確(que)定(ding)(ding)性方(fang)法(fa)。該章通過引入一種新確(que)定(ding)(ding)性技(ji)術的(de)(de)基礎為后(hou)續內容(rong)鋪墊,隨后(hou)對其(qi)在無人(ren)(ren)機(ji)(ji)控制中的(de)(de)應用(yong)進(jin)(jin)行了(le)廣泛考察。它深入分析了(le)如何利用(yong)該技(ji)術來加強(qiang)無人(ren)(ren)機(ji)(ji)在用(yong)于搜救行動中的(de)(de)移(yi)動IoT傳感器追蹤應用(yong)中的(de)(de)協(xie)作(zuo)。此外(wai),它評估(gu)了(le)該方(fang)法(fa)的(de)(de)優缺點,揭示了(le)潛在的(de)(de)挑戰和改進(jin)(jin)領(ling)域。本次調(diao)查的(de)(de)發現為后(hou)續探索人(ren)(ren)工(gong)智能在無人(ren)(ren)機(ji)(ji)控制中的(de)(de)應用(yong)鋪平了(le)道路,并為不同的(de)(de)控制策略建立了(le)比較(jiao)框架。
第4章題為“推進(jin)無人(ren)(ren)機控(kong)制:集(ji)群(qun)(qun)形(xing)成中(zhong)的(de)深(shen)(shen)(shen)(shen)度(du)(du)學習(xi)”,標志著從(cong)傳統(tong)確定性(xing)(xing)技術向(xiang)探索(suo)深(shen)(shen)(shen)(shen)度(du)(du)學習(xi)方法在(zai)無人(ren)(ren)機集(ji)群(qun)(qun)形(xing)成與(yu)群(qun)(qun)體協同范圍內(nei)應用的(de)轉(zhuan)變(bian)。本(ben)章介紹了設計和實現一(yi)個能夠促進(jin)無人(ren)(ren)機集(ji)群(qun)(qun)形(xing)成的(de)深(shen)(shen)(shen)(shen)度(du)(du)學習(xi)模(mo)型,重(zhong)點突(tu)出(chu)了其創建(jian)高(gao)效、適應性(xing)(xing)強的(de)群(qun)(qun)體編隊的(de)能力,從(cong)而(er)進(jin)一(yi)步(bu)提升了純確定性(xing)(xing)方案的(de)移動IoT傳感器跟蹤性(xing)(xing)能。對深(shen)(shen)(shen)(shen)度(du)(du)學習(xi)的(de)探索(suo)引(yin)領至(zhi)研究的(de)下一(yi)步(bu):利用深(shen)(shen)(shen)(shen)度(du)(du)強化(hua)學習(xi)優(you)化(hua)無人(ren)(ren)機航(hang)路規(gui)劃。
第5章(zhang)(zhang)(zhang)題(ti)為“多智(zhi)(zhi)能(neng)(neng)(neng)體無(wu)(wu)(wu)人(ren)機(ji)(ji)航路規(gui)劃優(you)化(hua)”,代表了(le)本(ben)研究(jiu)歷程的(de)(de)(de)(de)頂點,它整合了(le)從(cong)前幾章(zhang)(zhang)(zhang)獲得(de)的(de)(de)(de)(de)認知,以(yi)應對一(yi)個不同(tong)且更復雜(za)的(de)(de)(de)(de)問題(ti):即(ji)在IoT情(qing)境下優(you)化(hua)多智(zhi)(zhi)能(neng)(neng)(neng)體無(wu)(wu)(wu)人(ren)機(ji)(ji)航路規(gui)劃以(yi)實現高效(xiao)數據收集。本(ben)章(zhang)(zhang)(zhang)主(zhu)要聚(ju)焦于引入一(yi)種新穎的(de)(de)(de)(de)深度(du)強(qiang)化(hua)學(xue)習框架(jia),論證其能(neng)(neng)(neng)夠管理多智(zhi)(zhi)能(neng)(neng)(neng)體系統(tong)的(de)(de)(de)(de)動態特性,并在多重(zhong)約束(shu)條件下優(you)化(hua)無(wu)(wu)(wu)人(ren)機(ji)(ji)航線。詳細的(de)(de)(de)(de)研究(jiu)和分析(xi)揭(jie)示了(le)所提出的(de)(de)(de)(de)框架(jia)如何能(neng)(neng)(neng)夠產生(sheng)高效(xiao)、適(shi)應性強(qiang)的(de)(de)(de)(de)無(wu)(wu)(wu)人(ren)機(ji)(ji)網(wang)(wang)絡,這些(xie)網(wang)(wang)絡具(ju)備處理錯綜(zong)復雜(za)現實場(chang)景(jing)的(de)(de)(de)(de)能(neng)(neng)(neng)力。本(ben)章(zhang)(zhang)(zhang)不僅(jin)強(qiang)調了(le)智(zhi)(zhi)能(neng)(neng)(neng)系統(tong)在無(wu)(wu)(wu)人(ren)機(ji)(ji)航路規(gui)劃優(you)化(hua)中的(de)(de)(de)(de)重(zhong)要性,也闡釋了(le)其在物聯網(wang)(wang)基(ji)礎設施(shi)內極大推進無(wu)(wu)(wu)人(ren)機(ji)(ji)控(kong)制領域(yu)的(de)(de)(de)(de)潛力。
最后,第6章總結(jie)(jie)研究(jiu),回顧(gu)關鍵發現、其意(yi)義以及(ji)未(wei)來前景。它分析(xi)了研究(jiu)成果,承認了局限性,并(bing)提(ti)出了未(wei)來的(de)研究(jiu)方向。它以強調智能無人機控制優化中未(wei)開發的(de)潛力作結(jie)(jie),以激勵(li)該領域的(de)進一步(bu)創新。
微(wei)型(xing)無人機在業余愛(ai)好(hao)者、攝影(ying)師以及像亞馬遜這樣(yang)計劃在英國測試無人機配送系統(tong)的(de)(de)公(gong)司中引起(qi)了日益(yi)濃(nong)厚的(de)(de)興趣。然而,這些(xie)(xie)平(ping)臺(tai)也被用于犯罪活動(dong),構成諸(zhu)如走(zou)私和(he)(he)空(kong)域(yu)干擾等危(wei)險。雷(lei)達(da)傳(chuan)感器(qi)在主動(dong)識(shi)別和(he)(he)跟(gen)蹤這些(xie)(xie)平(ping)臺(tai)方面展(zhan)現(xian)出潛(qian)力(li),即使在惡劣條(tiao)件下(xia)也是如此。需要(yao)(yao)進(jin)(jin)(jin)行大量(liang)研究(jiu)以理(li)解其(qi)獨(du)特的(de)(de)信號變異(yi)性,從而促進(jin)(jin)(jin)成功的(de)(de)探測和(he)(he)分類算法實現(xian)。研究(jiu)表明,雷(lei)達(da)傳(chuan)感器(qi)能(neng)夠主動(dong)探測和(he)(he)評估此類平(ping)臺(tai)。此外,這些(xie)(xie)傳(chuan)感器(qi)還具有(you)在遠距離、惡劣天氣條(tiao)件和(he)(he)低光(guang)照環境下(xia)有(you)效運行的(de)(de)優(you)勢(shi)。為了促進(jin)(jin)(jin)這些(xie)(xie)新型(xing)飛行器(qi)安全融入低空(kong)空(kong)域(yu),需要(yao)(yao)進(jin)(jin)(jin)一步研究(jiu)以理(li)解它們發出的(de)(de)獨(du)特信號特征,而雷(lei)達(da)系統(tong)是滿足此需求的(de)(de)理(li)想(xiang)候選者。
本工作討論了(le)(le)(le)一(yi)種定制化雙波段自適應(ying)調(diao)頻連續波(FMCW)雷(lei)達(da)(da)系統的(de)(de)開(kai)發,其(qi)獨特之處(chu)在(zai)(zai)于能夠實(shi)(shi)時(shi)(shi)調(diao)整眾多雷(lei)達(da)(da)參數(shu),這種能力在(zai)(zai)學術(shu)界鮮有探索。該項(xiang)目(mu)已達(da)(da)到(dao)較高的(de)(de)技(ji)術(shu)成熟度等級(TRL),該系統能夠無需(xu)人工干預即可部署(shu)在(zai)(zai)野(ye)外,同(tong)時(shi)(shi)提供實(shi)(shi)時(shi)(shi)信號處(chu)理(li)和(he)即時(shi)(shi)用(yong)戶反饋。首先(xian)進(jin)行了(le)(le)(le)文獻研究以識別挑戰,隨后對雷(lei)達(da)(da)進(jin)行了(le)(le)(le)概念設(she)計(ji)(ji)并推進(jin)到(dao)制造階段,對其(qi)進(jin)行了(le)(le)(le)測試以確(que)保滿足既(ji)定標準,最后將(jiang)其(qi)封裝進(jin)便攜(xie)式外殼中。為了(le)(le)(le)利用(yong)低功耗設(she)備,同(tong)時(shi)(shi)滿足問題定義的(de)(de)要求(qiu),必須從(cong)頭(tou)開(kai)發一(yi)種新穎的(de)(de)信號處(chu)理(li)實(shi)(shi)現(xian)方案。通(tong)過此(ci)功能,在(zai)(zai)2023年(nian)秋(qiu)季進(jin)行的(de)(de)兩次活動(dong)中廣(guang)泛收(shou)集了(le)(le)(le)一(yi)個大型雷(lei)達(da)(da)微多普勒(le)特征數(shu)據庫,并設(she)計(ji)(ji)了(le)(le)(le)一(yi)個分(fen)類器,在(zai)(zai)18K幅圖像上實(shi)(shi)現(xian)了(le)(le)(le)99.2%的(de)(de)分(fen)類準確(que)率。
本論文的撰寫(xie)旨在引導(dao)未來的雷達(da)工(gong)程(cheng)師應對(dui)FMCW設計中(zhong)呈現的挑(tiao)戰(zhan),以(yi)及真(zhen)實系統的生產生命周期和(he)部署,同時兼顧數據處理限制(zhi)和(he)對(dui)原始研究目標的解決。
在我的研究過程中,我協助為多家科學期刊和會議論文集進行了超過75篇稿件的同行評審。我也是FPGA和編程社區的積極貢獻者。本項目的新穎研究貢獻陳述如下:
? 一款定制化的FMCW自適應雷達系統經過精心設計、組裝,能夠部署在野外,適用于戶外測量。這已通過2023年秋季進行的多次成功試驗得到驗證。該系統的主要目標是擴展雷達系統在無人機探測領域的研究范圍。
? 一個定制的FPGA加速信號處理系統已從頭設計和實現,允許實時處理和顯示來自S波段和C波段的FMCW數據。這包括可以精確控制的距離時間信息和多普勒時間信息。
? 無人機在飛行中的動力學特性已通過數學模型進行建模,并利用所設計的FMCW雷達系統驗證了其部分特性。基于此分析,開發了一系列分類算法對收集到的整套數據進行分類。
? 該系統使得能夠收集市場上各種商(shang)用(yong)無人機的新(xin)穎雷達(da)數(shu)據,并因此生(sheng)成了多個(ge)數(shu)據庫。最(zui)值得注意(yi)的是探索了不同雷達(da)參(can)數(shu)和波形效果的數(shu)據集,這些參(can)數(shu)和波形在(zai)操作(zuo)過程中可進行自適(shi)應(ying)調(diao)整。
論文將按如下結構呈現:
? 第2章將涵蓋本工作背后的核心理論概念,探討核心電磁(EM)和雷達基礎原理,以及該博士項目涉及的其他相關主題。將從雷達散射截面(RCS)理論開始,并將其擴展到雷達距離方程。接著將介紹FMCW雷達,討論其波形以及對雷達距離方程所需的修改。然后介紹多基地雷達,包括一些伴隨的數據融合和決策級理論。隨后是FMCW信號處理部分,最后是關于無人機飛行動力學的一些基礎數學章節。
? 第3章,文獻綜述將包含本項目初期一篇期刊出版物[25]的摘錄,其內容截至2018年3月是準確的,本章將稍作擴展以納入一些近期工作。
? 第4章,將涵蓋雷達系統設計與開發,記錄FMCW雷達系統的設計過程。包括框圖和高頻(RF)功率電平預算,省略電路原理圖。它還將包括雷達系統的校準過程以及相關的性能指標,如接收機噪聲系數和波形相位噪聲。
? 第5章,是現場可編程門陣列(FPGA)加速信號處理部分,將探討在硬件中實現的FMCW信號處理階段,涵蓋最終加速處理系統的優勢、劣勢和性能。它還將詳細說明圖形用戶界面(GUI)的使用方式、數據流以及自適應雷達參數。
? 第6章,將涵蓋實驗測試與測量,包含在2023年秋季使用所開發的雷達系統進行的真實實驗活動的結果。這些實驗活動側重于解決無人機探測與識別的關鍵問題,并展示使用預訓練和調整的深度神經網絡(DNNs)訓練得到的分類結果。
? 第7章,將最終總(zong)結論(lun)文,概述所進(jin)行的(de)工作、研究發現,指出需要改進(jin)的(de)領域以及(ji)未來的(de)研究潛力。