摘要:
人工智能(AI)正在重塑科學發現,其角色正從專門的計算工具演化為自主的科研伙伴。我們將**智能體科學(Agentic Science)**定位為“AI for Science”范式中的關鍵階段,在這一階段,AI 系統從部分輔助走向全面的科學自主性。借助大語言模型(LLMs)、多模態系統以及一體化研究平臺,智能體化 AI 展現出在假設生成、實驗設計、執行、分析與迭代改進等方面的能力——這些行為曾被認為是人類獨有的。本綜述從生命科學、化學、材料和物理等領域出發,對自主科學發現進行了面向學科的系統性回顧,綜合各學科的研究進展與突破。我們通過一個綜合框架統一了此前分散的三類視角——過程導向、自主性導向和機制導向——并將其與基礎能力、核心過程及領域特定實現聯系起來。在該框架的基礎上,我們:(i) 追溯 AI for Science 的演進,(ii) 識別支撐科學自主性的五大核心能力,(iii) 將科學發現建模為動態的四階段工作流,(iv) 回顧其在生命科學、化學、材料科學和物理學中的應用,(v) 綜合關鍵挑戰與未來機遇。本研究確立了一個面向學科的自主科學發現綜合視角,并將智能體科學定位為推動 AI 驅動科研進步的結構化范式。 關鍵詞: 智能體科學,自主科學發現,自然科學,AI for Science,智能體化 AI,大語言模型
科學發現正經歷著一場由人工智能(AI)快速演進所驅動的變革性轉變,AI 的角色正在從專門化的工具轉向科研合作者。這一進展標志著“AI for Science”范式中的關鍵階段,即 AI 系統已從充當面向特定任務的計算“神諭”【121, 306, 339, 42, 87, 281, 351】逐步走向智能體科學(Agentic Science)的興起(見圖 1)【229, 220, 81, 274, 157】。智能體科學指的是“AI for Science”演化中的特定階段——主要對應圖 1 中的第 3 級(完全智能體化發現),其前身是第 2 級(部分智能體化發現)。在這一階段,AI 作為自主科學智能體,能夠獨立提出假設、設計并執行實驗、解釋結果,并以更少的人類依賴性迭代完善理論【229, 22】。這種進展得益于諸如 Intern-Discovery 這樣的綜合平臺(其提供了對多樣化 AI 智能體和數據集的訪問),以及 Intern-S1 等展現出深度科學推理能力的多模態模型。 這一轉變受到基礎模型(尤其是大語言模型,LLMs)【82, 256, 351】的最新突破所推動。LLMs 在自然語言理解、復雜推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,從而催生出能夠超越靜態學習流程的 AI 智能體。這類智能體不再僅是被動的模型,而是作為動態的、目標驅動的實體,能夠自主探索科學方法【311, 89, 178, 358】。從假設生成【307, 209】,到自主實驗【22, 317】,再到合成數據集的構建【150】,這些智能體展現出曾被認為僅屬于人類的涌現行為。 與現有綜述的比較。 盡管該領域發展迅速,但關于如何理解與設計日益自主化的科學系統,目前仍缺乏統一的框架。現有綜述大體可分為三類互補視角。過程導向的綜述試圖將 LLM 的能力映射到經典的 與現有綜述的比較。 盡管研究進展迅速,但關于如何理解和設計日益自主的科學系統,仍缺乏統一框架。現有綜述可沿三條互補軸線加以歸類:過程導向的視角將 LLM 的能力映射到經典研究循環【172, 352, 39】;自主性導向的研究依據系統的主動性與責任劃分等級【346, 293】;機制導向的分析則剖析支撐智能體行為的架構基元及其演化角色【220, 331, 81, 274】。盡管這些工作奠定了重要基礎,但仍然碎片化——往往將工作流程、自主性分級或體系結構彼此割裂開來單獨考察。 我們的貢獻。 有別于既有綜述分別從過程、自主性或架構單點切入,本文通過圖 2 所示的綜合框架對上述視角進行統一與拓展,將自主科學發現中的基礎能力—核心過程—領域實現貫通起來。我們圍繞生命科學、化學、材料與物理四大領域,給出面向學科的自主科學發現綜述,系統綜合各學科的研究進展與代表性成果。該統一視角將智能體科學從一個抽象階段提升為貫穿“能力—過程—應用”的結構化研究范式。我們的具體貢獻如下: 1. 繪制 AI for Science 的演進圖譜。 我們追溯了從“計算神諭”到“自主科研伙伴”的演進,形式化地將智能體科學界定為 AI 系統展現自主性、目標驅動推理與迭代學習的階段。 1. 科學智能體的“機理解剖”:五大核心能力。 我們識別并分析科學智能體所需的五項基礎能力:(i) 推理與規劃,(ii) 工具整合,(iii) 記憶機制,(iv) 多智能體協作,以及 (v) 優化與進化。針對每一項能力,我們回顧最前沿的實現(如【169, 25, 189, 32】)與領域特定挑戰。 1. 智能體科學的動態工作流:四個核心階段。 我們將科學發現建模為由智能體驅動的動態四階段工作流:(i) 觀察與假設生成,(ii) 實驗規劃與執行,(iii) 數據與結果分析,(iv) 綜合、驗證與進化。我們強調,智能體可以靈活、動態地組合這些階段以解決復雜科學問題【12, 22, 74, 73】。 1. 跨自然科學的系統綜述。 我們在自然科學四大領域(見圖 4:生命科學、化學、材料、物理)系統回顧智能體系統,覆蓋十余個細分方向,從藥物發現【317】到材料設計【113】,展示了智能體科學的廣泛適用性與領域特定創新。 1. 挑戰與未來機遇。 我們綜合該領域面臨的主要技術、倫理與哲學挑戰——包括可復現性、新發現的驗證與人—智能體協作——并提出研究路線圖,以引導穩健、可信且具影響力的科學智能體的未來發展。
通過上述綜合,我們旨在為智能體科學奠定概念與方法論基礎,引導后續研究走向能夠與人類探究共進化的 AI 系統設計,從而加速科學發現前沿的推進。
摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型
機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。
單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:
結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。
這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。
本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。
本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。
摘要——人工智能(AI)的快速發展顯著擴展了其在各個領域的能力。然而,這也帶來了復雜的技術漏洞,例如算法偏見與對抗脆弱性,它們可能引發重大社會風險,包括虛假信息傳播、不平等、計算機安全問題、現實世界中的事故,以及公眾信任度下降。這些挑戰凸顯了 AI 治理的緊迫性,以指導 AI 技術的研發與部署。為滿足這一需求,我們提出了一個同時整合技術與社會維度的綜合 AI 治理框架。具體而言,我們將治理劃分為三個相互關聯的方面:內生安全(內部系統可靠性)、衍生安全(外部現實危害)和社會倫理(價值對齊與問責制)。我們的獨特之處在于,將技術方法、新興評測基準和政策視角相結合,構建了一個能夠主動促進透明性、問責性與公眾信任的治理框架。通過對 300 多篇參考文獻的系統性回顧,我們識別了三大關鍵系統性挑戰:(1) 泛化差距——現有防御措施難以適應不斷演變的威脅;(2) 評測協議不足——未能充分反映真實部署風險;(3) 監管格局碎片化——導致監督與執法的不一致。我們將這些失敗歸因于當前實踐中的根本性錯位——治理被視為事后補充,而非基礎性設計原則。由此,現有工作往往呈現被動且零散的特征,難以應對技術可靠性與社會信任之間本質上的相互關聯性。對此,我們的研究提供了全面的格局分析,并提出了一個融合技術嚴謹性與社會責任的綜合研究議程。該框架為研究人員、工程師與政策制定者提供了可操作的洞見,用于設計既具備性能穩健性,又符合倫理要求并贏得公眾信任的 AI 系統。代碼倉庫可訪問://github.com/ZTianle/Awesome-AI-SG。 關鍵詞——AI 治理,內生安全,衍生安全,社會倫理,負責任的人工智能
1 引言
人工智能(AI)的快速發展,尤其是大型語言模型(Large Language Models, LLMs)的出現,正在推動科學 [1]、工業 [2] 和社會 [3] 發生深刻變革。這些模型如今已支持從教育、醫療到法律與公共服務等廣泛的應用場景,并在推理 [4]、內容生成 [5] 和決策支持 [6] 等方面展現出前所未有的能力。 然而,伴隨這些進步而來的,是一系列與傳統軟件系統根本不同的新型安全與可靠性挑戰。這些挑戰包括對抗性脆弱性 [7]、幻覺問題 [8] 以及輸出偏差 [9] 等,而這些問題可能被惡意利用并造成嚴重后果。例如,LLM 可能通過提示注入(prompt injection)被操縱以繞過內容過濾,從而生成有害或非法的建議 [10]。由生成模型驅動的深度偽造(Deepfake)技術 [11] 可能被用于虛假信息傳播或非自愿圖像生成,侵蝕公眾信任與隱私。在醫療場景中,錯誤的 AI 生成診斷甚至可能導致錯誤的臨床決策,從而危及生命 [12]。這些案例凸顯了一個重要事實:AI 系統帶來的風險已不再是理論假設——它們正在大規模地影響個人、社區和機構。 針對這些風險,“AI 治理”概念應運而生,作為一個多學科框架,旨在確保 AI 系統不僅在技術上穩健可靠,而且在倫理上對齊、法律上合規,并對社會有益 [13]。AI 治理涵蓋了貫穿 AI 全生命周期的規則、實踐與技術 [14],旨在將透明性、問責制與公平性等原則嵌入系統設計,并在真實部署中推動公眾監督與價值對齊。與將安全視為事后附加措施不同,AI 治理提倡對 AI 風險進行前瞻性、集成化管理 [15]。 更重要的是,AI 治理不僅僅是 AI 安全的延伸 [16]。AI 安全側重于系統層面的穩健性,確保模型在分布偏移、對抗攻擊或數據噪聲下依然表現可靠;而治理的視野更為廣闊,關注 AI 部署過程中的社會、倫理與制度層面。它涵蓋了衍生風險,如隱私侵犯、虛假信息傳播與算法歧視,同時引入法律責任、利益相關方問責機制與倫理審議等手段。因此,治理在技術與社會領域之間架起了橋梁,提供了一種既強大又可被負責任地控制的 AI 構建路徑。 如圖 1 所示,對相關文獻的時間分布分析揭示了 LLM 治理研究領域的演化趨勢。2017—2024 年間,該領域的學術關注度顯著上升,尤其是 2020 年之后。預計到 2025 年底,相關學術論文數量將超過 8,000 篇,顯示出 LLM 在現實應用中的快速部署已經引發了對其治理的迫切討論。 盡管 AI 治理在學界、產業界和政策領域獲得了越來越多關注,但一個能夠跨越這些領域、系統整合且技術扎實的綜合性綜述仍然明顯缺失。現有研究 [17], [18] 往往將技術安全與更廣泛的治理問題割裂開來,或僅聚焦于特定風險(如公平性或對抗魯棒性),缺乏統一的框架。同時,另一類主要源于倫理與法律研究的成果,雖然提供了高層次的規范性分析,但很少涉及新興的實證評估方法、標準化基準與系統級防御手段 [18]。因此,迫切需要一篇綜合性綜述,以全面描繪 AI 治理的整體格局,并將其置于當代 AI 系統快速演進的背景之中。
本研究正是在這種需求下提出的,旨在提供一份全面、系統的 AI 治理綜述,構建一個貫通內生系統可靠性、衍生社會風險與規范治理機制的統一框架,為研究人員、開發者與政策制定者提供參考,從而確保 AI 系統既穩健可靠,又具備可問責性,并與公共利益保持一致。具體而言,我們試圖回答三個關鍵問題: 1. 為何迫切需要研究 AI 治理? 我們識別出研究空白,即治理通常被視為事后補充而非核心設計原則,導致現有防御存在監管碎片化與評估不足的問題。這促使我們將 AI 治理定位為可信 AI 的基礎。 1. 從大量現有工作中可以提煉出哪些開放挑戰與未來治理指引? 我們定義了一個涵蓋三大關鍵維度的統一治理框架:內生安全(如對抗魯棒性、幻覺、可解釋性)、衍生安全(如隱私、偏見、濫用)與社會倫理(如法律規范、問責機制、新興倫理關注點)。借助該分類法,我們對技術與社會風險進行結構化的綜合回顧。 1. 如何定義一個統一的治理框架? 我們系統回顧了 300 多篇參考文獻,分析了視覺、語言與多模態系統中的代表性基準與評估指標,對比了現有方法的優劣,并綜合提出開放挑戰與未來研究方向。
這項多維度的綜述為研究人員、工程師與政策制定者提供了可操作的洞見,幫助他們構建不僅穩健可靠,而且具備社會責任感與倫理對齊的 AI 系統,其整體結構如圖 3 所示。 本研究的貢獻總結如下: * 全面性:從技術視角對 AI 治理進行統一且系統的綜述,涵蓋內生安全(如對抗攻擊、幻覺)、衍生安全(如隱私、偏見)與社會倫理(如倫理與法律問題)。 * 基準整合:整理并對比了相關的最新評測基準(如魯棒性、幻覺、公平性與濫用檢測等基準),促進治理相關主題的可復現研究與標準化評估。 * 治理導向視角:融合技術方法與社會及政策視角,推動 AI 系統設計與透明性、問責性及安全性等原則保持一致的治理框架發展。
我們的綜述圍繞 AI 治理的三大支柱展開,即內生安全、衍生安全與社會倫理。具體而言(參見圖 1):內生安全研究保持持續增長,尤其是在對抗性漏洞、模型魯棒性與透明性方面。安全攻擊與漏洞研究的論文數量從 2021 年的 230 篇增加到 2024 年的 353 篇,魯棒性研究也呈類似上升趨勢,反映了人們對對抗操縱與敏感數據保護的日益關注。盡管透明性與可解釋性相關研究發表數量較少,但自 2017 年以來保持穩定,顯示出學界持續探索理解與審計 LLM 行為的努力。相比之下,衍生安全(如隱私與虛假信息)在近幾年獲得了更快的關注增長。例如,虛假信息問題在 2021 年前幾乎未被關注,但相關論文數量在 2024 年急劇上升至 249 篇,體現了提升 LLM 輸出可信度的現實緊迫性。在社會倫理方面,偏見、責任與問責等主題的研究也在逐漸增多,顯示其受到的關注度不斷提升。 本文的剩余部分安排如下:第 2 節介紹 AI 治理的背景及其與 AI 安全的關系,強調其關鍵動機與基礎原則;第 3 節討論內生安全,包括對抗性漏洞、魯棒性、幻覺與可解釋性問題;第 4 節探討衍生安全,重點關注隱私風險、偏見與歧視,以及濫用與誤用問題;第 5 節涉及社會倫理,包括社會與經濟影響、倫理與法律問題,以及責任與問責機制;第 6 節總結開放挑戰與未來方向,包括技術缺口、監管與倫理考量以及研究機會;最后,第 7 節對本文進行總結。
摘要——從視覺觀測中重建四維空間智能長期以來一直是計算機視覺領域中的核心難題之一,并具有廣泛的現實應用場景。這些應用涵蓋從電影等娛樂領域(側重于基礎視覺要素的重建)到具身智能(強調交互建模與物理現實性)。得益于三維表示和深度學習架構的迅猛發展,該研究方向迅速演進,已遠超以往綜述的覆蓋范圍。此外,現有綜述往往缺乏對四維場景重建中層次結構的系統分析。為填補這一空白,本文提出一種新的視角,將現有方法按照五個逐級遞進的四維空間智能層級進行組織: (1) 第一層級:低層三維屬性的重建(如深度、姿態和點云圖); (2) 第二層級:三維場景組成要素的重建(如物體、人類、結構體); (3) 第三層級:四維動態場景的重建; (4) 第四層級:場景組件之間交互的建模; (5) 第五層級:物理規律與約束的融合建模。 本文最后討論了各層級所面臨的關鍵挑戰,并指出了邁向更高層次四維空間智能的潛在研究方向。為了追蹤該領域的最新進展,我們維護了一個實時更新的項目頁面: //github.com/yukangcao/Awesome-4D-Spatial-Intelligence。 關鍵詞——四維空間智能、低層線索、場景重建、動態建模、交互建模、物理建模、視頻
利用機器學習或深度學習技術自動重建四維空間智能,長期以來一直是計算機視覺領域中的關鍵難題。通過同時捕捉靜態構型與隨時間變化的動態過程,四維空間智能能夠提供對空間環境的全面表示與理解,將三維幾何結構與其時間演化整合在一起。該研究方向因其廣泛的應用場景而受到高度關注,包括視頻游戲 [1]、電影 [2] 和沉浸式體驗(如 AR/VR)[3], [4],其中高保真度的四維場景是實現真實用戶體驗的基礎。 除了這些側重于四維空間智能基本組成部分的應用場景——如深度、相機姿態、點云圖、三維跟蹤等低層線索,以及場景組成要素和動態之外,空間智能還在推動具身智能(Embodied AI)[5], [6], [7] 和世界模型(World Models)[8] 的發展中發揮著核心作用。這些后者的任務更加注重場景中各組成部分之間的交互以及重建環境的物理合理性。 近年來,四維空間智能的重建技術取得了飛速進展。已有若干綜述工作 [9], [10] 從不同角度提供了有價值的視角,并總結了該領域中持續存在的挑戰。例如,[11]–[13] 綜述了通過深度立體匹配獲取低層場景信息的最新進展;[14]–[16] 系統梳理了三維場景重建方面的研究,涵蓋多種輸入模態和多樣的三維表示方式;[9], [10] 則從核心架構出發對動態四維場景重建方法進行了分類。 然而,隨著新型三維表示方法的提出 [17]–[19]、高質量視頻生成技術的發展 [20]–[22]、以及更高效重建模型的出現,該領域已取得顯著進展。盡管如此,現有綜述尚未系統分析動態四維場景的不同組成層級,也未深入探討各層級的發展現狀與關鍵挑戰,導致人們對四維空間智能的理解仍存在碎片化傾向,容易忽略其中的關鍵組成部分。因此,亟需一份全面、系統、與時俱進的綜述來將四維空間智能劃分為不同層級,梳理最新進展,并描繪該研究領域不斷演化的全貌。 基于這一緊迫需求,本文將現有的四維空間智能重建方法劃分為以下五個層級,并分別對其最新進展進行系統梳理: * 第一層級:低層三維線索的重建。
該層級聚焦于深度、相機姿態、點云圖和三維跟蹤等基礎三維線索的重建,這些要素構成了三維場景的基本結構。傳統上,這一任務常被劃分為多個子領域,如關鍵點檢測 [23]–[25] 與匹配 [26]–[29]、魯棒估計 [28], [30]、SfM(結構自運動)[31]–[34]、BA(Bundle Adjustment)[35]–[38]、以及稠密多視圖立體重建(MVS)[39]–[43]。近期方法如 DUSt3R [44] 及其系列擴展 [45]–[48] 致力于聯合求解上述子任務,實現更協同的一體化推理。而 VGGT [54] 則在 Transformer 架構 [49]–[53] 的基礎上,提出了一個端到端系統,能在數秒內高效估計這些低層三維線索。 * 第二層級:三維場景組成要素的重建。
在第一層級的基礎上,第二層級進一步重建場景中的獨立要素,如人類、物體和建筑等。雖然某些方法涉及要素間的組合與空間布局,但通常不對它們之間的交互進行建模或約束。近期方法結合了 NeRF [55]、3D Gaussians [56] 和 Mesh 表示(如 DMTET [18] 和 FlexiCube [57])等創新型三維表示方式,提升了重建細節的真實性、渲染效率以及整體結構一致性,為照片級真實感場景重建和沉浸式虛擬體驗奠定基礎。 * 第三層級:四維動態場景的重建。
本層級引入場景動態,是實現“子彈時間”式四維空間體驗和沉浸式視覺內容的關鍵步驟。現有方法主要分為兩類:一類方法 [58]–[62] 先重建一個靜態的標準輻射場,再通過學習得到的時序變形建模動態過程;另一類方法 [63]–[69] 則將時間作為額外參數直接編碼進三維表示,實現連續動態建模。 * 第四層級:場景組件之間交互的建模。
該層級標志著空間智能研究進入更成熟階段,著眼于不同場景組成部分之間的交互建模。考慮到人類通常是交互的核心主體,早期工作 [70]–[74] 主要聚焦于捕捉人類與可操控物體的動作。隨著三維表示的進步,近期方法 [75]–[80] 可更精確地重建人類與物體外觀,而人-場景交互建模 [81]–[85] 也逐漸成為研究熱點,為構建完整世界模型提供基礎支撐。 * 第五層級:物理規律與約束的融合建模。
盡管第四層級能夠建模場景組件之間的交互,但通常忽略了如重力、摩擦力、壓力等底層物理規律。因此,在如具身智能 [5]–[7] 等任務中,這類方法常難以支持機器人在現實世界中模仿視頻中的動作與交互。第五層級的系統旨在通過引入物理可行性約束來彌補上述不足。近期研究 [86]–[88] 借助如 IsaacGym [89] 等平臺及強化學習方法 [90]–[92],展示了從視頻中直接學習并復現類人技能的能力,標志著向物理一致性空間智能邁出重要一步。此外,對一般三維物體(如變形、碰撞與動力學)和物理場景的建模 [93]–[95] 也成為活躍研究方向,進一步拓展了第五層級的適用范圍。
綜述范圍: 本文主要聚焦于從視頻輸入中進行四維場景重建的方法,具體圍繞上述五個層級梳理關鍵技術進展與代表性工作。所選論文大多來自計算機視覺與圖形學的頂級會議和期刊,并補充了部分 2025 年發布的 arXiv 預印本。我們的選擇標準強調與本綜述主題的相關性,旨在提供該領域近期快速進展的全面概覽。 本綜述不涵蓋純三維生成方法 [96]–[98] 及基于生成式視頻擴散模型 [20]–[22] 的四維生成方法 [99]–[104],因為它們通常只生成單一類型輸入,與四維重建關系較弱。此外,我們也未深入探討各類三維表示方法,相關讀者可參考已有的綜述文獻 [10], [15], [105]–[110]。 組織結構: 圖 1 展示了四維空間智能各層級的整體概覽。接下來的章節中,我們按照從視頻輸入重建五個關鍵層級的流程,構建一個系統的研究分類體系:第 2 節介紹低層三維線索,第 3 節討論三維場景要素,第 4 節聚焦動態場景建模,第 5 節涉及場景交互,第 6 節探討物理規律建模。最后在第 7 節中,我們將對當前方法進行批判性反思,指出各層級仍面臨的開放挑戰,并展望超越現有五層級的四維空間智能未來發展方向。
摘要——在大數據應用時代,聯邦圖學習(Federated Graph Learning, FGL)作為一種新興的解決方案,正在逐步成為協調分布式數據持有者之間集體智能優化與最大限度保護敏感信息之間權衡的關鍵技術。已有的 FGL 綜述雖具有重要價值,但主要集中于聯邦學習(Federated Learning, FL)與圖機器學習(Graph Machine Learning, GML)的集成,進而形成了一些以方法學和模擬場景為核心的早期分類體系。值得注意的是,從“數據中心化”視角出發,對 FGL 方法進行系統性梳理的嘗試尚屬空白,而這一視角對于評估 FGL 研究如何應對數據相關限制、進而提升模型性能至關重要。為此,本文提出了一種雙層次的數據中心化分類框架:(1)數據特征,根據 FGL 所使用數據的結構性和分布性特征對相關研究進行歸類;(2)數據利用,分析訓練過程中應對關鍵數據難題所采用的策略與技術。每一層次的分類框架均由三個正交維度構成,分別對應不同的數據中心化配置。除分類框架外,本文還探討了 FGL 與預訓練大模型的集成應用,展示了其在現實世界中的典型應用案例,并總結了與 GML 發展趨勢相契合的未來研究方向。 關鍵詞:聯邦圖學習,機器學習
圖數據集以非歐幾里得結構形式表示,形式上被定義為由節點(實體)和邊(關系)組成的元組,用以嚴謹地建模復雜的現實世界系統。圖數據集的一個核心優勢在于其能夠顯式地編碼拓撲連接關系,從而突破獨立同分布(i.i.d.)數據的傳統約束,直接捕捉實體之間的交互依賴關系 [1]。與像素化圖像或文本等傳統數據格式不同,圖結構具備獨特的理論優勢,而圖神經網絡(Graph Neural Networks, GNNs)的引入使得機器學習(Machine Learning, ML)算法可以基于傳播機制挖掘隱藏在拓撲結構中的隱式信息結構。由于其顯著的有效性,GNNs 促成了諸如 AlphaFold [2] 等突破性成果,該方法通過氨基酸序列預測蛋白質結構,推動了疫苗和抗體的開發。 鑒于 GNNs 所展現出的卓越性能,眾多開創性模型相繼被提出,例如 GCN [3] 和 GAT [4]。這些方法大多采用以模型為中心的研究視角,強調通過創新的結構設計在給定數據集上實現最優性能 [5]。然而,這類方法的成功往往隱含著一個前提假設:所使用的數據集已經經過充分清洗與處理,性能提升主要歸因于模型結構的日益復雜。但現實世界中的數據常常存在顯著的不確定性,如噪聲干擾或對實體描述的不完整性,這些因素違背了上述假設。當低質量數據被輸入 GNNs 時,模型難以有效提取可靠知識,從而暴露出模型中心范式在實際應用中的脆弱性。 為應對上述局限,數據中心化的圖機器學習(Graph Machine Learning, GML)已逐漸發展為一種更具現實意義的研究范式,專注于解決實際數據問題。相應地,數據中心化 GML 正受到越來越多研究者的關注。然而,大多數現有研究仍假設數據處于集中式存儲環境中,即數據被統一保存在單一位置。與之相比,去中心化的數據中心化 GML 仍屬研究空白,盡管現實中數據往往分散在多個獨立持有者手中。與此同時,對去中心化數據的處理還需滿足隱私保護的嚴格法規要求。對此,聯邦學習(Federated Learning, FL)因其能夠在保障隱私的前提下實現分布式數據協同訓練而備受關注 [6]。 隨著 FL 向圖數據的擴展,聯邦圖學習(Federated Graph Learning, FGL)迅速發展為一個專門的去中心化圖學習框架。現有 FGL 研究普遍基于擬合真實場景的研究問題展開,在此基礎上,已有綜述提出了以“場景挑戰”為導向的分類框架。這些工作為該領域的發展作出了積極貢獻,但其范式主要源自模型中心視角,強調機制創新,卻較少關注數據集本身的特征差異,也未充分討論其數據中心化動因。 本文的動機:本綜述旨在從數據中心化角度出發審視 FGL,源于對以下事實的清晰認知:當前大多數 FGL 面臨的核心挑戰均與數據緊密相關,如統計異質性與拓撲異質性。此外,若要深入理解這些挑戰,就需要關注 FGL 所使用數據的特性,因為現有文獻中已涉及多樣的數據格式與去中心化配置。這種機制本質上是數據中心化 GML 在分布式環境下的延伸。為了幫助研究者從解決數據相關問題的角度更好地理解 FGL,本文致力于提供一個通用且系統化的指南。 具體而言,本文提出一個雙層次的數據中心化分類框架,每一層均由三個正交維度組成,這些組合構成了對現有研究的全面理解: * 數據特征維度:包括(i)區分不同類型的圖數據集(如同質圖、異質圖、知識圖與二分圖);(ii)突出數據在客戶端間的分布形式;(iii)揭示每個客戶端的數據可見性水平,即客戶端是否可以訪問完整全局圖,或僅能訪問部分子圖。這些標準共同構成了對 FGL 研究中所處理數據結構與分布特征的全面刻畫。 * 數據利用維度:探討 FGL 方法如何以及何時將針對數據問題的機制納入訓練過程,具體包括:(i)明確關鍵數據挑戰,如數據質量欠佳、客戶端數據類別分布不均、大規模圖訓練過程中的收斂速度緩慢、以及數據隱私保護的增強;(ii)指出主要創新是集中在客戶端側,還是服務器端的操作流程中;(iii)進一步將訓練過程細化為四個執行階段(初始化、本地訓練、全局聚合與后聚合),并總結典型 FGL 方法中所采用的技術細節。
作為首個聚焦于數據中心化視角的 FGL 綜述,本文的貢獻體現在以下三個方面: * (a)新視角:首次從數據中心化角度系統整理 FGL 研究,厘清不同類型數據在現有工作中的定義與使用方式。該視角契合大數據時代的研究重點,在此背景下,數據屬性正在日益決定機器學習技術的選擇與效果。 * (b)雙層分類體系:提出基于數據中心化視角的雙層次分類框架,每層均由三個正交標準構成,從細粒度上劃分現有重要 FGL 研究,有助于研究者迅速定位與特定數據問題相關的研究成果。 * (c)擴展影響——生成式人工智能:首次探討 FGL 與預訓練大模型(Pre-trained Large Models, PLMs)的整合潛力,以加速圖機器學習研究的進展。未來研究方向部分還指出了多個尚未被充分探索的數據中心化議題,強調其在 FGL 背景下的重要性與研究價值。
本文結構安排如下:第二節介紹 FL 與 FGL 的基本概念及其通用訓練流程;第四節呈現基于數據特性的第一層分類,從本地與全局視角展開;第五節構建第二層分類,具體分析數據中心化挑戰及代表性 FGL 方法的應對策略;第六節討論客戶端處理非圖結構數據的研究;第七節評估 FGL 在解決現實世界數據問題中的適用性;第八節探討 FGL 與 PLMs 的雙向融合;第九節展望未來研究方向,包括 FGL 與 GML 熱點議題的融合,以及向更復雜圖結構類型的拓展。
摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型
1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。
近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。
生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。
為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。
本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標與對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。
第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。
大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。
大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。
本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。
摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在
//github.com/BestJunYu/Awesome-Physics-aware-Generation
1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。
摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。
關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述
1 引言
技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。
例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。
第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。
圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。
本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。
本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。
2 為什么需要對齊與融合
對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。
2.1 提升全面性與魯棒性
對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題
在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性
對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用
對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊
多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊
顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。
DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊
隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法
圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。
這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法
近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。
多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。
編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。
在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。
這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。
模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。
基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。
圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。
自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。
在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。
例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。
持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。
在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。
摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。
人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。
1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。
最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。
時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。
LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。
A. 構建大型語言模型的信任
黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。
2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。
另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。
最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。
具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。
3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。
4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。
5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。
B. 本綜述的主要貢獻
本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。
? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。
C. 本綜述的局限性
本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。
我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。
需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。