摘要—對通用人工智能(AGI)的追求使具身智能成為機器人研究的前沿課題。具身智能關注的是能夠在物理世界中感知、推理并行動的智能體。要實現魯棒的具身智能,不僅需要先進的感知與控制能力,還需具備將抽象認知扎根于現實交互中的能力。在這一過程中,兩項基礎技術——物理模擬器與世界模型——已成為關鍵推動力量。物理模擬器為訓練與評估機器人智能體提供了可控、高保真度的環境,使復雜行為的開發變得安全而高效。相比之下,世界模型為機器人賦予了對環境的內部表示能力,從而使其能夠進行預測性規劃和超越直接感知的自適應決策。本文系統回顧了近年來通過物理模擬器與世界模型融合學習具身智能的研究進展。我們分析了這兩者在提升智能體自主性、適應性與泛化能力方面的互補作用,并探討了外部模擬與內部建模之間的協同關系,如何推動從模擬訓練走向真實部署的跨越。通過整合當前的研究成果與開放問題,本文旨在為構建更強大、更具泛化能力的具身智能系統提供全面的視角。我們還維護了一個持續更新的文獻與開源項目倉庫,地址為:
//github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 關鍵詞—具身智能,世界模型,物理模擬器,自動駕駛,機器人學習
隨著人工智能 [1][2] 與機器人技術 [3][4] 的快速發展,智能體與物理世界的交互日益成為研究的核心焦點。通用人工智能(AGI)——即能在多樣領域中匹敵甚至超越人類認知能力的系統——的追求,提出了一個關鍵問題:如何將抽象推理能力扎根于對現實世界的理解與行動之中?
智能機器人作為具身智能體,正在成為通往 AGI 的重要媒介,它們為計算智能與真實環境交互之間架起了物理橋梁。不同于僅在符號或數字數據上運作的“非具身”智能系統,具身智能強調通過與環境的物理交互來實現感知、行動與認知的結合。這一范式使機器人能夠在任務執行過程中持續根據來自物理世界的反饋調整其行為與認知,從而使機器人不再只是人工智能的一個應用場景,而是通向通用智能的關鍵組成部分。 具身智能的意義遠不止于完成物理任務。借助對物理身體的感知與行動 [5],機器人可以通過持續交互實現穩健的經驗學習、假設檢驗與策略優化。這種對感知輸入、運動控制和認知處理的閉環整合,構成了真正自主性與適應性的基礎,使機器人能夠更類人地推理與響應世界 [6]。
隨著智能機器人在現實世界中的廣泛部署,例如老年照護 [7]、醫療輔助 [8]、災害救援 [9] 和教育 [10] 等場景,它們在動態不確定環境中自主、安全運行的能力變得尤為關鍵。然而,應用場景的多樣性與技術進步的高速演化,使得亟需建立一個系統性框架來評估與比較機器人能力。建立一個科學合理的機器人智能分級系統,不僅有助于明確技術發展路線,也為監管、安全評估與倫理部署提供了關鍵指導。 為應對這一需求,近期研究探索了多種機器人能力量化框架,如 DARPA 機器人挑戰賽的評估機制 [11]、服務機器人安全標準 ISO 13482 [12],以及關于自主等級的評述 [13][14]。盡管如此,仍缺乏一個能夠綜合智能認知、自主行為與社會交互維度的完整分級體系。
在本研究中,我們提出了一個針對智能機器人的能力分級模型,系統地定義了從基礎機械執行到高級完全自主社會智能的五個等級(IR-L0 至 IR-L4)。該分級體系涵蓋自主性、任務處理能力、環境適應能力與社會認知等關鍵維度,旨在為智能機器人的技術演進提供統一的評估與指導框架。 推動機器人實現智能行為的核心技術包括兩個方面:物理模擬器與世界模型。二者在提升機器人控制能力與擴展潛能方面發揮著關鍵作用。Gazebo [15]、MuJoCo [16] 等模擬器可對物理世界進行顯式建模,提供可控環境,使機器人在部署前能夠進行訓練、測試與行為調優。這些模擬器如同訓練場,幫助機器人在避免高昂代價與現實風險的前提下實現行為預測與優化。 與此不同,世界模型則為機器人提供了環境的內部表征,使其能夠在自身認知框架中進行模擬、預測與規劃。按照 NVIDIA 的定義,世界模型是“理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型” [17]。這一概念因 Ha 和 Schmidhuber 的開創性研究 [18] 而受到廣泛關注,該研究展示了智能體如何學習緊湊的環境表征以進行內部規劃。 模擬器與世界模型之間的協同作用能夠增強機器人在多種場景下的自主性、適應性與任務性能。本文將探討機器人控制算法、模擬器與世界模型之間的互動機制。通過分析模擬器如何提供結構化外部環境以訓練智能體,以及世界模型如何構建內部表征以實現更具適應性的決策,我們旨在全面闡述這些組件如何協同提升智能機器人的能力。
覆蓋范圍。 本綜述全面分析了機器人控制算法、模擬器與世界模型之間的相互關系,重點關注 2018 年至 2025 年的最新進展。內容涵蓋了傳統基于物理的模擬器與新興的世界模型,重點突出其在自動駕駛與機器人系統中的應用。 本綜述不同于現有文獻,后者通常聚焦于單一組件(如機器人模擬器 [19]–[21] 或世界模型 [22]–[24]),而本研究則系統地探討了物理模擬器與世界模型在推動具身智能發展過程中的協同作用,揭示它們在智能機器人發展中的互補角色。 主要貢獻:
智能機器人能力分級標準: 提出一個涵蓋自主性、任務處理能力、環境適應能力與社會認知能力四個關鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。 * 機器人學習技術分析: 系統回顧智能機器人在腿式運動(如雙足行走、摔倒恢復)、操作控制(如靈巧操作、雙手協調)與人機交互(如認知協作、社會嵌入)方面的最新技術進展。 * 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質量與傳感器支持能力。 * 世界模型的最新進展: 首先回顧世界模型的代表性架構及其潛在作用,例如作為可控模擬器、動態建模器與獎勵模型在具身智能中的應用。進一步探討專為自動駕駛與關節型機器人設計的最新世界模型方案。
論文結構如圖 2 所示,具體安排如下: * 第 1 節: 引出具身智能的重要性,并闡述物理模擬器與世界模型在其中的作用。 * 第 2 節: 提出一套完整的智能機器人能力分級體系。
第 2.1 節:分級標準 * 第 2.2 節:分級影響因素 * 第 2.3 節:分級定義 * 第 3 節: 回顧機器人在移動性、操作性與人機交互方面的任務能力進展。
第 3.1 節:相關機器人技術 * 第 3.2 節:機器人運動能力 * 第 3.3 節:機器人操作能力 * 第 3.4 節:人機交互能力 * 第 4 節: 討論主流模擬器在機器人研究中的優缺點。
第 4.1 節:主流模擬器綜述 * 第 4.2 節:物理仿真能力 * 第 4.3 節:渲染能力 * 第 4.4 節:傳感器與關節組件支持 * 第 4.5 節:討論與未來展望 * 第 5 節: 介紹世界模型的代表性架構與核心作用。
第 5.1 節:世界模型架構 * 第 5.2 節:世界模型的核心功能 * 第 6 節: 探討世界模型在自動駕駛與關節型機器人中的應用與挑戰。
第 6.1 節:用于自動駕駛的世界模型 * 第 6.2 節:用于關節型機器人的世界模型 * 第 6.3 節:挑戰與未來方向
摘要—多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一項關鍵技術,能夠服務于多種下游任務(如三維目標檢測與語義分割)和應用場景(如自動駕駛與群體機器人)。近年來,基于人工智能的 MSFP 方法取得了顯著進展,并已在相關綜述中有所回顧。然而,通過嚴謹而細致的調研,我們發現現有綜述仍存在一些局限性。一方面,大多數綜述面向的是單一任務或研究領域,例如三維目標檢測或自動駕駛,因此難以為其他相關任務的研究者提供直接參考。另一方面,大多數綜述僅從多模態融合的單一視角介紹 MSFP,缺乏對 MSFP 方法多樣性的系統考量,例如多視角融合和時序融合等。 為此,本文嘗試從任務無關的視角系統梳理 MSFP 研究工作,從多個技術維度出發介紹相關方法。具體而言,我們首先介紹 MSFP 的背景知識,接著回顧多模態融合與多智能體融合方法,進一步分析時序融合技術。在大語言模型(LLM)時代背景下,我們也探討了多模態 LLM 融合方法。最后,本文總結了 MSFP 面臨的挑戰與未來發展方向。我們希望該綜述能幫助研究者理解 MSFP 的重要進展,并為未來研究提供有價值的參考。 關鍵詞—多傳感器融合感知,具身智能,多模態,多視角,時序,多模態大語言模型(MM-LLM)
I. 引言
近年來,得益于深度學習與大語言模型(Large Language Model, LLM)的快速發展,人工智能(Artificial Intelligence, AI)在多個領域取得了顯著進展 [1]–[3]。作為 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理實體為載體,通過在動態環境中的實時感知實現自主決策與行動能力的一種智能形式。具身智能具有廣泛的應用場景,例如自動駕駛和群體機器人智能 [4], [5],近年來已成為 AI 社區的一個研究熱點,同時也被認為是突破當前 AI 發展瓶頸、實現通用人工智能(Artificial General Intelligence, AGI)的關鍵路徑。 在具身智能系統的構建過程中,傳感器數據理解是連接物理世界與數字智能的核心環節。不同于以視覺為主的傳統感知模式,具身智能體(Embodied Agent)需融合多模態傳感器數據,以實現對環境的全景式感知。這些傳感器包括視覺攝像頭、毫米波雷達、激光雷達(LiDAR)、紅外攝像頭和慣性測量單元(IMU)等。多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)對于實現具身智能的魯棒感知與精準決策能力至關重要。例如,視覺攝像頭容易受到光照變化的干擾,而激光雷達在雨霧天氣下的性能也會顯著衰減。 如圖 1 所示,當前面向具身智能的多傳感器融合感知研究主要基于“智能體—傳感器—數據—模型—任務”的基本范式。現有 MSFP 方法在自動駕駛、工業機器人等領域已取得令人矚目的成果,但其在具身智能場景中的應用仍面臨一些固有挑戰。具體而言,首先,跨模態數據的異質性導致難以統一特征空間;其次,不同傳感器之間的時空異步可能造成融合誤差;此外,傳感器故障(如鏡頭污損或信號遮擋)可能導致多模態信息的動態丟失。 圍繞上述問題,如表 1 所示,近年來已有一些綜述工作系統地總結了相關方法 [6]–[14]。盡管這些研究做出了寶貴貢獻,我們在深入調研后仍發現當前綜述存在一些不足。一方面,大多數綜述聚焦于單一任務或研究領域,如三維目標檢測或自動駕駛,使得其他相關任務的研究者難以從中受益。另一方面,大多數綜述僅從多模態融合的單一視角出發,缺乏對 MSFP 方法多樣性的系統探討,例如多智能體融合和時序融合等方向的覆蓋不足。
為此,本文旨在從任務無關的視角對 MSFP 研究進行系統梳理,從多個技術維度純粹地組織與呈現現有方法。具體而言,我們首先介紹 MSFP 的背景,包括不同的感知任務、傳感器數據、主流數據集以及評估指標;隨后,綜述多模態融合方法,涵蓋點級、體素級、區域級以及多層級融合策略;沿此思路,我們進一步分析關注多智能體與基礎設施協同感知的多智能體融合方法;在此基礎上,我們探討將多個時間幀傳感器數據進行聯合建模的時序融合方法;在大模型時代背景下,我們還系統調研了當前基于視覺-語言與視覺-LiDAR 融合的多模態大語言模型(MM-LLM)方法,這一方向在現有綜述中鮮有涉及。最后,我們從數據層、模型層與應用層三個維度,全面討論 MSFP 面臨的挑戰與未來發展機遇。 我們希望本文能幫助研究者全面理解過去十年 MSFP 的關鍵進展,并為未來研究提供有價值的啟發與參考。 **本文其余結構如下:**第二節從不同的傳感器數據、可用數據集和典型感知任務角度介紹 MSFP 的背景;第三節從點級、體素級、區域級和多層級等不同粒度介紹多模態融合方法;第四節總結多智能體協同感知方法;第五節回顧 MSFP 中的時序融合方法;第六節調研當前基于 MM-LLM 的融合方法;第七節探討 MSFP 領域尚未解決的挑戰與未來發展方向;最后在第八節總結全文內容。
摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型
1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。
近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。
生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。
為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。
本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標與對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。
第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。
本論文圍繞實現通用具身智能體的目標,探討了兩個關鍵研究方向:其一是開發逼真且大規模的基準測試與環境,其二是設計學習框架——尤其是動作空間表示——以支持長時序移動操作任務中的高效策略學習。 第一項工作建立了一個用于基準測試與智能體訓練的閉環生態系統。從 iGibson 1.0 和 2.0 開始,我們開發了可支持復雜物體交互的物理交互式三維仿真平臺,模擬真實的家庭環境。在此基礎上,我們提出了 BEHAVIOR 和 BEHAVIOR-1K 基準測試,分別涵蓋 100 和 1000 項日常家庭活動。這些任務基于人類時間使用數據構建,使用靈活的基于邏輯的語言進行定義,并輔以人類虛擬現實演示。為實現可擴展的數據驅動策略訓練,我們提出了 MoMaGen,這是一種示范生成方法,可基于單一人類演示合成數千條多樣化的軌跡。 第二項工作探討了動作空間設計作為歸納偏置在解決長時序機器人任務中的作用。我們首先提出 HRL4IN,這是一種分層強化學習方法,通過高層末端執行器目標對交互式導航進行分解。隨后我們引入 ReLMoGen,這是一種混合方法,在空間目標空間中進行高層探索,并結合低層運動生成以實現高效執行。最后,Chain of Code 利用大型語言模型(LLMs)生成可執行代碼與偽代碼,使智能體能夠將算法推理與常識推理相結合以完成任務。 綜上所述,這些研究工作共同推進了構建具備物理能力、語義理解能力以及對人類對齊的具身智能體的目標。
摘要——圖像匹配旨在建立雙視圖圖像之間的對應關系,以恢復三維結構和相機幾何,是計算機視覺領域的基石,支撐著諸如視覺定位、三維重建和同時定位與建圖(SLAM)等諸多應用。傳統圖像匹配流程由“特征檢測-描述子、特征匹配、離群點過濾與幾何估計器”組成,在復雜場景下往往表現不佳。近年來,深度學習的發展顯著提升了圖像匹配的魯棒性和準確性。本文從一個獨特視角出發,全面回顧了深度學習如何逐步革新經典圖像匹配流程。我們提出的分類方法在兩個關鍵方面與傳統流程高度契合: i)將傳統流程中的各個步驟替換為可學習的模塊,如可學習的特征檢測-描述子、離群點過濾器和幾何估計器; ii)將多個步驟整合為端到端可學習的模塊,如中層稀疏匹配器、端到端半稠密/稠密匹配器和位姿回歸器。 我們首先分析這兩種策略的設計原則、優勢與局限性,隨后在相對位姿恢復、單應性估計和視覺定位等任務上對典型方法進行基準評測。最后,本文討論了當前的開放性挑戰,并展望未來的研究方向。通過系統地分類與評估基于深度學習的圖像匹配策略,本文為不斷演進的圖像匹配研究提供了清晰的全景視圖,并指出了值得深入探索的關鍵路徑。 關鍵詞——三維視覺,圖像匹配,深度學習。
1 引言
計算機視覺通過處理、分析和解釋由相機等傳感器采集的圖像,已成為人工智能感知環境的主要手段之一。而圖像匹配技術通過建立二維圖像之間的三維關系,是計算機視覺眾多應用中的基礎構件,使機器人能夠全面感知世界。該核心技術旨在識別不同視角圖像對中的相同紋理或區域(通常以關鍵點形式表示),并建立圖像間的對應關系(匹配點),從而恢復三維結構并估計各視圖與物體之間的空間關系,支撐圖像檢索 [1]、視覺定位 [2]、三維重建 [3]、運動恢復結構(SfM)[4]、同時定位與建圖(SLAM)[5]、新視角合成 [6] 等廣泛應用。 圖像匹配的研究可追溯至早期的模式識別研究和人類視覺理論 [7],這些理論催生了模板匹配 [8] 和互相關 [9] 方法。隨后,“興趣點”概念被提出 [10],用于定義圖像中具有辨識度的特征點(關鍵點),由此形成了標準的基于特征的圖像匹配流程:包括特征檢測與描述、特征匹配、離群點剔除以及幾何模型估計,該流程如圖 1(II) 所示,并將在第 2 節中簡要回顧。盡管在理想條件下表現良好,但該流程在強光照變化、大視角變換、紋理稀疏、重復圖案或遮擋等極端情況下常常失效。 近年來,基于學習的方法被提出以提升這一基礎流程的魯棒性與準確性。一種直觀策略是將各模塊替換為可學習的組件,如圖 1(III) 所示。這包括:用于更優特征表達的可學習特征檢測-描述子、能在挑戰條件下實現可靠匹配的離群點過濾器、以及用于穩健位姿估計的幾何估計器——盡管仍依賴于特征相似性進行匹配。另一種策略則是將連續步驟整合為統一模塊,形成圖 1(IV) 中展示的三種典型范式: * 中層匹配器(Middle-end Matcher):結合特征匹配與離群點過濾器,在可學習特征空間中直接挖掘圖像間的對應關系; * 半稠密/稠密匹配器(Semi-dense/Dense Matcher):進一步將特征檢測-描述子也納入端到端框架,避免了傳統模塊間的不一致性與不適配問題; * 位姿回歸器(Pose Regressor):跳過顯式匹配,直接回歸兩視圖間的變換關系,無需迭代幾何模型擬合。
上述可學習方法將在第 3 和第 4 節中分別詳述。我們還通過圖 2 所示的時間軸,描繪了基于深度學習的圖像匹配方法的發展歷程。 本文旨在系統回顧機器學習和深度學習如何逐步替代經典圖像匹配流程中的各個組件,回顧各獨立模塊和融合框架的演進歷程,并通過多項任務的統一實驗比較不同方法的優劣。已有的相關綜述多集中于流程中的某一階段。例如,一些早期綜述僅聚焦于特征檢測與描述階段,涵蓋了人工設計方法 [11][12][13] 與可學習方法 [14][15];Zitova 等人 [16] 對整個流程進行了更廣泛的概覽,但該工作早于學習方法的興起;Ma 等人 [17] 首次覆蓋了全流程的手工與可學習方法,但未涉及近期發展的融合模塊。較新的綜述 [18][19] 提出了“基于檢測器的方法”與“去檢測器的方法”等新術語,但未明確將這些方法與傳統流程對應,也未全面涵蓋可學習的幾何估計器、位姿回歸器、多個離群點過濾器及新近圖像匹配方法。 相比之下,本文專注于基于學習的方法,具體貢獻如下: * 提出一種與經典流程對齊的分類方法,全面覆蓋了可替代的可學習模塊與融合式可學習模塊,見圖 1; * 補充了此前綜述中遺漏的相關方法,提供最新全面的圖像匹配研究全貌; * 在相對位姿估計 [20]、單應性估計 [21]、匹配準確率評估 [22] 與視覺定位 [23] 等任務上開展統一實驗,實現公平一致的跨類別比較。
我們的貢獻總結如下:
全面綜述圖像匹配領域中基于學習的方法,提出與傳統流程對齊的分類體系,揭示各模塊如何逐步被可學習方法取代,及多個階段如何融合為統一模塊; * 深入分析可學習替代模塊與融合模塊所面臨的關鍵挑戰,梳理各類代表性解決方案,追蹤各類別內部的方法演進; * 系統評估多個任務中的代表方法,揭示當前學習方法仍未解決的問題,并指出值得探索的未來研究方向。
摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。
本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型
遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:
基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;
學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;
視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。
盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:
對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;
對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;
對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;
討論當前挑戰與未來可能的研究方向。
圖2展示了本文的整體框架。
研究背景構建類人化具身智能體是機器人、虛擬現實和沉浸式技術領域的重要目標。盡管并非所有AI系統都需要模仿人類,但具有類人特征的智能體在遠程呈現、輔助機器人和沉浸式游戲等特定應用中具有顯著優勢。類人外觀增強了虛擬環境中的社交存在感和參與度,類人運動使機器人能夠直接從人類演示中學習并在為人類設計的空間中使用人類工具高效操作,而類人推理則提高了可解釋性和決策能力。然而,實現這些能力面臨著重大的技術挑戰。研究內容與方法本論文從外觀、運動和推理三個關鍵方向探索類人化具身智能體的構建:類人外觀:研究重點在于創建數字環境中與人類相似的具身智能體。提出了一種基于逆向物理和逆向渲染的新框架,從視頻數據中重建逼真、可動畫化的數字人類。該方法通過基于物理的模擬器和渲染器,保留了細粒度的視覺細節,同時捕捉衣物的物理動態,實現了逼真的服裝運動和對新動作的魯棒泛化。類人運動:研究提出了HumanPlus系統,通過"影子學習"將人類運動遷移到人形機器人上,使機器人能夠直接從人類演示中學習復雜技能。通過這種方式收集的演示數據進一步促進了自主技能的現實世界模仿學習。類人推理:研究探索了通過基礎模型和思維鏈推理開發更通用策略的方法,以模擬類人推理并提升性能。提出將中間視覺預測作為視覺-語言-動作模型中的"視覺思維鏈",使智能體在多樣化任務中實現更高性能。研究貢獻本論文的主要貢獻包括:提出了一種基于逆向物理和逆向渲染的數字人類重建框架,實現了逼真的外觀和動態衣物模擬。開發了HumanPlus系統,通過影子學習實現人類運動到機器人的高效遷移,推動了機器人技能學習的實際應用。引入了視覺思維鏈的概念,通過中間視覺預測提升了智能體在復雜任務中的推理能力和性能。
摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。
關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。
人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。
為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。
然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:
這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。
本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。
觸覺感知在機器人與物理環境交互中扮演著重要角色,這一觀點已被廣泛認可。然而,現有的傳感器中,少有能夠在機器人領域中得到廣泛應用。本文提出了一個將觸覺感知融入機器人學習范式的框架,涵蓋從開發到部署的全過程,并通過ReSkin——一種多功能且可擴展的磁性觸覺傳感器為實例。通過探討ReSkin的設計、集成、策略學習和表示學習,本文旨在為機器人學習中有效的感知系統的實現提供指導。我們首先提出ReSkin——一個低成本、緊湊且多樣化的觸覺感知平臺。我們開發了一種自監督學習技術,使得傳感器具備可替換性,通過適應已學習的模型推廣到新的傳感器實例。接下來,我們在靈巧操作的背景下研究了ReSkin的可擴展性:我們引入了D'Manus,一個廉價、模塊化且堅固的平臺,集成了大面積的ReSkin傳感,旨在滿足機器人學習的大規模數據收集需求。基于ReSkin和D'Manus的開發經驗,我們提出了AnySkin——一種專為機器人學習設計的升級版傳感器,它進一步減少了不同傳感器實例之間的響應差異。AnySkin的集成簡單如同給手機戴上手機殼,無需粘附,并表現出更一致的信號。我們將AnySkin部署在精確操控的策略學習場景中,展示了在補充相機信息后任務性能的提升,并實現了跨傳感器實例的零樣本策略遷移。除了傳感器的設計和部署,我們還探索了包括但不限于ReSkin在內的傳感器的表示學習。傳感數據通常是連續的、序列性的,但大多數現有的序列架構研究(如LSTM和Transformer)主要集中在離散模態,如文本和DNA。為填補這一空白,我們提出了分層狀態空間模型(HiSS),一種概念上簡單的新型連續序列到序列預測(CSP)方法。HiSS通過在時間軸上疊加結構化的狀態空間模型來創建層次結構,并且在現有的序列模型(如因果Transformer、LSTM、S4和Mamba)中表現優異。此外,我們引入了CSP-Bench,一個來自真實感知數據的CSP任務新基準。CSP-Bench旨在解決CSP任務中缺乏真實世界數據集的問題,為從事該領域研究的學者提供了寶貴的資源。最后,我們總結了從ReSkin的開發到部署過程中的經驗教訓,并提出了將觸覺感知帶入主流機器人研究中的潛在方向。
引言
傳感設備在幫助機器人有效理解和響應其周圍環境中起著至關重要的作用。其中,觸覺傳感器尤為重要,因為它們為機器人提供了類似于人類的觸覺感知,使其能夠精確地處理物體、檢測障礙物或危險、調整對物體的握力,并有效操縱環境。盡管這一領域多年來取得了顯著進展,但目前仍缺乏一種普遍適用的機器人觸覺感知解決方案。這主要是由于開發、集成和從觸覺傳感器中學習的復雜多步驟過程——每個步驟都面臨著一系列挑戰。本文通過ReSkin——一種專注于耐用性、可擴展性和適用于機器人學習應用的魯棒性磁性觸覺傳感器,提出了一種應對這些挑戰的方案。
人類靈活性的關鍵在于觸覺反饋 [77, 78, 79],這一點長期以來激發了對機器人觸覺傳感器的廣泛研究,始于機器人學的早期 [67, 91]。多年來,微型化和快速原型制作加速了基于各種換能技術的觸覺傳感器的發展 [52]。電阻式 [128, 147] 和壓阻式 [12, 129] 傳感器通過材料在兩個電極之間的變形引起電阻的變化來測量施加的壓力。電容式傳感器 [53, 133] 類似地依賴于測量傳感器變形引起的電容變化來捕捉交互特性。最近,使用相機與彈性體材料相結合的光學傳感器 [40, 90, 146, 152] 通過一系列彈性體變形的圖像捕捉物理交互,成為一種高分辨率的觸覺感知替代方案。其他解決方案則使用MEMS設備 [105, 132] 和壓電材料 [36, 159] 作為記錄物理接觸信息的換能機制。然而,這些傳感方案中的許多存在缺陷,阻礙了它們在機器人領域的普及。除了光學傳感器外,每種傳感技術都需要電路與軟性彈性體之間的直接電氣連接。盡管軟性彈性體的集成在一定程度上提升了觸覺傳感器的接觸適應性,這種非預期的耦合增加了成本并使集成過程變得復雜。光學傳感器通過將傳感電子元件(相機)與傳感界面(彈性體)分離,克服了這一難題,但它們需要相機和彈性體之間有清晰的視線,嚴重限制了其形狀因素并增加了設計復雜性。此外,由于彈性體界面的柔軟性,彈性體比相關電子元件老化更快,需要頻繁更換。然而,傳感器的可替換性和一致的傳感響應,這些在軟性傳感器背景下很少被討論。此外,軟性傳感器復雜的制造程序使其難以規模化生產,并增加了傳感器實例間的響應差異。鑒于這些不足,本文的重點是使用磁性彈性體進行觸覺感知 [69, 70]。磁性換能的使用使ReSkin的電路與作為傳感界面的磁性彈性體完全獨立分離。這使我們的傳感器具有低成本、可擴展性和靈活的形狀因素等優勢,能夠適應不同形狀和大小的表面。我們的制造過程簡單且可重復,從而減少了不同磁性彈性體皮膚實例之間的響應差異,最小化了彈性體更換帶來的干擾,強化了其作為通用機器人觸覺傳感器的適用性。
類似于觸覺感知,人手的多功能性長期以來激勵了許多關于仿人手能力的機器人手研究 [10, 89, 103]。構建這些設備的復雜性導致當代許多解決方案,如Shadow Hand [82, 139] 和Allegro Hand(Wonik Robotics),價格極為昂貴(超過$25,000)、易碎且難以維修。這些缺點與數據驅動機器人的需求相悖,數據驅動機器人依賴大量數據,這反過來要求硬件廉價且能夠應對大規模數據采集的各種挑戰。LEAP Hand [124] 和Trifinger Hand [151] 等解決方案試圖通過創建廉價、通用且易于組裝的機器人手來填補這一空白。然而,盡管觸覺感知被廣泛認為是人類靈活性的核心 [78, 79],但這些解決方案中沒有一個能夠以合理的價格(<$50,000)提供可擴展的觸覺感知集成。D'Manus——一個開源的手部設計,集成了大面積的觸覺傳感,填補了機器人手部觸覺感知領域的這一關鍵空缺。此外,該手完全可以3D打印,具有輔助靈活性的手掌功能,不同于其他設計 [2, 151],還具備其他商業手部設計中沒有的關鍵功能,如內收和外展能力,并且比大多數商用替代品便宜至少10倍。
許多現實世界的控制系統,如風力渦輪機狀態監測 [130]、MRI識別 [84] 和慣性里程計 [4, 98],通常通過處理噪聲傳感數據來推斷環境狀態。傳統的傳感器響應建模主要依賴于分析技術來建模原始測量量(如電阻、電容、磁通)與感興趣量(如力、扭矩、慣性測量)之間的關系 [96, 120]。雖然分析建模在將測得的換能量映射為可解釋的量(如力或接觸位置)方面很有用,但它通常復雜且/或需要嚴格的假設,這些假設無法完全模擬傳感器的行為 [61]。有限元分析等計算技術 [97] 盡管有效,但速度極慢,限制了傳感器在實時環境中的應用。快速原型和制造技術的進步加快了傳感器開發的速度和多樣性,同時也催生了對間接建模技術的需求,這些技術能夠實現這些傳感器的實時部署。機器學習為解決這一問題提供了一種可行的方案,通過無需明確建模驅動換能機制的復雜物理現象來實現隱式傳感器建模 [32, 75]。盡管在視覺和語言方面的深度學習研究展示了跨任務的強大能力 [1, 41],在傳感數據上的有效機器學習模型仍然寥寥無幾 [86, 154]。盡管某些深度學習解決方案在傳感數據上顯示了令人鼓舞的結果,但它們仍然是針對特定傳感器的研究 [71, 153]。傳感學習中存在的兩難局面導致了這一現象:缺乏統一、標記化的傳感數據集,進而導致缺乏處理傳感數據的神經架構研究,從而缺乏對傳感系統能力的理解,而這本應促使更多數據的收集。為解決這一問題,我們提出了一個兩部分的解決方案:CSP-Bench——一個由六個連續序列預測任務組成的基準數據集,以及分層狀態空間模型(HiSS)——一種擅長對連續傳感數據進行序列推理的神經架構,基于在結構化狀態空間模型(如S4和Mamba)中引入時間層次。我們借鑒了視覺和語言領域的成功案例 [85],這些研究展示了在基于學習的推理中,審慎的神經架構選擇和歸納偏差的重要性。我們展示了在跨三種不同傳感器的六項傳感預測任務中,HiSS相較于傳統序列建模架構(如因果Transformer、LSTM、S4和Mamba)表現出色。
隨著機器人學家解決機器人在非結構化環境中操作的問題,特別是隨著深度學習的興起,機器人學習成為一種極具前景的解決方案。集成了最前沿的神經架構 [68, 117, 142] 與密度估計 [30, 93] 和模仿學習算法的技術,使得抓取 [161]、操作關節物體 [42, 107] 以及雙手操作 [162] 的能力得以實現。然而,與本章的持續主題保持一致,集成觸覺感知的機器人學習模型顯著稀缺。對需要對與環境的物理交互進行推理的復雜精確技能學習的分析大多局限于模擬 [28, 92],幾乎沒有討論如何將這些策略遷移到現實世界。替代方法通常涉及復雜、不現實的攝像機設置,以規避缺乏觸覺感知的問題 [3, 5]。本文對融合視覺和觸覺傳感數據的多模態策略學習進行了控制研究,并交叉驗證了所有可用模態在學習有效機器人策略中的重要性和有效性。
本文其余部分的結構如下:第二章介紹ReSkin——一種磁性觸覺皮膚,它的能力以及學習傳感器模型的潛力;第三章介紹D'Manus——一種開源的集成大面積感知的靈巧手設計;第四章介紹升級版的自粘式傳感器皮膚設計,并展示其在策略學習中的可替換性;第五章討論了一個新的基準數據集和一種針對觸覺及其他傳感數據的序列建模的新型學習架構。我們在第六章總結了主要經驗教訓并探討了未來的研究方向。
近日,中國科學院自動化研究所MMC團隊高君宇等研究學者在具身智能視覺語言導航方面的論文被 ICML 2024 錄用,論文提出了一種新的快-慢測試時自適應方法(FSTTA),有效解決具身智能中模型自適應更新的問題。論文是目前視覺-語言導航領域中第一篇被ICML接收的工作,值得關注!
國際機器學習大會(International Conference on Machine Learning,簡稱「ICML」)由國際機器學習協會主辦。本屆會議的投稿量達到了9473篇,相較于去年的6538篇增加了近3000篇,其中有2609篇論文被錄用,錄用率為 「27.5%」 。會議將于7月21日至27日在奧地利維也納召開。
論文標題:Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation 論文作者:Junyu Gao, Xuan Yao, Changsheng Xu 作者單位:中國科學院自動化研究所 論文鏈接://arxiv.org/abs/2311.13209 代碼鏈接:
摘要視覺-語言導航作為實現具身智能的關鍵研究方向,專注于探索智能體如何準確理解自然語言指令并導航至目標位置。在實際中,智能體通常需要以在線的方式執行視覺-語言導航任務,即完成跨樣本的在線指令執行和單樣本內的多步動作決策。由于僅依賴預訓練和固定的導航模型難以滿足多樣化的測試環境,這促使我們探索如何利用未標注的測試樣本來實現有效的在線模型適應。然而,過于頻繁的模型更新可能導致模型參數發生顯著變化,而偶爾的更新又可能使模型難以適應動態變化的環境。為此,我們提出了一種新的快-慢測試時自適應方法(FSTTA),該方法在統一框架下對模型梯度和參數進行聯合的分解與累積分析,以應對在線視覺語言導航任務的挑戰。通過大量實驗驗證,我們的方法在四個流行的基準測試中均取得了顯著的性能提升。值得注意的是,本文是目前視覺-語言導航領域中第一篇被ICML接收的工作。
高效理解和執行人類指令在具身智能領域仍然是一個顯著挑戰。近年來,視覺與語言導航(Vision-and-Language Navigation, VLN)已經成為衡量智能體指令遵循能力的重要平臺。 在實際應用中,如圖1(a)所示,訓練好的VLN智能體需要在多樣化的時間和環境中,實時地、在線地執行用戶指令。迄今為止,大多數現有的VLN任務并沒有遵循在線設置。通常,它們遵循一個獨立的訓練-測試范式,其中模型在訓練集上進行訓練,然后將固定的模型在測試集上進行評估,而不在測試期間進行自適應模型更新。然而,由于在線測試期間環境因素的多樣性(例如,不同的房間布局、物體種類和數量等),固定的預訓練模型不可避免地會遇到數據分布差異[1-2],這一現象對智能體的性能構成了挑戰,并不可避免地出發了一個關鍵性的探討:**智能體是否能夠在執行指令的過程中不斷積累經驗,從而動態地增強其理解和執行能力?**對于現有方法而言,由于在線測試環境中缺乏足夠的標注信息,直接通過監督學習來實時更新模型是不可行的。此外,無監督域適應或半監督學習等其他學習范式在當前情境中也受限于執行效率以及用戶隱私保護的問題。 測試時自適應(Test-Time Adaptation, TTA)作為近年來備受矚目的在線模型更新方法,其通過利用未標記的測試樣本對模型進行自適應調整以適應不同分布類型的測試數據,提高模型的泛化能力和實用性。然而,現有大多數TTA方法未能充分平衡模型的適應性和穩定性,難以直接集成應用于VLN任務中。不同于傳統分類任務中每個測試樣本僅執行一次TTA操作,在線VLN要求智能體在每一個測試樣本內執行一系列動作,并依次處理各個樣本(指令),如圖1(a)所示。在這種情境下,一方面,在每個(或幾個)動作步驟上進行TTA雖然可以使智能體快速適應動態環境,但頻繁的模型更新可能帶來顯著的模型變化,導致累積誤差和災難性遺忘等問題[3-5],從而損害模型的穩定性。另一方面,在每個測試樣本中初始化相同的模型來執行TTA可以保持模型的穩定性,但這種方式可能會阻礙模型從歷史測試樣本中自適應地學習經驗,進而限制了其實現更高性能的潛力。如圖1(b)所示,無論是過快還是過慢的模型更新策略,都難以實現顯著的性能提升。
圖1:在線視覺語言導航任務示例 為解決上述問題,我們提出了一種面向在線視覺-語言導航任務的快-慢測試時適應(Fast-Slow Test-Time Adaptation, FSTTA)方法。該方法基于統一的梯度-參數分解累積框架,通過結合快速和慢速在線更新兩種策略,旨在實現模型適應性和穩定性的平衡。具體而言,在快速更新階段,我們依據測試時期的訓練目標(如熵最小化[6]),在每個動作步驟中來計算優化梯度。然而,由于TTA的無監督特性,這些梯度不可避免地包含噪聲信息。若直接使用這些梯度進行更新,可能會損害模型的適應性,特別是在頻繁執行更新的情況下。因此,我們構建了一個局部坐標系,通過周期性地分析最近多步導航過程中生成的梯度,以尋找更為可靠的優化方向,確保模型在該階段能夠穩定且有效地適應環境變化。隨后,為了進一步緩解過于頻繁的模型更新可能導致的累積誤差和災難性遺忘問題,我們引入慢速更新階段,利用參數變化軌跡分析將模型恢復至一個穩定的狀態,以實現更為精準和穩健的模型優化。這兩個階段在測試過程中交替進行,既保證了模型的穩定性,又實現了對動態環境的快速適應。如圖1(b)所示,相較于其他更新策略,我們提出的FSTTA方法顯著提升了模型性能。 總之,本文的貢獻總結如下: * 鑒于跨樣本在線指令執行和單樣本內多步動作執行的特性,探索了在線視覺語言導航任務,并創新性地提出了一種用于高效導航和模型更新的快-慢測試時適應(FSTTA)方法。 * 提出了一種統一的梯度和參數分解-累積框架,以確保模型在短期快速更新階段能迅速適應環境變化,同時在長期慢速更新階段維持模型的穩健性。 * 在四個公開數據集上開展了大量的實驗與分析,證明了FSTTA方法能夠顯著提升現有視覺語言導航模型的性能,且其有效性優于當前的SOTA測試時自適應方法。當應用于代表性的VLN方法DUET時,FSTTA在離散/連續基準數據集上REVERIE/R2R-CE實現了超過5%的性能提升。
**02. 問題表述 **
給定自然語言指令 ,VLN任務要求智能體通過執行一系列動作在環境中找到目標位置(或物體)。在導航過程中,智能體依據視覺語言信息逐步構建一個無向探索圖
,其中
表示可導航節點,
表示連接邊,
是當前時間步。特別地,圖中添加了一個“STOP”節點來表示停止動作,并與所有其他節點連接。在每個時間步,智能體將接收到一個由36幅單張圖像組成的全景圖,并使用預訓練的視覺模型ViT[7-8]來提取相應的圖像特征
和目標物體特征
。基于所觀測到的特征和執行動作的歷史信息,智能體預測所有當前可導航節點的概率
,并選擇最可能(即最大概率)的一個節點作為下一時刻動作決策。
模型的整體架構如圖2所示,包含快速更新和慢速優化自適應兩個模塊,并在測試期間以固定周期交替執行。在快速更新階段,通過周期性分析短期內多個執行步所生成的梯度,尋找可靠的優化主方向,以避免梯度噪聲和頻繁更新所帶來的干擾;在慢速優化階段,通過類似的方法對先前的模型參數變化軌跡進行分解,基于歷史信息直接調整模型參數,以緩解可能出現的災難性遺忘等問題。另外,我們還利用不確定性信息和迭代更新的實時情況,動態調整自適應學習率,以實現有效可信的模型更新。 由于更新整個模型的計算代價過高,實際應用中難以實現。因此,我們僅針對模型參數中的一小部分進行梯度計算。由于歸一化層中的仿射參數能夠捕捉到數據分布的關鍵信息,大多數TTA方法[6, 9-10]選擇更新這些參數以實現更好的適應性。在本文中,我們選擇了VLN基礎模型的后端LN層執行TTA操作,并凍結了其他參數。為便于表述,我們使用符號 來表示這些待更新的參數。
圖2: 模型的整體架構
3.1 基于梯度分析的快速更新 視覺語言導航是一個連續的決策過程,每個時間步都需要基于歷史信息和當前視覺感知做出合適的導航決策,而傳統的測試時自適應方法在每個時間步僅僅根據當前樣本獨立進行更新,在一定程度上加劇了誤差累積問題[4-5],本模塊通過分解一定周期內記憶的梯度方向,尋找一個具有一致性的最優方向執行模型的迭代更新。 測試導航過程中每個時間步 ,模型需要依據預測分數
選擇執行動作(選定下一個可達節點或者終止導航),并最小化測試時自適應的損失函數(信息熵)以優化模型:
在當前樣本的第 次更新中,所累積前
個時間步的梯度為
,其中
。這些梯度代表了測試期間視覺語言導航模型的學習方向,不可避免地存在著一些誤導信息或噪聲干擾。因此,我們首先通過SVD分解構建一個由
個正交單位向量
所構成的局部坐標系來線性表示梯度:
其中 表示經中心化處理后的梯度矩陣,
分別代表第
大的特征值和相應的特征向量。分解投影后的梯度方差較大的方向意味著,沿這一單位向量方向的梯度一致性較低,更有可能在模型更新時引入錯誤或無關的噪聲影響。為此,需要進一步減少這些發散的梯度投影分量,增強多步中更趨于一致的投影分量,讓模型朝著更有利的方向進行梯度優化,本模塊基于特征值自適應的調整各梯度分量權重,并對其執行長度校準,以聚合生成一個更具魯棒性的優化梯度:
其中梯度累積自適應系數 用于衡量各投影分量的重要性,
表示在第
個投影方向上的平均梯度分量。 由于固定的模型更新學習率可能會阻礙模型的收斂,因此本模塊采用一種動態的學習率調整策略,利用歷史時間步中梯度的一致性表征(方差)以自適應地更新學習率
,以提升模型的性能和穩定性:
其中 是將輸入截斷到區間
的截斷函數,
、
和
分別表示閾值、歷史方差和基礎學習率。由上述生成的梯度和優化學習率,在一個測試樣本中的第
次的快速更新如下式:
。 3.2 基于參數軌跡分析的慢速優化
為了避免頻繁的快速更新導致的災難性遺忘,保持測試期間視覺語言模型的穩定性,本模塊采用不同樣本測試期間所記錄的歷史狀態,以快速更新階段中類似的方法對參數變化軌跡進行分析,每隔 個測試樣本優化模型參數。如圖2,在當前測試階段的第
次慢速優化時,所記憶的先前
個歷史樣本的最后模型狀態為
,其中
。同樣的,由中心化參數變化軌跡矩陣
可以實現SVD分解:
,并且較大特征值對應的單位向量
描述了歷史參數變化的主要方向,較小特征值對應的向量往往包含更多噪聲信息[11],因此為了尋找一個可靠的優化路徑,需要更關注前者。本模塊聚合
個測試樣本的參數變化趨勢作為參考方向
,輔助模型尋找局部最優解:
其中超參數 ,用于為不同的歷史信息分配權重。具體來說,與當前樣本執行時間越接近的模型狀態將獲得更大的權重,因為它們包含了更豐富的、值得參考的樣本信息。另外,參數軌跡分析自適應系數
,用于自適應調整不同參數變化方向的權重,
用于投影方向的校準。由上述生成的梯度和優化學習率,在測試期間第
次的慢速優化如下式:
。 由于慢速更新階段旨在實現穩定的模型學習且不會頻繁調用,因此我們在此階段采用固定學習率。更新后的參數
將用于隨后的測試樣本,繼續執行新的快速更新。
04. 實驗設置
4.1 數據集 實驗選擇了四個常用的標準視覺語言導航數據集:REVERIE[12],R2R[13],SOON[14]和R2R-CE[15],以研究在線視覺語言導航任務中的TTA方法。REVERIE數據集包含10,567張全景圖像和21,702條高階指令,除常規的導航任務外還要求智能體在90種不同建筑環境中完成目標物體定位任務。R2R數據集涵蓋了10,800個全景視圖和7,189條路徑,并提供了導航任務的逐步分解指令。SOON數據集包含3,848組指令以及超過30,000條長距離軌跡,要求智能體根據詳細的指令描述來精確定位目標對象。與前述在離散環境下構建的VLN數據集不同,R2R-CE數據集包含了基于連續環境的16,000個指令-軌跡對,其中智能體能夠自由移動并與障礙物進行交互。 4.2 評估指標 我們遵循之前的方法[7, 12, 17-18],采用最常用的評估VLN智能體的指標,即TL(Trajectory Length):智能體平均路徑長度;NE(Navigation Error):智能體最終位置與目標位置之間的平均距離;SR(Success Rate):成功執行指令(NE小于3米)的比例;SPL(Success weighted by Path Length):由路徑長度加權的成功率;OSR(Oracle Success Rate):在Oracle停止策略指導下的成功率;RGS(Remote Grounding Success rate):目標物體定位任務成功執行指令(輸出的邊界框與真實值的IoU(交并比)≥ 0.5)的比例;RGSPL(RGS weighted by Path Length):由路徑長度加權的RGS。其中,SR和SPL是最常用的評估指標。 4.3 實施細節
為了更符合實際在線VLN應用情境,我們在評估期間將批處理大小設置為1,且隨機打亂每個數據集的測試樣本,依次逐個輸入智能體,其中每個樣本(和每個動作步驟)僅進行一次前向傳播,以模擬在線執行和適應優化過程。對于執行TTA策略的VLN模型,我們在隨機樣本上運行實驗5次并報告平均結果。我們采用DUET[7]和HM3D[18]作為基礎模型。由于HM3D沒有提供R2R-CE的訓練代碼,我們采用其他SOTA方法,如WS-MGMap[19]和BEVBert[20],進行TTA。在我們的FSTTA中,我們僅利用基礎模型的最后四層LN層進行模型更新,這些層的特征維度均為768。我們將快速和慢速更新周期分別設置為M = 3和N = 4,兩階段的學習率分別為 和
。對于動態學習率調整,公式
中的閾值根據經驗設置為
,更新動量
,截斷區間為
。公式(6)中的超參數
。所有實驗均在RTX 3090 GPU上進行。
另外,所有表格中的實驗結果最佳值均用粗體突出顯示。此外,為了更直觀地展示我們方法的效果,從表5到表8中,我們使用了不同的字體顏色來指示我們的方法是否超越了相應的基線方法,其中紅色表示優于基礎模型的結果,藍色表示表現不如基礎模型的結果。 5.1 與其他現有TTA策略的比較 目前,多種TTA策略已被巧妙地集成用于動態模型更新,并取得了顯著進展。盡管在視覺語言導航領域對TTA的探索相對較少,但將當前先進的TTA方法整合到VLN中仍然展現出巨大的潛力。鑒于效率是評估TTA方法的重要指標之一,我們提供了每種方法執行單條指令所需的平均時間以供比較。在對比的方法中,SAR[9]和TENT[6]是常見的基于熵最小化的模型,而NOTE[21]、CoTTA[3]、EATA[4]和ViDA[22]則代表最先進的連續TTA(Continual TTA)方法。如表1所示,FSTTA方法在模型性能和測試效率上均展現了出色的能力。具體而言,在Val Unseen數據集上,我們的方法在SR和SPL上分別比現有最先進的SAR方法提升了6.2%和2.5%,同時測試時間減少了7%。
從結果中可以看出,直接將現有的TTA方法應用于在線VLN任務并不能帶來顯著的性能提升。為了進一步研究TTA方法的效果,我們基于TENT方法探索了不同的更新頻率以及穩定的更新方法。其中,“INT”代表更新間隔,即模型在特定間隔內平均梯度信息后進行一次更新。這些實驗結果與圖1(b)中的描述相一致,展示了我們的方法在時間成本略有增加的情況下,仍然優于其他策略。
表1:VLN基礎模型在REVERIE數據集中采用不同TTA策略的結果
5.2 消融實驗 為了驗證FSTTA策略的有效性,我們將其快速更新Fast和慢速更新Slow兩個階段分別集成到基準模型DUET中。此外,我們還設計了一個基準變體,即將DUET與現有的TTA策略TENT相結合,并采用與FSTTA快速階段相同的更新周期(即相同的M值),直接通過平均梯度實現模型優化。根據表2的實驗結果,快速和慢速更新策略分別使基準模型在SR指標上實現了2.8%和4.3%的提升。此外,動態學習率調整模塊DLR也有助于提升模型的導航能力。
表2:消融實驗結果
表3:歷史遺忘評估實驗結果
5.3 歷史經驗遺忘評估 在線VLN(視覺語言導航)智能體在持續執行新環境中的新指令時,盡管采用了TTA策略以增強其泛化能力,但仍不可避免地面臨歷史環境和指令的災難性遺忘問題。為評估我們的方法是否存在這一問題,我們在REVERIE數據集的Val Seen部分重新評估了我們的方法。與基準模型相比,如表3所示,我們得出以下結論: (1) 采用FSTTA策略的基準模型直接在Val Seen集上進行測試時,其性能得到顯著提升,這驗證了FSTTA策略的有效性; (2) 基準模型在Val Unseen集上應用FSTTA策略后,直接在Val Seen集上進行測試,即便在沒有執行自適應更新的情況下,該模型的性能也能與基準模型相當,這一發現證實了我們的方法有效避免了災難性遺忘的問題; (3) 進一步地,我們將從Val Unseen集上更新后的模型應用于Val Seen集,并采用FSTTA策略,該結果與僅在Val Seen集上進行TTA的模型效果相當,這表明我們的方法在環境適應和經驗積累方面均表現出色,能夠有效地應對新環境和新指令的挑戰. 5.4 泛化性分析 在實際應用中,智能體通常會面臨先前遇見過的熟悉場景與全新的未知場景。前期實驗中,我們分別利用REVERIE數據集中的Val Seen和Unseen部分進行了測試。為了深入驗證模型的泛化能力,我們將Val Seen和Unseen兩部分數據混合成一個統一的數據集進行在線VLN測試。如表4所示,FSTTA策略在該任務中表現優于其他TTA方法,能夠更有效地處理各種測試場景,證明了其在不同環境條件下的穩定性和適應性。
表4:泛化性分析實驗結果
5.5 與其他現有VLN方法的比較 (1)** REVERIE數據集**:表5詳盡展示了在REVERIE數據集上的對比結果。與不執行TTA的基礎模型相比,所提出的方法在大多數評價指標上顯示出顯著的性能提升。具體來說,在驗證集上,我們的方法相較于DUET展示了顯著優勢,SR提升了7.1%,SPL提升了2.7%。這些結果充分證明了FSTTA策略的有效性,同時也彰顯了TTA在視覺語言導航領域的巨大潛力。 (2) R2R數據集:表6展示了在R2R數據集上的對比結果。我們的方法在多個關鍵指標上優于基礎模型。例如,DUET的SR從72%提升到75%,HM3D的SPL從62%提升到63%。值得注意的是,從上述兩個數據集的結果來看,我們的方法在提高VLN成功率的同時,也導致路徑長度(TL)略有增加。我們推測可能的原因是:在線執行TTA可能增加智能體偏離其原始動作執行模式的可能性,導致更多的探索或回溯。這種情況也在表1的各種TTA策略分析中得到了證實。 (3) SOON數據集:表7展示了在SOON數據集上的對比結果。我們的方法在該數據集的大多數指標上均取得了顯著的性能提升,并實現了新的最好結果。具體來說,在驗證集的Val Unseen部分,HM3D-FSTTA在SR和SPL上分別達到了42.44%和31.03%,而之前的SOTA方法GridMM在這兩項指標上的表現分別為37.46%和24.81%。此外,在測試集的Val Unseen部分,我們的方法也顯著提升了DUET的性能,例如,將SPL從21.42%提升至23.23%。 (4) R2R-CE數據集:在連續環境中,FSTTA策略同樣展現了良好的泛化能力。如表8所示,我們的方法在與其他方法的對比中,無論是性能還是穩定性,都表現出優越或相當的水平,進一步證明了FSTTA在應對連續環境變化時的有效性和可靠性。
表5:REVERIE數據集實驗結果
表6:R2R數據集實驗結果
表7:SOON數據集實驗結果
表8:R2R-CE數據集實驗結果
5.6 可視化分析 圖3詳細展示了智能體執行指令的全過程,驗證了我們提出的FSTTA方法能夠在測試階段動態地提升智能體的導航性能。圖中,黃色點代表起始位置,而帶有紅色和綠色標記的有向線則分別指示了錯誤和正確的預測軌跡。通過應用FSTTA策略,基礎模型DUET的探索能力展現顯著增強,能夠更有效地向正確的方向移動,并基于上下文信息和場景布局成功完成了導航任務。
圖3:REVERIE數據集中智能體實際導航路徑可視化
06. 結論
本文探討了在線視覺語言導航任務中測試時自適應策略的可行性。我們提出了一種快速-慢速測試時自適應(FSTTA)方法,通過對梯度和參數進行分解-累積分析,實現了適應性和穩定性之間的平衡。在四個常用的標準視覺語言導航數據集上進行的實驗驗證了該方法的優異性能。未來我們將進一步優化和擴展該方法,以應對更多的應用場景和挑戰。 尚有一些方面值得未來繼續探討。首先,我們的方法側重于調整模型中的歸一化層。盡管這些層在深度學習中被廣泛使用,但仍有一些方法沒有利用它們。解決這一問題的一種可行方法是在相應的模型中引入額外的歸一化層,并使用訓練數據重新訓練模型。未來,我們還將探索如何更新其他類型的層。其次,在本文中,我們通過從測試集中順序輸入不同的樣本數據來簡單模擬在線VLN(視覺導航)設置。將來,我們的目標是構建一個更符合實際應用場景的現實在線學習VLN數據集,以更好地評估TTA(測試時訓練)方法。第三,與基礎模型相比,引入TTA不可避免地會增加額外的計算成本,這是未來改進的一個方向。最后,快速和慢速更新的頻率是固定和周期性的。采用自適應更新調用策略也是一個值得研究的方向。
參考文獻 [1] Gu, J., Stefani, E., Wu, Q., Thomason, J., and Wang, X. Vision-and-language navigation: A survey of tasks, methods, and future directions. In ACL, pp. 7606–7623, 2022. [2] Guhur, P.-L., Tapaswi, M., Chen, S., Laptev, I., and Schmid, C. Airbert: In-domain pretraining for vision-and-language navigation. In ICCV, pp. 1614–1623, 2021. [3] Wang, Q., Fink, O., Van Gool, L., and Dai, D. Continual test-time domain adaptation. In CVPR, pp. 7201–7211, 2022a. [4] Niu, S., Wu, J., Zhang, Y., Chen, Y., Zheng, S., Zhao, P., and Tan, M. Efficient test-time model adaptation without forgetting. In ICML, pp. 16888–16905, 2022. [5] Song, J., Lee, J., Kweon, I. S., and Choi, S. Ecotta: Memory-efficient continual test-time adaptation via self-distilled regularization. In CVPR, pp. 11920–11929, 2023. [6] Wang, D., Shelhamer, E., Liu, S., Olshausen, B., and Darrell, T. Tent: Fully test-time adaptation by entropy minimization. In ICLR, 2021. [7] Chen, S., Guhur, P.-L., Tapaswi, M., Schmid, C., and Laptev, I. Think global, act local: Dual-scale graph transformer for vision-and-language navigation. In CVPR, pp. 16537–16547, 2022d. [8] Li, X., Wang, Z., Yang, J., Wang, Y., and Jiang, S. Kerm: Knowledge enhanced reasoning for vision-and-language navigation. In CVPR, pp. 2583–2592, 2023. [9] Niu, S., Wu, J., Zhang, Y., Wen, Z., Chen, Y., Zhao, P., and Tan, M. Towards stable test-time adaptation in dynamic wild world. In ICLR, 2023. [10] Liang, J., He, R., and Tan, T. A comprehensive survey on test-time adaptation under distribution shifts. arXiv preprint arXiv:2303.15361, 2023. [11] Wang, Z., Grigsby, J., and Qi, Y. Pgrad: Learning principal gradients for domain generalization. In ICLR, 2023e. [12] Qi, Y., Wu, Q., Anderson, P., Wang, X., Wang, W. Y., Shen, C., and Hengel, A. v. d. Reverie: Remote embodied visual referring expression in real indoor environments. In CVPR, pp. 9982–9991, 2020. [13] Anderson, P., Wu, Q., Teney, D., Bruce, J., Johnson, M., Sunderhauf, N., Reid, I., Gould, S., and Van Den Hengel, A. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pp. 3674–3683, 2018. [14] Zhu, F., Liang, X., Zhu, Y., Yu, Q., Chang, X., and Liang, X. Soon: Scenario oriented object navigation with graph-based exploration. In CVPR, pp. 12689–12699, 2021. [15] Krantz, J., Wijmans, E., Majumdar, A., Batra, D., and Lee, S. Beyond the nav-graph: Vision-and-language navigation in continuous environments. In ECCV, pp. 104–120, 2020. [16] Li, J., Tan, H., and Bansal, M. Envedit: Environment editing for vision-and-language navigation. In CVPR, pp. 6741–6749, 2022. [17] Wang, Z., Li, X., Yang, J., Liu, Y., and Jiang, S. Gridmm: Grid memory map for vision-and-language navigation. In ICCV, pp. 15625–15636, 2023f. [18] Chen, S., Guhur, P.-L., Tapaswi, M., Schmid, C., and Laptev, I. Learning from unlabeled 3d environments for vision-and-language navigation. In ECCV, pp. 638–655, 2022c. [19] Chen, P., Ji, D., Lin, K.-L. C., Zeng, R., Li, T. H., Tan, M., and Gan, C. Weakly-supervised multi-granularity map learning for vision-and-language navigation. In NeurIPS, pp. 38149–38161, 2022b. [20] An, D., Qi, Y., Li, Y., Huang, Y., Wang, L., Tan, T., and Shao, J. Bevbert: Topo-metric map pre-training for language-guided navigation. arXiv preprint arXiv:2212.04385, 2022. [21] Gong, T., Jeong, J., Kim, T., Kim, Y., Shin, J., and Lee, S.-J. Note: Robust continual test-time adaptation against temporal correlation. In NeurIPS, pp. 27253–27266, 2022. [22] Liu, J., Yang, S., Jia, P., Lu, M., Guo, Y., Xue, W., and Zhang, S. Vida: Homeostatic visual domain adapter for continual test time adaptation. In ICLR, 2024.
類人智能學習是AI界始終追逐的終極目標。自2006年以來,深度學習的出現極大的推動了人工智能的研究進展,人類似乎找到了解決“抽象概念”的方法。人工智能借助深度學習的力量,已可以在多個應用場景落地,特別是互聯網領域。但就總體發展而言,目前的人工智能距離類人類智能還有很長的路要走。類人智能學習是AI界始終追逐的終極目標。
類人智能的小樣本學習。如果用形象的比喻來說,深度學習(DL)是解決計算機“運籌帷幄”的問題(大量數據形成規律和抽象概念),而小樣本學習是解決計算機“照貓畫虎”的問題(少量數據形成決策)。深度學習更擅長分析規律和預測趨勢,而小樣本學習則具備舉一反三的能力。小樣本學習相當符合人類的思維推理模式,是實現類人人工智能的必由之路。 小樣本研究領域的發展現狀。2011年至2015年,由于小樣本理論不完整,相關論文較少。自2015年以來,隨著深度學習的興起,小樣本學習進入深度學習階段,相關研究論文的數量呈線性大幅增長。國家間,在小樣本學習研究領域的競爭也十分激烈,美國和中國是最大的兩個研究產出國,而美國的私營部門在小樣本學習的投入領先于其他國家。 小樣本學習可以解決AI商業落地難題。2015年是小樣本學習研究進展的分水嶺,開始真正進入深度學習階段,進而帶動AI產業的實質性應用落地。小樣本學習算法的性價比最優,不需要大量數據的標注準備,極大降低了數據標注、算力以及AI交付的工程化成本,對AI應用普惠化起到了至關重要的作用。 工業視覺檢測是小樣本學習的典型應用場景。小樣本學習相關的任務中,計算機視覺是最活躍的研究領域,而AI視覺檢測是小樣本學習在工業領域的突出應用。