亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器人視覺正持續受益于多模態融合技術視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解同步定位與地圖構建(SLAM)三維目標檢測導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊高效融合策略實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV

付費5元查看完整內容

相關內容

強化學習(Reinforcement Learning,RL)與視覺智能交叉領域的最新進展,使得智能體不僅能夠感知復雜的視覺場景,還能在其中進行推理、生成與行動。本文對該領域進行了批判性且最新的綜合綜述。我們首先對視覺RL問題進行了形式化,并梳理了策略優化方法的演變脈絡——從基于人類反饋的強化學習(RLHF)到可驗證獎勵范式,從近端策略優化(PPO)到群體相對策略優化(GRPO)。隨后,我們將200余篇代表性工作歸納為四個主題支柱:多模態大型語言模型、視覺生成、統一模型框架,以及視覺-語言-動作模型。針對每一類,我們分析了算法設計、獎勵工程、基準進展,并提煉出諸如課程驅動訓練、偏好對齊擴散、統一獎勵建模等趨勢。最后,我們回顧了涵蓋集合級保真度、樣本級偏好、狀態級穩定性的評估協議,并指出了包括樣本效率、泛化能力與安全部署在內的開放挑戰。我們的目標是為研究者和從業者提供一幅連貫的視覺RL領域全景圖,并突出未來值得探索的方向。相關資源可在以下鏈接獲取://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。

1 引言

強化學習(Reinforcement Learning,RL)在大型語言模型(Large Language Models,LLMs)領域取得了顯著成功(Jaech 等,2024;Rafailov 等,2023),其中最具代表性的范式包括基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)(Ouyang 等,2022)以及諸如 DeepSeek-R1(Guo 等,2025a)等創新框架。這些方法顯著增強了 LLM 的能力,使生成結果更貼近人類偏好,并賦予其通過單純監督學習難以獲得的細膩、復雜的推理與交互能力。 近年來,受 LLM 成就的啟發,研究界對將這些在 LLM 上取得成功的 RL 方法擴展至多模態大模型產生了爆炸性興趣,包括視覺-語言模型(Vision-Language Models,VLM)(Zhou 等,2025a;Zheng 等,2025;Zhang 等,2025f)、視覺-語言-動作模型(Vision-Language-Action,VLA)(Lu 等,2025b;Tan 等,2025b;Luo 等,2025;Yuan 等,2025b)、基于擴散的視覺生成模型(Fan 等,2023b;Black 等,2023;Zhou 等,2025c)以及統一多模態框架(Mao 等,2025;Wang 等,2024b;2025a)(如圖 1 所示)。例如,Gemini 2.5(DeepMind,2025)等多模態模型利用 RL 來對齊視覺-文本推理過程,從而生成具有更高語義一致性且更契合人類判斷的輸出。同時,集成視覺與語言并生成面向動作輸出的 VLA 模型,也已采用 RL 來優化交互式環境中的復雜序列決策過程,在 GUI 自動化(Yuan 等,2025b;Shi 等,2025)、機器人操作(Lu 等,2025b)以及具身導航(Kim 等,2025)等任務中顯著提升了特定任務性能。 基于擴散的生成模型的快速發展進一步推動了這一 RL 驅動的創新浪潮。例如,ImageReward(Xu 等,2023)將強化學習引入生成過程,以提升生成結果的語義一致性與視覺質量,通過基于人類偏好或自動化獎勵評估器的迭代反饋機制來優化擴散生成。此外,將理解與生成等多種任務統一到單一架構中的統一模型(Mao 等,2025;Jiang 等,2025b)也越來越多地依賴于 RL 驅動的微調,從而實現了此前被認為具有挑戰性的泛化與任務遷移能力。 盡管 RL 與多模態大語言模型的結合已取得了重大進展,但仍存在若干核心挑戰,包括:在復雜獎勵信號下穩定策略優化、處理高維且多樣化的視覺輸入,以及設計可擴展的獎勵函數以支持長時序決策。應對這些挑戰,需要在算法設計與評估協議上同時進行方法學創新。 在本綜述中,我們系統總結了 2024 年以來多模態大模型視覺強化學習領域的最新進展。我們首先回顧了 LLM 中奠定多模態適配基礎的 RL 成功案例,如 RLHF(Ouyang 等,2022)與 DeepSeek-R1(Guo 等,2025a)。隨后,我們討論這些策略在視覺領域的演化過程,并將 200 余篇代表性工作劃分為四大類別:(i)多模態大型語言模型,(ii)視覺生成,(iii)統一 RL 框架,以及(iv)視覺-語言-動作智能體(如圖 1 所示)。在每個類別中,我們分析了算法設計、獎勵建模以及基準測試方法的關鍵進展。最后,我們指出了開放挑戰與未來研究方向,包括更高效的多模態推理、適用于 VLA 任務的穩健長時序學習策略,以及面向視覺生成的可擴展高保真獎勵信號需求。 本文的主要貢獻如下: * 系統性與最新性:我們提供了一份涵蓋 200 余篇視覺強化學習研究的系統化、最新綜述,涵蓋多模態大型語言模型、視覺生成、統一模型以及視覺-語言-動作智能體。 * 關鍵技術分析:我們分析了各子領域在策略優化、獎勵建模和基準測試方面的進展,揭示了獎勵設計在視覺生成中的挑戰,以及推理和 VLA 任務中缺乏中間監督等問題。 * 方法學框架:我們提出了一種基于指標粒度與獎勵監督的視覺 RL 方法分類體系,包括三種圖像生成獎勵范式。該框架闡明了跨領域設計的權衡,并為選擇與開發 RL 策略提供了可操作的參考。

付費5元查看完整內容

特征匹配是計算機視覺中的一項基礎性任務,對于圖像檢索、立體匹配、三維重建和SLAM 等應用至關重要。本文對基于模態的特征匹配進行了全面綜述,涵蓋了傳統的手工方法,并重點探討了適用于多種模態(包括 RGB 圖像、深度圖像、三維點云、激光雷達掃描、醫學圖像以及視覺-語言交互)的現代深度學習方法。 傳統方法依賴于諸如 Harris 角點等檢測器,以及如 SIFT 和 ORB 等描述子,在面對中等程度的同模態變換時表現出良好的魯棒性,但在存在顯著模態差異時則面臨挑戰。現代基于深度學習的方法(如基于 CNN 的 SuperPoint 和基于 Transformer 的 LoFTR)摒棄了顯式檢測器,在跨模態場景中顯著提升了魯棒性與適應性。

我們重點梳理了模態感知的最新進展,例如針對深度圖像的幾何與深度特定描述子、用于三維點云的稀疏與密集學習方法、面向激光雷達掃描的注意力增強神經網絡,以及如 MIND 描述子等面向復雜醫學圖像匹配的專用方案。跨模態應用,尤其是在醫學圖像配準與視覺-語言任務中的應用,進一步彰顯了特征匹配技術應對多樣化數據交互的演進趨勢。

//arxiv.org/abs/2507.22791

1 引言

特征匹配是計算機視覺中的一項基礎性任務,對于圖像檢索、立體匹配、三維重建以及同時定位與建圖(SLAM)等諸多關鍵應用至關重要。為系統性地分析該研究領域,本文按照具體的數據模態對特征匹配方法進行了歸類綜述,涵蓋了單一模態(如 RGB 圖像、三維數據、醫學圖像)和跨模態(如醫學圖像配準與視覺-語言)兩個層面的研究場景。 我們首先介紹了用于 RGB 圖像與三維數據的單模態特征匹配方法,重點梳理了從早期手工設計的檢測器與描述子,到現代基于深度學習方法的演進過程。隨后,我們深入探討了醫學影像這一特殊領域,它兼具單模態與跨模態匹配的特點,因而需要采用專門的圖像配準策略來應對不同醫學成像模態之間的差異。接著,我們介紹了視覺-語言特征匹配,重點討論跨模態對齊技術如何在視覺與文本數據之間建立聯系。最后,我們展望了未來的研究方向,反映出多模態與通用特征匹配方法的最新趨勢與潛力。 在 RGB 圖像匹配方面,相關技術從早期的手工方法(例如 Harris 角點檢測器 [74]、穩健的局部描述子如 SIFT [120] 和 SURF [15],以及高效的二值描述子如 ORB [153])顯著演進。盡管這些基于模型的方法在視角變化和光照變化不大的同模態匹配中表現出色,但在面對不同模態之間更大的域差異和感知差異時,往往難以適應。近年來,基于學習的方法被提出以克服這些局限,例如 SuperPoint [47] 采用自監督的 CNN 檢測-描述一體化架構,在合成數據上訓練以實現魯棒的特征對應;LoFTR [176] 則通過基于 Transformer 的匹配結構進一步推動了該領域的發展,摒棄了顯式的關鍵點檢測。 在三維數據領域(包括 RGB-D 圖像、激光雷達點云、三維網格,以及多視圖 2D 到 3D 點集等),早期的特征匹配方法依賴于幾何描述子,如 Spin Images [88] 和 Fast Point Feature Histograms(FPFH)[154],這些方法專為應對剛體變換與稀疏數據結構而設計。近年來,越來越多的方法引入了深度學習策略,例如 3DMatch [216]、FCGF [38]、D3Feat [8] 以及基于 Transformer 的架構 Predator [82],顯著提升了匹配精度與魯棒性。 在醫學圖像領域,由于不同成像模態(如 MRI、CT、PET、超聲)之間存在固有的強度變化和解剖結構形變,特征匹配通常需要采用專門的策略。傳統方法如互信息(MI)[190] 和歸一化互信息(NMI)[174] 為多模態配準奠定了基礎。近年來,深度學習驅動的方法(如 VoxelMorph [9] 和 DiffuseMorph [96])引入了強大的無監督學習策略,有效應對形變與強度差異帶來的匹配挑戰。 在視覺-語言特征匹配中,研究聚焦于將視覺信息與文本信息結合,用于圖像字幕生成 [188]、視覺問答 [4] 和跨模態檢索 [93] 等任務。該方向的關鍵進展包括對比學習訓練的雙編碼器模型,如 CLIP [148] 和 ALIGN [84],實現了可擴展的開放詞匯檢索與分類;此外,以 MDETR [92] 和 GLIP [111] 為代表的基于 Transformer 的視覺指代模型,顯著提升了語言與圖像區域之間的精確對齊能力。開放詞匯方法也將分類、檢測與分割能力擴展至超出訓練標簽的范疇,借助于大規模預訓練模型中的語義嵌入 [63, 106, 223]。然而,該領域仍面臨諸如組合推理、魯棒性、偏差緩解與大規模評估等挑戰 [7, 89, 220],未來研究將進一步朝向更具交互性、具身智能以及持續學習的視覺-語言系統發展。 與已有綜述相比,例如 Xu 等人于《Information Fusion, 2024》發表的工作 [199] 從基于檢測器與非檢測器視角出發探討特征匹配,Huang 等人于《IET Image Processing, 2024》發表的分析 [81] 區分了傳統方法與深度學習方法在檢測、描述與匹配方面的不同,以及 Ma 于《IJCV, 2021》發表的綜述 [128] 側重對比經典方法與深度學習方法的圖像匹配研究,本文的主要貢獻體現在以下幾個方面: (1) 相比于以往綜述主要按算法框架(如手工 vs. 學習,基于檢測器 vs. 無檢測器)進行分類,本文系統性地按照不同數據模態組織特征匹配技術,具體涵蓋 RGB 圖像、深度數據、激光雷達掃描、三維點云、醫學影像模態(如 X 光、CT、MRI)以及視覺-語言應用等。 (2) 現有綜述均未充分討論視覺-語言匹配這一迅速發展的關鍵領域,而該領域對圖像字幕生成、視覺問答與跨模態檢索等應用至關重要。本文專門介紹了該方向的最新進展、挑戰與相關方法。 (3) 我們在不同模態內部以及模態之間進行了深入的比較分析,強調了從傳統手工技術向先進深度學習解決方案的演進過程。

在本綜述中,我們將圍繞單模態特征匹配(如 RGB、深度圖像、醫學圖像)與跨模態場景(如醫學圖像配準與視覺-語言集成)展開討論,系統分析各類方法所面臨的獨特挑戰與核心技術,并梳理了從傳統基于檢測器的管線向現代無檢測器解決方案的轉變路徑。圖 1 展示了本綜述的整體技術路線圖,清晰地描繪了特征匹配方法在多種數據模態上的演進過程;圖 2 則提供了具有代表性的模態感知特征匹配結果示例。

付費5元查看完整內容

 大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。

1 引言

大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。

本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。

付費5元查看完整內容

視覺-語言-動作(Vision-Language-Action, VLA)模型標志著人工智能領域的一項變革性進展,旨在在一個統一的計算框架中融合感知、自然語言理解與具身動作執行。本文作為一篇基礎性綜述,圍繞該快速演進領域的五大主題支柱,對近期 VLA 模型的發展進行了系統性梳理與綜合分析。 我們首先建立了 VLA 系統的概念基礎,回顧其從跨模態學習架構演變為深度整合視覺-語言模型(VLMs)、動作規劃器和層級控制器的通用智能體的過程。本文采用嚴格的文獻綜述方法,覆蓋了過去三年內發表的80余種 VLA 模型。

關鍵進展涵蓋了架構創新、參數高效的訓練策略以及實時推理的加速方法。我們還系統探討了 VLA 模型在多種應用領域中的實踐,包括類人機器人、自動駕駛、醫療與工業機器人、精準農業以及增強現實導航等。 此外,本文還深入分析了該領域面臨的主要挑戰,如實時控制、多模態動作表示、系統可擴展性、對未見任務的泛化能力,以及倫理部署風險等。基于當前技術前沿,我們提出了若干應對方案,包括智能體型人工智能(agentic AI)適配跨具身泛化以及統一的神經-符號規劃(neuro-symbolic planning)

在前瞻性討論部分,我們描繪了一個未來藍圖:VLA 模型、VLMs 與 agentic AI 相互融合,共同驅動具備社會適應性、靈活性和通用性的具身智能體系統。本文旨在為推進智能化、現實世界機器人系統與通用人工智能(AGI)發展提供一個基礎性參考。

關鍵詞:視覺-語言-動作、VLA、人工智能、機器人、視覺-語言模型、AI 智能體、智能體型人工智能

1. 引言

在視覺-語言-動作(Vision-Language-Action,VLA)模型出現之前,機器人技術和人工智能的進展主要分布在彼此割裂的幾個子領域:視覺系統能夠“看”并識別圖像 [44, 69];語言系統能夠理解和生成文本 [164, 137];動作系統則能夠控制物體運動 [49]。這些系統在各自領域表現良好,但在協同工作或應對新穎、不可預見的情況時表現乏力 [46, 21],從而限制了它們理解復雜環境或靈活應對真實世界挑戰的能力。 如圖1所示,傳統計算機視覺模型(主要基于卷積神經網絡 CNNs)通常針對如目標檢測或分類等窄域任務進行優化,嚴重依賴大量標注數據,且即便是環境或任務目標的微小變化也需耗費大量精力進行重新訓練 [156, 62]。這些視覺模型雖然具備“看”的能力(例如識別果園中的蘋果),但無法理解語言或將視覺洞察轉化為有目的的動作。 另一方面,語言模型,尤其是大型語言模型(LLMs),在文本理解與生成方面取得了革命性進展 [23],但它們依然局限于語言模態,缺乏對物理世界的感知與推理能力 [76](如圖1中“果園中的成熟蘋果”一例所示)。與此同時,動作系統在機器人中的應用,主要依賴手工設計的策略或強化學習方法 [122],雖可實現特定行為(如操控物體),但通常難以泛化,且開發成本高昂 [119]。 盡管視覺-語言模型(VLMs)通過融合視覺與語言實現了令人印象深刻的多模態理解 [149, 25, 148],但系統在生成或執行連貫動作方面依然存在顯著的集成缺口 [121, 107]。如圖1進一步所示,大多數 AI 系統至多只能融合兩種模態(如視覺-語言、視覺-動作或語言-動作),而難以在統一框架中整合三者。結果是,機器人可以識別物體(如“蘋果”),理解相應的文本指令(如“摘下蘋果”),或執行預定義的動作(如抓取),但要將這些能力整合為流暢且具適應性的行為仍十分困難。這導致系統架構呈碎片化特征,難以適應新任務或新環境,泛化能力弱,開發過程繁瑣,成為具身智能發展的關鍵瓶頸:如果系統無法同時感知、理解并采取行動,真正的智能自主行為將無從談起。 這一迫切需求促使 VLA 模型的興起。VLA 模型構想于 2021-2022 年,并在 Google DeepMind 的 Robotic Transformer 2(RT-2) [224] 等研究工作中得到率先實踐,提出了一種將感知、推理與控制統一于單一架構的變革性方法。作為圖1中所揭示限制的解決方案,VLA 模型整合了視覺輸入、語言理解與運動控制能力,使具身智能體能夠感知環境、理解復雜指令并動態地執行相應動作。 早期的 VLA 方法通過在視覺-語言模型中引入動作標記(action tokens)——即用于表示機器人動作指令的數值或符號形式,實現了這種三模態融合。模型可借助配對的圖像、語言與軌跡數據進行訓練 [121],大幅提升了機器人對未見物體的泛化能力、對新穎語言指令的解釋能力,以及在非結構化環境中的多步推理能力 [83]。 VLA 模型在實現統一多模態智能的道路上邁出了關鍵一步,打破了長期以來視覺、語言與動作分立建模的局限 [121]。借助大規模互聯網級數據集,這些數據集整合了圖像、文本與行為信息,VLA 模型不僅能夠識別與描述環境,還可以進行語境推理并在復雜、動態的場景中執行合適的動作 [196]。如圖1所展示,從各模態割裂的孤立系統發展到集成式的 VLA 模型,標志著朝著真正具備適應性與泛化能力的具身智能體邁出了根本性的一步。 鑒于該范式轉變具有深遠影響,亟需開展一項系統、深入的綜述研究,基于豐富的文獻資料與批判性分析,全面梳理 VLA 模型的發展: 1. 首先,該綜述有助于明確 VLA 的基本概念與架構原則,從而區分其與以往多模態系統的本質差異; 1. 其次,梳理該領域快速發展的進程與關鍵技術節點,幫助研究人員與從業者把握其技術演進路徑; 1. 第三,深入探討 VLA 在現實世界中已展現變革潛力的多個應用場景,如家庭機器人、工業自動化、輔助技術等; 1. 第四,分析當前亟待解決的挑戰,包括數據效率、安全性、泛化能力及倫理風險等,為未來部署提供指導; 1. 第五,通過綜合這些研究洞見,向更廣泛的 AI 與機器人研究社群傳達新興研究方向與工程考量,促進協同創新。

本綜述系統分析了 VLA 模型的概念基礎、發展進展與技術挑戰,旨在凝聚當前研究成果,明確尚存的技術瓶頸,并提出未來的研究方向。 我們首先將深入剖析 VLA 模型的核心概念(圖2),包括其構成要素、歷史演化、多模態融合機制以及基于語言的編碼策略,這些內容為理解 VLA 在模態間的協調提供了基礎。 在此基礎上,我們梳理了近年來的技術進展與訓練效率策略(圖3),涵蓋使 VLA 更具泛化能力的架構創新、數據高效學習機制、參數優化建模方法及推理加速技術。這些進展對實現 VLA 在現實環境中的應用至關重要。 接著,我們全面討論了當前 VLA 系統所面臨的關鍵挑戰(圖4),包括推理瓶頸、安全問題、計算資源開銷、有限的泛化能力及倫理風險。我們不僅指出了這些問題,還從分析角度提出了潛在解決思路。 上述三幅圖共同構建了本綜述的視覺化框架,輔助文本內容展示其概念圖景、創新亮點與亟待解決的問題。本綜述旨在為未來的研究提供指導,促進更加穩健、高效、倫理的 VLA 系統的發展。

付費5元查看完整內容

圖像反演是生成模型中的一個基礎任務,旨在將圖像映射回其潛在表示,以支持下游應用,如圖像編輯、修復和風格遷移。本文全面綜述了圖像反演技術的最新進展,重點討論了兩種主要范式:生成對抗網絡(GAN)反演和擴散模型反演。我們根據優化方法對這些技術進行分類。對于GAN反演,我們系統地將現有方法分為基于編碼器的方法、潛在優化方法和混合方法,分析其理論基礎、技術創新和實際權衡。對于擴散模型反演,我們探討了無訓練策略、微調方法以及附加可訓練模塊的設計,重點討論它們的獨特優勢和局限性。此外,我們討論了幾種流行的下游應用以及超越圖像任務的新興應用,識別了當前的挑戰和未來的研究方向。通過整合最新的研究成果,本文旨在為研究人員和實踐者提供一個有價值的參考資源,推動圖像反演領域的進一步發展。我們將持續跟蹤最新的研究工作,

網址://github.com/RyanChenYN/ImageInversion。

 引言圖像反演是指將給定圖像映射回預訓練生成模型的潛在表示的任務。這一任務在圖像編輯、風格遷移、圖像修復等應用中具有重要意義 [Xia 等,2022;Shuai 等,2024]。通過反演技術,用戶可以有效利用生成模型的豐富語義信息,實現對真實圖像的高效控制和修改,成為一個日益獨立且活躍的研究方向。早期的圖像反演研究始于生成對抗網絡(GAN)的興起 [Zhu 等,2016],主要集中于如何將圖像投影到GAN的潛在空間中,以便于后續的圖像編輯和生成任務。StyleGAN系列的問世 [Karras 等,2019;Karras 等,2020] 顯著提高了圖像反演技術的準確性和效率。然而,這些方法存在一定的局限性 [Tov 等,2021;Roich 等,2023;Zhang 等,2024c]:基于編碼器的前向方法仍然會導致次優結果,而基于優化的方法則需要大量時間,且未能滿足一般圖像編輯和高精度應用的需求,例如肖像攝影。近年來,擴散模型憑借其強大的生成能力和穩定的訓練過程,逐漸成為生成模型領域的新寵。從DDPM [Ho 等,2020] / DDIM [Song 等,2020] 到LDM [Rombach 等,2022],像Stable Diffusion系列這樣的開源模型顯著增強了圖像編輯的可控性和有效性,推動了許多優秀的無訓練和微調解決方案的出現 [Miyake 等,2023;Chung 等,2024;Mo 等,2024]。最近的突破性進展,如DiT [Peebles 和 Xie,2023] 框架和流匹配技術,為圖像反演提供了新的思路和方法。GAN到擴散模型的多樣化發展,也為高保真度圖像反演任務和復雜場景中的可控編輯應用奠定了基礎。本文系統地回顧并總結了這些技術的發展軌跡,從公式化的角度抽象定義了問題,深入探討了不同類別方法的原理和實際問題。全面覆蓋了圖像反演及相關子領域,并提供了深入的討論。范圍本文重點討論了兩種主要的圖像反演框架:GAN反演和擴散模型反演。對于GAN反演,我們從三個角度進行全面分析與比較:基于編碼器的方法、潛在優化方法和混合方法。對于擴散模型反演,我們從訓練角度將方法分為無訓練方法、微調方法和額外可訓練模塊方法,并討論每種方法的優缺點。此外,我們還分析了最新的技術趨勢,如基于DiT的反演方法 [Feng 等,2024],并探討了反演技術在圖像及更廣泛領域(如視頻 [Fan 等,2024] 和音頻 [Manor 和 Michaeli,2024])中的應用。本文主要分析了2021年以后的研究,以確保其相關性和前瞻性。由于篇幅限制,本文僅討論了具有代表性的工作,最新的、持續更新的研究成果可通過該項目頁面獲取。與相關綜述的討論與現有的綜述文章相比,例如專注于早期基于GAN的方法 [Xia 等,2022],以及近期專注于基于擴散的方法的工作 [Shuai 等,2024],本文將GAN反演和擴散模型反演整合到一個統一框架中進行系統比較,填補了該領域的研究空白。并且,本文將反演討論擴展到非圖像應用,為讀者提供了更全面的視角。貢獻首先,本文提供了對圖像反演領域最新進展的全面回顧,涵蓋了兩種主要生成模型(GAN和擴散模型)的關鍵反演技術。通過系統地分類這些方法,我們揭示了內在的聯系和技術差異,為研究人員提供了清晰的理論指導。其次,本文從圖像級別的角度討論了主要應用及相關領域的進展。最后,我們總結了當前研究中的主要挑戰,并提出了一系列潛在的未來研究方向,為圖像反演領域的進一步發展提供了重要參考。

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容
北京阿比特科技有限公司