亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——對于自動駕駛車輛而言,在復雜環境中實現安全導航依賴于其對多樣化且罕見的駕駛場景的應對能力。基于仿真與場景的測試已成為自動駕駛系統開發與驗證的關鍵方法。傳統的場景生成依賴于基于規則的系統、知識驅動模型和數據驅動的合成方式,但這些方法往往生成的場景多樣性有限,且難以覆蓋逼真的安全關鍵情形。隨著基礎模型(即新一代預訓練的通用人工智能模型)的興起,開發者可以處理異構輸入(例如自然語言、傳感器數據、高精地圖和控制動作),從而實現復雜駕駛場景的合成與理解。 本文針對基礎模型在自動駕駛中的場景生成場景分析應用(截至2025年5月)進行了系統綜述。我們提出了一個統一的分類體系,涵蓋大語言模型、視覺語言模型、多模態大語言模型、擴散模型和世界模型,用于自動駕駛場景的生成與分析。此外,本文還回顧了相關的方法論、開源數據集、仿真平臺與基準挑戰,并分析了專門面向場景生成與分析的評估指標。最后,我們總結了當前存在的關鍵挑戰與研究問題,并提出了未來值得探索的研究方向。所有參考論文均收錄于持續維護的資料庫中,附帶補充材料,托管于 GitHub.com/TUM-AVS/FM-for-Scenario-Generation-Analysis。

關鍵詞——自動駕駛、場景生成、場景分析、基礎模型、大語言模型。

一、引言

近年來,自動駕駛(Autonomous Driving, AD)取得了飛速發展,已達到在特定運行設計域(Operational Design Domains, ODDs)內幾乎無需人類干預,甚至可完全自主運行的水平 [1]。Waymo 等公司自 2018 年起便已成功部署了具備 SAE L4 等級的全自動機器人出租車(robotaxi)服務 [2][3],在特定城市環境中驗證了無人駕駛出行的可行性。截至 2025 年,Waymo 每周已提供約 250,000 次商業化出行服務 [4]。這一系列進展得益于高可靠性模塊化自動駕駛軟件功能的開發與嚴格驗證,包括感知、預測、規劃與控制等模塊 [5]。 除了傳統的模塊化架構,近年來還涌現出基于深度學習的端到端學習方法 [6][7],可直接從原始傳感器數據中生成軌跡或控制動作 [8]。

在仿真中進行的**基于場景的測試(scenario-based testing)**是評估和驗證自動駕駛系統安全性與性能的關鍵手段 [9]。作為一種成本效益高的替代實地測試方式,它能夠模擬真實、可復現且可控的駕駛環境 [10],尤其擅長重現那些在現實數據集中罕見或難以捕捉的安全關鍵情況(corner case)[11][12]。因此,系統化生成與分析駕駛場景的能力,對基于場景的測試至關重要,是自動駕駛功能(如感知、規劃和控制)開發、驗證與確認的重要支撐。

隨著機器學習的不斷發展,尤其是大規模基礎模型(Foundation Models, FMs)的出現,自動駕駛中基于場景的測試在真實性、多樣性與可擴展性方面迎來了新的機遇。基礎模型由斯坦福大學人本人工智能研究所(HAI)于 2021 年 8 月首次提出 [13],用于描述一類在大規模多樣化數據集上,通常采用自監督學習訓練的模型。與傳統機器學習模型通常針對特定任務進行訓練不同,基礎模型具備良好的遷移能力,可通過提示學習(prompting)或微調(fine-tuning)適應多種任務。這些模型已在多個領域取得卓越表現,包括自然語言處理(NLP)[14]、視覺理解 [15] 與代碼生成 [16]。在自動駕駛領域,基礎模型也日益受到關注,因為它們能夠結合預訓練階段習得的通用知識與針對特定自動駕駛任務的高效適應能力 [17]–[19]。


A. 文獻綜述范圍

本綜述聚焦于基礎模型在自動駕駛場景生成與場景分析中的應用(參見圖 1)。我們通過在 Google Scholar 中進行關鍵詞檢索(完整關鍵詞列表見論文 GitHub 倉庫)對相關文獻進行篩選。 為了確保綜述的廣度與相關性,我們納入了同行評審的會議與期刊論文,以及 arXiv 上的預印本。盡管 arXiv 上的論文未經過正式同行評審,但其在快速發展領域(如基礎模型應用)中往往代表前沿且具有影響力的研究。我們調研的時間范圍涵蓋從 2022 年 10 月至 2025 年 5 月 之間發表的文獻,重點關注自動駕駛、計算機視覺、機器學習/人工智能(AI)與機器人領域的研究成果。圖 2 展示了按月統計的發表數量及其在不同類型平臺(會議、期刊或預印本)中的分布趨勢。每篇文獻的發表平臺及其開源代碼(如有)均在論文 GitHub 倉庫中列出。


B. 綜述結構安排

本綜述的整體結構如圖 3 所示: * 第 II 節介紹基礎模型,并對已有關于場景生成與分析的相關綜述進行評述,涵蓋經典方法與基礎模型驅動的最新進展; * 第 III、IV、V 節系統探討語言類基礎模型,從基本概念出發,詳細分析大語言模型(LLMs)視覺語言模型(VLMs)多模態大語言模型(MLLMs)在場景生成與分析中的應用; * 第 VI 與 VII 節聚焦于視覺為中心的基礎模型,分別介紹擴散模型與世界模型的基本原理及其與場景生成的關聯; * 第 VIII 節調研當前可公開獲取的數據集與仿真基準,重點介紹與自動駕駛場景生成與分析密切相關的競賽與挑戰; * 第 IX 和 X 節歸納當前的研究難點與開放性問題,并展望未來的研究方向; * 第 XI 節總結本綜述的核心發現與主要觀點。

付費5元查看完整內容

相關內容

 ,又稱為無人駕駛汽車、電腦駕駛汽車或輪式移動機器人,是自動化載具的一種,具有傳統汽車的運輸能力。作為自動化載具,自動駕駛汽車不需要人為操作即能感測其環境及導航。完全的自動駕駛汽車仍未全面商用化,大多數均為原型機及展示系統,部分可靠技術才下放至商用車型,但有關于自駕車逐漸成為現實,已經引起了很多有關于道德的討論。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要——近年來,視覺-語言預訓練(Vision-Language Pretraining)作為一項融合視覺與文本模態優勢的變革性技術,催生了強大的視覺-語言模型(VLMs)。依托于網絡規模的預訓練數據,這些模型展現出卓越的零樣本推理能力。然而,在面對特定領域或專業任務時,其性能常常出現顯著下降。為解決該問題,研究社區日益關注如何將 VLM 中蘊含的豐富知識遷移或泛化到多樣的下游應用中。 本文旨在全面梳理 VLM 泛化的研究設定、方法體系、評測基準與實驗結果。我們首先分析典型的 VLM 架構,并依據遷移模塊的不同,將現有文獻劃分為基于 Prompt(提示)、基于參數、以及基于特征的方法三大類。隨后,結合經典遷移學習(Transfer Learning, TL)設定,進一步總結與探討各類方法的差異與特點,提出 VLM 時代下遷移學習的新解讀。此外,本文還系統介紹了主流 VLM 泛化評測基準,并對各類方法在不同任務中的表現進行了詳盡對比。

隨著大規模通用預訓練的不斷演進,本文也探討了視覺-語言模型與最新多模態大語言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之間的關聯與差異。通過從“泛化”這一全新且實用的視角系統梳理視覺-語言研究的快速進展,本文有助于清晰描繪當前與未來多模態研究的整體格局。 關鍵詞——視覺-語言模型,遷移學習,提示調優,魯棒微調,領域泛化,測試時自適應,無監督領域適應,多模態大語言模型

1 引言

深度神經網絡已在眾多實際應用中取得顯著成果。以視覺模型為例,從 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型規模與表示能力都得到了極大提升。然而,高效訓練這些大規模模型往往需要大量標注數據與巨大的計算資源。為了解決這一問題,“基礎模型”(foundation model)的概念應運而生——即在大規模數據集上預訓練通用模型,以便將其知識遷移到各種下游任務中【4】。例如,預訓練于 ImageNet【5】上的 ResNet 系列已成為圖像分類【2】、目標識別【6】等視覺任務的重要基石。 自然語言處理領域也經歷了類似的發展,從 Transformer【7】、BERT【8】到 GPT-2【9】與 GPT-3【10】,均在各自的單模態任務中取得卓越表現,但它們本質上缺乏對多模態信息的感知與推理能力。 如圖 1 所示,對比式語言-圖像預訓練(contrastive language-image pretraining)范式的出現【11】徹底重塑了視覺-語言學習格局。Radford 等人提出的 CLIP【11】模型利用 4 億網頁爬取的圖文對進行對比學習:將語義匹配的圖文拉近、不匹配的拉遠,從而實現了跨任務的強大零樣本泛化能力,覆蓋圖像分類【11】、目標檢測【12】、視頻檢索【13】等任務。后續研究通過擴大與去噪預訓練數據集【14】【15】【16】、探索多樣的預訓練策略【17】【18】、引入多語言數據【19】【20】【21】,進一步增強了 VLM 的能力。 盡管 VLM 在通用任務上表現出色,但其預訓練知識在特定領域的下游任務上泛化能力有限。若無合適的遷移方式,預訓練的 VLM 往往難以處理分布外(OOD)數據,如遙感圖像【22】或精細類別圖像【23】【24】。傳統的“預訓練-微調”范式仍適用,但在 VLM 中直接微調可能破壞其對齊的視覺-語言表示,導致性能下降【25】【26】【27】。 因此,如何以盡可能低的計算與標注成本將 VLM 中的知識優雅地泛化至下游任務,已成為研究熱點。考慮到 VLM 的多模態特性,研究者們嘗試將單模態領域成熟的遷移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知識蒸餾【30】,擴展應用于 VLM【26】【31】【32】【33】。借助其龐大的通識知識,VLM 正逐步成為“任務無關型”求解器,在無監督領域適應(UDA)【34】【35】【36】、領域泛化(DG)【37】【38】【39】、測試時自適應(TTA)【40】【41】【42】等遷移學習場景中設立了新基線。 面對這種趨勢,我們提出了關鍵問題:在 VLM 時代,知識遷移有何不同?

為此,本文對 VLM 的泛化能力展開系統文獻綜述。


研究動機與貢獻

現有綜述多聚焦于 VLM 的預訓練階段,如模型結構、預訓練目標與數據集【43】【44】【45】。雖然部分工作提及了遷移學習【43】,但其覆蓋面有限,尤其缺乏對不同遷移設定之間差異的探討。本文是首個專注于 VLM 遷移與泛化能力 的系統綜述。我們以主流的雙分支架構(如 CLIP【11】)為基礎,識別并歸類遷移的關鍵模塊,具體如下: 1. Prompt-based 方法:僅調節文本提示嵌入以控制模型行為【31】【32】【40】; 1. Parameter-based 方法:有策略地更新預訓練參數【46】【47】【48】,或通過知識蒸餾引入新參數【33】【38】【39】; 1. Feature-based 方法:對提取到的特征進行后處理,如引入可學習模塊【26】【35】或構建免訓練緩存機制【27】【41】【49】。

我們結合遷移學習研究中的經典設定【4】【50】【51】,重新審視這些 VLM 方法,并分析其在不同遷移設定中的特性差異。隨后,我們系統匯總了適用于各類遷移任務的主流基準數據集,并提供基于模型結構與方法設計的性能比較。


同時,本文還涵蓋了 VLM 與多模態大語言模型(MLLM)之間的融合。近年來,大語言模型(LLM)取得突破性進展【52】【53】【54】【55】,將對齊語言的視覺編碼器(如 CLIP)與 LLM 相連接,并以大規模多模態指令數據進行訓練,構建出視覺-語言大模型(MLLM)。這些模型在視頻理解、視覺問答、圖像字幕、分割與識別等任務中展現出強大的泛化能力【18】【56】【57】【58】。 作為另一類通用視覺-語言模型,本文對 MLLM 的基本構建框架、模型類型、使用的預訓練數據與目標,以及其在多任務中的表現進行全面總結,并呈現當前該領域的研究圖譜(如圖 3 所示)。


綜述貢獻總結如下:

系統回顧 VLM 泛化研究進展:涵蓋無監督領域適應、領域泛化、小樣本適應、測試時自適應等遷移學習任務;據我們所知,這是首個專注于 VLM 泛化的綜述工作。 1. 提出三類關鍵遷移方法分類:Prompt-based、Parameter-based 與 Feature-based,并在各類遷移設定下深入分析其技術細節與適用場景。 1. 收集主流評測基準并對比方法性能:從泛化設定、模型結構與設計角度出發,提供公平、系統的性能評估。 1. 引入并分析 MLLM 的發展與代表模型:總結其結構、組成模塊、泛化能力、訓練數據與目標,為理解視覺-語言研究的前沿進展提供參考。 1. 提出當前挑戰與未來方向:識別現階段研究瓶頸,并展望可行的研究路徑與潛力。


文章結構如下:

第 2 節介紹 VLM 相關基礎知識及所涉及的遷移學習設定; * 第 3 節討論 Prompt-based 方法,分為訓練時提示(3.1)與測試時提示(3.2); * 第 4 節介紹 Parameter-based 方法,包括參數微調(4.1)與知識蒸餾(4.2); * 第 5 節探討 Feature-based 方法,包括可學習適配器(5.1)與免訓練緩存機制(5.2); * 第 6 節總結主流基準與方法性能評估; * 第 7 節介紹現代 LLM 如何增強與泛化 VLM,構成 MLLM; * 第 8 節總結當前進展并討論未來的研究方向。

付費5元查看完整內容

摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型

1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。

近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。

生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。

為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。

本文的主要貢獻如下:

本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。

文章結構概覽:

第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。

付費5元查看完整內容

摘要——在現實場景中,實現領域適應和泛化面臨著重大挑戰,因為模型必須適應或在未知目標分布之間進行泛化。將這些能力擴展到看不見的多模態分布,即多模態領域適應與泛化,因不同模態的特性差異而變得更加困難。多年來,在這一領域取得了顯著進展,應用范圍涵蓋從動作識別到語義分割等多個領域。此外,近期大型預訓練多模態基礎模型(如CLIP)的出現,激發了利用這些模型來增強適應性和泛化性能,或將其應用于下游任務的研究工作。本綜述首次全面回顧了從傳統方法到基礎模型的最新進展,涵蓋以下內容:(1)多模態領域適應;(2)多模態測試時適應;(3)多模態領域泛化;(4)借助多模態基礎模型進行領域適應和泛化;(5)多模態基礎模型的適應。對于每個主題,我們正式定義問題并全面回顧現有方法。此外,我們還分析了相關的數據集和應用,突出了開放挑戰和未來可能的研究方向。我們維護一個活躍的資源庫,包含最新的文獻,網址://github.com/donghao51/Awesome-Multimodal-Adaptation。關鍵詞——領域泛化,領域適應,多模態學習,基礎模型,測試時適應

1 引言領域適應(Domain Adaptation, DA)和領域泛化(Domain Generalization, DG)已在研究領域中引起了廣泛關注 [1], [2]。在機器人學 [3], [4]、動作識別 [5] 和異常檢測 [6], [7] 等現實應用中,訓練于有限源領域的模型必須在新的目標領域上表現良好。為了解決分布偏移問題,已經提出了眾多DA和DG算法,包括分布對齊 [8]、領域不變特征學習 [9]、特征解耦 [10]、數據增強 [11] 和元學習 [12] 等。然而,這些算法大多是為單模態數據(如圖像或時間序列數據)設計的。隨著大規模多模態數據集的出現,解決多模態領域適應(Multimodal Domain Adaptation, MMDA)和多模態領域泛化(Multimodal Domain Generalization, MMDG)的問題變得尤為重要,這些數據集跨越了多個模態,包括音頻-視頻 [13]、圖像-語言 [14] 和激光雷達-相機 [15]。圖1展示了單模態和多模態DA/DG之間的區別,其中MMDA和MMDG通過整合來自多個模態的信息,增強了泛化能力。近年來,MMDA和MMDG在動作識別 [16] 和語義分割 [17] 等領域取得了顯著進展。MMDA和MMDG的一個核心挑戰是如何有效利用來自不同模態的互補信息來提升泛化性能——這是單模態DA和DG方法往往無法做到的。例如,Munro和Damen [16] 提出的方案將模態內對抗對齊與多模態自監督對齊結合,用于MMDA。多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)[18] 是一種特殊形式的MMDA,旨在通過在線適應預訓練的源多模態模型到目標領域,而無需訪問源領域數據。大規模多模態基礎模型(Multimodal Foundation Models, MFMs)的出現,如對比語言-圖像預訓練(CLIP)[14] 和穩定擴散 [19],為DA和DG開辟了新的研究方向。這些研究致力于利用MFMs增強泛化能力,或將MFMs適應到下游任務中。例如,Dunlap等人 [20] 通過語言擴展圖像嵌入到未見領域,而Huang等人 [21] 將CLIP的知識蒸餾到一個更小的學生模型中,用于領域泛化。此外,Zhou等人 [22] 通過建模可學習向量的提示上下文詞語,適應CLIP-like視覺-語言模型(VLMs)到下游圖像識別任務中。盡管該領域近期取得了顯著進展,但目前尚無全面的綜述文章總結多模態適應與泛化的主要思想。本文旨在提供過去十年中發展出的算法的詳細文獻回顧,并為未來的研究方向提供洞察。本論文涵蓋了五種適應場景(見圖2和圖3),結構安排如下:第2節討論相關研究領域;第3節介紹多模態領域適應問題,并重點回顧在動作識別和語義分割中的主要解決方案;第4節和第5節分別呈現多模態測試時適應和領域泛化的代表性方法;第6節探討如何利用多模態基礎模型改善DA和DG;第7節回顧了將MFMs適應到下游任務的流行方法;第8節總結了主要的應用和數據集;最后,在第9節概述了未來研究方向,第10節總結了全文。與之前綜述的比較。盡管我們的綜述貢獻于DA和DG的更廣泛領域,這些領域在之前的文獻中已有回顧 [1], [2],但我們的重點是多模態適應與泛化,即涉及多個模態的方法。Zhang等人 [23] 的綜述僅涵蓋了2023年前VLMs適應的概述,而我們則統一討論了傳統方法在MMDA、MMTTA和MMDG中的應用、先進MFMs在提升DA和DG中的作用,以及最近將MFMs適應到下游任務的方法。

2. 相關研究主題2.1 領域適應領域適應旨在通過利用標記的源數據和未標記的目標數據來增強模型在目標域中的性能 [1]。傳統的DA方法主要關注以圖像為主要輸入的單模態場景。常見的方法包括使用差異度量對齊特征分布 [8]、在輸入或特征空間中使用對抗學習 [130, 131]、以及使用基于重建的方法 [132]。此外,數據增強 [11] 和自訓練 [133] 等技術也得到了廣泛探索。根據源域和目標域之間標簽集關系的假設,DA進一步分為部分集 [134]、開放集 [135] 和通用DA [136]。2.2 領域泛化領域泛化旨在將模型泛化到未見過的目標域,而無需在訓練期間訪問目標數據。DG方法可以大致分為數據操作、表示學習和學習策略 [2]。數據操作方法(如 [137])增強了數據的多樣性,而表示學習方法 [138] 則專注于提取領域不變特征。此外,元學習 [12] 和自監督學習 [139] 等學習策略也展示了跨領域的泛化性能提升。Shu等人 [140] 還解決了目標域具有私有類的開放集DG問題。2.3 測試時適應測試時適應(TTA)旨在在線適應預訓練的源域模型,以應對分布偏移,而無需訪問源數據或目標標簽。在線TTA方法 [141, 142] 使用無監督目標(如熵最小化和偽標簽)更新特定模型參數。魯棒TTA方法 [143, 144] 解決了更復雜和實際的場景,包括標簽偏移、單樣本適應和混合域偏移。持續TTA方法 [145, 146] 針對測試時遇到的持續和演化的分布偏移。有關TTA的更多信息,請參閱 [147, 148]。2.4 多模態學習多模態學習利用不同模態的互補優勢來增強表示學習和上下文理解。主要的多模態學習方向包括多模態表示學習 [149, 150]、融合方法 [151, 152]、對齊 [153, 154] 等。有關多模態學習的更多信息,請參閱 [155, 156]。2.5 自監督學習自監督學習(SSL)旨在通過從預訓練任務中獲得監督信號來從未標記數據中學習,例如預測變換 [157, 158]、重建缺失組件 [159, 160] 或優化對比目標 [161, 162]。通過捕捉內在數據結構,SSL能夠學習魯棒和領域不變的表示,使其成為DA和DG的重要組成部分。在多模態背景下,SSL也通過多模態對齊 [163]、跨模態翻譯 [164] 和相對范數對齊 [165] 等任務得到應用。這些預訓練任務已有效集成到MMDA和MMDG框架中,包括最近的方法如 [16, 29]。有關SSL的更多信息,請參閱現有文獻 [166, 167]。2.6 基礎模型基礎模型是在大量數據集上預訓練的大規模模型,可作為廣泛下游任務的通用起點。這些模型表現出強大的泛化能力,使其能夠以最小的微調適應各種應用。著名的例子包括語言模型如GPT [168]、視覺模型如SAM [169] 和DINO [170]、視覺-語言模型如CLIP [14] 和Flamingo [171]、以及生成模型如穩定擴散 [19]。有關基礎模型的更多信息,請參閱 [172]。3. 多模態領域適應多模態領域適應(MMDA)旨在將模型從源域適應到目標域,同時利用多模態數據(如視頻、音頻和光流)。MMDA在適應過程中同時使用來自源域的標記數據和來自目標域的未標記數據。

3.1 問題定義

其中 EE 表示期望,?(?,?)?(?,?) 是損失函數。現有的MMDA研究主要集中在兩個任務上——使用視頻、音頻和光流模態的動作識別任務,以及使用LiDAR點云和RGB圖像的語義分割任務。我們將在以下章節中分別討論它們。3.2 動作識別的MMDA在本節中,我們詳細介紹現有的動作識別MMDA方法,并將其分為領域對抗學習、對比學習和跨模態交互。

3.2.1 領域對抗學習

其中 CC 是自監督對應分類頭,cc 是定義模態是否對應的二元標簽。Zhang等人 [25] 通過對抗學習和語義保留策略生成缺失的模態,從而在目標模態缺失的情況下選擇可靠的偽標簽目標樣本。Yin等人 [26] 利用混合樣本對抗學習捕捉領域不變的時間特征,并通過動態模態知識蒸餾提高跨模態適應性。3.2.2 對比學習對比學習 [174] 通過將正樣本對拉近、負樣本對推遠來訓練模型區分正負樣本。它用于學習有效的特征表示,從而實現更好的遷移性能。例如,Song等人 [27] 使用自監督對比學習聯合對齊剪輯和視頻級特征,同時最小化視頻級領域差異,增強類別感知對齊和跨領域泛化。Kim等人 [28] 利用模態和領域特定的采樣策略進行對比學習,聯合正則化跨模態和跨領域特征表示。3.2.3 跨模態交互跨模態交互方法通過在適應過程中促進模態之間的信息交換來增強多模態特征學習,使模型能夠捕捉跨模態的互補和相互依賴關系。例如,Lv等人 [30] 將模態特定分類器建模為教師-學生子模型,使用基于原型的可靠性測量進行自適應教學和異步課程學習,并采用可靠性感知融合進行魯棒的最終決策。Huang等人 [31] 通過自熵引導的Mixup [11] 生成合成樣本,并使用多模態和時間相對對齊將其與假設的源類樣本對齊。Zhang等人 [32] 提出了音頻自適應編碼器和音頻注入識別器,以應對跨場景、視角和演員的動作識別領域偏移。通過利用領域不變的音頻活動信息,他們通過缺失活動學習細化視覺表示,并通過視覺線索增強無聲任務識別。Yang等人 [175] 表明,在跨領域對齊之前通過跨模態交互增強每個模態的可遷移性比直接對齊多模態輸入更有效。最近,Dong等人 [29] 通過設計兩個自監督任務——掩碼跨模態翻譯和多模態拼圖——來解決多模態開放集領域適應問題,以學習魯棒的多模態特征進行泛化和開放類檢測,并通過熵加權機制平衡模態特定損失。3.3 語義分割的MMDA在本節中,我們詳細介紹現有的語義分割MMDA方法,并將其分為xMUDA及其擴展、領域對抗學習和跨模態交互。3.3.1 xMUDA及其擴展

通過數據增強擴展。 數據增強技術已被探索用于增強xMUDA中的跨模態對齊。例如,Li等人 [33] 提出了一種多模態風格遷移策略和目標感知教師框架,以在源和合成的目標風格數據上進行跨領域和跨模態知識蒸餾。Chen等人 [34] 使用CutMix [179] 和Mix3D [180] 增強2D和3D訓練數據,促進2D-3D交互和域內跨模態學習。最近,Cao等人 [35] 將xMUDA的多模態學習管道與從現實場景中收集的3D稀有對象和來自SAM [169] 模型的像素級監督相結合,解決了不平衡監督問題,并顯著提高了稀有對象分割。通過融合擴展。 Wu等人 [181] 通過使用融合的跨模態表示進行知識蒸餾,執行跨模態和跨領域對齊,最大化異構模態之間的相關性和互補性以減輕領域偏移。Cardace等人 [36] 通過將深度特征輸入到2D分支并動態豐富3D網絡的RGB特征來擴展xMUDA。通過兩個分支的中間融合,有效利用了內在的跨模態互補性。Simons等人 [37] 通過動態選擇融合和未融合的校正偽標簽進行自訓練,增強了xMUDA,以解決3DSS的無源MMDA。通過跨模態交互擴展。 Zhang等人 [38] 提出了平面到空間和離散到紋理的自監督任務,以在混合領域設置下訓練模型,增強模態特定學習并減輕領域偏移。Xing等人 [39] 通過跨模態對比學習和鄰域特征聚合模塊增強了xMUDA,加強了跨領域的2D-3D一致性,同時捕捉了更豐富的上下文信息。Zhang等人 [40] 通過引入掩碼跨模態建模來減輕大領域差距,并引入動態跨模態濾波器進行特征匹配,使方法能夠動態利用更合適的2D-3D互補性并提高整體適應性。3.3.2 領域對抗學習Peng等人 [41] 引入了稀疏到密集特征對齊,用于域內點-像素對應,并在跨領域和跨模態上進行對抗學習以實現跨領域對齊,使其成為第一個在兩級上解決跨模態學習的方法。相比之下,Liu等人 [42] 將對抗學習集中在圖像模態上,并提出了一種閾值移動策略以減輕推理期間的數據不平衡。Man等人 [43] 引入了一種蒸餾框架,通過深度估計和BEV嵌入的特征監督將知識從LiDAR教師模型轉移到相機學生模型。多階段對抗學習進一步對齊跨領域的特征空間,使單目3D感知在顯著領域偏移下保持準確。3.3.3 跨模態交互Vobecky等人 [44] 引入了一種跨模態無監督方法,用于2D語義分割(2DSS),使用未注釋的配對LiDAR和相機數據。它首先基于幾何特性提取3D一致的對象段,并應用投影和聚類生成2D偽地面實況,從而實現跨模態空間約束的知識蒸餾。Yin等人 [45] 通過集成多模態輔助網絡解決了2DSS的無源MMDA。該方法采用中間融合,并強制增強的深度-RGB對之間的預測一致性,以實現跨模態學習。Rizzoli等人 [46] 將深度數據集成到視覺變換器的輸入、特征和輸出階段。顏色和深度風格轉移實現了早期領域對齊,而跨模態自注意力生成混合特征以更好地進行語義提取。Bultmann等人 [182] 實現了LiDAR、RGB和熱傳感器模態的實時語義推理和融合,用于語義分割和對象檢測,使用后期融合方法和標簽傳播以適應跨傳感器和領域。3.4 其他任務的MMDA除了動作識別和語義分割,MMDA還在其他任務中得到了探索。Ma等人 [47] 通過使用堆疊注意力學習語義表示并應用多通道約束增強類別區分,解決了跨領域對象和事件識別任務的MMDA。Liu等人 [48] 使用基于張量的對齊模塊探索領域和模態之間的關系,并使用動態領域生成器創建過渡樣本,在多模態情感分析和視頻文本分類任務中實現了卓越性能。最近,Zhang等人 [49] 通過獨立學習每個模態的最佳表示并通過動態加權自適應平衡跨模態領域對齊,解決了情感識別的MMDA。

4. 多模態測試時適應

與多模態領域適應(MMDA)不同,多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)旨在在線適應預訓練的源模型到目標域,而無需訪問源域數據。MMTTA的核心挑戰在于如何在測試時動態調整模型參數,以應對目標域的分布偏移。

5. 多模態領域泛化

與多模態領域適應和多模態測試時適應不同,多模態領域泛化(Multimodal Domain Generalization, MMDG)提出了更具挑戰性的問題設置。在MMDG中,模型僅在具有多個模態的源域上訓練,以泛化到未見過的域,而無需在訓練期間暴露目標域數據。

6. 借助多模態基礎模型進行領域適應和泛化

隨著大規模預訓練多模態基礎模型(MFMs)的出現,如CLIP [14]、穩定擴散 [19] 和Segment Anything Model (SAM) [169],許多研究探索了利用這些模型來增強泛化能力。這些方法可以分為三個主要方向:數據增強、知識蒸餾和學習策略。 7 多模態基礎模型的適應

盡管多模態基礎模型(MFMs)表現出強大的零-shot預測能力,但圖像和文本分布之間的差異,以及訓練目標的局限性,仍然制約著它們的泛化能力。為了解決這些問題,已經提出了多種遷移學習策略,如提示調優(prompt tuning)和特征適配器(feature adapters),以便將MFMs適應到下游任務中。圖8展示了基于提示和基于適配器的適應之間的區別。

8 數據集與應用 多模態適應與泛化已在多個應用領域中進行研究,包括動作識別、語義分割、圖像分類、情感分析、行人重識別、深度補全等。常見數據集的概述見表1,圖9展示了來自三個動作識別數據集的領域偏移示例。

結論

在分布偏移下,將預訓練的多模態模型適應到目標領域是機器學習中的一個新興且關鍵的挑戰。本綜述全面概述了多模態領域適應、多模態測試時適應和多模態領域泛化的最新進展,重點突出推動該領域發展的關鍵挑戰、方法論和應用。此外,我們強調了多模態基礎模型在提升領域適應與泛化任務中的關鍵作用,突出了它們在解決跨模態的現實世界挑戰中的潛力。通過回顧現有方法、數據集和應用,我們識別出未來研究的幾個關鍵方向,包括開發更好的基準和數據集、處理動態環境中的標簽偏移問題,以及進一步探索理論分析。隨著該領域的不斷發展,這些見解為推動多模態模型在現實場景中的魯棒性和效率提供了寶貴的基礎。

付費5元查看完整內容

 摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。

付費5元查看完整內容

摘要——近年來,自動駕駛領域的突破性進展徹底改變了車輛感知和與周圍環境互動的方式。特別是,世界模型作為一種關鍵技術應運而生,提供了對駕駛環境的高保真表示,能夠整合多傳感器數據、語義信息和時間動態。這類模型將感知、預測和規劃統一起來,使得自動駕駛系統能夠在復雜且經常不可預測的條件下快速做出知情決策。研究趨勢涉及多個領域,包括4D占用預測和生成數據合成,這些都能增強場景理解和軌跡預測。值得注意的是,近期的研究利用大規模預訓練和先進的自監督學習,擴大了模型在稀有事件模擬和實時互動方面的能力。在應對諸多關鍵挑戰時——包括領域適應、長尾異常檢測以及多模態融合——這些世界模型為更強大、可靠且適應性更強的自動駕駛解決方案鋪平了道路。本綜述系統地回顧了當前的技術前沿,將相關技術按其在未來預測、行為規劃以及兩者之間的互動方面的側重點進行了分類。我們還識別了未來研究的潛在方向,強調了整體集成、計算效率提升和高級仿真等方面。我們的綜合分析凸顯了世界模型在推動下一代自動駕駛系統朝著更安全、更公平的出行方向發展的變革性作用。

關鍵詞——自動駕駛、世界模型、自監督學習、行為規劃、生成方法 1 引言 1.1 概述 完全自動駕駛的追求已經迅速成為全球科學研究和工業努力的焦點。其核心目標是同時減少交通事故、緩解擁堵,并提升不同社會群體的出行能力[1]。現有統計數據顯示,人為錯誤仍然是道路事故的主要原因[2],這表明,減少人工干預可以顯著降低與交通相關的死亡和傷害的發生率。除了安全性,經濟因素(例如,減少擁堵和優化物流)也推動了自動駕駛技術的發展[3]。 盡管這些激勵因素令人信服,實現高水平的自動駕駛仍需克服相當大的技術難題。最重要的挑戰之一是感知和理解動態交通場景,這要求將異構傳感器數據流(例如激光雷達、雷達、攝像頭)融合成一個統一的環境表示[4],[5]。從復雜的城市布局到高速公路,自動駕駛車輛必須快速吸收多模態數據,檢測關鍵物體(如車輛、行人、自行車騎行者),并預測它們在不同條件下的運動——例如惡劣天氣、無結構道路或繁忙的交通[6],[7]。此外,實時決策還帶來了嚴格的計算約束,要求系統在毫秒級響應時間內應對突發障礙物或異常行為[8],[9]。同樣關鍵的是,系統在極端或長尾場景(例如嚴重天氣、施工區或異常駕駛行為)下的魯棒性,在這些情況下,性能不足可能會危及整體安全性[10],[11]。 在這一背景下,構建穩健且穩定的世界模型已成為基礎性要素。世界模型的概念包括創建一個高保真的駕駛環境表示——涵蓋靜態結構(如道路、建筑)和動態實體(如車輛、行人)[3],[8]。一個全面的世界模型不斷捕獲語義和幾何信息,同時實時更新這些表示,從而為下游任務(如物理世界預測)提供支持[12],[13]。近期的進展通過集成多傳感器數據來細化這些表示,例如生成性方法[14],[15],這些方法通過模擬物理世界來進行訓練,將異構傳感器輸入統一為一致的自上而下的視角[16],[17]。 這些穩健的世界模型利用環境表示來優化智能體的行為規劃,為更安全和更高效的自動駕駛應用奠定了基石。通過實現主動軌跡優化、實時危險檢測和自適應路線規劃,它們能夠直接降低突發危險所帶來的風險[5],并與不斷發展的車聯網(V2X)系統相契合[9]。最終,世界模型促進了感知和控制子系統之間更緊密的集成,簡化了閉環自動駕駛管道[18],[19]。 現有關于世界模型在自動駕駛中的綜述通常可分為兩類。一類主流綜述側重于描述廣泛應用于多個領域的世界模型[20]–[22],其中自動駕駛只是一個特定應用領域。第二類綜述[23],[24]則專注于世界模型在自動駕駛領域中的應用,嘗試總結該領域的現狀。目前,關于自動駕駛中世界模型的綜述較少,它們通常對這些研究進行大致分類,且常常僅關注世界仿真或缺乏對行為規劃與物理世界預測交互的討論,導致該領域缺乏清晰的分類體系。本文的目標不僅是正式定義和分類自動駕駛中的世界模型,還提供對近期技術進展的全面回顧,并探索其在多個領域的廣泛應用,特別強調它們在自動駕駛中的變革性潛力。這一結構化的分類方法使我們能夠突出這些模型如何根據汽車行業的挑戰進行塑造和適應。 1.2 貢獻 本文綜述的指導思想是世界模型是理解動態場景的核心,旨在提供一個全面、結構化的現有方法論回顧。我們將最前沿的研究分類為三個關鍵領域: 物理世界的未來預測:聚焦于動態物體和靜態實體的物理世界演化[11],[25]; 智能體的行為規劃:研究生成式和基于規則的規劃方法,這些方法在不確定的駕駛條件下生成安全、有效的路徑[12],[13]; 行為規劃與未來預測之間的交互:強調統一框架如何捕捉智能體之間的交互,并利用預測性洞察進行協同優化[18],[26],[27]。 具體來說,我們提供: 未來預測模型的深入分析:我們討論了基于圖像/鳥瞰圖/物體圖/點云的研究如何在動態場景中實現幾何和語義的高保真度,包括4D占用預測和基于擴散的生成方法。 行為規劃研究:我們探索了基于規則和基于學習的方法在行為規劃中的應用,展示了在魯棒性和避碰性能上的顯著提升。 交互模型研究的提案:我們系統回顧了交互模型,這些模型共同解決未來預測和智能體行為問題,并說明這種協同如何大幅提升現實世界的適應性和操作安全性。 我們總結了目前的開放挑戰,如自監督方法的無縫集成[26]、稀有事件增強的大規模仿真[10],[28]、以及實時多智能體協調[27],并為未來的研究提供了方向。隨著研究領域的不斷擴展以及現實世界應用的緊迫性,本綜述旨在為研究人員和實踐者提供有價值的參考,為更安全、更穩健的自動駕駛解決方案奠定基礎。 1.3 結構 本文的結構概覽見圖1,具體如下:第1節介紹了世界模型在自動駕駛中的重要性,并概述了它們解決的社會和技術挑戰。第2節提供了世界模型在自動駕駛中的背景知識,重點討論了物理世界的未來預測和智能體的行為規劃。第3節詳細介紹了方法的分類:第3.1節討論了物理世界的未來預測方法,涉及動態物體和靜態實體的物理世界演化;第3.2節討論了強調生成安全、有效駕駛策略的先進行為規劃方法;第3.3節研究了未來預測與行為規劃之間的交互關系,重點介紹了復雜場景下的協同優化技術。第4節探討了數據和訓練范式的不同方法,包括監督學習、自監督學習和數據生成技術。第5節考察了世界模型應用的領域和任務,討論了這些技術在感知、預測、仿真和系統集成等多個領域的影響。第6節對自動駕駛中的世界模型進行了詳細評估,評估了它們在不同任務和指標中的有效性。第7節探討了開放挑戰、潛在研究方向和進一步創新的有前景的方向。第8節總結了本綜述,并重申了世界模型在自動駕駛中不可或缺的作用。

付費5元查看完整內容

摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。

I. 引言

人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。

為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。

A. 相關工作

許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。

B. 貢獻

本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:

  • 本綜述提出了第一個全面的框架,旨在深度理解在邊緣-云環境中部署基礎模型驅動的代理服務。該框架具有促進人工通用智能(AGI)發展的巨大潛力。
  • 從低層次硬件角度出發,本文展示了各種運行時優化方法和資源分配與調度方法,這些技術旨在為基礎模型構建可靠且靈活的基礎設施。
  • 從高層次軟件角度出發,本文闡述了專注于模型優化和代理優化的研究工作,提供了構建智能化和輕量化代理應用的多種機會。

本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。

付費5元查看完整內容

摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。

最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:

  • 我們提供了與現有綜述論文相比,更全面和詳細的關于大模型和一般微調方法論的基礎知識概述。這部分內容不僅涵蓋了大模型的基本原理、結構和技術,還提供了它們在自然語言處理、多模態活動和其他領域的實際應用的深入概述。
  • 我們的調查涵蓋了最新的研究方法論,突出展示了大模型領域的最新進展。這確保了我們的綜述內容全面且詳盡。我們的綜述范圍廣泛,涵蓋了自然語言處理、多模態任務和計算機視覺等多個場景,使讀者能夠全面理解大模型技術的現狀和未來前景。
  • 在回顧和分析當前方法后,我們提出了一些創新和面向未來的研究方向。這些領域考慮到了先進模型技術的增長潛力,并結合了實際應用中行業需求和障礙,提出了可行和創新的研究途徑。

本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。

付費5元查看完整內容

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。

本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容
北京阿比特科技有限公司