亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——工業網絡正在經歷由新興技術的融合推動的快速轉型,這些技術正在革新傳統工作流程、提升操作效率,并在各個行業領域中根本性地重塑工業格局。在這場革命中,數字孿生(DT)作為一種變革性創新,成功地將現實世界系統與其虛擬對應物相結合,架起了物理世界與數字世界之間的橋梁。本文提供了一個全面的調查,介紹了各行業中基于數字孿生(DT)的新興服務和應用,從數字孿生的基本概念和組成部分概述,到對數字孿生關鍵 enabling 技術的討論。與現有文獻不同,本文深入探討并分析了數字孿生在廣泛工業服務中的應用能力,包括數據共享、數據卸載、集成感知與通信、內容緩存、資源分配、無線網絡以及元宇宙等領域。特別地,本文對數字孿生在各個工業應用領域中的作用進行了深入的技術討論,涵蓋制造、醫療保健、交通運輸、能源、農業、航天、石油與天然氣以及機器人等行業。在技術分析過程中,我們深入探討了物理與虛擬平臺之間的實時數據通信,以實現工業數字孿生網絡的構建。隨后,本文廣泛探討并分析了數字孿生在工業領域中的主要隱私與安全問題。文中還提供了分類表和調查的主要研究成果,強調了數字孿生在工業中的重要意義。最后,本文指出了未來的研究方向,旨在推動該前沿領域的進一步發展。

關鍵詞——數字孿生、工業網絡、無線通信、機器學習、安全性。

I. 引言

工業革命標志著由最近在工業物聯網(IIoT)方面的進展驅動的技術創新和自動化新時代的開始[1]。這一關鍵時期為現代經濟中持續發展的先進工業流程奠定了基礎。近年來,數字孿生(DT)作為這一演變的關鍵推動力,允許通過雙向通信、實時仿真和監控,將物理世界與數字世界連接起來。通過優化操作和增強決策,數字孿生推動了智能制造、預測性維護以及更高效的基礎設施管理[2]。 近期,數字孿生模型因其強大的潛力和多功能性引起了廣泛關注,在醫療保健、教育、農業和制造業等多個領域帶來了顯著的益處[3][4]。它們提供實時洞察、優化流程并增強決策能力,推動了其在眾多領域的應用和探索[5]。憑借其創新的操作方法,數字孿生模型為工業應用提供了多種重要的優勢,且在不同的部署層級下具有不同程度的虛擬化功能[6]:

  • 監控:在這一層次上,數字孿生提供了物理對象的虛擬表示。此功能通過控制其在數字平臺上的數字對應物,實現對物理實體的監控。
  • 仿真:數字孿生作為物理對象的仿真器,幫助理解、預測和優化。虛擬模型適應變化,但這些變化不會影響物理對象。
  • 操作:這一層次特征是物理對象與其數字孿生通過以太網、Wi-Fi或無線蜂窩網絡進行雙向通信,狀態變化在虛擬實體和物理實體中同時反映。

借助其獨特的優勢,數字孿生技術已經被提出應用于廣泛的工業領域,包括智能制造、智能醫療、智能交通、能源管理、衛星通信等。例如,數字孿生在智能制造中扮演著至關重要的角色,通過創建制造系統、機器和流程的數字復制品,貫穿各行業[7]。在醫療保健中,數字孿生增強了病患數據管理并個性化治療方案,同時改善了手術規劃[8]。在交通運輸和物流中,數字孿生利用工業物聯網網絡和無線通信提高了資源監控和優化效率[9]。數字孿生在農業和食品生產中的應用通過無線傳感器網絡實現了精確監控和預測分析[10],同時提升了生產力和可持續性[11]。在衛星操作中,數字孿生通過先進的監控和預測性維護提高了裝配過程和網絡性能的準確性和可靠性[12]。此外,在自動駕駛車輛、無人機和智能港口的管理中,數字孿生利用蜂窩網絡和無線通信提升了導航、安全性和操作效率[13]。所有這些數字孿生在各行各業中的顯著進展和成就,突顯了進一步深入探討這一革命性研究領域的理想時機。本文中將展示的數字孿生在各行業中的集成概覽如圖1所示。數字孿生憑借其強大的技術潛力,已顯著轉變了許多工業領域,包括能源、交通運輸、制造和機器人等。 A. 比較與我們的貢獻

在數字孿生技術的最新進展及其與各類應用的集成推動下,近期已發布了多項綜述,探討了數字孿生的變革性影響及其新興趨勢。例如,[14]的研究貢獻了數字孿生概念,強調其與工業4.0及關鍵技術的集成,特別是在制造業中的快速發展,探討了人工智能和工業物聯網等關鍵技術的作用。類似地,[15]的作者分析了數字孿生技術的當前定義和核心特征,探索其在各個領域的應用,并提出了與社會技術方面和生命周期設計相關的意義。其他研究文獻[16]到[17]則探討了數字孿生在工業物聯網等相關領域中的影響。在[16]中,研究人員呈現了數字孿生的定義和特征,擴展其在物聯網中的應用,并展示了數字孿生在軟硬件一體化過程中的作用。有關數字孿生在工業物聯網中的研究也在[17]中得到探討,重點討論了如人工智能和區塊鏈等技術的支撐作用,探索了智能和安全的數字孿生-IIoT實現方案。此外,[18]中的文章回顧了數字孿生系統中的安全與隱私問題,并討論了防御措施。[19]也集中研究了數字孿生在工業4.0范式下的安全形勢,重點分析了網絡物理系統、工業物聯網、邊緣計算和人工智能等多種技術融合的安全威脅,提出了初步的安全建議。數字孿生在無線網絡中的集成問題在[20]中也有所探討,討論了數字孿生技術在無線系統中的關鍵概念、分類、設計考慮和部署趨勢。而[21]的研究則從通信和計算角度探討了數字孿生在智能產業中的作用,回顧了下一代無線技術(如5G及其后續技術)和計算范式(如邊緣計算和云計算)中的應用研究進展。數字孿生在6G通信系統中的作用也在[22]中進行了探討,分析了數字孿生在6G系統中的部署潛力和應用場景。有關數字孿生在各行業集成與進展的研究在[23]、[24]和[25]中有所涉及,提供了數字孿生在產品設計、生產和健康管理等領域的應用回顧。 盡管已有諸多研究,但它們缺乏對數字孿生在工業服務和應用中的全面綜述。尤其是在數據共享、數據感知與卸載、內容緩存、資源管理、無線網絡、元宇宙等工業服務領域,數字孿生的潛力在公開文獻中仍然未得到充分探索[23]-[24]。此外,關于數字孿生在不同工業領域中的應用的全面討論,在[16]到[17]中也缺失。現有的研究僅提供了部分數字孿生應用分析,而尚未深入探討從機器人、制造到農業和航天等所有重要應用領域的全面綜述。 受到這些局限性的啟發,本文提供了一個更全面的數字孿生在工業網絡中的集成調查,包括工業服務和應用。我們特別強調了在每個工業用例中,物理實體與其數字對應物在統一數字孿生平臺上的雙向通信,提供了有關工業數字孿生網絡操作的有價值見解。此外,本文還突出了數字孿生在工業領域中的安全性和隱私問題,這些也正是我們的關鍵創新,使我們的文章在相關文獻中與眾不同。為此,本文的主要貢獻如下:

  • 我們提供了一個全面的數字孿生在工業中的使用調查,討論了其基本原理、組成部分和主要支撐技術。
  • 我們詳細討論了數字孿生在關鍵工業服務中的作用,包括數據共享、數據卸載、集成感知與通信、內容緩存、資源分配、無線網絡,以及新興概念如元宇宙,重點討論系統、機器、流程及其數字對應物之間的通信和網絡協議特性。
  • 我們對數字孿生在廣泛工業領域中的應用進行了全面調查,包括制造業、醫療健康、運輸與物流、能源、農業與食品、航天、石油與天然氣以及機器人行業,突出了通信和網絡技術在提升數字孿生效果方面的關鍵作用。同時,我們提供了分類表,總結了每種數字孿生應用的技術要點、貢獻和局限。
  • 我們還探討了各行業不同層級的安全和隱私挑戰,包括物理層、數字層、通信層和人機交互層,并提出了有效的對策來解決這些漏洞。
  • 基于廣泛的調查,我們總結了研究成果,并指出了未來的研究方向,以推動這一充滿前景的領域的進一步發展。

B. 調查結構

我們的調查結構如圖2所示。第二節回顧了數字孿生的基本原理、組成部分和支撐技術。第三節深入分析了數字孿生在不同工業設置中的服務。第四節探討了數字孿生在各個工業應用中的潛力。第五節討論了工業網絡中各個層次的安全問題。第六節總結了主要發現,并指出了未來的研究方向。最后,第七節對本文進行了總結。

付費5元查看完整內容

相關內容

數字孿生是一個虛擬模型,用于準確地反映物理對象。 所研究的對象(例如風力渦輪)會配備各種與重要功能領域相關的傳感器。 這些傳感器產生與物理對象不同方面的性能相關的數據,如能量輸出、溫度、天氣條件等等。 然后,這些數據將轉發到處理系統并應用于數字副本。

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

 摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。

付費5元查看完整內容

摘要——近年來,自動駕駛領域的突破性進展徹底改變了車輛感知和與周圍環境互動的方式。特別是,世界模型作為一種關鍵技術應運而生,提供了對駕駛環境的高保真表示,能夠整合多傳感器數據、語義信息和時間動態。這類模型將感知、預測和規劃統一起來,使得自動駕駛系統能夠在復雜且經常不可預測的條件下快速做出知情決策。研究趨勢涉及多個領域,包括4D占用預測和生成數據合成,這些都能增強場景理解和軌跡預測。值得注意的是,近期的研究利用大規模預訓練和先進的自監督學習,擴大了模型在稀有事件模擬和實時互動方面的能力。在應對諸多關鍵挑戰時——包括領域適應、長尾異常檢測以及多模態融合——這些世界模型為更強大、可靠且適應性更強的自動駕駛解決方案鋪平了道路。本綜述系統地回顧了當前的技術前沿,將相關技術按其在未來預測、行為規劃以及兩者之間的互動方面的側重點進行了分類。我們還識別了未來研究的潛在方向,強調了整體集成、計算效率提升和高級仿真等方面。我們的綜合分析凸顯了世界模型在推動下一代自動駕駛系統朝著更安全、更公平的出行方向發展的變革性作用。

關鍵詞——自動駕駛、世界模型、自監督學習、行為規劃、生成方法 1 引言 1.1 概述 完全自動駕駛的追求已經迅速成為全球科學研究和工業努力的焦點。其核心目標是同時減少交通事故、緩解擁堵,并提升不同社會群體的出行能力[1]。現有統計數據顯示,人為錯誤仍然是道路事故的主要原因[2],這表明,減少人工干預可以顯著降低與交通相關的死亡和傷害的發生率。除了安全性,經濟因素(例如,減少擁堵和優化物流)也推動了自動駕駛技術的發展[3]。 盡管這些激勵因素令人信服,實現高水平的自動駕駛仍需克服相當大的技術難題。最重要的挑戰之一是感知和理解動態交通場景,這要求將異構傳感器數據流(例如激光雷達、雷達、攝像頭)融合成一個統一的環境表示[4],[5]。從復雜的城市布局到高速公路,自動駕駛車輛必須快速吸收多模態數據,檢測關鍵物體(如車輛、行人、自行車騎行者),并預測它們在不同條件下的運動——例如惡劣天氣、無結構道路或繁忙的交通[6],[7]。此外,實時決策還帶來了嚴格的計算約束,要求系統在毫秒級響應時間內應對突發障礙物或異常行為[8],[9]。同樣關鍵的是,系統在極端或長尾場景(例如嚴重天氣、施工區或異常駕駛行為)下的魯棒性,在這些情況下,性能不足可能會危及整體安全性[10],[11]。 在這一背景下,構建穩健且穩定的世界模型已成為基礎性要素。世界模型的概念包括創建一個高保真的駕駛環境表示——涵蓋靜態結構(如道路、建筑)和動態實體(如車輛、行人)[3],[8]。一個全面的世界模型不斷捕獲語義和幾何信息,同時實時更新這些表示,從而為下游任務(如物理世界預測)提供支持[12],[13]。近期的進展通過集成多傳感器數據來細化這些表示,例如生成性方法[14],[15],這些方法通過模擬物理世界來進行訓練,將異構傳感器輸入統一為一致的自上而下的視角[16],[17]。 這些穩健的世界模型利用環境表示來優化智能體的行為規劃,為更安全和更高效的自動駕駛應用奠定了基石。通過實現主動軌跡優化、實時危險檢測和自適應路線規劃,它們能夠直接降低突發危險所帶來的風險[5],并與不斷發展的車聯網(V2X)系統相契合[9]。最終,世界模型促進了感知和控制子系統之間更緊密的集成,簡化了閉環自動駕駛管道[18],[19]。 現有關于世界模型在自動駕駛中的綜述通常可分為兩類。一類主流綜述側重于描述廣泛應用于多個領域的世界模型[20]–[22],其中自動駕駛只是一個特定應用領域。第二類綜述[23],[24]則專注于世界模型在自動駕駛領域中的應用,嘗試總結該領域的現狀。目前,關于自動駕駛中世界模型的綜述較少,它們通常對這些研究進行大致分類,且常常僅關注世界仿真或缺乏對行為規劃與物理世界預測交互的討論,導致該領域缺乏清晰的分類體系。本文的目標不僅是正式定義和分類自動駕駛中的世界模型,還提供對近期技術進展的全面回顧,并探索其在多個領域的廣泛應用,特別強調它們在自動駕駛中的變革性潛力。這一結構化的分類方法使我們能夠突出這些模型如何根據汽車行業的挑戰進行塑造和適應。 1.2 貢獻 本文綜述的指導思想是世界模型是理解動態場景的核心,旨在提供一個全面、結構化的現有方法論回顧。我們將最前沿的研究分類為三個關鍵領域: 物理世界的未來預測:聚焦于動態物體和靜態實體的物理世界演化[11],[25]; 智能體的行為規劃:研究生成式和基于規則的規劃方法,這些方法在不確定的駕駛條件下生成安全、有效的路徑[12],[13]; 行為規劃與未來預測之間的交互:強調統一框架如何捕捉智能體之間的交互,并利用預測性洞察進行協同優化[18],[26],[27]。 具體來說,我們提供: 未來預測模型的深入分析:我們討論了基于圖像/鳥瞰圖/物體圖/點云的研究如何在動態場景中實現幾何和語義的高保真度,包括4D占用預測和基于擴散的生成方法。 行為規劃研究:我們探索了基于規則和基于學習的方法在行為規劃中的應用,展示了在魯棒性和避碰性能上的顯著提升。 交互模型研究的提案:我們系統回顧了交互模型,這些模型共同解決未來預測和智能體行為問題,并說明這種協同如何大幅提升現實世界的適應性和操作安全性。 我們總結了目前的開放挑戰,如自監督方法的無縫集成[26]、稀有事件增強的大規模仿真[10],[28]、以及實時多智能體協調[27],并為未來的研究提供了方向。隨著研究領域的不斷擴展以及現實世界應用的緊迫性,本綜述旨在為研究人員和實踐者提供有價值的參考,為更安全、更穩健的自動駕駛解決方案奠定基礎。 1.3 結構 本文的結構概覽見圖1,具體如下:第1節介紹了世界模型在自動駕駛中的重要性,并概述了它們解決的社會和技術挑戰。第2節提供了世界模型在自動駕駛中的背景知識,重點討論了物理世界的未來預測和智能體的行為規劃。第3節詳細介紹了方法的分類:第3.1節討論了物理世界的未來預測方法,涉及動態物體和靜態實體的物理世界演化;第3.2節討論了強調生成安全、有效駕駛策略的先進行為規劃方法;第3.3節研究了未來預測與行為規劃之間的交互關系,重點介紹了復雜場景下的協同優化技術。第4節探討了數據和訓練范式的不同方法,包括監督學習、自監督學習和數據生成技術。第5節考察了世界模型應用的領域和任務,討論了這些技術在感知、預測、仿真和系統集成等多個領域的影響。第6節對自動駕駛中的世界模型進行了詳細評估,評估了它們在不同任務和指標中的有效性。第7節探討了開放挑戰、潛在研究方向和進一步創新的有前景的方向。第8節總結了本綜述,并重申了世界模型在自動駕駛中不可或缺的作用。

付費5元查看完整內容

摘要—人工智能(AI)的快速發展已徹底改變了眾多領域,尤其是大規模語言模型(LLMs)和計算機視覺(CV)系統,分別推動了自然語言理解和視覺處理的進步。這些技術的融合催生了多模態人工智能,能夠實現跨文本、視覺、音頻和視頻等模態的更豐富的跨模態理解。尤其是多模態大規模語言模型(MLLMs)作為一種強大的框架,展現了在圖像-文本生成、視覺問答和跨模態檢索等任務中的卓越能力。盡管取得了這些進展,MLLMs的復雜性和規模也帶來了可解釋性和可解釋性方面的重大挑戰,而這些挑戰對于在高風險應用中建立透明性、可信度和可靠性至關重要。本文提供了關于MLLMs可解釋性和可解釋性的全面綜述,提出了一個新穎的框架,將現有研究從以下三個角度進行分類:(I) 數據,(II) 模型,(III) 訓練與推理。我們系統地分析了從詞匯級到嵌入級表示的可解釋性,評估了與架構分析和設計相關的方法,并探討了增強透明度的訓練和推理策略。通過比較各種方法論,我們識別了它們的優缺點,并提出了未來研究方向,以解決多模態可解釋性中尚未解決的挑戰。本文綜述為推動MLLMs的可解釋性和透明度提供了基礎資源,旨在引導研究人員和實踐者開發更加負責任和穩健的多模態人工智能系統。

關鍵詞—多模態大規模語言模型、可解釋性、可解釋性、綜述

引言 人工智能(AI)的快速發展已經顯著改變了眾多領域。最近,AI領域最具影響力的進展之一是大規模語言模型(LLMs)的發展,這些模型在文本生成、翻譯和對話式AI等一系列自然語言任務中表現出卓越的語言理解和生成能力[1]。同樣,計算機視覺(CV)的進展使得系統能夠有效處理和解釋復雜的視覺數據,推動了物體檢測、動作識別和語義分割等任務的高精度實現[2]。最近,這些技術的融合激發了對多模態人工智能的興趣,它旨在整合文本、視覺、音頻和視頻等多種模態,實現更加豐富和全面的多模態理解[3, 4, 5, 6, 7, 8, 9, 10, 11]。多模態大規模語言模型(MLLMs)在深度學習技術的重大進展推動下,經歷了快速的發展[12, 13, 14, 15, 16, 17]。通過整合多種數據源,MLLMs在一系列多模態任務中展示了先進的理解、推理和生成能力,包括圖像-文本生成[18, 19, 20]、視覺問答[21, 22, 23, 24, 25, 26, 27, 28]、跨模態檢索[29, 30, 31]、視頻理解[32, 33, 34, 35, 36, 37, 38]。因此,MLLMs在多個領域找到了廣泛的應用[39, 40, 41],包括自然語言處理(NLP)[42, 43]、計算機視覺(CV)[44, 45]、視頻[15, 46, 47]、自動駕駛[3, 48, 49]、醫學[50, 51, 52]和機器人技術[53, 54, 55, 56, 57, 58]。然而,隨著MLLMs的復雜性和規模的增長,出現了一個關鍵挑戰:解碼MLLMs的決策過程[6, 59, 60]。 可解釋人工智能(XAI)領域已經成為使復雜AI系統的決策過程更加透明和易于理解的關鍵[61, 62, 63]。可解釋性和可解釋性被定義為能夠以人類可理解的方式解釋或呈現[64, 65]。盡管在單模態的可解釋性和可解釋性方面已經取得了顯著進展,例如在卷積神經網絡(CNN)[66, 67]和變換器(transformers)[68]在圖像上的應用,以及LLMs[69]在文本中的應用,但多模態領域存在獨特的挑戰,如不同模態的對齊和分解。此外,MLLMs的可解釋性和可解釋性對于確保透明性和可信度至關重要,特別是在人工智能決策對人類產生重大影響的高風險應用中,這涉及如何在模型中結合不同的數據類型,以及它們的相互作用如何影響輸出。根據近期的研究[64, 70, 71],本文定義了在MLLMs中,可解釋性指的是那些本質上易于理解的內部結構,使得輸入如何轉化為輸出能夠直觀地理解。另一方面,MLLMs的可解釋性涉及提供關于模型決策背后的外部分析的后置技術。 本文提出了一種新的視角來分類MLLMs的可解釋性和可解釋性,通過整合數據、模型、訓練與推理的視角。正如圖1所示,我們從三個角度考察MLLMs的可解釋性和可解釋性:數據(第III節)、模型(第IV節)、訓練與推理(第V節)。繼數據驅動的可解釋性研究[72, 73, 74, 75]之后,我們探討了數據視角(第III節),分析輸入和輸出數據如何歸因于模型的決策。我們還分析了基準和應用,以評估各種任務中的可信度和可靠性,從而確保其在現實場景中的魯棒性和適用性[76, 77]。在模型的可解釋性和可解釋性方面[78, 79, 80, 81, 82, 83, 84],從模型視角(第IV節),我們深入分析了從詞匯級、嵌入級、神經元級、層級到架構級的各個層面。在詞匯級[85, 86, 87, 88, 89],我們研究了單個詞匯對模型輸出的影響,并探索了增強可解釋性的方法。在嵌入級[90],我們評估了多模態嵌入如何影響MLLMs的性能和可解釋性,提供了對底層表示機制的更深刻理解。對于神經元級[91, 92, 93],我們分析了單個單元和特定神經元組的作用,以理解它們對整體模型行為的貢獻。在層級級[67, 78, 94],我們研究了不同層次如何影響模型內的決策過程。在架構方面,我們區分了架構分析和架構設計[95, 96, 97, 98]的可解釋性方法,強調了促進透明性和更好理解模型操作的策略。 此外,我們還探討了增強模型透明性和可解釋性的訓練與推理策略(第V節)。在訓練階段[79],我們總結了各種訓練機制和權重調整如何影響MLLMs的可解釋性。我們討論了旨在改善對齊、減少幻覺并促進核心知識和泛化能力獲取的技術。在推理階段,我們研究了如何在不需要重新訓練的情況下,緩解諸如幻覺等問題,包括過度信任懲罰機制和鏈式推理技術。 通過整合這些視角[3, 99, 100],我們的綜述提供了對MLLMs可解釋性和可解釋性挑戰與進展的全面理解。我們相信,這一全面分析將為致力于開發更透明、可靠和可信的多模態模型的研究人員和實踐者提供寶貴的資源。本研究的主要貢獻總結如下: * 我們首次提供了對現有多模態大規模語言模型(MLLMs)可解釋性和可解釋性的深入和全面回顧。 * 我們展示了當前多模態大規模語言模型可解釋性和可解釋性方法的結構化和比較分析,提出了一種新穎的分類方法,將這些方法組織為數據、模型、訓練與推理視角。 * 我們突出顯示了可能推動該領域發展的研究方向,為研究人員進一步發展MLLMs的可解釋性和可解釋性方法提供了有價值的指導。

II. 綜述框架

A. 綜述范圍 近年來,多模態模型和可解釋人工智能(XAI)取得了顯著進展,許多研究探索了使這些復雜模型更加透明和可解釋的方法[72, 73, 74]。為了將本綜述的范圍縮小到一個可管理的范圍,我們聚焦于多模態大規模語言模型(MLLMs)的可解釋性和可解釋性。MLLMs的可解釋性指的是那些本質上易于理解的內部結構,能夠為輸入如何被處理并轉化為輸出提供直觀的洞察[78, 79]。可解釋的MLLMs使研究人員和實踐者能夠深入理解這些跨模態的動態,澄清每個模態如何影響和塑造模型的決策過程[90]。可解釋性涉及使用外部技術來闡明模型決策背后的原因,這在MLLMs中對于理解多模態間復雜的交互作用至關重要[95]。這種重點不僅增強了我們對多模態集成的理解,也回應了對復雜AI系統透明度日益增長的需求[79]。 在本綜述中,我們集中探討MLLMs中四個主要維度的可解釋性和可解釋性: * 數據可解釋性 —— 探討來自不同模態的輸入數據如何預處理、對齊和表示,以支持跨模態的可解釋性,以及如何應用因果歸因方法來增強對模型決策的理解[72, 75]。 * 模型可解釋性 —— 闡明多模態模型本身的結構和功能,提供關于神經元、層次和架構如何貢獻于可解釋性的洞察[67, 78, 79, 80, 85, 86, 87, 90, 91, 95]。 * 訓練與推理可解釋性 —— 理解MLLMs的訓練和推理過程如何影響可解釋性,這對于在學習階段和實際應用中提升透明度至關重要。

為了保持焦點,我們將單一模態的可解釋性方法排除在本綜述的主要范圍之外,如變換器(Transformer)的可解釋性、卷積神經網絡(CNN)的可解釋性或LLMs的可解釋性,僅作為簡要的背景信息進行介紹。類似地,一些不涉及多模態交互獨特挑戰的通用可解釋性方法也不在本綜述的主要范圍之內。相反,我們將重點放在那些專門設計用于解釋和闡明多模態之間交互作用的方法和模型上。 B. 綜述方法論 為了提供對MLLMs可解釋性和可解釋性的全面概述,我們進行了廣泛的文獻回顧,涵蓋了機器學習、自然語言處理(NLP)、計算機視覺(CV)和多模態系統等領域的研究論文。我們重點審查了過去十年(2010–2024)間發表的論文,特別是研究這些領域中可解釋性和可解釋性的不斷增長的文獻。我們的研究方法包括幾個關鍵步驟。首先,我們使用“多模態大模型”、“可解釋性”和“可解釋性”等關鍵詞,在Google Scholar等數據庫中搜索相關論文,具體細節見表I。為了進一步確保綜述的完整性,我們還審查了關鍵論文的參考文獻,并包括了對該領域具有影響力的早期工作。 在收集候選論文后,我們進行了多步驟的篩選過程。首先通過標題篩選潛在相關的論文,然后進行摘要篩查以確認相關性。如果標題和摘要不足以做出決策,我們會進一步查閱完整的文本。如圖2所示,最終選擇的文獻涵蓋了應用于MLLMs的各種可解釋性和可解釋性技術,包括輸入輸出分析、模型組件和訓練動態等。

結論

本綜述系統地探討了多模態大規模語言模型(MLLMs)的可解釋性和可解釋性,強調了決策過程透明性的重要性。我們將可解釋性方法分為三個主要領域——數據、模型和訓練與推理——提供了一個結構化框架來組織研究并指導未來的研究工作。盡管已經取得了顯著進展,但在可解釋性方法和確保廣泛適用性方面仍然存在挑戰。未來的努力應著眼于填補這些空白,構建對MLLMs的統一理解,推動創新,使多模態系統變得更加可靠和可信。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要——隨著大規模語言模型(Large Language Model, LLM)的普及,世界模型(World Model, WM)的概念近年來在人工智能研究領域,尤其是人工智能代理(AI agents)的背景下,引起了極大的關注。可以說,WM正逐步演變為構建AI代理系統的重要基礎。WM旨在幫助代理預測環境狀態的未來演變,或者幫助代理填補缺失信息,從而使其能夠規劃行動并安全地運行。WM的安全屬性在其在關鍵應用中的有效使用中起著關鍵作用。在本研究中,我們基于全面的文獻調查和預期應用領域的分析,從可信性和安全性的角度對當前最先進的WM技術的影響進行了回顧和分析。我們對當前先進的WM進行了深入分析,并提出技術研究挑戰及其影響,以號召研究社區共同努力改進WM的安全性和可信性。 關鍵詞——人工智能安全、大規模語言模型(LLM)、具身人工智能(Embodied AI)、世界模型(World Model)、智能代理(Intelligent Agents)

I. 引言

近年來,基于Transformer的生成模型取得了快速進展[1],其能力已從自然語言處理(Natural Language Processing, NLP)擴展到多模態應用[2]。前沿模型如SORA[3]、LINGO-1[4]和GAIA-1[5]展示了前所未有的生成高度逼真視頻的能力,這表明通過僅在視頻和語言數據集上的訓練,這些模型已初步掌握了基本的物理和時空連續性等世界性原理。這一新興能力為研究開辟了新途徑,因為理解世界模型對于開發下一代智能系統至關重要。 數據驅動的世界模型概念最早于2017年提出,基于遞歸神經網絡(Recurrent Neural Network, RNN)或長短期記憶網絡(Long-Short-Term Memory, LSTM)架構[6]。盡管這些早期嘗試在相對簡單的模擬游戲環境中展現了一定的潛力,但其表現受限于序列長度、內存和并行能力等約束。Transformer方法的出現帶來了顯著改進,最近的實驗結果顯示了令人鼓舞的進展。因此,許多當代AI代理架構已將世界模型作為核心組成部分[7]。 我們的研究集中于針對具身AI代理(embodied AI agents)的一類特定世界模型。這些代理能夠與物理世界交互。我們從安全性角度審視這些世界模型,填補當前研究中的關鍵空白。自回歸生成模型固有的缺陷(如幻覺現象)[8][9],在機器人和自動駕駛系統(Autonomous Driving Systems, ADS)等安全關鍵應用中帶來了顯著風險[10],并引發了廣泛爭議[11]。盡管目前對世界模型的關注度很高,但我們發現針對具身AI代理的世界模型在安全性方面缺乏全面分析。本文旨在通過簡明而深入的回顧與研究填補這一空白,并從安全性視角進行詳細分析。最后,我們確定了高優先級的研究方向。 本文的主要貢獻總結如下:

  • 我們對近期世界模型研究成果進行了文獻調研,并按時間順序展示了實現世界模型的技術發展路徑。
  • 我們探討了世界模型在具身AI應用(如自動駕駛)中的安全問題。
  • 我們提出了未來研究的潛在方法,以推動可信世界模型的進一步發展。

本文結構安排如下:第二節對當前世界模型的定義進行闡述,并深入探討和分類當前最先進的方法。我們回顧了現代世界模型在不同應用背景下的發展路徑;第三節從批判性視角分析了當前方法在安全性方面的不足;第四節提出了一項研究議程,重點強調提高世界模型安全性的高優先級課題。通過解決這些關鍵問題,我們希望為當前關于具身AI中的世界模型的討論帶來清晰性,并促進更安全、更可信的智能系統的發展。

付費5元查看完整內容

摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。

關鍵詞—擴散模型,三維視覺,生成模型。

I. 引言

近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。

為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。

第七節為結論。

**擴散模型基礎

A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。

這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎

 C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。

三維視覺基礎

三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。

**A. 三維表示

三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示

二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。

深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示

顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。

點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。

**B. 三維視覺中的深度學習方法

深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。

基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。

直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。

圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。

占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。

基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。

**C. 三維視覺中的挑戰

遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。

點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。

噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。

三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。

三維擴散生成任務

擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。

**A. 無條件生成

無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。

Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。

**B. 條件生成

在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。

**C. 三維編輯與操作

三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。

**D. 新視角合成

新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。

**E. 深度估計

擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。

結論

本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。

此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。

通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。

付費5元查看完整內容

摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構

深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。

為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。

在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。

在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸

  • SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。

  • SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。

  • SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。

  • Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。

  • 數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。

總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:

  • 我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。

  • 我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。

  • 我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。

  • 我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。

Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。

  • 初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。

  • 樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。

  • 標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。

  • 采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。

  • 通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。

Mixup方法的主要步驟

如圖2頂部所示,Mixup方法遵循以下步驟:

  1. 從訓練數據集中加載mini-batch原始樣本;
  2. 對于一些下游任務,包括選擇原始樣本和保留可靠樣本,一些基于顯著性或注意力的方法通過加載預訓練模型獲得特征區域或tokens。然后,定義從Beta分布或均勻分布采樣的混合比例λ;
  3. 初始化后,原始樣本通過樣本Mixup策略與其他樣本混合。我們在3.1小節中展示了這些策略;
  4. 當生成混合樣本x^\hat{x}x^ 后,有兩種選擇:一種是采樣,一些方法通過掩碼M的總像素更新混合比例,一些方法選擇混合樣本以保留更多的多樣性或具有挑戰性的樣本,另一些方法重新定義混合比例。另一種是標簽Mixup策略,我們在3.2小節中展示了這些策略并進一步挖掘標簽y^\hat{y}y^;
  5. 最后一步是通道Mixup策略,混合樣本x^\hat{x}x^ 通過網絡編碼并映射到高維潛在空間,一些方法相互插值或選擇特征圖用于高維特征z^\hat{z}z^。然后繼續對特征向量進行編碼以執行不同的任務,并根據不同的損失函數優化網絡。

結論

在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容
北京阿比特科技有限公司