亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——水下目標跟蹤技術在海洋資源勘探、環境監測和國家安全等領域中發揮著關鍵作用。由于聲波在水域中具有良好的遠距離傳播能力,水聲目標跟蹤已成為水下通信與網絡研究中的重要方向。現有綜述文獻往往視角狹窄,或未能充分討論深度學習、強化學習等新興技術所帶來的范式變革。為填補這一空白,本文系統地回顧了該領域的發展,提出了一種基于目標尺度、傳感器感知模式和傳感器協同方式的多維度分類框架。在該框架下,我們系統梳理了2016年至2025年間的相關研究文獻(共180余篇),內容涵蓋水聲目標跟蹤的理論基礎與多種算法方法。特別地,本文強調了深度學習和強化學習等機器學習技術在提升水下跟蹤系統性能與適應性方面的變革潛力和最新進展。最后,本文總結了當前面臨的主要挑戰,并基于聯邦學習、區塊鏈、具身智能和大模型等新興技術,提出了未來研究的發展方向。 關鍵詞——水聲目標跟蹤,通信與網絡,狀態估計,深度學習,強化學習,數據融合。

一、引言

海洋蘊藏著豐富的資源與能源儲備,既是關鍵的資源寶庫,也是人類可持續發展的重要戰略空間,近年來受到了全球越來越多的關注。同時,海洋生態系統為人類提供了不可或缺的生態服務,如氣體調節、養分循環和廢棄物處理。此外,海洋控制權也是維護國家安全與主權的重要保障手段 [1]。因此,高效利用海洋資源、加強海洋生態保護、維護國家海洋權益,已成為國際社會的廣泛共識 [2]。 水下目標的精確有效跟蹤在海洋資源的勘探與保護以及海上安全的維護中均至關重要。作為海洋科技研究的核心方向之一,水下目標跟蹤技術受到了高度關注。近年來,傳感器性能的提升、多源信息融合技術的發展以及人工智能的快速進步,極大地推動了該技術的發展,使其在國防安全 [3]、環境監測 [4]、資源勘探 [5]等多個領域實現了廣泛應用。 然而,受海洋環境復雜性與目標多樣性的影響,水下目標跟蹤技術的發展仍面臨諸多挑戰 [6]。海洋環境會顯著影響信號傳播特性 [7],而水下目標往往具有高機動性和隱蔽性 [8]。常規的陸地跟蹤媒介,如電磁波和激光,在海水中存在嚴重的吸收與衰減,難以勝任水下應用 [9]。相比之下,聲波是唯一能夠實現遠距離水下傳播的介質,因此成為水下目標跟蹤的主要手段。 圖1展示了典型的水聲目標跟蹤場景,其中移動目標發出聲信號,通過水體介質傳播,被部署在特定海域的空間分布式傳感器陣列所接收。這些傳感器配備通信模塊,能夠周期性地采樣聲音信號,并共享測量數據與計算結果。該場景揭示了水聲目標跟蹤系統的三大核心組成部分:(1)兩個關鍵實體,即水聲目標與傳感器節點;(2)通過聲信號傳播與接收實現的目標-傳感器交互;(3)通過通信鏈路建立的傳感器間協同關系。


A. 建立多維分類框架的動機

水聲目標跟蹤在海洋探索中發揮著關鍵作用,因其在軍事與民用領域的廣泛應用,長期以來受到學術界的廣泛關注。已有的相關綜述對該技術進行了較為系統的總結 [10]–[14]。此外,人工智能、大數據分析與先進傳感技術的融合,為該領域帶來了前所未有的技術突破機遇,正成為推動未來海洋科技創新的重要驅動力。 然而,現有綜述文獻存在兩個顯著局限性 [15]: * 首先,盡管水聲目標跟蹤涉及多個研究維度,但現有綜述往往采用單一視角或狹隘場景框架,導致其難以適用于不同應用環境,也阻礙了讀者和研究者對問題場景的系統理解; * 其次,大多數綜述發表于深度學習等新興技術廣泛應用之前,未能涵蓋深度神經網絡在測量數據分析、深度強化學習在傳感器控制協調中的前沿成果。因此,它們未能反映正在發生的范式變革。

上述研究缺口表明,迫切需要一篇系統性綜述,能夠全面整合水聲目標跟蹤的基礎方法與最新進展。


B. 綜述范圍

如圖2所示,近年來水聲目標跟蹤技術的研究熱度持續上升,相關文獻數量迅速增長。本文系統分析水聲目標跟蹤的問題場景,梳理其關鍵組成要素,提出了一個三維分類框架,包括:(1)目標尺度,(2)傳感器感知方式,以及(3)傳感器協同模式。 此外,本文對深度學習、強化學習和數據處理技術與傳統跟蹤方法的融合進展進行了綜述,并在表1中對比了本綜述與已有相關綜述之間的差異。


C. 本文貢獻

據我們所知,本文是首個針對水聲目標跟蹤研究的系統性多維度綜述,全面總結了該領域的基礎方法與技術前沿成果,主要貢獻包括: * 提出全新的多維分類框架:與以往單一維度的分類方式不同,本文提出的框架結合了目標尺度、感知方式與協同模式三個關鍵維度,不僅揭示了水聲跟蹤系統的多樣性與復雜性,還建立了跨維度的映射機制,幫助研究者從多角度審視方法體系,克服傳統綜述的局限。 * 深入分析跟蹤算法中的新興技術:系統探討了深度學習與強化學習如何革新動態水下環境中的自適應算法設計,彌補了現有綜述對這些技術突破關注不足的問題,為研究者提供了先進方法的集成參考與未來研究的創新路線圖。 * 構建結構化的算法對比分析體系:通過詳實的對比表、技術路線圖與案例分析,提煉出各類跟蹤方法的基本原理、特色優勢與性能指標。這一結構化分析方法既有助于快速理解方法核心,又為實際應用中的技術選擇與優化提供了實用參考。 * 揭示關鍵挑戰并提出未來研究方向:通過系統評估,識別出海洋環境建模、低信噪比信號處理與數據共享等關鍵瓶頸。在此基礎上,提出涵蓋算法優化、技術融合、工程實施與數據協同的多維研究框架,為跨學科研究奠定理論基礎,也為后續工作提供了可操作的指導路徑。

本文結構安排如下:第二章介紹水聲目標跟蹤的基本理論;第三章從目標尺度、感知方式與協同模式三方面分類方法;第四章探討深度學習與強化學習在水聲目標跟蹤中的作用;第五章總結當前挑戰與未來發展方向;第六章為結論。圖3展示了本文如何基于上述分類與機器學習應用,系統整理2016至2025年間的180余篇文獻。

付費5元查看完整內容

相關內容

摘 要:隨著大數據、智能學習等技術的快速發展,車輛目標軌跡預測技術在智能交通和軍事領域的應用價值 越來越高。從車輛目標軌跡預測的基本概念、預測方法及其優缺點進行綜述,并討論未來的研究方向。對軌跡預 測的定義進行概述,并根據建模方式、背景因素及輸出類型對預測方法進行分類;根據建模原理的不同,分類討論 基于行為驅動、概率統計和深度學習的軌跡預測方法,并比較分析;最后,討論車輛軌跡預測的潛在研究前景。 關鍵詞:軌跡預測;行為驅動;概率統計;深度學習;潛在方法

付費5元查看完整內容

摘要—視頻場景解析(Video Scene Parsing, VSP)已成為計算機視覺領域的核心任務之一,它促進了在動態場景中對多種視覺實體的同時分割、識別與跟蹤。在本綜述中,我們全面回顧了VSP的最新研究進展,涵蓋了多個視覺任務,包括視頻語義分割(Video Semantic Segmentation, VSS)、視頻實例分割(Video Instance Segmentation, VIS)、視頻全景分割(Video Panoptic Segmentation, VPS)、視頻跟蹤與分割(Video Tracking & Segmentation, VTS)以及開放詞匯視頻分割(Open-Vocabulary Video Segmentation, OVVS)。我們系統分析了該領域從傳統手工特征到現代深度學習范式的發展過程——涵蓋了從全卷積網絡到最新的基于Transformer的架構,并評估了它們在建模局部與全局時序上下文方面的有效性。此外,我們還深入探討了該領域所面臨的技術挑戰,包括時序一致性的保持以及復雜場景動態的處理等,并對構建當前基準測試標準所依賴的數據集與評估指標進行了全面的對比分析。通過提煉當前先進方法的關鍵貢獻與不足,本綜述進一步指出了該領域的新興趨勢與潛在研究方向,有望在實際應用中進一步提升VSP方法的魯棒性與適應性。 關鍵詞—視頻場景解析,視頻分割,視頻跟蹤,開放詞匯,深度學習

1 引言

視頻場景解析(Video Scene Parsing, VSP)是計算機視覺中的一個基礎性問題,旨在為視頻序列中的每一個像素分配語義標簽。它包含了一系列關鍵任務,如視頻語義分割(Video Semantic Segmentation, VSS)、視頻實例分割(Video Instance Segmentation, VIS)以及視頻全景分割(Video Panoptic Segmentation, VPS)。VSP架起了靜態圖像分析[^1]與動態場景理解[^2]之間的橋梁,在學術研究與工業應用中都發揮著至關重要的作用。 在學術層面,VSP帶來了諸多挑戰,例如跨幀保持時序一致性[^3]–[^5]、高效提取時空特征[^6], [^7],以及在復雜環境中準確跟蹤動態目標[^8]。解決這些挑戰不僅推動了計算機視覺理論基礎的發展,也促進了模式識別與機器學習等相關領域的技術創新。 在工業層面,VSP支撐著廣泛的重要應用,包括自動駕駛、智能監控、機器人系統以及視頻編輯等。理解與解析動態視覺場景的能力對于提升決策過程與實現真實世界中的穩健性能具有關鍵意義。 回顧歷史,VSP早期的研究主要依賴于手工設計的特征,例如顏色直方圖、紋理描述符與光流[^9]–[^11],以及傳統的機器學習模型,如聚類方法[^12]、圖模型方法[^13]、支持向量機(SVM)[^14]、隨機森林[^15],以及馬爾可夫隨機場與條件隨機場等概率圖模型[^16], [^17]。盡管這些基礎性技術為該領域奠定了重要基礎,但它們在處理復雜視頻數據時的可擴展性有限,且過于依賴領域知識的特征工程。 深度學習的興起,尤其是全卷積網絡(Fully Convolutional Networks, FCNs)[^1], [^18]–[^20],標志著VSP領域范式的重大轉變。FCNs 能夠學習層級化的特征表示,并進行像素級標簽預測,顯著提升了VSP任務的準確性與效率。在過去十年中,基于FCN的方法[^21]–[^25]已成為主流,建立了新的基準并展現出在各種VSP場景中的廣泛適應性。 在深度學習的基礎上,Transformer架構[^26]的興起進一步革新了計算機視覺的格局[^27]–[^35]。Transformer最初是為自然語言處理(NLP)設計的[^26],其引入的自注意力機制在捕捉長距離依賴關系與上下文建模方面表現出色。受其在NLP中的成功啟發,視覺Transformer(如ViT[^36]、DETR[^37])被引入視覺任務,重塑了圖像與視頻分割的技術前沿。這類基于Transformer的模型通過自注意力機制在空間與時間維度上建模全局交互,突破了傳統卷積神經網絡(CNN)在感受野方面的局限,為VSP帶來了新的發展機遇。 隨著這些技術的推進,VSP的研究范圍也不斷擴展,涵蓋了更為復雜的任務。例如,視頻跟蹤與分割(Video Tracking & Segmentation, VTS)作為關鍵的拓展方向,其目標不僅是對目標進行分割,還要在跨幀過程中保持目標身份的一致性[^38], [^39]。該任務對目標關聯策略的魯棒性提出了更高要求,同時還需應對遮擋、劇烈運動變化與復雜交互等問題,在擁擠場景下的多目標跟蹤與高級視頻編輯等應用中不可或缺。 另一個新興方向是開放詞匯視頻分割(Open-Vocabulary Video Segmentation, OVVS),其結合了CLIP模型[^40],突破了VSS中固定標簽集合的限制。通過多模態學習與自然語言引導,這類方法[^41]–[^45]能夠實現超越預定義類別的目標分割,從而適應真實視頻中豐富多樣的物體類別。這種范式的轉變對于動態環境中的泛化與零樣本識別尤為關鍵,尤其在面對新穎或稀有物體時,模型需具備更強的適應能力。 鑒于上述技術進展,本文對VSP的多方面發展進行了系統梳理。有別于現有綜述文獻僅聚焦某一子領域或特定方法,我們的工作在卷積方法與Transformer方法之間建立橋梁,采用統一視角全面覆蓋VSS、VIS、VPS、VTS與OVVS等任務。已有綜述如[^46]主要聚焦于視頻目標分割(Video Object Segmentation, VOS),在語義分割、實例分割與全景分割方面覆蓋有限,難以滿足對VSP的整體性理解;另一些工作如[^47]則側重于Transformer架構,常忽略卷積方法在本領域中的基礎地位。針對這些不足,我們在本綜述中不僅整合了VSP方法的全貌,也對卷積與Transformer技術的發展路徑進行了批判性分析。 通過同時關注如時序一致性與動態場景理解等長期挑戰,以及如跟蹤、分割與開放詞匯識別等新興需求,本綜述全面總結了當前VSP領域的研究現狀,并為未來研究方向奠定基礎。這些多任務的融合反映了VSP向更全面的動態環境理解自然演進的趨勢,最終推動關鍵應用場景中的創新發展。

付費5元查看完整內容

摘要——圖像匹配旨在建立雙視圖圖像之間的對應關系,以恢復三維結構和相機幾何,是計算機視覺領域的基石,支撐著諸如視覺定位、三維重建和同時定位與建圖(SLAM)等諸多應用。傳統圖像匹配流程由“特征檢測-描述子、特征匹配、離群點過濾與幾何估計器”組成,在復雜場景下往往表現不佳。近年來,深度學習的發展顯著提升了圖像匹配的魯棒性和準確性。本文從一個獨特視角出發,全面回顧了深度學習如何逐步革新經典圖像匹配流程。我們提出的分類方法在兩個關鍵方面與傳統流程高度契合: i)將傳統流程中的各個步驟替換為可學習的模塊,如可學習的特征檢測-描述子、離群點過濾器和幾何估計器; ii)將多個步驟整合為端到端可學習的模塊,如中層稀疏匹配器、端到端半稠密/稠密匹配器和位姿回歸器。 我們首先分析這兩種策略的設計原則、優勢與局限性,隨后在相對位姿恢復、單應性估計和視覺定位等任務上對典型方法進行基準評測。最后,本文討論了當前的開放性挑戰,并展望未來的研究方向。通過系統地分類與評估基于深度學習的圖像匹配策略,本文為不斷演進的圖像匹配研究提供了清晰的全景視圖,并指出了值得深入探索的關鍵路徑。 關鍵詞——三維視覺,圖像匹配,深度學習。

1 引言

計算機視覺通過處理、分析和解釋由相機等傳感器采集的圖像,已成為人工智能感知環境的主要手段之一。而圖像匹配技術通過建立二維圖像之間的三維關系,是計算機視覺眾多應用中的基礎構件,使機器人能夠全面感知世界。該核心技術旨在識別不同視角圖像對中的相同紋理或區域(通常以關鍵點形式表示),并建立圖像間的對應關系(匹配點),從而恢復三維結構并估計各視圖與物體之間的空間關系,支撐圖像檢索 [1]、視覺定位 [2]、三維重建 [3]、運動恢復結構(SfM)[4]、同時定位與建圖(SLAM)[5]、新視角合成 [6] 等廣泛應用。 圖像匹配的研究可追溯至早期的模式識別研究和人類視覺理論 [7],這些理論催生了模板匹配 [8] 和互相關 [9] 方法。隨后,“興趣點”概念被提出 [10],用于定義圖像中具有辨識度的特征點(關鍵點),由此形成了標準的基于特征的圖像匹配流程:包括特征檢測與描述、特征匹配、離群點剔除以及幾何模型估計,該流程如圖 1(II) 所示,并將在第 2 節中簡要回顧。盡管在理想條件下表現良好,但該流程在強光照變化、大視角變換、紋理稀疏、重復圖案或遮擋等極端情況下常常失效。 近年來,基于學習的方法被提出以提升這一基礎流程的魯棒性與準確性。一種直觀策略是將各模塊替換為可學習的組件,如圖 1(III) 所示。這包括:用于更優特征表達的可學習特征檢測-描述子、能在挑戰條件下實現可靠匹配的離群點過濾器、以及用于穩健位姿估計的幾何估計器——盡管仍依賴于特征相似性進行匹配。另一種策略則是將連續步驟整合為統一模塊,形成圖 1(IV) 中展示的三種典型范式: * 中層匹配器(Middle-end Matcher):結合特征匹配與離群點過濾器,在可學習特征空間中直接挖掘圖像間的對應關系; * 半稠密/稠密匹配器(Semi-dense/Dense Matcher):進一步將特征檢測-描述子也納入端到端框架,避免了傳統模塊間的不一致性與不適配問題; * 位姿回歸器(Pose Regressor):跳過顯式匹配,直接回歸兩視圖間的變換關系,無需迭代幾何模型擬合。

上述可學習方法將在第 3 和第 4 節中分別詳述。我們還通過圖 2 所示的時間軸,描繪了基于深度學習的圖像匹配方法的發展歷程。 本文旨在系統回顧機器學習和深度學習如何逐步替代經典圖像匹配流程中的各個組件,回顧各獨立模塊和融合框架的演進歷程,并通過多項任務的統一實驗比較不同方法的優劣。已有的相關綜述多集中于流程中的某一階段。例如,一些早期綜述僅聚焦于特征檢測與描述階段,涵蓋了人工設計方法 [11][12][13] 與可學習方法 [14][15];Zitova 等人 [16] 對整個流程進行了更廣泛的概覽,但該工作早于學習方法的興起;Ma 等人 [17] 首次覆蓋了全流程的手工與可學習方法,但未涉及近期發展的融合模塊。較新的綜述 [18][19] 提出了“基于檢測器的方法”與“去檢測器的方法”等新術語,但未明確將這些方法與傳統流程對應,也未全面涵蓋可學習的幾何估計器、位姿回歸器、多個離群點過濾器及新近圖像匹配方法。 相比之下,本文專注于基于學習的方法,具體貢獻如下: * 提出一種與經典流程對齊的分類方法,全面覆蓋了可替代的可學習模塊與融合式可學習模塊,見圖 1; * 補充了此前綜述中遺漏的相關方法,提供最新全面的圖像匹配研究全貌; * 在相對位姿估計 [20]、單應性估計 [21]、匹配準確率評估 [22] 與視覺定位 [23] 等任務上開展統一實驗,實現公平一致的跨類別比較。

我們的貢獻總結如下:

全面綜述圖像匹配領域中基于學習的方法,提出與傳統流程對齊的分類體系,揭示各模塊如何逐步被可學習方法取代,及多個階段如何融合為統一模塊; * 深入分析可學習替代模塊與融合模塊所面臨的關鍵挑戰,梳理各類代表性解決方案,追蹤各類別內部的方法演進; * 系統評估多個任務中的代表方法,揭示當前學習方法仍未解決的問題,并指出值得探索的未來研究方向。

付費5元查看完整內容

摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程

付費5元查看完整內容

摘要:深度學習極大地推動了遙感圖像處理技術的發展,在精度和速度方面展現了顯著優勢。然 而,深度學習模型在實際應用中通常需要大量人工標注的訓練樣本,且其泛化性能相對較弱。近 年來,視覺基礎模型和大語言模型的發展為遙感圖像處理的大模型研究引入了新的范式。遙感大 模型也稱為遙感基礎模型,基礎模型因其在下游任務中的卓越遷移性能而備受矚目,這些模型首 先在大型數據集上進行與具體任務無關的預訓練,然后通過微調適應各種下游應用。基礎模型在 語言和視覺及其他領域已經得到了廣泛應用,其在遙感領域的潛力也正逐漸引起學術界的重視。 然而,目前針對這些模型在遙感任務中的全面調查和性能比較仍然缺乏。由于自然圖像與遙感圖 像之間存在固有差異,這些差異限制了基礎模型的直接應用。在此背景下,本文從多個角度對常 見的基礎模型以及專門針對遙感領域的大模型進行了全面回顧,概述了最新進展,突出了面臨的 挑戰,并探討了未來發展的潛在方向。

關 鍵 詞:遙感基礎模型;微調;下游任務;預訓練

付費5元查看完整內容

摘 要 水下無人通信載荷技術是現代水下作戰和民用海洋探索中不可或缺的核心技術,直接影響無人潛航器(UUV) 的任務執行能力和作業效率。論文從通信載荷的技術現狀、關鍵技術以及未來發展趨勢三方面對其進行綜述,重點探討水 聲通信、光通信、藍綠激光通信、無線電通信以及磁感應通信的技術特點與應用場景,分析多模態通信載荷在復雜水下環境 中的協同性與適應性。通過對典型應用的研究,論文總結了通信載荷在軍事和民用領域中的實踐價值,并展望其在智能化、 模塊化、多樣化方向的未來發展潛力,為推動水下通信技術的發展和無人潛航器的廣泛應用提供理論支持與技術參考。 關鍵詞 水下通信載荷;無人潛航器;多模態通信;智能化通信;深海探索

付費5元查看完整內容

摘要:大語言模型(LLMs)的快速發展正在深刻變革交通與運輸研究領域。2023至2025年間,LLMs在各類交通應用中的采納與適配呈現爆發式增長,標志著該領域研究范式的重大轉變。然而,現有研究仍缺乏系統性梳理與整合。為此,本文全面綜述了LLMs在交通領域的方法論體系與應用實踐,重點闡釋其處理非結構化文本數據以推動運輸研究的獨特能力。研究涵蓋自動駕駛、出行行為預測和通用交通咨詢等關鍵應用場景,以及零樣本/小樣本學習、提示工程和微調等核心技術方法。

通過系統分析,本文揭示了兩大維度的研究空白:方法論層面,可通過LLMs與傳統工具的融合及模型架構優化予以突破;應用層面,基于現有研究基礎存在大量待探索的交通挑戰解決方案。本綜述不僅明確了LLMs在交通領域應用現狀,更為構建智能化可持續交通系統提出了未來研究方向。

關鍵詞:大語言模型;自然語言處理;交通運輸;交通流;物流引言自古以來,交通與運輸始終是推動人類文明演進的核心動力。從公元前20世紀海上貿易路線主導的帝國興衰,到復雜路網支撐的城市擴張(Gianpaolo等,2013),人員與貨物的流動構成了社會發展的基石。高效運輸系統既促進了經濟增長、文化交流與技術進步,也帶來了擁堵、安全與環境影響等挑戰。20世紀計算機技術的興起徹底變革了交通研究范式。優化算法與預測模型的出現,使得運輸網絡規劃更具系統性與效率。這些進步顯著提升了交通管理、路徑優化和需求預測能力。然而,現代運輸系統產生的多源異構數據(包括數值指標、視頻圖像,以及來自交通報告、社交媒體和傳感器日志的非結構化文本),仍令傳統算法難以有效整合與解析。人工智能的最新進展,尤其是大語言模型(LLMs),為應對這些挑戰提供了新思路。基于Transformer架構(Vaswani等,2017)的GPT-4、BERT等模型,通過海量數據訓練展現出卓越的語言理解與生成能力。其優勢不僅限于自然語言處理(NLP),更體現在:多模態數據融合與推理非結構化信息自動化提取文本與數值數據的協同分析這些特性使LLMs能夠:? 提升交通預測精度? 生成應急規劃場景? 優化資源配置決策? 減少碳排放促進可持續性本文旨在系統梳理LLMs在交通領域的方法創新與應用實踐,重點探討:LLMs最具應用潛力的交通研究場景針對特定交通問題的適配方法選擇現存挑戰與未來機遇全文結構如下:第2章闡述LLMs方法論基礎;第3章按交通/運輸兩大維度分類應用;第4章量化研究趨勢;第5章總結展望。縮寫詞見表1。

付費5元查看完整內容

摘要——基礎模型的快速發展——在多樣化、廣泛的數據集上訓練的大規模神經網絡——已經徹底改變了人工智能,推動了自然語言處理、計算機視覺和科學發現等領域的前所未有的進展。然而,這些模型龐大的參數量,往往達到數十億甚至數萬億,給將其適應于特定下游任務帶來了顯著挑戰。低秩適應(LoRA)作為一種非常有前景的方法,已成為緩解這些挑戰的有效手段,提供了一種參數高效的機制,能夠以最小的計算開銷微調基礎模型。本綜述首次全面回顧了低秩適應技術,除了對大規模語言模型的研究,還包括了其在基礎模型中的應用,涵蓋了低秩適應在多個領域的技術基礎、前沿進展及應用。最后,本文討論了理論理解、可擴展性和魯棒性等方面的關鍵挑戰及未來研究方向。本綜述為從事高效基礎模型適應研究和實踐的學者與從業者提供了寶貴的資源。

關鍵詞——基礎模型、大規模語言模型、低秩適應、參數高效微調、多任務學習

1 引言基礎模型代表了人工智能中的一種范式轉變,其中在廣泛和多樣化的數據集上預訓練的大規模神經網絡架構,建立了可泛化的表示框架,可以適應廣泛的下游應用[1],[2]。這些模型跨越多個領域,包括自然語言處理(如 GPT-3.5 [3]、LLaMA [4])、計算機視覺(如 Swin Transformer [5]、MAE [6]、SAM [7])、語音處理(如 Wav2vec2 [8]、Whisper [9])、多模態學習(如 Stable Diffusion [10]、DALL·E 2 [11])和科學應用(如 AlphaFold [12]、ChemBERTa [13]、ESM-2 [14])。基礎模型的特點是其前所未有的規模,參數數量達到數十億甚至數萬億,并且表現出涌現性質——即在沒有明確訓練的情況下自發產生的能力[1]。這些架構已成為現代人工智能系統的基礎構件,推動了多個領域的突破性進展[1],[2]。盡管這些模型展現了廣泛的能力,但通過微調進行任務特定優化仍然是提升模型泛化能力[15]、促進算法公平性[16]、實現定制化[17]以及符合倫理和社會標準[18],[19]的必要手段。然而,它們的規模帶來了顯著的計算挑戰,特別是在訓練和微調所需的計算資源方面[20]。盡管傳統的微調方法(涉及對全部參數進行更新)在各種任務中已證明有效[21],[22],但其計算需求通常使得在基礎模型中應用變得不切實際[23],[24]。因此,參數高效微調(PEFT)方法應運而生,作為應對這些計算挑戰的解決方案[17],[24],[25],[26],[27],[28]。這些方法通過最小化可訓練參數的數量,使得模型適應能夠顯著降低計算需求,而不會影響任務性能。在這些方法中,低秩適應(LoRA)[17]及其變種因其簡便性、實證效果以及在各種模型架構和領域中的廣泛適用性而受到廣泛關注,如圖1所示。LoRA基于兩個關鍵見解:在微調過程中,權重更新通常位于低維子空間中[29],[30],并且任務特定的適應可以通過低秩矩陣有效捕捉[17]。通過在凍結原始模型參數的同時優化這些低秩矩陣,LoRA實現了高效的適應,并能夠在不增加推理延遲的情況下組合多個任務特定的適應[17],[31]。貢獻。本綜述提供了迄今為止,超越大規模語言模型(LLMs)領域[32],針對LoRA技術的首個全面回顧,擴展分析至基礎模型的更廣泛領域。我們的主要貢獻包括: 1. 技術基礎的系統分析:我們提供了對LoRA近期技術進展的結構化分析,包括參數高效策略、秩適應機制、訓練過程改進以及新興的理論視角。 1. 新興前沿的廣泛調查:我們探討了新興的研究前沿,包括融合多個LoRA組成部分和專家混合方法的先進架構,以及持續學習、遺忘、聯邦學習、長序列建模和高效服務基礎設施的方法。 1. 應用的綜合回顧:我們呈現了在多個領域的實際應用綜述,包括自然語言處理、計算機視覺、語音識別、科學發現,以及在代碼工程、推薦系統、圖學習和時空預測等專門應用中的使用。 本綜述通過圖3組織了現有的LoRA研究,識別了第六節中的關鍵挑戰和未來研究方向,為該領域的研究人員和從業者提供了寶貴的資源。

2 基礎知識LoRA [17] 是參數高效微調(PEFT)領域的重要進展。盡管最初是為大規模語言模型(LLMs)開發的,但后續研究已證明它在各種基礎模型中都表現出色。LoRA的數學公式核心思想是在微調過程中將更新矩陣 ?W 限制為低秩,如圖2所示,這一過程通過矩陣分解實現:

參數初始化策略

LoRA采用特定的初始化策略以確保訓練的穩定性和高效性。矩陣A通常使用從隨機高斯分布中抽取的值進行初始化,而矩陣B則初始化為零,這確保在訓練開始時,?W = BA 實際上是一個零矩陣。微調過程

在LoRA中,微調過程遵循以下關鍵原則: * 原始預訓練權重 W? 被保持凍結,在訓練過程中不接受梯度更新。 * 低秩矩陣 A 和 B 是唯一可訓練的參數,用于捕捉任務特定的調整。 * W? 和 ?W 分別作用于輸入向量 x,并將它們的輸出結合起來。 * 輸出 ?W x 被 α/r 縮放。 * 最終輸出向量逐元素相加:

其中 α/r 是一個縮放因子,用于控制低秩更新的幅度。在使用 Adam [33] 優化時,調節縮放因子 α 大致相當于調整學習率 [17],前提是初始化時進行適當的縮放。在實際操作中,α 的值可以根據秩 r 設置,從而消除廣泛的超參數調優需求。LoRA 相比全量微調的優勢

LoRA 在應用于大規模基礎模型時,相比全量微調提供了幾個關鍵優勢: 1. 參數效率:LoRA 通過低秩分解引入了最小的一組可訓練參數,通常將任務特定的參數數量降低幾個數量級。這種方法在資源受限的環境和多任務場景中尤為有利,其中需要對基礎模型進行多次適配。 1. 增強的訓練效率:與更新所有模型參數的傳統全量微調不同,LoRA 僅優化低秩適應矩陣。這大大減少了計算成本和內存需求,尤其是在具有數十億參數的模型中。減少的參數空間通常會導致訓練過程中的更快收斂。 1. 無延遲推理:LoRA 不會引入額外的推理延遲,因為更新矩陣 ?W 可以顯式地與原始凍結權重 W 結合使用。這種集成確保了適應后的模型在部署和推理時保持高效。 1. 靈活的模塊化適應:LoRA 使得創建輕量級的、任務特定的適配器成為可能,這些適配器可以在不修改基礎模型架構的情況下進行互換。這種模塊化有助于高效的多任務學習和任務切換,同時相比為每個任務維護獨立的模型實例,顯著減少了存儲需求。 1. 強大的知識保留能力:通過保留預訓練權重,LoRA 有效地緩解了災難性遺忘問題,這是傳統微調中常見的挑戰。這種方法在獲取任務特定能力的同時,保持了模型的基礎知識。 1. 多樣的部署方式:LoRA 適應的緊湊性有助于高效的部署和系統集成。多個適應器可以方便地組合或在不同任務或領域之間切換,與傳統微調方法相比,提供了更大的靈活性。

3 基礎在本節中,我們將從四個關鍵維度探討LoRA的基本技術方面:參數效率提升、秩適應策略、訓練過程改進和理論基礎。這些組件構成了LoRA有效性的技術基礎。3.1 參數效率提升盡管通過LoRA及其投影矩陣 A(project-down)和 B(project-up)實現了參數效率的提升,但該方法仍然需要大量的可訓練參數。例如,將LoRA應用于LLaMA-2-70B模型 [4] 時,需要更新超過1600萬個參數 [34],這一數字超過了一些BERT架構的總參數數量 [35]。當前的研究通過四種主要方法來應對這一挑戰:參數分解、剪枝、凍結與共享以及量化。圖4展示了這些技術的示例。

3.2 秩適應秩是LoRA中的一個關鍵參數,直接影響模型的適應性和可訓練參數的數量。原始的LoRA方法在所有層中使用固定的低秩,這對于不同的下游任務和模型架構可能并非最優。為了解決這些局限性,近期的研究提出了多種優化LoRA中秩分配的方法,這些方法可以大致分為兩個主要方面:秩細化和秩增強。圖5展示了這兩種方法的示意圖。

3.3 訓練過程改進盡管LoRA在參數高效微調方面已經取得了顯著成功,但優化其訓練動態仍然是最大化適應性能的關鍵。在本節中,我們將討論旨在改進訓練過程的最新進展,特別是學習率、丟棄策略和縮放因子。 4 前沿發展在上述技術基礎的基礎上,本節探討了擴展LoRA能力的新方向的前沿發展。這些前沿發展利用并結合LoRA的基本原理,以實現新的功能、處理更復雜的任務,并解決模型適應中的挑戰。4.1 高級架構盡管原始的LoRA方法顯著提高了微調的效率,并且展示了與全量微調相當的性能,但在靈活性、泛化能力和同時處理多個多樣化任務方面存在局限性。為了解決這些局限性,研究人員開發了先進的LoRA架構,以進一步提高性能、參數效率和泛化能力。4.2 LoRA 在持續學習中的應用LoRA 的參數高效特性使得在新任務上逐步更新模型成為可能,同時可以有效緩解災難性遺忘問題 [98],[99]。使用 LoRA 進行持續學習(CL)有幾個關鍵優勢:(1)與全量微調相比,計算成本降低;(2)自然地將任務特定知識隔離;(3)靈活地組合任務特定的適應。基于 LoRA 的現有持續學習方法大致可以分為三種方法:正則化方法、任務算術方法和集成方法。

4.3 LoRA 在遺忘中的應用

LoRA 使得從基礎模型中有針對性地移除特定知識成為可能,而無需進行大規模的重新訓練。以下是利用 LoRA 實現遺忘的三種主要方法分類:

  1. 模塊化分解方法:通過將模型的適應部分模塊化,實現對特定知識的局部調整或移除,而不影響模型的整體性能。
  2. 基于優化的方法:通過優化特定的參數或子集來刪除或遺忘特定的知識,優化過程通常專注于減少與特定任務相關的影響。
  3. 漸進式遺忘管道:通過逐步更新模型的知識庫,實現在模型訓練過程中逐漸刪除不再需要的知識,同時保證模型的穩定性和性能。

4.4 LoRA 在聯邦學習中的應用在數據隱私問題日益嚴重的時代,聯邦學習(Federated Learning, FL)提供了一種有前景的方式,可以在保護個人數據隱私的同時,利用集體知識。LoRA 與聯邦基礎模型(Federated Foundation Models, FFM)的結合,使得基礎模型在資源受限的設備上變得更加可訪問,尤其是在邊緣計算場景下,有望徹底改變物聯網(IoT)和移動應用領域。

4.5 LoRA 在長序列建模中的應用

處理長序列的能力對于許多由基礎模型處理的任務至關重要【125】【126】【127】。然而,標準的基礎模型通常受到最大上下文長度的限制,這是由于自注意力機制相對于序列長度的二次計算復雜度。為了應對這一局限性,已經提出了幾種基于 LoRA 的方法,用于擴展基礎模型的上下文窗口。

4.6 LoRA服務系統

高效地提供多個LoRA模型的服務同樣至關重要。近期的進展包括改進的GPU內存管理 [129],高效的批處理技術 [130],用于緩解冷啟動延遲的CPU輔助策略 [131],以及針對資源受限的個人設備的適應性方法 [132]。

5 應用

LoRA在微調基礎模型方面的有效性和高效性,促使其在多個領域得到廣泛應用,包括語言處理、計算機視覺、語音識別、多模態、代碼工程、科學發現、推薦系統、圖學習、時空預測等。

6 結論 在本次綜述中,我們對LoRA進行了系統分析,探討了其理論基礎、技術進展以及在適應基礎模型方面的多種應用。LoRA在多個領域的廣泛應用——從自然語言處理和計算機視覺到語音識別和科學計算——突顯了其多功能性和有效性。LoRA能夠在顯著減少計算和存儲需求的同時保持模型性能,這使得它在資源受限的環境和特定領域的適配中尤為寶貴。盡管取得了這些成就,但仍然存在若干關鍵挑戰。LoRA有效性的理論框架需要進一步發展,特別是在理解低秩適配與模型能力之間的相互作用方面。此外,關于可擴展性、魯棒性和在生產環境中安全部署的問題,仍然是當前研究的重要方向。

付費5元查看完整內容

摘要遙感 (RS) 是一種關鍵技術,用于觀測、監測和解讀我們的星球,廣泛應用于地球科學、經濟學、人道主義等領域。雖然人工智能 (AI),特別是深度學習,在遙感領域取得了顯著進展,但開發更智能的遙感系統仍面臨諸多挑戰,包括地球環境的復雜性、多樣的傳感器模式、獨特的特征模式、不同的空間和光譜分辨率以及時間動態等問題。同時,隨著大型基礎模型 (Foundation Models, FMs) 的最新突破,由于其卓越的泛化能力和零樣本遷移能力,AI 在多個領域的潛力得到了擴展。然而,它們的成功主要局限于自然數據,如圖像和視頻,而對于各種非光學模式的遙感數據表現較差,甚至失敗。這激發了開發遙感基礎模型 (RSFMs) 的興趣,以應對覆蓋地表、大氣和海洋等地球觀測 (EO) 任務的復雜需求。本綜述系統性地回顧了新興的 RSFMs 領域。首先,概述了它們的動機和背景,隨后介紹了其基礎概念。接著對現有的 RSFM 研究進行分類和評審,包括它們的數據集及其在視覺基礎模型 (VFMs)、視覺-語言模型 (VLMs)、大型語言模型 (LLMs) 等方面的技術貢獻。此外,我們基于公開數據集對這些模型進行了基準測試,討論了現有的挑戰,并提出了這一快速發展的領域未來的研究方向。

關鍵詞—基礎模型、遙感、地球科學、多模態、視覺識別、視覺-語言模型、大型語言模型、地球觀測、人工智能。

1 引言

深度學習的快速發展為遙感 (RS) 和各種地球觀測 (EO) 應用帶來了顯著進展。然而,當前的大多數模型依賴于明確設計的、任務特定的學習目標。這種方法需要大量的人力進行數據集收集和標注,同時也需要大量的計算資源進行模型訓練和評估。此外,這些模型在不同任務之間的泛化和遷移能力有限,從而限制了 RS 系統的廣泛采用。RS 數據來自多種傳感器和平臺,具有大規模、復雜、動態和異構的特性。如何以協同、穩健和多功能的方式準確智能地解讀 RS 數據,仍是推動 RS 解讀系統進步的一個關鍵但尚未充分探索的挑戰。

隨著深度學習的持續進展,一種革命性趨勢正朝向大型基礎模型 (Foundation Models, FMs) 演進,定義為“任何基于廣泛數據訓練(通常使用大規模自監督學習)并能夠適應多種下游任務的模型(例如,通過微調)”[1]。FMs 包括大型語言模型 (LLMs)視覺基礎模型 (VFMs)視覺-語言模型 (VLMs),在不同任務上展示了顯著的泛化能力和小樣本遷移能力。這一轉變標志著從單一用途模型向通用模型的過渡,以及從監督預訓練向自監督預訓練的過渡,大大減少了訓練資源的需求,同時擴展了模型的應用范圍。

然而,這些進展主要集中在自然數據領域,如圖像和文本,面對分布外領域如 RS 時常面臨重大挑戰。例如,RS 與自然圖像的根本區別——如傳感器模式、捕捉視角、空間分辨率、光譜帶以及時間規律性——阻礙了 FMs 在 RS 應用中的直接應用。盡管存在這些挑戰,FMs 在自然領域的成功為遙感基礎模型 (RSFMs) 的開發提供了有希望的啟示,RSFMs 在利用大規模地理空間數據、建模復雜動態地球表面、提高數據效率、擴展應用范圍、增強任務性能和減少碳足跡方面顯示出巨大潛力。

相比于一般領域的 FMs,開發 RSFM 面臨幾大關鍵挑戰:(1) 自然數據與 RS 數據之間的顯著領域差異;(2) 缺乏用于 RSFM 預訓練的大規模數據集;(3) 缺少適合 RSFMs 的深度架構;(4) 需要應對不同于自然領域通用 FMs 的獨特 RS 應用。為了應對這些挑戰,近年來不斷有努力致力于開發先進的 RSFMs,并在 RS 領域內更好地整合各種 FMs,如圖 1 所示。

盡管取得了快速進展,RSFMs 領域仍然缺乏一篇全面的綜述,提供對這一新興且多方面領域的深入概述。本文旨在彌補這一空白,通過呈現對 RSFMs 最新進展的廣泛調查,涵蓋學習范式、數據集、技術方法、基準測試以及未來研究方向。如圖 2 所示,我們根據模型類型將現有方法分為三大類:用于 RS 的 VFMs、用于 RS 的 VLMs,以及其他 RSFMs,如 LLMs 和生成式 FMs。這些類別將在后續章節中詳細回顧。 本文的主要貢獻有三方面:首先,它對 RSFMs 的最新進展進行了全面系統的回顧。根據我們所知,這是首篇跨越不同類型 FMs 的綜述,涵蓋了這一快速發展的領域。其次,它對各種傳感器模式和任務下應用的 RSFMs 進行了基準測試和深入分析。第三,它確定了多個研究挑戰,并提出了 RSFMs 領域的潛在研究方向。

本綜述的結構如下:第二部分介紹 RSFMs 的背景知識,包括學習范式、常見的 RS 傳感器模式以及相關綜述。第三部分探討了 RSFMs 的基礎,涵蓋了深度網絡架構和典型的 RS 解讀任務。第四、第五和第六部分系統性地回顧了用于 RS 的 VFMs、用于 RS 的 VLMs 及其他類型的 RSFMs 的方法。第七部分總結并比較了現有方法在多個基準數據集上的性能。最后,第八部分提出了 RSFMs 的幾個有前途的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司