亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于Transformer的基礎模型已成為時間序列分析領域的主流范式,在預測、異常檢測、分類、趨勢分析等多種時間序列分析任務中展現出前所未有的能力。本文綜述了當前最新的預訓練基礎模型,提出了一種新穎的分類方法,從多個維度對相關模型進行系統性梳理。具體而言,我們按照架構設計對模型進行分類,區分了采用基于patch的表示方法的模型與直接處理原始序列的模型。該分類體系還包括模型是否提供概率性或確定性預測,以及模型是專為處理單變量時間序列設計,還是可直接處理多變量時間序列。 此外,分類框架還涵蓋了模型的規模與復雜度,突出輕量級架構與大規模基礎模型之間的差異。本綜述的一大特色是引入了以訓練階段所使用的目標函數類型為依據的分類方式。通過綜合上述多個視角,本文旨在為研究人員與業界從業者提供參考資料,洞察當前研究趨勢,并指明基于Transformer的時間序列建模未來的發展方向。

時間序列數據是現代數據分析中的關鍵組成部分,廣泛應用于金融、醫療健康、經濟學、氣候科學、庫存管理、能源管理、交通管理、物聯網(IoT)、工業流程、供應鏈優化、電信、零售分析、社交媒體監控、傳感器網絡、天氣預測,甚至醫療診斷等多個領域。時間序列分析的重要性在于其能夠捕捉時間依賴性和趨勢性,對于缺失值填補、分類、預測及異常檢測等任務至關重要。例如,在金融領域,時間序列數據可用于預測股價或識別市場異常;而在醫療健康領域,時間序列分析能夠實現患者生命體征的實時監控,及早發現潛在疾病或預測疾病暴發。在氣象學中,其對天氣模式和氣候變化的預測尤為關鍵;而在經濟學中,時間序列分析有助于預測如通貨膨脹和國內生產總值(GDP)增長等關鍵指標。在能源領域,時間序列數據對于優化需求預測和資源調配具有重要價值;在庫存管理中,它有助于預測庫存水平并提升供應鏈效率。在電信領域,時間序列數據用于網絡流量分析和預測性維護;在零售行業中,它支持需求預測與顧客行為分析。在制造業中,時間序列分析能夠優化生產調度并監控設備健康;而在交通運輸中,則有助于預測交通模式并優化車隊管理。圖1展示了在無需微調或微調基礎模型的情況下,在不同領域中應用時間序列任務(如預測、聚類、插補等)的實例。 傳統的時間序列分析方法主要依賴統計學方法,如移動平均(MA)、指數平滑等,這些方法通過對數據平滑處理來識別潛在趨勢。諸如自回歸移動平均整合模型(ARIMA)等方法,結合了自回歸(AR)與移動平均(MA)成分,廣泛用于建模時間相關結構。基于局部加權回歸的季節性和趨勢分解(STL)方法也常用于將時間序列分解為趨勢、季節性與殘差成分。在圖2中,我們展示了蘋果公司(AAPL)在5分鐘時間框架下的日內價格波動,使用了15周期的簡單移動平均(SMA)與指數移動平均(EMA)兩種常見技術分析指標對價格進行平滑處理并識別潛在趨勢。 盡管這些傳統方法在多數場景下有效,但在面對更復雜的非線性模式或高維數據時往往力不從心。相比之下,支持向量機(SVM)與梯度提升機(GBM)等機器學習算法在捕捉更復雜的時間依賴性方面表現更佳,尤其是數據趨勢較為簡單或線性時。然而,這些算法在處理不規則采樣數據或依賴人工特征工程以提取時間特征時面臨較大挑戰。例如,ARIMA模型難以捕捉長期依賴關系或非線性關系;傳統機器學習算法通常依賴繁瑣的數據預處理與特征選擇才能在時間序列任務中取得良好表現。此外,這些傳統模型常常依賴數據平穩性或均勻采樣等假設,這在實際應用中往往無法滿足。例如,在傳感器數據或具有不規則交易時間的股市數據中,傳統方法的表現往往不佳,從而推動了更先進技術的發展需求,以更有效應對這些復雜性。

1.1 神經網絡在時間序列分析中的應用

為克服上述局限,神經網絡,尤其是循環神經網絡(RNN)與卷積神經網絡(CNN),近年來成為時間序列建模的強大替代方案。神經網絡具備從原始輸入中自動學習分層表示的能力,從而免去了大量人工特征工程。這種“端到端”的學習方式使模型能夠自動捕捉數據中的潛在結構,尤其適用于存在復雜非線性時間依賴關系的預測、異常檢測和分類任務。RNN由Rumelhart等人在1980年代提出,專為處理序列數據而設計,能夠通過維護隱藏狀態捕捉歷史輸入信息。在每個時間步,RNN基于當前輸入與前一狀態更新隱藏狀態,從而建模時間依賴關系。這使得RNN非常適合于諸如股價預測、天氣預測或傳感器數據分析等場景。 然而,盡管RNN理論上具備建模序列依賴的優勢,但其在實際訓練過程中存在“梯度消失”問題。在采用時間反向傳播(BPTT)訓練RNN時,梯度在長序列中反向傳播過程中可能變得極小,從而難以學習長期依賴關系。在面臨需要捕捉遠距離依賴或長序列預測的任務中,RNN的表現通常不盡如人意。為緩解該問題,Hochreiter與Schmidhuber于1997年提出了長短期記憶網絡(LSTM),通過引入記憶單元和門控機制(輸入門、遺忘門和輸出門)來控制信息的保留與丟棄,從而有效捕捉長期依賴。Gated Recurrent Unit(GRU)由Cho等人在2014年提出,是LSTM的簡化版本,采用重置門和更新門,在保留性能的同時提高計算效率。 盡管LSTM與GRU在許多時間序列任務中(如股價預測、能源需求預測、傳感器異常檢測)已表現優于傳統RNN,但它們在處理大規模數據時仍面臨諸多挑戰: 1. 序列性與并行化限制:RNN需逐步處理時間序列,導致訓練與推理難以并行化,計算成本高、耗時長; 1. 長期依賴建模難度:即使是LSTM與GRU,面對極長或高度復雜的序列時仍可能出現梯度消失/爆炸; 1. 資源開銷:在大規模數據集上訓練RNN類模型需消耗大量內存與計算資源,難以滿足實時性或資源受限環境的需求; 1. 過擬合與泛化能力弱:參數較多的RNN模型在數據量不足時易發生過擬合,泛化性能較差。

1.2 Transformer范式

Transformer架構于2017年首次提出,標志著序列建模范式的重大轉變。Transformer最初用于自然語言處理(NLP)任務,其核心創新是自注意力機制,可在無遞歸結構的前提下建模序列中元素間的依賴關系。與RNN不同,Transformer能夠并行處理整個序列,從而顯著提升訓練效率。其自注意力機制使模型能動態關注序列中任意位置的相關信息,對于建模長距離依賴關系尤為有效。 Transformer架構能夠在較低計算成本下建模復雜時間依賴,克服了RNN在處理不規則采樣間隔或非線性跨尺度模式時的局限性。同時,由于不依賴遞歸結構,Transformer有效規避了梯度消失問題,自注意力機制實現了序列中任意位置之間的信息直接傳遞,使得模型能捕捉更復雜的時間關系。 因此,基于Transformer的模型迅速在時間序列分析中獲得關注,并在多項任務中(如預測、異常檢測)超越了傳統方法與RNN架構。近年來,許多專為時間序列設計的Transformer變體相繼出現,如 Time Series Transformer (TST)、Informer 等,它們在長序列建模與不規則數據處理方面表現出色。

1.3 基于Transformer的時間序列基礎模型

傳統時間序列建模方法通常對每條序列獨立建模,這在面對大規模或時間模式多樣的序列時難以取得良好效果,因為這種方法無法捕捉跨序列的共性與共享模式。相比之下,Transformer模型可在整體數據上統一訓練,從而提取跨序列的通用特征,構建更具魯棒性與泛化能力的基礎模型。 隨著對這一優勢的認識加深,學術界與工業界對基于Transformer架構的時間序列建模興趣日益增長,目標在于開發更準確、高效、可擴展的解決方案,適用于預測、異常檢測、分類等任務。Transformer在NLP與計算機視覺中的成功進一步證明了其跨領域的廣泛適用性,為時間序列分析提供了新的建模范式。 基于Transformer的模型的快速發展及其在多個領域的持續成功表明,這不僅僅是一種短暫的趨勢,而是對傳統序列建模方式的根本性變革。未來,Transformer架構有望在時間序列分析中發揮關鍵作用,推動預測精度、異常檢測能力與對時序數據的理解水平不斷提升,助力多個領域的數據驅動決策與智能系統發展

付費5元查看完整內容

相關內容

時間序列分析是根據系統觀測得到的時間序列數據,通過曲線擬合和參數估計來建立數學模型的理論和方法。它一般采用曲線擬合和參數估計方法(如非線性最小二乘法)進行。時間序列分析常用在國民經濟宏觀控制、區域綜合發展規劃、企業經營管理、市場潛量預測、氣象預報、水文預報、地震前兆預報、農作物病蟲災害預報、環境污染控制、生態平衡、天文學和海洋學等方面。

近年來,隨著大語言模型能力在深度和廣度上的快速發展,各類相應的評測基準不斷涌現。作為衡量模型性能的量化評估工具,基準不僅是評價模型能力的核心手段,也是引導模型發展方向、推動技術創新的重要因素。本文首次系統性地回顧了大語言模型基準的現狀與發展,將283個具有代表性的基準劃分為三大類:通用能力類、領域特定類和目標特定類。通用能力基準涵蓋核心語言學、知識與推理等方面;領域特定基準主要聚焦于自然科學、人文社會科學以及工程技術等領域;目標特定基準則關注風險、可靠性、智能體等方面。我們指出,當前基準仍存在一些問題,例如數據污染導致的分數虛高、文化與語言偏差引發的不公平評估、以及缺乏對過程可信度和動態環境的考察。最后,我們提出了一個可供參考的未來基準創新設計范式。

1 引言

自從 2017 年 Transformer 架構 [1] 被提出以來,大語言模型(LLMs)憑借其強大的自然語言處理能力,在人工智能(AI)領域掀起了一場革命性浪潮。從基礎的自然語言理解與文本生成任務,到復雜的邏輯推理與智能體交互,LLMs 不斷拓展 AI 的能力邊界,并重塑了人機交互范式與信息處理模式。隨著 GPT 系列 [2, 3, 4]、LLaMA 系列 [5, 6, 7]、Qwen 系列 [8, 9, 10] 等模型的相繼推出,LLMs 已經廣泛滲透到智能客服、內容創作、教育、醫療、法律等領域,成為推動數字經濟發展和社會智能化轉型的核心驅動力。 隨著 LLM 技術迭代的加速,建立一個科學而全面的評價體系已變得尤為迫切。作為衡量模型性能的量化評估手段,基準不僅是檢驗模型能力的核心工具,也是引導模型發展方向、推動技術創新的關鍵環節。通過基準測試,研究者可以客觀比較不同模型的優劣,準確定位技術瓶頸,并為算法優化與架構設計提供數據支撐;同時,標準化的評估結果有助于建立用戶信任,確保模型在安全性與公平性方面符合社會與倫理規范。 然而,與早期以 GLUE [11] 和 SuperGLUE [12] 為代表的語言模型評測基準相比,LLM 時代的模型參數規模呈指數級增長,能力維度也從單任務拓展到多任務與多領域(如 MMLU [13]、GIG-bench [14]、GPQA [15]、SuperGPQA [16]),評測范式也從固定任務轉向多任務與多領域。這些變化對評估體系的科學性與適應性提出了更高要求。 目前,LLM 評估領域仍面臨諸多亟待解決的挑戰。首先,數據泄漏 [17, 18] 問題日益突出,部分模型在訓練階段已暴露于評測數據,導致評測結果虛高,無法真實反映模型的泛化能力;其次,靜態評測 [13, 19] 難以模擬動態的真實場景,難以預測模型在面對新任務和新領域時的表現。再者,評估指標的單一性(如過度依賴準確率和 BLEU 分數)無法全面刻畫 LLMs 的復雜能力,而對于偏見與安全漏洞的檢測、以及指令遵循性的系統化評估等關鍵需求仍未得到有效滿足。此外,大規模評估所需的算力與人力成本高昂,以及任務設計難以覆蓋真實世界復雜性,這些因素都嚴重制約了 LLMs 的健康發展。圖1 展示了具有代表性的大語言模型基準的時間線,說明了這一快速演化的過程。 本文首次針對 LLM 基準開展系統性的綜述與前瞻性分析,主要貢獻如下: 1. 首次對 283 個 LLM 基準 進行系統分析與歸納,總結為三大類:通用能力基準、領域特定基準與目標特定基準。 1. 從數據來源、數據格式、數據規模、評測方法、評測指標等多個維度,全面剖析各類基準的設計動機與局限性,并為后續基準創新提供可直接借鑒的設計范式。 1. 指出當前 LLM 基準所面臨的三大突出問題:數據污染導致的分數虛高文化與語言偏差引發的不公平評估、以及缺乏對“過程可信度”和“動態環境”的評估

付費5元查看完整內容

摘要—時空數據在交通、氣象、能源等諸多現實世界領域中日益增長。時空深度學習模型旨在利用這類數據中的有用模式,支持預測、補全、異常檢測等任務。然而,傳統面向特定任務的一對一深度學習模型通常需要針對每個用例單獨訓練,導致計算和存儲成本顯著增加。為了解決這一問題,近年來出現了一對多的時空基礎模型,它們提供了一個統一的框架,能夠同時解決多種時空任務。這類基礎模型通過在時空數據中學習通用知識,或遷移預訓練語言模型的通用能力,取得了顯著成功。盡管已有綜述分別探討了時空數據和方法,但對基礎模型的設計、選擇、預訓練與適應過程尚缺乏系統性的審視。因此,時空基礎模型的整體流程仍不清晰。 為彌補這一空白,本文創新性地從流程視角出發,系統回顧了現有的時空基礎模型。我們首先介紹了不同類型的時空數據,隨后詳述了數據預處理與嵌入技術。在此基礎上,提出了一個新穎的數據屬性分類體系,根據數據來源與依賴關系對現有方法進行劃分,從而為研究者提供高效有效的模型設計與選擇參考。隨后,我們進一步闡述了原始模型的訓練目標以及遷移模型的適配策略。 總體而言,本文構建了一個清晰且結構化的流程框架,有助于理解時空基礎模型各核心要素之間的聯系,并為研究者快速入門提供指導。此外,我們還介紹了時空基礎模型領域中如多目標訓練等新興研究機遇,為研究人員和實踐者提供了寶貴的見解。

GitHub 倉庫//github.com/LMissher/AwesomeSpatio-Temporal-Foundation-Models 關鍵詞—基礎模型,時空數據,預訓練,適應方法。

一、引言

時空數據正持續從交通、能源和氣象等多個現實世界領域中產生。這類數據天然地展現出隨時間演化的復雜時間特性以及跨區域的空間交互關系【1】。多種形式的時空數據(如軌跡數據、交通數據和視頻數據)在捕捉時空依賴關系方面面臨共通挑戰,需要專門的技術方法以有效提取其內在關聯。挖掘與分析這些時空關聯對于構建智能系統至關重要,使得現實應用能夠在規劃、推理、異常檢測等基礎任務中輔助決策。

近年來,隨著深度學習的發展,基于專用模型的一對一時空數據挖掘取得了顯著進展。這些方法主要依賴于順序建模和空間建模的神經網絡能力,如循環神經網絡(RNN)【2】、Transformer【3】、卷積神經網絡(CNN)【4】以及圖神經網絡(GNN)【5】。然而,面對多樣化的應用場景與任務類型,往往需要訓練大量任務專屬模型,帶來了巨大的計算資源消耗和存儲成本。 幸運的是,隨著自監督學習策略的提出以及“縮放定律”(scaling laws)【6】的發現,基礎模型(Foundation Models)在自然語言處理和計算機視覺領域被設計出來,可以通過高效的少樣本微調(few-shot)甚至無需訓練的零樣本提示(zero-shot prompting)來通用地解決多種任務【7】【8】。 在自然語言處理領域的基礎模型(如 ChatGPT)取得巨大成功之后,“一對多”的基礎模型理念被引入到時空領域,成為一條頗具前景的研究路徑。如圖1所示,時空基礎模型(Spatio-Temporal Foundation Models,STFMs)的目標是在單一的通用模型中學習通用的時空知識,從而應對多樣化的任務與應用,顯著降低對多個任務特定模型的依賴,減少訓練與存儲開銷。通過擴大時空數據的訓練規模,并利用通用的自監督學習目標來構建原始基礎模型,或遷移其他領域(如 NLP)的預訓練基礎模型所具備的通用知識構建遷移型基礎模型,現有的 STFMs 在多種任務中展現了優異效果,展現出統一框架推進該領域的巨大潛力。 盡管 STFMs 已取得明顯進展,但現有綜述仍面臨若干關鍵問題: 1. 數據與模型之間的聯系薄弱:如表 I 所示,盡管已有綜述對不同類型的時空數據進行了分類介紹,但往往忽視了數據對齊中的關鍵步驟(如嵌入技術),這使得時空數據如何有效對接基礎模型變得模糊。 1. 缺乏數據屬性視角:已有綜述大多采用粗粒度的 STFMs 分類方式(例如基于數據類型或深度學習方法),但未解釋為何相似方法被應用于具備共性的數據類型,忽略了從數據屬性出發進行模型選擇或設計的深入洞見。 1. 內容呈現零散:時空數據、基礎模型、訓練目標與遷移適應技術往往被孤立討論,導致無法系統理解在不同任務、數據集與實際場景中應選用哪些模型、目標與策略。

為解決上述問題,本文從“流程視角”出發,系統性地審視 STFMs 的整體開發與應用流程,從數據對齊與模型構想到訓練、適配再到實際應用,全面梳理工作流程。除了簡要介紹時空數據與可用數據集外,如圖2底部所示,我們詳細說明了數據預處理、嵌入技術及多種時空數據類型的輔助信息,從而完成 STFMs 流程中的第一階段:數據對齊。通過引入輔助信息與合適的預處理方式,可顯著提升數據質量,進而增強模型性能。此外,時空數據獨特的空間與時間依賴特性使其嵌入技術在與基礎模型的對接中扮演關鍵角色,是連接原始數據與模型輸入表示的重要橋梁。 STFM 流程的第二階段是基于多樣數據構建模型。為解決粗粒度分類帶來的混淆,我們提出了一種新穎的數據屬性分類體系(如圖2中部所示)。在該體系頂層,我們將 STFMs 分為兩類:原始模型與遷移模型,依據是否直接在原始時空數據上訓練,或是否由其他領域(如語言或圖像模型)遷移而來。此外,我們將原始模型按時間、空間、時空依賴進一步劃分;遷移模型則根據模態分為視覺類、語言類與多模態類。該分類體系基于數據來源與依賴關系進行細粒度建模,便于模型設計與選擇,并可擴展至其他數據類型。 STFM 流程的第三階段聚焦于原始模型的訓練目標與遷移模型的適配技術(如圖2頂部所示)。我們對這些方法進行深入分析,強調其在不同數據類型、任務或應用場景下的優勢與挑戰。 在流程的最后階段,我們總結 STFMs 在現實世界中的典型應用,如能源、金融、氣象、醫療、交通與公共服務等領域(圖1所示),展示其廣泛影響力。 通過逐步明晰的流程式解析,本文不僅理清了 STFMs 的核心組成要素,也揭示了它們之間的深層聯系,有助于模型的快速部署與高效落地。此外,表 I 顯示,現有綜述常常遺漏如關鍵數據類型、訓練目標和適配技術等核心內容,導致對 STFMs 的理解不夠全面。本文通過覆蓋最全面的關鍵要素,提供了一種更具整體視角的理解框架。 最后,我們還討論了 STFMs 當前所面臨的挑戰與未來發展機遇。


本文的主要貢獻總結如下:

全面且最新的綜述:本文提供了當前最系統的 STFMs 綜述,涵蓋數據類型、模型、訓練目標和適配技術等廣泛內容。 * 創新的數據屬性分類體系:我們提出了基于數據來源與依賴關系,從粗到細的 STFMs 分類方法,有助于高效模型設計與選擇。 * 首次基于流程視角的綜述:據我們所知,本文是首個從流程出發系統分析 STFMs 的綜述,有助于理解模型為何表現優越、如何構建。 * 未來研究方向的識別:我們總結了 STFMs 當前應用中的關鍵挑戰,并提出了未來研究的潛在機遇,激勵后續更先進模型的發展。

文章結構如下:第二節回顧時空數據的對齊過程;第三節探討原始基礎模型的設計與訓練目標;第四節深入分析遷移型基礎模型的選擇與適配技術;第五節介紹 STFMs 的典型應用場景;第六節識別新興研究機會與開放挑戰;第七節總結本文的關鍵內容。

付費5元查看完整內容

近年來,大規模文本到圖像生成模型的成功實證驗證了擴散模型在生成任務中的卓越性能。為了促進其在資源受限的邊緣設備上的高效部署,模型量化已成為實現模型壓縮與加速的關鍵技術之一。 本綜述系統梳理了擴散模型量化領域的最新進展,全面分析了該快速發展的研究方向中的當前技術現狀。 首先,我們概述了在擴散模型量化過程中所面臨的主要挑戰,包括基于U-Net架構以及擴散Transformer(Diffusion Transformers, DiT)模型的相關難點。隨后,我們構建了一個全面的量化技術分類體系,并深入討論了各類主流方法的原理機制。 接著,我們從定性與定量兩個維度對具有代表性的擴散模型量化方案進行了細致分析。 在定量層面,我們基于多個廣泛使用的數據集,對各種方法進行了嚴謹的基準評估,提供了對當前最前沿、最具影響力研究工作的系統對比與分析。 在定性層面,我們總結并歸納了量化誤差的影響,結合圖像可視化分析生成軌跡的演化過程,對其影響機理進行了詳細闡述。 最后,我們展望了擴散模型量化在實際應用中的未來研究方向,提出了若干具有潛力的研究路徑與創新方案。 本綜述相關論文列表、對應代碼、預訓練模型及對比結果均已公開,詳見項目主頁。


關鍵詞:擴散模型、Transformer、模型加速、擴散模型量化

1 引言

擴散模型(Diffusion Models)[1–4]近年來迅速發展,已成為主流的深度生成模型之一。通過對后驗分布的精細建模和迭代去噪機制,擴散模型能夠實現對樣本細節的高精度重建,顯著提升了生成質量與保真度。與變分自編碼器(Variational Autoencoders, VAEs)[5]相比,擴散模型更擅長捕捉細粒度特征,并有效規避了傳統重建方法在生成高保真樣本時的結構性限制。 此外,擴散模型采用最大似然估計(Maximum Likelihood Estimation)為基礎的訓練策略,具備堅實的理論支撐,同時也較好地緩解了生成對抗網絡(GAN)[6]在訓練中常見的模式崩潰(mode collapse)和偽影生成等問題,從而在樣本多樣性與生成保真度之間實現了更優平衡。 近年來,跨學科的研究成果進一步凸顯了擴散模型在諸多生成任務中的強大適應性,包括文本到圖像生成 [7, 8]、圖像超分辨率 [9, 10]、圖像修復 [11, 12]、風格遷移 [13–15]、文本到視頻生成 [16–18]、時間序列建模 [19, 20]、可解釋性建模 [21]、分子生成 [22] 和醫學圖像重建 [23, 24] 等。 然而,擴散模型在推理過程中往往面臨顯著的計算與內存開銷。例如,即使在高性能的 A6000 GPU 上,Stable Diffusion [25] 在 16GB 顯存條件下執行一次去噪步驟仍需超過 1 秒 [26]。這種低效率主要源于兩個關鍵瓶頸:一是冗長的去噪鏈條(通常需多達 1000 步 [2]),二是計算開銷巨大的噪聲估計網絡(即得分估計網絡 [4])。

為緩解第一個瓶頸,研究者提出了多種高效采樣策略。其中一類方法著力于構建高性能采樣器,通過數值求解反向時間的隨機微分方程(SDE)[27] 或其對應的常微分方程(ODE)[28, 29],以優化步長和控制離散誤差;另一類研究則致力于學習更優的擴散機制,如擴散方案學習 [30–32] 和噪聲尺度學習 [33–35]。 為緩解第二個瓶頸,模型壓縮技術如剪枝 [36, 37]、蒸餾 [38, 39] 和量化 [40, 41] 被引入擴散模型中。剪枝雖能減少模型復雜度,但常破壞權重結構,且往往需代價高昂的重新訓練;蒸餾方法可通過學習反向 SDE 的積分過程顯著減少采樣步驟,但對數據與算力的依賴程度較高。例如,INSTAFLOW [32] 利用 Rectified Flow [42] 作為教師模型進行有監督蒸餾訓練,但整體訓練過程耗費高達 199 個 A100 GPU 日。相比之下,模型量化 [43] 在保持表達能力的同時顯著提升推理效率,成為邊緣部署中擴散模型加速的有力手段,因此受到廣泛關注。 近期在擴散模型量化方面的研究取得了顯著突破 [40, 41, 44–46],大量前沿工作聚焦于將原本應用于 CNN 架構 [47] 或大型語言模型(LLM)[48, 49] 的高階量化范式適配至擴散模型。開創性工作 PTQ4DM [40] 首次引入基于高斯分布的時間步采樣生成校準集,為該方向奠定了基礎;Liu 等人 [50] 進一步提出了分布對齊增強機制,有效提升了校準樣本的表達能力;So 等人 [45] 引入時間動態量化方法,支持時間步特定的激活量化;Wang 等人 [51] 構建了可微分的時間步粗粒度分組框架,而 Huang 等人 [52] 則提出時序特征保持量化以緩解采樣紊亂問題;Tian 等人 [53] 則進一步推進了視頻生成中的時間對齊技術。 在量化感知訓練(QAT)方面,Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通過實證研究系統優化了多個目標函數。隨著 LoRA 技術的引入,4-bit 激活量化的邊界被進一步突破,He 等人 [57] 提出 QaLoRA,Guo 等人 [58] 推出 IntLoRA,實現對大型文本到圖像模型的微調。 在極端量化場景下,BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布進行潛空間重建,BitsFusion [62] 和 BDM [63] 則采用混合精度策略。但這些方法往往受到量化誤差擾動影響,導致采樣穩定性下降,因此催生了如 PTQD [44]、D2-DPM [46] 和 Tac-QDM [64] 等誤差校正機制。 在擴散 Transformer(DiT)[65] 的量化方面,He 等人 [66] 與 Q-DiT [67] 提出了針對性分組量化機制,以緩解異常激活引發的性能退化;同時,PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通過通道平滑與均衡機制降低了量化敏感性。 盡管上述研究從多個角度解決了擴散模型量化中的主要問題,但不少方法在處理類似挑戰時仍存在策略重疊的現象,反映出當前該領域尚缺乏一份從全局視角出發的系統綜述。 為推動高效擴散模型的發展,本文圍繞擴散模型量化進行系統性和專業化綜述。我們首先介紹擴散模型與模型量化的基本概念,區別于以往聚焦靜態單步模型的綜述,本文從擴散過程的多步采樣動態出發,對量化挑戰進行深入剖析,并構建了細化的解決方案分類體系。我們進一步歸納各領域的關鍵技術,幫助研究者組合互補策略以實現最優性能。 此外,我們在三類典型任務上對主流開源方案進行了評估:類別條件生成、無條件生成、文本引導圖像生成;并通過視覺分析揭示量化偽影(如色偏、過曝、模糊、結構變形)的成因,并以實證研究加以支持。


本文的主要貢獻包括:

首份擴散模型量化領域的系統綜述:據我們所知,本文為首篇全面回顧擴散模型量化研究進展的綜述性論文,涵蓋截至 2025 年 3 月的最新研究成果,填補理論與實踐之間的空白。 * 對擴散模型量化挑戰的深入剖析:首次系統歸納了擴散模型量化中的關鍵挑戰,涵蓋模型結構(如U-Net中的跳躍連接、Transformer中的注意力機制及前饋網絡、文本到圖像模型中的多模態對齊)及獨立于架構之外的多步采樣過程引發的問題。 * 完整的量化方法分類體系:構建了全面的分類框架,涵蓋基于 U-Net 和 DiT 的所有主流后訓練量化(PTQ)與量化感知訓練(QAT)方法,并介紹了如校準采樣策略、動態激活、誤差修正、分組策略與通道均衡等核心機制。 * 定量基準測試與定性分析:在多個公開任務上對開源方案進行系統評估,結合視覺分析探討量化誤差帶來的偽影與其規律,并通過實證實驗予以驗證。 * 未來研究展望:分析當前擴散模型框架下仍面臨的挑戰,提出潛在研究方向,如與高級訓練策略的結合、向量量化跨模態優化等。


本文結構安排如下:第2節介紹擴散模型與模型量化的理論基礎,并深入探討擴散模型量化中的核心挑戰;第3節在前述討論基礎上,對現有量化方法進行分類與剖析;第4節提供標準化基準并評估典型開源方案;第5節總結全文,并展望未來研究方向。

付費5元查看完整內容

擴散生成模型已在圖像和視頻生成等視覺領域取得了顯著成功。近年來,它們也逐漸在機器人領域中嶄露頭角,尤其是在機器人操作任務中展現出廣闊前景。擴散模型基于概率框架,具備建模多模態分布的能力,并且在處理高維輸入輸出空間時表現出強大的魯棒性。

本文綜述了擴散模型在機器人操作中的最新研究進展,涵蓋了抓取學習、軌跡規劃和數據增強等關鍵應用。用于場景與圖像增強的擴散模型位于機器人與計算機視覺交叉領域的核心位置,尤其在提升基于視覺的任務的泛化能力與緩解數據稀缺性方面具有重要意義。

此外,本文介紹了擴散模型的兩種主要框架及其與模仿學習和強化學習的融合方式,探討了主流架構與評估基準,并指出了當前最先進擴散方法的挑戰與優勢。

關鍵詞:擴散模型 · 機器人操作學習 · 生成模型 · 模仿學習 · 抓取學習

//arxiv.org/pdf/2504.08438

1 引言

擴散模型(Diffusion Models, DMs)作為深度生成模型,在多個領域中展現出極大的發展潛力,包括計算機視覺(Ho 等, 2020;Song 等, 2021a;Nichol 和 Dhariwal, 2021;Ramesh 等, 2022;Rombach 等, 2022a)、自然語言處理(Li 等, 2022;Zhang 等, 2023;Yu 等, 2022)以及機器人學(Chi 等, 2023;Urain 等, 2023)。DMs 天生具備建模任意分布的能力,特別是在處理來自高維和視覺數據的復雜多模態分布時,其性能和穩定性已超越傳統的高斯混合模型(GMMs)和基于能量的模型(EBMs),如隱式行為克隆(Implicit Behavior Cloning, IBC)(Chi 等, 2023)。雖然 GMM 和 IBC 都能建模多模態分布,且 IBC 甚至能學習復雜的不連續分布(Florence 等, 2022),但實驗結果(Chi 等, 2023)顯示,這些方法在實際中往往偏向特定模式。 總體來看,DMs 的性能也已超過過去被認為是生成模型主流方法的生成對抗網絡(GANs)(Krichen, 2023)。相比之下,GANs 通常需要對抗訓練,容易出現模式崩潰以及訓練不穩定等問題(Krichen, 2023),且對超參數較為敏感(Lucic 等, 2018)。 自 2022 年以來,擴散概率模型在機器人操作領域中的應用顯著增長,涵蓋了軌跡規劃(如 Chi 等, 2023)和抓取預測(如 Urain 等, 2023)等多項任務。DMs 能夠有效建模多模態分布,這在諸如軌跡規劃與抓取等機器人操作任務中具有巨大優勢,因為這些任務往往存在多個同樣合理的冗余解。捕捉這些多種可行解不僅提升了模型的泛化能力,也增強了機器人在不同物體擺放或推理約束下的適應性。 盡管在軌跡規劃任務中,DMs 主要結合模仿學習進行應用,但也已有方法將其與強化學習(Reinforcement Learning, RL)相結合,例如 Geng 等(2023)。當前的研究工作正集中于根據具體任務需求調整擴散過程中的各個組成部分。 一些研究架構整合了不同甚至多種輸入模態,例如點云(Ze 等, 2024;Ke 等, 2024),通過深度信息提升模型對復雜任務中的三維場景理解能力。另一個輸入模態的例子是自然語言(Ke 等, 2024;Du 等, 2023;Li 等, 2025),這也使得基礎模型(如大型語言模型)能夠融入機器人操作流程。在 Ze 等(2024)中,同時使用了點云與語言任務指令作為多模態輸入。 還有研究將 DMs 融入分層規劃(Ma 等, 2024b;Du 等, 2023)或技能學習(Liang 等, 2024;Mishra 等, 2023),以充分發揮其在建模高維數據和多模態分布方面的最前沿能力,適用于長時序與多任務的設置。許多方法(如 Kasahara 等, 2024;Chen 等, 2023b)也在基于視覺的操作任務中,利用擴散模型進行數據增強,以擴展數據集并重建場景。 值得注意的是,DMs 的一個主要挑戰是其采樣速度較慢。對此,已有多種方法進行改進(Song 等, 2021a;Chen 等, 2024;Zhou 等, 2024a),部分方法已實現了實時預測能力。 據我們所知,這是首篇聚焦于機器人操作領域的擴散模型綜述文章。本文系統地對該領域中與 DMs 相關的多種方法進行了分類,涵蓋了網絡架構、學習框架、應用場景與評估方法等方面。除全面的描述外,我們還提供了直觀的分類圖譜。 為幫助讀者理解 DMs 的基本原理,本文首先在第2節介紹其數學基礎(非特指機器人應用)。第3節將討論 DMs 在機器人操作中常見的網絡架構。隨后,第4節介紹 DMs 在機器人操作中的三大核心應用方向:軌跡生成(4.1節)、抓取合成(4.2節)以及視覺數據增強(4.3節)。第5節對常用基準測試與對比方法進行總結,最后第6節給出結論、指出當前局限,并展望未來的研究方向。

**

**

付費5元查看完整內容

小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。

我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。

本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。

1 引言

盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。

為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。

在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:

  • 在小型語言模型的預處理(模型架構)、訓練和后處理(模型壓縮)中使用的技術;以及
  • 該技術試圖優化的約束條件,如推理計算、訓練時間、速度等。

表1(技術)和表2(約束條件)展示了這些主軸的概覽。

需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。

**綜述的組織結構

本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。

**主要貢獻總結

本文的主要貢獻如下:

  • 針對從業者提供了一篇全面的小型語言模型綜述。我們還綜述了文獻中提到的問題設置、評估指標和數據集。
  • 我們引入了幾個直觀的小型語言模型分類法,并使用這些分類法對現有研究進行了綜述。
  • 我們識別了小型語言模型的重要應用、開放問題和挑戰,為未來的研究提供了方向。

2 模型架構

本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。

**2.1 輕量化架構

輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。

**2.2 高效自注意力近似

部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。

**2.3 神經架構搜索技術

本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。

**2.4 小型多模態模型

近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。

此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。

3 訓練技術

本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。

**3.1 預訓練技術

混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。

現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。

為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。

為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。

**3.2 微調技術

在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。

3.2.1 參數高效微調

參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。

3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。

數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。

通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。

語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。

最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。

結論

鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

時間序列數據的研究對于理解隨時間變化的趨勢和異常至關重要,使得在各個領域內能夠實現預測性洞察。另一方面,時空數據對于分析空間和時間中的現象至關重要,為復雜系統交互提供動態視角。近期,擴散模型在時間序列和時空數據挖掘中得到了廣泛應用。這些模型不僅增強了序列和時間數據的生成和推理能力,而且還擴展到其他下游任務。在本綜述中,我們全面而深入地回顧了擴散模型在時間序列和時空數據中的使用,按模型類別、任務類型、數據形態和實際應用領域進行分類。具體而言,我們將擴散模型分為無條件和有條件兩種類型,并分別討論時間序列數據和時空數據。無條件模型,即無監督運行的模型,被進一步細分為基于概率和基于分數的模型,服務于預測和生成任務,如預測、異常檢測、分類和填補。有條件模型則利用額外信息以增強性能,同樣也針對預測和生成任務進行劃分。我們的綜述廣泛涵蓋了它們在包括醫療保健、推薦系統、氣候、能源、音頻和交通等多個領域的應用,為這些模型如何分析和生成數據提供了基礎理解。通過這一結構化概覽,我們旨在為研究人員和實踐者提供關于時間序列和時空數據分析中擴散模型的全面理解,旨在通過解決傳統挑戰和探索擴散模型框架內的創新解決方案,引導未來的創新和應用。 //www.zhuanzhi.ai/paper/38a12a5bf6945d011c3aa4827f0df55a

擴散模型代表了一類概率生成模型,這些模型通過一個包括在一組訓練樣本中注入噪聲及其后續移除的兩步過程進行優化。這個過程包括一個前向階段,稱為擴散,以及一個反向階段,稱為去噪。通過訓練模型去除在擴散過程中加入的噪聲,模型在推斷過程中學會生成與訓練數據分布緊密對齊的有效數據樣本。 近年來,擴散模型在各個領域中獲得了顯著的關注并產生了重大影響,包括計算機視覺(CV)、自然語言處理(NLP)和一般的多模態學習。這挑戰了生成對抗網絡(GANs)長期的主導地位。在這些領域中,擴散模型在如文本到圖像轉換、實例分割、3D形狀生成、分子設計和音頻生成等應用中展示了卓越的能力。值得注意的是,擴散模型也作為一種非自回歸的替代方案,開始在傳統由自回歸方法主導的任務中獲得人氣。最近,OpenAI Sora的推出標志著擴散模型在模擬嵌入時空連續體的物理世界中的新進展,突顯了它們的關鍵重要性。

時間數據主要包括時間序列和時空數據,封裝了絕大多數現實世界系統的動態。這些時間數據形式已被廣泛研究,并被認為對眾多應用至關重要。然而,從各種數據形態中導出物理世界的普適動態法則仍然是該領域內的一個重大挑戰。最近,時間序列和時空建模領域經歷了從感知智能向通用智能的顯著轉變。這一轉變由具有廣泛時間數據分析能力的統一基礎模型(FMs)的出現所特征化,挑戰了特定領域模型的優勢。擴散模型在許多模態上實現了最先進的成果,包括圖像、語音和視頻。由于這些領域中廣泛且多樣的可用數據,擴散模型常作為生成型基礎模型與大型語言模型(LLMs)或其他基礎模型一同促進了這些領域的快速發展。 近年來,也出現了越來越多專為模擬時間序列和時空數據而設計的擴散模型。同時,我們也注意到越來越多的嘗試使用擴散模型進行時間建模。觀察擴散模型的成功,引發了一個引人入勝的問題:時間序列/時空數據分析與擴散模型的交叉會擦出什么樣的火花?

時間序列和時空數據分析基本上依賴于對它們固有的時間動態的深刻理解,其主要任務主要集中在骨干模型的生成能力上,例如預測、填補和生成。這些分析聚焦于為特定目的生成時間數據樣本,無論是有條件的還是無條件的。目睹了時間序列和時空基礎模型的最近發展,無論是基于LLMs構建還是從零開始訓練,它們的成功可以歸功于估計訓練樣本分布的能力,從中可以提取有效的數據表示。在這方面,擴散模型作為一個強大的生成框架出現,使得(1)模擬時間數據中的復雜模式成為可能,以及(2)支持廣泛的下游任務。為特定任務生成有效的數據樣本時,時間序列和時空擴散模型通常以無條件方式操作,無需監督信號。鑒于實際應用的部分觀察性質,有條件的擴散模型已經出現。它們利用數據標簽(例如指令、元數據或外來變量)來調控生成過程,從而使得有效的跨模態提示成為可能,導致更定制化和改進的結果。

我們在圖3中提出了一個發展路線圖。通過在大規模時間數據上訓練,擴散模型有效地填補了時間序列/時空數據生成的空白,并展示了在解決下一代以LLM為中心的時間數據代理的難題中的重大潛力。

盡管擴散模型在處理時間序列和時空數據方面展示了充滿希望的前景和迅速的進步,現有文獻中對這一模型家族的系統分析卻明顯不足。本文旨在通過提供一份前瞻性的綜述來彌補這一差距,闡明擴散模型適用于這些數據形態的原因(“為什么”)以及它們如何提供優勢的機制(“如何”)。在這份綜述中,我們提供了細的分類,進行了徹底的評審,并識別了這一迅速發展領域內的新興趨勢。我們的主要貢獻總結如下:

全面且最新的綜述。我們呈現了一個全面、最新且前瞻性的擴散模型在時間序列和時空數據應用的綜述。我們的調查強調了擴散模型適用于這些數據形態的適宜性,并討論了它們提供的益處。通過覆蓋領域的廣泛譜系和各個方法的細節,我們為讀者提供了對這一主題領域的深入洞見。

統一和結構化的分類。我們引入了一個清晰且有組織的框架,用于將現有文獻分類為兩種主要類型:無條件和有條件的擴散模型,重點關注時間序列和時空數據,這些數據涵蓋了預測性和生成性任務。這種分類為讀者提供了從多個角度對該主題的連貫路線圖。

洞察新興進展。我們討論了無條件和有條件擴散模型中的前沿技術,關注時間序列和時空數據。我們的覆蓋范圍包括最新技術和新興趨勢,如多模態有條件生成。

挑戰和未來方向的總結。我們確定了當前研究環境中面臨的關鍵挑戰,并突出了幾個未來探索的有希望方向。

本文的其余部分結構如下:第2節提供了關于擴散模型的全面背景,詳細介紹了它們的發展、理論基礎和各種實現。第3節呈現了對時間序列和時空數據應用擴散模型的結構化概覽和分類,為在第4節中更深入探討模型視角奠定了基礎,該節將討論標準和先進的擴散模型。第5節關注于任務視角,檢查擴散模型如何處理預測、生成、填補、異常檢測等任務。第6節討論數據視角,強調針對時間序列和時空數據的特定挑戰和解決方案。第7節探索擴散模型在各種領域的應用,如醫療、交通和能源,展示了它們的廣泛實用性。最后,第8節以對未來機會的展望和總結性評論結束本文。

本節提供了針對時間序列和時空數據分析挑戰的擴散模型的概述和分類。我們的調查沿四個主要維度組織討論:擴散模型的類別、任務類型、數據形態和實際應用。圖7中展示了相關工作的全面總結。現有文獻被分類為兩個主要組別:無條件和有條件的擴散模型,重點關注時間序列和時空數據。

在無條件類別中,擴散模型以無監督方式操作,生成數據樣本無需監督信號。這一設置代表了分析時間序列和時空數據的基礎方法。在此類別中,文獻可以進一步分為基于概率的和基于評分的擴散模型。例如,去噪擴散概率模型(DDPMs)[2]和基于評分的隨機微分方程(Score SDEs)[4],[6],如第2節所介紹。這一類別的研究廣泛地組織為兩個任務組:預測任務和生成任務。預測任務通常涉及預測和異常檢測,利用歷史數據和模式來預測當前和/或未來事件。相反,生成任務則專注于識別大型數據集中的模式以生成新內容,如時間序列的插值和增強。這些方法被開發用于兩種主要數據形態:時間序列和時空數據,以滿足包括醫療保健、能源、氣候、交通等多個領域的廣泛應用。

在有條件類別中,擴散模型被定制用于時間序列和時空數據的條件分析。實證研究表明,使用數據標簽的條件生成模型比它們的無條件對應物更易于訓練且性能更優[75]。在這一上下文中,標簽(也稱為條件)通常來自各種來源,例如提取的短期趨勢[34]和城市流量圖[35],以增強模型推斷。這一類別采用基于概率和基于評分的擴散模型來應對預測和生成任務,提供了在特定約束下利用擴散模型應對時間序列和時空數據分析實際挑戰的新視角。

在對模型類別、任務類型、數據形態和應用領域的基礎理解的基礎上,我們更深入地探索了時間序列和時空數據分析中的擴散模型。每個部分都旨在解開擴散模型應用中固有的復雜性和細微差別,從多個視角提供全面概述。在第4節中,我們探討擴散模型的景觀,突出無條件和有條件方法之間的區別及其含義。第5節從預測和生成的視角分析任務,詳細說明了預測、生成、異常檢測和數據插值等具體功能。第6節檢查數據形態,區分時間序列和時空數據,概述模型挑戰和適用性。最后,第7節將討論擴展到應用領域,展示擴散模型在醫療、交通、序列推薦、氣候、能源和音頻等領域的廣泛實用性。這種結構化的探索旨在裝備讀者深入理解擴散模型處理復雜時間序列和時空數據挑戰的潛力和當前狀態。

付費5元查看完整內容

本文總結了視覺 Transformer 處理多種識別任務的百余種代表性方法,并對比分析了不同任務內的模型表 現,在此基礎上總結了每類任務模型的優點、不足以及面臨的挑戰。本文根據識別粒度的不同,分別著眼于諸如圖 像分類、視頻分類的基于全局識別的方法,以及目標檢測、視覺分割的基于局部識別的方法。考慮到現有方法在三 種具體識別任務的廣泛流行,本文總結了在人臉識別、動作識別和姿態估計中的方法。同時,也總結了可用于多種 視覺任務或領域無關的通用方法的研究現狀。基于 Transformer 的模型實現了許多端到端的方法,并不斷追求準確率 與計算成本的平衡。全局識別任務下的 Transformer 模型對補丁序列切分和標記特征表示進行了探索,局部識別任務 下的 Transformer 模型因能夠更好地捕獲全局信息而取得了較好的表現。在人臉識別和動作識別方面,注意力機制減 少了特征表示的誤差,可以處理豐富多樣的特征。Transformer 可以解決姿態估計中特征錯位的問題,有利于改善基 于回歸的方法性能,還減少了三維估計時深度映射所產生的歧義。大量探索表明了視覺 Transformer 在識別任務中的 有效性,并且在特征表示或網絡結構等方面的改進有利于提升性能。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?edit_id=202302&flag=2&file_no=202208300000009&journal_id=jig 計算機視覺(Computer Vision, CV)涉及對圖像 或視頻中有用信息的提取和分析。在所有CV任務中, 識別任務占有很大的比重。隨著深度學習技術的引 入,經典的方法是利用卷積神經網絡(Convolutional Neural Network, CNN)來解決此類問題。CNN通過局 部感知和參數共享,降低了網絡模型的復雜度,并 且可以直接將圖像數據作為輸入,避免了人工提取 特征的過程。但由于CNN擅長關注局部特征,難以 很好地利用對結果同樣十分重要的全局信息,使得 該領域的發展受到了一定的阻礙。 Transformer(Vaswani 等,2017)是一個從序列 到序列(Sequence to Sequence)的模型,最大特點是 拋棄了傳統的卷積神經網絡和循環神經網絡 (Recurrent Neural Network, RNN),采用注意力機制 組成網絡,使得模型可以并行化訓練,而且能夠關 注全局信息。Transformer被提出后在自然語言處理 (Natural Language Processing, NLP)領域大放異彩,例如備受關注的基于Transformer的雙向編碼器表 示 (Bidirectional Encoder Representations from Transformers, BERT)模型(Devlin 等,2019),以及 生成式預訓練Transformer(Generative Pre-Training, GPT) 系列模型 GPT1(Radford 和 Narasimhan , 2018),GPT2(Radford 等,2019),GPT3(Brown 等, 2020)。 這些基于Transformer的模型表現出的強大性 能使NLP研究取得了重大突破,同時吸引住了計算 機視覺研究人員的目光,他們將Transformer移植到 視覺任務中,并發現了其中的巨大潛力。 如首次使 用 純 Transformer 進行圖像識別的方法 Vision Transformer(ViT)(Dosovitskiy 等,2021),以及解決 目標檢測問題的Detection Transformer(DETR)模型 (Carion 等,2020)。 隨著越來越多的視覺Transformer模型被探索 出來,關于此研究的綜述文章也逐漸出現。按照分 類標準的不同,目前的綜述文章從不同的角度總結 現有的方法,包括輸入數據(Han 等,2020)、網絡 結構(Khan 等,2022)、應用場景(Liu 等,2021f, Liu 和 Lu,2021d,Khan 等,2022)。其中,從應 用場景角度進行總結的文章占大多數。Liu 等人 (2021f)分別從計算機視覺領域的三個基礎任務(分 類、檢測、分割)總結現有的方法。除了這三個基礎 任務外,Liu 和 Lu(2021d),Khan 等人(2022)又增 加了在識別、視頻處理、圖像增強和生成應用場景 下的方法總結。然而,這些不同的應用都是孤立存 在的,不能形成一個系統的各種方法的總結。此外, 現有的綜述文章多關注于視覺Transformer模型與 傳統的CNN模型結果的比較,對不同Transformer模 型間結果的比較分析較少。 為了解決以上問題,本文從視覺識別的角度出 發,總結比較了視覺Transformer處理多種識別任務 的代表性方法。按照識別粒度的不同,可以分為基 于全局識別的方法和基于局部識別的方法。基于全 局識別的方法,即對視覺數據(圖片、視頻)整體進行 識別,例如圖像分類、視頻分類。基于局部識別的 方法,即對視覺數據中的部分進行識別,例如目標 檢測等。考慮到現有方法在三種具體識別任務的廣 泛流行,本文也總結對比了在人臉識別、動作識別 和姿態估計三種識別任務的方法。在每類任務下, 對不同方法的特點和在公共數據集上的表現進行 了對比分析,并進一步總結了該類方法的優點與不 足,以及不同識別任務面臨的問題與挑戰。 本文與現有的綜述文章對比,具有以下優點: 1)本文從識別的角度分類,可以更系統地將現有方 法聯系起來;2)雖然一些綜述文章(Liu 和 Lu, 2021d,Khan 等,2022)也對識別任務的方法進行了 總結,但是涉及的內容不全面,而本文不但對基礎 識別任務的方法進行了總結,還總結了三種具體識 別任務的方法,并且對于每類任務方法,在對比分 析公共數據集結果的基礎上,總結了其發展現狀和 不足。 綜上所述,近年來 CNN 的局限性以及 Transformer研究的突破性使得視覺Transformer已廣 泛應用于CV領域,而關于視覺Transformer的綜述文 章還不夠豐富,特別是對其應用場景的總結存在著 較為孤立的現象。又因流行的CV應用場景大多能夠 以視覺識別的角度分析,所以本文系統地對用于識 別任務的視覺Transformer進行綜述具有必要性,同 時,本文通過每類任務對應的基準數據集上的實驗 對比分析,反映各類Transformer模型間的區別與聯 系也是十分必要的。最后,本綜述的出現帶來了更 系統的總結和更全面的內容,將為相關領域讀者快 速了解和認識Transformer在視覺識別任務中的應 用提供重要幫助。

付費5元查看完整內容

面對人工標注大量樣本費時費力,一些稀有類別樣本難于獲取等問題,零樣本圖像分類成為計算機視覺領域的一個研究熱點。首先,對零樣本學習,包括直推式零樣本學習和歸納式零樣本學習進行了簡單介紹;其次,重點介紹了基于空間嵌入零樣本圖像分類方法和基于生成模型零樣本圖像分類方法以及它們的子類方法,并對這些方法的機制、優缺點和適用場景等進行了分析和總結;然后,簡單介紹了零樣本圖像分類常用數據集和評估方法,并對典型零樣本圖像分類方法進行了性能比較;接著,指出了現有零樣本圖像分類中存在的領域漂移、樞紐點和語義鴻溝等問題及相應的解決思路;最后,對零樣本圖像分類未來發展趨勢和研究熱點,如判別性區域的準確定位、生成高質量不可見類視覺特征、廣義零樣本圖像分類等進行了探討。

//fcst.ceaj.org/CN/abstract/abstract2683.shtml

付費5元查看完整內容
北京阿比特科技有限公司