時間序列數據的研究對于理解隨時間變化的趨勢和異常至關重要,使得在各個領域內能夠實現預測性洞察。另一方面,時空數據對于分析空間和時間中的現象至關重要,為復雜系統交互提供動態視角。近期,擴散模型在時間序列和時空數據挖掘中得到了廣泛應用。這些模型不僅增強了序列和時間數據的生成和推理能力,而且還擴展到其他下游任務。在本綜述中,我們全面而深入地回顧了擴散模型在時間序列和時空數據中的使用,按模型類別、任務類型、數據形態和實際應用領域進行分類。具體而言,我們將擴散模型分為無條件和有條件兩種類型,并分別討論時間序列數據和時空數據。無條件模型,即無監督運行的模型,被進一步細分為基于概率和基于分數的模型,服務于預測和生成任務,如預測、異常檢測、分類和填補。有條件模型則利用額外信息以增強性能,同樣也針對預測和生成任務進行劃分。我們的綜述廣泛涵蓋了它們在包括醫療保健、推薦系統、氣候、能源、音頻和交通等多個領域的應用,為這些模型如何分析和生成數據提供了基礎理解。通過這一結構化概覽,我們旨在為研究人員和實踐者提供關于時間序列和時空數據分析中擴散模型的全面理解,旨在通過解決傳統挑戰和探索擴散模型框架內的創新解決方案,引導未來的創新和應用。 //www.zhuanzhi.ai/paper/38a12a5bf6945d011c3aa4827f0df55a
擴散模型代表了一類概率生成模型,這些模型通過一個包括在一組訓練樣本中注入噪聲及其后續移除的兩步過程進行優化。這個過程包括一個前向階段,稱為擴散,以及一個反向階段,稱為去噪。通過訓練模型去除在擴散過程中加入的噪聲,模型在推斷過程中學會生成與訓練數據分布緊密對齊的有效數據樣本。 近年來,擴散模型在各個領域中獲得了顯著的關注并產生了重大影響,包括計算機視覺(CV)、自然語言處理(NLP)和一般的多模態學習。這挑戰了生成對抗網絡(GANs)長期的主導地位。在這些領域中,擴散模型在如文本到圖像轉換、實例分割、3D形狀生成、分子設計和音頻生成等應用中展示了卓越的能力。值得注意的是,擴散模型也作為一種非自回歸的替代方案,開始在傳統由自回歸方法主導的任務中獲得人氣。最近,OpenAI Sora的推出標志著擴散模型在模擬嵌入時空連續體的物理世界中的新進展,突顯了它們的關鍵重要性。
時間數據主要包括時間序列和時空數據,封裝了絕大多數現實世界系統的動態。這些時間數據形式已被廣泛研究,并被認為對眾多應用至關重要。然而,從各種數據形態中導出物理世界的普適動態法則仍然是該領域內的一個重大挑戰。最近,時間序列和時空建模領域經歷了從感知智能向通用智能的顯著轉變。這一轉變由具有廣泛時間數據分析能力的統一基礎模型(FMs)的出現所特征化,挑戰了特定領域模型的優勢。擴散模型在許多模態上實現了最先進的成果,包括圖像、語音和視頻。由于這些領域中廣泛且多樣的可用數據,擴散模型常作為生成型基礎模型與大型語言模型(LLMs)或其他基礎模型一同促進了這些領域的快速發展。 近年來,也出現了越來越多專為模擬時間序列和時空數據而設計的擴散模型。同時,我們也注意到越來越多的嘗試使用擴散模型進行時間建模。觀察擴散模型的成功,引發了一個引人入勝的問題:時間序列/時空數據分析與擴散模型的交叉會擦出什么樣的火花?
時間序列和時空數據分析基本上依賴于對它們固有的時間動態的深刻理解,其主要任務主要集中在骨干模型的生成能力上,例如預測、填補和生成。這些分析聚焦于為特定目的生成時間數據樣本,無論是有條件的還是無條件的。目睹了時間序列和時空基礎模型的最近發展,無論是基于LLMs構建還是從零開始訓練,它們的成功可以歸功于估計訓練樣本分布的能力,從中可以提取有效的數據表示。在這方面,擴散模型作為一個強大的生成框架出現,使得(1)模擬時間數據中的復雜模式成為可能,以及(2)支持廣泛的下游任務。為特定任務生成有效的數據樣本時,時間序列和時空擴散模型通常以無條件方式操作,無需監督信號。鑒于實際應用的部分觀察性質,有條件的擴散模型已經出現。它們利用數據標簽(例如指令、元數據或外來變量)來調控生成過程,從而使得有效的跨模態提示成為可能,導致更定制化和改進的結果。
我們在圖3中提出了一個發展路線圖。通過在大規模時間數據上訓練,擴散模型有效地填補了時間序列/時空數據生成的空白,并展示了在解決下一代以LLM為中心的時間數據代理的難題中的重大潛力。
盡管擴散模型在處理時間序列和時空數據方面展示了充滿希望的前景和迅速的進步,現有文獻中對這一模型家族的系統分析卻明顯不足。本文旨在通過提供一份前瞻性的綜述來彌補這一差距,闡明擴散模型適用于這些數據形態的原因(“為什么”)以及它們如何提供優勢的機制(“如何”)。在這份綜述中,我們提供了細的分類,進行了徹底的評審,并識別了這一迅速發展領域內的新興趨勢。我們的主要貢獻總結如下:
全面且最新的綜述。我們呈現了一個全面、最新且前瞻性的擴散模型在時間序列和時空數據應用的綜述。我們的調查強調了擴散模型適用于這些數據形態的適宜性,并討論了它們提供的益處。通過覆蓋領域的廣泛譜系和各個方法的細節,我們為讀者提供了對這一主題領域的深入洞見。
統一和結構化的分類。我們引入了一個清晰且有組織的框架,用于將現有文獻分類為兩種主要類型:無條件和有條件的擴散模型,重點關注時間序列和時空數據,這些數據涵蓋了預測性和生成性任務。這種分類為讀者提供了從多個角度對該主題的連貫路線圖。
洞察新興進展。我們討論了無條件和有條件擴散模型中的前沿技術,關注時間序列和時空數據。我們的覆蓋范圍包括最新技術和新興趨勢,如多模態有條件生成。
挑戰和未來方向的總結。我們確定了當前研究環境中面臨的關鍵挑戰,并突出了幾個未來探索的有希望方向。
本文的其余部分結構如下:第2節提供了關于擴散模型的全面背景,詳細介紹了它們的發展、理論基礎和各種實現。第3節呈現了對時間序列和時空數據應用擴散模型的結構化概覽和分類,為在第4節中更深入探討模型視角奠定了基礎,該節將討論標準和先進的擴散模型。第5節關注于任務視角,檢查擴散模型如何處理預測、生成、填補、異常檢測等任務。第6節討論數據視角,強調針對時間序列和時空數據的特定挑戰和解決方案。第7節探索擴散模型在各種領域的應用,如醫療、交通和能源,展示了它們的廣泛實用性。最后,第8節以對未來機會的展望和總結性評論結束本文。
本節提供了針對時間序列和時空數據分析挑戰的擴散模型的概述和分類。我們的調查沿四個主要維度組織討論:擴散模型的類別、任務類型、數據形態和實際應用。圖7中展示了相關工作的全面總結。現有文獻被分類為兩個主要組別:無條件和有條件的擴散模型,重點關注時間序列和時空數據。
在無條件類別中,擴散模型以無監督方式操作,生成數據樣本無需監督信號。這一設置代表了分析時間序列和時空數據的基礎方法。在此類別中,文獻可以進一步分為基于概率的和基于評分的擴散模型。例如,去噪擴散概率模型(DDPMs)[2]和基于評分的隨機微分方程(Score SDEs)[4],[6],如第2節所介紹。這一類別的研究廣泛地組織為兩個任務組:預測任務和生成任務。預測任務通常涉及預測和異常檢測,利用歷史數據和模式來預測當前和/或未來事件。相反,生成任務則專注于識別大型數據集中的模式以生成新內容,如時間序列的插值和增強。這些方法被開發用于兩種主要數據形態:時間序列和時空數據,以滿足包括醫療保健、能源、氣候、交通等多個領域的廣泛應用。
在有條件類別中,擴散模型被定制用于時間序列和時空數據的條件分析。實證研究表明,使用數據標簽的條件生成模型比它們的無條件對應物更易于訓練且性能更優[75]。在這一上下文中,標簽(也稱為條件)通常來自各種來源,例如提取的短期趨勢[34]和城市流量圖[35],以增強模型推斷。這一類別采用基于概率和基于評分的擴散模型來應對預測和生成任務,提供了在特定約束下利用擴散模型應對時間序列和時空數據分析實際挑戰的新視角。
在對模型類別、任務類型、數據形態和應用領域的基礎理解的基礎上,我們更深入地探索了時間序列和時空數據分析中的擴散模型。每個部分都旨在解開擴散模型應用中固有的復雜性和細微差別,從多個視角提供全面概述。在第4節中,我們探討擴散模型的景觀,突出無條件和有條件方法之間的區別及其含義。第5節從預測和生成的視角分析任務,詳細說明了預測、生成、異常檢測和數據插值等具體功能。第6節檢查數據形態,區分時間序列和時空數據,概述模型挑戰和適用性。最后,第7節將討論擴展到應用領域,展示擴散模型在醫療、交通、序列推薦、氣候、能源和音頻等領域的廣泛實用性。這種結構化的探索旨在裝備讀者深入理解擴散模型處理復雜時間序列和時空數據挑戰的潛力和當前狀態。
時空時間序列預測在廣泛的現實應用中發揮著關鍵作用。盡管在這一領域已經取得了顯著進展,但充分捕捉和利用時空異質性仍然是一個根本性挑戰。因此,我們提出了一種新穎的異質性信息元參數學習方案。具體來說,我們的方法通過學習空間和時間嵌入來隱式捕捉時空異質性,這可以看作是一個聚類過程。然后,提出了一種新穎的時空元參數學習范式,從元參數池中學習時空特定參數,并以捕捉到的異質性為指導。基于這些思想,我們開發了用于時空時間序列預測的異質性信息時空元網絡(HimNet)。在五個廣泛使用的基準上進行的大量實驗表明,我們的方法在表現出卓越解釋性的同時,達到了最先進的性能。我們的代碼可在//github.com/XDZhelheim/HimNet獲取。
時間序列數據在各個領域中無處不在,使得時間序列分析至關重要。傳統的時間序列模型是針對特定任務的,具有單一的功能和有限的泛化能力。最近,大型語言基礎模型顯示出了其在跨任務轉移、零次/少次學習和決策解釋性方面的顯著能力。這一成功激發了探索基礎模型以同時解決多個時間序列挑戰的興趣。主要有兩個研究方向,即從頭開始預訓練時間序列的基礎模型和將大型語言基礎模型適配到時間序列。這兩者都有助于開發一個高度泛化、多功能且易于理解的統一模型用于時間序列分析。本綜述提供了一個3E分析框架,用于全面檢查相關研究。具體來說,我們從三個維度——有效性、效率和解釋性——檢查現有工作。在每個維度中,我們專注于討論相關工作如何通過考慮時間序列領域的獨特挑戰來設計定制解決方案。此外,我們提供了一個領域分類法,以幫助后來者跟進領域特定的進展。此外,我們還介紹了促進該領域發展的廣泛資源,包括數據集、開源時間序列庫。同時維護一個GitHub倉庫以更新資源(//github.com/start2020/Awesome-TimeSeries-LLM-FM)。
1 引言
時間序列數據指的是在連續時間間隔記錄的數據點序列。時間序列分析有著悠久的研究歷史,與現實世界的應用密切相關[51]。最早的時間序列挖掘可以追溯到古埃及時期,當時人們分析尼羅河的波動來指導農業生產[35]。早期,時間序列研究主要集中在商業和經濟活動[57]、氣象和人口統計等領域,當時收集的數據相對較小,結構簡單(例如,單變量序列)。那時,統計學是主導方法論,促成了各種經典模型的發展,包括ARIMA、ARCH[50]和馬爾可夫轉換模型[64]。然而,大規模工業系統的出現,涵蓋了交通[216]、醫療保健[101]、物聯網(IoT)[59]和電子商務[8]等行業,導致了龐大而復雜的時間序列數據的產生。除了時間序列數據,一些系統還生成包括文本[82]、圖像[150]和圖表[98]在內的不同模態的數據。數據爆炸推動了具有日益復雜模式的新型時間序列應用的出現。例如,交通擁堵檢測[7]、心電圖(ECGs)分類[74]、電子商務銷售需求預測[17]。統計方法難以管理如此龐大和異質的數據集,且依賴于預定義模式假設,限制了它們在處理動態和復雜模式的應用中的實用性。 在過去幾十年中,機器學習和深度學習在各個領域取得了顯著進展,特別是在計算機視覺(CV)和自然語言處理(NLP)[196]。與統計方法不同,這些方法可以以更自動化的方式處理更大、更多樣化的數據集,減少了人力和專業知識的需求。這些技術引入了能夠檢測更復雜模式的先進架構,激發了時間序列社區的極大興趣[79, 106, 125, 160]。因此,出現了多種針對時間序列建模的有效架構,包括不同基礎架構的RNNs[108]、CNNs[29, 109, 207]、GNNs[28, 32]、Transformers[182]、擴散模型[107]。
盡管這些強大的架構將時間序列分析推向了一個新的水平,但在這一領域仍然存在未解決的挑戰。 第一個挑戰是關于知識的可遷移性[149]。時間序列通常表現出季節性(在特定間隔的規律波動)[56]和趨勢(數據的長期方向)[132]。除了這些可識別的模式外,時間序列數據還表現出一定程度的隨機性或噪聲,這通常歸因于未知的因素或模式。這些特征在不同領域之間甚至在同一領域隨時間的變化可能差異很大,由于分布的變化[88],使得將從一個特定任務中學到的模型或時間序列表示遷移到其他任務變得具有挑戰性。例如,對股市數據訓練的時間序列模型[188]學習到的模式受到經濟指標、投資者情緒等高度不穩定因素的影響。而氣候模型[131]則關注長期模式、季節循環,這些循環受物理定律而非人類行為的約束。由于數據性質的根本不同,不同領域間的知識可遷移性依然是一個挑戰。 ? 第二個挑戰與數據稀疏性有關。在許多傳統時間序列場景中[49, 157],數據的收集可能是每日、每月或每年進行的(例如,經濟指標[18]),這導致數據本質上的稀疏性。另外,獲取和標注數據可能存在隱私限制。例如,對心電圖(ECGs)[136]的分類需要臨床診斷,但這些診斷成本高昂,且數據可用性受到患者隱私的限制。這種數據稀缺性阻礙了深度學習模型的有效訓練。實際上,在大多數情況下,可用的數據集仍然不足以學習高質量的模型[110]。 ? 第三個挑戰是關于多模態學習[16]。在多模態時間序列分析的背景下,利用不同模態間的互補見解可以增強解釋性并提升模型性能。例如,在股票行情預測中,社交媒體上的新聞和評論可以直接影響交易活動,將它們整合到模型中可以實現更精確的預測[170, 189]。然而,對各種頻率或間隔收集的多模態數據進行對齊,以準確反映不同模態之間的時間關系,是具有挑戰性的。此外,不同模態可能需要不同的技術來有效捕捉信息,將這些信息無縫整合成一個統一的模型可能很復雜。 ?** 最后,解釋性也是非常需要的[210]**。詳細解釋模型如何生成預測或識別模式可以顯著增強時間序列的實用性和可接受性。一個案例是,如果一個公用事業公司使用一個能源需求預測模型[77]來計劃電力生成或設定價格,它需要向監管機構和消費者證明這些決策是基于合理且可理解的因素。然而,大多數現有的時間序列模型本質上是黑盒,缺乏對模型行為或預測的解釋。
為了應對上述挑戰,已經有一些努力,如時間序列的遷移學習[78, 120, 177, 193]、時間序列數據增強[181]、多模態時間序列分析[26, 42]以及時間序列的可解釋人工智能[143]。然而,這些工作大多集中在單一挑戰上。時間序列社區期待一個能同時解決多個挑戰的多方面模型。理想的模型應具有強大的泛化能力,能在訓練期間處理未見過的時間序列任務和數據稀缺的任務。此外,它還應該能夠無縫整合來自不同模態的數據,并為其決策過程提供可理解的解釋。 在過去幾年中,為了促進知識遷移,出現了一種結合遷移學習和自監督學習的新學習范式,即預訓練和微調范式[65]。它首先在一個數據豐富的源域上預訓練模型,然后在與源域相關的目標任務上進行微調[39]。BERT[41]是一個在大規模語料庫上預訓練的語言模型。研究人員發現,它可以適應廣泛的下游NLP任務,并大幅提升它們的性能水平。這項研究激發了NLP[97, 138, 212]和CV[14, 137]領域中大量的后續工作。這類模型被稱為基礎模型(FM)[22]。它們在各種下游任務上展示出強大的泛化能力。當NLP研究者通過增加數據或模型規模來擴展基礎模型時,他們觀察到這些更大的基礎模型獲得了一些在較小模型中不存在的令人驚訝的能力。這些意外的能力被稱為突現能力[179],包括上下文學習[24]、指令跟隨[69]、思維鏈(CoT)[128]。它們將語言基礎模型從一個可遷移的NLP任務解決者轉變為跨領域的通用任務解決者,現在廣泛被稱為大型語言模型(LLM)。LLM的發展迅速而強勁,催生了許多強大的LLM,如GPT系列[24, 138]。 受到大型語言基礎模型在NLP中顯著成功的啟發,時間序列社區越來越關注基礎模型在時間序列分析中的潛力[25, 82, 112]。一個研究方向是從零開始用時間序列數據預訓練一個基礎模型,仿照語言基礎模型。如TimesFM[36]和TimeGPT[58]等開創性的努力已經啟動了在時間序列領域內基礎模型的預訓練。然而,與NLP領域可用的龐大語料相比,時間序列領域的數據規模相對較小,使得難以產生具有LLM那樣突現能力的基礎模型。此外,基于時間序列數據預訓練的基礎模型缺乏語言生成能力,限制了它們生成人類可讀解釋的能力。受到大型語言基礎模型在各種下游任務中強大的泛化能力的吸引,另一個研究方向集中于將大型語言基礎模型(即LLM)適配于時間序列任務。大型語言基礎模型在跨任務泛化、零次/少次學習和推理方面的優勢可以解決知識遷移、數據稀缺性和可解釋性等時間序列分析中的挑戰。廣義上,有兩種將LLM適配于時間序列任務的范式,即嵌入可見的LLM適配和文本可見的LLM適配[113, 190, 192]。它們在LLM的使用上有所不同,使用微調的提示策略來適配LLM于時間序列任務。它們都面臨著時間與LLM空間對齊、時間序列屬性和模式識別、多模態數據融合的挑戰。盡管這兩條研究線探索了基于不同結構數據集(即時間序列或文本語料)預訓練的基礎模型,但它們都致力于實現一個統一且易于理解的架構,以解決多個時間序列挑戰,并具有強大的泛化能力。
本綜述對時間序列的基礎模型的發展進行了深入分析。該評審以圖2中的四個研究問題為指導,涵蓋三個分析維度(即有效性、效率、可解釋性)和一個分類法(即領域分類法)。(1) 如何在時間序列分析的背景下有效地適應基礎模型?我們將相關工作分為兩條研究線:從頭開始為時間序列預訓練基礎模型和將大型語言基礎模型(即LLMs)適用于時間序列。對于第一條線,我們通過兩個關鍵階段討論有效性:數據收集與對齊、架構設計。對于第二條線,我們識別了兩種適配范式,即嵌入可見的LLM適配和文本可見的LLM適配。在每種適配范式下,我們討論了LLM的利用、時間序列提取和多模態數據融合。時間序列提取包括獲取適當的時間序列表示、對齊時間空間和LLM空間、識別時間序列屬性和模式等挑戰。此外,我們還研究了LLM的多樣化角色,這進一步增加了LLM適配的有效性。(2) 如何高效地為時間序列任務預訓練或微調基礎模型?鑒于這一領域正在興起,當前的高效技術是從NLP領域借鑒的。因此,我們首先提供了一份可轉移至此背景的NLP領域尖端高效方法的簡要概覽。然后,我們討論了不同調整范式下的效率,并總結了已經使用的高效方法。(3) 如何獲得時間序列應用中基礎模型行為或決策的可解釋性?模型的實際部署需要可解釋性。我們從探索AI中的可解釋性概念開始,強調全局和局部解釋。然后,我們繼續回顧和提煉現有研究中的可解釋性進展。(4) 每個時間序列應用領域中基礎模型的發展情況如何?為回答這個問題,我們引入了一個領域分類法。這個分類法使我們能夠比較每個領域內現有研究的目標、貢獻和局限。此外,我們還提供了豐富的資源,如代碼、基準數據集、時間序列庫和加速LLM的工具,以支持未來的研究工作。圖4提供了基于四個研究問題的作品的綜合概覽。
論文組織 本綜述的其余部分安排如下:第2節介紹與基礎模型和時間序列分析相關的綜述,指導讀者了解每個領域的更多研究。第3節為讀者提供關于基礎模型和時間序列任務的基本知識。第4節深入探討了時間序列的基礎模型預訓練的關鍵階段。第5節檢查了LLM向時間序列任務的適配。第6節討論了模型微調和推理的效率。第7節總結了關于解釋模型行為或決策的研究。第8節介紹了各個領域內的進展。最后,第9節提供了包括基準數據集、代碼和時間序列庫以及LLM工具在內的資源。
知識圖譜補全是近年來的研究熱點,在下游應用中,如知識問答、推薦系統和智能搜索等都有著廣泛的應用前景。然而,大部分補全方法忽略了知識圖譜的動態特性,其中許多的事實都會隨著時間的變化而發生改變。新興的時序知識圖譜補全方法考慮到了以往補全方法的局限性,在其中加入了時間信息,使得知識圖譜隨時間的動態變化也能很好地被捕獲。針對時序知識圖譜補全方法在社交網絡、交通運輸、金融貿易等動態變化且具有復雜時間依賴特性的研究領域所擁有的巨大潛力,梳理了時序知識圖譜補全技術。根據模型主要使用原理的不同,總結了基于邏輯規則、張量分解、平移模型、神經網絡、深度強化學習和語言模型的補全方法,歸納了現有方法的常用評價指標、公開數據集、核心思想、優缺點、適用場景以及在對應靜態模型上的改進。最后,對時序知識圖譜補全方法的未來研究方向進行了展望。近些年來,知識圖譜技術及其應用受到了廣大研究 人員的關注。知識圖譜以圖的形式描述了客觀世界中 實體和概念以及它們之間的關系[1]。知識圖譜的構建過 程非常接近于人腦對新事物的一個認知和學習的過程, 它通過存儲各種各樣的結構化知識,逐漸成為人工智能 的“大腦”,致力于解決認知智能中復雜的推理問題。因 此,知識圖譜在各種應用中扮演著非常重要的角色,如 知識問答[2]、智能推薦[3]、語義搜索[4]等。知識圖譜補全主要是對已經存在于圖數據庫中的 數據之間的潛在關系進行挖掘。當前,大多數知識圖譜 補全方法都是在靜態知識圖譜上進行的,它們默認事實 是永恒不變的,沒有考慮實體與概念以及關系之間的時 效性,由此補全的知識圖譜在時效性強的領域準確性較 低。隨著時間的變化,客觀世界中的大部分事實也會發生變化。例如,(比爾蓋茨,居住在,波士頓)和(比爾蓋 茨,居住在,華盛頓)這兩個三元組在靜態知識圖譜補全 中無法判斷它們的正確性;在時序知識圖譜中,這兩個 三元組可以寫成(比爾蓋茨,居住在,波士頓,1973— 1975),(比爾蓋茨,居住在,華盛頓,1979—)含有時間信 息的四元組形式,由于有了時間序列的引入,它們在圖 數據庫中并不屬于矛盾的存在。這也說明時序知識圖 譜能解決靜態知識圖譜中語義相似三元組之間的混淆, 減少知識圖譜補全過程中的干擾項,并能在一定程度上 預測事件發生的時間范圍[5]。時序知識圖譜補全在下游應用中,例如軍事、交通、 金融等領域都有著廣泛的應用前景,是當前最熱門研究 方向之一。從不同的視角,對時序知識圖譜補全方法的 劃分也不同。Cai等人[6]根據時間戳集成策略的不同,將 時序知識圖譜補全分為包含時間戳的張量分解、基于時 間戳的轉換、動態嵌入、從知識圖快照中學習、歷史背景 下推理的補全方法。徐涌鑫等人[5]根據對事實建模方法 的不同將時序知識圖譜補全分為基于翻譯模型、雙線性 模型、旋轉模型、時序點過程、概率分布、圖神經網絡以 及其他模型的補全方法。Jin 等人[7]根據知識補全的設 置將時序知識圖譜補全分為插值和外推。插值是指 ?t ∈ [t0 ,tT] ,時序知識圖譜補全能在此范圍內對四元組 進行鏈接預測,外推是指用歷史知識來預測未來時間 t(t > tT) 的事實。Trivedi 等人[8]根據對時間戳的劃分把 時序知識圖譜分為離散時間法和連續時間法。離散時 間方法是將時序知識圖譜的演變看作一段時間內靜態 圖譜快照的集合,連續時間方法是將時間演變以更精細 的時間粒度建模,以捕獲更加豐富的時間信息。申宇銘 等人[9]根據對符號處理方式的不同把時序知識圖譜補全 分為基于符號邏輯的方法和基于知識表示學習的方法。隨著時序知識圖譜的興起,關于此方向補全模型的研究 越來越多,然而卻缺乏總結當前時序知識圖譜補全研究 進展的相關調查。為此,本文對時序知識圖譜補全研究 進行了系統性的綜述。本文參照文獻[10-14]對靜態知 識圖譜推理方法的分類,根據模型主要使用的原理,將 時序知識圖譜補全方法分為基于邏輯規則、張量分解、 平移模型、神經網絡、深度強化學習和語言模型的方 法。此外,本文還總結了時序知識圖譜補全中常用的評 價指標和公開數據集,對未來研究的趨勢進行了展望。
隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上都大幅提升。受人類感知方式的啟發,多種媒體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學、深度估計等方面有廣泛的應用。盡管多模態數據在描述事物特征時有著明顯的優勢,仍面臨著較大的挑戰。首先,受到不同成像設備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;其次,多模態數據需要匹配成對用于研究,任一模態的缺失都會造成可用數據的減少;同時,圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使得目前本領域的技術尚待攻關。本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息、樣本質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。并且,介紹了數據受限前提下的多模態學習方法使用的數據集(包括SUNRGB+D、SYSU-MM01 等)及其應用方向(包括人體姿態估計、行人重識別等),比對分析了現有算法的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。
模態是事物的一種表現形式,是對事物某特 定角度的描述。多模態通常包含兩個或者兩個以 上的模態形式,是指從多個視角出發對事物進行 描述。人們在感知世界時,多種感官總是同時接 收外在信息,如看見圖像、聽見聲音、聞到氣味 和觸摸感知等。隨著多媒體技術的發展,可獲取 的媒體數據在種類和量級上都大幅提升。例如, 傳感器不僅可以生成圖像或者視頻,還包含與之 匹配的深度、溫度信息等。為使人工智能技術更 好地解譯數據,必須使人工智能具有多模態學習 的能力。在人工智能技術的早期研究中,學者通常使 用單一模態的數據。受到人類感知方式的啟發, 研究認為每個模態對事物的描述具有相對獨立性, 使用多模態數據的互補表述能夠使事物呈現更立 體、表現更全面(Baltru?aitis 等,2019)。近年來,多模態數據的處理和應用成為重點研究方向,在情感分析、機器翻譯、自然語言處理和生物醫學等前沿方向取得了重要突破。計算機視覺是深度學習的重要應用領域和熱點研究問題,本文重點圍繞多模態在計算機視覺領域的發展進行介紹。如圖 1 所示,計算機視覺領域內的多模態學習主要是通過對圖像、視頻等多模態數據進行分析,學習并互補不同模態間的信息,實現圖像檢測識別、語義分割、視頻動作預測等任務(Liu等,2015a; Eigen 和R. Fergus, 2015),并廣泛應用于自動駕駛、農業監測、生物醫療、交通管理和災難預測等領域。如在醫學領域,醫學影像作為醫療診斷的重要依據,相較于單角度描述病灶特征的圖像,多模態醫療影像能有效輔助醫生從多個層面聯合判斷病灶及其周邊部分,加快診斷時間;在遙感領域,單傳感器依據設備特點從某種固定的角度描述地理目標,獨立分析時會受到成 像原理限制,而對不同成像方式、不同傳感器獲取 到的多模態遙感影像進行分析,可以有效提取地物 目標的綜合信息。
盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。首先,雖然成 像技術層出不窮,但其同步帶來的圖像、視頻數據 的處理和標注任務有著不容忽視的工作量,需要耗 費較多的時間成本和人力資源。其次,傳統深度學 習模型需要將多模態數據匹配成對用于研究,任一 模態的缺失都會造成可用數據的減少。同時,由于 使用目的是利用多模態互補的特性,因此對數據內 部的完整度要求較高,但受到不同成像設備和傳感 器的限制,數據量少、質量模糊和缺失現象嚴重, 這些現象都會對后續的研究造成不利影響。因此, 在數據受限的前提下進行的多模態處理研究具有重 要的現實意義。面對以上的難點問題,根據多模態樣本數量、 標注信息、樣本質量等不同的維度,目前處理多模 態數據受限的方法主要分為以下幾類:
本文主要對數據受限下的多模態數據處理方法進行綜述。在此之前,本文作者對相關領域進行了研究,在多模態學習、小樣本學習、弱監督學習、主動學習、數據去噪和增強等方面進行了深入調研。Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習的進展,并對多模態機器學習方法進行分類,但沒有介紹具體的應用場景。Wang 等人(2020b)從網絡架構的角度介紹了多模態模型,但沒有討論多模態數據本身的特點。Ramachandram等人(2017)對多模態深度學習現狀進行了總結,并提出網絡體系結構的設計應該考慮融合模式、模態信息和對缺失的數據或模態的處理,但沒有詳細綜述目前處理缺失數據以提高模型的魯棒性的方法。Gao等人(2020)總結了具有代表性的處理異構數據的深度學習網絡架構,并認為一些深度學習模型只關注單模態噪聲數據,未來迫切需要解決針對低質量多模態數據的深度學習模型。上述的綜述缺乏對數據受限條件下多模態數據發展的詳細介紹。Wang等人(2020a)綜述了近年來小樣本學習方法的進展,并進行統一分類。Zhou 等人(2018)綜述了弱監督學習的一些研究進展。Settles 等人(2011)回顧了將主動學習應用于實踐遇到的挑戰,并介紹為解決挑戰所做的工作。但上述文獻都僅基于單模態數據進行總結,并沒有關注多模態數據背景問題。針對在數據受限條件下多模態數據處理面臨的各種挑戰和難題,已有研究者提供了一些解決思路,但是尚未形成相關的綜述文獻。因此,本文總結了數據受限條件下多模態分析處理的研究方法和進展,以及多模態數據在不同領域的應用情況。首先闡述了多模態數據在計算機視覺方向的研究現狀與數據受限的難題挑戰,介紹了對不同數據受限情況的處理方法,幫助讀者熟悉和了解該研究的背景和目的。然后分類闡明不同數據受限處理方法的現狀與研究方法,區分不同的受限情況所面臨的困難和挑戰。最后對多模態數據的各個應用領域的典型數據集進行介紹,總結目前的研究成果,能夠啟發未來多模態的應用前景,展望下一步研究方向。
為了追求精度,深度學習模型框架的結構越來越復雜,網絡越來越深。參數量的增加意味著訓練模型需要更多的數據。然而人工標注數據的成本是高昂的,且受客觀原因所限,實際應用時可能難以獲得特定領域的數據,數據不足問題非常常見。數據增強通過人為地生成新的數據增加數據量來緩解這一問題。數據增強方法在計算機視覺領域大放異彩,讓人們開始關注類似方法能否應用在序列數據上。除了翻轉、裁剪等在時間域進行增強的方法外,也描述了在頻率域實現數據增強的方法;除了人們基于經驗或知識而設計的方法以外,對一系列基于GAN的通過機器學習模型自動生成數據的方法也進行了詳細的論述。介紹了應用在自然語言文本、音頻信號和時間序列等多種序列數據上的數據增強方法,亦有涉及它們在醫療診斷、情緒判斷等問題上的表現。盡管數據類型不同,但總結了應用在這些類型上的數據增強方法背后的相似的設計思路。以這一思路為線索,梳理應用在各類序列數據類型上的多種數據增強方法,并進行了一定的討論和展望。
來自傳感器網絡、可穿戴設備和物聯網(IoT)設備的大量數據凸顯了對利用去中心化數據的時空結構的高級建模技術的需求,因為需要邊緣計算和許可(數據訪問)問題。雖然聯邦學習(FL)已經成為一種無需直接數據共享和交換的模型訓練框架,但有效地建模復雜的時空依賴關系以提高預測能力仍然是一個懸而未決的問題。另一方面,最先進的時空預測模型假定對數據的訪問不受限制,而忽略了數據共享的約束。在跨節點聯合學習的約束下,我們提出了跨節點聯合圖神經網絡(CNFGNN)的聯邦時空模型,該模型使用基于圖神經網絡(GNN)的體系結構對底層圖結構進行顯式編碼,這要求節點網絡中的數據在每個節點上本地生成,并且保持分散。CNFGNN通過分離設備上的時間動態建模和服務器上的空間動態,利用交替優化來降低通信成本,促進邊緣設備上的計算。交通流預測任務的計算結果表明,CNFGNN在不增加邊緣設備的計算成本的情況下,在傳感和歸納學習環境下均取得了最佳的預測性能,同時通信成本較低。
隨著數據采集技術的進步,帶有地理位置信息的時空數據迅速增長,迫切需要探索有效的時空數據建模方法。時空序列預測是時空數據建模的基礎方法之一,它廣泛應用于很多領域。目前缺乏對它進行綜述的中文文獻,因而對這些方法進行歸納和總結具有重要的研究意義。針對時空序列預測問題進行了研究,首先回顧了其應用背景和發展歷程,介紹了它的相關定義及特點。然后按其類別介紹了傳統的時空序列預測方法、基于傳統機器學習的時空序列預測方法和基于深度學習的時空序列預測方法,并分析了這些方法的應用范圍和優缺點。最后對時空序列預測未來的研究方向進行了梳理和展望,為研究者們進一步深入研究時空序列預測問題奠定了理論基礎。
近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。