亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

時間序列數據存在于現實世界系統和服務的每個角落,范圍從天空中的衛星到人體上的可穿戴設備。通過提取和推斷這些時間序列中的有價值信息來學習表示,對于理解特定現象的復雜動態和做出明智的決策至關重要。有了學習到的表示,我們可以更有效地進行眾多下游分析。在幾種方法中,深度學習在無需手動特征工程的情況下提取時間序列數據中隱藏的模式和特征方面展示了卓越的性能。這篇綜述首先基于三個基本元素提出了一個新穎的分類法,這三個元素用于設計最先進的通用時間序列表示學習方法。根據提出的分類法,我們全面回顧了現有研究,并討論了這些方法如何提高學習表示質量的直覺和洞察。最后,作為未來研究的指南,我們總結了常用的實驗設置和數據集,并討論了幾個有前景的研究方向。最新的對應資源可在 //github.com/itouchz/awesome-deep-time-series-representations 獲取。

1.1 背景

時間序列是按時間順序記錄的數據點序列,反映了特定變量或現象隨時間的復雜動態。時間序列數據可以在不同時間點代表各種應用領域的有意義信息,使得做出明智的決策和預測成為可能,例如物聯網中的傳感器讀數[1, 2]、網絡物理系統中的測量[3, 4]、股票市場的波動[5, 6]以及可穿戴設備上的人類活動[7, 8]。然而,要從這些復雜的觀測中提取和理解有意義的信息,我們需要一種表示這些時間序列的機制,這導致了時間序列表示研究的出現。基于新的表示,我們可以有效地進行各種下游時間序列分析[9],例如預測[10]、分類[11]、回歸[12]和異常檢測[13]。圖1描繪了時間序列數據表示方法的基本概念。早期的嘗試[14]使用分段線性方法(例如,分段聚合近似)、基于符號的方法(例如,符號聚合近似)、基于特征的方法(例如,形狀片段)或基于變換的方法(例如,離散小波變換)來表示時間序列。這些傳統的時間序列表示方法因依賴領域知識和預定義先驗的通用性差而被認為是耗時且效率較低的。由于表示的質量顯著影響下游任務的性能,許多研究提出自動學習有意義的時間序列表示[15-17]。這些研究的主要目標是獲得高質量的時間序列學習表示,捕獲數據中的有價值信息并揭示相應系統或現象的潛在動態。在幾種方法中,神經網絡或深度學習(DL)在從廣泛數據中提取隱藏的模式和特征方面展現了前所未有的性能,包括時間序列,且不需要手動特征工程。

鑒于時間序列的序貫性質,循環神經網絡(RNN)及其變體,如長短時記憶和門控循環單元,被認為是捕獲時間序列中時間依賴性的熱門選擇[18, 19]。然而,基于循環的網絡復雜且計算成本高。另一方面的工作采用一維卷積神經網絡(CNN)來提高計算效率,利用卷積操作的并行處理[20]。盡管基于RNN和CNN的模型在捕獲時間依賴性方面表現良好,但它們無法顯式地模擬多變量時間序列中不同變量之間的關系。許多研究提出使用基于注意力的網絡或圖神經網絡,通過注意力機制或圖結構來共同學習每個變量中的時間依賴性以及多變量時間序列中不同變量之間的相關性[21, 22]。盡管在架構設計方面取得了顯著進展,但在現實世界場景中,時間序列可能會不規則地收集或由于傳感器故障導致缺失值,使得常用的神經網絡由于插補過程中的不利副作用而變得低效。因此,最近的研究將神經常微分方程集成到現有網絡中,使模型能夠產生連續的隱藏狀態,從而對不規則時間序列具有魯棒性[23, 24]。

此外,基于深度學習(DL)的方法的可靠性和有效性通常取決于充足的、標注良好的數據的可用性,這通常被稱為監督學習。然而,時間序列數據本質上是連續值的,含有高水平的噪聲,且其視覺模式不那么直觀易辨。與圖像或文本中人類可識別的模式不同,時間序列數據在現實世界設置中的語義意義在應用領域間可能不一致。因此,獲得一個標注良好的時間序列不可避免地效率低下,即使對于領域專家來說也更具挑戰性,因為它們從不同頻率的多種傳感器或可穿戴設備收集的時間演化觀測動態復雜。例如,我們可以從智能工廠收集大量傳感器信號,而其中只有少數可以由領域專家標注。為了避免繁瑣的標注過程和減少對標記實例的依賴,對無監督和自監著學習方法的興趣日益增長,這些方法使用從各種前置任務中自生成的標簽,而不依賴于人類標注[25-28]。雖然無監督和自監著表示學習都旨在從復雜的原始時間序列中提取潛在表示,而不依賴于人類標注的標簽,但它們的基本機制不同。無監督學習方法[28]通常采用自動編碼器和序列到序列模型,通過基于重構的學習目標來學習有意義的表示。然而,準確地重構復雜的時間序列數據仍然具有挑戰性,尤其是對于高頻信號。相反,自監著學習方法[26]利用前置任務,通過利用未標注數據中提取的內在信息,自主生成標簽。最近,提出了帶有對比損失的前置任務(也稱為對比學習),通過自生成的監督信號進行區分性的預訓練,以提高學習效率。對比學習的目標是在特征空間中使相似樣本更接近,同時將不相似樣本推遠。這些前置任務是模型從未標注數據中學習解決的自生成挑戰,因此能夠為多個下游任務產生有意義的表示[29]。

為了進一步提高表示質量并減輕在特定設置中訓練樣本有限的影響,例如在收集足夠大數據量受限的情況下(例如,與人相關的服務),一些研究還采用了數據相關技術,例如增強[30]和轉換[31],在現有學習方法之上。相應地,我們可以有效地增加訓練數據的規模并提高其質量。這些技術在生成前置任務時也被認為是必不可少的。與其他數據類型不同,處理時間序列數據需要考慮其獨特的屬性,例如時間依賴性和多尺度關系[32]。本文旨在識別設計最先進的時間序列表示學習方法中的關鍵元素,以及這些元素如何影響學習到的表示的質量。據我們所知,這是第一篇關于通用時間序列表示學習的綜述。我們提出了一種新穎的分類法,用于從新穎性角度學習時間序列的通用表示——即論文的主要貢獻集中在上述哪些設計元素上——以總結選定的研究。表2總結并比較了基于所提分類法的審閱文章。從神經架構的角度來看,我們總結了用于表示學習的神經架構在模塊層面和網絡層面上的變化。從學習角度來看,我們分類了用于使學習到的表示能夠泛化到各種下游任務的目標。最后,我們還對特別關注提高訓練數據質量的論文進行了數據中心的方法分類。

總的來說,我們的主要貢獻如下

  • 我們基于一種新穎且最新的分類法,對通用時間序列表示學習進行了廣泛的文獻綜述,將審閱的方法歸類為三個主要類別:神經架構、學習為重點和數據中心方法。
  • 我們提供了一個關于實驗設置和評估時間序列表示學習方法的基準數據集的指南。
  • 我們討論了幾個開放的研究挑戰和新見解,以促進未來的工作。

第2節介紹了時間序列表示學習的定義和具體背景知識。在第3節中,我們全面回顧了關注神經架構方面的方法。然后,在第4節中,我們討論了關注推導新學習目標的方法。第5節對數據中心方法進行了回顧。此外,我們在第6節和第7節分別討論了時間序列表示學習的評估協議和有前途的未來研究方向。最后,第8節總結了這篇綜述。

結論

本文介紹了一項通用時間序列表示學習研究及其對下游時間序列分析的重要性。我們提供了一份全面且最新的關于時間序列通用表示學習的文獻綜述,通過從設計角度對最近的進展進行分類。我們的主要目標是回答每個基本設計元素——神經架構、學習目標和訓練數據——在最先進的時間序列表示學習方法中如何貢獻于學習表示質量的提升,從而形成一個具有十五個子類別的新型結構化分類法。盡管大多數最先進的研究在其方法中考慮了所有設計元素,但只有一個或兩個元素是新提出的。根據對選定研究的當前綜述,我們發現數據中心方法中的分解和轉換方法以及樣本選擇技術仍然未被充分探索。此外,我們提供了關于標準實驗設置和特定下游任務廣泛使用的時間序列數據集的實用指南,并討論了與時間序列表示學習相關的各種開放挑戰和未來研究方向。最終,我們希望這篇綜述能成為對時間序列通用表示學習方法有多方面理解興趣的從業者和研究人員的寶貴資源。

付費5元查看完整內容

相關內容

近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。

然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。

貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:

  • 一個新的分類法:我們提供了一個新的分類法來總結克服CGL中災難性遺忘的方法。具體來說,從如何實現持續性能改進的角度引入了四個組別(見圖1)。
  • 一個全面的綜述:對于每一類方法,我們討論了克服災難性遺忘的動機和主要挑戰。此外,我們進一步討論了當前方法如何實現持續性能改進。據我們所知,這是第一次對持續性能改進進行探討。
  • 未來方向:專注于持續性能改進,我們進一步提出了一些與持續圖學習相關的開放問題,并討論了它們如何影響持續性能改進以及相應的未來方向。

圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。

持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。

基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。

基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。

基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。

由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。

結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。

付費5元查看完整內容

許多現實世界的數據集可以自然地表示為圖,涵蓋了廣泛的領域。然而,圖數據集的日益增長的復雜性和大小為分析和計算帶來了顯著挑戰。作為回應,圖簡化技術因其在簡化大型圖的同時保留關鍵屬性而獲得了重要地位。在這篇綜述中,我們旨在提供對圖簡化方法的全面理解,包括圖稀疏化、圖粗化和圖凝聚。具體來說,我們為這些方法建立了統一的定義,并引入了一個層次化的分類法來歸類它們解決的挑戰。我們的綜述然后系統地回顧了這些方法的技術細節,并強調了它們在不同場景中的實際應用。此外,我們概述了確保圖簡化技術持續有效性的關鍵研究方向,并在//github.com/ChandlerBang/awesome-graph-reduction上提供了一份全面的論文列表。我們希望這篇綜述能夠填補文獻空缺,并推動這一有希望的領域的進步。

圖結構數據在各個領域已變得無處不在,從社交網絡和生物系統到推薦系統和知識圖譜[Fan et al., 2019; Wu et al., 2022b, 2018; Shi and Weninger, 2017; Wang et al., 2021]。圖數據的內在關系結構使其成為模擬復雜交互和依賴關系的強大表示。此外,隨著圖機器學習技術的興起,特別是圖神經網絡(GNNs)[Kipf and Welling, 2016; Wu et al., 2020],圖數據集的利用見證了前所未有的增長,推動了節點分類、鏈接預測、圖分類和圖生成等任務的進展[Zhou et al., 2020; Ma and Tang, 2021]。 近年來,圖數據集的大小和復雜性呈指數級增長。大規模網絡,如社交圖和引文網絡[Hu et al., 2021],挑戰了現有算法的可擴展性和效率,并要求為高效模型訓練提供創新解決方案。盡管最近努力設計了可以伴隨大型圖擴展的GNNs [Jia et al., 2020; Zeng et al., 2021; Song et al., 2023; Liu et al., 2021],另一種方法專注于減小圖數據集的大小,包括圖、節點和邊的數量,我們將之稱為圖簡化[Jin et al., 2022b; Huang et al., 2021]。在本文中,我們將圖簡化定義為尋找一個更小尺寸的圖數據集的過程,同時保留其關鍵信息。具體來說,這一定義要求一個算法接受原始圖數據集作為輸入并產生一個更小的數據集。如圖1所示,圖簡化旨在通過保持其結構和語義特性來從龐大的圖數據集中提取關鍵信息。除了加速圖算法外,圖簡化還提供了一系列優勢。首先,減少后的圖顯示出與各種下游模型架構的兼容性[Jin et al., 2022b]。其次,圖簡化可能有助于隱私保護,因為它改變了原始結構或節點屬性,使它們難以恢復[Dong et al., 2022]。第三,與其較大的對應物相比,減少后的圖顯著更小,更易于人類理解,這有助于圖可視化[Imre et al., 2020]。

鑒于圖簡化的重要性,已經開發了眾多算法,這些算法分為三種不同策略:圖稀疏化[Althofer et al., 1993; Batson et al., 2009]、圖粗化[Loukas and Vandergheynst, 2018; Dorfler and Bullo, 2012],以及更近期的圖凝聚[Jin et al., 2022b,a; Xu et al., 2023; Liu et al., 2022]。圖稀疏化圍繞通過僅保留一部分邊和重要節點來近似圖的概念展開。與之相反,圖粗化并未消除任何節點,而是將節點分組并合并成超級節點,使用指定的聚合算法將原始組間邊聚合成超級邊。與前兩種策略不同,圖凝聚最近被引入作為一種在保持GNNs性能的同時,通過合成更小的圖來凝聚圖的方法。盡管這些方法已經廣泛傳播,但它們通常是孤立研究的,留下了它們之間的聯系和區別有些模糊。因此,提供這些現有算法的系統概覽,以增強我們對圖簡化技術的理解,既必要又及時。

貢獻。在這項工作中,我們旨在提供一份全面且最新的綜述,聚焦于圖簡化技術及其在解決圖相關挑戰中的多樣化應用。我們希望這份綜述能夠成為初學者研究人員和對探索該領域感興趣的從業者的寶貴資源,同時也催化未來研究努力。我們的貢獻可以總結如下:(a) 我們提供了第一個全面的圖簡化方法綜述,包括圖稀疏化、圖粗化和圖凝聚。 (b) 我們為現有的圖簡化方法開發了一個統一的視角,在第2節中根據它們的特征進行區分,并在第3節提供代表性算法的詳細回顧。 (c) 我們在第4節討論了圖簡化方法的實際應用,闡明了這些技術證明有價值的現實世界場景。 (d) 在第5節,我們識別關鍵挑戰和有希望的未來研究方向,指導圖簡化技術的持續進步

與現有綜述的聯系。與之前關于圖簡化的綜述[Liu et al., 2018; Interdonato et al., 2020; Shabani et al., 2023; Chen et al., 2022]相比,我們的研究提供了圖凝聚這一新興領域的全面概述,并提出了一個統一框架,將圖凝聚與傳統的圖簡化技術聯系起來。此外,我們的綜述探索了圖簡化和GNNs之間的協同作用,這是現有綜述中很少涉及的一個方面。同時,一些以數據為中心的圖學習綜述[Zha et al., 2023; Zheng et al., 2023a]包括了對圖簡化的討論,但我們提供了更詳細、更徹底的簡化技術審查。此外,我們的工作與最近關于數據集蒸餾的綜述[Geng et al., 2023; Sachdeva and McAuley, 2023]有所聯系,雖然它們主要關注應用于圖像數據的凝聚方法。 在圖2中,我們提供了上述類別中現有圖簡化方法的詳細分類,并將在接下來的部分中詳細闡述。此外,表2提供了前面提到的三種圖簡化策略的定性比較。

方法論

在本節中,我們將介紹上述三種圖簡化策略的代表性算法。對于每種策略,我們根據它們的學習目標對方法進行分類,并在表3中總結了流行的方法。 圖稀疏化 圖稀疏化作為圖簡化的直觀方法,涉及基于特定標準選擇關鍵邊或節點。傳統方法通常側重于保留特定圖屬性,如譜和中心性。隨著GNNs日益流行,旨在維持節點表示質量的方法越來越多。因此,我們根據它們的保留目標將現有技術分為兩組:一組專注于保留圖屬性的,另一組致力于維持模型性能的。 圖粗化 在稀疏化方法中選擇節點或邊不可避免地會丟失一些信息。為了確保保留足夠量的信息,開發了粗化技術,涉及對節點進行分組并聚合它們。這一過程可以迭代進行,產生原始圖的層次視圖。現有的粗化方法可以根據是否存在重構目標分為兩組:基于重構的方法和無需重構的方法,將在后續進一步闡述。 圖凝聚 盡管稀疏化和粗化方法在減小圖數據的大小方面已被證明是有效的,但它們存在內在的局限性。由于這些方法中的許多優先保留特定的圖屬性,它們沒有利用下游任務信息,可能導致模型性能不佳。此外,這些技術依賴于原始圖中存在代表性節點或邊的假設,這在原始數據集中可能并不總是成立。為了解決這些問題,圖凝聚首次由[Jin et al., 2022b]引入,開始發揮作用。

結論

在本文中,我們提供了一個結構化且具有前瞻性的圖簡化綜述。我們首先建立了圖簡化的正式定義,然后開發了一個詳細的層次分類法,系統地組織了這一領域內的多樣化方法論。我們的綜述將圖簡化技術劃分為三個主要類別:稀疏化、粗化和凝聚。每個類別代表了一種獨特的方法來減少圖復雜性,同時保留關鍵屬性。在每個類別中,我們系統地深入探討了突出方法的技術細節,并突出顯示了它們在各種現實世界場景中的實際應用。此外,我們闡明了該領域內存在的挑戰,并指出了未來研究努力的潛在方向。我們的目標是激勵和指導即將進行的研究,為圖簡化方法論的持續發展和進步做出貢獻。

付費5元查看完整內容

本報告詳細介紹了在 DARPA LwLL 或 "少標簽學習 "項目中采用的方法和取得的成果。

本報告解決的關鍵問題是從小標簽數據集學習的問題。這是許多應用領域經常遇到的問題。尤其是在國防應用領域,標簽數據可能是分類數據,因此數量有限。不幸的是,現代深度學習系統需要大量的標注訓練示例,這使得它們在標注較少的情況下效果不佳。在本報告中,我們將介紹我們在開發新型學習機器方面所做的努力,這些機器可以有效地從少量標簽中學習。

我們對這一問題的主要見解是利用任務和領域中的結構。這種結構可以是關于所需不變性的領域知識。它也可能更無定形,難以具體化,但它可能決定了哪些分類器能在該領域發揮良好的作用。我們探索了三種納入這種領域結構思想的方法:

1.納入已知不變量: 我們探索了明確包含已知不變量的機器學習新架構。特別是,我們設計的識別架構允許特征在空間上移動,以納入姿勢不變性。

2.跨領域學習: 考慮到不同領域之間的相似性,我們探索了跨領域傳輸所學模型的新技術。

3.特定領域的學習算法: 我們還探索了兩個領域的專業學習技術:衛星圖像和自動駕駛汽車。對于這些領域,我們利用數據的特殊結構來學習無標簽模型。

使用標準基準和 DARPA 評估進行了實驗。普遍發現

1.在對領域一無所知的情況下,最佳策略是自我訓練,即使用經過適當過濾的網絡自身輸出作為 "地面實況 "標簽。在這里,我們發現了進行自我訓練的新方法,即使網絡是在完全不同的問題領域中訓練出來的。

2.如果我們了解我們正在處理的領域,我們甚至可以建立完全無監督的識別模型,其性能優于有監督的模型。關鍵是要利用底層數據生成過程的知識。我們在衛星圖像和自動駕駛汽車上都展示了結果。

付費5元查看完整內容

過去十年里,深度神經網絡通過使用小批量隨機梯度下降(mini-batch stochastic gradient descent)訓練方案在大型數據集上展現了顯著的成功。在此基礎上,研究者開始大量探索神經網絡在其他學習場景中的應用。一個受到廣泛關注的框架是元學習(meta-learning)。通常被描述為“學會學習”,元學習是一種以數據為驅動,優化學習算法的方法。其他感興趣的分支包括持續學習(continual learning)和在線學習(online learning),這兩者都涉及使用流數據逐步更新模型。雖然這些框架最初是獨立開發的,但最近的工作開始探討它們的結合,提出新穎的問題設置和學習算法。然而,由于復雜性的提高和缺乏統一術語,即使是經驗豐富的研究人員也可能難以辨識這些學習框架之間的差異。為了促進清晰的理解,本文提供了一份全面的綜述,使用一致的術語和正式描述來組織各種問題設置。通過概述這些學習范式,我們的工作旨在促進這一研究領域的進一步發展。

近年來,深度神經網絡的成功主要基于離線學習框架,該框架涉及使用從大型數據集中以獨立同分布(i.i.d.)方式采樣的小批量進行隨機梯度下降(SGD)。另一方面,人類展示出了令人印象深刻的遞增學習能力,即使是從高度非靜態數據流中也能學習,并且不像深度神經網絡那樣需要大量的訓練數據。此外,人類可以隨著知識和經驗的積累不斷提升其學習能力。因此,已有大量努力致力于使深度神經網絡適應這些類人學習場景。在線學習[1]和持續學習[2],[3]是應對這些挑戰的研究領域的例子。這兩者都通過從數據流中學習來逐步更新模型,但它們在目標和假設上有細微差別。最顯著的是,在線學習假設一個靜態流,而持續學習旨在減輕從非靜態流學習時的災難性遺忘。

另一個重要的研究領域是元學習[4]。與傳統機器學習不同,后者通過訓練集優化模型,元學習專注于以數據驅動的方式優化學習算法,使其產生比手工制作的學習算法更好的模型。因此,它通常被描述為“學會學習”。標準學習只涉及一個學習階段,而元學習包括多個學習階段,這些階段被分為元訓練集和元測試集。通過利用元訓練集中的多個階段提取的元知識,元學習旨在改進元測試集中每個階段的學習。元學習也與多個其他領域密切相關,如小樣本學習[5],[6],[7]和遷移學習[8],[9]。

雖然這些學習框架已經進行了廣泛的單獨研究,但最近在它們的協同結合方面出現了濃厚的興趣,導致了新問題設置和方法的出現。例如,在元持續學習的情況下,傳統元學習的每個階段被替換為一個持續學習階段。這種設置可以被稱為“學會持續學習”。另一個例子是在線元學習,其中學習階段不是一次性提供的,而是作為一系列階段呈現,可以總結為“順序學會學習”。

盡管這些框架每個都具有獨特的特點和重要性,但由于幾個原因它們可能容易混淆。首先,結合多個框架不可避免地增加了問題表述的復雜性。其次,即使問題設置的基本結構相同,個別論文經常引入一些變體,使它們更難以分類。最后,缺乏統一的術語和表述加劇了混淆。

在這種背景下,我們的主要目標是提供一個全面概述,涉及在線學習、持續學習和元學習之間的交叉點。我們建立了統一的符號來組織現有學習框架到一個明確定義的分類中。使用我們的符號,我們首先定義了四個基本學習框架,即離線學習、在線學習、持續學習和元學習。然后,我們將它們的組合分類為五個主要分支:元在線學習、元持續學習、在線元學習、持續元學習和持續雙層學習。對于這些組合學習框架中的每一個,我們提供了一個正式定義,并綜述了相關論文。

雖然我們確實解釋了基本學習框架的概念,但這項工作主要關注它們的組合,目前尚缺乏全面的綜述。雖然不是嚴格必要的,但參考現有的綜述可以促進對話題的更深入理解。我們建議參考在線學習的綜述[1],持續學習的[2],[3],以及元學習的[4]。總而言之,我們的貢獻可以概括如下。首先,我們為在線、持續和元學習的組合定義了清晰的學習框架分類。其次,我們提供了每個類別的全面綜述,識別了各種研究分支。第三,我們探討了剩余的挑戰,并提出了在這個有前景的領域未來工作的潛在途徑。

本文的其余部分安排如下。在§2中,我們介紹了學習框架的定義和分類。我們用正式算法和數據結構的圖形說明補充了描述。在§3-§6中,我們提供了每個學習框架的全面綜述和討論。在§7中,我們討論了剩余的挑戰,并提出了潛在的研究方向。最后,在§8中,我們以一般討論和未來的評論結束。

本節定義了相關學習框架的問題表述。我們根據它們的問題設置,將學習框架分類為八個主要分支:離線學習、在線學習、持續學習(CL)、元學習、元在線學習(MOL)、元持續學習(MCL)、在線元學習(OML)和持續元學習(CML)。解決這些問題的方法將分別在§3-6中描述。圖1展示了每個學習框架的關鍵特征和數據結構,表1總結了我們在本文中使用的統一符號。

付費5元查看完整內容

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

跨模態檢索是一個經典的問題。來山東師范大學、悉尼科技大學、電子科技大學、哈爾濱工業大學(深圳)的等學者最新《跨模態檢索》綜述,對跨模態檢索的演變進行了全面回顧,詳細闡述了無監督的跨模態實值檢索**、有監督的跨模態實值檢索無監督的跨模態哈希檢索有監督的跨模態哈希檢索以及特殊場景下的跨模態檢索。值得關注!**

隨著多模態數據呈指數型的激增,傳統的單一模態檢索方法難以滿足用戶對來自各種模態數據的需求。為了解決這個問題,跨模態檢索應運而生,它允許不同模態之間的交互,促進語義匹配,并利用不同模態數據之間的互補性和一致性。盡管先前的文獻對跨模態檢索領域進行了回顧,但在時效性、分類和全面性方面都存在許多不足。

本文對跨模態檢索的演變進行了全面回顧,從淺層統計分析技術到視覺-語言預訓練模型。從基于機器學習范例、機制和模型的全面分類開始,本文深入探討了現有跨模態檢索方法的基本原理和架構。此外,還提供了關于廣泛使用的基準、度量和性能的概覽。最后,本文探討了當代跨模態檢索所面臨的前景和挑戰,同時就該領域進一步進展的可能方向進行了討論。為了促進跨模態檢索的研究,我們在//github.com/BMC-SDNU/Cross-Modal-Retrieval開發了一個開源代碼庫。

在近幾十年里,互聯網、智能設備和傳感器經歷了顯著的擴展,導致了多模態數據的指數級增長。這包括圖像、文本、音頻和視頻等各種形式,通常用于描述相同的事件或主題。這種多樣性的增長導致用戶對跨不同模態的數據訪問的需求增加,以獲得全面的見解[1]。然而,傳統的檢索方法[2]、[3]主要關注單一模態,在滿足這些需求上因異構模態之間的差距而顯得不足。因此,有必要提出一種檢索策略,這種策略能夠促進信息源之間的互動,并支持跨模態的異構搜索。如圖1所示,跨模態檢索作為一個補救措施浮現出來,通過促進語義對齊和利用多模態數據之間的協同作用,增強了用戶體驗和信息吸收。它使用戶能夠迅速發現引人入勝的信息,從不同的角度獲得見解,并精確地找出潛在的相關性和模式。

跨模態檢索在學術界和工業界都受到了極大的關注和探索,導致在這個動態研究領域出現了大量基于學習的方法。我們可以追溯到2010年左右,當時統計分析技術占據主導地位,從多模態數據中提取特征并將其映射到一個共享空間進行相關性評估[4]。自2014年以來,深度學習技術在跨模態檢索中的崛起已經產生了深遠的影響,利用深度神經網絡的強大能力自主地從多模態數據中提取高級特征表示[5]。近年來,一系列的跨模態檢索方法已經被定制應用于多種開放場景,充分利用了視覺-語言預訓練模型的潛力[6]。這些進展顯著地加強了跨模態檢索系統的精度、穩健性和可擴展性,通過引入復雜的學習模型和培訓策略。展望未來,跨模態檢索仍然是一個充滿挑戰但很有前景的研究領域,預計將涵蓋更廣泛的數據模態,克服復雜的開放檢索場景,并需要高效的檢索模型。

為了使研究者深刻了解跨模態檢索的研究格局、實際意義和未來前景,本文提供了對現有代表性方法、技術和框架的有條理的概述和分析。它還深入探討了實驗基準、度量和性能,為未來的研究方向提供了新穎的觀點和建議。盡管先前的文獻[7]–[10]涉及了跨模態檢索,但在時效性、分類、全面性等方面都存在很多不足。具體來說,文獻[7]、[8]為跨模態檢索的早期階段提供了見解,但由于時間上的差距,它們對代表性方法和當代進展的描述受到了阻礙。在過去五年中開發的有影響力的跨模態檢索技術,這些技術對該領域產生了巨大的影響,尚未被包括在內。值得注意的是,Transformer架構和視覺-語言預訓練模型的最近出現對深度學習領域產生了深遠的影響,從根本上重塑了跨模態檢索研究格局。盡管近年來已經發表了文獻[9]、[10],但它們的范圍和分類都明顯不足。在文獻[9]中,關于基于自注意機制或大規模預訓練模型的跨模態檢索方法的論述非常稀少。另一方面,文獻[10]主要集中在圖像-文本匹配領域,未能全面綜合有監督的跨模態實值檢索和整個跨模態哈希檢索的方法。與此同時,文獻[9]、[10]將基于深度學習的跨模態檢索方法歸入一個過于簡化的類別,這種方法不適合深度學習的當前先進狀態。在這個領域內,不同的深度技術具有其核心概念,將它們合并為一個單一的類別阻礙了對不同網絡架構中固有的獨特屬性的全面了解。此外,這些作品都沒有深入探討如何解決各種實際場景中遇到的實際挑戰的策略。考慮到解決這些實際問題現在已經成為跨模態檢索研究的一個焦點,這種遺漏尤為值得注意。鑒于此,我們對從創始到現在的兩百多篇跨模態檢索論文進行了全面的回顧,總體目標是為這個領域提供一個全面的概覽。總之,本文的主要貢獻可以總結如下:

我們介紹了一個詳盡且細致的跨模態檢索分類法,將現有方法分為五大類和四十三個子類。通過提供這些技術所采用的原理和架構的詳細闡述,本文為整個跨模態檢索領域提供了一個全面的回顧,涵蓋了基本概念和進步的創新。

此外,本研究提供了一個簡潔的多模態數據集、評估指標和性能基準的匯編。這個匯編為跨模態檢索研究者提供了一個寶貴的參考,幫助他們選擇適當的數據集和指標來進行實驗驗證和性能評估。

此外,鑒于當前的發展狀況和應用要求,本文探討了跨模態檢索領域面臨的機會和挑戰。從這一分析中,提出了潛在的解決方案和研究方向,重點關注該學科中的前沿挑戰和新興趨勢。

本文的后續部分組織如下:第二部分提供了跨模態檢索中使用的基本概念和分類標準的全面概述。第三部分深入探討了各種跨模態檢索方法,詳細闡述了它們的復雜細節和架構。第四部分展示了跨模態檢索研究中廣泛使用的數據集、評估指標和性能比較的大量匯編。第五部分突出了跨模態檢索技術找到相關性的實際應用場景。第六部分對該領域的未來發展趨勢進行了深入的分析。最后,第七部分總結了本文,概述了主要的發現和貢獻。

跨模態檢索在多媒體檢索中占據了關鍵的地位,在人工智能領域擁有巨大的潛力。其目的是從不同的模態中提取語義上相關的信息,利用如文本、圖像或視頻等模態線索。然而,跨模態檢索的景觀是崎嶇的,其中最主要的挑戰是在異構模態數據中評估內容的相似性,這一難題通常被稱為異構模態間的差距,如圖2所示。這一困境源于模態之間在數據結構、特征空間和語義描繪上的差異,導致直接比較和對齊的巨大障礙。因此,跨模態檢索研究的核心是為多模態數據創建一個共享的框架,從而便于計算跨模態的相似性。為了應對這一挑戰,研究者提出了一系列的共同表示學習方法。這些方法努力將多模態數據映射到一個共享的、低維度的空間。在這個空間里,具有相似語義的數據聚集在一起,而不相似的數據則相互疏遠。廣義上,跨模態檢索方法可以基于其數據編碼形式分為兩種原型:實值檢索和哈希檢索,如圖3所示。跨模態實值檢索努力提取多模態數據在實數領域的低維向量表示。雖然這種方法保留了更豐富的語義數據,但它會帶來更高的存儲成本和計算需求。與之相反,跨模態哈希檢索尋求提取多模態數據的壓縮二進制表示,并將其擬合到漢明空間。這種發展使得檢索更加高效。然而,這種效率可能需要犧牲部分語義信息。每種方法都有其獨特的優勢和劣勢,選擇哪種方法取決于實際應用的特定要求和限制。

在數據編碼形式旁,監督信息也是劃分跨模態檢索方法的關鍵決定因素。通過結合這些考慮,我們將所有的跨模態檢索方法分類為五大主要類別:無監督的跨模態實值檢索有監督的跨模態實值檢索無監督的跨模態哈希檢索有監督的跨模態哈希檢索以及特殊場景下的跨模態檢索。此外,每個主要類別進一步細分為幾個子類別,如表I所示。前四個主要類別基于統計分析技術、深度神經網絡和其他輔助結構進行了細致的修飾。這些包括典型相關分析(CCA)、主題模型、譜圖、矩陣分解、字典學習、特征映射、度量學習、量化、自編碼器、卷積神經網絡-循環神經網絡(CNN-RNN)、生成對抗網絡(GAN)、圖神經網絡(GNN)、Transformer、視覺-語言預訓練模型(VLP模型)、跨模態生成、知識蒸餾和記憶網絡。最后一個主要類別涵蓋了為特殊場景設計的跨模態檢索,如不完整數據、增量數據、噪聲數據、跨域檢**索、零/少示例檢索、在線檢索、層次/細粒度檢索、文本-視頻/音頻檢索和對跨模態檢索的對抗。在這些特定場景中,基于實值和哈希的跨模態檢索方法提供的解決方案顯示出相似性。**因此,我們將它們統一為一個子類別,無需明確的區分。

A. 無監督的跨模態實值檢索

無監督的跨模態實值檢索旨在利用多模態數據的共同出現,如文本和圖像一起出現,以捕獲它們的語義關聯。根據設計原則和評估措施,它可以分為兩種類型:早期的無監督跨模態實值檢索和圖像-文本匹配檢索。

B. 有監督的跨模態實值檢索

有監督的跨模態實值檢索受益于手工注釋,廣泛探索多模態數據中的語義類別區分和關聯,以增強跨模態檢索任務。根據不同的學習原則,區分出兩種主要方法:淺層和深層跨模態實值檢索。淺層方法使用矩陣分解和特征映射來模擬多模態數據中的關聯。相反,深層方法使用深度神經網絡來捕捉復雜的關系。有監督的淺層跨模態實值檢索,在這類方法中,根據使用的技術區分出典型相關分析(CCA)方法、字典學習方法、特征映射方法和主題模型方法。有監督的深層跨模態實值檢索,有監督的深層跨模態實值檢索包括CNN-RNN方法、GAN方法、GNN方法和Transformer方法。這些方法通過使用復雜的深度學習結構,例如卷積神經網絡和循環神經網絡,以及最新的Transformer架構,使得在多模態數據中能夠捕捉到更加深入和細致的語義關系,從而實現更高精度的跨模態檢索。

C. 無監督跨模態哈希檢索

與無監督的跨模態實值檢索相似,無監督跨模態哈希檢索利用共同出現的多模態數據(例如,文本-圖像對)來捕獲它們之間的語義相關性。這種方法可以根據不同的原則分為兩類:無監督的淺層和深層跨模態哈希檢索。淺層方法主要依賴于矩陣分解和譜圖來發現多模態數據中的關聯,而深層方法則使用各種深度網絡來建模多模態數據。無監督的淺層跨模態哈希檢索:在這個類別中,可以根據使用的技術進一步將技術分類為矩陣分解方法、譜圖方法、量化方法和度量學習方法。這些方法主要集中在為跨模態數據生成緊湊的二進制哈希碼,從而實現高效的相似性檢索。無監督的深層跨模態哈希檢索: 無監督的深層跨模態哈希檢索可以細分為CNN-RNN方法、GAN方法、GNN方法、Transformer方法和知識蒸餾方法。這些深度學習方法通過在多模態數據中捕獲更深入和細致的語義關系,為數據生成有意義的二進制哈希碼,從而實現高質量的跨模態檢索。

D. 監督跨模態哈希檢索

受益于手動標注,監督的跨模態哈希檢索能夠充分利用多模態數據中的類別區分和語義關聯,有效地將其映射到低維的哈明空間以進行高效搜索。根據不同的原則,此方法可分為監督淺層跨模態哈希檢索和監督深層跨模態哈希檢索。監督淺層跨模態哈希檢索: 這一方法采用矩陣分解和特征映射技術為多模態數據生成一個公共表示。基于使用的技術,它可以進一步細分為矩陣分解方法和特征映射方法。這些淺層方法的核心在于尋找最優的線性或非線性變換,使得跨模態數據在映射到共享的哈明空間后,相似的數據具有接近的哈希碼。監督深層跨模態哈希檢索: 深度學習技術在此類別中被引入,以捕獲數據中的復雜關系。這包括了CNN-RNN方法、GAN方法、GNN方法、Transformer方法和量化方法。這些深層方法旨在通過訓練深度神經網絡模型,自動學習從原始多模態數據到哈希碼的映射函數,從而實現高質量的哈希編碼。監督的跨模態哈希檢索在大數據應用中具有巨大的潛力,因為它旨在將多模態數據映射到一個緊湊的哈明空間,這可以大大提高搜索的速度和效率,同時保持良好的檢索質量。

E. 在特殊檢索場景下的跨模態檢索

前述的跨模態檢索方法基于理想的假設,并適用于通用檢索場景。然而,由于實際限制,如數據收集不完整、注釋噪聲以及特定的檢索需求,一些跨模態檢索方法已經被提出來解決在特殊檢索場景中可能遇到的各種問題。 跨模態檢索數據集和實驗結果

為了使研究者全面了解跨模態檢索中的數據來源和特性,以及性能評估方法,本節將介紹在跨模態檢索中廣泛使用的評估數據集、指標以及代表性的跨模態檢索結果。

結論

跨模態檢索滿足了獲取和利用多種多模態數據的日益增長的需求。這一領域研究的演進提高了檢索系統的準確性、穩定性和可擴展性。本文提供了一個全面的分類體系,回顧了大量的文獻,并為跨模態檢索方法和架構提供了深入的見解。它還提供了關于數據集選擇和性能評估指標的指導。本文探討了機會、挑戰以及未來的研究方向,為跨模態檢索的理解和發展做出了貢獻。鼓勵在這一領域進一步的探索和創新。

付費5元查看完整內容

對比學習作為一種自監督式的深度學習范式,在計算機視覺、自然語言處理等領域取得了矚目的成績。受 這些成功的對比學習模型的啟發,近年來大量研究者嘗試將其拓展到圖數據上,這為推動圖對比學習的發展提供 了堅實的基礎。該領域現有的綜述主要關注于傳統的圖自監督學習任務,而缺少對圖對比學習方法的梳理和歸 納。為了更好地幫助相關領域的研究者,該文梳理了近些年來的圖對比學習模型,通過將現有工作歸納到一個統 一的框架下,突出其發展脈絡。最后該文總結了圖對比學習常用的數據集和評價指標,并展望了該領域未來的發 展方向。

1 引言

圖數據是一種描述物體和物體之間關聯關系的 抽象數據類型,它廣泛存在于各個領域。例如,在社 交網絡中,用戶和用戶之間的關注關系構成了社交 關系圖;在化學領域,原子和它們之間的化學鍵構成 了化合物分子圖;在物流領域,城市和它們之間的道 路構成了交通路網圖[1-2]。作為實際場景中最常見 的信息載體,圖數據蘊含著豐富信息,因此對圖數據 的分析研究具有重要的價值。能否很好地感知與理 解圖數據,從中挖掘有用的信息,是解決很多實際問 題的關鍵。例如,鏈接預測、節點分類、社區發現、推 薦 系 統、新 藥 發 現 等 都 是 與 圖 數 據 相 關 的 實 際問題[1-2]。 傳統的圖數據分析通常采用監督學習的框架,即 通過人為特征提取或端到端圖深度學習模型將圖數 據作為輸入,經過訓練后,挖掘圖數據中的有效信息, 輸出預測結果[3-4]。雖然這類圖監督學習方法在很多 任務上取得了顯著成功,但仍面臨著以下問題:①依 賴大量的人工標注數據;②由于過擬合導致泛化能 力差以及面向標簽相關的攻擊時模型魯棒性差[5]。 為了解決上述問題,不依賴于人工標注的自監 督學習正在成為圖深度學習的趨勢[1-2,6-7]。其中,對 比學習是一類重要的自監督學習方法,隨著其在計 算機視覺、自然語言處理等領域取得成功[8],如何將 對比學習應用在圖數據上,開始受到研究者的關注。 圖數據比語音、文本、圖像更加復雜,如何設計有效 的圖對比學習模型仍面臨著諸多挑戰。

為了更好地幫助該領域的發展,已有研究者梳 理了近些年來關于圖自監督學習的相關工作,并且 形成綜述[5,7,9-10]。但這些綜述主要關注傳統的圖上 自監督任務,并沒有針對圖對比學習的方法進行詳 細的梳理和分類。本文主要關注圖對比學習模型, 收集整理了近些年圖對比學習的工作。同時本文在 統一的框架下對比現有的方法,突出現有工作的異 同點及其發展脈絡,從而幫助研究者更好地梳理現 有工作,期望能激發對圖對比學習方法新的思考。 本文組織結構如下:第1節介紹圖對比學習問 題及其涉及的相關背景知識,并給出形式化定義; 第2節梳理了節點級的圖對比學習方法;第3節整 理了邊級別的圖對比學習;第4節整理了圖級別的 圖對比學習方法;第5節整理介紹了將圖對比學習 應用在更復雜場景下的拓展;第6節總結了常用的 評價數據集和評價指標;第7節分析整理了圖對比 學習現存的問題和未來可能的發展方向;最后一節 對全文進行了總結。

1 問題定義和相關背景

對比學習是一種判別式的學習方法,其目的是 讓相似的樣本學到相近的表示,同時讓不相似樣本 的表示互相遠離。對比學習在文本[19]、語音[20]、圖 像[21-25]等領域取得了顯著的效果提升,受到了廣泛 關注。對比學習在這些領域取得成功,為研究者設 計圖對比學習的框架打下了堅實的基礎。 圖對比學習期望學到一個編碼模型,使得相似 的節點(圖)經過編碼模型后得到相似的表示,不相 似的節點(圖)得到差異較大的表示。現有的方法可 以總結成一個統一的框架,如圖1所示,首先定義正 負例并利用正例生成器和負例生成器分別得到正負 樣本。接著將這些樣本輸入到編碼模型后得到對應 的表示。最后設計一個將正負樣本表示區分開的損 失函數,進行參數優化。 目前的圖對比學習方法在設計時主要關注:① 正負例的定義與產生方式;②編碼模型的架構;③損 失函數的形式。我們在圖1中用虛線框出了這三 部分。應用圖對比學習的典型范式如圖2所示,包括 無監督表示學習、無監督預訓練、輔助學習三種方 式[6]。其中,無監督表示學習和無監督預訓練是兩 階段的訓練范式,輔助學習是一階段聯合優化的訓 練范式。無監督表示學習利用對比學習為每個節點 (或圖)學習向量表示。接著固定這些表示作為輸入 去訓練模型解決下游任務。無監督預訓練范式,同 樣先用對比學習無監督地學習一個編碼器。但在解 決下游任務時,不僅利用標簽信息更新預測層的參 數,同時也微調編碼器的參數。輔助學習范式是指 在主任務損失函數的基礎上添加對比學習損失作為 正則項,聯合優化這兩項損失函數進行參數更新。

2 節點級圖對比學習方法

正負例 的 定 義 是 現 有 的 圖 對 比 學 習 方 法 關 鍵,不同的定 義 方 式 需 要 不 同 的 編 碼 模 型 和 損 失 函數。根據對比類型可以將現有方法分成實例對 比和跨級別對比兩類。實例對比是指同一個樣本 的不同增強 樣 本 之 間 的 對 比,跨 級 別 對 比 是 指 不 同 級 別 對 象 之 間 的 對 比,例 如,節 點 級 對 象 和 子 圖級對 象 的 對 比。 同 時,對 于 每 一 個 模 型,將 從 正負例的 定 義 與 產 生 方 式 以 及 損 失 函 數 的 形 式 兩個方 面 進 行 介 紹。 表 1 總 結 了 本 節 介 紹 的 圖 對比學習框架,并且 對 比 了 不 同 模 型 使 用 的 增 強 方式。

3 邊級別圖對比學習

在現實的圖中,節點往往表現出同質性,即在圖中 相近的節點往往具有相似的性質[1]。例如,存在引用 關系的論文往往屬于同一個領域;在社交網絡中兩個 用戶共同好友越多,他們是好友關系的可能性就越高。

4 圖級別圖對比學習

圖級別的對比學習框架在近些年來也受到了廣 泛的關注,其在生物、化學、醫藥領域發揮了關鍵的 作用。但該領域處于剛起步的節點,因此相比于節 點級的對比學習,圖級別對比學習的研究工作相對 較少。 You等人[53]提出的 GraphCL是將基于實例的 節點級圖對比學習框架應用到圖級別對比學習上的 典型模型,其框架如圖13所示。

5 圖對比學習的拓展

前文介紹 了 同 質 網 絡 上 的 圖 對 比 學 習 框 架, 而現實中的 圖 數 據 往 往 具 有 復 雜 的 結 構,無 法 直 接應用上述的圖對比學習模型。因此一些研究者 開始將 圖 對 比 學 習 拓 展 到 不 同 類 型 的 圖 上。 此 外,在實際場景中往往會伴隨著監督信息,如何將 圖對比學習框架和監督信息結合也是一個重要的 拓展方向。

6 圖對比學習方法的評價

不同的圖對比學習方法的優劣,往往通過其在 下游任務上的表現來評判。常見的下游任務在1.4 節中已經進行了說明,本節主要介紹常用的節點級 任務的數據集和圖級任務的數據集以及評價指標。

7 挑戰與未來展望

圖對比學習框架在節點級任務、邊級任務和圖 級任務上都取得了成功,但目前仍有如下一些問題 待解決。

7.1 圖增強操作

圖數據的增強是圖對比學習框架中非常重要的 組成部分,其為節點/圖提供了更加豐富的上下文信 息,從而幫助節點/圖學到更優質的表示。在圖像領 域,可以比較容易地確定增強后的圖片仍然與原圖 片反映同一類別的物體。由于圖數據本身就是一種 抽象的數據結構,應用現有的增強操作(如增邊刪 邊,隱藏部分特征維度)后,難以直觀判斷原來的節 點/圖是否保持類別不變。因此設計增強后類別保 持不變的圖增強操作是未來重要的發展方向。此外 如何判斷哪種數據增強的方式是對于對比學習有效 的,也是一個重要方向。已有工作試圖尋找在圖像 領域哪種增強是有效的[68],但在圖領域仍然等待被 探索。

7.2 基于圖對比學習的預訓練模型

預訓練旨在通過自監督學習從大量數據中學到 通用的語義信息,并將學到的知識遷移到下游的任 務中。目前預訓練模型在很多領域都取得了最佳的 效果,具有巨大的發展潛力。圖對比學習方法為圖 上的大規模預訓練奠定了很好的框架基礎。 然而,現有的圖對比學習主要關注于在同一圖 上模型遷移到下游任務上的效果[34,35,39-42,52]。這些 模型未考慮模型跨數據集遷移的能力。雖然近年來 有研究提出了具有一定跨數據遷移能力的圖對比學 習模型[45],但該方法只適用于沒有屬性的同質信息 網絡,局限性較大。因此如何設計具有跨數據集遷 移能力的圖對比學習模型是未來大規模圖預訓練應 用中亟待解決的重要問題。

7.3 對比學習的理論分析

雖然對比學習的框架在很多領域都取得了顯著的提升,但是該框架為何能提升表示的質量,以及其 和下游任務之間有什么關聯、什么樣的對比任務更 有效等仍然值得探索。雖然在圖像領域有工作開始 分析對比學習有效的原因[69-70],但在圖數據領域的 理論分析仍然是空白的。

7.4 實際場景的應用

如何將圖對比學習應用在實際場景中提升實際 任務的效果,也是一個潛力巨大的方向。目前有研 究者嘗試在推薦系統[71-73]、藥物分類[74-75]領域利用 圖對比學習解決某些關鍵問題。因此,如何利用圖 對比學習解決更多實際的圖分析問題是具有重大研 究意義的方向。

7.5 大規模圖上對比學習

現有的圖對比學習往往需要大量的負樣本,才 能學好節點/圖表示。但在實際的場景中,圖的規模 往往非常的巨大。因此大量的負樣本需要巨大的內 存和計算代價。在圖像領域已經有一些工作去探索 如何利用更少的負樣本[76],或者不使用負樣本的方 式來減少計算代價[46,77]。因此如何設計適用于大 規模網絡的圖對比學習也是未來發展方向之一。

7.6 更公平的方法對比

本文從方法上對比了不同圖對比學習框架的異 同。但由于不同模型適用的數據集不同,實驗設定 上也有差異,從而導致難以從實驗結果上判定哪個 框架更有效。但是從實驗上對比不同模型的優劣對 于圖對比學習的發展有著至關重要的作用。因此設 計一個基準實驗框架,更公平地對比不同方法也是 一個重要的方向。

8 結束語

基于深度學習的圖分析方法在很多任務上取得 顯著的效果,而做好節點/圖表示是其中的關鍵。近 年來基于對比學習的表示學習框架在圖像等領域取 得了成功,這為圖對比學習框架提供了堅實的基礎。 本文對近年來出現的圖對比學習框架進行了分析總 結,將圖對比學習框架總結成三個重要的部分,分別 是正負例的定義方式、編碼器模型的設計以及損失 函數的設計三個部分。 本文圍繞圖對比學習展開,梳理總結了近些年 來重要的圖對比學習工作,同時提出了一些仍未被 很好解決的問題,以及未來可能的研究方向,嘗試為研究人員建立一個較完整的研究視圖,希望能為進 一步推進該領域的研究提供一定的幫助。

付費5元查看完整內容

最近,網絡犯罪分子在一系列網絡系統中策劃了各種有組織和堅決的網絡攻擊,給私人和政府機構帶來了嚴重后果。當前基于安全的自動化和編排側重于自動化固定目的和硬編碼的解決方案,這些解決方案很容易被現代網絡攻擊超越。自動化網絡防御的研究將允許通過順序決策代理自主防御網絡系統來開發和實現情報響應。本文通過需求分析全面闡述了自動化網絡防御的發展,該需求分析分為兩個子領域,即自動化防御和攻擊代理和自主網絡操作(ACO) Gyms。需求分析允許對自動化代理進行比較,并強調了ACO Gyms對其持續發展的重要性。需求分析還用于評價ACO Gyms,其總體目標是發展ACO Gyms以在現實世界的網絡系統中部署自動化代理。從整體分析中解決了相關的未來挑戰,以加速自動化網絡防御領域的發展。

付費5元查看完整內容

我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。

//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4

付費5元查看完整內容

圖分類的目的是對圖結構數據進行準確的信息提取和分類。在過去的幾年里,圖神經網絡(GNNs)在圖分類任務上取得了令人滿意的成績。然而,大多數基于GNNs的方法側重于設計圖卷積操作和圖池操作,忽略了收集或標記圖結構數據比基于網格的數據更困難。我們利用元學習來進行小樣本圖分類,以減少訓練新任務時標記圖樣本的不足。更具體地說,為了促進圖分類任務的學習,我們利用GNNs作為圖嵌入主干,利用元學習作為訓練范式,在圖分類任務中快速捕獲特定任務的知識并將其轉移到新的任務中。為了提高元學習器的魯棒性,我們設計了一種新的基于強化學習的步進控制器。實驗表明,與基線相比,我們的框架運行良好。

付費5元查看完整內容
北京阿比特科技有限公司