摘要——圖上的分布偏移,即訓練和使用圖機器學習模型時數據分布之間的差異,在現實場景中普遍存在且常常不可避免。這些分布偏移可能會嚴重削弱模型性能,給可靠的圖機器學習帶來重大挑戰。因此,針對分布偏移下的圖機器學習研究激增,旨在訓練模型在分布外(OOD)測試數據上實現令人滿意的表現。在本綜述中,我們提供了關于分布偏移下深度圖學習的最新且具有前瞻性的回顧。具體而言,我們涵蓋了三個主要場景:圖的OOD泛化、訓練階段的圖OOD自適應,以及測試階段的圖OOD自適應。我們首先對問題進行正式表述,并討論可能影響圖學習的各種分布偏移類型,如協變量偏移和概念偏移。為便于理解相關文獻,我們基于提出的分類法系統地對現有模型進行分類,并研究其背后的技術方法。此外,我們還總結了該研究領域中常用的數據集,以便于進一步探索。最后,我們指出了一些有前景的研究方向及其相應的挑戰,以推動這一重要領域的進一步研究。此外,我們在 //github.com/kaize0409/Awesome-Graph-OOD 上提供了持續更新的閱讀列表。
關鍵詞——圖學習,分布偏移,圖的分布外泛化,圖的分布外自適應。
1 引言
受圖結構數據在眾多實際場景中普遍存在的驅動,圖機器學習逐漸獲得了越來越多的關注,因為它能夠有效地捕獲圖中實體之間的關系與依賴性。尤其是圖神經網絡(Graph Neural Networks, GNNs)通過消息傳遞機制[1], [2], [3],在圖上進行表示學習,已在社交網絡、物理問題和交通網絡等多個應用領域展現了顯著成效[4], [5], [6]。
盡管圖機器學習取得了顯著的成功,但大多數現有方法假設測試數據的分布與訓練數據相同,而這種假設在真實環境中往往不成立。當面對分布外(Out-of-Distribution, OOD)樣本時,圖機器學習方法的性能可能大幅下降,限制了其在金融和醫療等高風險圖應用中的有效性[7]。盡管已有眾多遷移學習方法被提出以應對歐幾里得數據的分布偏移[8], [9], [10],但直接將這些方法應用于圖數據存在挑戰。這是由于圖中的實體是相互關聯的,違背了傳統遷移學習方法中獨立同分布(IID)假設。此外,各類圖分布偏移帶來了新的挑戰。這些偏移存在于特征、結構和標簽等不同模態中,表現形式多種多樣,包括圖大小、子圖密度和同質性等的變化[11]。鑒于這些障礙,越來越多的研究致力于提高圖機器學習在分布偏移下的可靠性,主要集中在三個場景:圖的OOD泛化[7], [11]、訓練階段的圖OOD自適應[12], [13],以及測試階段的圖OOD自適應[14], [15]。
圖的OOD泛化與自適應方法的主要區別在于對目標數據可用性的假設。圖的OOD泛化方法通常假設在模型訓練過程中目標數據不可用,旨在提升模型對任何潛在未見測試分布的泛化能力。相反,訓練階段和測試階段的自適應方法則假設目標數據可用,目標是提高模型在該特定目標上的表現。然而,兩者在對源數據的假設和如何利用源分布知識方面有所不同。訓練階段的自適應假設源圖和目標圖同時可用,使得模型可以從頭開始在訓練過程中進行適應;而測試階段的自適應通常假設訪問的是預先在源圖上訓練好的模型,而非源圖本身,然后從該預訓練狀態開始適應目標數據。盡管圖的OOD泛化、訓練階段的OOD自適應和測試階段的OOD自適應密切相關,但目前尚無統一的框架能夠全面探討這三個場景下的深度圖學習在分布偏移下的表現。 隨著圖OOD學習領域的最新進展,對該領域的最新且具有前瞻性的回顧顯得尤為必要。在本綜述中,我們提供了據我們所知的第一個關于分布偏移下深度圖學習的統一、系統性的文獻回顧。我們首先對問題進行正式表述,討論圖機器學習中不同類型的圖分布偏移。接著,我們提出了新的分類法,將現有方法根據模型學習場景分為三類:(1) 圖的OOD泛化,通過對源數據訓練時的模型設計提升泛化能力;(2) 訓練階段的圖OOD自適應,通過基于源數據和目標數據的聯合訓練實現適應[16], [17];(3) 測試階段的圖OOD自適應,通過將預訓練源模型調整至目標數據進行適應[18], [19]。
為了加深對這些方法的理解,我們進一步將每類中的現有方法分為模型中心和數據中心策略。模型中心的方法關注于學習過程或圖模型架構本身,通過優化模型結構、訓練目標或學習機制來增強模型在分布偏移下的泛化或適應能力。相比之下,數據中心的方法強調對輸入圖的處理,通過預處理技術或數據增強策略直接提升模型性能。在每個研究子方向中,我們詳細介紹了在圖分布偏移下提升泛化性或適應性的技術。此外,我們總結了該研究領域使用的數據集,著重介紹了它們的特征以及與分布偏移挑戰的相關性。基于圖OOD學習的當前進展,本文最后指出了該領域中一些有前景的研究方向及相應的挑戰。
與現有綜述的差異
盡管圖學習在分布偏移下急需概覽,但現有綜述主要聚焦于該領域內的某些子領域,而未能從多場景的角度提供全面的概述。目前已有一些相關領域的綜述,但其關注點各不相同,包括圖的OOD泛化[7], [20]、圖域適應[21], [22]、分布偏移相關的可信圖學習[23]。本綜述的不同之處體現在以下方面:(1) 主要關注點。我們的綜述重點是分布偏移下圖學習的挑戰和解決方案,而[23]從可信性的角度分析了OOD問題,但未深入探討方法學層面。相反,[20]從因果視角審視圖機器學習,范圍較我們廣泛探討的角度更為狹窄。(2) 分類法。我們提供了現有方法的全面分類并對其進行了總結,而相關工作如[24]則缺少類似總結。其他綜述如[21]和[22]主要聚焦于域適應,未涉及更廣泛的圖OOD學習。此外,我們還涵蓋了該領域最新進展及討論。
綜述結構
本綜述的總體結構如下:第2節介紹符號和預備知識。第3、4和5節分別回顧圖的OOD泛化、訓練階段的圖OOD自適應以及測試階段的圖OOD自適應。每節在相應場景下討論模型中心和數據中心方法,并詳細介紹每類方法的相關技術。此外,第6節對文獻中使用的數據集進行了全面總結,重點介紹了常用的圖數據集及其與分布偏移挑戰的相關性。第7節探討了該領域中有前景的未來研究方向及相關挑戰。最后,第8節總結了本綜述的內容。
正如問題定義所示,圖的OOD泛化、訓練階段圖的OOD自適應和測試階段圖的OOD自適應在模型學習場景上存在顯著差異。具體而言,圖的OOD泛化方法假設目標數據不可訪問,僅使用源數據;訓練階段圖的OOD自適應方法同時涉及源數據和目標數據,并從零開始訓練模型,而測試階段圖的OOD自適應方法則假設源數據不可用,旨在將預訓練的源模型適應至目標數據。因此,在接下來的三部分中,我們首先將現有方法分類為圖的OOD泛化、訓練階段的圖OOD自適應和測試階段的圖OOD自適應。在每一部分中,我們進一步將方法細分為模型中心方法和數據中心方法。模型中心方法聚焦于學習過程或圖模型的設計,而數據中心方法則側重于對輸入圖的處理,例如變換圖結構或特征。我們的分類體系如圖2所示。
摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。
最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:
本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。
摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。
關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習
1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:
多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:
在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。
基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:
架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。
固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。
動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。
重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。
直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。
偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。
基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。
本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。
這一部分總結了兩個專門為MMCL構建的數據集:
除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:
隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。
當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:
MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:
MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:
在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:
隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:
結論
以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。
摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。
導語
在當前基礎科學研究中,絕大多數任務本質上可以歸結為對不同物理系統的描述和建模。對蛋白質的結構預測讓我們了解蛋白質的功能,分子動力學模擬讓我們更好地了解化學反應的機理,對于系統結合能的預測讓我們篩選更好的催化劑。隨著近年來深度學習模型,特別是圖神經網絡模型的發展,越來越多的模型開始應用于從亞原子到大分子等一系列不同尺度物理系統的建模,取得令人矚目的成果。在集智俱樂部「幾何深度學習」讀書會,阿里巴巴達摩院資深技術專家榮鈺博士針對復雜物理系統和長時間動態系統,介紹了基于幾何圖學習(geometric graph learning)對這兩類系統進行建模的最新工作以及相關應用,并對未來AI for Science相關領域進行展望。******
研究領域:圖神經網絡,幾何圖學習,AI for Science,復雜系統建模,動態系統建模**********
榮鈺 | 講者
董弘禹** | 整理**
榮鈺、余孟君**** | 審校****
目錄
背景知識:物理建模系統的重要性
基礎概念回顧
針對動態系統的建模
針對復雜系統的建模
未來展望
1. 背景知識:物理系統建模
我們的世界中有很多物質,從微小的粒子到宏大的星系,其中蘊含著很多科學問題有待探索。近年來,AI4Science領域變得十分火熱,不論是用人工智能模型對氣體分子的擴散特性進行研究,抑或是研究分子對接問題,其本質是如何建模真實世界的物理系統。
我們可以把常見的挑戰分為兩類:對復雜靜態系統的建模和長時間動態系統的模擬。靜態復雜系統一個明顯例子是對蛋白質結構進行建模,代表性的模型有AlphaFold,RoseTTAFold等等;動態系統則是研究某種分子/粒子的軌跡,或者對其動態特性進行研究,如分子動力學模擬。當然,這個劃分只是為了方便研究,在真實場景下是二者皆有的,比如對蛋白動態對接的過程進行研究,這既要對蛋白結構進行建模(靜態),也要對分子對接過程進行建模(動態),二者往往混合出現。
在沒有人工智能方法的時代,物理學家、數學家們怎么做研究呢?他們的建模往往是借助數學工具去描述物理學的常識,例如如果一個粒子在經典力學條件下運動,那么就應該滿足牛頓第二定律。隨著大數據時代的到來和AI方法的廣泛使用,科學家們開始從一大堆實驗數據中嘗試“擬合”滿足要求的物理規律。然而,這種使用深度神經網絡(Deep Neural Network, DNN)的方式很多時候是不足的,它并不能每次都擬合好所有函數。因此,如果將之前科學家們花費漫長時間研究得到的物理學先驗知識“注入”到模型中,模型的效果應該會提升很快。在當前這個領域,大家都在研究如何將先驗知識更好地嵌入到模型中,進而幫助建模基本物理問題。
2. 基礎概念回顧
在介紹具體工作之前,我們一起回顧一下基礎的背景知識,以便于后文的理解。首先,物理學家們通常采用兩種辦法對物理系統進行建模:基于粒子的建模方法,基于場的建模方法。基于粒子建模的核心是將物理過程看成由一堆具有特定屬性的粒子交互運動的結果,通過研究粒子和粒子的交互來建模。而基于場建模的核心則是將物理過程看成空間中每個位置的特定特征變化,通過建模空間中這一連續的變化來研究物理系統。 在今天的講解中,我們將主要著重于前者——基于粒子的建模方法。
在基于粒子的建模中,對于數據的描述往往采用幾何圖的形式。什么是幾何圖?簡言之就是在傳統圖的基礎上,增加一些幾何特征(如空間三維坐標表示、受力情況、速度等參量)。由于引入了很多粒子的附加信息,因此相比于傳統的圖,其內容和特征表示更豐富,更便于對物理系統進行建模。
講到這里,我們就要引入一個概念,叫偏置假設(Inductive Bias)。這個術語用來形容一些系統中最基本的性質,最基本的先驗知識。在幾何圖中,這種假設被稱為“等變性”。
**等變性這個概念來源于物理中的對稱性。**如果我在一個物體上施加一個變換,變換前后物體性質保持不變,則稱這個物體對這個變換保持對稱。推廣來看,如果對于一群粒子、一個變換函數和一個旋轉變換R,先對粒子做旋轉變換,后做變換,與將這兩個操作反過來實現的效果是一樣的話,則可稱為具有等變性。
我們處理幾何圖,一般采用幾何圖神經網絡。它與傳統圖神經網絡的最核心區別就是保持了等變性。我們可以從下面這張圖所展示的消息傳遞方式對比它與傳統網絡的區別。傳統網絡僅有黑色(1、3行)所示的傳遞方式;在藍色部分增加了幾何信息的生成和傳遞。可以看到,通過并行進行消息生成與傳遞,幾何圖神經網絡能夠將幾何信息充分融入,進而保持等變性。
談及等變神經網絡,就不得不提到這篇EGNN[1]工作,它用一種很簡單的標量化操作——首先采用計算歐氏距離的形式得到一個標量數值,進行常規消息傳遞,當更新幾何信息時(這里具體化為坐標x)用xi- xj的形式產生一個帶方向的向量,進行加權平均求和更新坐標。這樣的方式雖然很簡單,但是卻很有用,后面基于EGNN的工作也都是從這個基礎上進行改進。因此,這篇文章是當之無愧的經典和鼻祖,值得我們仔細研讀。有關更多的等變網絡構造的方式和相關的應用也可以參閱我們最近發布的綜述[6]。
3. 針對動態系統的建模
我們這里所談到的動態系統建模,實際上可以歸納為一個自回歸問題,輸入t時刻的一種粒子狀態圖,產生下一時刻的粒子圖。
然而,這種預測是有些許問題的,需要額外知識的嵌入。在接下來的講解中,我們將闡述建模動態系統時的一些問題,針對這些問題,我們融入了哪些先驗偏置假設從而改進預測效果。 下面主要介紹三個工作。
3.1 SEGNO: Second-order Equivariant Graph Neural Ordinary Differential Equation[2]
在建模動態系統時,物理學家能夠運用經典物理規律(如牛頓第二定律)對每個粒子的運動進行模擬。然而,隨著粒子數的增加,計算復雜性急劇上升,這對計算資源的要求更為苛刻。此外,隨著時間和迭代次數的增加,每一步的誤差會逐漸累積,直至系統崩潰。這兩點困難使得長時程預測任務難度驟然上升。
經過文獻調研與細致分析,我們發現有兩點先驗知識之前沒有涉及:1)許多模型僅關注從前一時刻的位置預測后一時刻的位置(僅有一階信息)。然而在物理學領域,邏輯應該是:分析受力-得到加速度-求解速度-求解位移,應該增加對加速度的預測和考量(二階信息);2)現有數據極其稀疏,僅有這一時刻和下一時刻的離散化數據,至于中間經歷了什么無法知曉。針對這兩點局限,我們設計了SEGNO框架,將兩種先驗假設融入模型中。
具體而言,模型首先采用一個MLP網絡對加速度進行建模,然后將加速度這個參量融入幾何圖神經網絡中進行消息傳遞,隨后采用常微分方程(ODE)對速度、位移等參量進行求解;此外,通過歐拉方程的方式,模型能夠很好地求出t0-t1時間段內以Δt 為間隔的粒子位置和速度,從而能夠在離散的過程中插值未觀測量。
在計算損失時,模型僅計算t1時刻由模型預測出的粒子位置和真實位置之間的距離。
在理論證明上,SEGNO能夠證實模型具有等變性,解唯一性;且通過下圖實驗可看出與傳統的EGNN相比,SEGNO在可以保證在t0-t1過程中的路徑唯一性,同時這一路徑也可以準確預測t0.5這個中間量。
從具體實驗來看,SEGNO不僅能在定量實驗(如方向預測實驗)中取得較高指標,均方誤差(MSE)較小;同時也十分穩定,具體表現在隨著迭代次數增加,SEGNO的誤差增長曲線較其他模型更為平緩,證明其每一步的誤差均控制在較小范圍。
在許多下游任務,如分子動力學模擬和人姿態估計預測上,模型也能超過現有方法,實現更好的效果。
總結而言,SEGNO模型通過加入兩種先驗假設:二階參量和連續性插值預測,從而更好地建模長程問題。需要注意的是,模型能夠應用于各種backbone模型上,泛化性很強。
3.2 ESTAG:Equivariant Spatio-Temporal Attentive Graph Networks to Simulate Physical Dynamics[3]
在蛋白質建模中,研究者們通常關注于蛋白質和小分子的結構,以及它們如何完成諸如對接這樣的動態過程。但實際上,二者都在同一溶劑中進行反應,溶劑分子是不可忽視的一種角色。溶劑分子通過與配體、受體進行互作,有可能影響對接過程。
如果采用數學語言精煉化描述上述情況,我們可以認為,之前所述的理想模型滿足馬爾科夫鏈結構——任意t時刻的分子狀態圖只和其前一時刻t-1狀態圖有關。然而,實際情況不滿足馬爾科夫性質,t時刻的圖和t-1、t-2乃至t-3時刻狀態圖有關,此外,不同位置的粒子之間也互有作用。總之,要考慮時空依賴性進而對分子狀態進行精確估計。
鑒于此,我們開發了一種融合時空信息的等變圖神經網絡框架ESTAG,用于進行粒子模擬。此框架分為四個部分:
下面兩張圖大體概括了時空傳遞機制,其實和EGNN的方式大體相當,只不過在時間信息傳遞時采用了注意力機制,對從0時刻開始的狀態(坐標,速度)進行加權求和,隨后生成信息用于下一次傳遞。
通過在分子模擬數據集MD17上的實驗,我們證實了融合時空信息確實能夠讓模擬性能提升一個數量級,從更宏觀的蛋白數據集上也收獲到了類似的效果。可視化實驗也證明了ESTAG能夠在預測過程中保留EGNN丟失的化學鍵,并能更精確地生成蛋白質alpha折疊和人體姿態數據。
總結而言,ESTAG模型融合時空信息進行消息傳遞,進而提高粒子模擬性能。該論文也中稿了NeurIPS 2023年的poster。
3.3 DEGNN: Discrete Equivariant Graph Neural Network[4]
幾何深度學習的等變性約束已經廣為人知,并應用到各個領域。然而,對所有系統都加以等變性約束是否太過嚴格?例如,高速公路上的汽車永遠不會跑出路,因此它的等變性只體現在旋轉180度后有效。因此,有必要探究在不同的離散等變群上適當放松等變性約束,是否更為合理?
借鑒晶體里面的概念,我們首先定義點群(point group)。點群是傳統等變性的放松約束形式,它由一群離散操作組成,這些操作使粒子保持離散等變性。舉個簡單的例子,D4等變群[7]包含了將粒子旋轉90、180、270、360度這四種等變性操作。我們有了離散等變群之后,下一步的關鍵就是如何構造函數,使得模型能夠實現離散等變操作。 下面是一個構造方式μp,它既能保持排列不變性(輸入數據順序不同其輸出結果相同),又能保持離散等變性。對比和EGNN的區別,可發現其核心是將EGNN模型σ中從向量轉化為標量這個約束進行了放松,將約束轉移到φ上,只要φ滿足排列不變性,那么對于任意給定的點群,下面的構造都可以滿足離散等變性。所以x的對稱性破缺特征(symmetry-breaking feature)其實就是表明x不用是標量了,而可以是一堆向量也滿足條件。因此,μp是EGNN的一般性表示。
我們采用這樣的構造方式搭建模型,并進行了從宏觀到微觀的不同物理系統(如高速公路、分子動力學)的實驗。結果證明,模型在各個領域的實驗均表現優異,從而證實本研究開頭提到的假設:等變性約束往往太過嚴格,適當放松約束也是不錯的選擇,為未來模型設計和研究提供了參考。
這篇文章同時也中稿KDD 2024,用構造函數的方式向研究者們展示放松等變性約束也不失為一種有效辦法。
4. 針對復雜系統的建模
以HGIN: Geometric Graph Learning for Protein Mutation Effect Prediction[5]為例,我們展示等變圖神經網絡在復雜系統建模上的應用。 在蛋白質建模任務中,有一種任務稱之為定向進化。其本質是通過突變,探究蛋白親和力的變化,如果親和力增加,則保留這個突變,在該突變基礎上繼續突變,從而迭代改進蛋白質。
已有工作采用序列輸入的方式,用循環神經網絡/大語言模型進行建模;此外還有通過卷積核卷積蛋白三維結構對特征進行匯總。存在兩個挑戰:1)未考慮不同層次的特征:由于是單氨基酸突變,如果從氨基酸序列層面來看,序列變化十分微小,可能在模型學習過程中無法學習出差異信息;然而從原子層面上看,突變一個氨基酸產生的影響比較大——因此要融合不同層次的信息。2)在親和力預測時,要滿足等變性。
為此,我們設計了HGIN——層次等變圖神經網絡模型。模型同時輸入野生型和突變型結構,首先從原子層面進行消息聚合,隨后通過池化(Pooling)方式將其匯總到每個氨基酸的特征;在氨基酸層面,考慮氨基酸之間的特征相似性、空間上是否相近、在序列上的位置等多角度信息進行注意力機制加權平均求和,最后預測出兩個潛在表示,加上MLP層預測親和力變化情況,同原來已知的標簽進行監督學習。
通過一系列數學證明,能夠證明這個模型也滿足幾何等變性和排列不變性。
通過在單鏈蛋白數據集、多鏈蛋白數據集、病毒數據集上進行主要實驗,可證明通過融合層次化信息,模型的性能得到有效的提高。
5. 未來展望
科學研究的范式可分為兩類:一類是開普勒的數據驅動型——給定大批數據,通過AI模型學習底層規律;另一類是牛頓的模型驅動型——從第一性原理開始推導,建立理論框架。在當今的研究中,我們是否能將這兩種范式進行結合呢?能否通過注入物理先驗知識,在有限的數據下訓練出一個“足夠聰明”的大模型呢?值得大家思考。
AI for Science領域的大模型應該怎樣做?在我看來,科學問題涵蓋的領域非常廣泛,從生物到物理。其問題的尺度和復雜性也各有不同,大到天體,小到微粒。在過去數百年的研究中,科學家們已經積攢了非常豐富的多尺度數據,那么我們能否通過融入一定的先驗知識,研發出多模態、多尺度大模型,從而打通各個領域,助力科學發現呢? 如果能實現,那么我們就可能通過分子動力學模擬去預測蛋白結構,通過蛋白質結構預測催化系統的結合能。 我們有強大的算力和性能優異的算法,我們也有長久積累下來的物理學定律,如何用這兩塊面包,解決很多重要的科學問題(里面的雞排),從而做好這個漢堡包,獲得新的科學范式,是各位研究者們未來奮斗的目標。
展望未來,AI for Science的基礎模型可以通過大語言模型外加知識庫的形式進行發展,也可打造一批專業領域模型供大語言模型進行調用,這些可能都會在不遠的將來實現,未來可期!
參考文獻:[1] Satorras, V?ctor Garcia, Emiel Hoogeboom, and Max Welling. "E (n) equivariant graph neural networks." International conference on machine learning. PMLR, 2021[2] Liu, Yang, et al. "SEGNO: Generalizing Equivariant Graph Neural Networks with Physical Inductive Biases." The Twelfth International Conference on Learning Representations, 2024, Wu, Liming, et al. "Equivariant Spatio-Temporal Attentive Graph Networks to Simulate Physical Dynamics." Thirty-seventh Conference on Neural Information Processing Systems, 2023, Zheng, Zinan, et al. "Relaxing Continuous Constraints of Equivariant Graph Neural Networks for Physical Dynamics Learning." ArXiv, 2024, Zhao, Kangfei, et al. "Geometric Graph Learning for Protein Mutation Effect Prediction." Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, ACM, 2023, pp. 3412–3422, Han, Jiaqi, et al. "A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications." arXiv, 2024, Mondal, Arnab Kumar, et al. "Group Equivariant Deep Reinforcement Learning." arXiv preprint arXiv, 2020, .
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。
擴散模型(Diffusion Models)是近年來在各種視覺任務中廣受關注的生成建模方法。由于這些模型不依賴標簽注釋,因此可以被視為一種獨特的自監督學習方法。本文綜述了擴散模型與表示學習之間的相互關系,概述了擴散模型的基本方面,包括數學基礎、流行的去噪網絡架構和指導方法。此外,本文還詳細介紹了與擴散模型和表示學習相關的各種方法,包括利用預訓練擴散模型學習的表示進行后續識別任務的框架,以及利用表示學習和自監督學習進展來增強擴散模型的方法。本文旨在提供擴散模型與表示學習之間分類法的全面概述,識別現有問題和潛在探索的關鍵領域。
擴散模型(Diffusion Models)最近在生成建模領域中脫穎而出,展示了在圖像合成、自然語言處理、計算化學和音頻合成等領域的非凡成果。擴散模型的卓越生成能力表明,它們不僅可以學習輸入數據的低層次特征,還可以學習高層次特征,使其成為通用表示學習的理想候選者。與生成對抗網絡(GANs)和變分自編碼器(VAEs)等其他生成模型不同,擴散模型沒有固定的架構組件來捕獲數據表示,這使得基于擴散模型的表示學習具有挑戰性。然而,利用擴散模型進行表示學習的方法受到了越來越多的關注,同時也得益于擴散模型在訓練和采樣方面的進展。
目前最先進的自監督表示學習方法展示了良好的可擴展性,因此,擴散模型也可能表現出類似的擴展特性。用于獲得最先進的生成結果的控制生成方法(如分類器指導和無分類器指導)依賴于帶注釋的數據,這成為擴展擴散模型的瓶頸。利用表示學習的指導方法無需注釋,提供了一種解決方案,可能使擴散模型能夠在更大的、無注釋的數據集上進行訓練。
本文旨在闡明擴散模型與表示學習之間的關系和相互作用。我們重點介紹兩個核心觀點:利用擴散模型本身進行表示學習,以及利用表示學習來改進擴散模型。我們介紹了當前方法的分類,并總結了展示當前方法共性的通用框架。
自Ho等人、Sohl-Dickstein等人和Song等人最初提出擴散模型以來,對探索擴散模型表示學習能力的興趣不斷增加。正如圖1所示,我們預計這一趨勢將在今年繼續。擴散模型和表示學習方面發表的作品數量增加,使得研究人員更難識別最先進的方法并跟上當前的發展。這可能會阻礙這一領域的進展,這也是為什么我們認為需要對這一領域進行全面概述和分類。
擴散模型和表示學習的研究還處于初期階段。許多當前的方法僅依賴于為生成合成訓練的擴散模型進行表示學習。因此,我們假設未來在這一領域有顯著的進步機會,擴散模型可以越來越多地挑戰當前表示學習的最先進水平。圖2展示了現有方法的定性結果。我們希望這份綜述可以通過澄清當前方法的共性和差異,促進基于擴散的表示學習的進展。總結而言,本文的主要貢獻如下:
全面概述:提供擴散模型與表示學習相互作用的全面綜述,澄清如何利用擴散模型進行表示學習,反之亦然。
方法分類:我們引入了基于擴散表示學習的當前方法的分類,突出它們之間的共性和差異。
通用框架:本文為擴散模型特征提取和基于分配的指導提出了通用框架,提供了對大量擴散模型和表示學習作品的結構化視角。
未來方向:我們確定了這一領域進一步發展的關鍵機會,鼓勵探索擴散模型和流匹配作為表示學習的新前沿。
本文聚焦于提示學習在圖神經網絡中的應用,旨在帶領讀者了解圖提示學習及其最新進展。
提示學習源自自然語言處理,是近年來新興起的一種方法。“預訓練,提示“的范式在將預訓練語言模型推廣到各種下游語言任務中已經取得顯著的成功。與NLP類似,在圖神經網絡領域,我們也面臨著讓預訓練的大型模型適用于不同下游任務的挑戰。在已有的工作中,“預訓練,微調”的范式的研究已經相當深入。雖然二者都是讓預訓練模型和下游任務靠的更近,并且目標都是減少標注需求,但“預訓練,微調”是讓預訓練模型“遷就“各種下游任務,而”預訓練,提示“則是讓各種下游任務來“遷就“預訓練模型。此外,微調需要對原本模型的參數進行調整,由此會帶來較大的額外開銷,而我們使用提示學習則可以在不改變原本神經網絡參數的情況下,讓已有的預訓練模型對下游任務進行高效適配。在設計圖預訓練模型時,由于節點級別,邊級別,以及圖級別的任務存在著差異,下游任務的多樣化使得我們預訓練任務和我們的下游任務存在著一定的不兼容。這些問題和挑戰進而引發了將提示學習應用在圖領域的研究熱潮。
論文鏈接://dl.acm.org/doi/abs/10.1145/3534678.3539249
動機 圖神經網絡在表示學習方面表現出了巨大的潛力,但通常需要大量標記數據進行監督訓練,這在實際應用中成本高昂。為了解決標記數據不足的問題,提出了利用遷移學習的方法,在圖領域中先利用前提任務進行預訓練,然后微調以適應下游任務,從而節省標記數據的成本。雖然近年來自監督前提任務的設計和通用圖知識的編碼變得流行,但它們很少關注前提任務與下游任務之間的訓練目標差距。預訓練目標和下游任務的差距通常需要昂貴的微調來適應下游問題,限制了預訓練知識的高效利用,導致性能不佳。而過于簡單的預訓練策略可能會降低下游任務的性能,會損害圖數據中遷移學習的可靠性。為了彌合任務差距,作者提出了一種新的轉移學習范式,即圖預訓練和提示調整(GPPT)。
主要貢獻
為了解決圖神經網絡在監督訓練中的訓練目標差距問題,作者引入了GPPT ( Graph Pre-training and Prompt Tuning) 范式,提高了圖神經網絡的性能和效率。
作者提出了一種圖提示函數,將獨立的節點轉化為令牌對,通過任務令牌和結構令牌的組合重新將下游節點分類轉化成了鏈接預測問題。這個設計有助于縮小預訓練和下游任務之間的訓練目標差距。
通過在八個基準數據集和兩個下游應用上進行廣泛的實驗,文章得出了結論,表明GPPT在各種訓練策略中表現最佳,包括監督學習、聯合訓練和傳統的遷移學習。在少樣本圖分析問題中,GPPT平均提高了4.29%的性能,并將微調時間成本節省了4.32倍。
方法
本文通過圖提示函數生成一系列待分類的令牌對,將下游原本的節點分類任務轉化成了和預訓練前提任務類似的鏈接預測任務。具體地,結構令牌可以被理解成通過注意力模塊對每個節點的鄰域信息進行聚合后,獲得的該節點的表示。任務令牌則是用于分類的標簽,本文通過可擴展的聚類模塊對輸入的圖數據進行聚類運算,從而獲得每個類別對應的任務令牌。任務令牌可以被理解為添加到原始圖中的類原型為偽節點。通過查詢每個類原型節點生成令牌對,然后進行令牌對的相似度計算,便能夠將圖節點分類任務轉化為圖鏈接預測任務,從而彌合了前提任務和下游任務的差距。根據預訓練的訓練目標,該工作優化以下損失來優化提示: 表示標簽類別????和目標節點????之間的真實連接。如果節點屬于類別,則;否則為零。因此,該損失與預訓練任務具有相同的訓練目標(即鏈接預測),從而彌合了優化目標差距。接下來,介紹如何設計適用于圖數據的任務令牌和結構令牌。
任務令牌生成:受自然語言處理中的連續令牌表示啟發,任務令牌 被嵌入到可訓練的向量中:。對于下游節點分類中的總共 類別,任務令牌的嵌入定義如下:。任務令牌可以被理解為添加到原始圖中的類別原型節點,其中節點分類是通過查詢每個類別原型節點來執行的。任務令牌 的最佳嵌入應位于類別 的節點嵌入的中心。
現有的基于提示的學習方法通常設計了所有訓練樣本共享的通用令牌 。然而,對于圖上的不同節點來說,使用和調整單一任務令牌嵌入 將會很困難。在現實世界的網絡中,固有的圖特征之一是群集結構,每個節點都屬于一個群集。同一群集內的節點彼此之間有密集的連接,而與其他群集的節點之間的連接則稀疏。在給定邊緣預測預訓練任務的情況下,預訓練節點嵌入也將在嵌入空間中聚類。正如前面所解釋的,任務令牌 的最佳嵌入應該隨著群集的不同而變化。為了更好地在每個群集中執行節點分類任務,本文提出了基于群集的任務令牌生成,包括三個步驟:
結構令牌生成:與僅使用目標節點 進行下游分類不同,該工作應用結構令牌 來利用具有表現力的鄰域信息。根據社交影響理論,靠近的節點往往具有相似的特征屬性和類別模式。通過考慮積極相關的模式,人們更容易對節點進行分類,這也提供了決策的冗余信息,使其更加魯棒。結構令牌 表示以節點 為中心的子圖。在這里,利用了一階相鄰節點,最簡單的子圖,來構建 。然后,我們將結構令牌 嵌入到連續向量中,如下所示:
是用于聚合鄰域表示的權重,并通過注意力函數進行學習。這里通過目標節點的信息鄰居來定義圖提示中的結構令牌。
論文鏈接: 動機 雖然圖神經網絡已經成為圖表示學習的強大工具,在端到端的監督設置中,它們的性能很大程度上依賴于大量的任務特定監督。為了減少標記要求,"預訓練,微調" 和 "預訓練,提示" 的范式變得越來越常見。特別是,提示已經成為自然語言處理中微調的一種流行替代方法,旨在以特定于任務的方式縮小預訓練和下游目標之間的差距。然而,關于在圖上使用提示的現有研究仍然有限,缺乏一種通用的方法來適用于不同的下游任務。本文旨在提出將預訓練和下游任務整合到一個通用任務模板中,然后利用可學習的提示,以任務特定的方式輔助下游任務從預訓練模型中獲取最相關的知識。
主要貢獻
該框架先在無標注的圖上進行預訓練,如圖(a)所示;預訓練采用的是鏈接預測任務,這是自監督的,不需要額外的注釋,如圖(b)所示。然后,如圖(c)中所示,利用可學習的提示來引導每個下游任務,即將節點分類或圖分類轉化成鏈接預測任務,以便對預訓練模型進行任務特定的利用。
將子圖作為實例:統一預訓練和下游任務的關鍵在于找到一個任務的通用模板。然后,任務特定的提示可以進一步與每個下游任務的模板融合,以區分不同任務的變化特征。與其他領域(如視覺和語言處理)相比,圖學習的獨特特點在于對圖拓撲的利用。特別是,子圖是一種通用結構,能夠表示節點和圖級別的實例。一方面,在節點級別,每個節點位于一個本地鄰域中,這反過來為節點提供了上下文信息。
節點在圖上的本地鄰域通常由上下文子定義,其中其節點和邊的集合分別由以下方式給出: 其中給出了圖上節點和之間的最短距離,是一個預先確定的閾值。換句話說,由距離節點不超過跳的節點和這些節點之間的邊組成。因此,上下文子圖不僅包含節點的自身信息,還包含豐富的上下文信息,以補充自身信息。另一方面,對于圖級別來說,圖的最大子圖,記為,就是圖本身,即。最大子圖則包含了圖的所有信息。總之,子圖可以用來表示節點和圖級別的實例:給定一個實例,它可以是一個節點或一個圖(例如,或),而子圖提供了統一的訪問與相關的信息的方式。
統一的任務模板:基于上述對節點和圖級別實例的子圖定義,該工作統一了不同的任務形式,以遵循一個共同的模板。具體來說,預訓練中的鏈接預測任務和下游節點和圖分類任務都可以重新定義為子圖相似性學習。設是子圖的向量表示,是余弦相似性函數。如圖(b)和(c)所示,這三個任務可以映射到子圖相似性的計算,其形式化如下。
直觀地說,節點的上下文子圖應該與與連接的節點的上下文子圖更相似,而與另一個未連接的節點的上下文子圖更不相似。
請注意,類原型子圖是一個在與節點上下文子圖相同的嵌入空間中具有潛在表示的"虛擬"子圖。實際上它是給定類中帶標簽節點的上下文子圖的平均表示。然后,對于不在帶標簽集中的節點,其類標簽應為: 直觀地說,一個節點應該屬于其上下文子圖與類原型子圖最相似的類。
然后,對于不在帶標簽集中的圖,其類標簽應為: 值得注意的是,節點和圖分類可以進一步壓縮為一組相同的符號。設是一個帶標注的圖數據實例,即可以是節點或圖, 是 在類別集合 中的類別標簽。那么, 可以表示為: 最后,為了實現通用任務模板,給定由GNN生成的節點表示 ,計算 的標準方法是使用一個READOUT操作,該操作聚合子圖中節點的表示。即,
提示函數設計: 形式上,讓 表示下游任務 的可學習提示向量,如圖(c)所示。用于下游任務 的提示輔助 READOUT 操作在子圖 上的表示為: 其中是任務特定的子圖表示,表示逐元素相乘。也就是說,我們對子圖中的節點表示進行特征加權求和,其中提示向量是一種維度上的重新加權,以提取任務的最相關的先驗知識。 考慮一個帶有標簽的訓練集 的任務 ,其中 是一個實例(即節點或圖), 是類別集合 中 的類別標簽。整體提示調整的損失定義為:
論文鏈接:
“預訓練,微調”已經成為許多圖任務的標準工作流程,因為它可以利用通用的圖知識來彌補每個應用中缺乏圖標注的問題。然而,節點級別、邊級別和圖級別的圖任務迥然不同,使得預訓練的前提常常與這些多個任務不兼容。這種差距甚至可能對特定應用造成“負遷移”,導致結果不佳。受自然語言處理(NLP)中提示學習的啟發,該工作旨在填補預訓練模型與各種圖任務之間的差距,提出了一種新穎的用于圖模型的多任務提示方法。
貢獻
**重構下游任務:**具體而言,該工作通過分別為節點和邊構建誘導圖,將節點級和邊級任務重構為圖級任務。如下圖a所示,目標節點的誘導圖指的是網絡中在距離??內的其局部區域,也被稱為其 ??-鄰域網絡。這個子圖通過相鄰節點的連接保留了節點的局部結構,通過相鄰節點的特征保留了其語義上下文,這是大多數圖神經編碼器的主要關注范圍。當該工作將目標節點的標簽視為此誘導圖的標簽時,該工作可以輕松將節點分類問題轉化為圖分類問題;同樣,該工作在下圖b中為一對節點呈現了一個誘導圖。在這里,如果有一條連接它們的邊,則可以將這對節點視為正邊,否則視為負邊。通過將這對節點擴展到它們的 ?? 距離鄰居,可以輕松構建此子圖。該工作可以通過將目標節點對的邊標簽分配為圖標簽來重新制定邊級任務。對于無權圖,?? 距離等于 ?? 跳長度;對于帶權圖,??距離是指最短路徑距離,誘導圖可以通過許多高效的算法輕松找到。
提示圖的設計: 提示令牌(Prompt Tokens):假設一個圖實例為 ,其中 是包含個節點的節點集合;每個節點都有一個特征向量,用表示,其中是節點的特征向量; 是邊集合,其中每條邊連接了節點集合中的一對節點。通過前面的討論,這里將提示圖表示為,其中 表示提示令牌的集合,是令牌的數量。每個令牌都可以用一個與輸入圖中節點特征相同大小的令牌向量表示。使用這些令牌向量,可以通過將第 個令牌添加到圖節點 (例如,)來重新構建輸入圖。然后,我們將輸入特征替換為提示特征,并將其喂給預訓練模型進行進一步處理。 令牌結構(Token Structures): 是由令牌之間的成對關系表示的令牌結構。與NLP提示不同,提示圖中的令牌結構通常是隱式的。為了解決這個問題,我們提出了三種方法來設計提示令牌結構:
其中 是一個可調參數,表示令牌 和令牌 之間應該連接的可能性; 1. 第二種方法是使用每對提示令牌的點積,然后根據點積值對它們進行修剪。在這種情況下, 當且僅當 ,其中 是Sigmoid函數, 是預定義的閾值; 1. 第三種方法是將令牌視為獨立的,然后有 。
插入模式:設 是插入函數,表示如何將提示圖 添加到輸入圖中,然后可以將操作后的圖表示為 。我們可以定義插入模式為提示令牌和輸入圖節點之間的點積,然后使用定制的連接方式,例如 ,其中 是一個加權值,用于修剪不必要的連接: 作為另一種替代和特殊情況,我們還可以使用更簡化的方式來獲得 。 通過元學習進行多任務提示: 構建元提示任務:設是第個任務,具有支持數據 和查詢數據 ;具體而言,對于圖分類任務, 和 包含有標簽的圖;對于節點分類任務,我們生成了每個節點的誘導圖,如第3.2.3節所述,將圖標簽與目標節點標簽對齊,并將此圖視為 或 中的成員;對于邊分類任務,我們首先生成用于訓練和測試的邊誘導圖,邊的標簽與其兩個端點有關。 將元學習應用于圖提示:設是提示參數,是預訓練圖骨干的固定參數,是任務參數。我們使用 表示具有提示圖、預訓練模型(,固定)和下游任務處理器的流水線。設是流水線在數據上的任務損失。然后對于每個任務,相應的參數可以更新如下: 其中初始化設置為:,。目標是學習元提示任務的有效初始化設置,可以通過在各種任務上最小化元損失來實現: 其中 是任務集。根據鏈式法則,使用二階梯度來基于查詢數據更新(或): 整體學習過程:為了提高學習的穩定性,我們將這些任務組織成多任務的episode,其中每個episode包含批量任務,包括節點分類(簡稱為“”)、邊分類(簡稱為“”)和圖分類(簡稱為“”)。設 是一個多任務episode。我們定義任務批次 ,其中每個子集 ;損失函數集 ,支持數據 ,其中每個子集 ,以及查詢數據 ,其中 。然后,多任務提示的算法如下算法流程所示。將每個節點/邊/圖類別視為二進制分類任務,以便它們可以共享相同的任務頭。
下面介紹我們實驗室被KDD 2023錄用的,同樣是將提示學習應用于圖神經網絡的文章:
論文鏈接: 動機 在機器學習中,用于在測試時從大量分布內(ID)樣本中識別出分布外(OOD)樣本的OOD檢測,已經成為了一個關鍵問題。然而,現有的研究大多是在歐氏數據上進行的,而在圖結構數據中的問題仍然未被充分研究。最近的一些研究開始研究圖OOD檢測,但它們都需要從頭開始訓練一個圖神經網絡(GNN),計算成本較高。在本工作中,我們首次嘗試賦予一個已經訓練好的GNN檢測分布外數據的能力,而不需要修改其參數。主要貢獻
由于GNN編碼器經過了充分的訓練,可以提取富有表現力的圖表示,構造函數g的一個直觀想法是保持編碼器f中的參數不變,并直接對編碼表示應用預定義的非參數評分函數。形式上,我們可以把函數g(·)寫成: 為OOD檢測自適應生成放大器: 我們創新地在AAGOD框架中為函數g引入額外的可學習參數,以獲得更好的圖OOD檢測性能,而不是像上面的樸素解決方案那樣構建無參數函數g。我們將首先介紹如何參數化函數g,然后設計一個新穎的放大器生成器和一個有效的參數訓練學習策略。 整體框架
我們的AAGOD的核心是設計一個具有可學習的參數的函數g,通過訓練來擴大ID圖和OOD圖之間的分數差距。具體來說,我們將一個矩陣(放大器)疊加在原始輸入圖的鄰接矩陣上,期望能突出有利于OOD檢測的關鍵子結構,從而使得ID圖和OOD圖更容易區分。這個放大器與提示調整技術共享相似的原理,希望通過數據中心的操作來適應下游任務。然而,找到合適的放大器矩陣并非易事,因為圖結構數據具有任意數量的無序節點,我們也缺乏未見過的OOD圖的信息來直接優化g。因此,我們創新地設計了一個可學習的放大器生成器 (LAG),用來自適應地生成特定于圖的放大器,并進一步提出了一種正則化學習策略 (RLS),以優化并學習參數。我們提出的AAGOD的整體框架如下圖所示:
可學習的放大器生成器
為了處理具有不同大小和無序節點的圖,我們在這項工作中讓放大器專注于為原始圖的邊生成權重。此外,基于擁有相似的拓撲結構和節點特征的圖應有相似的ID模式的假設,LAG根據來自訓練良好的GNN的原始圖編碼表示自適應地生成特定于圖的放大器。這樣,可以重復使用在訓練良好的圖編碼器中的知識,LAG可以為具有不同拓撲結構的圖定制放大器。注意,訓練良好的GNN的輸出節點表示不僅編碼了節點特性,還編碼了本地拓撲信息。因此,我們重新使用訓練良好的GNN的節點表示,而不是原始特征,來發現ID圖的潛在模式并生成放大器。形式上,我們利用下式計算放大器矩陣: 在這項工作中,我們使用多層感知機(MLP)生成放大器的元素。雖然可能有其他替代方案來產生放大器,但我們盡可能多地重用訓練良好的GNN,并引入少量可學習的參數,以實現高效的圖OOD檢測。 正則化學習策略
為了在沒有OOD數據的情況下訓練LAG中的參數,我們提出了一種有效的正則化學習策略,它鼓勵具有ID模式的放大圖獲得更高的分數,同時規范LAG避免所有放大圖都獲得高分。這樣,我們可以確保導致高分的關鍵因素,即ID模式,只存在于ID圖中,而不是放大器中。因此,對于放大的OOD圖,得分將保持低位。形式上,我們通過要求ID圖的分數更高來設計ID數據的學習目標: 相反,OOD圖的學習策略如下: 此外,我們還增加了一個正則化項來防止過擬合。最后,總體學習目標可以寫成如下:
以上就是本期所有關于最新提示學習在圖神經網絡中的應用的介紹。本期責任編輯:楊成本期編輯:劉佳瑋
圖神經網絡(GNN)已經在廣泛的應用領域取得了良好的效果。大多數對GNN的實證研究都直接將觀察到的圖作為輸入,假設觀察到的結構完美地描述了節點之間準確完整的關系。然而,現實世界中的圖不可避免地是嘈雜的或不完整的,這甚至會惡化圖表示的質量。本文從信息論的角度提出了一種新的變分信息瓶頸引導的圖結構學習框架VIB-GSL。VIB-GSL提出了圖結構學習的信息瓶頸(Information Bottleneck, IB)原則,為挖掘底層任務相關關系提供了一個更優雅和通用的框架。VIB-GSL學習了一種信息豐富的壓縮圖結構,為特定的下游任務提取可操作的信息。VIB-GSL對不規則圖數據進行變分逼近,形成易處理的IB目標函數,有利于訓練的穩定性。大量的實驗結果表明,VIB-GSL具有良好的有效性和魯棒性。
摘要
遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。
引言
遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。
概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。
與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。
本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。
論文題目:Scalable Graph Neural Networks via Bidirectional Propagation
論文概述:圖神經網絡(GNN)是一個新興的非歐氏數據學習領域。近年來,人們對設計可擴展到大型圖形的GNN越來越感興趣。大多數現有的方法使用“圖采樣”或“分層采樣”技術來減少訓練時間;但是,這些方法在應用于具有數十億條邊的圖時仍然無法提供可靠的性能。在本文中,我們提出了一種可伸縮的圖神經網絡GBP,同時從特征向量和訓練/測試節點進行雙向消息傳播,為每個表示生成一個無偏估計量。每個傳播都是以局部方式執行的,從而實現了亞線性時間復雜性。廣泛的實驗證明,GBP達到了state-of-the-art性能同時顯著減少訓練和推理時間。在單臺機器上,GBP能夠在不到2000秒的時間內,在一個擁有超過6000萬個節點和18億條邊的圖形上提供優異的性能
//www.zhuanzhi.ai/paper/bf70cf78aa20bcfce7a1f6d36c8e080a