圖相關應用在學術界和工業界都有著顯著的增長,這主要是因為圖具有強大的表示能力。然而,高效地執行這些應用面臨多種挑戰,如負載不平衡、隨機內存訪問等。為解決這些挑戰,研究人員提出了各種加速系統,包括軟件框架和硬件加速器,所有這些系統都包含圖預處理(GPP)的步驟。GPP作為應用正式執行之前的準備步驟,涉及到諸如采樣、重新排序等技術。然而,GPP的執行常常被忽視,因為主要的關注點通常是增強圖應用本身。這種疏忽令人擔憂,特別是考慮到實際圖數據的爆炸性增長,其中GPP變得至關重要,甚至占據了系統運行開銷的主導地位。
此外,由于高度定制,GPP方法在不同設備和應用中表現出顯著的差異。不幸的是,還沒有全面的工作系統地總結了GPP。為了解決這一缺口,并促進對GPP更好的理解,我們呈現了一個專門針對這一領域的全面調查。我們提出了一個雙層GPP分類法,同時考慮到算法和硬件的視角。通過列出相關的工作,我們闡述了我們的分類法,并對不同的GPP技術進行。
//www.zhuanzhi.ai/paper/13520de2fddf1159cd8a72d80bc67e6d
圖處理應用因其從圖數據中提供有價值洞見的能力而受到了顯著關注。在各種實際應用場景中,數據可以使用圖結構進行有效表示,其中社交網絡是一個典型例子[103]。例如,圖1(a)描述了Facebook社交網絡的圖抽象。有兩種最廣泛使用的圖處理應用類型:傳統圖計算(TGC),包括廣度優先搜索(BFS)、頁面排名(PR)等算法;以及圖神經網絡(GNN),如圖卷積網絡(GCN)和圖注意力網絡(GAT)。這些圖處理算法在多種場景中得到了廣泛應用,包括社交網絡推薦[130]、知識圖分析[79]、蛋白質預測[37]、視覺推理[117]等。為了應對圖數據規模的指數級增長,這些算法日益受到歡迎,并廣泛部署在各種數據中心,如谷歌地圖[28]、微軟學術圖[46]、阿里巴巴電商平臺[112]、百度地圖[31]等。
圖處理算法的執行面臨著幾個挑戰,人們已經做出了許多努力來緩解這些問題。首先,在TGC算法中,執行行為,包括資源利用率和操作順序等因素,往往表現出不規則性。這些不規則性源于圖的不規則拓撲,導致不規則的工作負載、內存訪問和通信[13]。為了解決這些挑戰,提出了各種基于通用硬件平臺(CPU & GPU)的框架,如GraphChi [55]和CuSha [54]。此外,還開發了定制的架構以進一步加速,如基于ASIC(Application-Specific Integrated Circuit)的Graphicionado [42],基于FPGA(Field Programmable Gate Array)的ForeGraph [25],以及基于PIM(Processing-In-Memory)的GraphR [89]。其次,GNN算法表現出不規則和規則執行行為的結合[107, 110],因為增加了神經網絡(NNs)來轉換每個頂點的高維特征向量。為了解決GNN中的正則和不規則特性,已經提出了幾個專用的加速平臺,如基于ASIC的HyGCN[108]和基于FPGA的GraphACT[118]。
圖處理的執行嚴重依賴于一個關鍵操作——圖預處理(GPP)。例如,GraphChi [55]、Graphicionado [42]、GraphDynS [109]、FPGP [24]和HyGCN [108]利用重組技術將圖數據預分割為多個分片,以實現連續的內存訪問并提高性能。在Pregel [74]、GraphLab [70]、DistDGL [132]和PaGraph [63]等并行圖處理系統中,通過預先進行圖劃分,將大規模的圖數據劃分為多個子圖,并將其分配給多個處理器/機器,實現負載均衡并最小化通信開銷。為了促進GNN的并行高效訓練,PaGraph [63]和DistDGL [132]使用采樣技術創建小批量。GraphACT [118]和GCNInfer [120]預先合并共同鄰居,以減少后續的冗余操作。因此,GPP對于高效執行圖處理算法至關重要,有利于廣泛的圖處理系統,包括單機圖處理框架、分布式圖處理框架、圖處理加速器等。為了提供清晰性,我們將一個典型的圖處理系統抽象為兩個主要步驟:圖預處理(GPP)和圖形式處理(GFP),如圖2所示。在GPP步驟中,對原始圖數據進行各種操作,以準備輸入數據集,以便后續執行圖處理算法。在GFP步驟中,計算單元加載預處理的數據,并執行圖處理算法以獲得最終結果。值得注意的是,GPP方法的選擇取決于原始圖數據集的特征以及執行平臺。例如,在并行系統中,使用分區來管理大規模圖數據,如使用CPU集群的DistDGL [132]和使用多GPU的PaGraph [63]。GraphACT [118]使用重構方法來減少FPGA上的冗余計算,從而實現高性能和能效。總體而言,GPP提供了兩個主要好處:a)減少計算、存儲和通信開銷;b)滿足各種算法在資源有限的設備上的執行需求。
不幸的是,由于圖數據的爆炸性增長,GPP開銷變得越來越重要。接下來,我們給出以下示例,通過數值比較來可視化GPP的重要性。在Graph500比賽1中,百億級超級計算機Fugaku[81]展示了390秒的高GPP時間(C_TIME),與0.25秒的BFS執行時間相比,這是一個驚人的1560×。在Gorder [102]中,在一個大型Twitter數據集上進行圖重排需要1.5小時,而PageRank僅在13.65分鐘內完成了100次迭代。因此,如果輸入圖不經常重用,對于大型數據集來說,大量的GPP時間可能不是一個值得的投資。同樣,在Graphite [38]中,當執行GraphSAGE時,采樣時間占總訓練時間的80%以上。這些示例突出了減少GPP開銷以提高圖處理系統的整體執行效率的重要性。基于上述分析,出現了兩個重要結論,突顯了GPP調查的迫切需求。首先,GPP對于高效的圖處理至關重要。其次,GPP開銷變得越來越顯著和不可忽視,因此有必要降低GPP開銷。因此,GPP領域具有巨大的潛力,需要進行更深入的研究,以充分探索GPP提供的優化可能性。然而,盡管有一些研究分析了單個GPP方法[2, 3, 21, 66],但缺乏對整個領域的GPP技術的全面綜述。這一差距阻礙了對通過GPP實現的潛在優化的全面理解。在表1中,我們列出了圖處理領域相關調查的列表,這些調查涉及GPP方法。一些調查既探討了TGC加速技術,也探討了GNN加速技術,其中一些涉及GPP方法。例如,對基于GPU和FPGA的TGC的調查[11, 88]涉及處理大型圖的劃分技術。其他工作[40, 45, 76, 83]分析了分布式系統和基于內存的圖處理系統的靜態和動態圖劃分。最近的調查[1, 16, 59, 62, 67, 86, 87, 97, 127]廣泛地涵蓋了GNN加速,并描述了GPP步驟在GNN執行中的意義。然而,這些調查仍然集中在分析GFP步驟的優化上,而GPP并不是他們的主要關注點。
為了充分利用GPP在圖處理中的潛力,進行硬件和算法優化至關重要。然而,GPP中的硬件加速和算法優化之間存在差距。現有研究主要集中在GFP的硬件加速上,對GPP的關注有限,或者可能只在算法層面分析單個GPP技術。本文主要旨在通過提供系統和全面的GPP方法總結和分析來彌補這一差距,包括算法和硬件兩個方面。我們很榮幸地提出了GPP方法的全面概述,旨在為GPP的進步做出貢獻,并為該領域的進一步研究提供參考。我們的工作可能為GPP執行和圖處理加速的未來優化提供有價值的見解。我們的貢獻如下:綜述:我們回顧了與圖處理執行相關的挑戰,考慮了計算、存儲和通信方面的問題。我們通過相關示例強調了GPP對優化執行的重要意義。分類:我們對現有的GPP方法進行分類,并從算法和硬件的角度提出了一個雙層分類。算法類別包括圖表示優化和數據表示優化。硬件類別包括高效計算、存儲和通信。分析:根據提出的分類,我們對現有的GPP方法進行了詳細介紹。具體而言,我們從算法和硬件的角度列舉和分析了相關工作。比較:我們綜合考慮算法和硬件方面,對現有的GPP方法進行了全面的總結和比較,以便更好地了解它們的優勢和劣勢。討論:我們討論了與GPP相關的挑戰,如高開銷、準確性損失等。最后,我們概述了未來探索的潛在研究方向。
本文的其余部分組織如下:第2節提供了GPP的初步信息,涵蓋了圖概念和算法。第3節探討了圖處理的執行挑戰,并展示了GPP如何解決這些挑戰。第4節提出了基于算法優化因素和硬件優化效果的雙層GPP分類。第5節和第6節分別從算法和硬件角度舉例分析了GPP方法。第7節提供了全面的總結和比較。第8節討論了普遍存在的GPP瓶頸和潛在的研究方向。最后,第9節總結了我們的工作。
2 圖預處理:解決圖處理中的挑戰
在本節中,我們將探索圖處理執行中的硬件級挑戰。通過探索這些挑戰,強調了GPP方法在提高圖處理性能方面的關鍵作用。我們從圖特征概述開始,詳細介紹了出現的不同執行行為。分析了來自這些行為的挑戰,強調了GPP在解決這些問題以實現高效圖處理方面的重要性。
圖預處理:雙層決策分類法
在本節中,我們將介紹一個全面的GPP方法分類,利用一個雙層決策框架,如圖7所示。在算法層面,根據優化因子的不同,將這7種方法分為圖表示優化和數據表示優化。從硬件角度分析了GPP效應,將GPP方法分為高效計算、高效存儲和高效通信3類;這個框架增強了理解。接下來,概述分類方法并解釋分類背后的基本原理。
圖處理問題(GPP)涉及兩種類型的輸入圖數據調整:圖表示優化和數據表示優化。圖表示優化通過改變圖的拓撲結構或密度來提高圖算法的性能,而數據表示優化則調整存儲順序或壓縮數據精度。通過運用這兩種優化方法,研究人員可以探索各種GPP方法,以在算法性能和準確性之間取得平衡,從而提高圖算法執行的效率和有效性。
圖表示優化:這一組包括分區、采樣、稀疏化和重構技術。執行圖處理算法時面臨的挑戰通常源于圖結構的不規則性。這些GPP方法修改輸入圖的結構,以提高內存訪問和算法執行效率。值得注意的是,分區、采樣和稀疏化可能導致信息丟失,這可能潛在地影響準確性。相比之下,重構僅改變拓撲結構,而不影響算法的最終結果。
數據表示優化:這一組包括量化、重新排序和重新組織技術。與圖表示優化方法不同,這些技術不改變圖的拓撲結構,而是專注于調整數據存儲。然而,量化降低了數據的精度,引入了準確性和執行效率之間的權衡。另一方面,重新排序和重新組織主要調整數據訪問模式,以提高性能,而不影響算法的最終結果。
考慮到第三節中突出的挑戰和優化目標,圖處理問題(GPP)在三個方面提供了優化圖算法執行的機會:高效計算、高效存儲和高效通信。通過有效管理計算負載,優化圖處理系統的性能和資源利用率。
高效計算:從兩個角度來提高計算效率:負載均衡和計算減少。首先,負載均衡確保了計算工作在資源之間均勻分布,最大化它們的利用率,避免過載計算資源。其目標是有效利用可用的計算單元,從而提高性能。其次,通過最小化計算量(包括減少冗余計算和數據量)可以減少計算開銷。用于高效計算的GPP方法包括分區、采樣、稀疏化、重構、量化和重新排序。
高效存儲:可以通過減少容量需求和減少數據移動來實現。首先,為了減少容量需求,需要減少片上緩沖的數據量,從而減少I/O開銷。一個有效的方法是減少總體數據量。其次,最小化數據移動可以顯著提高內存訪問帶寬的利用率。通過有效管理存儲資源并優化數據移動,存儲效率可以得到提高,從而提高整體性能和資源利用率。用于高效存儲的GPP方法包括采樣、重構、量化、重新排序和重新組織。
高效通信:可以通過減少通信頻率或延遲來實現。首先,通過減少通信頻率,可以最小化計算組件的同步開銷,包括單臺機器中的處理器和分布式系統中的計算節點。提高數據局部性是一種減少組件之間數據交換需求的有用方法。其次,減少通信延遲意味著充分利用通信帶寬。一種有效的方法是減少不規則和冗余的通信請求。用于高效通信的GPP方法包括分區、采樣、量化和重新排序。
深度生成模型旨在復制給定的數據分布以產生新的樣本,在近年來取得了前所未有的進步。他們的技術突破使得在視覺內容的合成上實現了無與倫比的質量。然而,他們巨大成功的一個關鍵先決條件是有足夠數量的訓練樣本,這需要大量的計算資源。當在有限的數據上進行訓練時,生成模型往往會因過度擬合和記憶化而導致嚴重的性能下降。
**因此,研究人員近來花費了大量的精力來開發能夠從有限的訓練數據生成合理且多樣化圖像的新型模型 **。盡管在有限數據情況下提高訓練穩定性和合成質量的努力眾多,但仍缺乏一個系統的調查,該調查提供1)清晰的問題定義、關鍵挑戰和各種任務的分類;2)對現有文獻的優點、缺點和剩余限制的深入分析;以及3)對有限數據下圖像合成領域的潛在應用和未來方向的深入討論。
為了填補這個空白,并為新入門這個主題的研究人員提供一個信息豐富的介紹,這個調查提供了一個全面的審查和一個關于有限數據下圖像合成發展的新的分類。特別是,它全面而全方位地涵蓋了問題的定義、要求、主要解決方案、流行的基準和剩余的挑戰。我們希望這個調查能為研究人員和實踐者提供一個信息豐富的概覽和一個寶貴的資源,并推動這個重要主題的進一步進步和創新。除了相關的參考文獻,我們的目標是不斷維護一個最新的存儲庫,以在GitHub/awesome-few-shot-generation上追蹤這個主題的最新進展。
1. 引言
深度生成模型已經取得了巨大的發展,并已經被應用于廣泛的智能創造任務,特別是在圖像和視頻合成[1],[2],[3],[4],[5],[6],[7],[8],[9],音頻和語音合成[10],[11],[12],[13],[14],[15],多模式生成[16],[17],[18]等方面。他們的技術突破也直接方便了我們日常生活的許多方面,包括各種表示形式(例如,3D/2D表示)的內容創建[19],[20],[21],[22],定制生成和編輯[23],[24],[25],[26],[27],以及藝術合成/操作[28],[29],[30],[31]。盡管取得了這些顯著的進步,但大多數現有的生成模型需要大量的數據和計算資源進行訓練。例如,最常用的數據集,人臉FFHQ [2],[32](70K),戶外/室內場景LSUN [33](1M),和對象ImageNet [34](1M),都包含足夠的訓練樣本。這樣的先決條件對只有有限訓練樣本的實踐者和研究者(如著名藝術家的繪畫和稀有疾病的醫療圖像)構成了重大挑戰。因此,有越來越多的需求要在有限的訓練數據下學習生成模型,這在近年來引起了廣泛的關注。 在有限數據下進行圖像合成的主要挑戰是模型過擬合和記憶化的風險,這可以顯著影響生成樣本的真實度和多樣性[35],[36],[37],[38],[39]。也就是說,由于過度擬合,模型可能只是復制訓練圖像,而不是生成新的圖像,從而導致合成質量下降。例如,當在有限數據下訓練生成對抗網絡(GANs)[40]時,判別器容易記住訓練圖像,從而對生成器提供無意義的指導,導致不利的合成。為了解決這些限制,許多研究工作已經開發出來,以改善在少數情況下的合成質量[35],[36],[37],[41],[42]。這些工作提出了各種策略,從不同的角度來減輕過擬合和記憶化的風險,如數據增強、正則化和新的架構。
盡管在有限數據下的圖像合成領域已經取得了顯著的進步,但該領域缺乏統一的問題定義和分類。例如,少樣本圖像生成在[41],[43],[44],[45]中被定義為給定一個類別的少量圖像,生成這個未見過的類別的多樣化和逼真的圖像,而在[46],[47],[48],[49],[50]中,少樣本圖像生成指的是將大規模和多樣化的源域的先驗知識適應到一個小的目標域。然而,他們在問題需求、模型訓練和測試設置上有顯著的不同。這種不一致的定義可能會導致不熟悉這些工作的讀者產生歧義和誤解。因此,一個全面的問題定義和分類對于更清晰地理解這個領域是至關重要的。此外,考慮到系統性調查的缺乏和有限數據生成的興趣增加,我們認為有必要組織一個調查,以幫助社區追蹤其發展。為此,本文首先為少樣本范式中的各種任務提供了一個清晰的問題定義,并將它們分為四類:數據高效生成模型(第4節),少樣本生成適應(第5節),少樣本圖像生成(第6節),和單樣本圖像合成(第7節)。然后,本文對該領域的先前研究進行了全面的概述。特別是,現有替代方案的技術演變、優點和缺點都有所呈現。另外,我們介紹了幾個相關的應用,并突出了需要未來工作進一步研究的開放問題(第8節)。總的來說,這項調查旨在為新入門該領域的學者提供有限數據下圖像合成的全面和系統的理解。我們希望我們的工作能為那些愿意僅用數十張訓練圖像開發自己的生成模型的研究者提供一種指導。本調查的貢獻總結如下:
? 清晰的問題定義和分類。本調查為有限數據下的圖像合成中的各種合成任務提供了清晰且統一的問題定義。此外,本調查提出了一個系統的分類法,將這些任務劃分為四類:數據高效圖像生成、少樣本生成適應、少樣本圖像生成和單樣本圖像合成。 ? 全面性。本調查對少樣本范例中現有的最先進的生成模型進行了全面的概述。我們比較和分析了現有方法的主要技術動機、貢獻和局限性,這些可以啟發進一步改進的潛在解決方案。 ? 應用和開放的研究方向。除了技術調查外,本調查還討論了潛在的應用,并突出了需要進一步調查以改善有限數據下圖像合成的開放性研究問題。 ? 及時的最新資源庫。為了持續追蹤這個領域的快速發展,我們在GitHub/awesome-few-shotgeneration上提供了最新相關論文、代碼和數據集的策劃列表。
本綜述關注的是訓練深度生成模型在有限訓練數據下生成多樣化和合理的圖像的方法。這些方法的主要目標是通過充分利用有限訓練數據的內部信息并在數據分布范圍內生成新的樣本來減輕過擬合問題。然而,這些方法在模型輸入、訓練圖和評估方面有所不同。
因此,在這項調查中,我們的目標是1) 讓讀者對有限數據下圖像合成領域的各種問題設置有清晰的理解,2) 對先前藝術的模型概念、方法特性和應用提供深入的分析和深思熟慮的討論,以及3) 提出一些未來研究的方向,并激發出更多有趣的工作以進一步改進。特別是,根據問題定義和實驗設置,我們將現有的方法分為四類:數據高效生成模型、少樣本生成適應、少樣本圖像生成、單樣本圖像生成。需要注意的是,所有這些類別都旨在生成與數據分布相對應的逼真和多樣化的圖像。這與少樣本學習中的生成建模形成鮮明對比,后者顯式地估計概率分布以計算給定樣本的類標簽[51],[52]。關于少樣本學習的進展,我們建議讀者參閱[53],[54]以獲取更全面的評述。
在這次調查中,我們的目標是提供關于有限數據下圖像合成的各種任務的清晰理解。為了實現這個目標,我們提出了每個任務的定義和表述,考慮到每個問題背后的訓練范式和任務特定的需求。我們已經構建了四個獨立的問題,即數據高效生成模型、少樣本生成適應、少樣本圖像生成和單樣本圖像生成。為了更好地說明這些問題,我們考慮了深度生成模型家族中的一個代表性類別,即生成對抗網絡(GANs),來描繪這些問題的訓練流程(見圖1)。需要注意的是,所呈現的流程并不是為了代表每個任務中使用的所有方法,而是作為一個示例。此外,我們在表1中總結了每個任務的定義、模型需求和主要挑戰。詳細的方法設計和分類分別在相應的部分進行了介紹。
視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里,基于深度學習的方法在這個領域取得了顯著進展。最近,一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer,在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說,視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述,總結了近期的進展。我們首先回顧背景,包括問題定義、數據集和先前的卷積方法。接下來,我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構,我們檢查各種方法設計,包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置,包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外,我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后,我們確定了這個領域的開放性挑戰,并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題,涉及到諸多實際應用,如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始,分割問題已經得到了大量的研究關注。在過去的十年里,深度神經網絡,如卷積神經網絡(CNNs)[6]、[7]、[8],例如全卷積網絡(FCNs)[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功,并帶來了更好的結果。與傳統分割方法相比,基于CNN的方法具有更好的泛化能力。由于它們的卓越性能,CNN和FCN架構一直是分割研究工作的基本組成部分。
最近,隨著自然語言處理(NLP)的成功,變換器(Transformer)[13]被引入作為循環神經網絡(RNNs)[14]的替代品。Transformer包含一個新穎的自注意力設計,并可以并行處理各種標記。然后,基于Transformer設計,BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能,加速了變換器進入視覺領域的發展。最近,研究人員將變換器應用于計算機視覺(CV)任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時,一些工作[19]、[20]使用純自注意力層替換卷積層。之后,兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer(ViT)[21],它是一種純粹的Transformer,直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer(DETR)[22],它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計,簡化了檢測和分割的流程。然后,隨后的工作在各種視覺任務上采用改進的設計,包括表示學習[23]、[24],對象檢測[25],分割[26],低級圖像處理[27],視頻理解[28],3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面,最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比,大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起,有關視覺變換器的調查有很多[31]、[32]、[33]。然而,其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時,還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而,在我們所知范圍內,尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信,總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中,我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始,然后轉向基于Transformer的方法,涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是,對于主要的綜述部分,我們首先在第3.1節中將現有方法的核心框架總結為一個元架構,這是DETR的擴展。通過改變元架構的組件,我們將現有方法分為六類,包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外,我們還研究了密切相關的具體設置,包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外,還提供了以前基于CNN的模型和其他領域的相關文獻的概述,如目標檢測,目標跟蹤,以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務,包括語義分割、實例分割、全景分割及其變體,如視頻和點云分割。此外,我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法,只回顧了一些與cnn密切相關的方法,以供參考。雖然有很多預印本或已出版的作品,但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說,圖1顯示了我們調查的流程。在第2節中,首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后,回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后,我們在第六節提出了未來的研究方向,并在第七節總結了本文的研究。2. 方法綜述****在本節中,基于類似DETR的元架構,回顧了基于transformer的分割的關鍵技術。如圖3所示,元架構包含一個特征提取器、對象查詢和transformer解碼器。然后,以元體系結構為主線,綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后,在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。
在本節中,我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術,而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。
2.1 強表征
學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例,SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果,沒有花哨的東西。在vit之后,研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。
2.2 解碼器中的交互設計
本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域,用于VOD、VIS和VPS,重點是建模時間一致性和關聯。
3 優化對象查詢
與Faster-RCNN[111]相比,DETR[22]需要更長的收斂時間。由于對象查詢的重要作用,已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法,將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索,以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。
使用查詢進行關聯
得益于查詢表示的簡單性,最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯,另一種用于任務級關聯。前者采用實例判別的思想,解決視頻中的實例匹配問題,如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。
條件返回查詢融合
除了使用對象查詢進行多任務預測外,一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢,解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源,將這些工作分為兩方面:語言特征和圖像特征
4 相關的領域
在本節中,我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。
點云分割
包括語義級點云分割,實例級點云分割
調優基礎模型
我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法,使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識,并設計更好的方法來適應下游設置。對于開放詞匯表學習,核心思想是將預訓練的VLM特征與當前檢測器對齊,以實現新的類別分類。
領域感知分割
領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下,將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置,包括語義分割和目標檢測。在vit之前,之前的工作[291],[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干,并提出了三種訓練策略,包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果,是UDA分割的強大基線。然后,HRDA[293]通過多分辨率訓練方法改進了DAFormer,并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發,MIC[294]提出了掩碼圖像一致性,以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊,在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反,它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是,通過引入領域查詢來實現對齊,并在解碼器上執行領域分類。同時,DA-DETR[295]提出了一種混合注意力模塊(HAM),其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。
Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后,接下來的工作試圖通過各種方法來避免分類沖突。例如,Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法,LMSeg[252]使用可學習標記[268]擴展了這種嵌入,并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時,也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是,Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同,它基于公共語言嵌入來學習每個數據集的語義偏差,以避免領域鴻溝。最近,TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型,其中將Mask2Former擴展到視頻領域,并采用統一的圖像數據集預訓練和視頻微調。
標簽和模型高效分割
類無關的分割和跟蹤
醫學圖像分割
CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335],[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功,最近的代表工作[260],[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net,其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣,再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN,其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像,并設計了類似U-Net的架構。提取transformer中不同層的編碼表示,并通過跳躍連接與解碼器合并,以獲得最終的3D掩碼輸出。
5 基準測試結果
在本節中,我們報告了最近基于transformer的視覺分割,并列出了之前討論的算法的性能。對于每個審閱的領域,第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意,我們僅列出已發表的工作供參考。為簡單起見,我們排除了一些關于表示學習的工作,只介紹了特定的分割方法。關于全面的方法比較,請參閱補充資料,提供了更詳細的分析。
6 未來方向
通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26],[153],[162],[163],[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割,例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大,包括機器人導航和自動駕駛汽車。
多模態聯合學習。由于缺乏歸納偏差,transformer在處理任何模式方面都是通用的。因此,使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索,這也可能有利于相關的視覺語言任務,包括文本-圖像檢索和標題生成[343]。最近的工作[224],[344]在一個通用的transformer架構中共同學習分割和視覺語言任務,這為結合跨多模態的分割學習提供了一個方向。
終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準,即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而,現實的場景通常是開放世界和非平穩的,其中新的類別可能連續出現[249],[345]。例如,在自動駕駛汽車和醫療診斷中,可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中,使模型具有終身學習的能力。
動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入,可能難以關聯較長時間的實例。因此,新的方法必須納入長期記憶設計,并在更長的時期內考慮實例的關聯。其次,在長時間內保持分割掩碼的一致性可能是困難的,特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三,長視頻中可能會出現嚴重的遮擋,使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后,長視頻輸入往往涉及多種場景輸入,給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術,以確保模型可以處理不同的場景輸入。簡而言之,解決這些挑戰需要開發新的長視頻分割模型,該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。
生成式分割。隨著更強大的生成模型的興起,最近的工作[346],[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發,通過生成建模解決了圖像分割問題[348]。采用生成式設計,避免了transformer解碼器和對象查詢設計,使整個框架更加簡單。然而,這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。
使用視覺推理進行分割。視覺推理[349],[350]要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向,在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程,研究人員可以利用推理的力量來提高分割精度,而分割可以為視覺推理提供更好的輸入
7 結論
本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧,據我們所知,這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述,并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外,回顧了5個密切相關的領域,并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較,我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后,指出了基于transformer的視覺分割的未來研究方向。
賓夕法尼亞州立大學等學者最新《圖反事實學習》綜述,值得關注!
圖結構數據在現實世界中應用廣泛,例如社交網絡、分子圖以及交易網絡等。圖神經網絡(GNNs)在圖表示學習領域取得了顯著成功,為各種下游任務帶來了便捷。然而,GNN存在一些缺陷,如可解釋性不足、容易從訓練數據中繼承偏差,以及無法對因果關系進行建模。最近,圖反事實學習在緩解這些問題方面展現出了很好的效果。已經提出了各種圖反事實學習方法,適用于反事實公平性、可解釋性、鏈接預測等其他圖相關應用。為了推動這一有前景的研究方向,我們對圖反事實學習論文進行了分類和全面回顧。根據研究問題的不同,我們將現有方法分為四類。對于每個類別,我們都提供了背景和激勵示例、概括現有工作的通用框架,并進行了詳細回顧。本文在圖結構數據、反事實學習和現實世界應用的交叉領域指出了有希望的未來研究方向。為了為未來研究提供全面的資源視角,我們整理了一組開源實現、公共數據集和常用評估指標。本綜述旨在作為一個“一站式”資源,幫助讀者建立對圖反事實學習類別和當前資源的統一理解。我們還維護了一個論文和資源倉庫,將持續更新倉庫://github.com/TimeLovercc/Awesome-Graph-Causal-Learning。
1. 引言
圖是一種無處不在的數據結構,也是一種表示對象和復雜交互的通用語言[64]。它們可以對廣泛的現實世界系統進行建模,例如社交網絡[167]、化合物[32]、知識圖譜[226]和推薦系統[193]。例如,在社會網絡中[171],節點表示人,節點之間的邊表示人之間的社會聯系。在分子圖中,節點對應原子,邊表示原子之間的化學鍵,提供了化合物的結構表示,可用于藥物發現或材料設計等任務[130,185]。圖結構數據的普遍存在引起了研究人員對圖分析和挖掘的廣泛關注,各種方法被提出[194]。
網絡表示[60,170]是圖挖掘的一個基本任務,旨在學習節點或圖的低維向量表示,以捕獲節點或圖的內在特征和結構信息。學習到的表示可以促進各種下游任務,如節點分類[88],鏈路預測[220],社區檢測[158]和圖分類[163]。神經網絡在許多領域的表示學習中表現出了強大的能力,如計算機視覺[67]、自然語言處理[44]等。基于神經網絡的方法也激發了圖神經網絡(GNNs)的出現和繁榮[88,110,206]。自圖卷積網絡[88]被提出以來,已有各種各樣的GNN[28, 84, 89]變體。它們極大地推動了圖學習方法的發展,并在許多圖挖掘任務上取得了最先進的性能,例如節點分類[84]、鏈接預測[133]和圖分類[134]。由于圖學習方法的強大功能,它們已被成功應用于許多高風險決策場景,如藥物發現[203]、假新聞檢測[159]和金融分析[190]。
盡管現實世界帶來了巨大的好處,但最近的研究表明,現有的圖學習方法傾向于繼承有偏數據集[36]的偏置模式,缺乏可解釋性[37],無法利用圖數據中存儲的豐富信息[228]。例如,在有偏差的數據集下,GNN很容易學習到不公平的分類器,例如,根據申請人的種族或其他敏感信息給予不同的決定[46,92]。這些問題嚴重阻礙了模型的信任,限制了圖學習方法[40]在現實世界的應用。反事實學習提供了機會來減輕內在偏差[94],使模型可解釋[173],并很好地利用數據中存儲的信息[138]。反事實的概念來自因果推理的研究界[208]。反事實的目的是回答“在已知事實發生的情況下,會發生什么”。利用反事實進行學習并泛化到未見過的環境的能力,被認為是通用人工智能的一個重要組成部分。學習因果關系的主題在許多領域都得到了很好的研究,例如經濟學[73]、教育[42]和醫學[33]。要知道一個行為的因果效果,我們需要知道觀察到的行為的事實結果和未觀察到的行為的反事實結果。一個直接的方法是進行隨機對照試驗以獲得反事實的結果。然而,在現實世界的環境中,我們只能訪問觀察到的事實數據,即觀察到的行動及其相應的事實結果,這是學習因果關系的一個關鍵挑戰[62]。幸運的是,信息技術的發展提供了豐富的數據源,我們可以利用這些數據源來發現數據中隱含的信息[79]。因此,核心問題是如何從觀察數據[59]中獲取反事實,以及如何使用反事實來輔助機器學習模型[79]。
圖反事實學習是一個新興的方向,歷史很短[79]。然而,最近關于圖反事實學習的工作顯示出了巨大的潛力,可以克服上述在公平性[121]、解釋性[25]等方面的挑戰。在圖1中,我們展示了一些圖反事實學習的動機示例。具體來說,有了反事實學習,我們可以超越群體層面的公平定義,實現對每個個人的公平,就像在事實世界和反事實世界中一樣[94],其中個人屬于不同的人口統計群體。如圖1 (a)所示,反事實公平的目標是確保申請人和他的反事實對應對象(性別不同)收到相同的信用卡申請結果。對于圖反事實解釋,除了找到一個與預測高度相關的緊湊的子圖[213]外,它的目的是找到一個合理的變化,以獲得不同的結果[112],這不僅可以用來回答為什么模型會給出這樣的預測,還可以給出建議,以實現另一個期望的結果。如圖1 (b)所示,在信用卡應用場景中[173],當申請人被拒絕時,傳統的解釋可能是他們的“信用評分過低”。相反,反事實解釋可以提供可行的建議,說明客戶可以做出哪些最小的改變(例如,在交易關系中)來改變決策并最終獲得批準。除了在公平性和可解釋性方面的幫助外,研究界還利用反事實學習從反事實世界中提供額外的信息,例如,使用事實鏈接和反事實鏈接來幫助構建更強大的GNN[228]。如圖1 (c)所示,兩個朋友住在同一個小區。通過將它們放在不同的鄰域,GNNs可以推斷它們之間的反事實聯系。這使GNN能夠更深入地了解形成其關系的因果因素,同時減輕鄰域因素的影響。考慮到圖反事實學習的增長趨勢和相關前置任務的多樣性,迫切需要對圖反事實學習的方法和應用進行系統的分類總結。
為填補這一空白,本文對蓬勃發展的圖反事實學習領域進行了第一個全面的最新概述,提供了一些見解和潛在的未來方向,并創建了一個"一步停止",收集了一組開源實現、公共數據集和常用的評估指標。本文的目標讀者是想了解圖反事實學習的一般機器學習研究人員,想了解圖神經網絡最新進展的圖學習研究人員,以及想將圖反事實學習推廣到新應用或其他領域的領域專家。這項調研的核心貢獻是:
第一次調研圖反事實學習。據我們所知,本文調研是第一個回顧圖的反事實學習技術。最相關的調研是關于因果推理[62,208]和因果機器學習[79]。迄今為止,圖領域的因果學習還沒有一個專門的、全面的綜述。
全面的最新綜述。回顧了深度學習、數據挖掘、計算機視覺、自然語言處理和人工智能領域有影響的國際會議和期刊上發表的最新圖反事實學習技術,包括ICLR、NeurIPS、ICML、SIGKDD、WSDM、CIKM、WWW、ICDM、CVPR、NAACL、IJCAI、AAAI等。我們還包括其他領域的論文,如化學科學。
系統的分類和統一的框架。將現有工作系統地分為反事實公平、反事實解釋、反事實鏈接預測和推薦以及應用。對于大多數類別,提供了統一的框架,在數學上形式化每個類別中的圖反事實學習方法。該分類法的概述如圖2所示。
資源的未來方向和“一步停止”。從調研結果中,我們指出了未來有希望的重要方向。還提供了一組開源實現、公共數據集和常用的評估指標,以促進社區的發展。我們維護一個存儲庫,其中包含圖反事實學習的論文,我們將在存儲庫中不斷更新這些論文:
與相關調研文章比較。表1突出了我們的調研與相關調研論文之間的差異。大多數現有調研主要關注一般因果推斷[62,208]、反事實公平性[94]和反事實解釋[173],很少討論圖數據的研究進展。雖然其他圖域調研解決了公平性[40]和可解釋性[40,50],但它們很少從因果或反事實學習的角度總結現有工作[140]。本文的調研首次全面概述了圖反事實學習,提供了因果學習背景,回顧了公平性感知模型、可解釋模型、鏈接預測、推薦系統、現實世界的應用和有前途的研究方向的圖反事實學習技術。因此,我們的調查不同于現有的調查,可以支持這一重要的新興領域的增長。
這個調研的概述如圖2所示。第2節定義了相關的概念,并給出了將在以下各節中使用的表示法。第3節和第4節分別描述了圖數據上反事實公平性和反事實解釋的統一框架。總結了有用的資源,包括評估指標和數據集。第5節回顧了反事實鏈接預測和反事實推薦的分類。第6節調查了圖反事實學習在各個領域的實際應用。第7節指出了尚未解決的挑戰和有希望的未來方向。第8節總結了這個調研。
2 . 圖反事實公平性
在許多現實世界的應用中,由于社會或歷史因素,訓練數據可能包含人口統計學偏差。在此類數據上訓練的機器學習模型可能會繼承這些偏見并產生不公平的預測,如在信用卡決策任務中,模型可能表現出性別或種族偏見[27,121]。有偏見的預測可能會導致系統性歧視并破壞公眾對機器學習模型的信任,這導致了人們對公平性感知的機器學習的興趣越來越大[121]。Dai等人[40]強調,公平性問題在圖中更嚴重,節點特征和圖結構都可能導致偏差。由于許多現實世界的系統依賴于圖神經網絡,不公平的預測可能會產生嚴重的后果。研究人員提出了確保圖學習公平性的方法[3,36,38,47,116]。然而,現有的公平概念主要是基于相關的,可能無法檢測到統計異常,如辛普森悖論[118]。為了解決這個問題,反事實學習已經成為一種很有前途的方法,用于構建公平的機器學習模型,實現反事實的公平性[94,118]。反事實公平是基于這樣一種想法:如果對個人的預測在反事實世界中保持不變,那么對個人的預測就是公平的,因為這個人屬于不同的人口統計群體[94]。圖上的反事實公平性正受到越來越多的關注[3,92,116,224]。在本節中,我們介紹圖學習中的公平性問題和反事實公平性的背景,然后介紹圖反事實公平性模型的一般框架及其細節。最后,用廣泛使用的公平性評估指標和數據庫作了總結。
3. 圖反事實解釋
深度神經網絡(DNN)在各個領域都取得了顯著的成功,如分子生物學[129]、社會網絡[194]和金融系統[25]。然而,DNNs的黑盒特性阻礙了其[15]的廣泛采用。透明和可解釋的模型對于確保開發人員理解模型行為和潛在偏見,并獲得用戶信任至關重要,特別是在高風險的場景中[119]。GNN還面臨可解釋性的挑戰,復雜和離散的圖結構進一步加劇了這些挑戰。因此,提高GNN的可解釋性對于用戶信任和進一步最大化GNN潛力至關重要[40,218,229]。例如,在疾病診斷中,GNNs可能使用患者數據、遺傳學和社會聯系來預測疾病的可能性。清晰的解釋可以增進病人和醫生之間的信任和理解。在藥物發現中,GNN解釋可以幫助發現有效的分子結構[23]。在開發其他DNN模型解釋技術的同時,也開發了GNN的各種可解釋性方法[216]。許多現有工作[114,213,216]旨在識別與預測結果高度相關的子圖。然而,由于圖結構復雜,這樣的方法很可能得到與預測結果高度相關的虛假解釋,而不是導致標簽的關鍵子結構[230]。為了避免虛假解釋,找到對預測有顯著貢獻的因果解釋,研究人員建立了各種模型,以在圖[2,11,113,130,164,169]上獲得反事實解釋。圖反事實解釋不是簡單地找到與預測結果高度相關的子圖,而是旨在識別對輸入圖的必要更改,以改變預測結果,這可以幫助過濾虛假解釋。圖4顯示了突變預測結果的不同解釋[140,169]。在致突變性預測任務中,圖4 (a)中黑色突出顯示的硝基苯結構是致突變性的主要原因,這是最真實的事實解釋。圖4 (b)中紅色突出顯示的邊緣顯示了通過事實解釋方法得到的解釋。解釋模型往往包含一些主要原因之外的不希望的邊緣,以給出更有信心的預測。這是因為,在數據集中,紅色的邊在硝基苯結構之外,與硝基苯結構具有很高的共現性。因此,模型傾向于認為這些邊與突變性高度相關,從而導致潛在的誤導性解釋(虛假信息)。圖4 (c)中的綠色虛線邊作為突變預測的反事實解釋。直覺認為,去除硝基苯結構中的邊可能會導致誘變性的消失。因此,反事實解釋可以幫助識別模型預測的最關鍵邊緣,與基態硝基苯結構保持良好的對齊[140]。總而言之,通過專注于識別對輸入圖的必要更改,從而改變預測結果,反事實解釋方法減輕了虛假解釋的影響,并更好地與基本事實因果因素保持一致。因此,圖上的反事實解釋有望提高GNN[40]的可解釋性和可信性,人們已經做出了許多努力。接下來,首先介紹圖反事實解釋的背景和定義。將現有工作總結為一個圖反事實解釋的一般框架,然后對現有方法進行詳細審查[2,11,24,71,107,113,115,130,131,139,164,169]。最后,回顧了廣泛使用的評價指標和數據集。
5 反事實鏈接預測與推薦
在上述章節中,我們主要關注gnn在節點分類和圖分類中的反事實公平性和反事實解釋。鏈接預測[93]是另一項重要的圖挖掘任務,旨在預測圖中缺失的鏈接。它被廣泛應用于各種應用,如推薦系統[212]、知識圖譜[226]和社交網絡[171]。最近研究了反事實鏈接預測[228],其目的是探索鏈接形成的根本原因,過濾掉虛假因素。推薦系統作為鏈接預測任務的一種特殊情況,也可以從去除虛假信息和依賴因果信息中獲益。因此,反事實學習在鏈接預測任務[228]和推薦系統[29,105,125,182]中受到越來越多的關注。本節將全面回顧現有的基于圖學習的反事實鏈接預測和反事實推薦工作。
大多數視覺識別研究在深度神經網絡(DNN)訓練中嚴重依賴群體標記數據,通常為每個視覺識別任務訓練一個DNN,導致耗時費力的視覺識別范式。為應對這兩個挑戰,視覺-語言模型(VLM)最近得到了深入研究,它從互聯網上幾乎無限可用的網絡規模的圖像-文本對中學習豐富的視覺-語言相關性,并用一個VLM對各種視覺識別任務進行零樣本預測。**文中對面向各種視覺識別任務的視覺語言模型進行了系統綜述,包括: (1)視覺識別范式發展的背景; (2) VLM的基礎,總結了廣泛采用的網絡架構、預訓練目標和下游任務; (3) VLM預訓練和評估中廣泛采用的數據集;(4)對現有的VLM預訓練方法、VLM遷移學習方法和VLM知識蒸餾方法進行綜述和分類;(5)對所述方法的基準化、分析和討論;(6)視覺識別中VLM研究面臨的挑戰和未來可能的研究方向。**與此調研相關的項目已在//github.com/jingyi0000/VLM survey上創建。
1. 引言
視覺識別(如圖像分類、目標檢測和語義分割)是計算機視覺研究中長期存在的挑戰,也是自動駕駛[1]、[2]、遙感[3]、[4]、機器人[5]、[6]等無數計算機視覺應用的基石。隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練深度神經網絡(DNNs)取得了巨大的成功。然而,從傳統機器學習[10]、[11]、[12]、[13]向深度學習的轉變帶來了兩個新的重大挑戰,即深度學習從零開始[7]、[8]、[9]的經典設置下的DNN訓練收斂緩慢,以及在DNN訓練中費力耗時地收集大規模、特定任務、眾標數據[14]。 最近,一種新的學習范式預訓練、微調和預測在廣泛的視覺識別任務[15]、[16]、[17]、[18]、[19]中表現出了巨大的有效性。在這種新范式下,DNN模型首先用某些現成的大規模訓練數據(被標注或未標注)進行預訓練,然后用圖2(a)和(b)所示的特定任務標注訓練數據對預訓練模型進行微調。通過在預訓練模型中學習到的全面知識,這種學習范式可以加速網絡收斂,并為各種下游任務訓練表現良好的模型。
盡管如此,預訓練、微調和預測范式仍然需要一個額外的階段,使用來自每個下游任務的標記訓練數據進行特定任務的微調。受自然語言處理[20],[21],[22],[23]進展的啟發,一種名為視覺-語言模型預訓練和零樣本預測的新的深度學習范式最近受到越來越多的關注[14],[24],[25]。**在這種范式中,一種視覺-語言模型(VLM)是用互聯網上幾乎無限可用的大規模圖像-文本對進行預訓練的,預訓練的VLM可以直接應用于下游視覺識別任務,而無需微調,如圖2(c)所示。**VLM預訓練通常由某些視覺-語言目標[14],[25],[26]指導,使其能夠從大規模圖像-文本對[27],[28]中學習圖像-文本對應關系,例如:CLIP[14]采用圖像-文本對比目標,通過在嵌入空間中將成對的圖像和文本拉近并將其他圖像和文本推遠來進行學習。通過這種方式,預訓練的vlm捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入來進行零樣本預測。這種新的學習范式能夠有效地利用網絡數據,并允許零樣本預測,而不需要特定任務的微調,實現起來很簡單,但表現得非常好,例如,預訓練的CLIP在36個視覺識別任務中實現了出色的零樣本性能,從經典圖像分類[29],[30],[31],[32],[33]到人類行為和光學字符識別[14],[34],[35],[36],[37]。
隨著視覺-語言模型預訓練和零樣本預測的巨大成功,在各種VLM預訓練研究之外,人們還深入研究了兩條研究路線。第一行探索了帶有遷移學習[38],[39],[40],[41]的vlm。幾個遷移方法證明了這一點,例如,提示調優[38],[39],視覺適應[40],[41]等,所有預訓練的vlm對各種下游任務的有效適應都具有相同的目標。第二行通過知識蒸餾[42],[43],[44]探索vlm,例如,[42],[43],[44]探索如何從VLM中提取知識到下游任務,旨在在目標檢測,語義分割等方面取得更好的性能。
盡管從圖1所示的大量近期論文中證明了從VLM中獲取大量知識的濃厚興趣,但研究界缺乏一份全面的調查,可以幫助梳理現有的基于VLM的視覺識別研究、面臨的挑戰以及未來的研究方向。我們的目標是通過對各種視覺識別任務(包括圖像分類、目標檢測、語義分割等)中的VLM研究進行系統的綜述來填補這一空白。 從不同的角度進行了綜述,包括背景、基礎、數據集、技術方法、基準和未來的研究方向。我們相信,這項調查將為我們已經取得的成就提供一個清晰的藍圖,我們可以沿著這個新興但非常有前瞻性的研究方向進一步取得成就。
總而言之,這項工作的主要貢獻有三個方面。首先,對用于圖像分類、目標檢測和語義分割等視覺識別任務的VLMs進行了系統綜述。據我們所知,這是視覺識別VLMs的第一次綜述,通過對現有研究的全面總結和分類,為這個有前途的研究領域提供了一個大的圖景。其次,研究了視覺識別VLM的最新進展,包括對多個公共數據集上的現有工作進行全面的基準測試和討論。第三,分享了幾個用于視覺識別的VLM中可以追求的研究挑戰和潛在研究方向。
**本綜述的其余部分組織如下。**第2節介紹了視覺識別的范式發展和幾個相關的調查。第3節描述了VLM的基礎,包括廣泛使用的深度網絡架構、預訓練目標和VLM評估中的下游任務。第4節介紹了常用的VLM預訓練和評估中的數據集。第5節回顧并分類了VLM預訓練方法。第6節和第7節分別對VLM的遷移學習和知識蒸餾方法進行了系統綜述。第8節在多個廣泛采用的數據集上對所審查的方法進行了基準測試和分析。最后,我們在第9節中分享了視覺識別的幾個有前途的VLM研究方向。
2 背景
本節介紹了視覺識別訓練范式的發展,以及它如何向視覺-語言模型預訓練和零樣本預測范式演進。我們還討論了幾個相關的綜述,以突出本綜述的范圍和貢獻。
2.1 視覺識別的訓練范式
視覺識別范式的發展大致可以分為五個階段,包括(1)傳統機器學習和預測,(2)深度從頭學習和預測,(3)有監督的預訓練、微調和預測,(4)無監督的預訓練、微調和預測和(5)視覺-語言模型預訓練和零樣本預測。在接下來的內容中,我們將對這五種訓練范式進行詳細介紹、比較和分析。
2.1.1 傳統的機器學習和預測
在深度學習時代[7]之前,視覺識別研究嚴重依賴特征工程,使用手工特征[13]、[45]、[46]、[47]、[48]、[49]、[50]、[51]和輕量級學習模型[10]、[11]、[12]將手工特征分類為預定義的語義類別。例如,經典的SIFT特征[51]對圖像尺度、平移和旋轉的變化具有容忍度,實現了非常令人印象深刻的視覺識別性能。然而,這種范式需要領域專家為特定的視覺識別任務制作有效的特征,不能很好地應對復雜的任務,也具有較差的可擴展性。
2.1.2深度學習從零開始和預測
隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練dnn,用單一框架統一特征提取和分類過程,取得了巨大的成功。基于dnn的視覺識別繞開了復雜的特征工程,在很大程度上專注于神經網絡的架構工程,以學習有效特征。例如,ResNet[9]通過跳躍設計實現了有效的深度網絡,并可以從大量群體標記的數據中學習語義特征,在具有挑戰性的1000類ImageNet分類任務[52]上取得了前所未有的性能。另一方面,從傳統機器學習向深度學習的轉變提出了兩個新的重大挑戰,包括從頭開始深度學習的經典設置下的DNN訓練收斂緩慢,以及DNN訓練中費力且耗時地收集大規模、特定任務和眾標數據[14]。
2.1.3 有監督的預訓練、微調和預測
隨著發現從標記的大規模數據集中學習到的特征可以遷移到下游任務[15],[16],[17],從頭學習和預測的范式已經逐漸被有監督的預訓練、微調和預測的新范式所取代。這種新的學習范式,如圖2(a)所示,以監督損失對大規模標記數據(如ImageNet)進行預訓練DNN,然后用特定任務的訓練數據[15]、[16]、[17]對預訓練的DNN進行微調。由于預訓練的dnn已經學習了一定的視覺知識,它可以加速網絡收斂,并幫助用有限的特定任務訓練數據訓練出表現良好的模型。
雖然范式監督預訓練、微調和預測在許多視覺識別任務上實現了最先進的性能,但它在預訓練中需要大規模的標記數據。為了緩解這一限制,最近的研究[18]、[19]采用了一種新的學習范式無監督預訓練、微調和預測,探索自監督學習從無標記數據中學習有用和可轉移的表示,如圖2(b)所示。為此,各種自監督訓練目標(即,偽裝任務)[18]、[53]、[54]、[55]、[56]被提出,包括學習上下文信息的圖像修復[53],建模跨塊關系的掩碼圖像建模[54],通過對比訓練樣本[18]來學習判別式特征的對比學習等。然后,自監督預訓練模型在帶有標記任務特定訓練數據的下游任務上進行微調。由于這種范式在預訓練中不需要標記數據,它可以利用更多的訓練數據來學習有用的和可遷移的特征,與監督預訓練[18]、[19]相比,導致甚至更好的性能。
2.1.5 VLM預訓練和零樣本預測
盡管有監督或無監督預訓練的預訓練和微調范式提高了網絡收斂性,但它仍然需要一個額外的階段對圖2(a)和(b)所示的帶標簽的特定任務訓練數據進行微調。受自然語言處理的預訓練成功[20],[21],[22],[23]的激勵,一種名為視覺-語言模型預訓練和零樣本預測的新深度學習范式被提出用于視覺識別,如圖2(c)所示。在互聯網上幾乎無限可用的大規模圖像-文本對的情況下,VLM由特定的視覺-語言目標[14],[25],[26]進行預訓練。通過這種方式,預訓練的VLM捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入,對下游視覺識別任務進行零樣本預測(無需微調)。
與預訓練和微調相比,這種新的范式可以在不進行特定任務微調的情況下有效利用大規模網絡數據和零樣本預測。大多數現有研究探索從三個角度來改進VLM: 1) 收集大規模信息豐富的圖像-文本數據,2) 設計高容量模型以從大數據中有效學習,3) 設計新的預訓練目標用于學習有效的視覺-語言關聯。本文對視覺識別的這一新的視覺-語言學習范式進行了系統的綜述,旨在為現有的VLM研究、這一具有挑戰性但非常有前途的研究領域面臨的挑戰和未來方向提供一個清晰的藍圖。
3 VLM基礎
VLM預訓練[14],[24]旨在預訓練一個VLM來學習圖像-文本相關性,針對視覺識別任務的有效零樣本預測[9],[66],[67],[68]。給定圖像-文本對[27],[28],它首先采用一個文本編碼器和一個圖像編碼器來提取圖像和文本特征[9],[20],[69],[70],然后學習與某些預訓練目標[14],[24]的視覺-語言相關性。有了學習到的視覺-語言相關性,VLMs可以在未見過的數據上以零樣本的方式進行評估[14],[24],通過匹配任何給定圖像和文本的嵌入。在本節中,我們介紹了VLM預訓練的基礎,包括用于提取圖像和文本特征的常見深度網絡架構,用于建模視覺-語言相關性的預訓練目標,以及用于評估預訓練的VLM的下游任務。
4 數據集
本節總結了用于VLM預訓練和評估的常用數據集,如表1-2所示。
5 視覺-語言模型預訓練
如第3.2節所述,VLM預訓練已經用三種典型的方法進行了探索,包括對比目標、生成目標和對齊目標。本節通過表3所列的多個VLM預訓練研究對它們進行了回顧。
5.1 具有對比目標的VLM預訓練
對比學習在VLM預訓練中已經被廣泛探索,它為學習具有判別力的圖像-文本特征設計了對比目標[14],[80],[138]。
5.2 帶有生成目標的VLM預訓練
生成式VLM預訓練通過學習通過掩碼圖像建模、掩碼語言建模、掩碼跨模態建模和圖像到文本生成生成圖像或文本來學習語義知識。
5.3 帶有對齊目標的VLM預訓練
對齊目標通過學習預測給定的文本是否正確描述了給定的圖像,強制vlm對齊成對的圖像和文本。它可以大致分為全局圖像-文本匹配和局部區域-單詞匹配,用于VLM預訓練。
5.4 總結和討論
總而言之,VLM預訓練對具有不同跨模態目標的視覺-語言相關性進行建模,如圖像-文本對比學習、掩碼跨模態建模、圖像到文本生成和圖像-文本/區域-單詞匹配。還探索了各種單模態目標,以充分挖掘其自身模態的數據潛力,如針對圖像模態的掩碼圖像建模和針對文本模態的掩碼語言建模。另一方面,最近的VLM預訓練專注于學習全局視覺-語言相關性,在圖像級識別任務(如圖像分類)中有好處。同時,多項研究[84]、[89]、[91]、[150]、[151]、[152]、[153]通過區域-單詞匹配對局部細粒度視覺-語言相關性進行建模,旨在在目標檢測和語義分割中實現更好的密集預測。
6 VLM遷移學習
除了在沒有微調的情況下直接將預訓練的VLM應用于下游任務的零樣本預測外,最近研究了遷移學習,通過提示微調[38],[154],特征適配器[40],[41]等使VLM適應下游任務。本節介紹了預訓練VLM的遷移學習動機、常見的遷移學習設置以及三種遷移學習方法,包括提示調優方法、特征適配器方法和其他方法。
7 VLM知識蒸餾
由于VLM捕獲了涵蓋廣泛的視覺和文本概念的通用知識,一些研究探索了如何提取通用和魯棒的VLM知識,同時解決復雜的密集預測任務,如目標檢測和語義分割。本節介紹了從VLM中提取知識的動機,以及兩組關于語義分割和目標檢測任務的知識蒸餾研究。
8. 結論
用于視覺識別的視覺-語言模型能夠有效地使用web數據,并允許零樣本預測,而無需特定任務的微調,這很容易實現,但在廣泛的識別任務中取得了巨大的成功。本綜述從背景、基礎、數據集、技術方法、基準測試和未來研究方向等幾個角度廣泛回顧了視覺識別的視覺-語言模型。以表格的形式對VLM數據集、方法和性能進行了比較總結,為VLM預訓練的最新發展提供了一個清晰的藍圖,這將極大地有利于這個新興但非常有前途的研究方向的未來研究。
圖數據在現實世界中普遍存在,如引文網絡、社交網絡、交通網絡等。圖神經網絡(GNNs)以其魯棒的表達能力和出色的性能在各種圖分析應用中得到了廣泛的關注。然而,GNNs的有效性嚴重依賴于足夠的數據標簽和復雜的網絡模型,前者具有挑戰性,后者需要昂貴的計算資源。為解決GNN的標記數據稀缺和高復雜度問題,引入了知識蒸餾(KD)來增強現有的GNN。該技術涉及在保持預測性能的同時,將大型教師模型的軟標簽監督遷移到小型學生模型。將KD技術遷移到圖數據和基于圖的知識是一個重大挑戰。對基于圖的知識蒸餾方法進行了全面的概述,系統地分類和總結了它們,同時討論了它們的局限性和未來的方向。首先介紹了graph和KD的背景; 全面總結了3類基于圖的知識蒸餾方法,即基于圖的深度神經網絡知識蒸餾(Graph-based Knowledge Distillation for deep neural networks, DKD)、基于圖的GNNs知識蒸餾(Graph-based Knowledge Distillation for GNNs, GKD)和基于自知識蒸餾的圖知識蒸餾(Self-Knowledge Distillation)。每一類方法根據輸出層、中間層和構建的圖進一步分為知識蒸餾方法。隨后,對各種基于圖的知識蒸餾算法的思想進行了分析比較,并通過實驗結果分析了各算法的優缺點。此外,還列舉了基于圖的知識蒸餾在計算機視覺、自然語言處理、推薦系統等領域的應用。最后,對基于圖的知識蒸餾的發展進行總結和展望。我們也在//github.com/liujing1023/Graph-based-Knowledge-Distillation上發布了相關資源。
1. 引言
圖數據[1]表示對象之間的關系,是一種重要的數據類型,用于用戶推薦[2]、藥物發現[3]、流量預測[4]、點云分類[5]、芯片設計[6]等各種現實場景。與歐氏空間中的結構化數據不同,圖數據具有復雜的結構,包含豐富的信息。為了從復雜圖中學習具有足夠信息的向量化表示,研究人員正在將深度學習方法應用于圖。借鑒卷積神經網絡(CNN)[7]的思想,圖神經網絡(GNNs)[8]被提出,并在節點分類[9]、鏈路預測[10]、圖分類[11]等任務中得到有效應用。
**隨著卷積算子的改進和大規模圖的流行,研究人員正在探索訓練準確和高效的圖卷積神經網絡(GNN)的方法。**一種方法是訓練更深的網絡以提高泛化能力。然而,圖神經網絡是半監督的,依賴于高質量的標記數據和復雜的模型,這些模型難以獲得且計算成本高。為解決GNN中數據標記稀疏和模型復雜度高的挑戰,將知識蒸餾(KD)[12]引入圖分析中。KD是一種“師徒”(teacher - student, T-S)網絡訓練方法,將學習能力強的T網絡學習到的軟標簽知識遷移到參數小、學習能力弱的S網絡,以提高其性能。KD由于其簡單有效的特點,被廣泛應用于學術界和工業界,如計算機視覺[13]、語音識別[14]、自然語言處理[15]等。 最近,將T-S知識蒸餾框架應用于GNN的潛力已被證明。受KD在CNN上的成功啟發,研究人員通過將KD與GNN相結合,為圖數據或直接為GNN設計了知識蒸餾算法。該領域的第一個工作是LSP[16],通過提出局部結構保留模塊,將KD應用于GCN[17],將局部圖結構知識從深層的GCN教師模型提取到參數較少的淺層GCN學生模型中。隨后,其他基于圖的知識蒸餾方法也被提出。盡管KD方法在GNN中取得了很好的進展,但現有方法主要集中在以結構化網格數據為輸入的CNN上,而對具有不規則數據處理能力的GNN的研究較少。此外,缺乏對基于圖的知識蒸餾研究的全面綜述。本文旨在通過對現有的圖知識蒸餾工作進行系統回顧來填補這一空白。
本工作的主要貢獻如下:
通過覆蓋100多篇論文,首次對基于圖的知識蒸餾進行了全面綜述,填補了該領域的空白。從問題定義、理論分析、方法分類、實驗比較、應用與展望等方面進行綜述。 * 使用層次分類來系統地總結和分析基于圖的知識蒸餾方法的最新進展,為每類方法提供見解(參見圖1)。 * 進行了廣泛的實驗,比較了每類知識蒸餾方法的蒸餾效果,并進行了深入的分析。 * 討論了現有的基于圖的知識蒸餾的挑戰,提出了未來的潛在研究方向和趨勢,并為GNNs和KD領域的研究人員提供了有見地的指導。 * 建立了一個基于圖的知識蒸餾研究的開源代碼庫,為該研究領域提供了有價值的參考。
本文的組織結構如下。第2節回顧了基于圖的知識蒸餾,討論了其最新進展,以及與現有研究領域的關系。第三部分對每一類基于圖的知識蒸餾方法進行形式化描述,并給出相關理論。第4節總結了方法分類,包括基于圖的深度神經網絡知識蒸餾(graph -based Knowledge Distillation for deep neural networks, DKD)、基于圖的知識蒸餾(graph -based Knowledge Distillation for graph neural networks, GKD)和基于自知識蒸餾的圖知識蒸餾(Self-Knowledge Distillation, SKD),并進一步細分為基于輸出層、中間層和構建圖的方法。第5節比較和分析了經典的基于圖的知識蒸餾算法。第6節列出了基于圖的知識蒸餾方法在CV、NLP、RS和其他場景中的應用。第7節展望了基于圖的知識蒸餾的未來研究方向。最后,第八部分對本文進行了總結。建立了一個開源代碼庫,用于基于圖的知識蒸餾研究。
2. 圖知識蒸餾
隨著知識蒸餾技術的發展,僅從單一樣本中提取信息的蒸餾方法因提供的信息有限而不再適用。為了提取不同數據樣本之間豐富的關聯信息,提出了基于關系的知識蒸餾方法[18 - 22,118,119],通過隱式/顯式構建樣本之間的關系圖,充分挖掘教師網絡中樣本之間的結構特征知識。作為一種強大的非結構化建模工具,GNNs可以直接對圖數據進行建模。因此,使用GNNs進行蒸餾可以很容易地提取和傳輸樣本之間的圖拓撲知識和語義監督信息。因此,利用圖神經網絡進行蒸餾可以方便地實現圖拓撲結構知識和樣本間語義監督信息的提取和傳遞。因此,將基于深度神經網絡(deep neural networks, DNNs)的基于關系的知識蒸餾方法和基于GNNs的蒸餾方法統稱為基于圖的知識蒸餾方法。基于圖的知識蒸餾旨在將教師模型中直接/間接構建的樣本關系語義信息蒸餾到學生模型中,以獲得更通用、更豐富、更充分的知識。 盡管GNN是一種強大的架構,在建模非結構化數據方面具有出色的性能,但其卓越的性能依賴于高質量的標簽數據和復雜的網絡模型。然而,標簽獲取困難且計算資源昂貴。因此,面對GNNs中數據標簽稀疏和模型計算復雜度高的問題,如何在保證性能的前提下設計更小、更快的網絡成為研究重點。基于這一思想,出現了各種圖設計知識蒸餾算法。同時,由于KD在圖分析任務中的優異表現,基于圖的知識蒸餾的研究受到廣泛關注。 文中提出了一種基于圖的知識蒸餾的層次分類方法,將基于圖的知識蒸餾分為基于深度神經網絡的圖知識蒸餾(graph based Knowledge Distillation for deep neural networks, DKD)、基于圖的知識蒸餾(graph -based Knowledge Distillation for graph neural networks, GKD)和基于自知識蒸餾的圖知識蒸餾(Self-Knowledge Distillation based graph -based Knowledge Distillation, SKD)。分類進一步基于蒸餾位置,包括輸出層、中間層和構造的圖。具體分類和代表性方法如圖1所示。由于最近人們關注自知識蒸餾和GNN的結合,SKD專注于GNN模型中的自知識蒸餾方法。
去噪擴散模型是生成模型的一種,近年來在各種深度學習問題中引起了廣泛的關注。擴散概率模型定義了一個正向擴散階段,在這個階段中,輸入數據通過添加高斯噪聲在幾個步驟中逐漸被擾動,然后學習反向擴散過程,從有噪聲的數據樣本中檢索所需的無噪聲數據。擴散模型因其強大的模式覆蓋率和生成樣本的質量而受到廣泛贊賞,盡管它們已知的計算負擔。利用計算機視覺的進步,醫學成像領域也觀察到對擴散模型越來越感興趣。為了幫助研究者更好地理解這些模型,本綜述對醫學圖像分析中的擴散模型進行了全面的綜述。具體來說,我們首先介紹了擴散模型背后的堅實的理論基礎和基本概念,以及三種通用的擴散建模框架,即擴散概率模型、噪聲條件評分網絡和隨機微分方程。然后,我們對醫學領域的擴散模型進行了系統的分類,并提出了基于它們的應用、成像方式、感興趣的器官和算法的多視角分類。為此,我們涵蓋了擴散模型在醫學領域的廣泛應用,包括分割、異常檢測、圖像到圖像的翻譯、2/3D生成、重建、去噪和其他與醫學相關的挑戰。此外,我們強調了一些選擇的方法的實際用例,然后討論了擴散模型在醫學領域的局限性,并提出了滿足該領域需求的幾個方向。最后,我們在GitHub上收集了綜述研究及其可用的開源實現。我們的目標是定期更新相關的最新論文。
//github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging
圖1:在這個圖中,我們展示了生成模型的變革及其背后的見解。(a)通用對抗網絡(GAN)[1]是一種端到端管道,它以對抗方式訓練生成器以生成鑒別器能夠與真實數據樣本區分的樣本。(b)基于能量的模型(EBM)[2],也稱為非歸一化概率模型,訓練方式與GANs相同,但有兩個主要修改。首先,鑒別器學習一個適當的基于能量的函數,該函數將數據樣本映射到分布空間。其次,該生成器利用先驗輸入來提高樣本生成性能。(c)變分自動編碼器(VAE)[3]是一個獨立的網絡,它跟隨編碼器從數據樣本到低維潛在空間的投影,并通過解碼器路徑對其進行采樣生成。(d)歸一化流(NF)[4]利用可逆流函數將輸入轉化為潛在空間,并生成具有逆流函數的樣本。(e)擴散模型在連續的步驟中將噪聲與輸入混合,直到它成為一個噪聲分布,然后在采樣過程的每一步中應用逆向過程來中和噪聲附加。
1. 概述
在過去十年的深度學習中,使用神經網絡的生成模型是一股強大的力量。自生成模型出現以來,它在從圖像[5,6]、音頻[7,8]到文本、[9]和點云[10]等各個領域都產生了巨大的影響。從概率建模的角度來看,生成模型的關鍵定義特征是,它以這樣一種方式進行訓練,因此它的樣本 x? ~ pθ(x?) 來自與訓練數據分布x~pd(x)相同的分布。開創性的基于能量的模型通過定義狀態空間上的非歸一化概率密度來實現這一點;然而,這些方法在訓練和推理過程中都需要馬爾可夫鏈蒙特卡羅(MCMC)采樣,這是一個緩慢的迭代過程[11]。隨著可用數據集的空前激增,以及一般深度學習架構的進步,生成建模出現了革命性的范式轉變。具體而言,三種主流生成框架包括生成對抗網絡(GANs)[1]、變分自動編碼器(VAEs)[12,3]和歸一化流程13。生成模型通常包含在現實問題中需要采用的關鍵需求。這些要求包括(i)高質量采樣,(ii)模式覆蓋和樣本多樣性,以及(iii)快速執行時間和計算成本低的采樣14。生成模型通常在這些標準之間進行調整。具體來說,GANs能夠快速生成高質量的樣本,但模式覆蓋率較差,容易缺乏采樣多樣性。相反,盡管在覆蓋數據模式中看到了VAEs和歸一化流,但它們存在低樣本質量的固有屬性。GANs由兩個模型組成:生成器和鑒別器(discriminator),它們相互競爭,同時使彼此更強。生成器試圖捕獲真實樣本的分布,而鑒別器(通常是一個二進制分類器)估計來自真實數據集的給定樣本的概率。它作為一個評價器,經過優化后可以從真實樣本中識別合成樣本。關于GANs的一個常見問題是它們的訓練動態被認為是不穩定的,導致了模式崩潰、梯度消失和收斂[15]等缺陷。因此,提出更有效的變體也影響了GANs的研究方向[16,17]。變分自編碼器(VAEs)通過最大化證據下界(ELBO)來優化數據的對數似然。盡管變分自編碼器取得了顯著的成就,但由于平衡問題[18]和變量崩潰現象[19]等理論和實踐上的挑戰,變分自編碼器的行為還遠遠不能令人滿意。基于流的生成模型是由一系列可逆變換構建的。具體地說,歸一化流通過應用一系列可逆變換函數將簡單分布轉換為復雜分布,在這個函數中,人們可以使用變元定理獲得最終目標變量的期望概率分布。與GANs和VAEs不同,這些模型明確地學習數據分布;因此,它們的損失函數就是負對數似然[20]。盡管設計可行,但這些生成模型有其特定的缺陷。由于基于可能性的方法必須構建一個歸一化的概率模型,因此必須使用特定類型的體系結構(自回歸模型、流模型),或者在VAE的情況下,不直接計算生成的概率分布的替代損失,如ELBO。相反,由于GAN的對抗性損失的性質,GAN的學習過程本質上是不穩定的。最近,擴散模型[22,22]已經作為強大的生成模型出現,展示了計算機視覺的主要主題之一,因此研究人員和實踐者可能會發現跟上創新的速度是一項挑戰。從根本上說,擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。
圖2:生成式學習試驗[14]。盡管GANs能夠快速生成高保真樣本,但其模式覆蓋是有限的。此外,價值流和標準化流已被揭示具有很大的多樣性;然而,它們的采樣質量通常很差。擴散模型通過顯示足夠的模式覆蓋和高質量的采樣來彌補VAEs和GANs的不足。然而,由于它們的迭代性質,這導致了一個緩慢的采樣過程,它們實際上是昂貴的,需要更多的改進。
迄今為止,擴散模型已被發現在各種各樣的領域都很有用,從生成建模任務,如圖像生成[23]、圖像超分辨率[24]、圖像嵌入[25]到辨別任務,如圖像分割[26]、分類[27]和異常檢測[28]。最近,醫學影像界見證了基于擴散的技術的數量呈指數級增長(見圖4)。如圖4所示,大量研究致力于擴散模型在各種醫學影像場景中的應用。因此,對現有文獻的調查既有利于社區,也非常及時。為此,本綜述旨在提供最新進展的全面概述,并提供這類模型在醫學成像中的整體概述。對相關文獻的徹底搜索顯示,我們是第一個覆蓋在醫學領域利用的擴散基礎模型。我們希望這項工作將指出新的路徑,為研究人員提供路線圖,并激發視覺社區進一步的興趣,以利用醫學領域的擴散模型的潛力。我們的主要貢獻包括:
這是第一篇全面涵蓋擴散模型在醫學成像領域應用的綜述論文。具體而言,我們將全面概述所有可用的相關論文(截止2022年10月)。
我們設計了醫學界擴散模型的多視角分類,提供了擴散模型及其應用研究的系統分類。我們將現有的擴散模型分為三類:去噪擴散概率模型、噪聲條件評分網絡和隨機微分方程。此外,我們將擴散模型的應用分為七個類別:異常檢測、去噪、重建、分割、圖像間翻譯、圖像生成和其他應用。
我們不將注意力局限于應用,并提供了一種新的分類法(見圖4),其中每篇論文都根據提出的算法以及相關的器官和成像方式進行了廣泛的分類。
最后,我們討論了挑戰和開放問題,并確定了新的趨勢,提出了關于擴散模型在醫學領域的算法和應用的未來發展的開放問題。
論文的組織。在第2.1節中,我們詳細概述了擴散模型背后的概念和理論基礎,涵蓋了三個具有相似基線定義的子類別。3.1至3.7節全面涵蓋了擴散模型在幾種醫學成像任務中的應用,如圖3所示,而3.8節提供了不同文獻工作的任務特定的比較概述。最后,我們在第四部分中指出了擴散模型在醫學成像領域的未來發展方向和面臨的挑戰。
2. 擴散模型分類法
在過去的幾十年里,生成方法在醫學成像中取得了重大進展。因此,已經發表了許多關于醫學成像的深度生成模型的綜述論文[29,30,31]。其中一些論文只關注特定的應用程序,而另一些則關注特定的圖像模態。然而,關于擴散模型在醫學成像中的應用還缺乏全面的研究。為此,在本調查中,我們設計了一個多視角的擴散模型,其中我們討論了現有的文獻,基于它們在醫學領域的應用。盡管如此,我們并不將我們的興趣局限于應用,而是描述了潛在的工作原理、器官和所提議的方法的成像方式。我們將進一步討論這些額外的信息如何幫助研究人員嘗試跨譜鞏固文獻。圖4描述了本文的簡要展望。
圖4:基于擴散的醫學圖像分析研究的擬議分類建立在七個子領域:I)圖像間翻譯,II)醫學圖像重建,III)圖像分割,IV)醫學圖像去噪,V)圖像生成,VI)異常檢測和VII)多學科應用,稱為其他應用。
圖被廣泛用于復雜系統的建模,檢測圖中的異常是復雜系統分析中的一項重要任務。圖異常是指圖中的模式不符合圖的屬性和/或結構所期望的正常模式。近年來,圖神經網絡(GNNs)得到了廣泛的研究,并成功地完成了節點分類、鏈接預測和圖分類等困難的機器學習任務,這得益于在有效學習圖表示中通過消息傳遞實現的高度表達能力。為了解決圖異常檢測問題,基于GNN的方法利用關于圖屬性(或特征)和/或結構的信息來學習對異常進行適當的評分。在這篇綜述中,我們回顧了使用GNN模型檢測圖異常的最新進展。具體而言,我們根據圖類型(即靜態和動態)、異常類型(即節點、邊、子圖和全圖)和網絡架構(如圖自動編碼器、圖卷積網絡)對基于GNN的方法進行了總結。據我們所知,這次綜述是第一次全面回顧基于GNN的圖異常檢測方法。
//www.zhuanzhi.ai/paper/86a58a5030f04de8d6483e0e7509e14e
圖形是一種有效的數據結構,可以有效地表示和提取復雜的數據模式,廣泛應用于社交媒體、電子商務、生物學、學術和通信等眾多領域。圖中表示的數據對象是相互關聯的,對象通常表示為節點,它們的關系表示為節點之間的邊。圖的結構指的是節點如何通過單獨的邊相互關聯,并且可以有效地表示節點之間甚至深遠的關系。此外,通過使用節點和/或邊的屬性來增強圖的結構表示,圖可以在語義上得到豐富。
異常檢測是識別明顯偏離通常觀察到的模式的異常模式的過程。這是一項重要的任務,因為在各個領域的需求和應用不斷增加。自從Grubbs等人[1]首次引入異常(或離群值)的概念以來,人們對異常檢測進行了大量的研究。此后,隨著近年來圖挖掘技術的發展,圖異常檢測備受關注[2],[3]。圖異常檢測的早期工作很大程度上依賴于領域知識和統計方法,其中檢測異常的特征大多是手工制作的。這種手工制作的檢測任務自然非常耗時和費力。此外,真實的圖通常包含大量的節點和標記有大量屬性的邊,因此是大規模和高維的。為了克服早期工作的局限性,最近深度學習方法在從圖[4]中檢測異常時受到了相當多的關注。深度學習具有非線性的多層結構,可以對大規模高維數據進行檢測,并從數據中提取模式,從而獲得令人滿意的性能,而無需手工制作特征[5]、[6]。
最近,圖神經網絡(GNN)通過學習圖表示(例如[7],[8])中的消息傳遞機制具有高度的表達能力,因此被用于高效、直觀地檢測圖中的異常。使用GNN,從圖中學習和提取異常模式,即使是那些具有高度復雜結構或屬性的圖,也相對簡單,因為GNN本身處理的圖具有屬性作為輸入數據[9]。最先進的圖異常檢測方法[7]、[10]將GNN與現有的深度學習方法相結合,其中GNN捕獲圖的特征,而深度學習捕獲其他類型的信息(如時間)。圖1給出了用GNN進行圖異常檢測的一個例子。假設節點(A)和(C)根據節點屬性被檢測到異常,節點(A)和(B)根據圖拓撲被檢測到異常。那么,如果同時考慮節點屬性和圖拓撲作為異常因素,則只檢測到節點(A)異常。GNN模型使我們能夠通過同時檢查圖拓撲和節點屬性來檢測這種異常。
在本綜述中,我們概述了基于GNN的圖異常檢測方法,并主要從圖的類型(即靜態圖和動態圖)進行了綜述。與其他調研相關的話題——圖異常檢測(一般)[2],[3],圖像異常檢測具體使用深度學習[11],[12],和一般的異常檢測使用深度學習[13],[14],本調研旨在涉及的獨特角度圖使用GNN異常檢測模型。鑒于GNN在圖異常檢測中的重要意義和正在進行的積極研究工作,我們相信,對這一特定主題的全面調研是及時的,對研究社區是有益的。圖2為調研方法的時間軸。第三節中的調研是根據其他圖異常檢測調研[3]、[2]、[11]、[12]所使用的分類框架組織的。這一領域仍然是新的,盡管研究主題的分布似乎傾向于靜態圖中的節點異常,但已發表的方法覆蓋了廣泛的圖(靜態與動態、普通與屬性)和異常類型(結構、節點、邊、子圖)。此外,在第四節中,我們分享了關于使用GNN進行圖異常檢測的幾個有前途的機遇和挑戰的觀點。
基于GNN的圖異常檢測
A.基于GNN的靜態圖異常檢測
靜態圖異常檢測的大部分研究都是針對節點異常,只有少數研究是針對邊緣異常和子圖異常。
1) 異常節點檢測:
使用GNNs檢測異常節點主要在屬性圖中進行。每一種基于GNN的方法都從靜態屬性圖中提取節點屬性信息和結構信息,并使用一定的評分算法評估節點的異常評分。人們提出了各種基于GNN的方法來有效地從屬性圖中提取必要的特征。我們根據這些方法的網絡架構對它們進行分類,然后簡要描述每種方法背后的關鍵思想。根據結構信息,異常節點可進一步劃分為三類:全局異常、結構異常和群體異常[12]。全局異常稱為圖中的偏離節點屬性;結構異常在圖中稱為偏離的結構信息;團體異常是指同一團體中節點屬性的偏差和結構信息的偏差。請注意,相當數量的基于gnn的方法是建立在用GCN或GAT實例化的圖形自動編碼器(GAE)框架之上的。對于靜態圖中的異常節點檢測,我們回顧了基于GNN的GAE方法以及獨立GNN方法。
2) 異常邊緣檢測:
異常邊緣通常表示圖中節點之間不同的或非典型的相互作用。在靜態圖中這種異常邊緣檢測的研究相對有限。Duan等人[48]提出了異常感知網絡嵌入(AANE),該網絡為平面圖設計,并使用基于gcn的GAE框架實現。該方法調整了擬合損失和“異常感知”損失,包括偏差損失和去除損失。損失函數的概率是一個優勢的得分。概率較低的邊更有可能是異常邊。Song等人[50]提出了用于欺詐檢測的基于子圖的框架(SubGNN)。提取靠近目標邊緣的子圖并重新標記以保證實體獨立性。提出的關系圖同構網絡(R-GIN)學習特征,用于精確的欺詐檢測。Zhang等人[49]提出了一種基于競爭圖神經網絡(CGNN)的欺詐檢測系統(eFraudCom),用于檢測電子商務平臺上的欺詐行為。CGNN是一種基于gcn的GAE系統。eFraudCom系統由一個數據處理器和一個欺詐檢測器組成。具體而言,在數據處理器中對有代表性的法向數據進行采樣,生成包含采樣的法向數據和其余數據的異構圖;在欺詐檢測器中,對圖中的鄰居進行采樣,并通過CGNN檢測異常邊緣。
3)異常子圖檢測: 異常子圖檢測比異常節點或邊緣檢測更具挑戰性。值得注意的一點是,異常子圖中的節點和邊本身可以被認為是正常的。此外,子圖的結構和大小可以非常多樣化。大概是由于這一挑戰,文獻中只有有限的研究。我們發現了一種GCN方法和一種基于gat的GAE方法。
B.基于GNN的動態圖異常檢測
與靜態圖不同,動態圖的結構或屬性會隨時間變化,時間性是動態圖的一個重要因素。最近,基于圖社區、壓縮、分解、距離度量和圖特征[2]的概率建模,提出了各種檢測隨時間變化或演化的圖異常的方法。針對動態圖提出了幾種方法,將GCN與適合于時間處理的深度學習方法相結合,如循環神經網絡(RNN)、門控循環單元(GRU)和transformer。一些研究解決了在動態圖的邊或節點中檢測異常的問題。目前還沒有關于異常子圖檢測的研究。
以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。
基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。
對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量。多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。
**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。
圖神經網絡多模態學習
深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。
以圖為中心的多模態學習
圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。
圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。
面向圖像的多模態圖學習**
圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。
圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。
面向語言的多模態圖學習**
隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。
自然科學中的多模態圖學習
除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。
多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。
分子表示學習(Molecular representation learning, MRL)是建立機器學習與化學科學聯系的關鍵步驟。特別是,它將分子編碼為保留分子結構和特征的數值向量,在此基礎上可以執行下游任務(如性能預測)。近年來,MRL取得了相當大的進展,特別是在基于深度分子圖學習的方法中。在這項綜述中,我們系統地回顧了這些基于圖的分子表示技術。具體來說,我們首先介紹了二維和三維圖形分子數據集的數據和特征。然后,我們總結了專門為MRL設計的方法,并將其分為四種策略。此外,我們還討論了MRL支持的一些典型的化學應用。為了促進這一快速發展領域的研究,我們也在論文中列出了基準和常用的數據集。最后,我們分享了對未來研究方向的思考。
機器學習和化學科學之間的相互作用受到了這兩個領域研究人員的極大關注。它在包括分子性質預測在內的各種化學應用中取得了顯著的進展[Guo et al., 2020; Sun et al., 2021; Yang et al., 2021b; Liu et al., 2022b],反應預測[Jin等人,2017;Do等人,2019],分子圖生成[Jin et al., 2018a; Jin et al., 2020b]以及藥物-藥物相互作用預測[Lin等人,2020]。分子表示學習(MRL)是彌補這兩個領域差距的重要步驟。MRL的目標是利用深度學習模型將輸入的分子編碼為數值向量,保存有關分子的有用信息,并作為下游(機器學習)應用的特征向量。早期的分子表示學習方法使用一般表示學習模型來表示分子,而不需要明確地涉及領域知識。近年來,針對MRL專門設計了許多算法,這些算法可以更好地融合化學領域知識。在本文中,我們系統地回顧了這一快速發展的主題的進展,繪制了從結合分子結構的表示學習方法到同時結合領域知識的方法的路徑。
動機1: 為什么分子表示學習很重要?
分子表示學習具有廣泛的應用范圍,與人們的生活密切相關。例如,通過wet-lab實驗發現藥物是非常耗時和昂貴的。隨著深度學習的發展,大量的實驗可以用機器學習模型來模擬。性質預測可以幫助識別具有目標性質的分子。反應預測可以預測主要產物。這大大減少了失敗實驗的數量。對于所有這些化學應用,MRL是深度學習模型成功的關鍵決定因素。
動機2: 為什么要用深度圖學習來進行分子表示學習?
分子圖自然地描述了具有豐富結構和空間信息的分子。分子本質上是原子和連接原子的鍵,這自然會導致它們自己的圖表示。相對于基于分子的線狀表示(即串),分子圖為MRL模型提供了更豐富的信息。因此,基于圖的MRL模型比基于序列的MRL模型發展得更快。此外,越來越多的通用圖學習論文[Gilmer et al., 2017; Hu* et al., 2020; You et al., 2020]也使用分子圖數據集來檢查他們算法的性能。
這項工作的主要貢獻總結如下:
基于圖的分子表示學習綜述: (a) 兩個分子圖; (b) 圖神經網絡的一般學習過程; (c) 提出了四種基于圖的分子表示學習方法; (d) 聚合原子表示以獲得分子表示的過程。
數據表示
傳統上,研究人員使用固定的指紋特征提取規則來識別每個分子的重要信息,并將這些手工制作的信息輸入線性分類/回歸頭部進行下游任務。這需要大量的時間來確定和計算最相關的功能,而設計的功能仍然不能支持所有的任務。為了避免這些問題,大多數深度學習模型都是用來自動學習分子特征的。兩種分子表示被用作輸入:分子圖和分子序列。據此,開發了基于圖和基于序列的模型,以從不同的輸入分子表示中學習。序列表示,如簡化的分子輸入行輸入系統(SMILES) [Weininger et al., 1989]和自引用嵌入字符串(selfie) [Krenn et al., 2020]可以轉換為分子圖,但這種轉換涉及大量領域知識。當我們以序列表示作為輸入時,基于序列的學習模型不容易意識到這一知識。相反,圖表示可以自然地在節點和邊中包含額外的信息,這很容易被豐富的基于圖的模型套件(例如,圖神經網絡)所利用。因此,在這次調研中,我們將重點放在圖表示上,因為它現在使用的比較普遍。在本節中,我們將闡明分子圖(不含空間信息)和三維分子圖表示,如圖1 (a)所示。對于每一種表示,我們都將分析其特點,并討論其在深度學習模型中使用的用途和局限性。
3 方法
在本節中,我們從MRL的一般圖神經網絡開始。然后,我們討論了專門為這項任務設計的方法,并將這些方法分為四種策略。這些特定的方法結合了化學相關信息,以不同的方式加強分子表征,從而導致更好的性能。表2列出了具有代表性的方法。
表一 一個具有代表性的基于圖的分子表示學習算法列表。四種方法(MS, DK, SS, KG)分別對應第3節的四個部分。在這里,MS專門代表了分子子結構相關的方法。該表包括四種訓練方法:自監督學習(SSL)、監督學習(SL)、預訓練學習(PT)和對比學習(CL)。
3.1 基于分子結構的方法
基于圖的MRL通常認為分子圖與其他平面圖是一樣的。它只關注分子圖的拓撲結構,而不關心分子圖中包含的特殊子結構或性質。最近的研究已經看到了對自監督學習策略的嘗試[Jin et al.,2020a],這促使模型更加關注圖結構。PreGNN [Hu et al.,2020]利用上下文預測和節點/邊緣屬性掩蔽兩種自監督策略對GNN進行預訓練。與這種一般的無監督設計不同,GROVER [Rong et al., 2020]提出了分子特異性的自監督前訓練方法:上下文屬性預測和圖形級motif預測。MGSSL[Zhang et al.,2021]還設計了一種基于主題的圖自監督策略,在主題樹生成過程中預測主題的拓撲和標簽。INFOGRAPH[Sun et al., 2020]通過最大化整個圖的表示和不同粒度的子結構之間的互信息來訓練模型。
對比學習是一種常見的自監督學習策略,它利用數據增強使模型產生具有更好的泛化性、可遷移性和魯棒性的圖表示。GraphCL [You et al.,2020]提出了三種通用的圖增強方法,也可應用于分子數據集。MoCL [Sun et al.,2021]提出了兩種分子圖增強方法:一種是用類似的物理或化學性質相關的子結構取代有效的子結構。另一種是改變一些普通的碳原子。分子2D和3D圖形表示自然是分子的兩種增強視圖。利用這一特性,GeomGCL[Li et al.,2022]和GRAPHMVP[Liu et al.,2022a]通過對比學習訓練模型。分子結構知識不僅用于自監督學習。基于Motif、substructure和scaffold的分子表征學習在分子生成中的應用[Jin et al., 2020c; Maziarz et al., 2022; Wu et al., 2022]也取得了具有很好的性能。
領域知識的方法
將深度學習與分子科學相結合是分子表示學習的重要組成部分。在模型設計中引入化學領域知識是提高性能的有效途徑。Yang等人[Yang等人,2021b]提出了一個新的模型,PhysChem,它由物理學家網絡(PhysNet)和化學家網絡(ChemNet)組成。PhysNet通過神經網絡學習分子構象,ChemNet通過神經網絡學習化學性質。通過融合物理和化學信息,PhysChem獲得了性能預測任務所需的性能。PAR[Wang et al., 2021]涉及任務信息,提出了一種屬性感知的嵌入方法。Wang等人[Wang等人,2022]的靈感來自化學反應中反應物和生成物之間的等價關系。他們提出,MolR,在嵌入空間中保持等價關系,這意味著使反應物嵌入和乘積嵌入的和相等。MolR在各種下游任務中實現SOTA性能。
基于空間學習的方法
空間信息尤其是幾何信息受到廣泛關注,越來越多地涉及到分子表示學習過程中,特別是當模型需要學習原子上的力或能量時。DimeNet [Klicpera et al., 2019],GemNet [Klicpera et al., 2021a]和定向MPNN [Klicpera et al., 2021b]提出了定向消息嵌入。雖然他們仍然以二維分子圖作為輸入,但他們不僅考慮了原子之間的距離,還考慮了空間方向,這是由原子的二維坐標計算的。它們利用方向信息,根據原子之間的角度轉換信息。利用球面貝塞爾函數和球面諧波,可以有效地聯合提出距離和角度。一般來說,二維圖強調拓撲信息,而三維幾何圖更注重能量。GeomGCL [Li et al., 2022]計算確定的幾何因子(角度和距離),并利用徑向基函數獲得幾何嵌入。GRAPHMVP [Liu et al., 2022a]采用3D構象,通過3D GNN模型學習分子表示。為了完成三維圖結構的識別,SphereNet [Liu et al., 2022b]設計了一個球形消息傳遞作為三維分子學習的強大方案。
基于知識圖譜的方法
知識圖譜是一種將分子結構不變但豐富的外部知識引入模型的有效策略。與以往的方法不同,KGNN [Lin et al., 2020]和MDNN [Lyu et al., 2021]探索以分子為節點,以分子之間的連接關系為邊的知識圖譜。這樣,通過知識圖譜結構而不是分子結構來學習分子表示。Fang等[Fang et al., 2022]構建了一個化學元素知識圖,由(化學元素、關系、屬性)形式的三元組構成,如(Gas, isStateOf, Cl)。他們建議使用這種KG來增加分子中的節點和邊,并利用對比學習來最大化分子圖的兩種觀點之間的一致性。
4 應用
在這里,我們介紹了幾個代表性的應用和算法,以解釋如何設計模型來處理基于MRL的特定應用。分子性質預測在藥物發現中起著重要的作用,能夠發現具有靶點性質的候選藥物。通常,該任務包括兩個階段:生成固定長度分子表示的分子編碼器和預測器。預測器根據學習到的分子表示預測分子是否具有目標性質或預測分子對目標性質的反應。性能預測結果可以直接反映學習到的分子表示質量。因此,性質預測問題得到了研究者的廣泛關注。越來越多的通用圖學習論文[Hu* et al., 2020; Gilmer et al., 2017; Brockschmidt, 2020; You et al., 2020]利用分子圖數據集和屬性預測任務來檢查其算法的性能。首先提出了針對MRL的分子深度學習方法,并將其應用于本課題。MolR [Wang et al., 2022]提出了一種通過保持分子反應在嵌入空間中的等價關系來學習分子表征的新方法,該方法也首先應用于性質預測任務。此外,現有的分子數據集不足是化學領域普遍存在的問題。Guo等人[Guo et al., 2021]和Wang等人[Wang et al., 2021]提出了元學習方法來處理性質預測中的這個問題。
藥物發現的關鍵挑戰是找到具有靶標性質的靶標分子,這在很大程度上依賴于領域專家。分子生成是為了使這個過程自動化。完成這項任務需要兩個步驟:一是設計一個編碼器,以連續的方式表示分子,這有利于優化和預測性質;另一種是提出一種解碼器,將優化后的空間映射到具有優化特性的分子圖上。由于SMILES 不是用來捕獲分子相似性的,分子生成模型大部分時間直接在分子圖上操作。為了避免無效狀態[Jin et al., 2018a],大多數工作都是通過子結構生成圖的子結構,而不是通過節點生成圖的子結構。JT-VAE [Jin et al., 2018a]和VJTNN [Jin et al., 2018b]基于圖中的子結構,首先將分子圖分解為連接樹。然后他們用神經網絡對樹進行編碼。接下來,他們重建連接樹,并將樹中的節點組裝回原始的分子圖。HierVAE [Jin et al., 2020b]基于基序分層生成分子圖。MoLeR [Maziarz et al,2022]在生成過程中保持支架結構,并依靠基序生成分子。GraphAF [Shi et al,2020]利用流動模型生成分子圖。MoleculeChef [Bradshaw et al,2019]是一種用于生成可合成分子的模型。它首先生成反應物分子,然后利用分子transformer (Schwaller et al., 2019)模型生成目標分子。
反應的預測
反應預測和反合成預測是有機化學的基本問題。反應預測是指利用反應物預測反應產物。反合成預測過程與反應預測相反。以SMILES為輸入時,將反應預測任務作為翻譯任務。以分子圖為輸入時,分為反應預測和反合成預測兩步。與WLDN [Jin et al., 2017]和WLDN++ [Coley et al., 2019]一樣,該模型需要先預測反應中心,然后預測潛在產物,這是主要產物。與之前的工作不同,MolR [Wang et al., 2022]將反應預測的任務定義為一個排序問題。測試集中的所有產品都放在候選池中。MolR根據從給定的反應物集學習到的嵌入對這些候選產物進行排名。
藥物之間相互作用
檢測藥物-藥物相互作用(DDI)是一項重要的任務,可以幫助臨床醫生做出有效的決策和安排合適的治療方案。準確的DDI不僅可以幫助藥物推薦,還可以有效地識別潛在的不良反應,這對患者和社會都至關重要。AttSemiGAE[Ma et al., 2018]提出通過測量多種藥物特征的藥物相似性來進行DDI。SafeDrug [Yang et al., 2021a]設計了全局和局部兩個模塊,以完全編碼藥物分子的連通性和功能,從而產生DDI。KGNN [Lin et al., 2020]和MDNN [Lyu et al., 2021]都構建了藥物知識圖譜,以提高DDI的準確性。
5. 數據集與基準
我們在表2中總結了代表性的分子表示學習算法。為方便查閱實證結果,每篇論文均附有代碼鏈接(如有)。文中還列出了相應的任務、編碼算法、方法和訓練方法。這里,方法指定了我們在第3節中討論的4種方法。對于訓練方法,我們包括自我監督學習、監督學習、訓練前學習和對比學習。除了算法,我們還在表3中總結了不同化學任務常用的數據集。