深度生成模型旨在復制給定的數據分布以產生新的樣本,在近年來取得了前所未有的進步。他們的技術突破使得在視覺內容的合成上實現了無與倫比的質量。然而,他們巨大成功的一個關鍵先決條件是有足夠數量的訓練樣本,這需要大量的計算資源。當在有限的數據上進行訓練時,生成模型往往會因過度擬合和記憶化而導致嚴重的性能下降。
**因此,研究人員近來花費了大量的精力來開發能夠從有限的訓練數據生成合理且多樣化圖像的新型模型 **。盡管在有限數據情況下提高訓練穩定性和合成質量的努力眾多,但仍缺乏一個系統的調查,該調查提供1)清晰的問題定義、關鍵挑戰和各種任務的分類;2)對現有文獻的優點、缺點和剩余限制的深入分析;以及3)對有限數據下圖像合成領域的潛在應用和未來方向的深入討論。
為了填補這個空白,并為新入門這個主題的研究人員提供一個信息豐富的介紹,這個調查提供了一個全面的審查和一個關于有限數據下圖像合成發展的新的分類。特別是,它全面而全方位地涵蓋了問題的定義、要求、主要解決方案、流行的基準和剩余的挑戰。我們希望這個調查能為研究人員和實踐者提供一個信息豐富的概覽和一個寶貴的資源,并推動這個重要主題的進一步進步和創新。除了相關的參考文獻,我們的目標是不斷維護一個最新的存儲庫,以在GitHub/awesome-few-shot-generation上追蹤這個主題的最新進展。
1. 引言
深度生成模型已經取得了巨大的發展,并已經被應用于廣泛的智能創造任務,特別是在圖像和視頻合成[1],[2],[3],[4],[5],[6],[7],[8],[9],音頻和語音合成[10],[11],[12],[13],[14],[15],多模式生成[16],[17],[18]等方面。他們的技術突破也直接方便了我們日常生活的許多方面,包括各種表示形式(例如,3D/2D表示)的內容創建[19],[20],[21],[22],定制生成和編輯[23],[24],[25],[26],[27],以及藝術合成/操作[28],[29],[30],[31]。盡管取得了這些顯著的進步,但大多數現有的生成模型需要大量的數據和計算資源進行訓練。例如,最常用的數據集,人臉FFHQ [2],[32](70K),戶外/室內場景LSUN [33](1M),和對象ImageNet [34](1M),都包含足夠的訓練樣本。這樣的先決條件對只有有限訓練樣本的實踐者和研究者(如著名藝術家的繪畫和稀有疾病的醫療圖像)構成了重大挑戰。因此,有越來越多的需求要在有限的訓練數據下學習生成模型,這在近年來引起了廣泛的關注。 在有限數據下進行圖像合成的主要挑戰是模型過擬合和記憶化的風險,這可以顯著影響生成樣本的真實度和多樣性[35],[36],[37],[38],[39]。也就是說,由于過度擬合,模型可能只是復制訓練圖像,而不是生成新的圖像,從而導致合成質量下降。例如,當在有限數據下訓練生成對抗網絡(GANs)[40]時,判別器容易記住訓練圖像,從而對生成器提供無意義的指導,導致不利的合成。為了解決這些限制,許多研究工作已經開發出來,以改善在少數情況下的合成質量[35],[36],[37],[41],[42]。這些工作提出了各種策略,從不同的角度來減輕過擬合和記憶化的風險,如數據增強、正則化和新的架構。
盡管在有限數據下的圖像合成領域已經取得了顯著的進步,但該領域缺乏統一的問題定義和分類。例如,少樣本圖像生成在[41],[43],[44],[45]中被定義為給定一個類別的少量圖像,生成這個未見過的類別的多樣化和逼真的圖像,而在[46],[47],[48],[49],[50]中,少樣本圖像生成指的是將大規模和多樣化的源域的先驗知識適應到一個小的目標域。然而,他們在問題需求、模型訓練和測試設置上有顯著的不同。這種不一致的定義可能會導致不熟悉這些工作的讀者產生歧義和誤解。因此,一個全面的問題定義和分類對于更清晰地理解這個領域是至關重要的。此外,考慮到系統性調查的缺乏和有限數據生成的興趣增加,我們認為有必要組織一個調查,以幫助社區追蹤其發展。為此,本文首先為少樣本范式中的各種任務提供了一個清晰的問題定義,并將它們分為四類:數據高效生成模型(第4節),少樣本生成適應(第5節),少樣本圖像生成(第6節),和單樣本圖像合成(第7節)。然后,本文對該領域的先前研究進行了全面的概述。特別是,現有替代方案的技術演變、優點和缺點都有所呈現。另外,我們介紹了幾個相關的應用,并突出了需要未來工作進一步研究的開放問題(第8節)。總的來說,這項調查旨在為新入門該領域的學者提供有限數據下圖像合成的全面和系統的理解。我們希望我們的工作能為那些愿意僅用數十張訓練圖像開發自己的生成模型的研究者提供一種指導。本調查的貢獻總結如下:
? 清晰的問題定義和分類。本調查為有限數據下的圖像合成中的各種合成任務提供了清晰且統一的問題定義。此外,本調查提出了一個系統的分類法,將這些任務劃分為四類:數據高效圖像生成、少樣本生成適應、少樣本圖像生成和單樣本圖像合成。 ? 全面性。本調查對少樣本范例中現有的最先進的生成模型進行了全面的概述。我們比較和分析了現有方法的主要技術動機、貢獻和局限性,這些可以啟發進一步改進的潛在解決方案。 ? 應用和開放的研究方向。除了技術調查外,本調查還討論了潛在的應用,并突出了需要進一步調查以改善有限數據下圖像合成的開放性研究問題。 ? 及時的最新資源庫。為了持續追蹤這個領域的快速發展,我們在GitHub/awesome-few-shotgeneration上提供了最新相關論文、代碼和數據集的策劃列表。
本綜述關注的是訓練深度生成模型在有限訓練數據下生成多樣化和合理的圖像的方法。這些方法的主要目標是通過充分利用有限訓練數據的內部信息并在數據分布范圍內生成新的樣本來減輕過擬合問題。然而,這些方法在模型輸入、訓練圖和評估方面有所不同。
因此,在這項調查中,我們的目標是1) 讓讀者對有限數據下圖像合成領域的各種問題設置有清晰的理解,2) 對先前藝術的模型概念、方法特性和應用提供深入的分析和深思熟慮的討論,以及3) 提出一些未來研究的方向,并激發出更多有趣的工作以進一步改進。特別是,根據問題定義和實驗設置,我們將現有的方法分為四類:數據高效生成模型、少樣本生成適應、少樣本圖像生成、單樣本圖像生成。需要注意的是,所有這些類別都旨在生成與數據分布相對應的逼真和多樣化的圖像。這與少樣本學習中的生成建模形成鮮明對比,后者顯式地估計概率分布以計算給定樣本的類標簽[51],[52]。關于少樣本學習的進展,我們建議讀者參閱[53],[54]以獲取更全面的評述。
在這次調查中,我們的目標是提供關于有限數據下圖像合成的各種任務的清晰理解。為了實現這個目標,我們提出了每個任務的定義和表述,考慮到每個問題背后的訓練范式和任務特定的需求。我們已經構建了四個獨立的問題,即數據高效生成模型、少樣本生成適應、少樣本圖像生成和單樣本圖像生成。為了更好地說明這些問題,我們考慮了深度生成模型家族中的一個代表性類別,即生成對抗網絡(GANs),來描繪這些問題的訓練流程(見圖1)。需要注意的是,所呈現的流程并不是為了代表每個任務中使用的所有方法,而是作為一個示例。此外,我們在表1中總結了每個任務的定義、模型需求和主要挑戰。詳細的方法設計和分類分別在相應的部分進行了介紹。
圖相關應用在學術界和工業界都有著顯著的增長,這主要是因為圖具有強大的表示能力。然而,高效地執行這些應用面臨多種挑戰,如負載不平衡、隨機內存訪問等。為解決這些挑戰,研究人員提出了各種加速系統,包括軟件框架和硬件加速器,所有這些系統都包含圖預處理(GPP)的步驟。GPP作為應用正式執行之前的準備步驟,涉及到諸如采樣、重新排序等技術。然而,GPP的執行常常被忽視,因為主要的關注點通常是增強圖應用本身。這種疏忽令人擔憂,特別是考慮到實際圖數據的爆炸性增長,其中GPP變得至關重要,甚至占據了系統運行開銷的主導地位。
此外,由于高度定制,GPP方法在不同設備和應用中表現出顯著的差異。不幸的是,還沒有全面的工作系統地總結了GPP。為了解決這一缺口,并促進對GPP更好的理解,我們呈現了一個專門針對這一領域的全面調查。我們提出了一個雙層GPP分類法,同時考慮到算法和硬件的視角。通過列出相關的工作,我們闡述了我們的分類法,并對不同的GPP技術進行。
//www.zhuanzhi.ai/paper/13520de2fddf1159cd8a72d80bc67e6d
圖處理應用因其從圖數據中提供有價值洞見的能力而受到了顯著關注。在各種實際應用場景中,數據可以使用圖結構進行有效表示,其中社交網絡是一個典型例子[103]。例如,圖1(a)描述了Facebook社交網絡的圖抽象。有兩種最廣泛使用的圖處理應用類型:傳統圖計算(TGC),包括廣度優先搜索(BFS)、頁面排名(PR)等算法;以及圖神經網絡(GNN),如圖卷積網絡(GCN)和圖注意力網絡(GAT)。這些圖處理算法在多種場景中得到了廣泛應用,包括社交網絡推薦[130]、知識圖分析[79]、蛋白質預測[37]、視覺推理[117]等。為了應對圖數據規模的指數級增長,這些算法日益受到歡迎,并廣泛部署在各種數據中心,如谷歌地圖[28]、微軟學術圖[46]、阿里巴巴電商平臺[112]、百度地圖[31]等。
圖處理算法的執行面臨著幾個挑戰,人們已經做出了許多努力來緩解這些問題。首先,在TGC算法中,執行行為,包括資源利用率和操作順序等因素,往往表現出不規則性。這些不規則性源于圖的不規則拓撲,導致不規則的工作負載、內存訪問和通信[13]。為了解決這些挑戰,提出了各種基于通用硬件平臺(CPU & GPU)的框架,如GraphChi [55]和CuSha [54]。此外,還開發了定制的架構以進一步加速,如基于ASIC(Application-Specific Integrated Circuit)的Graphicionado [42],基于FPGA(Field Programmable Gate Array)的ForeGraph [25],以及基于PIM(Processing-In-Memory)的GraphR [89]。其次,GNN算法表現出不規則和規則執行行為的結合[107, 110],因為增加了神經網絡(NNs)來轉換每個頂點的高維特征向量。為了解決GNN中的正則和不規則特性,已經提出了幾個專用的加速平臺,如基于ASIC的HyGCN[108]和基于FPGA的GraphACT[118]。
圖處理的執行嚴重依賴于一個關鍵操作——圖預處理(GPP)。例如,GraphChi [55]、Graphicionado [42]、GraphDynS [109]、FPGP [24]和HyGCN [108]利用重組技術將圖數據預分割為多個分片,以實現連續的內存訪問并提高性能。在Pregel [74]、GraphLab [70]、DistDGL [132]和PaGraph [63]等并行圖處理系統中,通過預先進行圖劃分,將大規模的圖數據劃分為多個子圖,并將其分配給多個處理器/機器,實現負載均衡并最小化通信開銷。為了促進GNN的并行高效訓練,PaGraph [63]和DistDGL [132]使用采樣技術創建小批量。GraphACT [118]和GCNInfer [120]預先合并共同鄰居,以減少后續的冗余操作。因此,GPP對于高效執行圖處理算法至關重要,有利于廣泛的圖處理系統,包括單機圖處理框架、分布式圖處理框架、圖處理加速器等。為了提供清晰性,我們將一個典型的圖處理系統抽象為兩個主要步驟:圖預處理(GPP)和圖形式處理(GFP),如圖2所示。在GPP步驟中,對原始圖數據進行各種操作,以準備輸入數據集,以便后續執行圖處理算法。在GFP步驟中,計算單元加載預處理的數據,并執行圖處理算法以獲得最終結果。值得注意的是,GPP方法的選擇取決于原始圖數據集的特征以及執行平臺。例如,在并行系統中,使用分區來管理大規模圖數據,如使用CPU集群的DistDGL [132]和使用多GPU的PaGraph [63]。GraphACT [118]使用重構方法來減少FPGA上的冗余計算,從而實現高性能和能效。總體而言,GPP提供了兩個主要好處:a)減少計算、存儲和通信開銷;b)滿足各種算法在資源有限的設備上的執行需求。
不幸的是,由于圖數據的爆炸性增長,GPP開銷變得越來越重要。接下來,我們給出以下示例,通過數值比較來可視化GPP的重要性。在Graph500比賽1中,百億級超級計算機Fugaku[81]展示了390秒的高GPP時間(C_TIME),與0.25秒的BFS執行時間相比,這是一個驚人的1560×。在Gorder [102]中,在一個大型Twitter數據集上進行圖重排需要1.5小時,而PageRank僅在13.65分鐘內完成了100次迭代。因此,如果輸入圖不經常重用,對于大型數據集來說,大量的GPP時間可能不是一個值得的投資。同樣,在Graphite [38]中,當執行GraphSAGE時,采樣時間占總訓練時間的80%以上。這些示例突出了減少GPP開銷以提高圖處理系統的整體執行效率的重要性。基于上述分析,出現了兩個重要結論,突顯了GPP調查的迫切需求。首先,GPP對于高效的圖處理至關重要。其次,GPP開銷變得越來越顯著和不可忽視,因此有必要降低GPP開銷。因此,GPP領域具有巨大的潛力,需要進行更深入的研究,以充分探索GPP提供的優化可能性。然而,盡管有一些研究分析了單個GPP方法[2, 3, 21, 66],但缺乏對整個領域的GPP技術的全面綜述。這一差距阻礙了對通過GPP實現的潛在優化的全面理解。在表1中,我們列出了圖處理領域相關調查的列表,這些調查涉及GPP方法。一些調查既探討了TGC加速技術,也探討了GNN加速技術,其中一些涉及GPP方法。例如,對基于GPU和FPGA的TGC的調查[11, 88]涉及處理大型圖的劃分技術。其他工作[40, 45, 76, 83]分析了分布式系統和基于內存的圖處理系統的靜態和動態圖劃分。最近的調查[1, 16, 59, 62, 67, 86, 87, 97, 127]廣泛地涵蓋了GNN加速,并描述了GPP步驟在GNN執行中的意義。然而,這些調查仍然集中在分析GFP步驟的優化上,而GPP并不是他們的主要關注點。
為了充分利用GPP在圖處理中的潛力,進行硬件和算法優化至關重要。然而,GPP中的硬件加速和算法優化之間存在差距。現有研究主要集中在GFP的硬件加速上,對GPP的關注有限,或者可能只在算法層面分析單個GPP技術。本文主要旨在通過提供系統和全面的GPP方法總結和分析來彌補這一差距,包括算法和硬件兩個方面。我們很榮幸地提出了GPP方法的全面概述,旨在為GPP的進步做出貢獻,并為該領域的進一步研究提供參考。我們的工作可能為GPP執行和圖處理加速的未來優化提供有價值的見解。我們的貢獻如下:綜述:我們回顧了與圖處理執行相關的挑戰,考慮了計算、存儲和通信方面的問題。我們通過相關示例強調了GPP對優化執行的重要意義。分類:我們對現有的GPP方法進行分類,并從算法和硬件的角度提出了一個雙層分類。算法類別包括圖表示優化和數據表示優化。硬件類別包括高效計算、存儲和通信。分析:根據提出的分類,我們對現有的GPP方法進行了詳細介紹。具體而言,我們從算法和硬件的角度列舉和分析了相關工作。比較:我們綜合考慮算法和硬件方面,對現有的GPP方法進行了全面的總結和比較,以便更好地了解它們的優勢和劣勢。討論:我們討論了與GPP相關的挑戰,如高開銷、準確性損失等。最后,我們概述了未來探索的潛在研究方向。
本文的其余部分組織如下:第2節提供了GPP的初步信息,涵蓋了圖概念和算法。第3節探討了圖處理的執行挑戰,并展示了GPP如何解決這些挑戰。第4節提出了基于算法優化因素和硬件優化效果的雙層GPP分類。第5節和第6節分別從算法和硬件角度舉例分析了GPP方法。第7節提供了全面的總結和比較。第8節討論了普遍存在的GPP瓶頸和潛在的研究方向。最后,第9節總結了我們的工作。
2 圖預處理:解決圖處理中的挑戰
在本節中,我們將探索圖處理執行中的硬件級挑戰。通過探索這些挑戰,強調了GPP方法在提高圖處理性能方面的關鍵作用。我們從圖特征概述開始,詳細介紹了出現的不同執行行為。分析了來自這些行為的挑戰,強調了GPP在解決這些問題以實現高效圖處理方面的重要性。
圖預處理:雙層決策分類法
在本節中,我們將介紹一個全面的GPP方法分類,利用一個雙層決策框架,如圖7所示。在算法層面,根據優化因子的不同,將這7種方法分為圖表示優化和數據表示優化。從硬件角度分析了GPP效應,將GPP方法分為高效計算、高效存儲和高效通信3類;這個框架增強了理解。接下來,概述分類方法并解釋分類背后的基本原理。
圖處理問題(GPP)涉及兩種類型的輸入圖數據調整:圖表示優化和數據表示優化。圖表示優化通過改變圖的拓撲結構或密度來提高圖算法的性能,而數據表示優化則調整存儲順序或壓縮數據精度。通過運用這兩種優化方法,研究人員可以探索各種GPP方法,以在算法性能和準確性之間取得平衡,從而提高圖算法執行的效率和有效性。
圖表示優化:這一組包括分區、采樣、稀疏化和重構技術。執行圖處理算法時面臨的挑戰通常源于圖結構的不規則性。這些GPP方法修改輸入圖的結構,以提高內存訪問和算法執行效率。值得注意的是,分區、采樣和稀疏化可能導致信息丟失,這可能潛在地影響準確性。相比之下,重構僅改變拓撲結構,而不影響算法的最終結果。
數據表示優化:這一組包括量化、重新排序和重新組織技術。與圖表示優化方法不同,這些技術不改變圖的拓撲結構,而是專注于調整數據存儲。然而,量化降低了數據的精度,引入了準確性和執行效率之間的權衡。另一方面,重新排序和重新組織主要調整數據訪問模式,以提高性能,而不影響算法的最終結果。
考慮到第三節中突出的挑戰和優化目標,圖處理問題(GPP)在三個方面提供了優化圖算法執行的機會:高效計算、高效存儲和高效通信。通過有效管理計算負載,優化圖處理系統的性能和資源利用率。
高效計算:從兩個角度來提高計算效率:負載均衡和計算減少。首先,負載均衡確保了計算工作在資源之間均勻分布,最大化它們的利用率,避免過載計算資源。其目標是有效利用可用的計算單元,從而提高性能。其次,通過最小化計算量(包括減少冗余計算和數據量)可以減少計算開銷。用于高效計算的GPP方法包括分區、采樣、稀疏化、重構、量化和重新排序。
高效存儲:可以通過減少容量需求和減少數據移動來實現。首先,為了減少容量需求,需要減少片上緩沖的數據量,從而減少I/O開銷。一個有效的方法是減少總體數據量。其次,最小化數據移動可以顯著提高內存訪問帶寬的利用率。通過有效管理存儲資源并優化數據移動,存儲效率可以得到提高,從而提高整體性能和資源利用率。用于高效存儲的GPP方法包括采樣、重構、量化、重新排序和重新組織。
高效通信:可以通過減少通信頻率或延遲來實現。首先,通過減少通信頻率,可以最小化計算組件的同步開銷,包括單臺機器中的處理器和分布式系統中的計算節點。提高數據局部性是一種減少組件之間數據交換需求的有用方法。其次,減少通信延遲意味著充分利用通信帶寬。一種有效的方法是減少不規則和冗余的通信請求。用于高效通信的GPP方法包括分區、采樣、量化和重新排序。
如何使用大模型來進行檢索優化?看這篇綜述就夠了
作為信息獲取的主要手段,如搜索引擎等信息檢索(IR)系統已經融入了我們的日常生活。這些系統還作為對話、問答和推薦系統的組件。
信息檢索的軌跡從其基于術語的方法的起源動態地發展到與先進的神經模型的整合。雖然神經模型擅長捕捉復雜的上下文信號和語義細微差別,從而重塑信息檢索的格局,但它們仍然面臨如數據稀缺、可解釋性以及生成上下文可能的但可能不準確的回應等挑戰。
這種演變需要結合傳統方法(如基于術語的稀疏檢索方法與快速響應)和現代神經結構(如具有強大語言理解能力的語言模型)。與此同時,大型語言模型(LLMs),如ChatGPT和GPT-4,由于其出色的語言理解、生成、概括和推理能力,已經革命性地改變了自然語言處理。
因此,最近的研究已經尋求利用LLMs來改進IR系統。鑒于這一研究軌跡的快速發展,有必要整合現有的方法并通過全面的概述提供細致的見解。
在這項綜述中,我們深入探討了LLMs和IR系統的融合,包括查詢重寫器、檢索器、重新排序器和讀取器等關鍵方面。此外,我們還探討了這個不斷擴展領域內的有前景的方向。
//www.zhuanzhi.ai/paper/cfc9d30dab451b42c356f809ecf111a6
大模型驅動的信息檢索
信息訪問是人類日常基本需求之一。為了滿足快速獲取所需信息的需求,開發了各種信息檢索(IR)系統[1–4]。顯著的例子包括Google、Bing和Baidu等搜索引擎,它們在互聯網上作為IR系統,擅長根據用戶查詢檢索相關的網頁,并為用戶提供便捷、高效地訪問互聯網上的信息。值得注意的是,信息檢索超出了網頁檢索的范圍。在對話系統(聊天機器人)[1, 5-8]中,如微軟的小冰[2]、蘋果Siri1和Google助手2,IR系統在檢索與用戶輸入語言相應的適當回應中起到了關鍵作用,從而產生自然流暢的人機對話。同樣,在問答系統[3, 9]中,為了有效地解答用戶的問題,IR系統被用來選擇相關的線索。在圖像搜索引擎[4]中,IR系統擅長返回與用戶輸入查詢相符的圖片。鑒于信息的指數級增長,研究和產業對開發有效的IR系統越來越感興趣。
IR系統的核心功能是檢索,其目的是確定用戶發出的查詢與待檢索的內容之間的相關性,包括文本、圖像、音樂等各種類型的信息。在本綜述的范圍內,我們僅專注于審查那些文本檢索系統,其中查詢與文檔的相關性通常由它們的匹配得分來衡量。3考慮到IR系統操作大量的知識庫,檢索算法的效率變得至關重要。為了提高用戶體驗,檢索性能從上游(查詢重構)和下游(重新排序和閱讀)的角度得到了增強。作為一個上游技術,查詢重構旨在優化用戶的查詢,使其更有效地檢索到相關的文檔[10, 11]。隨著會話式搜索的日益受歡迎,這種技術受到了越來越多的關注。在下游方面,重新排序方法被開發出來,以進一步調整文檔的排名[12-14]。與檢索階段相比,重新排序僅在檢索器已經檢索到的有限集合的相關文檔上執行。在這種情況下,重點放在實現更高的性能而不是保持更高的效率,允許在重新排序過程中應用更復雜的方法。此外,重新排序可以滿足其他特定的需求,如個性化[15-18]和多樣化[19-22]。在檢索和重新排序階段之后,加入了一個閱讀組件,用于總結檢索到的文檔并為用戶提供簡潔的文檔[23, 24]。雖然傳統的IR系統通常要求用戶自己收集和整理相關信息;但是,閱讀組件是New Bing等新IR系統的一個不可分割的部分,簡化了用戶的瀏覽體驗,節省了寶貴的時間。
信息檢索(IR)的軌跡經歷了動態的演變,從其基于術語的方法的起源轉變為與神經模型的整合。最初,IR基于基于術語的方法[25]和布爾邏輯,專注于為文檔檢索進行關鍵詞匹配。隨著向量空間模型[26]的引入,這一范式逐漸發生了變化,釋放出捕獲術語之間細微的語義關系的潛力。這種進展隨著統計語言模型[27, 28]繼續發展,通過上下文和概率考慮來改進相關性估計。在這一階段,有影響力的BM25算法[29]起到了重要作用,通過考慮術語頻率和文檔長度的變化,徹底改變了相關性排名。IR歷程中的最新篇章是由神經模型的崛起[3, 30-32]標志的。這些模型擅長捕獲復雜的上下文提示和語義細節,重塑了IR的格局。然而,這些神經模型仍然面臨如數據稀缺、可解釋性以及可能生成合理但不準確回應等挑戰。因此,IR的演變仍然是一個平衡傳統優勢(如BM25算法的高效率)與現代神經結構所帶來的顯著能力(如語義理解)的旅程。
近年來,大型語言模型(LLMs)已在各種研究領域,如自然語言處理(NLP)[33-35]、推薦系統[36-39]、金融[40],甚至分子發現[41]中嶄露頭角,成為變革的力量。這些前沿的LLMs主要基于Transformer架構,并在各種文本源上進行廣泛的預訓練,包括網頁、研究文章、書籍和代碼。隨著它們的規模繼續擴展(包括模型大小和數據量),LLMs在其能力上展現出了顯著的進步。一方面,LLMs在語言理解和生成方面展現出了前所未有的熟練程度,從而產生更像人類的響應,并更好地與人類的意圖對齊。另一方面,更大的LLMs在處理復雜任務[42]時展示了令人印象深刻的突發能力,如泛化和推理技能。值得注意的是,LLMs可以有效地應用其學到的知識和推理能力,只需幾個針對特定任務的示范或適當的指導即可解決新任務[43, 44]。此外,如基于上下文的學習這樣的先進技術,已經大大增強了LLMs的泛化性能,無需對特定的下游任務進行微調[34]。這一突破尤為寶貴,因為它減少了大量的微調需求,同時獲得了顯著的任務性能。通過使用如“思維鏈”這樣的提示策略,LLMs可以生成帶有逐步推理的輸出,導航復雜的決策過程[45]。無疑,利用LLMs的強大力量可以提高IR系統的性能。通過整合這些復雜的語言模型,IR系統可以為用戶提供更準確的回應,從根本上重塑信息訪問和檢索的格局。
已經進行了初步的嘗試,以利用LLMs在開發新型IR系統中的潛力。值得注意的是,就實際應用而言,New Bing旨在通過從不同的網頁中提取信息,并將其壓縮成簡潔的摘要作為用戶生成查詢的響應,從而改進用戶使用搜索引擎的體驗。在研究界,LLMs已在IR系統的特定模塊(如檢索器)中證明了其用途,從而增強了這些系統的整體性能。由于LLM增強型IR系統的迅速發展,全面審查它們的最新進展和挑戰至關重要。我們的綜述提供了對LLMs和IR系統交叉點的深入探索,涵蓋了關鍵視角,如查詢重寫器、檢索器、重新排名器和讀取器(如圖1所示)。這項分析加深了我們對LLMs在推進IR領域中的潛力和局限性的理解。為了這次綜述,我們創建了一個Github倉庫,收集了有關LLM4IR的相關論文和資源。我們將繼續使用新的論文更新倉庫。此綜述也將根據此領域的發展定期進行更新。我們注意到有幾篇關于PLMs、LLMs及其應用(例如AIGC或推薦系統)的綜述[46–52]。在這些中,我們強烈推薦LLMs的綜述[52],它為LLMs的許多重要方面提供了系統而全面的參考。與它們相比,我們專注于為IR系統開發和應用LLMs的技術和方法。此外,我們注意到有一篇觀點論文討論了IR在遇到LLMs時的機會[53]。這將是關于未來方向的本次綜述的極好補充。
此綜述的其余部分組織如下:第2部分介紹IR和LLMs的背景。第3、4、5、6部分分別從查詢重寫器、檢索器、重新排名器和讀取器的四個視角審查了最近的進展,這是IR系統的四個關鍵組件。然后,第7部分討論了未來研究中的一些可能方向。最后,我們在第8部分總結了主要發現,結束這次綜述。
結論
在這項綜述中,我們對LLMs在IR的多個維度上的變革影響進行了深入的探索。我們根據它們的功能將現有方法組織成不同的類別:查詢重寫、檢索、重新排序和讀取模塊。在查詢重寫領域,LLMs已經展示了其在理解模糊或多面的查詢方面的有效性,增強了意圖識別的準確性。在檢索的背景下,LLMs通過使查詢和文檔之間的匹配更加細致,同時考慮上下文,提高了檢索的準確性。在重新排序領域,LLM增強的模型在重新排序結果時考慮了更多的語言細節。在IR系統中加入讀取模塊代表了向生成綜合性回應而不僅僅是文檔列表的重要一步。LLMs的整合到IR系統帶來了用戶與信息和知識互動方式的根本變化。從查詢重寫到檢索,重新排序和讀取模塊,LLMs已經通過高級語言理解、語義表示和上下文敏感處理豐富了IR過程的每一個方面。隨著這一領域的不斷進展,LLMs在IR中的旅程預示著一個更加個性化、精確和以用戶為中心的搜索體驗的未來。這項綜述著重于審查最近的將LLMs應用于不同信息檢索組件的研究。除此之外,LLMs的出現帶來了一個更大的問題:在LLMs的時代,傳統的IR框架是否還有必要?例如,傳統的IR旨在返回與發出的查詢相關的文檔的排名列表。然而,生成語言模型的發展引入了一個新的范例:直接生成對輸入問題的答案。此外,根據最近的一篇觀點論文[53],IR可能會演變為多種系統的基本服務。例如,在一個多代理模擬系統[162]中,IR組件可以用于記憶回憶。這意味著未來的IR將會有許多新的挑戰。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里,基于深度學習的方法在這個領域取得了顯著進展。最近,一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer,在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說,視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述,總結了近期的進展。我們首先回顧背景,包括問題定義、數據集和先前的卷積方法。接下來,我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構,我們檢查各種方法設計,包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置,包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外,我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后,我們確定了這個領域的開放性挑戰,并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題,涉及到諸多實際應用,如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始,分割問題已經得到了大量的研究關注。在過去的十年里,深度神經網絡,如卷積神經網絡(CNNs)[6]、[7]、[8],例如全卷積網絡(FCNs)[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功,并帶來了更好的結果。與傳統分割方法相比,基于CNN的方法具有更好的泛化能力。由于它們的卓越性能,CNN和FCN架構一直是分割研究工作的基本組成部分。
最近,隨著自然語言處理(NLP)的成功,變換器(Transformer)[13]被引入作為循環神經網絡(RNNs)[14]的替代品。Transformer包含一個新穎的自注意力設計,并可以并行處理各種標記。然后,基于Transformer設計,BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能,加速了變換器進入視覺領域的發展。最近,研究人員將變換器應用于計算機視覺(CV)任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時,一些工作[19]、[20]使用純自注意力層替換卷積層。之后,兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer(ViT)[21],它是一種純粹的Transformer,直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer(DETR)[22],它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計,簡化了檢測和分割的流程。然后,隨后的工作在各種視覺任務上采用改進的設計,包括表示學習[23]、[24],對象檢測[25],分割[26],低級圖像處理[27],視頻理解[28],3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面,最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比,大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起,有關視覺變換器的調查有很多[31]、[32]、[33]。然而,其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時,還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而,在我們所知范圍內,尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信,總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中,我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始,然后轉向基于Transformer的方法,涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是,對于主要的綜述部分,我們首先在第3.1節中將現有方法的核心框架總結為一個元架構,這是DETR的擴展。通過改變元架構的組件,我們將現有方法分為六類,包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外,我們還研究了密切相關的具體設置,包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外,還提供了以前基于CNN的模型和其他領域的相關文獻的概述,如目標檢測,目標跟蹤,以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務,包括語義分割、實例分割、全景分割及其變體,如視頻和點云分割。此外,我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法,只回顧了一些與cnn密切相關的方法,以供參考。雖然有很多預印本或已出版的作品,但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說,圖1顯示了我們調查的流程。在第2節中,首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后,回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后,我們在第六節提出了未來的研究方向,并在第七節總結了本文的研究。2. 方法綜述****在本節中,基于類似DETR的元架構,回顧了基于transformer的分割的關鍵技術。如圖3所示,元架構包含一個特征提取器、對象查詢和transformer解碼器。然后,以元體系結構為主線,綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后,在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。
在本節中,我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術,而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。
2.1 強表征
學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例,SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果,沒有花哨的東西。在vit之后,研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。
2.2 解碼器中的交互設計
本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域,用于VOD、VIS和VPS,重點是建模時間一致性和關聯。
3 優化對象查詢
與Faster-RCNN[111]相比,DETR[22]需要更長的收斂時間。由于對象查詢的重要作用,已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法,將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索,以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。
使用查詢進行關聯
得益于查詢表示的簡單性,最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯,另一種用于任務級關聯。前者采用實例判別的思想,解決視頻中的實例匹配問題,如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。
條件返回查詢融合
除了使用對象查詢進行多任務預測外,一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢,解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源,將這些工作分為兩方面:語言特征和圖像特征
4 相關的領域
在本節中,我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。
點云分割
包括語義級點云分割,實例級點云分割
調優基礎模型
我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法,使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識,并設計更好的方法來適應下游設置。對于開放詞匯表學習,核心思想是將預訓練的VLM特征與當前檢測器對齊,以實現新的類別分類。
領域感知分割
領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下,將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置,包括語義分割和目標檢測。在vit之前,之前的工作[291],[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干,并提出了三種訓練策略,包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果,是UDA分割的強大基線。然后,HRDA[293]通過多分辨率訓練方法改進了DAFormer,并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發,MIC[294]提出了掩碼圖像一致性,以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊,在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反,它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是,通過引入領域查詢來實現對齊,并在解碼器上執行領域分類。同時,DA-DETR[295]提出了一種混合注意力模塊(HAM),其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。
Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后,接下來的工作試圖通過各種方法來避免分類沖突。例如,Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法,LMSeg[252]使用可學習標記[268]擴展了這種嵌入,并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時,也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是,Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同,它基于公共語言嵌入來學習每個數據集的語義偏差,以避免領域鴻溝。最近,TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型,其中將Mask2Former擴展到視頻領域,并采用統一的圖像數據集預訓練和視頻微調。
標簽和模型高效分割
類無關的分割和跟蹤
醫學圖像分割
CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335],[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功,最近的代表工作[260],[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net,其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣,再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN,其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像,并設計了類似U-Net的架構。提取transformer中不同層的編碼表示,并通過跳躍連接與解碼器合并,以獲得最終的3D掩碼輸出。
5 基準測試結果
在本節中,我們報告了最近基于transformer的視覺分割,并列出了之前討論的算法的性能。對于每個審閱的領域,第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意,我們僅列出已發表的工作供參考。為簡單起見,我們排除了一些關于表示學習的工作,只介紹了特定的分割方法。關于全面的方法比較,請參閱補充資料,提供了更詳細的分析。
6 未來方向
通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26],[153],[162],[163],[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割,例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大,包括機器人導航和自動駕駛汽車。
多模態聯合學習。由于缺乏歸納偏差,transformer在處理任何模式方面都是通用的。因此,使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索,這也可能有利于相關的視覺語言任務,包括文本-圖像檢索和標題生成[343]。最近的工作[224],[344]在一個通用的transformer架構中共同學習分割和視覺語言任務,這為結合跨多模態的分割學習提供了一個方向。
終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準,即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而,現實的場景通常是開放世界和非平穩的,其中新的類別可能連續出現[249],[345]。例如,在自動駕駛汽車和醫療診斷中,可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中,使模型具有終身學習的能力。
動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入,可能難以關聯較長時間的實例。因此,新的方法必須納入長期記憶設計,并在更長的時期內考慮實例的關聯。其次,在長時間內保持分割掩碼的一致性可能是困難的,特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三,長視頻中可能會出現嚴重的遮擋,使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后,長視頻輸入往往涉及多種場景輸入,給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術,以確保模型可以處理不同的場景輸入。簡而言之,解決這些挑戰需要開發新的長視頻分割模型,該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。
生成式分割。隨著更強大的生成模型的興起,最近的工作[346],[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發,通過生成建模解決了圖像分割問題[348]。采用生成式設計,避免了transformer解碼器和對象查詢設計,使整個框架更加簡單。然而,這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。
使用視覺推理進行分割。視覺推理[349],[350]要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向,在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程,研究人員可以利用推理的力量來提高分割精度,而分割可以為視覺推理提供更好的輸入
7 結論
本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧,據我們所知,這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述,并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外,回顧了5個密切相關的領域,并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較,我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后,指出了基于transformer的視覺分割的未來研究方向。
人體解析旨在將圖像或視頻中的人體分割成多個像素級的語義部分。在過去的十年中,它在計算機視覺社區中獲得了極大的興趣,并在廣泛的實際應用中得到了應用,從安全監控到社交媒體,再到視覺特效,這只是其中的一小部分。盡管基于深度學習的人工解析方案已經取得了顯著的成就,但許多重要的概念、存在的挑戰和潛在的研究方向仍然令人困惑。全面回顧了單人體解析、多人體解析和視頻人體解析這3個核心子任務,介紹了它們各自的任務設置、背景概念、相關問題和應用、代表性文獻和數據集。還在基準數據集上對所審查的方法進行了定量的性能比較。此外,為了促進社區的可持續發展,提出了基于Transformer的人體解析框架,通過通用、簡潔和可擴展的解決方案,為后續研究提供了高性能的基線。最后,指出了該領域一些未被充分研究的開放問題,并提出了未來研究的新方向。我們還提供定期更新的項目頁面,以持續跟蹤這個快速發展的領域的最新發展://github.com/soeaver/awesome-human-parsing。
1. 引言
人體解析[1]-[5]是以人類為中心的視覺理解[6]的基礎任務,旨在對圖像或視頻中的人體部位和服裝配飾進行像素級分類。人體解析在安防監控、自動駕駛、社交媒體、電子商務、視覺特效、藝術創作等廣泛應用領域發揮著重要作用,已經開展了大量的研究,催生了各種優秀的人體解析解決方案和應用。早在本世紀初,就有研究試圖在非常有限的情況下識別上半身服裝[10]的水平、服裝[11]的語法表征以及人體輪廓[12]的變形。這些早期研究促進了像素級人體部位和服裝識別的研究,即人體解析任務。隨后,利用傳統的機器學習和計算機視覺技術,如結構化模型[1]、[13]、[14]、聚類算法[15]、語法模型[16]、[17]、條件隨機場[18]-[20]、模板匹配[21]、[22]和超像素[23]-[25]等,解決了人體句法分析問題。隨后,深度學習和卷積神經網絡[26]-[32]的繁榮進一步推動了人體解析的蓬勃發展。注意力機制[33]-[36]、尺度感知特征[37]-[40]、樹形結構[3]、[41]、圖結構[4]、[42]、[43]、邊緣感知學習[44]-[46]、姿態感知學習[2]、[47]、[48]等技術[49]-[52]大大提高了人體解析的性能。然而,目前存在的一些挑戰和研究不足使得人體解析仍然是一項值得進一步探索的任務。
隨著人體解析的快速發展,出現了大量的文獻綜述。然而,現有的研究并不精確和深入:一些研究僅從宏觀的時尚/社交媒體角度對人體解析進行了膚淺的介紹[53],[54],或者僅從微觀的人臉解析角度對人體解析的子任務[55]進行了回顧。此外,由于分類的模糊性和方法的多樣性,全面和深入的研究是非常必要的。本文提供了第一篇綜述,系統地介紹了背景概念、最新進展,并對人體解析進行了展望。本綜述從一個全面的角度回顧了人體解析,不僅包括單個人體解析(圖1 (a)),還包括多個人體解析(圖1 (b))和視頻人體解析(圖1 (c))。在技術層面,對近10年基于深度學習的人體分析方法和數據集進行綜述。為了提供必要的背景,還介紹了非深度學習等領域的相關文獻。在實踐層面,對各種方法的優缺點進行了比較,并給出了詳細的性能比較。在總結和分析現有工作的基礎上,展望了人體解析的未來機遇,并提出了一個新的基于transformer的基線,以促進社區的可持續發展。人工解析方法和數據集以及提出的基于transformer的基線列表可以在
圖2顯示了這個綜述的大綱。§2簡要介紹了問題的形成和挑戰(§2.1)、人體分析的分類(§2.2)、相關任務(§2.3)和人體分析的應用(§2.4)。§3詳細回顧了具有代表性的基于深度學習的人體分析研究。常用的數據集和性能比較見§4和§5。在§6中提出了對人體分析未來機會的展望,包括一個新的基于transformer的基線(§6.1),幾個未被研究的開放問題(§6.2)和未來研究的新方向(§6.3)。結論將在§7中得出。2. 基于深度學習的人體解析方法現有的人體解析可分為單人體解析、多人體解析和視頻人體解析3個子任務,分別關注部件關系建模、人體實例判別和時間對應學習。根據這種分類法,我們對具有代表性的作品(圖3下半部分)進行了梳理,并在下文進行了詳細的回顧。**
單人體解析(SHP)模型
SHP考慮通過部件關系建模來提取人體特征。根據建模策略,SHP模型可分為3類:上下文學習、結構化表示和多任務學習。此外,考慮到一些特殊但有趣的方法,我們將其作為“其他建模模型”進行綜述。表1總結了審查過的SHP模型的特點。
多人體解析(MHP)模型MHP尋求在圖像平面上定位和解析每個人體。任務設置類似于實例分割,因此也稱為實例級人工解析。根據其識別人類實例的管道,將MHP分為三種范式:自下而上、單階段自上而下和兩階段自上而下。表3列出了所審查的MHP模型的基本特征。
視頻人體解析(Video humanparsing, VHP)模型現有的VHP研究主要集中在通過親和力矩陣將第一幀傳播到整個視頻中,親和力矩陣表示從原始視頻數據中學習到的時間對應關系。考慮到無監督學習范式,可以將其分為三類:周期跟蹤、重構學習和對比學習。我們在表5中總結了所審查的VHP模型的基本特征。
生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。
//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f
概述
深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。
在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。
2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。
鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。
本綜述范圍
在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。
基礎模型
生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。
計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。
三維形狀生成
目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。
三維感知圖像生成
三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。
6 應用
3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。
7 未來的工作
3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。
通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。
可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。
效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。
訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。
基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。
對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量。多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。
**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。
圖神經網絡多模態學習
深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。
以圖為中心的多模態學習
圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。
圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。
面向圖像的多模態圖學習**
圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。
圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。
面向語言的多模態圖學習**
隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。
自然科學中的多模態圖學習
除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。
多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。