圖像分割是計算機視覺領域中一個長期存在的挑戰,多年來不斷受到研究,經典算法如N-Cut、FCN和MaskFormer就是其中的代表。隨著基礎模型(Foundation Models, FMs)的興起,現代分割方法進入了一個新紀元:要么通過適配基礎模型(例如CLIP、Stable Diffusion、DINO)用于圖像分割,要么開發專門的分割基礎模型(如SAM)。這些方法不僅提供了卓越的分割性能,還展示了以往深度學習背景下從未見過的新分割能力。然而,當前的圖像分割研究缺乏對這些進展所帶來的獨特特征、挑戰和解決方案的詳細分析。本綜述旨在填補這一空白,通過對以基礎模型驅動的圖像分割的前沿研究進行深入回顧,我們探討了兩大基本研究方向——通用圖像分割(即語義分割、實例分割、全景分割)和可提示的圖像分割(即交互式分割、參考分割、少樣本分割)——并詳細描述了它們各自的任務設置、背景概念和主要挑戰。此外,我們還深入分析了從CLIP、Stable Diffusion和DINO等基礎模型中涌現的分割知識。本綜述涵蓋了300多種分割方法的詳盡概述,以全面反映當前的研究努力。最后,我們討論了未解問題和未來研究的潛在方向。我們希望這篇全新、全面且系統的綜述能推動先進圖像分割系統的發展。
圖像分割一直是計算機視覺領域中的一個重要且具有挑戰性的研究方向,其目標是將像素劃分為不同的組別。這項任務是實現更高階目標的初始步驟,包括物理場景理解、視覺常識推理、社交能力感知,并且在自動駕駛、醫學圖像分析、自動監控和圖像編輯等領域有著廣泛的應用。多年來,圖像分割吸引了大量的關注,催生了大量的算法,從傳統的非深度學習方法如閾值化[1]、直方圖模式搜索[3]、區域生長與合并[5]、空間聚類[7]、能量擴散[8]、超像素[9]、條件隨機場與馬爾可夫隨機場[10],到更先進的深度學習方法,例如基于FCN的[11]–[20],尤其是DeepLab家族[17]–[20],基于RNN的[21],基于Transformer的[22]–[28],以及R-CNN家族[29]–[31]。這些方法在語義分割、實例分割和全景分割等關鍵領域表現出顯著的性能和魯棒性。然而,圖像分割的探索并未止步于這些進展。
基礎模型(Foundation Models, FMs)[32]在近年來作為變革性技術出現,重新塑造了我們對人工智能(AI)核心領域的理解,包括自然語言處理[33]、計算機視覺[34]及其他多個跨學科領域[35]–[37]。著名的例子包括大型語言模型(LLMs)如GPT-3 [38]和GPT-4 [39],多模態大型語言模型(MLLMs)如Flamingo [40]和Gemini [41],以及擴散模型(DMs)如Sora [42]和Stable Diffusion (SD) [43]。這些模型因其龐大的規模和復雜性而獨樹一幟,展現了處理多種復雜任務的突現能力[44]、[45],并具有顯著的效率和效果。同時,它們也解鎖了新的可能性,如生成推理鏈[46]、在對話場景中提供類人回應[38]、生成逼真的視頻[42]和合成新穎的程序[47]。GPT-4和Sora的出現激發了AI社區對實現人工通用智能(AGI)[48]的巨大興趣。
在基礎模型主導的時代,圖像分割經歷了顯著的演變,展現出前所未有的特征。為了突出我們研究的動機,我們強調了一些表明這一轉變的特征:
? 基礎模型技術促成了分割通用模型的出現。與傳統框架(如FCN、Mask R-CNN)不同,當代分割模型已具備可提示性,即根據手工設計的提示生成掩碼(類似于LLMs中的答案),指定圖像中要分割的內容。這種類似LLM的可提示接口大大增強了分割器的任務普適性,使其能夠快速適應各種現有和新興的分割任務,采用零樣本(如SAM [49]、SEEM [50])或少樣本(如SegGPT [51])方式。值得注意的是,這些可提示模型與早期的通用模型[22]–[25]顯著不同,后者僅限于一組固定的預定任務,如聯合語義分割、實例分割和全景分割,且具有封閉詞匯。
? 訓練無關的分割最近成為一個新興的研究領域[52]–[57]。其目標是從預訓練的基礎模型中提取分割知識,標志著從傳統學習范式(如監督學習、半監督學習、弱監督學習和自監督學習)的轉變。最近的研究表明,即使CLIP、Stable Diffusion或DINO/DINOv2等模型最初并非為分割而設計,分割掩碼也可以輕松從這些模型的注意力圖或內部表示中提取出來。
? 將大型語言模型(LLMs)整合到分割系統中,以利用其推理能力和世界知識,已成為一個顯著趨勢[58]–[61]。這些由LLM驅動的分割器能夠閱讀、聆聽,甚至進行推理,將現實世界中抽象的語言查詢落實到特定的像素區域。雖然之前的研究已經在參考分割[62]等任務中探索了類似的能力,但這些方法僅限于處理諸如“領跑者”這樣的基本查詢。相比之下,由LLM驅動的分割器可以熟練處理諸如“誰會贏得比賽?”這樣的更復雜查詢。這一能力代表了向開發更智能視覺系統邁出的重要一步。
? 生成模型,特別是文本到圖像的擴散模型,越來越受到最近圖像分割研究的關注。有研究表明,擴散模型在文本到圖像生成過程中隱式地學習了有意義的對象分組和語義[63],并作為強大的無監督表示學習器發揮作用。這激勵了一系列研究直接將預訓練擴散模型的潛在代碼解碼為分割掩碼,以標簽高效或完全無監督的方式進行[63]、[64]。此外,一些努力將擴散模型固有的去噪擴散過程擴展到分割中,通過從圖像條件化的掩碼生成角度接近圖像分割[65]–[67]。
鑒于這些特征,我們發現現有的大多數領域綜述[68]–[70]已顯得過時——最新的一篇綜述[70]發表于2021年,并僅關注于語義分割和實例分割。這導致了對最近基礎模型驅動的分割方法缺乏全面的把握。
我們的貢獻。為填補這一空白,我們提供了一個詳盡且及時的綜述,探討基礎模型如何改變圖像分割領域。這篇綜述是首次對基于著名基礎模型的最近圖像分割方法進行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。它涵蓋了該領域的廣泛內容,并深入探討了各個方法的細微差別,從而為讀者提供對這一主題的深入和最新的理解。除此之外,我們還闡明了未解的問題和未來的研究方向,以照亮這一關鍵領域的發展道路。
相關綜述及其區別。在過去十年中,許多綜述從不同角度研究了圖像分割。例如,2015年的[73]綜述了基于區域和邊界的分割方法。隨著深度學習時代的到來,一系列研究[70]、[74]–[78]總結了在語義分割、實例分割和全景分割等通用分割任務中的進展。最近的一項研究[79]關注于開放詞匯分割這一特定任務。其他研究則深入探討了圖像分割的重要方面,如評估協議[80]或損失函數[81]。此外,還存在一些針對特定領域的分割技術的綜述,如視頻[82]、醫學影像[83]、[84]。
隨著基礎模型的加速演進,一系列綜述已經闡明了LLMs [33]、MLLMs [72]、DMs [85]等的基本原理和開創性工作。然而,這些研究中顯然缺少對基礎模型在推動圖像分割進展方面作用的討論。與我們的研究最相關的綜述是[86],它對與SAM [49]相關的最新發展進行了廣泛的回顧。SAM在分割領域做出了開創性貢獻,使[86]成為一份寶貴的資源。然而,在基礎模型的更廣泛背景下,SAM只是眾多模型中的一個;因此,[86]的范圍在涵蓋分割領域的整體進展方面仍然有限。
與之前的綜述不同,我們的工作專注于基礎模型對圖像分割的貢獻,填補了當前研究領域中的空白。我們記錄了最新的技術,突出了主要趨勢,并展望了未來的研究方向,這將有助于研究人員跟蹤圖像分割領域的進展并加速這一領域的發展。
綜述組織。本文的剩余部分結構如下。第2節介紹了圖像分割和基礎模型的基本背景。第3節強調了從現有基礎模型中涌現的分割知識。第4節和第5節回顧了過去三年中基于基礎模型的最重要的圖像分割方法。第6節提出了未解決的問題和未來方向。第7節對本文進行了總結。
基于基礎模型的地理信息系統(GIS)
本節提供了關于基于基礎模型(Foundation Model, FM)的地理信息系統(GIS)中的語義分割(§4.1)、實例分割(§4.2)和全景分割(§4.3)的最新進展的全面回顧。我們的討論從技術角度出發,闡明了基本概念,并突出基礎模型在GIS中的作用。
如何將CLIP中預訓練的知識轉移到分割任務中?這個問題促使了大量研究基于CLIP進行圖像分割。然而,由于CLIP中的圖像級別訓練任務與圖像分割中的像素級別預測任務之間存在固有的粒度差異,導致該任務極具挑戰性。常見的解決方案有: * 無訓練語義分割。如§3.1中討論的那樣,通過對自注意力模塊進行微小修改,可以從CLIP中派生出分割掩碼。在此基礎上,許多方法[52], [53], [137]–[139]通過利用CLIP文本編碼器作為分類器來確定每個掩碼的類別,從而實現語義分割。整個過程無需額外的訓練或微調。 * CLIP微調。遵循流行的預訓練-微調范式,許多方法使用分割數據對CLIP進行微調。它們可以分為全微調和參數高效微調方法。全微調方法需要調整CLIP的整個視覺或文本編碼器。DenseCLIP [88]是這類方法的先驅,通過解決像素-文本匹配任務來優化CLIP的視覺編碼器。PPL [152]通過一種概率框架擴展了DenseCLIP,以基于視覺線索學習更準確的文本描述。盡管這些方法表現出良好的效果,但往往會破壞CLIP中的視覺-語言關聯,導致開放詞匯能力的嚴重損失。為了緩解這一問題,CATSeg [153]引入了基于成本聚合的框架,即使在完全微調后也能保持CLIP的零樣本能力。OTSeg [154]通過利用多個文本提示的集成并引入多提示sinkhorn注意力來改善多模態對齊。然而,這些方法通常需要大量密集注釋的訓練圖像。相反,ZegCLIP [155]、LDVC [156]和ZegOT [157]使用參數高效的提示調優技術來轉移CLIP。為了防止過擬合到已見類別,它們都學習圖像特定的文本嵌入,以實現更準確的像素-文本對齊。SemiVL [158]采用部分調優策略,僅調優自注意力層的參數。SAN [159]通過輕量級適配器將CLIP圖像編碼器適配到分割中,并通過預測應用于CLIP深層的注意力偏差來解耦掩碼提案和分類階段。 * CLIP作為零樣本分類器。除了模型微調,許多研究直接將預訓練的CLIP用作分類器,能夠保持CLIP的零樣本遷移能力。這些方法可以分為兩大類:掩碼分類和像素分類。掩碼分類方法[160]–[168]通常遵循兩階段范式,首先提取類別無關的掩碼提案,然后使用預訓練的CLIP對提案進行分類。早期的研究[160], [161]需要一個獨立的、與CLIP無關的模型來生成提案,而最近的方法[162]–[166]傾向于在統一框架內整合掩碼生成和分類。這些方法在訓練過程中保持CLIP凍結狀態,但原生CLIP對不同的掩碼提案不敏感,限制了分類性能。OVSeg [167]和MAFT [168]通過在訓練過程中微調CLIP,使其更具掩碼感知能力來解決這個問題。 * 從文本監督中涌現語義分割。受CLIP啟發,一系列研究嘗試從純文本監督中學習可遷移的語義分割模型。GroupViT [174]和SegCLIP [175]通過分組模塊增強了原始的ViT,使圖像像素逐漸分組為段落。為了應對其粒度不一致問題,SGP [176]進一步挖掘了不可學習的原型知識[146]作為顯式監督,以改善分組結果。與這些需要定制圖像編碼器的工作不同,[177]避免了修改CLIP的架構,而是通過稀疏對比圖像-文本特征的最大響應來優化對齊。TagAlign [178]也專注于優化部分,并引入細粒度屬性作為監督信號,以實現密集的圖像-文本對齊。 * 知識蒸餾(KD)。知識蒸餾是一種簡單但高效的方法,用于轉移基礎模型的能力,在自然語言處理和計算機視覺領域取得了許多成功。在語義分割領域,ZeroSeg [180]和CLIP-ZSS [181]將CLIP的視覺編碼器中的語義知識蒸餾到分割模型中。此外,許多方法基于自蒸餾,通過將局部密集特征與對應圖像塊的視覺特征對齊來進行自我學習[182],或基于局部信息學習全局語義[183]。此外,CLIP-DINOiser [184]將DINO視為教師,引導CLIP學習對分割友好的DINO風格特征。
除了判別模型CLIP外,擴展生成模型(如擴散模型)從生成任務到語義分割領域的應用也越來越受到關注。從技術角度來看,當前的研究可以分為以下幾類: * 無訓練語義分割。基于§3.2中的技術,[55], [141], [142]為每個候選類別生成一個掩碼mCLS,并通過識別置信度最高的類別為每個像素分配一個類別。FreeSeg-Diff [89]遵循兩階段范式,即將注意力圖聚類為類別無關的掩碼,然后由CLIP對每個掩碼進行分類。這些方法受到文本提示標記的限制,要求每個語義類別與提示詞相關聯,這并不總是有效。為了解決這個問題,OVAM [143]引入了額外的屬性提示,使得能夠生成與開放詞匯描述的語義分割掩碼,而不論用于圖像生成的文本提示中的詞匯。此外,OVDiff [145]從原型學習的角度[146]、[147]出發,利用T2I-DMs構建一組類別原型,作為分割的最近鄰分類器。DiffSeg [185]引入了迭代合并過程,將SD中的自注意力圖合并為有效的分割掩碼。與上述方法不同,FreeDA [54]利用SD構建了一個大型視覺原型池,并為每個像素檢索到最相似的原型以進行分割預測。 * 擴散特征用于語義分割。除了注意力圖之外,利用DMs的潛在表示進行語義分割也越來越受歡迎。類似[63], [186]的研究從無文本的DMs中提取內部嵌入用于分割,但它們僅限于封閉詞匯設置。相比之下,大多數方法[115], [187], [188]則利用T2I-DMs(主要是SD)來挖掘語義表示。LD-ZNet [115]顯示:1)與RGB圖像等其他形式相比,LDMs的潛在空間是語義分割的更好輸入表示,2)去噪UNet的中間層(即{6,7,8,9,10})比編碼器的早期或后期模塊包含更多語義信息(與[189]中的觀察一致)。此外,對于T2I-DMs,文本提示在特征提取中起著關鍵作用,因為它作為語義合成的指導。VPD [187]采用了一種直接的方法,使用數據集中的類別名稱形成SD的文本上下文,其中類嵌入從CLIP的文本編碼器中提取(提示“a photo of [CLS]”)。TADP [188]和Vermouth [190]發現,自動生成的標題作為圖像對齊的文本提示,有助于提取更有語義意義的視覺特征。相比之下,MetaPrompt [191]通過一組可學習的嵌入(稱為元提示)將SD集成,用于在循環特征優化過程中激活任務相關特征。此外,適當的提示使潛在特征在未見領域表現出卓越的泛化性能。 * 語義分割作為去噪擴散。遠離這些主流領域,一些研究[65], [192]–[194]將語義分割重新定義為去噪擴散過程。它們學習一種迭代去噪過程,從隨機噪聲zt ~ N (0, 1)中預測真實地圖z0,并以從圖像編碼器派生的對應視覺特征為條件。基于這一見解,SegRefiner [195]考慮了一種離散擴散公式,用于優化從現有分割模型派生的粗略掩碼。此外,Peekaboo [90]是一種有趣的方法,將分割視為一個前景α掩碼優化問題,通過在推理過程中優化α掩碼,以使其在圖像和文本提示方面收斂到最佳分割。 * T2I-DMs作為語義分割數據合成器。收集和注釋具有像素級標簽的圖像耗時且費力,因此對語義分割來說始終是一個挑戰。隨著AIGC的最新進展,許多研究[98], [99], [141], [196]探索了T2I-DMs構建大規模分割數據集(包括合成圖像和相關的掩碼注釋)的潛力,這可以作為訓練任何現有語義分割模型的更具成本效益的數據源。這一思想也被應用于醫學圖像分割等專業領域[197]。與直接生成合成掩碼不同,一些研究[198]–[200]利用T2I-DMs在少量標注圖像的基礎上進行數據增強。
通過直接分組進行無監督分割。鑒于DINO中分割特性的涌現,許多方法通過例如k-means [151]或基于空間局部親和力的圖分割[148], [201], [202]直接將DINO特征分組為不同區域。盡管這些方法無需訓練,但它們在發現顯著對象方面有限,且無法生成多個語義區域的掩碼——這是語義分割的關鍵。 * 通過自訓練進行無監督語義分割。后續工作探討了自訓練方法以應對上述限制。它們傾向于在從DINO特征自動發現的偽標簽上訓練分割模型。偽標簽通常是以自下而上的方式獲得的,但策略因方法而異。DeepSpectral [91]對密集DINO特征執行譜聚類,將每個圖像過度聚類為段落,然后聚類這些段落的DINO表示以確定偽分割標簽。這些段落代表對象部分,可以與過度聚類和社區檢測相結合,以提高偽掩碼的質量[203]。COMUS [150]結合無監督顯著性掩碼和DINO特征聚類,生成初始偽掩碼,這些偽掩碼被用于訓練語義分割網絡,以在具有多個對象的圖像上自引導系統。值得注意的是,STEGO [92]發現DINO的特征與真實語義標簽的相關模式大體一致,因此提出了一種新穎的對比損失,將無監督的DINO特征提煉為緊湊的語義簇。此外,DepthG [204]將深度圖形式的空間信息納入STEGO訓練過程中;HP [205]提出了更有效的隱藏正樣本,以增強對比學習;EAGLE [206]從DINO特征中提取對象級語義和結構線索,以引導模型學習對象感知表示。
SAM用于弱監督語義分割。雖然SAM不具備語義感知能力,但它具有廣泛的和顯著的分割能力,這在弱監督情況下廣泛用于提高分割質量。[207]使用SAM進行分割掩碼的后處理,而[208]利用SAM進行零樣本推理。S2C [93]在特征和logit級別都結合了SAM。它基于SAM的段落執行原型對比學習,并從CAMs中提取顯著點以提示SAM。
基礎模型具備獨特的能力,這些能力源自其預訓練目標。例如,CLIP在語義理解方面表現出色,而SAM和DINO則擅長空間理解。因此,許多方法將這些基礎模型結合成一個有凝聚力的系統,吸收它們的專長。它們中的一些是在零指導下構建的[89], [209], [210]。這些方法利用DINO或SD來識別類別無關的段落,將它們映射到CLIP的潛在空間,并通過圖像標題模型如BLIP將每個段落的嵌入轉換為一個單詞(即類別名稱)。另一個例子是SAM-CLIP [94],通過多任務蒸餾將SAM和CLIP結合成一個模型。最近,RIM [95]在三個VFMs的協作下構建了一個無需訓練的框架。具體來說,它首先基于SD和SAM構建類別特定的參考特征,然后通過關系感知排序將這些特征與從SAM和DINO派生的區域特征進行匹配。
CLIP作為零樣本實例分類器。CLIP在實現開放詞匯實例分割中發揮了重要作用。[96], [104], [211]利用凍結的CLIP文本編碼器作為實例掩碼提案的分類器。OPSNet [97]利用CLIP的視覺和文本嵌入來豐富實例特征,這些特征隨后由CLIP文本編碼器進行分類。[212]引入了一個生成模型,以合成來自CLIP文本嵌入的未見特征,從而彌合語義-視覺空間并解決未見訓練數據不足的挑戰。[213]提出了一個動態分類器,將CLIP文本嵌入投影到圖像特定的視覺原型上,有效減輕了對已見類別的偏見以及多模態領域的差距。
T2I-DMs作為實例分割數據合成器。DMs在實例分割中通過促進生成具有準確標簽的大規模訓練數據集發揮了關鍵作用。MosaicFusion [98]引入了一個無需訓練的流程,能夠同時通過T2I-DMs生成合成圖像,并通過對交叉注意力圖的聚合生成相應的掩碼。[214]采用了剪切和粘貼的方式進行數據增強,前景對象和背景圖像均由DMs生成。DatasetDM [99]提出了一種半監督方法,該方法首先學習一個感知解碼器,以基于少量標注數據對圖像進行注釋,然后生成用于各種密集預測任務的圖像和注釋。
無監督實例分割。一些方法[100], [101], [149], [215]試圖放大DINO的內在定位能力,以在沒有任何人工標簽的情況下訓練實例級分割模型。它們通常采用兩階段的發現和學習過程:通過遞歸應用歸一化切割[100]等方法從DINO特征中發現多個對象掩碼,然后利用這些掩碼作為偽標簽訓練實例分割模型。
X-Paste [102]重新審視了傳統的數據增強策略,即Copy-Paste,旨在大規模獲取具有高質量掩碼的對象實例,用于無限類別。它充分利用基礎模型準備圖像,即使用SD生成圖像,并使用CLIP過濾Web檢索的圖像。圖像中的實例通過現成的分割器提取,并與背景圖像組合以創建訓練樣本。DiverGen [216]通過更專注于增強類別多樣性來改進X-Paste。它利用SAM更準確地提取實例掩碼。與這些研究不同,Zip [217]結合CLIP和SAM實現了無需訓練的實例分割。它觀察到對CLIP中間層特征的聚類敏銳地關注對象邊界。因此,它首先對CLIP特征進行聚類以提取段落,然后根據邊界和語義線索過濾它們,最后提示SAM生成實例掩碼。 此外,通過將實例的邊界框作為提示輸入,可以輕松地將SAM直接轉換為實例分割模型[103], [218],這些邊界框可以通過對象檢測器獲取,如Faster R-CNN [30], Grounding DINO [219]。
CLIP作為零樣本掩碼分類器。最近的許多全景分割方法[96], [97], [104], [105], [211], [212], [220], [221]都遵循MaskFormer [22] / Mask2Former [23]引入的基于查詢的掩碼分類框架。它們首先生成類別無關的掩碼提案,然后利用CLIP對提案進行分類,從而賦予MaskFormer和Mask2Former開放詞匯分割能力。MaskCLIP [104]引入了一組掩碼類別標記,以更高效地提取掩碼表示。MasQCLIP [96]通過對掩碼類別標記應用附加的投影來增強MaskCLIP,以獲得最佳的注意力權重。OPSNet [97]基于CLIP視覺編碼器學習更具普適性的掩碼表示,隨后用于增強查詢嵌入。UnpairSeg [105]提出了一個弱監督框架,允許模型從更便宜的圖像-文本對中受益。它學習了一個特征適配器,用于對齊分別從CLIP的視覺和語言編碼器中提取的掩碼表示。盡管取得了進展,這些方法仍然需要為每個任務訓練單獨的模型,以實現最佳性能。Freeseg [221]和DaTaSeg [222]設計了全能型模型,使用相同的架構和推理參數在開放詞匯語義、實例和全景分割問題中表現出色。OMG-Seg [223]引入了一個統一的查詢表示,能夠處理不同數據集上的十個分割任務。
擴散特征用于全景分割。ODISE [106]探索了T2I DMs中的內部表示,以實現開放詞匯全景分割。它遵循了Mask2Former的架構設計,但利用從預訓練的擴散UNet中提取的視覺特征來預測二進制掩碼提案和相關的掩碼表示。這些提案最終通過CLIP作為零樣本分類器進行識別。
全景分割作為去噪擴散。Pix2Seq-D [107]將全景分割定義為基于像素的離散數據生成問題,使用Bit Diffusion生成模型[224]。DFormer [67]引入了一種基于擴散的掩碼分類方案,該方案學習從噪聲掩碼輸入生成掩碼特征和注意力掩碼。此外,LDMSeg [225]通過首先將分割標簽壓縮為緊湊的潛在代碼,然后按照擴散調度去噪這些潛在代碼,基于SD解決了生成式分割問題。
無監督全景分割。基于STEGO [92]在語義分割和CutLER [100]在實例分割中的成功,U2Seg [108]自動識別圖像中的“事物”和“背景”,以創建偽標簽,這些偽標簽隨后用于訓練全景分割模型,如Panoptic Cascade Mask R-CNN [226]。此外,[227]遵循[228]的自下而上架構,分別預測語義和邊界圖,后者再融合以生成全景分割掩碼。
向語義感知SAM邁進。雖然SAM展示了強大的零樣本性能,但它生成的分割缺乏語義意義。這推動了許多研究努力,例如Semantic-SAM [109], SEEM [50],以增強SAM的語義感知能力。除了用于交互式分割的視覺提示外,這些模型還學習了通用對象查詢,以在語義和實例級別實現通用分割。此外,這些模型通常在多個具有語義注釋的數據集(如COCO [229], ADE20K [230], PASCAL VOC [231])的組合上進行訓練。
3.1.1 基于SAM的解決方案 作為一個通用的交互式分割系統,SAM自然而然地成為研究人員構建先進交互式分割框架的首選。
多粒度交互式分割。現有的大多數交互式分割方法基于用戶輸入確定單一的分割掩碼,而忽略了空間模糊性。相比之下,SAM引入了多粒度交互式分割流程,即針對每次用戶交互,所需的分割區域可能是包含不同部分的對象概念。為了提高分割質量,HQ-SAM [218]提出了一個輕量級的高質量輸出令牌,以替代原始SAM的輸出令牌。經過在44,000個高度精確的掩碼上訓練,HQ-SAM顯著提升了SAM的掩碼預測質量。由于SAM是類別無關的,一系列工作[232], [233]通過將查詢分割區域與CLIP的相應文本表示對齊來調整SAM,而[109]設計了一個支持使用標注的SAM數據進行多粒度分割的SAM類框架。盡管這些多粒度交互式分割方法減輕了空間模糊性,但它們產生了過多的輸出冗余和有限的可擴展性。為了解決這一問題,GraCo [110]探討了粒度可控的交互式分割,允許對預測粒度進行精確控制以解決模糊性。
SAM在醫學圖像交互式分割中的應用。交互式分割在醫學領域至關重要,如精確分割病變區域或減少醫學數據標注中的人工操作。與自然圖像分割不同,醫學圖像分割由于結構復雜性、對比度低或跨序列變異性等內在問題而面臨更大的挑戰。最近,一些研究[235]–[237]探索了SAM在醫學成像中的零樣本交互式分割能力。它們涵蓋了不同醫學成像模式下的多種解剖和病理目標,包括CT [238]、MRI [239]、病理圖像[240]、內窺鏡圖像[94]。盡管這些研究表明,在某些模式下,SAM在識別定義明確的目標方面表現出與最先進方法相當的效果,但在目標邊界模糊、對比度低、尺寸小、形狀不規則的更具挑戰性的情況下,SAM表現不佳或完全失敗。這表明在沒有進行微調或重新訓練的情況下,直接將SAM應用于以前未見過的具有挑戰性的醫學圖像分割可能會導致次優的性能。為了增強SAM在醫學圖像上的表現,一些方法提出在醫學圖像上微調SAM。MedSAM [111]整理了一個包含超過一百萬對醫學圖像-掩碼對的11種模式的大規模數據集,用于直接微調SAM。相比之下,其他方法探討了參數高效的微調策略。SAMed [241]將LoRA模塊應用于預訓練的SAM圖像編碼器。SAMFE [242]發現將LoRA應用于掩碼解碼器在少量樣本情況下表現優越。SAM-Med2D [236]通過集成可學習的適配層增強了圖像編碼器。MedSA [243]通過引入空間-深度轉置適應了SAM到體積醫學圖像,利用分叉的注意力機制在一個分支中捕捉空間相關性,在另一個分支中捕捉深度相關性。3DSAM-Adapter [244]通過精心設計的SAM架構修改,引入了從2D到3D的整體適應方法。
5.2.1 基于CLIP的解決方案 指代分割旨在通過自然語言表達來分割所指對象。CLIP中的多模態知識被廣泛應用于解決這一多模態任務。
無訓練指代分割。ZS-RS [112]代表了一種無訓練的指代圖像分割方法,該方法利用了CLIP中的跨模態知識。它首先使用現成的掩碼生成器生成實例級掩碼,然后從CLIP中提取掩碼和文本的局部-全局特征,最后基于跨模態特征相似性識別所需的掩碼。TAS [245]采用了與ZS-RS類似的流程,但計算了更細粒度的區域-文本匹配分數以選擇正確的掩碼。
多模態知識轉移。許多研究致力于將CLIP中的多模態知識從圖像級別轉移到像素級別。一種常見的思路[113], [246]–[253]是引入一個任務解碼器來融合CLIP的圖像和文本特征,并通過文本到像素的對比學習[246]進行訓練。除了任務解碼器之外,ETRIS [247]和RISCLIP [113]整合了一個Bridger模塊,以在每個編碼器階段促進視覺-語言交互。EAVL [249]基于輸入圖像和語言學習了一組卷積核,并在任務解碼器的輸出上進行卷積以預測分割掩碼。UniRES [250]探索了多粒度指代分割,將對象級和部分級的定位任務統一起來。TP-SIS [252]將CLIP中的多模態知識轉移到手術器械的指代分割中。
弱監督指代分割。為了適應現實世界的情況,一些研究探索了弱監督指代分割以減少像素標注的成本。TSEG [254]使用CLIP計算patch-文本相似性,并在訓練期間通過多標簽patch分配機制引導分類目標。TRIS [255]提出了一個兩階段的流程,首先從圖像-文本注意力圖中提取粗略的像素級圖,然后用這些圖訓練一個掩碼解碼器。 5.2.2 基于DM的解決方案 無訓練指代分割。一些研究[90], [114]發現,SD在生成過程中可以隱式地作為一個指代分割器。Peekaboo [90]將分割公式化為一個前景α掩碼優化問題,要求一個細粒度的分割圖能產生高保真的圖像生成過程。通過這種方式,最小化掩碼涉及的噪聲與目標噪聲之間的差異將提供更好的文本對齊像素表示。Ref-diff [114]首先從生成模型中生成一組對象提案,然后根據提案-文本相似性確定所需的掩碼。
用于指代分割的擴散特征。在有條件的文本指導下,模態交織的注意力圖(參見§3.2)可以直觀地作為初始的視覺密集表示,用于生成最終的分割掩碼。VPD [187]引入了一個任務特定的解碼器來處理從交叉注意力圖和U-Net中的多級特征圖融合而來的編碼特征。同時,LD-ZNet [115]將注意力特征注入到一個掩碼解碼器中,以生成更好文本對齊的像素級掩碼。除了基于注意力的利用之外,[256], [257]直接將擴散U-Net的每個中間層的輸出以及文本嵌入輸入到掩碼解碼器中,以生成最終預測。 3.2.3 基于LLMs/MLLMs的解決方案 大型語言模型(LLMs/MLLMs)的成功展示了驚人的推理能力,能夠回答復雜的問題,從而為實現新的像素推理和理解能力帶來了新可能性。特別是,LISA [59]研究了一種新的分割任務,稱為推理分割。與傳統的指代分割不同,這種設置下的分割器旨在基于涉及復雜推理的隱含查詢文本分割對象。值得注意的是,查詢文本不限于直接參考(如“領跑者”),而是涉及更復雜推理或世界知識的描述(如“誰會贏得比賽?”)。LISA采用LLaVA [258]基于輸入圖像、文本查詢和[seg]標記生成文本響應。然后,將自定義的[seg]標記的嵌入通過SAM解碼器解碼為分割掩碼。隨后,LISA++ [259]提升了LISA的能力,使其能夠區分同一類別中的個體,并在多輪對話中實現更自然的交互。基于這些工作,許多研究致力于提高推理能力和分割準確性。LLM-Seg [260]提出使用SAM生成一組掩碼提案,從中選擇最適合的答案作為最終的分割預測。NextChat [261]增加了一個[trigger]標記,描繪對象框的坐標,作為MLLM的補充輸入,以幫助生成更好的掩碼。類似地,GSVA [262]引入了一個拒絕標記[rej],以緩解指令中引用的對象不存在于圖像中的情況,避免產生假陽性預測。除了功能標記的整合外,[263], [264]提出使用多樣化的文本描述,如對象屬性和部分,以增強對象-文本連接,從而獲得準確的推理結果。關于推理成本,PixelLLM [60]引入了一個輕量級解碼器,以減少推理過程中的計算成本。Osprey [265]通過將細粒度掩碼區域納入語言指令,擴展了MLLM的能力,提供了出色的像素級視覺理解能力。3.2.4 基于FMs的指代分割的組合 為了增強文本表示以實現像素級理解,一些方法使用LLMs作為文本編碼器,以獲得改進的文本嵌入用于模態融合。特別是,BERT [266]由于其簡單性和實用性,幾乎是工作[254], [267]–[277]中的首選。大多數方法設計了一個融合模塊,用于連接視覺編碼器和BERT之間的特征。此外,一些工作[261], [278], [279]將LLM視為多模態統一處理器,使用Vicuna [280]將圖像和文本映射到統一的特征空間,然后生成分割輸出。借助GPT系列模型[39]的強大對話能力,一些研究[281]–[283]采用ChatGPT重寫具有豐富語義的描述,并在指代分割模型訓練中鼓勵更細粒度的圖像-文本交互。 除了使用LLMs進行文本增強,SAM [49]也被廣泛選擇為指代分割提供豐富的分割先驗。[284]提出了一個提示驅動框架,通過提示機制將CLIP和SAM在端到端的方式下連接起來。[285]專注于基于簡單而有效的雙編碼器設計構建指代分割器,即分別采用SAM和LLM來編碼圖像和文本模式,然后融合多模態特征進行分割預測。這樣一個沒有繁瑣裝飾的SAM和LLM的組合可以很容易地擴展到MLLM的應用中。因此,[116], [117]提出結合CLIP與SAM以改善多模態融合。具體來說,F-LMM [116]提出使用CLIP編碼視覺特征,然后通過SAM解碼為預測的分割圖。PPT [117]首先利用CLIP的注意力圖計算峰值區域,作為顯式的點提示,直接用于分割查詢目標。
3.3.1 基于CLIP的解決方案 用于少樣本分割的CLIP特征。采用CLIP從支持圖像中提取有效的視覺關聯性來幫助查詢圖像的分割推理,已形成解決FSS的主流流程,這可以根據CLIP導向視覺特征的使用方式分為兩類。第一類[118], [286]–[290]依賴于建模支持-查詢圖像的特征關系,以顯式地分割查詢圖像。WinCLIP [118]聚合參考和查詢圖像的多尺度CLIP視覺特征,以獲得用于像素級預測的增強支持-查詢關聯性得分圖。[286]–[289]進一步利用查詢和支持的自注意力圖優化得分圖。[290]通過設計適當的文本提示引入支持圖像的前景-背景關聯性。另一類工作[119], [251], [291]則聚焦于通過支持圖像生成的原型調節的查詢圖像分割,這些工作通常涉及一些度量函數,如余弦相似性,用于查詢-原型距離計算。RD-FSS [119]提出利用CLIP文本編碼器的類別描述作為文本原型,然后與視覺特征相關聯,以交叉注意力的方式進行密集預測。此外,PartSeg [291]聚合視覺和文本原型以幫助生成改進的查詢圖像像素級表示。這里的視覺原型是通過參考分割掩碼相應地匯聚CLIP視覺特征獲得的。為了進一步增強原型表示,[251]使用CLIP從掩碼支持圖像生成視覺原型,其中只保留了感興趣的對象。
3.3.2 基于DM的解決方案 用于少樣本分割的擴散特征。DMs的內部表示對于少樣本分割很有用。具體而言,[292]直接利用特定時間步驟的潛在擴散特征作為支持圖像的表示,并通過掩碼解碼器與原始圖像一起解碼。相反,DifFSS [120]提出使用DMs合成更多支持風格的圖像-掩碼對。基于不變的掩碼,生成的支持圖像應包含相同掩碼覆蓋的對象,但具有不同的背景,從而豐富支持模式以實現更好的查詢分割。
作為去噪擴散的少樣本分割。一些研究[121], [293]通過解決去噪擴散過程來處理少樣本分割。它們通過微調SD來顯式生成查詢圖像的分割掩碼,主要區別在于微調過程中應用的條件。MaskDiff [293]使用查詢圖像和支持掩碼圖像作為條件,而SegICL [121]僅使用支持/查詢掩碼作為條件。 3.3.3 基于DINO的解決方案
用于少樣本分割的DINO特征。有一些工作[122], [294]–[296]利用DINO/DINOv2中的潛在表示來增強查詢和支持特征。[294]直接使用DINOv2對查詢和支持圖像進行編碼,顯示DINOv2優于其他基礎模型,如SAM和CLIP。在此基礎上,SPINO [122]采用DINOv2進行少樣本全景分割。[295], [296]進一步通過DINO中的標記嵌入的交叉和自注意力挖掘出查詢-支持關聯性,從而實現更具支持意識的分割。 3.3.4 基于SAM的解決方案
為SAM生成提示。在提供的支持圖像集的基礎上,一系列工作[123], [297]–[300]專注于為SAM生成合適的提示,以分割查詢圖像中的目標。值得注意的是,它們中的大多數[297]–[299]建議基于支持-查詢圖像級別的對應性/相似性生成一組候選點作為提示,其中支持掩碼用于選擇面向對象的提示,從而突顯查詢對象的語義。VRP-SAM [123]基于查詢-支持對應關系學習了一組視覺參考提示,這些提示被輸入到凍結的SAM中進行分割。APSeg [300]通過探索多個支持嵌入擴展了VRP-SAM,以生成更有意義的SAM提示。 3.3.5 基于LLM/MLLM的解決方案。
有幾項研究[124], [301]嘗試采用LLM/MLLM通過指令設計來解決FSS問題。LLaFS [124]將融合的支持-查詢模式映射到語言空間,并讓LLM描述所需分割掩碼的坐標。[301]使用GPT-4作為任務規劃器,將FSS分解為基于支持集的一系列子任務,隨后調用SAM和GPT4Vision等視覺工具預測分割掩碼。3.3.6 上下文分割 LLMs的快速進展導致了從少量示例中學習上下文的新能力的涌現[38], [45]。受這一令人驚嘆的模式啟發,一些研究人員旨在發掘計算機視覺中的類似設置,即上下文分割(ICS)。ICS的目標是基于支持集對查詢圖像進行分割,可以看作是FSS的一個子任務。然而,ICS不需要參數更新,可以直接在預訓練模型上執行,而無需任務特定的微調。ICL涌現的LLMs大多是通過掩碼語言建模或下一個標記預測策略訓練的生成模型。因此,大多數工作通過直觀模仿,通過探索視覺模型上的類似自監督模式來解決ICS問題。VPImpainting [302]是一項開創性工作,它將視覺上下文學習解決為圖像修補。其架構如圖3所示。它將視覺提示定義為一個網格狀的單個圖像,包含一個輸入-輸出示例和一個查詢,然后訓練一個修補模型(通過MAE [303])預測圖像的其余部分,使其與給定示例一致。在此基礎上,[304]–[306]提出從大數據集中檢索最合適的示例作為支持。此外,Painter [307]和SegGPT [51]是基于上下文學習構建的視覺通用模型。它們通過仔細重新定義核心視覺任務的輸出為相同格式的圖像,將各種視覺任務統一到上下文學習框架中。其他一些工作[308], [309]則專注于通過將圖像格式化為一組序列作為視覺句子,來建立大型視覺模型,然后通過下一個標記預測進行類似LLM的訓練。值得注意的是,這種視覺自回歸模型的培養需要來自各種視覺任務的數百億個視覺樣本,例如圖像分割、深度估計。PromptDiffusion [310]通過微調SD探索擴散模型的上下文學習,以在支持圖像-掩碼對和查詢圖像的條件下生成查詢掩碼。Matcher [311]利用DINOv2通過雙向匹配定位查詢圖像中的目標,并將粗略位置信息作為SAM的提示進行分割。Tyche [312]通過顯式建模訓練和測試不確定性,將ICS擴展到一個概率分割框架,并在醫學圖像分割中展示了令人期待的性能。
在本綜述中,我們首次對基礎模型時代的圖像分割的最新進展進行了全面回顧。我們介紹了關鍵概念,并探討了現有基礎模型中內在的分割知識,如CLIP、擴散模型和DINO/DINOv2。此外,我們總結了300多種圖像分割模型,以應對通用和可提示的圖像分割任務。最后,我們強調了當前研究中的空白,指出了需要填補的領域,并闡明了未來研究的有前途的方向。我們希望這篇綜述能夠成為催化劑,激發未來的好奇心,并促進對基礎模型在圖像分割中潛力的持續探索熱情。
計算機視覺(CV)領域面臨著許多挑戰。最初,它依賴于手工設計的特征和基于規則的算法,導致精度有限。機器學習(ML)的引入帶來了進展,特別是遷移學習(TL),通過重用預訓練模型解決了各種CV問題。遷移學習需要較少的數據和計算資源,同時提供接近相同的精度,使其成為CV領域的重要技術。我們的研究重點在于遷移學習的發展,以及CV應用如何利用它來解決現實世界中的問題。我們討論了最近的發展、局限性和機會。
近年來,存儲容量和計算能力大幅提升,尤其是在互聯網和云服務的擴展下。人工智能(AI)是這一擴展的主要受益者之一。然而,即使在這些令人印象深刻的發展下,AI模型仍然面臨數據和計算能力不足的問題。因此,能夠有效利用這些能力的公司最終處于有利的競爭地位,正如Verizon研究中77%的企業所證實的那樣[5]。此外,隨著互聯網的日益普及,企業可用的數據量爆炸式增長。據諾基亞報道,從2017年到2022年,互聯網流量增長了30%[33]。如今,充足的數據和計算資源使研究人員和公司能夠嘗試解決以前無法解決的復雜問題。其中之一就是計算機視覺(CV)問題,涉及圖像處理[52]。在使用機器學習(ML)的計算機視覺問題中,數據量至關重要,更多的圖像通常能讓ML模型學習得更好。然而,在某些計算機視覺問題領域,獲取訓練數據可能非常困難且昂貴。因此,人們正在努力在一個CV領域中重用已訓練的ML模型,并將其應用于相關的CV領域。將一個領域中訓練的模型重新用于另一個領域的努力被稱為遷移學習(TL)[56]。盡管TL可以應用于許多問題領域,例如使用遺傳算法的自然語言處理(NLP),但我們的研究論文僅關注TL在CV問題中的應用。 在本研究論文中,我們介紹了TL和CV的概念,回顧了一些研究這些主題的論文,并分別在背景、文獻回顧和結論部分概述我們的研究工作。本研究旨在探討通過遷移學習技術解決各種計算機視覺問題的最新進展。值得注意的是,這并不是Kitchenham等人[30]定義的系統化文獻綜述,涵蓋所有發展性工作。相反,我們著重于幾個影響當前研究格局的熱門類別。
在本節中,我們嘗試通過相關背景提供對該主題的初步理解。接下來我們將概述人工智能(AI)、機器學習(ML)、神經網絡(NN)、深度神經網絡(DNN)、卷積神經網絡(CNN)、遞歸神經網絡(RNN)和遷移學習(TL)之間的關系。請參考圖1以增強讀者的理解。為了保持研究的范圍,我們將背景部分限制在必要的細節上。人工智能(AI)是一個利用機器學習和模擬多種智能行為來解決現實問題的科學領域[8]。該領域分為基于規則的專家系統(ES)、模糊系統和機器學習(ML)。專家系統(ES)側重于通過基于人類推理和邏輯的規則創建決策算法來模擬決策能力[50]。與此相反,模糊邏輯是一種數學/統計方法,它處理基于真理度的推理,而不是傳統的布爾邏輯中的真或假。它為處理不確定性和模糊性提供了框架,取決于數據,可以在現實世界問題中實現更接近人類的決策。前兩者的結合引入了機器學習(ML)的發展,其重點是從現有數據集中學習,并通過開發算法和統計模型進行預測/決策,而無需顯式的基于規則的編程。機器學習有不同的子領域/分類。一種分類[31]包括監督學習(如線性回歸、邏輯回歸)、無監督學習(如k均值聚類)、強化學習(如Q學習)、基于邏輯的學習(如決策樹)、感知機技術、統計學習算法(如貝葉斯網絡)和支持向量機(SVM)。在所有機器學習技術中,神經網絡(NN)是一個子集,旨在模仿人腦中生物神經元的互連。它們由排列成層的互連節點(神經元)組成。當激活時,每個神經元處理輸入數據并將其傳遞到下一層。這個過程使神經網絡能夠學習并做出決策,而無需明確編程[44]。在這個范式中,深度學習(DL)是一種主要方法,它涉及開發具有多個隱藏層的復雜人工神經網絡(ANN)架構,以實現模式識別和問題解決。深度學習架構的例子包括遞歸神經網絡(RNN)、卷積神經網絡(CNN)等。每種神經網絡架構都有其獨特的特征,并適用于不同的數據類型和任務。例如,RNN擅長處理序列數據,而CNN在計算機視覺任務中表現優異。這些先進的神經網絡技術已經革新了許多領域,包括機器人技術[12, 41]、圖像[39]和語音識別[15]、自然語言處理(NLP)[37]、網絡安全[36, 38]、醫學診斷[42]等。 卷積神經網絡(CNN)是一種高級架構,最初用于在圖像中準確分類字符或郵政編碼[25]。該架構專門設計用于顯著加快圖像分類和模式識別的訓練和執行過程,使其異常高效。CNN已廣泛應用于計算機視覺任務,如人臉識別、目標檢測、機器人視覺以及自動駕駛的實現[54]。CNN通常包括三種主要類型的層:卷積層、池化層和全連接層,也稱為全連接神經網絡(FCN)。 圖3展示了為目標檢測定制的CNN架構。深度學習技術的成功取決于感知機,它是神經網絡的基本構建塊。感知機接收二進制輸入并生成二進制輸出。在基于感知機的人工神經網絡中,多個感知機排列成層次結構。它們接收輸入,處理后生成中間輸出,并將這些輸出傳遞到下一層,最終得到最終輸出。神經網絡的層次結構被稱為其架構(CNN、RNN、Transformer等)。深度神經網絡(DNN)中的“深度”一詞表示使用多個層次將輸入數據轉化為輸出,代表復雜的轉換過程,詳見圖2中的示意。 遷移學習(TL)是一種機器學習技術,它利用在一個領域中獲得的知識來加速另一個領域的學習過程。這種方法在獲得足夠大的數據集來訓練特定問題領域的模型時尤其有價值。例如,在COVID-19疫情初期,缺乏標注的胸部X光數據來訓練網絡以檢測該疾病。然而,通過應用遷移學習,研究人員成功開發出一種檢測COVID-19的模型[26]。此外,在Guo等人[20]的研究中,通過遷移學習,預先訓練的深度神經網絡模型在目標任務的數據上進行了微調。遷移學習可以應用于多種問題領域,使用不同的技術。為了舉例,不同的自然啟發優化算法如粒子群優化、引力搜索算法、帶電系統搜索算法和灰狼優化算法被用于優化簡單Takagi-Sugeno比例積分模糊控制器在伺服系統位置控制中的參數調整[46]。我們可以采用遺傳算法來優化模糊邏輯控制器設計階段的模糊規則庫。在訓練階段之前,我們可以通過遷移學習減少不同神經模糊系統的學習時間。據文獻[14],模糊邏輯、神經網絡和遺傳算法可以用于改進基于圖像處理的模式識別。然而,我們的研究僅限于使用DNN的TL在CV問題中的應用。換句話說,我們將其他領域中使用不同技術的應用排除在本研究范圍之外。遷移學習的復雜性將在文獻回顧部分(第3節)中詳細探討。
物體姿態估計是計算機視覺領域的一個基本問題,廣泛應用于增強現實和機器人技術中。在過去的十年中,由于其出色的準確性和魯棒性,基于深度學習的模型已逐漸取代依賴于工程化點對特征的傳統算法。然而,現代方法中仍存在幾個挑戰,包括對標記訓練數據的依賴、模型的緊湊性、在挑戰條件下的魯棒性,以及對新穎未見物體的泛化能力。近期關于這一領域不同方面的進展、突出挑戰和未來有希望的方向的綜述尚缺失。為填補這一空白,我們討論了基于深度學習的物體姿態估計的最新進展,涵蓋問題的所有三種表述,即實例級、類別級和未見物體姿態估計。我們的綜述還涵蓋了多種輸入數據模態、輸出姿態的自由度、物體屬性和下游任務,為讀者提供了該領域的全面理解。此外,它討論了不同領域的訓練范式、推理模式、應用領域、評估指標和基準數據集,以及報告了當前最先進方法在這些基準上的表現,從而幫助讀者選擇最適合其應用的方法。最后,該綜述識別了關鍵挑戰,回顧了當前趨勢及其優缺點,并確定了未來研究的有希望的方向。我們也持續追蹤Awesome-Object-Pose-Estimation上的最新作品。
物體姿態估計是計算機視覺中的一個基本問題,目的是估計給定圖像中物體相對于拍攝該圖像的相機的姿態。物體姿態估計對于增強現實[1]、[2]、[3]、機器人操控[4]、[5]、手-物體互動[6]、[7]等領域至關重要。根據應用需求,物體姿態可估計到不同的自由度(DoF),例如只包括3D旋轉的3DoF,還包括3D平移的6DoF,或者除了3D旋轉和3D平移外還包括估計物體的3D大小的9DoF。 在深度學習出現之前,許多基于手工制作特征的方法如SIFT [8]、FPFH [9]、VFH [10]和點對特征(PPF)[11]、[12]、[13]、[14]被設計用于物體姿態估計。然而,當面對復雜場景時,這些方法在準確性和魯棒性上表現不足[15]、[16]。這些傳統方法現已被基于數據的深度學習方法所取代,后者利用深度神經網絡的力量從數據中學習高維特征表示,從而提高準確性和魯棒性,以應對復雜環境。
基于深度學習的物體姿態估計方法可以根據問題表述分為實例級、類別級和未見物體方法。圖1顯示了這三種方法的比較。早期方法主要是實例級[16]、[17]、[18]、[19]、[20],訓練用于估計特定物體實例的姿態。實例級方法可以進一步分為基于對應關系、基于模板、基于投票和基于回歸的方法。由于實例級方法是在特定實例數據上訓練的,它們可以為給定的物體實例精確估計姿態。然而,它們的泛化性能較差,因為它們僅適用于訓練它們的實例。此外,許多實例級方法[18]、[21]需要物體的CAD模型。鑒于這些限制,Wang等[22]提出了首個類別級物體姿態和大小估計方法。它們可以泛化到類內未見物體,無需重新訓練和在推理期間使用CAD模型。隨后的類別級方法[23]、[24]、[25]、[26]、[27]可以分為基于形狀先驗和無形狀先驗的方法。雖然這些類別級方法提高了類別內的泛化能力,但仍需要為每個物體類別收集和標記大量訓練數據。此外,這些方法無法泛化到未見的物體類別。
最近,一些未見物體姿態估計方法[1]、[3]、[28]、[29]、[30]已經被提出,可以進一步分為基于CAD模型和基于手動參考視圖的方法。這些方法進一步增強了物體姿態估計的泛化性,即它們可以泛化到未見的物體而無需重新訓練。然而,它們仍然需要獲取物體的CAD模型或標注物體的幾張參考圖像。 盡管在物體姿態估計領域取得了顯著進展,但當前方法中仍存在幾個挑戰,例如依賴標記訓練數據、難以泛化到新穎未見物體、模型緊湊性以及在挑戰性場景中的魯棒性。為了使讀者能迅速掌握物體姿態估計的當前最先進(SOTA)水平并促進這一方向的進一步研究,提供對所有相關問題表述的全面審查至關重要。對現有學術文獻的仔細審查顯示,對物體姿態估計各種問題表述的綜合性審查存在顯著差距。當前流行的審查[31]、[32]、[33]、[34]、[35]往往表現出狹窄的焦點,要么局限于特定輸入模態[32]、[33],要么限于特定應用領域[34]、[35]。此外,這些審查主要審查實例級和類別級方法,因此忽視了該領域最實際的問題表述——未見物體姿態估計的探索。這阻礙了讀者對該領域的全面了解。
例如,Fan等[33]提供了有關基于RGB圖像的物體姿態估計的寶貴見解。然而,他們的焦點限于單一模態,阻礙了讀者對不同輸入模態的方法的全面了解。相反,Du等[34]僅檢查了機器人抓取任務背景下的物體姿態估計,這限制了讀者僅從單一特定應用的角度理解物體姿態估計。
為了解決上述問題,我們提出了一份全面的關于基于深度學習方法的物體姿態估計的最新進展的綜述。我們的綜述涵蓋了所有問題表述,包括實例級、類別級和未見物體姿態估計,旨在為讀者提供該領域的全面理解。此外,我們還討論了不同領域的訓練范式、應用領域、評估指標和基準數據集,以及報告了現有最先進方法在這些基準上的表現,幫助讀者選擇最適合其應用的方法。此外,我們還強調了流行趨勢,并討論了它們的優點和缺點,同時確定了仍存在的關鍵挑戰和未來研究的有希望方向。本綜述的分類在圖2中顯示。
我們的主要貢獻和亮點如下: ? 我們提出了一份關于基于深度學習的物體姿態估計方法的全面綜述。這是第一份涵蓋該領域所有三種問題表述的綜述,包括實例級、類別級和未見物體姿態估計。 ? 我們的綜述涵蓋了流行的輸入數據模態(RGB圖像、深度圖像、RGBD圖像)、輸出姿態的不同自由度(3DoF、6DoF、9DoF)、用于姿態估計和跟蹤任務的物體屬性(剛性、關節)。涵蓋所有這些方面對于提供給讀者一個完整的圖景至關重要,這是現有綜述所忽視的一個方面,它們僅涵蓋了其中的幾個方面。 ? 我們討論了不同領域的訓練范式、推理模式、應用領域、評估指標和基準數據集,以及報告現有最先進方法在這些基準上的表現,以幫助讀者選擇最適合部署在其應用中的方法。 ? 我們突出了過去十年中物體姿態估計技術的演變中的流行趨勢,并討論了它們的優點和缺點。我們還確定了在物體姿態估計中仍存在的關鍵挑戰,以及指導未來努力的有希望研究方向。 本文的其余部分安排如下。第2節回顧了用于評估三類物體姿態估計方法的數據集和指標。然后我們在第3節回顧實例級方法,在第4節回顧類別級方法,在第5節回顧未見物體姿態估計方法。在上述三個部分中,我們還討論了與特定類別中代表性方法相關的訓練范式、推理模式、挑戰和流行趨勢。接下來,第6節回顧了物體姿態估計的常見應用。最后,第7節總結了本文并根據該領域的挑戰提供了未來研究方向的展望。
數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。
在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。
在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。
盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。
語義分割作為計算機視覺領域的重要研究方向之一,應用十分廣泛,其目的是根據預先定義好的類別對輸入圖像進行像素級別的分類,實時語義分割則在一般語義分割的基礎上又增加了對速度的要求,被廣泛應用于如無人駕駛、醫學圖像分析、視頻監控與航拍圖像等領域。其要求分割方法不僅要取得較高的分割精度,且分割速度也要快。隨著深度學習和神經網絡的快速發展,實時語義分割也取得了一定的研究成果。本文在前人已有工作的基礎上對基于深度學習的實時語義分割算法進行系統地歸納總結,特別是最新的基于transformer和剪枝的方法,全面介紹實時語義分割方法在各領域中的應用。本文首先介紹實時語義分割的概念,再根據標簽的數量和質量,將現有的基于深度學習的實時語義分割方法分為強監督學習、弱監督學習和無監督學習三個類別;在分類的基礎上,結合各個類別中最具有代表性的方法,對其優缺點展開分析,并從多個角度進行比較。隨后介紹目前實時語義分割常用的數據集和評價指標,并對比分析各算法在各數據集上的實驗效果。闡述現階段實時語義分割的應用場景。最后,討論了基于深度學習的實時語義分割存在的挑戰,并對實時語義分割未來值得研究的方向進行展望,為研究者們解決存在的問題提供便利。
三維重建是指從單幅或多幅二維圖像中重建出物體的三維模型并對三維模型進行紋理映射的過程。三維重建可獲取從任意視角觀測并具有色彩紋理的三維模型,是計算機視覺領域的一個重要研究方向。傳統的三維重建方法通常需要輸入大量圖像,并進行相機參數估計、密集點云重建、表面重建和紋理映射等多個步驟。近年來,深度學習背景下的圖像三維重建受到了廣泛關注,并表現出了優越的性能和發展前景。本文對深度學習背景下的圖像三維重建的技術方法、評測方法和數據集進行全面綜述。首先對三維重建進行分類,根據三維模型的表示形式可將圖像三維重建方法分類為基于體素的三維重建、基于點云的三維重建和基于網格的三維重建;根據輸入圖像的類型可將圖像三維重建分類為單幅圖像三維重建和多幅圖像三維重建。隨后介紹了不同類別的三維重建方法,從三維重建方法的輸入、三維模型表示形式、模型紋理顏色、重建網絡的基準值類型和特點等方面進行總結,歸納了深度學習背景下的圖像三維重建方法的常用數據集和實驗對比,最后總結了當前圖像三維重建領域的待解決問題以及未來的研究方向。
三維重建的目標是從單幅或多幅二維圖像中重 建出物體和場景的三維模型并對三維模型進行紋理 映射。三維重建是計算機視覺領域的一個重要研究 方向,利用計算機重建出物體的三維模型,已經成為 眾多領域進行深入研究前不可或缺的一部分。在醫 療領域中,利用三維模型診斷身體狀況;在歷史文化 領域中,將文物進行立體重建,供科學研究及游客參 觀。除此之外,在游戲開發、工業設計以及航天航海 等領域,三維重建技術具有重要的應用前景。目前, 研究人員主要利用 3 類方法來重建三維模型,1)直 接操作的人工幾何建模技術;2)利用三維掃描設備 對目標進行掃描,然后重建目標的三維模型;3)圖像 三維重建,采集單幅或多幅圖像,運用計算機視覺技 術來重建三維模型。在上述 3 種方法中,圖像三維 重建成本低、操作簡單,可以對不規則的自然或人工 合成物體進行建模,重建真實物體的三維模型。傳 統的圖像三維重建是從多視圖幾何(Andrew,2001) 的角度進行處理,從幾何上理解和分析從三維到 二維的投影過程,設計從二維到三維的逆問題解決方案進行三維重建。傳統的三維重建通常需要大量 已知相機參數的圖像,并進行相機參數估計、密集點 云重建和表面重建等多個步驟。隨著卷積神經網絡 (convolutional neural network,CNN)的發展,深度學 習廣泛應用于計算機視覺中的各種領域,基于深度 學習的技術方法利用先驗知識來解決各種復雜問 題。人們通常能夠對物體和場景建立豐富的先驗知 識,便于從單一視角重建物體的立體模型,推斷物體 的大小和其他視角的形狀。深度學習背景下的圖像 三維重建方法利用大量數據建立先驗知識,將三維 重建轉變為編碼與解碼問題,從而對物體進行三維 重建。隨著三維數據集的數量不斷增加,計算機的 計算能力不斷提升,深度學習背景下的圖像三維重 建方法能夠在無需復雜的相機校準的情況下從單幅 或多幅二維圖像中重建物體的三維模型。 三維模型的表示形式有3種:體素模型、網格模 型和點云模型。體素是三維空間中的正方體,相當 于三維空間中的像素;網格是由多個三角形組成的 多面體結構,可以表示復雜物體的表面形狀;點云是 坐標系中的點的集合,包含了三維坐標、顏色和分類 值等信息。三維模型的表示形式如圖1所示。 根據三維模型的表示形式可以將圖像三維重建 方法分類為基于體素的三維重建、基于點云的三維 重建和基于網格的三維重建。其中,基于網格的三 維重建方法包含單一顏色的網格三維重建和具有色 彩紋理的網格三維重建。根據輸入圖像的類型可將 圖像三維重建分類為單幅圖像三維重建和多幅圖像 三維重建。圖像三維重建方法分類如圖2所示。典 型的三維重建算法時間順序概述如圖3所示。 盡管目前已有一些三維重建相關綜述文獻(鄭 太 雄 等,2020;吳 博 劍 和 黃 惠,2020;龍 霄 瀟 等, 2021),但已有的綜述文獻主要介紹傳統方法或特殊 物體的三維重建,介紹深度學習背景下的圖像三維 重建技術的文獻相對偏少。本文主要對近年來深度 學習背景下的圖像三維重建的分類和研究現狀進行 總結。
圖像恢復(IR)一直是低級視覺領域中不可或缺且具有挑戰性的任務,旨在提高由各種形式的退化所扭曲的圖像的主觀質量。近期,擴散模型在AIGC的視覺生成方面取得了顯著進展,從而引起了一個直觀的問題,“擴散模型是否可以提升圖像恢復”。為了回答這個問題,一些開創性的研究試圖將擴散模型整合到圖像恢復任務中,從而取得了比先前基于GAN的方法更好的表現。盡管如此,關于基于擴散模型的圖像恢復的全面而有啟發性的綜述仍然很少。在本文中,我們是第一個全面回顧近期基于擴散模型的圖像恢復方法的,涵蓋了學習范例、條件策略、框架設計、建模策略和評估。具體來說,我們首先簡要介紹擴散模型的背景,然后介紹兩種在圖像恢復中利用擴散模型的流行工作流。隨后,我們分類并強調使用擴散模型進行IR和盲/實際世界IR的創新設計,旨在激發未來的發展。為了徹底評估現有的方法,我們總結了常用的數據集、實施細節和評估指標。此外,我們為開源方法在三個任務中提供了客觀的比較,包括圖像超分辨率、去模糊和修復。最后,受到現有工作中的限制的啟發,我們為基于擴散模型的IR提出了五個潛在的并且具有挑戰性的未來研究方向,包括采樣效率、模型壓縮、扭曲模擬和估計、扭曲不變學習和框架設計。
資源庫將在 //github.com/lixinustc/Awesome-diffusion-model-for-image-processing/ 上發布。
圖像恢復(IR)一直是低層次視覺任務中的長期研究主題,在提高圖像的主觀質量方面發揮著不可替代的作用。流行的IR任務包括圖像超分辨率(SR)[1-10]、去模糊[11-17]、去噪[18-25]、修復[26-31]和壓縮偽影去除[32-38]等。一些IR任務的視覺示例顯示在圖1中。為了恢復扭曲的圖像,傳統的IR方法將恢復視為信號處理,并從空間或頻率的角度使用手工制作的算法減少偽影[18, 39-44]。隨著深度學習的發展,眾多IR工作為各種IR任務定制了一系列數據集,例如,用于SR的DIV2K [45]、Set5 [46]和Set14 [47],用于去雨的Rain800 [48]、Rain200 [?]、Raindrop [49]和DID-MDN [50],以及用于運動去模糊的REDS [51]和Gopro [52]等。利用這些數據集,大多數近期的工作[1-3, 7-11, 13, 16, 19, 21-23, 32-34, 53-55]專注于通過基于卷積神經網絡(CNNs)[56]或Transformer [57]的精心設計的骨干網絡來提高IR網絡針對復雜退化的表示能力。盡管這些工作在客觀質量(例如,PSNR和SSIM)上取得了卓越的進展,但恢復的圖像仍然受到不滿意的紋理生成的困擾,這阻礙了IR方法在實際場景中的應用。
得益于生成模型的發展[58-66],尤其是生成對抗網絡(GAN)[64],一些開創性的IR研究[5, 6, 67-70]指出,先前的像素級損失,例如MSE損失和L1損失容易受到模糊紋理的影響,并將GAN的對抗損失引入到IR網絡的優化中,從而增強其紋理生成能力。例如,SRGAN [5] 和DeblurGAN [12]分別使用像素級損失和對抗損失的組合來實現以感知為導向的SR網絡和去模糊網絡。在他們之后,改進基于GAN的IR的兩個主要方向是增強生成器(即恢復網絡)[5, 6, 71-73]和鑒別器[74-77]。特別是,ESRGAN [6]引入了強大的RRDB [6]作為基于GAN的SR任務的生成器。三種流行的鑒別器,包括像素級鑒別器(U-Net形狀)[74]、塊級鑒別器[75, 78-80]和圖像級鑒別器[76, 77](即VGG類似的架構)被設計來關注不同粒度級別的主觀質量(即從局部到全局)。盡管有上述進展,但大多數基于GAN的IR研究仍然面臨兩個不可避免但至關重要的問題:1) 基于GAN的IR的訓練容易受到模式腐敗和不穩定優化的影響;2) 大多數生成的圖像的紋理似乎是假的和與事實不符的。
近年來,擴散模型作為生成模型的一個新分支浮現出來,為視覺生成任務帶來了一系列的突破。擴散模型的原型可以追溯到工作[81],并由DDPM [82]、NCSN [83]和SDE [84]進一步發展。一般來說,擴散模型由前向/擴散過程和反向過程組成,其中前向過程逐漸增加像素級噪聲到圖像,直到它滿足高斯噪聲,而反向過程旨在通過估算得分的去噪[83]或噪聲預測[82]來重建圖像。與GANs相比,擴散模型產生高保真度和多樣化的生成結果,從而成功地替代了在一系列領域中的GANs,如視覺生成[82-86]和條件視覺生成[86-97]。隨著視覺-語言模型的進步,擴散模型已被擴展到跨模態生成,如StableDiffusion [98]和DALLE-2 [99]。這極大地推動了人工智能生成內容(AIGC)的發展。我們已經在圖2中根據時間線列出了基于擴散模型的代表性作品。
受到擴散模型優越的生成能力的啟發,許多研究探索了它們在圖像恢復任務中的應用,目標是促進紋理的恢復。根據訓練策略,這些工作大致可以分為兩類:1) 第一類[100–109]致力于通過有監督學習從零開始優化用于IR的擴散模型;2) 第二類(即零樣本類)[110–117]努力利用預訓練擴散模型中的生成先驗用于IR。典型地,基于有監督學習的方法需要收集大規模的扭曲/清晰的圖像對,而基于零樣本的方法主要依賴已知的退化模式。這些局限性阻礙了這些基于擴散模型的方法在真實世界場景中的應用,其中的扭曲通常是多種多樣和未知的。為了進一步解決上述問題,一些研究[118–123]已經擴展了擴散模型,通過結合真實世界的扭曲模擬、核估計、領域轉換和扭曲不變學習來處理盲目/真實世界的圖像恢復。
盡管擴散模型在圖像恢復方面已經顯示出顯著的效果,但相關的技術和基準測試顯示出相當的多樣性和復雜性,這使它們難以被追蹤和改進。此外,缺乏一個基于擴散模型的IR的綜合性審查進一步限制了其發展。在本文中,我們首次回顧并總結了基于擴散模型的圖像恢復方法的工作,旨在為圖像恢復社區提供一個結構良好且深入的知識庫,并促進其在該社區內的演變。
在這次綜述中,我們首先在第2部分介紹擴散模型的背景,重點介紹三種基本的建模方法,即NCSN [83]、DDPM [82]和SDE [84],并從優化策略、采樣效率、模型架構和條件策略的角度對擴散模型進行進一步的改進。基于這些初步信息,我們在第3部分從兩個不同的方向闡明了擴散模型在圖像恢復中的進展:1) 基于監督的擴散模型IR,和2) 基于零樣本的擴散模型IR。在第4部分,我們總結了在更實用和具有挑戰性的場景下基于擴散模型的IR,即盲目/真實世界的退化。這旨在進一步增強基于擴散模型的IR方法滿足實際應用需求的能力。為了促進合理和詳盡的比較,在第5部分,我們闡明了在不同的基于擴散模型的IR任務中常用的數據集和實驗設置。此外,還提供了不同任務之間基準的綜合比較。在第6部分,我們深入分析了基于擴散模型的IR的主要挑戰和潛在方向。本次審查的最終結論總結在第7部分。
基于擴散模型的圖像恢復方法
根據擴散模型(DMs)是否針對IR進行無需訓練,我們初步將基于DM的IR方法分類為兩大類,即監督型DM-based方法 [100, 105, 107, 108, 121, 191-194] 和零樣本型DM-based方法 [112, 114, 115, 195-200]。特別地,監督型DM-based IR方法需要從頭開始使用IR數據集的成對的扭曲/干凈圖像來訓練擴散模型。與之前直接將扭曲圖像作為輸入的基于GAN的方法 [201–209] 不同,基于DM的IR采用精心設計的條件機制在反向過程中將扭曲的圖像作為指導。盡管這種方法產生了有希望的紋理生成結果,但它遇到了兩個顯著的限制:1) 從零開始訓練擴散模型依賴于大量的成對訓練數據。2) 在現實世界中收集成對的扭曲/干凈圖像是具有挑戰性的。相反,零樣本型DM-based方法只需扭曲的圖像,無需重新訓練擴散模型,從而提供了一個吸引人的選擇。它不是從IR的訓練數據集中獲得恢復能力,而是從預訓練的擴散模型中挖掘并利用圖像恢復的結構和紋理先驗知識。這一核心思想源于直覺:預訓練的生成模型可以被視為使用大量真實世界數據集(如ImageNet [210] 和FFHQ [211])構建的結構和紋理倉庫。因此,零樣本型DM-based IR方法面臨的一個關鍵挑戰是:如何在保持數據結構的同時提取相應的感知先驗。在接下來的小節中,我們首先簡要回顧代表性的監督型DM-based IR方法:SR3 [100],以及零樣本型DM-based IR方法:ILVR [195]。然后,我們從條件策略、擴散建模和框架的角度對這兩種方法進行進一步分類,這些總結在表1和表2中。此外,擴散模型的整體分類在圖4中進行了說明。
擴散模型用于盲/真實世界的圖像恢復
盡管第3節中的方法在圖像恢復方面取得了巨大的突破,但其中大多數方法 [100, 101, 104, 112–114, 197, 218, 219] 都集中在解決合成扭曲問題上,它們通常在分布外(OOD)的真實世界/盲目退化條件下表現不佳。原因在于真實世界IR的固有挑戰:1) 未知的退化模式很難被識別。2) 在現實世界中收集扭曲/干凈的圖像對是微不足道的,甚至是不可用的。為了克服這一點,先前的工作 [241–248] 嘗試通過模擬真實世界的退化 [72, 241–244, 246] 和無監督學習 [245, 247, 248] 等方法來解決它。受此啟發,一些開創性的工作 [117, 118, 120, 123, 221] 開始探索如何利用擴散模型解決真實世界的退化問題。在本文中,我們將基于DM的盲/真實世界IR [108, 109, 118–121, 123, 220–222, 226] 分為四類,即扭曲模擬 [118, 226],核估計 [119, 120],域轉換 [122, 226],以及扭曲不變的擴散模型 [123, 222, 237]。
結論
本文為圖像恢復 (IR) 的最近受歡迎的擴散模型提供了一個全面的評述,深入探討了其顯著的生成能力以增強結構和紋理恢復。首先,我們闡述了擴散模型的定義和演變。隨后,我們從培訓策略和退化場景的角度提供了現有作品的系統分類。具體來說,我們將現有的工作分為三個主要流程:有監督的 DM-based IR、零鏡頭的 DM-based IR 和基于盲/真實世界的 DM-based IR。對于每一個流程,我們基于技術提供了細粒度的分類,并詳細描述了它們的優點和缺點。對于評估,我們總結了 DM-based IR 常用的數據集和評估指標。我們還在三個典型任務上,包括圖像SR、去模糊和修復,使用扭曲和感知度量比較了開源的 SOTA 方法。為了克服 DMbased IR 中的潛在挑戰,我們強調了未來有望探索的五個潛在方向。
圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。
知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.
引言
知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .
為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.
盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.
本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.
1 符號定義
知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).
2.1 基于距離的模型
基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.
基于距離的模型總結
2.2 語義匹配模型
語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.
語義匹配模型總結
2.3 最新的知識圖譜嵌入模型
大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.
最新的知識圖譜嵌入模型總結
第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.
3 動態知識圖譜嵌入
當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.
4 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.
5.1 基于知識圖譜嵌入的問答
隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.
值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。
5.2 推薦系統
在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.
5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.
受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.
6 挑戰與展望
目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.
6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.
知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.
多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.
多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.
One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.
6.1.2 知識應用的復雜性
KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.
6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.
6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.
6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.
7 總結
知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.
生成對抗網絡(GAN)是無監督學習領域最近幾年快速發展的一個研究方向,其主要特點是能夠以一種間接的方 式對一個未知分布進行建模。在計算機視覺研究領域中,生成對抗網絡有著廣泛的應用,特別是在圖像生成方面,與其他的 生成模型相比,生成對抗網絡不僅可以避免復雜的計算,而且生成的圖像質量也更好。因此,本文將對生成對抗網絡及其在 圖像生成中的研究進展做一個小結和分析;本文首先從模型的架構、目標函數的設計、生成對抗網絡在訓練中存在的問題, 以及如何處理模式崩潰問題等角度對生成對抗網絡進行一個詳細的總結和歸納;其次介紹生成對抗網絡在圖像生成中的兩 種方法;隨后對一些典型的、用來評估生成圖像質量和多樣性的方法進行小結;并且對基于圖像生成的應用進行詳細分析;最后對生成對抗網絡和圖像生成進行總結,同時對其發展趨勢進行一個展望。