在機器越來越多地融入我們日常生活的時代,它們感知和理解三維世界的能力變得極為重要。這一能力的核心是場景表示,它將感官數據轉換成緊湊、詳細且整體的環境描述。雖然深度學習,特別是卷積神經網絡(CNNs),已經革新了計算機視覺的許多方面,但其主要關注點仍然是2D信息。本論文深入探討了將這些技術轉向3D環境的挑戰與潛能,旨在彌合機器感知與類人空間理解之間的鴻溝。
我們的主要目標是開創針對準確的三維重建和全面的三維場景理解而定制的神經場景表示的發展。我們首先介紹了一種為基于深度學習的三維重建量身定制的可擴展場景表示。這種表示能夠以連續、不受分辨率限制的方式捕捉3D形狀,有效地解決了傳統顯式基方法的限制。接下來,通過引入一個可微的點到網格層,我們提出了一種輕量級表示,確保了高質量重建與快速推理,滿足了現實世界應用中對速度的需求。此外,我們還探索了采用層次化神經隱式表示的密集視覺同時定位與地圖構建(SLAM)系統,這種方法能夠在大規模室內場景中實現詳細重建,推動了當前SLAM系統的邊界。最后,我們的研究以開發用于廣泛三維場景理解任務的統一場景表示為高潮,繞過了對昂貴的3D標注數據的需求。
總之,本論文提出了一系列在神經場景表示方面的進展,提供了不僅增強了三維重建能力而且提升了三維場景理解水平的解決方案,使我們更接近于實現與人類認知相鏡像的機器感知。
隨著科學技術的快速發展,機器已無縫地融入我們的日常生活中。現在,我們發現自己與能夠駕駛汽車、組織我們的家庭乃至協助進行醫療手術的機器一同生活。這些進步的核心在于機器對周圍環境的感知和理解能力。 為了有效地感知三維世界,機器需要從感官數據中建模周圍環境。特別是,準確地表示和重建細致的幾何形態以匹配其現實生活中的對應物,對于增強現實/虛擬現實、自動駕駛、機器人技術等應用至關重要。然而,從頭開始創建細致的幾何形態是一項勞動密集型任務,需要專門的專業知識。盡管出現了先進的軟件和用戶友好型建模工具,但像可擴展性和速度這樣的挑戰阻礙了它們的大規模部署。如何快速準確地為大場景構建幾何細節是本論文的主要關注點。
一旦三維環境被準確構建,同樣重要的是理解重建對象的語義、可供性、功能和物理屬性。這種全面理解對于機器在日常場景中與人類智能互動至關重要。然而,傳統方法往往針對特定任務量身定做,例如對有限類別集進行的3D語義分割,留下其他任務未被解決。實現對3D場景的廣泛理解是本論文的另一個目標。
場景表示,即將環境的觀察(無論是視覺的、觸覺的、聽覺的還是其他的)轉換為環境的簡潔模型,對于旨在準確重建逼真場景并全面理解我們世界的機器自然至關重要。近期在深度學習方面的進展,特別是卷積神經網絡(CNNs)的出現,提供了一種推導出健壯且強大的場景表示的有希望的方式,這里稱為神經場景表示。 CNNs已經革命性地改變了許多計算機視覺任務,特別是在圖像分類和深度估計等領域,展示了深度學習處理視覺信息的潛力。然而,它們的絕大多數能力都集中在處理2D信息上。將這些以2D為重點的技術轉移到3D環境中帶來了獨特的挑戰。為了有效地建模和理解復雜的世界,對機器來說,學習3D場景表示至關重要,這能使機器獲得類似于人類感知世界的更深層次的空間理解。
本論文的目標是開創神經場景表示的發展,專門為準確重建和全面理解3D世界量身定做。我們的路線圖標記著清晰的里程碑,它們都緊密相連。首先,我們想開發一種可擴展的場景表示,能夠忠實地重建詳細的3D幾何形態,從對象到大規模場景都能覆蓋。接下來,通過整合一種新穎的可微分點到網格層,我們可以僅使用輕量級點云來表示詳細形狀,并加速3D重建過程。第三,我們還研究了一種層次化神經場景表示,特別是為大型室內場景中的密集RGB-D SLAM應用賦能。一旦獲得場景的3D重建,論文的最后一部分是為眾多3D場景理解任務產生3D神經場景表示,僅利用2D預訓練模型,從而繞過了任何昂貴的3D標注數據的需求。 總體而言,本論文探討了各種神經場景表示,以高效地產生詳細的3D場景重建,并隨后將3D場景理解的邊界推向另一個水平。在下一節中,我們將深入討論實際問題和挑戰。
在過去幾年中,人工智能(AI)通過諸如聊天機器人、圖像生成器、語音合成和轉錄等高調應用進入了公眾意識。這些都歸功于深度學習的成功:從大量數據中學習任務的機器學習算法。用于深度學習的神經網絡模型涉及許多參數,通常達到數十億個。這些模型經常無法處理計算機傳統上擅長的任務,如計算算術表達式、推理多種不同的信息、規劃和調度復雜系統以及從數據庫中檢索信息。這些任務傳統上使用基于邏輯和正式推理的人工智能中的符號方法來解決。而神經符號AI旨在將深度學習與符號AI整合。這種整合有許多承諾,例如減少訓練神經網絡所需的數據量,提高模型給出答案的可解釋性和可解讀性以及驗證訓練系統的正確性。我們主要研究神經符號學習,其中我們除了數據之外,還有用符號語言表達的背景知識。我們如何連接符號和神經組件,以將這些知識傳達給神經網絡?
我們考慮兩個答案:模糊和概率推理。模糊推理研究真理的程度。一個人可能非常高或有點高:高度不是一個二元概念。相反,概率推理研究某事是真的或將發生的概率。硬幣有0.5的可能性正面朝上。我們從不說它落在了“有點正面”。當我們使用模糊(第一部分)或概率(第二部分)方法進行神經符號學習時會發生什么?此外,這些方法是否使用了我們期望它們使用的背景知識?我們的第一個研究問題研究了不同形式的模糊推理如何與學習結合。我們發現了一些令人驚訝的結果,如與烏鴉悖論的聯系,該悖論指出,當我們觀察到一個綠蘋果時,我們確認“烏鴉是黑色的”。在這項研究中,我們給神經網絡一個由背景知識創建的訓練目標。然而,當我們部署我們的模型進行訓練后,我們沒有使用背景知識。在我們的第二個研究問題中,我們研究了如何在部署模型中使用背景知識。為此,我們開發了一個基于模糊推理的新神經網絡層。其余的研究問題研究了概率方法在神經符號學習中的應用。概率推理是神經網絡的自然選擇,我們通常訓練它們是概率性的。然而,概率方法有一個成本:它們計算昂貴,并且不適合大規模任務。在我們的第三個研究問題中,我們研究了如何通過抽樣來估計平均值,將概率推理與神經網絡連接起來。抽樣避免了為所有輸入組合計算推理結果。在第四個也是最后一個研究問題中,我們研究了將概率神經符號學習擴展到以前不可能的更大問題。我們的洞察是訓練一個神經網絡來預測概率推理的結果。我們僅使用背景知識進行這一訓練過程:我們不收集數據。這與優化有什么關系?所有研究問題都與優化問題相關。在神經符號學習中,使用像梯度下降這樣的流行方法進行優化是一種推理形式。有充分的機會研究這種優化視角如何改進我們的神經符號學習方法。我們希望這篇論文能提供一些必要的答案,使實用的神經符號學習成為現實:從業者提供數據和知識,神經符號學習方法盡可能高效地使用它們來訓練下一代神經網絡。
//research.vu.nl/en/publications/optimisation-in-neurosymbolic-learning-systems
隨著社會技術化程度的不斷提升,我們使用機器執行越來越復雜的任務,這些任務范圍從駕駛輔助、視頻會議到探索行星。場景表示,即如何將感官數據轉換為環境的緊湊描述,是使這些系統成功并確保安全的基本屬性。一個有前景的方法是開發基于學習的系統,這些系統能夠根據觀察自我調整。
事實上,近年來深度學習已經徹底改變了計算機視覺領域。特別是更好的模型架構、大量的訓練數據以及更強大的計算設備使得深度學習系統具有前所未有的性能,并且它們現在在許多基準測試中設定了最新技術水平,這些測試范圍從圖像分類、物體檢測到語義分割。盡管這些成功,這些系統的運作方式仍然與人類認知有本質上的不同。特別是,大多數方法在2D領域操作,而人類理解圖像是三維世界的投影。此外,它們通常不遵循場景的組合理解,這對人類推理來說是基本的。在這篇論文中,我們的目標是開發場景表示,使自主代理能夠在復雜環境中穩定、安全地導航和行動,同時在3D中進行組合推理。為此,我們首先提出了一種用于基于深度學習的三維重建和生成建模的新型輸出表示。
我們發現,與以前的表示方法相比,我們基于神經場的方法不需要對3D空間進行離散化,就可以以恒定的內存占用實現任意分辨率的重建。接下來,我們開發了一種可微渲染技術,用于從2D觀察中推斷出這些基于神經場的3D形狀和紋理表示,并發現這使我們能夠擴展到更復雜、現實世界的場景。隨后,我們將我們的新型3D形狀表示與空間和時間上連續的矢量場相結合,以模擬運動中的非剛性形狀。我們觀察到,我們的新型4D表示可用于各種判別和生成任務,范圍從4D重建到4D插值,再到運動轉移。最后,我們開發了一種以對象為中心的生成模型,該模型可以以組合方式生成3D場景,并且允許對生成的場景進行逼真的渲染。我們發現,我們的模型不僅提高了圖像保真度,而且相比之前的工作,在僅從原始、未擺放的圖像集合中訓練的情況下,實現了更可控的場景生成和圖像合成。
人工智能,尤其是機器學習的子領域,已經看到了向數據驅動的模型的范式轉變,這些模型從數據中學習并適應。這在自然語言處理和計算機視覺等多個領域都帶來了前所未有的進步,很大程度上歸因于深度學習,一種特殊的機器學習模型。深度學習通過一系列的計算層從原始數據中學習相關特征,從而在某種程度上超越了傳統方法。
本論文通過研究這些模型的結構與它們處理的數據中的固有結構之間的關系,探討了深度學習的理論基礎。我們特別提問:是什么驅動了深度學習算法的效能,并使它們擊敗了所謂的維度詛咒——即由于數據點與增加的維數呈指數級增加的需要而在高維中通常學習函數的困難?是它們利用數據結構來學習數據的相關表示的能力嗎?不同的結構是如何利用不同的數據結構的?為了解答這些問題,我們提出數據的結構可以通過其不變性——即與手頭的任務無關的方面來有效地表征。
我們的方法對深度學習采取了一種實證方法,將實驗研究與物理啟發的玩具模型相結合。這些簡化的模型使我們能夠研究和解釋我們在深度學習系統中觀察到的復雜行為,提供對它們內部工作的洞察,目標是彌合理論與實踐之間的差距。具體地說,我們計算淺層全連接網絡的嚴格泛化誤差率,表明它們通過學習線性不變性(即對輸入空間中無關的線性方向變得不敏感)能夠表現良好。但是,我們表明這些網絡結構在學習非線性不變性(如旋轉不變性或輸入的平滑變形的不變性)時可能表現不佳。這一結果說明,如果所選擇的架構不適合某個任務,它可能會過度擬合,使得表示不被學習的核方法可能成為更好的選擇。
然而,現代的架構,如卷積神經網絡,特別適合學習真實數據中存在的非線性不變性。例如,在圖像分類中,物體或特征的確切位置可能對于識別它并不重要。這一屬性導致了對小的變形的不變性。我們的研究結果表明,對變形更為不變的神經網絡往往性能更高,突顯了利用這種不變性的重要性。
人類自然地整合各種感覺來理解我們的周圍環境,使我們能夠補償部分缺失的感官輸入。相反,機器學習模型擅長利用大量數據集,但在有效處理缺失數據方面面臨挑戰。雖然利用多種數據類型提供了更全面的視角,但也增加了遇到缺失值的可能性,從而強調了在機器學習技術中適當管理缺失數據的重要性。 在這篇論文中,我們主張開發模擬人類合并多種感覺輸入到統一表示法的機器學習模型,展示在面對缺失輸入源時的韌性。為多種數據類型生成標簽是費時且通常成本高昂的,導致完全注釋的多模態數據集稀缺。另一方面,多模態數據自然地具有一種弱監督形式。我們知道這些樣本描述了同一事件,并假設某些基本生成因子在群組成員之間是共享的,提供了一種弱引導。 我們的論文重點研究由弱監督特征的數據學習,深入探討群組成員之間的相互關系。 我們首先探索能夠處理多模態輸入并有效處理缺失數據的機器學習模型的新技術。
我們的重點是使用變分自編碼器(VAE)從弱監督數據中學習。我們引入了一種概率聚合函數的泛化公式,旨在克服以前方法的局限性,我們展示了這種泛化公式與性能提升的關聯。 在更高的層次上,我們研究了關于群體結構的隱含假設對模型學習行為和效果的影響。 我們發現,對于生成連貫和高質量的樣本,假設一個共享的潛在空間過于嚴格。為了克服這一局限性,我們在多模態VAEs中引入了模態特定的潛在子空間,反映了更為靈活的建模方法。 雖然我們觀察到,在建模假設上的更大靈活性,或與實際數據生成過程一致的假設,都會導致性能的提高,但我們仍然依賴于關于一組多模態或弱監督樣本的關系的先驗知識。隨著群體成員的增長,他們之間的基本關系可能變得更為復雜,增加了過于嚴格假設的風險。 因此,在最后一節中,我們將重點轉向在學習弱監督數據時最小化所需的假設,并同時在學習過程中推導出群體結構。在這種情境下,我們引入了一個可微分的隨機分區模型的新公式,該模型遵循兩階段過程。在第一步,我們使用新提出的超幾何分布的可微分公式估計元素的數量。在第二步,我們將適當數量的元素分配給每個子集。我們可以證明,我們的可微分隨機分區模型可以在弱監督設置中學習共享和獨立的生成因子。 我們希望這篇論文及其貢獻能夠增強多模態機器學習的未來應用,并減少一般情況下從弱監督數據中學習所需的假設。
//www.research-collection.ethz.ch/handle/20.500.11850/634822
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。
圖神經網絡(GNNs)在圖表示學習中取得了發展勢頭,并推動了各種領域的先進水平,例如數據挖掘(如社會網絡分析和推薦系統),計算機視覺(如目標檢測和點云學習),自然語言處理(如關系提取和序列學習),等等。隨著Transformer在自然語言處理和計算機視覺中的出現,圖Transformer將圖結構嵌入到Transformer架構中,以克服局部鄰域聚集的局限性,同時避免嚴格的結構歸納偏差。本文從面向任務的角度對計算機視覺中的GNNs和圖transformer進行了全面的回顧。具體而言,我們將其在計算機視覺中的應用根據輸入數據的形式分為五類,即2D自然圖像、視頻、3D數據、視覺+語言和醫學圖像。在每個類別中,我們根據一組遠景任務進一步劃分應用程序。這種面向任務的分類法允許我們檢查每個任務是如何由不同的基于GNN的方法處理的,以及這些方法的性能如何。基于必要的初步準備,我們提供了任務的定義和挑戰,對代表性方法的深入報道,以及關于見解、局限性和未來方向的討論。
引言
深度學習[1]為計算機視覺帶來了許多突破,其中卷積神經網絡(CNN)占據了主導地位,成為許多現代視覺系統的基礎設施。特別是,許多最先進的CNN模型,如AlexNet[2]、ResNet[3]和EfficientNet[4],在過去十年中被提出,并在各種視覺問題中取得了前所未有的進展,包括圖像分類、目標檢測、語義分割和圖像處理等。另一方面,現有的視覺系統可以像人類一樣建立在各種輸入模態之上,如2D圖像(如自然圖像和醫學圖像)、視頻、3D數據(如點云和網格)以及多模態輸入(如圖像+文本)。 盡管基于CNN的方法在處理像圖像這樣的網格狀數據結構方面表現出色,但在計算機視覺社區中出現了一種新意識,即數據的非網格拓撲信息對表示學習至關重要,但還有待徹底研究。觀察到人類的組合泛化能力在很大程度上依賴于他們表示結構和推理關系的認知機制[5],模仿人類的學習和決策過程可以提高視覺模型的性能,并為最終的預測提供邏輯證據。例如,在物體識別的任務中,最先進的神經網絡更傾向于單獨感知物體的存在,而不同物體之間的依賴性和相互作用卻很少受到關注。
此外,與具有內在邊連接和節點概念的自然圖數據(如社交網絡和生物蛋白質網絡)相比,基于規則網格數據(如圖像和文本)的圖(如關系圖)構建缺乏原則性方法,嚴重依賴于領域知識。另一方面,視覺問題中的一些數據格式,如點云和網格,自然不是定義在笛卡爾網格上的,并且涉及復雜的關系信息。從這個意義上說,無論是規則的還是不規則的視覺數據格式都將受益于拓撲結構和關系的探索,特別是在理解復雜場景、從有限的經驗中學習和跨領域的知識轉移等具有挑戰性的場景。
在過去的幾年中,在深度學習的最新進展下,GNNs[6]在建模圖結構方面展示了突破性的性能。在計算機視覺的范圍內,目前許多與GNN相關的研究都有以下兩個目標之一:(1)GNN和CNN主干的混合(2)用于表示學習的純GNN架構。前者通常尋求提高CNN學習到的特征的遠程建模能力,適用于以前純CNN架構解決的視覺任務,如圖像分類和語義分割。后者在一些可視化數據格式(如點云)中充當特征提取器,與其他方向相比,它是并行開發的。例如,在點云[7]的三維形狀分類任務中,主要有三個研究方向,分別是基于點的MLP方法、基于卷積的方法和基于圖的方法。 然而,盡管取得了豐碩的成果,仍然沒有一篇綜述來系統和及時地回顧基于GNN的計算機視覺的進展。本文對現有研究進行了文獻綜述,從任務導向的角度對計算機視覺中的圖神經網絡進行了完整的介紹,包括(i)任務的定義和挑戰,(ii)代表性方法的深入覆蓋,以及(iii)關于見解、局限性和未來方向的系統討論。具體而言,我們將GNN在計算機視覺中的應用根據輸入數據的形式分為五種類型。在每種類型中,我們根據它們執行的計算機視覺任務對應用程序進行分類。我們還回顧了視覺任務中使用的圖變形函數,考慮到它們在架構[8]、[9]方面與GNN的相似性。本次調查的組織如圖1所示。 背景知識
在本節中,我們將回顧在計算機視覺中使用的GNN和圖transformer。讀者可以參考之前的幾個GNN調研[10],[11],[12],全面介紹GNN的發展。此外,我們要強調的是,許多現有的基于GNN的視覺方法實際上是使用CNN和GNN的混合,而我們專注于GNN方面。
目錄
圖像建模 圖像分類 多標簽分類 少樣本學習 零樣本學習 遷移學習 目標檢測 圖像分割 場景圖生成 視頻理解 視頻動作識別 時序動作定位 視覺+語言 視覺問答基準 視覺Grounding 圖像描述 3D 數據分析 3D表示學習 3D理解 3D 生成 醫學圖像分析
盡管在感知方面取得了突破性進展,但如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的一個艱巨挑戰。在這方面,GNN和圖transformer在處理"關系"任務方面表現出了極大的靈活性和優越性。本文首次從面向任務的角度全面綜述了計算機視覺中的GNN和圖transformer。具體來說,根據輸入數據的形式,將各種經典和最新的算法分為5類,如圖像、視頻和點云。通過系統地梳理每個任務的方法,我們希望這項調查可以揭示未來更多的進展。通過對關鍵創新、局限性和潛在研究方向的討論,我們希望讀者能夠獲得新的見解,并向類似人類的視覺理解更進一步。
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
消息傳遞被證明是一種設計圖神經網絡的有效方法,因為它能夠利用排列等方差和對學習局部結構的歸納偏差來實現良好的泛化。然而,當前的消息傳遞體系結構的表達能力有限,無法學習圖的基本拓撲性質。我們解決了這個問題,并提出了一個新的消息傳遞框架,它是強大的同時保持置換等方差。具體來說,我們以單熱點編碼的形式傳播惟一的節點標識符,以便了解每個節點的本地上下文。我們證明了我們的模型在極限情況下是通用的,同時也是等變的。通過實驗,我們發現我們的模型在預測各種圖的拓撲性質方面具有優勢,為新型的、功能強大的等變和計算效率的結構開辟了道路。