摘要
在過去十年左右的時間里,我們見證了深度學習讓機器學習領域重新煥發活力。它以最先進的性能解決了計算機視覺、語音識別、自然語言處理等領域的許多問題。這些領域的數據一般用歐幾里得空間表示。其他許多領域都符合非歐幾里得空間,圖是其中的理想表示。圖適用于表示各種實體之間的依賴關系和相互關系。傳統上,手工制作的圖特性無法從復雜的數據表示中為各種任務提供必要的推斷。最近,出現了利用深度學習的各種進展來繪制基于數據的任務。本文提供了圖神經網絡(GNN)在每種學習設置中的全面綜述: 監督學習、無監督學習、半監督學習和自監督學習。每個基于圖的學習設置的分類提供了屬于給定學習設置的方法的邏輯劃分。從理論和實證兩方面分析了每個學習任務的方法。此外,我們還提供了構建GNN的一般架構指導方針。還提供了各種應用程序和基準數據集,以及仍然困擾著GNN的普遍適用性的開放挑戰。
//www.zhuanzhi.ai/paper/4014c909fcaa7d7c7c7d292b6a7febbb
引言
圖是定義一組節點及其關系的數據結構。從社交網絡[141]到物理互動[209],我們無處不在地觀察它們。圖表還可以用來表示不可思議的結構,如原子、分子、生態系統、生物、行星系統[42]等等。所以,圖形結構存在于我們的周圍環境和對世界的感知中。它包括實體和相互關系,以建立概念,如推理、溝通、關系、營銷等。
隨著當今技術的進步,互聯網(一個巨大的圖表)的使用正在迅速增長。如今,在社交網絡、搜索引擎的知識數據庫、街道地圖、甚至分子、高能物理、生物和化學化合物中也可以找到大量的圖表。圖結構表示在這些環境中很常見; 因此,需要有效和新穎的技術來解決基于圖的任務。許多傳統的機器學習技術都是在使用各種預定義的過程從原始數據表單中提取特征的基礎上提出的。提取的特征可以是圖像數據中的像素統計,也可以是自然語言數據中的單詞出現統計。在過去的十年中,深度學習(DL)技術獲得了巨大的普及,有效地解決了學習問題,從原始數據學習表示,并使用學習的表示同時預測。通常,這是通過探索許多不同的非線性轉換(由層執行)和使用基于梯度下降的學習方法對這些模型進行端到端訓練來實現的。盡管DL最近在計算機視覺、自然語言處理、生物醫學成像、生物信息學等領域取得了進展,但它仍然缺乏關系和因果推理、智力抽象和其他各種人類能力。以圖的形式構造深度神經網絡(DNN)中的計算和表示是解決這些問題的方法之一,這種方法被稱為圖神經網絡(GNN)。
GNN在具有許多學習設置的不同領域的圖結構數據集上都是成功的: 有監督、半監督、自監督和無監督。大多數基于圖的方法屬于無監督學習,通常基于自動編碼器、對比學習或隨機行走概念。圖自編碼器的最新研究成果有:Cao等人[22]在高光譜分類中的特征提取; Yang等人的防止消息傳遞過平滑[188];Park等人使用消息傳遞自動編碼器進行雙曲表示學習[134];用于解決Wu等人[182]提出的當前鏈路預測方法的局限性。最近,基于對比學習的方法也很成功,這在許多研究人員的工作中得到了證明。Okuda等[122]是最近出現的一種無監督圖表示學習方法,用于發現圖像中常見的目標和一組特定目標的定位方法。學習后的表示可以用于下游的學習任務,如Du等人[41]和Perozzi等人[138]所示。Adhikari等人[2]中的擴展隨機游動以及Dong等人[40]中的異構圖中的頂點表示也可以捕獲子圖的嵌入。
本文根據圖半監督學習方法的嵌入特征,將其分類為淺圖嵌入和深圖嵌入。將淺圖嵌入分為因子分解、隨機游走,將深圖嵌入分為自編碼器嵌入和GNN嵌入。本文還提供了對每種方法的進一步解釋,以及GNN的類別。基于圖的自監督學習方法根據任務和訓練策略進行分類。現有關于GNN的綜述論文大多側重于單一學習設置或一般GNN,如表1所示。這些綜述并沒有分別解釋每種學習環境。Zhou等人[205]最近完成了一項研究,重點研究了圖上的各種機器學習算法。
在本文中,我們探討了每個基于圖的學習設置,并將其分為幾個類別。本文的主要貢獻概述如下:
論文組織: 第2節分別介紹GNN的基本術語和概念,然后介紹2.1節和2.2節中基于圖結構數據的圖的變體和任務。第3節解釋了每個學習設置的基于GNN的方法,并進一步將方法和學習設置分解為邏輯劃分。3.1節簡要介紹了現有的圖監督學習方法。基于圖的無監督學習方法在第3.2節中進行了解釋,并對現有的學習方法進行了細分。然后我們在第3.3節給出了圖半監督學習方法,并通過嵌入方法對這些方法進行了細分。第3.4節介紹了圖的自監督學習方法,并根據任務和訓練策略對每種方法進行了劃分。GNN的一般step-wise結構在第4節中給出。第6節從理論和實證兩個方面對GNN方法進行了分析。在第5節中,我們介紹了幾個在GNN研究中常用的數據集,然后是第7節,介紹了GNN的一些流行應用。第8節總結了在基于GNN的圖任務解決方案中仍然存在的尚未解決的問題。最后,在第9部分,我們總結了這項工作。
隨著數據驅動的機器學習研究的發展,各種各樣的預測問題得到了解決。探索如何利用機器學習,特別是深度學習方法來分析醫療數據已經變得至關重要。現有方法的一個主要局限性是專注于網格數據; 然而,生理記錄的結構通常是不規則的和無序的,這使得很難把它們作為一個矩陣來概念化。因此,圖神經網絡通過利用生物系統中的隱式信息,利用邊緣連接的交互節點吸引了大量的關注,這些邊的權重可以是時間關聯或解剖連接。在本綜述中,我們全面回顧了不同類型的圖架構及其在醫療保健中的應用。我們以系統的方式概述了這些方法,并按照它們的應用領域組織起來,包括功能連接、解剖結構和基于電的分析。我們還概述了現有技術的局限性,并討論了未來研究的潛在方向。
//www.zhuanzhi.ai/paper/93391ccf2368809646650183224eee1c
引言
醫學診斷是指一個人可以確定哪種疾病或狀況可以解釋病人的癥狀的過程。疾病診斷所需的信息來自患者的病史和各種醫學測試,這些測試通過診斷成像數據獲取患者的功能和解剖結構,如功能磁共振成像(fMRI)、磁共振成像(MRI)、計算機斷層掃描(CT)、超聲(美國)和X射線; 其他診斷工具包括腦電圖(EEG)。然而,考慮到通常耗時的診斷過程容易產生主觀解釋和觀察者間的變異,臨床專家已經開始從計算機輔助干預中獲益。自動化在醫療保健服務和醫生有限的情況下也有好處。自動化正在努力提高醫療保健系統的質量和降低成本[1]。通過將特征工程任務合并到學習任務[2]中,深度學習提供了一個解決這些需求的有效途徑。有幾篇綜述論文分析了傳統機器學習和深度學習方法在醫學異常和解剖結構檢測和分割、運動障礙和序列數據分析、計算機輔助檢測和計算機輔助診斷方面的好處。
圖網絡屬于一個新興領域,它也在許多技術領域產生了巨大的影響。來自化學、生物學、遺傳學和醫療保健等學科的許多信息并不適合基于矢量的表示,而是需要復雜的數據結構。圖本質上捕獲實體之間的關系,因此在這些應用中可能非常有用,可以對變量之間的關系信息進行編碼。例如,在醫療保健領域,可以通過在醫生的決策過程[7]中將疾病或癥狀與主題關聯起來,或為乳腺癌分析[8]建立RNA序列模型來構建知識圖譜。因此,特別將圖神經網絡(GNN)推廣為非結構(無序)和結構(有序)場景。然而,盡管基于圖的表示在醫學領域的使用越來越普遍,但與傳統的深度學習方法相比,此類方法仍然稀缺,而且它們解決許多具有挑戰性的醫學問題的潛力尚未完全實現。
關于GNNs的深度學習領域迅速增長,其受歡迎程度也反映在最近對圖形表示及其應用的大量綜述中。現有綜述全面概述了非歐氏數據深度學習、圖深度學習框架和現有技術的分類[9],[14];或者介紹包括生物學和信號處理領域[15]-[18]的一般應用。盡管一些論文使用深度學習技術概述了醫學圖像分析,并引入了GNN的概念來評估神經疾病[19],據我們所知,目前還沒有系統介紹和討論GNN在非結構化醫學數據中的當前應用。
在本文中,我們致力于提供一個多圖神經網絡(GNN)模型在醫療診斷和分析方面的全面回顧。我們試圖解釋為什么GNN在這個領域值得研究的根本原因,并強調了新興的醫療分析挑戰,GNN可以很好地解決。圖神經網絡在醫學信號處理和分析中的應用尚處于起步階段。在本文中,我們提出了一項綜述,將圖神經網絡應用于醫療診斷任務,并提出了該領域的最新方法和趨勢的現狀。
我們確定了傳統深度學習在應用于醫學信號分析時面臨的一些挑戰,并強調了了圖神經網絡在克服這些挑戰方面的貢獻。
我們介紹并討論了為醫療診斷提出的各種圖框架及其具體應用。我們涵蓋使用圖網絡與深度學習技術相結合的生物醫學成像應用的工作。
我們總結了當前基于圖的深度學習所面臨的挑戰,并基于目前觀察到的趨勢和局限性提出了醫學健康領域未來的發展方向。
圖神經網絡(GNN)在實際應用中往往會受到可用樣本數量太少的限制,而元學習(meta-learning)作為解決機器學習中樣本缺乏問題的重要框架,正逐漸被應用到 GNN 領域以解決該問題。本文梳理近年來在元學習應用于 GNN 的一系列研究進展,我們根據模型的架構、共享的表示和應用的領域對以往工作進行分類,并在最后討論該領域當前有待解決的問題和未來值得關注的研究方向。
圖結構數據(Graph)廣泛存在于現實場景中,例如藥物研究中的藥物分子結構和推薦系統中的用戶商品交互都可以用圖(Graph)表示,而圖數據(Graph)的廣泛存在也促進了圖神經網絡(GNN)的發展。GNN 是專門用于處理圖數據的深度神經網絡,它將圖或圖上的頂點、邊映射到一個低維空間,從而學習得到圖的有效表示,并進一步將其應用于下游任務。近年來,GNN 被廣泛應用于新藥發現、交通預測、推薦系統等各個領域。
盡管 GNN 擁有非常強大的能力,但在實際應用中依然面臨樣本數量有限的挑戰,特別是在推薦系統等真實系統更是要求 GNN 可以在少量樣本可用的情況下適應新問題。而元學習(meta-learning)作為解決深度學習系統中樣本缺乏問題的重要框架,在自然語言處理、機器人技術等多種應用中都取得了成功。因此,如何利用元學習解決 GNN 所面臨的樣本缺乏問題,是研究人員普遍關心的問題。
元學習的主要思想是利用之前的學習經驗來快速適應一個新問題,從而利用很少的樣本就能學習一個有用的算法。具體來講,元學習旨在以先驗的形式學習一個模型,而不是針對所有任務學習一個模型(不能區分任務)或針對每個任務學習單獨的模型(可能對每個任務過擬合)。元學習應用于 Graph 的主要挑戰是如何確定跨任務共享的表示類型,以及怎樣設計有效的訓練策略。近期,研究人員針對不同的應用場景,已經提出了多種元學習方法來訓練 GNN。本文我們就將對元學習在 GNN 上的運用進行全面回顧。
社交網絡和分子圖等結構化的圖形數據在現實世界中隨處可見。設計先進的圖結構數據表示學習算法,促進下游任務的完成,具有重要的研究意義。圖神經網絡(GNNs)將深度神經網絡模型推廣到圖結構數據,為從節點級或圖級有效學習圖結構數據表示開辟了一條新途徑。由于其強大的表示學習能力,GNN在從推薦、自然語言處理到醫療保健等各種應用中獲得了實際意義。近年來,它已成為一個熱門的研究課題,越來越受到機器學習和數據挖掘界的關注。本教程涵蓋了相關和有趣的主題,包括使用GNNs在圖結構數據上的表示學習、GNNs的魯棒性、GNNs的可擴展性和基于GNNs的應用程序。
目錄內容:
關于圖信號處理、圖分析、圖機器學習比較全面的一本書,值得關注!
當前強大的計算機和龐大的數據集正在為計算數學創造新的機會,將圖論、機器學習和信號處理的概念和工具結合在一起,創建圖數據分析。
在離散數學中,圖僅僅是連接一些點(節點)和線的集合。這些圖表的強大之處在于,節點可以代表各種各樣的實體,比如社交網絡的用戶或金融市場數據,這些可以轉換成信號,然后使用數據分析工具進行分析。《圖數據分析》是對生成高級數據分析的全面介紹,它允許我們超越時間和空間的標準常規采樣,以促進建模在許多重要領域,包括通信網絡,計算機科學,語言學,社會科學,生物學,物理學,化學,交通,城市規劃,金融系統,個人健康和許多其他。
作者從現代數據分析的角度重新審視了圖拓撲,并著手建立圖網絡的分類。在此基礎上,作者展示了頻譜分析如何引導最具挑戰性的機器學習任務,如聚類,以直觀和物理上有意義的方式執行。作者詳細介紹了圖數據分析的獨特方面,例如它們在處理從不規則域獲取的數據方面的好處,它們通過局部信息處理微調統計學習過程的能力,圖上的隨機信號和圖移位的概念,從圖上觀察的數據學習圖拓撲,以及與深度神經網絡、多路張量網絡和大數據的融合。包括了大量的例子,使概念更加具體,并促進對基本原則的更好理解。
本書以對數據分析的基礎有良好把握的讀者為對象,闡述了圖論的基本原理和新興的數學技術,用于分析在圖環境中獲得的各種數據。圖表上的數據分析將是一個有用的朋友和伙伴,所有參與數據收集和分析,無論應用領域。
地址: //www.nowpublishers.com/article/Details/MAL-078-1
Graph Signal Processing Part I: Graphs, Graph Spectra, and Spectral Clustering
圖數據分析領域預示著,當我們處理數據類的信息處理時,模式將發生改變,這些數據類通常是在不規則但結構化的領域(社交網絡,各種特定的傳感器網絡)獲得的。然而,盡管歷史悠久,目前的方法大多關注于圖本身的優化,而不是直接推斷學習策略,如檢測、估計、統計和概率推理、從圖上獲取的信號和數據聚類和分離。為了填補這一空白,我們首先從數據分析的角度重新審視圖拓撲,并通過圖拓撲的線性代數形式(頂點、連接、指向性)建立圖網絡的分類。這作為圖的光譜分析的基礎,圖拉普拉斯矩陣和鄰接矩陣的特征值和特征向量被顯示出來,以傳達與圖拓撲和高階圖屬性相關的物理意義,如切割、步數、路徑和鄰域。通過一些精心選擇的例子,我們證明了圖的同構性使得基本屬性和描述符在數據分析過程中得以保留,即使是在圖頂點重新排序的情況下,在經典方法失敗的情況下也是如此。其次,為了說明對圖信號的估計策略,通過對圖的數學描述符的特征分析,以一般的方式介紹了圖的譜分析。最后,建立了基于圖譜表示(特征分析)的頂點聚類和圖分割框架,說明了圖在各種數據關聯任務中的作用。支持的例子展示了圖數據分析在建模結構和功能/語義推理中的前景。同時,第一部分是第二部分和第三部分的基礎,第二部分論述了對圖進行數據處理的理論、方法和應用,以及從數據中學習圖拓撲。
Graph Signal Processing Part II: Processing and Analyzing Signals on Graphs
本專題第一部分的重點是圖的基本性質、圖的拓撲和圖的譜表示。第二部分從這些概念著手,以解決圍繞圖上的數據/信號處理的算法和實際問題,也就是說,重點是對圖上的確定性和隨機數據的分析和估計。
Graph Signal Processing -- Part III: Machine Learning on Graphs, from Graph Topology to Applications
許多關于圖的現代數據分析應用都是在圖拓撲而不是先驗已知的領域上操作的,因此它的確定成為問題定義的一部分,而不是作為先驗知識來幫助問題解決。本部分探討了學習圖拓撲。隨著越來越多的圖神經網絡(GNN)和卷積圖網絡(GCN)的出現,我們也從圖信號濾波的角度綜述了GNN和卷積圖網絡的主要發展趨勢。接著討論了格結構圖的張量表示,并證明了張量(多維數據數組)是一類特殊的圖信號,圖的頂點位于高維規則格結構上。本部分以金融數據處理和地下交通網絡建模的兩個新興應用作為結論。
圖片
圖神經網絡(GNNs)最近在人工智能領域變得越來越受歡迎,這是因為它們具有提取相對非結構化數據類型作為輸入數據的獨特能力。盡管GNN體系結構的一些元素在操作上與傳統神經網絡(以及神經網絡變體)的概念相似,但其他元素則不同于傳統的深度學習技術。本教程通過整理和呈現最常見類型的GNNs的動機、概念、數學和應用的詳細信息,向一般深度學習愛好者展示了GNNs的強大功能和新穎之處。重要的是,我們以介紹性的速度簡要地介紹了本教程,并提供了理解和使用GNNs的實用和可訪問的指南。
摘要:
當代人工智能(AI),或者更具體地說,深度學習(DL)近年來被稱為神經網絡(NN)的學習架構所主導。NN變體被設計用于提高某些問題領域的性能;卷積神經網絡(CNN)在基于圖像的任務環境中表現突出,而遞歸神經網絡(RNN)在自然語言處理和時間序列分析空間中表現突出。神經網絡也被用作復合DL框架的組件——它們在生成對抗網絡(GANs)中被用作可訓練的生成器和判別器,在transformers [46]中被用作編碼器和解碼器。雖然在計算機視覺中作為輸入的圖像和在自然語言處理中作為輸入的句子看起來是不相關的,但是它們都可以用一個單一的、通用的數據結構來表示:圖(見圖1)。
形式上,圖是一組不同的頂點(表示項目或實體),這些頂點通過邊(表示關系)選擇性地連接在一起。被設計來處理這些圖的學習架構是有名稱的圖神經網絡(GNN)。輸入圖之間的頂點和邊的數量可以改變。通過這種方式,GNNs可以處理非結構化的、非歐幾里得數據[4],這一特性使得它們在圖形數據豐富的特定問題域中具有價值。相反,基于NN的算法通常需要對具有嚴格定義維數的結構化輸入進行操作。例如,構建一個用于在MNIST數據集上進行分類的CNN,其輸入層必須為28×28個神經元,后續輸入給它的所有圖像大小必須為28×28像素,才能符合這個嚴格的維數要求[27]。
圖作為數據編碼方法的表達性,以及GNNs相對于非結構化輸入的靈活性,推動了它們的研究和開發。它們代表了一種探索相對通用的深度學習方法的新方法,并且它們促進了深度學習方法對數據集的應用,直到最近,這些數據集還不能使用傳統的神經網絡或其他此類算法。
本篇內容結構:
//deepai.org/publication/a-practical-guide-to-graph-neural-networks
近年來, 隨著海量數據的涌現, 可以表示對象之間復雜關系的圖結構數據越來越受到重視并給已有的算法帶來了極大的挑戰. 圖神經網絡作為可以揭示深層拓撲信息的模型, 已開始廣泛應用于諸多領域,如通信、生命科學和經濟金融等. 本文對近幾年來提出的圖神經網絡模型和應用進行綜述, 主要分為以下幾類:基于空間方法的圖神經網絡模型、基于譜方法的圖神經網絡模型和基于生成方法的圖神經網絡模型等,并提出可供未來進一步研究的問題.
//engine.scichina.com/publisher/scp/journal/SSM/50/3/10.1360/N012019-00133?slug=fulltext
圖是對對象及其相互關系的一種簡潔抽象的直觀數學表達. 具有相互關系的數據—圖結構數據在眾多領域普遍存在, 并得到廣泛應用. 隨著大量數據的涌現, 傳統的圖算法在解決一些深層次的重要問題, 如節點分類和鏈路預測等方面有很大的局限性. 圖神經網絡模型考慮了輸入數據的規模、異質性和深層拓撲信息等, 在挖掘深層次有效拓撲信息、 提取數據的關鍵復雜特征和 實現對海量數據的快速處理等方面, 例如, 預測化學分子的特性 [1]、文本的關系提取 [2,3]、圖形圖像的結構推理 [4,5]、社交網絡的鏈路預測和節點聚類 [6]、缺失信息的網絡補全 [7]和藥物的相互作用預測 [8], 顯示了令人信服的可靠性能.
圖神經網絡的概念最早于 2005 年由 Gori 等 [9]提出, 他借鑒神經網絡領域的研究成果, 設計了一種用于處理圖結構數據的模型. 2009 年, Scarselli 等 [10]對此模型進行了詳細闡述. 此后, 陸續有關于圖神經網絡的新模型及應用研究被提出. 近年來, 隨著對圖結構數據研究興趣的不斷增加, 圖神經網絡研究論文數量呈現出快速上漲的趨勢, 圖神經網絡的研究方向和應用領域都得到了很大的拓展.
目前已有一些文獻對圖神經網絡進行了綜述. 文獻 [11]對圖結構數據和流形數據領域的深度學習方法進行了綜述, 側重于將所述各種方法置于一個稱為幾何深度學習的統一框架之內; 文獻[12]將圖神經網絡方法分為三類: 半監督學習、無監督學習和最新進展, 并根據發展歷史對各種方法進行介紹、分析和對比; 文獻[13]介紹了圖神經網絡原始模型、變體和一般框架, 并將圖神經網絡的應用劃分為結構場景、非結構場景和其他場景; 文獻[14]提出了一種新的圖神經網絡分類方法, 重點介紹了圖卷積網絡, 并總結了圖神經網絡方法在不同學習任務中的開源代碼和基準.
本文將對圖神經網絡模型的理論及應用進行綜述, 并討論未來的方向和挑戰性問題. 與其他綜述文獻的不同之處在于, 我們給出新的分類標準, 并且介紹圖神經網絡豐富的應用成果. 本文具體結構如下: 首先介紹三類主要的圖神經網絡模型, 分別是基于空間方法的圖神經網絡、基于譜方法的圖神經網絡和基于生成方法的圖神經網絡等; 然后介紹模型在節點分類、鏈路預測和圖生成等方面的應用; 最后提出未來的研究方向.
1、DeepGCNs:Can GCNs Go as Deep as CNNs
作者:Guohao Li , Matthias Müller , Ali Thabet Bernard Ghanem;
摘要:卷積神經網絡(CNNs)在廣泛的領域中取得了令人印象深刻的性能。他們的成功得益于一個巨大的推動,當非常深入的CNN模型能夠可靠的訓練。盡管CNNs有其優點,但它不能很好地解決非歐幾里德數據的問題。為了克服這一挑戰,圖形卷積網絡(GCNS)構建圖形來表示非歐幾里德數據,借用CNNs的概念,并將它們應用于訓練。GCNs顯示出有希望的結果,但由于消失梯度問題,它們通常僅限于非常淺的模型(見圖1)。因此,最先進的GCN模型不超過3層或4層。在這項工作中,我們提出了新的方法來成功地訓練非常深的GCNs。我們通過借鑒CNNs的概念來做到這一點,特別是剩余/密集連接和擴展卷積,并將它們應用到GCN架構中。大量的實驗證明了這些深度GCN框架的積極作用。最后,我們使用這些新的概念來構建一個非常深的56層GCN,并展示了它如何在點云語義分割任務中顯著提升性能(+ 3.7% Miou-Unice狀態)。我們相信公眾可以從這項工作中受益,因為它為推進基于GCN的研究提供了許多機會。
網站: //www.zhuanzhi.ai/paper/c1e02bdee9efe20fd0a53d23883901c3
2、Dynamic Graph Attention for Referring Expression Comprehension
作者:Sibei Yang, Guanbin Li, Yizhou Yu;
摘要:引用表達式理解的目的是在圖像中定位由自然語言描述的對象實例。這項任務是合成的,本質上需要在圖像中對象之間關系的基礎上進行視覺推理。同時,視覺推理過程是由指稱表達式的語言結構來指導的。然而,現有的方法孤立地對待對象,或者只探索對象之間的一階關系,而不與表達式的潛在復雜性對齊。因此,他們很難適應復雜的參考表達的基礎。本文從語言驅動的視覺推理的角度,探討了表達理解的問題,并提出了一種動態圖形注意力網絡,通過對圖像中的對象之間的關系和表達的語言結構進行建模來進行多步推理。特別地,我們構造了具有對應于對象和它們的關系的節點和邊緣的圖像,提出了一種差分分析器來預測語言制導的視覺推理過程,并在圖的頂部執行逐步推理,以更新每個節點上的復合對象表示。實驗結果表明,所提出的方法在三個共同的基準數據集不僅可以顯著超越所有現有的最先進的算法,而且還能產生可解釋的視覺證據,以逐步定位復雜的語言描述的對象。
網址:
3、Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
作者:Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song-Chun Zhu;
摘要:本文從原子層次和事件層次兩個方面探討了社會視頻中人的注釋交流這一新問題,對研究人類的社會互動具有重要意義。為了解決這一新穎而具有挑戰性的問題,我們貢獻了一個大規模的視頻數據集,VACATION,涵蓋不同的日常社會場景和注釋交流行為,并在原子級和事件級對物體和人臉、人類注意力、交流結構和標簽進行了完整的注釋。結合VACATION,我們提出了一個時空圖神經網絡,明確地表示社會場景中不同的注釋交互,并通過消息傳遞來推斷原子級的注視交流。在此基礎上,進一步提出了一種基于編碼-解碼器結構的事件網絡來預測事件級注視通信。我們的實驗表明,該模型在預測原子級和事件級注釋通信時顯著地改進了各種基線。
網址:
4、SceneGraphNet Neural Message Passing for 3D Indoor Scene Augmentation
作者:Yang Zhou, Zachary While, Evangelos Kalogerakis;
摘要:在本文中,我們提出了一種神經消息傳遞方法,以增加輸入三維室內場景中與周圍環境匹配的新對象。給定一個輸入,可能是不完整的,三維場景和一個查詢位置(圖1),我們的方法預測在該位置上適合的對象類型上的概率分布。我們的分布是通過在稠密圖中傳遞學習信息來預測的,其節點表示輸入場景中的對象,并且邊緣表示空間和結構關系。通過一個注意力機制對消息進行加權,我們的方法學會將注意力集中在最相關的周圍場景上下文,從而預測新的場景對象。基于我們在SUNCG數據集中的實驗,我們發現我們的方法在正確預測場景中丟失的對象方面明顯優于最先進的方法。我們還演示了我們的方法的其他應用,包括基于上下文的3D對象識別和迭代場景生成。
網址:
5、Language-Conditioned Graph Networks for Relational Reasoning
作者:Ronghang Hu, Anna Rohrbach, Trevor Darrell, Kate Saenko ;
摘要:解決基于語言任務通常需要對給定任務上下文中對象之間的關系進行推理。例如,要回答盤子上的杯子是什么顏色??我們必須檢查特定杯子的顏色,以滿足盤子上的關系。最近的工作提出了各種復雜關系推理的方法。然而,它們的能力大多在推理結構上,而場景則用簡單的局部外觀特征來表示。在本文中,我們采取另一種方法,建立一個視覺場景中的對象的上下文化表示,以支持關系推理。我們提出了一個通用的語言條件圖網絡(LCGN)框架,其中每個節點代表一個對象,并通過文本輸入的迭代消息傳遞來描述相關對象的感知表示。例如,調節與plate的on關系,對象mug收集來自對象plate的消息,以將其表示更新為mug on the plate,這可以很容易地被簡單分類器用于答案預測。我們的實驗表明,我們的LCGN方法有效地支持關系推理,并在多個任務和數據集上提高了性能。我們的代碼可以在
網址: