文本匹配是一項研究兩段文本之間的相關關系的任務,在如搜索引擎、文檔挖掘、智能對話等場景有著廣泛應用和重要意義。
在文本匹配任務中,目標文本和候選文本之間的聯系以及文本內部的上下文關聯都是實現準確匹配的關鍵。然而,大多數已有的深度神經網絡模型只關注了前者,忽略了每個文本內部的上下文語義信息,從而面臨著長文本、復雜文本難匹配等問題。
解決方案 為了解決上述問題,中科院自動化所智能感知與計算研究中心團隊提出一種基于文本圖神經網絡架構的匹配方法,用圖(graph)結構表示文本,能夠同時建模兩個文本之間的交互以及每個文本內部的上下文關聯,可以有效緩解現有方法中長文本難匹配的問題,如圖1所示。
對于構建的文本圖,該方法采用“聚合(aggregation)”、“更新(update)”以及“讀出(readout)”三個步驟進行建模學習,如圖2所示。其中,“聚合”步驟將上下文信息進行匯總,“更新”步驟將匯總的信息進行篩選和合并,最后“讀出”步驟將整圖信息輸出為相似度得分。
基于圖神經網絡的文本匹配框架示例
該方法在常見的文本匹配數據集上進行了實驗,取得了與當前主流預訓練模型(BERT)相當的結果,并且在長文本數據集上對基線的提升更顯著,驗證了模型的有效性。
AAAI 的英文全稱是 Association for the Advance of Artificial Intelligence——美國人工智能協會。該協會是人工智能領域的主要學術組織之一,其主辦的年會也是人工智能領域的國際頂級會議。在中國計算機學會的國際學術會議排名以及清華大學新發布的計算機科學推薦學術會議和期刊列表中,AAAI 均被列為人工智能領域的 A 類頂級會議。
AAAI 2021論文接收列表如下:
本文主要梳理了AAAI 2021上圖神經網絡方面的最新進展,主要涵蓋:
更加基礎的研究:表示能力/過平滑/傳播機制/災難性遺忘
更加復雜的圖數據:異質圖/有向圖/動態圖
更加豐富的訓練策略:混合訓練/數據擴增/對比訓練
更加多樣化的應用:推薦/藥物化學/物理系統/NLP/CV
更加基礎的研究:表示能力/過平滑/傳播機制/災難性遺忘 隨著GNN研究的深入,一些研究者不在僅僅關注于設計模型架構,而是試圖挖掘和解決GNN更加fundamental的問題,如GNN的表示能力。
大部分GNN的表示能力的上界就是WL-Test,對于同構的圖結構無法區分,進而無法學習到有區分度的節點表示。ID-GNN[1]通過一個簡單的ID增強策略就可以極大提升GNN的表示能力,讓原本無法區分的圖結構(或者GNN的聚合圖)區分開來。
“傳播是GNN的本質”。但是深層GNN傳播遠距離的信息會帶來過平滑現象導致模型效果下降。GCC[2]研究了GNN的傳播機制,其不僅解釋了過平滑的本質,還解決了為什么GNN的各種變種可以一定程度上緩解過平滑現象。
災難性遺忘指模型會忘記先前學習到的知識,在NN中已經有了一些研究。TWP[3]研究了GNN上的遺忘問題并提出了一種拓撲感知的權重保留技術來克服上述問題。類似的ER-GCN[4]利用經驗回放機制來實現GNN在連續任務上的持續學習,也可以一定程度的可以遺忘問題。
更加復雜的圖數據:異質圖/有向圖/動態圖 在GNN的研究初期,大家的目光主要集中在簡單同質圖(只有一種節點和邊)上,這大幅度降低了代碼實現的難度。例如,經典的GCN只需要AXW即可實現。但是,實際情況往往更加復雜,隨著GNN研究的深入,大家開始關注一些更為復雜也更有實際價值的圖數據,如異質圖、動態圖、有向圖和超圖等。
考慮到多種類型節點之間的豐富交互,為了避免信息損失,我們需要將其建模為異質圖。GraphMSE[5]就是一種針對異質圖數據設計的GNN,其充分挖掘了多種交互下鄰居(結構)信息來提升節點表示。HGSL[6]則探索了異質圖結構對于節點表示的影響,通過學習更加的準確的圖結構來提升GNN的表現。
在微博圖上,用戶之間有關注或者拉黑等關系,這實際是一種有向符號網絡。SDGNN[7]是一種針對有向符號圖設計的圖神經網絡,同時考慮了邊的方向/符號(喜歡為正,討厭為負)和動態圖演化的相關理論(status theory 和 balance theory)來更好的建模動態性并實現圖的表示學習。
圖數據往往是動態變化的。HVGNN[8]在雙曲空間里建模了動態圖隨時間演化的特性,其引入了一種時間感知的注意力機制(Tem- poral GNN)來區分不同時間段內節點的差異。RNN-GCN[9]則是將經典的時序模型RNN引入到GNN中,利用dynamic stochastic block來捕獲節點和社區的演化過程,進而實現動態圖上的節點聚類。
更加豐富的訓練策略:混合訓練/數據擴增/對比訓練 經典的GNN(包括GCN和GAT)都是以半監督節點分類Loss進行訓練的。隨后的研究也沿著這個路線,將目光集中在如何設計更加精巧的模型架構來提升模型效果。的確,復雜的模型可以提升效果,但是其往往超參數較多且難以訓練。相較于設計新的模型架構,一些研究者開始探索如何利用訓練策略(如數據擴增)來提升現有GNN模型的效果。
GraphMix[10]整合了interpolation數據擴增和self-training數據擴增技術,將簡單的GCN架構提升到接近SOTA的效果。例如,原始的GCN在Cora的效果只有81.3,而GraphMix訓練策略可以將GCN的效果提升至83.94。同時,GraphMix無需額外的內存消耗,計算消耗也幾乎不變。
類似的,GAUG[11]也嘗試從數據擴增的角度來提升現有半監督GNN的效果。具體來說,GAUG設計了一個edge prediction來編碼圖上節點的類內同質結構,然后提升類內邊的數量(移除類間邊)。然后,基于修改后的更加精準的圖結構,在Cora數據集上,GAUG將GCN的效果提升至83.6,將GraphSAGE的效果提升至83.2。
與上述兩個工作不同,Contrastive GCNs with Graph Generation (CG3)[12] 嘗試對標簽進行增強。實際上,如果沒有足夠的監督信號,半監督學習Semi-Supervised Learning (SSL)的效果都是有限的。考慮到圖上半監督學習的特點,本文不僅僅考慮了同類數據不同view之間的相關性,還建模了節點屬性和圖拓撲結構之間的潛在聯系來作為額外的監督信號。基于增強后的圖監督信號,CG3在標簽率只有0.5%的情況下,可以取得8%左右的絕對準確率提升!
更加多樣化的應用:推薦/藥物化學/物理系統/NLP/CV 圖上的鏈路預測實際就是推薦。將GNN用到推薦中是非常自然的一件事。HGSRec[13]將異質圖神經網絡用于建模淘寶用戶之間的分享行為,預測了用戶之間的三元分享行為。GHCF[14]將推薦系統中多樣的用戶-商品交互建模為多關系異質圖并設計了相應的圖神經網絡架構來實現推薦。DHCN[15]建模了Session-based Recommendation中的超圖交互,利用雙通道的超圖卷積網絡來實現商品推薦。
圖結構數據可以很好地建模分子及其之間的化學鍵。因此,AI制藥開始嘗試利用GNN來實現藥物分子的研發(如性質預測,逆合成)。GTA[16]將GNN用于藥物分子領域的逆合成預測問題,CAGG[17]則是從圖生成的角度來實現藥物分子的合成。
MGTN[18]將圖像數據轉為圖結構數據,利用圖像中不同目標(建模為子圖)之間的關系建模來實現更好的多類圖像分類,而PC-RGNN[19]將點云數據建模為圖,利用圖上不同尺度的關系聚合來強化其點云的表示。
參考文獻
Identity-aware Graph Neural Networks
Why Do Attributes Propagate in Graph Convolutional Neural Networks
Overcoming Catastrophic Forgetting in Graph Neural Networks
Overcoming Catastrophic Forgetting in Graph Neural Networks with Experience Replay
GraphMSE: Efficient Meta-path Selection in Semantically Aligned Feature Space for Graph Neural Networks
Heterogeneous Graph Structure Learning for Graph Neural Networks
SDGNN: Learning Node Representation for Signed Directed Networks
Hyperbolic Variational Graph Neural Network for Modeling Dynamic Graphs
Interpretable Clustering on Dynamic Graphs with Recurrent Graph Neural Networks
GraphMix: Improved Training of GNNs for Semi-Supervised Learning
Data Augmentation for Graph Neural Networks
Contrastive and Generative Graph Convolutional Networks for Graph-based Semi-Supervised Learning
Who You Would Like to Share With? A Study of Share Recommendation in Social E-commerce
Graph Heterogeneous Multi-Relational Recommendation
Self-Supervised Hypergraph Convolutional Networks for Session-based Recommendation
GTA: Graph Truncated Attention for Retrosynthesis
Cost-Aware Graph Generation: A Deep Bayesian Optimization Approach
Modular Graph Transformer Networks for Multi-Label Image Classification
PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection
本文由騰訊 AI Lab 和中國科學院自動化研究所合作完成。圖分類、藥物分子官能團發掘、圖數據去噪等任務都可以歸結為尋找一個與原圖標簽最為相關且濾除噪聲結構的子圖。然而監督學習需要利用子圖層面的標簽,且圖的不規則離散結構對算法優化帶來了挑戰。
本文基于信息瓶頸理論提出了信息瓶頸子圖的概念和圖信息瓶頸算法,并針對圖的不規則離散結構提出了二層互信息優化算法與連續化松弛方法。基于該算法,不需要顯式的子圖標簽即可有效識別這種子圖。
實驗表明,該算法能有效提高多種圖分類算法的精度;在分子數據集上,該算法能夠準確識別最能影響藥物分子屬性的子結構;此外,該算法對于有噪聲的圖分類任務有較好的魯棒性。
本文在圖深度學習中開拓出了一個子圖識別的新的研究領域,并在藥物發現中起到了一定的輔助分析的作用。其中結合信息瓶頸理論來解決圖問題的思路也對今后的相關研究有借鑒意義。
想了解更多關于圖深度學習的信息,可閱讀文章:騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
論文鏈接://yuanfulu.github.io/publication/AAAI-L2PGNN.pdf
該方法的關鍵點是 L2P-GNN 試圖學習在預訓練過程中以可遷移先驗知識的形式進行微調。為了將局部信息和全局信息都編碼為先驗信息,研究者進一步為 L2P-GNN 設計了在節點和圖級別雙重適應(dual adaptation)的機制。最后研究者使用蛋白質圖公開集合和書目圖的新匯編進行預訓練,對各種 GNN 模型的預訓練進行了系統的實證研究。實驗結果表明,L2P-GNN 能夠學習有效且可遷移的先驗知識,從而為下游任務提供強大的表示。
總體來說,這篇論文的貢獻如下:
首次探索學習預訓練 GNN,緩解了預訓練與微調目標之間的差異,并且為預訓練 GNN 提供了新視角。
針對節點與圖級表示,該研究提出完全自監督的 GNN 預訓練策略。
針對預訓練 GNN,該研究建立了一個新型大規模書目圖數據,并且在兩個不同領域的數據集上進行了大量實驗。實驗表明,該研究提出的方法顯著優于 SOTA 方法。
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
由于不同道路間交通流時空分布格局具有復雜的空間相關性和動態趨勢,交通流時空數據預測是一項具有挑戰性的任務。現有框架通常利用給定的空間鄰接圖和復雜的機制為空間和時間相關性建模。然而,具有不完全鄰接連接的給定空間圖結構的有限表示可能會限制模型的有效時空依賴學習。此外,現有的方法在解決復雜的時空數據時也束手無策:它們通常利用獨立的模塊來實現時空關聯,或者只使用獨立的組件捕獲局部或全局的異構依賴關系。為了克服這些局限性,本文提出了一種新的時空融合圖神經網絡(STFGNN)用于交通流預測。首先,提出一種數據驅動的“時序圖”生成方法,以彌補空間圖可能無法反映的幾種現有相關性。SFTGNN通過一種新的時空圖融合操作,對不同的時間段進行并行處理,可以有效地學習隱藏的時空依賴關系。同時,該融合圖模塊與一種新的門控卷積模塊集成到一個統一的層中,SFTGNN可以通過層堆疊學習更多的時空依賴關系來處理長序列。在幾個公共交通數據集上的實驗結果表明,我們的方法達到了最先進的性能比其他基準一致。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
圖神經網絡在圖表示學習領域取得了顯著的成功。圖卷積執行鄰域聚合,并表示最重要的圖運算之一。然而,這些鄰域聚合方法的一層只考慮近鄰,當進一步啟用更大的接受域時,性能會下降。最近的一些研究將這種性能下降歸因于過度平滑問題,即重復傳播使得不同類的節點表示無法區分。在這項工作中,我們系統地研究這一觀察結果,并對更深的圖神經網絡發展新的見解。本文首先對這一問題進行了系統的分析,認為當前圖卷積運算中表示變換與傳播的糾纏是影響算法性能的關鍵因素。將這兩種操作解耦后,更深層次的圖神經網絡可用于從更大的接受域學習圖節點表示。在建立深度模型時,我們進一步對上述觀察結果進行了理論分析,這可以作為過度平滑問題的嚴格而溫和的描述。在理論和實證分析的基礎上,我們提出了深度自適應圖神經網絡(DAGNN),以自適應地吸收來自大接受域的信息。一組關于引文、合著和共購數據集的實驗證實了我們的分析和見解,并展示了我們提出的方法的優越性。
中科院自動化所智能感知與計算研究中心張羽豐、吳書等人,受到圖結構數據易于建立整體關聯關系的啟發,提出一種基于圖神經網絡的歸納式文本分類方法。不再以完全順序化的方式學習文本內容,而是將文本構建為復雜關聯的圖結構進行學習,為上述問題提供了解決思路。相關成果發表于頂級國際會議ACL 2020。
該工作以單詞為節點、單詞間的共現關系為邊,將每個文檔構建為擁有自身結構的圖,將文本分類任務轉化為圖分類任務。通過應用圖神經網絡模型,單詞可聚合學習所有關聯單詞的表示,同時也可捕獲中長距離的上下文關系。最后使用最大池化加平均池化的方法,將所有單詞聚合為該文本的表示,進而得到其分類標簽。
基于圖神經網絡的文本分類模型示意圖
該模型在多個數據集中均取得最好性能,同時適用于歸納式學習,即當文本包含較多新詞的時候,也能取得不錯的效果。
該項研究在自然語言處理、信息組織和管理、內容信息過濾等領域都有著廣泛的應用,例如輿情監測、新聞分類、垃圾郵件過濾、個性化推薦等,也為相關領域的問題提供了新的研究思路。