由于其在非歐幾里德數據(如圖或流形)建模方面的強大能力,圖的深度學習技術(即圖神經網絡(GNNs))為解決具有挑戰性的圖相關NLP問題打開了一扇新的大門。將深度學習技術應用于自然語言處理的研究興趣大增,并在許多自然語言處理任務中取得了相當大的成功,包括句子分類、語義角色標注和關系抽取等分類任務,以及機器翻譯、問題生成和摘要等生成任務。盡管取得了這些成功,但面向NLP的圖深度學習仍然面臨許多挑戰,包括自動將原始文本序列數據轉換為高度圖結構的數據,以及有效地建模復雜數據,這些數據涉及基于圖的輸入和其他高度結構的輸出數據(如序列、樹、樹)之間的映射。以及節點和邊中都有多種類型的圖數據。本教程將涵蓋在圖形技術上應用深度學習的相關和有趣的主題,包括用于NLP的自動圖形構建、用于NLP的圖形表示學習、用于NLP的基于高級GNN模型(例如,graph2seq、graph2tree和graph2graph),以及GNN在各種NLP任務中的應用(例如,機器翻譯、自然語言生成、信息提取和語義解析)。此外,還將包括動手演示會議,以幫助觀眾獲得使用我們最近開發的開源庫Graph4NLP應用gnn解決具有挑戰性的NLP問題的實踐經驗。Graph4NLP是第一個為研究人員和實踐者方便地使用GNN完成各種NLP任務的庫。
//github.com/dlg4nlp/dlg4nlp.github.io
深度學習已經成為自然語言處理(NLP)研究的主導方法,特別是在大規模語料庫中。在自然語言處理任務中,句子通常被認為是一系列標記。因此,流行的深度學習技術如循環神經網絡(RNN)和卷積神經網絡(CNN)在文本序列建模中得到了廣泛的應用。
然而,有大量的自然語言處理問題可以用圖結構來最好地表達。例如,序列數據中的結構和語義信息(例如,各種語法分析樹(如依賴分析樹)和語義分析圖(如抽象意義表示圖))可以通過合并特定任務的知識來擴充原始序列數據。因此,這些圖結構化數據可以對實體標記之間的復雜成對關系進行編碼,以學習更多的信息表示。然而,眾所周知,深度學習技術對歐幾里德數據(如圖像)或序列數據(如文本)具有破壞性,但不能立即適用于圖結構數據。因此,這一差距推動了對圖的深度學習的研究,特別是圖神經網絡(GNN)的發展。
這種在圖的深度學習和自然語言處理的交叉領域的研究浪潮影響了各種自然語言處理任務。應用/開發各種類型的GNN的興趣激增,并在許多自然語言處理任務中取得了相當大的成功,從分類任務如句子分類、語義角色標注和關系提取,到生成任務如機器翻譯、問題生成和摘要。
盡管取得了這些成功,NLP的圖深度學習仍然面臨許多挑戰,包括自動將原始文本序列數據轉換為高度圖結構的數據,以及有效地建模復雜數據,包括基于圖的輸入和其他高度結構化的輸出數據 (如序列、樹、并在節點和邊均具有多種類型的圖數據。本教程將涵蓋在NLP中運用深度學習圖技術的相關和有趣的主題,包括NLP的自動圖構造、NLP的圖表示學習、NLP的高級基于GNN的模型(例如graph2seq、graph2tree和graph2graph),以及GNN在各種NLP任務中的應用 (例如:機器翻譯、自然語言生成、信息提取和語義解析)。此外,還將包括動手演示課程,以幫助觀眾獲得應用GNN解決具有挑戰性的NLP問題的實際經驗,使用我們最近開發的開源庫——Graph4NLP,這是第一個為研究人員和從業者提供的庫,用于輕松地使用GNN解決各種NLP任務。
自然語言數據的一個重要子集包括跨越數千個token的文檔。處理這樣長的序列的能力對于許多NLP任務是至關重要的,包括文檔分類、摘要、多跳和開放域問答,以及文檔級或多文檔關系提取和引用解析。然而,將最先進的模型擴展到較長的序列是一個挑戰,因為許多模型都是為較短的序列設計的。一個值得注意的例子是Transformer模型,它在序列長度上有二次計算代價,這使得它們對于長序列任務的代價非常昂貴。這反映在許多廣泛使用的模型中,如RoBERTa和BERT,其中序列長度被限制為只有512個tokens。在本教程中,我們將向感興趣的NLP研究人員介紹最新和正在進行的文檔級表示學習技術。此外,我們將討論新的研究機會,以解決該領域現有的挑戰。我們將首先概述已建立的長序列自然語言處理技術,包括層次、基于圖和基于檢索的方法。然后,我們將重點介紹最近的長序列轉換器方法,它們如何相互比較,以及它們如何應用于NLP任務(參見Tay等人(2020)最近的綜述)。我們還將討論處理長序列的關鍵的各種存儲器節省方法。在本教程中,我們將使用分類、問答和信息提取作為激勵任務。我們還將有一個專注于總結的實際編碼練習。
社交網絡和分子圖等結構化的圖形數據在現實世界中隨處可見。設計先進的圖結構數據表示學習算法,促進下游任務的完成,具有重要的研究意義。圖神經網絡(GNNs)將深度神經網絡模型推廣到圖結構數據,為從節點級或圖級有效學習圖結構數據表示開辟了一條新途徑。由于其強大的表示學習能力,GNN在從推薦、自然語言處理到醫療保健等各種應用中獲得了實際意義。近年來,它已成為一個熱門的研究課題,越來越受到機器學習和數據挖掘界的關注。本教程涵蓋了相關和有趣的主題,包括使用GNNs在圖結構數據上的表示學習、GNNs的魯棒性、GNNs的可擴展性和基于GNNs的應用程序。
目錄內容:
社交網絡和分子圖等結構化的圖形數據在現實世界中隨處可見。設計先進的圖結構數據表示學習算法,促進下游任務的完成,具有重要的研究意義。圖神經網絡(GNNs)將深度神經網絡模型推廣到圖結構數據,為從節點級或圖級有效學習圖結構數據表示開辟了一條新途徑。由于其強大的表示學習能力,GNN在從推薦、自然語言處理到醫療保健等各種應用中獲得了實際意義。近年來,它已成為一個熱門的研究課題,越來越受到機器學習和數據挖掘界的關注。本教程涵蓋了相關和有趣的主題,包括使用GNNs在圖結構數據上的表示學習、GNNs的魯棒性、GNNs的可擴展性和基于GNNs的應用程序。
目錄內容: 引言 Introduction 基礎 Foundations 模型 Models 應用 Applications
圖是一種普遍存在的數據結構,它可以表示不同實體之間豐富的關系信息。在社交網絡中建立友好關系,預測蛋白質與蛋白質的相互作用,學習分子指紋,以及分類疾病,這些都是通過通過圖表數據進行學習而成為可能的任務。在過去的幾年里,隨著圖深度學習模型——圖神經網絡(graph neural network, GNNs)的出現,圖機器學習研究發生了革命性的變化。圖神經網絡在各種下游任務的圖表示自動學習方面表現出了卓越的性能。然而,當圖形代表敏感互動或包含個人信息時,通過圖學習可能會引起隱私問題。先前關于保護隱私的機器學習的工作已經在處理歐幾里得數據(如圖像、音頻和文本)時提出了保護用戶隱私的有效解決方案,但由于圖節點之間存在連接性,在圖上應用深度學習算法涉及的隱私問題往往更具挑戰性。本講座旨在介紹圖神經網絡,以及在敏感圖上應用GNNs的潛在隱私風險。然后,將概述可能的隱私攻擊的GNN和建立隱私保護GNN的最新嘗試。
從社交網絡到分子,許多真實數據都是以非網格對象的形式出現的,比如圖。最近,從網格數據(例如圖像)到圖深度學習受到了機器學習和數據挖掘領域前所未有的關注,這導致了一個新的跨領域研究——深度圖學習(DGL)。DGL的目標不是繁瑣的特征工程,而是以端到端方式學習圖的信息性表示。它在節點/圖分類、鏈接預測等任務中都取得了顯著的成功。
在本教程中,我們的目的是提供一個深入的圖學習的全面介紹。首先介紹了深度圖學習的理論基礎,重點描述了各種圖神經網絡模型(GNNs)。然后介紹DGL近年來的主要成就。具體來說,我們討論了四個主題:1)深度GNN的訓練; 2) GNNs的魯棒性; 3) GNN的可擴展性; 4) GNN的自監督和無監督學習。最后,我們將介紹DGL在各個領域的應用,包括但不限于藥物發現、計算機視覺、醫學圖像分析、社會網絡分析、自然語言處理和推薦。
//ai.tencent.com/ailab/ml/KDD-Deep-Graph-Learning.html
目錄:
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。這周會議已經虛擬召開。圖深度學習研討會(DL4G)展示結構化數據的嵌入和表示學習以及圖深度學習的最新進展。來自DeepMind的研究科學家Petar Veli?kovi?給了關于《圖表示學習算法推理》的報告,共46頁ppt,詳述了神經圖算法推理的前沿研究進展,涵蓋GNN基準、泛化、多任務學習和算法發現。
圖表示學習算法推理是個新的和令人興奮的方向,尋求理解和使用GNNs的表達能力建模經典算法。其潛在的影響是巨大的: 為元學習和搜索等任務提供可擴展的解決方案,幫助理論計算機科學中的新發現,以及嚴格地對GNNs進行基準測試。
Petar Veli?kovi? 是DeepMind研究科學家。他擁有劍橋大學博士學位。他目前的研究興趣廣泛地涉及設計操作復雜結構數據(如圖)的神經網絡架構,以及它們在算法推理和計算生物學中的應用。他在機器學習領域(ICLR、NeurIPS-W、ICML-W)和生物醫學領域和期刊(生物信息學、PLOS One、JCB、PervasiveHealth)發表了他的研究成果。特別是,他是Graph Attention Networks(一種流行的圖卷積層)和Deep Graph Infomax(一種用于圖形的可伸縮的本地/全局無監督學習管道)的第一作者。他的研究已經在ZDNet等媒體上發表。此外,他還在ICLR 2019年和NeurIPS 2019年聯合組織了關于圖形表示學習的研討會。
介紹
圖(graphs)與我們的日常生活緊密相關,從我們的社交網絡到最近十分流行的知識圖譜(KG)都充斥著圖的身影。圖是最富表現力的數據結構之一,已被用于建模各種問題。事實上,知識圖譜(KG)就是圖的結構化表示,其中節點表示實體,邊表示實體之間的關系。然而,卷積神經網絡(CNN)和遞歸神經網絡(RNN)這些傳統的神經網絡只適合處理歐幾里得數據。面對這種困境,圖卷積網絡(GCN)順勢而生,被用來解決上面提到的問題并且已經成功的應用到了一些問題上。
作者對GCN的研究
(1)NeuralDater模型,一種基于圖卷積網絡(GCN)的文獻年代測定方法。這是GCN和基于深度神經網絡的方法首次應用于文檔年代測定問題。
(2)SynGCN模型,該方法是一種靈活的基于圖卷積的詞嵌入學習方法,該方法利用詞對上下文的依賴性而不是線性上下文來學習更加有意義的詞嵌入表示。
目前GCN方法的局限性
(1)當前標準的鄰域聚合方法對節點數量沒有限制,但是過多的節點數量會影響目標節點的表示,這使得幾跳(few hops)之后,hub-nodes的詞表示就會覆蓋幾乎覆蓋整張圖,進而導致hub-nodes的詞表示包含了大量的噪聲。為解決這個問題,作者相應的提出了ConfGCN模型。
(2)目前大多數的GCN方法都只能夠處理無向圖。然而,現實生活中更為普遍的一種圖是關系圖,其中每條邊都有一個與之關聯的標簽和方向。目前處理這些圖的方法都飽受過量參數的困擾,而且這些方法僅限于學習節點的表示。為了解決這個問題,作者提出了CompGCN 方法。