知識圖譜推理是一個基礎問題,在電子商務推薦、生物醫學知識圖譜藥品再利用等領域有著重要的應用。在本教程中,我將全面介紹知識圖譜推理的最新進展,包括:(1)知識圖譜嵌入的方法(如TransE、TransR和RotatE);(2)傳統的歸納邏輯規劃方法和最新的神經邏輯規劃方法;(3)結合神經和符號邏輯方法進行知識圖譜推理的最新進展。
地址: //hub.baai.ac.cn/view/3865
近年來,知識圖譜(KG)的構建和應用得到了快速的發展。大量的KGs,如Freebase、DBpedia、YAGO和NELL,已經被創建并成功地應用于許多實際應用中,從語義解析和命名實體消歧到信息提取和問答。KG是由實體(節點)和關系(不同類型的邊)組成的多關系圖。每條邊都表示為形式(頭實體、關系、尾實體)的三個部分,也稱為事實,表示兩個實體通過特定的關系連接在一起,例如(AlfredHitchcock, DirectorOf, Psycho)。雖然在表示結構化數據方面很有效,但是這類三元組的底層符號特性通常使KGs很難操作。
為了解決這個問題,提出了一種新的研究方向——知識圖譜嵌入。關鍵思想是嵌入KG的組件,包括將實體和關系轉化為連續的向量空間,從而簡化操作,同時保留KG的原有的結構。那些實體和關系嵌入能進一步應用于各種任務中,如KG補全、關系提取、實體分類和實體解析。
在這次演講中,我將介紹我們在學習知識圖推理邏輯規則方面的最新進展。邏輯規則在用于預測和推廣到其他任務時提供了可解釋,因此是學習的關鍵。現有的方法要么面臨在大搜索空間中搜索的問題(如神經邏輯編程),要么由于稀疏獎勵而無效優化(如基于強化學習的技術)。為了解決這些局限性,本文提出了一個稱為RNNLogic的概率模型。RNNLogic將邏輯規則視為一個潛在變量,同時用邏輯規則訓練規則生成器和推理預測器。我們開發了一種基于EM的優化算法。在每次迭代中,推理預測器首先更新,以探索一些生成的邏輯規則進行推理。在E-step中,我們通過后驗推理從所有生成的規則中選取一組既有規則生成器又有推理預測器的高質量規則;而在M步中,規則生成器將用E步中選擇的規則進行更新。在四個數據集上的實驗證明了RNNLogic的有效性。
視頻:
本教程的目標讀者是對幫助機器理解自然語言文本(特別是文本中描述的真實事件)的人工智能技術感興趣的研究人員和實踐者。這些方法包括提取一個事件關于其主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將向讀者系統地介紹(i)事件的知識表示,(ii)自動提取、概念化和預測事件及其關系的各種方法,(iii)事件過程和屬性的歸納,以及(iv)大量受益于上述技術的NLU和常識理解任務。我們將概述這一領域中出現的研究問題,以此結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202102/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘事預測可以通過學習事件的因果關系來預測故事接下來會發生什么;機器理解文件可能包括理解影響股票市場的事件,描述自然現象或識別疾病表型。事實上,事件理解在諸如開放域問題回答、意圖預測、時間軸構建和文本摘要等任務中也廣泛地發現了它的重要用例。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件之間的關系,這些關系描述了事件的成員關系、共同參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及其參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了介紹事件提取的部分標簽和無監督學習方法外,我們還將討論最近的約束學習和結構化推理方法,用于從文本中提取多方面的事件-事件關系。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠程監督的方法如何幫助解決對事件的時間和因果常識的理解,以及如何應用它們來構建大規模的可能性知識庫。與會者將了解該主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于最終使用的NLU應用。
知識圖譜表示學習: 從淺層嵌入到圖神經網絡
知識圖譜由于其廣泛的應用,如搜索引擎和問答系統,近年來受到了極大的關注。知識圖譜嵌入是將實體表示為低維向量,并將關系表示為低維向量上的算子,在知識推理等任務中得到了廣泛的研究和成功的應用。在本教程中,我們將介紹最新的知識圖譜表示學習技術,它包含三個部分。首先,我們將回顧通常基于淺層嵌入的知識圖譜表示技術,如TransE、DisMult和RotatE。其次,我們將討論如何集成額外的符號信息,如邏輯規則和本體論,以更好地學習知識圖譜的表示的最新進展。在第三部分中,我們將介紹圖神經網絡(GNNs)和最近在異構信息網絡中研究的進展,圖神經網絡可以被認為是知識圖譜的一般形式。
盡管生成式預訓練語言模型在一系列文本生成任務上取得了成功,但在生成過程中需要對基本常識進行推理的情況下,它們仍然會受到影響。現有的將常識知識整合到生成的預訓練語言模型中的方法,只是簡單地通過對單個知識三元組的后訓練來遷移關系知識,而忽略了知識圖譜中豐富的連接。我們認為,利用知識圖譜的結構和語義信息有助于常識感知文本的生成。在本文中,我們提出用多跳推理流(GRF)進行生成,使預訓練的模型能夠在從外部常識知識圖譜中提取的多關系路徑上進行動態多跳推理。我們的經驗表明,我們的模型在三個文本生成任務上優于現有的基線,這些任務需要推理而非常識知識。通過模型推導出的推理路徑,證明了動態多跳推理模塊的有效性,為生成過程提供了理論依據。
由螞蟻集團算法工程師胡斌斌、高級算法專家張志強、資深算法專家周俊和北京郵電大學教授石川聯合撰寫的《KGNN:Distributed Framework for Graph Neural Knowledge Representation》順利入選ICML2020 workshop(Bridge Between Perception and Reasoning: Graph Neural Networks & Beyond),該workshop由知名學者唐建、螞蟻集團研究員宋樂、斯坦福大學終身教授Jure Leskovec聯合舉辦,并邀請了人工智能奠基者之一的Yoshua Bengio進行了keynote報告,該workshop旨在將不同領域(如深度學習、邏輯/符號推理、統計關系學習和圖算法等)的研究人員聚集起來討論系統和系統智能之間的潛在接口和集成,探索理論基礎、模型和算法方面的新進展,沉淀新基準數據集和有影響力的應用。以下為該論文的解讀。
知識表示學習主要用于將知識圖(KG)融入各種在線服務中以提升各個應用的性能。現有的知識表示學習方法雖然在性能上有了很大的提高,但它們忽略了高階結構和豐富的屬性信息,導致在語義豐富的知識圖譜上性能不佳。另外,這些方法不能進行歸納式的預測,也不能適用于大型工業圖。
為了解決這些問題,我們開發了一個新的框架KGNN在分布式學習系統中來充分利用知識數據進行表示學習。KGNN配置了基于GNN的編碼器和知識感知的解碼器,目的是以細粒度的方式將高階結構和屬性信息結合在一起,并保留知識圖譜中的關系模式。我們在三個數據集上進行了鏈接預測和三元組的分類實驗,驗證了該框架的有效性和可擴展性。
//logicalreasoninggnn.github.io/papers/11.pdf
【導讀】WWW2020的DL4G論壇,William L. Hamilton做了關于元學習與圖上邏輯規則推導的報告,55頁ppt。
可解釋性是當前AI研究的熱點之一。倫敦大學學院Pasquale Minervini博士在可解釋AI研討會做了關于可解釋高效可驗證表示的報告《Back to Seminars Explainable, Verifiable, Relational Representation Learning from Knowledge Graphs》,共62頁PPT,
可解釋、數據有效、可驗證的表示學習
知識圖譜是圖結構化的知識庫,其中關于世界的知識以實體之間關系的形式進行編碼。我們將討論在大規模知識圖譜使用神經鏈接預測缺失鏈接的工作,以及如何結合背景知識——形式的一階邏輯規則或約束——神經鏈接預測,從更少的數據歸納和整合。最后,我們將討論如何通過端到端可微推理器共同學習表示和規則。
報告摘要: 構建統計機器學習方法進行圖上預測是很多應用的基礎問題,例如知識圖譜的半監督節點分類和鏈接預測。傳統的統計關聯學習方法和近年來發展起來的圖神經網絡都對這類問題進行了廣泛的研究。在這次演講中,將介紹結合這兩個領域的優勢來進行圖預測和推理所做的努力。以及結合條件隨機域和semi-supervised節點的神經網絡分類(圖馬爾可夫神經網絡,ICML 19)和最近的研究在結合馬爾可夫邏輯網絡和知識圖譜嵌入(概率邏輯神經網絡)的推理。
在這次報告中,作者將介紹今年的ICML2019論文(GMNN: Graph Markov Neural Networks)。研究了關系數據中的半監督對象分類問題,這是關系數據建模中的一個基本問題。這個問題在統計相關學習(如關聯馬爾科夫網絡)和圖神經網絡(如圖卷積網絡)的文獻中得到了廣泛的研究。統計相關學習方法可以通過條件隨機域對對象標簽的依賴關系進行有效的建模,實現集體分類,而圖神經網絡則通過端到端訓練來學習有效的對象表示,實現分類。在這篇論文中,他們提出了結合這兩個領域的優勢的圖馬爾可夫神經網絡(GMNN)。GMNN利用條件隨機場對目標標簽的聯合分布進行建模,利用變分EM算法對其進行有效訓練。 在E-step中,一個圖神經網絡學習有效的對象表示來近似對象標簽的后驗分布。 在M -步驟中,使用另一個圖神經網絡對局部標簽依賴關系進行建模 。在目標分類、鏈路分類和無監督節點表示學習等方面的實驗表明,該算法取得了較好的效果。
嘉賓介紹: 唐建博士自2017年12月起擔任Mila(魁北克AI研究所)和HEC Montreal的助理教授。他是加拿大CIFAR第一批人工智能主席(CIFAR AI Research Chair)。他的研究方向是深度圖表示學習,在知識圖譜、藥物發現和推薦系統等領域有著廣泛的應用。他是密歇根大學和卡內基梅隆大學的研究員。他在北京大學獲得博士學位,并在密歇根大學做了兩年的訪問學者。他在微軟亞洲研究院做了兩年的研究員。他在圖表示學習(如LINE、LargeVis和RotatE)方面的工作得到了廣泛的認可。他獲得了ICML ' 14的最佳論文獎和WWW ' 16的最佳論文提名。個人主頁
報告部分綱要: