自然語言推理(NLI)是自然語言處理的一項基本任務,主要研究兩個文本之間的蘊含關系。流行的NLI數據集是對該任務句子級別的研究。它們可以用來探討語義表示,但并未涉及基于長文本的上下文推理,而這是人類推理過程的自然組成部分。我們提出了ConTRoL數據集來用于研究長文本的上下文推理。ConTRoL由8,325個專家設計的帶有高質量標簽的“上下文-假設”對組成,是一個段落級別的NLI數據集,重點關注復雜的上下文推理類型,例如邏輯推理。它是從競爭性甄選和招聘測試(推理測試)衍生而來的,具有很高的質量。與以前的NLI基準相比,ConTRoL中的材料更具挑戰性,涉及多種推理類型。
實證結果表明,最先進的語言模型在ConTRoL上的性能表現遠不如受過良好教育的人類。我們的數據集還可以用作下游任務(如檢查摘要的事實正確性)的測試集。
本教程的目標讀者是對幫助機器理解自然語言文本(特別是文本中描述的真實事件)的人工智能技術感興趣的研究人員和實踐者。這些方法包括提取一個事件關于其主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將向讀者系統地介紹(i)事件的知識表示,(ii)自動提取、概念化和預測事件及其關系的各種方法,(iii)事件過程和屬性的歸納,以及(iv)大量受益于上述技術的NLU和常識理解任務。我們將概述這一領域中出現的研究問題,以此結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202102/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘事預測可以通過學習事件的因果關系來預測故事接下來會發生什么;機器理解文件可能包括理解影響股票市場的事件,描述自然現象或識別疾病表型。事實上,事件理解在諸如開放域問題回答、意圖預測、時間軸構建和文本摘要等任務中也廣泛地發現了它的重要用例。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件之間的關系,這些關系描述了事件的成員關系、共同參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及其參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了介紹事件提取的部分標簽和無監督學習方法外,我們還將討論最近的約束學習和結構化推理方法,用于從文本中提取多方面的事件-事件關系。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠程監督的方法如何幫助解決對事件的時間和因果常識的理解,以及如何應用它們來構建大規模的可能性知識庫。與會者將了解該主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于最終使用的NLU應用。
本教程將由四個主要部分組成,每個部分由一名講者負責,然后是一個討論環節。我們將從介紹常識的公理化理論開始。接下來,我們將討論跨異構常識源協調節點和關系的工作,以及這種整合對下游推理任務的影響。第三,我們將討論如何從文本中自動提取常識知識,以及定量和定性語境化。然后,我們將討論大型模型(如BERT、GPT-2和T5)如何學習隱式地表示通過閱讀web獲得的大量常識知識。另外,如何通過精心設計的語言提示或對知識圖譜元組進行微調來提取這些知識。我們將以對未來方法的討論來結束本教程,并提出在下一代常識推理技術中結合語言模型、知識圖譜和公理化。參與者的先驗知識將是最少的。一些機器學習和語言建模的知識會有幫助,但不是強制性的: 我們將介紹相關的機器學習概念,以便每個人都有機會跟隨。
目錄:
常識推理被認為是構建更先進的“通用”人工智能系統的關鍵,這些系統具有類似人類的能力和推理能力,即使在面對不確定、隱含(或潛在矛盾)信息時也是如此。認識到它的重要性,幾個社區的研究人員越來越多地從事研究和評估常識推理任務有關的問題回答和溯因推理。與其他“純”或邏輯推理任務不同,知識庫和推理公理可以分離(至少在原則上),知識是常識推理的一個重要方面。例如BERT (Devlin et al., 2018)和GPT (Radford et al., 2019)等基于轉換的模型,或者通過使用自然語言處理和眾包技術構建的概念、關系和事件的“知識圖譜”來獲取知識。一旦獲得,知識也必須被恰當地表示,以支持類似人類的推理和問題回答。語言模型傾向于連續的類向量表示,而知識圖譜則更加離散。在本教程中,我們將基于經典研究以及自然語言處理和語義Web社區的現代進展,全面概述常識知識獲取和表示技術。
參與者的先驗知識將是最少的。一些機器學習的知識,包括基本的概念,如訓練,測試和驗證,特征工程等將是有幫助的,但不是絕對的先決條件,因為我們不會進入高級機器學習數學或優化。此外,在可能的情況下,我們將介紹基本的機器學習概念,以便每個人都有機會跟隨。參加者不需要有任何回答自然語言常識問題的知識,也不需要有最先進的知識來源或公理化理論。
參考文獻:
Bosselut, A.; Rashkin, H.; Sap, M.; Malaviya, C.; Celikyilmaz, A.; and Choi, Y. 2019. COMET: Commonsense transformers for automatic knowledge graph construction. arXiv preprint arXiv:1906.05317.
Chalier, Y.; Razniewski, S.; and Weikum, G. 2020. Joint Reasoning for Multi-Faceted Commonsense Knowledge. AKBC.
Devlin, J.; Chang, M. W.; Lee, K.; and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Ilievski, F.; Szekely, P.; Zhang, B. 2020. CSKG: The CommonSense Knowledge Graph. arXiv preprint arXiv:2012.11490.
Radford, A.; Wu, J.; Child, R.; Luan, D.; Amodei, D.; and Sutskever, I. 2019. Language models are unsupervised multitask learners. OpenAI Blog1(8): 9.
Romero, J.; Razniewski, S.; Pal, K.; Z. Pan, J.; Sakhadeo, A.; and Weikum, G. 2019. Commonsense properties from query logs and question answering forums. In Proceedingsof the 28th ACM International Conference on Information and Knowledge Management, 1411–1420.
Tandon, N.; De Melo, G.; and Weikum, G. 2017. Webchild2.0: Fine-grained commonsense knowledge distillation. In Proceedings of ACL 2017, System Demonstrations, 115–120.
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
生成式常識推理是文本生成的一個關鍵瓶頸,它旨在使機器能夠根據一組概念生成具有推理能力的句子。即使是最先進的預訓練語言生成模型也難以完成這一任務,而且常常產生不合邏輯和異常的句子。其中一個原因是,他們很少考慮將知識圖譜整合進來,因為知識圖譜可以在常識概念之間提供豐富的關系信息。為了提高常識性推理生成文本的能力,我們提出了一種新的知識圖譜增強的預訓練語言生成模型KG-BART,該模型通過知識圖譜包含了復雜的概念關系,并生成了更符合邏輯和自然的句子作為輸出。此外,KG-BART可以利用圖上的注意力來聚集豐富的概念語義,從而增強對看不見的概念集的模型泛化。在基準commonen數據集上進行的實驗驗證了本文方法的有效性,并與幾個強的預訓練語言生成模型進行了比較,特別是在BLEU - 3,4方面,KG-BART的性能比BART高出5.80、4.60。此外,我們還表明,通過我們的模型生成的上下文可以作為背景場景,從而有利于下游的常識性QA任務。
//www.zhuanzhi.ai/paper/5478cc149a0d6a523665d68c6d3c170a
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
知識圖譜的關系預測旨在預測實體之間的缺失關系。盡管歸納關系預測的重要性,大多數以前的工作都局限于一個轉換的設置,不能處理以前看不見的實體。最近提出的基于子圖的關系推理模型提供了從圍繞一個候選三元組的子圖結構中歸納預測鏈接的替代方法。然而,我們觀察到這些方法往往忽略了提取子圖的有向性質,削弱了關系信息在子圖建模中的作用。因此,它們不能有效地處理不對稱/反對稱三聯體,并為目標三聯體產生不足的嵌入。為此,我們引入了一種用于歸納關系推理的傳遞消息的神經網絡CoMPILE,該網絡對局部有向子圖結構進行推理,并對處理實體無關的語義關系具有強烈的歸納傾向。與現有模型相比,CoMPILE加強了邊緣之間的消息交互,并授權通過通信內核,并支持足夠的關系信息流。此外,我們還證明了CoMPILE可以自然地處理非對稱/反對稱關系,而不需要通過提取有向封閉子圖來爆炸式地增加模型參數的數量。廣泛的實驗表明,與最先進的方法相比,在常用的基準數據集上具有不同的歸納設置的實質性性能收益。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa