近年來,虛假新聞檢測,旨在驗證新聞文檔是可信的還是偽造的,已越來越受到重視。大多數現有方法嚴重依賴新聞內容的語言和語義特征,未能有效利用外部知識,而外部知識很可能對確定新聞文檔是否可信非常有幫助。在本文中,我們提出了一種名為 CompareNet 的新型端到端圖神經模型,該模型通過實體將新聞與知識庫 (KB) 進行比較以進行假新聞檢測。考慮到假新聞檢測與話題/主題相關,我們還整合了主題以豐富新聞的表示。具體地,我們首先為每個包含主題和實體的新聞構建一個有向異質文本圖。基于該圖,我們設計了一個異質圖注意力網絡,用于學習主題增強的新聞表示以及編碼了新聞內容語義的基于上下文的實體表示。然后通過精心設計的實體對比網絡(entity comparison network)將基于上下文的實體表示與相應的基于知識庫的實體表示進行對比,以捕獲新聞內容和知識庫之間的一致性。最后,結合了實體對比特征的主題增強的新聞表示被輸入到虛假新聞分類器中。兩個基準數據集的實驗結果表明,CompareNet 顯著優于最先進的方法。
基于外部因果陳述自監督表示學習的事件因果關系識別
Improving Event Causality Identification via Self-Supervised Representation Learning on External Causal Statement
論文鏈接: //www.zhuanzhi.ai/paper/f2d21791440eef4f7550cb9045d0101d
利用外部大量的因果陳述,提升模型對因果關系語義的理解能力,這些因果陳述可以提供充足的上下文相關因果模式,有助于理解文本中事件的因果關系。然而,與ECI任務的標注數據不同,外部因果陳述中沒有標注事件,模型很難直接從中學習上下文相關的因果模式幫助識別事件因果關系。為了解決這個問題,我們設計了一個基于自監督表示學習的事件因果關系識別模型 (Self-Supervised Representation Learning on External Causal Statement, CauSeRL),從外部因果陳述中學習強化的因果表示。具體來說,從外部因果陳述中迭代抽樣兩個實例,分別以其中一個因果陳述為目標,學習它們之間的共性。直覺上,通過自監督學習到的不同因果陳述間的共性反映了文本中上下文相關的因果模式,有助于在未見的實例中識別事件的因果關系。
在基準數據集上的實驗結果表明,該方法可以有效增強事件因果關系的表示、提升事件因果關系識別的性能,證明了我們的方法對于ECI任務的有效性。
跨句事件抽取旨在研究如何同時識別篇章內多個事件。我們提出多層雙向網絡MLBiNet(Multi-Layer Bidirectional Network)融合跨句語義和關聯事件信息,從而增強內各事件提及的判別。首先,為建模句子內部事件關系,我們提出雙向解碼器用于同時捕捉前向和后向事件依賴;然后,我們利用信息聚合器匯總句子語義和事件提及信息;最后,通過迭代多個由雙向解碼器和信息聚合器構造的單元,并在每一層傳遞鄰近句子的匯總信息,最終感知到整個文檔的語義和事件提及信息。實驗表明,跨句語義信息和事件依賴關系對事件抽取有效,我們的方法在ACE05數據集上取得最優表現。
假新聞以前所未有的速度傳播,到達全球受眾,通過社交媒體平臺將用戶和社區置于極大的風險之中。基于深度學習的模型在對感興趣事件上的大量標記數據進行訓練時表現出良好的性能,而模型在其他事件上的性能則由于域漂移而下降。因此,現有的突發事件假新聞檢測方法面臨著重大挑戰,難以獲得大規模標記數據集。此外,添加來自新突發事件的知識需要從頭構建一個新模型或繼續微調模型,這對于現實世界的設置可能是具有挑戰性的、昂貴的和不現實的。為了應對這些挑戰,我們提出了端到端假新聞檢測框架MetaFEND,該框架能夠快速學習并檢測突發事件中的假新聞,并且有一些經過驗證的帖子。具體來說,該模型將元學習和神經過程方法集成在一起,以享受這些方法的好處。特別提出了標簽嵌入模塊和硬注意力機制,通過處理分類信息和修剪不相關的帖子來提高效率。在從Twitter和微博收集的多媒體數據集上進行了廣泛的實驗。實驗結果表明,該模型能夠有效地檢測出未見事件的假新聞,并優于現有的方法。
論文題目:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
論文概述:本文研究如何自動生成描述知識圖譜(KG)中事實的自然語言文本。借助預訓練語言模型(PLMs)在語言理解和生成方面的能力,我們主要考慮少樣本場景。我們提出了三個主要的技術貢獻,即用于彌合KG編碼和PLM之間語義差距的表示對齊,用于生成更好的輸入表示的基于關系的KG線性化策略,以及用于學習KG和文本之間對應關系的多任務學習。在三個基準數據集上進行的大量實驗證明了我們的模型在KG到文本生成任務上的有效性。特別是,我們的模型可以實現在只有幾百個標記樣本的情況下取得非常好的效果。
近年來,圍繞著圖卷積網絡(GCN)這一主題的文獻大量涌現。如何有效地利用復雜圖(如具有異構實體和關系類型的知識圖譜)中豐富的結構信息是該領域面臨的主要挑戰。大多數GCN方法要么局限于具有同質邊類型的圖(例如,僅引用鏈接),要么只專注于節點的表示學習,而不是針對目標驅動的目標共同傳播和更新節點和邊的嵌入。本文提出了一種新的框架,即基于知識嵌入的圖卷積網絡(KE-GCN),該框架結合了基于圖的信念傳播中知識嵌入的能力和高級知識嵌入(又稱知識圖嵌入)方法的優勢,從而解決了這些局限性。我們的理論分析表明,KE-GCN作為具體案例提供了幾種著名的GCN方法的優雅統一,并提供了圖卷積的新視角。在基準數據集上的實驗結果表明,與強基線方法相比,KE-GCN方法在知識圖譜對齊和實體分類等任務中具有明顯的優勢。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39
在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。
//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。