亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

從新聞語料庫中自動檢測事件是挖掘快速進化的結構化知識的關鍵。由于現實世界的事件具有不同的粒度,從頂級主題到關鍵事件,再到與具體行動相對應的事件提及,通常有兩種研究方向:(1)主題檢測從新聞語料庫中識別出主要主題(如“2019年香港抗議”vs.;“2020年美國總統選舉”),語義非常明確;(2)動作抽取(action extraction)從一個文檔提及級別的動作(例如,“警察打了抗議者的左臂”)中提取,這些動作粒度太細,無法理解事件。在本文中,我們提出了一個新的任務,即中間層次的關鍵事件檢測,旨在從一個新聞語料庫中檢測出發生在特定時間/地點、關注同一主題的關鍵事件(如“8月12-14日香港機場抗議”)。由于關鍵事件的主題和時間的緊密性,以及由于新聞文章的快速發展而導致標記數據的稀缺,這一任務可以將事件理解和結構連接起來,并且具有內在的挑戰性。為了應對這些挑戰,我們開發了一個無監督的關鍵事件檢測框架EvMine,該框架(1)使用一種新的ttf-itf評分提取時間頻繁的峰值短語,(2)通過從我們設計的峰值短語圖中檢測社區,將峰值短語合并到事件指示性特征集,該圖捕捉文檔共現、語義相似性和時間緊密性信號,(3)通過從事件指示性特征集自動生成偽標簽訓練分類器,并使用檢索到的文檔細化檢測到的關鍵事件,迭代檢索與每個關鍵事件相關的文檔。大量的實驗和案例研究表明,EvMine在兩個真實世界的新聞語料庫上優于所有的基線方法和它的改進。

//arxiv.org/pdf/2206.04153.pdf

付費5元查看完整內容

相關內容

關系分類(RC)是文本知識提取中的重要任務,而數據驅動方法雖然具有較高的性能,但卻嚴重依賴于大量標注的訓練數據。近年來,人們提出了許多少樣本RC模型,并在一般領域數據集上取得了良好的結果,但當適應于特定領域(如醫學)時,其性能急劇下降。本文提出了一種面向領域自適應任務(KEFDA)的知識增強少樣本RC模型,該模型將通用知識圖譜和領域特定知識圖譜融合到RC模型中,以提高其領域自適應能力。該模型利用概念級的KGs,可以更好地理解文本的語義,并易于從少數實例中總結關系類型的全局語義。更重要的是,作為一種元信息,利用KGs的方式可以從現有任務轉移到新的任務,甚至跨領域。具體來說,我們設計了一個知識增強的原型網絡進行實例匹配,設計了一個關系元學習網絡進行隱式關系匹配。這兩個評分函數被組合在一起來推斷新實例的關系類型。FewRel 2.0基準的領域適應挑戰的實驗結果表明,我們的方法顯著優于最先進的模型(平均6.63%)。

//dl.acm.org/doi/abs/10.1145/3447548.3467438

付費5元查看完整內容

來自華為的研究人員在UIUC2021上將給出關于預訓練模型與文本挖掘的教程,非常值得關注!

近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然后,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基于transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優于先前的任務特定模型,因為它們只需要對目標語料庫進行微調,而無需從頭開始訓練。

//yumeng5.github.io/kdd21-tutorial/

在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下游任務的基礎。然后,我們提出了幾種基于預先訓練的文本嵌入和語言模型的新方法,用于各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用于從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,并促進自動、準確和高效的文本分析。

目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

付費5元查看完整內容

本教程的目標讀者是對幫助機器理解自然語言文本(特別是文本中描述的真實事件)的人工智能技術感興趣的研究人員和實踐者。這些方法包括提取一個事件關于其主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將向讀者系統地介紹(i)事件的知識表示,(ii)自動提取、概念化和預測事件及其關系的各種方法,(iii)事件過程和屬性的歸納,以及(iv)大量受益于上述技術的NLU和常識理解任務。我們將概述這一領域中出現的研究問題,以此結束本教程。

//cogcomp.seas.upenn.edu/page/tutorial.202102/

人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘事預測可以通過學習事件的因果關系來預測故事接下來會發生什么;機器理解文件可能包括理解影響股票市場的事件,描述自然現象或識別疾病表型。事實上,事件理解在諸如開放域問題回答、意圖預測、時間軸構建和文本摘要等任務中也廣泛地發現了它的重要用例。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件之間的關系,這些關系描述了事件的成員關系、共同參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及其參與者、粒度、位置和時間。

在本教程中,我們將全面回顧文獻中以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了介紹事件提取的部分標簽和無監督學習方法外,我們還將討論最近的約束學習和結構化推理方法,用于從文本中提取多方面的事件-事件關系。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠程監督的方法如何幫助解決對事件的時間和因果常識的理解,以及如何應用它們來構建大規模的可能性知識庫。與會者將了解該主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于最終使用的NLU應用。

付費5元查看完整內容

學習跨句關系是文檔摘要提取的關鍵步驟,目前已有多種研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,這種神經網絡具有更復雜的結構來捕獲句子之間的關系。我們提出了一種基于異構圖的提取摘要神經網絡,該網絡包含除句子外的不同粒度的語義節點。這些額外的節點充當句子之間的中介,豐富了跨句關系。此外,通過引入文檔節點,我們的圖結構在從單文檔設置到多文檔設置的自然擴展方面具有靈活性。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要,并對其進行全面的定性分析來研究其好處的人。代碼將在Github上發布。

付費5元查看完整內容
北京阿比特科技有限公司