亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

文本數據在網絡上無處不在且海量:新聞報道、社交媒體帖子、維基百科文章等每天都在網上創建和更新。雖然它們包含豐富的信息和知識,但在文本密集型應用中有效利用它們仍然是一個公開的挑戰。預訓練語言模型(PLM)的最新進展已經徹底改變了文本挖掘和處理:通過在從網絡獲得的大規模文本語料庫上預訓練神經架構,然后將其表示轉移到特定任務的數據中,可以有效利用在網絡規模語料庫中編碼的知識,從而顯著提高下游任務的性能。PLM最常見的自適應方法是預訓練-微調范式,其中PLM在下游任務標記的數據上進行進一步訓練。然而,這種范式的主要挑戰是,對PLM的全監督微調通常需要大量的人工標注,而在實踐中獲取這些標注是昂貴的。

在本教程中,我們將介紹從網絡規模的語料庫中學習的預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本文專注于不需要大量人工標注的弱監督方法,包括(1)作為下游任務基礎的預訓練語言模型,(2)用于從大規模文本語料庫中發現主題的無監督和種子引導方法,以及(3)用于文本分類和高級文本挖掘任務的弱監督方法。

付費5元查看完整內容

相關內容

雖然大規模語言模型工作得非常好,但訓練它們的成本很高,很難解釋它們的預測,而且幾乎不可能隨著時間的推移保持最新。目前還不清楚我們什么時候可以相信他們的預測,而且目前的大型語言模型都不能回答關于當前主題的問題,例如COVID-19,因為用于訓練的語料庫是幾年前創建的。為了開發具有更小、更簡單和更有效的模型的下一代通用語言模型,我們相信信息檢索是一個關鍵組件。在人與人之間以及與世界進行交互時,人類會挖掘許多不同形式的知識,包括世界知識(例如常識、最新的世界事實、熱門新聞)和用戶知識(例如對話記憶、社交互動、額外的上下文(例如位置等)。為了在AI應用程序中結合這種能力,信息檢索提供了模型對可能包含此類知識的文檔集合的訪問(可能很大)。具體來說,完整的系統由一個小型的核心模型組成,可以通過檢索輕松訪問額外的、與任務相關的知識,并與當今最大的語言模型相媲美。在本次演講中,我將首先對檢索增強語言模型進行研究概述。然后,我將分享我們最近的一些工作,包括一個通過添加檢索組件來改進任何語言模型的通用框架,以及一個檢索增強的多模態模型,該模型可以生成質量更好的圖像和標題。最后,我將通過討論我們學到的一些經驗教訓和我們計劃在不久的將來解決的問題來結束這次演講。

付費5元查看完整內容

從與上下文無關的詞嵌入到與上下文相關的語言模型,預訓練的文本表示將文本挖掘帶入了一個新的時代: 通過在大規模文本語料庫上對神經模型進行預處理,然后將其適應于特定任務的數據,可以有效地將通用語言特征和知識轉移到目標應用中,并在許多文本挖掘任務中取得了顯著的性能。不幸的是,在這種突出的預訓練微調范式中存在著一個巨大的挑戰:大型的預訓練語言模型(PLM)通常需要大量的訓練數據來對下游任務進行穩定的微調,而大量的人工注釋的獲取成本很高。

在本教程中,我們將介紹預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。我們專注于不需要大量人工標注的最小監督方法,包括**(1)作為下游任務基礎的自監督文本嵌入和預訓練語言模型,(2)用于基本文本挖掘應用的無監督和遠程監督方法,(3)用于從大量文本語料庫中發現主題的無監督和種子引導方法,以及(4)用于文本分類和高級文本挖掘任務的弱監督方法**。

介紹 第一部分: 科學信息提取與分析 第二部分: 科學信息搜索和證據挖掘 第三部分: 主題發現、文本分類和多維文本分析 摘要及未來方向

付費5元查看完整內容

知識圖譜(KG)嵌入已經成為不完備知識圖譜推理的主流方法,但由于其固有的淺層和靜態架構的限制,難以處理日益受到關注的復雜邏輯查詢,包括邏輯運算符、imputed邊、多源實體和未知中間實體。在這項工作中,我們提出了知識圖譜轉換器(kgTransformer),它具有掩碼的預訓練和微調策略。我們設計了一種KG三重變換方法,使Transformer能夠處理KGs,并通過混合專家(mix -of- experts, MoE)稀疏激活進一步加強了這種方法。然后,我們將復雜的邏輯查詢表述為掩碼預測,并引入兩階段掩碼訓練前策略以提高可移植性和泛化性。在兩個基準測試上的大量實驗表明,kgTransformer在9個域內和域外推理任務上可以始終優于基于KG嵌入的基準和高級編碼器。此外,kgTransformer可以通過提供完整的推理路徑來解釋給定的答案,從而具有可解釋性。

//keg.cs.tsinghua.edu.cn/jietang/publications/KDD22-Liu-et-al-KG-Transformer.pdf

付費5元查看完整內容

從新聞語料庫中自動檢測事件是挖掘快速進化的結構化知識的關鍵。由于現實世界的事件具有不同的粒度,從頂級主題到關鍵事件,再到與具體行動相對應的事件提及,通常有兩種研究方向:(1)主題檢測從新聞語料庫中識別出主要主題(如“2019年香港抗議”vs.;“2020年美國總統選舉”),語義非常明確;(2)動作抽取(action extraction)從一個文檔提及級別的動作(例如,“警察打了抗議者的左臂”)中提取,這些動作粒度太細,無法理解事件。在本文中,我們提出了一個新的任務,即中間層次的關鍵事件檢測,旨在從一個新聞語料庫中檢測出發生在特定時間/地點、關注同一主題的關鍵事件(如“8月12-14日香港機場抗議”)。由于關鍵事件的主題和時間的緊密性,以及由于新聞文章的快速發展而導致標記數據的稀缺,這一任務可以將事件理解和結構連接起來,并且具有內在的挑戰性。為了應對這些挑戰,我們開發了一個無監督的關鍵事件檢測框架EvMine,該框架(1)使用一種新的ttf-itf評分提取時間頻繁的峰值短語,(2)通過從我們設計的峰值短語圖中檢測社區,將峰值短語合并到事件指示性特征集,該圖捕捉文檔共現、語義相似性和時間緊密性信號,(3)通過從事件指示性特征集自動生成偽標簽訓練分類器,并使用檢索到的文檔細化檢測到的關鍵事件,迭代檢索與每個關鍵事件相關的文檔。大量的實驗和案例研究表明,EvMine在兩個真實世界的新聞語料庫上優于所有的基線方法和它的改進。

//arxiv.org/pdf/2206.04153.pdf

付費5元查看完整內容

【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Yu Meng,韓家煒等等學者共同做了關于預訓練語言表示的進展報告,非常值得關注!

本教程旨在介紹預訓練文本嵌入和語言模型(例如BERT和GPT)的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本教程將系統地介紹(1) 預訓練的文本表示學習的發展,(2) 預訓練的模型如何有效地增強基本文本挖掘應用,以及(3)新的技術和方法來用于預訓練的文本表示,用于文本挖掘任務,而無需人工注釋。目標受眾包括任何對人工智能(AI)和機器學習(ML)技術感興趣的研究人員和從業人員,這些技術用于使用最先進的預訓練語言模型的自然語言和數據挖掘應用程序。觀眾將不僅了解文本表示學習和文本挖掘的背景和歷史,還將了解最新的模型和方法及其應用。我們的教程特別關注文本挖掘中的弱監督方法,這種方法需要最少的人力來學習模型。我們還將用真實的數據集演示預訓練的文本表示如何幫助減輕人類注釋的負擔,并促進自動、準確和高效的文本分析。 目標受眾包括典型的人工智能實踐者,他們可能對偏好學習有一個高層次的概念,但通常沒有意識到問題的各種挑戰性方面。該教程的新穎之處在于將不同社區的不同范式翻譯成AI語言,從而使ML/AI社區受益。本教程將是自包含的,不需要任何先決條件。具有基本AI/ML知識的觀眾將能夠理解大部分材料。

目錄內容: 引言 Introduction 第一部分:預訓練語言模型 Part I: Pre-Trained Language Models [Slides] 第二部分 重溫文本挖掘基礎 Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models 第三部分 嵌入驅動主題挖掘 Part III: Embedding-Driven Topic Discovery 第三部分 弱監督文本挖掘 Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort 第四部分 高級文本挖掘應用 Part V: Advanced Text Mining Applications Empowered by Pre-Trained Language Models [Slides]

地址: //yumeng5.github.io/aaai22-tutorial/

付費5元查看完整內容

論文概述:為預訓練語言模型設計與下游任務更加接近的預訓練任務與目標,可以在微調階段獲得更好的效果,尤其是在信息檢索領域。現有的面向信息檢索的預訓練方法試圖引入一些弱監督信號,例如基于查詢似然的采樣,來從海量文本語料中生成偽查詢-文檔對,從而完成對預訓練模型的監督訓練。但是,這些信號嚴重依賴于具體的采樣算法。例如,查詢似然模型可能在構建預訓練數據時帶來嚴重的噪聲。因此,在本文中,我們提出利用語料中大規模的超鏈接與錨文本,來完成面向的信息檢索的預訓練語言模型。超鏈通常是由網絡管理員或用戶人工添加,且能很好的總結對應文檔。因此,相比現有的基于采樣算法的模型,超鏈可以幫助構建更加準確和可靠的預訓練樣本。考慮到下游信息檢索任務的不同角度,我們設計了四個基于超鏈的預訓練任務,包括代表性查詢預測,查詢消歧建模,代表性文檔預測,錨文本共線建模,從而讓模型學習相關性建模能力。連同掩碼語言模型(MLM),我們使用Pair-wise損失函數對Transformer模型進行預訓練。為了評價我們提出的預訓練方法的有效性,我們在兩個信息檢索的數據集上進行了微調,包括MSMARCO Document Ranking數據集以及TREC DL 2019數據集。實驗結果證明,我們的模型相比現有最好的模型有明顯的效果提升。

//arxiv.org/pdf/2108.09346.pdf

付費5元查看完整內容

來自華為的研究人員在UIUC2021上將給出關于預訓練模型與文本挖掘的教程,非常值得關注!

近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然后,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基于transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優于先前的任務特定模型,因為它們只需要對目標語料庫進行微調,而無需從頭開始訓練。

//yumeng5.github.io/kdd21-tutorial/

在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下游任務的基礎。然后,我們提出了幾種基于預先訓練的文本嵌入和語言模型的新方法,用于各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用于從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,并促進自動、準確和高效的文本分析。

目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

付費5元查看完整內容
北京阿比特科技有限公司