亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

知識增強預訓練語言模型(Knowledge enhanced pre- training language model, K-PLMs)已被證明對許多公共任務是有效的,但在實踐中成功應用的卻很少。為了解決這一問題,我們提出了一種系統的方法K-AID,包括一個低成本的獲取領域知識的過程,一個有效的知識注入模塊,以提高模型的性能,以及一個知識蒸餾組件,以減少模型尺寸和部署K-PLMs資源受限的設備(如:CPU)為現實世界的應用。重要的是,我們的方法捕獲的是關系知識,而不是像大多數現有的 K-PLMs那樣捕獲實體知識,這有助于更好地改進句子級別的文本分類和文本匹配任務,這些任務在回答問題(QA)中扮演著關鍵角色。我們對電子商務、政府、影視三個領域的5個文本分類任務和3個文本匹配任務進行了一系列實驗,并在電子商務領域進行了在線A /B測試。實驗結果表明,該方法能夠在句子水平的問題回答任務上取得顯著的提高,在工業環境中帶來有益的商業價值。

//www.zhuanzhi.ai/paper/f2b18d6b3b8fd0eef9f9f6142e452f42

付費5元查看完整內容

相關內容

近年來,預訓練模型(例如ELMo、GPT、BERT和XLNet等)的快速發展大幅提升了諸多NLP任務的整體水平,同時也使得很多應用場景進入到實際落地階段。預訓練語言模型本身就是神經網絡語言模型,它的特點包括:第一,可以使用大規模無標注純文本語料進行訓練;第二,可以用于各類下游NLP任務,不是針對某項定制的,但以后可用在下游NIP任務上,你不需要為下游任務專門設計一種神經網絡,或者提供一種結構,直接在幾種給定的固定框架中選擇一種進行 fine-tune,就可以從而得到很好的結果。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。

//www.zhuanzhi.ai/paper/d2442bf43a31aaa81587f38a17e6c85d

付費5元查看完整內容

題目:A Neural Conversation Generation Model via Equivalent Shared Memory Investigation

簡介:對話生成作為自然語言生成 (NLG) 中的一項具有挑戰性的任務,在過去幾年中越來越受到關注。最近的一些工作采用了序列到序列結構以及外部知識,成功地提高了生成對話的質量。然而,構建大規模的外部知識不僅耗費大量人力物力,并且模型的領域適用性受到限制。在本篇文章中,我們將相似對話作為一種知識來提高對話生成的性能。以客戶服務和法庭辯論領域為例,從相似的對話實例中提取必要的實體,短語,句子及其相關邏輯關系。這些信息可以為改善對話生成提供有用的信號。在本文中,我們提出了一種新的閱讀和記憶框架,稱為深度閱讀記憶網絡(DRMN),它能夠記住相似對話的有用信息,以改善話語生成。我們將我們的模型應用于司法領域和電子商務領域的兩個大規模對話數據集。實驗證明,所提出的模型取得了最好的效果。

//www.zhuanzhi.ai/paper/0399571c887d82ff2eeca6a1452dad47

付費5元查看完整內容

為了研究像Stack Overflow這樣的社區問答(CQA)平臺,人們提出了各種數據挖掘任務。這些任務之間的相關性通過多任務學習(MTL)為彼此提供了有用的學習信號。然而,由于這些任務的高度異質性,很少有現有的工作能夠在一個統一的框架中共同解決它們。為了解決這一難題,我們開發了一種基于多關系圖的MTL模型——異構多任務圖同構網絡(Heterogeneous Multi-Task graph Isomorphism Network, HMTGIN),該模型有效地解決了異構CQA任務。在每次訓練前向傳遞中,HMTGIN通過圖同構網絡的擴展和跳躍連接嵌入輸入的CQA論壇圖。嵌入然后在所有特定任務的輸出層共享,以計算各自的損失。此外,利用兩個基于任務關系領域知識的跨任務約束對聯合學習進行正則化。在評估中,嵌入在不同的任務特定的輸出層之間共享,以做出相應的預測。據我們所知,HMTGIN是第一個能夠從多關系圖的角度處理CQA任務的MTL模型。為了評估HMTGIN的有效性,我們從Stack Overflow中構建了一個具有200多萬個節點的大規模多關系圖CQA數據集。大量實驗表明: (1) HMTGIN在5個任務上優于所有基線; (2) 提出的MTL策略和跨任務約束具有顯著優勢。

//arxiv.org/abs/2110.02059

付費5元查看完整內容

題目:A Neural Conversation Generation Model via Equivalent Shared Memory Investigation

簡介:對話生成作為自然語言生成 (NLG) 中的一項具有挑戰性的任務,在過去幾年中越來越受到關注。最近的一些工作采用了序列到序列結構以及外部知識,成功地提高了生成對話的質量。然而,構建大規模的外部知識不僅耗費大量人力物力,并且模型的領域適用性受到限制。在本篇文章中,我們將相似對話作為一種知識來提高對話生成的性能。以客戶服務和法庭辯論領域為例,從相似的對話實例中提取必要的實體,短語,句子及其相關邏輯關系。這些信息可以為改善對話生成提供有用的信號。在本文中,我們提出了一種新的閱讀和記憶框架,稱為深度閱讀記憶網絡(DRMN),它能夠記住相似對話的有用信息,以改善話語生成。我們將我們的模型應用于司法領域和電子商務領域的兩個大規模對話數據集。實驗證明,所提出的模型取得了最好的效果。

//www.zhuanzhi.ai/paper/0399571c887d82ff2eeca6a1452dad47

付費5元查看完整內容

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,并承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,并解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限制的設備;(2)算法應與下游任務無關,這樣壓縮模型一般適用于不同的下游任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,并輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴于特定的下游任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在于,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,并可以直接應用于不同的下游任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

付費5元查看完整內容

Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks

Authors: Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang

我們研究了將先驗知識整合到基于深度Transformer的模型中的問題,即:,以增強其在語義文本匹配任務中的性能。通過探索和分析BERT在解決這個任務時已經知道的東西,我們可以更好地理解BERT最需要什么特定任務的知識,在哪里最需要什么知識。這一分析進一步促使我們采取一種不同于大多數現有工作的方法。我們沒有使用先驗知識來創建一個新的訓練任務來微調BERT,而是直接將知識注入BERT特的多頭注意機制。這將我們引向一種簡單而有效的方法,它歷經快速訓練階段,因為它節省了模型在主要任務以外的額外數據或任務上的訓練。大量的實驗表明,本文提出的知識增強的BERT模型能夠持續地提高語義文本匹配性能,并且在訓練數據稀缺的情況下性能效益最為顯著。

//www.zhuanzhi.ai/paper/7b48ad08e4eaf1a9d87baf6474bec12f

付費5元查看完整內容

本文提出了一個簡潔而有效的基于知識到文本轉換的常識問答模型框架,在多個標準的常識問答數據集上進行了深入的測試和分析,并為知識增強的常識問答提供了高性能的基準模型。實驗顯示:①基于知識到文本轉換的常識問答模型是有效且魯棒的;②融合外部知識對于常識問答任務依然有較大潛力;③目前的常識問答模型還遠不能充分發揮知識的潛力——與使用標準知識解釋的模型相比,現有模型均有較大性能差距。

付費5元查看完整內容

BERT為代表的預訓練語言模型在眾多自然語言處理任務中取得了顯著性能提升,并且隨后涌現出一批效果更優的預訓練語言模型。在本文中,我們將經典的預訓練語言模型應用在中文場景并使用相同的實驗設置去驗證它們在中文領域的性能表現。同時,我們創新地提出了一種基于文本糾錯的預訓練語言模型MacBERT,應用糾錯型掩碼語言模型(MLM as correction,Mac)解決了預訓練模型中“預訓練-精調”不一致的問題。為了驗證實驗效果,我們選擇了8個經典的中文自然語言處理任務,包括閱讀理解、單句文本分類、句對文本分類等。大量實驗結果表明所提出的MacBERT能夠在大多數任務上取得顯著性能提升。我們已將所有本文涉及到的中文預訓練資源進行開源,希望能夠進一步促進中文信息處理的研究與發展。

付費5元查看完整內容

題目:

Mining Implicit Relevance Feedback from User Behavior for Web Question Answering

簡介:

訓練和刷新用于多語言商業搜索引擎的Web級問答系統通常需要大量的數據。一個想法是從搜索引擎日志中記錄的用戶行為從而挖掘隱式相關性。以前所有有關挖掘隱式相關性的著作都將反饋的目標指定為Web文檔的相關性。由于QA任務中的幾個獨特特性,現有的Web文檔用戶行為模型無法應用于推斷段落相關性。在本文中,我們進行了第一項研究,以探索用戶行為與段落之間的相關性,并提出了一種挖掘Web QA訓練數據的方法。我們對四個測試數據集進行了廣泛的實驗,結果表明,在沒有人標記的數據中,我們的方法顯著提高了段落排名的準確性。實際上,已證明這項工作有效地降低了全球商業搜索引擎中質量檢查服務的人工標記成本,尤其是對于資源較少的語言。

付費5元查看完整內容

語言模型的預訓練已經被證明能夠獲取大量的世界知識,這對于NLP任務(如回答問題)是至關重要的。然而,這些知識隱式地存儲在神經網絡的參數中,需要更大的網絡來覆蓋更多的事實。

為了以更模塊化和可解釋性的方式捕獲知識,我們在語言模型前訓練中增加了一個潛在的知識檢索器,它允許模型從一個大型語料庫(如Wikipedia)中檢索和處理文檔,這些語料庫在前訓練、微調和推理期間使用。我們第一次展示了如何以一種無監督的方式預先訓練這種知識檢索器,

使用掩碼語言建模作為學習信號,并通過一個考慮數百萬文檔的檢索步驟進行反向傳播。

通過對具有挑戰性的開放領域問題回答(Open-QA)任務進行微調,我們證明了增強語言模型預訓練(REALM)的有效性。我們比較了三種流行的開放qa基準上的最先進的顯式和隱式知識存儲模型,發現我們的性能顯著優于所有以前的方法(4-16%的絕對準確性),同時還提供了定性的好處,如可解釋性和模塊化。

地址:

//kentonl.com/pub/gltpc.2020.pdf

付費5元查看完整內容
北京阿比特科技有限公司