亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

會話情緒識別(ERC)的目標是檢測每個話語的情緒標簽。最近的研究已經證明,以有意義的順序輸入訓練實例,而不是隨機考慮它們,可以提高模型的性能,基于此,我們提出了一個ercorient混合課程學習框架。我們的框架包括兩個課程:(1)對話水平課程(CC);(2)話語水平課程(UC)。在CC中,我們基于對話中的“情感轉移”頻率構建難度測量器,然后根據難度測量器返回的難度分數將對話安排在“易到難”模式中。UC則從情緒相似度的角度來實現,逐步增強了模型識別困惑情緒的能力。在提出的模型無關的混合課程學習策略下,我們觀察到現有的各種ERC模型的顯著性能提升,并且我們能夠在四個公共ERC數據集上實現新的最先進的結果。

//www.zhuanzhi.ai/paper/99e93cf8c4fdca76e734c63a16d18e94

付費5元查看完整內容

相關內容

無監督域自適應是一種將深度神經網絡泛化到新目標域的有效范式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基于能量的模型表現出自由能量偏差。受這一內在機制的啟發,我們從經驗上揭示了一個簡單而有效的基于能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基于能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在//github.com/BIT-DA/EADA上找到。

付費5元查看完整內容

圖神經網絡在許多基于圖的任務中得到了廣泛的應用,如節點分類、鏈路預測和節點聚類。GNNs的性能優勢主要來自于對圖的邊緣執行特征傳播和平滑,因此需要足夠的連接性和標簽信息來進行有效傳播。不幸的是,許多現實世界的網絡在邊緣和標簽方面都是稀疏的,這導致了GNN的次優性能。最近對這個稀疏問題的興趣集中在自訓練方法上,它用偽標簽擴展監督信號。然而,由于偽標簽的質量和數量都不理想,自訓練方法本身并不能充分發揮提煉稀疏圖學習性能的潛力。在本文中,我們提出了ROD,一種新的接收感知的在線知識提取方法用于稀疏圖學習。我們為ROD設計了三種監督信號:多尺度接收感知的圖知識、基于任務的監督和豐富的提煉知識,允許知識以同行教學的方式在線遷移。為了提取隱藏在多尺度接收領域中的知識,ROD明確要求個體學生模型保持不同層次的位置信息。對于給定的任務,每個學生根據自己的接受量表知識進行預測,同時結合多尺度知識動態地建立一個強大的教師。我們的方法已經在9個數據集和各種基于圖的任務上進行了廣泛的評估,包括節點分類、鏈接預測和節點聚類。結果表明,ROD算法達到了最先進的性能,對圖稀疏性具有更強的魯棒性。

//www.zhuanzhi.ai/paper/ff1be0c70de3f486fcb3bc2166e469e9

付費5元查看完整內容

圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。

//www.zhuanzhi.ai/paper/852db932624d6feeb7bbd32e67772b27

付費5元查看完整內容

在對話系統中,對話行為識別和情感分類是捕獲對話者意圖的兩個相關任務,其中對話行為可以捕獲顯式的意圖,情感可以表達隱性的意圖。其中上下文信息(contextual information)和相互交互信息(mutual interaction information)是這兩個相關任務的關鍵因素。但是,現有方法都無法同時考慮這兩個重要的信息。為了解決這個問題,在本文中,我們提出了一個協同交互圖注意力網絡(Co-GAT)來聯合建模這兩個任務。核心模塊是我們提出的協同交互圖交互層,可以在統一的圖網絡中構建跨歷史連接(cross-utterances connection)和跨任務連接(cross-tasks connection)。我們的模型在兩個公開的數據集達到了SOTA性能。此外,我們發現上下文和相互交互信息的貢獻與預訓練模型并不完全重疊,在多種預訓練模型上(BERT,RoBERTa,XLNet)均取得了性能提升。

//www.zhuanzhi.ai/paper/7d3e773a4c7382ea5c83c

付費5元查看完整內容

為了從最能區分類的高維數據中學習內在的低維結構,我們提出了最大編碼率降低原理(MCR2),這是一種信息理論度量,可以最大限度地提高整個數據集和每個類的編碼率差。明確了它與交叉熵、信息瓶頸、信息增益、壓縮學習和對比學習等現有框架的關系,為學習多樣性和有判別性表示提供了理論保障。該編碼率可以從簡并類子空間分布的有限樣本中精確地計算出來,并且可以統一地學習有監督、自監督和無監督三種情況下的本征表示。特別地,單獨使用該原理學習的表示比使用交叉熵學習的表示在分類中標記錯誤時具有更強的魯棒性,并且可以在自學習不變特征聚類混合數據方面產生最先進的結果。

//www.zhuanzhi.ai/paper/fb91343d453aad8707064021f94bb9de

付費5元查看完整內容

標題:Dialogue Distillation: Open-domain Dialogue Augmentation Using Unpaired Data

作者:張榮升,鄭銀河(共同第一作者),邵建智,毛曉曦,席亞東,黃民烈

關鍵詞:對話系統,數據增廣,模型蒸餾

類型:EMNLP 2020, Long Paper

論文地址://arxiv.org/abs/2009.09427

GitHub:

簡介:目前開放領域對話模型的訓練過程極大地依賴于大規模對話數據,但是,收集高質量的對話數據是非常消耗人力和物力的事情。本文中,我們提出了一個可適用于開放領域對話的數據增廣的方法:“對話蒸餾”。我們的方法中使用了非平行數據來增廣對話對。具體來說,我們首先設計了一個數據層面的蒸餾過程,在這一過程中,我們根據現有的對話對,在非配對數據中檢索相似的句子,從而組成增廣后的對話對。我們還提出了一個模型層面的蒸餾過程,這一過程中我們首先使用少量高質量的對話數據訓練得到了一個Teacher模型,然后再基于增廣后的數據,將這一teacher模型蒸餾到一個student模型中。自動和人工評測均表明,我們的方法可以生成高質量的增廣數據,并且我們所提出的對話蒸餾方法可以進一步幫我們提升開放領域對話模型的性能。(注:與網易伏羲實驗室合作)

付費5元查看完整內容

預訓練語言模型如BERT在自然語言理解(NLU)的許多任務中表現出色。模型中的tokens通常是細粒度的,像英語是單詞或sub-words或者是像中文字符。在英語中,例如,有多詞表達形式的自然詞匯單位,因此使用粗粒度標記似乎也是合理的。事實上,細粒度和粗粒度的標記化在學習預訓練語言模型方面都有優缺點。在本文中,我們提出了一種新的基于細粒度和粗粒度標記的預訓練語言模型,稱為AMBERT(一種多粒度的BERT)。對于英語,AMBERT將單詞序列(細粒度令牌)和短語序列(粗粒度令牌)作為標記化后的輸入,使用一個編碼器處理單詞序列,另一個編碼器處理短語序列,利用兩個編碼器之間的共享參數,最后創建單詞的上下文化表示序列和短語的上下文化表示序列。實驗在CLUE, GLUE, SQuAD和RACE基準數據集上進行了中文和英文測試,。結果表明,AMBERT模型在幾乎所有情況下都優于現有的性能最好的模型,特別是對中文的性能改善顯著。

//arxiv.org/pdf/2008.11869.pdf

概述

預訓練模型,如BERT、RoBERTa和ALBERT(Devlin et al., 2018; Liu et al., 2019; Lan et al., 2019) 在自然語言理解(NLU)方面顯示出強大的能力。基于Transformer的語言模型首先在預訓練中從大型語料庫中學習,然后在微調中從下游任務的標記數據中學習。基于Transformer (Vaswani et al ., 2017),通過預訓練的技術,和大數據, 該模型可以有效地捕捉詞法,句法,語義關系的標記輸入文本,在許多NLU任務,如情緒分析、文本蘊涵和機器閱讀理解實現最先進的性能。

例如在BERT中,預訓練主要是基于mask language modeling (MLM)進行的,其中輸入文本中約15%的token被一個特殊的token[mask]蒙住,目的是根據蒙住的文本重建出原始文本。對個別任務分別進行微調,如文本分類、文本匹配、文本跨度檢測等。通常,輸入文本中的標記是細粒度的;例如,它們是英語中的詞或子詞,是漢語中的字。原則上,標記也可以是粗粒度的,即,例如,英語中的短語和漢語中的單詞。英語中有很多多詞的表達,比如“紐約”和“冰淇淋”,短語的使用也似乎是合理的。在漢語中使用單詞(包括單字單詞)更為明智,因為它們是基本的詞匯單位。實際上,所有現有的預訓練語言模型都使用了單粒度(通常是細粒度)的標記。

以前的工作表明,細粒度方法和粗粒度方法各有利弊。細粒度方法中的標記作為詞匯單位不太完整,但它們的表示更容易學習(因為在訓練數據中有更少的標記類型和更多的標記),雖然粗粒度方法中的標記作為詞匯單位更完整,但是它們的表示更難以學習(因為在訓練數據中有更多的標記類型和更少的標記)。此外,對于粗粒度方法,不能保證標記(分割)是完全正確的。有時模棱兩可的存在,最好保留所有標記化的可能性。相比之下,對于細粒度的方法,標記化是在原始級別執行的,不存在“不正確”標記化的風險。

例如,Li et al(2019)觀察到,在漢語語言處理的深度學習中,細粒度模型的表現始終優于粗粒度模型。他們指出,原因是低頻率的單詞(粗粒度的標記)往往沒有足夠的訓練數據,而且往往沒有詞匯表,因此學習到的表示是不夠可靠的。另一方面,之前的工作也證明了在語言模型的預訓練中對粗粒度標記進行掩蔽是有幫助的(Cui et al., 2019;Joshi et al., 2020)。也就是說,盡管模型本身是細粒度的,但是在連續的標記(英語中的短語和漢語中的單詞)上進行屏蔽可以導致學習更準確的模型。

在本文中,我們提出了一個多粒度的BERT模型(AMBERT),它同時使用了細粒度和粗粒度標記。對于英語,AMBERT通過使用兩個編碼器同時構造輸入文本中的單詞和短語的表示來擴展BERT。確切地說,AMBERT首先在單詞和短語級別上進行標記化。然后,它將單詞和短語的嵌入作為兩個編碼器的輸入。它在兩個編碼器中使用相同的參數。最后,它在每個位置上分別獲得該詞的上下文表示和該短語的上下文表示。注意,由于參數共享,AMBERT中的參數數目與BERT中的參數數目相當。AMBERT可以在單詞級和短語級表示輸入文本,以利用這兩種標記方法的優點,并在多個粒度上為輸入文本創建更豐富的表示。

我們使用英文和中文的基準數據集進行了廣泛的實驗,以比較AMBERT和基線以及備選方案。結果表明,無論在中文還是英文中,AMBERT模型的性能都顯著優于單粒度的BERT模型。在英語方面,與谷歌BERT相比,AMBERT的GLUE分數比谷歌BERT高2.0%,RACE分數比谷歌BERT高2.5%,SQuAD 分數比谷歌BERT高5.1%。在漢語中,AMBERT的CLUE平均分提高了2.7%以上。AMBERT可以在CLUE的leader board擊敗所有參數小于200M的基礎模型。

在這項工作中,我們做出了以下貢獻。

  • 多粒度預訓練語言模型的研究,
  • 提出一種新的被稱為AMBERT的預訓練語言模型作為BERT的擴展,它利用了多粒度的token和共享的參數,
  • AMBERT在英文和中文基準數據集GLUE, SQuAD, RACE,和CLUE上的實證驗證

付費5元查看完整內容
北京阿比特科技有限公司