亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

從理解到改進:序列到序列建模中的編碼器特征融合

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

本文由騰訊AI Lab主導,與澳門大學、悉尼大學合作完成。編碼器特征融合(EncoderFusion)是提升序列到序列建模中的經典技術之一。盡管其有效性已在各種自然語言處理(NLP)任務上得到的驗證,但其原理及規律并沒有被深入探究。

本文首先提出了細粒度層注意力模型來量化編碼器每一層特征的貢獻度,并在多個NLP任務(機器翻譯、語法糾錯、文本摘要)上進行分析,從而進一步理解EncoderFusion的本質。前人工作認為EncoderFusion主要利用嵌在編碼器底層的詞法和語法信息,而我們發現編碼器詞嵌入層比其他中間層更重要,并且始終受到解碼器最上層的關注。基于該發現,我們提出了一種簡單直接的融合方法,即只融合編碼器詞嵌入層到解碼器輸出層。

實驗結果表明,該方法在多種序列建模任務上都優于已有融合方法,并使翻譯任務在WMT16羅英和WMT14英法數據集上取得SOTA性能。分析進一步表明,SurfaceFusion能幫助模型學到更具表現力的雙語詞嵌入。該工作對編碼器特征融合的改進和使用有較強啟發和指導意義。

付費5元查看完整內容

相關內容

基于Transformers 從序列到序列的角度重新思考語義分割

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

我們希望為語義分割方法提供另一種思路,將語義分割轉變為序列到序列的預測任務。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進行了全局的上下文建模,結合常規的Decoder模塊,我們得到了一個強大的語義分割模型,稱之為Segmentation transformer(SETR)。大量實驗表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達到SOTA,并在Cityscapes上取得了較好結果。

付費5元查看完整內容

圖神經網絡中的注意力機制旨在將較大的權重分配給重要的鄰居節點,以實現更好的表示。但是,人們對圖的學習了解得不好,尤其是當圖嘈雜時。在本文中,作者提出了一種自監督圖注意力網絡(SuperGAT),這是一種針對noisy圖改進的圖注意力模型。自監督的關鍵是找到數據中存在的監督信息,其中預測邊存在和不存在是一個能夠編碼節點之間關系的監督信息,也被廣泛的使用。本文利用這個與自監督任務兼容的兩種注意力形式來預測邊的存在和缺失。提出的SuperGAT通過對邊進行編碼,在區分錯誤link的鄰居時會獲得更多的表達注意。另外本文發現兩個圖上的基本屬性會影響注意力的形式和自監督的有效性:同構和平均度(homophily and average degree)。這兩個圖的屬性,可為使用哪種注意力設計提供指導。本文對17個現實世界數據集進行的實驗表明,該方法可以泛化到其中的15個數據集,并且得到比基線更高的性能。

付費5元查看完整內容

本文由騰訊 AI Lab 和中國科學院自動化研究所合作完成。圖分類、藥物分子官能團發掘、圖數據去噪等任務都可以歸結為尋找一個與原圖標簽最為相關且濾除噪聲結構的子圖。然而監督學習需要利用子圖層面的標簽,且圖的不規則離散結構對算法優化帶來了挑戰。

本文基于信息瓶頸理論提出了信息瓶頸子圖的概念和圖信息瓶頸算法,并針對圖的不規則離散結構提出了二層互信息優化算法與連續化松弛方法。基于該算法,不需要顯式的子圖標簽即可有效識別這種子圖。

實驗表明,該算法能有效提高多種圖分類算法的精度;在分子數據集上,該算法能夠準確識別最能影響藥物分子屬性的子結構;此外,該算法對于有噪聲的圖分類任務有較好的魯棒性。

本文在圖深度學習中開拓出了一個子圖識別的新的研究領域,并在藥物發現中起到了一定的輔助分析的作用。其中結合信息瓶頸理論來解決圖問題的思路也對今后的相關研究有借鑒意義。

想了解更多關于圖深度學習的信息,可閱讀文章:騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用

//arxiv.org/abs/2010.05563

付費5元查看完整內容

像BERT這樣經過預訓練的上下文表示在自然語言處理方面取得了巨大的成功。然而,未經微調的預訓練語言模型中的句子嵌入發現句子的語義捕獲效果較差。本文認為BERT嵌入中的語義信息沒有得到充分利用。本文首先從理論上揭示了掩蔽語言模型訓練前目標與語義相似度任務之間的理論聯系,然后對BERT句子嵌入進行了實證分析。結果表明,BERT常常引入句子的非光滑各向異性語義空間,從而影響其語義相似度的表現。為了解決這個問題,我們提出將各向異性的句子嵌入分布轉化為平滑的各向同性高斯分布,通過無監督目標學習的流進行歸一化。實驗結果表明,本文提出的基于BERT-flow的句子嵌入方法在各種語義文本相似度任務上都取得了顯著的性能提升。該代碼可在此https URL中獲得。

//arxiv.org/abs/2011.05864

付費5元查看完整內容

大量的研究成果表明,大規模預訓練語言模型通過自監督任務,可在預訓練階段有效捕捉文本中蘊含的語義信息,經過下游任務微調后能有效的提升模型效果。然而,現有的預訓練語言模型主要針對文本單一模態進行,忽視了文檔本身與文本天然對齊的視覺結構信息。為了解決這一問題,研究員們提出了一種通用文檔預訓練模型LayoutLM[1][2],選擇了文檔結構信息(Document Layout Information)和視覺信息(Visual Information)進行建模,讓模型在預訓練階段進行多模態對齊。

在實際使用的過程中,LayoutLM 僅需要極少的標注數據即可達到行業領先的水平。研究員們在三個不同類型的下游任務中進行了驗證:表單理解(Form Understanding)、票據理解(Receipt Understanding),以及文檔圖像分類(Document Image Classification)。實驗結果表明,在預訓練中引入的結構和視覺信息,能夠有效地遷移到下游任務中,最終在三個下游任務中都取得了顯著的準確率提升。

付費5元查看完整內容
北京阿比特科技有限公司