預訓練跨語言語言模型(Pretrained Cross-Lingual Language Model)在自然語言推斷、問答、序列標注等諸多任務上展現了強大的跨語言遷移能力。例如,僅用英語的問答訓練數據來微調預訓練跨語言語言模型,得到的模型就可以直接在多個語言上實現問答任務。以往的跨語言預訓練任務更關注句子級別的對齊,隱式地鼓勵跨語言對齊,而忽略了顯示的詞級別的細粒度的對齊。
在本文中,微軟亞洲研究院的研究員們將詞級別的跨語言對齊引入預訓練,并提出了一個新的跨語言預訓練任務:去噪聲詞對齊(Denoising word alignment),來訓練 XLM-Align 模型。
在訓練過程中,對翻譯句對交替進行詞對齊自標注和去噪聲詞對齊。詞對齊自標注(Word alignment self-labeling)是指將輸入的翻譯句對的詞對齊問題轉化為最優傳輸問題,并在訓練過程中在線得到輸入句對的詞對齊標注;去噪聲詞對齊則是指隨機地將輸入句對中的詞進行掩蓋,然后使用指針網絡預測翻譯句對原始的詞對齊關系。
研究員們在 XTREME 多語言理解評價基準上進行了驗證,包括序列標注、問答、句子分類等。實驗使用“跨語言遷移”(Cross-lingual transfer)的實驗設置——模型用英文的訓練數據微調,但在多種語言的測試集上進行測試。如表13所示,XLM-Align 在7項任務上都超越了 XLM-R_base,且取得了最好的平均分數。
論文鏈接://www.zhuanzhi.ai/paper/bbfc8d3f4f1e8d947d1d18dee9aef466
端到端語音識別(Speech Recognition, SR)系統的訓練需要大量的標注數據,這對低資源場景來說是一個挑戰。為此,微軟亞洲研究院的研究員們提出了一種名為 UniSpeech 的方法,能夠同時利用監督數據和無監督數據來學習統一的上下文表示。
圖9:UniSpeech 方法示意圖
如圖9所示,研究員們的模型包含了基于卷積神經網絡(Convolution Neural Network,CNN)的特征提取網絡,基于 Transformer 的上下文網絡和一個特征量化模塊用于學習離散的向量。對于預訓練,研究員們采用了多任務學習的方式;對于標記數據,則指定了兩個訓練目標:第一個是音素級別的 CTC 損失函數,該函數作用于 Transformer 的輸出;第二個是在掩碼上下文表示和離散潛在表示上定義的對比任務,該任務與 wav2vec2.0 相同。CTC 將每個上下文表示與音素標簽對齊,同時,對比損失縮小了離散表示和上下文表示之間的距離。為了進一步明確指導量化器學習 SR 的特定信息,在計算 CTC 損失時,研究員們隨機將一部分 Transformer 輸出,替換為相應時間的離散表示。
在實驗中,研究員們發現這種方法可以激活量化器碼本中的更多碼字。對于那些未標記數據,研究員們只進行了對比學習。在預訓練之后,研究員們固定了特征提取器,并在少量標記的低資源數據上微調了 Transformer 部分。論文在 CommonVoice 數據集上驗證了該方法,如表2-表4所示,UniSpeech 在以下三種設置中,均明顯優于監督遷移學習和無監督對比學習:(1)單一高資源語言設置到單一低資源語言設置(One-to-One)(2)多語言高資源語言到單一低資源語言設置(Many-to-One)(3)多語言高資源語言到多語言低資源語言設置(Many-to-Many)。
論文題目:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
論文概述:本文研究如何自動生成描述知識圖譜(KG)中事實的自然語言文本。借助預訓練語言模型(PLMs)在語言理解和生成方面的能力,我們主要考慮少樣本場景。我們提出了三個主要的技術貢獻,即用于彌合KG編碼和PLM之間語義差距的表示對齊,用于生成更好的輸入表示的基于關系的KG線性化策略,以及用于學習KG和文本之間對應關系的多任務學習。在三個基準數據集上進行的大量實驗證明了我們的模型在KG到文本生成任務上的有效性。特別是,我們的模型可以實現在只有幾百個標記樣本的情況下取得非常好的效果。
本文研究了新聞中的宣傳手段(propaganda)檢測。和之前僅僅從訓練數據中的輸入-輸出數據中進行學習不同,本文進一步提出了一種方法在細粒度的宣傳手段檢測中引入了聲明性知識(declarative knowledge)。具體來說,本文同時利用了一階邏輯和自然語言文本中的聲明性知識。前者是指粗粒度預測和細粒度預測之間的邏輯一致性,通過布爾表達式來對訓練過程進行正則化。后者指每一種宣傳手段的定義,它被利用于獲得這一類宣傳手段的特征表示,從而對模型參數進行正則化。本文在“Propaganda Techniques Corpus (PTC)”數據集上進行實驗,它是一個大規模的人工標注的數據集,用于細粒度的宣傳手段檢測。實驗結果表明,本文提出的模型取得了優異的性能,驗證了利用聲明性知識可以幫助模型進行更準確的預測。
//www.zhuanzhi.ai/paper/69553c6775073b80179e52ebb4e90ce9