亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

端到端語音翻譯的課程預訓練

Curriculum Pre-training for End-to-End Speech Translation

鏈接://arxiv.org/abs/2004.10093

圖1:課程預訓練方法與其他預訓練方法對比

端到端語音翻譯(Speech Translation, ST)利用一個神經網絡模型將一段源語言語音直接翻譯為目標語言的文本。這個任務對模型編碼器帶來很大負擔,因為它需要同時學習語音轉錄(transcription)、語義理解(understanding)和跨語言語義匹配(mapping)。已有工作利用語音識別(Automatic Speech Recognition, ASR)數據上進行預訓練以獲得更強大的編碼器。然而,這種預訓練方式無法學習翻譯任務所需要的語義知識。受到人類學習過程的啟發,本文提出了一種課程預訓練(Curriculum Pretraining)的方式。如圖1所示,在學習語音翻譯之前,模型首先學習一門基礎課程用于語音轉錄,隨后學習兩門用于語義理解和單詞映射的高級課程,這些課程的難度逐漸增加。

圖2:訓練過程

如圖2所示,訓練過程分為三個階段:首先利用語音識別任務作為基礎課程;然后在高級課程中,我們提出了兩種任務,分別命名為 Frame-based Masked Language Model (FMLM) 和 Frame-based Bilingual Lexicon Translation (FBLT)。在 FMLM 任務中,首先將源語言語音和單詞做對齊,然后隨機遮蔽部分單詞對應的語音片段,并令模型預測正確的單詞。在 FBLT 任務中,我們使模型預測每個語音片段所對應的目標語言單詞。這兩個任務在編碼器的不同層進行;最終,將模型在語音翻譯數據上進行微調。實驗表明,課程預訓練的方法在英德和英法語音翻譯數據集上都取得了明顯改進。

付費5元查看完整內容

相關內容

通過計算機進行不同語言之間的直接語音翻譯,輔助不同語言背景的人們進行溝通已經成為世界各國研究的重點。 和一般的文本翻譯不同,語音翻譯需要把語音識別、機器翻譯和語音合成三大技術進行集成,具有很大的挑戰性。

UniLMv2:統一預訓練偽掩碼語言模型

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177

基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。

我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。

偽掩碼語言模型(PMLM)

在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。

在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。

付費5元查看完整內容

我們提出了一個多語言神經機器翻譯的概率框架,它包括監督和非監督設置,重點是無監督翻譯。除了研究只有單語數據可用的基本情況外,我們還提出了一種新的設置,即(源、目標)對中的一種語言不與任何并行數據相關聯,但可能存在包含另一種語言的輔助并行數據。通過一個新的交叉翻譯損失項,這些輔助數據可以很自然地用在我們的概率框架中。經驗表明,我們的方法在大多數方向的WMT'14英-法、WMT'16英-德、WMT'16英-羅數據集上,比最先進的無監督模型獲得更高的BLEU分數。特別是,我們獲得了+1.65 BLEU的優勢,在羅馬尼亞-英國方向的最佳表現的無監督模式。

付費5元查看完整內容

題目: Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一種新的編碼-解碼器序列到序列預訓練模型(seq2seq)。我們的前訓練方法分為兩個階段,分別是聲學前訓練和語言前訓練。在聲學預訓練階段,我們使用大量的語音來預訓練編碼器,通過預測掩蔽語音特征塊及其上下文。在語言前訓練階段,我們使用單說話文本到語音(TTS)系統從大量的文本中生成合成語音,并使用合成的成對數據對譯碼器進行預訓練。這種兩階段預訓練方法將豐富的聲學和語言知識整合到seq2seq模型中,有利于后續的自動語音識別(ASR)任務。在AISHELL-2數據集上完成無監督的預訓練,我們將預訓練模型應用于AISHELL-1和香港科技大學的多重配對數據比率。我們的相對錯誤率由AISHELL-1的38.24%降至7.88%,由香港科技大學的12.00%降至1.20%。此外,將我們的預訓練模型應用到帶有CALLHOME數據集的跨語言案例中。對于CALLHOME數據集中的所有六種語言,我們的預訓練方法使模型始終優于基線。

作者:

徐波,研究員,1988年畢業于浙江大學,現任中國科學院自動化所所長 ,研究領域包括:多語言語音識別與機器翻譯、多媒體網絡內容智能處理、互動沉浸式3D互聯網等。

付費5元查看完整內容
北京阿比特科技有限公司