亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

題目: Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一種新的編碼-解碼器序列到序列預訓練模型(seq2seq)。我們的前訓練方法分為兩個階段,分別是聲學前訓練和語言前訓練。在聲學預訓練階段,我們使用大量的語音來預訓練編碼器,通過預測掩蔽語音特征塊及其上下文。在語言前訓練階段,我們使用單說話文本到語音(TTS)系統從大量的文本中生成合成語音,并使用合成的成對數據對譯碼器進行預訓練。這種兩階段預訓練方法將豐富的聲學和語言知識整合到seq2seq模型中,有利于后續的自動語音識別(ASR)任務。在AISHELL-2數據集上完成無監督的預訓練,我們將預訓練模型應用于AISHELL-1和香港科技大學的多重配對數據比率。我們的相對錯誤率由AISHELL-1的38.24%降至7.88%,由香港科技大學的12.00%降至1.20%。此外,將我們的預訓練模型應用到帶有CALLHOME數據集的跨語言案例中。對于CALLHOME數據集中的所有六種語言,我們的預訓練方法使模型始終優于基線。

作者:

徐波,研究員,1988年畢業于浙江大學,現任中國科學院自動化所所長 ,研究領域包括:多語言語音識別與機器翻譯、多媒體網絡內容智能處理、互動沉浸式3D互聯網等。

付費5元查看完整內容

相關內容

一種循環神經網絡,對應輸入序列。編碼器的作用是把一個不定長的輸入序列轉化成一個定長的背景向量cc。該背景向量包含了輸入序列的信息。常用的編碼器是循環神經網絡。編碼器的輸入既可以是正向傳遞,也可以是反向傳遞。

題目: Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

摘要: 無監督學習的表示仍然是機器學習中的一個開放問題,尤其是語音信號的挑戰,語音信號的特征通常是長序列和復雜的層次結構。然而,最近的一些研究表明,通過使用一種自監督的編碼器-鑒別器方法來獲得有用的語音表示是可能的。本文提出了一種改進的自監督方法,即一個神經編碼器由多個工作者共同完成不同的自監督任務。不同任務之間所需的一致意見自然會給編碼人員帶來有意義的約束,有助于發現一般的表示,并將學習淺顯表示的風險降至最低。實驗表明,該方法可以學習可遷移的、具有魯棒性的、與問題無關的特征,這些特征從語音信號中傳遞相關信息,如說話人身份、音素,甚至更高層次的特征,如情感線索。此外,大量的設計選擇使編碼器易于輸出,方便其直接使用或適應不同的問題。

付費5元查看完整內容

題目: Multiresolution and Multimodal Speech Recognition with Transformers

摘要:

本文提出了一種基于transformers的語音自動識別系統。我們特別關注場景上下文所提供的視覺信息,以集成ASR。我們在transformers的編碼器層提取音頻特征的表示,并使用一個額外的跨模態多頭注意層融合視頻特征。此外,我們為多分辨率ASR合并了一個多任務訓練標準,在那里我們訓練模型來生成字符和子單詞級別的轉錄。

在How2數據集上的實驗結果表明,與子單詞預測模型相比,多分辨率訓練可以加快約50%的收斂速度,并相對提高高達18%的單詞錯誤率(WER)性能。此外,與純音頻模型相比,集成視覺信息可以提高性能,相對提高3.76%。其成果可與最先進的聆聽、聆聽和基于拼寫的體系結構相媲美。

付費5元查看完整內容

題目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

摘要: 語言模型預先從各種來源的文本訓練,形成了今天的自然語言處理的基礎。鑒于這些廣泛覆蓋模型的成功,我們研究了將一個預訓練的模型裁剪到目標任務的領域是否仍然有幫助。我們提出了一項涉及四個領域(生物醫學和計算機科學出版物、新聞和評論)和八個分類任務的研究,表明在高資源和低資源環境下,領域內的第二階段訓練(領域自適應訓練)可提高性能。此外,適應任務的未標記數據(任務自適應預訓練)甚至可以提高域自適應預訓練后的性能。最后,我們證明使用簡單的數據選擇策略來適應擴充的任務語料庫是一種有效的替代方法,特別是在域自適應預訓練資源可能不可用的情況下。總的來說,我們一致發現,多相適應性訓練在任務效果方面提供了很大的提高。

付費5元查看完整內容

題目: Data Augmentation using Pre-trained Transformer Models

簡介:

基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練變壓器模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。

付費5元查看完整內容

題目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介紹了一種新的用于圖像-文本聯合嵌入的視覺語言預訓練模型圖像BERT。我們的模型是一個基于Transformer的模型,它以不同的模態作為輸入,對它們之間的關系進行建模。該模型同時進行了四項任務的預訓練:掩蔽語言建模(MLM)、掩蔽對象分類(MOC)、掩蔽區域特征回歸(MRFR)和圖像文本匹配(ITM)。為了進一步提高預訓練的質量,我們從Web上收集了一個大規模的弱監督圖像-文本(LAIT)數據集。我們首先在這個數據集上對模型進行預訓練,然后對概念字幕和SBU字幕進行第二階段的預訓練。實驗結果表明,多階段預訓練策略優于單階段預訓練策略。我們還在圖像檢索和文本檢索任務上對預先訓練好的ImageBERT模型進行了調優和評估,并在MSCOCO和Flickr30k數據集上獲得了最好的效果。

付費5元查看完整內容

論文題目: Meta Learning for End-to-End Low-Resource Speech Recognition

摘要: 在本文中,我們提出將元學習方法應用于低資源的自動語音識別(ASR)。我們將不同語言的ASR表示為不同的任務,并通過最近提出的模型無關元學習算法(MAML),從許多預訓練語言中學習初始化參數,以實現對未知目標語言的快速適應。我們以六種語言為訓練前任務,四種語言為目標任務,對提出的方法進行了評估。初步結果表明,MetaASR方法在訓練前不同語言組合的所有目標語言上顯著優于目前最先進的多任務訓練前方法。此外,由于MAML的模型無關性,本文也為元學習在更多語音相關應用中的應用開辟了新的研究方向。

論文作者: Jui-Yang Hsu, Yuan-Jui Chen, Hung-yi Lee

李宏毅(Hung-yi Lee)目前任臺灣大學電機工程學系和電機資訊學院的助理教授,他曾于 2012 年獲得臺灣大學博士學位,并于 2013 年赴麻省理工學院(MIT)計算機科學和人工智能實驗室(CSAIL)做訪問學者。他的研究方向主要是機器學習(深度學習)和語音識別。

付費5元查看完整內容

This paper investigates the impact of word-based RNN language models (RNN-LMs) on the performance of end-to-end automatic speech recognition (ASR). In our prior work, we have proposed a multi-level LM, in which character-based and word-based RNN-LMs are combined in hybrid CTC/attention-based ASR. Although this multi-level approach achieves significant error reduction in the Wall Street Journal (WSJ) task, two different LMs need to be trained and used for decoding, which increase the computational cost and memory usage. In this paper, we further propose a novel word-based RNN-LM, which allows us to decode with only the word-based LM, where it provides look-ahead word probabilities to predict next characters instead of the character-based LM, leading competitive accuracy with less computation compared to the multi-level LM. We demonstrate the efficacy of the word-based RNN-LMs using a larger corpus, LibriSpeech, in addition to WSJ we used in the prior work. Furthermore, we show that the proposed model achieves 5.1 %WER for WSJ Eval'92 test set when the vocabulary size is increased, which is the best WER reported for end-to-end ASR systems on this benchmark.

Attention-based encoder-decoder architectures such as Listen, Attend, and Spell (LAS), subsume the acoustic, pronunciation and language model components of a traditional automatic speech recognition (ASR) system into a single neural network. In our previous work, we have shown that such architectures are comparable to state-of-the-art ASR systems on dictation tasks, but it was not clear if such architectures would be practical for more challenging tasks such as voice search. In this work, we explore a variety of structural and optimization improvements to our LAS model which significantly improve performance. On the structural side, we show that word piece models can be used instead of graphemes. We introduce a multi-head attention architecture, which offers improvements over the commonly-used single-head attention. On the optimization side, we explore techniques such as synchronous training, scheduled sampling, label smoothing, and minimum word error rate optimization, which are all shown to improve accuracy. We present results with a unidirectional LSTM encoder for streaming recognition. On a 12,500 hour voice search task, we find that the proposed changes improve the WER of the LAS system from 9.2% to 5.6%, while the best conventional system achieve 6.7% WER. We also test both models on a dictation dataset, and our model provide 4.1% WER while the conventional system provides 5% WER.

北京阿比特科技有限公司