本課程以計算機科學的方式介紹自動語音識別,以及正確轉錄語音的問題。描述包括創建大規模語音識別系統的基本算法。所提出的算法和技術目前已在大多數研究和工業系統中得到應用。
目前在自然語言處理、計算生物學和機器學習的其他應用領域中使用的許多學習和搜索算法和技術,最初都是為解決語音識別問題而設計的。語音識別繼續給計算機科學帶來挑戰性的問題,特別是因為它產生的學習和搜索問題的規模。
因此,本課程的目的不僅僅是讓學生熟悉語音識別中使用的特定算法,而是以此為基礎來探索一般的文本和語音,以及與計算機科學其他領域相關的機器學習算法。本課程將利用幾個軟件庫,并將研究這一領域的最新研究和出版物。
目錄內容:
We live in a world where 60% of the population can speak two or more languages fluently. Members of these communities constantly switch between languages when having a conversation. As automatic speech recognition (ASR) systems are being deployed to the real-world, there is a need for practical systems that can handle multiple languages both within an utterance or across utterances. In this paper, we present an end-to-end ASR system using a transformer-transducer model architecture for code-switched speech recognition. We propose three modifications over the vanilla model in order to handle various aspects of code-switching. First, we introduce two auxiliary loss functions to handle the low-resource scenario of code-switching. Second, we propose a novel mask-based training strategy with language ID information to improve the label encoder training towards intra-sentential code-switching. Finally, we propose a multi-label/multi-audio encoder structure to leverage the vast monolingual speech corpora towards code-switching. We demonstrate the efficacy of our proposed approaches on the SEAME dataset, a public Mandarin-English code-switching corpus, achieving a mixed error rate of 18.5% and 26.3% on test_man and test_sge sets respectively.
來自臺灣國立清華大學吳尚鴻副教授主講的《大規模機器學習》教程,內容包括深度學習概述與學習理論。
本課程介紹深度學習的概念和實踐。課程由三個部分組成。在第一部分中,我們快速介紹了經典機器學習,并回顧了一些需要理解深度學習的關鍵概念。在第二部分中,我們將討論深度學習與經典機器學習的不同之處,并解釋為什么它在處理復雜問題如圖像和自然語言處理時是有效的。我們將介紹各種CNN和RNN模型。在第三部分,我們介紹了深度強化學習及其應用。
本課程也提供了編程的實驗。在整個課程中,我們將使用Python 3作為主要的編程語言。一些流行的機器學習庫,如Scikit-learn和Tensorflow 2.0將被使用并詳細解釋。
本課程也提供了編程的實驗。在整個課程中,我們將使用Python 3作為主要的編程語言。一些流行的機器學習庫,如Scikit-learn和Tensorflow 2.0將被使用并詳細解釋。
目錄內容:
以深度神經網絡為代表的“深度學習”系統正越來越多地接管所有人工智能任務,從語言理解、語音和圖像識別,到機器翻譯、規劃,甚至是游戲和自動駕駛。因此,在許多高級學術機構中,深度學習的專業知識正從深奧的要求迅速轉變為強制性的先決條件,并成為工業就業市場的一大優勢。
在本課程中,我們將學習深度神經網絡的基礎知識,以及它們在各種人工智能任務中的應用。在本課程結束時,預計學生將對這門學科非常熟悉,并能夠將深度學習應用于各種任務。他們也將被定位去理解關于這個主題的許多當前的文獻,并通過進一步的學習來擴展他們的知識。
如果你只對課程感興趣,你可以在YouTube頻道上觀看。
本課程是講座和編程作業的結合,其中我們將學習現代數據庫管理系統的內部原理。它將涵蓋在高性能事務處理系統(OLTP)和大型分析系統(OLAP)中使用的組件的核心概念和基礎。這個類將強調這些思想實現的效率和正確性。本課程適用于對系統編程感興趣的高級本科生和研究生。
這是一門關于機器學習的入門課程。機器學習是一組技術,它允許機器從數據和經驗中學習,而不是要求人類手工指定所需的行為。在過去的20年里,機器學習技術在人工智能的學術領域和科技行業中都變得越來越重要。本課程提供了一些最常用的ML算法的廣泛介紹。
課程的前半部分側重于監督學習。我們從最近鄰、決策樹和集合開始。然后介紹了參數化模型,包括線性回歸、logistic回歸和softmax回歸以及神經網絡。然后我們轉向無監督學習,特別關注概率模型,以及主成分分析和k均值。最后,我們介紹了強化學習的基礎知識。
課程內容:
//www.cs.toronto.edu/~huang/courses/csc2515_2020f/
推薦閱讀材料: Hastie, Tibshirani, and Friedman: “The Elements of Statistical Learning” Christopher Bishop: “Pattern Recognition and Machine Learning”, 2006. Kevin Murphy: “Machine Learning: a Probabilistic Perspective”, 2012. David Mackay: “Information Theory, Inference, and Learning Algorithms”, 2003. Shai Shalev-Shwartz & Shai Ben-David: “Understanding Machine Learning: From Theory to Algorithms”, 2014.
學習路線圖:
機器學習是學習數據和經驗的算法的研究。它被廣泛應用于各種應用領域,從醫學到廣告,從軍事到行人。任何需要理解數據的領域都是機器學習的潛在的消費者。《A Course in Machine Learning》屬于入門級資料,它涵蓋了現代機器學習的大多數主要方面(監督學習,無監督學習,大間隔方法,概率建模,學習理論等)。它的重點是具有嚴格基礎的廣泛應用。
機器學習是一個廣闊而迷人的領域。即使在今天,機器學習技術仍然在你的生活中占據了相當大的一部分,而且常常是在你不知情的情況下。在某種程度上,任何看似合理的人工智能方法都必須包括學習,如果不是為了別的原因,而是因為如果一個系統不能學習,那么它就很難被稱為智能系統。機器學習本身也很吸引人,因為它提出了關于學習和成功完成任務的意義的哲學問題。
同時,機器學習也是一個非常廣泛的領域,試圖涵蓋所有領域對于教學來說將是一場災難。因為它發展得如此之快,以至于任何試圖報道最新發展的書籍在上線之前都會過時。因此,本書有兩個目標。首先,要通俗地介紹一個非常深的領域是什么。第二,為讀者提供必要的技能,以便在新技術發展過程中掌握新技術。
End-to-end approaches have drawn much attention recently for significantly simplifying the construction of an automatic speech recognition (ASR) system. RNN transducer (RNN-T) is one of the popular end-to-end methods. Previous studies have shown that RNN-T is difficult to train and a very complex training process is needed for a reasonable performance. In this paper, we explore RNN-T for a Chinese large vocabulary continuous speech recognition (LVCSR) task and aim to simplify the training process while maintaining performance. First, a new strategy of learning rate decay is proposed to accelerate the model convergence. Second, we find that adding convolutional layers at the beginning of the network and using ordered data can discard the pre-training process of the encoder without loss of performance. Besides, we design experiments to find a balance among the usage of GPU memory, training circle and model performance. Finally, we achieve 16.9% character error rate (CER) on our test set which is 2% absolute improvement from a strong BLSTM CE system with language model trained on the same text corpus.