第21屆國際語音通訊會議(Interspeech 2020)在繼2000年在北京成功舉辦后第二次回歸中國。本次大會是由中國科學院自動化所、香港中文大學、清華大學和上海交通大學共同主辦,大會主席由香港中文大學的蒙美玲教授,中國科學院自動化研究所徐波研究員和清華大學的鄭方教授聯合擔任。受疫情影響,原計劃將于10月25日~10月29日在上海召開的Interspeech 2020大會,將轉為全線上會議。屆時語音相關領域海內外知名專家學者將共聚一堂,交流相關研究領域的最新成果和發展趨勢。
Meta Learning and Its Applications to Human Language Processing
基于深度學習的人類語言技術(HLT),如自動語音識別、意圖和槽位識別或對話管理,已成為近年來的研究主流,并顯著優于傳統方法。然而,深度學習模型因對數據和計算的渴求而臭名昭著。這些缺點限制了此類模型在部署到不同語言、領域或風格時的應用,因為從頭收集標注數據和訓練模型的成本很高,而且人類語言的長尾特性使挑戰變得更大。
一個典型的機器學習算法,如深度學習,可以被認為是一個復雜的函數。該函數以訓練數據為輸入,以訓練模型為輸出。今天的學習算法大多是人為設計的。這些算法通常是針對某一特定任務而設計的,需要大量帶標記的訓練數據進行學習。一種可能克服這些挑戰的方法是元學習,也被稱為“學習的學習”,旨在學習學習算法,包括更好的參數初始化、優化策略、網絡架構、距離度量等。最近,在幾個HLT領域,元學習已經顯示出高潛力,允許更快的微調,收斂到更好的性能,并實現較少樣本學習。本教程的目的是介紹元學習方法,并回顧將此技術應用于HLT的工作。
靈活性和速度是深度學習框架的關鍵特性,允許快速地從研究想法過渡到原型和生產代碼。我們概述了如何為涵蓋各種模型和應用程序的序列處理實現統一框架。我們將以工具包RETURNN為例討論這種實現,它易于應用和用戶理解,靈活地允許任何類型的架構或方法,同時也非常高效。此外,對序列分類的不同機器學習工具包的性質進行了比較。將展示使用這些特定實現的靈活性,以描述最近最先進的自動語音識別和機器翻譯模型的設置。
//www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=372&id=294
ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域國際頂級學術會議,今年的KDD大會將于8月23日至27日在線上召開。賓夕法尼亞州立大學ZhenhuiLi, Huaxiu Yao, Fenglong Ma等做了關于小數據學習《Learning with Small Data》教程,116頁ppt涵蓋遷移學習與元學習等最新課題,是非常好的學習材料!
摘要:
在大數據時代,數據驅動的方法在圖像識別、交通信號控制、假新聞檢測等各種應用中越來越受歡迎。這些數據驅動方法的優越性能依賴于大規模的標記訓練數據,而實際應用中可能無法獲得這些數據,即“小(標記)數據”挑戰。例如,預測一個城市的突發事件,發現新出現的假新聞,以及預測罕見疾病的病情發展。在大多數情況下,人們最關心的是這些小數據案例,因此提高帶有小標記數據的機器學習算法的學習效率一直是一個熱門的研究課題。在本教程中,我們將回顧使用小數據進行學習的最新的機器學習技術。這些技術被組織從兩個方面: (1) 提供一個全面的回顧最近的研究關于知識的泛化,遷移,和共享,其中遷移學習,多任務學習,元學習被討論。特別是元學習,提高了模型的泛化能力,近年來已被證明是一種有效的方法; (2) 引入前沿技術,著重于將領域知識融入機器學習模型中。與基于模型的知識遷移技術不同,在現實應用中,領域知識(如物理定律)為我們提供了一個處理小數據挑戰的新角度。具體地說,領域知識可以用來優化學習策略和/或指導模型設計。在數據挖掘領域,我們認為小數據學習是一個具有重要社會影響的熱門話題,將吸引學術界和產業界的研究者和從業者。
目錄:
地址:
小樣本學習是當前研究關注的熱點。這篇論文總結了2016年到2020年的小樣本元學習文章,劃分為四類:基于數據增強; 基于度量學習,基于元優化; 和基于語義的。值得查看!
摘要:
在圖像識別和圖像分類等方面,深度神經網絡的表現已經超過了人類。然而,隨著各種新類別的出現,如何從有限的樣本中不斷擴大此類網絡的學習能力,仍然是一個挑戰。像元學習和/或小樣本學習這樣的技術表現出了良好的效果,他們可以根據先驗知識學習或歸納到一個新的類別/任務。在本文中,我們研究了計算機視覺領域中現有的小樣本元學習技術的方法和評價指標。我們為這些技術提供了一個分類法,并將它們分類為數據增強、嵌入、優化和基于語義的學習,用于小樣本、單樣本和零樣本設置。然后我們描述在每個類別中所做的重要工作,并討論他們解決從少數樣本中學習的困境的方法。最后,我們在常用的基準測試數據集Omniglot和MiniImagenet上比較了這些技術,并討論了提高這些技術性能的未來方向,從而達到超越人類的最終目標。
地址: //www.zhuanzhi.ai/paper/8d29a5f14fcd0cc9a1aa508d072fb328
概述:
基于人工智能(AI)的系統正在成為人類生活的重要組成部分,無論是個人生活還是專業生活。我們周圍都是基于人工智能的機器和應用程序,它們將使我們的生活變得更容易。例如,自動郵件過濾(垃圾郵件檢測),購物網站推薦,智能手機中的社交網絡等[1,2,3,4]。這一令人印象深刻的進展之所以成為可能,是因為機器或深度學習模型[5]取得了突破性的成功。機器或深度學習占據了AI領域的很大一部分。深度學習模型是建立在多層感知器與應用基于梯度的優化技術的能力。深度學習模型最常見的兩個應用是:計算機視覺(CV),其目標是教會機器如何像人類一樣看和感知事物;自然語言處理(NLP)和自然語言理解(NLU),它們的目標是分析和理解大量的自然語言數據。這些深度學習模型在圖像識別[6,7,8]、語音識別[9,10,11,12,13]、自然語言處理與理解[14,15,16,17,18]、視頻分析[19,20,21,22,23]、網絡安全[24,25,26,27,28,29,30]等領域都取得了巨大的成功。機器和/或深度學習最常見的方法是監督學習,其中針對特定應用程序的大量數據樣本與它們各自的標簽一起被收集并形成一個數據集。該數據集分為三個部分: 訓練、驗證和測試。在訓練階段,將訓練集和驗證集的數據及其各自的標簽輸入模型,通過反向傳播和優化,將模型歸納為一個假設。在測試階段,將測試數據輸入模型,根據導出的假設,模型預測測試數據樣本的輸出類別。
由于計算機和現代系統的強大能力[31,32],處理大量數據的能力已經非常出色。隨著各種算法和模型的進步,深度學習已經能夠趕上人類,在某些情況下甚至超過人類。AlphaGo[33]是一個基于人工智能的agent,在沒有任何人類指導的情況下訓練,能夠擊敗世界圍棋冠軍。圍棋是一種古老的棋盤游戲,被認為比國際象棋[34]復雜10倍;在另一個復雜的多人戰略游戲《DOTA》中,AI-agent打敗了《DOTA[35]》的人類玩家;對于圖像識別和分類的任務,ResNet[6]和Inception[36,37,38]等模型能夠在流行的ImageNet數據集上取得比人類更好的性能。ImageNet數據集包括超過1400萬張圖像,超過1000個類別[39]。
人工智能的最終目標之一是在任何給定的任務中趕上或超過人類。為了實現這一目標,必須盡量減少對大型平衡標記數據集的依賴。當前的模型在處理帶有大量標記數據的任務時取得了成功的結果,但是對于其他帶有標記數據很少的任務(只有少數樣本),各自模型的性能顯著下降。對于任何特定任務,期望大型平衡數據集是不現實的,因為由于各種類別的性質,幾乎不可能跟上產生的標簽數據。此外,生成標記數據集需要時間、人力等資源,而且在經濟上可能非常昂貴。另一方面,人類可以快速地學習新的類或類,比如給一張奇怪動物的照片,它可以很容易地從一張由各種動物組成的照片中識別出動物。人類相對于機器的另一個優勢是能夠動態地學習新的概念或類,而機器必須經過昂貴的離線培訓和再培訓整個模型來學習新類,前提是要有標簽數據可用性。研究人員和開發人員的動機是彌合人類和機器之間的鴻溝。作為這個問題的一個潛在解決方案,我們已經看到元學習[40,41,42,43,44,45,46,47,48,49,50]、小樣本學習[51,52,53,54]、低資源學習[55,56,57,58]、零樣本學習[59,60,61,62,63,63,64,64,65]等領域的工作在不斷增加,這些領域的目標是使模型更好地推廣到包含少量標記樣本的新任務。
什么是小樣本元學習?
在few-shot, low-shot, n-shot learning (n一般在1 - 5之間)中,其基本思想是用大量的數據樣本對模型進行多類的訓練,在測試過程中,模型會給定一個新的類別(也稱為新集合),每個類別都有多個數據樣本,一般類別數限制為5個。在元學習中,目標是泛化或學習學習過程,其中模型針對特定任務進行訓練,不同分類器的函數用于新任務集。目標是找到最佳的超參數和模型權值,使模型能夠輕松適應新任務而不過度擬合新任務。在元學習中,有兩類優化同時運行: 一類是學習新的任務; 另一個是訓練學習器。近年來,小樣本學習和元學習技術引起了人們極大的興趣。
元學習領域的早期研究工作是Yoshua和Samy Bengio[67]以及Fei-Fei Li在less -shot learning[68]中完成的。度量學習是使用的較老的技術之一,其目標是從嵌入空間中學習。將圖像轉換為嵌入向量,特定類別的圖像聚在一起,而不同類別的圖像聚在一起比較遠。另一種流行的方法是數據增強,從而在有限的可用樣本中產生更多的樣本。目前,基于語義的方法被廣泛地研究,分類僅僅基于類別的名稱及其屬性。這種基于語義的方法是為了解決零樣本學習應用的啟發。
遷移學習與自監督學習
遷移學習的總體目標是從一組任務中學習知識或經驗,并將其遷移到類似領域的任務中去[95]。用于訓練模型獲取知識的任務有大量的標記樣本,而遷移任務的標記數據相對較少(也稱為微調),這不足以使模型訓練和收斂到特定的任務。遷移學習技術的表現依賴于兩項任務之間的相關性。在執行遷移學習時,分類層被訓練用于新的任務,而模型中先前層的權值保持不變[96]。對于每一個新的任務,在我們進行遷移學習的地方,學習速率的選擇和要凍結的層數都必須手工決定。與此相反,元學習技術可以相當迅速地自動適應新的任務。
自監督學習的研究近年來得到了廣泛的關注[97,98,99]。自監督學習(SSL)技術的訓練基于兩個步驟:一是在一個預定義代理任務上進行訓練,在大量的未標記數據樣本上進行訓練;第二,學習到的模型參數用于訓練或微調主要下游任務的模型。元學習或小樣本學習技術背后的理念與自監督學習非常相似,自監督學習是利用先前的知識,識別或微調一個新的任務。研究表明,自監督學習可以與小樣本學習一起使用,以提高模型對新類別的表現[100,101]。
方法體系組織:
元學習、小樣本學習、低資源學習、單樣本學習、零樣本學習等技術的主要目標是通過基于先驗知識或經驗的迭代訓練,使深度學習模型從少量樣本中學習能泛化到新類別。先驗知識是在包含大量樣本的帶標簽數據集上訓練樣本,然后利用這些知識在有限樣本下識別新的任務而獲得的知識。因此,在本文中,我們將所有這些技術結合在了小樣本體系下。由于這些技術沒有預定義的分類,我們將這些方法分為四大類: 基于數據增強; 基于度量學習,基于元優化; 和基于語義的(如圖1所示)。基于數據增強的技術非常流行,其思想是通過擴充最小可用樣本和生成更多樣化的樣本來訓練模型來擴展先驗知識。在基于嵌入的技術中,數據樣本被轉換為另一個低級維,然后根據這些嵌入之間的距離進行分類。在基于優化的技術中,元優化器用于在初始訓練期間更好地泛化模型,從而可以更好地預測新任務。基于語義的技術是將數據的語義與模型的先驗知識一起用于學習或優化新的類別。
內容簡介:
生成對抗網絡(GAN)是訓練模型的新思想,生成器和鑒別器相互對抗以提高生成質量。最近,GAN在圖像生成方面取得了驚人的成果,并在此基礎上迸發發了大量新的思想,技術和應用。雖然只有少數成功的案例,但GAN在文本和語音領域具有很大的潛力,以克服傳統方法的局限性。
本教程分為三個部分。在第一部分中,我們將介紹生成對抗網絡(GAN)并提供有關此技術的全面介紹。在第二部分中,我們將重點介紹GAN在語音信號處理中的應用,包括語音增強,語音轉換,語音合成,以及域對抗訓練在說話人識別和唇讀等方面的應用。在第三部分中,我們將描述GAN生成句子的主要挑戰,并回顧一系列應對挑戰的方法。同時,我們將提出使用GAN實現文本樣式轉換,機器翻譯和抽象摘要的算法,而無需配對數據。
講者簡介: 李宏毅教授分別于2010年和2012年在國立臺灣大學獲得了碩士與博士學位。2012年9月至2013年8月,他是中國科學院信息技術創新研究中心的博士后。2013年9月至2014年7月,他是麻省理工學院計算機科學與人工智能實驗室(CSAIL)語言系統組的訪問科學家。現任國立臺灣大學電氣工程系助理教授,并任職于該大學計算機科學與信息工程系。他的研究重點是機器學習(尤其是深度學習),口語理解和語音識別。
曹昱副研究員分別于1999年和2001年獲得臺灣大學電子工程學士學位和碩士學位。他于2008年獲得佐治亞理工學院電氣與計算機工程博士學位. 2009至2011年,曹博士是日本國家信息與通信技術研究所(NICT)的研究員,從事自動語音研究和產品開發,識別多語言語音到語音翻譯。目前,他是臺灣臺北中央研究院信息技術創新研究中心(CITI)的副研究員。他于2017年獲得了中央研究院職業發展獎。曹博士的研究興趣包括語音和說話人識別,聲學和語言建模,音頻編碼和生物信號處理。
目錄: GAN的基本思想及一些基礎的理論知識
GAN在語音方面的應用
GAN在自然語言處理方面的應用
論文題目: Meta Learning for End-to-End Low-Resource Speech Recognition
摘要: 在本文中,我們提出將元學習方法應用于低資源的自動語音識別(ASR)。我們將不同語言的ASR表示為不同的任務,并通過最近提出的模型無關元學習算法(MAML),從許多預訓練語言中學習初始化參數,以實現對未知目標語言的快速適應。我們以六種語言為訓練前任務,四種語言為目標任務,對提出的方法進行了評估。初步結果表明,MetaASR方法在訓練前不同語言組合的所有目標語言上顯著優于目前最先進的多任務訓練前方法。此外,由于MAML的模型無關性,本文也為元學習在更多語音相關應用中的應用開辟了新的研究方向。
論文作者: Jui-Yang Hsu, Yuan-Jui Chen, Hung-yi Lee
李宏毅(Hung-yi Lee)目前任臺灣大學電機工程學系和電機資訊學院的助理教授,他曾于 2012 年獲得臺灣大學博士學位,并于 2013 年赴麻省理工學院(MIT)計算機科學和人工智能實驗室(CSAIL)做訪問學者。他的研究方向主要是機器學習(深度學習)和語音識別。
臺大教授李宏毅的機器學習課程廣受歡迎與好評。李老師的授課風格風趣幽默,通俗易懂,其課程內容中不僅有機器學習、深度學習的基礎知識,也會介紹 ML 領域里的各種最新技術。最新的機器學習課程,李老師講述了終身學習與可解釋ML、異常檢測、對抗攻擊,值得觀看學習。
課程資料鏈接:
//speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html
課程視頻(Bilibili):
YouTube 鏈接: