亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

盡管深度學習模型徹底改變了語音和音頻處理領域,但它們迫使為個別任務和應用場景構建專家模型。深度神經模型也會在標記數據有限的方言和語言中遇到瓶頸。

自監督表示學習方法有望提供一個單一的通用模型,使一系列任務和領域受益。他們最近在NLP和計算機視覺領域取得了成功,達到了新的性能水平,同時減少了許多下游場景所需的標簽。語音表征學習也有類似的進展,主要有三種類型:生成式、對比式和預測式。其他方法依賴于多模態數據進行訓練前的預處理,將文本或視覺數據流與語音混合。雖然自我監督語音表示仍是一個新興的研究領域,但它與聲學詞嵌入和零詞匯資源學習密切相關**。本教程將介紹自監督語音表征學習方法及其與相關研究領域的聯系**。由于目前的許多方法只將自動語音識別作為下游任務,我們將回顧最近對已學習的表示進行基準測試的努力,以擴展這種表示在語音識別之外的應用。本教程的實踐部分將提供構建和評估語音表示模型的實際指導。

付費5元查看完整內容

相關內容

自監督學習(self-supervised learning)可以被看作是機器學習的一種“理想狀態”,模型直接從無標簽數據中自行學習,無需標注數據。

視頻Transformer最新綜述論文

Transformer模型在建模長范圍交互方面取得了巨大的成功。然而,他們的規模與輸入長度的平方和缺乏歸納偏差。在處理高維視頻時,這些限制可能會進一步加劇。正確的視頻建模,可以跨度從幾秒到幾小時,需要處理長范圍交互。這使得Transformer成為解決視頻相關任務的一個很有前途的工具,但還需要一些調整。雖然之前也有研究《Transformer》在視覺任務方面的進展的工作,但沒有一篇是針對特定視頻設計的深入分析。在本綜述中,我們分析和總結了用于視頻數據建模的Transformer的主要貢獻和趨勢。具體地說,我們深入研究了視頻是如何嵌入和標記化的,發現了一個非常廣泛的使用大型CNN主干來降低維數的方法,以及主要使用補丁和幀作為標記。此外,我們研究了如何調整Transformer層以處理更長的序列,通常是通過減少單個注意力操作中的令牌數量。此外,我們還分析了用于訓練視頻Transformer的自監督損耗,迄今為止,這些損耗大多局限于對比方法。最后,我們探討了其他模態是如何與視頻整合在一起的,并對視頻Transformer最常用的基準(即動作分類)進行了性能比較,發現它們在等效FLOPs的情況下優于3D CNN,且沒有顯著的參數增加。

引言

Transformers是[1]中首次提出的最新系列模型。這些架構最初是為了替換機器翻譯設置中的循環層而設計的,現在已經很快被用于建模許多其他數據類型[2]、[3]、[4],包括圖像[5]、[6]、[7]、[8]和視頻[9]、[10]、[11]、[12]、[13]、[14]。Transformer背后的關鍵成功在于其通過自注意力(SA)操作實現的非局部令牌混合策略。非局部操作在[15]中提出,是對非局部均值操作[16]的泛化。它基于所有元素之間的交互來演化輸入表示。這些相互作用是通過一對相似函數來調節的,該函數衡量每個元素對其他元素的貢獻。與全連接(FC)層不同,非局部操作不需要權重:輸入之間的關系不需要學習,而是完全依賴于輸入表示。盡管它們取得了成功,但SA的本質導致transformer對序列長度T的縮放效果很差。特別是,由于對親和計算,SA的復雜度為O(t2)。此外,transformer沒有任何歸納偏差,這可能是一個理想的特性,但它也會阻礙學習,除非[7]使用大量數據。

最近Transformer工作的激增,讓跟蹤最新的進展和趨勢變得復雜起來。最近的調研試圖通過分析和總結《Transformer》的總體架構設計選擇來填補這一空白,主要集中在NLP[18],或高效的設計,如[19]或[20]。雖然一些人已經廣泛地調研了視覺的進展,例如[21],[22],[23],[24]和Vision-Language transformer[25],但他們沒有對視頻模型進行深入的分析。[26]的調研集中于視頻和語言Transformer的預訓練,但是他們討論了一些架構選擇,并沒有涵蓋一般的視頻趨勢。視頻Transformer (vt)可以找到與其他Transformer設計的共同點(特別是在圖像領域),但視頻固有的大維度將加劇Transformer的局限性,需要特殊處理。額外的時間維度還需要不同的嵌入、標記化策略和架構。最后,視頻媒體通常與其他模態配對(例如,它很自然地伴隨著音頻),這使得它特別容易用于多模態設置。

視頻。本工作的重點是全面分析用于視頻數據建模的Transformer架構的最新進展。請注意,在Transformer層建模之前,使用傳統(非Transformer)架構將視頻映射到其他結構化形式(例如,接頭[27]或語音[28])的工作不在我們的范圍之內。我們對使用(時間)視覺特征作為SA層輸入的模型特別感興趣。我們分析了文獻采用這些模型的方式,使之能夠處理視頻的內在復雜性以及其他可選模態。然而,我們確實考慮在使用Transformer層之前利用某些CNN架構將視頻數據嵌入到低維空間的工作(參見第3.1.1節)。

Transformers。與基于位置的體系架構(如CNN)不同,Transformer在每一層對數據的全局交互進行建模。然而,有一個廣泛的基于全局的架構。我們關注的是將SA以非局部運算[15]的內嵌高斯變量形式,加上額外的歸一化因子的工作(見式(1))。已有文獻將其他形式的注意力視為SA[29],[30],[31],[32],但這些文獻通常使用FC層而不是點積來計算注意力權重。我們認為這些超出了本次調研的范圍。此外,與Transformers并行的研究方向還采用SA或等效的內嵌高斯版本的非局部算子來處理計算機視覺任務。例如,圖注意力網絡,如[33]和[34],或關系網絡,如[35]和[36]。類似地,我們也發現它們被用于增強CNN主干,通過添加中間層[15]、[37]、[38]、[39],或者通過增強輸出表示[40]、[41]、[42]。我們很高興地看到,在這么多不同的研究方向都采用了非局部操作。不過,在本工作中,我們只關注Transformer體系結構,并將非本地操作集成到不同體系結構中的各種方式留給未來的工作進行比較。

視頻Transformers(vt)的通用框架。在(a)中,我們展示了一個普通的Transformer Encoder1;在(b)中,我們展示了不同的標記化和嵌入策略,具體見3.1節;在(c)中,我們展示了一種常見的分層Transformer設計,它分解了視頻片段的空間和時間交互。這些和其他視頻設計在第3.2節中有描述。

視頻Transformer

視頻數據的高維性以及上述《Transformers》的局限性需要進行多種調整,以構建成功的視頻《Transformers》。在這里,我們對VTs進行一個全面的概述:在3.1節中,我們探討了在將視頻輸入Transformer之前如何處理它們,并探討了降維和標記化替代方案的主干。然后,在第3.2節中,我們詳細介紹了高效Transformer設計的建議,比如在視頻中顯式地利用時間結構。接下來,我們在第3.3節分析了視頻如何與其他模態整合。最后,我們概述VT訓練策略和損失,特別是在第3.4節中的自監督方法。

付費5元查看完整內容

第21屆國際語音通訊會議(Interspeech 2020)在繼2000年在北京成功舉辦后第二次回歸中國。本次大會是由中國科學院自動化所、香港中文大學、清華大學和上海交通大學共同主辦,大會主席由香港中文大學的蒙美玲教授,中國科學院自動化研究所徐波研究員和清華大學的鄭方教授聯合擔任。受疫情影響,原計劃將于10月25日~10月29日在上海召開的Interspeech 2020大會,將轉為全線上會議。屆時語音相關領域海內外知名專家學者將共聚一堂,交流相關研究領域的最新成果和發展趨勢。

Meta Learning and Its Applications to Human Language Processing

基于深度學習的人類語言技術(HLT),如自動語音識別、意圖和槽位識別或對話管理,已成為近年來的研究主流,并顯著優于傳統方法。然而,深度學習模型因對數據和計算的渴求而臭名昭著。這些缺點限制了此類模型在部署到不同語言、領域或風格時的應用,因為從頭收集標注數據和訓練模型的成本很高,而且人類語言的長尾特性使挑戰變得更大。

一個典型的機器學習算法,如深度學習,可以被認為是一個復雜的函數。該函數以訓練數據為輸入,以訓練模型為輸出。今天的學習算法大多是人為設計的。這些算法通常是針對某一特定任務而設計的,需要大量帶標記的訓練數據進行學習。一種可能克服這些挑戰的方法是元學習,也被稱為“學習的學習”,旨在學習學習算法,包括更好的參數初始化、優化策略、網絡架構、距離度量等。最近,在幾個HLT領域,元學習已經顯示出高潛力,允許更快的微調,收斂到更好的性能,并實現較少樣本學習。本教程的目的是介紹元學習方法,并回顧將此技術應用于HLT的工作。

付費5元查看完整內容

生成式模型是以圖模型和概率編程語言中的概率推理的重要范式。神經網絡對這些模型的參數化和基于梯度的隨機優化技術的進步使得高維數據的可擴展建模成為可能。

本教程的前半部分將全面回顧深度生成模型的主要家族,包括生成對抗網絡、變分自編碼器、標準化流和自回歸模型。對于每一個模型,我們將討論概率公式,學習算法,以及與其他模型的關系。本教程的后半部分將演示在科學發現中使用深度生成模型的方法,例如材料和藥物發現、壓縮感知等等。最后,我們將討論該領域目前的挑戰和未來研究的前景。

//dl4sci-school.lbl.gov/agenda

付費5元查看完整內容

【導讀】Yann Lecun在紐約大學開設的2020春季《深度學習》課程,干貨滿滿。最新的一期是來自Facebook AI的研究科學家Ishan Misra講述了計算機視覺中的自監督學習最新進展,108頁ppt,很不錯報告。

在過去的十年中,許多不同的計算機視覺問題的主要成功方法之一是通過對ImageNet分類進行監督學習來學習視覺表示。并且,使用這些學習的表示,或學習的模型權值作為其他計算機視覺任務的初始化,在這些任務中可能沒有大量的標記數據。

但是,為ImageNet大小的數據集獲取注釋是非常耗時和昂貴的。例如:ImageNet標記1400萬張圖片需要大約22年的人類時間。

因此,社區開始尋找替代的標記過程,如社交媒體圖像的hashtags、GPS定位或自我監督方法,其中標簽是數據樣本本身的屬性。

什么是自監督學習?

定義自我監督學習的兩種方式:

  • 基礎監督學習的定義,即網絡遵循監督學習,標簽以半自動化的方式獲得,不需要人工輸入。

  • 預測問題,其中一部分數據是隱藏的,其余部分是可見的。因此,其目的要么是預測隱藏數據,要么是預測隱藏數據的某些性質。

自監督學習與監督學習和非監督學習的區別:

  • 監督學習任務有預先定義的(通常是人為提供的)標簽,

  • 無監督學習只有數據樣本,沒有任何監督、標記或正確的輸出。

  • 自監督學習從給定數據樣本的共現形式或數據樣本本身的共現部分派生出其標簽。

自然語言處理中的自監督學習

Word2Vec

  • 給定一個輸入句子,該任務涉及從該句子中預測一個缺失的單詞,為了構建文本前的任務,該任務特意省略了該單詞。

  • 因此,這組標簽變成了詞匯表中所有可能的單詞,而正確的標簽是句子中省略的單詞。

  • 因此,可以使用常規的基于梯度的方法對網絡進行訓練,以學習單詞級表示。

為什么自監督學習

自監督學習通過觀察數據的不同部分如何交互來實現數據的學習表示。從而減少了對大量帶注釋數據的需求。此外,可以利用可能與單個數據樣本相關聯的多個模式。

計算機視覺中的自我監督學習

通常,使用自監督學習的計算機視覺管道涉及執行兩個任務,一個前置任務和一個下游任務。

  • 下游任務可以是任何類似分類或檢測任務的任務,但是沒有足夠的帶注釋的數據樣本。

  • Pre-text task是為學習視覺表象而解決的自監督學習任務,其目的是利用所學習的表象,或下游任務在過程中獲得的模型權值。

發展Pre-text任務

  • 針對計算機視覺問題的文本前任務可以使用圖像、視頻或視頻和聲音來開發。

  • 在每個pre-text任務中,都有部分可見和部分隱藏的數據,而任務則是預測隱藏的數據或隱藏數據的某些屬性。

下載鏈接: 鏈接: //pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取碼: ek7i

付費5元查看完整內容

內容簡介:

生成對抗網絡(GAN)是訓練模型的新思想,生成器和鑒別器相互對抗以提高生成質量。最近,GAN在圖像生成方面取得了驚人的成果,并在此基礎上迸發發了大量新的思想,技術和應用。雖然只有少數成功的案例,但GAN在文本和語音領域具有很大的潛力,以克服傳統方法的局限性。

本教程分為三個部分。在第一部分中,我們將介紹生成對抗網絡(GAN)并提供有關此技術的全面介紹。在第二部分中,我們將重點介紹GAN在語音信號處理中的應用,包括語音增強,語音轉換,語音合成,以及域對抗訓練在說話人識別和唇讀等方面的應用。在第三部分中,我們將描述GAN生成句子的主要挑戰,并回顧一系列應對挑戰的方法。同時,我們將提出使用GAN實現文本樣式轉換,機器翻譯和抽象摘要的算法,而無需配對數據。

講者簡介: 李宏毅教授分別于2010年和2012年在國立臺灣大學獲得了碩士與博士學位。2012年9月至2013年8月,他是中國科學院信息技術創新研究中心的博士后。2013年9月至2014年7月,他是麻省理工學院計算機科學與人工智能實驗室(CSAIL)語言系統組的訪問科學家。現任國立臺灣大學電氣工程系助理教授,并任職于該大學計算機科學與信息工程系。他的研究重點是機器學習(尤其是深度學習),口語理解和語音識別。

曹昱副研究員分別于1999年和2001年獲得臺灣大學電子工程學士學位和碩士學位。他于2008年獲得佐治亞理工學院電氣與計算機工程博士學位. 2009至2011年,曹博士是日本國家信息與通信技術研究所(NICT)的研究員,從事自動語音研究和產品開發,識別多語言語音到語音翻譯。目前,他是臺灣臺北中央研究院信息技術創新研究中心(CITI)的副研究員。他于2017年獲得了中央研究院職業發展獎。曹博士的研究興趣包括語音和說話人識別,聲學和語言建模,音頻編碼和生物信號處理。

目錄: GAN的基本思想及一些基礎的理論知識

  • GAN的三種類別
  • GAN的基本理論
  • 一些有用的技巧
  • 如何評估GAN
  • 與強化學習的關系

GAN在語音方面的應用

  • 語音信號生成
  • 語音信號識別
  • 結論

GAN在自然語言處理方面的應用

  • GAN序列生成
  • 無監督條件序列生成
付費5元查看完整內容
北京阿比特科技有限公司