題目: Self-supervised learning for audio-visual speaker diarization
摘要:
主講人二值化是一種尋找特定主講人語音片段的技術,在視頻會議、人機交互系統等以人為中心的應用中得到了廣泛的應用。在這篇論文中,我們提出一種自監督的音視頻同步學習方法來解決說話人的二值化問題,而不需要大量的標注工作。我們通過引入兩個新的損失函數:動態三重損失和多項式損失來改進前面的方法。我們在一個真實的人機交互系統上進行了測試,結果表明我們的最佳模型獲得了顯著的+8%的f1分數,并降低了二值化的錯誤率。最后,我們介紹了一種新的大規模的音視頻語料庫,以填補漢語音視頻數據集的空白。
題目: Online Deep Clustering for Unsupervised Representation Learning
摘要:
聯合聚類和特征學習方法在無監督表示學習中表現出了顯著的效果。但是,特征聚類和網絡參數更新訓練計劃的交替導致視覺表征學習的不穩定。為了克服這個挑戰,我們提出在線深度集群(ODC),它可以同時執行集群和網絡更新,而不是交替進行。關鍵見解是,聚類中心應該穩步發展,以保持分類器的穩定更新。具體來說,設計和維護了兩個動態內存模塊,即樣本記憶用于存儲樣本標簽和特征,中心記憶用于中心進化。我們將全局聚類分解為穩定的內存更新和成批的標簽重新分配。該過程被集成到網絡更新迭代中。通過這種方式,標簽和網絡齊頭并進,而不是交替發展。大量的實驗表明,ODC能夠穩定訓練過程,有效地提高訓練性能。
僅憑對話就能猜測人類行為嗎?在這項工作中,我們調查了電影中的言語和動作之間的聯系。我們注意到,電影劇本描述動作,也包含角色的語言,因此可以用來學習這種相關性,而不需要額外的監督。我們在一千多部電影劇本中訓練一個基于BERT的語音動作分類器,從轉錄的語音片段中預測動作標簽。然后,我們將該模型應用于一個大型未標記電影語料庫的語音片段(來自288K電影的1.88億個語音片段)。利用該模型的預測,我們得到了800K以上視頻片段的弱動作標簽。通過對這些視頻剪輯的訓練,我們在標準動作識別基準上展示了優越的動作識別性能,而無需使用一個手動標記的動作示例。
人臉識別系統在實際應用中往往會遇到一些不可見的領域,由于其泛化能力較差而導致性能不佳。例如,一個訓練有素的webface數據模型不能處理監視場景中的ID和Spot任務。在本文中,我們的目標是學習一個不需要任何模型更新就可以直接處理新的未知域的廣義模型。為此,我們提出了一種新的基于元學習的人臉識別方法——元人臉識別(Meta face recognition, MFR)。MFR以元優化目標綜合源/目標域移位,這要求模型不僅要在綜合的源域上學習有效的表示,還要在綜合的目標域上學習有效的表示。具體來說,我們通過域級抽樣策略構建域移位批次,并通過優化多域分布得到合成源/目標域上的反向傳播梯度/元梯度。進一步結合梯度和元梯度對模型進行更新,提高了模型的泛化能力。此外,我們提出了兩種評估廣義人臉識別的基準。在我們的基準上進行的實驗驗證了我們的方法與幾個基線和其他技術水平的比較的普遍性。提出的基準將在//github.com/cleardusk/MFR上提供。
主題: Learning Video Object Segmentation from Unlabeled Videos
摘要:
我們提出了一種新的視頻對象分割方法(VOS),解決了從未標記的視頻中學習對象模式的問題,而現有的方法大多依賴于大量的帶注釋的數據。我們引入了一個統一的無監督/弱監督學習框架,稱為MuG,它全面地捕捉了VOS在多個粒度上的內在特性。我們的方法可以幫助提高對VOS中可視模式的理解,并顯著減少注釋負擔。經過精心設計的體系結構和強大的表示學習能力,我們的學習模型可以應用于各種VOS設置,包括對象級零鏡頭VOS、實例級零鏡頭VOS和單鏡頭VOS。實驗表明,在這些設置下,有良好的性能,以及利用無標記數據進一步提高分割精度的潛力。
主題: Visual Grounding in Video for Unsupervised Word Translation
摘要:
地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基礎來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它魯棒性更強,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。
題目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
摘要: 為了在計算機視覺應用中從圖像或視頻中獲得更好的視覺特征學習性能,通常需要大規模的標記數據來訓練深度神經網絡。為了避免大規模數據集收集和標注的大量開銷,作為無監督學習方法的一個子集,提出了一種自監督學習方法,在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般特征。本文對基于深度學習的自監督一般視覺特征學習方法進行了廣泛的綜述。首先,描述了該領域的動機、通用管道和術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,然后介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于基準數據集的定量性能比較方法在圖像和視頻特征學習中的應用。最后,對本文的研究進行了總結,并提出了一套具有發展前景的自監督視覺特征學習方法。
題目: Wavesplit: End-to-End Speech Separation by Speaker Clustering
摘要:
本文介紹了一種端到端的語音分離系統Wavesplit。從混合語音的單一記錄中,該模型推斷和聚集了每個說話者的表征,然后根據推斷的表征估計每個源信號。該模型根據原始波形進行訓練,共同完成這兩項任務。該模型通過聚類的方法推導出一組說話人表示,解決了語音分離的基本排列問題。此外,與以前的方法相比,序列范圍的揚聲器表示提供了更健壯的長而有挑戰性的序列分離。我們證明Wavesplit在2個或3個揚聲器(WSJ0-2mix、WSJ0-3mix)的混合物上,以及在有噪聲(WHAM!)和混響 (WHAMR!)的情況下,都比以前的技術水平要好。此外,我們通過引入在線數據增強來進一步改進我們的模型。
題目: MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION
摘要: 盡管人們對無監督學習越來越感興趣,但從無標簽的音頻中提取有意義的知識仍然是一個公開的挑戰。為了在這個方向上邁出一步,我們最近提出了一個問題不可知的語音編碼器(PASE),它結合了一個卷積編碼器和多個神經網絡,稱為workers,其任務是解決自監督的問題,不需要手動注釋的真值。PASE證明能夠捕捉相關的語音信息,包括說話者的聲紋和音素。本文提出了一種改進的PASE+,用于在噪聲和混響環境下進行魯棒語音識別。為此,我們使用了一個在線語音失真模塊,它用各種隨機干擾來污染輸入信號。然后,我們提出一種改進的編碼器,更好地學習短期和長期語音動態與遞歸網絡和卷積網絡的有效結合。最后,我們完善了用于自監督的workers,以鼓勵更好的合作。
TIMIT、DIRHA和CHiME-5的結果表明,PASE+ sig-明顯優于之前版本的PASE以及常見的聲學特性。有趣的是,PASE+學習適用于高度不匹配的聲學條件的可轉移特征。
簡介: 論文中提出了一種新穎的自我監督方法,稱為視頻結束程序(VCP),以學習豐富的時空表示形式。 VCP首先通過保留視頻剪輯來生成“空白”,然后通過對保留的剪輯進行時空操作來創建“選項”。最后,它用“選項”填補空白,并通過預測應用于剪輯的操作類別來學習表示形式。VCP可以充當自我監督學習中的代理任務或目標任務。Asaproxy任務將豐富的自我監督表示轉換為視頻剪輯操作(選項),從而增強了學習的靈活性和簡化性。作為目標任務,它可以以統一且可解釋的方式評估學習的表示模型。使用VCP,可以訓練時空表示模型(3D-CNN),并應用這種模型進行動作識別和視頻檢索任務。
摘要: 現有的不流利檢測方法大多嚴重依賴人工標注的數據,而在實踐中獲取這些數據的成本很高。為了解決訓練數據的瓶頸,我們研究了將多個自監督任務相結合的方法。在監督任務中,無需人工標記就可以收集數據。首先,我們通過隨機添加或刪除未標記新聞數據中的單詞來構建大規模的偽訓練數據,并提出了兩個自我監督的訓練前任務:(i)標記任務來檢測添加的噪聲單詞。(ii)對句子進行分類,區分原句和語法錯誤句子。然后我們將這兩個任務結合起來共同訓練一個網絡。然后使用人工標注的不流利檢測訓練數據對訓練前的網絡進行微調。在常用的英語交換機測試集上的實驗結果表明,與以前的系統(使用完整數據集進行訓練)相比,我們的方法只需使用不到1%(1000個句子)的訓練數據,就可以獲得具有競爭力的性能。我們的方法在全數據集上進行訓練,明顯優于以前的方法,在英語Switchboard上將錯誤率降低了21%。