亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度學習在多個領域都取得了突破性進展,從圖像、語言和視頻理解等核心機器學習任務,到醫療、自動駕駛和農業等現實行業。它的成功是通過為神經網絡提供人工監督,從大型標記數據集(如ImageNet)自動學習分層數據表示。然而,獲取大規模的標簽數據通常是一個非常耗時和昂貴的過程。為應對這一挑戰,本文挑戰多模態視頻數據的自監督極限。視頻數據通常包含多種形式,如圖像、音頻、轉錄語音和可免費獲得的文本標題。這些模態通常共享冗余語義信息,因此可以作為偽標簽來監督彼此進行表示學習,而不需要使用人工標簽。在不依賴標簽數據的情況下,我們能夠在從互聯網收集的數百萬個視頻剪輯的非常大規模的視頻數據上訓練這些深度表示。通過在各種領域建立新的最先進的性能,展示了多模態自監督的可擴展性好處:視頻動作識別、文本到視頻檢索、文本到圖像檢索和音頻分類。我們還引入了數據轉換、模型架構和損失函數方面的其他技術創新,以使用多模態自監督進一步改進對這些深度視頻表示的學習。本文的第二個貢獻是改進深度表示的可解釋性的新工具,因為要破譯這些深度表示中編碼的關鍵特征是非常困難的。對于圖像,我們展示了如何使用攝動分析來分析網絡的中間表示。對于視頻,我們提出了一種新的聚類方法,使用Sinkhorn-Knopp算法將深度視頻表示映射到人類可解釋的語義偽標簽。本論文的研究成果為進一步提高深度視頻表示學習的可擴展性和可解釋性做出了貢獻。

//ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據,為廣泛的視覺任務構建有監督的學習者。然而,對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為,為了構建更通用的學習者(類似于嬰兒),開發在沒有人類監督的情況下學習的方法至關重要。在本文中,我們針對兩個關鍵問題:表征和識別,對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中,我們研究了這些方法,并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明,這些學習能力無法擴展到“野外”收集的數據,因此,在自監督學習中需要更好的基準。我們還提出了新的SSL方法,以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的,因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構,利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域,我們提出了一種“通過關聯理解”的范式,該范式將識別問題重新表述為對應的識別。我們將此應用于視頻,并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后,為了探索人類超越語義范疇的泛化能力,我們引入了“功能對應問題”,并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。

付費5元查看完整內容

對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性。

  • 對稱和不變性在機器學習任務中無處不在。雖然卷積神經網絡以成功利用平移對稱性而聞名,但其他對稱性直到最近才經常被忽視。
  • 將對稱性或不變性納入神經網絡體系結構可以避免昂貴的數據增強,并減輕對大型數據集的需求。
  • 提出的工作集中在不變和等變神經網絡層,把對稱性放在神經網絡架構設計的中心。具體而言,本文涵蓋了三種不同的不變性:排列不變性、旋轉-平移不變性和標簽不變性

付費5元查看完整內容

深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術

首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。

付費5元查看完整內容

學習從高維數據中提取與任務相關的特征是機器學習的一個重要挑戰。機器學習最近的成功在很大程度上歸因于深度神經網絡的進步,它將數據轉換為一種新的表示,適合下游機器學習算法。因此,深度神經網絡將任務相關特征的提取視為一個表征學習問題,通過端到端訓練與感興趣的任務共同解決。本文對表示學習的過程進行了更深入的研究,認為通常可以通過對學習到的表示施加額外的約束來補充現有的訓練信號。這些約束使我們能夠在表示空間中注入先驗已知的可取特征,從而有利于下游的任務。在這篇論文中,我們將考慮各種任務的例子,然后展示如何利用關于任務的見解,以一種有益的方式約束表征。這些見解是特定于任務的,利用任務的特定特征來確定對潛在空間的適當約束(例如,施加平滑性,施加信息優先級方案,或捕獲一個特定的解釋因素的興趣,等等)。我們的演示廣泛地涵蓋了跨領域對齊、控制和生成建模的任務類別——從而展示了在表示學習期間設計和施加特定于任務的約束的普遍有效性。

付費5元查看完整內容

在大量標記語音數據上使用監督學習算法訓練的深度神經網絡在各種語音處理應用中取得了顯著的性能,往往在相應的排行榜上處于領先地位。然而,訓練這些系統依賴于大量帶注釋的語音這一事實,為繼續發展最先進的性能造成了可擴展性瓶頸,而且對在語音領域部署深度神經網絡構成了更根本的障礙,因為標記數據本質上是罕見的,昂貴的,或耗時的收集。

與帶注釋的語音相比,未轉錄的音頻通常積累起來要便宜得多。在這篇論文中,我們探索使用自我監督學習——一種學習目標由輸入本身產生的學習范式——來利用這種易于擴展的資源來提高口語技術的性能。提出了兩種自監督算法,一種基于"未來預測"的思想,另一種基于"從未被掩碼中預測被掩碼"的思想,用于從未標記語音數據中學習上下文化語音表示。我們證明了我們的自監督算法能夠學習表征,將語音信號的高級屬性,如語音內容和說話人特征轉換為比傳統聲學特征更容易獲得的形式,并證明了它們在提高深度神經網絡在廣泛的語音處理任務中的性能方面的有效性。除了提出新的學習算法,我們還提供了廣泛的分析,旨在理解學習的自監督表示的屬性,以及揭示使一個自監督模型不同于另一個的設計因素。 //dspace.mit.edu/handle/1721.1/144761

如今,深度神經網絡或深度學習技術為最先進的人工智能系統提供了能力,用于各種數據類型的廣泛應用——圖像分類(He et al.,2016;Liu et al.,2022)、機器翻譯(Vaswani et al.,2017)和語音識別(Gulati et al.,2020)等等。然而,訓練這些系統的傳統范式一直是監督學習,其中系統的性能隨著用于訓練它們的標記數據的大小大致呈對數增長(Sun et al.,2017)。獲取這種帶注釋的數據的成本已經被證明是最先進系統持續開發的可擴展瓶頸,而且對于在數據和注釋收集本來就很少、昂貴或耗時的應用領域部署深度神經網絡來說,這是一個更根本的障礙。

上述情況激發了一波關于自監督表征學習的研究浪潮,其中,由精心設計的前置任務生成的免費標簽被用作監督信號,以預訓練深度神經網絡。然后,從預訓練的深度神經網絡的參數全部或部分用于初始化任務特定的深度神經網絡的參數,以解決下游的任務,使用比傳統監督學習相對較少的注釋數據。自監督指的是要求深度神經網絡預測給定的輸入數據的一部分(或通過編程派生的標簽)的學習任務。

自監督學習技術已被成功地用于提高各種模式下學習的樣本效率,包括圖像(Chen et al., 2020; Grill et al., 2020; Caron et al., 2020),視頻(Xu et al., 2019; Alwassel et al., 2020),語音和音頻(Baevski et al., 2020b; Gong et al., 2022),文本(Mikolov et al., 2013; Peters et al., 2018b; Devlin et al., 2019; Liu et al., 2019),到圖表(Velickovic et al.,2019年),舉幾個例子。一些結果表明,自監督表示的質量也是未標記訓練前數據量的對數函數(Goyal等人,2019)。如果這一趨勢保持不變,那么隨著時間的推移,可實現的性能可能會“免費”提高,因為數據收集和計算能力的改進允許使用越來越大的預訓練集,而不需要手動注釋新數據。在本論文中,我們著重于將自監督學習策略應用于語音領域,目的是推動口語技術的最先進性能,并提高訓練它們的數據效率。我們致力于開發新的自監督語音表征學習方法,并分析其學習表征的特性。

論文貢獻:

1. 介紹了最早成功的自監督語音表征學習框架之一。我們利用了“未來預測”的思想,并提出了一個簡單而有效的自監督目標,稱為自回歸預測編碼(APC),用于訓練深度神經網絡。設計的未來幀預測任務能夠利用未標記的語音數據學習表示,使語音的高級屬性,如語音內容和說話人的特征更容易被下游任務訪問(定義為線性可分性)。APC是最早展示自監督表征優于傳統手工制作的聲學特征(如Mel-frequency倒譜系數(MFCCs)和log Mel 聲譜圖)的工作之一,表明使用自監督學習來提高口語技術表現的潛力。

2. 介紹了目前最先進的自監督語音表示學習框架之一。我們利用了“從未掩碼中預測掩碼”的想法,并提出了w2v-BERT,這是目前最先進的框架之一,用于對語音應用的深度神經網絡進行預訓練。我們訓練一個語音離散器(通過優化對比損失)來將連續語音信號表示為鑒別標記,并使用它們來訓練一個類似BERT的模型。與vq-wav2vec和HuBERT等現有框架相比,w2v-BERT可以以端到端方式優化離散化器和上下文網絡,避免了多個訓練階段之間的協調,這些階段往往涉及脆弱的建模選擇。我們展示了w2v-BERT的有效性,在基準良好的語音識別數據集和谷歌收集的語音搜索數據集上,它優于包括HuBERT和wav2vec 2.0在內的最新技術。

3.引入一種分析方法,能夠在自監督的目標和他們學習表示的屬性之間建立連接。我們探索使用矢量量化來控制深度神經網絡內部的信息流量,以獲得具有相同的自監督目標但模型容量下降的模型譜。我們將這種分析方法應用于APC的研究,并診斷了APC在模型容量受限時保存信息的偏好。我們的分析結果解釋了為什么APC可以學習捕捉高級語音和說話人信息的表征。該分析方法具有普適性,也可用于其他自監督目標的分析。

4. 不同自監督模型的幾個共享性質的演示。在分析我們自己和其他已有的自監督模型時,我們發現,盡管這些模型在訓練目標和神經網絡結構上存在差異,但它們都存在一些共同的特性。這類屬性之一就是隱式發現有意義的聲音單元庫存的能力。我們發現,在自監督模型中通常存在一些層,其中表示與英語電話具有相當高的互信息(當模型在英語語料庫上訓練時),即使模型沒有明確地訓練以發現它們。大多數自監督模型共有的另一個特性是,不同層次的語音信息被捕獲在不同的層中,盡管信息分布可能因模型而異。例如,在APC中,較低的層次往往對說話者更具辨別能力,而較高層提供更多的語音內容。意識到這一點有助于選擇適當的層,從中提取表示,以便在感興趣的任務中獲得最佳性能。

5. 識別訓練影響其表征相似性的自監督模型的建模因素的重要性順序。我們在訓練過程中比較了一組具有不同建模選擇的自監督模型,并使用諸如典型相關分析(CCA)等措施來量化它們的兩兩相似性。我們考慮了三個建模因素: 訓練目標、模型的方向性(即模型是單向的還是雙向的)和神經網絡構建塊(CNN/RNN/Transformer),并表明這三個因素在使一個自監督表示不同于另一個方面具有不同的權重。具體而言,我們發現在所有因素中,訓練目標對表征相似性的影響最大;在相同的訓練目標下,模型的方向性對表征相似性的影響大于其神經網絡構件。

付費5元查看完整內容

深度卷積網絡的出現推動了視覺識別領域的新一波進步。這些學習到的表示大大優于手工設計的特征,在視覺任務上獲得更高的性能,同時在數據集上有更好的泛化性。盡管這些模型看起來很普遍,但當它們所訓練的數據與所要求操作的數據之間存在不匹配時,它們仍然會受到影響。領域適應提供了一種潛在的解決方案,允許我們將網絡從源領域訓練到新的目標領域。在這些領域中,標記數據是稀疏的或完全缺失的。然而,在端到端可學習表示出現之前,視覺域適應技術很大程度上局限于在固定的、手工設計的視覺特征上訓練的分類器。在這篇論文中,我們展示了如何將視覺域適應與深度學習相結合,以直接學習能夠適應域移動的表示,從而使模型能夠泛化到源域之外。

在第2章中,我們將演示如何設計損失,以衡量兩個領域的不同程度。我們表明,通過優化表示來最小化這些損失,我們可以學習從源到目標更好地泛化的表示。在第3章和第4章中,我們展示了我們可以訓練模型來嘗試測量域差異,而不是手工設計這些域損失。由于這些模型本身是端到端可學習的,我們可以通過它們反向傳播來學習表示,從而最小化學習的差異。這在概念上與生成式對抗網絡類似,我們還探索了兩者之間的關系,以及我們如何在對抗環境中使用為GANs開發的技術。最后,在第5章和第6章中,我們證明了適應性不需要局限于深度網絡的中間特征。對抗適應技術也可以用于訓練模型,直接改變圖像的像素,將它們轉換成跨域的類似物。然后,這些轉換后的圖像可以用作標記的偽目標數據集,以學習更適合目標領域的監督模型。我們表明,這種技術是基于特征的適應性的補充,當兩者結合時產生更好的性能。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html

付費5元查看完整內容

【導讀】牛津大學的博士生Oana-Maria Camburu撰寫了畢業論文《解釋神經網絡 (Explaining Deep Neural Networks)》,系統性介紹了深度神經網絡可解釋性方面的工作,值得關注。

作者介紹:

Oana-Maria Camburu,來自羅馬尼亞,目前是牛津大學的博士生,主修機器學習、人工智能等方向。

Explaining Deep Neural Networks

深度神經網絡在計算機視覺、自然語言處理和語音識別等不同領域取得了革命性的成功,因此越來越受歡迎。然而,這些模型的決策過程通常是無法向用戶解釋的。在各種領域,如醫療保健、金融或法律,了解人工智能系統所做決策背后的原因至關重要。因此,最近研究了幾個解釋神經模型的方向。

在這篇論文中,我研究了解釋深層神經網絡的兩個主要方向。第一個方向由基于特征的事后解釋方法組成,也就是說,這些方法旨在解釋一個已經訓練過的固定模型(事后解釋),并提供輸入特征方面的解釋,例如文本標記和圖像的超級像素(基于特征的)。第二個方向由生成自然語言解釋的自解釋神經模型組成,也就是說,模型有一個內置模塊,為模型的預測生成解釋。在這些方面的貢獻如下:

  • 首先,我揭示了僅使用輸入特征來解釋即使是微不足道的模型也存在一定的困難。我表明,盡管有明顯的隱含假設,即解釋方法應該尋找一種特定的基于真實值特征的解釋,但對于預測通常有不止一種這樣的解釋。我還展示了兩類流行的解釋方法,它們針對的是不同類型的事實基礎解釋,但沒有明確地提及它。此外,我還指出,有時這兩種解釋都不足以提供一個實例上決策過程的完整視圖。

  • 其次,我還介紹了一個框架,用于自動驗證基于特征的事后解釋方法對模型的決策過程的準確性。這個框架依賴于一種特定類型的模型的使用,這種模型有望提供對其決策過程的洞察。我分析了這種方法的潛在局限性,并介紹了減輕這些局限性的方法。引入的驗證框架是通用的,可以在不同的任務和域上實例化,以提供現成的完整性測試,這些測試可用于測試基于特性的后特殊解釋方法。我在一個情緒分析任務上實例化了這個框架,并提供了完備性測試s1,在此基礎上我展示了三種流行的解釋方法的性能。

  • 第三,為了探索為預測生成自然語言解釋的自解釋神經模型的發展方向,我在有影響力的斯坦福自然語言推斷(SNLI)數據集之上收集了一個巨大的數據集,數據集約為570K人類編寫的自然語言解釋。我把這個解釋擴充數據集稱為e-SNLI。我做了一系列的實驗來研究神經模型在測試時產生正確的自然語言解釋的能力,以及在訓練時提供自然語言解釋的好處。

  • 第四,我指出,目前那些為自己的預測生成自然語言解釋的自解釋模型,可能會產生不一致的解釋,比如“圖像中有一只狗。”以及“同一幅圖片中沒有狗”。不一致的解釋要么表明解釋沒有忠實地描述模型的決策過程,要么表明模型學習了一個有缺陷的決策過程。我將介紹一個簡單而有效的對抗性框架,用于在生成不一致的自然語言解釋時檢查模型的完整性。此外,作為框架的一部分,我解決了使用精確目標序列的對抗性攻擊的問題,這是一個以前在序列到序列攻擊中沒有解決的場景,它對于自然語言處理中的其他任務很有用。我將這個框架應用到e-SNLI上的一個最新的神經模型上,并表明這個模型會產生大量的不一致性。

這項工作為獲得更穩健的神經模型以及對預測的可靠解釋鋪平了道路。

地址: //arxiv.org/abs/2010.01496

付費5元查看完整內容

使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。

付費5元查看完整內容
北京阿比特科技有限公司