亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們對世界的體驗是多模態的,然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中,我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督,(ii)自監督表示學習和(iii)模態融合。在跨模態監督中,來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示,從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先,我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集,對其進行訓練,產生了最先進的說話人識別模型; 其次,我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽,并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好,而這些模型是通過昂貴的人工監督進行訓練的; 第三,我們從為情感識別而訓練的人臉模型中提取信息到語音領域,而在語音領域,手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里,我們學習了在沒有任何人工監督的情況下,在任何一種模式下的視聽表示,特別是對于人類的面孔和聲音。與現有的表示不同,我們的聯合表示支持從音頻到視覺的跨模態檢索,反之亦然。然后,我們將這項工作擴展到明確地消除習得偏見,從而實現更大的泛化。最后,我們通過開發新的模態融合架構,有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示,我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型,我們在動作識別和視頻文本檢索方面都取得了最先進的結果。

//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf

付費5元查看完整內容

相關內容

今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而,部署模型要求它們在開放世界中工作,開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別,并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊,包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作,特別是有很少或甚至沒有訓練的樣例。首先,我們將探索傳統模型如何泛化到現實世界,傳統模型只識別一小部分對象類。我們表明,目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化,都可能導致精度下降。我們的系統評估顯示,模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀,但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后,我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來,我們探索歸納到大的或無限的詞匯,其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合,我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試,并提供了適當評估此設置中的進度的替代指標。最后,我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。

//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/

付費5元查看完整內容

賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容

視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。理解和建模不同模態之間的交互是視頻分析任務的關鍵,如分類,目標檢測,活動識別等。然而,數據模態并不總是相關的——因此,了解模態何時相關并使用它來引導一種模態對另一種模態的影響是至關重要的。視頻的另一個顯著特征是連續幀之間的連貫性,這是由于視頻和音頻的連續性,我們稱之為時間連貫性。我們展示了如何使用非線性引導的跨模態信號和時間相干性來提高多模態機器學習(ML)模型在視頻分析任務(如分類)中的性能。我們在大規模YouTube-8M數據集上的實驗表明,我們的方法在視頻分類方面顯著優于最先進的多模式ML模型。在YouTube-8M數據集上訓練的模型,在不需要再訓練和微調的情況下,在一個來自實際電視頻道的視頻片段的內部數據集上也表現出了良好的性能,顯示了我們的模型較強的泛化能力。

付費5元查看完整內容

我們的目標是利用自監督學習將視頻轉換成一組離散的視聽對象。為此,我們介紹了一個模型,它使用注意力來定位和分組聲源,以及光流來隨時間聚合信息。我們通過使用我們的模型學習的視聽對象嵌入四個下游的面向語音的任務(a)多說話人的聲源分離,(b)定位和跟蹤說話人,(c)糾正不正確的視聽數據,和(d)主動說話人檢測的有效性。利用我們的表示法,這些任務完全可以通過訓練未標記的視頻來解決,而不需要物體檢測器的幫助。我們還通過將我們的方法應用于非人類演講者,包括卡通和木偶,來展示我們方法的普遍性。我們的模型顯著優于其他自監督方法,并獲得與使用監督人臉檢測方法競爭的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

//arxiv.org/abs/2008.04237

付費5元查看完整內容

借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。

自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。

自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。

付費5元查看完整內容

僅憑對話就能猜測人類行為嗎?在這項工作中,我們調查了電影中的言語和動作之間的聯系。我們注意到,電影劇本描述動作,也包含角色的語言,因此可以用來學習這種相關性,而不需要額外的監督。我們在一千多部電影劇本中訓練一個基于BERT的語音動作分類器,從轉錄的語音片段中預測動作標簽。然后,我們將該模型應用于一個大型未標記電影語料庫的語音片段(來自288K電影的1.88億個語音片段)。利用該模型的預測,我們得到了800K以上視頻片段的弱動作標簽。通過對這些視頻剪輯的訓練,我們在標準動作識別基準上展示了優越的動作識別性能,而無需使用一個手動標記的動作示例。

付費5元查看完整內容

題目: Self-Supervised Learning of Video-Induced Visual Invariances

摘要: 我們提出了一種基于視頻誘導視覺不變性(VIVI)的可轉移視覺表示自監督學習的一般框架。我們考慮視頻中存在的嵌入層次,并利用(i)幀級不變性(例如對顏色和對比度擾動的穩定性),(ii)鏡頭/剪輯級不變性(例如對對象方向和照明條件的變化的魯棒性),以及(iii)視頻級不變性(鏡頭/剪輯之間場景的語義關系),以定義整體的自監督損失。使用YouTube-8M(YT8M)數據集視頻框架的不同變體的訓練模型,我們在視覺任務適應基準(VTAB)的19個不同下游任務上獲得最先進的自我監督傳輸學習結果,每個任務僅使用1000個標簽。然后,我們展示如何與標記圖像聯合訓練模型,在標記圖像減少10倍的情況下,比anImageNet pretrained ResNet-50多0.8個點,以及使用完整ImageNet數據集的前一個最佳super-vised模型多3.7個點。

作者簡介: Michael Tschannen,谷歌博士后研究員,對機器學習和計算機視覺很感興趣。

付費5元查看完整內容

主題: Multimodal Deep Learning

摘要: 深層神經網絡促進了多媒體數據分析在自然語言、視覺和語音領域的統一框架中的融合。圖像字幕、唇讀或視頻聲處理是利用深度神經表征的泛化特性的一個新的令人興奮的研究領域的一些首次應用。本教程將首先回顧用于編碼和解碼視覺、文本和音頻的基本神經結構,然后回顧那些成功地跨模式轉換信息的模型。

作者簡介: Xavier Giro-i-Nieto,巴塞羅那加泰羅尼亞大學(UPC)的副教授,是智能數據科學和人工智能研究中心(IDEAI-UPC)的成員,也是巴塞羅那超級計算中心(BSC)的訪問研究員。他與都柏林城市大學數據分析洞察中心、哥倫比亞大學數字視頻和多媒體以及Vilynx、Mediapro和Crisalix的工業合作伙伴密切合作。他是UPC學校具有深度學習的人工智能研究生學位的主管,并負責協調UPC TelecomBCN的深度學習課程,以及2018年巴塞羅那深度學習研討會的總主席。他是IEEE多媒體事務的副主編,并為機器學習、計算機視覺和多媒體領域的頂級會議做評論。

付費5元查看完整內容
北京阿比特科技有限公司