本文提出了一種用于視頻問答(VideoQA)的視頻圖形轉換(VGT)模型。VGT的獨特性有兩個方面: 1) 它設計了一個動態圖transformer模塊,通過顯式捕獲視覺對象、它們的關系和動態來編碼視頻,用于復雜的時空推理; 2) 利用解糾纏的視頻和文本Transformer進行視頻和文本之間的相關性比較來進行QA,而不是使用糾纏的交叉模態Transformer進行答案分類。視覺-文本通信是通過附加的跨模態交互模塊完成的。通過更合理的視頻編碼和QA解決方案,我們表明VGT在無預訓練場景下可以在挑戰動態關系推理的VideoQA任務上實現比現有技術更好的性能。它的性能甚至超過了那些用數百萬外部數據預訓練的模型。我們進一步表明,VGT也可以從自監督跨模態預訓練中獲益很多,但數據的數量級更小。這些結果清楚地證明了VGT的有效性和優越性,并揭示了它在數據效率更高的預訓練方面的潛力。通過全面的分析和一些啟發式的觀察,我們希望VGT能夠推動VQA研究從粗的識別/描述轉向現實視頻中細粒度的關系推理。我們的代碼可在//github.com/sail-sg/VGT獲得
在我們的社會中,多模態數據的日益流行導致了對機器的需求增加,以全面地理解這些數據。然而,渴望研究此類數據的數據科學家和機器學習工程師面臨著從現有教程中融合知識的挑戰,這些教程通常單獨處理每個模態。根據我們在新加坡政府對多模態城市問題反饋進行分類的經驗,我們進行了一個手工教程,以希望將機器學習應用于多模態數據。 2021年,作為新加坡政府國家人工智能戰略計劃的一部分,新加坡政府技術機構(GovTech)的數據科學和人工智能部門(DSAID)構建了一個反饋分析引擎[1],根據市政問題反饋,該引擎可以預測:
(1)用戶反饋的案例類型,以便從反饋中提取相關信息,以及 (2)能最有效地處理這個問題的機構。
該引擎由基于歷史數據的深度學習建立的分類模型組成,實現了良好的準確性,可以部署在OneService聊天機器人[2]中。創建這個引擎的最大挑戰之一是處理多模態反饋數據,這些數據包括: (1)文本:對問題的描述, (2)地理位置:問題發生的位置,以及 (3) 圖片:補充文字描述的圖片。
由于通過移動設備捕捉和傳輸圖像的便捷性,多模態數據,尤其是圖文并茂的數據在我們的社會中越來越普遍。除了社交媒體,這類數據在私營和公共部門也都在增長。企業和政府開發了更多、更好的應用程序,這些應用允許人們提交內容(例如,投訴、贊美、建議、技術支持請求、求助電話、產品評論),而不僅僅是文本形式,還附帶圖片,這樣接收者就可以更好地了解手頭的問題。隨著這類數據的增加,對機器整體理解文本和圖像以幫助人類做出決定的需求也在增加。這反過來又導致了對數據科學家和機器學習工程師的需求增加,他們知道如何構建可以做到這一點的模型。然而,大多數與此問題相關的現有教程分別處理文本和圖像,因為它們傳統上來自不同的領域。對于試圖解決此類問題的初級數據科學家(甚至一些中級數據科學家)和機器學習工程師來說,融合來自這些不同教程的知識是一個挑戰。我們希望通過本教程幫助他們克服這些挑戰。
在本教程中,我們教參與者如何使用Transformer[3]對包含文本和圖像的多模態數據進行分****類。它的目標受眾是對神經網絡有一定的了解,并且能夠輕松地編寫代碼。
(1) 文本分類:使用BERT[4]訓練文本分類模型 (2) 文本和圖像分類(v1):使用BERT和ResNet-50[5]訓練文本和圖像分類模型 (3) 文本與圖像分類(v2):使用Align before Fuse (ALBEF)[6]訓練文本與圖像分類模型
理解視頻的時間動態是學習更好的視頻表現的一個重要方面。最近,基于transformer的架構設計在視頻任務中得到了廣泛的探索,因為它們能夠捕獲輸入序列的長期依賴性。然而,我們發現這些視頻transformer在學習空間動力學而不是時間動力學時仍然是有偏的,去偏偽相關對它們的性能至關重要。基于觀察結果,我們為視頻模型設計了簡單而有效的自監督任務,以更好地學習時間動態。具體來說,為了消除空間偏差,我們的方法學習視頻幀的時間順序作為額外的自監督,并強制隨機洗牌的幀具有低置信輸出。此外,我們的方法學習連續幀之間視頻標記的時間流方向,以增強與時間動態的相關性。在各種視頻動作識別任務下,我們證明了我們的方法的有效性,以及它與最先進的視頻transformer的兼容性。
//www.zhuanzhi.ai/paper/0a5edd1d139682ad788b64f4f65b968e
論文標題:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
論文鏈接://arxiv.org/abs/2203.06965 作者單位:中國科學院自動化研究所 & 商湯科技 & 南洋理工大學
自監督學習 (SSL) 有望利用大量未標記的數據。然而,流行的 SSL 方法的成功僅限于像 ImageNet 中的單中心對象圖像,并且忽略了場景和實例之間的相關性,以及場景中實例的語義差異。為了解決上述問題,我們提出了統一自監督視覺預訓練(UniVIP),這是一種新穎的自監督框架,用于在單中心對象或非標志性數據集上學習通用視覺表示。該框架考慮了三個層次的表示學習:1)場景-場景的相似性,2)場景-實例的相關性,3)實例的判別。在學習過程中,我們采用最優傳輸算法來自動測量實例的區分度。大量實驗表明,在非標志性 COCO 上預訓練的 UniVIP 在圖像分類、半監督學習、對象檢測和分割等各種下游任務上實現了最先進的傳輸性能。此外,我們的方法還可以利用 ImageNet 等單中心對象數據集,并且在線性探測中使用相同的預訓練 epoch 時比 BYOL 高 2.5%,并且在 COCO 數據集上超越了當前的自監督對象檢測方法,證明了它的普遍性和潛在性能。
我們對世界的體驗是多模態的,然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中,我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督,(ii)自監督表示學習和(iii)模態融合。在跨模態監督中,來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示,從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先,我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集,對其進行訓練,產生了最先進的說話人識別模型; 其次,我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽,并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好,而這些模型是通過昂貴的人工監督進行訓練的; 第三,我們從為情感識別而訓練的人臉模型中提取信息到語音領域,而在語音領域,手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里,我們學習了在沒有任何人工監督的情況下,在任何一種模式下的視聽表示,特別是對于人類的面孔和聲音。與現有的表示不同,我們的聯合表示支持從音頻到視覺的跨模態檢索,反之亦然。然后,我們將這項工作擴展到明確地消除習得偏見,從而實現更大的泛化。最后,我們通過開發新的模態融合架構,有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示,我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型,我們在動作識別和視頻文本檢索方面都取得了最先進的結果。
//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
Transformers已經成功地完成了許多自然語言處理任務。然而,由于計算復雜度高和缺乏自然標記化,將Transformers應用于視頻領域的任務,如長期視頻生成和場景理解仍然是難以實現的。在本文中,我們提出了以對象為中心的視頻轉換器(OCVT),它利用以對象為中心的方法將場景分解成適合于生成視頻轉換器使用的令牌。通過將視頻分解為對象,我們的完全無監督模型能夠學習場景中多個交互對象的復雜時空動態,并生成視頻的未來幀。與基于像素的模型相比,我們的模型的內存效率更高,因此能夠使用單個48GB GPU訓練70幀長度的視頻。我們將我們的模型與以前基于RNN的方法以及其他可能的視頻Transformer基線進行了比較。我們證明OCVT在生成未來幀時比基線表現得更好。OCVT還為視頻推理開發了有用的表示,在CATER任務上實現了最先進的性能。
檢索與自然語言查詢相關的視頻內容對有效處理互聯網規模的數據集起著至關重要的作用。大多數現有的字幕-視頻檢索方法都沒有充分利用視頻中的跨模態線索。此外,他們聚合每幀的視覺特征與有限的或沒有時間信息。在本文中,我們提出了一種多模態Transformer聯合編碼視頻中不同的模態,使每一個模態關注其他模態。transformer架構還被用于對時態信息進行編碼和建模。在自然語言方面,我們研究了聯合優化嵌入在多模態轉換器中的語言的最佳實踐。這個新的框架允許我們建立最先進的視頻檢索結果在三個數據集。更多詳情請訪問//thoth.inrialpes.fr/research/MMT。