理解視頻的時間動態是學習更好的視頻表現的一個重要方面。最近,基于transformer的架構設計在視頻任務中得到了廣泛的探索,因為它們能夠捕獲輸入序列的長期依賴性。然而,我們發現這些視頻transformer在學習空間動力學而不是時間動力學時仍然是有偏的,去偏偽相關對它們的性能至關重要。基于觀察結果,我們為視頻模型設計了簡單而有效的自監督任務,以更好地學習時間動態。具體來說,為了消除空間偏差,我們的方法學習視頻幀的時間順序作為額外的自監督,并強制隨機洗牌的幀具有低置信輸出。此外,我們的方法學習連續幀之間視頻標記的時間流方向,以增強與時間動態的相關性。在各種視頻動作識別任務下,我們證明了我們的方法的有效性,以及它與最先進的視頻transformer的兼容性。
//www.zhuanzhi.ai/paper/0a5edd1d139682ad788b64f4f65b968e
本文提出了一種用于視頻問答(VideoQA)的視頻圖形轉換(VGT)模型。VGT的獨特性有兩個方面: 1) 它設計了一個動態圖transformer模塊,通過顯式捕獲視覺對象、它們的關系和動態來編碼視頻,用于復雜的時空推理; 2) 利用解糾纏的視頻和文本Transformer進行視頻和文本之間的相關性比較來進行QA,而不是使用糾纏的交叉模態Transformer進行答案分類。視覺-文本通信是通過附加的跨模態交互模塊完成的。通過更合理的視頻編碼和QA解決方案,我們表明VGT在無預訓練場景下可以在挑戰動態關系推理的VideoQA任務上實現比現有技術更好的性能。它的性能甚至超過了那些用數百萬外部數據預訓練的模型。我們進一步表明,VGT也可以從自監督跨模態預訓練中獲益很多,但數據的數量級更小。這些結果清楚地證明了VGT的有效性和優越性,并揭示了它在數據效率更高的預訓練方面的潛力。通過全面的分析和一些啟發式的觀察,我們希望VGT能夠推動VQA研究從粗的識別/描述轉向現實視頻中細粒度的關系推理。我們的代碼可在//github.com/sail-sg/VGT獲得
最近的工作表明,離線強化學習(RL)可以被表述為一個序列建模問題(Chen et al., 2021; Janner et al., 2021),并通過類似于大規模語言建模的方法解決。然而,RL的任何實際實例還涉及到一個在線組件,其中在被動離線數據集上預訓練的策略通過與環境的特定任務交互進行微調。我們提出了在線決策Transformers (ODT),這是一種基于序列建模的RL算法,在一個統一的框架中融合了離線預訓練和在線微調。我們的框架使用序列級熵正則化器與自回歸建模目標相結合,用于樣本高效的探索和微調。根據經驗,我們表明,ODT在D4RL基準測試的絕對性能方面可以與最先進的技術相媲美,但在微調過程中獲得的收益要顯著得多。 //www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1
什么對對比學習很重要?我們認為對比學習在很大程度上依賴于有信息量的特征,或“困難的”(正例或負例)特征。早期的方法通過應用復雜的數據增強和大批量或內存庫來包含更多有信息量的特征,最近的工作設計了精細的采樣方法來探索有信息量的特征。探索這些特征的關鍵挑戰是源多視圖數據是通過應用隨機數據增強生成的,這使得始終在增強數據中添加有用信息是不可行的。因此,從這種增強數據中學習到的特征的信息量是有限的。**在本文中,我們提出直接增強潛在空間中的特征,從而在沒有大量輸入數據的情況下學習判別表示。**我們執行元學習技術來構建增強生成器,通過考慮編碼器的性能來更新其網絡參數。然而,輸入數據不足可能會導致編碼器學習坍塌的特征,從而導致增強生成器出現退化的情況。我們在目標函數中進一步添加了一個新的邊緣注入正則化,以避免編碼器學習退化映射。為了在一個梯度反向傳播步驟中對比所有特征,我們采用了優化驅動的統一對比損失,而不是傳統的對比損失。根據實驗驗證,我們的方法在幾個基準數據集上獲得了最先進的結果。
//www.zhuanzhi.ai/paper/31925f8729fad66bf497d7f85ba17dd6
用于基于視頻的推理任務(如視頻問答)的時空場景圖方法通常為每一幀視頻構建這樣的圖。這種方法通常忽略了一個事實,即視頻本質上是發生在3D空間中的事件的2D“視圖”序列,并且3D場景的語義也因此能夠在幀間傳遞。利用這一觀點,我們提出了一個(2.5+1)D場景圖表示,以更好地捕捉視頻中的時空信息流。具體來說,我們首先創建2.5D(偽3D)場景圖,通過使用現成的2D到3D轉換模塊將每一幀2D畫面轉換成推斷出的3D結構,然后我們將視頻幀注冊到共享的(2.5+1)D時空空間中,并將其中的每個2D場景圖置于地面。這樣一個(2.5+1)D圖被分離成一個靜態子圖和一個動態子圖,對應于其中的對象是否通常在世界中移動。動態圖中的節點被運動特征所豐富,捕捉到它們與其他圖節點的交互。接下來,在視頻QA任務中,我們提出了一種新的基于Transformer的推理管道,將(2.5+1)D圖嵌入到一個時空層次潛在空間中,在該空間中,子圖及其交互以不同的粒度捕獲。為了證明該方法的有效性,我們在NExT-QA和AVSD-QA數據集上進行了實驗。我們的結果表明,我們提出的(2.5+1)D表示法導致了更快的訓練和推理,而我們的分層模型在視頻QA任務上的表現優于目前的技術水平。
視頻Transformer最新綜述論文
Transformer模型在建模長范圍交互方面取得了巨大的成功。然而,他們的規模與輸入長度的平方和缺乏歸納偏差。在處理高維視頻時,這些限制可能會進一步加劇。正確的視頻建模,可以跨度從幾秒到幾小時,需要處理長范圍交互。這使得Transformer成為解決視頻相關任務的一個很有前途的工具,但還需要一些調整。雖然之前也有研究《Transformer》在視覺任務方面的進展的工作,但沒有一篇是針對特定視頻設計的深入分析。在本綜述中,我們分析和總結了用于視頻數據建模的Transformer的主要貢獻和趨勢。具體地說,我們深入研究了視頻是如何嵌入和標記化的,發現了一個非常廣泛的使用大型CNN主干來降低維數的方法,以及主要使用補丁和幀作為標記。此外,我們研究了如何調整Transformer層以處理更長的序列,通常是通過減少單個注意力操作中的令牌數量。此外,我們還分析了用于訓練視頻Transformer的自監督損耗,迄今為止,這些損耗大多局限于對比方法。最后,我們探討了其他模態是如何與視頻整合在一起的,并對視頻Transformer最常用的基準(即動作分類)進行了性能比較,發現它們在等效FLOPs的情況下優于3D CNN,且沒有顯著的參數增加。
引言
Transformers是[1]中首次提出的最新系列模型。這些架構最初是為了替換機器翻譯設置中的循環層而設計的,現在已經很快被用于建模許多其他數據類型[2]、[3]、[4],包括圖像[5]、[6]、[7]、[8]和視頻[9]、[10]、[11]、[12]、[13]、[14]。Transformer背后的關鍵成功在于其通過自注意力(SA)操作實現的非局部令牌混合策略。非局部操作在[15]中提出,是對非局部均值操作[16]的泛化。它基于所有元素之間的交互來演化輸入表示。這些相互作用是通過一對相似函數來調節的,該函數衡量每個元素對其他元素的貢獻。與全連接(FC)層不同,非局部操作不需要權重:輸入之間的關系不需要學習,而是完全依賴于輸入表示。盡管它們取得了成功,但SA的本質導致transformer對序列長度T的縮放效果很差。特別是,由于對親和計算,SA的復雜度為O(t2)。此外,transformer沒有任何歸納偏差,這可能是一個理想的特性,但它也會阻礙學習,除非[7]使用大量數據。
最近Transformer工作的激增,讓跟蹤最新的進展和趨勢變得復雜起來。最近的調研試圖通過分析和總結《Transformer》的總體架構設計選擇來填補這一空白,主要集中在NLP[18],或高效的設計,如[19]或[20]。雖然一些人已經廣泛地調研了視覺的進展,例如[21],[22],[23],[24]和Vision-Language transformer[25],但他們沒有對視頻模型進行深入的分析。[26]的調研集中于視頻和語言Transformer的預訓練,但是他們討論了一些架構選擇,并沒有涵蓋一般的視頻趨勢。視頻Transformer (vt)可以找到與其他Transformer設計的共同點(特別是在圖像領域),但視頻固有的大維度將加劇Transformer的局限性,需要特殊處理。額外的時間維度還需要不同的嵌入、標記化策略和架構。最后,視頻媒體通常與其他模態配對(例如,它很自然地伴隨著音頻),這使得它特別容易用于多模態設置。
視頻。本工作的重點是全面分析用于視頻數據建模的Transformer架構的最新進展。請注意,在Transformer層建模之前,使用傳統(非Transformer)架構將視頻映射到其他結構化形式(例如,接頭[27]或語音[28])的工作不在我們的范圍之內。我們對使用(時間)視覺特征作為SA層輸入的模型特別感興趣。我們分析了文獻采用這些模型的方式,使之能夠處理視頻的內在復雜性以及其他可選模態。然而,我們確實考慮在使用Transformer層之前利用某些CNN架構將視頻數據嵌入到低維空間的工作(參見第3.1.1節)。
Transformers。與基于位置的體系架構(如CNN)不同,Transformer在每一層對數據的全局交互進行建模。然而,有一個廣泛的基于全局的架構。我們關注的是將SA以非局部運算[15]的內嵌高斯變量形式,加上額外的歸一化因子的工作(見式(1))。已有文獻將其他形式的注意力視為SA[29],[30],[31],[32],但這些文獻通常使用FC層而不是點積來計算注意力權重。我們認為這些超出了本次調研的范圍。此外,與Transformers并行的研究方向還采用SA或等效的內嵌高斯版本的非局部算子來處理計算機視覺任務。例如,圖注意力網絡,如[33]和[34],或關系網絡,如[35]和[36]。類似地,我們也發現它們被用于增強CNN主干,通過添加中間層[15]、[37]、[38]、[39],或者通過增強輸出表示[40]、[41]、[42]。我們很高興地看到,在這么多不同的研究方向都采用了非局部操作。不過,在本工作中,我們只關注Transformer體系結構,并將非本地操作集成到不同體系結構中的各種方式留給未來的工作進行比較。
視頻Transformers(vt)的通用框架。在(a)中,我們展示了一個普通的Transformer Encoder1;在(b)中,我們展示了不同的標記化和嵌入策略,具體見3.1節;在(c)中,我們展示了一種常見的分層Transformer設計,它分解了視頻片段的空間和時間交互。這些和其他視頻設計在第3.2節中有描述。
視頻Transformer
視頻數據的高維性以及上述《Transformers》的局限性需要進行多種調整,以構建成功的視頻《Transformers》。在這里,我們對VTs進行一個全面的概述:在3.1節中,我們探討了在將視頻輸入Transformer之前如何處理它們,并探討了降維和標記化替代方案的主干。然后,在第3.2節中,我們詳細介紹了高效Transformer設計的建議,比如在視頻中顯式地利用時間結構。接下來,我們在第3.3節分析了視頻如何與其他模態整合。最后,我們概述VT訓練策略和損失,特別是在第3.4節中的自監督方法。
自我挖掘:視頻問答中對樣本進行孿生采樣和推理
Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering
論文摘要:視頻問答任務需要根據語言線索的組合語義,獲取并使用視頻中的視覺信號的時域和空域特征,從而生成回答。現有的一些工作從視頻中提取一般的視覺信息以及運動特征來表示視頻內容,并設計了不同的注意力機制來整合這些特征。這些方法注重于如何更好地理解視頻的整體內容,但這樣容易忽略了視頻段中的細節。也有一些研究人員探究了如何通過對視頻的視覺和語言信息進行語義層面上的特征對齊。但是這些工作都忽略了同一個視頻中的上下文之間的關聯。為了解決上訴問題,我們提出了此基于自驅動孿生采樣和推理的框架,并將其用于提取相同視頻的不同視頻段中的上下文語義信息,用于增強網絡的學習效果。本方法在 5 個公開的數據集上面實現了最優的效果。
//papers.nips.cc/paper/2021/file/dea184826614d3f4c608731389ed0c74-Paper.pdf
Transformers已經成功地完成了許多自然語言處理任務。然而,由于計算復雜度高和缺乏自然標記化,將Transformers應用于視頻領域的任務,如長期視頻生成和場景理解仍然是難以實現的。在本文中,我們提出了以對象為中心的視頻轉換器(OCVT),它利用以對象為中心的方法將場景分解成適合于生成視頻轉換器使用的令牌。通過將視頻分解為對象,我們的完全無監督模型能夠學習場景中多個交互對象的復雜時空動態,并生成視頻的未來幀。與基于像素的模型相比,我們的模型的內存效率更高,因此能夠使用單個48GB GPU訓練70幀長度的視頻。我們將我們的模型與以前基于RNN的方法以及其他可能的視頻Transformer基線進行了比較。我們證明OCVT在生成未來幀時比基線表現得更好。OCVT還為視頻推理開發了有用的表示,在CATER任務上實現了最先進的性能。
最近,自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中,自監督學習和transformer已經是選擇的方法。最近的文獻表明,transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果,而只需要較小的模型改變。
在本研究中,我們探討了自監督學習在圖像/視覺變換器的預訓練,然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT),并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器,并無縫地處理多個自監督任務。我們表明,預訓練的SiT可以被微調用于小規模數據集的下游分類任務,這些數據集由幾千張而不是幾百萬張圖像組成。
在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到,SiT對少樣本學習很好,也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。
引言
最近的趨勢表明,自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示,自監督預訓練,特別是結合transformers [11],是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的,例如,基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而,視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究,例如,由數億個標記樣本[1]組成的數據集。最近,在沒有外部數據[2]的情況下,視覺轉換器在imagenet上表現良好,但是,它們需要CNNs對等體的蒸餾方法和指導。簡而言之,利用大規模監督數據集進行預訓練是計算機視覺中的一種規范,用來訓練深度神經網絡以獲得更好的性能。然而,人工標注訓練數據是相當昂貴的,盡管在眾包創新方面取得了進展。為了解決這一限制,自監督學習方法[7],[9],[10],[12],[13],[14]已被用到從未標記數據構建具有語義意義的圖像表示。
自監督方法大致可以分為生成式和判別性方法。生成式方法[15],[16],[17]學習建模數據的分布。然而,數據建模通常在計算上是昂貴的,并且在所有場景中可能不是表示學習所必需的。另一方面,通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法,證明了在適當的計算需求下獲得更好的泛化表示的能力。
對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入,同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果,但他們往往忽視了對語境表征的學習,對于這一學習,替代的前置任務,如基于重構的方法,可能更適合。近年來,文獻中提出了一系列新穎的前置任務,包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。
在這項工作中,我們介紹了一個簡單的自監督學習框架,利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:
我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。
我們賦予SiT體系結構一個解碼器,并證明,由于Transformer的內在特性,它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。
利用自編碼Transformer支持多任務學習的自然能力,我們開發了一個強大的自監督框架,共同優化重建(圖像修復)、旋轉分類和收縮損失。
我們在不同的評估協議(包括線性評估、領域轉移和微調)下,在標準基準上展示了擬議框架的有效性。
在不同的數據集中,我們比并發的最先進的結果表現更好,在很大的間隔達到+13.53%的改進。
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355