受BERT的成功啟發,人們提出了幾種聯合表示圖像和文本的多模態表示學習方法。這些方法通過從大規模的多模態預訓練中獲取高級語義信息來獲得更好的性能。其中LXMERT和UNITER采用視覺區域特征回歸和標簽分類作為前置任務。然而,在語義標注有限且不一致的眾包數據集上預先訓練的視覺特征往往存在標簽噪聲過大和語義標注稀疏的問題。為了克服這些問題,我們提出了無偏密集對比視覺語言預訓練(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注釋的跨通道區域對比學習代替區域回歸和分類。為了提高對比學習中負樣本的質量,我們提出了兩種數據增強策略(掩模擾動和對抗內/對抗間擾動)。總之,DCVLP允許在獨立于任何對象注釋的自監督設置中跨模態密集區域對比學習。我們將該方法與以往的視覺-語言前訓練框架進行了比較,驗證了密集對比學習在多模態表征學習中的優越性。
//www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432
當前主流的視頻文本檢索模型基本上都采用了基于 Transformer[1] 的多模態學習框架,主要可以分成 3 類:
Two-stream,文本和視覺信息分別通過獨立的 Vision Transformer 和 Text Transformer,然后在多模態 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。
Single-stream,文本和視覺信息只通過一個多模態 Transformer 進行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。
Dual-stream,文本和視覺信息僅僅分別通過獨立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。
由于類別 1 和類別 2 方法在時間開銷上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了類別 3 Dual-stream 的 Transformer 框架,以滿足大規模視頻文本檢索的需求。然而現有基于 Transformer 的多模態學習方法會有兩個局限性:
Transformer 不同網絡層的輸出具有不同層次的特性,而現有方法并沒有充分利用這一特性;
端到端模型受到顯存容量的限制,無法在一個 batch 內利用較多的負樣本。
針對上述 2 個局限,本文提出(1)層次跨模態對比匹配(Hierarchical Cross-modal Contrast Matching,HCM),對 Transformer 的底層網絡和高層網絡分別進行對比匹配,解決局限 1 的問題;(2)引入 MoCo[9] 的動量更新機制到跨模態對比匹配中,使跨模態對比匹配的過程中能充分利用更多的負樣本,解決局限 2 的問題。實驗表明 HiT 在多個視頻-文本檢索數據集上取得 SOTA 的效果。
HiT 模型主要有兩個創新點:
提出層次跨模態對比匹配 HCM。Transformer 的底層和高層側重編碼不同層次的信息,以文本輸入和 BERT[10] 模型為例,底層 Transformer 側重于編碼相對簡單的基本語法信息,而高層 Transformer 則側重于編碼相對復雜的高級語義信息。因此使用 HCM 進行多次對比匹配,可以利用 Transformer 這一層次特性,從而得到更好的視頻文本檢索性能;
引入 MoCo 的動量更新機制到跨模態對比匹配中,提出動量跨模態對比 MCC。MCC 為文本信息和視覺信息分別維護了一個容量很大并且表征一致的負樣本隊列,從而克服端到端訓練方法受到顯存容量的限制,只能在一個相對較小的 batch 內尋找負樣本這一缺點,利用更多的負例,從而得到更好的視頻和文本表征。
信息技術的飛速發展使得數據形式逐漸趨向高維化,例如視頻數據、多/高光譜圖像以及交通流量數據等。然而,高維數據往往存在分辨率低,清晰度差的問題,例如低分辨率的多光譜圖像嚴重影響衛星對地面目標的判斷和識別。特別地,遙感衛星除了能獲取低分辨率的多光譜圖像外,通常還能同時拍攝同地域的高分辨率的全色圖像(單光譜灰度圖)。我們能否利用這張高分辨率的全色圖像來有效提高低分辨率多光譜圖像的空間分辨率?全色銳化任務應運而生。全色銳化(Pansharpening)旨在將一張低分辨率的多光譜圖像和一張高分辨率的全色圖像進行融合進而獲得高空間分辨率且多光譜的圖像。
在傳統的神經網絡中,對于圖像上采樣任務通常采用反卷積或者線性插值的方法來實現,但是這些操作對需要同時考慮空間分辨率增強和光譜信息保真的Pansharpening任務并不是十分有效。本文考慮到全色銳化的特殊性,即低分辨率多光譜圖像的不同光譜波段其實反應的是同一場景的地物,這啟發作者探索能否利用同一像素點的不同光譜信息完成圖像上采樣任務。論文提出一種光譜到空間的卷積映射(SSconv),并通過卷積提取豐富的光譜信息,然后將得到的光譜特征圖(Spectral feature)通過一個映射(Mapping)重新排列,進而得到信息無損的特征輸出。在此基礎上,本文針對Pansharpening不同分辨率輸入的特點,搭建了一個多尺度U型深度學習網絡結構(MUCNN),將兩種不同分辨率的已知圖像作為輸入,所提MUCNN可充分利用其潛在的多尺度信息(詳見圖1)。此外,針對不同尺度的輸出構造多尺度損失函數可明顯提高所提方法的效果。實驗結果表明在不同衛星數據集上所提方法均取得當前最優的量化指標(詳見表1),模型的每個結構的有效性均得到消融實驗的驗證。未來,團隊還試圖將此方法推廣到更多圖像融合應用。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
目標檢測器通常在完全標注實例的監督學習情況下獲得很好的結果。但是,對于稀疏實例注釋,它們的性能遠遠不能令人滿意。現有的稀疏標注目標檢測方法主要是對難的負樣本的損失進行重加權,或者將未標注的實例轉換為忽略區域,以減少假陰性的干擾。我們認為這些策略是不夠的,因為它們最多可以減輕由于缺少注釋而造成的負面影響。在本文中,我們提出了一個簡單而有效的機制,稱為協同挖掘,稀疏標注的目標檢測。在協同挖掘中,一個連體網絡的兩個分支相互預測偽標簽集。為了增強多視圖學習和更好地挖掘未標記實例,將原始圖像和相應的增強圖像分別作為Siamese網絡的兩個分支的輸入。協同挖掘可以作為一種通用的訓練機制,應用于大多數現代目標檢測器。在三種不同稀疏注釋設置的MS COCO數據集上進行了實驗,使用兩種典型的框架:基于錨的檢測器RetinaNet和無錨檢測器FCOS。實驗結果表明,與RetinaNet的協同挖掘方法相比,在相同的稀疏標注設置下,相比于不同的基線,改進了1.4%~2.1%,超過了現有的方法。
小規模行人的檢測是行人檢測中最具挑戰性的問題之一。由于缺乏視覺細節,小規模行人的表征往往難以從雜亂的背景中分辨出來。在本文中,我們對小規模行人檢測問題進行了深入的分析,發現小規模行人的弱表征是導致分類器漏檢的主要原因。為了解決這一問題,我們提出了一種新的自模擬學習(SML)方法來提高對小規模行人的檢測性能。我們通過模仿大規模行人的豐富表現來增強小規模行人的表現。具體來說,我們設計了一個模擬損失,迫使小規模行人的特征表征接近大規模行人的特征表征。所提議的SML是一個通用組件,可以很容易地合并到單級和兩級檢測器中,不需要額外的網絡層,在推理期間不需要額外的計算成本。在cityperson和Caltech數據集上進行的廣泛實驗表明,經過模擬損失訓練的檢測器對小規模行人檢測非常有效,并分別在cityperson和Caltech上取得了最好的結果。
//cse.buffalo.edu/~jsyuan/papers/2020/SML.pdf
從語義描述中識別視覺類別是一種很有前途的方法,它可以擴展視覺分類器的能力,使其超越訓練數據中所表示的概念(即看到的類別)。這個問題是由(廣義的)零樣本學習方法(GZSL)解決的,它利用語義描述將它們連接到所看到的類別(例如,標簽嵌入,屬性)。傳統的GZSL主要是為了目標識別而設計的。在本文中,我們關注于零樣本場景識別,這是一個更具挑戰性的設置,有數百個類別,它們的差異可能是微妙的,通常在特定的物體或區域。傳統的GZSL表示不夠豐富,無法捕獲這些局部差別。針對這些限制,我們提出了一個具有兩個新組件的特征生成框架:1)多源語義信息(即屬性、單詞嵌入和描述),2)可以增強場景識別的區域描述。為了生成綜合的視覺特征,我們提出了兩步生成方法,其中局部描述采樣和使用作為條件來生成視覺特征。生成的特征被聚合并與真實的特征一起用來訓練一個聯合分類器。為了對該方法進行評價,我們引入了一種新的具有多語義標注的零樣本場景識別數據集。在該數據集和SUN屬性數據集上的實驗結果表明了該方法的有效性。
//vipl.ict.ac.cn/homepage/jsq/publication/2020-Song-ACMMM.html
在本文中,我們關注的是語義圖像合成任務,目的是將語義標記映射遷移到逼真的圖像。現有的方法在保留語義信息方面缺乏有效的語義約束,忽略了空間維度和通道維度上的結構相關性,導致結果模糊且容易產生假象。為了解決這些限制,我們提出了一種新的對偶注意力GAN (DAGAN),它可以合成具有輸入布局細節的真實照片和語義一致的圖像,而不增加額外的訓練開銷或修改現有方法的網絡結構。我們還提出了兩個新的模塊,即位置-方向的空間注意力模塊和尺度-方向的通道注意模塊,分別用于捕獲空間和通道維度上的語義結構注意力。具體來說,SAM通過空間注意力圖選擇性地將每個位置的像素關聯起來,從而使得具有相同語義標簽的像素無論在空間上的距離如何都相互關聯起來。同時,CAM通過通道注意力圖選擇性地強調每個通道上的標度特征,從而在所有的通道圖中集成相關的特征,而不管它們的標度如何。最后對SAM和CAM的結果進行求和,進一步改進特征表示。在四個具有挑戰性的數據集上進行的廣泛實驗表明,DAGAN取得了比最先進的方法顯著更好的結果,同時使用更少的模型參數。源代碼和經過訓練的模型可以在這個https URL中獲得。
現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。
視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。
//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a