背景:實際應用中,由于數據采集和傳輸過程的復雜性,數據可能會丟失部分視圖,這就導致了信息不完備下的視圖缺失問題(Incomplete Multi-view Problem, IMP)。例如在線會議中,一些視頻幀可能由于傳感器故障而丟失了視覺或音頻信號。針對該問題,過去十多年已提出了一些不完全多視圖聚類方法(Incomplete Multi-view Clustering, IMC)并取得了顯著效果。但IMP仍面臨兩個主要挑戰:1)如何在不利用標簽信息的情況下學習一致的多視圖公共表示;2)如何從部分缺失的數據中還原完整的數據。
//pengxi.me/wp-content/uploads/2021/03/2021CVPR-completer.pdf
創新:針對上述挑戰,受近期Tsai等在ICLR2021上發表的工作所啟發,本文提供了一個新的不完全多視圖聚類見解,即不完全多視圖聚類中的數據恢復和一致性學習是一體兩面的,兩者可統一到信息論的框架中。這樣的觀察和理論結果與現有的將一致性學習和數據恢復視為兩個獨立問題的工作有很大的不同。簡要地,從信息論角度出發,互信息能用于量化跨視圖表示間的一致性,而條件熵可用于量化跨視圖的可恢復性。因此,一方面,最大化互信息與最小化條件熵將分別增加共享的信息量與數據的可恢復性。另一方面,同時最大化互信息與最小化條件熵兩個目標又互為補充,相互促進。與Tsai等人的工作的不同之處在于,他們主要是在信息論框架下利用預測學習改進對比學習的性能,沒有如本文一樣考慮到缺失視圖下的一致性和可恢復性的學習。
方法:基于上述觀察,論文提出了對偶預測范式并將其與對比學習結合,通過一個新的損失函數實現了跨視圖一致性與可恢復性的聯合優化。提出的損失函數包括三部分:1)視圖內重構損失,主要用于學習各個視圖數據的視圖特殊表示,由一系列獨自的自編碼器重構損失組成;2)跨視圖對比學習損失,通過最大化不同視圖間的互信息學習多視圖一致性;3)跨視圖對偶預測損失,通過最小化視圖表示的條件熵進而實現視圖數據恢復。
在半監督領域自適應問題的目標域數據中對每個類別賦予少量有標簽樣本可引導其余的無標簽目標域樣本的特征聚集在它們周圍。但是,如此經過訓練后的模型無法為目標域生成具有高度區分性的特征表示,因為訓練過程主要由來自源域的有標簽樣本主導。這就可能導致有標簽和無標簽的目標域樣本之間的特征缺乏連結以及目標域和源域樣本之間的特征進行錯位對齊。在本文中,作者們提出了一種新的被稱為跨域自適應聚類的算法來解決這個問題。為了同時實現不同領域間和同一領域內的自適應,我們首先引入了一個對抗性自適應聚類損失函數來對無標簽目標域樣本的特征進行分組聚類,并在源域和目標域之間以聚類簇的形式進行跨域特征對齊。另外,我們進一步將“Pseudo labeling”技術應用于目標域中無標簽樣本,并對具有較高的置信度的樣本賦予“偽標簽”。該技術擴充了目標域中每個類別的“有標簽樣本”的數量使得每個類別可以產生了更加魯棒、強大的聚類簇中心,從而促進對抗學習過程。我們在包括DomainNet、Office-Home和Office在內的基準數據集上進行的大量實驗,結果表明我們所提出的方法能夠在半監督域自適應中實現最優性能。
論文鏈接://www.zhuanzhi.ai/paper/bca546caa350082ff63382cc18636077
代碼鏈接:
一種基于知識蒸餾的弱監督圖像文本匹配模型
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation
本文由騰訊 AI Lab 主導完成。弱監督的圖像文本匹配旨在學習僅使用圖像句子的對應來得到細顆粒度的圖像區域和短語的對應. 因此,主要的挑戰在于訓練期間圖像區域和句子短語之間缺少匹配的數據。
為了應對這一挑戰,我們在訓練時利用了通用的物體檢測器知識蒸餾,并提出了利用對比學習來得到圖像和文本細顆粒度匹配的新方法。我們的方法在弱監督的視覺區域和短語匹配任務上超越了以前的方法。
近年來,由于多模態數據的快速增長,跨模態檢索受到了研究者的廣泛關注,它將一種模態的數據作為查詢去檢索其它模態的數據。例如,用戶可以用文本檢索圖像或/和視頻。由于查詢及其檢索結果模態表征的差異,如何度量不同模態之間的相似性是跨模態檢索的主要挑戰。隨著深度學習技術的推廣以及其在計算機視覺、自然語言處理等領域的顯著成果,研究者提出了一系列以深度學習為基礎的跨模態檢索方法,極大地緩解了不同模態間相似性度量的挑戰,本文稱之為深度跨模態檢索。本文將從以下角度綜述近些年來代表性的深度跨模態檢索論文,基于所提供的跨模態信息將這些方法分為三類:基于跨模態數據間一一對應的、基于跨模態數據間相似度的以及基于跨模態數據語義標注的深度跨模態檢索。一般來說,上述信息呈現遞增的情況,且提供學習的信息越多,跨模態檢索性能越優。在上述不同類別下,涵蓋了七類主流技術,即典型相關分析、一一對應關系保持、度量學習、似然分析、學習排序、語義預測以及對抗學習。不同類別下包含其中部分關鍵技術,其中代表性方法將被具體闡述。同時本文將對比提供不同跨模態數據信息下不同技術的區別,以闡述在提供了不同層次的跨模態數據信息下相關技術的關注點與使用異同。為評估不同的跨模態檢索方法,本文總結了部分代表性的跨模態檢索數據庫。最后本文討論了當前深度跨模態檢索待解決的問題以及未來的研究方向。
本項研究針對深度傳感系統獲取的場景深度圖像分辨率低和細節丟失等問題,突破現有基于彩色指導的場景深度復原方法的局限性,即在訓練及測試階段同時需要高分辨率彩色圖像和降質深度圖像作為網絡輸入來估計高質量深度圖像(在實際測試環境中,同視角的高分辨率彩色輔助信息并不容易獲得)。首次提出基于跨任務場景結構知識遷移的單一場景深度圖像超分辨率方法,在訓練階段從彩色圖像蒸餾出場景結構信息來輔助提升深度復原性能,而測試階段僅提供單張降質深度圖像作為輸入即可實現深度圖像重建。該算法框架同時構造了深度估計任務(彩色圖像為輸入估計深度信息)及深度復原任務(低質量深度為輸入估計高質量深度),并提出了基于師生角色交換的跨任務知識蒸餾策略以及不確定度引導的結構正則化學習來實現雙邊知識遷移,通過協同訓練兩個任務來提升深度超分辨率任務的性能。在實際部署和測試中,所提出的方法具有模型輕量化,算法速度快等特點,且在缺少高分辨率彩色信息輔助的情況下仍可獲得優異的性能。
//faculty.dlut.edu.cn/yexinchen/zh_CN/zdylm/1123985/list/index.htm
以往的人臉圖像質量評估研究大多以樣本層面不確定性或配對相似度作為質量評分標準,而且只考慮部分類內信息。這些方法忽略了來自類間有價值的信息。在本研究中,對于人臉識別系統,我們認為一個高質量的人臉圖像應該與其類內樣本相似,而與其類間樣本不相似,如圖1所示。為此,我們提出了一種基于類內-類間相似度分布距離的無監督人臉質量評估方法(SDD-FIQA)。
//www.zhuanzhi.ai/paper/b51b03b10fb5b413e14282835e0e8a6a
該方法從人臉識別的性能影響因子出發,從理論上推導出人臉樣本類間相似度分布與人臉圖像質量高度相關,利用類內相似度分布和類間相似度分布之間的Wasserstein距離生成人臉圖像質量偽標簽。然后,利用這些質量偽標簽進行無監督訓練一個人臉質量回歸網絡,從而獲得一個質量評估模型。大量實驗表明,在各大人臉識別的基準數據集上,提出的SDD-FIQA方法在不同的人臉識別系統下,精度和泛化能力都達到國際最先進水平。
主要創新點:1)發現了人臉樣本類間相似度分布與人臉圖像質量高度相關;2)提出了類內-類間相似度分布距離的概念;3)從理論上導出了人臉圖像質量與類內-類間相似度分布距離直接相關;4)提出了利用Wasserstein準則度量類內-類間相似度分布距離,并用于人臉圖像質量評分;5)實現了一種完全無監督的人臉圖像質量評估算法,性能最優。
論文題目:Counterfactual VQA: A Cause-Effect Look at Language Bias
作者:牛玉磊,湯凱華,張含望,盧志武,華先勝,文繼榮
論文概述:近期研究發現,視覺問答模型在訓練過程中會傾向于探索數據中的語言偏差,并依賴語言偏差進行推理和作答。這一傾向使得視覺問答模型未能充分地從視覺和語言兩個模態中學習多模態知識,進而做出錯誤的回答。本文研究如何將視覺問答任務中的語言偏差進行捕獲并去除。本文從因果推理的視角出發,提出了一種全新的基于反事實推斷的視覺問答框架。反事實推斷框架將語言偏差建模為問題對答案的直接因果效應,并通過從總體因果效應中減去語言的直接效應的方式去除語言偏差。實驗證明反事實推斷框架能夠有效地克服語言偏差的影響,并具有良好的泛化性和魯棒性。此外,本文從因果推理的角度為部分相關工作提供了理論解釋。
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
我們介紹了一種通過對比圖的結構視圖來學習節點和圖級表示的自監督方法。我們表明,與視覺表示學習不同,增加視圖數量到兩個以上或對比多尺度編碼不會提高性能,而最佳性能是通過對比一階鄰居編碼和圖擴散來實現的。在線性評估協議下,我們在8個節點中的8個和圖分類基準上實現了新的最先進的自監督學習結果。例如,在Cora(節點)和reddy - binary(圖形)分類基準上,我們實現了86.8%和84.5%的準確率,相對于之前的最先進水平分別提高了5.5%和2.4%。與監督基準相比,我們的方法在8個基準中有4個優于監督基準。