本文由騰訊 AI Lab 主導,與清華大學、電子科技大學、香港中文大學(深圳)合作完成。為了生成“精確”表述的場景圖,幾乎所有現有的方法都以確定性的方式預測成對關系,我們認為視覺關系在語義上往往具有模糊歧義性。
具體來說,受語言學知識的啟發,我們將歧義分為三類:同義歧義、上下義歧義和多視點歧義。這種模糊性自然會導致隱性多標簽問題,也激發了對預測多樣性的需求。在這項工作中,我們提出了一個新的即插即用概率不確定性建模(PUM)模塊。它將每個聯合區域建模為高斯分布,其方差度量相應視覺內容的不確定性。與傳統的確定性方法相比,這種不確定性建模帶來了特征表示的隨機性,使得預測具有多樣性。作為一個副產品,PUM還能夠覆蓋更細粒度的關系,從而減輕對頻繁關系的偏見。
在大規模視覺數據集上的大量實驗表明,將PUM與新提出的ResCAGCN相結合可以在平均召回度量下獲得最佳性能。此外,我們通過將PUM插入到一些現有模型中,證明了PUM的普適性,文中也對其生成多樣化但合理的視覺關系的能力進行了深入分析。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39
時序動作提名生成旨在從一段未修剪的長視頻當中生成包含可能存在人類動作的視頻片段,其結合具體的動作類別標簽即構成時序動作檢測任務。目前的方法大多致力于生成靈活準確的時序邊界與可靠的提名置信度,但是仍然受限于匱乏的視頻時序依賴和動作邊界建模,導致了充滿噪聲的候選提名邊界和質量欠佳的置信度分數。
目前主流的時序動作提名生成方法主要分為兩步,首先對輸入的視頻特征序列進行簡單的時序信息融合,然后使用基于邊界預測的方法或者是基于預定義錨點框回歸的方法生成可能包含人體動作的大量候選時序提名。
//www.zhuanzhi.ai/paper/e551d60b61b78e5324762d4cff4bff29
本文提出了一個用于時序動作提名修正的端到端框架。該方法主要針對現有主流時序動作提名生成方法中的兩步驟分別進行改進:
在第一步中,現有方法大多使用堆疊的1D時序卷積進行簡單的時序信息融合,然而,1D卷積在計算不同時序點之間的位置關系時,受限于卷積核的形狀和尺寸,雖然可以較好地建模短期的時序依賴,但是對于靈活多變的上下文關系則望塵莫及。部分辦法選擇了全局融合的方式實現了對全局特征的捕獲,但是直接使用全局池化之后的特征拼接到整個視頻特征序列上的每一個時刻位置,導致每一個時刻獲得的全局信息都是相同的,由此捕獲的時序依賴關系相對固定,缺乏多樣性和區分度,無法充分建模多樣的長時序依賴關系。
在第二步中,基于預定義錨點框回歸的方法可以提供基于提名全局特征的可靠置信度分數,然而直接使用提名的全局特征對于其局部邊界的準確位置不夠敏感,況且預定義尺度和比例的提名時序長度往往非常受限,不夠靈活,無法生成任意長度的候選提名。基于邊界預測的方法利用邊界的局部特征判斷一個時間點是否屬于動作邊界,對動作的起止邊緣比較敏感,并且使用邊界匹配機制來生成大量靈活的動作提名,獲得較高的召回率。由于缺乏客觀的提名特征,其置信度不夠可靠,導致其準確率較低。
參考鏈接:
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間,尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字,對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題),有多個同樣有意義的標題(分別是圖像)。在本文中,我們認為確定性函數不足以捕獲這種一對多對應。相反,我們提出使用概率交叉模態嵌入(PCME),來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題,我們建議額外評估CUB數據集上的檢索,這是一個更小但更干凈的數據庫,其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME,并證明它不僅提高了檢索性能,其確定性對等物,但也提供不確定性估計,使嵌入更可解釋。
場景圖以結構化、符號化的方式將圖像的高層內容進行了概括,兩幅圖像的場景圖之間的相似性反映了其內容的相關性。基于這一思想,我們提出了一種利用圖神經網絡測量場景圖相似度的圖像到圖像檢索新方法。在我們的方法中,圖神經網絡被訓練來預測代理圖像的關聯度量,使用預先訓練的句子相似度模型從人工標注的標題計算。我們收集并發布由人類標注員測量的圖像相關性數據集,以評估檢索算法。收集到的數據集表明,我們的方法比其他基準方法更符合人類對圖像相似性的感知。
在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。
基于場景圖分解的自然語言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition
本文由騰訊 AI Lab 主導,與威斯康星大學麥迪遜分校合作完成,提出了一種基于場景圖分解的自然語言描述生成方法。
使用自然語言來描述圖像是一項頗具挑戰性的任務,本文通過重新回顧圖像場景圖表達,提出了一種基于場景圖分解的圖像自然語言描述生成方法。該方法的核心是把一張圖片對應的場景圖分解成多個子圖,其中每個子圖對應描述圖像的一部分內容或一部分區域。通過神經網絡選擇重要的子圖來生成一個描述圖像的完整句子,該方法可以生成準確、多樣化、可控的自然語言描述。研究者也進行了廣泛的實驗,實驗結果展現了這一新模型的優勢。
如圖所示,新方法從輸入圖像生成場景圖,并且分解為一系列子圖。本文設計了一個子圖生成網絡(sGPN),用于學習識別有意義的子圖,這些子圖基于注意力的 LSTM 可以進一步解碼生成句子,并且將短語匹配到圖節點對應的圖像區域。通過利用子圖,模型可實現準確、多樣化且可控制的圖像描述生成。