亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

以人為中心的感知在視覺和圖形學中起著至關重要的作用。但是他們的數據注釋非常昂貴。因此,希望有一個通用的預訓練模型,作為數據高效的下游任務轉移的基礎。為此,我們提出了以人為中心的多模態對比學習框架HCMoCo,該框架利用人類數據的多模態特性(如RGB、深度、2D關鍵點)來進行有效的表示學習。該目標面臨兩個主要挑戰: 多模態數據的密集預訓練,稀疏人類先驗的有效利用。**為了解決這一問題,我們設計了一種新型的密集樣本內對比學習和稀疏結構感知對比學習目標,通過層次化學習具有連續和有序特征分布和結構感知語義一致性的模態不變潛空間。**HCMoCo通過組合異構數據集為不同的模態提供預訓練,這允許有效地使用現有的特定于任務的人類數據。在四個不同模式的下游任務上的大量實驗證明了HCMoCo的有效性,特別是在數據效率設置下(DensePose Estimation和Human Parsing提高了7.16%和12%)。此外,通過探索跨模態監督和缺失模態推理,我們證明了HCMoCo的多功能性,驗證了它在跨模態聯想和推理方面的強大能力。

//www.zhuanzhi.ai/paper/3e8a73c1d485a5e417b1e659558792c0

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

基于純視覺的三維目標檢測是現階段自動駕駛系統中的重要感知技術,為下游模塊提供周圍環境中物體的位置和類別信息,在學術界和工業界都受到廣泛的關注。該方法大幅提高了檢測性能,有希望推動純視覺方法的應用落地。

該項研究提出了一種偽雙目三維目標檢測框架,并通過兩種方式生成偽雙目視角完成三維目標檢測任務:(1)在圖像層面利用左圖和預估視差圖生成虛擬右圖;(2)在特征層面利用左圖特征和預估視差特征生成虛擬右特征,與圖像層面相比,該方式顯著提高了生成速度**(0.0017s V.S. 1.8454s)**。在CVPR 2022截至投稿前,該方法在廣泛使用的KITTI自動駕駛單目圖像三維目標檢測公開排行榜上在所有類別的檢測性能上均排名第一。

//www.zhuanzhi.ai/paper/3e54d98cd3799503389c0876bae65b11

付費5元查看完整內容

Vision Prompt Tuning

Xing Nie, Gaofeng Meng, Jianlong Chang, Chunlei Huo, Shiming Xiang, Qi Tian, Zhaoxiang Zhang, Chunhong Pan

在計算機視覺中,微調是一種實用的利用預先訓練的視覺模型來執行下游任務的方法。然而,由于這類方法多采用低效的全局參數更新策略,以及嚴重依賴于高質量的下游數據,在實踐中部署非常具有挑戰性。最近,基于prompt learning的方法增加了與任務相關的提示以使下游任務適應預訓練模型,極大地提高了許多自然語言下游任務的性能。在這項工作中,我們將這種顯著的遷移能力擴展到視覺模型中,作為微調的替代方案。為此,我們提出了視覺提示調整(VPT),這是一種參數有效的視覺調整范式,可將凍結的視覺模型適應到下游數據。VPT 的關鍵是基于提示的調優,即只學習與輸入圖像連接的特定任務視覺提示,并凍結預訓練模型。通過這種方式,VPT 只需訓練少量額外參數即可生成緊湊且穩健的下游模型。大量實驗有力地證明,我們的方法在十五個下游視覺數據集上優于當前的調整范例,包括圖像損壞、對抗性示例、長尾分布和OOD問題等。

VPT結構示意圖

付費5元查看完整內容

視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。

//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9

付費5元查看完整內容

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。

//www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448

付費5元查看完整內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

即使有可靠的OCR模型,要回答需要在圖片中閱讀文字的問題,也對現有模型構成了一個挑戰。其中最困難的是圖片中經常有罕見字,多義字,比如地名,產品名,球隊名。

為了克服這個困難,我們的模型利用了圖片中多個模態的豐富信息來推測圖片中文字的語義,例如酒瓶上顯眼位置的字樣很可能是酒名。

有了這樣的直觀感受,我們設計了一個新的VQA模型---多模態圖神經網絡(MM-GNN)。它會首先構建一個具有三個子圖的特征節點圖,分別描述視覺,文字,和數字模態。此后,我們設計了三個融合子,在子圖間或子圖內進行信息傳遞。增強過后的節點特征被證明可以很好地幫助下游任務,我們在ST-VQA和Facebook的Text-VQA上都取得了SOTA的成績。

付費5元查看完整內容
北京阿比特科技有限公司