亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文和【可解釋性】相關論文和代碼,反響熱烈。最近,視覺目標跟蹤領域出現了很多不同的框架和方法,CVPR 2019已經陸續放出十幾篇相關文章,這一領域近期也受到大家廣泛的關注。今天小編專門整理最新九篇視覺目標跟蹤相關應用論文—無監督視覺跟蹤、生成對抗網絡、三維Siamese跟蹤、SiamMask、SiamRPN++、SPM-Tracker等。

1、Unsupervised Deep Tracking (無監督的深度跟蹤)

CVPR ’19

作者:Ning Wang, Yibing Song, Chao Ma, Wengang Zhou, Wei Liu, Houqiang Li

摘要:我們在本文中提出了一種無監督視覺跟蹤方法。與現有的使用大量標注數據進行監督學習的方法不同,我們的CNN模型是以一種無監督的方式對大規模無標記視頻進行訓練的。我們的動機是,一個健壯的跟蹤器應該在前向和后向預測中都是有效的(即,跟蹤器可以在連續幀中對目標對象進行前向定位,并在第一幀中回溯到目標對象的初始位置)。我們在Siamese相關濾波器網絡上構建了我們的框架,該網絡使用未標記的原始視頻進行訓練。同時,我們提出了一種多幀驗證方法和代價敏感的損失函數,以方便無監督學習。在沒有監督信息的情況下(without bells and whistles),所提出的無監督跟蹤器達到了完全監督跟蹤器的baseline精度,這需要在訓練過程中完整且準確的標簽。此外,無監督框架顯示了利用無標記或弱標記數據進一步提高跟蹤精度的潛力。

網址:

//arxiv.org/abs/1904.01828

代碼鏈接:

2、Target-Aware Deep Tracking( 目標感知的深度跟蹤)

CVPR ’19

作者:Xin Li, Chao Ma, Baoyuan Wu, Zhenyu He, Ming-Hsuan Yang

摘要:現有的深度跟蹤器主要使用卷積神經網絡對泛型目標識別任務進行預處理來表示。盡管在許多視覺任務中都取得了成功,但是使用預先訓練的深度特征進行視覺跟蹤的貢獻不如目標識別那么重要。關鍵問題是,在視覺跟蹤中的目標的可以是任意對象類與任意形式。因此,預先訓練的深層特征在建模這些任意形式的目標時效果較差,無法將它們從背景中區分出來。在本文中,我們提出了一種新的學習目標感知特征的方法,該方法能夠比預訓練的深度特征更好地識別發生顯著外觀變化的目標。為此,我們提出了回歸損失和排名損失來指導目標活動和尺度敏感特征的生成。我們根據反向傳播的梯度來識別每個卷積濾波器的重要性,并基于用于表示目標的激活來選擇目標感知特征。目標感知特征與Siamese匹配網絡集成,用于視覺跟蹤。大量的實驗結果表明,該算法在精度和速度上均優于現有的算法。

網址:

代碼鏈接:

3、MOTS: Multi-Object Tracking and Segmentation(MOTS:多目標跟蹤和分割)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:本文將多目標跟蹤的流行任務擴展到多目標跟蹤與分割(MOTS)。為此,我們使用半自動標注程序為兩個現有跟蹤數據集創建密集的像素級標注。我們的新標注包含了10870個視頻幀中977個不同對象(汽車和行人)的65,213個像素掩碼。為了進行評估,我們將現有的多對象跟蹤指標擴展到這個新任務。此外,我們提出了一種新的baseline方法,該方法通過單個卷積網絡共同解決檢測,跟蹤和分割問題。在對MOTS標注進行訓練時,我們通過提高性能來展示數據集的價值。我們相信,我們的數據集、度量metrics和baseline將成為開發超越二維邊界框的多對象跟蹤方法的寶貴資源。我們的注釋,代碼和模型可以在

網址:

代碼鏈接:

4、Leveraging Shape Completion for 3D Siamese Tracking(利用形狀補全三維Siamese跟蹤)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:點云由于其稀疏性,處理起來很有挑戰性,因此自動駕駛車輛更多地依賴于外觀屬性,而不是純粹的幾何特征。然而,三維激光雷達感知在具有挑戰性的光或天氣條件下可以為城市導航提供重要的信息。本文研究了形狀補全Shape Completion在LIDAR點云三維目標跟蹤中的通用性。我們設計了一個Siamese追蹤器,將模型和候選形狀編碼成一個緊湊的潛在表示。我們通過強制將潛在表示解碼為對象模型形狀來規范編碼。我們觀察到,三維物體跟蹤和三維形狀補全Shape Completion是相輔相成的。學習更有意義的潛在表示可以顯示更好的區分能力,從而提高跟蹤性能。我們在KITTI Tracking數據集上使用汽車3D bounding boxes測試了我們的方法。我們的模型對三維目標跟蹤的成功率為76.94%,精度為81.38%,形狀補全Shape Completion正則化使得兩種指標都提高了3%。

網址:

代碼鏈接:

5、LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(LaSOT:基于大規模單目標跟蹤的高質量基準)

CVPR ’19

作者:Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling

摘要:本文提出了一種用于大規模單目標跟蹤的高質量基準LaSOT。LaSOT由1400個序列組成,總幀數超過350萬。這些序列中的每一幀都小心翼翼地用一個邊界框手工標注,使LaSOT成為我們所知最大的、標注密集的跟蹤基準。LaSOT的平均視頻長度超過2500幀,每個序列都包含來自野外的各種挑戰,在野外,目標對象可能會消失,然后重新出現在視圖中。通過發布LaSOT,我們希望為社區提供一個大規模、高質量的專用基準,用于深度跟蹤器的訓練和跟蹤算法的真實評估。此外,考慮到視覺外觀與自然語言的緊密聯系,我們通過提供額外的語言規范來豐富LaSOT,旨在鼓勵探索自然語言特征來進行跟蹤。對LaSOT上的35種跟蹤算法進行了全面的實驗評估,并進行了詳細的分析,結果表明,該算法仍有很大的改進空間。

網址:

6、Fast Online Object Tracking and Segmentation: A Unifying Approach(快速在線目標跟蹤和分割: 一種統一的方法)

CVPR ’19

作者:Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr

摘要:在本文中,我們將介紹如何用一種簡單的方法實時地執行視覺目標跟蹤和半監督視頻目標分割。我們的方法,稱為SiamMask,改進了流行的全卷積Siamese方法的離線訓練過程,通過一個二值分割任務增加了它們的損失。經過訓練,SiamMask完全依賴于單個邊界框初始化并在線操作,生成與類無關的目標分割掩碼,并以每秒35幀的速度旋轉邊界框。它不僅具有簡單性、多功能性和快速性,還使我們能夠在VOT-2018上建立一個新的最好的實時跟蹤器,同時在DAVIS-2016和DAVIS-2017上展示出具有競爭力的性能和半監督視頻對象分割任務的最佳速度。

網址:

代碼鏈接:

7、SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(SiamRPN++: 使用深層網絡的Siamese視覺跟蹤演化)

CVPR ’19

作者:Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan

摘要:基于Siamese網絡的跟蹤器將跟蹤描述為目標模板與搜索區域之間的卷積特征互相關聯。然而,與最先進的算法相比,Siamese跟蹤器仍然存在精度上的差距,它們無法利用深度網絡(如ResNet-50或更深)的特性。在本文中,我們證明了其核心原因是缺乏嚴格的翻轉不變性。通過全面的理論分析和實驗驗證,我們通過一種簡單有效的空間感知采樣策略打破了這一限制,成功地訓練了一個性能顯著提高的ResNet驅動的Siamese跟蹤器。此外,我們提出了一種新的模型架構來執行深度和層次的聚合,這不僅進一步提高了精度,而且減少了模型的大小。我們進行了廣泛的消融研究來證明所提出的跟蹤器的有效性,該跟蹤器目前在OTB2015、VOT2018、UAV123和LaSOT四個大型跟蹤基準上獲得了最佳結果。我們的模型將會發布,以方便研究人員基于這個問題做進一步的研究。

網址:

代碼鏈接:

8、Deeper and Wider Siamese Networks for Real-Time Visual Tracking(更深入和更廣泛的Siamese網絡實時視覺跟蹤)

CVPR ’19

作者:Zhipeng Zhang, Houwen Peng

摘要:Siamese網絡以其均衡的精度和速度在視覺跟蹤領域引起了廣泛的關注。然而,Siamese跟蹤器中使用的主干網絡相對較淺,如AlexNet[18],沒有充分利用現代深度神經網絡的優勢。在本文中,我們研究如何利用更深更廣的卷積神經網絡來提高跟蹤的魯棒性和準確性。我們注意到,用現有的強大架構(如ResNet[14]和Inception[33])直接替換主干網絡并不能帶來改進。主要原因是1)神經元接受域的大量增加導致特征識別率和定位精度下降;2)卷積的網絡padding導致了學習中的位置偏差。為了解決這些問題,我們提出了新的residual模塊,以消除padding的負面影響,并進一步設計使用這些模塊的新的架構控制感知域大小和網絡步長。設計的架構非常輕巧,并且在應用于SiamFC [2]和SiamRPN [20]時保證了實時跟蹤速度。實驗表明,僅由于提出的網絡架構,我們的SiamFC+和SiamRPN+在OTB-15、VOT-16和VOT-17數據集上分別獲得了9.8%/5.7% (AUC)、23.3%/8.8% (EAO)和24.4%/25.0% (EAO)的相對改進[2,20]。

網址:

代碼鏈接:

9、SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking(SPM-Tracker: 用于實時視覺目標跟蹤的串并聯匹配機制)

CVPR ’19

作者:Guangting Wang, Chong Luo, Zhiwei Xiong, Wenjun Zeng

摘要:視覺目標跟蹤面臨的最大挑戰是同時要求魯棒性和識別能力。為了解決這一問題,本文提出了一種基于SiamFC的跟蹤器,SPM-Tracker。基本思想是在兩個獨立的匹配階段處理這兩個需求。粗匹配(CM)階段通過廣義訓練增強了魯棒性,而精細匹配(FM)階段通過遠程學習網絡增強了分辨能力。當CM階段的輸入提議由CM階段生成時,這兩個階段串聯連接。當匹配分數和box位置細化被融合在一起產生最終結果時,它們也被并行連接。這種創新的串并聯結構充分利用了兩個階段,從而實現了卓越的性能。該SPM-Tracker在GPU上運行速度為120fps,在OTB-100上的AUC為0.687,在VOT-16上的EAO為0.434,顯著超過其他實時跟蹤器。

網址:

鏈接: 提取碼:ydw4

付費5元查看完整內容

相關內容

標跟蹤是指:給出目標在跟蹤視頻第一幀中的初始狀態(如位置,尺寸),自動估計目標物體在后續幀中的狀態。 目標跟蹤分為單目標跟蹤和多目標跟蹤。 人眼可以比較輕松的在一段時間內跟住某個特定目標。但是對機器而言,這一任務并不簡單,尤其是跟蹤過程中會出現目標發生劇烈形變、被其他目標遮擋或出現相似物體干擾等等各種復雜的情況。過去幾十年以來,目標跟蹤的研究取得了長足的發展,尤其是各種機器學習算法被引入以來,目標跟蹤算法呈現百花齊放的態勢。2013年以來,深度學習方法開始在目標跟蹤領域展露頭腳,并逐漸在性能上超越傳統方法,取得巨大的突破。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。

1. Grid-GCN for Fast and Scalable Point Cloud Learning

作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann

摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。

網址://arxiv.org/abs/1912.02984

2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning

作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha

摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。

網址:

3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

作者:Abduallah Mohamed and Kun Qian

摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。

網址:

代碼鏈接:

4. Unbiased Scene Graph Generation from Biased Training

作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang

摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。

網址:

代碼鏈接:

5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences

作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao

摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。

網址:

付費5元查看完整內容

【導讀】最近小編推出CVPR2019圖卷積網絡、CVPR2019生成對抗網絡、【可解釋性】,CVPR視覺目標跟蹤,CVPR視覺問答,醫學圖像分割,圖神經網絡的推薦相關論文,反響熱烈。最近,Domain Adaptation(域自適應)相關研究非常火熱,一部分也是由于GAN、GNN以及其他一些的網絡結構的啟發,基于Domain Adaptation的工作在今年CVPR 2019上出現了大量的論文。今天小編專門整理最新九篇Domain Adaptation(域自適應)—類別級對抗、域對稱網絡、可遷移原型網絡、可遷移原型網絡、通用域自適應等。

DANN-梯度反轉層

1、Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation(域遷移: 類別級對抗用于語義一致的域自適應)

CVPR ’19 Oral

作者:Yawei Luo, Liang Zheng, Tao Guan, Junqing Yu, Yi Yang

摘要:我們考慮了語義分割中的無監督域自適應問題。該任務的關鍵在于減少域遷移,即,強制兩個域的數據分布相似。一種流行的策略是通過對抗學習來對齊特征空間的邊緣分布。但是,這種全局對齊策略不考慮局部類別的特征分布。全局遷移的一個可能結果是,一些原本在源域和目標域之間很好地對齊的類別可能被錯誤地映射。為了解決這一問題,本文引入了一種類別級的對抗網絡,旨在在全局對齊的趨勢下增強局部語義一致性。我們的想法是仔細研究類級別的數據分布,并將每個類與自適應的對抗損失對齊。具體地說,我們減少了類級別對齊特征的對抗性損失的權重,同時增加了對齊較差的特征的對抗性。在這個過程中,我們通過一種聯合訓練方法來決定一個特征在源域和目標域之間的類別級對齊程度。在兩個領域適應任務中,即GTA5 - > Cityscapes和SYNTHIA - > Cityscapes,我們驗證所提出的方法在分割準確性方面與現有技術相匹配。

網址:

//arxiv.org/abs/1809.09478

代碼鏈接:

2、AdaGraph: Unifying Predictive and Continuous Domain Adaptation through Graphs(AdaGraph: 通過圖形統一預測和連續域自適應)

CVPR ’19 Oral

作者:Massimiliano Mancini, Samuel Rota Bulò, Barbara Caputo, Elisa Riccici

摘要:分類能力是視覺智能的基石,也是人工自主視覺機器的關鍵功能。 如果沒有能夠適應和概括跨視域的算法,這個問題將永遠無法解決。在域自適應和泛化的背景下,本文重點研究預測域自適應場景,即沒有目標數據可用的情況下,系統必須學習從帶注釋的源圖像和來自輔助域的帶關聯元數據的未標記樣本進行泛化。我們的貢獻是第一個解決預測域適應的深層架構,能夠通過圖利用輔助域帶來的信息。此外,我們提出了一種簡單而有效的策略,允許我們在測試時在連續的域適應場景中利用傳入的目標數據。在三個基準數據庫上的實驗支持驗證了我們的方法的價值。

網址:

3、Sliced Wasserstein Discrepancy for Unsupervised Domain Adaptation(基于Sliced Wasserstein Discrepancy的無監督域自適應)

CVPR ’19

作者:Chen-Yu Lee, Tanmay Batra, Mohammad Haris Baig, Daniel Ulbricht

摘要:在這項工作中,我們將兩個不同的無監督域自適應概念連接起來:利用特定于任務的決策邊界和Wasserstein度量在域之間進行特征分布對齊。我們提出的Sliced Wasserstein Discrepancy (SWD)旨在捕捉任務特定分類器輸出之間的自然差異概念。它提供了一個幾何上有意義的指導來檢測遠離源支持的目標樣本,并以端到端可訓練的方式實現有效的分布對齊。在實驗中,我們驗證了該方法在數字和符號識別、圖像分類、語義分割和目標檢測等方面的有效性和通用性。

網址:

4、Domain-Symmetric Networks for Adversarial Domain Adaptation(用于對抗域自適應的域對稱網絡)

CVPR ’19

作者:Yabin Zhang, Hui Tng, Kui Jia, Mingkui Tan

摘要:無監督域自適應是在給定源域上有標記樣本訓練數據的情況下,學習目標域上未標記樣本的分類器模型。最近,通過對深度網絡的域對抗訓練來學習不變特征,取得了令人矚目的進展。盡管近年來的研究取得了一定的進展,但域自適應在較細類別水平上實現特征分布的不變性方面仍然存在一定的局限性。為此,本文提出了一種新的域自適應方法——域對稱網絡(SymNets)。SymNet是基于源域和目標域任務分類器的對稱設計,在此基礎上,我們還構造了一個額外的分類器,與它們共享其層神經元。為了訓練SymNet, 我們提出了一種新穎的對抗學習目標函數,其關鍵設計是基于一個two-level域混淆方案, 通過推動中間網絡特征的學習,類級別的混淆損失在域級別上得到改善。在構造的附加分類器的基礎上,實現了域識別和域混淆。由于目標域樣本是無標記的,我們還提出了一種跨域訓練的方法來幫助學習目標分類器。仔細的消融研究表明我們提出的方法是有效的。特別是,基于常用的基本網絡,我們的symnet在三個基準域自適應數據集上實現了最新的技術水平。

網址:

5、Transferrable Prototypical Networks for Unsupervised Domain Adaptation(基于可遷移原型網絡的無監督域自適應)

CVPR'19 Oral

作者:Yingwei Pan, Ting Yao, Yehao Li, Yu Wang, Chong-Wah Ngo, Tao Mei

摘要:本文提出了一種通過重構原型網絡實現無監督域自適應的新方法,該方法通過學習嵌入空間,通過重構每個類到原型的距離進行分類。具體地說,我們提出了可遷移原型網絡(TPN)的自適應算法,使源域和目標域的每個類的原型在嵌入空間上接近,并且原型在源域和目標域數據上分別預測的得分分布是相似的。從技術上講,TPN最初將每個目標域示例與源域中最近的原型匹配,并為一個示例分配一個“偽”標簽。每個類的原型可以分別在純源域、純目標域和純源目標域數據上計算。TPN的優化是通過在三種數據上聯合最小化原型之間的距離和由每對原型輸出的得分分布的KL -散度來進行端到端訓練的。對MNIST、USPS和SVHN數據集之間的遷移進行了廣泛的實驗,與最先進的方法相比,報告了更好的結果。更值得注意的是,我們在VisDA 2017數據集上獲得了80.4%的單模型準確度。

網址:

6、Contrastive Adaptation Network for Unsupervised Domain Adaptation(基于對比自適應網絡的無監督域自適應)

CVPR'19

作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G Hauptmann

摘要:無監督域自適應(UDA)對目標域數據進行預測,而手工標注只在源域中可用。以往的方法在忽略類信息的情況下,最大限度地減小了域間的差異,從而導致了不一致和泛化性能差。為了解決這一問題,本文提出了一種新的比較自適應網絡(CAN)優化度量,它明確地對類內域和類間域的差異進行了建模。我們設計了一種交替的更新策略,以端到端方式訓練CAN。在office31和VisDA-2017這兩個真實世界基準測試上的實驗表明,相對于最先進的方法,該方法可以獲得更好的性能,并產生更多的區別性特征。

網址:

7、Universal Domain Adaptation(通用域自適應)

CVPR ’19

作者:Kaichao You, Mingsheng Long, Zhangjie Cao, Jianmin Wang, and Michael I. Jordan

摘要:域適應的目的是在存在域差距的情況下遷移知識。現有的域自適應方法依賴于對源域和目標域的標簽集之間關系的豐富先驗知識,這極大地限制了它們在實際中的應用。本文介紹了一種不需要標簽集先驗知識的通用域自適應算法(UDA)。對于給定的源域標簽集和目標域標簽集,它們可能分別包含一個公共標簽集和一個私有標簽集,從而帶來額外的類別差異。UDA要求一個模型 (1)正確地分類目標樣本,如果它與公共標簽集中的標簽相關聯,或者 (2) 將其標記為“未知”。更重要的是,UDA模型應該能夠穩定地應對廣泛的共性(通用標簽集在整個標簽集上的比例),以便它可以處理未知目標域標簽集的實際問題。為了解決通用域適應問題,提出了通用域適應網絡(UAN)。它量化了發現通用標簽集和對每個域私有的標簽集的樣本級可遷移性,從而促進了自動發現的通用標簽集的適應性,并成功地識別了“未知”樣本。全面的評價表明,在新穎的UDA設置中,UAN優于現有技術的閉集、部分域和開放域自適應方法。

網址:

代碼鏈接:

8、Learning to Transfer Examples for Partial Domain Adaptation(基于樣例轉移網絡的部分域自適應)

CVPR ’19

作者:Zhangjie Cao, Kaichao You, Mingsheng Long, Jianmin Wang, Qiang Yang

摘要:域自適應對于在新的未知環境中學習至關重要。通過領域對抗訓練,深度網絡可以學習可遷移的特征,從而有效地減少用于知識遷移的源域和目標域之間的數據集轉移。在大數據時代,大規模標記數據集的可用性引起了人們對局部域適應(PDA)的廣泛興趣,PDA將識別器從標記的大域遷移到未標記的小域。它將標準域適應擴展到目標域標簽只是源域標簽子集的場景。在目標域標簽未知的情況下,PDA的關鍵挑戰是如何在共享類中傳遞相關的例子來促進正遷移,而忽略特定類中不相關的例子來減少負遷移。在這項工作中,我們提出一個統一的PDA方法—Example Transfer Network (ETN), 共同學習源域和目標域的域不變表示和加權方案, 量化的可遷移源域示例同時控制他們對目標領域中的學習任務的重要性。對幾個基準數據集的全面評估表明,我們的方法可以為部分域自適應任務實現最先進的結果。

網址:

9、Geometry-Aware Symmetric Domain Adaptation for Monocular Depth Estimation(基于幾何感知對稱域自適應的單眼深度估計)

作者:Shanshan Zhao, Huan Fu, Mingming Gong, Dacheng Tao

摘要:先進的深度網絡體系結構使得監督深度估計具有較高的精度。由于groundtruth深度標簽難以獲取,近年來的方法試圖通過非監督線索來學習深度估計網絡,這種方法雖然有效,但不如真實標簽可靠。解決這一難題的一種新方法是通過域自適應技術從具有groundtruth深度的合成圖像中遷移知識。然而,這些方法忽略了目標域內自然圖像的特定幾何結構(即,真實數據),這對于高性能的深度預測非常重要。在此基礎上,我們提出了一種基于幾何感知的對稱域自適應框架(GASDA),用于研究合成數據和真實數據中的超極幾何標記。此外,通過在端到端網絡中對稱地訓練兩個圖像樣式轉換器和深度估計器,我們的模型實現了更好的圖像樣式轉換,生成了高質量的深度圖。實驗結果證明了該方法的有效性,并與現有方法進行了比較。我們的代碼在:

網址:

代碼鏈接:

下載鏈接: 提取碼:crqk

付費5元查看完整內容

【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文、【可解釋性】相關論文和代碼,CVPR視覺目標跟蹤相關論文,CVPR視覺問答相關論文,反響熱烈。最近,醫學圖像分割這一新分割應用領域也廣泛受關注,出現了好多新方法、新數據集,今天小編專門整理最新七篇醫學圖像分割相關應用論文—對抗攻擊、跨模態域自適應、遷移學習、one-shot、GAN等。

1、Non-Local Context Encoder: Robust Biomedical Image Segmentation against Adversarial Attacks(非局部上下文編碼器: 針對對抗攻擊的魯棒生物醫學圖像分割)

AAAI ’19 Oral

作者:Xiang He, Sibei Yang, Guanbin Li?, Haofeng Li, Huiyou Chang, Yizhou Yu

摘要:基于深度卷積神經網絡(CNNs)的生物醫學圖像分割技術近年來受到廣泛關注。然而,它對對抗性樣本的脆弱性不容忽視。本文首次發現所有基于CNN的先進生物醫學圖像分割模型都對對抗擾動敏感。這限制了這些方法在安全關鍵的生物醫學領域的應用。在本文中,我們發現生物醫學圖像中的全局空間依賴關系和全局上下文信息可以被用來抵御對抗攻擊。為此,提出了一種基于非局部上下文編碼(NLCE)的短時和長時程空間依賴關系建模方法,并對全局上下文進行編碼,通過信道感知增強特征激活。NLCE模塊增強了非局部上下文編碼網絡(NLCEN)的魯棒性和準確性,NLCEN利用NLCE模塊學習魯棒性增強的金字塔特征表示,并將不同層次的信息集成在一起。在肺和皮膚病變分割數據集上的實驗表明,NLCEN在抵抗對抗攻擊方面優于任何其他先進的生物醫學圖像分割方法。此外,NLCE模塊可用于提高其他基于CNN的生物醫學圖像分割方法的魯棒性。

網址:

//arxiv.org/abs/1904.12181v1

2、Synergistic Image and Feature Adaptation: Towards Cross-Modality Domain Adaptation for Medical Image Segmentation(協同圖像與特征自適應: 面向醫學圖像分割的跨模態域自適應)

AAAI ’19 Oral

作者:Cheng Chen, Qi Dou, Hao Chen, Jing Qin, Pheng-Ann Heng

摘要:本文提出了一種新的無監督域自適應框架——協同圖像與特征自適應(SIFA),有效地解決了domain shift問題。域自適應是近年來深度學習研究的一個重要和熱點問題,其目的是解決神經網絡應用于新的測試領域時性能下降的問題。我們提出的SIFA是一個優雅的學習圖,它從圖像和特征兩個角度展示了適應性的協同融合。特別是,我們同時跨域轉換圖像的外觀并且增強所提取的特征的域不變性來進行分割任務。在端到端學習過程中,特征編碼器層由兩個透視圖共享,以掌握它們的共同特征。在不使用目標域的任何標注的情況下,我們的統一模型的學習是以對抗性損失為指導,從各個方面使用多個判別器。我們已經通過對心臟結構的跨模態醫學圖像分割這一具有挑戰性的應用廣泛地驗證了我們的方法。實驗結果表明,我們的SIFA模型能夠將性能下降幅度從17.2%恢復到73.0%,并顯著優于現有的最先進方法。

網址:

代碼鏈接:

3、Data augmentation using learned transformations for one-shot medical image segmentation(利用學習變換進行數據增強,實現one-shot醫學圖像分割)

CVPR ’19

作者:Amy Zhao, Guha Balakrishnan, Frédo Durand, John V. Guttag, Adrian V. Dalca

摘要:圖像分割是醫學應用中的一個重要課題。基于卷積神經網絡的方法獲得了最先進的精度;然而,它們通常依賴于帶有大型標記數據集的監督訓練。醫學圖像的標注需要大量的專業知識和時間,而典型的手工調優的數據增強方法無法捕捉這些圖像中的復雜變化。我們提出了一種自動數據增強方法來合成標記醫學圖像。我們在分割磁共振成像(MRI)腦掃描的任務中展示了我們的方法。我們的方法只需要一次分段掃描,并利用半監督方法中的其他未標記掃描。我們從圖像中學習轉換模型,并使用該模型和帶標記的示例來合成其他帶標記的示例。每個轉換都由空間變形場和強度變化組成,從而能夠綜合復雜的效果,如解剖學和圖像采集過程的變化。我們展示了使用這些新示例訓練有監督的分割器,對于one-shot生物醫學圖像分割的最先進方法有著顯著的改進。我們的代碼可以在

網址:

代碼鏈接:

4、Autofocus Layer for Semantic Segmentation(用于語義分割的自動聚焦層)

作者:Yao Qin, Konstantinos Kamnitsas, Siddharth Ancha, Jay Nanavati, Garrison Cottrell, Antonio Criminisi, Aditya Nori

摘要:為了提高神經網絡的多尺度處理能力,提出了一種自聚焦卷積層用于語義分割。自動聚焦層根據處理過的上下文自適應地改變有效接受域的大小,以生成更強大的特征。這是通過將具有不同膨脹率的多個卷積層并行化來實現的,并結合一種注意力機制,該機制學會將注意力集中在由上下文驅動的最優尺度上。通過共享并行卷積的權值,我們使網絡的規模不變,只增加了少量的參數。提出的自動聚焦層可以很容易地集成到現有網絡中,提高模型的表示能力。我們在骨盆CT多器官分割和MRI腦腫瘤分割的挑戰性任務中評估了我們的模型,并取得了非常有前景的性能。

網址:

5、Few-shot 3D Multi-modal Medical Image Segmentation using Generative Adversarial Learning(利用生成式對抗學習進行Few-shot三維多模態醫學圖像分割)

作者:Arnab Kumar Mondal, Jose Dolz, Christian Desrosiers

摘要:我們解決了在極少數標記示例可供訓練的情況下分割三維多模態醫學圖像的問題。利用最近成功的對抗學習進行半監督分割,我們提出了一種基于生成對抗網絡(GAN)的新方法來訓練具有標記和未標記圖像的分割模型。該方法通過學習識別生成網絡中獲得的真假patch,來防止過擬合。我們的工作擴展了目前的專注于二維單模態圖像對抗性學習方法到更具挑戰性的三維體多模態。針對iSEG-2017和MRBrainS 2013數據集的腦MRI分割問題,對該方法進行了評估。與在完全監督下訓練的最先進的分割網絡相比,性能有了顯著的提高。此外,我們的工作提供了對半監督分割的不同GAN架構的綜合分析,顯示了最近的技術,如特征匹配,以產生比傳統對抗訓練方法更高的性能。我們的代碼可以通過

網址:

代碼鏈接:

6、nnU-Net: Breaking the Spell on Successful Medical Image Segmentation(nnU-Net)

作者:Fabian Isensee, Jens Petersen, Simon A. A. Kohl, Paul F. J?ger, Klaus H. Maier-Hein

摘要:由于數據集的多樣性,語義分割是醫學圖像分析中的一個熱門子領域,每年都有大量的新方法被提出。然而,這個不斷增長的系列方法變得越來越難以理解。同時,許多提出的方法不能推廣到實驗之外,從而阻礙了在新數據集上開發分割算法的過程。這里我們介紹nnU-Net(“no-new-Net”),這個框架可以自適應任何給定的新數據集。雖然到目前為止這個過程完全由人為驅動,但我們首先嘗試根據給定數據集的屬性自動執行必要的調整,例如預處理,精確的patch大小,batch大小和推理設置。值得注意的是,nnU-Net去掉了通常在文獻中提出的架構上的附加功能,只依賴于嵌入在健壯的訓練方案中的簡單U-Net架構。開箱即用,nnU-Net在六個完善的細分挑戰中實現了最先進的性能。源代碼可從

網址:

代碼鏈接:

7、PnP-AdaNet: Plug-and-Play Adversarial Domain Adaptation Network with a Benchmark at Cross-modality Cardiac Segmentation(PnP-AdaNet:即插即用的對抗性域自適應網絡,用于跨模態心臟分割的基準)

作者:Qi Dou, Cheng Ouyang, Cheng Chen, Hao Chen, Ben Glocker, Xiahai Zhuang, Pheng-Ann Heng

摘要:深卷積網絡在各種醫學圖像計算任務中表現出了最先進的性能。利用來自不同模式的圖像進行相同的分析任務具有臨床益處。然而,深度模型對不同分布的測試數據的泛化能力仍然是一個主要的挑戰。在本文中,我們提出了PnPAdaNet(即插即用的對抗域自適應網絡)來適應不同醫學圖像模式(如MRI和CT)之間的分割網絡。我們建議以一種無監督的方式對齊源域和目標域的特征空間,從而解決重要的domain shift問題。具體地,域自適應模塊靈活地替換源網絡的早期編碼器層,并且在域之間共享更高層。通過對抗性學習,我們構建了兩個判別器,其輸入分別是多級特征和預測分割掩碼。我們在非配對MRI和CT中的心臟結構分割任務驗證了我們的域自適應方法。綜合消融研究的實驗結果證明了我們提出的PnP-AdaNet的優異功效。此外,我們為心臟數據集引入了一個新的基準,用于無監督跨模態域自適應的任務。我們將公開我們的代碼和數據集,旨在促進醫學成像這一具有挑戰性但重要的研究課題的未來研究。

網址:

代碼鏈接:

下載鏈接: 提取碼:kljf

付費5元查看完整內容

【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文、【可解釋性】相關論文和代碼,CVPR視覺目標跟蹤相關論文和代碼,反響熱烈。最近,視覺問答和推理這一領域也廣泛受關注,出現了好多新方法、新數據集,CVPR 2019已經陸續放出很多篇篇相關文章。今天小編專門整理最新七篇視覺問答相關應用論文—多模態關系推理、視覺上下文、遷移學習、通用VQA模型、新數據集GQA等。

1、MUREL: Multimodal Relational Reasoning for Visual Question Answering (MUREL:視覺問答的多模態關系推理)

CVPR ’19

作者:Remi Cadene, Hedi Ben-younes, Matthieu Cord, Nicolas Thome

摘要:多模態注意力網絡是目前用于涉及真實圖像的視覺問答(VQA)任務的最先進的模型。盡管注意力集中在與問題相關的可視內容上,但這種簡單的機制可能不足以模擬VQA或其他高級任務所需的復雜推理功能。在本文中,我們提出了MuRel,一種多模態關系網絡,它通過真實圖像進行端到端的學習。我們的第一個貢獻是引入了MuRel單元,這是一個原子推理原語,通過豐富的向量表示來表示問題和圖像區域之間的交互,并使用成對組合對區域關系建模。其次,我們將單元格合并到一個完整的MuRel網絡中,該網絡逐步細化了可視化和問題交互,并且可以用來定義比注意力更精細的可視化方案。我們驗證了我們的方法與各種消融研究的相關性,并在三個數據集:VQA 2.0、VQA- cp v2和TDIUC上顯示了它相對于基于注意力的方法的優勢。我們的最終MuRel網絡在這一具有挑戰性的環境中具有競爭力或優于最先進的結果。

網址:

//arxiv.org/abs/1902.09487

代碼鏈接:

2、Image-Question-Answer Synergistic Network for Visual Dialog( 基于圖像-問題-答案協同網絡的視覺對話)

CVPR ’19

作者:Dalu Guo, Chang Xu, Dacheng Tao

摘要:圖像、問題(結合用于de-referencing的歷史)和相應的答案是視覺對話的三個重要組成部分。經典的視覺對話系統集成了圖像、問題和歷史來搜索或生成最佳匹配的答案,因此,這種方法明顯忽略了答案的作用。在本文中,我們設計了一個新穎的圖像 - 問題 - 答案協同網絡,以評估答案對精確視覺對話的作用。我們將傳統的一階段解決方案擴展為兩階段解決方案。在第一階段,根據候選答案與圖像和問題對的相關性對候選答案進行粗略評分。之后,在第二階段,通過與圖像和問題協同,對具有高正確概率的答案進行重新排序。在Visual Dialog v1.0數據集上,所提出的協同網絡增強了判別性視覺對話模型,實現了57.88%的NDCG(normalized discounted cumulative gain)的最新的最優表現。

網址:

3、Learning to Compose Dynamic Tree Structures for Visual Contexts(學習為視覺上下文構建動態樹結構)

CVPR ’19 Oral

作者:Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, Wei Liu

摘要:我們提出組合動態樹結構,將圖像中的對象放入視覺上下文中,幫助進行視覺推理任務,如場景圖生成和視覺問答。我們的視覺上下文樹模型(稱為VCTree)與現有的結構化對象表示(包括鏈和全連接圖)相比具有兩個關鍵優勢:1)高效且富有表現力的二叉樹編碼對象之間固有的并行/層次關系,例如“衣服”和“褲子”通常是共同出現的,屬于“人”; 2)動態結構因圖像和任務而異,允許在對象之間傳遞更多特定于任務的內容/消息。為了構造一個VCTree,我們設計了一個score函數來計算每個對象對之間的任務依賴效度,這個VCTree是score矩陣中最大生成樹的二進制版本。然后,視覺上下文由雙向TreeLSTM編碼,并由特定于任務的模型解碼。本文提出了一種混合學習方法,將末端任務監督學習與樹形結構強化學習相結合,前者的評估結果作為后者結構探索的self-critic。兩個benchmark測試的實驗結果,需要對上下文進行推理:用于場景圖生成的Visual Genome和用于視覺Q&A的VQA2.0,表明VCTree在發現可解釋的視覺上下文結構時優于最先進的結果。

網址:

4、Transfer Learning via Unsupervised Task Discovery for Visual Question Answering(通過無監督的任務發現遷移學習以進行視覺問答)

CVPR ’19

作者:Hyeonwoo Noh, Taehoon Kim, Jonghwan Mun, Bohyung Han

摘要:我們研究如何利用現成的視覺和語言數據來處理視覺問答任務中詞匯量不足的問題。現有的帶有圖像類標簽、邊界框和區域描述等標注的大型可視化數據集是學習豐富多樣的視覺概念的好資源。然而,由于依賴于問題的回答模型與無問題的視覺數據之間缺少聯系,如何捕獲視覺概念并將其轉化為VQA模型并不簡單。我們通過兩個步驟來解決這個問題:1)學習一個任務條件視覺分類器,該分類器基于無監督任務發現,能夠解決多種特定問題的視覺識別任務;2)將任務條件視覺分類器轉化為視覺問答模型。具體來說,我們使用結構化詞匯庫(如WordNet)和視覺概念描述等語言知識資源來進行無監督任務發現,并將學習到的任務條件視覺分類器作為一個回答單元遷移到一個 VQA模型中。實驗結果表明,該算法利用從視覺數據集中遷移的知識成功地推廣到詞匯表外的問題。

網址:

代碼鏈接:

5、Answer Them All! Toward Universal Visual Question Answering Models(回答他們所有人!基于通用的視覺問答模型)

CVPR ’19

作者:Robik Shrestha, Kushal Kafle, Christopher Kanan

摘要:視覺問答(VQA)研究分為兩個陣營:第一個陣營關注需要自然圖像理解的VQA數據集,第二個陣營關注測試推理的合成數據集。一個好的VQA算法應該同時具備這兩種功能,但是只有少數VQA算法是以這種方式進行測試的。我們比較了涵蓋這兩個領域的8個VQA數據集中的5種最先進的VQA算法。為了公平起見,所有的模型都盡可能標準化,例如,它們使用相同的視覺特性、答案詞表等。我們發現,這些方法不能泛化到這兩個領域。為了解決這一問題,我們提出了一種新的VQA算法,它可以與這兩個領域的最先進算法相媲美或超過它們。

網址:

6、GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering(GQA: 一個用于真實世界的視覺推理和合成問題回答的新數據集)

CVPR ’19

作者:Drew A. Hudson, Christopher D. Manning

摘要:我們介紹了一個新的數據集GQA,用于真實世界的視覺推理和合成問題回答,試圖解決以前的VQA數據集的關鍵缺陷。我們開發了一個強大而健壯的問題引擎,它利用場景圖結構創建了2200萬個不同的推理問題,所有這些問題都帶有表示其語義的功能程序。我們使用這些程序來獲得對答案分布的嚴格控制,并提出了一種新的可調平滑技術來減少問題的偏差。隨數據集而來的是一套新的度量標準,用于評估consistency、grounding和plausibility等基本質量。對baseline和最先進的模型進行了廣泛的分析,為不同的問題類型和拓撲提供了細粒度的結果。一個單獨的LSTM僅獲得42.1%的結果,強大的VQA模型達到54.1%,而人類的表現最高達到89.3%,這為探索新的研究提供了充足的機會。我們強烈希望GQA能夠為下一代模型提供支持資源,增強健壯性、改進一致性以及對圖像和語言更深入的語義理解。

網址:

7、Towards VQA Models that can Read(面向可讀的VQA模型)

CVPR ’19

作者:Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach

摘要:研究表明,視障用戶對周圍環境圖像提出的主要問題包括閱讀圖像中的文字。但是今天的VQA模型不能讀取! 我們的論文朝著解決這個問題邁出了第一步。首先,我們引入一個新的“TextVQA”數據集來促進在這個重要問題上的進展。現有的數據集要么有一小部分關于文本的問題(例如,VQA數據集),要么太小(例如,VizWiz數據集)。TextVQA包含45,336個問題,涉及28,408張圖像,需要對文本進行推理才能回答。其次,我們介紹了一種新的模型架構,它可以讀取圖像中的文本,在圖像和問題的上下文中對其進行推理,并預測一個可能是基于文本和圖像的推理或由圖像中發現的字符串組成的答案。因此,我們稱我們的方法為“Look, Read, Reason & Answer”(LoRRA)。我們在TextVQA數據集中展示了LoRRA優于現有的最先進的VQA模型。我們發現,在TextVQA上,人類性能和機器性能之間的差距明顯大于VQA 2.0,這表明TextVQA非常適合在與VQA 2.0互補的方向上進行基準測試。

網址:

代碼鏈接:

下載鏈接: 提取碼:yfq2

付費5元查看完整內容

計算機視覺頂會 CVPR 2019 的論文接前幾天公布了接受論文:在超過 5100 篇投稿中,共有 1300 篇被接收,達到了接近 25.2% 的接收率。上周小編推出CVPR2019圖卷積網絡相關論文,反響熱烈。CVPR2019 最新發布的論文有很多關于生成對抗網絡(GAN)相關論文,今天小編專門整理最新十篇生成對抗網絡相關視覺論文—風格遷移、圖像合成、異常檢測、事件、故事可視化、Text2Scene等。

1、A Style-Based Generator Architecture for Generative Adversarial Networks(一種用于生成對抗網絡的基于Style的新生成器結構)

作者:Tero Karras, Samuli Laine, Timo Aila

摘要:我們借鑒了風格遷移的相關工作,提出了一種用于生成對抗網絡的替代生成器結構。新的結構自動學習、無監督地分離高級屬性(例如,在人臉訓練時的姿勢和身份)和生成圖像中的隨機變化(例如雀斑、頭發),并支持對合成的直觀、特定尺度的控制。該算法改進了傳統的分布質量度量方法,提高了插補性能,并較好地解決了潛在的變化因素。為了量化interpolation quality和disentanglement,我們提出了兩種新的、適用于任何生成器架構的自動化方法。最后,我們介紹了一個新的,高度多樣化和高質量的人臉數據集。

網址:

//arxiv.org/abs/1812.04948v3

代碼鏈接:

2、Spatial Fusion GAN for Image Synthesis(基于空間融合GAN的圖像合成)

作者:Fangneng Zhan, Hongyuan Zhu, Shijian Lu

摘要:生成對抗網絡(GANs)的最新研究成果顯示了其在真實圖像合成方面的巨大潛力,而現有的大多數文章都是在外觀空間或幾何空間進行合成,但同時使用兩者的很少。本文提出了一種新穎的空間融合GAN (SF-GAN),它結合了幾何合成器和表觀合成器,實現了幾何和外觀空間的綜合真實感。該幾何合成器學習背景圖像的背景幾何,并一致地將前景對象轉換和放置到背景圖像中。該外觀合成器對前景對象的顏色、亮度和樣式進行調整,并將其和諧地嵌入背景圖像中,其中引入了一個用于細節保存的引導濾波器。這兩個合成器相互連接,作為相互參照,可以在沒有監督的情況下進行端到端訓練。對SF-GAN在兩個任務中進行了評估: (1)為訓練更好的識別模型,進行了逼真的場景文本圖像合成;(2)戴眼鏡和帽子,與真人相匹配的眼鏡和帽子。定性和定量的比較表明了所提出的SF-GAN的優越性。

網址:

代碼鏈接:

3、f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning(任意樣本學習的特征生成框架)

作者:Yongqin Xian, Saurabh Sharma, Bernt Schiele, Zeynep Akata

摘要:當標記的訓練數據很少時,一種很有前途的數據增強方法是使用未知類的屬性生成它們的視覺特征。為了學習CNN特征的類條件分布,這些模型依賴于成對的圖像特征和類屬性。因此,他們無法利用大量未標記的數據樣本。在本文中,我們在一個統一的特征生成框架中處理任意樣本學習問題,即零樣本和少樣本。我們建立了一個結合VAE和GANs的強度的條件生成模型,并通過一個無條件的判別器學習未標記圖像的邊緣特征分布。我們的實驗表明,我們的模型學習了CUB、SUN、AWA和ImageNet這5個數據集的CNN特征,并建立了一種新的最前沿的任意樣本學習,即歸納和轉換(廣義)零樣本和少樣本學習設置。我們還證明了我們所學習的特性是可解釋的: 我們通過將它們反轉回像素空間來對它們進行可視化,并通過生成文本參數來解釋它們為什么與某個標簽相關聯。

網址:

4、OCGAN: One-class Novelty Detection Using GANs with Constrained Latent Representations(OCGAN:使用具有約束潛在表征的GAN進行One-class異常檢測)

作者:Pramuditha Perera, Ramesh Nallapati, Bing Xiang

摘要:針對單類異常檢測的經典問題,提出了一種新的OCGAN模型,其中,給定一組來自特定類的示例,目標是確定查詢示例是否來自同一類。我們的解決方案基于使用去噪自編碼器網絡學習類內示例的潛在表示。我們工作的關鍵貢獻是我們顯式地約束潛在空間,使其只表示給定的類。為了實現這一目標,首先,我們通過在編碼器的輸出層引入tanh激活函數來強制潛在空間獲得有限的支持。其次,在反方向訓練的潛在空間中使用判別器,保證了類內樣本的編碼表示形式類似于從同一有界空間抽取的均勻隨機樣本。第三,在輸入空間中使用第二個對抗性判別器,確保所有隨機抽取的潛在樣本生成的示例看起來都是真實的。最后,我們介紹了一種基于梯度下降的采樣技術,該技術探索潛在空間中的點,這些點生成潛在的類外示例,并將這些類外示例反饋給網絡,進一步訓練網絡從這些點生成類內示例。該方法通過四個公開可用的數據集,使用兩種one-class異常檢測協議來證明其有效性,跟別的方法相比,我們的方法實現了最先進的結果。

網址:

代碼鏈接:

5、Event-based High Dynamic Range Image and Very High Frame Rate Video Generation using Conditional Generative Adversarial Networks(使用條件生成對抗網絡生成基于事件的高動態范圍圖像和超高幀率視頻)

作者:S. Mohammad Mostafavi I., Lin Wang, Yo-Sung Ho, Kuk-Jin Yoon

摘要:與傳統相機相比,Event camera具有低延遲、高時間分辨率、高動態范圍等優點。然而,由于Event camera的輸出是超時的異步事件序列而不是實際強度圖像,因此不能直接應用現有算法。因此,需要從事件中為其他任務生成強度圖像。在本文中,我們揭開了基于Event camera的條件生成對抗網絡的潛力,從事件數據流的可調部分創建圖像/視頻。利用事件的時空坐標棧作為輸入,訓練網絡根據時空強度變化再現圖像。并且,還證明了Event camera在極端光照條件下也能生成高動態范圍(HDR)圖像,在快速運動下也能生成非模糊圖像。此外,還演示了生成非常高幀率視頻的可能性,理論上可以達到每秒100萬幀(FPS),因為Event camera的時間分辨率大約為1{\mu}s。通過與使用在線可用的真實數據集和Event camera模擬器生成的合成數據集在同一像素事件網格線上捕獲的強度圖像進行比較,對所提出的方法進行了評估。

網址:

6、GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction(GANFIT: 用于高保真三維人臉重建的生成對抗網絡擬合)

作者:Baris Gecer, Stylianos Ploumpis, Irene Kotsia, Stefanos Zafeiriou

摘要:在過去的幾年里,利用深度卷積神經網絡(DCNNs)的強大功能,從單個圖像中重建三維人臉結構已經做了大量的工作。在最近的研究中,我們使用了可微渲染器來學習人臉識別特征與三維形態和紋理模型參數之間的關系。紋理特征要么對應于線性紋理空間的組件,要么由自編碼器直接從野外圖像(in-the-wild images)中學習。在所有情況下,人臉紋理重建的最先進的方法仍然不能以高保真度來建模紋理。在這篇論文中,我們采取了一個完全不同的方法,利用生成對抗網絡(GANs)和DCNNs的力量,從單一的圖像重建面部紋理和形狀。也就是說,我們利用GAN在UV空間中訓練一個非常強大的面部紋理生成器。在此基礎上,利用非線性優化方法,對原三維形態模型(3DMMs)擬合方法進行了重新研究,找到了最優的潛在參數,并在新的視角下對測試圖像進行了重構。利用端到端可微框架,我們通過預先訓練的深層身份特征來優化參數。我們在真實感和保真性的三維人臉重建方面取得了優異的效果,并首次實現了基于高頻細節的人臉紋理重建。

網址:

代碼鏈接:

7、Self-Supervised Generative Adversarial Networks(自監督生成對抗網絡)

作者:Ting Chen, Xiaohua Zhai, Marvin Ritter, Mario Lucic, Neil Houlsby

摘要:條件GAN是自然圖像合成的前沿。這種模型的主要缺點是需要標記數據。在這項工作中,我們使用了兩種流行的無監督學習技術,對抗性訓練(adversarial training)和自監督(self-supervision),以縮小有條件和無條件GAN之間的差距。特別是,我們允許網絡在表示學習的任務上進行協作,同時在經典的GAN游戲中具有對抗性。自監督的作用是鼓勵discriminator學習有意義的特征表示,這些特征在訓練中不會被遺忘。我們對學習圖像表示的質量和合成圖像的質量進行了經驗檢驗。在相同條件下,自監督GAN獲得與最先進的條件相似的性能。最后,我們證明了這種完全無監督學習的方法可以在無條件生成ImageNet時擴展到FID為33。

網址:

代碼鏈接:

8、Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis(基于Mode Seeking的生成對抗網絡方法應用于多種圖像合成)

作者:Qi Mao, Hsin-Ying Lee, Hung-Yu Tseng, Siwei Ma, Ming-Hsuan Yang

摘要:大多數條件生成任務都期望給定一個條件上下文的不同輸出。然而,條件生成對抗網絡(cGANs)往往只關注先驗條件信息,而忽略了輸入噪聲向量,從而導致了輸出的變化。最近解決cGANs模式崩潰問題的嘗試通常是特定于任務的,而且計算成本很高。在這項工作中,我們提出了一個簡單而有效的正則化項來解決cGANs的模式崩潰問題。該方法顯式地將生成的圖像與對應的潛在編碼(latent codes)之間的距離比值最大化,從而鼓勵生成器在訓練過程中探索更多的小模式。這種尋求正則化項的模式很容易適用于各種條件生成任務,而不需要增加訓練開銷或修改原有的網絡結構。基于不同的baseline模型,我們在三個條件圖像合成任務上驗證了該算法的有效性,任務包括分類生成、圖像到圖像的轉換、文本到圖像的合成。定性和定量結果都證明了所提出的正則化方法在不損失質量的情況下提高多樣性的有效性。

網址:

代碼鏈接:

9、StoryGAN: A Sequential Conditional GAN for Story Visualization(StoryGAN: 序列條件GAN的故事可視化)

作者:Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, Jianfeng Gao

摘要:在這項工作中,我們提出了一個新的任務,稱為故事可視化(Story Visualization)。給定一個多句的段落,通過為每個句子生成一個圖像序列來可視化故事。與視頻生成不同,故事可視化不太關注生成圖像(幀)中的連續性,而是更關注動態場景和角色之間的全局一致性——這是任何單一圖像或視頻生成方法都無法解決的挑戰。因此,我們提出了一個新的基于序列條件GAN框架的故事到圖像序列生成模型StoryGAN。我們的模型的獨特之處在于,它由一個動態跟蹤故事流的深層上下文編碼器和兩個分別位于故事和圖像級別的鑒別器組成,以提高圖像質量和生成序列的一致性。為了評估模型,我們修改了現有的數據集,以創建CLEVR-SV和Pororo-SV數據集。從經驗上看,StoryGAN在圖像質量、上下文一致性度量和人類評估方面優于最先進的模型。

網址:

代碼鏈接:

10、Text2Scene: 從文本描述生成合成場景(使用條件生成對抗網絡生成基于事件的高動態范圍圖像和超高幀率視頻)

作者:Fuwen Tan, Song Feng, Vicente Ordonez

摘要:我們提出了Text2Scene模型,該模型對輸入的自然語言描述進行解釋,以生成各種形式的合成場景表示;從抽象的卡通場景到合成圖像。與最近的工作不同,我們的方法不使用生成對抗網絡,而是將編碼器-解碼器模型與基于半參數檢索的方法相結合。Text2Scene學習通過關注輸入文本的不同部分以及生成場景的當前狀態,在每一個時間步驟中依次生成對象及其屬性(位置、大小、外觀等)。我們表明,在微小的修改下,所提出的框架可以處理不同形式的場景表示的生成,包括卡通場景、與真實圖像對應的對象布局以及合成圖像組合。我們的方法不僅與最先進的基于GAN的自動度量方法和基于人類判斷的方法相比具有競爭力,而且更通用、更易于解釋。

網址:

下載鏈接: 提取碼:lb7k

付費5元查看完整內容
北京阿比特科技有限公司