亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020正在開會,小編發現視頻表示學習(Video Representation Learning)相關的接受paper不少,視頻理解在NeurIPS上越來越多,也顯示出視頻理解這個任務的火熱程度。

為此,這期小編為大家奉上NeurIPS 2020必讀的六篇視頻表示學習(Video Representation Learning)相關論文——上下文目標嵌入、自監督視頻表示學習、多模態自監督、解糾纏視頻表示、自監督協同訓練、跨模態音視頻聚類

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. COBE: Contextualized Object Embeddings from Narrated Instructional Video

作者:Gedas Bertasius, Lorenzo Torresani

摘要:現實世界中的許多目標的視覺外觀都會發生巨大變化。例如,番茄可以是紅色或綠色,切成薄片或切碎的,新鮮或油炸的,液體或固體的。訓練單個檢測器以準確識別所有這些不同狀態的西紅柿是一項挑戰。另一方面,上下文提示(例如,刀,切菜板,濾網或平底鍋的存在)通常強烈指示目標在場景中的出現方式。識別此類上下文線索不僅有助于提高目標檢測的準確性或確定目標的狀態,而且有助于理解其功能特性并推斷正在進行或即將發生的人與目標之間的交互。然而,在現實世界中,有監督的識別目標狀態及其上下文的方法受到數據的長尾(long-tailed),開放式分布的影響,這將需要大量標注來捕獲所有目標的不同形式的表觀。我們提出了一個新的框架,用于從自動轉錄的教學視頻中學習上下文的目標嵌入(COBE),而不是依賴此任務的手動標記數據。我們通過訓練視覺檢測器來預測目標的上下文詞嵌入及其關聯的敘述,從而利用語言的語義和組成結構。這使得能夠學習根據語義語言度量與概念相關的目標表示。我們的實驗表明,我們的檢測器學會了預測各種各樣的上下文目標信息,并且在少樣本和零樣本學習的設置中非常有效。

網址:

2. Cycle-Contrast for Self-Supervised Video Representation Learning

作者:Quan Kong, Wenpeng Wei, Ziwei Deng, Tomoaki Yoshinaga, Tomokazu Murakami

摘要:我們提出了循環對比學習(Cycle-Contrastive Learning,CCL),這是一種用于學習視頻表示的新穎的自監督方法。遵循視頻及其幀之間存在和包含關系的性質,CCL設計為分別考慮幀和視頻在各自域中的對比表示來查找幀和視頻之間的對應關系。它與最近的方法不同,后者僅學習跨幀的對應關系。在我們的方法中,幀和視頻表示是從基于R3D架構的單個網絡中學習的,具有共享的非線性變換,可以在幀丟失之前嵌入幀和視頻特征。我們證明了CCL學習的視頻表示可以很好地轉移到視頻理解的下游任務,在UCF101,HMDB51和MMAct上最近鄰檢索和動作識別任務中取得了很好的效果。

網址:

3. Labelling unlabelled videos from scratch with multi-modal self-supervision

作者:Yuki Asano, Mandela Patrick, Christian Rupprecht, Andrea Vedaldi

摘要:深度學習當前成功很大一部分在于數據的有效性--更確切地說,是標記數據。然而,使用人工注釋標記數據集的成本仍然很高,尤其是對于視頻而言。雖然在圖像領域中,最近的方法已允許在無監督的情況下為未標記的數據集生成有意義的(偽)標簽,但視頻領域缺少這種發展,因為學習特征表示是當前關注的領域。在這項工作中,我們(a)展示了視頻數據集的無監督標記并非來自免費的特征編碼器,并且(b)提出了一種新穎的聚類方法,該方法可以利用音頻和視覺模態之間的自然對應關系,對視頻數據集進行偽標記而無需任何人工注釋。廣泛的分析表明,生成的聚類與真實的人類標簽具有高度的語義重疊。我們還將展示有關普通視頻數據集動力學,動力學聲音,VGG聲音和AVE2的無監督標記的第一個基準測試結果。

代碼:

網址:

4. Learning Disentangled Representations of Video with Missing Data

作者:Armand Comas, Chi Zhang, Zlatan Feric, Octavia Camps, Rose Yu

摘要:在學習視頻序列表示時,數據丟失問題是一個嚴峻的挑戰。我們提出了一個解糾纏估算視頻自編碼器(Disentangled Imputed Video autoEncoder,DIVE),這是一種深度生成模型,可以在缺少數據的情況下估算和預測未來的視頻幀。具體來說,DIVE引入了缺失潛在變量,將隱藏的視頻表示分解為每個目標的靜態和動態外觀,姿勢和缺失因子。DIVE會估算缺少數據的每個目標的軌跡。在具有各種缺失場景的移動MNIST數據集上,DIVE的性能大大優于現有基準水平。我們還對現實世界中的MOTSChallenge行人數據集進行了比較,證明了我們的方法在更現實的環境中的實用價值。

代碼:

網址:

5. Self-supervised Co-training for Video Representation Learning

作者:Tengda Han, Weidi Xie, Andrew Zisserman

摘要:本文的目標是視覺自監督視頻表示學習。我們做出了以下貢獻:(i)我們研究了在基于實例的信息噪聲對比估計(InfoNCE)訓練中添加語義類肯定句的好處,表明這種形式的監督式對比學習可以明顯改善性能;(ii)我們提出了一種新穎的自監督協同訓練方案,以通過使用一個視圖獲取同一數據源的正視圖樣本,以此來利用同一數據源的不同視圖,RGB流和光流的互補信息來改善流行的infoNCE損失;(iii)我們在兩個不同的下游任務(動作識別和視頻檢索)上全面評估所學表示的質量。在這兩種情況下,所提出的方法都展示了最新的技術或與其他自監督方法相當的性能,同時訓練的效率明顯更高,即需要更少的訓練數據即可達到類似的性能。

網址:

6. Self-Supervised Learning by Cross-Modal Audio-Video Clustering

作者:Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du Tran

摘要:視覺和音頻模態高度相關,但是它們包含不同的信息。它們之間的強相關性使得可以高精度地預測彼此的語義。與在模態內學習相比,它們的固有差異使跨模態預測成為視頻和音頻表示形式的自監督學習的潛在更有意義的任務。基于這種直覺,我們提出了跨模態深度聚類(Cross-Modal Deep Clustering,XDC),這是一種新穎的自監督方法,它利用一種模態(例如音頻)中的無監督聚類作為另一種模態(例如視頻)的監督信號。這種跨模態監督有助于XDC利用語義相關性和兩種模態之間的差異。我們的實驗表明,XDC優于單模態聚類和其他多模態變體。XDC在多種視頻和音頻基準測試的自監督方法中實現了最先進的準確性。最重要的是,我們針對大規模無標簽數據進行預訓練的視頻模型明顯優于針對ImageNet和Kinetics在HMDB51和UCF101上進行動作識別的預訓練的相同模型。據我們所知,XDC是第一個自監督學習方法,其性能優于大規模有監督的針對相同體系結構上的動作識別的預訓練模型。

網址:

付費5元查看完整內容

相關內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于3D視覺目標學習(3D Object Learning)相關的接受paper很多,3D視覺,比如點云分析、3D目標檢測和分類等等一些列前沿的方法和應用受到了很多人的關注,也是當前比較火的topic。

為此,這期小編為大家奉上AAAI 2021必讀的五篇3D視覺目標學習相關論文——增量式3D目標學習、幾何解糾纏表示、魯棒3D形狀表示、3D點云檢測、高性能基于Voxel 3D目標檢測

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting

作者:Jiahua Dong, Yang Cong, Gan Sun, Bingtao Ma, Lichen Wang

摘要:3D目標分類在學術研究和工業應用中引起了人們的關注。但是,當面對常見的現實場景時,大多數現有方法都需要訪問過去3D目標類的訓練數據:新的3D目標類按順序到達。此外,由于3D點云數據的不規則和冗余幾何結構,對于過去學習的已知類(即災難性遺忘),先進方法的性能會大大降低。為了解決這些挑戰,我們提出了一種新的增量式3D目標學習(即I3DOL)模型,這是不斷學習新類別的3D目標的首次探索。具體來說,自適應幾何質心模塊被設計用來構造可區分的局部幾何結構,從而可以更好地表征3D目標的不規則點云表示。然后,為防止冗余幾何信息帶來的災難性遺忘,我們開發了一種幾何感知注意力機制來量化局部幾何結構的貢獻,并探索對類別增量學習具有高貢獻的獨特3D幾何特征。同時,提出了一種分數公平性補償策略,通過在驗證階段補償新類的偏向預測,進一步減輕了過去和新類3D目標之間數據不平衡所導致的災難性遺忘。在3D代表性數據集上進行的實驗驗證了I3DOL框架的優越性。

圖片 網址:

2. Learning Geometry-Disentangled Representation for Complementary Understanding of 3D Object Point Cloud

作者:Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao

網址:在2D圖像處理中,一些嘗試將圖像分解為高頻和低頻分量,分別描述邊緣和平滑部分。類似地,3D目標的輪廓和平坦區域(例如椅子的邊界和座椅區域)描述了不同但互補的幾何形狀。但是,這樣的研究在以前的深層網絡中丟失了,這些深層網絡通過直接平等地對待所有點或局部面來理解點云。為了解決這個問題,我們提出了幾何分離注意力網絡(GDANet)。GDANet引入了Geometry-Disentangle模塊,可將點云動態分解為3D目標的輪廓和平坦部分,分別由清晰而柔和的變化分量表示。然后,GDANet利用Sharp-Gentle Complementary Attention模塊,該模塊將銳利和柔和變化成分的特征視為兩個整體表示,并在將它們分別與原始點云特征融合時給予了不同的關注。通過這種方式,我們的方法從兩個不同的解纏組件中捕獲并完善了整體和互補的3D幾何語義,以補充局部信息。關于3D目標分類和細分基準的大量實驗表明,GDANet使用更少的參數即可實現最新技術。

圖片 網址:

3. Learning Local Neighboring Structure for Robust 3D Shape Representation

作者:Zhongpai Gao, Junchi Yan, Guangtao Zhai, Juyong Zhang, Yiyan Yang, Xiaokang Yang

摘要:網格(Mesh)是用于3D形狀的強大數據結構。3D網格的表示學習在許多計算機視覺和圖形應用中很重要。卷積神經網絡(CNN)在結構化數據(例如圖像)方面的最新成功表明,將CNN的洞察力應用于3D形狀具有重要意義。但是,由于每個節點的鄰居都是無序的,因此3D形狀數據是不規則的。已經開發出了用于3D形狀的各種圖神經網絡以克服圖中的節點不一致問題,例如:具有各向同性過濾器或預定義局部坐標系。但是,各向同性過濾器或預定義的局部坐標系會限制表示能力。在本文中,我們提出了一種局部結構感知anisotropic卷積運算(LSA-Conv),該算法根據局部鄰近結構為每個節點學習自適應加權矩陣,并執行共享anisotropic濾波器。實際上,可學習的加權矩陣類似于隨機合成器中的注意力矩陣-一種用于自然語言處理(NLP)的新型Transformer模型。全面的實驗表明,與最新方法相比,我們的模型在3D形狀重建中產生了顯著改善。

圖片 網址:

4. PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection

作者:Yanan Zhang, Di Huang, Yunhong Wang

摘要:基于LiDAR的3D目標檢測是自動駕駛的一項重要任務,當前的方法遭受著遙遠和被遮擋目標的稀疏和部分點云的困擾。在本文中,我們提出了一種新穎的兩階段方法,即PC-RGNN,它通過兩個特定的解決方案來應對此類挑戰。一方面,我們引入了點云完成模塊,以恢復密集點和保留原始結構的整個視圖的高質量建議。另一方面,設計了一個神經網絡模塊,該模塊通過局部全局注意力機制以及基于多尺度圖的上下文聚合來全面捕獲點之間的關系,從而大大增強了編碼特征。在KITTI基準上進行的大量實驗表明,所提出的方法以顯著優勢超越了之前的最新基準。

圖片 網址:

5. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection

作者:Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li

摘要:3D目標檢測的最新進展在很大程度上取決于如何表示3D數據,即,基于體素(voxel-based)或基于點的表示。許多現有的高性能3D檢測器都是基于點的,因為這種結構可以更好地保留精確的點位置。但是,由于無序存儲,點級特征能會導致較高的計算開銷。相反,基于voxel的結構更適合特征提取,但由于輸入數據被劃分為網格,因此通常產生較低的精度。在本文中,我們采取了略有不同的觀點-我們發現原始點的精確定位對于高性能3D目標檢測不是必需的,并且粗體素粒度還可以提供足夠的檢測精度。牢記這一觀點,我們設計了一個簡單但有效的基于voxel的框架,名為Voxel R-CNN。通過在兩階段方法中充分利用體素特征,我們的方法可與基于點的最新模型實現可比的檢測精度,但計算成本卻很小。Voxel R-CNN由3D骨干網絡,2D鳥瞰(bird-eye-view, BEV)候選區域網絡和檢測頭組成。設計了體素RoI池以直接從體素特征中提取RoI特征,以進行進一步優化。在廣泛使用的KITTI數據集和最新的Waymo Open數據集上進行了廣泛的實驗。我們的結果表明,與現有的基于體素的方法相比,Voxel R-CNN在保持實時幀處理速率的同時,在NVIDIA RTX 2080 Ti GPU上以25 FPS的速度提供了更高的檢測精度。該代碼將很快發布。

網址:

付費5元查看完整內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于視頻理解(Video Understanding)相關的接受paper很多,視頻理解,比如視頻分割、視頻分類以及視頻描述生成等等一些列前沿的方法和應用受到了很多人的關注。

為此,這期小編為大家奉上AAAI 2021必讀的六篇視頻理解相關論文——視頻實例分割、無監督視頻目標分割、粗到細視頻描述生成、時空圖神經網絡視頻目標分割、視頻情感分析

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio

作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi

摘要:視頻實例分割是一項復雜的任務,我們需要針對任何給定視頻對每個目標進行檢測,分割和跟蹤。先前的方法僅將單幀特征用于目標的檢測,分割和跟蹤,并且當遇到諸如運動模糊和劇烈的外觀變化之類情形,它們在視頻場景中會遭受損失。為了消除僅通過使用單幀特征引入的歧義,我們提出了一種新穎的綜合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用時間和空間上下文信息在幀級和目標級完善特征。我們使用新的注意力機制精心設計了聚合過程,該機制會顯著提高學習特征的判別力。通過合并特征相似性和空間相似性,我們通過siamese設計進一步提高了模型的跟蹤能力。在YouTubeVIS數據集上進行的實驗驗證了我們提出的CompFeat的有效性。

圖片 代碼:

.

網址:

2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation

作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou

摘要:盡管基于深度學習的方法在無監督的視頻目標分割中取得了很大的進步,但是仍然不能很好地處理困難的場景(例如,視覺相似性,遮擋和外觀變化)。為了緩解這些問題,我們提出了一種新穎的Focus on Foreground Network(F2Net),該框架深入研究了前景目標的幀間細節,從而有效地提高了分割性能。具體來說,我們提出的網絡由三個主要部分組成:siamese編碼器模塊,中心指導外觀擴散( Center Guiding Appearance Diffusion)模塊和動態信息融合模塊。首先,我們使用siamese編碼器提取成對幀(參考幀和當前幀)的特征表示。然后,設計了中心指導外觀擴散方式,以捕獲幀間特征(參考幀與當前幀之間的密集對應關系),幀內特征(當前幀中的密集對應關系)以及當前幀的原始語義特征。具體來說,我們建立了一個中心預測分支來預測當前目標在當前幀中的中心位置,并在增強幀間和幀內特征提取之前利用中心點信息作為空間指導,因此特征表示相當集中在前景目標上。最后,我們提出了一種動態信息融合模塊,可以通過上述三個不同級別的特征自動選擇相對重要的特征。在DAVIS2016,Youtube-object和FBMS數據集上進行的大量實驗表明,我們提出的F2Net可以實現最先進的性能,并且具有顯著的改進。

圖片 網址:

3. Non-Autoregressive Coarse-to-Fine Video Captioning

作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang

摘要:目前在橋接視頻(bridge videos)和自然語言方面取得了很不錯的進展。然而,由于自動回歸解碼的順序方式,主流視頻字幕生成方法的推理速度較慢,并且由于對視覺單詞(例如,名詞和動詞)的訓練不足和解碼范式不足,更傾向于生成一般描述。在本文中,我們提出了一種基于非自回歸解碼的模型,該模型具有從粗到精的字幕處理程序,可以緩解這些缺陷。在實現中,我們采用基于雙向自注意力的網絡作為我們的語言模型,以實現推理速度的提高,在此基礎上,我們將視頻描述生成過程分解為兩個階段,其中模型具有不同的聚焦點。具體而言,鑒于視覺單詞決定字幕的語義正確性,我們設計了一種生成視覺單詞的機制,不僅可以促進與場景相關的單詞的訓練,而且可以從視頻中捕獲相關細節以構建粗粒度的句子“模板”。此后,我們設計了專用的解碼算法,該算法用合適的詞填充“模板”,并通過迭代細化修改不適當的措詞以獲得細粒度的描述。在兩個主流視頻字幕基準(即MSVD和MSR-VTT)上進行的大量實驗表明,我們的方法可實現最先進的性能,生成多種描述并獲得較高的推理效率。

圖片 網址:

4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation

作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou

摘要:本文解決了在半監督環境中分割與類無關的目標的任務。盡管以前的基于檢測的方法實現了相對較好的性能,但是這些方法通過貪婪策略提取了最佳proposal,這可能會丟失所選候選目標之外的局部patch的詳細信息。在本文中,我們提出了一種新穎的時空圖神經網絡(STG-Net),以重建用于視頻目標分割的更準確的掩碼(masks),該掩碼通過利用所有proposal來捕獲局部上下文。在空間圖中,我們將一幀的目標proposal作為節點對待,并使用用于掩碼上下文聚合的邊緣權重策略表示它們的相關性。為了從先前的幀中捕獲時間信息,我們使用記憶網絡通過檢索時間圖中的歷史掩碼來細化當前幀的掩碼。局部補丁細節和時間關系的共同使用使我們能夠更好地解決諸如目標遮擋和丟失之類的挑戰。在沒有在線學習和微調的情況下,我們的STG網絡在四個大型基準(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上實現了最先進的性能,證明了該方法的有效性。

網址:

5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis

作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song

摘要:視頻情感分析作為一個決策過程,其本質是復雜的,涉及多種模態的決策和由此引起的認知偏差的融合。受量子認知(quantum cognition)最新進展的啟發,我們表明一種模態的情感判斷可能與另一種模態的判斷不兼容,即順序很重要,無法共同衡量它們以做出最終決定。因此,認知過程表現出經典概率理論無法捕捉到的“量子式”偏見。因此,我們提出了一種根本上新穎的,量子認知動機的融合策略,用于預測情感判斷。特別地,我們在具有正算子值測度的復值希爾伯特空間上,將話語表述為正負情緒判斷的量子疊加狀態,將單模態分類器表述為互不相容的可觀測量。在兩個基準數據集上進行的實驗表明,我們的模型明顯優于各種現有決策級別和一系列最新的內容級別融合方法。結果還表明,不兼容的概念允許有效處理所有組合模態,包括所有單峰分類器錯誤預測的極端情況。

圖片 網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完了,小編發現三維點云(3 D Point Cloud)相關的接受paper不少,近幾年點云分析在CV上出現了一系列工作,在NeurIPS上越來越多,也顯示出點云分析這個傳統任務近幾年非常火。

為此,這期小編為大家奉上NeurIPS 2020必讀的五篇三維點云(3 D Point Cloud)相關論文——時空點云表示、組上下文編碼、點云邊緣檢測、GCN局部全局點云表示、自監督少樣本點云學習

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020OD、NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations

作者:Davis Rempe, Tolga Birdal, Yongheng Zhao, Zan Gojcic, Srinath Sridhar, Leonidas J. Guibas

摘要:我們提出了CaSPR,這是一種學習以目標為中心的動態移動或演化的典型時空點云表示方法。我們處理的目標是隨著時間進行信息聚合,并在過去的任何時空鄰域中查詢目標狀態。與以前的工作不同,CaSPR支持時空連續性的學習表示,對可變和不規則的時空采樣點云具有魯棒性,并且能夠泛化到對不可知的目標實例進行表示。我們的方法將問題分為兩個子任務。首先,我們通過將輸入點云序列映射到時空規范化的目標空間來顯式編碼時間信息。然后,我們利用這種規范化來學習使用神經常微分方程的時空潛在表示,以及使用標準連續化流(continuous normalizing flows)動態生成形狀的生成模型。我們證明了我們的方法在幾種應用中的有效性,包括形狀重建,相機姿態估計,連續時空序列重建以及從不規則或間歇采樣的觀測值進行對應估計。

代碼:

網址:

2. Group Contextual Encoding for 3D Point Clouds

作者:Xu Liu, Chengtao Li, Jian Wang, Jingbo Wang, Boxin Shi, Xiaodong He

摘要:全局上下文對于3D點云場景理解任務至關重要。在這項工作中,我們將最初為2D任務設計的上下文編碼層擴展到3D點云方案。編碼層在3D點云的特征空間中學習一組字典(code words)以表征全局語義上下文,然后基于這些字典,該方法學習全局上下文描述符以相應地對特征圖進行加權。此外,與2D場景相比,數據稀疏性成為3D點云場景中的主要問題,并且隨著字典數量的增加,上下文編碼的性能迅速飽和。為了減輕這個問題,我們進一步提出了一種組上下文(group contextual)編碼方法,該方法將通道劃分為組,然后對組劃分的特征向量執行編碼。此方法有助于學習3D點云的分組子空間中的全局上下文。我們在三個被廣泛研究的3D點云任務上評估了我們方法的有效性和可推廣性。實驗結果表明,當指標為[email protected]時所提出的方法在SUN-RGBD基準上mAP為3,性能明顯優于VoteNet;而在ScanNet上,指標為mAP@0.5時其mAP為6.57 。與PointNet ++的基線相比,該方法的準確率為86%,優于基線的1.5%。

代碼:

網址:

3. PIE-NET: Parametric Inference of Point Cloud Edges

作者:Xiaogang Wang, Yuelang Xu, Kai Xu, Andrea Tagliasacchi, Bin Zhou, Ali Mahdavi-Amiri, Hao Zhang

摘要:我們引入了一種端到端的可學習技術,能夠可靠地識別3D點云數據中的特征邊緣。我們將這些邊緣表示為參數曲線(即線,圓和B樣條曲線)的集合。因此,我們的深度神經網絡(稱為PIE-NET)經過訓練可進行邊的參數推斷。該網絡依賴于候選區域(region proposal)的體系結構,其中第一個模塊先統計proposal邊緣和拐角點的完整集合,第二個模塊對每個proposal進行排名以決定是否應考慮。我們通過消融研究在ABC數據集(最大的CAD模型的公共可用數據集)上訓練和評估我們的方法,并將我們的結果與傳統(非學習)處理通道以及最近基于深度學習的邊緣檢測器(ECNet)所產生的結果進行比較。我們的結果在數量和質量上都大大超過了現有技術,并且很好地推廣到了新穎的形狀類別上。

網址:

4. Rotation-Invariant Local-to-Global Representation Learning for 3D Point Cloud

作者:SEOHYUN KIM, JaeYoo Park, Bohyung Han

摘要:我們提出了一種用于3D點云數據的局部到全局表示學習算法,該算法適合于處理各種幾何變換,尤其是旋轉,而無需針對變換進行顯式的數據增強。我們的模型利用了基于圖卷積神經網絡的多級抽象,它構建了一個描述符層次結構,以自下而上的方式對輸入對象的旋轉不變形狀信息進行編碼。每個級別的描述符都是通過3D點的隨機采樣從圖神經網絡中獲得的,這對于使學習的表示形式對輸入數據的變化具有魯棒性是非常有效。我們提出的算法在旋轉增強型3D對象識別和分割基準測試中展現了最新技術,并通過綜合的ablative實驗進一步分析了其特性。

代碼:

網址:

5. Self-Supervised Few-Shot Learning on Point Clouds

作者:Charu Sharma, Manohar Kaul

摘要:大規模點云的實用性不斷提高,加上它們在機器人技術,形狀合成和自動駕駛等廣泛應用中的實用性,引起了業界和學術界的越來越多的關注。最近,在標記的點云上運行的深度神經網絡已在有監督學習任務(如分類和分割)上顯示出令人鼓舞的結果。然而,有監督學習導致對點云進行標注是一項非常繁瑣的任務。為了解決這個問題,我們提出了兩種新穎的自監督預訓練任務,它們使用cover-tree對點云的分層分區進行編碼,其中,點云子集位于cover-tree的每個層次的半徑不同的球中。此外,我們的自監督學習網絡僅限于在少樣本學習(FSL)設置中用于訓練下游網絡的支持集合上進行預訓練(包含稀缺的訓練示例)。最后,將經過全面訓練的自監督網絡的點嵌入輸入到下游任務的網絡。我們針對下游分類和細分任務對我們的方法進行了全面的經驗評估,結果表明,使用我們的自監督學習方法進行預訓練的監督方法顯著提高了最新方法的準確性。此外,我們的方法在下游分類任務中也優于以前的無監督方法。

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完了,小編發現目標檢測(Object Detection)相關的接受paper不少,目標檢測在NeurIPS上越來越多,也顯示出目標檢測這個傳統任務在當前還具有比較鮮活的生命力。

為此,這期小編為大家奉上NeurIPS 2020必讀的七篇目標檢測(Object Detection)相關論文——平均定位和分類Loss、對抗自步學習、細粒度動態、泛化Focal Loss、RelationNet++、少樣本目標檢測、弱監督目標檢測

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection

作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan

摘要:我們提出了一個平均定位召回精度(average Localisation-Recall-Precision, aLRP),這是一種統一,有界,平衡和基于排名的損失函數,用于目標檢測中的分類和定位任務。aLRP擴展了平均召回率(LRP)性能指標,其idea來自于平均精確度(AP)損失如何將精確度擴展到基于排名的損失函數進行分類。aLRP具有以下明顯的優勢:(i)aLRP是分類和定位任務中第一個基于排名的損失函數。(ii)由于對兩個任務都使用了排名,因此aLRP自然可以對高精度分類實施高質量的定位。(iii)aLRP在正負樣本之間提供了可證明的平衡性。(iv)與最先進的檢測器的損失函數中平均具有6個超參數相比,aLRP損失只有一個超參數,我們在實驗中并未對其進行調整。在COCO數據集上,aLRP 損失改進了其基于排名的AP 損失,最多可增加5個AP點,在不增加測試時間的情況下AP可達到48.9,并且優于所有的先進的檢測器。

代碼:

網址:

2. Few-Cost Salient Object Detection with Adversarial-Paced Learning

作者:Dingwen Zhang, HaiBin Tian, Jungong Han

摘要:近年來,從給定圖像場景中檢測和分割顯著目標(salient objects)已引起了極大的關注。訓練現有深度顯著性檢測模型的根本挑戰是需要大量帶標注的數據。盡管收集大量的訓練數據變得既便宜又容易,但是從時間,勞動力和人的專業知識方面來說,對數據進行標注是一個昂貴的過程。為了解決這個問題,本文提出僅在少數訓練圖像上基于人工標注學習有效的顯著性目標檢測模型,從而大大減輕訓練模型中的人工勞動。為此,我們將該任務命名為“成本最低的顯著性目標檢測”,并提出了一種基于對抗性學習(APL)的框架,以加強其學習場景。本質上,APL源自自主學習(self-paced learning, SPL)機制,與學習正則化的啟發式設計不同,它通過數據驅動的對抗性學習機制來推斷強大的學習速度。對四個廣泛使用的基準數據集進行的綜合實驗表明,該方法可以僅用1k人工注釋訓練圖像有效地處理了現有的有監督的深度顯著性目標檢測模型。

代碼:

網址:

3. Fine-Grained Dynamic Head for Object Detection

作者:Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng

摘要:特征金字塔網絡(FPN)提出了一種優異的方法,可以通過執行實例級分配來減輕目標表觀中的比例差異。然而,這種策略忽略了實例中不同子區域的獨特特征。為此,我們提出了一種細粒度的動態頭(dynamic head),可以針對每種情況從不同的比例有條件地選擇FPN特征的像素級組合,從而進一步釋放了多比例特征表示的能力。此外,我們設計了具有新激活函數的空間門,以通過空間稀疏卷積顯著降低計算復雜性。大量實驗證明了該方法在幾種最新檢測基準上的有效性和效率。

代碼:

網址:

4. Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

作者:Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang

摘要:一步法(One-stage)檢測器基本上將目標檢測公式化為密集的分類和定位(即邊界框回歸)。通常通過Focal Loss 來優化分類,并且通常在狄拉克(Dirac delta)分布下了解其位置。一步法檢測器的最新趨勢是引入單個預測分支來估計定位質量,其中預測質量有助于分類以提高檢測性能。本文研究了以上三個基本元素的表示形式:質量估計,分類和定位。在現有實踐中發現了兩個問題,包括(1)訓練和推理之間質量估計和分類的用法不一致,以及(2)用于定位的不靈活的狄拉克分布。為了解決這些問題,我們為這些元素設計了新的表示形式。具體來說,我們將質量估計合并到類預測向量中以形成聯合表示,并使用向量表示框位置的任意分布。改進的表示法消除了不一致的風險,并準確地描述了實際數據中的靈活分布,但這些表示中包含連續標簽,這超出了Focal Loss的范圍。然后,我們提出 Generalized Focal Loss(GFL),將Focal Loss從離散形式推廣到連續版本,以實現成功的優化。在COCO測試開發中,GFL使用ResNet-101主干網絡在AP上達到了45.0%,以更高或相當的推理速度超過了最先進的SAPD(43.5%)和A TSS(43.6%)。

網址:

5. RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder

作者:Cheng Chi, Fangyun Wei, Han Hu

摘要:現有的目標檢測框架通常建立在目標表示的單一格式上,即RetinaNet和Faster R-CNN中的錨點/建議矩形框,FCOS和RepPoints中的中心點以及CornerNet中的角點。盡管這些不同的表示形式通常會驅動框架在不同方面表現良好,例如更好的分類或更好的定位,但是由于異構或非均一性,通常很難將這些表示形式組合到單個框架中以充分利用每種優勢。本文提出了一種基于注意力的解碼器模塊,與Transformer中的模塊類似,以端到端的方式將其他表示形式橋接到基于單個表示形式格式的典型目標檢測器中。其他表示充當一組key實例,以增強vanilla檢測器中的主要query表示特征。提出了用于有效計算解碼器模塊的新技術,包括key采樣方法和共享位置嵌入方法。我們將提出的模塊稱為橋接視覺表示(bridging visual representations, BVR)。并且我們證明了其在將其他表示形式橋接到流行的目標檢測框架(包括RetinaNet,Faster R-CNN,FCOS和A TSS)中的廣泛有效性,在這些方面在 AP實現了約1.5到3.0 的改進。特別是,我們將具有強大主干的最新框架在AP上改進了約2.0 ,在COCO測試開發中AP達到了52.7 A。我們將生成的網絡名為RelationNet ++。

代碼:

網址:

6. Restoring Negative Information in Few-Shot Object Detection

作者:Yukuan Yang, Fangyun Wei, Miaojing Shi, Guoqi Li

摘要:少樣本學習成為深度學習領域的新挑戰:與訓練帶有大量標記數據的深度神經網絡(DNN)的常規方法不同,它要求在帶有少量標注的新類別上推廣DNN。少樣本學習的最新進展主要集中在圖像分類上,而在本文中,我們著重于目標檢測。少樣本目標檢測的最初探索趨向于通過使用圖像中相對于某些物體類別的正proposals而拋棄該類別的負 proposals來模擬分類場景。負樣本,尤其是難樣本,對于少樣本目標檢測中的嵌入空間學習至關重要。在本文中,我們通過引入一個新的基于負和正表觀的度量學習框架以及具有負和正表觀的新推理方案,來恢復少樣本目標檢測中的負信息。我們基于最近很少使用的pipeline RepMet構建我們的工作,該模型帶有幾個新模塊,可以對負面信息進行編碼,以進行訓練和測試。在ImageNet-LOC和PASCAL VOC上進行的大量實驗表明,我們的方法極大地改進了最新的少樣本目標檢測解決方案。

代碼:

網址:

7. UWSOD: Toward Fully-Supervised-Level Capacity Weakly Supervised Object Detection

作者:Yunhang Shen, Rongrong Ji, Zhiwei Chen, Yongjian Wu, Feiyue Huang

摘要:弱監督目標檢測(WSOD)由于具有極大的靈活性,可以利用僅具有圖像級標注的大規模數據集來進行檢測器訓練,因此受到了廣泛的研究關注。盡管近年來有了很大的進步,但是WSOD的性能仍然受到限制,遠遠低于有監督的目標檢測(FSOD)。由于大多數WSOD方法依賴于object proposal算法來生成候選區域,并且還面臨著諸如質量低下的預測邊界框和大規模變化之類的挑戰。在本文中,我們提出了一個統一的WSOD框架(稱為UWSOD),以構建僅包含圖像級標簽的大容量通用檢測模型,該模型是獨立的,不需要外部模塊或其他監督。為此,我們利用了三個重要的組件,即object proposal生成,邊界框微調和尺度不變特征。首先,我們提出一個基于錨點的自監督的proposa生成器來假設目標位置,該生成器由UWSOD創建的監督進行端到端的訓練,以進行目標分類和回歸。其次,我們通過逐步選擇高可信度object proposal作為正樣本,開發了逐步的邊界框微調,以精煉檢測分數和坐標,從而引導了預測邊界框的質量。第三,我們構造了一個多速率重采樣金字塔以聚合多尺度上下文信息,這是處理WSOD中尺度變化的第一個網絡內特征層次結構。在PASCAL VOC和MS COCO上進行的大量實驗表明,所提出的UWSOD使用最新的WSOD方法可獲得競爭性結果,而無需外部模塊或額外的監督。此外,具有類不可知的ground-truth邊界框的UWSOD的上限性能接近Faster R-CNN,這表明UWSOD具有完全受監督級別的能力。

代碼:

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完會,小編發現元學習(Meta Learning)相關的接受paper不少,元學習在CV、NLP等各個領域的應用也比較火熱,值得研究者們細心學習。

為此,這期小編為大家奉上NeurIPS 2020必讀的五篇元學習(Meta Learning)相關論文——少樣本視覺推理、持續元學習、異構元學習、元強化學習、元變換網絡學習

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. Few-shot Visual Reasoning with Meta-analogical Contrastive Learning

作者:Youngsung Kim, Jinwoo Shin, Eunho Yang, Sung Ju Hwang

摘要:盡管人類可以通過僅觀察幾個樣本來解決需要邏輯推理的視覺難題,但它需要對大量樣本進行訓練,以使用最新的深度推理模型來在同一任務上獲得相似的性能。在這項工作中,我們提出通過類比推理來解決這樣的少樣本抽象視覺推理問題,并且這是人類具有的識別兩組數據之間結構或關系相似性的獨特能力。具體來說,我們構造了兩個不同問題實例的類比和非模擬訓練對。后者是通過對原始問題(以前的問題)進行擾動或改組來創建的。然后,我們通過強制類比元素盡可能相似,同時最小化非類比元素之間的相似性,來提取成對的兩個域中元素之間的結構關系。這種類比性的對比學習可以有效地學習給定抽象推理任務的關系表示。我們在RAVEN數據集上驗證了我們的方法,該方法的性能優于最新方法,并且在缺乏訓練數據時獲得了更大的收益。我們進一步對具有不同屬性的相同任務對我們的對比學習模型進行元學習,并表明它可以推廣到具有未知屬性的相同視覺推理問題。

網址:

2. La-MAML: Look-ahead Meta Learning for Continual Learning

作者:Gunshi Gupta, Karmesh Yadav, Liam Paull

摘要:持續學習(continual learning)問題涉及訓練模型,然而這些模型的能力有限,無法在一組順序到達的未知數量的任務上表現良好。雖然元學習在減少新舊任務之間的干擾方面顯示出巨大的潛力,但當前的訓練過程往往很慢或離線,并且對許多超參數敏感。在這項工作中,我們提出了Look-ahead MAML(La-MAML),這是一種基于快速優化的元學習算法,用于在線持續學習,并有帶少量的情節記憶。在元學習更新中對每個參數的學習率進行調制,使我們能夠與以前有關超梯度和元下降的工作建立聯系。與傳統的基于先驗的方法相比,該方法提供了一種更靈活,更有效的方法來減輕災難性遺忘問題。La-MAML的性能優于其他基replay,基于先驗和基于元學習的方法,并且可在現實世界中的視覺分類基準上持續學習。

網址:

3. Meta-learning from Tasks with Heterogeneous Attribute Spaces

作者:Tomoharu Iwata, Atsutoshi Kumagai

摘要:我們提出了一種異構元學習方法,該方法在具有各種屬性空間的任務上訓練模型,從而可以解決在給定標記實例的情況下屬性空間與訓練任務不同的未知任務(unseen tasks)。盡管已經提出了許多元學習方法,但是它們假定所有訓練任務和目標任務共享相同的屬性空間,并且當任務之間的屬性大小不同時,它們將不適用。我們的模型使用推理網絡從幾個標記實例中推斷每個屬性和每個響應的潛在表示。然后,使用預測網絡推斷的表示來預測未標記實例的響應。即使屬性和響應的大小在各個任務之間都不同,屬性和響應表示也使我們能夠基于屬性和響應的特定于任務的屬性進行預測。在我們使用合成數據集和OpenML中的59個數據集進行的實驗中,我們證明了在使用具有異構屬性空間的任務訓練后,我們提出的方法可以預測新任務中給定標記實例的響應。

網址:

4. Model-based Adversarial Meta-Reinforcement Learning

作者:Zichuan Lin, Garrett Thomas, Guangwen Yang, Tengyu Ma

摘要:元強化學習(meta-RL)旨在從多個訓練任務中有效地學習適應不可知測試任務的能力。盡管取得了成功,但已知現有的meta-RL算法對任務分配的變化很敏感。當測試任務分配與訓練任務分配不同時,性能可能會大大降低。為了解決這個問題,本文提出了基于模型的對抗性元強化學習(AdMRL),旨在最大程度地降低最差情況的次優差距(最優回報與算法在自適應后獲得的回報之間的差異),并使用基于模型的方法來處理一系列任務中的所有任務。我們提出了一個極小極大目標,并通過在學習固定任務的動力學模型與尋找當前模型的對抗任務(在該任務中,模型誘導的策略最大程度次優)之間交替進行優化。假設任務已參數化,我們通過隱函數定理推導了次最優性相對于任務參數的梯度公式,并展示了如何通過共軛梯度法和新穎的方法有效地實現梯度估計器--REINFORCE估算器。我們在幾個連續的控制基準上評估了我們的方法,并證明了它在所有任務的最壞情況下的性能,對分發任務的概括能力以及在訓練和測試時間樣本效率方面相對于現有技術的有效性。

網址:

5. Node Classification on Graphs with Few-Shot Novel Labels via Meta Transformed Network Embedding

作者:Lin Lan, Pinghui Wang, Xuefeng Du, Kaikai Song, Jing Tao, Xiaohong Guan

摘要:我們研究了具有少量新穎標簽的圖節點分類問題,它具有兩個獨特的特性:(1)圖中出現了新穎標簽;(2)新穎標簽僅具有幾個用于訓練分類器的代表性節點。對這個問題的研究具有指導意義,并且與許多應用相對應,例如對在線社交網絡中只有幾個用戶的新組建的推薦。為了解決這個問題,我們提出了一種新穎的元變換網絡嵌入框架(MetaTNE),該框架由三個模塊組成:(1)一個結構模塊根據圖結構為每個節點提供潛在的表示。(2)元學習模塊以元學習的方式捕獲圖結構和節點標簽之間的關系作為先驗知識。此外,我們引入了一種嵌入轉換函數,以彌補元學習直接使用的不足。從本質上講,可以將元學習的先驗知識用于促進少樣本新穎標簽的學習。(3)優化模塊采用簡單而有效的調度策略來訓練上述兩個模塊,并在圖結構學習和元學習之間取得平衡。在四個真實數據集上進行的實驗表明,MetaTNE相對于最新方法具有巨大的改進。

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。近期,NeurIPS 2020快開會了,小編發現域自適應(Domain Adaptation)相關的接受paper很多,這塊研究方向近幾年一直很火,并且各個CV和NLP的域自適應任務也非常多。

為此,這期小編為大家奉上NeurIPS 2020必讀的六篇域自適應(Domain Adaptation)相關論文——One-shot 無監督域自適應、圖模型、啟發式域自適應、自監督、多源域自適應

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020CI、ICLR2020CI、ICML2020CI

1. Adversarial Style Mining for One-Shot Unsupervised Domain Adaptation

作者:Yawei Luo, Ping Liu, Tao Guan, Junqing Yu, Yi Yang

摘要:我們針對One-Shot無監督域自適應的問題。與傳統的無監督域適應不同,它假定學習適應時只能使用一個未標記的目標樣本。這種設置是現實的,但更具挑戰性,在這種情況下,傳統的自適應方法由于缺少未標記的目標數據而容易失敗。為此,我們提出了一種新穎的對抗式風格挖掘方法,該方法將風格遷移模塊和特定于任務模塊組合成對抗的方式。具體來說,風格遷移模塊會根據當前的學習狀態,迭代搜索One-Shot目標樣本周圍的較難的風格化圖像,從而使任務模型探索在不可知的目標領域中難以解決的潛在風格,從而增強了數據稀缺情況下的適應性能。對抗學習框架使風格遷移模塊和特定于任務模塊在競爭中彼此受益。在跨域分類和分割基準方面的大量實驗證明,ASM在具有挑戰性的One-Shot設置下達到了最新的自適應性能。

網址:

2. Domain Adaptation as a Problem of Inference on Graphical Models

作者:Kun Zhang, Mingming Gong, Petar Stojanov, Biwei Huang, QINGSONG LIU, Clark Glymour

摘要:本文涉及數據驅動的無監督域自適應,在這種情況下,事先不知道跨域的聯合分布如何變化,即數據分布的哪些因素或模塊保持不變或跨域變化。為了研究具有多個源域的域自適應方法,我們提出使用圖模型作為一種緊湊(compact)的方式來編碼聯合分布的變化屬性,該屬性可以從數據中學習,然后將域自適應視為一個關于圖模型的貝葉斯推斷問題。這種圖模型區分了分布的恒定和變化模塊,并指定了跨域變化的特性,這是變化模塊的先驗知識,目的是得出目標域中目標變量Y的后驗。這提供了域自適應的端到端框架,可以將關于聯合分布如何變化的其他知識(如果可用)直接合并以改善圖表示。我們討論如何將基于因果關系的域適應置于此保護之下。和真實數據的實驗結果證明了所提出的域適應框架的功效。

代碼:

網址:

3. Heuristic Domain Adaptation

作者:shuhao cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang

摘要:在視覺域自適應(DA)中,將特定于域的特征與不依賴于域的表示形式分開是一個病態(ill-posed)問題。現有方法采用不同的先驗方法或直接最小化域差異來解決此問題,這在處理實際情況時缺乏靈活性。另一個研究方向是將特定域的信息表示為逐步遷移的過程,這在準確刪除特定域的屬性方面往往不是最佳選擇。在本文中,我們從啟發式搜索的角度解決了域不變和域特定信息的建模問題。我們將現有的特征標識為啟發式表示形式,從而導致更大的域差異。在啟發式表示的指導下,我們制定了一個具有良好理論依據的啟發式域自適應(HDA)原則框架。為了執行HDA,在學習過程中,將域不變和域特定表示之間的余弦相似性評分和獨立性度量放入初始和最終狀態的約束中。類似于啟發式搜索的最終條件,我們進一步推導出一個約束,以強制約束啟發式網絡輸出的最終范圍較小。因此,我們提出了啟發式域自適應網絡(HDAN),該網絡明確學習了具有上述約束的域不變和域特定表示。大量實驗表明,HDAN在無監督DA,多源DA和半監督DA方面已超過了最新技術。

代碼:

網址:

4. Transferable Calibration with Lower Bias and Variance in Domain Adaptation

作者:Ximei Wang, Mingsheng Long, Jianmin Wang, Michael Jordan

摘要:域自適應(DA)可以將學習器從標記的源域轉移到未標記的目標域。盡管已經取得了顯著的進步,但大多數現有的DA方法都專注于提高推理的目標精度。如何估計DA模型的預測不確定性對于安全重要型場景中的決策至關重要,但其仍然是研究的邊界。在本文中,我們研究了DA校準(Calibration)中的開放性問題,該問題是由于域轉移和缺少目標標簽共存所造成的,這一問題極具挑戰性。我們首先揭示了DA模型以經過良好校準的概率為代價來學習更高的精度的困境。基于這一發現,我們提出了可遷移校準(TransCal),以在統一的無超參數優化框架中以較低的偏差和方差實現更準確的校準。作為常規的post-hoc 校準方法,TransCal可以輕松地應用于重新校準現有的DA方法。從理論上和經驗上都證明了其有效性。

網址:

5. Universal Domain Adaptation through Self-Supervision

作者:Kuniaki Saito, Donghyun Kim, Stan Sclaroff, Kate Saenko

摘要:傳統上,無監督域自適應方法假定所有源類別都存在于目標域中。實際上,對于兩個域之間的類別重疊知之甚少。雖然某些方法使用部分或開放類別來解決目標設置,但它們假定特定設置是先驗的。我們提出了一種更通用的域自適應框架,該框架可以處理任意類別轉換,稱為通過熵優化(DANCE)的域自適應鄰域聚類。DANCE結合了兩種新穎的思想:首先,由于我們不能完全依靠源類別來學習針對目標的判別性特征,因此我們提出了一種新穎的鄰域聚類技術,以一種自監督的方式來學習目標域的結構。其次,我們使用基于熵的特征對齊和拒絕來將目標特征與源對齊,或基于它們的熵將它們拒絕為未知類別。我們通過廣泛的實驗表明,在開放集,開放部分和部分域適應設置中,DANCE的性能均優于基線。

代碼:

網址:

6. Your Classifier can Secretly Suffice Multi-Source Domain Adaptation

作者:Naveen Venkat, Jogendra Nath Kundu, Durgesh Singh, Ambareesh Revanur, R. Venkatesh Babu

摘要:多源域適應(MSDA)解決在域轉移(domain-shift)下將任務知識從多個標記的源域轉移到未標記的目標域。現有方法旨在使用輔助分布對齊目標來最小化該域偏移。在這項工作中,我們提出了與MSDA不同的觀點,我們觀察到了深度模型以在標簽監督下隱式對齊域。因此,我們旨在利用隱式對齊方式而無需其他訓練目標來進行適應。為此,我們使用偽標記的目標樣本并在偽標記上執行分類器協議,此過程稱為自監督隱式比對(SImpA1)。我們發現,即使在源域之間的類別轉換下,SImpAl仍然可以輕松工作。此外,我們提出了分類器一致性作為確定訓練收斂的線索,從而產生了一種簡單的訓練算法。我們在五個基準上對我們的方法進行了全面的評估,并對方法的每個組成部分進行了詳細的分析。

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。近期,所有paper list 放出,小編發現**對比學習(Contrastive Learning)**相關的投稿paper很多,這塊研究方向這幾年受到了學術界的廣泛關注,并且在CV、NLP等領域也應用頗多。

為此,這期小編為大家奉上NeurIPS 2020必讀的七篇對比學習相關論文——對抗自監督對比學習、局部對比學習、難樣本對比學習、多標簽對比預測編碼、自步對比學習、有監督對比學習

NeurIPS 2020 Accepted Papers://neurips.cc/Conferences/2020/AcceptedPapersInitial

1. Adversarial Self-Supervised Contrastive Learning

作者: Minseon Kim, Jihoon Tack, Sung Ju Hwang

摘要: 現有的對抗性學習方法大多使用類別標簽來生成導致錯誤預測的對抗性樣本,然后使用這些樣本來增強模型的訓練,以提高魯棒性。雖然最近的一些工作提出了利用未標記數據的半監督對抗性學習方法,但它們仍然需要類別標簽。然而,我們真的需要類別標簽來進行反向的深度神經網絡的健壯訓練嗎?本文提出了一種新的針對未標記數據的對抗性攻擊,使得該模型混淆了擾動數據樣本的實例級身份。此外,我們還提出了一種自監督對比學習(Contrastive Learning)框架來對抗性地訓練未標記數據的魯棒神經網絡,其目的是最大化數據樣本的隨機擴充與其實例對抗性擾動之間的相似度。我們在多個基準數據集上驗證了我們的方法-魯棒對比學習(RoCL),在這些數據集上,它獲得了與最新的有監督對抗性學習方法相當的魯棒準確率,并且顯著地提高了對黑盒和不可見類型攻擊的魯棒性。此外,與單獨使用自監督學習相比,RoCL進一步結合有監督對抗性損失進行聯合微調,獲得了更高的魯棒精度。值得注意的是,RoCL在穩健的遷移學習方面也顯示出令人印象深刻的結果。

網址:

2. Contrastive learning of global and local features for medical image segmentation with limited annotations

作者: Krishna Chaitanya, Ertunc Erdil, Neerav Karani, Ender Konukoglu

摘要: 有監督深度學習成功的一個關鍵要求是一個大的標記數據集——這是醫學圖像分析中難以滿足的條件。自監督學習(SSL)可以在這方面提供幫助,因為它提供了一種用未標記的數據預訓練神經網絡的策略,然后用有限的樣本標注對下游任務進行微調。對比學習是SSL的一種特殊變體,是一種學習圖像級表征的強大技術。在這項工作中,我們提出了一種策略,通過利用領域內一些特點,在標注有限的半監督場景下來擴展volumetric 醫療圖像分割的對比學習框架。具體地,我們提出了:(1)新穎的對比策略,它利用volumetric 醫學圖像之間的結構相似性(領域特定線索);(2)對比損失的局部信息來學習對每個像素分割有用的局部區域的獨特表示(問題特定線索)。我們在三個磁共振成像(MRI)數據集上進行了廣泛的評估。在有限的標注環境下,與其他的自監督和半監督學習技術相比,本文提出的方法有了很大的改進。當與簡單的數據增強技術相結合時,該方法僅使用兩個標記的MRI體積用于訓練,達到基準性能的8%以內,相當于用于訓練基準的訓練數據ACDC的4%。

網址:

3. LoCo: Local Contrastive Representation Learning

作者: Yuwen Xiong, Mengye Ren, Raquel Urtasun

摘要: 深度神經網絡通常執行端到端反向傳播來學習權重,該過程在跨層的權重更新步驟中創建同步約束(synchronization constraints),并且這種約束在生物學上是不可信的。無監督對比表示學習的最新進展指出一個問題,即學習算法是否也可以是局部的,即下層的更新不直接依賴于上層的計算。雖然Greedy InfoMax分別學習每個塊的局部目標,但我們發現,在最新的無監督對比學習算法中,可能是由于貪婪的目標以及梯度隔離,會一直損害readout的準確性。在這項工作中,我們發現,通過重疊局部塊堆疊在一起,我們有效地增加了解碼器的深度,并允許較高的塊隱式地向較低的塊發送反饋。這種簡單的設計首次縮小了局部學習算法和端到端對比學習算法之間的性能差距。除了標準的ImageNet實驗,我們還展示了復雜下游任務的結果,例如直接使用readout功能進行對象檢測和實例分割。

網址:

4. Hard Negative Mixing for Contrastive Learning

作者: Yannis Kalantidis, Mert Bulent Sariyildiz, Noe Pion, Philippe Weinzaepfel, Diane Larlus

摘要: 對比學習已成為計算機視覺中自監督學習方法的重要組成部分。通過學習將同一圖像的兩個增強版本相互靠近地圖像嵌入,并將不同圖像的嵌入分開,可以訓練高度可遷移的視覺表示。最近的研究表明,大量的數據增強和大量的負樣本集對于學習這樣的表征都是至關重要的。同時,無論是在圖像層面還是在特征層面,數據混合策略都通過合成新的示例來改進監督和半監督學習,迫使網絡學習更健壯的特征。在這篇文章中,我們認為對比學習的一個重要方面,即hard negatives的影響,到目前為止被忽視了。為了獲得更有意義的負樣本,目前最流行的對比自監督學習方法要么大幅增加batch sizes大小,要么保留非常大的內存庫;然而,增加內存需求會導致性能回報遞減。因此,我們從更深入地研究一個表現最好的框架開始,并展示出證據,為了促進更好、更快的學習,需要更難的難樣本(harder negatives)。基于這些觀察結果,并受到數據混合策略成功的激勵,我們提出了特征級別的難例混合策略,該策略可以用最小的計算開銷在運行中進行計算。我們在線性分類、目標檢測和實例分割方面對我們的方法進行了詳盡的改進,并表明使用我們的難例混合過程提高了通過最先進的自監督學習方法學習的視覺表示的質量。

代碼:

網址:

5. Multi-label Contrastive Predictive Coding

作者: Jiaming Song, Stefano Ermon

摘要: 變量互信息(mutual information, MI)估計器廣泛應用于對比預測編碼(CPC)等無監督表示學習方法中。MI的下界可以從多類分類問題中得到,其中critic試圖區分從潛在聯合分布中提取的正樣本和從合適的建議分布中提取的(m?1)個負樣本。使用這種方法,MI估計值超過log m,因此有效下界可能會嚴重低估,除非m非常大。為了克服這一局限性,我們引入了一種新的基于多標簽分類問題的估計器,其中critic需要同時聯合識別多個正樣本。我們證明了在使用相同數量的負樣本的情況下,多標簽CPC能夠超過log m界,同時仍然是互信息的有效下界。我們證明了所提出的方法能夠帶來更好的互信息估計,在無監督表示學習中獲得經驗上的改進,并且在13個任務中超過了最先進的10個知識提取方法。

網址:

6. Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID

作者: Yixiao Ge, Feng Zhu, Dapeng Chen, Rui Zhao, Hongsheng Li

摘要: 域自適應目標Re-ID旨在將學習到的知識從已標記的源域轉移到未標記的目標域,以解決開放類(open-class)的重識別問題。雖然現有的基于偽標簽的方法已經取得了很大的成功,但是由于域的鴻溝和聚類性能的不理想,它們并沒有充分利用所有有價值的信息。為了解決這些問題,我們提出了一種新的具有混合記憶的自適應對比學習框架。混合存儲器動態地生成用于學習特征表示的源域類級、目標域簇級和未聚類實例級監督信號。與傳統的對比學習策略不同,該框架聯合區分了源域類、目標域簇和未聚類實例。最重要的是,所提出的自適應方法逐漸產生更可靠的簇來提煉混合記憶和學習目標,這被證明是我們方法的關鍵。我們的方法在目標 Re-ID的多域適配任務上的性能優于現有技術,甚至在源域上不需要任何額外的標注就能提高性能。在Market1501和MSMT17數據上,我們的無監督目標Re-ID的通用版本分別比最先進的算法高出16.7%和7.9%。

代碼:

網址:

7. Supervised Contrastive Learning

作者: Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, Dilip Krishnan

摘要: 交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在本文中,我們提出了一種新的訓練方法,該方法在不同的體系結構和數據增強的監督學習任務中始終優于交叉熵。我們修正了批量對比損失,它最近被證明在自監督環境下學習強大的表示是非常有效的。因此,我們能夠比交叉熵更有效地利用標簽信息。屬于同一類的點簇在嵌入空間中被拉在一起,同時推開來自不同類的樣本簇。除此之外,我們還利用了大的batch sizes和標準化嵌入等關鍵因素,這些因素已被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的性能都比交叉熵高出1%以上,在使用 AutoAugment數據增強的方法中創造了78.8%的新技術水平。在校準和準確度方面,這一損失也顯示出在標準基準上對自然損壞的穩健性有明顯的好處。與交叉熵相比,我們的監督對比損失對諸如優化器或數據增強等超參數設置更穩定。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。

網址: //arxiv.org/pdf/2003.14111.pdf

代碼鏈接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。

網址:

代碼鏈接:

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。

網址:

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。

網址:

代碼鏈接:

補充材料:

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。

網址:

代碼鏈接:

付費5元查看完整內容
北京阿比特科技有限公司