亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于視頻理解(Video Understanding)相關的接受paper很多,視頻理解,比如視頻分割、視頻分類以及視頻描述生成等等一些列前沿的方法和應用受到了很多人的關注。

為此,這期小編為大家奉上AAAI 2021必讀的六篇視頻理解相關論文——視頻實例分割、無監督視頻目標分割、粗到細視頻描述生成、時空圖神經網絡視頻目標分割、視頻情感分析

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio

作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi

摘要:視頻實例分割是一項復雜的任務,我們需要針對任何給定視頻對每個目標進行檢測,分割和跟蹤。先前的方法僅將單幀特征用于目標的檢測,分割和跟蹤,并且當遇到諸如運動模糊和劇烈的外觀變化之類情形,它們在視頻場景中會遭受損失。為了消除僅通過使用單幀特征引入的歧義,我們提出了一種新穎的綜合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用時間和空間上下文信息在幀級和目標級完善特征。我們使用新的注意力機制精心設計了聚合過程,該機制會顯著提高學習特征的判別力。通過合并特征相似性和空間相似性,我們通過siamese設計進一步提高了模型的跟蹤能力。在YouTubeVIS數據集上進行的實驗驗證了我們提出的CompFeat的有效性。

圖片 代碼:

.

網址:

2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation

作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou

摘要:盡管基于深度學習的方法在無監督的視頻目標分割中取得了很大的進步,但是仍然不能很好地處理困難的場景(例如,視覺相似性,遮擋和外觀變化)。為了緩解這些問題,我們提出了一種新穎的Focus on Foreground Network(F2Net),該框架深入研究了前景目標的幀間細節,從而有效地提高了分割性能。具體來說,我們提出的網絡由三個主要部分組成:siamese編碼器模塊,中心指導外觀擴散( Center Guiding Appearance Diffusion)模塊和動態信息融合模塊。首先,我們使用siamese編碼器提取成對幀(參考幀和當前幀)的特征表示。然后,設計了中心指導外觀擴散方式,以捕獲幀間特征(參考幀與當前幀之間的密集對應關系),幀內特征(當前幀中的密集對應關系)以及當前幀的原始語義特征。具體來說,我們建立了一個中心預測分支來預測當前目標在當前幀中的中心位置,并在增強幀間和幀內特征提取之前利用中心點信息作為空間指導,因此特征表示相當集中在前景目標上。最后,我們提出了一種動態信息融合模塊,可以通過上述三個不同級別的特征自動選擇相對重要的特征。在DAVIS2016,Youtube-object和FBMS數據集上進行的大量實驗表明,我們提出的F2Net可以實現最先進的性能,并且具有顯著的改進。

圖片 網址:

3. Non-Autoregressive Coarse-to-Fine Video Captioning

作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang

摘要:目前在橋接視頻(bridge videos)和自然語言方面取得了很不錯的進展。然而,由于自動回歸解碼的順序方式,主流視頻字幕生成方法的推理速度較慢,并且由于對視覺單詞(例如,名詞和動詞)的訓練不足和解碼范式不足,更傾向于生成一般描述。在本文中,我們提出了一種基于非自回歸解碼的模型,該模型具有從粗到精的字幕處理程序,可以緩解這些缺陷。在實現中,我們采用基于雙向自注意力的網絡作為我們的語言模型,以實現推理速度的提高,在此基礎上,我們將視頻描述生成過程分解為兩個階段,其中模型具有不同的聚焦點。具體而言,鑒于視覺單詞決定字幕的語義正確性,我們設計了一種生成視覺單詞的機制,不僅可以促進與場景相關的單詞的訓練,而且可以從視頻中捕獲相關細節以構建粗粒度的句子“模板”。此后,我們設計了專用的解碼算法,該算法用合適的詞填充“模板”,并通過迭代細化修改不適當的措詞以獲得細粒度的描述。在兩個主流視頻字幕基準(即MSVD和MSR-VTT)上進行的大量實驗表明,我們的方法可實現最先進的性能,生成多種描述并獲得較高的推理效率。

圖片 網址:

4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation

作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou

摘要:本文解決了在半監督環境中分割與類無關的目標的任務。盡管以前的基于檢測的方法實現了相對較好的性能,但是這些方法通過貪婪策略提取了最佳proposal,這可能會丟失所選候選目標之外的局部patch的詳細信息。在本文中,我們提出了一種新穎的時空圖神經網絡(STG-Net),以重建用于視頻目標分割的更準確的掩碼(masks),該掩碼通過利用所有proposal來捕獲局部上下文。在空間圖中,我們將一幀的目標proposal作為節點對待,并使用用于掩碼上下文聚合的邊緣權重策略表示它們的相關性。為了從先前的幀中捕獲時間信息,我們使用記憶網絡通過檢索時間圖中的歷史掩碼來細化當前幀的掩碼。局部補丁細節和時間關系的共同使用使我們能夠更好地解決諸如目標遮擋和丟失之類的挑戰。在沒有在線學習和微調的情況下,我們的STG網絡在四個大型基準(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上實現了最先進的性能,證明了該方法的有效性。

網址:

5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis

作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song

摘要:視頻情感分析作為一個決策過程,其本質是復雜的,涉及多種模態的決策和由此引起的認知偏差的融合。受量子認知(quantum cognition)最新進展的啟發,我們表明一種模態的情感判斷可能與另一種模態的判斷不兼容,即順序很重要,無法共同衡量它們以做出最終決定。因此,認知過程表現出經典概率理論無法捕捉到的“量子式”偏見。因此,我們提出了一種根本上新穎的,量子認知動機的融合策略,用于預測情感判斷。特別地,我們在具有正算子值測度的復值希爾伯特空間上,將話語表述為正負情緒判斷的量子疊加狀態,將單模態分類器表述為互不相容的可觀測量。在兩個基準數據集上進行的實驗表明,我們的模型明顯優于各種現有決策級別和一系列最新的內容級別融合方法。結果還表明,不兼容的概念允許有效處理所有組合模態,包括所有單峰分類器錯誤預測的極端情況。

圖片 網址:

付費5元查看完整內容

相關內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于對抗攻擊(Adversarial Attack)相關的接受paper不少,這幾年比如對抗攻擊、基于圖數據的對抗攻擊、NLP、CV上的攻擊防御等等一些列前沿的方法和應用受到了很多人的關注,也是當前比較火的topic。

為此,這期小編為大家奉上AAAI 2021必讀的六篇對抗攻擊相關論文——復合對抗攻擊、音頻對抗攻擊、互信息正則化、序列攻擊、不確定注意力圖神經網絡、不確定性匹配圖神經網絡

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021QA、AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. Composite Adversarial Attacks

作者:Xiaofeng Mao, Yuefeng Chen, Shuhui Wang, Hang Su, Yuan He, Hui Xue

摘要:對抗攻擊是一種欺騙機器學習(ML)模型的技術,它提供了一種評估對抗魯棒性的方法。在實踐中,攻擊算法是通過人類專家人工選擇和調整,以破壞ML系統的算法。但是,手動選擇攻擊者往往不是最佳選擇,從而導致對模型安全性的錯誤評估。在本文中,我們提出了一種新的程序,稱為“復合對抗攻擊”(CAA),用于從32名基礎攻擊者的候選庫中自動搜索攻擊算法及其超參數的最佳組合。我們設計一個搜索空間,其中將攻擊策略表示為攻擊序列,即將前一個攻擊者的輸出用作后一個攻擊者的初始化輸入。CAA采用多目標NSGA-II遺傳算法尋找最強大的攻擊策略,且復雜度最低。實驗結果表明,CAA在11種多樣的防御系統中擊敗了10名頂級攻擊者,耗時更少(比AutoAttack快6倍),并且在l_∞、l_2和無限制對抗攻擊上實現了最新的技術水平。

網址:

2. Enabling Fast and Universal Audio Adversarial Attack Using Generative Model

作者:Yi Xie, Zhuohang Li, Cong Shi, Jian Liu, Yingying Chen, Bo Yuan

摘要:近年來,基于深度神經網絡(DNN)的音頻系統容易受到對抗性攻擊,這一點已引起越來越多的關注。但是,現有的音頻對抗攻擊使攻擊者可以擁有整個用戶的音頻輸入,并給予足夠的時間預算以產生對抗性干擾。但是,這些理想的假設使得現有的音頻對抗攻擊在實踐中幾乎不可能及時發布(例如,與用戶的流輸入一起播放不明顯的對抗擾動)。為了克服這些限制,在本文中我們提出了快速音頻對抗擾動發生器(FAPG),它使用生成模型在單個前向通過中為音頻輸入產生對抗性擾動,從而大大提高了擾動產生速度。在FAPG的基礎上,我們進一步提出了通用音頻對抗性擾動發生器(UAPG),該方案旨在制作通用對抗性擾動,可將其施加到任意良性音頻輸入上,從而造成誤分類。在基于DNN的音頻系統上的大量實驗表明,與現有的音頻對抗攻擊方法相比,我們提出的FAPG可以達到高達214倍的加速率,并且具有很高的成功率。同樣,我們提出的UAPG會產生通用的對抗性擾動,與最先進的解決方案相比,可以實現更好的攻擊性能。

網址:

3. Improving Robustness to Model Inversion Attacks via Mutual Information Regularization

作者:Tianhao Wang, Yuheng Zhang, Ruoxi Jia

摘要:本文研究了針對模型反轉(model inversion, MI)攻擊的防御機制-這是一種隱私攻擊的類型,旨在通過訪問目標機器學習模型來推斷有關訓練數據分布的信息。現有的防御機制依賴于特定于模型的試探法或噪聲注入。現有的方法雖然能夠減輕攻擊,但會嚴重影響模型性能。先前的方法仍然存在一個問題,即如何設計一種適用于各種模型并實現更好的效用(隱私權衡)的防御機制。在本文中,我們提出了基于互信息正則化的MI攻擊的防御(MID)方法。關鍵思想是限制有關預測中包含的模型輸入信息,從而限制對手從模型預測中推斷私人訓練屬性的能力。我們的防御原則與模型無關,對于線性回歸,決策樹和神經網絡,我們向正則化器提供了易于處理的近似值,如果未附加任何防御措施,則先前的工作已成功地對它們進行了攻擊。我們通過設計嚴格的基于游戲的定義并量化相關的信息泄漏,對MI攻擊進行了正式的研究。我們的理論分析揭示了DP在防御MI攻擊方面的效率低下,在先前的幾項工作中已通過經驗觀察到這一點。我們的實驗表明,MID可以為多種MI攻擊,目標模型和數據集提供最先進的性能。

網址:

4. Sequential Attacks on Kalman Filter-based Forward Collision Warning Systems

作者:Yuzhe Ma, Jon Sharp, Ruizhe Wang, Earlence Fernandes, Xiaojin Zhu

摘要:卡爾曼濾波器(KF)廣泛用于各個領域,以執行序列學習或變量估計。在自動駕駛汽車中,KF構成了許多高級駕駛員輔助系統(ADAS)的核心組件,例如前撞預警(FCW)。它根據傳感器的測量結果跟蹤相關交通目標的狀態(距離,速度等)。KF的跟蹤輸出通常被饋送到下游邏輯中以產生警報,然后駕駛員將使用它們在接近碰撞的情況下做出駕駛決策。在本文中,我們研究對KF的對抗性攻擊,將其作為更復雜的人機混合前向碰撞預警系統的一部分。我們的攻擊目標是使KF輸出不正確的狀態估計值,從而導致錯誤或延遲的警報,從而對人的制動決策產生負面影響。我們通過依次處理送入KF的測量值來完成此操作,并提出了一種新穎的模型預測控制(MPC)方法來計算最佳操縱值。通過在模擬駕駛環境中進行的實驗,我們表明攻擊者能夠通過在預期目標時間之前對測量進行有計劃的操縱來成功更改FCW警報信號。這些結果表明,我們的襲擊會誤導分心的駕駛員并導致車輛碰撞。

網址:

5. Uncertainty-aware Attention Graph Neural Network for Defending Adversarial Attacks

作者:Boyuan Feng, Yuke Wang, Zheng Wang, Yufei Ding

摘要:隨著基于圖的學習的日益普及,圖神經網絡(GNN)成為圖數據分析的必要工具。但是,與經過廣泛研究和詳盡測試的傳統CNN不同,人們仍然擔心GNN在關鍵環境(例如金融服務)下的穩健性。主要原因是現有的GNN通常在預測中充當黑匣子,并且不會為預測提供不確定性。另一方面,貝葉斯深度學習在CNN上的最新進展證明了其在量化和解釋這種不確定性以加強CNN模型方面的成功。基于這些觀察,我們提出了UAG,這是第一個通過識別和利用GNN的層次不確定性來防御對GNN的對抗攻擊的系統解決方案。UAG開發了一種貝葉斯不確定性技術(BUT)以明確捕獲GNN中的不確定性,并進一步采用不確定性注意技術(UAT)來防御對GNN的對抗性攻擊。大量的實驗表明,我們提出的防御方法明顯優于最新的解決方案。

網址:

6. Uncertainty-Matching Graph Neural Networks to Defend Against Poisoning Attacks

作者:Uday Shankar Shanthamallu, Jayaraman J. Thiagarajan, Andreas Spanias

摘要:圖神經網絡(GNN)是將神經網絡概括為圖結構化數據的一種方法,通常使用圖實體之間的信息傳遞來實現。雖然GNN可有效用于節點分類,鏈接預測和圖分類,但它們容易受到對抗性攻擊,即結構的微小擾動可能會導致性能下降。在這項工作中,我們提出不確定性匹配GNN(UM-GNN),其目的是通過利用信息傳遞框架中的認知不確定性來提高GNN模型的魯棒性,尤其是針對圖結構的中毒攻擊。更具體地說,我們提出建立一個替代預測變量,該預測變量不直接訪問圖結構,而是通過一種新穎的不確定性匹配策略從標準GNN中系統提取可靠的知識。有趣的是,這種解耦使UM-GNN在設計上不受規避攻擊,并顯著提高了抵抗中毒攻擊的魯棒性。通過使用具有標準基準以及一系列全局和目標攻擊的實證研究,我們證明了與現有基準(包括最新的強大GCN)相比,UM-GNN的有效性。

網址:

付費5元查看完整內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于3D視覺目標學習(3D Object Learning)相關的接受paper很多,3D視覺,比如點云分析、3D目標檢測和分類等等一些列前沿的方法和應用受到了很多人的關注,也是當前比較火的topic。

為此,這期小編為大家奉上AAAI 2021必讀的五篇3D視覺目標學習相關論文——增量式3D目標學習、幾何解糾纏表示、魯棒3D形狀表示、3D點云檢測、高性能基于Voxel 3D目標檢測

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting

作者:Jiahua Dong, Yang Cong, Gan Sun, Bingtao Ma, Lichen Wang

摘要:3D目標分類在學術研究和工業應用中引起了人們的關注。但是,當面對常見的現實場景時,大多數現有方法都需要訪問過去3D目標類的訓練數據:新的3D目標類按順序到達。此外,由于3D點云數據的不規則和冗余幾何結構,對于過去學習的已知類(即災難性遺忘),先進方法的性能會大大降低。為了解決這些挑戰,我們提出了一種新的增量式3D目標學習(即I3DOL)模型,這是不斷學習新類別的3D目標的首次探索。具體來說,自適應幾何質心模塊被設計用來構造可區分的局部幾何結構,從而可以更好地表征3D目標的不規則點云表示。然后,為防止冗余幾何信息帶來的災難性遺忘,我們開發了一種幾何感知注意力機制來量化局部幾何結構的貢獻,并探索對類別增量學習具有高貢獻的獨特3D幾何特征。同時,提出了一種分數公平性補償策略,通過在驗證階段補償新類的偏向預測,進一步減輕了過去和新類3D目標之間數據不平衡所導致的災難性遺忘。在3D代表性數據集上進行的實驗驗證了I3DOL框架的優越性。

圖片 網址:

2. Learning Geometry-Disentangled Representation for Complementary Understanding of 3D Object Point Cloud

作者:Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao

網址:在2D圖像處理中,一些嘗試將圖像分解為高頻和低頻分量,分別描述邊緣和平滑部分。類似地,3D目標的輪廓和平坦區域(例如椅子的邊界和座椅區域)描述了不同但互補的幾何形狀。但是,這樣的研究在以前的深層網絡中丟失了,這些深層網絡通過直接平等地對待所有點或局部面來理解點云。為了解決這個問題,我們提出了幾何分離注意力網絡(GDANet)。GDANet引入了Geometry-Disentangle模塊,可將點云動態分解為3D目標的輪廓和平坦部分,分別由清晰而柔和的變化分量表示。然后,GDANet利用Sharp-Gentle Complementary Attention模塊,該模塊將銳利和柔和變化成分的特征視為兩個整體表示,并在將它們分別與原始點云特征融合時給予了不同的關注。通過這種方式,我們的方法從兩個不同的解纏組件中捕獲并完善了整體和互補的3D幾何語義,以補充局部信息。關于3D目標分類和細分基準的大量實驗表明,GDANet使用更少的參數即可實現最新技術。

圖片 網址:

3. Learning Local Neighboring Structure for Robust 3D Shape Representation

作者:Zhongpai Gao, Junchi Yan, Guangtao Zhai, Juyong Zhang, Yiyan Yang, Xiaokang Yang

摘要:網格(Mesh)是用于3D形狀的強大數據結構。3D網格的表示學習在許多計算機視覺和圖形應用中很重要。卷積神經網絡(CNN)在結構化數據(例如圖像)方面的最新成功表明,將CNN的洞察力應用于3D形狀具有重要意義。但是,由于每個節點的鄰居都是無序的,因此3D形狀數據是不規則的。已經開發出了用于3D形狀的各種圖神經網絡以克服圖中的節點不一致問題,例如:具有各向同性過濾器或預定義局部坐標系。但是,各向同性過濾器或預定義的局部坐標系會限制表示能力。在本文中,我們提出了一種局部結構感知anisotropic卷積運算(LSA-Conv),該算法根據局部鄰近結構為每個節點學習自適應加權矩陣,并執行共享anisotropic濾波器。實際上,可學習的加權矩陣類似于隨機合成器中的注意力矩陣-一種用于自然語言處理(NLP)的新型Transformer模型。全面的實驗表明,與最新方法相比,我們的模型在3D形狀重建中產生了顯著改善。

圖片 網址:

4. PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection

作者:Yanan Zhang, Di Huang, Yunhong Wang

摘要:基于LiDAR的3D目標檢測是自動駕駛的一項重要任務,當前的方法遭受著遙遠和被遮擋目標的稀疏和部分點云的困擾。在本文中,我們提出了一種新穎的兩階段方法,即PC-RGNN,它通過兩個特定的解決方案來應對此類挑戰。一方面,我們引入了點云完成模塊,以恢復密集點和保留原始結構的整個視圖的高質量建議。另一方面,設計了一個神經網絡模塊,該模塊通過局部全局注意力機制以及基于多尺度圖的上下文聚合來全面捕獲點之間的關系,從而大大增強了編碼特征。在KITTI基準上進行的大量實驗表明,所提出的方法以顯著優勢超越了之前的最新基準。

圖片 網址:

5. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection

作者:Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li

摘要:3D目標檢測的最新進展在很大程度上取決于如何表示3D數據,即,基于體素(voxel-based)或基于點的表示。許多現有的高性能3D檢測器都是基于點的,因為這種結構可以更好地保留精確的點位置。但是,由于無序存儲,點級特征能會導致較高的計算開銷。相反,基于voxel的結構更適合特征提取,但由于輸入數據被劃分為網格,因此通常產生較低的精度。在本文中,我們采取了略有不同的觀點-我們發現原始點的精確定位對于高性能3D目標檢測不是必需的,并且粗體素粒度還可以提供足夠的檢測精度。牢記這一觀點,我們設計了一個簡單但有效的基于voxel的框架,名為Voxel R-CNN。通過在兩階段方法中充分利用體素特征,我們的方法可與基于點的最新模型實現可比的檢測精度,但計算成本卻很小。Voxel R-CNN由3D骨干網絡,2D鳥瞰(bird-eye-view, BEV)候選區域網絡和檢測頭組成。設計了體素RoI池以直接從體素特征中提取RoI特征,以進行進一步優化。在廣泛使用的KITTI數據集和最新的Waymo Open數據集上進行了廣泛的實驗。我們的結果表明,與現有的基于體素的方法相比,Voxel R-CNN在保持實時幀處理速率的同時,在NVIDIA RTX 2080 Ti GPU上以25 FPS的速度提供了更高的檢測精度。該代碼將很快發布。

網址:

付費5元查看完整內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于因果推理(Causal Inference)相關的投稿paper很多,因果推理,以及反事實等相關理論方法在CV、NLP都開始有相關的應用了,這個前沿的方法受到了很多人的關注。

為此,這期小編為大家奉上AAAI 2021必讀的六篇因果推理相關論文——故事情節生成、反事實公平性、定向因果圖、元因果學習、算法公平性

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

ICLR2020CI、ICML2020CI

1. Automated Storytelling via Causal, Commonsense Plot Ordering

作者:Prithviraj Ammanabrolu, Wesley Cheung, William Broniec, Mark O. Riedl

摘要:故事情節的自動生成是一個生成情節事件連貫序列的任務。人們認為,情節事件之間的因果關系會增加對故事和情節連貫性的認識。在這項工作中,我們引入軟因果關系(soft causal relations)的概念,這是從常識推理中得出的因果關系。我們提出了C2PO,一種敘事生成方法,通過因果關系,常識性情節排序(Commonsense Plot Ordering)來實現此概念。使用人類參與協議(human-participant protocols),我們使用具有不同常識性推理方法和歸納性偏差的基準系統評估我們的系統,以確定軟因果關系在感知故事質量中的作用。通過這些研究,我們還探討了不同敘事類型的常識性規范的變化如何影響故事質量的感知。

代碼:

網址:

2. Counterfactual Fairness with Disentangled Causal Effect Variational Autoencoder

作者:Hyemi Kim, Seungjae Shin, JoonHo Jang, Kyungwoo Song, Weonyoung Joo, Wanmo Kang, Il-Chul Moon

摘要:如果我們提出一種從分類特征中刪除嵌入的敏感信息的方法,則可以緩解公平分類的問題。區分敏感信息的這條研究線是通過因果推理而建立的,因果推理使反事實世代(counterfactual generations)能夠對比相反敏感屬性的假設情況。隨著因果關系的分離,深層潛在因果模型中的一個常見假設定義了一個單個潛在變量來吸收因果圖的整個外生不確定性。但是,這種結構無法從數據中區分出1)干預(intervention)引起的信息(即敏感變量)和2)與干預相關的信息。因此,本文提出了解因果效應變量自編碼器(DCEVAE),通過將外部不確定性分解為兩個潛在變量來解決這一局限性:1)獨立于干預措施或2)與無因果關系的干預措施相關。特別地,我們的解纏方法保留了與生成反事實示例的干預措施相關的潛在變量。我們證明了我們的方法在沒有完整因果圖的情況下估計了總體效果和反事實效果。通過添加公平正則化,DCEVAE可以生成反事實公平數據集,同時減少了原始信息。而且,DCEVAE僅通過翻轉敏感信息即可生成自然的反事實圖像。此外,我們從潛在的糾纏的角度從理論上展示了DCEVAE和先前工作的協方差結構的差異。

網址:

3. Discovering Fully Oriented Causal Networks

作者:Osman Mian, Alexander Marx and Jilles Vreeken

摘要:我們研究了從觀測數據推斷因果圖的問題。我們對發現所有邊緣是定向的圖特別感興趣,這與最新技術發現的部分有向圖相反。為此,我們的方法基于算法馬爾可夫條件。與統計馬爾可夫條件不同,它唯一地標識了真正的因果網絡,因為它是最簡單的聯合分布因式分解(以Kolmogorov復雜性衡量)。盡管Kolmogorov復雜度無法計算,但我們可以通過最小描述長度原理從上方進行近似,這使我們能夠基于非參數多元回歸定義一致且可計算的得分。為了在實踐中有效地發現因果網絡,我們引入了GLOBE算法,該算法貪婪地添加,移除和定向邊緣,以使總損失最小化。通過廣泛的實驗,我們證明了GLOBE在實踐中表現非常出色,略微領先于最新技術。

網址:

4. Meta learning for Causal Direction

作者:Jean-Francois Ton, Dino Sejdinovic, Kenji Fukumizu

摘要:由于許多科學領域的固有局限性,導致無法進行隨機對照試驗一直是因果推理的基本問題。在本文中,我們專注于在有限的觀測數據下,在雙變量環境中區分原因和結果。基于元學習和因果推理的最新發展,我們介紹了一種新穎的生成模型,該模型可以在小數據設置中區分因果關系。使用包含每個數據集分布信息的學習任務變量,我們提出了一種端到端算法,該算法在測試時使用了類似的訓練數據集。我們在各種合成數據和現實數據中展示了我們的方法,并表明它能夠在檢測不同數據集大小的方向時保持高精度。

網址:

5. Equivalent Causal Models

作者:Sander Beckers

摘要:本文的目的是在兩個模型都不由相同變量組成的情況下,提供對等價因果模型的第一個系統性探索和定義。我們的想法是,當兩個模型都可以使用其公共變量表示的所有“基本”因果信息時,它們是等效的。為此,我著眼于因果模型的兩個主要特征,即它們的結構關系和特征關系。特別是,我定義了因果關系的幾個關系和因果充分性的幾個關系,并要求這些關系中最籠統的關系在等效模型中保留。

網址:

6. The Importance of Modeling Data Missingness in Algorithmic Fairness: A Causal Perspective

作者:Naman Goel, Alfonso Amayuelas, Amit Deshpande, Amit Sharma

摘要:用于機器學習的訓練數據集通常具有某種形式的缺失。例如,要學習用于確定向誰貸款的模型,可用的訓練數據包括過去曾獲得貸款的個人,而不是那些沒有得到貸款的個人。如果忽略了這種缺失,那么在部署模型時,訓練過程的任何公平性保證都將無效。我們使用因果圖,描述了不同現實情況下的缺失機制。我們展示了在何種條件下能夠或者不能從訓練數據中恢復流行的公平算法中使用的各種分布。我們的理論結果表明,這些算法中有許多不能保證實踐中的公平。對缺失進行建模還有助于確定公平算法的正確設計原理。例如,在多階段設置中,在多個篩選回合中做出決策,我們使用我們的框架來得出設計公平算法所需的最小分布。我們提出的算法分散了決策過程,并且仍然實現了與需要集中化和不可恢復分布的最優算法相似的性能。

網址:

付費5元查看完整內容

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現對比學習(Contrastive Learning)相關的投稿paper很多,這塊研究方向這幾年受到了學術界的廣泛關注,并且在CV、NLP等領域也應用頗多。

為此,這期小編為大家奉上AAAI 2021必讀的五篇對比學習相關論文——Aspect檢測、對比生成GCN、自監督對應性學習、梯度正則對比學習、多選視頻問答、

AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

ICLR2020CI、ICML2020CI

1. A Simple and Effective Self-Supervised Contrastive Learning Framework for Aspect Detection

作者:Tian Shi, Liuqing Li, Ping Wang, Chandan K. Reddy

摘要:無監督aspect檢測(Unsupervised aspect detection, UAD)的目的是自動提取可解釋的aspect,并從在線評論中識別aspect特定的片段(例如句子)。但是,最近的基于深度學習的主題模型,特別是基于aspect的自動編碼器,遇到了一些問題,例如提取嘈雜的aspect以及將模型發現的aspect映射到感興趣的aspect的情況很差。為了解決這些挑戰,在本文中,我們首先提出一種自監督的對比學習框架和一種基于注意力的模型,該模型具有用于UAD任務的新型平滑自注意(smooth self-attention, SSA)模塊,以便學習aspect和review segments的更好表示。其次,我們引入了高分辨率選擇性映射(high-resolution selective mapping, HRSMap)方法,以將模型發現的aspect有效地分配給感興趣的aspect。我們還建議使用知識蒸餾技術來進一步提高aspect檢測性能。在公開可用的基準用戶評論數據集上,我們的方法優于幾種最近的非監督和弱監督方法。實驗中aspect的解釋結果表明,提取的aspect有意義,覆蓋范圍廣,并且可以輕松映射到感興趣的aspect。消融研究和注意力權重可視化還證明了SSA和知識蒸餾方法的有效性。

網址:

2. Contrastive and Generative Graph Convolutional Networks for Graph-based Semi-Supervised Learning

作者:Sheng Wan, Shirui Pan, Jian Yang, Chen Gong

摘要:基于圖的半監督學習(SSL)旨在通過圖將少量標記數據的標簽轉移到其余大量未標記數據。作為最流行的基于圖的SSL方法之一,最近提出的圖卷積網絡(GCN)通過將神經網絡的聲音表達能力與圖結構相結合而取得了顯著進步。然而,現有的基于圖的方法不能直接解決SSL的核心問題,即缺乏監督,因此它們的性能仍然非常有限。為了解決這個問題,本文提出了一種新穎的基于GCN的SSL算法,通過利用數據相似性和圖結構來豐富監督信號。首先,通過設計一個半監督的對比損失,可以通過最大化相同數據的不同視圖或相同類數據之間的一致性來生成改進的節點表示。因此,豐富的未標記數據和稀缺而有價值的標記數據可以共同提供豐富的監督信息,以學習判別性節點表示形式,有助于改善后續的分類結果。其次,通過使用與輸入特征有關的圖生成損失,將數據特征與輸入圖形拓撲之間的潛在確定性關系提取為SSL的補充監督信號。與其他最新方法相比,在各種實際數據集上進行的大量實驗結果堅定地證明了我們算法的有效性。

網址:

3. Contrastive Transformation for Self-supervised Correspondence Learning

作者:Ning Wang, Wengang Zhou, Houqiang Li

摘要:在本文中,我們專注于使用未標記的視頻來進行視覺對應性自監督學習。我們的方法同時考慮了視頻內和視頻間表示關聯,以進行可靠的對應估計。視頻內學習通過幀對相似性在單個視頻內的各個幀之間轉換圖像內容。為了獲得實例級分離的判別表示,我們在視頻內分析的基礎上,構建了視頻間親和性,以促進跨不同視頻的對比轉換。通過強制視頻內和視頻間級別之間的轉換一致性,可以很好地保留細粒度的對應關系,并有效地增強實例級的特征辨別力。我們的簡單框架優于包括視頻目標跟蹤(VOT),視頻目標分割(VOS),姿勢關鍵點跟蹤等在內的可視任務的自監督通信方法。值得一提的是,與完全監督的親和力表示(例如ResNet)并執行與針對特定任務(例如VOT和VOS)設計的最新有監督算法相比,我們的方法也具有相應的競爭力。

網址:

4. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

作者:Peng Su, Shixiang Tang, Peng Gao, Di Qiu, Ni Zhao, Xiaogang Wang

摘要:人類可以利用學習經驗來快速適應環境變化。但是,適應動態環境的能力較弱仍然是AI模型面臨的主要挑戰。為了更好地理解此問題,我們研究了連續域自適應問題,其中模型帶有標記的源域和一系列未標記的目標域。這個問題有兩個主要障礙:領域轉移和災難性遺忘。在這項工作中,我們提出了梯度正則化對比學習(Gradient Regularized Contrastive Learnin)來解決上述障礙。在我們方法的核心中,梯度正則化扮演兩個關鍵角色:(1)強制進行對比損失的梯度,不增加源域上的監督訓練損失,從而保持學習特征的判別力;(2)規范了新域上的梯度更新,而不會增加舊目標域上的分類損失,這使模型能夠適應傳入的目標域,同時保留先前觀察到的域的性能。因此,我們的方法可以通過標記的源域和未標記的目標域共同學習語義上的區別和領域不變的特征。與最新技術相比,在Digits,DomainNet和Office-Caltech基準測試中的實驗證明了我們方法的強大性能。

網址:

5. Self-supervised Pre-training and Contrastive Representation Learning for Multiple-choice Video QA

作者:Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang, Nojun Kwak

摘要:視頻問答(Video QA)要求對視頻和語言模態有深入的了解,才能回答給定的問題。在本文中,我們提出了一種新的針對多選視頻問答的訓練方案,該方案以自監督的預訓練階段和主要階段的監督對比學習作為輔助學習。在自監督的預訓練階段,我們將預測正確答案的原始問題格式轉換為預測相關問題的格式,以提供具有更廣泛上下文輸入的模型,而無需任何其他數據集或注釋。為了在主要階段進行對比學習,我們在與真實答案相對應的輸入中添加了掩碼噪聲,并將真實答案的原始輸入視為正樣本,而將其余答案視為負樣本。通過將正樣本映射到更接近被屏蔽的輸入,我們表明模型性能得到了改善。我們進一步采用局部對齊的注意力來更有效地專注于與給定的對應字幕句子特別相關的視頻幀。我們在與多選Video QA相關的基準數據集TVQA,TVQA +和DramaQA上評估了我們提出的模型。實驗結果表明,我們的模型在所有數據集上均達到了最先進的性能。我們還將通過進一步的分析來驗證我們的方法。

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完了,小編發現三維點云(3 D Point Cloud)相關的接受paper不少,近幾年點云分析在CV上出現了一系列工作,在NeurIPS上越來越多,也顯示出點云分析這個傳統任務近幾年非常火。

為此,這期小編為大家奉上NeurIPS 2020必讀的五篇三維點云(3 D Point Cloud)相關論文——時空點云表示、組上下文編碼、點云邊緣檢測、GCN局部全局點云表示、自監督少樣本點云學習

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020OD、NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations

作者:Davis Rempe, Tolga Birdal, Yongheng Zhao, Zan Gojcic, Srinath Sridhar, Leonidas J. Guibas

摘要:我們提出了CaSPR,這是一種學習以目標為中心的動態移動或演化的典型時空點云表示方法。我們處理的目標是隨著時間進行信息聚合,并在過去的任何時空鄰域中查詢目標狀態。與以前的工作不同,CaSPR支持時空連續性的學習表示,對可變和不規則的時空采樣點云具有魯棒性,并且能夠泛化到對不可知的目標實例進行表示。我們的方法將問題分為兩個子任務。首先,我們通過將輸入點云序列映射到時空規范化的目標空間來顯式編碼時間信息。然后,我們利用這種規范化來學習使用神經常微分方程的時空潛在表示,以及使用標準連續化流(continuous normalizing flows)動態生成形狀的生成模型。我們證明了我們的方法在幾種應用中的有效性,包括形狀重建,相機姿態估計,連續時空序列重建以及從不規則或間歇采樣的觀測值進行對應估計。

代碼:

網址:

2. Group Contextual Encoding for 3D Point Clouds

作者:Xu Liu, Chengtao Li, Jian Wang, Jingbo Wang, Boxin Shi, Xiaodong He

摘要:全局上下文對于3D點云場景理解任務至關重要。在這項工作中,我們將最初為2D任務設計的上下文編碼層擴展到3D點云方案。編碼層在3D點云的特征空間中學習一組字典(code words)以表征全局語義上下文,然后基于這些字典,該方法學習全局上下文描述符以相應地對特征圖進行加權。此外,與2D場景相比,數據稀疏性成為3D點云場景中的主要問題,并且隨著字典數量的增加,上下文編碼的性能迅速飽和。為了減輕這個問題,我們進一步提出了一種組上下文(group contextual)編碼方法,該方法將通道劃分為組,然后對組劃分的特征向量執行編碼。此方法有助于學習3D點云的分組子空間中的全局上下文。我們在三個被廣泛研究的3D點云任務上評估了我們方法的有效性和可推廣性。實驗結果表明,當指標為[email protected]時所提出的方法在SUN-RGBD基準上mAP為3,性能明顯優于VoteNet;而在ScanNet上,指標為mAP@0.5時其mAP為6.57 。與PointNet ++的基線相比,該方法的準確率為86%,優于基線的1.5%。

代碼:

網址:

3. PIE-NET: Parametric Inference of Point Cloud Edges

作者:Xiaogang Wang, Yuelang Xu, Kai Xu, Andrea Tagliasacchi, Bin Zhou, Ali Mahdavi-Amiri, Hao Zhang

摘要:我們引入了一種端到端的可學習技術,能夠可靠地識別3D點云數據中的特征邊緣。我們將這些邊緣表示為參數曲線(即線,圓和B樣條曲線)的集合。因此,我們的深度神經網絡(稱為PIE-NET)經過訓練可進行邊的參數推斷。該網絡依賴于候選區域(region proposal)的體系結構,其中第一個模塊先統計proposal邊緣和拐角點的完整集合,第二個模塊對每個proposal進行排名以決定是否應考慮。我們通過消融研究在ABC數據集(最大的CAD模型的公共可用數據集)上訓練和評估我們的方法,并將我們的結果與傳統(非學習)處理通道以及最近基于深度學習的邊緣檢測器(ECNet)所產生的結果進行比較。我們的結果在數量和質量上都大大超過了現有技術,并且很好地推廣到了新穎的形狀類別上。

網址:

4. Rotation-Invariant Local-to-Global Representation Learning for 3D Point Cloud

作者:SEOHYUN KIM, JaeYoo Park, Bohyung Han

摘要:我們提出了一種用于3D點云數據的局部到全局表示學習算法,該算法適合于處理各種幾何變換,尤其是旋轉,而無需針對變換進行顯式的數據增強。我們的模型利用了基于圖卷積神經網絡的多級抽象,它構建了一個描述符層次結構,以自下而上的方式對輸入對象的旋轉不變形狀信息進行編碼。每個級別的描述符都是通過3D點的隨機采樣從圖神經網絡中獲得的,這對于使學習的表示形式對輸入數據的變化具有魯棒性是非常有效。我們提出的算法在旋轉增強型3D對象識別和分割基準測試中展現了最新技術,并通過綜合的ablative實驗進一步分析了其特性。

代碼:

網址:

5. Self-Supervised Few-Shot Learning on Point Clouds

作者:Charu Sharma, Manohar Kaul

摘要:大規模點云的實用性不斷提高,加上它們在機器人技術,形狀合成和自動駕駛等廣泛應用中的實用性,引起了業界和學術界的越來越多的關注。最近,在標記的點云上運行的深度神經網絡已在有監督學習任務(如分類和分割)上顯示出令人鼓舞的結果。然而,有監督學習導致對點云進行標注是一項非常繁瑣的任務。為了解決這個問題,我們提出了兩種新穎的自監督預訓練任務,它們使用cover-tree對點云的分層分區進行編碼,其中,點云子集位于cover-tree的每個層次的半徑不同的球中。此外,我們的自監督學習網絡僅限于在少樣本學習(FSL)設置中用于訓練下游網絡的支持集合上進行預訓練(包含稀缺的訓練示例)。最后,將經過全面訓練的自監督網絡的點嵌入輸入到下游任務的網絡。我們針對下游分類和細分任務對我們的方法進行了全面的經驗評估,結果表明,使用我們的自監督學習方法進行預訓練的監督方法顯著提高了最新方法的準確性。此外,我們的方法在下游分類任務中也優于以前的無監督方法。

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完了,小編發現目標檢測(Object Detection)相關的接受paper不少,目標檢測在NeurIPS上越來越多,也顯示出目標檢測這個傳統任務在當前還具有比較鮮活的生命力。

為此,這期小編為大家奉上NeurIPS 2020必讀的七篇目標檢測(Object Detection)相關論文——平均定位和分類Loss、對抗自步學習、細粒度動態、泛化Focal Loss、RelationNet++、少樣本目標檢測、弱監督目標檢測

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection

作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan

摘要:我們提出了一個平均定位召回精度(average Localisation-Recall-Precision, aLRP),這是一種統一,有界,平衡和基于排名的損失函數,用于目標檢測中的分類和定位任務。aLRP擴展了平均召回率(LRP)性能指標,其idea來自于平均精確度(AP)損失如何將精確度擴展到基于排名的損失函數進行分類。aLRP具有以下明顯的優勢:(i)aLRP是分類和定位任務中第一個基于排名的損失函數。(ii)由于對兩個任務都使用了排名,因此aLRP自然可以對高精度分類實施高質量的定位。(iii)aLRP在正負樣本之間提供了可證明的平衡性。(iv)與最先進的檢測器的損失函數中平均具有6個超參數相比,aLRP損失只有一個超參數,我們在實驗中并未對其進行調整。在COCO數據集上,aLRP 損失改進了其基于排名的AP 損失,最多可增加5個AP點,在不增加測試時間的情況下AP可達到48.9,并且優于所有的先進的檢測器。

代碼:

網址:

2. Few-Cost Salient Object Detection with Adversarial-Paced Learning

作者:Dingwen Zhang, HaiBin Tian, Jungong Han

摘要:近年來,從給定圖像場景中檢測和分割顯著目標(salient objects)已引起了極大的關注。訓練現有深度顯著性檢測模型的根本挑戰是需要大量帶標注的數據。盡管收集大量的訓練數據變得既便宜又容易,但是從時間,勞動力和人的專業知識方面來說,對數據進行標注是一個昂貴的過程。為了解決這個問題,本文提出僅在少數訓練圖像上基于人工標注學習有效的顯著性目標檢測模型,從而大大減輕訓練模型中的人工勞動。為此,我們將該任務命名為“成本最低的顯著性目標檢測”,并提出了一種基于對抗性學習(APL)的框架,以加強其學習場景。本質上,APL源自自主學習(self-paced learning, SPL)機制,與學習正則化的啟發式設計不同,它通過數據驅動的對抗性學習機制來推斷強大的學習速度。對四個廣泛使用的基準數據集進行的綜合實驗表明,該方法可以僅用1k人工注釋訓練圖像有效地處理了現有的有監督的深度顯著性目標檢測模型。

代碼:

網址:

3. Fine-Grained Dynamic Head for Object Detection

作者:Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng

摘要:特征金字塔網絡(FPN)提出了一種優異的方法,可以通過執行實例級分配來減輕目標表觀中的比例差異。然而,這種策略忽略了實例中不同子區域的獨特特征。為此,我們提出了一種細粒度的動態頭(dynamic head),可以針對每種情況從不同的比例有條件地選擇FPN特征的像素級組合,從而進一步釋放了多比例特征表示的能力。此外,我們設計了具有新激活函數的空間門,以通過空間稀疏卷積顯著降低計算復雜性。大量實驗證明了該方法在幾種最新檢測基準上的有效性和效率。

代碼:

網址:

4. Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

作者:Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang

摘要:一步法(One-stage)檢測器基本上將目標檢測公式化為密集的分類和定位(即邊界框回歸)。通常通過Focal Loss 來優化分類,并且通常在狄拉克(Dirac delta)分布下了解其位置。一步法檢測器的最新趨勢是引入單個預測分支來估計定位質量,其中預測質量有助于分類以提高檢測性能。本文研究了以上三個基本元素的表示形式:質量估計,分類和定位。在現有實踐中發現了兩個問題,包括(1)訓練和推理之間質量估計和分類的用法不一致,以及(2)用于定位的不靈活的狄拉克分布。為了解決這些問題,我們為這些元素設計了新的表示形式。具體來說,我們將質量估計合并到類預測向量中以形成聯合表示,并使用向量表示框位置的任意分布。改進的表示法消除了不一致的風險,并準確地描述了實際數據中的靈活分布,但這些表示中包含連續標簽,這超出了Focal Loss的范圍。然后,我們提出 Generalized Focal Loss(GFL),將Focal Loss從離散形式推廣到連續版本,以實現成功的優化。在COCO測試開發中,GFL使用ResNet-101主干網絡在AP上達到了45.0%,以更高或相當的推理速度超過了最先進的SAPD(43.5%)和A TSS(43.6%)。

網址:

5. RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder

作者:Cheng Chi, Fangyun Wei, Han Hu

摘要:現有的目標檢測框架通常建立在目標表示的單一格式上,即RetinaNet和Faster R-CNN中的錨點/建議矩形框,FCOS和RepPoints中的中心點以及CornerNet中的角點。盡管這些不同的表示形式通常會驅動框架在不同方面表現良好,例如更好的分類或更好的定位,但是由于異構或非均一性,通常很難將這些表示形式組合到單個框架中以充分利用每種優勢。本文提出了一種基于注意力的解碼器模塊,與Transformer中的模塊類似,以端到端的方式將其他表示形式橋接到基于單個表示形式格式的典型目標檢測器中。其他表示充當一組key實例,以增強vanilla檢測器中的主要query表示特征。提出了用于有效計算解碼器模塊的新技術,包括key采樣方法和共享位置嵌入方法。我們將提出的模塊稱為橋接視覺表示(bridging visual representations, BVR)。并且我們證明了其在將其他表示形式橋接到流行的目標檢測框架(包括RetinaNet,Faster R-CNN,FCOS和A TSS)中的廣泛有效性,在這些方面在 AP實現了約1.5到3.0 的改進。特別是,我們將具有強大主干的最新框架在AP上改進了約2.0 ,在COCO測試開發中AP達到了52.7 A。我們將生成的網絡名為RelationNet ++。

代碼:

網址:

6. Restoring Negative Information in Few-Shot Object Detection

作者:Yukuan Yang, Fangyun Wei, Miaojing Shi, Guoqi Li

摘要:少樣本學習成為深度學習領域的新挑戰:與訓練帶有大量標記數據的深度神經網絡(DNN)的常規方法不同,它要求在帶有少量標注的新類別上推廣DNN。少樣本學習的最新進展主要集中在圖像分類上,而在本文中,我們著重于目標檢測。少樣本目標檢測的最初探索趨向于通過使用圖像中相對于某些物體類別的正proposals而拋棄該類別的負 proposals來模擬分類場景。負樣本,尤其是難樣本,對于少樣本目標檢測中的嵌入空間學習至關重要。在本文中,我們通過引入一個新的基于負和正表觀的度量學習框架以及具有負和正表觀的新推理方案,來恢復少樣本目標檢測中的負信息。我們基于最近很少使用的pipeline RepMet構建我們的工作,該模型帶有幾個新模塊,可以對負面信息進行編碼,以進行訓練和測試。在ImageNet-LOC和PASCAL VOC上進行的大量實驗表明,我們的方法極大地改進了最新的少樣本目標檢測解決方案。

代碼:

網址:

7. UWSOD: Toward Fully-Supervised-Level Capacity Weakly Supervised Object Detection

作者:Yunhang Shen, Rongrong Ji, Zhiwei Chen, Yongjian Wu, Feiyue Huang

摘要:弱監督目標檢測(WSOD)由于具有極大的靈活性,可以利用僅具有圖像級標注的大規模數據集來進行檢測器訓練,因此受到了廣泛的研究關注。盡管近年來有了很大的進步,但是WSOD的性能仍然受到限制,遠遠低于有監督的目標檢測(FSOD)。由于大多數WSOD方法依賴于object proposal算法來生成候選區域,并且還面臨著諸如質量低下的預測邊界框和大規模變化之類的挑戰。在本文中,我們提出了一個統一的WSOD框架(稱為UWSOD),以構建僅包含圖像級標簽的大容量通用檢測模型,該模型是獨立的,不需要外部模塊或其他監督。為此,我們利用了三個重要的組件,即object proposal生成,邊界框微調和尺度不變特征。首先,我們提出一個基于錨點的自監督的proposa生成器來假設目標位置,該生成器由UWSOD創建的監督進行端到端的訓練,以進行目標分類和回歸。其次,我們通過逐步選擇高可信度object proposal作為正樣本,開發了逐步的邊界框微調,以精煉檢測分數和坐標,從而引導了預測邊界框的質量。第三,我們構造了一個多速率重采樣金字塔以聚合多尺度上下文信息,這是處理WSOD中尺度變化的第一個網絡內特征層次結構。在PASCAL VOC和MS COCO上進行的大量實驗表明,所提出的UWSOD使用最新的WSOD方法可獲得競爭性結果,而無需外部模塊或額外的監督。此外,具有類不可知的ground-truth邊界框的UWSOD的上限性能接近Faster R-CNN,這表明UWSOD具有完全受監督級別的能力。

代碼:

網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完會,小編發現元學習(Meta Learning)相關的接受paper不少,元學習在CV、NLP等各個領域的應用也比較火熱,值得研究者們細心學習。

為此,這期小編為大家奉上NeurIPS 2020必讀的五篇元學習(Meta Learning)相關論文——少樣本視覺推理、持續元學習、異構元學習、元強化學習、元變換網絡學習

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. Few-shot Visual Reasoning with Meta-analogical Contrastive Learning

作者:Youngsung Kim, Jinwoo Shin, Eunho Yang, Sung Ju Hwang

摘要:盡管人類可以通過僅觀察幾個樣本來解決需要邏輯推理的視覺難題,但它需要對大量樣本進行訓練,以使用最新的深度推理模型來在同一任務上獲得相似的性能。在這項工作中,我們提出通過類比推理來解決這樣的少樣本抽象視覺推理問題,并且這是人類具有的識別兩組數據之間結構或關系相似性的獨特能力。具體來說,我們構造了兩個不同問題實例的類比和非模擬訓練對。后者是通過對原始問題(以前的問題)進行擾動或改組來創建的。然后,我們通過強制類比元素盡可能相似,同時最小化非類比元素之間的相似性,來提取成對的兩個域中元素之間的結構關系。這種類比性的對比學習可以有效地學習給定抽象推理任務的關系表示。我們在RAVEN數據集上驗證了我們的方法,該方法的性能優于最新方法,并且在缺乏訓練數據時獲得了更大的收益。我們進一步對具有不同屬性的相同任務對我們的對比學習模型進行元學習,并表明它可以推廣到具有未知屬性的相同視覺推理問題。

網址:

2. La-MAML: Look-ahead Meta Learning for Continual Learning

作者:Gunshi Gupta, Karmesh Yadav, Liam Paull

摘要:持續學習(continual learning)問題涉及訓練模型,然而這些模型的能力有限,無法在一組順序到達的未知數量的任務上表現良好。雖然元學習在減少新舊任務之間的干擾方面顯示出巨大的潛力,但當前的訓練過程往往很慢或離線,并且對許多超參數敏感。在這項工作中,我們提出了Look-ahead MAML(La-MAML),這是一種基于快速優化的元學習算法,用于在線持續學習,并有帶少量的情節記憶。在元學習更新中對每個參數的學習率進行調制,使我們能夠與以前有關超梯度和元下降的工作建立聯系。與傳統的基于先驗的方法相比,該方法提供了一種更靈活,更有效的方法來減輕災難性遺忘問題。La-MAML的性能優于其他基replay,基于先驗和基于元學習的方法,并且可在現實世界中的視覺分類基準上持續學習。

網址:

3. Meta-learning from Tasks with Heterogeneous Attribute Spaces

作者:Tomoharu Iwata, Atsutoshi Kumagai

摘要:我們提出了一種異構元學習方法,該方法在具有各種屬性空間的任務上訓練模型,從而可以解決在給定標記實例的情況下屬性空間與訓練任務不同的未知任務(unseen tasks)。盡管已經提出了許多元學習方法,但是它們假定所有訓練任務和目標任務共享相同的屬性空間,并且當任務之間的屬性大小不同時,它們將不適用。我們的模型使用推理網絡從幾個標記實例中推斷每個屬性和每個響應的潛在表示。然后,使用預測網絡推斷的表示來預測未標記實例的響應。即使屬性和響應的大小在各個任務之間都不同,屬性和響應表示也使我們能夠基于屬性和響應的特定于任務的屬性進行預測。在我們使用合成數據集和OpenML中的59個數據集進行的實驗中,我們證明了在使用具有異構屬性空間的任務訓練后,我們提出的方法可以預測新任務中給定標記實例的響應。

網址:

4. Model-based Adversarial Meta-Reinforcement Learning

作者:Zichuan Lin, Garrett Thomas, Guangwen Yang, Tengyu Ma

摘要:元強化學習(meta-RL)旨在從多個訓練任務中有效地學習適應不可知測試任務的能力。盡管取得了成功,但已知現有的meta-RL算法對任務分配的變化很敏感。當測試任務分配與訓練任務分配不同時,性能可能會大大降低。為了解決這個問題,本文提出了基于模型的對抗性元強化學習(AdMRL),旨在最大程度地降低最差情況的次優差距(最優回報與算法在自適應后獲得的回報之間的差異),并使用基于模型的方法來處理一系列任務中的所有任務。我們提出了一個極小極大目標,并通過在學習固定任務的動力學模型與尋找當前模型的對抗任務(在該任務中,模型誘導的策略最大程度次優)之間交替進行優化。假設任務已參數化,我們通過隱函數定理推導了次最優性相對于任務參數的梯度公式,并展示了如何通過共軛梯度法和新穎的方法有效地實現梯度估計器--REINFORCE估算器。我們在幾個連續的控制基準上評估了我們的方法,并證明了它在所有任務的最壞情況下的性能,對分發任務的概括能力以及在訓練和測試時間樣本效率方面相對于現有技術的有效性。

網址:

5. Node Classification on Graphs with Few-Shot Novel Labels via Meta Transformed Network Embedding

作者:Lin Lan, Pinghui Wang, Xuefeng Du, Kaikai Song, Jing Tao, Xiaohong Guan

摘要:我們研究了具有少量新穎標簽的圖節點分類問題,它具有兩個獨特的特性:(1)圖中出現了新穎標簽;(2)新穎標簽僅具有幾個用于訓練分類器的代表性節點。對這個問題的研究具有指導意義,并且與許多應用相對應,例如對在線社交網絡中只有幾個用戶的新組建的推薦。為了解決這個問題,我們提出了一種新穎的元變換網絡嵌入框架(MetaTNE),該框架由三個模塊組成:(1)一個結構模塊根據圖結構為每個節點提供潛在的表示。(2)元學習模塊以元學習的方式捕獲圖結構和節點標簽之間的關系作為先驗知識。此外,我們引入了一種嵌入轉換函數,以彌補元學習直接使用的不足。從本質上講,可以將元學習的先驗知識用于促進少樣本新穎標簽的學習。(3)優化模塊采用簡單而有效的調度策略來訓練上述兩個模塊,并在圖結構學習和元學習之間取得平衡。在四個真實數據集上進行的實驗表明,MetaTNE相對于最新方法具有巨大的改進。

網址:

付費5元查看完整內容

視頻實例分割是一項復雜的任務,我們需要檢測、分割和跟蹤任何給定視頻的每個對象。以往的方法只利用單幀特征來檢測、分割和跟蹤目標,而目標在視頻場景中會因為運動模糊和劇烈的外觀變化等問題而受到影響。為了消除僅使用單幀特征所帶來的模糊性,我們提出了一種新的綜合特征聚合方法(CompFeat),利用時間和空間上下文信息在幀級和對象級對特征進行細化。聚合過程是精心設計的一個新的注意機制,這大大增加了識別能力的學習特征。通過結合特征相似性和空間相似性的暹羅設計,進一步提高了模型的跟蹤能力。在YouTube-VIS數據集上進行的實驗驗證了提出的CompFeat的有效性。我們的代碼將在//github.com/shi-labs/compfeat-forvideo - instance - segmentation提供。

付費5元查看完整內容

人工智能領域的頂會AAAI 2020將在2020年2月7日-12日在美國紐約舉行。據官方統計消息,AAAI 2020今年共收到的有效論文投稿超過 8800 篇,其中 7737 篇論文進入評審環節,最終收錄數量為 1591 篇,接收率 20.6%。開會在即,專知小編提前整理了AAAI 2020圖神經網絡(GNN)相關的接收論文,讓大家先睹為快——跨模態、部分標簽學習、交通流預測、少樣本學習、貝葉斯圖神經網絡。

  1. Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

作者:Renchun You, Zhiyao Guo, Lei Cui, Xiang Long, Yingze Bao, Shilei Wen

摘要:多標簽圖像和視頻分類是計算機視覺中最基本也是最具挑戰性的任務。主要的挑戰在于捕獲標簽之間的空間或時間依賴關系,以及發現每個類的區別性特征的位置。為了克服這些挑戰,我們提出將語義圖嵌入的跨模態注意力機制用于多標簽分類。基于所構造的標簽圖,我們提出了一種基于鄰接關系的相似圖嵌入方法來學習語義標簽嵌入,該方法顯式地利用了標簽之間的關系。在學習標簽嵌入的指導下,生成我們新穎的跨模態注意力圖。在兩個多標簽圖像分類數據集(MS-COCO和NUS-WIDE)上的實驗表明,我們的方法優于其他現有的方法。此外,我們在一個大的多標簽視頻分類數據集(YouTube-8M Segments)上驗證了我們的方法,評估結果證明了我們的方法的泛化能力。

網址: //arxiv.org/abs/1912.07872

  1. General Partial Label Learning via Dual Bipartite Graph Autoencoder

作者:Brian Chen, Bo Wu, Alireza Zareian, Hanwang Zhang, Shih-Fu Chang

摘要:我們提出了一個實際但有挑戰性的問題: 通用部分標簽學習(General Partial Label Learning,GPLL)。相比傳統的部分標簽學習(Partial Label Learning,PLL)問題, GPLL將監督假設從從實例級別(標簽集部分標記一個實例)放到了組級別: 1)標簽集部分標簽了一組實例, 其中組內 instance-label link annotations 丟失, 2)組間的link是允許的——組中的實例可以部分鏈接到另一個組中的標簽集。這種模糊的組級監督在實際場景中更實用,因為不再需要實例級的附加標注,例如,在視頻中組由一個幀中的人臉組成,并在相應的標題中使用名稱集進行標記,因此不再需要對實例級進行命名。本文提出了一種新的圖卷積網絡(GCN)——Dual Bipartite Graph Autoencoder (DB-GAE)來解決GPLL的標簽模糊問題。首先,我們利用組間的相互關系將實例組表示為dual bipartite圖:組內圖和組間圖,它們相互補充以解決鏈接的歧義。其次,我們設計了一個GCN自動編碼器來對它們進行編碼和解碼,其中的解碼被認為是經過改進的結果。值得注意的是DB-GAE是自監督和轉導的,因為它只使用組級的監督,而沒有單獨的offline訓練階段。對兩個真實數據集的大量實驗表明,DB-GAEG跟最佳baseline相比有著絕對的提升,0.159 的F1 score和24.8%的accuracy。我們還進一步分析了標簽歧義的各個層次。

網址:

  1. GMAN: A Graph Multi-Attention Network for Traffic Prediction

作者:Chuanpan Zheng, Xiaoliang Fan, Cheng Wang, Jianzhong Qi

摘要:由于交通系統的復雜性和影響因素的不斷變化,長期的交通預測具有很大的挑戰性。在本文中,我們以時空因素為研究對象,提出了一種多注意力圖網絡(graph multi-attention network ,GMAN)來預測道路網絡圖中不同位置的時間步長的交通狀況。GMAN采用了一種encoder-decoder結構,其中編碼器和解碼器都由多個時空注意力塊組成,以模擬時空因素對交通條件的影響。編碼器對輸入流量特征進行編碼,解碼器對輸出序列進行預測。在編碼器和解碼器之間,應用轉換注意力層來轉換已編碼的流量特征,以生成未來時間步長的序列表示作為解碼器的輸入。轉換注意力機制模擬了歷史時間步長與未來時間步長之間的直接關系,有助于緩解預測時間步長之間的誤差傳播問題。在兩個現實世界中的交通預測任務(即交通量預測和交通速度預測)上的實驗結果證明了GMAN的優越性。特別地,在提前1個小時的預測中,GMAN的MAE指標提高了4%,優于最新技術。源代碼可在

網址:

  1. Graph Few-shot Learning via Knowledge Transfer

作者:Huaxiu Yao, Chuxu Zhang, Ying Wei, Meng Jiang, SuhangWang, Junzhou Huang, Nitesh V. Chawla, Zhenhui Li

摘要:對于具有挑戰性的半監督節點分類問題,已經進行了廣泛的研究。圖神經網絡(GNNs)作為一個前沿領域,近年來引起了人們極大的興趣。然而,大多數GNN具有較淺的層,接收域有限,并且可能無法獲得令人滿意的性能,特別是在標記節點數量很少的情況下。為了解決這一問題,我們創新性地提出了一種基于輔助圖的先驗知識的graph few-shot learning (GFL)算法,以提高目標圖的分類精度。具體來說,輔助圖與目標之間共享一個可遷移的度量空間,該空間以節點嵌入和特定于圖的原型嵌入函數為特征,便于結構知識的傳遞。對四個真實世界圖數據集的大量實驗和消融研究證明了我們提出的模型的有效性以及每個組件的貢獻。

網址:

  1. Learning Cross-Modal Context Graph for Visual Grounding

作者:Yongfei Liu, Bo Wan, Xiaodan Zhu, Xuming He

摘要:Visual grounding是許多視覺語言任務中普遍存在的一個基本單元,但由于grounding實體的視覺和語言特征的巨大差異、強大的語境效應以及由此產生的語義歧義,visual grounding仍然具有挑戰性。以前的研究主要集中在學習單個短語在有限的語境信息下的表達。針對其局限性,本文提出了一種languageguided graph representation表示方法來捕獲grounding實體的全局上下文及其關系,并針對多短語visual grounding任務開發了一種跨模態圖匹配策略。特別地,我們引入一個模塊化圖神經網絡,通過消息傳播分別計算短語和目標建議的上下文感知表示,然后引入一個基于圖的匹配模塊來生成全局一致的基礎短語定位。我們在兩階段策略中聯合訓練整個圖神經網絡,并在Flickr30K Entities基準上對其進行評估。大量的實驗表明,我們的方法比之前的技術有相當大的優勢,證明了我們的基礎框架的有效性。代碼可以在 找到。

網址:

  1. Learning from the Past: Continual Meta-Learning with Bayesian Graph Neural Networks

作者:Yadan Luo, Zi Huang, Zheng Zhang, Ziwei Wang, Mahsa Baktashmotlagh, Yang Yang

摘要:元學習(Meta-learning)用于few-shot learning,允許機器利用以前獲得的知識作為優先級,從而在只有少量數據的情況下提高新任務的性能。然而,大多數主流模型都存在災難性遺忘和魯棒性不足的問題,因此不能充分保留或利用長期知識,同時容易導致嚴重的錯誤累積。本文提出了一種新的基于貝葉斯圖神經網絡(CML-BGNN)的連續元學習方法。通過將每個任務形成一個圖,可以通過消息傳遞和歷史遷移很好地保存任務內部和任務間的相關性。為了解決圖初始化過程中的拓撲不確定性問題,我們使用了Bayes by Backprop算法,該算法利用amortized推理網絡逼近任務參數的后驗分布,并將其無縫地集成到端到端邊緣學習中。在miniImageNet和tieredImageNet數據集上進行的大量實驗證明了該方法的有效性和效率,與最先進的miniImageNet 5-way 1-shot分類任務相比,性能提高了42:8%。

網址:

  1. Neural Graph Embedding for Neural Architecture Search

作者:Wei Li, Shaogang Gong, Xiatian Zhu

摘要:現有的神經體系結構搜索((NAS))方法往往直接在離散空間或連續空間中進行搜索,忽略了神經網絡的圖形拓撲知識。考慮到神經網絡本質上是有向無環圖(DAG),這會導致搜索性能和效率欠佳。在這項工作中,我們通過引入一種新的神經圖嵌入(NGE)思想來解決這個限制。具體來說,我們用神經DAG表示神經網絡的構建塊(即cell),并利用圖卷積網絡來傳播和建模網絡結構的固有拓撲信息。這導致可與現有的不同NAS框架集成的通用神經網絡表示。大量實驗表明,在圖像分類和語義分割方面,NGE優于最新方法。

網址:

  1. RoadTagger: Robust Road Attribute Inference with Graph Neural Networks

作者:Songtao He, Favyen Bastani, Satvat Jagwani, Edward Park, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Samuel Madden, Mohammad Amin Sadeghi

摘要:從衛星圖像中推斷道路屬性(例如車道數和道路類型)是一項挑戰。通常,由于衛星圖像的遮擋和道路屬性的空間相關性,僅當考慮道路的較遠路段時,道路上某個位置的道路屬性才可能是顯而易見的。因此,為了魯棒地推斷道路屬性,模型必須整合分散的信息,并捕捉道路沿線特征的空間相關性。現有的解決方案依賴于圖像分類器,無法捕獲這種相關性,導致準確性較差。我們發現這種失敗是由于一個基本的限制–圖像分類器的有效接受范圍有限。

為了克服這一局限性,我們提出了一種結合卷積神經網絡(CNNs)和圖神經網絡(GNNs)來推斷道路屬性的端到端體系結構RoadTagger。使用GNN允許信息在路網圖上傳播,消除了圖像分類器的接收域限制。我們在一個覆蓋美國20個城市688平方公里面積的大型真實數據集和一個綜合數據集上對RoadTagger進行了評估。在評估中,與基于CNN圖像分類器的方法相比,RoadTagger提高了推理的準確性。此外,RoadTagger對衛星圖像的中斷具有較強的魯棒性,能夠學習復雜的inductive rule來聚合道路網絡上分散的信息。

網址:

付費5元查看完整內容
北京阿比特科技有限公司