目標檢測器通常在完全標注實例的監督學習情況下獲得很好的結果。但是,對于稀疏實例注釋,它們的性能遠遠不能令人滿意。現有的稀疏標注目標檢測方法主要是對難的負樣本的損失進行重加權,或者將未標注的實例轉換為忽略區域,以減少假陰性的干擾。我們認為這些策略是不夠的,因為它們最多可以減輕由于缺少注釋而造成的負面影響。在本文中,我們提出了一個簡單而有效的機制,稱為協同挖掘,稀疏標注的目標檢測。在協同挖掘中,一個連體網絡的兩個分支相互預測偽標簽集。為了增強多視圖學習和更好地挖掘未標記實例,將原始圖像和相應的增強圖像分別作為Siamese網絡的兩個分支的輸入。協同挖掘可以作為一種通用的訓練機制,應用于大多數現代目標檢測器。在三種不同稀疏注釋設置的MS COCO數據集上進行了實驗,使用兩種典型的框架:基于錨的檢測器RetinaNet和無錨檢測器FCOS。實驗結果表明,與RetinaNet的協同挖掘方法相比,在相同的稀疏標注設置下,相比于不同的基線,改進了1.4%~2.1%,超過了現有的方法。
本文提出一種語義分組網絡通過建立詞組與相關語義視頻幀的映射來減少信息冗余。 本文提出了一個語義分組網絡(SGN)的視頻描述生成網絡,該網絡嘗試(1)使用具有部分已解碼描述的可區分詞組對視頻幀進行分組,然后(2)在預測下一個單詞時使用這些語義對齊的視頻幀組進行解碼。 本文發現連續的幀可能提供了相同的信息,然而現有方法集中于僅基于輸入視頻來丟棄或合并重復信息。語義分組網絡學習了一種算法來捕獲部分已解碼描述中最具區分性的詞組以及將每個詞組與相關視頻幀的映射,通過建立此映射可以將語義上相關的幀聚類,從而減少冗余。與現有方法相反,來自已解碼描述詞的連續反饋使語義分組網絡能夠動態更新適應部分解碼描述的視頻表示。此外,本文提出了一種對比注意損失,以促進單詞短語和視頻幀之間的準確對齊而無需人工注釋。
//www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47
擁有良好醫學知識的人類醫生,只需與病人進行幾次有關癥狀的對話,就能診斷出疾病。相比之下,現有的以知識為基礎的對話系統往往需要大量對話實例來學習,因為它們無法捕捉不同疾病之間的相關性,忽視了它們之間共享的診斷經驗。為解決這一問題,我們提出了一種更自然、更實用的范式,即低資源的醫療對話生成,它可以將源疾病的診斷經驗轉移到有少量數據可供適應的目標疾病。它利用常識知識圖譜來表征先前的疾病癥狀關系。此外,我們還開發了一個圖演化元學習(GEML)框架,該框架通過學習進化常識圖譜來推理一種新疾病的疾病癥狀相關性,有效地緩解了大量對話的需求。更重要的是,通過動態演變的疾病癥狀圖,GEML還很好地解決了現實世界的挑戰,即每種疾病的疾病癥狀相關性可能隨著更多診斷病例而變化或演變。在CMDD數據集和我們新收集的Chunyu數據集上的大量實驗結果證明了我們的方法優于最先進的方法。此外,GEML還可以在線生成豐富的對話敏感的知識圖譜,對其他基于知識圖譜的任務有借鑒意義。
//www.zhuanzhi.ai/paper/e378691f4b084a18b1a0238815c63fb6
在本文中,我們研究了在自然環境下使用無標記視頻進行視覺對應的自監督學習。我們的方法同時考慮視頻內和視頻間的表示關聯,以獲得可靠的對應估計。視頻內學習通過幀對相似性在單個視頻中跨幀轉換圖像內容。為了獲得實例級分離的判別表示,我們在視頻內部分析的基礎上,構造了視頻間的相似關系,以方便不同視頻之間的對比變換。通過強制視頻內級和視頻間級之間的轉換一致性,可以很好地保留細粒度的對應關聯,有效地加強實例級特征識別。在視頻目標跟蹤(VOT)、視頻目標分割(VOS)、姿態關鍵點跟蹤等一系列視覺任務上,我們的簡單框架的性能優于最近的自監督對應方法。值得一提的是,我們的方法也超過了完全監督的相似表示(如ResNet),并與最近為特定任務(如VOT和VOS)設計的完全監督算法相媲美。
利用弱監督或有噪聲的監督來構建有效的機器學習模型一直是一個重要的研究問題。由于訓練深度學習模型對大規模數據集的需求越來越大,其重要性最近進一步增加。弱或嘈雜的監督可能來自多種來源,包括非專業的注釋者或基于啟發式或用戶交互信號的自動標記。有大量的前期工作集中在利用嘈雜的標簽。最值得注意的是,最近的研究顯示,使用元學習實例重加權方法取得了令人印象深刻的成果,在這種方法中,元學習框架用于為嘈雜標簽分配實例權重。在本文中,我們將此方法擴展為元學習框架內的標簽校正問題。我們將標簽校正過程視為一個元過程,并提出了一個新的基于元學習的框架,稱為MLC(元標簽校正),用于有噪聲標簽的學習。具體來說,采用標簽校正網絡作為元模型,對有噪聲的標簽進行校正,同時對主模型進行訓練,以充分利用校正后的標簽。兩個模型通過求解一個雙層優化問題來聯合訓練。在圖像識別和文本分類任務中,我們使用不同的標簽噪聲水平和類型進行了廣泛的實驗。我們比較重加權和修正的方法表明,修正框架解決了一些限制重加權。我們還表明,提出的MLC方法在圖像和語言任務上都優于以前的方法。
//www.microsoft.com/en-us/research/uploads/prod/2020/12/aaai2021_mlc_zheng.pdf
在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。
弱監督目標檢測(WSOD)已經成為一種僅使用圖像級別的類別標簽訓練目標檢測器的有效工具。然而,由于沒有目標級標簽,WSOD檢測器容易檢測出顯著物體、聚雜物體和判別性物體部分上的標注框。此外,圖像級別的類別標簽不會強制對同一圖像的不同變換進行一致的目標檢測。針對上述問題,我們提出了一種針對WSOD的綜合注意力自蒸餾(CASD)訓練方法。為了平衡各目標實例之間的特征學習,CASD計算同一圖像的多個變換和特征層聚合的綜合注意力。為了加強對目標的一致空間監督,CASD對WSOD網絡進行自蒸餾,通過對同一幅圖像的多個變換和特征層同時逼近全面注意力。CASD在標準數據集上如PASCAL VOC 2007/2012和MS-COCO產生了最好的結果。
論文標題:CURL: Contrastive Unsupervised Representations for ReinforcementLearning(CURL:用于強化學習的對比無監督表示)
論文來源:ICML 2020 論文下載://www.zhuanzhi.ai/paper/6fb5994c1f98b326b45fb83ce319f0b9
代碼鏈接:
摘要:
我們提出CURL:用于強化學習的對比無監督表示法。CURL使用表示學習從原始像素中提取高級特征,并在提取的特征上執行off-policy控制。在DeepMind控制套件和Atari游戲中,CURL在復雜任務中的表現優于之前基于像素的方法,無論是基于模型的還是無模型的,在100K環境和交互步驟的基準測試中,分別獲得1.9倍和1.6倍的性能提升。在DeepMind控制套件中,CURL是第一個與使用基于狀態特征的方法的采樣效率和性能接近的基于圖像的算法。
主題: Weakly-Supervised Salient Object Detection via Scribble Annotations
摘要: 與費力的逐像素密集標記相比,這種方法更容易通過涂抹來標記數據,僅花費1-2秒即可標記一張圖像。然而,尚未有人探索使用可劃線標簽來學習顯著物體檢測。在本文中,我們提出了一種弱監督的顯著物體檢測模型,以從此類注釋中學習顯著性。為此,我們首先使用亂碼對現有的大型顯著物體檢測數據集進行重新標記,即S-DUTS數據集。由于對象的結構和詳細信息不能通過亂寫識別,因此直接訓練帶有亂寫的標簽將導致邊界位置局限性的顯著性圖。為了緩解這個問題,我們提出了一個輔助的邊緣檢測任務來明確地定位對象邊緣,并提出了門控結構感知損失以將約束置于要恢復的結構范圍上。此外,我們設計了一種涂鴉增強方案來迭代地整合我們的涂鴉注釋,然后將其作為監督來學習高質量的顯著性圖。我們提出了一種新的度量標準,稱為顯著性結構測量,用于測量預測顯著性圖的結構對齊方式,這與人類的感知更加一致。在六個基準數據集上進行的大量實驗表明,我們的方法不僅優于現有的弱監督/無監督方法,而且與幾種完全監督的最新模型相提并論。
近年來,自適應目標檢測的研究取得了令人矚目的成果。盡管對抗性自適應極大地增強了特征表示的可遷移性,但對目標檢測器的特征鑒別能力的研究卻很少。此外,由于目標的復雜組合和域之間的場景布局的差異,在對抗性適應中,可遷移性和可辨別性可能會產生矛盾。本文提出了一種層級可遷移性校準網絡(HTCN),該網絡通過對特征表示的可遷移性進行分級(局部區域/圖像/實例)校準來協調可遷移性和可識別性。該模型由三部分組成:(1)輸入插值加權對抗性訓練(iwati),通過重新加權插值后的圖像級特征,增強了全局識別力;(2)上下文感知實例級對齊(context -aware Instance-Level Alignment, CILA)模塊,該模塊通過捕獲實例級特征與實例級特征對齊的全局上下文信息之間的潛在互補效應,增強了局部識別能力;(3)校準局部可遷移性的局部特征掩碼,為后續判別模式對齊提供語義指導。實驗結果表明,在基準數據集上,HTCN的性能明顯優于最先進的方法。