掩碼自編碼器(MAE)通過隨機掩碼圖像塊和重建,在各種視覺任務上表現出優越的性能。然而,MAE的有效數據增強策略仍然是開放問題,不同于作為最重要部分的對比學習中的策略。研究了主流的MAE混合增廣算法。**本文首先證明,由于互信息(MI)的增加,樸素的混合會使模型性能退化。本文提出同源識別,一種輔助的前置任務,不僅通過明確要求每個塊識別同源塊來緩解MI的增加,而且還進行目標感知的自監督預訓練,以獲得更好的下游密集感知性能。**通過廣泛的實驗,所提出的混合自編碼器(MixedAE)在不同的下游任務上實現了最先進的掩碼圖像建模(MIM)增強之間的遷移結果,效率顯著。所提出的MixedAE在ImageNet-1K、ADE20K和COCO上使用標準vite - base分別比MAE提高了+0.3%的精度,+1.7 mIoU和+0.9 AP。此外,MixedAE的訓練速度提高了2倍,超過了結合實例判別的強MIM方法iBOT。據我們所知,這是第一項從前置任務設計的角度考慮MIM混合的工作。代碼將被提供。
自監督學習(SSL)在視覺表示學習方面取得了顯著進展。一些研究將SSL與知識蒸餾(SSL- KD)相結合,以提高小型模型的表示學習性能。本文提出一種多模態在線知識蒸餾方法(MOKD)來增強自監督視覺表示學習。與現有的SSL-KD方法將知識從靜態的預訓練教師遷移到學生不同,在MOKD中,兩個不同的模型以自監督方式進行協作學習。具體而言,MOKD由兩種蒸餾模式組成:自蒸餾模式和交叉蒸餾模式。其中,自蒸餾獨立地對每個模型進行自監督學習,而交叉蒸餾實現不同模型之間的知識交互。在交叉蒸餾中,提出一種交叉注意力特征搜索策略,以增強不同模型之間的語義特征對齊。因此,兩個模型可以相互吸收知識以提高其表示學習性能。在不同的主干和數據集上的廣泛實驗結果表明,兩個異構模型可以從MOKD中受益,并優于其獨立訓練的基線。此外,MOKD也優于現有的SSL-KD方法在學生模型和教師模型。
//www.zhuanzhi.ai/paper/6589b817e4f5f6365ba27bc85aac2ae4
作者 | 黃 鋒
審核 | 付海濤
?今天給大家介紹清華大學計算機科學與技術系唐杰教授課題組發表于KDD 2022上的論文“GraphMAE: Self-Supervised Masked Graph Autoencoders”。這篇論文將掩碼自編碼器MAE引入到graph領域中,在涉及三個圖學習任務的21個數據集上執行了大量的實驗,實驗結果表明在圖自編碼器上一點簡單的改進能夠產生超越最近的對比式和生成式自監督的SOTA性能。
? 生成式自監督模型在NLP和CV領域得到廣泛應用,而在graph領域對比學習占據主導地位,不論是節點分類還是圖分類任務,生成式自監督的性能都被對比學習甩“幾條街”。雖然如此,對比學習卻有著致命缺陷,它要么過度依賴于數據增廣,要么需要使用負采樣、動量更新或指數滑動平均等策略來避免訓練時陷入平凡解。而生成式自監督,特別是圖自編碼器通常目標是重建圖自身的節點特征或結構信息,則會完全規避對比學習的局限。本文發現利用圖自編碼器,稍加改進,僅僅重建節點特征便能夠獲得優越的性能。GraphMAE的改進如下圖所示: ?
概括地講,改進主要是四點:1,掩碼特征重建,不重建邊;2,不同于大多數圖自編碼器使用的均方誤差,GraphMAE使用縮放余弦誤差作為損失函數;3,將編碼器輸出的嵌入重新掩碼后再輸入到解碼器中;4,比起大多數圖自編碼器的解碼器用多層感知機,GraphMAE的解碼器使用圖神經網絡。 ?GraphMAE在無監督節點分類、無監督圖分類以及在分子性質預測上的遷移學習三個任務共21個數據集上取得了與對比學習差不多,甚至是更好的效果。
? 給定一個屬性圖,輸入到編碼器前對進行類似BERT中的掩碼操作,具體來說,GraphMAE是隨機選取一個節點子集,將這些節點的特征替換成一個可學習的向量:
? 設經過編碼器得到的編碼,繼續對先前選取的那部分節點重新掩碼,即替換為: 使用圖神經網絡作為解碼器,希望其能從未掩碼的部分編碼恢復成節點特征。
?不同于大多數圖自編碼器模型使用的均方誤差,GraphMAE使用縮放余弦誤差,假設由編碼器恢復的節點特征為,縮放余弦誤差定義為:
?三種任務:1)無監督節點分類;2)無監督圖分類;3)分子性質預測的遷移學習 ?下表是節點分類任務上的結果。首先是無監督的學習,接著固定編碼器參數得到節點的嵌入,用節點嵌入訓練一個線性分類器,列出20次隨機初始化的平均結果。編碼器和解碼器都用的是標準的圖注意力網絡。更多細節參看原文。
?下表是圖分類任務上的結果。首先無監督訓練,得到節點嵌入后經過一個無參數的池化操作得到圖級表達,接著訓練LIBSVM作為分類器,列出5次十折交叉驗證的平均結果。編碼器和解碼器都是用的圖同構網絡。更多細節參看原文。
?下表是分子性質預測的結果。首先在大數據集上無監督訓練,接著在小數據上微調。更多細節參看原文。
更多實驗結果請參看原文
我們介紹了一種具有挑戰性的條件GAN訓練方案,稱為開放集半監督圖像生成,其中訓練數據集由兩部分組成: (i) 標記數據和(ii)未標記數據,其樣本屬于標記數據類中的一個,即一個封閉集,以及不屬于任何標記數據類的樣本,即一個開放集。與現有的半監督圖像生成任務(未標記數據只包含封閉集樣本)不同,我們的任務更加一般化,允許出現開放集樣本,從而在實踐中降低了數據收集成本。由于熵正則化,在標記數據上訓練的分類器能夠將cGAN訓練的樣本明智重要性量化為置信度,允許我們使用未標記數據中的所有樣本。我們設計了OSSGAN,它根據未標記圖像是否屬于感興趣的類別,為鑒別器提供決策線索,在訓練過程中平滑地集成了標記數據和未標記數據。在Tiny ImageNet和ImageNet上的實驗結果表明,與有監督的BigGAN和半監督方法相比,有顯著的改進。我們的代碼可以在//github.com/raven38/OSSGAN上找到。
判別學習、恢復學習和對抗性學習已被證明對計算機視覺和醫學成像中的自監督學習方案有益。然而,現有的努力,忽略了它們在三元設置中相互之間的協同作用,我們認為,這可以顯著地有利于深度語義表示學習。為了實現這一愿景,我們開發了DiRA,這是第一個將判別學習、恢復學習和對抗學習統一起來的框架,以協作的方式從未標記的醫學圖像中收集互補的視覺信息,用于細粒度語義表示學習。我們的廣泛實驗表明,DiRA (1) 鼓勵三種學習成分之間的協作學習,從而在器官、疾病和模態中產生更一般化的表征; (2) 優于完全監督的ImageNet模型,并在小數據領域增強魯棒性,減少多個醫學成像應用程序的注釋成本; (3) 學習細粒度語義表示,僅通過圖像級標注即可實現病灶的準確定位 ;(4) 增強了最先進的修復方法,揭示了DiRA是統一表征學習的一般機制。所有代碼和預訓練的模型都可以
在//github.com/JLiangLab/DiRA上找到
標記數據通常是昂貴和耗時的,特別是對于目標檢測和實例分割等任務,這需要密集的圖像標記。雖然少樣本目標檢測是關于用很少的數據在新的(看不見的)目標類上訓練模型,但它仍然需要在許多標記的基類(見)的示例上進行預訓練。另一方面,自監督方法旨在從未標記的數據中學習表示,這些數據可以很好地轉移到下游任務,如目標檢測。將少樣本和自監督目標檢測相結合是一個很有前景的研究方向。在這個綜述中,我們回顧和描述了最近的方法在少樣本和自監督的目標檢測。然后,我們給出了主要的結論,并討論了未來的研究方向。
引言
傳統的目標檢測器依賴于大型的監督目標檢測數據集,如Pascal VOC[27]和MS COCO[71],這些數據集每個目標類別都有超過成百上千的注釋示例。然而,標記數據通常是昂貴和耗時的。在目標檢測和實例分割的情況下尤其如此,這需要為每個對象密集地標記包圍盒/掩碼,與目標分類相比,這一過程更慢,需要更多的注釋員訓練。此外,對于細粒度目標檢測應用,如植物或動物物種識別,預先標記的數據集可能不存在,標簽可能必須由專家就地收集。
為了解決這些問題,少樣本目標檢測(FSOD)方法嘗試僅基于幾個例子來識別新的(看不見的)目標類,在訓練了許多標記的基類(見過的)示例后。直到最近,在少樣本頭目標檢測的標準方法是預先訓練一個主干用于ImageNet分類,然后在這個主干之上的基類上訓練一個目標檢測器,最后對新類進行精細調整[54,109,114,120,125]。由于學習自監督表示的巨大進步,一些(少樣本)檢測方法現在用ImageNet和MS COCO上的無監督前置任務預訓練的表示初始化主干網絡。[6,68,86,113,117,121]。
典型的自監督預訓練方法(如SimCLR[15]或MoCo[43])的問題是,它們是面向分類的,通常設計為在ImageNet上最大化Top-1性能[110]。然而,在分類(例如翻譯)中學習到的一些不變性在定位任務中可能是不可取的,因此該表示可能丟棄用于目標檢測的關鍵信息。此外,已有研究表明,較高的ImageNet Top-1精度并不一定保證較高的目標檢測性能[110]。針對這些缺點,出現了越來越多的自監督目標檢測方法。這些方法(22、110、113、117、121]不僅試圖補救classification-geared表示的缺點,而且預訓練更多組件,如該區域提議網絡(RPN)和檢測頭。特別是,目前在MS COCO上的FSOD是一種對主干和目標探測器[6]進行自監督預訓練的方法。
因此,這促使我們撰寫了這一項綜述,結合了關于少樣本和自監督目標檢測的最新方法,這兩種方法之前都沒有被調研過(見第2節)。在接下來的章節中,我們簡要總結目標檢測的關鍵概念(第三節)。我們回顧少樣本目標檢測任務和基準(第四節)和我們討論的最新發展是少樣本目標檢測(第四節)和自監督目標檢測預訓練(第五節)。我們得出這個調研,總結主要的工作, 我們在圖1中提供了流行的少樣本和自監督的目標檢測方法的分類,并在此基礎上構建了本次綜述。
本文綜述了目標檢測方法的分類。我們根據以下層次對其進行分類:主干監督前訓練方法、主干和檢測頭的自監督預訓練方法和主干自監督預訓練方法。同時,我們還根據這些方法是否在常規目標檢測、少樣本/低樣本目標檢測和ImageNet分類上進行了基準測試,來標記(陰影矩形)這些方法。正如在第5節中討論的,許多自監督分類方法也被用于初始化目標檢測主干并在目標檢測基準上進行評估。DETReg[6]是一種自監督的目標檢測方法,在MSCOCO上獲得了最先進的FSOD結果,并對整個體系結構進行了自監督預訓練。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
最近,自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中,自監督學習和transformer已經是選擇的方法。最近的文獻表明,transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果,而只需要較小的模型改變。
在本研究中,我們探討了自監督學習在圖像/視覺變換器的預訓練,然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT),并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器,并無縫地處理多個自監督任務。我們表明,預訓練的SiT可以被微調用于小規模數據集的下游分類任務,這些數據集由幾千張而不是幾百萬張圖像組成。
在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到,SiT對少樣本學習很好,也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。
引言
最近的趨勢表明,自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示,自監督預訓練,特別是結合transformers [11],是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的,例如,基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而,視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究,例如,由數億個標記樣本[1]組成的數據集。最近,在沒有外部數據[2]的情況下,視覺轉換器在imagenet上表現良好,但是,它們需要CNNs對等體的蒸餾方法和指導。簡而言之,利用大規模監督數據集進行預訓練是計算機視覺中的一種規范,用來訓練深度神經網絡以獲得更好的性能。然而,人工標注訓練數據是相當昂貴的,盡管在眾包創新方面取得了進展。為了解決這一限制,自監督學習方法[7],[9],[10],[12],[13],[14]已被用到從未標記數據構建具有語義意義的圖像表示。
自監督方法大致可以分為生成式和判別性方法。生成式方法[15],[16],[17]學習建模數據的分布。然而,數據建模通常在計算上是昂貴的,并且在所有場景中可能不是表示學習所必需的。另一方面,通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法,證明了在適當的計算需求下獲得更好的泛化表示的能力。
對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入,同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果,但他們往往忽視了對語境表征的學習,對于這一學習,替代的前置任務,如基于重構的方法,可能更適合。近年來,文獻中提出了一系列新穎的前置任務,包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。
在這項工作中,我們介紹了一個簡單的自監督學習框架,利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:
我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。
我們賦予SiT體系結構一個解碼器,并證明,由于Transformer的內在特性,它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。
利用自編碼Transformer支持多任務學習的自然能力,我們開發了一個強大的自監督框架,共同優化重建(圖像修復)、旋轉分類和收縮損失。
我們在不同的評估協議(包括線性評估、領域轉移和微調)下,在標準基準上展示了擬議框架的有效性。
在不同的數據集中,我們比并發的最先進的結果表現更好,在很大的間隔達到+13.53%的改進。
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
在為視覺訓練深度神經網絡時,預訓練表示的遷移提高了樣本效率并簡化了超參數調整。我們回顧了在大型監督數據集上進行預訓練和在目標任務上對模型進行微調的范例。我們擴大了預訓練的規模,并提出了一個簡單的方法,我們稱之為大遷移(BiT)。通過組合一些精心選擇的組件,并使用一個簡單的啟發式傳輸,我們在20多個數據集上實現了強大的性能。BiT在非常廣泛的數據范圍內執行得非常好——從每個類1個示例到總共100萬個示例。BiT在ILSVRC-2012上達到87.5%的top-1準確率,在CIFAR-10上達到99.4%,在19個任務的視覺任務適應基準(VTAB)上達到76.3%。在小型數據集上,在ILSVRC-2012上BiT達到了76.8%,每個類有10個例子,在CIFAR-10上達到了97.0%,每個類有10個例子。我們對導致高遷移性能的主要部件進行了詳細的分析。