本文從統一的角度對視覺識別領域的半監督學習(SSL)和無監督學習(UL)深度學習算法進行了綜述,
最先進的深度學習模型通常使用大量昂貴的標記訓練數據進行訓練。然而,在有限標簽的情況下,需要詳盡的人工標注可能會降低模型的泛化能力。半監督學習和無監督學習為從大量無標簽視覺數據中學習提供了很有前途的范式。這些范式的最新進展表明,利用未標記數據來改進模型泛化和提供更好的模型初始化具有很大的好處。本文從統一的角度對視覺識別領域的半監督學習(SSL)和無監督學習(UL)深度學習算法進行了綜述。為了全面了解這些領域的最新技術,我們提出了一個統一的分類法。我們對現有的代表性SSL和UL進行了全面而深刻的分析,突出了它們在不同的學習場景和不同的計算機視覺任務中的應用的設計原理。最后,我們討論了SSL和UL的新興趨勢和公開挑戰,以闡明未來的關鍵研究方向。
//www.zhuanzhi.ai/paper/8f7472afa6b686ae45998a4f31d35ee6
在過去的十年中,深度學習算法和架構[1],[2]一直在推動各種各樣的計算機視覺任務的SOTA水平,從目標識別[3],檢索[4],檢測[5],分割[6]。為了達到人類水平的性能,深度學習模型通常是通過監督訓練在大量標記訓練數據上構建的。然而,手動收集大規模標記訓練集不僅昂貴和耗時,而且可能由于隱私、安全和道德限制而被法律禁止。此外,有監督深度學習模型傾向于記憶標記數據并加入注釋者的偏見,這削弱了其在實踐中對新場景的泛化,這些場景中數據分布不可見。
更便宜的成像技術和更方便的網絡數據訪問,使得獲取大量未標記的視覺數據不再具有挑戰性。因此,從未標記的數據中學習成為一種自然且有希望的方法來將模型擴展到實際場景中,在這種情況下,無法收集一個大的標記訓練集,該訓練集涵蓋了由不同場景、相機位置、一天中的時間和天氣條件引起的照明、視角、分辨率、遮擋和背景雜波等所有類型的視覺變化。半監督學習[7],[8]和無監督學習[9],[10],[11],[12]是兩種最具代表性的利用非標記數據的范例。這些范式建立在不同的假設基礎上,通常是獨立開發的,同時具有相同的目標,即學習使用未標記數據的更強大的表示和模型。
更便宜的成像技術和更方便的網絡數據訪問,使得獲取大量未標記的視覺數據不再具有挑戰性。因此,從未標記的數據中學習成為一種自然且有希望的方法來將模型擴展到實際場景中,在這種情況下,無法收集一個大的標記訓練集,該訓練集涵蓋了由不同場景、相機位置、一天中的時間和天氣條件引起的照明、視角、分辨率、遮擋和背景雜波等所有類型的視覺變化。半監督學習[7],[8]和無監督學習[9],[10],[11],[12]是兩種最具代表性的利用非標記數據的范例。這些范式建立在不同的假設基礎上,通常是獨立開發的,同時具有相同的目標,即學習使用未標記數據的更強大的表示和模型。
半監督和無監督學習范式的概述——兩者都旨在從未標記的數據中學習。
圖1總結了本次調研中涉及的兩種范式,它們都利用未標記數據進行視覺表征學習。根據是否對一小部分訓練數據給出標簽注釋,我們將范式分為半監督學習和無監督學習,明確定義如下。
(a) 半監督學習(SSL)旨在共同學習稀疏標記數據和大量輔助無標記數據,這些數據通常來自與標記數據相同的底層數據分布。在標準的封閉集SSL[8]、[13]中,標記數據和未標記數據屬于來自同一域的同一組類。在開放集SSL[14]、[15]中,它們可能不在同一個標簽空間中,也就是說,未標記的數據可能包含未知和/或錯誤標記的類。
(b)** 無監督學習(UL)旨在僅從無標簽數據中學習**,而不使用任何與任務相關的標簽監督。訓練完成后,可以使用標記數據對模型進行微調,以在下游任務[16]中實現更好的模型泛化。
按照上述定義,將已標記數據集和未標記數據集分別表示為Dl和Du。SSL和UL統一的整體學習目標是:
式中θ為深度神經網絡(DNN)的模型參數;X是輸入圖像,y是對應的標簽;L_sup和L_unsup是有監督的和無監督的損失條款;λl和λu是平衡超參數。在SSL中,這兩個損失項是聯合優化的。在UL中,只有無監督損失項用于無監督模型的預訓練(即λl = 0)。盡管SSL和UL在無監督目標學習的原理相同,但它們在學習設置上的差異,導致了不同的獨特挑戰。具體來說,SSL假設有限的已標記數據可用,其核心挑戰是用大量的未標記數據擴展已標記集。UL假設主要的學習任務沒有標記數據,它的關鍵挑戰是從未標記的數據中學習任務通用表示。
我們專注于及時全面地回顧利用未標記數據來改善模型泛化的進展,涵蓋了SSL和UL中最具代表性的最先進的方法及其應用領域,以及自監督學習的新興趨勢。重要的是,我們提出了先進深度學習方法的統一分類,為研究人員提供了一個系統的概述,有助于理解當前的SOTA,并確定未來研究的開放挑戰。
我們的貢獻是三方面的。首先,據我們所知,這是同類中第一個深度學習調研,全面回顧了利用無標簽數據進行視覺識別的三種流行的機器學習范式,包括半監督學習(SSL,§2),無監督學習(UL,§3),并進一步討論SSL和UL(§4)。其次,我們提供了一個統一的,有洞察力的分類和分析現有的方法在學習設置和模型制定,以揭示他們的潛在算法連接。最后,我們在§5中展望了新興的趨勢和未來的研究方向,以闡明那些未被探索的和潛在的關鍵的開放途徑。
半監督學習分類
現有的SSL方法通常假設未標記的數據是封閉集和任務特定的,也就是說,所有未標記的訓練樣本都屬于一個預定義的類集。現有的大多數工作都采用了基于某種底層數據結構(如流形結構[42]、[44]和圖結構[73])為每個未標記的樣本分配一個類標簽的思路。我們將最具代表性的半監督深度學習方法分為五類: 一致性正則化、自訓練、基于圖的正則化、深度生成模型和自監督學習(表1),并在§2.2.1、§2.2.2、§2.2.3、§2.2.4和§2.2.5中給出了它們的一般模型公式。
無監督學習分類
現有的無監督深度學習模型主要可以分為三大類: 前置任務、判別模型和生成模型(表2)。前置任務和判別模型也被稱為自監督學習,它們通過代理協議/任務驅動模型學習,并構建偽標簽監督來制定無監督代理損失。生成模型本質上是無監督的,并且明確地對數據分布建模,以學習沒有標簽監督的表示。我們在§3.2.1、§3.2.2和§3.2.3中回顧了這些模型。
為了對圖結構數據建模,圖學習,特別是利用圖神經網絡的深度圖學習,最近引起了學術界和工業界的廣泛關注。目前流行的圖學習方法通常依賴于從“大”數據中學習,需要大量標注數據進行模型訓練。然而,通常圖與“小”標記數據關聯,作為數據注釋,在圖上標記總是耗時和消耗資源。因此,在有限甚至沒有標記數據的低資源環境下,研究人力監督下的圖學習是非常必要的。在本教程中,我們將專注于圖最小監督學習的最先進的技術,特別是一系列弱監督學習、少樣本學習和自監督學習方法的圖結構數據及其現實應用。本教程的目標是: (1) 對圖最小監督學習中的問題進行正式的分類,并討論不同學習場景下的挑戰; (2) 全面回顧了圖最小監督學習的現有和最新進展; (3) 闡明有待解決的問題和未來的研究方向。本教程介紹了最小監督學習中的主要主題,并為圖學習的新前沿提供了指南。我們相信本教程對研究人員和實踐者是有益的,允許他們在圖學習上合作。
//sites.google.com/asu.edu/kdd2022-tutorial-gmsl
本教程主要關注圖結構數據的最小監督學習(即弱監督學習、少樣本學習和自監督學習)的問題和技術。我們希望觀眾有機器學習、圖挖掘和圖神經網絡的一般背景知識。目標受眾是對該主題不熟悉或感興趣的學生、研究人員和從業人員。本教程將以研究生水平的講座形式進行。具備深度學習、圖挖掘和機器學習的基礎知識優先考慮,但不是必需的。我們將通過網站和社交媒體發布我們的教程信息。
近年來,我們從網絡世界的眾多平臺和物理世界的各種傳感器中生成和收集數據的能力迅速增長。圖作為一種公共語言,用于建模大量的結構化和關系系統,如社會網絡、知識圖譜和學術圖,其中實體被表示為節點,而它們的關系被表示為邊。最近,圖學習算法,尤其是基于圖神經網絡(GNNs)的算法[27,30]由于其在解決現實問題方面的重大影響而受到了廣泛的研究關注。為了利用數據之間的固有結構,圖學習在方法論上取得了重大進展,在不同領域的應用中產生了有前途的結果,從網絡安全[38]到自然語言處理[9]。
一般來說,現有的圖學習算法都專注于在訓練過程中能夠訪問到大量的人類注釋示例的設置。這種假設往往是不可行的,因為收集這些輔助知識是費力的,需要密集的領域知識,特別是考慮到圖結構數據的異構性[10,31]。因此,在有限或沒有標記訓練數據的不同低資源設置下研究圖學習是具有挑戰性的,但也是勢在必行的。其中,圖最小監督學習領域的三個基本問題引起了越來越多的研究關注: (1)圖弱監督學習(graph weaksupervised learning),即利用不完整、間接或不準確的監督信號來學習針對特定下游任務的有效GNN;(2)圖少樣本學習(Graph few -shot Learning),它的目標是在只有少數標簽實例可用的情況下處理不可見的任務(從新的標簽空間);(3)圖自監督學習(Graph Self-supervised Learning),旨在訓練任務無關的GNN或增強GNN在特定的下游任務上的能力,而不需要任何語義注釋。為了解決上述每個基本問題,最近研究人員將不同的機器學習技術應用于圖域,如數據增強[37]、元學習學習[29]和對比學習[21]。因此,我們組織本教程來回顧和討論圖最小監督學習的最新進展,并討論如何利用它們來解決現實世界的問題。
在本教程中,我們的目標是提供一個全面的審查這個新興的和重要的研究主題: 圖最小監督學習。我們將首先介紹圖學習的理論基礎,特別關注圖神經網絡。然后我們討論了圖最小監督學習的三個基本問題以及近年來的關鍵文獻。結合不同粒度級別上的主要圖挖掘任務(例如,節點分類、鏈接預測和圖分類),我們在每個類別中介紹了用于節點級、邊緣級和圖級任務的技術。最后,我們將介紹圖最小監督學習在不同領域的應用,并討論該研究領域的未來發展方向。在圖學習社區中,我們認為圖最小監督學習是一個具有重要社會影響的前沿研究課題,將吸引學術界和業界的研究人員和從業者。
**目錄 **
介紹和概述。首先,我們將簡要介紹深度圖學習及其在低資源環境下面臨的挑戰,然后我們將涉及圖神經網絡[30]、元學習[13]、對比學習[2]等相關主題的一些基礎知識,并介紹圖最小監督學習的概述。
圖弱監督學習。我們將介紹帶有弱監督的圖學習方法和應用。重點抓好監督不到位、間接監督和不準確監督三種薄弱監督。本部分將回顧圖自訓練[8,18]、圖主動學習[5,6,14]和圖遷移學習[7,11,31]等一系列學習技術。
我們將介紹圖少樣本學習的方法和應用。具體來說,我們將介紹兩類方法:基于元梯度的方法[22,28,35,36]和基于度量學習的方法[10-12,16,31,34],以展示如何處理從未見過的節點、邊和圖。此外,我們還將討論圖零樣本學習[19,20,24]。
圖自監督學習。我們將介紹圖自監督學習的方法和應用。具體來說,我們將涵蓋三種主要的范式,包括圖生成建模[3,4,17,23]、圖屬性預測[15,26]和圖對比學習[1,25,32,33]。
結論和討論。我們將總結所涵蓋的主題并討論它們之間的聯系。并討論了本課題未來的研究方向。
講者:
深度學習在各個領域的顯著成功依賴于大規模注釋數據集的可用性。然而,使用人工生成的注釋會導致模型有偏差學習、領域泛化能力差和魯棒性差。獲取注釋也很昂貴,需要付出很大的努力,這對視頻來說尤其具有挑戰性。作為另一種選擇,自監督學習提供了一種不需要注釋的表示學習方法,在圖像和視頻領域都顯示出了前景。與圖像域不同,學習視頻表示更具有挑戰性,因為時間維度,引入了運動和其他環境動力學。這也為在視頻和多模態領域推進自監督學習的獨家想法提供了機會**。在這項綜述中,我們提供了一個現有的方法在視頻領域的自監督學習重點。**我們根據它們的學習目標將這些方法總結為三種不同的類別: 1) 文本預置任務,2) 生成式建模,和 3)對比學習。這些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我們進一步介紹了常用的數據集、下游評估任務、現有工作的局限性以及該領域未來的潛在方向。
對大規模標記樣本的要求限制了深度網絡在數據有限且標注困難的問題上的使用,例如醫學成像Dargan et al. [2020]。雖然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大規模標記數據集上進行預訓練確實能提高性能,但這種方法存在一些缺陷,如注釋成本Yang et al. [2017], Cai et al. [2021],注釋偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏魯棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自監督學習(SSL)已經成為預訓練深度模型的一種成功方法,以克服其中一些問題。它是一種很有前途的替代方案,可以在大規模數據集上訓練模型,而不需要標記Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些來自訓練樣本本身的學習目標來訓練模型。然后,這個預訓練的模型被用作目標數據集的初始化,然后使用可用的標記樣本對其進行微調。圖1顯示了這種方法的概覽。
【導讀】推薦系統是現在習以為常的應用,如何融入元學習方法來解決推薦系統的冷啟動或小數據場景是個有趣的問題。上海交大最新《推薦系統中的深度元學習》綜述,有40頁pdf涵蓋135篇文獻,全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示,提出了一種分類方法,為基于元學習的推薦方法提供了設計空間。值得關注!
作為信息過濾技術,基于深度神經網絡的推薦系統近年來取得了很大的成功。然而,由于從頭開始的模型訓練需要足夠的數據,基于深度學習的推薦方法仍然面臨數據不足和計算效率低下的瓶頸。元學習作為一種新興的學習模式,學習如何提高算法的學習效率和泛化能力,在解決數據稀疏問題方面顯示出了其優勢。最近,越來越多的基于深度元學習的推薦系統的研究出現了,以提高在可用數據有限的推薦場景下的性能,例如用戶冷啟動和項目冷啟動。因此,本研究及時全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示,提出了一種分類方法,為基于元學習的推薦方法提供了設計空間。對于每個推薦場景,我們進一步討論了現有方法如何應用元學習來提高推薦模型的泛化能力的技術細節。最后,我們指出了當前研究的局限性,并指出了未來研究的方向。
//www.zhuanzhi.ai/paper/6cff1ae05b9c005089acf0838b5fa0a6
近年來,推薦系統作為緩解信息過載的過濾系統被廣泛應用于電子商務、娛樂服務、新聞等各種網絡應用。推薦系統通過在大量的候選物品中提出個性化的建議,在改善用戶體驗和增加在線平臺吸引力方面取得了巨大的成功。隨著數據驅動的機器學習算法[3,90],特別是基于深度學習的方法[9,32,121]的發展,該領域的學術和行業研究在準確性、多樣性、可解釋性等方面極大地提高了推薦系統的性能。
由于表達表示學習能力能夠從足夠的數據中發現隱藏的依賴關系,基于深度學習的方法在當代推薦模型中被大量引入[26,121]。通過利用大量具有不同數據結構的訓練實例(例如,交互對[121]、序列[20]和圖形[26]),具有深度神經結構的推薦模型通常被設計用于有效捕獲非線性和非微不足道的用戶/物品關系。然而,傳統的基于深度學習的推薦模型通常是基于預定義的學習算法,用足夠的數據從頭開始訓練。例如,常規監督學習范式通常使用從所有用戶收集的交互來訓練一個統一的推薦模型,并基于學習到的特征表示對未看到的交互進行推薦。這種基于深度學習的方法通常需要大量的數據和計算。換句話說,基于深度學習的推薦系統的性能很大程度上依賴于大量訓練數據的可用性和足夠的計算量。在實際的推薦應用中,數據的收集主要來源于用戶在訪問網絡平臺過程中觀察到的用戶互動。存在可用用戶交互數據稀疏(如冷啟動推薦)和模型訓練計算受限(如在線推薦)的推薦場景。因此,數據不足和計算效率低下的問題成為基于深度學習的推薦模型的瓶頸。
最近,元學習提供了一種很有吸引力的學習范式,它針對數據和計算的不足,著重加強機器學習方法的泛化能力[36,98]。元學習的核心思想是從先前的多任務學習過程中獲得關于高效任務學習的先驗知識(即元知識)。元知識可以促進新任務的快速學習,在看不見的任務上具有良好的泛化性能。在這里,任務通常指屬于同一類或具有相同屬性的一組實例,涉及其上的單個學習過程。與提高深度學習模型的表征學習能力不同,元學習側重于學習更好的學習策略來替代固定的學習算法,被稱為學習到學習的概念。由于元學習技術在對看不見的任務進行快速適應方面具有巨大的潛力,它被廣泛應用于圖像識別[4,130]、圖像分割[60]、自然語言處理[48]、強化學習[75,103]等研究領域。
元學習的好處與推薦模型在實例有限和計算效率低下的情況下的推廣需求是一致的。早期基于元學習的推薦方法主要分為個性化推薦算法選擇[13,78],提取元數據集的特征,針對不同的數據集(或任務)選擇合適的推薦算法。通過運用提取元知識和生成任務特定模型的思想,這種元學習的定義更接近自動化機器學習的研究[39,115]。**隨后,深度元學習[38]或神經網絡元學習[36]出現,并逐漸成為推薦模型中典型討論的元學習技術的主流[47,69]。如[36,38]所介紹的,深度元學習旨在提取元知識,以實現深度神經網絡的快速學習,這對目前流行的深度學習范式帶來了增強。2017年以來,深度元學習在推薦系統研究界受到關注。**在訓練傳統的深度推薦模型時,首先應用先進的元學習技術來緩解數據不足(即冷啟動問題)。例如,最成功的基于優化的元學習框架MAML,以神經網絡參數初始化的形式學習元知識,首先在冷啟動推薦場景[47]中表現出極大的有效性。此外,在元學習模式下還研究了點擊率預測[69]、在線推薦[123]、順序推薦[125]等多種推薦場景,以提高在數據不足和計算效率低下的情況下的學習能力。
在本文中,我們對快速增長的基于深度元學習的推薦系統的研究進行了及時和全面的綜述。在我們的研究中,雖然已經有一些關于元學習或深度元學習的研究綜述了通用元學習方法及其應用的細節[36,38,98],但對推薦系統的最新進展仍然缺乏關注。此外,在其他應用領域也有一些關于元學習方法的綜述,如自然語言處理[48,117],多模態[61]和圖像分割[60]。然而,目前還沒有關于深度元學習在推薦系統中的研究。與他們相比,我們的綜述是填補這一空白的第一次嘗試,系統地回顧了元學習和推薦系統相結合的最新論文。在我們的綜述中,我們的目的是全面回顧基于深度元學習的推薦系統的文獻,這將有助于讀者和研究人員對這一主題的全面理解。為了仔細定位該領域的工作,我們提供了一個從三個角度的分類,包括推薦場景、元學習技術和元知識表示。此外,我們還根據推薦場景討論了相關的方法,并介紹了不同的作品如何利用元學習技術提取特定的元知識,包括參數初始化、參數調制、超參數優化等多種形式。我們希望我們的分類可以為開發新的基于深度元學習的推薦方法提供設計空間。此外,我們還總結了構建元學習任務的常見方法,這是構建元學習范式的必要條件。 本次綜述的結構安排如下。在第2節中,我們介紹了元學習技術的共同基礎和典型的推薦場景,其中元學習方法已被研究,以緩解數據不足和計算效率低下。在第3節中,我們將介紹由三個獨立軸組成的分類法。在第4節中,我們總結了文獻中使用的元學習推薦任務構建的不同方法。然后,我們在第5節詳細闡述了在不同推薦場景下使用元學習技術的現有方法的方法論細節。最后,我們在第6部分討論了該領域未來的研究方向,并在第7部分總結了這一綜述。
基于深度元學習的推薦系統分類
在本節中,我們建立了基于深度元學習的推薦系統的分類,并根據分類總結了現有方法的特點。通常,我們根據三個獨立的軸來定義分類,包括推薦場景、元學習技術和元知識表示。圖1顯示了分類法。之前[38,98]對一般元學習方法的分類更多關注2.1節介紹的三種元學習框架,但對元學習技術的實際應用關注有限。此外,[36]提出了一個新的分類法,涉及元表示、元優化器和元目標三個方面。他們提供了一個更全面的分類,可以引導新的元學習方法的發展。但是,它側重于整個元學習領域,不適合反映基于深度元學習的推薦系統的研究現狀和應用場景。
多目標跟蹤是計算機視覺領域的經典研究方向。最近來自浙江大學等《多目標跟蹤MOT嵌入》綜述論文,對現有的MOT嵌入方法進行了分類和總結,并對其優點和局限性進行了深入全面的分析。總結為未來的算法設計和新課題的探索提供了啟示。
多目標跟蹤(MOT)的目的是將視頻幀內的目標物體進行關聯,從而獲得完整的運動軌跡。隨著深度神經網絡的發展和對智能視頻分析需求的增加,MOT在計算機視覺界得到了越來越多的關注。嵌入方法在目標定位估計和時間身份關聯中起著至關重要的作用。與其他計算機視覺任務如圖像分類、目標檢測、再識別、分割等不同,MOT中的嵌入方法變化很大,從未得到系統的分析和總結。本研究首先從patch級嵌入、單幀嵌入、跨幀聯合嵌入、關聯嵌入、順序嵌入、軌跡嵌入和跨軌關系嵌入7個不同的角度對MOT中的嵌入方法進行了全面的綜述和深入的分析。我們進一步總結了現有的廣泛使用的MOT數據集,并根據其嵌入策略分析了現有的先進方法的優勢。最后,討論了一些有待進一步研究的領域和未來的研究方向。
近年來,多目標跟蹤(MULTI-OBJECT tracking, MOT)得到了廣泛的研究,其目的是將被檢測物體跨視頻幀進行關聯,獲得完整的運動軌跡。近年來出現了各種各樣的跟蹤算法,從圖聚類方法[1],[2],[3],[4]到聚合跨幀和對象信息的圖神經網絡[5],[6],[7],[8];從跟蹤檢測模式[9]、[10]、[11],到聯合檢測跟蹤[5]、[12]、[13]、[14]、[15]、[16],提高多幀檢測性能;從卡爾曼濾波[17]到循環神經網絡(RNN)[18]和長短時記憶(LSTM)[19],以提高與運動線索的關聯性能。隨著跟蹤算法的發展,MOT可以應用于許多任務,如交通流分析[1],[20],[21],[22],人類行為預測和姿態估計[23],[24],[25],[26],自動駕駛輔助[27],[28],甚至水下動物豐度估計[29],[30],[31]。
MOT系統的流程主要分為兩部分,即嵌入模型和關聯算法。在輸入多個連續幀的情況下,通過嵌入技術和關聯方法估計目標的位置和軌跡。由于存在光照變化、遮擋、復雜環境、快速相機運動、不可靠檢測、各種低分辨率[32]等問題,MOT具有挑戰性。此外,跟蹤算法的單個步驟,如檢測、特征提取、親和力估計和關聯,也會影響跟蹤性能。這些導致了顯著的變化和不確定性。隨著深度神經網絡表示學習的發展,嵌入方法在MOT中目標位置估計和時間身份關聯中發揮著重要作用。雖然關聯在MOT中也很重要,但在本研究中,我們更多關注的是嵌入學習,而不是關聯。
然而,MOT中的嵌入學習方法還沒有得到系統的分析和總結。不同于其他計算機視覺任務,如圖像分類、目標檢測、再識別(Re-ID)和分割,MOT中的嵌入方法有很大的變化。一些嵌入方法將多任務頭[16]、[33]、[34]、[35]、[36]組合在一起,包括框回歸、對象分類、再識別等。一些嵌入方法考慮了[12],[14],[37],[38],[39]的時空相關性,將外觀信息和運動信息相互協作。一些方法利用目標之間的交互關系,前景和背景,局部和全局信息的相關性和注意,學習軌跡嵌入[40],[41],[42],[43]。嵌入方法的較大偏差促使我們從嵌入的角度進行全面綜述,并討論幾個研究不足的嵌入區域和未來的方向。
圖 1. MOT中嵌入方法的分類。最上面的流程圖是這次調查的大綱。綠色和淺紅色的盒子表示嵌入方法和代表性文獻分別。
近年來已有一些關于MOT的綜述[44],[45],[46],[47],[48]發表。具體來說,[44]總結了一些基于深度學習的跟蹤器和深度神經網絡結構。[45]側重于回顧基于模型的多假設跟蹤與機器學習技術在檢測,過濾和關聯。[46]回顧了深度學習在MOT中的應用,包括檢測、特征提取、親和性計算和關聯。[47]回顧了近幾十年來MOT的發展,重點關注深度學習技術和研究MOT的最新進展。[48]提供了MOT系統的回顧,并從不同的方面討論了方法。與現有研究不同的是,我們關注的是MOT中的嵌入學習,即如何為MOT任務學習面向對象的代表性特征,并根據嵌入策略對最先進的方法進行綜合分析。這項綜述的主要貢獻總結如下:
我們對現有的MOT嵌入方法進行了分類和總結,并對其優點和局限性進行了深入全面的分析。總結為未來的算法設計和新課題的探索提供了啟示。
我們總結了廣泛使用的數據集和基準測試,并根據嵌入方法分析了最先進的方法。
我們試圖討論與嵌入技術相關的幾個重要研究方向和未被充分研究的問題,并對未來的趨勢邁出一步。
這次綜述的概要總結如下。我們首先演示了相關的工作,包括在第2節中最相關的MOT任務。第3節提供了嵌入方法的分類和詳細調研。然后,我們總結了現有的廣泛使用的MOT數據集,評估指標,并根據嵌入方法分析了最先進的方法。在第5節中,我們討論了幾個未被研究的問題,并指出了未來的發展趨勢和潛在的研究方向。結論在第6節得出。
MOT嵌入方法體系**
**嵌入方法是目標位置估計和ID關聯的關鍵。我們提出的MOT嵌入方法分類如圖1所示。在本節中,我們將常用的MOT嵌入方法分為七組,包括patch級嵌入、單幀嵌入、跨幀聯合嵌入、基于相關的嵌入、序列嵌入、軌跡嵌入和交叉軌跡關系嵌入。對于每一類方法,我們都介紹了具有代表性的算法,然后討論了它們的優缺點,希望能為研究人員提供對每一類方法的深入分析。
MOT數據集
我們首先回顧了11個廣泛使用的MOT數據集,包括KITTI [177], [211], [212], mo15 [213], DukeMTMCT [117], MOT16-17 [143], PathTrack [124], UA-DETRAC [214], PoseTrack [215], [216], MOTS [37], CityFlow [20], KITTI MOTS [37], MOT20 [32], [144], nuScenes [217], Waymo [218], BDD100K[219],[220],和VisDrone[221],[222],[223],[224]。這些數據集主要集中在人和車輛的跟蹤。一些用于一般的行人跟蹤,一些用于交通流分析和自動駕駛。注釋包括2D和3D邊框、姿勢和關鍵點以及實例蒙版。表2匯總了這些數據集的統計情況。也有其他針對特定任務的跟蹤數據集,如HiEve [225], [226], DanceTrack [227], Omni-MOT [38], [228], Virtual KITTI [229], Apollo MOTS [111], TAO-person [230], WildTrack[231],和GMOT-40[232]。這些數據集的詳細信息可以在參考資料中找到。
未來方向**
沒有得到充分的研究領域
本文從非完全監督學習、泛化和領域自適應、擁擠場景嵌入、多視圖協作和多模態MOT五個方面探討了MOT嵌入方法的發展趨勢和潛在發展方向。
元學習 輔助任務學習 大規模預訓練 從其他跟蹤相關模型中提取知識,用于嵌入學習,如基于圖像的Re-ID模型和檢測模型。 學習跨域嵌入,以彌合訓練和測試分布差異。 挖掘先驗、約束和一致性,如進入-離開一致性(計數一致性)、幾何一致性和自我運動一致性。 估計隱式對象行為狀態以增強嵌入。 目標軌跡估計的推理與因果學習。
半監督學習(Semi-supervised learning, SSL)是機器學習的一個分支,其目的是在標簽不足的情況下利用未標記的數據來提高學習性能。最近,具有深度模型的SSL已被證明在標準基準測試任務上是成功的。然而,在現實應用中,它們仍然容易受到各種健壯性威脅,因為這些基準提供了完美的無標簽數據,而在現實場景中,無標簽數據可能被破壞。許多研究人員指出,在利用被破壞的未標記數據后,SSL會遭受嚴重的性能退化問題。因此,迫切需要研發SSL算法,能夠穩健地處理損壞的未標記數據。為了充分理解健壯的SSL,我們進行了一項調查研究。我們首先從機器學習的角度闡明了健壯SSL的正式定義。然后,我們將魯棒性威脅分為三類: i) 分布損壞,即未標記數據分布與標記數據不匹配; ii) 特征損壞,即未標記例子的特征被敵方攻擊; iii) 標簽損壞,即未標簽數據的標簽分布不均衡。在這個統一的分類下,我們提供了一個全面的綜述和討論最近的工作,重點關注這些問題。最后,我們提出了在健壯SSL中可能的有前途的方向,為未來的研究提供了見解。
引言
機器學習,特別是深度學習[1],在圖像分類[2]、物體檢測[3]、語音識別[4]、產品推薦[5]、自然語言處理[6]等任務上取得了令人印象深刻的性能和成功的應用。通常,機器學習模型是從包含大量訓練示例的訓練數據集中學習的。一個訓練示例由兩部分組成:描述示例所對應的事件/對象的特征向量,以及指示ground-truth輸出的標簽。例如,在圖像分類任務中,feature是圖像中的像素,label是圖像所屬的類別。大多數成功的機器學習技術都需要為大規模的訓練數據集提供ground-truth標簽,例如ImageNet數據集,該數據集包含數百萬張標簽圖像,用于圖像分類任務。然而,在許多現實世界的應用中,獲取如此多的帶標簽的數據可能是一個挑戰,因為帶標簽的示例獲取[7],[8],[9],[10]通常是困難的、昂貴的或耗時的。例如,在醫學圖像分析任務中,不可能期望醫學專家為所有醫學圖像標記病變。另一方面,無標簽數據通常是廉價和豐富的,我們可以從醫院收集大量的無標簽醫學圖像。因此,機器學習模型能夠處理無標記數據是非常理想的。
在標注數據不足的情況下,采用學習范式提高學習性能。SSL的研究可以追溯到20世紀90年代,當時在現實世界的應用中,對未標記數據的需求不斷上升,推動了這一領域的發展。據我們所知,SSL跨越了機器學習的兩個重要階段:統計學習(即淺學習)和深度學習。在統計學習階段,SSL方法可以分為四種代表性的學習范式: i)生成式SSL方法[11]、[12]、[13]、半監督支持向量機(S3VM)[14]、[15]、[16]、[17]、基于圖的SSL[18]、[19]、[20]、[21]和基于分歧的SSL[22]。我們推薦感興趣的讀者閱讀[23]和[7],它們提供了統計SSL方法的全面概述。2012年,Geoffrey Hinton的團隊利用深度神經網絡AlexNet[2]在ImageNet的比賽中以顯著優勢獲勝,從此深度學習在機器學習領域占據主導地位。因此,引入了深度模型對經典SSL框架的優勢的深度SSL引起了廣泛的關注,并提出了大量的深度SSL方法。深SSL方法可以分為五類,即一致性正則化方法[24],[25],[26],[27],[28],[29],[30],[31],[32],[33],pseudo-labeling方法[34],[35],[36],[37],[38],[39],[40],[41],[42],[43],[44],整體一致性正則化方法和pseudo-labeling [45], [46], [47], [48], [49],deep生成SSL方法[50]、[51]、[52]、[53]、[54]、[55]和deep graph-based SSL方法[56]、[57]、[58]、[59]、[60]。深度SSL方法已成功應用于圖像分類[49]、目標檢測[61]、語義分割[62]、文本分類[63]、問題回答[64]等任務。據報道,在某些情況下,比如圖像分類[49],深度SSL方法可以實現純監督學習的性能,即使在給定數據集中的大部分標簽已經被丟棄的情況下。
魯棒半監督學習
上述所有積極的結果都是基于一個條件,即無標簽數據是完美的,允許SSL利用它來提高性能。無標記數據的完善在于兩個方面: 首先,對于有標記數據和無標記數據之間的關系,SSL意味著有標記數據集和無標記數據集從同一個分布中獨立抽取,從而利用無標記數據提高學習性能。因此,完美的無標簽數據要求無標簽數據的分布與有標簽數據的分布一致。此外,對于無標簽數據本身,完美的無標簽數據要求數據的兩個基本組成部分——特征分布和標簽分布(未知)不被破壞。然而,在現實世界的應用中,期望一個完美的無標簽數據集是困難的,甚至是不可能的,因為沒有標簽的數據不能被手工驗證,否則它違背了SSL減少人工勞動的目的。因此,不可避免地會遇到不完美(或損壞)的未標記數據,例如對抗的未標記例子、分發外的未標記例子、類別不平衡的未標記數據等。許多研究人員已經指出,SSL的性能容易受到這些損壞的未標記數據[9],[65],[66],[67],[68],[69],[70],[71]的影響。例如,當未標記數據集包含分發外示例時,SSL算法會出現性能下降問題[66],[67];當未標記的例子被敵方攻擊時,SSL模型可能會做出錯誤的預測[63]、[71]、[72];當未標記的數據集是類不平衡時,SSL在少數類上表現很差[69],等等。
為了將SSL技術應用到更廣泛的應用,迫切需要研究健壯的SSL方法,也就是說,當未標記的數據被破壞時,確保SSL算法不會遭受嚴重的性能下降,如圖1所示。如上所述,通常有三種類型的未標記數據損壞。第一種是分布損壞,即,未標記數據的分布與標記數據的分布不同。這種情況發生在各種任務中。例如,在圖像分類中,從互聯網上收集的無標簽圖像通常包含非分布的圖像[66]。第二種是特征損壞,即未標記示例的特征被噪聲惡意干擾。再考慮圖像分類任務,很容易將對抗特征噪聲注入到無標簽圖像中[72],[73]。第三種類型是標簽損壞,即,未標簽數據的標簽分布(未知)是高度傾斜的。這種情況是自然發生的。例如,在圖像分類中,我們日常生活中視覺類目的頻率分布是長尾的[74],常見的標簽很少,罕見的標簽更多。SSL中健壯性威脅的總體分類如圖2所示。
健壯SSL是一個綜合性術語,涵蓋了各種試圖通過學習標記數據和損壞的未標記數據來構建健壯預測模型的研究。在本文中,我們將討論這一研究領域的一些進展,重點是學習分布損壞、特征損壞和標簽損壞的未標簽數據。為了清楚而具體地解釋健壯的SSL,我們將重點討論深層SSL方法。據我們所知,我們是第一個對健壯的深度SSL進行調研的人。目前已有一些關于淺SSL[7]、[23]和深SSL算法的研究[75],但不包括健壯SSL的研究。Li和Liang[76]對安全SSL進行了調研,但他們主要關注的是統計(即淺層)SSL方法。我們的主要貢獻可以總結如下。
我們瞄準了關鍵但卻被忽視的健壯SSL問題。從機器學習的角度,給出了健壯SSL的形式化定義。該定義不僅具有足夠的普遍性,可以包括現有的健壯SSL方法,而且具有足夠的特殊性,可以闡明健壯SSL的目標是什么。
我們指出,無標簽數據損壞是對SSL的健壯性威脅,并提供了一個完整的分類無標簽數據損壞類型,即分布損壞、特征損壞和標簽損壞。我們給出了每個問題的形式化定義和標準化描述。這有助于其他研究人員清楚地理解健壯的SSL。 對于每一種健壯性威脅,我們都對最近構建健壯SSL模型的工作進行了全面的回顧。他們的關系,pros, and cons也被討論。您可以很快掌握健壯SSL的前沿思想。 在現有的健壯SSL研究之外,我們提出了幾個有前景的未來方向,如健壯的通用數據類型,健壯的復合弱監督數據,健壯的SSL與領域知識,在動態環境中學習,以及構建真實的數據集。我們希望它們能夠為健壯的SSL研究提供一些見解
魯棒半監督學習
分布損壞
SSL通常假設所有標記和未標記的示例都是從相同的底層數據分布中采樣的IID。然而,在實際應用中,經常會發現未標記的數據分布與標記的數據分布不同。下圖提供了針對分布不匹配的健壯SSL方法的分類。解決SSL標簽分布不匹配問題的兩種主要策略是: 對未標記樣本分配不同權重的樣例調整權重和開放集檢測評分,旨在設計一種開放集檢測評分機制。樣例重權與開集檢測分值的區別在于,開集檢測分值可以看作是一個僅包含0和1的離散權值,它們簡單地舍棄開集樣本,對所有保留的樣本一視同仁。理想情況下,示例重新加權方法可以導致更好的性能,因為并非所有未標記的示例都是一樣的,即使是所有的內集示例[97]。但在實際中,最優權重的計算較為困難,需要開發高效、準確的優化方法。開放集檢測評分方法的性能取決于評分機制。學習如何設計一個更好的評分函數是提高模型性能的關鍵。
特征損壞 特性損壞是指給定示例的特性被惡意干擾,從而導致學習到的模型對目標示例進行錯誤分類。下圖提供了用于特性損壞的健壯SSL方法的分類。攻擊技術主要有兩種策略:誤導性的序列注入和對抗性的擾動生成。所有這些方法都可以欺騙SSL模型,使其做出任何預期的錯誤預測。不同的是,誤導序列注入在給定的訓練數據中增加了新的訓練樣本,而擾動生成方法直接對給定的訓練樣本進行擾動。在防御技術方面,主要有兩種策略:魯棒正則化和分布魯棒學習。由于魯棒正則化方法直接在原損失函數中加入可微正則化項,因此相對于DRL方法,魯棒正則化方法更易于優化。DRL的優點在于它具有良好的理論性質。
標簽損壞 SSL方法假設無標簽數據(未知)的標簽分布是平衡的,即每個類中的示例數量幾乎相等。然而,在許多現實場景中,訓練數據的底層類分布是高度不平衡的。下圖提供了用于標記損壞的健壯SSL方法的分類。如前所述,SSL中處理標簽損壞問題的策略可以分為偽標簽對齊方法、實例重權方法和實例重權方法。偽標簽對齊方法的優點是,改進后的偽標簽可以匹配到無標簽數據的類分布的ground-真值,缺點是需要知道無標簽數據類分布的ground-真值,這在實際任務中很難獲得。另外,分布估計的精度對方法的性能影響很大。重權法和重抽樣法是處理班級不平衡學習問題的經典方法。然而,在SSL任務中,由于它們不能直接根據標簽重新采樣或重新加權示例,因此它們需要比監督設置中更多的計算成本,原因是它們具有復雜的訓練過程或難以實現的優化目標。
雖然在許多領域生成并提供了大量未標記數據,但對自動理解可視化數據的需求比以往任何時候都要高。大多數現有的機器學習模型通常依賴于大量帶標簽的訓練數據來實現高性能。不幸的是,這樣的需求在真實的應用中無法滿足。標簽的數量是有限的,手動注釋數據是昂貴和耗時的。通常需要將知識從現有的標記領域遷移到新的領域。然而,模型性能會因為域之間的差異而降低(域移位或數據集偏差)。為了克服標注的負擔,領域適應(Domain Adaptation, DA)旨在緩解知識從一個領域轉移到另一個相似但不同的領域時的領域轉移問題。無監督DA (UDA)處理有標記的源域和無標記的目標域。UDA的主要目標是減少帶標簽源數據和未帶標簽目標數據之間的域差異,并在訓練過程中學習跨兩個域的域不變表示。本文首先定義了UDA問題。其次,我們從傳統方法和基于深度學習的方法兩方面概述了用于不同類別UDA的最新方法。最后,我們收集了常用的基準數據集,并報告了UDA在視覺識別問題上的最新方法的結果。
//www.zhuanzhi.ai/paper/a3132aabda946e6540ff6c1a9b745303
在這個大數據時代,產生了大量的文本、圖像、聲音和其他類型的數據。工業和研究團體對多媒體數據的自動分類、分割和回歸有很大的需求[1;2) 1。監督學習是機器學習中最普遍的一種,在不同的應用領域都取得了很大的成功。近年來,我們已經見證了深度神經網絡在一些標準基準如ImageNet[4]和CIFAR-10[5]上取得的巨大成功。然而,在現實世界中,我們經常遇到一個嚴重的問題,即缺乏用于訓練的標記數據。眾所周知,機器學習模型的訓練和更新依賴于數據注釋。此外,機器學習模型的高性能依賴于大量帶標簽的訓練數據的存在。不幸的是,在許多實際場景中,這樣的要求無法滿足,因為收集的數據有限制或沒有標簽。此外,一個主要的假設是訓練和測試數據具有相同的分布。如果背景、質量或形狀變形在不同的域之間是不同的,那么這樣的假設很容易被扭曲。此外,手動注釋數據通常非常耗時且昂貴。這給正確訓練和更新機器學習模型帶來了挑戰。因此,一些應用領域由于沒有足夠的標注數據進行訓練而沒有得到很好的發展。因此,常常需要將知識從一個已有的標簽領域轉移到一個相似但不同的、有限或沒有標簽的領域。
然而,由于數據偏置或區域移位的現象6,機器學習模型并不能很好地從一個現有的域推廣到一個新的無標記域。對于傳統的機器學習方法,我們通常假設訓練數據(源域)和測試數據(目標域)來自相同的分布,并從訓練數據中優化模型,直接應用到測試數據中進行預測。忽略訓練數據和測試數據之間的差異。然而,源域和目標域之間常常存在差異,如果存在域遷移問題,傳統方法的性能較低。因此,減輕領域遷移問題對提高模型跨不同領域的性能非常重要。
域適應(DA)是遷移學習(TL)的一種特殊設置,其目的是利用豐富的帶標簽源域的知識,為標簽有限或無標簽的目標域學習有效的預測器,同時緩解域遷移問題。近年來,DA在計算機視覺領域受到越來越多的關注,如圖1所示。每年與DA相關的論文越來越多,說明了DA應用的重要性。有三種類型的DA(有監督的、半監督的和無監督的DA),它們取決于目標域中的標簽數量。對于監督DA,所有的目標數據標簽都是可用的。對于半監督DA,部分目標數據標簽是可用的。對于無監督域適配(UDA),目標域沒有標簽。為了克服標注不足所帶來的限制,技術將有標記的源域和來自目標域的未標記樣本結合起來。此外,UDA中源域和目標域的類別數量相同,也稱為閉集域適應。
現有的域自適應方法假設源域和目標域的數據分布不同,但共享相同的標簽空間。傳統的DA方法高度依賴于從原始圖像中提取特征。隨著深度神經網絡的發展,研究人員正在利用更高性能的深度特征(如AlexNet [7], ResNet50 [8], Xception [9], InceptionResNetv2[10])來代替較低級別的SURF特征。然而,傳統方法的預測精度受到深度神經網絡[11]特征提取質量的影響。近年來,深度神經網絡方法在領域適應問題上取得了巨大的成功。特別是,對抗學習在嵌入深度神經網絡學習特征表示以最小化源域和目標域之間的差異方面表現出強大的能力[12;13)。但是,它只局限于將現有的解決方案從源域改進到目標域,而目標樣本的結構信息很難保存。此外,很難移除目標域中有噪聲的預測標簽。
本文主要研究了圖像識別中的域自適應問題。本次綜述的貢獻如下。(i)我們提出了一種基于傳統和深度學習的DA分類方法。(ii) 我們是第一個在特征選擇、分布適應和子空間學習三種不同背景下研究傳統技術的人。(iii)我們還討論了基于深度學習的方法,包括基于差異的方法、基于對抗的方法、基于偽標簽的方法、基于重構的方法、基于表征的方法和基于注意力的方法。(4)我們收集了幾個基準數據集,這些數據集在UDA中得到了廣泛的應用,并報告了最新方法的結果。本文的其余部分組織如下:在第2、3節中,我們介紹了DA問題的符號和泛化界。在第四部分,我們回顧了傳統的UDA方法。在第5節中,我們描述了用于圖像識別的深度DA方法。在第6節中,我們列出了DA的基準數據集,并報告了最新方法的準確性。
摘要
深度半監督學習是一個快速發展的領域,具有一系列的實際應用。
本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。
我們首先提出了一種深度半監督學習分類法,該分類法對現有方法進行分類,包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后,我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。
在總結近年來研究進展的基礎上,進一步探討了現有方法的不足之處,并提出了一些探索性的解決方案。
//arxiv.org/pdf/2103.00550.pdf
引言
深度學習一直是一個活躍的研究領域,在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據,在[9]、[10]的理論和實踐中都取得了巨大的成功,特別是在監督學習場景中。然而,標簽樣品通常是困難的,昂貴的,或耗時獲得。標記過程通常需要專家的努力,這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如,在醫療任務中,測量是用昂貴的機器進行的,標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用,建立一個成功的學習系統是具有挑戰性的。相比之下,未標記的數據通常是豐富的,可以很容易地或廉價地獲得。因此,它是可取的利用大量的未標記的數據,以改善學習性能給定的少量標記樣本。因此,半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。
SSL是一種學習范式,它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比,SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展,可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法,減輕了對大量標記[13]的需求。根據系統的關鍵目標函數,可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:
半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集,半監督分類的目標是同時從有標記的和無標記的數據訓練分類器,這樣它比只在有標記的數據上訓練的有監督分類器更好。
半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成,半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。
半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集,半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能,該回歸算法預測一個實值輸出,而不是一個類標簽。
為了更清楚、更具體地解釋SSL,我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況,如對象檢測,語義分割,聚類,或回歸。因此,在本研究中,我們主要回顧了利用未標記數據進行圖像分類的方法。
SSL方法有很多種,包括生成模型[14],[15],半監督支持向量機[16],[17],基于圖的方法[18],[19],[20],[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23],它們提供了傳統SSL方法的全面概述。目前,深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架,并為深度學習設置開發新的SSL方法,這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征,我們將DSSL分為五類,即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。
在[12],[23]中有很多具有代表性的作品,但是一些新興的技術并沒有被納入其中,尤其是在深度學習取得巨大成功之后。例如,深度半監督方法提出了新的技術,如使用對抗訓練生成新的訓練數據。另外,[13]側重于統一SSL的評價指標,[24]只回顧了SSL的一部分,沒有對SSL進行全面的概述。最近,Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而,它不能與現有的方法相比,基于它們的分類,并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上,結合最新的研究,我們將對基礎理論進行綜述,并對深度半監督方法進行比較。總結一下,我們的貢獻如下:
我們對DSSL方法進行了詳細的回顧,并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。
我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法,每一種方法都有特定的類型。我們回顧了每一類的變體,并給出了標準化的描述和統一的示意圖。
我們確定了該領域的幾個開放問題,并討論了DSSL的未來方向。