經典的機器學習隱含地假設訓練數據的標簽是從一個干凈的分布中采樣的,這對于真實的場景來說限制太大了。然而,基于統計學習的方法可能不能很好地訓練深度學習模型。因此,迫切需要設計標簽噪聲表示學習(LNRL)方法對帶噪聲標簽的深度模型進行魯棒訓練。為了充分了解LNRL,我們進行了綜述。我們首先從機器學習的角度闡明LNRL的形式化定義。然后,通過學習理論和實證研究的視角,找出了噪聲標簽影響深度模型性能的原因。在此基礎上,我們將不同的LNRL方法分為三個方向。在這個統一的分類法下,我們將全面討論不同類別的優缺點。更重要的是,我們總結了魯棒的LNRL的基本組件,它們可以激勵新的方向。最后,我們提出了LNRL可能的研究方向,如新數據集、實例依賴的LNRL和對抗性LNRL。最后,我們展望了LNRL之外的潛在方向,比如使用特征噪聲、偏好噪聲、領域噪聲、相似性噪聲、圖形噪聲和演示噪聲進行學習。
標簽噪聲表示學習在學術界和工業界都非常重要。背后有兩個原因。首先,從學習范式的本質來看,深度監督學習需要大量的有良好標簽的數據,這可能需要太多的成本,尤其是對于許多初創企業來說。然而,深度無監督學習(甚至是自我監督學習)還不夠成熟,無法在復雜的現實場景中很好地發揮作用。因此,作為深度弱監督學習,標簽噪聲表示學習自然受到了廣泛的關注并成為研究的熱點。其次,從數據方面來看,許多真實的場景缺乏純粹干凈的注釋,比如金融數據、web數據和生物醫學數據。這直接激發了研究人員探索標簽噪聲表示學習。
據我們所知,確實有三篇關于標簽噪聲的綜述的工作。Frenay和Verleysen[8]專注于討論標簽噪聲統計學習,而不是標簽噪聲表示學習。盡管Algan等人[9]和Karimi等人[10]。它們都專注于帶噪聲標簽的深度學習,都只考慮圖像(或醫學圖像)的分類任務。此外,他們的調查是從應用的角度寫的,而不是討論方法。為了彌補這些缺陷,我們希望對標簽噪聲表示學習領域做出如下貢獻。
從機器學習的角度,我們給出了標簽噪聲表示學習(LNRL)的正式定義。這個定義不僅足夠通用,可以包含所有現有的LNRL,而且也足夠具體,可以闡明LNRL的目標是什么以及我們如何解決它。
與[9]、[10]相比,通過學習理論的視角,我們更深入地理解了為什么噪聲標簽會影響深度模型的性能。同時,我們報告了在噪聲標簽下的深度模型的泛化,這與我們的理論發現是一致的。
我們進行了大量的文獻綜述,從表示學習開始,并在一個統一的分類,在數據,目標和優化。分析了不同類別的利弊。我們還對每個類別的見解進行了總結。
基于上述觀察,我們總結和討論了魯棒標簽噪聲表示學習的基本組成部分。這些可以幫助啟發標簽噪聲表示學習的新方向。
除了標簽噪聲表示學習,我們提出了幾個有前途的未來方向,如學習噪聲特征、偏好、領域、相似性、圖和演示。我們希望他們能提供一些見解。
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
當前自然語言處理的發展為低資源語言和領域提供了挑戰和機遇。眾所周知,深度神經網絡需要大量的訓練數據,而這些數據在資源貧乏的情況下可能無法得到。然而,也有越來越多的工作來提高低資源環境下的性能。基于對神經模型的基本改變和目前流行的預訓練和微調范式,我們概述了低資源自然語言處理的有前途的方法。在討論了低資源場景的定義和數據可用性的不同維度之后,我們接著研究了在訓練數據稀少時支持學習的方法。這包括創建附加標簽數據的機制,如數據增強和遠程監督,以及轉移學習設置,以減少對目標監督的需要。調查結束時,簡要地看了一下在非NLP機器學習社區中建議的方法,這些方法在資源少的情況下可能對NLP有益。
句法依存分析是自然語言處理中的一項重要任務。無監督依存解析旨在從沒有正確解析樹注釋的句子中學習依存解析器。盡管無監督解析很困難,但它是一個有趣的研究方向,因為它能夠利用幾乎無限的無注釋文本數據。它也為其他低資源解析的研究提供了基礎。在本文中,我們調查了現有的無監督依賴解析方法,確定了兩大類方法,并討論了最近的趨勢。我們希望我們的調查能夠為研究者提供一些啟示,并有助于今后對這一課題的研究。
眾包是一種計算范式,在這種范式中,人類積極參與計算任務,特別是那些本質上人類比計算機更容易完成的任務。空間眾包是移動互聯網和共享經濟時代眾包中日益流行的一種,任務是時空的,必須在特定的地點和時間完成。事實上,空間眾包激發了最近一系列的產業成功,包括城市服務的共享經濟(Uber和Gigwalk)和時空數據收集(OpenStreetMap和Waze)。本調查深入探討了空間眾包的獨特性帶來的挑戰和技術。特別地,我們確定了空間眾包的四個核心算法問題: (1)任務分配,(2)質量控制,(3)激勵機制設計,(4)隱私保護。我們對上述四個問題的現有研究進行了全面和系統的回顧。我們還分析了具有代表性的空間眾包應用程序,并解釋了它們是如何通過這四個技術問題實現的。最后,我們討論了未來空間眾包研究和應用中需要解決的開放問題。
深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。
主動學習試圖在具有盡可能少標注樣本的同時最大化模型的性能增益。深度學習(Deep learning, DL)需要大量標注數據,如果模型要學習如何提取高質量的特征,就需要大量的數據供應來優化大量的參數。近年來,由于互聯網技術的飛速發展,我們進入了一個以海量可用數據為特征的信息豐富性時代。因此,DL得到了研究者的極大關注,并得到了迅速的發展。但與DL相比,研究者對AL的興趣相對較低,這主要是因為在DL興起之前,傳統機器學習需要的標記樣本相對較少,這意味著早期的AL很少被賦予應有的價值。雖然DL在各個領域都取得了突破,但大部分的成功都要歸功于大量公開的帶標注的數據集。然而,獲取大量高質量的帶注釋數據集需要耗費大量人力,在需要較高專業知識水平的領域(如語音識別、信息提取、醫學圖像等)是不可行的,因此AL逐漸得到了它應該得到的重視。
因此,研究是否可以使用AL來降低數據標注的成本,同時保留DL強大的學習能力是很自然的。由于這些調研的結果,深度主動學習(DAL)出現了。雖然對這一課題的研究相當豐富,但至今還沒有對相關著作進行全面的調研; 因此,本文旨在填補這一空白。我們為現有的工作提供了一個正式的分類方法,以及一個全面和系統的概述。此外,我們還從應用的角度對DAL的發展進行了分析和總結。最后,我們討論了與DAL相關的問題,并提出了一些可能的發展方向。
概述:
深度學習(DL)和主動學習(AL)在機器學習領域都有重要的應用。由于其優良的特性,近年來引起了廣泛的研究興趣。更具體地說,DL在各種具有挑戰性的任務上取得了前所未有的突破;然而,這很大程度上是由于大量標簽數據集的發表[16,87]。因此,在一些需要豐富知識的專業領域,樣品標注成本高限制了DL的發展。相比之下,一種有效的AL算法在理論上可以實現標注效率的指數加速。這將極大地節省數據標注成本。然而,經典的AL算法也難以處理高維數據[160]。因此,DL和AL的結合被稱為DAL,有望取得更好的效果。DAL被廣泛應用于多個領域,包括圖像識別[35,47,53,68],文本分類[145,180,185],視覺答題[98],目標檢測[3,39,121]等。雖然已經發表了豐富的相關工作,DAL仍然缺乏一個統一的分類框架。為了填補這一空白,在本文中,我們將全面概述現有的DAL相關工作,以及一種正式的分類方法。下面我們將簡要回顧DL和AL在各自領域的發展現狀。隨后,在第二節中,進一步闡述了DL與AL結合的必要性和挑戰。
圖1所示。DL、AL和DAL的典型體系結構比較。(a)一種常見的DL模型:卷積神經網絡。(b) 基于池化的AL框架: 使用查詢策略查詢未標記的樣本池U和將其交給oracle進行標注,然后將查詢樣本添加到標記的訓練數據集L,然后使用新學到的知識查詢的下一輪。重復此過程,直到標簽預算耗盡或達到預定義的終止條件。(c) DAL的一個典型例子:在標簽訓練集L0上初始化或預訓練DL模型的參數的常變量,利用未標記池U的樣本通過DL模型提取特征。然后根據相應的查詢策略選擇樣本,在查詢時對標簽進行查詢,形成新的標簽訓練集L,然后在L上訓練DL模型,同時更新U。重復此過程,直到標簽預算耗盡或達到預定義的終止條件。
DAL結合了DL和AL的共同優勢:它不僅繼承了DL處理高維圖像數據和自動提取特征的能力,也繼承了AL有效降低標注成本的潛力。因此,DAL具有令人著迷的潛力,特別是在標簽需要高水平的專業知識和難以獲得的領域。
在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。
多模態表示學習旨在縮小不同模態之間的異質性差距,在利用普遍存在的多模態數據方面起著不可或缺的作用。基于深度學習的多模態表示學習由于具有強大的多層次抽象表示能力,近年來受到了廣泛的關注。在本文中,我們提供了一個全面的深度多模態表示學習的綜述論文。為了便于討論如何縮小異質性差距,根據不同模態集成的底層結構,我們將深度多模態表示學習方法分為三種框架:聯合表示、協調表示和編解碼。此外,我們回顧了該領域的一些典型模型,從傳統模型到新開發的技術。本文強調在新開發的技術的關鍵問題,如encoder-decoder模型,生成對抗的網絡,和注意力機制學習的角度來看,多通道表示,我們所知,從來沒有審核之前,即使他們已經成為當代研究的主要焦點。對于每個框架或模型,我們將討論其基本結構、學習目標、應用場景、關鍵問題、優缺點,以使新研究者和有經驗的研究者都能從中受益。最后,提出了今后工作的一些重要方向。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。
概述
學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。
在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。
這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。
廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。
鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。
目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。
在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面
我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。