數據增強(DA)在現代機器學習和深度神經網絡中是不可或缺的。DA的基本思想是構建新的訓練數據,通過添加現有數據的輕微擾動版本或合成新數據來提高模型的泛化能力。本文回顧了基于DA - mix的數據增強(MixDA)的一個小但重要的子集,通過混合多個樣本來生成新樣本。與傳統的基于單樣本操作或需要領域知識的DA方法不同,MixDA在創建廣泛的新數據方面更具一般性,在社區中受到越來越多的關注。提出了一種新的分類法,根據數據混合的層次視圖,將MixDA分為基于Mixup、基于cutmix和hybrid方法。然后以更細粒度的方式全面調研各種MixDA技術。由于其通用性,MixDA已經滲透到各種應用程序中,本文也對這些應用程序進行了全面的綜述。還從提高模型性能、泛化和校準等不同方面研究了MixDA為什么有效,同時根據MixDA的屬性解釋模型行為。總結了當前MixDA研究的關鍵發現和基本挑戰,并概述了未來工作的潛在方向。不同于以往的相關工作總結特定領域(如圖像或自然語言處理)的數據挖掘方法或只回顧MixDA的一部分研究,本文首次從分類、方法論、應用和可解釋性等方面對MixDA進行了系統的綜述。這項工作可以作為MixDA技術和應用調研的路線圖,同時為對這一令人興奮的領域感興趣的研究人員提供有希望的方向。這些方法的列表可以在//github.com/ChengtaiCao/Awesome-Mix上找到。
1. 引言
深度學習(DL)由于其學習表達表示的能力,對[1]的不同領域產生了變革性的影響。隨著所要解決的問題越來越具有挑戰性,網絡結構變得越來越復雜,層數越來越多**。然而,深度神經網絡(dnn)因其具有數百萬甚至數十億參數的數據需求而臭名昭著(例如Bert[2]),使它們容易過擬合。許多創新致力于通過使用改進的網絡架構使dnn更具數據效率。例如,卷積神經網絡(CNN)經歷了從AlexNet[3]到ResNet[4]越來越高級的進化過程。此外,還提出了多種正則化方法來提高DNN的泛化能力,如權重衰減[5]、dropout[6]、隨機深度[7]和批量歸一化[8]。Dropout在訓練過程中隨機歸零一些激活,以模擬更多的網絡架構子集,并防止神經元的共同適應。批量歸一化通過從每個激活中減去批量均值并除以批量標準差來規范化激活。數據增強(DA)是指在不明確收集新樣本的情況下增加訓練數據的數量和多樣性,通常是減少過擬合的補救措施。DA方法試圖擴大有限的數據并提取額外的信息,結合先進的網絡架構和現有的正則化技術,可以提高模型的整體性能。例如,在樣本中添加隨機噪聲,作為一種簡單的DA方法,可以產生大量新的訓練樣本,有利于模型的魯棒性。在處理圖像數據時,采用隨機裁剪、水平翻轉和改變RGB通道強度[3]等標簽不變的數據變換可以提高性能,增強對平移、反射和光照的魯棒性。另一個例子是,使用隨機刪除[9]或裁剪[10]訓練的模型顯示出改進的正則化。在自然語言處理(NLP)應用中,同義詞替換、隨機插入、隨機交換和隨機刪除[11]是增強語言數據的主流方法。最后,生成模型如變分自編碼器(VAE)[12]和生成對抗網絡(GANs)[13]可以生成任意數量的虛假但真實的樣本,也被廣泛用于數據增強。本文關注數據增強的一個新興領域——基于Mix的數據增強(MixDA),近年來引起了大量的研究。
與傳統的基于單一實例的數據挖掘方法不同,MixDA通過組合多個實例創建虛擬訓練數據,生成大量無領域知識的訓練數據。例如,Mixup[14]從整體角度對兩個隨機采樣的訓練樣本的輸入輸出對進行線性插值。Cutmix[15]從一個圖像(源圖像)剪切一個patch,然后從局部性的角度將其粘貼到另一個圖像(目標圖像)的相應區域。后來,繼Mixup和Cutmix之后,人們通過不同的視角提出了大量MixDA的改進版本,這些版本也是本文分類的基礎,如靈活的混合比例、顯著性指導和改進的散度。由于其通用性,MixDA已成功應用于各種任務,包括半監督學習、生成模型、圖學習和NLP。此外,還提出了一些理論研究,從不同的角度來解釋MixDA。因此,是時候對MixDA的基礎、方法、應用和可解釋性進行全面的調研。為闡明后續研究,本文介紹了對當前MixDA的發現及其挑戰,以及一些有希望的未來途徑。
**相關的綜述。
在這里,我們清楚地說明了我們的綜述與相關工作之間的差異。首先,對數據增強方法[16],[17],[18],[19]進行綜述**。然而,這些綜述側重于應用各種數據增強技術的特定領域。例如,Feng等人的[16]研究了文本數據處理中的數據挖掘方法。此外,還對其他領域的數據挖掘方法進行了綜述,包括圖像識別[17]、時間序列學習[18]和圖結構數據學習[19]。盡管這些工作和我們的工作之間有輕微的重疊,但我們專注于一種特殊的DA方法,MixDA,可以在廣泛的領域中利用(參見第4節的詳細信息)。另一項類似的工作是對模型正則化[20],[21],[22],[23]的調研,其中概述了不同目的的正則化技術,如使用噪聲標簽學習[21],提高GANs[22]的性能,以及泛化到分布外數據[23]。我們的工作與這些評論是正交的,因為我們關注研究結合多個示例和利用MixDA來提高不同任務性能的方法的工作,盡管一些MixDA方法具有正則化效果[24],[25],[26]。與我們最相似的作品是[27]和[28]。前者回顧了圖像混合和圖像刪除的方法,后者回顧了圖像混合增強和其他增強策略。他們只總結了一部分基于Mix的數據增強方法,還有其他重點:(1)[27]綜述了一些基于刪除的數據增強方法,如隨機擦除[9]和捉迷藏[29];(2)[27]回顧了一些基于割的數據增強方法,如向輸入圖像隨機選擇的區域添加高斯噪聲的Patch Gaussian[30]和用0像素值掩碼/擦除輸入圖像區域的Cutout[10]。然而,這項工作將完全注意力放在基于MixDA的數據增強上,最重要的是,還提供了之前工作中沒有涉及的MixDA應用程序的徹底審查。據我們所知,這篇綜述是第一篇全面回顧MixDA技術并總結其廣泛應用范圍的工作。回顧了70多個MixDA方法(第3節)和10多個MixDA應用(第4節)。預計本綜述可以為這一令人興奮的領域的研究人員提供MixDA技術路線圖。
組織。本調研的結構如下。第2節描述了DA和MixDA的總體情況,我們還提供了MixDA的新分類法。在第3節中,我們系統地回顧了現有的方法,并討論了它們的優缺點。第4節研究了MixDA的重要應用,然后在第5節中對MixDA的可解釋性進行了分析。第6節介紹了關鍵發現和挑戰,并概述了潛在的研究方向。最后,在第7節對本文工作進行總結。
Mixup數據增強分類
本文提出了MixDA方法的第一個分類。將現有研究分為三類:(1)從全局角度混合訓練樣本的方法,以前沿工作Mixup[14]為代表;(2)通過以Cutmix[15]為代表的局部性視角構建新數據的方法;(3)其他基于混合原理但不能簡單歸為上述兩類的技術,如與數據重構混合、集成多個MixDA解決方案。我們提出的分類法背后的原理如下。Mixup及其變體通常開發一個全局的Mix方案,并將其應用于所有特征。例如,Mixup從Beta分布中提取混合比例,創建的示例中的每個特征都是兩個采樣的訓練示例的相應特征的線性組合,以鼓勵模型從全局角度理解數據。相比之下,Cutmix及其自適應方法從一個實例中截取部分特征,然后將其粘貼到另一個示例上,以提高模型的本地化能力。此外,有許多混合工作集成了多種MixDA方法或將MixDA與其他SsDA方法相結合。例如,RandomMix[31]通過從每個小批量的MixDA方法集合中采樣的mix操作創建增強的數據。類似地,AugMix[32]通過SsDA為每個樣本構造多個版本,然后通過MixDA將它們混合。在本節中,我們回顧了各種各樣的基于mix的策略,這些策略可以分為三組:(1)Mixup[14]及其變體,從整體角度混合了多個示例,(2)Cutmix[15]及其通過局部性的角度結合多個示例的適應性,以及(3)其他MixDA方法,如mix wit本身,結合多種基于mix的方法,以及將MixDA與SsDA集成。表2總結了常用的基準測試和相應的任務。
在本節中,我們將回顧MixDA的廣泛應用,如半監督學習、生成模型、收縮學習和NLP。表4總結了具有代表性的應用和相應的基準。
Mixda的可解釋性分析
盡管許多MixDA方法已被成功用于解決一系列應用,但尚不清楚這些方法的原理和工作原理。在本節中,我們系統地概述了MixDA的可解釋性基礎,重點從3個不同方面解釋了為什么混合樣本有助于泛化:(1)鄰近風險最小化(VRM),(2)正則化,以及(3)不確定性和校準。此外,我們還提供了一些MixDA工作良好的原因的解釋。
結論
數據增強一直是機器學習和深度學習研究中的一個重要研究課題。通過對技術、基準、應用和理論基礎的深入分析,系統地回顧了基于mix的數據增強方法。首先,我們為MixDA方法引入了一種新的分類。在這種情況下,一個更細粒度的分類法根據現有MixDA方法的動機將它們分為不同的組。然后,我們徹底回顧了各種MixDA方法,并回顧了它們的優點和缺點。此外,我們全面調研了十余類MixDA應用。此外,本文分別從ERM、正則化和不確定性&校準的角度為讀者提供了對MixDA的理論檢驗,同時通過檢驗MixDA的關鍵性質來解釋MixDA的成功。最后,總結了MixDA研究的重要發現、發展趨勢和現有研究面臨的主要挑戰,并展望了該領域未來的研究機遇。通過這篇綜述,希望研究人員和從業人員能找到MixDA方法及其應用的技術手冊,以及解決基本問題和推進該領域的方向。
隨著對廣義深度模型的迫切需求,許多預訓練大模型被提出,如BERT、ViT、GPT等。受這些模型在單一領域(如計算機視覺和自然語言處理)成功的啟發,多模態預訓練大模型近年來也引起了越來越多的關注。在這項工作中,我們對這些模型進行了全面的綜述,希望本文能夠提供新的見解,幫助新的研究人員跟蹤最前沿的工作。**具體而言,我們首先通過回顧傳統深度學習、自然語言過程、計算機視覺和語音中的預訓練工作,介紹了多模態預訓練的背景;然后,我們介紹了多模態預訓練模型(MM-PTMs)的任務定義、主要挑戰和優勢,并討論了MM-PTMs,重點是數據、目標、網絡架構和知識增強的預訓練。**在此之后,我們介紹了用于大規模MM-PTMs驗證的下游任務,包括生成、分類和回歸任務。我們還對典型下游任務的模型參數和結果進行了可視化和分析。最后,我們指出了本課題可能的研究方向,對今后的工作有所裨益。此外,我們維護了一個持續更新的大規模預訓練多模態大模型的論文列表://github.com/wangxiao5791509/MultiModal BigModels survey
1. 引言
隨著AlexNet[1]在ImageNet比賽[2]上的識別性能的突破,人工智能有了很大的發展。提出了許多具有代表性的深度神經網絡,如VGG[3]、ResNet[4]、Inception[5]、LSTM[6]等。研究人員通常為他們的任務收集和注釋一些樣本,并基于大規模數據集上預訓練的基座訓練他們的模型(例如用于計算機視覺的ImageNet[2],用于自然語言處理的Glove[7]和Skip-thought vectors[8])。與傳統的手工功能相比,許多任務都可以通過這種端到端方式很好地解決,例如目標檢測、分割和識別。然而,所得到的深度模型泛化能力仍然有限。收集和注釋一個更大的數據集可以在一定程度上解決這些問題,但這個過程是昂貴和乏味的。 為了解決這個問題,Ashish等人提出了Transformer網絡[9],該網絡在機器翻譯任務上取得了新的SOTA(最先進的)性能。之后,在大規模語料上進行自監督預訓練,然后在下游任務上進行微調,吸引了越來越多研究者的關注。許多預訓練的大模型都是遵循這樣的范式提出的,如BERT [10], GPT [11,12], T5 [13], XLNet[14],也引發了CV領域預訓練的新研究熱點。越來越多的大規模NLP和CV模型通過預訓練和微調范式展示了強大的效果,包括ViT[15]和Swin-Transformer[16]。
盡管這一進展為人工智能的發展帶來了新的動力,然而,單模態缺陷所帶來的問題仍然難以解決。研究人員試圖納入更多模態來彌合深度模型的數據差距。許多基于多模態融合的任務也采用傳統的深度學習方式進行探索,如RGB、深度、自然語言、點云、音頻、事件流等。許多大規模預訓練多模態模型[17-23]被提出,這些模型在下游任務上相繼設置新的SOTA,如圖1所示。文中對這些工作進行了全面的綜述,旨在幫助感興趣的研究者快速了解該領域的歷史和最新發展。
綜述組織。文中首先回顧了多模態預訓練技術的研究背景,從傳統的深度學習范式到單模態任務的預訓練,包括自然語言處理、計算機視覺和自動語音處理。然后,在3.1節和3.2節中,重點介紹MM-PTMs,并描述任務定義、關鍵挑戰和好處。在以下子節中還將審查關鍵組件,包括大規模數據、網絡架構、優化目標和知識增強的預訓練。為了驗證預訓練模型的有效性,使用許多下游任務進行定量評估。在第4節中,詳細回顧了這些任務的任務定義和評估指標。在第5節中,我們回顧了用于訓練的模型參數和硬件,并報告了幾個代表性下游任務的實驗結果。最后,在第6節中,總結了本綜述并提出了多個需要研究的研究方向。這個綜述的架構如圖2所示。
與現有評論的區別。雖然已經有兩項針對MM-PTMs的綜述[24,25],但我們的綜述與現有綜述之間的差異可以總結如下: * 范圍:現有的多模態綜述[24,25]只關注視覺-語言,然而,多模態信息問題是一個更廣泛的研究主題。本文比上述綜述更全面,引入了更多的模態,如音頻、視頻、表格等。 * 時效性:本文介紹了針對多模態預訓練提出的最新數據集和算法(從2019年到2022年6月),這是一個很長的綜述,同時,他們的工作屬于短論文。 * 對MM-PTMs的新見解:通過從不同的角度對現有MM-PTMs進行分類和分析,本文可以幫助讀者從詳細和高層次的角度掌握最前沿的方法和技術。此外,提出的MM-PTMs研究方向是經過深思熟慮的,將為后續研究提供新的線索。
2. 多模態預訓練
**任務的定義。**通常,深度神經網絡是在大規模數據集上進行訓練的,例如,廣泛使用的殘差網絡[4]是在ImageNet數據集[2]上使用分類任務進行預訓練的。相比之下,多模態預訓練大型模型通常在大規模訓練數據集上進行訓練。通常,這些數據由于規模太大而無法標注,因此沒有標注標簽。另一方面,參數需要達到一定的規模。如圖4所示,多模態數據、大模型和計算能力是緊密聯系的。總之,多模態預訓練通常是指在計算能力的支持下,對海量多模態數據進行無監督的預訓練,即具有大量參數的多模態模型。
與單模態預訓練大模型相比,MM-PTMs更適合實際應用場景。具體而言,MM-PTMs可以很好地解決多模態協同生成、模態補全、跨域檢索等問題。同時,多模態數據包含更多的信息,可以彌補單一模態的缺陷。因此,MM-PTMs有助于提取多模態的共同特征。最近的許多工作表明,MM-PTMs的使用確實帶來了額外的先驗知識[76-78]。與小規模的多模態模型相比,通過自監督/無監督學習得到的MM-PTMs的泛化能力顯著提高。由于一些先驗知識僅包含在海量的大數據中,而人工選擇的少量標注數據存在偏差,因此小規模模型很難掌握這些知識。
預訓練數據集
如表2所示,針對預訓練任務提出了許多大規模多模態數據集。在本小節中,我們將簡要介紹這些數據集,以幫助讀者快速掌握預訓練所需的數據信息。
預訓練目標
如何設計學習目標是多模態預訓練中非常重要的一步。目前,提出了以下學習目標,包括對比損失、生成損失等。
預訓練架構
在大規模預訓練時代,目前大多數預訓練模型的靈感來自Transformer(主要由自注意力層組成)。它最初是在2017年為自然語言處理任務[9]開發的,它在許多下游任務上大幅提高了新的SOTA性能。此類框架也被引入計算機視覺領域,因此,針對各種任務和輸入設計統一的網絡架構是當前的研究熱點。
多層transformer廣泛應用于目前許多MM-PTMs中。每個模態的輸入首先由獨立的編碼器提取作為特征嵌入,然后與其他模態進行交互。根據多模態信息融合方式的不同,MM-PTMs可分為單模態和跨模態兩類。在本小節中,我們將分別介紹這兩種架構。
目前的大規模預訓練多模態模型大多采用concate、add、Mergeattention、Co-attention和Cross-attention[132]來實現模態之間的交互學習。以下各段將介紹這些模塊。
預訓練知識利用
傳統的預訓練模型邏輯推理能力差,缺乏可解釋性。為了緩解這些問題,在預訓練模型中直接涉及知識,對數據的深入理解,即使用知識進行預訓練,也稱為知識增強預訓練模型(KEPTMs),如圖9所示。
3. 下游任務
在預訓練階段之后,研究人員通常會在許多下游任務中測試他們的模型,以驗證這種強大的能力。具體來說,驗證采用了生成任務、分類任務、回歸任務,下面將討論這些任務。快速學習作為一種新的學習范式,以修改下游任務來適應預先訓練好的大模型為目標,受到越來越多的關注。本部分還對幾種有代表性的提示學習算法進行了綜述。這些下游任務的概述如圖10所示。
深度神經網絡(DNNs)已廣泛應用于圖像分類、文本生成、音頻識別和圖數據分析等各個領域。然而,最近的研究表明,DNN很容易受到對抗性攻擊。雖然在圖像和自然語言處理等領域已經有了一些關于對抗性攻防策略的研究,但由于圖數據的表示結構,仍然很難將學到的知識直接轉化為圖數據。鑒于圖分析的重要性,在過去幾年里,越來越多的研究試圖分析機器學習模型對圖數據的魯棒性。然而,現有的研究考慮了圖數據上的對抗行為,通常只關注特定類型的攻擊,并帶有特定的假設。此外,每一項工作都提出了自己的數學公式,這使得不同方法之間的比較很困難。因此,本綜述旨在提供100多篇關于圖數據對抗攻防策略的論文的總體概況,并建立一個涵蓋大多數圖對抗學習模型的統一表述。此外,我們還比較了不同的圖攻擊和防御及其貢獻和局限性,并總結了評估指標、數據集和未來趨勢。我們希望本次綜述能夠幫助填補文獻空白,促進這一有前景的新領域的進一步發展。
1. 概述
近年來,深度神經網絡(DNNs)在多個領域取得了顯著的成功,從圖像識別[55],自然語言處理[37],圖數據應用[54],[69],[117],[118],[138],到醫療保健分析[90],腦電路建模[78]和基因突變功能[143]。深度學習具有優越的性能,已被應用于自動駕駛[9]、惡意軟件檢測[106]、身份識別[107]和異常檢測[42]等多個安全和安全關鍵任務。然而,DNNs缺乏可解釋性和魯棒性,使其容易受到對抗性攻擊。Szegedy等[111]指出了DNNs在圖像分類中的敏感性。一個訓練良好的DNN的性能可以被對抗性例子顯著降低,這些例子是經過精心設計的輸入,并添加了小幅度的擾動。Goodfellow等人[51]分析了這一現象,提出了一種基于梯度的方法(FGSM)來生成對抗圖像樣本。然后提出了不同的對抗攻擊策略,以演示DNNs在各種設置[8],[19],[142]中的漏洞。例如,黑盒對抗攻擊后來基于可移植性[81],[93]和來自DNN模型[5],[16]的查詢反饋進行了探索。一些防御和檢測方法也被采用來減輕這種對抗行為[86],[102],而各種自適應攻擊繼續被提出,表明一般來說檢測/防御是困難的[3],[18]。
雖然對抗性攻防的研究越來越多,但目前的研究主要集中在圖像、自然語言和語音領域。盡管圖數據在許多實際應用中很重要,但對圖數據的研究工作仍處于初級階段。例如,在信用預測應用中,對手很容易通過與他人增加友誼連接來偽裝自己,這可能會造成嚴重的后果[33]。與非圖數據相比,圖數據的對抗分析有幾個獨特的挑戰:1)與像素值連續的圖像數據不同,圖結構是離散值的。在離散空間中設計一種有效的生成對抗例的算法是很困難的。2)對抗性擾動被設計成在圖像域中人類無法察覺的,因此可以強制一個特定的距離函數,例如對抗性和良性實例之間的p范數距離要小。然而,在圖數據中,如何定義“不可感知的”或“細微的擾動”需要進一步的分析、測量和研究。
鑒于圖在大數據背景下應用的重要性以及圖神經網絡(GNNs)的成功使用,GNNs的魯棒性吸引了學術界和工業界的極大興趣。近年來,人們對一組GNN模型的對抗性攻擊和防御進行了很多研究。本文的目的是對現有的關于圖數據的對抗學習文獻進行綜合分類,開發一個框架來統一大多數現有的方法,并探索未來的趨勢。所有相關的攻擊和防御研究都列在表3和表4中,主要基于任務、策略、基線、評估指標和數據集。盡管在過去三年中發表了100多篇論文,但到目前為止仍有一些挑戰沒有得到解決,我們在此貢獻總結和介紹如下。
全面的理解。據我們所知,這項調查是第一次嘗試對圖數據的對抗性攻擊和防御的文獻進行深入和全面的理解。[21],[29],[64],[66],[72],[151],[174]的后續研究都引用了它。本文不僅為GNNs背景下的關鍵對抗性攻防技術提供了廣闊的視角和指導,還解釋了與非梯度和非模型方法相關的許多觀察結果,并對未來的發展方向提出了見解。
在線更新的資源。我們創建了一個包含所有相關作品的開源資源庫,并在過去兩年對其進行了更新。該庫包含所有相關論文和相應代碼的鏈接,這使研究人員更容易使用和跟蹤最新進展,并可作為該領域的基準庫。然而,這些論文中的許多是預印本和報告,提供了研究結果的預覽,我們將繼續跟蹤它們,并將任何更新編入相應的知識庫。我們希望這個資源可以促進對這一重要話題的進一步研究,并繼續照亮未來研究和發展的各個方面。
定義統一的問題。雖然針對圖數據的攻擊和防御策略多種多樣,但還沒有統一的方法來描述它們之間的關系和屬性;每個模型似乎都是一種獨特方法的結果。為了便于理解現有模型和高效開發未來技術,有必要建立良好的基礎。在本文中,我們率先建立了一個統一的表述和定義,系統地分析了所有針對圖數據的對抗攻擊模型。與攻擊不同的是,對圖數據的防御通常超越對抗學習,我們根據它們的獨特策略提供額外的類別。
圖數據對抗分析的分類學。到目前為止,已有一百多篇論文研究圖表數據的對抗分析。與圖像數據和文本數據相比,圖數據的分析由于圖結構和任務的不同而更加復雜。列出所有的論文可以幫助讀者快速理解不同研究之間的相似和差異,但不是直觀的。為此,我們基于GNN和Non-GNN方法對已有的研究成果進行了總結,旨在幫助讀者輕松找到最相關的論文。我們在表1中展示了我們的分類法的更多細節。
數據和指標。由于以往攻防工作的目標和使用的數據不同,不同研究的結果很難進行比較。目前,還沒有人能直接回答“在這個領域,哪種攻擊或哪種防御是最好的基準測試?”緩解這一問題的唯一方法是像其他領域一樣建立一個基準[35],[120]。為此,我們不僅根據不同的標準為以前的方法開發分類法,而且還總結了經常使用的相應數據集和指標。我們希望這項研究可以為社會各界在這一領域的未來研究和模型的實際選擇奠定一個基準。
本綜述的其余部分組織如下:第2節提供了圖數據和常見應用的必要背景信息。第3節給出了統一的問題表述,并討論了現有的針對圖數據的對抗攻擊工作。第四節討論了現有的圖形數據防御工作。第5節總結了不同研究中使用的評估和攻擊指標。第6節描述了每個數據集的詳細信息,并總結了跨數據集的現有工作。最后一節是本文的總結。
2. 圖數據的對抗性攻擊
在本節中,我們給出了圖數據對抗性攻擊的一般定義和分類,然后介紹了不可感知度量、攻擊類型、攻擊任務和攻擊知識級別。
3. 圖數據的對抗性防御
近年來,針對對抗攻擊的密集研究也引發了對抗防御的研究。在這里,我們調研了這方面的現有工作,并將它們分為兩個流行的類別: 對抗性訓練和攻擊檢測。在它們之后,我們使用額外的“其他方法”小節來總結其余不屬于這兩個一般類別的方法。
雖然在許多領域生成并提供了大量未標記數據,但對自動理解可視化數據的需求比以往任何時候都要高。大多數現有的機器學習模型通常依賴于大量帶標簽的訓練數據來實現高性能。不幸的是,這樣的需求在真實的應用中無法滿足。標簽的數量是有限的,手動注釋數據是昂貴和耗時的。通常需要將知識從現有的標記領域遷移到新的領域。然而,模型性能會因為域之間的差異而降低(域移位或數據集偏差)。為了克服標注的負擔,領域適應(Domain Adaptation, DA)旨在緩解知識從一個領域轉移到另一個相似但不同的領域時的領域轉移問題。無監督DA (UDA)處理有標記的源域和無標記的目標域。UDA的主要目標是減少帶標簽源數據和未帶標簽目標數據之間的域差異,并在訓練過程中學習跨兩個域的域不變表示。本文首先定義了UDA問題。其次,我們從傳統方法和基于深度學習的方法兩方面概述了用于不同類別UDA的最新方法。最后,我們收集了常用的基準數據集,并報告了UDA在視覺識別問題上的最新方法的結果。
//www.zhuanzhi.ai/paper/a3132aabda946e6540ff6c1a9b745303
在這個大數據時代,產生了大量的文本、圖像、聲音和其他類型的數據。工業和研究團體對多媒體數據的自動分類、分割和回歸有很大的需求[1;2) 1。監督學習是機器學習中最普遍的一種,在不同的應用領域都取得了很大的成功。近年來,我們已經見證了深度神經網絡在一些標準基準如ImageNet[4]和CIFAR-10[5]上取得的巨大成功。然而,在現實世界中,我們經常遇到一個嚴重的問題,即缺乏用于訓練的標記數據。眾所周知,機器學習模型的訓練和更新依賴于數據注釋。此外,機器學習模型的高性能依賴于大量帶標簽的訓練數據的存在。不幸的是,在許多實際場景中,這樣的要求無法滿足,因為收集的數據有限制或沒有標簽。此外,一個主要的假設是訓練和測試數據具有相同的分布。如果背景、質量或形狀變形在不同的域之間是不同的,那么這樣的假設很容易被扭曲。此外,手動注釋數據通常非常耗時且昂貴。這給正確訓練和更新機器學習模型帶來了挑戰。因此,一些應用領域由于沒有足夠的標注數據進行訓練而沒有得到很好的發展。因此,常常需要將知識從一個已有的標簽領域轉移到一個相似但不同的、有限或沒有標簽的領域。
然而,由于數據偏置或區域移位的現象6,機器學習模型并不能很好地從一個現有的域推廣到一個新的無標記域。對于傳統的機器學習方法,我們通常假設訓練數據(源域)和測試數據(目標域)來自相同的分布,并從訓練數據中優化模型,直接應用到測試數據中進行預測。忽略訓練數據和測試數據之間的差異。然而,源域和目標域之間常常存在差異,如果存在域遷移問題,傳統方法的性能較低。因此,減輕領域遷移問題對提高模型跨不同領域的性能非常重要。
域適應(DA)是遷移學習(TL)的一種特殊設置,其目的是利用豐富的帶標簽源域的知識,為標簽有限或無標簽的目標域學習有效的預測器,同時緩解域遷移問題。近年來,DA在計算機視覺領域受到越來越多的關注,如圖1所示。每年與DA相關的論文越來越多,說明了DA應用的重要性。有三種類型的DA(有監督的、半監督的和無監督的DA),它們取決于目標域中的標簽數量。對于監督DA,所有的目標數據標簽都是可用的。對于半監督DA,部分目標數據標簽是可用的。對于無監督域適配(UDA),目標域沒有標簽。為了克服標注不足所帶來的限制,技術將有標記的源域和來自目標域的未標記樣本結合起來。此外,UDA中源域和目標域的類別數量相同,也稱為閉集域適應。
現有的域自適應方法假設源域和目標域的數據分布不同,但共享相同的標簽空間。傳統的DA方法高度依賴于從原始圖像中提取特征。隨著深度神經網絡的發展,研究人員正在利用更高性能的深度特征(如AlexNet [7], ResNet50 [8], Xception [9], InceptionResNetv2[10])來代替較低級別的SURF特征。然而,傳統方法的預測精度受到深度神經網絡[11]特征提取質量的影響。近年來,深度神經網絡方法在領域適應問題上取得了巨大的成功。特別是,對抗學習在嵌入深度神經網絡學習特征表示以最小化源域和目標域之間的差異方面表現出強大的能力[12;13)。但是,它只局限于將現有的解決方案從源域改進到目標域,而目標樣本的結構信息很難保存。此外,很難移除目標域中有噪聲的預測標簽。
本文主要研究了圖像識別中的域自適應問題。本次綜述的貢獻如下。(i)我們提出了一種基于傳統和深度學習的DA分類方法。(ii) 我們是第一個在特征選擇、分布適應和子空間學習三種不同背景下研究傳統技術的人。(iii)我們還討論了基于深度學習的方法,包括基于差異的方法、基于對抗的方法、基于偽標簽的方法、基于重構的方法、基于表征的方法和基于注意力的方法。(4)我們收集了幾個基準數據集,這些數據集在UDA中得到了廣泛的應用,并報告了最新方法的結果。本文的其余部分組織如下:在第2、3節中,我們介紹了DA問題的符號和泛化界。在第四部分,我們回顧了傳統的UDA方法。在第5節中,我們描述了用于圖像識別的深度DA方法。在第6節中,我們列出了DA的基準數據集,并報告了最新方法的準確性。
摘要
深度長尾學習是視覺識別中最具挑戰性的問題之一,其目標是從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。在過去的十年中,深度學習已經成為一種學習高質量圖像表示的強大的識別模型,并導致了一般視覺識別的顯著突破。然而,長尾類不平衡是實際視覺識別任務中普遍存在的問題,這種不平衡往往限制了基于深度網絡的識別模型在實際應用中的實用性,因為長尾類容易偏向主導類,在尾類上的表現較差。為了解決這一問題,近年來人們進行了大量的研究,在深度長尾學習領域取得了可喜的進展。鑒于該領域的快速發展,本文對深度長尾學習的最新進展進行了綜述。具體地說,我們將已有的深度長尾學習研究分為三類(即類重平衡、信息增強和模塊改進),并根據這三類對這些方法進行了詳細的回顧。之后,我們通過一種新提出的評價指標,即相對準確性,來評估它們在多大程度上解決了階級失衡問題,從而對幾種最先進的方法進行了實證分析。最后,我們強調了深度長尾學習的重要應用,并確定了未來研究的幾個有前景的方向。
引言
深度學習允許由多個處理層組成的計算模型學習具有多級抽象[1]、[2]的數據表示,并在計算機視覺[3]、[4]、[5]、[6]、[7]、[8]方面取得了令人難以置信的進展。深度學習的關鍵因素是大規模數據集的可用性、GPU的出現和深度網絡架構[9]的進步。深度神經網絡具有很強的學習高質量數據表示的能力,在圖像分類[6]、[10]、目標檢測[7]、[11]和語義分割[8]、[12]等視覺識別任務中取得了巨大的成功。
在實際應用中,訓練樣本通常表現為長尾類分布,其中一小部分類有大量的樣本點,而其他類只與少數樣本[13],[14],[15],[16]相關。然而,這種訓練樣本數量的類不平衡,使得基于深度網絡的識別模型的訓練非常具有挑戰性。如圖1所示,訓練后的模型容易偏向訓練數據量大的頭類,導致模型在數據量有限的尾類上表現不佳。因此,經驗風險最小化[20]常用實踐訓練的深度模型無法處理長尾類不平衡的現實應用,如人臉識別[21],[22],物種分類[23],[24],醫學圖像診斷[25],城市場景理解[26],無人機檢測[27]。針對長尾類的不平衡,近年來開展了大量的深度長尾學習研究,包括[15]、[16]、[28]、[29]、[30]。盡管這一領域發展迅速,但仍沒有系統的研究來回顧和討論現有的進展。為了填補這一空白,我們旨在對2021年年中之前進行的近期長尾學習研究進行全面綜述。
如圖2所示,我們根據現有方法的主要技術貢獻將其分為三類,即類重平衡、信息增強和模塊改進;這些類別可以進一步分為九個子類別:重采樣、代價敏感學習、logit調整、遷移學習、數據增強、表示學習、分類器設計、解耦訓練和集成學習。根據這一分類,我們對現有的方法進行了全面的回顧,并對幾種最先進的方法進行了實證分析,使用一個新的評價指標,即相對準確性來評價它們處理類不平衡的能力。我們通過介紹幾個真實的深度長尾學習的應用場景,并確定了幾個有前景的研究方向,可以由社區在未來探索。
我們總結了這項綜述的主要貢獻如下。
? 據我們所知,這是第一次對深度長尾學習的全面調研,將為研究人員和社區提供對深度神經網絡的長尾視覺學習的更好理解。
? 我們提供了對高級長尾學習研究的深入回顧,并通過一個新的相對準確性度量來評估它們在多大程度上處理長尾類別失衡,以實證研究最先進的方法。
? 我們為未來的研究確定了四個潛在的方法創新方向以及八個新的深度長尾學習任務設置。
第二節介紹了問題的定義,并介紹了廣泛使用的數據集、度量和網絡骨架。第3節全面回顧了先進的長尾學習方法,第4節基于一個新的評價指標實證分析了幾種最先進的方法。第5節給出了深度長尾學習的應用場景,第6節給出了未來的研究方向。我們在第7節結束調研。
數據增強是通過轉換為機器學習人工創建訓練數據,是機器學習學科中一個廣泛研究的研究領域。雖然它對于提高模型的泛化能力很有用,但它也可以解決許多其他挑戰和問題,從克服有限數量的訓練數據到規范目標到限制數據量用于保護隱私。基于對數據增強的目標和應用的精確描述以及現有的分類法作品,該調查涉及用于文本分類的數據增強方法,旨在實現簡潔和研究人員和從業人員的綜合概述。根據分類法,我們將100多種方法分為12不同的分組,并提供最先進的參考資料,闡述哪些方法非常有前途。最后,研究給出了可能構成未來工作基石的觀點。
摘要
Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer,然后提出了一個x-former的新分類。接下來,我們將從三個方面介紹不同的x -former架構修改,預訓練和應用。最后,展望了未來的研究方向。
//www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0
引言
Transformer[136]是一種出色的深度學習模型,被廣泛應用于自然語言處理(NLP)、計算機視覺(CV)和語音處理等各個領域。Transformer最初是作為一種用于機器翻譯的序列到序列模型提出的[129]。后來的工作表明,基于Transformer的預訓練模型(PTMs)[100]可以在各種任務上實現最先進的性能。因此,Transformer已經成為NLP的首選架構,特別是對于PTMs。除了語言相關的應用,Transformer也被應用于CV[13, 33, 94],音頻處理[15,31,41],甚至其他學科,如化學[113]和生命科學[109]。
由于成功,各種各樣的Transformer 變種(即x -former)在過去幾年里被提出。這些X-formers從不同的角度改進了vanilla Transformer。
(1) 模型的效率。應用Transformer的一個關鍵挑戰是它在處理長序列時效率低下,這主要是由于自注意力模塊的計算和存儲復雜性。改進方法包括輕量級注意力(例如稀疏注意變體)和分治法(例如循環和分層機制)。
(2) 模型泛化。由于Transformer是一種靈活的體系結構,并且很少對輸入數據的結構偏差進行假設,因此很難對小規模數據進行訓練。改進方法包括引入結構偏差或正則化、對大規模無標記數據進行預處理等。
(3) 模型的適應。該工作旨在使Transformer適應特定的下游任務和應用程序。
在這個綜述中,我們的目的是提供一個Transformer及其變體的全面綜述。雖然我們可以根據上面提到的觀點來組織x-former,但許多現有的x前輩可能會解決一個或幾個問題。例如,稀疏注意變量不僅降低了計算復雜度,而且在輸入數據上引入了結構先驗,緩解了小數據集上的過擬合問題。因此,將現有的各種X-formers進行分類,并根據它們改進Transformer的方式提出新的分類方法會更有條理: 架構修改、預訓練和應用。考慮到本次綜述的受眾可能來自不同的領域,我們主要關注于一般的架構變體,而只是簡單地討論了預訓練和應用的具體變體。
到目前為止,基于普通Transformer的各種模型已經從三個角度被提出:架構修改的類型、預訓練的方法和應用。圖2給出了Transformer變種的分類說明。
盡管“x-formers”已經證明了他們在各種任務上的能力,但挑戰仍然存在。除了目前關注的問題(如效率和泛化),Transformer的進一步改進可能在以下幾個方向:
(1) 理論分析。Transformer的體系結構已被證明能夠支持具有足夠參數的大規模訓練數據集。許多工作表明,Transformer比CNN和RNN有更大的容量,因此有能力處理大量的訓練數據。當Transformer在足夠的數據上進行訓練時,它通常比CNN或RNN有更好的性能。一個直觀的解釋是,Transformer對數據結構沒有什么預先假設,因此比CNN和RNN更靈活。然而,理論原因尚不明確,我們需要對Transformer能力進行一些理論分析。
(2) 注意力機制之外的全局交互機制更加完善。Transformer的一個主要優點是使用注意力機制來建模輸入數據中節點之間的全局依賴關系。然而,許多研究表明,對大多數節點來說,完全注意力是不必要的。在某種程度上,不可區分地計算所有節點的注意力是低效的。因此,在有效地建模全局交互方面仍有很大的改進空間。一方面,自注意力模塊可以看作是一個具有動態連接權的全連接神經網絡,通過動態路由聚合非局部信息; 因此,其他動態路由機制是值得探索的替代方法。另一方面,全局交互也可以通過其他類型的神經網絡來建模,比如記憶增強模型。
(3) 多模態數據統一框架。在許多應用場景中,集成多模態數據對于提高任務性能是非常有用和必要的。此外,一般的人工智能還需要能夠捕獲跨不同模式的語義關系。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大的成功,我們有機會建立一個統一的框架,更好地捕捉多模態數據之間的內在聯系。但是,在設計中對模式內和模式間的注意還有待改進。
隨著高計算設備的發展,深度神經網絡(DNNs)近年來在人工智能(AI)領域得到了廣泛的應用。然而,之前的研究表明,DNN在經過策略性修改的樣本(稱為對抗性樣本)面前是脆弱的。這些樣本是由一些不易察覺的擾動產生的,但可以欺騙DNN做出錯誤的預測。受圖像DNNs中生成對抗性示例的流行啟發,近年來出現了針對文本應用的攻擊DNNs的研究工作。然而,現有的圖像擾動方法不能直接應用于文本,因為文本數據是離散的。在這篇文章中,我們回顧了針對這一差異的研究工作,并產生了關于DNN的電子對抗實例。我們對這些作品進行了全面的收集、選擇、總結、討論和分析,涵蓋了所有相關的信息,使文章自成一體。最后,在文獻回顧的基礎上,我們提出了進一步的討論和建議。
【導讀】由于深度神經網絡具有強大的學習不同層次視覺特征的能力,因此被廣泛應用于目標檢測,語義分割,圖像描述等計算機視覺應用當中。從ImageNet這樣的大型圖像數據集中訓練得到的模型被廣泛地用作其他任務的預訓練模型,主要有兩個原因:(1)從大規模數據集中學習得到的參數能夠為其他模型提供一個良好的訓練起點,在其他任務上模型網絡可以更快地收斂。(2)在大規模數據集上訓練的網絡已經學習到了層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務的數據集較小或標注數據不足的情況。
介紹
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
用于圖像特征學習的架構
1.AlexNet:與以往的方法相比,AlexNet極大的提高了在ImageNet數據集上的圖像分類性能。AlexNet架構總共有8層,其中的5層是卷積層,3層是全連接層。ReLU激活函數被運用在每一個卷積層后面。
2.VGG:該模型贏得了ILSVRC2013挑戰賽的第一名。其中的VGG-16由于模型尺寸適中,性能優越,被廣泛使用。
3.ResNet:該網絡闡述了網絡越深越能夠獲得良好的性能。但是由于梯度消失和梯度爆炸,深度神經網絡很難訓練。ResNet使用跳躍連接把前一層的特征直接傳遞到下一個卷積塊來克服梯度消失和梯度爆炸的問題。
4.GoogleNet:22層的深度網絡,以93.3%的準確率贏得了ILSVRC-2014挑戰賽。和之前的網絡相比,它擁有更深的網絡。GoogleNet的基礎模塊inception塊由4個平行的卷積層組成,這4個卷積層的卷積核尺寸不同,每層后面都有一個1x1的卷積操作來降低維度。
5.DenseNet:大多數網絡包括AlexNet, VGG和ResNet都遵循層次結構。圖像被輸入到網絡中,由不同的層提取特征。淺層提取低級的一般性特征,而深層提取特定于任務的高級特征。然而,當一個網絡變得越來越深的時候,更深的網絡層可能會記住完成任務所需的底層特征。為了避免這一問題,DenseNet通過稠密連接將一個卷積塊之前的所有特征作為輸入輸送到神經網絡中的下一個卷積塊。
視頻特征學習架構
Spatiotemporal Convolutional Neural Network
三維卷積運算最早是在3DNet中提出的,用于人類行為識別。與2DConvNets分別提取每一幀的空間信息,然后將它們融合為視頻特征相比,3DConvNets能夠同時從多個幀中同時提取空間和時間特征。
隨著三維卷積在視頻分析任務中的成功應用,出現了3DConvNet的各種變體。比如Hara等人提出了3DResNet,將ResNet中所有的2D卷積層替換為3D卷積層。實驗表明,在多個數據集上,3D卷積層的性能更為優異。
Recurrent Neural Network(RNN)
由于RNN能夠對一個時間序列數據進行動態建模,所以RNN通常被應用于視頻的有序幀序列當中。和標準的RNN相比,LSTM使用內存單元來存儲,修改和訪問內部狀態,從而更好的對視頻幀之間的長時間序列進行建模。基于LSTM的優勢,Donahue提出了long-term recurrent convolutional networks (LRCN)用于人類行為識別。
數據集介紹
1.圖像數據集
2.視頻數據集
YFCC100M:該數據集是從Flicker上收集的多媒體數據集,由1億條多媒體數據組成,其中的99200000條數據是圖片,剩余的800000條數據是視頻。
SceneNet RGB-D:該數據集是一個大型的室內視頻合成數據集。
Moment in Time:該數據集是一個用于視頻內容理解的數據集,內容多樣且分布均衡。
Kinetics:該數據集規模大,質量高,用于人類行為識別。
AudioSet:該數據集由來自YouTube的2084320條人工標記10秒的聲音剪輯組成,這些視頻涵蓋了632個音頻事件。
KITTI:該數據集是在駕駛汽車時收集的,收集數據時的裝備有各種傳感器,包括高分辨率RGB相機、灰度立體聲相機、3D激光掃描儀和高精度GPS測量。
UCF101:該數據集被廣泛使用于人類動作識別。
HMDB51:相比于前面的數據集,該數據集是一個小規模的視頻數據集,用于人流動作識別。