圖數據上的持續學習最近引起了廣泛關注,其目的是在使現有模型適應新出現的圖任務的同時,解決現有任務上的災難性遺忘問題。雖然已經有人努力總結歐氏數據(如圖像和文本)上的持續學習研究進展,但仍然缺乏對持續圖學習工作的系統綜述。圖數據在數據結構和應用場景方面要復雜得多,使得持續的圖學習任務設置、模型設計和應用極其復雜。為解決這一差距,本文對現有的持續圖學習工作進行了全面的回顧,闡明了不同的任務設置,并根據所采用的技術對現有工作進行了分類。本文將持續圖學習工作與傳統持續學習工作進行比較,分析傳統持續學習技術對持續圖學習任務的適用性。回顧了對持續圖學習研究至關重要的基準工作。最后,討論了尚存的挑戰,并提出了未來的研究方向。
1. 引言
傳統的圖學習通常假設圖是靜態的。然而,在現實世界的大多數應用中,包括節點層學習任務和圖層學習任務,圖的規模或數量都會不斷增長,期望模型不斷適應新出現的模式,而不會忘記之前學習過的知識。例如,在引文網絡中,新的研究論文類別(圖節點)和伴隨的引文類別(圖邊)會不斷出現,在其上工作的文檔分類器希望能夠不斷適應新數據的分布,同時保持對以前觀察到的數據分布的學習知識[1],[2]。在藥物發現研究中,可能會間歇性地發現新的分子性質和分子類別,而分子性質預測器必須在不失去對以前的分子類別或性質[1]、[3]的預測能力的情況下,為新的模式擬合其參數。在這種持續學習場景中,一種樸素的方法是每當有新任務到來時,只使用新數據訓練模型。但不斷適應新任務的模型會遭遇災難性遺忘問題,即學習新任務后對先前任務的性能嚴重下降。另一種直觀的方法是在包含所有先前觀察到的數據的整個數據集上重新訓練模型。然而,由于較高的再訓練成本和潛在的隱私問題,該策略不可行。
鑒于此,持續圖學習(CGL)最近受到越來越多的關注,它旨在不斷地學習新的任務,而不忘記以前已經學習過的知識。由于圖數據的復雜性,現有持續學習工作在目標圖類型、學習設置、基礎技術和評價指標等方面具有高度異構性。首先,技術工作可能提出通用技術或針對特定應用場景(如知識圖譜、推薦系統等)的專用技術。其次,根據測試過程中任務標識的可用性,連續的圖學習工作可能采用不同的設置,包括任務增量(taskIL)、域增量(domain-IL)和類增量(class-IL)。除了增量設置外,圖學習任務還可能關注不同的粒度,包括節點級任務和圖級任務。第三,不同工作采用的技術遵循不同的主流,包括正則化、內存重放和參數隔離。最后,與標準的學習環境不同,連續圖學習模型的性能從整體性能、性能下降(遺忘)、任務間干擾等多個角度考慮。因此,根據研究目標的不同,不同的工作可能會采用不同的指標來評價模型。連續圖學習工作的這些正交維度令人困惑,并為研究人員進入該領域制造了巨大的障礙。
為此,本文從上述角度對現有方法進行了系統綜述。論文的其余部分組織如下。在第3節中,從基本概念、骨干模型框架、任務序列構建、任務粒度、增量場景以及評估指標等角度解釋了持續圖學習的問題設置。在第四部分中,我們首先系統地回顧了持續學習技術的研究進展,包括基于正則化的方法、基于記憶回放的方法和基于參數隔離的方法,然后分析了傳統持續學習技術的適用性;在第6節中,介紹了最近提出的基準工作,旨在提供一致的實驗環境和公平的性能比較平臺。然后,分析了傳統持續學習技術對持續圖學習任務的適用性;最后,我們還介紹了基準工作,為比較不同技術提供了一個公平的平臺。最后,在第7節中,討論了CGL研究面臨的挑戰和有希望的未來方向。
2. 問題設置
與歐氏數據上的持續學習不同,持續圖學習(continuous Graph learning, CGL)關注更復雜的任務配置。例如,在一些應用中,學習是在一個不斷增長的圖上進行的,每個新任務都是附加在現有圖上的一個子圖。而在其他場景中,任務可能是圖級別的任務,每個新任務都是一組獨立的圖。在本節中,我們首先提供持續學習過程的一般性公式,然后根據這些公式推導出不同的特定學習場景。
根據測試過程中是否提供任務標識以及是否需要模型來獲取任務標識,持續圖學習以及經典的持續學習可以分為任務增量學習(task- il)、領域增量學習(domain-IL)和類增量學習(class-IL)。
2.1 Task-IL
在task- il中,任務標識在測試期間顯示給模型,因此模型不需要識別給定的任務。對于分類任務,現有模型通常增加其輸出維度以適應新任務,并且在測試期間僅激活每個給定任務的相應維度。例如,在分子特性預測任務中,每個新任務都可以預測新特性的存在。
2.2 Domain-IL
Domain-IL比task- il更具挑戰性,因為它在測試過程中不提供任務標識。但是它也不需要識別給定的測試任務。在這種情況下,模型輸出維度的語義含義通常是固定的,新任務被視為來自新領域的數據。例如,在知識圖譜上持續學習的一個可能場景是在具有不同實體和關系的圖上連續學習,而預測任務總是三元組的完成。一些工作還考慮了時間增量場景,將時間序列數據劃分為不同的時間段作為不同的任務。然而,由于模型輸出的語義在不同的任務中是相同的,該場景本質上是domain-IL的實例化,不同的時間段本質上是不同的域。
2.3 Class-IL
Class-IL是三種場景中最具挑戰性的。在測試過程中,任務標識是不可訪問的,模型必須識別給定的任務。對于分類任務,當新類別到達時,模型通常增加輸出維度,并必須在所有學習的類別中選擇正確的類別,而不像任務il只需要區分已知任務中的類別。
3. 方法
與傳統的持續學習類似,持續圖學習也從限制模型參數的變化、隔離和保護對先前學習任務重要的參數、重放先前任務中的代表性數據以提醒模型先前學習的模式等角度來解決問題。然而,持續圖學習的一個關鍵挑戰是必須妥善保存數據的拓撲結構,這是圖數據中包含的重要信息。
3.1 基于正則化的方法
由于遺忘的原因是為之前的任務訓練的模型參數在適應新任務后發生了修改,傳統的基于正則化的方法[48]、[49]增加了懲罰項以防止參數發生劇烈變化。然而,這些方法并不能顯式地保留圖數據的拓撲結構。針對這一不足,拓撲感知的權重保持(TWP)[1]提出通過對模型權重的正則化來顯式保留在之前任務中學習到的拓撲.
3.2 基于內存重放的方法
基于記憶回放的方法通過使用前一任務中的代表數據重新訓練模型來防止遺忘。傳統的持續學習方法處理個體數據時無需交互,只需要簡單地采樣并存儲在緩沖區中即可。然而,對于圖的學習,基于內存重放的方法會遇到內存爆炸的挑戰[3]。在生成節點(數據)的表示時,圖神經網絡(GNNs)通常聚合來自多跳鄰居的信息。因此,為了重新生成單個節點的表示,必須存儲來自指數擴展鄰域的信息。在稠密圖上,內存消耗很容易成為難以處理的問題。由于這一挑戰,經驗回放圖神經網絡(ER-GNN)[38]直接忽略圖的拓撲結構,僅存儲單個節點的屬性來重新生成表示。
3.3 參數隔離方法
最后一類是基于參數隔離的方法,通過對不同任務完全或部分分離模型參數來保護模型在之前任務上的性能。現有的基于參數隔離的連續圖學習方法很少,代表性的方法是分層原型網絡(Hierarchical Prototype Networks, HPNs),它提出動態增加特征提取器和原型以適應新模式。具體來說,HPNs由一組用于從給定數據中提取基本特征的原子特征提取器(AFEs)和3層用于存儲學習到的模式的分層原型組成。對于給定的輸入節點,AFEs首先根據節點屬性及其鄰域關系提取基本特征;因此,AFEs由兩部分組成。一組AFEs,稱為AFEnode,用于根據節點屬性生成原子節點嵌入。另一個集合為AFEstruct,用于捕獲給定節點的鄰域拓撲結構,并據此生成原子結構嵌入。得到的原子嵌入對應于最基本的特征,然后將根據其余弦相似度與現有的原子級原型(A -原型)進行匹配。
4. CGL模型的評估
與標準學習環境只關注一個任務不同,持續學習模型的評價必須考慮模型在所有學習任務上的表現。因此,評價一個持續學習模型最有效的方法就是在學習完一個新任務后,展示它在以前的每一個任務上的表現。 性能矩陣包含整個學習過程中的原始性能。在此基礎上,研究人員采用了多種不同的評價指標。例如,考慮到性能矩陣不適用于不同方法的性能比較,可以使用[3]的平均性能(AP)和平均遺忘(AF)。這兩個指標在CGL以及傳統的持續學習工作中被廣泛采用,但在不同的工作中名稱可能不同。例如,在[53]、[60]中分別命名為平均準確率(ACC)和反向遷移(BWT),在[3]、[38]中分別命名為平均性能(AP)和平均遺忘(AF),在[1]中分別命名為性能均值(PM)和遺忘均值(FM)。
**5. 機會、未來方向和討論 **
作為一個新興且快速發展的領域,CGL的研究已經取得了顯著的進展,并進入更具挑戰性和實用性的學習場景。然而,仍有許多挑戰需要解決, 包括效率和空間復雜度的權衡,對任務邊界的依賴,現有任務中節點的概念漂移問題,基于任務的知識遷移,擴展到其他模態。
《持續圖學習》教程
在過去的幾年中,圖上的深度學習在各個領域取得了顯著的進展。然而,大多數圖學習任務假設圖是靜態的,而現實世界的圖可能會不斷增長或演變。因此,研究如何在不忘記之前學習的知識的情況下,不斷地使圖學習模型適應新的模式/任務是至關重要的。為此,在本教程中,我們將介紹持續圖學習(CGL)的新領域。具體來說,我們將(1)介紹不同的持續圖學習設置,(2)提出CGL中的關鍵挑戰,(3)強調現有的CGL技術,以及(4)討論未來的方向。本教程時長為3小時,包括150分鐘的演示和30分鐘的問答。
在過去的幾年中,圖上的深度學習在各個領域取得了顯著的進展。然而,大多數圖學習任務假設圖是靜態的,而現實世界的圖可能會不斷增長或演變。因此,研究如何在不忘記之前學習的知識的情況下,不斷地使圖學習模型適應新的模式/任務是至關重要的。為此,在本教程中,我們將介紹持續圖學習(CGL)的新領域。具體來說,我們將(1)介紹不同的持續圖學習設置,(2)提出CGL中的關鍵挑戰,(3)強調現有的CGL技術,以及(4)討論未來的方向。本教程時長為3小時,包括150分鐘的演示和30分鐘的問答。
現實世界的圖通常是不斷增長或演變的。例如,新類型的論文可能會不斷添加到引文網絡中,而文檔分類器有望不斷適應并能夠對新類型的論文進行分類。在藥物設計研究中,可能會不斷地遇到具有新性質的分子,而分子性質預測器必須不斷地學習新的分子性質。現有的圖學習模型擅長學習新的模式/任務。然而,高可塑性也帶來了災難性遺忘問題,即模型在學習新任務后,對先前學習的任務的性能急劇下降。為此,CGL最近受到越來越多的關注,因此將在本教程中進行深入討論。
由于不同領域的圖形數據形式復雜,我們首先介紹CGL的形式化設置。具體來說,我們將解釋任務增量(task-IL)和類增量(class-IL)場景下的節點級任務和圖級任務。然后,基于這些設置,我們將介紹CGL的關鍵挑戰,以及與傳統的獨立數據(如圖像)上的持續學習的區別。接下來,我們將介紹現有的方法,包括專門為CGL開發的方法,以及適用于CGL的傳統持續學習方法。最后,在分析現有方法優缺點的基礎上,指出尚待解決的挑戰和未來的研究方向。
多模態學習旨在理解和分析來自多種模態的信息,近年來在監督機制方面取得了實質性進展。然而,對數據的嚴重依賴加上昂貴的人工標注阻礙了模型的擴展。與此同時,考慮到現實世界中大規模的未標注數據的可用性,自監督學習已經成為緩解標注瓶頸的一種有吸引力的策略。基于這兩個方向,自監督多模態學習(SSML)提供了從原始多模態數據中利用監督的方法。在本綜述中,我們對SSML的最先進技術進行了全面的回顧,我們沿著三個正交的軸進行分類: 目標函數、數據對齊和模型架構。這些坐標軸對應于自監督學習方法和多模態數據的固有特征。具體來說,我們將訓練目標分為實例判別、聚類和掩碼預測類別。我們還討論了訓練期間的多模態輸入數據配對和對齊策略。最后,回顧了模型架構,包括編碼器、融合模塊和解碼器的設計,這些是SSML方法的重要組成部分。回顧了下游的多模態應用任務,報告了最先進的圖像-文本模型和多模態視頻模型的具體性能,還回顧了SSML算法在不同領域的實際應用,如醫療保健、遙感和機器翻譯。最后,討論了SSML面臨的挑戰和未來的方向。相關資源的集合可以在: //github.com/ys-zong/awesome-self-supervised-multimodal-learning。
1. 引言
人類通過各種感官感知世界,包括視覺、聽覺、觸覺和嗅覺。我們通過利用每個模態的互補信息來全面了解我們的周圍環境。AI研究一直致力于開發模仿人類行為并以類似方式理解世界的智能體。為此,多模態機器學習領域[1]、[2]旨在開發能夠處理和整合來自多個不同模態的數據的模型。近年來,多模態學習取得了重大進展,導致了視覺和語言學習[3]、視頻理解[4]、[5]、生物醫學[6]、自動駕駛[7]等領域的一系列應用。更根本的是,多模態學習正在推進人工智能中長期存在的接地問題[8],使我們更接近更一般的人工智能。 然而,多模態算法往往仍然需要昂貴的人工標注才能進行有效的訓練,這阻礙了它們的擴展。最近,自監督學習(SSL)[9],[10]已經開始通過從現成的未注釋數據中生成監督來緩解這一問題。單模態學習中自監督的定義相當完善,僅取決于訓練目標,以及是否利用人工標注進行監督。然而,在多模態學習的背景下,它的定義則更為微妙。在多模態學習中,一種模態經常充當另一種模態的監督信號。就消除人工標注瓶頸進行向上擴展的目標而言,定義自我監督范圍的關鍵問題是跨模態配對是否自由獲取。
通過利用免費可用的多模態數據和自監督目標,自監督多模態學習(SSML)顯著增強了多模態模型的能力。在本綜述中,我們回顧了SSML算法及其應用。我們沿著三個正交的軸分解各種方法:目標函數、數據對齊和模型架構。這些坐標軸對應于自監督學習算法的特點和多模態數據所需的具體考慮。圖1提供了擬議分類法的概述。基于前置任務,我們將訓練目標分為實例判別、聚類和掩碼預測類別。還討論了將這些方法中的兩種或兩種以上結合起來的混合方法。
多模態自監督所特有的是多模態數據配對的問題。模態之間的配對,或者更一般的對齊,可以被SSML算法利用作為輸入(例如,當使用一種模態為另一種模態提供監督時),但也可以作為輸出(例如,從未配對的數據中學習并將配對作為副產品誘導)。我們討論了對齊在粗粒度上的不同作用,這種粗粒度通常被假定在多模態自監督中免費可用(例如,網絡爬取的圖像和標題[11]);vs有時由SSML算法顯式或隱式誘導的細粒度對齊(例如,標題詞和圖像塊[12]之間的對應關系)。此外,我們探索了目標函數和數據對齊假設的交集。 還分析了當代SSML模型架構的設計。具體來說,我們考慮編碼器和融合模塊的設計空間,將特定模式的編碼器(沒有融合或具有后期融合)和具有早期融合的統一編碼器進行對比。我們也檢查具有特定解碼器設計的架構,并討論這些設計選擇的影響。
最后,討論了這些算法在多個真實世界領域的應用,包括醫療保健、遙感、機器翻譯等,并對SSML的技術挑戰和社會影響進行了深入討論,指出了潛在的未來研究方向。我們總結了在方法、數據集和實現方面的最新進展,為該領域的研究人員和從業人員提供一個起點。
現有的綜述論文要么只關注有監督的多模態學習[1],[2],[13],[14],或單模態自監督學習[9],[10],[15],或SSML的某個子區域,例如視覺-語言預訓練[16]。最相關的綜述是[17],但它更側重于時間數據,忽略了對齊和架構的多模態自監督的關鍵考慮因素。相比之下,我們提供了一個全面和最新的SSML算法綜述,并提供了一個涵蓋算法、數據和架構的新分類法。
2. 背景知識
多模態學習中的自監督
我們首先描述了本次調研中所考慮的SSML的范圍,因為這個術語在之前的文獻中使用不一致。通過調用不同借口任務的無標簽性質,在單模態環境中定義自監督更為直接,例如,著名的實例辨別[20]或掩蓋預測目標[21]實現了自監督。相比之下,多模態學習中的情況更加復雜,因為模態和標簽的作用變得模糊。例如,在監督圖像字幕[22]中,文本通常被視為標簽,但在自監督多模態視覺和語言表示學習[11]中,文本則被視為輸入模態。
在多模態環境中,術語自監督已被用于指至少四種情況:(1)從自動成對的多模態數據中進行無標簽學習——例如帶有視頻和音頻軌道的電影[23],或來自RGBD攝像機[24]的圖像和深度數據。(2)從多模態數據中學習,其中一個模態已經被手動注釋,或者兩個模態已經被手動配對,但這個注釋已經為不同的目的創建,因此可以被認為是免費的,用于SSML預訓練。例如,從網絡爬取的匹配圖像-標題對,如開創性的CLIP[11]所使用的,實際上是監督度量學習[25],[26]的一個例子,其中配對是監督。然而,由于模式和配對都是大規模免費提供的,因此它通常被描述為自監督的。這種未經策劃的偶然創建的數據通常比專門策劃的數據集(如COCO[22]和Visual Genome[27])質量更低,噪音更大。(3)從高質量的目的注釋的多模態數據(例如,COCO[22]中的手動字幕圖像)中學習,但具有自監督的風格目標,例如Pixel-BERT[28]。(4)最后,還有一些“自監督”方法,它們混合使用免費和手動注釋的多模態數據[29],[30]。為了本次調查的目的,我們遵循自監督的思想,旨在通過打破手動注釋的瓶頸來擴大規模。因此,就能夠在免費可用的數據上進行訓練而言,我們包括了前面兩類和第四類方法。我們排除了僅顯示用于手動管理數據集的方法,因為它們在管理數據集上應用典型的“自監督”目標(例如,屏蔽預測)。
(a)監督式多模態學習和(b)自監督式多模態學習的學習范式:Top,無手動注釋的自監督預訓練;底部,對下游任務進行監督微調或線性讀出。
3. 目標函數
在本節中,我們將介紹用于訓練三類自監督多模態算法的目標函數:實例判別、聚類和掩蓋預測。最后我們還討論了混合目標。
3.1 實例判別
在單模學習中,實例判別(instance discrimination, ID)將原始數據中的每個實例視為一個單獨的類,并對模型進行訓練,以區分不同的實例。在多模態學習的背景下,實例判別通常旨在確定來自兩個輸入模態的樣本是否來自同一個實例,即配對。通過這樣做,它試圖對齊成對模式的表示空間,同時將不同實例對的表示空間推得更遠。有兩種類型的實例識別目標:對比預測和匹配預測,這取決于輸入是如何采樣的。
3.2 聚類
聚類方法假設應用經過訓練的端到端聚類將導致根據語義顯著特征對數據進行分組。在實踐中,這些方法迭代地預測編碼表示的聚類分配,并使用這些預測(也稱為偽標簽)作為監督信號來更新特征表示。多模態聚類提供了學習多模態表示的機會,還通過使用每個模態的偽標簽監督其他模態來改進傳統聚類。
3.3 掩碼預測
掩碼預測任務可以采用自動編碼(類似于BERT[101])或自動回歸方法(類似于GPT[102])來執行。
為了應對現實世界的動態變化,智能體需要在其生命周期中增量地獲取、更新、積累和利用知識。這種能力被稱為持續學習,為人工智能系統自適應發展提供了基礎。
在一般意義上,持續學習明顯受到災難性遺忘的限制,學習新任務通常會導致舊任務的性能急劇下降。除此之外,近年來出現了越來越多的進展,在很大程度上擴展了持續學習的理解和應用。人們對這一方向日益增長和廣泛的興趣表明了它的現實意義和復雜性。本文對持續學習進行了全面的調研,試圖在基本設置、理論基礎、代表性方法和實際應用之間建立聯系。基于現有的理論和實證結果,將持續學習的一般目標總結為:在資源效率的背景下,確保適當的穩定性-可塑性權衡,以及充分的任務內/任務間泛化能力。提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續學習,以及它們如何適應各種應用中的特定挑戰。通過對持續學習當前趨勢、跨方向前景和與神經科學的跨學科聯系的深入討論,相信這種整體的視角可以極大地促進該領域和其他領域的后續探索。
1. 引言
學習是智能系統適應環境的基礎。為了應對外界的變化,進化使人類和其他生物具有很強的適應性,能夠不斷地獲取、更新、積累和利用知識[148]、[227]、[322]。自然,我們期望人工智能(AI)系統以類似的方式適應。這激發了持續學習的研究,其中典型的設置是逐一學習一系列內容,并表現得就像同時觀察到的一樣(圖1,a)。這些內容可以是新技能、舊技能的新示例、不同的環境、不同的背景等,并包含特定的現實挑戰[322],[413]。由于內容是在一生中逐步提供的,因此在許多文獻中,持續學習也被稱為增量學習或終身學習,但沒有嚴格的區分[70],[227]。
與傳統的基于靜態數據分布的機器學習模型不同,持續學習的特點是從動態數據分布中學習。**一個主要的挑戰被稱為災難性遺忘[291],[292],對新分布的適應通常會導致捕獲舊分布的能力大大降低。**這種困境是學習可塑性和記憶穩定性權衡的一個方面:前者過多會干擾后者,反之亦然。除了簡單地平衡這兩方面的“比例”外,持續學習的理想解決方案應該獲得強大的泛化能力,以適應任務內部和任務之間的分布差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕松解決上述挑戰,但會產生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。
**許多努力致力于解決上述挑戰,可以在概念上分為五組(圖1,c):**參考舊模型添加正則化項(基于正則化的方法);逼近和恢復舊數據分布(基于回放的方法);顯式操作優化程序(基于優化的方法);學習魯棒和良好泛化的表示(基于表示的方法);以及使用正確設計的體系結構構建任務自適應參數(基于體系結構的方法)。該分類法擴展了常用分類法的最新進展,并為每個類別提供了細化的子方向。總結了這些方法是如何實現所提出的一般目標的,并對其理論基礎和典型實現進行了廣泛的分析。特別是,這些方法是緊密聯系的,例如正則化和重放最終糾正優化中的梯度方向,并且具有高度的協同性,例如,重放的效果可以通過從舊模型中提取知識來提高。 現實應用對持續學習提出了特殊的挑戰,可以分為場景復雜性和任務特異性。對于前者,例如,在訓練和測試中可能缺少任務oracle(即執行哪個任務),訓練樣本可能是小批量甚至一次引入的。由于數據標記的成本和稀缺性,持續學習需要在少樣本、半監督甚至無監督的場景中有效。對于后者,雖然目前的進展主要集中在視覺分類,但其他視覺領域(如目標檢測、語義分割和圖像生成)以及其他相關領域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關注,其機遇和挑戰。
**考慮到持續學習的興趣顯著增長,我們相信這項最新和全面的調研可以為后續的工作提供一個整體的視角。**盡管有一些關于持續學習的早期調研,覆蓋面相對較廣[70],[322],但近年來的重要進展并未被納入其中。相比之下,最新的調研通常只整理持續學習的局部方面,關于其生物學基礎[148],[156],[186],[227],視覺分類的專門設置[85],[283],[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據我們所知,這是第一個系統總結持續學習的最新進展的調研。基于這些優勢,我們就當前趨勢、跨方向前景(如擴散模型、大規模預訓練、視覺轉換器、具體AI、神經壓縮等)以及與神經科學的跨學科聯系,深入討論了持續學習。
主要貢獻包括:
(1) 對持續學習進行了最新而全面的綜述,以連接理論、方法和應用的進步;
(2) 根據現有的理論和實證結果,總結了持續學習的一般目標,并對具有代表性的策略進行了詳細的分類; (3) 將現實應用的特殊挑戰分為場景復雜性和任務特殊性,并廣泛分析了持續學習策略如何適應這些挑戰; (4)深入探討了當前研究趨勢和發展方向,以期為相關領域后續工作提供參考。 本文的組織如下: 在第2節中,我們介紹了持續學習的設置,包括其基本公式,典型場景和評估指標。在第3節中,我們總結了一些針對其一般目標的持續學習的理論努力。在第4節中,我們對具有代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現。在第5節和第6節中,我們描述了這些策略如何適應場景復雜性和任務特異性的現實挑戰。在第7節中,我們提供了當前趨勢的討論,交叉方向的前景和神經科學的跨學科聯系。
在本節中,我們詳細介紹了代表性持續學習方法的分類(參見圖3和圖1,c),并廣泛分析了它們的主要動機、典型實現和經驗屬性。
Regularization-based 方法
該方向的特點是添加顯式正則項來平衡新舊任務,這通常需要存儲舊模型的凍結副本以供參考(見圖4)。根據正則化的目標,這類方法可以分為兩類。
Replay-based 方法
將近似和恢復舊數據分布的方法分組到這個方向(見圖5)。根據回放的內容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰。
Optimization-based 方法
持續學習不僅可以通過向損失函數添加額外的項(例如正則化和重放)來實現,還可以通過顯式地設計和操作優化程序來實現。
Representation-based 方法
將創建和利用持續學習表示優勢的方法歸為這一類。除了早期通過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結合自監督學習(SSL)[125]、[281]、[335]和大規模預訓練[295]、[380]、[456]的優勢,以改進初始化和持續學習中的表示。請注意,這兩種策略密切相關,因為預訓練數據通常數量巨大且沒有明確的標簽,而SSL本身的性能主要通過對(一系列)下游任務進行微調來評估。下面,我們將討論具有代表性的子方向。
Architecture-based 方法
上述策略主要集中在學習所有具有共享參數集的增量任務(即單個模型和一個參數空間),這是導致任務間干擾的主要原因。相反,構造特定于任務的參數可以顯式地解決這個問題。以往的工作通常根據網絡體系結構是否固定,將該方向分為參數隔離和動態體系結構。本文專注于實現特定任務參數的方式,將上述概念擴展到參數分配、模型分解和模塊化網絡(圖8)。
深度學習模型通常限定在固定數據集中進行訓練,訓練完成之后模型無法隨著時間而擴展其行為. 將已訓練好的模型在新數據上訓練會出現災難性遺忘現象. 持續學習是一種能夠緩解深度學習模型災難性遺 忘的機器學習方法,它旨在不斷擴展模型的適應能力,讓模型能夠在不同時刻學習不同任務的知識. 目前,持 續學習算法主要分為 4 大方面,分別是正則化方法、記憶回放方法、參數孤立方法和綜合方法. 對這 4 大方面 方法的研究進展進行了系統總結與分析,梳理了衡量持續學習算法性能的評估方法,討論了持續學習的新興 研究趨勢. //www.yndxxb.ynu.edu.cn/yndxxbzrkxb/article/doi/10.7540/j.ynu.20220312?viewType=HTML 得益于更大的數據集、更強的計算能力以及 網絡結構創新,深度學習在圖像分類[1]、人臉識別[2] 等任務上已經實現了接近人類甚至超越人類的性 能. 然而大多數神經網絡只能在預先知道所有類的 批量學習設定下進行訓練直至擬合,當有新數據出 現時,必須使用全部數據重新訓練模型,以適應數 據分布變化[3] . 隨著移動設備和互聯網的飛速發展, 人們每天都會拍攝和分享大量圖片和視頻. 而從零 開始重新訓練模型是耗時且低效的,這就要求模型 擁有以序列方式進行持續學習和更新的能力,以適 應每天新產生的數據. 神經網絡從原來的批量學習模式轉變為序列 學習模式時,很容易出現對舊知識的遺忘,這意味 著,在使用新數據更新模型后,模型在先前學習的 任務中所達到的性能會急劇下降[4],出現災難性遺 忘. 早在 30 多年前,人們就在多層感知器中發現了 災難性遺忘現象[5],產生災難性遺忘的根本原因是 新任務訓練過程需要改變神經網絡權值,這不可避 免地修改了某些對于舊任務來說至關重要的權重, 使得模型不再適用于舊任務. 與此相反,人類可以 不斷學習和適應新知識,并且在自身積累新知識的 同時,也會對原有知識進行了補充和修正,學習新 知識很少會導致人類災難性地忘記之前的知識[6] . 如自然視覺系統,先前的知識得到了保留的同時, 新的視覺信息被不斷地整合到已有知識中. 為了克服災難性遺忘,學習系統一方面要在新 任務上表現出獲取新知識和提煉現有知識的能力, 另一方面要防止新任務對現有知識的顯著干擾. 持 續學習,也稱為終身學習,它建立在不斷學習外部 世界的想法之上,神經網絡通過持續學習算法能夠 漸進地學習新知識,并且保留過去學習的內容. 近 年來,如圖 1 所示,持續學習在計算機視覺領域獲 得了蓬勃發展,同時各單位也如火如荼開展著持續 學習的相關比賽[7] . 鑒于持續學習深刻的應用場景 和該領域飛速的發展,本文對持續學習的研究工作 進行綜述,從而幫助讀者掌握持續學習研究的最新 趨勢.
本文考慮圖遺忘學習問題,將圖神經網絡模型訓練到指定的準確度,然后部署圖神經網絡模型,同時一系列請求到達,從模型中刪除圖元素(節點、邊)。隨著GNN模型在現實世界中的應用,解決這個問題變得越來越重要——例如,當用戶試圖隱藏他們在社交圖中與其他人的聯系時,或者當知識圖譜中的關系變得不相關或不再真實時。
要從經過訓練的GNN中刪除信息,必須從模型中刪除其對GNN模型權重以及對圖中鄰居表示的影響。然而,現有的通過再訓練和權重修改的方法要么降低了所有節點共享的模型權重,要么由于刪除的邊對局部圖鄰域的強依賴性而失效。認識到這些陷阱,本文以刪除邊一致性和鄰域影響的形式形式化了圖遺忘學習所需的屬性,并開發了GNNDelete,一種與模型無關的逐層算子,為遺忘學習任務優化這兩個屬性。 GNNDelete更新潛在表示,從模型中刪除節點和邊,同時保持學到的其余知識的完整性。在6個真實世界和2個知識圖譜上的實驗表明,與現有的圖忘記模型相比,GNNDelete在鏈路預測任務上的AUC最高可達36.9%,在區分刪除邊和未刪除邊的AUC最高可達22.5%。GNNDelete高效——例如,與在大型知識圖譜上從頭開始訓練相比,它需要的時間減少12.3倍,空間減少9.3倍。
圖神經網絡(GNN)在現實世界中的應用越來越多,在大多數部署的GNN中,底層圖會隨著時間的推移而變化。傳統的機器學習方法通常是離線工作的,其中模型使用完整的訓練數據集進行一次訓練,然后鎖定用于推理,對模型進行少量更新。相比之下,在線訓練可以在新的訓練數據點可用時使用它們更新模型。然而,離線和在線學習都無法處理數據刪除——即在不犧牲模型性能的情況下從模型中刪除數據點的所有痕跡的任務。當需要從模型中刪除數據時,模型必須進行相應的更新。例如,GNN必須實施保護個人隱私的隱私條款(如加州消費者隱私法(CCPA)和通用數據保護條例(GDPR)),這意味著賦予GNN數據刪除能力是重要的,但在文獻中研究較少。 然而,設計圖遺忘學習方法是具有挑戰性的。僅刪除數據不足以滿足最近對增加數據隱私的要求,因為在原始數據上訓練的模型可能仍然包含有關其模式和特征的信息。一種簡單的方法是刪除數據并從頭開始重新訓練模型。然而,這可能非常昂貴,特別是在大型數據集上。 本文提出GNNDelete,一種用于圖遺忘的通用方法。我們形式化了兩個關鍵的GNN刪除屬性: * 刪除邊的一致性:未學習模型刪除邊的預測概率應該與不存在邊的預測概率相似。該屬性強制GNNDelete刪除被刪除的邊偽裝成未連接的節點等信息。 * 鄰域影響:在圖的刪除和Granger因果關系之間建立聯系,以確保刪除后的局部子圖不受影響,從而保持原始的預測依賴關系。然而,現有的圖刪除方法沒有考慮這一本質屬性,即沒有考慮局部連通性的影響,導致次優刪除。
利用這兩個屬性,我們開發了GNNDelete,一個逐層刪除操作符來更新節點表示。當接收刪除請求時,GNNDelete凍結模型并學習在所有節點中共享的額外的小門控權重矩陣。與現有方法不同,現有方法試圖從頭開始重新訓練幾個小型模型或直接更新模型權重,這可能是低效和次優的,GNNDelete使用小型可學習矩陣進行推理,而不改變GNN模型權重,實現了效率和可擴展性。為了優化GNNDelete,指定了一個新的目標函數,滿足刪除邊的一致性和鄰域影響,產生強的整體刪除。
圖在表示關系數據(如化合物、蛋白質和社交網絡)方面具有卓越的能力。因此,圖級學習以一組圖作為輸入,已應用于許多任務,包括比較、回歸、分類等。傳統的圖學習方法往往依賴于手工設計的特征,如子結構。但是,雖然這些方法受益于良好的可解釋性,但它們往往遭受計算瓶頸,因為它們不能繞過圖同構問題。相反,深度學習通過自動提取特征并將圖解碼為低維表示,幫助圖級學習適應不斷增長的圖規模。**因此,這些深度圖學習方法取得了許多成功。然而,沒有一個全面的調研來回顧從傳統學習到深度學習方法的圖級學習。本文填補了這一空白,并將具有代表性的算法框架化為一個系統的分類,包括傳統學習、圖級深度神經網絡、圖級圖神經網絡和圖池化。為了確保一個徹底的全面的綜述,從四個不同的分支的開發方法之間的演變,交互和交流也被檢查。**接下來簡要回顧基準數據集、評估指標和常見的下游應用。該調研總結了13個必要研究的未來方向,這些研究將有助于克服這一蓬勃發展的領域面臨的挑戰。
1. 引言
對圖結構數據的研究始于18世紀的哥尼斯堡橋問題,即:“我們如何在哥尼斯堡市的7座橋中設計一條每座橋只穿過一次的路徑?”1741年,Euler將7座橋梁建模成一個圖,并證明在沒有重復路徑[1]的情況下,該圖是不能完全遍歷的。在圖中,節點表示橋梁之間的連接點,而邊表示橋梁本身。**從那時起,圖結構數據已經成為建模和探索世界不可或缺的一部分。在大量與圖相關的文獻中,圖級學習引起了相當大的關注。圖級學習是對由圖組成的數據集的分析。**例如,圖同構問題,即兩個成對圖是否同構的問題,自1942年首次提出以來吸引了大量的研究[2]-[4][5]。進一步,在2016年[6]提出一個擬多項式時間解之前,圖同構被認為是NP-immediate的候選對象。還研究了其他有重要價值的應用。例如,Wang et al.[7]采用分子圖,其中節點表示原子,邊表示化學鍵,并執行圖回歸作為預測分子特性的一種方法,以幫助發現更經濟的晶體。在另一項研究中,基于一系列蛋白質圖的圖生成任務用于生成具有特定功能的蛋白質圖,以支持藥物發現[8]。同樣,基于腦圖的圖分類具有將神經系統疾病的腦結構與健康個體[9]的腦結構區分開來的潛力。
**傳統的圖級學習主要依賴手工設計的特征來區分圖。然而,盡管手工特征賦予了傳統方法良好的可解釋性,但它們通常具有較高的計算復雜度,這是阻礙其部署的主要障礙。**該方法的復雜性在于:(1)大規模圖數據中手工特征通常過于稀疏;(2)大多數依賴于這些手工特征的圖級學習算法通常涉及圖同構問題。例如,一些傳統的圖分類方法是根據從圖數據集中分解出的一系列子結構對圖進行分類的,其主要問題是判斷是否存在同構子結構。然而,深度學習技術已經開啟了圖級學習的新時代。通過這些方法,可以以端到端的方式自動學習圖的非線性和特定任務的特征,這為最先進的性能帶來了新的基準。此外,深度神經網絡學習的高維表示可以支持不斷增長的圖數據規模。美中不足的是,深度學習的黑箱性質導致可信性下降,因此一個新的趨勢是通過傳統技術開發可靠的神經網絡。
**此外,要理解跨越傳統和深度學習的各種圖級學習技術,需要全面回顧大量的圖級學習文獻。有一些關于學習圖結構數據的調研。**然而,這些評論有兩個主要缺點。首先,現有的研究大多集中在探索單個圖中的節點/邊/子結構的文章,如網絡嵌入[10]、社區檢測[11]、[12]、異常檢測[13]和圖神經網絡[14]、[15];圖級學習被視為占用分段或更少部分的副產品。圖1說明了單個圖上的圖學習和圖級別學習之間的差異。其次,僅從單一角度研究圖級學習,如圖核[16]或圖池[17]。因此,這些調研并不全面,因為它們忽略了不同圖級學習技術之間的相互作用。據我們所知,這是對圖級學習的第一次全面調查,涵蓋了傳統方法和基于深度學習的技術。詳盡地描述了圖級學習不同時期的主流技術(見圖2),并進一步討論了它們之間的演變、相互作用和交流。因此,本調研的貢獻包括: * 全面的分類法:本文提出了圖級學習技術的全面分類法。具體來說,該分類涵蓋了通過傳統和深度學習方法進行的圖級學習。 * 深度回顧:總結了四類具有代表性的算法,進行了比較,并討論了現有方法的貢獻和局限性。 * 豐富的資源:這份調研為讀者提供了豐富的圖級學習資源,包括最先進算法的信息,不同領域的基準數據集,不同圖級學習任務的公平評估指標,以及實際的下游應用。本文的存儲庫可在 * 未來方向:本文確定了圖級學習領域的13個重要未來方向。
圖2:四種主流技術下的圖級學習時間線。
**本節提供圖級學習技術的分類。**它的類別包括傳統學習,圖級深度神經網絡(GL-DNNs),圖級圖神經網絡(GL-GNNs)和圖池化。圖3中的分類樹描述了圖級學習的這四個分支,并突出了所選算法。接下來簡要介紹每一類。 A. 傳統的學習:
在深度學習技術取得巨大成功之前,傳統的學習形式曾經是圖級學習的主流。傳統的學習方法大多依賴手工特征來描述圖,如隨機游走序列[16]。給定確定性的圖描述,使用現成的機器學習模型以非端到端的方式執行下游任務,如圖分類。即使在今天,傳統方法也比深度學習技術具有一些優勢,例如更好的可解釋性和更好的建模不規則結構的能力。出于這些原因,傳統方法仍然為圖級學習社區提供了有價值的見解。
B.圖級深度神經網絡(GL-DNNs):
傳統方法不僅僅包括經典方法。它們還包括對深度學習技術的初步探索,如RNN、CNN和CapsNet。這三種類型的深度神經網絡最初并不是為了學習像圖這樣的非歐氏數據而設計的。因此,GL-DNNs的一個重要問題是如何使這些深度神經網絡學習大小不一且鄰域結構不規則的圖結構數據。
C.圖級圖神經網絡(GL-GNNs):
GL-GNNs使用專門為圖結構數據提出的圖卷積操作作為執行圖級學習的主干。大多數GL-GNN使用圖卷積MPNNs框架,因為它們簡單,易于理解,并且具有線性復雜度。GL-GNNs凝聚了圖級學習最豐富的成果。此外,一些從業者將基于MPNN的GL-GNN的優勢與其他技術,特別是傳統學習技術相結合,以提高圖級學習。
D .圖池化:
圖池化是一種縮小圖規模的技術,通過將一系列節點壓縮為一個超級節點來產生圖的緊湊表示。例如,圖池化可以通過求和或平均操作將圖的所有節點嵌入全局聚合到一個最終超級節點中。同時,圖池化可以逐層減小圖的大小。這種多層縮小過程傾向于在每一層聚集同一層次結構(例如,社區)中的節點。
摘要
與批量學習不同的是,在批量學習中所有的訓練數據都是一次性可用的,而持續學習代表了一組方法,這些方法可以積累知識,并使用序列可用的數據連續學習。與人類的學習過程一樣,不斷學習具有學習、融合和積累不同時間步的新知識的能力,被認為具有很高的現實意義。因此,持續學習在各種人工智能任務中得到了研究。本文綜述了計算機視覺中持續學習的最新進展。特別地,這些作品是根據它們的代表性技術進行分組的,包括正則化、知識蒸餾、記憶、生成重放、參數隔離以及上述技術的組合。針對每一類技術,分別介紹了其特點及其在計算機視覺中的應用。在概述的最后,討論了幾個子領域,在這些子領域中,持續的知識積累可能會有幫助,而持續學習還沒有得到很好的研究。
//www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a
引言
人類的學習是一個漸進的過程。在人類的一生中,人類不斷地接受和學習新知識。新知識在發揮自身積累作用的同時,也對原有知識進行補充和修正。相比之下,傳統的機器學習和深度學習范式通常區分知識訓練和知識推理的過程,模型需要在有限的時間內在預先準備好的數據集上完成訓練,然后使用這些數據集進行推理。隨著相機和手機的廣泛普及,每天都有大量新的圖片和視頻被捕捉和分享。這就產生了新的需求,特別是在計算機視覺領域,模型在推理過程中要連續不斷地學習和更新自己,因為從頭開始訓練模型以適應每天新生成的數據是非常耗時和低效的。
由于神經網絡與人腦的結構不同,神經網絡訓練不易從原來的批量學習模式轉變為新的連續學習模式。特別是存在兩個主要問題。首先,按照序列學習多個類別的數據容易導致災難性遺忘的問題[1,2]。這意味著,在從新類別的數據更新模型參數后,模型在先前學習類別上的性能通常會急劇下降。其次,當按順序從同一類別的新數據中學習時,也會導致概念漂移問題[3,4,5],因為新數據可能會以不可預見的方式改變該類別的數據分布[6]。因此,持續學習的總體任務是解決穩定性-可塑性困境[7,8],這就要求神經網絡在保持學習新知識的能力的同時,防止遺忘之前學習過的知識。
近年來,在計算機視覺的各個子領域中提出了越來越多的持續學習方法,如圖1所示。此外,2020年和2021年還舉辦了若干與計算機視覺中的持續學習有關的比賽[9,10]。因此,本文綜述了計算機視覺中持續學習的最新進展。我們將這一概述的主要貢獻總結如下。(1)系統地綜述了計算機視覺中持續學習的最新進展。(2)介紹了用于不同計算機視覺任務的各種持續學習技術,包括正則化、知識提取、基于記憶、生成重放和參數隔離。(3)討論了計算機視覺中持續學習可能有所幫助但仍未得到充分研究的子領域。
本文的其余部分組織如下。第二節給出了持續學習的定義。第3節介紹了這一領域常用的評估指標。第4節討論了各種類型的持續學習方法及其在計算機視覺中的應用。在第5節中討論了計算機視覺中沒有很好地利用持續學習的子領域。最后,第六部分對全文進行總結。
摘要
在過去十年左右的時間里,我們見證了深度學習讓機器學習領域重新煥發活力。它以最先進的性能解決了計算機視覺、語音識別、自然語言處理等領域的許多問題。這些領域的數據一般用歐幾里得空間表示。其他許多領域都符合非歐幾里得空間,圖是其中的理想表示。圖適用于表示各種實體之間的依賴關系和相互關系。傳統上,手工制作的圖特性無法從復雜的數據表示中為各種任務提供必要的推斷。最近,出現了利用深度學習的各種進展來繪制基于數據的任務。本文提供了圖神經網絡(GNN)在每種學習設置中的全面綜述: 監督學習、無監督學習、半監督學習和自監督學習。每個基于圖的學習設置的分類提供了屬于給定學習設置的方法的邏輯劃分。從理論和實證兩方面分析了每個學習任務的方法。此外,我們還提供了構建GNN的一般架構指導方針。還提供了各種應用程序和基準數據集,以及仍然困擾著GNN的普遍適用性的開放挑戰。
//www.zhuanzhi.ai/paper/4014c909fcaa7d7c7c7d292b6a7febbb
引言
圖是定義一組節點及其關系的數據結構。從社交網絡[141]到物理互動[209],我們無處不在地觀察它們。圖表還可以用來表示不可思議的結構,如原子、分子、生態系統、生物、行星系統[42]等等。所以,圖形結構存在于我們的周圍環境和對世界的感知中。它包括實體和相互關系,以建立概念,如推理、溝通、關系、營銷等。
隨著當今技術的進步,互聯網(一個巨大的圖表)的使用正在迅速增長。如今,在社交網絡、搜索引擎的知識數據庫、街道地圖、甚至分子、高能物理、生物和化學化合物中也可以找到大量的圖表。圖結構表示在這些環境中很常見; 因此,需要有效和新穎的技術來解決基于圖的任務。許多傳統的機器學習技術都是在使用各種預定義的過程從原始數據表單中提取特征的基礎上提出的。提取的特征可以是圖像數據中的像素統計,也可以是自然語言數據中的單詞出現統計。在過去的十年中,深度學習(DL)技術獲得了巨大的普及,有效地解決了學習問題,從原始數據學習表示,并使用學習的表示同時預測。通常,這是通過探索許多不同的非線性轉換(由層執行)和使用基于梯度下降的學習方法對這些模型進行端到端訓練來實現的。盡管DL最近在計算機視覺、自然語言處理、生物醫學成像、生物信息學等領域取得了進展,但它仍然缺乏關系和因果推理、智力抽象和其他各種人類能力。以圖的形式構造深度神經網絡(DNN)中的計算和表示是解決這些問題的方法之一,這種方法被稱為圖神經網絡(GNN)。
GNN在具有許多學習設置的不同領域的圖結構數據集上都是成功的: 有監督、半監督、自監督和無監督。大多數基于圖的方法屬于無監督學習,通常基于自動編碼器、對比學習或隨機行走概念。圖自編碼器的最新研究成果有:Cao等人[22]在高光譜分類中的特征提取; Yang等人的防止消息傳遞過平滑[188];Park等人使用消息傳遞自動編碼器進行雙曲表示學習[134];用于解決Wu等人[182]提出的當前鏈路預測方法的局限性。最近,基于對比學習的方法也很成功,這在許多研究人員的工作中得到了證明。Okuda等[122]是最近出現的一種無監督圖表示學習方法,用于發現圖像中常見的目標和一組特定目標的定位方法。學習后的表示可以用于下游的學習任務,如Du等人[41]和Perozzi等人[138]所示。Adhikari等人[2]中的擴展隨機游動以及Dong等人[40]中的異構圖中的頂點表示也可以捕獲子圖的嵌入。
本文根據圖半監督學習方法的嵌入特征,將其分類為淺圖嵌入和深圖嵌入。將淺圖嵌入分為因子分解、隨機游走,將深圖嵌入分為自編碼器嵌入和GNN嵌入。本文還提供了對每種方法的進一步解釋,以及GNN的類別。基于圖的自監督學習方法根據任務和訓練策略進行分類。現有關于GNN的綜述論文大多側重于單一學習設置或一般GNN,如表1所示。這些綜述并沒有分別解釋每種學習環境。Zhou等人[205]最近完成了一項研究,重點研究了圖上的各種機器學習算法。
在本文中,我們探討了每個基于圖的學習設置,并將其分為幾個類別。本文的主要貢獻概述如下:
論文組織: 第2節分別介紹GNN的基本術語和概念,然后介紹2.1節和2.2節中基于圖結構數據的圖的變體和任務。第3節解釋了每個學習設置的基于GNN的方法,并進一步將方法和學習設置分解為邏輯劃分。3.1節簡要介紹了現有的圖監督學習方法。基于圖的無監督學習方法在第3.2節中進行了解釋,并對現有的學習方法進行了細分。然后我們在第3.3節給出了圖半監督學習方法,并通過嵌入方法對這些方法進行了細分。第3.4節介紹了圖的自監督學習方法,并根據任務和訓練策略對每種方法進行了劃分。GNN的一般step-wise結構在第4節中給出。第6節從理論和實證兩個方面對GNN方法進行了分析。在第5節中,我們介紹了幾個在GNN研究中常用的數據集,然后是第7節,介紹了GNN的一些流行應用。第8節總結了在基于GNN的圖任務解決方案中仍然存在的尚未解決的問題。最后,在第9部分,我們總結了這項工作。
生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。
概述
深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。
為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。
GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。
對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。
GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。
近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。
本文貢獻:
GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。
GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。