在過去的幾年中,圖上的深度學習在各個領域取得了顯著的進展。然而,大多數圖學習任務假設圖是靜態的,而現實世界的圖可能會不斷增長或演變。因此,研究如何在不忘記之前學習的知識的情況下,不斷地使圖學習模型適應新的模式/任務是至關重要的。為此,在本教程中,我們將介紹持續圖學習(CGL)的新領域。具體來說,我們將(1)介紹不同的持續圖學習設置,(2)提出CGL中的關鍵挑戰,(3)強調現有的CGL技術,以及(4)討論未來的方向。本教程時長為3小時,包括150分鐘的演示和30分鐘的問答。
現實世界的圖通常是不斷增長或演變的。例如,新類型的論文可能會不斷添加到引文網絡中,而文檔分類器有望不斷適應并能夠對新類型的論文進行分類。在藥物設計研究中,可能會不斷地遇到具有新性質的分子,而分子性質預測器必須不斷地學習新的分子性質。現有的圖學習模型擅長學習新的模式/任務。然而,高可塑性也帶來了災難性遺忘問題,即模型在學習新任務后,對先前學習的任務的性能急劇下降。為此,CGL最近受到越來越多的關注,因此將在本教程中進行深入討論。
由于不同領域的圖形數據形式復雜,我們首先介紹CGL的形式化設置。具體來說,我們將解釋任務增量(task-IL)和類增量(class-IL)場景下的節點級任務和圖級任務。然后,基于這些設置,我們將介紹CGL的關鍵挑戰,以及與傳統的獨立數據(如圖像)上的持續學習的區別。接下來,我們將介紹現有的方法,包括專門為CGL開發的方法,以及適用于CGL的傳統持續學習方法。最后,在分析現有方法優缺點的基礎上,指出尚待解決的挑戰和未來的研究方向。
盡管圖神經網絡(GNNs)在節點分類任務中取得了成功,但其性能嚴重依賴每個類別有足夠數量的標記節點的可用性。在現實情況中,不是所有的類別都有很多標記的節點,可能存在模型需要分類新類別的實例,這使得手動標記變得困難。為了解決這個問題,GNNs能夠在只有少數標記節點的情況下分類節點是非常重要的,這被稱為少樣本節點分類。先前基于情景元學習的方法已在少樣本節點分類中顯示出成功,但我們的發現表明,只有在有大量不同訓練元任務的情況下才能實現最優性能。為了應對基于元學習的少樣本學習(FSL)的這一挑戰,我們提出了一種新的方法,即任務等變圖少樣本學習(TEG)框架。我們的TEG框架使模型能夠使用有限數量的訓練元任務來學習可轉移的任務適應策略,從而獲得大范圍元任務的元知識。通過結合等變神經網絡,TEG可以利用它們的強大泛化能力來學習高度適應的任務特定策略。因此,即使在訓練元任務有限的情況下,TEG也能夠達到最新的性能。我們在各種基準數據集上的實驗顯示出TEG在準確性和泛化能力方面的優勢,即使在使用最小的元訓練數據的情況下,也強調了我們提出的方法在應對基于元學習的少樣本節點分類的挑戰方面的有效性。我們的代碼可在以下鏈接獲取://github.com/sung-won-kim/TEG。
圖數據上的持續學習最近引起了廣泛關注,其目的是在使現有模型適應新出現的圖任務的同時,解決現有任務上的災難性遺忘問題。雖然已經有人努力總結歐氏數據(如圖像和文本)上的持續學習研究進展,但仍然缺乏對持續圖學習工作的系統綜述。圖數據在數據結構和應用場景方面要復雜得多,使得持續的圖學習任務設置、模型設計和應用極其復雜。為解決這一差距,本文對現有的持續圖學習工作進行了全面的回顧,闡明了不同的任務設置,并根據所采用的技術對現有工作進行了分類。本文將持續圖學習工作與傳統持續學習工作進行比較,分析傳統持續學習技術對持續圖學習任務的適用性。回顧了對持續圖學習研究至關重要的基準工作。最后,討論了尚存的挑戰,并提出了未來的研究方向。
1. 引言
傳統的圖學習通常假設圖是靜態的。然而,在現實世界的大多數應用中,包括節點層學習任務和圖層學習任務,圖的規模或數量都會不斷增長,期望模型不斷適應新出現的模式,而不會忘記之前學習過的知識。例如,在引文網絡中,新的研究論文類別(圖節點)和伴隨的引文類別(圖邊)會不斷出現,在其上工作的文檔分類器希望能夠不斷適應新數據的分布,同時保持對以前觀察到的數據分布的學習知識[1],[2]。在藥物發現研究中,可能會間歇性地發現新的分子性質和分子類別,而分子性質預測器必須在不失去對以前的分子類別或性質[1]、[3]的預測能力的情況下,為新的模式擬合其參數。在這種持續學習場景中,一種樸素的方法是每當有新任務到來時,只使用新數據訓練模型。但不斷適應新任務的模型會遭遇災難性遺忘問題,即學習新任務后對先前任務的性能嚴重下降。另一種直觀的方法是在包含所有先前觀察到的數據的整個數據集上重新訓練模型。然而,由于較高的再訓練成本和潛在的隱私問題,該策略不可行。
鑒于此,持續圖學習(CGL)最近受到越來越多的關注,它旨在不斷地學習新的任務,而不忘記以前已經學習過的知識。由于圖數據的復雜性,現有持續學習工作在目標圖類型、學習設置、基礎技術和評價指標等方面具有高度異構性。首先,技術工作可能提出通用技術或針對特定應用場景(如知識圖譜、推薦系統等)的專用技術。其次,根據測試過程中任務標識的可用性,連續的圖學習工作可能采用不同的設置,包括任務增量(taskIL)、域增量(domain-IL)和類增量(class-IL)。除了增量設置外,圖學習任務還可能關注不同的粒度,包括節點級任務和圖級任務。第三,不同工作采用的技術遵循不同的主流,包括正則化、內存重放和參數隔離。最后,與標準的學習環境不同,連續圖學習模型的性能從整體性能、性能下降(遺忘)、任務間干擾等多個角度考慮。因此,根據研究目標的不同,不同的工作可能會采用不同的指標來評價模型。連續圖學習工作的這些正交維度令人困惑,并為研究人員進入該領域制造了巨大的障礙。
為此,本文從上述角度對現有方法進行了系統綜述。論文的其余部分組織如下。在第3節中,從基本概念、骨干模型框架、任務序列構建、任務粒度、增量場景以及評估指標等角度解釋了持續圖學習的問題設置。在第四部分中,我們首先系統地回顧了持續學習技術的研究進展,包括基于正則化的方法、基于記憶回放的方法和基于參數隔離的方法,然后分析了傳統持續學習技術的適用性;在第6節中,介紹了最近提出的基準工作,旨在提供一致的實驗環境和公平的性能比較平臺。然后,分析了傳統持續學習技術對持續圖學習任務的適用性;最后,我們還介紹了基準工作,為比較不同技術提供了一個公平的平臺。最后,在第7節中,討論了CGL研究面臨的挑戰和有希望的未來方向。
2. 問題設置
與歐氏數據上的持續學習不同,持續圖學習(continuous Graph learning, CGL)關注更復雜的任務配置。例如,在一些應用中,學習是在一個不斷增長的圖上進行的,每個新任務都是附加在現有圖上的一個子圖。而在其他場景中,任務可能是圖級別的任務,每個新任務都是一組獨立的圖。在本節中,我們首先提供持續學習過程的一般性公式,然后根據這些公式推導出不同的特定學習場景。
根據測試過程中是否提供任務標識以及是否需要模型來獲取任務標識,持續圖學習以及經典的持續學習可以分為任務增量學習(task- il)、領域增量學習(domain-IL)和類增量學習(class-IL)。
2.1 Task-IL
在task- il中,任務標識在測試期間顯示給模型,因此模型不需要識別給定的任務。對于分類任務,現有模型通常增加其輸出維度以適應新任務,并且在測試期間僅激活每個給定任務的相應維度。例如,在分子特性預測任務中,每個新任務都可以預測新特性的存在。
2.2 Domain-IL
Domain-IL比task- il更具挑戰性,因為它在測試過程中不提供任務標識。但是它也不需要識別給定的測試任務。在這種情況下,模型輸出維度的語義含義通常是固定的,新任務被視為來自新領域的數據。例如,在知識圖譜上持續學習的一個可能場景是在具有不同實體和關系的圖上連續學習,而預測任務總是三元組的完成。一些工作還考慮了時間增量場景,將時間序列數據劃分為不同的時間段作為不同的任務。然而,由于模型輸出的語義在不同的任務中是相同的,該場景本質上是domain-IL的實例化,不同的時間段本質上是不同的域。
2.3 Class-IL
Class-IL是三種場景中最具挑戰性的。在測試過程中,任務標識是不可訪問的,模型必須識別給定的任務。對于分類任務,當新類別到達時,模型通常增加輸出維度,并必須在所有學習的類別中選擇正確的類別,而不像任務il只需要區分已知任務中的類別。
3. 方法
與傳統的持續學習類似,持續圖學習也從限制模型參數的變化、隔離和保護對先前學習任務重要的參數、重放先前任務中的代表性數據以提醒模型先前學習的模式等角度來解決問題。然而,持續圖學習的一個關鍵挑戰是必須妥善保存數據的拓撲結構,這是圖數據中包含的重要信息。
3.1 基于正則化的方法
由于遺忘的原因是為之前的任務訓練的模型參數在適應新任務后發生了修改,傳統的基于正則化的方法[48]、[49]增加了懲罰項以防止參數發生劇烈變化。然而,這些方法并不能顯式地保留圖數據的拓撲結構。針對這一不足,拓撲感知的權重保持(TWP)[1]提出通過對模型權重的正則化來顯式保留在之前任務中學習到的拓撲.
3.2 基于內存重放的方法
基于記憶回放的方法通過使用前一任務中的代表數據重新訓練模型來防止遺忘。傳統的持續學習方法處理個體數據時無需交互,只需要簡單地采樣并存儲在緩沖區中即可。然而,對于圖的學習,基于內存重放的方法會遇到內存爆炸的挑戰[3]。在生成節點(數據)的表示時,圖神經網絡(GNNs)通常聚合來自多跳鄰居的信息。因此,為了重新生成單個節點的表示,必須存儲來自指數擴展鄰域的信息。在稠密圖上,內存消耗很容易成為難以處理的問題。由于這一挑戰,經驗回放圖神經網絡(ER-GNN)[38]直接忽略圖的拓撲結構,僅存儲單個節點的屬性來重新生成表示。
3.3 參數隔離方法
最后一類是基于參數隔離的方法,通過對不同任務完全或部分分離模型參數來保護模型在之前任務上的性能。現有的基于參數隔離的連續圖學習方法很少,代表性的方法是分層原型網絡(Hierarchical Prototype Networks, HPNs),它提出動態增加特征提取器和原型以適應新模式。具體來說,HPNs由一組用于從給定數據中提取基本特征的原子特征提取器(AFEs)和3層用于存儲學習到的模式的分層原型組成。對于給定的輸入節點,AFEs首先根據節點屬性及其鄰域關系提取基本特征;因此,AFEs由兩部分組成。一組AFEs,稱為AFEnode,用于根據節點屬性生成原子節點嵌入。另一個集合為AFEstruct,用于捕獲給定節點的鄰域拓撲結構,并據此生成原子結構嵌入。得到的原子嵌入對應于最基本的特征,然后將根據其余弦相似度與現有的原子級原型(A -原型)進行匹配。
4. CGL模型的評估
與標準學習環境只關注一個任務不同,持續學習模型的評價必須考慮模型在所有學習任務上的表現。因此,評價一個持續學習模型最有效的方法就是在學習完一個新任務后,展示它在以前的每一個任務上的表現。 性能矩陣包含整個學習過程中的原始性能。在此基礎上,研究人員采用了多種不同的評價指標。例如,考慮到性能矩陣不適用于不同方法的性能比較,可以使用[3]的平均性能(AP)和平均遺忘(AF)。這兩個指標在CGL以及傳統的持續學習工作中被廣泛采用,但在不同的工作中名稱可能不同。例如,在[53]、[60]中分別命名為平均準確率(ACC)和反向遷移(BWT),在[3]、[38]中分別命名為平均性能(AP)和平均遺忘(AF),在[1]中分別命名為性能均值(PM)和遺忘均值(FM)。
**5. 機會、未來方向和討論 **
作為一個新興且快速發展的領域,CGL的研究已經取得了顯著的進展,并進入更具挑戰性和實用性的學習場景。然而,仍有許多挑戰需要解決, 包括效率和空間復雜度的權衡,對任務邊界的依賴,現有任務中節點的概念漂移問題,基于任務的知識遷移,擴展到其他模態。
《持續圖學習》教程
在過去的幾年中,圖上的深度學習在各個領域取得了顯著的進展。然而,大多數圖學習任務假設圖是靜態的,而現實世界的圖可能會不斷增長或演變。因此,研究如何在不忘記之前學習的知識的情況下,不斷地使圖學習模型適應新的模式/任務是至關重要的。為此,在本教程中,我們將介紹持續圖學習(CGL)的新領域。具體來說,我們將(1)介紹不同的持續圖學習設置,(2)提出CGL中的關鍵挑戰,(3)強調現有的CGL技術,以及(4)討論未來的方向。本教程時長為3小時,包括150分鐘的演示和30分鐘的問答。
數據驅動的推薦系統在各種Web應用程序中表現出了巨大的成功,這歸功于機器學習模型從大量的歷史用戶行為中識別模式(即相關性)的非凡能力。然而,這些模型仍然存在一些問題,如由于虛假相關性而產生的偏差和不公平。考慮數據背后的因果機制可以避免非因果關系帶來的偽相關的影響。在這種情況下,采用因果推薦建模是一個令人興奮和有前途的方向。因此,因果推薦越來越受到我們推薦界的關注。然而,由于缺乏對這一課題的系統概述,導致研究者和實踐者難以理解和跟上這一方向。
在本教程中,我們將介紹因果關系的關鍵概念,并對因果推薦方面的現有工作進行系統回顧。我們將介紹來自兩種不同因果框架的現有方法——潛在結果框架和結構性因果模型。我們將舉例并討論如何在這兩個框架下利用不同的因果工具來建模和解決推薦中的問題。將對這兩種工作進行比較,以便理解它們之間的區別和聯系。此外,我們確定了一些開放的挑戰和潛在的未來發展方向。我們希望本教程可以激發更多關于這個主題的想法,并促進因果關系感知推薦系統的發展。
目錄內容:
Part 0: 引用 introduction (15 Min). Part1: 潛在結果 potential outcome framework for recommendation (60~70 Min). Q&A (5 Min). Break (10 Min). Part2: 結構因果模型 structural causal model for recommendation (60~70 Min). Part3: comparison between the two frameworks (5 Min). Part4: open problems, future directions, and conclusions (20 Min). Q&A (5 Min).
摘要
與批量學習不同的是,在批量學習中所有的訓練數據都是一次性可用的,而持續學習代表了一組方法,這些方法可以積累知識,并使用序列可用的數據連續學習。與人類的學習過程一樣,不斷學習具有學習、融合和積累不同時間步的新知識的能力,被認為具有很高的現實意義。因此,持續學習在各種人工智能任務中得到了研究。本文綜述了計算機視覺中持續學習的最新進展。特別地,這些作品是根據它們的代表性技術進行分組的,包括正則化、知識蒸餾、記憶、生成重放、參數隔離以及上述技術的組合。針對每一類技術,分別介紹了其特點及其在計算機視覺中的應用。在概述的最后,討論了幾個子領域,在這些子領域中,持續的知識積累可能會有幫助,而持續學習還沒有得到很好的研究。
//www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a
引言
人類的學習是一個漸進的過程。在人類的一生中,人類不斷地接受和學習新知識。新知識在發揮自身積累作用的同時,也對原有知識進行補充和修正。相比之下,傳統的機器學習和深度學習范式通常區分知識訓練和知識推理的過程,模型需要在有限的時間內在預先準備好的數據集上完成訓練,然后使用這些數據集進行推理。隨著相機和手機的廣泛普及,每天都有大量新的圖片和視頻被捕捉和分享。這就產生了新的需求,特別是在計算機視覺領域,模型在推理過程中要連續不斷地學習和更新自己,因為從頭開始訓練模型以適應每天新生成的數據是非常耗時和低效的。
由于神經網絡與人腦的結構不同,神經網絡訓練不易從原來的批量學習模式轉變為新的連續學習模式。特別是存在兩個主要問題。首先,按照序列學習多個類別的數據容易導致災難性遺忘的問題[1,2]。這意味著,在從新類別的數據更新模型參數后,模型在先前學習類別上的性能通常會急劇下降。其次,當按順序從同一類別的新數據中學習時,也會導致概念漂移問題[3,4,5],因為新數據可能會以不可預見的方式改變該類別的數據分布[6]。因此,持續學習的總體任務是解決穩定性-可塑性困境[7,8],這就要求神經網絡在保持學習新知識的能力的同時,防止遺忘之前學習過的知識。
近年來,在計算機視覺的各個子領域中提出了越來越多的持續學習方法,如圖1所示。此外,2020年和2021年還舉辦了若干與計算機視覺中的持續學習有關的比賽[9,10]。因此,本文綜述了計算機視覺中持續學習的最新進展。我們將這一概述的主要貢獻總結如下。(1)系統地綜述了計算機視覺中持續學習的最新進展。(2)介紹了用于不同計算機視覺任務的各種持續學習技術,包括正則化、知識提取、基于記憶、生成重放和參數隔離。(3)討論了計算機視覺中持續學習可能有所幫助但仍未得到充分研究的子領域。
本文的其余部分組織如下。第二節給出了持續學習的定義。第3節介紹了這一領域常用的評估指標。第4節討論了各種類型的持續學習方法及其在計算機視覺中的應用。在第5節中討論了計算機視覺中沒有很好地利用持續學習的子領域。最后,第六部分對全文進行總結。
人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。
持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:
(1) 對持續學習技術的分類和廣泛的概述;
(2) 一個持續學習器穩定性-可塑性權衡的新框架;
(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。
考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。
//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f
引言
近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。
持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。
為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。
其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
圖神經網絡(GNNs)最近在人工智能領域變得越來越受歡迎,這是因為它們具有提取相對非結構化數據類型作為輸入數據的獨特能力。盡管GNN體系結構的一些元素在操作上與傳統神經網絡(以及神經網絡變體)的概念相似,但其他元素則不同于傳統的深度學習技術。本教程通過整理和呈現最常見類型的GNNs的動機、概念、數學和應用的詳細信息,向一般深度學習愛好者展示了GNNs的強大功能和新穎之處。重要的是,我們以介紹性的速度簡要地介紹了本教程,并提供了理解和使用GNNs的實用和可訪問的指南。
摘要:
當代人工智能(AI),或者更具體地說,深度學習(DL)近年來被稱為神經網絡(NN)的學習架構所主導。NN變體被設計用于提高某些問題領域的性能;卷積神經網絡(CNN)在基于圖像的任務環境中表現突出,而遞歸神經網絡(RNN)在自然語言處理和時間序列分析空間中表現突出。神經網絡也被用作復合DL框架的組件——它們在生成對抗網絡(GANs)中被用作可訓練的生成器和判別器,在transformers [46]中被用作編碼器和解碼器。雖然在計算機視覺中作為輸入的圖像和在自然語言處理中作為輸入的句子看起來是不相關的,但是它們都可以用一個單一的、通用的數據結構來表示:圖(見圖1)。
形式上,圖是一組不同的頂點(表示項目或實體),這些頂點通過邊(表示關系)選擇性地連接在一起。被設計來處理這些圖的學習架構是有名稱的圖神經網絡(GNN)。輸入圖之間的頂點和邊的數量可以改變。通過這種方式,GNNs可以處理非結構化的、非歐幾里得數據[4],這一特性使得它們在圖形數據豐富的特定問題域中具有價值。相反,基于NN的算法通常需要對具有嚴格定義維數的結構化輸入進行操作。例如,構建一個用于在MNIST數據集上進行分類的CNN,其輸入層必須為28×28個神經元,后續輸入給它的所有圖像大小必須為28×28像素,才能符合這個嚴格的維數要求[27]。
圖作為數據編碼方法的表達性,以及GNNs相對于非結構化輸入的靈活性,推動了它們的研究和開發。它們代表了一種探索相對通用的深度學習方法的新方法,并且它們促進了深度學習方法對數據集的應用,直到最近,這些數據集還不能使用傳統的神經網絡或其他此類算法。
本篇內容結構:
//deepai.org/publication/a-practical-guide-to-graph-neural-networks