亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖持續學習新綜述

圖數據上的持續學習近期吸引了極大的關注,其目標是解決在現有任務上的災難性遺忘問題,同時使序列更新的模型適應新出現的圖任務。盡管已有努力總結了在歐幾里得數據(例如,圖像和文本)上持續學習研究的進展,但對于圖上的持續學習,也就是所謂的持續圖學習(CGL)或終身圖學習,系統性的綜述仍然是迫切需要的。圖數據在數據結構和應用場景上的復雜性遠遠超過其他類型,使得CGL的任務設置、模型設計和應用變得極為挑戰性。為了彌補這一差距,我們提供了一個關于現有持續圖學習(CGL)算法的全面綜述,通過闡明不同的任務設置并基于它們的特點對現有方法進行分類。我們將CGL方法與傳統的持續學習技術進行比較,并分析了傳統持續學習技術對CGL任務的適用性。此外,我們還回顧了對CGL研究至關重要的基準作品。最后,我們討論了剩余的挑戰并提出了幾個未來的方向。我們將維護一個最新的GitHub倉庫,其中包含CGL算法的全面列表,可在//github.com/UConn-DSIS/Survey-of-Continual-Learning-on-Graphs 訪問。

在圖表示學習領域,傳統方法通常假設圖是靜態的,即圖的結構以及其屬性節點和邊緣保持不變。然而,在許多現實世界應用中,包括節點級別和圖級別的場景,圖可能會不斷演化。這意味著可能會出現新類型的節點及其相關邊緣,或者可能會收集到新類型的圖。在這種情況下,圖數據可能會表現出分布偏移,期望的模型應該能夠持續適應新的分布,而不會忘記之前學到的知識。例如,在引用網絡中,新類別的研究論文(圖節點)和隨之而來的引用(圖邊緣)將不斷出現。為了自動分類這些論文,文檔分類器需要持續適應新類別的分布,同時保持對先前觀察到的類別所學知識的記憶[1]、[2]、[3]。在藥物發現中,可能會間歇性遇到新的分子屬性和新的分子類別,分子屬性預測器必須適應新模式的參數,而不損害對現有分子類別或屬性的預測性能[1]、[2]。在這種持續學習場景中,天真地將模型適應新任務將遇到災難性遺忘問題,即在模型參數適應新任務后,現有任務的性能急劇下降。一個簡單的解決方案是每當出現新任務時,就重新訓練模型處理所有之前觀察到的數據。然而,這可能因難以承受的重新訓練成本或潛在的隱私/法律規定問題而變得不可行。 鑒于此,持續圖學習(CGL),旨在持續學習新任務而不忘記以前學到的知識,最近在各個領域受到越來越多的關注[1]、[2]、[4]-[23]。由于圖數據的復雜性,現有的CGL方法在目標圖類型、學習設置、基本技術和評估指標方面高度異質。首先,現有方法可能提出一般技術或針對某些應用場景(例如,知識圖譜、推薦系統等)的專門技術。其次,根據測試期間任務標識的可用性,CGL方法可能采用不同的設置,包括任務增量學習(task-IL)、領域增量學習(domain-IL)和類別增量學習(class-IL)。除了增量設置,圖學習任務還可能關注不同的粒度,包括節點級任務和圖級任務。第三,各種現有方法采用的方法論與不同的主流趨勢一致,如正則化、記憶重放和參數隔離。最后,與標準學習設置不同,CGL模型的性能關注不同的視角,包括總體性能、性能下降(遺忘)、任務間干擾等。因此,根據研究目標,不同的工作可能采用不同的指標來評估模型。這些CGL研究的正交維度呈現了復雜的挑戰和研究人員試圖進入該領域時的重大障礙。 為此,本文提供了一項系統的綜述,從前述四個不同的視角審視現有方法。在第二節中,我們簡要介紹了持續學習、CGL以及CGL與其他相關研究領域在動態演化圖上的區別的背景信息。在第三節中,我們從基本概念、任務序列構建、任務粒度和不同增量學習場景的角度解釋了CGL的問題設置。在第四節中,我們首先系統地回顧了遵循三種主流方法的相關CGL工作,包括基于正則化的、基于記憶回放的和基于參數隔離的方法,然后分析了傳統持續學習技術的適用性。在第六節中,我們介紹了旨在提供一致的實驗設置和公平平臺以比較不同技術的最近提出的基準工作。最后,在第七節中,我們討論了現有的挑戰并強調了CGL研究的有前途的未來方向。

圖持續學習方法

與傳統持續學習類似,CGL也從限制模型參數的變化、隔離和保護對以前學習的任務重要的參數,以及回放先前任務的代表性數據以提醒模型先前學習的模式(圖2)的角度來處理問題。然而,CGL的一個關鍵挑戰是必須適當地保留數據的拓撲結構,這是圖數據中包含的關鍵信息。在本節中,我們將按照這一分類介紹CGL技術,這也在表1中總結。

**基于正則化的方法 **

由于遺忘的原因是模型參數在適應新任務后被修改,傳統的基于正則化的方法[91]、[92]增加了懲罰項以防止參數發生劇烈變化。然而,這些方法并沒有顯式地保留圖數據的拓撲結構。針對這一不足,拓撲感知權重保持(TWP)[2]提出通過對模型權重的正則化顯式地保留在先前任務上學到的拓撲。

基于記憶回放的方法

基于記憶回放的方法通過使用來自先前任務的代表性數據重新訓練模型來防止遺忘。傳統的持續學習方法處理單個數據而不涉及交互,可以簡單地采樣并存儲在緩沖區中。然而,對于圖上的學習,基于記憶回放的方法將會遇到記憶爆炸的挑戰[1]。在生成節點(一個數據點)的表示時,圖神經網絡(GNNs)通常會聚合來自多跳鄰居的信息。因此,要重新生成單個節點的表示,就必須存儲來自呈指數級擴展的鄰域的信息。在密集圖上,內存消耗很容易變得難以處理[1]。由于這個挑戰,經驗回放圖神經網絡(ER-GNN)[83](圖4(a))選擇忽略圖拓撲,僅存儲單個節點的屬性以重新生成表示。

**CGL與圖基礎模型 **

大型語言模型(LLMs)在作為各種自然語言處理(NLP)下游任務的基礎模型方面取得了顯著的成功。然而,圖基礎模型還處于起步階段。在本節中,我們將介紹CGL技術如何與構建有效的圖基礎模型相關聯。 **促進圖基礎模型訓練 **

構建圖基礎模型的一個有前途的方法是設計策略來微調預訓練的LLMs,使其接受分詞化的圖輸入,以便圖結構知識與語言數據中包含的知識對齊。然而,這樣的連續訓練不可避免地會觸發災難性遺忘問題,因為圖數據與用于預訓練LLMs的語言數據位于顯著不同的領域。因此,在這個過程中,CGL技術和一般的持續學習技術變得不可或缺。 此外,理想的圖基礎模型,無論是基于預訓練的LLMs之上開發還是從零開始訓練,都應通過持續整合新出現的數據來維持一個最新的知識庫。然而,這個持續學習過程也可能引起遺忘問題,這也是當前LLMs面臨的問題。在這種情況下,應開發CGL技術來解決這個問題。 此外,當新的圖數據對應于不同的領域時,例如,模型可能同時遇到生物網絡數據和分子圖數據,跨領域學習也可能觸發遺忘問題。在這種情景下,可以開發領域增量學習(domain-IL)CGL技術來解決問題。

開發大型圖模型的潛在高效方式 與LLMs不同,LLMs在NLP任務中展示了令人印象深刻的性能,而大模型對于圖數據的有效性仍然是一個問題。基于參數隔離的CGL模型在可能顯著增加大小的擴展數據集上學習,模型的大小相應擴展。因此,它提供了一種潛在的解決方案,通過逐步擴展模型和數據集從零開始開發大型圖模型。一方面,逐步學習任務而不是同時針對所有任務優化模型可能會降低優化難度。另一方面,CGL方法只會在必要時分配新參數[3],這可以幫助緩解大型模型中的參數冗余問題。此外,現有的大型預訓練圖模型通常是特定于領域的[128],極大地限制了它們的能力。幸運的是,這一挑戰可能通過利用在領域增量學習(domain-IL)下工作的CGL技術來解決,該技術旨在連續跨多個不同領域訓練給定的圖學習模型。

付費5元查看完整內容

相關內容

圖機器學習(Machine Learning on Graphs)是一項重要且普遍存在的任務,其應用范圍從藥物設計到社交網絡中的友情推薦。這個領域的主要挑戰是找到一種表示或編碼圖結構的方法,以便機器學習模型能夠輕松地利用它。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

圖是一種自然表示方式,適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時,會出現組合優化問題,這些問題通常具有挑戰性,因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法,如精確算法和(元)啟發式算法,用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域,但它們具有顯著的共性。因此,我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中,將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后,我們回顧了這些研究工作,并沿著是否旨在優化給定過程的圖結構,或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后,我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同,本工作關注于非典型圖問題,對于這些問題,通常沒有已知的高效算法,而強化學習能夠提供高效且有效的解決方案。

圖是一個數學概念,用于形式化由關系(邊)連接的實體(節點)的系統。超越原始拓撲結構,圖中的節點和邊常常與屬性相關聯:例如,一個邊可以與距離度量的值相關聯(Barthélemy, 2011)。通過這樣的特性增強,圖成為了一種強大的形式主義,能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域(Newman, 2018)。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為,構建預測模型和算法,并將它們應用于實際問題。除了描述在圖上發生的過程外,一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性,因為解決方案空間的迅速增長。一個著名的例子是旅行商問題(TSP),它要求在一個完全連通的圖中找到一個哈密頓回路,使得路徑長度總和最小化。

近年來,機器學習(ML)開始作為解決組合優化問題的有價值工具而興起,研究人員預計其影響將是革命性的(Bengio et al., 2021; Cappart et al., 2021)。特別是,強化學習(RL)的范式已顯示出通過試錯發現能夠勝過傳統精確方法和(元)啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程(MDP),在其中,一個代理逐步構建解決方案,并根據其優化目標函數的能力獲得獎勵。從MDP公式開始,可以透明地應用各種RL算法,這使得這種方法在可以解決的問題類型上非常靈活。與此同時,開始出現了使用RL解決圖組合優化問題的工作,涵蓋了從化學(You et al., 2018a),計算機科學(Valadarsky et al., 2017),經濟學(Darvariu et al., 2021b)到統計學(Zhu et al., 2020)等多種科學領域。

本綜述的目標是提出一個統一框架,我們稱之為圖強化學習(Graph RL),用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題,重點是那些通常不知道有效、高性能算法的非典型問題。事實上,最近的綜述關注的是應用RL解決典型問題的作品,我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如,僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文(1954),并且存在非常有效的算法可以最優地(Applegate et al., 2009)或近似地(Lin & Kernighan, 1973; Helsgaun, 2000)解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集(Ahn et al., 2020)、最大割(Khalil et al., 2017; Ahn et al., 2020)以及諸如車輛路徑問題(VRP)(Kool et al., 2019; Kim & Park, 2021)等路由問題。除了少數例外,盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要,但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此,本文與其他綜述(Mazyavkina et al., 2021; Wang & Tang, 2021)和觀點(Bengio et al., 2021; Cappart et al., 2021)相輔相成,無論是在提出統一范式還是關注非典型問題方面。

本文的其余部分如下組織。在第2節中,我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后,在第3節中,我們回顧了考慮優化圖結構的工作(即,從頭開始創建圖或修改現有圖)以使目標函數最大化。然后,在第4節中,我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰,這些也可以視為未來工作中需要解決的重要研究問題,此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。

圖結構優化在機器學習(ML)處理典型圖組合優化問題的工作中,一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說,需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分,我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作,并使用強化學習(RL)來發現實施這一過程的策略。這是通過與環境的互動來執行的。

在高層次上,這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G,其中G是要搜索的可能圖的集合,F如前所述,是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題,并可能涉及從一個空圖開始還是從一個現有的圖開始選擇,以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示,動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連,或者這些操作的某種組合。 鑒于范圍的自然限制,我們只考慮那些(1)使用圖表示問題;(2)通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行,并可被視為經典圖生成模型的基于ML的替代方法,例如Barabási & Albert(1999)的模型。這些工作主要使用最終圖(即“成品”)的示例數據集,并不使用中間的,從某種意義上說,對應于生成過程本身的步驟。它們還需要大量相關的示例集合,這些可能并不總是可用的,具體取決于領域。

在這一領域,使用自回歸模型(如LSTM或GRU)的工作類似于MDP公式;例如添加邊的決策可以被視為序列中的一個標記,由模型學習。這一領域的一些值得注意的工作包括Li等人(2018)提出的技術,GraphRNN(You等人,2018b),以及圖重復注意網絡(Liao等人,2019)。其他類型的生成模型,如變分自編碼器和生成對抗網絡,也被用于生成分子(Kusner等人,2017; Guimaraes等人,2018; De Cao & Kipf, 2018; Jin等人,2018)。

本節的其余部分深入回顧了相關論文,按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。 在這項綜述中,我們討論了圖強化學習這一新興領域,這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題,以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化,包括需要找到最優圖結構的問題,這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化,將圖結構視為固定不變,代理在離散的可能控制行動空間中進行搜索,以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后,我們討論了該領域面臨的主要挑戰,其解決可能具有非常重大的影響。

付費5元查看完整內容

許多現實世界的數據集可以自然地表示為圖,涵蓋了廣泛的領域。然而,圖數據集的日益增長的復雜性和大小為分析和計算帶來了顯著挑戰。作為回應,圖簡化技術因其在簡化大型圖的同時保留關鍵屬性而獲得了重要地位。在這篇綜述中,我們旨在提供對圖簡化方法的全面理解,包括圖稀疏化、圖粗化和圖凝聚。具體來說,我們為這些方法建立了統一的定義,并引入了一個層次化的分類法來歸類它們解決的挑戰。我們的綜述然后系統地回顧了這些方法的技術細節,并強調了它們在不同場景中的實際應用。此外,我們概述了確保圖簡化技術持續有效性的關鍵研究方向,并在//github.com/ChandlerBang/awesome-graph-reduction上提供了一份全面的論文列表。我們希望這篇綜述能夠填補文獻空缺,并推動這一有希望的領域的進步。

圖結構數據在各個領域已變得無處不在,從社交網絡和生物系統到推薦系統和知識圖譜[Fan et al., 2019; Wu et al., 2022b, 2018; Shi and Weninger, 2017; Wang et al., 2021]。圖數據的內在關系結構使其成為模擬復雜交互和依賴關系的強大表示。此外,隨著圖機器學習技術的興起,特別是圖神經網絡(GNNs)[Kipf and Welling, 2016; Wu et al., 2020],圖數據集的利用見證了前所未有的增長,推動了節點分類、鏈接預測、圖分類和圖生成等任務的進展[Zhou et al., 2020; Ma and Tang, 2021]。 近年來,圖數據集的大小和復雜性呈指數級增長。大規模網絡,如社交圖和引文網絡[Hu et al., 2021],挑戰了現有算法的可擴展性和效率,并要求為高效模型訓練提供創新解決方案。盡管最近努力設計了可以伴隨大型圖擴展的GNNs [Jia et al., 2020; Zeng et al., 2021; Song et al., 2023; Liu et al., 2021],另一種方法專注于減小圖數據集的大小,包括圖、節點和邊的數量,我們將之稱為圖簡化[Jin et al., 2022b; Huang et al., 2021]。在本文中,我們將圖簡化定義為尋找一個更小尺寸的圖數據集的過程,同時保留其關鍵信息。具體來說,這一定義要求一個算法接受原始圖數據集作為輸入并產生一個更小的數據集。如圖1所示,圖簡化旨在通過保持其結構和語義特性來從龐大的圖數據集中提取關鍵信息。除了加速圖算法外,圖簡化還提供了一系列優勢。首先,減少后的圖顯示出與各種下游模型架構的兼容性[Jin et al., 2022b]。其次,圖簡化可能有助于隱私保護,因為它改變了原始結構或節點屬性,使它們難以恢復[Dong et al., 2022]。第三,與其較大的對應物相比,減少后的圖顯著更小,更易于人類理解,這有助于圖可視化[Imre et al., 2020]。

鑒于圖簡化的重要性,已經開發了眾多算法,這些算法分為三種不同策略:圖稀疏化[Althofer et al., 1993; Batson et al., 2009]、圖粗化[Loukas and Vandergheynst, 2018; Dorfler and Bullo, 2012],以及更近期的圖凝聚[Jin et al., 2022b,a; Xu et al., 2023; Liu et al., 2022]。圖稀疏化圍繞通過僅保留一部分邊和重要節點來近似圖的概念展開。與之相反,圖粗化并未消除任何節點,而是將節點分組并合并成超級節點,使用指定的聚合算法將原始組間邊聚合成超級邊。與前兩種策略不同,圖凝聚最近被引入作為一種在保持GNNs性能的同時,通過合成更小的圖來凝聚圖的方法。盡管這些方法已經廣泛傳播,但它們通常是孤立研究的,留下了它們之間的聯系和區別有些模糊。因此,提供這些現有算法的系統概覽,以增強我們對圖簡化技術的理解,既必要又及時。

貢獻。在這項工作中,我們旨在提供一份全面且最新的綜述,聚焦于圖簡化技術及其在解決圖相關挑戰中的多樣化應用。我們希望這份綜述能夠成為初學者研究人員和對探索該領域感興趣的從業者的寶貴資源,同時也催化未來研究努力。我們的貢獻可以總結如下:(a) 我們提供了第一個全面的圖簡化方法綜述,包括圖稀疏化、圖粗化和圖凝聚。 (b) 我們為現有的圖簡化方法開發了一個統一的視角,在第2節中根據它們的特征進行區分,并在第3節提供代表性算法的詳細回顧。 (c) 我們在第4節討論了圖簡化方法的實際應用,闡明了這些技術證明有價值的現實世界場景。 (d) 在第5節,我們識別關鍵挑戰和有希望的未來研究方向,指導圖簡化技術的持續進步

與現有綜述的聯系。與之前關于圖簡化的綜述[Liu et al., 2018; Interdonato et al., 2020; Shabani et al., 2023; Chen et al., 2022]相比,我們的研究提供了圖凝聚這一新興領域的全面概述,并提出了一個統一框架,將圖凝聚與傳統的圖簡化技術聯系起來。此外,我們的綜述探索了圖簡化和GNNs之間的協同作用,這是現有綜述中很少涉及的一個方面。同時,一些以數據為中心的圖學習綜述[Zha et al., 2023; Zheng et al., 2023a]包括了對圖簡化的討論,但我們提供了更詳細、更徹底的簡化技術審查。此外,我們的工作與最近關于數據集蒸餾的綜述[Geng et al., 2023; Sachdeva and McAuley, 2023]有所聯系,雖然它們主要關注應用于圖像數據的凝聚方法。 在圖2中,我們提供了上述類別中現有圖簡化方法的詳細分類,并將在接下來的部分中詳細闡述。此外,表2提供了前面提到的三種圖簡化策略的定性比較。

方法論

在本節中,我們將介紹上述三種圖簡化策略的代表性算法。對于每種策略,我們根據它們的學習目標對方法進行分類,并在表3中總結了流行的方法。 圖稀疏化 圖稀疏化作為圖簡化的直觀方法,涉及基于特定標準選擇關鍵邊或節點。傳統方法通常側重于保留特定圖屬性,如譜和中心性。隨著GNNs日益流行,旨在維持節點表示質量的方法越來越多。因此,我們根據它們的保留目標將現有技術分為兩組:一組專注于保留圖屬性的,另一組致力于維持模型性能的。 圖粗化 在稀疏化方法中選擇節點或邊不可避免地會丟失一些信息。為了確保保留足夠量的信息,開發了粗化技術,涉及對節點進行分組并聚合它們。這一過程可以迭代進行,產生原始圖的層次視圖。現有的粗化方法可以根據是否存在重構目標分為兩組:基于重構的方法和無需重構的方法,將在后續進一步闡述。 圖凝聚 盡管稀疏化和粗化方法在減小圖數據的大小方面已被證明是有效的,但它們存在內在的局限性。由于這些方法中的許多優先保留特定的圖屬性,它們沒有利用下游任務信息,可能導致模型性能不佳。此外,這些技術依賴于原始圖中存在代表性節點或邊的假設,這在原始數據集中可能并不總是成立。為了解決這些問題,圖凝聚首次由[Jin et al., 2022b]引入,開始發揮作用。

結論

在本文中,我們提供了一個結構化且具有前瞻性的圖簡化綜述。我們首先建立了圖簡化的正式定義,然后開發了一個詳細的層次分類法,系統地組織了這一領域內的多樣化方法論。我們的綜述將圖簡化技術劃分為三個主要類別:稀疏化、粗化和凝聚。每個類別代表了一種獨特的方法來減少圖復雜性,同時保留關鍵屬性。在每個類別中,我們系統地深入探討了突出方法的技術細節,并突出顯示了它們在各種現實世界場景中的實際應用。此外,我們闡明了該領域內存在的挑戰,并指出了未來研究努力的潛在方向。我們的目標是激勵和指導即將進行的研究,為圖簡化方法論的持續發展和進步做出貢獻。

付費5元查看完整內容

多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。

在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。

除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下

據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。

近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)我們將現有工作分類為三個目的類別深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。

我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。

通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。

解釋:深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。

影響:訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。

洞察:從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論

本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。

總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

人類反饋強化學習(RLHF)是強化學習(RL)的一個變體,它從人類反饋中學習,而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習(PbRL)的先前工作上,它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑,同時也改善了它們的目標與人類價值觀的一致性。在近年來,大型語言模型(LLMs)的訓練已經令人印象深刻地展示了這一潛力,其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述,探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF,但我們的綜述采取了更廣泛的視角,考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則,闡明算法與人類反饋之間的共生關系,并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景,本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。

1 引言

在強化學習(RL)中,智能體傳統上通過環境導航,并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義,以確保學習智能體接收到學習正確行為所需的信號。然而,手動設計獎勵函數是具有挑戰性的。在許多應用中,成功難以正式定義和衡量。除此之外,稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形(Ng等人,1999),即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響,即因通常與真正目標相關而被獎勵的行為,并不本身具有價值。這最終導致了獎勵黑客問題(Skalse等人,2022b),即學習智能體利用獎勵特定的漏洞以實現不希望的結果,同時仍然產生高獎勵。

作為對這些挑戰的回應,人類反饋強化學習(RLHF)作為一種實際意義上的替代方案出現,它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之,RLHF與RL的不同之處在于,目標是由循環中的人定義并迭代完善的,而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題,而且對智能體對齊有潛在的好處,其中智能體的學習目標與人類價值觀更緊密對齊,促進倫理上健全和社會負責的AI系統。 自上一次類似的綜述(Wirth等人,2017)以來,RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型(LLMs)(OpenAI 2022)到圖像生成(Lee等人,2023),連續控制(Christiano等人,2017)和游戲(Ibarz等人,2018)以及機器人(Hejna等人,2023a)。與此同時,自上次類似的綜述(Wirth等人,2017)以來,方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度(Park等人,2022),使用元學習快速適應學習的偏好到新任務(Ren等人,2022),融合多種反饋類型(Palan等人,2019),使用自監著表征學習提高反饋效率(Metcalf等人,2022),主動合成假設行為進行查詢(Reddy等人,2020),以及優化查詢以便于回答(B?y?k等人,2020b)。最后,RLHF領域也取得了一些理論成果,為基礎數學問題的建模提供了新的見解,但也提出了新的問題。

因此,在這項綜述中,我們討論了RLHF正在進行的研究的當前狀態,分類了當前的方法以及簡潔地描述了它們的主要特征,并對應用領域進行了簡要概述。

1.1 為何需要人類反饋 在傳統的RL中,代理的目標由其旨在最大化的獎勵函數定義(Sutton等人,2018)。特別是在復雜領域,指定這個獎勵函數可能是具有挑戰性的:對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車,合適的獎勵函數是什么樣的?此外,即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為,引發實際和安全問題。從人類反饋中學習代理的目標,可以繞過獎勵工程挑戰,并促進穩健訓練,隨著代理學習,獎勵函數會動態地細化和調整,以適應分布變化。 反饋與示范 逆向RL旨在從人類示范中推斷出獎勵函數(Arora等人,2021)。雖然這可以部分解決獎勵工程挑戰,但它面臨內在困難:(i)通常不可能從示范中穩健地識別獎勵(Cao等人,2021a),(ii)僅適用于可以獲得良好示范的場景,(iii)難以超越示范者的表現,以及(iv)人類通常不會展示他們希望機器采用的行為(Basu等人,2017)。相比之下,交互式反饋可以使用主動查詢區分人類偏好和無關噪聲,比提供示范更容易,不要求人類評估者接近最優表現,并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范,在這種情況下,它可以用來塑造和完善通過初步訓練(如行為克隆)學到的能力,從而防止過擬合于示范行為(Abramson等人,2022)。 避免獎勵工程 在RL中的獎勵工程提出了重大挑戰,因為準確指定獎勵函數是眾所周知的困難(Amodei等人,2016; Knox等人,2023)。通過利用人類反饋,可以緩解這些挑戰,使代理能夠訓練難以手動定義的任務,并幫助避免由不匹配的獎勵引起的安全問題(Skalse等人,2022b)。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題(Gabriel 2020),特別是代理對齊和價值對齊(Kirchner等人,2022)。盡管RLHF在解決這些對齊問題的有效性仍存在爭議(Christiano 2023),但它提出了一個促進對齊的有希望的方法(Leike等人,2018)。 過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵(Lehman等人,2020; Baker等人,2020)或參與獎勵黑客行為(Skalse等人,2022b),即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標(Clark等人,2016)或為避免負面獎勵而過早退出游戲(Saunders等人,2018)的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道,但在諸如醫療保健和自動駕駛等安全關鍵的環境中,其含義則更為嚴重。在這些環境中,防止不匹配的獎勵函數導致有害結果至關重要,比如護理機器人造成傷害或自動駕駛汽車危及道路安全。

1.2 人類反饋強化學習的起源

作為RL的一個子領域,從人類反饋中學習行為已經被研究了很長時間,但方法和術語隨時間發展而演變。如Knox(2012)更詳細討論的早期方法,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的方法,即從人類反饋中推斷目標。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,如行為或給定狀態下行動之間的成對偏好,而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。 由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人(2020)強調,他們將PbRL限定為僅從偏好直接進行策略學習。然而,這與其他來源不同,后者將獎勵學習包括在RLHF的范圍內(Christiano等人,2017;Wirth等人,2017)。

盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。表1提供了我們對這些術語的解釋性概述。

從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究,但隨著時間的推移,方法和術語已經發展。早期方法,如Knox(2012)詳細討論的,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的推斷目標的方法,即從人類反饋中推斷。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。

由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人(2020)將PbRL限定為僅從偏好直接進行策略學習,而Christiano等人(2017)和Wirth等人(2017)則將獎勵學習包括在RLHF的范圍內。

盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。我們的綜述提供了這些術語的解釋性概述。

1.3 綜述范圍

本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。

獎勵建模 我們關注的是從人類反饋中學習獎勵模型,然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略(Wirth等人,2017),但到目前為止,這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。

人類定義 盡管有許多方法將人類包括在RL循環中,但在本綜述中,我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。

互動和在線 我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。 可擴展和異步 我們關注的是將人類包括在循環中,但代理不被人類反饋阻塞,人類也不需要持續存在的工作。 此外,我們主要關注2017年后發表的作品,因為更早的作品已由Wirth等人(2017)綜述。然而,為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念,我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣,將會作出例外。

1.4 先前的綜述

根據上一節提到的標準,我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來,這些領域共享人類參與RL的共同主題。然后,我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。

付費5元查看完整內容

過去十年里,深度神經網絡通過使用小批量隨機梯度下降(mini-batch stochastic gradient descent)訓練方案在大型數據集上展現了顯著的成功。在此基礎上,研究者開始大量探索神經網絡在其他學習場景中的應用。一個受到廣泛關注的框架是元學習(meta-learning)。通常被描述為“學會學習”,元學習是一種以數據為驅動,優化學習算法的方法。其他感興趣的分支包括持續學習(continual learning)和在線學習(online learning),這兩者都涉及使用流數據逐步更新模型。雖然這些框架最初是獨立開發的,但最近的工作開始探討它們的結合,提出新穎的問題設置和學習算法。然而,由于復雜性的提高和缺乏統一術語,即使是經驗豐富的研究人員也可能難以辨識這些學習框架之間的差異。為了促進清晰的理解,本文提供了一份全面的綜述,使用一致的術語和正式描述來組織各種問題設置。通過概述這些學習范式,我們的工作旨在促進這一研究領域的進一步發展。

近年來,深度神經網絡的成功主要基于離線學習框架,該框架涉及使用從大型數據集中以獨立同分布(i.i.d.)方式采樣的小批量進行隨機梯度下降(SGD)。另一方面,人類展示出了令人印象深刻的遞增學習能力,即使是從高度非靜態數據流中也能學習,并且不像深度神經網絡那樣需要大量的訓練數據。此外,人類可以隨著知識和經驗的積累不斷提升其學習能力。因此,已有大量努力致力于使深度神經網絡適應這些類人學習場景。在線學習[1]和持續學習[2],[3]是應對這些挑戰的研究領域的例子。這兩者都通過從數據流中學習來逐步更新模型,但它們在目標和假設上有細微差別。最顯著的是,在線學習假設一個靜態流,而持續學習旨在減輕從非靜態流學習時的災難性遺忘。

另一個重要的研究領域是元學習[4]。與傳統機器學習不同,后者通過訓練集優化模型,元學習專注于以數據驅動的方式優化學習算法,使其產生比手工制作的學習算法更好的模型。因此,它通常被描述為“學會學習”。標準學習只涉及一個學習階段,而元學習包括多個學習階段,這些階段被分為元訓練集和元測試集。通過利用元訓練集中的多個階段提取的元知識,元學習旨在改進元測試集中每個階段的學習。元學習也與多個其他領域密切相關,如小樣本學習[5],[6],[7]和遷移學習[8],[9]。

雖然這些學習框架已經進行了廣泛的單獨研究,但最近在它們的協同結合方面出現了濃厚的興趣,導致了新問題設置和方法的出現。例如,在元持續學習的情況下,傳統元學習的每個階段被替換為一個持續學習階段。這種設置可以被稱為“學會持續學習”。另一個例子是在線元學習,其中學習階段不是一次性提供的,而是作為一系列階段呈現,可以總結為“順序學會學習”。

盡管這些框架每個都具有獨特的特點和重要性,但由于幾個原因它們可能容易混淆。首先,結合多個框架不可避免地增加了問題表述的復雜性。其次,即使問題設置的基本結構相同,個別論文經常引入一些變體,使它們更難以分類。最后,缺乏統一的術語和表述加劇了混淆。

在這種背景下,我們的主要目標是提供一個全面概述,涉及在線學習、持續學習和元學習之間的交叉點。我們建立了統一的符號來組織現有學習框架到一個明確定義的分類中。使用我們的符號,我們首先定義了四個基本學習框架,即離線學習、在線學習、持續學習和元學習。然后,我們將它們的組合分類為五個主要分支:元在線學習、元持續學習、在線元學習、持續元學習和持續雙層學習。對于這些組合學習框架中的每一個,我們提供了一個正式定義,并綜述了相關論文。

雖然我們確實解釋了基本學習框架的概念,但這項工作主要關注它們的組合,目前尚缺乏全面的綜述。雖然不是嚴格必要的,但參考現有的綜述可以促進對話題的更深入理解。我們建議參考在線學習的綜述[1],持續學習的[2],[3],以及元學習的[4]。總而言之,我們的貢獻可以概括如下。首先,我們為在線、持續和元學習的組合定義了清晰的學習框架分類。其次,我們提供了每個類別的全面綜述,識別了各種研究分支。第三,我們探討了剩余的挑戰,并提出了在這個有前景的領域未來工作的潛在途徑。

本文的其余部分安排如下。在§2中,我們介紹了學習框架的定義和分類。我們用正式算法和數據結構的圖形說明補充了描述。在§3-§6中,我們提供了每個學習框架的全面綜述和討論。在§7中,我們討論了剩余的挑戰,并提出了潛在的研究方向。最后,在§8中,我們以一般討論和未來的評論結束。

本節定義了相關學習框架的問題表述。我們根據它們的問題設置,將學習框架分類為八個主要分支:離線學習、在線學習、持續學習(CL)、元學習、元在線學習(MOL)、元持續學習(MCL)、在線元學習(OML)和持續元學習(CML)。解決這些問題的方法將分別在§3-6中描述。圖1展示了每個學習框架的關鍵特征和數據結構,表1總結了我們在本文中使用的統一符號。

付費5元查看完整內容

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。

//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb

近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等

有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下

模式連接性

模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。

對齊

對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。

權重平均

權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。

集成學習

集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。

模型融合的應用

作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。

本工作的主要貢獻總結如下

? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。

? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。

? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。

付費5元查看完整內容

數據增強是通過轉換為機器學習人工創建訓練數據,是機器學習學科中一個廣泛研究的研究領域。雖然它對于提高模型的泛化能力很有用,但它也可以解決許多其他挑戰和問題,從克服有限數量的訓練數據到規范目標到限制數據量用于保護隱私。基于對數據增強的目標和應用的精確描述以及現有的分類法作品,該調查涉及用于文本分類的數據增強方法,旨在實現簡潔和研究人員和從業人員的綜合概述。根據分類法,我們將100多種方法分為12不同的分組,并提供最先進的參考資料,闡述哪些方法非常有前途。最后,研究給出了可能構成未來工作基石的觀點。

//www.zhuanzhi.ai/paper/6a3ab7686edb4fbbc9b7fe15b7a349a4

付費5元查看完整內容
北京阿比特科技有限公司