亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—譜聚類是一種強大的高維數據聚類技術,利用基于圖的表示來檢測復雜的非線性結構和非凸聚類。構建相似度圖對于確保準確有效的聚類至關重要,因此圖結構學習(GSL)在應對日益增長的可擴展解決方案需求中,成為提升譜聚類性能的核心。盡管在GSL方面取得了一定的進展,但目前缺乏專門針對其在譜聚類中的作用的全面調查。為填補這一空白,本調查提供了關于譜聚類方法的全面綜述,重點討論了GSL的關鍵作用。我們探討了多種圖構建技術,包括成對、錨點以及基于超圖的方法,涵蓋固定和自適應設置。此外,我們將譜聚類方法分類為單視角和多視角框架,研究它們在單步和兩步聚類過程中的應用。我們還討論了多視角信息融合技術及其對聚類數據的影響。通過解決當前的挑戰并提出未來的研究方向,本綜述為推動譜聚類方法的發展提供了有價值的見解,并強調了GSL在處理大規模高維數據聚類任務中的關鍵作用。關鍵詞—譜聚類,圖結構學習,譜嵌入,多視角聚類

I. 引言

聚類(Clustering)是無監督學習中的一種基礎技術,旨在將數據點劃分為不同的組或簇,使得簇內的點彼此相似,而與其他簇中的點差異較大【1】–【3】。與監督學習不同,聚類在沒有預定義標簽或類別的情況下運行,而是通過識別數據中的內在模式和結構來實現目標。這使得聚類在探索性數據分析中尤為重要,在此過程中,目標是揭示隱藏的模式,而不依賴于數據結構的先驗假設【4】。聚類被廣泛應用于各個領域,包括市場營銷【5】、社交網絡分析【6】、圖像分割【7】、生物信息學【8】、異常檢測【9】和文檔分類【10】。它簡化了復雜的數據,增強了理解,且常常作為其他機器學習任務(如分類)的預處理步驟。

聚類方法可以大致分為傳統方法和基于降維的聚類方法,如圖1所示。傳統方法包括基于劃分的方法【11】、層次聚類方法【12】、基于密度的方法【13】和概率算法【14】,每種方法都采用不同的策略來對數據進行分組。基于劃分的方法(如K-means)將數據劃分為固定數量的簇,每個簇由一個質心表示【11】。層次方法,如凝聚型和分裂型聚類,通過合并較小的簇(凝聚型)或拆分較大的簇(分裂型)來構建聚類層次【15】【16】。基于密度的方法,如DBSCAN,通過基于高密度區域對數據點進行分組,能夠識別形狀各異的簇【17】。概率方法,如高斯混合模型(GMM),使用概率模型來表示數據分布和聚類【14】。

盡管傳統方法對于低維且結構良好的數據集有效,但當應用于高維或復雜數據時,往往面臨局限性。在高維空間中,點與點之間的距離度量變得困難,通常會導致聚類性能不佳。此外,傳統方法常常無法捕捉非凸形狀和復雜的數據結構。為了應對這些局限性,基于降維的聚類方法應運而生,通過減少特征或維度的數量,使得在較低維度空間中進行聚類,同時保留必要的結構信息。基于降維的聚類方法包括非負矩陣分解(NMF)【18】、譜聚類【19】【20】、核聚類【21】和深度聚類【22】。NMF是一種有效的降維技術,用于將數據矩陣分解為兩個低維的非負矩陣【18】。然而,當處理更加復雜或非線性的數據結構時,可能面臨一定的挑戰。核聚類(包括核K-means和核主成分分析(PCA)等方法)通過應用核函數來處理數據中的非線性關系【21】。譜聚類利用圖論,將數據點表示為圖中的節點,節點之間的相似度則通過邊來表示,并采用如Ratio-cut【23】和Normalized-cut【24】等方法。深度聚類將深度學習與聚類結合,通過神經網絡學習低維表示【22】。盡管深度聚類對于大規模、高維數據非常強大,但它需要大量的計算資源,并且需要細致的超參數調優。在降維技術中,譜聚類因其能夠通過圖結構方法識別非凸簇并捕捉非線性結構,而在處理復雜數據時表現尤為突出。譜聚類通過將數據點表示為圖中的節點,并使用基于圖的嵌入方法,根據數據點之間的連通性和關系來劃分數據。這種靈活性使得譜聚類能夠應用于各種領域中的問題,特別是在結合有效的圖構建技術時。譜聚類尤其適用于高維數據,在這種情況下,譜嵌入通過降低維度同時保留必要的結構信息,從而緩解了“維度災難”問題,并使得非線性模式的聚類變得可靠。對于大規模數據集,基于錨點圖的譜聚類通過使用一部分代表性點(或稱為錨點)來高效近似數據點之間的關系,從而提供了一種可擴展的解決方案,既節省了計算資源,又保證了聚類質量。因此,譜聚類具有很強的靈活性和可擴展性,能夠適應高維和大規模數據的應用,是進行復雜聚類任務的強大工具【21】【25】。譜聚類成功的關鍵因素之一是相似度圖的構建,圖結構是整個過程的基礎。這個圖表示了數據點之間的關系,節點對應數據點,邊表示它們之間的成對相似度。圖的質量顯著影響譜嵌入和聚類結果,因為它直接決定了數據底層結構的捕捉精度【25】。在譜聚類中,常用的圖類型包括成對圖【26】、錨點圖【27】【28】和超圖【29】【30】。不同類型的圖在數據的性質不同的情況下提供了各自的優勢。這些圖可以是固定的,即結構在整個聚類過程中保持不變,也可以是自適應的,即在聚類過程中動態學習并更新圖的結構。盡管在譜聚類,尤其是在圖像分割【31】、文本分類【32】和工業設計【33】等領域取得了進展,但仍缺乏一篇全面的綜述,專門探討圖結構學習(GSL)在譜聚類中的作用。為填補這一空白,本調查提供了關于譜聚類的廣泛綜述,特別強調了圖結構在提升聚類準確性方面的關鍵作用。雖然先前的綜述【34】提供了關于譜聚類的概述,重點討論了圖切割、拉普拉斯矩陣和聚類過程,但我們的綜述深入探討了更為具體且至關重要的GSL方面。先前的綜述側重于譜聚類的數學基礎和應用,但沒有廣泛探討圖的構建方式及其對聚類性能的影響。相較之下,我們的綜述突出了圖構建技術的作用,包括成對、錨點和超圖方法,并探討了固定和自適應形式下的應用。此外,我們將譜聚類方法分類為單視角和多視角方法,分析它們在單步和兩步框架中的應用。這些框架的區別在于聚類是否作為獨立步驟,在譜嵌入之后進行,還是與譜嵌入一起聯合優化。我們還對多視角譜聚類中的信息融合技術進行了更深入的探討,這一領域在先前的綜述中沒有涉及,提供了關于如何通過整合來自多個來源的數據來增強聚類性能的新見解。這對于處理復雜、異構和高維數據尤為重要,是推動多視角譜聚類發展的重要貢獻。

本綜述的貢獻如下:

  • 我們首次提供了關于譜聚類的最全面且詳細的綜述,特別強調了GSL,突出了其在提升聚類準確性方面的重要性。
  • 我們對各種圖構建技術進行了全面回顧,包括成對、錨點和超圖,并探討了它們在固定和自適應形式下的應用。此外,我們將譜聚類方法分為單視角和多視角方法,分析了這些方法中不同圖構建技術的應用,以及它們在單步和兩步聚類框架中的應用。
  • 我們討論了多視角譜聚類中的信息融合技術,提供了關于如何通過整合來自多個來源的數據來提升聚類性能的新見解。這對于處理復雜、異構和高維數據具有特別重要的意義,是推動多視角譜聚類研究的重要貢獻。
  • 我們分析了譜聚類和圖學習領域的最新研究進展、出現的挑戰以及未來可能的研究方向。這包括確定有前景的研究領域,并推動更先進算法的發展,促進該領域的成長與演化。 本文的結構如下:第二節我們提供了譜聚類的詳細背景。第三節介紹了譜聚類的主要階段,包括圖結構學習、譜嵌入和分割階段。第四節提供了基于單視角和多視角方法、圖結構類型以及單步和兩步框架的譜聚類方法的綜合分類,并探討了每一類別中的不同譜聚類方法。第五節討論了未來的研究方向,最后,第六節給出了結論。

付費5元查看完整內容

相關內容

在多元統計和數據聚類中,頻譜聚類技術利用數據相似性矩陣的頻譜(特征值)在聚類成較小維之前執行降維。 提供相似度矩陣作為輸入,并包括對數據集中每對點的相對相似度的定量評估。在圖像分割中的應用,光譜聚類被稱為基于分割的對象分類。

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。

關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG

I. 引言

大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在

本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。

與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。

付費5元查看完整內容

摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:

//github.com/qianlima-lab/awesome-lifelong-llm-agent.

關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)

1 引言

“智慧是適應變化的能力。” ——斯蒂芬·霍金

終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。

1.1 構建終身學習LLM智能體的動機

近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。

將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。

1.2 本調查的范圍

本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。

1.3 本調查的貢獻

據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:

  • 基礎概述:提供了實現LLM智能體終身學習的基礎概念和架構的全面概述。
  • 深入的組件分析:分析了感知、記憶和行動模塊等關鍵組件,這些組件使LLM智能體能夠進行適應性行為。
  • 全面討論:討論了現實世界應用、評估指標、基準,以及終身學習LLM智能體領域的關鍵挑戰和未來研究方向。

1.4 調查結構

本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。

終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。

終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。

接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。

付費5元查看完整內容

摘要—視覺目標跟蹤(VOT)是計算機視覺領域一個具有吸引力且重要的研究方向,其目標是在視頻序列中識別和跟蹤特定目標,且目標對象是任意的、與類別無關的。VOT技術可以應用于多種場景,處理多種模態的數據,如RGB圖像、熱紅外圖像和點云數據。此外,由于沒有單一傳感器能夠應對所有動態和變化的環境,因此多模態VOT也成為了研究的重點。本文全面綜述了近年來單模態和多模態VOT的最新進展,特別是深度學習方法的應用。具體而言,本文首先回顧了三種主流的單模態VOT,包括RGB圖像、熱紅外圖像和點云跟蹤。特別地,我們總結了四種廣泛使用的單模態框架,抽象出其架構,并對現有的繼承方法進行了分類。接著,我們總結了四種多模態VOT,包括RGB-深度、RGB-熱紅外、RGB-LiDAR和RGB-語言。此外,本文還呈現了所討論模態在多個VOT基準測試中的對比結果。最后,我們提出了建議和深刻的觀察,旨在激發這一快速發展的領域的未來發展。 關鍵詞—視覺目標跟蹤,深度學習,綜述,單模態,多模態

//www.zhuanzhi.ai/paper/2edd0971ae625f759822052af4d569fd

1 引言

視覺目標跟蹤(VOT)是過去幾十年來計算機視覺領域的一個高度活躍的研究課題,因其在視頻監控 [1]、[2]、[3]、自動駕駛 [4]、[5]、移動機器人 [6]、[7]、人機交互 [8]、[9] 等廣泛場景中的重要應用而受到關注。VOT任務的定義是:給定目標在第一幀中的邊界框位置,跟蹤器需要在隨后的所有幀中持續且魯棒地識別和定位該目標,其中目標可以是任意實例且不依賴于類別。這個任務非常具有挑戰性,因為:1)目標可能經歷諸如形變、旋轉、尺度變化、運動模糊和視野丟失等復雜的外觀變化;2)背景可能帶來諸如光照變化、相似物體干擾、遮擋和雜亂等無法控制的影響;3)視頻捕捉設備可能會震動和移動。 作為計算機視覺中的一項核心任務,VOT有多種數據模態可供選擇。最常見的模態是RGB視頻,因其普及和易獲取性,吸引了大量研究者關注這一任務。RGB模態的VOT提供了在圖像坐標系下的大致目標位置,并通過二維邊界框為許多高級圖像分析任務奠定了基礎,例如姿態估計、步態/活動識別、細粒度分類等。基于RGB的VOT的演進 [2]、[10]、[11]、[12] 是持久且歷史悠久的,隨著深度學習 [13]、[14]、[15]、[16]、[17] 和大規模數據集 [18]、[19]、[20] 的出現,這一進展進一步加速。本文主要關注過去十年中的方法,特別是基于深度神經網絡(DNN)的方法。根據其工作流程,我們將主流的RGB跟蹤器分為四類:判別性相關濾波器(DCF) [17]、[21],Siamese跟蹤器 [22]、[23]、[24],實例分類/檢測(ICD) [25]、[26]、[27] 和單流變換器(OST) [1]、[28]、[29]。為了便于說明,圖3展示了這四種基于深度學習的框架及其最簡化的組件。前兩種框架在過去十年中非常流行,而后兩種則較少被提及,甚至在以往的綜述中沒有出現過,因為ICD不像DCF和Siamese那么常見,OST則是一個自2022年才出現的新框架。 另一方面,RGB模態的缺點也非常明顯,應用場景受到限制。首先,它在夜間和惡劣天氣(如雨天和雪天)下的表現不盡如人意。在這些嚴酷的視覺條件下,可以使用基于熱紅外(TIR)的VOT [30]、[31]、[32],通過TIR攝像機捕捉來自生物體的熱輻射,在沒有光照的情況下跟蹤目標。其次,缺乏深度信息使得單一的RGB模態VOT無法感知三維幾何和定位信息,這在自動駕駛和移動機器人等應用場景中尤為重要。最近,基于LiDAR的VOT [5]、[33]、[34]、[35] 應運而生,解決了這一問題,通過探索3D點云的內在幾何結構來感知目標的深度。LiDAR點的幾何結構有助于感知目標物體的深度,從而提供精確的3D形狀和位置。因此,本文還概述了兩種單模態VOT方法(基于TIR和LiDAR的)。此外,容易發現這些模態之間的共同框架,以便更好地理解。例如,基于TIR的跟蹤器通常遵循DCF和Siamese框架,因為TIR數據格式與RGB圖像非常相似。同樣,基于LiDAR的VOT借用了RGB模態中的Siamese框架,并將其發展為主導3D跟蹤領域的方法。 此外,由于不同的單模態VOT各有優缺點,因此也提出了融合多模態信息的跟蹤器,具有提高精度和魯棒性的潛力。更具體地說,融合意味著將兩種或多種模態的信息結合起來進行目標跟蹤。例如,TIR傳感器對光照變化、偽裝和物體姿態變化不敏感,但在人群中區分不同人的TIR輪廓會比較困難。另一方面,RGB傳感器則具有相反的特性。因此,直觀地將這兩種模態進行融合,可以互相補充 [36]、[37]、[38]。此外,融合選擇可能根據不同的應用有所不同。例如,RGB-LiDAR [39]、[40] 可以是適用于機器人跟隨的良好選擇,因其需要準確的3D信息;而RGB-語言VOT [8]、[9]、[41] 則適用于人機交互。隨著實際需求的增加,VOT領域的一些研究者已轉向集成多種模態,以構建魯棒的跟蹤系統。 現有關于VOT的綜述論文主要集中在單一RGB模態方法的不同方面和分類 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]。例如,最近的綜述 [46] 將現有的RGB跟蹤器分為生成性跟蹤器和判別性跟蹤器。Javed等人 [43] 介紹了兩種廣為人知的RGB基VOT框架,即DCF和Siamese。然而,這些以往的工作未包含最新流行的基于變換器的方法,而這些方法不僅建立了新的最先進的性能,還帶來了許多有洞察力的研究方向。此外,ICD框架的展示也不夠充分。而且,關于多模態VOT的綜述非常少,要么僅討論了兩種模態(RGB-Depth和RGB-TIR) [51],要么側重于多線索特征的融合(如顏色、梯度、輪廓、空間能量、熱輪廓等) [52]、[53]。在過去五年里,我們目睹了多模態VOT的顯著進展。同時,新的研究方向如基于LiDAR的VOT、RGB-LiDAR VOT和RGB-語言VOT相繼出現。然而,這些研究在以往的VOT綜述中未被很好地總結。 本文從數據模態的角度,系統地回顧了VOT方法,考慮了單模態VOT和多模態VOT的最新發展。我們在圖1中總結了所回顧的模態及其代表性示例、優缺點和應用。具體而言,我們首先概述了三種常見的單模態VOT方法:基于RGB、基于TIR和基于LiDAR的。接下來,我們介紹了四種多模態融合跟蹤方法,包括RGB-Depth、RGB-TIR、RGB-LiDAR和RGB-Language。除了算法外,我們還報告并討論了不同模態的VOT基準數據集及其結果。本文的主要貢獻總結如下:

  1. 我們從數據模態的角度全面回顧了VOT方法,包括三種常見的單模態(RGB、TIR、LiDAR)和四種多模態(RGB-Depth、RGB-TIR、RGB-LiDAR、RGB-Language)。據我們所知,這是第一篇綜述工作,展示了新興的基于LiDAR、RGB-LiDAR和RGB-Language的VOT方法。
  2. 我們總結了四種廣泛使用的基于深度神經網絡的單模態跟蹤器框架,抽象出其架構并展示了其對應的定制繼承者。
  3. 我們提供了對VOT社區中300多篇論文的全面回顧,涉及最新和先進的方法,為讀者提供了最先進的技術和工作流程。
  4. 我們對不同模態的現有方法在廣泛使用的基準測試中的表現進行了廣泛比較,并最終給出了深刻的討論和有前景的未來研究方向。

本文的其余部分安排如下:第2節介紹現有的VOT綜述,并闡述本文的不同方面。第3節回顧了使用不同單一數據模態的VOT方法及其比較結果。第4節總結了多模態VOT方法。第5節介紹了不同模態的VOT數據集。最后,第6節討論了VOT的未來發展潛力。由于篇幅限制,部分結果表格,包括單模態和所有多模態結果,已移至附錄A,且不同模態的VOT數據集介紹見附錄B。

付費5元查看完整內容

摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。

最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:

  • 我們提供了與現有綜述論文相比,更全面和詳細的關于大模型和一般微調方法論的基礎知識概述。這部分內容不僅涵蓋了大模型的基本原理、結構和技術,還提供了它們在自然語言處理、多模態活動和其他領域的實際應用的深入概述。
  • 我們的調查涵蓋了最新的研究方法論,突出展示了大模型領域的最新進展。這確保了我們的綜述內容全面且詳盡。我們的綜述范圍廣泛,涵蓋了自然語言處理、多模態任務和計算機視覺等多個場景,使讀者能夠全面理解大模型技術的現狀和未來前景。
  • 在回顧和分析當前方法后,我們提出了一些創新和面向未來的研究方向。這些領域考慮到了先進模型技術的增長潛力,并結合了實際應用中行業需求和障礙,提出了可行和創新的研究途徑。

本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。

付費5元查看完整內容

摘要——圖上的分布偏移,即訓練和使用圖機器學習模型時數據分布之間的差異,在現實場景中普遍存在且常常不可避免。這些分布偏移可能會嚴重削弱模型性能,給可靠的圖機器學習帶來重大挑戰。因此,針對分布偏移下的圖機器學習研究激增,旨在訓練模型在分布外(OOD)測試數據上實現令人滿意的表現。在本綜述中,我們提供了關于分布偏移下深度圖學習的最新且具有前瞻性的回顧。具體而言,我們涵蓋了三個主要場景:圖的OOD泛化、訓練階段的圖OOD自適應,以及測試階段的圖OOD自適應。我們首先對問題進行正式表述,并討論可能影響圖學習的各種分布偏移類型,如協變量偏移和概念偏移。為便于理解相關文獻,我們基于提出的分類法系統地對現有模型進行分類,并研究其背后的技術方法。此外,我們還總結了該研究領域中常用的數據集,以便于進一步探索。最后,我們指出了一些有前景的研究方向及其相應的挑戰,以推動這一重要領域的進一步研究。此外,我們在 //github.com/kaize0409/Awesome-Graph-OOD 上提供了持續更新的閱讀列表。

關鍵詞——圖學習,分布偏移,圖的分布外泛化,圖的分布外自適應。

1 引言

受圖結構數據在眾多實際場景中普遍存在的驅動,圖機器學習逐漸獲得了越來越多的關注,因為它能夠有效地捕獲圖中實體之間的關系與依賴性。尤其是圖神經網絡(Graph Neural Networks, GNNs)通過消息傳遞機制[1], [2], [3],在圖上進行表示學習,已在社交網絡、物理問題和交通網絡等多個應用領域展現了顯著成效[4], [5], [6]。

盡管圖機器學習取得了顯著的成功,但大多數現有方法假設測試數據的分布與訓練數據相同,而這種假設在真實環境中往往不成立。當面對分布外(Out-of-Distribution, OOD)樣本時,圖機器學習方法的性能可能大幅下降,限制了其在金融和醫療等高風險圖應用中的有效性[7]。盡管已有眾多遷移學習方法被提出以應對歐幾里得數據的分布偏移[8], [9], [10],但直接將這些方法應用于圖數據存在挑戰。這是由于圖中的實體是相互關聯的,違背了傳統遷移學習方法中獨立同分布(IID)假設。此外,各類圖分布偏移帶來了新的挑戰。這些偏移存在于特征、結構和標簽等不同模態中,表現形式多種多樣,包括圖大小、子圖密度和同質性等的變化[11]。鑒于這些障礙,越來越多的研究致力于提高圖機器學習在分布偏移下的可靠性,主要集中在三個場景:圖的OOD泛化[7], [11]、訓練階段的圖OOD自適應[12], [13],以及測試階段的圖OOD自適應[14], [15]。

圖的OOD泛化與自適應方法的主要區別在于對目標數據可用性的假設。圖的OOD泛化方法通常假設在模型訓練過程中目標數據不可用,旨在提升模型對任何潛在未見測試分布的泛化能力。相反,訓練階段和測試階段的自適應方法則假設目標數據可用,目標是提高模型在該特定目標上的表現。然而,兩者在對源數據的假設和如何利用源分布知識方面有所不同。訓練階段的自適應假設源圖和目標圖同時可用,使得模型可以從頭開始在訓練過程中進行適應;而測試階段的自適應通常假設訪問的是預先在源圖上訓練好的模型,而非源圖本身,然后從該預訓練狀態開始適應目標數據。盡管圖的OOD泛化、訓練階段的OOD自適應和測試階段的OOD自適應密切相關,但目前尚無統一的框架能夠全面探討這三個場景下的深度圖學習在分布偏移下的表現。 隨著圖OOD學習領域的最新進展,對該領域的最新且具有前瞻性的回顧顯得尤為必要。在本綜述中,我們提供了據我們所知的第一個關于分布偏移下深度圖學習的統一、系統性的文獻回顧。我們首先對問題進行正式表述,討論圖機器學習中不同類型的圖分布偏移。接著,我們提出了新的分類法,將現有方法根據模型學習場景分為三類:(1) 圖的OOD泛化,通過對源數據訓練時的模型設計提升泛化能力;(2) 訓練階段的圖OOD自適應,通過基于源數據和目標數據的聯合訓練實現適應[16], [17];(3) 測試階段的圖OOD自適應,通過將預訓練源模型調整至目標數據進行適應[18], [19]。

為了加深對這些方法的理解,我們進一步將每類中的現有方法分為模型中心和數據中心策略。模型中心的方法關注于學習過程或圖模型架構本身,通過優化模型結構、訓練目標或學習機制來增強模型在分布偏移下的泛化或適應能力。相比之下,數據中心的方法強調對輸入圖的處理,通過預處理技術或數據增強策略直接提升模型性能。在每個研究子方向中,我們詳細介紹了在圖分布偏移下提升泛化性或適應性的技術。此外,我們總結了該研究領域使用的數據集,著重介紹了它們的特征以及與分布偏移挑戰的相關性。基于圖OOD學習的當前進展,本文最后指出了該領域中一些有前景的研究方向及相應的挑戰。

與現有綜述的差異

盡管圖學習在分布偏移下急需概覽,但現有綜述主要聚焦于該領域內的某些子領域,而未能從多場景的角度提供全面的概述。目前已有一些相關領域的綜述,但其關注點各不相同,包括圖的OOD泛化[7], [20]、圖域適應[21], [22]、分布偏移相關的可信圖學習[23]。本綜述的不同之處體現在以下方面:(1) 主要關注點。我們的綜述重點是分布偏移下圖學習的挑戰和解決方案,而[23]從可信性的角度分析了OOD問題,但未深入探討方法學層面。相反,[20]從因果視角審視圖機器學習,范圍較我們廣泛探討的角度更為狹窄。(2) 分類法。我們提供了現有方法的全面分類并對其進行了總結,而相關工作如[24]則缺少類似總結。其他綜述如[21]和[22]主要聚焦于域適應,未涉及更廣泛的圖OOD學習。此外,我們還涵蓋了該領域最新進展及討論。

綜述結構

本綜述的總體結構如下:第2節介紹符號和預備知識。第3、4和5節分別回顧圖的OOD泛化、訓練階段的圖OOD自適應以及測試階段的圖OOD自適應。每節在相應場景下討論模型中心和數據中心方法,并詳細介紹每類方法的相關技術。此外,第6節對文獻中使用的數據集進行了全面總結,重點介紹了常用的圖數據集及其與分布偏移挑戰的相關性。第7節探討了該領域中有前景的未來研究方向及相關挑戰。最后,第8節總結了本綜述的內容。

正如問題定義所示,圖的OOD泛化、訓練階段圖的OOD自適應和測試階段圖的OOD自適應在模型學習場景上存在顯著差異。具體而言,圖的OOD泛化方法假設目標數據不可訪問,僅使用源數據;訓練階段圖的OOD自適應方法同時涉及源數據和目標數據,并從零開始訓練模型,而測試階段圖的OOD自適應方法則假設源數據不可用,旨在將預訓練的源模型適應至目標數據。因此,在接下來的三部分中,我們首先將現有方法分類為圖的OOD泛化、訓練階段的圖OOD自適應和測試階段的圖OOD自適應。在每一部分中,我們進一步將方法細分為模型中心方法和數據中心方法。模型中心方法聚焦于學習過程或圖模型的設計,而數據中心方法則側重于對輸入圖的處理,例如變換圖結構或特征。我們的分類體系如圖2所示。

付費5元查看完整內容

摘要

自2017年引入以來,物理信息神經網絡(PINNs)已成為科學機器學習中的關鍵工具,使得利用稀疏測量高效求解常微分方程和偏微分方程成為可能。近年來,PINNs在訓練和優化方面取得了顯著進展,包括網絡架構、自適應細化、域分解,以及自適應權重和激活函數的使用。一個顯著的近期發展是物理信息Kolmogorov–Arnold網絡(PIKANs),該網絡利用了Kolmogorov在1957年提出的表示模型,為傳統PINNs提供了一種有前景的替代方案。在本綜述中,我們全面介紹了PINNs的最新進展,重點關注網絡設計、特征擴展、優化技術、不確定性量化以及理論見解的改進。我們還概述了其在多個領域中的關鍵應用,包括生物醫學、流體和固體力學、地球物理學、動力系統、熱傳導、化學工程等。最后,我們回顧了由學術界和工業界開發的支持PINN研究和應用的計算框架和軟件工具。

關鍵詞:物理信息神經網絡;Kolmogorov-Arnold網絡;優化算法;可分解的PINNs;自適應權重;不確定性量化

1. 引言

有限元方法(FEM)在過去幾十年里一直是計算科學與工程(CSE)的基石,但在20世紀60年代初期首次發表相關研究時曾受到質疑。盡管FEM在學術研究和工業應用中取得了成功,但除非使用復雜的數據同化方法,否則FEM無法輕易整合測量數據,使得大規模計算成本高昂。FEM和其他傳統數值方法在解決已知邊界和初始條件以及所有材料參數的良定問題上效果顯著。然而,在實際應用中,這些條件往往存在缺漏,因此需要做出任意假設。例如,在功率電子冷卻應用中,需要假設墻壁的熱邊界條件。這可能導致錯誤的結果,因為在此類問題中,關注點通常是位于表面的最高溫度或最高熱流,而錯誤的假設恰恰應用于此類區域。相反,可用的可能只是一些稀疏的測溫數據,無論是在表面上還是在感興趣區域內部。不幸的是,當前的數值方法(如FEM)無法有效利用這些測量數據,從而導致系統的關鍵實驗信息丟失。另一方面,神經網絡基于任何精度或模式的數據進行訓練,因此數據同化在此設置中是一個自然過程。

物理信息神經網絡(PINNs)正是為了滿足這一需求而開發的,考慮了模擬場景中的部分已知物理定律,但并非完整知識,且對某些狀態變量存在稀疏測量,而非全部。因此,PINNs為將物理定律編碼到神經網絡中提供了一個框架【1】,并彌合了傳統物理模型和現代純數據驅動方法之間的脫節。具體而言,PINNs通過在目標函數中加入一個額外的“殘差”損失項,將底層偏微分方程(PDE)作為軟約束納入其中。PINNs在所有科學領域中都能夠有效解決正向和反向問題。它們可以結合稀疏和噪聲數據,因此在獲取準確測量結果困難或昂貴的情況下尤為有效。PINNs的一項關鍵創新是基于計算圖的自動微分的使用,使其能夠精確處理守恒定律中的微分算子,并且消除了耗時且限制解精度的網格生成需求。

自2017年在arXiv上出現的兩篇原創論文【2, 3】以及2019年隨后的聯合出版論文【1】以來,CSE社區充滿了興奮,來自全球各科學領域的研究團隊提出了許多關于該方法不同方面的重要改進。在撰寫本文時,論文【1】的引用量已超過11000次,許多研究探討了PINNs在不同科學領域的適用性,同時提出了算法改進以應對原始設計的局限性。在本綜述中,我們匯編了大多數主要的算法開發成果,并列出PINNs在不同學科領域的廣泛應用。附錄中展示了一些關于PINNs的重要文獻時間線,從PINNs【2】到PIKANs【4】。

現有的綜述,如【5-8】,總結了PINNs的關鍵方面,而本文的不同之處在于我們對最新的算法進展進行了更廣泛的概述,并涵蓋了PINNs在更多科學學科中的應用。綜述【5】和【6】主要關注PINNs在各領域的方法和應用,較少強調最近的算法改進。綜述【8】簡要概述了PINNs及其擴展,并以數據驅動的方程發現為例,但并未深入探討PINNs的應用。綜述【7】則包括了算法發展的討論,但其應用范圍局限于熱管理和計算流體力學。此外,一些綜述聚焦于特定應用領域。例如,【9】和【10】回顧了PINNs在流體動力學中的應用,而【11】則專注于電力系統的應用。相較之下,【12】進行了120篇研究論文的文獻計量分析,突出了PINNs研究中的主要出版趨勢、高被引作者和主要國家。

本文的結構如圖1所示。在第2節中,我們概述了物理信息機器學習的一般框架。第3節對旨在改進PINNs的主要技術進行了全面總結。第4節概述了PINNs的多樣化應用。第5節重點介紹了PINNs中的不確定性量化方法。第6節總結了PINNs背后的理論發展。第7節回顧了各種計算框架和軟件。最后,在第8節中,我們提供了討論和未來展望。

2. 物理信息機器學習(PIML)

物理信息機器學習(PIML)已成為求解正問題和逆問題中偏微分方程(PDEs)的傳統數值方法的強大替代方案。PIML最早由Raissi、Perdikaris和Karniadakis在一系列論文中提出【13】,基于高斯過程回歸(GPR);另見同一作者的專利【14】。然而,本文將回顧PIML利用神經網絡和自動微分的后續發展,起始于2017年在arXiv上的兩篇論文【2, 3】,隨后于2019年合并為一篇論文【1】。值得注意的是,早期論文【15, 16】嘗試求解PDE(正問題),但未進行數據融合或自動微分。本文介紹的PIML采用表示模型,如多層感知器(MLP)或Kolmogorov-Arnold網絡(KAN)【4】,以最小化包含多項的損失函數來逼近常微分方程(ODEs)或偏微分方程(PDEs)的解,并符合給定的數據和約束條件。特別地,該損失函數旨在擬合可觀測數據或其他物理或數學約束,同時滿足底層物理定律,例如守恒定律【1, 17】。

與傳統數值方法不同,大多數PIML模型不依賴于預定義的網格或網格劃分,從而能夠高效處理復雜幾何和高維問題。通過自動微分,PIML模型無需離散化即可準確計算導數,將物理定律與數據無縫整合。這種靈活性使PIML模型能夠利用部分信息來逼近解,非常適合揭示隱藏參數【1】,以及從現實世界數據中重建【18】或推斷隱藏場【19】。此外,PIML模型在處理高維PDE【20】、耦合系統【21, 22】、隨機微分方程【23】和分數階PDE【24】方面表現出色,同時通過在現代硬件(如GPU)上的并行化實現了可擴展性【25】。這使得PIML模型能夠以較低的計算開銷高效處理多物理問題和大規模模擬,相比傳統方法更為高效。PIML對特定的控制方程無偏見,因此在此我們考慮以下非線性ODE/PDE:

其中,u是表示模型,θ為其可學習參數。由于u是連續且可微的,因此可以通過自動微分計算源項和邊界項f和b,表示為Fτ [u]和Bτ [u]【1】。PIML訓練的目標是找到最優的可學習參數,以最小化逼近解與真解的已知組成部分之間的累積誤差,如控制方程、邊界條件或數據殘差。該框架還可以通過為每個逼近解疊加約束,輕松擴展到ODE/PDE系統【19】。

一般來說,當方程參數τ已知且邊界條件已規定時,稱為正問題,此時不需要域內的觀測數據【1, 27】。相反,當ODE/PDE系統中的τ、邊界條件或隱藏場等部分信息未知時,稱為逆問題,目標是從現有數據或觀測中同時推斷未知信息和解【19】。整個PIML框架的示意圖如圖2所示。

PIML的算法發展

根據第2節概述的PIML框架,可以確定其三個關鍵組成部分:(1) 一個用于逼近解的表示模型,(2) 控制方程(例如ODE或PDE),以及(3) 一個優化過程,通過最小化多目標損失函數以找到最優的可學習參數(見圖2)。當前研究通過針對這三方面的多種方法顯著提升了PIML的基礎性能,即對表示模型的改進、控制方程處理的進步,以及優化過程的改善。

PIML的應用

大量研究表明,PIML在廣泛的領域中取得了成功。本文對PIML在生物醫學、力學、地球物理學、動力系統、控制與自主性、傳熱學、物理學、化學工程及其他相關領域的應用進行了精選而全面的回顧。

付費5元查看完整內容

摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。

關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習

1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:

  • 挑戰1(模態不平衡)。模態不平衡指的是在多模態系統中對不同模態進行不均衡處理或表示,這種不平衡在數據和參數層面上都有體現。在數據層面,不同模態的數據可用性在CL過程中可能顯著不同,可能出現極端不平衡的情況,如某些模態的缺失【28】。在參數層面,不同模態特定組件的學習速率可能有所不同,導致跨所有模態的整體不平衡學習過程【34】。因此,MMCL模型可能會遭受性能下降,甚至在某些情況下其表現可能比單模態模型還要差【32, 36】。
  • 挑戰2(復雜模態交互)。模態交互發生在模型組件中,即多模態輸入信息的表示之間進行顯式交互。這一交互在MMCL中引入了獨特的挑戰,主要體現在兩個交互過程中:模態對齊和模態融合【37】。在模態對齊中,不同模態的單一數據樣本的特征在持續學習過程中往往會發生偏離,這種現象被稱為MMCL中的空間紊亂【38】。在模態融合中,傳統的多模態融合方法在非CL環境中效果良好,但在MMCL環境中可能表現較差,因為不同的融合技術對解決遺忘問題的影響各不相同【36, 39】。
  • 挑戰3(高計算成本)。MMCL中的多模態整合顯著增加了模型和任務特定層面的計算成本。在模型層面,增加模態不可避免地增加了可訓練參數的數量。許多MMCL方法利用預訓練的多模態模型作為基礎,但持續地微調這些大規模模型會導致沉重的計算負擔【42, 43】。這些不斷增加的計算需求對MMCL方法的實際部署提出了嚴格的可擴展性要求。
  • 挑戰4(預訓練零樣本能力的退化)。隨著預訓練模型的進步,MMCL方法可以借助這些強大的基礎模型。預訓練的多模態模型通常具有在未見過的任務上實現零樣本能力的優勢【44, 45】。然而,在MMCL的連續微調過程中,預訓練基礎模型的一些初始能力可能會下降,這種退化風險可能導致未來任務的性能嚴重下降【45】。 貢獻。為了應對這些挑戰,研究人員正日益關注MMCL方法。我們首次提供了MMCL的全面綜述。我們總結了當前的數據集和基準測試,以促進研究和實驗,并在快速發展的MMCL領域內討論了未來的研究方向。總之,我們的綜述有以下主要貢獻:
  1. 我們提供了第一個全面的MMCL綜述。我們詳細介紹了MMCL的背景知識,包括基本的設定、不同的MMCL場景和常用評估指標。
  2. 在我們的MMCL方法分類體系中,我們將現有的MMCL工作分為四個類別,并提供了詳細的子類別解釋。
  3. 我們總結了當前的數據集和基準,并討論了未來的研究方向,旨在激發創新性研究,從而促進更有效的MMCL方法的發展。

多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:

  • 類增量學習(Class-incremental Learning, CIL):不同任務間的數據分布和標簽空間不同,且測試階段不提供任務ID。模型需能在所有已學類別間進行分類。
  • 領域增量學習(Domain-incremental Learning, DIL):不同任務間的數據分布不同,但共享相同的標簽空間。測試階段不需要任務ID。
  • 任務增量學習(Task-incremental Learning, TIL):不同任務的數據分布和標簽空間均不同,且測試階段提供任務ID,模型知道執行的是哪個任務。 此外,為了適應多模態數據,定義了兩種新的場景:
  • 生成式領域增量學習(Generative Domain-incremental Learning, GDIL):此場景用于生成式任務,例如視覺問答。與CIL不同,GDIL中的模型輸出來自一個較大的詞匯集。
  • 模態動態任務增量學習(Modality-dynamic Task-incremental Learning, MDTIL):任務序列中的模態可能變化,模型在測試階段獲得任務ID,并適應不同的模態組合。

3 方法學

在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。

**3.1 基于正則化的方法

基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:

  • 彈性權重保持(Elastic Weight Consolidation, EWC):通過利用Fisher信息矩陣對參數賦予權重,從而實現參數保護,避免重要參數發生顯著改變。EWC的變種方法例如EWCH和在線EWC通過單一正則化項的方式進一步提高了效率。
  • 任務相關性調節(Task Importance Regularization, TIR):這是MMCL中的一種方法,基于BLIP2等多模態模型。它通過計算新舊任務之間的相似性來動態調整正則化權重,以適應長期持續學習的需求。 3.1.2 隱式正則化隱式正則化方法主要關注于在訓練新任務時盡量保持模型對舊任務輸出的一致性,從而減少遺忘風險。與顯式正則化不同,隱式正則化方法僅在參數變化導致模型輸出改變時才施加懲罰,因此允許參數更自由地調整。隱式正則化常見的方式是知識蒸餾(KD),通常包括以下幾種策略:
  • 基于logits的蒸餾(Logits-based KD):通過對比新模型和舊模型在最后一層輸出的logits,盡量讓新模型在訓練新任務時保持與舊任務相似的輸出分布。
  • 基于特征的蒸餾(Feature-based KD):不僅關注最終輸出,還在中間層的特征上進行對比,從而保留中間表征。
  • 基于關系的蒸餾(Relation-based KD):使用樣本間的關系信息進行對比,如在視覺-語言模型中,可以利用圖像和文本之間的相似度來進行知識轉移。 典型的單模態模型中,LwF(Learning without Forgetting)是一種經典的隱式正則化方法,它在訓練新任務前使用當前數據生成舊任務的輸出,并在訓練時通過KD損失來最小化新任務下的輸出變化。LwF因其無需顯式存儲舊任務數據的特性,被廣泛應用于多模態和單模態CL模型中。在多模態模型中,隱式正則化方法進一步擴展并改進了KD策略以適應不同的模態。例如,ZSCL(Zero-Shot Continual Learning)和Mod-X都使用CLIP作為基礎模型,通過KD技術保留零樣本能力。此外,Mod-X還關注空間無序(Spatial Disorder)問題,以解決視覺和語言表征在持續訓練過程中逐漸偏離的問題。

3.2 基于架構的方法

架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。

**3.2.1 固定架構

固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。

**3.2.2 動態架構

動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。

3.3 基于重放的方法

重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。

**3.3.1 直接重放

直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。

**3.3.2 偽重放

偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。

3.4 基于提示的方法

基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。

4 數據集和基準

本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。

**4.1 基于原始數據集的基準

這一部分總結了兩個專門為MMCL構建的數據集:

  • P9D:Zhu等人【68】利用電商數據構建了首個視覺-語言持續預訓練數據集P9D,并建立了跨模態檢索與多模態檢索的VLCP基準。P9D包含超過一百萬對真實產品的圖像和文本數據,并根據行業類別劃分為9個任務。該數據集旨在支持多模態任務中不同類別的持續學習。
  • UESTC-MMEA-CL:Xu等人【39】收集了來自佩戴智能眼鏡的10位參與者的視頻和傳感器數據,構建了包含視覺、加速度和陀螺儀模態的UESTC-MMEA-CL數據集,這是第一個用于持續自我活動識別的多模態數據集。作者還建立了CEAR基準,并使用了三種基礎CL方法:EWC【11】、LwF【10】和iCaRL【12】。研究結果顯示,與其他方法相比,iCaRL在重放基礎上能更有效地減輕遺忘問題。 這兩個數據集通過與常用CL方法的結合驗證了MMCL方法在不同模態組合上的有效性,也進一步揭示了多模態數據融合的挑戰及潛在研究方向。

**4.2 基于多個數據集的基準

除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:

  • CLiMB【31】:該基準包括四個視覺-語言任務(VQAv2、NLVR2、SNLI-VE和VCR)、五個僅語言任務(IMDb、SST-2、HellaSwag、CommonsenseQA和PIQA)以及四個僅視覺任務(ImageNet-1000、iNaturalist2019、Places365和MS-COCO目標檢測)。CLiMB采用分類任務來評估模型在不同模態任務中的表現。
  • CLOVE【63】:專注于生成任務,適用于不同模態的生成式任務,利用多個數據集進行評估。
  • MTIL【45】:該基準在視覺-語言領域內使用了多個數據集進行任務增量學習,驗證模型在多任務設置中的表現。
  • CEAR【39】:基準測試多模態數據集(視頻、加速度和陀螺儀)上的持續學習性能,評估模型對復雜運動數據的持續識別能力。 這些基準提供了多種任務和模態組合,用以驗證模型在各種復雜多模態環境中的持續學習能力。通過這些基準,研究人員可以深入探討MMCL方法在不同任務類型下的適用性和性能表現。

5 未來研究方向

隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。

**5.1 提升模態數量與質量

當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:

  1. 豐富模態種類:許多現有研究主要集中在視覺、語言和音頻模態上,但實際應用中往往需要結合更多模態,如生物信號、環境數據等。因此,未來研究可以探索如何將更多元的模態引入MMCL系統,以提高模型對復雜環境的適應性和泛化能力。
  2. 提高數據質量:不同模態數據的噪聲和不完整性可能導致信息缺失或誤導模型學習。提高數據采集和預處理的質量,以及開發具有魯棒性的數據增強方法,將有助于改善模型對多模態數據的學習效果。
  3. 模態互補性研究:多模態數據之間的互補性在MMCL中發揮著重要作用。研究如何更好地利用不同模態之間的相互補充來增強學習效果,例如通過模態間對齊和融合方法,以更好地利用數據多樣性,提升模型的整體性能。

**5.2 更高效的計算資源利用

MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:

  1. 參數高效的微調方法:開發參數高效的微調策略(如適配器模塊、低秩近似等),以減少訓練過程中對計算資源的需求。這類方法能夠使模型在進行任務增量學習時僅調整少量參數,從而減輕計算負擔。
  2. 模型壓縮和加速:探索模型壓縮(如量化、剪枝)和加速(如蒸餾、混合精度訓練)技術,以降低MMCL模型的內存和計算成本,使其更適合實際部署。
  3. 分布式與異構計算:結合分布式計算和異構計算設備(如GPU和TPU),分擔大規模多模態數據的處理任務,以應對計算負載挑戰。這可以使得MMCL模型在多任務和大數據量場景下保持較高的性能表現。

**5.3 增強零樣本能力和泛化性能

MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:

  1. 保持預訓練模型能力:隨著持續微調的進行,MMCL模型可能逐漸喪失預訓練模型的零樣本能力。研究如何在保持先前知識的基礎上,繼續增強模型對新任務的適應性,將是未來的重要方向。
  2. 增強跨任務泛化:MMCL模型往往面對跨任務的知識遷移和適應性問題。如何設計有效的跨任務知識遷移機制,以增強模型在不同任務間的泛化能力,將有助于提高模型在多變環境下的實用性。
  3. 任務間關系學習:許多現實任務之間存在一定的關聯性,未來可以探索如何利用任務間的關系信息(如標簽關系、特征共現)來更好地指導模型學習,從而提升模型對新任務的預測準確性。

**5.4 應對多模態數據中的模態失衡

在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:

  1. 模態優先級與加權機制:不同模態對任務完成的重要性可能不同,因此可以研究如何為不同模態分配合適的權重和優先級,以提高模型在模態不平衡情況下的魯棒性。
  2. 動態模態選擇與融合:設計動態的模態選擇策略,使模型能夠在缺少某些模態數據時,靈活地進行模態融合和任務處理。這種動態融合策略將提高模型在不同模態條件下的適應性。
  3. 模態數據重采樣與合成:在模態不平衡的情況下,可以研究如何通過重采樣或合成方法生成缺少的模態數據,以保持模態之間的平衡性,提高模型的整體學習效果。

5.5 提高模型對隱私與數據安全的適應性

隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:

  1. 隱私保護技術:研究如何在MMCL模型中引入隱私保護技術,如聯邦學習和差分隱私,以在多模態數據環境中保護用戶隱私。
  2. 安全模型更新與遷移:開發安全的模型更新和遷移機制,以防止敏感數據泄露,同時保證模型在不同平臺或設備上的適應性和性能。
  3. 數據合成與偽重放:為減輕隱私風險,可以利用數據合成與偽重放技術,在不依賴真實用戶數據的情況下,重建訓練數據分布,從而提高模型的隱私適應性。

結論

以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。

付費5元查看完整內容

摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習

I. 引言**

從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。

近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。

A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。

B. 相關綜述

LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。

付費5元查看完整內容

摘要

遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。

引言

遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。

概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。

與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。

本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。

付費5元查看完整內容
北京阿比特科技有限公司