亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖是一種自然表示方式,適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時,會出現組合優化問題,這些問題通常具有挑戰性,因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法,如精確算法和(元)啟發式算法,用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域,但它們具有顯著的共性。因此,我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中,將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后,我們回顧了這些研究工作,并沿著是否旨在優化給定過程的圖結構,或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后,我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同,本工作關注于非典型圖問題,對于這些問題,通常沒有已知的高效算法,而強化學習能夠提供高效且有效的解決方案。

圖是一個數學概念,用于形式化由關系(邊)連接的實體(節點)的系統。超越原始拓撲結構,圖中的節點和邊常常與屬性相關聯:例如,一個邊可以與距離度量的值相關聯(Barthélemy, 2011)。通過這樣的特性增強,圖成為了一種強大的形式主義,能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域(Newman, 2018)。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為,構建預測模型和算法,并將它們應用于實際問題。除了描述在圖上發生的過程外,一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性,因為解決方案空間的迅速增長。一個著名的例子是旅行商問題(TSP),它要求在一個完全連通的圖中找到一個哈密頓回路,使得路徑長度總和最小化。

近年來,機器學習(ML)開始作為解決組合優化問題的有價值工具而興起,研究人員預計其影響將是革命性的(Bengio et al., 2021; Cappart et al., 2021)。特別是,強化學習(RL)的范式已顯示出通過試錯發現能夠勝過傳統精確方法和(元)啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程(MDP),在其中,一個代理逐步構建解決方案,并根據其優化目標函數的能力獲得獎勵。從MDP公式開始,可以透明地應用各種RL算法,這使得這種方法在可以解決的問題類型上非常靈活。與此同時,開始出現了使用RL解決圖組合優化問題的工作,涵蓋了從化學(You et al., 2018a),計算機科學(Valadarsky et al., 2017),經濟學(Darvariu et al., 2021b)到統計學(Zhu et al., 2020)等多種科學領域。

本綜述的目標是提出一個統一框架,我們稱之為圖強化學習(Graph RL),用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題,重點是那些通常不知道有效、高性能算法的非典型問題。事實上,最近的綜述關注的是應用RL解決典型問題的作品,我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如,僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文(1954),并且存在非常有效的算法可以最優地(Applegate et al., 2009)或近似地(Lin & Kernighan, 1973; Helsgaun, 2000)解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集(Ahn et al., 2020)、最大割(Khalil et al., 2017; Ahn et al., 2020)以及諸如車輛路徑問題(VRP)(Kool et al., 2019; Kim & Park, 2021)等路由問題。除了少數例外,盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要,但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此,本文與其他綜述(Mazyavkina et al., 2021; Wang & Tang, 2021)和觀點(Bengio et al., 2021; Cappart et al., 2021)相輔相成,無論是在提出統一范式還是關注非典型問題方面。

本文的其余部分如下組織。在第2節中,我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后,在第3節中,我們回顧了考慮優化圖結構的工作(即,從頭開始創建圖或修改現有圖)以使目標函數最大化。然后,在第4節中,我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰,這些也可以視為未來工作中需要解決的重要研究問題,此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。

圖結構優化在機器學習(ML)處理典型圖組合優化問題的工作中,一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說,需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分,我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作,并使用強化學習(RL)來發現實施這一過程的策略。這是通過與環境的互動來執行的。

在高層次上,這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G,其中G是要搜索的可能圖的集合,F如前所述,是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題,并可能涉及從一個空圖開始還是從一個現有的圖開始選擇,以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示,動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連,或者這些操作的某種組合。 鑒于范圍的自然限制,我們只考慮那些(1)使用圖表示問題;(2)通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行,并可被視為經典圖生成模型的基于ML的替代方法,例如Barabási & Albert(1999)的模型。這些工作主要使用最終圖(即“成品”)的示例數據集,并不使用中間的,從某種意義上說,對應于生成過程本身的步驟。它們還需要大量相關的示例集合,這些可能并不總是可用的,具體取決于領域。

在這一領域,使用自回歸模型(如LSTM或GRU)的工作類似于MDP公式;例如添加邊的決策可以被視為序列中的一個標記,由模型學習。這一領域的一些值得注意的工作包括Li等人(2018)提出的技術,GraphRNN(You等人,2018b),以及圖重復注意網絡(Liao等人,2019)。其他類型的生成模型,如變分自編碼器和生成對抗網絡,也被用于生成分子(Kusner等人,2017; Guimaraes等人,2018; De Cao & Kipf, 2018; Jin等人,2018)。

本節的其余部分深入回顧了相關論文,按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。 在這項綜述中,我們討論了圖強化學習這一新興領域,這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題,以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化,包括需要找到最優圖結構的問題,這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化,將圖結構視為固定不變,代理在離散的可能控制行動空間中進行搜索,以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后,我們討論了該領域面臨的主要挑戰,其解決可能具有非常重大的影響。

付費5元查看完整內容

相關內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。

//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb

ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架

幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。

2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。

2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。

2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。

2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。

2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。

2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。

2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。

付費5元查看完整內容

數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。

在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。

在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。

盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。

付費5元查看完整內容

圖持續學習新綜述

圖數據上的持續學習近期吸引了極大的關注,其目標是解決在現有任務上的災難性遺忘問題,同時使序列更新的模型適應新出現的圖任務。盡管已有努力總結了在歐幾里得數據(例如,圖像和文本)上持續學習研究的進展,但對于圖上的持續學習,也就是所謂的持續圖學習(CGL)或終身圖學習,系統性的綜述仍然是迫切需要的。圖數據在數據結構和應用場景上的復雜性遠遠超過其他類型,使得CGL的任務設置、模型設計和應用變得極為挑戰性。為了彌補這一差距,我們提供了一個關于現有持續圖學習(CGL)算法的全面綜述,通過闡明不同的任務設置并基于它們的特點對現有方法進行分類。我們將CGL方法與傳統的持續學習技術進行比較,并分析了傳統持續學習技術對CGL任務的適用性。此外,我們還回顧了對CGL研究至關重要的基準作品。最后,我們討論了剩余的挑戰并提出了幾個未來的方向。我們將維護一個最新的GitHub倉庫,其中包含CGL算法的全面列表,可在//github.com/UConn-DSIS/Survey-of-Continual-Learning-on-Graphs 訪問。

在圖表示學習領域,傳統方法通常假設圖是靜態的,即圖的結構以及其屬性節點和邊緣保持不變。然而,在許多現實世界應用中,包括節點級別和圖級別的場景,圖可能會不斷演化。這意味著可能會出現新類型的節點及其相關邊緣,或者可能會收集到新類型的圖。在這種情況下,圖數據可能會表現出分布偏移,期望的模型應該能夠持續適應新的分布,而不會忘記之前學到的知識。例如,在引用網絡中,新類別的研究論文(圖節點)和隨之而來的引用(圖邊緣)將不斷出現。為了自動分類這些論文,文檔分類器需要持續適應新類別的分布,同時保持對先前觀察到的類別所學知識的記憶[1]、[2]、[3]。在藥物發現中,可能會間歇性遇到新的分子屬性和新的分子類別,分子屬性預測器必須適應新模式的參數,而不損害對現有分子類別或屬性的預測性能[1]、[2]。在這種持續學習場景中,天真地將模型適應新任務將遇到災難性遺忘問題,即在模型參數適應新任務后,現有任務的性能急劇下降。一個簡單的解決方案是每當出現新任務時,就重新訓練模型處理所有之前觀察到的數據。然而,這可能因難以承受的重新訓練成本或潛在的隱私/法律規定問題而變得不可行。 鑒于此,持續圖學習(CGL),旨在持續學習新任務而不忘記以前學到的知識,最近在各個領域受到越來越多的關注[1]、[2]、[4]-[23]。由于圖數據的復雜性,現有的CGL方法在目標圖類型、學習設置、基本技術和評估指標方面高度異質。首先,現有方法可能提出一般技術或針對某些應用場景(例如,知識圖譜、推薦系統等)的專門技術。其次,根據測試期間任務標識的可用性,CGL方法可能采用不同的設置,包括任務增量學習(task-IL)、領域增量學習(domain-IL)和類別增量學習(class-IL)。除了增量設置,圖學習任務還可能關注不同的粒度,包括節點級任務和圖級任務。第三,各種現有方法采用的方法論與不同的主流趨勢一致,如正則化、記憶重放和參數隔離。最后,與標準學習設置不同,CGL模型的性能關注不同的視角,包括總體性能、性能下降(遺忘)、任務間干擾等。因此,根據研究目標,不同的工作可能采用不同的指標來評估模型。這些CGL研究的正交維度呈現了復雜的挑戰和研究人員試圖進入該領域時的重大障礙。 為此,本文提供了一項系統的綜述,從前述四個不同的視角審視現有方法。在第二節中,我們簡要介紹了持續學習、CGL以及CGL與其他相關研究領域在動態演化圖上的區別的背景信息。在第三節中,我們從基本概念、任務序列構建、任務粒度和不同增量學習場景的角度解釋了CGL的問題設置。在第四節中,我們首先系統地回顧了遵循三種主流方法的相關CGL工作,包括基于正則化的、基于記憶回放的和基于參數隔離的方法,然后分析了傳統持續學習技術的適用性。在第六節中,我們介紹了旨在提供一致的實驗設置和公平平臺以比較不同技術的最近提出的基準工作。最后,在第七節中,我們討論了現有的挑戰并強調了CGL研究的有前途的未來方向。

圖持續學習方法

與傳統持續學習類似,CGL也從限制模型參數的變化、隔離和保護對以前學習的任務重要的參數,以及回放先前任務的代表性數據以提醒模型先前學習的模式(圖2)的角度來處理問題。然而,CGL的一個關鍵挑戰是必須適當地保留數據的拓撲結構,這是圖數據中包含的關鍵信息。在本節中,我們將按照這一分類介紹CGL技術,這也在表1中總結。

**基于正則化的方法 **

由于遺忘的原因是模型參數在適應新任務后被修改,傳統的基于正則化的方法[91]、[92]增加了懲罰項以防止參數發生劇烈變化。然而,這些方法并沒有顯式地保留圖數據的拓撲結構。針對這一不足,拓撲感知權重保持(TWP)[2]提出通過對模型權重的正則化顯式地保留在先前任務上學到的拓撲。

基于記憶回放的方法

基于記憶回放的方法通過使用來自先前任務的代表性數據重新訓練模型來防止遺忘。傳統的持續學習方法處理單個數據而不涉及交互,可以簡單地采樣并存儲在緩沖區中。然而,對于圖上的學習,基于記憶回放的方法將會遇到記憶爆炸的挑戰[1]。在生成節點(一個數據點)的表示時,圖神經網絡(GNNs)通常會聚合來自多跳鄰居的信息。因此,要重新生成單個節點的表示,就必須存儲來自呈指數級擴展的鄰域的信息。在密集圖上,內存消耗很容易變得難以處理[1]。由于這個挑戰,經驗回放圖神經網絡(ER-GNN)[83](圖4(a))選擇忽略圖拓撲,僅存儲單個節點的屬性以重新生成表示。

**CGL與圖基礎模型 **

大型語言模型(LLMs)在作為各種自然語言處理(NLP)下游任務的基礎模型方面取得了顯著的成功。然而,圖基礎模型還處于起步階段。在本節中,我們將介紹CGL技術如何與構建有效的圖基礎模型相關聯。 **促進圖基礎模型訓練 **

構建圖基礎模型的一個有前途的方法是設計策略來微調預訓練的LLMs,使其接受分詞化的圖輸入,以便圖結構知識與語言數據中包含的知識對齊。然而,這樣的連續訓練不可避免地會觸發災難性遺忘問題,因為圖數據與用于預訓練LLMs的語言數據位于顯著不同的領域。因此,在這個過程中,CGL技術和一般的持續學習技術變得不可或缺。 此外,理想的圖基礎模型,無論是基于預訓練的LLMs之上開發還是從零開始訓練,都應通過持續整合新出現的數據來維持一個最新的知識庫。然而,這個持續學習過程也可能引起遺忘問題,這也是當前LLMs面臨的問題。在這種情況下,應開發CGL技術來解決這個問題。 此外,當新的圖數據對應于不同的領域時,例如,模型可能同時遇到生物網絡數據和分子圖數據,跨領域學習也可能觸發遺忘問題。在這種情景下,可以開發領域增量學習(domain-IL)CGL技術來解決問題。

開發大型圖模型的潛在高效方式 與LLMs不同,LLMs在NLP任務中展示了令人印象深刻的性能,而大模型對于圖數據的有效性仍然是一個問題。基于參數隔離的CGL模型在可能顯著增加大小的擴展數據集上學習,模型的大小相應擴展。因此,它提供了一種潛在的解決方案,通過逐步擴展模型和數據集從零開始開發大型圖模型。一方面,逐步學習任務而不是同時針對所有任務優化模型可能會降低優化難度。另一方面,CGL方法只會在必要時分配新參數[3],這可以幫助緩解大型模型中的參數冗余問題。此外,現有的大型預訓練圖模型通常是特定于領域的[128],極大地限制了它們的能力。幸運的是,這一挑戰可能通過利用在領域增量學習(domain-IL)下工作的CGL技術來解決,該技術旨在連續跨多個不同領域訓練給定的圖學習模型。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。

//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb

近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等

有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下

模式連接性

模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。

對齊

對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。

權重平均

權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。

集成學習

集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。

模型融合的應用

作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。

本工作的主要貢獻總結如下

? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。

? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。

? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。

付費5元查看完整內容

雖然深度強化學習(RL)在機器學習領域取得了多項引人注目的成功,但由于其通常較差的數據效率和所產生的策略的有限通用性,它未能得到更廣泛的采用。緩解這些限制的一個有希望的方法是,在稱為元強化學習的過程中,將更好的強化學習算法的開發本身視為一個機器學習問題。元強化學習最常在問題環境中進行研究,在給定任務分布的情況下,目標是學習一種策略,該策略能夠從盡可能少的數據的任務分布中適應任何新任務。**本文詳細描述了元強化學習問題的設置及其主要變化。**本文討論了如何在高層次上基于任務分布的存在和每個單獨任務的可用學習預算對元強化學習研究進行聚類。使用這些聚類,綜述了元強化學習算法和應用。最后,提出了使元強化學習成為深度強化學習從業者標準工具箱一部分的道路上的開放問題。

//www.zhuanzhi.ai/paper/bbd26798bcb89638b3308c8dfc2a8e20

**1. 引言****元強化學習(Meta-reinforcement learning, meta-RL)是一種學習強化學習的機器學習(machine learning, ML)方法。**也就是說,元強化學習使用樣本效率低的機器學習來學習樣本效率高的強化學習算法或其組件。因此,元強化學習是元學習[225,91,94]的特殊情況,其學習算法是強化學習算法。元強化學習作為一個機器學習問題已經被研究了很長一段時間[197,199,224,198]。有趣的是,研究也顯示大腦中存在meta-RL的類似物[238]。Meta-RL有潛力克服現有人類設計的RL算法的一些限制。雖然在過去幾年中,深度強化學習取得了重大進展,例如掌握圍棋游戲[209]、平流層氣球導航[21]或機器人在挑戰性地形中的運動[148]等成功故事。RL的采樣效率仍然很低,這限制了它的實際應用。元強化學習可以產生比現有強化學習方法更有效的強化學習算法(組件),甚至可以為以前難以解決的問題提供解決方案。與此同時,提高樣本效率的承諾伴隨著兩個成本。首先,元學習需要比標準學習多得多的數據,因為它訓練整個學習算法(通常跨多個任務)。其次,元學習使學習算法適應元訓練數據,這可能會降低其對其他數據的泛化能力。因此,元學習提供的權衡是提高測試時的樣本效率,代價是訓練時的樣本效率和測試時的通用性。示例應用程序考慮使用機器人廚師進行自動化烹飪的任務。當這樣的機器人部署在某人的廚房時,它必須學習一個特定于廚房的策略,因為每個廚房都有不同的布局和設備。由于在訓練早期的隨機行為,直接在一個新的廚房中從頭開始訓練機器人太耗時,并且有潛在的危險。一種選擇是在單個訓練廚房中對機器人進行預訓練,然后在新的廚房中對其進行微調。然而,這種方法沒有考慮到后續的微調過程。相比之下,元強化學習將在訓練廚房的分布上訓練機器人,以便它可以適應該分布中的任何新廚房。這可能需要學習一些參數以實現更好的微調,或者學習將部署在新廚房中的整個強化學習算法。通過這種方式訓練的機器人既可以更好地利用收集的數據,也可以收集更好的數據,例如,通過關注新廚房的不尋常或具有挑戰性的特征。這種元學習過程需要比簡單的微調方法更多的樣本,但它只需要發生一次,當部署在新的測試廚房時,由此產生的適應過程可以顯著提高樣本效率。這個例子說明,通常情況下,當需要頻繁地進行有效的自適應時,元強化學習可能特別有用,因此元訓練的成本相對較小。這包括但不限于安全關鍵的強化學習領域,在這些領域中,有效的數據收集是必要的,探索新行為的成本過高或危險。在許多情況下,大量的樣本投資低效的前期學習(在監督下,在實驗室中,或在模擬中)是值得的,以實現后續改進的適應行為。

本綜述的目的是提供一個元強化學習的入口,以及對該領域和開放研究領域的現狀的反思。在第2節中,我們定義了元強化學習和它可以應用的不同問題設置,以及兩個示例算法。在第3節中,我們考慮了元強化學習中最普遍的問題設置:少樣本元強化學習。本文的目標是學習能夠快速自適應的RL算法,即在少量的情節中學習任務。這些算法通常是在給定的任務分布上進行訓練的,并且元學習如何有效地適應該分布中的任何任務。圖1展示了一個簡單的例子來說明這個設置。在這里,智能體經過元訓練,以學習如何導航到2D平面上不同的(最初未知的)目標位置。在元測試時,該智能體能夠有效地適應目標位置未知的新任務。在第4節中,我們考慮多樣本的設置。這里的目標是學習通用的RL算法,而不是特定于狹窄的任務分布,類似于目前在實踐中使用的算法。有兩種方式:如上所述的對任務分布進行訓練,或者對單個任務進行訓練,但同時進行元學習和標準強化學習訓練。接下來,第5節介紹了元強化學習的一些應用,如機器人。最后,我們在第6節討論開放問題。這些包括對少樣本元強化學習的更廣泛任務分布的泛化,多樣本元強化學習中的優化挑戰,以及元訓練成本的減少。

付費5元查看完整內容

機器學習(ML)最近的快速進展提出了一些科學問題,挑戰了該領域長期存在的教條。最重要的謎題之一是過度參數化模型的良好經驗泛化。過度參數化的模型對于訓練數據集的大小來說過于復雜,這導致它們完美地擬合(即插值)訓練數據,而訓練數據通常是有噪聲的。這種對噪聲數據的插值傳統上與有害的過擬合有關,但最近觀察到,從簡單的線性模型到深度神經網絡的各種插值模型在新測試數據上都能很好地泛化。事實上,最近發現的雙下降現象表明,在測試性能上,高度過度參數化的模型往往比最好的欠參數化模型更好。理解這種過度參數化的學習需要新的理論和基礎的實證研究,即使是最簡單的線性模型。這種理解的基礎已經在最近對過度參數化線性回歸和相關統計學習任務的分析中奠定,這導致了雙下降的精確分析特征。本文簡要概述了這一新興的過度參數化ML理論(以下簡稱為TOPML),并從統計信號處理的角度解釋了這些最新發現。我們強調將TOPML研究領域定義為現代ML理論的一個子領域的獨特方面,并概述了仍然存在的有趣的未決問題。

//www.zhuanzhi.ai/paper/182ad6c4b994aa517d10319504e9bb3a

引言

深度學習技術已經徹底改變了許多工程和科學問題的解決方式,使數據驅動方法成為實踐成功的主要選擇。當前的深度學習方法是經典機器學習(ML)設置的極限開發版本,以前這些設置受到有限的計算資源和訓練數據可用性不足的限制。目前已建立的實踐是從一組訓練示例中學習高度復雜的深度神經網絡(DNN),這些示例雖然本身很大,但相對于DNN中的參數數量來說相當小。雖然這種過度參數化的DNN在ML實踐中是最先進的,但這種實際成功的根本原因仍不清楚。特別神秘的是兩個經驗觀察結果: 1) 模型中添加更多參數的明顯益處(在泛化方面),2) 這些模型即使完美地擬合了噪聲訓練數據,也能很好地泛化。這些觀察結果在現代ML的不同結構中都得到了體現——當它們首次被用于復雜的、最先進的DNN時(Neyshabur et al., 2014; Zhang et al., 2017)),它們已經在更簡單的模型家族中出土,包括寬神經網絡、核方法,甚至線性模型(Belkin et al., 2018b; Spigler et al., 2019; Geiger et al., 2020; Belkin et al., 2019a)。

在本文中,我們綜述了最近發展起來的過度參數化機器學習理論(簡稱TOPML),該理論建立了與訓練數據插值(即完美擬合)相關的現象相關的基本數學原理。我們很快將提供一個過度參數化ML的正式定義,但在這里描述一些模型必須滿足的顯著屬性,以合格為過度參數化。首先,這樣的模型必須是高度復雜的,因為它的獨立可調參數的數量要遠遠高于訓練數據集中的示例數量。其次,這樣的模型絕不能以任何方式被明確地規范化。DNN是過度參數化模型的常見實例,這些模型通常沒有明確的正則化訓練(參見,例如,Neyshabur et al., 2014; Zhang et al., 2017)。這種過度參數化和缺乏顯式正則化的組合產生了一個可插值訓練示例的學習模型,因此在任何訓練數據集上都實現了零訓練誤差。訓練數據通常被認為是來自底層數據類(即噪聲數據模型)的噪聲實現。因此,插值模型完美地擬合了基礎數據和訓練示例中的噪聲。傳統的統計學習總是將噪聲的完美擬合與較差的泛化性能聯系在一起(例如,Friedman et al., 2001, p. 194);因此,值得注意的是,這些插值解決方案通常能很好地泛化到訓練數據集以外的新測試數據。

在本文中,我們回顧了TOPML研究的新興領域,主要關注在過去幾年發展的基本原理。與最近的其他綜述相比(Bartlett et al., 2021; Belkin, 2021),我們從更基本的信號處理角度來闡明這些原則。形式上,我們將TOPML研究領域定義為ML理論的子領域,其中1. 明確考慮訓練數據的精確或近似插值 2. 相對于訓練數據集的大小,學習模型的復雜性較高。

本文組織如下。在第2節中,我們介紹了過度參數化學習中插值解的基礎知識,作為一個機器學習領域,它超出了經典偏方差權衡的范圍。在第3節中,我們概述了最近關于過度參數化回歸的結果。在這里,我們從信號處理的角度直觀地解釋了過度參數化學習的基本原理。在第4節中,我們回顧了關于過度參數化分類的最新發現。在第5節中,我們概述了最近關于過度參數化子空間學習的工作。在第6節中,我們考察了最近關于回歸和分類以外的過度參數化學習問題的研究。在第7節中,我們討論了過度參數化ML理論中的主要開放問題。

付費5元查看完整內容

許多解決組合優化問題的傳統算法都涉及使用手工構造的啟發式算法,這些啟發式算法能夠依次地構造解決方案。這種啟發式方法是由領域專家設計的,且一般由于問題的困難性,這種方法不是最佳的。強化學習(RL)提出了一種很好的選擇,使用監督或自我監督的方式訓練 agent 來自動搜索這些啟發式方法。

在這篇調研中,我們探索了將 RL 框架應用于困難的組合問題的最新進展。我們的調研為運籌學和機器學習社區提供了必要的背景,并展示了推動領域向前發展的工作。我們將最近提出的 RL 方法并置在一起,列出了每個問題改進方法的時間線,并與傳統算法進行了比較,這表明 RL 模型可以成為解決組合問題的有希望的方向。

論文標題:Reinforcement Learning for Combinatorial Optimization: A Survey

論文作者:Nina Mazyavkina, Sergey Sviridov, Sergei Ivanov, Evgeny Burnaev

付費5元查看完整內容
北京阿比特科技有限公司