大型語言模型(LLMs)已在多種任務中展現出卓越的能力,但其本質仍是靜態的,無法將其內部參數自適應地調整以應對新任務、演化的知識領域或動態的交互環境。隨著LLMs越來越多地部署于開放式、交互式環境中,這種靜態特性已成為關鍵瓶頸,迫切需要能夠實時進行自適應推理、行動與進化的智能體。這種范式的轉變——從擴展靜態模型到發展自我進化的智能體——引發了人們對能夠從數據、交互與經驗中持續學習和適應的架構與方法的廣泛關注。 本文首次系統而全面地回顧了自我進化智能體這一研究方向,圍繞三個基礎維度構建了該領域的整體框架:進化什么、何時進化、以及如何進化。我們考察了智能體各組成部分(如模型、記憶、工具、架構)中的進化機制,按照時間階段(如測試時內部適應、測試之間的適應)對適應方法進行分類,并分析了指導進化式適應的算法與架構設計(如標量獎勵、文本反饋、單智能體與多智能體系統)。此外,我們還整理了面向自我進化智能體的評估指標與基準任務,重點介紹了該范式在編程、教育與醫療等領域的應用,并指出了其在安全性、可擴展性與共進化動態方面所面臨的關鍵挑戰與未來研究方向。 通過提供一個結構化的理解與設計框架,本綜述為推動自適應、穩健且多樣化的智能體系統在學術研究與實際應用中的發展奠定了基礎,并最終為實現人工超級智能(ASI)鋪平道路——在那一目標中,智能體能夠自主進化,在廣泛任務上實現或超越人類水平的智能表現。 地址:
1 引言
“存活下來的物種,并不是最聰明的,也不是最強壯的,而是最能適應環境變化的物種。” —— 查爾斯·達爾文 大型語言模型(LLMs)已在廣泛任務中展現出卓越的能力。然而,它們本質上仍是靜態的【1】,在面對新任務、演化中的知識領域或動態的交互上下文時,無法調整其內部參數以適應環境。隨著LLMs越來越多地被部署到開放式、交互式環境中,這一局限正日益成為關鍵瓶頸。在這些場景中,傳統的知識檢索機制往往無法滿足需求,由此催生了能夠實時動態適應其感知、推理與行為的智能體。對動態、持續適應能力的迫切需求,標志著人工智能領域正在經歷一場概念上的轉變:從擴展靜態模型轉向構建自我進化智能體(self-evolving agents)。這類智能體能夠從實時數據、交互和經驗中不斷學習,從而打造出更加穩健、多樣化且具備應對復雜動態現實世界問題能力的系統【2】。這一范式的變革正在推動我們走向一條充滿前景與變革潛力的發展路徑——通往人工超級智能(ASI):屆時,智能體不僅能以不可預測的速度從經驗中學習與進化,還能在廣泛任務中展現出媲美甚至超越人類的智能水平【3】。 與靜態的LLMs無法適應新穎且不斷變化的上下文不同,自我進化智能體旨在通過從真實世界反饋中持續學習來克服這些局限。這一發展進程正在重塑我們對“智能體”的理解。作為一個核心概念,自我進化智能體將成為通往人工超級智能的先驅,作為中介推動智能的終極演化,如圖1所示。近期的研究不斷聚焦于構建具備持續學習與適應能力的智能體架構,包括最新的智能體框架【4】、提示工程策略【5】及多種進化優化方式。盡管已有一定進展,現有綜述大多僅將智能體的進化機制作為完整智能體系統中的次要組成部分進行討論。過去的綜述主要提供了面向通用智能體發展的系統性回顧,而對于自我進化機制在受限場景中的具體實現探討仍然有限【1, 6】。例如,Luo等人【1】討論了諸如自我學習與多智能體共進化等多種進化方式,而Liu等人【6】則從工具與提示等不同組件的角度出發,介紹了進化機制。此外,也有部分研究專注于語言模型本身的演化過程【7】,但尚未有系統性的綜述專門聚焦于自我進化智能體作為一個獨立且重要的研究范式。這一缺口使得多個基礎性問題仍有待深入探討: —— 智能體的哪些方面應當進化? —— 進化應在何時發生? —— 又應如何在實踐中實現進化? 據我們所知,本文是首個專注于自我進化智能體的系統性、全面性綜述,旨在為理論研究與實踐部署提供清晰的發展路線。我們圍繞“進化什么、何時進化、如何進化”三個核心問題,構建了一個結構化的分析框架來深入理解該領域。具體來說: * 我們系統性地考察了智能體的各個組成部分,包括模型、記憶、工具及其工作流,分析了其各自的進化機制(第3節:進化什么); * 接著,我們按照時間維度將現有的進化方法進行劃分,并結合不同學習范式(如監督微調、強化學習與推理時進化)進行歸類(第4節:何時進化); * 然后,我們總結了指導智能體進化的多種信號來源(如文本反饋、標量獎勵),以及可實現進化的架構(如單智能體與多智能體系統)(第5節:如何進化); * 此外,我們還回顧了當前用于評估自我進化智能體的指標與基準任務,強調了評估機制與智能體共進化的重要性(第6節); * 并進一步探討了該范式在代碼生成、教育、醫療等領域的關鍵應用(第7節); * 最后,我們識別出當前面臨的關鍵挑戰,并提出了具有前景的研究方向,以推動自我進化智能體的發展(第8節)。
通過沿著這些相互獨立但相輔相成的維度,對自我進化過程進行系統性拆解,本文提供了一個結構化且具實踐指導意義的框架,幫助研究者更系統地分析、比較并設計更加穩健且具適應性的智能體系統。我們的主要貢獻如下: * 我們建立了一個統一的理論框架,以“進化什么、如何進化、何時進化”三個基本維度為核心,刻畫了智能體系統中的自我進化過程,并為未來自我進化智能體的系統設計提供了明確的指導。 * 我們進一步探討了適用于自我進化智能體的評估基準與環境,強調了與適應性、穩健性及現實世界復雜性相關的新興指標與挑戰。 * 我們展示了多個現實世界中的關鍵應用案例,涵蓋自動化軟件開發、個性化教育、醫療健康與智能虛擬助手等領域,驗證了自我進化智能體的實踐潛力。 * 我們明確了若干關鍵的開放性挑戰與未來研究方向,重點強調了安全性、個性化、多智能體共進化與系統可擴展性等方面。
綜上所述,本文旨在為研究人員與從業者提供一個更為系統的分類框架,用以理解、比較并推進自我進化智能體在不同視角下的研究。隨著基于LLM的智能體逐步進入關鍵任務應用場景,深入理解其進化動態已成為不可忽視的需求,其意義不僅限于學術研究,更關系到工業部署、監管制定以及更廣泛的社會影響。
機器學習(ML)從業者正在部署數據中心級別的集群,以提供訓練和服務越來越大、更強大機器學習模型所需的巨大的計算資源。這些集群可以包含成百上千個專用加速器(例如,GPU),通過專用的高帶寬互聯(例如,NVLink、RoCE或InfiniBand)進行互聯。然而,繼續擴展機器學習系統的能力不僅僅需要加速機器學習的核心計算內核(例如,基于梯度的優化或推理執行)。它還需要擴展端到端的機器學習流水線,包括以足夠的速度存儲和處理艾字節級的數據,以滿足大規模機器學習工作負載的攝取需求。
本論文的重點是如何為端到端的機器學習訓練流水線構建數據系統。這些系統生成、存儲和處理數據,以支持數據中心級的機器學習訓練集群。因此,它們必須是可擴展的、高效的和安全的。首先,機器學習數據系統需要具備可擴展性;它們不僅需要存儲艾字節級的數據,還需要提供足夠的攝取吞吐量,以確保加速器不會因為輸入數據的延遲而被阻塞。雖然擴展性可以消除因訓練加速器未充分利用而產生的數據停頓,但僅僅將運行在通用存儲設備和CPU上的數據系統擴展以滿足專用加速器的巨大數據需求,可能需要龐大的數據中心容量。因此,確保端到端機器學習數據流水線中的系統高效運行至關重要,從而使得整體的機器學習基礎設施能夠繼續擴展。最后,機器學習模型現在廣泛部署在用戶面向的應用程序中,從社交媒體到電子商務。因此,機器學習數據系統必須具備安全性,以保護最終用戶的敏感數據。
我們首先旨在理解端到端機器學習訓練流水線的系統瓶頸和設計空間,重點關注深度學習推薦模型(DLRM)訓練工作負載,因為它們對數據的需求極大,并且在現代網絡應用程序中非常普遍。為此,我們首先提出了一項研究,首次探索了構成機器學習數據存儲和攝取流水線的系統,重點是超大規模數據中心Meta。我們提出了分布式存儲和數據處理系統的必要性,以防止訓練數據的停頓。接著,我們展示并描述了支持Meta數據中心級DLRM訓練集群的各種數據系統——批處理引擎、分布式文件系統和分散的預處理系統。然而,簡單的分離存儲并不足夠,因為存儲和預處理可能消耗比實際GPU本身多出2倍以上的資源。為了應對這一挑戰,我們將我們的特征描述提煉為可行的研究機會,以構建更高效的數據系統。
基于這些機會,我們接下來展示了Meta部署的兩個項目,以提高DLRM數據系統的效率。首先,Tectonic-Shift解決了高效存儲艾字節級訓練數據集的挑戰。傳統上,數據集存儲在一個名為Tectonic的硬盤(HDD)支持的分布式文件系統中,這對于以讀為主的機器學習訓練作業提供了較差的I/O效率。為了提高Tectonic的I/O效率,我們構建了一個名為Shift的Flash緩存層。Shift智能地利用訓練作業規格提供的預測信息,將數據集中的熱門部分緩存到I/O高效的SSD中,從而將數據集所需的存儲資源減少了29%。其次,我們展示了如何利用數據本身的表示來提高端到端訓練系統效率,在一個名為RecD的項目中,RecD利用了深度學習推薦模型數據集在訓練樣本之間存在大量重復特征值的洞察——在Meta的數據集中,最多有89%的字節是重復的。RecD是一套互相關聯的優化方案,涉及數據生成、存儲、預處理和訓練系統,通過去重減少了由于重復值帶來的系統開銷。因此,RecD分別提高了存儲、預處理和訓練效率,提升幅度分別為3.71倍、1.79倍和2.48倍。 雖然這些工作優化了Meta DLRM訓練流水線的效率,但將效率優化擴展到各個領域,從語言到視覺也是非常重要的。為了減輕在各個領域和機器學習流水線中導航復雜系統優化空間的負擔,我們引入了cedar。cedar允許機器學習從業者使用通用和可組合的運算符庫,輕松定義端到端的機器學習數據預處理作業。然后,cedar系統地應用多種性能優化,以高效地將作業執行,并為訓練加速器提供數據流。在此過程中,cedar能夠將機器學習預處理性能提高最多1.87倍到10.65倍,超越現有最先進的機器學習數據系統。 最后,我們解決了在機器學習數據流水線中保護敏感用戶數據的挑戰。當前的硬件安全機制,例如英特爾的SGX或NVIDIA的保密計算,能夠在處理過程中強制執行數據機密性和完整性保證。然而,這些當前的解決方案并未涵蓋整個流水線,并且無法強制執行存儲層所需的豐富安全屬性,例如GDPR。幸運的是,FPGA越來越多地被部署到數據中心基礎設施中,以加速存儲和網絡等操作。我們構建了ShEF,一個開源框架,使得加速器設計者能夠在這些FPGA中構建、定制和部署受信執行環境(TEEs)。我們展示了如何通過ShEF在分布式、FPGA啟用的存儲節點上創建一個加密的、符合GDPR的存儲層。因此,ShEF能夠實現高吞吐量和安全的分布式存儲,邁出了保護端到端機器學習數據流水線安全的重大步伐。ShEF還提供了關于如何為現代數據中心加速器(不僅僅是FPGA)構建受信執行環境的寶貴經驗。
機器學習模型通常在靜態環境中開發,其目標明確且數據集經過精心篩選。然而,實際部署時,這些系統與用戶的交互會同時影響模型學習與用戶行為。此類動態場景引發三大核心挑戰:個性化與非個性化訓練的權衡:數據聚合提升統計效率,但犧牲用戶個性化;用戶行為影響的量化方法:當算法決策以混淆標準評估的方式改變未來數據分布時,如何衡量系統效應;約束條件下的算法設計:突破傳感器限制、樣本稀缺性及隱私問題等系統約束,實現規模化有效個性化。本論文構建了理論模型以形式化聚合-個性化權衡關系,闡明有限數據下個性化提升性能的條件與機制;提出時序感知的觀測因果推斷框架,分離算法干預與混雜因子的效應;開發兼顧系統約束與隱私保護的可擴展算法。這些成果為理解用戶偏好對模型訓練與部署的雙向影響奠定基礎,揭示了學習算法如何與用戶偏好相互塑造的動態規律。在機器學習研究中,模型的構建、訓練與評估通常遵循靜態封閉范式——預設的損失函數、精心篩選的數據集以及嚴格的測試集驗證機制,推動了自然語言處理、計算機視覺等領域的重大突破。然而,這種受控實驗忽略了算法與人類用戶交互時產生的動態效應。實際應用中,機器學習系統的目標往往超越研究中常用的用戶無關性能指標。以推薦系統為例,為滿足用戶群體的多樣化偏好,系統必須提供個性化輸出,由此引發數據聚合與個性化的本質矛盾:聚合數據可提升整體數據可用性,增強模型泛化性能,但會犧牲個性化;個性化輸出能提高用戶滿意度,卻會減少單用戶有效樣本量,限制模型學習能力。盡管已有諸多方法試圖平衡這一矛盾,但何時以及如何權衡二者仍缺乏理論指導。機器學習模型對用戶行為和消費模式的反饋效應同樣未被充分認知。監管機構日益關注算法決策的社會影響量化(如推薦系統如何加劇信息繭房或誘導過度使用)。該問題本質上是因果推斷問題,但傳統觀測因果推斷方法在數字平臺場景中往往失效——用戶歷史交互數據會混淆算法決策與后續行為的因果關系。由于算法基于用戶歷史數據調整輸出,我們難以區分用戶行為變化究竟源于算法干預,還是既有偏好。隨機對照試驗(RCT)雖可解決此問題,但其依賴平臺合作且成本高昂,還存在倫理風險[Kramer et al., 2014]。針對這些挑戰,本論文構建了雙向影響理論模型:聚合-個性化權衡模型:揭示機器學習系統中平衡兩類目標的時機與機制;時序感知因果框架:破解用戶-算法反饋環的混雜效應,為監管者提供無需RCT的社會影響量化工具;約束條件算法創新:克服傳感器限制、樣本稀缺、隱私保護等實際障礙,確保個性化在復雜環境中有效落地。這些理論分析與算法創新共同構成了用戶偏好與機器學習系統雙向塑造的研究框架,為動態交互場景下的模型部署提供新范式。
深度神經網絡在過去十年中雖已在各類機器學習任務中展現出卓越性能,但其在資源受限且動態變化的現實環境中的部署仍面臨挑戰。大規模模型雖精度優異,但其計算需求往往難以滿足邊緣設備與實時應用的要求;輕量級模型雖效率占優,卻在動態域偏移場景下普遍存在魯棒性與泛化能力不足的問題。這一矛盾在移動醫療等隱私敏感、效率優先且可靠性要求嚴苛的應用中尤為突出。本論文提出TempT(時序一致性測試時自適應)方法——一種無需標注數據的測試時自適應(TTA)新范式,通過利用時序連貫性作為自監督信號,對連續輸入的模型預測施加平滑性約束。該方法通過抑制高頻波動,不僅提升了預測穩定性,更顯著增強了模型在未知環境中的性能與魯棒性。該技術在以表情識別、視頻目標檢測為代表的視頻學習任務中效果尤為顯著,因其能有效保持幀間一致性。進一步地,我們創新性地將拓撲數據分析(TDA)中的持續同調理論引入模型行為量化領域,通過分析網絡中間激活的拓撲特征,開發出選擇性自適應策略,使模型能自主判斷何時調整有利、何時維持不變。此外,基于時序一致性的新型正則化技術被提出,可同步提升模型泛化能力與域偏移魯棒性。在AffWild2、SHIFT和CIFAR100P等真實數據集上的實驗表明:TempT不僅性能超越現有TTA方法,更使輕量模型達到媲美大型架構的精度水平(如SHIFT數據集上mAP提升4.7%)。本研究彌合了域適應與自監督學習間的鴻溝,為受限環境下的深度學習提供了兼顧魯棒性、隱私保護與可擴展性的解決方案。
大型語言模型(LLMs)在處理通用知識任務方面表現出色,但在用戶個性化需求方面存在挑戰,如理解個人情感、寫作風格和偏好。個性化大型語言模型(PLLMs)通過利用個體用戶數據,例如用戶資料、歷史對話、內容和互動,解決了這些問題,以提供在上下文上相關且量身定制的回答,滿足每個用戶的特定需求。這是一個極具價值的研究課題,因為PLLMs可以顯著提升用戶滿意度,并在對話代理、推薦系統、情感識別、醫療助手等領域具有廣泛的應用。 本綜述從三個技術角度回顧了個性化大型語言模型(PLLMs)的最新進展:針對個性化上下文的提示設計(輸入層)、個性化適配器的微調(模型層)以及個性化偏好的對齊(目標層)。為了提供更深入的洞察,我們還討論了當前的局限性,并概述了未來研究的幾個有前景的方向。有關本綜述的最新信息,請訪問Github倉庫。
1 引言
近年來,像GPT、PaLM、LLaMA、DeepSeek及其變種等大型語言模型(LLMs)取得了顯著進展。這些模型展現了卓越的多功能性,在各種自然語言處理任務中取得了最先進的表現,包括問答、推理和機器翻譯 [Zhao et al., 2023],且幾乎不需要針對特定任務的適應。
個性化LLMs(PLLMs)的必要性
雖然LLMs在通用知識和多領域推理方面表現出色,但它們缺乏個性化,導致在用戶特定理解至關重要的場景中遇到挑戰。例如,對話代理需要適應用戶的偏好語氣,并結合過去的互動,提供相關的個性化回應。隨著LLMs的發展,集成個性化能力已成為推動人機交互在多個領域發展的一個有前景的方向。 技術挑戰
盡管個性化LLMs具有巨大潛力,但個性化過程中仍面臨若干挑戰。這些挑戰包括如何高效地表示和整合多樣化的用戶數據、解決隱私問題、管理長期用戶記憶、適應用戶的多樣化需求以及應對用戶行為的變化 [Salemi et al., 2023]。此外,實現個性化通常需要在準確性和效率之間找到平衡,同時解決偏見問題并保持生成結果的公平性。 貢獻
盡管個性化LLMs日益受到關注,但該領域缺乏一篇系統性的綜述文章來整合最新的研究進展。本文旨在填補這一空白,通過系統地組織現有的PLLMs研究,并提供對其方法論和未來方向的深入見解。本文的貢獻可以總結如下:(1)結構化分類法:我們提出了一種全面的分類法,從技術角度對現有的PLLMs構建方法進行分析。(2)全面綜述:我們系統地回顧了PLLMs的最先進方法,分析了各個方法的特點和優缺點。
2 預備知識
大語言模型 大語言模型(LLMs)通常指利用Transformer架構并配備數十億參數的模型,這些模型在數萬億文本標記上進行訓練。這些模型在自然語言理解和生成任務中表現出顯著改進,越來越多地證明其在輔助人類活動中的益處。在本報告中,我們主要關注自回歸LLMs,它們基于兩種主要架構:僅解碼器模型和編碼器-解碼器模型。編碼器-解碼器模型如Flan-T5和ChatGLM通過編碼器分析輸入以獲取語義表示,使其在語言理解和生成方面表現出色。僅解碼器LLMs專注于從左到右的生成,通過預測序列中的下一個標記,許多實例在此范式下實現了指令跟隨和推理等高級能力的突破。 然而,這些模型通常在通用數據上進行預訓練,缺乏對特定用戶信息的理解。因此,它們無法生成適應用戶獨特品味、偏好和期望的響應,限制了其在需要用戶特定適配的個性化應用中的有效性。 問題陳述 個性化大語言模型(PLLMs)生成與用戶風格和期望一致的響應,為不同用戶提供多樣化的答案。PLLMs定義為不僅基于輸入查詢qq,還基于用戶uu的個性化數據CuCu生成響應的LLMs。其目標是預測給定查詢qq和個性化上下文CuCu的最可能響應序列yy,即:y=argmaxyP(y∣q,Cu)y=argmaxyP(y∣q,Cu)。個性化數據CuCu可能包含用戶偏好、歷史、上下文和其他用戶特定屬性的信息。這些信息可以包括(圖1): 檔案/關系:用戶檔案,包括屬性(如姓名、性別、職業)和關系(如朋友、家人),例如Cu={A,18,學生,朋友{B,C,D}… }Cu={A,18,學生,朋友{B,C,D}…}。 歷史對話:歷史對話,如用戶uu與LLM互動的問答對(例如Cu={(q0,a0),(q1,a1),…,(qi,ai)}Cu={(q0,a0),(q1,a1),…,(qi,ai)}),其中每個qiqi是查詢,aiai是相應的答案。 歷史內容:包括用戶uu的文檔、先前評論、評論或反饋。例如,Cu={1喜歡Avtar因為…,… }Cu={1喜歡Avtar因為…,…}。 歷史互動:包括用戶uu的歷史互動、偏好、評分。例如,Cu={指環王:5,星際穿越:3… }Cu={指環王:5,星際穿越:3…}。 通過整合個性化數據,PLLMs增強了傳統LLMs,改進了響應生成、推薦和分類任務。 注意,我們的報告與角色扮演相關的LLM個性化有顯著不同。雖然角色扮演側重于在對話中模仿角色,但本報告中的PLLMs側重于理解用戶的上下文和偏好,以滿足其特定需求。與強調廣泛類別的[29]相比,我們的工作提供了增強PLLM效率和性能技術的系統性分析,并提供了更詳細的技術分類。 提出的分類法 我們提出了一個從技術角度出發的分類法(如圖1和圖2所示),將個性化大語言模型(PLLMs)的方法分為三個主要層面:(1)輸入層面:個性化提示側重于處理用戶特定數據并將其注入模型。(2)模型層面:個性化適配強調設計框架以高效微調或適配模型參數以實現個性化。(3)目標層面:個性化對齊旨在優化模型行為以有效對齊用戶偏好。由于篇幅限制,分析論文、數據集和基準測試總結在Github Repo中。 3 個性化提示
提示工程作為用戶與LLMs之間的交互橋梁。在本報告中,提示涉及使用各種技術引導LLM生成期望的輸出,從傳統文本提示到軟嵌入等高級方法。軟嵌入不僅可以通過輸入擴展,還可以通過交叉注意力或調整輸出logits實現,從而實現更靈活和上下文敏感的響應。 該框架可以表示為,對于每個用戶uu:
其中,fLLMfLLM是生成響應的LLM模型;??是從用戶個人上下文CuCu中提取相關上下文的函數;⊕⊕表示將查詢qq和相關個性化上下文?(Cu)?(Cu)結合的組合運算符,為LLM生成豐富的信息。 檔案增強提示 檔案增強提示方法明確利用總結的用戶偏好和檔案的自然語言來增強LLMs的輸入(??是總結器模型)。圖3(a)展示了該方法的示意圖。 非調優總結器:凍結的LLM可以直接用作總結器,以總結用戶檔案,因其具有強大的語言理解能力,即?(Cu)=fLLM(Cu)?(Cu)=fLLM(Cu)。例如,_Cue-CoT_使用思維鏈提示進行個性化檔案增強,利用LLMs從歷史對話中提取和總結用戶狀態(如情感、個性和心理)。_PAG_利用指令調優的LLMs基于歷史內容預總結用戶檔案。這些總結離線存儲,從而在滿足運行時約束的同時實現高效的個性化響應生成。_ONCE_提示閉源LLMs從用戶的瀏覽歷史中總結主題和興趣區域,增強個性化推薦。 調優總結器:黑箱LLMs對輸入噪聲(如離題總結)敏感,難以提取相關信息。因此,訓練總結器以適應用戶偏好和風格至關重要。_Matryoshka_使用白箱LLM總結用戶歷史,類似于PAG,但微調總結器而不是生成器LLM。_RewriterSIRI_重寫查詢qq而不是連接總結,通過監督學習和強化學習進行優化。 _CoS_是一個特殊情況,假設一個簡短的用戶檔案?(Cu)?(Cu),并通過比較有和沒有檔案的輸出概率來放大其在LLM響應生成中的影響,從而在不微調的情況下調整個性化。 檢索增強提示 檢索增強提示[8, 10, 11]擅長從用戶數據中提取最相關的記錄以增強PLLMs(見圖3(b))。由于用戶數據的復雜性和體量,許多方法使用額外的記憶來實現更有效的檢索。常見的檢索器包括稀疏檢索器(如BM25 [21])和密集檢索器(如Faiss [23], Contriever [24])。這些方法有效地管理了LLM上下文限制內不斷增長的用戶數據量,通過整合用戶個性化數據中的關鍵證據來提高相關性和個性化。 3.2.1 個性化記憶構建 這部分設計了保留和更新記憶的機制,以實現高效檢索相關信息。 非參數記憶:此類記憶維護一個基于標記的數據庫,以原始標記形式存儲和檢索信息,而不使用參數化向量表示。例如,_MemPrompt_和_TeachMe_維護基于字典的反饋記憶(錯誤和用戶反饋的鍵值對)。MemPrompt側重于基于提示的改進,而TeachMe強調通過動態記憶進行持續學習,隨時間適應。_Mal.P_進一步整合了多種記憶類型,利用工作記憶進行即時處理,短期記憶(STM)進行快速訪問,長期記憶(LTM)存儲關鍵知識。 參數記憶:最近的研究將個性化用戶數據參數化并投影到可學習空間中,參數記憶過濾冗余上下文以減少噪聲。例如,_LD-Agent_維護具有獨立短期和長期庫的記憶,將長期事件編碼為通過可調模塊精煉的參數向量表示,并通過基于嵌入的機制進行檢索。_MemoRAG_采用不同的方法,利用輕量級LLM作為記憶來學習用戶個性化數據。它不維護用于檢索的向量數據庫,而是生成一系列標記作為草案以進一步指導檢索器,提供更動態和靈活的檢索增強方法。 3.2.2 個性化記憶檢索 個性化檢索器設計的關鍵挑戰在于選擇不僅相關而且具有代表性的個性化數據用于下游任務。_LaMP_研究通過兩種機制(提示內增強(IPA)和解碼器內融合(FiD))檢索的個性化信息如何影響大語言模型(LLMs)的響應。_PEARL_和_ROPG_同樣旨在通過個性化生成校準指標增強檢索器,提高檢索文檔的個性化和文本質量。同時,_HYDRA_訓練一個重排序器,從頂部檢索的歷史記錄中優先選擇最相關的信息以增強個性化。 軟融合提示 軟提示與檔案增強提示不同,它將個性化數據壓縮為軟嵌入,而不是將其總結為離散標記。這些嵌入由用戶特征編碼器??生成。 在本報告中,我們概括了軟提示的概念,表明軟嵌入不僅可以通過輸入集成,還可以通過交叉注意力或調整輸出logits集成,從而實現更靈活和上下文敏感的響應(見圖3(c))。 輸入前綴:軟提示作為輸入前綴,專注于嵌入級別,通過將查詢嵌入與軟嵌入連接,通常應用于推薦任務。_UEM_是一個用戶嵌入模塊(變換器網絡),生成基于用戶個性化數據的軟提示。_PERSONA_通過采用重采樣增強UEM,根據相關性和重要性選擇用戶互動的子集。_REGEN_通過協作過濾和項目描述結合用戶-項目互動的項目嵌入,使用軟提示適配器生成上下文個性化的響應。_PcaPOD_通過將用戶偏好提煉為有限的一組可學習的動態加權提示來個性化軟提示。與之前提到的方法不同,這些方法側重于直接嵌入用戶互動或重采樣相關數據,PcaPOD通過加權共享提示集來適應用戶興趣。 交叉注意力:交叉注意力使模型能夠通過允許其關注個性化數據和查詢來處理和整合多個輸入源。_User-LLM_使用自回歸用戶編碼器通過自監督學習將歷史互動轉換為嵌入,然后通過交叉注意力集成。該系統采用聯合訓練來優化檢索器和生成器以獲得更好的性能。_RECAP_利用為對話域設計的層次變換器檢索器獲取個性化信息。該信息通過上下文感知前綴編碼器集成到響應生成中,提高了模型生成個性化、上下文相關響應的能力。 輸出Logits:_GSMN_從個性化數據中檢索相關信息,將其編碼為軟嵌入,并與查詢向量在注意力中使用。之后,生成的嵌入與LLM生成的嵌入連接,修改最終logits以生成更個性化和上下文相關的響應。 討論 三種提示方法各有優缺點:1)檔案增強提示通過壓縮歷史數據提高效率,但存在信息丟失和個性化降低的風險。2)檢索增強提示提供豐富的上下文感知輸入,適用于長期記憶,但可能受計算限制和無關數據檢索的影響。3)軟提示高效嵌入用戶特定信息,捕捉語義細微差別而不冗余,但僅限于黑箱模型,缺乏明確的用戶偏好分析。總體而言,基于提示的方法高效且適應性強,能夠以最小的計算開銷實現動態個性化。然而,它們缺乏更深入的個性化分析,因為它們依賴于預定義的提示結構來注入用戶特定信息,并且由于提示范圍狹窄,訪問全局知識的能力有限。 4 個性化適配
PLLMs需要在微調的深度適應性和提示的效率之間取得平衡。因此,需要專門為PLLMs設計的方法,利用參數高效微調方法(PEFT),如LoRA [Hu et al., 2021, Yang et al., 2024], IA3 [Liu et al., 2022]等(見圖4)。 一個PEFT適用于所有用戶 該方法使用共享的PEFT模塊對所有用戶的數據進行訓練,消除了每個用戶單獨模塊的需求。共享模塊的架構可以進一步分類。 單一PEFT:_PLoRA_和_LMP_利用LoRA進行LLM的PEFT,分別通過用戶嵌入和用戶ID注入個性化信息。PLoRA進一步擴展并支持冷啟動場景的在線訓練和預測。_UserIdentifier_使用靜態、不可訓練的用戶標識符來調節模型對用戶特定信息的條件,避免了可訓練用戶特定參數的需求,降低了訓練成本。_Review-LLM_將用戶的歷史行為和評分聚合到提示中以引導情感,并利用LoRA進行高效微調。然而,這些方法依賴于具有固定配置的單一架構(如隱藏大小、插入層),使其無法存儲和激活多樣化的個性化信息[Zhou et al., 2024]。為了解決這個問題,_MiLP_利用貝葉斯優化策略自動識別應用多個LoRA模塊的最佳配置,從而實現高效和靈活的個性化。 專家混合(MoE):幾種方法使用LoRA模塊,但所有用戶使用靜態配置。這種缺乏參數個性化限制了適應用戶動態和偏好變化的能力,可能導致次優性能[Cai et al., 2024]。_RecLoRA_通過維護一組并行、獨立的LoRA權重并采用軟路由方法聚合元LoRA權重來解決這一限制,從而實現更個性化和自適應的結果。類似地,_iLoRA_創建了一組多樣化的專家(LoRA)以捕捉用戶偏好的特定方面,并生成動態專家參與權重以適應用戶特定行為。 共享PEFT方法依賴于集中式方法,其中用戶特定數據被編碼到集中式LLMs的共享適配器中。這限制了模型提供深度個性化體驗的能力。此外,使用集中式模型通常要求用戶與服務提供商共享個人數據,引發了對這些數據的存儲、使用和保護的擔憂。
每個用戶一個PEFT
為每個用戶配備用戶特定的PEFT模塊使LLM部署更加個性化,同時保護數據隱私。然而,挑戰在于確保在資源有限的環境中高效運行,因為用戶可能缺乏足夠的本地資源來執行微調。 無協作:此類別中適配器之間或學習過程中沒有協作或協調。_UserAdapter_通過前綴調優個性化模型,為每個用戶微調唯一的前綴向量,同時保持底層變換器模型共享和凍結。_PocketLLM_利用基于MeZo [Malladi et al., 2023]的無導數優化方法,在內存受限的移動設備上微調LLMs。_OPPU_為每個用戶配備一個LoRA模塊。 協作努力:沒有協作的“每個用戶一個PEFT”范式在計算和存儲方面非常密集,特別是對于大型用戶群。此外,個人擁有的PEFTs阻礙了社區價值,因為個人模型無法輕松共享知識或從協作改進中受益。_PER-PCS_通過跨用戶共享一小部分PEFT參數實現高效和協作的PLLMs。它首先將PEFT參數劃分為可重用的部分,并存儲在共享池中。對于每個目標用戶,從其他用戶自回歸選擇部分,確保可擴展性、效率和個性化適配,而無需額外訓練。 另一種高效的協作策略基于聯邦學習(FL)框架。例如,Wagner et al.[2024]引入了用于設備上LLM微調的FL框架,使用策略聚合LoRA模型參數并高效處理數據異質性,優于純本地微調。FDLoRA_引入了一個個性化的FL框架,使用雙LoRA模塊捕捉個性化和全局知識。它僅與中央服務器共享全局LoRA參數,并通過自適應融合結合它們,在最小化通信和計算成本的同時提高性能。 還有其他框架可以探索,例如_HYDRA,它也采用基礎模型來學習共享知識。然而,與聯邦學習相比,它為每個個體用戶分配不同的頭以提取個性化信息。 討論 微調方法通過修改大量模型參數實現深度個性化,而參數高效微調方法(如前綴向量或適配器)在保持高個性化水平的同時降低了計算成本和內存需求。這些方法通過針對特定用戶需求定制模型來提高任務適應性,增強情感分析和推薦等任務的性能。它們還提供了靈活性,允許用戶特定調整,同時利用預訓練知識。然而,它們仍然面臨過擬合的風險,特別是在有限或嘈雜的用戶數據情況下,這可能影響對新用戶或多樣化用戶的泛化和性能。 5. 個性化對齊
個性化對齊技術 [Bai et al., 2022; Rafailov et al., 2024] 通常旨在優化大型語言模型(LLMs),使其符合人類的通用偏好。然而,現實中,個體在語言風格、知識深度、價值觀等方面對LLM回答的偏好可能存在顯著差異。個性化對齊則力圖進一步滿足個體用戶的獨特偏好,超越通用的偏好。個性化對齊面臨的一大挑戰是構建高質量的用戶特定偏好數據集,這比通用對齊數據集更為復雜,原因在于數據的稀缺性。第二個挑戰來自于需要改進傳統的基于強化學習的人類反饋(RLHF)框架 [Ouyang et al., 2022],以處理用戶偏好的多樣化問題,這對于整合個性化偏好而不妥協效率和性能至關重要。
高質量的數據構建對于學習個性化大型語言模型(PLLMs)至關重要,主要涉及通過與LLM的交互生成自我生成的數據。Wu 等 [2024c] 構建了一個數據集,用于將LLM與個體偏好對齊,該數據集通過初步創建一個包含3,310個用戶角色池,并通過迭代自我生成和過濾進行擴展。這種方法與PLUM [Magister et al., 2024] 相似,后者通過多輪對話樹模擬動態交互,使得LLM能夠推斷并適應用戶的偏好。為了讓LLM能夠在不重新訓練的情況下適應個體用戶的偏好,Lee 等 [2024] 使用了多樣化的系統消息作為元指令來指導模型的行為。為此,創建了MULTIFACETED COLLECTION數據集,其中包含197,000條系統消息,代表了廣泛的用戶價值觀。為了支持邊緣設備上的實時隱私保護個性化,并解決數據隱私、存儲有限和最小化用戶干擾的問題,Qin 等 [2024] 提出了一個自監督方法,該方法能夠高效地選擇并綜合重要的用戶數據,從而在最小化用戶交互的情況下改善模型適應性。 研究工作也越來越集中于開發能夠評估模型理解個性化偏好的數據集。Kirk 等 [2024] 引入了PRISM Alignment Dataset,該數據集將來自75個國家的1,500名參與者的社會人口統計信息和偏好映射到他們與21個LLM的實時交互反饋中,重點關注關于有爭議話題的主觀和多文化視角。PersonalLLM [Zollo 等,2024] 提出了一個新型的個性化測試數據庫,它策劃了開放式提示和多個高質量的回應,以模擬用戶之間的多樣化潛在偏好。該方法通過從預訓練的獎勵模型生成模擬用戶群體,解決了個性化中的數據稀缺問題。
個性化偏好對齊通常被建模為一個多目標強化學習(MORL)問題,其中個性化偏好是由多個偏好維度的用戶特定組合來決定的。基于此,典型的對齊范式包括使用從多個獎勵模型派生的個性化獎勵來指導LLM策略的訓練階段,以實現個性化目標。MORLHF [Wu 等,2023] 為每個偏好維度分別訓練獎勵模型,并使用鄰近策略優化(PPO)重新訓練策略語言模型,指導模型通過多個獎勵模型的線性組合。這種方法允許重用標準的RLHF管道。 MODPO [Zhou 等,2023] 引入了一種新穎的無強化學習(RL-free)算法,擴展了直接偏好優化(DPO),以管理多個對齊目標。它將線性標量化直接集成到獎勵建模過程中,使得通過簡單的基于邊際的交叉熵損失來訓練語言模型,作為隱式的集體獎勵函數。 另一種MORL策略是在解碼階段考慮多個訓練好的策略LLM的即席組合,以實現個性化。Personalized Soups [Jang 等,2023] 和Reward Soups [Rame 等,2024] 通過首先獨立訓練多個具有不同偏好的策略模型,然后在推理階段合并它們的參數來解決個性化人類反饋中的RL挑戰。兩種方法都允許根據用戶偏好動態加權網絡,增強模型對齊并減少獎勵的誤差。此外,策略LLM的個性化融合不僅可以通過參數合并來實現,也可以通過模型集成來實現。MOD [Shi 等,2024] 從所有基礎模型的線性組合中輸出下一個令牌,允許通過組合它們的預測來精確控制不同目標,而無需重新訓練。與參數合并基準相比,該方法顯示出了顯著的效果。PAD [Chen 等,2024b] 利用個性化獎勵建模策略生成令牌級別的個性化獎勵,并用這些獎勵來指導解碼過程,從而動態地調整基礎模型的預測,以適應個體偏好。圖5可視化了上述典型的MORL方法,用于個性化對齊。 還有一些新興的個性化對齊研究,超越了“多目標”范式。PPT [Lau 等,2024] 通過生成每個用戶提示的兩個潛在回答,要求用戶對其進行排名,并將該反饋融入到模型的上下文中,以動態適應用戶的個性化偏好,從而解鎖了上下文學習在可擴展性和高效性上的潛力。VPL [Poddar 等,2024] 利用變分推斷框架,通過用戶特定的潛在變量來捕捉多樣化的人類偏好。從少量偏好注釋推斷用戶特定的潛在分布,能夠以更高的數據效率實現更準確的個性化獎勵建模。
當前主流的個性化對齊技術主要將個性化建模為多目標強化學習問題,其中通過經典的RLHF框架在策略LLM的訓練階段或通過參數合并或模型集成在解碼階段考慮個性化用戶偏好。通常,這些方法限于少數(例如三個)預定義的偏好維度,并通過文本用戶偏好提示來表示。然而,在現實場景中,可能存在大量個性化用戶,并且他們的偏好向量可能并不完全已知,僅能訪問到他們的交互歷史。因此,開發更現實的對齊基準,以有效評估這些技術,是未來研究的一個關鍵方向。6. 未來方向盡管個性化大型語言模型(PLLMs)近年來取得了顯著進展,但仍然面臨許多挑戰和機遇。本節將討論一些關鍵的局限性和未來研究的有前景的方向。復雜的用戶數據盡管當前的方法有效處理了基本的用戶偏好,處理復雜的、多源的用戶數據仍然是一個顯著的挑戰。例如,使用圖結構表示用戶關系的方法仍然局限于檢索增強 [Du et al., 2024]。如何有效利用這些復雜的用戶信息來微調LLM參數仍然是一個巨大的挑戰。大多數方法主要關注文本數據,而針對多模態數據(如圖像、視頻、音頻)的個性化基礎模型仍然沒有得到充分探索,盡管這些數據對現實世界的部署和應用至關重要 [Wu et al., 2024b; Pi et al., 2024]。邊緣計算邊緣計算中的一個關鍵挑戰是如何在資源有限的設備(如手機)上高效地更新模型,這些設備的存儲和計算資源有限。例如,微調可以提供更深層次的個性化,但它需要大量資源,并且難以擴展,尤其是在實時應用中。平衡資源和個性化需求是非常重要的。一種潛在的解決方案是為邊緣設備構建個性化的小型模型 [Lu et al., 2024],利用量化和蒸餾等技術。邊緣-云協作在現實世界場景中部署PLLMs會遇到邊緣-云計算環境中的重大挑戰。當前利用協作努力的方法通常缺乏云和邊緣設備之間的高效同步機制。這突顯了探索本地計算與云端處理之間平衡的必要性,尤其是在個性化模型(PLLMs)的部署中 [Tian et al., 2024]。高效適應模型更新當基礎LLM參數更新(例如推出新版本時),如何高效地調整每個用戶的微調PEFT參數成為一個挑戰。考慮到用戶數據的龐大量和資源的有限性,重新訓練的成本可能非常高昂。未來的研究應該聚焦于高效的策略來更新用戶特定的參數,而無需完全重新訓練,例如利用增量學習、遷移學習或更具資源效率的微調技術。終身更新鑒于用戶行為的多樣性,一個關鍵的挑戰是如何防止災難性遺忘,同時確保長期和短期記憶的高效更新。未來的研究可以探索持續學習 [Wu et al., 2024d] 和知識編輯 [Wang et al., 2024b],以促進用戶特定信息的動態更新。信任問題確保用戶隱私至關重要,尤其是在使用總結或檢索的數據生成個性化響應時。由于資源限制,LLMs無法本地部署,這可能導致隱私泄露的風險。未來的研究可以集中于隱私保護方法,例如聯邦學習、安全計算和差分隱私,以保護用戶數據 [Yao et al., 2024; Liu et al., 2024a]。7. 結論本文綜述了個性化大型語言模型(PLLMs),重點強調了根據個體用戶數據量身定制的個性化響應。我們提出了一個結構化的分類法,將現有的方法分為三個關鍵技術視角:個性化提示(輸入層)、個性化適配(模型層)和個性化對齊(目標層),并在每個層次內進一步細分。我們還討論了當前的局限性,并提出了幾個有前景的未來研究方向。我們的工作為推動PLLMs的發展提供了寶貴的見解和框架。
人工智能技術的最新進展促使了模型規模的前所未有增長,特別是大型語言模型(LLMs)的出現。
雖然這些模型在多個領域展示了出色的能力,但它們的指數級擴展也帶來了顯著的推理時間開銷,例如內存需求增加、延遲增加和計算成本上升,從而使高效的部署和服務變得具有挑戰性。本文通過全棧方法應對這些挑戰,旨在提升人工智能推理棧四個關鍵組件的效率:模型優化、推理方法、模型架構和應用。在模型優化方面,我們引入了量化技術來優化推理時的計算和內存需求。
I-BERT通過采用僅整數量化來優化計算,這實現了最高3.5倍的延遲加速,并使Transformer架構能夠在僅支持整數運算的硬件上部署。SqueezeLLM采用極低位寬的權重量化,有效降低了內存需求,同時在LLM推理過程中不犧牲精度。在推理方法的優化方面,我們提出了Big Little Decoder框架,
這是一種通過小模型和大模型之間的協作加速自回歸LLM推理的推測解碼框架,能夠實現最高2倍的加速。關于模型架構,我們提出了一種高效的語音識別設計,采用了Temporal U-Net結構,
通過縮短輸入序列長度來提高推理效率。最后,在應用層面,我們引入了LLMCompiler,
這是一個高效編排LLM應用中多個函數調用的框架,通過將復雜的用戶輸入分解為更小、更易處理的任務,降低了執行延遲和成本,并提高了系統的魯棒性。這些貢獻共同提供了一種全棧策略,用于優化人工智能模型推理,從低層次的系統到高層次的應用,推動了最先進AI解決方案的高效部署和服務。
人工智能技術在自然語言處理、計算機視覺和語音識別等多個領域取得了前所未有的進展。
然而,當前普遍采用的擴展模型規模的策略帶來了顯著的推理時間開銷,導致在高效部署和服務最先進模型時面臨挑戰。例如,如圖1.1所示,自2017年引入具有6500萬個參數的Transformer架構[266]以來,模型規模呈指數級增長——每兩年增長410倍——開啟了大型語言模型(LLMs)時代,代表性模型如擁有1750億參數的GPT-3和其他數十億參數級的模型。這一增長遠遠超過了GPU內存的擴展,后者僅每兩年翻倍。因此,模型規模的擴展不僅導致了巨大的內存需求,通常超過單個GPU的容量,還引發了延遲、能效和運行這些大型模型的計算成本等方面的挑戰。為了解決這一問題并減少人工智能解決方案的運行時開銷,全棧優化在人工智能推理棧中的應用至關重要。 如圖1.2所示,本文將涵蓋提高推理棧中四個關鍵組件的效率,這些組件分別處于不同的層次:模型優化、推理方法、模型架構和應用。它們涵蓋了從面向硬件的底層到面向用戶的上層,全面解決從低層系統到高層應用的效率問題。模型優化。
模型優化是通過減少模型規模并更有效地利用底層硬件資源(如計算和內存)來高效部署模型的一種關鍵方法。常見的技術包括量化,它通過使用低位精度(如8位)而非標準的32位或16位浮點數(即FP32或FP16)來壓縮模型的權重和激活值,以及剪枝,它去除模型中不重要的權重。這些方法通常在模型架構設計和訓練完成后應用,使得模型能夠在顯著降低計算和內存需求的同時保持相似的準確性,從而使模型更適用于資源受限的環境。本論文介紹了旨在提高Transformer推理過程中計算和內存效率的量化技術。
在第二章中,我們提出了I-BERT,這是一種通過利用僅整數量化來提高計算效率的方法。通過使用整數算術進行整個推理過程,I-BERT不僅實現了最高3.5倍的延遲加速,還使得Transformer模型能夠在僅支持整數計算的硬件上部署。第三章介紹了SqueezeLLM,這是一種通過極低位寬權重量化優化LLM推理中內存效率的量化技術。由于內存操作通常在LLM的自回歸生成任務中成為主要瓶頸,SqueezeLLM提供了一種精確的量化策略,通過降低位寬(例如3位或4位)來保持底層權重分布,從而顯著降低內存需求,而不犧牲模型的準確性。
為了高效服務大規模模型,理解它們的推理動態至關重要,以最小化冗余操作并最大化資源利用率。在第四章中,我們介紹了Big Little Decoder(BiLD),一種旨在解決LLM自回歸推理中內存操作低效的推測解碼框架。自回歸生成通常是內存受限的,因為每生成一個標記都需要執行一個昂貴的內存操作來加載一個大的權重矩陣。因此,減少運行時內存流量是提高推理效率的關鍵。BiLD通過小模型和大模型之間的協作來解決這一挑戰——小模型快速生成多個標記,而大模型間歇性地檢查和完善小模型的預測。這種方法使得大模型能夠執行非自回歸操作,在單次迭代中處理多個標記,從而實現2倍的推理加速,同時不影響生成結果的質量。
增強效率的后訓練方法,如模型優化和更好的推理方法,由于其在模型設計和訓練完成后可以靈活應用,已經變得越來越流行;然而,進一步的效率提升通常需要開發針對特定領域的新型模型架構。這個過程中的一個關鍵因素是歸納偏置的使用,它在指導模型設計中起著至關重要的作用。歸納偏置[185]指的是學習算法所做的假設,這些假設使得算法能夠從有限的訓練數據中推廣到領域的通用模型。例如,卷積神經網絡(CNN)使用局部性作為計算機視覺中圖像任務的歸納偏置,展示了領域特定的歸納偏置如何指導更好的架構設計。Transformer模型在提供大量數據時展示了出色的性能,盡管其歸納偏置較少。然而,對于較小的模型或數據相對匱乏的領域,這種方法可能效果不佳。在這些場景中,設計具有強歸納偏置的領域特定架構可以導致更高效、更有效的模型性能,特別是在數據或計算資源有限時。為此,在第五章中,我們提出了一種用于語音識別的更緊湊的架構。通過專注于連續語音信號在時間軸上的冗余,我們提出了一種Temporal U-Net結構,通過有效縮短輸入序列長度顯著提高了效率。該設計在固定資源預算內提升了語音識別模型的準確性,增強了性能和效率。
LLM推理能力的最新進展使其潛力超越了內容生成,能夠解決更復雜的問題。推動這種問題解決能力擴展的關鍵因素之一是其功能(或工具)調用能力,使LLM能夠調用外部功能并集成其輸出以輔助任務完成。LLM的這種集成功能調用的能力促使了LLM應用開發方式的范式轉變,推動了代理式應用的興起。在這些應用中,LLM通過執行動作和通過外部功能收集信息,主動與環境互動,從而使它們能夠自主完成用戶任務。因此,為了提高這些基于LLM的應用的效率,單純優化單一模型的效率——無論是通過模型優化、改進推理方法還是更高效的模型架構——是不夠的。 同樣重要的是要增強LLM與外部功能之間動態交互的效率,從而構建更高效、可擴展和響應迅速的代理式應用。在第六章中,我們介紹了LLMCompiler,它通過將用戶輸入分解為可執行任務及其相互依賴關系來高效地編排多個功能調用。LLMCompiler通過并行運行獨立任務顯著減少了執行延遲和成本,同時通過將復雜任務分解為更小、更易管理的任務,增強了任務的魯棒性。該方法邁出了構建更高效、可擴展的代理式應用的步伐,這些應用能夠處理日益復雜的工作流。
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。
近年來,隨著大型模型的顯著發展,大型視覺-語言模型(LVLMs)在各種多模態理解和推理任務中展示了卓越的能力。相比于傳統的大型語言模型(LLMs),由于更接近多資源的現實世界應用和多模態處理的復雜性,LVLMs 展示了巨大的潛力和挑戰。然而,LVLMs 的脆弱性相對較少被探索,在日常使用中可能存在潛在的安全風險。在本文中,我們對現有的各種 LVLM 攻擊形式進行了全面的回顧。具體來說,我們首先介紹了針對 LVLMs 攻擊的背景,包括攻擊的初步知識、攻擊的挑戰和攻擊資源。然后,我們系統地回顧了 LVLM 攻擊方法的發展,如操縱模型輸出的對抗攻擊,利用模型漏洞進行未授權操作的越獄攻擊,設計提示類型和模式的提示注入攻擊,以及影響模型訓練的數據投毒攻擊。最后,我們討論了未來有前景的研究方向。我們相信,我們的調查為 LVLM 脆弱性的現狀提供了洞見,激勵更多研究人員探索和緩解 LVLM 開發中的潛在安全問題。最新的 LVLM 攻擊論文會在 //github.com/liudaizong/Awesome-LVLM-Attack 持續收集。
大型視覺-語言模型(LVLMs)在各種多模態下游任務中取得了顯著成功,并展示了很有前途的能力,如文本生成圖像 [91], [102], [104]、視覺問答 [2], [61], [115] 等等,這得益于數據量、計算資源和模型參數數量的增加。通過進一步利用大型語言模型(LLMs)[56], [63], [71], [94], [112], [143] 的強大理解能力,最近的 LVLMs [33], [75], [144] 基于 LLMs 展示出在解決復雜視覺-語言任務方面的優異表現,利用了適當的人類指令提示。盡管 LVLMs 具有顯著的能力,但其復雜性和部署的增加也暴露了其面臨的各種安全威脅和脆弱性,使得對這些模型攻擊的研究成為一個重要的研究領域。 一般來說,LVLMs 通過使用預訓練的視覺編碼器與語言模型結合,具備處理視覺信息和自然語言理解的能力。由于這種多模態特性,LVLMs 特別容易受到攻擊,因為多模態整合不僅放大了它們的脆弱性,還引入了在單模態系統中不存在的新攻擊向量。例如,視覺領域中的對抗樣本,通過細微改變圖像來欺騙模型,可以擴展到多模態場景中,在圖像和文本輸入都被操縱的情況下。類似地,針對語言理解組件的攻擊,如惡意設計的提示詞,當與視覺輸入結合時,可以破壞模型輸出的完整性。因此,有必要探索 LVLM 模型的潛在攻擊的安全性。 在過去的兩年中,有很多關于 LVLM 攻擊的論文提出。然而,如圖 1 所示,現有的 LVLM 攻擊發展多種多樣,從對抗攻擊、越獄攻擊、提示注入和數據投毒/后門攻擊到更微妙的形式,如偏見操縱和隱私泄露。具體來說,對抗攻擊是故意擾亂輸入以導致錯誤輸出,可能導致錯誤分類或錯誤的圖像描述,這在自動駕駛 [88], [106], [135] 或醫療診斷 [11], [68] 等應用中構成顯著風險。越獄攻擊利用模型的弱點繞過其預定限制,可能導致執行未授權命令或訪問敏感信息。提示注入攻擊通過操縱模型的提示輸入來改變其行為或輸出,這在依賴精確和準確響應的系統中特別危險。數據投毒,即篡改訓練數據,可能破壞模型的性能和可靠性。因此,對現有 LVLM 攻擊進行全面系統的回顧是必要的。 進行這項調查的動機。在過去的兩年中,提出了大量 LVLM 攻擊方法,并取得了相當的對抗性能。然而,這些方法的可用性很容易使研究人員或從業者在嘗試選擇或比較適用于手頭具體問題的算法時感到困惑。因此,有必要編寫一篇全面系統的調查,以供參考。盡管有少量針對大模型攻擊的相關調查論文,但我們在表 I 中列出了這些論文,并認為它們未能從完整的視角總結現有 LVLM 攻擊方法的全部類別和詳細發展。特別是,Chowdhury 等人 [29] 通過提供不同的文本提示修改策略,對 LLM 攻擊進行了調查,但在多模態場景中缺乏對更復雜 LVLM 的普遍性。劉等 [77] 是第一篇討論 LVLM 研究高層次安全問題的調查,但該文中提出的分類相對不完整和粗略。Fan 等 [38] 只總結了現有的基于圖像的 LVLM 攻擊方法,無法很好地涵蓋各種模態類型的 LVLM 攻擊方法(如文本提示注入)。因此,缺少對現有 LVLM 攻擊方法的全面回顧。 我們希望通過本調查論文能夠完整系統地梳理現有的 LVLM 攻擊方法,并以清晰的方式呈現出來。特別是,我們的調查涵蓋了 LVLM 攻擊的最新進展。首先,我們仔細整理了準備特定類型 LVLM 攻擊的基本背景知識。然后,我們全面總結了不同類型的 LVLM 攻擊方法,通過抽象出所有方法的共性,建立一個更全面的分類體系,并提出更具體和有前景的未來研究方向。通過這樣的視角,信息豐富的從業者可以自信地評估各種 LVLM 攻擊的權衡,并在使用一系列技術設計所需的 LVLM 攻擊時做出明智的決策。同時,系統開發者也可以認識到現有 LVLM 攻擊的局限性,并設計相應的防御策略,以提高模型的魯棒性。 進行這項調查的貢獻。我們的調查主要貢獻可以總結為三點:
**方法 **
現有的 LVLM 攻擊者通常可以分為四類:對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊。對于對抗攻擊,它們利用梯度優化噪聲,以一種對人類來說通常是不可察覺的方式擾亂輸入數據,但卻導致模型產生不正確或不理想的輸出。這些擾動是精心設計的,旨在利用模型的脆弱性。對于越獄攻擊,它們利用模型中的弱點繞過其預定的限制和控制。這種類型的攻擊可能導致模型執行未經授權的命令、訪問受限數據或執行超出其設計能力的操作。對于提示注入攻擊,它們通過操縱模型的輸入提示來以意想不到的方式改變其行為或輸出。通過注入惡意或誤導性提示,攻擊者可以引導模型生成不正確、偏見或有害的響應。對于數據投毒/后門攻擊,攻擊者篡改訓練數據以破壞模型的性能和可靠性。在這些攻擊中,惡意數據被插入訓練數據集中,導致模型學習和傳播錯誤的模式。特別是,后門攻擊通常涉及在數據訓練中嵌入隱藏觸發器。當觸發器被激活時,會導致模型以特定和有害的方式行為。基于上述攻擊者的動機和架構,我們提出了圖 2 中的分類法來分類 LVLM 攻擊方法。接下來,我們將按照此分類法回顧現有的研究工作,并討論每種方法類別的特征。
** **
**未來方向 **
盡管當前的研究已經識別并探索了大型視覺-語言模型(LVLMs)上的各種攻擊方法,但我們期望未來在潛在 LVLM 攻擊方面取得更多進展。未來的研究應深入了解和開發新穎的攻擊方法,以全面評估和提高這些模型的魯棒性。未來研究的關鍵領域包括:
在本節中,我們將描述以下主題。 A. 提高攻擊的實用性現有的 LVLM 攻擊方法嚴重依賴于先驗模型知識,使得攻擊的實用性較低。然而,在現實情況下,攻擊者只能查詢 LVLMs 以獲得相應的輸出結果,這使得在優化過程中很難在正確的優化方向上引導對抗擾動。此外,這些針對 LVLMs 的攻擊者只能生成對抗樣本來欺騙單個過程中的特定下游任務。因此,為了破壞不同的下游任務,他們必須為每個任務生成不同的對抗擾動,這會耗費大量時間和資源。因此,有必要設計一種通用擾動,通過僅查詢 LVLM 模型來跨不同任務和樣本使用。實現通用攻擊的潛在解決方案是將先前基于圖像的策略[20], [87] 應用于多模態任務。通過對多個任務和輸入進行對抗訓練通用擾動,攻擊在各種 LVLM 模型中更具實用性。此外,為了處理梯度估計,可以采用硬標簽策略[26], [27] 通過僅查詢模型來獲得梯度。 B. 自適應和可遷移攻擊一種穩健的攻擊應減少對特定受害網絡的依賴,并更好地泛化到不同的網絡。因此,研究對抗攻擊如何在不同的 LVLMs 之間轉移或隨時間自適應也很重要。然而,現有的 LVLM 攻擊者未能考慮這種特性,而是直接生成特定于某個受害模型的對抗樣本。為了提高生成的對抗樣本的可遷移性,我們建議幾種設計思路:一方面,攻擊者可以遵循集成學習[35], [97],聯合學習攻擊多個 LVLM 模型。這樣,梯度可以指向多個模型之間的全局對抗性方向。另一方面,有許多基于圖像的工作[123], [125], [138] 被提出以提高對抗圖像的可遷移性。通過適當地將這些策略應用于 LVLM 模型中的特定設計,攻擊者也可以生成可遷移的對抗樣本。總體而言,理解對抗樣本在不同模型和任務之間的可遷移性有助于開發通用的攻擊方法。 C. 跨模態對抗樣本盡管在單個模態(視覺或語言)中設計對抗攻擊取得了很大進展,但模態之間的交互仍未被充分探索。現有的攻擊者通常將不同模態的擾動視為不同的,并分別設計它們。然而,這將導致擾動多模態輸入之間的交互關系較少,并且容易被安全對齊系統識別。因此,未來的工作應探索新的方法,同時擾動視覺和文本輸入并具有強關聯性。這包括研究模態之間的交互和依賴關系,以創建更有效的跨模態攻擊,從而躲避當前的防御。潛在的解決方案可以利用多鍵策略[118]或多模態對比學習[12]來增強多模態擾動之間的關系,以共同控制攻擊。 D. 基于數據偏見的攻擊現有的 LVLM 模型數據需求量大,需要大量完全標注的數據進行訓練。因此,LVLMs 容易繼承并甚至放大其訓練數據中的偏見。未來的研究可以集中于理解、識別和緩解這些偏見,以確保公平和公正的結果。例如,可以開發偏見放大攻擊[14], [85] 來研究如何通過有針對性的操縱放大訓練數據中的現有偏見。這涉及創建利用這些偏見的輸入,以生成偏斜或有害的輸出,從而突出并加劇模型的內在弱點。具體來說,受此啟發,我們可以首先研究偏見在訓練和推理過程中如何通過 LVLMs 傳播和放大,然后開發技術來創建利用和放大這些偏見的輸入,以更好地了解其影響。此外,潛意識操縱攻擊[141]也是一種有前景的方法,用于開發在沒有直接對抗輸入的情況下微妙地影響模型行為的方法,例如通過在訓練期間引入不可察覺的偏見,影響模型在特定未預期方式中的決策過程。通常研究在訓練期間如何引入微小且不可察覺的偏見,這些偏見僅在特定條件下顯現。 E. 人工智能與人類協作的攻擊現有的 LVLM 攻擊完全基于數字環境開發。然而,除了模型的輸入和輸出,現實世界的應用還具有允許人與 LVLM 系統互動的能力。因此,結合人類智能與 AI 能力為實施攻擊提供了有力的方法。這里,我們將簡單介紹兩種代表性的攻擊視角:(1) 人機協作攻擊[16], [60]:探索人類在環中的攻擊策略的潛力,將人類專長與 AI 工具結合,以設計更復雜和有效的攻擊。這涉及利用人類的直覺和創造力,識別和利用自動化方法可能遺漏的模型弱點。特別是,開發人類攻擊者在 AI 工具的協助下迭代優化對抗輸入的框架。這可以包括人類設計初始攻擊向量,然后由 AI 系統優化以達到最大效果。(2) 社會工程與操縱[48], [86]:這種類型的攻擊研究如何將社會工程技術與對 LVLMs 的技術攻擊結合。它包括研究如何基于社會背景或用戶行為設計操縱輸入,以欺騙模型及其用戶。 F. 綜合基準和評估為了確保 LVLM 模型對各種攻擊方法的魯棒性和安全性,全面的基準和評估框架是必不可少的。這些框架不僅有助于評估 LVLMs 當前對攻擊的抵御能力,還能指導開發更魯棒的模型。未來在這一領域的研究可以集中在以下關鍵方面:(1) 標準化攻擊基準[54]:開發全面的基準來評估各種攻擊策略對 LVLMs 的有效性。這些基準應包括多種攻擊類型、場景和指標,以提供模型魯棒性的整體評估。(2) 持續評估框架[58]:開發持續集成和測試管道,定期評估 LVLMs 對最新已知攻擊的抵御能力。這些管道應自動更新新的攻擊方法和數據集,以確保模型持續進行魯棒性測試。(3) 綜合攻擊分類法[19]:創建詳細的分類法,根據攻擊的特征進行分類,例如其目標模態(視覺、語言或兩者)、執行方法(例如對抗樣本、數據投毒、模型反演)及其影響。(4) 魯棒性指標和評估標準[83]:開發和標準化量化 LVLMs 對各種攻擊抵御能力的魯棒性指標。這些指標應捕捉攻擊的嚴重性以及模型在各種攻擊下的性能。
通過在這些領域擴展研究,社區可以更深入地了解 LVLM 模型的脆弱性,并開發更有效的策略來評估和增強其安全性。這種前瞻性的方法對于確保 LVLMs 在各種現實應用中的安全可靠部署至關重要。
**結論 **
總體而言,這篇綜述論文全面概述了 LVLM 攻擊的研究,旨在幫助研究人員了解該領域。首先,我們介紹了 LVLM 攻擊的背景,包括一般 LVLM 攻擊的初步知識、實施 LVLM 攻擊的挑戰以及當前的 LVLM 攻擊資源,如數據集、模型和評估指標。有了這些先驗知識,研究人員可以輕松開始探索,并迅速了解 LVLM 攻擊。然后,我們總結并分類了現有的 LVLM 攻擊文獻,提出了一個新穎的分類法,即對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊,以幫助理清其發展脈絡。最后,我們指出了幾個有前景的 LVLM 攻擊未來研究機會。我們希望這篇綜述能為研究人員提供見解,并吸引更多研究人員為這一領域做出貢獻。
大型語言模型(LLMs)和擴散模型,如ChatGPT和Stable Diffusion,具有前所未有的潛力。由于它們經過了對互聯網公開文本和圖像的訓練,它們可以為各種任務做出有用的貢獻。隨著入門門檻的顯著降低,幾乎任何開發者都可以利用LLMs和擴散模型來解決以前不適合自動化的問題。通過本書,您將獲得生成式AI的堅實基礎,包括如何在實踐中應用這些模型。大多數開發者在首次將LLMs和擴散模型集成到他們的工作流程中時,往往難以從中獲得足夠可靠的結果以用于自動化系統。作者James Phoenix和Mike Taylor向您展示了一套稱為提示工程的原則,這些原則可以使您有效地與AI合作。學習如何讓AI為您服務。本書解釋了:
“《生成式AI的提示工程》可能是未來保障您技術職業的最具前瞻性的方法。這無疑是任何從事AI實際應用工作的人的最佳資源。這里面豐富、精煉的原則將幫助新老AI工程師在未來可預見的競爭中保持領先。” ——Ellis Crosby,Incremento CTO兼聯合創始人“這是代理和服務專業人員的必備指南。將AI與服務和客戶交付結合起來,利用自動化管理,加快解決方案的速度,將設定新的行業標準。您會在書中找到有用、實用的信息和策略,使您能夠充分理解和利用AI的潛力。” ——Byron Tassoni-Resch,WeDiscover CEO兼聯合創始人作者的話自2020年GPT-3測試版以來,我們一直在做提示工程,當GPT-4推出時,我們發現許多我們曾使用的技巧和竅門已不再必要。這促使我們定義了一套可跨模型和模態轉移的面向未來的原則,這些原則在使用GPT-5或未來的任何模型時仍然有用。提示的五項原則是:1. 提供方向:詳細描述所需的風格,或參考相關的角色。2. 指定格式:定義要遵循的規則和響應的必要結構。3. 提供示例:插入一組多樣的測試案例,其中任務已正確完成。4. 評估質量:識別錯誤并評價響應,測試驅動性能的因素。5. 分工:將任務分成多個步驟,鏈式連接以實現復雜目標。我們首次在2022年7月以博客文章的形式發布了這些原則,它們經受住了時間的考驗,包括與OpenAI自己一年后發布的提示工程指南高度契合。任何與生成式AI密切合作的人都可能會收斂到一組類似的策略來解決常見問題,但這本書旨在更快地讓您達到這一點。在本書中,您將看到數百個提示技術的示例,包括文本和圖像提示,以及使用Python構建AI自動化腳本和產品。這不是一個尋找正確魔法詞組組合的提示技巧列表,而是一個構建系統的實用指南,提供AI應用所需的正確上下文,以及如何測試和擴展生產環境中的AI系統。如果您符合以下情況,這本書將對您有用:- 您的時間價值超過每小時40美元,閱讀這本書節省的幾個小時,而不是從多個來源拼湊一切,對您來說是值得的。- 您不僅是隨便使用AI,而是實際在構建一個AI應用或內部模板,許多人每天將使用數百或數千次。- 您希望通過學習數百個如何解決AI常見問題的真實案例來減少幻覺并提高AI的可靠性。- 您希望比較OpenAI與其他模型的優缺點,以及LangChain等常見框架、不同的向量數據庫選項和AUTOMATIC1111。- 您想看到從一個天真的提示到一個完整AI代理,包括使用Gradio構建基本用戶界面的端到端AI應用構建過程。
近年來,深度學習在圖數據上的應用在多個領域取得了顯著成功。然而,由于注釋圖數據的成本高昂且耗時,其依賴性仍然是一個重要的瓶頸。為了解決這一挑戰,圖數據上的自監督學習(自監督學習)引起了越來越多的關注,并取得了顯著進展。自監督學習使機器學習模型能夠從未標注的圖數據中生成有信息量的表示,從而減少對昂貴標注數據的依賴。盡管自監督學習在圖數據上得到了廣泛應用,但一個關鍵組件——圖對比學習(Graph Contrastive Learning, GCL)在現有文獻中尚未得到充分研究。因此,本綜述旨在填補這一空白,提供關于GCL的專題綜述。我們對GCL的基本原理進行全面概述,包括數據增強策略、對比模式和對比優化目標。此外,我們探討了GCL在其他數據高效圖學習中的擴展,如弱監督學習、遷移學習和相關場景。我們還討論了GCL在藥物發現、基因組學分析、推薦系統等領域的實際應用,最后概述了該領域的挑戰和未來可能的發展方向。
圖結構數據在各個領域中廣泛存在,從社交網絡[3, 136]到推薦系統[62, 122, 173]、生物網絡[23, 220]和知識圖譜[12, 185]。隨著圖神經網絡(Graph Neural Networks, GNNs)受歡迎程度的提升和取得的顯著成功,圖上的深度學習在諸多領域引起了極大關注[57, 65, 67, 175]。然而,盡管GNNs得到了廣泛采用,一個基本挑戰仍然存在——大多數GNN模型都針對(半)監督學習場景[30, 66, 67, 104]進行定制。這需要大量標注數據的支持,這極大地限制了圖深度學習方法在實際中的應用。這一限制在醫療和分子化學等領域尤為明顯。在這些領域中,獲取標注數據需要專業知識和大量手工注釋工作。此外,這些領域中的圖數據通常有限、獲取成本高或難以獲取。例如,在醫療領域,構建患者交互網絡或疾病進展圖可能需要對醫療程序和病情有深入了解,并進行詳盡的文檔記錄和注釋工作[76]。同樣,在分子化學中,識別化合物的性質需要化學合成和實驗驗證方面的專業知識,以及大量的數據收集和分析資源[60]。
為了解決標注數據稀缺和難以獲取的問題,自監督學習(自監督學習)作為一種有前途的解決方案應運而生[15, 17, 32, 42, 132]。自監督學習通過使用前置任務從未標注數據中自動提取有意義的表示,從而減少對人工標注的依賴。通過設計利用數據本身內在結構的前置任務,自監督學習可以從未注釋的數據集中挖掘出豐富的信息,從而提高模型性能和泛化能力[56, 88]。近年來,自監督學習在計算機視覺(CV)和自然語言處理(NLP)領域取得了顯著進展,展示了未來應用的廣闊前景。
在計算機視覺領域,自監督學習方法利用圖像變換下的語義不變性來學習視覺特征。例如,像SimCLR[15]和Moco[42]這樣的模型,關注于最大化同一圖像的不同增強視圖之間的一致性,使模型能夠捕捉到跨變換的穩健和不變特征。在自然語言處理領域,自監督學習依賴于語言前置任務進行預訓練。最近的進展,尤其以BERT[17]等模型為代表,利用大規模語言模型在掩蔽語言建模和下一個句子預測等任務上進行訓練,在多個任務上實現了最先進的性能。
繼承自監督學習在計算機視覺和自然語言處理中的成功,越來越多的興趣延伸到了圖結構數據的自監督學習[40, 46, 47, 102, 125, 154, 198]。然而,將自監督學習直接應用于圖結構數據面臨著重大挑戰。首先,計算機視覺和自然語言處理主要處理歐幾里得數據,而圖結構數據引入了非歐幾里得復雜性,使得傳統的自監督學習方法效果較差[175]。其次,與計算機視覺和自然語言處理中的數據點獨立性不同,圖數據通過復雜的拓撲結構交織在一起,需要創新的方法來有效利用這些關系[57, 64]。因此,設計能夠無縫集成節點特征和圖結構的圖特定前置任務成為一個關鍵且具有挑戰性的課題。
近年來,一些關于圖自監督學習的文獻綜述提出了一個全面的框架[53, 92, 171, 181]。這些綜述總結了一種新穎的范式,強調通過精心設計的前置任務來高效提取有意義的圖表示。這些綜述將前置任務分類為各種類型,如基于對比的、基于生成的和基于預測的方法。基于對比的自監督學習方法旨在通過在嵌入空間中比較正例和負例來學習有效的表示[40, 125, 154]。基于生成的自監督學習方法則專注于重構輸入數據,并利用其作為監督信號,旨在生成能夠捕捉圖數據中潛在結構和模式的表示[47, 198]。基于預測的自監督學習技術涉及預測圖結構或節點屬性的某些方面,作為輔助任務來指導表示學習[46, 118]。
盡管現有文獻綜述對圖自監督學習范式提供了全面覆蓋,但它們往往缺乏對具體方面的深入分析。這種不足可能源于該領域的廣泛范圍和同時開發的多種技術。例如,圖對比學習(Graph Contrastive Learning, GCL)目前是研究最廣泛的范式之一。然而,現有的圖自監督學習文獻通常只涵蓋了GCL的基本原理,而沒有充分探索其在各種情境和下游應用中的潛力。 為此,在本綜述中,我們的主要關注點是提供對GCL的全面概述。重要的是,據我們所知,目前尚無專門研究GCL的專題綜述。本文的整體結構如圖1所示。技術上,我們首先總結了GCL在自監督學習中的基本原理,包括增強策略、對比模式和對比優化目標。隨后,我們探討了GCL在其他數據高效學習方面的擴展,如弱監督學習、遷移學習和其他相關情境。此外,我們討論了GCL的實際應用,并概述了該領域的挑戰和未來可能的發展方向。本綜述的核心貢獻可以總結如下:
圖對比學習(Graph Contrastive Learning, GCL)的研究廣泛且不斷獲得動力。然而,目前缺乏專門聚焦于GCL研究的綜合性綜述。通過提供本概述,我們的目標是填補文獻中的一個關鍵空白,并提供寶貴的見解。
我們對GCL在自監督學習中的基本原理進行了詳細闡述。這包括對增強策略、對比模式和優化目標的深入探索,揭示了驅動GCL有效性的核心機制。
我們進一步擴展探討了GCL在弱監督學習、遷移學習和多樣的數據高效學習環境中的應用,強調了GCL在提高學習效率和效果方面的能力。
我們討論了GCL成功應用的實際案例,涵蓋了藥物發現、基因組分析、推薦系統、社交網絡和交通預測等領域,展示了其實際相關性和影響。
我們指出了GCL領域面臨的挑戰,同時概述了未來研究和發展的有前景方向,展示了前方激動人心的研究前景。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。