摘要—推薦系統(Recommender Systems,RS)已成為信息過濾和內容個性化的關鍵技術。傳統的推薦技術主要依賴于對用戶與物品之間的交互建模,以及對內容特征的任務特定建模。隨著基礎模型(Foundation Models, FMs)的出現,如 GPT、LLaMA 和 CLIP 等在海量數據上訓練的大規模模型,推薦范式正發生深刻變革。 本文綜述了基礎模型在推薦系統中的應用(FM4RecSys),并從三個范式層面系統探討了其整合方式:(1)基于特征的表示增強,(2)生成式推薦方法,以及(3)具備智能體能力的交互式推薦系統。我們首先回顧了推薦系統的數據基礎,從傳統的顯式/隱式反饋到多模態內容源。隨后,介紹了基礎模型在表示學習、自然語言理解和多模態推理方面的能力及其在推薦情境中的應用。 本綜述的核心部分詳細討論了基礎模型如何在三個范式下增強推薦系統:在特征驅動范式中提升特征表示,在生成式范式中直接生成推薦內容,在智能體范式中支持自主推薦代理與模擬器。接著,我們探討了基礎模型在多種推薦任務中的應用,包括Top-N推薦、序列推薦、零樣本/小樣本推薦、對話式推薦及新物品/內容生成。 通過對最新研究成果的分析,我們總結了基礎模型已帶來的關鍵機遇(如更強的泛化能力、更優的解釋性與推理能力)以及當前面臨的挑戰(如跨領域泛化、可解釋性、公平性及多模態整合等)。最后,本文提出了下一代FM4RecSys的研究方向與技術挑戰,如多模態推薦智能體、檢索增強框架、面向長用戶序列的持續學習,以及效率與成本問題等。 本綜述不僅回顧了當前最前沿的方法,也對“特征驅動”“生成式”與“智能體”三大范式的權衡進行了深入分析,并指出了亟待解決的關鍵問題與未來研究方向。 關鍵詞—基礎模型,推薦系統,多模態表示,綜述。 //arxiv.org/pdf/2504.16420
推薦系統(Recommender Systems,RS)在電商、社交媒體、醫療健康和教育等多個領域中發揮著至關重要的作用 [1],[2]。其核心目標是通過捕捉用戶偏好、物品特征及上下文信息,提供個性化內容推薦。在過去十年中,受益于深度學習架構的發展以及大規模用戶行為數據的積累,該領域取得了顯著進展。然而,傳統推薦系統在捕捉細粒度用戶偏好、處理冷啟動問題以及提供透明且具上下文的解釋方面仍面臨挑戰。這些瓶頸限制了依賴領域特定模型或小規模模型提供準確、多樣推薦的能力。 與此同時,基礎模型(Foundation Models, FMs)在自然語言處理、計算機視覺和多模態任務中取得了突破性進展 [3]。近期,FMs 正在重塑推薦系統架構 —— 顯著提升性能、啟用新型用戶交互方式,并展現出捕捉復雜用戶-物品關系的強大潛力,同時具備在更廣泛推薦任務中泛化的能力。具體而言,Foundation Models for Recommender Systems(FM4RecSys)指的是通過預訓練與推薦數據集結合的方式,捕捉用戶偏好、物品特征和上下文變量的豐富表示,從而提升推薦任務中的個性化程度與預測準確性。 與傳統方法依賴精心設計的特征或狹窄的架構不同,FMs 借助大規模語料的廣泛預訓練,具備更強的泛化能力,能整合多種信號(文本、圖像、音頻、知識圖譜等),從而提供更豐富的用戶與物品表示,有效緩解數據稀疏和冷啟動問題。除提升預測性能外,FMs 還賦予推薦系統新能力,包括自然語言解釋、交互式對話接口,乃至具備智能決策能力的 agentic 系統。特別是在 agentic 框架下,FMs 被用于自主規劃、推理和適應動態環境,結合用戶反饋與實時上下文實現迭代更新。 接下來,我們將深入探討當前研究將 FMs 融入推薦系統的動因,以加深對 FMs 如何應用及其在不同推薦任務中影響的理解。
我們總結了推動 FM4RecSys 研究快速發展的主要動因,以全面理解其發展與應用背后的推動力: 增強的泛化能力。 基礎模型天生擅長從大規模數據中學習復雜模式,因此在面對新穎數據時具備更強的泛化能力 [5]。在推薦系統中,這意味著 FMs 能更準確地預測用戶行為,尤其在數據稀疏或新物品場景(如零樣本/小樣本推薦 [6]–[8])中表現尤為突出。通過對用戶偏好與物品屬性的零樣本/小樣本推斷,FMs 即使在缺乏豐富交互記錄的情況下,也能提供有效推薦。 提升的用戶體驗。 FMs 為推薦系統帶來了交互范式上的變革。例如在對話式推薦(CRS)中,傳統系統大多依賴預設對話模板 [9],[10],限制了交互的靈活性。而 FMs 支持更加動態、開放的自然語言對話,大幅提升用戶交互的自然度與參與感。用戶可以通過對話表達偏好、提問并接收個性化推薦。 更強的解釋與推理能力。 與傳統推薦系統依賴用戶評論或簡單協同行為(如共同購買)生成淺層解釋不同,FMs 可基于常識與上下文生成更連貫、邏輯更完整的解釋 [11],[12]。通過整合用戶偏好、歷史交互和物品特性,FMs 能為推薦提供更具說服力的解釋,尤其在醫療等高風險領域有助于促進負責任決策 [13]。 盡管傳統推薦系統長期受限于特征剛性與數據稀疏問題,但基礎模型的出現顯著提升了泛化能力。然而,如何在真實場景中實現這些潛力仍面臨挑戰,如實時適應性、計算效率與系統兼容性等。因此,我們從三大范式與多個推薦任務視角,全面、批判性地評估 FM4RecSys 的機遇與限制。
FMs 如何被集成進推薦系統?我們識別出當前研究中三種主要的集成范式:特征驅動(Feature-Based)、生成式(Generative)與智能體范式(Agentic)。三種范式在推薦流程中的角色由被動特征提供者逐步演變為主動決策者。如圖1所示,三種范式具有各自代表性特征與典型應用。
該范式將基礎模型作為特征提取器,用于生成高質量的用戶、物品或交互嵌入。例如,文本基礎模型(如 BERT)[14] 用于將物品描述或用戶評論編碼為語義向量,視覺-語言模型(如 CLIP)[15] 用于對齊多模態特征,實現跨領域推薦。該范式通常將 FMs 用作輔助模塊,與推薦主邏輯解耦。
該范式充分利用 FMs 的生成能力(如 GPT),直接以文本輸出形式生成推薦結果 [16]。包括生成個性化解釋 [17]、虛擬內容(如廣告文案、產品設計)或通過自回歸方式預測用戶偏好。此類方法的挑戰在于控制性與對齊性,即如何在流暢性與相關性之間取得平衡。
新興的智能體范式將推薦系統重新構想為由 FMs 驅動的自治智能體 [18]。這些智能體能通過自然語言與用戶動態互動,推理長期偏好,并執行動作(如主動提問、多輪規劃)以精化推薦。與靜態模型不同,agentic 系統具備目標導向行為,能使用工具(如搜索引擎、數據庫)并結合反饋循環實現自適應。 雖然前兩種范式已在推薦準確性與多樣性上取得進展,智能體范式則代表著更具前瞻性的范式轉變:向主動、可解釋、以人為本的系統演化。其獨特優勢包括: * 動態適應:實時更新用戶畫像,有效緩解冷啟動與數據稀疏問題; * 多模態上下文建模:統一處理文本、語音與圖像,捕捉細膩偏好(如解析用戶截圖); * 倫理對齊:結合憲法式AI等方法 [19],融入人類價值觀與規則,提升公平性與可解釋性。
LLM智能體(如 AutoGPT、Meta 的 CICERO [20])和檢索增強生成(RAG)等新范式的快速發展,進一步驗證了該范式的可行性。
當前關于 FM4RecSys 的研究熱度持續攀升,已有多篇綜述探討該交叉領域的部分視角。如 Liu 等 [21] 關注語言建模范式的訓練策略與目標,Wu 等 [22] 從判別式與生成式視角分析 LLM4Rec,Lin 等 [4] 提出從“位置”與“方式”兩個維度適配 LLMs,Fan 等 [23] 總結了LLMs在推薦任務中的預訓練、微調與提示工程等技術路徑。Lin 等 [24] 針對生成式推薦方法做了任務層級的梳理。 區別與貢獻: 與上述綜述相比,我們的綜述具有更廣泛的視角: * 跨模態視角:不僅關注 LLMs,還系統覆蓋視覺與多模態基礎模型; * 系統分類法:構建“數據源—范式—任務—挑戰”統一框架; * 三大范式對照:提出并細化特征驅動、生成式與智能體三大范式; * 任務全面覆蓋:橫跨Top-N排序、序列推薦、對話推薦等多任務; * 新趨勢探討:深入未解問題與未來機遇,推動 FM4RecSys 向前發展。
我們共收集并分析了150余篇與 FM4RecSys 相關的最新論文,覆蓋 ICLR、NeurIPS、WWW、WSDM、SIGIR、KDD、ACL、EMNLP、NAACL、RecSys、CIKM、TOIS、TORS、TKDE 等頂級會議與期刊。搜索關鍵詞包括:大語言模型推薦系統、生成式推薦、多模態推薦、智能體推薦等。 本文貢獻如下:
提供了基礎模型在推薦系統中應用的全面綜述,建立清晰分類體系; 1. 系統總結當前前沿研究成果,幫助讀者快速理解與上手該領域; 1. 深入探討挑戰與未來方向,推動 FM4RecSys 創新與落地。
第2節 探討推薦系統數據特性,強調多模態數據的重要性; * 第3節 介紹基礎模型的演進及其適用于推薦任務的優劣; * 第4節 分析 FMs 在推薦場景中的表示學習技術; * 第5節 總結 FM 與推薦系統集成的策略與范式; * 第6節 探討各類推薦任務的應用實例與挑戰; * 第7節 總結實證研究中觀察到的影響與潛力; * 第8節 深入討論仍待解決的問題與未來研究方向; * 第9節 總結基礎模型對推薦系統發展的關鍵貢獻。
摘要——擴散語言模型(Diffusion Language Models,DLMs)正迅速崛起,成為主流自回歸(autoregressive, AR)范式的一種強大且極具潛力的替代方案。通過在迭代去噪過程中并行生成 token,DLMs 在降低推理延遲和捕獲雙向上下文方面具有天然優勢,從而能夠對生成過程進行細粒度控制。在實現數倍推理加速的同時,近期的研究進展已使 DLMs 的性能可與自回歸模型相媲美,使其在多種自然語言處理任務中成為具有吸引力的選擇。盡管 DLMs 的應用日益普及,但其仍存在需要進一步探索的挑戰與機遇,這需要對其原理、技術與局限性進行系統且深入的理解。在本綜述中,我們對當前 DLM 領域進行了整體性梳理。我們追溯了其演化歷程以及與其他范式(如自回歸模型和掩碼語言模型)的關系,涵蓋了基礎原理與最新前沿模型。本研究還提供了最新、全面的分類體系,并深入分析了當前技術,從預訓練策略到先進的后訓練方法。另一項貢獻是全面回顧了 DLM 的推理策略與優化方法,包括解碼并行化、緩存機制以及生成質量提升等方面的改進。我們還重點介紹了 DLM 在多模態擴展上的最新方法,并闡述了其在多種實際場景中的應用。此外,我們討論了 DLM 的局限與挑戰,包括效率、長序列處理以及基礎設施需求,并展望了支撐該快速發展領域持續進步的未來研究方向。項目 GitHub 地址://github.com/VILA-Lab/Awesome-DLMs。
關鍵詞——擴散語言模型,大語言模型,擴散模型,擴散式大語言模型,語言建模,多模態語言模型
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。
擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。
為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。 擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。 為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
多模態推薦系統(Multimodal Recommender Systems,MRS)融合了來自用戶和物品的異構數據,如文本、圖像和結構化信息,以提升推薦性能。大語言模型(Large Language Models,LLMs)的興起為MRS帶來了新的機遇,使其具備語義推理、上下文學習(in-context learning)以及動態輸入處理的能力。與早期的預訓練語言模型(Pre-trained Language Models,PLMs)相比,LLMs 在靈活性與泛化能力方面具有顯著優勢,但同時也帶來了可擴展性和模型可訪問性等方面的挑戰。
本綜述全面回顧了LLMs與MRS交叉領域的最新研究進展,重點探討了提示策略、微調方法以及數據適配技術。我們提出了一種新的分類體系,用以刻畫融合模式,并識別可從相關推薦領域遷移的通用技術。此外,綜述還涵蓋了評估指標與數據集的概況,并指出了未來的研究方向。我們的目標是闡明LLMs在多模態推薦中的新興作用,助力該快速發展領域的后續研究。
多模態推薦系統(Multimodal Recommender Systems,MRS)旨在整合用戶和物品的多樣化信息,包括文本、圖像、結構化數據和用戶行為等,以構建連貫的推薦流程。傳統方法,如協同過濾和神經編碼器,常面臨數據稀疏、冷啟動問題以及模態不對齊等挑戰。大語言模型(Large Language Models,LLMs)通過其預訓練知識、語義靈活性和推理階段的適應能力,為解決上述問題提供了新范式。 與早期的預訓練語言模型(Pre-trained Language Models,PLMs),如BERT或RoBERTa相比,LLMs(例如GPT-3、PaLM、LLAMA)不僅具備更豐富的世界知識,還支持高級推理能力與基于提示(prompt-based)的控制機制。這使得LLMs能在無需重新訓練的前提下處理多樣化且不斷變化的推薦輸入,尤其適用于冷啟動與跨領域場景。
本綜述旨在探討LLMs如何重塑多模態推薦系統的設計。我們聚焦于通過提示、訓練與數據適配等方式的融合(詳見第2節),這些技術也與跨模態學習中的關鍵組件相互作用,如解耦(disentanglement)、對齊(alignment)與融合(fusion)(第3節)。此外,我們還綜合近期研究進展,并指出未來的研究方向(第4節)。為進一步支持后續工作,我們附錄中提供了多模態數據集列表(附錄A.1)、評估指標結構化分類(附錄A.2)以及縮略語對照表(附錄A.3)。
本綜述聚焦于LLMs特有能力——推理、提示和模態適配——如何重新定義MRS的設計(第1.3節)。為保持這一焦點,我們有意弱化對傳統架構組件(如模態特定編碼器)的討論,這些已在先前綜述中被廣泛覆蓋 [69, 151]。同樣,我們也不涉及推薦系統架構的分類(如圖神經網絡、Transformers等),相關內容已在 [2, 24, 30, 54] 等文獻中詳盡討論。 相反,我們強調了以往研究中較少探討的模態,如表格數據和數值數據,并分析它們如何被集成進LLMs。此外,我們還引入了推薦系統其他分支中的方法(如序列推薦、知識感知推薦),當其LLM方法具有遷移潛力時,也被納入本綜述,以拓展MRS的設計空間并更全面地刻畫LLM與MRS的交互方式。
盡管已有大量關于MRS的綜述,但大多采用基于編碼器的分類方法,聚焦于模態特定編碼器、融合機制或損失函數等架構組件 [69, 151]。相比之下,我們強調LLMs帶來的范式變革,其影響超越了傳統編碼器管線。 **LLMs 超越編碼器范式。**傳統綜述往往將編碼器視為模態表示的核心機制,而LLM驅動的模型改變了這一范式。LLMs支持通過提示工程靈活處理輸入,可直接作用于多模態摘要或結構化格式(如JSON、表格文本)。這種能力將模型從靜態的編碼-解碼結構轉變為具備上下文推理、意圖理解與外部工具交互能力的動態代理。 **基于LLM功能的分類體系。**我們的分類方法不再沿用標準的架構劃分,而是基于LLM驅動的融合策略展開,包括提示策略(第2.1節)、訓練方法(第2.2節)以及數據類型適配(第2.3節),并結合其在MRS任務中的角色,如解耦與對齊(第3.1與3.2節)。這些維度能更準確地捕捉LLMs如何實現推理與跨模態對齊的新形式。 **納入可遷移的相關技術。**考慮到LLMs在MRS中的應用尚屬新興,我們拓寬視角,引入了來自鄰近推薦領域(如文本、行為推薦)中基于LLM的策略,這些策略雖未直接應用于MRS,但具有高度遷移性,從而拓展了設計空間并揭示可通用的創新模式。
本綜述提出了一種面向LLM與MRS融合的新型分類體系,突破了以往基于編碼器或損失函數的分類方式 [68, 69, 151]。LLMs的引入帶來了以推理能力、提示控制與推理時動態適應為核心的全新設計空間。 該分類體系將相關研究歸納為三個主要類別: 1. LLM方法(第2.1–2.3節):以LLM特有技術為特征,細分為:
提示技術(第2.1節):包括硬提示(如ID標識符)、軟提示、混合模板及推理提示; * 訓練策略(第2.2節):涵蓋微調(fine-tuning)、參數高效方法(如LoRA、QLoRA)及代理結構; * 數據類型適配(第2.3節):包括將圖像、表格、行為數據等非文本模態適配為適用于LLM輸入的結構化格式(如摘要或結構化提示); 1. MRS特定技術(第3.1–3.3節):從LLM視角重新審視MRS中的長期挑戰:
解耦(第3.1節):通過潛變量建模、對比學習或變分推斷實現模態特征的分離; * 對齊(第3.2節):同步不同模態輸入,或將外部知識嵌入與LLM表示對齊; * 融合(第3.3節):多模態信息在早期、中間或后期階段的融合策略; 1. 主要趨勢與未來方向(第4節):總結該領域的研究趨勢,探討LLMs在推薦流程中作為“推理代理”的演進角色。
此外,在附錄A.2中,我們還提供了標準與新興評估指標的結構化概覽,包括BLEURT等NLP指標以及基于LLM的評估方法;在附錄A.1中,補充了覆蓋更廣領域與模態的多模態推薦數據集。
現有MRS綜述往往忽視LLMs帶來的特定挑戰與機遇。例如,Liu等人 [69] 僅在未來展望中簡要提及多模態LLMs;而聚焦PLMs的推薦綜述則多集中于BERT類架構,缺乏對LLMs上下文推理與工具增強能力的系統分析。 本綜述填補了這一空白,系統梳理了LLMs在多模態推薦中的研究進展與前沿趨勢,并引入鄰近推薦子領域中具遷移性的策略。我們的主要貢獻包括: 1. 面向LLMs在MRS中的新分類框架:提出一種全新分類法,將LLM在MRS中的融合方式劃分為提示策略、參數高效微調方法、模態適配技術與對齊策略等獨立設計軸,便于更細致地理解其機制; 1. 跨領域整合與邊界拓展:涵蓋來自文本、行為等推薦分支的相關方法,如摘要、上下文學習或推理提示,并探討其在MRS中的遷移潛力; 1. 當前趨勢梳理與研究空白識別:對當前研究熱點與未充分探索方向進行整合(第4節),明確研究收斂點與亟待突破的環節; 1. 擴展的評估指標與數據資源:提供覆蓋MRS特定目標(如多樣性、新穎性、多目標權衡)與LLM相關實踐的評估指標綜述(附錄A.2),并匯總了更全面的公開數據集資源(附錄A.1)。
摘要 — 從快速擴展的互聯網信息中獲取有價值的數據已經成為一個重要的課題,而推薦系統作為一種廣泛使用且有效的工具,幫助用戶發現感興趣的項目。推薦系統的本質在于其能夠預測用戶對各種項目的評分或偏好,并基于歷史交互數據和公開信息推薦最相關的項目。隨著包括文本、圖像、視頻和音頻在內的多種多媒體服務的出現,人類可以通過多種模態感知世界。因此,一個能夠理解和解釋不同模態數據的推薦系統能夠更有效地參考個體偏好。多模態推薦系統(MRS)不僅捕捉跨多種模態的隱式交互信息,還具有揭示這些模態之間隱藏關系的潛力。本文綜述的主要目標是全面回顧MRS的最新研究進展,并從技術角度分析這些模型。具體而言,我們旨在總結MRS的總體過程和主要挑戰。然后,我們通過將現有的MRS模型分類為四個關鍵領域:特征提取、編碼器、多模態融合和損失函數,來介紹這些模型。最后,我們進一步討論了發展和增強MRS的潛在未來方向。本綜述為MRS領域的研究人員和實踐者提供了全面的指南,提供了MRS技術的現狀見解,并確定了未來研究的方向。我們希望能夠為開發更為復雜和有效的多模態推薦系統做出貢獻。欲了解更多詳情,請訪問我們的開源倉庫://github.com/JinfengXu/Awesome-Multimodal-Recommender-Systems。 關鍵詞 — 信息系統,數據挖掘,多媒體信息系統,多模態推薦系統。 I. 引言
互聯網的快速擴展導致信息量的激增,使得用戶越來越難以識別哪些信息是有用的和相關的。這種現象被稱為信息過載,主要源于在數字時代幾乎無法控制信息的生成和傳播。因此,迫切需要強大的過濾機制,以優先處理相關內容,從而促進高效的溝通和決策過程。推薦系統應運而生,它通過根據不同領域的特定需求個性化內容過濾,已證明能夠有效緩解信息過載的負面影響。這些系統在商業應用中尤其成功,如電子商務、廣告和社交媒體,在這些領域中,個性化對于用戶參與和滿意度至關重要[1]–[4]。 推薦系統的主要功能是預測用戶對各種項目的評分或偏好,并根據歷史交互數據和公開信息推薦最可能和相關的項目。然而,傳統的基于ID的推薦方法,基于用戶傾向于選擇與其之前喜歡的項目相似的原則,往往嚴重依賴于足夠的用戶-項目交互。盡管取得了一些成功,推薦系統仍面臨兩個主要挑戰:數據稀疏性和冷啟動問題。數據稀疏性源于用戶與產品之間的交互數據天然稀疏,導致難以準確預測用戶的偏好。這種稀疏性可能導致不可靠的推薦,尤其是在具有大量項目目錄但相對較少用戶交互的系統中。冷啟動問題則發生在傳統推薦系統模型過度依賴ID嵌入時,這些模型難以為沒有歷史交互數據的新用戶或新產品提供令人滿意的預測。這個問題在動態環境中尤為突出,因為新項目和新用戶會持續引入。 為了緩解這些問題,推薦系統中越來越多地集成了多模態信息。多模態推薦系統(MRS)利用文本、圖像、視頻和音頻等輔助多模態信息,補充用戶與項目之間的歷史交互。這種方法通過提供更豐富、更全面的用戶偏好理解,提升了推薦性能。推薦系統的核心目標是迎合人們的偏好,而由于人類對世界的感知本質上是多模態的,整合多種模態信息能夠更細致地捕捉偏好,從而提供更準確和個性化的推薦,進而提高用戶的滿意度和參與度。
多模態推薦研究正在迅速增長和發展。為了幫助研究人員快速理解MRS并支持社區的發展,迫切需要從技術角度進行全面回顧。現有工作[5]嘗試從技術角度對MRS進行分類,但隨著該領域的快速發展,一些分類已顯得過時。因此,我們旨在收集近期的研究工作,提出一個更為最新的分類框架,幫助研究人員掌握MRS社區的最新進展。本綜述將全面概述當前MRS技術,突出新興趨勢,并識別未來的研究與開發方向。通過系統地審視MRS領域的最新進展,我們希望為提升推薦系統在多模態數字世界中的能力和應用做出貢獻。 A. 相關論文的檢索策略
我們通過系統地檢索和分析該領域頂級會議和期刊中的文章,進行了一項關于多模態推薦系統(MRS)的全面調研。我們涉及的會議和期刊包括但不限于MM、KDD、WWW、SIGIR、AAAI、ICLR、IJCAI、CIKM、WSDM、TMM、TKDE、TPAMI和INFFUS。這個嚴格的選擇過程確保了我們的調研涵蓋了MRS領域最具影響力和前沿的研究成果。 我們的檢索方法分為三個 distinct 階段:
通過這種系統化的方法,我們的調研提供了MRS領域最新技術的深入概述,突出了該領域的重要進展、新興趨勢及未來潛在的研究方向,為研究人員和從業者提供了寶貴的指導。 B. 與相關綜述的比較
此前已經有一些關于推薦系統的綜述,涉及這些系統的一般方面或特定的部分內容。然而,沒有任何綜述提供對近年來的SOTA MRS工作中所使用的過程和技術的全面合理的分類,這正是當前該領域亟需的。MRS的目標是通過將多模態信息引入推薦系統,增強提取用戶與項目之間更深層次、更準確交互的能力。本文討論了現有相關綜述的主要貢獻和局限性,并突出了我們工作中的獨特貢獻,如表 I 所示。 Zhang 等人[6]提供了基于深度學習的推薦系統進展的全景視圖,調查了未來的方向和挑戰,包括聯合表示學習、可解釋性、更深的模型和機器推理。然而,他們的工作缺乏對現有SOTA技術的細粒度介紹。Deldjoo 等人[8]提供了一個綜合性綜述,并按模態進行了粗粒度分類,包括音頻、視覺和文本等常見特征,以及運動、元數據和語義取向等特殊特征。然而,這一分類較為粗略,缺乏精確性。 Jannach 等人[9]探討了對話式推薦系統(CRS)的領域,提供了現有技術的分類綜述,但其工作未整合多模態信息。Deldjoo 等人[1]討論了基于內容的MRS的SOTA方法,調查了挑戰和歷史演變,包括增加推薦多樣性和新穎性、提供透明性和解釋、實現上下文感知、提高可擴展性和效率,以及緩解冷啟動問題。然而,他們的重點主要放在基于內容的MRS上,而非涵蓋整個MRS領域。 之前的工作[7],[10]集中于推薦系統中的圖結構。Guo 等人[7]提供了一個細粒度的綜述,分析了利用知識圖譜(KG)來增強推薦結果的方法,將方法分為基于嵌入的、基于路徑的和統一的。Wu 等人[10]提供了關于圖神經網絡(GNN)技術在推薦系統中的綜合性綜述,指出了多個限制和未來的方向,包括多樣性和不確定性表示、可擴展性、動態性、感受野、自監督學習、魯棒性、隱私保護方法和公平性。 Deldjoo 等人[2]提供了一個關于時尚領域推薦系統的全面綜述,分類了市場中的任務,并概述了時尚領域特有的評估目標。Meng 等人[11]對個性化新聞推薦進行了深入分析,討論了技術,并列出了多個局限性和未來方向,包括隱私保護、假新聞緩解和去偏見。Zhou 等人[12]總結了MRS中所采用的主要方法,并提出了一個通用框架,用于常見的MRS模型。盡管他們的工作提供了對以往方法的全面回顧,但他們提出的MRS管道缺乏詳細闡述。最近,Liu 等人[5]也總結了MRS中使用的主要方法,并提供了一個常見框架。然而,這項工作從過程的角度劃分MRS,而不是專注于技術發展,這限制了讀者對該領域研究方向的全面理解。 總之,我們的工作旨在填補這些空白,提供一個更加詳細和最新的MRS過程和技術分類,從而推動對這個快速發展的領域的理解和發展。 我們的調研專注于從技術角度對MRS進行精細分類,以為研究人員提供有關MRS技術發展的見解。最后,我們討論了多模態推薦系統發展的潛在未來方向。 C. 本綜述的大綱
本綜述的結構安排如下:
簡要概述推薦系統的歷史發展,強調利用多模態信息提升推薦的意義。隨后,我們詳細介紹了本文的檢索策略,確保了研究的質量。此外,我們還與先前的綜述進行對比分析,并介紹了本綜述的結構和主要貢獻。
我們提出了多模態推薦系統的最新技術分類框架,并詳細討論了各種技術的應用。
總結當前領域中的新興趨勢,突出在多模態推薦中取得的重要進展。
討論當前技術面臨的主要挑戰,并提出未來的研究方向。
總結本綜述的主要內容,并提供對未來研究的展望。
II. 技術分類法
根據當前多模態推薦系統(MRS)的最新研究成果,我們將MRS中的技術總結并組織為四個部分,如圖2所示。具體而言,這四個部分分別是:特征提取、編碼器、多模態融合和損失函數。我們將簡要概述這些部分,并在后續章節中詳細討論。 A. 特征提取
不同的應用場景涉及不同類型的模態信息,從而導致不同的數據集和各自獨特的多模態特征。然而,大多數數據集通常至少包括三種主要模態:交互、視覺和文本。例如,像Amazon、Netflix和TikTok這樣的大型平臺提供了富含圖像和文本信息的數據集,覆蓋了視覺和文本模態。特別是,TikTok的數據集常常還包含其他模態,如音頻和視頻[13]–[15]。此外,某些專門領域的數據集可能包含稀有的模態。例如,時尚和醫療保健等熱門領域的數據集通常包括多種專業模態。 特征提取是一個關鍵過程,旨在通過嵌入技術表示低維、可解釋的通道特征。對于不同的模態,采用不同的預提取方法。對于視覺模態,使用如ResNet [16]和ViT [17]這樣的模型來提取特征;對于文本模態,使用BERT [18]和Sentence-Transformer [19]等模型來推導特征;音頻特征通常使用如LSTM [20]和GRU [21]這樣的模型提取。 在第III節中,我們將詳細介紹特征提取,深入探討每種模態及其對應的提取技術。 B. 編碼器
編碼器利用從多模態信息和歷史交互數據中提取的特征來推斷用戶偏好表示,并隨后用于預測用戶-項目交互,從而進行推薦。與傳統的推薦系統類似,多模態推薦的編碼器可以大致分為基于矩陣分解(MF [22])和基于圖卷積網絡(Graph [23])的方法。基于MF的方法以其簡單有效著稱,而基于圖的方法利用用戶-項目交互中的二分圖結構來學習更高階的鄰居特征。 隨著MRS的快速發展,提出并采用了更為復雜的編碼器,全面利用豐富的多模態信息,從而提高推薦性能。這些先進的編碼器能夠整合多樣的多模態數據,進而提供更準確、個性化的推薦。 在第III節中,我們將詳細介紹這兩種編碼器的發展及其背后的動機,包括如何通過MF方法高效捕捉用戶-項目交互,以及基于圖的方法如何通過整合復雜的圖結構來擴展這一能力。通過研究這些方法,我們旨在闡明每種方法的優缺點,以及它們對MRS社區的貢獻。 C. 多模態融合
多模態融合是MRS中的一個關鍵研究方向。近期研究表明,模態融合的時機可能顯著影響推薦效果。多模態融合涉及在不同階段整合來自不同模態的信息,這一時機對實現最佳性能至關重要。
在第V節中,我們將根據融合時機對現有工作進行詳細分類,區分為早期融合和后期融合方法。這一分類將全面了解不同融合策略如何影響MRS系統的性能。我們將探討早期融合和后期融合中采用的各種方法和技術,分析它們的優缺點和應用場景。 D. 損失函數
MRS利用的損失函數大致可以分為兩大部分:主任務和輔助任務。主任務是監督學習,通常涉及明確定義的標簽來指導模型的學習過程。這些任務確保模型基于標簽數據學習做出準確的預測。輔助任務則是自監督學習(SSL)[24]。自監督學習通過利用數據自身的內在結構或模式生成監督信號,而不是僅僅依賴外部標簽數據。這一方法使得推薦系統能夠有效地利用未標注數據,在數據稀疏的情況下仍能提取有意義的表示并做出準確預測。 監督學習可以進一步細分為逐點損失和對比損失:
自監督學習可以分為基于特征和基于結構的兩種方法:
在第VI節中,我們將詳細介紹這些損失函數,探討每種損失類型背后的動機、實現細節以及它們對多模態推薦系統性能的影響。通過分析監督學習和自監督學習策略,我們旨在提供對不同損失函數如何貢獻于多模態推薦有效性的全面理解。
摘要—AI生成的媒體的迅猛發展對信息真實性和社會信任提出了重大挑戰,因此對可靠的檢測方法需求日益增加。檢測AI生成媒體的方法隨著多模態大語言模型(MLLMs)的發展而迅速演變。目前的檢測方法可分為兩大類:非MLLM方法和基于MLLM的方法。前者利用深度學習技術驅動的高精度、領域特定檢測器,而后者則采用基于MLLM的通用檢測器,集成了真實性驗證、可解釋性和定位能力。盡管該領域取得了顯著進展,但關于從領域特定到通用檢測方法轉變的全面綜述仍然存在文獻空白。本文通過提供對這兩種方法的系統評審來填補這一空白,從單模態和多模態的角度進行分析。我們對這兩類方法進行了詳細的比較分析,探討了它們在方法論上的相似性和差異性。通過這一分析,我們探索了潛在的混合方法,并識別了偽造檢測中的關鍵挑戰,為未來的研究提供了方向。此外,隨著MLLM在檢測任務中的日益普及,倫理和安全問題已成為全球關注的關鍵問題。我們審視了不同司法管轄區內關于生成性AI(GenAI)的監管環境,提供了對該領域研究人員和從業者的寶貴見解。 關鍵詞—AI生成媒體檢測,MLLM,深度學習,文獻綜述
冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,
鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。
在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。
早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。
本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。
表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。
為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。
內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。
圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。
在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。
大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。
在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:
摘要
大規模語言模型(LLM)在多個領域具有變革性的潛力,包括推薦系統(RS)。已有一些研究專注于通過LLM賦能推薦系統。然而,之前的工作主要集中于將LLM作為推薦系統,這可能面臨LLM推理成本過高的問題。最近,LLM與推薦系統的結合——即LLM增強推薦系統(LLMERS)——因其在實際應用中解決延遲和內存限制的潛力,受到了廣泛關注。本文對最新的研究工作進行了全面的綜述,旨在利用LLM提升推薦系統的能力。我們發現,隨著LLM被引入在線系統,特別是通過避免在推理階段使用LLM,領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型:知識增強、交互增強和模型增強。我們深入分析了每個類別,討論了相關方法、挑戰以及近期研究的貢獻。此外,我們還指出了幾個有前景的研究方向,這些方向可能進一步推動LLMERS領域的發展。
大規模語言模型(LLM)在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統(RS)僅利用協同信號 [2, 65, 66],通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此,許多研究提出了彌合自然語言與推薦之間差距的方法,從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功,但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應,而LLM(例如LLaMA-7B)在響應時間上通常需要幾秒鐘。然而,許多早期的研究主要集中在直接使用LLM進行推薦 [13],這使得它們難以滿足實際應用的需求。最近,越來越多的研究者開始關注這一問題,并深入探索LLM增強推薦系統的實踐應用。因此,本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍,我們首先給出LLMERS的定義:傳統推薦系統通過LLM的輔助來增強訓練或補充數據,但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述,但存在三點關鍵差異: i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統,包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下,我們的綜述專門探討LLM增強推薦系統(LLMERS)。 ii) LLM在推薦系統中的應用是一個前沿方向,發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下,本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33],但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS,包括特征和模型兩個方面。
由于LLM增強推薦系統是基于傳統推薦系統的,因此有必要先介紹其組件和面臨的挑戰,以便理解為什么以及在何處需要使用LLM。如圖1所示,傳統推薦系統通常由交互數據和推薦模型組成。
交互數據
傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練,因此數據中的交互信息對訓練是必不可少的。此外,許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此,特征和交互數據是數據中的兩個必要組成部分。然而,數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展:
推薦模型
隨著深度學習技術的廣泛應用,推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88],而深度網絡則捕捉用戶的興趣 [84]。然而,它們也面臨一個獨特的挑戰:
LLMERS通過增強傳統推薦系統的基本組件,即交互數據和推薦模型,從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用,我們將LLM增強推薦系統分為三大類,如圖1所示:
這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征,補充推理和理解的知識,從而解決挑戰1。(第二部分)
為了解決數據稀疏性問題(即挑戰2),一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)
LLM能夠從語義角度分析交互數據,因此一些研究嘗試利用LLM來輔助傳統的推薦模型,從而解決挑戰3。(第四部分) 為清晰起見,我們在圖2中根據分類法展示了所有相關的LLMERS論文。
摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。
I. 引言
人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。
為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。
A. 相關工作
許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。
B. 貢獻
本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:
本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
現如今,已有超過20種商業向量數據庫管理系統(VDBMSs),它們都是在過去五年內推出的。但基于嵌入的檢索(EBR)已經被研究了超過十年,而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的,尤其是大型語言模型(LLMs),它們需要大量的非結構化數據,以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求,但尚無全面的調查來徹底審查這些技術和系統。
//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804
我們首先識別向量數據管理的五個主要障礙,即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分,以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理,各種相似性分數和查詢類型現已被充分理解;對于存儲和索引,技術包括向量壓縮,即量化,以及基于隨機化、學習劃分和“可導航”的劃分技術;對于查詢優化和執行,我們描述了混合查詢的新運算符,以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上,包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。 然后,我們討論基準測試,并最后概述了幾個研究挑戰,并指出未來工作的方向。
隨著用于信息檢索 [36] 的大型語言模型(LLMs)[71] 的崛起,以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長,有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能,如查詢優化、事務處理、可擴展性、容錯能力,以及隱私和安全性,但這是針對非結構化數據的。 由于這些數據并不是由固定模式中的屬性表示的,因此它們不是通過結構化查詢而是通過相似性搜索來檢索的,在這種搜索中,與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索,實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量,然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程,也稱為密集檢索 [73]。
因此,VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器;而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用,如LLMs,都是讀取密集型的,需要高查詢吞吐量和低延遲。其他應用,如電子商務,也是寫入密集型的,需要高寫入吞吐量。此外,一些應用需要高查詢準確性,這意味著檢索到的實體與查詢在語義上真正匹配,而其他應用可能對錯誤更為寬容。因此,開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。
雖然對于處理傳統的結構化數據有成熟的理解,但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞,但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞(例如 <, >, = 和 ∈)大多可以在O(1)時間內評估,但相似性比較通常需要O(D)時間,其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性,從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面,使磁盤檢索更加昂貴,同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的,導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序,也不是序數,這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作,如并集或交集,將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止,與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面,修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。
現在已經有各種技術圍繞這些問題開發,旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術,包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構,都是較近期的發明。
在本文中,我們首先從通用VDBMS的角度對這些技術進行調研,將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后,我們將這些技術的理解應用于描述現有的VDBMS。
查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者,有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者,基本運算符是相似性投影,但由于它可能效率不高,因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。
存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統,這是通過向量搜索索引實現的。我們將索引分類為基于表的索引,如E2LSH [49]、SPANN [44] 和IVFADC [69],這些索引通常容易更新;基于樹的索引,如FLANN [96]、RPTree [47,48] 和ANNOY [1],旨在提供對數搜索;以及基于圖的索引,如KGraph [52]、FANNG [66] 和HNSW [90],已經被證明在經驗上表現良好,但理論理解較少。為了解決劃分向量集合的難題,技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小,已經為壓縮向量上的索引開發了幾種技術,包括量化[62,69,91,113,129,133],以及基于磁盤的索引[61,44]。我們在第3節中討論索引。
優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢,已經開發了幾種混合運算符,基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術,包括基于規則和基于成本的選擇[133,125]。對于查詢執行,有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符,利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術,即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統,這些系統專門圍繞向量管理設計,包括Vearch [81]、Milvus [125] 和Manu [63];擴展系統在現有的數據管理系統之上增加向量功能,包括AnalyticDB-V [133] 和PASE [139];以及搜索引擎和庫,旨在僅提供搜索功能,如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術,而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。
相關綜述。有一個高級調查可用,主要關注VDBMS的基本概念和用例。同樣,有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型,如時間序列和字符串,但VDBMS不支持。與這些其他數據類型的系統不同,VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分,我們在第6節簡要討論基準測試,然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。