摘要 — 從快速擴展的互聯網信息中獲取有價值的數據已經成為一個重要的課題,而推薦系統作為一種廣泛使用且有效的工具,幫助用戶發現感興趣的項目。推薦系統的本質在于其能夠預測用戶對各種項目的評分或偏好,并基于歷史交互數據和公開信息推薦最相關的項目。隨著包括文本、圖像、視頻和音頻在內的多種多媒體服務的出現,人類可以通過多種模態感知世界。因此,一個能夠理解和解釋不同模態數據的推薦系統能夠更有效地參考個體偏好。多模態推薦系統(MRS)不僅捕捉跨多種模態的隱式交互信息,還具有揭示這些模態之間隱藏關系的潛力。本文綜述的主要目標是全面回顧MRS的最新研究進展,并從技術角度分析這些模型。具體而言,我們旨在總結MRS的總體過程和主要挑戰。然后,我們通過將現有的MRS模型分類為四個關鍵領域:特征提取、編碼器、多模態融合和損失函數,來介紹這些模型。最后,我們進一步討論了發展和增強MRS的潛在未來方向。本綜述為MRS領域的研究人員和實踐者提供了全面的指南,提供了MRS技術的現狀見解,并確定了未來研究的方向。我們希望能夠為開發更為復雜和有效的多模態推薦系統做出貢獻。欲了解更多詳情,請訪問我們的開源倉庫://github.com/JinfengXu/Awesome-Multimodal-Recommender-Systems。 關鍵詞 — 信息系統,數據挖掘,多媒體信息系統,多模態推薦系統。 I. 引言
互聯網的快速擴展導致信息量的激增,使得用戶越來越難以識別哪些信息是有用的和相關的。這種現象被稱為信息過載,主要源于在數字時代幾乎無法控制信息的生成和傳播。因此,迫切需要強大的過濾機制,以優先處理相關內容,從而促進高效的溝通和決策過程。推薦系統應運而生,它通過根據不同領域的特定需求個性化內容過濾,已證明能夠有效緩解信息過載的負面影響。這些系統在商業應用中尤其成功,如電子商務、廣告和社交媒體,在這些領域中,個性化對于用戶參與和滿意度至關重要[1]–[4]。 推薦系統的主要功能是預測用戶對各種項目的評分或偏好,并根據歷史交互數據和公開信息推薦最可能和相關的項目。然而,傳統的基于ID的推薦方法,基于用戶傾向于選擇與其之前喜歡的項目相似的原則,往往嚴重依賴于足夠的用戶-項目交互。盡管取得了一些成功,推薦系統仍面臨兩個主要挑戰:數據稀疏性和冷啟動問題。數據稀疏性源于用戶與產品之間的交互數據天然稀疏,導致難以準確預測用戶的偏好。這種稀疏性可能導致不可靠的推薦,尤其是在具有大量項目目錄但相對較少用戶交互的系統中。冷啟動問題則發生在傳統推薦系統模型過度依賴ID嵌入時,這些模型難以為沒有歷史交互數據的新用戶或新產品提供令人滿意的預測。這個問題在動態環境中尤為突出,因為新項目和新用戶會持續引入。 為了緩解這些問題,推薦系統中越來越多地集成了多模態信息。多模態推薦系統(MRS)利用文本、圖像、視頻和音頻等輔助多模態信息,補充用戶與項目之間的歷史交互。這種方法通過提供更豐富、更全面的用戶偏好理解,提升了推薦性能。推薦系統的核心目標是迎合人們的偏好,而由于人類對世界的感知本質上是多模態的,整合多種模態信息能夠更細致地捕捉偏好,從而提供更準確和個性化的推薦,進而提高用戶的滿意度和參與度。
多模態推薦研究正在迅速增長和發展。為了幫助研究人員快速理解MRS并支持社區的發展,迫切需要從技術角度進行全面回顧。現有工作[5]嘗試從技術角度對MRS進行分類,但隨著該領域的快速發展,一些分類已顯得過時。因此,我們旨在收集近期的研究工作,提出一個更為最新的分類框架,幫助研究人員掌握MRS社區的最新進展。本綜述將全面概述當前MRS技術,突出新興趨勢,并識別未來的研究與開發方向。通過系統地審視MRS領域的最新進展,我們希望為提升推薦系統在多模態數字世界中的能力和應用做出貢獻。 A. 相關論文的檢索策略
我們通過系統地檢索和分析該領域頂級會議和期刊中的文章,進行了一項關于多模態推薦系統(MRS)的全面調研。我們涉及的會議和期刊包括但不限于MM、KDD、WWW、SIGIR、AAAI、ICLR、IJCAI、CIKM、WSDM、TMM、TKDE、TPAMI和INFFUS。這個嚴格的選擇過程確保了我們的調研涵蓋了MRS領域最具影響力和前沿的研究成果。 我們的檢索方法分為三個 distinct 階段:
通過這種系統化的方法,我們的調研提供了MRS領域最新技術的深入概述,突出了該領域的重要進展、新興趨勢及未來潛在的研究方向,為研究人員和從業者提供了寶貴的指導。 B. 與相關綜述的比較
此前已經有一些關于推薦系統的綜述,涉及這些系統的一般方面或特定的部分內容。然而,沒有任何綜述提供對近年來的SOTA MRS工作中所使用的過程和技術的全面合理的分類,這正是當前該領域亟需的。MRS的目標是通過將多模態信息引入推薦系統,增強提取用戶與項目之間更深層次、更準確交互的能力。本文討論了現有相關綜述的主要貢獻和局限性,并突出了我們工作中的獨特貢獻,如表 I 所示。 Zhang 等人[6]提供了基于深度學習的推薦系統進展的全景視圖,調查了未來的方向和挑戰,包括聯合表示學習、可解釋性、更深的模型和機器推理。然而,他們的工作缺乏對現有SOTA技術的細粒度介紹。Deldjoo 等人[8]提供了一個綜合性綜述,并按模態進行了粗粒度分類,包括音頻、視覺和文本等常見特征,以及運動、元數據和語義取向等特殊特征。然而,這一分類較為粗略,缺乏精確性。 Jannach 等人[9]探討了對話式推薦系統(CRS)的領域,提供了現有技術的分類綜述,但其工作未整合多模態信息。Deldjoo 等人[1]討論了基于內容的MRS的SOTA方法,調查了挑戰和歷史演變,包括增加推薦多樣性和新穎性、提供透明性和解釋、實現上下文感知、提高可擴展性和效率,以及緩解冷啟動問題。然而,他們的重點主要放在基于內容的MRS上,而非涵蓋整個MRS領域。 之前的工作[7],[10]集中于推薦系統中的圖結構。Guo 等人[7]提供了一個細粒度的綜述,分析了利用知識圖譜(KG)來增強推薦結果的方法,將方法分為基于嵌入的、基于路徑的和統一的。Wu 等人[10]提供了關于圖神經網絡(GNN)技術在推薦系統中的綜合性綜述,指出了多個限制和未來的方向,包括多樣性和不確定性表示、可擴展性、動態性、感受野、自監督學習、魯棒性、隱私保護方法和公平性。 Deldjoo 等人[2]提供了一個關于時尚領域推薦系統的全面綜述,分類了市場中的任務,并概述了時尚領域特有的評估目標。Meng 等人[11]對個性化新聞推薦進行了深入分析,討論了技術,并列出了多個局限性和未來方向,包括隱私保護、假新聞緩解和去偏見。Zhou 等人[12]總結了MRS中所采用的主要方法,并提出了一個通用框架,用于常見的MRS模型。盡管他們的工作提供了對以往方法的全面回顧,但他們提出的MRS管道缺乏詳細闡述。最近,Liu 等人[5]也總結了MRS中使用的主要方法,并提供了一個常見框架。然而,這項工作從過程的角度劃分MRS,而不是專注于技術發展,這限制了讀者對該領域研究方向的全面理解。 總之,我們的工作旨在填補這些空白,提供一個更加詳細和最新的MRS過程和技術分類,從而推動對這個快速發展的領域的理解和發展。 我們的調研專注于從技術角度對MRS進行精細分類,以為研究人員提供有關MRS技術發展的見解。最后,我們討論了多模態推薦系統發展的潛在未來方向。 C. 本綜述的大綱
本綜述的結構安排如下:
簡要概述推薦系統的歷史發展,強調利用多模態信息提升推薦的意義。隨后,我們詳細介紹了本文的檢索策略,確保了研究的質量。此外,我們還與先前的綜述進行對比分析,并介紹了本綜述的結構和主要貢獻。
我們提出了多模態推薦系統的最新技術分類框架,并詳細討論了各種技術的應用。
總結當前領域中的新興趨勢,突出在多模態推薦中取得的重要進展。
討論當前技術面臨的主要挑戰,并提出未來的研究方向。
總結本綜述的主要內容,并提供對未來研究的展望。
II. 技術分類法
根據當前多模態推薦系統(MRS)的最新研究成果,我們將MRS中的技術總結并組織為四個部分,如圖2所示。具體而言,這四個部分分別是:特征提取、編碼器、多模態融合和損失函數。我們將簡要概述這些部分,并在后續章節中詳細討論。 A. 特征提取
不同的應用場景涉及不同類型的模態信息,從而導致不同的數據集和各自獨特的多模態特征。然而,大多數數據集通常至少包括三種主要模態:交互、視覺和文本。例如,像Amazon、Netflix和TikTok這樣的大型平臺提供了富含圖像和文本信息的數據集,覆蓋了視覺和文本模態。特別是,TikTok的數據集常常還包含其他模態,如音頻和視頻[13]–[15]。此外,某些專門領域的數據集可能包含稀有的模態。例如,時尚和醫療保健等熱門領域的數據集通常包括多種專業模態。 特征提取是一個關鍵過程,旨在通過嵌入技術表示低維、可解釋的通道特征。對于不同的模態,采用不同的預提取方法。對于視覺模態,使用如ResNet [16]和ViT [17]這樣的模型來提取特征;對于文本模態,使用BERT [18]和Sentence-Transformer [19]等模型來推導特征;音頻特征通常使用如LSTM [20]和GRU [21]這樣的模型提取。 在第III節中,我們將詳細介紹特征提取,深入探討每種模態及其對應的提取技術。 B. 編碼器
編碼器利用從多模態信息和歷史交互數據中提取的特征來推斷用戶偏好表示,并隨后用于預測用戶-項目交互,從而進行推薦。與傳統的推薦系統類似,多模態推薦的編碼器可以大致分為基于矩陣分解(MF [22])和基于圖卷積網絡(Graph [23])的方法。基于MF的方法以其簡單有效著稱,而基于圖的方法利用用戶-項目交互中的二分圖結構來學習更高階的鄰居特征。 隨著MRS的快速發展,提出并采用了更為復雜的編碼器,全面利用豐富的多模態信息,從而提高推薦性能。這些先進的編碼器能夠整合多樣的多模態數據,進而提供更準確、個性化的推薦。 在第III節中,我們將詳細介紹這兩種編碼器的發展及其背后的動機,包括如何通過MF方法高效捕捉用戶-項目交互,以及基于圖的方法如何通過整合復雜的圖結構來擴展這一能力。通過研究這些方法,我們旨在闡明每種方法的優缺點,以及它們對MRS社區的貢獻。 C. 多模態融合
多模態融合是MRS中的一個關鍵研究方向。近期研究表明,模態融合的時機可能顯著影響推薦效果。多模態融合涉及在不同階段整合來自不同模態的信息,這一時機對實現最佳性能至關重要。
在第V節中,我們將根據融合時機對現有工作進行詳細分類,區分為早期融合和后期融合方法。這一分類將全面了解不同融合策略如何影響MRS系統的性能。我們將探討早期融合和后期融合中采用的各種方法和技術,分析它們的優缺點和應用場景。 D. 損失函數
MRS利用的損失函數大致可以分為兩大部分:主任務和輔助任務。主任務是監督學習,通常涉及明確定義的標簽來指導模型的學習過程。這些任務確保模型基于標簽數據學習做出準確的預測。輔助任務則是自監督學習(SSL)[24]。自監督學習通過利用數據自身的內在結構或模式生成監督信號,而不是僅僅依賴外部標簽數據。這一方法使得推薦系統能夠有效地利用未標注數據,在數據稀疏的情況下仍能提取有意義的表示并做出準確預測。 監督學習可以進一步細分為逐點損失和對比損失:
自監督學習可以分為基于特征和基于結構的兩種方法:
在第VI節中,我們將詳細介紹這些損失函數,探討每種損失類型背后的動機、實現細節以及它們對多模態推薦系統性能的影響。通過分析監督學習和自監督學習策略,我們旨在提供對不同損失函數如何貢獻于多模態推薦有效性的全面理解。
摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型
1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。
近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。
生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。
為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。
本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標與對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。
第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。
摘要 — 大型語言模型(LLMs)正在以驚人的速度發展,并已成為學術界、工業界和日常應用中不可或缺的一部分。為了跟上當前的發展態勢,本調查深入探討了LLMs崛起對評估所帶來的核心挑戰。我們識別并分析了兩個關鍵的轉變:(i)從任務特定的評估到基于能力的評估,這一轉變圍繞知識、推理、指令跟隨、多模態理解和安全性等核心能力重組基準;(ii)從手動評估到自動化評估,包括動態數據集創建和“LLM作為評審員”的評分。然而,即使在這些轉變之后,仍然存在一個關鍵的障礙:評估泛化問題。有限的測試集無法與能力似乎無限增長的模型相匹配。我們將從方法、數據集、評估者和度量標準的角度,剖析這一問題以及上述兩個轉變的核心挑戰。鑒于這一領域的快速發展,我們將維護一個持續更新的GitHub存儲庫(每個章節中都有鏈接)來眾包更新和修正,熱忱歡迎貢獻者和合作者參與。 關鍵詞 — 大型語言模型、評估、基準、調查
大型語言模型(LLMs)在學術界和工業界取得了前所未有的成功,這在很大程度上歸功于訓練和評估技術的快速進展。作為“質量控制系統”,評估不僅指導技術進步的軌跡,還充當潛在風險的預警機制。最近的推理型LLMs,如OpenAI的o1或DeepSeek-R1,進一步強調了評估的重要性——通過將推理、評估和隨后的再推理(即細化或修正)整合到一個單一的思維鏈(CoT)中,它們的推理質量得到了極大提升。這些進展為評估領域注入了新的活力,產生了越來越多的基準和評估研究。為了跟上這一快速增長的步伐,我們的調查不僅僅是列出或針對特定方面的回顧。相反,我們深入探討了基礎挑戰,通過考察LLMs的出現如何重塑評估領域,我們稱之為評估泛化問題。
在回顧當前該領域的研究時,我們識別出兩個關鍵轉變。如圖1所示,評估中的一個轉變是從任務特定到基于能力的轉變。傳統的評估方法專注于特定任務(例如,文本分類、信息抽取)。隨著LLMs將各種NLP任務統一為自然語言生成的形式,每個任務的定義及其之間的邊界變得越來越模糊。在這一新范式下,每個指令或提示都可以視為一個獨立的任務,從而將注意力轉向評估解決現實世界需求所需的核心能力。在本調查中,我們識別出五個關鍵能力:知識、推理、指令跟隨、多模態理解和安全性。在第二部分,我們回顧現有的基準并將其歸類于這一能力框架中,進一步細分為更詳細的子類別。此外,我們討論了綜合評估,評估不同能力之間的相互作用及當前的實時排行榜。這種從基于任務的評估到基于能力的評估的轉變使得對模型真實潛力的全面理解成為可能,超越了其在預定義任務中的表現。 評估中的另一個轉變是從手動方法到自動化方法,包括數據創建和判斷。在數據方面,模型性能的快速發展要求基準更新的頻率不斷增加,而手動創建過程已變得不可持續,這一點在GSM8K(Grade School Math 8K)上準確率從74%到95%在兩年內的飆升中得到了體現。自動化管道可以解決數據集創建中固有的成本和效率挑戰。自動化的另一個好處是能夠減少數據污染的風險,即測試數據在預訓練或后訓練過程中不小心暴露,導致性能被高估。為應對這一問題,自動化方法可以成為解決方案之一,它不斷更新或細化測試集,被稱為動態基準,確保測試數據在前期沒有暴露。
在判斷方面,如上所述,轉向用戶提示帶來了更多開放式的響應,這提出了更多復雜性:人工判斷成本高昂。自動評估器(即“LLM作為評審員”)不僅在提供可靠、高效的評估方面展現出潛力,而且還能生成更詳細、更細致的人類響應評估。在第三部分,我們對這些自動化方法進行了全面回顧。
盡管研究人員在上述兩個轉變中取得了顯著進展,但我們認為一個根本的矛盾依然存在:即通過規模法則暗示的訓練范式與有限評估實踐之間的矛盾。隨著模型參數、訓練FLOPs和數據量的增加,性能似乎可以無限提升。然而,考慮到效率,評估數據集在實踐中無法無限擴展或多樣化。也就是說,當前的評估管道無法與模型能力同步擴展。結果是,模型能做什么與我們的測試能覆蓋什么之間的差距日益增大。這種緊張關系是LLM評估中的許多已知挑戰的根源。例如,以數據污染為例,由于有限的測試數據集只能覆蓋模型能力的一個子集,不同模型在評估中可能會獲得異質的優勢,導致不公平的比較。也就是說,如果模型在訓練期間已經遇到并記住了測試樣本,它的測量能力將與數據集評估的內容完全對齊,從而給予它一個不一定反映更強實際能力的過度優勢。
我們將上述問題——如何利用有限的評估管道來評估一個無限的模型能力——稱為評估泛化問題。換句話說,現有的評估往往集中于模型已經展現的能力或能夠通過固定的測試集表達的能力,固有地限制了評估范圍。因此,在LLM時代,評估的核心挑戰是開發能夠預測未來或尚未表達的能力的可泛化評估方法。在本調查中,我們從數據集、評估者和度量標準等不同角度,探討這一挑戰并探索潛在的解決方案。例如,一些工作專注于預測性評估,精心創建各種任務以根據小規模模型的表現來估計大規模模型的表現[1]。或者,Cao等[2]提出結合表現和基于新解釋性的度量——模型利用指數(MUI),用于評估LLMs在給定數據集之外的潛力。其基本思想類似于人類評估實踐:在判斷一個人的整體能力時,我們既考慮結果,也考慮所需的努力(即MUI)——相同表現所需的努力較少,表示更高的熟練度。
值得注意的是,LLM評估是一個快速發展的領域。雖然我們已經盡力列出最新的文本中心評估工作,但許多研究仍處于預印本階段。因此,我們在這里強調的是前瞻性的見解和研究方向。不可避免地,可能會出現一些遺漏或不準確的地方。我們計劃維護一個專門的GitHub存儲庫,并邀請社區幫助我們進行改進;主要貢獻者將得到感謝或被邀請作為合作者。
摘要—推薦系統(Recommender Systems,RS)已成為信息過濾和內容個性化的關鍵技術。傳統的推薦技術主要依賴于對用戶與物品之間的交互建模,以及對內容特征的任務特定建模。隨著基礎模型(Foundation Models, FMs)的出現,如 GPT、LLaMA 和 CLIP 等在海量數據上訓練的大規模模型,推薦范式正發生深刻變革。 本文綜述了基礎模型在推薦系統中的應用(FM4RecSys),并從三個范式層面系統探討了其整合方式:(1)基于特征的表示增強,(2)生成式推薦方法,以及(3)具備智能體能力的交互式推薦系統。我們首先回顧了推薦系統的數據基礎,從傳統的顯式/隱式反饋到多模態內容源。隨后,介紹了基礎模型在表示學習、自然語言理解和多模態推理方面的能力及其在推薦情境中的應用。 本綜述的核心部分詳細討論了基礎模型如何在三個范式下增強推薦系統:在特征驅動范式中提升特征表示,在生成式范式中直接生成推薦內容,在智能體范式中支持自主推薦代理與模擬器。接著,我們探討了基礎模型在多種推薦任務中的應用,包括Top-N推薦、序列推薦、零樣本/小樣本推薦、對話式推薦及新物品/內容生成。 通過對最新研究成果的分析,我們總結了基礎模型已帶來的關鍵機遇(如更強的泛化能力、更優的解釋性與推理能力)以及當前面臨的挑戰(如跨領域泛化、可解釋性、公平性及多模態整合等)。最后,本文提出了下一代FM4RecSys的研究方向與技術挑戰,如多模態推薦智能體、檢索增強框架、面向長用戶序列的持續學習,以及效率與成本問題等。 本綜述不僅回顧了當前最前沿的方法,也對“特征驅動”“生成式”與“智能體”三大范式的權衡進行了深入分析,并指出了亟待解決的關鍵問題與未來研究方向。 關鍵詞—基礎模型,推薦系統,多模態表示,綜述。 //arxiv.org/pdf/2504.16420
推薦系統(Recommender Systems,RS)在電商、社交媒體、醫療健康和教育等多個領域中發揮著至關重要的作用 [1],[2]。其核心目標是通過捕捉用戶偏好、物品特征及上下文信息,提供個性化內容推薦。在過去十年中,受益于深度學習架構的發展以及大規模用戶行為數據的積累,該領域取得了顯著進展。然而,傳統推薦系統在捕捉細粒度用戶偏好、處理冷啟動問題以及提供透明且具上下文的解釋方面仍面臨挑戰。這些瓶頸限制了依賴領域特定模型或小規模模型提供準確、多樣推薦的能力。 與此同時,基礎模型(Foundation Models, FMs)在自然語言處理、計算機視覺和多模態任務中取得了突破性進展 [3]。近期,FMs 正在重塑推薦系統架構 —— 顯著提升性能、啟用新型用戶交互方式,并展現出捕捉復雜用戶-物品關系的強大潛力,同時具備在更廣泛推薦任務中泛化的能力。具體而言,Foundation Models for Recommender Systems(FM4RecSys)指的是通過預訓練與推薦數據集結合的方式,捕捉用戶偏好、物品特征和上下文變量的豐富表示,從而提升推薦任務中的個性化程度與預測準確性。 與傳統方法依賴精心設計的特征或狹窄的架構不同,FMs 借助大規模語料的廣泛預訓練,具備更強的泛化能力,能整合多種信號(文本、圖像、音頻、知識圖譜等),從而提供更豐富的用戶與物品表示,有效緩解數據稀疏和冷啟動問題。除提升預測性能外,FMs 還賦予推薦系統新能力,包括自然語言解釋、交互式對話接口,乃至具備智能決策能力的 agentic 系統。特別是在 agentic 框架下,FMs 被用于自主規劃、推理和適應動態環境,結合用戶反饋與實時上下文實現迭代更新。 接下來,我們將深入探討當前研究將 FMs 融入推薦系統的動因,以加深對 FMs 如何應用及其在不同推薦任務中影響的理解。
我們總結了推動 FM4RecSys 研究快速發展的主要動因,以全面理解其發展與應用背后的推動力: 增強的泛化能力。 基礎模型天生擅長從大規模數據中學習復雜模式,因此在面對新穎數據時具備更強的泛化能力 [5]。在推薦系統中,這意味著 FMs 能更準確地預測用戶行為,尤其在數據稀疏或新物品場景(如零樣本/小樣本推薦 [6]–[8])中表現尤為突出。通過對用戶偏好與物品屬性的零樣本/小樣本推斷,FMs 即使在缺乏豐富交互記錄的情況下,也能提供有效推薦。 提升的用戶體驗。 FMs 為推薦系統帶來了交互范式上的變革。例如在對話式推薦(CRS)中,傳統系統大多依賴預設對話模板 [9],[10],限制了交互的靈活性。而 FMs 支持更加動態、開放的自然語言對話,大幅提升用戶交互的自然度與參與感。用戶可以通過對話表達偏好、提問并接收個性化推薦。 更強的解釋與推理能力。 與傳統推薦系統依賴用戶評論或簡單協同行為(如共同購買)生成淺層解釋不同,FMs 可基于常識與上下文生成更連貫、邏輯更完整的解釋 [11],[12]。通過整合用戶偏好、歷史交互和物品特性,FMs 能為推薦提供更具說服力的解釋,尤其在醫療等高風險領域有助于促進負責任決策 [13]。 盡管傳統推薦系統長期受限于特征剛性與數據稀疏問題,但基礎模型的出現顯著提升了泛化能力。然而,如何在真實場景中實現這些潛力仍面臨挑戰,如實時適應性、計算效率與系統兼容性等。因此,我們從三大范式與多個推薦任務視角,全面、批判性地評估 FM4RecSys 的機遇與限制。
FMs 如何被集成進推薦系統?我們識別出當前研究中三種主要的集成范式:特征驅動(Feature-Based)、生成式(Generative)與智能體范式(Agentic)。三種范式在推薦流程中的角色由被動特征提供者逐步演變為主動決策者。如圖1所示,三種范式具有各自代表性特征與典型應用。
該范式將基礎模型作為特征提取器,用于生成高質量的用戶、物品或交互嵌入。例如,文本基礎模型(如 BERT)[14] 用于將物品描述或用戶評論編碼為語義向量,視覺-語言模型(如 CLIP)[15] 用于對齊多模態特征,實現跨領域推薦。該范式通常將 FMs 用作輔助模塊,與推薦主邏輯解耦。
該范式充分利用 FMs 的生成能力(如 GPT),直接以文本輸出形式生成推薦結果 [16]。包括生成個性化解釋 [17]、虛擬內容(如廣告文案、產品設計)或通過自回歸方式預測用戶偏好。此類方法的挑戰在于控制性與對齊性,即如何在流暢性與相關性之間取得平衡。
新興的智能體范式將推薦系統重新構想為由 FMs 驅動的自治智能體 [18]。這些智能體能通過自然語言與用戶動態互動,推理長期偏好,并執行動作(如主動提問、多輪規劃)以精化推薦。與靜態模型不同,agentic 系統具備目標導向行為,能使用工具(如搜索引擎、數據庫)并結合反饋循環實現自適應。 雖然前兩種范式已在推薦準確性與多樣性上取得進展,智能體范式則代表著更具前瞻性的范式轉變:向主動、可解釋、以人為本的系統演化。其獨特優勢包括: * 動態適應:實時更新用戶畫像,有效緩解冷啟動與數據稀疏問題; * 多模態上下文建模:統一處理文本、語音與圖像,捕捉細膩偏好(如解析用戶截圖); * 倫理對齊:結合憲法式AI等方法 [19],融入人類價值觀與規則,提升公平性與可解釋性。
LLM智能體(如 AutoGPT、Meta 的 CICERO [20])和檢索增強生成(RAG)等新范式的快速發展,進一步驗證了該范式的可行性。
當前關于 FM4RecSys 的研究熱度持續攀升,已有多篇綜述探討該交叉領域的部分視角。如 Liu 等 [21] 關注語言建模范式的訓練策略與目標,Wu 等 [22] 從判別式與生成式視角分析 LLM4Rec,Lin 等 [4] 提出從“位置”與“方式”兩個維度適配 LLMs,Fan 等 [23] 總結了LLMs在推薦任務中的預訓練、微調與提示工程等技術路徑。Lin 等 [24] 針對生成式推薦方法做了任務層級的梳理。 區別與貢獻: 與上述綜述相比,我們的綜述具有更廣泛的視角: * 跨模態視角:不僅關注 LLMs,還系統覆蓋視覺與多模態基礎模型; * 系統分類法:構建“數據源—范式—任務—挑戰”統一框架; * 三大范式對照:提出并細化特征驅動、生成式與智能體三大范式; * 任務全面覆蓋:橫跨Top-N排序、序列推薦、對話推薦等多任務; * 新趨勢探討:深入未解問題與未來機遇,推動 FM4RecSys 向前發展。
我們共收集并分析了150余篇與 FM4RecSys 相關的最新論文,覆蓋 ICLR、NeurIPS、WWW、WSDM、SIGIR、KDD、ACL、EMNLP、NAACL、RecSys、CIKM、TOIS、TORS、TKDE 等頂級會議與期刊。搜索關鍵詞包括:大語言模型推薦系統、生成式推薦、多模態推薦、智能體推薦等。 本文貢獻如下:
提供了基礎模型在推薦系統中應用的全面綜述,建立清晰分類體系; 1. 系統總結當前前沿研究成果,幫助讀者快速理解與上手該領域; 1. 深入探討挑戰與未來方向,推動 FM4RecSys 創新與落地。
第2節 探討推薦系統數據特性,強調多模態數據的重要性; * 第3節 介紹基礎模型的演進及其適用于推薦任務的優劣; * 第4節 分析 FMs 在推薦場景中的表示學習技術; * 第5節 總結 FM 與推薦系統集成的策略與范式; * 第6節 探討各類推薦任務的應用實例與挑戰; * 第7節 總結實證研究中觀察到的影響與潛力; * 第8節 深入討論仍待解決的問題與未來研究方向; * 第9節 總結基礎模型對推薦系統發展的關鍵貢獻。
摘要——在現實場景中,實現領域適應和泛化面臨著重大挑戰,因為模型必須適應或在未知目標分布之間進行泛化。將這些能力擴展到看不見的多模態分布,即多模態領域適應與泛化,因不同模態的特性差異而變得更加困難。多年來,在這一領域取得了顯著進展,應用范圍涵蓋從動作識別到語義分割等多個領域。此外,近期大型預訓練多模態基礎模型(如CLIP)的出現,激發了利用這些模型來增強適應性和泛化性能,或將其應用于下游任務的研究工作。本綜述首次全面回顧了從傳統方法到基礎模型的最新進展,涵蓋以下內容:(1)多模態領域適應;(2)多模態測試時適應;(3)多模態領域泛化;(4)借助多模態基礎模型進行領域適應和泛化;(5)多模態基礎模型的適應。對于每個主題,我們正式定義問題并全面回顧現有方法。此外,我們還分析了相關的數據集和應用,突出了開放挑戰和未來可能的研究方向。我們維護一個活躍的資源庫,包含最新的文獻,網址://github.com/donghao51/Awesome-Multimodal-Adaptation。關鍵詞——領域泛化,領域適應,多模態學習,基礎模型,測試時適應
1 引言領域適應(Domain Adaptation, DA)和領域泛化(Domain Generalization, DG)已在研究領域中引起了廣泛關注 [1], [2]。在機器人學 [3], [4]、動作識別 [5] 和異常檢測 [6], [7] 等現實應用中,訓練于有限源領域的模型必須在新的目標領域上表現良好。為了解決分布偏移問題,已經提出了眾多DA和DG算法,包括分布對齊 [8]、領域不變特征學習 [9]、特征解耦 [10]、數據增強 [11] 和元學習 [12] 等。然而,這些算法大多是為單模態數據(如圖像或時間序列數據)設計的。隨著大規模多模態數據集的出現,解決多模態領域適應(Multimodal Domain Adaptation, MMDA)和多模態領域泛化(Multimodal Domain Generalization, MMDG)的問題變得尤為重要,這些數據集跨越了多個模態,包括音頻-視頻 [13]、圖像-語言 [14] 和激光雷達-相機 [15]。圖1展示了單模態和多模態DA/DG之間的區別,其中MMDA和MMDG通過整合來自多個模態的信息,增強了泛化能力。近年來,MMDA和MMDG在動作識別 [16] 和語義分割 [17] 等領域取得了顯著進展。MMDA和MMDG的一個核心挑戰是如何有效利用來自不同模態的互補信息來提升泛化性能——這是單模態DA和DG方法往往無法做到的。例如,Munro和Damen [16] 提出的方案將模態內對抗對齊與多模態自監督對齊結合,用于MMDA。多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)[18] 是一種特殊形式的MMDA,旨在通過在線適應預訓練的源多模態模型到目標領域,而無需訪問源領域數據。大規模多模態基礎模型(Multimodal Foundation Models, MFMs)的出現,如對比語言-圖像預訓練(CLIP)[14] 和穩定擴散 [19],為DA和DG開辟了新的研究方向。這些研究致力于利用MFMs增強泛化能力,或將MFMs適應到下游任務中。例如,Dunlap等人 [20] 通過語言擴展圖像嵌入到未見領域,而Huang等人 [21] 將CLIP的知識蒸餾到一個更小的學生模型中,用于領域泛化。此外,Zhou等人 [22] 通過建模可學習向量的提示上下文詞語,適應CLIP-like視覺-語言模型(VLMs)到下游圖像識別任務中。盡管該領域近期取得了顯著進展,但目前尚無全面的綜述文章總結多模態適應與泛化的主要思想。本文旨在提供過去十年中發展出的算法的詳細文獻回顧,并為未來的研究方向提供洞察。本論文涵蓋了五種適應場景(見圖2和圖3),結構安排如下:第2節討論相關研究領域;第3節介紹多模態領域適應問題,并重點回顧在動作識別和語義分割中的主要解決方案;第4節和第5節分別呈現多模態測試時適應和領域泛化的代表性方法;第6節探討如何利用多模態基礎模型改善DA和DG;第7節回顧了將MFMs適應到下游任務的流行方法;第8節總結了主要的應用和數據集;最后,在第9節概述了未來研究方向,第10節總結了全文。與之前綜述的比較。盡管我們的綜述貢獻于DA和DG的更廣泛領域,這些領域在之前的文獻中已有回顧 [1], [2],但我們的重點是多模態適應與泛化,即涉及多個模態的方法。Zhang等人 [23] 的綜述僅涵蓋了2023年前VLMs適應的概述,而我們則統一討論了傳統方法在MMDA、MMTTA和MMDG中的應用、先進MFMs在提升DA和DG中的作用,以及最近將MFMs適應到下游任務的方法。
2. 相關研究主題2.1 領域適應領域適應旨在通過利用標記的源數據和未標記的目標數據來增強模型在目標域中的性能 [1]。傳統的DA方法主要關注以圖像為主要輸入的單模態場景。常見的方法包括使用差異度量對齊特征分布 [8]、在輸入或特征空間中使用對抗學習 [130, 131]、以及使用基于重建的方法 [132]。此外,數據增強 [11] 和自訓練 [133] 等技術也得到了廣泛探索。根據源域和目標域之間標簽集關系的假設,DA進一步分為部分集 [134]、開放集 [135] 和通用DA [136]。2.2 領域泛化領域泛化旨在將模型泛化到未見過的目標域,而無需在訓練期間訪問目標數據。DG方法可以大致分為數據操作、表示學習和學習策略 [2]。數據操作方法(如 [137])增強了數據的多樣性,而表示學習方法 [138] 則專注于提取領域不變特征。此外,元學習 [12] 和自監督學習 [139] 等學習策略也展示了跨領域的泛化性能提升。Shu等人 [140] 還解決了目標域具有私有類的開放集DG問題。2.3 測試時適應測試時適應(TTA)旨在在線適應預訓練的源域模型,以應對分布偏移,而無需訪問源數據或目標標簽。在線TTA方法 [141, 142] 使用無監督目標(如熵最小化和偽標簽)更新特定模型參數。魯棒TTA方法 [143, 144] 解決了更復雜和實際的場景,包括標簽偏移、單樣本適應和混合域偏移。持續TTA方法 [145, 146] 針對測試時遇到的持續和演化的分布偏移。有關TTA的更多信息,請參閱 [147, 148]。2.4 多模態學習多模態學習利用不同模態的互補優勢來增強表示學習和上下文理解。主要的多模態學習方向包括多模態表示學習 [149, 150]、融合方法 [151, 152]、對齊 [153, 154] 等。有關多模態學習的更多信息,請參閱 [155, 156]。2.5 自監督學習自監督學習(SSL)旨在通過從預訓練任務中獲得監督信號來從未標記數據中學習,例如預測變換 [157, 158]、重建缺失組件 [159, 160] 或優化對比目標 [161, 162]。通過捕捉內在數據結構,SSL能夠學習魯棒和領域不變的表示,使其成為DA和DG的重要組成部分。在多模態背景下,SSL也通過多模態對齊 [163]、跨模態翻譯 [164] 和相對范數對齊 [165] 等任務得到應用。這些預訓練任務已有效集成到MMDA和MMDG框架中,包括最近的方法如 [16, 29]。有關SSL的更多信息,請參閱現有文獻 [166, 167]。2.6 基礎模型基礎模型是在大量數據集上預訓練的大規模模型,可作為廣泛下游任務的通用起點。這些模型表現出強大的泛化能力,使其能夠以最小的微調適應各種應用。著名的例子包括語言模型如GPT [168]、視覺模型如SAM [169] 和DINO [170]、視覺-語言模型如CLIP [14] 和Flamingo [171]、以及生成模型如穩定擴散 [19]。有關基礎模型的更多信息,請參閱 [172]。3. 多模態領域適應多模態領域適應(MMDA)旨在將模型從源域適應到目標域,同時利用多模態數據(如視頻、音頻和光流)。MMDA在適應過程中同時使用來自源域的標記數據和來自目標域的未標記數據。
3.1 問題定義
其中 EE 表示期望,?(?,?)?(?,?) 是損失函數。現有的MMDA研究主要集中在兩個任務上——使用視頻、音頻和光流模態的動作識別任務,以及使用LiDAR點云和RGB圖像的語義分割任務。我們將在以下章節中分別討論它們。3.2 動作識別的MMDA在本節中,我們詳細介紹現有的動作識別MMDA方法,并將其分為領域對抗學習、對比學習和跨模態交互。
3.2.1 領域對抗學習
其中 CC 是自監督對應分類頭,cc 是定義模態是否對應的二元標簽。Zhang等人 [25] 通過對抗學習和語義保留策略生成缺失的模態,從而在目標模態缺失的情況下選擇可靠的偽標簽目標樣本。Yin等人 [26] 利用混合樣本對抗學習捕捉領域不變的時間特征,并通過動態模態知識蒸餾提高跨模態適應性。3.2.2 對比學習對比學習 [174] 通過將正樣本對拉近、負樣本對推遠來訓練模型區分正負樣本。它用于學習有效的特征表示,從而實現更好的遷移性能。例如,Song等人 [27] 使用自監督對比學習聯合對齊剪輯和視頻級特征,同時最小化視頻級領域差異,增強類別感知對齊和跨領域泛化。Kim等人 [28] 利用模態和領域特定的采樣策略進行對比學習,聯合正則化跨模態和跨領域特征表示。3.2.3 跨模態交互跨模態交互方法通過在適應過程中促進模態之間的信息交換來增強多模態特征學習,使模型能夠捕捉跨模態的互補和相互依賴關系。例如,Lv等人 [30] 將模態特定分類器建模為教師-學生子模型,使用基于原型的可靠性測量進行自適應教學和異步課程學習,并采用可靠性感知融合進行魯棒的最終決策。Huang等人 [31] 通過自熵引導的Mixup [11] 生成合成樣本,并使用多模態和時間相對對齊將其與假設的源類樣本對齊。Zhang等人 [32] 提出了音頻自適應編碼器和音頻注入識別器,以應對跨場景、視角和演員的動作識別領域偏移。通過利用領域不變的音頻活動信息,他們通過缺失活動學習細化視覺表示,并通過視覺線索增強無聲任務識別。Yang等人 [175] 表明,在跨領域對齊之前通過跨模態交互增強每個模態的可遷移性比直接對齊多模態輸入更有效。最近,Dong等人 [29] 通過設計兩個自監督任務——掩碼跨模態翻譯和多模態拼圖——來解決多模態開放集領域適應問題,以學習魯棒的多模態特征進行泛化和開放類檢測,并通過熵加權機制平衡模態特定損失。3.3 語義分割的MMDA在本節中,我們詳細介紹現有的語義分割MMDA方法,并將其分為xMUDA及其擴展、領域對抗學習和跨模態交互。3.3.1 xMUDA及其擴展
通過數據增強擴展。 數據增強技術已被探索用于增強xMUDA中的跨模態對齊。例如,Li等人 [33] 提出了一種多模態風格遷移策略和目標感知教師框架,以在源和合成的目標風格數據上進行跨領域和跨模態知識蒸餾。Chen等人 [34] 使用CutMix [179] 和Mix3D [180] 增強2D和3D訓練數據,促進2D-3D交互和域內跨模態學習。最近,Cao等人 [35] 將xMUDA的多模態學習管道與從現實場景中收集的3D稀有對象和來自SAM [169] 模型的像素級監督相結合,解決了不平衡監督問題,并顯著提高了稀有對象分割。通過融合擴展。 Wu等人 [181] 通過使用融合的跨模態表示進行知識蒸餾,執行跨模態和跨領域對齊,最大化異構模態之間的相關性和互補性以減輕領域偏移。Cardace等人 [36] 通過將深度特征輸入到2D分支并動態豐富3D網絡的RGB特征來擴展xMUDA。通過兩個分支的中間融合,有效利用了內在的跨模態互補性。Simons等人 [37] 通過動態選擇融合和未融合的校正偽標簽進行自訓練,增強了xMUDA,以解決3DSS的無源MMDA。通過跨模態交互擴展。 Zhang等人 [38] 提出了平面到空間和離散到紋理的自監督任務,以在混合領域設置下訓練模型,增強模態特定學習并減輕領域偏移。Xing等人 [39] 通過跨模態對比學習和鄰域特征聚合模塊增強了xMUDA,加強了跨領域的2D-3D一致性,同時捕捉了更豐富的上下文信息。Zhang等人 [40] 通過引入掩碼跨模態建模來減輕大領域差距,并引入動態跨模態濾波器進行特征匹配,使方法能夠動態利用更合適的2D-3D互補性并提高整體適應性。3.3.2 領域對抗學習Peng等人 [41] 引入了稀疏到密集特征對齊,用于域內點-像素對應,并在跨領域和跨模態上進行對抗學習以實現跨領域對齊,使其成為第一個在兩級上解決跨模態學習的方法。相比之下,Liu等人 [42] 將對抗學習集中在圖像模態上,并提出了一種閾值移動策略以減輕推理期間的數據不平衡。Man等人 [43] 引入了一種蒸餾框架,通過深度估計和BEV嵌入的特征監督將知識從LiDAR教師模型轉移到相機學生模型。多階段對抗學習進一步對齊跨領域的特征空間,使單目3D感知在顯著領域偏移下保持準確。3.3.3 跨模態交互Vobecky等人 [44] 引入了一種跨模態無監督方法,用于2D語義分割(2DSS),使用未注釋的配對LiDAR和相機數據。它首先基于幾何特性提取3D一致的對象段,并應用投影和聚類生成2D偽地面實況,從而實現跨模態空間約束的知識蒸餾。Yin等人 [45] 通過集成多模態輔助網絡解決了2DSS的無源MMDA。該方法采用中間融合,并強制增強的深度-RGB對之間的預測一致性,以實現跨模態學習。Rizzoli等人 [46] 將深度數據集成到視覺變換器的輸入、特征和輸出階段。顏色和深度風格轉移實現了早期領域對齊,而跨模態自注意力生成混合特征以更好地進行語義提取。Bultmann等人 [182] 實現了LiDAR、RGB和熱傳感器模態的實時語義推理和融合,用于語義分割和對象檢測,使用后期融合方法和標簽傳播以適應跨傳感器和領域。3.4 其他任務的MMDA除了動作識別和語義分割,MMDA還在其他任務中得到了探索。Ma等人 [47] 通過使用堆疊注意力學習語義表示并應用多通道約束增強類別區分,解決了跨領域對象和事件識別任務的MMDA。Liu等人 [48] 使用基于張量的對齊模塊探索領域和模態之間的關系,并使用動態領域生成器創建過渡樣本,在多模態情感分析和視頻文本分類任務中實現了卓越性能。最近,Zhang等人 [49] 通過獨立學習每個模態的最佳表示并通過動態加權自適應平衡跨模態領域對齊,解決了情感識別的MMDA。
與多模態領域適應(MMDA)不同,多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)旨在在線適應預訓練的源模型到目標域,而無需訪問源域數據。MMTTA的核心挑戰在于如何在測試時動態調整模型參數,以應對目標域的分布偏移。
與多模態領域適應和多模態測試時適應不同,多模態領域泛化(Multimodal Domain Generalization, MMDG)提出了更具挑戰性的問題設置。在MMDG中,模型僅在具有多個模態的源域上訓練,以泛化到未見過的域,而無需在訓練期間暴露目標域數據。
隨著大規模預訓練多模態基礎模型(MFMs)的出現,如CLIP [14]、穩定擴散 [19] 和Segment Anything Model (SAM) [169],許多研究探索了利用這些模型來增強泛化能力。這些方法可以分為三個主要方向:數據增強、知識蒸餾和學習策略。 7 多模態基礎模型的適應
盡管多模態基礎模型(MFMs)表現出強大的零-shot預測能力,但圖像和文本分布之間的差異,以及訓練目標的局限性,仍然制約著它們的泛化能力。為了解決這些問題,已經提出了多種遷移學習策略,如提示調優(prompt tuning)和特征適配器(feature adapters),以便將MFMs適應到下游任務中。圖8展示了基于提示和基于適配器的適應之間的區別。
8 數據集與應用 多模態適應與泛化已在多個應用領域中進行研究,包括動作識別、語義分割、圖像分類、情感分析、行人重識別、深度補全等。常見數據集的概述見表1,圖9展示了來自三個動作識別數據集的領域偏移示例。
結論
在分布偏移下,將預訓練的多模態模型適應到目標領域是機器學習中的一個新興且關鍵的挑戰。本綜述全面概述了多模態領域適應、多模態測試時適應和多模態領域泛化的最新進展,重點突出推動該領域發展的關鍵挑戰、方法論和應用。此外,我們強調了多模態基礎模型在提升領域適應與泛化任務中的關鍵作用,突出了它們在解決跨模態的現實世界挑戰中的潛力。通過回顧現有方法、數據集和應用,我們識別出未來研究的幾個關鍵方向,包括開發更好的基準和數據集、處理動態環境中的標簽偏移問題,以及進一步探索理論分析。隨著該領域的不斷發展,這些見解為推動多模態模型在現實場景中的魯棒性和效率提供了寶貴的基礎。
摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。
關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG
I. 引言
大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在
本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。
與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。
摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。
I. 引言
人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。
為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。
A. 相關工作
許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。
B. 貢獻
本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:
本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。
摘要—隨著生成建模技術的最新進展,深偽內容的真實感不斷提高,甚至達到了一個人們常常無法在線識別被篡改的媒體內容的程度,從而導致各種類型的欺詐行為。在本文中,我們對深偽生成與檢測技術進行了綜述,包括該領域的最新發展,如擴散模型和神經輻射場。我們的文獻綜述涵蓋了所有類型的深偽媒體,包括圖像、視頻、音頻和多模態(視聽)內容。我們根據修改或生成虛假內容的過程,識別了不同種類的深偽。進一步地,我們構建了一個深偽生成與檢測方法的分類體系,闡述了重要方法的類別及其應用領域。接著,我們收集了用于深偽檢測的數據集,并提供了在最受歡迎數據集上表現最佳的深偽檢測器的最新排名。此外,我們開發了一個新的多模態基準,旨在評估深偽檢測器在分布外內容上的表現。結果表明,最先進的檢測器未能在未見過的深偽生成器生成的深偽內容上進行有效推廣。最后,我們提出了獲取穩健且強大的深偽檢測器的未來方向。我們的項目頁面和新的基準已發布在 //github.com/CroitoruAlin/biodeep。
關鍵詞—深偽,深偽生成,深偽檢測,深偽基準。
1 引言
深偽媒體包括通過人工智能工具對圖像、視頻或音頻文件進行數字化篡改或從頭生成的內容,以偽裝成真實或虛構的人物。生成式AI方法的最新突破性進展[1]–[6]使得生成逼真的深偽媒體變得異常簡單[7]–[18]。不幸的是,生成的深偽媒體可能被詐騙者利用,在社交媒體平臺上傳播虛假信息,進行大規模的政治操控,并欺騙個人或公司進行金融詐騙。
在信息可以通過社交媒體平臺迅速傳播的時代,深偽構成了對公眾信任和民主的嚴重威脅,尤其是在其在線濫用不斷增長的情況下。近期的欺詐趨勢分析表明,基于深偽的詐騙案件在2023年比2022年增加了10倍1。另一項研究發現,大約70%的人無法區分真實和深偽聲音2。深偽的質量和數量的不斷提升引發了嚴重關注,特別是關于在線詐騙和操控的問題。為了防止深偽媒體的傳播,研究人員開發了廣泛的單模態[19]–[23]或多模態[24]–[26]深偽檢測方法。然而,基于某一組AI工具生成的媒體訓練出來的深偽檢測器,通常在使用不同工具生成的深偽上表現不佳[20]–[22]。這導致了開發更強大且穩健的深偽檢測器的無休止競爭。
為此,我們對深偽媒體生成與檢測領域的最新發展進行了全面綜述。我們首先定義了一組深偽類別,這些類別是根據生成深偽內容所使用的過程來確定的。我們識別了領域無關和領域特定的深偽類型,并解釋了每一類別中屬于哪種深偽媒體。接下來,我們構建了深偽生成和檢測方法的分類體系,基于所考慮的媒體類型、所使用的架構和所針對的任務,創建了一個多角度的分層分類。如圖1所示,我們首先按任務將貢獻分為生成和檢測。對于每個任務,我們識別了所采用的架構。對于深偽生成,我們發現最流行的架構是生成對抗網絡(GANs)[8],[14]–[16],[27],[28]和去噪擴散模型[11]–[13],[18],[29]–[31]。在深偽檢測方面,大多數方法基于卷積神經網絡(CNNs)[19],[21],[24],[25],變壓器(transformers)[32]–[34],或者是將CNN與變壓器[35]–[37]或遞歸神經網絡(RNNs)[38],[39]結合的混合架構。對于每種架構,我們進一步根據媒體類型(圖像、視頻、音頻或多模態(視聽))對貢獻進行了劃分。接下來,我們呈現了在分類體系中每個類別的主要貢獻。我們還回顧了圖像、視頻和音頻中用于深偽檢測的現有數據集。然后,我們匯總了深偽檢測器在最受歡迎數據集上的報告性能,便于直接比較現有方法。此外,我們介紹了一個基準,旨在測試深偽檢測器在分布外內容上的泛化能力。有趣的是,我們發現最先進的深偽檢測器在新型更強大的生成模型生成的逼真深偽內容上表現較差。最后,我們識別了當前文獻中的研究空白,并提出了一系列未來研究方向,旨在開發更好的框架以檢測深偽媒體。
總結來說,我們的貢獻有四個方面: * 我們對深偽生成與檢測方法進行了全面的綜述,涵蓋了圖像、視頻、音頻和多模態四個領域的最新進展。 * 我們構建了深偽生成與檢測方法的分類體系,根據任務、架構和媒體類型對研究文章進行了分類。 * 我們收集并匯總了在流行的深偽檢測基準上報告的結果,提供了便于評估深偽檢測器當前性能水平的手段。 * 我們介紹了一個基準,旨在測試深偽檢測模型的領域外泛化能力,顯示當前檢測器在新一代強大生成器生成的深偽內容上普遍存在較大的性能下降。
鑒于信息量的爆炸性增長,推薦系統已成為在線活動中不可或缺的服務之一,能夠有效地幫助用戶找到他們感興趣的內容或目標購買的產品,從而提升用戶參與度和滿意度。盡管在過去的幾年中,得益于深度學習的進步,推薦方法得到了極大的發展,但它們仍然面臨著幾個限制。現有的方法可能難以有效理解和捕捉文本的旁信息,難以泛化到各種推薦場景,并在其預測中進行推理。最近,大語言模型(LLMs)的出現徹底改變了自然語言處理(NLP)領域,因為它們具有卓越的語言理解和生成能力。更令人印象深刻的是,它們能夠通過推理來解決復雜問題,并且可以輕松泛化到新的領域或任務。這樣的能力為解決現有推薦方法中的上述限制提供了機會,這使得基于LLM的推薦系統成為未來一個有前景的研究領域。為此,在本教程中,我們旨在從預訓練、微調和提示等各個方面提供關于基于LLM的推薦系統的最新進展的全面概述。這預計將幫助AI社區中相關領域的研究人員和工業實踐者獲得對基于LLM的推薦系統的總體理解,并為他們提供新的想法以進行更多令人興奮的研究。 我們的綜述論文:《大語言模型(LLMs)時代的推薦系統》 我們的幻燈片:第一部分,第二部分 教程網站://advanced-recommender-systems.github.io/LLMs4Rec-IJCAI/ 本教程的主題包括但不限于以下內容:
智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。
擴散模型已經成為一種突出的生成模型,在樣本質量和訓練穩定性方面超過了之前的方法。最近的工作顯示了擴散模型在改進強化學習(RL)解決方案方面的優勢,包括作為軌跡規劃器、表達性策略類、數據合成器等。本綜述旨在概述這一新興領域的進展,并希望激發新的研究途徑。首先,研究了當前強化學習算法遇到的幾個挑戰。根據擴散模型在強化學習中發揮的作用,對現有方法進行了分類,并探索了如何解決現有挑戰。進一步概述了擴散模型在各種強化學習相關任務中的成功應用,同時討論了當前方法的局限性。最后,總結了綜述,并對未來的研究方向提出了見解,重點是提高模型性能和將擴散模型應用于更廣泛的任務。我們正在積極維護一個GitHub存儲庫,用于存儲在RL中應用擴散模型的論文和其他相關資源。
//www.zhuanzhi.ai/paper/5b2f904982b924f5734c5543cb19945c
擴散模型已成為一類強大的生成模型,近年來引起了廣泛關注。這些模型采用了一種去噪框架,可以有效地逆轉多步去噪過程以生成新數據[Song等人,2021]。與早期的生成模型如變分自編碼器(VAE) [Kingma和Welling, 2013]和生成對抗網絡(GAN) [Goodfellow等人,2014]相比,擴散模型在生成高質量樣本方面表現出優越的能力,并顯示出增強的訓練穩定性。因此,他們在包括計算機視覺在內的不同領域取得了顯著的進步并取得了實質性的成功[Ho等人,2020;Lugmayr等人,2022;,自然語言處理[Austin等人,2021;Li等人,2022],音頻生成[Lee和Han, 2021;Kong等人,2020]和藥物發現[Xu等人,2022;Schneuing等人,2022]等。
強化學習(RL) [Sutton和Barto, 2018]專注于通過最大化累積獎勵來訓練智能體來解決連續決策任務。雖然RL在各個領域取得了顯著的成功[Kober等人,2013;Kiran等人,2021],有一些長期的挑戰。具體來說,盡管離線強化學習因克服在線強化學習中的低樣本效率問題而獲得了相當大的關注[Kumar等人,2020;Fujimoto and Gu, 2021],傳統的高斯策略可能無法擬合具有復雜分布的數據集,因為它們的表達能力有限。同時,雖然利用經驗回放來提高樣本效率[Mnih et al., 2013],但在高維狀態空間和復雜交互模式的環境中仍然存在數據稀缺問題。在基于模型的強化學習中,學習到的動態模型的一個常見用法是規劃[Nagabandi等人,2018;Schrittwieser等人,2020;Zhu et al., 2021],但perstep自回歸規劃方法受到復合誤差問題的影響[Xiao et al., 2019]。一個理想的強化學習算法應該能夠學習單個策略來執行多個任務,并泛化到新環境中[Vithayathil Varghese和Mahmoud, 2020;Beck等,2023]。然而,現有工作在多任務泛化方面仍然很困難。
近年來,已有一系列將擴散模型應用于序列決策任務的研究,其中尤以離線決策學習為著。作為一項代表性工作,Diffuser [Janner等人,2022]擬合了用于離線數據集上軌跡生成的擴散模型,并通過引導采樣規劃所需的未來軌跡。已經有許多后續工作,其中擴散模型在強化學習管道中表現為不同的模塊,例如取代傳統的高斯策略[Wang等人,2023],增強經驗數據集[Lu等人,2023b],提取潛在技能[Venkatraman等人,2023]等。我們還觀察到,由擴散模型促進的規劃和決策算法在更廣泛的應用中表現良好,如多任務強化學習[He等人,2023a]、模仿學習[Hegde等人,2023]和軌跡生成[Zhang等人,2022]。更重要的是,擴散模型由于其強大而靈活的分布建模能力,已經為解決強化學習中長期存在的挑戰提供了思路。
本文關注于擴散模型在強化學習中的應用,并額外考慮了將擴散模型納入軌跡生成和模仿學習背景中的方法,主要是因為這些領域之間存在明顯的相互關系。第2節闡述了上述RL挑戰,并討論了擴散模型如何幫助解決每個挑戰。第3節提供了擴散模型基礎的背景知識,還涵蓋了在強化學習相關應用中特別重要的兩類方法:引導采樣和快速采樣。第4節說明了擴散模型在強化學習中在現有工作中發揮的作用。第5節討論了擴散模型在不同RL相關應用中的貢獻。在第6節中,指出了應用擴散模型時的局限性,并將其與基于transformer的方法進行了比較。第7節總結了調查與討論新興的新主題。
擴散模型的基礎
本節提供擴散模型的基礎。提出了兩個著名的表述:去噪擴散概率模型(DDPM) [Ho等人,2020]和基于分數的生成模型[Song等人,2021]。DDPM由于其簡單性而被廣泛使用,而基于分數的公式將其擴展到包含連續時間擴散過程。此外,引導采樣方法在將擴散模型集成到RL框架中起著關鍵作用。根據指導采樣過程的方法,這些方法可以分為兩大類:分類器指導[Dhariwal和Nichol, 2021],這需要一個額外的分類器,以及無分類器指導[Ho和Salimans, 2022],這將指導條件作為模型輸入的一部分。此外,為了提高采樣速度,特別是在在線交互過程中,在強化學習相關任務中使用擴散模型時采用了快速采樣技術[Kang等人,2023;王志軍,2023。簡要介紹了在擴散模型的禁食采樣研究方面的一些代表性工作,包括基于學習的方法和無學習的方法。
**在RL中擴散模型的角色 **
擴散模型已證明了其生成多樣化數據和建模多模態分布的能力。考慮到第2節中介紹的長期存在的挑戰,使用擴散模型改善RL算法的性能和樣本效率是足夠的。在圖1中,我們說明了擴散模型在RL中與以前的解決方案相比扮演的不同角色。當前應用擴散模型于RL的工作主要分為四個類別:使用擴散模型作為規劃器,作為策略,用于數據增強,以及在潛在表示上。以下小節將為每個類別說明整體框架和代表性的論文。
規劃器
在RL中的規劃指的是在一個假想的環境中決策應采取的行動的過程,然后選擇最佳行動以最大化累積獎勵信號。這個過程通常模擬或探索不同的行動和狀態序列,預測其決策的結果,從而從更長時間范圍的角度產生更好的行動。因此,規劃通常應用于MBRL框架中。然而,用于規劃的決策序列是自回歸生成的,這可能導致嚴重的累積誤差,尤其是在離線設置中,由于數據支持有限。擴散模型提供了一個可能的解決方案,因為它們可以同時生成整個序列。擴散模型作為規劃器的一般框架顯示在圖2(a)中。
策略
與傳統的RL分類相比,傳統分類大致將RL算法分為MBRL和無模型RL,使用擴散模型作為規劃器類似于MBRL,并專注于捕捉環境動態。相反,將擴散模型視為策略遵循無模型RL的框架。第2.1節闡述了離線策略學習框架的主要缺點:過于保守和在多樣化數據集上的能力較差。憑借其對多模態分布的出色表達能力,許多工作利用擴散模型作為策略來解決這些問題。
**數據合成器 **
除了適應多模態分布外,擴散模型的一個簡單且常見的用途是生成更多的訓練樣本,這在計算機視覺中得到了廣泛應用并得到了驗證。因此,將擴散模型作為RL數據集上的數據合成器是自然的,因為如第2.2節所述,數據稀缺是RL的實際挑戰。為了保證合成數據與環境動態的一致性,RL中的先前數據增強方法通常在現有狀態和動作中添加小的擾動 [Sinha等,2021]。相比之下,圖2(c)說明擴散模型從整個數據集D學習數據分布,并能在保持一致性的同時生成高度多樣化的數據。Lu等[2023b]研究了擴散模型作為數據合成器在離線和在線設置中的能力。它直接從離線數據集或在線回放緩沖區訓練擴散模型,然后生成更多的樣本以改進策略。分析顯示,擴散模型生成的數據質量在多樣性和準確性上高于明確數據增強生成的數據。有了合成數據,離線策略的性能和在線策略的樣本效率都得到了顯著提高。He等[2023a]部署擴散模型來增強多任務離線數據集的數據,并獲得了比單任務數據集更好的性能。它聲稱在多個任務上進行擬合可能會實現任務之間的隱式知識共享,這也受益于擴散模型的多模態特性。
結論
本綜述提供了一個全面的概述,關于擴散模型在RL領域的應用的現代研究努力。根據擴散模型所扮演的角色,我們將現有的方法分類為使用擴散模型作為規劃器、策略、數據合成器,以及其他不太受歡迎的角色,如價值函數、潛在表示模型等。通過與傳統解決方案進行比較,我們可以看到擴散模型是如何解決RL中一些長期存在的挑戰,即,受限的表達性、數據稀缺、累積誤差和多任務泛化。盡管有這些優點,但必須承認在RL中使用擴散模型存在不容忽視的局限性,這是由于擴散模型的訓練和采樣中的一些固有屬性。值得強調的是,將擴散模型融入RL仍然是一個新興領域,還有很多研究課題值得探索。在這里,我們概述了四個前景研究方向,即結合Transformer、增強生成的檢索、整合安全約束和組合不同的技能。