多模態推薦系統（Multimodal Recommender Systems，MRS）融合了來自用戶和物品的異構數據，如文本、圖像和結構化信息，以提升推薦性能。大語言模型（Large Language Models，LLMs）的興起為MRS帶來了新的機遇，使其具備語義推理、上下文學習（in-context learning）以及動態輸入處理的能力。與早期的預訓練語言模型（Pre-trained Language Models，PLMs）相比，LLMs 在靈活性與泛化能力方面具有顯著優勢，但同時也帶來了可擴展性和模型可訪問性等方面的挑戰。

本綜述全面回顧了LLMs與MRS交叉領域的最新研究進展，重點探討了提示策略、微調方法以及數據適配技術。我們提出了一種新的分類體系，用以刻畫融合模式，并識別可從相關推薦領域遷移的通用技術。此外，綜述還涵蓋了評估指標與數據集的概況，并指出了未來的研究方向。我們的目標是闡明LLMs在多模態推薦中的新興作用，助力該快速發展領域的后續研究。

1 引言

多模態推薦系統（Multimodal Recommender Systems，MRS）旨在整合用戶和物品的多樣化信息，包括文本、圖像、結構化數據和用戶行為等，以構建連貫的推薦流程。傳統方法，如協同過濾和神經編碼器，常面臨數據稀疏、冷啟動問題以及模態不對齊等挑戰。大語言模型（Large Language Models，LLMs）通過其預訓練知識、語義靈活性和推理階段的適應能力，為解決上述問題提供了新范式。與早期的預訓練語言模型（Pre-trained Language Models，PLMs），如BERT或RoBERTa相比，LLMs（例如GPT-3、PaLM、LLAMA）不僅具備更豐富的世界知識，還支持高級推理能力與基于提示（prompt-based）的控制機制。這使得LLMs能在無需重新訓練的前提下處理多樣化且不斷變化的推薦輸入，尤其適用于冷啟動與跨領域場景。

本綜述旨在探討LLMs如何重塑多模態推薦系統的設計。我們聚焦于通過提示、訓練與數據適配等方式的融合（詳見第2節），這些技術也與跨模態學習中的關鍵組件相互作用，如解耦（disentanglement）、對齊（alignment）與融合（fusion）（第3節）。此外，我們還綜合近期研究進展，并指出未來的研究方向（第4節）。為進一步支持后續工作，我們附錄中提供了多模態數據集列表（附錄A.1）、評估指標結構化分類（附錄A.2）以及縮略語對照表（附錄A.3）。

**1.1 研究策略

本綜述聚焦于LLMs特有能力——推理、提示和模態適配——如何重新定義MRS的設計（第1.3節）。為保持這一焦點，我們有意弱化對傳統架構組件（如模態特定編碼器）的討論，這些已在先前綜述中被廣泛覆蓋 [69, 151]。同樣，我們也不涉及推薦系統架構的分類（如圖神經網絡、Transformers等），相關內容已在 [2, 24, 30, 54] 等文獻中詳盡討論。相反，我們強調了以往研究中較少探討的模態，如表格數據和數值數據，并分析它們如何被集成進LLMs。此外，我們還引入了推薦系統其他分支中的方法（如序列推薦、知識感知推薦），當其LLM方法具有遷移潛力時，也被納入本綜述，以拓展MRS的設計空間并更全面地刻畫LLM與MRS的交互方式。

**1.2 與其他MRS綜述的區別

盡管已有大量關于MRS的綜述，但大多采用基于編碼器的分類方法，聚焦于模態特定編碼器、融合機制或損失函數等架構組件 [69, 151]。相比之下，我們強調LLMs帶來的范式變革，其影響超越了傳統編碼器管線。 **LLMs 超越編碼器范式。**傳統綜述往往將編碼器視為模態表示的核心機制，而LLM驅動的模型改變了這一范式。LLMs支持通過提示工程靈活處理輸入，可直接作用于多模態摘要或結構化格式（如JSON、表格文本）。這種能力將模型從靜態的編碼-解碼結構轉變為具備上下文推理、意圖理解與外部工具交互能力的動態代理。 **基于LLM功能的分類體系。**我們的分類方法不再沿用標準的架構劃分，而是基于LLM驅動的融合策略展開，包括提示策略（第2.1節）、訓練方法（第2.2節）以及數據類型適配（第2.3節），并結合其在MRS任務中的角色，如解耦與對齊（第3.1與3.2節）。這些維度能更準確地捕捉LLMs如何實現推理與跨模態對齊的新形式。 **納入可遷移的相關技術。**考慮到LLMs在MRS中的應用尚屬新興，我們拓寬視角，引入了來自鄰近推薦領域（如文本、行為推薦）中基于LLM的策略，這些策略雖未直接應用于MRS，但具有高度遷移性，從而拓展了設計空間并揭示可通用的創新模式。

**1.3 分類體系（Taxonomy）

本綜述提出了一種面向LLM與MRS融合的新型分類體系，突破了以往基于編碼器或損失函數的分類方式 [68, 69, 151]。LLMs的引入帶來了以推理能力、提示控制與推理時動態適應為核心的全新設計空間。該分類體系將相關研究歸納為三個主要類別： 1. LLM方法（第2.1–2.3節）：以LLM特有技術為特征，細分為：

提示技術（第2.1節）：包括硬提示（如ID標識符）、軟提示、混合模板及推理提示； * 訓練策略（第2.2節）：涵蓋微調（fine-tuning）、參數高效方法（如LoRA、QLoRA）及代理結構； * 數據類型適配（第2.3節）：包括將圖像、表格、行為數據等非文本模態適配為適用于LLM輸入的結構化格式（如摘要或結構化提示）； 1. MRS特定技術（第3.1–3.3節）：從LLM視角重新審視MRS中的長期挑戰：

解耦（第3.1節）：通過潛變量建模、對比學習或變分推斷實現模態特征的分離； * 對齊（第3.2節）：同步不同模態輸入，或將外部知識嵌入與LLM表示對齊； * 融合（第3.3節）：多模態信息在早期、中間或后期階段的融合策略； 1. 主要趨勢與未來方向（第4節）：總結該領域的研究趨勢，探討LLMs在推薦流程中作為“推理代理”的演進角色。

此外，在附錄A.2中，我們還提供了標準與新興評估指標的結構化概覽，包括BLEURT等NLP指標以及基于LLM的評估方法；在附錄A.1中，補充了覆蓋更廣領域與模態的多模態推薦數據集。

**1.4 本綜述的貢獻

現有MRS綜述往往忽視LLMs帶來的特定挑戰與機遇。例如，Liu等人 [69] 僅在未來展望中簡要提及多模態LLMs；而聚焦PLMs的推薦綜述則多集中于BERT類架構，缺乏對LLMs上下文推理與工具增強能力的系統分析。本綜述填補了這一空白，系統梳理了LLMs在多模態推薦中的研究進展與前沿趨勢，并引入鄰近推薦子領域中具遷移性的策略。我們的主要貢獻包括： 1. 面向LLMs在MRS中的新分類框架：提出一種全新分類法，將LLM在MRS中的融合方式劃分為提示策略、參數高效微調方法、模態適配技術與對齊策略等獨立設計軸，便于更細致地理解其機制； 1. 跨領域整合與邊界拓展：涵蓋來自文本、行為等推薦分支的相關方法，如摘要、上下文學習或推理提示，并探討其在MRS中的遷移潛力； 1. 當前趨勢梳理與研究空白識別：對當前研究熱點與未充分探索方向進行整合（第4節），明確研究收斂點與亟待突破的環節； 1. 擴展的評估指標與數據資源：提供覆蓋MRS特定目標（如多樣性、新穎性、多目標權衡）與LLM相關實踐的評估指標綜述（附錄A.2），并匯總了更全面的公開數據集資源（附錄A.1）。

付費5元查看完整內容

1 引言

大型語言模型（Large Language Models，LLMs）的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元，展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而，實現類人智能不僅需要超越基礎感知能力，更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發，情境學習（In-context Learning，ICL）技術 [112, 113, 121] 賦予了LLMs逐步推理的能力，這種機制通常被稱為“思維鏈條”（Chain-of-Thought，CoT）推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色，引發了各領域對推理能力推理時間擴展（test-time scaling）研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49]，該模型進一步提高了對復雜問題的回答準確性。

在LLMs中廣泛開展的CoT研究啟發下，多模態大語言模型（Multimodal Large Language Models，MLLMs）中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索（Monte Carlo Tree Search）[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據，并通過監督微調使模型學習自主推理能力。

隨著強化學習（Reinforcement Learning，RL）理論和技術的進步，DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法（如GRPO [85]）自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”（Aha Moment），表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs，并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能，在域內測試中可媲美監督微調（SFT）方法，在分布外（OOD）評估中更是超越了SFT模型。

然而，正如圖1所示，這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效，但大多數仍延續文本思維范式，忽視了在多模態場景中其他模態所扮演的關鍵角色。此外，當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案，未能覆蓋更廣泛的泛化場景問題，如無明確答案的問題。盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110]，但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白，本文系統綜述了基于RL的MLLMs推理方法，全面梳理技術發展、方法體系、實際應用與未來方向，旨在為快速演進的MLLM推理研究提供系統化的參考與指導，從而推動該領域的持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略；第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估；最后，第7節探討當前限制與未來研究方向。本文從以下四個關鍵視角出發，系統分析MLLMs中基于強化學習的推理方法： * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略：重點分析無價值函數方法（value-free）與基于價值函數方法（value-based）的核心理念與改進方向，探討其在提升訓練效率、穩定性與推理性能方面的創新方案，比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略：從所使用的強化學習算法、獎勵機制（以準確性或結構為導向）及多模態輸入整合（包括視覺、音頻與時序信息）等維度，對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議：分析數據集的構建流程，包括數據來源、模型輸出收集及偏好標注方法，涵蓋數學、科學、空間、交互等多種類型的推理任務，并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向：討論當前面臨的挑戰，如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題，探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。

付費5元查看完整內容

推理大語言模型 · 大語言模型 · 自然語言處理 · DeepSeek ·

3 月 21 日

[付費5元查看完整內容]停止過度思考：大型語言模型高效推理研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在復雜任務中展現了卓越的能力。近年來，大型推理模型（LRMs）的進展，例如OpenAI的o1和DeepSeek的R1，通過利用監督微調（SFT）和強化學習（RL）技術來增強鏈式思維（CoT）推理，進一步提升了在數學和編程等系統-2推理領域的性能。然而，盡管更長的CoT推理序列能夠提高性能，但它們也因冗長和冗余的輸出而引入了顯著的計算開銷，這種現象被稱為“過度思考現象”。高效推理旨在優化推理長度，同時保留推理能力，從而帶來降低計算成本和提高實際應用響應速度等實際益處。盡管其潛力巨大，高效推理仍處于研究的早期階段。在本文中，我們首次提供了結構化綜述，系統性地研究和探索了當前在LLMs中實現高效推理的進展。總體而言，基于LLMs的內在機制，我們將現有研究分為幾個關鍵方向：（1）基于模型的高效推理，即考慮將完整推理模型優化為更簡潔的推理模型，或直接訓練高效推理模型；（2）基于推理輸出的高效推理，旨在推理過程中動態減少推理步驟和長度；（3）基于輸入提示的高效推理，通過輸入提示的屬性（如難度或長度控制）來提高推理效率。此外，我們還介紹了使用高效數據訓練推理模型的方法，探索了小型語言模型的推理能力，并討論了評估方法和基準測試。我們維護了一個公共資源庫，以持續跟蹤和更新這一前景廣闊領域的最新研究進展。

1 引言

大型語言模型（LLMs）已成為異常強大的人工智能工具，在自然語言理解和復雜推理任務中展現了卓越的能力。近年來，專注于推理的大型語言模型（也稱為大型推理模型，LRMs）[91]的出現，例如OpenAI的o1 [61]和DeepSeek的R1 [31]，顯著提升了其在系統-2推理領域（如數學[16, 35]和編程[7, 17]）的性能。這些模型從基于下一詞預測訓練[23]的基礎預訓練模型（如LLaMA [30, 80]、Qwen [95]）演化而來，通過鏈式思維（CoT）提示[86]生成顯式的、逐步的推理序列，從而在推理密集型任務中大幅提高了有效性。LLMs的推理能力通常通過監督微調（SFT）和強化學習（RL）來開發，這些方法促進了迭代和系統化的問題解決能力。具體而言，OpenAI的o1 [61]訓練流程可能結合了SFT和RL，并采用了蒙特卡洛樹搜索（MCTS）[71]和經過處理的獎勵模型（PRM）[47]。DeepSeek-R1則首先使用SFT對長鏈式思維推理數據進行微調，這些數據由經過RL訓練的DeepSeek-R1-Zero生成，隨后通過基于規則的獎勵函數進一步優化。然而，盡管長鏈式思維推理顯著增強了推理能力和準確性，但類似CoT機制（如自洽性[84]、思維樹[96]、激勵性RL[31]）的引入也導致了冗長的輸出響應，從而帶來了巨大的計算開銷和思考時間。例如，當向OpenAI-o1、DeepSeek-R1和QwQ-32B-Preview提問“2加3等于多少？”[10]時，這些模型的推理序列有時可能長達數千個詞元，其中許多是冗余的，并未對得出正確答案起到實質性作用。這種冗長性直接增加了推理成本和延遲，限制了推理模型在計算敏感的實際應用中的使用，包括實時自動駕駛系統、交互式助手、機器人控制和在線搜索引擎。高效推理，尤其是減少推理長度，具有顯著的優勢，例如降低成本并增強實際部署中的推理能力。近年來，許多研究[32, 33, 54, 56, 98]嘗試開發更簡潔的推理路徑，使高效推理成為一個備受關注且快速發展的研究領域。在本文中，我們首次提供了結構化綜述，系統性地探索了LLMs高效推理的當前進展。如圖2所示，我們將現有研究分為以下關鍵方向：（1）基于模型的高效推理，即將完整推理模型優化為更簡潔的推理模型，或直接通過微調實現高效推理；（2）基于推理輸出的高效推理，即在推理過程中動態減少推理步驟和輸出長度；（3）基于輸入提示的高效推理，通過利用提示屬性（如提示引導的長度或提示難度）提高推理效率。與LLMs中的模型壓縮技術（如量化[27, 48]或kv緩存壓縮[52,103]）不同，這些技術側重于壓縮模型規模并實現輕量級推理，而LLMs中的高效推理則強調通過優化推理長度和減少思考步驟來實現智能且簡潔的推理。總體而言，我們將高效推理方法總結為以下幾類：基于長度獎勵設計的強化學習（第3.1節）；基于可變長度CoT數據的監督微調（第3.2節）；將推理步驟壓縮為更少的潛在表示（第4.1節）；推理過程中的動態推理范式（第4.2節）；基于提示引導的高效推理（第5.1節）；通過路由提示優化推理效率（第5.2節）；此外，本文還探討了其他有趣的主題，包括：使用高效數據訓練推理模型（第6.1節）；小型語言模型的推理能力與模型壓縮（第6.2節）；高效推理模型的評估與基準測試（第7節）；我們將持續更新公共資源庫，以跟蹤高效推理領域的最新研究進展。

付費5元查看完整內容

多模態大模型 · 機制可解釋性 · 綜述 ·

2 月 28 日

[付費5元查看完整內容]多模態基礎模型的機制可解釋性綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基礎模型的崛起已經改變了機器學習研究，推動了揭示其內部機制的努力，并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型（LLMs）方面已取得顯著進展，但多模態基礎模型（MMFMs）——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究，但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面：（1）將LLM可解釋性方法適應到多模態模型；（2）理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術，我們提出了一種結構化的可解釋性方法分類法，比較了單模態與多模態架構中的洞察，并突出了關鍵的研究空白。

1. 引言

多模態基礎模型（MMFMs）的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如，文本到圖像模型（Rombach等，2022；Ramesh等，2022；Podell等，2023）促進了圖像生成和編輯，生成式視覺-語言模型（VLMs）（Zhu等，2023；Agrawal等，2024）支持視覺問答（VQA）或圖像描述等任務，而對比（即非生成式）VLMs，如CLIP（Radford等，2021），則廣泛用于圖像檢索。隨著多模態模型的不斷進步，人們對理解其內部機制和決策過程的需求也日益增加（Basu等，2024a）。機制可解釋性不僅對解釋模型行為至關重要，還對啟用下游應用（如模型編輯（Basu等，2024a）、減少虛假相關（Balasubramanian等，2024）、以及提高組合泛化能力（Zarei等，2024））具有重要意義。機器學習中的可解釋性，LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念，因任務、目標和利益相關者需求的不同而有所變化。在本綜述中，我們采用Murdoch等（2019）提出的定義：“提取并闡明模型所學習的相關知識、機制、特征和關系的過程，無論這些知識是編碼在其參數中還是通過輸入模式表現出來，從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識，但“相關知識”的定義取決于應用的背景。例如，在記憶編輯應用中，可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能；而在安全性場景中，它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角，本綜述探討了可解釋性方法，研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。盡管在單模態大規模語言模型（LLMs）（Meng等，2022a；Marks等，2024）方面，關于可解釋性的研究取得了顯著進展，但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器（Transformer）的，出現了幾個關鍵問題：LLM的可解釋性方法能否適應多模態模型？如果能，它們是否能提供類似的見解？多模態模型與單模態語言模型在機制上是否存在根本的差異？此外，分析跨模態交互等多模態特有過程時，是否需要全新的方法？最后，我們還探討了可解釋性的實際影響，提出問題——多模態可解釋性方法如何增強下游應用？為了解答這些問題，我們進行了一項全面的綜述，并引入了一個三維的多模態模型機制可解釋性分類法：（1）模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs；（2）可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法；（3）應用——分類多模態機制見解增強的實際任務。我們的綜述綜合了現有的研究，并揭示了以下見解：（i）基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs，特別是在將視覺和文本輸入類似對待時。（ii）出現了新的多模態挑戰，如如何將視覺嵌入轉化為人類可理解的形式，這需要全新的專門分析方法。（iii）盡管可解釋性有助于下游任務，但在多模態模型中，像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。最近，Dang等（2024）提供了一個關于MMFMs的可解釋性方法的廣泛概述，涵蓋了數據、模型架構和訓練范式。另一項并行工作（Sun等，2024）從歷史視角回顧了多模態可解釋性方法，涵蓋了2000年至2025年的研究。盡管具有啟發性，我們的工作在重點和范圍上有所不同。具體來說，我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型，分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。我們的貢獻總結如下：

我們提供了一份關于多模態基礎模型的機制可解釋性的全面綜述，涵蓋了生成式VLMs、對比VLMs和文本到圖像擴散模型。
我們引入了一個簡單直觀的分類法，有助于區分單模態和多模態基礎模型中的機制方法、發現和應用，突出了關鍵的研究空白。
基于LLMs和多模態基礎模型之間的機制差異，我們識別了多模態可解釋性中的基本開放挑戰和局限性，并為未來的研究提供了方向。

2. 分類法

在我們的綜述中，我們提出了一個易于理解的分類法，用于從三個維度對機制可解釋性技術進行分類：（i）維度1提供了對各種多模態模型家族的機制見解，包括非生成式VLMs（例如CLIP）、文本到圖像模型（例如Stable-Diffusion）和多模態語言模型（例如LLaVa）。我們在第3節描述了本文研究的架構；（ii）維度2分類了技術是否用于語言模型（第4節）或是專門為多模態模型設計的（第5節）；（iii）維度3將這些機制方法的見解與下游實際應用（第6節）相鏈接。分類法在圖1中進行了可視化。特別是，見解和應用的分布與第4、5、6節相對應。我們相信這種簡單的分類將有助于讀者：（i）理解語言模型與多模態模型在機制見解和應用方面的差距，以及（ii）識別機制可解釋性（及其應用）尚未充分探索的多模態模型。 3 模型架構細節

在本節中，我們介紹了本綜述涵蓋的多模態模型的三個主要類別，包括（i）對比（即非生成）視覺-語言模型，（ii）生成視覺-語言模型，以及（iii）文本到圖像擴散模型。我們選擇這三個家族，因為它們涵蓋了當前社區使用的大多數最先進的架構。非生成視覺-語言模型非生成視覺-語言模型（如CLIP，Radford等，2021；ALIGN，Jia等，2021；FILIP，Yao等，2021；SigCLIP，Zhai等，2023；DeCLIP，Li等，2022；LLIP，Lavoie等，2024）通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用，如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。文本到圖像擴散模型最先進的文本引導圖像生成模型主要基于擴散目標（Rombach等，2022；Ho等，2020），該目標預測在前向擴散過程中添加的噪聲，使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器（如CLIP）和一個基于CNN的U-Net（Ronneberger等，2015）用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1（Rombach等，2022）（在壓縮的潛在空間中執行擴散過程）和Dalle-2（Ramesh等，2022）（在圖像空間中執行擴散過程，而不是在壓縮的潛在空間中）。最近，SD-XL（Podell等，2023）通過使用更大的去噪UNet和改進的條件（如文本或圖像）機制，改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3（Esser等，2024）通過（i）使用修正流公式，（ii）可擴展的Transformer架構作為擴散骨干，以及（iii）使用強大的文本編碼器集合（如T5，Raffel等，2020；Chung等，2022），獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成，文本到圖像模型還可以應用于圖像編輯（Hertz等，2022）和風格遷移（Zhang等，2023）。生成視覺-語言模型在我們的論文中，我們研究了最常見的生成VLMs，這些模型通過橋接模塊將視覺編碼器（如CLIP）連接到大型語言模型。這個橋接模塊（如幾個MLP層，Liu等，2023a；或Q-former，Li等，2023b）然后在大規模圖像-文本對上進行訓練。Frozen（Tsimpoukelli等，2021）是最早利用大型語言模型進行圖像理解任務（如少樣本學習）的工作之一。后續工作如MiniGpt（Zhu等，2023）、BLIP變體（Li等，2023b）和LLava（Liu等，2023a）通過修改訓練數據的規模和類型以及底層架構，改進了Frozen。最近，許多工作集中在策劃高質量圖像-文本對，涵蓋各種視覺-語言任務。Owen（Yang等，2024a）、Pixtral（Agrawal等，2024）和Molmo（Deitke等，2024）是一些最近的多模態語言模型，專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用，如VQA和圖像字幕。注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現，如Xie等（2024a）；Team（2024）；Dong等（2024）。然而，由于缺乏對這些模型的機制可解釋性研究，我們將它們排除在討論之外。此外，另一種模型架構變體，旨在生成交錯的圖像和文本，如GILL（Koh等，2024），將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。

4 多模態模型的LLM可解釋性方法

我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性，重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。具體來說，我們首先討論診斷工具（線性探測，第4.1節；Logit Lens，第4.2節），這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后，我們介紹因果干預方法（因果追蹤和電路分析，第4.3節），這些方法主動擾動模型狀態，以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法（第4.4節），通過數學方法將激活分解為可解釋的組件，揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息：通用任務向量（第4.5節）利用顯式的任務驅動算術來編輯模型輸出，而稀疏自編碼器（作為其無監督對應物，第4.6節）提供了機器發現的特征基礎，用于細粒度操作，將分析與應用聯系起來。最后，神經元級描述（第4.7節）將這些解釋錨定在經驗現實中，通過微觀激活模式（如概念特定神經元）驗證宏觀假設，并確保機制保真度。 線性探測

探測通過在凍結的LLM表示上訓練輕量級分類器（通常是線性探測器）來評估它們是否編碼語言屬性，如語法、語義和事實知識（Hao等，2021；Liu等，2023b；Zhang等，2023a；Liu等，2023c；Beigi等，2024）。線性探測的圖示如圖2（a）所示。這種方法已擴展到多模態模型，引入了新的挑戰，如解耦每個模態（即視覺或文本）的相對貢獻。為了解決這些挑戰，Salin等（2022）開發了探測方法，專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解，而Dahlgren Lindstrom等（2020）研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義（Jawahar等，2019；Tenney等，2019）不同，多模態探測研究（Tao等，2024；Salin等，2022）表明，多模態模型中的中間層更有效地捕捉全局跨模態交互，而上層通常強調局部細節或文本偏差。此外，盡管LLMs中的探測應用集中在特定語言分析上，但多模態模型中的探測范圍擴展到更多樣化的方面。例如，Dai等（2023）研究了視覺-語言模型中的對象幻覺，分析了圖像編碼如何影響文本生成準確性和令牌對齊。主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此，通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens

Logit Lens是一種無監督的可解釋性方法，用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2（b）所示，該方法進行逐層分析，通過使用解嵌入投影矩陣將中間表示投影到詞匯空間，跟蹤每層的logits，以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布，它揭示了網絡在每個階段的“思考”內容（Belrose等，2023）。在多模態模型的背景下，研究表明，與最終層相比，早期層的預測通常對誤導性輸入表現出更強的魯棒性（Halawi等，2024）。研究還表明，異常輸入會改變預測軌跡，使該方法成為異常檢測的有用工具（Halawi等，2024；Belrose等，2023）。此外，對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層，從而通過自適應早期退出實現計算效率（Schuster等，2022；Xin等，2020）。此外，Logit Lens已擴展到分析多個輸入。Huo等（2024）將其應用于研究前饋網絡（FFN）層中的神經元激活，識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測（Phukan等，2024；Zhao等，2024a）。此外，“注意力透鏡”（Jiang等，2024b）引入了研究視覺信息處理的方法，揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。主要發現和差距。除了多模態語言模型，logit-lens還可以潛在地用于機制性地理解現代模型，如統一理解和生成模型（Xie等，2024a；Team，2024）。 因果追蹤

與被動診斷工具不同，因果追蹤分析（Pearl，2014）植根于因果推理，研究在對中間變量（中介）進行主動干預后響應變量的變化。圖2（c）展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型，以精確定位負責特定任務的網絡組件——如FFN層。例如，Meng等（2022a）證明了LLMs中的中層MLPs對于事實回憶至關重要，而Stolfo等（2023）識別了數學推理的重要層。基于此技術并使用監督探測數據集，Basu等（2023）發現，與LLMs不同，視覺概念（如風格、受版權保護的對象）在擴散模型的噪聲模型中分布在各個層中，但可以在條件文本編碼器中定位。此外，Basu等（2024b）識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務（Basu等，2024a；Palit等，2023；Yu和Ananiadou，2024c），揭示了在VQA任務中指導模型決策的關鍵層。擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件，但它不會自動導致提取模型的底層計算圖的子圖，該子圖對任務具有“因果”性。在這方面，語言建模中有許多工作致力于提取任務特定電路（Syed等，2023；Wang等，2024a；Conmy等，2023a）。然而，將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理，但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解

在基于Transformer的LLMs中，如圖3所示，表示分解的概念涉及分析模型的內部機制，特別是將單個Transformer層分解為核心有意義的組件，旨在理解Transformer的內部過程。在單模態LLMs中，研究主要將模型的架構和表示分解為兩個主要組件：注意力機制和多層感知器（MLP）層。大量研究工作集中在分析這些組件，以了解它們對模型決策過程的個體貢獻。研究發現，雖然注意力不應直接等同于解釋（Pruthi等，2019；Jain和Wallace，2019；Wiegreffe和Pinter，2019），但它提供了對模型操作行為的重要見解，并有助于錯誤診斷和假設開發（Park等，2019；Voita等，2019；Vig，2019；Hoover等，2020；Vashishth等，2019）。此外，研究表明，Transformer MLP層中的前饋網絡（FFNs）作為鍵值存儲器，編碼和檢索事實和語義知識（Geva等，2021）。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性，表明模型的輸出是通過每層的累積更新精心制作的（Geva等，2022a）。這一核心特性是識別與特定任務相關的語言模型電路的基礎（Syed等，2023；Wang等，2024a；Conmy等，2023a）。在多模態模型中，表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等（2024a）；Balasubramanian等（2024）利用監督探測數據集，提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。

5. 專門針對多模態模型的可解釋性方法

許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM（大型語言模型）的方法不同，這些方法僅為多模態基礎模型設計和應用。這些方法包括：用于用人類可理解的語言注釋嵌入或神經元的技術（第5.1節和第5.2節）；利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解（第5.3節）；開發量身定制的多模態模型數據歸因方法，例如文本到圖像擴散模型（第5.4節）；以及特定的可視化方法（第5.5節）。

6. 基于機制見解的多模態模型應用

在本節中，我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先，我們在6.1節介紹上下文學習，接著是模型編輯（6.2節）和幻覺檢測（6.3節）。然后，我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用，并在6.5節討論了提高組合能力的應用。最后，我們在6.6節列出了其他幾種應用類型。 7. 工具和基準

在LLMs領域，已有許多可解釋性工具涵蓋了注意力分析（Nanda 和 Bloom，2022；Fiotto-Kaufman等，2024）、SEA分析（Joseph Bloom 和 Chanin，2024）、電路發現（Conmy等，2023a）、因果追蹤（Wu等，2024）、向量控制（Vogel，2024；Zou等，2023）、logit鏡頭（Belrose等，2023）和token重要性（Lundberg 和 Lee，2017）等。然而，針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou（2024d）；Stan等（2024）主要聚焦于生成式VLMs中的注意力機制。Aflalo等（2022）提出了一種工具，用于可視化生成式VLMs的注意力和隱藏狀態。Joseph（2023）提出了一種針對視覺變換器（Vision Transformers）的工具，主要集中于注意力圖、激活補丁和logit鏡頭。此外，對于擴散模型，Lages（2022）提供了一種可視化生成圖像過程中的內部擴散步驟的工具。統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中，Huang等（2024b）提出了一個基準，用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer（2024）提出了一種新方法，用于生成LLMs的可解釋性測試平臺，節省了手動設計實驗數據的時間。Nauta等（2023）；Schwettmann等（2024）也提供了LLMs可解釋性的基準。然而，目前尚未有針對多模態模型的基準，這是未來的重要研究方向。總體來說，與LLMs領域中的全面工具和基準相比，多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。

8. 主要開放挑戰

盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域，但對于多模態模型而言，它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰，重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器（Diffusion Transformers）的內部層次，用于諸如模型編輯等任務；將機制見解擴展到超出視覺問答（VQA）或簡單圖像生成的任務；開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型；探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性；設計基于機制見解的透明數據歸因方法；以及通過更深的機制理解改進多模態上下文學習。此外，擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型（例如Xie等，2024a）也是一個開放的研究方向。

9. 結論

我們的綜述回顧了多模態基礎模型（MMFMs）中的機制理解方法，包括對比性VLMs、生成式VLMs和文本到圖像擴散模型，重點關注下游應用。我們引入了一種新穎的分類法，區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外，我們還比較了語言模型和多模態模型的機制見解，識別了理解上的差距及其對下游應用的影響。

付費5元查看完整內容

大語言模型 · 自動規劃 ·

2 月 22 日

[付費5元查看完整內容]大規模語言模型在自動規劃中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大規模語言模型的規劃能力

近年來，大規模語言模型（LLMs）的規劃能力受到了越來越多的關注，原因在于它們在多步驟推理方面的顯著能力，以及在多個領域中廣泛的泛化能力。盡管一些研究人員強調LLMs在執行復雜規劃任務方面的潛力，另一些人則指出它們在處理長時間跨度推理的復雜性時存在顯著的局限性。本調查深入研究了現有的LLMs在自動規劃中的應用，詳細分析了它們的成功和不足之處。我們展示了，盡管LLMs因其局限性不適合單獨作為規劃器，但當與其他方法結合時，它們仍然為增強規劃應用提供了巨大的機會。因此，我們提倡一種平衡的方法，結合LLMs固有的靈活性和廣泛知識，以及傳統規劃方法的嚴謹性和成本效益。規劃是指制定一系列行動以實現特定目標的過程，是智能行為的基石。這一認知能力使得無論是人類還是人工智能體，都能夠在復雜的環境中導航，適應變化的情境，并預測未來事件。意識到這一技能對智能行為的重要性，自動化規劃自人工智能領域誕生以來便成為一項基礎任務，發揮著重要作用，幫助系統推理可能的行動路徑、優化決策過程，并在廣泛的應用場景中高效地實現期望的結果。在這一背景下，大規模語言模型（LLMs）在規劃中的作用近年來受到了越來越多的關注，盡管它們的局限性仍然是一個重要的討論話題。[Wei et al., 2022a] 提出的“涌現”能力最初激發了人們對LLMs作為獨立規劃器潛力的熱情，一些方法展現出了令人印象深刻的規劃能力[Yao et al., 2023a; Hao et al., 2023]。然而，隨后的研究對這些聲明進行了審視，揭示了其中的主要不足之處[Stechly et al., 2024a; Verma et al., 2024]。特別地，盡管LLM代理在短時間跨度的高層次規劃中顯示出一定的前景，但在長時間跨度的場景中，它們往往無法產生正確的規劃，其性能可能顯著下降[Chen et al., 2024a; Aghzal et al., 2024b]，使得它們在實際應用中變得不切實際和不可靠。此外，即便在成功的情況下，它們生成的規劃成本也可能非常糟糕，而這一局限性往往被忽視，尤其是在文獻中提出LLMs用于規劃相關任務時。盡管存在這些局限性，LLMs通過大規模預訓練所蘊含的一般領域知識為增強傳統規劃系統的靈活性提供了寶貴的機會。例如，它們從自然語言中提取和解釋相關上下文信息的能力，使得這些模型能夠作為接口，將文本轉化為結構化的形式化表示，進而與符號規劃器無縫集成[Chen et al., 2024b; Zhang et al., 2024]。此外，LLMs還有潛力為規劃系統提供常識推理，彌合傳統規劃器在某些領域知識上的空白，而不需要大量的手動工程工作[Zhang et al., 2023]。進一步地，作為基于大量人類生成數據訓練的模型，LLMs能夠隱式編碼人類的風格化和定性偏好。因此，LLMs也能作為評估器，基于定性和風格化標準評估規劃，這些標準通常難以明確表達[Guan et al., 2024]。在本研究中，我們對LLMs在自動規劃中的整合進行文獻綜述，重點討論長時間跨度的高層次規劃應用。雖然我們的工作主要集中在LLMs上，但我們調查的研究及其論點也適用于增強了視覺編碼器的LLMs，即視覺語言模型（VLMs）。我們比較了使用LLMs作為規劃器和將LLMs整合到傳統規劃框架中的研究現狀，并認為后者提供了更為靈活和有前景的解決方案。盡管以往的綜述已探討了這一主題，但它們要么關注的是更廣泛的LLM自動化代理[Huang et al., 2024b; Wang et al., 2024a]，要么缺乏對LLMs在規劃中多種應用及其局限性的系統性和深入討論[Li et al., 2024b]。通過將討論范圍聚焦于長時間跨度規劃，本綜述提供了對LLMs在規劃中的應用、未來研究潛力以及可能的陷阱的更深入探討。

付費5元查看完整內容

AI與軍事 · 大語言模型 · C2組織 · 指揮控制 · 殺傷鏈 ·

1 月 8 日

[付費5元查看完整內容]大語言模型在C2組織領域的應用分析

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大語言模型（large language models，LLMs）一經誕生便受到了指揮控制（command and control，C2）組織領域的廣泛關注，討論 LLMs的發展現狀及主要功能，介紹 C2組織結構模型，建立 LLMs在 C2組織領域的應用架構，全面分析 C2組織中 LLMs在處理態勢、任務、約束和方案等數據時的潛在應用，探討LLMs在C2組織領域應用時的潛在風險。 LLMs成為全國科學技術名詞審定委員會發布的 2023年度十大科技名詞之一[1] 。由于LLMs在處理各種自然語言任務中具有的優異性能，其一經誕生，便深刻影響和改變了人們的生活[2] 。大量的 LLMs產品進入大家的視野，例如，OpenAI 公司發布的系列聊天機器人程序“ChatGPT”，谷歌公司發布的“通路語言模型PaLM”[3] 。 LLMs在軍事領域受到了廣泛的關注和認可。陽東升等從物理域、信息域、認知域和社會域4個維度分析了超大預訓練模型（large scale pre-trained model， LSPTM）在 C2 領域的潛在應用，指出 LSPTM 在參與 C2活動時可以提供物理配置、信息處理、意圖識別、輔助決策和宣傳教育等服務[4] 。孫亞洲等分析了 LLMs 應用在情報分析領域的重要意義及其局限性，指出將 LLMs 著重應用于 C2 活動態勢匯聚生成過程和基于信息進行判斷的過程[5] 。C2 組織是管理作戰力量完成作戰使命的依托，指揮員及指揮機關基于指揮信息系統更好地管理和運用作戰力量，從而完成作戰使命[6] 。三化融合發展的趨勢下，C2組織以 C2系統為依托，快速構建大量殺傷鏈，并優選組合形成行動方案以完成使命任務。在此過程中，指揮員及指揮機關在與C2系統進行交互的過程中產生了大量的態勢、任務、約束和方案等數據，存在大量的自然語言處理、人機交互等行為，亟需 LLMs 賦能 C2 組織以提升指揮員及指揮機關的 C2能力。因此，本文嘗試建立 LLMs在 C2組織中的應用架構，討論 LLMs 在 C2 組織領域的潛在應用及其風險。

付費5元查看完整內容

大型語言模型 · 序列推薦 ·

2024 年 11 月 12 日

[付費5元查看完整內容]大語言模型在序列推薦中的應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大語言模型在序列推薦中的應用

一、簡介

序列推薦技術通過分析用戶的過往交互歷史，能夠有效挖掘出用戶可能感興趣的項目，對于提升各類應用的服務質量具有重要作用。近期，大語言模型（LLMs）的發展在應對復雜的推薦問題上展現出了顯著的優勢。不過，這種方法也面臨一些挑戰。本篇文章將重點探討兩項將大語言模型應用于序列推薦領域的相關研究。

二、Enhancing Sequential Recommendation via LLM-based Semantic Embedding Learning（WWW2024）

該框架利用大型語言模型（LLMs）顯式學習基于文本的語義對齊項目ID嵌入。具體來說，SAID為每個項目使用了一個投影模塊，將項目ID轉換成一個嵌入向量，該向量會被輸入到LLM中以產生與項目相關的精確描述性文本標記。這樣做是為了使項目嵌入能夠保持文本描述的細微語義信息。此外，學習到的嵌入可以與輕量級的下游序列模型結合，用于實際的推薦任務。通過這種方式，SAID避免了之前工作中存在的長令牌序列問題，減少了工業場景下的資源需求，并實現了更優秀的推薦性能。

2.1 總體框架

SAID的整體架構分為兩個階段：第一階段是語義對齊嵌入學習，第二階段是模型無關的序列推薦器訓練。在第一階段，SAID通過一個投影模塊和現成的LLM來學習每個項目的嵌入。每個屬性的嵌入大小等于特定LLM中單個令牌的嵌入大小。在第二階段，第一階段獲得的嵌入作為初始特征被輸入到下游模型（如RNN或Transformer）中進行序列推薦。值得注意的是，SAID對下游模型的具體選擇具有高度的適應性和靈活性。

2.2 語義對齊嵌入學習

設表示參數集為??的投影儀模塊，則項目??的嵌入可以表示如下：投影模塊的訓練目標是確保生成的嵌入能夠保留項目文本描述的細粒度語義信息，從而在LLM的嵌入空間中產生語義對齊的嵌入。具體實現上，SAID將項目ID通過投影模塊轉換為一個嵌入向量，然后將這個嵌入向量作為輸入傳遞給LLM。LLM的任務是從給定的嵌入向量中生成項目的確切描述性文本標記。例如，對于項目23，其投影的語義嵌入將被送入LLM，LLM期望輸出項目文本描述的第一個標記‘Brand’。接下來，和‘Brand’的詞嵌入一起作為輸入，LLM預期生成‘BrandA’。所有LLM輸出標記的誤差將反向傳播以調整投影模塊的參數。

2.3 模型無關的序列推薦器訓練

在完成了第一階段的投影模塊訓練后，可以為每個項目獲得其語義對齊的嵌入。如圖所示的第二階段，這些由投影模塊產生的嵌入可以無縫地與下游的序列模型集成，用于推薦任務。這一特性使得SAID對下游推薦模型的選擇具有高度的靈活性和適應性。需要注意的是，為了進一步提高訓練和推理的效率，本文將作為單個項目的表現形式，而不是通過序列模型來傳遞它，以期望模型能夠自動學習與真實下一項的表示之間的關聯性。

2.4 實驗結果

實驗部分在六個公開數據集上進行了測試，結果表明SAID在NDCG@10指標上相比基線方法提高了約5%到15%。此外，SAID已被部署于支付寶的在線廣告平臺，實現了相對于基線方法3.07%的CPM相對提升，同時在線響應時間控制在20毫秒以內。

三、Text is all you need: Learning language representations for sequential recommendation（KDD2023）

本文提出了一個名為Recformer的新框架，旨在通過學習語言表示來解決序列推薦問題。現有的序列推薦方法通常依賴于明確的項目ID或通用的文本特征來進行序列建模，以理解用戶偏好。然而，這些方法在處理冷啟動項目或遷移到新數據集時仍面臨挑戰。Recformer通過將用戶偏好和項目特征建模為語言表示，從而克服了這些限制，實現了對新項目和數據集的泛化能力。

3.1 總體框架

Recformer的模型結構下圖所示，主要包括以下幾個部分：

嵌入層：Recformer使用多種嵌入層來編碼項目屬性。具體來說，每個項目屬性都會被轉換為一個嵌入向量，包括項目ID嵌入、位置嵌入、類型嵌入和令牌嵌入。這些嵌入層共同作用，使得模型能夠更好地理解和捕捉用戶行為的動態變化。 雙向Transformer編碼器：Recformer使用了一個雙向Transformer編碼器，類似于Longformer，但針對序列推薦任務進行了優化。編碼器負責將輸入的項目序列轉換為高維表示，以便進行后續的推薦任務。 掩碼語言建模：為了增強模型的語言理解能力，Recformer采用了掩碼語言建模（Masked Language Modeling, MLM）任務。在MLM任務中，模型需要根據上下文預測被掩碼的單詞。這有助于模型學習項目屬性之間的語義關系。 項目-項目對比任務：除了MLM任務，Recformer還引入了一個項目-項目對比任務，以增強模型對項目之間關系的理解。在這個任務中，模型需要區分正樣本（即真實的下一個項目）和負樣本（即隨機選擇的其他項目）。

3.2 預訓練和微調

為了有效學習語言表示，Recformer提出了一套新穎的預訓練和微調方法，結合了語言理解和推薦任務。 預訓練：在預訓練階段，Recformer在大規模文本語料庫上進行訓練，以學習通用的語言表示。預訓練的目標是使模型能夠理解和生成高質量的文本表示。具體來說，Recformer使用了掩碼語言建模（MLM）任務，通過預測被掩碼的單詞來訓練模型。微調：在微調階段，Recformer在具體的推薦任務上進行訓練，以適應特定的推薦場景。微調的目標是使模型能夠根據用戶的歷史交互序列預測下一個項目。具體來說，Recformer使用了項目-項目對比任務，通過區分正樣本和負樣本來訓練模型。

3.3 算法流程

Recformer的算法流程如下：

3.4 實驗結果

實驗結果表明，Recformer在所有數據集上都表現優異，特別是在NDCG@10和MRR指標上。與最佳基線方法相比，Recformer在NDCG@10指標上平均提升了15.83%，在MRR指標上平均提升了15.99%。此外，Recformer在零樣本推薦任務中也表現出色，進一步證明了其泛化能力。

四、總結

兩篇文章都致力于通過大語言模型（LLMs）提高序列推薦的性能，但采用了不同的方法和技術。SAID通過顯式學習語義對齊的項目ID嵌入，解決了現有方法在處理長令牌序列時的效率問題。Recformer通過將項目及其屬性轉換為文本表示，使用雙向Transformer編碼器進行建模，解決了冷啟動問題和跨數據集泛化問題。這兩篇文章都為序列推薦領域提供了新的解決方案，具有重要的理論和實踐意義。

付費5元查看完整內容

算法設計 · 大語言模型 ·

2024 年 10 月 26 日

[付費5元查看完整內容]關于用于算法設計的大型語言模型的系統性綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

算法設計（AD）在各個領域的高效問題解決中至關重要。大型語言模型（LLM）的出現顯著提升了該領域的自動化和創新，提供了新的視角和優越的解決方案。在過去的三年中，LLM在算法設計（LLM4AD）中的應用取得了顯著進展，應用領域廣泛，包括優化、機器學習、數學推理和科學探索。鑒于該領域的快速發展和應用范圍的擴展，進行系統性的綜述已成為必要。本論文對LLM4AD領域的研究工作進行了系統性綜述。首先，我們概述并總結了現有研究成果。接著，我們從四個維度——LLM的作用、搜索技術、提示策略和應用領域——對現有研究進行了系統分類和評審。此外，我們討論了各個領域的成就與挑戰，以及LLM4AD在應對這些挑戰方面的能力。最后，我們探討了當前的局限性，并提出了若干開放性問題和未來研究的潛在方向。

附加關鍵詞和短語：算法設計、大型語言模型、學習優化、優化、啟發式方法、超啟發式方法、進化計算。

1 引言

算法在解決工業、經濟、醫療和技術等多個領域的各種問題中發揮著關鍵作用[32, 82]。傳統的手工算法設計方法需要大量的專家知識和時間，過程繁瑣且耗時。因此，越來越多的研究者關注將學習和計算智能技術整合到算法開發過程中，以簡化并優化算法的設計[12, 154]。近年來，大型語言模型（LLMs）作為生成式人工智能的重大突破，因其龐大的模型規模、海量的訓練數據及其在數學推理[5]、代碼生成[80]和科學發現[163]等多個研究領域中的出色表現而備受矚目。

在過去三年中，將大型語言模型應用于算法設計（LLM4AD）逐漸成為一個新興的研究領域，有望徹底改變算法的構思、優化和實施方式。LLM的強大性能和適應性在提高和轉變算法設計過程方面展現出了巨大的潛力，包括啟發式生成[98]、代碼優化[109]，甚至為特定問題定制新算法的創建[54]。這種方法不僅減少了設計階段所需的人力，還提升了解決方案的創造性和效率[98, 139]。

盡管LLM4AD備受關注，但這一新興領域內的系統綜述仍然稀缺。現有文獻主要關注LLM在特定算法上下文中的單一應用，缺乏對方法、應用、挑戰和未來方向的系統概覽。已有的綜述主要集中在LLM用于特定優化主題[66, 72, 177]，或LLM在電子設計自動化[205]、規劃[129]、軟件工程[69]、推薦系統[176]和智能代理[165]等特定問題上的應用。本論文旨在彌補這一空白，提供對LLM在算法設計領域的系統性綜述，探索其應用、討論關鍵挑戰，并提出未來的研究方向。通過整合這些見解，本文將加深對LLM在算法設計中潛力的理解，并為該領域進一步創新奠定基礎。

本論文的貢獻如下：

LLM4AD的系統性綜述：我們對最近三年內發表的180余篇研究論文進行了系統綜述，不僅匯總了該領域的現狀，還對研究成果進行了分類，深入分析了方法、結果和算法設計的進展。該綜述可為新入門的研究人員和尋求最新進展的資深專家提供寶貴的資源。
多維分類法的開發：我們引入了一個多維分類法，將LLM4AD的研究工作和功能分為四個不同的維度：1) LLM在算法設計中的角色，包括作為優化器、預測器、信息提取器和設計者，闡明了LLM在算法設計中的具體貢獻；2) 搜索方法，分析了LLM在算法設計中用于導航和優化搜索空間的各種方法；3) 提示方法，探討了多樣化的提示策略；4) 應用領域，確定了LLM在解決復雜算法問題時所應用的關鍵領域和行業。此分類法不僅澄清了LLM4AD的研究現狀，還有助于識別未來研究的空白和機會。
關于局限性和未來方向的討論：我們不僅對現有文獻進行總結，還深入分析了LLM用于算法設計研究中的局限性，討論了可擴展性、可解釋性、高成本和安全性等挑戰。此外，我們提出了若干潛在的未來研究方向，以應對這些限制，包括開發特定領域的LLM、探索多模態LLM、實現與人類專家交互的系統、使用LLM進行算法評估、理解LLM行為、推動完全自動化的算法設計，以及為LLM在算法設計中的系統評估建立基準標準。這些討論旨在激發新的研究方法，推動該領域的進一步發展。

2 方法和分類法

2.1 綜述范圍

本文旨在對算法設計的大型語言模型（LLM4AD）這一新興領域的現有研究工作進行系統性綜述和分類。我們進一步明確了本文綜述的范圍如下：

我們不打算涵蓋所有關于LLM和算法的文獻。具體而言，我們排除了其他分支的工作，如針對LLM優化的算法（例如提示工程算法[141]）和LLM訓練算法[1]。
“大型語言模型”指的是具有足夠規模，以實現各種任務的強大零樣本性能的語言模型，包括語言理解、代碼生成和數學推理等。這些模型通常采用變換器架構并以自回歸的方式運行[204]。
我們排除了使用較小模型進行算法設計的研究，例如傳統模型算法和機器學習輔助算法[12]。盡管“大型”模型的定義存在挑戰，但目前大多數前沿的LLM包含超過十億個參數[119, 204]。
僅具備視覺處理功能的其他大型模型不在我們的考慮范圍內，但包含語言處理功能的多模態LLM屬于我們的范圍。
在此背景下，算法指的是一組設計用于解決問題的數學指令或規則，特別是在計算機上執行時[32]。該廣義定義涵蓋了傳統數學算法[5]、大多數啟發式方法[113, 117]以及某些可以解釋為算法的智能體或策略[179]。

2.2 統計

我們介紹了論文收集和篩選的詳細流程，分為四個階段：

第一階段：數據提取和收集：我們通過Google Scholar、Web of Science和Scopus收集相關論文。我們的搜索邏輯是標題必須包含以下兩個組中的至少一個詞的組合：“LLM”、“LLMs”、“Large Language Model”、“Large Language Models”和“Algorithm”、“Heuristic”、“Search”、“Optimization”、“Optimizer”、“Design”、“Function”（例如，LLM和優化、LLMs和算法）。作為一個快速發展的研究領域，大多數關于LLM4AD的論文以Arxiv等預印本形式在線發表，因此從Google Scholar收集的論文數量顯著多于Web of Science和Scopus（超過800篇）。去重后，截至2024年7月1日，我們最終收集了850篇論文。
第二階段：摘要篩選：我們首先檢查每篇論文的標題和摘要，以高效排除無關的論文。排除標準包括非英語論文、非算法設計領域及不使用大型語言模型的論文。篩選后，剩余260篇論文。
第三階段：全文篩選：在此階段，我們仔細閱讀每篇論文的全文，剔除未包含相關內容的論文。篩選后，剩余160篇論文。
第四階段：補充：為了避免遺漏重要研究，我們根據領域內的相關知識手動搜索相關文獻。整合額外的論文后，最終收集了180余篇。

我們將首先概述LLM4AD的論文列表，并呈現一個分類法來系統地審視進展。除了整理好的論文列表外，本綜述還包含一些在2024年7月1日之后發布的出版物，統計數據將根據需要更新。 2.3 概述

圖2a展示了按月劃分的論文發表趨勢。圖中顯示了與LLM4AD相關的研究活動顯著增加，尤其是大多數研究集中在過去一年內進行。這表明LLM4AD是一個新興領域，隨著不同領域學者逐漸意識到其巨大的潛力，未來研究成果的數量將顯著增加。值得注意的是，作為快速擴展的領域，大部分研究首先以Arxiv預印本的形式發表，其中許多隨后被頂級會議（如ICML和NeurIPS）接收。圖2c和圖2b展示了主要貢獻機構及其所屬國家在LLM4AD領域的研究分布。美國位居首位，中國緊隨其后，兩國的論文數量占總數的50%。接下來的八個國家（包括新加坡、加拿大和日本）共同貢獻了總出版量的三分之一。主要參與該領域研究的機構包括著名大學如清華大學、南洋理工大學、多倫多大學，以及大型企業如華為、微軟和谷歌。此分布表明了該研究主題的廣泛關注及其在實際應用中的巨大潛力。在圖3中，我們基于所有被審查論文的標題和摘要生成了詞云，其中每個詞至少出現五次。該詞云展示了前80個關鍵詞，分為四個顏色編碼的集群，分別為“語言”、“GPT”、“搜索與優化”和“科學發現”。幾個關鍵字如“演化”、“策略”、“優化器”和“智能體”也被重點標出。

付費5元查看完整內容

大型語言模型 · 提示學習 · 自然語言處理 · 提示工程 ·

2024 年 7 月 21 日

[付費5元查看完整內容]大型語言模型在不同自然語言處理任務中的提示工程方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在許多不同的自然語言處理（NLP）任務中表現出色。提示工程在提升LLMs已有能力的基礎上，實現顯著性能提升方面發揮了關鍵作用。提示工程需要撰寫稱為提示的自然語言指令，以結構化方式引導LLMs挖掘知識。與之前的最新技術（SoTA）模型不同，提示工程不需要根據特定NLP任務進行廣泛的參數重新訓練或微調，而是完全依賴于LLMs的內嵌知識。此外，LLM愛好者可以通過基本的自然語言對話交流或提示工程，智能地提取LLMs的知識，使更多沒有深厚數學和機器學習背景的人也能嘗試使用LLMs。隨著提示工程在過去兩年中越來越受歡迎，研究人員提出了許多圍繞提示設計的工程技術，以提高從LLMs提取信息的準確性。在本文中，我們總結了不同的提示技術，并根據它們所應用的不同NLP任務進行分類。我們進一步細化地展示了這些提示策略在不同數據集上的性能，討論了所使用的相應LLMs，提供了一個分類圖，并探討了特定數據集可能的最新技術。總的來說，我們閱讀并總結了44篇研究論文，涵蓋了39種不同的提示方法，涉及29個不同的NLP任務，其中大多數論文在過去兩年內發表。

人工智能隨著大型語言模型（LLMs）的引入顯著進步。LLMs在包含數百萬和數十億個標記的大規模文本語料庫上進行訓練。研究表明，隨著模型參數數量的增加，機器學習模型的性能會提高，這也正是LLMs的情況。Chang等人（2023）的研究表明，LLMs在廣泛的NLP任務上取得了前所未有的性能，因此引起了學術界和包括醫學、法律、金融等在內的各個行業的廣泛關注。目前對LLMs的研究階段側重于通過提示（prompts）來提升其推理能力，而不僅僅是下一個標記的預測，這開啟了圍繞提示工程的新研究領域。

提示工程是指創建自然語言指令或提示，以有組織地從LLMs中提取知識的過程。與早期的傳統模型相比，提示工程僅依賴于LLMs的內嵌知識，而不需要根據基礎的NLP任務進行廣泛的參數重新訓練或微調。理解模型參數中所嵌入的現實世界知識超出了人類的能力，因此這個新的提示工程領域引起了大家的關注，因為它允許研究人員與LLMs之間進行自然語言交流，以實現基礎NLP任務的目標。

在這項工作中，我們列舉了幾種提示策略，并根據它們所應用的不同NLP任務進行分類。我們提供了一個分類圖，列出了在各種數據集上嘗試的提示技術，討論了所使用的LLMs，并列出了每個數據集的潛在最新技術（SoTA）方法。作為本次調查的一部分，我們總共審查并分析了44篇研究論文，其中大部分發表在過去兩年，涵蓋了39種提示技術，應用于29個不同的NLP任務。此前關于提示工程的系統性綜述并不多見。Sahoo等人（2024）調查了基于其應用的29篇提示技術論文。這是一種非常廣泛的分類，因為單一應用可以包含眾多NLP任務。例如，他們討論的一個應用是推理和邏輯，它可以包含大量NLP任務，如常識推理、數學問題解決、多跳推理等。這與我們的方法不同，我們根據NLP任務對提示策略進行更細致的分類。Edemacu和Wu（2024）提供了關于隱私保護提示方法的概述，因此側重于提示工程的一個相對較小的子領域。Chen等人（2023）將提示策略的討論限制在9-10種方法，并且沒有基于NLP任務對其進行分類。

本文的其余部分安排如下。第二節討論各種提示工程技術，第三節重點介紹不同的NLP任務。第三節的各個子部分討論了在給定NLP任務上應用的不同提示策略及其相應的結果。第四節總結全文。

提示工程技術

在本節中，我們簡要討論了不同的提示方法，以及它們在發表時如何改進現有的性能。需要注意的是，大多數以下提示策略都在兩種不同的變體或設置下進行了實驗，這兩種變體包括零樣本和少樣本。有些提示技術可能本質上只存在于零樣本或少樣本變體中，不可能存在其他變體。

在零樣本設置中（Radford等，2019），沒有涉及訓練數據，通過提示指令要求LLM執行任務，完全依賴于其在預訓練階段學習的內嵌知識。另一方面，在少樣本變體中（Brown等，2020），提供少量訓練數據點以及基于任務的提示指令，以便更好地理解任務。各種提示工程工作的結果顯示，少樣本變體有助于提高性能，但這需要仔細準備少樣本數據點，因為LLM可能對精心編制的少樣本數據點表現出無法解釋的偏見。

不同NLP任務上的提示工程

不同的研究論文在將數據集分類為NLP任務時使用了不同的標準，這在不同的研究中有所不同。在本節中，我們嘗試標準化這些分類方法，通過定義不同的NLP任務并將不同的數據集歸入這些任務來構建一個結構。我們還討論了用于這些任務的各種提示方法。圖1展示了這種分類的一個示意圖。需要注意的是，一個數據集可能同時屬于不同的NLP任務，但這會導致復雜的結構化分析糾纏，不利于分析提示技術在各個NLP任務中的表現。因此，在我們的工作中，我們確保每個數據集只屬于一個與之最強相關的NLP任務。

以下各小節分別定義了不同的NLP任務、相應的數據集以及應用于這些數據集的各種提示策略。它們還包含每個數據集的潛在最新技術（SoTA）提示技術。提示方法的性能因使用的LLM而異。因此，我們還列出了在給定數據集上與提示策略一起使用的LLM列表。對于SoTA，我們只提及了提示方法的名稱，因為在許多情況下，特定的LLM尚未與給定的提示方法進行實驗，因此不清楚它是否能達到SoTA性能。因此，如果列表中的任何LLM與提示策略一起用于實驗，并在給定數據集中取得了最佳性能，我們將其指定為SoTA，而不論用于該技術的確切LLM是什么。另一個需要強調的點是，在許多研究中，作者使用了同一數據集的不同版本進行實驗，使得不同提示技術的絕對比較變得困難。基于我們的理解，我們考慮了上述所有因素，并在選擇每個數據集的SoTA時運用了最佳判斷。

付費5元查看完整內容

因果學習 · 可信推薦系統 ·

2024 年 2 月 15 日

[付費5元查看完整內容]因果學習在可信賴推薦系統中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

推薦系統（RS）已顯著推進了在線內容發現和個性化決策制定。然而，RS中出現的脆弱性促使人們轉向可信賴推薦系統（TRS）。盡管TRS取得了許多進展，但大多數研究側重于數據相關性，而忽視了推薦中的基本因果關系。這一缺陷阻礙了TRS在解決可信賴性問題時識別原因，導致公平性、魯棒性和可解釋性受限。為了彌補這一差距，因果學習作為一類有前途的方法出現，以增強TRS。這些方法基于可靠的因果關系，在減輕各種偏差和噪聲的同時，為TRS提供有洞察力的解釋。然而，這一充滿活力的領域缺乏及時的綜述。本文從因果學習的角度創建了TRS的概述。我們首先介紹面向因果性的TRS（CTRS）的優勢和常見程序。然后，我們識別每個階段的潛在可信賴性挑戰，并將它們與可行的因果解決方案聯系起來，隨后分類CTRS方法。最后，我們討論了推進這一領域的幾個未來方向。

付費5元查看完整內容

大型語言模型 · 表格推理 ·

2024 年 2 月 14 日

[付費5元查看完整內容]大型語言模型在表格推理中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

表格推理旨在根據提供的表格以及可選的表格文本描述，按照用戶需求生成相應的問題答案，有效提高獲取信息的效率。近來，使用大型語言模型（LLMs）已成為表格推理的主流方法，因為它不僅顯著降低了注釋成本，還超過了以往方法的性能。然而，現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏，哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題，仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究，我們呈現了這篇綜述，以分析現有研究，激發未來的工作。在這篇論文中，我們分析了在LLM時代用于提高表格推理性能的主流技術，以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導，以激發未來的研究。