欧美精品日韩精品国内精品,亚洲AV永久少妇精品一区在线,国产精品无码免费专区色欲AV,亚洲AV无码精品网站色欲AV

大模型的興起在改變各個領域？如何把大模型用到推薦系統，是近期該領域關注的一個話題。來自香港理工大學等學者最新的《大型語言模型（LLMs）時代的推薦系統》，全面介紹了LLMs增強推薦系統的最新進展和挑戰。

隨著電子商務和網絡應用的繁榮，推薦系統（RecSys）已成為我們日常生活中的重要組成部分，為用戶提供個性化建議，滿足其偏好。雖然深度神經網絡（DNNs）在通過建模用戶-物品交互并融合文本信息方面在增強推薦系統方面取得了重大進展，但這些基于DNN的方法仍然存在一些局限性，如難以有效理解用戶的興趣和捕捉文本信息、在各種已見/未見推薦場景中無法泛化以及缺乏對其預測的推理能力等。同時，諸如ChatGPT和GPT4之類的大型語言模型（LLMs）的出現，由于它們在語言理解和生成等基本任務上的顯著能力以及令人印象深刻的泛化和推理能力，已經徹底改變了自然語言處理（NLP）和人工智能（AI）領域。因此，近期的研究嘗試利用LLMs的能力來增強推薦系統。

鑒于推薦系統中這一研究方向的快速發展，迫切需要一個系統性的概述，總結現有的LLM增強推薦系統，以便為相關領域的研究人員和實踐者提供深入的理解。因此，在本綜述中，我們從預訓練、微調和提示等多個方面全面調研了LLM增強推薦系統，具體包括首先介紹代表性方法，以利用LLMs（作為特征編碼器）來學習用戶和物品的表示。然后，我們從預訓練、微調和提示三個范式的角度調研了LLMs的最新高級技術，以增強推薦系統。最后，我們全面討論了這一新興領域的有前途的未來方向。

//www.zhuanzhi.ai/paper/57be25ae9ed013cd3d7ff9d65eee6c6a

概述

推薦系統（RecSys）在緩解信息過載，豐富用戶在線體驗方面發揮著重要作用（即用戶需要過濾海量信息以找到感興趣的信息）[1]，[2]。它們針對不同應用領域，如娛樂[3]、電子商務[4]和職位匹配[2]，為候選項提供個性化建議，以滿足用戶的偏好。例如，在電影推薦（如IMDB和Netflix）中，根據電影內容和用戶過去的互動歷史，向用戶推薦最新的電影，幫助用戶發現符合其興趣的新電影。推薦系統的基本思想是利用用戶與物品之間的交互以及它們相關的附加信息，特別是文本信息（如物品標題或描述、用戶資料以及物品的用戶評價），來預測用戶與物品之間的匹配分數（即用戶可能喜歡物品的概率）[5]。更具體地說，用戶和物品之間的協同行為已被用來設計各種推薦模型，進而可以用于學習用戶和物品的表示[6]，[7]。此外，關于用戶和物品的文本附加信息包含豐富的知識，可以幫助計算匹配分數，為推進推薦系統提供了深入了解用戶偏好的重要機會[8]。

由于在各個領域中具有顯著的表示學習能力，深度神經網絡（DNNs）已被廣泛采用來推進推薦系統[9]，[10]。DNNs在建模用戶-物品交互方面展現出獨特的能力，具備不同的架構。例如，作為處理序列數據的特別有效工具，循環神經網絡（RNNs）已被用于捕捉用戶互動序列中的高階依賴關系[11]，[12]。將用戶的在線行為（如點擊、購買、社交）視為圖結構數據時，圖神經網絡（GNNs）已成為先進的表示學習技術，用于學習用戶和物品的表示[1]，[6]，[13]。同時，DNNs在編碼附加信息方面也表現出優勢。例如，提出了基于BERT的方法來提取和利用用戶的文本評論[14]。

盡管前述的成功，大多數現有的先進推薦系統仍然面臨一些固有的局限性。首先，由于模型規模和數據大小的限制，之前針對推薦系統的基于DNN的模型（如CNN和LSTM）以及預訓練語言模型（如BERT）無法充分捕捉有關用戶和物品的文本知識，展現出較差的自然語言理解能力，從而在各種推薦場景中導致次優的預測性能。其次，大多數現有的RecSys方法都是針對特定任務進行設計的，對于未見過的推薦任務缺乏充分的泛化能力。例如，一個推薦算法在用戶-物品評分矩陣上進行良好訓練，用于預測電影評分，但是對于該算法在一些解釋性要求下進行電影的前k推薦是具有挑戰性的。這是因為這些推薦架構的設計高度依賴于特定任務的數據和領域知識，適用于特定的推薦場景，如前k推薦、評分預測和可解釋的推薦。第三，大多數現有的基于DNN的推薦方法可以在需要簡單決策的推薦任務上取得有希望的性能（如評分預測和前k推薦）。然而，在支持涉及多個推理步驟的復雜多步決策方面，它們面臨困難。例如，多步推理對于旅行規劃推薦至關重要，推薦系統首先應考慮基于目的地的熱門旅游景點，然后安排與旅游景點相對應的合適行程，并最終根據特定用戶偏好（如旅行費用和時間）推薦一份行程計劃。

近期，作為先進的自然語言處理技術，擁有數十億參數的大型語言模型（LLMs）已經在自然語言處理（NLP）[15]、計算機視覺[16]和分子發現[17]等各個研究領域產生了巨大影響。從技術上講，大多數現有的LLMs都是基于Transformer架構的模型，它們在大量來自不同來源（如文章、書籍、網站和其他公開可用的書面材料）的文本數據上進行預訓練。隨著LLMs的參數規模隨著更大的訓練語料庫而不斷擴大，近期的研究表明LLMs可以具備卓越的能力[18]，[19]。更具體地說，LLMs已經展示了其在語言理解和生成方面前所未有的強大能力。這些改進使得LLMs能夠更好地理解人類意圖，并生成更加接近人類自然語言的語言響應。此外，近期的研究表明，LLMs表現出令人印象深刻的泛化和推理能力，使得LLMs能夠更好地泛化到各種未見任務和領域。具體來說，LLMs不需要在每個特定任務上進行廣泛的微調，而是可以通過提供適當的指令或少量任務示例來應用其所學的知識和推理能力，從而適應新的任務。高級技術，如上下文學習，還可以在不對特定下游任務進行微調的情況下進一步增強LLMs的這種泛化性能[19]。此外，通過諸如思維鏈等提示策略的加持，LLMs可以在復雜的決策過程中生成具有逐步推理的輸出。因此，鑒于它們強大的能力，LLMs展示了改革推薦系統的巨大潛力。

最近，已經開始嘗試將LLMs作為下一代推薦系統的有前途的技術進行探索。例如，Chat-Rec [3] 提出了通過利用ChatGPT與用戶進行對話并優化傳統RecSys生成的電影推薦候選集來增強推薦準確性和可解釋性的方法。張等人 [20] 利用T5作為基于LLMs的RecSys，使用戶能夠以自然語言形式傳遞其明確的偏好和意圖作為RecSys輸入，展示出比僅基于用戶-物品交互更好的推薦性能。圖1展示了將LLMs應用于各種電影推薦任務的一些示例，包括前k推薦、評分預測、對話式推薦和解釋生成。鑒于其快速發展，有必要全面調研LLMs增強推薦系統的最新進展和挑戰。因此，在本綜述中，我們從預訓練、微調和提示的范例出發，為推薦系統中的LLMs提供了全面的概述。

**本綜述的剩余部分組織如下。**首先，在第2節中，我們回顧了有關RecSys和LLMs以及它們在其中的結合方面的相關工作。然后，在第3節中，我們闡述了兩種利用LLMs來學習用戶和物品表示的LLM增強型RecSys，分別是基于ID的RecSys和增強文本附加信息的RecSys。隨后，在第4節和第5節分別總結了在預訓練和微調范式以及提示范式中采用LLMs來推進RecSys的技術。最后，在第6節中，我們討論了LLM增強推薦系統面臨的一些挑戰和潛在未來方向。與我們的調查同時進行，劉等人 [21] 回顧了適用于推薦系統的語言建模范式的訓練策略和學習目標。吳等人 [22] 從辨別和生成的角度總結了LLMs在推薦系統中的應用。林等人 [23] 介紹了兩個正交的觀點：在推薦系統中如何以及如何適應LLMs。 深度表示學習用于基于LLMs的推薦系統

用戶和物品是推薦系統的原子單位。為了表示推薦系統中的物品和用戶，一種直接的方法是為每個物品或用戶分配一個唯一的索引（即離散的ID）。為了捕捉用戶對物品的偏好，基于ID的推薦系統被提出，以從用戶-物品交互中學習用戶和物品的表示。此外，由于關于用戶和物品的文本附加信息提供了豐富的知識以理解用戶的興趣，因此發展了增強文本附加信息的推薦方法，以在端到端的訓練方式中增強推薦系統中的用戶和物品表示學習。在本節中，我們將介紹這兩個利用語言模型在推薦系統中的類別。這兩種類型的推薦系統如圖2所示。

為推薦系統預訓練和微調LLMs

一般來說，在開發和部署LLMs進行推薦任務時，有三種關鍵方法，即預訓練、微調和提示。在本節中，我們首先介紹預訓練和微調的范式，分別如圖3和圖4所示。具體來說，我們將重點關注LLMs用于推薦系統中的具體預訓練任務以及用于下游推薦任務更好性能的微調策略。請注意，下面提到的工作已在表1和表2中進行了總結。

為推薦系統啟用LLMs的提示策略

除了預訓練和微調的范式之外，提示被視為將LLMs適應特定下游任務的最新范式，借助任務特定的提示。提示是指可以應用于LLMs輸入的文本模板。例如，可以設計一個提示“關系和之間的關系是。”來部署LLMs用于關系抽取任務。提示使LLMs能夠將不同的下游任務統一為語言生成任務，在預訓練期間與其目標保持一致[86]。為了促進LLMs在推薦系統中的性能，越來越多地研究了類似于In-context Learning（ICL）和Chain-of-Thought（CoT）的提示技術，以手動設計適用于各種推薦任務的提示。此外，提示調整作為提示的一種補充技術，通過向LLMs添加提示令牌，然后基于任務特定的推薦數據集進行更新。最近，探索了將預訓練和微調范式與提示相結合的指導調整技術[87]，通過基于指令的提示對LLMs進行多個推薦任務的微調，從而增強了LLMs在未見推薦任務上的零-shot性能。圖5比較了與LLMs的前述三種提示技術對應的代表性方法，從LLMs的輸入形式和參數更新（即可調整或凍結）方面進行了比較。在本節中，我們將詳細討論提示、提示調整和指令調整技術，以提高LLMs在推薦任務上的性能。總之，表3根據前述三種技術對現有工作進行了分類，包括這些工作中考慮的具體推薦任務和LLMs的骨干。

結論

作為最先進的人工智能技術之一，LLMs在各種應用中取得了巨大成功，例如分子發現和金融領域，這要歸功于它們在語言理解和生成方面的顯著能力、強大的泛化和推理能力，以及對新任務和多樣領域的快速適應能力。類似地，越來越多的努力已經投入到用LLMs改革推薦系統，以提供高質量和個性化的建議服務。鑒于推薦系統中這個研究課題的快速發展，迫切需要一個系統性的概述，全面總結現有的LLM增強推薦系統。為了填補這一空白，在本調查中，我們從預訓練&微調和提示范式出發，為相關領域的研究人員和從業者提供深入的理解，提供了LLM增強推薦系統的全面概述。然而，目前關于LLMs在推薦系統中的研究仍處于早期階段，需要更多系統和全面的LLMs在這個領域的研究。因此，我們還討論了這個領域的一些潛在未來方向。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

大模型 · 軟件工程 · 大型語言模型 ·

2023 年 8 月 31 日

[付費5元查看完整內容]大模型如何革新軟件工程？華中科大等最新《面向軟件工程的大型語言模型》綜述，回顧229篇文獻綜述LLM+SE技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

首篇《面向軟件工程的大型語言模型》綜述，值得關注！

大型語言模型（LLMs）已經對包括軟件工程（SE）在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而，對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口，我們對LLMs和SE的交叉點進行了系統的文獻回顧，特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文，以回答四個關鍵的研究問題（RQs）。 在RQ1中，我們分類并提供了不同LLMs的比較分析，這些LLMs已經被用于SE任務中，表征了它們的獨特特性和用途。 在RQ2中，我們分析了數據收集、預處理和應用中使用的方法，強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略，以及與提示優化相關的常見技術。 最后，RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務，說明了它們對該領域的實際貢獻。 從這些RQs的答案中，我們討論了當前的最新技術和趨勢，識別了現有研究中的空白，并指出了未來研究的有前景的領域。

1. 概述

在語言處理領域，傳統的語言模型（LMs）歷史上一直是基礎元素，為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問，導致了大型語言模型（LLMs）的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據，這些模型展示了令人印象深刻的模擬人類語言能力的能力，從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力，LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具，可以探索人類交流的復雜性和豐富性，從而引發了語言處理領域及其之外的變革時期。 軟件工程（SE）- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角，其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯，該任務涉及生成代碼功能的抽象自然語言描述，以及生成結構良好的代碼[316]和代碼工件，如注釋[162]。Codex，一個擁有120億參數的LLM，已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM，已經在幾個SE任務中表現出了強大的性能，包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰，而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時，研究人員已經開始了一系列關于LLM相關工作的研究活動，其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而，這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍，例如LLMs在軟件測試[277]和自然語言到代碼（NL2Code）任務[323]中的應用，要么主要集中在機器學習（ML）或深度學習（DL）模型[279, 309]上，忽視了更先進和最近出現的LLM應用，如ChatGPT[209]，這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者，他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能，而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力，需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚，并且正在進行持續的探索，但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題，我們的研究旨在彌補這個空白，為社區提供寶貴的見解。

本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態，明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距，并提出未來研究的潛在途徑，我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計，我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻：

我們是第一個提出全面系統性文獻綜述的團隊，基于2017年至2023年間發表的229篇論文，重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。

我們對報告的SE任務中使用的LLM進行了分類，并提供了SE領域中不同LLM類別的使用和趨勢的摘要。

我們描述了報告的數據處理階段，包括數據收集、分類、預處理和表示。

我們討論了用于LLMs4SE任務的優化器，包括參數和學習率優化、流行的提示優化技術和常用的評估指標。

我們描述了LLMs4SE的關鍵應用，包括55個具體的SE任務，分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。

我們總結了在SE領域使用LLMs遇到的關鍵挑戰，并為LLMs4SE提出了幾個潛在的研究方向。

第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰，并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。

本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法，該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南，我們的方法包括三個主要步驟：規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止，哪些LLM被用來解決軟件工程任務?

(1) 在收集的論文中，有50多種不同的LLM用于SE任務，根據不同LLM的底層架構或原理，我們將匯總的LLM分為3類，即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM，有30多種LLM屬于僅解碼器類別，有138篇論文研究了僅解碼器LLM在SE任務中的應用。****

RQ2 在LLMS中，SE相關數據集是如何收集、預處理和使用的？

(1) 我們根據數據來源將數據集分為4類：開源、收集、構建和工業數據集。開源數據集的使用最為普遍，在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組：基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中，基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明，LLM在SE任務中特別擅長處理基于文本和代碼的數據，利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟，發現了幾個常見的預處理步驟，即數據提取、不合格數據刪除、重復實例刪除和數據分割。

RQ3:使用什么技術來優化和評估SE中的LLMS ?

(1)我們分析了LLMs中常用的參數和學習率優化器，發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示，包括硬提示和軟提示，這種新興的微調范式在數據稀缺的任務中特別有優勢，提供了與任務相關的知識，提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標，其次是分類任務，有9種指標。

RQ4: 到目前為止，使用LLM解決了哪些特定的SE任務?

(1) 基于軟件開發生命周期，將軟件工程任務分為6個活動：軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后，我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務，發現LLMs在軟件開發中應用最廣泛，有115篇論文提到了21個SE任務。軟件管理的應用最少，只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs，并總結了新發現。

結論

隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現，自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力，可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中，我們深入研究了LLM在自然語言處理中的新興應用，包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM，并探索了它們的獨特特征和應用(RQ1)。然后，我們深入研究了數據收集、預處理和使用的過程，闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來，我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后，我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務，揭示了LLM所做出的實際貢獻(RQ4)。此外，我們強調了現有的挑戰，并提供了研究路線圖，概述了有前途的未來方向。

付費5元查看完整內容

大模型 · 個性化 · 推薦系統 · AIGC ·

2023 年 8 月 8 日

[付費5元查看完整內容]大模型如何做個性化？中科大等最新《當大型語言模型遇到個性化》綜述，詳述大模型與個性化的挑戰與機遇

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型的出現標志著人工智能領域的一次革命性突破。得益于前所未有的訓練規模和模型參數，大型語言模型的能力得到了顯著提升，從而在理解、語言合成和常識推理等方面達到了與人類相似的表現。這種在通用AI能力上的重大飛躍將從根本上改變個性化服務的實施模式。

首先，它將改變人類與個性化系統之間的交互方式。大型語言模型不再是像傳統的推薦系統和搜索引擎那樣的被動信息過濾介質，而是為主動用戶參與提供了基礎。在這樣一個新的基礎上，可以主動探索用戶的請求，并以自然、互動和可解釋的方式提供用戶所需的信息。

其次，它還將大大擴展個性化服務的范圍，使其從僅僅收集個性化信息發展到提供個性化服務的復合功能。通過利用大型語言模型作為通用界面，個性化系統可以將用戶的請求編譯為計劃，調用外部工具（例如搜索引擎、計算器、服務API等）的功能來執行這些計劃，并整合這些工具的輸出，完成端到端的個性化任務。如今，大型語言模型仍在快速發展，而在個性化應用中還大都未被探索。

因此，我們認為現在是時候審視個性化服務的挑戰以及用大型語言模型來解決它們的機會了。特別是，我們在這篇展望性論文中專門討論了以下幾個方面：現有個性化系統的發展和挑戰、大型語言模型新出現的能力，以及如何利用大型語言模型進行個性化的潛在方法。

大型語言模型的出現[1]在理解人類表達方面顯示出了顯著的進步，深刻地影響了AI社區。這些模型配置了大量的數據和大規模的神經網絡，展示了在理解人類語言和生成與我們相似的文本方面的卓越能力。其中的能力包括推理[2]、少次學習[3]以及在預訓練模型中融合大量的世界知識[1]。這標志著人工智能領域的一個重大突破，導致了我們與機器互動的革命。因此，大型語言模型在從自然語言處理和機器翻譯到創意內容生成和聊天機器人開發的各種應用中都變得不可或缺。特別是ChatGPT的推出，受到了人類社區的廣泛關注，促使人們反思大型語言模型的變革力量及其推動AI能夠達到的界限的潛力。這種顛覆性的技術承諾改變我們在無數領域與AI的互動和利用方式，為創新打開了新的可能性和機會。隨著這些語言模型繼續進步和發展，它們有望塑造人工智能的未來，使我們能夠探索未知領域并在人機合作中發掘更大的潛力。

個性化，即根據個人喜好量身定制體驗的藝術，是連接人類與機器之間差距的一個關鍵且動態的紐帶。在當今的技術驅動世界中，個性化在增強用戶與各種數字平臺和服務的互動和參與中起到了關鍵的作用。通過適應個人的偏好，個性化系統賦予機器滿足每個用戶獨特需求的能力，從而使互動更為高效和愉快。此外，個性化不僅僅是內容推薦；它涵蓋了用戶體驗的各個方面，包括用戶界面、交流風格等。隨著人工智能的不斷進步，個性化在處理大量互動和多樣化的用戶意圖方面變得越來越復雜。這要求我們開發更先進的技術來應對復雜的場景，提供更加愉快和滿意的體驗。對改進個性化的追求是由希望更好地了解用戶并滿足他們不斷變化的需求的愿望驅動的。隨著技術的發展，個性化系統很可能會繼續演變，最終創造出一個人機交互無縫融入我們生活的每一個方面的未來，為我們的日常生活提供個性化和量身定制的體驗。

大型語言模型，憑借其深入和廣泛的能力，有潛力革命化個性化系統，改變人類的互動方式并擴大個性化的范圍。人機之間的交互不再僅僅可以被分類為主動和被動，就像傳統的搜索引擎和推薦系統一樣。然而，這些大型語言模型不僅僅是簡單的信息過濾，它們還提供了多樣化的附加功能。具體來說，系統會主動和全面地探索用戶的意圖，使用戶和系統之間能夠通過自然語言進行更直接和無縫的溝通。與依賴于抽象且難以解釋的基于ID的信息表示的傳統技術不同，大型語言模型能夠更深入地理解用戶的確切需求和興趣。這種更深入的理解為更高質量的個性化服務鋪平了道路，以更精細和有效的方式滿足用戶的需求和偏好。此外，通過大型語言模型的能力，各種工具的整合得到了極大的增強，大大擴展了個性化系統的可能性和應用場景。通過將用戶需求轉化為計劃，包括理解、生成和執行它們，用戶可以訪問各種各樣的信息和服務。重要的是，用戶并不知道后臺發生的復雜轉換過程，因為他們體驗到的是一個無縫的端到端模型。從這個角度來看，大型語言模型在個性化方面的潛力尚未被充分探索。

本文探討了個性化中的挑戰，并探索了使用大型語言模型的潛在解決方案。在現有的相關工作中，LaMP [4] 為訓練和評估語言模型在信息檢索系統中生成個性化輸出引入了一個新的基準。另一方面，其他相關的調查[5]、[6]、[7]主要關注傳統的個性化技術，如推薦系統。從學習機制的角度，LLM4Rec [5] 深入探討了用于推薦的區分性LLM和用于推薦的生成性LLM。關于LLM適應推薦系統的"在哪里"和"如何"，Li等人[6]關注了工業推薦階段的整體流程。而Fan等人[7]則進行了一項重點關注預訓練、微調和提示方法的回顧。雖然這些工作討論了像Bert和GPT這樣的預訓練語言模型以便于分析，但他們對大型語言模型的新興能力關注有限。本文旨在通過檢查大型語言模型在個性化背景下的獨特和強大的能力來填補這一空白，并進一步用工具擴展個性化的范圍。

本綜述的其余部分的組織結構如下：我們在第2節回顧了個性化和大型語言模型，以概述其發展和挑戰。然后，我們在第3節仔細討論了大型語言模型在個性化中的潛在作用，包括簡單利用新興能力以及與其他工具的復雜集成。我們還討論了將大型語言模型適應于個性化時可能遇到的挑戰。

大型語言模型用于個性化

在接下來的部分中，我們深入探討了大型語言模型在個性化方面的潛力，從簡單的使用情境，如利用詞匯知識作為特征，到與其他工具模塊更為復雜的集成，使其起到代理的作用。具體來說，我們關注于新興能力的進展，從基礎的世界知識和理解用戶意圖開始，發展到高級的推理能力。我們探索了大型語言模型如何有助于構建一個知識庫，豐富關于各種項目的常識知識。此外，我們還討論了大型語言模型的理解能力如何賦予內容解釋者和解釋者對交互的深入分析能力。此外，我們還觀察了利用大型語言模型的推理能力為系統推理者提供推薦結果的嘗試。這些越來越復雜的能力使得大型語言模型與其他工具模塊的復雜利用成為可能，使它們更好地理解用戶意圖并滿足用戶指令。因此，我們還探討了大型語言模型與其他個性化工具的集成，包括工具學習、會話代理和個性化內容創建者。本章的概述如圖1所示。我們的全面調查旨在提供對當前格局的更深入的了解，并闡明將大型語言模型整合到個性化中所帶來的機會和挑戰。

大模型即知識庫

大型語言模型（Large Language Models，簡稱LLMs）檢索事實知識作為顯式知識庫的能力 [38], [39], [40], [41], [42], [43], [40], [41], [44], [45], [46] 已引起了廣泛的討論，這為在推薦系統內構建更為全面的知識圖譜提供了機會。回溯到 [38] 的工作，大型語言模型在存儲事實信息，如實體和常識，以及將常識可靠地轉移給下游任務方面展示了其令人印象深刻的能力。現有的知識圖譜方法難以處理不完整的KGs [47] 和利用文本語料構建KGs [48]，許多研究者嘗試利用LLMs的能力來解決這兩個任務，即知識圖譜的補全 [49] 和知識圖譜的構建 [50]。對于知識圖譜的補全，這是指在給定的知識圖譜中缺失事實的任務，近期的努力已致力于為知識圖譜編碼文本或生成事實。MTL-KGC [51] 對文本序列進行編碼以預測元組的可能性。MEMKGC [52] 預測了三元組的掩碼實體。StAR [53] 使用暹羅文本編碼器分別對實體進行編碼。GenKGC [54] 使用僅解碼器的語言模型直接生成尾實體。TagReal [55] 從外部文本語料庫中生成高質量的提示。AutoKG [48] 直接采用了LLMs，例如ChatGPT和GPT-4，并設計了定制提示以預測尾實體。至于另一個重要任務，即知識圖譜的構建，這是指創建知識的結構化表示，LLMs可以應用于構建知識圖譜的過程中，包括實體發現 [56], [57], coreference resolution [58], [59] 和關系抽取 [60], [61]。LLMs還可以實現端到端的構建 [62], [50], [42], [63], [55]，直接從原始文本構建KGs。LLMs允許知識提取構建知識圖譜。symbolic-kg [64] 從GPT3中提取常識事實，然后微調小型學生模型以生成知識圖譜。這些模型已經展示了存儲大量知識的能力，為提高知識圖譜的范圍和深度提供了一個可行的選擇。此外，這些進展促使人們研究從LLMs到知識圖譜的存儲知識的直接轉移，消除了對人類監督的需求。這項有趣的研究揭示了利用尖端的大型語言模型自動完成知識圖譜的可能性。

LLMs 作為內容解釋器

基于內容的推薦器為緩解推薦系統中的稀疏反饋問題提供了有效的解決方案。通過利用物品的屬性和特性，這些系統對其屬性有了更深入的了解，促使與用戶偏好的準確匹配。然而，在基于內容的推薦中使用的內容特性也可能表現出稀疏性。僅僅依賴推薦的監督信號，如點擊和瀏覽，可能不能充分利用這些特性的潛在好處。為了克服這一挑戰，語言模型作為強大的基本算法出現，它們在處理文本特性時充當內容解釋器。他們的利用增強了推薦系統的有效性，有效地理解和解釋文本內容，從而改進了推薦。

結論

總的來說，大型語言模型的出現在人工智能領域代表了一個重大的突破。它們在理解、語言分析和常識推理方面的增強能力為個性化打開了新的可能性。在本文中，我們從幾個角度討論了大型語言模型適應個性化系統的時機。我們已經觀察到，從利用大型語言模型的低級能力來提高性能，到利用它們在與外部工具的復雜互動中進行端到端任務的潛力，這種進展都有所進化。這種演變有望徹底改變個性化服務的提供方式。我們也承認，將大型語言模型集成到個性化系統中帶來的開放性挑戰。

付費5元查看完整內容

大模型 · 推薦系統 · 大型語言模型 ·

2023 年 6 月 1 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最新大模型推薦綜述

大型語言模型（LLMs）已在自然語言處理（NLP）領域嶄露頭角，并在推薦系統（RS）領域近期受到了極大關注。這些模型通過自監督學習在大量數據上進行訓練，已在學習通用表示上取得了顯著成功，并有可能通過一些有效的遷移技術（如微調和提示調整等）來增強推薦系統的各個方面。利用語言模型的力量來提高推薦質量的關鍵在于利用它們對文本特征的高質量表示以及對外部知識的廣泛覆蓋，以建立項目和用戶之間的關聯。為了提供對現有基于LLM的推薦系統的全面理解，本綜述提出了一種分類法，將這些模型分為兩大范式，分別是用于推薦的判別型LLM（DLLM4Rec）和用于推薦的生成型LLM（GLLM4Rec），其中后者是首次被系統地整理出來。此外，我們在每種范式中都系統地回顧并分析了現有的基于LLM的推薦系統，提供了它們的方法、技術和性能的洞察。此外，我們也識別出了關鍵的挑戰和一些有價值的發現，以為研究者和實踐者提供靈感。

//www.zhuanzhi.ai/paper/f88ecfaf9c5216f16d59098d5751bbc5

1. 引言

推薦系統在幫助用戶尋找相關和個性化的項目或內容方面發揮了至關重要的作用。隨著在自然語言處理（NLP）領域出現的大型語言模型（LLMs），人們對利用這些模型的能力來增強推薦系統的興趣日益增強。 將大型語言模型（LLMs）融入推薦系統的關鍵優勢在于，它們能夠提取高質量的文本特征表示，并利用其中編碼的廣泛外部知識[Liu等人，2023b]。此綜述將LLM視為基于Transformer的模型，這種模型參數眾多，通過使用自/半監督學習技術在大規模數據集上進行訓練，例如BERT，GPT系列，PaLM系列等。與傳統的推薦系統不同，基于LLM的模型擅長捕獲上下文信息，更有效地理解用戶查詢、項目描述和其他文本數據[Geng等人，2022]。通過理解上下文，基于LLM的推薦系統（RS）可以提高推薦的準確性和相關性，從而提高用戶滿意度。同時，面對有限的歷史交互數據稀疏問題[Da’u和Salim，2020]，LLMs還通過零/少樣本推薦能力[Sileo等人，2022]為推薦系統帶來新的可能性。這些模型可以推廣到未見過的候選項，因為它們通過事實信息、領域專業知識和常識推理進行了廣泛的預訓練，使它們即使沒有接觸過特定的項目或用戶，也能提供合理的推薦。

上述策略已在判別模型中得到了良好的應用。然而，隨著AI學習范式的演變，生成語言模型開始受到關注[Zhao等人，2023]。這一發展的一個重要例證就是ChatGPT和其他類似模型的出現，它們已經對人類的生活和工作模式產生了重大影響。此外，將生成模型與推薦系統相結合，有可能帶來更多創新和實用的應用。例如，可以提高推薦的可解釋性，因為基于LLM的系統能夠根據其語言生成能力提供解釋[Gao等人，2023]，幫助用戶理解影響推薦的因素。此外，生成語言模型使得更個性化和上下文感知的推薦成為可能，例如在聊天式推薦系統中用戶可以定制提示[Li等人，2023]，增強用戶對結果多樣性的參與和滿意度。受到上述范式在解決數據稀疏性和效率問題上顯著效果的啟發，將語言建模范式用于推薦已經在學術界和工業界中成為了一個有前景的方向，顯著地推進了推薦系統研究的最新技術。到目前為止，有一些研究回顧了這個領域的相關論文[Zeng等人，2021; Liu等人，2023b]。Zeng等人(2021)總結了一些關于推薦模型預訓練的研究，并討論了不同領域間的知識轉移方法。Liu等人(2023b)提出了一種正交分類法，將現有的基于預訓練語言模型的推薦系統根據它們的訓練策略和目標進行劃分，分析和總結了預訓練語言模型基礎訓練范式和不同輸入數據類型之間的聯系。然而，這兩項調查主要關注的是預訓練語言模型中訓練技術和策略的轉移，而不是探索語言模型及其能力，即基于LLM的方式。此外，他們缺乏對推薦領域中生成大型語言模型最近進展和系統介紹的全面概覽。為解決這個問題，我們深入研究了基于LLM的推薦系統，將它們分為用于推薦的判別性LLM和用于推薦的生成性LLM，我們的回顧重點放在后者上。據我們所知，我們的綜述是第一個對推薦系統的生成大型語言模型進行最新和全面回顧的工作。

我們的綜述主要貢獻如下：

我們對當前基于LLM的推薦系統的狀態進行了系統性的綜述，重點是擴大語言模型的能力。通過分析現有方法，我們對相關進展和應用提供了系統的概覽。

據我們所知，我們的調查是首個專門針對推薦系統的生成型大型語言模型的全面和最新的回顧。

我們的綜述批判性地分析了現有方法的優點、缺點和限制。我們確定了基于LLM的推薦系統面臨的關鍵挑戰，并提出了有價值的發現，可以激發在這個有潛力的領域進一步的研究。

2 建模范式和分類法

所有大型語言模型的基本框架都由幾個Transformer塊組成，例如GPT，PaLM，LLaMA等。這種架構的輸入通常由token嵌入或位置嵌入等組成，而在輸出模塊可以獲得期望的輸出嵌入或token。在這里，輸入和輸出數據類型都是文本序列。如圖1的(1)-(3)所示，對于在推薦中適應語言模型，即建模范式，現有的工作可以大致分為以下三類：

(1) LLM Embeddings + RS。這種建模范式將語言模型視為特征提取器，將物品和用戶的特征輸入到LLM中并輸出相應的嵌入。傳統的RS模型可以利用知識感知嵌入進行各種推薦任務。 (2)** LLM Tokens + RS**。與前一種方法類似，這種方法根據輸入的物品和用戶的特征生成token。生成的令牌通過語義挖掘捕捉潛在的偏好，可以被整合到推薦系統的決策過程中。 (3) LLM作為RS。與(1)和(2)不同，這個范式的目標是直接將預訓練的LLM轉換為一個強大的推薦系統。輸入序列通常包括簡介描述、行為提示和任務指示。輸出序列預計會提供一個合理的推薦結果。

在實際應用中，語言模型的選擇顯著影響推薦系統中建模范式的設計。如圖2所示，在本文中，我們將現有的工作劃分為兩個主要類別，分別是用于推薦的判別性LLM和生成性LLM。用于推薦的LLM的分類可以根據訓練方式進一步細分，不同方式之間的區別在圖3中有所說明。一般來說，判別性語言模型非常適合在范式(1)中嵌入，而生成性語言模型的響應生成能力進一步支持范式(2)或(3)。

3 用于推薦的判別性LLM

確實，所謂的在推薦領域的判別性語言模型主要是指BERT系列的模型[Devlin等人，2019]。由于判別性語言模型在自然語言理解任務中的專業性，它們通常被視為下游任務的嵌入骨干。這也適用于推薦系統。大多數現有的工作通過微調將像BERT這樣的預訓練模型的表現與特定領域的數據進行對齊。另外，一些研究探索了像提示調整這樣的訓練策略。代表性的方法和常用的數據集在表1和表2中列出。

3.1 微調

微調預訓練的語言模型是一種在各種自然語言處理（NLP）任務中，包括推薦系統，受到了顯著關注的通用技術。微調背后的思想是，采取一個已經從大規模文本數據中學習了豐富的語言表達的語言模型，并通過在特定任務的數據上進一步訓練它，使其適應特定的任務或領域。微調的過程包括用其學習到的參數初始化預訓練的語言模型，然后在針對推薦的特定數據集上訓練它。這個數據集通常包括用戶-物品互動、物品的文本描述、用戶配置文件和其他相關的上下文信息。在微調過程中，模型的參數根據特定任務的數據進行更新，使其能夠適應和專門用于推薦任務。在預訓練和微調階段，學習目標可以是不同的。由于微調策略是靈活的，大多數基于BERT增強的推薦方法可以歸納到這個軌道。對于基本的表示任務，邱等人（2021）提出了一種新的基于預訓練和微調的方法U-BERT來學習用戶的表示，該方法利用內容豐富的領域來補充那些行為數據不足的用戶特征。設計了一個評論共匹配層來捕獲用戶和物品評論之間的隱式語義交互。同樣，在UserBERT [Wu et al., 2021b]中，加入了兩個自我監督任務，對未標記的行為數據進行用戶模型預訓練，以增強用戶建模。這個模型利用中等難度的對比學習、遮蔽行為預測和行為序列匹配，通過捕捉內在的用戶興趣和相關性，訓練精確的用戶表示。

預訓練的BERT在排名任務中取得了突破性的成就。BECR [Yang等人，2022]提出了一種輕量級的復合重新排名方案，該方案同時結合了深度上下文token交互和傳統的詞匯詞項匹配特性。通過新穎的復合token編碼，BECR有效地利用基于單字和跳字n-grams的可預計算token嵌入來逼近查詢表示，從而在臨時排名相關性和效率之間實現了合理的權衡。此外，Wu等人(2022)提出了一個端到端的多任務學習框架，用于產品排名，使用領域特定的BERT進行微調，以解決查詢和產品之間的詞匯不匹配問題。作者利用了專家混合層和任務之間的概率轉移，以利用豐富的用戶參與數據。還有許多其他特定任務或場景的相關研究，例如團隊推薦[Zhang等人，2022]，搜索/匹配[Yao等人，2022]，CTR預測[Muhamed等人，2021]。特別地，"預訓練，微調"機制在幾個順序或基于會話的推薦系統中起到了重要作用，如BERT4Rec [Sun等人，2019]，RESETBERT4Rec [Zhao，2022]。然而，上述模型只是利用了訓練策略的優勢，而沒有將大型語言模型擴展到推薦領域，因此不是我們討論的重點。序列表示學習模型UniSRec [Hou等人，2022]開發了一個BERT微調框架，將項目的描述文本關聯起來，在不同的推薦場景中學習可轉移的表示。對于基于內容的推薦，特別是新聞推薦，NRMS [Wu等人，2021a]，Tiny-NewsRec [Yu等人，2022]，PREC [Liu等人，2022]，利用大型語言模型通過處理已知的領域轉移問題或減少轉移成本來增強新聞推薦。總的來說，將BERT微調集成到推薦系統中，融合了強大的外部知識和個性化的用戶偏好，主要目標是提高推薦準確性，同時獲得對具有有限歷史數據的新項目的一些冷啟動處理能力。

3.2 提示調優

與設計特定目標函數來適應不同的下游推薦任務不同，提示調優 [Lester等人，2021]試圖通過硬/軟提示和標簽詞語 verbalizer，將推薦的調優對象與預訓練的損失對齊。例如，Penha和Hauff (2020)利用BERT的Masked Language Modeling (MLM)頭來通過cloze-style提示揭示其對項目類型的理解。他們進一步利用了BERT的Next Sentence Prediction (NSP)頭和表示的相似性 (SIM) 來比較相關和不相關的搜索和推薦查詢-文檔輸入。實驗表明，BERT在沒有任何微調的情況下，可以在排名過程中優先考慮相關項目。Yang等人 (2021)開發了一個帶有提示的對話推薦系統，其中一個基于BERT的項目編碼器直接將每個項目的元數據映射到一個嵌入中。最近，Prompt4NR [Zhang和Wang, 2023]率先應用了提示學習范式進行新聞推薦。這個框架重新定義了預測用戶點擊候選新聞的目標，作為一個cloze-style的 maskprediction任務。實驗發現，通過利用多提示集成，推薦系統的性能顯著提高，超過了在離散和連續模板上使用單一提示所達到的結果。這突出了提示集成在結合多個提示做出更明智決策方面的有效性。

**4 針對推薦的生成型LLMs **

相比于判別型模型，生成型模型具有更好的自然語言生成能力。因此，不像大多數基于判別模型的方法將LLMs學習到的表示與推薦領域對齊，大多數基于生成模型的工作將推薦任務翻譯為自然語言任務，然后應用像在上下文中學習，提示調優，和指導調優這樣的技術，來適應LLMs直接生成推薦結果。此外，隨著ChatGPT展示出的令人印象深刻的能力，這類工作近來受到了更多的關注。如圖2所示，根據是否調整參數，這些基于生成型LLM的方法可以進一步劃分為兩種范例：無調優范例和調優范例。以下兩個小節將分別討論它們的細節。代表性的方法和常用的數據集也在表1和表2中列出。

4.1 無調整范式

LLMs在許多未見任務中展示出強大的零/少量樣本學習能力 [Brown et al., 2020; Ouyang et al., 2022]。因此，一些最近的研究假設LLMs已經具有推薦能力，并試圖通過引入特定的提示來觸發這些能力。他們采用了最近的Instruction和In-Context Learning [Brown et al., 2020]實踐，以在不調整模型參數的情況下將LLMs適應推薦任務。根據提示是否包含示例，這個范式中的研究主要屬于以下兩類：提示和上下文學習。

提示范例這類工作旨在設計更適合的指示和提示，幫助LLMs更好地理解和解決推薦任務。Liu等人（2023a）系統地評估了ChatGPT在五個常見推薦任務上的表現，即評分預測，序列推薦，直接推薦，解釋生成和評論摘要。他們提出了一個通用的推薦提示構建框架，包括：（1）任務描述，將推薦任務適應為自然語言處理任務；（2）行為注入，將用戶-項目交互納入，幫助LLMs捕獲用戶的喜好和需求；（3）格式指示器，約束輸出格式，使推薦結果更容易理解和評估。同樣，Dai等人（2023）對ChatGPT在三個常見信息檢索任務（包括點對點，對對，和列表排序）上的推薦能力進行了實證分析。他們為不同類型的任務提出了不同的提示，并在提示的開頭引入了角色指示（例如，你現在是一個新聞推薦系統。）來增強ChatGPT的領域適應能力。除了提出一般框架外，有些工作專注于為特定推薦任務設計有效的提示。Sileo等人（2022）從GPT-2的預訓練語料庫中挖掘出了電影推薦提示。Hou等人（2023）介紹了兩種提升LLMs序列推薦能力的提示方法：以近期為重的序列提示，使LLMs能夠感知到用戶交互歷史中的序列信息，和引導法，將候選項目列表多次洗牌并取平均得分進行排名，以緩解位置偏見問題。由于LLMs允許的輸入token數量有限，很難在提示中輸入一個長的候選列表。為解決這個問題，Sun等人（2023）提出了一種滑動窗口提示策略，每次只在窗口中對候選項進行排序，然后以從后到前的順序滑動窗口，最后重復這個過程多次，以獲得總體排名結果。

除了將LLMs作為推薦系統，一些研究還利用LLMs來構建模型特征。GENRE [Liu等人，2023c]引入了三個提示，使用LLMs進行新聞推薦的三個特征增強子任務。具體來說，它使用ChatGPT根據摘要優化新聞標題，從用戶閱讀歷史中提取關鍵詞，并生成合成新聞以豐富用戶的歷史交互。通過整合LLMs構建的這些特征，傳統的新聞推薦模型可以得到顯著改善。類似地，NIR [Wang和Lim，2023]設計了兩個提示來生成用戶偏好關鍵詞，并從用戶交互歷史中提取代表性電影，以改進電影推薦。

在實踐中，除了排序模型外，整個推薦系統通常由多個重要組件組成，如內容數據庫、候選檢索模型等。因此，另一種利用LLMs進行推薦的方法是將它們作為整個系統的控制器。ChatREC [Gao et al., 2023]圍繞ChatGPT設計了一個交互式推薦框架，該框架通過多輪對話理解用戶需求，并調用現有推薦系統提供結果。此外，ChatGPT可以控制數據庫檢索相關內容以補充提示，并解決冷啟動項目問題。GeneRec [Wang et al., 2023]提出了一種生成性推薦框架，并使用LLMs控制何時推薦現有項目或通過AIGC模型生成新項目。總的來說，這些研究利用自然語言提示激活LLM在推薦任務中的零樣本學習能力，提供了一種低成本且實用的解決方案。

4.2 調整范式

如上所述，LLMs具有強大的zero/few-shot能力，通過適當的提示設計，它們在推薦性能方面可以顯著超越隨機猜測。然而，僅以這種方式構建的推薦系統往往無法超越專門針對特定任務和特定數據訓練的推薦模型的性能。因此，許多研究人員通過進一步的微調或提示學習來增強LLMs的推薦能力。在本文中，我們按照[Wei等，2022]的分類，將調整方法的范式劃分為兩種不同類型，分別是提示調整和指令調整。具體而言，在提示調整范式下，LLMs的參數或軟提示針對特定任務進行微調，例如評分預測；而在指令調整范式下，LLMs通過在不同類型的指令下對多個任務進行微調來獲得更好的性能。然而，目前對于這兩種微調范式還沒有明確的劃分或普遍接受的定義。

5 發現

在本綜述中，我們系統地回顧了大型語言模型在推薦系統中的應用范式和適應策略，特別是針對生成式語言模型。我們已經確定了它們在特定任務中改進傳統推薦模型性能的潛力。然而，需要注意的是，這個領域的整體探索仍處于早期階段。研究人員可能會發現確定最值得研究的問題和痛點是具有挑戰性的。為了解決這個問題，我們總結了許多大規模模型推薦研究中提出的共同發現。這些發現突出了一些技術挑戰，并呈現了進一步發展的潛在機會，包括模型偏見、提示設計和評估。

6 結論

本文回顧了大型語言模型（LLMs）在推薦系統領域的研究。我們將現有的工作分為判別模型和生成模型，并通過領域適應方式對其進行了詳細闡述。為了防止概念混淆，我們對LLM-based推薦中的微調、提示、提示調整和指令調整進行了定義和區分。據我們所知，我們的調查是專門針對生成式LLMs在推薦系統中的首次系統且最新的綜述，進一步總結了許多相關研究中提出的共同發現和挑戰。因此，本調查為研究人員提供了寶貴的資源，幫助他們全面了解LLM推薦，并探索潛在的研究方向。

付費5元查看完整內容

大模型 · 深度學習模型 · 訓練 · ChatGPT ·

2023 年 4 月 11 日

[付費5元查看完整內容]ChatGPT背后大模型如何高效訓練？京東探索研究院等最新《大規模深度學習模型高效訓練研究》綜述，60頁pdf詳述五大訓練方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習領域取得了重大進展，特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而，它的訓練過程極不穩定，對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高，大量研究在一定程度上探索了高效訓練領域，但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式，并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術，可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心"，包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術，側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”，包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術，注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”，包括在資源受限情況下的一些獨特加速方法，例如對總迭代次數的限制; (5)“以系統為中心”，包括一些高效的分布式框架和開源庫，它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法，本文綜述了一個全面的回顧，以了解每個組件內的一般機制及其聯合交互。同時，對通用加速技術發展的未來工作進行了詳細的分析和討論，這些工作可以啟發我們重新思考和設計新的高效范式。總之，我們希望這項綜述將成為普遍有效訓練的寶貴指南。

//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f

隨著人工智能技術的快速發展，深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律，并表明更大的模型本質上需要大量的數據，在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如，Dehghani等人[44]提出了ViT-22B，該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后，GPT-3[18]在45TB數據樣本上訓練了175B參數，并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型，只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229]，這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚，但為了保持實際效率，人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言，訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說，訓練GPT-3消耗大約355 GPU年，成本為460萬美元。在如此龐大的參數和數據樣本下，傳統的從零開始訓練顯然無法承受巨大的費用，特別是在擴展到下游任務[30,138,187,188,211,243]時，這將引入額外的架構和過多的參數。因此，預訓練-微調模式在深度學習領域日益受到關注。

預訓練的主題是繼承遷移學習的范式，在一個通用的數據集上訓練一個通用的基礎模型，以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態)，幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像，有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練，為下游任務產生了有希望的遷移性能。同樣，來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48]，通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區，Radford等人[196]提出了生成式預訓練(GPT)，通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率，GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習，在預訓練中可以顯著增強對知識的理解，在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明，使用預訓練可以提高模型的魯棒性和不確定性，對于在大型數據集上進行訓練表現出極大的優勢，泛化能力較好。最近的進展表明，從具有巨大容量的預訓練模型中獲得了實質性的收獲，特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向，即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴，極大地啟發了大數據的應用。同時，它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本，包括時間和金錢，嚴重阻礙了它的發展。在此背景下，本文介紹和總結了在大規模模型上加速訓練的通用和實用技術，這些技術促進了更快的訓練，也可能有助于預訓練中龐大的基礎模型。

最近的許多工作回顧和總結了高效的訓練技術，主要包括引入了高效的預訓練模型，設計了新的加速組件，先進的優化方法，在NLP或CV社區上的高效訓練，以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作，并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型，主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧，討論了它們在每個不同社區的成果的最新研究進展，這些成果可能會給本地研究帶來新的思考。同時，系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型，并回顧了Transformer模型的幾種變體，這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展，介紹了Transformer模型的詳細演變，并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發，提出了一些提高Transformer模型訓練效率的策略，并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述，包括計算效率、存儲效率和硬件/算法協同設計。與它們不同，我們更關注基本的加速技術，不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐，以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展，包括新的優化器和策略，以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗，總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法，并討論了它們的效率和缺點。

近年來，高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展，但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下，本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧，這些技術獨立于任務或模型架構。從實踐效率的角度來看，我們認為高效的訓練主要圍繞兩個明確的目標:

為了達到相當的測試精度，高效的訓練需要更少的訓練時間。

在相似的訓練成本下，高效的訓練可以實現更高的性能。

該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構，本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外，由于我們的調研是無任務和無模型的，因此提供了訓練加速技術的廣泛泛化，可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理，研究人員可以開發更快、更有效的模型，而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述，為機器學習領域做出了重大貢獻。本文對解決一般的基本最小化問題很感興趣，可以很容易地擴展到訓練基礎模型或預訓練任務:

與之前的工作不同，本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件，這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中，省略了額外的近端項。在不損失通用性的情況下，使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:

在表1中，我們總結了這些符號及其對應的研究領域。基于式(3)，通過提煉和拆分組件的不同角色，將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析，以對當前用于訓練大規模模型的通用加速技術進行分類，并結合實際實現的可行性。具體來說，它們是:

以數據為中心的有效訓練。在深度學習中，全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高，盡管在早期階段表現有效。為了解決這個問題并提高泛化性能，以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性，從而在實際應用中具有更好的泛化性能。同時，為了實現有效加速并進一步提高模型的通用性，以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外，它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明，課程學習是一個循序漸進的過程，可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本，逐步恢復到高質量的樣本。總之，以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。

以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡，例如基于卷積的神經網絡(CNN)，多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化，更多地關注DNNs的計算復雜性，以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說，架構近似側重于采用簡化的算子組合，以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率，也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態，可以有效地加快收斂速度，防止訓練過程在早期崩潰。總之，以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法，它具有很強的實用性，可以很容易地在任何深度學習框架中實現。

以優化為中心的高效訓練。為提高優化效率，總結了三個主要因素，即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而，要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此，以學習率為中心的方法旨在開發高效和靈活的策略，以高效和穩定地訓練模型。第二個因素，批量大小，在優化中也起著關鍵作用。借助GPU設備的并行計算能力，特別是在計算資源充足的情況下，通過增加單個minibatch中的樣本數量可以提高訓練效率。因此，以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看，我們總是努力實現一個具有高穩定性的目標，這是以目標為中心的方法的主要關注點。這些方法專注于優化目標，提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述，以優化為中心的方法研究了訓練過程中的高效迭代計算，為高效訓練提供了堅實的保證。

有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率，在這些場景中，計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練，同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練，研究人員和從業人員可以充分利用可用資源，避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發，這些模型更實用，更適合于資源通常有限的現實世界應用程序。

以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現，能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯，以解決跨設備通信中的瓶頸，并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練，訓練過程被分布為更小的計算任務，在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架，如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練，并顯著減少了大規模深度學習模型的訓練時間。

總而言之，本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分，我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分，我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:

從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術，總結了它們的技術路線和每個組件的實現，有助于為無任務和無模型的高效訓練提供堅實的指導。

比較了訓練加速中每個組件的優缺點，展示了它們的見解和互動，可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。

對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析，這可以為它們未來的發展提供指導。

本調查的主要結構組織如下。在第2節中，介紹了一些初步工作，包括不同骨干中的基本模塊，以及對大規模深度學習模型、數據集的預訓練，以及本綜述中采用的詳細符號。在第3 ~ 6節中，基于迭代公式(3)，從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中，我們討論和總結了本綜述中的技術，并提出了一些有前途的研究方向。

付費5元查看完整內容

語境學習 (in-context learning) · 綜述論文 ·

2023 年 1 月 3 日

[付費5元查看完整內容]現在大火的“In-context Learning”是什么？北大等最新《語境學習ICL》綜述論文，詳述ICL進展、挑戰和方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大型語言模型(LLMs)能力的不斷提高，語境學習( in-context learning，ICL)已經成為自然語言處理(NLP)的一種新范式，其中LLMs僅根據由少量訓練樣本增強的上下文進行預測。探索ICL來評估和推斷LLM的能力已經成為一個新的趨勢。文中對ICL的研究進展、面臨的挑戰以及未來的研究方向進行了綜述和總結。

本文首先給出了ICL的形式化定義，并闡明了其與相關研究的相關性。然后，我們組織討論了ICL的先進技術，包括訓練策略、激勵策略等;最后，指出了ICL面臨的挑戰，并指出了進一步研究的方向。希望我們的工作能夠促進更多關于揭示ICL工作原理和改進ICL的研究。1. 引言隨著模型規模和語料庫規模的擴大(Devlin et al., 2019; Radford et al., 2019; Brown et al., 2020; Chowdhery et al., 2022)，大型語言模型展示了從由上下文中的幾個示例組成的演示中學習的新能力(簡稱語境學習)。許多研究表明，LLMs可以使用ICL執行一系列復雜的任務，如解決數學推理問題(Wei et al.， 2022c)。這些強大的能力已經被廣泛驗證為大型語言模型的新興能力(Wei等人，2022b)。

語境學習的核心思想是類比學習。圖1給出了一個示例，描述了語言模型如何使用ICL進行決策。首先，ICL需要一些示例來形成演示上下文。這些示例通常使用自然語言模板編寫。然后，ICL將一個查詢問題和一個演示上下文連接在一起形成一個提示，然后將其輸入到語言模型中進行預測。與監督學習需要一個使用后向梯度更新模型參數的訓練階段不同，ICL不需要參數更新，而是直接對預訓練語言模型進行預測。該模型被期望學習隱藏在演示中的模式，并相應地做出正確的預測。ICL作為一種新的范式，具有許多吸引人的優勢。首先，由于演示是用自然語言格式編寫的，它提供了一個可解釋的接口來與大型語言模型通信(Brown et al.， 2020)。這種范式通過更改演示和模板使將人類知識納入語言模型變得容易得多(Liu等人，2022;陸等人，2022;吳等人，2022;Wei等，2022c)。第二，上下文學習類似于人類的類比決策過程。第三，與有監督學習相比，ICL是一種無訓練學習框架。這不僅可以大大降低使模型適應新任務的計算成本，還可以使語言模型即服務(Sun等人，2022)成為可能，并且可以很容易地應用于大規模的現實世界任務。盡管前景看好，但ICL中還有一些有趣的問題和有趣的性質需要進一步研究。雖然普通的GPT-3模型本身顯示出有希望的ICL能力，但一些研究觀察到，通過預訓練期間的自適應，能力可以顯著提高(Min et al., 2022b; Chen et al., 2022c)。此外，ICL的性能對特定的設置很敏感，包括提示模板、上下文示例的選擇和示例順序等(Zhao et al.， 2021)。此外，盡管從直觀上看是合理的，但ICL的工作機制仍然不明確，很少有研究提供初步解釋(Dai et al., 2022; von Oswald et al., 2022)。我們提供了一份詳細的論文綜述，并將不斷更新論文列表，對ICL的相關研究進行深入討論。本文強調了面臨的挑戰和潛在的方向，希望所做的工作可以為對該領域感興趣的初學者提供有用的路線圖，并為未來的研究提供啟發。2. 概述ICL的強大性能依賴于兩個階段:(1)訓練階段，訓練LLM的ICL能力，(2)推理階段，LLM根據特定任務的演示進行預測。在訓練階段，語言模型直接在語言建模目標上進行訓練，如從左到右的生成。雖然這些模型并沒有針對上下文學習進行特別優化，但ICL仍然具有令人驚訝的能力。現有的ICL研究基本上以訓練有素的語言模型為骨干，因此本綜述不會涵蓋預訓練語言模型的細節。在推理階段，由于輸入和輸出標簽都在可解釋的自然語言模板中表示，因此有多個方向來提高ICL的性能。本文將給出詳細的描述和比較，如選擇合適的示例進行演示，針對不同的任務設計具體的評分方法等。本文按照上述分類法(如圖2所示)組織ICL目前的進展，給出了ICL的正式定義(§3)，詳細討論了熱身方法(§4)、演示設計策略(§5)和主要評分功能(§6)。§7對揭開ICL背后秘密的當前探索進行了深入討論。進一步為ICL(§8)提供了有用的評估和資源，并介紹了ICL顯示其有效性的潛在應用場景(§9)。最后，總結了挑戰和潛在的方向(§10)，希望這可以為該領域的研究人員鋪平道路。

ICL的主要流程如圖3所示。預訓練對于發展LLM的ICL能力具有重要意義，而可選的預熱階段可以進一步提高其能力。對于演示來說，最重要的步驟是演示設計。通過預訓練的LLM和精心設計的演示，適當的評分策略最終產生任務輸出。

付費5元查看完整內容

進化深度學習 · 深度學習 · 特征工程 · 模型生成 · 部署模型 ·

2022 年 9 月 1 日

[付費5元查看完整內容]什么是進化深度學習？東北大學等最新《進化深度學習:原理、算法、應用》綜述，34頁pdf闡述EDL概念以及技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

東北大學等最新《進化深度學習:原理、算法、應用》綜述，34頁pdf闡述EDL概念以及技術體系。

近年來，深度學習(deep learning, DL)在業界和學術界都有了迅速的發展。然而，尋找DL模型的最優超參數往往需要很高的計算成本和人類的專業知識。為了緩解上述問題，進化計算(EC)作為一種強大的啟發式搜索方法，在DL模型的自動化設計中顯示出了顯著的優點，即進化深度學習(EDL)。本文旨在從自動化機器學習(AutoML)的角度分析EDL。具體地說，我們首先從機器學習和EC兩個方面闡述了EDL，并將EDL視為一個優化問題。在此基礎上，我們系統地介紹了特征工程、模型生成、模型部署和新的分類(即，什么和如何進化/優化)的EDL方法，并重點討論了EC處理優化問題時的解決方案表示和搜索范式。最后，提出了該技術的關鍵應用、有待解決的問題和未來的研究方向。本調研回顧了EDL的最新發展，并為EDL的發展提供了有見地的指導方針。

//www.zhuanzhi.ai/paper/63eefaab90ccabdeb3609e320198c072

深度學習(Deep learning, DL)作為一種很有前景的技術，已被廣泛應用于各種具有挑戰性的任務，如圖像分析[102]和模式識別[104]。然而，DL的實踐者努力手動設計深度模型，并通過試錯找到合適的配置。如圖1所示，在特征工程(feature engineering, FE)[225]、模型生成[257]和模型部署[29,31]等不同階段，將領域知識輸入DL。然而，專家知識的難以獲取使得深度學習的發展面臨著巨大的挑戰。相比之下，深度神經網絡(DNNs)的自動設計在最近幾十年趨于流行[71,257]。主要原因在于自動機器學習(AutoML)在FE[225]、參數優化(PO)[242]、超參數優化(HPO)[185]、神經結構搜索(NAS)[71,230,257]和模型壓縮(MC)[78]中的靈活性和計算效率。因此，無需人工干預的AutoML技術引起了人們的極大關注，并取得了很大的進展。

進化計算(Evolutionary computation, EC)因其靈活性和自動進化機制而被廣泛應用于自動數字學習中。在電子商務中，環境選擇驅動種群個體向最優解或前沿進化[88]。目前，有許多由EC驅動的自動深度學習方法，被稱為進化深度學習(EDL)[52, 196, 246, 247]。例如，在特征工程[225]、模型生成[230,257]和模型部署[31]等方面開展了大量EC研究，如圖1所示。因此，電子商務與數字圖書館的整合已經成為學術界和產業界的研究熱點。此外，在圖2中，Web of Science中涉及EC & DL的文章數和被引用數在2012年前后逐漸增加，而在隨后的十年中急劇增加。因此，EDL領域的研究越來越多。

為了填補這一空白，我們打算對EDL進行詳細的全面回顧。這項工作的主要貢獻如下。

本文從DL和EC的角度對EDL的現有工作進行了綜述，以促進ML和EC社區讀者的理解，并從EC的角度將EDL制定為一個優化問題。
該調研從特征工程、模型生成和新分類法的模型部署方面描述和討論了EDL，其中重點討論了解決方案表示和搜索范式。據我們所知，很少有調研研究進化模型的部署。
在全面回顧EDL方法的基礎上，討論了EDL的一些應用、有待解決的問題和發展趨勢，對EDL的發展具有指導意義。

本文的其余部分組織如下。第2節介紹了EDL的概述。在第3節中，介紹了EC驅動的特征工程。EC驅動的模型生成將在第4節中討論。第5節回顧EC驅動的模型壓縮。然后，在第6節討論了EDL的相關應用、有待解決的問題和發展趨勢。最后，第七部分對本文進行了總結。

進化深度學習 Evolutionary Deep Learning

與傳統的深度學習嚴重依賴專家或領域知識來構建深度模型不同，深度學習是通過進化過程來自動設計深度模型[164,191,231,246]。

從深度學習的角度來看:傳統的深度學習需要大量的專家知識來發明和分析特定數據集或任務的學習工具。相反，EDL可以被視為一種對人類友好的學習工具，它可以在給定的數據集或任務上自動找到合適的深度模型[230]。換句話說，EDL專注于學習工具的易用性。

從EC的角度來看:將模型的配置表示為個體，將性能作為需要優化的目標。EC在進化機制驅動的優化過程中起著重要作用。也就是說，EDL可以看作是一個尋找高性能的深度模型的最優配置的進化優化過程。

從上面的分析來看，EDL的目的不僅是通過自動構建的方法(從深度學習的角度)增加深度模型對學習任務的適應性，而且試圖在設計的目標或約束下(從EC的角度)實現最優模型。

在本節中，根據“要進化/優化什么”和“如何進化/優化”，提出了EDL方法的新分類，如圖4所示。

“要進化/優化什么”: 我們可能關心“EDL可以做什么”或“EDL可以解決什么類型的問題”。在特征工程中，有三個關鍵問題需要解決，分別是特征選擇、特征構建和特征提取[230]。在模型生成中，參數優化、架構優化和聯合優化成為關鍵問題[257]，而模型部署則涉及到模型剪枝等壓縮技術問題。

“如何發展/優化”: 這個問題的答案是為EC設計合適的解決方案表示和搜索范式，以及為NAS設計加速策略。該表示方案設計用于個體編碼、實現最優配置的搜索范式、減少時間或資源消耗的加速策略。根據以上分類，我們將在第3節、第4節和第5節分別詳細介紹特征工程、模型生成和模型部署中的EDL。

結論

隨著機器學習和進化計算的發展，在EC優化框架下，提出了許多EDL方法來自動優化深度模型的參數或結構。與人工設計的方法相比，EDL方法在魯棒性和搜索能力方面具有競爭力。因此，EDL已經成為一個熱門的研究課題。

在這次調研中，我們首先從DL和EC的角度介紹EDL，以方便來自ML和EC社區的讀者理解。然后，我們將EDL定義為一個復雜的優化問題，并從特征工程、模型生成到模型部署等方面全面介紹了解決EDL優化問題的EC技術，以形成一個新的分類(即，在EDL中什么、哪里和如何進化/優化)。詳細討論了EDL流水線不同階段的解表示和搜索范式。然后討論了基于歐共體的研究方法與非歐共體研究方法的優缺點。隨后，對各種應用程序進行了總結，以展示EDL在處理現實世界問題方面的潛在能力。

盡管EDL方法在AutoML中取得了很大的進展，但仍有許多具有挑戰性的問題需要解決。例如，有效的加速策略對于減少昂貴的優化過程至關重要。另一個問題是處理大規模數據集，以及如何在不同的EDL方法或非ec方法之間進行公平的比較。需要更多的研究從理論上分析或解釋EDL的搜索能力。此外，在提高EDL在兩種基準測試(例如，大規模和小規模數據)和真實應用程序上的性能方面還需要做很多工作。最后，端到端EDL的開發具有一定的挑戰性，值得我們付出更多的努力。

付費5元查看完整內容

因果推理 · 推薦系統 · 綜述論文 · 信息檢索 ·

2022 年 8 月 31 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現有的推薦系統方法更多的是對相關性建模，但難于保證推薦系統的魯棒性等。來自清華中科院等最新《推薦系統中的因果推理》綜述論文，**全面回顧了基于因果推理的推薦的文獻，**非常值得關注!

推薦系統在當今的信息過濾中起著至關重要的作用。現有的推薦系統是通過學習數據中的相關性來提取用戶偏好的，如協同過濾中的行為相關性，特征-特征，或者預測點擊率中的特征-行為相關性。然而，令人遺憾的是，現實世界是由因果關系而不是相關性驅動的，而相關性并不意味著因果關系。例如，推薦系統可以在用戶購買手機后向其推薦電池充電器，后者可以成為前者的原因，而這種因果關系是無法逆轉的。近年來，為了解決這一問題**，推薦系統的研究人員開始利用因果推理來提取因果關系，增強推薦系統**。在這項綜述中，我們全面回顧了基于因果推理的推薦的文獻。首先，我們提出了推薦和因果推理的基本概念，作為后面內容的基礎。我們提出了非因果性推薦所面臨的典型問題。然后，我們全面回顧了基于因果推理的推薦的現有工作，基于因果推理解決的問題的分類。最后，我們討論了這一重要研究領域有待解決的問題，以及未來值得關注的工作。

//www.zhuanzhi.ai/paper/c0a2efd0fa2bb09875e3eb5c8e570cb8

在信息過載的時代，推薦系統(RecSys)已經成為方便用戶獲取信息的基礎服務。從早期的淺層模型[40,63]，到最近的基于深度學習的模型[13,27]，再到最近的基于圖神經網絡的模型[25,114]，推薦系統的技術和模型發展迅速。一般來說，推薦系統的目標是通過匹配用戶的歷史行為，以及收集到的用戶配置文件、商品屬性或其他上下文信息來了解用戶的偏好。這里的交互主要是由之前的推薦系統誘發的，很大程度上受推薦策略的影響。然后，推薦系統從候選商品池中篩選，并選擇符合用戶個性化偏好和需求的商品。一旦部署，系統就會收集新的交互來更新模型，這樣整個框架就形成了一個反饋循環。

一般來說，推薦系統可以分為兩類，即協同過濾(CF)和基于內容的推薦(又稱點擊率預測，簡稱CTR預測)。協同過濾關注用戶的歷史行為，如點擊、購買等。協同過濾的基本假設是，具有相似歷史行為的用戶，其未來行為也會趨于相似。例如，最具代表性的矩陣分解模型MF (matrix factorization model)使用向量來表示用戶和商品，然后使用內積來計算用戶和商品之間的相關性得分。為了提高模型的能力，最近的工作[13,27]利用深度神經網絡來匹配用戶和項目，如神經協同過濾[27]，它利用多層感知器來取代MF模型中的內積。此外，協作過濾的廣泛視角考慮了附加信息，如順序推薦中的每個行為的時間戳[10,115]、社交推薦中的用戶社交網絡[14,99]、多行為推薦中的多類型行為[18,101]等，對相關性進行了建模。點擊率預測的重點是利用豐富的屬性和特性的用戶，項目，或上下文來增強推薦。主流的CTR預測任務旨在通過適當的特征交互模塊學習高階特征，如FM (Factorization Machine)中的線性內積、DeepFM[20]中的多層感知器、AFM中的注意力網絡[103]、AutoInt中的疊置自注意力層[77]等。

當今推薦系統的基礎是建立相關性模型，例如協同過濾中的行為相關性，特征-特征，或者點擊率預測中的特征-行為相關性。然而，現實世界是由因果關系而不是相關性驅動的，而相關性并不意味著因果關系。推薦系統中廣泛存在兩種因果關系:用戶層面和交互層面。用戶方面的因果關系是指由因果關系驅動的用戶決策過程。例如，用戶在購買手機后可能會購買電池充電器，而后者可以成為前者的原因，這種因果關系是不可逆轉的。交互方面的因果關系是指推薦策略在很大程度上影響用戶與系統的交互。例如，未觀察到的用戶-物品交互并不意味著用戶不喜歡該物品，這可能只由未暴露引起。

**從形式上講，因果關系可以定義為原因和結果，其中原因對結果負有部分責任[111]。**因果推斷被定義為基于實驗數據或觀察數據來確定并進一步利用因果關系的過程[111]。兩種流行且被廣泛使用的因果推理框架是潛在結果框架(Rubin因果模型)[64]和結構因果模型(SCM)[57,59]。Rubin的框架旨在計算某些治療方法的效果。結構因果模型構建一個因果圖和相應的結構方程，其中有一組變量和描述變量之間因果關系的結構方程。由于采用了關聯驅動范式，現有的推薦系統仍然存在嚴重的瓶頸。具體來說，三個主要挑戰限制了當前范式的有效性，因果推理可以作為一個有前途的解決方案，如下所示。

數據偏差的問題。收集到的數據，例如最重要的用戶-物品交互數據，是觀察性的(而不是實驗性的)，導致了偏差，包括從眾性偏差、受歡迎性偏差等。[45]對于非因果性推薦系統，模型不僅學習了用戶期望的偏好，而且還學習了數據偏差，導致推薦性能較差。

數據丟失甚至數據噪聲的問題。推薦系統中采集的數據受限于采集過程，存在缺失或有噪聲的數據。例如，盡管物品池規模很大，但用戶只與一小部分物品進行交互，這意味著無法收集大量未被觀察到的用戶-物品反饋。此外，有時觀察到的隱性反饋甚至是嘈雜的，并不能反映用戶的實際滿意度，例如那些在電子商務網站的點擊行為，最后以差評結束，或者一些錯誤的行為。

**超出精度的目標很難實現。**除了準確性，推薦系統還應考慮其他目標，如公平性、可解釋性、透明度等。提高這些超出精度的目標可能會損害推薦的準確性，導致兩難。例如，一個考慮用戶行為下的多重驅動原因的模型，基于對每個原因進行分解和可解釋嵌入的分配，可以很好地提供準確和可解釋的推薦。另一個例子是多樣性。與高同質性的列表相比，高多樣性的物品推薦列表可能無法符合用戶的興趣，因為對于高同質性列表，因果關系可以幫助捕捉用戶為什么消費特定類別的物品，實現準確性和多樣性。

最近關于推薦系統的研究通過精心設計的因果關系驅動方法解決了這些挑戰。在過去的兩年里，相關的論文層出不窮，因果推理很有可能會席卷推薦系統領域。在這篇調研論文中，我們系統地回顧了這些早期的研究成果，特別是關于它們如何解決因果推理的關鍵缺陷。首先，具有因果關系的推薦方法可以構建因果圖，在大多數情況下，偏差可以被認為是混淆劑，這是進一步通過因果推理技術解決。其次，對于缺失的數據，因果增強模型可以幫助構建一個反事實的世界，從而可以通過反事實推理來收集缺失的數據。第三，因果推理可以自然地幫助建立可解釋和可控的模型，在此基礎上可以實現模型本身和推薦結果的可解釋性。此外，由于模型變得可控，其他目標也可以實現，包括多樣性、公平性等。具體而言，目前推薦中的因果推理工作可分為以下幾類：

數據去偏與因果推理。對于受歡迎程度偏差或暴露程度偏差，這種偏差(由于受歡迎程度意識或暴露策略意識的數據收集)在大多數情況下可以被視為一種混雜因素。現有的一些工作通過后門調整來解決這個問題。對于整合偏差，它可以被描述為對撞機效應。
基于因果推理的數據增強和數據去噪。雙重數據缺失問題包括有限的用戶數據收集和推薦模型對系統的因果影響。第一次折疊的極端情況甚至會產生數據噪聲問題。對于第一種情況，反事實推理可以幫助生成未收集的數據作為補充，這解決了數據缺失的問題。對于第二個方面，如IPW等因果模型可以估計推薦模型的因果效應。
基于因果推理的可解釋可控推薦模型，實現可解釋性、多樣性和公平性。按照因果圖設計的模型自然是可控的，其中具有代表性的技術包括因果發現、解纏表示等。基于可解釋模型，通過控制模型可以獲得較高的多樣性，避免權衡，通過控制模型對特定用戶群體的公平性來獲得公平的推薦。

值得一提的是，盡管有關于推薦系統[21,98,117]或因果推斷[22,51,51,112]的調研，但目前還沒有關于因果驅動推薦系統這一新的重要領域的調研。這些推薦系統的綜述主要介紹和討論了推薦系統的基本概念和各種進展，并對基于因果關系的推薦進行了一些討論。這篇因果推理綜述主要介紹和討論因果推理的基本概念和基本方法，對因果推理的應用探討不夠。我們總結這項調研的貢獻如下。

據我們所知，我們采取開創性的步驟，對這個新的但有前途的領域進行系統的調研。我們通過回答為什么因果推理是必要的以及因果推理如何增強推薦的基本問題來分類現有的工作。
我們提供推薦系統和因果推理的必要知識，然后致力于介紹和解釋因果推理的現有推薦工作，從早期的嘗試和最近發表的論文到2022年。
我們討論了該研究領域中重要但尚未解決的問題，并提出了有前景的方向，我們相信這將是未來幾年的主流研究方向。

圖2 因果推理的重要概念

說明非因果推薦模型的三個典型問題，以及因果推理如何解決這些問題。

因果推薦系統分類

現有的因果去偏方法主要有三類: 混淆效應、碰撞效應和反面推理。

近年來，因果推理已經成為推薦系統研究領域一個非常重要的課題，可以毫不夸張地說，它重塑了我們對推薦模型的認知。本文首先詳細系統地討論了為什么因果推理可以，以及它如何解決非因果推薦模型的缺陷，從而對現有的工作進行了調研。我們希望這項綜述能夠很好地激勵這一領域的研究人員。

付費5元查看完整內容

可解釋性 · 可解釋圖神經網絡 · 綜述論文 · 圖神經網絡 ·

2022 年 7 月 28 日

[付費5元查看完整內容]GNN如何可解釋？悉尼科大最新《可解釋圖神經網絡研究》綜述，全面闡述可解釋GNN的方法與評價指標

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

來自悉尼科技大學最新《可解釋圖神經網絡研究》綜述，重點研究可解釋圖神經網絡，并基于可解釋方法對其進行分類。

圖神經網絡(GNNs)已經證明了對圖數據的預測性能的顯著提高。與此同時，這些模型做出的預測往往難以解釋。在這方面，已經有很多人從GNNExplainer、XGNN和PGExplainer等角度來解釋這些模型的預測機制。雖然這些工作提供了解釋GNN的系統框架，但對可解釋GNN的全面綜述還沒有。在這項綜述中**，我們提出了一個可解釋GNN的全面綜述。重點研究可解釋圖神經網絡，并基于可解釋方法對其進行分類**。在此基礎上，我們進一步給出了解釋GNN的常用性能指標，并指出了未來的研究方向。圖G可以看作是一組節點Ni (i = 1,2，···，n)和邊Ej (j = 1,2，···，m)組成的某種關系的表示，它是一種理想的數據結構，可用于對各種現實世界的數據集(如分子)建模。隨著深度學習的復興，圖神經網絡(GNNs)已經成為對圖數據建模的強大工具，并在推薦、化學、醫學等許多領域和應用中取得了令人印象深刻的性能[27,7,24]。然而，將圖結構和特征信息結合在一起，產生了復雜的非線性模型，增加了理解其工作機制和預測的難度。另一方面，一個可解釋的模型是受歡迎的，甚至是必要的，特別是在實際場景中(例如，醫療診斷)，因為解釋可以在多種方面使用戶受益，例如提高模型的公平性/安全性，它還可以增強對模型建議的信任。因此，可解釋GNN(eXplainable gnn, XGNN)近年來得到了相當多的研究關注，可分為兩類:1)采用可解釋AI (eXplainable- AI, XAI)方法直接解釋GNN;2)基于圖的內在結構和特征制定策略，不涉及XAI方法。 雖然近年來對GNN可解釋性的研究越來越多，但對其進行系統的討論卻很少。我們認為，全面分析XGNN最近的這些工作，將有助于更好地理解這些方法，激發新的想法，并為開發新的可解釋的方法提供見解。因此，我們對目前研究GNN的可解釋方法進行了分析和總結。特別地，我們將它們分為兩組——第2節中的基于XAI的XGNN和第3節中的非基于XAI的XGNN。然后，我們將在第4節中介紹用于衡量XGNN可解釋性的指標。第5節討論了XGNN的常見問題，最后在第6節指出了今后的研究方向。 我們的貢獻可以概括為:

我們系統地分析了最新的XGNNs方法，并將其分為兩組: 基于XAI的XGNNs，利用現有的XAI方法來解釋GNN;基于非XAI的XGNNs，它脫離了當前的XAI方法，同時試圖通過利用圖的固有結構和特性來解釋GNN。
我們提出了XGNNs的評估指標，可以用來衡量XGNNs方法的性能，因為評估指標的知識對于教育XGNNs的最終用戶/從業者是必要的。
討論了XGNNs研究中經常出現的問題和可能的解決方案，最后指出了進一步提高XGNNs可解釋性的幾個潛在研究方向。

基于XAI的可解釋圖神經網絡

通過分析XGNNs的文獻，我們對可解釋GNN的方法進行了二元分類，分為基于XAI的方法和基于非XAI的方法兩類。XGNN的分類如圖1所示。我們首先簡要介紹XAI，然后介紹XGNN，因為它將有助于理解XGNN基于XAI的可解釋技術。

可解釋人工智能

在過去的幾年里，XAI已經成為一個熱門的研究課題，在這一領域的研究越來越多。多項研究綜述了它的歷史、分類、評價、挑戰和機遇，主要集中在深度神經網絡(DNNs)[1][4][6][20][8]的解釋。XAI技術可以按照[6]中討論的三種分類: (i)可解釋范圍的差異，(ii) 方法的差異，和 (iii) ML模型使用的差異(見圖2)。

根據ML模型使用的不同，我們還可以將XAI分為模型特定的XAI和模型無關的XAI。特定于模型的XAI是指專注于單個或一組特定AI模型的可解釋性的任何方法;而模型無關的XAI并不強調底層的AI模型。

模型無關的XAI可以用于評估大多數AI模型，通常在訓練后應用，因此它們通常被視為事后方法。模型無關的XAI依賴于分析輸入和輸出特征對，并且無法訪問AI模型的具體內部工作方式(例如，權重或結構信息)，否則將不可能將其與黑箱模型[21]解耦。通過分析模型特定型XAI和模型無關XAI的特點可以看出，模型特定型XAI方法對特定參數的依賴程度較高，而模型架構的任何變化都可能導致解釋方法本身或對應的可解釋算法發生顯著變化。因此，特定于模型的XAI方法無法擴展以解釋GNN。然而，一些模型無關的XAI方法可以被擴展來解釋GNN。

用XAI方法解釋圖神經網絡

卷積神經網絡(CNNs)通過將卷積運算擴展到圖和一般的非歐幾里得空間，可用于圖結構數據。將神經網絡擴展到非歐幾里得空間視為圖卷積神經網絡(GCNNs)。因此，我們可以將最初為CNN設計的常見解釋方法，擴展到GCNN。我們發現XAI的多種方法都可以很容易地推廣到GNN，如LRP [2]， LIME [16]， Grad-CAM[18]。表1總結了這些擴展。

分層關聯傳播(LRP)假設分類器可以分解為多個計算層，并將頂層的DNNs輸出傳播到輸入層。在每一層，應用一個傳播規則[2]。對目標輸出節點的貢獻反向傳播到輸入特征，形成對該節點貢獻的特征映射。因此，LRP在可視化輸入特征對模型預測的貢獻方面非常有用，特別是對于基于核的分類器和多層神經網絡。受此激勵，研究人員[22]在GNN中使用LRP來獲得GNN模型黑箱的洞見。Schnake等人[17]提出了基于GNN-LRP的高階泰勒展開法。GNN- LRP生成包含GNN模型和輸入圖之間復雜嵌套交互的詳細解釋。此外，Cho等人[5]使用LRP對個體預測進行了事后解釋。LRP通過網絡反向傳播計算每個神經元的相關性，從預測的輸出水平到輸入水平，相關性表示給定神經元對預測的定量貢獻。此外，Baldassarre等[3]也將LRP應用于圖模型。LRP方法通過將輸出預測分解為輸入的組合來計算顯著性映射。

局部可解釋模型無關解釋(LIME)是XAI中另一種流行的方法。LIME從黑盒模型中提取單個預測實例，并生成一個更簡單、可解釋的模型，如線性模型，以近似其決策特征。然后可以解釋這個簡單的模型，并使用它來解釋原始的黑盒預測[16]。許多其他的論文已經改進和擴展了LIME。Zhao等人[35]引入了BayLIME，將LIME與貝葉斯相結合。Zafar等人[33]使用了多個生成解釋之間的Jaccard相似性，并提出了一個確定性版本的LIME。此外，LIME也被廣泛應用于GNN中來解釋GNN模型。Huang等[9]提出了GraphLIME，一種使用Hilbert-Schmidt獨立準則(HSIC) Lasso的圖的局部可解釋模型解釋，這是一種非線性特征選擇方法來實現局部可解釋。它們的框架是通用的GNN模型解釋框架，該框架在被解釋節點的子圖中局部學習非線性可解釋模型。

梯度加權類激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)通過放松倒數第二層必須是卷積[18]的架構限制來改進CAM。通過將目標概念的梯度流到最終的卷積層，生成粗略的定位圖，以突出輸入圖像中的重要區域。CAM已廣泛應用于各種卷積神經網絡模型族[18]。Pasa[14]直接將其作為卷積神經網絡解釋的可視化工具。Vinogradova等人[25]進一步擴展了Grad-CAM，并將其應用于局部生成熱圖，顯示語義分割中單個像素的相關性。Grad-CAM也可以擴展到GNN。Pope等人[15]描述了將CNN可解釋方法擴展到GCNNs。他們為GCNNs的決策引入了解釋法(Grad-CAM)。Grad-CAM能夠生成關于網絡不同層的熱圖。

基于非XAI的可解釋圖神經網絡

大多數基于XAI的XGNN方法不需要知道GNN模型的內部參數，用于解釋的XAI方法也不是專門為CNN模型設計的。因此，當人們需要進一步探索GNN模型的結構時，尤其是對于大型和復雜的模型來說，這些方法可能無法給出令人滿意的解釋，這并不奇怪。為了緩解這一問題，近年來，研究人員開始考慮圖結構的特點，開發適合GNN模型的可解釋方法。有三種不同的方法來實現這個目標:(1)通過找到重要的子圖來解釋GNN模型;(2)通過生成新的圖來解釋GNN模型，而生成的圖應該保持最多的信息特征(如節點、節點特征和邊);(3)通過添加中間層次解釋GNN模型。

通過子圖可解釋的GNN

通過子圖可解釋的GNN是一組使用子圖添加GNN模型可解釋性的方法，它通常專注于局部特性，然后只產生最重要的子圖

通過圖生成可解釋的GNN

與關注子圖不同，通過圖生成解釋GNN需要考慮整個圖結構(或全局結構)。它考慮了圖的整體結構。然后生成一個新的圖，其中只包含GNN進行決策所需的結構。

可通過中間層解釋GNN

通過中間層注入解釋GNN可以直接將知識/信息作為因子圖編碼到模型體系結構中。如Ma等人[12]建立的因子圖神經網絡(Factor Graph Neural Network, FGNN)模型，將基因本體等生物知識直接編碼到模型架構中。因子圖神經網絡模型中的每個節點對應一些生物實體，如基因或基因本體術語，使模型具有透明性和可解釋性。

可解釋技術的評估指標

由于解釋者被用來解釋為什么做出了某個決定，而不是描述整個黑盒，所以解釋者本身的保真度存在不確定性。因此，使用正確的度量來評估可解釋性技術的正確性和完整性是至關重要的。此外，XAI[36]的一些評估指標也可以應用到XGNNs 中。本節簡要介紹xgnn解釋的常用評估指標。我們特別關注保真度、稀疏性、準確性、魯棒性和對比度。

討論

本綜述的重點是為可解釋GNN提供一個清晰的分類。通過對可解釋GNN相關文獻的分析，我們總結出以下問題。

如何解釋圖神經網絡? 主要有兩種觀點。

GNN可以被視為一個黑箱，并找到一種獨立的方式來解釋輸入和輸出之間的聯系，如GraphLIME或RelEx。

另一種方法試圖解釋GNN的細節，利用節點和邊本身的信息。

如何將XAI方法擴展到神經網絡圖?有一些研究使用XAI方法來解釋gnn(見第2.2節)。XAI方法包括Saliency Maps、LRP、LIME、Guided BP、Grad-CAM等，具有較好的性能，可以推廣用于解釋GNN。然而，這些方法并不是專門為gnn設計的，需要了解模型的內部參數。

如何找到影響圖神經網絡預測的最重要的子圖結構?正如我們在第3.2節中提到的，有幾種方法可以通過聚焦子圖結構來解釋GNN。例如，GNNExplainer識別出一個緊湊的子圖結構和一個小子集的節點特征，這可能在GNN的預測中發揮關鍵作用。此外，PGMExplainer和GISST通過生成與任何基于圖的任務相關的重要子圖和節點特征子集來生成解釋。然而，這些方法只關注局部信息的子圖結構，而沒有考慮任何全局特征。

如何從全局角度解釋圖神經網絡?相對于通過局部圖結構獲得的分段信息，全局結構往往可以提供更有趣、更完整的信息。例如，PGExplainer專注于解釋完整的圖結構，并提供了GNN所做預測的全局理解。它可以在一組實例上集體解釋GNN的預測，并很容易將學習到的解釋器模型推廣到其他實例。

付費5元查看完整內容

可控數據生成 · 深度學習 · 綜述論文 ·

2022 年 7 月 22 日

[付費5元查看完整內容]如何生成預期數據？埃默里大學等最新《深度學習可控數據生成》綜述，52頁pdf涵蓋346篇文獻全面闡述可控生成技術體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會，可以找出數據的結構模式和功能屬性之間的相互關系，并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。

在目標屬性下設計和生成新數據已經吸引了各種關鍵應用，如分子設計、圖像編輯和語音合成。傳統的手工制作方法嚴重依賴專業經驗和密集的人力努力，但仍然受到科學知識的不足和低吞吐量的影響，以支持有效和高效的數據生成。近年來，深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會，可以找出數據的結構模式和功能屬性之間的相互關系，并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。首先，提出了潛在的挑戰，并提供了初步建議。然后正式定義了可控深度數據生成技術，提出了可控深度數據生成技術的分類方法，總結了可控深度數據生成技術的評價指標。在此基礎上，介紹了可控深度數據生成技術的重要應用，并對已有的研究成果進行了實驗分析和比較。最后，指出了可控深度數據生成的未來發展方向，并指出了5個潛在挑戰。

//www.zhuanzhi.ai/paper/9ce23982a0872977f5df286c1f4f388f

數據生成是一個重要的領域，旨在捕捉數據的固有分布，以生成類似的新數據。由于其在分子設計[1-3]、圖像編輯[4-6]、文本生成[7,8]和語音合成[9-11]等關鍵領域的廣泛應用，它是一個持久、快速發展的重要領域。數據生成需要探索和操作復雜的數據結構，這在歷史上導致了高成本，密集的人力，豐富的領域知識在大(通常是離散的)搜索空間。部分由于這個原因，傳統的數據生成方法都是針對特定領域定制的，領域啟發式規則與工程更容易得到應用[12-15]。例如，藥物設計的過程，即產生新的分子結構，通常需要化學家手工制作候選結構，然后測試它們是否能帶來期望的性質，如溶解度和毒性。還可以利用泛型算法等計算方法，根據領域知識[16]設計分子突變和交叉規則，對分子結構進行組合搜索。然而，分子結構空間是巨大的: 例如，現實的類藥物分子的數量估計在10^33[17]左右，這給搜索和識別感興趣的結構帶來了相當大的困難。此外，在許多領域，如神經科學，電路設計，蛋白質結構，我們的領域知識仍然非常有限和不完整。對數據生成過程的缺乏理解限制了我們重新生成甚至創建具有所需屬性的新數據的能力。另一個例子是邏輯電路設計，其目的是輸出所需的集成電路原理圖。傳統的電路設計是一個相當復雜的過程，需要根據電荷的特性對電路元件的行為進行大量的數學建模[13,18]，并根據不同電路器件的性質選擇合適的材料[13,19]。值得注意的是，對傳統數據生成技術的詳細綜述可以在特定的領域單獨找到[13,15,20,21]。

近年來，深度學習的發展為我們解決上述數據生成方面的挑戰提供了新的機遇。深度學習技術在學習圖像、文本、序列和圖等各種數據類型的表示方面取得了巨大的成功[22-26]。這進一步使我們能夠適應從數據結構到其相應(潛在)特征的映射，其中前者通常可以是離散的和非結構化的，而后者是連續的向量或矩陣。因此，我們不需要使用昂貴的組合算法來直接探索復雜數據結構的高維空間，而是可以使用高效的算法(如基于梯度的算法)來探索數據在連續向量空間中的潛在特征。例如，蛋白質結構是由氨基酸序列形成的，因此序列數據的分布可以被序列深度學習模型(如遞歸神經網絡(RNNs)和變壓器[27])捕獲和編碼。然后從學習到的蛋白質結構潛在空間[28]中自回歸生成新的氨基酸序列。研究表明，與Rosetta[29]等傳統框架相比，基于深度學習的蛋白質設計方法獲得了更大的序列多樣性。此外，由于深度學習以端到端方式提取潛在特征，可以大大減少對領域知識的依賴。例如，在圖像合成領域，基于深度學習的技術可以學習特定藝術家畫作的潛在語義表示，并很容易地擬合其在潛在空間中的分布，因此合成同一藝術家的新畫作簡單地就是一個采樣+解碼過程[30]。另外，由于領域知識的獨立性更強，基于深度學習的數據生成技術在不同數據類型或應用程序中更容易一般化或交叉使用方面具有更好的潛力。

盡管黑盒深度學習技術有望解決數據生成中的傳統障礙，但如何填補學習到的潛在特征和感興趣的真實屬性之間的空白對于確保生成的數據結構和期望屬性之間的對齊至關重要。在典型的現實世界應用中，生成具有所需特性的數據是事實上的先決條件，從醫學設計[31,32]，到電路混淆[33]，到藝術設計[34,35]，再到音頻合成[36,37]。例如，化學家不僅可以生成新型季銨鹽化合物(QACs)，還希望生成的QACs在水中具有強溶解性，最低抑菌濃度(MIC)小于4mg/L，以確保抗菌性[38]。圖像描述社區可能期望從長度小于10個單詞的圖像中以幽默的風格生成更多類似人類的文本[39,40]。因此，為了解決深度學習技術產生的數據屬性控制這一核心問題，近年來可控深度數據生成的需求和研究主體快速增長[1,6,41 - 43]。

迄今為止，已有相當多的研究致力于可控深度數據生成，以應對上述挑戰。為了推進最先進的技術和預見潛在的研究機會，全面了解現有工作的優勢和弱點是很重要的。此外，在控制不同領域的數據生成方面也有廣泛的興趣。雖然大多數提出的方法都是針對單個應用領域設計的，但將它們的技術推廣到其他應用領域是有益的，也是可能的。因此，交叉引用這些服務于不同應用領域的方法是困難的，需要加以解決。此外，可控的深度數據生成結果的質量要求在各個應用領域專門設計評價策略。因此，我們需要對不同領域的不同評價策略進行系統的標準化和總結。此外，人工智能(AI)科學家正在尋找新的可用數據集來測試他們的可控深度數據生成模型，而特定領域的社區正在尋找更強大的控制技術來生成具有期望屬性的復雜結構化數據，鑒于這兩方面的需求不斷增長，對現有可控深度數據生成技術的系統綜述限制了雙方數據生成的進展。為了填補這一空白，本研究旨在通過對可控深度數據生成技術的系統綜述，幫助跨學科研究人員了解可控深度數據生成的基本原理，選擇合適的技術解決相關領域的問題，并以標準化的評估場景推進研究前沿。這項綜述的主要貢獻總結如下：

對現有技術進行系統的總結、分類和比較。根據可控深度數據生成過程的觸發方式，對現有可控深度數據生成技術進行了全面的分類，形成了新的分類框架。討論并比較了該分類法不同子類別的技術細節、技術優缺點。這種分類法的提出是為了使來自不同應用領域的研究人員能夠定位最適合他們需要的技術。
標準化的評估指標和流程。從歷史上看，數據生成方法和它們的評估通常是針對單個領域定制的，盡管它們有共同的抽象問題和目標，但并沒有很好地統一。針對這一問題，本文總結了可控深度數據生成的常用評價指標和流程，并從生成數據質量和屬性可控性兩個角度對其進行標準化。
對主要應用進行全面的分類和總結。對分子合成與優化、蛋白質設計、圖像編輯、情感語音生成等主要應用進行了全面的介紹和總結。本文比較并充分討論了應用于這些應用領域的各種技術。對這些主要應用的全面分類和總結，將有助于人工智能研究人員探索廣泛的應用領域，并指導這些領域的研究人員使用適當的技術生成數據。
對現有基準數據集進行系統綜述，并對現有技術進行實證比較。根據不同的數據模式，系統地總結了各應用領域借鑒的基準數據集。此外。實驗結果由我們和同行評議的文章進行，以比較在這些基準數據集上生成可控深度數據的代表性模型。對現有基準數據集的系統綜述和代表性技術的實證比較將使模型開發人員能夠使用額外的數據集來評估他們的模型，并將他們提出的模型的性能與基準結果進行比較。
對當前的研究現狀和潛在的未來方向進行了深刻的討論。本文通過對可控深度數據生成技術、標準化評價指標、廣泛的應用范圍、基準數據集的系統回顧和現有技術的實證比較，對該領域存在的幾個問題提出了深刻的見解，并展望了該領域未來的發展方向。

在第一部分中，我們首先介紹了可控深度數據生成的背景、挑戰、我們的貢獻、我們的綜述與現有綜述的關系。然后在第2節中，我們將介紹用于深度數據生成的通用框架作為初步介紹。接下來，我們正式闡述了可控深度數據生成問題(章節3.1)，并在章節3中根據各種屬性控制技術(章節3.2)提出了分類方法，然后在同一章節中總結了評價指標。在第4節中，我們介紹了可控深度數據生成的技術，并根據我們的分類，詳細解釋了從無開始可控生成(第4.1節)和從源數據可控轉化(第4.2節)的概念和代表工作。在第5節中，我們將展示在4.1節和4.2節中回顧的模型在各種領域特定任務中的應用，然后介紹這些領域中使用的流行數據集。此外，在第6節中，我們對常用的分子、圖像、文本和音頻數據集進行了實驗比較和分析，用于可控的深度數據生成。在后面的第7節中，我們將介紹該領域的潛在挑戰、機會和現有方法的局限性。我們將在第8部分結束我們的綜述。

付費5元查看完整內容

自監督學習 · 多模態數據 · 時序數據 · 綜述論文 ·

2022 年 6 月 13 日

[付費5元查看完整內容]多模態時序數據如何自監督？墨爾本理工等最新《自監督表示學習：多模態與時序數據》，全面闡述最新方法體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】自監督學習是當下研究的熱點。如何在多模態時序數據進行自監督表示學習？最新來自皇家墨爾本理工大學RMIT等學者發表了《自監督表示學習：多模態與時序數據》，首次全面綜述多模態時序數據自監督學習方法，非常值得關注！

近年來，自監督表示學習(Self-Supervised Representation Learning, SSRL)在計算機視覺、語音、自然語言處理(natural language processing, NLP)等領域受到廣泛關注，近年來，它也逐漸被應用于傳感器數據的時間序列等模態。傳統模型通常需要大量注釋良好的數據進行訓練，這一事實推動了自我監督學習的流行。獲取帶注釋的數據可能是一個困難且代價高昂的過程。自監督方法通過使用從原始數據中自由獲取的監督信號對模型進行區分性預訓練來提高訓練數據的效率。現有的研究主要集中在單模態CV或NLP領域的方法，與此不同，本文的目的是首次全面綜述多模態時序數據自監督學習方法。為此，我們 1) 對現有的SSRL方法進行了全面的分類; 2) 通過定義SSRL框架的關鍵組件引入了一個通用流水線; 3) 就其目標功能、網絡架構和潛在應用對現有模型進行了比較; 4) 對每種類別和各種模態下的現有多模態技術進行了綜述。最后，我們提出了現有的弱點和未來的機會。我們相信，我們的工作為利用多模態和/或時間數據的領域的SSRL需求提供了一個視角。

//www.zhuanzhi.ai/paper/88836a11fa745f249523bdfcf9298998

表示學習

過去幾十年，深度學習技術取得了巨大的成功，催生了大量面向大規模數據集的應用。盡管深度學習具有顯著的影響，但許多最先進的技術仍然需要人工干預，例如手動數據預處理和數據注釋。這是監督學習模型的一個主要瓶頸，因為獲取數據注釋通常是一個耗時的過程，需要一些領域知識。自監督表示學習(SSRL)解決了這一瓶頸，它試圖通過從數據本身獲得的監督信號來訓練網絡模型，從而揭示關于數據的有意義的信息。這大大增加了用于訓練模型的數據帶寬，并已被證明可以減少對手動數據注釋的依賴[69]。這也可能被認為是邁向通用人工智能道路上的早期一步，因為與監督學習方法相比，計算機從觀察數據中學習所需的人工輸入要少得多。接下來，我們將概述表征學習和相關的自監督學習技術。

數據表示的研究最初依賴于特征工程，即定義人工步驟將原始數據轉換為有意義的特征。這種轉換的例子包括統計屬性(如均值和標準差)的計算和基于形狀或模式的特征(如圖1中的小波變換)。然而，為一項復雜任務設計良好的特征選擇通常需要大量的人力和大量的領域知識來確保特征的質量。此外，為一個任務選擇的特征可能不適合另一個任務，使其不可行的一般化使用這些方法。為此，提出了一種旨在從數據中自動提取鑒別特征的表示學習方法。其基本原理是降維算法，如主成分分析、流形學習和深度學習將只保留高維數據中信息量最大的特征，并在將數據映射到其低維表示時消除數據中的噪聲。之后，保留和去噪的特征可以用作后續機器學習模型的輸入。由于表示學習對人類干預的依賴程度最低，它不再被視為機器要解決的任務，而是學習一種技能(Satinder Singh)，以發展對世界的一般性理解，并匯聚創造一種可以泛化到新場景的一般性共同理解89。因此，表示學習在計算機視覺(CV)、語音識別和自然語言處理(NLP)等多個領域受到了廣泛關注。

自監督表示學習

一個監督模型接受一個帶注釋的數據集用于給定的任務(例如圖像分類的ImageNet)，并學習數據表示。由于訓練任務的普遍性，學習到的表示可以作為一個新的但類似的任務(如物體檢測)的良好起點。然而，監督表示學習的主要限制是對注釋數據集的要求。數據注釋是一個昂貴和耗時的過程，需要大量的人力工作。為了獲得高質量的數據集，需要在數據領域(如醫療、法律或生物數據集)擁有廣泛的專業知識。此外，對于一些應用領域(如與人類相關的應用)，由于隱私問題，獲取標簽數據集是不可行的。

針對上述問題，提出了一種自監督表示學習方法。它直接處理未標記的數據，不需要外部注釋。與人類的自學習過程類似，這是一個“觀察、行動、觀察和推斷”的重復循環，SSRL以原始數據為輸入，對輸入數據應用一個或多個預定義的動作，觀察動作的結果，并推斷出模型參數的下一個優化步驟。重復這個過程，SSRL模型可以提取數據的分布和局部/全局特征。SSRL的一個關鍵組件是對數據輸入的預定義操作，它生成偽標簽來監督訓練過程。這種行為的一個例子是偽裝學習的前置任務，它掩蓋了一部分數據，使用被掩蓋的部分作為標簽，并引導模型恢復被掩蓋的部分。

由于SSRL不需要外部監督，它可以利用大量可用的未標記數據(例如，所有發布在互聯網上的圖像)。這導致了SSRL的顯著成功。在2000年代，Hinton等人(2006)[70]和Bengio等人(2007)[21]提出了一種自監督算法，在使用真實標簽對模型進行微調之前，對深度信任網絡進行預訓練。他們表明，使用預訓練的權值可以提高監督任務的性能。如今，基于深度學習的模型，SSRL不僅在許多下游任務中實現了與其他完全監督競爭方法相比的競爭精度，而且與類似的監督模型相比，具有參數少得多、網絡小得多的優勢; 因此，它們不容易發生過擬合[78]。此外，SSRL的用例不僅限于作為機器學習管道中的預處理步驟(如遷移學習)，還包括其他領域的應用，如通過提高這些學習系統的標簽/獎勵效率的持續學習[113]和強化學習[124]。

多模態和時序數據的自監督表示學習

多模態時序數據在日常生活中無處不在。數字設備的廣泛使用和數字應用(如物聯網應用、無線通信和媒體消費)的普及，使時序數據的可用性越來越高。時序數據的例子包括傳感器讀數、股票價格和醫療記錄等等。時序數據分析在環境(如氣候建模)、公共安全(如犯罪預測)和智能交通(如城市交通管理)等各個領域都有廣泛的應用。

另外，由于產生了大量異構格式的數據，因此涵蓋了多種數據形式。例如，自動駕駛汽車的決策同時依賴視覺和傳感器數據。這些來自不同來源的數據可以被視為同一主題的不同觀點，并提供補充信息。因此，同時利用這兩類數據可以提高機器學習模型的有效性和可靠性。盡管多模態和時序數據很重要，但分析它們并非微不足道。時序數據與其他數據類型(如圖像和文本數據)相比具有獨特的特征，因為它與采集時間有很強的相關性。提取動態時間模式(例如周期模式)對于發現數據如何隨時間演變是至關重要的。當有多種可用的數據模式時，學習在不同模式下不僅有效而且語義一致的表示是至關重要的。

為了解決這些問題，許多SSRL模型被提出，利用大量未標記的多模態和/或可用的時間數據來學習可轉移到下游預測器的數據表示。這些模型在數據模式(如音頻、圖像、文本或時間序列或這些模式的組合)、生成監督信號的方法(如借口任務、聚類、對比數據樣本和相似性計算)和目標函數(如交叉熵、三元組損失和InfoNCE)等方面存在不同。本文系統地綜述了近年來多模態和時序數據SSRL的研究進展。本文對這些研究成果進行了綜述，對它們進行了定位和比較，并指出了未來可能的研究方向。

本文貢獻：

在這篇文章中，我們介紹了快速發展的表示學習領域，并回顧了SSRL技術。特別地，我們討論了現有綜述中較少涉及的模態(時間數據)，并特別關注跨模態學習模型。本文將做出貢獻:

據我們所知，這是第一次全面的SSRL調研，涵蓋了視覺數據之外的多種形態。我們包括音頻和時間序列數據類型及其與視覺和文本的組合。這將為研究人員提供一個快速了解這些領域最先進工作的全景圖。
我們提出一個分類方案來定位、分類和比較審查的工作。比較分析可以作為讀者在現實生活中使用哪種模型的實踐指南。
我們確定了多模態和時間數據SSRL領域的公開挑戰。我們進一步討論可能的未來研究方向，可能解決這些挑戰。

本文其余部分的組織如下:在第2節中，我們回顧了關于SSRL的現有綜述論文。在第3節中，我們解釋了重要的術語和背景信息，以使文章易于閱讀和理解。在第4節中，我們描述了現有的類別，并特別介紹了為單一時態數據模式提出的SSRL方法。在第5節中，我們將現有的框架擴展為跨模態方法，并研究跨模態應用可能的框架、需求和挑戰。在第6節中，我們關注用于自監督學習的目標函數的演變趨勢。最后，第7節討論了挑戰和未來的研究方向。