在线点播亚洲日韩国产欧美,亚洲欧洲国产精品你懂的

最新大模型推薦綜述

大型語言模型（LLMs）已在自然語言處理（NLP）領域嶄露頭角，并在推薦系統（RS）領域近期受到了極大關注。這些模型通過自監督學習在大量數據上進行訓練，已在學習通用表示上取得了顯著成功，并有可能通過一些有效的遷移技術（如微調和提示調整等）來增強推薦系統的各個方面。利用語言模型的力量來提高推薦質量的關鍵在于利用它們對文本特征的高質量表示以及對外部知識的廣泛覆蓋，以建立項目和用戶之間的關聯。為了提供對現有基于LLM的推薦系統的全面理解，本綜述提出了一種分類法，將這些模型分為兩大范式，分別是用于推薦的判別型LLM（DLLM4Rec）和用于推薦的生成型LLM（GLLM4Rec），其中后者是首次被系統地整理出來。此外，我們在每種范式中都系統地回顧并分析了現有的基于LLM的推薦系統，提供了它們的方法、技術和性能的洞察。此外，我們也識別出了關鍵的挑戰和一些有價值的發現，以為研究者和實踐者提供靈感。

//www.zhuanzhi.ai/paper/f88ecfaf9c5216f16d59098d5751bbc5

1. 引言

推薦系統在幫助用戶尋找相關和個性化的項目或內容方面發揮了至關重要的作用。隨著在自然語言處理（NLP）領域出現的大型語言模型（LLMs），人們對利用這些模型的能力來增強推薦系統的興趣日益增強。 將大型語言模型（LLMs）融入推薦系統的關鍵優勢在于，它們能夠提取高質量的文本特征表示，并利用其中編碼的廣泛外部知識[Liu等人，2023b]。此綜述將LLM視為基于Transformer的模型，這種模型參數眾多，通過使用自/半監督學習技術在大規模數據集上進行訓練，例如BERT，GPT系列，PaLM系列等。與傳統的推薦系統不同，基于LLM的模型擅長捕獲上下文信息，更有效地理解用戶查詢、項目描述和其他文本數據[Geng等人，2022]。通過理解上下文，基于LLM的推薦系統（RS）可以提高推薦的準確性和相關性，從而提高用戶滿意度。同時，面對有限的歷史交互數據稀疏問題[Da’u和Salim，2020]，LLMs還通過零/少樣本推薦能力[Sileo等人，2022]為推薦系統帶來新的可能性。這些模型可以推廣到未見過的候選項，因為它們通過事實信息、領域專業知識和常識推理進行了廣泛的預訓練，使它們即使沒有接觸過特定的項目或用戶，也能提供合理的推薦。

上述策略已在判別模型中得到了良好的應用。然而，隨著AI學習范式的演變，生成語言模型開始受到關注[Zhao等人，2023]。這一發展的一個重要例證就是ChatGPT和其他類似模型的出現，它們已經對人類的生活和工作模式產生了重大影響。此外，將生成模型與推薦系統相結合，有可能帶來更多創新和實用的應用。例如，可以提高推薦的可解釋性，因為基于LLM的系統能夠根據其語言生成能力提供解釋[Gao等人，2023]，幫助用戶理解影響推薦的因素。此外，生成語言模型使得更個性化和上下文感知的推薦成為可能，例如在聊天式推薦系統中用戶可以定制提示[Li等人，2023]，增強用戶對結果多樣性的參與和滿意度。受到上述范式在解決數據稀疏性和效率問題上顯著效果的啟發，將語言建模范式用于推薦已經在學術界和工業界中成為了一個有前景的方向，顯著地推進了推薦系統研究的最新技術。到目前為止，有一些研究回顧了這個領域的相關論文[Zeng等人，2021; Liu等人，2023b]。Zeng等人(2021)總結了一些關于推薦模型預訓練的研究，并討論了不同領域間的知識轉移方法。Liu等人(2023b)提出了一種正交分類法，將現有的基于預訓練語言模型的推薦系統根據它們的訓練策略和目標進行劃分，分析和總結了預訓練語言模型基礎訓練范式和不同輸入數據類型之間的聯系。然而，這兩項調查主要關注的是預訓練語言模型中訓練技術和策略的轉移，而不是探索語言模型及其能力，即基于LLM的方式。此外，他們缺乏對推薦領域中生成大型語言模型最近進展和系統介紹的全面概覽。為解決這個問題，我們深入研究了基于LLM的推薦系統，將它們分為用于推薦的判別性LLM和用于推薦的生成性LLM，我們的回顧重點放在后者上。據我們所知，我們的綜述是第一個對推薦系統的生成大型語言模型進行最新和全面回顧的工作。

我們的綜述主要貢獻如下：

我們對當前基于LLM的推薦系統的狀態進行了系統性的綜述，重點是擴大語言模型的能力。通過分析現有方法，我們對相關進展和應用提供了系統的概覽。

據我們所知，我們的調查是首個專門針對推薦系統的生成型大型語言模型的全面和最新的回顧。

我們的綜述批判性地分析了現有方法的優點、缺點和限制。我們確定了基于LLM的推薦系統面臨的關鍵挑戰，并提出了有價值的發現，可以激發在這個有潛力的領域進一步的研究。

2 建模范式和分類法

所有大型語言模型的基本框架都由幾個Transformer塊組成，例如GPT，PaLM，LLaMA等。這種架構的輸入通常由token嵌入或位置嵌入等組成，而在輸出模塊可以獲得期望的輸出嵌入或token。在這里，輸入和輸出數據類型都是文本序列。如圖1的(1)-(3)所示，對于在推薦中適應語言模型，即建模范式，現有的工作可以大致分為以下三類：

(1) LLM Embeddings + RS。這種建模范式將語言模型視為特征提取器，將物品和用戶的特征輸入到LLM中并輸出相應的嵌入。傳統的RS模型可以利用知識感知嵌入進行各種推薦任務。 (2)** LLM Tokens + RS**。與前一種方法類似，這種方法根據輸入的物品和用戶的特征生成token。生成的令牌通過語義挖掘捕捉潛在的偏好，可以被整合到推薦系統的決策過程中。 (3) LLM作為RS。與(1)和(2)不同，這個范式的目標是直接將預訓練的LLM轉換為一個強大的推薦系統。輸入序列通常包括簡介描述、行為提示和任務指示。輸出序列預計會提供一個合理的推薦結果。

在實際應用中，語言模型的選擇顯著影響推薦系統中建模范式的設計。如圖2所示，在本文中，我們將現有的工作劃分為兩個主要類別，分別是用于推薦的判別性LLM和生成性LLM。用于推薦的LLM的分類可以根據訓練方式進一步細分，不同方式之間的區別在圖3中有所說明。一般來說，判別性語言模型非常適合在范式(1)中嵌入，而生成性語言模型的響應生成能力進一步支持范式(2)或(3)。

3 用于推薦的判別性LLM

確實，所謂的在推薦領域的判別性語言模型主要是指BERT系列的模型[Devlin等人，2019]。由于判別性語言模型在自然語言理解任務中的專業性，它們通常被視為下游任務的嵌入骨干。這也適用于推薦系統。大多數現有的工作通過微調將像BERT這樣的預訓練模型的表現與特定領域的數據進行對齊。另外，一些研究探索了像提示調整這樣的訓練策略。代表性的方法和常用的數據集在表1和表2中列出。

3.1 微調

微調預訓練的語言模型是一種在各種自然語言處理（NLP）任務中，包括推薦系統，受到了顯著關注的通用技術。微調背后的思想是，采取一個已經從大規模文本數據中學習了豐富的語言表達的語言模型，并通過在特定任務的數據上進一步訓練它，使其適應特定的任務或領域。微調的過程包括用其學習到的參數初始化預訓練的語言模型，然后在針對推薦的特定數據集上訓練它。這個數據集通常包括用戶-物品互動、物品的文本描述、用戶配置文件和其他相關的上下文信息。在微調過程中，模型的參數根據特定任務的數據進行更新，使其能夠適應和專門用于推薦任務。在預訓練和微調階段，學習目標可以是不同的。由于微調策略是靈活的，大多數基于BERT增強的推薦方法可以歸納到這個軌道。對于基本的表示任務，邱等人（2021）提出了一種新的基于預訓練和微調的方法U-BERT來學習用戶的表示，該方法利用內容豐富的領域來補充那些行為數據不足的用戶特征。設計了一個評論共匹配層來捕獲用戶和物品評論之間的隱式語義交互。同樣，在UserBERT [Wu et al., 2021b]中，加入了兩個自我監督任務，對未標記的行為數據進行用戶模型預訓練，以增強用戶建模。這個模型利用中等難度的對比學習、遮蔽行為預測和行為序列匹配，通過捕捉內在的用戶興趣和相關性，訓練精確的用戶表示。

預訓練的BERT在排名任務中取得了突破性的成就。BECR [Yang等人，2022]提出了一種輕量級的復合重新排名方案，該方案同時結合了深度上下文token交互和傳統的詞匯詞項匹配特性。通過新穎的復合token編碼，BECR有效地利用基于單字和跳字n-grams的可預計算token嵌入來逼近查詢表示，從而在臨時排名相關性和效率之間實現了合理的權衡。此外，Wu等人(2022)提出了一個端到端的多任務學習框架，用于產品排名，使用領域特定的BERT進行微調，以解決查詢和產品之間的詞匯不匹配問題。作者利用了專家混合層和任務之間的概率轉移，以利用豐富的用戶參與數據。還有許多其他特定任務或場景的相關研究，例如團隊推薦[Zhang等人，2022]，搜索/匹配[Yao等人，2022]，CTR預測[Muhamed等人，2021]。特別地，"預訓練，微調"機制在幾個順序或基于會話的推薦系統中起到了重要作用，如BERT4Rec [Sun等人，2019]，RESETBERT4Rec [Zhao，2022]。然而，上述模型只是利用了訓練策略的優勢，而沒有將大型語言模型擴展到推薦領域，因此不是我們討論的重點。序列表示學習模型UniSRec [Hou等人，2022]開發了一個BERT微調框架，將項目的描述文本關聯起來，在不同的推薦場景中學習可轉移的表示。對于基于內容的推薦，特別是新聞推薦，NRMS [Wu等人，2021a]，Tiny-NewsRec [Yu等人，2022]，PREC [Liu等人，2022]，利用大型語言模型通過處理已知的領域轉移問題或減少轉移成本來增強新聞推薦。總的來說，將BERT微調集成到推薦系統中，融合了強大的外部知識和個性化的用戶偏好，主要目標是提高推薦準確性，同時獲得對具有有限歷史數據的新項目的一些冷啟動處理能力。

3.2 提示調優

與設計特定目標函數來適應不同的下游推薦任務不同，提示調優 [Lester等人，2021]試圖通過硬/軟提示和標簽詞語 verbalizer，將推薦的調優對象與預訓練的損失對齊。例如，Penha和Hauff (2020)利用BERT的Masked Language Modeling (MLM)頭來通過cloze-style提示揭示其對項目類型的理解。他們進一步利用了BERT的Next Sentence Prediction (NSP)頭和表示的相似性 (SIM) 來比較相關和不相關的搜索和推薦查詢-文檔輸入。實驗表明，BERT在沒有任何微調的情況下，可以在排名過程中優先考慮相關項目。Yang等人 (2021)開發了一個帶有提示的對話推薦系統，其中一個基于BERT的項目編碼器直接將每個項目的元數據映射到一個嵌入中。最近，Prompt4NR [Zhang和Wang, 2023]率先應用了提示學習范式進行新聞推薦。這個框架重新定義了預測用戶點擊候選新聞的目標，作為一個cloze-style的 maskprediction任務。實驗發現，通過利用多提示集成，推薦系統的性能顯著提高，超過了在離散和連續模板上使用單一提示所達到的結果。這突出了提示集成在結合多個提示做出更明智決策方面的有效性。

**4 針對推薦的生成型LLMs **

相比于判別型模型，生成型模型具有更好的自然語言生成能力。因此，不像大多數基于判別模型的方法將LLMs學習到的表示與推薦領域對齊，大多數基于生成模型的工作將推薦任務翻譯為自然語言任務，然后應用像在上下文中學習，提示調優，和指導調優這樣的技術，來適應LLMs直接生成推薦結果。此外，隨著ChatGPT展示出的令人印象深刻的能力，這類工作近來受到了更多的關注。如圖2所示，根據是否調整參數，這些基于生成型LLM的方法可以進一步劃分為兩種范例：無調優范例和調優范例。以下兩個小節將分別討論它們的細節。代表性的方法和常用的數據集也在表1和表2中列出。

4.1 無調整范式

LLMs在許多未見任務中展示出強大的零/少量樣本學習能力 [Brown et al., 2020; Ouyang et al., 2022]。因此，一些最近的研究假設LLMs已經具有推薦能力，并試圖通過引入特定的提示來觸發這些能力。他們采用了最近的Instruction和In-Context Learning [Brown et al., 2020]實踐，以在不調整模型參數的情況下將LLMs適應推薦任務。根據提示是否包含示例，這個范式中的研究主要屬于以下兩類：提示和上下文學習。

提示范例這類工作旨在設計更適合的指示和提示，幫助LLMs更好地理解和解決推薦任務。Liu等人（2023a）系統地評估了ChatGPT在五個常見推薦任務上的表現，即評分預測，序列推薦，直接推薦，解釋生成和評論摘要。他們提出了一個通用的推薦提示構建框架，包括：（1）任務描述，將推薦任務適應為自然語言處理任務；（2）行為注入，將用戶-項目交互納入，幫助LLMs捕獲用戶的喜好和需求；（3）格式指示器，約束輸出格式，使推薦結果更容易理解和評估。同樣，Dai等人（2023）對ChatGPT在三個常見信息檢索任務（包括點對點，對對，和列表排序）上的推薦能力進行了實證分析。他們為不同類型的任務提出了不同的提示，并在提示的開頭引入了角色指示（例如，你現在是一個新聞推薦系統。）來增強ChatGPT的領域適應能力。除了提出一般框架外，有些工作專注于為特定推薦任務設計有效的提示。Sileo等人（2022）從GPT-2的預訓練語料庫中挖掘出了電影推薦提示。Hou等人（2023）介紹了兩種提升LLMs序列推薦能力的提示方法：以近期為重的序列提示，使LLMs能夠感知到用戶交互歷史中的序列信息，和引導法，將候選項目列表多次洗牌并取平均得分進行排名，以緩解位置偏見問題。由于LLMs允許的輸入token數量有限，很難在提示中輸入一個長的候選列表。為解決這個問題，Sun等人（2023）提出了一種滑動窗口提示策略，每次只在窗口中對候選項進行排序，然后以從后到前的順序滑動窗口，最后重復這個過程多次，以獲得總體排名結果。

除了將LLMs作為推薦系統，一些研究還利用LLMs來構建模型特征。GENRE [Liu等人，2023c]引入了三個提示，使用LLMs進行新聞推薦的三個特征增強子任務。具體來說，它使用ChatGPT根據摘要優化新聞標題，從用戶閱讀歷史中提取關鍵詞，并生成合成新聞以豐富用戶的歷史交互。通過整合LLMs構建的這些特征，傳統的新聞推薦模型可以得到顯著改善。類似地，NIR [Wang和Lim，2023]設計了兩個提示來生成用戶偏好關鍵詞，并從用戶交互歷史中提取代表性電影，以改進電影推薦。

在實踐中，除了排序模型外，整個推薦系統通常由多個重要組件組成，如內容數據庫、候選檢索模型等。因此，另一種利用LLMs進行推薦的方法是將它們作為整個系統的控制器。ChatREC [Gao et al., 2023]圍繞ChatGPT設計了一個交互式推薦框架，該框架通過多輪對話理解用戶需求，并調用現有推薦系統提供結果。此外，ChatGPT可以控制數據庫檢索相關內容以補充提示，并解決冷啟動項目問題。GeneRec [Wang et al., 2023]提出了一種生成性推薦框架，并使用LLMs控制何時推薦現有項目或通過AIGC模型生成新項目。總的來說，這些研究利用自然語言提示激活LLM在推薦任務中的零樣本學習能力，提供了一種低成本且實用的解決方案。

4.2 調整范式

如上所述，LLMs具有強大的zero/few-shot能力，通過適當的提示設計，它們在推薦性能方面可以顯著超越隨機猜測。然而，僅以這種方式構建的推薦系統往往無法超越專門針對特定任務和特定數據訓練的推薦模型的性能。因此，許多研究人員通過進一步的微調或提示學習來增強LLMs的推薦能力。在本文中，我們按照[Wei等，2022]的分類，將調整方法的范式劃分為兩種不同類型，分別是提示調整和指令調整。具體而言，在提示調整范式下，LLMs的參數或軟提示針對特定任務進行微調，例如評分預測；而在指令調整范式下，LLMs通過在不同類型的指令下對多個任務進行微調來獲得更好的性能。然而，目前對于這兩種微調范式還沒有明確的劃分或普遍接受的定義。

5 發現

在本綜述中，我們系統地回顧了大型語言模型在推薦系統中的應用范式和適應策略，特別是針對生成式語言模型。我們已經確定了它們在特定任務中改進傳統推薦模型性能的潛力。然而，需要注意的是，這個領域的整體探索仍處于早期階段。研究人員可能會發現確定最值得研究的問題和痛點是具有挑戰性的。為了解決這個問題，我們總結了許多大規模模型推薦研究中提出的共同發現。這些發現突出了一些技術挑戰，并呈現了進一步發展的潛在機會，包括模型偏見、提示設計和評估。

6 結論

本文回顧了大型語言模型（LLMs）在推薦系統領域的研究。我們將現有的工作分為判別模型和生成模型，并通過領域適應方式對其進行了詳細闡述。為了防止概念混淆，我們對LLM-based推薦中的微調、提示、提示調整和指令調整進行了定義和區分。據我們所知，我們的調查是專門針對生成式LLMs在推薦系統中的首次系統且最新的綜述，進一步總結了許多相關研究中提出的共同發現和挑戰。因此，本調查為研究人員提供了寶貴的資源，幫助他們全面了解LLM推薦，并探索潛在的研究方向。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

大型語言模型 · 自回歸模型 ·

2023 年 7 月 14 日

[付費5元查看完整內容]《大型語言模型》最新全面概述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）展示了出色的泛化能力，這促進了眾多模型的發展。這些模型提出了各種新的架構，微調了現有架構的訓練策略，增加了上下文長度，使用了高質量的訓練數據，并增加了訓練時間，以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類，訓練策略，訓練數據集，性能評估，并討論了未來的研究方向。此外，這篇論文還討論了LLMs背后的基本構建模塊和概念，然后對LLMs的重要特性和功能進行了全面概述。最后，這篇論文總結了LLMs研究的重要發現，并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展，我們打算定期更新這篇論文，通過添加新的部分并展示最新的LLMs模型。

//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652

1. 引言

語言在人類的交流和自我表達中起著基礎性的作用，同樣，通信對于機器與人類和其他系統的互動也極為重要。大型語言模型（LLMs）已經成為處理和生成文本的尖端人工智能系統，旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求，包括翻譯，摘要，信息檢索和對話交互。最近，語言模型方面取得了顯著的突破，主要歸功于深度學習技術，像transformers這樣的神經結構的進步，增加的計算能力，以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變，使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型（LLMs）成為可能[3]，[4]。尤其是預訓練語言模型（PLM），在大規模文本語料庫的自監督設置下訓練，展示了對于文本理解和生成任務的巨大泛化能力[5]，[6]，[7]。當預訓練語言模型（PLMs）微調用于下游任務時，其性能顯著提升，超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs，他們發現，進一步擴大模型和數據集的規模可以提高泛化能力。

如今，現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務，在零樣本和少樣本的情況下，甚至不需要在下游任務上進行任何微調就能做到這一點[8]，[9]，[10]。以前，較小的模型無法達到這樣的泛化，這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮，導致了眾多LLMs的開發[11]，[12]，[13]，[8]，[9]，[10]，[14]。圖1展示的圖表顯示了隨著時間的推移，發布的LLMs數量（包括開源和閉源模型）的增加趨勢。此外，圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型（LLMs）的早期階段，許多研究工作都集中在為下游任務開發轉移學習的模型[11]，[12]，[15]，直到像GPT-3這樣的模型的出現[8]，即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質，人們對開源替代品有需求，這導致了各種模型的開發[9]，[10]，這些模型與GPT-3的規模相當，并在廣泛的基于網絡的數據集上進行訓練[16]，[17]，[18]，[19]。隨后，研究人員提出了幾種架構設計和訓練策略，這些設計和策略在各種任務上顯示出優于GPT-3的性能[15]，[14]，[20]，[21]。

LLMs的性能可以通過指令微調進一步提高，超越了在各種基準測試中預訓練的LLMs的表現[22]，[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法，以指導輸出，從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令，也可以是根據任務需求的示例演示。在文獻中，已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務，進一步提高了對基線的性能[24]，[23]，[25]，[26]。進行指令微調時，需要更新所有的模型參數。然而，參數效率微調采取了不同的方法，只更新少數參數，同時仍然保持良好的性能。這種方法保持原模型不變，而在模型的不同位置添加少量額外的參數[27]，[28]，[29]，[30]，[31]。這種方法有助于實現高效的微調，同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外，還有一篇全面的評論可供參考，涵蓋了架構，微調，新能力，以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而，這些評論論文并未深入探討個別模型的具體細節，只提供了對架構和訓練方法的表面理解。相反，我們的論文旨在通過討論細節，提供更深入的分析單個LLMs。

大型語言模型（LLMs）的架構、訓練數據集以及其他顆粒度方面的細節，特別是從歷史的角度來看，缺乏全面和詳細的討論，這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析，深入探討其開發、架構、訓練數據集和相關組件的細節。

據我們所知，這是第一篇討論LLMs細節的全面調查論文。我們對各種LLMs架構及其分類進行了深入分析。此外，我們還討論了LLMs的基礎知識，以使對LLMs不熟悉的讀者能夠自給自足，從而使論文更具生產力。我們的論文側重于為每一個LLM模型提供全面的細節，并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。我們的目標是在我們的論文中總結這些關鍵細節，以幫助研究人員在他們的工作中確定更好的架構和訓練方法。

我們的論文補充了一篇關于LLMs的最新綜述論文[33]，其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息，但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個，或者更多，類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35]，[36]，[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景，簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準，然后在結論部分給出了總結和未來方向。

付費5元查看完整內容

大模型 · 序列決策 · Transformer · 大序列模型 ·

2023 年 6 月 28 日

[付費5元查看完整內容]大模型如何決策？上交大等最新《面向序列決策的大序列模型》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Transformer架構促進了大規模和通用序列模型的發展，這些模型用于自然語言處理和計算機視覺中的預測任務，例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的，但自然會詢問它們是否適用于順序決策和強化學習問題，這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來，序列模型，特別是Transformer，在強化學習社區引起了越來越多的關注，催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述，介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作，通過討論順序決策與序列建模之間的聯系，并根據它們使用Transformer的方式對其進行分類。此外，本文提出了未來研究的各種潛在途徑，旨在提高大型序列模型在順序決策制定中的有效性，包括理論基礎、網絡架構、算法和高效的訓練系統。

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型，近期在自然語言處理（NLP）[2]和計算機視覺（CV）[3]的預測任務和（自）監督學習[1]中發揮了重要作用，例如ChatGPT [4] 和Swin Transformer [5]。此外，這些模型，特別是Transformer [6]，在過去兩年中在強化學習社區引起了極大的關注，催生了眾多在第5節中概述的方法。另外，大型序列模型在順序決策和強化學習（RL）[7]領域也已經出現，其有效性和泛化性顯著，如Gato [8]和視頻預訓練（VPT）[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性，即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型，這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用（大型）序列模型，主要是Transformer，進行順序決策任務的當前工作，而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查，討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時，我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸，并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分，第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習（DRL）介紹為順序決策任務的經典解決方案，并檢查DRL中三個長期存在的挑戰：樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系，強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作，并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后，第8節總結了本次調研的結論，并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習（RL）的結合，深度強化學習（DRL）受到了廣泛關注，并成為解決順序決策任務的熱門范式[7]。近年來，通過一系列值得注意的成就，例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家，它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是，第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決，然后由序列模型來解決。為了克服這些挑戰，一些研究人員嘗試通過將它們轉化為監督學習問題，特別是序列建模問題，來簡化順序決策任務。模仿學習（IL），如行為克隆（BC）[38]和生成對抗模仿學習（GAIL）[39]，通過專家演示的監督來訓練代理，整合了表示學習和轉移學習的進步，例如BC-Z [40]或多模態交互代理（MIA）[41]。然而，IL的性能嚴重依賴于高質量的專家數據，這些數據的獲取成本很高，并且隨著模型大小的增加，與增加的數據需求相沖突。上下顛倒的強化學習（UDRL）[42]是一種新穎的方法，將傳統的強化學習（RL）轉化為純粹的監督學習范式。與基于價值的RL相比，它在學習過程中顛倒了動作和回報的角色。具體來說，它使用未折扣的期望回報作為網絡輸入，作為指令來指導代理的行為。因此，與傳統的基于價值的RL不同，后者學習一個價值模型來評估每個動作的質量并選擇最優的動作，UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練，UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外，盡管在具有完美馬爾可夫性質的環境中，經典方法仍然更有效，但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明，UDRL的一般原則不僅限于馬爾可夫環境，表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作，決策變換器（Decision Transformer，簡稱DT）[43]將RL問題構建為序列建模問題，這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念，DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中，并推斷出達到期望回報的動作，其中變換器用作策略模型。與DT和UDRL不同，軌跡變換器（Trajectory Transformer，簡稱TT）[44]將轉換序列完全映射到平移的轉換序列中，包括狀態、動作和即時獎勵，其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法，而TT是一種基于模型的方法，但兩種方法都有一個共同的基礎：將每個時間軌跡視為轉換的連續序列，并使用變換器對其進行建模。基于這個基礎，變換器可以用來推斷未來的狀態、動作和獎勵，從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件，例如基于模型方法中的預測動力學模型，演員-評論家（AC）算法[25]中的演員和評論家，以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中，我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案，包括樣本效率、信用分配和部分可觀察性。此外，序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論，大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計，而算法應解決關于數據質量和數量的問題。并且，整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后，這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究，并最終賦予更多實際應用更多的能力，如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容

大模型 · ChatGPT · 自然語言處理 · 領域大模型 ·

2023 年 6 月 8 日

[付費5元查看完整內容]大模型如何領域適配？埃默里大學等首篇《大型語言模型領域專業化》綜述，42頁pdf詳述大模型領域垂直化技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何讓模型適配專業領域？這篇文章夠了

大型語言模型（LLMs）顯著推進了自然語言處理（NLP）領域的發展，為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展，遠超“聊天機器人”，并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而，直接應用LLMs解決特定領域的復雜問題會遇到許多難題，這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性，以及領域應用中的各種限制（例如，各種社會規范、文化一致性、宗教信仰和道德標準）所引起。為了填補這種空白，在最近幾年中，對LLMs領域專化的研究和實踐已經爆炸式增長，然而，這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中，首先，我們提出了一個系統的分類法，該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類，并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法，這些領域可以從專業化的LLMs中受益，討論了它們的實際意義和開放的挑戰。此外，我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理（NLP）和人工智能（AI）模型的演變經歷了顯著的軌跡，始于1950年和1960年的基于規則的系統，轉變為1990年的統計模型，然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功，預訓練語言模型（PLMs）在2010年后期出現并迅速流行，這得益于它們能以無監督的方式從大規模數據中學習通用語言表示，這對許多下游NLP任務如常識推理[270]，多選題回答[206]和故事生成[30]都有益處，同時避免了從頭開始訓練新模型。在過去的幾年中，隨著大規模語料庫和硬件容量的快速增長，研究人員發現，通過擴大模型和訓練數據可以持續提高模型的容量，遵循擴展規則[99]，最終導致了大型語言模型（LLMs）[259]的出現，如GPT-3[28]（175B參數），PaLM[39]（540B參數），和LLaMA[235]（65B參數）。LLMs在理解和生成類人文本方面明顯優于較小的模型，已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋，對改變自然和社會科學的潛力，可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型（LLMs）作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展，遠超過僅作為“聊天機器人”[173]，而是將其用作特定領域如健康保健、金融和教育的助手，甚至替代人工或現有的事實上的工具。然而，直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先，不同領域、角色和任務的對話和語言風格存在顯著差異，范圍從醫療處方，到法律句子，到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練，其中很多都是實踐性的和專有的。此外，不同的領域、機構和團隊有自己的“商業模式”，關于哪種回應將最大化他們自己的效用函數以完成他們的任務，這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是，專業級使用的領域知識要求也需要非常深入，實時且準確，這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力，絕不能泄露給通用的LLMs。最后但并非最不重要的一點，語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束，所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數，這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性，即將通用的LLMs定制到領域的上下文數據，增強領域知識，優化領域目標，并受到領域限制的調控。為了實現這個目標，這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題，需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰，包括：1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而，這也意味著LLMs往往有一個知識斷層（即，LLMs無法獲取最新的信息、事件或發現）。在許多專業領域，新的發現、規定和最佳實踐不斷出現，這使得LLMs難以保持最新。例如，每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查，LLMs可能無法處理它們，因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而，確保模型的新鮮度可能需要大量的資源，因為它需要連續的高質量和最新的數據收集、處理，以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下，LLMs具有廣泛主題的通用知識，并可能已經看到并獲得了大部分領域的特定知識。然而，更受歡迎或廣泛討論的話題可能被過度代表，而一些領域特定的話題可能被低估，這使得它們難以被有效地提取用于領域特定的任務。此外，領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導，LLMs可能會生成聽起來合理但對類似查詢（即，LLM的幻覺）或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列，而不是基于結構化知識庫提供確定的答案。研究人員發現，通過為LLMs提供一些任務特定的演示，用戶可以指導模型生成更相關、準確和任務特定的回應，從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口，通常由它們可以處理的最大令牌長度決定（例如，ChatGPT只能處理4097個令牌）。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用，微調歷史上是專門化語言模型的常用做法。然而，與傳統的語言模型不同，微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外，LLM的復雜性使得確定最適當的微調策略變得具有挑戰性，因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘，因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識，并過度適應目標領域。除了數據需求和復雜模型架構之外，LLM通常由數十億的參數組成，例如，生成預訓練Transformer 3（GPT-3）[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數，這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件，如TPU，這可能會很昂貴，尤其是對于個人研究者或小型組織來說，獲取這些資源可能會非常困難。

在過去的幾年中，對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻，只需進行少量修改并獲取領域特定信息，就可以適應特定領域。然而，將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰，同樣的，缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙，并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙，更有效地利用人工智能完成各種領域的任務，這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括：

? 對LLMs領域專業化技術的系統分類和分類法：我們基于對LLM的不同級別（即，黑箱、灰箱和白箱）的可訪問性，全面地分類了現有的方法，并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結：我們首次提出了代表性應用領域的分類法，LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明，便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域，以評估他們新提出的方法，同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解，以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明，擴展預訓練語言模型，如增加模型大小或數據大小，常常能提升模型在下游任務中的處理能力。在本節中，我們首先回顧了PLMs的基本概念，然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型（LLMs）的可訪問性級別，將專門化LLMs進入領域的方法分為三類，即無訪問權限（黑箱），部分訪問權限（灰箱）和全訪問權限（白箱）。黑箱通常表示我們只能訪問模型API（例如，ChatGPT和GPT4），而不知道除生成的輸出外的任何信息；灰箱表示我們有限的信息（例如，GPT-3 API中生成的令牌的概率），這樣的信息可以指導我們設計并微調適當的提示，以更好地引出領域知識；白箱則表示我們可以全面訪問LLM（例如，LLaMA及其變種），包括參數設置，訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說，

1）外部增強（黑箱）并不需要訪問LLM的內部參數空間，使其對資源有限的用戶（例如，計算資源，特定領域的數據）最為可接觸。如圖2（b）所示，通過使用外部資源或工具，將領域特定知識融入輸入提示，生成的輸出，或兩者，有效地改進了LLM的性能，而無需修改其內部結構。

2）提示制作（灰箱）涉及訪問LLM的梯度或損失值來設計各種類型的提示，允許更精細地控制模型的行為。

3）模型微調（白箱）需要最多的訪問權限和資源，因為它涉及更新LLM的參數，將領域特定知識直接融入模型。（圖2（d））。

3 LLM領域專業化的應用

在這篇綜述性的論文中，我們探索了LLMs在一系列特定領域任務中的應用，這些領域包括社會科學（如教育，金融，法律），自然科學（如生物醫學，地球科學），以及應用科學（如人機交互，軟件工程和網絡安全）。為了在這些多元化領域實現LLMs的領域專業化，讀者可以采用各種技術，如外部增強，指示制作，和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰，從而使得應用更準確，相關和有效。雖然每個領域都有其獨特的挑戰和需求，但在這些領域中，專門化的LLMs有幾個共同的應用：

? 高級信息提取：它們可以從特定領域的文本中識別實體，關系和事件，如從生物醫學文獻中識別基因，或在合同中檢測法律條款。 ? 文本生成和摘要：它們可以生成高質量的，特定領域的內容，并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦：它們可以分析特定領域的數據進行預測和提供推薦，如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統：它們可以被融入到對話代理或專家系統中，提供特定領域的指導，如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析：在軟件工程中，它們可以基于自然語言描述生成或分析代碼，識別錯誤，或提出改進建議。

4. 結論

總的來說，大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然，社會和應用科學領域中的特定領域任務的極大興趣。然而，若干挑戰，如特定領域的專業知識有限，知識誘導和模型復雜性，阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結，并提供了一個全面的應用領域分類，這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點，缺點和關系的詳細分析，這份調查旨在幫助領域專家確定適合他們目標問題設置的技術，同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外，該文還強調了這一領域研究的當前狀態，揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展，這份調查為研究人員和從業人員提供了寶貴的資源，進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

大模型 · ChatGPT · 大型語言模型 ·

2023 年 4 月 27 日

[付費5元查看完整內容]大模型如何用好？亞馬遜最新《大型語言模型(LLMs)實踐：ChatGPT》綜述，全面概述LLM模型、數據、任務的實戰指南

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文為從事大型語言模型（LLMs）的實踐者和終端用戶提供了一份全面且實用的指南，以應用于下游自然語言處理（NLP）任務。我們從模型、數據和下游任務的角度對LLMs的使用進行了討論和分析。首先，我們對當前基于GPT和BERT風格的LLMs進行了介紹和簡要總結。接著，我們討論了預訓練數據、訓練數據和測試數據的影響。最重要的是，我們詳細討論了在各種自然語言處理任務中使用和不使用大型語言模型的情況，如知識密集型任務、傳統自然語言理解任務、自然語言生成任務、新興能力和針對特定任務的考慮因素。我們通過各種使用和不使用的案例來說明LLMs在現實場景中的實際應用和局限性。同時，我們試圖了解數據的重要性及與每個NLP任務相關的特定挑戰。此外，我們還探討了偶然偏差對LLMs的影響，并深入研究了其他關鍵考慮因素，如效率、成本和延遲，以確保全面了解在實踐中部署LLMs。本全面指南旨在為研究人員和實踐者提供有價值的見解和最佳實踐，以便成功地將這些模型應用于廣泛的NLP任務。關于LLMs實用指南資源的策劃清單，定期更新，可以在

//github.com/Mooler0410/LLMsPracticalGuide 找到

1. 引言

近年來，大型語言模型的快速發展正在徹底改變自然語言處理領域[12, 128, 131]。這些強大的模型在處理各種NLP任務方面表現出巨大潛力，從自然語言理解（NLU）到生成任務，甚至為人工通用智能（AGI）鋪平了道路。然而，有效且高效地利用這些模型需要對它們的能力和局限性以及NLP涉及的數據和任務有實際的了解。為了為從業者和終端用戶提供指導，本研究關注于在下游自然語言處理任務中與大型語言模型（LLMs）合作的實際方面。本指南旨在提供實用建議，說明為何在給定任務中選擇或不選擇LLMs，以及如何選擇最合適的LLM，考慮到諸如模型大小、計算需求以及領域特定預訓練模型的可用性等因素。從實際角度深入了解LLMs，因此，為從業者和終端用戶提供了成功利用LLMs處理自己的NLP任務所需的實用知識。

我們的工作結構如下。首先，我們通過討論最重要的模型，如 GPT 風格和 BERT 風格架構，簡要介紹了 LLM（大型語言模型）。接著，我們從數據的角度深入研究影響模型性能的關鍵因素，包括預訓練數據、訓練/調優數據和測試數據。最后且最重要的是，我們深入研究各種具體的 NLP 任務，為 LLM 在知識密集型任務、傳統 NLU 任務和生成任務的適用性提供見解，以及這些模型所具有的新興能力和面臨的現實挑戰。我們提供詳細的示例，突顯 LLM 在實踐中的成功案例和局限性。為了分析大型語言模型的能力，我們將它們與微調模型進行比較。目前，還沒有一個普遍認可的關于 LLM 和微調模型的定義。考慮到實用性，在我們的文章中，對它們的定義如下：LLM 是在大量數據集上進行預訓練，而不針對特定任務調優的龐大的語言模型；微調模型通常是較小的語言模型，它們也經過預訓練，然后在更小的特定任務數據集上進一步調優，以優化其在該任務上的性能。本文總結了使用 LLM 的以下主要實用指南：

自然語言理解。在面對分布之外的數據或非常少的訓練數據時，利用 LLM 的卓越泛化能力。 自然語言生成。利用 LLM 的能力為各種應用創建連貫、與上下文相關且高質量的文本。 知識密集型任務。利用 LLM 存儲的廣泛知識來處理需要特定領域專業知識或普遍世界知識的任務。 推理能力。理解并利用 LLM 的推理能力，以提高在各種情境下的決策和問題解決能力。

2 .模型實用指南

本節簡要介紹了最先進的大型語言模型（LLMs）。這些模型在訓練策略、模型架構和應用場景上有所不同。為了更清晰地了解LLM領域，我們將其分為兩類：編碼器-解碼器或僅編碼器的語言模型和僅解碼器的語言模型。在圖1中，我們展示了語言模型的詳細演變過程。從演化樹中，我們得出以下有趣的觀察：

a) 僅解碼器模型已逐漸主導了大型語言模型（LLMs）的發展。在LLMs發展的早期階段，僅解碼器模型并不像僅編碼器和編碼器-解碼器模型那樣受歡迎。然而，在2021年之后，隨著具有改變游戲規則的大型語言模型（如GPT-3）的引入，僅解碼器模型經歷了顯著的繁榮。同時，在BERT帶來的初步爆炸性增長之后，僅編碼器模型逐漸開始淡出人們的視線。

b) OpenAI始終保持著在LLM領域的領導地位，無論是現在還是可能的未來。其他公司和機構在開發與GPT-3和當前的GPT-4相媲美的模型方面，都在努力迎頭趕上OpenAI。這個領導地位可以歸因于OpenAI對其技術路徑的堅定承諾，即使最初并未得到廣泛認可。c) Meta在開源LLM方面做出了巨大貢獻，并推動了LLM的研究。在考慮到對開源社區的貢獻時，尤其是與LLM相關的貢獻，Meta是最慷慨的商業公司之一，因為Meta開發的所有LLM都是開源的。d) LLM呈現出封閉來源的趨勢。在LLM發展的早期階段（2020年之前），大多數模型都是開源的。然而，隨著GPT-3的推出，越來越多的公司選擇封閉源代碼模型，如PaLM、LaMDA和GPT-4。因此，學術研究人員在LLM訓練方面的實驗變得更加困難。因此，基于API的研究可能成為學術界的主導方法。e) 編碼器-解碼器模型仍具有潛力，因為這種類型的架構仍在積極探索中，而且大多數都是開源的。谷歌為開源編碼器-解碼器架構做出了實質性貢獻。然而，僅解碼器模型的靈活性和通用性似乎使得谷歌對這個方向的堅持變得前景不太明朗。

我們還簡要總結了表1中每種類型的特征和代表性LLM。

2.1 BERT風格語言模型: 編碼器-解碼器或僅編碼器由于自然語言數據很容易獲得，并且已提出了無監督訓練范式，以更好地利用超大型數據集，這激發了自然語言的無監督學習。一種常見的方法是在考慮上下文的同時預測句子中的掩碼詞。這種訓練范式被稱為掩碼語言模型。這種類型的訓練允許模型對單詞和它們所使用的上下文之間的關系有更深的理解。這些模型使用Transformer架構等技術在大量文本語料庫上進行訓練，并在許多NLP任務中取得了最先進的結果，如情感分析和命名實體識別。掩碼語言模型的著名例子包括BERT [28]， RoBERTa[65]和T5[84]。由于在廣泛的任務中取得了成功，MLMs已經成為自然語言處理領域的重要工具。

2.2 GPT風格的語言模型:僅解碼器雖然語言模型在架構中通常與任務無關，但這些方法需要對特定下游任務的數據集進行微調。研究人員發現，擴大語言模型的規模可以顯著提高少樣本甚至零樣本的性能[16]。獲得更好的少樣本和零顯示性能的最成功的模型是自回歸語言模型，它是通過給定前面的單詞在序列中生成下一個單詞來訓練的。這些模型已被廣泛用于文本生成和問答等下游任務。自回歸語言模型的例子包括GPT-3 [16]， OPT [126]， PaLM[22]和BLOOM[92]。改變游戲規則的GPT-3首次通過提示和上下文學習展示了合理的少樣本/零樣本性能，從而顯示了自回歸語言模型的優越性。還有一些模型，如CodeX[2]，針對特定任務(如代碼生成)進行了優化，用于金融領域的BloombergGPT[117]。最近的突破是ChatGPT，它專門針對對話任務改進了GPT-3，為各種現實世界的應用提供了更具交互性、連貫性和上下文感知的對話。

3 數據實用指南

在本節中，我們將討論數據在為下游任務選擇適當模型方面發揮的關鍵作用。數據對模型有效性的影響從預訓練階段開始，一直持續到訓練和推理階段。 (1)在面臨分布外數據的下游任務中，LLM的泛化能力比微調模型更好，如對抗性樣本和域偏移。(2)在處理有限的標注數據時，LLM比微調模型更可取，并且在有大量標注數據時，兩者都可以是合理的選擇，具體取決于特定的任務需求。(3)建議選擇在與下游任務類似的數據字段上預訓練的模型。

4 NLP任務實用指南

在本節中，我們詳細討論LLM在各種下游NLP任務中的用例和非用例以及相應的模型能力。在圖2中，我們將所有討論總結為一個決策流。它可以是面對任務時快速決定的指南。

5 其他注意事項

盡管LLM適用于各種下游任務，但還有一些其他因素需要考慮，如效率和可信性。對效率的討論包括LLM的訓練成本、推理延遲和參數有效的調優策略。對可信性的考察包括魯棒性和校準、公平性和偏差、潛在的虛假相關性以及LLM中的安全挑戰。

6 結論和未來的挑戰

大型語言模型的最新進展正在徹底改變自然語言處理領域。有效地使用LLM需要了解它們的能力和各種NLP任務的限制。本文為在下游NLP任務中使用LLM提供了實用指南。首先討論了一些突出的模型，如GPT風格和BERT風格的架構以及影響它們性能的因素。探討了將LLM用于下游任務，包括知識密集型任務、NLU和NLG任務，并提供了成功和局限性的具體例子。本實用指南提供了對LLM的見解和跨NLP任務利用LLM的最佳實踐。我們希望它能使研究人員和從業人員發揮他們的潛力，推動語言技術的創新。接下來，我們分析了LLM未來面臨的挑戰:

在真實世界的“數據集”上評估所提出的模型。現有的深度學習模型主要在標準的學術數據集上進行評估，如ImageNet，這些數據集是深度學習發展的里程碑。然而，標準學術數據集的局限性并不能準確反映現實世界的性能。隨著模型的發展，至關重要的是要在反映現實世界需求的更多樣化、復雜和現實的數據上評估它們。評估真實世界“數據集”上的模型，除了學術上的，將提供更嚴格的測試它們的能力，以及更好地理解它們在真實世界應用中的有效性。這確保了模型能夠應對現實世界的挑戰并提供實際的解決方案。

模型對齊。確保日益強大和自主的模型與人類的價值觀和優先事項相一致至關重要。必須開發方法來保證這些模型的行為符合預期，并且不會針對不期望的結果進行優化。從模型開發過程的一開始就集成對齊技術至關重要。模型透明度和可解釋性也是評估和確保對齊的重要因素。此外，當我們展望未來時，一個更艱巨的挑戰正在逼近:調整超人系統。雖然這項任務目前超出了我們的需求，但重要的是要考慮和準備調整這些先進系統的潛在影響，因為它們可能提出獨特的復雜性和倫理問題[8,15]。

安全對齊。雖然人工智能存在風險的討論很重要，但需要具體的研究來保證先進人工智能的安全發展。這包括可解釋性、可擴展的監督和管理，以及模型屬性的形式化驗證技術。安全性不僅應該被視為一個附加組件，而且應該被視為模型構建過程中不可分割的一部分。

基于縮放的性能預測。隨著模型大小和復雜性的急劇增加，很難預測模型性能將如何變化。開發方法在擴展后或在開發新架構時更好地預測模型性能，將允許更有效地使用資源和加速進展。一些可能性包括:訓練一個較小的“種子”模型并推斷其增長，模擬規模增加或模型調整的影響，以及在不同規模上對模型迭代進行基準測試以構建縮放規律。這些可以在模型建立之前就了解模型的性能。

付費5元查看完整內容

ChatGPT · 預訓練模型 · BERT · GPT · 大模型 ·

2023 年 2 月 22 日

[付費5元查看完整內容]ChatGPT背后的大模型技術如何煉？MSU等最新《預訓練基礎模型綜述》，97頁pdf全面闡述BERT到ChatGPT歷史脈絡

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型，如BERT、GPT-3、MAE、DALLE-E和ChatGPT，在大規模數據上進行訓練，為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式，預訓練通過凍結和微調技術應用于計算機視覺，顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種，但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同，生成預訓練(GPT)方法應用Transformer作為特征提取器，并以自回歸范式在大型數據集上進行訓練。類似地，BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近，ChatGPT在大型語言模型上顯示出可喜的成功，它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功，人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法，數據集和評估指標，需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs，以及考慮數據質量和數量的統一PFMs。此外，還討論了PFM的相關研究，包括模型效率與壓縮、安全與隱私。最后，總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名，這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中，PFM被廣泛研究。**PFM是強大的通用模型，在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力，如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練，并將其微調到類似的小規模任務方面表現出優越的性能，使啟動快速數據處理成為可能。**PFMs基于預訓練技術，該技術旨在使用大量數據和任務訓練一個通用模型，這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性，人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時，訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識，如長期依賴關系、層次關系等。此外，在NLP領域進行預訓練的顯著優勢在于，訓練數據可以來自任何未標記的文本語料庫，即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術，如NNLM[11]和Word2vec[12]，但靜態方法難以適應不同的語義環境。因此，提出了動態預訓練技術，如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入，各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的，它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18]，這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術，如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24]，向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs，這是一個比較成熟的研究分類。對于文本，它是一個多用途的語言模型，用于預測序列中的下一個單詞或字符。例如，PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像，它類似于文本上的PFMs，使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖，類似的預訓練思想也被應用于獲得pfm，用于許多下游任務。除了特定數據域的PFMs，還回顧和介紹了其他一些先進的PFMs，如語音、視頻和跨領域數據的PFMs，以及多模態PFMs。此外，還出現了一種處理多模態的PFMs大收斂，即所謂的統一PFMs。首先定義了統一PFMs的概念，然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點，我們得出PFMs具有以下兩個主要優勢。**首先，需要輕微的微調來增強模型在下游任務上的性能。第二，PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集，而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作，以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型，如文本生成[6]，視覺transformer[7]，目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而，現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中，我們專門跟蹤了NLP領域的PFMs的演變，以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比，我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同，本文總結了現有的模型，從傳統模型到pfm，以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構，這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究，包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后，總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言，本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中，討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外，還討論了PFMs的前沿問題，包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧，討論了大數據時代超大模型未來研究的主要挑戰和機遇，這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

深度學習 · 元學習 · 推薦系統 · 上海交通大學 · 綜述論文 ·

2022 年 6 月 14 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】推薦系統是現在習以為常的應用，如何融入元學習方法來解決推薦系統的冷啟動或小數據場景是個有趣的問題。上海交大最新《推薦系統中的深度元學習》綜述，有40頁pdf涵蓋135篇文獻，全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示，提出了一種分類方法，為基于元學習的推薦方法提供了設計空間。值得關注！

作為信息過濾技術，基于深度神經網絡的推薦系統近年來取得了很大的成功。然而，由于從頭開始的模型訓練需要足夠的數據，基于深度學習的推薦方法仍然面臨數據不足和計算效率低下的瓶頸。元學習作為一種新興的學習模式，學習如何提高算法的學習效率和泛化能力，在解決數據稀疏問題方面顯示出了其優勢。最近，越來越多的基于深度元學習的推薦系統的研究出現了，以提高在可用數據有限的推薦場景下的性能，例如用戶冷啟動和項目冷啟動。因此，本研究及時全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示，提出了一種分類方法，為基于元學習的推薦方法提供了設計空間。對于每個推薦場景，我們進一步討論了現有方法如何應用元學習來提高推薦模型的泛化能力的技術細節。最后，我們指出了當前研究的局限性，并指出了未來研究的方向。

//www.zhuanzhi.ai/paper/6cff1ae05b9c005089acf0838b5fa0a6

近年來，推薦系統作為緩解信息過載的過濾系統被廣泛應用于電子商務、娛樂服務、新聞等各種網絡應用。推薦系統通過在大量的候選物品中提出個性化的建議，在改善用戶體驗和增加在線平臺吸引力方面取得了巨大的成功。隨著數據驅動的機器學習算法[3,90]，特別是基于深度學習的方法[9,32,121]的發展，該領域的學術和行業研究在準確性、多樣性、可解釋性等方面極大地提高了推薦系統的性能。

由于表達表示學習能力能夠從足夠的數據中發現隱藏的依賴關系，基于深度學習的方法在當代推薦模型中被大量引入[26,121]。通過利用大量具有不同數據結構的訓練實例(例如，交互對[121]、序列[20]和圖形[26])，具有深度神經結構的推薦模型通常被設計用于有效捕獲非線性和非微不足道的用戶/物品關系。然而，傳統的基于深度學習的推薦模型通常是基于預定義的學習算法，用足夠的數據從頭開始訓練。例如，常規監督學習范式通常使用從所有用戶收集的交互來訓練一個統一的推薦模型，并基于學習到的特征表示對未看到的交互進行推薦。這種基于深度學習的方法通常需要大量的數據和計算。換句話說，基于深度學習的推薦系統的性能很大程度上依賴于大量訓練數據的可用性和足夠的計算量。在實際的推薦應用中，數據的收集主要來源于用戶在訪問網絡平臺過程中觀察到的用戶互動。存在可用用戶交互數據稀疏(如冷啟動推薦)和模型訓練計算受限(如在線推薦)的推薦場景。因此，數據不足和計算效率低下的問題成為基于深度學習的推薦模型的瓶頸。

最近，元學習提供了一種很有吸引力的學習范式，它針對數據和計算的不足，著重加強機器學習方法的泛化能力[36,98]。元學習的核心思想是從先前的多任務學習過程中獲得關于高效任務學習的先驗知識(即元知識)。元知識可以促進新任務的快速學習，在看不見的任務上具有良好的泛化性能。在這里，任務通常指屬于同一類或具有相同屬性的一組實例，涉及其上的單個學習過程。與提高深度學習模型的表征學習能力不同，元學習側重于學習更好的學習策略來替代固定的學習算法，被稱為學習到學習的概念。由于元學習技術在對看不見的任務進行快速適應方面具有巨大的潛力，它被廣泛應用于圖像識別[4,130]、圖像分割[60]、自然語言處理[48]、強化學習[75,103]等研究領域。

元學習的好處與推薦模型在實例有限和計算效率低下的情況下的推廣需求是一致的。早期基于元學習的推薦方法主要分為個性化推薦算法選擇[13,78]，提取元數據集的特征，針對不同的數據集(或任務)選擇合適的推薦算法。通過運用提取元知識和生成任務特定模型的思想，這種元學習的定義更接近自動化機器學習的研究[39,115]。**隨后，深度元學習[38]或神經網絡元學習[36]出現，并逐漸成為推薦模型中典型討論的元學習技術的主流[47,69]。如[36,38]所介紹的，深度元學習旨在提取元知識，以實現深度神經網絡的快速學習，這對目前流行的深度學習范式帶來了增強。2017年以來，深度元學習在推薦系統研究界受到關注。**在訓練傳統的深度推薦模型時，首先應用先進的元學習技術來緩解數據不足(即冷啟動問題)。例如，最成功的基于優化的元學習框架MAML，以神經網絡參數初始化的形式學習元知識，首先在冷啟動推薦場景[47]中表現出極大的有效性。此外，在元學習模式下還研究了點擊率預測[69]、在線推薦[123]、順序推薦[125]等多種推薦場景，以提高在數據不足和計算效率低下的情況下的學習能力。

在本文中，我們對快速增長的基于深度元學習的推薦系統的研究進行了及時和全面的綜述。在我們的研究中，雖然已經有一些關于元學習或深度元學習的研究綜述了通用元學習方法及其應用的細節[36,38,98]，但對推薦系統的最新進展仍然缺乏關注。此外，在其他應用領域也有一些關于元學習方法的綜述，如自然語言處理[48,117]，多模態[61]和圖像分割[60]。然而，目前還沒有關于深度元學習在推薦系統中的研究。與他們相比，我們的綜述是填補這一空白的第一次嘗試，系統地回顧了元學習和推薦系統相結合的最新論文。在我們的綜述中，我們的目的是全面回顧基于深度元學習的推薦系統的文獻，這將有助于讀者和研究人員對這一主題的全面理解。為了仔細定位該領域的工作，我們提供了一個從三個角度的分類，包括推薦場景、元學習技術和元知識表示。此外，我們還根據推薦場景討論了相關的方法，并介紹了不同的作品如何利用元學習技術提取特定的元知識，包括參數初始化、參數調制、超參數優化等多種形式。我們希望我們的分類可以為開發新的基于深度元學習的推薦方法提供設計空間。此外，我們還總結了構建元學習任務的常見方法，這是構建元學習范式的必要條件。 本次綜述的結構安排如下。在第2節中，我們介紹了元學習技術的共同基礎和典型的推薦場景，其中元學習方法已被研究，以緩解數據不足和計算效率低下。在第3節中，我們將介紹由三個獨立軸組成的分類法。在第4節中，我們總結了文獻中使用的元學習推薦任務構建的不同方法。然后，我們在第5節詳細闡述了在不同推薦場景下使用元學習技術的現有方法的方法論細節。最后，我們在第6部分討論了該領域未來的研究方向，并在第7部分總結了這一綜述。

基于深度元學習的推薦系統分類

在本節中，我們建立了基于深度元學習的推薦系統的分類，并根據分類總結了現有方法的特點。通常，我們根據三個獨立的軸來定義分類，包括推薦場景、元學習技術和元知識表示。圖1顯示了分類法。之前[38,98]對一般元學習方法的分類更多關注2.1節介紹的三種元學習框架，但對元學習技術的實際應用關注有限。此外，[36]提出了一個新的分類法，涉及元表示、元優化器和元目標三個方面。他們提供了一個更全面的分類，可以引導新的元學習方法的發展。但是，它側重于整個元學習領域，不適合反映基于深度元學習的推薦系統的研究現狀和應用場景。

付費5元查看完整內容

強化學習 · 推薦系統 · 交互推薦 · 策略梯度 ·

2021 年 9 月 23 日

[付費5元查看完整內容]強化學習如何用于推薦？廈大最新《強化學習推薦系統》綜述論文，25頁pdf156篇文獻論述五種典型RL推薦方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

推薦系統已經被廣泛應用于不同的現實生活場景，幫助我們找到有用的信息。近年來，基于強化學習(RL)的推薦系統已經成為一個新興的研究課題。由于其交互性和自主學習能力，它常常超過傳統的推薦模型，甚至是最基于深度學習的方法。然而，在推薦系統中應用RL還面臨著各種挑戰。為此，我們首先對五種典型推薦場景的RL方法進行了全面的概述、比較和總結，以下是三個主要的RL類別: 價值函數、策略搜索和演員-評論員(Actor-Critic)。然后，在現有文獻的基礎上，系統分析了面臨的挑戰和相應的解決方案。最后，通過對RL研究中存在的問題和局限性的討論，指出了該領域潛在的研究方向。

//arxiv.org/abs/2109.10665

引言

個性化推薦系統能夠提供符合用戶喜好的有趣信息，從而有助于緩解信息過載問題。在過去的二十年中，人們對推薦系統進行了廣泛的研究，開發了許多推薦方法。這些方法通常根據用戶的喜好、商品特征和用戶與商品的交互來進行個性化的推薦。一些推薦方法還利用其他附加信息，如用戶之間的社會關系(例如，社會推薦)、時間數據(例如，順序推薦)和位置感知信息(例如，POI(“興趣點”的縮寫)推薦。

推薦技術通常利用各種信息為用戶提供潛在的項目。在現實場景中，推薦系統根據用戶與商品的交互歷史進行商品推薦，然后接收用戶反饋進行進一步推薦。也就是說，推薦系統的目的是通過交互獲取用戶的偏好，并推薦用戶可能感興趣的項目。為此，早期的推薦研究主要集中在開發基于內容和基于協同過濾的方法[2]，[3]。矩陣分解是傳統推薦方法中最具代表性的方法之一。近年來，由于深度學習的快速發展，各種神經推薦方法被開發出來[4]。然而，現有的推薦方法往往忽略了用戶與推薦模型之間的交互。它們不能有效地捕捉到用戶的及時反饋來更新推薦模型，往往導致推薦結果不理想。

一般來說，推薦任務可以建模為這樣一個交互過程——用戶被推薦一個商品，然后為推薦模型提供反饋(例如，跳過、點擊或購買)。在下一次交互中，推薦模型從用戶的顯式/隱式反饋中學習，并向用戶推薦一個新項目。從用戶的角度來看，高效的交互意味著幫助用戶盡快找到準確的商品。從模型的角度看，有必要在推薦的多輪中平衡新穎性、相關性和多樣性。交互式推薦方法已成功應用于現實世界的推薦任務中。然而，該方法經常遇到一些問題，如冷啟動[5]和數據稀疏[6]，以及挑戰，如可解釋性[7]和安全性[8]。

作為一個機器學習領域，強化學習(RL)專注于智能代理如何與環境交互，提供了潛在的解決方案來模擬用戶和代理之間的交互。最近RL的成功推動了人工智能[9]，[10]的研究。特別是，深度強化學習(DRL)[11]具有強大的表示學習和函數逼近特性，可以解決人工智能的挑戰。它已被應用于各個領域，如游戲[12]，機器人[13]，網絡[14]。近年來，應用RL解決推薦問題已成為推薦研究的一個新趨勢。具體來說，RL使推薦代理能夠不斷地與環境(例如，用戶和/或記錄的數據)交互，以學習最佳推薦策略。在實踐中，基于RL的推薦系統已經被應用到許多特定的場景中，如電子商務[18]、電子學習[19]、電影推薦[20]、音樂推薦[21]、新聞推薦[22]、工作技能推薦[23]、醫療保健[24]、能量優化[25]等。

為促進基于RL的推薦系統的研究，本文總結了現有的推薦問題的相關解決方案，系統分析了在推薦方法中應用RL所面臨的挑戰，并探討了未來潛在的研究方向。本文從理論研究的角度，回顧了已有的研究工作，包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。環境建設可以緩解勘探開發的取舍。先驗知識和獎勵定義是進行推薦決策的關鍵。此外，任務結構化可以很好地解決維度的詛咒。從應用的角度，我們還提供了基于RL的推薦系統的全面調研，分別遵循價值函數、策略搜索和演員評論。值得注意[26]的是還提供了對基于RL和drl的推薦算法的回顧，并在推薦列表、架構、可解釋性和評估方面提出了幾個研究方向。[27]主要從基于模型的方法和無模型的算法兩方面對基于drl的推薦系統進行了概述，并重點介紹了基于drl的推薦中一些有待解決的問題和新興的課題。與[26]和[27]不同的是，我們根據其他分類算法(即價值函數、策略搜索和角色-評論)概述了現有的(D)RL推薦方法，并分析了在推薦系統中應用(D)RL的挑戰。

本工作的主要貢獻如下:

我們全面回顧了為五種典型推薦方案開發的RL方法。對于每個推薦場景，我們提供了有代表性的模型的詳細描述，總結了文獻中使用的具體RL算法，并進行了必要的比較。
我們系統地分析了在推薦系統中應用RL所面臨的挑戰，包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。
我們還討論了RL的開放問題，分析了該領域的實際挑戰，并提出了未來可能的研究和應用方向。

本文的其余部分結構如下。第2節介紹了RL的背景，定義了相關的概念，列出了常用的方法。第三節給出了基于rl的推薦方法的標準定義。第4節全面回顧了為推薦系統開發的RL算法。第五部分討論了在推薦系統中應用RL所面臨的挑戰和相應的解決方案。接下來，第6節討論了基于rl的推薦系統的各種限制和潛在的研究方向。最后，第7節總結了本研究。

付費5元查看完整內容

深度強化學習 · 深度學習 · 推薦系統 ·

2021 年 9 月 9 日

[付費5元查看完整內容]強化學習如何用于推薦？新南威爾士首篇《深度強化學習推薦系統》綜述論文，32頁pdf135篇參考文獻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】首篇深度強化學習推薦系統綜述論文，值的關注!

摘要

鑒于深度強化學習(DRL)在推薦系統研究中的出現，以及近年來取得的豐碩成果，本研究旨在對深度強化學習在推薦系統中的最新發展趨勢提供一個及時而全面的概述。我們從在推薦系統中應用DRL的動機開始。然后，我們給出了當前基于DRL的推薦系統的分類，并對現有的方法進行了總結。我們討論新出現的話題和未決的問題，并提供我們推進該領域的觀點。本綜述為來自學術界和工業界的讀者提供了入門材料，并確定了進一步研究的顯著機會。

引言

近年來，推薦技術有了長足的發展，從傳統的協同過濾、基于內容的推薦、矩陣分解等推薦技術[62]，到基于深度學習的推薦技術。特別是深度學習在解決復雜任務和處理復雜數據方面具有很強的優勢，因為深度學習能夠捕捉非線性的用戶-項目關系，能夠處理圖像、文本等各種類型的數據源。因此，它在推薦系統中得到了越來越多的應用。由于分布的變化，基于深度學習的推薦系統在捕獲興趣動態方面存在局限性[17,115]，即訓練階段基于現有的數據集，這可能不能反映真實的用戶喜好，而用戶的喜好變化很快。而深度強化學習(deep reinforcement learning, DRL)的目標是將深度學習和強化學習的力量結合起來，訓練出一種能夠從環境提供的交互軌跡中學習的agent。由于DRL中的agent可以主動從用戶的實時反饋中學習，從而推斷出用戶的動態偏好，因此DRL特別適合于從交互中學習，如人-機器人協作; 它還推動了一系列互動應用的顯著進步，從視頻游戲、Alpha Go到自動駕駛[3]。鑒于DRL對推薦系統的重要性和最近的進展，我們旨在在本次綜述中及時總結和評論基于DRL的推薦系統。

最近的一項基于強化學習的推薦系統[2]綜述了推薦系統中的強化學習，但沒有對日益增長的深度強化學習領域進行復雜的研究。我們綜述重點在于系統全面地概述了基于DRL的推薦系統中的現有方法，并討論了新出現的主題、未決問題和未來的方向。這項綜述介紹了研究人員，實踐者和教育工作者到這個主題，并促進了對該領域的關鍵技術的理解。