大規模模型(LMs)的迅速演進,無論是聚焦于語言還是多模態,已在學術界和工業界引起了廣泛關注。但盡管對這一迅速發展領域的興趣激增,關于它們在不同有影響力場景下的能力和潛力的系統性綜述卻非常稀缺。本文致力于幫助彌合這一差距,提供對當前LM在復雜游戲玩法場景及仍存在挑戰的全面審視。在此,我們尋求系統性地綜述基于LM的智能體(LMAs)的現有架構,總結它們的共性、挑戰以及任何其他見解。此外,我們展示了我們對于推進LM在游戲中發展的有前景的未來研究方向的看法。我們希望幫助研究人員清晰地理解該領域,并在這一高影響力的研究方向上激發更多興趣。相應的資源,將持續更新,可在我們的GitHub倉庫中找到。
//www.zhuanzhi.ai/paper/4c2e685ea8f431dcb1d1b398d5726b04
大規模模型(LMs)的發展,包括語言和多模態模型,在自然語言處理和計算機視覺領域是一個重要的進步。最近在LMs方面的進步導致了在各種應用中的顯著成就,包括文本生成[93]、圖像理解[91]和機器人技術[16]。這些進展促使研究人員探索使用LMs“作為”執行復雜任務的代理,其中許多基于LM的代理(LMAs)在很多情況下展示出與傳統訓練方法相比有趣的泛化能力[61;70]。LMs所展現的能力導致了人們對其在游戲玩法應用中的濃厚興趣。這種興趣在像Minecraft[37]這樣的流行游戲中尤為明顯,其中LMs處理復雜、動態環境的潛力正在被積極探索。在追求人工通用智能(AGI)研究的背景下,數字游戲因其提供需要高級推理和認知能力的復雜挑戰而被認為是重要的,作為評估代理和系統能力的理想基準[79;6]。在游戲環境中的數據獲取過程在成本效益、可控性、安全性和多樣性方面相比真實世界的實驗具有優勢,同時保留了重大挑戰。盡管即便在學術界之外嘗試分析或形式化游戲AI代理及其組件并非最近的現象[42;43;44],但研究LMAs在復雜游戲環境中的表現對于界定它們當前的局限性和評估朝著自主性、泛化能力的進步、指導新架構的設計以及更接近潛在AGI的方向非常關鍵。此外,這篇綜述代表了對游戲玩家代理和大模型的首次全面考察,旨在通過提供對最近將LMAs與游戲玩法應用集成的嘗試(例如,作為主玩家、協助人類玩家、控制NPCs)的概覽,以及對它們進行情境化和對比,并識別剩余的開放挑戰,以催化該領域的后續研究。 人腦功能作為一個復雜的信息處理系統,首先將感官信息轉化為感知表征,然后使用這些表征來構建對世界的了解并做出決策,最后通過行動實施決策[13]。由于這一抽象序列反映了在游戲玩法代理中觀察到的典型迭代周期,即感知(§2)、推理(§3)和行動(§4),我們在這篇綜述中采用了類似的組織結構。圖1展示了核心綜述結構,覆蓋了如何將感官信息轉化為行動的本質,以及LMs在每一步驟中可以扮演的角色。感知涉及將游戲過程中的原始觀察信息轉化為可行的見解,支持后續的交互。最初的研究集中在通過文本理解語義信息[64;83],而更近期的工作集中在整合視覺信息(例如,[91])。推理涵蓋了游戲代理的關鍵能力,包括記憶、學習、推理、反思和決策;通常建立在一個全面的認知框架上。這個框架適應于各種應用背景,這意味著并非每個場景都需要所有個別組件。特別是,記憶是關于有效存儲和檢索學習知識以增強常識和游戲特定見解的[94;24]。學習通常涉及通過經驗和多代理系統中的協作努力獲得技能和策略適應[14]。推理是處理和綜合信息以解決問題的過程[48]。在復雜游戲中的決策要求多跳推理[34]和長期規劃[24],結合序列任務分解和協作決策,以有效應對動態游戲。而反思意味著自我改進的過程,代理基于反饋評估和調整它們的策略[64]。這些組件使得LMs賦能的代理能夠在現代數字游戲的動態和演化環境中有效行動。行動涵蓋了與游戲環境的互動回饋,即代理響應游戲狀態和環境反饋執行的操作。使用生成式編碼執行行為,采用技術如迭代提示[64]、角色特定工程[14]或代碼生成[64;62]。對話互動涵蓋代理-代理和人-代理通信,采用協作框架[12],和對動態互動的對話驅動控制[77]。通過例如使用有向無環圖(DAG)的結構方法來強調代理的行為一致性,用于邏輯行動進程[78],結合反饋機制以適應環境[94],并通過策略如強化學習(RL)來加強一致的行動選擇[84]。這些方法使LMAs不僅能夠處理復雜任務,還能適應行為以保持與游戲目標在動態游戲環境中的一致性和對齊。 盡管如此,在所有階段(以及在其他游戲場景中)仍然存在挑戰。在LMAs中尤其重要的四個挑戰包括:i)解決在批判代理和結構化推理中的幻覺問題[24;78];ii)通過迭代學習或反饋(例如,[32])糾正錯誤;iii)將學習到的知識泛化到未見任務,可能使用零射學習或結構化適應性[64;90];以及iv)可解釋性,這要求透明的決策過程。雖然這些在多樣化的AI系統中得到展示,它們也突顯了LMs針對游戲環境的特定需求的內在限制的影響。 這篇綜述的結構概覽如圖2所示。在§2、§3和§4中,我們回顧現有基于LM的游戲代理如何處理感知、推理和行為。在§5中,我們分析在這三個階段中遇到的共同挑戰。最后,在§6中,我們討論進一步發展通用游戲玩法代理的未來開放研究方向。
**感知 **
從游戲世界中感知原始觀察并提取信息對于后續的反思和行動選擇至關重要。感知的主要功能是將多模態空間轉化為代理的輸入,這包括視覺(§2.2)、語義(§2.1)和音頻。基于文本的游戲主要側重于玩家之間的溝通和互動,通常通過文本或口語來解謎、揭示隱藏信息或識別角色身份,像狼人殺[83;84]和阿瓦隆[66;38;31]這樣的游戲是典型的例子。數字游戲[64;7],通過整合多模態感知渠道,提供了更豐富和更沉浸式的體驗,使玩家能夠更深入地參與到游戲世界中。然而,不幸的是,現有文獻中很少有努力致力于將音頻數據整合到LMs的訓練中或優化游戲代理。這仍然是未來探索的一個話題(§6)。 **推理 **
由于其在支持自主性、反應性、主動性和社交功能[81]方面的潛力,LMs被認為是智能代理認知框架的核心組成部分。 不同的游戲階段呈現出不同的需求。 在游戲的初始階段,代理需要吸收基本的常識和游戲特定的背景知識(通過預訓練或即時感知)。在游戲過程中,代理的角色擴展到綜合過去的游戲事件、管理知識存儲和檢索(§3.1),以及承擔核心認知功能,如信息學習(§3.2)、推理(§3.3)、決策制定(§3.4)和反思(§3.5)。此外,代理不斷更新或改善其知識庫以應對未來的挑戰。 **行動 **
在這一節中,我們將探討LMs如何在游戲環境中展現出類似人類的行動,包括特定行為的執行(§4.1)、與人類或其他代理的交流(§4.2),以及如何確保這些行動的一致性(§4.3)。這些代理利用生成式編程技術、與環境的互動反饋以及與其他代理或人類玩家的復雜對話交換來執行任務和解決游戲中的挑戰。 LMAs在游戲中操作的行動空間可以大致分為三種不同的類型,每種類型都有其獨特的挑戰和交互與控制的機會。這些類別范圍從純粹的語言參與到直接操縱游戲控制,不僅定義了LMAs可用的行動范圍,也塑造了用于導航它們的策略和技術。i) 文本基礎交互。第一個類別包括純粹的語言交互,主要關注玩家之間的語言溝通和互動。這些游戲,如狼人殺(例如,[83])和阿瓦隆(例如,[66]),圍繞對話、決策制定和文本信息的解釋。在這些環境中,LMAs需要理解和生成自然語言,通過文本與玩家和游戲敘事進行交流。這要求對語言細微差別、玩家意圖的深刻理解,以及制定可以影響游戲結果的響應能力。ii) API或預定義行動。第二個類別涉及通過APIs或預定義行動操縱游戲環境,提供了一種更結構化的游戲機制方法。示例包括在Voyager中使用Mineflayer JavaScript API進行動作控制[64],以及GITM選擇通過手寫腳本實現的結構化動作[94]。這種方法需要理解游戲的機制,并能夠策略性地選擇和序列化行動以實現期望的結果,但受益于游戲特定API提供的額外語義和控制。iii) 通過IO操作的直接控制。第三個類別代表了最沉浸式的交互形式:僅通過輸入設備,如鼠標和鍵盤的直接控制。VPT[5]和Cradle[62]使用與用戶相同的IO設備操作,例如,鼠標和鍵盤,其輸入空間在視覺觀察(§2.2)中討論。這種方法最接近模擬人類游戲體驗,LMAs在更高的抽象層級執行行動,導航菜單,和操縱物品,就像人類玩家一樣。這代表了一種更通用的交互形式,需要大量的認知處理和運動技能的整合。這些類別展示了LMAs在游戲中的多功能性和潛力,從文本游戲的純認知和語言挑戰到直接控制的物理和戰術需求。
數據在大型語言模型(LLM)訓練中扮演了基礎性的角色。有效的數據管理,尤其是在構建適合的訓練數據集方面,對于提升模型性能和提高預訓練及監督式微調階段的訓練效率至關重要。盡管數據管理的重要性不言而喻,目前的研究界仍在提供系統性分析管理策略選擇背后的理由、其后果效應、評估策劃數據集的方法論,以及持續改進策略方面存在不足。因此,數據管理的探索在研究界越來越受到關注。本綜述提供了一個關于LLM預訓練和監督式微調階段內數據管理的全面概覽,涵蓋了數據管理策略設計的各個值得注意的方面:數據量、數據質量、領域/任務組成等。展望未來,我們推斷現有挑戰,并勾勒出這一領域發展的有希望的方向。因此,本綜述可作為希望通過有效數據管理實踐構建強大LLM的從業者的指導資源。最新論文的集合可在 //github.com/ZigeW/data_management_LLM 獲取。
大型語言模型(LLM)以其強大的性能和新興能力震驚了自然語言處理(NLP)社區(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。根據之前的研究(Kaplan et al., 2020; Hoffmann et al., 2022),LLM的成就在很大程度上依賴于對大量文本數據進行自監督式預訓練。近期的研究(Zhou et al., 2023a; Ouyang et al., 2022)進一步通過對精心策劃的指令數據集進行監督式微調,增強了LLM的指令遵循能力和下游任務的性能。
我們定義的數據管理——構建適合的訓練數據集,在LLM的預訓練和監督式微調(SFT)階段都至關重要且充滿挑戰。在預訓練階段,構建包含高質量和最有用數據的數據集對于高效訓練是必不可少的(Jain et al., 2020; Gupta et al., 2021)。為了賦予LLM一般性能力,也需要具有多種領域混合的異質數據集組成(Gao et al., 2020; Longpre et al., 2023b; Shen et al., 2023)。然而,許多著名的LLM并沒有透露(Anil et al., 2023; OpenAI, 2023)或僅記錄了預訓練數據構建中選擇的過程(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a),使其背后的理由缺失。在SFT階段,LLM的性能和指令遵循能力在很大程度上由精心設計的指令數據集所喚起(Sanh et al., 2022; Ouyang et al., 2022)。盡管已有一些帶有人類注釋的指令數據集/基準被提出(Wang et al., 2022; K?pf et al., 2023),自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的收集(Si et al., 2023; Anand et al., 2023),從業者仍對指令數據集對微調LLM的性能的影響感到困惑,導致在LLM微調實踐中選擇合適的數據管理策略困難重重。
為了應對這些挑戰,需要對數據管理進行系統性分析,包括管理策略選擇背后的理由及其后果效應、策劃訓練數據集的評估,以及改進策略的追求。因此,本綜述旨在提供當前數據管理研究的全面概覽,如圖1所示。在第2部分,我們關注預訓練數據管理,包括數據量、數據質量、領域組成和數據管理系統的研究。在第3部分,我們討論LLM監督式微調(SFT)階段的數據量、數據質量、任務組成和數據高效學習。在第4部分,展望未來,我們提出了LLM訓練數據管理中現存的挑戰和有希望的未來發展方向。通過本綜述,我們致力于為試圖通過有效和高效的數據管理實踐構建強大LLM的從業者提供指導資源。
大模型預訓練
數據管理在許多著名大型語言模型(LLM)的預訓練中被發現非常重要(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。雖然大多數LLM沒有報告它們的數據管理程序,或者只報告了它們采用的策略,但選擇特定策略的原因和數據管理策略的效果對于構建更強大的LLM至關重要。在這一部分,我們首先回顧研究訓練數據集規模定律的研究,包括有/無數據重復的情況。然后,探討與去重、質量過濾、有害內容過濾、社會偏見以及數據多樣性和時效性相關的數據質量問題。之后,討論領域組成和領域重新加權方法。最后,介紹了兩個最近提出的實施預訓練數據管理流程的數據管理系統。
2.1 數據量
LLM高效預訓練所需的數據量是NLP社區持續研究的話題。提出了規模定律來描述模型大小和訓練數據集大小之間的關系。隨著模型大小的不斷增加,文本數據的耗盡引起了研究人員對LLM預訓練中數據重復的關注。 2.1.1 規模定律 在LLM普及之前,研究者就已經關注訓練數據集大小與具有變壓器架構(Vaswani et al., 2017)的語言模型性能之間的關系。Kaplan et al.(2020)研究了變壓器語言模型在交叉熵損失上的經驗性規模定律,發現模型性能與訓練數據集大小之間存在冪律關系,當不受模型大小和訓練計算預算的限制時。他們還得出結論,只要模型大小和訓練數據集大小同時擴展,模型性能就會可預測地提高,但如果其中一個固定而另一個增加,則會遇到過擬合。他們提出的性能懲罰預測比例顯示,模型大小應該比訓練數據集大小增長得更快。 繼Kaplan et al.(2020)提出的冪律關系后,Hoffmann et al.(2022)對更大的語言模型進行了實驗,得出不同的結論,即模型大小和數據集大小應該以大致相同的速率隨著更多的計算預算而擴展。
2.1.2 數據重復
盡管Kaplan et al.(2020)和Hoffmann et al.(2022)關注的是唯一數據訓練一個時期的規模定律,Hernandez et al.(2022)解決了訓練數據集中文本重疊的問題,并研究了包含少量重復數據的規模定律。他們觀察到強烈的雙下降現象(Nakkiran et al., 2021),其中重復數據導致訓練過程中途測試損失增加,并發現可預測的重復頻率范圍會導致嚴重的性能下降。 隨著模型大小的增長,根據規模定律,需要更多的訓練數據,引起了關于耗盡高質量訓練數據的擔憂(Villalobos et al., 2022; Hoffmann et al., 2022)。克服這一問題的一種直接方法是對數據進行重復訓練。然而,如上所述,數據重復眾所周知會導致性能下降。受到這一矛盾的啟發,幾項工作研究了對數據集進行多個時期的重復預訓練的后果。Muennighoff et al.(2023)發現,在受限的數據和固定的計算預算下,對相同的數據重復訓練多達4個時期與訓練唯一數據相比,對損失的變化微不足道。他們還提出了一個規模定律,考慮到了重復和過多參數的回報遞減。Xue et al.(2023)也觀察到模型性能的多時期退化,并發現數據集大小、模型參數和訓練目標是這一現象的關鍵因素。他們進一步發現,常用的正則化技術在緩解多時期退化方面沒有幫助,除了dropout。質疑以前的發現,Tirumala et al.(2023)展示了對精心選擇的重復數據進行訓練可以勝過對隨機選擇的新數據進行訓練,而對隨機選擇的重復數據進行訓練則不行,這表明了重復使用智能選擇數據的可行方法。
2.2 數據質量
根據以往研究(Jain et al., 2020; Gupta et al., 2021),高質量數據在機器學習任務訓練中至關重要。在LLM的預訓練中,也采用了質量保證技術,通常形成數據管理流程(Rae et al., 2021; Nguyen et al., 2023; Tirumala et al., 2023),包括去重、質量過濾和有毒內容過濾。社會偏見、數據多樣性和數據時效性等方面也是研究社區感興趣的話題。
2.2.1 去重
去重在許多著名LLM的數據管理程序和公開可用數據集的預處理中被廣泛使用(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a; Raffel et al., 2020)。Lee et al.(2021)使用N-gram相似性與MinHash(Broder, 1997)來檢測訓練數據集中的重復,并發現去重有助于減輕記憶效應、避免訓練-測試重疊,并保持模型困惑度的同時提高訓練效率。Kandpal et al.(2022)還表明,去重可以顯著降低針對模型記憶的隱私攻擊的成功率。 在去重實踐中,N-gram-and-hashing是最常用的技術(Lee et al., 2021; Borgeaud et al., 2022; Rae et al., 2021)。Silcock et al.(2022)將其與神經方法進行比較,即對比訓練的雙編碼器和結合雙編碼器和交叉編碼器的“重排”風格方法,得出結論神經方法可以顯著優于傳統的N-gram-and-hashing方法。Abbas et al.(2023)提出SemDeDup來移除位于預訓練模型嵌入空間中靠近的語義重復,并應用聚類來減少搜索計算。同樣,Kaddour(2023)通過過濾掉低質量嵌入集群,構建了Pile(Gao et al., 2020)的子集MiniPile。
2.2.2 質量過濾
質量過濾是構建適合預訓練數據集的另一個關鍵步驟,因為像Common Crawl 1和多語言數據集(Kreutzer et al., 2022)這樣的公共數據集通常包含低質量數據,這會妨礙LLM的訓練。現有工作通常使用分類器(Brown et al., 2020; Gao et al., 2020; Du et al., 2022; Touvron et al., 2023a)、手工制定的啟發式規則(Yang et al., 2019; Raffel et al., 2020; Nijkamp et al., 2022)或使用困惑度等標準進行閾值過濾(Wenzek et al., 2020; Muennighoff et al., 2023)來進行質量過濾。 質量過濾通常被證明有利于提升模型性能(Longpre et al., 2023b),盡管這會減少訓練數據的數量和多樣性。輕量級語言模型phi-1和phi-1.5,擁有13億參數,分別在精心選取的高質量數據和合成數據上訓練,展現了在編碼任務和常識推理上的出色表現。Penedo等人(2023年)構建了RefinedWeb數據集,包括適當過濾和去重的高質量網絡數據,其性能超過了在Pile(Gao et al., 2020)上訓練的模型。與常見結論相反,Gao(2021年)發現,由于過濾目標不夠穩健,對GPT類LLM的大范圍任務進行激進過濾可能導致性能下降。為了解決這個問題,Marion等人(2023年)研究了三種數據質量估計器:困惑度、錯誤L2范數(EL2N)和記憶因子,并通過數據修剪進行測試。令人驚訝的是,他們發現基于困惑度修剪數據集的表現遠遠優于更復雜的技術,如記憶。
2.2.3 有害內容過濾
有害內容指的是粗魯、不尊重或不合理的語言,可能會導致某人離開討論(Gehman et al., 2020; Welbl et al., 2021)。由于原始文本語料庫通常包含有害文本(Luccioni和Viviano,2021;Longpre et al., 2023b),有害內容過濾旨在從預訓練數據集中移除不希望出現的有害文本,進一步防止LLM生成有害話語。與質量過濾類似,啟發式和基于規則的過濾(Lees et al., 2022; Gargee et al., 2022; Friedl, 2023)和N-gram分類器(Raffel et al., 2020)被用作有害內容過濾器。盡管有效地進行模型解毒,Longpre等人(2023b)發現,有害內容過濾減少了生成有害內容的風險,但同時降低了模型的泛化和識別有害內容的能力。此外,Xu等人(2021年)和Welbl等人(2021年)均發現,訓練數據集的解毒處理會導致邊緣化少數群體,如方言和少數族裔身份提及。
2.2.4 社會偏見
除了數據解毒導致的少數群體邊緣化之外,一些工作(Kurita et al., 2019; Nangia et al., 2020; Meade et al., 2022; Feng et al., 2023)發現預訓練的LLM可以捕捉到大量訓練文本中包含的社會偏見。Dodge等人(2021年)評估了C4(Raffel et al., 2020)數據集,建議記錄大型網絡文本語料庫中的社會偏見和代表性傷害,以及被排除的聲音和身份。Gururangan等人(2022年)使用美國高中報紙文章的新數據集,也指出GPT-3使用的質量過濾器傾向于選擇更大學校在更富裕、受過教育和城市郵政編碼地區發布的報紙,從而導致一種語言意識形態。Feng等人(2023年)進行了一項全面的案例研究,重點關注預訓練語料庫中媒體政治偏見對仇恨言論檢測和錯誤信息檢測公平性的影響,以及它如何傳播到語言模型,甚至進一步影響到下游任務。
2.2.5 多樣性和時效性
在LLM預訓練階段的數據管理中,也有研究關注數據的其他方面,例如多樣性和時效性。 例如,Lee等人(2023a)展示了,當用最近提出的Task2Vec多樣性系數(Miranda et al., 2022)來衡量時,公開可用的預訓練數據集在形式上的多樣性很高。他們還證明了該系數與多樣性的直觀特性是一致的,并建議在構建更多樣的數據集時使用它。Maharana等人(2023年)提出了一種新的修剪方法D2修剪,通過將數據集表示為一個帶有難度分數的無向圖,并采用正向和反向信息傳遞策略,來選擇一個包含數據集空間中多樣化和困難區域的核心子集,以平衡數據多樣性和難度選擇。
Longpre等人(2023b)探討了評估數據集的時效性,并得出結論,評估數據與預訓練數據之間的時間偏移會導致性能估計不準確,而且時間不一致無法通過微調來克服,尤其是對于更大的模型。
2.3 領域組成
公開可用的預訓練數據集通常包含從多個來源和領域收集的數據混合體,例如Pile(Gao et al., 2020)包含了來自Common Crawl、維基百科、書籍以及醫學、學術、編程和數學、法律和社會資源的網頁文檔。許多著名模型也是在不同領域的數據混合體上進行訓練的,例如LaMDA(Thoppilan et al., 2022)是在來自公共論壇的對話數據、C4數據、編程相關問答網站和教程的代碼文檔、英文維基百科、英語網頁文檔和非英語網頁文檔上進行訓練的。
研究人員努力探索領域混合對預訓練模型性能的影響。Longpre等人(2023b)將Pile(Gao et al., 2020)數據分為九個領域,并進行了逐個刪減實驗,展示了不同領域的影響。他們得出結論,高質量(如書籍)和高多樣性(如網頁)的領域普遍有幫助,即使它們與下游任務相關性較低,包含盡可能多的數據源也是有益的。SlimPajama-DC(Shen et al., 2023)也得出相同的結論,即合并所有領域通常比有意選擇的組合效果更好,前提是進行了全局去重,以消除不同領域數據集之間的重疊。Longpre等人(2023b)和Shen等人(2023)都認為,特定的混合體可能在針對特定任務的評估基準上表現出色,但與包含多樣化的網絡領域相比,優先級并不總是存在。CodeGen2(Nijkamp et al., 2023)研究了編程語言和自然語言混合體對模型性能的影響,并發現,在相同的計算預算下,使用混合體訓練的模型的性能并不比與領域匹配的模型好,但接近。
還有幾種方法被提出來找到適當的領域組成權重。DSIR(Xie et al., 2023b)將問題形式化為在給定一些未標記目標樣本的情況下,選擇原始未標記數據集的子集以匹配目標分布。具體來說,它利用經典的重要性重采樣方法(Rubin, 1988)并使用n-gram特征和KL降低來估計重要性權重。沒有下游任務的知識,DoReMi(Xie et al., 2023a)使用小型代理模型通過Group Domain Robust Optimization(Group DRO)(Oren et al., 2019; Sagawa* et al., 2020)生成領域權重。它通過增加在評估模型與預訓練參考模型之間具有最大損失差距的領域的權重,提高了所有領域的模型性能。在DoReMi(Xie et al., 2023a)的基礎上改進,Fan等人(2023)提出了DoGE,它對訓練領域進行加權,以最小化所有訓練領域或特定未見領域的平均驗證損失。最終的泛化目標通過基于梯度的泛化估計函數來訪問,該函數測量每個領域對其他領域的貢獻。然后,對其他領域的學習貢獻更大的領域將獲得更大的權重。
2.4 數據管理系統
針對預訓練數據管理的困難,集成數據管理系統對于有不同需求的LLM從業者來說是必要的。Chen等人(2023a)提供了一個數據處理系統Data-Juicer,它具有生成超過50種多功能數據管理操作符和專用工具的多樣化數據配方功能,針對零代碼數據處理、低代碼定制和現成數據處理組件。它還支持在數據配方和LLM的多個開發階段提供及時的反饋循環。Zhou等人(2023c)還提出了一個預訓練數據策劃和評估系統Oasis,其中包含一個交互式模塊化規則過濾模塊、一個去偏神經質量過濾模塊、一個自適應文檔去重模塊和一個全面的數據評估模塊。
監督式微調大型語言模型
基于在預訓練階段學到的通用知識和能力,提出了監督式微調(SFT)來進一步提高LLM的指令遵循能力和與人類期望的一致性(Wei et al., 2021; Sanh et al., 2022; Ouyang et al., 2022)。許多工作已經投入到使用人類注釋(Wang et al., 2022; K?pf et al., 2023)、自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的集合(Si et al., 2023; Anand et al., 2023)來構建指令數據。盡管使用現有指令數據集微調的LLM在各種NLP任務中取得了顯著的性能,但指令數據管理對微調模型性能的影響仍然存在爭議。與之前有關LLM預訓練的討論一致,在本節中,我們總結了LLM SFT的研究探索,涵蓋了數據量、數據質量(包括指令質量)、多樣性、復雜性和提示設計,以及任務組成。此外,還包括了數據高效SFT,討論了從數據角度出發的高效SFT的當前努力。
3.1 數據量 關于指令數據量的增加與微調模型性能之間關系的探索分為兩個方向。一方面的研究專注于縮減指令數據量以提高訓練效率。例如,LIMA(Zhou et al., 2023a)精心策劃了1,000個高質量樣本,并通過實驗驗證了他們的假設,即只需要有限的指令調整數據就足以展示LLM在預訓練期間已經獲得的知識和能力。Chen等人(2023b)觀察到,對于單一任務特定的LLM微調,可能只需要一條指令,而1.9M標記的16K樣本可能就足以訓練專門從事自然語言推理(NLI)任務的模型。另一方面的研究則認為增加指令數據量對于成功至關重要(Wei et al., 2021; Sanh et al., 2022)。
為了解決這一沖突,幾項工作試圖分析不同任務或模型能力的擴展模式。Ji等人(2023)對12個主要的現實世界在線用戶案例進行了實證研究,并展示了增加指令數據量會在提取、分類、封閉式問答和總結等任務中帶來持續改進,而在數學、編碼和思維鏈等任務中幾乎沒有改進。與Ji等人(2023)的觀點不同,Dong等人(2023)發現一般能力可以通過大約1,000個樣本得到增強,并在此后緩慢提升,而數學推理和代碼生成則隨著數據量的增加而持續提升。類似地,Yuan等人(2023)觀察到指令數據量與模型數學推理性能之間存在對數線性關系,但預訓練更強的模型對于更大的微調數據集改進較少。Song等人(2023)進行了涵蓋十種不同能力的實驗,并展示了大多數能力與數據擴展一致。然而,每種能力在指令調整期間的發展速度不同,一些能力甚至顯示出完全不同的模式。
3.2 數據質量
在LLM的監督式微調中,數據質量始終是一個焦點,包括指令質量、多樣性、復雜性和提示設計。這里我們更關注現有指令數據的管理和分析,而不是在之前的綜述中已經討論過的指令生成方法(Zhang et al., 2023b; Wang et al., 2023e)。
3.3 任務組成
由于LLM在處理各種NLP任務方面表現出驚人的新興能力,多任務微調被視為進一步提高LLM在未見任務上泛化性能的有前景的方法。增加SFT中任務數量的好處已經在不同大小的模型上得到了實驗證明,這些模型的參數范圍從3B(Wang et al., 2022),11B(Sanh et al., 2022),137B(Wei et al., 2021)到540B(Chung et al., 2022)。
除了任務數量的擴展外,不同指令基準的混合比例和任務平衡也被發現對于有效的指令微調至關重要(Iyer et al., 2022; Longpre et al., 2023a)。Dong等人(2023)專注于數學推理、代碼生成和一般人類對齊能力之間的任務組合,并發現在低資源混合數據下模型能力有所提升,但在高資源混合數據下相比于單一來源數據有所下降,即在高資源設置下觀察到能力之間的沖突。為了進一步解釋這些沖突,他們改變了一般和專業數據的比例,并得出結論,當SFT任務之間在任務格式和數據分布上存在顯著差異時,數據比例的影響可以忽略,相反,當存在一定程度的相似性時,數據比例會導致性能的明顯變化。
與將多個任務合并在一起不同,一些工作聲稱在單一任務數據上調整的LLM可以勝過在多個任務上調整的LLM(Jang et al., 2023; Chen et al., 2023b)。Jang等人(2023)指出,訓練專家LLM的優先事項可能在于避免負面任務轉移,通過持續學習新任務而不重新訓練來防止災難性遺忘,以及在將各個專家合并在一起時出現的組合能力。Wang等人(2023b)對使用12個指令數據集訓練的模型進行了事實知識、推理、多語言性、編碼和開放式指令遵循能力的分析,并展示了不同的指令數據集可以解鎖或提升特定能力。相比之下,沒有單一的數據集組合可以在所有評估中提供最佳性能。
3.4 數據高效學習
基于對數據量、數據質量和任務組成對模型性能影響的探索,許多工作提出了通過子集選擇或學習策略來更高效地微調LLM,這些策略針對指令數據的不同方面。
結論
本文首次嘗試概述大型語言模型(LLM)訓練中的數據管理。我們分別討論了LLM的預訓練和監督式微調階段,并總結了至今為止在每個階段中關于數據量、數據質量和領域/任務組成的研究努力。同時也討論了預訓練階段的數據管理系統和監督式微調階段的數據高效學習。最后,我們強調了LLM訓練數據管理的幾個挑戰和有希望的未來發展方向。我們希望這篇綜述能為從業者提供有洞察力的指導,并激發在有效和高效數據管理方面的進一步研究,以促進LLM的發展。
人工通用智能(AGI)已經在許多領域引起了革命性的變化,然而,它與圖數據的整合——在我們互聯世界中的一個基石——仍然處于初期階段。本文提出了一個開創性的關于AGI中新興圖提示領域的綜述,解決了在利用圖數據進行AGI應用中的關鍵挑戰和機遇。盡管在自然語言處理和計算機視覺領域的AGI取得了實質性進展,但其在圖數據方面的應用相對較少被探索。這份綜述批判性地評估了AGI在處理圖數據方面的當前格局,突出了特定于圖的跨模態、跨領域和跨任務應用中的獨特挑戰。我們的工作是第一個提出用于理解圖提示學習的統一框架,為圖域中的提示Token、token結構和插入模式提供了清晰的概念。我們深入探討了圖提示的內在屬性,探索了它們的靈活性、表達性以及與現有圖模型的相互作用。一個全面的分類法將該領域的100多項工作進行了分類,將它們與節點級、邊級和圖級目標的預訓練任務對齊。此外,我們還提出了一個Python庫和配套網站ProG,以支持和推進圖提示研究。這項綜述在討論當前挑戰和未來方向上達到高潮,為AGI中圖提示研究提供了一條研究路線圖。通過這一全面分析,我們旨在催化進一步探索和實際應用AGI在圖數據中的潛力,強調其重塑AGI領域及其它領域的潛力。ProG和網站可以分別通過 //github.com/WxxShirley/Awesome-Graph-Prompt 和 訪問。
在以人工通用智能(AGI)的快速發展為標志的時代中,出現了許多利用AGI技術(如自然語言處理中的ChatGPT和計算機視覺中的Midjourney)的神奇應用。AGI極大地改善了我們的生活,使我們的工作更加高效,并使我們從重復性任務中解脫出來,專注于更有創造性的事業。然而,當涉及到圖數據時,與自然語言處理(NLP)[9, 2, 50]和計算機視覺(CV)[91, 114]領域的巨大成功相比,AGI在圖數據上的應用仍處于早期階段。在我們日益互聯的世界中,理解和提取圖數據中的有價值見解至關重要。這使得將AGI應用于圖數據成為學術和工業界關注的前沿領域[48, 120, 108],有可能重新定義諸如藥物設計[68, 64]和電池開發[90]等領域。 然而,實現這一愿景絕非易事。圖1展示了最近在人工通用智能領域的研究格局,我們可以看到至少有三個基本的技術問題:**如何使模型對不同模態、不同領域和不同任務通用?**在NLP和CV領域,已有許多商業模型可以理解和轉換這些模態間的信息[9, 114, 2]。例如,像BERT [9]和GPT3 [2]這樣的模型已經展示了執行涉及文本和視覺信息的任務的能力。然而,在圖數據的背景下,從多個模態中協調信息的工作仍然是一個基本未探索的領域[44]。對于跨領域問題,遷移學習已被證明是有效的,使模型能夠將從一個領域的圖像和文本中學到的知識應用到另一個領域。然而,在不同圖形領域間轉移知識非常困難,因為語義空間不對齊[125],結構模式也不相似[122],使得圖域適應仍然是一個非常前沿且未很好解決的AGI問題。目前,大多數關于圖遷移學習的研究側重于第三個問題,即如何利用同一圖形領域中預訓練的圖知識來執行不同的圖任務(如節點分類、鏈接預測、圖分類等)[78, 52, 80, 12, 124, 31, 74, 17]。然而,與NLP和CV領域的巨大成功相比,同一圖形領域內的任務轉移仍然很原始,成功的工業應用實例遠遠少于。雖然AGI研究在許多線性數據(如圖像、文本[67, 9, 2]和視頻[91, 114])領域取得了顯著成就,但圖數據領域內的基本問題仍然未被深入探索。除了上述三個基礎問題,人工通用智能還遇到了許多社會爭議。例如,訓練大型基礎模型消耗了大量能源,并可能產生意外的逆向結果[51, 71]。這些擔憂導致AI社區越來越一致地認為,需要有效地提取這些大型模型保存的有用知識,最小化在各種下游任務中重復微調的需要[16, 40]。這種共識不僅承諾減輕環境影響,還為AGI時代模型效率和適應性的挑戰提供了實際解決方案。
最近的人工通用智能(AGI)技術核心之一的提示學習已展示出解決上述問題的巨大潛力,并在自然語言處理(NLP)和計算機視覺(CV)應用中取得顯著成功 [65, 86, 50]。提示學習是設計信息豐富的提示以操縱預訓練基礎模型輸入數據的藝術。圖2顯示了一個應用于預訓練語言模型的文本格式提示的示例,用以直接執行下游推理任務。通過將下游任務重構為預訓練任務,這種方法避免了對模型進行廣泛調整的需要,并有效地提取了保存的知識 [2, 35]。由于其在數據操縱、任務重構和提取重要見解方面的強大能力,提示對于解決跨模態、跨領域和跨任務挑戰非常有前景。與大型模型相比,提示通常非常輕量,可以通過減少這些大型模型重復調整所導致的大量計算資源來高效提取有用知識 [40, 73]。直觀地看,文本和圖像可以被視為更一般的圖數據結構的特定實例。例如,一個句子可以被視為一條圖路徑,單詞作為節點,圖像可以被視為網格圖,每個像素作為圖節點。這一洞察鼓勵我們探索將成功的提示技術從文本轉移到圖領域以解決類似問題。 最近,一些研究人員開始將提示學習引入圖數據 [78, 52, 80, 12, 124, 55, 20, 4, 18]。然而,一些進一步的研究發現,圖提示與NLP領域的提示非常不同 [80]。首先,設計圖提示與制定語言提示相比是一項更加復雜的任務。經典的語言提示通常包括預定義的短語或附加到輸入文本的可學習向量 [2, 16]。這里的主要關注點在于語言提示的內容。然而,我們實際上不知道圖提示長什么樣。圖提示不僅包含提示“內容”,還包括如何構建這些提示令牌并將它們無縫集成到原始圖中的未定義任務。其次,與預訓練任務相比,協調下游圖問題更加困難 [52, 80]。例如,語言模型的典型預訓練方法是通過模型預測掩蔽詞 [9]。然后,許多下游任務如問答和情感分類可以輕松重構為單詞級任務 [50]。與NLP不同,在預訓練任務中,圖任務跨越節點級 [19]、邊級 [117] 和圖級目標 [76, 79],使得預訓練預設不太適應。第三,與通常是一些易懂短語的NLP提示相比,圖提示通常對非專家來說不太直觀。圖提示在圖模型中扮演的基本性質和角色仍然有些難以捉摸,沒有全面的理論分析。設計圖提示的質量也缺乏明確的評估標準。此外,我們還有許多不清晰的問題需要進一步了解圖提示。例如,這些圖提示有多有效?它們在參數復雜性和訓練負擔方面的效率如何?這些提示在操縱原始圖數據方面有多強大和靈活?鑒于這些復雜問題,迫切需要深入探索AGI中圖提示的潛力,為這一不斷發展的前沿領域在更廣泛的數據科學領域內提供更深刻的理解。 雖然最近有努力探索圖提示,但仍缺乏一致的框架或明確的路線。這些努力在觀點、方法論和目標任務方面差異顯著,呈現出圖提示的分散格局,給這一研究領域的系統性進展帶來了相當大的障礙。迫切需要提供一個統一框架下的全景視圖、分析和綜合最新進展。鑒于這種情況,我們提供了這項綜述,介紹現有工作如何嘗試通過圖提示解決之前提到的AGI的三個基礎問題。除此之外,我們還希望通過回答以下詳細的研究問題(RQs)推進研究領域:
為回答第一個研究問題(RQ1),我們提出了一個統一框架來分析圖提示學習工作。我們的框架將圖提示的概念轉化為提示令牌、令牌結構和插入模式。這種更高層次的視角提供了清晰度和全面性,為讀者提供了對這一新興領域的結構化理解。據我們所知,我們的綜述是第一個將圖提示的多方面內容匯集到一個統一框架中的工作。 為回答第二個研究問題(RQ2),我們探索了提示與現有圖模型之間的關系,從靈活性和表達性的角度,然后提出了一個新穎而富有洞見的視角來揭示圖提示的本質。與大多數在NLP領域的提示學習綜述[50]不同,后者將提示視為填補預訓練任務和下游任務之間差距的技巧,我們揭示了圖提示和圖模型在更深層次上是相互關聯的。這種新穎的視角為為什么提示學習在圖領域有潛力以及它與傳統微調方法[30]的區別提供了寶貴的見解。據我們所知,這是第一個提供這種關于圖提示的啟發性視角的努力。 為回答第三個研究問題(RQ3),我們引入了一個涵蓋100多項相關工作的綜合分類法。我們的分類法解析了這些工作,根據節點級、邊級和圖級任務對它們進行分類,從而將它們與預訓練任務的更廣泛背景對齊。這將使我們的讀者對整個“預訓練和提示”工作流程中提示的機制有更清晰的理解。 為回答第四個研究問題(RQ4),我們開發了ProG(prompt graph)1,一個支持圖提示的統一Python庫。此外,我們建立了一個網站2,用作最新圖提示研究的存儲庫。該平臺整理了一系列研究論文、基準數據集和容易獲取的代碼實現。通過提供這個易于訪問的生態系統,我們旨在使研究人員和實踐者更有效地推進這一新興領域。 除此之外,我們的綜述還進一步介紹了潛在應用、對當前挑戰的深思熟慮分析以及對未來方向的討論,從而為這一充滿活力和不斷發展的領域的演變提供了全面的路線圖(RQ5)。我們的貢獻總結如下: * 促進全面分析。我們提出了一個統一框架,用于分析圖提示學習工作,提供了關于提示令牌、令牌結構和插入模式的全面視角。 * 提示模型交互的新視角。我們提供了關于圖提示本質的新見解。不同于傳統工作僅將提示視為填補下游任務和預訓練任務之間差距的技巧,我們探索了圖模型的靈活性和表達性問題,并開創了一種更深入的視角來了解提示與現有圖模型之間的交互。 * 圖提示的系統分類法。我們系統地探索了圖提示領域最近的百余項工作。這個分類法不僅組織了這些貢獻,還為讀者提供了對整個“預訓練和提示”工作流程中提示機制的全面理解。 * 賦能圖提示生態系統。我們開發了支持圖提示的ProG Python庫,并建立了一個全面的網站,用于收集最新的圖提示研究。 * 勾勒未來發展路徑。對領域當前挑戰和未來方向的詳細探索。
路線圖。本綜述的其余部分安排如下:第2節介紹我們的綜述方法,第3節介紹初步知識,第4節介紹預訓練方法,第5節介紹圖模型的提示方法。第7節討論圖提示的潛在應用,并在第8節介紹我們開發的ProG庫。第9節總結我們的綜述,討論當前挑戰和未來方向。第10節結束綜述并介紹作者的貢獻聲明。
首篇《面向軟件工程的大型語言模型》綜述,值得關注!
大型語言模型(LLMs)已經對包括軟件工程(SE)在內的眾多領域產生了重大影響。近期的很多出版物都探討了將LLMs應用到各種SE任務和應用程序中。然而,對LLMs在SE上的應用、影響和可能的局限性的全面理解還處于初級階段。 為了彌補這個缺口,我們對LLMs和SE的交叉點進行了系統的文獻回顧,特別關注了如何利用LLMs優化SE的流程和結果。我們共收集并分析了從2017年到2023年的229篇研究論文,以回答四個關鍵的研究問題(RQs)。 在RQ1中,我們分類并提供了不同LLMs的比較分析,這些LLMs已經被用于SE任務中,表征了它們的獨特特性和用途。 在RQ2中,我們分析了數據收集、預處理和應用中使用的方法,強調了健壯、精心策劃的數據集對于成功實施SE中的LLMs的重要性。 RQ3研究了用于優化和評估SE中LLMs性能的策略,以及與提示優化相關的常見技術。 最后,RQ4檢查了迄今為止LLMs已經取得成功的具體SE任務,說明了它們對該領域的實際貢獻。 從這些RQs的答案中,我們討論了當前的最新技術和趨勢,識別了現有研究中的空白,并指出了未來研究的有前景的領域。
1. 概述
在語言處理領域,傳統的語言模型(LMs)歷史上一直是基礎元素,為文本生成和理解奠定了基礎[192]。增加的計算能力、先進的機器學習技術和對大規模數據的訪問,導致了大型語言模型(LLMs)的出現的顯著轉變[323, 338]。配備了廣泛和多樣的訓練數據,這些模型展示了令人印象深刻的模擬人類語言能力的能力,從而引發了多個領域的變革。憑借其從大量語料庫中學習和生成似是而非的文本的能力,LLMs正在模糊人類和機器生成語言之間的界線。它們為研究人員和工程師提供了一個強大的工具,可以探索人類交流的復雜性和豐富性,從而引發了語言處理領域及其之外的變革時期。 軟件工程(SE)- 一個專注于軟件系統的開發、實施和維護的學科 - 是受益于LLM革命的領域之一[177]。將LLMs應用于SE主要源于一種創新的視角,其中許多SE挑戰可以有效地重新構建為數據、代碼或文本分析任務[279]。使用LLMs來解決這些SE任務已經顯示出大量的潛在突破[26, 30, 137, 253, 264, 300, 301, 329]。LLMs的適用性在諸如代碼摘要[274]等任務中尤為明顯,該任務涉及生成代碼功能的抽象自然語言描述,以及生成結構良好的代碼[316]和代碼工件,如注釋[162]。Codex,一個擁有120億參數的LLM,已經展示了解決人類提出的72.31%的復雜Python編程挑戰的能力[36]。來自OpenAI的GPT-4[212]是一個LLM,已經在幾個SE任務中表現出了強大的性能,包括代碼編寫、理解、執行和推理。它不僅處理實際應用程序和多樣化的編碼挑戰,而且還顯示出用自然語言解釋結果和執行偽代碼的能力[24]。 同時,研究人員已經開始了一系列關于LLM相關工作的研究活動,其中產生了一些文獻綜述或調查論文[29, 58, 59, 338]。表1總結了其中的一些。然而,這些相關研究有局限性。它們要么狹窄地關注一個單一的SE范圍,例如LLMs在軟件測試[277]和自然語言到代碼(NL2Code)任務[323]中的應用,要么主要集中在機器學習(ML)或深度學習(DL)模型[279, 309]上,忽視了更先進和最近出現的LLM應用,如ChatGPT[209],這些應用越來越多地在SE領域中找到應用[174, 254, 264, 295]。或者,他們僅通過實證實驗初步探索了LLMs在各種SE任務中的性能,而沒有進行系統的文獻調查[53, 177, 254, 303, 338]。將LLMs集成到SE中無疑是一個復雜的努力,需要考慮的關鍵因素包括選擇正確的模型、理解不同LLMs的獨特特性、設計預訓練和微調策略、處理數據、評估結果和克服實施挑戰[323]。盡管該領域對LLMs的應用興趣濃厚,并且正在進行持續的探索,但目前的文獻中還明顯缺乏對SE中LLMs應用的詳細和系統的審查。這個空白意味著需要理解LLMs和SE之間的關系。為了回應這個問題,我們的研究旨在彌補這個空白,為社區提供寶貴的見解。
本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并本文對LLMs在SE中的利用(LLMs4SE)進行了系統性的文獻綜述。通過繪制當前的最新技術狀態,明確現有LLMs4SE文獻中的關鍵優勢、弱點和差距,并提出未來研究的潛在途徑,我們的綜述旨在為研究人員和實踐者提供一個全面的LLMs4SE收斂指南。我們預計,我們的發現將有助于指導這一快速發展的領域未來的調查和進步。這項工作做出了以下主要貢獻:
我們是第一個提出全面系統性文獻綜述的團隊,基于2017年至2023年間發表的229篇論文,重點關注使用基于LLM的解決方案來解決SE挑戰。我們根據出版趨勢、出版地點分布等對選定的論文進行了詳細分析。
我們對報告的SE任務中使用的LLM進行了分類,并提供了SE領域中不同LLM類別的使用和趨勢的摘要。
我們描述了報告的數據處理階段,包括數據收集、分類、預處理和表示。
我們討論了用于LLMs4SE任務的優化器,包括參數和學習率優化、流行的提示優化技術和常用的評估指標。
我們描述了LLMs4SE的關鍵應用,包括55個具體的SE任務,分為六個核心SE活動-軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。
我們總結了在SE領域使用LLMs遇到的關鍵挑戰,并為LLMs4SE提出了幾個潛在的研究方向。
第2節提出了我們的研究問題(RQs)并詳細闡述了我們的系統性文獻綜述(SLR)方法。接下來的第3~6節致力于分別回答這些RQ。第7節披露了我們研究的局限性。第8節討論了在使用LLM解決SE任務時需要克服的挑戰,并強調了未來研究的有前途的機會和方向。第9節總結了整篇論文。
本系統性文獻綜述(SLR)遵循Kitchenham等人[126, 127]提出的方法,該方法也被大多數其他與SE相關的SLR所使用[148, 172, 230, 279]。遵循Kitchenham等人提供的指南,我們的方法包括三個主要步驟:規劃綜述(即第2.1、2.2節)、進行綜述(即第2.3、2.4節)和分析基本綜述結果(即第2.5節)。 RQ1:到目前為止,哪些LLM被用來解決軟件工程任務?
(1) 在收集的論文中,有50多種不同的LLM用于SE任務,根據不同LLM的底層架構或原理,我們將匯總的LLM分為3類,即僅編碼器、編碼器-解碼器和僅解碼器LLM。(2) 我們分析了LLM用于SE任務的使用趨勢。使用最廣泛的LLM是僅解碼器架構的LLM,有30多種LLM屬于僅解碼器類別,有138篇論文研究了僅解碼器LLM在SE任務中的應用。****
RQ2 在LLMS中,SE相關數據集是如何收集、預處理和使用的?
(1) 我們根據數據來源將數據集分為4類:開源、收集、構建和工業數據集。開源數據集的使用最為普遍,在177篇明確說明數據集的論文中約占63.84%。(2) 我們將所有數據集內的數據類型分為5組:基于代碼、基于文本、基于圖、基于軟件庫和組合。在將LLM應用于SE任務中,基于文本和基于代碼的數據類型使用最為頻繁。這一模式表明,LLM在SE任務中特別擅長處理基于文本和代碼的數據,利用其自然語言處理能力。(3) 我們總結了不同數據類型的數據預處理步驟,發現了幾個常見的預處理步驟,即數據提取、不合格數據刪除、重復實例刪除和數據分割。
RQ3:使用什么技術來優化和評估SE中的LLMS ?
(1)我們分析了LLMs中常用的參數和學習率優化器,發現Fine-tuning和Adam分別是最常用的參數優化和學習率調整技術。(2)我們強調了提示工程技術在改善LLMs執行SE任務時的應用和有效性。通過探索各種類型的提示,包括硬提示和軟提示,這種新興的微調范式在數據稀缺的任務中特別有優勢,提供了與任務相關的知識,提高了LLMs在不同代碼智能任務中的通用性和有效性。(3)我們根據回歸、分類、推薦和生成這四種問題類型總結了最廣泛使用的評估指標。生成任務中出現了13種不同的評估指標,其次是分類任務,有9種指標。
RQ4: 到目前為止,使用LLM解決了哪些特定的SE任務?
(1) 基于軟件開發生命周期,將軟件工程任務分為6個活動:軟件需求、軟件設計、軟件開發、軟件測試、軟件維護和軟件管理。隨后,我們總結了LLMs在這些SE活動中的具體應用。(2) 我們總結了55個SE任務,發現LLMs在軟件開發中應用最廣泛,有115篇論文提到了21個SE任務。軟件管理的應用最少,只有1篇論文提到了該領域。(3) 代碼生成和程序修復是軟件開發和維護活動中使用LLMs最普遍的任務。我們分析了在這些任務中反復驗證的性能最好的LLMs,并總結了新發現。
結論
隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用隨著LLM的出現,自然語言處理領域正在經歷范式轉移。這些模型處理龐大復雜的語言任務的潛力,可能會從根本上重塑自然語言處理實踐的格局。在這篇系統性文獻綜述中,我們深入研究了LLM在自然語言處理中的新興應用,包括自其成立以來發表的論文。我們首先檢查了在自然語言處理任務中使用的各種LLM,并探索了它們的獨特特征和應用(RQ1)。然后,我們深入研究了數據收集、預處理和使用的過程,闡明了健壯和精心策劃的數據集在LLM成功實施中的重要作用(RQ2)。接下來,我們研究了用于優化和評估LLM在自然語言處理任務中性能的各種策略(RQ3)。最后,我們回顧了從LLM中獲得顯著收益的具體自然語言處理任務,揭示了LLM所做出的實際貢獻(RQ4)。此外,我們強調了現有的挑戰,并提供了研究路線圖,概述了有前途的未來方向。
首篇時序預訓練綜述!
時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。
1. 引言
作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。
為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。
最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰。
我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述。
? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。
2. TS-PTMs的概述
在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。
2.1 有監督的PTMs
早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。
通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。
基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。
2.2 無監督預訓練模型
本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。
2.3 自監督預訓練模型
本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。
3. 實驗結果與分析
在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。
6. 結論
在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。
本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在,但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵,例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力,這鼓勵模型在給出最終答案之前生成中間推理步驟。
縮放是一個簡單的想法,具有挑戰性,但可以預見地使模型更好。(“縮放法”)
由于規模的擴大,大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)
巧妙的提示引出了語言模型中的多步驟推理,解鎖了更多的新任務。(“提示工程”)
Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作,在此之前他畢業于達特茅斯學院。//www.jasonwei.net/
賓夕法尼亞州立大學等學者最新《圖反事實學習》綜述,值得關注!
圖結構數據在現實世界中應用廣泛,例如社交網絡、分子圖以及交易網絡等。圖神經網絡(GNNs)在圖表示學習領域取得了顯著成功,為各種下游任務帶來了便捷。然而,GNN存在一些缺陷,如可解釋性不足、容易從訓練數據中繼承偏差,以及無法對因果關系進行建模。最近,圖反事實學習在緩解這些問題方面展現出了很好的效果。已經提出了各種圖反事實學習方法,適用于反事實公平性、可解釋性、鏈接預測等其他圖相關應用。為了推動這一有前景的研究方向,我們對圖反事實學習論文進行了分類和全面回顧。根據研究問題的不同,我們將現有方法分為四類。對于每個類別,我們都提供了背景和激勵示例、概括現有工作的通用框架,并進行了詳細回顧。本文在圖結構數據、反事實學習和現實世界應用的交叉領域指出了有希望的未來研究方向。為了為未來研究提供全面的資源視角,我們整理了一組開源實現、公共數據集和常用評估指標。本綜述旨在作為一個“一站式”資源,幫助讀者建立對圖反事實學習類別和當前資源的統一理解。我們還維護了一個論文和資源倉庫,將持續更新倉庫://github.com/TimeLovercc/Awesome-Graph-Causal-Learning。
1. 引言
圖是一種無處不在的數據結構,也是一種表示對象和復雜交互的通用語言[64]。它們可以對廣泛的現實世界系統進行建模,例如社交網絡[167]、化合物[32]、知識圖譜[226]和推薦系統[193]。例如,在社會網絡中[171],節點表示人,節點之間的邊表示人之間的社會聯系。在分子圖中,節點對應原子,邊表示原子之間的化學鍵,提供了化合物的結構表示,可用于藥物發現或材料設計等任務[130,185]。圖結構數據的普遍存在引起了研究人員對圖分析和挖掘的廣泛關注,各種方法被提出[194]。
網絡表示[60,170]是圖挖掘的一個基本任務,旨在學習節點或圖的低維向量表示,以捕獲節點或圖的內在特征和結構信息。學習到的表示可以促進各種下游任務,如節點分類[88],鏈路預測[220],社區檢測[158]和圖分類[163]。神經網絡在許多領域的表示學習中表現出了強大的能力,如計算機視覺[67]、自然語言處理[44]等。基于神經網絡的方法也激發了圖神經網絡(GNNs)的出現和繁榮[88,110,206]。自圖卷積網絡[88]被提出以來,已有各種各樣的GNN[28, 84, 89]變體。它們極大地推動了圖學習方法的發展,并在許多圖挖掘任務上取得了最先進的性能,例如節點分類[84]、鏈接預測[133]和圖分類[134]。由于圖學習方法的強大功能,它們已被成功應用于許多高風險決策場景,如藥物發現[203]、假新聞檢測[159]和金融分析[190]。
盡管現實世界帶來了巨大的好處,但最近的研究表明,現有的圖學習方法傾向于繼承有偏數據集[36]的偏置模式,缺乏可解釋性[37],無法利用圖數據中存儲的豐富信息[228]。例如,在有偏差的數據集下,GNN很容易學習到不公平的分類器,例如,根據申請人的種族或其他敏感信息給予不同的決定[46,92]。這些問題嚴重阻礙了模型的信任,限制了圖學習方法[40]在現實世界的應用。反事實學習提供了機會來減輕內在偏差[94],使模型可解釋[173],并很好地利用數據中存儲的信息[138]。反事實的概念來自因果推理的研究界[208]。反事實的目的是回答“在已知事實發生的情況下,會發生什么”。利用反事實進行學習并泛化到未見過的環境的能力,被認為是通用人工智能的一個重要組成部分。學習因果關系的主題在許多領域都得到了很好的研究,例如經濟學[73]、教育[42]和醫學[33]。要知道一個行為的因果效果,我們需要知道觀察到的行為的事實結果和未觀察到的行為的反事實結果。一個直接的方法是進行隨機對照試驗以獲得反事實的結果。然而,在現實世界的環境中,我們只能訪問觀察到的事實數據,即觀察到的行動及其相應的事實結果,這是學習因果關系的一個關鍵挑戰[62]。幸運的是,信息技術的發展提供了豐富的數據源,我們可以利用這些數據源來發現數據中隱含的信息[79]。因此,核心問題是如何從觀察數據[59]中獲取反事實,以及如何使用反事實來輔助機器學習模型[79]。
圖反事實學習是一個新興的方向,歷史很短[79]。然而,最近關于圖反事實學習的工作顯示出了巨大的潛力,可以克服上述在公平性[121]、解釋性[25]等方面的挑戰。在圖1中,我們展示了一些圖反事實學習的動機示例。具體來說,有了反事實學習,我們可以超越群體層面的公平定義,實現對每個個人的公平,就像在事實世界和反事實世界中一樣[94],其中個人屬于不同的人口統計群體。如圖1 (a)所示,反事實公平的目標是確保申請人和他的反事實對應對象(性別不同)收到相同的信用卡申請結果。對于圖反事實解釋,除了找到一個與預測高度相關的緊湊的子圖[213]外,它的目的是找到一個合理的變化,以獲得不同的結果[112],這不僅可以用來回答為什么模型會給出這樣的預測,還可以給出建議,以實現另一個期望的結果。如圖1 (b)所示,在信用卡應用場景中[173],當申請人被拒絕時,傳統的解釋可能是他們的“信用評分過低”。相反,反事實解釋可以提供可行的建議,說明客戶可以做出哪些最小的改變(例如,在交易關系中)來改變決策并最終獲得批準。除了在公平性和可解釋性方面的幫助外,研究界還利用反事實學習從反事實世界中提供額外的信息,例如,使用事實鏈接和反事實鏈接來幫助構建更強大的GNN[228]。如圖1 (c)所示,兩個朋友住在同一個小區。通過將它們放在不同的鄰域,GNNs可以推斷它們之間的反事實聯系。這使GNN能夠更深入地了解形成其關系的因果因素,同時減輕鄰域因素的影響。考慮到圖反事實學習的增長趨勢和相關前置任務的多樣性,迫切需要對圖反事實學習的方法和應用進行系統的分類總結。
為填補這一空白,本文對蓬勃發展的圖反事實學習領域進行了第一個全面的最新概述,提供了一些見解和潛在的未來方向,并創建了一個"一步停止",收集了一組開源實現、公共數據集和常用的評估指標。本文的目標讀者是想了解圖反事實學習的一般機器學習研究人員,想了解圖神經網絡最新進展的圖學習研究人員,以及想將圖反事實學習推廣到新應用或其他領域的領域專家。這項調研的核心貢獻是:
第一次調研圖反事實學習。據我們所知,本文調研是第一個回顧圖的反事實學習技術。最相關的調研是關于因果推理[62,208]和因果機器學習[79]。迄今為止,圖領域的因果學習還沒有一個專門的、全面的綜述。
全面的最新綜述。回顧了深度學習、數據挖掘、計算機視覺、自然語言處理和人工智能領域有影響的國際會議和期刊上發表的最新圖反事實學習技術,包括ICLR、NeurIPS、ICML、SIGKDD、WSDM、CIKM、WWW、ICDM、CVPR、NAACL、IJCAI、AAAI等。我們還包括其他領域的論文,如化學科學。
系統的分類和統一的框架。將現有工作系統地分為反事實公平、反事實解釋、反事實鏈接預測和推薦以及應用。對于大多數類別,提供了統一的框架,在數學上形式化每個類別中的圖反事實學習方法。該分類法的概述如圖2所示。
資源的未來方向和“一步停止”。從調研結果中,我們指出了未來有希望的重要方向。還提供了一組開源實現、公共數據集和常用的評估指標,以促進社區的發展。我們維護一個存儲庫,其中包含圖反事實學習的論文,我們將在存儲庫中不斷更新這些論文:
與相關調研文章比較。表1突出了我們的調研與相關調研論文之間的差異。大多數現有調研主要關注一般因果推斷[62,208]、反事實公平性[94]和反事實解釋[173],很少討論圖數據的研究進展。雖然其他圖域調研解決了公平性[40]和可解釋性[40,50],但它們很少從因果或反事實學習的角度總結現有工作[140]。本文的調研首次全面概述了圖反事實學習,提供了因果學習背景,回顧了公平性感知模型、可解釋模型、鏈接預測、推薦系統、現實世界的應用和有前途的研究方向的圖反事實學習技術。因此,我們的調查不同于現有的調查,可以支持這一重要的新興領域的增長。
這個調研的概述如圖2所示。第2節定義了相關的概念,并給出了將在以下各節中使用的表示法。第3節和第4節分別描述了圖數據上反事實公平性和反事實解釋的統一框架。總結了有用的資源,包括評估指標和數據集。第5節回顧了反事實鏈接預測和反事實推薦的分類。第6節調查了圖反事實學習在各個領域的實際應用。第7節指出了尚未解決的挑戰和有希望的未來方向。第8節總結了這個調研。
2 . 圖反事實公平性
在許多現實世界的應用中,由于社會或歷史因素,訓練數據可能包含人口統計學偏差。在此類數據上訓練的機器學習模型可能會繼承這些偏見并產生不公平的預測,如在信用卡決策任務中,模型可能表現出性別或種族偏見[27,121]。有偏見的預測可能會導致系統性歧視并破壞公眾對機器學習模型的信任,這導致了人們對公平性感知的機器學習的興趣越來越大[121]。Dai等人[40]強調,公平性問題在圖中更嚴重,節點特征和圖結構都可能導致偏差。由于許多現實世界的系統依賴于圖神經網絡,不公平的預測可能會產生嚴重的后果。研究人員提出了確保圖學習公平性的方法[3,36,38,47,116]。然而,現有的公平概念主要是基于相關的,可能無法檢測到統計異常,如辛普森悖論[118]。為了解決這個問題,反事實學習已經成為一種很有前途的方法,用于構建公平的機器學習模型,實現反事實的公平性[94,118]。反事實公平是基于這樣一種想法:如果對個人的預測在反事實世界中保持不變,那么對個人的預測就是公平的,因為這個人屬于不同的人口統計群體[94]。圖上的反事實公平性正受到越來越多的關注[3,92,116,224]。在本節中,我們介紹圖學習中的公平性問題和反事實公平性的背景,然后介紹圖反事實公平性模型的一般框架及其細節。最后,用廣泛使用的公平性評估指標和數據庫作了總結。
3. 圖反事實解釋
深度神經網絡(DNN)在各個領域都取得了顯著的成功,如分子生物學[129]、社會網絡[194]和金融系統[25]。然而,DNNs的黑盒特性阻礙了其[15]的廣泛采用。透明和可解釋的模型對于確保開發人員理解模型行為和潛在偏見,并獲得用戶信任至關重要,特別是在高風險的場景中[119]。GNN還面臨可解釋性的挑戰,復雜和離散的圖結構進一步加劇了這些挑戰。因此,提高GNN的可解釋性對于用戶信任和進一步最大化GNN潛力至關重要[40,218,229]。例如,在疾病診斷中,GNNs可能使用患者數據、遺傳學和社會聯系來預測疾病的可能性。清晰的解釋可以增進病人和醫生之間的信任和理解。在藥物發現中,GNN解釋可以幫助發現有效的分子結構[23]。在開發其他DNN模型解釋技術的同時,也開發了GNN的各種可解釋性方法[216]。許多現有工作[114,213,216]旨在識別與預測結果高度相關的子圖。然而,由于圖結構復雜,這樣的方法很可能得到與預測結果高度相關的虛假解釋,而不是導致標簽的關鍵子結構[230]。為了避免虛假解釋,找到對預測有顯著貢獻的因果解釋,研究人員建立了各種模型,以在圖[2,11,113,130,164,169]上獲得反事實解釋。圖反事實解釋不是簡單地找到與預測結果高度相關的子圖,而是旨在識別對輸入圖的必要更改,以改變預測結果,這可以幫助過濾虛假解釋。圖4顯示了突變預測結果的不同解釋[140,169]。在致突變性預測任務中,圖4 (a)中黑色突出顯示的硝基苯結構是致突變性的主要原因,這是最真實的事實解釋。圖4 (b)中紅色突出顯示的邊緣顯示了通過事實解釋方法得到的解釋。解釋模型往往包含一些主要原因之外的不希望的邊緣,以給出更有信心的預測。這是因為,在數據集中,紅色的邊在硝基苯結構之外,與硝基苯結構具有很高的共現性。因此,模型傾向于認為這些邊與突變性高度相關,從而導致潛在的誤導性解釋(虛假信息)。圖4 (c)中的綠色虛線邊作為突變預測的反事實解釋。直覺認為,去除硝基苯結構中的邊可能會導致誘變性的消失。因此,反事實解釋可以幫助識別模型預測的最關鍵邊緣,與基態硝基苯結構保持良好的對齊[140]。總而言之,通過專注于識別對輸入圖的必要更改,從而改變預測結果,反事實解釋方法減輕了虛假解釋的影響,并更好地與基本事實因果因素保持一致。因此,圖上的反事實解釋有望提高GNN[40]的可解釋性和可信性,人們已經做出了許多努力。接下來,首先介紹圖反事實解釋的背景和定義。將現有工作總結為一個圖反事實解釋的一般框架,然后對現有方法進行詳細審查[2,11,24,71,107,113,115,130,131,139,164,169]。最后,回顧了廣泛使用的評價指標和數據集。
5 反事實鏈接預測與推薦
在上述章節中,我們主要關注gnn在節點分類和圖分類中的反事實公平性和反事實解釋。鏈接預測[93]是另一項重要的圖挖掘任務,旨在預測圖中缺失的鏈接。它被廣泛應用于各種應用,如推薦系統[212]、知識圖譜[226]和社交網絡[171]。最近研究了反事實鏈接預測[228],其目的是探索鏈接形成的根本原因,過濾掉虛假因素。推薦系統作為鏈接預測任務的一種特殊情況,也可以從去除虛假信息和依賴因果信息中獲益。因此,反事實學習在鏈接預測任務[228]和推薦系統[29,105,125,182]中受到越來越多的關注。本節將全面回顧現有的基于圖學習的反事實鏈接預測和反事實推薦工作。
知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。
//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5
從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。
知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。
預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:
知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。
對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。
我們的貢獻總結如下:
建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。
概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。
**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。
**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。
**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。
隨著對廣義深度模型的迫切需求,許多預訓練大模型被提出,如BERT、ViT、GPT等。受這些模型在單一領域(如計算機視覺和自然語言處理)成功的啟發,多模態預訓練大模型近年來也引起了越來越多的關注。在這項工作中,我們對這些模型進行了全面的綜述,希望本文能夠提供新的見解,幫助新的研究人員跟蹤最前沿的工作。**具體而言,我們首先通過回顧傳統深度學習、自然語言過程、計算機視覺和語音中的預訓練工作,介紹了多模態預訓練的背景;然后,我們介紹了多模態預訓練模型(MM-PTMs)的任務定義、主要挑戰和優勢,并討論了MM-PTMs,重點是數據、目標、網絡架構和知識增強的預訓練。**在此之后,我們介紹了用于大規模MM-PTMs驗證的下游任務,包括生成、分類和回歸任務。我們還對典型下游任務的模型參數和結果進行了可視化和分析。最后,我們指出了本課題可能的研究方向,對今后的工作有所裨益。此外,我們維護了一個持續更新的大規模預訓練多模態大模型的論文列表://github.com/wangxiao5791509/MultiModal BigModels survey
1. 引言
隨著AlexNet[1]在ImageNet比賽[2]上的識別性能的突破,人工智能有了很大的發展。提出了許多具有代表性的深度神經網絡,如VGG[3]、ResNet[4]、Inception[5]、LSTM[6]等。研究人員通常為他們的任務收集和注釋一些樣本,并基于大規模數據集上預訓練的基座訓練他們的模型(例如用于計算機視覺的ImageNet[2],用于自然語言處理的Glove[7]和Skip-thought vectors[8])。與傳統的手工功能相比,許多任務都可以通過這種端到端方式很好地解決,例如目標檢測、分割和識別。然而,所得到的深度模型泛化能力仍然有限。收集和注釋一個更大的數據集可以在一定程度上解決這些問題,但這個過程是昂貴和乏味的。 為了解決這個問題,Ashish等人提出了Transformer網絡[9],該網絡在機器翻譯任務上取得了新的SOTA(最先進的)性能。之后,在大規模語料上進行自監督預訓練,然后在下游任務上進行微調,吸引了越來越多研究者的關注。許多預訓練的大模型都是遵循這樣的范式提出的,如BERT [10], GPT [11,12], T5 [13], XLNet[14],也引發了CV領域預訓練的新研究熱點。越來越多的大規模NLP和CV模型通過預訓練和微調范式展示了強大的效果,包括ViT[15]和Swin-Transformer[16]。
盡管這一進展為人工智能的發展帶來了新的動力,然而,單模態缺陷所帶來的問題仍然難以解決。研究人員試圖納入更多模態來彌合深度模型的數據差距。許多基于多模態融合的任務也采用傳統的深度學習方式進行探索,如RGB、深度、自然語言、點云、音頻、事件流等。許多大規模預訓練多模態模型[17-23]被提出,這些模型在下游任務上相繼設置新的SOTA,如圖1所示。文中對這些工作進行了全面的綜述,旨在幫助感興趣的研究者快速了解該領域的歷史和最新發展。
綜述組織。文中首先回顧了多模態預訓練技術的研究背景,從傳統的深度學習范式到單模態任務的預訓練,包括自然語言處理、計算機視覺和自動語音處理。然后,在3.1節和3.2節中,重點介紹MM-PTMs,并描述任務定義、關鍵挑戰和好處。在以下子節中還將審查關鍵組件,包括大規模數據、網絡架構、優化目標和知識增強的預訓練。為了驗證預訓練模型的有效性,使用許多下游任務進行定量評估。在第4節中,詳細回顧了這些任務的任務定義和評估指標。在第5節中,我們回顧了用于訓練的模型參數和硬件,并報告了幾個代表性下游任務的實驗結果。最后,在第6節中,總結了本綜述并提出了多個需要研究的研究方向。這個綜述的架構如圖2所示。
與現有評論的區別。雖然已經有兩項針對MM-PTMs的綜述[24,25],但我們的綜述與現有綜述之間的差異可以總結如下: * 范圍:現有的多模態綜述[24,25]只關注視覺-語言,然而,多模態信息問題是一個更廣泛的研究主題。本文比上述綜述更全面,引入了更多的模態,如音頻、視頻、表格等。 * 時效性:本文介紹了針對多模態預訓練提出的最新數據集和算法(從2019年到2022年6月),這是一個很長的綜述,同時,他們的工作屬于短論文。 * 對MM-PTMs的新見解:通過從不同的角度對現有MM-PTMs進行分類和分析,本文可以幫助讀者從詳細和高層次的角度掌握最前沿的方法和技術。此外,提出的MM-PTMs研究方向是經過深思熟慮的,將為后續研究提供新的線索。
2. 多模態預訓練
**任務的定義。**通常,深度神經網絡是在大規模數據集上進行訓練的,例如,廣泛使用的殘差網絡[4]是在ImageNet數據集[2]上使用分類任務進行預訓練的。相比之下,多模態預訓練大型模型通常在大規模訓練數據集上進行訓練。通常,這些數據由于規模太大而無法標注,因此沒有標注標簽。另一方面,參數需要達到一定的規模。如圖4所示,多模態數據、大模型和計算能力是緊密聯系的。總之,多模態預訓練通常是指在計算能力的支持下,對海量多模態數據進行無監督的預訓練,即具有大量參數的多模態模型。
與單模態預訓練大模型相比,MM-PTMs更適合實際應用場景。具體而言,MM-PTMs可以很好地解決多模態協同生成、模態補全、跨域檢索等問題。同時,多模態數據包含更多的信息,可以彌補單一模態的缺陷。因此,MM-PTMs有助于提取多模態的共同特征。最近的許多工作表明,MM-PTMs的使用確實帶來了額外的先驗知識[76-78]。與小規模的多模態模型相比,通過自監督/無監督學習得到的MM-PTMs的泛化能力顯著提高。由于一些先驗知識僅包含在海量的大數據中,而人工選擇的少量標注數據存在偏差,因此小規模模型很難掌握這些知識。
預訓練數據集
如表2所示,針對預訓練任務提出了許多大規模多模態數據集。在本小節中,我們將簡要介紹這些數據集,以幫助讀者快速掌握預訓練所需的數據信息。
預訓練目標
如何設計學習目標是多模態預訓練中非常重要的一步。目前,提出了以下學習目標,包括對比損失、生成損失等。
預訓練架構
在大規模預訓練時代,目前大多數預訓練模型的靈感來自Transformer(主要由自注意力層組成)。它最初是在2017年為自然語言處理任務[9]開發的,它在許多下游任務上大幅提高了新的SOTA性能。此類框架也被引入計算機視覺領域,因此,針對各種任務和輸入設計統一的網絡架構是當前的研究熱點。
多層transformer廣泛應用于目前許多MM-PTMs中。每個模態的輸入首先由獨立的編碼器提取作為特征嵌入,然后與其他模態進行交互。根據多模態信息融合方式的不同,MM-PTMs可分為單模態和跨模態兩類。在本小節中,我們將分別介紹這兩種架構。
目前的大規模預訓練多模態模型大多采用concate、add、Mergeattention、Co-attention和Cross-attention[132]來實現模態之間的交互學習。以下各段將介紹這些模塊。
預訓練知識利用
傳統的預訓練模型邏輯推理能力差,缺乏可解釋性。為了緩解這些問題,在預訓練模型中直接涉及知識,對數據的深入理解,即使用知識進行預訓練,也稱為知識增強預訓練模型(KEPTMs),如圖9所示。
3. 下游任務
在預訓練階段之后,研究人員通常會在許多下游任務中測試他們的模型,以驗證這種強大的能力。具體來說,驗證采用了生成任務、分類任務、回歸任務,下面將討論這些任務。快速學習作為一種新的學習范式,以修改下游任務來適應預先訓練好的大模型為目標,受到越來越多的關注。本部分還對幾種有代表性的提示學習算法進行了綜述。這些下游任務的概述如圖10所示。
摘要
推薦系統已經被廣泛應用于不同的現實生活場景,幫助我們找到有用的信息。近年來,基于強化學習(RL)的推薦系統已經成為一個新興的研究課題。由于其交互性和自主學習能力,它常常超過傳統的推薦模型,甚至是最基于深度學習的方法。然而,在推薦系統中應用RL還面臨著各種挑戰。為此,我們首先對五種典型推薦場景的RL方法進行了全面的概述、比較和總結,以下是三個主要的RL類別: 價值函數、策略搜索和演員-評論員(Actor-Critic)。然后,在現有文獻的基礎上,系統分析了面臨的挑戰和相應的解決方案。最后,通過對RL研究中存在的問題和局限性的討論,指出了該領域潛在的研究方向。
引言
個性化推薦系統能夠提供符合用戶喜好的有趣信息,從而有助于緩解信息過載問題。在過去的二十年中,人們對推薦系統進行了廣泛的研究,開發了許多推薦方法。這些方法通常根據用戶的喜好、商品特征和用戶與商品的交互來進行個性化的推薦。一些推薦方法還利用其他附加信息,如用戶之間的社會關系(例如,社會推薦)、時間數據(例如,順序推薦)和位置感知信息(例如,POI(“興趣點”的縮寫)推薦。
推薦技術通常利用各種信息為用戶提供潛在的項目。在現實場景中,推薦系統根據用戶與商品的交互歷史進行商品推薦,然后接收用戶反饋進行進一步推薦。也就是說,推薦系統的目的是通過交互獲取用戶的偏好,并推薦用戶可能感興趣的項目。為此,早期的推薦研究主要集中在開發基于內容和基于協同過濾的方法[2],[3]。矩陣分解是傳統推薦方法中最具代表性的方法之一。近年來,由于深度學習的快速發展,各種神經推薦方法被開發出來[4]。然而,現有的推薦方法往往忽略了用戶與推薦模型之間的交互。它們不能有效地捕捉到用戶的及時反饋來更新推薦模型,往往導致推薦結果不理想。
一般來說,推薦任務可以建模為這樣一個交互過程——用戶被推薦一個商品,然后為推薦模型提供反饋(例如,跳過、點擊或購買)。在下一次交互中,推薦模型從用戶的顯式/隱式反饋中學習,并向用戶推薦一個新項目。從用戶的角度來看,高效的交互意味著幫助用戶盡快找到準確的商品。從模型的角度看,有必要在推薦的多輪中平衡新穎性、相關性和多樣性。交互式推薦方法已成功應用于現實世界的推薦任務中。然而,該方法經常遇到一些問題,如冷啟動[5]和數據稀疏[6],以及挑戰,如可解釋性[7]和安全性[8]。
作為一個機器學習領域,強化學習(RL)專注于智能代理如何與環境交互,提供了潛在的解決方案來模擬用戶和代理之間的交互。最近RL的成功推動了人工智能[9],[10]的研究。特別是,深度強化學習(DRL)[11]具有強大的表示學習和函數逼近特性,可以解決人工智能的挑戰。它已被應用于各個領域,如游戲[12],機器人[13],網絡[14]。近年來,應用RL解決推薦問題已成為推薦研究的一個新趨勢。具體來說,RL使推薦代理能夠不斷地與環境(例如,用戶和/或記錄的數據)交互,以學習最佳推薦策略。在實踐中,基于RL的推薦系統已經被應用到許多特定的場景中,如電子商務[18]、電子學習[19]、電影推薦[20]、音樂推薦[21]、新聞推薦[22]、工作技能推薦[23]、醫療保健[24]、能量優化[25]等。
為促進基于RL的推薦系統的研究,本文總結了現有的推薦問題的相關解決方案,系統分析了在推薦方法中應用RL所面臨的挑戰,并探討了未來潛在的研究方向。本文從理論研究的角度,回顧了已有的研究工作,包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。環境建設可以緩解勘探開發的取舍。先驗知識和獎勵定義是進行推薦決策的關鍵。此外,任務結構化可以很好地解決維度的詛咒。從應用的角度,我們還提供了基于RL的推薦系統的全面調研,分別遵循價值函數、策略搜索和演員評論。值得注意[26]的是還提供了對基于RL和drl的推薦算法的回顧,并在推薦列表、架構、可解釋性和評估方面提出了幾個研究方向。[27]主要從基于模型的方法和無模型的算法兩方面對基于drl的推薦系統進行了概述,并重點介紹了基于drl的推薦中一些有待解決的問題和新興的課題。與[26]和[27]不同的是,我們根據其他分類算法(即價值函數、策略搜索和角色-評論)概述了現有的(D)RL推薦方法,并分析了在推薦系統中應用(D)RL的挑戰。
本工作的主要貢獻如下:
我們全面回顧了為五種典型推薦方案開發的RL方法。對于每個推薦場景,我們提供了有代表性的模型的詳細描述,總結了文獻中使用的具體RL算法,并進行了必要的比較。
我們系統地分析了在推薦系統中應用RL所面臨的挑戰,包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。
我們還討論了RL的開放問題,分析了該領域的實際挑戰,并提出了未來可能的研究和應用方向。
本文的其余部分結構如下。第2節介紹了RL的背景,定義了相關的概念,列出了常用的方法。第三節給出了基于rl的推薦方法的標準定義。第4節全面回顧了為推薦系統開發的RL算法。第五部分討論了在推薦系統中應用RL所面臨的挑戰和相應的解決方案。接下來,第6節討論了基于rl的推薦系統的各種限制和潛在的研究方向。最后,第7節總結了本研究。