日本一区二区三区不卡网站,久久人人爽人人爽人人片69AV,亚洲热码中文字幕视频

數據在大型語言模型（LLM）訓練中扮演了基礎性的角色。有效的數據管理，尤其是在構建適合的訓練數據集方面，對于提升模型性能和提高預訓練及監督式微調階段的訓練效率至關重要。盡管數據管理的重要性不言而喻，目前的研究界仍在提供系統性分析管理策略選擇背后的理由、其后果效應、評估策劃數據集的方法論，以及持續改進策略方面存在不足。因此，數據管理的探索在研究界越來越受到關注。本綜述提供了一個關于LLM預訓練和監督式微調階段內數據管理的全面概覽，涵蓋了數據管理策略設計的各個值得注意的方面：數據量、數據質量、領域/任務組成等。展望未來，我們推斷現有挑戰，并勾勒出這一領域發展的有希望的方向。因此，本綜述可作為希望通過有效數據管理實踐構建強大LLM的從業者的指導資源。最新論文的集合可在 //github.com/ZigeW/data_management_LLM 獲取。

大型語言模型（LLM）以其強大的性能和新興能力震驚了自然語言處理（NLP）社區（OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022）。根據之前的研究（Kaplan et al., 2020; Hoffmann et al., 2022），LLM的成就在很大程度上依賴于對大量文本數據進行自監督式預訓練。近期的研究（Zhou et al., 2023a; Ouyang et al., 2022）進一步通過對精心策劃的指令數據集進行監督式微調，增強了LLM的指令遵循能力和下游任務的性能。

我們定義的數據管理——構建適合的訓練數據集，在LLM的預訓練和監督式微調（SFT）階段都至關重要且充滿挑戰。在預訓練階段，構建包含高質量和最有用數據的數據集對于高效訓練是必不可少的（Jain et al., 2020; Gupta et al., 2021）。為了賦予LLM一般性能力，也需要具有多種領域混合的異質數據集組成（Gao et al., 2020; Longpre et al., 2023b; Shen et al., 2023）。然而，許多著名的LLM并沒有透露（Anil et al., 2023; OpenAI, 2023）或僅記錄了預訓練數據構建中選擇的過程（Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a），使其背后的理由缺失。在SFT階段，LLM的性能和指令遵循能力在很大程度上由精心設計的指令數據集所喚起（Sanh et al., 2022; Ouyang et al., 2022）。盡管已有一些帶有人類注釋的指令數據集/基準被提出（Wang et al., 2022; K?pf et al., 2023），自我指令（Wang et al., 2023c; Taori et al., 2023）或現有數據集的收集（Si et al., 2023; Anand et al., 2023），從業者仍對指令數據集對微調LLM的性能的影響感到困惑，導致在LLM微調實踐中選擇合適的數據管理策略困難重重。

為了應對這些挑戰，需要對數據管理進行系統性分析，包括管理策略選擇背后的理由及其后果效應、策劃訓練數據集的評估，以及改進策略的追求。因此，本綜述旨在提供當前數據管理研究的全面概覽，如圖1所示。在第2部分，我們關注預訓練數據管理，包括數據量、數據質量、領域組成和數據管理系統的研究。在第3部分，我們討論LLM監督式微調（SFT）階段的數據量、數據質量、任務組成和數據高效學習。在第4部分，展望未來，我們提出了LLM訓練數據管理中現存的挑戰和有希望的未來發展方向。通過本綜述，我們致力于為試圖通過有效和高效的數據管理實踐構建強大LLM的從業者提供指導資源。

大模型預訓練

數據管理在許多著名大型語言模型（LLM）的預訓練中被發現非常重要（OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022）。雖然大多數LLM沒有報告它們的數據管理程序，或者只報告了它們采用的策略，但選擇特定策略的原因和數據管理策略的效果對于構建更強大的LLM至關重要。在這一部分，我們首先回顧研究訓練數據集規模定律的研究，包括有/無數據重復的情況。然后，探討與去重、質量過濾、有害內容過濾、社會偏見以及數據多樣性和時效性相關的數據質量問題。之后，討論領域組成和領域重新加權方法。最后，介紹了兩個最近提出的實施預訓練數據管理流程的數據管理系統。

2.1 數據量

LLM高效預訓練所需的數據量是NLP社區持續研究的話題。提出了規模定律來描述模型大小和訓練數據集大小之間的關系。隨著模型大小的不斷增加，文本數據的耗盡引起了研究人員對LLM預訓練中數據重復的關注。 2.1.1 規模定律在LLM普及之前，研究者就已經關注訓練數據集大小與具有變壓器架構（Vaswani et al., 2017）的語言模型性能之間的關系。Kaplan et al.（2020）研究了變壓器語言模型在交叉熵損失上的經驗性規模定律，發現模型性能與訓練數據集大小之間存在冪律關系，當不受模型大小和訓練計算預算的限制時。他們還得出結論，只要模型大小和訓練數據集大小同時擴展，模型性能就會可預測地提高，但如果其中一個固定而另一個增加，則會遇到過擬合。他們提出的性能懲罰預測比例顯示，模型大小應該比訓練數據集大小增長得更快。繼Kaplan et al.（2020）提出的冪律關系后，Hoffmann et al.（2022）對更大的語言模型進行了實驗，得出不同的結論，即模型大小和數據集大小應該以大致相同的速率隨著更多的計算預算而擴展。

2.1.2 數據重復

盡管Kaplan et al.（2020）和Hoffmann et al.（2022）關注的是唯一數據訓練一個時期的規模定律，Hernandez et al.（2022）解決了訓練數據集中文本重疊的問題，并研究了包含少量重復數據的規模定律。他們觀察到強烈的雙下降現象（Nakkiran et al., 2021），其中重復數據導致訓練過程中途測試損失增加，并發現可預測的重復頻率范圍會導致嚴重的性能下降。隨著模型大小的增長，根據規模定律，需要更多的訓練數據，引起了關于耗盡高質量訓練數據的擔憂（Villalobos et al., 2022; Hoffmann et al., 2022）。克服這一問題的一種直接方法是對數據進行重復訓練。然而，如上所述，數據重復眾所周知會導致性能下降。受到這一矛盾的啟發，幾項工作研究了對數據集進行多個時期的重復預訓練的后果。Muennighoff et al.（2023）發現，在受限的數據和固定的計算預算下，對相同的數據重復訓練多達4個時期與訓練唯一數據相比，對損失的變化微不足道。他們還提出了一個規模定律，考慮到了重復和過多參數的回報遞減。Xue et al.（2023）也觀察到模型性能的多時期退化，并發現數據集大小、模型參數和訓練目標是這一現象的關鍵因素。他們進一步發現，常用的正則化技術在緩解多時期退化方面沒有幫助，除了dropout。質疑以前的發現，Tirumala et al.（2023）展示了對精心選擇的重復數據進行訓練可以勝過對隨機選擇的新數據進行訓練，而對隨機選擇的重復數據進行訓練則不行，這表明了重復使用智能選擇數據的可行方法。

2.2 數據質量

根據以往研究（Jain et al., 2020; Gupta et al., 2021），高質量數據在機器學習任務訓練中至關重要。在LLM的預訓練中，也采用了質量保證技術，通常形成數據管理流程（Rae et al., 2021; Nguyen et al., 2023; Tirumala et al., 2023），包括去重、質量過濾和有毒內容過濾。社會偏見、數據多樣性和數據時效性等方面也是研究社區感興趣的話題。

2.2.1 去重

去重在許多著名LLM的數據管理程序和公開可用數據集的預處理中被廣泛使用（Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a; Raffel et al., 2020）。Lee et al.（2021）使用N-gram相似性與MinHash（Broder, 1997）來檢測訓練數據集中的重復，并發現去重有助于減輕記憶效應、避免訓練-測試重疊，并保持模型困惑度的同時提高訓練效率。Kandpal et al.（2022）還表明，去重可以顯著降低針對模型記憶的隱私攻擊的成功率。在去重實踐中，N-gram-and-hashing是最常用的技術（Lee et al., 2021; Borgeaud et al., 2022; Rae et al., 2021）。Silcock et al.（2022）將其與神經方法進行比較，即對比訓練的雙編碼器和結合雙編碼器和交叉編碼器的“重排”風格方法，得出結論神經方法可以顯著優于傳統的N-gram-and-hashing方法。Abbas et al.（2023）提出SemDeDup來移除位于預訓練模型嵌入空間中靠近的語義重復，并應用聚類來減少搜索計算。同樣，Kaddour（2023）通過過濾掉低質量嵌入集群，構建了Pile（Gao et al., 2020）的子集MiniPile。

2.2.2 質量過濾

質量過濾是構建適合預訓練數據集的另一個關鍵步驟，因為像Common Crawl 1和多語言數據集（Kreutzer et al., 2022）這樣的公共數據集通常包含低質量數據，這會妨礙LLM的訓練。現有工作通常使用分類器（Brown et al., 2020; Gao et al., 2020; Du et al., 2022; Touvron et al., 2023a）、手工制定的啟發式規則（Yang et al., 2019; Raffel et al., 2020; Nijkamp et al., 2022）或使用困惑度等標準進行閾值過濾（Wenzek et al., 2020; Muennighoff et al., 2023）來進行質量過濾。質量過濾通常被證明有利于提升模型性能（Longpre et al., 2023b），盡管這會減少訓練數據的數量和多樣性。輕量級語言模型phi-1和phi-1.5，擁有13億參數，分別在精心選取的高質量數據和合成數據上訓練，展現了在編碼任務和常識推理上的出色表現。Penedo等人（2023年）構建了RefinedWeb數據集，包括適當過濾和去重的高質量網絡數據，其性能超過了在Pile（Gao et al., 2020）上訓練的模型。與常見結論相反，Gao（2021年）發現，由于過濾目標不夠穩健，對GPT類LLM的大范圍任務進行激進過濾可能導致性能下降。為了解決這個問題，Marion等人（2023年）研究了三種數據質量估計器：困惑度、錯誤L2范數（EL2N）和記憶因子，并通過數據修剪進行測試。令人驚訝的是，他們發現基于困惑度修剪數據集的表現遠遠優于更復雜的技術，如記憶。

2.2.3 有害內容過濾

有害內容指的是粗魯、不尊重或不合理的語言，可能會導致某人離開討論（Gehman et al., 2020; Welbl et al., 2021）。由于原始文本語料庫通常包含有害文本（Luccioni和Viviano，2021；Longpre et al., 2023b），有害內容過濾旨在從預訓練數據集中移除不希望出現的有害文本，進一步防止LLM生成有害話語。與質量過濾類似，啟發式和基于規則的過濾（Lees et al., 2022; Gargee et al., 2022; Friedl, 2023）和N-gram分類器（Raffel et al., 2020）被用作有害內容過濾器。盡管有效地進行模型解毒，Longpre等人（2023b）發現，有害內容過濾減少了生成有害內容的風險，但同時降低了模型的泛化和識別有害內容的能力。此外，Xu等人（2021年）和Welbl等人（2021年）均發現，訓練數據集的解毒處理會導致邊緣化少數群體，如方言和少數族裔身份提及。

2.2.4 社會偏見

除了數據解毒導致的少數群體邊緣化之外，一些工作（Kurita et al., 2019; Nangia et al., 2020; Meade et al., 2022; Feng et al., 2023）發現預訓練的LLM可以捕捉到大量訓練文本中包含的社會偏見。Dodge等人（2021年）評估了C4（Raffel et al., 2020）數據集，建議記錄大型網絡文本語料庫中的社會偏見和代表性傷害，以及被排除的聲音和身份。Gururangan等人（2022年）使用美國高中報紙文章的新數據集，也指出GPT-3使用的質量過濾器傾向于選擇更大學校在更富裕、受過教育和城市郵政編碼地區發布的報紙，從而導致一種語言意識形態。Feng等人（2023年）進行了一項全面的案例研究，重點關注預訓練語料庫中媒體政治偏見對仇恨言論檢測和錯誤信息檢測公平性的影響，以及它如何傳播到語言模型，甚至進一步影響到下游任務。

2.2.5 多樣性和時效性

在LLM預訓練階段的數據管理中，也有研究關注數據的其他方面，例如多樣性和時效性。例如，Lee等人（2023a）展示了，當用最近提出的Task2Vec多樣性系數（Miranda et al., 2022）來衡量時，公開可用的預訓練數據集在形式上的多樣性很高。他們還證明了該系數與多樣性的直觀特性是一致的，并建議在構建更多樣的數據集時使用它。Maharana等人（2023年）提出了一種新的修剪方法D2修剪，通過將數據集表示為一個帶有難度分數的無向圖，并采用正向和反向信息傳遞策略，來選擇一個包含數據集空間中多樣化和困難區域的核心子集，以平衡數據多樣性和難度選擇。

Longpre等人（2023b）探討了評估數據集的時效性，并得出結論，評估數據與預訓練數據之間的時間偏移會導致性能估計不準確，而且時間不一致無法通過微調來克服，尤其是對于更大的模型。

2.3 領域組成

公開可用的預訓練數據集通常包含從多個來源和領域收集的數據混合體，例如Pile（Gao et al., 2020）包含了來自Common Crawl、維基百科、書籍以及醫學、學術、編程和數學、法律和社會資源的網頁文檔。許多著名模型也是在不同領域的數據混合體上進行訓練的，例如LaMDA（Thoppilan et al., 2022）是在來自公共論壇的對話數據、C4數據、編程相關問答網站和教程的代碼文檔、英文維基百科、英語網頁文檔和非英語網頁文檔上進行訓練的。

研究人員努力探索領域混合對預訓練模型性能的影響。Longpre等人（2023b）將Pile（Gao et al., 2020）數據分為九個領域，并進行了逐個刪減實驗，展示了不同領域的影響。他們得出結論，高質量（如書籍）和高多樣性（如網頁）的領域普遍有幫助，即使它們與下游任務相關性較低，包含盡可能多的數據源也是有益的。SlimPajama-DC（Shen et al., 2023）也得出相同的結論，即合并所有領域通常比有意選擇的組合效果更好，前提是進行了全局去重，以消除不同領域數據集之間的重疊。Longpre等人（2023b）和Shen等人（2023）都認為，特定的混合體可能在針對特定任務的評估基準上表現出色，但與包含多樣化的網絡領域相比，優先級并不總是存在。CodeGen2（Nijkamp et al., 2023）研究了編程語言和自然語言混合體對模型性能的影響，并發現，在相同的計算預算下，使用混合體訓練的模型的性能并不比與領域匹配的模型好，但接近。

還有幾種方法被提出來找到適當的領域組成權重。DSIR（Xie et al., 2023b）將問題形式化為在給定一些未標記目標樣本的情況下，選擇原始未標記數據集的子集以匹配目標分布。具體來說，它利用經典的重要性重采樣方法（Rubin, 1988）并使用n-gram特征和KL降低來估計重要性權重。沒有下游任務的知識，DoReMi（Xie et al., 2023a）使用小型代理模型通過Group Domain Robust Optimization（Group DRO）（Oren et al., 2019; Sagawa* et al., 2020）生成領域權重。它通過增加在評估模型與預訓練參考模型之間具有最大損失差距的領域的權重，提高了所有領域的模型性能。在DoReMi（Xie et al., 2023a）的基礎上改進，Fan等人（2023）提出了DoGE，它對訓練領域進行加權，以最小化所有訓練領域或特定未見領域的平均驗證損失。最終的泛化目標通過基于梯度的泛化估計函數來訪問，該函數測量每個領域對其他領域的貢獻。然后，對其他領域的學習貢獻更大的領域將獲得更大的權重。

2.4 數據管理系統

針對預訓練數據管理的困難，集成數據管理系統對于有不同需求的LLM從業者來說是必要的。Chen等人（2023a）提供了一個數據處理系統Data-Juicer，它具有生成超過50種多功能數據管理操作符和專用工具的多樣化數據配方功能，針對零代碼數據處理、低代碼定制和現成數據處理組件。它還支持在數據配方和LLM的多個開發階段提供及時的反饋循環。Zhou等人（2023c）還提出了一個預訓練數據策劃和評估系統Oasis，其中包含一個交互式模塊化規則過濾模塊、一個去偏神經質量過濾模塊、一個自適應文檔去重模塊和一個全面的數據評估模塊。

監督式微調大型語言模型

基于在預訓練階段學到的通用知識和能力，提出了監督式微調（SFT）來進一步提高LLM的指令遵循能力和與人類期望的一致性（Wei et al., 2021; Sanh et al., 2022; Ouyang et al., 2022）。許多工作已經投入到使用人類注釋（Wang et al., 2022; K?pf et al., 2023）、自我指令（Wang et al., 2023c; Taori et al., 2023）或現有數據集的集合（Si et al., 2023; Anand et al., 2023）來構建指令數據。盡管使用現有指令數據集微調的LLM在各種NLP任務中取得了顯著的性能，但指令數據管理對微調模型性能的影響仍然存在爭議。與之前有關LLM預訓練的討論一致，在本節中，我們總結了LLM SFT的研究探索，涵蓋了數據量、數據質量（包括指令質量）、多樣性、復雜性和提示設計，以及任務組成。此外，還包括了數據高效SFT，討論了從數據角度出發的高效SFT的當前努力。

3.1 數據量 關于指令數據量的增加與微調模型性能之間關系的探索分為兩個方向。一方面的研究專注于縮減指令數據量以提高訓練效率。例如，LIMA（Zhou et al., 2023a）精心策劃了1,000個高質量樣本，并通過實驗驗證了他們的假設，即只需要有限的指令調整數據就足以展示LLM在預訓練期間已經獲得的知識和能力。Chen等人（2023b）觀察到，對于單一任務特定的LLM微調，可能只需要一條指令，而1.9M標記的16K樣本可能就足以訓練專門從事自然語言推理（NLI）任務的模型。另一方面的研究則認為增加指令數據量對于成功至關重要（Wei et al., 2021; Sanh et al., 2022）。

為了解決這一沖突，幾項工作試圖分析不同任務或模型能力的擴展模式。Ji等人（2023）對12個主要的現實世界在線用戶案例進行了實證研究，并展示了增加指令數據量會在提取、分類、封閉式問答和總結等任務中帶來持續改進，而在數學、編碼和思維鏈等任務中幾乎沒有改進。與Ji等人（2023）的觀點不同，Dong等人（2023）發現一般能力可以通過大約1,000個樣本得到增強，并在此后緩慢提升，而數學推理和代碼生成則隨著數據量的增加而持續提升。類似地，Yuan等人（2023）觀察到指令數據量與模型數學推理性能之間存在對數線性關系，但預訓練更強的模型對于更大的微調數據集改進較少。Song等人（2023）進行了涵蓋十種不同能力的實驗，并展示了大多數能力與數據擴展一致。然而，每種能力在指令調整期間的發展速度不同，一些能力甚至顯示出完全不同的模式。

3.2 數據質量

在LLM的監督式微調中，數據質量始終是一個焦點，包括指令質量、多樣性、復雜性和提示設計。這里我們更關注現有指令數據的管理和分析，而不是在之前的綜述中已經討論過的指令生成方法（Zhang et al., 2023b; Wang et al., 2023e）。

3.3 任務組成

由于LLM在處理各種NLP任務方面表現出驚人的新興能力，多任務微調被視為進一步提高LLM在未見任務上泛化性能的有前景的方法。增加SFT中任務數量的好處已經在不同大小的模型上得到了實驗證明，這些模型的參數范圍從3B（Wang et al., 2022），11B（Sanh et al., 2022），137B（Wei et al., 2021）到540B（Chung et al., 2022）。

除了任務數量的擴展外，不同指令基準的混合比例和任務平衡也被發現對于有效的指令微調至關重要（Iyer et al., 2022; Longpre et al., 2023a）。Dong等人（2023）專注于數學推理、代碼生成和一般人類對齊能力之間的任務組合，并發現在低資源混合數據下模型能力有所提升，但在高資源混合數據下相比于單一來源數據有所下降，即在高資源設置下觀察到能力之間的沖突。為了進一步解釋這些沖突，他們改變了一般和專業數據的比例，并得出結論，當SFT任務之間在任務格式和數據分布上存在顯著差異時，數據比例的影響可以忽略，相反，當存在一定程度的相似性時，數據比例會導致性能的明顯變化。

與將多個任務合并在一起不同，一些工作聲稱在單一任務數據上調整的LLM可以勝過在多個任務上調整的LLM（Jang et al., 2023; Chen et al., 2023b）。Jang等人（2023）指出，訓練專家LLM的優先事項可能在于避免負面任務轉移，通過持續學習新任務而不重新訓練來防止災難性遺忘，以及在將各個專家合并在一起時出現的組合能力。Wang等人（2023b）對使用12個指令數據集訓練的模型進行了事實知識、推理、多語言性、編碼和開放式指令遵循能力的分析，并展示了不同的指令數據集可以解鎖或提升特定能力。相比之下，沒有單一的數據集組合可以在所有評估中提供最佳性能。

3.4 數據高效學習

基于對數據量、數據質量和任務組成對模型性能影響的探索，許多工作提出了通過子集選擇或學習策略來更高效地微調LLM，這些策略針對指令數據的不同方面。

結論

本文首次嘗試概述大型語言模型（LLM）訓練中的數據管理。我們分別討論了LLM的預訓練和監督式微調階段，并總結了至今為止在每個階段中關于數據量、數據質量和領域/任務組成的研究努力。同時也討論了預訓練階段的數據管理系統和監督式微調階段的數據高效學習。最后，我們強調了LLM訓練數據管理的幾個挑戰和有希望的未來發展方向。我們希望這篇綜述能為從業者提供有洞察力的指導，并激發在有效和高效數據管理方面的進一步研究，以促進LLM的發展。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

大型語言模型 · 多模態基礎模型 · 資源高效大型語言模型 ·

2024 年 1 月 17 日

[付費5元查看完整內容]大模型如何高效利用資源？北郵等最新《資源高效大型語言模型和多模態基礎模型》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型基礎模型，包括大型語言模型（LLMs）、視覺轉換器（ViTs）、擴散以及基于LLM的多模態模型，正在徹底改變整個機器學習生命周期，從訓練到部署。然而，這些模型在多功能性和性能上的顯著進步，卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展，開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性，考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解，涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解，并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能（AI）這一快速發展的領域中，一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作，與開放詞匯和圖像像素進行交互，應對未見的AI任務，即零樣本能力。這些模型的例子包括：（1）大型語言模型（LLMs），如GPTs [39]，能夠以提示的形式處理幾乎所有NLP任務；（2）視覺變換器模型（ViTs），如掩蔽自編碼器 [133]，能夠處理各種下游視覺任務；（3）潛在擴散模型（LDMs），如穩定擴散 [310]，能夠用任意基于文本的提示生成高質量圖像；（4）多模態模型，如CLIP [296]和ImageBind [116]，將不同模態數據映射到同一潛在空間，并廣泛用作跨模態任務（如圖像檢索/搜索和視覺問題回答）的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變，為AI與世界交互設定了新的標準。這些基礎模型的成功深深植根于它們的可擴展性：與前代模型不同，這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展，而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]：它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善；直到今天，這一定律依然成立。這種可擴展性不僅是模型大小的問題；它還擴展到它們處理日益復雜任務的能力，使它們成為走向人工通用智能（AGI）之路的基石。

然而，可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器，如GPU和TPU，還包括內存、能源和網絡帶寬。例如，LLaMa-2-70B的預訓練需要1.7×百萬GPU小時，并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段，數據處理、實驗和推理階段的電力消耗相當甚至更多，據Meta AI [388]稱。最近的一項分析 [77]揭示，為了滿足當前AI能力和采用的持續趨勢，英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家，如新西蘭和奧地利，一整年的用電量，如圖1所示。隨著基礎模型在規模和復雜性上的持續增長，它們的資源需求通常呈指數級增長，這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底，只有少數主要參與者有能力訓練和部署最先進的基礎模型，從而對公眾擁有強大的控制權，有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同，這些模型是在云端而非設備上提供服務的 [403, 440]；這使得數據隱私保護幾乎不可能。盡管最近，智能手機廠商一直在吹噓在本地運行大型基礎模型，一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10]，但展示的模型限于相對較小的規模（例如<10B），且尚未在現實世界中部署。因此，大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法，專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作，探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步，以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍，大型基礎模型在這些領域也獲得了巨大關注。通過這一探索，我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新；我們排除了大量在硬件設計方面的工作，這同樣重要，但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源，包括計算、內存、存儲、帶寬等；我們排除了可以被視為資源的訓練數據（標簽）和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文，即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文，因為AI的創新正在快速進行，舊知識和方法經常被推翻。盡管如此，我們計劃將來擴展本綜述的范圍；我們也將積極維護和更新它。組織。圖2展示了本綜述的組織結構。全開源。本綜述的所有材料都可在以下網址免費獲取： https：github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型（FMs）的核心，包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類，考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器（ViT）的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型（FMs）技術。與傳統的深度神經網絡（DNNs）相比，大型基礎模型表現出新的特征，如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現，這些算法根據基礎模型的生命周期進行分類：預訓練、微調、服務算法以及模型壓縮，如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析，包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計，以實現更高效的大型基礎模型生命周期。未來，這一領域的研究將繼續（甚至更加）重要，因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科，涉及多個計算機科學社區，如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大，尤其值得關注的是：（1）云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能，許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力，將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來，基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。（2）利用模型稀疏性。隨著模型變大，對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現，即使是密集訓練的非MoE模型也表現出運行時激活稀疏性，可以利用這一點來減少推理時間和內存占用。我們認為，利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。（3）大型基礎模型作為一種服務。在云端和設備上，大型基礎模型正在統一DNN生態系統 [427]。最終，它將成為像今天的Web和數據庫一樣的通用服務。一方面，它為高度硬件-算法協同設計和優化提供了機會；同時，它也在系統和基礎設施設計方面提出了新的挑戰，如調度、負載均衡和安全性&隔離。（4）作為整體系統優化的代理。未來，尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務；相反，算法和系統設計需要適應特定的代理工作流。例如，一個代理系統可能需要多個基礎模型協同工作，在這個過程中存在內在的邏輯依賴性。在這個過程中，選擇適合每個任務的適當基礎模型，并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。（5）實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加，隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的，但這些方法仍然面臨顯著的性能挑戰，阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發，或現有方法的改進，以有效地平衡隱私與性能。（6）理解擴展定律。擴展定律推動了大型FMs的成功，同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋（并希望打破）這一限制。同時，設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

大型語言模型 · AI與醫療 · 基礎模型 ·

2024 年 1 月 8 日

[付費5元查看完整內容]大模型與醫療如何結合？上交大等最新《計算醫療健康中的以數據為中心的基礎模型》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基礎模型（FMs）作為一種新興的AI技術組合的出現，在計算醫療領域掀起了一股機遇浪潮。這些模型的交互式特性，受預訓練數據和人類指令的指導，已經點燃了一個以數據為中心的AI范式，這一范式強調更好的數據特征描述、質量和規模。在醫療AI中，獲取和處理高質量臨床數據記錄一直是一個長期挑戰，涉及數據數量、標注、患者隱私和倫理等方面。在這篇綜述中，我們調研了FM時代（從模型預訓練到推理）的一系列以數據為中心的方法，旨在改善醫療工作流程。我們討論了AI安全性、評估和與人類價值觀的一致性方面的關鍵視角。最后，我們提供了基于FM的分析技術對提升患者結果和臨床工作流程性能的樂觀展望，這在醫療和醫學不斷發展的領域中顯得尤為重要。我們在//github.com/Yunkun-Zhang/Data-CentricFM-Healthcare提供了最新的醫療相關基礎模型和數據集列表。

**1 引言 **

基礎模型（FMs）的崛起在視覺識別[131, 211, 218]、語言理解[24, 59, 193, 194]和知識發現[21, 201]等領域引發了一系列突破。在計算醫療[3, 72]領域，FMs能夠處理各種臨床數據，其在邏輯推理和語義理解方面的吸引力不言而喻。例子涵蓋了醫療對話[241, 316]、患者健康檔案[48]和治療規劃[192]等領域。此外，鑒于其在大規模數據處理方面的優勢，FMs提供了一種快速有效評估實際臨床數據的新范式，從而改善醫療工作流程[208, 261]。 FMs研究重點放在以數據為中心的視角[318]。首先，FMs展示了規模的力量，其中擴大的模型和數據規模使FMs能夠捕獲大量信息，因此增加了對訓練數據量的迫切需求[272]。其次，FMs鼓勵同質化[21]，這一點通過它們廣泛適應下游任務的能力得到了證明。因此，高質量的FM訓練數據變得至關重要，因為它會影響預訓練FM和下游模型的性能。因此，解決關鍵的數據挑戰被逐漸認為是研究的重點。在醫療系統中，收集高質量的記錄可以實現對患者特征（影像、基因組和實驗室檢測數據）的全面了解[6, 121, 244]。正如所示，以數據為中心的策略有望重塑臨床工作流程[122, 219]，實現精確診斷[111]，并揭示治療方面的見解[40]。醫療數據挑戰在過去幾十年一直是持續的障礙，包括多模態數據融合（第4節）、有限的數據量（第5節）、標注負擔（第6節）以及患者隱私保護的關鍵問題（第7節）[38, 94, 108, 215]。為了應對，FM時代開啟了推進以數據為中心的AI分析的視角。例如，多模態FMs可以提供針對不同數據格式的可擴展數據融合策略[63, 146]。同時，FM生成高質量數據的吸引力可以大大幫助解決醫療和醫療保健社區中的數據數量、稀缺性和隱私問題[33, 63, 168, 257, 269, 331]。為了構建負責任的醫療AI解決方案，AI與人類一致性的不斷發展視角[77, 191]變得越來越重要。我們討論了FMs在現實世界中與人類倫理、公平和社會規范保持一致的必要性，以減少在性能評估、倫理合規性和患者安全方面的潛在風險[94, 154, 163, 198]。在FM時代，實現AI與人類的一致性進一步強調了數據焦點的重要性，激勵我們優先考慮計算醫療領域中的以數據為中心的挑戰。 在這篇綜述中，我們提供了一個關于開發、分析和評估針對醫療的FM為中心的方法的廣泛視角。從圖1所示的以數據為中心的視角來看，我們強調了患者、醫療數據和基礎模型之間的相互作用。我們收集并討論了分析FMs所需的基本概念、模型、數據集和工具（圖2）。最后，我們強調了在醫療和醫學中應用FMs時出現的新風險，包括隱私保護和倫理使用方面。我們提出了基于FM的分析技術的有希望的方向，以提高患者結果的預測性能并簡化臨床數據工作流程，最終將構建更好的、與AI人類相一致的、以數據為中心的工具、方法和系統，用于醫療和醫學。

基礎模型（FM）分析的增長為醫療應用提供了洞見[208, 295, 321]。我們回顧了解決醫療領域中FM多個方面的關鍵技術、工具和應用。我們展示了如何將通用目的的FMs應用于醫療領域（第3.1節）。我們介紹了專注于醫療的FMs，并展示了從通用FMs中獲得的預訓練優勢（第3.2節）。

基礎模型與醫療健康

在醫療和醫療保健中適應通用基礎模型研究工作已經開始評估FM在醫學領域的卓越能力[85, 192, 227]。在這些研究中，我們確定了兩個核心技術：參數高效微調（PEFT）和情境中學習（ICL）。

** 通過參數高效微調（PEFT）進行適應。**

PEFT方法已被應用于將FMs適配到醫學任務。例如，Dutt等人[68]展示了PEFT方法在醫學圖像分類和文本到圖像生成任務的數據有限場景中顯著優于FMs的完全微調。Gema等人[85]提出了一個兩階段PEFT框架，將LLaMA[263]適應到一系列臨床任務。在這項工作中，第一階段應用LoRA[105]對LLaMA進行微調，構建了針對臨床筆記的Clinical LLaMA-LoRA；第二階段再次應用LoRA將臨床FM適配到下游任務。他們還展示了LoRA作為PEFT方法的主要選擇之一，非常適合臨床領域適配。同樣，Van Veen等人[271]應用LoRA對T5模型[143, 214]進行微調，用于放射科報告摘要。他們還將LoRA與情境中學習結合應用于臨床文本摘要任務，表現出比人類專家更好的性能[273]。

通過情境中學習（ICL）進行適應。

ICL已證明在適應FMs，特別是大型語言模型（LLMs），到各種醫療任務中是有效的。通過精心設計的特定任務輸入上下文（即提示），FM可以在不修改任何模型參數的情況下很好地完成醫療任務。例如，Nori等人[192]評估了GPT-4[194]在美國醫學執照考試（USMLE）上的表現，而沒有特別設計的提示。GPT-4展示了其令人期待的零樣本性能，即使沒有添加相關醫療背景數據。Lyu等人[174]利用ChatGPT[193]將放射學報告翻譯成通俗語言，以便于報告理解和翻譯。實驗表明，通過使用更清晰、更結構化的提示，整體翻譯質量可以提高。Roy等人[227]展示了SAM[131]在腹部CT器官分割中的出色泛化能力，通過其點/邊框提示。Deng等人[58]評估了SAM在腫瘤分割、非腫瘤組織分割和整個幻燈片圖像（WSI）上的細胞核分割的零樣本性能，證明了SAM在病理掃描中大型連通物體上表現良好。Chen等人提出了“思維診斷”（DoT）提示[43]，以協助專業人士檢測認知扭曲。DoT通過提示LLMs依次進行主觀性評估、對比推理和模式分析來診斷精神疾病。

預訓練醫療基礎模型

研究人員努力基于大規模未標記的醫療數據預訓練FMs，用于健康記錄檢查[7, 90, 245]、醫學影像診斷[11, 287]和蛋白質序列分析[45, 157]。原則上，預訓練過程可以概括為兩個主要方面：預訓練策略和模型初始化。

預訓練策略。

醫療FM的預訓練通常利用一系列從通用領域FMs衍生的預訓練策略，因為它們具有潛在的泛化能力。第一個預訓練策略是遮蔽語言/圖像建模，遵循BERT[59]和遮蔽自動編碼器（MAE）[96]。例如，SciBERT[14]和PubMedBERT[90]分別基于BERT策略在多領域科學出版物和生物醫學領域特定語料庫上進行預訓練。BioLinkBERT[309]利用生物醫學文檔之間的鏈接，并基于遮蔽語言建模和文檔關系預測任務進行預訓練。BioGPT[172]基于GPT-2[213]在PubMed1摘要上進行預訓練，用于生成語言任務。RETFound[334]是一個用于視網膜圖像疾病檢測的FM，基于MAE在大量未標記的視網膜圖像上進行預訓練，以重構具有75%遮蔽區域的輸入圖像。同樣，General Expression Transformer (GET)[74]是一個用于建模213種人類細胞類型的轉錄調節的FM。GET被預訓練以預測輸入中遮蔽調節元素的基序結合分數，以學習調節模式。對比學習是另一種重要的醫療FM預訓練策略。例如，REMEDIS[11]是一個通過對比學習預訓練的醫學視覺模型，用于提取醫學圖像的代表性視覺特征。例如MedCLIP[287]、MI-Zero[171]和PLIP[110]等視覺-語言模型是通過對比學習在特定領域的圖像-文本對上進行預訓練的。它們在放射學和病理學中的零樣本圖像分類任務上取得了積極的表現。

結論

基礎模型（FMs）及其在醫療保健領域的應用所取得的顯著進展，為更好的患者管理和高效的臨床工作流程打開了新的可能性。在這些努力中，收集、處理和分析可擴展的醫療數據對于基礎模型研究變得越來越關鍵。在這篇綜述中，我們提供了從數據中心視角出發對基礎模型挑戰的概述。基礎模型具有巨大潛力，可以緩解醫療保健中的數據挑戰，包括數據不平衡和偏見、數據稀缺以及高昂的注釋成本。由于基礎模型強大的內容生成能力，對數據隱私、數據偏見以及對生成的醫療知識的倫理考慮需要更加警惕。只有充分可靠地解決數據中心的挑戰，我們才能更好地利用基礎模型在醫學和醫療保健的更廣泛范圍內的力量。

付費5元查看完整內容

知識編輯 · 大型語言模型 ·

2024 年 1 月 3 日

[付費5元查看完整內容]如何編輯大模型中的知識？浙大等最新《大型語言模型知識編輯》全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而，它們的一個主要局限性在于訓練過程中顯著的計算需求，這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇，需要頻繁更新LLMs以糾正過時的信息或整合新知識，從而確保它們的持續相關性。值得注意的是，許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法，人們越來越感興趣。為此，近年來知識編輯技術在LLMs領域蓬勃發展，旨在有效地修改LLMs在特定領域內的行為，同時保持對各種輸入的整體性能。在本文中，我們首先定義了知識編輯問題，然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感，我們提出了一個統一的分類標準，將知識編輯方法分為三組：依賴外部知識、將知識融入模型和編輯內在知識。此外，我們引入了一個新的基準測試，KnowEdit，用于對代表性知識編輯方法進行全面的實證評估。另外，我們提供了對知識位置的深入分析，這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想，我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究，我們發布了一個開源框架，EasyEdit1，將使從業者能夠高效靈活地實施LLMs的知識編輯。最后，我們討論了知識編輯的幾個潛在應用，并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則，從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中，我們人類不斷積累了豐富的知識財富，并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索，一直吸引著科學家們，這不僅是一項技術追求，還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來，大型語言模型（LLM）如GPT-4[13]在自然語言處理（NLP）方面展現出了卓越的能力，可以保留大量知識，可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34]，潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型，實質上創建了一種“世界模型”[35-37]。例如，戴等人[38]提出了知識神經元（KN）論，提出語言模型的功能類似于鍵值記憶。在這里，核心區域的多層感知器（MLP）權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用，暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力，李等人[42]已經證明，針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態，并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58]，不僅存儲大量信息，還以可能反映人類認知過程的方式進行結構化。然而，LLMs存在一些限制，如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題，近年來見證了為LLMs專門定制的知識編輯技術的發展潮，這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整，而不會影響整體性能，并有助于了解LLMs如何表示和處理信息，這對于確保人工智能（AI）應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制（§2.1）以及相關技術，包括參數有效微調、知識增強、繼續學習和機器遺忘（§2.2）。然后，我們介紹了初步內容（§3.1），正式描述了知識編輯問題（§3.2），并提出了一個新的分類法（§3.3），以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言，我們將LLMs的知識編輯分類為：使用外部知識（§3.3.1）、將知識融入模型（§3.3.2）和編輯內在知識（§3.3.3）的方法。我們的分類標準總結如下：

? 使用外部知識。這種方法類似于人類認知過程中的識別階段，需要在相關上下文中暴露給新知識，就像人們首次接觸新信息一樣。例如，提供說明模型的事實更新的句子，以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段，在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中，通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗，涉及了12個自然語言處理（NLP）數據集。這些數據集經過精心設計，用于評估性能（§4）、可用性和底層機制，同時進行了深入的分析（§5），等等其他方面。我們研究的關鍵見解總結如下：

? 性能。我們構建了一個名為KnowEdit的新基準，并報告了針對LLMs的最新知識編輯方法的實證結果，提供了公平比較，展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響，這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中，存在一個或多個列的明顯關注點在值層中。此外，我們發現知識定位過程（例如，因果分析）傾向于僅針對與所討論實體相關的區域，而不是整個事實背景，這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外，我們深入探討了知識編輯對LLMs可能導致意外后果的可能性，這是一個需要仔細考慮的方面。

最后，我們深入探討了知識編輯的多方面應用，從各種角度（§6）考察其潛力，包括高效的機器學習、人工智能生成內容（AIGC）、可信人工智能和人機交互（個性化代理）。此外，我們的討論還涵蓋了知識編輯技術的更廣泛影響，特別關注能源消耗和可解釋性等方面（§7）。這篇論文旨在成為LLMs領域進一步研究的催化劑，強調效率和創新。為了支持和鼓勵未來的研究，我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容通過對各種數據集的大量訓練，LLMs積累了豐富的事實和常識信息，使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用，如許多研究所證明的那樣[142]。此外，王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力，無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力，但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息，還應允許進行高效和有針對性的更新，以糾正這些錯誤并提高其準確性。認識到這一差距，我們的論文引入了知識編輯的概念，旨在實現對LLMs的快速和精確修改，使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯，我們旨在提高LLMs的效用，使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷，并釋放它們作為動態和準確知識庫的全部潛力，以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k，以提高LLM的一致性和性能，而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型，例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性，因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段，其能力與人類的認知過程非常相似，特別是在學習和獲取知識方面。從人類學習過程中汲取靈感，我們可以類比地將這些概念應用到LLMs的編輯過程中，正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段：識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架，我們在表2中列出了它們。

? 識別階段：在識別階段，模型需要在相關背景下接觸新知識，就像人們首次遇到新信息一樣(§3.3.1)。例如，提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段：在關聯階段，新知識與模型中現有知識之間建立聯系(§3.3.2)，類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段：掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3)，類似于人類的深層掌握。這種方法直接改變了模型的權重?W，模型可以處理問題，無需任何外部幫助或合并。

實驗結果

主要來說，SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法，且可移植性相對較好，因為新的反事實模型可以有效地學習編輯后的知識。與此同時，在不改變原始模型參數的情況下，SERAC除了ZsRE之外，在局部性能方面表現良好。然而，由于反事實模型通常比原始模型小，其生成能力不是很強，在WikiDatacounterfact、ZsRE和Convsent等任務中，我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時，在ICE任務中，我們可以發現編輯成功率并不太好，這可能歸因于知識沖突問題。同時，IKE提出將演示文稿連接在一起作為提示，但它們需要較長的輸入長度，并限制了模型進行下游任務。對于修改模型參數的方法，我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好，表現出良好的局部性和流暢性。然而，對于ROME和MEMIT，盡管編輯成功率更好，但它們的局部性不如MEND和其他類型的編輯方法。同時，它的可移植性令人不滿。對于局部微調方法FT-L，其編輯成功率不如ROME或MEMIT，但局部性和可移植性更好。此外，似乎FT-L在處理插入任務時更好，因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務，當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務，我們可以發現當前方法不能很好地改變模型的情感，因為編輯成功率低于65%。SERAC，它可以完美地處理小型LMs [145]，在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現，MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation，旨在從LLMs中刪除知識，我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識，因為它的準確率達到了90%。但是，它會破壞模型對無關知識的性能，因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果，如我們在圖3中的先前評估部分中討論的那樣。在這里，我們可以發現MEND在推理集下表現更好，而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

大型語言模型 · 生成式AI · 計算資源 · 機器學習系統 ·

2023 年 12 月 27 日

[付費5元查看完整內容]大模型如何部署服務？ CMU最新《高效生成式大型語言模型服務：從算法到系統》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大模型如何落地？

在快速發展的人工智能（AI）領域中，生成型大型語言模型（LLMs）站在前沿，徹底改變了我們與數據的互動方式。然而，部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰，特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統（MLSys）研究的角度出發，應對高效LLM服務方法論的緊迫需求，站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析，涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解，為研究人員和實踐者提供寶貴的見解，幫助他們克服有效LLM部署的障礙，從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117

生成型大型語言模型（LLMs）已成為推動人工智能（AI）重大進展的驅動力，并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成，這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構，如GPT系列（Generative Pre-trained Transformer）[195]、LLaMA系列[247]以及其他最新的公開LLMs（例如，OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290]）在這種范式轉變中發揮了關鍵作用，徹底改變了自然語言處理（NLP）任務的處理方式。除了NLP，這些模型還在更廣泛的應用領域中實現了轉型，包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197]，展現了它們的多功能性和在各個行業的深遠影響。

然而，LLMs的空前成功也帶來了幾個挑戰，最值得注意的是，在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性，加上對廣泛計算資源的需求，已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂，阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。

這篇綜述旨在解決高效LLM服務的關鍵需求，并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍，所有這些都旨在優化大型語言模型的推理過程。

目標這項綜述的主要目標是提供一個全面的概述，關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術，基于它們的底層方法，突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論，包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。

** 結構本文的結構如下**：第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類，從兩個方面重新審視這些相關工作：算法創新（§ 3.1）和系統優化（§ 3.2）。之后，我們在第4節列出了一些代表性的LLM服務框架，并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后，在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向，以激發未來的研究。

分類法

目前提高LLM服務效率的努力大致可分為兩類，包括算法創新和系統優化，這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析，這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。

** 解碼算法**。在這一部分中，我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度，并提高語言模型推理在生成任務中的總體效率。

非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制，它逐個順序生成輸出標記。為解決這一問題，一種代表性的工作方向是放棄自回歸生成范式，并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出，通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低，一些后續研究如半自回歸解碼[98]，通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152]，進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層，以并行預測多個未來位置，然后退回到基模型驗證的最長前綴。然而，這些方法需要昂貴地重建一個新的LLM以及新的依賴，或調整原始LLM的部分層，這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記，無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統，利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出，以總結這一方向的最新進展。到目前為止，由于不了解輸出標記之間的條件依賴性，盡管解碼速度有所提高，但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。

投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性，解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行，例如決定接下來生成哪個標記。已提出投機解碼[51, 155]，首先以高效的方式（例如，使用較小的草稿模型，模型參數較少）進行多步解碼預測，并與LLM同時驗證這些預測。然而，將投機解碼應用于LLMs時仍然存在一些實際挑戰，例如，如何使解碼預測足夠輕量且準確，以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制（被[48, 118, 168, 185, 229, 236, 274, 310]直接采用），提出了一個低延遲LLM服務系統實現（§ 4）。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證，并且當預測出錯時，回退機制[145]生效。

提前退出。其他一些研究試圖利用現有LLMs的深層多層架構，并利用提前退出機制[243]加速解碼過程。直覺是，早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測，而不是運行整個LLM，并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219]，因為它們調整每個請求的計算量以攤銷總推理成本，即對更容易的推理請求采取較少的計算。廣泛來說，這些方法大多受限于內部表示攜帶的信息不足，可能無法忠實地進行準確預測。

級聯推理。由于推理請求的復雜性不同，級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器，以級聯方式組織它們，并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型（即非生成型LLMs）進行了優化，但采取了類似的方法，結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API，優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存，并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本，它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說，級聯推理是提高推理效率的有希望的方向，但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115]，超越了原始的Transformer，實現了模型規模、性能和效率之間的平衡，為更快和資源高效的推理開辟了新途徑。

配置縮小：為了減少LLM推理的計算成本，一種直接的方法是縮小模型配置，例如使用淺層編碼器[101, 183]或解碼器[137]，權重共享和詞匯表縮減[225]。然而，減少模型參數的數量也會影響下游任務的性能。

注意力簡化：與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2)，它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案，用于非常長的序列任務，例如稀疏化[289]、核化[139]和分解[254]。最近，有一種趨勢從之前的注意力簡化方法中借鑒思想，將它們概括和結合起來，以縮短上下文，減少KV緩存的大小，以及注意力復雜度，同時略微降低解碼質量（例如，滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74]）。這些方法中的一個類別是通過壓縮上下文到更少的軟標記（例如，替換為摘要標記[58]或地標標記[184]，利用額外的自編碼器方案[95, 169]）或直接根據不同的重要性指導[85, 130, 159, 186]（或稱為語義壓縮）刪除或改寫不重要的上下文標記來進行上下文壓縮。例如，自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。

提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構，并利用提前退出[243]機制來加速解碼過程。其直覺是，早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測，而不是運行整個LLM，并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219]，因為它們調整每個請求的計算量，以攤銷總推理成本，即對更容易的推理請求采取較少的計算。然而，由于這些方法大多受限于內部表示攜帶的信息不足，可能無法忠實地進行準確預測。

級聯推理。鑒于推理請求的復雜性不同，級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢，CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器，以級聯方式組織它們，并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型（即非生成型LLMs）進行了優化，但采用了類似的方法，將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API，優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存，并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務，以節省成本，它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言，級聯推理是提高推理效率的一個有前景的方向，但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115]，超越了原始的Transformer，實現了模型規模、性能和效率之間的平衡，為更快和資源高效的推理開辟了新途徑。 * 注意力簡化：自注意力計算的一個突出挑戰是計算復雜度O(??^2)，隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案，例如稀疏化[289]、核化[139]和分解[254]。最近，有一種趨勢從之前的注意力簡化方法中借鑒思想，將它們概括和結合起來，以縮短上下文，減少KV緩存的大小，以及注意力復雜度，同時略微降低解碼質量（例如，滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74]）。這些方法中的一個類別是通過壓縮上下文到更少的軟標記（例如，替換為摘要標記[58]或地標標記[184]，利用額外的自編碼器方案[95, 169]）或直接根據不同的重要性指導[85, 130, 159, 186]（或稱為語義壓縮）刪除或改寫不重要的上下文標記來進行上下文壓縮。例如，自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。

模型壓縮。在這里，我們深入探討了模型壓縮技術，旨在通過創建更高效、更緊湊的模型，減少LLMs的內存占用和計算需求，同時不會對性能造成顯著損失。

知識蒸餾：一種方法是知識蒸餾，它訓練一個小型的學生模型，以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255]，需要訪問整個教師模型的參數。由于基于API的LLM服務（例如，ChatGPT）的出現，一些黑盒蒸餾模型吸引了很多關注，例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數，但與原始LLMs（例如，GPT-4[195]）相比，在各種下游任務上表現出了有前景的性能。

網絡剪枝：過去幾年中，網絡剪枝方法[180, 215, 215]已被廣泛研究，但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面，這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs，刪除整個結構化LLM組件，促進GPU加速。例如，Deja Vu[172]在不修改預訓練模型的情況下，根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276]，通常實現LLM壓縮的50-60%稀疏性。值得注意的是，它們可以進一步概括為半結構化N:M稀疏性（即2:4和4:8）[182]，通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問，并提出了一個GPU-CPU混合推理引擎，讓GPU和CPU處理不同的神經元。

系統優化本節研究LLM推理系統優化技術，以加速LLM推理，而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架，提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術，這些技術能夠高效地表示模型權重和激活。通過使用更少的比特（即少于32比特）來表示數值，這些方法顯著減少了內存消耗，并加速了硬件平臺上的推理。一種方法是量化LLM，這些量化方法大致可以分為兩個方向：量化感知訓練（QAT）和訓練后量化（PTQ）[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4，通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率，例如W8A16（即INT8僅權重量化和FP16或BF16激活），GPTQ中的W4A16[88]，SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是，NVIDIA的最新架構，如Turing和Ampere已經包含了INT8和INT4張量核心，最新的Hopper架構雖然取消了INT4支持，但引入了FP8張量核心以獲得更好的數值精度（例如，H100 GPU的FP8與FP32相比可達60倍TFLOPS）。現有方法通常采用各種量化函數，包括均勻方法（即最近舍入）和非均勻方法[143]。為了緩解低精度帶來的性能損失，QAT在模型訓練期間集成了量化[70, 171]。值得注意的是，由于底層系統實現的挑戰，低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求，但也有研究表明，量化方法由于存在比例定律，可能對模型的推理性能產生顯著影響[72]。此外，量化還被應用于上下文壓縮（例如，CacheGen[169]）和內存高效微調（例如，QLoRA[70]，PEQA[142]），結果導致LLM推理的內存消耗降低。

并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力，這些方法將計算分布在多個核心或設備上，從而在推理期間顯著加速。

內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一，特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長，與模型權重和其他激活所需工作空間相比，KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小，簡單的方法（例如，FasterTransformer）是預先分配一塊連續的內存，假設最大序列長度。這對于1）請求長度不同的輸入批次和2）并行生成多個輸出序列的復雜解碼場景（例如，波束搜索、并行解碼）來說，嚴重浪費了內存。vLLM[150]提出了分頁注意力，將KV緩存劃分為非連續的內存塊，顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷，以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制，進一步減少了內存使用。然而，這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下，這些細粒度內存管理方法可能只提供邊際吞吐量收益，同時大幅增加了推理延遲。顯然，LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好，但它們可能相互抵消，導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。

請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標（SLO）內的響應時間，并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處，因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而，由于其獨特的特性，如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理，LLM服務也帶來了獨特的挑戰。

早期的LLM服務系統（例如，NVIDIA Triton上的FasterTransformer）僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度，它在迭代粒度上調度引擎執行，并以先來先服務（FCFS）的順序，使得選定的操作集批處理，以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略，例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外，SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證，擴展到了投機解碼。FastServe[261]關注作業完成時間（JCT），涉及迭代級搶占，以優先處理輸入長度較短的請求，而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算，它將輸入提示劃分為均勻塊，并在可能的情況下，將塊插槽與其他請求的解碼迭代結合起來，這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器，并幫助在GPU內存限制內安排更多并發請求，以實現更大的批量大小和更高的推理吞吐量。

內核優化。在本小節中，我們深入探討了針對特定操作的內核級優化，這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。

軟件框架

生成型LLM服務需要一系列優化，許多最新工作已經開始開發軟件框架，以提供高效的LLM推理部署服務。下面，我們將重新審視這些系統，并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析，如表2所示。這些分析不包括一些流行的相關項目，包括1) 專門針對其他硬件的解決方案（例如，PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14]）和2) 構建在其他系統之上的部署解決方案，如OpenLLM[26]（vLLM）、xinference[30]（ggml + vLLM + xFormers）、LMDeploy[20]（FasterTransformer）、gpt-fast[15]（PyTorch）、DeepSpeed-MII和DeepSpeed-FastGen[11]（DeepSpeed-Inference）以及RayLLM和RayServe[27]（vLLM）。

我們比較了這些最先進的LLM服務系統，并在幾個方面總結了它們的差異。首先，大多數系統支持張量并行性，以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載，以分別支持多節點或資源受限環境下的推理。其次，部分系統從Orca學習，并實現了迭代級調度。第三，我們調查了這些系統的注意力內核，并分別介紹了它們在初始和增量階段的實現。對于初始階段，它們通常采用批量通用矩陣乘法（GEMM）方法（例如，cuBLAS、torch、Relay），有些利用在線softmax技巧減少HBM訪問（例如，Flash-attention、xFormers）。增量階段更具挑戰性，因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率，FasterTransformer手動融合了注意力計算（例如，線性投影、位置偏差、點積、softmax等）到一個高性能的內核模板中，并涉及多種內核優化技術，例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加（HMMA）以及多精度支持。FlexFlow-Serve啟用了投機解碼，并提供了一個基于樹的并行解碼內核，以零內存冗余和最大線程并行性驗證來自多個序列（即來自多個小型模型或不同波束或并行采樣）的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力（MHA）內核，通過將KV緩存分割成頁面來消除冗余內存使用，特別適用于并行采樣場景。LightLLM采用后續方法，將KV緩存劃分為更細粒度的標記級片段。

值得注意的是，上述討論并未涵蓋其他一些值得注意的方面。例如，即使對于最受歡迎的Flash和Paged注意力內核，它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫，LightLLM采用了OpenAI Triton實現的內核，MLC-LLM通過TVM生成內核，TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段，TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外，對于線性投影運算符，最近有一種趨勢是用通用矩陣-向量乘積（GEMV）替換GEMM，以更有效地處理小批量大小（即1）的情況。這些系統還具有許多其他不同的特性，如編程語言（即C++、Python）、低精度支持（即FP16、INT8）、支持的硬件和模型。總之，這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如，vLLM提出分頁注意力以提高批量大小，從而實現更高的吞吐量（??????），而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲（??????）。基本上，低延遲和高吞吐量是LLM服務系統的雙重優化目標，代表了互補但往往相互沖突的目標，需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度，其中TTFT代表首個標記的時間，TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動，而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益，導致不同的系統設計選擇和用戶體驗（例如，更快的應用響應性[169]，更長的提示[9]）。此外，降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案，但我們相信未來的LLM服務系統將繼續整合這些不同的特性，從而不斷提高系統效率和硬件利用率。

結論

高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解，使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果，本文希望加速進步，并在追求高效LLM服務解決方案的過程中促進創新。

付費5元查看完整內容

用戶建模 · 大型語言模型 ·

2023 年 12 月 26 日

[付費5元查看完整內容]大模型如何做用戶建模？在大型語言模型時代的用戶建模：當前研究與未來方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大模型如何和用戶建模結合？看這篇綜述論文

用戶建模(UM)旨在從用戶數據中發現模式或學習表征，了解特定用戶的特征，如個人資料、偏好和個性。用戶模型使得在許多在線應用程序中實現個性化和可疑性檢測成為可能，例如推薦、教育和醫療健康。常見的兩種用戶數據類型是文本和圖表，因為數據通常包含大量用戶生成內容(UGC)和在線互動。文本和圖表挖掘的研究正在迅速發展，在過去二十年中貢獻了許多值得注意的解決方案。最近，大型語言模型(LLMs)在生成、理解甚至推理文本數據方面顯示出卓越的性能。用戶建模的方法已經配備了LLMs，并很快變得突出。本文總結了現有研究關于如何以及為什么LLMs是建模和理解UGC的強大工具。然后，它回顧了幾類整合了LLMs和基于文本及圖表的方法的用戶建模大型語言模型(LLM-UM)方法。接著，它介紹了針對各種UM應用的具體LLM-UM技術。最后，它展示了LLM-UM研究中剩余的挑戰和未來方向。我們在以下網址維護閱讀清單：//github.com/TamSiuhin/LLM-UM-Reading。

用戶建模(UM)旨在從用戶行為中提取有價值的見解和模式，使系統能夠定制和適應特定用戶的需求[124]。UM技術有助于更好地理解用戶行為、定制智能輔助，并極大地改善用戶體驗。例如，當人們在網上尋找晚餐選項并進行搜索時，UM技術會根據互動歷史推斷他們的特征，預測當前的食物興趣，并提供個性化推薦。UM在用戶數據分析和許多應用程序中都有重大影響，例如電子商務[191, 194, 280]、娛樂[11, 33, 155]和社交網絡[1, 2, 212]。UM是一個高度活躍和有影響力的研究領域。用戶建模主要是挖掘和學習用戶數據，包括用戶生成的內容(UGC)和用戶與其他用戶及物品的互動。用戶生成的內容涵蓋了廣泛的文本數據，如推文、評論、博客和學術論文。豐富的文本可以通過自然語言處理(NLP)技術進行分析。另一方面，用戶互動涉及各種行為，如關注、分享、評級、評論和轉推。這些互動可能形成一個異構的時間文本屬性圖[199]，因為它具有時間和文本信息，并且具有不同類型的節點和關系。可以使用圖挖掘和學習技術對其進行分析。因此，用戶建模已分化為基于文本和基于圖表的方法，分別專注于從文本和圖表數據中提取洞察。基于文本的UM研究如何發展？研究人員使用了多種類型的文本表示，如單詞、主題和嵌入。詞袋(BoW)模型使用離散詞匯創建分布式文本表示，并包含單詞頻率[67]。為了解決BoW表示的稀疏性，主題建模技術統計發現文檔集中的潛在主題，例如潛在狄利克雷分配(LDA)[15]。但它們無法捕捉語義意義，即單詞語義相似性。Word2Vec采用非線性神經層開發連續詞袋(CBOW)和連續跳躍-gram模型[148]。它從多種類型的UGC文本數據中提取語義嵌入，如博客、評論和推文。然而，神經層太淺，無法捕捉大量單詞標記之間的深層序列模式。隨著Transformer架構[219]的突破，預訓練語言模型(PLMs)顯著改變了UGC理解的格局，采用了預訓練-微調范式。新范式在大型未標注語料庫上訓練模型，使用自監著學習，并使用數百或數千個示例微調模型以適應下游任務[102]。最近，大型語言模型(LLMs)在這一領域引發了革命，展現了包括前所未有的推理[241, 256]、泛化[181, 239]和知識理解[163, 205]等新興能力。

LLMs在極大規模的語料庫上進行預訓練，更新數十億參數。大量研究表明，LLMs可以以零樣本方式理解UGC，即不需要微調的示例集合。LLMs在摘要[176]方面超越了人類表現，在幾個考試中表現優于大多數人類[159]，并展示了強大的推理能力，包括提示工程，如思維鏈[241]、最少到最多[290]和思維樹[256]。LLMs為UM研究開啟了一個新時代，重新思考UGC挖掘。基于圖表的UM研究如何發展？用戶與在線內容和用戶的互動自然定義為連接用戶或事物節點的邊。用戶數據可以定義為圖表。異構圖包含多種類型的節點（例如，用戶、物品、地點）和關系。時間/加權圖在互動上有時間戳/權重標記。屬性圖允許節點具有一組屬性-值對（例如，用戶的年齡，產品的顏色）。在文本豐富的圖中，節點具有長形文本屬性。隨機游走重啟提供加權圖中兩個節點之間的親近度得分，它已在許多設置中成功使用（例如，個性化PageRank[162]）。矩陣分解(MF)將用戶-物品互動矩陣分解為兩個矩陣的乘積，或稱為用戶和物品的潛在特征[91, 94, 107]。關于協同過濾，MF在明確反饋評級方面表現更好，而RWR利用物品的全球普及性。它實際上是一個基本的嵌入模型[272]。隨著深度學習的發展，Node2Vec通過隨機游走從圖中提取序列，并使用Word2Vec學習節點嵌入[65]。然而，將圖編碼為序列會導致信息丟失。圖神經網絡(GNNs)采用消息傳遞機制對圖進行深度表征學習。特別是，圖卷積網絡(GCN)[105]的家族極大地改善了推薦[49, 69]、用戶檔案建立[24, 250]、用戶行為預測[224, 263]和可疑用戶檢測[54, 55]的性能。**為什么LLMs正在革新基于文本和圖表的UM研究？**用戶建模涉及文本和圖表數據上的一系列機器學習任務，如文本分類、節點分類、鏈接預測和時間序列建模。放入上下文中，任務可以是情感分析、自然語言推理(NLI)、用戶和產品分類、社交關系預測和時間行為預測。傳統上，解決方案必須是針對特定類型數據的特定模型，并在特定注釋集上進行訓練。例如，由于模式差異，情感分析和NLI任務必須分別訓練兩個文本分類器。同樣，圖神經網絡(GNN)中的兩個網絡或至少兩個模塊被訓練來分別預測用戶是否交到新朋友和購買物品。此外，由于長尾分布，用戶和/或產品檔案的文本信息對于學習和預測非常有限。

大型語言模型（LLMs）改變了解決方案開發的范式。首先，如果設計得當，提示能夠將大型語言模型中的大多數文本到標簽的任務處理為統一的文本生成任務；這樣就不急切需要注釋數據；而且性能甚至可以與傳統模型相媲美或更好。這是因為大型語言模型在極大的語料庫上進行了預訓練，并微調以遵循提示中的指令。其次，提示可以為圖數據上的學習任務而設計。例如，可以問大型語言模型“如果一個用戶昨天買了蘋果手表，他會考慮購買一雙跑鞋嗎？”大型語言模型的“分析”可以為現有的用戶-商品鏈接預測器提供額外信息。第三，所有文本信息都可以由大型語言模型自動擴展。相關的參數化知識增強了機器學習模型的輸入，降低了任務難度。大型語言模型在表征用戶個性[184]、辨別用戶立場[271]、確定用戶偏好[52]等方面展現出了強大的能力。同時，它們在節點分類[259]、節點屬性預測[70]和圖推理[226]方面也表現出了顯著的熟練程度。初步研究聚焦于利用大型語言模型進行用戶建模（LLM-UM），以整合基于文本和基于圖的方法。對于用戶畫像，GENRE [135] 利用ChatGPT作為用戶畫像工具，通過輸入用戶的行為歷史，并提示模型推斷用戶偏好的主題和地區。這些由大型語言模型生成的畫像作為點擊率推薦模型的重要特征，解決了在收集用戶畫像中的匿名問題。在推薦方面，Kang等[100]使用大型語言模型預測用戶基于其行為歷史的評分，并發現大型語言模型通常需要較少的數據，同時保持了關于人類和物品的世界知識。在個性化方面，LaMP[189]提出了一個基準，包括個性化文本生成和分類任務，以及檢索增強方法。大型語言模型可以作為個性化工具，因為它們理解用戶數據。在可疑性檢測方面，Chiu等[29]使用GPT-3來檢測仇恨言論，發現大型語言模型能夠在有限的標簽下識別濫用語言。

本綜述的剩余部分安排如下（見圖2）。第2節介紹用戶建模技術和大型語言模型的背景，并闡述了為什么LLMs是下一代用戶建模的好工具。第4節根據它們的方法和應用，介紹了LLM-UM的兩種分類。第5節總結了LLM-UM的方法，以及LLMs如何在現有工作中整合文本和基于圖的方法，包括利用LLMs作為增強器、預測器和控制器。第6節詳細討論了LLM-UM的應用，包括個性化和可疑性檢測。最后，第7節深入探討了LLM-UM主題的當前挑戰和未來方向。LLM用戶建模鑒于大型語言模型（LLMs）在生成[282]、推理[241]、知識理解[205]方面的強大能力，以及對用戶生成內容（UGC）的良好理解，如第3節所述，LLMs可以用來增強用戶建模（UM）系統。基于LLMs在其中扮演的角色，LLM-UM方法通常可以分為三類，第一類將LLMs視為唯一的預測器，直接生成預測結果；第二類使用LLMs作為增強器，探索更多信息以增強UM系統；第三類賦予LLMs控制UM方法流程的能力，自動化UM過程；最后一類將LLMs用作評估器，評估系統的性能。值得一提的是，在LLM-UM中的“用戶模型”形式與之前的定義保持一致，涵蓋了借助用戶生成內容以及用戶-用戶/物品交互網絡[71]發現的知識和模式。LLM-UM與以前的范式的區別在于方法，其中LLM-UM被LLMs賦能或增強，以獲得與用戶相關的知識。在以下小節中，我們總結了每種范式，并介紹了代表性的方法。

在本節中，我們介紹了LLM-UM作品中呈現的LLMs-as-Predictors（LLMs作為預測器）范式，這意味著LLMs被用來直接為下游應用做出預測和生成答案。更具體地說，這些方法利用LLMs作為生成推理器、模擬器/代理、分類器/探測器、評分/排名函數、解釋器和聊天機器人。

我們分析了利用大型語言模型（LLMs）作為增強器在用戶建模（UM）模型中的方法。也就是說，LLMs并不是直接用來生成任務答案，而是被用作插入式增強模塊。這些方法使用LLMs作為畫像工具、特征編碼器、知識增強器和數據生成器。大型語言模型（LLMs）龐大的參數規模帶來了在小型語言模型中從未觀察到的新興能力，賦予LLMs前所未有的控制系統流程和增強用戶建模（UM）系統以滿足個人需求的能力。值得注意的是，與讓LLMs自由探索和與環境互動的LLMs作為代理的方式不同，LLMs-as-Controllers包括那些設計了整個流程并讓LLMs決定是否進行某些操作的工作。HuggingGPT[198]使用LLMs作為控制器來管理和組織專家模型的合作。具體到用戶建模系統中，RecLLM[61]利用LLMs作為對話管理器，與用戶對話，跟蹤上下文，并在必要時進行系統調用。Chat-REC[63]讓LLMs決定何時使用推薦系統作為外部工具。Foosherian等[60]展示了LLMs可以協助基于流程的對話代理進行情境化、意圖分類以防止對話中斷和處理超出范圍的問題、自動糾正話語、改述回應、制定消除歧義的問題、總結和啟用封閉式問題回答能力。LLM4Jobs[121]構建了一個流程，讓LLMs決定是否對職位發布進行總結。在用戶建模中評估自然語言生成（NLG），特別是在開放領域和對話設置中，一直面臨重大挑戰。大型語言模型（LLMs）強大的語言建模能力為這些復雜評估開辟了新的機會，一些研究工作提出將LLMs視為生成式用戶建模系統的評估者。Svikhnushina和Pu[207]利用LLMs近似在線人類評估對話系統。Huynh等[84]探索了LLMs在對話評估方面的能力，以及提示與訓練數據集之間的關系。iEvaLM[235]提出了一個利用LLMs模擬用戶和系統之間各種互動的對話推薦評估框架。Zheng等[285]發現使用像GPT-4這樣的強大LLMs作為評判員可以很好地匹配受控和眾包的人類偏好。LLM-Eval[132]設計了一種基于提示的評估方法，利用統一的評估模式覆蓋對話質量的多個維度。Bhat等[13]使用微調過的GPT-3來評估生成的問題，分類這些問題是否有助于學習。GIRL[287]在ChatGPT的幫助下評估推薦的工作結果。這些工作表明，LLMs可以是評估UM系統輸出的有效工具，確定這些輸出在多大程度上定制以滿足特定用戶需求。特別是在對話環境中，進行用戶研究可能既昂貴又容易受到偏見，LLMs提供了一種可靠且有效的方法來評估復雜和開放式生成的質量。因此，LLMs-as-Evaluator范式增強了用戶建模系統的開發。

結論

我們的工作提供了一份全面而結構化的關于大型語言模型在用戶建模（LLM-UM）方面的綜述。我們展示了為什么LLMs是進行用戶建模和理解用戶生成內容（UGC）及用戶互動的絕佳工具。接著，我們回顧了現有的LLM-UM研究工作，并對它們整合基于文本和基于圖的用戶建模技術的方法進行了分類，包括LLMs作為增強器、預測器、控制器和評估器的角色。接下來，我們根據它們的應用對現有的LLM-UM技術進行分類。最后，我們概述了LLM-UM領域中剩余的挑戰和未來的發展方向。這份綜述可作為LLM-UM研究者和從業者的手冊，用于研究和使用LLMs來增強用戶建模系統，并激發對這個主題的額外興趣和工作。

付費5元查看完整內容

大型語言模型 · 大模型效率 · 縮放定律 · 數據利用 ·

2023 年 12 月 5 日

[付費5元查看完整內容]如何提升大模型效率？微軟等最新《大型語言模型的效率算法》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）的快速發展已成為轉型各個領域、重塑人工通用智能領域風貌的驅動力。然而，這些模型不斷增長的計算和存儲需求提出了重大挑戰，阻礙了學術研究和實際應用的進展。為了解決這些問題，已經開發了包括算法和硬件解決方案在內的多種方法，以提高LLMs的效率。本綜述提供了一份全面回顧，專注于旨在提升LLM效率的算法進步。與通常僅關注特定領域，如訓練或模型壓縮的其他綜述不同，本文審視了對LLMs端到端算法發展至關重要的多方面效率維度。具體而言，它涵蓋了與效率相關的各種主題，包括規模定律、數據利用、架構創新、訓練和微調策略，以及推理技術。本文旨在為研究人員和實踐者提供一個寶貴的資源，為這一關鍵研究領域的未來創新奠定基礎。

//github.com/tding1/Efficient-LLM-Survey

大型語言模型（LLMs）[28, 111, 236, 302, 329]，以其數十甚至數百億參數的龐大規模[13, 24, 54]為特征，在人工智能領域已成為一個核心焦點。這些模型，如ChatGPT [1]和Claude [2]的應用所示，已在各種通用任務中展現出令人印象深刻的能力，例如文本摘要[303]、翻譯[100]、問答[219]，甚至基礎編程[34]，這在很大程度上歸功于它們在自然語言理解方面的專長。雖然驅動它們卓越性能的確切機制仍是一個謎[341]，但普遍認為它們的大規模賦予了它們新出現的能力[280]，這在小型模型中未被觀察到，并被視為實現人工通用智能（AGI）[5, 25]的關鍵步驟。盡管LLMs的大規模對于它們的能力至關重要（見圖1），但它們也存在顯著的缺點：由于高計算成本和內存要求[267, 295, 339, 342]，它們的部署受到嚴重限制。訓練這些模型所需的資源是巨大的，這在資源分配和模型設計方面造成了挑戰。例如，探索不同架構或策略的成本變得過高[329]。此外，它們的大規模使它們不適合資源受限的環境，如邊緣設備，從而縮小了應用范圍[7]。這種計算負擔也將LLMs的發展限制在資源豐富的大公司[24, 196, 210]。許多關鍵細節，如數據收集管道和訓練方法，仍然是專有的，這阻礙了學術研究并為小公司帶來挑戰。此外，訓練這些模型的環境影響不容忽視，引發了關于碳排放和倫理考慮的擔憂[268, 270, 285]。因此，提高LLMs的效率正受到越來越多的重視。出于對更高效LLMs的迫切需求，本綜述旨在提供對該主題的全面和最新理解。

在本文中，“效率”定義為在不影響模型性能的情況下優化計算和內存資源。采用整體方法，我們探索了對LLMs端到端發展至關重要的多個效率維度。這些維度涵蓋了數據利用、架構設計、訓練和微調策略以及推理技術，基本上涵蓋了從算法和軟件角度的模型開發整個流程。盡管已有一些綜述專注于LLMs效率的特定方面，如數據[316]、訓練[241, 333, 342]、微調[323]或推理[295, 339]，但它們通常無法提供全面視圖。其他作品，如[267]，已為自然語言處理（NLP）的各種效率方面提供了寶貴的見解，但LLM領域的快速發展要求進行更新和全面的回顧。與此相反，我們的論文旨在提供關鍵方法論和技術的更全面和當前的概述，這些方法論和技術有助于高效LLMs的發展。為了提供對LLM效率多方面的全面理解，本綜述的其余部分從算法角度組織如下：

? 第2節背景介紹了LLMs的核心概念，并概述了評估其效率相關的評價指標。 ? 第3節預算效率考察了像規模定律這樣的預測方法在優化給定資源約束下LLMs性能的作用。 ? 第4節數據效率關注于優化數據利用的技術，從而在不影響性能的情況下減少資源消耗。 ? 第5節架構效率回顧了創新的架構設計，提供了對架構如何影響效率的詳細考察。 ? 第6節訓練和微調效率討論了從頭開始高效訓練LLMs和針對特定下游任務微調預訓練模型的策略。 ? 第7節推理效率探索了旨在加速推理速度和減少內存占用的模型壓縮技術領域。 ? 第8節結論總結了本綜述的主要發現，并討論了它們對高效LLM發展的更廣泛影響。LLM效率的這些不同維度的概念性概述在圖2中呈現。

預算效率:縮放定律

大型語言模型(LLM)的性能受到各種因素的顯著影響，包括訓練數據、模型大小、體系結構、計算資源和訓練方法本身。訓練LLM需要大量的資源，使得用于優化這些因素的傳統試錯方法既不切實際又耗費資源。因此，在訓練之前預測LLM的表現不僅是有益的，而且通常是必要的。這種預測方法可以更有效地規劃和分配資源。例如，考慮一個計算資源有限的場景:我們如何最優地平衡模型大小和訓練數據，以實現最小的目標函數值? 事先回答這些問題可以顯著提高LLM訓練過程的效率和效果。最近對大型語言模型(LLM)性能預測的研究主要集中在理解尺度規律。這條規律描述了LLM性能如何受到模型架構、神經模型大小、訓練計算能力和可用數據等因素的影響。標度律的概念根植于預測模型泛化的統計力學方法中，有著悠久的歷史，可以追溯到20世紀90年代初[11,18,95,235]。最近，在現代深度學習模型的背景下，其相關性被重新激發[10,26,101 - 103,106,124,188,221,248,260,262]。本節將深入研究應用于LLM的縮放律的最新進展和見解，強調這些模型在不同條件下的演變和表現。

數據效率

大規模模型對數據無止境的需求極大地推動了數據收集和準備行業的發展。然而，這種對大量數據集的依賴，往往是多年積累的，為模型訓練帶來了巨大的挑戰。這不僅包括訓練時間延長，而且由于大量耗電和需要更大的數據存儲容量而導致成本上升。因此，找到在訓練和驗證階段更有效地使用數據的方法是至關重要的。在本節中，我們將深入探討提高數據效率的策略和考慮因素，解決如何最大限度地利用數據，同時降低相關成本和資源需求。 架構效率

最近，Transformer家族[269]已經成為語言建模的主要架構，因為它比RNN等遞歸方法具有很強的并行性[185]。然而，其巨大的計算成本使得整體架構在處理和處理長輸入時效率低下。特別是，Transformer架構中的一個關鍵操作是注意力機制。它通常需要關于序列長度的二次復雜度來進行計算，因此在處理長文本輸入時非常慢[99]。減少注意力操作所需的計算[261]成為提高架構效率的直接解決方案，對訓練和推理階段都有好處。為此，研究人員正在探索更有效的注意力[51,59,61]以及不同類型的位置編碼[48,49,127,159,201,207,224,250]的解決方案，或利用模型內固有的稀疏性來避免在稀疏建模的前向計算期間激活所有參數[72,243]。此外，最近的一些工作直接用替代架構取代了注意力機制，將無注意力方法[62,199,205,254]引入到fold中。在本節中，我們將介紹這四個主要方向及其最新進展。 訓練微調效率

LLM訓練和調優技術的發展必須解決數據和模型規模不斷增加所帶來的挑戰。本節深入探討了對LLM的可擴展訓練和調優都至關重要的效率方面，強調了重點關注的關鍵領域。記憶效率。大型transformer模型的參數數量快速增長，每兩年增加約410倍，對內存提出了重大挑戰。這種增長超過了GPU內存的擴展，在同一時期內，GPU內存僅增長了5倍(從16GB到80GB)。訓練過程中的實際內存消耗遠遠超過原始參數數量，包括模型狀態(參數、梯度、優化器狀態)以及剩余狀態(中間激活、臨時緩沖區、內存碎片)。考慮到這些約束，單個GPU設置不足以處理整個模型，需要分布式訓練方法，如張量并行(TP)和流水線并行(PP)，以有效地進行內存管理。計算效率。雖然分布式訓練提供了加快大型模型訓練的潛在好處，但它也引入了影響可擴展性的復雜性。一個值得注意的觀察是，在多GPU訓練中，每個GPU的FLOPs數量減少，與單GPU設置相比。這種減少源于在有效利用日益增多的計算資源方面所面臨的挑戰。因此，在訓練過程中，可擴展性成為提高計算效率的關鍵元素，尤其是在多GPU環境中。通信效率。這方面涉及到在訓練過程中不同設備或層之間的參數和梯度交換。技術如全規約（all-reduce）被用于在數據并行訓練的反向傳播結束時跨所有設備同步梯度。目標是在如廣播、規約、全規約和全集合等集體操作期間盡量減少通信數據的體積。簡而言之，訓練和調優LLM是一個復雜的挑戰，需要全面的方法。考慮所有這些效率方面的綜合策略對于有效和可擴展的LLM訓練和調優至關重要。后續部分將提供這些方面的詳細探討。 推斷效率

大型語言模型(LLM)中龐大的參數數量為在云服務和資源有限的設備上部署帶來了重大挑戰，導致推理支持的維護成本很高。因此，加速推理已成為工業界和學術界共同關注的迫切問題。一種常見的方法是構建緊湊的模型，使整個模型達到具有競爭力的性能，這些方法大致可以分為四類:剪枝、知識蒸餾、量化和低秩分解。剪枝技術專注于識別和消除深度神經網絡(DNN)操作符中的冗余，從而創建更精簡的版本。知識蒸餾涉及將見解從更大、更復雜的"教師"模型轉移到更小、更有效的"學生"模型，幫助在簡化模型中保持高性能。量化通過使用更少的比特在llm中表示浮點數來減少計算負荷和存儲需求。低秩分解通過低秩矩陣逼近LLMs中的權重矩陣，進一步節約計算資源。值得注意的是，其中一些方法需要專門的計算庫和硬件來實現實際的資源節省和加速。結論

總而言之，大型語言模型(LLM)的發展標志著人工通用智能領域的一個重要里程碑，在各個領域帶來了變革性的變化。然而，這些模型的快速擴展在計算需求和內存需求方面帶來了重大挑戰，為學術研究和實際部署創造了障礙。本綜述對旨在提高llm效率的算法創新進行了全面的概述，捕捉了主要截至2023年9月的研究進展。現有的綜述往往側重于孤立的方面，如訓練或模型壓縮，本文超越了這些調查的范圍，深入研究了效率的多個維度，這些對LLM的整體算法開發至關重要。它已經跨越了一系列與效率相關的主題，包括縮放規律、數據利用、架構設計，以及訓練、調優和推理策略。這里提出的見解和分析旨在為該領域的研究人員和從業人員提供有價值的總結。通過奠定現有知識和方法的堅實基礎，為LLM效率這一關鍵研究領域未來的突破和持續創新奠定了基礎。

付費5元查看完整內容

向量數據庫 · 大型語言模型 ·

2023 年 10 月 24 日

[付費5元查看完整內容]大模型如何用向量數據庫？清華等最新《向量數據庫管理系統》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現如今，已有超過20種商業向量數據庫管理系統（VDBMSs），它們都是在過去五年內推出的。但基于嵌入的檢索（EBR）已經被研究了超過十年，而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的，尤其是大型語言模型（LLMs），它們需要大量的非結構化數據，以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求，但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙，即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分，以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理，各種相似性分數和查詢類型現已被充分理解；對于存儲和索引，技術包括向量壓縮，即量化，以及基于隨機化、學習劃分和“可導航”的劃分技術；對于查詢優化和執行，我們描述了混合查詢的新運算符，以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上，包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。然后，我們討論基準測試，并最后概述了幾個研究挑戰，并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型（LLMs）[71] 的崛起，以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長，有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能，如查詢優化、事務處理、可擴展性、容錯能力，以及隱私和安全性，但這是針對非結構化數據的。由于這些數據并不是由固定模式中的屬性表示的，因此它們不是通過結構化查詢而是通過相似性搜索來檢索的，在這種搜索中，與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索，實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量，然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程，也稱為密集檢索 [73]。

因此，VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器；而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用，如LLMs，都是讀取密集型的，需要高查詢吞吐量和低延遲。其他應用，如電子商務，也是寫入密集型的，需要高寫入吞吐量。此外，一些應用需要高查詢準確性，這意味著檢索到的實體與查詢在語義上真正匹配，而其他應用可能對錯誤更為寬容。因此，開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解，但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞，但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞（例如 <, >, = 和 ∈）大多可以在O(1)時間內評估，但相似性比較通常需要O(D)時間，其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性，從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面，使磁盤檢索更加昂貴，同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的，導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序，也不是序數，這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作，如并集或交集，將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止，與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面，修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發，旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術，包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構，都是較近期的發明。

在本文中，我們首先從通用VDBMS的角度對這些技術進行調研，將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后，我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者，有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者，基本運算符是相似性投影，但由于它可能效率不高，因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統，這是通過向量搜索索引實現的。我們將索引分類為基于表的索引，如E2LSH [49]、SPANN [44] 和IVFADC [69]，這些索引通常容易更新；基于樹的索引，如FLANN [96]、RPTree [47,48] 和ANNOY [1]，旨在提供對數搜索；以及基于圖的索引，如KGraph [52]、FANNG [66] 和HNSW [90]，已經被證明在經驗上表現良好，但理論理解較少。為了解決劃分向量集合的難題，技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小，已經為壓縮向量上的索引開發了幾種技術，包括量化[62,69,91,113,129,133]，以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢，已經開發了幾種混合運算符，基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術，包括基于規則和基于成本的選擇[133,125]。對于查詢執行，有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符，利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術，即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統，這些系統專門圍繞向量管理設計，包括Vearch [81]、Milvus [125] 和Manu [63]；擴展系統在現有的數據管理系統之上增加向量功能，包括AnalyticDB-V [133] 和PASE [139]；以及搜索引擎和庫，旨在僅提供搜索功能，如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術，而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用，主要關注VDBMS的基本概念和用例。同樣，有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型，如時間序列和字符串，但VDBMS不支持。與這些其他數據類型的系統不同，VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分，我們在第6節簡要討論基準測試，然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

大模型 · 大型語言模型 · 信息檢索 · 搜索引擎 ·

2023 年 8 月 16 日

[付費5元查看完整內容]大模型如何重塑檢索？人大最新《大型語言模型在信息檢索中的應用》綜述，26頁pdf詳述大模型+檢索技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何使用大模型來進行檢索優化？看這篇綜述就夠了

作為信息獲取的主要手段，如搜索引擎等信息檢索（IR）系統已經融入了我們的日常生活。這些系統還作為對話、問答和推薦系統的組件。

信息檢索的軌跡從其基于術語的方法的起源動態地發展到與先進的神經模型的整合。雖然神經模型擅長捕捉復雜的上下文信號和語義細微差別，從而重塑信息檢索的格局，但它們仍然面臨如數據稀缺、可解釋性以及生成上下文可能的但可能不準確的回應等挑戰。

這種演變需要結合傳統方法（如基于術語的稀疏檢索方法與快速響應）和現代神經結構（如具有強大語言理解能力的語言模型）。與此同時，大型語言模型（LLMs），如ChatGPT和GPT-4，由于其出色的語言理解、生成、概括和推理能力，已經革命性地改變了自然語言處理。

因此，最近的研究已經尋求利用LLMs來改進IR系統。鑒于這一研究軌跡的快速發展，有必要整合現有的方法并通過全面的概述提供細致的見解。

在這項綜述中，我們深入探討了LLMs和IR系統的融合，包括查詢重寫器、檢索器、重新排序器和讀取器等關鍵方面。此外，我們還探討了這個不斷擴展領域內的有前景的方向。

//www.zhuanzhi.ai/paper/cfc9d30dab451b42c356f809ecf111a6

大模型驅動的信息檢索

信息訪問是人類日常基本需求之一。為了滿足快速獲取所需信息的需求，開發了各種信息檢索（IR）系統[1–4]。顯著的例子包括Google、Bing和Baidu等搜索引擎，它們在互聯網上作為IR系統，擅長根據用戶查詢檢索相關的網頁，并為用戶提供便捷、高效地訪問互聯網上的信息。值得注意的是，信息檢索超出了網頁檢索的范圍。在對話系統（聊天機器人）[1, 5-8]中，如微軟的小冰[2]、蘋果Siri1和Google助手2，IR系統在檢索與用戶輸入語言相應的適當回應中起到了關鍵作用，從而產生自然流暢的人機對話。同樣，在問答系統[3, 9]中，為了有效地解答用戶的問題，IR系統被用來選擇相關的線索。在圖像搜索引擎[4]中，IR系統擅長返回與用戶輸入查詢相符的圖片。鑒于信息的指數級增長，研究和產業對開發有效的IR系統越來越感興趣。

IR系統的核心功能是檢索，其目的是確定用戶發出的查詢與待檢索的內容之間的相關性，包括文本、圖像、音樂等各種類型的信息。在本綜述的范圍內，我們僅專注于審查那些文本檢索系統，其中查詢與文檔的相關性通常由它們的匹配得分來衡量。3考慮到IR系統操作大量的知識庫，檢索算法的效率變得至關重要。為了提高用戶體驗，檢索性能從上游（查詢重構）和下游（重新排序和閱讀）的角度得到了增強。作為一個上游技術，查詢重構旨在優化用戶的查詢，使其更有效地檢索到相關的文檔[10, 11]。隨著會話式搜索的日益受歡迎，這種技術受到了越來越多的關注。在下游方面，重新排序方法被開發出來，以進一步調整文檔的排名[12-14]。與檢索階段相比，重新排序僅在檢索器已經檢索到的有限集合的相關文檔上執行。在這種情況下，重點放在實現更高的性能而不是保持更高的效率，允許在重新排序過程中應用更復雜的方法。此外，重新排序可以滿足其他特定的需求，如個性化[15-18]和多樣化[19-22]。在檢索和重新排序階段之后，加入了一個閱讀組件，用于總結檢索到的文檔并為用戶提供簡潔的文檔[23, 24]。雖然傳統的IR系統通常要求用戶自己收集和整理相關信息；但是，閱讀組件是New Bing等新IR系統的一個不可分割的部分，簡化了用戶的瀏覽體驗，節省了寶貴的時間。

信息檢索（IR）的軌跡經歷了動態的演變，從其基于術語的方法的起源轉變為與神經模型的整合。最初，IR基于基于術語的方法[25]和布爾邏輯，專注于為文檔檢索進行關鍵詞匹配。隨著向量空間模型[26]的引入，這一范式逐漸發生了變化，釋放出捕獲術語之間細微的語義關系的潛力。這種進展隨著統計語言模型[27, 28]繼續發展，通過上下文和概率考慮來改進相關性估計。在這一階段，有影響力的BM25算法[29]起到了重要作用，通過考慮術語頻率和文檔長度的變化，徹底改變了相關性排名。IR歷程中的最新篇章是由神經模型的崛起[3, 30-32]標志的。這些模型擅長捕獲復雜的上下文提示和語義細節，重塑了IR的格局。然而，這些神經模型仍然面臨如數據稀缺、可解釋性以及可能生成合理但不準確回應等挑戰。因此，IR的演變仍然是一個平衡傳統優勢（如BM25算法的高效率）與現代神經結構所帶來的顯著能力（如語義理解）的旅程。

近年來，大型語言模型（LLMs）已在各種研究領域，如自然語言處理（NLP）[33-35]、推薦系統[36-39]、金融[40]，甚至分子發現[41]中嶄露頭角，成為變革的力量。這些前沿的LLMs主要基于Transformer架構，并在各種文本源上進行廣泛的預訓練，包括網頁、研究文章、書籍和代碼。隨著它們的規模繼續擴展（包括模型大小和數據量），LLMs在其能力上展現出了顯著的進步。一方面，LLMs在語言理解和生成方面展現出了前所未有的熟練程度，從而產生更像人類的響應，并更好地與人類的意圖對齊。另一方面，更大的LLMs在處理復雜任務[42]時展示了令人印象深刻的突發能力，如泛化和推理技能。值得注意的是，LLMs可以有效地應用其學到的知識和推理能力，只需幾個針對特定任務的示范或適當的指導即可解決新任務[43, 44]。此外，如基于上下文的學習這樣的先進技術，已經大大增強了LLMs的泛化性能，無需對特定的下游任務進行微調[34]。這一突破尤為寶貴，因為它減少了大量的微調需求，同時獲得了顯著的任務性能。通過使用如“思維鏈”這樣的提示策略，LLMs可以生成帶有逐步推理的輸出，導航復雜的決策過程[45]。無疑，利用LLMs的強大力量可以提高IR系統的性能。通過整合這些復雜的語言模型，IR系統可以為用戶提供更準確的回應，從根本上重塑信息訪問和檢索的格局。

已經進行了初步的嘗試，以利用LLMs在開發新型IR系統中的潛力。值得注意的是，就實際應用而言，New Bing旨在通過從不同的網頁中提取信息，并將其壓縮成簡潔的摘要作為用戶生成查詢的響應，從而改進用戶使用搜索引擎的體驗。在研究界，LLMs已在IR系統的特定模塊（如檢索器）中證明了其用途，從而增強了這些系統的整體性能。由于LLM增強型IR系統的迅速發展，全面審查它們的最新進展和挑戰至關重要。我們的綜述提供了對LLMs和IR系統交叉點的深入探索，涵蓋了關鍵視角，如查詢重寫器、檢索器、重新排名器和讀取器（如圖1所示）。這項分析加深了我們對LLMs在推進IR領域中的潛力和局限性的理解。為了這次綜述，我們創建了一個Github倉庫，收集了有關LLM4IR的相關論文和資源。我們將繼續使用新的論文更新倉庫。此綜述也將根據此領域的發展定期進行更新。我們注意到有幾篇關于PLMs、LLMs及其應用（例如AIGC或推薦系統）的綜述[46–52]。在這些中，我們強烈推薦LLMs的綜述[52]，它為LLMs的許多重要方面提供了系統而全面的參考。與它們相比，我們專注于為IR系統開發和應用LLMs的技術和方法。此外，我們注意到有一篇觀點論文討論了IR在遇到LLMs時的機會[53]。這將是關于未來方向的本次綜述的極好補充。

此綜述的其余部分組織如下：第2部分介紹IR和LLMs的背景。第3、4、5、6部分分別從查詢重寫器、檢索器、重新排名器和讀取器的四個視角審查了最近的進展，這是IR系統的四個關鍵組件。然后，第7部分討論了未來研究中的一些可能方向。最后，我們在第8部分總結了主要發現，結束這次綜述。

結論

在這項綜述中，我們對LLMs在IR的多個維度上的變革影響進行了深入的探索。我們根據它們的功能將現有方法組織成不同的類別：查詢重寫、檢索、重新排序和讀取模塊。在查詢重寫領域，LLMs已經展示了其在理解模糊或多面的查詢方面的有效性，增強了意圖識別的準確性。在檢索的背景下，LLMs通過使查詢和文檔之間的匹配更加細致，同時考慮上下文，提高了檢索的準確性。在重新排序領域，LLM增強的模型在重新排序結果時考慮了更多的語言細節。在IR系統中加入讀取模塊代表了向生成綜合性回應而不僅僅是文檔列表的重要一步。LLMs的整合到IR系統帶來了用戶與信息和知識互動方式的根本變化。從查詢重寫到檢索，重新排序和讀取模塊，LLMs已經通過高級語言理解、語義表示和上下文敏感處理豐富了IR過程的每一個方面。隨著這一領域的不斷進展，LLMs在IR中的旅程預示著一個更加個性化、精確和以用戶為中心的搜索體驗的未來。這項綜述著重于審查最近的將LLMs應用于不同信息檢索組件的研究。除此之外，LLMs的出現帶來了一個更大的問題：在LLMs的時代，傳統的IR框架是否還有必要？例如，傳統的IR旨在返回與發出的查詢相關的文檔的排名列表。然而，生成語言模型的發展引入了一個新的范例：直接生成對輸入問題的答案。此外，根據最近的一篇觀點論文[53]，IR可能會演變為多種系統的基本服務。例如，在一個多代理模擬系統[162]中，IR組件可以用于記憶回憶。這意味著未來的IR將會有許多新的挑戰。

付費5元查看完整內容

大模型 · 知識獲取 · 知識表示 · 知識探測 · 知識編輯 ·

2023 年 3 月 17 日

[付費5元查看完整內容]知識在大模型中如何用？中科院軟件所最新《大型語言模型知識生命周期》綜述，27頁pdf闡述知識獲取、表示、探測、編輯與應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

知識在人工智能中起著至關重要的作用。最近，預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大，但對于知識在語言模型中如何在整個學習、調優和應用過程中循環，仍然缺乏統一的觀點，這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期，并調研知識在構建、維護和使用時是如何循環的，來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究，總結了目前面臨的主要挑戰和局限性，并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說，人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來，預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練，PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力，因此在自然語言處理方面取得了顯著的成功(Devlin等人，2019;Liu等人，2019c;Raffel等人，2020;Radford等人，2019b;Brown等人，2020;Lewis et al.， 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路，人們探索了許多新的研究方向。例如，知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人，2019;Zhang等人，2019;Sachan等人，2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究，但目前的研究主要集中在PLMs中知識過程的一個特定階段，因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏，使得我們難以更好地理解不同基于知識的任務之間的聯系，難以發現PLMs中知識生命周期中不同時期之間的相關性，難以利用缺失的環節和任務來研究PLMs中的知識，也難以探索現有研究的不足和局限性。例如，雖然許多研究試圖評估語言模型中的知識，這些語言模型已經進行了預訓練，但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習，以及PLMs如何表示或存儲這些知識。與此同時，許多研究者試圖將各種結構性知識明確地注入到PLMs中，但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此，相關研究可能會過度關注于幾個方向，而不能全面理解、維護和控制PLMs中的知識，從而限制了改進和進一步應用。本文從知識工程的角度，系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al.， 1998;Schreiber等人，2000)，我們將預訓練語言模型視為基于知識的系統，并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人，1998;Schreiber et al.， 2000)。具體地，我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期，如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測，旨在評估當前PLM包含不同類型知識的情況。 知識編輯，試圖編輯或刪除語言模型中包含的知識。 知識應用，試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期，我們將梳理現有的研究，總結主要的挑戰和局限性，并討論未來的發展方向。基于統一的視角，我們能夠理解和利用不同時期之間的緊密聯系，而不是將它們視為獨立的任務。例如，理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法，可以幫助我們找到適合PLM的應用，并深入了解其局限性，從而促進改進。通過綜述，全面總結當前研究的進展、挑戰和局限性，幫助研究人員從一個新的視角更好地理解整個領域，并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視，并將PLM中的知識生命周期劃分為五個關鍵時期。對于每個時期，回顧了現有的研究，總結了每個方向的主要挑戰和缺點。基于這篇綜述，討論了當前研究的局限性，并揭示了潛在的未來方向。

概述在本節中，我們將介紹本綜述的總體結構，詳細描述圖2所示的分類法，并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前，知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識，語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人，2019;Liu等人，2019c;Brown等人，2020;Raffel等人，2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人，2020;Pérez-Mayos等，2021;劉等，2021c)。為了從結構化數據中獲取知識，目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人，2019;熊等，2020;Peters等人，2019)，事實知識(Zhang等人，2019;王志強，楊志強，楊志強;Liu等人，2020)，常識知識(Bosselut等人，2019;Ye等人，2019;Guan等人，2020;Ma等人，2021)和語言知識(Ke等人，2020;Lauscher等人，2020;Zhou等人，2019;Bai等人，2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識，也可能啟發研究者更好地理解人類大腦中的知識表示。目前，PLMs中知識表示分析的策略包括基于梯度的(Geva等人，2021;Dai等人，2022a)、因果啟發(孟等人，2022)、基于注意力的(Clark等人，2019;Htut等人，2019;Lin等人，2019)和分層(Lin等人，2019;Liu等人，2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前，對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測，通常構建知識指示的提示，然后使用這些自然語言表達式查詢PLMs (Petroni et al.， 2019;Jiang等，2020a;Sung等人，2021;《福布斯》等人，2019;Zhou等，2020a)。例如，用“The capital of France is .”查詢PLMs，以評估PLMs是否存儲了相應的知識。同時，為了提高plm的性能，一系列研究致力于優化兩個離散的提示(Jiang等人，2020b;Davison等人，2019;Haviv等人，2021;Shin等人，2020)和持續空間(Zhong等人，2021;李和梁，2021a;Liu等，2021b)。盡管基于提示的探索得到了廣泛應用，但許多研究也指出，仍然存在一些懸而未決的問題，如不一致(Elazar等人，2021;Kassner和Schütze, 2020;Jang等人，2022;Cao等人，2022)，不準確(perner等人，2020;鐘等，2021;Cao et al.， 2021)和不可靠(Cao et al.， 2021;Li et al.， 2022a)，并對基于提示探測的數量結果提出質疑。2)基于特征的探測，通常凍結原始plm的參數，并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人，2019;Tenney等人，2019;Clark等人，2019;Liu等人，2019a)和無分類器探測(Wu等人，2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據，基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新，可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人，2020)，基于記憶的(Mitchell等人，2022;Madaan等人，2022;Dong等人，2022)，元學習啟發(De Cao等人，2021;Hase等人，2021年;Mitchell等人，2021)和基于位置的方法(Dai等人，2022a;孟等，2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識，以使進一步的應用受益。**目前，PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs)，將語言模型視為密集的知識庫，可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人，2019;Heinzerling和Inui, 2021年;蔣等人，2020b;王等人，2020;Cao等，2021;Razniewski等人，2021年;AlKhamissi等人，2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al.， 2021)進行了全面比較;2)下游任務的語言模型，通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人，2020;Wei等，2021b;Yang等人，2021;Yin等人，2022)，快速學習(Radford等人，2019a;Brown等人，2020;Liu等人，2021a)和上下文學習(Brown等人，2020;Zhao等人，2021;陸等人，2022)。我們將在第7節討論它們。