本教程全面調查了用于微調擴散模型以優化下游獎勵函數的方法。雖然擴散模型因其出色的生成建模能力廣為人知，但在生物學等領域的實際應用中，需要生成最大化某些期望指標（如RNA的翻譯效率、分子的對接評分、蛋白質的穩定性）的樣本。在這些情況下，擴散模型不僅可以生成逼真的樣本，還可以明確地最大化感興趣的度量。這些方法基于強化學習（RL）的概念。我們解釋了各種RL算法的應用，包括PPO、可微優化、獎勵加權最大似然估計（MLE）、價值加權采樣和路徑一致性學習，這些算法專門用于微調擴散模型。我們旨在探索基本方面，例如不同RL微調算法在各種場景中的優缺點、RL微調相對于非RL方法的好處，以及RL微調的正式目標（目標分布）。此外，我們還將探討它們與相關主題的聯系，如分類器指導、Gflownets、基于流的擴散模型、路徑積分控制理論和從非標準化分布（如MCMC）中采樣。本教程的代碼可在//github.com/masa-ue/RLfinetuning Diffusion Bioseq獲得。

擴散模型（Sohl-Dickstein等，2015；Ho等，2020；Song等，2020）被廣泛認為是強大的生成建模工具。它們能夠通過緊密模擬訓練數據的特征來準確地建模復雜的分布。擴散模型在多個領域有許多應用，包括計算機視覺（Podell等，2023）、自然語言處理（Austin等，2021）、生物學（Avdeyev等，2023；Stark等，2024；Li等，2023）、化學（Jo等，2022；Xu等，2022；Hoogeboom等，2022）以及生物學（Avdeyev等，2023；Stark等，2024；Campbell等，2024）。盡管擴散模型在捕捉訓練數據分布方面表現出顯著的能力，但常常需要根據特定的下游獎勵函數對這些模型進行定制。例如，在計算機視覺領域，Stable Diffusion（Rombach等，2022）作為一個強大的預訓練模型骨干，但我們可能希望通過優化下游獎勵函數（如美學評分或人類對齊評分（Black等，2023；Fan等，2023））來進一步微調它。同樣，在生物學和化學等領域，已經開發出各種復雜的擴散模型用于DNA、RNA、蛋白質序列和分子，有效地建模生物和化學空間。然而，生物學家和化學家通常旨在優化特定的下游目標，如DNA序列中的細胞特異性表達（Gosai等，2023；Lal等，2024；Sarkar等，2024）、RNA序列的翻譯效率/穩定性（Castillo-Hair和Seelig，2021；Agarwal和Kelley，2022）、蛋白質序列的穩定性/生物活性（Frey等，2023；Widatalla等，2024）或分子的QED/SA評分（Zhou等，2019）。為了實現這一目標，已經提出了許多通過強化學習（RL）微調擴散模型的算法（如Black等，2023；Fan等，2023；Clark等，2023；Prabhudesai等，2023；Uehara等，2024），旨在優化下游獎勵函數。RL是一種機器學習范式，代理通過學習進行順序決策以最大化獎勵信號（Sutton和Barto，2018；Agarwal等，2019）。在我們的背景下，RL由于擴散模型固有的順序結構，自然而然地成為一種合適的方法，其中每個時間步涉及一個“決策”，對應于該步樣本的去噪方式。本教程旨在回顧最近的研究成果，為對從整體角度理解基于RL的微調基礎知識感興趣的讀者提供幫助，包括基于RL的微調相對于非RL方法的優勢、不同RL微調算法的優缺點、RL微調的正式目標及其與分類器指導等相關主題的聯系。本教程的內容主要分為三個部分。此外，作為實現示例，我們還發布了利用RL微調進行引導的生物序列（DNA/RNA）生成的代碼，地址為： Diffusion Bioseq。

我們旨在提供當前算法的全面概述。特別是，鑒于擴散模型的順序特性，我們可以自然地將微調框架為馬爾可夫決策過程（MDP）中的強化學習（RL）問題，如第3和第4節所述。因此，我們可以采用任何現成的RL算法，例如PPO（Schulman等，2017）、可微優化（直接獎勵反向傳播）、加權MLE（Peters等，2010；Peng等，2019）、價值加權采樣（類似于Dhariwal和Nichol（2021）中的分類器指導）以及路徑一致性學習（Nachum等，2017）。我們在第4.2和第6節詳細討論了這些算法。我們不僅僅列出每個算法，還旨在呈現它們的優缺點，以便讀者可以根據自己的具體目的選擇最合適的算法。
我們在第7節根據獎勵反饋的獲取方式分類了各種微調場景。這一區分對實際算法設計至關重要。例如，如果我們可以獲得準確的獎勵函數，計算效率將成為我們的主要關注點。然而，在獎勵函數未知的情況下，必須從具有獎勵反饋的數據中學習它們，從而需要考慮反饋效率和分布轉移的問題。特別是，當需要從靜態離線數據中學習獎勵函數而沒有任何在線交互時，我們必須解決過度優化的問題，即微調模型被分布外樣本誤導，生成低真實獎勵的樣本。這一點非常重要，因為在離線場景中，具有反饋的離線數據分布的覆蓋范圍有限，因此分布外區域可能非常廣泛（Uehara等，2024）。
我們詳細討論了基于RL的微調方法與文獻中密切相關的方法之間的關系，如第8節中的分類器指導（Dhariwal和Nichol，2021）、第9節中的基于流的擴散模型（Liu等，2022；Lipman等，2023；Tong等，2023）、第10節中的非標準化分布采樣（Zhang和Chen，2021）、第6.3節中的Gflownets（Bengio等，2023）以及第6.2.3節中的路徑積分控制理論（Theodorou等，2010；Williams等，2017；Kazim等，2024）。我們總結了以下關鍵信息：

第6.3節：Gflownets中使用的損失本質上等同于從一種特定RL算法——路徑一致性學習中導出的損失。
第8節：在條件生成中使用的分類器指導被視為一種特定的基于RL的微調方法，我們稱之為價值加權采樣。正如Zhao等（2024）中形式化的那樣，這一觀察表明，任何現成的基于RL的微調算法（如PPO和可微優化）都可以應用于條件生成。
第10節：從非標準化分布（通常稱為吉布斯分布）中采樣在各個領域都是一個重要且具有挑戰性的問題。盡管MCMC方法傳統上用于解決這一任務，但認識到其與基于RL的微調目標的相似性，表明現成的RL算法也可以有效地解決從非標準化分布中采樣的挑戰。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

大語言模型 · 偏好學習 · 綜述論文 ·

2024 年 9 月 7 日

[付費5元查看完整內容]邁向大語言模型偏好學習的統一視角綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大語言模型（LLMs）展現了極其強大的能力。實現成功的一個關鍵因素是將LLM的輸出與人類偏好對齊。這一對齊過程通常只需要少量數據就可以有效提升LLM的性能。盡管效果顯著，但該領域的研究涉及多個領域，所采用的方法相對復雜且難以理解。不同方法之間的關系研究較少，這限制了偏好對齊的進一步發展。有鑒于此，我們將現有的流行對齊策略分解為不同的組成部分，并提供了一個統一的框架來研究當前的對齊策略，從而建立它們之間的聯系。在本綜述中，我們將偏好學習中的所有策略分解為四個組成部分：模型、數據、反饋和算法。這個統一視角不僅能夠深入理解現有的對齊算法，還為不同策略的優勢協同提供了可能性。此外，我們還提供了詳細的現有算法工作示例，以幫助讀者全面理解。最后，基于我們的統一視角，我們探討了將大語言模型與人類偏好對齊所面臨的挑戰和未來的研究方向。

以ChatGPT為代表的大語言模型（LLMs）的崛起展示了令人印象深刻的語言能力和專業素養，能夠提供正確、禮貌且知識淵博的回答，這令人驚訝且值得欽佩。這種表現很大程度上要歸功于偏好對齊過程，這是LLM在公開部署前必須經歷的一個必要步驟，旨在防止其可能生成冒犯性、有害或誤導性的內容。盡管大語言模型（LLMs）在各個領域展現了卓越的能力 [19, 93, 115, 139]，但它們在倫理 [54]、安全 [63, 106, 128] 和推理 [73, 123, 142] 方面仍面臨挑戰。為了應對這些問題，出現了許多與對齊相關的舉措 [28, 88, 94, 98]，這也激發了本次綜述的興趣。雖然許多研究 [109, 124] 廣泛討論了對齊的概念，但偏好學習的各種算法之間的關系仍然支離破碎，缺乏統一的框架來將它們結合起來。為了彌補這一差距，我們旨在提供一個系統的偏好對齊框架，如圖1所示。通過將相關工作整合到這一框架中，我們希望為研究人員提供全面的理解，并為在特定領域的進一步探索奠定基礎。傳統的分類視角 [53, 109, 124] 通常將現有方法分為基于強化學習（RL）的方法，如RLHF [94]，它需要獎勵模型用于在線RL；以及基于監督微調（SFT）的方法，如直接偏好優化（DPO）[98]，它在離線環境中直接進行偏好優化。然而，這種分類無意中在兩類工作之間形成了一道障礙，不利于研究人員對偏好對齊核心內容的進一步理解。因此，我們致力于為這兩類方法建立統一的視角，并引入創新的分類框架。

這個新框架基于兩個關鍵見解：首先，在線策略（on-policy）與離線策略（off-policy）設置之間的區別，實質上取決于不同的數據來源，這可以與PPO或DPO等算法解耦。在線策略要求策略模型實時生成其數據，具體來說，被優化的LLM必須實時生成下一次訓練的迭代數據。而離線策略允許多種數據源，只要這些數據是提前收集的，而不需要策略模型同時生成。許多當前的工作采用特定算法在在線和離線設置之間的轉換 [39, 105]。因此，我們不使用在線或離線作為算法分類的標準。其次，受現有工作 [105] 的啟發，強化學習和監督微調方法的優化目標本質上非常相似。不同之處在于，基于強化學習的方法通常需要一個獎勵模型來計算進一步訓練的獎勵，而監督微調算法可以直接通過各種形式的偏好進行優化，如更好的對齊輸出、偏好關系中的成對或列表對比。有了統一的視角，我們可以將反饋定義為一系列能夠生成與人類判斷一致的偏好的工具，例如獎勵模型、人類標注者、更強大的模型（如GPT-4）以及各種規則。基于這些考慮，我們將偏好學習過程劃分為數據、反饋、偏好優化和評估。我們的分類框架如圖2所示。總之，我們的論文調查并整理了與LLM偏好學習相關的現有工作，提供了一個統一且新穎的視角。此外，基于這篇綜述的內容，我們總結了該領域的幾個未來研究方向，旨在為進一步的研究提供見解。

在本節中，我們首先為LLM的偏好學習提供定義：給定一般人類偏好分布P(??, ??)，其中??是一個提示，??是LLM的相應輸出，LLM的偏好學習????是一種生成新的LLM ????′的范式，使其對齊于P(??, ??)，即P(??, ????′(??)) > P(??, ????(??))。為了使LLMs學習人類偏好，這一過程通常涉及提供一個輸入??和相應的響應??的數據樣本，以及一個帶有人類偏好P(??, ??)的環境來對其進行反饋。與人類偏好一致的樣本會被賦予更高的獎勵，可能表現為正面標簽、在偏好排序中的較高位置，或較高的獎勵分數。在獲得數據后，策略模型????′通過特定算法進行優化。此外，根據這一定義，有必要解釋LLMs偏好學習與一些相關概念之間的關系。(1) 對齊：根據Kenton等人的研究 [58]，對齊是指關注解決所謂的行為對齊問題的研究：我們如何創建一個能夠按照人類意愿行事的代理？基于這一定義，我們將LLMs的偏好學習視為旨在實現對齊的一類方法。本論文的范圍僅限于文本偏好對齊，不涉及其他廣為人知的對齊話題，如幻覺、多模態對齊和指令微調。(2) 從人類反饋中進行強化學習（RLHF）：與RLHF不同，本論文的范圍不僅包括基于強化學習的方法，還涵蓋了傳統的基于監督微調（SFT）的方法。此外，我們采用了一個統一的視角來研究基于強化學習和監督學習的方法。

結論

在本綜述中，我們將偏好學習的策略分解為幾個模塊：模型、數據、反饋和算法。通過根據它們的變體區分不同的策略，我們構建了一個統一的偏好學習策略視角，并在它們之間建立了聯系。我們認為，盡管這些對齊算法的核心目標本質上是相似的，但它們的表現可能在不同的應用場景中有顯著差異。我們將探索哪種變體在特定背景下表現更好作為未來的研究工作。最后，我們希望本綜述能夠為研究人員提供對偏好學習的進一步理解，并激發該領域的更多研究。

付費5元查看完整內容

大型語言模型 · 終身學習 ·

2024 年 6 月 15 日

[付費5元查看完整內容]大語言模型的終身學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大語言模型（LLM）在各個領域的應用不斷擴大，它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應，整合新知識，同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀，根據新知識的整合方式將策略分為兩類：內在知識，LLM通過完全或部分訓練將新知識吸收到其參數中；外部知識，通過將新知識作為外部資源（如維基百科或API）引入而不更新模型參數。我們的綜述的主要貢獻包括：（1）引入了一種新穎的分類法，將終身學習的大量文獻劃分為12種情景；（2）識別了所有終身學習情景中的常見技術，并將現有文獻分類到不同的技術組中；（3）強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型（LLM）在各個領域的應用不斷擴大，這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM，越來越無法應對現實世界信息的動態特性。終身學習（也稱為持續學習、增量學習），或LLM在其運行生命周期內持續和自適應學習的能力，解決了這一挑戰，通過整合新知識，同時保留先前學習的信息，從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域，根據新知識的整合方式將策略分為兩大類：內在知識和外部知識。每個類別包含不同的方法，旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中，包括持續預訓練和持續微調等策略。例如，在工業應用中，常采用持續垂直領域預訓練，公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能，但也有可能削弱模型的廣泛知識基礎，說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法，如文本分類、命名實體識別、關系抽取和機器翻譯等，以及任務無關的方法，如指令微調、對齊和知識編輯。此外，在持續對齊中使用了人類反饋的強化學習，以確保LLM遵守人類價值觀，如安全和禮貌，突顯了所謂的“對齊稅”，即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源（如維基百科或API）引入，而不更新模型參數，包括基于檢索和工具的終身學習，利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略，如檢索增強生成，通過提供上下文相關、準確和最新的外部數據庫（如維基百科）信息來增強文本生成，確保模型輸出隨時間保持相關性。同時，工具學習類借鑒人類工具使用的類比，模型學習使用外部計算工具，從而無需直接修改其核心知識庫，拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查，本文旨在強調將終身學習能力整合到LLM中，從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新，本綜述旨在為開發更強大和多功能的LLM做出貢獻，使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來，終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡（CNN）的終身學習，探討了CNN的各種終身學習情景，包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外，一些綜述探討了圖神經網絡的終身學習。然而，只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理（NLP）中終身學習的早期綜述，但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景，包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧，包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向（或垂直持續學習）和水平方向（或水平持續學習）兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式，包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻，但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景，并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知，我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括：

新穎的分類法：我們引入了一個詳細且結構化的框架，將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**：我們在所有終身學習情景中識別了常見技術，并將現有文獻分類到每個情景內的各種技術組中。

未來方向：我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向，并總結了本綜述。

付費5元查看完整內容

ICML 2024 · 半監督學習 · 基礎模型 ·

2024 年 5 月 23 日

[付費5元查看完整內容][ICML2024]消除偏差：微調基礎模型以進行半監督學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

半監督學習（SSL）取得了顯著進展，催生了許多方法變體。然而，實踐者在嘗試部署這些方法時常常遇到性能不佳的挑戰。在本文中，我們提出了一種名為FINESSL的新型SSL方法，通過適應預訓練的基礎模型顯著解決了這一限制。我們識別了基礎模型中固有的聚合偏差和認知偏差問題，并提出了一個簡單而有效的解決方案，通過引入平衡邊緣軟最大值和解耦標簽平滑。在廣泛的實驗中，我們證明了FINESSL在多個基準數據集上設立了SSL的新標準，訓練成本降低了六倍以上，并且可以無縫集成各種微調和現代SSL算法。源碼可在//github.com/Gank0078/FineSSL獲取。

付費5元查看完整內容

大型語言模型 · 持續學習 ·

2024 年 4 月 26 日

[付費5元查看完整內容]《大型語言模型持續學習》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在靜態、預先收集的通用數據集上的訓練取得的最近成功，已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習（CL）社區進行了廣泛研究，但在LLMs領域呈現出新的表現形式。在這篇綜述中，我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外，這篇綜述被分為四個主要部分：我們首先描述了持續學習LLMs的概覽，包括兩個連續性方向：垂直連續性（或垂直持續學習），即從一般到特定能力的持續適應；和水平連續性（或水平持續學習），即跨時間和領域的持續適應（第3節）。在垂直連續性之后，我們總結了在現代CL背景下學習LLMs的三個階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。然后我們提供了LLMs的持續學習評估協議的概覽，以及當前可用的數據來源（第5節）。最后，我們討論了有關LLMs持續學習的引人深思的問題（第6節）。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域，表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準，以及專門設計的方法論，以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型（LLMs）的進步顯示了實現人工普遍智能（AGI）的巨大潛力。研究人員觀察到，隨著參數規模的增加，多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性，促使機器學習從業者重新考慮傳統的計算范式，用于處理一些曾經具有挑戰性的人類水平任務，如問答、機器翻譯和對話系統。然而，LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練，導致性能隨時間逐漸降低，并且在不同內容領域之間也會降低。此外，單一的預訓練大模型無法滿足每個用戶的需求，需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案，但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務，同時盡量減少對以前知識領域的性能退化，研究者采用了持續學習的方法，也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發，涉及按順序在一系列任務上訓練機器學習模型，期望在所有任務中保持性能。在訓練過程中，模型對以前的數據有限或無法訪問，這在保留過去知識時構成了一個挑戰，因為在當前任務學習時，來自未見過的以前數據的優化約束是不存在的。這一挑戰，被稱為災難性遺忘，自持續學習研究開始以來一直是研究的中心焦點。多年來，研究者探索了各種技術來減輕機器學習模型中的遺忘，這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下，CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變，在這篇綜述中，我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況，我們將其分為兩個需要由從業者解決的連續性方向（第3節）：

垂直連續性（或垂直持續學習），指的是LLMs從大規模通用領域到小規模特定領域的持續適應，涉及學習目標和執行實體的轉變。例如，醫療機構可能開發專門為醫療領域定制的LLMs，同時保留其一般推理和問答能力，以服務用戶。
水平連續性（或水平持續學習），指的是跨時間和領域的持續適應，通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如，社交媒體平臺不斷更新LLMs以反映最近的趨勢，確保精確地定位下游服務如廣告和推薦，同時為現有用戶提供無縫的用戶體驗。

在圖1中，繼垂直連續性之后，我們勾畫了現代CL中LLM學習的三個關鍵階段：持續預訓練（CPT）、領域適應性預訓練（DAP）和持續微調（CFT）（第4節）。在CPT中，現有研究主要調查三種類型的分布式轉變：時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中，雖然它主要被視為為下游任務準備LLMs的過程，但頻繁地使用CL評估和技術。然而，這些技術的多樣性明顯不足，考慮到傳統CL社區的成熟度。在CFT中，我們關注的是學習LLMs的新興領域，涵蓋持續指令調整（CIT）、持續模型精煉（CMR）、持續模型對齊（CMA）和持續多模態LLMs（CMLLMs）等主題。接下來，我們呈現了一系列公開可用的評估協議和基準（第5節）。我們總結我們的綜述，討論了LLMs持續學習的最新出現的特性，傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化，以及這個主題的潛在研究方向（第6節）。總結而言，本文提供了一份詳盡的現有持續學習研究LLMs的綜述，顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域，特別是在持續預訓練（CPT）和領域適應性預訓練（DAP）領域的研究。我們強調需要社區更多的關注，迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外，需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角，在迅速變化的LLMs領域中，幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看，它可以大致分為三個階段的LLMs持續訓練，我們將在第4節逐一介紹每個階段。在4.3節中，將介紹持續微調LLMs的獨特方面，包括持續指令調整（4.3.3節）、持續模型精煉（4.3.4節）、持續模型對齊（4.3.5節）和持續多模態大型語言模型（4.3.6節）。在第5節中，我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后，在第6節中，我們討論了在大型語言模型時代持續學習的角色，包括大規模持續LLMs的新興能力（6.1節）、三種類型的持續學習（6.2節）、LLMs持續學習中的記憶角色（6.3節）以及未來的研究方向（6.4節）。持續學習與大型語言模型相遇：概覽****大型語言模型（LLMs）在多個維度上都非常龐大，包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰，特別是在快速變化的環境中保持更新。舉例來說，2023年，用戶發布的新推文的平均每日流量超過5億，即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時，有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側，模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后，消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率，他們最初對持續預訓練的LLMs進行了幾項關鍵觀察，聚焦于模式連接性和功能相似性。此外，他們提出在上游預訓練LLM進行重大更新后，復用過時的微調組件。基于《可回收調整》引入的概念框架，我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架，涉及持續LLM預訓練、適應和部署，如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向：垂直連續性和水平連續性。

結論

在這項工作中，我們提供了一份關于持續LLMs的綜述，從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置，對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長，但我們也注意到幾個缺失的基石，包括算法多樣性以及對大模型行為（如知識遺忘、轉移和獲取）的基本理解。通過全面而詳細的方法，我們希望這篇綜述能激勵更多從業者探索持續學習技術，最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

大語言模型 · 模型壓縮 · 高效推理 · 量化 · 剪枝 ·

2024 年 2 月 17 日

[付費5元查看完整內容]大型語言模型的模型壓縮與高效推理：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于Transformer的大型語言模型取得了巨大成功。然而，在推理過程中產生的顯著內存和計算成本，使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中，我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言，類似于較小的模型，大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而，與較小模型相比，大型語言模型有兩個突出的特點：（1）大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此，許多針對大型模型的算法，如量化和剪枝，開始探索無需調整的算法。（2）大型模型強調的是通用性和泛化能力，而不是在單一任務上的性能。因此，許多算法，如知識蒸餾，關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯，我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外，我們還提供了一些成熟框架的介紹，這些框架可以支持大型模型的高效推理，支持基本的壓縮或加速算法，極大地便利了用戶的模型部署。

大型語言模型（LLMs）已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比，LLMs（例如ChatGPT、LLaMA、Claude）對未見數據顯示出了更強的泛化能力。此外，它們甚至展現出了較小模型所不具備的能力（即，突現能力），如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而，在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如，一個帶有float32權重的10B模型消耗37GB內存，更不用說隨著序列長度增加，推理內存成本會以平方速度進一步增加。為了在資源受限的設備上，甚至是移動設備上部署模型，許多LLMs采用模型壓縮方法，如量化，以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的（甚至是預訓練的）模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本，以便模型可以在各種資源受限的設備上運行。從算法上講，常見的模型壓縮方法包括：

量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外，較少的位可能表示更高的并行性和更快的推理速度。
剪枝致力于移除預設計模型中不重要的組件（例如，神經元，層等），從而減少推理成本中的內存和計算成本。
知識蒸餾引入一個預訓練的大模型作為教師，并將其知識轉移到一個新的較小的模型上，后者稱為學生模型。然后，較小的模型將幾乎擁有與教師相同的能力，并享受較少的內存和計算成本。
緊湊架構設計設計新的運算符，以較低的成本替換（通常是近似）原始模型中的笨重運算符。對于Transformer模型，自注意力是主要目標，通常被其他運算符替換。
動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網，每個樣本只選擇超網的一個子結構進行推理。專家混合（MoE）是一種動態推理。此外，上述方法也可以組合使用，以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而，LLMs也為模型壓縮帶來了許多新的挑戰：

許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而，由于微調LLMs的巨大預算，研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務（如神經機器翻譯）不同，大型語言模型強調跨各種任務和未見數據的通用性和泛化能力，甚至是突現能力。因此，壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。面對這些挑戰，提出了許多專門針對LLMs的壓縮方法。在本文中，我們將對這些方法進行全面綜述。為了更好地展示這些方法，我們進一步將參數約為十億或更少的語言模型，如BERT、GPT2，稱為中等模型，盡管它們通常被視為大型語言模型。參數超過十億的模型，如LLaMA、Claude、ChatGPT等，保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小，即中等模型相對容易進行微調，展示較少的突現能力。結果，許多針對中等模型的壓縮方法仍與較小模型的方法相似。以下各節的組織如下：第2節將介紹一些初步知識。然后，我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值（在一個大的（通常是連續的）集合中）映射到輸出值（在一個小的（通常是有限的）集合中）的過程（例如，見圖2）。量化是減少內存成本和提高LLMs推理速度的最直接方法，特別是在支持低位數據類型（如INT4）快速操作的硬件上。值得注意的是，量化在神經網絡訓練和推理中都取得了令人印象深刻的成功，而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法（如剪枝和蒸餾）有幾個優勢。1）高壓縮比：將LLMs中的權重從32位浮點數量化為4位整數，可以將模型大小大幅壓縮至大約1/8，這對于內存受限的過程（如LLMs推理）至關重要。2）低成本：許多量化方法不需要重新訓練整個LLMs，使其對于計算資源有限的研究人員更加可行。3）高靈活性：量化與大多數其他壓縮方法兼容，為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法，我們首先在3.1小節介紹標準量化方法和一些基本概念。然后，在3.2節，我們將簡要總結LLMs出現之前一些針對中等大小語言模型（如BERT，GPT2等）的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難，我們根據技術是否需要重新訓練，將LLMs量化方法分為兩部分。不需要重新訓練的方法（即，訓練后量化，PTQ）在3.3節討論，而需要重新訓練的方法（即，量化感知訓練，QAT）在3.4節討論。最后，在3.5節，我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術，用于壓縮和加速神經網絡，剪枝通過消除模型中非必需的權重或結構，同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡（CNNs）中顯示出顯著結果，但與量化和蒸餾等其他壓縮技術相比，其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大，微調的高成本使得實現剪枝的全部效果變得更加困難。然而，剪枝是壓縮模型的關鍵技術，需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分，我們將在4.1節提供剪枝方法和基本概念的概覽。隨后，在4.2節，我們將詳細闡述為中等大小語言模型（即，參數達到數十億的模型）量身定制的剪枝技術，鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后，在4.4節，我們將介紹一些輔助技術，這些技術雖然不是剪枝方法，但與剪枝相關，用于改進LLMs的剪枝結果，并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾（KD）是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中，從而實現教師模型知識的更簡潔高效的表示。在5.1節中，我們將介紹知識蒸餾的一些基本概念，并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型（具有大約10億參數的語言模型）的各種知識蒸餾方法，并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后，我們將在5.3節提供大型語言模型（具有超過10億參數的語言模型）知識蒸餾的詳細概述，將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學，其目標是通過優化網絡結構和算法，在減少計算資源和內存使用的同時，實現模型效率的顯著提升。具體而言，它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分，并且對于大型和中等大小模型來說沒有區別，因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理（NLP）任務上性能的有效方法。然而，擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題，同時仍然利用規模增加的好處，動態神經網絡（DyNNs）只針對每個輸入處理網絡的一個子集，使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域，當前對DyNNs的研究主要包括以下三種方法：提前退出、級聯推理和專家混合（MoE）。提前退出旨在動態地在深度神經網絡（DNNs）的早期層次終止推理過程，從而減少計算成本并提高響應時間。直覺是，對于不太復雜的詞匯，往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器，這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型，如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統，以確定輸入查詢的處理策略，并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢，并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度，并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標，以決定是否利用更強大的LLMs。一般來說，這一系列工作最近才出現，并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比，MoE的研究有著橫跨多個機器學習領域（包括NLP）的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡（FFN），其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中，以提供高效而強大的服務。因此，在本節的剩余部分，我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念，接著是對將MoE整合到LLMs中的當代研究的廣泛綜述，包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧，這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起，突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展，出現了各種模型。由于不同的應用場景，它們在延遲、吞吐量、內存等方面有著額外的需求，這使得我們難以部署模型。在本節中，我們介紹了一些最近開發的針對LLM的推理加速框架，這些框架有效地提高了不同場景下模型的效率，如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357]，由于本文關注于推理，我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理，可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中，我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查，包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外，我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而，正如我們在引言中提到的，與較小模型相比，大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰，但許多算法仍然依賴于為壓縮小型模型而設計的框架，壓縮大型模型的挑戰依然存在。未來，需要進一步探索，以開發更高效、更有效的壓縮算法，同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

3D場景理解 · 多模態學習 · 視覺語言學習 · 深度學習 ·

2023 年 10 月 28 日

[付費5元查看完整內容]《多模態3D場景理解》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比，引入額外的模態不僅提高了場景解釋的豐富性和精確性，而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中，這尤為重要，因為僅依賴3D數據可能是不夠的。盡管在過去三年中，多模態3D方法的發展呈現上升趨勢，尤其是那些整合多攝像頭圖像（3D+2D）和文本描述（3D+語言）的方法，但值得注意的是，缺乏一個全面且深入的綜述。在這篇文章中，我們提供了最近進展的系統性調研，以填補這一空白。我們首先簡要介紹一個背景，正式定義各種3D多模態任務并總結其固有的挑戰。之后，我們提出了一個新穎的分類法，根據模態和任務對現有方法進行了全面分類，探索了它們各自的優勢和局限性。此外，我們還提供了最近方法在幾個基準數據集上的比較結果，以及深入的分析。最后，我們討論了尚未解決的問題，并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息，如2D圖像和自然語言，多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置，并創建場景的新品牌內容和風格。與僅使用3D點云相比，2D圖像的加入提供了額外的顏色和紋理信息，而自然語言的引入則實現了人機交互。因此，多模態3D場景理解已成為計算機視覺中的一個重要研究領域，應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為：(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息，這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節，對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反，2D相機圖像通常包含豐富的顏色、紋理和背景，但缺乏幾何信息，且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地，利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異，因為LiDAR傳感器通過360度旋轉捕獲點云，而相機從透視視圖捕獲圖像，沒有深度感[16]。為了解決這個問題，提出了一些3D+2D場景理解方法，通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征，這些方法可以進一步執行3D物體檢測和分割[19], [20], [21]，這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識，這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機，實現信息交換并獲得個性化的結果。為了實現便捷的人機交互，研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30]，因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互，經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術，3D+語言場景理解方法不僅可以定位用戶提到的實體（例如，視覺定位和開放詞匯識別），還可以生成用戶所需的內容（例如，密集字幕，視覺問題回答，場景生成）。

盡管近年來出現了眾多方法，但多模態3D場景理解的很大一部分仍然分散在不同的任務中，并且沒有此類系統的調查存在。因此，有必要系統地總結近期的研究，全面評估不同方法的性能，并有前瞻性地指出未來的研究方向。這激發了本次調查，將填補這一空白。本文的主要貢獻可以總結為：

? 關于多模態3D場景理解的系統性調查。據我們所知，這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解，我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類，如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線，同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較，討論了一些有前途的未來研究方向，包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后，第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外，我們提供了對幾個基準數據集的最新進展的比較結果，并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中，仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制，主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外，高效的遷移學習方法，包括像提示調整[177]和LORA[178]這樣的技術，通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本，當前的許多研究都局限于小規模數據集。因此，強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要，從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果，通過無監督和弱監督學習方法。此外，使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究，這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積，計算需求可能會顯著增加。因此，計算效率高的3D模型變得至關重要。為了應對這一挑戰，采用模型壓縮技術，如量化[179]、修剪[180]和高效結構[181]，對于減少計算復雜性至關重要。此外，利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署，為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展，但主要的重點仍然是圖像和語言。我們設想將更多的模式，如音頻，納入一個綜合模型來適應它們的聯合分布，這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺，提高現有的多模態3D模型的效果可能更為有效，通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

擴散模型 · Transformer ·

2022 年 12 月 22 日

[付費5元查看完整內容]Transformer如何做擴散模型？伯克利最新《transformer可擴展擴散模型》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型，用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性，最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型，在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT

1. 引言

在transformers的推動下，機器學習正在復興。在過去的五年中，自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而，許多類別的圖像級生成模型仍然堅持這一趨勢，盡管transformer在自回歸模型中被廣泛使用[3,6,40,44]，但在其他生成模型框架中被采用的較少。例如，擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而，它們都采用卷積U-Net架構作為事實上的骨干選擇。

Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55]，一個自回歸生成模型，有一些架構上的變化。該模型是卷積的，主要由ResNet[15]塊組成。與標準的U-Net[46]相比，額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇，例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而，Ho等人提出的U-Net的高層設計在很大程度上保持不變。

**本文旨在揭開擴散模型中結構選擇的意義，并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的，可以很容易地被transformer等標準設計取代。因此，擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣，以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。

本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer，或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐，已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。

本文研究了transformer的擴展行為，即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試，其中擴散模型是在VAE的潛空間中訓練的，可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM，能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。

Diffusion x Transformers

在過去的一年里，擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里，深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?

本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer，或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT)，有一些小但重要的調整。擴散模型需要處理條件輸入，如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是，這些adaLN層還調制塊內任何殘差連接之前的激活，并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外，DiT是一個相當標準的transformer模型。

Scaling DiT

可視化放大DiT的效果。我們使用相同的采樣噪聲，在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。眾所周知，transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。

*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的，該文獻發現聯合放大深度和寬度效果很好。

擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中，input latent)中，將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如，將patch大小減半會使transformer的輸入token數量增加四倍，從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響，但請注意，patch大小對模型參數計數沒有意義的影響。

對于我們的四個模型配置中的每一個，我們訓練三個模型，潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2，它使用最大的XL配置，patch大小為2。

通過Fréchet Inception Distance (FID)測量，擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣，計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如，雖然DiT-XL/2獲得了優秀的FID值，但XL/8表現不佳。XL/8的參數比XL/2多一些，但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。

根據我們的擴展分析，當訓練時間足夠長時，DiT-XL/2顯然是最佳模型。在本文的其余部分，我們將專注于XL/2。

與最新擴散模型的比較

從我們的DiT-XL/2模型中選擇的樣本，以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里，我們使用無分類器指導規模，對512模型使用6.0，對256模型使用4.0。我們在ImageNet上訓練了兩個版本的DiT-XL/2，分辨率分別為256x256和512x512，步驟分別為7M和3M。當使用無分類器指導時，DiT-XL/2優于所有先驗擴散模型，將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型，將ADM-U之前獲得的最佳FID 3.85提高到3.04。

除了獲得良好的FIDs外，DiT模型本身相對于基線仍然是計算高效的。例如，在256x256分辨率下，LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下，ADM-U是2813 Gflops，而XL/2只有525 Gflops。

付費5元查看完整內容

NeurIPS 2022 · 元強化學習 ·

2022 年 10 月 8 日

[付費5元查看完整內容]【NeurIPS2022】分布式自適應元強化學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

元強化學習算法提供了一種數據驅動的方法來獲得快速適應許多具有不同獎勵或動態功能的任務的策略。然而，學習到的元策略通常只在它們被訓練的確切任務分布上有效，并在測試時間獎勵的分布變化或過渡動態的存在下很困難。本文為元強化學習算法開發了一個框架，能夠在任務空間的測試時分布變化下表現適當。我們的框架以一種適應分布魯棒性的方法為中心，它訓練一組元策略對不同級別的分布轉移具有魯棒性。當在可能發生變化的任務測試時分布上進行評估時，這使我們能夠選擇具有最適當魯棒性水平的元策略，并使用它來執行快速自適應。我們正式地展示了我們的框架如何允許改進分布位移下的遺憾，并實證地展示了它在廣泛分布位移下的模擬機器人問題上的有效性。

付費5元查看完整內容

自然語言處理 · 預訓練模型 ·

2020 年 12 月 9 日

[付費5元查看完整內容]自然語言處理預訓練模型的研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來，深度學習技術被廣泛應用于各個領域，基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態，在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹，并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述；簡要分析傳統預訓練模型的特點及局限性，重點介紹基于深度學習的預訓練模型，并針對它們在下游任務的表現進行對比評估；梳理出具有啟發意義的新式預訓練模型，簡述這些模型的改進機制以及在下游任務中取得的性能提升；總結目前預訓練的模型所面臨的問題，并對后續發展趨勢進行展望。

付費5元查看完整內容