圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近,大型語言模型(LLMs),它們在各個領域取得了巨大成功,也被用于圖相關任務,超越了傳統的基于圖神經網絡(GNNs)的方法,實現了最先進的性能。在這篇綜述中,我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先,我們提出了一個新的分類法,根據LLMs在圖相關任務中扮演的角色(即增強器、預測器和對齊組件)將現有方法分為三類。然后,我們系統地調查了沿著分類法的三個類別的代表性方法。最后,我們討論了現有研究的剩余局限性,并強調了未來研究的有希望的途徑。相關論文已總結,并將在以下網址持續更新://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。
圖論,在現代世界的許多領域,特別是在技術、科學和物流領域,扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性,從而闡明了圖組件內的關系。許多實際世界的數據集,如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018],本質上都是以圖的形式表示的。為了處理圖相關任務,圖神經網絡(GNNs)[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制,獲取在節點、邊或圖層面上的表達性表示,用于不同種類的下游任務。
近年來,如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型(LLMs)在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務,幾乎無需調整,就在多種自然語言處理任務中展現了卓越性能,例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列,但目前越來越多的研究開始關注于增強LLMs的多模態能力,使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式,特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs(圖神經網絡)的結合可以帶來互利共贏,增強圖學習。盡管GNNs擅長捕捉結構信息,但它們主要依賴語義上受限的嵌入作為節點特征,這限制了它們表達節點完整復雜性的能力。通過整合LLMs,GNNs可以得到更強大的節點特征,有效捕捉結構和語境方面的信息。另一方面,LLMs擅長編碼文本,但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力,同時發揮GNNs捕捉結構關系的能力,從而實現更全面、強大的圖學習。例如,TAPE [He et al., 2023] 利用與節點(如論文)相關的語義知識,這些知識由LLMs生成,來提高GNNs中初始節點嵌入的質量。此外,InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器,通過平鋪圖形和設計提示(提示)等技術,利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間,將文本知識引入圖形(如分子)中,從而提高推理能力。 顯然,LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽,如圖2所示,我們遵循Chen et al. [2023a]的方法,組織我們的一級分類法,基于LLMs在整個模型管道中扮演的角色(即增強器、預測器和對齊組件)進行分類。我們進一步細化我們的分類法,并為初始類別引入更多細粒度。 動機。盡管LLMs在圖相關任務中的應用越來越廣泛,但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述,提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述,總結了現有的圖基礎模型,并概述了預訓練和適應策略。然而,這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下,我們專注于圖和文本模態共存的場景,并提出了一個更細粒度的分類法,以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。
貢獻。這項工作的貢獻可以從以下三個方面總結: (1)結構化分類法。通過結構化分類法,對該領域進行了廣泛概覽,將現有工作分為四類(圖2)。 (2)全面綜述。基于提出的分類法,系統地描述了LLMs在圖相關任務中的當前研究進展。 (3)一些未來方向。我們討論了現有工作的剩余局限性,并指出了可能的未來發展方向。
**LLM作為增強器 **
圖神經網絡(GNNs)已成為分析圖結構數據的強大工具。然而,最主流的基準數據集(例如,Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020])采用了樸素的方法來編碼TAGs中的文本信息,使用的是淺層嵌入,如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上,可以被任何GNNs利用,或直接輸入到下游分類器中,用于各種任務。我們自然地將這些方法分為兩個分支:基于解釋和基于嵌入,這取決于它們是否使用LLMs產生額外的文本信息。
LLM作為預測器
這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測,例如在統一的生成范式下的分類和推理。然而,將LLMs應用于圖模態提出了獨特的挑戰,主要是因為圖數據往往缺乏直接轉換成序列文本的方式,不同的圖以不同的方式定義結構和特征。在這一部分,我們根據模型是否使用GNNs來提取結構特征供LLMs使用,將模型大致分為基于平鋪和基于GNN的預測兩類。
GNN-LLM 對齊
對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時,每個編碼器的獨特功能得以保留。在這一部分,我們總結了對齊GNNs和LLMs的技術,這些技術可以根據是否對GNNs和LLMs都給予同等重視,或是否優先考慮一種模態而另一種模態則不那么重視,被分類為對稱或非對稱。
結論
近年來,將大型語言模型(LLMs)應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中,我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先,我們介紹了一個新的分類法,根據LLMs所扮演的不同角色(即增強器、預測器和對齊組件),將涉及圖和文本模態的技術分為三類。其次,我們根據這種分類系統地回顧了代表性的研究。最后,我們討論了一些限制,并強調了幾個未來的研究方向。通過這篇全面的綜述,我們希望能夠揭示LLMs在圖學習領域的進步和挑戰,從而鼓勵在這一領域進一步的提升。
在這篇綜述中,我們深入探討了使用圖神經網絡(GNNs)進行表格數據學習(TDL)的領域,這是一個深度學習方法在分類和回歸任務中相比傳統方法表現出越來越優越性能的領域。綜述強調了深度神經TDL方法的一個關鍵差距:數據實例和特征值之間潛在關聯的欠表達。GNNs憑借其固有的模擬表格數據不同元素之間復雜關系和交互的能力,已經在各種TDL領域引起了顯著的興趣和應用。我們的綜述提供了一項對設計和實現TDL用GNN(GNN4TDL)方法的系統性回顧。它包括對基礎方面的詳細調查和基于GNN的TDL方法的概述,提供了對其不斷發展的領域的洞察。我們提出了一個全面的分類學,重點是構建圖結構和在基于GNN的TDL方法中的表示學習。此外,綜述還檢查了各種訓練計劃,強調了整合輔助任務以增強實例表示的有效性。我們討論的一個關鍵部分專門用于GNN在一系列GNN4TDL情景中的實際應用,展示了它們的多功能性和影響力。最后,我們討論了限制并提出了未來的研究方向,旨在促進GNN4TDL的進步。這篇綜述為研究人員和實踐者提供了資源,提供了對GNN在革新TDL中角色的深入理解,并指向了這個有前景領域未來的創新。
近年來,基于深度學習的表格數據學習(TDL)方法,例如分類和回歸,表現出了令人充滿希望的性能。然而,盡管在從原始表格記錄中學習有效特征表示方面有很大能力,深度神經TDL在數據實例和特征值之間的潛在相關性建模上表現薄弱。通過建模高階實例-特征關系、高階特征交互和數據實例之間的多關系相關性,已顯示可以改進TDL的預測性能。作為自然地建模不同數據實體之間的關系和交互的對策,圖神經網絡(GNNs)近來已經受到極大關注。通過適當地從輸入表格數據構建圖結構,GNNs可以學習數據元素之間的潛在相關性,并為預測任務生成有效的特征表示。受到GNNs在自然語言處理和推薦系統上的成功啟發,開發用于表格數據學習的圖神經網絡(GNN4TDL)的趨勢也在增加。目前,已有一些早期研究努力嘗試將現有的GNN方法應用于表格數據學習。一些非常近期的研究也開始探索特定于TDL的GNNs。這些研究幾乎涵蓋了所有TDL主題和應用,掀起了該領域的一波研究熱情。隨著這些研究進展,也產生了一些基本問題:(a) 基于GNN的TDL與傳統TDL之間有何區別?(b) 在不同TDL場景和任務下構建圖結構的正確方式是什么?(c) 基于GNN的表格數據表示學習背后的原理是什么?(d) 哪些TDL任務和應用領域可以從GNNs中受益?(e) 當前研究的局限性和未來研究的潛在機會是什么?盡管最近的GNN4TDL研究報告了令人鼓舞的結果,但這些問題尚未系統地調查,甚至被忽視了。迫切需要進行這項GNN4TDL綜述,以揭示這些問題的答案,以進一步促進這一研究方向。我們相信,由于該主題的高需求和低支持,這項GNN4TDL綜述將具有很高的價值。(a) 高需求:由于表格數據在許多領域和應用中無處不在,人們逐漸將重點轉移到模型數據實例之間的關系及其與特征值的相關性上,我們相信,用于表格數據學習的圖神經網絡不僅將具有很高的研究影響,而且還將具有實際價值。它應該能夠獲得學術界和工業界的關注。(b) 低支持:我們的GNN4TDL處于一個小眾但至關重要的領域,根據表1中的比較總結,在以前的綜述中大多被忽視。與其他集中在跨各種領域和數據類型的廣泛GNN應用的工作不同,這篇綜述不僅強調了GNN在表格數據預測、表示學習和圖結構學習中的潛力,而且還是首次討論自監著學習、各種訓練策略和GNN4TDL中特定的輔助任務。這篇綜述論文對應用GNNs進行表格數據學習進行了深入探索。它首先建立了基本的問題陳述,并介紹了用于表示表格數據的各種圖類型。綜述圍繞詳細的基于GNN的學習流程進行構建,包括圖形化階段,將表格元素轉換為圖節點;圖構建,專注于建立這些元素之間的連接;表示學習,強調GNNs如何處理這些結構以學習數據實例特征;以及訓練計劃,討論輔助任務和訓練策略的整合,以提高預測結果。除了回顧GNN4TDL技術之外,綜述還進一步闡述了GNN在多個領域的應用,如欺詐檢測和精準醫療,以及對當前研究局限性和GNN4TDL領域未來方向的批判性討論。
我們總結了這項綜述的貢獻如下。
? 我們提供了圖神經網絡用于表格數據學習的當前發展的廣闊圖景。提供了及時和全面的文獻綜述,幫助讀者快速掌握基本概念并進入這個研究領域。
? 我們組織了將GNNs應用于表格數據學習的現有藝術。特別是,我們深入探討了GNNs如何更好地建模表格數據,并揭示了GNNs帶來的表格數據分類和回歸性能提升。在實踐中,我們強調了構建各種表格數據模型的基本指導原則。
? 我們展示了GNN如何在許多表格數據應用領域中得到利用,如欺詐檢測、精準醫療、點擊率預測和處理缺失數據。
我們還為學術界和工業界提供了對當前研究局限性和GNN4TDL未來研究方向的深刻討論。我們按照以下方式組織了這篇論文。第2節定義了剩余部分中使用的相關概念。第3節描述了GNN4TDL的框架,并從多個角度提供了分類。第4節根據我們的分類系統地回顧了現有的GNN4TDL方法。第5節調查了GNN4TDL在各個領域的實際應用。第6節討論了剩余的挑戰和可能的未來方向。第7節最后總結了這項綜述。
在這一部分中,我們介紹了用于表格數據學習的圖神經網絡(GNNs)的總體流程,并詳細分類了每個關鍵階段,描繪了不同方法如何實現這些階段。伴隨這種分類,我們還提供了每個類別中一些代表性框架的描述。這些研究例子展示了流程中各個階段或類別之間復雜的相互聯系,突出了它們在整體GNN4TDL過程中的緊密結合和協作功能。每個分類的詳細闡述在第4節中呈現。流程。基于GNN的表格數據學習的一般流程在圖1中提供。流程從圖形化階段開始,即使用表格數據集中的元素定義圖的結構。這個階段涉及決定使用哪些元素作為節點,有三種常見的方法:(1) 將數據實例表示為節點,(2) 將特征作為節點,或 (3) 兩者的組合,形成不同類型的圖。接下來,圖構建階段旨在在這些元素之間創建連接,將表格數據轉換為圖結構。這種結構由最初的形式化決定,導致形成同質圖(例如,實例圖或特征圖)或異質圖(例如,二部圖、多關系圖或超圖)。接下來,表示學習階段涉及根據圖的性質應用不同類型的GNNs。采用各種同質實例GNNs、同質特征GNNs或異質GNNs來學習數據實例的特征表示。這一階段至關重要,因為它決定了消息如何在圖中傳播,模擬特征和實例之間的交互,并影響所學習嵌入的質量。如果使用特征圖,則需要額外的信息聚合層,基于學習到的特征嵌入產生最終的實例表示。最后,訓練計劃階段接收最終的實例表示。在這個階段,采用不同的學習任務和訓練策略,包括在主任務旁邊使用輔助任務。然后通過預測層處理結果,產生最終的預測結果。這個全面的流程突出了GNNs在處理各種圖形化和學習任務方面的多功能性,最終導致有效的表格數據學習和預測。分類。根據流程,可以建立用于表格數據學習的圖神經網絡的分類體系。我們在圖2中給出了分類。下面,我們相應地描述了分類體系中的分類,其中每個類別中的一些代表性研究被提到并在表2中總結。
從表格數據中生成圖的形式包含三種主要類型:同質圖、異質圖和超圖。基于數據實例作為節點或特征作為節點,在同質圖中,我們可以分別形成實例圖(例如,[85],[91],[112])和特征圖(例如,[83],[152],[173])。另一方面,異質圖可以將數據實例與其對應的特征(以及進一步的其他元數據)連接起來。異質圖的形成可以是二部圖或多部圖[27],[63],[142],[157]。可以考慮不同的特征值作為不同的邊類型,這些類型描述了數據實例之間的不同關系,從而形成多重/多關系圖[51],[60],[89]。如果一個形式允許數據實例和所有可能的特征值出現在一個圖中,可以構建異質圖來表示復雜的信息相互依賴[22],[37],[93],[118]。至于超圖的形成[10],[15],[27],共享相同屬性的表格元素被一個邊連接。超圖中的邊可以連接任意數量的表格元素。例如,共享相同特征值的實例可以通過超圖中的邊連接起來。
給定某種圖形式,節點已經確定后,第二階段旨在通過在節點之間創建邊連接來構建圖,以實現該形式。根據邊創建的標準,一般有四種類型的方法,包括內在結構、基于規則、基于學習和其他方法,其中前兩種類型被廣泛采用。創建鏈接的直觀方法是利用表格數據元素之間的固有關系,例如,一個實例包含特征值[142],[157],兩個實例共享特定特征的相同值[51],[95],一個數據表通過主外鍵關系與另一個相關聯[22],[37]。為了在數據實例和/或特征之間定義邊,基于規則的方法依賴于一些手動指定的啟發式規則,例如k近鄰[44],[59],[112],全連接結構[56],[83],[119],和閾值[21],[29]。基于學習的方法自動在節點之間生成邊。它可以分為三個子類別:基于度量的方法使用核函數基于節點相似度計算邊權重[69],[123]。神經方法采用深度神經網絡進行自適應圖構建[85],[91],[152]。直接方法將鄰接矩陣視為可學習的[39],[97]。其他方法屬于檢索式或知識型。基于檢索的方法依賴于發現相關和相似的數據實例來基于信息檢索技術構建邊[27],或進行神經結構搜索以找到更好的表示學習圖拓撲[149]。基于知識的方法需要領域專家提供數據實例之間的相關性知識[28]或描述特征之間關系的知識圖[114],以便以細粒度方式構建圖。
一旦得到描述表格數據的圖,無論數據實例及其對應特征如何通過圖結構描述,下一階段是學習每個實例的最終表示。根據獲得的圖的類型,例如同質或異質圖,我們可以使用同質GNN模型(例如GCN [77],GraphSAGE [52],GAT [126],和GIN [151])和異質GNN模型(例如RGCN [115],HGAT [134],和HGT [58])來產生每個實例的嵌入。除了簡單地應用現有的GNN模型,一些現有的工作已經開發了專門的GNN來更好地捕獲實例和特征之間各種復雜的交互(例如[20],[44],[59],[83],[152])。
基于學習到的實例特征表示設計合適的訓練計劃是最后一步。訓練計劃可以從兩個方面進行討論,學習任務和訓練策略。雖然主要任務是預測目標標簽,但為了增強學習,開發了各種監督變體,因此可以構建不同的輔助任務。例如,利用對比學習來更好地細化圖結構學習[85],[91],引入自監著學習和自編碼器來產生去噪特征[33],以及施加各種圖正則化以穩定圖學習并避免過擬合[16],[97]。由于數據本質上是表格形式的,附加學習任務可以保留輸入表格數據中的屬性,如特征的全局統計[119],領域知識保存[54],和空間信息編碼[28]。采用了一系列訓練策略來優化GNN4TDL性能。兩階段方法(例如,[91])先學習圖結構,然后訓練預測模型。對抗技術(例如,[119])增強了特征重構的真實性。其他方法(例如,[14])動態調整特征重構權重以提高任務相關性。雙層優化(例如,[142])同時調整GCN參數和圖生成。預訓練-微調策略(例如,[118])利用自監著學習進行穩健的初始數據理解,然后進行針對性的微調,盡管可能存在階段不匹配。端到端訓練(例如,[51])是最廣泛采用的策略,提供了從學習到預測的流線型過程,直接提升了性能。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
大型語言模型(LLMs)在自然語言理解、語言生成和復雜推理等重要任務中展示了顯著能力,并有潛力對我們的社會產生重大影響。然而,這些能力伴隨著它們所需的大量資源,突顯了開發有效技術以應對其效率挑戰的強烈需求。在本綜述中,我們提供了對高效LLMs研究的系統性和全面的回顧。我們組織了文獻,形成了一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了不同但相互關聯的高效LLMs主題。我們還創建了一個GitHub倉庫,在 //github.com/AIoTMLSys-Lab/Efficient-LLMs-Survey 收錄了本綜述中的論文,并將積極維護這個倉庫,將新的研究成果納入其中。我們希望我們的綜述能成為幫助研究人員和實踐者系統理解高效LLMs研究發展的寶貴資源,并激勵他們為這個重要且令人興奮的領域做出貢獻。
大型語言模型(LLMs)是一種先進的人工智能模型,旨在理解和生成人類語言。最近,我們見證了GPT系列(GPT-3 [21] 和 GPT-4 [197])、谷歌系列(Gemini [266]、GLaM [71]、PaLM [50]、PaLM-2 [8])、Meta系列(LLaMA 1&2 [272, 273])、BLOOM [233]、盤古之心 [227] 和 GLM [339]等LLMs的興起,以及它們在自然語言理解(NLU)、語言生成、復雜推理[320]和與生物醫學[278, 280]、法律[72]及代碼生成[34, 300]等領域相關的任務中取得的顯著表現。這些性能突破歸功于它們的巨大規模,因為它們包含數十億甚至數萬億個參數,同時又在大量數據上進行訓練,這些數據來自多樣化的來源。 盡管LLMs引領著人工智能的下一波革命,但LLMs的顯著能力卻以其巨大的資源需求為代價[50, 71, 197, 227]。圖1展示了LLaMA系列模型性能與訓練過程中碳排放之間的關系。如圖所示,隨著模型參數數量的增加,碳排放量呈指數級增長。除了訓練之外,推理(inference)也對LLMs的運營成本有著相當大的貢獻。如圖2所示,更先進的LLMs在推理過程中表現出更高的內存使用和能源消耗,這對于以經濟有效的方式將這些模型擴展到更廣泛的客戶群和多樣化的應用中提出了挑戰。隨著LLMs應用和客戶群的快速擴張,推理過程中的運營成本(包括能源消耗和內存使用)將增加,超過訓練成本,成為整體環境影響的主導因素。 LLMs的高資源消耗推動了開發技術以提高LLMs效率的需求。本綜述的總體目標是提供一個全面的視角,概述高效LLMs的技術進展,并總結現有的研究方向。如圖3所示,我們將文獻組織成一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了高效LLMs的主題。這三個類別涵蓋了不同但相互關聯的研究主題,共同提供了對高效LLMs研究的系統性和全面的回顧。具體來說,
?** 模型中心方法**:模型中心方法側重于以模型本身為焦點的算法層面和系統層面的高效技術。由于LLMs擁有數十億甚至數萬億個參數,它們表現出與小規模模型不同的特征[299],這促使了新技術的發展。在第2部分,我們調查了涵蓋模型壓縮、高效預訓練、高效微調、高效推理和高效架構設計相關的研究方向的高效技術。
? 數據中心方法:在LLMs領域,數據的重要性與模型本身一樣關鍵。數據中心方法側重于數據質量和結構在提高LLMs效率方面的作用。在第3部分,我們調查了涵蓋數據選擇和提示工程相關研究方向的高效技術。
? LLM框架:LLMs的出現促使開發專門的框架,以高效地處理它們的訓練、推理和服務。雖然主流的人工智能框架(如TensorFlow、PyTorch和JAX)提供了基礎,但它們缺乏對LLMs至關重要的特定優化和特性的內置支持。在第4部分,我們調查了專門為高效LLMs設計的現有框架,介紹了它們的獨特特性、底層庫和專門化。
最后,我們建立了一個GitHub倉庫,在 上匯編了本綜述中的論文,并將它們按照相同的分類法組織起來。我們將積極維護它并納入新的研究成果。我們希望這個綜述以及GitHub倉庫能幫助研究人員和從業者瀏覽文獻,并作為激發對高效LLMs進一步研究的催化劑。
以模型為中心
正如圖4所總結的,大型語言模型(LLMs)的模型壓縮技術可以分為四類:量化、參數剪枝、低秩近似和知識蒸餾。
如表1所示,預訓練大型語言模型(LLMs)的成本極其昂貴。高效的預訓練旨在提高預訓練過程的效率并降低成本。正如圖7所總結的,高效預訓練技術可以分為四類:混合精度加速、模型縮放、初始化技術和優化策略。
高效微調旨在提高大型語言模型(LLMs)微調過程的效率。正如圖8所示,高效微調方法可以分為參數高效微調(PEFT)和內存高效微調(MEFT)。
高效推理旨在提高大型語言模型(LLMs)推理過程的效率。正如圖10所總結的,高效推理技術可以分為算法層面和系統層面的加速技術。
針對大型語言模型(LLMs)的高效架構設計是指對模型結構和計算過程進行戰略性優化,以提升性能和可擴展性,同時最小化資源消耗。圖12總結了大型語言模型的高效架構設計。
以數據為中心
大型語言模型(LLMs)的數據選擇涉及對數據源、質量和預處理的仔細考慮。確保高質量數據是開發高效可靠的LLMs的基礎,因為它影響著它們的學習、泛化和在各種任務上準確執行的能力。[84, 232, 311, 325]。這個過程對于避免在模型中傳播偏見和不準確性至關重要,使得LLMs訓練能夠收斂。研究人員正在開發優化數據選擇、數據壓縮和提示微調等策略,以提高性能同時使用較少的資源。圖15總結了高效預訓練和微調的最新數據選擇技術。
提示工程[167]涉及設計有效的輸入(提示),以引導大型語言模型(LLMs)生成期望的輸出。這對于LLMs至關重要,因為提示工程使得LLMs能夠針對特定任務進行定制,而無需大量標記數據。高效技術使得這些模型能夠在較少的計算開銷下準確處理信息和響應。基于提示的語言模型所涉及的計算成本一直是持續研究的主題,特別是在特定任務應用的背景下。正如圖17所總結的,提示工程技術可以分為少量樣本提示、提示壓縮和提示生成。
LLM框架
結論
在這篇綜述中,我們提供了對高效大型語言模型(LLMs)的系統性回顧,這是一個旨在實現LLMs民主化的重要研究領域。我們從闡述高效LLMs的必要性開始。通過一個分類體系,我們分別從以模型為中心和以數據為中心的角度,回顧了LLMs的算法層面和系統層面的高效技術。此外,我們還回顧了具有特定優化和特性的LLMs框架,這些對高效LLMs至關重要。我們認為,效率將在LLMs及以LLMs為導向的系統中發揮越來越重要的作用。我們希望這篇綜述能夠使研究人員和實踐者快速進入這一領域,并作為激發高效LLMs新研究的催化劑。
指令調優是大型語言模型(LLMs)的一個重要的監督訓練階段,其目標是增強LLMs執行指令的泛化能力并適應用戶偏好。隨著多模態數據在LLMs中的日益融合,人們對視覺-語言指令調優的性能越來越感興趣,這相比純文本指令呈現出更復雜的特性。在這篇論文中,我們系統地回顧了最新的多模態LLMs中視覺-語言指令調優設置和數據集,并總結了高質量視覺-語言調優數據應具備的特征。我們認為這些特征是構建視覺-語言指令數據的基本原則,并提出了一個完整的構建流程,包括數據收集、指令生成和質量控制模塊,這些模塊融入了精心設計的指令屬性評估指標。我們基于我們構建的指令數據對三個廣泛使用的多模態LLMs進行視覺-語言指令調優,并對相應的指標進行了廣泛的實驗,以證明本文提出的構建原則的合理性。與本文相關的代碼和數據集已在 //github.com/palchenli/VL-Instruction-Tuning 開源。 近來,對大型語言模型(LLMs)僅能處理離散文本信息的有限能力日益不滿(Brown等,2020年;Chowdhery等,2022年;張等,2023年c)。因此,研究人員一直在探索改善LLMs的技術,以便處理額外類型的信息,主要是視覺信號,然后“超越文本”(黃等,2023年a;劉等,2023年c;朱等,2023年a)。視覺編碼模塊的整合已成為一種重要技術,它通過促進視覺數據的感知,增強了視覺-語言LLMs的多功能性。盡管這些多模態大型語言模型(MLLMs)的結構可以有所不同(劉等,2023年c;戴等,2023年;阿瓦達拉等,2023年),但它們的訓練范式遵循類似的模式。在這些MLLMs中,使用視覺-語言指令進行微調在這個過程中起著至關重要的作用。
指令調優是LLMs的一種監督訓練程序,通常包括不同的任務(歐陽等,2022年;魏等,2021年)。這個過程帶來了雙重好處,提高了LLMs泛化和執行各種任務指令的能力,同時也縮小了用戶偏好與模型輸出之間的差距。視覺-語言指令調優(VLIT)是指令調優的一個產物,它根據MLLM情況下的模型和訓練設計相應地進行了調整,并被賦予了更多的責任(劉等,2023年c;戴等,2023年;朱等,2023年a)。具體來說,MLLM中的VLIT需要適應多模態輸入和更多樣化的任務類型。換句話說,它們需要協調不同模態之間的信息以及復雜的理解和推理。目前有許多最先進的MLLMs在下游任務上表現良好,并具有出色的用戶交互能力,這在很大程度上歸功于它們對視覺-語言指令的高效微調。
不幸的是,在現有工作中,為了盡可能擴大VLIT數據集的規模,通常將大量不同的視覺注釋數據與簡單的指令模板粗糙地結合在一起。這些方法導致數據集中存在噪聲、幻覺、缺乏多樣性和指令不平衡的隱患,大數據規模也影響了MLLM的整體訓練成本。最近,一些工作(周等,2023年;魏等,2023年)指出,對VLIT數據進行質量優化是有效指導MLLM所必需的。具體來說,存在質量問題的VLIT數據不僅不會提高MLLM的性能,甚至可能在微調后削弱其能力。盡管一些工作已經開始嘗試基于主觀經驗控制VLIT數據的質量,但目前還沒有完整且經過驗證的策略(李等,2023年f;王等,2023年a;趙等,2023年d)。
在本文中,我們整理并總結了最新的MLLMs及其VLIT階段和相應的數據集。與其他相關綜述論文(徐等,2023年a;王等,2023年f)不同,我們借鑒現有工作的成熟經驗,分析并概述了高質量VLIT數據的主要特征,并將其形式化為不同角度的一整套定量評估指標。同時,我們基于這些原則和評估方法設計了一個靈活高效的VLIT數據構建和過濾流程,包括三個連續模塊:數據收集、指令生成和質量控制。為了確認這些原則和整個流程的有效性和一致性,我們利用公共可用的數據集根據上述方法構建VLIT數據集,并將其與現有VLIT數據集在三個不同架構的常用MLLMs上進行比較。實證發現表明,本文提出的方法產生的VLIT數據優于現有作品。同時,本研究提出的各種評估指標與微調后MLLMs在下游任務中的輸出一致,為總結的原則的有效性提供了進一步的證據。本文使用的代碼和構建的VLIT數據集已開源2。
總之,本文的主要貢獻可以概括如下:1) 本文系統地回顧了MLLMs中VLIT的所有相關設計和數據集,概括了構建指令數據時應注意的成熟原則,并指出了仍需進一步探索的挑戰和方向。2) 本文提出了一種構建高質量VLIT數據的完整流程,包括三個子模塊:數據收集、指令生成和質量控制。具體來說,這個流程不僅可以構建通用或任務特定的VLIT數據,而且質量控制模塊也可以獨立用于過濾現有指令數據。3) 基于提出的構建流程和公開可用的數據,我們構建了一個VLIT數據集,并通過在不同架構的多個MLLMs上與現有指令數據集進行實驗,證明了總結原則和構建工具的合理性和有效性。
在本文中,第2節總結了所有與VLIT數據相關的最新工作,并根據不同方法進行了組織;第3節展示了高質量VLIT數據的特征。第4節提出了不同角度的相應評估方法,并介紹了VLIT數據構建流程;第5節實驗驗證了本文提出的相關理論和構建流程;第6節總結了仍然存在的視覺-語言微調的挑戰和未來方向。
視覺-語言指令調優綜述
在這一部分,我們簡要介紹VLIT的相關定義,并收集近期MLLMs及其對應的VLIT數據集。 正如圖2所示,我們在這一節中組織了所有與VLIT數據相關的工作。MLLMs及其相應的VLIT數據集的具體統計信息可以在表1和表2中找到。
2.2.1 通用指令 如圖1所示,通用VLIT數據的格式與傳統的純文本指令數據相似,可根據構建范式分為不同類型。具體來說,這些范式可以分為兩大類別:注釋適配和自我指令。
注釋適配。近年來,視覺模型的迅速發展導致大規模、多樣化和高質量的注釋數據的出現,這些數據適用于大量下游任務,可以無縫地定制為指令數據。許多相關研究特別是精心地將注釋數據適配到標準指令數據中的(指令,輸入,響應)格式。指令作為解釋任務性質的正式陳述,直接使用手動編寫的候選指令池獲得(朱等,2023年a;趙等,2023年e),而其他人(戴等,2023年;李等,2023年i)使用手動指令作為種子指導LLMs擴展指令池并豐富指令多樣性。輸入包括圖像和可選上下文,通常源自原始注釋數據,并構成整個指令數據的一部分。響應對應于注釋數據中的結果,并是指令數據的輸出部分。如果原始注釋數據滿足用戶的需求,通常不經修改即可遷移。然而,值得注意的是,對于分類、判斷和簡短標題等通常只產生單詞或短句輸出的下游任務,可能需要根據輸入信息使用LLMs進行擴展,以避免潛在的過擬合和其他相關問題。值得一提的是,某些研究將這種簡潔的響應視為一種指令形式,因此選擇在指令中包含適當的限制性語言以解決這個問題(趙等,2023年e)。
其中,InstructBLIP(戴等,2023年)混合了10種視覺任務,精心制作了幾種指令模板,并根據原始任務數據調整相應的指令細節,例如簡短/短描述。KOSMOS-2(彭等,2023年)基于收集的定位框和相應表達創建了一個指令數據集,使用現有的指令模板。基于大量圖像字幕數據集,LMEye(李等,2023年l)通過使用正確和錯誤分類的多項選擇問題和四選一選擇作為VLIT數據生成的模板,生成了數百萬大規模VLIT數據集。MiniGPT-4(朱等,2023年a)利用其自己預訓練的MLLM生成圖像的全面描述,然后應用ChatGPT通過刪除任何冗余信息來修訂描述。在對指令數據的正確性進行人工驗證后,可以獲得高質量的VLIT數據。Lynx(曾等,2023年)收集了5種不同模態的任務,并基于使用GPT-4(OpenAI,2023年b)擴展的任務指令文本生成指令遵循數據。NExT-GPT(吳等,2023年)注意到現有關于訓練數據的工作中缺乏對輸入和輸出模態多樣性的討論,因此提出了T2M指令數據集,專注于文本到多模態指令數據集。DreamLLM(董等,2023年)從MMC4(朱等,2023年b)和LAION400M(舒曼等,2022年)中收集圖像-文本對,并利用GPT-4生成摘要和字幕。InternLM-XComposer(張等,2023年b)首先生成一段文本,然后根據圖像與文本內容的匹配程度在相應位置添加適當的圖像,生成圖像-文本交錯內容指令。MiniGPT-v2(陳等,2023年d)遵循LLaMA-2的對話模板,并使用任務識別標記生成大量不同任務的指令模板。
總的來說,注釋適配是一種快速簡單的VLIT構建方案,可以快速將注釋數據轉換為VLIT數據,并以低成本擴展VLIT數據規模和任務類型。然而,它的缺點也很明顯,如指令和響應的多樣性差、樣本利用率低、無法適應用戶偏好。
自我指令。現有任務和相應注釋數據往往限制了指令的規模、多樣性和創造力,阻礙了通過這些數據調整的MLLMs的通用性。標準指令格式在適應不斷變化的現實世界應用場景和滿足用戶需求方面提出了挑戰。因此,為了獲得更適用于現實世界場景的附加指令數據,自我指令從(王等,2022年)引入更多類型的注釋數據開始。這將幫助LLMs創建更多樣化、內容更豐富的指令遵循數據。
具體來說,這些方法利用LLMs強大的理解和生成能力。它們利用上下文學習引導手動生成少量高質量示例,以此為基礎生成與手動示例類似的指令數據樣本。這些數據不再有嚴格限制,允許在指令和響應中具有更大的多樣性和復雜性。
作為該領域的一個重要貢獻,LLaVA (Liu et al., 2023c) 開創了利用LLM構建通用VLIT數據的趨勢,通過重組現有的注釋數據。具體而言,LLaVA 指導 GPT-4 或 ChatGPT 生成高質量的多輪討論,提供從多個角度的圖像描述和指定物體位置的邊框。這種方法可以有效地防止由于匆忙和不精確地使用 GPT-4 和注釋數據直接生成指令而導致的多樣性和推理深度的缺乏。在 LLaVA 靈感的基礎上,DetGPT (Pi et al., 2023) 指導 ChatGPT 通過圖像標題、物體類別和預設提示來創建問答對。ChatGPT 使用人工設計的上下文示例以確保準確性。LAMM (Yin et al., 2023) 為四種不同場景定義多模態指令-響應對,使用 GPT-API 重組公開可用的注釋數據,并生成多樣化的任務指令,形成對話風格的指令數據。繼承 LLaVA 的方法,SVIT (Zhao et al., 2023a) 收集更多數據并創建廣泛的指令數據集,同時實施質量控制措施,如重復、對話輪數和幻覺。AnyMAL (Moon et al., 2023) 采用 LLaVA 提出的類似方法,利用 Llama-2 (Touvron et al., 2023b) 為提供的圖像生成問答對。通過編寫上下文樣本,StableLLaVA (Li et al., 2023k) 指導 ChatGPT 生成圖像及相應對話。與其他方法不同的是,StableLLaVA 中的圖像是基于生成提示和 StableDiffusion 圖像生成的。PVIT (Chen et al., 2023a) 提出了一個視覺-語言指令數據集,將細粒度區域與標題對齊,該數據集基于現有任務,并使用預定義模板生成基本指令數據。然后,使用 ChatGPT 重寫上述內容,以增加多樣性并確保指令跟隨數據的質量。TextBind (Li et al., 2023f) 從公開可用的數據集中收集大量圖像-文本對,并在過濾和聚類后使用 GPT4 重新組織內容以生成指令數據。基于 GPT,Sparkles (Huang et al., 2023b) 生成包含兩種不同類型指令的數據集,分別對應于概念標題和視覺基因組。與上述作品不同的是,LVIS-INSTRUCT4V (Wang et al., 2023b) 使用新推出的 GPT-4V(ision) (OpenAI, 2023c) 的強大視覺理解能力,通過自我推理生成對話式問答對,并在準確的邊框信息指導下生成高質量的圖像標題作為指令數據。
自我指導是一種更靈活的VLIT數據構建方案,具有高復雜性、強多樣性和出色的復雜性特點,賦予MLLM更強的遵循指令和適應用戶需求的能力。然而,由于它極度依賴于LLM理解和組織現有數據的能力,它不僅有巨大的開銷,而且還有LLM的固有幻覺,這也導致生成的VLIT數據質量的不穩定。
2.2.2 特定指令 與一般指令數據構建不同,大量方法更加關注對特定對象(例如,區域、文本和視頻)或領域(例如,醫學、文檔和點云)的指令數據構建。
對象/任務特定指令。為了實現更細粒度的多模態理解,一些 MLLM 在生成 VLIT 數據時對理解對象引入了更多考慮。其中,GPT4RoI (Zhang et al., 2023e) 基于公開可用數據集和預設的單區域標題、多區域標題、單區域推理和多區域推理指令數據,構建了以區域為目標的端到端區域導向指令數據。ChatSpot (Zhao et al., 2023b) 收集全局圖像和區域的不同任務數據集,增強模型處理不同粒度信息的能力,并基于預定義指令模板生成大規模的指令遵循數據。Ferret (You et al., 2023) 關注主流忽略的區域空間信息,并基于 ChatGPT 構建區域信息對話,包括大量負樣本。VideoChat (Li et al., 2023i) 調整敘事文本以使用 GPT4 生成詳細的視頻描述,并以視頻描述為信息源,使用 ChatGPT 生成關注時間和因果因素的問答對話。VALLEY (Luo et al., 2023b) 參考 LLaVA 和 VideoChat,使用 Stable-Vicuna 合成多個公開可用的視覺因果推理、角色識別和視頻復雜內容理解數據集,生成問答對和對話數據。ChatBridge (Zhao et al., 2023e) 結合大量現有視覺任務和指令數據,構建更多視頻導向會話,參考 LLaVA 的范式,形成非常大規模的指令數據集 MULTIS。Video-ChatGPT (Maaz et al., 2023) 通過手動注釋和基于現有多模態 LLM 的半自動注釋框架獲得大量視頻詳細描述對,并然后使用 GPT3.5 協助生成大規模高質量問答對。Macaw-LLM (Lyu et al., 2023) 利用 GPT-3.5 協助根據預定義提示重組手動注釋的圖像和視頻標題,并生成指令遵循數據。LLaVAR (Zhang et al., 2023g) 主要關注富含文本的圖像數據,收集含文本的 LAION-5B 圖像,將其分為14個簇,并根據是否使用 GPT-4,將其重組為大規模噪聲指令和高質量指令。Shikra (Chen et al., 2023e) 指導 GPT-4 根據公開可用的對象檢測數據集使用邊框生成問答對。
領域特定指令。除了加強不同粒度語義信息的理解外,還有一些 MLLM 更加專注于解決特定領域問題的能力,因此這些 MLLM 構建了更多具有領域特征的 VLIT 數據。PMC-VQA (Zhang et al., 2023f) 提出了一個醫學 VLIT 數據集,通過將圖像標題輸入 ChatGPT,生成 5 個關于圖像的問答對,并設計根據問題類型、正確性和其他指標篩選高質量指令遵循數據。同樣基于 PMC 數據集的 LLaVA-Med (Li et al., 2023e),使用預設提示指導 GPT-4 生成多輪對話。OphGLM (Gao et al., 2023) 收集眼科檢查場景的相應圖像和主題知識,結合預定義提示和 ChatGPT 模擬現實世界的醫患問答會話以生成多輪指令對話,并設計三輪質量控制策略。GPT4Tools (Yang et al., 2023) 提出了一套與各種視覺工具使用需求相關的工具指令數據集。mPLUG-DocOwl (Ye et al., 2023a) 通過將五個文檔相關任務與純文本和一般視覺-語言指令數據集成,生成文檔理解任務的文檔指令數據集。PointLLM (Xu et al., 2023b) 提出了一套完整的基于 GPT-4 的點云處理點云指令數據集。
結論
在本文中,我們匯編了關于視覺-語言指令調整的最新研究,提供了簡潔的總結和分析,以及現有文獻的分類、細節和缺點。為了構建高質量的視覺-語言指令數據,我們基于現有研究總結提出了幾個構建原則和一套完整的構建過程。廣泛的實驗表明,經過我們提出的方法構建的指令數據調整后的 MLLM 總體性能更佳。總之,我們概述了剩余的問題和潛在的未來研究方向。
擴散模型已經成為一種突出的生成模型,在樣本質量和訓練穩定性方面超過了之前的方法。最近的工作顯示了擴散模型在改進強化學習(RL)解決方案方面的優勢,包括作為軌跡規劃器、表達性策略類、數據合成器等。本綜述旨在概述這一新興領域的進展,并希望激發新的研究途徑。首先,研究了當前強化學習算法遇到的幾個挑戰。根據擴散模型在強化學習中發揮的作用,對現有方法進行了分類,并探索了如何解決現有挑戰。進一步概述了擴散模型在各種強化學習相關任務中的成功應用,同時討論了當前方法的局限性。最后,總結了綜述,并對未來的研究方向提出了見解,重點是提高模型性能和將擴散模型應用于更廣泛的任務。我們正在積極維護一個GitHub存儲庫,用于存儲在RL中應用擴散模型的論文和其他相關資源。
//www.zhuanzhi.ai/paper/5b2f904982b924f5734c5543cb19945c
擴散模型已成為一類強大的生成模型,近年來引起了廣泛關注。這些模型采用了一種去噪框架,可以有效地逆轉多步去噪過程以生成新數據[Song等人,2021]。與早期的生成模型如變分自編碼器(VAE) [Kingma和Welling, 2013]和生成對抗網絡(GAN) [Goodfellow等人,2014]相比,擴散模型在生成高質量樣本方面表現出優越的能力,并顯示出增強的訓練穩定性。因此,他們在包括計算機視覺在內的不同領域取得了顯著的進步并取得了實質性的成功[Ho等人,2020;Lugmayr等人,2022;,自然語言處理[Austin等人,2021;Li等人,2022],音頻生成[Lee和Han, 2021;Kong等人,2020]和藥物發現[Xu等人,2022;Schneuing等人,2022]等。
強化學習(RL) [Sutton和Barto, 2018]專注于通過最大化累積獎勵來訓練智能體來解決連續決策任務。雖然RL在各個領域取得了顯著的成功[Kober等人,2013;Kiran等人,2021],有一些長期的挑戰。具體來說,盡管離線強化學習因克服在線強化學習中的低樣本效率問題而獲得了相當大的關注[Kumar等人,2020;Fujimoto and Gu, 2021],傳統的高斯策略可能無法擬合具有復雜分布的數據集,因為它們的表達能力有限。同時,雖然利用經驗回放來提高樣本效率[Mnih et al., 2013],但在高維狀態空間和復雜交互模式的環境中仍然存在數據稀缺問題。在基于模型的強化學習中,學習到的動態模型的一個常見用法是規劃[Nagabandi等人,2018;Schrittwieser等人,2020;Zhu et al., 2021],但perstep自回歸規劃方法受到復合誤差問題的影響[Xiao et al., 2019]。一個理想的強化學習算法應該能夠學習單個策略來執行多個任務,并泛化到新環境中[Vithayathil Varghese和Mahmoud, 2020;Beck等,2023]。然而,現有工作在多任務泛化方面仍然很困難。
近年來,已有一系列將擴散模型應用于序列決策任務的研究,其中尤以離線決策學習為著。作為一項代表性工作,Diffuser [Janner等人,2022]擬合了用于離線數據集上軌跡生成的擴散模型,并通過引導采樣規劃所需的未來軌跡。已經有許多后續工作,其中擴散模型在強化學習管道中表現為不同的模塊,例如取代傳統的高斯策略[Wang等人,2023],增強經驗數據集[Lu等人,2023b],提取潛在技能[Venkatraman等人,2023]等。我們還觀察到,由擴散模型促進的規劃和決策算法在更廣泛的應用中表現良好,如多任務強化學習[He等人,2023a]、模仿學習[Hegde等人,2023]和軌跡生成[Zhang等人,2022]。更重要的是,擴散模型由于其強大而靈活的分布建模能力,已經為解決強化學習中長期存在的挑戰提供了思路。
本文關注于擴散模型在強化學習中的應用,并額外考慮了將擴散模型納入軌跡生成和模仿學習背景中的方法,主要是因為這些領域之間存在明顯的相互關系。第2節闡述了上述RL挑戰,并討論了擴散模型如何幫助解決每個挑戰。第3節提供了擴散模型基礎的背景知識,還涵蓋了在強化學習相關應用中特別重要的兩類方法:引導采樣和快速采樣。第4節說明了擴散模型在強化學習中在現有工作中發揮的作用。第5節討論了擴散模型在不同RL相關應用中的貢獻。在第6節中,指出了應用擴散模型時的局限性,并將其與基于transformer的方法進行了比較。第7節總結了調查與討論新興的新主題。
擴散模型的基礎
本節提供擴散模型的基礎。提出了兩個著名的表述:去噪擴散概率模型(DDPM) [Ho等人,2020]和基于分數的生成模型[Song等人,2021]。DDPM由于其簡單性而被廣泛使用,而基于分數的公式將其擴展到包含連續時間擴散過程。此外,引導采樣方法在將擴散模型集成到RL框架中起著關鍵作用。根據指導采樣過程的方法,這些方法可以分為兩大類:分類器指導[Dhariwal和Nichol, 2021],這需要一個額外的分類器,以及無分類器指導[Ho和Salimans, 2022],這將指導條件作為模型輸入的一部分。此外,為了提高采樣速度,特別是在在線交互過程中,在強化學習相關任務中使用擴散模型時采用了快速采樣技術[Kang等人,2023;王志軍,2023。簡要介紹了在擴散模型的禁食采樣研究方面的一些代表性工作,包括基于學習的方法和無學習的方法。
**在RL中擴散模型的角色 **
擴散模型已證明了其生成多樣化數據和建模多模態分布的能力。考慮到第2節中介紹的長期存在的挑戰,使用擴散模型改善RL算法的性能和樣本效率是足夠的。在圖1中,我們說明了擴散模型在RL中與以前的解決方案相比扮演的不同角色。當前應用擴散模型于RL的工作主要分為四個類別:使用擴散模型作為規劃器,作為策略,用于數據增強,以及在潛在表示上。以下小節將為每個類別說明整體框架和代表性的論文。
規劃器
在RL中的規劃指的是在一個假想的環境中決策應采取的行動的過程,然后選擇最佳行動以最大化累積獎勵信號。這個過程通常模擬或探索不同的行動和狀態序列,預測其決策的結果,從而從更長時間范圍的角度產生更好的行動。因此,規劃通常應用于MBRL框架中。然而,用于規劃的決策序列是自回歸生成的,這可能導致嚴重的累積誤差,尤其是在離線設置中,由于數據支持有限。擴散模型提供了一個可能的解決方案,因為它們可以同時生成整個序列。擴散模型作為規劃器的一般框架顯示在圖2(a)中。
策略
與傳統的RL分類相比,傳統分類大致將RL算法分為MBRL和無模型RL,使用擴散模型作為規劃器類似于MBRL,并專注于捕捉環境動態。相反,將擴散模型視為策略遵循無模型RL的框架。第2.1節闡述了離線策略學習框架的主要缺點:過于保守和在多樣化數據集上的能力較差。憑借其對多模態分布的出色表達能力,許多工作利用擴散模型作為策略來解決這些問題。
**數據合成器 **
除了適應多模態分布外,擴散模型的一個簡單且常見的用途是生成更多的訓練樣本,這在計算機視覺中得到了廣泛應用并得到了驗證。因此,將擴散模型作為RL數據集上的數據合成器是自然的,因為如第2.2節所述,數據稀缺是RL的實際挑戰。為了保證合成數據與環境動態的一致性,RL中的先前數據增強方法通常在現有狀態和動作中添加小的擾動 [Sinha等,2021]。相比之下,圖2(c)說明擴散模型從整個數據集D學習數據分布,并能在保持一致性的同時生成高度多樣化的數據。Lu等[2023b]研究了擴散模型作為數據合成器在離線和在線設置中的能力。它直接從離線數據集或在線回放緩沖區訓練擴散模型,然后生成更多的樣本以改進策略。分析顯示,擴散模型生成的數據質量在多樣性和準確性上高于明確數據增強生成的數據。有了合成數據,離線策略的性能和在線策略的樣本效率都得到了顯著提高。He等[2023a]部署擴散模型來增強多任務離線數據集的數據,并獲得了比單任務數據集更好的性能。它聲稱在多個任務上進行擬合可能會實現任務之間的隱式知識共享,這也受益于擴散模型的多模態特性。
結論
本綜述提供了一個全面的概述,關于擴散模型在RL領域的應用的現代研究努力。根據擴散模型所扮演的角色,我們將現有的方法分類為使用擴散模型作為規劃器、策略、數據合成器,以及其他不太受歡迎的角色,如價值函數、潛在表示模型等。通過與傳統解決方案進行比較,我們可以看到擴散模型是如何解決RL中一些長期存在的挑戰,即,受限的表達性、數據稀缺、累積誤差和多任務泛化。盡管有這些優點,但必須承認在RL中使用擴散模型存在不容忽視的局限性,這是由于擴散模型的訓練和采樣中的一些固有屬性。值得強調的是,將擴散模型融入RL仍然是一個新興領域,還有很多研究課題值得探索。在這里,我們概述了四個前景研究方向,即結合Transformer、增強生成的檢索、整合安全約束和組合不同的技能。
大模型如何做知識更新?這篇文章全面綜述
盡管大型語言模型(LLMs)在解決各種任務上表現出色,但它們在部署后很快就可能會過時。在當前時代,保持它們的最新狀態是一個迫切的關注點。本文提供了對最近在不從頭開始重新訓練的情況下,將LLMs與不斷變化的世界知識對齊的進展的全面回顧。我們系統地對研究工作進行分類,并提供深入的比較和討論。我們還討論了現存的挑戰,并強調了未來的研究方向,以促進這一領域的研究。
//www.zhuanzhi.ai/paper/895473a03ca23c3b2ff748c92eae7551
大型語言模型(LLMs)(Brown 等人,2020;Ouyang 等人,2022;Chowdhery 等人,2022;Zhang 等人,2022;OpenAI, 2023b;Touvron 等人,2023;Anil 等人,2023)經過在各種來源(例如,維基百科,書籍,Github)的大量語料庫上的訓練,在其參數中隱式地存儲了大量的世界知識(Petroni 等人,2019;Roberts 等人,2020;Jiang 等人,2020),使它們能夠作為多功能的基礎模型,直接通過情境學習(Liu 等人,2023b;OpenAI, 2023b;Bubeck 等人,2023;Kamalloo 等人,2023)來執行各種自然語言處理(NLP)任務,或進一步為特定領域的用途進行微調(Singhal 等人,2022;Google, 2023;Liu 和 Low, 2023)。
盡管它們的表現令人印象深刻,但LLMs在部署后是靜態的,沒有更新自己或適應變化環境的機制(Kasai 等人,2022;Bubeck 等人,2023)。然而,我們的世界是動態的并且不斷發展。如圖1所示,經過訓練的LLMs的靜態特性使存儲的知識迅速過時,這經常導致幻覺,使它們對知識密集型任務不可靠(Lazaridou 等人,2022;Luu 等人,2022;Ji 等人,2023;Si 等人,2023)。在LLMs的時代,確保它們與不斷變化的世界知識保持一致,并在部署后保持其最新狀態是一個迫切的問題,因為許多用戶和下游應用依賴它們。不幸的是,由于禁止性的成本(Patterson 等人,2021),僅僅使用最新信息重新訓練LLMs是不可行的。 從直覺上講,要更新LLM,可以通過修改其參數用新的知識替換模型中隱式存儲的過時知識,或使用從世界上明確檢索的新信息覆蓋過時的模型輸出。文獻中已經提出了大量的工作,隱式或顯式地刷新部署的LLMs;但是,這些方法在各種任務中散布,并沒有被系統地回顧和分析。
在這篇綜述中,我們調查了與不斷變化的世界知識對齊已部署的LLMs的最新引人注目的進展。我們系統地對研究工作進行分類,并在每個類別中突出代表性的方法(§2),并為洞察提供深入的比較和討論(§3)。最后,我們討論了促進這一領域研究的潛在未來方向(§4)。 **方法分類 **
根據方法是否傾向于直接改變LLMs中隱式存儲的知識,或利用外部資源來覆蓋過時的知識,我們粗略地將它們分類為隱式方法(§2.1)或顯式方法(§2.2)。圖2提供了每個類別中代表性作品的摘要(詳細綜述請見附錄中的圖6)。方法的詳細描述可以在附錄A.1中找到。
**隱式地使LLMs與世界知識對齊 **
先前的研究已經表明,經過在大量語料庫上預訓練后,LLMs可以在其大量參數中隱式記憶知識 (Petroni 等人, 2019; Roberts 等人, 2020; Jiang 等人, 2020; Singhal 等人, 2022)。為了保持LLMs的最新狀態并與當前的世界知識對齊,直接的方法是改變模型自身的行為以生成期望的輸出。天真地說,可以定期從頭開始重新訓練模型或使用最新的語料庫對模型進行微調以與當前的世界知識對齊。但是,重新訓練是昂貴且對環境不友好的 (Patterson 等人, 2021),特別是在具有數十億參數的LLMs的時代。無約束的微調可能會產生"蝴蝶效應"并影響模型中的其他知識或技能 (Kirkpatrick 等人, 2017; Li 等人, 2022; AlKhamissi 等人, 2022)。為了應對這個問題,這一系列工作旨在設計更好的策略,以更可控和高效的方式修改LLMs的內部狀態,這可以分為知識編輯 (§2.1.1) 和連續學習 (§2.1.2)。
**顯式地使LLMs與世界知識對齊 **
盡管改變LLMs中隱式存儲的知識已被證明是有效的 (Jang等人, 2022b; Meng等人, 2023),但由于神經網絡的復雜性,這是否會影響模型的一般能力仍不清楚。相比之下,顯式地通過從各種來源檢索的最新信息來增強LLMs可以有效地使模型適應新的世界知識,而不影響原始的LLMs (Mialon等人, 2023)。然而,之前的檢索增強方法 (Karpukhin等人, 2020; Guu等人, 2020; Lewis等人, 2020; Izacard等人, 2022; Borgeaud等人, 2022; Jiang等人, 2022; Kaur等人, 2022) 通常以端到端的方式聯合訓練檢索器和語言模型,這使得它難以應用于已部署的LLM(例如,GPT-3)。最近,研究者們關注于為固定的LLM配備外部記憶 (增強記憶;§2.2.1)、現成的檢索器 (增強檢索;§2.2.2) 或互聯網 (增強互聯網;§2.2.3) 來解決這個問題。
**挑戰和未來方向 **
魯棒高效的知識編輯
KE提供了細粒度的知識更新,在某些場景中是可取的。盡管有前景,但KE仍處于初級階段。1 各種知識。更新LLMs參數中存儲的內部知識是具有挑戰性的,現有的努力只探討了更新關系知識,而忽略了其他知識 (Meng等人, 2023);2 編輯數據集。當前的KE方法假設已存在編輯過的知識對,這些對必須提前進行注釋。實際上,LLMs如何知道哪些知識已經過時,因此需要更新 (Zhang和Choi, 2023; Yin等人, 2023)?3 記憶機制。Hase等人 (2023a) 認為,通過因果追蹤定位特定知識可能不可靠,需要更好地理解LLMs的內部記憶 (Tirumala等人, 2022; Carlini等人, 2023);4 通用化。最近的研究 (Onoe等人, 2023; Zhong等人, 2023) 發現,現有的KE方法在編輯知識的傳播上表現不佳,這意味著LLM不能基于新獲得的知識進行進一步的推理;5 有效性和效率。盡管已經進行了早期的努力 (Hernandez等人, 2023; Huang等人, 2023; Hartvigsen等人, 2023),但有效、高效、持續地更新LLMs的知識的方法尚有待深入探索。
**LLMs的高效持續學習 **一個持續預訓練的LLM可以更新其內部知識并適應變化的世界,但保持下游任務所需的一般知識而不遺忘是具有挑戰性的 (Ke和Liu, 2023)。此外,現有的方法僅限于小規模的LM,使得LLMs的CL很少被研究。盡管參數有效的調整 (Ding等人, 2022) 可能是有益的,但通過CL使LLM與動態世界對齊仍然沒有被充分探索。
**解決知識沖突 **用新知識替代舊知識可能會導致知識沖突,無論使用隱式或顯式方法。對于隱式方法,這些副作用只在特定設置中進行評估,不知道LLMs的一般技能如何受到影響 (Brown等人, 2023)。對于基于檢索的方法,從世界上檢索的知識可能與LLMs內部記憶的知識矛盾,LLMs有時傾向于在生成期間更多地依賴其內部知識,而不是提供的上下文 (例如在Fig.5中的一個例子; Neeman等人 2022; Li等人 2022; Chen等人 2022)。雖然已經進行了初步嘗試 (Mallen等人, 2023; Zhou等人, 2023; Xie等人, 2023),但它們仍然受到限制。
**魯棒高效的檢索 **與外部資源互動可能會在生成期間引起中斷,顯著增加推理開銷,特別是對于涉及多次檢索或修訂的多階段方法。可能的補救措施是有效的內存管理 (Peng等人, 2023b; Kang等人, 2023; Cheng等人, 2023) 或選擇性檢索,只在必要時咨詢外部資源 (Mallen等人, 2023)。另一方面,檢索到的上下文可能是無關的和嘈雜的,這可能會分散LLMs的注意力 (Shi等人, 2023a; Luo等人, 2023),或者太長,超出了輸入限制,并帶來高昂的成本 (Shi等人, 2023b)。
**全面的評估和基準測試 **盡管不同類別的方法可以在不重新訓練的情況下將訓練過的LLMs與變化的世界對齊,但它們的有效性主要在特定設置的合成數據集上進行評估,這可能不是很全面 (Jang等人, 2022a,b; Hoelscher-Obermaier等人, 2023)。此外,盡管已經進行了努力來評估KE (Wu等人, 2023; Cohen等人, 2023; Ju和Zhang, 2023),但沒有對不同類別的方法進行定量比較(即,比較KE vs. CL vs. 基于檢索的方法),這阻礙了它們在不同場景中的應用。最后,現有的基準測試對于度量動態世界來說太靜態了,這呼吁進行實時評估基準測試 (Li?ka等人, 2022; Kasai等人, 2022)。
**結論 **
在本文中,我們系統地回顧了在不重新訓練的情況下使LLMs與不斷變化的世界知識保持一致的最新進展。我們總結了現有的方法,并根據它們是傾向于直接改變LLMs中隱式存儲的知識,還是利用外部資源來覆蓋過時的知識進行分類。我們全面比較了不同類別的方法,并指出了這一領域研究的挑戰和未來方向。
這篇博客解釋了如何訓練和微調大型語言模型(LLMs)以創建像Chat-GPT這樣的系統。我們將討論模型的預訓練、少樣本學習、有監督微調、基于人類反饋的強化學習(RLHF)以及直接偏好優化。我們之前的博客以高層次地介紹了這些觀點。在本文中,我們力圖讓這些概念在數學上更為精確,并提供關于為什么使用特定技術的洞察。
對于本博客的目的,我們將假定大型語言模型是一個變換器解碼器網絡。解碼器網絡的目標是預測部分完成的輸入字符串中的下一個詞。更準確地說,這個輸入字符串被劃分為令牌(tokens),每一個令牌都代表一個詞或部分詞。每個令牌被映射到一個相應的固定長度的嵌入(embedding)。代表這個句子的一系列嵌入被送入解碼器模型中,該模型預測序列中可能下一個令牌的概率分布(圖 1)。下一個令牌可以通過從這個分布中隨機抽樣來選擇,然后將擴展的序列反饋到模型中。通過這種方式,字符串逐漸得到擴展。這個過程被稱為解碼。請參見我們之前的博客了解其他解碼方法。
解碼器網絡由一系列變換器層組成(圖 2)。每一層(圖 3)都通過自注意力機制(self-attention mechanism)混合來自令牌嵌入(token embeddings)的信息,并通過并行的全連接網絡獨立地處理這些嵌入。當嵌入通過網絡傳遞時,它們逐漸融入了更多關于整個序列含義的信息。部分序列中最后一個令牌的輸出嵌入通過線性變換和softmax函數映射到后續令牌可能值的概率分布上。有關變換器層和自注意力的更多信息可以在我們之前的一系列博客中找到。
Large language models: 大型語言模型 * Pretraining: 預訓練
Masked self-attention: 掩碼自注意力 * Is this model useful?: 這個模型有用嗎? * Supervised fine-tuning: 監督微調 * Reinforcement learning from human feedback: 從人類反饋中進行強化學習
Reward model: 獎勵模型 * Multiple comparisons: 多重比較 * Using the reward model: 使用獎勵模型 * Practical matters: 實用問題 * Direct Preference Optimization: 直接偏好優化 * Summary: 總結
視覺語言模型(VLMs)最近已經展示出了強大的效能,作為可以解析關于視覺內容的自然查詢并生成類似人類輸出的視覺助手。在這項工作中,我們探討了這些模型基于感知信息展示人類式推理的能力。為了解決一個關鍵問題,即這些推理能力在多大程度上是完全一致和基于實際的,我們還測量了這些模型的推理一致性。我們通過提出基于思維鏈(CoT)的一致性度量來實現這一點。然而,這樣的評估需要一個包括高級推理和詳細推理鏈的基準,這是昂貴的。我們通過提出一個LLM-人在回路中的管道來解決這一挑戰,這顯著降低了成本,同時確保了高質量數據集的生成。基于這個管道和現有的粗粒度注釋數據集,我們構建了CURE基準,以測量VLMs的零樣本推理性能和一致性。我們評估了現有的最先進的VLMs,并發現即使在表現最佳的模型(BLIP-2)的情況下,也無法展示出強大的視覺推理能力和一致性,這表明需要大力努力,使VLMs能夠像人類一樣系統地和一致地進行視覺推理。作為早期步驟,我們提出了一個旨在提高VLMs的推理性能和一致性的兩階段培訓框架。第一階段涉及使用由LLMs自動生成的逐步推理樣本對VLMs進行監督微調。在第二階段中,我們進一步通過LLMs提供的反饋來增強訓練過程,以生成高度一致和基于實際的推理鏈。我們經驗性地突出了我們框架的有效性,并顯示了在推理性能和一致性方面的相對改進為4%。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。