亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在這篇綜述中,我們深入探討了使用圖神經網絡(GNNs)進行表格數據學習(TDL)的領域,這是一個深度學習方法在分類和回歸任務中相比傳統方法表現出越來越優越性能的領域。綜述強調了深度神經TDL方法的一個關鍵差距:數據實例和特征值之間潛在關聯的欠表達。GNNs憑借其固有的模擬表格數據不同元素之間復雜關系和交互的能力,已經在各種TDL領域引起了顯著的興趣和應用。我們的綜述提供了一項對設計和實現TDL用GNN(GNN4TDL)方法的系統性回顧。它包括對基礎方面的詳細調查和基于GNN的TDL方法的概述,提供了對其不斷發展的領域的洞察。我們提出了一個全面的分類學,重點是構建圖結構和在基于GNN的TDL方法中的表示學習。此外,綜述還檢查了各種訓練計劃,強調了整合輔助任務以增強實例表示的有效性。我們討論的一個關鍵部分專門用于GNN在一系列GNN4TDL情景中的實際應用,展示了它們的多功能性和影響力。最后,我們討論了限制并提出了未來的研究方向,旨在促進GNN4TDL的進步。這篇綜述為研究人員和實踐者提供了資源,提供了對GNN在革新TDL中角色的深入理解,并指向了這個有前景領域未來的創新。

近年來,基于深度學習的表格數據學習(TDL)方法,例如分類和回歸,表現出了令人充滿希望的性能。然而,盡管在從原始表格記錄中學習有效特征表示方面有很大能力,深度神經TDL在數據實例和特征值之間的潛在相關性建模上表現薄弱。通過建模高階實例-特征關系、高階特征交互和數據實例之間的多關系相關性,已顯示可以改進TDL的預測性能。作為自然地建模不同數據實體之間的關系和交互的對策,圖神經網絡(GNNs)近來已經受到極大關注。通過適當地從輸入表格數據構建圖結構,GNNs可以學習數據元素之間的潛在相關性,并為預測任務生成有效的特征表示。受到GNNs在自然語言處理和推薦系統上的成功啟發,開發用于表格數據學習的圖神經網絡(GNN4TDL)的趨勢也在增加。目前,已有一些早期研究努力嘗試將現有的GNN方法應用于表格數據學習。一些非常近期的研究也開始探索特定于TDL的GNNs。這些研究幾乎涵蓋了所有TDL主題和應用,掀起了該領域的一波研究熱情。隨著這些研究進展,也產生了一些基本問題:(a) 基于GNN的TDL與傳統TDL之間有何區別?(b) 在不同TDL場景和任務下構建圖結構的正確方式是什么?(c) 基于GNN的表格數據表示學習背后的原理是什么?(d) 哪些TDL任務和應用領域可以從GNNs中受益?(e) 當前研究的局限性和未來研究的潛在機會是什么?盡管最近的GNN4TDL研究報告了令人鼓舞的結果,但這些問題尚未系統地調查,甚至被忽視了。迫切需要進行這項GNN4TDL綜述,以揭示這些問題的答案,以進一步促進這一研究方向。我們相信,由于該主題的高需求和低支持,這項GNN4TDL綜述將具有很高的價值。(a) 高需求:由于表格數據在許多領域和應用中無處不在,人們逐漸將重點轉移到模型數據實例之間的關系及其與特征值的相關性上,我們相信,用于表格數據學習的圖神經網絡不僅將具有很高的研究影響,而且還將具有實際價值。它應該能夠獲得學術界和工業界的關注。(b) 低支持:我們的GNN4TDL處于一個小眾但至關重要的領域,根據表1中的比較總結,在以前的綜述中大多被忽視。與其他集中在跨各種領域和數據類型的廣泛GNN應用的工作不同,這篇綜述不僅強調了GNN在表格數據預測、表示學習和圖結構學習中的潛力,而且還是首次討論自監著學習、各種訓練策略和GNN4TDL中特定的輔助任務。這篇綜述論文對應用GNNs進行表格數據學習進行了深入探索。它首先建立了基本的問題陳述,并介紹了用于表示表格數據的各種圖類型。綜述圍繞詳細的基于GNN的學習流程進行構建,包括圖形化階段,將表格元素轉換為圖節點;圖構建,專注于建立這些元素之間的連接;表示學習,強調GNNs如何處理這些結構以學習數據實例特征;以及訓練計劃,討論輔助任務和訓練策略的整合,以提高預測結果。除了回顧GNN4TDL技術之外,綜述還進一步闡述了GNN在多個領域的應用,如欺詐檢測和精準醫療,以及對當前研究局限性和GNN4TDL領域未來方向的批判性討論。

我們總結了這項綜述的貢獻如下

? 我們提供了圖神經網絡用于表格數據學習的當前發展的廣闊圖景。提供了及時和全面的文獻綜述,幫助讀者快速掌握基本概念并進入這個研究領域。

? 我們組織了將GNNs應用于表格數據學習的現有藝術。特別是,我們深入探討了GNNs如何更好地建模表格數據,并揭示了GNNs帶來的表格數據分類和回歸性能提升。在實踐中,我們強調了構建各種表格數據模型的基本指導原則。

? 我們展示了GNN如何在許多表格數據應用領域中得到利用,如欺詐檢測、精準醫療、點擊率預測和處理缺失數據。

我們還為學術界和工業界提供了對當前研究局限性和GNN4TDL未來研究方向的深刻討論。我們按照以下方式組織了這篇論文。第2節定義了剩余部分中使用的相關概念。第3節描述了GNN4TDL的框架,并從多個角度提供了分類。第4節根據我們的分類系統地回顧了現有的GNN4TDL方法。第5節調查了GNN4TDL在各個領域的實際應用。第6節討論了剩余的挑戰和可能的未來方向。第7節最后總結了這項綜述。

在這一部分中,我們介紹了用于表格數據學習的圖神經網絡(GNNs)的總體流程,并詳細分類了每個關鍵階段,描繪了不同方法如何實現這些階段。伴隨這種分類,我們還提供了每個類別中一些代表性框架的描述。這些研究例子展示了流程中各個階段或類別之間復雜的相互聯系,突出了它們在整體GNN4TDL過程中的緊密結合和協作功能。每個分類的詳細闡述在第4節中呈現。流程。基于GNN的表格數據學習的一般流程在圖1中提供。流程從圖形化階段開始,即使用表格數據集中的元素定義圖的結構。這個階段涉及決定使用哪些元素作為節點,有三種常見的方法:(1) 將數據實例表示為節點,(2) 將特征作為節點,或 (3) 兩者的組合,形成不同類型的圖。接下來,圖構建階段旨在在這些元素之間創建連接,將表格數據轉換為圖結構。這種結構由最初的形式化決定,導致形成同質圖(例如,實例圖或特征圖)或異質圖(例如,二部圖、多關系圖或超圖)。接下來,表示學習階段涉及根據圖的性質應用不同類型的GNNs。采用各種同質實例GNNs、同質特征GNNs或異質GNNs來學習數據實例的特征表示。這一階段至關重要,因為它決定了消息如何在圖中傳播,模擬特征和實例之間的交互,并影響所學習嵌入的質量。如果使用特征圖,則需要額外的信息聚合層,基于學習到的特征嵌入產生最終的實例表示。最后,訓練計劃階段接收最終的實例表示。在這個階段,采用不同的學習任務和訓練策略,包括在主任務旁邊使用輔助任務。然后通過預測層處理結果,產生最終的預測結果。這個全面的流程突出了GNNs在處理各種圖形化和學習任務方面的多功能性,最終導致有效的表格數據學習和預測。分類。根據流程,可以建立用于表格數據學習的圖神經網絡的分類體系。我們在圖2中給出了分類。下面,我們相應地描述了分類體系中的分類,其中每個類別中的一些代表性研究被提到并在表2中總結。

  1. 從表格數據中生成圖的形式包含三種主要類型:同質圖、異質圖和超圖。基于數據實例作為節點或特征作為節點,在同質圖中,我們可以分別形成實例圖(例如,[85],[91],[112])和特征圖(例如,[83],[152],[173])。另一方面,異質圖可以將數據實例與其對應的特征(以及進一步的其他元數據)連接起來。異質圖的形成可以是二部圖或多部圖[27],[63],[142],[157]。可以考慮不同的特征值作為不同的邊類型,這些類型描述了數據實例之間的不同關系,從而形成多重/多關系圖[51],[60],[89]。如果一個形式允許數據實例和所有可能的特征值出現在一個圖中,可以構建異質圖來表示復雜的信息相互依賴[22],[37],[93],[118]。至于超圖的形成[10],[15],[27],共享相同屬性的表格元素被一個邊連接。超圖中的邊可以連接任意數量的表格元素。例如,共享相同特征值的實例可以通過超圖中的邊連接起來。

  2. 給定某種圖形式,節點已經確定后,第二階段旨在通過在節點之間創建邊連接來構建圖,以實現該形式。根據邊創建的標準,一般有四種類型的方法,包括內在結構、基于規則、基于學習和其他方法,其中前兩種類型被廣泛采用。創建鏈接的直觀方法是利用表格數據元素之間的固有關系,例如,一個實例包含特征值[142],[157],兩個實例共享特定特征的相同值[51],[95],一個數據表通過主外鍵關系與另一個相關聯[22],[37]。為了在數據實例和/或特征之間定義邊,基于規則的方法依賴于一些手動指定的啟發式規則,例如k近鄰[44],[59],[112],全連接結構[56],[83],[119],和閾值[21],[29]。基于學習的方法自動在節點之間生成邊。它可以分為三個子類別:基于度量的方法使用核函數基于節點相似度計算邊權重[69],[123]。神經方法采用深度神經網絡進行自適應圖構建[85],[91],[152]。直接方法將鄰接矩陣視為可學習的[39],[97]。其他方法屬于檢索式或知識型。基于檢索的方法依賴于發現相關和相似的數據實例來基于信息檢索技術構建邊[27],或進行神經結構搜索以找到更好的表示學習圖拓撲[149]。基于知識的方法需要領域專家提供數據實例之間的相關性知識[28]或描述特征之間關系的知識圖[114],以便以細粒度方式構建圖。

  3. 一旦得到描述表格數據的圖,無論數據實例及其對應特征如何通過圖結構描述,下一階段是學習每個實例的最終表示。根據獲得的圖的類型,例如同質或異質圖,我們可以使用同質GNN模型(例如GCN [77],GraphSAGE [52],GAT [126],和GIN [151])和異質GNN模型(例如RGCN [115],HGAT [134],和HGT [58])來產生每個實例的嵌入。除了簡單地應用現有的GNN模型,一些現有的工作已經開發了專門的GNN來更好地捕獲實例和特征之間各種復雜的交互(例如[20],[44],[59],[83],[152])。

  4. 基于學習到的實例特征表示設計合適的訓練計劃是最后一步。訓練計劃可以從兩個方面進行討論,學習任務和訓練策略。雖然主要任務是預測目標標簽,但為了增強學習,開發了各種監督變體,因此可以構建不同的輔助任務。例如,利用對比學習來更好地細化圖結構學習[85],[91],引入自監著學習和自編碼器來產生去噪特征[33],以及施加各種圖正則化以穩定圖學習并避免過擬合[16],[97]。由于數據本質上是表格形式的,附加學習任務可以保留輸入表格數據中的屬性,如特征的全局統計[119],領域知識保存[54],和空間信息編碼[28]。采用了一系列訓練策略來優化GNN4TDL性能。兩階段方法(例如,[91])先學習圖結構,然后訓練預測模型。對抗技術(例如,[119])增強了特征重構的真實性。其他方法(例如,[14])動態調整特征重構權重以提高任務相關性。雙層優化(例如,[142])同時調整GCN參數和圖生成。預訓練-微調策略(例如,[118])利用自監著學習進行穩健的初始數據理解,然后進行針對性的微調,盡管可能存在階段不匹配。端到端訓練(例如,[51])是最廣泛采用的策略,提供了從學習到預測的流線型過程,直接提升了性能。

付費5元查看完整內容

相關內容

圖神經網絡 (GNN) 是一種連接模型,它通過圖的節點之間的消息傳遞來捕捉圖的依賴關系。與標準神經網絡不同的是,圖神經網絡保留了一種狀態,可以表示來自其鄰域的具有任意深度的信息。近年來,圖神經網絡(GNN)在社交網絡、知識圖、推薦系統、問答系統甚至生命科學等各個領域得到了越來越廣泛的應用。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

大模型如何落地?

在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117

生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。

然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。

這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。

目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。

** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。

分類法

目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。

** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。

非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。

投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。

提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。

級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。

配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。

注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。

提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。

級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。

模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。

知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。

網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。

系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。

并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。

內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。

請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。

早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。

內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。

軟件框架

生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。

我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。

值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。

結論

高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言理解、語言生成和復雜推理等重要任務中展示了顯著能力,并有潛力對我們的社會產生重大影響。然而,這些能力伴隨著它們所需的大量資源,突顯了開發有效技術以應對其效率挑戰的強烈需求。在本綜述中,我們提供了對高效LLMs研究的系統性和全面的回顧。我們組織了文獻,形成了一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了不同但相互關聯的高效LLMs主題。我們還創建了一個GitHub倉庫,在 //github.com/AIoTMLSys-Lab/Efficient-LLMs-Survey 收錄了本綜述中的論文,并將積極維護這個倉庫,將新的研究成果納入其中。我們希望我們的綜述能成為幫助研究人員和實踐者系統理解高效LLMs研究發展的寶貴資源,并激勵他們為這個重要且令人興奮的領域做出貢獻。

大型語言模型(LLMs)是一種先進的人工智能模型,旨在理解和生成人類語言。最近,我們見證了GPT系列(GPT-3 [21] 和 GPT-4 [197])、谷歌系列(Gemini [266]、GLaM [71]、PaLM [50]、PaLM-2 [8])、Meta系列(LLaMA 1&2 [272, 273])、BLOOM [233]、盤古之心 [227] 和 GLM [339]等LLMs的興起,以及它們在自然語言理解(NLU)、語言生成、復雜推理[320]和與生物醫學[278, 280]、法律[72]及代碼生成[34, 300]等領域相關的任務中取得的顯著表現。這些性能突破歸功于它們的巨大規模,因為它們包含數十億甚至數萬億個參數,同時又在大量數據上進行訓練,這些數據來自多樣化的來源。 盡管LLMs引領著人工智能的下一波革命,但LLMs的顯著能力卻以其巨大的資源需求為代價[50, 71, 197, 227]。圖1展示了LLaMA系列模型性能與訓練過程中碳排放之間的關系。如圖所示,隨著模型參數數量的增加,碳排放量呈指數級增長。除了訓練之外,推理(inference)也對LLMs的運營成本有著相當大的貢獻。如圖2所示,更先進的LLMs在推理過程中表現出更高的內存使用和能源消耗,這對于以經濟有效的方式將這些模型擴展到更廣泛的客戶群和多樣化的應用中提出了挑戰。隨著LLMs應用和客戶群的快速擴張,推理過程中的運營成本(包括能源消耗和內存使用)將增加,超過訓練成本,成為整體環境影響的主導因素。 LLMs的高資源消耗推動了開發技術以提高LLMs效率的需求。本綜述的總體目標是提供一個全面的視角,概述高效LLMs的技術進展,并總結現有的研究方向。如圖3所示,我們將文獻組織成一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了高效LLMs的主題。這三個類別涵蓋了不同但相互關聯的研究主題,共同提供了對高效LLMs研究的系統性和全面的回顧。具體來說,

?** 模型中心方法**:模型中心方法側重于以模型本身為焦點的算法層面和系統層面的高效技術。由于LLMs擁有數十億甚至數萬億個參數,它們表現出與小規模模型不同的特征[299],這促使了新技術的發展。在第2部分,我們調查了涵蓋模型壓縮、高效預訓練、高效微調、高效推理和高效架構設計相關的研究方向的高效技術。

? 數據中心方法:在LLMs領域,數據的重要性與模型本身一樣關鍵。數據中心方法側重于數據質量和結構在提高LLMs效率方面的作用。在第3部分,我們調查了涵蓋數據選擇和提示工程相關研究方向的高效技術。

? LLM框架:LLMs的出現促使開發專門的框架,以高效地處理它們的訓練、推理和服務。雖然主流的人工智能框架(如TensorFlow、PyTorch和JAX)提供了基礎,但它們缺乏對LLMs至關重要的特定優化和特性的內置支持。在第4部分,我們調查了專門為高效LLMs設計的現有框架,介紹了它們的獨特特性、底層庫和專門化。

最后,我們建立了一個GitHub倉庫,在 上匯編了本綜述中的論文,并將它們按照相同的分類法組織起來。我們將積極維護它并納入新的研究成果。我們希望這個綜述以及GitHub倉庫能幫助研究人員和從業者瀏覽文獻,并作為激發對高效LLMs進一步研究的催化劑。

以模型為中心

正如圖4所總結的,大型語言模型(LLMs)的模型壓縮技術可以分為四類:量化、參數剪枝、低秩近似和知識蒸餾

如表1所示,預訓練大型語言模型(LLMs)的成本極其昂貴。高效的預訓練旨在提高預訓練過程的效率并降低成本。正如圖7所總結的,高效預訓練技術可以分為四類:混合精度加速、模型縮放、初始化技術和優化策略

高效微調旨在提高大型語言模型(LLMs)微調過程的效率。正如圖8所示,高效微調方法可以分為參數高效微調(PEFT)和內存高效微調(MEFT)。

高效推理旨在提高大型語言模型(LLMs)推理過程的效率。正如圖10所總結的,高效推理技術可以分為算法層面和系統層面的加速技術。

針對大型語言模型(LLMs)的高效架構設計是指對模型結構和計算過程進行戰略性優化,以提升性能和可擴展性,同時最小化資源消耗。圖12總結了大型語言模型的高效架構設計。

以數據為中心

大型語言模型(LLMs)的數據選擇涉及對數據源、質量和預處理的仔細考慮。確保高質量數據是開發高效可靠的LLMs的基礎,因為它影響著它們的學習、泛化和在各種任務上準確執行的能力。[84, 232, 311, 325]。這個過程對于避免在模型中傳播偏見和不準確性至關重要,使得LLMs訓練能夠收斂。研究人員正在開發優化數據選擇、數據壓縮和提示微調等策略,以提高性能同時使用較少的資源。圖15總結了高效預訓練和微調的最新數據選擇技術。

提示工程[167]涉及設計有效的輸入(提示),以引導大型語言模型(LLMs)生成期望的輸出。這對于LLMs至關重要,因為提示工程使得LLMs能夠針對特定任務進行定制,而無需大量標記數據。高效技術使得這些模型能夠在較少的計算開銷下準確處理信息和響應。基于提示的語言模型所涉及的計算成本一直是持續研究的主題,特別是在特定任務應用的背景下。正如圖17所總結的,提示工程技術可以分為少量樣本提示、提示壓縮和提示生成。

LLM框架

結論

在這篇綜述中,我們提供了對高效大型語言模型(LLMs)的系統性回顧,這是一個旨在實現LLMs民主化的重要研究領域。我們從闡述高效LLMs的必要性開始。通過一個分類體系,我們分別從以模型為中心和以數據為中心的角度,回顧了LLMs的算法層面和系統層面的高效技術。此外,我們還回顧了具有特定優化和特性的LLMs框架,這些對高效LLMs至關重要。我們認為,效率將在LLMs及以LLMs為導向的系統中發揮越來越重要的作用。我們希望這篇綜述能夠使研究人員和實踐者快速進入這一領域,并作為激發高效LLMs新研究的催化劑。

付費5元查看完整內容

圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近,大型語言模型(LLMs),它們在各個領域取得了巨大成功,也被用于圖相關任務,超越了傳統的基于圖神經網絡(GNNs)的方法,實現了最先進的性能。在這篇綜述中,我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先,我們提出了一個新的分類法,根據LLMs在圖相關任務中扮演的角色(即增強器、預測器和對齊組件)將現有方法分為三類。然后,我們系統地調查了沿著分類法的三個類別的代表性方法。最后,我們討論了現有研究的剩余局限性,并強調了未來研究的有希望的途徑。相關論文已總結,并將在以下網址持續更新://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。

圖論,在現代世界的許多領域,特別是在技術、科學和物流領域,扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性,從而闡明了圖組件內的關系。許多實際世界的數據集,如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018],本質上都是以圖的形式表示的。為了處理圖相關任務,圖神經網絡(GNNs)[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制,獲取在節點、邊或圖層面上的表達性表示,用于不同種類的下游任務。

近年來,如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型(LLMs)在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務,幾乎無需調整,就在多種自然語言處理任務中展現了卓越性能,例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列,但目前越來越多的研究開始關注于增強LLMs的多模態能力,使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式,特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs(圖神經網絡)的結合可以帶來互利共贏,增強圖學習。盡管GNNs擅長捕捉結構信息,但它們主要依賴語義上受限的嵌入作為節點特征,這限制了它們表達節點完整復雜性的能力。通過整合LLMs,GNNs可以得到更強大的節點特征,有效捕捉結構和語境方面的信息。另一方面,LLMs擅長編碼文本,但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力,同時發揮GNNs捕捉結構關系的能力,從而實現更全面、強大的圖學習。例如,TAPE [He et al., 2023] 利用與節點(如論文)相關的語義知識,這些知識由LLMs生成,來提高GNNs中初始節點嵌入的質量。此外,InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器,通過平鋪圖形和設計提示(提示)等技術,利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間,將文本知識引入圖形(如分子)中,從而提高推理能力。 顯然,LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽,如圖2所示,我們遵循Chen et al. [2023a]的方法,組織我們的一級分類法,基于LLMs在整個模型管道中扮演的角色(即增強器、預測器和對齊組件)進行分類。我們進一步細化我們的分類法,并為初始類別引入更多細粒度。 動機。盡管LLMs在圖相關任務中的應用越來越廣泛,但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述,提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述,總結了現有的圖基礎模型,并概述了預訓練和適應策略。然而,這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下,我們專注于圖和文本模態共存的場景,并提出了一個更細粒度的分類法,以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。

貢獻。這項工作的貢獻可以從以下三個方面總結: (1)結構化分類法。通過結構化分類法,對該領域進行了廣泛概覽,將現有工作分為四類(圖2)。 (2)全面綜述。基于提出的分類法,系統地描述了LLMs在圖相關任務中的當前研究進展。 (3)一些未來方向。我們討論了現有工作的剩余局限性,并指出了可能的未來發展方向。

**LLM作為增強器 **

圖神經網絡(GNNs)已成為分析圖結構數據的強大工具。然而,最主流的基準數據集(例如,Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020])采用了樸素的方法來編碼TAGs中的文本信息,使用的是淺層嵌入,如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上,可以被任何GNNs利用,或直接輸入到下游分類器中,用于各種任務。我們自然地將這些方法分為兩個分支:基于解釋和基于嵌入,這取決于它們是否使用LLMs產生額外的文本信息。

LLM作為預測器

這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測,例如在統一的生成范式下的分類和推理。然而,將LLMs應用于圖模態提出了獨特的挑戰,主要是因為圖數據往往缺乏直接轉換成序列文本的方式,不同的圖以不同的方式定義結構和特征。在這一部分,我們根據模型是否使用GNNs來提取結構特征供LLMs使用,將模型大致分為基于平鋪和基于GNN的預測兩類。

GNN-LLM 對齊

對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時,每個編碼器的獨特功能得以保留。在這一部分,我們總結了對齊GNNs和LLMs的技術,這些技術可以根據是否對GNNs和LLMs都給予同等重視,或是否優先考慮一種模態而另一種模態則不那么重視,被分類為對稱或非對稱。

結論

近年來,將大型語言模型(LLMs)應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中,我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先,我們介紹了一個新的分類法,根據LLMs所扮演的不同角色(即增強器、預測器和對齊組件),將涉及圖和文本模態的技術分為三類。其次,我們根據這種分類系統地回顧了代表性的研究。最后,我們討論了一些限制,并強調了幾個未來的研究方向。通過這篇全面的綜述,我們希望能夠揭示LLMs在圖學習領域的進步和挑戰,從而鼓勵在這一領域進一步的提升。

付費5元查看完整內容

以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動,這也吸引著圖學習領域研究者們的關注。另一方面,圖機器學習經歷了從淺層方法到深度學習方法的范式轉變,而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題,使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢

近日,北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章,探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。

標題:Towards Graph Foundation Models: A Survey and Beyond 作者:Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接://arxiv.org/pdf/2310.11829.pdf

作為多種人工智能應用的基本構建塊,基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時,圖機器學習也經歷了一個變革性的轉變,淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣,激發了關于開發下一代圖學習范式的討論,該范式預先在廣泛的圖數據上進行訓練,并可以適應各種下游圖任務。然而,目前還沒有對這類工作的明確定義和系統分析。在本文中,我們提出了圖基礎模型(GFMs)的概念,并首次對其關鍵特征和技術進行了全面闡述。在此之后,我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外,本文還討論了這一不斷發展的領域的潛在研究方向。

簡介:隨著計算能力的迅猛增長和深度學習技術的突破,尤其是Transformer架構的出現,人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型,可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性,如涌現(Emergence)和同質化(Homogenization),使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明,隨著基礎模型的擴大,它可能會自發地展現新穎的能力。同時,同質化暗示了模型的多功能性,使其能夠在各種應用中部署。由于大型語言模型(LLMs)的發展,基礎模型的概念首先在自然語言處理(NLP)中成為現實。從那時起,基礎模型展示了驚人的多功能性,不僅可以處理文本,還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色,包括計算機視覺、音頻信號處理和推薦系統等。

就像我們在自然語言處理領域所見證的演進一樣,圖機器學習正在經歷一種范式轉變。在早期階段,圖任務主要采用淺層方法,如隨機游走和矩陣分解。然而,這些方法在容量上存在一定的限制,主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡(GNNs)的出現。GNNs通過引入消息傳遞機制,使節點能夠迭代地從鄰居那里匯總信息,從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs,研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而,GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題,尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。

基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題:圖基礎模型是否可以代表圖機器學習的下一個前沿?如果實現了這些模型,它們將具有更強的表達能力、可遷移性,并適用于更復雜的圖數據和任務。如圖1所示,圖基礎模型(GFM)被構想為一個在廣泛的圖數據上預訓練的模型,用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似,我們期待GFM具備兩個主要特征:涌現和同質化。具體而言,涌現指的是僅在大規模圖模型中顯現的新能力,而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性,因為它們固有的架構和學習范式專注于特定任務,這限制了對廣泛的未標記數據的利用,從而限制了它們的表達和泛化能力。

圖1:深度圖學習和圖基礎模型的對比

受到大型語言模型(LLMs)在NLP中作為基礎模型的成功啟發,研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式,因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先,基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中,而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計,以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息,另一種替代方法是將LLMs用作圖基礎模型。然而,尚不確定LLMs是否能有效處理圖數據和相關任務,因此重要的是確定如何在LLMs中建模圖結構。此外,基礎模型的同質化要求以一種統一的方式處理各種任務。因此,在圖數據中,由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性,設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此,有必要設計新穎的預訓練代理任務和適配方式。

表1:語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案,但本文調查了一些相關研究,并將它們基于對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型:它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型:它們探索將圖轉化為文本或標記的方式,以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型:它們結合了GNNs和LLMs,并尋求探索GNNs和LLMs之間各種協同作用的方式,以賦予它們增強的能力。

圖3:基于GNN的模型示意圖

圖5:基于LLM的模型示意圖

圖7:基于GNN+LLM的模型示意圖

據我們所知,這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態,而不是圖。此外,還有兩篇專門針對知識圖譜和大型語言模型的綜述,但由于知識圖譜在構建和應用上的獨特性,它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念,但它強調了意見陳述并缺乏系統的分類。因此,本文的貢獻可以總結如下: ? 本文首次定義了圖基礎模型的概念,探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法,并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。 本文的后續部分組織如下。在第2節中,我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型,并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節,我們總結了本文的要點。 **圖基礎模型 **在本節中,我們首先將正式定義圖基礎模型的概念。然后,我們將討論圖數據和圖任務對圖基礎模型的影響。最后,我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。

在本節中,我們定義了圖基礎模型的概念及相關技術,并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分,我們將介紹三類實現圖基礎模型的方法,以及每種方法的代表性作品,如圖2所示。基于GNN的模型使用GNN作為主干架構,而基于LLM的模型將圖轉化為LLM的輸入格式,并使用LLM作為主干架構。另一方面,基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此,在接下來的部分,我們將分別介紹每種方法的主干架構、預訓練和適應策略。

**基于GNN的模型 **

得益于高效的模型架構和訓練范式,語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中,我們將深入探討基于GNN的模型,這些模型從NLP中使用的模型架構或訓練范式中汲取靈感,并將其應用于與圖相關的任務。重要的是,與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同,基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。

基于LLM的模型

研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法,以下的優點不容忽視。首先,基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外,采用類似LLM的主干賦予模型統一多種圖學習任務的能力,因為這些任務可以用自然語言進行描述。此外,最近的進展,如NLGraph [66]、GPT4Graph [109],展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力,這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110],我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。

**基于GNN+LLM的模型 **

GNN-based模型缺乏處理文本的能力,因此不能直接基于文本數據進行預測。此外,它們也不能根據用戶提供的自然語言指令進行預測。因此,探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面,用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力,以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點,整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。

**結論 **

基礎模型和圖機器學習的發展催生了一個新的研究方向,目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中,我們首次提出了圖基礎模型(GFMs)的概念,并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴,將現有的GFMs相關工作分為三個主要類別:基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法,我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后,本文還指出了這個不斷發展領域的未來方向。

付費5元查看完整內容

此綜述關注大型語言模型(LLMs)中的事實性關鍵問題。隨著LLMs在各種領域的應用,它們輸出的可靠性和準確性變得至關重要。我們將“事實性問題”定義為LLMs生成與既定事實不一致內容的概率。我們首先深入探討這些不準確性的影響,強調LLM輸出中事實性錯誤可能帶來的潛在后果和挑戰。隨后,我們分析LLMs存儲和處理事實的機制,尋找事實錯誤的主要原因。我們的討論接著轉向評估LLM事實性的方法,強調關鍵指標、基準和研究。我們進一步探索提高LLM事實性的策略,包括為特定領域量身定制的方法。我們關注兩種主要的LLM配置—獨立LLMs和利用外部數據的檢索增強型LLMs—我們詳細說明它們的獨特挑戰和潛在增強。我們的綜述為旨在加強LLM事實可靠性的研究者提供了一個結構化指南。我們始終維護并更新相關的開源材料,地址為 //github.com/wangcunxiang/LLM-Factuality-Survey。

對知識掌握的追求一直是人工智能系統發展中的基礎愿景。從歷史上看,McCarthy等人(1955年)和Newell與Simon(1976年)的開創性工作都強調了知識表示和推理在AI系統中的重要性。例如,Cyc項目開始了一個雄心勃勃的旅程,旨在編碼常識知識,希望為AI系統提供對世界的全面了解(Lenat, 1995年)。同時,像Miller等人(1990年)的WordNet項目致力于創建捕獲單詞之間語義關系的詞匯數據庫,從而幫助AI系統掌握人類語言的細微差別。 在這些開創性努力之中,Large Language Models(LLMs)的出現,如ChatGPT(OpenAI, 2022b),GPT-4(OpenAI, 2023)和LLaMA(Touvron等人,2023a,b),在學術界和工業界都被視為一個重大的飛躍,尤其是向著擁有大量事實知識的AI系統(OpenAI, 2022a, 2023)。使用LLMs作為知識庫載體的優點是多種多樣的。首先,它們減少了構建和維護專用知識庫的開銷和成本(AlKhamissi等人,2022;Petroni等人,2019c;Wang等人,2023b)。此外,LLMs提供了一種更靈活的知識處理和利用方法,允許進行上下文感知的推理,并具有適應新信息或提示的能力(Huang和Chang,2023;Sun等人,2023a)。然而,盡管它們具有無與倫比的能力,人們對LLMs生成的非事實性或誤導性內容的可能性產生了擔憂(Bender等人,2021;Bubeck等人,2023;OpenAI, 2023)。鑒于這些進展和挑戰,本綜述旨在深入探討LLMs,探索它們的潛力以及圍繞其事實準確性的關注。

了解大型語言模型的事實性不僅僅是一個技術挑戰;對于我們在日常生活中負責任地使用這些工具來說,這是至關重要的。隨著LLMs越來越多地融入到搜索引擎(Microsoft,2023)、聊天機器人(Google,2023; OpenAI,2022b)和內容生成器(Cui等人,2023b)等服務中,它們提供的信息直接影響著數百萬人的決策、信仰和行動。如果一個LLM提供了不正確或誤導性的信息,它可能導致誤解、傳播錯誤的信仰,甚至造成傷害,尤其是對于那些要求高事實準確性的領域(Ling等人,2023b),如健康(Tang等人,2023;Thirunavukarasu等人,2023)、法律(Huang等人,2023a)和金融(Wu等人,2023)。例如,一個依賴LLM進行醫學指導的醫生可能無意中危及患者健康,一個利用LLM洞察力的公司可能做出錯誤的市場決策,或一個被LLM誤導的律師可能在法律程序中失誤(Curran等人,2023)。此外,隨著基于LLM的代理人的發展,LLMs的事實性變得更加強大。駕駛員或自動駕駛汽車可能依賴基于LLM的代理進行規劃或駕駛,其中LLMs犯的嚴重事實錯誤可能造成不可逆轉的損害。通過研究LLMs的事實性,我們的目標是確保這些模型既強大又值得信賴。

近年來,有大量的研究致力于評估LLMs的事實性,這包括像事實性問題回答和事實核查等多種任務。除了評估,努力提高LLMs的事實知識也很顯著。策略的范圍從從外部知識庫檢索信息到持續的預訓練和有監督的微調。然而,盡管有這些日益增長的努力,對LLMs中的事實性進行全面概述仍然是個難題。雖然該領域存在一些調查,如Chang等人(2023年)和Wang等人(2023g年)深入研究了LLMs及其事實性的評估,但它們只觸及了更廣泛的領域的表面。還有一些最近的研究專注于LLMs中的錯覺問題(Rawte等人,2023年; Ye等人,2023年; Zhang等人,2023f年)。但我們在第2.2節中區分了錯覺問題和事實性問題。此外,這些調查經常忽視了我們強調的關鍵領域,如特定領域的事實性或過時信息的挑戰。盡管Ling等人(2023a年)探討了LLMs的領域專長,但我們的調查更加廣泛地關注事實性的更廣泛問題。

據我們了解,我們的工作是對大型語言模型事實性的首次全面研究。 這份綜述旨在為LLMs中的事實性研究提供一個詳盡的概覽,深入探討四個關鍵維度:第2節)事實性問題的定義和影響(Nori等人,2023;Pranshu Verma,2023);第3節)評估事實性的技術及其定量評估(Huang等人,2023b;Min等人,2023);第4節)分析LLMs中事實性的基本機制并確定事實錯誤的根本原因(Kotha等人,2023;Liu等人,2023b);以及第5節)提高LLMs事實性的方法(Du等人,2023;He等人,2022)。值得注意的是,我們將LLMs的使用分類為兩種主要的設置:沒有外部知識的LLMs,如ChatGPT(OpenAI,2022b)和檢索增強型LLMs,如BingChat(Microsoft,2023)。這次調查的完整結構在圖1中說明。通過對現有研究的詳細檢查,我們希望闡明LLMs的這一關鍵方面,幫助研究者、開發者和用戶負責任和有效地利用這些模型的力量。 **增強 **

本節討論在不同階段增強LLMs事實性的方法,包括LLM生成、檢索增強生成、推斷階段的增強以及特定領域的事實性改進,如圖2所示。表7提供了增強方法的概要以及它們相對于基線LLM的改進情況。必須認識到,不同的研究論文可能采用不同的實驗設置,如零射擊、少數射擊或完全設置。因此,在檢查這個表格時,重要的是要注意,即使在評估同一數據集上的同一指標,不同方法的性能指標也可能不是直接可比的。

單獨LLM生成 當關注單獨的LLM生成時,增強策略可以大致分為三大類: (1) 從無監督語料庫中提高事實知識(第5.1.1節):這涉及到在預訓練期間優化訓練數據,如通過去重和強調有信息性的詞語(Lee等人,2022a)。還探討了像TOPICPREFIX(Lee等人,2022b)和句子完成損失這樣的技術來增強這種方法。 (2) 從監督數據中增強事實知識(第5.1.2節):這一類的例子包括監督微調策略(Chung等人,2022;Zhou等人,2023a),這些策略關注于從知識圖譜(KGs)中整合結構化知識或對模型參數進行精確調整(Li等人,2023d)。 (3) 最佳地從模型中提取事實知識(第5.1.3節, 5.1.4節, 5.1.5節):這一類包括像多代理協作(Du等人,2023)和創新提示(Yu等人,2023)這樣的方法。此外,還引入了像事實核心抽樣這樣的新穎解碼方法,以進一步提高事實性(Chuang等人,2023;Lee等人,2022b)。

關于檢索增強生成 檢索增強生成(RAG)已經成為一種廣泛采用的方法,用于解決獨立LLMs固有的某些局限性,如過時的信息和無法記憶的問題(Chase,2022; Liu,2022)。這些挑戰在第4.2.1節中詳細討論。然而,雖然RAG為某些問題提供了解決方案,但它也引入了自己的一系列挑戰,包括信息不足的可能性和對相關數據的誤解,如第4.2.2節中詳細說明。本小節深入探討了為緩解這些挑戰而設計的各種策略。在檢索增強生成的領域內,增強技術可以廣泛地分為幾個關鍵領域: (1) 利用檢索文本進行生成的正常設置(第5.2.1節)。 (2) 交互式檢索和生成(第5.2.2節):這里的例子包括將Chain-of-Thoughts步驟集成到查詢檢索中(He等人,2022),以及使用基于LLM的代理框架進入外部知識APIs(Yao等人,2023a)。 (3) 將LLMs適應到RAG設置(第5.2.3節):這涉及到像Peng等人提出的方法(2023),該方法結合了一個固定的LLM和一個即插即用的檢索模塊。另一個值得注意的方法是REPLUG(Shi等人,2023),一個檢索增強框架,將LLM視為一個黑盒,并使用語言建模分數對檢索模型進行微調。 (4) 從其他知識庫中檢索(第5.2.5節和第5.2.4節):這一類包括從外部參數記憶(Chen等人,2023a)或知識圖(Zhang等人,2023d)檢索的方法,以增強模型的知識庫。 **領域事實增強的LLMs **

領域知識缺陷不僅是限制LLM在特定領域應用的重要原因,而且是學術界和工業界都非常關心的一個主題。在這個小節中,我們討論了那些特定領域的LLMs是如何增強它們的領域事實性的。 表8列出了領域事實性增強的LLMs。在此,我們包括了幾個領域,包括醫療健康(H)、金融(F)、法律/法規(L)、地球科學/環境(G)、教育(E)、食品檢測(FT)和家居翻新(HR)。

結論

在這份綜述中,我們系統地探討了大型語言模型(LLMs)內部事實性問題的復雜景觀。我們首先定義了事實性的概念(第2.2節),然后討論了其更廣泛的意義(第2.3節)。我們的旅程帶領我們穿越了事實性評估的多面領域,包括基準(第3.2節)、指標(第3.1節)、特定評估研究(第3.3節)和特定領域的評估(第3.4節)。接著,我們深入探索,探討了支撐LLMs中事實性的內在機制(第4節)。我們的探索在增強技術的討論中達到高潮,既有純LLMs(第5.1節)也有檢索增強型LLMs(第5.2節),特別關注特定領域的LLM增強(第5.3節)。 盡管本綜述中詳細描述了許多進展,但仍有許多挑戰。事實性的評估仍然是一個復雜的難題,由自然語言的固有變異性和細微差別使其變得復雜。關于LLMs如何存儲、更新和產生事實的核心過程尚未完全揭示。盡管某些技術,如持續培訓和檢索,顯示出了前景,但它們也不是沒有局限性。展望未來,尋求完全基于事實的LLMs既帶來挑戰,也帶來機會。未來的研究可能會深入了解LLMs的神經結構,開發更為強大的評估指標,并在增強技術上進行創新。隨著LLMs日益融入我們的數字生態系統,確保其事實可靠性將始終是最重要的,這對AI社區及其更廣泛的領域都有影響。

付費5元查看完整內容

Transformers在自然語言處理、計算機視覺和機器人技術等領域產生了深遠影響,相比于其他神經網絡,它們在這些領域的表現更加優秀。這篇調研報告將探索Transformer模型在強化學習(RL)中的應用,它們被視為應對不穩定的訓練、信用分配、解釋性不足和部分可觀察性等挑戰的有力解決方案。我們首先簡要概述強化學習領域,接著討論經典強化學習算法面臨的挑戰。然后,我們深入探討Transformer及其變體的屬性,并討論這些特性如何適應解決RL中固有的挑戰。我們研究了Transformer在RL的各個方面的應用,包括表示學習、轉換和獎勵函數建模,以及策略優化。我們還討論了最近旨在提高Transformer在RL中解釋性和效率的研究,包括可視化技術和有效的訓練策略。通常,Transformer的架構必須根據給定應用的特定需求進行定制。我們為如何將Transformer適應于機器人技術、醫學、語言建模、云計算和組合優化等多種應用,提供了一個廣泛的概述。最后,我們討論了在RL中使用Transformer的局限性,并評估了它們在此領域催化未來突破的潛力。

強化學習(RL)是一種學習范式,它通過從試錯過程中獲得的反饋來實現序列決策。它通常被形式化為馬爾可夫決策過程(MDP),該過程為建模代理和環境之間的互動提供了數學框架。大多數RL算法優化代理的策略,選擇能夠最大化預期累積獎勵的動作。在深度RL中,神經網絡被用作函數近似器,用于將環境的當前狀態映射到下一個動作,并估計未來的回報。當處理大型或連續狀態空間時,這種方法非常有益,因為這會使表格方法的計算成本變得過高[169],并且在挑戰性的應用中已經取得了成功[6, 90, 133]。然而,像卷積神經網絡(CNNs)和循環神經網絡(RNNs)這樣的標準神經網絡架構在處理RL中的長期問題上存在困難。這些問題包括部分可觀察性[37],處理高維狀態和動作空間的能力不足[10],以及處理長期依賴性的困難[22]。

在強化學習(RL)中,部分可觀察性是一個挑戰[104];在缺乏完整信息的情況下,代理可能無法做出最優決策。解決這個問題的典型方法是使用卷積神經網絡(CNNs)和循環神經網絡(RNNs)對代理的輸入進行整合[160]。然而,RNNs傾向于忘記信息[142],而CNNs在處理過去時間步長方面的能力有限[75]。人們提出了各種策略來克服這個限制,包括門控機制、梯度裁剪、非飽和激活函數和操縱梯度傳播路徑[151]。有時候,人們會組合使用不同的數據模態,比如文本、音頻和圖像,為代理提供額外的信息[19, 89, 167]。然而,集成不同模態的編碼器增加了模型的結構復雜性。在CNNs和RNNs中,也很難確定哪些過去的行動對當前的獎勵有貢獻[112]。這就是所謂的信用分配問題。這些挑戰以及其他問題,如訓練不穩定性,限制了大多數RL應用的范圍,使得它們僅限于不切實際的虛擬環境。Transformer首次在2017年提出[174],并迅速對深度學習領域產生了影響[99],改進了自然語言處理(NLP)和計算機視覺(CV)任務的最新技術水平[33, 79, 144, 173, 217]。這種神經網絡架構背后的關鍵思想是使用自我關注機制來捕捉數據中的長距離關系。這種在序列中模擬大規模上下文的能力,最初使得Transformer非常適合機器翻譯任務。此后,Transformer已經被改進,用來處理更復雜的任務,如圖像分割[144]、視覺問題回答[217]和語音識別[34]。

本文調研了在強化學習(RL)中使用Transformer的情況。我們首先為具有機器學習一般背景的讀者提供了對RL(第2.1節)和Transformer(第2.3節)的簡潔概述。我們強調了經典RL方法面臨的挑戰以及Transformer如何幫助解決這些挑戰(第2.2節和2.4節)。Transformer可以以不同的方式應用于RL(圖1)。我們討論了如何使用它們來學習表示(第3節),模型轉換功能(第4節),學習獎勵函數(第5節)以及學習策略(第6節)。在第7節和第8節中,我們討論了不同的訓練和解釋策略,而在第9節中,我們概述了使用Transformer的RL應用,包括機器人技術、醫學、語言建模、邊緣-云計算、組合優化、環境科學、調度、交易和超參數優化。最后,我們討論了限制和未來研究的開放問題(第10節)。通過這項工作,我們旨在激發更多的研究,并促進RL方法在實際應用中的發展。

這篇綜述探討了在強化學習(RL)中Transformer的多種用途,包括表征學習、獎勵建模、轉換函數建模和策略學習。盡管原始的Transformer架構存在限制,但它可以被修改以適應許多RL應用。我們展示了Transformer的進步,這些進步擴大了RL應用到機器人技術、藥物發現、股票交易和云計算等實際問題的范圍。最后,我們討論了RL中Transformer的當前限制和這個領域的正在進行的研究。考慮到它在處理部分可觀察性、信用分配、可解釋性和不穩定訓練等問題上的多樣性——這些問題在傳統RL中常常遇到——我們預計Transformer架構將在RL領域繼續受到歡迎。

付費5元查看完整內容

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容

來自計算所發布的研究分布式GNN訓練中使用的各種優化技術,提供了分布式GNN訓練的全面綜述

圖神經網絡(GNNs)在圖學習方面的有效性已被證明是廣泛應用領域的一種強大的算法模型。為了擴大GNN訓練以適應大規模和不斷增長的圖,最有前途的解決方案是分布式訓練,它將訓練工作量分布到多個計算節點。然而,對分布式GNN訓練的工作流程、計算模式、通信模式和優化技術仍有初步了解。在本文中,我們通過研究分布式GNN訓練中使用的各種優化技術,提供了分布式GNN訓練的全面綜述。首先,根據分布式GNN訓練的工作流程將其分為幾類;此外,還介紹了它們的計算模式和通信模式,以及最新工作提出的優化技術。其次,介紹了分布式GNN訓練的軟件框架和硬件平臺,以加深對分布式GNN訓練的了解。第三,將分布式GNN訓練與深度神經網絡的分布式訓練進行了比較,強調了分布式GNN訓練的唯一性。最后,討論了該領域的研究熱點和發展機遇。

//www.zhuanzhi.ai/paper/e85caecb1c45f7412fc38a4f681097ab

1. 概述

圖具有強大的數據表示能力,特別是在表示對象之間的關聯[1],[2]等方面有著廣泛的應用。許多真實世界的數據可以自然地表示為由一組頂點和邊組成的圖。以社交網絡為例[3],[4],圖中的頂點表示人,邊表示人在Facebook上的互動[5]。如圖1 (a)所示,圓圈代表頂點,箭頭代表邊。另一個眾所周知的例子是知識圖[6]、[7],其中頂點表示實體,而邊表示實體之間的關系[8]。圖神經網絡(GNNs)在圖[9]-[11]的學習中表現出優于其他算法模型的性能。深度神經網絡(DNNs)已廣泛應用于分析圖像[12]等歐幾里德數據。然而,由于圖[13]的任意大小和復雜的拓撲結構,非歐氏域的圖數據對它們提出了挑戰。此外,工業界識別的深度學習范式的一個主要弱點是不能有效地進行因果推理,這大大降低了智能系統[14]的認知能力。為此,GNN已成為圖學習的主要范式,并賦予智能系統認知能力。如圖1 (b)所示。GNN在獲取圖數據作為輸入后,使用前向傳播和后向傳播來更新模型參數。然后將訓練好的模型應用于圖任務,包括頂點預測15,鏈接預測16,圖預測17,如圖1 (c)所示。

由于GNN的優越性,它們在許多關鍵領域的各種實際應用中得到了廣泛的應用。這些實際應用包括知識推理[18]、自然語言處理[19]、[20]、機器翻譯[21]、推薦系統[22]-[24]、視覺推理[25]、芯片設計[26]-[28]、交通預測[29]-[31]、網約車需求預測[32]、垃圾郵件評論檢測[33]、分子屬性預測[34]等等。GNN在處理廣泛的現實應用時增強了機器的智能,例如在谷歌地圖[29]中為>實時ETAs提高50%的準確率,在Pinterest[22]中生成>40%更高質量的推薦,在滴滴[32]中實現了>10%的網約車需求預測提高,在阿里巴巴[33]中以90%的準確率提高>66.90%的召回率。然而,工業界和學術界仍然熱切期待GNN訓練的加速,原因如下[35]- [38]:

圖數據的規模迅速擴大,消耗了GNN訓練大量的時間。隨著互聯網上信息的爆炸,新的圖表數據不斷產生和變化,比如社交中人際關系的建立和消亡,人們在網絡購物中對商品偏好的變化。圖中的頂點和邊的規模分別接近甚至超過數十億和萬億的數量級,[39]-[42]。圖形規模的增長速度也是驚人的。例如,Facebook社交網絡的頂點(即用戶)數量正以每年17%的速度增長[43]。因此,隨著圖數據規模的不斷增長,GNN的訓練時間急劇增加。

新型GNN模型的快速開發和部署涉及到重復訓練,大量的訓練時間是不可避免的。由于[9]-[11]需要反復訓練,因此要建立高精度的GNN模型還需要大量的實驗工作。此外,將GNN模型的使用擴展到新的應用領域也需要大量的時間來用真實數據訓練模型。如此龐大的計算負擔需要更快的訓練方法。

分布式訓練是加速GNN訓練[35]-[38],[40],[44]-[58]的流行解決方案。它試圖通過向計算系統添加更多的計算資源或“節點”,并采用并行執行策略來加速整個計算過程,如圖1 (d)所示。2019年提出的NeuGraph[44]是分布式GNN訓練的第一篇發表作品。從那以后,近年來,人們不斷嘗試提高分布式GNN訓練的效率,使用了各種各樣的優化技術,包括工作負載分區[44]-[47],傳輸規劃[37],[44]-[46],緩存策略[35],[51],[52]等。盡管做出了上述努力,但仍然缺乏對分布式GNN訓練的綜述。多個計算節點之間的管理和合作需要導致不同的工作流程,導致復雜的計算和通信模式,并使優化分布式GNN訓練成為一個挑戰。然而,盡管在這方面已經或正在做出大量的努力,但幾乎沒有任何關于這些挑戰和解決方案的調研。目前的研究主要集中在GNN模型和硬件加速器[9]-[11],[59]-[62],但并不打算對GNN的分布式訓練進行仔細的分類和總體概述,特別是從工作流、計算模式、通信模式和優化技術的角度。

介紹分布式GNN訓練的基本概念。 分析分布式GNN訓練的工作流程、計算模式和通信模式,總結優化技術。 強調分布式GNN訓練與分布式DNN訓練的區別 討論分布式GNN訓練領域的有趣問題和機遇。

2. GNN分布式訓練

****GNN是一種很有前途的從圖數據中學習知識的算法模型[63]-[68]。它將圖數據作為輸入,并學習圖中每個頂點的表示向量。學習到的表示可以用于下游任務,如頂點預測[15],鏈接預測[16]和圖預測[17]。如圖3所示,GNN模型由一個或多個層組成,包括鄰居聚合和神經網絡操作,分別稱為aggregation步驟和Combination步驟。在Aggregation步驟中,使用Aggregate函數Aggregate()為每個目標頂點聚合來自上一GNN層的傳入相鄰頂點的特征向量。例如,在圖3中,頂點4將使用Aggregate函數收集自身及其傳入鄰近頂點(即頂點2,5,8)的特征向量。在Combine步驟中,Combine函數Combine()使用神經網絡操作轉換每個頂點的聚合特征向量。C.圖神經網絡的訓練方法在本小節中,我們介紹了GNN的訓練方法,包括全批訓練[69],[70]和小批訓練[13],[71]-[74]兩種方法。神經網絡(GNN)的典型訓練過程包括前向傳播和后向傳播。在正向傳播中,輸入數據通過神經網絡層傳遞到輸出。神經網絡通過將前向傳播的輸出與預先定義的標簽進行比較,產生輸出的差異。然后在反向傳播中,將這些差異沿相反方向在神經網絡層中傳播,生成梯度來更新模型參數。如圖4所示,根據每輪是否涉及整個圖,GNN的訓練方法可分為全批訓練[69]、[70]和小批訓練[13]、[71]-[74]。這里,我們定義了一輪全批訓練,包括模型計算階段(包括前向和后向傳播)和參數更新階段。另一方面,小批處理訓練中的一輪額外包含一個采樣階段,該階段對后續模型計算所需的小型工作負載進行采樣,因此定位在其他兩個階段之前。因此,一個epoch被定義為數據的整個傳遞過程,相當于一輪全批訓練,而小批訓練通常包含幾輪。下面將詳細介紹這兩種方法。

3 分布式GNN訓練分類

本節介紹分布式GNN訓練的分類。如圖5所示,我們首先根據第II-C節介紹的訓練方法,即每輪是否涉及整個圖,將其分為分布式全批訓練和分布式小批訓練,并顯示兩種類型的關鍵區別。通過分析這兩種類型的工作流程,將它們分別劃分為兩個詳細的類型。本節介紹了第一級類別,即分布式全批訓練和分布式小批訓練,并對它們進行了比較。這兩種類型的第二級類別稍后將分別在第四節和第五節介紹。

付費5元查看完整內容

來自悉尼科技大學最新《可解釋圖神經網絡研究》綜述,重點研究可解釋圖神經網絡,并基于可解釋方法對其進行分類。

圖神經網絡(GNNs)已經證明了對圖數據的預測性能的顯著提高。與此同時,這些模型做出的預測往往難以解釋。在這方面,已經有很多人從GNNExplainer、XGNN和PGExplainer等角度來解釋這些模型的預測機制。雖然這些工作提供了解釋GNN的系統框架,但對可解釋GNN的全面綜述還沒有。在這項綜述中**,我們提出了一個可解釋GNN的全面綜述。重點研究可解釋圖神經網絡,并基于可解釋方法對其進行分類**。在此基礎上,我們進一步給出了解釋GNN的常用性能指標,并指出了未來的研究方向。 圖G可以看作是一組節點Ni (i = 1,2,···,n)和邊Ej (j = 1,2,···,m)組成的某種關系的表示,它是一種理想的數據結構,可用于對各種現實世界的數據集(如分子)建模。隨著深度學習的復興,圖神經網絡(GNNs)已經成為對圖數據建模的強大工具,并在推薦、化學、醫學等許多領域和應用中取得了令人印象深刻的性能[27,7,24]。然而,將圖結構和特征信息結合在一起,產生了復雜的非線性模型,增加了理解其工作機制和預測的難度。另一方面,一個可解釋的模型是受歡迎的,甚至是必要的,特別是在實際場景中(例如,醫療診斷),因為解釋可以在多種方面使用戶受益,例如提高模型的公平性/安全性,它還可以增強對模型建議的信任。因此,可解釋GNN(eXplainable gnn, XGNN)近年來得到了相當多的研究關注,可分為兩類:1)采用可解釋AI (eXplainable- AI, XAI)方法直接解釋GNN;2)基于圖的內在結構和特征制定策略,不涉及XAI方法。 雖然近年來對GNN可解釋性的研究越來越多,但對其進行系統的討論卻很少。我們認為,全面分析XGNN最近的這些工作,將有助于更好地理解這些方法,激發新的想法,并為開發新的可解釋的方法提供見解。因此,我們對目前研究GNN的可解釋方法進行了分析和總結。特別地,我們將它們分為兩組——第2節中的基于XAI的XGNN和第3節中的非基于XAI的XGNN。然后,我們將在第4節中介紹用于衡量XGNN可解釋性的指標。第5節討論了XGNN的常見問題,最后在第6節指出了今后的研究方向。 我們的貢獻可以概括為:

  • 我們系統地分析了最新的XGNNs方法,并將其分為兩組: 基于XAI的XGNNs,利用現有的XAI方法來解釋GNN;基于非XAI的XGNNs,它脫離了當前的XAI方法,同時試圖通過利用圖的固有結構和特性來解釋GNN。

  • 我們提出了XGNNs的評估指標,可以用來衡量XGNNs方法的性能,因為評估指標的知識對于教育XGNNs的最終用戶/從業者是必要的。

  • 討論了XGNNs研究中經常出現的問題和可能的解決方案,最后指出了進一步提高XGNNs可解釋性的幾個潛在研究方向

基于XAI的可解釋圖神經網絡

通過分析XGNNs的文獻,我們對可解釋GNN的方法進行了二元分類,分為基于XAI的方法和基于非XAI的方法兩類。XGNN的分類如圖1所示。我們首先簡要介紹XAI,然后介紹XGNN,因為它將有助于理解XGNN基于XAI的可解釋技術。

可解釋人工智能

在過去的幾年里,XAI已經成為一個熱門的研究課題,在這一領域的研究越來越多。多項研究綜述了它的歷史、分類、評價、挑戰和機遇,主要集中在深度神經網絡(DNNs)[1][4][6][20][8]的解釋。XAI技術可以按照[6]中討論的三種分類: (i)可解釋范圍的差異,(ii) 方法的差異,和 (iii) ML模型使用的差異(見圖2)。

根據ML模型使用的不同,我們還可以將XAI分為模型特定的XAI和模型無關的XAI。特定于模型的XAI是指專注于單個或一組特定AI模型的可解釋性的任何方法;而模型無關的XAI并不強調底層的AI模型。

模型無關的XAI可以用于評估大多數AI模型,通常在訓練后應用,因此它們通常被視為事后方法。模型無關的XAI依賴于分析輸入和輸出特征對,并且無法訪問AI模型的具體內部工作方式(例如,權重或結構信息),否則將不可能將其與黑箱模型[21]解耦。通過分析模型特定型XAI和模型無關XAI的特點可以看出,模型特定型XAI方法對特定參數的依賴程度較高,而模型架構的任何變化都可能導致解釋方法本身或對應的可解釋算法發生顯著變化。因此,特定于模型的XAI方法無法擴展以解釋GNN。然而,一些模型無關的XAI方法可以被擴展來解釋GNN。

用XAI方法解釋圖神經網絡

卷積神經網絡(CNNs)通過將卷積運算擴展到圖和一般的非歐幾里得空間,可用于圖結構數據。將神經網絡擴展到非歐幾里得空間視為圖卷積神經網絡(GCNNs)。因此,我們可以將最初為CNN設計的常見解釋方法,擴展到GCNN。我們發現XAI的多種方法都可以很容易地推廣到GNN,如LRP [2], LIME [16], Grad-CAM[18]。表1總結了這些擴展。

分層關聯傳播(LRP)假設分類器可以分解為多個計算層,并將頂層的DNNs輸出傳播到輸入層。在每一層,應用一個傳播規則[2]。對目標輸出節點的貢獻反向傳播到輸入特征,形成對該節點貢獻的特征映射。因此,LRP在可視化輸入特征對模型預測的貢獻方面非常有用,特別是對于基于核的分類器和多層神經網絡。受此激勵,研究人員[22]在GNN中使用LRP來獲得GNN模型黑箱的洞見。Schnake等人[17]提出了基于GNN-LRP的高階泰勒展開法。GNN- LRP生成包含GNN模型和輸入圖之間復雜嵌套交互的詳細解釋。此外,Cho等人[5]使用LRP對個體預測進行了事后解釋。LRP通過網絡反向傳播計算每個神經元的相關性,從預測的輸出水平到輸入水平,相關性表示給定神經元對預測的定量貢獻。此外,Baldassarre等[3]也將LRP應用于圖模型。LRP方法通過將輸出預測分解為輸入的組合來計算顯著性映射。

局部可解釋模型無關解釋(LIME)是XAI中另一種流行的方法。LIME從黑盒模型中提取單個預測實例,并生成一個更簡單、可解釋的模型,如線性模型,以近似其決策特征。然后可以解釋這個簡單的模型,并使用它來解釋原始的黑盒預測[16]。許多其他的論文已經改進和擴展了LIME。Zhao等人[35]引入了BayLIME,將LIME與貝葉斯相結合。Zafar等人[33]使用了多個生成解釋之間的Jaccard相似性,并提出了一個確定性版本的LIME。此外,LIME也被廣泛應用于GNN中來解釋GNN模型。Huang等[9]提出了GraphLIME,一種使用Hilbert-Schmidt獨立準則(HSIC) Lasso的圖的局部可解釋模型解釋,這是一種非線性特征選擇方法來實現局部可解釋。它們的框架是通用的GNN模型解釋框架,該框架在被解釋節點的子圖中局部學習非線性可解釋模型。

梯度加權類激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)通過放松倒數第二層必須是卷積[18]的架構限制來改進CAM。通過將目標概念的梯度流到最終的卷積層,生成粗略的定位圖,以突出輸入圖像中的重要區域。CAM已廣泛應用于各種卷積神經網絡模型族[18]。Pasa[14]直接將其作為卷積神經網絡解釋的可視化工具。Vinogradova等人[25]進一步擴展了Grad-CAM,并將其應用于局部生成熱圖,顯示語義分割中單個像素的相關性。Grad-CAM也可以擴展到GNN。Pope等人[15]描述了將CNN可解釋方法擴展到GCNNs。他們為GCNNs的決策引入了解釋法(Grad-CAM)。Grad-CAM能夠生成關于網絡不同層的熱圖。

基于非XAI的可解釋圖神經網絡

大多數基于XAI的XGNN方法不需要知道GNN模型的內部參數,用于解釋的XAI方法也不是專門為CNN模型設計的。因此,當人們需要進一步探索GNN模型的結構時,尤其是對于大型和復雜的模型來說,這些方法可能無法給出令人滿意的解釋,這并不奇怪。為了緩解這一問題,近年來,研究人員開始考慮圖結構的特點,開發適合GNN模型的可解釋方法。有三種不同的方法來實現這個目標:(1)通過找到重要的子圖來解釋GNN模型;(2)通過生成新的圖來解釋GNN模型,而生成的圖應該保持最多的信息特征(如節點、節點特征和邊);(3)通過添加中間層次解釋GNN模型。

通過子圖可解釋的GNN

通過子圖可解釋的GNN是一組使用子圖添加GNN模型可解釋性的方法,它通常專注于局部特性,然后只產生最重要的子圖

通過圖生成可解釋的GNN

與關注子圖不同,通過圖生成解釋GNN需要考慮整個圖結構(或全局結構)。它考慮了圖的整體結構。然后生成一個新的圖,其中只包含GNN進行決策所需的結構。

可通過中間層解釋GNN

通過中間層注入解釋GNN可以直接將知識/信息作為因子圖編碼到模型體系結構中。如Ma等人[12]建立的因子圖神經網絡(Factor Graph Neural Network, FGNN)模型,將基因本體等生物知識直接編碼到模型架構中。因子圖神經網絡模型中的每個節點對應一些生物實體,如基因或基因本體術語,使模型具有透明性和可解釋性。

可解釋技術的評估指標

由于解釋者被用來解釋為什么做出了某個決定,而不是描述整個黑盒,所以解釋者本身的保真度存在不確定性。因此,使用正確的度量來評估可解釋性技術的正確性和完整性是至關重要的。此外,XAI[36]的一些評估指標也可以應用到XGNNs 中。本節簡要介紹xgnn解釋的常用評估指標。我們特別關注保真度、稀疏性、準確性、魯棒性和對比度

討論

本綜述的重點是為可解釋GNN提供一個清晰的分類。通過對可解釋GNN相關文獻的分析,我們總結出以下問題。

如何解釋圖神經網絡? 主要有兩種觀點。

GNN可以被視為一個黑箱,并找到一種獨立的方式來解釋輸入和輸出之間的聯系,如GraphLIME或RelEx。

另一種方法試圖解釋GNN的細節,利用節點和邊本身的信息。

如何將XAI方法擴展到神經網絡圖?有一些研究使用XAI方法來解釋gnn(見第2.2節)。XAI方法包括Saliency Maps、LRP、LIME、Guided BP、Grad-CAM等,具有較好的性能,可以推廣用于解釋GNN。然而,這些方法并不是專門為gnn設計的,需要了解模型的內部參數。

如何找到影響圖神經網絡預測的最重要的子圖結構?正如我們在第3.2節中提到的,有幾種方法可以通過聚焦子圖結構來解釋GNN。例如,GNNExplainer識別出一個緊湊的子圖結構和一個小子集的節點特征,這可能在GNN的預測中發揮關鍵作用。此外,PGMExplainer和GISST通過生成與任何基于圖的任務相關的重要子圖和節點特征子集來生成解釋。然而,這些方法只關注局部信息的子圖結構,而沒有考慮任何全局特征。

如何從全局角度解釋圖神經網絡?相對于通過局部圖結構獲得的分段信息,全局結構往往可以提供更有趣、更完整的信息。例如,PGExplainer專注于解釋完整的圖結構,并提供了GNN所做預測的全局理解。它可以在一組實例上集體解釋GNN的預測,并很容易將學習到的解釋器模型推廣到其他實例。

付費5元查看完整內容

圖神經網絡和強化學習都是機器學習中研究的主流模型,如何結合GNN和RL,是一個有趣的問題。最近來自美國堪薩斯州立大學發布了《基于圖神經網絡的強化學習》綜述,闡述相關算法與應用。

深度強化學習(DRL)已經增強了各種人工智能領域的能力,包括模式識別、機器人、推薦系統和游戲。類似地,圖神經網絡(GNN)也證明了它們在對圖結構數據進行監督學習方面的卓越性能。近年來,GNN與DRL在圖形結構環境中的融合引起了廣泛關注。本文對這些混合工作進行了全面的綜述。這些工作可以分為兩類: (1)算法增強,其中DRL和GNN相輔相成,發揮更好的效用;(2)特定于應用的增強,其中DRL和GNN相互支持。這種融合有效地解決了工程和生命科學中的各種復雜問題。在此基礎上,我們進一步分析了融合這兩個域的適用性和好處,特別是在提高通用性和降低計算復雜度方面。最后,強調了整合DRL和GNN的關鍵挑戰,以及潛在的未來研究方向,這將是更廣泛的機器學習社區的興趣。

近年來,深度學習的體系結構、算法和框架得到了爆炸式的發展,用于解決計算機視覺、建模和控制等一系列具有挑戰性的現實問題。在這些發展中,使用深度神經網絡(DNN)在強化學習(RL)框架內解決順序決策問題,導致深度強化學習(DRL)被認為是人工智能1中最先進的框架之一。該方法應用于組合優化[2]、游戲[3]、機器人[4]、自然語言處理[5]和計算機視覺[6]。DRL在這些應用中的巨大成功可以歸功于(1)以一種計算高效、可伸縮和靈活的方式處理復雜問題的能力,這在其他情況下是數值棘手的[7];(2)計算效率高,能夠快速生成高保真度解決方案,這在需要實時決策[8]的高動態環境中至關重要;(3)理解環境動力學的能力,并僅基于與環境的交互產生接近最優的行動,而不需要明確的基礎系統[9],[10]的先驗知識。

雖然DRL的有效性在游戲中得到了最廣泛的證明,但它正在迅速地應用于其他各種現實應用中。其中一些應用程序涉及到顯示可以用圖形表示的顯式結構關系的環境。例如,旅行商問題(TSP)中的城市網絡或不完整的知識圖譜本質上具有基于圖的不同實體排列的特征。在歐幾里得空間中處理數據的方法并不適合這種環境,需要在編碼節點或聚合來自不同代理的信息方面進行特殊處理。這些方面用圖神經網絡(GNN)系統建模,詳見§II。這種結構關系的融入是一種輔助輸入,進一步提高了解決方案的質量。最近,研究人員一直在探索將強大的GNN模型與DRL融合的優勢,以有效地解決這類圖結構應用。這些混合工作的徹底調研可能是極其有益的,在識別挑戰和確定未來的研究方向。此外,一些與DRL相關的綜述作品也在[2]、[5]-[15]不斷發表。然而,這些綜述存在兩個主要缺陷:** (1)這些調研的大多數是通過特定應用領域的視角進行的。因此,他們被局限于特定的方法,忽視了跨領域的整體視角;(2)據我們所知,目前的文獻中還沒有關于DRL和GNN聯合研究的全面綜述**。

深度強化學習與圖神經網絡的融合

本文對DRL和GNN融合的相關文獻進行了系統綜述,主要貢獻如下:

對涉及DRL和GNN的橫跨理論發展(§III-A)和多個應用領域(§III-B)的文獻進行了嚴格的綜述。 * 對綜合DRL-GNN的理論和應用貢獻進行了分類(§III)。為此,對現有作品進行分類和分析的各種屬性被確定(§IV)。 * 該調研采取了一個整體的方法來回顧文獻,特別關注算法的關鍵方面,如計算效率,可擴展性,通用性和適用性。 * DRL和GNN仍處于發展的早期階段,兩者融合的研究也處于早期階段。因此,對相關挑戰進行了徹底的調研究,并確定了未來的研究方向(§V)。

DRL和GNN已經成為現代深度學習中極其強大的工具。DRL利用DNN的表達能力來解決RL的順序決策問題,而GNN是一種新穎的體系結構,特別適合處理圖結構數據。我們確定了兩大類聯合使用GNN和DRL的研究文章,如圖2所示。第一類文章利用GNN(或DRL)對DRL(或GNN)的應用進行算法和方法上的改進。另一方面,第二類文章同時使用DRL和GNN來解決不同應用領域的實際問題。表一描述了調研DRL和GNN融合工程的概況,表二概述了調研論文的個別組成部分。

A.算法發展

在本節中,我們將討論著重于開發改進DRL或GNN的新公式或算法的文章。在這些文章中,要么使用GNN來改進DRL的配方和性能,要么使用DRL來提高GNN的適用性。

1) DRL增強GNN:

利用DRL改進GNN的工作被用于不同的目的,包括神經體系結構搜索(NAS),提高GNN預測的可解釋性和為GNN設計對抗樣本。

神經體系結構搜索(NAS): 指自動搜索神經網絡的最優體系結構的過程。層數,層中的節點數等)來解決一個特定的任務。[24]采用一種基于DRL的控制器,采用探索引導和保守利用的方法,對不同的GNN架構進行高效搜索。搜索空間由隱藏維度、注意力頭、注意力、聚合、組合和激活函數組成。作者將模型同質化作為一種方法,在子代和祖先體系結構之間執行引導參數共享。與現有的架構搜索方法[25]相比,該方法在基準數據集上具有更好的性能。

**解釋GNN預測: **為DNN預測生成解釋是提高ML模型透明度的一項重要任務。Shan等人[26]使用DRL來改進現有的解釋GNN預測的方法。為GNN預測生成解釋的問題涉及識別對生成預測影響最大的子圖。作者設計了一個基于DRL的迭代圖生成器,它從種子節點(預測的最重要節點)開始,并添加邊來生成解釋子圖。DRL模型僅基于解釋性子圖,利用預測的相互信息和預測的分布來學習具有策略梯度的子圖生成策略。作者表明,該方法在生成的子圖和基礎真理解釋之間的定性和定量相似性方面獲得了更好的可解釋性。

2) GNN增強DRL:

本小節討論與DRL算法改進相關的論文。具體而言,我們著重研究了GNN在關系型DRL問題(RDRL)中的應用,以有效地建模(1)多智能體深度強化學習(MADRL)框架中的不同智能體之間的關系,以及(2)多任務深度強化學習(MTDRL)框架中的不同任務之間的關系。

在MADRL中,agent之間的關系建模: 在MADRL中,一群agent為了實現一個共同的目標而相互合作或競爭。該框架最近被用于許多具有挑戰性的任務,包括交通燈控制、自動駕駛和網絡數據包傳輸[32]-[34]。在這種情況下,代理之間的通信提供關于其他代理的環境和狀態的附加信息。人們提出了幾種學習這種交流的方法。捕捉這些關系的第一個工作主體與基于注意力的方法[35]-[38]有關。ATOC[39]、DGN[40]和COMA-GAT[36]通過注意力機制提供通信。

**在MTDRL中對任務之間的關系進行建模:**該框架提供了一種優雅的方法來利用多個任務之間的共性,以便學習具有更高回報、泛化、數據效率和健壯性的策略。在大多數MTDRL工作中,一個固有的假設是相容的狀態-動作空間,即跨多個任務的相同維度的狀態和動作。然而,這在許多實際應用中被違背,如組合優化和機器人。這個問題已經通過使用能夠處理任意大小的圖的GNN得到了解決,從而在不兼容的狀態-動作環境[46]中支持MTDRL。由于GNN提供了合并結構信息的靈活性,它允許集成額外的領域知識,其中狀態被標記為圖。GNN在MTDRL中的使用已經在連續控制環境中得到證實,利用RL代理的物理形態來構建輸入圖[47],[48]。

RDRL的關系符號輸入:RDRL的基本前提是將DRL與關系學習或歸納邏輯編程[49]集成,其中狀態、動作和策略用一階/關系語言[50]表示。該空間中的任務具有變化的狀態空間和動作空間的特點。在這些問題中,很難找到大多數現有DRL方法所需要的固定長度的表示。這個問題可以使用GNN來處理,方法是根據圖形結構數據制定關系問題。關系域的機制通常由關系動態影響圖語言(RDDL)[51]表示。

B .應用

第二大類論文利用DRL的多功能性和GNN的靈活編碼能力來解決不同應用領域的有趣挑戰。這些領域涵蓋了廣泛的范圍,包括組合優化、運輸、控制、知識圖譜和生命科學,我們將在接下來簡要回顧。

1) 組合優化(CO):

許多CO問題的計算是昂貴的,需要近似和啟發式來解決多項式時間。人們對使用機器學習技術解決CO問題越來越感興趣。在這方面,CO問題通常被定義為MDP,其中最優行動/解決方案可以通過DRL學習到。此外,底層環境表示為使用GNN處理的圖。

**2) 交通: **用DRL和GNN處理的運輸問題大致可以分為路由和速度預測兩類。

**

**

3) 制造與控制:由于過程和系統級之間日益增加的復雜性和相互依賴性,DRL也在現代制造系統中得到了探索[73]-[75]。

  1. 知識圖譜補全 :在推薦系統[93]、社交網絡[94]、問答系統[95]、智能制造[96]、信息抽取[97]、語義解析[98]和命名實體消歧[99]等各種應用中,知識圖譜(Knowledge Graphs, KG)被越來越多地用于表示異構的圖結構數據。現實世界知識庫的一個關鍵問題是,它們是不完整,也就是說,很多關系都缺失了。知識圖譜(KGC)補全。是一個知識庫完成過程,旨在通過推斷缺失的條目與現有的幫助下,填補不完整的現實世界的知識庫。

**5)生命科學: **除了工程應用之外,ML最近的進展也展示了它在各種生命科學應用方面的革命性潛力,如藥物發現[101]-[103]和腦網絡分析[104]。為此,[101]提出了一種設計將DRL耦合到深度生成模型的抗病毒候選藥物的新方法。

付費5元查看完整內容
北京阿比特科技有限公司