亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

<tfoot id='d9iab'></tfoot>

<legend id='d9iab'><style id='d9iab'><dir id='d9iab'><q id='d9iab'></q></dir></style></legend>

<i id='d9iab'><tr id='d9iab'><dt id='d9iab'><q id='d9iab'><span id='d9iab'><b id='d9iab'><form id='d9iab'><ins id='d9iab'></ins><ul id='d9iab'></ul><sub id='d9iab'></sub></form><legend id='d9iab'></legend><bdo id='d9iab'><pre id='d9iab'><center id='d9iab'></center></pre></bdo></b><th id='d9iab'></th></span></q></dt></tr></i><div id='d9iab'><tfoot id='d9iab'></tfoot><dl id='d9iab'><fieldset id='d9iab'></fieldset></dl></div>

·

多模態對齊 · 多模態大型模型 · 大型語言模型 ·

2023 年 11 月 18 日

[付費5元查看完整內容]多模態對齊如何做？國防科大等最新《如何彌合模態間的差距：多模態大型語言模型》綜述四大類型多模態對齊方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇綜述論文探討了多模態大型語言模型（MLLMs），它們集成了像GPT-4這樣的大型語言模型（LLMs），以處理多模態數據，如文本和視覺。MLLMs展示了如生成圖像敘事和回答基于圖像的問題等能力，為實現現實世界中的人機交互架起了橋梁，并暗示了通往人工通用智能的潛在路徑。然而，MLLMs在處理多模態的語義差距時仍面臨挑戰，這可能導致錯誤的生成，對社會構成潛在風險。選擇合適的模態對齊方法至關重要，因為不當的方法可能需要更多的參數，而性能提升有限。本文旨在探索LLMs的模態對齊方法及其現有能力。實施模態對齊使LLMs能夠解決環境問題并增強可訪問性。本研究將MLLMs中現有的模態對齊方法分為四組：（1）多模態轉換器，將數據轉換成LLMs能理解的形式；（2）多模態感知器，提高LLMs感知不同類型數據的能力；（3）工具輔助，將數據轉換成一種通用格式，通常是文本；以及（4）數據驅動方法，教授LLMs理解數據集中特定類型的數據。這一領域仍處于探索和實驗階段，我們將組織并更新多模態信息對齊的各種現有研究方法。

//www.zhuanzhi.ai/paper/aca24bad3f6b66886c4586eb24df3602

大型語言模型（LLM）通常在大量數據上進行預訓練，并包含大量參數。這些模型不僅在各種任務上表現出顯著提升的性能，還展示了較小模型所缺乏的新興能力。LLMs[1]由于其理解、推理及生成人類語言的卓越能力，在人工智能領域內獲得了極大關注。為了提升LLM回應的豐富性和說服力，最近的研究[2, 3, 4]探討了將LLM轉化為遵循指令的模型。例如，斯坦福Alpaca[2]通過利用OpenAI的InstructGPT模型[6]生成的指令示例，對Llama[5]進行微調，使其成為一個遵循指令的模型。與Alpaca和Vicuna[2]采用的完全微調方法不同，Llama-Adapter[7]在凍結的Llama中引入了零初始化注意力的輕量級適配器，實現了參數高效的微調并注入了多模態知識。盡管取得了重大進步，但上述方法在處理更高級的多模態信息時仍面臨挑戰，例如GPT-4[8]中所涉及的視覺理解任務。實際上，我們對世界的感知是通過視覺、聲音、觸覺和味覺等多樣化感官豐富的。這些感官經常相互作用，視覺使用文本，文本使用視覺來增強理解。隨著社交媒體的發展，人們表達觀點的方式經常涉及多種模態。這就要求LLMs能夠理解多模態數據，這就是所謂的多模態大型語言模型（MLLM）。它們利用大型語言模型（LLM）的強大能力作為核心組件，來處理多種多模態任務。MLLM的顯著新興能力，如從圖像生成敘事和無需OCR進行數學推理，是傳統方法中罕見的。這表明了實現人工通用智能的潛在路徑。隨著多模態模型的迅速發展，它們更適合具有多模態信息交互的真實世界場景，擴大了大型多模態模型的應用前景，并產生了更迫切的研究需求。

然而，當MLLM在處理多模態間的語義差距時表現不佳，可能會導致錯誤的生成，包括錯覺，對社會構成潛在風險甚至可能造成傷害。不當的模態對齊方法可能需要更多參數，但性能提升有限，導致高昂的計算和使用成本。因此，選擇合適的模態對齊方法很重要。本綜述旨在探索為LLM設計的模態對齊方法及其在該領域內的現有能力。實施模態對齊使LLM能夠解決環境問題，提高可訪問性，并在部署中促進包容性。然而，將大型模型的能力轉移到多模態場景的方法尚不明確。盡管Yin等人[10]專注于將多模態信息融入到LLM的微調技術中，如指令學習或思維鏈，但在調查數據中不同模態間的差異方面缺乏關注。另一方面，已有許多努力將LLM與人類行為和價值觀進行對齊。然而，“與什么對齊”的根本問題仍然沒有得到充分解決。因此，[11]和Shen等人[12]提出了一項關于LLM對齊目標的綜述。不過，這些努力更傾向于對齊技術，確保這些模型展示與人類價值觀一致的行為。由于LLM和MLLM都處于發展的初期階段，現有的多模態對齊方法呈現出廣泛的差異，研究方向目前處于探索和實驗階段。因此，需要組織關于多模態信息對齊的各種現有研究方法。在MLLM時代仍處于萌芽階段，我們旨在不斷更新本綜述，以激發更多研究興趣。

從互補性角度來看，單模態LLM和視覺模型同時相互邁進，最終催生了MLLM這一新領域。本質上，MLLM指的是具備接收和推理多模態信息能力的基于LLM的模型。總之，探索單模態LLM如何適應多模態數據，以及如何有效地將視覺模型與單模態LLM集成，具有重要價值。具體來說，我們將MLLM分為四種結構類型，每種類型從不同角度解決模態間的差異。(1)多模態轉換器。轉換器促進將多模態信息轉化為LLM能理解或學習的對象，利用LLM的能力學習這些轉換后的對象。(2)多模態感知器。這些方法專注于設計與LLM接口的多模態感知器，主要是為了增強對多模態信息的感知能力。(3)工具輔助。鼓勵使用工具將不同模態轉換為統一的模態，主要是文本，最終完成多模態任務。(4)數據驅動。數據驅動方法旨在通過讓LLM在特定數據集上學習，賦予它與特定數據集相關的能力。例如，在點云數據集上學習使模型能夠理解點云。

我們的主要貢獻如下。

? 我們強調了在多模態大型語言模型中彌合模態差距的方法的重要性，并提供了第一個關于多模態信息對齊的綜合性綜述。 ? 我們涵蓋了彌合模態差距的四種方法：多模態轉換器、多模態感知器、工具輔助和數據驅動方法，并為每種方法提供定義，并追蹤它們的發展路徑。 ? 通過闡明MLLM中多模態信息對齊的不同方法，我們討論了主要挑戰和可能的未來研究方向。

概述****我們根據處理多模態特征的方法將這些方法分為四組。因此，本文將最近的代表性MLLM分為四類： (1)將LLM作為多模態特征的直接處理器； (2)利用多模態感知器的MLLM來處理多模態特征； (3)將LLM作為處理多模態特征的工具； (4)在特定格式的數據上學習，賦予LLM適應額外模態的能力。請注意，這四種技術相對獨立，可以組合使用。因此，我們對一個概念的闡述也可能涉及其他概念。

我們根據這四個主要類別組織了綜述，并依次介紹它們。我們首先詳細介紹將LLM作為多模態特征的直接處理器的MLLM，以揭示當LLM作為直接處理器時如何適應多模態性。接著，我們介紹利用多模態感知器處理多模態特征的MLLM，主要關注如何創新多模態感知機制，使LLM能夠理解多模態信息。另一項重要技術是輔助LLM，這通常涉及四種輔助技術。最后，我們以總結和潛在的研究方向結束我們的綜述。

多模態轉換器

鑒于語言模型（LLM）的顯著能力，處理多模態任務最直接的方法是將多模態特征直接輸入到LLM中，讓它學習和理解這些多模態特征。然而，由于LLM主要在通用文本上進行訓練和學習，因此在處理多模態特征時存在不可避免的語義差距。直接注入這些特征可能導致嚴重的幻覺和偏離事實的答案生成。因此，當代研究人員通常努力將多模態特征，如圖像特征，映射到與語言相一致的特征空間中，旨在提高多模態語言模型（MLLM）的性能。多模態感知器 類似于完全依賴純文本LLM進行語言理解，利用多模態感知器的LLM旨在通過引入特殊的多模態感知模塊來最小化圖像和文本之間的語義差距。感知模型是一個多模態感知器，它通過將多模態特征轉換為與LLM的嵌入表示空間一致的多模態標記，從而彌合文本模態與其他模態之間的差距。這一過程在圖3中進行了抽象表示。也可以考慮更復雜（但成本更高）的方案來連接圖像和語言表示，例如Flamingo[41]中的門控交叉注意力和BLIP-2[34]中的Q-former，或者其他提供對象級特征的視覺編碼器，如SAM[68]。[13]**工具輔助 **基于人類善于使用工具解決各種問題的深厚能力，許多當代研究努力旨在賦予LLM使用各種工具的能力[49, 50, 52, 54, 55, 61, 80]，例如基礎模型和API。在MLLM領域中，鼓勵LLM利用工具將不同模態轉換為統一的模態，主要是文本，以最終完成多模態任務。原生LLM本質上只裝備了處理文本輸入的能力。因此，研究人員尋求通過構建文本格式（包括自然語言、代碼和結構化文本）來指導LLM獲得使用工具的技能。這一系列努力可以分為三個主要方法：1) 自然語言輔助；2) 代碼輔助；和3) 代碼與自然語言同時輔助。這些研究工作通過工具整合擴展了LLM的功能能力，為人工通用智能（AGI）和人工智能代理的未來發展鋪平了道路。盡管如此，這些舉措取決于LLM的情境學習（ICL）能力，這意味著LLM需要達到一定的模型參數閾值才能有效地獲得使用工具的熟練度。

**數據驅動的MLLM **大規模模型的快速發展在很大程度上依賴于使用廣泛的數據集進行訓練。包括多模態模型在內的傳統大型模型主要建立在通用數據集之上，這些數據集通常來源于互聯網上的未標注文本[82]。雖然這些數據集涵蓋了廣泛的領域，但這些模型更傾向于通用能力。然而，當面對更復雜的多模態信息時，如醫學圖像[64]或生物分子的結構[83]，與這些模態相關的數據較少。因此，模型缺乏對這些特定領域的訓練和認知，導致性能不佳，甚至無法理解這些模態。結論研究[84]表明，隨著訓練參數和數據量的增加，模型表現出可預測的性能改進、更高的樣本利用率，甚至不可預測的能力。這些不可預測的能力在較小的模型中不常見，但在LLM中已經出現。因此，越來越多的研究人員正在采用數據驅動策略，收集或構建特定領域的數據，并將其作為訓練和微調模型的基礎，以賦予它們對多模態信息的額外理解能力。實驗表明，不改變模型結構，改變訓練數據的重點可以賦予大型模型不同的能力[65, 66, 85, 86, 87, 88]。

付費5元查看完整內容

相關內容

多模態對齊

多模態對齊

知識編輯 · 大型語言模型 ·

2024 年 1 月 3 日

[付費5元查看完整內容]如何編輯大模型中的知識？浙大等最新《大型語言模型知識編輯》全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而，它們的一個主要局限性在于訓練過程中顯著的計算需求，這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇，需要頻繁更新LLMs以糾正過時的信息或整合新知識，從而確保它們的持續相關性。值得注意的是，許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法，人們越來越感興趣。為此，近年來知識編輯技術在LLMs領域蓬勃發展，旨在有效地修改LLMs在特定領域內的行為，同時保持對各種輸入的整體性能。在本文中，我們首先定義了知識編輯問題，然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感，我們提出了一個統一的分類標準，將知識編輯方法分為三組：依賴外部知識、將知識融入模型和編輯內在知識。此外，我們引入了一個新的基準測試，KnowEdit，用于對代表性知識編輯方法進行全面的實證評估。另外，我們提供了對知識位置的深入分析，這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想，我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究，我們發布了一個開源框架，EasyEdit1，將使從業者能夠高效靈活地實施LLMs的知識編輯。最后，我們討論了知識編輯的幾個潛在應用，并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則，從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中，我們人類不斷積累了豐富的知識財富，并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索，一直吸引著科學家們，這不僅是一項技術追求，還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來，大型語言模型（LLM）如GPT-4[13]在自然語言處理（NLP）方面展現出了卓越的能力，可以保留大量知識，可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34]，潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型，實質上創建了一種“世界模型”[35-37]。例如，戴等人[38]提出了知識神經元（KN）論，提出語言模型的功能類似于鍵值記憶。在這里，核心區域的多層感知器（MLP）權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用，暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力，李等人[42]已經證明，針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態，并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58]，不僅存儲大量信息，還以可能反映人類認知過程的方式進行結構化。然而，LLMs存在一些限制，如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題，近年來見證了為LLMs專門定制的知識編輯技術的發展潮，這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整，而不會影響整體性能，并有助于了解LLMs如何表示和處理信息，這對于確保人工智能（AI）應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制（§2.1）以及相關技術，包括參數有效微調、知識增強、繼續學習和機器遺忘（§2.2）。然后，我們介紹了初步內容（§3.1），正式描述了知識編輯問題（§3.2），并提出了一個新的分類法（§3.3），以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言，我們將LLMs的知識編輯分類為：使用外部知識（§3.3.1）、將知識融入模型（§3.3.2）和編輯內在知識（§3.3.3）的方法。我們的分類標準總結如下：

? 使用外部知識。這種方法類似于人類認知過程中的識別階段，需要在相關上下文中暴露給新知識，就像人們首次接觸新信息一樣。例如，提供說明模型的事實更新的句子，以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段，在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中，通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗，涉及了12個自然語言處理（NLP）數據集。這些數據集經過精心設計，用于評估性能（§4）、可用性和底層機制，同時進行了深入的分析（§5），等等其他方面。我們研究的關鍵見解總結如下：

? 性能。我們構建了一個名為KnowEdit的新基準，并報告了針對LLMs的最新知識編輯方法的實證結果，提供了公平比較，展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響，這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中，存在一個或多個列的明顯關注點在值層中。此外，我們發現知識定位過程（例如，因果分析）傾向于僅針對與所討論實體相關的區域，而不是整個事實背景，這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外，我們深入探討了知識編輯對LLMs可能導致意外后果的可能性，這是一個需要仔細考慮的方面。

最后，我們深入探討了知識編輯的多方面應用，從各種角度（§6）考察其潛力，包括高效的機器學習、人工智能生成內容（AIGC）、可信人工智能和人機交互（個性化代理）。此外，我們的討論還涵蓋了知識編輯技術的更廣泛影響，特別關注能源消耗和可解釋性等方面（§7）。這篇論文旨在成為LLMs領域進一步研究的催化劑，強調效率和創新。為了支持和鼓勵未來的研究，我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容通過對各種數據集的大量訓練，LLMs積累了豐富的事實和常識信息，使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用，如許多研究所證明的那樣[142]。此外，王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力，無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力，但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息，還應允許進行高效和有針對性的更新，以糾正這些錯誤并提高其準確性。認識到這一差距，我們的論文引入了知識編輯的概念，旨在實現對LLMs的快速和精確修改，使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯，我們旨在提高LLMs的效用，使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷，并釋放它們作為動態和準確知識庫的全部潛力，以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k，以提高LLM的一致性和性能，而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型，例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性，因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段，其能力與人類的認知過程非常相似，特別是在學習和獲取知識方面。從人類學習過程中汲取靈感，我們可以類比地將這些概念應用到LLMs的編輯過程中，正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段：識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架，我們在表2中列出了它們。

? 識別階段：在識別階段，模型需要在相關背景下接觸新知識，就像人們首次遇到新信息一樣(§3.3.1)。例如，提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段：在關聯階段，新知識與模型中現有知識之間建立聯系(§3.3.2)，類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段：掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3)，類似于人類的深層掌握。這種方法直接改變了模型的權重?W，模型可以處理問題，無需任何外部幫助或合并。

實驗結果

主要來說，SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法，且可移植性相對較好，因為新的反事實模型可以有效地學習編輯后的知識。與此同時，在不改變原始模型參數的情況下，SERAC除了ZsRE之外，在局部性能方面表現良好。然而，由于反事實模型通常比原始模型小，其生成能力不是很強，在WikiDatacounterfact、ZsRE和Convsent等任務中，我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時，在ICE任務中，我們可以發現編輯成功率并不太好，這可能歸因于知識沖突問題。同時，IKE提出將演示文稿連接在一起作為提示，但它們需要較長的輸入長度，并限制了模型進行下游任務。對于修改模型參數的方法，我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好，表現出良好的局部性和流暢性。然而，對于ROME和MEMIT，盡管編輯成功率更好，但它們的局部性不如MEND和其他類型的編輯方法。同時，它的可移植性令人不滿。對于局部微調方法FT-L，其編輯成功率不如ROME或MEMIT，但局部性和可移植性更好。此外，似乎FT-L在處理插入任務時更好，因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務，當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務，我們可以發現當前方法不能很好地改變模型的情感，因為編輯成功率低于65%。SERAC，它可以完美地處理小型LMs [145]，在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現，MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation，旨在從LLMs中刪除知識，我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識，因為它的準確率達到了90%。但是，它會破壞模型對無關知識的性能，因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果，如我們在圖3中的先前評估部分中討論的那樣。在這里，我們可以發現MEND在推理集下表現更好，而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

大型語言模型 · 生成式AI · 計算資源 · 機器學習系統 ·

2023 年 12 月 27 日

[付費5元查看完整內容]大模型如何部署服務？ CMU最新《高效生成式大型語言模型服務：從算法到系統》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大模型如何落地？

在快速發展的人工智能（AI）領域中，生成型大型語言模型（LLMs）站在前沿，徹底改變了我們與數據的互動方式。然而，部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰，特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統（MLSys）研究的角度出發，應對高效LLM服務方法論的緊迫需求，站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析，涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解，為研究人員和實踐者提供寶貴的見解，幫助他們克服有效LLM部署的障礙，從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117

生成型大型語言模型（LLMs）已成為推動人工智能（AI）重大進展的驅動力，并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成，這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構，如GPT系列（Generative Pre-trained Transformer）[195]、LLaMA系列[247]以及其他最新的公開LLMs（例如，OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290]）在這種范式轉變中發揮了關鍵作用，徹底改變了自然語言處理（NLP）任務的處理方式。除了NLP，這些模型還在更廣泛的應用領域中實現了轉型，包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197]，展現了它們的多功能性和在各個行業的深遠影響。

然而，LLMs的空前成功也帶來了幾個挑戰，最值得注意的是，在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性，加上對廣泛計算資源的需求，已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂，阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。

這篇綜述旨在解決高效LLM服務的關鍵需求，并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍，所有這些都旨在優化大型語言模型的推理過程。

目標這項綜述的主要目標是提供一個全面的概述，關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術，基于它們的底層方法，突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論，包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。

** 結構本文的結構如下**：第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類，從兩個方面重新審視這些相關工作：算法創新（§ 3.1）和系統優化（§ 3.2）。之后，我們在第4節列出了一些代表性的LLM服務框架，并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后，在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向，以激發未來的研究。

分類法

目前提高LLM服務效率的努力大致可分為兩類，包括算法創新和系統優化，這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析，這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。

** 解碼算法**。在這一部分中，我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度，并提高語言模型推理在生成任務中的總體效率。

非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制，它逐個順序生成輸出標記。為解決這一問題，一種代表性的工作方向是放棄自回歸生成范式，并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出，通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低，一些后續研究如半自回歸解碼[98]，通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152]，進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層，以并行預測多個未來位置，然后退回到基模型驗證的最長前綴。然而，這些方法需要昂貴地重建一個新的LLM以及新的依賴，或調整原始LLM的部分層，這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記，無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統，利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出，以總結這一方向的最新進展。到目前為止，由于不了解輸出標記之間的條件依賴性，盡管解碼速度有所提高，但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。

投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性，解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行，例如決定接下來生成哪個標記。已提出投機解碼[51, 155]，首先以高效的方式（例如，使用較小的草稿模型，模型參數較少）進行多步解碼預測，并與LLM同時驗證這些預測。然而，將投機解碼應用于LLMs時仍然存在一些實際挑戰，例如，如何使解碼預測足夠輕量且準確，以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制（被[48, 118, 168, 185, 229, 236, 274, 310]直接采用），提出了一個低延遲LLM服務系統實現（§ 4）。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證，并且當預測出錯時，回退機制[145]生效。

提前退出。其他一些研究試圖利用現有LLMs的深層多層架構，并利用提前退出機制[243]加速解碼過程。直覺是，早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測，而不是運行整個LLM，并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219]，因為它們調整每個請求的計算量以攤銷總推理成本，即對更容易的推理請求采取較少的計算。廣泛來說，這些方法大多受限于內部表示攜帶的信息不足，可能無法忠實地進行準確預測。

級聯推理。由于推理請求的復雜性不同，級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器，以級聯方式組織它們，并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型（即非生成型LLMs）進行了優化，但采取了類似的方法，結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API，優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存，并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本，它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說，級聯推理是提高推理效率的有希望的方向，但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115]，超越了原始的Transformer，實現了模型規模、性能和效率之間的平衡，為更快和資源高效的推理開辟了新途徑。

配置縮小：為了減少LLM推理的計算成本，一種直接的方法是縮小模型配置，例如使用淺層編碼器[101, 183]或解碼器[137]，權重共享和詞匯表縮減[225]。然而，減少模型參數的數量也會影響下游任務的性能。

注意力簡化：與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2)，它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案，用于非常長的序列任務，例如稀疏化[289]、核化[139]和分解[254]。最近，有一種趨勢從之前的注意力簡化方法中借鑒思想，將它們概括和結合起來，以縮短上下文，減少KV緩存的大小，以及注意力復雜度，同時略微降低解碼質量（例如，滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74]）。這些方法中的一個類別是通過壓縮上下文到更少的軟標記（例如，替換為摘要標記[58]或地標標記[184]，利用額外的自編碼器方案[95, 169]）或直接根據不同的重要性指導[85, 130, 159, 186]（或稱為語義壓縮）刪除或改寫不重要的上下文標記來進行上下文壓縮。例如，自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。

提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構，并利用提前退出[243]機制來加速解碼過程。其直覺是，早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測，而不是運行整個LLM，并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219]，因為它們調整每個請求的計算量，以攤銷總推理成本，即對更容易的推理請求采取較少的計算。然而，由于這些方法大多受限于內部表示攜帶的信息不足，可能無法忠實地進行準確預測。

級聯推理。鑒于推理請求的復雜性不同，級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢，CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器，以級聯方式組織它們，并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型（即非生成型LLMs）進行了優化，但采用了類似的方法，將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API，優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存，并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務，以節省成本，它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言，級聯推理是提高推理效率的一個有前景的方向，但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115]，超越了原始的Transformer，實現了模型規模、性能和效率之間的平衡，為更快和資源高效的推理開辟了新途徑。 * 注意力簡化：自注意力計算的一個突出挑戰是計算復雜度O(??^2)，隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案，例如稀疏化[289]、核化[139]和分解[254]。最近，有一種趨勢從之前的注意力簡化方法中借鑒思想，將它們概括和結合起來，以縮短上下文，減少KV緩存的大小，以及注意力復雜度，同時略微降低解碼質量（例如，滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74]）。這些方法中的一個類別是通過壓縮上下文到更少的軟標記（例如，替換為摘要標記[58]或地標標記[184]，利用額外的自編碼器方案[95, 169]）或直接根據不同的重要性指導[85, 130, 159, 186]（或稱為語義壓縮）刪除或改寫不重要的上下文標記來進行上下文壓縮。例如，自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。

模型壓縮。在這里，我們深入探討了模型壓縮技術，旨在通過創建更高效、更緊湊的模型，減少LLMs的內存占用和計算需求，同時不會對性能造成顯著損失。

知識蒸餾：一種方法是知識蒸餾，它訓練一個小型的學生模型，以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255]，需要訪問整個教師模型的參數。由于基于API的LLM服務（例如，ChatGPT）的出現，一些黑盒蒸餾模型吸引了很多關注，例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數，但與原始LLMs（例如，GPT-4[195]）相比，在各種下游任務上表現出了有前景的性能。

網絡剪枝：過去幾年中，網絡剪枝方法[180, 215, 215]已被廣泛研究，但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面，這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs，刪除整個結構化LLM組件，促進GPU加速。例如，Deja Vu[172]在不修改預訓練模型的情況下，根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276]，通常實現LLM壓縮的50-60%稀疏性。值得注意的是，它們可以進一步概括為半結構化N:M稀疏性（即2:4和4:8）[182]，通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問，并提出了一個GPU-CPU混合推理引擎，讓GPU和CPU處理不同的神經元。

系統優化本節研究LLM推理系統優化技術，以加速LLM推理，而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架，提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術，這些技術能夠高效地表示模型權重和激活。通過使用更少的比特（即少于32比特）來表示數值，這些方法顯著減少了內存消耗，并加速了硬件平臺上的推理。一種方法是量化LLM，這些量化方法大致可以分為兩個方向：量化感知訓練（QAT）和訓練后量化（PTQ）[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4，通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率，例如W8A16（即INT8僅權重量化和FP16或BF16激活），GPTQ中的W4A16[88]，SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是，NVIDIA的最新架構，如Turing和Ampere已經包含了INT8和INT4張量核心，最新的Hopper架構雖然取消了INT4支持，但引入了FP8張量核心以獲得更好的數值精度（例如，H100 GPU的FP8與FP32相比可達60倍TFLOPS）。現有方法通常采用各種量化函數，包括均勻方法（即最近舍入）和非均勻方法[143]。為了緩解低精度帶來的性能損失，QAT在模型訓練期間集成了量化[70, 171]。值得注意的是，由于底層系統實現的挑戰，低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求，但也有研究表明，量化方法由于存在比例定律，可能對模型的推理性能產生顯著影響[72]。此外，量化還被應用于上下文壓縮（例如，CacheGen[169]）和內存高效微調（例如，QLoRA[70]，PEQA[142]），結果導致LLM推理的內存消耗降低。

并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力，這些方法將計算分布在多個核心或設備上，從而在推理期間顯著加速。

內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一，特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長，與模型權重和其他激活所需工作空間相比，KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小，簡單的方法（例如，FasterTransformer）是預先分配一塊連續的內存，假設最大序列長度。這對于1）請求長度不同的輸入批次和2）并行生成多個輸出序列的復雜解碼場景（例如，波束搜索、并行解碼）來說，嚴重浪費了內存。vLLM[150]提出了分頁注意力，將KV緩存劃分為非連續的內存塊，顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷，以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制，進一步減少了內存使用。然而，這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下，這些細粒度內存管理方法可能只提供邊際吞吐量收益，同時大幅增加了推理延遲。顯然，LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好，但它們可能相互抵消，導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。

請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標（SLO）內的響應時間，并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處，因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而，由于其獨特的特性，如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理，LLM服務也帶來了獨特的挑戰。

早期的LLM服務系統（例如，NVIDIA Triton上的FasterTransformer）僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度，它在迭代粒度上調度引擎執行，并以先來先服務（FCFS）的順序，使得選定的操作集批處理，以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略，例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外，SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證，擴展到了投機解碼。FastServe[261]關注作業完成時間（JCT），涉及迭代級搶占，以優先處理輸入長度較短的請求，而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算，它將輸入提示劃分為均勻塊，并在可能的情況下，將塊插槽與其他請求的解碼迭代結合起來，這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器，并幫助在GPU內存限制內安排更多并發請求，以實現更大的批量大小和更高的推理吞吐量。

內核優化。在本小節中，我們深入探討了針對特定操作的內核級優化，這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。

軟件框架

生成型LLM服務需要一系列優化，許多最新工作已經開始開發軟件框架，以提供高效的LLM推理部署服務。下面，我們將重新審視這些系統，并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析，如表2所示。這些分析不包括一些流行的相關項目，包括1) 專門針對其他硬件的解決方案（例如，PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14]）和2) 構建在其他系統之上的部署解決方案，如OpenLLM[26]（vLLM）、xinference[30]（ggml + vLLM + xFormers）、LMDeploy[20]（FasterTransformer）、gpt-fast[15]（PyTorch）、DeepSpeed-MII和DeepSpeed-FastGen[11]（DeepSpeed-Inference）以及RayLLM和RayServe[27]（vLLM）。

我們比較了這些最先進的LLM服務系統，并在幾個方面總結了它們的差異。首先，大多數系統支持張量并行性，以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載，以分別支持多節點或資源受限環境下的推理。其次，部分系統從Orca學習，并實現了迭代級調度。第三，我們調查了這些系統的注意力內核，并分別介紹了它們在初始和增量階段的實現。對于初始階段，它們通常采用批量通用矩陣乘法（GEMM）方法（例如，cuBLAS、torch、Relay），有些利用在線softmax技巧減少HBM訪問（例如，Flash-attention、xFormers）。增量階段更具挑戰性，因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率，FasterTransformer手動融合了注意力計算（例如，線性投影、位置偏差、點積、softmax等）到一個高性能的內核模板中，并涉及多種內核優化技術，例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加（HMMA）以及多精度支持。FlexFlow-Serve啟用了投機解碼，并提供了一個基于樹的并行解碼內核，以零內存冗余和最大線程并行性驗證來自多個序列（即來自多個小型模型或不同波束或并行采樣）的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力（MHA）內核，通過將KV緩存分割成頁面來消除冗余內存使用，特別適用于并行采樣場景。LightLLM采用后續方法，將KV緩存劃分為更細粒度的標記級片段。

值得注意的是，上述討論并未涵蓋其他一些值得注意的方面。例如，即使對于最受歡迎的Flash和Paged注意力內核，它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫，LightLLM采用了OpenAI Triton實現的內核，MLC-LLM通過TVM生成內核，TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段，TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外，對于線性投影運算符，最近有一種趨勢是用通用矩陣-向量乘積（GEMV）替換GEMM，以更有效地處理小批量大小（即1）的情況。這些系統還具有許多其他不同的特性，如編程語言（即C++、Python）、低精度支持（即FP16、INT8）、支持的硬件和模型。總之，這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如，vLLM提出分頁注意力以提高批量大小，從而實現更高的吞吐量（??????），而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲（??????）。基本上，低延遲和高吞吐量是LLM服務系統的雙重優化目標，代表了互補但往往相互沖突的目標，需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度，其中TTFT代表首個標記的時間，TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動，而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益，導致不同的系統設計選擇和用戶體驗（例如，更快的應用響應性[169]，更長的提示[9]）。此外，降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案，但我們相信未來的LLM服務系統將繼續整合這些不同的特性，從而不斷提高系統效率和硬件利用率。

結論

高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解，使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果，本文希望加速進步，并在追求高效LLM服務解決方案的過程中促進創新。

付費5元查看完整內容

大型語言模型 · 模型壓縮 · 生成式人工智能 · 預訓練模型 · 模型微調 ·

2023 年 12 月 10 日

[付費5元查看完整內容]大模型如何高效？OSU等最新《高效大型語言模型》綜述，詳述模型壓縮、預訓練、微調、提示等技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言理解、語言生成和復雜推理等重要任務中展示了顯著能力，并有潛力對我們的社會產生重大影響。然而，這些能力伴隨著它們所需的大量資源，突顯了開發有效技術以應對其效率挑戰的強烈需求。在本綜述中，我們提供了對高效LLMs研究的系統性和全面的回顧。我們組織了文獻，形成了一個由三個主要類別構成的分類法，分別從模型中心、數據中心和框架中心的視角，涵蓋了不同但相互關聯的高效LLMs主題。我們還創建了一個GitHub倉庫，在 //github.com/AIoTMLSys-Lab/Efficient-LLMs-Survey 收錄了本綜述中的論文，并將積極維護這個倉庫，將新的研究成果納入其中。我們希望我們的綜述能成為幫助研究人員和實踐者系統理解高效LLMs研究發展的寶貴資源，并激勵他們為這個重要且令人興奮的領域做出貢獻。

大型語言模型（LLMs）是一種先進的人工智能模型，旨在理解和生成人類語言。最近，我們見證了GPT系列（GPT-3 [21] 和 GPT-4 [197]）、谷歌系列（Gemini [266]、GLaM [71]、PaLM [50]、PaLM-2 [8]）、Meta系列（LLaMA 1&2 [272, 273]）、BLOOM [233]、盤古之心 [227] 和 GLM [339]等LLMs的興起，以及它們在自然語言理解（NLU）、語言生成、復雜推理[320]和與生物醫學[278, 280]、法律[72]及代碼生成[34, 300]等領域相關的任務中取得的顯著表現。這些性能突破歸功于它們的巨大規模，因為它們包含數十億甚至數萬億個參數，同時又在大量數據上進行訓練，這些數據來自多樣化的來源。 盡管LLMs引領著人工智能的下一波革命，但LLMs的顯著能力卻以其巨大的資源需求為代價[50, 71, 197, 227]。圖1展示了LLaMA系列模型性能與訓練過程中碳排放之間的關系。如圖所示，隨著模型參數數量的增加，碳排放量呈指數級增長。除了訓練之外，推理（inference）也對LLMs的運營成本有著相當大的貢獻。如圖2所示，更先進的LLMs在推理過程中表現出更高的內存使用和能源消耗，這對于以經濟有效的方式將這些模型擴展到更廣泛的客戶群和多樣化的應用中提出了挑戰。隨著LLMs應用和客戶群的快速擴張，推理過程中的運營成本（包括能源消耗和內存使用）將增加，超過訓練成本，成為整體環境影響的主導因素。 LLMs的高資源消耗推動了開發技術以提高LLMs效率的需求。本綜述的總體目標是提供一個全面的視角，概述高效LLMs的技術進展，并總結現有的研究方向。如圖3所示，我們將文獻組織成一個由三個主要類別構成的分類法，分別從模型中心、數據中心和框架中心的視角，涵蓋了高效LLMs的主題。這三個類別涵蓋了不同但相互關聯的研究主題，共同提供了對高效LLMs研究的系統性和全面的回顧。具體來說，

?** 模型中心方法**：模型中心方法側重于以模型本身為焦點的算法層面和系統層面的高效技術。由于LLMs擁有數十億甚至數萬億個參數，它們表現出與小規模模型不同的特征[299]，這促使了新技術的發展。在第2部分，我們調查了涵蓋模型壓縮、高效預訓練、高效微調、高效推理和高效架構設計相關的研究方向的高效技術。

? 數據中心方法：在LLMs領域，數據的重要性與模型本身一樣關鍵。數據中心方法側重于數據質量和結構在提高LLMs效率方面的作用。在第3部分，我們調查了涵蓋數據選擇和提示工程相關研究方向的高效技術。

? LLM框架：LLMs的出現促使開發專門的框架，以高效地處理它們的訓練、推理和服務。雖然主流的人工智能框架（如TensorFlow、PyTorch和JAX）提供了基礎，但它們缺乏對LLMs至關重要的特定優化和特性的內置支持。在第4部分，我們調查了專門為高效LLMs設計的現有框架，介紹了它們的獨特特性、底層庫和專門化。

最后，我們建立了一個GitHub倉庫，在上匯編了本綜述中的論文，并將它們按照相同的分類法組織起來。我們將積極維護它并納入新的研究成果。我們希望這個綜述以及GitHub倉庫能幫助研究人員和從業者瀏覽文獻，并作為激發對高效LLMs進一步研究的催化劑。

以模型為中心

正如圖4所總結的，大型語言模型（LLMs）的模型壓縮技術可以分為四類：量化、參數剪枝、低秩近似和知識蒸餾。

如表1所示，預訓練大型語言模型（LLMs）的成本極其昂貴。高效的預訓練旨在提高預訓練過程的效率并降低成本。正如圖7所總結的，高效預訓練技術可以分為四類：混合精度加速、模型縮放、初始化技術和優化策略。

高效微調旨在提高大型語言模型（LLMs）微調過程的效率。正如圖8所示，高效微調方法可以分為參數高效微調（PEFT）和內存高效微調（MEFT）。

高效推理旨在提高大型語言模型（LLMs）推理過程的效率。正如圖10所總結的，高效推理技術可以分為算法層面和系統層面的加速技術。

針對大型語言模型（LLMs）的高效架構設計是指對模型結構和計算過程進行戰略性優化，以提升性能和可擴展性，同時最小化資源消耗。圖12總結了大型語言模型的高效架構設計。

以數據為中心

大型語言模型（LLMs）的數據選擇涉及對數據源、質量和預處理的仔細考慮。確保高質量數據是開發高效可靠的LLMs的基礎，因為它影響著它們的學習、泛化和在各種任務上準確執行的能力。[84, 232, 311, 325]。這個過程對于避免在模型中傳播偏見和不準確性至關重要，使得LLMs訓練能夠收斂。研究人員正在開發優化數據選擇、數據壓縮和提示微調等策略，以提高性能同時使用較少的資源。圖15總結了高效預訓練和微調的最新數據選擇技術。

提示工程[167]涉及設計有效的輸入（提示），以引導大型語言模型（LLMs）生成期望的輸出。這對于LLMs至關重要，因為提示工程使得LLMs能夠針對特定任務進行定制，而無需大量標記數據。高效技術使得這些模型能夠在較少的計算開銷下準確處理信息和響應。基于提示的語言模型所涉及的計算成本一直是持續研究的主題，特別是在特定任務應用的背景下。正如圖17所總結的，提示工程技術可以分為少量樣本提示、提示壓縮和提示生成。

LLM框架

結論

在這篇綜述中，我們提供了對高效大型語言模型（LLMs）的系統性回顧，這是一個旨在實現LLMs民主化的重要研究領域。我們從闡述高效LLMs的必要性開始。通過一個分類體系，我們分別從以模型為中心和以數據為中心的角度，回顧了LLMs的算法層面和系統層面的高效技術。此外，我們還回顧了具有特定優化和特性的LLMs框架，這些對高效LLMs至關重要。我們認為，效率將在LLMs及以LLMs為導向的系統中發揮越來越重要的作用。我們希望這篇綜述能夠使研究人員和實踐者快速進入這一領域，并作為激發高效LLMs新研究的催化劑。

付費5元查看完整內容

大型語言模型 · 圖神經網絡 · 自然語言處理 · 圖表示學習 ·

2023 年 12 月 7 日

[付費5元查看完整內容]圖上大模型怎么做？UIUC最新《圖上大型語言模型》綜述，詳述LLM在圖上作為預測器、編碼器和對齊器的技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs），如ChatGPT和LLaMA，正因其強大的文本編解碼能力和新發現的突現能力（例如，推理）在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本，但在許多現實世界場景中，文本數據與圖形（例如，學術網絡和電子商務網絡）形式的豐富結構信息相關聯，或者圖形數據與豐富的文本信息（例如，帶有描述的分子）配對。此外，盡管LLMs已展示其基于純文本的推理能力，但是否可以將此能力泛化到圖形場景（即基于圖的推理）尚未得到充分探索。在本文中，我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類，即純圖，文本豐富的圖，以及與文本配對的圖。然后，我們討論了在圖上使用LLMs的詳細技術，包括將LLM作為預測器、編碼器和對齊器，并比較了不同模型類別的優缺點。此外，我們還提到了這些方法的實際應用，并總結了開源代碼和基準數據集。最后，我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到：//github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742

大型語言模型（LLMs）（例如，BERT [22]、T5 [30]、LLaMA [119]）經過在非常大的文本語料庫上的預訓練，已被證明在解決自然語言處理（NLP）任務方面非常強大，包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs（例如，BERT [22]、RoBERTa [23]）采用僅編碼器架構，并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來，越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大，這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5]，展現了對人工通用智能（AGI）的強大潛力。 雖然LLMs廣泛應用于處理純文本，但越來越多的應用場景中，文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示，在學術網絡中，論文（帶有標題和描述）和作者（帶有個人簡介文本）通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦；在科學領域，分子以圖形表示，并通常與描述其基本信息的文本（例如，毒性）配對。同時建模分子結構（圖）和相關的豐富知識（文本）對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本，上述場景提出了新的挑戰，即如何使LLMs能夠編碼圖上的結構信息。此外，由于LLMs已展示了其卓越的基于文本的推理能力，探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近，擴展LLMs用于基于圖的應用（如圖1所總結）引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系，應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡（GNNs）的交互方式，圖上LLMs的技術可以分為將LLMs作為任務預測器（LLM as Predictor）、將LLMs作為GNNs的特征編碼器（LLM as Encoder）以及將LLMs與GNNs對齊（LLM as Aligner）。目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習，Wu et al. [17] 提供了圖神經網絡（GNNs）的全面概述，詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型，包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜（KGs）之間的聯系，特別是KGs如何增強LLMs的訓練和推理，以及LLMs如何促進KG的構建和推理。總而言之，現有的綜述要么更多地關注GNNs而非LLMs，要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述，旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。

**分類與框架 **

在本節中，我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后，我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類

純圖（無文本信息）是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力（解決圖論問題）的背景，或作為知識來源以增強大型語言模型（減輕幻覺現象）。文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上，人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質，其中節點代表原子，邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素，但分子的文本描述可以作為補充知識來源，幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **

根據LLMs的角色以及解決圖相關問題的最終組件，我們將圖上LLM技術分類為三個主要類別： LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強，并可以根據圖信息如何注入LLM進行分類：1）圖作為序列：這種方法不對LLM架構做任何改變，但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2）增強圖的LLM：這種方法修改了LLM基礎模型（即變壓器）的架構，并使其能夠在其架構內進行聯合文本和圖編碼。3）圖感知LLM微調：這種方法不對LLMs的輸入或LLM架構做任何改變，但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖（解決節點級或邊級任務）。GNNs是最終組件，我們采用LLM作為初始文本編碼器。具體來說，首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而，這些方法存在收斂問題、稀疏數據問題和效率問題，我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件，并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說，LLMs和GNNs之間的對齊可以分為1）預測對齊，其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練，和2）潛空間對齊，其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **

在圖上應用語言模型有兩種典型的訓練和推理范式：1) 預訓練-然后微調：通常用于中等規模的大型語言模型；以及 2) 預訓練-然后提示：通常用于大規模的大型語言模型。預訓練指的是使用無監督目標訓練語言模型，以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時，語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法，可以充分激發語言模型對下游任務的潛力，但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45]，以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念，換句話說，人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列，并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示，后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。在接下來的章節中，我們將遵循第3節的分類，并討論每個圖場景的詳細方法論。

**結論 **

在本文中，我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類，并總結了圖上大型語言模型的技術。然后，我們對每個場景內的方法進行了徹底的審查、分析和比較。此外，我們總結了可用的數據集、開源代碼庫和多種應用。最后，我們提出了圖上大型語言模型的未來發展方向。

付費5元查看完整內容

圖基礎模型 (GFMs) · 大模型 · 圖神經網絡 ·

2023 年 11 月 25 日

[付費5元查看完整內容]大模型和圖如何結合？最新《圖遇見大型語言模型》綜述，詳述最新進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近，大型語言模型（LLMs），它們在各個領域取得了巨大成功，也被用于圖相關任務，超越了傳統的基于圖神經網絡（GNNs）的方法，實現了最先進的性能。在這篇綜述中，我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先，我們提出了一個新的分類法，根據LLMs在圖相關任務中扮演的角色（即增強器、預測器和對齊組件）將現有方法分為三類。然后，我們系統地調查了沿著分類法的三個類別的代表性方法。最后，我們討論了現有研究的剩余局限性，并強調了未來研究的有希望的途徑。相關論文已總結，并將在以下網址持續更新：//github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。

圖論，在現代世界的許多領域，特別是在技術、科學和物流領域，扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性，從而闡明了圖組件內的關系。許多實際世界的數據集，如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018]，本質上都是以圖的形式表示的。為了處理圖相關任務，圖神經網絡（GNNs）[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制，獲取在節點、邊或圖層面上的表達性表示，用于不同種類的下游任務。

近年來，如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型（LLMs）在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務，幾乎無需調整，就在多種自然語言處理任務中展現了卓越性能，例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列，但目前越來越多的研究開始關注于增強LLMs的多模態能力，使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式，特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs（圖神經網絡）的結合可以帶來互利共贏，增強圖學習。盡管GNNs擅長捕捉結構信息，但它們主要依賴語義上受限的嵌入作為節點特征，這限制了它們表達節點完整復雜性的能力。通過整合LLMs，GNNs可以得到更強大的節點特征，有效捕捉結構和語境方面的信息。另一方面，LLMs擅長編碼文本，但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力，同時發揮GNNs捕捉結構關系的能力，從而實現更全面、強大的圖學習。例如，TAPE [He et al., 2023] 利用與節點（如論文）相關的語義知識，這些知識由LLMs生成，來提高GNNs中初始節點嵌入的質量。此外，InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器，通過平鋪圖形和設計提示（提示）等技術，利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間，將文本知識引入圖形（如分子）中，從而提高推理能力。 顯然，LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽，如圖2所示，我們遵循Chen et al. [2023a]的方法，組織我們的一級分類法，基于LLMs在整個模型管道中扮演的角色（即增強器、預測器和對齊組件）進行分類。我們進一步細化我們的分類法，并為初始類別引入更多細粒度。動機。盡管LLMs在圖相關任務中的應用越來越廣泛，但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述，提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述，總結了現有的圖基礎模型，并概述了預訓練和適應策略。然而，這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下，我們專注于圖和文本模態共存的場景，并提出了一個更細粒度的分類法，以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。

貢獻。這項工作的貢獻可以從以下三個方面總結：（1）結構化分類法。通過結構化分類法，對該領域進行了廣泛概覽，將現有工作分為四類（圖2）。（2）全面綜述。基于提出的分類法，系統地描述了LLMs在圖相關任務中的當前研究進展。（3）一些未來方向。我們討論了現有工作的剩余局限性，并指出了可能的未來發展方向。

**LLM作為增強器 **

圖神經網絡（GNNs）已成為分析圖結構數據的強大工具。然而，最主流的基準數據集（例如，Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020]）采用了樸素的方法來編碼TAGs中的文本信息，使用的是淺層嵌入，如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上，可以被任何GNNs利用，或直接輸入到下游分類器中，用于各種任務。我們自然地將這些方法分為兩個分支：基于解釋和基于嵌入，這取決于它們是否使用LLMs產生額外的文本信息。

LLM作為預測器

這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測，例如在統一的生成范式下的分類和推理。然而，將LLMs應用于圖模態提出了獨特的挑戰，主要是因為圖數據往往缺乏直接轉換成序列文本的方式，不同的圖以不同的方式定義結構和特征。在這一部分，我們根據模型是否使用GNNs來提取結構特征供LLMs使用，將模型大致分為基于平鋪和基于GNN的預測兩類。

GNN-LLM 對齊

對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時，每個編碼器的獨特功能得以保留。在這一部分，我們總結了對齊GNNs和LLMs的技術，這些技術可以根據是否對GNNs和LLMs都給予同等重視，或是否優先考慮一種模態而另一種模態則不那么重視，被分類為對稱或非對稱。

結論

近年來，將大型語言模型（LLMs）應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中，我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先，我們介紹了一個新的分類法，根據LLMs所扮演的不同角色（即增強器、預測器和對齊組件），將涉及圖和文本模態的技術分為三類。其次，我們根據這種分類系統地回顧了代表性的研究。最后，我們討論了一些限制，并強調了幾個未來的研究方向。通過這篇全面的綜述，我們希望能夠揭示LLMs在圖學習領域的進步和挑戰，從而鼓勵在這一領域進一步的提升。

付費5元查看完整內容

大模型 · 視覺語言指令調優 · 指令調優 ·

2023 年 11 月 18 日

[付費5元查看完整內容]大模型中視覺指令調優怎么做？騰訊最新《視覺-語言指令調優》綜述與分析

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

指令調優是大型語言模型（LLMs）的一個重要的監督訓練階段，其目標是增強LLMs執行指令的泛化能力并適應用戶偏好。隨著多模態數據在LLMs中的日益融合，人們對視覺-語言指令調優的性能越來越感興趣，這相比純文本指令呈現出更復雜的特性。在這篇論文中，我們系統地回顧了最新的多模態LLMs中視覺-語言指令調優設置和數據集，并總結了高質量視覺-語言調優數據應具備的特征。我們認為這些特征是構建視覺-語言指令數據的基本原則，并提出了一個完整的構建流程，包括數據收集、指令生成和質量控制模塊，這些模塊融入了精心設計的指令屬性評估指標。我們基于我們構建的指令數據對三個廣泛使用的多模態LLMs進行視覺-語言指令調優，并對相應的指標進行了廣泛的實驗，以證明本文提出的構建原則的合理性。與本文相關的代碼和數據集已在 //github.com/palchenli/VL-Instruction-Tuning 開源。近來，對大型語言模型（LLMs）僅能處理離散文本信息的有限能力日益不滿（Brown等，2020年；Chowdhery等，2022年；張等，2023年c）。因此，研究人員一直在探索改善LLMs的技術，以便處理額外類型的信息，主要是視覺信號，然后“超越文本”（黃等，2023年a；劉等，2023年c；朱等，2023年a）。視覺編碼模塊的整合已成為一種重要技術，它通過促進視覺數據的感知，增強了視覺-語言LLMs的多功能性。盡管這些多模態大型語言模型（MLLMs）的結構可以有所不同（劉等，2023年c；戴等，2023年；阿瓦達拉等，2023年），但它們的訓練范式遵循類似的模式。在這些MLLMs中，使用視覺-語言指令進行微調在這個過程中起著至關重要的作用。

指令調優是LLMs的一種監督訓練程序，通常包括不同的任務（歐陽等，2022年；魏等，2021年）。這個過程帶來了雙重好處，提高了LLMs泛化和執行各種任務指令的能力，同時也縮小了用戶偏好與模型輸出之間的差距。視覺-語言指令調優（VLIT）是指令調優的一個產物，它根據MLLM情況下的模型和訓練設計相應地進行了調整，并被賦予了更多的責任（劉等，2023年c；戴等，2023年；朱等，2023年a）。具體來說，MLLM中的VLIT需要適應多模態輸入和更多樣化的任務類型。換句話說，它們需要協調不同模態之間的信息以及復雜的理解和推理。目前有許多最先進的MLLMs在下游任務上表現良好，并具有出色的用戶交互能力，這在很大程度上歸功于它們對視覺-語言指令的高效微調。

不幸的是，在現有工作中，為了盡可能擴大VLIT數據集的規模，通常將大量不同的視覺注釋數據與簡單的指令模板粗糙地結合在一起。這些方法導致數據集中存在噪聲、幻覺、缺乏多樣性和指令不平衡的隱患，大數據規模也影響了MLLM的整體訓練成本。最近，一些工作（周等，2023年；魏等，2023年）指出，對VLIT數據進行質量優化是有效指導MLLM所必需的。具體來說，存在質量問題的VLIT數據不僅不會提高MLLM的性能，甚至可能在微調后削弱其能力。盡管一些工作已經開始嘗試基于主觀經驗控制VLIT數據的質量，但目前還沒有完整且經過驗證的策略（李等，2023年f；王等，2023年a；趙等，2023年d）。

在本文中，我們整理并總結了最新的MLLMs及其VLIT階段和相應的數據集。與其他相關綜述論文（徐等，2023年a；王等，2023年f）不同，我們借鑒現有工作的成熟經驗，分析并概述了高質量VLIT數據的主要特征，并將其形式化為不同角度的一整套定量評估指標。同時，我們基于這些原則和評估方法設計了一個靈活高效的VLIT數據構建和過濾流程，包括三個連續模塊：數據收集、指令生成和質量控制。為了確認這些原則和整個流程的有效性和一致性，我們利用公共可用的數據集根據上述方法構建VLIT數據集，并將其與現有VLIT數據集在三個不同架構的常用MLLMs上進行比較。實證發現表明，本文提出的方法產生的VLIT數據優于現有作品。同時，本研究提出的各種評估指標與微調后MLLMs在下游任務中的輸出一致，為總結的原則的有效性提供了進一步的證據。本文使用的代碼和構建的VLIT數據集已開源2。

總之，本文的主要貢獻可以概括如下：1) 本文系統地回顧了MLLMs中VLIT的所有相關設計和數據集，概括了構建指令數據時應注意的成熟原則，并指出了仍需進一步探索的挑戰和方向。2) 本文提出了一種構建高質量VLIT數據的完整流程，包括三個子模塊：數據收集、指令生成和質量控制。具體來說，這個流程不僅可以構建通用或任務特定的VLIT數據，而且質量控制模塊也可以獨立用于過濾現有指令數據。3) 基于提出的構建流程和公開可用的數據，我們構建了一個VLIT數據集，并通過在不同架構的多個MLLMs上與現有指令數據集進行實驗，證明了總結原則和構建工具的合理性和有效性。

在本文中，第2節總結了所有與VLIT數據相關的最新工作，并根據不同方法進行了組織；第3節展示了高質量VLIT數據的特征。第4節提出了不同角度的相應評估方法，并介紹了VLIT數據構建流程；第5節實驗驗證了本文提出的相關理論和構建流程；第6節總結了仍然存在的視覺-語言微調的挑戰和未來方向。

視覺-語言指令調優綜述

在這一部分，我們簡要介紹VLIT的相關定義，并收集近期MLLMs及其對應的VLIT數據集。正如圖2所示，我們在這一節中組織了所有與VLIT數據相關的工作。MLLMs及其相應的VLIT數據集的具體統計信息可以在表1和表2中找到。

2.2.1 通用指令如圖1所示，通用VLIT數據的格式與傳統的純文本指令數據相似，可根據構建范式分為不同類型。具體來說，這些范式可以分為兩大類別：注釋適配和自我指令。

注釋適配。近年來，視覺模型的迅速發展導致大規模、多樣化和高質量的注釋數據的出現，這些數據適用于大量下游任務，可以無縫地定制為指令數據。許多相關研究特別是精心地將注釋數據適配到標準指令數據中的（指令，輸入，響應）格式。指令作為解釋任務性質的正式陳述，直接使用手動編寫的候選指令池獲得（朱等，2023年a；趙等，2023年e），而其他人（戴等，2023年；李等，2023年i）使用手動指令作為種子指導LLMs擴展指令池并豐富指令多樣性。輸入包括圖像和可選上下文，通常源自原始注釋數據，并構成整個指令數據的一部分。響應對應于注釋數據中的結果，并是指令數據的輸出部分。如果原始注釋數據滿足用戶的需求，通常不經修改即可遷移。然而，值得注意的是，對于分類、判斷和簡短標題等通常只產生單詞或短句輸出的下游任務，可能需要根據輸入信息使用LLMs進行擴展，以避免潛在的過擬合和其他相關問題。值得一提的是，某些研究將這種簡潔的響應視為一種指令形式，因此選擇在指令中包含適當的限制性語言以解決這個問題（趙等，2023年e）。

其中，InstructBLIP（戴等，2023年）混合了10種視覺任務，精心制作了幾種指令模板，并根據原始任務數據調整相應的指令細節，例如簡短/短描述。KOSMOS-2（彭等，2023年）基于收集的定位框和相應表達創建了一個指令數據集，使用現有的指令模板。基于大量圖像字幕數據集，LMEye（李等，2023年l）通過使用正確和錯誤分類的多項選擇問題和四選一選擇作為VLIT數據生成的模板，生成了數百萬大規模VLIT數據集。MiniGPT-4（朱等，2023年a）利用其自己預訓練的MLLM生成圖像的全面描述，然后應用ChatGPT通過刪除任何冗余信息來修訂描述。在對指令數據的正確性進行人工驗證后，可以獲得高質量的VLIT數據。Lynx（曾等，2023年）收集了5種不同模態的任務，并基于使用GPT-4（OpenAI，2023年b）擴展的任務指令文本生成指令遵循數據。NExT-GPT（吳等，2023年）注意到現有關于訓練數據的工作中缺乏對輸入和輸出模態多樣性的討論，因此提出了T2M指令數據集，專注于文本到多模態指令數據集。DreamLLM（董等，2023年）從MMC4（朱等，2023年b）和LAION400M（舒曼等，2022年）中收集圖像-文本對，并利用GPT-4生成摘要和字幕。InternLM-XComposer（張等，2023年b）首先生成一段文本，然后根據圖像與文本內容的匹配程度在相應位置添加適當的圖像，生成圖像-文本交錯內容指令。MiniGPT-v2（陳等，2023年d）遵循LLaMA-2的對話模板，并使用任務識別標記生成大量不同任務的指令模板。

總的來說，注釋適配是一種快速簡單的VLIT構建方案，可以快速將注釋數據轉換為VLIT數據，并以低成本擴展VLIT數據規模和任務類型。然而，它的缺點也很明顯，如指令和響應的多樣性差、樣本利用率低、無法適應用戶偏好。

自我指令。現有任務和相應注釋數據往往限制了指令的規模、多樣性和創造力，阻礙了通過這些數據調整的MLLMs的通用性。標準指令格式在適應不斷變化的現實世界應用場景和滿足用戶需求方面提出了挑戰。因此，為了獲得更適用于現實世界場景的附加指令數據，自我指令從（王等，2022年）引入更多類型的注釋數據開始。這將幫助LLMs創建更多樣化、內容更豐富的指令遵循數據。

具體來說，這些方法利用LLMs強大的理解和生成能力。它們利用上下文學習引導手動生成少量高質量示例，以此為基礎生成與手動示例類似的指令數據樣本。這些數據不再有嚴格限制，允許在指令和響應中具有更大的多樣性和復雜性。

作為該領域的一個重要貢獻，LLaVA (Liu et al., 2023c) 開創了利用LLM構建通用VLIT數據的趨勢，通過重組現有的注釋數據。具體而言，LLaVA 指導 GPT-4 或 ChatGPT 生成高質量的多輪討論，提供從多個角度的圖像描述和指定物體位置的邊框。這種方法可以有效地防止由于匆忙和不精確地使用 GPT-4 和注釋數據直接生成指令而導致的多樣性和推理深度的缺乏。在 LLaVA 靈感的基礎上，DetGPT (Pi et al., 2023) 指導 ChatGPT 通過圖像標題、物體類別和預設提示來創建問答對。ChatGPT 使用人工設計的上下文示例以確保準確性。LAMM (Yin et al., 2023) 為四種不同場景定義多模態指令-響應對，使用 GPT-API 重組公開可用的注釋數據，并生成多樣化的任務指令，形成對話風格的指令數據。繼承 LLaVA 的方法，SVIT (Zhao et al., 2023a) 收集更多數據并創建廣泛的指令數據集，同時實施質量控制措施，如重復、對話輪數和幻覺。AnyMAL (Moon et al., 2023) 采用 LLaVA 提出的類似方法，利用 Llama-2 (Touvron et al., 2023b) 為提供的圖像生成問答對。通過編寫上下文樣本，StableLLaVA (Li et al., 2023k) 指導 ChatGPT 生成圖像及相應對話。與其他方法不同的是，StableLLaVA 中的圖像是基于生成提示和 StableDiffusion 圖像生成的。PVIT (Chen et al., 2023a) 提出了一個視覺-語言指令數據集，將細粒度區域與標題對齊，該數據集基于現有任務，并使用預定義模板生成基本指令數據。然后，使用 ChatGPT 重寫上述內容，以增加多樣性并確保指令跟隨數據的質量。TextBind (Li et al., 2023f) 從公開可用的數據集中收集大量圖像-文本對，并在過濾和聚類后使用 GPT4 重新組織內容以生成指令數據。基于 GPT，Sparkles (Huang et al., 2023b) 生成包含兩種不同類型指令的數據集，分別對應于概念標題和視覺基因組。與上述作品不同的是，LVIS-INSTRUCT4V (Wang et al., 2023b) 使用新推出的 GPT-4V(ision) (OpenAI, 2023c) 的強大視覺理解能力，通過自我推理生成對話式問答對，并在準確的邊框信息指導下生成高質量的圖像標題作為指令數據。

自我指導是一種更靈活的VLIT數據構建方案，具有高復雜性、強多樣性和出色的復雜性特點，賦予MLLM更強的遵循指令和適應用戶需求的能力。然而，由于它極度依賴于LLM理解和組織現有數據的能力，它不僅有巨大的開銷，而且還有LLM的固有幻覺，這也導致生成的VLIT數據質量的不穩定。

2.2.2 特定指令與一般指令數據構建不同，大量方法更加關注對特定對象（例如，區域、文本和視頻）或領域（例如，醫學、文檔和點云）的指令數據構建。

對象/任務特定指令。為了實現更細粒度的多模態理解，一些 MLLM 在生成 VLIT 數據時對理解對象引入了更多考慮。其中，GPT4RoI (Zhang et al., 2023e) 基于公開可用數據集和預設的單區域標題、多區域標題、單區域推理和多區域推理指令數據，構建了以區域為目標的端到端區域導向指令數據。ChatSpot (Zhao et al., 2023b) 收集全局圖像和區域的不同任務數據集，增強模型處理不同粒度信息的能力，并基于預定義指令模板生成大規模的指令遵循數據。Ferret (You et al., 2023) 關注主流忽略的區域空間信息，并基于 ChatGPT 構建區域信息對話，包括大量負樣本。VideoChat (Li et al., 2023i) 調整敘事文本以使用 GPT4 生成詳細的視頻描述，并以視頻描述為信息源，使用 ChatGPT 生成關注時間和因果因素的問答對話。VALLEY (Luo et al., 2023b) 參考 LLaVA 和 VideoChat，使用 Stable-Vicuna 合成多個公開可用的視覺因果推理、角色識別和視頻復雜內容理解數據集，生成問答對和對話數據。ChatBridge (Zhao et al., 2023e) 結合大量現有視覺任務和指令數據，構建更多視頻導向會話，參考 LLaVA 的范式，形成非常大規模的指令數據集 MULTIS。Video-ChatGPT (Maaz et al., 2023) 通過手動注釋和基于現有多模態 LLM 的半自動注釋框架獲得大量視頻詳細描述對，并然后使用 GPT3.5 協助生成大規模高質量問答對。Macaw-LLM (Lyu et al., 2023) 利用 GPT-3.5 協助根據預定義提示重組手動注釋的圖像和視頻標題，并生成指令遵循數據。LLaVAR (Zhang et al., 2023g) 主要關注富含文本的圖像數據，收集含文本的 LAION-5B 圖像，將其分為14個簇，并根據是否使用 GPT-4，將其重組為大規模噪聲指令和高質量指令。Shikra (Chen et al., 2023e) 指導 GPT-4 根據公開可用的對象檢測數據集使用邊框生成問答對。

領域特定指令。除了加強不同粒度語義信息的理解外，還有一些 MLLM 更加專注于解決特定領域問題的能力，因此這些 MLLM 構建了更多具有領域特征的 VLIT 數據。PMC-VQA (Zhang et al., 2023f) 提出了一個醫學 VLIT 數據集，通過將圖像標題輸入 ChatGPT，生成 5 個關于圖像的問答對，并設計根據問題類型、正確性和其他指標篩選高質量指令遵循數據。同樣基于 PMC 數據集的 LLaVA-Med (Li et al., 2023e)，使用預設提示指導 GPT-4 生成多輪對話。OphGLM (Gao et al., 2023) 收集眼科檢查場景的相應圖像和主題知識，結合預定義提示和 ChatGPT 模擬現實世界的醫患問答會話以生成多輪指令對話，并設計三輪質量控制策略。GPT4Tools (Yang et al., 2023) 提出了一套與各種視覺工具使用需求相關的工具指令數據集。mPLUG-DocOwl (Ye et al., 2023a) 通過將五個文檔相關任務與純文本和一般視覺-語言指令數據集成，生成文檔理解任務的文檔指令數據集。PointLLM (Xu et al., 2023b) 提出了一套完整的基于 GPT-4 的點云處理點云指令數據集。

結論

在本文中，我們匯編了關于視覺-語言指令調整的最新研究，提供了簡潔的總結和分析，以及現有文獻的分類、細節和缺點。為了構建高質量的視覺-語言指令數據，我們基于現有研究總結提出了幾個構建原則和一套完整的構建過程。廣泛的實驗表明，經過我們提出的方法構建的指令數據調整后的 MLLM 總體性能更佳。總之，我們概述了剩余的問題和潛在的未來研究方向。

付費5元查看完整內容

大型語言模型 · 知識編輯 · 檢索增強 ·

2023 年 11 月 13 日

[付費5元查看完整內容]大模型怎么用知識？哈工大等最新《知識與大型語言模型整合趨勢》綜述，詳述知識編輯與檢索增強方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在各種自然語言任務上展現出卓越的性能，但它們容易受到過時數據和領域特定限制的影響。為了解決這些挑戰，研究人員主要采用了兩種策略：知識編輯和檢索增強，通過整合來自不同方面的外部信息來增強LLMs。然而，目前仍然缺乏一個全面的綜述。在本文中，我們提出一項回顧，討論知識與大型語言模型整合的趨勢，包括方法的分類、基準和應用。此外，我們對不同方法進行了深入分析，并指出了未來的潛在研究方向。我們希望這篇綜述能為社區提供快速訪問和對這一研究領域的全面概覽，旨在激發未來的研究努力。

大型語言模型（LLMs）已經展示了在其參數中編碼現實世界知識的令人印象深刻的能力，以及解決各種自然語言處理任務的顯著能力（Brown等，2020年；Hoffmann等，2022年；Zeng等，2022年；Chowdhery等，2022年；Touvron等，2023年；Zhao等，2023b年）。然而，它們在知識密集型任務上仍面臨嚴峻挑戰（Petroni等，2021年），這些任務需要大量的現實世界知識。最近的研究表明，LLMs難以學習長尾知識（Kandpal等，2023年；Mallen等，2023年），無法及時更新其參數以捕捉變化的世界（De Cao等，2021年；Kasai等，2022年）（例如，ChatGPT 1的參數只包含2021年9月之前的信息，對最新的世界知識完全不知情），并且受到幻覺的困擾（Zhang等，2023a；Rawte等，2023年；Huang等，2023a年）。為了緩解這些問題，人們越來越關注通過知識編輯或檢索增強來整合知識和大型語言模型。知識編輯（De Cao等，2021年；Sinitsin等，2020年）旨在使用一種有效的方法修改LLMs中過時的知識，該方法僅更新部分模型參數。檢索增強（Mallen等，2023年；Shi等，2023年；Trivedi等，2023年）采用現成的檢索模型從外部語料庫中獲取相關文檔，以幫助大型語言模型并保持其參數不變。已有許多工作提出整合知識和大型語言模型，專注于上述兩個方面。然而，這些努力仍然相對零散，缺乏全面和系統的綜述。

為了填補這一空白，本文提出了我們的綜述的具體組織，重點關注知識編輯和檢索增強，如圖1所示。我們首先系統地介紹了根據模型處理結構的知識編輯方法（§2），包括輸入編輯（§2.1），模型編輯（§2.2）以及評估知識編輯（§2.3），涵蓋了代表性方法和通用基準。此外，我們對檢索增強進行了詳細討論（§3），包括檢索判斷（§3.1），文檔檢索（§3.2），文檔利用（§3.3），知識沖突（§3.4）和基準（§3.5）。然后，我們總結了一些知識與大型語言模型整合的前沿應用（§4），例如新版Bing 2。最后，為了激發該領域的進一步研究，我們提供了對未來調查方向的洞見（§5）。

2 知識編輯

知識編輯是一種新興方法，通過整合新知識來糾正大型語言模型（LLMs）中的不準確性和更新過時信息。在這一部分，我們深入研究了關于知識編輯的當前工作，特別關注LLMs處理結構在不同方法中的應用。如圖2所示，我們將它們分為三類：輸入編輯（§2.1），模型編輯（§2.2），和評估知識編輯（§2.3）。

2.1 輸入編輯許多大型模型龐大的參數規模和“黑盒”形式常常阻礙它們進行常規的微調，以獲取新知識，例如ChatGPT、Bard3。因此，將知識注入LLMs最直接的方法涉及編輯輸入（Zheng等，2023；Luo等，2023），這既節省成本又減少資源需求。輸入編輯有兩個方面：包括外部信息以增強提示，以及基于反饋編輯提示。調整輸入不僅提供了一種直觀、易理解的新知識過程描述，而且保證了原始模型知識的保存。

2.2 模型編輯與編輯輸入不同，許多研究致力于以參數化方式進行細粒度的模型編輯，這可以確保注入知識的持久性。根據針對LLMs參數的不同操作，我們將它們分為三類，即知識插件、定位然后編輯和整體編輯。

2.3 評估知識編輯在編輯輸入和模型之后，可以通過審查輸出來評估知識整合的程度。這一小節主要介紹模型評估的特點，并提供表1中知識編輯的一般基準概覽。當前用于編輯知識的方法主要旨在整合三元事實知識，這些知識集中在問答（QA）任務上，即ZsRE（Levy等，2017年）。此外，CounterFact是一個專門為知識編輯任務構建的評估數據集，用于衡量與僅僅表面上改變目標詞匯相比顯著變化的有效性（Meng等，2022年）。評估知識編輯的三個主要屬性包括可靠性、通用性、局部性（Yao等，2023b；Huang等， 2023b）。

3 檢索增強如第2節所討論，知識編輯（De Cao等，2021年）是一種有效的方法，通過修改大型語言模型特定部分的參數來更新過時的知識。然而，知識編輯也面臨著一些其他問題。首先，目前還不完全清楚知識在大型語言模型中是如何以及在哪里存儲的。其次，知識與參數之間的映射關系非常復雜，修改與某些知識對應的參數可能會影響其他知識。在本節中，我們介紹了檢索增強，這是一種在保持參數不變的情況下整合知識和大型語言模型的另一種方法。

與主要將外部知識參數化以更新大型語言模型的知識編輯不同，檢索增強在推理階段使用非參數化形式的外部知識。檢索增強通常由一個檢索器和一個大型語言模型組成。給定輸入上下文后，檢索器首先從外部語料庫中獲取相關文檔。然后，我們可以在不同階段使用相關文檔來提高大型語言模型的性能。在本節中，我們專注于檢索增強的以下關鍵問題：

? 大型語言模型什么時候需要通過檢索來增強？（§3.1） ? 如何檢索相關文檔？（§3.2） ? 大型語言模型如何利用檢索到的文檔？（§3.3） ? 如何解決不同文檔中的知識沖突？（§3.4）"

檢索判斷對于檢索增強的大型語言模型，一個非常重要的問題是了解LLMs的知識邊界（Yin等，2023年）并確定何時檢索補充知識。當前的檢索判斷方法主要分為兩類：基于校準的判斷和基于模型的判斷。

文檔檢索如圖3所示，獲取相關文檔有兩種方法。一種方法是使用檢索器從外部語料庫（例如維基百科）中獲取相關文檔。另一種方法是使用大型語言模型生成相關文檔。文檔利用一旦我們擁有了相關文檔，我們如何使用它們來提升大型語言模型的能力？如圖4所示，我們將使用文檔的不同方式分為三類：輸入增強、推理驗證和答案驗證。

檢索增強LLMs中的知識沖突，在模型推理中有兩個知識來源，它們的分工模糊且不透明。第一個是通過預訓練和微調注入的隱含參數化知識（即它們學習到的權重）。第二個是上下文知識，通常作為文本段落從檢索器中獲取。知識沖突意味著所包含的信息是不一致和矛盾的。如圖5所示，知識沖突有兩種類型：內部沖突和外部沖突。內部沖突指的是大型語言模型中的知識與檢索文檔中的知識之間的不一致。外部沖突指的是檢索到的多個文檔之間的不一致。

結論

在本文中，我們對知識與大型語言模型的整合進行了綜述，并提供了其主要方向的廣泛視角，包括知識編輯和檢索增強。此外，我們總結了常用的基準和前沿應用，并指出了一些有希望的研究方向。我們希望這篇綜述能為讀者提供當前進展的清晰圖景，并激發更多的工作。

付費5元查看完整內容

大型語言模型 · 幻覺 · 基礎模型 · 大模型幻覺 ·

2023 年 11 月 12 日

[付費5元查看完整內容]大模型幻覺如何克服？哈工大等最新《大型語言模型中的幻覺現象》綜述，詳述原理、分類、挑戰與未解之謎

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）的出現標志著自然語言處理（NLP）領域的一次重大突破，帶來了在文本理解和生成方面的顯著進步。然而，與這些進步同時，LLMs表現出一種關鍵的傾向：產生幻覺，導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰，并引發了對LLMs在現實世界場景中可靠性的關注，這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中，我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類，然后深入探討導致幻覺的因素。隨后，我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外，相應地介紹了旨在減輕幻覺的代表性方法。最后，我們分析了凸顯當前限制的挑戰，并提出了開放性問題，旨在勾勒出LLMs中幻覺未來研究的路徑。

最近，大型語言模型（LLMs）（OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b）的出現引領了自然語言處理（NLP）領域的范式轉變，實現了在語言理解（Hendrycks et al., 2021; Huang et al., 2023c）、生成（Zhang et al., 2023f; Zhu et al., 2023b）和推理（Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023）方面前所未有的進步。然而，隨著LLMs的快速發展，出現了一個令人關注的趨勢，即它們傾向于產生幻覺（Bang et al., 2023; Guerreiro et al., 2023b），導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究（Ji et al., 2023a）一致，將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺，取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成（NLG）任務中是共享的，但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能（Bubeck et al., 2023; Bang et al., 2023），尤其是在開放域應用中，它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中，幻覺的范圍包括了更廣泛和更全面的概念，主要集中在事實錯誤上。鑒于LLM時代的演進，有必要調整現有的幻覺分類，增強其適用性和適應性。

在這篇綜述中，我們重新定義了幻覺的分類，為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類：事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異，通常表現為事實上的不一致或捏造。例如，如圖1(a)所示，當詢問第一個登月的人時，模型可能斷言是查爾斯·林德伯格在1951年。而事實上，第一個登月的人是尼爾·阿姆斯特朗，在1969年的阿波羅11號任務中。另一方面，忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離，以及生成內容內的自我一致性。如圖1(b)所示，當要求總結一篇新聞文章時，模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性，我們進一步根據可驗證來源的存在將其劃分為兩個子類別：事實不一致和事實捏造。對于忠實性，我們強調從用戶的角度解決不一致性，將其分類為指令不一致、上下文不一致和邏輯不一致，從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因，雖然在NLG任務的背景下進行了研究，但在尖端LLMs中呈現出獨特的挑戰，值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源，涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內，我們指出了潛在的數據相關原因，如有缺陷的來源和次優的利用，低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺，以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外，我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法，以及與LLM幻覺相關的詳盡基準概覽，作為適當的測試平臺，以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外，我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述，我們旨在為LLMs領域的發展做出貢獻，并提供有價值的見解，加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解，還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長，LLM幻覺作為一個主要挑戰脫穎而出，導致了許多關于其最新進展的綜述（Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c）。雖然這些作品從不同角度探討了LLM幻覺，并提供了有價值的見解，但區分我們當前綜述的獨特方面和全面性是至關重要的。（Ji et al., 2023a）主要闡明了預訓練語言模型在NLG任務領域中的幻覺，將LLMs排除在他們的討論范圍之外。（Liu et al., 2023h）從更廣闊的視角討論了LLMs的可信度，而（Wang et al., 2023c）深入探討了LLM事實性。相比之下，我們的綜述聚焦于LLM可信度中的一系列挑戰，涵蓋事實性方面，并進一步擴展了話語范圍，包括與忠實性相關的幻覺。據我們所知，與我們的綜述最為一致的是（Zhang et al., 2023g），它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此，我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上，我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是，我們的減輕策略與潛在原因密切相關，確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中，我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架（§2）。隨后，我們深入分析了導致LLMs中幻覺的因素（§3），接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查（§4）。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法（§5）。最后，我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題，提供見解并勾勒出未來研究的潛在路徑（§6）。

幻覺的原因

幻覺有多方面的起源，涵蓋了大型語言模型（LLMs）能力獲取過程的整個光譜。在這一部分，我們將深入探討LLMs中幻覺的根本原因，主要分為三個關鍵方面：數據（§3.1）、訓練（§3.2）和推理（§3.3）。

數據引起的幻覺

預訓練數據是LLMs的基石，使它們獲得一般能力和事實知識（周等，2023a）。然而，它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面：源自有缺陷數據源的潛在風險（§3.1.1），以及對數據中捕獲的事實知識的劣質利用（§3.1.2）。

訓練引起的幻覺

大型語言模型（LLMs）的訓練過程主要包括兩個主要階段：1）預訓練階段，LLMs在此階段學習通用表示并捕獲世界知識；2）對齊階段，LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力，但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而，解碼策略中的某些不足可能導致LLM幻覺。在本節中，我們將深入探討根源于解碼過程的潛在原因，強調兩個關鍵因素：解碼策略的固有隨機性（§3.3.1）和不完美的解碼表示（§3.3.2）。

幻覺緩解

在本節中，我們提供了針對緩解大型語言模型（LLMs）中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”（§3）中討論的見解，我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說，我們關注解決與數據相關的幻覺（§5.1）、與訓練相關的幻覺（§5.2）和與推理相關的幻覺（§5.3）的方法，每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現，這些都根本上植根于訓練數據中。在這個背景下，我們探索了緩解此類幻覺的各種策略，旨在盡量減少錯誤信息和偏見的發生，同時也提供知識增強和提高大型語言模型（LLMs）有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型（LLMs）所采用的架構和訓練策略的內在局限性。在這一背景下，我們討論了從訓練階段（§5.2.1）到對齊階段（§5.2.2）的各種優化方法，旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型（LLMs）中，解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而，如第§3.3節分析所述，不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中，我們探索兩種先進策略，旨在改進解碼策略，以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中，我們對大型語言模型中的幻覺進行了深入的研究，探討了它們背后的復雜原因、開創性的檢測方法以及相關基準，以及有效的緩解策略。盡管已經取得了重大進步，但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題，需要持續的研究。此外，我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀，我們希望能賦予這些專業人士寶貴的洞見，推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

圖基礎模型 (GFMs) · 大型語言模型 ·

2023 年 10 月 19 日

[付費5元查看完整內容]大模型在圖上怎么做？北郵等最新《圖基礎模型》綜述，詳述GFMs關鍵技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動，這也吸引著圖學習領域研究者們的關注。另一方面，圖機器學習經歷了從淺層方法到深度學習方法的范式轉變，而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題，使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢？

近日，北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章，探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。

標題：Towards Graph Foundation Models: A Survey and Beyond 作者：Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接：//arxiv.org/pdf/2310.11829.pdf

作為多種人工智能應用的基本構建塊，基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時，圖機器學習也經歷了一個變革性的轉變，淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣，激發了關于開發下一代圖學習范式的討論，該范式預先在廣泛的圖數據上進行訓練，并可以適應各種下游圖任務。然而，目前還沒有對這類工作的明確定義和系統分析。在本文中，我們提出了圖基礎模型（GFMs）的概念，并首次對其關鍵特征和技術進行了全面闡述。在此之后，我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外，本文還討論了這一不斷發展的領域的潛在研究方向。

簡介：隨著計算能力的迅猛增長和深度學習技術的突破，尤其是Transformer架構的出現，人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型，可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性，如涌現（Emergence）和同質化（Homogenization），使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明，隨著基礎模型的擴大，它可能會自發地展現新穎的能力。同時，同質化暗示了模型的多功能性，使其能夠在各種應用中部署。由于大型語言模型（LLMs）的發展，基礎模型的概念首先在自然語言處理（NLP）中成為現實。從那時起，基礎模型展示了驚人的多功能性，不僅可以處理文本，還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色，包括計算機視覺、音頻信號處理和推薦系統等。

就像我們在自然語言處理領域所見證的演進一樣，圖機器學習正在經歷一種范式轉變。在早期階段，圖任務主要采用淺層方法，如隨機游走和矩陣分解。然而，這些方法在容量上存在一定的限制，主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡（GNNs）的出現。GNNs通過引入消息傳遞機制，使節點能夠迭代地從鄰居那里匯總信息，從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs，研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而，GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題，尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。

基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題：圖基礎模型是否可以代表圖機器學習的下一個前沿？如果實現了這些模型，它們將具有更強的表達能力、可遷移性，并適用于更復雜的圖數據和任務。如圖1所示，圖基礎模型（GFM）被構想為一個在廣泛的圖數據上預訓練的模型，用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似，我們期待GFM具備兩個主要特征：涌現和同質化。具體而言，涌現指的是僅在大規模圖模型中顯現的新能力，而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性，因為它們固有的架構和學習范式專注于特定任務，這限制了對廣泛的未標記數據的利用，從而限制了它們的表達和泛化能力。

圖1：深度圖學習和圖基礎模型的對比

受到大型語言模型（LLMs）在NLP中作為基礎模型的成功啟發，研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式，因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先，基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中，而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計，以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息，另一種替代方法是將LLMs用作圖基礎模型。然而，尚不確定LLMs是否能有效處理圖數據和相關任務，因此重要的是確定如何在LLMs中建模圖結構。此外，基礎模型的同質化要求以一種統一的方式處理各種任務。因此，在圖數據中，由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性，設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此，有必要設計新穎的預訓練代理任務和適配方式。

表1：語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案，但本文調查了一些相關研究，并將它們基于對圖神經網絡（GNNs）和大型語言模型（LLMs）的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型：它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型：它們探索將圖轉化為文本或標記的方式，以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型：它們結合了GNNs和LLMs，并尋求探索GNNs和LLMs之間各種協同作用的方式，以賦予它們增強的能力。

圖3：基于GNN的模型示意圖

圖5：基于LLM的模型示意圖

圖7：基于GNN+LLM的模型示意圖

據我們所知，這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態，而不是圖。此外，還有兩篇專門針對知識圖譜和大型語言模型的綜述，但由于知識圖譜在構建和應用上的獨特性，它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念，但它強調了意見陳述并缺乏系統的分類。因此，本文的貢獻可以總結如下： ? 本文首次定義了圖基礎模型的概念，探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法，并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。本文的后續部分組織如下。在第2節中，我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型，并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節，我們總結了本文的要點。 **圖基礎模型 **在本節中，我們首先將正式定義圖基礎模型的概念。然后，我們將討論圖數據和圖任務對圖基礎模型的影響。最后，我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。

在本節中，我們定義了圖基礎模型的概念及相關技術，并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分，我們將介紹三類實現圖基礎模型的方法，以及每種方法的代表性作品，如圖2所示。基于GNN的模型使用GNN作為主干架構，而基于LLM的模型將圖轉化為LLM的輸入格式，并使用LLM作為主干架構。另一方面，基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此，在接下來的部分，我們將分別介紹每種方法的主干架構、預訓練和適應策略。

**基于GNN的模型 **

得益于高效的模型架構和訓練范式，語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中，我們將深入探討基于GNN的模型，這些模型從NLP中使用的模型架構或訓練范式中汲取靈感，并將其應用于與圖相關的任務。重要的是，與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同，基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。

基于LLM的模型

研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法，以下的優點不容忽視。首先，基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外，采用類似LLM的主干賦予模型統一多種圖學習任務的能力，因為這些任務可以用自然語言進行描述。此外，最近的進展，如NLGraph [66]、GPT4Graph [109]，展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力，這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110]，我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。

**基于GNN+LLM的模型 **

GNN-based模型缺乏處理文本的能力，因此不能直接基于文本數據進行預測。此外，它們也不能根據用戶提供的自然語言指令進行預測。因此，探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面，用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力，以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點，整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。

**結論 **

基礎模型和圖機器學習的發展催生了一個新的研究方向，目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中，我們首次提出了圖基礎模型(GFMs)的概念，并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴，將現有的GFMs相關工作分為三個主要類別：基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法，我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后，本文還指出了這個不斷發展領域的未來方向。

付費5元查看完整內容

多模態圖學習 · 表示學習 · AI for Science (人工智能賦能科學研究) · 圖神經網絡 · 人工智能 ·

2022 年 9 月 8 日

[付費5元查看完整內容]多模態圖學習怎么用？哈佛最新《幾何多模態表示學習》綜述，28頁pdf闡述多模態圖學習在圖像、語言、自然科學等應用

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功，從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而，結合來自不同來源的數據是具有挑戰性的，因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式，同時利用跨模態依賴來解決這一挑戰。在這里，我們調研了140項關于以圖為中心的人工智能的研究，并意識到越來越多的數據類型使用圖匯集在一起，并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上，我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件，該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。

基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中，圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測，用于無監督學習的結構重構，如鏈接預測[10]，以及圖的設計和生成問題[11,12]。關于模型輸入，圖學習方法已被用于對數據集進行建模，其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如，包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。

對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量。多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16]，但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說，已觀察到多模態模型往往傾向于部分關注一部分模態，而忽略其余的模態，這種現象被稱為模態坍縮[18]。此外，與常見的所有模態都可用的假設相反，噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到，如圖1所示。

**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用，并介紹了MGL的藍圖。在許多應用中，不同模態之間的依賴關系可以表達一種固有的網絡結構，阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明，圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示，可以更準確地捕獲它們[24,25]。特別是，在生物學和化學中，經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構，這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構，或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下，我們稱之為多模態圖學習(MGL)，在這個藍圖下，我們可以以統一的多模態方式表達現有的方法，并為新架構的設計鋪平道路。如圖1所示，MGL考慮了不同的輸入源，從計算機視覺、語言處理到物理、化學和生物。此外，基于提出的公式，揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節)，2)語言密集圖(LIG)用于序列處理任務(見第4節)，最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。

圖神經網絡多模態學習

深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如，循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起，在視頻描述問題中融合聲音和圖像表示[30,31]。最近，生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架，其中在編碼器中，組合的體系結構同時進行訓練(每個專門用于一種模態)，而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重，可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后，深度強化學習(RL)成功地解決了多模態學習問題。例如，在視頻字幕任務中，基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中，視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常，數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域，它將多模態學習與圖神經網絡的最新進展相結合，在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如，在[25]中，作者提出了一個多模態圖學習框架，用于融合神經成像數據與生物標志物和認知測試數據，用于疾病預測。在[39]中，一個圖多模態網絡被建議用于解決VQA問題，其中兩個模型從圖像和文本生成以對象為中心的圖，另一個模型匹配生成的圖并學習有用的表示。在[23]中，圖融合網絡是一個層次圖網絡，它探索單模態和多模態交互。

以圖為中心的多模態學習

圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息，需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法，在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖，由四個以端到端方式連接的學習組件組成。在圖2a中，我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。

圖2 多模態圖學習藍圖概述。a，多模態學習的標準方法包括組合不同的單模態架構，每個架構針對不同的數據模態進行優化。b、相反，MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差，從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。

面向圖像的多模態圖學習**

圖像密集圖(IIGs)是多模態圖，其中節點表示視覺特征，邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構，模型在IIGs上學習，通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差，并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位，并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用，專注于較小的局部相互作用，然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系，這對圖像相關任務[43]很重要，如圖像分割[44,45]，圖像恢復[46,47]，或人體物體交互[48,49]。在本節中，我們將重點介紹MGL在圖像任務中的應用，以簡要概述用于構建IIGs的方法，并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。

圖3 多模態圖學習藍圖在圖像中的應用。a，用于圖像理解的模態識別，其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b，圖像去噪的拓撲發現，圖像補丁(節點)連接到其他非局部相似的補丁。c，創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居，并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d，人-物體交互中的信息傳播，其中空間條件圖修改消息傳遞，以合并強制圖像中對象的相對方向的邊緣特征[50]。

面向語言的多模態圖學習**

隨著生成上下文語言嵌入的能力，語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞，語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72]，它可以捕獲這種結構，但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說，這些方法依賴于語言密集型圖(LIGs)，顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。

自然科學中的多模態圖學習

除了語言建模和計算機視覺領域，圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs)，因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中，我們將重點介紹MGL在自然科學，特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。

多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播，其中，由于粒子間的相互作用和其他力，物理信息神經消息傳遞用于更新系統中粒子的狀態。b，分子推理中的信息傳播，使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用，以預測兩個分子是否會發生反應。c，蛋白質建模中的拓撲發現，使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成，以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。

付費5元查看完整內容

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

多模態對齊

多模態大型模型

大型語言模型

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

<form id='d9iab'></form>

<bdo id='d9iab'><sup id='d9iab'><div id='d9iab'><bdo id='d9iab'></bdo></div></sup></bdo>