基于Transformer的大型語言模型取得了巨大成功。然而，在推理過程中產生的顯著內存和計算成本，使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中，我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言，類似于較小的模型，大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而，與較小模型相比，大型語言模型有兩個突出的特點：（1）大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此，許多針對大型模型的算法，如量化和剪枝，開始探索無需調整的算法。（2）大型模型強調的是通用性和泛化能力，而不是在單一任務上的性能。因此，許多算法，如知識蒸餾，關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯，我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外，我們還提供了一些成熟框架的介紹，這些框架可以支持大型模型的高效推理，支持基本的壓縮或加速算法，極大地便利了用戶的模型部署。

大型語言模型（LLMs）已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比，LLMs（例如ChatGPT、LLaMA、Claude）對未見數據顯示出了更強的泛化能力。此外，它們甚至展現出了較小模型所不具備的能力（即，突現能力），如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而，在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如，一個帶有float32權重的10B模型消耗37GB內存，更不用說隨著序列長度增加，推理內存成本會以平方速度進一步增加。為了在資源受限的設備上，甚至是移動設備上部署模型，許多LLMs采用模型壓縮方法，如量化，以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的（甚至是預訓練的）模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本，以便模型可以在各種資源受限的設備上運行。從算法上講，常見的模型壓縮方法包括：

量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外，較少的位可能表示更高的并行性和更快的推理速度。
剪枝致力于移除預設計模型中不重要的組件（例如，神經元，層等），從而減少推理成本中的內存和計算成本。
知識蒸餾引入一個預訓練的大模型作為教師，并將其知識轉移到一個新的較小的模型上，后者稱為學生模型。然后，較小的模型將幾乎擁有與教師相同的能力，并享受較少的內存和計算成本。
緊湊架構設計設計新的運算符，以較低的成本替換（通常是近似）原始模型中的笨重運算符。對于Transformer模型，自注意力是主要目標，通常被其他運算符替換。
動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網，每個樣本只選擇超網的一個子結構進行推理。專家混合（MoE）是一種動態推理。此外，上述方法也可以組合使用，以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而，LLMs也為模型壓縮帶來了許多新的挑戰：

許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而，由于微調LLMs的巨大預算，研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務（如神經機器翻譯）不同，大型語言模型強調跨各種任務和未見數據的通用性和泛化能力，甚至是突現能力。因此，壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。面對這些挑戰，提出了許多專門針對LLMs的壓縮方法。在本文中，我們將對這些方法進行全面綜述。為了更好地展示這些方法，我們進一步將參數約為十億或更少的語言模型，如BERT、GPT2，稱為中等模型，盡管它們通常被視為大型語言模型。參數超過十億的模型，如LLaMA、Claude、ChatGPT等，保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小，即中等模型相對容易進行微調，展示較少的突現能力。結果，許多針對中等模型的壓縮方法仍與較小模型的方法相似。以下各節的組織如下：第2節將介紹一些初步知識。然后，我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值（在一個大的（通常是連續的）集合中）映射到輸出值（在一個小的（通常是有限的）集合中）的過程（例如，見圖2）。量化是減少內存成本和提高LLMs推理速度的最直接方法，特別是在支持低位數據類型（如INT4）快速操作的硬件上。值得注意的是，量化在神經網絡訓練和推理中都取得了令人印象深刻的成功，而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法（如剪枝和蒸餾）有幾個優勢。1）高壓縮比：將LLMs中的權重從32位浮點數量化為4位整數，可以將模型大小大幅壓縮至大約1/8，這對于內存受限的過程（如LLMs推理）至關重要。2）低成本：許多量化方法不需要重新訓練整個LLMs，使其對于計算資源有限的研究人員更加可行。3）高靈活性：量化與大多數其他壓縮方法兼容，為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法，我們首先在3.1小節介紹標準量化方法和一些基本概念。然后，在3.2節，我們將簡要總結LLMs出現之前一些針對中等大小語言模型（如BERT，GPT2等）的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難，我們根據技術是否需要重新訓練，將LLMs量化方法分為兩部分。不需要重新訓練的方法（即，訓練后量化，PTQ）在3.3節討論，而需要重新訓練的方法（即，量化感知訓練，QAT）在3.4節討論。最后，在3.5節，我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術，用于壓縮和加速神經網絡，剪枝通過消除模型中非必需的權重或結構，同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡（CNNs）中顯示出顯著結果，但與量化和蒸餾等其他壓縮技術相比，其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大，微調的高成本使得實現剪枝的全部效果變得更加困難。然而，剪枝是壓縮模型的關鍵技術，需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分，我們將在4.1節提供剪枝方法和基本概念的概覽。隨后，在4.2節，我們將詳細闡述為中等大小語言模型（即，參數達到數十億的模型）量身定制的剪枝技術，鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后，在4.4節，我們將介紹一些輔助技術，這些技術雖然不是剪枝方法，但與剪枝相關，用于改進LLMs的剪枝結果，并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾（KD）是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中，從而實現教師模型知識的更簡潔高效的表示。在5.1節中，我們將介紹知識蒸餾的一些基本概念，并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型（具有大約10億參數的語言模型）的各種知識蒸餾方法，并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后，我們將在5.3節提供大型語言模型（具有超過10億參數的語言模型）知識蒸餾的詳細概述，將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學，其目標是通過優化網絡結構和算法，在減少計算資源和內存使用的同時，實現模型效率的顯著提升。具體而言，它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分，并且對于大型和中等大小模型來說沒有區別，因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理（NLP）任務上性能的有效方法。然而，擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題，同時仍然利用規模增加的好處，動態神經網絡（DyNNs）只針對每個輸入處理網絡的一個子集，使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域，當前對DyNNs的研究主要包括以下三種方法：提前退出、級聯推理和專家混合（MoE）。提前退出旨在動態地在深度神經網絡（DNNs）的早期層次終止推理過程，從而減少計算成本并提高響應時間。直覺是，對于不太復雜的詞匯，往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器，這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型，如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統，以確定輸入查詢的處理策略，并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢，并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度，并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標，以決定是否利用更強大的LLMs。一般來說，這一系列工作最近才出現，并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比，MoE的研究有著橫跨多個機器學習領域（包括NLP）的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡（FFN），其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中，以提供高效而強大的服務。因此，在本節的剩余部分，我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念，接著是對將MoE整合到LLMs中的當代研究的廣泛綜述，包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧，這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起，突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展，出現了各種模型。由于不同的應用場景，它們在延遲、吞吐量、內存等方面有著額外的需求，這使得我們難以部署模型。在本節中，我們介紹了一些最近開發的針對LLM的推理加速框架，這些框架有效地提高了不同場景下模型的效率，如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357]，由于本文關注于推理，我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理，可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中，我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查，包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外，我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而，正如我們在引言中提到的，與較小模型相比，大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰，但許多算法仍然依賴于為壓縮小型模型而設計的框架，壓縮大型模型的挑戰依然存在。未來，需要進一步探索，以開發更高效、更有效的壓縮算法，同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

相關內容

大語言模型

關注 55

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯等。2023年，大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點，其在規模上的增長尤為引人注目，參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處，更加深入地理解人類語言的復雜性。在過去的一年里，大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟，它將不斷拓展其應用范圍，為人類提供更加智能化和個性化的服務，進一步改善人們的生活和生產方式。

大語言模型 · 多語言大型語言模型 ·

2024 年 4 月 9 日

[付費5元查看完整內容]多語言大型語言模型：資源、分類和前沿綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢，這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破，但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此，在本文中，我們提出了一個徹底的審查，并提供了一個統一的視角來總結多語言大型語言模型（MLLMs）文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下：（1）第一份綜述：據我們所知，我們采取了第一步，在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查；（2）新分類法：我們提出了一個新的統一視角來總結MLLMs的當前進展；（3）新前沿：我們突出了幾個新興的前沿并討論了相應的挑戰；（4）豐富資源：我們收集了大量的開源資源，包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來，大型語言模型（LLMs）在各種自然語言處理任務上取得了優異的表現（Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023），并展示出了令人驚訝的突發能力，包括上下文學習（Min et al., 2022; Dong et al., 2022）、思維鏈推理（Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a）以及規劃（Driess et al., 2023; Hu et al., 2023b）。然而，大多數LLMs主要關注英語任務（Held et al., 2023; Zhang et al., 2023i），使其在多語言環境，尤其是低資源環境下表現不足。

實際上，全球有超過7000種語言。隨著全球化的加速，大型語言模型的成功應考慮服務于不同國家和語言。為此，多語言大型語言模型（MLLMs）具有全面處理多種語言的優勢，越來越受到關注。具體來說，現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作（Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022）利用多語言數據調整參數以提升整體多語言性能。第二系列工作（Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a）還采用先進的提示策略，在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功，但仍缺乏對最近努力的全面回顧和分析，這阻礙了MLLMs的發展。為了彌補這一差距，我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說，我們首先介紹廣泛使用的數據資源（§3）。此外，由于跨語言對齊的關鍵挑戰，我們根據對齊策略引入了新的分類法（§4），旨在提供文獻中的統一視角，包括參數調整對齊和參數凍結對齊（如圖1所示）。具體來說，參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊，無需調整參數。最后，我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰，希望激發后續研究（§5）。

本工作的貢獻可以總結如下：（1）首次綜述：據我們所知，我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的；（2）新分類法：我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法，為理解MLLMs文獻提供了統一視角；（3）新前沿：我們討論了一些新興的前沿，并突出了它們的挑戰和機遇，希望為未來研究的發展鋪路；（4）詳盡資源：我們首次嘗試組織MLLMs資源，包括開源軟件、多樣的語料庫和相關出版物的精選列表，可在//multilingual-llm.net訪問。我們希望這項工作能成為研究者的寶貴資源，并激發未來研究的更多突破。

如圖4所示，我們引入了一種新的分類法，包括參數調整對齊（§4.1）和參數凍結對齊（§4.2），旨在為研究人員提供一個統一的視角，以理解MLLMs文獻。具體來說，參數調整對齊（PTA）包括一系列逐步進階的訓練和對齊策略，包括預訓練對齊、監督微調（SFT）對齊、人類反饋學習（RLHF）對齊，以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數，以對齊多語言性能。相反，參數凍結對齊（PFA）側重于基于PTA的四種提示策略：直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數，以實現預期結果。

付費5元查看完整內容

大模型 · 知識沖突 · 大型語言模型 ·

2024 年 3 月 14 日

[付費5元查看完整內容]大模型如何處理知識沖突？清華等《大型語言模型中的知識沖突》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇綜述深入分析了大型語言模型（LLMs）中的知識沖突問題，突出了它們在融合上下文和參數知識時遇到的復雜挑戰。我們關注三類知識沖突：上下文記憶沖突、跨上下文沖突和內部記憶沖突。這些沖突可能顯著影響LLMs的可信度和性能，特別是在噪聲和誤信息普遍存在的現實世界應用中。通過對這些沖突的分類、探索原因、檢查LLMs在此類沖突下的行為，并回顧可用的解決方案，此綜述旨在闡明提高LLMs魯棒性的策略，因而為這一不斷發展領域的研究進步提供了寶貴的資源。

大型語言模型（LLMs）（Brown et al., 2020；Touvron et al., 2023；Achiam et al., 2024）因包含廣泛的世界知識庫（被稱為參數知識）而聞名（Petroni et al., 2019；Roberts et al., 2020）。這些模型在包括問答（QA）（Petroni et al., 2019）、事實核查（Gao et al., 2023a）、知識生成（Chen et al., 2023c）等知識密集型任務中表現出色。與此同時，LLMs在部署后繼續與外部上下文知識交互，包括用戶提示（Liu et al., 2023a）、交互式對話（Zhang et al., 2020）或從Web檢索的文檔（Lewis et al., 2020；Shi et al., 2023c）以及工具（Schick et al., 2023；Zhuang et al., 2023）。將上下文知識整合到LLMs中，使它們能夠跟上當前事件（Kasai et al., 2022）并生成更準確的回應（Shuster et al., 2021），但由于知識來源豐富，這也存在沖突的風險。上下文與模型的參數知識之間的差異被稱為知識沖突（Chen et al., 2022；Xie et al., 2023）。在本文中，我們分類三種不同類型的知識沖突，如圖1所示。如圖1中的例子所示，當使用LLM回答用戶問題時，用戶可能會提供補充提示，而LLM也利用搜索引擎從Web收集相關文檔以增強其知識（Lewis et al., 2020）。用戶提示、對話歷史和檢索的文檔的組合構成上下文知識（上下文）。上下文知識可能與LLM參數內封裝的參數知識（記憶）發生沖突，我們將這種現象稱為上下文-記憶沖突（CM，§ 2）。在現實世界場景中，外部文檔可能充滿噪聲（Zhang and Choi, 2021）甚至是故意制造的錯誤信息（Du et al., 2022b；Pan et al., 2023a），這使得它們的處理和準確響應能力復雜化（Chen et al., 2022）。我們將不同上下文知識之間的沖突稱為跨上下文沖突（IC，§ 3）。為了減少回應中的不確定性，用戶可能以不同形式提出問題。因此，LLM的參數知識可能對這些不同措辭的問題產生不同的回應。這種變化可以歸因于LLM參數中嵌入的沖突知識，這源于復雜和多樣化的預訓練數據集中存在的不一致性（Huang et al., 2023）。這就引發了我們所稱的內存沖突（IM，§ 4）。

知識沖突最初源于開放領域問答（QA）研究。這一概念在 Longpre et al. (2021) 的研究中獲得關注，該研究聚焦于參數知識與外部文段之間基于實體的沖突。同時，也細致審視了多個文段之間的差異（Chen et al., 2022）。隨著大型語言模型（LLMs）的最近出現，知識沖突引起了顯著注意。例如，近期研究發現LLMs既遵循參數知識又易受上下文影響（Xie et al., 2023），當這些外部知識在事實上不正確時可能會出現問題（Pan et al., 2023b）。考慮到對LLMs的可信度（Du et al., 2022b）、實時準確性（Kasai et al., 2022）和魯棒性（Ying et al., 2023）的影響，深入理解和解決知識沖突變得至關重要（Xie et al., 2023; Wang et al., 2023g）。

截至撰寫本文時，據我們所知，還沒有專門用于調查知識沖突的系統性綜述。現有的綜述（Zhang et al., 2023d; Wang et al., 2023a; Feng et al., 2023）將知識沖突作為其更廣泛內容中的一個子話題觸及。雖然Feng et al. (2023) 對知識沖突進行了更系統的考察，將它們分類為外部和內部沖突。然而，他們的綜述只是簡要概述了相關工作，并主要關注特定場景。為了填補這一空白，我們旨在提供一個全面的綜述，包括對各種知識沖突的分類、原因與行為分析，以及解決方案。

我們綜述的方法論如圖2所示，我們將知識沖突的生命周期概念化為既是導致模型出現各種行為的原因，也是從知識的復雜性質中產生的效果。知識沖突是原因與模型行為之間的關鍵中介。例如，它們顯著地貢獻于模型生成事實上不正確的信息，即幻覺（Ji et al., 2023; Zhang et al., 2023d）。我們的研究，類似于弗洛伊德式的精神分析，強調了理解這些沖突起源的重要性。盡管現有分析（Chen et al., 2022; Xie et al., 2023; Wang et al., 2023g）傾向于人為構造這些沖突，我們認為這些分析沒有充分解決問題的相互連通性。

我們不僅回顧和分析原因和行為，而且深入提供解決方案的系統綜述，這些解決方案用于最小化知識沖突的不希望出現的后果，即鼓勵模型展現出符合特定目標的期望行為（請注意，這些目標可能基于特定場景而有所不同）。根據與潛在沖突相關的時機，策略分為預事前和事后兩大類。它們之間的主要區別在于是在潛在沖突出現前還是后進行調整。知識沖突的分類在圖3中概述。我們依次討論三種知識沖突，詳細說明每種沖突的原因、模型行為的分析，以及根據各自目標組織的可用解決方案。相關數據集可在表1中找到。

上下文-記憶沖突是三種類型沖突中研究最為廣泛的。LLMs由固定的參數知識特征化，這是大量相關處理過程的結果（Sharir et al., 2020; Hoffmann et al., 2022; Smith, 2023）。這種靜態的參數知識與外部信息的動態本質形成鮮明對比，后者以迅速的速度發展變化（De Cao et al., 2021; Kasai et al., 2022）。

上下文-記憶沖突的核心在于LLMs的參數知識與接收到的、更新的外部信息之間存在不一致。LLMs在被訓練的時候，固化了大量的信息和知識，但這些信息隨著時間的推移可能會過時或與新的外部信息產生沖突。這種固化的參數知識與不斷更新的外部環境之間的差異，導致了上下文-記憶沖突的出現。處理這種沖突的關鍵在于如何有效地整合這兩種類型的知識，確保LLMs在提供響應時既能反映其深厚的內在知識庫，又能適應外部環境的變化。研究者們正在探索各種方法，以減少這種沖突對LLMs性能的影響，從而提高它們的實時準確性、可信度和魯棒性。

跨上下文沖突在LLMs中體現在整合外部信息源時，這一挑戰通過引入RAG（檢索增強生成）技術而變得更加顯著。RAG通過將檢索到的文檔內容整合到上下文中，豐富了LLM的響應。然而，這種整合可能導致提供的上下文內部出現不一致性，因為外部文檔可能包含相互沖突的信息（Zhang and Choi, 2021; Kasai et al., 2022; Li et al., 2023a）。

在使用RAG技術時，LLMs需要從多個檢索到的文檔中提取信息，以生成回應。這些文檔來自于互聯網或其他數據庫，每個文檔都可能基于不同的視角、來源或時效性提供信息。當這些文檔之間的信息存在矛盾時，就會出現跨上下文沖突。例如，兩個不同的文檔可能對同一事件提供截然不同的解釋或數據。LLMs在嘗試整合這些信息以形成一致的回應時，可能會因為這些沖突而難以做出決定。

解決跨上下文沖突的策略包括改進LLMs的信息評估和整合能力，例如通過增強模型的理解和判斷力來識別和調和這些沖突。此外，可以通過優化檢索算法來提高文檔選擇的準確性和相關性，減少引入沖突信息的可能性。研究者們正致力于開發這些策略，以提高LLMs處理跨上下文沖突的能力，確保它們在面對復雜多變的外部信息時仍能生成準確、一致的回應.

隨著大型語言模型（LLMs）的發展，LLMs在知識密集型問答系統中得到了廣泛應用（Gao et al., 2023b; Yu et al., 2022; Petroni et al., 2019; Chen et al., 2023c）。有效部署LLMs的一個關鍵方面是確保它們對具有相似含義或意圖的各種表達生成一致的輸出。盡管這一點至關重要，但內存沖突—一種LLMs對語義上等價但句法上不同的輸入展現出不可預測行為并生成不同響應的情況—卻是一個顯著的挑戰（Chang and Bergen, 2023; Chen et al., 2023a; Raj et al., 2023; Rabinovich et al., 2023; Raj et al., 2022; Bartsch et al., 2023）。內存沖突實質上通過在它們的輸出中引入一定程度的不確定性，削弱了LLMs的可靠性和實用性。

內存沖突揭示了LLMs在處理語言的深層次一致性方面的局限性。雖然這些模型在大規模的數據訓練中學習了廣泛的語言模式和知識，但它們仍然難以在語義上等價的表達之間做出一致的推斷。這種沖突不僅影響了模型在問答系統、文本摘要、語言翻譯等任務中的表現，也對開發更高效、更準確的LLMs提出了挑戰。為解決內存沖突問題，研究人員正在探索不同的方法，包括改進模型的訓練過程以提高其對語義等價性的理解，開發新的模型架構以更好地處理句法多樣性，以及采用后處理技術來糾正模型輸出中的不一致性。通過這些努力，我們可以期待在未來LLMs將在保持輸出一致性方面取得顯著進步，從而增強其在各種應用場景中的可靠性和實用性。

通過這項綜述，我們廣泛調查了知識沖突，闡明了它們的分類、原因、LLMs對這些沖突的響應以及可能的解決方案。我們的發現揭示了知識沖突是一個多方面的問題，模型的行為與特定類型的沖突知識密切相關。此外，三種類型的沖突之間似乎存在更復雜的相互作用。進一步來說，我們觀察到現有解決方案主要針對人為構建的場景，忽略了依靠假設的先驗知識所帶來的沖突細微之處，因此犧牲了細致度和廣度。考慮到檢索增強型語言模型（RALMs）的使用日益增長，我們預計LLMs面臨的知識沖突只會變得更加復雜，這強調了在這一領域進行更全面研究的必要性。隨著技術的不斷進步和復雜性的增加，尋找解決這些挑戰的方法將變得尤為重要，以確保LLMs在各種應用中的可靠性和有效性。這要求研究者們不僅要深入探索知識沖突的本質，還要開發新的方法來應對這些沖突，從而推動LLMs技術的進一步發展。

付費5元查看完整內容

大型語言模型 · AAAI 2024 · 多模態檢索 ·

2024 年 1 月 19 日

[付費5元查看完整內容]【AAAI2024】使用大型語言模型的生成式多模態知識檢索

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態查詢的知識檢索在支持知識密集型多模態應用中扮演著關鍵角色。然而，現有方法在有效性和訓練效率方面面臨挑戰，特別是在訓練和集成多個檢索器以處理多模態查詢時。在本文中，我們提出了一個創新的端到端生成式框架，用于多模態知識檢索。我們的框架利用了大型語言模型（LLMs）即使在有限數據訓練的情況下，也可以有效地作為虛擬知識庫的事實。我們通過兩步過程檢索知識：1）生成與查詢相關的知識線索；2）使用知識線索搜索數據庫以獲取相關文檔。特別是，我們首先引入了一個對象感知的前綴調優技術來指導多粒度的視覺學習。然后，我們將多粒度的視覺特征對齊到LLM的文本特征空間中，利用LLM捕獲跨模態交互。隨后，我們構建了具有統一格式的指導數據進行模型訓練。最后，我們提出了知識引導的生成策略，以在解碼步驟中施加先前約束，從而促進獨特知識線索的生成。通過在三個基準測試上進行的實驗，我們展示了與強大基線相比，在所有評估指標上的顯著提升，范圍從3.0%到14.6%。

付費5元查看完整內容

大型語言模型 · 歸因 ·

2023 年 11 月 8 日

[付費5元查看完整內容]《大型語言模型歸因》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

開放領域生成系統在會話人工智能領域（例如生成式搜索引擎）引起了廣泛關注。本文對這些系統，特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性，但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解，幫助改進歸因方法，以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段，因此我們維護了一個倉庫，以跟蹤正在進行的研究，網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型（LLMs）驅動的開放領域生成系統出現以來（Anil等人，2023；OpenAI，2022，2023），解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰（Rawte等人，2023；葉等人，2023；張等人，2023b）。社區通常將這種問題稱為“幻覺”問題，其中生成的內容呈現出扭曲或虛構的事實，缺乏可信的信息來源（Peskoff和Stewart，2023）。這在信息搜索和知識問答場景中尤為明顯，用戶依賴大型語言模型獲取專業知識（Malaviya等人，2023）。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的（Penedo等人，2023）。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞，而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后（Ouyang等人，2022），模型仍然可能出現外部幻覺（Bai等人，2022）。為了解決外部幻覺的問題，研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性（Thoppilan等人，2022；Menick等人，2022；Nakano等人，2021）。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從，還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而，歸因的基本挑戰圍繞著兩個基本要求（Liu等人，2023）：

考慮到這些要求，我們可以將模型處理歸因的主要方式分為三種類型：

直接模型驅動的歸因：大型模型本身為其回答提供歸因。然而，這種類型經常面臨挑戰，因為回答可能不僅是虛構的，而且歸因本身也可能是虛構的（Agrawal等人，2023）。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案，但建議的參考文獻僅在14%的時間內存在（Zuccon等人，2023）。
檢索后回答：這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因（Gao等人，2023b）。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時，可能會出現潛在的知識沖突問題（Xie等人，2023）。檢索也可以被用作一種專門的工具，允許模型獨立觸發它，類似于ChatGPT 1中的“使用必應進行瀏覽”。
生成后歸因：系統首先提供答案，然后使用問題和答案進行歸因搜索。如果需要，答案然后會進行修改并得到適當的歸因。現代搜索引擎，如Bing Chat 2，已經包含了這種歸因方式。然而，研究顯示，從四個生成式搜索引擎生成的內容中，只有51.5%完全得到了引用文獻的支持（Liu等人，2023）。這種歸因方式在高風險專業領域，如醫學和法律中尤其缺乏，研究發現有大量不完整的歸因（分別為35%和31%）；而且，許多歸因來自不可靠的來源，51%的歸因被專家評估為不可靠（Malaviya等人，2023）。

超越對文本幻覺的一般討論（Zhang等人，2023b；葉等人，2023；Rawte等人，2023），我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外，我們也涉及了諸如偏見和過度引用的挑戰。我們相信，通過關注這些歸因問題，我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題，鼓勵對這一主題進行更深入的思考。

歸因是指一個實體（如文本模型）生成并提供證據的能力，這些證據通常以引用或參考文獻的形式出現，用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭，確保這些聲明可以從一個基礎語料庫中邏輯推斷出來，使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關（Brin 和 Page, 1998；Page 等人, 1999；Tay 等人, 2022），在這種任務中只有幾個網頁會被返回。然而，歸因的主要目的包括使用戶能夠驗證模型所做的聲明，促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺，以及建立一個結構化的框架來評估支持證據的完整性和相關性，與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人（2021）還提出了歸因于已識別來源（AIS）的評估框架，以評估特定陳述是否由所提供的證據支持。Bohnet 等人（2022）提出了歸因問答，模型在這里接受一個問題，并產生一對配對的回答，即答案字符串及其從特定語料庫，如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因，一些研究發現生成的文本更加基于事實，并且在下游任務中的表現也有所提升。最近，研究人員發現，大型語言模型在回答特定領域的知識性問題時，不能清楚地提供知識來源或證據（Peskoff 和 Stewart, 2023; Zuccon 等人, 2023）。在大多數情況下，模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題，它提供的證據仍然可能存在錯誤。Weller 等人（2023）嘗試通過提出根據提示方法，將模型生成的文本基于其預訓練數據，發現這種方法可以影響模型的根據性，從而影響信息尋求任務的表現。Anonymous（2023）引入了一個中間規劃模塊，要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖，然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因，可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法（Chen 等人，2017年；Lee 等人，2019年；Khattab 和 Zaharia，2020年）。SmartBook 框架（Reddy 等人，2023年）提出了一種方法，該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題，并從新聞文章中檢索相關信息。報告按時間線組織，每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題，MixAlign（張等人，2023a）提出了一個框架，該框架結合了自動問題知識對齊和用戶澄清，增強了檢索增強生成模型的性能，并減輕了語言模型的幻覺。此外，SearChain（徐等人，2023年）引入了一個新穎的框架，它將大型語言模型（LLMs）與信息檢索（IR）結合起來，提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法，通過生成全球推理鏈（CoQ）并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因，一些研究致力于生成后的歸因，這些研究使用搜索引擎或文檔檢索系統，基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性，而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR（高等，2023a）自主識別任何文本生成模型輸出的歸因，并執行后期編輯以糾正不支持的內容，同時努力在最大程度上保留原始輸出。在霍等人（2023）的工作中，材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM，以驗證生成的回應與檢索到的材料之間的一致性，并進行必要的編輯以減少幻覺。陳等人（2023b）介紹了一個全自動化的管道，旨在驗證復雜的政治聲明，這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

大型語言模型 · 軟件過程 ·

2023 年 10 月 6 日

[付費5元查看完整內容]大型語言模型在軟件工程：調查與待解決的問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提供了一個關于大型語言模型（LLMs）在軟件工程（SE）中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力，其應用覆蓋了軟件工程活動的全譜，包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而，這些同樣的新興屬性也帶來了重大的技術挑戰；我們需要能夠可靠地剔除錯誤的解決方案，如幻覺。我們的調查揭示了混合技術（傳統的SE與LLMs相結合）在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果；即大型語言模型（LLMs）在軟件工程（SE）應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會，我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的，但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中，但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是，我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接（和共鳴）。盡管總的來說，我們找到了很多樂觀的理由，但仍然存在重要的技術挑戰，這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出，LLMs普遍存在幻覺問題[1]，而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣，幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下，這意味著創造的工程制品可能是錯誤的，但看起來是合理的；LLMs可能引入錯誤。然而，與LLMs的許多其他應用不同，軟件工程師通常有可自動化的真實依據（軟件執行），大部分軟件工程制品都可以基于此進行評估。此外，軟件工程研究社區已經花了很多時間開發自動化和半自動化技術，以檢查人類可能產生的錯誤結果。這意味著，對于這個學科和研究社區，當面對像幻覺這樣的問題所帶來的挑戰時，有大量的經驗和專業知識可以借鑒。

顯然，自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用，就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時，由于缺乏可自動化的oracle [6]（一種自動技術，用于確定給定輸入刺激的輸出行為是否正確），自動測試數據生成受到限制。考慮到LLMs的幻覺傾向，Oracle問題仍然非常相關，對它的解決方案將變得更加有影響力。但是，一些SE應用關心現有軟件系統的適應、改進和開發，對于這些應用，有一個現成的可自動化的oracle：原始系統的功能行為。在本文中，我們稱其為“自動回歸Oracle”，這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考，以對任何后續的適應和更改的輸出進行基準測試。當然，有“烘焙”功能錯誤的風險，因為自動回歸Oracle無法檢測系統應該做什么，只能捕捉它當前做什么。因此，自動回歸Oracle只能測試功能退化，所以它最適合于需要保持現有功能的用例。例如，對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點，我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中，我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼，還可以包括其他軟件工程制品，如需求、測試用例、設計圖和文檔。總的來說，LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出，但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求，不僅要優化prompt工程（專注于LLM的輸入），還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的：相同的prompt在不同的推斷執行中產生不同的答案（除非溫度設為零，這在多次執行中經常被發現是次優的）[9]。此外，無論溫度設置如何，prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理，這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰：如果每次我們運行整個工程過程時結果都會變化，我們如何確定所提議的技術是否超越了現有的技術？這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是，SBSE與基于LLM的軟件工程有很多相似之處，在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此，已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如，參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文，我們過濾了出版物，將其細分為以下子類別：人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選（我們手動排除了重載縮寫，例如將GPT誤認為是通用規劃工具），結果是L列。最后，我們使用相同的查詢來識別基于LLM的軟件工程論文，這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的，因此我們只局限于基于總體趨勢得出的結論，而這些總體趨勢有強有力的證據支持，而不是觀察到的數字的具體細節。盡管如此，我們報告了觀察到的原始數字，以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量（|A|，以藍色表示）和LLM相關論文的數量（|L|，以橙色表示）的增長。特別是與軟件工程和LLM相關的論文以綠色表示（|L ∩ S|）。考慮到總體發表量的快速增長，我們為縱軸使用了對數刻度。不出所料，我們看到了計算機科學出版物數量的整體增長。同時，鑒于LLM最近受到的關注增多，LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納，如圖中的綠色所示。為了更詳細地檢查這一趨勢，我們在圖3中畫出了LLM出版物（L）與所有計算機科學出版物（A）的比例（以藍色表示），以及基于LLM的軟件工程出版物（L ∩ S）與所有LLM出版物的比例（以橙色表示）。如圖所示，自2019年以來，基于LLM的軟件工程論文的比例已經急劇上升。目前，所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長，我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制，但我們可以預期會有許多關于感興趣的子領域的全面調查，以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧（SLRs）。例如，Hou等人[14]提供了一個出色的最新SLR，涵蓋了2017年至2023年的229篇研究論文，報告了所處理的軟件工程任務、數據收集和預處理技術，以及優化LLM性能的策略（例如提示工程）。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大模型 · 可解釋性 · 大型語言模型 ·

2023 年 9 月 11 日

[付費5元查看完整內容]大模型如何可解釋？新澤西理工學院等最新《大型語言模型可解釋性》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理方面展示了令人印象深刻的能力。然而，它們的內部機制仍然不清楚，這種不透明性對下游應用帶來了不希望的風險。因此，理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中，我們引入了可解釋性技術的分類體系，并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類：傳統的微調范式和基于提示的范式。對于每個范式，我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準，并討論了如何利用解釋來調試模型和提高性能。最后，我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型（LLMs），如BERT（Devlin等，2019a）、GPT-3（Brown等，2020）、GPT-4（Bubeck等，2023）、LLaMA-2（Touvron等，2023b）和Claude（AnthropicAI，2023），在各種自然語言處理（NLP）任務中展示出了令人印象深刻的性能。主要科技公司，如微軟、谷歌和百度，已在其商業產品和服務中部署了LLMs以增強功能。例如，微軟利用GPT-3.5來改善新Bing的搜索相關性排名（Mehdi，2023）。由于LLMs通常是復雜的“黑盒子”系統，其內部工作機制是不透明的，高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生（Weidinger等，2021）。因此，開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力（Doshi-Velez和Kim，2017；Du等，2019a）。提高LLMs的可解釋性至關重要，有兩個關鍵原因。首先，對于一般終端用戶，可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任，無需技術專業知識。通過這種方式，終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次，對于研究人員和開發人員，解釋模型行為提供了洞察力，以識別意外偏見、風險和性能改進的領域。換句話說，可解釋性充當了一個調試輔助工具，可以快速提高下游任務上的模型性能（Strobelt等，2018；Bastings等，2022；Yuksekgonul等，2023）。它有助于追蹤模型能力隨時間的變化，進行不同模型之間的比較，并開發可靠、道德和安全的模型，以供實際部署使用。 由于LLMs的獨特屬性，其可解釋性技術與傳統機器學習（ML）模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看，ML模型以監督方式依賴人工構建的特征，而LLMs旨在自動從原始輸入數據中學習特征（Chai和Li，2019）。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看，傳統ML模型通常是針對具體任務設計的，具有不同的模型架構（Liu和Sun，2023）。相比之下，經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務（Yang等，2023）。此外，LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性（Hu，2020）。由于注意力權重中編碼的知識和模式可能提示了模型的理解，注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外，由于LLMs的性能更好，還應進一步研究transformer的組件，包括神經元、層和模塊，學到了什么以及它們是否有不同的功能。從應用的角度來看，傳統ML模型專注于低級模式識別任務，如解析和形態分析，而LLMs可以處理高級推理任務，如回答問題和常識推理（Lauriola等，2022）。特別是，理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs，有必要回顧和總結專為LLMs定制的解釋技術。 在本文中，我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中，我們介紹了應用LLMs的兩個主要范式：1）傳統的下游微調范式和2）提示范式。基于這一分類，我們在第3節中回顧了適用于微調LLMs的解釋方法，并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中，我們討論了解釋方法的評估。最后，在第6節中，我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰，并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式，傳統微調和提示，根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別，因此分別提出了各種類型的解釋（如圖1所示）。 傳統微調范式

在這個范式中，首先對語言模型進行了大規模無標簽文本數據的預訓練，然后在特定下游領域的一組標記數據上進行微調，例如GLUE基準測試中的SST-2、MNLI和QQP（Wang等人，2019）。在微調過程中，很容易在語言模型的最終編碼器層上方添加完全連接的層，使其適應各種下游任務（Rogers等人，2021）。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如，包括BERT（Devlin等人，2019a）、RoBERTa（Liu等人，2019）、ELECTRA（Clark等人，2020）、DeBERTa（He等人，2021）等。對于這個范式的解釋重點在于兩個關鍵領域：1）理解自監督預訓練如何使模型獲得語言的基礎理解（例如句法、語義和上下文關系）；以及2）分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示，例如自然語言句子中的空白，以便模型填充，實現零樣本學習或少樣本學習，而無需額外的訓練數據。根據其開發階段，這個范式下的模型可以分為兩種類型：基礎模型：隨著LLMs的規模和訓練數據的增加，它們展示了令人印象深刻的新能力，無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型（擁有數十億參數）（例如GPT-3（Brown等人，2020）、OPT（Zhang等人，2022b）、LLaMA-1（Touvron等人，2023a）、LLaMA-2（Touvron等人，2023b）、Falcon（Almazrouei等人，2023））。這些模型被稱為基礎模型或基礎模型，它們可以與用戶進行對話，無需進一步與人類喜好對齊。大規模模型通常適用于這種范式，規模超過10億。例如，LLaMA-2（Touvron等人，2023b）擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型：基礎模型存在兩個主要限制：1）它們不能按照用戶的指令進行操作，因為預訓練數據包含少量指令-響應示例，2）它們傾向于生成有偏見和有毒的內容（Carlini等人，2023）。為了解決這些限制，基礎模型通過監督微調進一步進行微調（見圖2），以實現人類級別的能力，例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過（提示，響應）演示對和來自人類反饋的強化學習（RLHF）進行指導調整。模型通過自然語言反饋進行訓練，以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4（Bubeck等人，2023）、Anthropic的Claude（AnthropicAI，2023）以及一些開源模型，如Meta的LLaMA-2-Chat（Touvron等人，2023b）、Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中，我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先，我們介紹了提供局部解釋（第3.1節）和全局解釋（第3.2節）的方法。在這里，局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解，而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來，我們討論了如何利用解釋來調試和改進模型（第3.3節）。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景，我們有一個語言模型，并將特定文本輸入模型。模型隨后產生分類輸出，例如情感分類或下一個標記的預測。在這種情景下，解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測，我們將其稱為局部解釋。這個類別包括四個主要方法流，包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋，全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件（神經元、隱藏層和較大模塊）編碼了什么，以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法：探測方法，用于分析模型表示和參數；神經元激活分析，用于確定模型對輸入的響應性；以及基于概念的方法。

**提示范式的解釋 **

在本節中，我們介紹了解釋屬于提示范式的模型的技術，包括1）解釋基礎模型，如LLaMA-2（第4.1節），2）解釋助手模型，如LLaMA-2-Chat（第4.2節），以及3）如何利用LLMs的推理和解釋能力生成用戶友好的解釋（第4.3節）。

基礎模型解釋

隨著語言模型的規模增大，它們展示出了新的能力，如少樣本學習，即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈（CoT）提示能力。鑒于這些新興屬性，解釋性研究有三個主要目標：1）研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務，2）理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務，從而幫助終端用戶解釋模型的推理，以及3）解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調，屬于這一范式的LLMs具有強大的推理能力。然而，它們的巨大規模也使它們容易生成問題輸出，如幻覺。解釋性研究旨在：1）闡明對齊微調的作用，2）分析幻覺產生的原因。

結論

在本文中，我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性，以及提高人類可解釋性。隨著LLMs的不斷進步，可解釋性將變得極其重要，以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織，同時突顯了未來工作的開放性問題。

付費5元查看完整內容

大模型 · ChatGPT · 知識圖譜 ·

2023 年 5 月 9 日

[付費5元查看完整內容]大模型ChatGPT如何用于知識圖譜構建？《利用大型語言模型增強知識圖譜構建》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大型語言模型（LLM）發展的日益普及，吸引了大量關注，各種應用領域的模型不斷涌現。然而，將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展，如ChatGPT，如何與專用預訓練模型，如REBEL，進行比較，以實現實體和關系的聯合提取。為了評估這種方法，我們使用與可持續性相關的文本作為案例，進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程，并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外，我們還探討了使用基礎LLM模型進行自動本體創建的潛力，從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法，包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較，我們從網絡上收集了有關可持續性主題的新聞數據。為此，我們使用了News API [21]系統。News API是一個HTTP REST API，用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能：關鍵詞或短語、發布日期、來源域名和語言。通過使用News API，我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數，從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制，因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理（NLP）中的一項基本任務，旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性，因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中，我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL：我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本，需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌，這意味著在將較長的收集到的文章發送到模型進行三元組提取之前，需要對其進行預處理。為了解決這個限制，我們將原始文本進行分詞，并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理，然后合并結果以提取較長文本的關系。還向提取的關系添加元數據，引用生成關系的令牌批次。采用這種方法，由于令牌批次可能在句子的中間開始或結束，某些關系可能無法準確提取。然而，這種情況發生的次數微乎其微。因此，我們將其處理留給未來的工作。實體-關系提取過程完成后，提取的信息存儲在三元組結構中。為了進一步規范提取的實體，我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分，它是用于優化提取關系的額外后處理步驟。在本研究中，我們使用DBpedia作為知識庫，并認為如果兩個實體具有相同的DBpedia URL，則它們是相同的。這方法不適用于DBpedia上不存在的實體。

ChatGPT：本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后，我們遵循與REBEL模型相同的步驟，以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗，我們將參數“溫度”的值設為0，以獲得更具確定性的輸出，因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

擴散模型 · Transformer ·

2022 年 12 月 22 日

[付費5元查看完整內容]Transformer如何做擴散模型？伯克利最新《transformer可擴展擴散模型》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型，用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性，最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型，在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT

1. 引言

在transformers的推動下，機器學習正在復興。在過去的五年中，自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而，許多類別的圖像級生成模型仍然堅持這一趨勢，盡管transformer在自回歸模型中被廣泛使用[3,6,40,44]，但在其他生成模型框架中被采用的較少。例如，擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而，它們都采用卷積U-Net架構作為事實上的骨干選擇。

Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55]，一個自回歸生成模型，有一些架構上的變化。該模型是卷積的，主要由ResNet[15]塊組成。與標準的U-Net[46]相比，額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇，例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而，Ho等人提出的U-Net的高層設計在很大程度上保持不變。

**本文旨在揭開擴散模型中結構選擇的意義，并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的，可以很容易地被transformer等標準設計取代。因此，擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣，以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。

本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer，或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐，已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。

本文研究了transformer的擴展行為，即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試，其中擴散模型是在VAE的潛空間中訓練的，可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM，能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。

Diffusion x Transformers

在過去的一年里，擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里，深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?

本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer，或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT)，有一些小但重要的調整。擴散模型需要處理條件輸入，如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是，這些adaLN層還調制塊內任何殘差連接之前的激活，并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外，DiT是一個相當標準的transformer模型。

Scaling DiT

可視化放大DiT的效果。我們使用相同的采樣噪聲，在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。眾所周知，transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。

*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的，該文獻發現聯合放大深度和寬度效果很好。

擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中，input latent)中，將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如，將patch大小減半會使transformer的輸入token數量增加四倍，從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響，但請注意，patch大小對模型參數計數沒有意義的影響。

對于我們的四個模型配置中的每一個，我們訓練三個模型，潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2，它使用最大的XL配置，patch大小為2。

通過Fréchet Inception Distance (FID)測量，擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣，計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如，雖然DiT-XL/2獲得了優秀的FID值，但XL/8表現不佳。XL/8的參數比XL/2多一些，但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。

根據我們的擴展分析，當訓練時間足夠長時，DiT-XL/2顯然是最佳模型。在本文的其余部分，我們將專注于XL/2。

與最新擴散模型的比較

從我們的DiT-XL/2模型中選擇的樣本，以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里，我們使用無分類器指導規模，對512模型使用6.0，對256模型使用4.0。我們在ImageNet上訓練了兩個版本的DiT-XL/2，分辨率分別為256x256和512x512，步驟分別為7M和3M。當使用無分類器指導時，DiT-XL/2優于所有先驗擴散模型，將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型，將ADM-U之前獲得的最佳FID 3.85提高到3.04。

除了獲得良好的FIDs外，DiT模型本身相對于基線仍然是計算高效的。例如，在256x256分辨率下，LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下，ADM-U是2813 Gflops，而XL/2只有525 Gflops。

付費5元查看完整內容

自然語言處理 · 預訓練語言模型 · 深度學習 · 無監督學習 · 神經網絡 ·

2021 年 5 月 28 日

[付費5元查看完整內容]面向自然語言處理任務的預訓練模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習技術得到了快速發展。在自然語言處理（NLP）任務中，隨著文本表征技術從詞級上升到了文檔級，利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先，根據文本特征提取技術的發展，從詞級和文檔級對典型的模型進行了分析；其次，從預訓練目標任務和下游應用兩個階段，分析了當前預訓練模型的研究現狀，并對代表性的模型特點進行了梳理和歸納；最后，總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。

//www.joca.cn/CN/abstract/abstract24426.shtml

付費5元查看完整內容

自然語言處理 · 預訓練模型 ·

2020 年 12 月 9 日

[付費5元查看完整內容]自然語言處理預訓練模型的研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來，深度學習技術被廣泛應用于各個領域，基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態，在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹，并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述；簡要分析傳統預訓練模型的特點及局限性，重點介紹基于深度學習的預訓練模型，并針對它們在下游任務的表現進行對比評估；梳理出具有啟發意義的新式預訓練模型，簡述這些模型的改進機制以及在下游任務中取得的性能提升；總結目前預訓練的模型所面臨的問題，并對后續發展趨勢進行展望。

付費5元查看完整內容