爱琴海论坛视频播放三免费-99视频在线播放喷射

大型語言模型（LLMs）由于在各種任務中的卓越表現而受到廣泛關注。然而，LLM推理的大量計算和內存需求給資源受限的部署場景帶來了挑戰。該領域的努力已經朝著開發旨在提高LLM推理效率的技術方向發展。本文提供了對現有文獻關于高效LLM推理的全面綜述。我們首先分析了LLM推理效率低下的主要原因，即模型規模大、注意力操作的二次復雜度和自回歸解碼方法。接著，我們介紹了一個全面的分類法，將當前文獻按數據級、模型級和系統級優化進行組織。此外，本文還包括了在關鍵子領域內代表性方法的比較實驗，以提供定量洞見。最后，我們提供了一些知識總結并討論未來的研究方向。

近年來，大型語言模型（LLMs）已經從學術界和工業界獲得了大量關注。LLMs領域經歷了顯著的增長和重大成就。眾多開源的LLMs已經出現，包括GPT系列（GPT-1 [1]，GPT-2 [2]，和GPT-3 [3]），OPT [4]，LLaMA系列（LLaMA [5]，LLaMA 2 [5]，百川2 [6]，Vicuna [7]，長聊 [8]），BLOOM [9]，FALCON [10]，GLM [11]，和Mistral [12]，這些模型被用于學術研究和商業目的。LLMs的成功源于它們在處理各種任務（如神經語言理解（NLU），神經語言生成（NLG），推理 [13]，[14] 和代碼生成 [15]）中的強大能力，從而使得如ChatGPT、Copilot和Bing等應用產生了重大影響。人們日益相信 [16]，LLMs的崛起和成就標志著人類向人工通用智能（AGI）的重大步伐。然而，LLMs的部署并不總是順利進行。如圖1所示，LLMs在推理過程中通常需要更高的計算成本、內存訪問成本和內存使用率（我們將在第2.3節分析根本原因），這降低了資源受限場景中的效率指標（例如，延遲、吞吐量、能耗和存儲）。這為LLMs在邊緣和云場景中的應用帶來了挑戰。例如，巨大的存儲需求使得在個人筆記本電腦上部署一個700億參數的模型用于開發輔助任務變得不切實際。此外，如果LLMs被用于每一個搜索引擎請求，低吞吐量將導致顯著的成本，從而大幅降低搜索引擎的利潤。

幸運的是，已經提出了大量技術以實現LLMs的高效推理。為了全面理解現有研究并激發進一步的研究，本綜述采用了層次分類和系統總結的方法來描述高效LLM推理的當前景觀。具體來說，我們將相關研究分為三個層次：數據級優化、模型級優化和系統級優化（詳見第3節）。此外，我們對代表性方法進行了實驗分析。目前，已經進行了幾項綜述 [17]，[18]，[19]，[20]，[21]，[22]，主要關注LLMs效率的不同方面，但仍提供了進一步改進的機會。朱等人 [17]，樸等人 [18] 和王等人 [19] 關注于模型級優化中的模型壓縮技術。丁等人 [20] 聚焦于考慮數據和模型架構的效率研究。苗等人 [21] 從機器學習系統（MLSys）研究的角度探討高效LLM推理。與之相比，我們的綜述提供了更全面的研究范圍，涵蓋了數據級、模型級和系統級的優化，并包括了最新的進展。盡管萬等人 [22] 和徐等人 [23] 也提供了高效LLM研究的全面綜述，我們的工作通過結合比較實驗，并根據在幾個關鍵子領域如模型量化和服務系統的實驗分析提供實用的見解和建議，進一步擴展了這些工作。這些綜述的比較總結在表1中。

本綜述的其余部分安排如下：第2節介紹LLMs的基本概念和知識，并詳細分析了LLMs推理過程中的效率瓶頸。第3節展示我們的分類法。第4節至第6節分別介紹和討論在三個不同層次上的效率優化研究。第7節為幾個關鍵應用場景提供更廣泛的討論。第8節總結了本綜述提供的關鍵貢獻。

在上述討論中，我們確定了三個關鍵因素（即計算成本、內存訪問成本和內存使用），這些因素在LLM推理過程中顯著影響效率，并進一步分析了三個根本原因（即模型大小、注意力操作和解碼方法）。已經做出了許多努力，從不同的角度優化推理效率。通過仔細回顧和總結這些研究，我們將它們分類為三個層次，即數據級優化、模型級優化和系統級優化（如圖4所示）：

數據級優化指的是通過優化輸入提示（即輸入壓縮）或更好地組織輸出內容（即輸出組織）來提高效率。這種優化線通常不會改變原始模型，因此無需昂貴的模型訓練成本（注意，輔助模型可能需要少量訓練，但與原始LLMs的訓練成本相比，這種成本可以忽略不計）。

模型級優化指的是在推理過程中設計高效的模型結構（即高效結構設計）或壓縮預訓練模型（即模型壓縮）以提高其效率。這種優化線（1）通常需要昂貴的預訓練或較少量的微調成本以保持或恢復模型能力，并且（2）通常在模型性能上是有損的。

系統級優化指的是優化推理引擎或服務系統。這種優化線（1）不涉及昂貴的模型訓練，并且（2）通常在模型性能上是無損的。另外，我們在第6.3節簡要介紹了硬件加速器設計。

付費5元查看完整內容

投機解碼：并行預測與驗證

投機解碼技術通過并行預測多個令牌并同時驗證這些預測，有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術，通過并行執行任務來驗證其必要性，從而提高并發性。

**Blockwise 解碼

Blockwise解碼是一種經典的投機解碼方法，通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層，并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時，這些模型并行生成下一個k個令牌，并通過基本模型對這些令牌進行評分，確定最長的前綴。如果這個前綴的長度超過1，則可以跳過一個或多個貪心解碼循環，從而加快推理速度。

**SpecDec 方法

SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件，進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型，專注于高效準確地生成令牌草稿，而Spec-Verification則允許接受略微偏離貪心解碼的令牌，從而提高接受率。實驗結果表明，SpecDec方法在保持生成質量的同時，實現了約5倍的速度提升。

**自我投機解碼（SSD）

自我投機解碼（SSD）是一種不需要輔助草稿模型的新穎推理方案，而是利用單一LLM同時進行草稿生成和驗證，從而減少了總內存使用。在草稿階段，部分中間層被跳過，選擇這些層是通過貝葉斯優化完成的。在驗證階段，使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成，但也可能降低令牌接受率，增加整體推理時間。因此，層選擇過程被設計為優化問題，目標是最小化每個令牌的平均推理時間。

提前退出機制：動態計算資源分配

提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配，有效地加速了生成過程。這一機制基于對樣本難度的觀察，動態調整計算資源，避免對簡單樣本的過度計算，同時確保復雜樣本的精確處理。

**CALM 框架

Confident Adaptive Language Modeling（CALM）框架通過動態分配計算資源，根據中間層的置信度得分決定是否提前退出計算，從而加速生成過程。CALM框架探索了三種不同的置信度測量方法：Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法，模型可以在達到預定義閾值時提前退出，避免全層計算，從而加速推理。

**FREE 方法

Fast and Robust Early-Exiting（FREE）方法通過引入淺層-深層模塊和同步并行解碼，提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型，在解碼時同步處理來自淺層模型的早退出令牌，直到遇到非退出令牌。通過Beta混合模型（BMM），FREE方法能有效捕捉置信度得分與預測一致性的關系，從而動態調整閾值，提高推理效率。

**HASH EE

Hash-based Early Exiting（HASH EE）通過哈希函數為每個令牌分配固定的退出層，避免了傳統方法中的內部分類器或額外參數，從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出，適用于多種任務，包括語言理解和生成任務。

非自回歸模型：并行生成目標令牌

非自回歸模型通過同時或并行生成所有目標令牌，避免了自回歸模型中逐令牌生成的順序性，顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時，表現出更高的推理效率。

**NAT 模型

非自回歸Transformer（NAT）模型在機器翻譯任務中首次引入，通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中，NAT模型通過復制源輸入來初始化解碼器輸入，并使用繁殖預測器來決定每個輸入詞應復制多少次，從而構建目標句子長度。通過這種方法，NAT模型實現了與自回歸模型相當的質量，同時推理延遲降低了十倍以上。

**FlowSeq 模型

FlowSeq模型使用生成流技術，通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼，引入潛變量，從而在非自回歸生成過程中建模輸出令牌之間的依賴關系，同時實現高效并行解碼。實驗結果表明，FlowSeq在保持性能的同時，實現了顯著的推理加速。

**依賴感知解碼器（DePA）

依賴感知解碼器（DePA）通過雙向依賴建模和注意力轉換過程，提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模，在非自回歸訓練之前進行自回歸前向-后向預訓練，增強解碼器對目標依賴的建模能力。

結論與未來展望

本文全面探討了各種加速生成技術，包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析，我們總結了當前技術的優勢、局限性和最新進展，為研究人員和工程師在實際應用中提供了寶貴的參考。未來，隨著技術的不斷發展，這些加速生成方法有望進一步優化，提高LLMs在各種應用場景中的實用性和效率。通過不斷優化和創新，我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力，實現實時高效的文本生成。

付費5元查看完整內容

大語言模型 · 模型壓縮 · 高效推理 · 量化 · 剪枝 ·

2024 年 2 月 17 日

[付費5元查看完整內容]大型語言模型的模型壓縮與高效推理：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于Transformer的大型語言模型取得了巨大成功。然而，在推理過程中產生的顯著內存和計算成本，使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中，我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言，類似于較小的模型，大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而，與較小模型相比，大型語言模型有兩個突出的特點：（1）大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此，許多針對大型模型的算法，如量化和剪枝，開始探索無需調整的算法。（2）大型模型強調的是通用性和泛化能力，而不是在單一任務上的性能。因此，許多算法，如知識蒸餾，關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯，我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外，我們還提供了一些成熟框架的介紹，這些框架可以支持大型模型的高效推理，支持基本的壓縮或加速算法，極大地便利了用戶的模型部署。

大型語言模型（LLMs）已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比，LLMs（例如ChatGPT、LLaMA、Claude）對未見數據顯示出了更強的泛化能力。此外，它們甚至展現出了較小模型所不具備的能力（即，突現能力），如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而，在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如，一個帶有float32權重的10B模型消耗37GB內存，更不用說隨著序列長度增加，推理內存成本會以平方速度進一步增加。為了在資源受限的設備上，甚至是移動設備上部署模型，許多LLMs采用模型壓縮方法，如量化，以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的（甚至是預訓練的）模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本，以便模型可以在各種資源受限的設備上運行。從算法上講，常見的模型壓縮方法包括：

量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外，較少的位可能表示更高的并行性和更快的推理速度。
剪枝致力于移除預設計模型中不重要的組件（例如，神經元，層等），從而減少推理成本中的內存和計算成本。
知識蒸餾引入一個預訓練的大模型作為教師，并將其知識轉移到一個新的較小的模型上，后者稱為學生模型。然后，較小的模型將幾乎擁有與教師相同的能力，并享受較少的內存和計算成本。
緊湊架構設計設計新的運算符，以較低的成本替換（通常是近似）原始模型中的笨重運算符。對于Transformer模型，自注意力是主要目標，通常被其他運算符替換。
動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網，每個樣本只選擇超網的一個子結構進行推理。專家混合（MoE）是一種動態推理。此外，上述方法也可以組合使用，以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而，LLMs也為模型壓縮帶來了許多新的挑戰：

許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而，由于微調LLMs的巨大預算，研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務（如神經機器翻譯）不同，大型語言模型強調跨各種任務和未見數據的通用性和泛化能力，甚至是突現能力。因此，壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。面對這些挑戰，提出了許多專門針對LLMs的壓縮方法。在本文中，我們將對這些方法進行全面綜述。為了更好地展示這些方法，我們進一步將參數約為十億或更少的語言模型，如BERT、GPT2，稱為中等模型，盡管它們通常被視為大型語言模型。參數超過十億的模型，如LLaMA、Claude、ChatGPT等，保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小，即中等模型相對容易進行微調，展示較少的突現能力。結果，許多針對中等模型的壓縮方法仍與較小模型的方法相似。以下各節的組織如下：第2節將介紹一些初步知識。然后，我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值（在一個大的（通常是連續的）集合中）映射到輸出值（在一個小的（通常是有限的）集合中）的過程（例如，見圖2）。量化是減少內存成本和提高LLMs推理速度的最直接方法，特別是在支持低位數據類型（如INT4）快速操作的硬件上。值得注意的是，量化在神經網絡訓練和推理中都取得了令人印象深刻的成功，而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法（如剪枝和蒸餾）有幾個優勢。1）高壓縮比：將LLMs中的權重從32位浮點數量化為4位整數，可以將模型大小大幅壓縮至大約1/8，這對于內存受限的過程（如LLMs推理）至關重要。2）低成本：許多量化方法不需要重新訓練整個LLMs，使其對于計算資源有限的研究人員更加可行。3）高靈活性：量化與大多數其他壓縮方法兼容，為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法，我們首先在3.1小節介紹標準量化方法和一些基本概念。然后，在3.2節，我們將簡要總結LLMs出現之前一些針對中等大小語言模型（如BERT，GPT2等）的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難，我們根據技術是否需要重新訓練，將LLMs量化方法分為兩部分。不需要重新訓練的方法（即，訓練后量化，PTQ）在3.3節討論，而需要重新訓練的方法（即，量化感知訓練，QAT）在3.4節討論。最后，在3.5節，我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術，用于壓縮和加速神經網絡，剪枝通過消除模型中非必需的權重或結構，同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡（CNNs）中顯示出顯著結果，但與量化和蒸餾等其他壓縮技術相比，其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大，微調的高成本使得實現剪枝的全部效果變得更加困難。然而，剪枝是壓縮模型的關鍵技術，需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分，我們將在4.1節提供剪枝方法和基本概念的概覽。隨后，在4.2節，我們將詳細闡述為中等大小語言模型（即，參數達到數十億的模型）量身定制的剪枝技術，鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后，在4.4節，我們將介紹一些輔助技術，這些技術雖然不是剪枝方法，但與剪枝相關，用于改進LLMs的剪枝結果，并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾（KD）是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中，從而實現教師模型知識的更簡潔高效的表示。在5.1節中，我們將介紹知識蒸餾的一些基本概念，并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型（具有大約10億參數的語言模型）的各種知識蒸餾方法，并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后，我們將在5.3節提供大型語言模型（具有超過10億參數的語言模型）知識蒸餾的詳細概述，將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學，其目標是通過優化網絡結構和算法，在減少計算資源和內存使用的同時，實現模型效率的顯著提升。具體而言，它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分，并且對于大型和中等大小模型來說沒有區別，因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理（NLP）任務上性能的有效方法。然而，擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題，同時仍然利用規模增加的好處，動態神經網絡（DyNNs）只針對每個輸入處理網絡的一個子集，使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域，當前對DyNNs的研究主要包括以下三種方法：提前退出、級聯推理和專家混合（MoE）。提前退出旨在動態地在深度神經網絡（DNNs）的早期層次終止推理過程，從而減少計算成本并提高響應時間。直覺是，對于不太復雜的詞匯，往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器，這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型，如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統，以確定輸入查詢的處理策略，并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢，并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度，并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標，以決定是否利用更強大的LLMs。一般來說，這一系列工作最近才出現，并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比，MoE的研究有著橫跨多個機器學習領域（包括NLP）的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡（FFN），其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中，以提供高效而強大的服務。因此，在本節的剩余部分，我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念，接著是對將MoE整合到LLMs中的當代研究的廣泛綜述，包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧，這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起，突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展，出現了各種模型。由于不同的應用場景，它們在延遲、吞吐量、內存等方面有著額外的需求，這使得我們難以部署模型。在本節中，我們介紹了一些最近開發的針對LLM的推理加速框架，這些框架有效地提高了不同場景下模型的效率，如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357]，由于本文關注于推理，我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理，可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中，我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查，包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外，我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而，正如我們在引言中提到的，與較小模型相比，大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰，但許多算法仍然依賴于為壓縮小型模型而設計的框架，壓縮大型模型的挑戰依然存在。未來，需要進一步探索，以開發更高效、更有效的壓縮算法，同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

大型語言模型 · 大模型幻覺 ·

2024 年 2 月 15 日

[付費5元查看完整內容]大型語言模型幻覺的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在大型語言模型（LLMs）中的幻覺總被視為局限。然而，它們也可能成為創造力的來源嗎？本綜述探索了這種可能性，暗示幻覺可能通過培養創造力促進LLM的應用。本綜述首先回顧了幻覺的分類及其對LLM在關鍵應用中可靠性的負面影響。然后，通過歷史案例和近期相關理論，綜述探討了LLMs中幻覺的潛在創造性好處。為了闡明這種聯系的價值和評估標準，我們深入研究了創造力的定義和評估方法。遵循發散思維和收斂思維階段的框架，本綜述系統性地回顧了文獻，討論了如何轉換和利用LLMs中的幻覺以培養創造力。最后，綜述討論了未來研究方向，強調需要進一步探索和完善LLMs內創造性過程中幻覺的應用。

付費5元查看完整內容

大型語言模型 · 自然語言生成 · 大模型 · 綜述 ·

2024 年 1 月 20 日

[付費5元查看完整內容]《大型語言模型自然語言生成評估》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在快速發展的自然語言生成（NLG）評估領域中，引入大型語言模型（LLMs）為評估生成內容質量開辟了新途徑，例如，連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽，這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標，提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論，以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰，包括偏見、穩健性、領域特定性和統一評估，本綜述旨在為研究人員提供洞見，并倡導更公平、更先進的NLG評估技術。

自然語言生成（NLG）處于現代AI驅動通信的前沿，近期在大型語言模型（LLMs）方面的進展徹底改變了NLG系統的能力（Ouyang et al., 2022; OpenAI, 2023）。這些模型，依靠深度學習技術和大量的訓練數據，展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展，建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標，如BLEU（Papineni et al., 2002）、ROUGE（Lin, 2004）和TER（Snover et al., 2006），主要關注表面層面的文本差異，通常在評估語義方面存在不足（Freitag et al., 2020）。這一局限性已被指出阻礙了研究進展，并可能導致誤導性的研究結論。此外，其他使用神經嵌入來計算分數的方法（Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020），盡管在評估諸如語義等價性和流暢性方面有所考慮，但它們的靈活性有限，適用范圍受限（Freitag et al., 2021a）。此外，這些傳統方法與人類判斷的一致性較低（Liu et al., 2023c），且對分數的解釋性不足（Xu et al., 2023）。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型（LLMs）涌現的能力為基于LLM的NLG評估提供了有前景的途徑，例如Chain-of-Thought（CoT）（Wei et al., 2022b）、零次學習指令跟隨（Wei et al., 2022a）、更好地與人類偏好相一致（Ouyang et al., 2022）等。這些特性使LLMs成為評估NLG輸出的有力工具，與傳統方法相比提供了更為復雜和更好地與人類一致的評估（Liu et al., 2023c；Kocmi and Federmann, 2023；Fu et al., 2023）。例如，LLMs可以生成合理的解釋來支持最終評分（Xu et al., 2023），而利用人類反饋的強化學習（RLHF）可以使LLMs的偏好更好地與人類一致（Ouyang et al., 2022；Zheng et al., 2023）。如圖1所示，這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本，無論是否有參考資料和來源。然而，眾多基于LLM的NLG評估方法，針對不同的任務和目標，缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加，迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述，呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論，并深入分析了這些方法的各種優點、局限性和獨特屬性。此外，我們探索了該領域內尚未解決的挑戰和開放性問題，從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織：我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先，我們建立了NLG評估的正式框架，并提出了一個分類體系來分類相關工作（第2節）。隨后，我們深入并詳細闡述這些工作（第3節）。此外，我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧（第4節）。鑒于這一領域的快速發展，我們確定并討論了一些可能指導未來研究的潛在開放問題（第5節）。在結束這一系統綜述時，我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外，我們強調整合其他評估方法，如人類判斷，以實現更全面和多面的評估框架。

在大型語言模型（LLMs）迅速發展的背景下，越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力，導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估，其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面，基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議，用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數，代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本（可選）的生成文本的生成概率作為評估指標，稱為? 基于概率的評估。在多樣化的領域中，某些工作將NLG評估轉化為分類任務，使用類似李克特量表的多級別對文本質量進行分類。在這種情況下，LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時，? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外，? 組合評估方法利用多個不同LLMs或提示的LLM評估者，協調評估者之間的溝通以產生最終評估結果。最后，一些最新的研究探索了? 高級評估方法（考慮細粒度標準或結合連續思考或上下文學習的能力），旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法，每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面，以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時，眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋，以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務，這些基準可以被分類為單一場景示例，如機器翻譯和摘要，以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中，我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類：評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法，審視它們的優勢并比較它們的差異。此外，我們總結了NLG評估的普遍元評估基準。

在我們的研究中，我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力，但仍有一些未解決的問題需要關注，包括偏見、穩健性、混合評估方法的整合，以及LLM評估者內部對特定領域和統一評估的需求。我們預計，解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

大型語言模型 · 歸因 ·

2023 年 11 月 8 日

[付費5元查看完整內容]《大型語言模型歸因》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

開放領域生成系統在會話人工智能領域（例如生成式搜索引擎）引起了廣泛關注。本文對這些系統，特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性，但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解，幫助改進歸因方法，以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段，因此我們維護了一個倉庫，以跟蹤正在進行的研究，網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型（LLMs）驅動的開放領域生成系統出現以來（Anil等人，2023；OpenAI，2022，2023），解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰（Rawte等人，2023；葉等人，2023；張等人，2023b）。社區通常將這種問題稱為“幻覺”問題，其中生成的內容呈現出扭曲或虛構的事實，缺乏可信的信息來源（Peskoff和Stewart，2023）。這在信息搜索和知識問答場景中尤為明顯，用戶依賴大型語言模型獲取專業知識（Malaviya等人，2023）。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的（Penedo等人，2023）。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞，而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后（Ouyang等人，2022），模型仍然可能出現外部幻覺（Bai等人，2022）。為了解決外部幻覺的問題，研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性（Thoppilan等人，2022；Menick等人，2022；Nakano等人，2021）。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從，還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而，歸因的基本挑戰圍繞著兩個基本要求（Liu等人，2023）：

考慮到這些要求，我們可以將模型處理歸因的主要方式分為三種類型：

直接模型驅動的歸因：大型模型本身為其回答提供歸因。然而，這種類型經常面臨挑戰，因為回答可能不僅是虛構的，而且歸因本身也可能是虛構的（Agrawal等人，2023）。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案，但建議的參考文獻僅在14%的時間內存在（Zuccon等人，2023）。
檢索后回答：這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因（Gao等人，2023b）。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時，可能會出現潛在的知識沖突問題（Xie等人，2023）。檢索也可以被用作一種專門的工具，允許模型獨立觸發它，類似于ChatGPT 1中的“使用必應進行瀏覽”。
生成后歸因：系統首先提供答案，然后使用問題和答案進行歸因搜索。如果需要，答案然后會進行修改并得到適當的歸因。現代搜索引擎，如Bing Chat 2，已經包含了這種歸因方式。然而，研究顯示，從四個生成式搜索引擎生成的內容中，只有51.5%完全得到了引用文獻的支持（Liu等人，2023）。這種歸因方式在高風險專業領域，如醫學和法律中尤其缺乏，研究發現有大量不完整的歸因（分別為35%和31%）；而且，許多歸因來自不可靠的來源，51%的歸因被專家評估為不可靠（Malaviya等人，2023）。

超越對文本幻覺的一般討論（Zhang等人，2023b；葉等人，2023；Rawte等人，2023），我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外，我們也涉及了諸如偏見和過度引用的挑戰。我們相信，通過關注這些歸因問題，我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題，鼓勵對這一主題進行更深入的思考。

歸因是指一個實體（如文本模型）生成并提供證據的能力，這些證據通常以引用或參考文獻的形式出現，用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭，確保這些聲明可以從一個基礎語料庫中邏輯推斷出來，使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關（Brin 和 Page, 1998；Page 等人, 1999；Tay 等人, 2022），在這種任務中只有幾個網頁會被返回。然而，歸因的主要目的包括使用戶能夠驗證模型所做的聲明，促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺，以及建立一個結構化的框架來評估支持證據的完整性和相關性，與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人（2021）還提出了歸因于已識別來源（AIS）的評估框架，以評估特定陳述是否由所提供的證據支持。Bohnet 等人（2022）提出了歸因問答，模型在這里接受一個問題，并產生一對配對的回答，即答案字符串及其從特定語料庫，如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因，一些研究發現生成的文本更加基于事實，并且在下游任務中的表現也有所提升。最近，研究人員發現，大型語言模型在回答特定領域的知識性問題時，不能清楚地提供知識來源或證據（Peskoff 和 Stewart, 2023; Zuccon 等人, 2023）。在大多數情況下，模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題，它提供的證據仍然可能存在錯誤。Weller 等人（2023）嘗試通過提出根據提示方法，將模型生成的文本基于其預訓練數據，發現這種方法可以影響模型的根據性，從而影響信息尋求任務的表現。Anonymous（2023）引入了一個中間規劃模塊，要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖，然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因，可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法（Chen 等人，2017年；Lee 等人，2019年；Khattab 和 Zaharia，2020年）。SmartBook 框架（Reddy 等人，2023年）提出了一種方法，該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題，并從新聞文章中檢索相關信息。報告按時間線組織，每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題，MixAlign（張等人，2023a）提出了一個框架，該框架結合了自動問題知識對齊和用戶澄清，增強了檢索增強生成模型的性能，并減輕了語言模型的幻覺。此外，SearChain（徐等人，2023年）引入了一個新穎的框架，它將大型語言模型（LLMs）與信息檢索（IR）結合起來，提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法，通過生成全球推理鏈（CoQ）并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因，一些研究致力于生成后的歸因，這些研究使用搜索引擎或文檔檢索系統，基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性，而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR（高等，2023a）自主識別任何文本生成模型輸出的歸因，并執行后期編輯以糾正不支持的內容，同時努力在最大程度上保留原始輸出。在霍等人（2023）的工作中，材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM，以驗證生成的回應與檢索到的材料之間的一致性，并進行必要的編輯以減少幻覺。陳等人（2023b）介紹了一個全自動化的管道，旨在驗證復雜的政治聲明，這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

大模型 · 可解釋性 · 大型語言模型 ·

2023 年 9 月 11 日

[付費5元查看完整內容]大模型如何可解釋？新澤西理工學院等最新《大型語言模型可解釋性》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理方面展示了令人印象深刻的能力。然而，它們的內部機制仍然不清楚，這種不透明性對下游應用帶來了不希望的風險。因此，理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中，我們引入了可解釋性技術的分類體系，并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類：傳統的微調范式和基于提示的范式。對于每個范式，我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準，并討論了如何利用解釋來調試模型和提高性能。最后，我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型（LLMs），如BERT（Devlin等，2019a）、GPT-3（Brown等，2020）、GPT-4（Bubeck等，2023）、LLaMA-2（Touvron等，2023b）和Claude（AnthropicAI，2023），在各種自然語言處理（NLP）任務中展示出了令人印象深刻的性能。主要科技公司，如微軟、谷歌和百度，已在其商業產品和服務中部署了LLMs以增強功能。例如，微軟利用GPT-3.5來改善新Bing的搜索相關性排名（Mehdi，2023）。由于LLMs通常是復雜的“黑盒子”系統，其內部工作機制是不透明的，高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生（Weidinger等，2021）。因此，開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力（Doshi-Velez和Kim，2017；Du等，2019a）。提高LLMs的可解釋性至關重要，有兩個關鍵原因。首先，對于一般終端用戶，可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任，無需技術專業知識。通過這種方式，終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次，對于研究人員和開發人員，解釋模型行為提供了洞察力，以識別意外偏見、風險和性能改進的領域。換句話說，可解釋性充當了一個調試輔助工具，可以快速提高下游任務上的模型性能（Strobelt等，2018；Bastings等，2022；Yuksekgonul等，2023）。它有助于追蹤模型能力隨時間的變化，進行不同模型之間的比較，并開發可靠、道德和安全的模型，以供實際部署使用。 由于LLMs的獨特屬性，其可解釋性技術與傳統機器學習（ML）模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看，ML模型以監督方式依賴人工構建的特征，而LLMs旨在自動從原始輸入數據中學習特征（Chai和Li，2019）。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看，傳統ML模型通常是針對具體任務設計的，具有不同的模型架構（Liu和Sun，2023）。相比之下，經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務（Yang等，2023）。此外，LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性（Hu，2020）。由于注意力權重中編碼的知識和模式可能提示了模型的理解，注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外，由于LLMs的性能更好，還應進一步研究transformer的組件，包括神經元、層和模塊，學到了什么以及它們是否有不同的功能。從應用的角度來看，傳統ML模型專注于低級模式識別任務，如解析和形態分析，而LLMs可以處理高級推理任務，如回答問題和常識推理（Lauriola等，2022）。特別是，理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs，有必要回顧和總結專為LLMs定制的解釋技術。 在本文中，我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中，我們介紹了應用LLMs的兩個主要范式：1）傳統的下游微調范式和2）提示范式。基于這一分類，我們在第3節中回顧了適用于微調LLMs的解釋方法，并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中，我們討論了解釋方法的評估。最后，在第6節中，我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰，并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式，傳統微調和提示，根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別，因此分別提出了各種類型的解釋（如圖1所示）。 傳統微調范式

在這個范式中，首先對語言模型進行了大規模無標簽文本數據的預訓練，然后在特定下游領域的一組標記數據上進行微調，例如GLUE基準測試中的SST-2、MNLI和QQP（Wang等人，2019）。在微調過程中，很容易在語言模型的最終編碼器層上方添加完全連接的層，使其適應各種下游任務（Rogers等人，2021）。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如，包括BERT（Devlin等人，2019a）、RoBERTa（Liu等人，2019）、ELECTRA（Clark等人，2020）、DeBERTa（He等人，2021）等。對于這個范式的解釋重點在于兩個關鍵領域：1）理解自監督預訓練如何使模型獲得語言的基礎理解（例如句法、語義和上下文關系）；以及2）分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示，例如自然語言句子中的空白，以便模型填充，實現零樣本學習或少樣本學習，而無需額外的訓練數據。根據其開發階段，這個范式下的模型可以分為兩種類型：基礎模型：隨著LLMs的規模和訓練數據的增加，它們展示了令人印象深刻的新能力，無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型（擁有數十億參數）（例如GPT-3（Brown等人，2020）、OPT（Zhang等人，2022b）、LLaMA-1（Touvron等人，2023a）、LLaMA-2（Touvron等人，2023b）、Falcon（Almazrouei等人，2023））。這些模型被稱為基礎模型或基礎模型，它們可以與用戶進行對話，無需進一步與人類喜好對齊。大規模模型通常適用于這種范式，規模超過10億。例如，LLaMA-2（Touvron等人，2023b）擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型：基礎模型存在兩個主要限制：1）它們不能按照用戶的指令進行操作，因為預訓練數據包含少量指令-響應示例，2）它們傾向于生成有偏見和有毒的內容（Carlini等人，2023）。為了解決這些限制，基礎模型通過監督微調進一步進行微調（見圖2），以實現人類級別的能力，例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過（提示，響應）演示對和來自人類反饋的強化學習（RLHF）進行指導調整。模型通過自然語言反饋進行訓練，以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4（Bubeck等人，2023）、Anthropic的Claude（AnthropicAI，2023）以及一些開源模型，如Meta的LLaMA-2-Chat（Touvron等人，2023b）、Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中，我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先，我們介紹了提供局部解釋（第3.1節）和全局解釋（第3.2節）的方法。在這里，局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解，而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來，我們討論了如何利用解釋來調試和改進模型（第3.3節）。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景，我們有一個語言模型，并將特定文本輸入模型。模型隨后產生分類輸出，例如情感分類或下一個標記的預測。在這種情景下，解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測，我們將其稱為局部解釋。這個類別包括四個主要方法流，包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋，全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件（神經元、隱藏層和較大模塊）編碼了什么，以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法：探測方法，用于分析模型表示和參數；神經元激活分析，用于確定模型對輸入的響應性；以及基于概念的方法。

**提示范式的解釋 **

在本節中，我們介紹了解釋屬于提示范式的模型的技術，包括1）解釋基礎模型，如LLaMA-2（第4.1節），2）解釋助手模型，如LLaMA-2-Chat（第4.2節），以及3）如何利用LLMs的推理和解釋能力生成用戶友好的解釋（第4.3節）。

基礎模型解釋

隨著語言模型的規模增大，它們展示出了新的能力，如少樣本學習，即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈（CoT）提示能力。鑒于這些新興屬性，解釋性研究有三個主要目標：1）研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務，2）理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務，從而幫助終端用戶解釋模型的推理，以及3）解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調，屬于這一范式的LLMs具有強大的推理能力。然而，它們的巨大規模也使它們容易生成問題輸出，如幻覺。解釋性研究旨在：1）闡明對齊微調的作用，2）分析幻覺產生的原因。

結論

在本文中，我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性，以及提高人類可解釋性。隨著LLMs的不斷進步，可解釋性將變得極其重要，以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織，同時突顯了未來工作的開放性問題。

付費5元查看完整內容

大模型 · 公平性 ·

2023 年 8 月 31 日

[付費5元查看完整內容]大型語言模型公平性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型(LLM)顯示出強大的性能和發展前景，并在現實世界中得到廣泛部署。然而，LLM可以從未經處理的訓練數據中捕獲社會偏見，并將偏見傳播到下游任務。不公平的LLM系統具有不良的社會影響和潛在的危害。本文對LLM中公平性的相關研究進行了全面的綜述。首先，對于中型LLM，分別從內在偏差和外在偏差的角度介紹了評價指標和去偏差方法。然后，對于大型LLM，介紹了最近的公平性研究，包括公平性評估、偏見原因和去偏差方法。最后，討論并提出了LLM中公平性發展的挑戰和未來方向。

大型語言模型（LLMs），如BERT（Devlin等，2019年），GPT-3（Brown等，2020年）和LLaMA（Touvron等，2023a年），在自然語言處理（NLP）的各種任務中展現出強大的性能和發展前景，并在現實世界中產生越來越廣泛的影響。它們的預訓練依賴于來自各種來源的大型語料庫。許多研究已經驗證，LLMs捕捉了未經加工的訓練數據中的人類社會偏見，并且這些偏見體現在編碼嵌入中，這些嵌入會傳遞到下游任務中（Garg等，2018年；Sun等，2019年）。不公平的LLM系統會對弱勢或邊緣化人群做出歧視性、刻板和有偏見的決策，從而引發不良的社會影響和潛在的危害（Blodgett等，2020年；Kumar等，2023年）。語言模型中的社會偏見主要源自于從人類社會收集的訓練數據。一方面，這些未經審查的語料庫包含大量反映偏見的有害信息，導致語言模型學習到刻板化的行為（Mehrabi等，2022年）。另一方面，訓練數據中不同人口群體的標簽存在不平衡，分布差異可能導致在假設同質性的模型應用于異質真實數據時產生不公平的預測（Shah、Schwartz和Hovy，2020年）。此外，語言模型學習過程中的人為因素或嵌入中的意外偏見可能引發甚至放大下游偏見（Bansal，2022年）。

根據訓練范式，LLMs可以分為預訓練和微調范式，以及提示范式。在預訓練和微調范式中，LLMs的參數少于十億個，并且易于調整，例如BERT和RoBERTA（Liu等，2019年），我們稱之為中等規模的LLMs。中等規模LLMs中的偏見可以大致分為兩種類型：內在偏見和外在偏見（Goldfarb-Tarrant等，2021年），如圖1所示。內在偏見對應于LLM編碼的嵌入中的偏見，并反映了模型輸出表示的公平性。外在偏見對應于下游任務的決策偏見，并反映了模型預測的公平性。在提示范式中，LLMs的參數超過十億個，并且基于提示進行調整或不調整，例如GPT-4（OpenAI，2023年）和LLaMA-2（Touvron等，2023b年），我們稱之為大規模的LLMs。大規模LLMs中的偏見通常在給定特定提示時體現在模型輸出中。在本文中，我們對LLMs中的公平性相關研究進行了全面的回顧，總體架構如圖2所示。重點關注預訓練和微調范式下的中等規模LLMs，我們在第2節介紹了評估指標，在第3節和第4節分別介紹了內在去偏見方法和外在去偏見方法。在第5節中，提供了提示范式下大規模LLMs的公平性，包括公平性評估、偏見原因和去偏見方法。我們還在第6節中討論了當前面臨的挑戰和未來發展方向。

付費5元查看完整內容

基于模型的強化學習 · 綜述論文 ·

2023 年 1 月 9 日

[付費5元查看完整內容]基于模型的強化學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

序列決策，通常形式化為馬爾可夫決策過程(MDP)優化，是人工智能的一個重要挑戰。解決這個問題的兩種關鍵方法是強化學習(RL)和規劃。這項綜述是這兩個領域的集成，更廣為人知的是基于模型的強化學習。基于模型的RL有兩個主要步驟。首先，我們系統地介紹了動力學模型學習的方法，包括處理隨機性、不確定性、部分可觀察性和時間抽象等挑戰。其次，我們提出了規劃-學習集成的系統分類，包括:從哪里開始規劃，為規劃和實際數據收集分配哪些預算，如何規劃，以及如何在學習和行動循環中集成規劃。在這兩個部分之后，我們還討論了隱式基于模型的RL作為模型學習和規劃的端到端替代方案，并討論了基于模型的RL的潛在好處。在此過程中，調研還與幾個相關的RL領域建立了聯系，如分層RL和傳輸。

付費5元查看完整內容

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言生成（NLG）技術利用人工智能和語言學的方法來自動地生成可理解的自然語言文本。NLG降低了人類和計算機之間溝通的難度，被廣泛應用于機器新聞寫作、聊天機器人等領域，已經成為人工智能的研究熱點之一。首先，列舉了當前主流的NLG的方法和模型，并詳細對比了這些方法和模型的優缺點；然后，分別針對文本到文本、數據到文本和圖像到文本等三種NLG技術，總結并分析了應用領域、存在的問題和當前的研究進展；進而，闡述了上述生成技術的常用評價方法及其適用范圍；最后，給出了當前NLG技術的發展趨勢和研究難點。

//www.joca.cn/CN/abstract/abstract24496.shtml

付費5元查看完整內容

自然語言處理 · 預訓練語言模型 · 深度學習 · 無監督學習 · 神經網絡 ·

2021 年 5 月 28 日

[付費5元查看完整內容]面向自然語言處理任務的預訓練模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習技術得到了快速發展。在自然語言處理（NLP）任務中，隨著文本表征技術從詞級上升到了文檔級，利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先，根據文本特征提取技術的發展，從詞級和文檔級對典型的模型進行了分析；其次，從預訓練目標任務和下游應用兩個階段，分析了當前預訓練模型的研究現狀，并對代表性的模型特點進行了梳理和歸納；最后，總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。

//www.joca.cn/CN/abstract/abstract24426.shtml

付費5元查看完整內容