顾美玲国产一区二区三区,国产亚洲一区二区三区在线,亚洲精品国产字幕久久AV

如何讓模型適配專業領域？這篇文章夠了

大型語言模型（LLMs）顯著推進了自然語言處理（NLP）領域的發展，為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展，遠超“聊天機器人”，并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而，直接應用LLMs解決特定領域的復雜問題會遇到許多難題，這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性，以及領域應用中的各種限制（例如，各種社會規范、文化一致性、宗教信仰和道德標準）所引起。為了填補這種空白，在最近幾年中，對LLMs領域專化的研究和實踐已經爆炸式增長，然而，這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中，首先，我們提出了一個系統的分類法，該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類，并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法，這些領域可以從專業化的LLMs中受益，討論了它們的實際意義和開放的挑戰。此外，我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理（NLP）和人工智能（AI）模型的演變經歷了顯著的軌跡，始于1950年和1960年的基于規則的系統，轉變為1990年的統計模型，然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功，預訓練語言模型（PLMs）在2010年后期出現并迅速流行，這得益于它們能以無監督的方式從大規模數據中學習通用語言表示，這對許多下游NLP任務如常識推理[270]，多選題回答[206]和故事生成[30]都有益處，同時避免了從頭開始訓練新模型。在過去的幾年中，隨著大規模語料庫和硬件容量的快速增長，研究人員發現，通過擴大模型和訓練數據可以持續提高模型的容量，遵循擴展規則[99]，最終導致了大型語言模型（LLMs）[259]的出現，如GPT-3[28]（175B參數），PaLM[39]（540B參數），和LLaMA[235]（65B參數）。LLMs在理解和生成類人文本方面明顯優于較小的模型，已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋，對改變自然和社會科學的潛力，可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型（LLMs）作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展，遠超過僅作為“聊天機器人”[173]，而是將其用作特定領域如健康保健、金融和教育的助手，甚至替代人工或現有的事實上的工具。然而，直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先，不同領域、角色和任務的對話和語言風格存在顯著差異，范圍從醫療處方，到法律句子，到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練，其中很多都是實踐性的和專有的。此外，不同的領域、機構和團隊有自己的“商業模式”，關于哪種回應將最大化他們自己的效用函數以完成他們的任務，這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是，專業級使用的領域知識要求也需要非常深入，實時且準確，這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力，絕不能泄露給通用的LLMs。最后但并非最不重要的一點，語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束，所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數，這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性，即將通用的LLMs定制到領域的上下文數據，增強領域知識，優化領域目標，并受到領域限制的調控。為了實現這個目標，這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題，需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰，包括：1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而，這也意味著LLMs往往有一個知識斷層（即，LLMs無法獲取最新的信息、事件或發現）。在許多專業領域，新的發現、規定和最佳實踐不斷出現，這使得LLMs難以保持最新。例如，每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查，LLMs可能無法處理它們，因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而，確保模型的新鮮度可能需要大量的資源，因為它需要連續的高質量和最新的數據收集、處理，以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下，LLMs具有廣泛主題的通用知識，并可能已經看到并獲得了大部分領域的特定知識。然而，更受歡迎或廣泛討論的話題可能被過度代表，而一些領域特定的話題可能被低估，這使得它們難以被有效地提取用于領域特定的任務。此外，領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導，LLMs可能會生成聽起來合理但對類似查詢（即，LLM的幻覺）或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列，而不是基于結構化知識庫提供確定的答案。研究人員發現，通過為LLMs提供一些任務特定的演示，用戶可以指導模型生成更相關、準確和任務特定的回應，從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口，通常由它們可以處理的最大令牌長度決定（例如，ChatGPT只能處理4097個令牌）。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用，微調歷史上是專門化語言模型的常用做法。然而，與傳統的語言模型不同，微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外，LLM的復雜性使得確定最適當的微調策略變得具有挑戰性，因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘，因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識，并過度適應目標領域。除了數據需求和復雜模型架構之外，LLM通常由數十億的參數組成，例如，生成預訓練Transformer 3（GPT-3）[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數，這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件，如TPU，這可能會很昂貴，尤其是對于個人研究者或小型組織來說，獲取這些資源可能會非常困難。

在過去的幾年中，對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻，只需進行少量修改并獲取領域特定信息，就可以適應特定領域。然而，將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰，同樣的，缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙，并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙，更有效地利用人工智能完成各種領域的任務，這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括：

? 對LLMs領域專業化技術的系統分類和分類法：我們基于對LLM的不同級別（即，黑箱、灰箱和白箱）的可訪問性，全面地分類了現有的方法，并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結：我們首次提出了代表性應用領域的分類法，LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明，便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域，以評估他們新提出的方法，同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解，以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明，擴展預訓練語言模型，如增加模型大小或數據大小，常常能提升模型在下游任務中的處理能力。在本節中，我們首先回顧了PLMs的基本概念，然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型（LLMs）的可訪問性級別，將專門化LLMs進入領域的方法分為三類，即無訪問權限（黑箱），部分訪問權限（灰箱）和全訪問權限（白箱）。黑箱通常表示我們只能訪問模型API（例如，ChatGPT和GPT4），而不知道除生成的輸出外的任何信息；灰箱表示我們有限的信息（例如，GPT-3 API中生成的令牌的概率），這樣的信息可以指導我們設計并微調適當的提示，以更好地引出領域知識；白箱則表示我們可以全面訪問LLM（例如，LLaMA及其變種），包括參數設置，訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說，

1）外部增強（黑箱）并不需要訪問LLM的內部參數空間，使其對資源有限的用戶（例如，計算資源，特定領域的數據）最為可接觸。如圖2（b）所示，通過使用外部資源或工具，將領域特定知識融入輸入提示，生成的輸出，或兩者，有效地改進了LLM的性能，而無需修改其內部結構。

2）提示制作（灰箱）涉及訪問LLM的梯度或損失值來設計各種類型的提示，允許更精細地控制模型的行為。

3）模型微調（白箱）需要最多的訪問權限和資源，因為它涉及更新LLM的參數，將領域特定知識直接融入模型。（圖2（d））。

3 LLM領域專業化的應用

在這篇綜述性的論文中，我們探索了LLMs在一系列特定領域任務中的應用，這些領域包括社會科學（如教育，金融，法律），自然科學（如生物醫學，地球科學），以及應用科學（如人機交互，軟件工程和網絡安全）。為了在這些多元化領域實現LLMs的領域專業化，讀者可以采用各種技術，如外部增強，指示制作，和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰，從而使得應用更準確，相關和有效。雖然每個領域都有其獨特的挑戰和需求，但在這些領域中，專門化的LLMs有幾個共同的應用：

? 高級信息提取：它們可以從特定領域的文本中識別實體，關系和事件，如從生物醫學文獻中識別基因，或在合同中檢測法律條款。 ? 文本生成和摘要：它們可以生成高質量的，特定領域的內容，并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦：它們可以分析特定領域的數據進行預測和提供推薦，如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統：它們可以被融入到對話代理或專家系統中，提供特定領域的指導，如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析：在軟件工程中，它們可以基于自然語言描述生成或分析代碼，識別錯誤，或提出改進建議。

4. 結論

總的來說，大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然，社會和應用科學領域中的特定領域任務的極大興趣。然而，若干挑戰，如特定領域的專業知識有限，知識誘導和模型復雜性，阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結，并提供了一個全面的應用領域分類，這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點，缺點和關系的詳細分析，這份調查旨在幫助領域專家確定適合他們目標問題設置的技術，同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外，該文還強調了這一領域研究的當前狀態，揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展，這份調查為研究人員和從業人員提供了寶貴的資源，進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

大型語言模型 · 自回歸模型 ·

2023 年 7 月 14 日

[付費5元查看完整內容]《大型語言模型》最新全面概述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）展示了出色的泛化能力，這促進了眾多模型的發展。這些模型提出了各種新的架構，微調了現有架構的訓練策略，增加了上下文長度，使用了高質量的訓練數據，并增加了訓練時間，以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類，訓練策略，訓練數據集，性能評估，并討論了未來的研究方向。此外，這篇論文還討論了LLMs背后的基本構建模塊和概念，然后對LLMs的重要特性和功能進行了全面概述。最后，這篇論文總結了LLMs研究的重要發現，并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展，我們打算定期更新這篇論文，通過添加新的部分并展示最新的LLMs模型。

//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652

1. 引言

語言在人類的交流和自我表達中起著基礎性的作用，同樣，通信對于機器與人類和其他系統的互動也極為重要。大型語言模型（LLMs）已經成為處理和生成文本的尖端人工智能系統，旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求，包括翻譯，摘要，信息檢索和對話交互。最近，語言模型方面取得了顯著的突破，主要歸功于深度學習技術，像transformers這樣的神經結構的進步，增加的計算能力，以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變，使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型（LLMs）成為可能[3]，[4]。尤其是預訓練語言模型（PLM），在大規模文本語料庫的自監督設置下訓練，展示了對于文本理解和生成任務的巨大泛化能力[5]，[6]，[7]。當預訓練語言模型（PLMs）微調用于下游任務時，其性能顯著提升，超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs，他們發現，進一步擴大模型和數據集的規模可以提高泛化能力。

如今，現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務，在零樣本和少樣本的情況下，甚至不需要在下游任務上進行任何微調就能做到這一點[8]，[9]，[10]。以前，較小的模型無法達到這樣的泛化，這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮，導致了眾多LLMs的開發[11]，[12]，[13]，[8]，[9]，[10]，[14]。圖1展示的圖表顯示了隨著時間的推移，發布的LLMs數量（包括開源和閉源模型）的增加趨勢。此外，圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型（LLMs）的早期階段，許多研究工作都集中在為下游任務開發轉移學習的模型[11]，[12]，[15]，直到像GPT-3這樣的模型的出現[8]，即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質，人們對開源替代品有需求，這導致了各種模型的開發[9]，[10]，這些模型與GPT-3的規模相當，并在廣泛的基于網絡的數據集上進行訓練[16]，[17]，[18]，[19]。隨后，研究人員提出了幾種架構設計和訓練策略，這些設計和策略在各種任務上顯示出優于GPT-3的性能[15]，[14]，[20]，[21]。

LLMs的性能可以通過指令微調進一步提高，超越了在各種基準測試中預訓練的LLMs的表現[22]，[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法，以指導輸出，從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令，也可以是根據任務需求的示例演示。在文獻中，已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務，進一步提高了對基線的性能[24]，[23]，[25]，[26]。進行指令微調時，需要更新所有的模型參數。然而，參數效率微調采取了不同的方法，只更新少數參數，同時仍然保持良好的性能。這種方法保持原模型不變，而在模型的不同位置添加少量額外的參數[27]，[28]，[29]，[30]，[31]。這種方法有助于實現高效的微調，同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外，還有一篇全面的評論可供參考，涵蓋了架構，微調，新能力，以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而，這些評論論文并未深入探討個別模型的具體細節，只提供了對架構和訓練方法的表面理解。相反，我們的論文旨在通過討論細節，提供更深入的分析單個LLMs。

大型語言模型（LLMs）的架構、訓練數據集以及其他顆粒度方面的細節，特別是從歷史的角度來看，缺乏全面和詳細的討論，這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析，深入探討其開發、架構、訓練數據集和相關組件的細節。

據我們所知，這是第一篇討論LLMs細節的全面調查論文。我們對各種LLMs架構及其分類進行了深入分析。此外，我們還討論了LLMs的基礎知識，以使對LLMs不熟悉的讀者能夠自給自足，從而使論文更具生產力。我們的論文側重于為每一個LLM模型提供全面的細節，并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。我們的目標是在我們的論文中總結這些關鍵細節，以幫助研究人員在他們的工作中確定更好的架構和訓練方法。

我們的論文補充了一篇關于LLMs的最新綜述論文[33]，其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息，但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個，或者更多，類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35]，[36]，[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景，簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準，然后在結論部分給出了總結和未來方向。

付費5元查看完整內容

大模型 · 大型語言模型 · 大模型評估 · 模型評估 ·

2023 年 7 月 13 日

[付費5元查看完整內容]如何評估大模型？吉大微軟亞研等最新《大型語言模型評估》綜述，全面闡述大模型評估方法體系

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

首篇大模型語言評估論文

大型語言模型（LLM）在學術界和工業界的熱度日益升高，這要歸功于它們在各種應用中的無與倫比的表現。隨著LLM在研究和日常使用中繼續發揮重要作用，對它們的評估變得越來越重要，不僅在任務級別，而且在社會級別以更好地理解它們的潛在風險。過去的幾年里，人們從各個角度對LLM進行了大量的研究。本文對這些LLM的評估方法進行了全面的回顧，重點關注三個主要維度：評估什么，在哪里評估，以及如何評估。首先，我們從評估任務的角度提供一個概覽，包括一般的自然語言處理任務，推理，醫療應用，倫理，教育，自然和社會科學，代理應用，以及其他領域。其次，我們通過深入研究評估方法和基準來回答“在哪里”和“如何”評估的問題，這些都是評估LLM性能的關鍵組成部分。然后，我們總結了LLM在不同任務中的成功和失敗案例。最后，我們討論了LLM評估面臨的一些未來挑戰。我們的目標是為LLM評估領域的研究人員提供有價值的見解，從而幫助開發出更高效的LLM。我們的主要觀點是，應將評估視為一個重要的學科，以更好地助力LLM的發展。我們會持續更新相關的開源資料，地址為：//github.com/MLGroupJLU/LLM-eval-survey。

理解智能的本質并確定機器是否體現了這種智能，對科學家們來說是一個引人入勝的問題。人們普遍認為，真正的智能賦予我們推理能力，使我們能夠測試假設，并為未來的可能性做準備（Khalfa，1994）。特別是，人工智能（AI）研究人員關注的是機器智能的開發，而非生物性智力（McCarthy，2007）。適當的測量有助于理解智能。例如，衡量人類個體普通智能的方式通常包括智商測試（Brody，1999）。在AI的范圍內，圖靈測試（Turing，2009）作為一個廣為認可的通過辨別響應是否源自人類或機器來評估智能的測試，一直是AI發展中的一個長期目標。研究人員普遍認為，一個成功通過圖靈測試的計算機可以被視為具有智能。因此，從更廣泛的角度看，AI的歷史可以被描繪為創造和評估智能模型和算法的時間線。每當出現一個新的AI模型或算法，研究人員都會通過使用特定且具有挑戰性的任務在現實世界場景中評估其能力。例如，被譽為1950年代人工通用智能（AGI）方法的感知器算法（Gallant等人，1990），后來由于無法解決XOR問題而被揭示為不足。支持向量機（SVM）（Cortes和Vapnik，1995）和深度學習（LeCun等人，2015）的隨后崛起和應用，標志著AI領域的進步和挫折。以前嘗試的一個重要啟示是AI評估的至關重要性，它作為一個關鍵工具，用來識別當前系統的限制并指導更強大模型的設計。

由于若干原因，評估對于LLM的成功至關重要。首先，評估LLM可以幫助我們更好地理解LLM的優點和缺點。例如，PromptBench（Zhu等人，2023）基準測試表明，當前的LLM對對抗性提示敏感，因此需要仔細的提示工程設計以獲得更好的性能。其次，更好的評估可以為人與LLM的交互提供更好的指導，這可能激發未來的交互設計和實現。第三，LLM的廣泛適用性強調了確保其安全性和可靠性的至關重要性，特別是在如金融機構和醫療設施等對安全敏感的領域。最后，隨著LLM變得越來越大，具有更多的新出現的能力，現有的評估協議可能無法足夠評估它們的能力和潛在風險。因此，我們的目標是通過回顧當前的評估協議，尤其是對設計新的LLM評估協議的未來研究進行深入研究，以提醒社區注意到LLM評估的重要性。隨著ChatGPT（OpenAI，2023a）和GPT-4（OpenAI，2023b）的推出，有許多研究工作試圖從不同的角度評估ChatGPT和其他LLM（圖2），包括自然語言任務、推理、魯棒性、可信度、醫療應用和倫理考慮等一系列因素。盡管做出了這些努力，但仍然缺乏對整個評估范圍的全面概述。此外，LLM的持續演化也為評估提出了新的方面，從而挑戰了現有的評估協議，并強化了需要徹底的、多方面的評估技術的需求。盡管像（Bubeck等人，2023）這樣的現有研究聲稱GPT-4可以被視為AGI的火花，但由于其評估方法的人造性質，其他人對此進行了質疑。

本文是關于大型語言模型評估的首份全面調研。如圖1所示，我們從三個維度探討了現有的工作：1）評估什么，2）在哪里評估，3）如何評估。具體來說，“評估什么”涵蓋了LLM的現有評估任務，“在哪里評估”涉及到為評估選擇適當的數據集和基準，而“如何評估”則關注在給定適當的任務和數據集的情況下的評估過程。這三個維度對于LLM的評估是不可或缺的。我們隨后討論了LLM評估領域的潛在未來挑戰。本文的貢獻如下：1）我們從三個方面對LLM評估進行了全面的概述：評估什么，在哪里評估，如何評估。我們的分類是通用的，涵蓋了LLM評估的整個生命周期。2）對于評估什么，我們總結了各個領域的現有任務，并得出了關于LLM成功和失敗案例的深刻結論（第6節），為未來的研究提供了經驗。3）對于在哪里評估，我們總結了評估指標、數據集和基準，以深入理解當前的LLM評估。關于如何評估，我們探討了當前的協議，并總結了新的評估方法。4）我們進一步討論了評估LLM的未來挑戰。我們在 MLGroupJLU/LLM-eval-survey開源并維護了LLM評估的相關材料，以促進更好評估的協作社區。

2. 大型語言模型

語言模型（LMs）（Devlin等人，2018；Gao和Lin，2004；Kombrink等人，2011）是一種具有理解和生成人類語言能力的計算模型。LMs具有預測詞序列的可能性或者根據給定輸入生成新文本的變革性能力。N-gram模型（Brown等人，1992）是最常見的LM類型，它根據前文的上下文估計詞概率。然而，LMs也面臨挑戰，比如稀有或未見過的詞的問題、過擬合的問題，以及捕獲復雜語言現象的困難。研究人員正在不斷地改進LM的架構和訓練方法，以解決這些挑戰。大型語言模型（LLMs）（Chen等人，2021；Kasneci等人，2023；Zhao等人，2023a）是具有大量參數和出色學習能力的先進語言模型。許多LLMs，如GPT-3（Floridi和Chiriatti，2020），InstructGPT（Ouyang等人，2022）和GPT-4（OpenAI，2023b）的核心模塊是Transformer（Vaswani等人，2017）中的自注意力模塊，這是進行語言建模任務的基本構建塊。Transformers革新了NLP領域，它們能有效地處理順序數據，實現并行化，并捕獲文本中的長距離依賴關系。LLMs的一個關鍵特性是基于上下文的學習（Brown等人，2020），在這里，模型被訓練基于給定的上下文或提示生成文本。這使得LLMs能生成更連貫和與上下文相關的回應，使得它們適合于交互和對話應用。來自人類反饋的強化學習（RLHF）（Christiano等人，2017；Ziegler等人，2019）是LLMs的另一個關鍵方面。這種技術涉及使用人類生成的反饋作為獎勵進行模型的微調，從而使模型能夠從其錯誤中學習并隨著時間的推移提高其性能。

在自回歸語言模型中，如GPT-3（Floridi和Chiriatti，2020）和PaLM（Chowdhery等人，2022），給定上下文序列X，LM任務旨在預測下一個標記y。模型通過最大化在給定上下文的條件下的標記序列的概率進行訓練，即，P(y|X) = P(y|x1, x2, ..., xt?1)，其中x1, x2, ..., xt?1是上下文序列中的標記，t是當前位置。通過使用鏈式規則，條件概率可以分解為給定其前序上下文的每個標記的條件概率的乘積，即，

其中T是序列長度。這樣，模型以自回歸的方式預測每個位置的每個標記，生成一個完整的文本序列。與LLMs交互的一種常見方法是提示工程（Clavie等人，2023；White等人，2023；周等人，2022），用戶設計并提供特定的提示文本以指導LLMs生成期望的響應或完成特定任務。這在現有的評估工作中被廣泛采用。人們也可以進行問答交互（Jansson等人，2021），向模型提問并得到回答，或參與對話交互，與LLMs進行自然語言對話。總的來說，LLMs憑借其Transformer架構、基于上下文的學習和RLHF能力，已經革新了NLP，并在各種應用中充滿了希望。表1提供了傳統機器學習、深度學習和LLMs的簡要比較。

3 評估什么

**我們應該評估LLMs在哪些任務上的表現？在哪些任務上，我們可以說明LLMs的優點和缺點？**在本節中，我們將現有的任務劃分為以下幾類：自然語言處理任務、倫理和偏見、醫療應用、社會科學、自然科學和工程任務、代理應用（使用LLMs作為代理）以及其他任務。

**3.1 自然語言處理任務 **

開發語言模型，特別是大型語言模型的最初目標是提高自然語言處理任務的性能，包括理解和生成。因此，大多數評估研究主要集中在自然語言任務上。表2總結了現有研究的評估方面，我們主要在以下內容中強調他們的結論。

3.2 魯棒性、倫理、偏見和可信度

評估LLMs包括魯棒性、倫理、偏見和可信度等關鍵方面。這些因素在全面評估LLMs的性能方面越來越重要。

3.3 社會科學

社會科學涉及對人類社會和個體行為的研究，包括經濟學、社會學、政治學、法學等學科。評估LLMs在社會科學中的表現對于學術研究、政策制定和社會問題解決非常重要。這樣的評估可以幫助提高模型在社會科學中的適用性和質量，增加對人類社會的理解，并促進社會進步。

**3.4 自然科學和工程 **

在自然科學和工程領域評估LLMs的表現可以幫助指導科學研究、技術開發和工程研究的應用和發展。

3.5 醫療應用

最近，LLMs在醫療領域的應用引起了重要的關注。在這一部分，我們回顧了將LLMs應用于醫療應用的現有工作。具體來說，我們將它們分為表5所示的四個方面：醫療問答、醫學檢查、醫療評估和醫療教育。

3.6 代理應用

LLMs并非只專注于通用語言任務，它們可以在各種領域中被利用作為強大的工具。為LLMs配備外部工具可以大大擴展模型的能力。黃等人（2023a）介紹了KOSMOS-1，它能夠理解一般模式，按照指示進行學習，并基于上下文進行學習。Karpas等人（2022）強調，知道何時以及如何使用這些外部符號工具至關重要，這種知識是由LLMs的能力決定的，特別是當這些工具可以可靠地運作時。此外，還有兩項其他研究，Toolformer（Schick等人，2023）和TALM（Parisi等人，2022），探索了使用工具來增強語言模型的可能性。Toolformer采用一種訓練方法來確定特定API的最佳使用方式，并將獲得的結果集成到后續的token預測中。另一方面，TALM將無法區分的工具與基于文本的方法相結合，以增強語言模型，并采用一種被稱為"自我游戲"的迭代技術，由最少的工具演示來指導。申等人（2023）提出了HuggingGPT框架，該框架利用LLMs連接機器學習社區內的各種人工智能模型（如Hugging Face），旨在解決人工智能任務

3.7 其他應用除了上述分類，LLMs還在其他各種領域進行了評估，包括教育、搜索和推薦、性格測試和特定應用等。

4 在哪里評估：數據集和基準

測試 LLMs 的評估數據集用于測試和比較不同語言模型在各種任務上的性能，如第 3 節所示。這些數據集，如GLUE（Wang等人，2018年）和SuperGLUE（Wang等人，2019年），旨在模擬現實世界的語言處理場景，并涵蓋多樣化的任務，如文本分類、機器翻譯、閱讀理解和對話生成。本節不會討論針對語言模型的任何單一數據集，而是針對LLMs的基準。由于LLMs的基準正在發展，我們在表7.5中列出了19個流行的基準。每個基準都關注不同的方面和評估標準，為各自的領域提供了寶貴的貢獻。為了更好的總結，我們將這些基準劃分為兩個類別：通用語言任務的基準和特定下游任務的基準。

5 如何評估

在本節中，我們將介紹兩種常見的評估方法：自動評估和人工評估。實際上，“如何評估”的分類也并不確定。我們的分類基于評估標準是否可以自動計算。如果它可以自動計算，我們將其歸類為自動評估；否則，它就屬于人工評估。

**5.1 自動評估 **自動評估大型語言模型是一種常見且可能是最受歡迎的評估方法，通常使用標準度量或指標和評估工具來評估模型的性能，如準確率、BLEU (Papineni等人，2002年)、ROUGE (Lin，2004年)、BERTScore (Zhang等人，2019年)等。例如，我們可以使用BLEU分數來量化模型生成的文本與參考文本在機器翻譯任務中的相似性和質量。實際上，大多數現有的評估努力都采用這種評估協議，因為它的主觀性、自動計算和簡單性。因此，大多數確定性任務，如自然語言理解和數學問題，通常采用這種評估協議。與人工評估相比，自動評估不需要人工參與，這節省了評估成本并且耗時較少。例如，(Qin等人，2023年)和Bang等人（2023年）都使用自動評估方法評估大量任務。最近，隨著LLMs的發展，一些先進的自動評估技術也被設計出來幫助評估。Lin和Chen（2023年）提出了LLM-EVAL，這是一個用于與LLMs進行開放領域對話的統一的多維自動評估方法。PandaLM（Wang等人，2023g）可以通過訓練一個作為“裁判”的LLM來實現可復制的自動語言模型評估，該LLM用于評估不同的模型。由于自動評估論文的大量存在，我們不會詳細介紹它們。自動評估的原理實際上與其他AI模型評估過程相同：我們只是使用一些標準度量來計算這些度量下的某些值，這些值作為模型性能的指標。

5.2 人工評估 LLMs的能力已經超越了在一般自然語言任務上的標準評估度量。因此，在一些非標準情況下，自動評估不適用時，人工評估成為一個自然的選擇。例如，在開放生成任務中，嵌入的相似度度量（如BERTScore）是不夠的，人工評估更可靠（Novikova等人，2017年）。雖然一些生成任務可以采用某些自動評估協議，但在這些任務中，人工評估更受歡迎，因為生成總是可以比標準答案更好。LLMs的人工評估是通過人的參與來評估模型生成結果的質量和準確性的一種方式。與自動評估相比，手動評估更接近實際應用場景，可以提供更全面和準確的反饋。在LLMs的手動評估中，通常邀請評估員（如專家、研究者或普通用戶）來評估模型生成的結果。例如，Ziems等人（2023年）使用了專家的注釋進行生成。通過人工評估，(Liang等人，2022年)對6種模型的總結和虛假信息場景進行了人工評估，Bang等人（2023年）評估了類比推理任務。由Bubeck等人（2023年）完成的開創性的評估工作使用GPT-4進行了一系列的人工測試，他們發現GPT-4在多個任務上的表現接近或甚至超過了人的表現。這項評估要求人類評估員實際測試和比較模型的性能，而不僅僅是通過自動評估度量評估模型。需要注意的是，即使是人工評估也可能有高的方差和不穩定性，這可能是由于文化和個體差異造成的（Peng等人，1997年）。在實際應用中，這兩種評估方法都會根據實際情況進行考慮和權衡。

6 結論

**評估具有深遠的意義，在AI模型，尤其是大型語言模型的進步中變得至關重要。**本文提出了第一份從三個方面對LLMs的評估進行全面概述的調查：評估什么、如何評估和在哪里評估。我們的目標是通過封裝評估任務、協議和基準，增強對LLMs當前狀態的理解，闡明它們的優點和局限性，并為未來LLMs的進步提供洞見。我們的調查顯示，當前的LLMs在許多任務中都存在一定的限制，特別是推理和魯棒性任務。同時，現代評估系統需要適應和發展的需求仍然明顯，以確保準確評估LLMs的固有能力和局限性。我們確定了未來研究應該解決的幾個重大挑戰，希望LLMs可以逐步增強它們對人類的服務。

付費5元查看完整內容

大模型 · 自然語言處理 · 知識圖譜 · 生成式預訓練 · 大模型+知識圖譜 ·

2023 年 6 月 19 日

[付費5元查看完整內容]大模型時代: 知識圖譜過時了嗎？Griffith大學等最新《統一大型語言模型和知識圖譜:路線圖》，29頁pdf詳述最全指南

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

以ChatGPT為代表的大模型，是全新一代知識表示和調用方式，相比以往知識圖譜的方式，更加高效智能可擴展等，開啟通用人工智能之門。但符號化的知識圖譜過時了嗎？并非如此，知識圖譜和大模型可以進行很好的結合，互相促進，提升知識利用的效果。來自澳大利亞格里菲斯大學（Griffith University）等學者《統一大型語言模型和知識圖譜:路線圖》，29頁pdf詳述最全指南，值得關注！

大型語言模型（LLMs），如ChatGPT和GPT4，由于其新興能力和通用性，正在自然語言處理和人工智能領域掀起新浪潮。然而，LLMs是黑箱模型，常常難以捕獲和獲取事實知識。相比之下，知識圖譜（KGs），例如維基百科和華普，是結構化知識模型，明確存儲豐富的事實知識。知識圖譜可以通過提供外部知識以推理和解釋，從而增強LLMs。同時，知識圖譜難以構建并且具有不斷演變的特性，這對知識圖譜中生成新事實和表示未見知識的現有方法提出了挑戰。因此，將LLMs和知識圖譜統一起來并同時利用它們的優勢是互補的。在這篇文章中，我們提出了一個前瞻性的LLMs和知識圖譜統一的路線圖。我們的路線圖包括三個總體框架，即1) 知識圖譜增強的LLMs，它在LLMs的預訓練和推理階段，或為了增強對LLMs所學知識的理解，將知識圖譜納入其中；2) LLM增強的知識圖譜，利用LLMs進行不同的知識圖譜任務，如嵌入，完成，構建，圖到文本生成和問答；以及 3)協同的LLMs + 知識圖譜，在其中LLMs和知識圖譜扮演著平等的角色，并以互利的方式工作，以增強LLMs和知識圖譜對由數據和知識驅動的雙向推理。我們在路線圖中回顧和總結了這三個框架內的現有努力，并指出了它們的未來研究方向。

1. 引言

大型語言模型（LLMs）（例如，BERT [1]，RoBERTA [2]和T5 [3]），在大規模語料庫上預訓練，已經在各種自然語言處理（NLP）任務中展現出了優異的表現，如問題回答[4]，機器翻譯[5]和文本生成[6]。最近，模型規模的急劇增加進一步賦予了LLMs新興的能力[7]，為將LLMs作為人工通用智能（AGI）的應用鋪平了道路。像ChatGPT和PaLM2這樣的高級LLMs，擁有數十億的參數，在許多復雜的實際任務中展現出了巨大的潛力，如教育[8]，代碼生成[9]和推薦[10]。

盡管LLMs在許多應用中取得了成功，但它們因缺乏事實知識而受到批評。具體來說，LLMs記住了訓練語料庫中包含的事實和知識[14]。然而，進一步的研究揭示，LLMs無法回憶起事實，而且經常會產生幻覺，生成事實上不正確的聲明[15]，[28]。例如，當被問到“愛因斯坦在什么時候發現了重力？”時，LLMs可能會說“愛因斯坦在1687年發現了重力”，這與艾薩克·牛頓制定了引力理論的事實相矛盾。這個問題嚴重損害了LLMs的可信度。

作為黑箱模型，LLMs也因其缺乏可解釋性而受到批評。LLMs隱含地在它們的參數中表示知識。解釋或驗證LLMs獲取的知識很困難。此外，LLMs通過概率模型執行推理，這是一個不確定的過程[16]。LLMs用于得出預測或決策的特定模式和功能對人類來說并不直接可訪問或可解釋[17]。盡管一些LLMs通過應用思維鏈[29]來解釋它們的預測，但它們的推理解釋也受到了幻覺問題的影響[30]。這嚴重影響了LLMs在高風險場景中的應用，如醫療診斷和法律判斷。例如，在一個醫療診斷場景中，LLMs可能會錯誤地診斷疾病，并提供與醫學常識相矛盾的解釋。這引發了另一個問題，即在一般語料庫上訓練的LLMs可能無法很好地泛化到特定領域或新知識，因為缺乏領域特定的知識或新的訓練數據[18]。

為解決上述問題，一個可能的解決方案是將知識圖譜（KGs）融入到LLMs中。知識圖譜（KGs），以三元組（頭實體，關系，尾實體）的方式存儲大量事實，是一種結構化且決定性的知識表示方式（例如，Wikidata [20]，YAGO [31]，和 NELL [32]）。KGs對于各種應用至關重要，因為它們提供了準確的顯式知識[19]。此外，它們因其象征性推理能力[22]而著名，該能力可以生成可解釋的結果。KGs也可以隨著新知識的不斷加入而積極演化[24]。此外，專家可以構建特定領域的KGs，以提供精確且可靠的特定領域知識[23]。然而，KGs難以構建[33]，而當前在KGs中的方法[25]，[27]，[34]在處理真實世界KGs的不完整和動態變化性質方面是不足夠的。這些方法未能有效地模擬未見實體和表示新事實。此外，它們經常忽視KGs中的豐富文本信息。此外，KGs中的現有方法通常針對特定的KGs或任務定制，不夠通用。因此，利用LLMs來解決KGs面臨的挑戰也是必要的。我們分別在圖1中總結了LLMs和KGs的優缺點。

最近，將LLMs與KGs統一起來的可能性越來越受到研究人員和從業人員的關注。LLMs和KGs本質上是互相關聯的，可以相互增強。在KG增強的LLMs中，KGs不僅可以被整合到LLMs的預訓練和推理階段，以提供外部知識[35]-[37]，而且還可以用于分析LLMs并提供可解釋性[14]，[38]，[39]。在LLM增強的KGs中，LLMs已經被用于各種與KG相關的任務，例如KG嵌入[40]，KG完成[26]，KG構建[41]，KG-to-text生成[42]，和KGQA[43]，以提高KGs的性能并促進KGs的應用。在協同作用的LLM + KG中，研究人員將LLMs和KGs的優點結合起來，相互提高在知識表示[44]和推理[45]，[46]方面的性能。雖然有一些關于知識增強LLMs的調查[47]-[49]，主要關注使用KGs作為外部知識來增強LLMs，但它們忽視了其他整合KGs的可能性，以及LLMs在KG應用中的潛在角色。

在這篇文章中，我們提出了一個展望未來的路線圖，用于統一LLMs和KGs，利用它們各自的優勢并克服各種方法的限制，以適應各種下游任務。我們提出了詳細的分類，進行了全面的回顧，并指出了這些快速發展領域的新興方向。我們的主要貢獻如下：

路線圖。我們提出了一個展望未來的路線圖，用于整合LLMs和KGs。我們的路線圖包括三個通用框架來統一LLMs和KGs，即，KG增強的LLMs，LLM增強的KGs，以及協同作用的LLM + KGs，為這兩種不同但互補的技術的統一提供了指導。

分類和回顧。對于我們路線圖的每一個整合框架，我們都提出了詳細的分類和統一LLMs和KGs研究的新穎分類法。在每個類別中，我們從不同的整合策略和任務的角度回顧了研究，這為每個框架提供了更多的洞察。

新興進步的覆蓋范圍。我們覆蓋了LLMs和KGs的先進技術。我們包括了最新的LLMs如ChatGPT和GPT-4以及新的KGs，例如多模態知識圖譜的討論。

挑戰和未來方向的總結。我們強調了現有研究中的挑戰，并提出了一些有前途的未來研究方向。

2. 背景知識

在本節中，我們將首先簡要介紹幾種代表性的大型語言模型（LLMs），并討論提示工程，該工程有效地使用LLMs進行各種應用。然后，我們將說明知識圖譜（KGs）的概念，并介紹KGs的不同類別。

大型語言模型

在大規模語料庫上預訓練的大型語言模型（LLMs）已經在各種NLP任務中展現出巨大的潛力[13]。如圖3所示，大多數LLMs都源于Transformer設計[50]，該設計包含了由自注意力機制賦能的編碼器和解碼器模塊。根據架構結構，LLMs可以被分類為三個組：1）僅編碼器的LLMs，2）編碼器-解碼器的LLMs，和3）僅解碼器的LLMs。如圖2所示，我們總結了幾個具有不同模型架構，模型大小和開源可用性的代表性LLMs。

提示工程

提示工程是一個新興的領域，專注于創建和精煉提示，以最大化大型語言模型（LLMs）在各種應用和研究領域中的效用[63]。如圖4所示，提示是為LLMs指定任務（例如，情感分類）的自然語言輸入序列。一個提示可能包含幾個元素，即1）指令，2）上下文，和3）輸入文本。指令是指導模型執行特定任務的短句。上下文為輸入文本或少數示例提供背景。輸入文本是需要模型處理的文本。提示工程尋求提高大型語言模型（例如，ChatGPT）在多種復雜任務中的能力，如問題回答，情感分類和常識推理。鏈式思維（CoT）提示[64]通過中間推理步驟實現復雜推理能力。Liu等人[65]結合外部知識來設計更好的知識增強提示。自動提示工程師（APE）提出了一種自動提示生成方法，以提高LLMs的性能[66]。提示提供了一種簡單的方式，可以在無需微調的情況下利用LLMs的潛力。精通提示工程可以更好地理解LLMs的優點和缺點。

知識圖譜（KGs）知識圖譜（KGs）將結構化知識存儲為三元組集合KG = {(h, r, t) ? E × R × E}，其中E和R分別表示實體和關系的集合。現有的知識圖譜（KGs）可以根據存儲的信息被分為四組：1）百科全書型KGs，2）常識KGs，3）特定領域KGs，以及4）多模態KGs。我們在圖5中展示了不同類別的KGs的例子。

** 應用**

LLMs 以及 KGs 已被廣泛應用在各種真實世界的應用中。我們在表1中總結了一些使用LLMs和KGs的代表性應用。ChatGPT/GPT-4是基于LLM的聊天機器人，可以以自然對話格式與人類進行交流。為了提高LLMs的知識意識，ERNIE 3.0 和 Bard將KGs整合進他們的聊天機器人應用中。Firefly開發了一款照片編輯應用，允許用戶使用自然語言描述來編輯照片。Copilot、New Bing 和 Shop.ai 分別采用LLMs來增強他們在編碼助手、網絡搜索和推薦等領域的應用。Wikidata 和 KO 是兩個代表性的知識圖譜應用，被用來提供外部知識。AliOpenKG是一個為推薦設計的知識圖譜。Doctor.ai 開發了一個健康護理助手，整合了LLMs和KGs以提供醫療建議。

3 路線圖和分類

在本節中，我們首先提出一個明確的框架路線圖，以統一LLMs和KGs。然后，我們呈現了關于統一LLMs和KGs的研究分類。

3.1 路線圖

我們在圖6中描繪了統一KGs和LLMs的路線圖。在路線圖中，我們確定了統一LLMs和KGs的三個框架，包括KG增強的LLMs，LLM增強的KGs，以及協同的LLMs + KGs。

3.1.1 KG增強的LLMs

LLMs因其能夠從大規模語料庫中學習知識并在各種自然語言處理（NLP）任務中取得最先進的性能而聞名。然而，LLMs經常因其幻覺問題[15]和缺乏可解釋性而受到批評。為解決這些問題，研究人員已經提出了用知識圖譜（KGs）來增強LLMs。KGs以明確和結構化的方式存儲大量知識，這可以用來增強LLMs的知識意識。一些研究人員已經提出在預訓練階段將KGs納入LLMs，這可以幫助LLMs從KGs中學習知識[91]，[92]。其他研究人員提出在推理階段將KGs納入LLMs。通過從KGs中檢索知識，可以顯著提高LLMs在獲取特定領域知識方面的性能[93]。為了提高LLMs的可解釋性，研究人員還利用KGs來解釋LLMs的事實[14]和推理過程[94]。

3.1.2 由LLM增強的KG

知識圖譜（KGs）儲存著結構化的知識，這在很多實際應用中都起著至關重要的作用[19]。然而，現有的KG方法在處理不完整的KG [25]和處理文本語料庫來構建KG [95]方面存在短板。鑒于LLM的泛化能力，許多研究人員正試圖利用LLM來解決KG相關的任務。最直接的方式就是將LLM作為KG相關任務的文本編碼器。研究人員利用LLM處理KG中的文本語料庫，然后使用文本的表示來豐富KG的表示[96]。一些研究還使用LLM來處理原始語料庫，并提取關系和實體用于KG的構建[97]。最近的一些研究試圖設計一個KG提示，這可以有效地將結構化的KG轉化為LLM可以理解的格式。這樣，LLM就可以直接應用到KG相關的任務中，例如KG完成[98]和KG推理[99].

3.1.3 融合了LLM和KG的系統

這幾年，研究人員越來越關注將LLM和KG融合的潛力[40]，[42]。LLM和KG是兩種固有的互補技術，應當將它們統一到一個通用框架中，以便互相增強。為了進一步探索這種統一，我們在圖7中提出了一個融合了LLM和KG的統一框架。這個統一框架包含四層：1) 數據，2) 融合模型，3) 技術，和4) 應用。在數據層，LLM和KG分別用于處理文本和結構化數據。隨著多模態LLM[100]和KG[101]的發展，這個框架可以擴展到處理多模態數據，如視頻、音頻和圖像。在融合模型層，LLM和KG可以相互協同，以提高他們的能力。在技術層，已經在LLM和KG中使用的相關技術可以被納入到這個框架中，以進一步增強性能。在應用層，LLM和KG可以整合起來，以解決各種實際應用，如搜索引擎[102]、推薦系統[10]和AI助手[103]。

3.2 分類

為了更好地理解將大型語言模型(LLMs)和知識圖譜(KGs)統一的研究，我們為路線圖中的每個框架提供了更細粒度的分類。具體來說，我們關注了將知識圖譜和大型語言模型集成的不同方式，即，知識圖譜增強的大型語言模型、知識圖譜增量的大型語言模型，以及融合了大型語言模型和知識圖譜的系統。研究的細粒度分類如圖8所示。

知識圖譜增強的大型語言模型。整合知識圖譜可以提高大型語言模型在各種下游任務中的性能和可解釋性。我們將知識圖譜增強的大型語言模型研究分為三組：1) 知識圖譜增強的大型語言模型預訓練包括在預訓練階段應用知識圖譜并提高大型語言模型的知識表達的工作。2) 知識圖譜增強的大型語言模型推理包括在大型語言模型的推理階段使用知識圖譜的研究，這使得大型語言模型能夠在不進行再訓練的情況下獲取最新的知識。3) 知識圖譜增強的大型語言模型的可解釋性包括使用知識圖譜來理解大型語言模型所學習的知識和解釋大型語言模型的推理過程的工作。

大型語言模型增量的知識圖譜。大型語言模型可以應用于增強各種與知識圖譜相關的任務。我們根據任務類型將大型語言模型增量的知識圖譜研究分為五組：1) 大型語言模型增強的知識圖譜嵌入包括使用大型語言模型來豐富知識圖譜的表示，通過編碼實體和關系的文本描述。2) 大型語言模型增強的知識圖譜完成包括使用大型語言模型編碼文本或生成事實以提高知識圖譜完成(KGC)性能的論文。3) 大型語言模型增強的知識圖譜構建包括使用大型語言模型處理實體發現，共指消解，和關系提取任務以構建知識圖譜的工作。4) 大型語言模型增強的知識圖譜到文本生成包括使用大型語言模型生成描述來自知識圖譜的事.

7 未來方向

在前面的部分中，我們已經回顧了將知識圖譜(KGs)和大型語言模型(LLMs)統一的最新進展，但是仍有許多挑戰和未解決的問題需要解決。在本節中，我們將討論這個研究領域的未來方向。

使用知識圖譜(KGs)進行大型語言模型(LLMs)的錯覺檢測
在LLMs中編輯知識的知識圖譜(KGs)
用于黑盒LLMs知識注入的知識圖譜(KGs)
針對知識圖譜(KGs)的多模態LLMs
用于理解知識圖譜結構的LLMs
用于雙向推理的融合LLMs和KGs。

8 結論

將大型語言模型（LLMs）和知識圖譜（KGs）統一是一個吸引了學術界和工業界越來越多關注的活躍的研究方向。在本文中，我們對該領域的最近研究提供了全面的概述。我們首先介紹了將KGs集成以增強LLMs的不同方式。然后，我們介紹了應用LLMs于KGs的現有方法，并基于各種KG任務建立了分類法。最后，我們討論了這個領域的挑戰和未來的方向。我們希望本文能夠提供對這個領域的全面理解，并推動未來的研究。

付費5元查看完整內容

大模型 · 大模型可信性 · 大模型安全性 · AI與安全 ·

2023 年 5 月 30 日

[付費5元查看完整內容]大模型如何可信安全？利物浦大學最新《從驗證和確認的角度綜述大型語言模型的安全性和可信性》綜述，全面闡述LLM安全性

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）由于其能在許多知識領域中與最終用戶進行具有詳細且清晰的回答的人類級別對話的能力，引發了AI的新熱潮。響應其在許多工業應用中的快速采用，本綜述關注其安全性和可信度。首先，我們回顧了LLMs的已知漏洞，將它們分類為固有問題，預定攻擊和無意的錯誤。然后，我們考慮是否以及如何可以將已經為傳統軟件和深度學習模型（如卷積神經網絡）廣泛開發的驗證和驗證（V＆V）技術整合并進一步擴展到LLMs的生命周期中，以對LLMs及其應用的安全性和可信度提供嚴謹的分析。特別是，我們考慮四種互補技術：偽造和評估，驗證，運行時監視和道德使用。考慮到LLMs的快速發展，本綜述并無意完整（盡管它包含300多個參考），尤其是在涉及到LLMs在各個領域的應用時，而是收集了有組織的文獻回顧和討論，以支持從V＆V的視角快速理解安全性和可信度問題。

//arxiv.org/abs/2305.11391

1. 引言

大型語言模型（LLM）是一種具備大量可學習參數的深度學習模型（通常達到100億以上，如圖1所示）。LLMs是基于Transformer架構[116]的注意力驅動的序列模型，已經一直顯示出學習語言通用表示的能力。這種語言的通用表示可以被用于各種自然語言處理（NLP）任務。最近，這些模型在參數數量和預訓練語料庫方面的擴大，已經證實了Transformer作為編碼語言表示的普遍性。在特定規模下，這些模型開始表現出在上下文中的學習能力[184,278]，以及從少數示例（零/一/少數 - 無需微調）和自然語言提示（描述模型需要實施的行為意圖的復雜指令）中學習的屬性。最近關于通過人類反饋進行強化學習（RLHF）[190]的研究進一步發展了這些模型對越來越復雜提示的對齊和響應的能力，導致了它們在如ChatGPT等系統中的普及，以及在大量應用中的使用。LLMs表現出復雜的語言和推理行為的能力，已經推動了它們在超出預期操作范圍的應用。盡管LLMs在語言流暢性上一直表現出色，但它們也容易產生錯覺[228]，陳述事實上不正確的陳述[227]，以及缺乏必要的安全性、透明度和控制機制[239]等問題。本文的目標是提供關于LLMs已知漏洞的回顧，并更重要的是，探討如何調整V&V技術以提高LLMs的安全性和可信度。雖然已有一些關于LLMs的調查[296,291]，以及關于ChatGPT失敗的分類性檔案[47]，但據我們所知，這是第一個從V&V的角度對安全性和可信度問題進行全面討論的工作。

V&V技術在支持安全關鍵系統中軟硬件的可靠和可信賴的開發方面取得了成功，并已被適應用于機器學習模型，主要關注圖像分類的卷積神經網絡（見諸如[125, 169]的調查和[124]等教科書），但也擴展到考慮如目標檢測、深度強化學習和循環神經網絡等。本文討論如何進一步擴展V&V以應對LLMs的安全性和可信度挑戰。V&V是一種獨立的程序，它們一起用于檢查系統（或產品，服務）是否滿足要求和規范，并且是否達到其預期的目的[7]。其中，驗證技術根據一組設計規格檢查系統，而驗證技術確保系統滿足用戶的操作需求。從軟件、卷積神經網絡到LLMs，系統的規模顯著增長，這使得常規的V&V技術由于其可擴展性問題而能力不足。將可學習參數作為其算法輸入的白盒V&V技術在實踐中不會很好地工作。相反，研究應專注于黑盒技術，對于卷積神經網絡，一些研究已經開始。此外，V&V技術需要考慮LLMs的非確定性特性（即，對于兩次具有相同輸入的測試，輸出不同），這與常見的神經網絡（如卷積神經網絡和目標檢測器）有顯著的不同，目前大多數V&V技術都在這些網絡上工作。

本文的結構如下。在第二部分，我們回顧了LLMs及其類別，它的生命周期，以及為提高安全性和可信度而引入的幾種技術。然后，在第三部分，我們介紹了現有漏洞的回顧。這之后，我們在第四部分提供了一個通用的驗證框架。該框架包括V&V技術，如偽造和評估（第五部分），驗證（第六部分），運行時監控（第七部分）和道德使用（第八部分）。我們在第九部分對本文進行總結。

2. 大型語言模型

這一部分總結了基于LLMs的機器學習任務的類別，然后討論了LLMs的生命周期。我們還將討論一些與安全性分析相關的基礎技術。

圖2展示了LLMs的生命周期階段。離線模型構造由三個步驟組成[291]：預訓練、適應調整和利用改進，每個步驟都包含幾個交織的子步驟。一般來說，預訓練步驟與常規的機器學習訓練類似，包括數據收集、架構選擇和訓練。在適應調整上，它可能進行指令調整[178]以從任務指令中學習，并進行對齊調整[190, 67]以確保LLMs與人類價值觀相符，例如公平、誠實和無害。除此之外，為了改善與最終用戶的交互，可能會通過例如上下文學習[49]，思維鏈學習[257]來進行利用改進。一旦一個LLM被訓練，就需要進行評估以確保其性能符合預期。通常，我們從三個角度考慮評估：基本性能指標的評估，安全性分析以評估在應用中應用LLM的后果，以及通過公開可用的基準數據集進行的評估。評估將決定LLM是否可接受（對于預設定的標準），如果是的話，過程將向前移動到部署階段。否則，將至少確定一個失敗，并且過程將回退到三個訓練步驟中的任何一個。在部署階段，我們將決定如何使用LLM。例如，它可以在網頁平臺上供最終用戶直接交互，比如ChatGPT。或者，它可能被嵌入到搜索引擎中，比如新的Bing。然而，根據常規做法，會在LLMs和最終用戶之間的對話上設置保護，以確保AI規則最大程度地實施。

3 漏洞

本部分介紹已知類型漏洞的回顧。這些漏洞可以分為固有問題、有意攻擊和無意錯誤三類。固有問題是指LLMs本身無法立即解決的漏洞。然而，通過更多的數據和新的訓練方法等逐步改進是可能的。固有問題包括性能弱點，即LLMs尚未達到人類水平的智能方面，以及可持續性問題，因為LLMs的規模顯著大于常規機器學習模型。它們的訓練和日常執行可能會產生非可忽略的可持續性影響。此外，可信性和責任問題是LLMs固有的。有意攻擊是由惡意攻擊者發起的，他們試圖通過攻擊LLMs生命周期中的某些階段來實現他們的目標。已知的有意攻擊包括魯棒性漏洞、后門攻擊、毒化、虛假信息、隱私泄露和未經授權的信息披露。最后，隨著LLMs集成到更廣泛的應用中，將出現越來越多的無意錯誤，這些錯誤是開發人員在無意識中產生的，但卻會產生嚴重后果，例如偏見和歧視（通常與訓練數據的質量有關），以及最近報道的用戶信息的意外泄露。圖2展示了漏洞在LLMs的生命周期中可能被利用的方式。雖然固有問題和無意錯誤可能出現在生命周期的任何階段，但有意攻擊通常出現在生命周期的特定階段。例如，后門攻擊通常發生在預訓練和適應調整階段，其中嵌入了后門觸發器；毒化通常發生在訓練或對齊調整階段，此時LLMs從環境中獲取信息/數據。此外，許多攻擊發生在最終用戶與LLMs之間的交互中，使用特定的、經過精心設計的提示來從LLMs中檢索信息。我們注意到，盡管存在重疊，LLMs和常規深度學習模型（如卷積神經網絡或目標檢測器）具有略微不同的漏洞，并且盡管已經開始為常規深度學習模型開發規范語言[40, 127]，但這些努力可能需要擴展到LLMs上。

4 通用驗證框架

圖3展示了一個通用的驗證框架示意圖，該框架可以與LLMs一起工作，并將幾個V&V技術類別定位到生命周期中。在評估階段，除了目前進行的活動（如圖2所述），我們需要從偽造和評估技術開始，并與解釋技術同時進行。偽造和評估技術提供了多樣的方法來找到故障案例，并具有統計理解潛在故障的能力，但并非窮盡。解釋技術旨在提供人類可理解的LLMs輸出解釋。雖然這兩個類別是并行的，但它們可以相互交互，例如，一個故障案例可能需要使用解釋技術來理解根本原因，而解釋需要區分不同的故障和非故障案例。驗證技術通常成本較高，可能僅在LLMs通過前兩個類別時才需要。除了離線驗證，還需要在保護層之上部署運行時監視器，以在操作時間發現故障案例。這主要是由于兩個原因：（1）當處理大量屬性和LLMs的高維度時，離線方法可能不完整；（2）LLMs可以是自適應和演化的。最后，在整個生命周期中，需要遵守倫理原則和AI規定，以確保對LLMs的道德使用。

5 偽造和評估

本部分總結了識別和評估基于LLMs的機器學習應用程序漏洞的已知方法。我們還討論了如何調整V&V，并應該如何調整。

6 驗證

本部分討論是否以及如何將更嚴格的驗證擴展到基于LLMs的機器學習任務中。到目前為止，LLMs的驗證或認證仍然是一個新興的研究領域。本節首先對各種NLP模型的驗證技術進行了全面系統的回顧。然后，我們討論了一些開創性的黑盒驗證方法，這些方法可以在大規模語言模型上發揮作用。接下來，我們討論如何將這些工作擴展到LLMs，并回顧減小LLMs規模以增加驗證技術有效性的努力。

7 運行時監視器

第2.3.2節提到的保護層為LLMs與最終用戶的交互提供了安全保障，同時保持其社會責任。本節討論了一種V&V方法，即運行時監視器，它與保護層有些相似，可以對LLMs的行為進行保護，以防止像第3節中討論的那樣的漏洞。使用運行時監視器而不是驗證的關鍵動機有兩個方面。首先，驗證方法需要大量的計算，因此在處理像LLMs這樣的大型模型時可能變得不切實際。其次，深度學習模型可能被應用于與收集訓練數據不同的場景。這表明需要一個運行時監視器來實時確定規范的可滿足性。

8 規定和道德使用

V&V提供了一系列技術手段，以支持LLMs與人類利益的一致性。然而，有人認為構建無法被濫用的LLMs可能是不可能的。這表明技術手段是必要的，但可能是不充分的。因此，需要道德手段來補充技術手段，以確保LLMs的使用與人類利益完全一致。以下，我們將討論幾個近期取得的進展跡象。

9. 結論

本文概述了LLM（大型語言模型）已知的漏洞，并討論了如何調整V&V（驗證和驗證）技術以適應它們的工作。鑒于LLM正在迅速被直接或間接與終端用戶進行交互的應用程序所采用，必須確保部署的LLM經歷足夠的審判過程，以避免任何不可取的安全和可信后果。考慮到LLM的規模和復雜性，白盒V&V技術可能變得不切實際，社區可能需要開發黑盒、非確定性敏感的V&V技術。此外，多學科的開發將確保充分考慮所有可信問題。

付費5元查看完整內容

大模型 · 參數知識引導 · 大型語言模型 ·

2023 年 5 月 10 日

[付費5元查看完整內容]大模型如何適用長尾或特定領域？微軟等提出《參數知識引導的增強大型語言模型》，擴展LLM的垂直化長尾適配能力

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理（NLP）領域憑借其出色的語言理解和生成能力取得了顯著進步。然而，由于受限于領域特定知識和詞匯的接觸，它們在長尾或領域特定任務的表現可能不盡如人意。此外，大多數最先進的（SOTA）LLMs缺乏透明度，只能通過API訪問，這阻礙了使用自定義數據進一步微調。而且，數據隱私是一個重要問題。為了應對這些挑戰，我們提出了一種創新的參數知識引導（PKG）框架，該框架為LLMs配備了一個知識引導模塊，以在運行時訪問相關知識，而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型，允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現，這些任務需要事實、表格、醫學和多模態知識。

//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e

1. 引言

諸如GPT3 [Brown et al., 2020]的大型語言模型（LLMs）在各種自然語言處理（NLP）任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練，從而使它們能夠將大量的隱式世界知識融入到其參數中。因此，LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如，它們可用于機器翻譯 [Jiao et al., 2023]，段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力，LLMs為各種工業應用提供了新的機會，如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理（NLP）任務上表現出色，但在長尾或領域特定任務上，LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識，但這種知識可能對某些任務來說是有損失或不足的，導致準確度降低和效果不佳。此外，許多最先進（SOTA）的LLMs被認為是“黑箱”模型，只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外，能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據，將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。

最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識，以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果，但它還存在一些局限性。首先，它嚴重依賴外部知識來源，這些來源可能并不總是容易獲得或可用。此外，這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。

為了克服這些局限性，我們提出了一種名為參數知識引導（PKG）的新框架，它將檢索替換為生成，如圖1所示。PKG模塊是一個額外的背景知識生成模塊，使LLMs能夠在運行時訪問相關信息，而無需更新它們的參數。通過提供必要的知識，增強型LLMs可以在長尾或領域特定任務上取得更好的性能。

我們的PKG框架基于開源且免費使用的“白盒”小型語言模型，使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致，我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識，并且可以在離線情況下高效地進行更新。

我們的實驗表明，所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能，包括事實知識（FM2 [Eisenschlos et al., 2021], +7.9%）、表格知識（NQ-Table [Herzig et al., 2021], +11.9%）、醫學知識（MedMC-QA [Pal et al., 2022], +3.0%）和多模態知識（ScienceQA [Lu et al., 2022], +8.1%）。我們將我們的貢獻總結如下：

我們提出了一種創新的參數知識引導（PKG）框架，通過集成一個額外的背景知識生成模塊來增強語言模型（LMs）的能力。

我們引入了一種兩步知識對齊方法，將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調，并使參數模塊能夠進行高效的離線更新。

我們對各種下游任務進行了廣泛的實驗，以評估我們提出的PKG框架的有效性。這些實驗的結果表明，我們的PKG框架可以提高LLMs在這些任務上的能力。

2 參數化知識引導

在本節中，我們介紹了一種名為參數知識引導（PKG）的創新框架，旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊，該模塊與LLM集成，以在運行時提供相關知識，指導其推理。為實現這一目標，我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊，這些知識通常是長尾的或不存在于LLM的訓練數據中。然后，給定一個輸入問題或句子，PKG提供相應的背景文檔，擴展LLMs的輸入上下文，使它們能夠處理更廣泛的任務。

**2.1 導引器的知識對齊 **

針對特定任務或領域，我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示，我們將此過程分為兩個步驟。首先，我們收集有關目標任務/領域的原始數據，作為我們的知識來源。然后，我們將數據轉換為一組（指令，輸入，輸出）三元組。指令作為輸入的提示，并指導模塊與預期輸出對齊。接下來，采用這組三元組來調整我們的基本PKG模塊，優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識，并在運行時提供給LLMs。指令提示的示例是：

指令作為提示，指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示，提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出，我們以自回歸方式訓練基本的導引器模塊，其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成，基本模型就會演變成參數化知識導引器，可以根據相應的指令生成特定領域/任務的背景知識。

2.2 用PKG增強LLMs

在許多情況下，使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示，并請求LLMs使用API返回響應/答案。然而，這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制，一種常見的方法是為LLMs提供額外的上下文，使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下，我們增強輸入與領域特定的背景知識，擴展輸入上下文。這個補充信息作為LLMs的指南，使它們能夠訪問更豐富的任務上下文，從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是：

3 實驗

在本節中，評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較，表1和表2所示的結果表明，PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。

付費5元查看完整內容

大模型 · 深度學習模型 · 訓練 · ChatGPT ·

2023 年 4 月 11 日

[付費5元查看完整內容]ChatGPT背后大模型如何高效訓練？京東探索研究院等最新《大規模深度學習模型高效訓練研究》綜述，60頁pdf詳述五大訓練方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習領域取得了重大進展，特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而，它的訓練過程極不穩定，對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高，大量研究在一定程度上探索了高效訓練領域，但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式，并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術，可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心"，包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術，側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”，包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術，注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”，包括在資源受限情況下的一些獨特加速方法，例如對總迭代次數的限制; (5)“以系統為中心”，包括一些高效的分布式框架和開源庫，它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法，本文綜述了一個全面的回顧，以了解每個組件內的一般機制及其聯合交互。同時，對通用加速技術發展的未來工作進行了詳細的分析和討論，這些工作可以啟發我們重新思考和設計新的高效范式。總之，我們希望這項綜述將成為普遍有效訓練的寶貴指南。

//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f

隨著人工智能技術的快速發展，深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律，并表明更大的模型本質上需要大量的數據，在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如，Dehghani等人[44]提出了ViT-22B，該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后，GPT-3[18]在45TB數據樣本上訓練了175B參數，并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型，只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229]，這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚，但為了保持實際效率，人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言，訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說，訓練GPT-3消耗大約355 GPU年，成本為460萬美元。在如此龐大的參數和數據樣本下，傳統的從零開始訓練顯然無法承受巨大的費用，特別是在擴展到下游任務[30,138,187,188,211,243]時，這將引入額外的架構和過多的參數。因此，預訓練-微調模式在深度學習領域日益受到關注。

預訓練的主題是繼承遷移學習的范式，在一個通用的數據集上訓練一個通用的基礎模型，以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態)，幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像，有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練，為下游任務產生了有希望的遷移性能。同樣，來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48]，通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區，Radford等人[196]提出了生成式預訓練(GPT)，通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率，GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習，在預訓練中可以顯著增強對知識的理解，在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明，使用預訓練可以提高模型的魯棒性和不確定性，對于在大型數據集上進行訓練表現出極大的優勢，泛化能力較好。最近的進展表明，從具有巨大容量的預訓練模型中獲得了實質性的收獲，特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向，即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴，極大地啟發了大數據的應用。同時，它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本，包括時間和金錢，嚴重阻礙了它的發展。在此背景下，本文介紹和總結了在大規模模型上加速訓練的通用和實用技術，這些技術促進了更快的訓練，也可能有助于預訓練中龐大的基礎模型。

最近的許多工作回顧和總結了高效的訓練技術，主要包括引入了高效的預訓練模型，設計了新的加速組件，先進的優化方法，在NLP或CV社區上的高效訓練，以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作，并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型，主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧，討論了它們在每個不同社區的成果的最新研究進展，這些成果可能會給本地研究帶來新的思考。同時，系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型，并回顧了Transformer模型的幾種變體，這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展，介紹了Transformer模型的詳細演變，并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發，提出了一些提高Transformer模型訓練效率的策略，并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述，包括計算效率、存儲效率和硬件/算法協同設計。與它們不同，我們更關注基本的加速技術，不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐，以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展，包括新的優化器和策略，以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗，總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法，并討論了它們的效率和缺點。

近年來，高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展，但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下，本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧，這些技術獨立于任務或模型架構。從實踐效率的角度來看，我們認為高效的訓練主要圍繞兩個明確的目標:

為了達到相當的測試精度，高效的訓練需要更少的訓練時間。

在相似的訓練成本下，高效的訓練可以實現更高的性能。

該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構，本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外，由于我們的調研是無任務和無模型的，因此提供了訓練加速技術的廣泛泛化，可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理，研究人員可以開發更快、更有效的模型，而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述，為機器學習領域做出了重大貢獻。本文對解決一般的基本最小化問題很感興趣，可以很容易地擴展到訓練基礎模型或預訓練任務:

與之前的工作不同，本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件，這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中，省略了額外的近端項。在不損失通用性的情況下，使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:

在表1中，我們總結了這些符號及其對應的研究領域。基于式(3)，通過提煉和拆分組件的不同角色，將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析，以對當前用于訓練大規模模型的通用加速技術進行分類，并結合實際實現的可行性。具體來說，它們是:

以數據為中心的有效訓練。在深度學習中，全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高，盡管在早期階段表現有效。為了解決這個問題并提高泛化性能，以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性，從而在實際應用中具有更好的泛化性能。同時，為了實現有效加速并進一步提高模型的通用性，以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外，它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明，課程學習是一個循序漸進的過程，可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本，逐步恢復到高質量的樣本。總之，以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。

以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡，例如基于卷積的神經網絡(CNN)，多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化，更多地關注DNNs的計算復雜性，以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說，架構近似側重于采用簡化的算子組合，以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率，也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態，可以有效地加快收斂速度，防止訓練過程在早期崩潰。總之，以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法，它具有很強的實用性，可以很容易地在任何深度學習框架中實現。

以優化為中心的高效訓練。為提高優化效率，總結了三個主要因素，即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而，要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此，以學習率為中心的方法旨在開發高效和靈活的策略，以高效和穩定地訓練模型。第二個因素，批量大小，在優化中也起著關鍵作用。借助GPU設備的并行計算能力，特別是在計算資源充足的情況下，通過增加單個minibatch中的樣本數量可以提高訓練效率。因此，以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看，我們總是努力實現一個具有高穩定性的目標，這是以目標為中心的方法的主要關注點。這些方法專注于優化目標，提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述，以優化為中心的方法研究了訓練過程中的高效迭代計算，為高效訓練提供了堅實的保證。

有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率，在這些場景中，計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練，同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練，研究人員和從業人員可以充分利用可用資源，避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發，這些模型更實用，更適合于資源通常有限的現實世界應用程序。

以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現，能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯，以解決跨設備通信中的瓶頸，并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練，訓練過程被分布為更小的計算任務，在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架，如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練，并顯著減少了大規模深度學習模型的訓練時間。

總而言之，本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分，我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分，我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:

從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術，總結了它們的技術路線和每個組件的實現，有助于為無任務和無模型的高效訓練提供堅實的指導。

比較了訓練加速中每個組件的優缺點，展示了它們的見解和互動，可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。

對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析，這可以為它們未來的發展提供指導。

本調查的主要結構組織如下。在第2節中，介紹了一些初步工作，包括不同骨干中的基本模塊，以及對大規模深度學習模型、數據集的預訓練，以及本綜述中采用的詳細符號。在第3 ~ 6節中，基于迭代公式(3)，從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中，我們討論和總結了本綜述中的技術，并提出了一些有前途的研究方向。

付費5元查看完整內容

GPT-4 · 大型語言模型 · 大模型 · 綜述 ·

2023 年 4 月 4 日

[付費5元查看完整內容]從T5到GPT-4最新最全梳理，人大等《大型語言模型綜述》，51頁pdf詳述大模型進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

轉載機器之心報道

機器之心編輯部

為什么仿佛一夜之間，自然語言處理（NLP）領域就突然突飛猛進，摸到了通用人工智能的門檻？如今的大語言模型（LLM）發展到了什么程度？未來短時間內，AGI 的發展路線又將如何？自 20 世紀 50 年代圖靈測試提出以來，人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統，受到語法規則的約束。因此，開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年，語言建模方法被廣泛用于語言理解和生成，包括統計語言模型和神經語言模型。近些年，研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型（PLMs），并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升，因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是，當參數規模超過一定水平時，這個更大的語言模型實現了顯著的性能提升，并出現了小模型中不存在的能力，比如上下文學習。為了區別于 PLM，這類模型被稱為大型語言模型（LLMs）。

從 2019 年的谷歌 T5 到 OpenAI GPT 系列，參數量爆炸的大模型不斷涌現。可以說，LLMs 的研究在學界和業界都得到了很大的推進，尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響，并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步，中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展，尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源，討論了未來發展方向等問題。對于領域內研究人員和工程師而言，這份綜述是一份極其有用的學習資源。

論文鏈接：//www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb

在進入正文前，我們先來看 2019 年以來出現的各種大語言模型（百億參數以上）時間軸，其中標黃的大模型已開源。

LLMs 概覽

**在第一節中，研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常，大型語言模型（LLM）是指包含數千億（或更多）參數的語言模型，這些參數是在大量文本數據上訓練的，例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說，LLM 建立在 Transformer 架構之上，其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構（即 Transformer）和預訓練目標（即語言建模）。作為主要區別，LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量（擴大倍數）。他們可以更好地理解自然語言，并根據給定的上下文（例如 prompt）生成高質量的文本。這種容量改進可以用標度律進行部分地描述，其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律，某些能力（例如，上下文學習）是不可預測的，只有當模型大小超過某個水平時才能觀察到。

LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」，這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時，它還引入了一個顯著的特征：當規模達到一定水平時，性能顯著高于隨機的狀態。以此類推，這種新模式與物理學中的相變現象密切相關。原則上，這種能力也可以與一些復雜的任務有關，而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力：上下文學習。GPT-3 正式引入了上下文學習能力：假設語言模型已經提供了自然語言指令和多個任務描述，它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出，而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述（即指令）格式化的多任務數據集的混合進行微調，LLM 在微小的任務上表現良好，這些任務也以指令的形式所描述。這種能力下，指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務，這可以大大提高泛化能力。循序漸進的推理。對于小語言模型，通常很難解決涉及多個推理步驟的復雜任務，例如數學學科單詞問題。同時，通過思維鏈推理策略，LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測，這種能力可能是通過代碼訓練獲得的。

關鍵技術接下來來看 LLMs 的關鍵技術，包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素，最開始 GPT-3 將模型參數增至 1750 億，隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小，還與數據大小和總計算量有關。訓練。由于規模巨大，成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數，經常聯合使用各種并行策略。為了支持分布式訓練，DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外，優化技巧對訓練穩定性和模型性能也很重要，例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法，從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后，LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時，這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用，比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優，以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征（包括高質量和低質量的數據），它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致，InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法，使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的，在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器，因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據，無法捕獲最新信息。針對這些問題，人們提出使用外部工具來彌補 LLMs 的不足，比如可以利用計算器進行精確計算，使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識，這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求，開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗，并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中，研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。

下表 2 列出了常用的數據源。

**預訓練 **

預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練，LLMs 可以獲得基本的語言理解和生成技能。在這個過程中，預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外，為了有效地預訓練 LLMs，模型架構、加速方法和優化技術都需要精心設計。在第四節中，研究者首先在第 4.1 節討論了數據的收集和處理，然后在第 4.2 節介紹了常用的模型架構，最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM，從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。

收集大量文本數據后，必須對它們進行預訓練以構建預訓練語料庫，包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。

架構在本節中，研究者回顧了 LLMs 的架構設計，即主流架構，預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。

由于出色的并行化性和容量，Transformer 架構已成為開發各種 LLM 的 backbone，使得將語言模型擴展到數千億個參數成為可能。一般來說，現有 LLMs 的主流架構大致可以分為三大類，即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來，各種改進被相繼提出以提高其訓練穩定性，性能和計算效率。在這一部分中，研究者討論了 Transformer 四個主要部分的相應配置，包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用，它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs，有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中，研究者回顧了訓練 LLMs 的重要設置，技術和訓練 LLMs 技巧。對于 LLMs 的參數優化，研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。隨著模型和數據規模的增加，在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是，需要解決兩個主要技術問題，例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法，以解決上述兩個挑戰，即 3D 并行、ZeRO 和混合精度訓練，并就如何利用它們進行訓練給出了建議。

LLMs 的適應性調優經過預訓練，LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明，LLMs 的能力可以根據具體目標進一步調整。在第五節中，研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法，即指令調優（instruction tuning）和對齊調優（alignment tuning）。前一種方法主要是為了提高或解鎖 LLMs 的能力，而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上，指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法，這與監督微調和多任務提示訓練高度相關。為了執行指令調優，我們首先需要收集或構建指令格式的實例。然后，我們通常使用這些格式化實例以監督學習方式微調 LLMs（例如，使用序列到序列損失進行訓練）。在指令調整后，LLMs 可以展示出卓越的能力，泛化出能解決未見任務的能力，即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下，本文主要關注指令調優對 LLMs 的影響，并提供實例收集和調優的詳細指南或策略。此外，本文還討論了使用指令調優來滿足用戶的實際需求，這已廣泛應用于現有的 LLMs，例如 InstructGPT 和 GPT-4。格式化實例構建：通常，指令格式的實例由任務描述（稱為指令）、輸入輸出對和少量演示（可選）組成。作為重要的公共資源，現有研究已經發布了大量以自然語言格式化的標記數據（參見表 5 中的可用資源列表）。接下來，本文將介紹構造格式化實例的兩種主要方法（參見圖 4 中的插圖），然后討論實例構造的幾個關鍵因素。指令調優策略：與預訓練不同，指令調優通常更有效，因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程，但它的優化在幾個方面與預訓練不同，例如訓練目標（即序列到序列損失）和優化配置（例如更小的批次）大小和學習率），這在實踐中需要特別注意。除了這些優化配置之外，指令調優還需要考慮兩個重要方面：

平衡數據分布。
結合指令調優和預訓練。

對齊調優這部分首先介紹了對齊的背景及其定義和標準，然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集，最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。

使用在預訓練或適應性調整之后，使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習（in-context learning），它以自然語言文本的形式制定了任務描述或演示。此外，思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中，研究者詳細介紹了這兩種技術的細節。上下文學習**

作為一種特殊的 prompt 形式，上下文學習（ICL）是 GPT-3 首次提出的，它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈（CoT）是一種改進的 prompt 策略，可以提高 LLM 在復雜推理任務中的表現，如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt，而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中，研究者詳細說明了 CoT 與 ICL 的用法，并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性，研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務，然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務，最后討論了現有的基準和實證分析。基本評估任務

圖 7：一個公開 LLM 的內在和外在幻覺的例子（訪問日期：2023 年 3 月 19 日）。作為內在幻覺的例子，LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺，在這個例子中，LLM 似乎對 RLHF（從人類反饋中強化學習）的含義有不正確的理解，盡管它能正確理解 LLM 的含義。

高級任務評估除了上述基本評估任務，LLMs 還表現出一些高級能力，需要特別評估。在第 7.2 節中，研究者討論了幾個有代表性的高級能力和相應的評價方法，包括人工對齊、與外部環境的交互以及工具的操作。

總結與未來方向

在最后一節中，研究者總結了這次調查的討論，并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理：為了理解 LLM 的基本工作機制，最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是，縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明，當語言模型的參數規模增加到一個臨界點（如 10B）時，一些新興能力會以一種意想不到的方式出現（性能的突然飛躍），典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷，但也令人困惑：LLMs 何時以及如何獲得這些能力？最近的一些研究要么是進行廣泛的體驗，調查新興能力的效果和這些能力的促成因素，要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題，然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性，跨學科的理論或原則（例如 LLMs 是否可以被視為某種復雜系統）可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索，對于開發下一代的 LLMs 很重要。模型架構：由于可擴展性和有效性，由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能，如神經網絡配置和可擴展的并行訓練（見 4.2.2 節討論）。為了進一步提高模型的容量（如多輪對話能力），現有的 LLMs 通常保持較長的上下文長度，例如，GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此，一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性（原始的二次成本）。此外，研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的，例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰，這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時，原先學到的知識很可能被破壞，例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時，也會出現類似的情況，這被稱為對齊稅（alignment tax）。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構，以有效支持數據更新和任務專業化。模型訓練：在實踐中，由于巨大的計算量以及對數據質量和訓練技巧的敏感性，預訓練可用的 LLMs 非常困難。因此，考慮到模型有效性、效率優化和訓練穩定性等因素，開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法（例如 GPT-4 中的可預測縮放），便于在訓練中發現早期的異常問題。此外，它還要求有更靈活的硬件支持或資源調度機制，以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高，因此必須設計一個合適的機制，根據公開的模型檢查點（例如 LLaMA 和 Flan-T5）不斷地預訓練或微調 LLMs。為此，必須解決一些技術問題，包括數據不一致、災難性遺忘和任務專業化。到目前為止，仍然缺乏具有完整的預處理和訓練日志（例如準備預訓練數據的腳本）的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外，開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用：由于微調在實際應用中的成本很高，prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中，上下文學習（prompt 的一種特殊形式）賦予了 LLMs 在新任務上良好的表現，甚至在某些情況下超過了全數據微調模型。此外，為了提高復雜推理的能力，人們提出了先進的 prompt 技術，例如思維鏈（CoT）策略，它將中間的推理步驟納入 prompt。然而，現有的 prompt 方法仍然有以下幾個不足之處。首先，它在設計 prompt 時需要大量的人力，因此為解決各種任務而自動生成有效的 prompt 將非常有用；其次，一些復雜的任務（如形式證明和數字計算）需要特定的知識或邏輯規則，而這些知識或規則可能無法用自然語言描述或用例子來證明，因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要；第三，現有的 prompt 策略主要集中在單圈的表現上，因此開發用于解決復雜任務的交互式 prompt 機制（如通過自然語言對話）非常有用，ChatGPT 已經證明了這一點。安全和對齊：盡管 LLMs 具備相當的能力，但它的安全問題與小型語言模型相似。例如，LLMs 表現出產生幻覺文本的傾向，比如那些看似合理但可能與事實不符的文本。更糟糕的是，LLMs 可能被有意的指令激發，為惡意的系統產生有害的、有偏見的或有毒的文本，導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題（如隱私、過度依賴、虛假信息和影響操作），讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法，來自人類反饋的強化學習（RLHF）已被廣泛使用，它將人類納入訓練循環，以發展良好的 LLMs。為了提高模型的安全性，在 RLHF 過程中加入安全相關的 prompt 也很重要，如 GPT-4 所示。然而，RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據，使得它很難在實踐中得到正確的實施。因此，有必要改進 RLHF 框架，以減少人類標簽員的工作，并尋求一種更有效的注釋方法，保證數據質量，例如可以采用 LLMs 來協助標注工作。最近，紅色團隊被采用來提高 LLMs 的模型安全性，它利用收集的對抗性 prompt 來完善 LLMs（即避免紅色團隊的攻擊）。此外，通過與人類交流建立 LLMs 的學習機制也很有意義，人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統：由于 LLMs 在解決各種任務方面表現出強大的能力，它們可以被應用于廣泛的現實世界的應用（例如，遵循特定的自然語言指令）。作為一個顯著的進步，ChatGPT 已經潛在地改變了人類獲取信息的方式，這帶來了新必應的發布。在不久的將來，可以預見，LLMs 將對信息搜索技術產生重大影響，包括搜索引擎和識別系統。此外，隨著 LLMs 的技術升級，智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內，這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統（例如，ChatGPT 對插件的支持），這將與人類生活密切相關。最后，LLMs 的崛起為通用人工智能（AGI）的探索提供了啟示。它有希望開發出比以往更多的智能系統（可能有多模態信號）。同時，在這個發展過程中，人工智能的安全性應該是首要關注的問題之一，也就是說，讓人工智能為人類帶來好處而不是壞處。

付費5元查看完整內容

大模型 · 大型語言模型 · ChatGPT ·

2023 年 4 月 3 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自20世紀50年代圖靈測試被提出以來，人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法，在過去的二十年中，語言建模在語言理解和生成方面得到了廣泛的研究，從統計語言模型發展到神經語言模型。最近，通過在大規模語料庫上預訓練Transformer模型，人們提出了預訓練語言模型(PLM)，在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高，他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是，當參數規模超過一定水平時，這些放大的語言模型不僅實現了顯著的性能提升，而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異，研究界創造了大型語言模型(LLM)這個術語，用于表示規模巨大的PLM(例如，包含數百億或千億參數)。近年來，學術界和工業界對LLMs的研究取得了很大進展，其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出，引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響，這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步，本綜述通過介紹背景、關鍵發現和主流技術，回顧了LLM的最新進展。重點關注LLM的四個主要方面，即預訓練、自適應調優、利用率和能力評估。此外，還總結了開發LLM的可用資源，并討論了剩余問題，以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述，對于研究人員和工程師來說，這可以是一個有用的資源。

付費5元查看完整內容

預訓練語言模型 · 自然語言處理 · 綜述論文 ·

2021 年 11 月 4 日

[付費5元查看完整內容]基于大型預訓練語言模型的自然語言處理研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型的、預訓練的基于Transformer的語言模型，如BERT，已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研，這些研究使用了大型語言模型來解決NLP任務，通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法，用于訓練增強或其他目的。最后，我們討論了局限性，并提出了未來研究的方向。

引言

近年來，大型預訓練的基于Transformer的語言模型(PLMs)，如BERT (Devlin et al.， 2019)和GPT (Radford et al.， 2018)系列模型席卷了自然語言處理(NLP)，在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x，然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al.， 2015)。注意，每個新的NLP任務都需要重新學習潛在特征表示，而且在許多情況下，訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的，我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示，然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞，這是一項具有大量自然出現的文本的通用任務，可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上，最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務，研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調，提示PLMs執行期望的任務，或者將任務重新構造為文本生成問題，并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

先進行預訓練，然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練，然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM，這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞)，或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識，從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成，以充分利用生成語言模型(如GPT-2 (Radford et al.， 2019)和T5 (Raffel et al.， 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研，如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明，本文主要關注非生成性任務(如分類、序列標注和結構預測)，這些任務仍然涵蓋廣泛的NLP任務，包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外，還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據，通常生成的PLM是針對任務進行微調的，或者是一些輔助數據，如反例、澄清、上下文或其他。在第一種情況下，銀色標記數據可以添加到現有的標記數據中。在第二種情況下，輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景，并描述了第一種范式，即預訓練然后微調。第三節討論第二種范式，即基于提示的學習。第4節總結了第三種范式，即作為文本生成的NLP。在第5節中，我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向，并在第7節進行總結。

范式1: 先訓練，然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型，而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型，然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務，它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中，我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識，然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法，以鼓勵預訓練的模型執行特定任務(Yuan et al.， 2021)。使用提示符有幾個優點。提示，特別是上下文學習(例如Brown et al.， 2020)，可能不需要更新PLM的參數，與微調方法相比，或在2.4.4中描述的基礎上，減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合，從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al.， 2021b)，特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后，提示允許以一種不受監督的方式探索PLM，以評估PLM對特定任務所獲得的知識(如Petroni et al.， 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功，最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務，如分類和結構預測。例如，圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同，這些任務被重新表述為文本生成問題，從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息，從而能夠準確地重構預期的類標簽(即避免映射中的歧義)，并促進生成/解碼過程(即為預測提供足夠的上下文)。