顾美玲国产一区二区三区-精品自在线观看影片天天看

大型語言模型（LLMs）在自然語言處理（NLP）領域憑借其出色的語言理解和生成能力取得了顯著進步。然而，由于受限于領域特定知識和詞匯的接觸，它們在長尾或領域特定任務的表現可能不盡如人意。此外，大多數最先進的（SOTA）LLMs缺乏透明度，只能通過API訪問，這阻礙了使用自定義數據進一步微調。而且，數據隱私是一個重要問題。為了應對這些挑戰，我們提出了一種創新的參數知識引導（PKG）框架，該框架為LLMs配備了一個知識引導模塊，以在運行時訪問相關知識，而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型，允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現，這些任務需要事實、表格、醫學和多模態知識。

//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e

1. 引言

諸如GPT3 [Brown et al., 2020]的大型語言模型（LLMs）在各種自然語言處理（NLP）任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練，從而使它們能夠將大量的隱式世界知識融入到其參數中。因此，LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如，它們可用于機器翻譯 [Jiao et al., 2023]，段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力，LLMs為各種工業應用提供了新的機會，如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理（NLP）任務上表現出色，但在長尾或領域特定任務上，LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識，但這種知識可能對某些任務來說是有損失或不足的，導致準確度降低和效果不佳。此外，許多最先進（SOTA）的LLMs被認為是“黑箱”模型，只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外，能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據，將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。

最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識，以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果，但它還存在一些局限性。首先，它嚴重依賴外部知識來源，這些來源可能并不總是容易獲得或可用。此外，這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。

為了克服這些局限性，我們提出了一種名為參數知識引導（PKG）的新框架，它將檢索替換為生成，如圖1所示。PKG模塊是一個額外的背景知識生成模塊，使LLMs能夠在運行時訪問相關信息，而無需更新它們的參數。通過提供必要的知識，增強型LLMs可以在長尾或領域特定任務上取得更好的性能。

我們的PKG框架基于開源且免費使用的“白盒”小型語言模型，使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致，我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識，并且可以在離線情況下高效地進行更新。

我們的實驗表明，所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能，包括事實知識（FM2 [Eisenschlos et al., 2021], +7.9%）、表格知識（NQ-Table [Herzig et al., 2021], +11.9%）、醫學知識（MedMC-QA [Pal et al., 2022], +3.0%）和多模態知識（ScienceQA [Lu et al., 2022], +8.1%）。我們將我們的貢獻總結如下：

我們提出了一種創新的參數知識引導（PKG）框架，通過集成一個額外的背景知識生成模塊來增強語言模型（LMs）的能力。

我們引入了一種兩步知識對齊方法，將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調，并使參數模塊能夠進行高效的離線更新。

我們對各種下游任務進行了廣泛的實驗，以評估我們提出的PKG框架的有效性。這些實驗的結果表明，我們的PKG框架可以提高LLMs在這些任務上的能力。

2 參數化知識引導

在本節中，我們介紹了一種名為參數知識引導（PKG）的創新框架，旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊，該模塊與LLM集成，以在運行時提供相關知識，指導其推理。為實現這一目標，我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊，這些知識通常是長尾的或不存在于LLM的訓練數據中。然后，給定一個輸入問題或句子，PKG提供相應的背景文檔，擴展LLMs的輸入上下文，使它們能夠處理更廣泛的任務。

**2.1 導引器的知識對齊 **

針對特定任務或領域，我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示，我們將此過程分為兩個步驟。首先，我們收集有關目標任務/領域的原始數據，作為我們的知識來源。然后，我們將數據轉換為一組（指令，輸入，輸出）三元組。指令作為輸入的提示，并指導模塊與預期輸出對齊。接下來，采用這組三元組來調整我們的基本PKG模塊，優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識，并在運行時提供給LLMs。指令提示的示例是：

指令作為提示，指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示，提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出，我們以自回歸方式訓練基本的導引器模塊，其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成，基本模型就會演變成參數化知識導引器，可以根據相應的指令生成特定領域/任務的背景知識。

2.2 用PKG增強LLMs

在許多情況下，使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示，并請求LLMs使用API返回響應/答案。然而，這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制，一種常見的方法是為LLMs提供額外的上下文，使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下，我們增強輸入與領域特定的背景知識，擴展輸入上下文。這個補充信息作為LLMs的指南，使它們能夠訪問更豐富的任務上下文，從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是：

3 實驗

在本節中，評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較，表1和表2所示的結果表明，PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

大模型 · 自然語言處理 · 知識圖譜 · 生成式預訓練 · 大模型+知識圖譜 ·

2023 年 6 月 19 日

[付費5元查看完整內容]大模型時代: 知識圖譜過時了嗎？Griffith大學等最新《統一大型語言模型和知識圖譜:路線圖》，29頁pdf詳述最全指南

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

以ChatGPT為代表的大模型，是全新一代知識表示和調用方式，相比以往知識圖譜的方式，更加高效智能可擴展等，開啟通用人工智能之門。但符號化的知識圖譜過時了嗎？并非如此，知識圖譜和大模型可以進行很好的結合，互相促進，提升知識利用的效果。來自澳大利亞格里菲斯大學（Griffith University）等學者《統一大型語言模型和知識圖譜:路線圖》，29頁pdf詳述最全指南，值得關注！

大型語言模型（LLMs），如ChatGPT和GPT4，由于其新興能力和通用性，正在自然語言處理和人工智能領域掀起新浪潮。然而，LLMs是黑箱模型，常常難以捕獲和獲取事實知識。相比之下，知識圖譜（KGs），例如維基百科和華普，是結構化知識模型，明確存儲豐富的事實知識。知識圖譜可以通過提供外部知識以推理和解釋，從而增強LLMs。同時，知識圖譜難以構建并且具有不斷演變的特性，這對知識圖譜中生成新事實和表示未見知識的現有方法提出了挑戰。因此，將LLMs和知識圖譜統一起來并同時利用它們的優勢是互補的。在這篇文章中，我們提出了一個前瞻性的LLMs和知識圖譜統一的路線圖。我們的路線圖包括三個總體框架，即1) 知識圖譜增強的LLMs，它在LLMs的預訓練和推理階段，或為了增強對LLMs所學知識的理解，將知識圖譜納入其中；2) LLM增強的知識圖譜，利用LLMs進行不同的知識圖譜任務，如嵌入，完成，構建，圖到文本生成和問答；以及 3)協同的LLMs + 知識圖譜，在其中LLMs和知識圖譜扮演著平等的角色，并以互利的方式工作，以增強LLMs和知識圖譜對由數據和知識驅動的雙向推理。我們在路線圖中回顧和總結了這三個框架內的現有努力，并指出了它們的未來研究方向。

1. 引言

大型語言模型（LLMs）（例如，BERT [1]，RoBERTA [2]和T5 [3]），在大規模語料庫上預訓練，已經在各種自然語言處理（NLP）任務中展現出了優異的表現，如問題回答[4]，機器翻譯[5]和文本生成[6]。最近，模型規模的急劇增加進一步賦予了LLMs新興的能力[7]，為將LLMs作為人工通用智能（AGI）的應用鋪平了道路。像ChatGPT和PaLM2這樣的高級LLMs，擁有數十億的參數，在許多復雜的實際任務中展現出了巨大的潛力，如教育[8]，代碼生成[9]和推薦[10]。

盡管LLMs在許多應用中取得了成功，但它們因缺乏事實知識而受到批評。具體來說，LLMs記住了訓練語料庫中包含的事實和知識[14]。然而，進一步的研究揭示，LLMs無法回憶起事實，而且經常會產生幻覺，生成事實上不正確的聲明[15]，[28]。例如，當被問到“愛因斯坦在什么時候發現了重力？”時，LLMs可能會說“愛因斯坦在1687年發現了重力”，這與艾薩克·牛頓制定了引力理論的事實相矛盾。這個問題嚴重損害了LLMs的可信度。

作為黑箱模型，LLMs也因其缺乏可解釋性而受到批評。LLMs隱含地在它們的參數中表示知識。解釋或驗證LLMs獲取的知識很困難。此外，LLMs通過概率模型執行推理，這是一個不確定的過程[16]。LLMs用于得出預測或決策的特定模式和功能對人類來說并不直接可訪問或可解釋[17]。盡管一些LLMs通過應用思維鏈[29]來解釋它們的預測，但它們的推理解釋也受到了幻覺問題的影響[30]。這嚴重影響了LLMs在高風險場景中的應用，如醫療診斷和法律判斷。例如，在一個醫療診斷場景中，LLMs可能會錯誤地診斷疾病，并提供與醫學常識相矛盾的解釋。這引發了另一個問題，即在一般語料庫上訓練的LLMs可能無法很好地泛化到特定領域或新知識，因為缺乏領域特定的知識或新的訓練數據[18]。

為解決上述問題，一個可能的解決方案是將知識圖譜（KGs）融入到LLMs中。知識圖譜（KGs），以三元組（頭實體，關系，尾實體）的方式存儲大量事實，是一種結構化且決定性的知識表示方式（例如，Wikidata [20]，YAGO [31]，和 NELL [32]）。KGs對于各種應用至關重要，因為它們提供了準確的顯式知識[19]。此外，它們因其象征性推理能力[22]而著名，該能力可以生成可解釋的結果。KGs也可以隨著新知識的不斷加入而積極演化[24]。此外，專家可以構建特定領域的KGs，以提供精確且可靠的特定領域知識[23]。然而，KGs難以構建[33]，而當前在KGs中的方法[25]，[27]，[34]在處理真實世界KGs的不完整和動態變化性質方面是不足夠的。這些方法未能有效地模擬未見實體和表示新事實。此外，它們經常忽視KGs中的豐富文本信息。此外，KGs中的現有方法通常針對特定的KGs或任務定制，不夠通用。因此，利用LLMs來解決KGs面臨的挑戰也是必要的。我們分別在圖1中總結了LLMs和KGs的優缺點。

最近，將LLMs與KGs統一起來的可能性越來越受到研究人員和從業人員的關注。LLMs和KGs本質上是互相關聯的，可以相互增強。在KG增強的LLMs中，KGs不僅可以被整合到LLMs的預訓練和推理階段，以提供外部知識[35]-[37]，而且還可以用于分析LLMs并提供可解釋性[14]，[38]，[39]。在LLM增強的KGs中，LLMs已經被用于各種與KG相關的任務，例如KG嵌入[40]，KG完成[26]，KG構建[41]，KG-to-text生成[42]，和KGQA[43]，以提高KGs的性能并促進KGs的應用。在協同作用的LLM + KG中，研究人員將LLMs和KGs的優點結合起來，相互提高在知識表示[44]和推理[45]，[46]方面的性能。雖然有一些關于知識增強LLMs的調查[47]-[49]，主要關注使用KGs作為外部知識來增強LLMs，但它們忽視了其他整合KGs的可能性，以及LLMs在KG應用中的潛在角色。

在這篇文章中，我們提出了一個展望未來的路線圖，用于統一LLMs和KGs，利用它們各自的優勢并克服各種方法的限制，以適應各種下游任務。我們提出了詳細的分類，進行了全面的回顧，并指出了這些快速發展領域的新興方向。我們的主要貢獻如下：

路線圖。我們提出了一個展望未來的路線圖，用于整合LLMs和KGs。我們的路線圖包括三個通用框架來統一LLMs和KGs，即，KG增強的LLMs，LLM增強的KGs，以及協同作用的LLM + KGs，為這兩種不同但互補的技術的統一提供了指導。

分類和回顧。對于我們路線圖的每一個整合框架，我們都提出了詳細的分類和統一LLMs和KGs研究的新穎分類法。在每個類別中，我們從不同的整合策略和任務的角度回顧了研究，這為每個框架提供了更多的洞察。

新興進步的覆蓋范圍。我們覆蓋了LLMs和KGs的先進技術。我們包括了最新的LLMs如ChatGPT和GPT-4以及新的KGs，例如多模態知識圖譜的討論。

挑戰和未來方向的總結。我們強調了現有研究中的挑戰，并提出了一些有前途的未來研究方向。

2. 背景知識

在本節中，我們將首先簡要介紹幾種代表性的大型語言模型（LLMs），并討論提示工程，該工程有效地使用LLMs進行各種應用。然后，我們將說明知識圖譜（KGs）的概念，并介紹KGs的不同類別。

大型語言模型

在大規模語料庫上預訓練的大型語言模型（LLMs）已經在各種NLP任務中展現出巨大的潛力[13]。如圖3所示，大多數LLMs都源于Transformer設計[50]，該設計包含了由自注意力機制賦能的編碼器和解碼器模塊。根據架構結構，LLMs可以被分類為三個組：1）僅編碼器的LLMs，2）編碼器-解碼器的LLMs，和3）僅解碼器的LLMs。如圖2所示，我們總結了幾個具有不同模型架構，模型大小和開源可用性的代表性LLMs。

提示工程

提示工程是一個新興的領域，專注于創建和精煉提示，以最大化大型語言模型（LLMs）在各種應用和研究領域中的效用[63]。如圖4所示，提示是為LLMs指定任務（例如，情感分類）的自然語言輸入序列。一個提示可能包含幾個元素，即1）指令，2）上下文，和3）輸入文本。指令是指導模型執行特定任務的短句。上下文為輸入文本或少數示例提供背景。輸入文本是需要模型處理的文本。提示工程尋求提高大型語言模型（例如，ChatGPT）在多種復雜任務中的能力，如問題回答，情感分類和常識推理。鏈式思維（CoT）提示[64]通過中間推理步驟實現復雜推理能力。Liu等人[65]結合外部知識來設計更好的知識增強提示。自動提示工程師（APE）提出了一種自動提示生成方法，以提高LLMs的性能[66]。提示提供了一種簡單的方式，可以在無需微調的情況下利用LLMs的潛力。精通提示工程可以更好地理解LLMs的優點和缺點。

知識圖譜（KGs）知識圖譜（KGs）將結構化知識存儲為三元組集合KG = {(h, r, t) ? E × R × E}，其中E和R分別表示實體和關系的集合。現有的知識圖譜（KGs）可以根據存儲的信息被分為四組：1）百科全書型KGs，2）常識KGs，3）特定領域KGs，以及4）多模態KGs。我們在圖5中展示了不同類別的KGs的例子。

** 應用**

LLMs 以及 KGs 已被廣泛應用在各種真實世界的應用中。我們在表1中總結了一些使用LLMs和KGs的代表性應用。ChatGPT/GPT-4是基于LLM的聊天機器人，可以以自然對話格式與人類進行交流。為了提高LLMs的知識意識，ERNIE 3.0 和 Bard將KGs整合進他們的聊天機器人應用中。Firefly開發了一款照片編輯應用，允許用戶使用自然語言描述來編輯照片。Copilot、New Bing 和 Shop.ai 分別采用LLMs來增強他們在編碼助手、網絡搜索和推薦等領域的應用。Wikidata 和 KO 是兩個代表性的知識圖譜應用，被用來提供外部知識。AliOpenKG是一個為推薦設計的知識圖譜。Doctor.ai 開發了一個健康護理助手，整合了LLMs和KGs以提供醫療建議。

3 路線圖和分類

在本節中，我們首先提出一個明確的框架路線圖，以統一LLMs和KGs。然后，我們呈現了關于統一LLMs和KGs的研究分類。

3.1 路線圖

我們在圖6中描繪了統一KGs和LLMs的路線圖。在路線圖中，我們確定了統一LLMs和KGs的三個框架，包括KG增強的LLMs，LLM增強的KGs，以及協同的LLMs + KGs。

3.1.1 KG增強的LLMs

LLMs因其能夠從大規模語料庫中學習知識并在各種自然語言處理（NLP）任務中取得最先進的性能而聞名。然而，LLMs經常因其幻覺問題[15]和缺乏可解釋性而受到批評。為解決這些問題，研究人員已經提出了用知識圖譜（KGs）來增強LLMs。KGs以明確和結構化的方式存儲大量知識，這可以用來增強LLMs的知識意識。一些研究人員已經提出在預訓練階段將KGs納入LLMs，這可以幫助LLMs從KGs中學習知識[91]，[92]。其他研究人員提出在推理階段將KGs納入LLMs。通過從KGs中檢索知識，可以顯著提高LLMs在獲取特定領域知識方面的性能[93]。為了提高LLMs的可解釋性，研究人員還利用KGs來解釋LLMs的事實[14]和推理過程[94]。

3.1.2 由LLM增強的KG

知識圖譜（KGs）儲存著結構化的知識，這在很多實際應用中都起著至關重要的作用[19]。然而，現有的KG方法在處理不完整的KG [25]和處理文本語料庫來構建KG [95]方面存在短板。鑒于LLM的泛化能力，許多研究人員正試圖利用LLM來解決KG相關的任務。最直接的方式就是將LLM作為KG相關任務的文本編碼器。研究人員利用LLM處理KG中的文本語料庫，然后使用文本的表示來豐富KG的表示[96]。一些研究還使用LLM來處理原始語料庫，并提取關系和實體用于KG的構建[97]。最近的一些研究試圖設計一個KG提示，這可以有效地將結構化的KG轉化為LLM可以理解的格式。這樣，LLM就可以直接應用到KG相關的任務中，例如KG完成[98]和KG推理[99].

3.1.3 融合了LLM和KG的系統

這幾年，研究人員越來越關注將LLM和KG融合的潛力[40]，[42]。LLM和KG是兩種固有的互補技術，應當將它們統一到一個通用框架中，以便互相增強。為了進一步探索這種統一，我們在圖7中提出了一個融合了LLM和KG的統一框架。這個統一框架包含四層：1) 數據，2) 融合模型，3) 技術，和4) 應用。在數據層，LLM和KG分別用于處理文本和結構化數據。隨著多模態LLM[100]和KG[101]的發展，這個框架可以擴展到處理多模態數據，如視頻、音頻和圖像。在融合模型層，LLM和KG可以相互協同，以提高他們的能力。在技術層，已經在LLM和KG中使用的相關技術可以被納入到這個框架中，以進一步增強性能。在應用層，LLM和KG可以整合起來，以解決各種實際應用，如搜索引擎[102]、推薦系統[10]和AI助手[103]。

3.2 分類

為了更好地理解將大型語言模型(LLMs)和知識圖譜(KGs)統一的研究，我們為路線圖中的每個框架提供了更細粒度的分類。具體來說，我們關注了將知識圖譜和大型語言模型集成的不同方式，即，知識圖譜增強的大型語言模型、知識圖譜增量的大型語言模型，以及融合了大型語言模型和知識圖譜的系統。研究的細粒度分類如圖8所示。

知識圖譜增強的大型語言模型。整合知識圖譜可以提高大型語言模型在各種下游任務中的性能和可解釋性。我們將知識圖譜增強的大型語言模型研究分為三組：1) 知識圖譜增強的大型語言模型預訓練包括在預訓練階段應用知識圖譜并提高大型語言模型的知識表達的工作。2) 知識圖譜增強的大型語言模型推理包括在大型語言模型的推理階段使用知識圖譜的研究，這使得大型語言模型能夠在不進行再訓練的情況下獲取最新的知識。3) 知識圖譜增強的大型語言模型的可解釋性包括使用知識圖譜來理解大型語言模型所學習的知識和解釋大型語言模型的推理過程的工作。

大型語言模型增量的知識圖譜。大型語言模型可以應用于增強各種與知識圖譜相關的任務。我們根據任務類型將大型語言模型增量的知識圖譜研究分為五組：1) 大型語言模型增強的知識圖譜嵌入包括使用大型語言模型來豐富知識圖譜的表示，通過編碼實體和關系的文本描述。2) 大型語言模型增強的知識圖譜完成包括使用大型語言模型編碼文本或生成事實以提高知識圖譜完成(KGC)性能的論文。3) 大型語言模型增強的知識圖譜構建包括使用大型語言模型處理實體發現，共指消解，和關系提取任務以構建知識圖譜的工作。4) 大型語言模型增強的知識圖譜到文本生成包括使用大型語言模型生成描述來自知識圖譜的事.

7 未來方向

在前面的部分中，我們已經回顧了將知識圖譜(KGs)和大型語言模型(LLMs)統一的最新進展，但是仍有許多挑戰和未解決的問題需要解決。在本節中，我們將討論這個研究領域的未來方向。

使用知識圖譜(KGs)進行大型語言模型(LLMs)的錯覺檢測
在LLMs中編輯知識的知識圖譜(KGs)
用于黑盒LLMs知識注入的知識圖譜(KGs)
針對知識圖譜(KGs)的多模態LLMs
用于理解知識圖譜結構的LLMs
用于雙向推理的融合LLMs和KGs。

8 結論

將大型語言模型（LLMs）和知識圖譜（KGs）統一是一個吸引了學術界和工業界越來越多關注的活躍的研究方向。在本文中，我們對該領域的最近研究提供了全面的概述。我們首先介紹了將KGs集成以增強LLMs的不同方式。然后，我們介紹了應用LLMs于KGs的現有方法，并基于各種KG任務建立了分類法。最后，我們討論了這個領域的挑戰和未來的方向。我們希望本文能夠提供對這個領域的全面理解，并推動未來的研究。

付費5元查看完整內容

大模型 · ChatGPT · 自然語言處理 · 領域大模型 ·

2023 年 6 月 8 日

[付費5元查看完整內容]大模型如何領域適配？埃默里大學等首篇《大型語言模型領域專業化》綜述，42頁pdf詳述大模型領域垂直化技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何讓模型適配專業領域？這篇文章夠了

大型語言模型（LLMs）顯著推進了自然語言處理（NLP）領域的發展，為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展，遠超“聊天機器人”，并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而，直接應用LLMs解決特定領域的復雜問題會遇到許多難題，這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性，以及領域應用中的各種限制（例如，各種社會規范、文化一致性、宗教信仰和道德標準）所引起。為了填補這種空白，在最近幾年中，對LLMs領域專化的研究和實踐已經爆炸式增長，然而，這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中，首先，我們提出了一個系統的分類法，該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類，并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法，這些領域可以從專業化的LLMs中受益，討論了它們的實際意義和開放的挑戰。此外，我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理（NLP）和人工智能（AI）模型的演變經歷了顯著的軌跡，始于1950年和1960年的基于規則的系統，轉變為1990年的統計模型，然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功，預訓練語言模型（PLMs）在2010年后期出現并迅速流行，這得益于它們能以無監督的方式從大規模數據中學習通用語言表示，這對許多下游NLP任務如常識推理[270]，多選題回答[206]和故事生成[30]都有益處，同時避免了從頭開始訓練新模型。在過去的幾年中，隨著大規模語料庫和硬件容量的快速增長，研究人員發現，通過擴大模型和訓練數據可以持續提高模型的容量，遵循擴展規則[99]，最終導致了大型語言模型（LLMs）[259]的出現，如GPT-3[28]（175B參數），PaLM[39]（540B參數），和LLaMA[235]（65B參數）。LLMs在理解和生成類人文本方面明顯優于較小的模型，已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋，對改變自然和社會科學的潛力，可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型（LLMs）作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展，遠超過僅作為“聊天機器人”[173]，而是將其用作特定領域如健康保健、金融和教育的助手，甚至替代人工或現有的事實上的工具。然而，直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先，不同領域、角色和任務的對話和語言風格存在顯著差異，范圍從醫療處方，到法律句子，到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練，其中很多都是實踐性的和專有的。此外，不同的領域、機構和團隊有自己的“商業模式”，關于哪種回應將最大化他們自己的效用函數以完成他們的任務，這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是，專業級使用的領域知識要求也需要非常深入，實時且準確，這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力，絕不能泄露給通用的LLMs。最后但并非最不重要的一點，語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束，所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數，這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性，即將通用的LLMs定制到領域的上下文數據，增強領域知識，優化領域目標，并受到領域限制的調控。為了實現這個目標，這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題，需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰，包括：1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而，這也意味著LLMs往往有一個知識斷層（即，LLMs無法獲取最新的信息、事件或發現）。在許多專業領域，新的發現、規定和最佳實踐不斷出現，這使得LLMs難以保持最新。例如，每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查，LLMs可能無法處理它們，因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而，確保模型的新鮮度可能需要大量的資源，因為它需要連續的高質量和最新的數據收集、處理，以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下，LLMs具有廣泛主題的通用知識，并可能已經看到并獲得了大部分領域的特定知識。然而，更受歡迎或廣泛討論的話題可能被過度代表，而一些領域特定的話題可能被低估，這使得它們難以被有效地提取用于領域特定的任務。此外，領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導，LLMs可能會生成聽起來合理但對類似查詢（即，LLM的幻覺）或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列，而不是基于結構化知識庫提供確定的答案。研究人員發現，通過為LLMs提供一些任務特定的演示，用戶可以指導模型生成更相關、準確和任務特定的回應，從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口，通常由它們可以處理的最大令牌長度決定（例如，ChatGPT只能處理4097個令牌）。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用，微調歷史上是專門化語言模型的常用做法。然而，與傳統的語言模型不同，微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外，LLM的復雜性使得確定最適當的微調策略變得具有挑戰性，因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘，因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識，并過度適應目標領域。除了數據需求和復雜模型架構之外，LLM通常由數十億的參數組成，例如，生成預訓練Transformer 3（GPT-3）[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數，這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件，如TPU，這可能會很昂貴，尤其是對于個人研究者或小型組織來說，獲取這些資源可能會非常困難。

在過去的幾年中，對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻，只需進行少量修改并獲取領域特定信息，就可以適應特定領域。然而，將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰，同樣的，缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙，并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙，更有效地利用人工智能完成各種領域的任務，這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括：

? 對LLMs領域專業化技術的系統分類和分類法：我們基于對LLM的不同級別（即，黑箱、灰箱和白箱）的可訪問性，全面地分類了現有的方法，并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結：我們首次提出了代表性應用領域的分類法，LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明，便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域，以評估他們新提出的方法，同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解，以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明，擴展預訓練語言模型，如增加模型大小或數據大小，常常能提升模型在下游任務中的處理能力。在本節中，我們首先回顧了PLMs的基本概念，然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型（LLMs）的可訪問性級別，將專門化LLMs進入領域的方法分為三類，即無訪問權限（黑箱），部分訪問權限（灰箱）和全訪問權限（白箱）。黑箱通常表示我們只能訪問模型API（例如，ChatGPT和GPT4），而不知道除生成的輸出外的任何信息；灰箱表示我們有限的信息（例如，GPT-3 API中生成的令牌的概率），這樣的信息可以指導我們設計并微調適當的提示，以更好地引出領域知識；白箱則表示我們可以全面訪問LLM（例如，LLaMA及其變種），包括參數設置，訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說，

1）外部增強（黑箱）并不需要訪問LLM的內部參數空間，使其對資源有限的用戶（例如，計算資源，特定領域的數據）最為可接觸。如圖2（b）所示，通過使用外部資源或工具，將領域特定知識融入輸入提示，生成的輸出，或兩者，有效地改進了LLM的性能，而無需修改其內部結構。

2）提示制作（灰箱）涉及訪問LLM的梯度或損失值來設計各種類型的提示，允許更精細地控制模型的行為。

3）模型微調（白箱）需要最多的訪問權限和資源，因為它涉及更新LLM的參數，將領域特定知識直接融入模型。（圖2（d））。

3 LLM領域專業化的應用

在這篇綜述性的論文中，我們探索了LLMs在一系列特定領域任務中的應用，這些領域包括社會科學（如教育，金融，法律），自然科學（如生物醫學，地球科學），以及應用科學（如人機交互，軟件工程和網絡安全）。為了在這些多元化領域實現LLMs的領域專業化，讀者可以采用各種技術，如外部增強，指示制作，和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰，從而使得應用更準確，相關和有效。雖然每個領域都有其獨特的挑戰和需求，但在這些領域中，專門化的LLMs有幾個共同的應用：

? 高級信息提取：它們可以從特定領域的文本中識別實體，關系和事件，如從生物醫學文獻中識別基因，或在合同中檢測法律條款。 ? 文本生成和摘要：它們可以生成高質量的，特定領域的內容，并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦：它們可以分析特定領域的數據進行預測和提供推薦，如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統：它們可以被融入到對話代理或專家系統中，提供特定領域的指導，如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析：在軟件工程中，它們可以基于自然語言描述生成或分析代碼，識別錯誤，或提出改進建議。

4. 結論

總的來說，大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然，社會和應用科學領域中的特定領域任務的極大興趣。然而，若干挑戰，如特定領域的專業知識有限，知識誘導和模型復雜性，阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結，并提供了一個全面的應用領域分類，這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點，缺點和關系的詳細分析，這份調查旨在幫助領域專家確定適合他們目標問題設置的技術，同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外，該文還強調了這一領域研究的當前狀態，揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展，這份調查為研究人員和從業人員提供了寶貴的資源，進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

大模型 · 推薦系統 · 大型語言模型 ·

2023 年 6 月 1 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最新大模型推薦綜述

大型語言模型（LLMs）已在自然語言處理（NLP）領域嶄露頭角，并在推薦系統（RS）領域近期受到了極大關注。這些模型通過自監督學習在大量數據上進行訓練，已在學習通用表示上取得了顯著成功，并有可能通過一些有效的遷移技術（如微調和提示調整等）來增強推薦系統的各個方面。利用語言模型的力量來提高推薦質量的關鍵在于利用它們對文本特征的高質量表示以及對外部知識的廣泛覆蓋，以建立項目和用戶之間的關聯。為了提供對現有基于LLM的推薦系統的全面理解，本綜述提出了一種分類法，將這些模型分為兩大范式，分別是用于推薦的判別型LLM（DLLM4Rec）和用于推薦的生成型LLM（GLLM4Rec），其中后者是首次被系統地整理出來。此外，我們在每種范式中都系統地回顧并分析了現有的基于LLM的推薦系統，提供了它們的方法、技術和性能的洞察。此外，我們也識別出了關鍵的挑戰和一些有價值的發現，以為研究者和實踐者提供靈感。

//www.zhuanzhi.ai/paper/f88ecfaf9c5216f16d59098d5751bbc5

1. 引言

推薦系統在幫助用戶尋找相關和個性化的項目或內容方面發揮了至關重要的作用。隨著在自然語言處理（NLP）領域出現的大型語言模型（LLMs），人們對利用這些模型的能力來增強推薦系統的興趣日益增強。 將大型語言模型（LLMs）融入推薦系統的關鍵優勢在于，它們能夠提取高質量的文本特征表示，并利用其中編碼的廣泛外部知識[Liu等人，2023b]。此綜述將LLM視為基于Transformer的模型，這種模型參數眾多，通過使用自/半監督學習技術在大規模數據集上進行訓練，例如BERT，GPT系列，PaLM系列等。與傳統的推薦系統不同，基于LLM的模型擅長捕獲上下文信息，更有效地理解用戶查詢、項目描述和其他文本數據[Geng等人，2022]。通過理解上下文，基于LLM的推薦系統（RS）可以提高推薦的準確性和相關性，從而提高用戶滿意度。同時，面對有限的歷史交互數據稀疏問題[Da’u和Salim，2020]，LLMs還通過零/少樣本推薦能力[Sileo等人，2022]為推薦系統帶來新的可能性。這些模型可以推廣到未見過的候選項，因為它們通過事實信息、領域專業知識和常識推理進行了廣泛的預訓練，使它們即使沒有接觸過特定的項目或用戶，也能提供合理的推薦。

上述策略已在判別模型中得到了良好的應用。然而，隨著AI學習范式的演變，生成語言模型開始受到關注[Zhao等人，2023]。這一發展的一個重要例證就是ChatGPT和其他類似模型的出現，它們已經對人類的生活和工作模式產生了重大影響。此外，將生成模型與推薦系統相結合，有可能帶來更多創新和實用的應用。例如，可以提高推薦的可解釋性，因為基于LLM的系統能夠根據其語言生成能力提供解釋[Gao等人，2023]，幫助用戶理解影響推薦的因素。此外，生成語言模型使得更個性化和上下文感知的推薦成為可能，例如在聊天式推薦系統中用戶可以定制提示[Li等人，2023]，增強用戶對結果多樣性的參與和滿意度。受到上述范式在解決數據稀疏性和效率問題上顯著效果的啟發，將語言建模范式用于推薦已經在學術界和工業界中成為了一個有前景的方向，顯著地推進了推薦系統研究的最新技術。到目前為止，有一些研究回顧了這個領域的相關論文[Zeng等人，2021; Liu等人，2023b]。Zeng等人(2021)總結了一些關于推薦模型預訓練的研究，并討論了不同領域間的知識轉移方法。Liu等人(2023b)提出了一種正交分類法，將現有的基于預訓練語言模型的推薦系統根據它們的訓練策略和目標進行劃分，分析和總結了預訓練語言模型基礎訓練范式和不同輸入數據類型之間的聯系。然而，這兩項調查主要關注的是預訓練語言模型中訓練技術和策略的轉移，而不是探索語言模型及其能力，即基于LLM的方式。此外，他們缺乏對推薦領域中生成大型語言模型最近進展和系統介紹的全面概覽。為解決這個問題，我們深入研究了基于LLM的推薦系統，將它們分為用于推薦的判別性LLM和用于推薦的生成性LLM，我們的回顧重點放在后者上。據我們所知，我們的綜述是第一個對推薦系統的生成大型語言模型進行最新和全面回顧的工作。

我們的綜述主要貢獻如下：

我們對當前基于LLM的推薦系統的狀態進行了系統性的綜述，重點是擴大語言模型的能力。通過分析現有方法，我們對相關進展和應用提供了系統的概覽。

據我們所知，我們的調查是首個專門針對推薦系統的生成型大型語言模型的全面和最新的回顧。

我們的綜述批判性地分析了現有方法的優點、缺點和限制。我們確定了基于LLM的推薦系統面臨的關鍵挑戰，并提出了有價值的發現，可以激發在這個有潛力的領域進一步的研究。

2 建模范式和分類法

所有大型語言模型的基本框架都由幾個Transformer塊組成，例如GPT，PaLM，LLaMA等。這種架構的輸入通常由token嵌入或位置嵌入等組成，而在輸出模塊可以獲得期望的輸出嵌入或token。在這里，輸入和輸出數據類型都是文本序列。如圖1的(1)-(3)所示，對于在推薦中適應語言模型，即建模范式，現有的工作可以大致分為以下三類：

(1) LLM Embeddings + RS。這種建模范式將語言模型視為特征提取器，將物品和用戶的特征輸入到LLM中并輸出相應的嵌入。傳統的RS模型可以利用知識感知嵌入進行各種推薦任務。 (2)** LLM Tokens + RS**。與前一種方法類似，這種方法根據輸入的物品和用戶的特征生成token。生成的令牌通過語義挖掘捕捉潛在的偏好，可以被整合到推薦系統的決策過程中。 (3) LLM作為RS。與(1)和(2)不同，這個范式的目標是直接將預訓練的LLM轉換為一個強大的推薦系統。輸入序列通常包括簡介描述、行為提示和任務指示。輸出序列預計會提供一個合理的推薦結果。

在實際應用中，語言模型的選擇顯著影響推薦系統中建模范式的設計。如圖2所示，在本文中，我們將現有的工作劃分為兩個主要類別，分別是用于推薦的判別性LLM和生成性LLM。用于推薦的LLM的分類可以根據訓練方式進一步細分，不同方式之間的區別在圖3中有所說明。一般來說，判別性語言模型非常適合在范式(1)中嵌入，而生成性語言模型的響應生成能力進一步支持范式(2)或(3)。

3 用于推薦的判別性LLM

確實，所謂的在推薦領域的判別性語言模型主要是指BERT系列的模型[Devlin等人，2019]。由于判別性語言模型在自然語言理解任務中的專業性，它們通常被視為下游任務的嵌入骨干。這也適用于推薦系統。大多數現有的工作通過微調將像BERT這樣的預訓練模型的表現與特定領域的數據進行對齊。另外，一些研究探索了像提示調整這樣的訓練策略。代表性的方法和常用的數據集在表1和表2中列出。

3.1 微調

微調預訓練的語言模型是一種在各種自然語言處理（NLP）任務中，包括推薦系統，受到了顯著關注的通用技術。微調背后的思想是，采取一個已經從大規模文本數據中學習了豐富的語言表達的語言模型，并通過在特定任務的數據上進一步訓練它，使其適應特定的任務或領域。微調的過程包括用其學習到的參數初始化預訓練的語言模型，然后在針對推薦的特定數據集上訓練它。這個數據集通常包括用戶-物品互動、物品的文本描述、用戶配置文件和其他相關的上下文信息。在微調過程中，模型的參數根據特定任務的數據進行更新，使其能夠適應和專門用于推薦任務。在預訓練和微調階段，學習目標可以是不同的。由于微調策略是靈活的，大多數基于BERT增強的推薦方法可以歸納到這個軌道。對于基本的表示任務，邱等人（2021）提出了一種新的基于預訓練和微調的方法U-BERT來學習用戶的表示，該方法利用內容豐富的領域來補充那些行為數據不足的用戶特征。設計了一個評論共匹配層來捕獲用戶和物品評論之間的隱式語義交互。同樣，在UserBERT [Wu et al., 2021b]中，加入了兩個自我監督任務，對未標記的行為數據進行用戶模型預訓練，以增強用戶建模。這個模型利用中等難度的對比學習、遮蔽行為預測和行為序列匹配，通過捕捉內在的用戶興趣和相關性，訓練精確的用戶表示。

預訓練的BERT在排名任務中取得了突破性的成就。BECR [Yang等人，2022]提出了一種輕量級的復合重新排名方案，該方案同時結合了深度上下文token交互和傳統的詞匯詞項匹配特性。通過新穎的復合token編碼，BECR有效地利用基于單字和跳字n-grams的可預計算token嵌入來逼近查詢表示，從而在臨時排名相關性和效率之間實現了合理的權衡。此外，Wu等人(2022)提出了一個端到端的多任務學習框架，用于產品排名，使用領域特定的BERT進行微調，以解決查詢和產品之間的詞匯不匹配問題。作者利用了專家混合層和任務之間的概率轉移，以利用豐富的用戶參與數據。還有許多其他特定任務或場景的相關研究，例如團隊推薦[Zhang等人，2022]，搜索/匹配[Yao等人，2022]，CTR預測[Muhamed等人，2021]。特別地，"預訓練，微調"機制在幾個順序或基于會話的推薦系統中起到了重要作用，如BERT4Rec [Sun等人，2019]，RESETBERT4Rec [Zhao，2022]。然而，上述模型只是利用了訓練策略的優勢，而沒有將大型語言模型擴展到推薦領域，因此不是我們討論的重點。序列表示學習模型UniSRec [Hou等人，2022]開發了一個BERT微調框架，將項目的描述文本關聯起來，在不同的推薦場景中學習可轉移的表示。對于基于內容的推薦，特別是新聞推薦，NRMS [Wu等人，2021a]，Tiny-NewsRec [Yu等人，2022]，PREC [Liu等人，2022]，利用大型語言模型通過處理已知的領域轉移問題或減少轉移成本來增強新聞推薦。總的來說，將BERT微調集成到推薦系統中，融合了強大的外部知識和個性化的用戶偏好，主要目標是提高推薦準確性，同時獲得對具有有限歷史數據的新項目的一些冷啟動處理能力。

3.2 提示調優

與設計特定目標函數來適應不同的下游推薦任務不同，提示調優 [Lester等人，2021]試圖通過硬/軟提示和標簽詞語 verbalizer，將推薦的調優對象與預訓練的損失對齊。例如，Penha和Hauff (2020)利用BERT的Masked Language Modeling (MLM)頭來通過cloze-style提示揭示其對項目類型的理解。他們進一步利用了BERT的Next Sentence Prediction (NSP)頭和表示的相似性 (SIM) 來比較相關和不相關的搜索和推薦查詢-文檔輸入。實驗表明，BERT在沒有任何微調的情況下，可以在排名過程中優先考慮相關項目。Yang等人 (2021)開發了一個帶有提示的對話推薦系統，其中一個基于BERT的項目編碼器直接將每個項目的元數據映射到一個嵌入中。最近，Prompt4NR [Zhang和Wang, 2023]率先應用了提示學習范式進行新聞推薦。這個框架重新定義了預測用戶點擊候選新聞的目標，作為一個cloze-style的 maskprediction任務。實驗發現，通過利用多提示集成，推薦系統的性能顯著提高，超過了在離散和連續模板上使用單一提示所達到的結果。這突出了提示集成在結合多個提示做出更明智決策方面的有效性。

**4 針對推薦的生成型LLMs **

相比于判別型模型，生成型模型具有更好的自然語言生成能力。因此，不像大多數基于判別模型的方法將LLMs學習到的表示與推薦領域對齊，大多數基于生成模型的工作將推薦任務翻譯為自然語言任務，然后應用像在上下文中學習，提示調優，和指導調優這樣的技術，來適應LLMs直接生成推薦結果。此外，隨著ChatGPT展示出的令人印象深刻的能力，這類工作近來受到了更多的關注。如圖2所示，根據是否調整參數，這些基于生成型LLM的方法可以進一步劃分為兩種范例：無調優范例和調優范例。以下兩個小節將分別討論它們的細節。代表性的方法和常用的數據集也在表1和表2中列出。

4.1 無調整范式

LLMs在許多未見任務中展示出強大的零/少量樣本學習能力 [Brown et al., 2020; Ouyang et al., 2022]。因此，一些最近的研究假設LLMs已經具有推薦能力，并試圖通過引入特定的提示來觸發這些能力。他們采用了最近的Instruction和In-Context Learning [Brown et al., 2020]實踐，以在不調整模型參數的情況下將LLMs適應推薦任務。根據提示是否包含示例，這個范式中的研究主要屬于以下兩類：提示和上下文學習。

提示范例這類工作旨在設計更適合的指示和提示，幫助LLMs更好地理解和解決推薦任務。Liu等人（2023a）系統地評估了ChatGPT在五個常見推薦任務上的表現，即評分預測，序列推薦，直接推薦，解釋生成和評論摘要。他們提出了一個通用的推薦提示構建框架，包括：（1）任務描述，將推薦任務適應為自然語言處理任務；（2）行為注入，將用戶-項目交互納入，幫助LLMs捕獲用戶的喜好和需求；（3）格式指示器，約束輸出格式，使推薦結果更容易理解和評估。同樣，Dai等人（2023）對ChatGPT在三個常見信息檢索任務（包括點對點，對對，和列表排序）上的推薦能力進行了實證分析。他們為不同類型的任務提出了不同的提示，并在提示的開頭引入了角色指示（例如，你現在是一個新聞推薦系統。）來增強ChatGPT的領域適應能力。除了提出一般框架外，有些工作專注于為特定推薦任務設計有效的提示。Sileo等人（2022）從GPT-2的預訓練語料庫中挖掘出了電影推薦提示。Hou等人（2023）介紹了兩種提升LLMs序列推薦能力的提示方法：以近期為重的序列提示，使LLMs能夠感知到用戶交互歷史中的序列信息，和引導法，將候選項目列表多次洗牌并取平均得分進行排名，以緩解位置偏見問題。由于LLMs允許的輸入token數量有限，很難在提示中輸入一個長的候選列表。為解決這個問題，Sun等人（2023）提出了一種滑動窗口提示策略，每次只在窗口中對候選項進行排序，然后以從后到前的順序滑動窗口，最后重復這個過程多次，以獲得總體排名結果。

除了將LLMs作為推薦系統，一些研究還利用LLMs來構建模型特征。GENRE [Liu等人，2023c]引入了三個提示，使用LLMs進行新聞推薦的三個特征增強子任務。具體來說，它使用ChatGPT根據摘要優化新聞標題，從用戶閱讀歷史中提取關鍵詞，并生成合成新聞以豐富用戶的歷史交互。通過整合LLMs構建的這些特征，傳統的新聞推薦模型可以得到顯著改善。類似地，NIR [Wang和Lim，2023]設計了兩個提示來生成用戶偏好關鍵詞，并從用戶交互歷史中提取代表性電影，以改進電影推薦。

在實踐中，除了排序模型外，整個推薦系統通常由多個重要組件組成，如內容數據庫、候選檢索模型等。因此，另一種利用LLMs進行推薦的方法是將它們作為整個系統的控制器。ChatREC [Gao et al., 2023]圍繞ChatGPT設計了一個交互式推薦框架，該框架通過多輪對話理解用戶需求，并調用現有推薦系統提供結果。此外，ChatGPT可以控制數據庫檢索相關內容以補充提示，并解決冷啟動項目問題。GeneRec [Wang et al., 2023]提出了一種生成性推薦框架，并使用LLMs控制何時推薦現有項目或通過AIGC模型生成新項目。總的來說，這些研究利用自然語言提示激活LLM在推薦任務中的零樣本學習能力，提供了一種低成本且實用的解決方案。

4.2 調整范式

如上所述，LLMs具有強大的zero/few-shot能力，通過適當的提示設計，它們在推薦性能方面可以顯著超越隨機猜測。然而，僅以這種方式構建的推薦系統往往無法超越專門針對特定任務和特定數據訓練的推薦模型的性能。因此，許多研究人員通過進一步的微調或提示學習來增強LLMs的推薦能力。在本文中，我們按照[Wei等，2022]的分類，將調整方法的范式劃分為兩種不同類型，分別是提示調整和指令調整。具體而言，在提示調整范式下，LLMs的參數或軟提示針對特定任務進行微調，例如評分預測；而在指令調整范式下，LLMs通過在不同類型的指令下對多個任務進行微調來獲得更好的性能。然而，目前對于這兩種微調范式還沒有明確的劃分或普遍接受的定義。

5 發現

在本綜述中，我們系統地回顧了大型語言模型在推薦系統中的應用范式和適應策略，特別是針對生成式語言模型。我們已經確定了它們在特定任務中改進傳統推薦模型性能的潛力。然而，需要注意的是，這個領域的整體探索仍處于早期階段。研究人員可能會發現確定最值得研究的問題和痛點是具有挑戰性的。為了解決這個問題，我們總結了許多大規模模型推薦研究中提出的共同發現。這些發現突出了一些技術挑戰，并呈現了進一步發展的潛在機會，包括模型偏見、提示設計和評估。

6 結論

本文回顧了大型語言模型（LLMs）在推薦系統領域的研究。我們將現有的工作分為判別模型和生成模型，并通過領域適應方式對其進行了詳細闡述。為了防止概念混淆，我們對LLM-based推薦中的微調、提示、提示調整和指令調整進行了定義和區分。據我們所知，我們的調查是專門針對生成式LLMs在推薦系統中的首次系統且最新的綜述，進一步總結了許多相關研究中提出的共同發現和挑戰。因此，本調查為研究人員提供了寶貴的資源，幫助他們全面了解LLM推薦，并探索潛在的研究方向。

付費5元查看完整內容

ChatGPT · GPT-4 · 知識圖譜 · 知識圖譜構建 · 知識圖譜推理 ·

2023 年 5 月 31 日

[付費5元查看完整內容]ChatGPT/GPT-4做知識圖譜構建推理怎么樣？浙大等最新《大語言模型在知識圖譜構建與推理》論文，量化評估LLM在KG表現

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇論文對大型語言模型（LLMs）在知識圖譜（KG）構建和推理中的作用進行了詳盡的定量和定性評估。我們使用了八個不同的數據集，涵蓋了實體、關系和事件提取，鏈接預測，和問題回答等方面。實證上，我們的發現表明，GPT-4在大多數任務中表現優于ChatGPT，甚至在某些推理和問題回答的數據集中超過了微調模型。此外，我們的綜述還擴展到了LLMs在信息提取方面的潛在泛化能力，這在虛擬知識提取任務的介紹和VINE數據集的開發中達到了高潮。依據這些實證發現，我們進一步提出了AutoKG，這是一種使用LLMs進行KG構建和推理的多智能體方法，旨在勾畫出這個領域的未來并提供激動人心的進步機會。我們期待我們的研究能為未來的KG的實踐提供寶貴的見解。

1. 引言

知識圖譜（KG）是一個由實體、概念和關系組成的語義網絡（Cai et al., 2022；Chen et al., 2023；Zhu et al., 2022；Liang et al., 2022），它可以催化各種場景的應用，如推薦系統、搜索引擎和問題回答系統（Zhang et al., 2021）。通常，KG構建（Ye et al., 2022b）包括幾個任務，包括命名實體識別（NER）（Chiu和Nichols，2016），關系提取（RE）（Zeng et al., 2015；Chen et al., 2022），事件提取（EE）（Chen et al., 2015；Deng et al., 2020），和實體鏈接（EL）（Shen et al., 2015）。另一方面，KG推理，通常被稱為鏈接預測（LP），在理解這些構建的KG中起著關鍵的作用（Zhang et al., 2018；Rossi et al., 2021）。此外，KG可以被用于問題回答（QA）任務（Karpukhin et al., 2020；Zhu et al., 2021），通過對與問題相關的關系子圖的推理。

早期，知識圖譜的構建和推理主要依賴于監督學習方法。然而，近年來，隨著大型語言模型（LLMs）的顯著進步，研究人員已經注意到它們在自然語言處理（NLP）領域的卓越能力。盡管有許多關于LLMs的研究（Liu et al., 2023；Shakarian et al., 2023；Lai et al., 2023），但在知識圖譜領域系統地探索它們的應用仍然有限。為了解決這個問題，我們的工作研究了LLMs（如ChatGPT和GPT-4，OpenAI，2023）在知識圖譜構建、知識圖譜推理任務中的潛在應用性。通過理解LLMs的基本能力，我們的研究進一步深入了解了該領域的潛在未來方向。

圖1：我們工作的概述。主要有三個部分：1）基礎評估：詳細說明了我們對大型模型（text-davinci-003，ChatGPT和GPT-4）的評估，無論是在零次還是一次設置中，都使用完全監督的最先進模型的性能數據作為基準；2）虛擬知識提取：檢查大型模型在構建的VINE數據集上的虛擬知識能力；3）AutoKG：提出利用多個代理來促進知識圖譜的構建和推理。

具體來說，如圖1所示，我們首先調研了LLMs在實體、關系和事件提取，鏈接預測，和問題回答方面的零樣本和一次樣本性能，以評估它們在知識圖譜領域的潛在應用。實證發現表明，盡管LLMs在知識圖譜構建任務中的性能有所提升，但仍落后于最先進的（SOTA）模型。然而，LLMs在推理和問題回答任務中表現出相對優越的性能。這表明它們擅長處理復雜問題，理解上下文關系，并利用預訓練過程中獲取的知識。因此，像GPT-4這樣的LLMs作為少次信息提取器的效果有限，但作為推理助手的熟練程度相當高。為了進一步研究LLMs在信息提取任務上的表現，我們設計了一個新的任務，稱為“虛擬知識提取”。這個任務旨在判斷性能的觀察到的改進是來自LLMs內在的廣泛知識庫，還是來自于指導調整和人類反饋的強化學習（RLHF）（Christiano et al., 2017）所促進的強大泛化能力。在新建的VINE數據集上的實驗結果表明，像GPT-4這樣的LLMs可以迅速從指令中獲取新的知識，并有效地完成相關的提取任務。在這些實證發現中，我們認為LLMs對指令的極大依賴使得為知識圖譜的構建和推理設計合適的提示變得費時費力。為了促進進一步的研究，我們引入了AutoKG的概念，它使用多個LLMs的代理自動進行知識圖譜的構建和推理。

總的來說，我們的研究做出了以下貢獻：

我們評估了LLMs，包括GPT-3.5, ChatGPT, GPT-4，通過在八個基準數據集上評估它們在知識圖譜構建和推理的零樣本和一樣本性能，提供了對它們能力的初步理解。

我們設計了一個新的虛擬知識提取任務，并構建了VINE數據集。通過評估LLMs在這個數據集上的性能，我們進一步展示了像GPT-4這樣的LLMs具有強大的泛化能力。

我們引入了使用交際代理自動進行知識圖譜構建和推理的概念，稱為AutoKG。利用LLMs的知識庫，我們使多個LLMs的代理能夠通過迭代對話協助知識圖譜的構建和推理過程，為未來的研究提供了新的洞察。

**LLMs在知識圖譜構建和推理方面的新能力 **

最近，LLMs的出現給NLP領域注入了活力。為了探索LLMs在知識圖譜領域的潛在應用，我們選擇了代表性的模型，即ChatGPT和GPT-4。我們在知識圖譜構建和推理領域的八個不同數據集上對它們的性能進行了全面評估。

**2.1 評估原則 **

在這項研究中，我們對LLMs在各種知識圖譜相關任務上進行了系統評估。首先，我們評估了這些模型在zero-shot和one-shotNLP任務中的能力。我們的主要目標是在面對有限數據時檢查它們的泛化能力，以及在沒有示范的情況下使用預訓練知識有效推理的能力。其次，根據評估結果，我們對導致模型在不同任務中表現不同的因素進行了全面分析。我們旨在探究它們在某些任務中表現優越的原因和潛在缺陷。通過比較和總結這些模型的優點和限制，我們希望提供可能指導未來改進的洞察。

2.2 知識圖譜的構建和推理

2.2.1 設置

實體、關系和事件提取。DuIE2.0 (Li et al., 2019)代表了業界最大的基于模式的中文關系提取數據集，包括超過210,000個中文句子和48個預定義的關系類別。SciERC (Luan et al., 2018)是一組注釋了七種關系的科學摘要。Re-TACRED (Stoica et al., 2021)是TACRED關系提取數據集的顯著改進版本，包含超過91,000個分布在40個關系中的句子。MAVEN (Wang et al., 2020)是一個包含4,480份文件和168種事件類型的通用領域事件提取基準。

鏈接預測 FB15K-237 (Toutanova et al., 2015)廣泛用作評估知識圖譜嵌入模型在鏈接預測上的性能的基準，包括237個關系和14,541個實體。ATOMIC 2020 (Hwang et al., 2021a)是一個全面的常識倉庫，包含關于實體和事件的133萬條推理知識元組。

問答 FreebaseQA (Jiang et al., 2019)是一個基于Freebase知識圖譜構建的開放領域QA數據集，專為知識圖譜QA任務設計。這個數據集包括從各種來源（如TriviaQA數據集等）收集的問題-答案對。MetaQA (Zhang et al., 2018)數據集，從WikiMovies (Miller et al., 2016)數據集擴展，提供了大量的單跳和多跳問題-答案對，總數超過400,000個。

2.2.2 總體結果

實體和關系提取 我們在SciERC, Re-TACRED, 和DuIE2.0上進行實驗，每個實驗涉及到測試/驗證集的20個樣本，并使用標準的micro F1分數進行評估。在此我們分別在每個數據集上使用PaddleNLP LIC2021 IE2，PL-Marker (Ye et al., 2022a)和EXOBRAIN (Park and Kim, 2021)作為基線。如表1所示，GPT-4在這些學術基準提取數據集上無論是zero-shot還是one-shot都取得了相對良好的性能。與ChatGPT相比，它也有所進步，盡管其性能還沒有超過完全監督的小模型。

事件提取 我們在MAVEN數據集的20個隨機樣本上進行事件檢測的實驗。此外，我們使用Wang等人(2022a)的研究作為先前經過微調的SOTA。同時，即使沒有演示，GPT-4也已經取得了值得稱贊的結果。在這里，我們使用F-分數作為評估指標。

鏈接預測任務 鏈接預測任務包括在兩個不同的數據集FB15k-237和ATOMIC2020上進行的實驗。前者是包含25個實例的隨機樣本集，而后者包含23個代表所有可能關系的實例。在各種方法中，最好的微調模型是FB15k-237的C-LMKE (BERT-base) (Wang et al., 2022c)和ATOMIC2020的COMET (BART) (Hwang et al., 2021b)。

問題回答 我們在兩個廣泛使用的知識庫問題回答數據集上進行評估：FreebaseQA和MetaQA。我們從每個數據集中隨機抽取20個實例。對于MetaQA，由于它由不同跳數的問題組成，我們根據它們在數據集中的比例進行抽樣。我們用于兩個數據集的評估指標是AnswerExactMatch。

在涵蓋知識圖譜構建和知識圖譜推理的實驗中，大型語言模型（LLMs）通常在推理能力上表現優于它們的構建能力。對于知識圖譜的構建任務，無論是在 zero-shot 或 one-shot 的情況下，LLMs的表現都沒有超過當前最先進模型的表現。這與之前在信息提取任務上進行的實驗（Ma等人，2023）保持一致，這些實驗表明，大型語言模型通常并不擅長進行少樣本的信息提取。相反，在知識圖譜推理任務中，所有LLMs在one-shot設置中，以及GPT-4在zero-shot設置中，都達到了最先進（SOTA）的表現。這些發現為增強我們對大型模型的性能和它們在知識圖譜領域內的適應性的理解提供了有意義的見解。我們提出了對這種現象的幾種可能解釋：首先，知識圖譜構建任務包括識別和提取實體、關系、事件等，使得它比推理任務更為復雜。相反，推理任務，以鏈接預測為典型，主要依賴于已有的實體和關系進行推斷，使得任務相對直接。其次，我們推測LLMs在推理任務中表現優異可能歸因于它們在預訓練階段接觸到的相關知識。

3 未來機遇：自動化知識圖譜構建和推理

最近，大型語言模型（LLMs）引起了相當大的關注，并在各種復雜任務中展示了精通的能力。然而，像ChatGPT這樣的技術的成功，仍然主要依賴于大量的人力輸入，以引導對話文本的生成。隨著用戶逐步精細化任務描述和要求，并與ChatGPT建立對話環境，模型能夠提供越來越精確、高質量的回應。然而，從模型開發的角度看，這個過程仍然是勞動密集型和耗時的。因此，研究人員已經開始研究使大型模型能夠自主生成指導文本的可能性。例如，AutoGPT可以獨立生成提示，并執行像事件分析、營銷計劃創建、編程和數學操作等任務。同時，Li等人（2023）深入研究了交際代理之間自主合作的可能性，并介紹了一個名為角色扮演的新型合作代理框架。這個框架使用啟示性提示，以確保與人類意圖的一致性。在此研究基礎上，我們進一步詢問：是否可行使用交際代理來完成知識圖譜的構建和推理任務？

在這個實驗中，我們使用了CAMEL（Li等人，2023）中的角色扮演方法。如圖6所示，AI助手被指定為顧問，AI用戶被指定為知識圖譜領域專家。在收到提示和指定的角色分配后，任務指定代理提供詳細的描述以具體化概念。在此之后，AI助手和AI用戶在多方設置中協作完成指定的任務，直到AI用戶確認其完成。實驗示例表明，使用多代理方法，與電影《綠皮書》相關的知識圖譜被更有效、更全面地構建。這個結果也強調了基于LLM的代理在構建和完成知識圖譜方面的優越性。

通過結合人工智能和人類專業知識的努力，AutoKG可以快速定制領域特定的知識圖譜。該系統允許領域專家與機器學習模型進行交互，從而通過交換專家知識和經驗，促進領域特定知識圖譜的構建的協作環境。此外，AutoKG可以有效地利用人類專家的領域知識，生成高質量的知識圖譜。同時，通過這種人機協作，它可以在處理領域特定任務時，提高大型語言模型的事實準確性。反過來，這個目標預計將增加模型的實用價值。 AutoKG不僅可以加快領域特定知識圖譜的定制，而且還可以增強大規模模型的透明度和體現代理的交互。更準確地說，AutoKG有助于深入理解大型語言模型（LLMs）的內部知識結構和運作機制，從而提高模型的透明度。此外，AutoKG可以作為一個合作的人機交互平臺，使人類和模型之間能夠進行有效的交流和互動。這種互動促進了對模型學習和決策過程的更好理解和指導，從而提高了模型在處理復雜任務時的效率和準確性。盡管我們的方法帶來了顯著的進步，但它并非沒有局限性，然而，這些局限性為進一步的探索和改進提供了機會：

API的使用受到最大Token限制的約束。目前，由于GPT-4 API不可用，正在使用的gpt-3.5-turbo受到最大token限制。這個約束影響了知識圖譜的構建，因為如果超過了這個限制，任務可能無法正確執行。現在，AutoKG在促進有效的人機交互方面表現出缺點。在任務完全由機器自主進行的情況下，人類不能及時糾正交流過程中的錯誤發生。相反，在機器通信的每一步中都涉及到人類，可以顯著增加時間和勞動成本。因此，確定人類介入的最佳時機對于知識圖譜的高效和有效的構建至關重要。大型語言模型（LLMs）的訓練數據是時間敏感的。未來的工作可能需要將來自互聯網的檢索特性納入考慮，以彌補當前大型模型在獲取最新或領域特定知識方面的不足。

4. 結論

在這篇論文中，我們初步調研了大型語言模型（LLMs），如GPT系列，在知識圖譜（KG）構建和推理等任務上的表現。盡管這些模型在這些任務上表現優秀，我們提出了這樣一個問題：LLMs在提取任務中的優勢是源于它們龐大的知識庫，還是源于它們強大的上下文學習能力？為了探索這個問題，我們設計了一個虛擬的知識提取任務，并為實驗創建了相應的數據集。結果表明，大型模型確實具有強大的上下文學習能力。此外，我們提出了一種利用多個代理完成KG構建和推理任務的創新方法。這種策略不僅減輕了人工勞動，也彌補了各個領域人類專業知識的匱乏，從而提高了LLMs的表現。盡管這種方法仍有一些局限性，但它為LLMs的未來應用的進步提供了新的視角。

付費5元查看完整內容

大模型 · 大型語言模型 · 逐步蒸餾 · 部署模型 · ChatGPT ·

2023 年 5 月 8 日

[付費5元查看完整內容]大模型如何端邊部署？華盛頓Google提出《逐步蒸餾》法，以更少的訓練數據和更小的模型規模超越更大的語言模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

部署大型語言模型（LLMs）具有挑戰性，因為它們在實際應用中的內存效率低下且計算密集。為了應對這一問題，研究人員通過微調人類標簽或利用LLM生成的標簽進行蒸餾，訓練更小的任務特定模型。然而，微調和蒸餾需要大量的訓練數據，以達到與LLMs相當的性能。**我們引入逐步蒸餾，一種新的機制：（a）訓練比LLMs表現更好的較小模型；（b）通過利用比微調或蒸餾所需的更少訓練數據來實現這一點。我們的方法在多任務訓練框架內為小型模型提取LLM rationales（基本原理/解釋/依據），作為額外的監督。**我們在4個NLP基準測試中得出三個發現：首先，與微調和蒸餾相比，我們的機制在使用更少的標注/未標注訓練樣本的情況下實現了更好的性能。其次，與LLMs相比，我們使用明顯較小的模型大小實現了更好的性能。第三，我們減少了模型大小和超過LLMs所需的數據量；在一個基準任務中，我們的770M T5模型使用僅80%的可用數據就超過了540B PaLM模型。

//www.zhuanzhi.ai/paper/fa04cb640eb5b7dd65cddc946c76b80f

1. 引言

圖1:雖然大型語言模型(LLM)提供了強大的零樣本/少樣本性能，但在實踐中具有挑戰性。另一方面，傳統的訓練小型特定任務模型的方法需要大量的訓練數據。本文提出逐步蒸餾(Distilling step)，一種新的范式，從LLM中提取基本原理作為信息性任務知識訓練小型模型，既減少了部署的模型大小，也減少了訓練所需的數據。

盡管大型語言模型（LLMs）（Brown等人，2020；Chowdhery等人，2022；Thoppilan等人，2022；Hoffmann等人，2022；Smith等人，2022b；Zhang等人，2022）提供了令人印象深刻的少樣本學習能力，但由于其龐大的規模，這些模型在實際應用中具有挑戰性。運行單個1750億參數的LLM至少需要350GB GPU內存，并使用專門的基礎設施（Zheng等人，2022）。更糟糕的是，如今的頂級LLMs包含超過5000億個參數（Chowdhery等人，2022），需要更多的內存和計算資源。這樣的計算需求遠遠超出了大多數產品團隊的承受能力，特別是對于需要低延遲性能的應用程序。

為了規避大型模型的部署挑戰，從業者通常選擇部署較小的專用模型。這些較小的模型使用兩種常見范式之一進行訓練：微調或蒸餾。微調使用下游人類注釋數據更新預訓練的較小模型（例如BERT（Devlin等人，2018）或T5（Raffel等人，2020））（Howard和Ruder，2018）。蒸餾使用由更大的LLM生成的標簽訓練相同的較小模型（Tang等人，2019；Wang等人，2021；Smith等人，2022a；Arora等人，2022）。不幸的是，這些范式以成本降低模型大小：為了達到與LLMs相當的性能，微調需要昂貴的人類標簽，而蒸餾需要大量無標簽數據，這些數據可能難以獲得（Tang等人，2019；Liang等人，2020）。

在這項工作中，我們引入逐步蒸餾，一種用更少訓練數據訓練較小模型的新型簡單機制。我們的機制減少了將LLMs微調和蒸餾為較小模型所需的訓練數據量。我們的機制的核心是從將LLMs視為嘈雜標簽的來源轉變為將它們視為可以推理的代理：LLMs可以生成自然語言rationales（基本原理/解釋/依據），為其預測的標簽辯護（Wei等人，2022；Kojima等人，2022）。例如，當被問到“一個紳士正在攜帶高爾夫球設備，他可能有什么？(a)球桿，(b)禮堂，(c)冥想中心，(d)會議，(e)教堂”時，LLM可以通過鏈式思考（CoT）推理（Wei等人，2022）回答“(a)球桿”，并通過陳述“答案必須是用于高爾夫球的東西。在上述選項中，只有球桿是用于高爾夫球的。”來合理化標簽。我們使用這些提取的rationales（基本原理/解釋/依據）作為額外的、更豐富的信息，在一個多任務訓練設置中訓練較小的模型，包括標簽預測和rationales（基本原理/解釋/依據）**預測（Raffel等人，2020；Narang等人，2020）。

逐步蒸餾使我們能夠學習任務特定的較小模型，這些模型在使用超過500倍更少的模型參數時勝過LLMs，并且與傳統微調或蒸餾相比，需要更少的訓練樣本（圖1）。我們在4個NLP基準測試中得出三個有前景的實證結論。首先，與微調和蒸餾相比，我們的模型在各個數據集上平均使用超過50%更少的訓練樣本（最多減少超過85%）時，實現了更好的性能。其次，我們的模型在模型大小上大大優于LLMs（最多小2000倍），大大降低了模型部署所需的計算成本。第三，我們同時減少了模型大小和超過LLMs所需的數據量。我們使用一個770M T5模型超過了540B參數LLM的性能；如果使用現有的微調方法，這個較小的模型只需使用80%的標記數據集。當只有未標記的數據時，我們的小型模型仍然與LLMs表現相當或更好。我們僅使用一個11B T5模型就超過了540B PaLM的性能。我們進一步表明，當一個較小的模型比LLM表現差時，逐步蒸餾可以更有效地利用額外的未標記數據來匹配LLM的性能，與標準蒸餾方法相比。

2 逐步蒸餾

我們提出了一種新的范式，逐步蒸餾，它利用LLMs對其預測進行推理的能力，以數據高效的方式訓練較小的模型。我們的整體框架如圖2所示。我們的范式有兩個簡單的步驟：首先，給定一個LLM和一個未標記的數據集，我們提示LLM生成輸出標簽以及支持標簽的rationales（基本原理/解釋/依據）。**rationales（基本原理/解釋/依據）**是自然語言解釋，為模型預測的標簽提供支持（見圖2）。rationales（基本原理/解釋/依據）是當今自監督LLM的一種新興行為特性。其次，我們利用這些rationales以及任務標簽來訓練較小的下游模型。直觀地說，**rationales（基本原理/解釋/依據）**提供了關于為什么輸入映射到特定輸出標簽的更豐富、更詳細的信息。

2.1 從LLMs中提取rationales（基本原理/解釋/依據）

最近的研究發現LLMs有一個有趣的新興特性：它們能夠生成支持其預測的rationales（Wei等人，2022；Kojima等人，2022）。雖然這些研究主要關注如何從LLMs中引出這種推理能力（Nye等人，2021；Wei等人，2022；Kojima等人，2022），但我們在訓練較小的下游模型時使用了它們。具體來說，我們利用鏈式思考（CoT）提示（Wei等人，2022）從LLMs中引出和提取rationales。

2.2 用原理訓練較小的模型

本文首先描述了當前學習特定任務模型的框架。有了這個框架，我們對其進行了擴展，以將基本原理納入訓練過程。形式上，我們將數據集表示為D = {(xi, yi)} N i=1，其中每個xi表示一個輸入，yi是相應的所需輸出標簽。雖然所提出框架支持任何模態的輸入和輸出，但實驗將x和y限制為自然語言。這個文本到文本框架(Raffel等人，2020)包含各種自然語言處理任務:分類、自然語言推理、問題回答等。訓練特定任務模型的最常見做法是使用監督數據對預訓練模型進行微調(Howard和Ruder, 2018)。在沒有人工標注標簽的情況下，特定任務的蒸餾(Hinton等人，2015;Tang et al.， 2019)使用LLM教師生成偽噪聲訓練標簽，y?i代替yi (Wang et al.， 2021;Smith等人，2022a;Arora等人，2022年)。在這項工作中，我們沒有將rationales作為額外的模型輸入，而是將學習rationales視為一個多任務問題。具體來說，我們訓練模型 f(xi) → (?yi, r?i)，不僅預測任務標簽，還根據文本輸入生成相應的rationales。

3 實驗

我們通過實證驗證了逐步蒸餾方法的有效性。首先，與標準的微調和任務蒸餾方法相比，我們展示了逐步蒸餾方法實現的優勢。在訓練樣本數量較少的情況下，逐步蒸餾方法表現更優，顯著提高了學習小型任務專用模型的數據效率（第4.1節）。其次，我們展示了逐步蒸餾方法在模型大小遠小于大型語言模型（LLMs）的情況下，仍能取得更好的性能，與大型語言模型相比，大幅降低了部署成本（第4.2節）。最后，我們研究了逐步蒸餾方法在超越大型語言模型性能方面所需的最小資源，包括訓練樣本數量和模型大小。我們發現逐步蒸餾方法在使用更少數據和更小模型的情況下，勝過大型語言模型，同時提高了數據效率和部署效率（第4.3節）。

在實驗中，我們將540B PaLM模型（Chowdhery等人，2022年）視為大型語言模型（LLM）。對于任務特定的下游模型，我們使用T5模型（Raffel等人，2020年），并從公開可用的資源中獲取預訓練權重來初始化模型。對于CoT提示，我們在可用時遵循Wei等人（2022年）的方法，并為新數據集策劃我們自己的示例。我們在附錄A.1中提供了更多實現細節。

3.1 減少訓練數據

我們將逐步蒸餾方法與學習任務特定模型的兩種最常見方法進行比較：（1）當有人類標注的樣本可用時，使用標準微調方法；（2）當僅有未標注樣本可用時，使用標準任務蒸餾方法。具體來說，標準微調是指使用標準標簽監督通過預訓練然后微調模型的流行范式（Howard和Ruder，2018年）。另一方面，當僅有未標注樣本可用時，標準任務蒸餾方法將教師大型語言模型預測的標簽視為真實標簽，從而學習任務特定模型（Hinton等人，2015年；陳等人，2020年；Wang等人，2021年；Smith等人，2022a；Arora等人，2022年）。

在以下一系列實驗中，我們將任務特定模型固定為220M T5-Base模型，并比較在可用訓練樣本數量不同的情況下，不同方法所實現的任務性能。

逐步蒸餾方法在使用更少的標注樣本情況下優于標準微調。當使用人類標注的樣本進行微調時，圖4顯示，在使用不同數量的標注樣本時，逐步蒸餾方法始終比標準微調表現更好。此外，我們發現逐步蒸餾方法可以在使用更少的標注樣本的情況下達到與標準微調相同的性能。特別是，僅使用eSNLI完整數據集的12.5%，逐步蒸餾方法就可以在性能上超過使用完整數據集100%訓練的標準微調。同樣，我們分別在ANLI、CQA和SVAMP上實現了減少75%、25%和20%訓練樣本數量以超過標準微調的表現。 逐步蒸餾方法在使用更少的未標注樣本時，優于標準蒸餾方法。當僅有未標注數據可用時，我們將逐步蒸餾方法與標準任務蒸餾方法進行比較。在圖5中，我們觀察到與微調設置相類似的整體趨勢。具體來說，我們發現逐步蒸餾方法在所有4個數據集上，在使用不同數量的未標注數據情況下，均優于標準任務蒸餾方法。我們同樣發現，逐步蒸餾方法在使用更少的未標注數據時仍能勝過標準任務蒸餾方法。例如，在e-SNLI數據集上，我們只需要完整未標注數據集的12.5%，就可以超過使用100%訓練樣本的標準任務蒸餾方法所取得的性能。

4.2 減小模型大小

在以下一系列實驗中，我們將訓練集大小固定（使用數據集的100%），并將使用逐步蒸餾方法和標準方法訓練的不同大小的小型T5模型與大型語言模型（LLMs）進行比較。具體來說，我們考慮了3種不同大小的T5模型，即220M T5-Base、770M T5-Large和11B T5-XXL。對于LLMs，我們包括兩種基線方法：（1）少樣本CoT（Wei等人，2022年）；（2）PINTO微調（Wang等人，2022a）。少樣本CoT直接利用CoT示范來提示540B PaLM模型在預測最終標簽之前生成中間步驟，而無需對LLM進行進一步的微調。PINTO微調是指我們擴展Wang等人（2022a）的方法來處理除問答任務之外的任務，這些任務沒有被Wang等人（2022a）研究。在這里，我們在PaLM模型生成的輸出基礎上對220M T5-Base模型進行微調，這可以看作是帶有額外參數的LLMs的微調方法（Zhang等人，2020年；Lester等人，2021年）。我們分別在圖6和圖7中呈現了在有標簽數據集或無標簽數據集的兩種廣泛場景下的實驗結果。我們按照預測時部署的模型大小（x軸）和相應任務性能（y軸）繪制每種方法。

逐步蒸餾方法在使用不同模型大小時，相較于標準基線方法有所提升。在圖6和圖7中，我們分別看到逐步蒸餾方法在所有大小的T5模型上始終優于標準微調和標準蒸餾。在ANLI上的提升最為顯著，其中逐步蒸餾方法在任務準確性方面分別比標準微調和蒸餾提高了平均8%和13%。 逐步蒸餾方法通過使用更小的任務特定模型超越LLMs。在圖6中，當有人類標注的數據集可用時，逐步蒸餾方法可以始終使用更小的T5模型，在所有4個考慮的數據集上優于少樣本CoT和PINTO微調。例如，我們可以在eSNLI上使用220M（超過2000倍小）的T5模型實現比540B PaLM模型的少樣本CoT更好的性能，使用770M（超過700倍小）的T5模型在ANLI和SVAMP上取得更好的性能，以及使用11B（超過45倍小）的T5模型在CQA上取得更好的性能。無標簽數據增強進一步改進了逐步蒸餾。

3.3 使用最小模型大小和最少訓練數據超越LLMs

在這里，以LLM的性能作為錨點，我們探討了逐步蒸餾方法和標準微調/蒸餾在超越LLM所需的最高效資源需求，包括訓練樣本數量和部署模型大小。我們分別在圖8和圖9中呈現了在人類標注設置和無標注設置下的結果。我們通過繪制不同結果模型的（1）使用的訓練樣本數量（x軸），（2）實現的最終任務性能（y軸）以及（3）模型大小（通過陰影區域的大小可視化）來展示結果。

逐步蒸餾方法在使用更少數據的情況下，使用更小的模型超過LLMs。在圖8中的所有數據集上，我們發現逐步蒸餾方法在使用更少的數據時，性能優于PaLM的少樣本CoT，在只使用部分可用訓練樣本的情況下，使用更小的T5模型。具體來說，在e-SNLI上，逐步蒸餾方法可以在模型大小減小2000倍（220M T5）且只使用完整數據集的0.1%的情況下，實現比少樣本CoT更好的性能。在圖9中，只有無標簽數據集可用時，我們觀察到同樣的趨勢，即逐步蒸餾方法在大多數情況下，可以使用更小的模型和更少的數據超過少樣本CoT。例如，在ANLI上，逐步蒸餾方法在模型縮小45倍且只使用完整無標簽集50%的情況下，超過了LLM。標準微調和蒸餾需要更多的數據和更大的模型。最后，在圖8和圖9中，我們看到標準微調和蒸餾通常需要更多的數據或更大的模型來匹配LLM的性能。例如，在圖8中的e-SNLI上，我們觀察到逐步蒸餾方法在只使用數據集的0.1%的情況下就超過了LLM，而標準微調需要更多的數據來匹配性能。此外，在圖8中的ANLI上，我們觀察到逐步蒸餾方法可以在只使用80%的訓練集的情況下，使用770M模型超過PaLM，而標準微調即使使用完整數據集也難以匹配LLM，因此需要更大的模型來縮小性能差距。

4 結論

我們提出了逐步蒸餾方法，從LLMs中提取rationales作為有益的監督信息，以訓練小型任務特定模型。我們展示了逐步蒸餾方法減少了訓練數據集的需求，以創建任務特定的較小模型；它還減少了實現甚至超過原始LLM性能所需的模型大小。與現有方法相比，逐步蒸餾方法提出了一種資源高效的訓練到部署范式。

付費5元查看完整內容

ChatGPT · 信息提取 ·

2023 年 4 月 26 日

[付費5元查看完整內容]評估ChatGPT的信息提取能力:對性能、可解釋性、校準和忠實度的評估

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）如ChatGPT具有理解用戶意圖和提供合理回應的能力，這使得它們近來變得非常受歡迎。在本文中，我們關注使用7個細粒度信息抽取（IE）任務來評估ChatGPT的整體能力。特別是，我們通過衡量ChatGPT的性能、可解釋性、校準和忠實度，以及從ChatGPT或領域專家那里得到的15個關鍵點，對其進行系統分析。我們的研究發現，ChatGPT在標準信息抽取設置下的性能較差，但在開放式信息抽取設置下，它表現出了出色的性能，這一點得到了人類評估的證實。此外，我們的研究表明，ChatGPT為其決策提供了高質量和可信的解釋。然而，ChatGPT在預測中過于自信，導致校準性較低。此外，在大多數情況下，ChatGPT對原文的忠實度非常高。我們手動標注并發布了包含14個數據集的7個細粒度信息抽取任務的測試集，以進一步推動研究。數據集和代碼可以在此網址找到

//github.com/pkuserc/ChatGPT_for_IE

大型語言模型（LLMs）（例如 GPT3（Brown 等，2020），LaMDA（Thoppilan 等，2022）和 PaLM（Chowdhery 等，2022）等）極大地推動了自然語言處理（NLP）領域的發展。在給定適當的指令（通常是任務定義）（Ouyang 等，2022；Kojima 等，2022；Chung 等，2022；Wang 等，2022）和思維鏈（CoT）提示（Wei 等，2022b）的情況下，LLMs 在處理未見過的任務時表現出令人驚訝的優秀表現。 ChatGPT 目前是最受歡迎的大型語言模型（LLM），以其令人印象深刻的理解用戶意圖和生成類似人類回應的能力而聞名。ChatGPT 是基于 GPT 系列（Brown 等，2020；Artetxe 等，2022；Ouyang 等，2022）采用人類反饋強化學習（RLHF）（Christiano 等，2017）和高質量對話式數據集進行訓練的。除了令人驚訝的對話能力，ChatGPT 還有許多其他方面吸引了研究人員進行探索。一些研究人員深入研究了 ChatGPT 對人類生活的潛在影響（Haque 等，2022；Zhuo 等，2023；Susnjak，2022；Basic 等，2023）。其他研究人員對于探索 ChatGPT 在各種 NLP 任務中的能力感興趣（Zhang 等，2022a；Qin 等，2023；Mitrovic 等，2023；Guo 等，2023）。通過以上研究，ChatGPT 的能力已初步得到探索，并得出了有價值的結論。

考慮到ChatGPT是一個封閉的模型，不提供關于其訓練細節的信息，而且模型的任何回應都包含了觀點。模型的回應可能會顯著影響用戶的體驗，并在今后塑造他們的信仰（Aiyappa et al., 2023; Santurkar et al., 2023; Deshpande et al., 2023; Huang et al., 2023）。因此，評估ChatGPT不僅應涉及評估其實現高性能的能力，還應衡量其提供答案的可靠性。為了幫助用戶更好地了解ChatGPT回應的整體質量，并使其能力的系統衡量成為可能，我們設計了以下四個度量維度：我們考慮的第一個維度是性能，它反映了ChatGPT在多個角度上處理各種信息提取任務的整體表現。第二個度量維度是可解釋性（Explainability）（Rajani et al., 2019; Aghajanyan et al., 2021; Zini 和 Awad, 2023），評估ChatGPT是否能為其預測提供合理的理由，從而提供關于ChatGPT決策過程的洞察。第三個是校準（Calibration）（Guo et al., 2017; Kumar et al., 2019; Thulasidasan et al., 2019; Minderer et al., 2021），衡量模型預測不確定性，我們使用這個指標來評估ChatGPT在預測上是否過于自信。最后一個維度是忠實度（Faithfulness）（Maynez et al., 2020; Koto et al., 2022; Creswell 和 Shanahan, 2022; He et al., 2023），它經常用于摘要任務，以確定摘要是否準確反映了輸入。在我們的研究中，我們采用忠實度作為衡量ChatGPT給出的解釋是否真實反映輸入，或者它們是否是偽造的。總之，根據以上四個維度，我們從ChatGPT或領域專家那里收集15個關鍵指標進行評估（§ 3）。

該研究旨在通過各種信息抽取(information extraction, IE)任務對ChatGPT的性能進行全面研究和詳細分析。IE涉及異構結構提取、事實知識使用和多樣化目標(Yamada等人，2020;Paolini等人，2021;Lu等人，2022)，使其成為評估ChatGPT能力的理想場景。總之，我們基于7個細粒度IE任務的14個數據集進行了實驗和分析(§4)。此外，我們通過自檢和人工檢對ChatGPT回復的可解釋性、校準和忠實度進行了評估(§5)。

為了評估ChatGPT的整體能力，我們從四個維度進行全面、系統的評估：1）性能，2）可解釋性，3）校準，4）忠實度。然后，我們從ChatGPT或領域專家中收集了15個屬于上述維度的關鍵點進行研究。所有手動標注的數據集和代碼都已公開，供未來研究使用。? 我們全面評估了ChatGPT在標準信息抽取（Standard-IE）和開放信息抽取（OpenIE）設置下各種任務的整體性能，并將其與其他熱門模型進行了比較。我們的研究表明，ChatGPT在標準信息抽取設置下的表現并不令人滿意。然而，我們發現，在開放信息抽取設置下，它提供了出人意料的好結果，這一點得到了人類評估的證實。此外，我們還發現ChatGPT為其決策提供了高質量且可信的解釋。盡管如此，它在預測中表現出過度自信，導致校準較低。此外，ChatGPT在大多數情況下對原文保持了很高的忠實度。

付費5元查看完整內容

GPT-4 · OpenAI · AI與醫學 · ChatGPT ·

2023 年 3 月 24 日

[付費5元查看完整內容]GPT-4在醫學上能力如何？微軟OpenAI《GPT-4在醫療難題上的能力》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型，它不是通過訓練專門用于醫療問題，**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料，這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外，還進行了實驗，以調查包含文本和圖像的試題對模型性能的影響，探索訓練過程中對內容的記憶，并研究概率的校準，這在醫學等高風險應用中至關重要。結果表明，在沒有任何專門提示的情況下，GPT-4比USMLE的及格分數高出20分以上，并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM，一種快速調整的Flan-PaLM 540B版本)。此外，GPT-4的校準效果明顯優于GPT-3.5，在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為，該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力，并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響，并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17]，適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大，各種基準的分數通常都有所提高，包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴，這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中，在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調，以及用于指導模型行為的一般方法，如人工反饋強化學習(RLHF)，它可以指導系統更好地理解最終用戶的請求[BJN+22]。

**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近，研究人員調查了基準，這些基準提供了對LLM如何編碼臨床知識的見解，并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節，包括模型參數的數量和訓練數據的大小和范圍尚未公開，但據報道，這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分，可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來，對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志，包括核心概率和決策理論方法(如[GB68, HHN92])，基于規則的產生式系統(如[Sho77, BS84])，語義圖(如[PSS81])，從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17，Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力，但自那以來，它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練，或在大量通用語言和/或視覺信息上進行訓練的基礎模型，然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線，本文評估了GPT-4和GPT-3.5，并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示，并直接推斷答案)，發現GPT-4獲得了同類中最好的性能，而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現，這些問題是為評估醫學生和住院醫生的能力而開發的。

本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明，零樣本GPT-4顯著優于早期模型，在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數，而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后，我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型，MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外，我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要，評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為，證明了GPT-4解釋醫學推理的能力，并交互式地支持學生圍繞一個醫療案例的反事實場景。最后，研究了研究結果的影響，包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力，同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性，并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統，還有大量工作要做，而且需要非常謹慎。然而，我們期望在現實世界中有多種使用，例如低風險的應用程序，其中包括專家監督作為世代和工作流程的一部分。從長期來看，我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。

付費5元查看完整內容

自然語言處理 · 預訓練語言模型 · 知識庫 · 綜述論文 ·

2022 年 12 月 31 日

[付費5元查看完整內容]知識如何用在預訓練？北郵等最新《知識增強的預訓練語言模型》綜述，詳述KEPLMs的方法與評估

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

通過使用像BERT這樣的預訓練語言模型(PLMs)，自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄，但PLM仍然面臨許多挑戰，包括可解釋性差、推理能力弱，以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中，知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地，概述了可集成到KEPLMs中的知識的常見類型和不同格式，詳細介紹了現有的構建和評估KEPLMs的方法，介紹了KEPLMs在下游任務中的應用，并討論了未來的研究方向。研究人員將從這項調研中受益，通過獲得該領域最新發展的快速和全面的概述。

//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b

1. 引言

預訓練語言模型(PLMs)首先在大型數據集上進行訓練，然后直接遷移到下游任務，或在另一個小型數據集上進一步微調，以適應特定的NLP任務。早期的PLMs，如Skip-Gram[1]和GloVe[2]，是淺層神經網絡，其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量，這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展，研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初，人們仍然局限于監督學習的范式，認為沒有足夠的標記數據，很難釋放深度學習的潛力。然而，隨著自監督學習的出現，BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記，從大規模無標記文本數據中學習大量知識。因此，他們在許多下游NLP任務中取得了突破性進展。此后，許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題，plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展，人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說，PLMs被廣泛認為是黑盒，其決策過程是不透明的，因此很難解釋。此外，PLMs可能不夠魯棒，因為深度神經模型容易受到對抗性樣本的影響。此外，由于純數據驅動，PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善，這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。

盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見，但隨著許多新技術的出現，該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。

構建 KEPLMS

隱性知識整合

以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息，BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而，文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略，PLMs 能夠融合實體、短語等知識，如圖3所示。

一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識，如圖6所示。

顯性知識整合

PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中，其形式為模型的額外輸入或模型中的額外組件，如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立，從而便于知識更新

參考文獻

[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.

付費5元查看完整內容

GPT-3 · 語言模型 · 少樣本學習 ·

2020 年 12 月 19 日

[付費5元查看完整內容]【GPT-3作者親解】超大型語言模型少樣本學習，109頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

GPT-3: Few-Shot Learning with a Giant Language Model

最近的工作表明，通過對大量文本語料庫進行預訓練，然后對特定任務進行微調，在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關，但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下，人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3，這是一種具有1750億個參數的自回歸語言模型，它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能，有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務，與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的，討論我們從這樣一個系統中看到的功能，以及它們如何啟用與語言模型交互的新方式，此外還將關注這些交互帶來的局限性和更廣泛的問題。

//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml