轉載于“計算機研究與發展”

近年來，大型語言模型的出現和發展對自然語言處理和人工智能領域產生了變革性影響. 隨著不斷增大模型參數量和訓練數據量，語言模型的文本建模困惑度以可預測的形式降低，在各類自然語言處理任務上的表現也持續提升. 因此，增加語言模型的參數和數據規模成為提升系統智能水平的富有前景的途徑.

本文首先回顧了大型語言模型的基本定義，從模型表現和算力需求的角度給出了“大型”語言模型的界定標準. 其次，從數據、算法、模型三個維度梳理了大型語言模型的發展歷程及規律，展示了不同階段各個維度的規模化如何推動語言模型的發展. 接著，考察了大型語言模型所表現出的涌現能力，介紹了思維鏈、情景學習和指令遵循等關鍵涌現能力的相關研究和應用現狀. 最后，展望了大型語言模型的未來發展和技術挑戰.

內容簡介

1.回顧了大型語言模型的基本定義，從模型表現和算力需求的角度給出了“大型”語言模型的界定標準. 2.從數據、算法、模型三個維度梳理了大型語言模型的發展歷程及規律，展示了不同階段各個維度的規模化如何推動語言模型的發展. 3.考察了大型語言模型所表現出的涌現能力，介紹了思維鏈、情景學習和指令遵循等關鍵涌現能力的相關研究和應用現狀. 4.展望了大型語言模型的未來發展和技術挑戰.

亮點圖文 自GPT-3問世以來，國內外多家機構加大對大型語言模型的研發投入，近三年來涌現了一批具有競爭力的大型語言模型. 目前已有的大型語言模型總體上呈現出以工業界投入為主、以英文為主、以閉源為主等特點. 下面的表格1中列舉了當前常見大型語言模型的基本信息.

如下圖展示了語言模型的主要發展路徑：2008年，Collobert等人發現將語言模型作為輔助任務預先訓練可以顯著提升各個下游任務上的性能，初步展示了語言模型的通用性；2013年，Mikolov等人在更大語料上進行語言模型預訓練得到一組詞向量，接著通過遷移學習的手段，以預訓練得到的詞向量作為初始化，使用下游任務來訓練任務特定模型；2018年，Google的Devlin等人將預訓練參數從詞向量擴增到整個模型，同時采用Transformer架構作為骨干模型，顯著增大了模型容量，在諸多自然語言處理任務上僅需少量微調即可取得很好的效果；隨后，研究人員繼續擴增模型參數規模和訓練數據量，同時采取一系列對齊算法使得語言模型具備更高的易用性、忠誠性、無害性，在許多場景下展現出極強的通用能力，OpenAI于2022年底發布的ChatGPT以及2023年發布的GPT-4是其中的代表. 縱觀近十余年來語言模型的發展歷程，不難發現兩個規律：

以語言模型及其變體為訓練任務，從多個維度實現規模化. 從2008年到今天，語言模型的訓練任務變化很小，而其訓練數據逐漸從6億單詞增長到今天的超萬億單詞，算法從傳統的多任務學習范式發展到更適合大規模預訓練的遷移學習范式，模型從容量較小的CNN/RNN模型發展為包含超過千億參數的Transformer模型.
將更多模型參數和訓練任務從下游轉移到上游. 從模型參數的角度，2013年以前的大多數模型要從頭訓練（training from scratch）所有參數；2013年到2018年主要基于預訓練的詞向量訓練參數隨機初始化的任務特定模型；2018年到2020年逐漸轉向“預訓練+微調”范式，即使用預訓練模型作為下游任務初始化，僅需添加少量任務特定參數，例如在預訓練模型上添加一個隨機初始化的線性分類器；2020年左右，基于提示（prompt）的方法得到了很大發展，通常直接使用包括語言模型分類頭（language modeling head）在內的整個預訓練語言模型，通過調整其輸入內容來得到任務特定輸出. 從訓練任務的角度，語言模型從與其他下游任務聯合多任務訓練逐漸發展成為獨立的上游任務，通過數據、模型、算法等多個維度的規模化逐漸降低對下游任務訓練的需求，近年來的大型語言模型通常在已有的上千個指令化自然語言處理任務（例如FLAN）上訓練，從而可以在未經下游任務訓練的情況下很好地泛化到未見任務上. 如下圖給出了當前常見的大型語言模型的參數量和訓練計算量，不難發現，較近的語言模型（如Chinchilla和LLaMA）通常采用相對較大的訓練數據和相對較小的參數規模，這在下游微調和推理部署時具有顯著的效率優勢.

到目前為止，規模定律仍然是一個非常重要且值得探索的方向，特別是中文語言模型的規模定律尚未有公開研究. 此外，已有的對規模定律的研究主要為通過大量實驗得出的經驗性規律，而缺乏對其理論機理的解釋. 未來發展與挑戰**

** 以ChatGPT、GPT-4為代表的大型語言模型已經在社會各界引起了很大反響，其中GPT-4已經初步具備通用人工智能的雛形. 一方面，大型語言模型的強大能力向人們展現了廣闊的研究和應用空間；而另一方面，這類模型的快速發展也帶來了許多挑戰和應用風險.

未來發展

1）高效大型語言模型.當前大型語言模型主要采用Transformer架構，能夠充分利用GPU的并行計算能力并取得不俗的性能表現. 但由于其計算和存儲復雜度與輸入文本長度呈平方關系，因此存在推理效率慢、難以處理長文本輸入等缺陷. 2）插件增強的語言模型.集成功能插件已經成為大型語言模型快速獲得新能力的重要手段3）實時交互學習.語言模型能夠在與用戶交互過程中完成實時學習，特別是能夠根據用戶輸入的自然語言指令更新自身知識是邁向通用人工智能的重要步驟.4）語言模型驅動的具身智能.通過多模態深度融合、強化邏輯推理與計劃能力等手段，打造具備強大認知智能的具身系統正在成為大型語言模型和機器人領域的研究熱點.

** 挑戰**1）檢測.大型語言模型生成的文本高度復雜甚至相當精致，在很多場景下難以與人類創作的文本區分開. 因而，語言模型生成文本的檢測和監管成為亟待解決的問題，2）安全性.大型語言模型的訓練數據大量來自互聯網上未經標注的文本，因而不可避免地引入了有害、不實或歧視性內容. 如何構造適合中文環境的安全性評估標準及其相應訓練數據仍然是中文語言模型大規模落地應用的重要挑戰.3）幻覺.目前ChatGPT和GPT-4等高性能語言模型仍然存在較嚴重的幻覺問題，即經常生成包含事實性錯誤、似是而非的文本，這嚴重影響了其在部分專業領域應用的可靠性.有效識別模型的內部知識和能力邊界仍舊是極具挑戰性的未解之題. 總之，大型語言模型給自然語言處理乃至人工智能領域帶來了巨大的范式變革，將原來按不同任務進行橫向劃分的領域設定轉變為按流程階段進行縱向劃分的新型研究分工，并構建了以大型語言模型為中心的人工智能新生態.

引用格式

舒文韜, 李睿瀟 , 孫天祥, 黃萱菁, 邱錫鵬. 大型語言模型：原理、實現與發展[J]. 計算機研究與發展. doi: 10.7544/issn1000-1239.202330303 Shu Wentao, Li Ruixiao, Sun Tianxiang, Huang Xuanjing, Qiu Xipeng. Large Language Models: Theories, Methods, and Progress[J]. Journal of Computer Research and Development. doi: 10.7544/issn1000-1239.202330303

付費5元查看完整內容

相關內容

用戶建模 · 大型語言模型 ·

2023 年 12 月 26 日

[付費5元查看完整內容]大模型如何做用戶建模？在大型語言模型時代的用戶建模：當前研究與未來方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大模型如何和用戶建模結合？看這篇綜述論文

用戶建模(UM)旨在從用戶數據中發現模式或學習表征，了解特定用戶的特征，如個人資料、偏好和個性。用戶模型使得在許多在線應用程序中實現個性化和可疑性檢測成為可能，例如推薦、教育和醫療健康。常見的兩種用戶數據類型是文本和圖表，因為數據通常包含大量用戶生成內容(UGC)和在線互動。文本和圖表挖掘的研究正在迅速發展，在過去二十年中貢獻了許多值得注意的解決方案。最近，大型語言模型(LLMs)在生成、理解甚至推理文本數據方面顯示出卓越的性能。用戶建模的方法已經配備了LLMs，并很快變得突出。本文總結了現有研究關于如何以及為什么LLMs是建模和理解UGC的強大工具。然后，它回顧了幾類整合了LLMs和基于文本及圖表的方法的用戶建模大型語言模型(LLM-UM)方法。接著，它介紹了針對各種UM應用的具體LLM-UM技術。最后，它展示了LLM-UM研究中剩余的挑戰和未來方向。我們在以下網址維護閱讀清單：//github.com/TamSiuhin/LLM-UM-Reading。

用戶建模(UM)旨在從用戶行為中提取有價值的見解和模式，使系統能夠定制和適應特定用戶的需求[124]。UM技術有助于更好地理解用戶行為、定制智能輔助，并極大地改善用戶體驗。例如，當人們在網上尋找晚餐選項并進行搜索時，UM技術會根據互動歷史推斷他們的特征，預測當前的食物興趣，并提供個性化推薦。UM在用戶數據分析和許多應用程序中都有重大影響，例如電子商務[191, 194, 280]、娛樂[11, 33, 155]和社交網絡[1, 2, 212]。UM是一個高度活躍和有影響力的研究領域。用戶建模主要是挖掘和學習用戶數據，包括用戶生成的內容(UGC)和用戶與其他用戶及物品的互動。用戶生成的內容涵蓋了廣泛的文本數據，如推文、評論、博客和學術論文。豐富的文本可以通過自然語言處理(NLP)技術進行分析。另一方面，用戶互動涉及各種行為，如關注、分享、評級、評論和轉推。這些互動可能形成一個異構的時間文本屬性圖[199]，因為它具有時間和文本信息，并且具有不同類型的節點和關系。可以使用圖挖掘和學習技術對其進行分析。因此，用戶建模已分化為基于文本和基于圖表的方法，分別專注于從文本和圖表數據中提取洞察。基于文本的UM研究如何發展？研究人員使用了多種類型的文本表示，如單詞、主題和嵌入。詞袋(BoW)模型使用離散詞匯創建分布式文本表示，并包含單詞頻率[67]。為了解決BoW表示的稀疏性，主題建模技術統計發現文檔集中的潛在主題，例如潛在狄利克雷分配(LDA)[15]。但它們無法捕捉語義意義，即單詞語義相似性。Word2Vec采用非線性神經層開發連續詞袋(CBOW)和連續跳躍-gram模型[148]。它從多種類型的UGC文本數據中提取語義嵌入，如博客、評論和推文。然而，神經層太淺，無法捕捉大量單詞標記之間的深層序列模式。隨著Transformer架構[219]的突破，預訓練語言模型(PLMs)顯著改變了UGC理解的格局，采用了預訓練-微調范式。新范式在大型未標注語料庫上訓練模型，使用自監著學習，并使用數百或數千個示例微調模型以適應下游任務[102]。最近，大型語言模型(LLMs)在這一領域引發了革命，展現了包括前所未有的推理[241, 256]、泛化[181, 239]和知識理解[163, 205]等新興能力。

LLMs在極大規模的語料庫上進行預訓練，更新數十億參數。大量研究表明，LLMs可以以零樣本方式理解UGC，即不需要微調的示例集合。LLMs在摘要[176]方面超越了人類表現，在幾個考試中表現優于大多數人類[159]，并展示了強大的推理能力，包括提示工程，如思維鏈[241]、最少到最多[290]和思維樹[256]。LLMs為UM研究開啟了一個新時代，重新思考UGC挖掘。基于圖表的UM研究如何發展？用戶與在線內容和用戶的互動自然定義為連接用戶或事物節點的邊。用戶數據可以定義為圖表。異構圖包含多種類型的節點（例如，用戶、物品、地點）和關系。時間/加權圖在互動上有時間戳/權重標記。屬性圖允許節點具有一組屬性-值對（例如，用戶的年齡，產品的顏色）。在文本豐富的圖中，節點具有長形文本屬性。隨機游走重啟提供加權圖中兩個節點之間的親近度得分，它已在許多設置中成功使用（例如，個性化PageRank[162]）。矩陣分解(MF)將用戶-物品互動矩陣分解為兩個矩陣的乘積，或稱為用戶和物品的潛在特征[91, 94, 107]。關于協同過濾，MF在明確反饋評級方面表現更好，而RWR利用物品的全球普及性。它實際上是一個基本的嵌入模型[272]。隨著深度學習的發展，Node2Vec通過隨機游走從圖中提取序列，并使用Word2Vec學習節點嵌入[65]。然而，將圖編碼為序列會導致信息丟失。圖神經網絡(GNNs)采用消息傳遞機制對圖進行深度表征學習。特別是，圖卷積網絡(GCN)[105]的家族極大地改善了推薦[49, 69]、用戶檔案建立[24, 250]、用戶行為預測[224, 263]和可疑用戶檢測[54, 55]的性能。**為什么LLMs正在革新基于文本和圖表的UM研究？**用戶建模涉及文本和圖表數據上的一系列機器學習任務，如文本分類、節點分類、鏈接預測和時間序列建模。放入上下文中，任務可以是情感分析、自然語言推理(NLI)、用戶和產品分類、社交關系預測和時間行為預測。傳統上，解決方案必須是針對特定類型數據的特定模型，并在特定注釋集上進行訓練。例如，由于模式差異，情感分析和NLI任務必須分別訓練兩個文本分類器。同樣，圖神經網絡(GNN)中的兩個網絡或至少兩個模塊被訓練來分別預測用戶是否交到新朋友和購買物品。此外，由于長尾分布，用戶和/或產品檔案的文本信息對于學習和預測非常有限。

大型語言模型（LLMs）改變了解決方案開發的范式。首先，如果設計得當，提示能夠將大型語言模型中的大多數文本到標簽的任務處理為統一的文本生成任務；這樣就不急切需要注釋數據；而且性能甚至可以與傳統模型相媲美或更好。這是因為大型語言模型在極大的語料庫上進行了預訓練，并微調以遵循提示中的指令。其次，提示可以為圖數據上的學習任務而設計。例如，可以問大型語言模型“如果一個用戶昨天買了蘋果手表，他會考慮購買一雙跑鞋嗎？”大型語言模型的“分析”可以為現有的用戶-商品鏈接預測器提供額外信息。第三，所有文本信息都可以由大型語言模型自動擴展。相關的參數化知識增強了機器學習模型的輸入，降低了任務難度。大型語言模型在表征用戶個性[184]、辨別用戶立場[271]、確定用戶偏好[52]等方面展現出了強大的能力。同時，它們在節點分類[259]、節點屬性預測[70]和圖推理[226]方面也表現出了顯著的熟練程度。初步研究聚焦于利用大型語言模型進行用戶建模（LLM-UM），以整合基于文本和基于圖的方法。對于用戶畫像，GENRE [135] 利用ChatGPT作為用戶畫像工具，通過輸入用戶的行為歷史，并提示模型推斷用戶偏好的主題和地區。這些由大型語言模型生成的畫像作為點擊率推薦模型的重要特征，解決了在收集用戶畫像中的匿名問題。在推薦方面，Kang等[100]使用大型語言模型預測用戶基于其行為歷史的評分，并發現大型語言模型通常需要較少的數據，同時保持了關于人類和物品的世界知識。在個性化方面，LaMP[189]提出了一個基準，包括個性化文本生成和分類任務，以及檢索增強方法。大型語言模型可以作為個性化工具，因為它們理解用戶數據。在可疑性檢測方面，Chiu等[29]使用GPT-3來檢測仇恨言論，發現大型語言模型能夠在有限的標簽下識別濫用語言。

本綜述的剩余部分安排如下（見圖2）。第2節介紹用戶建模技術和大型語言模型的背景，并闡述了為什么LLMs是下一代用戶建模的好工具。第4節根據它們的方法和應用，介紹了LLM-UM的兩種分類。第5節總結了LLM-UM的方法，以及LLMs如何在現有工作中整合文本和基于圖的方法，包括利用LLMs作為增強器、預測器和控制器。第6節詳細討論了LLM-UM的應用，包括個性化和可疑性檢測。最后，第7節深入探討了LLM-UM主題的當前挑戰和未來方向。LLM用戶建模鑒于大型語言模型（LLMs）在生成[282]、推理[241]、知識理解[205]方面的強大能力，以及對用戶生成內容（UGC）的良好理解，如第3節所述，LLMs可以用來增強用戶建模（UM）系統。基于LLMs在其中扮演的角色，LLM-UM方法通常可以分為三類，第一類將LLMs視為唯一的預測器，直接生成預測結果；第二類使用LLMs作為增強器，探索更多信息以增強UM系統；第三類賦予LLMs控制UM方法流程的能力，自動化UM過程；最后一類將LLMs用作評估器，評估系統的性能。值得一提的是，在LLM-UM中的“用戶模型”形式與之前的定義保持一致，涵蓋了借助用戶生成內容以及用戶-用戶/物品交互網絡[71]發現的知識和模式。LLM-UM與以前的范式的區別在于方法，其中LLM-UM被LLMs賦能或增強，以獲得與用戶相關的知識。在以下小節中，我們總結了每種范式，并介紹了代表性的方法。

在本節中，我們介紹了LLM-UM作品中呈現的LLMs-as-Predictors（LLMs作為預測器）范式，這意味著LLMs被用來直接為下游應用做出預測和生成答案。更具體地說，這些方法利用LLMs作為生成推理器、模擬器/代理、分類器/探測器、評分/排名函數、解釋器和聊天機器人。

我們分析了利用大型語言模型（LLMs）作為增強器在用戶建模（UM）模型中的方法。也就是說，LLMs并不是直接用來生成任務答案，而是被用作插入式增強模塊。這些方法使用LLMs作為畫像工具、特征編碼器、知識增強器和數據生成器。大型語言模型（LLMs）龐大的參數規模帶來了在小型語言模型中從未觀察到的新興能力，賦予LLMs前所未有的控制系統流程和增強用戶建模（UM）系統以滿足個人需求的能力。值得注意的是，與讓LLMs自由探索和與環境互動的LLMs作為代理的方式不同，LLMs-as-Controllers包括那些設計了整個流程并讓LLMs決定是否進行某些操作的工作。HuggingGPT[198]使用LLMs作為控制器來管理和組織專家模型的合作。具體到用戶建模系統中，RecLLM[61]利用LLMs作為對話管理器，與用戶對話，跟蹤上下文，并在必要時進行系統調用。Chat-REC[63]讓LLMs決定何時使用推薦系統作為外部工具。Foosherian等[60]展示了LLMs可以協助基于流程的對話代理進行情境化、意圖分類以防止對話中斷和處理超出范圍的問題、自動糾正話語、改述回應、制定消除歧義的問題、總結和啟用封閉式問題回答能力。LLM4Jobs[121]構建了一個流程，讓LLMs決定是否對職位發布進行總結。在用戶建模中評估自然語言生成（NLG），特別是在開放領域和對話設置中，一直面臨重大挑戰。大型語言模型（LLMs）強大的語言建模能力為這些復雜評估開辟了新的機會，一些研究工作提出將LLMs視為生成式用戶建模系統的評估者。Svikhnushina和Pu[207]利用LLMs近似在線人類評估對話系統。Huynh等[84]探索了LLMs在對話評估方面的能力，以及提示與訓練數據集之間的關系。iEvaLM[235]提出了一個利用LLMs模擬用戶和系統之間各種互動的對話推薦評估框架。Zheng等[285]發現使用像GPT-4這樣的強大LLMs作為評判員可以很好地匹配受控和眾包的人類偏好。LLM-Eval[132]設計了一種基于提示的評估方法，利用統一的評估模式覆蓋對話質量的多個維度。Bhat等[13]使用微調過的GPT-3來評估生成的問題，分類這些問題是否有助于學習。GIRL[287]在ChatGPT的幫助下評估推薦的工作結果。這些工作表明，LLMs可以是評估UM系統輸出的有效工具，確定這些輸出在多大程度上定制以滿足特定用戶需求。特別是在對話環境中，進行用戶研究可能既昂貴又容易受到偏見，LLMs提供了一種可靠且有效的方法來評估復雜和開放式生成的質量。因此，LLMs-as-Evaluator范式增強了用戶建模系統的開發。

結論

我們的工作提供了一份全面而結構化的關于大型語言模型在用戶建模（LLM-UM）方面的綜述。我們展示了為什么LLMs是進行用戶建模和理解用戶生成內容（UGC）及用戶互動的絕佳工具。接著，我們回顧了現有的LLM-UM研究工作，并對它們整合基于文本和基于圖的用戶建模技術的方法進行了分類，包括LLMs作為增強器、預測器、控制器和評估器的角色。接下來，我們根據它們的應用對現有的LLM-UM技術進行分類。最后，我們概述了LLM-UM領域中剩余的挑戰和未來的發展方向。這份綜述可作為LLM-UM研究者和從業者的手冊，用于研究和使用LLMs來增強用戶建模系統，并激發對這個主題的額外興趣和工作。

付費5元查看完整內容

大型語言模型 · 歸因 ·

2023 年 11 月 8 日

[付費5元查看完整內容]《大型語言模型歸因》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

開放領域生成系統在會話人工智能領域（例如生成式搜索引擎）引起了廣泛關注。本文對這些系統，特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性，但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解，幫助改進歸因方法，以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段，因此我們維護了一個倉庫，以跟蹤正在進行的研究，網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型（LLMs）驅動的開放領域生成系統出現以來（Anil等人，2023；OpenAI，2022，2023），解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰（Rawte等人，2023；葉等人，2023；張等人，2023b）。社區通常將這種問題稱為“幻覺”問題，其中生成的內容呈現出扭曲或虛構的事實，缺乏可信的信息來源（Peskoff和Stewart，2023）。這在信息搜索和知識問答場景中尤為明顯，用戶依賴大型語言模型獲取專業知識（Malaviya等人，2023）。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的（Penedo等人，2023）。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞，而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后（Ouyang等人，2022），模型仍然可能出現外部幻覺（Bai等人，2022）。為了解決外部幻覺的問題，研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性（Thoppilan等人，2022；Menick等人，2022；Nakano等人，2021）。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從，還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而，歸因的基本挑戰圍繞著兩個基本要求（Liu等人，2023）：

考慮到這些要求，我們可以將模型處理歸因的主要方式分為三種類型：

直接模型驅動的歸因：大型模型本身為其回答提供歸因。然而，這種類型經常面臨挑戰，因為回答可能不僅是虛構的，而且歸因本身也可能是虛構的（Agrawal等人，2023）。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案，但建議的參考文獻僅在14%的時間內存在（Zuccon等人，2023）。
檢索后回答：這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因（Gao等人，2023b）。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時，可能會出現潛在的知識沖突問題（Xie等人，2023）。檢索也可以被用作一種專門的工具，允許模型獨立觸發它，類似于ChatGPT 1中的“使用必應進行瀏覽”。
生成后歸因：系統首先提供答案，然后使用問題和答案進行歸因搜索。如果需要，答案然后會進行修改并得到適當的歸因。現代搜索引擎，如Bing Chat 2，已經包含了這種歸因方式。然而，研究顯示，從四個生成式搜索引擎生成的內容中，只有51.5%完全得到了引用文獻的支持（Liu等人，2023）。這種歸因方式在高風險專業領域，如醫學和法律中尤其缺乏，研究發現有大量不完整的歸因（分別為35%和31%）；而且，許多歸因來自不可靠的來源，51%的歸因被專家評估為不可靠（Malaviya等人，2023）。

超越對文本幻覺的一般討論（Zhang等人，2023b；葉等人，2023；Rawte等人，2023），我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外，我們也涉及了諸如偏見和過度引用的挑戰。我們相信，通過關注這些歸因問題，我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題，鼓勵對這一主題進行更深入的思考。

歸因是指一個實體（如文本模型）生成并提供證據的能力，這些證據通常以引用或參考文獻的形式出現，用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭，確保這些聲明可以從一個基礎語料庫中邏輯推斷出來，使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關（Brin 和 Page, 1998；Page 等人, 1999；Tay 等人, 2022），在這種任務中只有幾個網頁會被返回。然而，歸因的主要目的包括使用戶能夠驗證模型所做的聲明，促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺，以及建立一個結構化的框架來評估支持證據的完整性和相關性，與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人（2021）還提出了歸因于已識別來源（AIS）的評估框架，以評估特定陳述是否由所提供的證據支持。Bohnet 等人（2022）提出了歸因問答，模型在這里接受一個問題，并產生一對配對的回答，即答案字符串及其從特定語料庫，如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因，一些研究發現生成的文本更加基于事實，并且在下游任務中的表現也有所提升。最近，研究人員發現，大型語言模型在回答特定領域的知識性問題時，不能清楚地提供知識來源或證據（Peskoff 和 Stewart, 2023; Zuccon 等人, 2023）。在大多數情況下，模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題，它提供的證據仍然可能存在錯誤。Weller 等人（2023）嘗試通過提出根據提示方法，將模型生成的文本基于其預訓練數據，發現這種方法可以影響模型的根據性，從而影響信息尋求任務的表現。Anonymous（2023）引入了一個中間規劃模塊，要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖，然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因，可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法（Chen 等人，2017年；Lee 等人，2019年；Khattab 和 Zaharia，2020年）。SmartBook 框架（Reddy 等人，2023年）提出了一種方法，該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題，并從新聞文章中檢索相關信息。報告按時間線組織，每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題，MixAlign（張等人，2023a）提出了一個框架，該框架結合了自動問題知識對齊和用戶澄清，增強了檢索增強生成模型的性能，并減輕了語言模型的幻覺。此外，SearChain（徐等人，2023年）引入了一個新穎的框架，它將大型語言模型（LLMs）與信息檢索（IR）結合起來，提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法，通過生成全球推理鏈（CoQ）并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因，一些研究致力于生成后的歸因，這些研究使用搜索引擎或文檔檢索系統，基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性，而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR（高等，2023a）自主識別任何文本生成模型輸出的歸因，并執行后期編輯以糾正不支持的內容，同時努力在最大程度上保留原始輸出。在霍等人（2023）的工作中，材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM，以驗證生成的回應與檢索到的材料之間的一致性，并進行必要的編輯以減少幻覺。陳等人（2023b）介紹了一個全自動化的管道，旨在驗證復雜的政治聲明，這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

大型語言模型 · 軟件過程 ·

2023 年 10 月 6 日

[付費5元查看完整內容]大型語言模型在軟件工程：調查與待解決的問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提供了一個關于大型語言模型（LLMs）在軟件工程（SE）中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力，其應用覆蓋了軟件工程活動的全譜，包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而，這些同樣的新興屬性也帶來了重大的技術挑戰；我們需要能夠可靠地剔除錯誤的解決方案，如幻覺。我們的調查揭示了混合技術（傳統的SE與LLMs相結合）在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果；即大型語言模型（LLMs）在軟件工程（SE）應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會，我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的，但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中，但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是，我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接（和共鳴）。盡管總的來說，我們找到了很多樂觀的理由，但仍然存在重要的技術挑戰，這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出，LLMs普遍存在幻覺問題[1]，而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣，幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下，這意味著創造的工程制品可能是錯誤的，但看起來是合理的；LLMs可能引入錯誤。然而，與LLMs的許多其他應用不同，軟件工程師通常有可自動化的真實依據（軟件執行），大部分軟件工程制品都可以基于此進行評估。此外，軟件工程研究社區已經花了很多時間開發自動化和半自動化技術，以檢查人類可能產生的錯誤結果。這意味著，對于這個學科和研究社區，當面對像幻覺這樣的問題所帶來的挑戰時，有大量的經驗和專業知識可以借鑒。

顯然，自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用，就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時，由于缺乏可自動化的oracle [6]（一種自動技術，用于確定給定輸入刺激的輸出行為是否正確），自動測試數據生成受到限制。考慮到LLMs的幻覺傾向，Oracle問題仍然非常相關，對它的解決方案將變得更加有影響力。但是，一些SE應用關心現有軟件系統的適應、改進和開發，對于這些應用，有一個現成的可自動化的oracle：原始系統的功能行為。在本文中，我們稱其為“自動回歸Oracle”，這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考，以對任何后續的適應和更改的輸出進行基準測試。當然，有“烘焙”功能錯誤的風險，因為自動回歸Oracle無法檢測系統應該做什么，只能捕捉它當前做什么。因此，自動回歸Oracle只能測試功能退化，所以它最適合于需要保持現有功能的用例。例如，對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點，我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中，我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼，還可以包括其他軟件工程制品，如需求、測試用例、設計圖和文檔。總的來說，LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出，但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求，不僅要優化prompt工程（專注于LLM的輸入），還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的：相同的prompt在不同的推斷執行中產生不同的答案（除非溫度設為零，這在多次執行中經常被發現是次優的）[9]。此外，無論溫度設置如何，prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理，這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰：如果每次我們運行整個工程過程時結果都會變化，我們如何確定所提議的技術是否超越了現有的技術？這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是，SBSE與基于LLM的軟件工程有很多相似之處，在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此，已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如，參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文，我們過濾了出版物，將其細分為以下子類別：人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選（我們手動排除了重載縮寫，例如將GPT誤認為是通用規劃工具），結果是L列。最后，我們使用相同的查詢來識別基于LLM的軟件工程論文，這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的，因此我們只局限于基于總體趨勢得出的結論，而這些總體趨勢有強有力的證據支持，而不是觀察到的數字的具體細節。盡管如此，我們報告了觀察到的原始數字，以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量（|A|，以藍色表示）和LLM相關論文的數量（|L|，以橙色表示）的增長。特別是與軟件工程和LLM相關的論文以綠色表示（|L ∩ S|）。考慮到總體發表量的快速增長，我們為縱軸使用了對數刻度。不出所料，我們看到了計算機科學出版物數量的整體增長。同時，鑒于LLM最近受到的關注增多，LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納，如圖中的綠色所示。為了更詳細地檢查這一趨勢，我們在圖3中畫出了LLM出版物（L）與所有計算機科學出版物（A）的比例（以藍色表示），以及基于LLM的軟件工程出版物（L ∩ S）與所有LLM出版物的比例（以橙色表示）。如圖所示，自2019年以來，基于LLM的軟件工程論文的比例已經急劇上升。目前，所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長，我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制，但我們可以預期會有許多關于感興趣的子領域的全面調查，以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧（SLRs）。例如，Hou等人[14]提供了一個出色的最新SLR，涵蓋了2017年至2023年的229篇研究論文，報告了所處理的軟件工程任務、數據收集和預處理技術，以及優化LLM性能的策略（例如提示工程）。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大模型 · ChatGPT · 自然語言處理 · 領域大模型 ·

2023 年 6 月 8 日

[付費5元查看完整內容]大模型如何領域適配？埃默里大學等首篇《大型語言模型領域專業化》綜述，42頁pdf詳述大模型領域垂直化技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何讓模型適配專業領域？這篇文章夠了

大型語言模型（LLMs）顯著推進了自然語言處理（NLP）領域的發展，為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展，遠超“聊天機器人”，并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而，直接應用LLMs解決特定領域的復雜問題會遇到許多難題，這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性，以及領域應用中的各種限制（例如，各種社會規范、文化一致性、宗教信仰和道德標準）所引起。為了填補這種空白，在最近幾年中，對LLMs領域專化的研究和實踐已經爆炸式增長，然而，這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中，首先，我們提出了一個系統的分類法，該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類，并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法，這些領域可以從專業化的LLMs中受益，討論了它們的實際意義和開放的挑戰。此外，我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理（NLP）和人工智能（AI）模型的演變經歷了顯著的軌跡，始于1950年和1960年的基于規則的系統，轉變為1990年的統計模型，然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功，預訓練語言模型（PLMs）在2010年后期出現并迅速流行，這得益于它們能以無監督的方式從大規模數據中學習通用語言表示，這對許多下游NLP任務如常識推理[270]，多選題回答[206]和故事生成[30]都有益處，同時避免了從頭開始訓練新模型。在過去的幾年中，隨著大規模語料庫和硬件容量的快速增長，研究人員發現，通過擴大模型和訓練數據可以持續提高模型的容量，遵循擴展規則[99]，最終導致了大型語言模型（LLMs）[259]的出現，如GPT-3[28]（175B參數），PaLM[39]（540B參數），和LLaMA[235]（65B參數）。LLMs在理解和生成類人文本方面明顯優于較小的模型，已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋，對改變自然和社會科學的潛力，可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型（LLMs）作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展，遠超過僅作為“聊天機器人”[173]，而是將其用作特定領域如健康保健、金融和教育的助手，甚至替代人工或現有的事實上的工具。然而，直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先，不同領域、角色和任務的對話和語言風格存在顯著差異，范圍從醫療處方，到法律句子，到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練，其中很多都是實踐性的和專有的。此外，不同的領域、機構和團隊有自己的“商業模式”，關于哪種回應將最大化他們自己的效用函數以完成他們的任務，這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是，專業級使用的領域知識要求也需要非常深入，實時且準確，這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力，絕不能泄露給通用的LLMs。最后但并非最不重要的一點，語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束，所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數，這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性，即將通用的LLMs定制到領域的上下文數據，增強領域知識，優化領域目標，并受到領域限制的調控。為了實現這個目標，這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題，需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰，包括：1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而，這也意味著LLMs往往有一個知識斷層（即，LLMs無法獲取最新的信息、事件或發現）。在許多專業領域，新的發現、規定和最佳實踐不斷出現，這使得LLMs難以保持最新。例如，每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查，LLMs可能無法處理它們，因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而，確保模型的新鮮度可能需要大量的資源，因為它需要連續的高質量和最新的數據收集、處理，以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下，LLMs具有廣泛主題的通用知識，并可能已經看到并獲得了大部分領域的特定知識。然而，更受歡迎或廣泛討論的話題可能被過度代表，而一些領域特定的話題可能被低估，這使得它們難以被有效地提取用于領域特定的任務。此外，領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導，LLMs可能會生成聽起來合理但對類似查詢（即，LLM的幻覺）或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列，而不是基于結構化知識庫提供確定的答案。研究人員發現，通過為LLMs提供一些任務特定的演示，用戶可以指導模型生成更相關、準確和任務特定的回應，從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口，通常由它們可以處理的最大令牌長度決定（例如，ChatGPT只能處理4097個令牌）。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用，微調歷史上是專門化語言模型的常用做法。然而，與傳統的語言模型不同，微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外，LLM的復雜性使得確定最適當的微調策略變得具有挑戰性，因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘，因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識，并過度適應目標領域。除了數據需求和復雜模型架構之外，LLM通常由數十億的參數組成，例如，生成預訓練Transformer 3（GPT-3）[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數，這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件，如TPU，這可能會很昂貴，尤其是對于個人研究者或小型組織來說，獲取這些資源可能會非常困難。

在過去的幾年中，對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻，只需進行少量修改并獲取領域特定信息，就可以適應特定領域。然而，將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰，同樣的，缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙，并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙，更有效地利用人工智能完成各種領域的任務，這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括：

? 對LLMs領域專業化技術的系統分類和分類法：我們基于對LLM的不同級別（即，黑箱、灰箱和白箱）的可訪問性，全面地分類了現有的方法，并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結：我們首次提出了代表性應用領域的分類法，LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明，便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域，以評估他們新提出的方法，同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解，以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明，擴展預訓練語言模型，如增加模型大小或數據大小，常常能提升模型在下游任務中的處理能力。在本節中，我們首先回顧了PLMs的基本概念，然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型（LLMs）的可訪問性級別，將專門化LLMs進入領域的方法分為三類，即無訪問權限（黑箱），部分訪問權限（灰箱）和全訪問權限（白箱）。黑箱通常表示我們只能訪問模型API（例如，ChatGPT和GPT4），而不知道除生成的輸出外的任何信息；灰箱表示我們有限的信息（例如，GPT-3 API中生成的令牌的概率），這樣的信息可以指導我們設計并微調適當的提示，以更好地引出領域知識；白箱則表示我們可以全面訪問LLM（例如，LLaMA及其變種），包括參數設置，訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說，

1）外部增強（黑箱）并不需要訪問LLM的內部參數空間，使其對資源有限的用戶（例如，計算資源，特定領域的數據）最為可接觸。如圖2（b）所示，通過使用外部資源或工具，將領域特定知識融入輸入提示，生成的輸出，或兩者，有效地改進了LLM的性能，而無需修改其內部結構。

2）提示制作（灰箱）涉及訪問LLM的梯度或損失值來設計各種類型的提示，允許更精細地控制模型的行為。

3）模型微調（白箱）需要最多的訪問權限和資源，因為它涉及更新LLM的參數，將領域特定知識直接融入模型。（圖2（d））。

3 LLM領域專業化的應用

在這篇綜述性的論文中，我們探索了LLMs在一系列特定領域任務中的應用，這些領域包括社會科學（如教育，金融，法律），自然科學（如生物醫學，地球科學），以及應用科學（如人機交互，軟件工程和網絡安全）。為了在這些多元化領域實現LLMs的領域專業化，讀者可以采用各種技術，如外部增強，指示制作，和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰，從而使得應用更準確，相關和有效。雖然每個領域都有其獨特的挑戰和需求，但在這些領域中，專門化的LLMs有幾個共同的應用：

? 高級信息提取：它們可以從特定領域的文本中識別實體，關系和事件，如從生物醫學文獻中識別基因，或在合同中檢測法律條款。 ? 文本生成和摘要：它們可以生成高質量的，特定領域的內容，并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦：它們可以分析特定領域的數據進行預測和提供推薦，如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統：它們可以被融入到對話代理或專家系統中，提供特定領域的指導，如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析：在軟件工程中，它們可以基于自然語言描述生成或分析代碼，識別錯誤，或提出改進建議。

4. 結論

總的來說，大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然，社會和應用科學領域中的特定領域任務的極大興趣。然而，若干挑戰，如特定領域的專業知識有限，知識誘導和模型復雜性，阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結，并提供了一個全面的應用領域分類，這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點，缺點和關系的詳細分析，這份調查旨在幫助領域專家確定適合他們目標問題設置的技術，同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外，該文還強調了這一領域研究的當前狀態，揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展，這份調查為研究人員和從業人員提供了寶貴的資源，進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

大模型 · 涌現能力 · ChatGPT ·

2023 年 5 月 16 日

[付費5元查看完整內容]大模型的涌現能力介紹

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

原創作者：崔涵，宋巖奇轉載須標注出處：哈工大SCIR

摘要

一個一直以來的共識是，模型的規模越大，模型在下游任務上的能力越多、越強。隨著最近的新的模型的提出，大規模的語言模型出現了很多超乎研究者意料的能力。我們針對這些在小模型上沒有出現，但是在大模型上出現的不可預測的能力——“涌現能力”做了一些歸納和總結，分別簡要介紹了涌現能力的定義、常見的激發手段和具體的分類和任務。

縮放法則（Scaling Law）

Kaplan J等人[1]在 2020 年提出縮放法則，給出的結論之一是：模型的性能強烈依賴于模型的規模，具體包括：參數數量、數據集大小和計算量，最后的模型的效果（圖中表現為loss值降低）會隨著三者的指數增加而線性提高（對于單個變量的研究基于另外兩個變量不存在瓶頸)。這意味著模型的能力是可以根據這三個變量估計的，提高模型參數量，擴大數據集規模都可以使得模型的性能可預測地提高。Cobbe等人[2]的工作提出縮放定律同樣適用于微調過程。

圖1：Loss值隨計算資源、數據規模大小和參數量的指數提升呈線性下降

縮放定律的一個重要作用就是預測模型的性能，但是隨著規模的擴大，模型的能力在不同的任務上并不總表現出相似的規律。在很多知識密集型任務上，隨著模型規模的不斷增長，模型在下游任務上的效果也不斷增加；但是在其他的復雜任務上（例如邏輯推理、數學推理或其他需要多步驟的復雜任務），當模型小于某一個規模時，模型的性能接近隨機；當規模超過某個臨界的閾值時，性能會顯著提高到高于隨機（如下圖所示）。這種無法通過小規模模型的實驗結果觀察到的相變，我們稱之為“涌現能力”。

涌現能力的概述

涌現能力的定義

在其他的學科中已經有很多與“涌現能力”相關的研究了，不同學科解釋的方式和角度也不盡相同。物理學中對“涌現能力”的定義[3]是：

當系統的量變導致行為的質變的現象(Emergence is when quantitative changes in a system result in qualitative changes in behavior)。對于大規模語言模型的涌現能力，在 Jason Wei 等人的工作中[4]的工作中，給出的定義：在小模型中沒有表現出來，但是在大模型中變現出來的能力"（An ability is emergent if it is not present in smaller models but is present in larger models.）。涌現能力大概可以分為兩種：通過提示就可以激發的涌現能力和使用經過特殊設計的prompt激發出的新的能力。

基于普通提示的涌現能力

通過 prompt 激發大模型能力的方法最早在GPT3[5]的論文中提出提示范式的部分加以介紹：給定一個提示（例如一段自然語言指令），模型能夠在不更新參數的情況下給出回復。在此基礎上，Brown等在同一篇工作中提出了Few-shot prompt，在提示里加入輸入輸出實例，然后讓模型完成推理過程。這一流程與下游任務規定的輸入輸出完全相同，完成任務的過程中不存在其他的中間過程。下圖展示了來自不同的工作的對于大模型的在few-shot下測試結果。其中，橫坐標為模型訓練的預訓練規模（FLOPs：floating point operations，浮點運算數。一個模型的訓練規模不僅和參數有關，也和數據多少、訓練輪數有關，因此用FLOPs綜合地表示一個模型的規模）；縱軸為下游任務的表現。可以發現，當模型規模在一定范圍內時（大多FLOPs在10^22以內），模型的能力并沒有隨著模型規模的提升而提高；當模型超過一個臨界值時，效果會馬上提升，而且這種提升和模型的結構并沒有明顯的關系。圖2：在普通prompt方式下，不同任務上的效果隨模型訓練的計算量的提升的變化

基于增強提示的激發方法

隨著對大規模語言模型的研究越來越深入，為大模型添加prompt的方式也越來越多，主要表現出的一個趨勢是，相比于普通的 few-shot 模式（只有輸入輸出）的 prompt 方式，新的方法會讓模型在完成任務的過程中擁有更多的中間過程，例如一些典型的方法：思維鏈（Chain of Thought）[6]、寄存器（Scratchpad）[7]等等，通過細化模型的推理過程，提高模型的下游任務的效果。下圖展示了各種增強提示的方法對于模型的作用效果，具體的任務類型包括數學問題、指令恢復、數值運算和模型校準，橫軸為訓練規模，縱軸為下游任務的評價方式。與上圖類似，在一定的規模以上，模型的能力才隨著模型的規模突然提高；在這個閾值以下的現象則不太明顯。當然，在這一部分，不同的任務采用的激發方式不同，模型表現出的能力也不盡相同，我們會在下文分類介紹。

圖3：在增強的prompt方式下，一些復雜任務的效果隨模型訓練的計算量提升而提升

不同的涌現能力的介紹

在這一部分，我們并沒有沿用Jason Wei 等人[4]的工作中以使用方法分類的脈絡，因為同一種方式激發出的能力可能能應用于多個任務，多種激發方式也可能只是不同程度地提升同種能力；我們采用Yao等人[8]的方式，從能力出發，對不同的方法激發出的能力和激發效果進行總結。

**優秀的上下文學習能力

大規模的語言模型展現出了優秀的上下文學習能力（In-context learning）。這種能力并非大模型專屬，但是大模型的足夠強大的上下文學習能力是之后各種涌現能力激發的基礎。類似于無監督的預測，在上下文學習過程中，不需要對模型進行參數調整，只需要在輸入測試樣例之前輸入少量帶有標注的數據，模型就可以預測出測試樣例的答案。有關上下文學習的能力來源仍然有很多討論。在 Min等人[9]的實驗中，分析了上下文學習能力的作用原理。實驗表明，上下文學習的過程中，prompt中的ground truth信息并不重要，重要的是prompt中實例的形式，以及輸入空間與標簽空間是否與測試數據一致。Xie 等人的工作[10]將上下文學習的過程理解為一個貝葉斯推理的過程，在in-context learning的過程中，模型先基于prompt推測concept，然后基于concept和prompt生成output。在對多個樣例進行觀測的過程中，prompt中的數據會給concept提供“信號”（與預訓練過程中的相似之處）和“噪聲”（與預訓練過程分布差別較大之處），當信號大于噪聲時，模型就可以推理成功。

**可觀的知識容量

在問答和常識推理任務上需要模型具有較好的知識推理能力，在這種情況下，對大型模型進行提示不一定優于精調小型模型。但是大模型擁有更高的標注效率，因為：
在許多數據集中，為了獲得所需的背景/常識知識，小模型需要一個外部語料庫/知識圖譜來檢索，或者需要通過多任務學習在增強的數據上進行訓練
對于大型語言模型，可以直接去掉檢索器，僅依賴模型的內部知識，且無需精調

圖4：之前的需要外部檢索的SOTA和GPT-3的性能對比

上表來自于 Yu等人[11]的工作。如表中所示，雖然在常識/開放域問答任務上GPT-3 并沒有明顯優于之前的精調模型，但它不需要從外部文檔中檢索，因為其本身就包含了知識。

為了理解這些結果的重要性，我們可以回顧一下NLP的發展歷史：NLP 社區從一開始就面對著如何有效編碼知識的挑戰。研究者們一直在不斷探索如何把知識保存在模型外部或者內部的方法。上世紀九十年代以來，研究者們一直試圖將語言和世界的規則記錄到一個巨大的圖書館中，將知識存儲在模型之外。但這是十分困難的，畢竟我們無法窮舉所有規則。因此，研究人員開始構建特定領域的知識庫，來存儲非結構化文本、半結構化（如維基百科）或完全結構化（如知識圖譜）等形式的知識。通常，結構化知識很難構建，但易于推理，非結構化知識易于構建，但很難用于推理。然而，語言模型提供了一種新的方法，可以輕松地從非結構化文本中提取知識，并在不需要預定義模式的情況下有效地根據知識進行推理。下表為優缺點對比：

構建推理結構化知識難構建需要設計體系結構并解析容易推理有用的結構已經定義好了非結構化知識容易構建只存儲文本即可難推理需要抽取有用的結構語言模型容易構建在非結構化文本上訓練容易推理使用提示詞即可

**優秀的泛化性

在 2018 年至 2022 年期間，NLP、CV 和通用機器學習領域有大量關于分布偏移/對抗魯棒性/組合生成的研究，人們發現當測試集分布與訓練分布不同時，模型的行為性能可能會顯著下降。然而，在大型語言模型的上下文學習中似乎并非如此。

圖5： GPT-3的同分布和不同分布之間的對比，以及和RoBERTa的對比上圖來自Si等人[12]在2022年的研究，在此實驗中，同分布情況下基于prompt的 GPT-3 的效果并沒有精調后的 RoBERTa要好。但它在三個其他分布（領域切換、噪聲和對抗性擾動）中優于 RoBERTa，這意味著 GPT3 更加魯棒。

圖6：不同復雜程度的提示在不同分布中對模型效果的影響此外，即使存在分布偏移，好的提示詞所帶來的泛化性能依舊會繼續保持。比如Fu 等人[13]2022年的研究（上圖所示），輸入提示越復雜，模型的性能就越好。這種趨勢在分布轉移的情況下也會繼續保持：無論測試分布與原分布不同、來自于噪聲分布，或者是從另一個分布轉移而來的，復雜提示始終優于簡單提示。

**復雜推理能力

復雜推理能力包含若干方面，如數學推理能力、代碼生成、腳本生成等等，以下的介紹我們以數學推理能力為例。數學推理的一個典型的數據集是GSM8K，其由8.5K個人工標注的高質量的小學數學問題組成。數據集的標注內容不僅包含最終結果，還包含得到結果的2～8個推理步驟。

在最開始的GPT3的論文中，對于這個任務的學習方式仍然是微調的方式，得到的結果基本符合縮放定律。作者在論文里得出一個結論：

175B的模型仍然需要兩個額外數量級的訓練數據才能達到80%的準確率。但是在之后的工作中，通過其他的方式大大提高了該任務上的結果。Wei等人[6]通過思維鏈的方式，將540B的PaLM模型上的準確率提高到56.6%，這一過程并沒有微調，而是將8個提示示例作為prompt，通過few-shot的方式激發模型的推理能力。在此基礎上，Wang等人[14]通過多數投票的方式，將這一準確率提高到74.4%。Yao等人[15]提出Complexity-based Prompting，通過使用更復雜、推理步驟更多的樣例作為prompt，進一步提高模型的效果。在此之外，數據集的難度也越來越高：Chung等人[16]將測試范圍擴展到高中的各個學科；Minerva[17]的工作將測試范圍擴展到大學的各個學科；Jiang等人[18]進一步將測試范圍擴展到國際數學奧林匹克問題上。

我們看到，從涌現能力的角度講，模型在在達到一定規模后，用恰當的方式激發出的性能確實遠遠超過縮放法則所預測的效果；與此同時，各種方法都是few-shot或zero-shot的方式，需要的數據也更少。現在并沒有太多工作能夠直接對比在同樣的足夠大的模型上，微調和prompting的方式的性能差距；但是在下游任務數據集的規模往往遠小于模型充足訓練所需要的數據規模的情境下，利用prompting激發模型本來的能力確實能夠顯著提高效果，這也是目前大多數任務面臨的情況。

涌現能力是海市蜃樓？

在斯坦福大學最新的工作[19]中指出，大模型的涌現能力來自于其不連續的評價指標，這種不連續的評價指標導致了模型性能在到達一定程度后出現“大幅提升”。如果換成更為平滑的指標，我們會發現相對較小的模型的效果也并非停滯不前，規模在閾值以下的模型，隨著規模的提高，生成的內容也在逐漸靠近正確答案。為了驗證這一觀點，斯坦福的研究人員做了兩組實驗，第一組是將NLP中不連續的非線性評價指標轉為連續的線性評價指標，結果如下圖所示，模型的涌現能力消失了（從圖2到下圖）。圖7：不同類型指標下，不同規模的模型的性能對比。當換為更加平滑的指標后，小模型的性能也隨著規模擴大而逐步提高第二組實驗是將CV任務中的連續指標轉換為了類似NLP中的不連續指標，結果如下圖所示，CV任務中也出現了涌現能力：圖8：更換指標之后，cv任務中的模型規模與模型效果之間的關系。當換為不平滑指標后，cv任務中的模型也出現類似的“涌現能力”

因此LLM中的涌現能力到底是什么，又是如何出現的，依然值得研究者們研究。

結語

本文簡要介紹了涌現能力，具體包括涌現能力之前的縮放法則，涌現能力的定義，涌現能力的分類，還簡要介紹了不同涌現能力的典型激發方法。當然，歸根結底，“涌現能力”只是對一種現象的描述，而并非模型的某種真正的性質，關于其出現原因的研究也越來越多。現有的一些工作認為，模型的涌現能力的出現是和任務的評價目標的平滑程度相關的。在之后的工作中，更好的評級方式，更高的數據質量，更出乎人意料的prompt方式，都可能會更進一步提高模型的效果，并讓觀測到的效果得到更客觀的評價。

參考文獻

[1] Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020. [2] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems. [3] Philip W. Anderson. More is different: Broken symmetry and the nature of the hierarchical structure of science. Science, 177(4047):393–396, 1972. [4] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022. [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. [6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022. [7] Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. [8] Fu, Yao; Peng, Hao and Khot, Tushar. (Dec 2022). How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources. Yao Fu’s Notion [9] Min S, Lyu X, Holtzman A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?[J]. arXiv preprint arXiv:2202.12837, 2022. [10] Xie S M, Raghunathan A, Liang P, et al. An explanation of in-context learning as implicit bayesian inference[J]. arXiv preprint arXiv:2111.02080, 2021. [11] Yu W, Iter D, Wang S, et al. Generate rather than retrieve: Large language models are strong context generators[J]. arXiv preprint arXiv:2209.10063, 2022. [12] Si C, Gan Z, Yang Z, et al. Prompting gpt-3 to be reliable[J]. arXiv preprint arXiv:2210.09150, 2022. [13] Fu Y, Peng H, Sabharwal A, et al. Complexity-based prompting for multi-step reasoning[J]. arXiv preprint arXiv:2210.00720, 2022. [14] Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models. [15] Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning. [16] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models. [17] Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models. [18] Jiang et. Al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs. [19] Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage?[J]. arXiv preprint arXiv:2304.15004, 2023. 本期責任編輯：張宇本期編輯：李寶航

付費5元查看完整內容

大模型 · ChatGPT · 知識圖譜 ·

2023 年 5 月 9 日

[付費5元查看完整內容]大模型ChatGPT如何用于知識圖譜構建？《利用大型語言模型增強知識圖譜構建》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大型語言模型（LLM）發展的日益普及，吸引了大量關注，各種應用領域的模型不斷涌現。然而，將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展，如ChatGPT，如何與專用預訓練模型，如REBEL，進行比較，以實現實體和關系的聯合提取。為了評估這種方法，我們使用與可持續性相關的文本作為案例，進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程，并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外，我們還探討了使用基礎LLM模型進行自動本體創建的潛力，從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法，包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較，我們從網絡上收集了有關可持續性主題的新聞數據。為此，我們使用了News API [21]系統。News API是一個HTTP REST API，用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能：關鍵詞或短語、發布日期、來源域名和語言。通過使用News API，我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數，從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制，因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理（NLP）中的一項基本任務，旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性，因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中，我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL：我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本，需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌，這意味著在將較長的收集到的文章發送到模型進行三元組提取之前，需要對其進行預處理。為了解決這個限制，我們將原始文本進行分詞，并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理，然后合并結果以提取較長文本的關系。還向提取的關系添加元數據，引用生成關系的令牌批次。采用這種方法，由于令牌批次可能在句子的中間開始或結束，某些關系可能無法準確提取。然而，這種情況發生的次數微乎其微。因此，我們將其處理留給未來的工作。實體-關系提取過程完成后，提取的信息存儲在三元組結構中。為了進一步規范提取的實體，我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分，它是用于優化提取關系的額外后處理步驟。在本研究中，我們使用DBpedia作為知識庫，并認為如果兩個實體具有相同的DBpedia URL，則它們是相同的。這方法不適用于DBpedia上不存在的實體。

ChatGPT：本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后，我們遵循與REBEL模型相同的步驟，以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗，我們將參數“溫度”的值設為0，以獲得更具確定性的輸出，因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

預訓練語言模型 · 知識增強預訓練模型 ·

2021 年 10 月 19 日

[付費5元查看完整內容]知識增強預訓練語言模型:全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示，建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域，并為各種NLP任務設置了新的最先進的性能。然而，盡管PLM可以從訓練語料庫中存儲一定的知識/事實，但它們的知識意識還遠遠不能令人滿意。為了解決這個問題，將知識集成到PLM中已經成為一個非常活躍的研究領域，并且已經開發了各種各樣的方法。在本文中，我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外，我們還調研了各種NLU和NLG應用，在這些應用上，KE-PLM表現出了優于普通PLM的性能。最后，討論了KE-PLMs面臨的挑戰和未來的研究方向。

引言

近年來，大規模預訓練語言模型(大規模預訓練語言模型，簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16]， RoBERTa [50]， GPT2/3[68][7]和T5[69]獲得了巨大的成功，極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用，如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明，這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而，進一步的研究發現，PLM在知識意識方面也存在以下局限性:

對于NLU來說，最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58]，并且很容易被否定的信息(例如，“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外，已有研究發現，PLM在推理任務中往往會失敗[84]。

對于NLG，盡管PLM能夠生成語法正確的句子，但生成的文本可能不符合邏輯或不合理。例如，在[46]中提到，給定一組概念{dog, frisbee, catch, throw}， GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”，這兩者都不符合人類的常識。

這些觀察結果促使人們設計更有知識意識的預訓練模型。最近，越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源，采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識，提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。

本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術，用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究，我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中，已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用)，以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中，我們認識到一個知識源可以被不同程度地利用，并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后，我們介紹了第三種分類法，它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了，我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。

付費5元查看完整內容

深度學習 · 數據庫 · 自然語言接口 ·

2021 年 9 月 27 日

[付費5元查看完整內容]基于深度學習的數據庫自然語言接口綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：數據庫自然語言接口(natural language interface to database, NLIDB)能夠憑借自然語言描述實現數據庫查詢操作，是促進用戶無障礙地與數據庫交互的重要工具.因為NLIDB具有較高的應用價值，近年來一直受到學術與商業領域的關注.目前成熟的NLIDB系統大部分基于經典自然語言處理方法，即通過指定的規則實現自然語言查詢到結構化查詢的轉化.但是基于規則的方法仍然存在拓展性不強的缺陷.深度學習方法具有分布式表示和深層次抽象表示等優勢，能深入挖掘自然語言中潛在的語義特征.因此近年來在NLIDB中，引入深度學習技術成為了熱門的研究方向.針對基于深度學習的NLIDB研究進展進行總結：首先以解碼方法為依據，將現有成果歸納為4種類型分別進行分析；然后匯總了7種模型中常用的輔助方法；最后根據目前尚待解決的問題，提出未來仍需關注的研究方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200209

付費5元查看完整內容

自然語言處理 · 預訓練模型 ·

2020 年 12 月 9 日

[付費5元查看完整內容]自然語言處理預訓練模型的研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來，深度學習技術被廣泛應用于各個領域，基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態，在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹，并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述；簡要分析傳統預訓練模型的特點及局限性，重點介紹基于深度學習的預訓練模型，并針對它們在下游任務的表現進行對比評估；梳理出具有啟發意義的新式預訓練模型，簡述這些模型的改進機制以及在下游任務中取得的性能提升；總結目前預訓練的模型所面臨的問題，并對后續發展趨勢進行展望。

付費5元查看完整內容