国产高清一区二区在线影院,精品国产V一区二区三区,国产精品免费一区二区

隨著現代軟件的復雜性不斷升級，軟件工程已經成為一項越來越令人生畏且容易出錯的工作。近年來，神經代碼智能(NCI)領域已經成為一種有前途的解決方案，利用深度學習技術的力量來解決源代碼的分析任務，目標是提高編程效率，并最大限度地減少軟件行業中的人為錯誤。預訓練語言模型已經成為NCI研究的主導力量，在廣泛的任務中始終如一地提供最先進的結果，包括代碼摘要、生成和翻譯。在本文中，我們對NCI領域進行了全面的調研，包括對預訓練技術、任務、數據集和模型架構的全面回顧。我們希望這篇論文能成為自然語言和編程語言社區之間的橋梁，為這一快速發展領域的未來研究提供見解。

//www.zhuanzhi.ai/paper/d0c79cc69bdb9171339f34e916fc7c12

1. 引言

編程語言(Pierce, 2002)作為軟件的基礎，使人類能夠與計算機交流并指導計算機進行計算。使用編程語言開發軟件的過程，即軟件開發，已經成為一個蓬勃發展的行業，在現代數字世界中發揮著至關重要的作用。然而，軟件開發還包括編程之外的一系列任務，包括測試、文檔編寫和bug修復，眾所周知，這些任務具有挑戰性，需要高水平的人類專業知識(Brooks, 1978)。

為了簡化軟件開發，代碼智能工具作為一種自動分析源代碼并解決軟件工程任務的計算機輔助方法應運而生。以前，這些工具大多基于靜態分析技術。例如，Microsoft Intellisense是一個代碼智能工具，它通過靜態分析用戶代碼和構建定義、引用、類型簽名等數據庫來提供代碼補全建議和提示函數簽名。還有一些工具可以自動檢測源代碼中的漏洞(Ayewah et al.， 2008;Engler and Musuvathi, 2004)。雖然這些工具在工業中被廣泛采用，但它們有局限性。主要的限制之一是，這些工具通常是為特定的編程語言構建的，需要大量的工作才能將它們遷移到新語言。此外，像Python這樣的動態語言很難進行靜態分析，這使得傳統的代碼智能工具對開發人員來說效率較低。

最近，研究人員已經開始將語言模型和預訓練策略應用于代碼智能任務，如程序合成(Chen et al., 2021; Wang et al., 2021b);，文檔生成(Wang et al., 2021b; Alon et al., 2019a; Feng et al., 2020)，缺陷檢測和程序修復，這是受預訓練Transformer模型在序列數據建模上的成功啟發(Krizhevsky et al., 2017; Vaswani et al., 2017)。受軟件自然性假設的啟發(Hindle et al., 2016; Buratti et al., 2020)，這表明編程語言可以像自然語言一樣被理解和生成，研究人員將源代碼視為順序數據并應用順序神經架構，如Transformer模型(Vaswani et al.， 2017)，以理解和生成程序(Feng et al.， 2020;Guo et al.， 2021)。在自然語言處理(NLP)社區中，人們觀察到，當有大量未注釋數據可用時，預訓練范式使模型能夠學習高質量的上下文token嵌入，并顯著提高下游性能(Krizhevsky等人，2017;Brown等人，2020)。同樣，可以在GitHub等開源平臺上找到大量編程語言的代碼片段(Chen et al.， 2021)。因此，研究人員采用了預訓練范式(Devlin等人，2019)來解決各種代碼分析任務(Feng et al., 2020; Guo et al., 2021; Chen et al., 2021)。與靜態分析器相比，這種數據驅動的方法大大節省了開發支持不同任務和適應新的編程語言的代碼智能工具的工作量。迄今為止，預訓練代碼語言模型在廣泛的任務上取得了最先進的性能，并在不同語言中表現出令人滿意的泛化能力(Wang等人，2021b;Chen等人，2021;Li等人，2022)。值得注意的是，Codex (Chen等人，2021)在程序合成方面取得了一個重要的里程碑，并增強了Copilot2等編程智能工具的能力，這些工具甚至被應用于解決線性代數和數學應用題(Tang et al., 2021; Drori and Verma, 2021)。

盡管將預訓練語言模型應用于代碼智能任務取得了成功，該領域的研究也在蓬勃發展，但一直缺乏對不斷增長的文獻進行分類的系統綜述。之前的工作既沒有充分考慮基于語言的代碼模型，也沒有對現有的模型設計、下游任務和數據集進行全面的審查(Xu et al., 2022; Wu et al., 2022a; Allamanis et al., 2018)。為了建模和理解編程語言的語義，有必要討論預訓練和下游任務的可用數據集，以及如何設計合適的神經架構和有效的訓練方案。此外，由于源代碼本身具有豐富的結構信息(Xu等人，2022;Guo et al.， 2021)，如何在設計代碼智能模型時提取并利用這些結構作為先驗知識是一個至關重要的問題。這需要編程語言社區的理論和技術背景知識。Wu等人(2022b)綜述了用于結構化代碼理解的深度學習方法，并討論了基于序列和基于圖的建模技術。然而，這項工作更關注程序的結構方面，缺乏對語言模型和預訓練策略的深入討論。

為了連接NLP和PL社區的知識，本文將現有的用于代碼智能的預訓練語言模型分組為神經代碼智能(NCI)，并對該領域進行了系統的回顧。從預處理技術、模型架構和學習范式方面回顧了編程語言的神經建模技術。討論了NCI的各種下游任務，以及用于訓練和評估代碼語言模型的可用數據集。探討了將語言建模方法應用于代碼智能的挑戰和機遇。此外，我們在GitHub存儲庫中維護了一個NCI研究、新聞和工具的列表3。希望該工作可以闡明該領域當前的研究前景，幫助新人了解最近的研究進展，并為未來的研究提供見解。

代碼語言模型預訓練

在本節中，我們將回顧代碼語言模型的設計和訓練。為了系統地回顧現有的文獻，將代碼語言建模方法拆分為一個由三個階段組成的管道:預處理、順序建模和訓練。流程如圖1所示，我們將依次介紹它們。

**預處理。**對于代碼語言模型，輸入將是預訓練語料庫中的源代碼片段或稍后在下游數據集上的源代碼片段。它必須首先對輸入代碼進行預處理，包括在代碼上運行標記化，并可選地從編程語言中提取先驗知識。

順序建模。然后，它將預處理的結果(主要是標記序列)輸入到語言模型中，將代碼編碼為密集表示，預測其屬性，或從中生成代碼序列。

預訓練和微調。用無監督目標訓練模型，并在下游任務上進一步微調。在預訓練階段，模型從大量的代碼語料庫中學習，沒有人工注釋，以獲得源代碼結構和語義的通用和可遷移的知識。然后，針對特定的下游任務對預訓練模型進行微調。除了上述的預訓練和微調策略，其他學習范式包括零樣本、少樣本和多任務學習也可以用于訓練模型。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

預訓練語言模型 ·

2023 年 1 月 23 日

[付費5元查看完整內容]預訓練語言模型的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：近年來,預訓練語言模型發展迅速,將自然語言處理推到了一個全新的發展階段。文中的綜述旨在幫助研究人員了解強大的預訓練語言模型在何處以及如何應用于自然語言處理。具體來講,首先簡要回顧了典型的預訓練模型,包括單語言預訓練模型、多語言預訓練模型以及中文預訓練模型;然后討論了這些預訓練模型對5個不同的自然語言處理任務的貢獻,即信息提取、情感分析、問答系統、文本摘要和機器翻譯;最后討論了預訓練模型的應用所面臨的一些挑戰。

//www.jsjkx.com/CN/10.11896/jsjkx.220800223

在早期的自然語言處理(NaturalLanguageProcessing, NLP)任務中,人們通常利用各種深度神經網絡[１],使用低維密集向量來表示語言的句法或語義特征.然而,由于深度神經網絡參數量大,并且是在有限的數據集上進行訓練的,往往會導致過度擬合.因此,Vaswanid等[２]提出了深度學習模型 Transformer,用于解決循環神經網絡(RecurrentNeuralNetＧ work,RNN)訓練緩慢、效率低下和過度擬合的問題[３].同時,將 Transformer與自我注意力機制相結合,實現了快速并行的效果. 從此,預訓練語言模型 (Pretrained Language Model,PLM)進入了蓬勃發展的階段.各種大規模的單語言 PLM(如 BERT [４]和 GPT [５])在各種 NLP任務中獲得了巨大成功,并催生了許多不同的改進模型和多語言 PLM. 近兩年來,PLM 在 NLP 領域應用得非常廣泛,原因是 PLM 可以將各種困難復雜的 NLP任務簡化為簡單的微調問題.PLM 通過自我監督學習在大規模文本語料庫上進行預訓練,預訓練過程包括從大型語料庫中學習常識(與特定的下游 NLP任務無關),以防止模型在小數據上過度擬合[６].在預訓練之后,PLM 需要針對具體的下游任務進行微調. 由于 PLM 對 NLP至關重要,為了幫助研究人員快速掌握 PLM 的應用現狀,本文綜述了 PLM 在 NLP 領域５個最熱門的任務中的應用:信息提取(InformationExtraction,IE)、情感分析(SentimentAnalysis,SA)、文本摘要(TextSummaＧrization,TS)、問題回答(QuestionAnswering,QA)和機器翻譯(MachineTranslation,MT).此外,我們還討論了當前 PLM 應用中的重要挑戰. 其他研究人員也綜述了 PLM,但本文的綜述與他們的不同.２０２０年,Qiu等[７]對 PLM 在 NLP領域的應用進行了調查,但只進行了簡單的概述.２０２０年,Zaib等[８]對 PLM 的對話式人工智能做了一個簡短的綜述,但未涉及 PLM 在其他領域的應用.２０２１年,Luo等[９]調查了 PLM 在跨語言SA 中的應用.２０２１年,Kalyan等[１０]回顧了基于轉換的生物醫學 PLM.然而,他們的 PLM 只涉及生物醫學領域,這些綜述都沒有包含最新的進展,且所做的綜述單一或者不夠詳盡.本文不僅討論了 PLM 在 NLP領域的最新應用,而且詳細地介紹了這個主題,涵蓋了信息提取、情感分析、自動問答、文本摘要和機器翻譯５個 NLP熱門領域. 本文第２節簡要介紹了一些典型的 PLM,包括國內外的單語和多語 PLM;第３節總結了一些基于 PLM 的信息提取方法;第４節回顧了一些基于 PLM 的情感分析技術;第５節考察了用于問答系統的 PLM 模型;第６節討論了基于 PLM 的文本摘要方法;第７節評論了一些關于PLM 的機器翻譯的研究;第８節討論了未來工作的挑戰;最后總結全文.

付費5元查看完整內容

大型語言模型 · 自然語言處理 · 推理 · 大型語言模型推理 ·

2022 年 12 月 24 日

[付費5元查看完整內容]「大型語言模型推理」綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

推理是人類智能的一個基本方面，在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來，大型語言模型(LLMs)在自然語言處理方面取得了重大進展，有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而，目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述，包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響，以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧，并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程，包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用，如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要，因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近，大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明，當這些模型足夠大時，它們會表現出緊急行為，包括"推理"的能力(Wei等人，2022a)。例如，通過為模型提供"思維鏈"，即推理范例，或簡單的提示" Let 's think step by step "，這些模型能夠以明確的推理步驟回答問題(Wei et al.， 2022b;Kojima et al.， 2022)，例如，“所有鯨魚都是哺乳動物，所有哺乳動物都有腎臟;因此，所有的鯨魚都有腎臟。”這引發了社區的極大興趣，因為推理能力是人類智能的一個標志，而在當前的人工智能系統中，推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而，盡管LLM在某些推理任務上表現強勁，但目前尚不清楚LLM是否真的在推理，以及它們在多大程度上能夠推理。例如，Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”，而Valmeekam等人(2022)得出結論，“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為，盡管思維鏈模擬了人類推理的思維過程，但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理？

推理是用邏輯和系統的方式思考某事的過程，利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語，但它也是一個抽象的概念，可以指代很多事物。為了幫助讀者更好地理解這個概念，我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中，結論必須從前提中得出，這意味著如果前提為真，結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據，這個結論很可能是正確的，但不一定是肯定的。觀察:我們每次看到有翅膀的生物，它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理，它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據，這一結論是最可能的解釋，但不一定是肯定的。觀察:汽車無法啟動，引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理，尤其是多步推理，通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明，在一定規模的語言模型中可能會出現推理能力，例如具有超過1000億個參數的模型(Wei et al.， 2022a,b;Cobbe等人，2021)。在本文中，我們遵循Wei等人(2022a)的觀點，將推理視為一種在小規模模型中很少出現的能力，因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前，值得一提的是，有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如，Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人，2018)，以生成用構建的CoS-E數據集解釋模型預測的理由，并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人，2019)。Talmor等人(2020)訓練RoBERTa (Liu等人，2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調，通過生成完整的分步解決方案來解決競賽數學問題，盡管準確性相對較低。Nye等人(2021)在產生最終答案之前，通過生成" scratchpad "，即中間計算，訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先，它需要一個包含顯式推理的數據集，這可能很難和耗時創建。此外，模型僅在特定數據集上進行訓練，這將限制其應用于特定領域，并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型，如GPT-3 (Brown et al.， 2020)和PaLM (Chowdhery et al.， 2022)，通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示，以潛在地通過“推理”(隱式或顯式)解決問題。然而，研究表明，這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索，正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務，但它們實際上并沒有提高LLM本身的推理能力，因為模型的參數保持不變。相比之下，“混合方法”旨在同時提高LLM的推理能力，并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力，也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而，直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的，組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是，Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集，用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面，它使我們能夠在環境中導航，理解他人，并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研，以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中，我們使用抽象的符號來表示概念和關系，然后根據精確的規則對這些符號進行操作，從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能，但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式，并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性，而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia)，這種分析的深度往往有限。已經有一些努力來開發指標和基準，以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE，一套可解釋的、詳細的分步評估指標，涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集，該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明，可以轉換為簡單的句子，然后再轉換回來，允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題，需要模型在給定一組前提的情況下確定結論的正確性。總之，大多數現有研究主要報告了模型在下游推理任務中的表現，沒有詳細檢查產生的基礎的質量。這留下了一個問題，即模型是否真的能夠以類似于人類推理的方式進行推理，或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

自然語言處理 · 知識圖譜 ·

2022 年 10 月 4 日

[付費5元查看完整內容]知識圖譜KG在NLP的十年研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著人工智能研究領域的發展，知識圖譜(knowledge graphs, KGs)引起了學術界和工業界的廣泛關注。作為實體間語義關系的一種表示，知識圖譜在自然語言處理(natural language processing, NLP)中有著重要的意義，近年來得到了迅速的推廣和廣泛采用。鑒于這一領域的研究工作量不斷增加，自然語言處理研究界已經調研了幾種與KG相關的方法。然而，至今仍缺乏對既定主題進行分類和審查個別研究流成熟度的綜合研究。為了縮小這一差距，我們系統地分析了NLP中有關KGs的文獻中的507篇論文。我們的調研包括對任務、研究類型和貢獻的多方面。因此，我們提出了一個結構化的研究概況，提供了任務的分類，總結了我們的發現，并強調了未來工作的方向。

//www.zhuanzhi.ai/paper/d3a164b388877b723eec8789fd081c3d

知識的獲取和應用是自然語言固有的特性。人類使用語言作為交流事實、爭論決定或質疑信仰的手段。因此，計算語言學家早在20世紀50年代和60年代就開始研究如何將知識表示為語義網絡中概念之間的關系(Richens, 1956;Quillian, 1963;Collins和Quillian, 1969)。最近，知識圖譜(KGs)已成為一種以機器可讀的格式語義表示有關現實世界實體的知識的方法。它們起源于對語義網絡、領域特定本體以及鏈接數據的研究，因此并不是一個全新的概念(Hitzler, 2021)。盡管KG越來越受歡迎，但對于KG究竟是什么，適用于什么任務，人們仍然沒有一個普遍的理解。盡管之前的工作已經試圖定義kg (Pujara et al., 2013; Ehrlinger and W??, 2016; Paulheim, 2017; F?rber et al., 2018)，該術語尚未被研究人員統一使用。大多數研究都隱含地采用了廣義的KGs定義，將其理解為“旨在積累和傳遞現實世界知識的數據圖，其節點代表感興趣的實體，其邊緣代表這些實體之間的關系”(Hogan等人，2022)。

自2012年谷歌的KG引入以來(Singhal, 2012)， KG在學術界和產業界都吸引了大量的研究關注。特別是在自然語言處理(NLP)的研究中，使用KGs在過去5年里變得越來越流行，而且這一趨勢似乎正在加速。其基本范式是，結構化和非結構化知識的結合可以使各種NLP任務受益。例如，來自知識圖譜的結構化知識可以注入到語言模型中發現的上下文知識中，這可以提高下游任務的性能(Colon-Hernandez等人，2021)。此外，隨著知識庫的重要性日益增加，從非結構化文本中構建新知識庫的努力也在不斷擴大。

谷歌在2012年創造了知識圖譜這個術語，十年之后，學者們提出了大量新穎的方法。因此，重要的是收集見解，鞏固現有結果，并提供結構化的概述。然而，據我們所知，目前還沒有一項研究對自然語言處理領域中知識分子的整個研究格局進行了概述。為了縮小這一差距，我們進行了一項全面的調研，通過對已建立的主題進行分類，確定趨勢，并概述未來研究的領域，分析在該領域進行的所有研究。我們的三個主要貢獻如下:1. 我們系統地從507篇論文中提取信息，報告關于任務、研究類型和貢獻的見解。2. 本文提供了NLP中關于知識圖譜的文獻中的任務分類，如圖1所示。3.我們評估單個研究流的成熟度，確定趨勢，并強調未來工作的方向。本文綜述了NLP中知識圖譜的演變和目前的研究進展。盡管我們無法完全覆蓋該主題的所有相關論文，但我們的目標是提供一個具有代表性的概述，通過提供一個文獻起點，可以幫助NLP學者和實踐者。此外，多方面的分析可以指導研究界縮小現有差距，并找到如何將KGs與NLP結合的新方法。

KG研究綜述結果

**研究整體概況 (RQ1)**對于NLP中有關KGs的文獻，我們從研究數量作為研究興趣的指標開始分析。圖2說明了十年觀察期間的出版物分布情況。雖然第一批出版物出現在2013年，但年度出版物在2013年至2016年期間增長緩慢。從2017年起，出版物數量幾乎每年翻一番。由于這些年來研究興趣的顯著上升，所有納入的出版物中超過90%來自這五年。盡管增長趨勢似乎在2021年停止，但這可能是由于發生在2022年的第一周的數據導出，遺漏了2021年的許多研究，這些研究在2022年晚些時候被納入數據庫。盡管如此，圖2中的趨勢清楚地表明，KGs正受到NLP研究界越來越多的關注。如果考慮到507篇論文，會議論文(402篇)是期刊論文(105篇)的近4倍。

KG任務概況 (RQ2)

基于NLP中有關KGs的文獻中確定的任務，我們開發了如圖1所示的經驗分類法。這兩個頂級類別包括知識獲取和知識應用。知識獲取包含從非結構化文本構建知識基礎(知識圖構建)或對已經構建的知識基礎進行推理(知識圖推理)的NLP任務。知識庫構建任務進一步劃分為兩個子類:知識提取和知識集成，前者用于用實體、關系或屬性填充知識庫，后者用于更新知識庫。知識應用是第二大頂層概念，包含常見的NLP任務，通過知識庫中的結構化知識來增強這些任務。正如預期的那樣，我們分類法中的任務在文獻中出現的頻率變化很大。表2概述了最流行的任務，圖5比較了它們隨時間的流行程度。圖4顯示了最突出的任務所檢測到的域的數量。它表明某些任務比其他任務更適用于領域特定的上下文。

研究類型及貢獻(RQ3)

表3顯示了根據附錄表4和表5定義的不同研究和貢獻類型的論文分布情況。它表明，大多數論文進行驗證研究，調查尚未在實踐中實施的新技術或方法。相當多的論文，雖然明顯較少，側重于解決方案的提出，通過一個小的例子或論證來證明它們的優點和適用性。然而，這些論文通常缺乏深刻的實證評價。

付費5元查看完整內容

元學習 · 自然語言處理 · NAACL · 李宏毅 ·

2022 年 5 月 4 日

[付費5元查看完整內容]NLP如何用元學習？李宏毅老師NAACL2022最新《元學習自然語言處理》綜述論文闡述最新研究進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習已經成為自然語言處理領域的主流技術。然而，這些技術需要許多標記數據，而且跨領域的通用性較差。元學習是機器學習中的一個新興領域，研究如何學習出更好的學習算法。方法旨在提高算法的各個方面，包括數據效率和通用性。方法的有效性已經在許多自然語言處理任務中得到了證明，但目前對這些方法在自然語言處理中的應用還沒有系統的綜述，這阻礙了更多的研究者進入該領域。本文的目的是為研究人員提供相關的NLP元學習工作的指針，并吸引更多的關注，以推動未來的創新。本文首先介紹了元學習的一般概念和常用方法。在此基礎上，總結了任務構建設置和元學習在各種自然語言處理問題中的應用，并回顧了元學習在自然語言處理社區中的發展。

引言

近年來，基于深度學習(DL)的自然語言處理(NLP)已成為研究的主流之一，在許多自然語言處理問題上取得了顯著的性能改善。然而，DL模型需要大量數據。缺點限制了這些模型在不同領域、語言、國家或風格中的應用，因為為模型訓練收集不同類型的數據是昂貴的。為了應對這些挑戰，元學習技術正受到關注。元學習，或學會學習，旨在學習更好的學習算法，包括更好的參數初始化(Finn et al.， 2017)，優化策略(Andrychowicz et al., 2016; Ravi and Larochelle, 2017)，網絡架構(Zoph and Le, 2017; Zoph et al., 2018; Pham et al., 2018a)，距離度量(Vinyals et al., 2016; Gao et al., 2019a; Sung et al., 2018)，以及其他(Mishra et al，2018年)。元學習允許更快的微調，收斂到更好的性能，產生更通用的模型，它在少樣本圖像分類方面取得了出色的結果(Triantafillou et al，2020)。這些優點減輕了學習算法對標簽的依賴，并使模型開發更具可擴展性。

圖像處理是具有豐富應用的機器學習領域之一，并且在之前關于元學習的綜述論文中建立了大多數例子(Hospedales et al., 2021; Huisman et al., 2021)。另一方面，通過將元學習應用于自然語言處理問題，已有研究顯示了元學習技術在性能和數據效率方面的優勢。請參閱附錄中的表3和表4，了解通過元學習改進的自然語言處理應用。ACL2021年會組織教程(Lee et al.， 2021b)和研討會(Lee et al.， 2021a)，以鼓勵對這些技術感興趣的NLP研究人員之間的交流和合作。在NLP中有一篇關于元學習的綜述論文(Yin, 2020)。雖然Yin(2020)對元學習方法進行了概述，但本文側重于將元學習成功應用于自然語言處理，并對有關自然語言處理元學習的論文進行了更廣泛的綜述。由于篇幅的限制，在這篇調查論文中，我們將不會對一般的元學習技術進行過多的詳細描述。關于元學習的一般概念，我們鼓勵讀者閱讀之前的綜述論文(Yin, 2020; Hospedales et al., 2021; Huisman et al., 2021)。

為了讓更多的NLP研究者和實踐者受益于元學習的發展并參與到這一領域，本文對元學習在NLP問題中的應用進行了系統的綜述。綜述論文的組織方式如下。

第2節簡要介紹元學習背景、一般概念和算法。
第3節中構建元學習任務的常見設置。
第4節中一般元學習方法對NLP問題的適應性。
特殊主題的元學習方法，包括第五節NLP應用的知識提煉和終身學習。
本綜述報告旨在為研究人員提供參考，幫助他們理解在自然語言處理領域的元學習技術，并激發更多的創新

元學習知識

付費5元查看完整內容

預訓練語言模型 · 自然語言處理 · 綜述論文 ·

2021 年 11 月 4 日

[付費5元查看完整內容]基于大型預訓練語言模型的自然語言處理研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型的、預訓練的基于Transformer的語言模型，如BERT，已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研，這些研究使用了大型語言模型來解決NLP任務，通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法，用于訓練增強或其他目的。最后，我們討論了局限性，并提出了未來研究的方向。

引言

近年來，大型預訓練的基于Transformer的語言模型(PLMs)，如BERT (Devlin et al.， 2019)和GPT (Radford et al.， 2018)系列模型席卷了自然語言處理(NLP)，在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x，然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al.， 2015)。注意，每個新的NLP任務都需要重新學習潛在特征表示，而且在許多情況下，訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的，我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示，然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞，這是一項具有大量自然出現的文本的通用任務，可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上，最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務，研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調，提示PLMs執行期望的任務，或者將任務重新構造為文本生成問題，并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

先進行預訓練，然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練，然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM，這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞)，或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識，從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成，以充分利用生成語言模型(如GPT-2 (Radford et al.， 2019)和T5 (Raffel et al.， 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研，如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明，本文主要關注非生成性任務(如分類、序列標注和結構預測)，這些任務仍然涵蓋廣泛的NLP任務，包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外，還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據，通常生成的PLM是針對任務進行微調的，或者是一些輔助數據，如反例、澄清、上下文或其他。在第一種情況下，銀色標記數據可以添加到現有的標記數據中。在第二種情況下，輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景，并描述了第一種范式，即預訓練然后微調。第三節討論第二種范式，即基于提示的學習。第4節總結了第三種范式，即作為文本生成的NLP。在第5節中，我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向，并在第7節進行總結。

范式1: 先訓練，然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型，而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型，然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務，它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中，我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識，然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法，以鼓勵預訓練的模型執行特定任務(Yuan et al.， 2021)。使用提示符有幾個優點。提示，特別是上下文學習(例如Brown et al.， 2020)，可能不需要更新PLM的參數，與微調方法相比，或在2.4.4中描述的基礎上，減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合，從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al.， 2021b)，特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后，提示允許以一種不受監督的方式探索PLM，以評估PLM對特定任務所獲得的知識(如Petroni et al.， 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功，最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務，如分類和結構預測。例如，圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同，這些任務被重新表述為文本生成問題，從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息，從而能夠準確地重構預期的類標簽(即避免映射中的歧義)，并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中，我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述，并對其應用前景進行了總結。此外，我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

預訓練 · 提示學習 (Prompt-based Learning) · 語言模型 ·

2021 年 7 月 31 日

[付費5元查看完整內容]NLP新范式-預訓練，提示(Prompt)，預測！CMU劉鵬飛等論文綜述預訓練語言模型提示學習進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是，基于提示的學習是基于直接對文本概率建模的語言模型，監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務，使用模板將原始輸入x修改為文本字符串提示符x '，其中有一些未填充的槽，然后使用語言模型按概率填充未填充的信息，得到最終字符串x?，從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練，通過定義一個新的提示函數，模型能夠執行少量甚至零次學習，在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容，描述了一套統一的數學符號，可以涵蓋各種各樣的現有工作，并從幾個維度組織現有的工作，例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域，我們不僅對現有的工作進行了系統的回顧，并對基于提示的概念進行了高度結構化的類型化，而且還發布了其他資源。

地址： //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b

完全監督學習，即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型，長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al.， 2007)，自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的，早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011))，其中，NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征，并提供具有適當歸納偏差的模型，以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現，顯著特征的學習與模型本身的訓練結合在一起(Collobert et al.， 2011;Bengio et al.， 2013)，因此重點轉向了架構工程，其中的歸納偏差更傾向于通過設計一個合適的網絡架構，有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。

然而，從2017-2019年開始，NLP模型的學習發生了翻天覆地的變化，這種完全監督的范式現在正在發揮越來越小的作用。具體來說，標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中，一個具有固定架構的模型被預先訓練為語言模型(LM)，預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富，這些LMs可以在大型數據集中進行訓練，在此過程中學習它所建模的語言的魯棒通用特性。然后，通過引入額外的參數，并使用特定任務的目標函數對它們進行微調，將上述預先訓練的LM適應于不同的下游任務。在這個范例中，重點主要轉向了目標工程，設計在訓練前和微調階段使用的訓練目標。例如，Zhang等人(2020a)表明，引入一個預測文檔中顯著句子的損失函數，將導致更好的文本摘要預訓練模型。值得注意的是，預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調，使其更適合解決下游任務。

現在，在2021年寫這篇文章的時候，我們正處于第二次巨變之中，“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式，不是通過目標工程將預先訓練好的LMs應用到下游任務，而是將下游任務重新制定，使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如，當識別社交媒體帖子的情緒時，“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”，然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”)，LM可以用法語翻譯來填空。這樣，通過選擇適當的提示，我們可以操縱模型行為，使預先訓練的LM本身可以用來預測期望的輸出，有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是，給定一套適當的提示，在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣，這里有一個陷阱——這種方法引入了快速工程的必要性，找到最合適的提示，讓LM能夠解決手頭的任務。