亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。

1. 引言

推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。

本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。

為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。

在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。

3. 方法體系

在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。

3.1 策略增強推理

這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。

3.1.1提示工程

一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。

3.1.2 流程優化

自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。

3.1.3 外部引擎

在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。

3.2 知識增強推理

正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。

**3.2.1 隱式知識 **

研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。

3.2.2顯性知識

盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。

4 比較與討論

表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。

5. 未來的發展方向

我們列出了一些潛在的方向如下:

推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。

6. 結論

本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

這篇論文對大型語言模型(LLMs)在知識圖譜(KG)構建和推理中的作用進行了詳盡的定量和定性評估。我們使用了八個不同的數據集,涵蓋了實體、關系和事件提取,鏈接預測,和問題回答等方面。實證上,我們的發現表明,GPT-4在大多數任務中表現優于ChatGPT,甚至在某些推理和問題回答的數據集中超過了微調模型。此外,我們的綜述還擴展到了LLMs在信息提取方面的潛在泛化能力,這在虛擬知識提取任務的介紹和VINE數據集的開發中達到了高潮。依據這些實證發現,我們進一步提出了AutoKG,這是一種使用LLMs進行KG構建和推理的多智能體方法,旨在勾畫出這個領域的未來并提供激動人心的進步機會。我們期待我們的研究能為未來的KG的實踐提供寶貴的見解。

1. 引言

知識圖譜(KG)是一個由實體、概念和關系組成的語義網絡(Cai et al., 2022;Chen et al., 2023;Zhu et al., 2022;Liang et al., 2022),它可以催化各種場景的應用,如推薦系統、搜索引擎和問題回答系統(Zhang et al., 2021)。通常,KG構建(Ye et al., 2022b)包括幾個任務,包括命名實體識別(NER)(Chiu和Nichols,2016),關系提取(RE)(Zeng et al., 2015;Chen et al., 2022),事件提取(EE)(Chen et al., 2015;Deng et al., 2020),和實體鏈接(EL)(Shen et al., 2015)。另一方面,KG推理,通常被稱為鏈接預測(LP),在理解這些構建的KG中起著關鍵的作用(Zhang et al., 2018;Rossi et al., 2021)。此外,KG可以被用于問題回答(QA)任務(Karpukhin et al., 2020;Zhu et al., 2021),通過對與問題相關的關系子圖的推理。

早期,知識圖譜的構建和推理主要依賴于監督學習方法。然而,近年來,隨著大型語言模型(LLMs)的顯著進步,研究人員已經注意到它們在自然語言處理(NLP)領域的卓越能力。盡管有許多關于LLMs的研究(Liu et al., 2023;Shakarian et al., 2023;Lai et al., 2023),但在知識圖譜領域系統地探索它們的應用仍然有限。為了解決這個問題,我們的工作研究了LLMs(如ChatGPT和GPT-4,OpenAI,2023)在知識圖譜構建、知識圖譜推理任務中的潛在應用性。通過理解LLMs的基本能力,我們的研究進一步深入了解了該領域的潛在未來方向。

圖1:我們工作的概述。主要有三個部分:1)基礎評估:詳細說明了我們對大型模型(text-davinci-003,ChatGPT和GPT-4)的評估,無論是在零次還是一次設置中,都使用完全監督的最先進模型的性能數據作為基準;2)虛擬知識提取:檢查大型模型在構建的VINE數據集上的虛擬知識能力;3)AutoKG:提出利用多個代理來促進知識圖譜的構建和推理。

具體來說,如圖1所示,我們首先調研了LLMs在實體、關系和事件提取,鏈接預測,和問題回答方面的零樣本和一次樣本性能,以評估它們在知識圖譜領域的潛在應用。實證發現表明,盡管LLMs在知識圖譜構建任務中的性能有所提升,但仍落后于最先進的(SOTA)模型。然而,LLMs在推理和問題回答任務中表現出相對優越的性能。這表明它們擅長處理復雜問題,理解上下文關系,并利用預訓練過程中獲取的知識。因此,像GPT-4這樣的LLMs作為少次信息提取器的效果有限,但作為推理助手的熟練程度相當高。為了進一步研究LLMs在信息提取任務上的表現,我們設計了一個新的任務,稱為“虛擬知識提取”。這個任務旨在判斷性能的觀察到的改進是來自LLMs內在的廣泛知識庫,還是來自于指導調整和人類反饋的強化學習(RLHF)(Christiano et al., 2017)所促進的強大泛化能力。在新建的VINE數據集上的實驗結果表明,像GPT-4這樣的LLMs可以迅速從指令中獲取新的知識,并有效地完成相關的提取任務。 在這些實證發現中,我們認為LLMs對指令的極大依賴使得為知識圖譜的構建和推理設計合適的提示變得費時費力。為了促進進一步的研究,我們引入了AutoKG的概念,它使用多個LLMs的代理自動進行知識圖譜的構建和推理。

總的來說,我們的研究做出了以下貢獻

我們評估了LLMs,包括GPT-3.5, ChatGPT, GPT-4,通過在八個基準數據集上評估它們在知識圖譜構建和推理的零樣本和一樣本性能,提供了對它們能力的初步理解

我們設計了一個新的虛擬知識提取任務,并構建了VINE數據集。通過評估LLMs在這個數據集上的性能,我們進一步展示了像GPT-4這樣的LLMs具有強大的泛化能力。

我們引入了使用交際代理自動進行知識圖譜構建和推理的概念,稱為AutoKG。利用LLMs的知識庫,我們使多個LLMs的代理能夠通過迭代對話協助知識圖譜的構建和推理過程,為未來的研究提供了新的洞察。

**LLMs在知識圖譜構建和推理方面的新能力 **

最近,LLMs的出現給NLP領域注入了活力。為了探索LLMs在知識圖譜領域的潛在應用,我們選擇了代表性的模型,即ChatGPT和GPT-4。我們在知識圖譜構建和推理領域的八個不同數據集上對它們的性能進行了全面評估。

**2.1 評估原則 **

在這項研究中,我們對LLMs在各種知識圖譜相關任務上進行了系統評估。首先,我們評估了這些模型在zero-shot和one-shotNLP任務中的能力。我們的主要目標是在面對有限數據時檢查它們的泛化能力,以及在沒有示范的情況下使用預訓練知識有效推理的能力。其次,根據評估結果,我們對導致模型在不同任務中表現不同的因素進行了全面分析。我們旨在探究它們在某些任務中表現優越的原因和潛在缺陷。通過比較和總結這些模型的優點和限制,我們希望提供可能指導未來改進的洞察。

2.2 知識圖譜的構建和推理

2.2.1 設置

實體、關系和事件提取。DuIE2.0 (Li et al., 2019)代表了業界最大的基于模式的中文關系提取數據集,包括超過210,000個中文句子和48個預定義的關系類別。SciERC (Luan et al., 2018)是一組注釋了七種關系的科學摘要。Re-TACRED (Stoica et al., 2021)是TACRED關系提取數據集的顯著改進版本,包含超過91,000個分布在40個關系中的句子。MAVEN (Wang et al., 2020)是一個包含4,480份文件和168種事件類型的通用領域事件提取基準。

鏈接預測 FB15K-237 (Toutanova et al., 2015)廣泛用作評估知識圖譜嵌入模型在鏈接預測上的性能的基準,包括237個關系和14,541個實體。ATOMIC 2020 (Hwang et al., 2021a)是一個全面的常識倉庫,包含關于實體和事件的133萬條推理知識元組。

問答 FreebaseQA (Jiang et al., 2019)是一個基于Freebase知識圖譜構建的開放領域QA數據集,專為知識圖譜QA任務設計。這個數據集包括從各種來源(如TriviaQA數據集等)收集的問題-答案對。MetaQA (Zhang et al., 2018)數據集,從WikiMovies (Miller et al., 2016)數據集擴展,提供了大量的單跳和多跳問題-答案對,總數超過400,000個。

2.2.2 總體結果

實體和關系提取 我們在SciERC, Re-TACRED, 和DuIE2.0上進行實驗,每個實驗涉及到測試/驗證集的20個樣本,并使用標準的micro F1分數進行評估。在此我們分別在每個數據集上使用PaddleNLP LIC2021 IE2,PL-Marker (Ye et al., 2022a)和EXOBRAIN (Park and Kim, 2021)作為基線。如表1所示,GPT-4在這些學術基準提取數據集上無論是zero-shot還是one-shot都取得了相對良好的性能。與ChatGPT相比,它也有所進步,盡管其性能還沒有超過完全監督的小模型。

事件提取 我們在MAVEN數據集的20個隨機樣本上進行事件檢測的實驗。此外,我們使用Wang等人(2022a)的研究作為先前經過微調的SOTA。同時,即使沒有演示,GPT-4也已經取得了值得稱贊的結果。在這里,我們使用F-分數作為評估指標。

鏈接預測任務 鏈接預測任務包括在兩個不同的數據集FB15k-237和ATOMIC2020上進行的實驗。前者是包含25個實例的隨機樣本集,而后者包含23個代表所有可能關系的實例。在各種方法中,最好的微調模型是FB15k-237的C-LMKE (BERT-base) (Wang et al., 2022c)和ATOMIC2020的COMET (BART) (Hwang et al., 2021b)。

問題回答 我們在兩個廣泛使用的知識庫問題回答數據集上進行評估:FreebaseQA和MetaQA。我們從每個數據集中隨機抽取20個實例。對于MetaQA,由于它由不同跳數的問題組成,我們根據它們在數據集中的比例進行抽樣。我們用于兩個數據集的評估指標是AnswerExactMatch。

在涵蓋知識圖譜構建和知識圖譜推理的實驗中,大型語言模型(LLMs)通常在推理能力上表現優于它們的構建能力。對于知識圖譜的構建任務,無論是在 zero-shot 或 one-shot 的情況下,LLMs的表現都沒有超過當前最先進模型的表現。這與之前在信息提取任務上進行的實驗(Ma等人,2023)保持一致,這些實驗表明,大型語言模型通常并不擅長進行少樣本的信息提取。相反,在知識圖譜推理任務中,所有LLMs在one-shot設置中,以及GPT-4在zero-shot設置中,都達到了最先進(SOTA)的表現。這些發現為增強我們對大型模型的性能和它們在知識圖譜領域內的適應性的理解提供了有意義的見解。我們提出了對這種現象的幾種可能解釋:首先,知識圖譜構建任務包括識別和提取實體、關系、事件等,使得它比推理任務更為復雜。相反,推理任務,以鏈接預測為典型,主要依賴于已有的實體和關系進行推斷,使得任務相對直接。其次,我們推測LLMs在推理任務中表現優異可能歸因于它們在預訓練階段接觸到的相關知識。

3 未來機遇:自動化知識圖譜構建和推理

最近,大型語言模型(LLMs)引起了相當大的關注,并在各種復雜任務中展示了精通的能力。然而,像ChatGPT這樣的技術的成功,仍然主要依賴于大量的人力輸入,以引導對話文本的生成。隨著用戶逐步精細化任務描述和要求,并與ChatGPT建立對話環境,模型能夠提供越來越精確、高質量的回應。然而,從模型開發的角度看,這個過程仍然是勞動密集型和耗時的。因此,研究人員已經開始研究使大型模型能夠自主生成指導文本的可能性。例如,AutoGPT可以獨立生成提示,并執行像事件分析、營銷計劃創建、編程和數學操作等任務。同時,Li等人(2023)深入研究了交際代理之間自主合作的可能性,并介紹了一個名為角色扮演的新型合作代理框架。這個框架使用啟示性提示,以確保與人類意圖的一致性。在此研究基礎上,我們進一步詢問:是否可行使用交際代理來完成知識圖譜的構建和推理任務?

在這個實驗中,我們使用了CAMEL(Li等人,2023)中的角色扮演方法。如圖6所示,AI助手被指定為顧問,AI用戶被指定為知識圖譜領域專家。在收到提示和指定的角色分配后,任務指定代理提供詳細的描述以具體化概念。在此之后,AI助手和AI用戶在多方設置中協作完成指定的任務,直到AI用戶確認其完成。實驗示例表明,使用多代理方法,與電影《綠皮書》相關的知識圖譜被更有效、更全面地構建。這個結果也強調了基于LLM的代理在構建和完成知識圖譜方面的優越性。

通過結合人工智能和人類專業知識的努力,AutoKG可以快速定制領域特定的知識圖譜。該系統允許領域專家與機器學習模型進行交互,從而通過交換專家知識和經驗,促進領域特定知識圖譜的構建的協作環境。此外,AutoKG可以有效地利用人類專家的領域知識,生成高質量的知識圖譜。同時,通過這種人機協作,它可以在處理領域特定任務時,提高大型語言模型的事實準確性。反過來,這個目標預計將增加模型的實用價值。 AutoKG不僅可以加快領域特定知識圖譜的定制,而且還可以增強大規模模型的透明度和體現代理的交互。更準確地說,AutoKG有助于深入理解大型語言模型(LLMs)的內部知識結構和運作機制,從而提高模型的透明度。此外,AutoKG可以作為一個合作的人機交互平臺,使人類和模型之間能夠進行有效的交流和互動。這種互動促進了對模型學習和決策過程的更好理解和指導,從而提高了模型在處理復雜任務時的效率和準確性。盡管我們的方法帶來了顯著的進步,但它并非沒有局限性,然而,這些局限性為進一步的探索和改進提供了機會:

API的使用受到最大Token限制的約束。目前,由于GPT-4 API不可用,正在使用的gpt-3.5-turbo受到最大token限制。這個約束影響了知識圖譜的構建,因為如果超過了這個限制,任務可能無法正確執行。現在,AutoKG在促進有效的人機交互方面表現出缺點。在任務完全由機器自主進行的情況下,人類不能及時糾正交流過程中的錯誤發生。相反,在機器通信的每一步中都涉及到人類,可以顯著增加時間和勞動成本。因此,確定人類介入的最佳時機對于知識圖譜的高效和有效的構建至關重要。大型語言模型(LLMs)的訓練數據是時間敏感的。未來的工作可能需要將來自互聯網的檢索特性納入考慮,以彌補當前大型模型在獲取最新或領域特定知識方面的不足。

4. 結論

在這篇論文中,我們初步調研了大型語言模型(LLMs),如GPT系列,在知識圖譜(KG)構建和推理等任務上的表現。盡管這些模型在這些任務上表現優秀,我們提出了這樣一個問題:LLMs在提取任務中的優勢是源于它們龐大的知識庫,還是源于它們強大的上下文學習能力?為了探索這個問題,我們設計了一個虛擬的知識提取任務,并為實驗創建了相應的數據集。結果表明,大型模型確實具有強大的上下文學習能力。此外,我們提出了一種利用多個代理完成KG構建和推理任務的創新方法。這種策略不僅減輕了人工勞動,也彌補了各個領域人類專業知識的匱乏,從而提高了LLMs的表現。盡管這種方法仍有一些局限性,但它為LLMs的未來應用的進步提供了新的視角。

付費5元查看完整內容

【導讀】大模型熱潮依然在繼續,Dr. Gerhard Paa? 等人合著的《Foundation Models for Natural Language Processing》 一書系統介紹基礎模型研究和應用的全面概述,而且是目前對此方面研究最新的綜述。

圖書介紹

這本開放獲取的書籍為讀者提供了基礎模型研究和應用的全面概述,適合對基本自然語言處理(NLP)概念有所了解的讀者。

近年來,人們為訓練NLP模型開發了一種革命性的新范式。這些模型首先在大量文本文檔上進行預訓練,以獲取通用的句法知識和語義信息。然后,它們會被細化調整以適應特定任務,往往能以超人的準確率解決這些任務。當模型足夠大時,它們可以通過提示來解決新任務,而無需任何的細化調整。此外,它們可以應用于各種不同的媒體和問題領域,從圖像和視頻處理到機器人控制學習都可以涵蓋。因為它們提供了解決人工智能中許多任務的藍圖,所以被稱為基礎模型。

在簡單介紹了基本NLP模型后,本書描述了主要的預訓練語言模型BERT,GPT和序列到序列變換器,以及自我關注和上下文敏感嵌入的概念。然后,討論了改進這些模型的不同方法,如擴大預訓練標準,增加輸入文本的長度,或包含額外知識。隨后,介紹了大約二十個應用領域中表現最佳的模型,例如,問題回答,翻譯,故事生成,對話系統,從文本生成圖像等。對于每個應用領域,都討論了當前模型的優點和缺點,并給出了進一步發展的前景。此外,還提供了指向免費可用程序代碼的鏈接。最后一章總結了AI的經濟機會,風險緩解和潛在發展。

Chapter 1: 導論 Introduction Chapter 2: 預訓練語言模型 Pre-trained Language Models Chapter 3: 優化預訓練語言模型 Improving Pre-trained Language Models Chapter 4: 基于基礎模型的知識獲取 Knowledge Acquired by Foundation Models Chapter 5: 基礎模型信息提取Foundation Models for Information Extraction Chapter 6: 基礎模型文本生成 Foundation Models for Text Generation Chapter 7: 語音、圖像、視頻和控制的基礎模型 Foundation Models for Speech, Images, Videos, an Control Chapter 8: 摘要 Summary and Outlook

主要內容

隨著大約十年前高效深度學習模型的發展,許多深度神經網絡已被用于解決諸如自然語言處理(NLP)和圖像處理等模式識別任務。通常,這些模型需要捕獲文本或圖像的含義,并做出適當的決策。或者,他們可以根據手頭的任務生成新的文本或圖像。這些模型的優點在于,它們創建了分布在各層的中間特征,不需要人工構建特征。深度神經網絡,如卷積神經網絡(CNNs)[32]和循環神經網絡(RNNs)[65],使用低維密集向量作為一種分布式表示來表達語言的句法和語義特征。

所有這些模型都可以被視為人工智能(AI)系統。AI是一個旨在創建具有自然智能的、行為類似于人和動物的智能機器的廣泛研究領域。它涵蓋了構建模擬并超越人類全面認知能力的機器這一領域的長期目標。機器學習(ML)是人工智能的一個子領域,它采用統計技術讓機器能夠從數據中“學習”,而無需給出明確的指示。這個過程也被稱為“訓練”,其中“學習算法”逐漸提高模型在給定任務上的性能。深度學習是ML的一個領域,其中輸入被逐步轉換為層,以便可以識別數據中的復雜模式。“深度”這個形容詞指的是現代ML模型中的大量層,這些層有助于學習數據的表現形式以實現更好的性能。與計算機視覺相比,用于NLP應用的帶注釋訓練數據的規模相對較小,只包含幾千個句子(除了機器翻譯)。這主要是由于手動注釋的高昂成本。為避免過度擬合,即過度適應模型以適應隨機波動,只能訓練相對較小的模型,這并沒有產生高性能。在過去的5年里,基于Vaswani等人[67]引入的Transformer的新的NLP方法已經被開發出來。他們通過一個叫做嵌入的實數向量來表示每個詞的含義。在這些嵌入之間可以計算出各種類型的“關注度”,可以被視為不同詞之間的某種“關聯度”。在網絡的高層,關注度計算被用來生成新的嵌入,這可以捕捉到詞義的細微差別。特別的是,他們可以理解由于上下文產生的同一詞的不同含義。這些模型的一個關鍵優勢是,它們可以用未標注的文本進行訓練,這幾乎是無限可用的,而且過度擬合不是問題。目前,這個研究領域正在快速發展新方法,使許多早期的方法變得過時。

這些模型通常經過兩步訓練:在第一步預訓練中,它們在一個包含數十億詞的大型文本語料庫上進行訓練,而不需要任何注釋。一個典型的預訓練任務是預測在輸入中被掩蔽的文本中的單個詞。通過這種方式,模型學習自然語言語法和語義的微妙差別。因為數據足夠,模型可以擴展到多個層,具有數百萬或數十億的參數。在第二步細調中,模型在一個小的帶注釋的訓練集上進行訓練。通過這種方式,模型可以適應新的特定任務。由于相對于預訓練數據,細調數據非常小,且模型具有很高的容量,含有數百萬的參數,因此它可以適應細調任務,而不會丟失存儲在模型中關于語言結構的信息。有實驗證明,這種思想可以應用于大多數NLP任務,從而在語義理解方面取得了前所未有的性能提升。這種遷移學習允許從預訓練階段的知識轉移到經過細調的模型。這些模型被稱為預訓練語言模型(PLM)。

在過去的幾年里,這些PLM的參數數量隨著更多訓練數據的增加而系統性地增大。事實證明,與傳統觀念相反,這些模型的性能越來越好,而沒有受到過擬合的影響。具有數十億參數的模型能夠在給出一些起始文本的提示后,生成語法正確、語義連貫的流暢文本。他們能夠回答問題,并對不同類型的提示作出有意義的反應。此外,同一PLM架構可以同時預訓練不同類型的序列,例如文本中的標記、圖片中的圖像塊、語音片段、視頻幀中的圖像塊序列、DNA片段等。他們能夠同時處理這些媒體類型,并在不同模態之間建立聯系。他們可以通過自然語言提示來適應各種任務的執行,即使他們沒有明確地在這些任務上進行訓練。由于這種靈活性,這些模型是開發全面應用的有希望的候選者。因此,具有數十億參數的大型PLM通常被稱為基礎模型[9]。本書旨在為當前的預訓練語言模型和基礎模型提供最新的概述,重點關注NLP的應用

? 我們描述了必要的背景知識,模型架構,預訓練和細調任務,以及評價指標。 ? 我們討論了每個NLP應用組最相關的模型,這些模型當前具有最佳的精度或性能,即接近最先進的狀態(SOTA)。我們的目標并不是描述近年來開發的所有模型的范圍,而是解釋一些代表性的模型,以便理解它們的內部工作機制。 ? 最近,PLM已經被應用于許多語音、圖像和視頻處理任務,由此產生了基礎模型的術語。我們對最相關的模型進行了概述,這些模型通常允許不同媒體的聯合處理,例如文本和圖像 ? 我們提供了可用模型代碼和預訓練模型參數的鏈接。 ? 我們討論了模型的優點和局限性,并對可能的未來發展提出了展望。

作者介紹

主編

Gerhard Paa?博士是Fraunhofer智能分析和信息系統研究所(IAIS)的首席科學家。他擁有數學背景,并且是人工智能領域,尤其是自然語言處理領域的公認專家。Paa?博士曾在加利福尼亞的加州大學伯克利分校和布里斯班的科技大學工作過。他曾在包括NeurIPS,CIKM,ECML/PKDD,ICDM和KDD等多個國際會議上擔任評審和會議主席,而且他常常是程序委員會的成員。Paa?博士獲得了關于概率邏輯的“最佳論文”獎,并且是約70篇為國際會議和期刊撰寫的論文的作者。最近,他撰寫了書籍“人工智能:未來技術背后的原理是什么?”(德文版)。他目前正在參與創建一個基礎模型的計算機中心。除了對基礎模型的實驗研究外,他還在波恩大學和工業界為深度學習和自然語言理解進行講座。

Sven Giesselbach是Fraunhofer智能分析和信息系統研究所(IAIS)自然語言理解(NLU)團隊的負責人,他在人工智能和自然語言處理方面有專業的研究。他和他的團隊在醫療,法律和一般文檔理解等領域開發解決方案,這些解決方案在其核心上建立在基礎模型之上。Sven Giesselbach也是萊茵-魯爾機器學習競爭力中心(ML2R)的一部分,他在那里擔任研究科學家,并研究知識通知型機器學習,這是一種將知識注入機器學習模型的范式,與語言建模相結合。他發表了10多篇關于自然語言處理和理解的論文,這些論文關注創建應用程序可用的NLU系統和在解決方案設計的各個階段整合專家知識。他領導了自然語言理解展示室的開發,這是一個展示最新自然語言理解模型的平臺。他經常在暑期學校,會議和AI聚會上講解NLU。

付費5元查看完整內容

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

隨著人工智能研究領域的發展,知識圖譜(knowledge graphs, KGs)引起了學術界和工業界的廣泛關注。作為實體間語義關系的一種表示,知識圖譜在自然語言處理(natural language processing, NLP)中有著重要的意義,近年來得到了迅速的推廣和廣泛采用。鑒于這一領域的研究工作量不斷增加,自然語言處理研究界已經調研了幾種與KG相關的方法。然而,至今仍缺乏對既定主題進行分類和審查個別研究流成熟度的綜合研究。為了縮小這一差距,我們系統地分析了NLP中有關KGs的文獻中的507篇論文。我們的調研包括對任務、研究類型和貢獻的多方面。因此,我們提出了一個結構化的研究概況,提供了任務的分類,總結了我們的發現,并強調了未來工作的方向。

//www.zhuanzhi.ai/paper/d3a164b388877b723eec8789fd081c3d

知識的獲取和應用是自然語言固有的特性。人類使用語言作為交流事實、爭論決定或質疑信仰的手段。因此,計算語言學家早在20世紀50年代和60年代就開始研究如何將知識表示為語義網絡中概念之間的關系(Richens, 1956;Quillian, 1963;Collins和Quillian, 1969)。最近,知識圖譜(KGs)已成為一種以機器可讀的格式語義表示有關現實世界實體的知識的方法。它們起源于對語義網絡、領域特定本體以及鏈接數據的研究,因此并不是一個全新的概念(Hitzler, 2021)。盡管KG越來越受歡迎,但對于KG究竟是什么,適用于什么任務,人們仍然沒有一個普遍的理解。盡管之前的工作已經試圖定義kg (Pujara et al., 2013; Ehrlinger and W??, 2016; Paulheim, 2017; F?rber et al., 2018),該術語尚未被研究人員統一使用。大多數研究都隱含地采用了廣義的KGs定義,將其理解為“旨在積累和傳遞現實世界知識的數據圖,其節點代表感興趣的實體,其邊緣代表這些實體之間的關系”(Hogan等人,2022)。

自2012年谷歌的KG引入以來(Singhal, 2012), KG在學術界和產業界都吸引了大量的研究關注。特別是在自然語言處理(NLP)的研究中,使用KGs在過去5年里變得越來越流行,而且這一趨勢似乎正在加速。其基本范式是,結構化和非結構化知識的結合可以使各種NLP任務受益。例如,來自知識圖譜的結構化知識可以注入到語言模型中發現的上下文知識中,這可以提高下游任務的性能(Colon-Hernandez等人,2021)。此外,隨著知識庫的重要性日益增加,從非結構化文本中構建新知識庫的努力也在不斷擴大。

谷歌在2012年創造了知識圖譜這個術語,十年之后,學者們提出了大量新穎的方法。因此,重要的是收集見解,鞏固現有結果,并提供結構化的概述。然而,據我們所知,目前還沒有一項研究對自然語言處理領域中知識分子的整個研究格局進行了概述。為了縮小這一差距,我們進行了一項全面的調研,通過對已建立的主題進行分類,確定趨勢,并概述未來研究的領域,分析在該領域進行的所有研究。我們的三個主要貢獻如下:1. 我們系統地從507篇論文中提取信息,報告關于任務、研究類型和貢獻的見解。2. 本文提供了NLP中關于知識圖譜的文獻中的任務分類,如圖1所示。3.我們評估單個研究流的成熟度,確定趨勢,并強調未來工作的方向。本文綜述了NLP中知識圖譜的演變和目前的研究進展。盡管我們無法完全覆蓋該主題的所有相關論文,但我們的目標是提供一個具有代表性的概述,通過提供一個文獻起點,可以幫助NLP學者和實踐者。此外,多方面的分析可以指導研究界縮小現有差距,并找到如何將KGs與NLP結合的新方法。

KG研究綜述結果

**研究整體概況 (RQ1)**對于NLP中有關KGs的文獻,我們從研究數量作為研究興趣的指標開始分析。圖2說明了十年觀察期間的出版物分布情況。雖然第一批出版物出現在2013年,但年度出版物在2013年至2016年期間增長緩慢。從2017年起,出版物數量幾乎每年翻一番。由于這些年來研究興趣的顯著上升,所有納入的出版物中超過90%來自這五年。盡管增長趨勢似乎在2021年停止,但這可能是由于發生在2022年的第一周的數據導出,遺漏了2021年的許多研究,這些研究在2022年晚些時候被納入數據庫。盡管如此,圖2中的趨勢清楚地表明,KGs正受到NLP研究界越來越多的關注。如果考慮到507篇論文,會議論文(402篇)是期刊論文(105篇)的近4倍。

KG任務概況 (RQ2)

基于NLP中有關KGs的文獻中確定的任務,我們開發了如圖1所示的經驗分類法。這兩個頂級類別包括知識獲取和知識應用。知識獲取包含從非結構化文本構建知識基礎(知識圖構建)或對已經構建的知識基礎進行推理(知識圖推理)的NLP任務。知識庫構建任務進一步劃分為兩個子類:知識提取和知識集成,前者用于用實體、關系或屬性填充知識庫,后者用于更新知識庫。知識應用是第二大頂層概念,包含常見的NLP任務,通過知識庫中的結構化知識來增強這些任務。 正如預期的那樣,我們分類法中的任務在文獻中出現的頻率變化很大。表2概述了最流行的任務,圖5比較了它們隨時間的流行程度。圖4顯示了最突出的任務所檢測到的域的數量。它表明某些任務比其他任務更適用于領域特定的上下文。

研究類型及貢獻(RQ3)

表3顯示了根據附錄表4和表5定義的不同研究和貢獻類型的論文分布情況。它表明,大多數論文進行驗證研究,調查尚未在實踐中實施的新技術或方法。相當多的論文,雖然明顯較少,側重于解決方案的提出,通過一個小的例子或論證來證明它們的優點和適用性。然而,這些論文通常缺乏深刻的實證評價。

付費5元查看完整內容

摘要

預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。

引言

近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:

對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。

對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。

這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。

本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。

付費5元查看完整內容

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

  • 我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。

  • 我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。

  • 我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。

  • 我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。

  • 我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。

  • 我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。

  • 我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是,基于提示的學習是基于直接對文本概率建模的語言模型,監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務,使用模板將原始輸入x修改為文本字符串提示符x ',其中有一些未填充的槽,然后使用語言模型按概率填充未填充的信息,得到最終字符串x?,從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練,通過定義一個新的提示函數,模型能夠執行少量甚至零次學習,在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容,描述了一套統一的數學符號,可以涵蓋各種各樣的現有工作,并從幾個維度組織現有的工作,例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域,我們不僅對現有的工作進行了系統的回顧,并對基于提示的概念進行了高度結構化的類型化,而且還發布了其他資源。

地址: //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b

完全監督學習,即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型,長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al., 2007),自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的,早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011)),其中,NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征,并提供具有適當歸納偏差的模型,以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現,顯著特征的學習與模型本身的訓練結合在一起(Collobert et al., 2011;Bengio et al., 2013),因此重點轉向了架構工程,其中的歸納偏差更傾向于通過設計一個合適的網絡架構,有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。

然而,從2017-2019年開始,NLP模型的學習發生了翻天覆地的變化,這種完全監督的范式現在正在發揮越來越小的作用。具體來說,標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中,一個具有固定架構的模型被預先訓練為語言模型(LM),預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富,這些LMs可以在大型數據集中進行訓練,在此過程中學習它所建模的語言的魯棒通用特性。然后,通過引入額外的參數,并使用特定任務的目標函數對它們進行微調,將上述預先訓練的LM適應于不同的下游任務。在這個范例中,重點主要轉向了目標工程,設計在訓練前和微調階段使用的訓練目標。例如,Zhang等人(2020a)表明,引入一個預測文檔中顯著句子的損失函數,將導致更好的文本摘要預訓練模型。值得注意的是,預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調,使其更適合解決下游任務。

現在,在2021年寫這篇文章的時候,我們正處于第二次巨變之中,“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式,不是通過目標工程將預先訓練好的LMs應用到下游任務,而是將下游任務重新制定,使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如,當識別社交媒體帖子的情緒時,“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”,然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”),LM可以用法語翻譯來填空。這樣,通過選擇適當的提示,我們可以操縱模型行為,使預先訓練的LM本身可以用來預測期望的輸出,有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是,給定一套適當的提示,在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣,這里有一個陷阱——這種方法引入了快速工程的必要性,找到最合適的提示,讓LM能夠解決手頭的任務。

付費5元查看完整內容
北京阿比特科技有限公司