亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這篇論文對大型語言模型(LLMs)在知識圖譜(KG)構建和推理中的作用進行了詳盡的定量和定性評估。我們使用了八個不同的數據集,涵蓋了實體、關系和事件提取,鏈接預測,和問題回答等方面。實證上,我們的發現表明,GPT-4在大多數任務中表現優于ChatGPT,甚至在某些推理和問題回答的數據集中超過了微調模型。此外,我們的綜述還擴展到了LLMs在信息提取方面的潛在泛化能力,這在虛擬知識提取任務的介紹和VINE數據集的開發中達到了高潮。依據這些實證發現,我們進一步提出了AutoKG,這是一種使用LLMs進行KG構建和推理的多智能體方法,旨在勾畫出這個領域的未來并提供激動人心的進步機會。我們期待我們的研究能為未來的KG的實踐提供寶貴的見解。

1. 引言

知識圖譜(KG)是一個由實體、概念和關系組成的語義網絡(Cai et al., 2022;Chen et al., 2023;Zhu et al., 2022;Liang et al., 2022),它可以催化各種場景的應用,如推薦系統、搜索引擎和問題回答系統(Zhang et al., 2021)。通常,KG構建(Ye et al., 2022b)包括幾個任務,包括命名實體識別(NER)(Chiu和Nichols,2016),關系提取(RE)(Zeng et al., 2015;Chen et al., 2022),事件提取(EE)(Chen et al., 2015;Deng et al., 2020),和實體鏈接(EL)(Shen et al., 2015)。另一方面,KG推理,通常被稱為鏈接預測(LP),在理解這些構建的KG中起著關鍵的作用(Zhang et al., 2018;Rossi et al., 2021)。此外,KG可以被用于問題回答(QA)任務(Karpukhin et al., 2020;Zhu et al., 2021),通過對與問題相關的關系子圖的推理。

早期,知識圖譜的構建和推理主要依賴于監督學習方法。然而,近年來,隨著大型語言模型(LLMs)的顯著進步,研究人員已經注意到它們在自然語言處理(NLP)領域的卓越能力。盡管有許多關于LLMs的研究(Liu et al., 2023;Shakarian et al., 2023;Lai et al., 2023),但在知識圖譜領域系統地探索它們的應用仍然有限。為了解決這個問題,我們的工作研究了LLMs(如ChatGPT和GPT-4,OpenAI,2023)在知識圖譜構建、知識圖譜推理任務中的潛在應用性。通過理解LLMs的基本能力,我們的研究進一步深入了解了該領域的潛在未來方向。

圖1:我們工作的概述。主要有三個部分:1)基礎評估:詳細說明了我們對大型模型(text-davinci-003,ChatGPT和GPT-4)的評估,無論是在零次還是一次設置中,都使用完全監督的最先進模型的性能數據作為基準;2)虛擬知識提取:檢查大型模型在構建的VINE數據集上的虛擬知識能力;3)AutoKG:提出利用多個代理來促進知識圖譜的構建和推理。

具體來說,如圖1所示,我們首先調研了LLMs在實體、關系和事件提取,鏈接預測,和問題回答方面的零樣本和一次樣本性能,以評估它們在知識圖譜領域的潛在應用。實證發現表明,盡管LLMs在知識圖譜構建任務中的性能有所提升,但仍落后于最先進的(SOTA)模型。然而,LLMs在推理和問題回答任務中表現出相對優越的性能。這表明它們擅長處理復雜問題,理解上下文關系,并利用預訓練過程中獲取的知識。因此,像GPT-4這樣的LLMs作為少次信息提取器的效果有限,但作為推理助手的熟練程度相當高。為了進一步研究LLMs在信息提取任務上的表現,我們設計了一個新的任務,稱為“虛擬知識提取”。這個任務旨在判斷性能的觀察到的改進是來自LLMs內在的廣泛知識庫,還是來自于指導調整和人類反饋的強化學習(RLHF)(Christiano et al., 2017)所促進的強大泛化能力。在新建的VINE數據集上的實驗結果表明,像GPT-4這樣的LLMs可以迅速從指令中獲取新的知識,并有效地完成相關的提取任務。 在這些實證發現中,我們認為LLMs對指令的極大依賴使得為知識圖譜的構建和推理設計合適的提示變得費時費力。為了促進進一步的研究,我們引入了AutoKG的概念,它使用多個LLMs的代理自動進行知識圖譜的構建和推理。

總的來說,我們的研究做出了以下貢獻

我們評估了LLMs,包括GPT-3.5, ChatGPT, GPT-4,通過在八個基準數據集上評估它們在知識圖譜構建和推理的零樣本和一樣本性能,提供了對它們能力的初步理解

我們設計了一個新的虛擬知識提取任務,并構建了VINE數據集。通過評估LLMs在這個數據集上的性能,我們進一步展示了像GPT-4這樣的LLMs具有強大的泛化能力。

我們引入了使用交際代理自動進行知識圖譜構建和推理的概念,稱為AutoKG。利用LLMs的知識庫,我們使多個LLMs的代理能夠通過迭代對話協助知識圖譜的構建和推理過程,為未來的研究提供了新的洞察。

**LLMs在知識圖譜構建和推理方面的新能力 **

最近,LLMs的出現給NLP領域注入了活力。為了探索LLMs在知識圖譜領域的潛在應用,我們選擇了代表性的模型,即ChatGPT和GPT-4。我們在知識圖譜構建和推理領域的八個不同數據集上對它們的性能進行了全面評估。

**2.1 評估原則 **

在這項研究中,我們對LLMs在各種知識圖譜相關任務上進行了系統評估。首先,我們評估了這些模型在zero-shot和one-shotNLP任務中的能力。我們的主要目標是在面對有限數據時檢查它們的泛化能力,以及在沒有示范的情況下使用預訓練知識有效推理的能力。其次,根據評估結果,我們對導致模型在不同任務中表現不同的因素進行了全面分析。我們旨在探究它們在某些任務中表現優越的原因和潛在缺陷。通過比較和總結這些模型的優點和限制,我們希望提供可能指導未來改進的洞察。

2.2 知識圖譜的構建和推理

2.2.1 設置

實體、關系和事件提取。DuIE2.0 (Li et al., 2019)代表了業界最大的基于模式的中文關系提取數據集,包括超過210,000個中文句子和48個預定義的關系類別。SciERC (Luan et al., 2018)是一組注釋了七種關系的科學摘要。Re-TACRED (Stoica et al., 2021)是TACRED關系提取數據集的顯著改進版本,包含超過91,000個分布在40個關系中的句子。MAVEN (Wang et al., 2020)是一個包含4,480份文件和168種事件類型的通用領域事件提取基準。

鏈接預測 FB15K-237 (Toutanova et al., 2015)廣泛用作評估知識圖譜嵌入模型在鏈接預測上的性能的基準,包括237個關系和14,541個實體。ATOMIC 2020 (Hwang et al., 2021a)是一個全面的常識倉庫,包含關于實體和事件的133萬條推理知識元組。

問答 FreebaseQA (Jiang et al., 2019)是一個基于Freebase知識圖譜構建的開放領域QA數據集,專為知識圖譜QA任務設計。這個數據集包括從各種來源(如TriviaQA數據集等)收集的問題-答案對。MetaQA (Zhang et al., 2018)數據集,從WikiMovies (Miller et al., 2016)數據集擴展,提供了大量的單跳和多跳問題-答案對,總數超過400,000個。

2.2.2 總體結果

實體和關系提取 我們在SciERC, Re-TACRED, 和DuIE2.0上進行實驗,每個實驗涉及到測試/驗證集的20個樣本,并使用標準的micro F1分數進行評估。在此我們分別在每個數據集上使用PaddleNLP LIC2021 IE2,PL-Marker (Ye et al., 2022a)和EXOBRAIN (Park and Kim, 2021)作為基線。如表1所示,GPT-4在這些學術基準提取數據集上無論是zero-shot還是one-shot都取得了相對良好的性能。與ChatGPT相比,它也有所進步,盡管其性能還沒有超過完全監督的小模型。

事件提取 我們在MAVEN數據集的20個隨機樣本上進行事件檢測的實驗。此外,我們使用Wang等人(2022a)的研究作為先前經過微調的SOTA。同時,即使沒有演示,GPT-4也已經取得了值得稱贊的結果。在這里,我們使用F-分數作為評估指標。

鏈接預測任務 鏈接預測任務包括在兩個不同的數據集FB15k-237和ATOMIC2020上進行的實驗。前者是包含25個實例的隨機樣本集,而后者包含23個代表所有可能關系的實例。在各種方法中,最好的微調模型是FB15k-237的C-LMKE (BERT-base) (Wang et al., 2022c)和ATOMIC2020的COMET (BART) (Hwang et al., 2021b)。

問題回答 我們在兩個廣泛使用的知識庫問題回答數據集上進行評估:FreebaseQA和MetaQA。我們從每個數據集中隨機抽取20個實例。對于MetaQA,由于它由不同跳數的問題組成,我們根據它們在數據集中的比例進行抽樣。我們用于兩個數據集的評估指標是AnswerExactMatch。

在涵蓋知識圖譜構建和知識圖譜推理的實驗中,大型語言模型(LLMs)通常在推理能力上表現優于它們的構建能力。對于知識圖譜的構建任務,無論是在 zero-shot 或 one-shot 的情況下,LLMs的表現都沒有超過當前最先進模型的表現。這與之前在信息提取任務上進行的實驗(Ma等人,2023)保持一致,這些實驗表明,大型語言模型通常并不擅長進行少樣本的信息提取。相反,在知識圖譜推理任務中,所有LLMs在one-shot設置中,以及GPT-4在zero-shot設置中,都達到了最先進(SOTA)的表現。這些發現為增強我們對大型模型的性能和它們在知識圖譜領域內的適應性的理解提供了有意義的見解。我們提出了對這種現象的幾種可能解釋:首先,知識圖譜構建任務包括識別和提取實體、關系、事件等,使得它比推理任務更為復雜。相反,推理任務,以鏈接預測為典型,主要依賴于已有的實體和關系進行推斷,使得任務相對直接。其次,我們推測LLMs在推理任務中表現優異可能歸因于它們在預訓練階段接觸到的相關知識。

3 未來機遇:自動化知識圖譜構建和推理

最近,大型語言模型(LLMs)引起了相當大的關注,并在各種復雜任務中展示了精通的能力。然而,像ChatGPT這樣的技術的成功,仍然主要依賴于大量的人力輸入,以引導對話文本的生成。隨著用戶逐步精細化任務描述和要求,并與ChatGPT建立對話環境,模型能夠提供越來越精確、高質量的回應。然而,從模型開發的角度看,這個過程仍然是勞動密集型和耗時的。因此,研究人員已經開始研究使大型模型能夠自主生成指導文本的可能性。例如,AutoGPT可以獨立生成提示,并執行像事件分析、營銷計劃創建、編程和數學操作等任務。同時,Li等人(2023)深入研究了交際代理之間自主合作的可能性,并介紹了一個名為角色扮演的新型合作代理框架。這個框架使用啟示性提示,以確保與人類意圖的一致性。在此研究基礎上,我們進一步詢問:是否可行使用交際代理來完成知識圖譜的構建和推理任務?

在這個實驗中,我們使用了CAMEL(Li等人,2023)中的角色扮演方法。如圖6所示,AI助手被指定為顧問,AI用戶被指定為知識圖譜領域專家。在收到提示和指定的角色分配后,任務指定代理提供詳細的描述以具體化概念。在此之后,AI助手和AI用戶在多方設置中協作完成指定的任務,直到AI用戶確認其完成。實驗示例表明,使用多代理方法,與電影《綠皮書》相關的知識圖譜被更有效、更全面地構建。這個結果也強調了基于LLM的代理在構建和完成知識圖譜方面的優越性。

通過結合人工智能和人類專業知識的努力,AutoKG可以快速定制領域特定的知識圖譜。該系統允許領域專家與機器學習模型進行交互,從而通過交換專家知識和經驗,促進領域特定知識圖譜的構建的協作環境。此外,AutoKG可以有效地利用人類專家的領域知識,生成高質量的知識圖譜。同時,通過這種人機協作,它可以在處理領域特定任務時,提高大型語言模型的事實準確性。反過來,這個目標預計將增加模型的實用價值。 AutoKG不僅可以加快領域特定知識圖譜的定制,而且還可以增強大規模模型的透明度和體現代理的交互。更準確地說,AutoKG有助于深入理解大型語言模型(LLMs)的內部知識結構和運作機制,從而提高模型的透明度。此外,AutoKG可以作為一個合作的人機交互平臺,使人類和模型之間能夠進行有效的交流和互動。這種互動促進了對模型學習和決策過程的更好理解和指導,從而提高了模型在處理復雜任務時的效率和準確性。盡管我們的方法帶來了顯著的進步,但它并非沒有局限性,然而,這些局限性為進一步的探索和改進提供了機會:

API的使用受到最大Token限制的約束。目前,由于GPT-4 API不可用,正在使用的gpt-3.5-turbo受到最大token限制。這個約束影響了知識圖譜的構建,因為如果超過了這個限制,任務可能無法正確執行。現在,AutoKG在促進有效的人機交互方面表現出缺點。在任務完全由機器自主進行的情況下,人類不能及時糾正交流過程中的錯誤發生。相反,在機器通信的每一步中都涉及到人類,可以顯著增加時間和勞動成本。因此,確定人類介入的最佳時機對于知識圖譜的高效和有效的構建至關重要。大型語言模型(LLMs)的訓練數據是時間敏感的。未來的工作可能需要將來自互聯網的檢索特性納入考慮,以彌補當前大型模型在獲取最新或領域特定知識方面的不足。

4. 結論

在這篇論文中,我們初步調研了大型語言模型(LLMs),如GPT系列,在知識圖譜(KG)構建和推理等任務上的表現。盡管這些模型在這些任務上表現優秀,我們提出了這樣一個問題:LLMs在提取任務中的優勢是源于它們龐大的知識庫,還是源于它們強大的上下文學習能力?為了探索這個問題,我們設計了一個虛擬的知識提取任務,并為實驗創建了相應的數據集。結果表明,大型模型確實具有強大的上下文學習能力。此外,我們提出了一種利用多個代理完成KG構建和推理任務的創新方法。這種策略不僅減輕了人工勞動,也彌補了各個領域人類專業知識的匱乏,從而提高了LLMs的表現。盡管這種方法仍有一些局限性,但它為LLMs的未來應用的進步提供了新的視角。

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

17種大模型因果推斷專門評估論文

因果推斷是人類智能的標志之一。盡管近年來CausalNLP領域引起了廣泛的關注,但是現有的NLP領域的因果推斷數據集主要依賴于從經驗知識(例如常識知識)中發現因果關系。在這項工作中,我們提出了第一個用于測試大型語言模型(LLMs)純因果推斷能力的基準數據集。具體來說,我們設計了一個新的任務CORR2CAUSE,它接收一組相關性聲明,并確定變量之間的因果關系。我們整理了一個超過400K樣本的大規模數據集,我們在此數據集上評估了十七種現有的LLMs。通過我們的實驗,我們發現了LLMs在因果推斷能力方面的一個關鍵短板,并且表明這些模型在任務上的表現幾乎接近隨機性。當我們試圖通過微調重新定位LLMs來增強這項技能時,這種短板有所緩解,但我們發現這些模型仍然無法泛化——它們只能在變量名稱和用于查詢的文本表達與訓練集相似的分布內設置中進行因果推斷,但在通過擾動這些查詢生成的分布外設置中失敗。CORR2CAUSE對于LLMs來說是一個具有挑戰性的任務,并將有助于指導未來關于提高LLMs的純推理能力和泛化性的研究。

因果推斷是人類智能中至關重要的推理能力。它是推理的一個基本方面,涉及建立變量或事件之間正確的因果關系。大致上,有兩種不同的方式可以獲得因果性:一種是通過經驗知識,例如,我們從常識中知道為朋友準備生日聚會會讓他們開心;另一種是通過純因果推理,因為可以使用來自因果推斷的已知程序和規則(Spirtes等人,2000;Pearl,2009;Peters等人,2017)正式論證和推理出因果關系。例如,我們知道僅知道A與B相關并不意味著A導致B。我們也知道從純因果推斷中,特別是從因果發現的研究(Spirtes等人,2000;Spirtes和Zhang,2016;Glymour等人,2019)中得到的另一個屬性,即如果A和B原本是相互獨立的,但在給定C的條件下變得相關,那么我們可以推斷,在這個封閉系統中,C是A和B的共同效應,如圖1所示。這種碰撞現象可以用來否認A和B之間的因果關系,無論變量A、B和C采取何種實現方式。

我們將這個任務形式化為NLP的一個新任務,即相關性到因果性推斷(CORR2CAUSE),并認為這是大型語言模型(LLMs)必備的技能。想象圖1中的場景,在訓練語料庫中有大量的相關性,比如疫苗這個詞與疾病病例增加數量的相關性。如果我們認為LLMs(Radford等人,2019;Devlin等人,2019;Ouyang等人,2022;Zhang等人,2022;OpenAI,2023等)的成功在于捕獲了術語之間的大量統計相關性(Bender等人,2021),那么至關重要但缺失的一步就是如何處理這種相關性并推斷出因果關系,其中一個基本構件就是這個CORR2CAUSE推斷技能。

為此,我們收集了第一個數據集CORR2CAUSE,用于測試大型語言模型的純因果推理能力。這個數據集中的所有問題都圍繞著何時可以從相關性推斷因果性,何時不可以進行測試。為了系統地編制這個數據集,我們將我們的泛化過程基于因果發現的正式框架(Spirtes等人,1993,2000;Glymour等人,2016;Spirtes和Zhang,2016;Glymour等人,2019),該框架提供了如何根據觀察數據中的統計相關性推斷變量之間的因果關系的規則。我們生成了超過400K的數據點,并且只有當統計相關性與潛在的因果關系之間存在一一映射時,我們才將相關性-因果性聲明對標記為有效。基于我們擁有400K樣本的CORR2CAUSE數據集,我們調查了兩個主要的研究問題:(1)現有的LLMs在這個任務上的表現如何?(2)現有的LLMs是否可以在這個任務上進行重新訓練或者重新定位,并獲得強大的因果推理技能?通過大量的實驗,我們從經驗上顯示,我們調查的十七種現有的LLMs沒有一種在這個純因果推理任務上表現良好。我們還顯示,盡管LLMs在數據上微調后可以表現出更好的性能,但是它們獲得的因果推理技能并不強大。總的來說,我們的貢獻如下:

我們提出了新的任務CORR2CAUSE,用來探測LLMs推理能力的一個方面,即純因果推理

我們根據因果發現的洞察,編制了一個包含超過400K樣本的數據集

我們評估了十七種LLMs在我們的數據集上的性能,發現它們都表現不佳,接近隨機基線

我們進一步探索了LLMs是否可以通過微調來學習這項技能,并發現LLMs在處理分布外擾動時無法穩定地掌握這項技能,我們建議未來的工作探索更多方法來增強LLMs的純因果推理技能

數據構建

我們在這一部分介紹我們的數據集的構建過程。我們從CORR2CAUSE的任務定義開始,然后簡要概述數據生成過程,接著詳細描述每個步驟。我們在本節的結尾給出了數據集的總體統計信息。

實驗結果

我們為我們的CORR2CAUSE數據集的實驗準備了一份多樣化的LLMs列表。為了測試現有的LLMs,我們首先包括了在transformers庫(Wolf et al., 2020)中下載次數最多的六種常用BERT-based NLI模型:BERT(Devlin et al., 2019)、RoBERTa(Liu et al., 2019)、BART(Lewis et al., 2020)、DeBERTa(He et al., 2021)、DistilBERT(Sanh et al., 2019)和DistilBART(Shleifer和Rush,2020)。除了這些基于BERT的NLI模型,我們還評估了基于GPT(Radford et al., 2019)的通用自回歸LLMs:GPT-3 Ada、Babbage、Curie、Davinci(Brown et al., 2020);它的指令調整版本(Ouyang et al., 2022),text-davinci-001、text-davinci-002和text-davinci-003;以及GPT-3.5(即,ChatGPT)和最新的GPT-4(OpenAI,2023),使用OpenAI API2,溫度為0。我們還評估了最近的,更高效的模型LLaMa(Touvron et al., 2023)和Alpaca(Taori et al., 2023)。 當我們觀察微調模型的表現時,我們選用了一大批模型,包括使用OpenAI微調API進行分類的GPT模型(GPT-3 Ada、Babbage、Curie和Davinci),從頭開始的BERT模型(BERT-Base、BERT-Large、RoBERTa-Base和RoBERTa-Large),以及使用transformers庫(Wolf et al., 2020)的基于BERT的NLI模型(BERT-Base MNLI、BERT-Large MNLI、RoBERTaBase MNLI和RoBERTa-Large MNLI)。我們的訓練細節在附錄A中提供。

我們在表4中展示了LLMs的性能。我們可以看到,純粹的因果推理對所有現有的LLMs來說都是一個非常具有挑戰性的任務。在所有的LLMs中,性能最好的是BART MNLI的33.38% F1,這甚至超過了最新的基于GPT的模型,GPT-4。值得注意的是,許多模型比隨機猜測還要差,這意味著他們在這個純粹的因果推理任務上完全失敗了。

我們識別出了這項工作的幾個局限性,并提出了未來的研究方向:首先,在這項工作的背景下,我們將因果圖的節點限制在二至六個,但未來的工作可以自由地探索更大的圖。另一個方面是,我們在這個推斷問題中并沒有假設存在隱藏的混淆因素,因此我們歡迎未來的工作生成一個更具挑戰性的數據集,來推斷隱藏混淆因素的存在,類似于快速因果推斷(Fast Causal Inference,FCI)(Spirtes 等人,2000)的因果發現算法。最后,提出這項任務的很大一部分動機是由我們日常推理中無效推理模式的問題啟發的(Jin等人,2022),這可能為更廣泛的假新聞傳播提供了肥沃的土壤。我們認為錯誤的因果推斷是一種普遍的謬誤信念,并歡迎未來的工作將這個基準的想法與更多基于混淆相關性和因果性的真實世界錯誤信念聯系起來。

實驗結論

在這項工作中,我們引入了一項新的任務,即從相關性推斷因果關系的CORR2CAUSE,并收集了超過40萬個樣本的大規模數據集。我們在這個新任務上對一長串的LLMs進行了評估,并顯示出現成的LLMs在這個任務上表現不佳。我們還證明,通過微調可以將LLMs重新定向到這個任務,但未來的工作需要注意超出分布的泛化問題。為避免好哈特定律(Goodhart’s law),我們建議使用這個數據集來對那些尚未見過這個數據集的LLMs進行純因果推斷技能的基準測試。鑒于當前LLMs的推理能力有限,且難以從訓練語料庫派生的知識中分離出實際的推理,我們社區必須專注于旨在準確解開并測量這兩種能力的工作。我們相信,目前的工作是這樣的第一步。

付費5元查看完整內容

開放知識圖譜(KG)補全的任務是從已知事實中提取新的發現。現有的增強KG補全的工作需要:(1)事實三元組來擴大圖推理空間,或者(2)手動設計提示來從預訓練的語言模型(PLM)中提取知識,這種方式的性能有限,需要專家付出昂貴的努力。為此,我們提出了TAGREAL,它可以自動生成高質量的查詢提示,并從大型文本語料庫中檢索支持信息,以探測PLM中的知識進行KG補全。結果顯示,TAGREAL在兩個基準數據集上實現了最新的性能。我們發現,即使在訓練數據有限的情況下,TAGREAL的性能也非常出色,超過了現有的基于嵌入的、基于圖的和基于PLM的方法。

1. 引言

知識圖譜(KG)是一種異構圖,它以實體-關系-實體三元組的形式編碼事實信息,其中關系連接頭實體和尾實體(例如,“邁阿密位于-美國”)(Wang et al., 2017;Hogan et al., 2021)。KG(Dai et al., 2020)在許多NLP應用中起著核心作用,包括問答系統(Hao et al., 2017;Yasunaga et al., 2021)、推薦系統(Zhou et al., 2020)和藥物發現(Zitnik et al., 2018)。然而,現有的研究(Wang et al., 2018;Hamilton et al., 2018)顯示,大部分大規模KG都是不完整的,無法全面覆蓋龐大的現實世界知識。這個挑戰促使了KG補全,其目標是給定主題實體和關系,找出一個或多個對象實體(Lin et al., 2015)。例如,在圖1中,我們的目標是預測對象實體,其中“底特律”是主題實體,“包含于”是關系。

然而,現有的KG補全方法(Trouillon et al., 2016b;Das et al., 2018)存在幾個限制(Fu et al., 2019)。首先,他們的性能嚴重依賴于圖的密度。他們通常在具有豐富結構信息的密集圖上表現良好,但在更常見的稀疏圖上表現不佳。其次,以前的方法(例如,Bordes et al.(2013))假設一個封閉世界的KG,沒有考慮外部資源中的大量開放知識。實際上,在許多情況下,KG通常與豐富的文本語料庫(Bodenreider, 2004)相關聯,其中包含大量尚未提取的事實數據。為了克服這些挑戰,我們研究了開放知識圖譜補全的任務,其中KG可以使用來自KG外部的新事實進行構建。最近的文本富集解決方案(Fu et al., 2019)關注使用預定義的事實集來豐富知識圖譜。然而,預定義的事實集通常嘈雜且受限,也就是說,它們沒有提供足夠的信息來有效更新KG。

預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。

預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。

基于標準KG的上述限制和PLMs(Devlin et al., 2019;Liu et al., 2019a)的巨大能力,我們的目標是使用PLMs進行開放知識圖譜補全。我們提出了一個端到端的框架,共同利用PLMs中的隱含知識和語料庫中的文本信息來進行知識圖譜補全(如圖1所示)。與現有的工作不同(例如,(Fu et al., 2019;Lv et al., 2022)),我們的方法不需要手動預定義的事實和提示集,這使得它更具通用性,更易于適應實際應用。我們的貢獻可以總結為:

? 我們研究了可以通過從PLMs中捕捉到的事實進行輔助的開放KG補全問題。為此,我們提出了一個新的框架TAGREAL,它表示了用PLMs中的現實世界知識增強的開放KG補全。 ? 我們開發了提示生成和信息檢索方法,這使得TAGREAL能夠自動創建高質量的PLM知識探測提示,并搜索支持信息,特別是當PLMs缺乏某些領域知識時,這使得它更加實用。 ? 通過在Freebase等實際知識圖譜上的大量定量和定性實驗,我們展示了我們框架的適用性和優點。 2. 方法

我們提出了TAGREAL,一個基于PLM的框架來處理KG補全任務。與以前的工作相比,我們的框架不依賴手工制作的提示或預定義的相關事實。如圖2所示,我們自動創建合適的提示并搜索相關的支持信息,這些信息進一步被用作模板,以從PLMs中探索隱含的知識。

2.1 問題定義

知識圖譜補全的目的是在KG的現有三元組集合中添加新的三元組(事實)。為了實現這個目標,有兩個任務。第一個是三元組分類,這是一個二元分類任務,用于預測一個三元組(h, r, t)是否屬于KG,其中h, r, t分別表示頭實體、關系和尾實體。第二個任務是鏈接預測,其目標是預測查詢(h, r, ?)的尾實體t或者預測查詢(?, r, t)的頭實體h。

2.2 提示生成 Prompt Generation

之前的研究(例如,Jiang等人(2020))表明,從預訓練語言模型(PLMs)中提取關系知識的準確性,很大程度上依賴于用于查詢的提示的質量。為了達到這個目的,我們開發了一種全面的方法,只需要將知識圖譜中的三元組作為輸入,就可以自動生成高質量的提示,如圖3所示。我們使用文本模式挖掘方法從大型語料庫中挖掘出高質量的模式,作為用于從PLMs中探索知識的提示。據我們所知,我們是首次使用文本模式挖掘方法進行語言模型提示挖掘的研究者。我們認為這種方法具有以下應用性:

? 數據源相似。我們在大型語料庫(例如,維基百科)上應用模式挖掘,這些語料庫是大多數PLMs預訓練的數據源。 ?** 目標相似**。文本模式挖掘的目的是從大型語料庫中挖掘出模式以提取新信息;提示挖掘的目的是挖掘出提示以從PLMs中探測隱含的知識。 ? 性能標準相似。模式或提示的可靠性取決于它能從語料庫/PLMs中提取出多少準確的事實。

2.3 支持信息檢索 Support Information Retrieval

除了提示挖掘外,我們還將一些查詢相關和三元組相關的支持文本信息附加到提示中,以幫助PLMs理解我們想要探測的知識,以及幫助訓練三元組分類能力。如圖4所示,對于關系r中的第i個查詢q r i,我們使用BM25(Robertson等人,1995)從可靠的語料庫中檢索得分高于δ且長度小于?的高排名支持文本,并隨機選擇其中一個作為支持信息。為了組成輸入到PLM的填空q? r i,我們將支持文本連接到我們在前面步驟中通過優化得到的每個提示中,其中主體已填充,對象被掩蓋。[CLS]和[SEP]分別是用于序列分類和支持信息-提示分隔的標記。在訓練階段,我們使用三元組而不是查詢來搜索文本,而[MASK]將被對象實體填充。值得注意的是,支持文本在TAGREAL中是可選的,如果沒有找到匹配的數據,我們將其留空。

**2.4 訓練 **

為了訓練我們的模型,我們根據PKGC(Lv等人,2022)提出的思想,除了給定的正三元組外,我們還創建負三元組,以處理三元組分類任務。我們通過將每個正三元組中的頭部和尾部替換為KGE模型給出高概率的“錯誤”實體,來創建負三元組。我們還通過隨機替換頭部和尾部,創建隨機負樣本,以擴大負訓練/驗證三元組的集合。

**2.5 推理 **

給定一個查詢 (h, r, ?),我們應用與頭實體 h 和關系 r 相關的查詢相關的支持信息,因為我們假設我們不知道尾實體(我們的預測目標)。然后,我們制作包含 [MASK] 的相應查詢實例,既包含支持信息也包含提示集合,如圖4所示。為了在鏈接預測中利用 PLM 的三元組分類能力,我們用已知實體集中的每個實體替換查詢實例中的 [MASK],并按降序排列它們的分類分數,以創建一個一維向量,作為每個查詢的預測結果。這表明,向量中索引較低的實體更有可能與輸入查詢組成正三元組。對于提示集合,我們在排序之前按實體索引將分數相加。詳細的說明放在附錄E中。

3. 實驗

我們將我們的模型 TAGREAL 與四種方法進行比較。對于(1)傳統的知識圖譜嵌入方法,我們評估了 TransE (Bordes 等人,2013),DisMult (Yang 等人,2014),ComplEx (Trouillon 等人,2016a),ConvE (Dettmers 等人,2018),TuckER (Bala?evic′等人,2019) 和 RotatE (Sun 等人,2019),其中 TuckER 是新添加的模型。對于(2)聯合文本和圖嵌入方法,我們評估了 RCNet (Xu等人,2014),TransE+LINE (Fu 等人,2019) 和 JointNRE (Han等人,2018)。對于(3)基于強化學習 (RL) 的路徑查找方法,我們評估了 MINERVA (Das等人,2017) 和 CPL (Fu等人,2019)。對于(4)基于 PLM 的方法,我們評估了 PKGC (Lv等人,2022) 和我們的方法 TAGREAL。我們保留了 Fu等人2019報告的(2)和(3)的數據,同時重新評估所有的。

結果

我們在表1和表2中展示了與最先進方法的性能比較。正如人們可以觀察到的,TAGREAL在大多數情況下都超過了現有的工作。在給定密集的訓練數據的情況下,基于KGE的方法(例如,RotatE)和基于RL的方法(例如,CPL)仍然可以達到相對較高的性能。然而,當訓練數據有限時,這些方法遇到困難,而基于PLM的方法(PKGC和TAGREAL)受到的影響不大。在這種情況下,我們的方法明顯優于當前的非基于PLM的方法。這是因為KGE模型在數據不足的情況下無法有效地進行訓練,基于RL的路徑查找模型在KG中沒有足夠的證據和通用路徑時無法識別出潛在的模式。另一方面,PLM已經擁有可以直接使用的隱含信息,微調時數據不足的負面影響會比從零開始訓練要小得多。TAGREAL由于其能夠自動挖掘高質量提示和檢索支持信息的能力,而超過PKGC,與此相反的是,手動注釋通常是有限的。

4. 結論

在這項研究中,我們提出了一個新穎的框架,利用PLM中的隱含知識進行開放的KG補全。實驗結果顯示,我們的方法在訓練數據有限的情況下,表現優于現有的方法。我們證明了我們的方法優化的提示在PLM知識探測中優于手工制作的提示。支持信息檢索對于輔助提示的有效性也得到了證明。在未來,我們可能會利用QA模型的能力來檢索更可靠的支持信息。另一個潛在的擴展是通過探索路徑查找任務,使我們的模型更具可解釋性。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。

1. 引言

推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。

本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。

為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。

在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。

3. 方法體系

在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。

3.1 策略增強推理

這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。

3.1.1提示工程

一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。

3.1.2 流程優化

自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。

3.1.3 外部引擎

在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。

3.2 知識增強推理

正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。

**3.2.1 隱式知識 **

研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。

3.2.2顯性知識

盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。

4 比較與討論

表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。

5. 未來的發展方向

我們列出了一些潛在的方向如下:

推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。

6. 結論

本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。

付費5元查看完整內容

運用邏輯推理能力進行全面的自然語言理解嘗試。隨著生成預訓練Transformer 4(GPT-4)的發布,它在推理任務上被稱為“先進”的,我們渴望了解GPT-4在各種邏輯推理任務上的表現。本報告分析了多個邏輯推理數據集,包括流行的基準數據集如LogiQA和ReClor,以及新發布的數據集如ARLSAT。我們使用需要邏輯推理的基準測試多選閱讀理解和自然語言推理任務。我們進一步構建了一個邏輯推理的分布外數據集,以調研ChatGPT和GPT-4的魯棒性。我們還對ChatGPT和GPT-4的性能進行了比較。實驗結果表明,在大多數邏輯推理基準測試中ChatGPT的表現明顯優于RoBERTa微調方法。在我們的手動測試中,GPT-4表現得更好。在這些基準測試中,ChatGPT和GPT-4在知名數據集如LogiQA和ReClor上表現相對較好。然而,在處理新發布和分布外的數據集時,性能顯著下降。對于ChatGPT和GPT-4來說,邏輯推理仍然具有挑戰性,尤其是在分布外自然語言推理數據集上。

1. 引言

邏輯推理對人類智能至關重要,將邏輯推理能力納入自然語言理解(NLU)系統自人工智能開始以來一直是一個活躍的研究興趣(Cresswell, 1973) (Kowalski, 1979) (Iwanska′,1993)。研究人員一直在探索實現這一目標的各種方法,包括基于規則的方法、符號系統(MacCartney和Manning, 2007a)、微調大型語言模型(Wang等人,2018),以及結合神經和符號方法(Li和Srikumar, 2019)。

在傳統的邏輯和語義方法中,計算語言學家開發了利用一階邏輯(FOL)或自然邏輯(macaccartney和Manning, 2007a)的符號系統來解決基本的推理任務。基于規則的模型很難用手工制定的規則和定理證明器來解決諸如RTE挑戰(Dagan等人,2005年)等問題。早期研究人員采用的形式邏輯推理提出了符號系統和手工設計的規則,其中知識使用形式邏輯或其他符號表示顯式地表示。通過規則,系統可以進行演繹操作。然而,這些方法在處理模糊性和可擴展性方面面臨挑戰。它們在處理真實世界的自然語言數據時很脆弱。

神經網絡模型時代看到了大規模NLI數據集的興起作為流行基準。例如,SNLI (Bowman等人,2015)和多流派NLI (MNLI) (Williams等人,2018)數據集是通過眾包創建的,具有巨大的數據規模和廣泛的覆蓋面。它們促進了具有更好表示能力的模型的發展,并成為自然語言理解研究的首選基準。隨著基于transformer (Vaswani et al., 2017)的語言模型(如BERT (Devlin et al., 2018)的出現,模型性能的巨大飛躍,這些模型的訓練方案使它們能夠訪問巨大的未標記語料庫。因此,構建具有數萬億參數的語言模型成為可能(Brown et al., 2020) (Raffel et al., 2019)。預訓練和微調的范式自此成為文本推理任務的主要解決方案。研究人員在對大規模文本語料庫進行預訓練后,對特定任務數據集的語言模型進行微調。大型預訓練語言模型(LMs)在流行的NLI和MRC基準上取得了超越人類的表現,這促使人們在文本推理方面進行更復雜的基準測試。

隨著最近幾個數據集的發布,邏輯推理NLP研究重新獲得了勢頭,特別是LogiQA和Reclor。數據集來自中國公務員考試和法學院入學考試(LSAT)等邏輯推理考試。這些測試即使對人類來說也是具有挑戰性的,并且是高質量的Golden標記數據。邏輯推理被用于大型預訓練語言模型(PLM)的許多探測任務和問答和對話系統等下游任務中。與傳統基準相比,PLM表現不佳。盡管到目前為止取得了進展,但在NLU系統中實現類似人類的邏輯推理能力仍然是一項具有挑戰性的任務。生成式預訓練Transformer 4 (GPT-4) (OpenAI, 2023)以及ChatGPT是OpenAI新發布的語言模型,旨在理解和生成多模態內容。GPT-4在需要邏輯推理的任務中具有更強大的能力。邏輯推理對人類的智能至關重要,它使我們能夠根據給定的信息得出結論、做出預測并解決問題。將邏輯推理納入到語言模型中,如GPT-4,可以徹底改變自然語言理解(NLU)系統,使其更準確,更魯棒,并能夠理解自然語言中的復雜信息。

對ChatGPT和GPT-4在邏輯推理任務上的性能進行了評估,探索了它們在多個邏輯推理基準上的性能,詳細分析了ChatGPT和GPT-4在邏輯推理任務上的優勢和局限性。我們將討論評估GPT-4邏輯推理能力的兩個任務:多項選擇閱讀理解和自然語言推理。這兩個任務都是推理繁重的,并可作為測試模型推理能力的游樂場。在這兩種任務下,已經發布了多個邏輯推理數據集。事實證明,這些基準對于PLM來說很難解決。希望該報告能進一步揭示ChatGPT和GPT-4的邏輯推理能力。我們的貢獻如下:

  1. 在兩個邏輯推理任務上測試了ChatGPT和GPT-4:多項選擇閱讀理解和自然語言推理。在多個邏輯推理測試集上進行實驗,分析ChatGPT和GPT-4的邏輯推理能力。
  2. 該文構建了一個分布外邏輯推理數據集,進一步研究了ChatGPT和GPT-4的魯棒性。
  3. 實驗表明,ChatGPT和GPT-4都擅長解決著名的邏輯推理閱讀理解基準,但在處理分布外數據集方面很困難。它們在需要邏輯推理的自然語言推理任務上的性能仍有待提高。

2. 實驗設置

考慮多項選擇閱讀理解和自然語言推理任務進行評估。多項選擇閱讀理解在大型語言模型上進行了大量測試,因為這些任務通常具有結構清晰和高質量的數據集。另一方面,自然語言推理任務是評估推理能力的基本任務。

**表1顯示了多項選擇閱讀理解數據集的結果。**ChatGPT顯示,在幾個長期基準上,與基線模型相比,性能有所提高。在LogiQA 2.0測試集上準確率達到53.37%,比RoBERTa基礎模型高出近4個點。在中文LogiQA 2.0版本上進行測試時,ChatGPT與RoBERTa的性能差距較大,表明ChatGPT在中、英文語言上的性能具有一致性。ChatGPT在ReClor數據集上取得了57.38%的準確率,而RoBERTa的準確率為55.01%。然而,ChatGPT在分布外的數據集上的性能會大幅下降。在AR-LSAT測試集上,準確率僅為20.42%,低于RoBERTa base的性能。在LogiQA 2.0 ood上的性能為38.44%,仍然低于RoBERTa base。實驗結果表明,ChatGPT在LogiQA和ReClor等邏輯推理系統中表現良好。ChatGPT的準確性略高于微調方法。然而,在新發布的AR-LSAT數據集和LogiQA 2.0分布外數據集上進行測試時,性能明顯下降。

盡管有局限性,ChatGPT仍然代表了自然語言理解的重大進步,并展示了語言模型進行邏輯推理的潛力。在LogiQA和ReClor上進行手動測試時,GPT-4的性能明顯優于ChatGPT。在LogiQA 2.0測試集上,GPT-4的準確率為75.26%。然而,在中文LogiQA 2.0測試集上,GPT-4在中文版本數據集上的準確率下降明顯,達到了51.76%。在ReClor開發集上(ReClor在其測試中也不包括黃金標簽),GPT-4達到了92.00%的準確率,這是顯著的。然而,當在AR-LSAT測試集上進行測試時,GPT-4的表現令人驚訝地更差,只有18.27%的準確率。在LogiQA 2.0 ood數據集上的測試結果表明,GPT-4的正確率僅為48.21%,明顯低于在ReClor數據集上的正確率。我們不會急于得出結論,但可以肯定地說,GPT-4在分布外數據集上的性能下降是明顯的。

在自然語言推理任務上的實驗結果表2展示了在自然語言推理數據集上的結果。在邏輯推理NLI數據集上,ChatGPT的性能優于RoBERTa模型。在對照測試集(805個實例)上,準確率達到58.45%,比RoBERTa-base模型高出近10%。在ConjNLI測試集(623個實例)上,ChatGPT的準確率為47.03%,比RoBERTa高出約9%。在HELP數據集(35891個實例)上,ChatGPT獲得了42.31%的準確率,比RoBERTa高出約3個點。在MED數據集(5382個實例)上,ChatGPT的準確率為55.02%,比RoBERTa高出近9%。在TaxiNLI測試集(10071個實例)上,ChatGPT取得了57.30%的準確率,比RoBERTa算法提高了7%以上。由于我們注意到ChatGPT不擅長遵循NLI任務指令,因此我們提供了一個上下文示例來幫助模型生成任務標簽,如圖2所示。總的來說,結果表明,與在閱讀理解任務上的表現相比,ChatGPT僅以很小的優勢超過微調后的RoBERTa。

我們在五個NLI數據集上測試了GPT-4的性能。一般來說,GPT-4的性能比ChatGPT好,但結果并不令人驚訝。在對照測試集上,GPT-4的表現與ChatGPT相當,獲得了58.18%的準確率。在ConjNLI測試集和HELP上的準確率分別為61.00%和53.33%,表現略好。在MED和TaxiNLI數據集上的性能較好,分別達到了75.79%和75.47%。在5個NLI數據集上的實驗結果表明,與多項選擇閱讀理解相比,GPT-4在邏輯推理和自然語言推理上并沒有表現出令人印象深刻的性能。在自然語言推理任務場景中,即使提供了指令,GPT-4也不能穩定地輸出標簽。由此我們可以推斷,雖然GPT-4在多項選擇閱讀理解任務中訓練得很好,但在自然語言推理任務中卻不擅長遵循指令。

實驗結果表明,ChatGPT和GPT-4在大多數邏輯推理基準測試上優于RoBERTa,包括流行的LogiQA和ReClor以及不太知名的AR-LSAT數據集。然而,對于兩個GPT模型來說,分布外數據集的性能下降是明顯的,這表明它們很難處理新的和不熟悉的數據

付費5元查看完整內容

知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

 知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。

概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。

付費5元查看完整內容
北京阿比特科技有限公司