運用邏輯推理能力進行全面的自然語言理解嘗試。隨著生成預訓練Transformer 4(GPT-4)的發布,它在推理任務上被稱為“先進”的,我們渴望了解GPT-4在各種邏輯推理任務上的表現。本報告分析了多個邏輯推理數據集,包括流行的基準數據集如LogiQA和ReClor,以及新發布的數據集如ARLSAT。我們使用需要邏輯推理的基準測試多選閱讀理解和自然語言推理任務。我們進一步構建了一個邏輯推理的分布外數據集,以調研ChatGPT和GPT-4的魯棒性。我們還對ChatGPT和GPT-4的性能進行了比較。實驗結果表明,在大多數邏輯推理基準測試中,ChatGPT的表現明顯優于RoBERTa微調方法。在我們的手動測試中,GPT-4表現得更好。在這些基準測試中,ChatGPT和GPT-4在知名數據集如LogiQA和ReClor上表現相對較好。然而,在處理新發布和分布外的數據集時,性能顯著下降。對于ChatGPT和GPT-4來說,邏輯推理仍然具有挑戰性,尤其是在分布外自然語言推理數據集上。
1. 引言
邏輯推理對人類智能至關重要,將邏輯推理能力納入自然語言理解(NLU)系統自人工智能開始以來一直是一個活躍的研究興趣(Cresswell, 1973) (Kowalski, 1979) (Iwanska′,1993)。研究人員一直在探索實現這一目標的各種方法,包括基于規則的方法、符號系統(MacCartney和Manning, 2007a)、微調大型語言模型(Wang等人,2018),以及結合神經和符號方法(Li和Srikumar, 2019)。
在傳統的邏輯和語義方法中,計算語言學家開發了利用一階邏輯(FOL)或自然邏輯(macaccartney和Manning, 2007a)的符號系統來解決基本的推理任務。基于規則的模型很難用手工制定的規則和定理證明器來解決諸如RTE挑戰(Dagan等人,2005年)等問題。早期研究人員采用的形式邏輯推理提出了符號系統和手工設計的規則,其中知識使用形式邏輯或其他符號表示顯式地表示。通過規則,系統可以進行演繹操作。然而,這些方法在處理模糊性和可擴展性方面面臨挑戰。它們在處理真實世界的自然語言數據時很脆弱。
神經網絡模型時代看到了大規模NLI數據集的興起作為流行基準。例如,SNLI (Bowman等人,2015)和多流派NLI (MNLI) (Williams等人,2018)數據集是通過眾包創建的,具有巨大的數據規模和廣泛的覆蓋面。它們促進了具有更好表示能力的模型的發展,并成為自然語言理解研究的首選基準。隨著基于transformer (Vaswani et al., 2017)的語言模型(如BERT (Devlin et al., 2018)的出現,模型性能的巨大飛躍,這些模型的訓練方案使它們能夠訪問巨大的未標記語料庫。因此,構建具有數萬億參數的語言模型成為可能(Brown et al., 2020) (Raffel et al., 2019)。預訓練和微調的范式自此成為文本推理任務的主要解決方案。研究人員在對大規模文本語料庫進行預訓練后,對特定任務數據集的語言模型進行微調。大型預訓練語言模型(LMs)在流行的NLI和MRC基準上取得了超越人類的表現,這促使人們在文本推理方面進行更復雜的基準測試。
隨著最近幾個數據集的發布,邏輯推理NLP研究重新獲得了勢頭,特別是LogiQA和Reclor。數據集來自中國公務員考試和法學院入學考試(LSAT)等邏輯推理考試。這些測試即使對人類來說也是具有挑戰性的,并且是高質量的Golden標記數據。邏輯推理被用于大型預訓練語言模型(PLM)的許多探測任務和問答和對話系統等下游任務中。與傳統基準相比,PLM表現不佳。盡管到目前為止取得了進展,但在NLU系統中實現類似人類的邏輯推理能力仍然是一項具有挑戰性的任務。生成式預訓練Transformer 4 (GPT-4) (OpenAI, 2023)以及ChatGPT是OpenAI新發布的語言模型,旨在理解和生成多模態內容。GPT-4在需要邏輯推理的任務中具有更強大的能力。邏輯推理對人類的智能至關重要,它使我們能夠根據給定的信息得出結論、做出預測并解決問題。將邏輯推理納入到語言模型中,如GPT-4,可以徹底改變自然語言理解(NLU)系統,使其更準確,更魯棒,并能夠理解自然語言中的復雜信息。
對ChatGPT和GPT-4在邏輯推理任務上的性能進行了評估,探索了它們在多個邏輯推理基準上的性能,詳細分析了ChatGPT和GPT-4在邏輯推理任務上的優勢和局限性。我們將討論評估GPT-4邏輯推理能力的兩個任務:多項選擇閱讀理解和自然語言推理。這兩個任務都是推理繁重的,并可作為測試模型推理能力的游樂場。在這兩種任務下,已經發布了多個邏輯推理數據集。事實證明,這些基準對于PLM來說很難解決。希望該報告能進一步揭示ChatGPT和GPT-4的邏輯推理能力。我們的貢獻如下:
2. 實驗設置
考慮多項選擇閱讀理解和自然語言推理任務進行評估。多項選擇閱讀理解在大型語言模型上進行了大量測試,因為這些任務通常具有結構清晰和高質量的數據集。另一方面,自然語言推理任務是評估推理能力的基本任務。
**表1顯示了多項選擇閱讀理解數據集的結果。**ChatGPT顯示,在幾個長期基準上,與基線模型相比,性能有所提高。在LogiQA 2.0測試集上準確率達到53.37%,比RoBERTa基礎模型高出近4個點。在中文LogiQA 2.0版本上進行測試時,ChatGPT與RoBERTa的性能差距較大,表明ChatGPT在中、英文語言上的性能具有一致性。ChatGPT在ReClor數據集上取得了57.38%的準確率,而RoBERTa的準確率為55.01%。然而,ChatGPT在分布外的數據集上的性能會大幅下降。在AR-LSAT測試集上,準確率僅為20.42%,低于RoBERTa base的性能。在LogiQA 2.0 ood上的性能為38.44%,仍然低于RoBERTa base。實驗結果表明,ChatGPT在LogiQA和ReClor等邏輯推理系統中表現良好。ChatGPT的準確性略高于微調方法。然而,在新發布的AR-LSAT數據集和LogiQA 2.0分布外數據集上進行測試時,性能明顯下降。
盡管有局限性,ChatGPT仍然代表了自然語言理解的重大進步,并展示了語言模型進行邏輯推理的潛力。在LogiQA和ReClor上進行手動測試時,GPT-4的性能明顯優于ChatGPT。在LogiQA 2.0測試集上,GPT-4的準確率為75.26%。然而,在中文LogiQA 2.0測試集上,GPT-4在中文版本數據集上的準確率下降明顯,達到了51.76%。在ReClor開發集上(ReClor在其測試中也不包括黃金標簽),GPT-4達到了92.00%的準確率,這是顯著的。然而,當在AR-LSAT測試集上進行測試時,GPT-4的表現令人驚訝地更差,只有18.27%的準確率。在LogiQA 2.0 ood數據集上的測試結果表明,GPT-4的正確率僅為48.21%,明顯低于在ReClor數據集上的正確率。我們不會急于得出結論,但可以肯定地說,GPT-4在分布外數據集上的性能下降是明顯的。
在自然語言推理任務上的實驗結果表2展示了在自然語言推理數據集上的結果。在邏輯推理NLI數據集上,ChatGPT的性能優于RoBERTa模型。在對照測試集(805個實例)上,準確率達到58.45%,比RoBERTa-base模型高出近10%。在ConjNLI測試集(623個實例)上,ChatGPT的準確率為47.03%,比RoBERTa高出約9%。在HELP數據集(35891個實例)上,ChatGPT獲得了42.31%的準確率,比RoBERTa高出約3個點。在MED數據集(5382個實例)上,ChatGPT的準確率為55.02%,比RoBERTa高出近9%。在TaxiNLI測試集(10071個實例)上,ChatGPT取得了57.30%的準確率,比RoBERTa算法提高了7%以上。由于我們注意到ChatGPT不擅長遵循NLI任務指令,因此我們提供了一個上下文示例來幫助模型生成任務標簽,如圖2所示。總的來說,結果表明,與在閱讀理解任務上的表現相比,ChatGPT僅以很小的優勢超過微調后的RoBERTa。
我們在五個NLI數據集上測試了GPT-4的性能。一般來說,GPT-4的性能比ChatGPT好,但結果并不令人驚訝。在對照測試集上,GPT-4的表現與ChatGPT相當,獲得了58.18%的準確率。在ConjNLI測試集和HELP上的準確率分別為61.00%和53.33%,表現略好。在MED和TaxiNLI數據集上的性能較好,分別達到了75.79%和75.47%。在5個NLI數據集上的實驗結果表明,與多項選擇閱讀理解相比,GPT-4在邏輯推理和自然語言推理上并沒有表現出令人印象深刻的性能。在自然語言推理任務場景中,即使提供了指令,GPT-4也不能穩定地輸出標簽。由此我們可以推斷,雖然GPT-4在多項選擇閱讀理解任務中訓練得很好,但在自然語言推理任務中卻不擅長遵循指令。
實驗結果表明,ChatGPT和GPT-4在大多數邏輯推理基準測試上優于RoBERTa,包括流行的LogiQA和ReClor以及不太知名的AR-LSAT數據集。然而,對于兩個GPT模型來說,分布外數據集的性能下降是明顯的,這表明它們很難處理新的和不熟悉的數據。
這篇論文對大型語言模型(LLMs)在知識圖譜(KG)構建和推理中的作用進行了詳盡的定量和定性評估。我們使用了八個不同的數據集,涵蓋了實體、關系和事件提取,鏈接預測,和問題回答等方面。實證上,我們的發現表明,GPT-4在大多數任務中表現優于ChatGPT,甚至在某些推理和問題回答的數據集中超過了微調模型。此外,我們的綜述還擴展到了LLMs在信息提取方面的潛在泛化能力,這在虛擬知識提取任務的介紹和VINE數據集的開發中達到了高潮。依據這些實證發現,我們進一步提出了AutoKG,這是一種使用LLMs進行KG構建和推理的多智能體方法,旨在勾畫出這個領域的未來并提供激動人心的進步機會。我們期待我們的研究能為未來的KG的實踐提供寶貴的見解。
1. 引言
知識圖譜(KG)是一個由實體、概念和關系組成的語義網絡(Cai et al., 2022;Chen et al., 2023;Zhu et al., 2022;Liang et al., 2022),它可以催化各種場景的應用,如推薦系統、搜索引擎和問題回答系統(Zhang et al., 2021)。通常,KG構建(Ye et al., 2022b)包括幾個任務,包括命名實體識別(NER)(Chiu和Nichols,2016),關系提取(RE)(Zeng et al., 2015;Chen et al., 2022),事件提取(EE)(Chen et al., 2015;Deng et al., 2020),和實體鏈接(EL)(Shen et al., 2015)。另一方面,KG推理,通常被稱為鏈接預測(LP),在理解這些構建的KG中起著關鍵的作用(Zhang et al., 2018;Rossi et al., 2021)。此外,KG可以被用于問題回答(QA)任務(Karpukhin et al., 2020;Zhu et al., 2021),通過對與問題相關的關系子圖的推理。
早期,知識圖譜的構建和推理主要依賴于監督學習方法。然而,近年來,隨著大型語言模型(LLMs)的顯著進步,研究人員已經注意到它們在自然語言處理(NLP)領域的卓越能力。盡管有許多關于LLMs的研究(Liu et al., 2023;Shakarian et al., 2023;Lai et al., 2023),但在知識圖譜領域系統地探索它們的應用仍然有限。為了解決這個問題,我們的工作研究了LLMs(如ChatGPT和GPT-4,OpenAI,2023)在知識圖譜構建、知識圖譜推理任務中的潛在應用性。通過理解LLMs的基本能力,我們的研究進一步深入了解了該領域的潛在未來方向。
圖1:我們工作的概述。主要有三個部分:1)基礎評估:詳細說明了我們對大型模型(text-davinci-003,ChatGPT和GPT-4)的評估,無論是在零次還是一次設置中,都使用完全監督的最先進模型的性能數據作為基準;2)虛擬知識提取:檢查大型模型在構建的VINE數據集上的虛擬知識能力;3)AutoKG:提出利用多個代理來促進知識圖譜的構建和推理。
具體來說,如圖1所示,我們首先調研了LLMs在實體、關系和事件提取,鏈接預測,和問題回答方面的零樣本和一次樣本性能,以評估它們在知識圖譜領域的潛在應用。實證發現表明,盡管LLMs在知識圖譜構建任務中的性能有所提升,但仍落后于最先進的(SOTA)模型。然而,LLMs在推理和問題回答任務中表現出相對優越的性能。這表明它們擅長處理復雜問題,理解上下文關系,并利用預訓練過程中獲取的知識。因此,像GPT-4這樣的LLMs作為少次信息提取器的效果有限,但作為推理助手的熟練程度相當高。為了進一步研究LLMs在信息提取任務上的表現,我們設計了一個新的任務,稱為“虛擬知識提取”。這個任務旨在判斷性能的觀察到的改進是來自LLMs內在的廣泛知識庫,還是來自于指導調整和人類反饋的強化學習(RLHF)(Christiano et al., 2017)所促進的強大泛化能力。在新建的VINE數據集上的實驗結果表明,像GPT-4這樣的LLMs可以迅速從指令中獲取新的知識,并有效地完成相關的提取任務。 在這些實證發現中,我們認為LLMs對指令的極大依賴使得為知識圖譜的構建和推理設計合適的提示變得費時費力。為了促進進一步的研究,我們引入了AutoKG的概念,它使用多個LLMs的代理自動進行知識圖譜的構建和推理。
總的來說,我們的研究做出了以下貢獻:
我們評估了LLMs,包括GPT-3.5, ChatGPT, GPT-4,通過在八個基準數據集上評估它們在知識圖譜構建和推理的零樣本和一樣本性能,提供了對它們能力的初步理解。
我們設計了一個新的虛擬知識提取任務,并構建了VINE數據集。通過評估LLMs在這個數據集上的性能,我們進一步展示了像GPT-4這樣的LLMs具有強大的泛化能力。
我們引入了使用交際代理自動進行知識圖譜構建和推理的概念,稱為AutoKG。利用LLMs的知識庫,我們使多個LLMs的代理能夠通過迭代對話協助知識圖譜的構建和推理過程,為未來的研究提供了新的洞察。
**LLMs在知識圖譜構建和推理方面的新能力 **
最近,LLMs的出現給NLP領域注入了活力。為了探索LLMs在知識圖譜領域的潛在應用,我們選擇了代表性的模型,即ChatGPT和GPT-4。我們在知識圖譜構建和推理領域的八個不同數據集上對它們的性能進行了全面評估。
**2.1 評估原則 **
在這項研究中,我們對LLMs在各種知識圖譜相關任務上進行了系統評估。首先,我們評估了這些模型在zero-shot和one-shotNLP任務中的能力。我們的主要目標是在面對有限數據時檢查它們的泛化能力,以及在沒有示范的情況下使用預訓練知識有效推理的能力。其次,根據評估結果,我們對導致模型在不同任務中表現不同的因素進行了全面分析。我們旨在探究它們在某些任務中表現優越的原因和潛在缺陷。通過比較和總結這些模型的優點和限制,我們希望提供可能指導未來改進的洞察。
2.2 知識圖譜的構建和推理
2.2.1 設置
實體、關系和事件提取。DuIE2.0 (Li et al., 2019)代表了業界最大的基于模式的中文關系提取數據集,包括超過210,000個中文句子和48個預定義的關系類別。SciERC (Luan et al., 2018)是一組注釋了七種關系的科學摘要。Re-TACRED (Stoica et al., 2021)是TACRED關系提取數據集的顯著改進版本,包含超過91,000個分布在40個關系中的句子。MAVEN (Wang et al., 2020)是一個包含4,480份文件和168種事件類型的通用領域事件提取基準。
鏈接預測 FB15K-237 (Toutanova et al., 2015)廣泛用作評估知識圖譜嵌入模型在鏈接預測上的性能的基準,包括237個關系和14,541個實體。ATOMIC 2020 (Hwang et al., 2021a)是一個全面的常識倉庫,包含關于實體和事件的133萬條推理知識元組。
問答 FreebaseQA (Jiang et al., 2019)是一個基于Freebase知識圖譜構建的開放領域QA數據集,專為知識圖譜QA任務設計。這個數據集包括從各種來源(如TriviaQA數據集等)收集的問題-答案對。MetaQA (Zhang et al., 2018)數據集,從WikiMovies (Miller et al., 2016)數據集擴展,提供了大量的單跳和多跳問題-答案對,總數超過400,000個。
2.2.2 總體結果
實體和關系提取 我們在SciERC, Re-TACRED, 和DuIE2.0上進行實驗,每個實驗涉及到測試/驗證集的20個樣本,并使用標準的micro F1分數進行評估。在此我們分別在每個數據集上使用PaddleNLP LIC2021 IE2,PL-Marker (Ye et al., 2022a)和EXOBRAIN (Park and Kim, 2021)作為基線。如表1所示,GPT-4在這些學術基準提取數據集上無論是zero-shot還是one-shot都取得了相對良好的性能。與ChatGPT相比,它也有所進步,盡管其性能還沒有超過完全監督的小模型。
事件提取 我們在MAVEN數據集的20個隨機樣本上進行事件檢測的實驗。此外,我們使用Wang等人(2022a)的研究作為先前經過微調的SOTA。同時,即使沒有演示,GPT-4也已經取得了值得稱贊的結果。在這里,我們使用F-分數作為評估指標。
鏈接預測任務 鏈接預測任務包括在兩個不同的數據集FB15k-237和ATOMIC2020上進行的實驗。前者是包含25個實例的隨機樣本集,而后者包含23個代表所有可能關系的實例。在各種方法中,最好的微調模型是FB15k-237的C-LMKE (BERT-base) (Wang et al., 2022c)和ATOMIC2020的COMET (BART) (Hwang et al., 2021b)。
問題回答 我們在兩個廣泛使用的知識庫問題回答數據集上進行評估:FreebaseQA和MetaQA。我們從每個數據集中隨機抽取20個實例。對于MetaQA,由于它由不同跳數的問題組成,我們根據它們在數據集中的比例進行抽樣。我們用于兩個數據集的評估指標是AnswerExactMatch。
在涵蓋知識圖譜構建和知識圖譜推理的實驗中,大型語言模型(LLMs)通常在推理能力上表現優于它們的構建能力。對于知識圖譜的構建任務,無論是在 zero-shot 或 one-shot 的情況下,LLMs的表現都沒有超過當前最先進模型的表現。這與之前在信息提取任務上進行的實驗(Ma等人,2023)保持一致,這些實驗表明,大型語言模型通常并不擅長進行少樣本的信息提取。相反,在知識圖譜推理任務中,所有LLMs在one-shot設置中,以及GPT-4在zero-shot設置中,都達到了最先進(SOTA)的表現。這些發現為增強我們對大型模型的性能和它們在知識圖譜領域內的適應性的理解提供了有意義的見解。我們提出了對這種現象的幾種可能解釋:首先,知識圖譜構建任務包括識別和提取實體、關系、事件等,使得它比推理任務更為復雜。相反,推理任務,以鏈接預測為典型,主要依賴于已有的實體和關系進行推斷,使得任務相對直接。其次,我們推測LLMs在推理任務中表現優異可能歸因于它們在預訓練階段接觸到的相關知識。
3 未來機遇:自動化知識圖譜構建和推理
最近,大型語言模型(LLMs)引起了相當大的關注,并在各種復雜任務中展示了精通的能力。然而,像ChatGPT這樣的技術的成功,仍然主要依賴于大量的人力輸入,以引導對話文本的生成。隨著用戶逐步精細化任務描述和要求,并與ChatGPT建立對話環境,模型能夠提供越來越精確、高質量的回應。然而,從模型開發的角度看,這個過程仍然是勞動密集型和耗時的。因此,研究人員已經開始研究使大型模型能夠自主生成指導文本的可能性。例如,AutoGPT可以獨立生成提示,并執行像事件分析、營銷計劃創建、編程和數學操作等任務。同時,Li等人(2023)深入研究了交際代理之間自主合作的可能性,并介紹了一個名為角色扮演的新型合作代理框架。這個框架使用啟示性提示,以確保與人類意圖的一致性。在此研究基礎上,我們進一步詢問:是否可行使用交際代理來完成知識圖譜的構建和推理任務?
在這個實驗中,我們使用了CAMEL(Li等人,2023)中的角色扮演方法。如圖6所示,AI助手被指定為顧問,AI用戶被指定為知識圖譜領域專家。在收到提示和指定的角色分配后,任務指定代理提供詳細的描述以具體化概念。在此之后,AI助手和AI用戶在多方設置中協作完成指定的任務,直到AI用戶確認其完成。實驗示例表明,使用多代理方法,與電影《綠皮書》相關的知識圖譜被更有效、更全面地構建。這個結果也強調了基于LLM的代理在構建和完成知識圖譜方面的優越性。
通過結合人工智能和人類專業知識的努力,AutoKG可以快速定制領域特定的知識圖譜。該系統允許領域專家與機器學習模型進行交互,從而通過交換專家知識和經驗,促進領域特定知識圖譜的構建的協作環境。此外,AutoKG可以有效地利用人類專家的領域知識,生成高質量的知識圖譜。同時,通過這種人機協作,它可以在處理領域特定任務時,提高大型語言模型的事實準確性。反過來,這個目標預計將增加模型的實用價值。 AutoKG不僅可以加快領域特定知識圖譜的定制,而且還可以增強大規模模型的透明度和體現代理的交互。更準確地說,AutoKG有助于深入理解大型語言模型(LLMs)的內部知識結構和運作機制,從而提高模型的透明度。此外,AutoKG可以作為一個合作的人機交互平臺,使人類和模型之間能夠進行有效的交流和互動。這種互動促進了對模型學習和決策過程的更好理解和指導,從而提高了模型在處理復雜任務時的效率和準確性。盡管我們的方法帶來了顯著的進步,但它并非沒有局限性,然而,這些局限性為進一步的探索和改進提供了機會:
API的使用受到最大Token限制的約束。目前,由于GPT-4 API不可用,正在使用的gpt-3.5-turbo受到最大token限制。這個約束影響了知識圖譜的構建,因為如果超過了這個限制,任務可能無法正確執行。現在,AutoKG在促進有效的人機交互方面表現出缺點。在任務完全由機器自主進行的情況下,人類不能及時糾正交流過程中的錯誤發生。相反,在機器通信的每一步中都涉及到人類,可以顯著增加時間和勞動成本。因此,確定人類介入的最佳時機對于知識圖譜的高效和有效的構建至關重要。大型語言模型(LLMs)的訓練數據是時間敏感的。未來的工作可能需要將來自互聯網的檢索特性納入考慮,以彌補當前大型模型在獲取最新或領域特定知識方面的不足。
4. 結論
在這篇論文中,我們初步調研了大型語言模型(LLMs),如GPT系列,在知識圖譜(KG)構建和推理等任務上的表現。盡管這些模型在這些任務上表現優秀,我們提出了這樣一個問題:LLMs在提取任務中的優勢是源于它們龐大的知識庫,還是源于它們強大的上下文學習能力?為了探索這個問題,我們設計了一個虛擬的知識提取任務,并為實驗創建了相應的數據集。結果表明,大型模型確實具有強大的上下文學習能力。此外,我們提出了一種利用多個代理完成KG構建和推理任務的創新方法。這種策略不僅減輕了人工勞動,也彌補了各個領域人類專業知識的匱乏,從而提高了LLMs的表現。盡管這種方法仍有一些局限性,但它為LLMs的未來應用的進步提供了新的視角。
大型語言模型(LLMs)在自然語言處理(NLP)領域憑借其出色的語言理解和生成能力取得了顯著進步。然而,由于受限于領域特定知識和詞匯的接觸,它們在長尾或領域特定任務的表現可能不盡如人意。此外,大多數最先進的(SOTA)LLMs缺乏透明度,只能通過API訪問,這阻礙了使用自定義數據進一步微調。而且,數據隱私是一個重要問題。為了應對這些挑戰,我們提出了一種創新的參數知識引導(PKG)框架,該框架為LLMs配備了一個知識引導模塊,以在運行時訪問相關知識,而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型,允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現,這些任務需要事實、表格、醫學和多模態知識。
//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e
1. 引言
諸如GPT3 [Brown et al., 2020]的大型語言模型(LLMs)在各種自然語言處理(NLP)任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練,從而使它們能夠將大量的隱式世界知識融入到其參數中。因此,LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如,它們可用于機器翻譯 [Jiao et al., 2023],段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力,LLMs為各種工業應用提供了新的機會,如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理(NLP)任務上表現出色,但在長尾或領域特定任務上,LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識,但這種知識可能對某些任務來說是有損失或不足的,導致準確度降低和效果不佳。此外,許多最先進(SOTA)的LLMs被認為是“黑箱”模型,只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外,能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據,將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。
最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識,以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果,但它還存在一些局限性。首先,它嚴重依賴外部知識來源,這些來源可能并不總是容易獲得或可用。此外,這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。
為了克服這些局限性,我們提出了一種名為參數知識引導(PKG)的新框架,它將檢索替換為生成,如圖1所示。PKG模塊是一個額外的背景知識生成模塊,使LLMs能夠在運行時訪問相關信息,而無需更新它們的參數。通過提供必要的知識,增強型LLMs可以在長尾或領域特定任務上取得更好的性能。
我們的PKG框架基于開源且免費使用的“白盒”小型語言模型,使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致,我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識,并且可以在離線情況下高效地進行更新。
我們的實驗表明,所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能,包括事實知識(FM2 [Eisenschlos et al., 2021], +7.9%)、表格知識(NQ-Table [Herzig et al., 2021], +11.9%)、醫學知識(MedMC-QA [Pal et al., 2022], +3.0%)和多模態知識(ScienceQA [Lu et al., 2022], +8.1%)。我們將我們的貢獻總結如下:
我們提出了一種創新的參數知識引導(PKG)框架,通過集成一個額外的背景知識生成模塊來增強語言模型(LMs)的能力。
我們引入了一種兩步知識對齊方法,將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調,并使參數模塊能夠進行高效的離線更新。
我們對各種下游任務進行了廣泛的實驗,以評估我們提出的PKG框架的有效性。這些實驗的結果表明,我們的PKG框架可以提高LLMs在這些任務上的能力。
2 參數化知識引導
在本節中,我們介紹了一種名為參數知識引導(PKG)的創新框架,旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊,該模塊與LLM集成,以在運行時提供相關知識,指導其推理。為實現這一目標,我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊,這些知識通常是長尾的或不存在于LLM的訓練數據中。然后,給定一個輸入問題或句子,PKG提供相應的背景文檔,擴展LLMs的輸入上下文,使它們能夠處理更廣泛的任務。
**2.1 導引器的知識對齊 **
針對特定任務或領域,我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示,我們將此過程分為兩個步驟。首先,我們收集有關目標任務/領域的原始數據,作為我們的知識來源。然后,我們將數據轉換為一組(指令,輸入,輸出)三元組。指令作為輸入的提示,并指導模塊與預期輸出對齊。接下來,采用這組三元組來調整我們的基本PKG模塊,優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識,并在運行時提供給LLMs。指令提示的示例是:
指令作為提示,指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示,提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出,我們以自回歸方式訓練基本的導引器模塊,其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成,基本模型就會演變成參數化知識導引器,可以根據相應的指令生成特定領域/任務的背景知識。
2.2 用PKG增強LLMs
在許多情況下,使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示,并請求LLMs使用API返回響應/答案。然而,這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制,一種常見的方法是為LLMs提供額外的上下文,使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下,我們增強輸入與領域特定的背景知識,擴展輸入上下文。這個補充信息作為LLMs的指南,使它們能夠訪問更豐富的任務上下文,從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是:
3 實驗
在本節中,評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較,表1和表2所示的結果表明,PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。
ChatGPT和GPT-4等大型語言模型(LLM)在NLP領域取得了重大進展。然而,它們記憶、表示和利用常識性知識的能力一直是LLM眾所周知的痛點。目前尚不清楚: **(1) GPTs能否有效地回答常識問題? (2) GPTs在常識方面有知識嗎?(3) GPTs是否意識到回答特定問題所需的基本常識知識? (4) GPTs能否有效地利用常識來回答問題?**為了評估上述常識問題,我們進行了一系列實驗來評估ChatGPT的常識能力,實驗結果表明: **(1) GPTs可以在常識任務中取得良好的QA準確性,同時在某些類型的知識上仍有困難。(2) ChatGPT知識豐富,能夠利用知識提示準確地生成大部分常識知識。(3) ChatGPT雖然知識豐富,但卻是一個缺乏經驗的常識問題求解器,**無法精確識別回答某一特定問題所需的常識知識,即ChatGPT并不精確知道回答一個問題需要哪些常識知識。上述發現提出了需要研究在LLM中利用常識知識的更好機制,如指令遵循、更好的常識指導等。
//www.zhuanzhi.ai/paper/a791ca0e145cf4259d9782292df2eaeb
1 引言
常識知識是人類認知的一個基本方面,它包括我們對世界的直覺理解和我們對世界的推理能力。它包括關于典型日常生活的空間、物理、社會、時間和心理方面的知識,以及對社會規范、信仰和價值觀的理解,以及預測和解釋人類行為的能力(Liu and Singh, 2004)。常識知識對于構建能夠理解和生成類人語言的NLP系統至關重要。盡管常識知識對許多任務都很重要,但在機器中獲取和表示常識知識一直是NLP中的一個長期挑戰(Li et al., 2021;Zhang et al., 2022),因為常識往往是隱式的,并依賴于上下文(Gordon和Van Durme, 2013;Shwartz和Choi, 2020)。近年來,人們對解決NLP模型的常識問題以及實現更類似人類的語言生成和理解的興趣越來越大(Bauer等人,2018;Wang等人,2020;江等,2021;劉等人,2021,2022)。 最近,大型語言模型(LLM)如GPT-3 (Brown et al., 2020)、ChatGPT和GPT-4在廣泛的NLP能力方面取得了顯著的成功,包括推理、上下文理解和思維鏈推理(Wei et al.,2022)。這些能力表明,大型語言模型具有一定程度的常識知識(West et al.,2022)。然而,常識問題往往被認為是大型語言模型的一個主要限制(Zhou等人,2020;Bhargava和Ng, 2022)。隨著這些模型變得越來越強大,目前仍不清楚它們在多大程度上能夠理解和推理常識知識邊緣。這就提出了幾個關鍵問題:
(1) GPTs能否有效地回答常識性問題?
(2) GPTs在常識方面知識淵博嗎?
(3) GPTs是否意識到回答特定問題所需的基本常識知識?
(4) GPTs能否有效地利用常識來回答問題?
回答這些問題對于理解LLM的能力和局限性,以及開發更好的方法來評估和提高它們在常識任務上的表現至關重要。
為了評估模型回答常識問題的能力,使用了11個常識問答數據集,涵蓋了8個不同的常識領域,包括物理、社會、時間和數值推理等。首先,我們要求模型回答這些問題,并評估其回答的準確性。為了評估大型語言模型是否理解了回答這些問題所需的常識知識,我們要求模型描述必要的知識,并評估描述是否準確。為了評估大型語言模型是否能夠回憶和描述回答問題所需的知識,我們要求模型是否知道必要的知識,并評估回答是否正確和相關。最后,為了評估模型是否可以利用常識知識進行推理,我們將之前實驗中產生的知識作為上下文,并要求模型再次回答問題。我們將它們的表現與使用黃金知識進行比較,并評估它們的推理過程是否可以有效地利用已識別的知識。
我們的實驗為大型語言模型的常識問題提供了見解: **(1)GPTs可以在常識任務中實現良好的QA準確性,而它們在某些類型的知識方面仍然很困難。(2) ChatGPT知識豐富,可以使用知識提示準確地生成大部分常識知識。****(3) ChatGPT是缺乏經驗的常識問題求解者,無法準確識別解決特定問題所需的常識知識。**此外,ChatGPT不能有效地利用上下文中的常識知識來回答特定問題。
本文的主要貢獻在于:
我們通過進行實驗詳細研究了大型語言模型的常識能力來回答4個關鍵問題。
我們設計了一系列實驗來評估ChatGPT記憶、表示和利用常識知識的能力,包括回答常識問題,識別和生成必要的知識,以及在其推理過程中利用常識知識。
通過確定ChatGPT在常識知識和推理能力方面的優勢和劣勢,我們為開發更高級的語言模型提供了見解,這些模型可以有效地利用和推理常識知識。
2 什么是常識
常識是“人類經驗的很大一部分,包括關于典型日常生活的空間、物理、社會、時間和心理方面的知識。(Liu and Singh, 2004;布拉赫曼和萊維斯克,2022年)。這種類型的知識通常被認為是理所當然的,通常是通過在特定文化中多年的經驗和社會化獲得的。為了幫助讀者更好地理解這一概念,我們總結了幾類主要的常識:一般常識:這類常識指的是被廣泛分享并被大多數人認為是正確的知識,例如太陽從東方升起,從西方落下。物理常識:這類常識涉及關于物理世界的知識,比如物體掉落時會落到地面,水會往下坡流。 社會常識:這類常識涉及社會規范、風俗習慣和實踐方面的知識,比如提出請求時說“請”和“謝謝”是禮貌的。 科學常識:這類常識涉及基本的科學概念和原理,例如地心引力將地球上的所有物體拉向地球中心。 事件常識:這類常識涉及到事件的先后順序以及它們之間的因果關系的知識,比如杯子被打翻了,里面的液體就會灑出來。 數值常識:這種類型的常識涉及有關數字的知識,例如人類有兩只手和十個手指。 原型常識:這類常識包括關于概念的典型或原型例子的知識,例如燕子是一種鳥,鳥有翅膀。時間常識:這類常識涉及時間知識,例如出國旅行比散步需要更長的時間。
3 GPTs能有效地回答常識問題嗎?
在這一節中,我們評估了LLM回答常識問題的表現。具體來說,我們使用了11個常識QA數據集,涵蓋了8個常識領域,包括通用、物理、社會、科學、事件、數值、原型和時間。這11個數據集是common - monsenseQA (Talmor等人,2019)、OpenBookQA (Mihaylov等人,2018)、WSC (Levesque等人,2012)、PIQA (Bisk等人,2020)、Social IQA (Sap等人,2019)、ARC (Clark等人,2018)、QASC (Khot等人,2020)、HellaSWAG (Zellers等人,2019)、NumerSense (Lin等人,2020)、ProtoQA (Boratko等人,2020)和MC-TACO (Zhou等人,2019)。數據集及其域,每個數據集都有一個示例,如表1所示。
我們從每個常識QA數據集的開發集中抽樣了100個問題用于評估,除了ProtoQA,它的開發集中只有52個問題。我們使用GPT-3 (davinci)、GPT- 3.5 (text-davinci-003)和ChatGPT作為用于評估的大型語言模型。對于GPT-3,我們使用4-shot in-context學習。對于GPT-3.5和ChatGPT,我們使用零樣本推理,并為不同的數據集設計提示模板。 結果如表2所示。從結果可以看出:
**GPTs能夠準確回答常識性問題。**我們在11個常識QA數據集上評估了不同LLM的性能。表2的結果顯示,GPT-3.5和ChatGPT都可以在大多數數據集上取得良好的性能。表現最好的數據集是ARC和ProtoQA, ChatGPT在這兩個數據集上的準確率分別達到了94%和94.2%。這些結果表明,像GPT-3.5和ChatGPT這樣的大型語言模型對于常識性問題是有效的問題解決器,可以在不同類型的常識性問題中提供準確的答案。 GPTs利用常識知識的能力可以通過指令調優和人類對齊來提高。我們比較了三種大型語言的性能表2中的models、GPT-3、GPT-3.5和ChatGPT。從結果中我們可以看到,GPT-3.5和Chat- GPT相比GPT-3取得了顯著的提升。這些結果表明,僅靠預訓練不足以學習利用知識。通過結合指令和對齊調整技術(歐陽等人,2022),模型可以更好地利用和推理常識知識。
**總的來說,ChatGPT在大多數領域取得了比GPT-3.5更高的準確率,證明了RLHF技術在增強知識利用能力方面的有效性。**然而,GPT-3.5在某些數據集上的表現略優于ChatGPT,包括CommonsenseQA和社交IQA。這是因為ChatGPT往往比較謹慎,在信息不足的情況下拒絕給出答案,導致出現“根據給出的信息,不可能確定……”這凸顯了在信息不充分的模型中,如何平衡謹慎和準確性的問題,還需要進一步研究。要實現這一點,需要模型理解回答問題所需的知識,并意識到模型是否擁有該知識。 **雖然GPTs在大多數常識知識領域表現良好,但在某些類型的知識方面仍存在困難。表2中的實驗表明,大型語言模型在社交、事件和時間常識QA(社交IQA、HellaSWAG和MC- TACO數據集)上滯后。**ChatGPT在這些數據集上的表現低于70%。這表明llm在社會、事件和時間常識知識上仍然存在缺陷。我們認為這是因為這些類型的常識知識需要對人類行為和社會互動有更深入的理解,而它們在文本語料庫中很少出現。這表明,當前的LLM需要在這些常識領域上進行改進,這需要模型超越表面的語義理解,學習人類行為。
4. GPTs是否意識到回答問題的常識知識?
在第3節中,我們發現GPTs在常識性QA數據集上表現良好。這引起了我們的探索,GPTs是經驗豐富的專家,他們知道需要什么知識,并可以利用這些知識進行問答,還是他們是缺乏經驗的問題解決者,依賴于記憶大量涵蓋問題的信息。 為了回答這個問題,我們從每個常識QA數據集中抽樣了20個問題,并詢問Chat- GPT“回答這個問題需要哪些知識?”對于有≥10個錯誤回答問題的數據集,我們抽樣10個正確回答問題和10個錯誤回答問題,否則,我們采取所有錯誤回答的問題,抽樣更多正確回答的問題,以填補這20個問題。 我們手動評估每個生成的回答的準確率和召回率,并使用F1分數作為衡量標準。例如,表3展示了ChatGPT的回答,描述了回答問題所需的知識。從ChatGPT的回應中,我們將知識1和知識3標記為回答問題有用,而知識2被過度泛化,知識4和知識5不是必需的。然后我們根據這2條知識判斷問題是否可回答,并進一步在人工評價中額外寫2條必要知識,知識a和知識b,這樣,這個回答的精確率為2/5,召回率為2/4,F1分數為44.44%。 結果如表4所示,
**ChatGPT是一個沒有經驗的問題解決者,它很難精確地識別回答特定問題所需的常識知識。**我們手動評估ChatGPT生成的必要知識,結果如表4所示。結果顯示,在大多數常識性QA數據集上,總體F1分數在40%到75%之間。這些結果表明,ChatGPT是一個經驗不足的問題解決者,無法準確識別回答特定常識問題所需的知識。
具體而言,該模型在科學領域表現相對較好,在ARC和QASC上分別取得了74.57%和76.13%的F1值。然而,該模型在社交領域和時間領域(即社交IQA和MC-TACO)上表現最低。F1分數的這種差異很可能是因為科學常識知識在文本語料庫中比社會和時間知識更普遍。例如,教科書經常討論“氣候由溫度和濕度描述”等科學概念,但很少提及“學生不喜歡參加大考”等社會規范,或“吃一頓飯不需要幾個月”等時間知識。這表明,像ChatGPT這樣的大型語言模型在社會和時間領域仍然存在局限性。因此,開發更有效的訓練策略來注入這些常識知識領域是很重要的。
GPTs無法有效區分回答特定問題的相關和不相關常識知識,通常會生成噪聲率較高的知識。我們在表4中評估了生成的必要知識的精確率和召回率。所有數據集的平均召回率為84.42%,平均精確率為55.88%。這表明,雖然模型可以識別出大多數問題的常識知識,但它很難準確識別出哪些知識對于回答特定的常識問題是必不可少的。該模型通常生成的知識是不相關的或過度泛化的。例如,表3中的知識2是過度泛化的,因為問題本身是“如何制作戶外枕頭”,而知識4和5考慮到兩種選擇之間的差異,就顯得不相關了。我們認為這是因為模型依賴的是關鍵詞和主題匹配,而不是對問題內部的邏輯關系的充分理解。這進一步證明了GPTs仍然是缺乏經驗的問題解決者。因此,llm需要增強對手頭任務的自我意識,并將關鍵信息與無關背景信息區分開來。例如,他們需要能夠判斷一個問題的哪些部分對決策是必要的,比如表3中的“吹進錫罐/垃圾袋”,哪些部分是無關的。
通過增強GPTs的知識意識(knowledge-awareness),即引導模型識別特定問題所需的知識,可以顯著提高GPTs的常識能力。在圖2中,我們繪制并分析了生成的必要知識的總體F1分數與答案之間的相關性ChatGPT的準確率。結果顯示準確率和知識F1有很強的相關性,皮爾遜系數為0.77。此外,表4顯示,正確回答問題的知識F1得分明顯高于錯誤回答問題的知識F1得分。這些發現表明,準確識別必要的知識對于正確回答常識問題至關重要。因此,增強模型對必要知識的自我意識,有可能提高其在包括常識QA在內的下游任務上的性能。
5 . GPTs了解常識嗎?
本節回答了這個問題:大型語言模型在多大程度上具有常識知識?為了回答這個問題,類似于Shwartz et al.(2020),我們根據第3節中生成的必要知識手動構建知識查詢提示。例如,如表5所示,基于表3中的知識1,我們將問題寫成“你對什么是戶外枕頭有了解嗎?”我們將這些提示輸入到ChatGPT中,并手動標注ChatGPT生成的每一個知識描述是否正確。
表5展示了一個知識查詢問題的示例和生成的知識描述。第一個描述說“向垃圾袋吹氣,用橡皮筋綁起來,可能會產生類似墊子的表面,但作為戶外枕頭,不太可能持久或舒適”,但在現實中,這是一種典型的做法。所以,這個描述被貼上了不正確的標簽。 結果如表6所示。從結果可以看出:
GPTs知識淵博,包含了準確回答問題所需的大部分常識知識。通過提出知識-查詢問題和手動評估ChatGPT的響應,我們評估了ChatGPT中必要知識的準確性。表6的結果顯示,ChatGPT生成的知識描述在大多數常識性QA數據集上都能達到70%以上的準確率,達到82.66%的平均準確率。這表明,在給定知識查詢問題的情況下,ChatGPT可以生成準確的常識知識描述。這表明llm可以作為常識知識庫,并為下游任務提供常識。然而,在社會領域的準確率較低,為54.92%。我們認為,這是因為社會常識,如“接受幫助的人,而不是給予幫助的人,應該說謝謝”,在文本中并不常見。這就突出了開發具體指導的重要性,可以指導ChatGPT獲取社會常識知識。 GPT包含誤導和過度泛化的常識知識。為了評估CommonsenseQA數據集上知識描述的相關性和信息量,我們進行了人工評估。結果顯示,26.25%的描述包含不相關和誤導性的信息,15.00%的描述過度泛化,未能提供回答問題所需的具體知識。例如,表5中的描述提到了“探索專門用于制作戶外枕頭的其他方法或材料”,這對于回答問題是沒有幫助和誤導性的。我們認為這是因為大型語言模型的訓練數據中存在噪聲和冗余信息,而損害對準確判斷信息相關性的能力。這些發現強調了ChatGPT需要生成具有相關性和信息量的知識描述,以確保生成的結果對回答問題具有實用價值。 在LLM中,了解和利用常識知識之間存在差距。為了探索生成的知識描述的準確性和答案準確性之間的關系,我們進行了相關性分析,并在圖3中繪制了結果。我們的結果顯示,兩個準確率之間存在微弱的相關性,皮爾遜系數為0.40。值得注意的是,雖然在社交IQA和MC-TACO數據集上的答案準確率都很低,但它們之間的知識描述準確率存在顯著差異:社交IQA的準確率很低(54.92%),但MC-TACO的準確率很高(86.25%)。表6進一步顯示,與第4節的結果相比,正確回答和錯誤回答的問題在描述準確率上的差異相對較小。這表明,好的知識描述并不一定能轉化為正確的答案。我們認為這是因為回答常識性問題不僅需要知識,還需要在信息不足的條件下進行推理和推理等其他能力。
6. GPTs可以有效地利用上下文中的常識進行推理嗎?
本節回答了一個問題:大型語言模型能否利用上下文中的常識知識進行推理和回答問題?為了回答這個問題,在回答了第4節中的知識查詢問題后,我們要求模型再次回答常識問題,并評估在描述必要的知識后答案是否會發生變化。表7展示了一個先前不正確的答案在生成知識描述后仍然保持不變的例子。 結果如表8所示。從結果可以看出: 如果我們只將生成的常識添加到問題上下文中,ChatGPT無法有效利用這些常識。我們對生成知識描述前后答案變化的分析表明,在大多數數據集上,使用生成的常識后并沒有明顯和一致的準確性提升 既有從錯誤到正確的變化,也有從正確到錯誤的變化,還有相當大比例的未改變的答案,如表7所示的例子。在社交IQA數據集的情況下,知識生成的準確性較低,導致更多的正確答案被修改為錯誤。這說明ChatGPT無法有效利用自身生成的知識描述來回答問題,知識生成的準確性對回答結果有巨大影響。我們認為這是因為模型已經擁有了生成的知識,因此添加冗余知識是沒有用的。 ChatGPT在常識QA方面的性能提升即使使用黃金知識也不顯著。我們為common - monsenseQA數據集使用了兩個人工標注的常識解釋數據集CoS-E (Rajani et al.,2019)和ECQA (Aggarwal et al., 2021)作為黃金知識作為上下文,并要求ChatGPT生成答案。我們發現,給出CoS-E解釋的只有4個錯誤→正確的答案,給出ECQA解釋的只有8個錯誤→正確的答案,而有一個正確→錯誤的答案。這表明ChatGPT并不能回答所有的問題即使給出真實知識的解釋,也能正確回答問題。我們認為這是因為大型語言模型缺乏使用知識進行復雜常識推理的能力,例如否定。例如,這里有一個需要否定推理的問題:“如果籃球上有一個洞,但它沒有失去它的一般形狀,那么關于籃球,有什么是不正確的?A.被刺破的,B.在美國流行的,C.充滿空氣的,D.消失了的,E.圓形的”。對這個問題的CoS-E解釋是:“任何有洞的物體都不能留住空氣。”,但ChatGPT仍然預測了錯誤的答案A,并解釋道:“如果籃球上有一個洞,它就被刺穿了,空氣就會從中逸出。”這些結果表明,大型語言模型需要進一步的指導和改進,以更好地利用和推理上下文中的常識性知識。
7 結論和討論
在本文中,我們調研了大型語言模型的常識能力,發現ChatGPT是一個有知識但沒有經驗的問題解決者:(1) 雖然GPTs可以在常識QA中取得很好的準確性,但他們仍然在某些類型的知識上掙扎,包括社會和時間常識。(2) ChatGPT在常識方面知識淵博,可以使用知識提示準確地生成大部分常識知識。(3) ChatGPT是一個缺乏經驗的常識問題求解者。它很難準確地識別給定問題的潛在常識知識,并且經常生成噪聲率很高的知識。此外,ChatGPT不能有效地利用上下文中的常識知識來回答常識問題。 上述發現為未來的工作提出了幾個有希望的方向: **(1) 雖然目前的GPTs知識豐富,但他們仍然沒有經驗解決問題。**因此,研究在LLM中利用常識知識的更好機制至關重要,如指令調優、更好的常識引導推理等。 (2) LLM中仍然缺少幾種類型的常識知識,如社會和時間常識。因此,為這些知識類型設計知識注入方法至關重要。此外,重要的是設計輕量級的常識更新方法,以保持知識的最新。 **(3) 由于ChatGPT和GPT-4不會公布它們的全部細節,**比如訓練數據、超參數和檢查點,評估一個“人工通用智能”模型是非常不同的,因此設計和構建覆蓋范圍更廣的基準至關重要,設計評估方法能夠對大型語言模型提供更全面和更公正的評估。
本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。
1. 引言
近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。
諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。
**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。
為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。
本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。
**總而言之,本綜述的主要貢獻是: **
(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。
2. 什么是自然語言推理
目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。
NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。
3. 為什么要用PLMs進行自然語言推理
預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。
4. 自然語言推理方法
在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。
給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。
5. 結論
在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。
為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?
**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。
**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。
本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。
**本文對OpenAI的ChatGPT[1]在機器人應用中的使用進行了實驗研究。**本文概述了一種策略,將prompt工程的設計原則和高級函數庫的創建相結合,使ChatGPT能夠適應不同的機器人任務、模擬器和形狀因素。重點評估了不同的提示工程技術和對話策略對執行各種類型的機器人任務的有效性。探討了ChatGPT使用自由形式對話、解析XML標簽和合成代碼的能力,以及使用特定任務的提示函數和通過對話進行閉環推理的能力。**本文研究涵蓋了機器人領域的一系列任務,從基本的邏輯、幾何和數學推理一直到復雜的領域,如空中導航、操縱和具身智能體。**ChatGPT可以有效地解決其中的幾個任務,同時允許用戶主要通過自然語言指令與之交互。此外,本文還介紹了一個名為PromptCraft的開源研究工具,其中包括一個研究人員可以協作上傳并投票的機器人應用程序的良好提示方案示例的平臺,以及一個集成ChatGPT的機器人模擬器示例,使用戶更容易開始使用ChatGPT機器人。
自然語言處理(NLP)的快速發展導致了大型語言模型(LLMs)的發展,如BERT[2]、GPT-3[3]和Codex[4],這些模型正在對廣泛的應用程序進行革命。這些模型在文本生成、機器翻譯和代碼合成等各種任務中都取得了顯著的效果。這個模型集合的最新成員是OpenAI ChatGPT[1],這是一個預訓練的生成文本模型,使用人類反饋進行了微調。與以前主要基于單個提示符操作的模型不同,ChatGPT通過對話提供了特別令人印象深刻的交互技能,結合了文本生成和代碼合成。我們在本文中的目標是研究ChatGPT的能力是否以及如何推廣到機器人領域。我們將ChatGPT的功能擴展到機器人領域,并使用語言直觀地控制了多個平臺,如機器人手臂、無人機和家庭助理機器人。
你有沒有想過用你自己的語言告訴機器人該做什么,就像你對人類做的那樣?如果只是告訴你的家庭機器人助手:“請把我的午餐熱一下”,然后讓它自己找到微波爐,這不是很神奇嗎?盡管語言是我們表達意圖最直觀的方式,但我們仍然嚴重依賴手寫代碼來控制機器人。我們的團隊一直在探索如何改變這一現實,并使用OpenAI的新AI語言模型ChatGPT使自然的人-機器人交互成為可能。
ChatGPT是一個在大量文本和人類交互語料庫上訓練的語言模型,它可以對各種各樣的提示和問題生成連貫且語法正確的回答。我們這項研究的目標是看看ChatGPT是否能超越文本思考,并對物理世界進行推理,以幫助機器人任務。我們希望幫助人們更容易與機器人互動,而不需要學習復雜的編程語言或機器人系統的細節。這里的關鍵挑戰是教ChatGPT如何解決問題,考慮物理定律,操作環境的上下文,以及機器人的物理行為如何改變世界的狀態。
近年來,在將語言納入機器人系統方面有不同的嘗試。這些工作主要集中在針對特定形式因素或場景使用語言token嵌入模型、LLM特征和多模態模型特征。應用范圍從視覺-語言導航[5,6],基于語言的人機交互[7,8]和視覺-語言操作控制[9,10,11]。然而,盡管在機器人中使用LLMs有潛在的優勢,但大多數現有方法都受到嚴格的范圍和有限的功能集的限制,或其開環性質的限制,不允許從用戶反饋中進行流動交互和行為糾正。當被要求進行高層智能體規劃[12,13]或代碼生成[14,15]時,GPT-3、LaMDA和Codex等模型也在零樣本機器人場景中顯示出希望。這些早期的演示啟發我們研究ChatGPT,將其作為機器人領域的一個潛在的更多功能的工具,因為它結合了自然語言和代碼生成模型的優勢以及對話的靈活性。ChatGPT能夠參與自由形式的對話和捕獲長上下文,允許用戶以更自然的方式與模型交互,并靈活地進行行為矯正。
本文旨在展示ChatGPT在機器人應用中的潛力。我們概述了一個關鍵概念,它解鎖了用ChatGPT解決機器人應用程序的能力,這是創建一個高級函數庫。由于機器人是一個多樣化的領域,存在多種平臺、場景和工具,因此存在各種各樣的庫和api。我們創建了一個簡單的高級函數庫供ChatGPT處理,然后可以在后端鏈接到所選平臺的實際API,而不是要求LLM輸出特定于平臺或庫的代碼,這可能涉及大量的微調。因此,我們允許ChatGPT從自然對話框中解析用戶意圖,并將其轉換為高級函數調用的邏輯鏈。本文還概述了一些幫助ChatGPT解決機器人任務的提示工程指南。
事實證明,ChatGPT本身可以做很多事情,但它仍然需要一些幫助。我們的技術論文描述了一系列設計原則,可用于指導語言模型解決機器人任務。這些包括但不限于特殊的提示結構、高級API和通過文本的人工反饋。我們相信,我們的工作只是我們如何開發機器人系統的轉變的開始,我們希望激勵其他研究人員進入這個令人興奮的領域。繼續閱讀有關我們的方法和想法的更多技術細節。
當今機器人技術的挑戰,以及ChatGPT如何提供幫助
機器人系統與純文本應用不同,需要對現實世界的物理、環境上下文和執行物理動作的能力有深刻的理解。一個生成式機器人模型需要有一個強大的常識知識和一個復雜的世界模型,以及與用戶交互的能力,以物理上可行的方式解釋和執行命令,在現實世界中有意義。這些挑戰超出了語言模型的原始范圍,因為它們不僅必須理解給定文本的含義,還必須將意圖翻譯為物理動作的邏輯序列。
當前的機器人管道從工程師或技術用戶開始,他們需要將任務需求轉換為系統的代碼。工程師在循環中,這意味著他們需要編寫新的代碼和規范來糾正機器人的行為。總的來說,這個過程是緩慢的(用戶需要編寫低級代碼),昂貴的(需要具有深度機器人知識的高技能用戶),并且低效的(需要多次交互才能讓事情正常工作)。
ChatGPT開啟了一種新的機器人范式,并允許(潛在的非技術)用戶參與循環,在監視機器人性能的同時向大型語言模型(LLM)提供高級反饋。通過遵循我們的設計原則,ChatGPT可以為機器人場景生成代碼。在沒有任何微調的情況下,我們利用LLM的知識來控制不同的機器人形狀,以完成各種任務。在我們的工作中,我們展示了多個ChatGPT解決機器人難題的示例,以及在操作、空中和導航領域的復雜機器人部署。 ChatGPT機器人技術:設計原則
LLMs是一門高度經驗主義的科學。通過反復試驗,我們建立了一套方法和一套設計原則,用于為機器人任務編寫提示:
首先,我們定義一組高級機器人api或函數庫。這個庫可以特定于特定的機器人,并且應該映射到機器人的控制棧或感知庫中的現有底層實現。對高級api使用描述性的名稱非常重要,這樣ChatGPT可以推斷它們的行為; * 接下來,我們為ChatGPT編寫一個文本提示,它描述了任務目標,同時也明確說明了高級庫中的哪些函數可用。提示符還可以包含關于任務約束的信息,或者ChatGPT應該如何形成它的答案(使用特定的編碼語言,使用輔助解析元素); * 用戶停留在循環中來評估ChatGPT的代碼輸出,要么通過直接檢查,要么使用模擬器。如果需要,用戶可以使用自然語言向ChatGPT反饋答案的質量和安全。 * 當用戶對解決方案感到滿意時,就可以將最終代碼部署到機器人上。
ChatGPT到底能做什么?
零樣本任務規劃
我們讓ChatGPT訪問控制真正無人機的功能,事實證明,它是非技術用戶和機器人之間非常直觀的基于語言的界面。當用戶的指示模棱兩可時,ChatGPT會提出澄清性問題,并為無人機編寫復雜的代碼結構,如z字形模式以視覺檢查貨架。它甚至學會了自拍!???? 我們還在使用Microsoft AirSim模擬器的模擬工業檢測場景中使用ChatGPT。該模型能夠有效地解析用戶的高層意圖和幾何線索,從而準確地控制無人機。
循環中的用戶:當一個復雜的任務需要對話時
接下來,我們將ChatGPT用于機器人手臂的操作場景。我們使用對話反饋來教模型如何將最初提供的API組合成更復雜的高級函數:ChatGPT自己編碼。通過使用基于課程的策略,該模型能夠將這些學習到的技能邏輯地鏈接在一起,以執行堆疊積木等操作。 此外,當任務是用木塊構建微軟標志時,該模型展示了一個連接文本和物理域的有趣示例。它不僅能夠從其內部知識庫中回憶徽標,還能夠“繪制”徽標(作為SVG代碼),然后使用上述學到的技能來確定現有的機器人動作可以組成其物理形式。
接下來,我們委托ChatGPT編寫一個算法,使無人機在不撞到障礙物的情況下在太空中達到目標。我們告訴模型,這架無人機有一個面向前方的距離傳感器,ChatGPT立即為算法編寫了大多數關鍵的構建模塊。這項任務需要與人類進行一些對話,我們對ChatGPT僅使用語言反饋進行本地化代碼改進的能力印象深刻。
感知-行動循環:機器人在行動之前感知世界
在做某事(行動)之前感知世界(感知)的能力是任何機器人系統的基礎。因此,我們決定測試ChatGPT對這個概念的理解,并讓它探索一個環境,直到找到用戶指定的對象。我們允許模型訪問諸如對象檢測和對象距離API等函數,并驗證了它生成的代碼成功地實現了感知-動作循環。在實驗角色中,我們運行了額外的實驗來評估ChatGPT是否能夠根據傳感器實時反饋來決定機器人應該去哪里(而不是讓ChatGPT生成一個代碼循環來做出這些決定)。有趣的是,我們驗證了我們可以在每一步將相機圖像的文本描述輸入到聊天中,并且該模型能夠弄清楚如何控制機器人,直到它到達特定的對象。
在深度學習時代,大多數NLP任務的建模已經趨同于幾種主流范式。例如,我們通常采用序列標注范式來解決POS-tagging、NER、Chunking等大量任務,而采用分類范式來解決情感分析等任務。隨著預訓練語言模型的快速發展,近年來出現了范式轉移的趨勢,即通過將一個自然語言處理任務轉換為另一個自然語言處理任務。范式遷移已經在許多任務中取得了巨大的成功,成為一種很有前景的改進模型性能的方法。此外,其中一些范例顯示出了統一大量NLP任務的巨大潛力,使構建一個單一模型來處理不同的任務成為可能。在本文中,我們回顧了近年來的范式轉移現象,重點介紹了幾種有潛力解決不同NLP任務的范式。
//www.zhuanzhi.ai/paper/40d5d6afe38831202ecb0ad7f0d8cf42
引言
范式是為一類任務建模的一般框架。例如,序列標記是命名實體識別的主流范式。不同的范式通常需要不同的輸入和輸出,因此高度依賴于任務的注釋。在過去的幾年里,大多數NLP任務的建模已經趨同于幾個主流范式,如本文所總結的,Class, Matching, SeqLab, MRC, Seq2Seq, Seq2ASeq和(M)LM。
盡管許多任務的范式在很長一段時間內已經趨同并占主導地位,但最近的研究表明,某些范式下的模型也能很好地概括其他范式下的任務。例如,MRC范式和Seq2Seq范式也可以在NER任務上實現最先進的性能(Li et al., 2020;Yan et al., 2021b),它們之前在序列標記(SeqLab)范式中被形式化。這類方法通常首先將數據集的形式轉換為新范式所需的形式,然后使用新范式下的模型來解決任務。近年來,將一個自然語言處理任務轉換為另一個自然語言處理任務的類似方法取得了巨大的成功,并日益受到社會的關注。在預訓練語言模型(PTMs)出現之后(Devlin et al., 2019; Raffel et al., 2020; Brown et al., 2020; Qiu et al., 2020),范式轉移已經在越來越多的任務中被觀察到。結合這些PTMs的力量,一些范例顯示出了統一不同NLP任務的巨大潛力。這些潛在的統一范式之一,(M)LM(也稱為基于提示的調優),最近取得了快速的進展,使用單個PTM作為各種理解和生成任務的通用求解器成為可能(Schick and Schutze ¨ , 2021a,b; Gao et al., 2021; Shin et al., 2020; Li and Liang, 2021; Liu et al., 2021b; Lester et al., 2021)。
盡管它們取得了成功,但這些分散在各種NLP任務中的范式轉移尚未得到系統的回顧和分析。本文綜述了范式轉移研究的最新進展和發展趨勢。本文組織如下。在第2節中,我們給出了這7個范式的形式化定義,并介紹了它們的代表性任務和實例模型。在第3節中,我們展示了最近發生在不同NLP任務中的范式轉變。在第4節中,我們討論了幾個突出的范式的設計和挑戰,這些范式具有統一大多數現有NLP任務的巨大潛力。在第5節中,我們簡要討論了最近的趨勢和未來的方向。