亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

ChatGPT和GPT-4等大型語言模型(LLM)在NLP領域取得了重大進展。然而,它們記憶、表示和利用常識性知識的能力一直是LLM眾所周知的痛點。目前尚不清楚: **(1) GPTs能否有效地回答常識問題? (2) GPTs在常識方面有知識嗎?(3) GPTs是否意識到回答特定問題所需的基本常識知識? (4) GPTs能否有效地利用常識來回答問題?**為了評估上述常識問題,我們進行了一系列實驗來評估ChatGPT的常識能力,實驗結果表明: **(1) GPTs可以在常識任務中取得良好的QA準確性,同時在某些類型的知識上仍有困難。(2) ChatGPT知識豐富,能夠利用知識提示準確地生成大部分常識知識。(3) ChatGPT雖然知識豐富,但卻是一個缺乏經驗的常識問題求解器,**無法精確識別回答某一特定問題所需的常識知識,即ChatGPT并不精確知道回答一個問題需要哪些常識知識。上述發現提出了需要研究在LLM中利用常識知識的更好機制,如指令遵循、更好的常識指導等。

//www.zhuanzhi.ai/paper/a791ca0e145cf4259d9782292df2eaeb

1 引言

常識知識是人類認知的一個基本方面,它包括我們對世界的直覺理解和我們對世界的推理能力。它包括關于典型日常生活的空間、物理、社會、時間和心理方面的知識,以及對社會規范、信仰和價值觀的理解,以及預測和解釋人類行為的能力(Liu and Singh, 2004)。常識知識對于構建能夠理解和生成類人語言的NLP系統至關重要。盡管常識知識對許多任務都很重要,但在機器中獲取和表示常識知識一直是NLP中的一個長期挑戰(Li et al., 2021;Zhang et al., 2022),因為常識往往是隱式的,并依賴于上下文(Gordon和Van Durme, 2013;Shwartz和Choi, 2020)。近年來,人們對解決NLP模型的常識問題以及實現更類似人類的語言生成和理解的興趣越來越大(Bauer等人,2018;Wang等人,2020;江等,2021;劉等人,2021,2022)。 最近,大型語言模型(LLM)如GPT-3 (Brown et al., 2020)、ChatGPT和GPT-4在廣泛的NLP能力方面取得了顯著的成功,包括推理、上下文理解和思維鏈推理(Wei et al.,2022)。這些能力表明,大型語言模型具有一定程度的常識知識(West et al.,2022)。然而,常識問題往往被認為是大型語言模型的一個主要限制(Zhou等人,2020;Bhargava和Ng, 2022)。隨著這些模型變得越來越強大,目前仍不清楚它們在多大程度上能夠理解和推理常識知識邊緣。這就提出了幾個關鍵問題:

(1) GPTs能否有效地回答常識性問題?

(2) GPTs在常識方面知識淵博嗎?

(3) GPTs是否意識到回答特定問題所需的基本常識知識?

(4) GPTs能否有效地利用常識來回答問題?

回答這些問題對于理解LLM的能力和局限性,以及開發更好的方法來評估和提高它們在常識任務上的表現至關重要。

為了評估模型回答常識問題的能力,使用了11個常識問答數據集,涵蓋了8個不同的常識領域,包括物理、社會、時間和數值推理等。首先,我們要求模型回答這些問題,并評估其回答的準確性。為了評估大型語言模型是否理解了回答這些問題所需的常識知識,我們要求模型描述必要的知識,并評估描述是否準確。為了評估大型語言模型是否能夠回憶和描述回答問題所需的知識,我們要求模型是否知道必要的知識,并評估回答是否正確和相關。最后,為了評估模型是否可以利用常識知識進行推理,我們將之前實驗中產生的知識作為上下文,并要求模型再次回答問題。我們將它們的表現與使用黃金知識進行比較,并評估它們的推理過程是否可以有效地利用已識別的知識。

我們的實驗為大型語言模型的常識問題提供了見解: **(1)GPTs可以在常識任務中實現良好的QA準確性,而它們在某些類型的知識方面仍然很困難。(2) ChatGPT知識豐富,可以使用知識提示準確地生成大部分常識知識。****(3) ChatGPT是缺乏經驗的常識問題求解者,無法準確識別解決特定問題所需的常識知識。**此外,ChatGPT不能有效地利用上下文中的常識知識來回答特定問題。

本文的主要貢獻在于:

我們通過進行實驗詳細研究了大型語言模型的常識能力來回答4個關鍵問題。

我們設計了一系列實驗來評估ChatGPT記憶、表示和利用常識知識的能力,包括回答常識問題,識別和生成必要的知識,以及在其推理過程中利用常識知識。

通過確定ChatGPT在常識知識和推理能力方面的優勢和劣勢,我們為開發更高級的語言模型提供了見解,這些模型可以有效地利用和推理常識知識。

2 什么是常識

常識是“人類經驗的很大一部分,包括關于典型日常生活的空間、物理、社會、時間和心理方面的知識。(Liu and Singh, 2004;布拉赫曼和萊維斯克,2022年)。這種類型的知識通常被認為是理所當然的,通常是通過在特定文化中多年的經驗和社會化獲得的。為了幫助讀者更好地理解這一概念,我們總結了幾類主要的常識:一般常識:這類常識指的是被廣泛分享并被大多數人認為是正確的知識,例如太陽從東方升起,從西方落下。物理常識:這類常識涉及關于物理世界的知識,比如物體掉落時會落到地面,水會往下坡流。 社會常識:這類常識涉及社會規范、風俗習慣和實踐方面的知識,比如提出請求時說“請”和“謝謝”是禮貌的。 科學常識:這類常識涉及基本的科學概念和原理,例如地心引力將地球上的所有物體拉向地球中心。 事件常識:這類常識涉及到事件的先后順序以及它們之間的因果關系的知識,比如杯子被打翻了,里面的液體就會灑出來。 數值常識:這種類型的常識涉及有關數字的知識,例如人類有兩只手和十個手指。 原型常識:這類常識包括關于概念的典型或原型例子的知識,例如燕子是一種鳥,鳥有翅膀。時間常識:這類常識涉及時間知識,例如出國旅行比散步需要更長的時間。

3 GPTs能有效地回答常識問題嗎?

在這一節中,我們評估了LLM回答常識問題的表現。具體來說,我們使用了11個常識QA數據集,涵蓋了8個常識領域,包括通用、物理、社會、科學、事件、數值、原型和時間。這11個數據集是common - monsenseQA (Talmor等人,2019)、OpenBookQA (Mihaylov等人,2018)、WSC (Levesque等人,2012)、PIQA (Bisk等人,2020)、Social IQA (Sap等人,2019)、ARC (Clark等人,2018)、QASC (Khot等人,2020)、HellaSWAG (Zellers等人,2019)、NumerSense (Lin等人,2020)、ProtoQA (Boratko等人,2020)和MC-TACO (Zhou等人,2019)。數據集及其域,每個數據集都有一個示例,如表1所示。

我們從每個常識QA數據集的開發集中抽樣了100個問題用于評估,除了ProtoQA,它的開發集中只有52個問題。我們使用GPT-3 (davinci)、GPT- 3.5 (text-davinci-003)和ChatGPT作為用于評估的大型語言模型。對于GPT-3,我們使用4-shot in-context學習。對于GPT-3.5和ChatGPT,我們使用零樣本推理,并為不同的數據集設計提示模板。 結果如表2所示。從結果可以看出:

**GPTs能夠準確回答常識性問題。**我們在11個常識QA數據集上評估了不同LLM的性能。表2的結果顯示,GPT-3.5和ChatGPT都可以在大多數數據集上取得良好的性能。表現最好的數據集是ARC和ProtoQA, ChatGPT在這兩個數據集上的準確率分別達到了94%和94.2%。這些結果表明,像GPT-3.5和ChatGPT這樣的大型語言模型對于常識性問題是有效的問題解決器,可以在不同類型的常識性問題中提供準確的答案。 GPTs利用常識知識的能力可以通過指令調優和人類對齊來提高。我們比較了三種大型語言的性能表2中的models、GPT-3、GPT-3.5和ChatGPT。從結果中我們可以看到,GPT-3.5和Chat- GPT相比GPT-3取得了顯著的提升。這些結果表明,僅靠預訓練不足以學習利用知識。通過結合指令和對齊調整技術(歐陽等人,2022),模型可以更好地利用和推理常識知識。

**總的來說,ChatGPT在大多數領域取得了比GPT-3.5更高的準確率,證明了RLHF技術在增強知識利用能力方面的有效性。**然而,GPT-3.5在某些數據集上的表現略優于ChatGPT,包括CommonsenseQA和社交IQA。這是因為ChatGPT往往比較謹慎,在信息不足的情況下拒絕給出答案,導致出現“根據給出的信息,不可能確定……”這凸顯了在信息不充分的模型中,如何平衡謹慎和準確性的問題,還需要進一步研究。要實現這一點,需要模型理解回答問題所需的知識,并意識到模型是否擁有該知識。 **雖然GPTs在大多數常識知識領域表現良好,但在某些類型的知識方面仍存在困難。表2中的實驗表明,大型語言模型在社交、事件和時間常識QA(社交IQA、HellaSWAG和MC- TACO數據集)上滯后。**ChatGPT在這些數據集上的表現低于70%。這表明llm在社會、事件和時間常識知識上仍然存在缺陷。我們認為這是因為這些類型的常識知識需要對人類行為和社會互動有更深入的理解,而它們在文本語料庫中很少出現。這表明,當前的LLM需要在這些常識領域上進行改進,這需要模型超越表面的語義理解,學習人類行為。

4. GPTs是否意識到回答問題的常識知識?

在第3節中,我們發現GPTs在常識性QA數據集上表現良好。這引起了我們的探索,GPTs是經驗豐富的專家,他們知道需要什么知識,并可以利用這些知識進行問答,還是他們是缺乏經驗的問題解決者,依賴于記憶大量涵蓋問題的信息。 為了回答這個問題,我們從每個常識QA數據集中抽樣了20個問題,并詢問Chat- GPT“回答這個問題需要哪些知識?”對于有≥10個錯誤回答問題的數據集,我們抽樣10個正確回答問題和10個錯誤回答問題,否則,我們采取所有錯誤回答的問題,抽樣更多正確回答的問題,以填補這20個問題。 我們手動評估每個生成的回答的準確率和召回率,并使用F1分數作為衡量標準。例如,表3展示了ChatGPT的回答,描述了回答問題所需的知識。從ChatGPT的回應中,我們將知識1和知識3標記為回答問題有用,而知識2被過度泛化,知識4和知識5不是必需的。然后我們根據這2條知識判斷問題是否可回答,并進一步在人工評價中額外寫2條必要知識,知識a和知識b,這樣,這個回答的精確率為2/5,召回率為2/4,F1分數為44.44%。 結果如表4所示,

**ChatGPT是一個沒有經驗的問題解決者,它很難精確地識別回答特定問題所需的常識知識。**我們手動評估ChatGPT生成的必要知識,結果如表4所示。結果顯示,在大多數常識性QA數據集上,總體F1分數在40%到75%之間。這些結果表明,ChatGPT是一個經驗不足的問題解決者,無法準確識別回答特定常識問題所需的知識。

具體而言,該模型在科學領域表現相對較好,在ARC和QASC上分別取得了74.57%和76.13%的F1值。然而,該模型在社交領域和時間領域(即社交IQA和MC-TACO)上表現最低。F1分數的這種差異很可能是因為科學常識知識在文本語料庫中比社會和時間知識更普遍。例如,教科書經常討論“氣候由溫度和濕度描述”等科學概念,但很少提及“學生不喜歡參加大考”等社會規范,或“吃一頓飯不需要幾個月”等時間知識。這表明,像ChatGPT這樣的大型語言模型在社會和時間領域仍然存在局限性。因此,開發更有效的訓練策略來注入這些常識知識領域是很重要的。

GPTs無法有效區分回答特定問題的相關和不相關常識知識,通常會生成噪聲率較高的知識。我們在表4中評估了生成的必要知識的精確率和召回率。所有數據集的平均召回率為84.42%,平均精確率為55.88%。這表明,雖然模型可以識別出大多數問題的常識知識,但它很難準確識別出哪些知識對于回答特定的常識問題是必不可少的。該模型通常生成的知識是不相關的或過度泛化的。例如,表3中的知識2是過度泛化的,因為問題本身是“如何制作戶外枕頭”,而知識4和5考慮到兩種選擇之間的差異,就顯得不相關了。我們認為這是因為模型依賴的是關鍵詞和主題匹配,而不是對問題內部的邏輯關系的充分理解。這進一步證明了GPTs仍然是缺乏經驗的問題解決者。因此,llm需要增強對手頭任務的自我意識,并將關鍵信息與無關背景信息區分開來。例如,他們需要能夠判斷一個問題的哪些部分對決策是必要的,比如表3中的“吹進錫罐/垃圾袋”,哪些部分是無關的。

通過增強GPTs的知識意識(knowledge-awareness),即引導模型識別特定問題所需的知識,可以顯著提高GPTs的常識能力。在圖2中,我們繪制并分析了生成的必要知識的總體F1分數與答案之間的相關性ChatGPT的準確率。結果顯示準確率和知識F1有很強的相關性,皮爾遜系數為0.77。此外,表4顯示,正確回答問題的知識F1得分明顯高于錯誤回答問題的知識F1得分。這些發現表明,準確識別必要的知識對于正確回答常識問題至關重要。因此,增強模型對必要知識的自我意識,有可能提高其在包括常識QA在內的下游任務上的性能。

5 . GPTs了解常識嗎?

本節回答了這個問題:大型語言模型在多大程度上具有常識知識?為了回答這個問題,類似于Shwartz et al.(2020),我們根據第3節中生成的必要知識手動構建知識查詢提示。例如,如表5所示,基于表3中的知識1,我們將問題寫成“你對什么是戶外枕頭有了解嗎?”我們將這些提示輸入到ChatGPT中,并手動標注ChatGPT生成的每一個知識描述是否正確。

表5展示了一個知識查詢問題的示例和生成的知識描述。第一個描述說“向垃圾袋吹氣,用橡皮筋綁起來,可能會產生類似墊子的表面,但作為戶外枕頭,不太可能持久或舒適”,但在現實中,這是一種典型的做法。所以,這個描述被貼上了不正確的標簽。 結果如表6所示。從結果可以看出:

GPTs知識淵博,包含了準確回答問題所需的大部分常識知識。通過提出知識-查詢問題和手動評估ChatGPT的響應,我們評估了ChatGPT中必要知識的準確性。表6的結果顯示,ChatGPT生成的知識描述在大多數常識性QA數據集上都能達到70%以上的準確率,達到82.66%的平均準確率。這表明,在給定知識查詢問題的情況下,ChatGPT可以生成準確的常識知識描述。這表明llm可以作為常識知識庫,并為下游任務提供常識。然而,在社會領域的準確率較低,為54.92%。我們認為,這是因為社會常識,如“接受幫助的人,而不是給予幫助的人,應該說謝謝”,在文本中并不常見。這就突出了開發具體指導的重要性,可以指導ChatGPT獲取社會常識知識。 GPT包含誤導和過度泛化的常識知識。為了評估CommonsenseQA數據集上知識描述的相關性和信息量,我們進行了人工評估。結果顯示,26.25%的描述包含不相關和誤導性的信息,15.00%的描述過度泛化,未能提供回答問題所需的具體知識。例如,表5中的描述提到了“探索專門用于制作戶外枕頭的其他方法或材料”,這對于回答問題是沒有幫助和誤導性的。我們認為這是因為大型語言模型的訓練數據中存在噪聲和冗余信息,而損害對準確判斷信息相關性的能力。這些發現強調了ChatGPT需要生成具有相關性和信息量的知識描述,以確保生成的結果對回答問題具有實用價值。 在LLM中,了解和利用常識知識之間存在差距。為了探索生成的知識描述的準確性和答案準確性之間的關系,我們進行了相關性分析,并在圖3中繪制了結果。我們的結果顯示,兩個準確率之間存在微弱的相關性,皮爾遜系數為0.40。值得注意的是,雖然在社交IQA和MC-TACO數據集上的答案準確率都很低,但它們之間的知識描述準確率存在顯著差異:社交IQA的準確率很低(54.92%),但MC-TACO的準確率很高(86.25%)。表6進一步顯示,與第4節的結果相比,正確回答和錯誤回答的問題在描述準確率上的差異相對較小。這表明,好的知識描述并不一定能轉化為正確的答案。我們認為這是因為回答常識性問題不僅需要知識,還需要在信息不足的條件下進行推理和推理等其他能力。

6. GPTs可以有效地利用上下文中的常識進行推理嗎?

本節回答了一個問題:大型語言模型能否利用上下文中的常識知識進行推理和回答問題?為了回答這個問題,在回答了第4節中的知識查詢問題后,我們要求模型再次回答常識問題,并評估在描述必要的知識后答案是否會發生變化。表7展示了一個先前不正確的答案在生成知識描述后仍然保持不變的例子。 結果如表8所示。從結果可以看出: 如果我們只將生成的常識添加到問題上下文中,ChatGPT無法有效利用這些常識。我們對生成知識描述前后答案變化的分析表明,在大多數數據集上,使用生成的常識后并沒有明顯和一致的準確性提升 既有從錯誤到正確的變化,也有從正確到錯誤的變化,還有相當大比例的未改變的答案,如表7所示的例子。在社交IQA數據集的情況下,知識生成的準確性較低,導致更多的正確答案被修改為錯誤。這說明ChatGPT無法有效利用自身生成的知識描述來回答問題,知識生成的準確性對回答結果有巨大影響。我們認為這是因為模型已經擁有了生成的知識,因此添加冗余知識是沒有用的。 ChatGPT在常識QA方面的性能提升即使使用黃金知識也不顯著。我們為common - monsenseQA數據集使用了兩個人工標注的常識解釋數據集CoS-E (Rajani et al.,2019)和ECQA (Aggarwal et al., 2021)作為黃金知識作為上下文,并要求ChatGPT生成答案。我們發現,給出CoS-E解釋的只有4個錯誤→正確的答案,給出ECQA解釋的只有8個錯誤→正確的答案,而有一個正確→錯誤的答案。這表明ChatGPT并不能回答所有的問題即使給出真實知識的解釋,也能正確回答問題。我們認為這是因為大型語言模型缺乏使用知識進行復雜常識推理的能力,例如否定。例如,這里有一個需要否定推理的問題:“如果籃球上有一個洞,但它沒有失去它的一般形狀,那么關于籃球,有什么是不正確的?A.被刺破的,B.在美國流行的,C.充滿空氣的,D.消失了的,E.圓形的”。對這個問題的CoS-E解釋是:“任何有洞的物體都不能留住空氣。”,但ChatGPT仍然預測了錯誤的答案A,并解釋道:“如果籃球上有一個洞,它就被刺穿了,空氣就會從中逸出。”這些結果表明,大型語言模型需要進一步的指導和改進,以更好地利用和推理上下文中的常識性知識。

7 結論和討論

在本文中,我們調研了大型語言模型的常識能力,發現ChatGPT是一個有知識但沒有經驗的問題解決者:(1) 雖然GPTs可以在常識QA中取得很好的準確性,但他們仍然在某些類型的知識上掙扎,包括社會和時間常識。(2) ChatGPT在常識方面知識淵博,可以使用知識提示準確地生成大部分常識知識。(3) ChatGPT是一個缺乏經驗的常識問題求解者。它很難準確地識別給定問題的潛在常識知識,并且經常生成噪聲率很高的知識。此外,ChatGPT不能有效地利用上下文中的常識知識來回答常識問題。 上述發現為未來的工作提出了幾個有希望的方向: **(1) 雖然目前的GPTs知識豐富,但他們仍然沒有經驗解決問題。**因此,研究在LLM中利用常識知識的更好機制至關重要,如指令調優、更好的常識引導推理等。 (2) LLM中仍然缺少幾種類型的常識知識,如社會和時間常識。因此,為這些知識類型設計知識注入方法至關重要。此外,重要的是設計輕量級的常識更新方法,以保持知識的最新。 **(3) 由于ChatGPT和GPT-4不會公布它們的全部細節,**比如訓練數據、超參數和檢查點,評估一個“人工通用智能”模型是非常不同的,因此設計和構建覆蓋范圍更廣的基準至關重要,設計評估方法能夠對大型語言模型提供更全面和更公正的評估。

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

運用邏輯推理能力進行全面的自然語言理解嘗試。隨著生成預訓練Transformer 4(GPT-4)的發布,它在推理任務上被稱為“先進”的,我們渴望了解GPT-4在各種邏輯推理任務上的表現。本報告分析了多個邏輯推理數據集,包括流行的基準數據集如LogiQA和ReClor,以及新發布的數據集如ARLSAT。我們使用需要邏輯推理的基準測試多選閱讀理解和自然語言推理任務。我們進一步構建了一個邏輯推理的分布外數據集,以調研ChatGPT和GPT-4的魯棒性。我們還對ChatGPT和GPT-4的性能進行了比較。實驗結果表明,在大多數邏輯推理基準測試中ChatGPT的表現明顯優于RoBERTa微調方法。在我們的手動測試中,GPT-4表現得更好。在這些基準測試中,ChatGPT和GPT-4在知名數據集如LogiQA和ReClor上表現相對較好。然而,在處理新發布和分布外的數據集時,性能顯著下降。對于ChatGPT和GPT-4來說,邏輯推理仍然具有挑戰性,尤其是在分布外自然語言推理數據集上。

1. 引言

邏輯推理對人類智能至關重要,將邏輯推理能力納入自然語言理解(NLU)系統自人工智能開始以來一直是一個活躍的研究興趣(Cresswell, 1973) (Kowalski, 1979) (Iwanska′,1993)。研究人員一直在探索實現這一目標的各種方法,包括基于規則的方法、符號系統(MacCartney和Manning, 2007a)、微調大型語言模型(Wang等人,2018),以及結合神經和符號方法(Li和Srikumar, 2019)。

在傳統的邏輯和語義方法中,計算語言學家開發了利用一階邏輯(FOL)或自然邏輯(macaccartney和Manning, 2007a)的符號系統來解決基本的推理任務。基于規則的模型很難用手工制定的規則和定理證明器來解決諸如RTE挑戰(Dagan等人,2005年)等問題。早期研究人員采用的形式邏輯推理提出了符號系統和手工設計的規則,其中知識使用形式邏輯或其他符號表示顯式地表示。通過規則,系統可以進行演繹操作。然而,這些方法在處理模糊性和可擴展性方面面臨挑戰。它們在處理真實世界的自然語言數據時很脆弱。

神經網絡模型時代看到了大規模NLI數據集的興起作為流行基準。例如,SNLI (Bowman等人,2015)和多流派NLI (MNLI) (Williams等人,2018)數據集是通過眾包創建的,具有巨大的數據規模和廣泛的覆蓋面。它們促進了具有更好表示能力的模型的發展,并成為自然語言理解研究的首選基準。隨著基于transformer (Vaswani et al., 2017)的語言模型(如BERT (Devlin et al., 2018)的出現,模型性能的巨大飛躍,這些模型的訓練方案使它們能夠訪問巨大的未標記語料庫。因此,構建具有數萬億參數的語言模型成為可能(Brown et al., 2020) (Raffel et al., 2019)。預訓練和微調的范式自此成為文本推理任務的主要解決方案。研究人員在對大規模文本語料庫進行預訓練后,對特定任務數據集的語言模型進行微調。大型預訓練語言模型(LMs)在流行的NLI和MRC基準上取得了超越人類的表現,這促使人們在文本推理方面進行更復雜的基準測試。

隨著最近幾個數據集的發布,邏輯推理NLP研究重新獲得了勢頭,特別是LogiQA和Reclor。數據集來自中國公務員考試和法學院入學考試(LSAT)等邏輯推理考試。這些測試即使對人類來說也是具有挑戰性的,并且是高質量的Golden標記數據。邏輯推理被用于大型預訓練語言模型(PLM)的許多探測任務和問答和對話系統等下游任務中。與傳統基準相比,PLM表現不佳。盡管到目前為止取得了進展,但在NLU系統中實現類似人類的邏輯推理能力仍然是一項具有挑戰性的任務。生成式預訓練Transformer 4 (GPT-4) (OpenAI, 2023)以及ChatGPT是OpenAI新發布的語言模型,旨在理解和生成多模態內容。GPT-4在需要邏輯推理的任務中具有更強大的能力。邏輯推理對人類的智能至關重要,它使我們能夠根據給定的信息得出結論、做出預測并解決問題。將邏輯推理納入到語言模型中,如GPT-4,可以徹底改變自然語言理解(NLU)系統,使其更準確,更魯棒,并能夠理解自然語言中的復雜信息。

對ChatGPT和GPT-4在邏輯推理任務上的性能進行了評估,探索了它們在多個邏輯推理基準上的性能,詳細分析了ChatGPT和GPT-4在邏輯推理任務上的優勢和局限性。我們將討論評估GPT-4邏輯推理能力的兩個任務:多項選擇閱讀理解和自然語言推理。這兩個任務都是推理繁重的,并可作為測試模型推理能力的游樂場。在這兩種任務下,已經發布了多個邏輯推理數據集。事實證明,這些基準對于PLM來說很難解決。希望該報告能進一步揭示ChatGPT和GPT-4的邏輯推理能力。我們的貢獻如下:

  1. 在兩個邏輯推理任務上測試了ChatGPT和GPT-4:多項選擇閱讀理解和自然語言推理。在多個邏輯推理測試集上進行實驗,分析ChatGPT和GPT-4的邏輯推理能力。
  2. 該文構建了一個分布外邏輯推理數據集,進一步研究了ChatGPT和GPT-4的魯棒性。
  3. 實驗表明,ChatGPT和GPT-4都擅長解決著名的邏輯推理閱讀理解基準,但在處理分布外數據集方面很困難。它們在需要邏輯推理的自然語言推理任務上的性能仍有待提高。

2. 實驗設置

考慮多項選擇閱讀理解和自然語言推理任務進行評估。多項選擇閱讀理解在大型語言模型上進行了大量測試,因為這些任務通常具有結構清晰和高質量的數據集。另一方面,自然語言推理任務是評估推理能力的基本任務。

**表1顯示了多項選擇閱讀理解數據集的結果。**ChatGPT顯示,在幾個長期基準上,與基線模型相比,性能有所提高。在LogiQA 2.0測試集上準確率達到53.37%,比RoBERTa基礎模型高出近4個點。在中文LogiQA 2.0版本上進行測試時,ChatGPT與RoBERTa的性能差距較大,表明ChatGPT在中、英文語言上的性能具有一致性。ChatGPT在ReClor數據集上取得了57.38%的準確率,而RoBERTa的準確率為55.01%。然而,ChatGPT在分布外的數據集上的性能會大幅下降。在AR-LSAT測試集上,準確率僅為20.42%,低于RoBERTa base的性能。在LogiQA 2.0 ood上的性能為38.44%,仍然低于RoBERTa base。實驗結果表明,ChatGPT在LogiQA和ReClor等邏輯推理系統中表現良好。ChatGPT的準確性略高于微調方法。然而,在新發布的AR-LSAT數據集和LogiQA 2.0分布外數據集上進行測試時,性能明顯下降。

盡管有局限性,ChatGPT仍然代表了自然語言理解的重大進步,并展示了語言模型進行邏輯推理的潛力。在LogiQA和ReClor上進行手動測試時,GPT-4的性能明顯優于ChatGPT。在LogiQA 2.0測試集上,GPT-4的準確率為75.26%。然而,在中文LogiQA 2.0測試集上,GPT-4在中文版本數據集上的準確率下降明顯,達到了51.76%。在ReClor開發集上(ReClor在其測試中也不包括黃金標簽),GPT-4達到了92.00%的準確率,這是顯著的。然而,當在AR-LSAT測試集上進行測試時,GPT-4的表現令人驚訝地更差,只有18.27%的準確率。在LogiQA 2.0 ood數據集上的測試結果表明,GPT-4的正確率僅為48.21%,明顯低于在ReClor數據集上的正確率。我們不會急于得出結論,但可以肯定地說,GPT-4在分布外數據集上的性能下降是明顯的。

在自然語言推理任務上的實驗結果表2展示了在自然語言推理數據集上的結果。在邏輯推理NLI數據集上,ChatGPT的性能優于RoBERTa模型。在對照測試集(805個實例)上,準確率達到58.45%,比RoBERTa-base模型高出近10%。在ConjNLI測試集(623個實例)上,ChatGPT的準確率為47.03%,比RoBERTa高出約9%。在HELP數據集(35891個實例)上,ChatGPT獲得了42.31%的準確率,比RoBERTa高出約3個點。在MED數據集(5382個實例)上,ChatGPT的準確率為55.02%,比RoBERTa高出近9%。在TaxiNLI測試集(10071個實例)上,ChatGPT取得了57.30%的準確率,比RoBERTa算法提高了7%以上。由于我們注意到ChatGPT不擅長遵循NLI任務指令,因此我們提供了一個上下文示例來幫助模型生成任務標簽,如圖2所示。總的來說,結果表明,與在閱讀理解任務上的表現相比,ChatGPT僅以很小的優勢超過微調后的RoBERTa。

我們在五個NLI數據集上測試了GPT-4的性能。一般來說,GPT-4的性能比ChatGPT好,但結果并不令人驚訝。在對照測試集上,GPT-4的表現與ChatGPT相當,獲得了58.18%的準確率。在ConjNLI測試集和HELP上的準確率分別為61.00%和53.33%,表現略好。在MED和TaxiNLI數據集上的性能較好,分別達到了75.79%和75.47%。在5個NLI數據集上的實驗結果表明,與多項選擇閱讀理解相比,GPT-4在邏輯推理和自然語言推理上并沒有表現出令人印象深刻的性能。在自然語言推理任務場景中,即使提供了指令,GPT-4也不能穩定地輸出標簽。由此我們可以推斷,雖然GPT-4在多項選擇閱讀理解任務中訓練得很好,但在自然語言推理任務中卻不擅長遵循指令。

實驗結果表明,ChatGPT和GPT-4在大多數邏輯推理基準測試上優于RoBERTa,包括流行的LogiQA和ReClor以及不太知名的AR-LSAT數據集。然而,對于兩個GPT模型來說,分布外數據集的性能下降是明顯的,這表明它們很難處理新的和不熟悉的數據

付費5元查看完整內容

基于transformer的大型語言模型在機器學習研究領域迅速發展,其應用范圍跨越自然語言、生物學、化學和計算機編程。來自人類反饋的擴展和強化學習顯著提高了生成文本的質量,使這些模型能夠執行各種任務并對其選擇進行推理。本文提出一個智能體系統,結合多個大型語言模型進行自主設計、規劃和科學實驗的執行。我們用三個不同的例子展示了智能體的科學研究能力,其中最復雜的是催化交叉耦合反應的成功表現。最后,我們討論了此類系統的安全影響,并提出了防止其濫用的措施。

1. 引言

大型語言模型(LLM),特別是基于transformer的模型,近年來正在經歷快速發展。這些模型已經成功地應用于各種領域,包括自然語言、生物和化學研究, 以及代碼生成。如OpenAI所展示的,模型的極端擴展已經導致了該領域的重大突破。此外,從人類反饋中強化學習(RLHF)等技術可以大大提高生成文本的質量,以及模型在推理其決策的同時執行不同任務的能力。

2023年3月14日,OpenAI發布了他們迄今為止最強大的LLM, GPT-4。雖然關于模型訓練、大小和使用的數據的具體細節在技術報告中有限,但研究人員已經提供了該模型非凡的解決問題能力的實質性證據。這些包括但不限于SAT和BAR考試的高百分位數,LeetCode挑戰,以及來自圖像的上下文解釋,包括小眾笑話。此外,技術報告提供了一個例子,說明如何使用該模型來解決化學相關的問題。

在這些結果的啟發下,我們旨在開發一個基于多LLMs的智能Agent(以下簡稱Agent),能夠自主設計、規劃和執行復雜的科學實驗。該智能體可以使用工具瀏覽互聯網和相關文檔,使用機器人實驗APIs,并利用其他LLMs完成各種任務。本文通過評估智能體在三個任務中的性能來證明其多功能性和有效性: 1.在廣泛的硬件文檔中高效搜索和導航 ;2.在低液位上精確控制液體處理儀表; 3.解決需要同時利用多個硬件模塊或集成不同數據源的復雜問題

2. 智能體的架構: 由其多個模塊定義的動作空間

智能體的系統由四個組件組成(圖1),由“規劃器”驅動。“規劃器”將一個提示作為輸入(例如,“執行多個Suzuki反應”),并根據這個請求執行動作。行動空間包括訪問互聯網(“谷歌 ”請求),用Python執行計算(“Python ”),訪問文檔(“documentation ”),以及運行最終實驗(“experiment ”)。實驗可以在各種環境中進行——云實驗室,使用液體處理程序,或通過提供手動執行實驗的說明。該模型被指示推理其行動,搜索互聯網,計算反應中的所有數量,然后執行相應的反應。智能體意識到,平均來說,至少需要十個步驟才能完全理解所請求的任務。如果提供的描述足夠詳細,則不需要向提示提供者進一步澄清問題。

網絡搜索器”組件接收來自規劃器的查詢,將它們轉換為適當的網絡搜索查詢,并使用谷歌搜索API執行它們。返回的前10個文檔被過濾,不包括pdf,得到的網頁列表被傳遞回“網絡搜索器”組件。然后,該組件可以使用“瀏覽”動作從網頁中提取文本,并為規劃器編譯一個答案。對于這項任務,我們可以采用GPT-3.5,因為它的執行速度明顯快于GPT-4,而質量沒有明顯損失。“文檔搜索器”組件通過利用查詢和文檔索引來查找最相關的頁面/部分,梳理硬件文檔(例如,機器人液體處理程序,GC-MS,云實驗室)。然后聚合最佳匹配結果,以提供全面和準確的最終答案。這個模塊側重于為硬件API提供具體的函數參數和語法信息。 “代碼執行”組件不利用任何語言模型,只是在一個隔離的Docker容器中執行代碼,保護終端主機機器免受規劃器任何意外操作的影響。所有的代碼輸出都被傳遞回規劃器,使其能夠在出現軟件錯誤的情況下修復其預測。這同樣適用于“自動化”組件,然后在相應的硬件上執行生成的代碼,或者只是提供人工實驗的合成過程。

3. 網絡搜索使Agent的綜合規劃能力成為可能

為了演示系統的功能,我們以布洛芬的合成為例(圖2A)。輸入提示直截了當:“合成布洛芬”。然后,該模型在互聯網上搜索關于布洛芬合成的信息,在特定網站上定位必要的細節。該模型正確地識別了合成的第一步,即氯化鋁催化的異丁基苯和乙酸酐之間的弗里德爾-克拉夫反應(見附錄A)。一旦模型要求提供弗里德爾-克拉夫合成程序的文件,第一步的規劃階段就結束了。

系統能力的另外兩個例子包括普通阿司匹林的合成(圖2B和附錄B)和阿斯巴甜的合成(圖2D和附錄C),前者是模型有效搜索和設計的,后者雖然缺少產品中的甲基,但一旦模型收到合適的合成示例,在云實驗室中執行,就可以糾正。此外,當被要求研究一個Suzuki反應時,該模型準確地識別了底物和產物(圖2C和附錄D)。當建議特定的催化劑或堿時,用于文本生成的高溫參數會導致波動。 通過API將模型連接到Reaxys14或SciFinder15等化學反應數據庫,可以顯著提高系統的性能。或者,分析系統之前的語句是提高其準確性的另一種方法。

向量搜索可用于軟件文檔的檢索。

為了將一個能夠復雜推理的智能體與軟件集成,提供相關技術文檔的清晰簡潔的表述至關重要。現代軟件的特點是其復雜性和各種組件之間錯綜復雜的相互作用。因此,全面的軟件文檔對于程序員理解這些交互作用并有效地利用它們來實現目標是必不可少的。盡管如此,傳統的軟件文檔經常使用高度技術性的語言,這對于非專業人士來說很難掌握。這為軟件的許多潛在用戶制造了障礙,限制了它的使用范圍和有效性。

大型語言模型有可能通過生成非專家更容易訪問的軟件文檔的自然語言描述來克服這一障礙。這些模型是在來自各種來源的大量文本語料庫上進行訓練的,這些語料庫包括與應用程序編程接口(API)相關的大量信息。其中一個這樣的API是Opentrons Python API.16然而,GPT-4的訓練數據包含截至2021年9月的信息。因此,有可能提高智能體使用API的準確性。為此,我們設計了一種方法來為智能體提供給定任務所需的文檔,總結在圖3A中。

掌握自動化: 多儀器系統由自然語言控制。

獲取文檔使我們能夠為智能體提供足夠的信息,以便在物理世界中進行實驗。為了啟動調查,我們選擇了一個開源的液體處理程序,它具有文檔完備的Python API。其文檔中的“入門”頁面在系統提示中提供給了規劃師。其他頁面使用“提供硬件API文檔”一節中描述的方法進行向量化。

綜合起來: 智能體的綜合化學實驗設計和執行能力之前的實驗可能會受到預訓練步驟中對智能體模塊的了解的影響。我們希望通過結合來自互聯網的數據,執行必要的計算,并最終為液體處理程序編寫代碼,來評估智能體計劃實驗的能力。為了增加復雜性,我們要求智能體使用在GPT-4訓練數據收集截止后發布的加熱器-震動器模塊。這些要求被納入到智能體的配置中(圖5A)。問題設計如下: Agent配備有一個裝有兩個微孔板的液體處理器。一個(源板)包含多種試劑的原液,包括苯乙炔和苯硼酸,多個芳基鹵化物偶聯伙伴,兩種催化劑,兩種堿基,以及溶解樣品的溶劑(圖5B)。靶板安裝在加熱-搖床模塊上(圖5C)。Agent的目標是設計一個協議來執行Suzuki和Sonogashira反應。智能體首先在互聯網上搜索有關所要求的反應、其化學計量和條件的信息(圖5D)。它為相應的反應選擇正確的耦合伙伴。在所有芳基鹵化物中,Suzuki反應選擇了溴苯,Sonogashira反應選擇了碘苯。這種行為在每次運行中都會發生變化,因為它還選擇了對硝基碘苯,因為它在氧化加成反應中反應性高,或溴苯,因為它反應性強,但毒性比芳基碘化物小。這突出了該模型潛在的未來用例——多次執行實驗以分析模型的推理并構建更大的圖景。該模型選擇了Pd/NHC催化劑作為更高效、更現代的交叉偶聯反應方法,并選擇了三乙胺作為基礎。然后,智能體計算所需的所有反應物體積,并編寫協議。然而,它使用了一個不正確的加熱器-激振器模塊名稱。注意到錯誤后,該模型查閱了文檔。然后利用這些信息修改協議,協議成功運行(圖5E)。隨后對反應混合物的GC-MS分析揭示了兩種反應的目標產物的形成(附錄I)。

4. 智能體具有高度的推理能力。

該系統顯示出了非常高的推理能力,使其能夠請求必要的信息,解決復雜的問題,并為實驗設計生成高質量的代碼。OpenAI已經表明,在Alignment研究中心進行的初始測試中,GPT-4可以依靠其中的一些能力在物理世界中采取行動。

智能體表現出的最顯著的推理能力是它能夠根據自動生成的輸出來糾正自己的代碼。除了已經提到的例子之外,在鈴木反應的機械研究的計算中,該模型要求系統執行導入了未安裝的SymPy包(參見附錄D)的代碼。在收到相應的追蹤后,智能體使用basic Python修改了代碼。然而,這個修改后的代碼仍然被證明是沒有幫助的,因為它沒有返回任何輸出(模型已經假設解釋器是在交互模式下使用的)。承認這一點后,智能體通過合并print()語句進行了最后的調整。

Agent展示了對關鍵科學問題的有趣方法。

此外,我們的目標是評估系統在遇到異常具有挑戰性的問題時的性能。我們首先要求模型開發一種新的抗癌藥物(參見附錄E)。該模型以邏輯和方法的方式接近分析:它首先詢問了當前抗癌藥物發現的趨勢,隨后選擇了一個目標,并要求一個靶向這些化合物的支架。一旦化合物被識別,模型就會嘗試其合成(這一步不是在實驗中進行的)。另一個例子涉及研究Suzuki反應的機理(見附錄D)。在這種情況下,模型尋找有關反應機理的信息,并在獲得單個步驟后,尋找此類反應的示例。為了執行反應,模型計算了所需的試劑數量,并要求獲得與相應合成相關的文檔頁面。

所開發方法的安全性影響。

人們越來越擔心分子機器學習模型可能被濫用以達到有害的目的。具體來說,用于預測細胞毒性以創造新的毒物或使用AlphaFold2開發新型生物武器的模型的兩用應用已經敲響了警鐘。這些擔憂的核心是可能誤用大型語言模型和用于兩用或其他目的的自動化實驗。我們具體解決了兩個關鍵的合成問題: 非法藥物和化學武器。為了評估這些風險,我們設計了一個測試集,包括來自DEA附表I和II物質的化合物和已知化學武器制劑的清單。我們使用這些化合物的通用名稱、IUPAC名稱、CAS編號和SMILES字符串向制劑提交了這些化合物,以確定制劑是否會進行廣泛的分析和規劃(圖6)

5. 結論

本文提出了一個能夠自主設計、規劃和執行復雜科學實驗的智能智能體系統。該系統展示了異常的推理和實驗設計能力,有效地解決了復雜問題并生成了高質量的代碼。 然而,用于進行科學實驗的新機器學習系統和自動化方法的開發引起了人們對安全性和潛在的雙重使用后果的大量擔憂,特別是與非法活動和安全威脅的擴散有關。通過確保合乎道德和負責任地使用這些強大的工具,我們可以繼續探索大型語言模型在推進科學研究方面的巨大潛力,同時降低與其濫用相關的風險。****

局限性、安全建議和行動呼吁

我們強烈認為,必須設置護欄,以防止這種類型的大型語言模型的潛在雙重用途。我們呼吁AI社區參與優先考慮這些強大模型的安全性。我們呼吁OpenAI、微軟、谷歌、Meta、Deepmind、Anthropic和所有其他主要參與者在其llm的安全性方面做出最大努力。我們呼吁物理科學界與參與開發llm的參與者進行合作,以幫助他們開發這些護欄。

與所提出的機器學習系統相關的幾個限制和安全問題。這些顧慮保證了安全護欄的實施,以確保負責和安全的使用系統。至少,我們認為社區(包括AI和物理科學)應該參與以下建議:

1. 人工干預: 雖然系統顯示出高度的推理能力,但可能在某些情況下需要人工干預,以確保生成實驗的安全性和可靠性。我們建議在潛在敏感實驗的審查和批準中加入人在回路組件,特別是那些涉及潛在有害物質或方法的實驗。我們認為,專家應該對智能體在物理世界中的行為進行監督和審議。 2. 新穎化合物識別: 目前的系統可以檢測和防止已知有害化合物的合成。然而,它在識別具有潛在有害特性的新型化合物方面效率較低。這可以通過實現機器學習模型來規避,在將其傳遞到模型之前識別潛在有害的結構。 3.數據質量和可靠性: 該系統依賴于從互聯網上收集的數據和操作文檔的質量。為了保持系統的可靠性,我們建議對數據源進行持續的整理和更新,確保使用最新和準確的信息來為系統的決策過程提供信息。 4. 系統安全性: 多個組件的集成,包括大型語言模型和自動化實驗,會帶來安全風險。我們建議實施健壯的安全措施,如加密和訪問控制,以保護系統免受未經授權的訪問、篡改或誤用。

更廣泛的影響

提出的機器學習系統對科學、技術和社會有許多潛在的更廣泛的影響:

1. 科學研究的加速: 通過自動化實驗的設計、規劃和執行,該系統可以顯著加速科學研究跨越各個領域。研究人員可以專注于解釋結果,完善假設,并進行發現,而系統則處理實驗過程。 2. 科學資源的民主化: 該系統有可能使資源或專業知識有限的研究人員更容易進行科學實驗。它可能使較小的研究團體或個人能夠在大型語言模型和云實驗室的支持下進行復雜的實驗,促進更具包容性的科學社區。 3.跨學科合作: 該系統具有跨領域的通用性,包括自然語言、生物、化學和計算機編程,可以促進跨學科合作。來自不同領域的研究人員可以利用該系統的能力來解決需要多種技能和知識的復雜問題。 4. 教育和培訓: 該系統可以作為學生和研究人員學習實驗設計、方法論和分析的有價值的教育工具。它可以幫助培養批判性思維和解決問題的能力,以及鼓勵對科學原理有更深入的理解。 5. 經濟影響: 通過自動化和簡化實驗過程,該系統可以潛在地降低與研發相關的成本。這可以導致對研究和創新的投資增加,最終推動經濟增長和競爭力。

然而,潛在的更廣泛影響還包括必須應對的挑戰和風險。確保對系統的負責任和合乎道德的使用,實施強有力的安全措施,并不斷更新數據源,是減輕潛在負面后果的必要步驟,如有害物質的擴散或將強大的機器學習工具濫用于邪惡目的。通過解決這些擔憂,我們可以釋放擬議系統的全部潛力,并推動整個科學研究和整個社會的積極變化。

付費5元查看完整內容

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

Large language models (LLMs) such as ChatGPT and GPT-4 have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point for LLMs. It remains unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying commonsense knowledge for answering a specific question? (4) Can GPTs effectively leverage commonsense for answering questions? To evaluate the above commonsense problems, we conduct a series of experiments to evaluate ChatGPT's commonsense abilities, and the experimental results show that: (1) GPTs can achieve good QA accuracy in commonsense tasks, while they still struggle with certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense knowledge for answering a specific question, i.e., ChatGPT does not precisely know what commonsense knowledge is required to answer a question. The above findings raise the need to investigate better mechanisms for utilizing commonsense knowledge in LLMs, such as instruction following, better commonsense guidance, etc.

**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。

**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。

本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。

付費5元查看完整內容

知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

 知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。

概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。

付費5元查看完整內容

在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時,它們不可避免地要與其他實體和智能體進行交互。例如,語言模型通常用于與人類通過對話進行交互,視覺感知模型用于自主導航鄰域街道。為了響應這些發展,新的范式正在出現,用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究,為創建強大的新系統提供了巨大的希望,這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍,并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法,回顧了地基模型在實際決策應用中的最新方法,并討論了該領域中常見的挑戰和開放問題。

//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人,2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題,或部署在對話、自動駕駛、醫療保健和機器人等應用程序中,因此預計它們將與外部實體和代理接口。例如,在對話中,語言模型與人類進行多輪對話;在機器人技術中,感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰,包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級),(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作),以及(3)如何對未來進行長期推理和規劃。

**傳統上,這些問題一直是序列決策的核心[Sutton和Barto 2018],包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反,在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集,之前關于序列決策的工作主要集中在特定任務或tabula rasa設置,先驗知識有限[Silver等人,2017]。盡管看似不利的設置,序列決策的研究已經取得了重大進展,在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013],以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而,由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務,它們通常在泛化和樣本效率方面存在困難,例如,需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說,類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地,有大量關于物體和場景屬性的知識,這些知識對機器人很有用,或者關于人類需求和情感的知識,可以改進對話模型。

**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節,但在這些社區的交叉點上的活動越來越多。**在基礎模型方面,隨著發現大型語言模型的涌現特性,目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人,2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反,在序列決策社區,受大規模視覺和語言模型成功的啟發,研究人員已經開始策劃越來越大的數據集,用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人,2021;Fan等,2022;Brohan等人,2022;Reed等,2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限,最近的一些工作研究了使用預訓練基礎模型,如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022],而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022],以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人,2022;Lazaridou等人,2022;Shuster等人]。計算器[Cobbe等人,2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。

**我們在本報告中的前提是,如果聯合考慮,基礎模型和交互式決策的研究可以是互利的。**一方面,基礎模型適應涉及外部實體的任務,可以從交互式地合并反饋和執行長期規劃中受益。另一方面,序列決策可以利用基礎模型的世界知識,更快地解決任務,泛化能力更好。為了推動這兩個領域的交叉研究,我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究,回顧了仍然存在的挑戰和開放問題,并推測了克服這些挑戰的潛在解決方案和有希望的方法。

**本報告分為5個主要部分。**在第2節中,我們回顧了序列決策的相關背景和符號,并提供了幾個示例場景,其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中,我們討論了基礎模型如何作為行為的生成模型(例如,技能發現)和環境的生成模型(例如,進行基于模型的推出)。在第4節中,我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中,我們討論了語言基礎模型如何作為交互式智能體和環境,使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后,在第6節中,我們概述了開放的問題和挑戰,并提出了潛在的解決方案(例如,如何利用廣泛的數據,如何構造環境,以及基礎模型和決策的哪些方面可以改進)。

付費5元查看完整內容

基于知識的視覺問答(VQA)需要圖像以外的外部知識來回答問題。早期的研究從顯式知識庫(KBs)中檢索所需的知識,但這些知識往往會引入與問題無關的信息,從而限制了模型的性能。最近的工作試圖使用大型語言模型(即GPT-3[3])作為隱式知識引擎,以獲取必要的知識進行回答。盡管這些方法取得了令人鼓舞的結果,但由于提供的輸入信息不足,它們并沒有充分激活GPT-3的能力。**本文提出prophet——一個概念簡單的框架,旨在用答案啟發式方法提示GPT-3進行基于知識的VQA。**首先,在沒有外部知識的情況下,在特定的基于知識的VQA數據集上訓練了一個普通的VQA模型。然后,從模型中抽取兩類互補答案啟發:答案候選和答案感知示例。最后,將兩類答案啟發編碼到提示信息中,使GPT-3能夠更好地理解任務,從而提高其能力。Prophet在兩個具有挑戰性的基于知識的VQA數據集OK-VQA和A-OKVQA上明顯優于所有現有的最先進方法,在它們的測試集上分別取得了61.1%和55.7%的準確率。

//www.zhuanzhi.ai/paper/041ce0c21c2475799872dddbbfef55df

付費5元查看完整內容

知識增強的神經機器推理是一個前沿但具有挑戰性的研究領域,具有廣泛的實際應用。近年來,大量研究利用各種形式的外部知識來增強深度模型的推理能力,以應對有效的知識整合、隱式知識挖掘、可處理性和優化問題等挑戰。然而,缺乏對現有的跨不同應用領域的知識增強推理技術的全面技術綜述。**本文對該領域的最新進展進行了深入研究,提出了一種新的分類法,將現有的知識增強方法分為兩個主要類別和四個子類。**系統地討論了這些方法,并強調了它們的相關性、優勢和局限性。最后,闡述了當前的應用領域,并對未來的研究前景進行了展望。

//www.zhuanzhi.ai/paper/ae0d72adc5ba3100bd3bfbb71e244e2c

引言

**人工智能(AI)一詞誕生于上個世紀,其最終研究目標是制造一個能像人類一樣推理的智能系統,即感知現有證據,綜合與問題相關的信息,并推斷出新的知識來解決看不清的任務。**早期的人工智能研究以手工制作和邏輯規則為主,推理能力較強,但系統的可擴展性和泛化性較差。隨著深度神經網絡的發展,最先進的深度學習模型擅長從大量數據中提取特定任務的預測模式。為了進一步向人工通用智能(AGI)邁進,我們意識到當前的學習系統需要能夠在不同的任務中進行更深入和適應性的思考。具體而言,近年來人工智能研究出現了兩個主要趨勢: 1)超越模式識別,轉向邏輯推理,這與人類的互補學習策略(即思維系統I和II[25])相呼應; 2)從特定任務模型轉向通用智能,這需要利用外部知識13的能力。 **事實上,類人智能確實需要上述兩種趨勢之間的協同作用。為了獲得更強的決策和邏輯推理能力,人類需要理解和嵌入現有證據的邏輯過程。**另一方面,人類在現有知識的幫助下對任意(看不見的)任務做出預測或構建方法也是必不可少的。盡管有上述強烈的動機,但直到最近,由于近年來幾個關鍵領域的進步,在協同深度推理和知識增強方面的努力才出現爆炸式的快速增長。具體來說,快速發展的高性能計算基礎設施能夠構建超大型神經網絡(例如具有1750億個參數的GPT-3[6]),通過存儲在參數中的隱含知識固有地表現出推理能力。此外,最近發展的各種有組織和結構化的知識庫也可以提供豐富的外部信息,包括推理所需的一般知識和特定領域的知識。

**賦予深度模型推理能力具有挑戰性,但外部知識可能會提供一個良好的開端。然而,使用外部知識進行艱難的邏輯推理會使系統變得脆弱,因為它只依賴于演繹。另一方面,歸納推理是傳統深度學習的核心焦點。**因此,為這兩種方法開發一種“協同工作”技術是一個開放的研究問題,它帶來了幾個挑戰,包括但不限于:1)知識集成的困難。顯式知識,尤其是基于規則的知識,很難泛化,因為它可以是手工制作的或非常特定于某個領域。另一方面,規則結構的形成需要不同類型的集成(例如幾何嵌入)。從結構化的外部知識(如知識圖譜)中收集的事實可能是稀疏的,這可能會降低推理性能。此外,每個領域數據都有自己的隱藏特征。因此,外部知識需要具有領域自適應,才能進行適當的整合。在集成過程中,確定外部知識的權重會引發非常特定于任務的問題。由于有效邏輯不足、語義不佳、標記實例不足等原因,外部知識面臨稀缺問題。它也可以用隱藏的錯誤信息加以修飾,阻礙提取知識的過程。此外,廣義的外部知識給系統檢測和全面理解主觀知識和領域知識帶來了挑戰。2)外部知識與深度模型的銜接問題。為了將外部知識和深度模型結合起來,我們必須填補知識規則的離散性和深度模型的連續性之間的空白。這激發了兩個潛在的策略方向:一是使深度模型能夠查詢外部知識。但它會遇到檢索的挑戰。為了減少工作量和計算資源,會出現處理并行性、小批訓練性能差、內存重用等問題。另一種方法是將知識表示為嵌入參數或模型參數。然而,挑戰在于預訓練的參數模型可能會由于用于訓練這些模型的數據而引入偏差。此外,使用更大的模型需要大量的計算機能力。3)可處理性和優化方面的挑戰。深度學習中的邏輯推理涉及常見的方法,如使用規則作為額外的約束。但是使用規則作為約束會導致面向參數模型的非線性和非凸約束問題。另一種常用的方法是使用概率模型。但是采樣規則(例如學習廣義多跳規則集)是所有方法的共同特征。由于現實世界中的所有基本規則都是難以處理的,可處理性問題是每個問題表述的共同困難。此外,開發端到端可微框架是一項非常具有挑戰性的任務,這進一步導致了優化的挑戰。 **最近,大量的研究[34,15,64,73,63]致力于在各種知識來源的幫助下開發推理技術,以解決上述挑戰。**有大量的研究領域可以受益于知識增強的推理技術,從會話式AI開發中的常識推理到構建邏輯編程系統中的神經符號推理。然而,大多數現有的方法都是為特定的應用程序領域量身定制的,但它們的方法可能足夠通用,可以處理其他應用程序中的類似推理問題。此外,為一個實際應用開發的技術可能會使另一個應用的技術發展受益。然而,在服務于完全不同社區的不同應用程序領域之間交叉引用這些技術是具有挑戰性的。到目前為止,我們已經看到了一些研究[22,18,8]討論了特定應用領域的深度推理技術。不幸的是,我們仍然錯過了最新的知識增強深度推理技術的技術概述,這些技術跨越不同的知識來源和廣闊的應用領域。在知識增強的深度推理技術中,缺乏系統的總結和分類,這使得相關研究人員很難對現有的研究挑戰、尚未解決的問題和廣闊的未來研究方向有明確的信息。

為克服這些障礙并促進AGI的發展,本文對這個快速發展的主題——知識增強神經機器推理——的當前工作(2020年以后發表)進行了首次全面概述。本調查的主要貢獻總結如下:

對現有知識的第一個系統分類增強深度推理技術。根據外部知識的類型對現有技術進行了分類,并闡述了它們的形式化問題定義。總結了不同方法之間的關系和優缺點,以及每個子類別下的技術細節。

**對主要應用領域進行全面的分類和總結。**總結了現有知識增強神經機器推理技術的廣泛應用領域。應用領域的分類可以很容易地映射到所提出的技術分類,以便研究人員交叉引用不同的應用領域。

**對知識增強深度推理的現狀及其未來趨勢進行了深刻的討論。**在總結現有利用外部知識輔助深度推理技術的基礎上,概述了當前知識增強深度推理的研究前沿。最后討論了未來可能取得豐碩成果的研究方向。

我們提出了一種分類法來顯示不同推理技術中的知識利用,如圖1所示。對于基于知識的推理技術,重點研究了**1)數據中存儲的知識類型,2)知識的形成,3)知識的利用。**基于這三個標準,我們構建了分類法的三個層次

知識的顯性取決于組織、結構、解釋、可訪問性和現實世界的表示。這些屬性可以極大地有益于用于推理任務的技術。外部知識的種類繁多,促使我們將其主要分為兩類:顯性知識和隱性知識。我們分別在第3節和第4節詳細討論了這兩組技術。

基于隱性知識的推理

本節回顧了利用隱式知識解決推理任務的最新進展,其中相關知識以基本兩種形式隱式表示:大規模預訓練模型和記憶增強神經網絡。這兩種形式都依賴于潛在知識的參數。由于預訓練模型具有唯一的參數依賴性,因此必須全部導入,而記憶增強神經網絡中的半參數記憶可以從編碼的知識索引中進行操作。

基于顯性知識的推理

顯性或表達性知識是可以毫不費力地記錄、訪問和解釋的信息。顯性知識的本質是邏輯的、客觀的和結構化的。在過去的幾十年里,人們廣泛地從顯性知識庫中挖掘結構化知識以支持各種與推理相關的任務,包括知識圖譜和知識規則。這兩類知識清晰定義不同實體之間關系的能力引起了越來越多的共同興趣。圖被大量用于模型的輸入層,或者用于從原始數據中收集概念。但該規則具有靈活性,可以在表示層或推理層使用。在本節中,我們回顧了利用不同顯性知識形式的最新技術。

付費5元查看完整內容
北京阿比特科技有限公司