**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。
**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。
本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。
運用邏輯推理能力進行全面的自然語言理解嘗試。隨著生成預訓練Transformer 4(GPT-4)的發布,它在推理任務上被稱為“先進”的,我們渴望了解GPT-4在各種邏輯推理任務上的表現。本報告分析了多個邏輯推理數據集,包括流行的基準數據集如LogiQA和ReClor,以及新發布的數據集如ARLSAT。我們使用需要邏輯推理的基準測試多選閱讀理解和自然語言推理任務。我們進一步構建了一個邏輯推理的分布外數據集,以調研ChatGPT和GPT-4的魯棒性。我們還對ChatGPT和GPT-4的性能進行了比較。實驗結果表明,在大多數邏輯推理基準測試中,ChatGPT的表現明顯優于RoBERTa微調方法。在我們的手動測試中,GPT-4表現得更好。在這些基準測試中,ChatGPT和GPT-4在知名數據集如LogiQA和ReClor上表現相對較好。然而,在處理新發布和分布外的數據集時,性能顯著下降。對于ChatGPT和GPT-4來說,邏輯推理仍然具有挑戰性,尤其是在分布外自然語言推理數據集上。
1. 引言
邏輯推理對人類智能至關重要,將邏輯推理能力納入自然語言理解(NLU)系統自人工智能開始以來一直是一個活躍的研究興趣(Cresswell, 1973) (Kowalski, 1979) (Iwanska′,1993)。研究人員一直在探索實現這一目標的各種方法,包括基于規則的方法、符號系統(MacCartney和Manning, 2007a)、微調大型語言模型(Wang等人,2018),以及結合神經和符號方法(Li和Srikumar, 2019)。
在傳統的邏輯和語義方法中,計算語言學家開發了利用一階邏輯(FOL)或自然邏輯(macaccartney和Manning, 2007a)的符號系統來解決基本的推理任務。基于規則的模型很難用手工制定的規則和定理證明器來解決諸如RTE挑戰(Dagan等人,2005年)等問題。早期研究人員采用的形式邏輯推理提出了符號系統和手工設計的規則,其中知識使用形式邏輯或其他符號表示顯式地表示。通過規則,系統可以進行演繹操作。然而,這些方法在處理模糊性和可擴展性方面面臨挑戰。它們在處理真實世界的自然語言數據時很脆弱。
神經網絡模型時代看到了大規模NLI數據集的興起作為流行基準。例如,SNLI (Bowman等人,2015)和多流派NLI (MNLI) (Williams等人,2018)數據集是通過眾包創建的,具有巨大的數據規模和廣泛的覆蓋面。它們促進了具有更好表示能力的模型的發展,并成為自然語言理解研究的首選基準。隨著基于transformer (Vaswani et al., 2017)的語言模型(如BERT (Devlin et al., 2018)的出現,模型性能的巨大飛躍,這些模型的訓練方案使它們能夠訪問巨大的未標記語料庫。因此,構建具有數萬億參數的語言模型成為可能(Brown et al., 2020) (Raffel et al., 2019)。預訓練和微調的范式自此成為文本推理任務的主要解決方案。研究人員在對大規模文本語料庫進行預訓練后,對特定任務數據集的語言模型進行微調。大型預訓練語言模型(LMs)在流行的NLI和MRC基準上取得了超越人類的表現,這促使人們在文本推理方面進行更復雜的基準測試。
隨著最近幾個數據集的發布,邏輯推理NLP研究重新獲得了勢頭,特別是LogiQA和Reclor。數據集來自中國公務員考試和法學院入學考試(LSAT)等邏輯推理考試。這些測試即使對人類來說也是具有挑戰性的,并且是高質量的Golden標記數據。邏輯推理被用于大型預訓練語言模型(PLM)的許多探測任務和問答和對話系統等下游任務中。與傳統基準相比,PLM表現不佳。盡管到目前為止取得了進展,但在NLU系統中實現類似人類的邏輯推理能力仍然是一項具有挑戰性的任務。生成式預訓練Transformer 4 (GPT-4) (OpenAI, 2023)以及ChatGPT是OpenAI新發布的語言模型,旨在理解和生成多模態內容。GPT-4在需要邏輯推理的任務中具有更強大的能力。邏輯推理對人類的智能至關重要,它使我們能夠根據給定的信息得出結論、做出預測并解決問題。將邏輯推理納入到語言模型中,如GPT-4,可以徹底改變自然語言理解(NLU)系統,使其更準確,更魯棒,并能夠理解自然語言中的復雜信息。
對ChatGPT和GPT-4在邏輯推理任務上的性能進行了評估,探索了它們在多個邏輯推理基準上的性能,詳細分析了ChatGPT和GPT-4在邏輯推理任務上的優勢和局限性。我們將討論評估GPT-4邏輯推理能力的兩個任務:多項選擇閱讀理解和自然語言推理。這兩個任務都是推理繁重的,并可作為測試模型推理能力的游樂場。在這兩種任務下,已經發布了多個邏輯推理數據集。事實證明,這些基準對于PLM來說很難解決。希望該報告能進一步揭示ChatGPT和GPT-4的邏輯推理能力。我們的貢獻如下:
2. 實驗設置
考慮多項選擇閱讀理解和自然語言推理任務進行評估。多項選擇閱讀理解在大型語言模型上進行了大量測試,因為這些任務通常具有結構清晰和高質量的數據集。另一方面,自然語言推理任務是評估推理能力的基本任務。
**表1顯示了多項選擇閱讀理解數據集的結果。**ChatGPT顯示,在幾個長期基準上,與基線模型相比,性能有所提高。在LogiQA 2.0測試集上準確率達到53.37%,比RoBERTa基礎模型高出近4個點。在中文LogiQA 2.0版本上進行測試時,ChatGPT與RoBERTa的性能差距較大,表明ChatGPT在中、英文語言上的性能具有一致性。ChatGPT在ReClor數據集上取得了57.38%的準確率,而RoBERTa的準確率為55.01%。然而,ChatGPT在分布外的數據集上的性能會大幅下降。在AR-LSAT測試集上,準確率僅為20.42%,低于RoBERTa base的性能。在LogiQA 2.0 ood上的性能為38.44%,仍然低于RoBERTa base。實驗結果表明,ChatGPT在LogiQA和ReClor等邏輯推理系統中表現良好。ChatGPT的準確性略高于微調方法。然而,在新發布的AR-LSAT數據集和LogiQA 2.0分布外數據集上進行測試時,性能明顯下降。
盡管有局限性,ChatGPT仍然代表了自然語言理解的重大進步,并展示了語言模型進行邏輯推理的潛力。在LogiQA和ReClor上進行手動測試時,GPT-4的性能明顯優于ChatGPT。在LogiQA 2.0測試集上,GPT-4的準確率為75.26%。然而,在中文LogiQA 2.0測試集上,GPT-4在中文版本數據集上的準確率下降明顯,達到了51.76%。在ReClor開發集上(ReClor在其測試中也不包括黃金標簽),GPT-4達到了92.00%的準確率,這是顯著的。然而,當在AR-LSAT測試集上進行測試時,GPT-4的表現令人驚訝地更差,只有18.27%的準確率。在LogiQA 2.0 ood數據集上的測試結果表明,GPT-4的正確率僅為48.21%,明顯低于在ReClor數據集上的正確率。我們不會急于得出結論,但可以肯定地說,GPT-4在分布外數據集上的性能下降是明顯的。
在自然語言推理任務上的實驗結果表2展示了在自然語言推理數據集上的結果。在邏輯推理NLI數據集上,ChatGPT的性能優于RoBERTa模型。在對照測試集(805個實例)上,準確率達到58.45%,比RoBERTa-base模型高出近10%。在ConjNLI測試集(623個實例)上,ChatGPT的準確率為47.03%,比RoBERTa高出約9%。在HELP數據集(35891個實例)上,ChatGPT獲得了42.31%的準確率,比RoBERTa高出約3個點。在MED數據集(5382個實例)上,ChatGPT的準確率為55.02%,比RoBERTa高出近9%。在TaxiNLI測試集(10071個實例)上,ChatGPT取得了57.30%的準確率,比RoBERTa算法提高了7%以上。由于我們注意到ChatGPT不擅長遵循NLI任務指令,因此我們提供了一個上下文示例來幫助模型生成任務標簽,如圖2所示。總的來說,結果表明,與在閱讀理解任務上的表現相比,ChatGPT僅以很小的優勢超過微調后的RoBERTa。
我們在五個NLI數據集上測試了GPT-4的性能。一般來說,GPT-4的性能比ChatGPT好,但結果并不令人驚訝。在對照測試集上,GPT-4的表現與ChatGPT相當,獲得了58.18%的準確率。在ConjNLI測試集和HELP上的準確率分別為61.00%和53.33%,表現略好。在MED和TaxiNLI數據集上的性能較好,分別達到了75.79%和75.47%。在5個NLI數據集上的實驗結果表明,與多項選擇閱讀理解相比,GPT-4在邏輯推理和自然語言推理上并沒有表現出令人印象深刻的性能。在自然語言推理任務場景中,即使提供了指令,GPT-4也不能穩定地輸出標簽。由此我們可以推斷,雖然GPT-4在多項選擇閱讀理解任務中訓練得很好,但在自然語言推理任務中卻不擅長遵循指令。
實驗結果表明,ChatGPT和GPT-4在大多數邏輯推理基準測試上優于RoBERTa,包括流行的LogiQA和ReClor以及不太知名的AR-LSAT數據集。然而,對于兩個GPT模型來說,分布外數據集的性能下降是明顯的,這表明它們很難處理新的和不熟悉的數據。
ChatGPT是OpenAI基于GPT-4架構創建的大型語言模型。它旨在理解和響應自然語言文本輸入,允許與機器進行對話。ChatGPT已經在大量數據上進行了訓練,使它能夠對廣泛的提示生成連貫和上下文適當的響應。憑借先進的自然語言處理能力,ChatGPT具有執行語言翻譯、文本摘要和問答等任務的能力。 ChatGPT作為一個大型語言模型,在教育、醫療、客服、娛樂等領域有著廣泛的應用。在這一部分中,我們將討論ChatGPT的一些最值得注意的應用,以及如何使用它們來增強各種行業。
聊天機器人和虛擬助手——ChatGPT最常見的應用之一是開發聊天機器人和虛擬助手。憑借其先進的自然語言處理能力,ChatGPT可以用來創建能夠理解并響應人類輸入的聊天機器人。這些聊天機器人可以用于各種行業,從客戶服務到醫療保健,幫助用戶查找信息、回答問題和解決問題。
語言翻譯- ChatGPT也可以用來開發語言翻譯工具。ChatGPT具有理解和生成多種語言文本的能力,可以用來創建翻譯工具,將文本從一種語言翻譯成另一種語言。這個應用程序在國際商務和外交行業中特別有用。 3.文本摘要——它也可以用于開發文本摘要工具,以幫助用戶快速而無困難地理解一篇長文本的要點。這個應用程序在新聞業中很有用,因為記者需要快速地為觀眾總結新聞故事。
問答——ChatGPT可以用來創建問答工具,幫助用戶快速輕松地查找信息。這些工具可以用于各種行業,從教育到客戶服務,幫助用戶找到問題的答案,而不必在長文檔或網站中搜索。
個性化內容生成——ChatGPT還可以根據用戶的興趣和偏好為用戶生成個性化內容。該應用程序可用于營銷和娛樂等行業,以創建更有可能吸引和留住用戶的定向廣告和內容。
教育——ChatGPT可以用于教育,為學生創造個性化的學習體驗。通過分析學生數據并生成個性化內容,ChatGPT可以幫助學生按照自己的節奏并以最適合他們學習風格的方式學習。
醫療保健——同樣,在醫療保健領域,ChatGPT可以幫助醫生和護士快速準確地診斷患者。ChatGPT可以通過分析患者數據和生成可能的診斷結果,幫助醫療保健專業人員做出更明智的決定,并提供更好的患者護理。
娛樂——ChatGPT還可以創建交互式娛樂體驗,例如聊天應用程序可以用于游戲和社交媒體行業,創建富有吸引力和沉浸感的用戶體驗。
客戶支持——ChatGPT可以以多種方式用于客戶服務
本文對GPT系列中最先進的大型語言模型(LLM) ChatGPT和GPT-4及其在不同領域的應用前景進行了全面的綜述。事實上,關鍵創新,如在整個萬維網上捕捉知識的大規模預訓練、指令微調和從人工反饋中強化學習(RLHF),在提高llm的適應性和性能方面發揮了重要作用。對arXiv上的194篇相關論文進行了深入分析,包括趨勢分析、詞云表示和跨不同應用領域的分布分析。研究結果表明,人們對ChatGPT/GPT-4的研究興趣顯著增加,主要集中在直接的自然語言處理應用上,同時在教育、歷史、數學、醫學和物理等領域也顯示出巨大的潛力。本研究旨在揭示ChatGPT的能力、潛在意義、倫理問題,并為該領域的未來發展指明方向。1. 引言自然語言處理(NLP)的最新進展導致了強大的語言模型的發展,如GPT(生成式預訓練Transformer)系列[1,2,3,4,5],包括ChatGPT和GPT-4等大型語言模型(LLM)。這些模型是在大量文本數據上進行預訓練的,并在廣泛的NLP任務中表現出卓越的性能,包括語言翻譯、文本摘要和問答。特別是ChatGPT模型在教育、醫療、推理、文本生成、人機交互和科學研究等各個領域都展示了其潛力。
LLM開發的一個關鍵里程碑是InstructGPT[5],一個框架,允許基于人工反饋強化學習(RLHF)對預訓練語言模型進行指令微調[6,5]。該框架使LLM能夠適應廣泛的NLP任務,通過利用人工反饋使其高度通用和靈活。RLHF使模型能夠與人類的偏好和價值觀保持一致,這與僅通過無監督預訓練訓練文本語料庫的大型語言模型相比有了顯著提高。ChatGPT是InstructGPT的繼承者。自2022年12月發布以來,ChatGPT已經具備了這些先進的開發,在推理和廣義文本生成等各種下游NLP任務中取得了令人印象深刻的性能。這些前所未有的NLP能力促進了教育、醫療、人機交互、醫學和科學研究等不同領域的應用。ChatGPT得到了廣泛的關注和興趣,越來越多的應用和研究利用了其巨大的潛力。多模態GPT-4模型的公開發布進一步擴展了大型語言模型的視野,并促進了涉及文本以外的各種數據的令人興奮的發展。本文對ChatGPT的現有研究及其在各個領域的潛在應用進行了全面的綜述。為了實現這一目標,我們對arXiv庫中與ChatGPT相關的論文進行了全面的分析。截至2023年4月1日,在arXiv上共有194篇論文提到了ChatGPT。在這項研究中,我們對這些論文進行了趨勢分析,并生成了一個詞云來可視化常用術語。此外,我們還檢查了不同領域的論文分布,并給出了相應的統計數據。圖1顯示了ChatGPT相關論文的每日提交趨勢,表明人們對該領域的興趣越來越大。圖2展示了所有論文的詞云分析。我們可以觀察到,目前的研究主要集中在自然語言處理上,但在教育和歷史等其他領域的研究仍然有很大的潛力。圖3進一步支持了這一點,它顯示了在各個領域提交的論文的分布,強調了在這些領域進行更多研究和開發的必要性。本文旨在揭示ChatGPT的潛力,并深入探討其對未來的潛在影響,包括倫理方面的考慮。希望通過本文的綜述,為未來如何改進和擴展這些模型提供見解。在第2節中,我們將回顧與ChatGPT相關的現有工作,包括它的應用、倫理考慮和評估。除了討論ChatGPT相關的研究現狀,我們還將在第3節中探討其局限性。此外,還將為語言模型的未來發展方向提供指導。
2 ChatGPT的相關工作
在本節中,我們對ChatGPT的應用、倫理、評價等方面的最新研究進展進行了綜述。
2.1 ChatGPT的應用
2.1.1 問答
在教育領域,ChatGPT通常用于教育領域的問答測試。用戶可以使用ChatGPT學習、比較和驗證不同學科(如物理、數學和化學)的答案,或者概念學科(如哲學和宗教)的答案。此外,用戶可以提出開放式和分析性的問題,以了解ChatGPT的功能**。**在數學領域,Frieder等人構建了由研究生水平數學試題組成的GHOSTS自然語言數據集。作者使用問答格式在GHOSTS數據集上測試了ChatGPT的數學能力,并根據細粒度標準對其進行了評估。在涵蓋簡單集合理論和邏輯問題的Grad文本數據集上,ChatGPT表現最好。然而,在奧林匹克解題數據集上,ChatGPT表現不佳,只得到了兩個4分的分數(總分5分),大部分分數都是2分。在Holes- In - proof數據集中,ChatGPT得到了最低的1分。在數學數據集中,ChatGPT只在26%的案例中獲得了令人印象深刻的分數。這些結果表明,ChatGPT的數學能力明顯低于普通的數學研究生。雖然ChatGPT可以大致理解數學問題,但卻無法提供正確的解決方案。Pardos等人[8]使用開放自適應輔導系統(OATutor)來調查ChatGPT生成的提示是否對學習代數有幫助,來自Mechanical Turk的77名參與者參加了實驗。實驗使用的問題來自OpenStax的初等和中級代數教科書。這些參與者被隨機分配到控制組(有手動提示)或實驗組(有ChatGPT提示)。對于兩門課程中的每一個問題,作者都通過問答形式從ChatGPT中獲取答案,并根據三個標準進行評分:ChatGPT提供了一個答案,答案正確,答案中沒有使用不當的語言。研究發現,ChatGPT生成的提示有70%通過了人工質量檢查,無論是人類還是Chat- GPT都產生了積極的學習收益。然而,人工提示的得分在74.59% - 84.32%之間,明顯高于ChatGPT提示的得分。Shakarian et al.[9]研究了ChatGPT在數學應用題(MWPs)上的表現,使用DRAW-1K數據集進行實驗。該數據集由1000個MWPs和他們的答案組成,以及用于解決此類問題的代數方程模板。作者利用機器學習自省的思想,使用隨機森林和XGBoost構建性能預測模型,并在數據集上使用五折交叉驗證對其進行評估。ChatGPT的準確率從最初的34%提高到最終的69%,而召回率從最初的41%提高到最終的83%。作者還發現,ChatGPT的失敗率從最初的84%下降到最終的20%,這表明,具體的工作要求可能會有很大的差異。
在物理學領域,Lehnert等人[10]通過研究ChatGPT如何處理弦論中的沼澤地猜想等晦澀的物理話題,探索了ChatGPT的能力和局限性。實驗對話從弦理論領域更廣泛、更一般的問題開始,然后縮小到具體的沼澤地猜想,并檢查ChatGPT對這些猜想的理解。研究發現,ChatGPT可以不同地定義和解釋各種風格的概念,但并不能有效地將各種概念真正聯系起來。它會在必要時自信地提供虛假的信息和捏造的陳述,表明ChatGPT不能真正創造新的知識或建立新的連接。然而,在識別類比和描述視覺表征的抽象概念方面,ChatGPT可以巧妙地使用語言。Kortemeyer et al.[11]通過問答測試評估了ChatGPT回答基于微積分的物理問題的能力。測試包括在線作業、點擊器問題、編程練習,以及涵蓋經典力學、熱力學、電學和磁學以及現代物理的考試。雖然ChatGPT能夠通過這門課程,但它也展示了許多初學者普遍存在的誤解和錯誤。West et al.[12]在大學物理第一學期使用力概念量表(Force Concept Inventory, FCI)來評估ChatGPT在回答與運動學和牛頓力學相關的物理概念問題時的準確性。FCI涵蓋了運動學、拋射運動、自由落體、圓周運動和牛頓定律等主題。該研究包括了415名在學期末參加FCI的學生的數據,平均分數為56%,而ChatGPT的分數大約在50%到65%之間。作者論證了ChatGPT在物理學習上的表現可以達到甚至超過一個學期大學物理的平均水平。
在醫學領域ChatGPT的問答功能也可以應用于醫療領域,如回答患者提出的醫療問題或協助醫療專業人員診斷疾病。11月等人[13]評估了使用ChatGPT進行醫患溝通的可行性。實驗從EHR中提取了10個具有代表性的醫患互動,將患者的問題放置在ChatGPT中,并要求ChatGPT使用與醫生的回答大致相同的字數進行回應。每個患者的問題由醫生或ChatGPT回答,并告知患者5個問題由醫生回答,5個問題由ChatGPT生成,并要求患者正確識別回答的來源。實驗結果顯示,正確識別ChatGPT回應的概率為65.5%,而正確識別醫生回應的概率為65.1%。此外,實驗發現,患者對ChatGPT功能可信性的反應為弱陽性(李克特平均得分:3.4),信任隨著問題中健康相關任務復雜性的增加而降低。ChatGPT對患者問題的回答與醫生的回答僅略有不同,但人們似乎信任ChatGPT回答低風險的健康問題,而對于復雜的醫療問題,人們仍然傾向于信任醫生的回答和建議。Tu等[14]探索了ChatGPT在神經性疼痛診斷中的因果發現能力。因果關系發現旨在純粹基于觀察到的數據[15]揭示潛在的未知因果關系。實驗結果發現,ChatGPT在理解新方面存在一定的局限性超越現有文本訓練數據語料庫的知識和概念,即它只理解描述情況常用的語言,而不理解底層知識。此外,它的性能一致性和穩定性不高,因為實驗觀察到,在多次詢問下,它會對同一問題提供不同的答案。然而,盡管ChatGPT有很多局限性,我們相信它在改善因果關系研究方面有很大的機會。
Guo et al.[16]嘗試將ChatGPT應用于通信領域,具體來說是將ChatGPT用于有序重要性語義通信,其中ChatGPT扮演了智能咨詢助手的角色,可以代替人類識別消息中單詞的語義重要性,可以直接嵌入到當前的通信系統中。對于一條要傳輸的消息,發送者首先利用ChatGPT輸出每個單詞的語義重要性排序。然后,發送者基于重要度順序執行不等錯誤保護傳輸策略,使消息中重要單詞的傳輸更加可靠。實驗結果表明,在嵌入ChatGPT的通信系統中測量到的重要單詞的錯誤率和語義損失遠低于現有的通信方案,說明ChatGPT可以很好地保護重要單詞,使語義通信更加可靠。 Wang et al.[17]研究了ChatGPT在為系統文獻搜索生成高質量布爾查詢方面的有效性。他們設計了廣泛的提示,并在100多個系統綜述主題上調查了這些任務。最終,與目前最先進的查詢生成方法相比,ChatGPT生成的查詢取得了更高的準確率,但代價是召回率降低。對于有時間限制的快速評論,以較高的準確率換取較低的召回率通常是可以接受的。此外,ChatGPT可以通過引導提示生成高搜索精度的布爾查詢。然而,需要注意的是,當兩個查詢使用相同的提示符時,ChatGPT會生成不同的查詢,這表明了它在一致性和穩定性上的局限性。總的來說,這項研究證明了ChatGPT在為系統文獻搜索生成有效的布爾查詢方面的潛力。
2.1.2 文本分類
文本分類的目的是將文本數據分配給預定義的類別。這項任務對許多應用至關重要,包括情感分析、垃圾郵件檢測和主題建模。雖然傳統的機器學習算法已被廣泛用于文本分類,但自然語言處理的最新進展導致了更先進技術的發展。ChatGPT在這一領域顯示了巨大的潛力。文獻中的多項研究表明,它能夠準確地對文本進行分類,處理各種分類任務的靈活性,以及可定制的潛力,使其成為文本分類的一個有價值的工具。 Kuzman et al.[18]采用ChatGPT進行自動體裁識別,目標是利用ChatGPT的零樣本分類能力來簡化文本分類任務。他們使用兩種提示語言(EN和SL),與基于多語言模型xln - roberta的X-GENRE分類器在英語數據集EN-GINCO和斯洛文尼亞數據集GINCO上進行了比較。 結果顯示,當使用EN作為提示語言時,ChatGPT實現了Micro F1、Macro F1,準確率得分分別為0.74、0.66、0.72。 但在GINCO數據集上,ChatGPT對EN和SL兩種提示語言的流派識別性能都不同程度地低于x流派分類器。
Amin et al.[19]通過使用ChatGPT執行性格預測、情感分析和自殺意念檢測任務,評估了ChatGPT在情感計算中的文本分類能力。 他們在First Impressions、Sentiment140和Suicide and Depression這三個數據集上對ChatGPT進行了相應的提示,并將其分類性能與RoBERTa-base、Word2Vec和BoW這三個基線模型進行了比較。 結果顯示,ChatGPT在第一印象數據集上對五種人格分類的準確率和UAR均不同程度低于基線方法。 在Sentiment140數據集上,ChatGPT的準確率和UAR分別為85.5和85.5,均優于三種基線方法。 在自殺和抑郁數據集上,ChatGPT的準確率和UAR分別為92.7和91.2,低于表現最好的基線方法RoBERTa。 Zhang et al.[20]采用ChatGPT進行立場檢測,包括支持和反對。 他們使用ChatGPT對SemEval-2016和P-Stance數據集中推文的政治立場進行分類。 SemEval-2016包含4870條英文推文,他們選擇了最常見的FM、LA和HC政治標簽的推文進行立場分類。 P-Stance數據集有21,574條英文推文,他們對針對特朗普、拜登和伯尼的推文進行立場分類。 最終結果顯示,在SemEval- 2016數據集上,ChatGPT在FM、LA和HC政治標簽上的F1-m得分分別達到了68.4、58.2和79.5,F1-avg得分分別達到了72.6、59.3和78.0。 在P-Stance數據集上,ChatGPT在川普、拜登和伯尼政治人物上的F1-m得分分別達到了82.8、82.3和79.4,F1-avg得分分別達到了83.2、82.0和79.4。
Huang等[21]利用ChatGPT檢測推文中的隱式仇恨言論。 他們選取了包含隱式仇恨言論的LatentHatred數據集的12.5%(795條推文),并要求ChatGPT將其分為三類:隱式仇恨言論、非仇恨言論和不確定言論。 結果顯示,ChatGPT正確識別了636條(80%)推文。 被分類為非仇恨言論和不確定言論的推文數量分別為146條(18.4%)和13條(1.6%)。 Amazon Mechanical Turk (Mturk)工人對推文在非仇恨言論和不確定類別中的重分類結果與ChatGPT的分類一致。
總的來說,ChatGPT在文本分類任務中具有巨大的潛力,因為它可以有效地解決體裁識別、情感分析、立場檢測等問題。然而,ChatGPT在文本分類領域仍然面臨挑戰。首先,由于它嚴重依賴訓練數據的分布,因此很難在包含罕見或未出現詞匯的分類任務中表現良好。此外,訓練和使用ChatGPT所需的大量計算資源限制了它在某些應用中的使用。
2.1.3 文本生成
我們生活在一個信息爆炸的時代,文本是傳遞信息的有效方式。信息的多樣性導致了文本類別的多樣性。當研究者使用ChatGPT的文本生成功能進行研究時,不可避免地會選擇生成不同類型的文本。在閱讀論文的過程中,我們發現研究者生成的文本字數從小到大,所以我們想根據文本字數的大小來總結現有的研究。我們將生成的文本分為三個層次:短語、句子和段落。
下面的文章使用ChatGPT來生成短語。Zhang et al.[22]證明了在訓練過程中加入語義增強的語義HAR模型在動作識別方面的表現優于其他模型。語義增強需要共享標記,這在一些數據集上是缺乏的。因此,作者利用ChatGPT為最初沒有共享標記的數據集提供了一種自動標記生成方法。[23]描述了一種新的將自然語言命令轉換為Bash命令的工作流程。作者使用ChatGPT根據用戶輸入生成候選Bash命令列表,然后使用啟發式和機器學習技術相結合的方法對候選命令進行排序并選擇最可能的候選命令。在真實的命令數據集上對該工作流進行了評估,與其他最新的方法相比,取得了較高的準確性。Chen et al.[24]使用Bart模型和ChatGPT來完成幽默標題的總結任務,并比較了兩種模型的性能。研究發現,Bart模型在大型數據集上的表現更好,但ChatGPT在小范圍(48)中與我們最好的微調模型競爭,盡管稍弱。
下面的文章使用ChatGPT來生成句子。Chen等人[25]構建了一個包含場景、時間線、角色屬性和角色關系的對話數據集(HPD),以便使用ChatGPT作為會話代理來生成對話。但是ChatGPT在測試集上的性能較差,存在改進的空間。在[26]研究中,chatGPT通過提供三份虛構的放射學報告給chatGPT進行簡化,展示了其簡化復雜文本的能力。大多數放射科醫生認為簡化后的報告準確完整,對患者沒有潛在的傷害。然而,一些錯誤、遺漏的關鍵醫療信息和文本段落被發現,這可能導致有害的結論,如果醫生不理解。Xia等人提出了一種基于會話的自動程序修復方法(Session-based Automatic program repair, APR)。在APR中,通過將之前生成的補丁與驗證反饋相結合,迭代地構建模型的輸入。使用QuixBugs數據集驗證了該方法的有效性。實驗表明,在兩個修復數據集上,使用人工反饋強化學習(RLHF)微調的ChatGPT優于無監督訓練的Codex。在[28]研究中,ChatGPT與谷歌Translate2、DeepL Translate3和騰訊TranSmart4這三個商業翻譯產品進行了對比。在Flores101測試集上進行評估,使用WMT19生物醫學翻譯任務測試翻譯魯棒性,以BLEU得分為主要指標。研究發現,ChatGPT在高資源的歐洲語言上與商業翻譯產品相比具有競爭力,但在低資源或遙遠的語言上則落后。作者探索了一種名為pivot prompts的有趣策略,它可以顯著提高翻譯性能。雖然ChatGPT在生物醫學摘要或Reddit評論上的表現不如商業系統,但它可能是一個很好的語音翻譯器。Prieto et al.[29]評估了ChatGPT在開發基于自然語言提示的自動化施工進度計劃中的使用。該實驗需要在現有空間中建立新的分區,并提供將要分區的房間的細節。結果表明,ChatGPT能夠生成符合給定范圍要求的一致性調度。然而,仍然有幾個主要的缺陷會限制這個工具在實際項目中的使用。Michail等人[30]提出了一種通過ChatGPT生成帶有親密度評分標簽的推文數據集來提高HeFit微調XLM T模型對推文親密度預測精度的方法。具體操作是將帶有親密度評分標簽的推文輸入ChatGPT,然后輸出相似推文。
下面的文章使用ChatGPT來生成段落。Wang et al.[31]對比了ChatGPT和其他模型在各種跨語言文本數據集上的摘要性能,發現ChatGPT可能在r1、r2、R L和B S. Yang等指標上表現較差。[32]總結了ChatGPT在基于問答的文本摘要中的性能,發現與微調模型相比,ChatGPT在所有性能指標上都略差。然而,這篇文章認為,如果數據集是黃金注釋,ChatGPT的性能可能在這些指標上超過微調模型。Belouadi等人。[33]比較了ByGPT5和ChatGPT在一系列已標記和未標記的英語和德語詩歌數據集上訓練后生成約束風格詩歌的能力,并使用三個指標對其進行評估:韻律、ScoreAlliteration和ScoreMeter分數。結論是ByGPT5的性能優于ChatGPT。Blanco-Gonzalez等人在[34]評測了chatGPT寫評論文章的能力,事實上,這篇文章本身就是ChatGPT寫的。人類作者基于chatGPT的草稿重寫了手稿。專家發現,它可以快速生成和優化文本,以及幫助用戶完成多項任務。然而,在產生新內容方面,它并不理想。最后,可以說,如果沒有強烈的人為干預,chatGPT并不是編寫可靠科學文本的有用工具。它缺乏準確和充分地傳達復雜的科學概念和信息所需的知識和專業知識。Khalil等人對ChatGPT生成內容的原創性進行了探討。為了評估ChatGPT生成的50篇不同主題的論文的原創性,使用了兩種流行的剽竊檢測工具Turnitin和iThenticate。實驗結果表明,ChatGPT在生成抄襲檢測軟件難以捕捉的復雜文本輸出方面具有巨大的潛力。現有的抄襲檢測軟件需要更新其抄襲檢測引擎。Basic等人([36])對使用和不使用ChatGPT-3作為寫作輔助工具的學生的寫作表現進行了比較。實驗分為兩組,每組9名參與者。對照組采用傳統方法撰寫文章,實驗組則以ChatGPT作為輔助。兩位老師對試卷進行了評估。研究表明ChatGPT的輔助并不一定能提高學生的作文質量。Noever et al.[37]討論了使用人工智能(AI),特別是像GPT(包括GPT-3)這樣的語言模型,來創建更有說服力的聊天機器人的潛力,這些聊天機器人可以欺騙人類,使其認為他們正在與另一個人進行交互。這篇文章描述了一系列實驗,在這些實驗中,他們使用GPT-3生成了模仿人類對話的聊天機器人響應,并在人類參與者身上進行了測試。結果顯示,一些參與者無法區分聊天機器人和真實的人類,這突出了這些人工智能聊天機器人被用于欺騙目的的潛力。
2.1.4 代碼生成
代碼生成是指從高層描述或規范自動生成計算機代碼的過程。ChatGPT先進的自然語言處理能力使它能夠執行代碼生成任務。通過分析代碼生成的需求,ChatGPT可以生成準確執行預期功能的代碼片段。這不僅節省了從頭開始編寫代碼的時間和精力,而且還降低了手工編碼過程中可能發生錯誤的風險。此外,ChatGPT學習和適應新的編程語言和框架的能力使其能夠完成更復雜的編程任務。
2.1.5 推理
推理是指從已知的事實或信息中通過邏輯推理得出新的結論或信息的過程。它通常基于一系列前提或假設,并涉及應用邏輯規則或推理方法來得出結論。推理是人類思維中的一種重要能力,常用于解決問題、決策、分析和評價信息等。推理在科學、哲學、法律等領域也起著關鍵作用。有兩種類型的推理:歸納推理,它涉及從已知的事實或經驗中得出一般規則或結論;演繹推理,它涉及從已知的前提或假設中得出特定的結論。無論是歸納還是演繹,推理過程都需要遵循嚴格的邏輯規則,以保證推理的正確性和可靠性。
2.1.6 數據或信息的提取、轉換、增強、處理
2.1.7 Human-ChatGPT協作
人與機器之間的協作是人與機器一起工作以實現共同目標的過程。在這種協作中,人類提供領域專業知識、創造力和決策能力,而機器提供自動化、可擴展性和計算能力。ChatGPT是一種先進的自然語言處理模型,可以理解并生成類人語言,從而降低通信成本。它處理和生成自然語言的能力使其成為人類協作的理想伙伴。ChatGPT可以提供相關建議,根據人類輸入完成任務,提高人類的生產力和創造力。它可以從人類反饋中學習并適應新的任務和領域,進一步提高其在人機協作中的性能。ChatGPT理解自然語言并產生適當響應的能力使它成為各種協作應用程序的有價值的工具,正如我們收集的一些文獻中的研究所證明的那樣。
2.1.8 ChatGPT集成
集成是指組合不同的系統或軟件組件以實現共同的目標。ChatGPT可以作為整體的一部分集成,也可以作為集成工具實現不同系統之間的無縫通信。它的自然語言處理能力使非技術用戶更容易與系統交互,減少了對專業知識或訓練的需求。我們收集的文獻中的一些研究已經證明了這一點。
2.2 人工智能倫理
自ChatGPT問世以來,這種強大的自然語言處理模型在給人們帶來極大便利的同時,也引發了更多的危機意識思考。一些研究者已經開始假設和研究ChatGPT的潛在負面影響。這項前瞻性研究為標準化建設提供了很好的建議,以解決未來的人工智能濫用問題。
3 討論
3.1 限制
盡管ChatGPT和GPT-4具有非凡的能力,但它仍然面臨一定的局限性。其中一些限制包括:
過時的知識
目前的模型是在歷史數據上訓練的(截至2021年),因此缺乏對時事的實時理解。這是當今信息爆炸時代的一個關鍵問題,因為先驗知識庫的可靠性逐漸降低,可能產生不準確的響應,特別是在法學和技術等快速發展的領域。此外,這些模型無法進行事實核查,而訓練數據是由各種來源的內容組成的,其中一些可能是不可靠的,這可能導致看似可信但卻荒謬的回應。
缺失理解
雖然這些模型可以解釋大多數查詢和上下文情況,但在處理模糊或上下文復雜的查詢時,它們偶爾會遇到理解偏差。此外,在某些專業領域,獨特縮寫的豐富加劇了模型的理解挑戰,導致錯誤和空洞的回答。
能源消耗
在整個訓練和推理階段,這些大規模模型需要大量的計算資源和電力,導致能源消耗上升和大量的碳排放。因此,這限制了它們的部署和實際應用。
惡意使用
盡管OpenAI實施了一系列限制以減輕模型毒性,但用戶通過精心設計的提示規避這些限制的實例已經出現,誘導模型產生不健康的內容,甚至將其用于非法商業目的。
偏見和歧視
由于預訓練數據的影響,模型在政治、意識形態和其他領域表現出偏見。llm在公共領域的應用,如教育和宣傳,應該以極其謹慎的態度對待。
隱私和數據安全
隨著用戶規模的擴大,保護用戶隱私和數據安全變得越來越重要。事實上,ChatGPT在4月初就因為隱私問題在意大利被禁了。考慮到模型在交互過程中廣泛收集個人信息和偏好,這一點尤其重要,因為未來的多模態模型,如GPT-4,可能會頻繁要求用戶上傳私人照片。
3.2 未來的方向
在即將到來的研究中,基于ChatGPT和GPT-4的模型的開發可能專注于解決這些限制,以增強其實際應用。 首先,研究人員應該在過濾預訓練數據的同時繼續致力于精煉模型訓練方法,以最大限度地減少模型知識庫中存在的誤導性信息,從而獲得準確的響應。同時,強調節約計算資源的訓練方法至關重要,從而降低成本并拓寬潛在的應用場景。
此外,上下文感知和消歧技術的進步預計將有助于增強對復雜查詢的理解通過模型,提高AI生成內容的準確性、相關性和上下文感知。集成實時數據流還可以使這些模型與當前事件和趨勢保持同步,使它們能夠提供實時的信息,如實時交通、天氣和股票更新。
此外,開發者應該與不同領域的專家進行跨學科合作,包括決策、法學和社會學,目的是為LLM的開發、部署和使用制定標準和倫理框架,從而減輕潛在的有害后果。在公眾意識和教育方面,特別是在K-12教育和新聞等行業,在大規模公共部署和應用之前,應實施強制性的意識培訓,以提高公眾對LLM能力和局限性的認識,同時促進負責任和知情的利用。
最后,ChatGPT和GPT-4的影響不應該僅限于NLP領域。它們在計算機視覺、受大腦啟發的AI和機器人等領域也顯示出了良好的前景。這些模型表現出可與人類水平的智能相媲美的學習和理解能力,將其定位為人工通用智能(AGI)發展中的關鍵組成部分[101]。它們促進人類和機器人之間無縫交互的能力為執行更復雜的任務鋪平了道路。這些模型的零樣本上下文學習的顯著能力使其能夠快速適應新任務,而不需要進行微調的標記數據,這在醫學信息學[102]和機器人[103]等領域是一個關鍵挑戰,在這些領域標記數據的可用性通常有限或不存在。
4 結論
這篇綜述論文對ChatGPT和GPT-4進行了全面的綜述,強調了它們的潛在應用和在自然語言處理領域的重大貢獻。這項研究的發現表明,人們對這些模型的興趣正在迅速增長,它們在廣泛的領域都顯示出了相當大的應用潛力。ChatGPT和GPT-4成功的一個關鍵因素是它們能夠進行大規模的預訓練,從浩瀚的互聯網中捕獲知識,使模型能夠從大量的數據中學習。融合了來自人類反饋的強化學習(RLHF),進一步增強了模型的適應性和性能,使其在處理自然語言方面非常高效。這項研究還發現了幾個與ChatGPT和GPT-4的開發和使用相關的潛在倫理問題。例如,人們擔心產生有偏見或有害的內容,侵犯隱私,以及可能濫用該技術。解決這些擔憂,并確保ChatGPT和GPT-4以負責任和合乎道德的方式開發和使用至關重要。此外,這項研究的結果表明,ChatGPT和GPT-4具有巨大的潛力應用于一系列領域,包括教育、歷史、數學、物理等。這些模型可以促進諸如生成摘要、回答問題以及為用戶提供個性化推薦等任務。總的來說,這篇綜述論文中提出的見解可以為希望推進自然語言處理領域的研究人員和從業人員提供有用的指南。該領域未來的研究應側重于解決倫理問題,探索新的應用,并確保ChatGPT和GPT-4的負責任使用。這些模型革新自然語言處理的潛力是巨大的,我們期待看到這一領域的更多發展。
生成式人工智能技術,如大型語言模型,有可能徹底改變我們高等教育的教學和學習。ChatGPT是一個令人印象深刻的、易于使用的、公開訪問的系統,展示了GPT-4等大型語言模型的力量。其他類似的生成模型可用于文本處理、圖像、音頻、視頻和其他輸出-我們預計在未來幾年內,性能將大幅提高,集成到更大的軟件系統中,并得到推廣。這項技術的發展引發了大學水平教學的重大不確定性和變化。學生們會問這樣的問題:ChatGPT或其他人工智能工具如何支持我?我可以在研討會或期末論文中使用ChatGPT嗎?還是說這是作弊?我怎樣才能最好地使用ChatGPT ?還有其他方法訪問模型嗎,比如GPT-4?既然這樣的工具已經存在,我應該學習哪些技能,哪些是過時的?講師會從不同的角度問類似的問題:我應該教什么技能?我如何測試學生的能力,而不是他們提示生成AI模型的能力?我如何使用ChatGPT和其他基于生成式AI的系統來提高我的效率,甚至改善我的學生的學習體驗和結果?即使當前的討論圍繞ChatGPT和GPT-4展開,這些也只是我們可以從未來基于生成式人工智能的模型和工具中期待的先驅。因此,即使您認為ChatGPT在技術上還不成熟,但它對高等教育的影響是值得研究的。這就是白皮書的用武之地。它將ChatGPT視為利用大型語言模型的當代對話用戶界面的例子。白皮書從學生和講師的角度來看待ChatGPT。它關注高等教育的日常領域:教學課程、為考試而學習、撰寫研討會論文和論文,以及評估學生的學習成果和表現。為此,考慮ChatGPT的機會和具體應用的可能性、限制和風險,以及底層的大型語言模型。這有兩個目的:
首先,我們的目標是為個別學生和講師提供具體的例子和指導,以找到他們處理ChatGPT和類似工具的方法。 * 其次,本白皮書將為在高等教育中擁抱和包含大型語言模型或相關工具的更廣泛的組織意義過程提供信息。
**我們基于我們在信息系統、計算機科學、管理和社會學方面的經驗編寫了這篇白皮書。我們有使用生成式AI工具的實踐經驗。**作為教授、博士后、博士生和學生,我們不斷創新我們的教學和學習。全面擁抱生成型人工智能的機遇和挑戰,需要來自其他各種學科的學者(專注于高等教育的教學和法律方面)、大學管理和更廣泛的學生群體的進一步觀點。總的來說,我們對生成式人工智能模型和工具(如GPT-4和ChatGPT)有積極的看法。一如既往,有光明也有黑暗,改變是困難的。然而,如果我們對大學、學院和教師個人發布明確的指導方針,如果教師和學生有效和負責地使用這些系統,我們的高等教育系統可能會得到改善。我們看到了一個巨大的機會,如果我們接受并適當地管理變化。
人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個字預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。
OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。
最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。
GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。