本文對GPT系列中最先進的大型語言模型(LLM) ChatGPT和GPT-4及其在不同領域的應用前景進行了全面的綜述。事實上,關鍵創新,如在整個萬維網上捕捉知識的大規模預訓練、指令微調和從人工反饋中強化學習(RLHF),在提高llm的適應性和性能方面發揮了重要作用。對arXiv上的194篇相關論文進行了深入分析,包括趨勢分析、詞云表示和跨不同應用領域的分布分析。研究結果表明,人們對ChatGPT/GPT-4的研究興趣顯著增加,主要集中在直接的自然語言處理應用上,同時在教育、歷史、數學、醫學和物理等領域也顯示出巨大的潛力。本研究旨在揭示ChatGPT的能力、潛在意義、倫理問題,并為該領域的未來發展指明方向。1. 引言自然語言處理(NLP)的最新進展導致了強大的語言模型的發展,如GPT(生成式預訓練Transformer)系列[1,2,3,4,5],包括ChatGPT和GPT-4等大型語言模型(LLM)。這些模型是在大量文本數據上進行預訓練的,并在廣泛的NLP任務中表現出卓越的性能,包括語言翻譯、文本摘要和問答。特別是ChatGPT模型在教育、醫療、推理、文本生成、人機交互和科學研究等各個領域都展示了其潛力。
LLM開發的一個關鍵里程碑是InstructGPT[5],一個框架,允許基于人工反饋強化學習(RLHF)對預訓練語言模型進行指令微調[6,5]。該框架使LLM能夠適應廣泛的NLP任務,通過利用人工反饋使其高度通用和靈活。RLHF使模型能夠與人類的偏好和價值觀保持一致,這與僅通過無監督預訓練訓練文本語料庫的大型語言模型相比有了顯著提高。ChatGPT是InstructGPT的繼承者。自2022年12月發布以來,ChatGPT已經具備了這些先進的開發,在推理和廣義文本生成等各種下游NLP任務中取得了令人印象深刻的性能。這些前所未有的NLP能力促進了教育、醫療、人機交互、醫學和科學研究等不同領域的應用。ChatGPT得到了廣泛的關注和興趣,越來越多的應用和研究利用了其巨大的潛力。多模態GPT-4模型的公開發布進一步擴展了大型語言模型的視野,并促進了涉及文本以外的各種數據的令人興奮的發展。本文對ChatGPT的現有研究及其在各個領域的潛在應用進行了全面的綜述。為了實現這一目標,我們對arXiv庫中與ChatGPT相關的論文進行了全面的分析。截至2023年4月1日,在arXiv上共有194篇論文提到了ChatGPT。在這項研究中,我們對這些論文進行了趨勢分析,并生成了一個詞云來可視化常用術語。此外,我們還檢查了不同領域的論文分布,并給出了相應的統計數據。圖1顯示了ChatGPT相關論文的每日提交趨勢,表明人們對該領域的興趣越來越大。圖2展示了所有論文的詞云分析。我們可以觀察到,目前的研究主要集中在自然語言處理上,但在教育和歷史等其他領域的研究仍然有很大的潛力。圖3進一步支持了這一點,它顯示了在各個領域提交的論文的分布,強調了在這些領域進行更多研究和開發的必要性。本文旨在揭示ChatGPT的潛力,并深入探討其對未來的潛在影響,包括倫理方面的考慮。希望通過本文的綜述,為未來如何改進和擴展這些模型提供見解。在第2節中,我們將回顧與ChatGPT相關的現有工作,包括它的應用、倫理考慮和評估。除了討論ChatGPT相關的研究現狀,我們還將在第3節中探討其局限性。此外,還將為語言模型的未來發展方向提供指導。
2 ChatGPT的相關工作
在本節中,我們對ChatGPT的應用、倫理、評價等方面的最新研究進展進行了綜述。
2.1 ChatGPT的應用
2.1.1 問答
在教育領域,ChatGPT通常用于教育領域的問答測試。用戶可以使用ChatGPT學習、比較和驗證不同學科(如物理、數學和化學)的答案,或者概念學科(如哲學和宗教)的答案。此外,用戶可以提出開放式和分析性的問題,以了解ChatGPT的功能**。**在數學領域,Frieder等人構建了由研究生水平數學試題組成的GHOSTS自然語言數據集。作者使用問答格式在GHOSTS數據集上測試了ChatGPT的數學能力,并根據細粒度標準對其進行了評估。在涵蓋簡單集合理論和邏輯問題的Grad文本數據集上,ChatGPT表現最好。然而,在奧林匹克解題數據集上,ChatGPT表現不佳,只得到了兩個4分的分數(總分5分),大部分分數都是2分。在Holes- In - proof數據集中,ChatGPT得到了最低的1分。在數學數據集中,ChatGPT只在26%的案例中獲得了令人印象深刻的分數。這些結果表明,ChatGPT的數學能力明顯低于普通的數學研究生。雖然ChatGPT可以大致理解數學問題,但卻無法提供正確的解決方案。Pardos等人[8]使用開放自適應輔導系統(OATutor)來調查ChatGPT生成的提示是否對學習代數有幫助,來自Mechanical Turk的77名參與者參加了實驗。實驗使用的問題來自OpenStax的初等和中級代數教科書。這些參與者被隨機分配到控制組(有手動提示)或實驗組(有ChatGPT提示)。對于兩門課程中的每一個問題,作者都通過問答形式從ChatGPT中獲取答案,并根據三個標準進行評分:ChatGPT提供了一個答案,答案正確,答案中沒有使用不當的語言。研究發現,ChatGPT生成的提示有70%通過了人工質量檢查,無論是人類還是Chat- GPT都產生了積極的學習收益。然而,人工提示的得分在74.59% - 84.32%之間,明顯高于ChatGPT提示的得分。Shakarian et al.[9]研究了ChatGPT在數學應用題(MWPs)上的表現,使用DRAW-1K數據集進行實驗。該數據集由1000個MWPs和他們的答案組成,以及用于解決此類問題的代數方程模板。作者利用機器學習自省的思想,使用隨機森林和XGBoost構建性能預測模型,并在數據集上使用五折交叉驗證對其進行評估。ChatGPT的準確率從最初的34%提高到最終的69%,而召回率從最初的41%提高到最終的83%。作者還發現,ChatGPT的失敗率從最初的84%下降到最終的20%,這表明,具體的工作要求可能會有很大的差異。
在物理學領域,Lehnert等人[10]通過研究ChatGPT如何處理弦論中的沼澤地猜想等晦澀的物理話題,探索了ChatGPT的能力和局限性。實驗對話從弦理論領域更廣泛、更一般的問題開始,然后縮小到具體的沼澤地猜想,并檢查ChatGPT對這些猜想的理解。研究發現,ChatGPT可以不同地定義和解釋各種風格的概念,但并不能有效地將各種概念真正聯系起來。它會在必要時自信地提供虛假的信息和捏造的陳述,表明ChatGPT不能真正創造新的知識或建立新的連接。然而,在識別類比和描述視覺表征的抽象概念方面,ChatGPT可以巧妙地使用語言。Kortemeyer et al.[11]通過問答測試評估了ChatGPT回答基于微積分的物理問題的能力。測試包括在線作業、點擊器問題、編程練習,以及涵蓋經典力學、熱力學、電學和磁學以及現代物理的考試。雖然ChatGPT能夠通過這門課程,但它也展示了許多初學者普遍存在的誤解和錯誤。West et al.[12]在大學物理第一學期使用力概念量表(Force Concept Inventory, FCI)來評估ChatGPT在回答與運動學和牛頓力學相關的物理概念問題時的準確性。FCI涵蓋了運動學、拋射運動、自由落體、圓周運動和牛頓定律等主題。該研究包括了415名在學期末參加FCI的學生的數據,平均分數為56%,而ChatGPT的分數大約在50%到65%之間。作者論證了ChatGPT在物理學習上的表現可以達到甚至超過一個學期大學物理的平均水平。
在醫學領域ChatGPT的問答功能也可以應用于醫療領域,如回答患者提出的醫療問題或協助醫療專業人員診斷疾病。11月等人[13]評估了使用ChatGPT進行醫患溝通的可行性。實驗從EHR中提取了10個具有代表性的醫患互動,將患者的問題放置在ChatGPT中,并要求ChatGPT使用與醫生的回答大致相同的字數進行回應。每個患者的問題由醫生或ChatGPT回答,并告知患者5個問題由醫生回答,5個問題由ChatGPT生成,并要求患者正確識別回答的來源。實驗結果顯示,正確識別ChatGPT回應的概率為65.5%,而正確識別醫生回應的概率為65.1%。此外,實驗發現,患者對ChatGPT功能可信性的反應為弱陽性(李克特平均得分:3.4),信任隨著問題中健康相關任務復雜性的增加而降低。ChatGPT對患者問題的回答與醫生的回答僅略有不同,但人們似乎信任ChatGPT回答低風險的健康問題,而對于復雜的醫療問題,人們仍然傾向于信任醫生的回答和建議。Tu等[14]探索了ChatGPT在神經性疼痛診斷中的因果發現能力。因果關系發現旨在純粹基于觀察到的數據[15]揭示潛在的未知因果關系。實驗結果發現,ChatGPT在理解新方面存在一定的局限性超越現有文本訓練數據語料庫的知識和概念,即它只理解描述情況常用的語言,而不理解底層知識。此外,它的性能一致性和穩定性不高,因為實驗觀察到,在多次詢問下,它會對同一問題提供不同的答案。然而,盡管ChatGPT有很多局限性,我們相信它在改善因果關系研究方面有很大的機會。
Guo et al.[16]嘗試將ChatGPT應用于通信領域,具體來說是將ChatGPT用于有序重要性語義通信,其中ChatGPT扮演了智能咨詢助手的角色,可以代替人類識別消息中單詞的語義重要性,可以直接嵌入到當前的通信系統中。對于一條要傳輸的消息,發送者首先利用ChatGPT輸出每個單詞的語義重要性排序。然后,發送者基于重要度順序執行不等錯誤保護傳輸策略,使消息中重要單詞的傳輸更加可靠。實驗結果表明,在嵌入ChatGPT的通信系統中測量到的重要單詞的錯誤率和語義損失遠低于現有的通信方案,說明ChatGPT可以很好地保護重要單詞,使語義通信更加可靠。 Wang et al.[17]研究了ChatGPT在為系統文獻搜索生成高質量布爾查詢方面的有效性。他們設計了廣泛的提示,并在100多個系統綜述主題上調查了這些任務。最終,與目前最先進的查詢生成方法相比,ChatGPT生成的查詢取得了更高的準確率,但代價是召回率降低。對于有時間限制的快速評論,以較高的準確率換取較低的召回率通常是可以接受的。此外,ChatGPT可以通過引導提示生成高搜索精度的布爾查詢。然而,需要注意的是,當兩個查詢使用相同的提示符時,ChatGPT會生成不同的查詢,這表明了它在一致性和穩定性上的局限性。總的來說,這項研究證明了ChatGPT在為系統文獻搜索生成有效的布爾查詢方面的潛力。
2.1.2 文本分類
文本分類的目的是將文本數據分配給預定義的類別。這項任務對許多應用至關重要,包括情感分析、垃圾郵件檢測和主題建模。雖然傳統的機器學習算法已被廣泛用于文本分類,但自然語言處理的最新進展導致了更先進技術的發展。ChatGPT在這一領域顯示了巨大的潛力。文獻中的多項研究表明,它能夠準確地對文本進行分類,處理各種分類任務的靈活性,以及可定制的潛力,使其成為文本分類的一個有價值的工具。 Kuzman et al.[18]采用ChatGPT進行自動體裁識別,目標是利用ChatGPT的零樣本分類能力來簡化文本分類任務。他們使用兩種提示語言(EN和SL),與基于多語言模型xln - roberta的X-GENRE分類器在英語數據集EN-GINCO和斯洛文尼亞數據集GINCO上進行了比較。 結果顯示,當使用EN作為提示語言時,ChatGPT實現了Micro F1、Macro F1,準確率得分分別為0.74、0.66、0.72。 但在GINCO數據集上,ChatGPT對EN和SL兩種提示語言的流派識別性能都不同程度地低于x流派分類器。
Amin et al.[19]通過使用ChatGPT執行性格預測、情感分析和自殺意念檢測任務,評估了ChatGPT在情感計算中的文本分類能力。 他們在First Impressions、Sentiment140和Suicide and Depression這三個數據集上對ChatGPT進行了相應的提示,并將其分類性能與RoBERTa-base、Word2Vec和BoW這三個基線模型進行了比較。 結果顯示,ChatGPT在第一印象數據集上對五種人格分類的準確率和UAR均不同程度低于基線方法。 在Sentiment140數據集上,ChatGPT的準確率和UAR分別為85.5和85.5,均優于三種基線方法。 在自殺和抑郁數據集上,ChatGPT的準確率和UAR分別為92.7和91.2,低于表現最好的基線方法RoBERTa。 Zhang et al.[20]采用ChatGPT進行立場檢測,包括支持和反對。 他們使用ChatGPT對SemEval-2016和P-Stance數據集中推文的政治立場進行分類。 SemEval-2016包含4870條英文推文,他們選擇了最常見的FM、LA和HC政治標簽的推文進行立場分類。 P-Stance數據集有21,574條英文推文,他們對針對特朗普、拜登和伯尼的推文進行立場分類。 最終結果顯示,在SemEval- 2016數據集上,ChatGPT在FM、LA和HC政治標簽上的F1-m得分分別達到了68.4、58.2和79.5,F1-avg得分分別達到了72.6、59.3和78.0。 在P-Stance數據集上,ChatGPT在川普、拜登和伯尼政治人物上的F1-m得分分別達到了82.8、82.3和79.4,F1-avg得分分別達到了83.2、82.0和79.4。
Huang等[21]利用ChatGPT檢測推文中的隱式仇恨言論。 他們選取了包含隱式仇恨言論的LatentHatred數據集的12.5%(795條推文),并要求ChatGPT將其分為三類:隱式仇恨言論、非仇恨言論和不確定言論。 結果顯示,ChatGPT正確識別了636條(80%)推文。 被分類為非仇恨言論和不確定言論的推文數量分別為146條(18.4%)和13條(1.6%)。 Amazon Mechanical Turk (Mturk)工人對推文在非仇恨言論和不確定類別中的重分類結果與ChatGPT的分類一致。
總的來說,ChatGPT在文本分類任務中具有巨大的潛力,因為它可以有效地解決體裁識別、情感分析、立場檢測等問題。然而,ChatGPT在文本分類領域仍然面臨挑戰。首先,由于它嚴重依賴訓練數據的分布,因此很難在包含罕見或未出現詞匯的分類任務中表現良好。此外,訓練和使用ChatGPT所需的大量計算資源限制了它在某些應用中的使用。
2.1.3 文本生成
我們生活在一個信息爆炸的時代,文本是傳遞信息的有效方式。信息的多樣性導致了文本類別的多樣性。當研究者使用ChatGPT的文本生成功能進行研究時,不可避免地會選擇生成不同類型的文本。在閱讀論文的過程中,我們發現研究者生成的文本字數從小到大,所以我們想根據文本字數的大小來總結現有的研究。我們將生成的文本分為三個層次:短語、句子和段落。
下面的文章使用ChatGPT來生成短語。Zhang et al.[22]證明了在訓練過程中加入語義增強的語義HAR模型在動作識別方面的表現優于其他模型。語義增強需要共享標記,這在一些數據集上是缺乏的。因此,作者利用ChatGPT為最初沒有共享標記的數據集提供了一種自動標記生成方法。[23]描述了一種新的將自然語言命令轉換為Bash命令的工作流程。作者使用ChatGPT根據用戶輸入生成候選Bash命令列表,然后使用啟發式和機器學習技術相結合的方法對候選命令進行排序并選擇最可能的候選命令。在真實的命令數據集上對該工作流進行了評估,與其他最新的方法相比,取得了較高的準確性。Chen et al.[24]使用Bart模型和ChatGPT來完成幽默標題的總結任務,并比較了兩種模型的性能。研究發現,Bart模型在大型數據集上的表現更好,但ChatGPT在小范圍(48)中與我們最好的微調模型競爭,盡管稍弱。
下面的文章使用ChatGPT來生成句子。Chen等人[25]構建了一個包含場景、時間線、角色屬性和角色關系的對話數據集(HPD),以便使用ChatGPT作為會話代理來生成對話。但是ChatGPT在測試集上的性能較差,存在改進的空間。在[26]研究中,chatGPT通過提供三份虛構的放射學報告給chatGPT進行簡化,展示了其簡化復雜文本的能力。大多數放射科醫生認為簡化后的報告準確完整,對患者沒有潛在的傷害。然而,一些錯誤、遺漏的關鍵醫療信息和文本段落被發現,這可能導致有害的結論,如果醫生不理解。Xia等人提出了一種基于會話的自動程序修復方法(Session-based Automatic program repair, APR)。在APR中,通過將之前生成的補丁與驗證反饋相結合,迭代地構建模型的輸入。使用QuixBugs數據集驗證了該方法的有效性。實驗表明,在兩個修復數據集上,使用人工反饋強化學習(RLHF)微調的ChatGPT優于無監督訓練的Codex。在[28]研究中,ChatGPT與谷歌Translate2、DeepL Translate3和騰訊TranSmart4這三個商業翻譯產品進行了對比。在Flores101測試集上進行評估,使用WMT19生物醫學翻譯任務測試翻譯魯棒性,以BLEU得分為主要指標。研究發現,ChatGPT在高資源的歐洲語言上與商業翻譯產品相比具有競爭力,但在低資源或遙遠的語言上則落后。作者探索了一種名為pivot prompts的有趣策略,它可以顯著提高翻譯性能。雖然ChatGPT在生物醫學摘要或Reddit評論上的表現不如商業系統,但它可能是一個很好的語音翻譯器。Prieto et al.[29]評估了ChatGPT在開發基于自然語言提示的自動化施工進度計劃中的使用。該實驗需要在現有空間中建立新的分區,并提供將要分區的房間的細節。結果表明,ChatGPT能夠生成符合給定范圍要求的一致性調度。然而,仍然有幾個主要的缺陷會限制這個工具在實際項目中的使用。Michail等人[30]提出了一種通過ChatGPT生成帶有親密度評分標簽的推文數據集來提高HeFit微調XLM T模型對推文親密度預測精度的方法。具體操作是將帶有親密度評分標簽的推文輸入ChatGPT,然后輸出相似推文。
下面的文章使用ChatGPT來生成段落。Wang et al.[31]對比了ChatGPT和其他模型在各種跨語言文本數據集上的摘要性能,發現ChatGPT可能在r1、r2、R L和B S. Yang等指標上表現較差。[32]總結了ChatGPT在基于問答的文本摘要中的性能,發現與微調模型相比,ChatGPT在所有性能指標上都略差。然而,這篇文章認為,如果數據集是黃金注釋,ChatGPT的性能可能在這些指標上超過微調模型。Belouadi等人。[33]比較了ByGPT5和ChatGPT在一系列已標記和未標記的英語和德語詩歌數據集上訓練后生成約束風格詩歌的能力,并使用三個指標對其進行評估:韻律、ScoreAlliteration和ScoreMeter分數。結論是ByGPT5的性能優于ChatGPT。Blanco-Gonzalez等人在[34]評測了chatGPT寫評論文章的能力,事實上,這篇文章本身就是ChatGPT寫的。人類作者基于chatGPT的草稿重寫了手稿。專家發現,它可以快速生成和優化文本,以及幫助用戶完成多項任務。然而,在產生新內容方面,它并不理想。最后,可以說,如果沒有強烈的人為干預,chatGPT并不是編寫可靠科學文本的有用工具。它缺乏準確和充分地傳達復雜的科學概念和信息所需的知識和專業知識。Khalil等人對ChatGPT生成內容的原創性進行了探討。為了評估ChatGPT生成的50篇不同主題的論文的原創性,使用了兩種流行的剽竊檢測工具Turnitin和iThenticate。實驗結果表明,ChatGPT在生成抄襲檢測軟件難以捕捉的復雜文本輸出方面具有巨大的潛力。現有的抄襲檢測軟件需要更新其抄襲檢測引擎。Basic等人([36])對使用和不使用ChatGPT-3作為寫作輔助工具的學生的寫作表現進行了比較。實驗分為兩組,每組9名參與者。對照組采用傳統方法撰寫文章,實驗組則以ChatGPT作為輔助。兩位老師對試卷進行了評估。研究表明ChatGPT的輔助并不一定能提高學生的作文質量。Noever et al.[37]討論了使用人工智能(AI),特別是像GPT(包括GPT-3)這樣的語言模型,來創建更有說服力的聊天機器人的潛力,這些聊天機器人可以欺騙人類,使其認為他們正在與另一個人進行交互。這篇文章描述了一系列實驗,在這些實驗中,他們使用GPT-3生成了模仿人類對話的聊天機器人響應,并在人類參與者身上進行了測試。結果顯示,一些參與者無法區分聊天機器人和真實的人類,這突出了這些人工智能聊天機器人被用于欺騙目的的潛力。
2.1.4 代碼生成
代碼生成是指從高層描述或規范自動生成計算機代碼的過程。ChatGPT先進的自然語言處理能力使它能夠執行代碼生成任務。通過分析代碼生成的需求,ChatGPT可以生成準確執行預期功能的代碼片段。這不僅節省了從頭開始編寫代碼的時間和精力,而且還降低了手工編碼過程中可能發生錯誤的風險。此外,ChatGPT學習和適應新的編程語言和框架的能力使其能夠完成更復雜的編程任務。
2.1.5 推理
推理是指從已知的事實或信息中通過邏輯推理得出新的結論或信息的過程。它通常基于一系列前提或假設,并涉及應用邏輯規則或推理方法來得出結論。推理是人類思維中的一種重要能力,常用于解決問題、決策、分析和評價信息等。推理在科學、哲學、法律等領域也起著關鍵作用。有兩種類型的推理:歸納推理,它涉及從已知的事實或經驗中得出一般規則或結論;演繹推理,它涉及從已知的前提或假設中得出特定的結論。無論是歸納還是演繹,推理過程都需要遵循嚴格的邏輯規則,以保證推理的正確性和可靠性。
2.1.6 數據或信息的提取、轉換、增強、處理
2.1.7 Human-ChatGPT協作
人與機器之間的協作是人與機器一起工作以實現共同目標的過程。在這種協作中,人類提供領域專業知識、創造力和決策能力,而機器提供自動化、可擴展性和計算能力。ChatGPT是一種先進的自然語言處理模型,可以理解并生成類人語言,從而降低通信成本。它處理和生成自然語言的能力使其成為人類協作的理想伙伴。ChatGPT可以提供相關建議,根據人類輸入完成任務,提高人類的生產力和創造力。它可以從人類反饋中學習并適應新的任務和領域,進一步提高其在人機協作中的性能。ChatGPT理解自然語言并產生適當響應的能力使它成為各種協作應用程序的有價值的工具,正如我們收集的一些文獻中的研究所證明的那樣。
2.1.8 ChatGPT集成
集成是指組合不同的系統或軟件組件以實現共同的目標。ChatGPT可以作為整體的一部分集成,也可以作為集成工具實現不同系統之間的無縫通信。它的自然語言處理能力使非技術用戶更容易與系統交互,減少了對專業知識或訓練的需求。我們收集的文獻中的一些研究已經證明了這一點。
2.2 人工智能倫理
自ChatGPT問世以來,這種強大的自然語言處理模型在給人們帶來極大便利的同時,也引發了更多的危機意識思考。一些研究者已經開始假設和研究ChatGPT的潛在負面影響。這項前瞻性研究為標準化建設提供了很好的建議,以解決未來的人工智能濫用問題。
3 討論
3.1 限制
盡管ChatGPT和GPT-4具有非凡的能力,但它仍然面臨一定的局限性。其中一些限制包括:
過時的知識
目前的模型是在歷史數據上訓練的(截至2021年),因此缺乏對時事的實時理解。這是當今信息爆炸時代的一個關鍵問題,因為先驗知識庫的可靠性逐漸降低,可能產生不準確的響應,特別是在法學和技術等快速發展的領域。此外,這些模型無法進行事實核查,而訓練數據是由各種來源的內容組成的,其中一些可能是不可靠的,這可能導致看似可信但卻荒謬的回應。
缺失理解
雖然這些模型可以解釋大多數查詢和上下文情況,但在處理模糊或上下文復雜的查詢時,它們偶爾會遇到理解偏差。此外,在某些專業領域,獨特縮寫的豐富加劇了模型的理解挑戰,導致錯誤和空洞的回答。
能源消耗
在整個訓練和推理階段,這些大規模模型需要大量的計算資源和電力,導致能源消耗上升和大量的碳排放。因此,這限制了它們的部署和實際應用。
惡意使用
盡管OpenAI實施了一系列限制以減輕模型毒性,但用戶通過精心設計的提示規避這些限制的實例已經出現,誘導模型產生不健康的內容,甚至將其用于非法商業目的。
偏見和歧視
由于預訓練數據的影響,模型在政治、意識形態和其他領域表現出偏見。llm在公共領域的應用,如教育和宣傳,應該以極其謹慎的態度對待。
隱私和數據安全
隨著用戶規模的擴大,保護用戶隱私和數據安全變得越來越重要。事實上,ChatGPT在4月初就因為隱私問題在意大利被禁了。考慮到模型在交互過程中廣泛收集個人信息和偏好,這一點尤其重要,因為未來的多模態模型,如GPT-4,可能會頻繁要求用戶上傳私人照片。
3.2 未來的方向
在即將到來的研究中,基于ChatGPT和GPT-4的模型的開發可能專注于解決這些限制,以增強其實際應用。 首先,研究人員應該在過濾預訓練數據的同時繼續致力于精煉模型訓練方法,以最大限度地減少模型知識庫中存在的誤導性信息,從而獲得準確的響應。同時,強調節約計算資源的訓練方法至關重要,從而降低成本并拓寬潛在的應用場景。
此外,上下文感知和消歧技術的進步預計將有助于增強對復雜查詢的理解通過模型,提高AI生成內容的準確性、相關性和上下文感知。集成實時數據流還可以使這些模型與當前事件和趨勢保持同步,使它們能夠提供實時的信息,如實時交通、天氣和股票更新。
此外,開發者應該與不同領域的專家進行跨學科合作,包括決策、法學和社會學,目的是為LLM的開發、部署和使用制定標準和倫理框架,從而減輕潛在的有害后果。在公眾意識和教育方面,特別是在K-12教育和新聞等行業,在大規模公共部署和應用之前,應實施強制性的意識培訓,以提高公眾對LLM能力和局限性的認識,同時促進負責任和知情的利用。
最后,ChatGPT和GPT-4的影響不應該僅限于NLP領域。它們在計算機視覺、受大腦啟發的AI和機器人等領域也顯示出了良好的前景。這些模型表現出可與人類水平的智能相媲美的學習和理解能力,將其定位為人工通用智能(AGI)發展中的關鍵組成部分[101]。它們促進人類和機器人之間無縫交互的能力為執行更復雜的任務鋪平了道路。這些模型的零樣本上下文學習的顯著能力使其能夠快速適應新任務,而不需要進行微調的標記數據,這在醫學信息學[102]和機器人[103]等領域是一個關鍵挑戰,在這些領域標記數據的可用性通常有限或不存在。
4 結論
這篇綜述論文對ChatGPT和GPT-4進行了全面的綜述,強調了它們的潛在應用和在自然語言處理領域的重大貢獻。這項研究的發現表明,人們對這些模型的興趣正在迅速增長,它們在廣泛的領域都顯示出了相當大的應用潛力。ChatGPT和GPT-4成功的一個關鍵因素是它們能夠進行大規模的預訓練,從浩瀚的互聯網中捕獲知識,使模型能夠從大量的數據中學習。融合了來自人類反饋的強化學習(RLHF),進一步增強了模型的適應性和性能,使其在處理自然語言方面非常高效。這項研究還發現了幾個與ChatGPT和GPT-4的開發和使用相關的潛在倫理問題。例如,人們擔心產生有偏見或有害的內容,侵犯隱私,以及可能濫用該技術。解決這些擔憂,并確保ChatGPT和GPT-4以負責任和合乎道德的方式開發和使用至關重要。此外,這項研究的結果表明,ChatGPT和GPT-4具有巨大的潛力應用于一系列領域,包括教育、歷史、數學、物理等。這些模型可以促進諸如生成摘要、回答問題以及為用戶提供個性化推薦等任務。總的來說,這篇綜述論文中提出的見解可以為希望推進自然語言處理領域的研究人員和從業人員提供有用的指南。該領域未來的研究應側重于解決倫理問題,探索新的應用,并確保ChatGPT和GPT-4的負責任使用。這些模型革新自然語言處理的潛力是巨大的,我們期待看到這一領域的更多發展。
作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。
1. 引言
推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。
本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。
為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。
在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。
3. 方法體系
在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。
3.1 策略增強推理
這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。
3.1.1提示工程
一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。
3.1.2 流程優化
自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。
3.1.3 外部引擎
在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。
3.2 知識增強推理
正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。
**3.2.1 隱式知識 **
研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。
3.2.2顯性知識
盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。
4 比較與討論
表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)。對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。
5. 未來的發展方向
我們列出了一些潛在的方向如下:
推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。
6. 結論
本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。
轉載機器之心報道
機器之心編輯部
為什么仿佛一夜之間,自然語言處理(NLP)領域就突然突飛猛進,摸到了通用人工智能的門檻?如今的大語言模型(LLM)發展到了什么程度?未來短時間內,AGI 的發展路線又將如何?自 20 世紀 50 年代圖靈測試提出以來,人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統,受到語法規則的約束。因此,開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年,語言建模方法被廣泛用于語言理解和生成,包括統計語言模型和神經語言模型。近些年,研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型(PLMs),并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升,因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是,當參數規模超過一定水平時,這個更大的語言模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習。為了區別于 PLM,這類模型被稱為大型語言模型(LLMs)。
從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數量爆炸的大模型不斷涌現。可以說,LLMs 的研究在學界和業界都得到了很大的推進,尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響,并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步,中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展,尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源,討論了未來發展方向等問題。對于領域內研究人員和工程師而言,這份綜述是一份極其有用的學習資源。
論文鏈接://www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb
在進入正文前,我們先來看 2019 年以來出現的各種大語言模型(百億參數以上)時間軸,其中標黃的大模型已開源。
LLMs 概覽
**在第一節中,研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常,大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量(擴大倍數)。他們可以更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本。這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。
LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」,這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時,它還引入了一個顯著的特征:當規模達到一定水平時,性能顯著高于隨機的狀態。以此類推,這種新模式與物理學中的相變現象密切相關。原則上,這種能力也可以與一些復雜的任務有關,而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力:上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。
關鍵技術接下來來看 LLMs 的關鍵技術,包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。訓練。由于規模巨大,成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數,經常聯合使用各種并行策略。為了支持分布式訓練,DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外,優化技巧對訓練穩定性和模型性能也很重要,例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法,從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后,LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時,這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用,比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優,以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征(包括高質量和低質量的數據),它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致,InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法,使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的,在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器,因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據,無法捕獲最新信息。針對這些問題,人們提出使用外部工具來彌補 LLMs 的不足,比如可以利用計算器進行精確計算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識,這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求,開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗,并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中,研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。
下表 2 列出了常用的數據源。
**預訓練 **
預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練,LLMs 可以獲得基本的語言理解和生成技能。在這個過程中,預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外,為了有效地預訓練 LLMs,模型架構、加速方法和優化技術都需要精心設計。在第四節中,研究者首先在第 4.1 節討論了數據的收集和處理,然后在第 4.2 節介紹了常用的模型架構,最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM,從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。
收集大量文本數據后,必須對它們進行預訓練以構建預訓練語料庫,包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。
架構在本節中,研究者回顧了 LLMs 的架構設計,即主流架構,預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。
由于出色的并行化性和容量,Transformer 架構已成為開發各種 LLM 的 backbone,使得將語言模型擴展到數千億個參數成為可能。一般來說,現有 LLMs 的主流架構大致可以分為三大類,即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來,各種改進被相繼提出以提高其訓練穩定性,性能和計算效率。在這一部分中,研究者討論了 Transformer 四個主要部分的相應配置,包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用,它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs,有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中,研究者回顧了訓練 LLMs 的重要設置,技術和訓練 LLMs 技巧。對于 LLMs 的參數優化,研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。 隨著模型和數據規模的增加,在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是,需要解決兩個主要技術問題,例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法,以解決上述兩個挑戰,即 3D 并行、ZeRO 和混合精度訓練,并就如何利用它們進行訓練給出了建議。
LLMs 的適應性調優經過預訓練,LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明,LLMs 的能力可以根據具體目標進一步調整。在第五節中,研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法,即指令調優(instruction tuning)和對齊調優(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上,指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法,這與監督微調和多任務提示訓練高度相關。為了執行指令調優,我們首先需要收集或構建指令格式的實例。然后,我們通常使用這些格式化實例以監督學習方式微調 LLMs(例如,使用序列到序列損失進行訓練)。在指令調整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務的能力,即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下,本文主要關注指令調優對 LLMs 的影響,并提供實例收集和調優的詳細指南或策略。此外,本文還討論了使用指令調優來滿足用戶的實際需求,這已廣泛應用于現有的 LLMs,例如 InstructGPT 和 GPT-4。格式化實例構建:通常,指令格式的實例由任務描述(稱為指令)、輸入輸出對和少量演示(可選)組成。作為重要的公共資源,現有研究已經發布了大量以自然語言格式化的標記數據(參見表 5 中的可用資源列表)。接下來,本文將介紹構造格式化實例的兩種主要方法(參見圖 4 中的插圖),然后討論實例構造的幾個關鍵因素。指令調優策略:與預訓練不同,指令調優通常更有效,因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程,但它的優化在幾個方面與預訓練不同,例如訓練目標(即序列到序列損失)和優化配置(例如更小的批次) 大小和學習率),這在實踐中需要特別注意。除了這些優化配置之外,指令調優還需要考慮兩個重要方面:
對齊調優這部分首先介紹了對齊的背景及其定義和標準,然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集,最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。
使用在預訓練或適應性調整之后,使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習(in-context learning),它以自然語言文本的形式制定了任務描述或演示。此外,思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中,研究者詳細介紹了這兩種技術的細節。上下文學習**
作為一種特殊的 prompt 形式,上下文學習(ICL)是 GPT-3 首次提出的,它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈(CoT)是一種改進的 prompt 策略,可以提高 LLM 在復雜推理任務中的表現,如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt,而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中,研究者詳細說明了 CoT 與 ICL 的用法,并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性,研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務,然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務,最后討論了現有的基準和實證分析。基本評估任務
圖 7:一個公開 LLM 的內在和外在幻覺的例子(訪問日期:2023 年 3 月 19 日)。作為內在幻覺的例子,LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺,在這個例子中,LLM 似乎對 RLHF(從人類反饋中強化學習)的含義有不正確的理解,盡管它能正確理解 LLM 的含義。
高級任務評估除了上述基本評估任務,LLMs 還表現出一些高級能力,需要特別評估。在第 7.2 節中,研究者討論了幾個有代表性的高級能力和相應的評價方法,包括人工對齊、與外部環境的交互以及工具的操作。
總結與未來方向
在最后一節中,研究者總結了這次調查的討論,并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理:為了理解 LLM 的基本工作機制,最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明,當語言模型的參數規模增加到一個臨界點(如 10B)時,一些新興能力會以一種意想不到的方式出現(性能的突然飛躍),典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷,但也令人困惑:LLMs 何時以及如何獲得這些能力?最近的一些研究要么是進行廣泛的體驗,調查新興能力的效果和這些能力的促成因素,要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題,然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性,跨學科的理論或原則(例如 LLMs 是否可以被視為某種復雜系統)可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索,對于開發下一代的 LLMs 很重要。模型架構:由于可擴展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能,如神經網絡配置和可擴展的并行訓練(見 4.2.2 節討論)。為了進一步提高模型的容量(如多輪對話能力),現有的 LLMs 通常保持較長的上下文長度,例如,GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此,一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性(原始的二次成本)。此外,研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的,例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰,這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時,原先學到的知識很可能被破壞,例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時,也會出現類似的情況,這被稱為對齊稅(alignment tax)。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構,以有效支持數據更新和任務專業化。模型訓練:在實踐中,由于巨大的計算量以及對數據質量和訓練技巧的敏感性,預訓練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優化和訓練穩定性等因素,開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預測縮放),便于在訓練中發現早期的異常問題。此外,它還要求有更靈活的硬件支持或資源調度機制,以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高,因此必須設計一個合適的機制,根據公開的模型檢查點(例如 LLaMA 和 Flan-T5)不斷地預訓練或微調 LLMs。為此,必須解決一些技術問題,包括數據不一致、災難性遺忘和任務專業化。到目前為止,仍然缺乏具有完整的預處理和訓練日志(例如準備預訓練數據的腳本)的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外,開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用:由于微調在實際應用中的成本很高,prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中,上下文學習(prompt 的一種特殊形式)賦予了 LLMs 在新任務上良好的表現,甚至在某些情況下超過了全數據微調模型。此外,為了提高復雜推理的能力,人們提出了先進的 prompt 技術,例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現有的 prompt 方法仍然有以下幾個不足之處。首先,它在設計 prompt 時需要大量的人力,因此為解決各種任務而自動生成有效的 prompt 將非常有用;其次,一些復雜的任務(如形式證明和數字計算)需要特定的知識或邏輯規則,而這些知識或規則可能無法用自然語言描述或用例子來證明,因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要;第三,現有的 prompt 策略主要集中在單圈的表現上,因此開發用于解決復雜任務的交互式 prompt 機制(如通過自然語言對話)非常有用,ChatGPT 已經證明了這一點。安全和對齊:盡管 LLMs 具備相當的能力,但它的安全問題與小型語言模型相似。例如,LLMs 表現出產生幻覺文本的傾向,比如那些看似合理但可能與事實不符的文本。更糟糕的是,LLMs 可能被有意的指令激發,為惡意的系統產生有害的、有偏見的或有毒的文本,導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題(如隱私、過度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法,來自人類反饋的強化學習(RLHF)已被廣泛使用,它將人類納入訓練循環,以發展良好的 LLMs。為了提高模型的安全性,在 RLHF 過程中加入安全相關的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據,使得它很難在實踐中得到正確的實施。因此,有必要改進 RLHF 框架,以減少人類標簽員的工作,并尋求一種更有效的注釋方法,保證數據質量,例如可以采用 LLMs 來協助標注工作。最近,紅色團隊被采用來提高 LLMs 的模型安全性,它利用收集的對抗性 prompt 來完善 LLMs(即避免紅色團隊的攻擊)。此外,通過與人類交流建立 LLMs 的學習機制也很有意義,人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統:由于 LLMs 在解決各種任務方面表現出強大的能力,它們可以被應用于廣泛的現實世界的應用(例如,遵循特定的自然語言指令)。作為一個顯著的進步,ChatGPT 已經潛在地改變了人類獲取信息的方式,這帶來了新必應的發布。在不久的將來,可以預見,LLMs 將對信息搜索技術產生重大影響,包括搜索引擎和識別系統。此外,隨著 LLMs 的技術升級,智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內,這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統(例如,ChatGPT 對插件的支持),這將與人類生活密切相關。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發出比以往更多的智能系統(可能有多模態信號)。同時,在這個發展過程中,人工智能的安全性應該是首要關注的問題之一,也就是說,讓人工智能為人類帶來好處而不是壞處。
自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。
**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。
**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。
本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。
3月15日 OpenAI發布多模態大模型GPT-4,其不僅在語言處理能力上提高,還具備對圖像的理解和分析能力。GPT-4商業化進程加快,開放API的同時還發布了在6個不同商業場景的應用落地。隨后微軟發布了震撼的微軟365 Copilot,極大提升office的生產力和交互方式。此前,ChatGPT就已經展示了強大的能力,在文字創造、人機交互、教育、影音、零售等多場景落地應用。我們認為,多模態大模型已在多領域具有專家能力,未來將深度賦能千行百業,改變生產生活方式。 **1. 2023年3月15日,OpenAI目前最強大的多模態預訓練大模型GPT-4正式發布。**其能夠處理文本、圖像兩種模態的輸入信息,單次處理文本量是ChatGPT的8倍,GPT-4的表現大大優于目前最好的語言模型,同時在學術考試中的水平遠超GPT3.5。這意味著GPT-4不僅在學術層面上實現了模型優化與突破,同時也展現出了成為部分領域專家的能力。
**2. GPT-4商業化進程加快。**GPT-4在發布時便開放了其純文本輸入的API,這與GPT-3和GPT-3.5的滯后開放不同。同時,GPT-4這次一起推出了6個商業場景的具體應用落地,在優化人機交互體驗、提供專業服務、提升組織效能、文化傳承與保護等方面都展現了巨大的潛能,未來有望看到更多場景中的商業化拓展與落地。 **3. ChatGPT已經刮起GPT生態狂潮。**2023年3月1號,OpenAI基于GPT 3.5 Turbo模型開放了ChatGPT API。API收費模式為0.002美元/1000tokens。相較于前一代開放接口GPT 3.5,性能更強的同時,價格下降90%,加速ChatGPT相關應用生態的發展。 **4.應用百花齊放,創造新的生產方式。**微軟先后在搜索引擎Bing、企業服務平臺Dynamic 365及開發者工具平臺Power Platform等接入 ChatGPT/GPT-4能力。微軟還發布了震撼的Microsoft 365 Copilot,極大提升office的生產力和交互方式。與此同時,在越來越多的企業宣布接入ChatGPT的能力,其中不乏一些已經取得優秀商業化的應用。如Jasper、Quizlet、Shop等,在語言文字創造、人機交互、教育、繪畫、影音、零售等多場景落地應用。 5. 我們認為以GPT4/ChatGPT為代表的預訓練大模型是這一輪AI浪潮的重要革新,重點推薦關注海內外優秀應用落地情況,AI芯片產業鏈等投資機遇。
**GPT技術發展不及預期:**GPT屬于先進AI算法,若后續GPT算法更新迭代效果不及預期,則會影響GPT演進及拓展,進而會影響其商業化落地等; **算法歧視與人權道德風險:**GPT引入基于人工反饋的強化學習,在人工反饋中,不可避免的會參雜歧視問題,從而會將歧視帶入后續的人機交互中;大模型在進行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題; **數據數量與數據質量不及預期:**大模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。 **GPT接口開放不明確:**目前GPT是否能對國內開放API還不明朗,若未來無法接入,可能將導致相關應用在國內無法落地。 **算力受限:**目前大模型訓練以GPU為主,尤其是英偉達的GPU。未來若GPU產能或者中美摩擦升級,可能導致國內廠商的算力布局。
預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。
**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。
//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9
1. 引言
預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。
**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。
**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。
有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:
本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。
我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。
通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。
引言
近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。
這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。
本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:
先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。
論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。
范式1: 先訓練,然后微調
傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。
范式2: 基于提示的學習
我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。
下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。
范式3 NLP即文本生成
基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。
總結
在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。
【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。
引言
基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。
摘要
如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。
像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。
GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為
我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。
我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。
我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。
我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。
我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。
我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。
我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。