本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在,但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵,例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力,這鼓勵模型在給出最終答案之前生成中間推理步驟。
縮放是一個簡單的想法,具有挑戰性,但可以預見地使模型更好。(“縮放法”)
由于規模的擴大,大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)
巧妙的提示引出了語言模型中的多步驟推理,解鎖了更多的新任務。(“提示工程”)
Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作,在此之前他畢業于達特茅斯學院。//www.jasonwei.net/
當地時間 5 月 10 日上午,一年一度的谷歌 I/O 來了,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。PaLM 二代模型****支持多語言、更強的數學、代碼能力
首先,谷歌給出了自己對標 GPT-4 的大模型 PaLM 2。 要說這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。
在過去的幾年里,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。
谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是將計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。
會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。
皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。
從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。
PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級別的高級語言能力考試。
與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成服務的一部分推出。 皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。
谷歌內部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分別針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。
其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從圖像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型。
皮查伊在會上展示了 Med-PaLM 2 的醫療內容生成效果。
目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 將繼續為谷歌最新的 Bard 提供支持。 論文地址://ai.google/static/documents/palm2techreport.pdf
PaLM 2 技術報告
我們介紹了PaLM 2,這是一個全新的、具有更優秀的多語言和推理能力的語言模型,比其前任PaLM(Chowdhery等人,2022)更高效。PaLM 2是一個基于Transformer的模型,其訓練使用的目標混合類似于UL2(Tay等人,2023)。通過對英語和多語言、以及推理任務的廣泛評估,我們證明了PaLM 2在不同模型大小的下游任務上質量顯著提升,同時相比于PaLM展示出更快、更高效的推理能力。這種改進的效率使得模型能夠被更廣泛地部署,同時也使模型能夠更快地響應,為交互提供更自然的節奏。PaLM 2展示了強大的推理能力,這一點由其在BIG-Bench以及其他推理任務上相對于PaLM的大幅改進所證明。PaLM 2在一系列負責任的AI評估中表現穩定,并且能夠在推理時控制毒性,無需額外的開銷或影響其他能力。總的來說,PaLM 2在各種任務和能力上都實現了最先進的性能。自從Shannon(1951)通過預測下一個詞來估算語言中的信息以來,語言建模一直是一個重要的研究領域。建模起初以n-gram為基礎的方法(Kneser & Ney, 1995)開始,但隨著LSTM(Hochreiter & Schmidhuber, 1997; Graves, 2014)的出現,其發展速度快速提升。后來的研究表明,語言建模也導致了語言理解的提升(Dai & Le, 2015)。隨著規模的增大和Transformer架構(Vaswani等人,2017)的應用,過去幾年大型語言模型(LLMs)在語言理解和生成能力上表現出了強大的性能,這導致在推理、數學、科學和語言任務中取得了突破性的成績(Howard & Ruder, 2018; Brown等人,2020; Du等人,2022; Chowdhery等人,2022; Rae等人,2021; Lewkowycz等人,2022; Tay等人,2023; OpenAI, 2023b)。在這些進步中,關鍵的因素包括模型規模(Brown等人,2020; Rae等人,2021)和數據量(Hoffmann等人,2022)的擴大。到目前為止,大多數LLMs主要遵循一種標準的配方,即主要使用單語語料庫并配合語言建模目標。我們介紹了PaLM 2,這是PaLM(Chowdhery等人,2022)的后繼者,這是一個將建模進步、數據改進和規模洞察力統一起來的語言模型。PaLM 2融合了以下各種研究進步:
? 計算最優縮放:最近,計算最優縮放(Hoffmann等人,2022)表明,數據大小至少與模型大小同等重要。我們驗證了這項研究對更大計算量的適用性,并同樣發現,為了達到給定訓練計算量的最佳性能,數據和模型大小應大致按1:1的比例縮放(這與過去的趨勢不同,過去的趨勢是模型的縮放速度比數據集快3倍)。
? 改進的數據集混合:之前的大型預訓練語言模型通常使用由英文文本主導的數據集(例如,Chowdhery等人(2022)的非代碼部分約占78%)。我們設計了一個更具多語言和多樣性的預訓練混合,它涵蓋了數百種語言和領域(例如,編程語言、數學和平行多語言文檔)。我們證明,較大的模型可以處理更多不同的非英語數據集,而不會導致英語理解性能的下降,并應用去重復來減少記憶(Lee等人,2021)
?** 架構和目標的改進**:我們的模型架構基于Transformer。過去的LLMs幾乎都獨自使用一個因果或掩蔽語言建模目標。鑒于UL2(Tay等人,2023)的強大結果,我們在這個模型中使用調優的不同預訓練目標的混合,以訓練模型理解語言的不同方面。
中文版
作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。
1. 引言
推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。
本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。
為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。
在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。
3. 方法體系
在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。
3.1 策略增強推理
這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。
3.1.1提示工程
一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。
3.1.2 流程優化
自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。
3.1.3 外部引擎
在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。
3.2 知識增強推理
正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。
**3.2.1 隱式知識 **
研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。
3.2.2顯性知識
盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。
4 比較與討論
表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)。對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。
5. 未來的發展方向
我們列出了一些潛在的方向如下:
推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。
6. 結論
本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。
自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。
提示工程是一門相對較新的學科,用于開發和優化提示,以有效地將語言模型(LM)用于各種應用和研究主題。提示工程技能有助于更好地理解大型語言模型(LLM)的能力和局限性。 **研究人員使用prompt engineering來提高LLM在廣泛的常見和復雜任務上的能力,如問答和算術推理。**開發人員使用提示工程來設計與LLM和其他工具交互的健壯和有效的提示技術。 提示工程不僅僅是設計和開發提示。它包含了對與LLM交互和開發有用的廣泛技能和技術。這是接口、構建和理解llm功能的一項重要技能。您可以使用prompt engineering來提高llm的安全性并構建新的功能,例如用領域知識和外部工具增強LLM。 由于對與LLM一起開發的高度興趣,我們創建了這個新的prompt工程指南,其中包含所有最新的論文、學習指南、模型、講座、參考資料、新的LLM功能和與prompt工程相關的工具。 視頻:
地址://github.com/dair-ai/Prompt-Engineering-Guide
1. 引言
提示工程是一門相對較新的學科,用于開發和優化提示,以有效地將語言模型(LM)用于各種應用和研究主題。提示工程技能有助于更好地理解大型語言模型(LLM)的能力和局限性。研究人員使用prompt engineering來提高LLM在廣泛的常見和復雜任務上的能力,如問答和算術推理。開發人員使用提示工程來設計與LLM和其他工具交互的魯棒和有效的提示技術。 本指南涵蓋了提示的基礎知識,對如何使用提示來交互和指示大型語言模型(LLM)提供了一個粗略的想法。 LLM設置
在處理提示時,您將通過API或直接與LLM交互。您可以配置一些參數以獲得不同的提示結果。 Temperature ——簡而言之,Temperature 越低,結果越確定,因為總是選擇可能性最高的下一個token。升高的Temperature可能導致更多的隨機性,鼓勵更多多樣化或創造性的輸出。我們實際上是在增加其他可能token的權重。在應用方面,我們可能希望對基于事實的QA等任務使用較低的Temperature,以鼓勵更事實和更簡潔的回答。對于詩歌生成或其他創造性任務,提高Temperature可能是有益的。 Top_p -類似地,使用Top_p(一種稱為核采樣的Temperature采樣技術),您可以控制模型生成響應的確定性程度。如果你正在尋找準確和事實的答案,請保持這個數字較低。如果您正在尋找更多樣化的響應,請增加到更高的值。 一般的建議是改變其中一個,而不是兩個都改變。 在開始使用一些基本示例之前,請記住,您的結果可能會因您使用的LLM版本而有所不同。 提示的基礎知識
提示的元素 隨著我們介紹提示工程可能提供的越來越多的示例和應用程序,您將注意到有一些組成提示的元素。 提示(prompt)可以包含以下任何一個組件。 * 指令(Instruction):希望模型執行的特定任務或指令 * 上下文 context ——可以包含外部信息或額外的上下文,這些信息可以引導模型做出更好的響應 * 輸入數據——是我們感興趣的輸入或問題 * 輸出指示器 Indicator :表示輸出的類型或格式。
提示并不需要所有組件,其格式取決于當前的任務。我們將在接下來的指南中接觸到更多具體的例子。 設計提示的一般技巧
提示示例
在前一節中,我們介紹并給出了如何提示LLMs的基本示例。 在本節中,我們將提供更多示例,說明如何使用提示來實現不同的任務,并介紹其中的關鍵概念。通常,學習概念的最好方法是通過示例。下面我們將介紹幾個示例,說明如何使用精心設計的提示來執行不同類型的任務。 主題: * 文本摘要 * 信息提取 * 問題回答 * 文本分類 * 談話 * 代碼生成 * 推理
2. 提示技術
在這一點上,很明顯,改進提示有助于在不同的任務上獲得更好的結果。這就是prompt engineering背后的全部思想。 雖然基本的例子很有趣,但在本節中,我們將介紹更高級的提示工程技術,使我們能夠實現更復雜和有趣的任務。 * **Zero-shot Prompting **
**Few-shot Prompting **
**Chain-of-Thought Prompting **
**Self-Consistency **
**Generate Knowledge Prompting **
**Automatic Prompt Engineer **
**Active-Prompt **
**Directional Stimulus Prompting **
**ReAct **
**Multimodal CoT **
Graph Prompting
3. 提示應用
Program-Aided Language Models * Generating Data
4. 模型
ChatGPT
在本節中,我們將介紹ChatGPT的最新提示工程技術,包括提示、應用、限制、論文和額外的閱讀材料。 主題:
ChatGPT介紹 * 回顧對話任務與ChatGPT的對話 * Python的筆記本 ChatGPT是OpenAI訓練的一種可以進行對話交互的新模型。該模型被訓練成遵循提示中的指示,在對話的上下文中提供適當的響應。ChatGPT可以幫助回答問題、建議食譜、以某種風格寫歌詞、生成代碼等等。
ChatGPT使用來自人類反饋的強化學習(RLHF)進行訓練。雖然這個模型比之前的GPT迭代更有能力(也經過訓練以減少有害和不真實的輸出),但它仍然有局限性。讓我們通過具體的例子來介紹一些功能和限制。 你可以在這里使用ChatGPT的研究預覽,但對于下面的示例,我們將使用OpenAI Playground上的聊天模式。 * GPT-4 在本節中,我們將介紹GPT-4最新的prompt工程技術,包括提示、應用、限制和其他閱讀材料。
GPT-4介紹 最近,OpenAI發布了GPT-4,這是一個大型多模態模型,可以接受圖像和文本輸入并發出文本輸出。它在各種專業和學術基準上實現了人類水平的表現。 書冊:
**
**
課件:
OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮,它面對多種多樣的問題對答如流,似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領域的新訓練范式:來自普林斯頓博士生Ameet Deshpande講述《大型語言模型》技術細節,值得關注!
OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。
最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。
GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。