国产又色又爽又黄又免费软件,人妻超清中文字幕乱码一区

生成預訓練變換器（GPT）在自然語言處理領域代表了一項顯著的突破，它正在推動我們向開發能夠以接近人類的方式理解和使用語言的機器發展。GPT基于變換器架構，這是一種為自然語言處理任務設計的深度神經網絡。由于它們在自然語言處理任務上的卓越表現以及有效的對話能力，GPT在研究者和工業界得到了顯著的關注，使它們成為自然語言處理及相關領域中最廣泛使用和最有效的模型之一，這促使我們進行了這項調研。這篇綜述為GPT提供了詳細的概述，包括它的架構、工作過程、訓練程序、啟用技術以及它對各種應用的影響。在這篇綜述中，我們也探討了GPT的潛在挑戰和限制。此外，我們討論了可能的解決方案和未來的方向。總的來說，這篇文章旨在提供對GPT、啟用技術、它們對各種應用的影響、新出現的挑戰以及潛在解決方案的全面理解。 1. 引言

語言是人類交流的基石，對于塑造我們與世界的互動起著至關重要的作用。隨著自然語言處理（NLP）的出現，我們與機器交互的方式發生了革命性的變化。NLP已經成為通信世界的游戲規則改變者，使人類能夠以更自然的方式與機器互動。NLP的發展受到了互聯網文本數據指數級增長的推動。多年來，NLP從簡單的基于規則的系統發展到復雜的基于深度學習的模型。盡管有了進步，但由于人類語言的復雜性，自然語言理解和生成一直是NLP領域的一個挑戰。然而，最近的進步為解決這些挑戰開辟了新的途徑。NLP的一項突破是GPT [1]的開發。GPT在OpenAI發布ChatGPT后走紅，OpenAI是一家專注于開發AI技術的研究公司[2]。GPT是一個深度學習模型，它在大量的文本數據上進行預訓練，可以針對特定的任務進行微調，如語言生成、情感分析、語言建模、機器翻譯和文本分類。GPT使用的變換器架構是對NLP以往方法的重大進步，如RNN和CNN。它使用自注意力機制，使模型在生成下一個詞時考慮整個句子的上下文，這提高了模型理解和生成語言的能力。解碼器負責根據輸入表示生成輸出文本[3]。 GPT能夠執行NLP中的廣泛任務。其主要優勢之一在于自然語言理解（NLU），其中它可以分析和理解文本的含義，包括識別句子中的實體和關系。它也擅長自然語言生成（NLG），這意味著它可以創建文本輸出，如創作創新內容或以全面且有信息性的方式回答問題。另外，GPT也是代碼生成器，可以編寫各種語言（如Python或JavaScript）的編程代碼。GPT也可以用于問答，這意味著它可以提供關于事實性主題的概括，或者根據輸入文本創作故事。此外，GPT可以總結一段文本，如提供新聞文章或研究論文的簡要概述，它也可以用于翻譯，使得能夠將文本從一種語言翻譯為另一種語言。總的來說，GPT能夠以高精度和準確度執行廣泛的NLP任務，使其成為各種行業（包括金融、醫療保健、市場營銷等）中的無價工具。隨著NLP技術的不斷進步，我們可以預見GPT和其他語言模型將變得更加復雜和強大，使我們能夠更自然、更有效地與機器交流。 **A. 動機 **

GPT已經成為NLP領域的一種變革性技術，推動了廣泛行業和應用的快速發展和增長。盡管GPT得到了廣泛的采用，并有許多潛在的應用，但關于GPT的能力仍有許多需要探索和理解的地方。盡管在與學術和圖書館[4]、教育[5]、GPT模型[6]、銀行和企業通信[7]、chatGPT及其版本的進步[8]、以及生成AI[9]相關的文獻中有關于GPT的研究，但并沒有現有的評論致力于對GPT進行全面的調查。因此，有必要進行一項全面的評論，重點是GPT的架構、啟用技術、潛在應用、新出現的挑戰、有趣的項目和未來的方向。這些限制促使我們進行了這項審查。因此，這篇審查不僅將幫助這個領域的研究者和實踐者更好地理解GPT，而且在進行研究時，還將提供關于其潛在應用和主要限制的寶貴見解。在這篇關于GPT的綜述中，我們使用各種可靠的來源進行了深入的文獻審查。我們的搜索主要集中在經過同行評審的期刊，以及來自知名國內和國際會議、研討會、書籍、座談會和期刊的高質量文章。為了確保我們的來源的可信度，我們參考了像Google Scholar和arXiv這樣知名的檔案庫，以及來自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等頂級數據庫的出版物。為了找到相關的GPT引用和出版物，我們使用了如NLPGPT、GPT架構、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直應用等關鍵詞。然后，我們根據所有檢索到的文章的標題進行篩選，排除了任何質量較差的論文。接下來，我們審查了剩下的文章的摘要，以確定它們的貢獻。在我們的文獻審查的最后一步，我們提取了分析所需的必要數據。通過遵循這些步驟，我們確保了我們的研究基于高質量和可信的來源。

2. GPT

A. GPT演化

GPT模型經歷了NLP技術中的多次變化和突破。以下是GPT模型發展中的一些重大轉折點：在GPT之前，NLP模型已經在與特定任務相關的大量標注數據上進行了訓練。這有一個重大的缺點，因為很難獲得用于精確訓練模型所需的標注數據量。由于NLP模型被限制在特定的數據集上，所以它們無法完成訓練集以外的任務。為了解決這些限制，OpenAI提供了一個名為GPT-1的生成式語言模型，該模型使用未標記的數據創建，然后提供給用戶進行微調，以完成后續的任務，如情感分析、分類和問答[18]。這表明該模型試圖根據輸入產生適當的響應，而且用于訓練模型的數據沒有標記[19]。圖2顯示了從1960年創建的Eliza到2022年更為當前的ChatGPT，幾個預訓練模型的演變時間線。GPT-1是第一個能夠閱讀文本并回答查詢的模型[20]。OpenAI在2018年發布了GPT-1。GPT1是AI發展的一個重要步驟，因為它使計算機能夠比以前更自然地理解文本材料。這種生成性語言模型能夠學習各種各樣的連接，并在連續的文本和長篇大論的語料庫上獲得大量知識[21]。這發生在在大型BooksCorpus數據集上訓練之后。在設計方面，GPT-1使用一個12層解碼器架構的變換器，帶有自我注意機制進行訓練。GPT-1能夠在不同任務上執行零射擊性能，這是由于其預訓練而取得的一項重大成功。這種能力證明，當將生成性語言建模與成功的預訓練思想結合起來時，可以用來推廣模型。以TL為基礎，GPT模型發展成為一種強大的工具，可以在微調最少的情況下執行NLP任務[22]。它為其他模型使用更大的數據集和參數在生成性預訓練中取得更大的進步鋪平了道路[18]。

為了在2019年后期創建一個更好的語言模型，OpenAI使用更大的數據集和更多的參數創建了GPT-2。GPT-2的模型設計和執行是一些關鍵的進步[23]。它擁有15億個參數，是GPT-1（1.17億個參數）的10倍，它的參數和數據量也是GPT-1的10倍[21]。通過僅使用原始文本作為輸入，并利用很少或沒有訓練樣本，它在解決與翻譯、總結等相關的各種語言任務方面非常有效。在各種下游任務數據集上對GPT-2進行評估，發現它在識別長距離關系和預測句子方面表現出色，顯著提高了準確性[24]。最近的GPT模型迭代版本是GPT-3。這是由OpenAI創建的一個大型語言預測和生成模型，可以生成源文本的長篇段落。GPT-3最終成為OpenAI的突破性AI語言軟件。簡單來說，它是一種可以自己創建行的軟件，這些行非常獨特，幾乎聽起來像是由人類編寫的[25]。GPT-3程序目前通過云基礎設施API提供有限的訪問，需要訪問權限來調查其功能。自從它的首次亮相以來，它已經產生了一些有趣的應用。其容量約為1750億個參數，比GPT-2大100倍，這是一個關鍵優勢。它使用從大型內容存檔和互聯網收集的5000億詞的語料庫"Common Crawl"進行教學[26]。其其他值得注意和意想不到的能力是進行基本的數學運算，編寫代碼片段，和執行聰明的任務。因此，NLP模型可以通過更快地響應請求和精確地保持最佳實踐，同時減少人為錯誤，來幫助企業[27]。由于其復雜性和大小，許多學者和作家都將其稱為最終的黑箱AI方法。由于執行推理的高成本和不便，以及億參數的大小使其資源密集型，因此很難在工作中實踐[24]。GPT-4被命名為GPT-3的繼任者。與此同時，OpenAI已經秘密地發布了幾個基于GPT-3.5的AI模型，這是GPT-3的更新版本[28]。

GPT-3.5是在文本和代碼的混合上進行訓練的。它從互聯網收集的大量數據中學習了單詞、句子和各種組件之間的關系，這些數據包括成千上萬的維基百科條目、社交媒體帖子和新聞項目。OpenAI利用GPT-3.5開發了幾個定制的系統，以完成特定的工作[26]。它從網上收集了大量數據，包括成千上萬的維基百科條目、社交媒體帖子和新聞項目，并利用這些信息學習了句子、單詞和單詞組成部分之間的關系[29]。 OpenAI的GPT模型的最新版本是GPT-4，這是一個多模態的大型語言模型。它于2023年3月14日推出，并通過ChatGPT Plus向公眾提供有限的訪問。需要排隊等待獲得商業API的訪問權限[10]。GPT-4在預訓練階段，使用公共數據和“來自第三方供應商的許可數據”，預測下一個詞。然后，基于人類和AI的輸入，通過強化學習進行調整，以實現人類對齊和政策符合。與GPT-3的上下文窗口只有4096和2049個tokens不同，該團隊創建了兩個版本的GPT-4，其上下文窗口分別為8192和32768個tokens。

B. GPT模型架構

GPT模型基于用于NLP任務的神經網絡，如語言建模，文本分類和文本生成。GPT模型的架構基于變壓器模型[30]。Transformer模型使用自注意機制處理可變長度的輸入序列，使其非常適合NLP任務。GPT通過用解碼器塊替代編碼器-解碼器塊簡化了架構。GPT模型采用Transformer模型，并使用無監督學習技術在大量文本數據上進行預訓練。預訓練過程涉及預測序列中給定前面單詞的下一個單詞，這是一項稱為語言建模的任務。這種預訓練過程使模型能夠學習可以針對特定下游任務進行微調的自然語言表示[31]。

C GPT 模型如何工作

GPT模型通過使用Transformer這種神經網絡架構處理自然語言文本的輸入序列來工作[38]。GPT模型使用無監督學習技術在大量的文本輸入上預訓練這種Transformer架構[39]。在預訓練過程中，模型獲得了根據前面的詞預測序列中下一個詞的能力。語言建模是一種過程，使模型能夠發現訓練數據中詞與其上下文之間的統計關系。圖5展示了GPT操作的各個階段。第一步包括有監督的微調，第二步涉及對輸入產生最優反應，第三步涉及近似策略優化和強化學習。預訓練后，模型可以針對特定任務進行微調，如文本分類或文本生成。在微調過程中，模型在特定于手頭工作的較小數據集上進行訓練，并改變模型的參數以最大化該任務的性能[8]。圖3展示了GPT的一般Transformer架構。當用于文本生成時，GPT模型通過預測基于之前生成的詞的系列中的下一個詞來創建文本。根據其被修改的方式，模型可以生成與輸入文本相似的文本，或者符合某種主題或風格的文本。圖4展示了GPT模型的Transformer架構和用于微調不同任務的輸入變換。

D. GPT版本比較

GPT模型有幾個版本，每個版本都有自己的特性和功能。表III列出了各種GPT模型版本的比較。表中展示了以下細節，如GPT模型的發布年份、參數、生成的標記、輸入類型、每個模型的特性、每個模型的缺點，以及每個模型的大小。生成型AI（GAI）模型有不同的類型，如單模態、交叉模態和多模態。第一種類型是單模態，依賴于單一類型的輸入，如文本或圖像。另一方面，交叉模態可以處理多種類型的輸入并將它們關聯起來。多模態是最復雜的AI類型，因為它可以處理和整合來自多種模態的信息，如語音、文本、圖像，甚至是與環境的物理交互。GPT只采用單模態和多模態類型，其中ChatGPT被認為是單模態，而GPT-4是多模態。圖6是一個插圖，區分了單模態、交叉模態和多模態生成AI模型。 總的來說，GPT模型在NLP方面表現出了出色的性能，通過增強每一次迭代和其前身的能力。然而，每個模型也有自己的限制和缺點，如輸出控制的限制、缺乏多樣化的數據和倫理問題。在為特定任務選擇GPT模型時，研究者和開發者應謹慎考慮這些因素[40]。具體來說，本節描述了GPT的演變、架構，并比較了不同版本和類型的GPT。

III. 使能技術

GPT是多種技術的匯聚。它借助了最新的技術，如大數據、人工智能、云計算、EC、5G及以后的網絡，以及人機交互。在這一部分，我們將提供與GPT相關的啟用技術的概述。構成GPT模型的主要技術在圖7中展示。

IV. GPT模型對各種應用的影響

GPT已經取得了顯著的進步，它的影響正在教育、醫療保健、工業、農業、旅游和運輸、電子商務、娛樂、生活方式、游戲、市場營銷和金融等各個行業中被感知到。這一部分將提供有關GPT模型在上述應用中的影響的寶貴見解，如圖8所示。

本節將介紹使用GPT模型技術開發的用于上述部分中提到的不同應用的激動人心的項目。表IV，表V顯示了這些項目的不同級別，以及用于比較他們在許多實際應用中的能力的不同參數。

VI. 開放的研究問題和未來方向

本節強調了與實施和采用可持續GPT模型相關的各種開放研究問題。它還為GPT開發領域的研究人員提供了對未來研究方向的深入了解。圖9概述了在使用GPT模型時可能出現的許多問題，以及需要考慮的各種未來方法，以便有效地使用GPT模型。

VII.結論

GPT和其他大型語言模型的影響深遠而深刻。隨著這些技術的不斷發展和改進，它們有可能改變我們與技術和彼此互動的方式。從個性化推薦和客戶服務到語言翻譯和文本生成，可能性是無窮的。然而，就像任何技術一樣，必須解決可能出現的道德和社會問題。隨著我們越來越依賴這些語言模型，我們必須確保我們正在負責任地使用這些工具，并考慮它們對整個社會的影響。這包括與訓練模型所使用的數據偏見、保護隱私和安全、理解人類創造力的含義以及可能對就業和工作流動的影響等相關的挑戰。我們需要繼續評估和反思GPT和其他語言模型的影響，以確保它們的使用方式對整個社會都有益。通過這樣做，我們可以幫助確保這些技術被充分利用，同時最大程度地減少它們可能產生的任何負面影響。

付費5元查看完整內容

相關內容

ChatGPT

關注 257

ChatGPT（全名：Chat Generative Pre-trained Transformer），美國OpenAI 研發的聊天機器人程序 [1] ，于2022年11月30日發布。ChatGPT是人工智能技術驅動的自然語言處理工具，它能夠通過學習和理解人類的語言來進行對話，還能根據聊天的上下文進行互動，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文任務。 [1] //openai.com/blog/chatgpt/

ChatGPT · 大模型 · 自然語言處理 · 通用人工智能 · 對話式大模型 ·

2023 年 6 月 17 日

[付費5元查看完整內容]大模型時代的自然語言處理：挑戰、機遇與發展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近期發布的 ChatGPT 和 GPT-4 等大型語言模型, 不僅能高質量完成自然語言生成任務, 生成流暢通順, 貼合人類需求的語言, 而且具備以生成式框架完成各種開放域自然語言理解任務的能力. 在少樣本, 零樣本場景下, 大模型可取得接近乃至達到傳統監督學習方法的性能, 且具有較強的領域泛化性, 從而對傳統自然語言核心任務產生了巨大的沖擊和影響. 本文就大模型對自然語言處理的影響進行了詳細的調研和分析, 試圖探究大模型對自然語言處理核心任務帶來哪些挑戰和機遇, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術的未來發展趨勢和應用. 分析結果表明, 大模型時代的自然語言處理依然大有可為. 我們不僅可以將大模型作為研究方法和手段, 學習, 借鑒大型語言模型的特點和優勢, 變革自然語言處理的主流研究范式, 對分散獨立的自然語言處理任務進行整合, 進一步提升自然語言核心任務的能力; 還可就可解釋性, 公平性, 安全性, 信息準確性等共性問題開展深入研究, 促進大模型能力和服務質量的提升. 未來, 以大模型作為基座, 拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通用人工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務。

1 引言

2022 年 11 月 30 日, OpenAI 發布了對話式語言大模型 (ChatGPT1), Chat Generative Pretrained Transformer). 該模型允許用戶使用自然語言對話形式進行交互, 可實現包括自動問答, 文本分類, 自動文摘, 機器翻譯, 聊天對話等各種自然語言理解和自然語言生成任務. ChatGPT 在開放域自然語言理解上展現了出色的性能, 甚至無需調整模型參數, 僅使用極少數示例數據即可在某些任務上超過了針對特定任務設計并且使用監督數據進行訓練的模型. 當面對用戶所提出的各種文本生成任務時, ChatGPT 在多數情況下可以生成出通暢通順, 有邏輯性且多樣化的長文本.

ChatGPT 自發布以來引起了廣泛的關注, 僅在 5 天內注冊用戶就超過了 100 萬. 據雅虎財經2)統計, 在 ChatGPT 推出僅兩個月后, 月活躍用戶已達 1 億, 相比之下, 之前一直被認為是用戶增長速度最快的消費級應用程序 Tiktok 則花費了 9 個月的時間. 稍后不久, 微軟于 2023 年 2 月 8 日推出了新一代 AI 驅動搜索引擎 New Bing3) , 該引擎將基于 ChatGPT 技術的生成模型與 Bing 搜索深度集成, 創造了對話式搜索的新范式. 2023 年 3 月 14 日, OpenAI 發布了下一代生成式多模態預訓練大模型 GPT-44) , 它不僅能夠理解自然語言文本, 還能夠對圖片內容進行深度理解, 并且具備比 ChatGPT 更強的問題求解和推理能力, 在多種人類考試和自然語言理解任務中取得了更加優秀的成績 [1].

長期以來, 自然語言處理任務主要采用監督學習范式, 即針對特定任務, 給定監督數據, 設計統計學習模型, 通過最小化損失函數來學習模型參數, 并在新數據上進行模型推斷. 隨著深度神經網絡的興起, 傳統的統計機器學習模型逐漸被神經網絡模型所替代, 但仍然遵循監督學習的范式. 2020 年 5 月 Open AI 發布的首個千億參數 GPT-3 模型初步展示了生成式模型的強大功能, 其具備流暢的文本生成能力, 能夠撰寫新聞稿, 模仿人類敘事, 創作詩歌, 初步驗證了通過海量數據和大量參數訓練出來的大模型能夠遷移到其他類型的任務 [2]. 然而, 直到 ChatGPT 的出現, 學術界才意識到大模型對于傳統自然語言處理任務范式的潛在顛覆性.

以 ChatGPT 為代表的大型語言模型, 給自然語言處理帶來的是威脅, 挑戰還是新的機遇? 今后的自然語言處理核心任務將采用何種主流范式實現語言理解和生成? 自然語言處理的研究領域將如何延伸? 以大模型為代表的自然語言處理技術將如何引領通用人工智能的發展? 我們就大模型對自然語言處理的影響進行了詳細的調研和思考, 試圖分析大模型對自然語言處理核心任務帶來的沖擊和啟發, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術的未來發展和應用, 以期回答上述問題.

2. 背景知識

在探討大模型給自然語言處理帶來的挑戰和機遇之前, 我們首先需要介紹相關的背景知識, 包括自然語言處理的概念和研究歷史, 大規模預訓練語言模型從語言模型, 預訓練模型到大模型的技術發展歷程, 以及 ChatGPT 和 GPT-4 的基本技術與能力。

**3 大模型時代的自然語言處理核心任務 **

自然語言處理包含自然語言理解和自然語言生成兩個方面, 常見任務包括文本分類, 結構分析 (詞法分析, 分詞, 詞性標注, 句法分析, 篇章分析), 語義分析, 知識圖譜, 信息提取, 情感計算, 文本生成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答等. 在神經網絡方法出現之前, 因為缺乏行之有效的語義建模和語言生成手段, 自然語言處理的主流方法是基于機器學習的方法, 采用有監督分類, 將自然語言處理任務轉化為某種分類任務. 在神經網絡時代, Word2Vec 詞嵌入模型, BERT 等上下文相關語言模型為詞語, 句子乃至篇章的分布式語義提供了有效的建模手段; 編碼器-解碼器架構和注意力機制提升了文本生成的能力; 相比傳統自然語言處理所遵循的詞法-句法-語義-語篇-語用分析級聯式處理架構, 端到端的神經網絡訓練方法減少了錯誤傳播, 極大提升了下游任務的性能. 不過, 神經網絡方法仍然遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計深度學習模型, 通過最小化損失函數來學習模型參數. 由于深度學習也是一種機器學習方法, 因此從某種程度上, 基于神經網絡的方法和基于機器學習的方法并無本質區別. 然而, 不同于通常的深度學習方法, 以 ChatGPT 為代表的生成式大模型, 除了能高質量完成自然語言生成類任務之外, 還具備以生成式框架完成各種開放域自然語言理解任務的能力. 只需要將模型輸出轉換為任務特定的輸出格式, 無需針對特定任務標注大量的訓練數據, ChatGPT 即可在少樣本乃至零樣本上, 達到令人滿意的性能, 甚至可在某些任務上超過了特別設計并使用監督數據進行訓練的模型. 因此, ChatGPT 對各種自然語言處理核心任務帶來了巨大的, 不可避免的沖擊和影響, 也醞釀著新的研究機遇. 接下來, 針對各種自然語言處理核心任務, 我們將首先介紹其任務需求和主流方法, 然后分析大模型對其主流研究范式所帶來的影響, 并探討未來研究趨勢.

-本分類 * 結構化預測 * 語義分析 * 知識圖譜與文本信息抽取 * 情感計算 * 文本生成 * 自動文摘 * 機器翻譯 * 對話系統 * 信息檢索 * 自動問答

ChatGPT 等大型語言模型, 對文本分類, 結構分析, 語義分析, 信息提取, 知識圖譜, 情感計算, 文本生成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答各種核心的自然語言理解和生成任務均產生了巨大的沖擊和影響. ChatGPT 在大規模預訓練過程中習得廣泛的語言和世界知識, 處理自然語言任務時不僅能在少樣本, 零樣本場景下接近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 這將激勵, 促進研究者們打破固有思維方式的樊籬, 學習, 借鑒 ChatGPT 等大模型的特點和優勢, 對自然語言處理的主流研究范式進行變革, 進一步提升自然語言核心任務的能力, 例如以生成式框架完成各種開放域自然語言處理任務并減少級聯損失, 通過多任務學習促進知識共享, 通過擴展上下文窗口提升理解能力, 通過指令遵循和上下文學習從大模型有效提取信息, 通過思維鏈提升問題拆解和推理能力, 通過基于人類反饋的強化學習實現和人類意圖對齊等. 長期以來, 自然語言處理分為自然語言理解和自然語言生成兩個領域, 每個領域各有多種核心任務, 每種任務又可根據任務形式, 目標, 數據等進一步細分, 今后在各種應用任務的主流架構和范式逐漸統一的情況下, 有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作. 另一方面, 基于大模型的強大基座能力, 針對具體任務進行按需適配, 數據增強, 個性化, 擬人交互, 可進一步拓展自然語言處理的應用場景, 為各行各業提供更好的服務.

**4 大模型時代的自然語言處理共性問題 **

在自然語言處理研究領域中, 除了各種核心任務之外, 還有可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質量和評價等一些共性問題. 這些問題不是某種任務所特有的, 而是廣泛存在于各種自然語言理解和生成任務中. 圍繞這些共性問題進行針對性研究, 分析其成因和機理, 設計應對措施, 對確保自然語言處理任務的性能, 效率, 穩定性和領域適用性至關重要. 大模型自身同樣存在著自然語言處理的共性問題, 如模型可控性, 多樣性, 魯棒性和可解釋性仍需提升, 訓練和使用成本過高, 語言數據質量缺乏保障, 評價方法單一等. ChatGPT 的一項亮點技術是 “與人類意圖對齊”, 其目的除了理解用戶意圖之外, 還需要拒絕不合理的請求, 給出負責的, 合乎人類道德準則和倫理規范的答案. 由于大模型的結構復雜, 參數龐大, 生成過程難以解釋, 生成文本時經常面臨幻覺生成, 錯誤知識, 前后不一致等問題, 人們對于從系統獲取信息的準確性無從感知, 給系統的廣泛實際應用帶來了極大的潛在風險. 因此, 如何提升模型的公平性, 無害性, 有益性和魯棒性, 確保大模型擁有正確的價值觀, 保障大模型生成內容的信息準確性變得愈發重要. 隨著以 GPT-3 為代表的大模型技術逐漸發展, 模型的參數數量, 計算時延, 訓練所需的資源等都在顯著增加. 在語言建模能力不斷增長的同時, 模型的計算成本與能耗指標也成為當前大模型成功應用的一大門檻. 大規模高質量文本數據資源在模型的構建過程中扮演了極其重要的作用, 訓練數據規模越大, 種類越豐富, 質量越高, 所得到的大規模語言模型的性能越好, 而訓練數據中的瑕疵數據, 可能會對模型的表現產生負面影響; 相較于以前的單一類型或少數任務驅動的基準評測, 針對大規模語言模型的評測需覆蓋的問題場景范圍更廣, 復雜度更高, 難度也更大, 需要探索更有效合理的任務評價指標. 總之, 這些由大模型所強化的真實需求, 將極大地加強模型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等各種共性問題的研究熱度.

**5 討論 **

前兩節我們探討了大模型對各種自然語言理解和生成核心任務將帶來哪些沖擊和影響, 分析了大模型將如何加強自然語言處理共性問題的研究. 本節首先將聚焦大模型自身, 探究如何從模型規模, 學習方法, 個性化等角度進一步提升大模型的內在能力; 其次, 從工具學習, 多模態, 具身智能的角度, 討論如何進一步延伸和擴展大模型的感知, 計算, 推理, 交互和控制能力, 使大模型成為通用人工智能的基座; 最后, 介紹 ChatGPT 等大型語言模型將催生哪些應用場景, 為各行各業帶來哪些自然語言處理新應用.

**6 總結與展望 **

綜上所述, ChatGPT 等大型語言模型, 對傳統自然語言處理核心任務產生了巨大的沖擊和影響. 這些核心任務普遍遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計和定制機器學習和深度學習模型. 相比之下, 利用 ChatGPT 完成自然語言處理任務, 不僅能在少樣本, 零樣本場景下接近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 雖然如此, 面對大型語言模型所帶來的沖擊, 研究者們完全無需產生 “自然語言處理已經不存在了” 等悲觀情緒. 首先, ChatGPT 等對話式大模型, 并非橫空出世, 而是沿著神經語言模型的發展路線, 利用海量算力, 基于大規模高質量文本數據所實現的大型全注意力模型. 未來研究者們能夠將大模型作為研究方法和手段, 更能夠學習, 借鑒生成式無監督預訓練, 多任務學習, 上下文學習, 指令遵循, 思維鏈, 基于人類反饋的強化學習等大型語言模型的特點和優勢, 進一步提升自然語言核心任務的能力.

大模型為自然語言處理帶來了架構通用化, 任務統一化, 能力按需化, 模型定制化等變化趨勢. 今后在各種自然語言理解和生成任務的主流架構和范式逐漸統一的情況下, 一方面，各種自然語言處理任務有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作; 另一方面, 基于大模型的強大基礎能力, 針對具體任務進行按需適配, 數據增強, 模型壓縮與輕量化, 跨模態和多模態融合, 加強自然語言處理模型方法的可控性, 可配性, 領域適應性, 多樣性, 個性化和交互能力, 將進一步拓展自然語言處理的應用場景.

大模型時代的自然語言處理, 存在算法模型的可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質量和評價等一些共性問題, 這些問題也是妨礙大模型能力提升和服務質量的主要因素. 未來, 針對模型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等各種自然語言處理共性問題的研究將越來越深入.

自然語言處理是人工智能的重要組成部分, 是人工智能從感知智能上升到認知智能的主要手段. ChatGPT 的出現, 已經打開了通向通用人工智能的大門. 未來, 以大模型作為基座, 利用工具學習, 多模態融合, 具身智能拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通用人工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務.

付費5元查看完整內容

大模型 · ChatGPT · 自然語言處理 · 領域大模型 ·

2023 年 6 月 8 日

[付費5元查看完整內容]大模型如何領域適配？埃默里大學等首篇《大型語言模型領域專業化》綜述，42頁pdf詳述大模型領域垂直化技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何讓模型適配專業領域？這篇文章夠了

大型語言模型（LLMs）顯著推進了自然語言處理（NLP）領域的發展，為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展，遠超“聊天機器人”，并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而，直接應用LLMs解決特定領域的復雜問題會遇到許多難題，這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性，以及領域應用中的各種限制（例如，各種社會規范、文化一致性、宗教信仰和道德標準）所引起。為了填補這種空白，在最近幾年中，對LLMs領域專化的研究和實踐已經爆炸式增長，然而，這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中，首先，我們提出了一個系統的分類法，該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類，并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法，這些領域可以從專業化的LLMs中受益，討論了它們的實際意義和開放的挑戰。此外，我們還提供了關于該領域當前研究狀態和未來趨勢的見解。

//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414

1. 引言

自然語言處理（NLP）和人工智能（AI）模型的演變經歷了顯著的軌跡，始于1950年和1960年的基于規則的系統，轉變為1990年的統計模型，然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功，預訓練語言模型（PLMs）在2010年后期出現并迅速流行，這得益于它們能以無監督的方式從大規模數據中學習通用語言表示，這對許多下游NLP任務如常識推理[270]，多選題回答[206]和故事生成[30]都有益處，同時避免了從頭開始訓練新模型。在過去的幾年中，隨著大規模語料庫和硬件容量的快速增長，研究人員發現，通過擴大模型和訓練數據可以持續提高模型的容量，遵循擴展規則[99]，最終導致了大型語言模型（LLMs）[259]的出現，如GPT-3[28]（175B參數），PaLM[39]（540B參數），和LLaMA[235]（65B參數）。LLMs在理解和生成類人文本方面明顯優于較小的模型，已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋，對改變自然和社會科學的潛力，可能會加速研究、提高發現過程并促進跨學科合作。

大型語言模型（LLMs）作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展，遠超過僅作為“聊天機器人”[173]，而是將其用作特定領域如健康保健、金融和教育的助手，甚至替代人工或現有的事實上的工具。然而，直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先，不同領域、角色和任務的對話和語言風格存在顯著差異，范圍從醫療處方，到法律句子，到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練，其中很多都是實踐性的和專有的。此外，不同的領域、機構和團隊有自己的“商業模式”，關于哪種回應將最大化他們自己的效用函數以完成他們的任務，這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是，專業級使用的領域知識要求也需要非常深入，實時且準確，這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力，絕不能泄露給通用的LLMs。最后但并非最不重要的一點，語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束，所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數，這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性，即將通用的LLMs定制到領域的上下文數據，增強領域知識，優化領域目標，并受到領域限制的調控。為了實現這個目標，這個主題目前正在經歷極其快速的增長。

LMs領域專業化是一個關鍵且具有挑戰性的問題，需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰，包括：1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而，這也意味著LLMs往往有一個知識斷層（即，LLMs無法獲取最新的信息、事件或發現）。在許多專業領域，新的發現、規定和最佳實踐不斷出現，這使得LLMs難以保持最新。例如，每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查，LLMs可能無法處理它們，因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而，確保模型的新鮮度可能需要大量的資源，因為它需要連續的高質量和最新的數據收集、處理，以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下，LLMs具有廣泛主題的通用知識，并可能已經看到并獲得了大部分領域的特定知識。然而，更受歡迎或廣泛討論的話題可能被過度代表，而一些領域特定的話題可能被低估，這使得它們難以被有效地提取用于領域特定的任務。此外，領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導，LLMs可能會生成聽起來合理但對類似查詢（即，LLM的幻覺）或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列，而不是基于結構化知識庫提供確定的答案。研究人員發現，通過為LLMs提供一些任務特定的演示，用戶可以指導模型生成更相關、準確和任務特定的回應，從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口，通常由它們可以處理的最大令牌長度決定（例如，ChatGPT只能處理4097個令牌）。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用，微調歷史上是專門化語言模型的常用做法。然而，與傳統的語言模型不同，微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外，LLM的復雜性使得確定最適當的微調策略變得具有挑戰性，因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘，因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識，并過度適應目標領域。除了數據需求和復雜模型架構之外，LLM通常由數十億的參數組成，例如，生成預訓練Transformer 3（GPT-3）[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數，這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件，如TPU，這可能會很昂貴，尤其是對于個人研究者或小型組織來說，獲取這些資源可能會非常困難。

在過去的幾年中，對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻，只需進行少量修改并獲取領域特定信息，就可以適應特定領域。然而，將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰，同樣的，缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙，并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙，更有效地利用人工智能完成各種領域的任務，這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括：

? 對LLMs領域專業化技術的系統分類和分類法：我們基于對LLM的不同級別（即，黑箱、灰箱和白箱）的可訪問性，全面地分類了現有的方法，并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。

? 對主要應用領域的全面分類和總結：我們首次提出了代表性應用領域的分類法，LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明，便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域，以評估他們新提出的方法，同時擴大他們的先進技術以包含新的應用領域。

? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解，以及可能的未來方向的討論來結束。

2. 領域專業化的分類法

大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明，擴展預訓練語言模型，如增加模型大小或數據大小，常常能提升模型在下游任務中的處理能力。在本節中，我們首先回顧了PLMs的基本概念，然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。

根據對大型語言模型（LLMs）的可訪問性級別，將專門化LLMs進入領域的方法分為三類，即無訪問權限（黑箱），部分訪問權限（灰箱）和全訪問權限（白箱）。黑箱通常表示我們只能訪問模型API（例如，ChatGPT和GPT4），而不知道除生成的輸出外的任何信息；灰箱表示我們有限的信息（例如，GPT-3 API中生成的令牌的概率），這樣的信息可以指導我們設計并微調適當的提示，以更好地引出領域知識；白箱則表示我們可以全面訪問LLM（例如，LLaMA及其變種），包括參數設置，訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說，

1）外部增強（黑箱）并不需要訪問LLM的內部參數空間，使其對資源有限的用戶（例如，計算資源，特定領域的數據）最為可接觸。如圖2（b）所示，通過使用外部資源或工具，將領域特定知識融入輸入提示，生成的輸出，或兩者，有效地改進了LLM的性能，而無需修改其內部結構。

2）提示制作（灰箱）涉及訪問LLM的梯度或損失值來設計各種類型的提示，允許更精細地控制模型的行為。

3）模型微調（白箱）需要最多的訪問權限和資源，因為它涉及更新LLM的參數，將領域特定知識直接融入模型。（圖2（d））。

3 LLM領域專業化的應用

在這篇綜述性的論文中，我們探索了LLMs在一系列特定領域任務中的應用，這些領域包括社會科學（如教育，金融，法律），自然科學（如生物醫學，地球科學），以及應用科學（如人機交互，軟件工程和網絡安全）。為了在這些多元化領域實現LLMs的領域專業化，讀者可以采用各種技術，如外部增強，指示制作，和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰，從而使得應用更準確，相關和有效。雖然每個領域都有其獨特的挑戰和需求，但在這些領域中，專門化的LLMs有幾個共同的應用：

? 高級信息提取：它們可以從特定領域的文本中識別實體，關系和事件，如從生物醫學文獻中識別基因，或在合同中檢測法律條款。 ? 文本生成和摘要：它們可以生成高質量的，特定領域的內容，并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦：它們可以分析特定領域的數據進行預測和提供推薦，如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統：它們可以被融入到對話代理或專家系統中，提供特定領域的指導，如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析：在軟件工程中，它們可以基于自然語言描述生成或分析代碼，識別錯誤，或提出改進建議。

4. 結論

總的來說，大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然，社會和應用科學領域中的特定領域任務的極大興趣。然而，若干挑戰，如特定領域的專業知識有限，知識誘導和模型復雜性，阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結，并提供了一個全面的應用領域分類，這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點，缺點和關系的詳細分析，這份調查旨在幫助領域專家確定適合他們目標問題設置的技術，同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外，該文還強調了這一領域研究的當前狀態，揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展，這份調查為研究人員和從業人員提供了寶貴的資源，進一步推動了人工智能在多個領域應用的進步和創新。

付費5元查看完整內容

大模型 · ChatGPT · 大型語言模型 ·

2023 年 4 月 27 日

[付費5元查看完整內容]大模型如何用好？亞馬遜最新《大型語言模型(LLMs)實踐：ChatGPT》綜述，全面概述LLM模型、數據、任務的實戰指南

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文為從事大型語言模型（LLMs）的實踐者和終端用戶提供了一份全面且實用的指南，以應用于下游自然語言處理（NLP）任務。我們從模型、數據和下游任務的角度對LLMs的使用進行了討論和分析。首先，我們對當前基于GPT和BERT風格的LLMs進行了介紹和簡要總結。接著，我們討論了預訓練數據、訓練數據和測試數據的影響。最重要的是，我們詳細討論了在各種自然語言處理任務中使用和不使用大型語言模型的情況，如知識密集型任務、傳統自然語言理解任務、自然語言生成任務、新興能力和針對特定任務的考慮因素。我們通過各種使用和不使用的案例來說明LLMs在現實場景中的實際應用和局限性。同時，我們試圖了解數據的重要性及與每個NLP任務相關的特定挑戰。此外，我們還探討了偶然偏差對LLMs的影響，并深入研究了其他關鍵考慮因素，如效率、成本和延遲，以確保全面了解在實踐中部署LLMs。本全面指南旨在為研究人員和實踐者提供有價值的見解和最佳實踐，以便成功地將這些模型應用于廣泛的NLP任務。關于LLMs實用指南資源的策劃清單，定期更新，可以在

//github.com/Mooler0410/LLMsPracticalGuide 找到

1. 引言

近年來，大型語言模型的快速發展正在徹底改變自然語言處理領域[12, 128, 131]。這些強大的模型在處理各種NLP任務方面表現出巨大潛力，從自然語言理解（NLU）到生成任務，甚至為人工通用智能（AGI）鋪平了道路。然而，有效且高效地利用這些模型需要對它們的能力和局限性以及NLP涉及的數據和任務有實際的了解。為了為從業者和終端用戶提供指導，本研究關注于在下游自然語言處理任務中與大型語言模型（LLMs）合作的實際方面。本指南旨在提供實用建議，說明為何在給定任務中選擇或不選擇LLMs，以及如何選擇最合適的LLM，考慮到諸如模型大小、計算需求以及領域特定預訓練模型的可用性等因素。從實際角度深入了解LLMs，因此，為從業者和終端用戶提供了成功利用LLMs處理自己的NLP任務所需的實用知識。

我們的工作結構如下。首先，我們通過討論最重要的模型，如 GPT 風格和 BERT 風格架構，簡要介紹了 LLM（大型語言模型）。接著，我們從數據的角度深入研究影響模型性能的關鍵因素，包括預訓練數據、訓練/調優數據和測試數據。最后且最重要的是，我們深入研究各種具體的 NLP 任務，為 LLM 在知識密集型任務、傳統 NLU 任務和生成任務的適用性提供見解，以及這些模型所具有的新興能力和面臨的現實挑戰。我們提供詳細的示例，突顯 LLM 在實踐中的成功案例和局限性。為了分析大型語言模型的能力，我們將它們與微調模型進行比較。目前，還沒有一個普遍認可的關于 LLM 和微調模型的定義。考慮到實用性，在我們的文章中，對它們的定義如下：LLM 是在大量數據集上進行預訓練，而不針對特定任務調優的龐大的語言模型；微調模型通常是較小的語言模型，它們也經過預訓練，然后在更小的特定任務數據集上進一步調優，以優化其在該任務上的性能。本文總結了使用 LLM 的以下主要實用指南：

自然語言理解。在面對分布之外的數據或非常少的訓練數據時，利用 LLM 的卓越泛化能力。 自然語言生成。利用 LLM 的能力為各種應用創建連貫、與上下文相關且高質量的文本。 知識密集型任務。利用 LLM 存儲的廣泛知識來處理需要特定領域專業知識或普遍世界知識的任務。 推理能力。理解并利用 LLM 的推理能力，以提高在各種情境下的決策和問題解決能力。

2 .模型實用指南

本節簡要介紹了最先進的大型語言模型（LLMs）。這些模型在訓練策略、模型架構和應用場景上有所不同。為了更清晰地了解LLM領域，我們將其分為兩類：編碼器-解碼器或僅編碼器的語言模型和僅解碼器的語言模型。在圖1中，我們展示了語言模型的詳細演變過程。從演化樹中，我們得出以下有趣的觀察：

a) 僅解碼器模型已逐漸主導了大型語言模型（LLMs）的發展。在LLMs發展的早期階段，僅解碼器模型并不像僅編碼器和編碼器-解碼器模型那樣受歡迎。然而，在2021年之后，隨著具有改變游戲規則的大型語言模型（如GPT-3）的引入，僅解碼器模型經歷了顯著的繁榮。同時，在BERT帶來的初步爆炸性增長之后，僅編碼器模型逐漸開始淡出人們的視線。

b) OpenAI始終保持著在LLM領域的領導地位，無論是現在還是可能的未來。其他公司和機構在開發與GPT-3和當前的GPT-4相媲美的模型方面，都在努力迎頭趕上OpenAI。這個領導地位可以歸因于OpenAI對其技術路徑的堅定承諾，即使最初并未得到廣泛認可。c) Meta在開源LLM方面做出了巨大貢獻，并推動了LLM的研究。在考慮到對開源社區的貢獻時，尤其是與LLM相關的貢獻，Meta是最慷慨的商業公司之一，因為Meta開發的所有LLM都是開源的。d) LLM呈現出封閉來源的趨勢。在LLM發展的早期階段（2020年之前），大多數模型都是開源的。然而，隨著GPT-3的推出，越來越多的公司選擇封閉源代碼模型，如PaLM、LaMDA和GPT-4。因此，學術研究人員在LLM訓練方面的實驗變得更加困難。因此，基于API的研究可能成為學術界的主導方法。e) 編碼器-解碼器模型仍具有潛力，因為這種類型的架構仍在積極探索中，而且大多數都是開源的。谷歌為開源編碼器-解碼器架構做出了實質性貢獻。然而，僅解碼器模型的靈活性和通用性似乎使得谷歌對這個方向的堅持變得前景不太明朗。

我們還簡要總結了表1中每種類型的特征和代表性LLM。

2.1 BERT風格語言模型: 編碼器-解碼器或僅編碼器由于自然語言數據很容易獲得，并且已提出了無監督訓練范式，以更好地利用超大型數據集，這激發了自然語言的無監督學習。一種常見的方法是在考慮上下文的同時預測句子中的掩碼詞。這種訓練范式被稱為掩碼語言模型。這種類型的訓練允許模型對單詞和它們所使用的上下文之間的關系有更深的理解。這些模型使用Transformer架構等技術在大量文本語料庫上進行訓練，并在許多NLP任務中取得了最先進的結果，如情感分析和命名實體識別。掩碼語言模型的著名例子包括BERT [28]， RoBERTa[65]和T5[84]。由于在廣泛的任務中取得了成功，MLMs已經成為自然語言處理領域的重要工具。

2.2 GPT風格的語言模型:僅解碼器雖然語言模型在架構中通常與任務無關，但這些方法需要對特定下游任務的數據集進行微調。研究人員發現，擴大語言模型的規模可以顯著提高少樣本甚至零樣本的性能[16]。獲得更好的少樣本和零顯示性能的最成功的模型是自回歸語言模型，它是通過給定前面的單詞在序列中生成下一個單詞來訓練的。這些模型已被廣泛用于文本生成和問答等下游任務。自回歸語言模型的例子包括GPT-3 [16]， OPT [126]， PaLM[22]和BLOOM[92]。改變游戲規則的GPT-3首次通過提示和上下文學習展示了合理的少樣本/零樣本性能，從而顯示了自回歸語言模型的優越性。還有一些模型，如CodeX[2]，針對特定任務(如代碼生成)進行了優化，用于金融領域的BloombergGPT[117]。最近的突破是ChatGPT，它專門針對對話任務改進了GPT-3，為各種現實世界的應用提供了更具交互性、連貫性和上下文感知的對話。

3 數據實用指南

在本節中，我們將討論數據在為下游任務選擇適當模型方面發揮的關鍵作用。數據對模型有效性的影響從預訓練階段開始，一直持續到訓練和推理階段。 (1)在面臨分布外數據的下游任務中，LLM的泛化能力比微調模型更好，如對抗性樣本和域偏移。(2)在處理有限的標注數據時，LLM比微調模型更可取，并且在有大量標注數據時，兩者都可以是合理的選擇，具體取決于特定的任務需求。(3)建議選擇在與下游任務類似的數據字段上預訓練的模型。

4 NLP任務實用指南

在本節中，我們詳細討論LLM在各種下游NLP任務中的用例和非用例以及相應的模型能力。在圖2中，我們將所有討論總結為一個決策流。它可以是面對任務時快速決定的指南。

5 其他注意事項

盡管LLM適用于各種下游任務，但還有一些其他因素需要考慮，如效率和可信性。對效率的討論包括LLM的訓練成本、推理延遲和參數有效的調優策略。對可信性的考察包括魯棒性和校準、公平性和偏差、潛在的虛假相關性以及LLM中的安全挑戰。

6 結論和未來的挑戰

大型語言模型的最新進展正在徹底改變自然語言處理領域。有效地使用LLM需要了解它們的能力和各種NLP任務的限制。本文為在下游NLP任務中使用LLM提供了實用指南。首先討論了一些突出的模型，如GPT風格和BERT風格的架構以及影響它們性能的因素。探討了將LLM用于下游任務，包括知識密集型任務、NLU和NLG任務，并提供了成功和局限性的具體例子。本實用指南提供了對LLM的見解和跨NLP任務利用LLM的最佳實踐。我們希望它能使研究人員和從業人員發揮他們的潛力，推動語言技術的創新。接下來，我們分析了LLM未來面臨的挑戰:

在真實世界的“數據集”上評估所提出的模型。現有的深度學習模型主要在標準的學術數據集上進行評估，如ImageNet，這些數據集是深度學習發展的里程碑。然而，標準學術數據集的局限性并不能準確反映現實世界的性能。隨著模型的發展，至關重要的是要在反映現實世界需求的更多樣化、復雜和現實的數據上評估它們。評估真實世界“數據集”上的模型，除了學術上的，將提供更嚴格的測試它們的能力，以及更好地理解它們在真實世界應用中的有效性。這確保了模型能夠應對現實世界的挑戰并提供實際的解決方案。

模型對齊。確保日益強大和自主的模型與人類的價值觀和優先事項相一致至關重要。必須開發方法來保證這些模型的行為符合預期，并且不會針對不期望的結果進行優化。從模型開發過程的一開始就集成對齊技術至關重要。模型透明度和可解釋性也是評估和確保對齊的重要因素。此外，當我們展望未來時，一個更艱巨的挑戰正在逼近:調整超人系統。雖然這項任務目前超出了我們的需求，但重要的是要考慮和準備調整這些先進系統的潛在影響，因為它們可能提出獨特的復雜性和倫理問題[8,15]。

安全對齊。雖然人工智能存在風險的討論很重要，但需要具體的研究來保證先進人工智能的安全發展。這包括可解釋性、可擴展的監督和管理，以及模型屬性的形式化驗證技術。安全性不僅應該被視為一個附加組件，而且應該被視為模型構建過程中不可分割的一部分。

基于縮放的性能預測。隨著模型大小和復雜性的急劇增加，很難預測模型性能將如何變化。開發方法在擴展后或在開發新架構時更好地預測模型性能，將允許更有效地使用資源和加速進展。一些可能性包括:訓練一個較小的“種子”模型并推斷其增長，模擬規模增加或模型調整的影響，以及在不同規模上對模型迭代進行基準測試以構建縮放規律。這些可以在模型建立之前就了解模型的性能。

付費5元查看完整內容

大模型 · 大型語言模型 · ChatGPT ·

2023 年 4 月 3 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自20世紀50年代圖靈測試被提出以來，人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法，在過去的二十年中，語言建模在語言理解和生成方面得到了廣泛的研究，從統計語言模型發展到神經語言模型。最近，通過在大規模語料庫上預訓練Transformer模型，人們提出了預訓練語言模型(PLM)，在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高，他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是，當參數規模超過一定水平時，這些放大的語言模型不僅實現了顯著的性能提升，而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異，研究界創造了大型語言模型(LLM)這個術語，用于表示規模巨大的PLM(例如，包含數百億或千億參數)。近年來，學術界和工業界對LLMs的研究取得了很大進展，其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出，引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響，這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步，本綜述通過介紹背景、關鍵發現和主流技術，回顧了LLM的最新進展。重點關注LLM的四個主要方面，即預訓練、自適應調優、利用率和能力評估。此外，還總結了開發LLM的可用資源，并討論了剩余問題，以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述，對于研究人員和工程師來說，這可以是一個有用的資源。

付費5元查看完整內容

ChatGPT · GPT-4 · 自然語言推理 · 大模型 ·

2023 年 3 月 29 日

[付費5元查看完整內容]ChatGPT背后的大模型如何做推理？港中文等最新《自然語言推理》綜述詳述預訓練語言模型推理方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講，本文為NLP中的自然語言推理提供了一個明確的定義，基于哲學和NLP場景，討論了哪些類型的任務需要推理，并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述，主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式，并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本，不包括神經符號技術和數學推理。

1. 引言

近年來，自然語言處理(NLP)取得了重大進展，特別是transformer和預訓練語言模型(PLM)的引入。然而，它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程，是人類智能的一個基本方面，對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標，也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比，使用自然語言表達進行推理提供了更加自然的人機交互界面，并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練，PLM能夠進行自然語言理解。最近的進展表明，PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說，PLM可以對自然語言語句[24]進行軟演繹推理，利用其參數中記憶的隱性知識進行推理[141]，并在模型規模足夠大時通過思維鏈提示[76,154]，僅使用少量演示或指令就可以逐步執行多步推理。最近，ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而，盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154]，但仍然缺乏對推理的明確定義，并且“推理”一詞有時會被錯誤使用，這可能會影響NLP社區對推理的交流和發展。**例如，雖然它屬于“常識推理”，但很少有人會認為講述一個共同的生活經歷[9]，例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是，有時“自然語言推理”被引入為自然語言理解的任務[11]，但其他時候的推理為[24]。到目前為止，沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理)，也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性，我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義，但該定義并不能很好地捕捉NLP中的推理。例如，雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57]，但它未能明確隱含常識是否可以作為證據以及推理的結論類型，如命名實體消歧。

為了促進自然語言處理中推理的研究，本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講，本文從哲學和NLP場景出發，提出了NLP推理的定義，討論了哪些類型的任務需要推理，并介紹了推理的分類。在實踐中，基于明確的定義，對自然語言處理中的自然語言推理進行了全面的文獻綜述，主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文，我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后，討論了推理的局限性和未來的發展方向。除了推理的定義之外，該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理，這是除正向推理外的另一種強大的多步推理范式。雖然正向推理，如思維鏈提示，最近在LLM中很流行，但反向推理值得進行更多的探索。由于搜索空間更小[71]，向后推理在概念和經驗上都比前向推理更有效，因此有可能推廣到步驟更長的復雜推理。其次，介紹了可廢止推理(即非演繹推理)，認為這是最重要的未來方向之一。哲學認為，人類日常生活中的推理大多是非演繹的。然而，這在NLP研究中仍然存在很大的差距，而ChatGPT[4]也更具挑戰性。更重要的是，當演繹推理可以用符號推理機(如Prolog編程)精確求解時，可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧，故意排除了神經符號技術。對收集到的論文進行了整理，對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年，我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字，包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之，本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義，并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述，涵蓋了不同的NLR基準，并提供了一個全面的方法分類。我們還介紹了向后推理，它被忽略了，但有潛力。 (3)介紹了可廢止推理，比較了演繹推理和可廢止推理的差異，討論了它們對NLP解決方案的影響，并回顧了現有的方法。

2. 什么是自然語言推理

目前，自然語言推理在自然語言處理領域仍缺乏明確的定義，影響了自然語言處理領域的發展和交流。為促進理解、分析和交流，本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標，我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究，并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義，以滿足NLP社區的關注(第2.1節)。然后，提供了NLR的類別，并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后，介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注，而哲學從幾千年前就開始研究推理，邏輯被視為正確推理的藝術，它研究推理的概念，使其類別系統化，并發展良好推理的原則，包括形式邏輯和非形式邏輯[8,45,62]。在本節中，我們首先包括來自哲學和邏輯學的推理理論，并將其導出為NLP推理。然后，回顧了自然語言處理中的一些自然語言推理問題;最后，本文提出了一種NLP中推理的定義，該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源，也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件，或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149]，該架構由許多注意力模塊構建，并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來，預訓練-再微調成為一種常見的范式，它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務，并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14]，上下文學習已經成為一種新的流行范式，它可以在只有少量演示的情況下預測新樣本，而無需微調參數。最近，零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中，我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節)，正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說，“端到端推理”只預測最終答案，沒有任何中間文本，而后兩種方法可以產生推理路徑，包含一個或多個帶有中間結論的步驟，展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地，嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外，生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程，它從已有的知識出發，反復推理以獲得新的知識，直到問題被解決。反向推理是一種自上而下的過程，它從問題出發，不斷地分解為子問題，直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題，而正向推理可以自由地發現由現有知識所蘊含的新知識，而不需要預先指定問題。因此，在求解特定問題時，前向推理的搜索空間要比后向推理的搜索空間大得多，隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題，其推理路徑稱為“證明”，正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法，并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中，我們提出了一些開放問題，介紹了一些局限性，并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前，只需要產生推理路徑，甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時，LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159]，但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力，那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者，構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

AIGC · 生成式AI · ChatGPT · GPT-4 ·

2023 年 3 月 22 日

[付費5元查看完整內容]未來GPT-5一統AIGC任務？韓國慶熙大學等最新《生成式人工智能AIGC》綜述，56頁pdf全面闡述AIGC的文本圖像生成技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著ChatGPT的病毒式傳播，生成式AI (AIGC，又名AI生成內容)已經成為各地的頭條新聞，因為它具有分析和創建文本、圖像等的能力。在如此鋪天蓋地的媒體報道下，我們幾乎不可能錯過從某個角度一瞥AIGC的機會。在人工智能從純分析過渡到創造的時代，值得注意的是，ChatGPT及其最新的語言模型GPT-4，只是眾多AIGC任務中的一個工具。ChatGPT的能力給許多人留下了深刻的印象，他們想知道它的局限性: GPT-5(或其他未來的GPT變體)能否幫助ChatGPT統一所有AIGC任務，以進行多樣化的內容創建?為了回答這個問題，需要對現有的AIGC任務進行全面的回顧。**因此，我們的工作來填補這一空白，通過提供AIGC的第一眼，從它的技術到應用。現代生成式人工智能依賴于各種技術基礎，從模型架構和自監督預訓練到生成式建模方法(如GAN和擴散模型)。**在介紹基本技術的基礎上，根據AIGC任務的輸出類型，包括文本、圖像、視頻、3D內容等，重點介紹了AIGC任務的技術發展情況，展現了ChatGPT未來的潛力。此外，總結了它們在一些主流行業的重要應用，如教育和創意內容。討論了目前面臨的挑戰，并對生成式人工智能在不久的將來可能如何發展提出了展望。 //www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b

1. 引言

生成式人工智能(AIGC，又稱人工智能生成內容)已經通過ChatGPT或DALLE[343]等有趣的工具成為頭條新聞，這表明人工智能的新時代正在到來。在鋪天蓋地的媒體報道下，普通大眾有很多機會一睹AIGC的風采。然而，媒體報道的內容往往是有偏見的，有時是誤導性的。此外，ChatGPT的強大功能給許多人留下了深刻的印象，他們想知道它的局限性。最近，OpenAI發布了GPT-4[307]，與之前的變體GPT-3相比，性能有了顯著的提高，以及多模態生成能力，如理解圖像。AIGC支持的GPT-4的強大功能給許多人留下了深刻的印象，許多人想知道它的局限性:GPT-5(或其他GPT變體)能否幫助下一代ChatGPT統一所有的AIGC任務?因此，對生成式人工智能的全面回顧是應對人工智能驅動的內容創作這一必然趨勢的基礎。更重要的是，我們的工作及時填補了這一空白。 **傳統人工智能的目標主要是進行分類[263]或回歸[227]。這種判別性方法主要用于分析現有數據。**因此，傳統人工智能也經常被稱為分析人工智能。相比之下，生成式AI通過創建新內容來區分。然而，生成式人工智能通常也要求模型在生成新內容之前首先理解一些現有數據(如文本指令)[40,342]。從這個角度來看，分析型AI可以被視為現代生成型AI的基礎，它們之間的邊界往往是模糊的。請注意，分析性AI任務也會生成內容。例如，在圖像分類中生成標簽內容[216]。然而，圖像識別往往不被考慮在生成式人工智能的范疇內，因為標簽內容的維數較低。生成式人工智能的典型任務涉及生成高維數據，如文本或圖像。這些生成的內容也可以用作合成數據，以緩解深度學習對更多數據的需求[144]。第2節概述了生成式人工智能的流行及其背后的原因。 **如上所述，生成式AI與傳統AI的區別在于其生成的內容。也就是說，生成式AI在概念上類似于AIGC(又稱AI生成內容)[304]。**在描述基于AI的內容生成的背景下，這兩個術語通常可以互換。本文為簡單起見，將內容生成任務稱為AIGC。例如，ChatGPT是用于AIGC任務的工具，稱為聊天機器人[43]，考慮到AIGC任務的多樣性，這只是冰山一角。盡管生成式AI和AIGC非常相似，但這兩個術語有細微的區別。AIGC專注于內容生成的任務，而生成AI還考慮了支持各種AIGC任務開發的基本技術基礎。本文將這些基礎技術分為兩類。第一類指的是生成式建模技術，如GAN[124]和擴散模型[156]，它們與內容創作的生成式AI直接相關。第二類人工智能技術主要由骨干架構(如Transformer[443])和自監督預訓練(如BERT[87]或MAE[141])組成。其中一些是在分析AI的背景下開發的。然而，它們也成為展示競爭性能的關鍵，特別是在具有挑戰性的AIGC任務中。考慮到這一點，第3節總結了這兩類基礎技術。 **在這些基本技術之上，許多AIGC任務已經成為可能，并且可以根據生成的內容類型直接進行分類。**第4、5和6節對AIGC任務的發展進行了總結。具體來說，第4節和第5節分別關注文本輸出和圖像輸出。對于文本生成，聊天機器人[43]和機器翻譯[497]是兩個主要任務。一些文本生成任務也將其他模態作為輸入，主要關注圖像和語音。對于圖像生成，兩個主要任務是圖像恢復和編輯[253]。最近，文本到圖像(text-to-image)引起了廣泛關注。除了以上兩種主要的輸出類型(即文本和圖像)，第6節還涵蓋了其他類型的輸出，如視頻、3D、語音等。 **隨著技術的進步，AIGC的性能在越來越多的任務中得到了滿足。**例如，聊天機器人過去僅限于回答簡單的問題。然而，最近的ChatGPT已經被證明可以理解笑話并在簡單的指令下生成代碼。文本到圖像曾經被認為是一項具有挑戰性的任務;然而，最近的DALL-E 2[342]和穩定擴散[357]已經能夠生成逼真的圖像。因此，AIGC應用于行業的機會出現了。章節7介紹了AIGC在各個行業的應用，包括娛樂、數字藝術、媒體/廣告、教育等。隨著AIGC在現實世界中的應用，也出現了許多倫理問題等挑戰。除了當前的挑戰，還提出了對生成式人工智能可能如何發展的展望。本文從生成內容(即AIGC任務)的角度對生成人工智能進行了調查，涵蓋其基本技術、任務級技術發展、行業應用以及社會影響。論文結構的概述如圖4所示。

2. 概述

采用AI進行內容創作有很長的歷史。1954年，IBM在紐約的總部首次公開演示了機器翻譯系統。1957年，第一首電腦生成的音樂誕生了，名為“伊利亞克組曲”。這種早期的嘗試和概念證明的成功引起了人們對人工智能未來的高度期待，這促使政府和公司向人工智能投資大量資源。然而，如此高的投資熱潮并沒有產生預期的產出。在那之后，一個被稱為人工智能冬天的時期到來了，這極大地破壞了人工智能及其應用的發展。進入2010年代，人工智能再次流行起來，特別是在2012年AlexNet[216]用于ImageNet分類的成功之后。進入21世紀20年代，人工智能已經進入了一個新時代，不僅可以理解現有數據，還可以創建新的內容[40,342]。本節通過關注生成AI的流行及其原因來概述它。 3 AIGC背后的基本技術

本文將AIGC視為一組用人工智能方法生成內容的任務或應用。在介紹AIGC之前，我們首先了解AIGC背后的基本技術，這些技術在技術層面上屬于生成式人工智能的范圍。本文將基本技術大致分為兩類:生成技術和創造技術。具體來說，創建技術是指能夠生成各種內容的技術，例如GAN和擴散模型。通用技術不能直接生成內容，但對AIGC的開發至關重要，例如Transformer架構。在本節中，我們將簡要總結AIGC所需的技術。

4 AIGC任務:文本生成

NLP研究自然語言，有兩個基本任務:理解和生成。這兩個任務并不是完全獨立的，因為適當文本的生成通常依賴于對一些文本輸入的理解。例如，語言模型通常將文本序列轉換為另一個文本序列，這構成了文本生成的核心任務，包括機器翻譯、文本摘要和對話系統。除此之外，文本生成向兩個方向發展:可控性和多模態。第一個方向是生成內容。 4.1 文本到文本

4.1.1聊天機器人對話系統(聊天機器人)的主要任務是在人類和機器之間提供更好的交流[85,299]。根據應用中是否指定任務，對話系統可以分為兩類:(1)任務導向型對話系統(TOD)[323,502,533]和(2)開放域對話系統(OOD)[4,532,541]。具體來說，面向任務的對話系統專注于任務完成和解決特定問題(例如，餐廳預訂和機票預訂)[533]。同時，開放域對話系統通常是數據驅動的，目的是在沒有任務或域限制的情況下與人類聊天[353,533]。面向任務的系統。面向任務的對話系統可以分為模塊化系統和端到端系統。模塊化方法包括四個主要部分: 自然語言理解(NLU)[395,409]，對話狀態跟蹤(DST)[382,462]，對話策略學習(DPL)[169,483]和自然語言生成(NLG)[25,99]。在用NLU將用戶輸入編碼為語義槽后，DST和DPL決定下一個動作，然后由NLG轉換為自然語言作為最終響應。這四個模塊旨在以可控的方式產生響應，并可以單獨優化。然而，有些模塊可能是不可微的，單個模塊的改進可能不會導致整個系統的改進[533]。為了解決這些問題，端到端方法要么通過使每個模塊可微[139,162]來實現端到端訓練管道，要么在系統中使用單個端到端模塊[498,531]。模塊化系統和端到端系統仍然存在一些挑戰，包括如何提高DST[208,312]的跟蹤效率，以及如何提高具有有限數據的端到端系統的響應質量[145,148,282]。

**Open-domain系統。**開放域系統旨在與沒有任務和域限制的用戶聊天[353,533]，可以分為三種類型:基于檢索的系統，生成系統和集成系統[533]。基于檢索的系統總是從響應語料庫中找到現有的響應，而生成系統可以生成可能不會出現在訓練集中的響應。集成系統通過選擇最佳響應或用生成模型優化基于檢索的模型[378,533,546]，將基于檢索的方法和生成的方法相結合。之前的工作從多個方面改進了開放域系統，包括對話上下文建模[105,181,250,282]，提高響應一致性[9,117,251,483]和多樣性[31,211,335,408]。最近，ChatGPT(參見圖12)取得了前所未有的成功，也屬于開放域對話系統的范圍。除了回答各種問題，ChatGPT還可以用于論文寫作、代碼調試、表生成等。

4.1.2 機器翻譯

顧名思義，機器翻譯自動將文本從一種語言翻譯為另一種語言171,7497。隨著深度學習取代基于規則的[108]和基于統計的[212,213]方法，神經機器翻譯(NMT)需要最少的語言專業知識[399,451]，并因其在句子中捕獲長依賴的能力更高[62]而成為一種主流方法。神經機器學習的成功主要歸功于語言模型[34]，它以前一個詞為條件來預測一個詞出現的概率。Seq2seq[413]是將編碼器-解碼器RNN結構[191]應用于機器翻譯的開創性工作。當句子變長時，Seq2seq[413]的性能會變差，針對這一問題，[24]中提出了一種注意力機制，通過額外的單詞對齊來幫助翻譯長句子。隨著越來越多的關注，2006年，與谷歌的基于短語的生成系統相比，谷歌的NMT系統幫助減少了約60%的人工翻譯工作量，彌補了人類翻譯和機器翻譯之間的差距[475]。基于CNN的架構也已被研究用于NMT，并進行了多次嘗試[190,192]，但未能取得與由注意力[24]增強的RNN相當的性能。Convolutional Seq2seq[120]使CNN與注意力機制兼容，表明CNN可以取得與RNN相當甚至更好的性能。然而，這種改進后來被另一種稱為Transformer[443]的架構超越。使用RNN或Transformer作為架構，NMT通常使用自回歸生成模型，其中貪婪搜索只考慮在推理過程中預測下一個工作概率最高的單詞。NMT的一個趨勢是在低資源設置中取得令人滿意的性能，其中模型是用有限的雙語語料庫訓練的[458]。緩解這種數據稀缺的一種方法是利用輔助語言，如使用其他語言對進行多語言訓練[187,383,547]，或以英語作為中間中間中間語言[58,350]的中間中間語言轉換[58,350]。另一種流行的方法是利用預訓練語言模型，如BERT[87]或GPT[338]。例如，在[359]中顯示，使用BERT[87]或RoBERTa[259]初始化模型權重可以顯著提高英德翻譯性能。在不需要微調的情況下，GPT家族模型[40,338,339]也顯示出具有競爭力的性能。最近，ChatGPT在機器翻譯中顯示了其能力，與商業產品(如谷歌翻譯)相比表現出了競爭力[182]。

4.2多模態文本生成 4.2.1圖像到文本。圖像到文本，也稱為圖像描述，指的是用自然語言描述給定圖像的內容(參見圖14)。該領域的一項開創性工作是神經圖像描述(NIC)[447]，它使用CNN作為編碼器來提取輸入圖像的高級表示，然后將這些表示輸入RNN解碼器以生成圖像描述。這種兩步編碼器-解碼器架構已被廣泛應用于后期關于圖像描述的工作中，我們將其分別稱為視覺編碼[407]和語言解碼。本文首先回顧了圖像描述的兩個階段的歷史和最近的趨勢。 **視覺編碼。**提取圖像的有效表示是視覺編碼模塊的主要任務。從NIC[447]開始，使用GoogleNet[417]提取輸入圖像的全局特征，多個工作采用各種CNN骨干網絡作為編碼器，包括[195]中的AlexNet[216]和[92,272]中的VGG網絡[393]。然而，語言模型很難生成具有全局視覺特征的細粒度標題。以下工作介紹了細粒度視覺特征的注意力機制，包括對CNN特征的不同網格[56,264,463,484]或不同視覺區域[16,200,518]的注意力。另一個分支工作[500,536]采用圖神經網絡來編碼不同區域之間的語義和空間關系。然而，人類定義的圖結構可能會限制元素之間的相互作用[407]，這可以通過連接所有元素的自注意力方法231,501,530來緩解。 **語言解碼。**在圖像描述中，語言解碼器通過預測給定單詞序列的概率來生成標題[407]。受NLP領域突破的啟發，語言解碼器的骨干從RNN[200, 264, 447, 456]發展到Transformer[132, 149, 231]，實現了顯著的性能提升。除了視覺編碼器-語言解碼器架構之外，一個分支工作采用類似BERT的架構，在單個模型的早期階段融合圖像和標題[244,526,542]。例如，[542]采用單個編碼器來學習圖像和文本的共享空間，首先在大型圖像-文本語料庫上進行保留并進行微調，特別是針對圖像描述任務。 4.2.2 語音到文本生成

語音到文本生成，也稱為自動語音識別(ASR)，是將口語，特別是語音信號轉換為相應文本的過程173,347。ASR有許多潛在的應用，如語音撥號、計算機輔助語言學習、字幕生成以及Alexa和Siri等虛擬助手，自20世紀50年代以來，ASR一直是一個令人興奮的研究領域[194,270,345]，并從隱馬爾可夫模型(HMM)[188, 225]發展到基于DNN的系統[75,127,152,297,473]。

**各種研究主題和挑戰。**已有工作對ASR系統進行了多方面的改進。多個工作討論了語音信號的不同特征提取方法[270]，包括時間特征(如離散小波變換[287,419])和譜特征(如最常用的梅爾頻率倒譜系數(MFCC)[61,69,429])。另一個工作分支將系統管道[355]從多模型[268]改進為端到端[161,233,234,296,453]。具體來說，多模型系統[268,270]首先學習聲學模型(例如，將特征映射到音素的音素分類器)，然后學習單詞輸出的語言模型[355]。另一方面，端到端模型直接從音頻輸入預測轉錄[161,233,234,296,453]。盡管端到端模型在各種語言和方言中取得了令人印象深刻的性能，但仍然存在許多挑戰。首先，它們在資源不足的語音任務中的應用仍然具有挑戰性，因為獲取大量標注的訓練數據是昂貴和耗時的[104,355]。其次，這些系統可能很難處理具有特殊詞匯表外單詞的語音，并且可能在訓練數據上表現良好，但可能對新的或未見過的數據[104,334]泛化能力不強。此外，訓練數據中的偏差也會影響有監督ASR系統的性能，導致對某些人群或語音風格[35]的準確性較差。 **資源受限的語音任務。**研究人員致力于研究克服ASR系統挑戰的新技術，其中主要討論了語音資源不足的問題，即缺乏語音受損的數據[355]。一個工作分支[321,346]采用多任務學習來優化不同任務的共享編碼器。與此同時，自監督ASR系統最近成為一個不依賴大量標記樣本的活躍研究領域。具體來說，自監督ASR系統首先在大量未標記語音數據上預訓練模型，然后在較小的標記數據集上進行微調，以促進ASR系統的效率。它可以應用于低資源語言，處理不同的說話風格或噪聲條件，并轉錄多種語言[23,71,255,492]。

5 AIGC任務:圖像生成

與文本生成類似，圖像生成的任務也可以根據其輸入控制分為不同的類別。由于輸出是圖像，一個簡單的控制類型是圖像。圖像類型的控制引起了大量的任務，如超分辨率、去模糊、編輯、翻譯等。圖像類型控件的一個限制是缺乏靈活性。相比之下，文本引導控制可以根據人類的自由意志生成任何風格的任何圖像內容。文本到圖像屬于跨模態生成的范疇，因為輸入文本與輸出圖像是不同的模態。 5.1圖像到圖像

5.1.1圖像恢復圖像恢復解決了一個典型的逆向問題，即從相應的退化版本恢復干凈的圖像，示例如圖16所示。由于退化圖像與純凈圖像之間存在無限種可能的映射關系，因此這種反問題的病態性質是非平凡的。退化有兩個來源:原始圖像中的信息缺失和在干凈的圖像中添加了一些不受歡迎的東西。前一種退化包括拍攝一張低分辨率的照片，從而丟失一些細節信息，裁剪某個區域，并將彩色圖像轉換為灰色形式。恢復任務依次是圖像超分辨率、修復和著色。另一類恢復任務旨在消除不受歡迎的干擾，如去噪，去霧，去模糊等。早期恢復技術主要使用數學和統計建模來消除圖像退化，包括用于去噪的空間濾波器[123,392,529]，用于去模糊的核估計[485,489]。最近，基于深度學習的方法[42,59,93,177,248,252,481,486]由于其通用性和比傳統方法優越的視覺質量，在圖像恢復任務中發揮了主導作用。CNN被廣泛用于圖像恢復[94,411,442,459]中作為構建塊，而最近的工作探索了更強大的transformer架構，并在各種任務中取得了令人印象深刻的性能，如圖像超分辨率[247]、著色[218]和修復[240]。也有一些工作將CNN和Transformer的強度結合在一起[103,534,535]。 **復原的生成方法。**典型的圖像恢復模型在重建損失的情況下學習源(退化)圖像和目標(干凈)圖像之間的映射。根據任務的不同，可以通過對干凈的圖像進行各種擾動(包括分辨率下采樣和灰度變換)來生成訓練數據對。為了保持更多的高頻細節并創建更真實的圖像，生成模型被廣泛用于修復，例如超分辨率[223,460,528]和修復[42,252,298]中的GAN。然而，基于gan的模型通常遭受復雜的訓練過程和模式崩潰。這些缺點和DMs的大規模流行導致許多最近的工作將DMs用于圖像恢復任務[199,232,265,349,367,369]。像GAN和DM這樣的生成方法也可以從單個退化圖像中產生多種不同的干凈輸出。 **從單任務到多任務。**現有的大多數復原方法針對不同形式的圖像退化訓練單獨的模型。這限制了它們在實際用例中的有效性，在實際用例中，圖像被退化的組合損壞。為了解決這個問題，一些研究[6,207,391,540]引入了多失真數據集，這些數據集結合了不同強度的各種退化形式。一些研究[207,258,505,509]提出了不同的恢復模型，其中不同的子網絡負責不同的退化。另一項工作[228,242,391,410,540]依賴注意力模塊或引導子網絡來幫助恢復網絡通過不同的退化，允許單個網絡處理多個退化

5.1.2 圖像編輯

圖像編輯是指修改圖像以滿足某種需求，如風格遷移(見圖17)，而圖像恢復是為了增強圖像質量。從技術上講，一些圖像恢復任務，如著色，也可能被視為圖像編輯，因為將添加顏色視為所需的需求。現代相機通常具有基本的編輯功能，如銳度調整[524]、自動裁剪[525]、紅眼去除[396]等。然而，在AIGC中，我們對高級圖像編輯任務更感興趣，這些任務以各種形式改變圖像語義，如內容、樣式、對象屬性等。 5.2 多模態圖像生成

文本到圖像(T2I)任務旨在從文本描述生成圖像(見圖??)，可以追溯到從標簽或屬性[405,495]生成圖像。AlignDRAW[271]是一項從自然語言生成圖像的開創性工作，令人印象深刻的是，AlignDRAW[271]可以從新穎的文本中生成圖像，如“一個停車標志在藍天中飛翔”。最近，文本到圖像領域的進展可以分為三個分支，包括基于GAN的方法，自回歸方法和基于擴散的方法。

付費5元查看完整內容

ChatGPT · Transformer · 大模型 ·

2023 年 2 月 17 日

[付費5元查看完整內容]ChatGPT背后的大模型最新有哪些？最新最全《Transformer預訓練模型分類》論文，36頁pdf詳述大模型技術目錄

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近OpenAI推出的ChatGPT持續成為熱點，背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型（也稱預訓練模型、基礎模型等）通常是在大規模無標注數據上進行訓練，學習出一種特征和規則，核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類，36頁pdf詳述大模型分類圖。

在過去的幾年里，我們已經看到了幾十種Transformer家族的模型的迅速出現，它們的名字都很有趣，但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型，由一些架構特征定義。2017年，谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而，在那之前，注意力只是這些模型使用的機制之一，這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣，transformer論文的關鍵見解是，注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此，我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此，我們將簡要描述最重要的方面，因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始，并描述一些組件。

從人類反饋(或偏好)中進行強化學習，即RLHF(或RLHP)，最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近，它已被應用于ChatGPT和類似的對話代理，如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練，我們就可以對對話產生不同的響應，并讓人類對結果進行排名。在強化學習的背景下，我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止，您已經理解了什么是Transformer模型，以及為什么它們如此流行和有影響力。在本節中，我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成，對于最初的Transformer也是如此。然而，從那時起，已經取得了不同的進展，揭示了在某些情況下，只使用編碼器，只使用解碼器，或兩者都是有益的。編碼器預訓練這些模型也被稱為雙向編碼或自編碼，在預訓練過程中只使用編碼器，通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段，注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用，如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型，在預訓練過程中只使用解碼器，而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型，也稱為序列到序列，使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞，而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成，但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務，如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時，我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務，例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類，所有這些任務都可以被認為是自監督的:

語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
掩碼語言建模(MLM):從輸入句子中屏蔽一些標記，然后訓練模型，用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同，但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標，并訓練模型來預測這些目標。
降噪自編碼器(DAE):采用部分損壞的輸入(例如，從輸入中隨機采樣token，并將其替換為“[MASK]”元素。從輸入中隨機刪除標記，或按隨機順序打亂句子)，并旨在恢復原始未失真的輸入。
對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似，來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP，但使用兩個連續的片段作為正例，并使用相同的片段，但其順序交換為負例在這里，我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如，問答、情感分析或實體識別)。然而，如前所述，一些Transformer模型也在NLP之外找到了應用，也包括在目錄中。

付費5元查看完整內容

AIGC · ChatGPT ·

2023 年 2 月 13 日

[付費5元查看完整內容]AIGC的技術發展和應用：ChatGPT，20頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

AIGC成為新的內容生產方式，跨模態生成值得重點關注。區別于PGC與UGC，AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分，AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成，細分場景眾多，其中，跨模態生成需要重點關注。　　自然語言處理（NLP）賦予了AI理解和生成能力，大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解（NLU）和自然語言生成（NLG）。以ELMo、BERT、GPT為代表的預訓練模型，降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題；BERT通過MLM（類似于完形填空）和NLP（判斷句子是否相連）進行預訓練，增強了上下文的理解能力。GPT通過預測下一個詞，獲得了生成能力；GPT-3在此基礎上使用了更大的數據和更大模型，無需針對下游任務進行傳統的微調，并且采用了小樣本學習提升生成效果。　　ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話，還能根據聊天的上下文進行互動，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。　　生成模型賦予了AI創造力，擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”，相比傳統的深度神經網絡，GAN能產生更好的生成樣本，但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式，是基于馬爾科夫鏈，通過學習噪聲來生成數據。擴散模型實現了跨模態應用，包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。　　人工智能由單模態智能，向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練，能夠鏈接文本和圖片，成為跨模態生成應用的一個重要節點，“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年，微軟提出的BEiT-3多模態基礎模型，在視覺-語言任務處理上具備出色表現，包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性，使其在其他模態的應用中發揮新的潛質。　　未來，值得關注的技術要素包括：長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型（支持的模態數據類型、模態對齊架構設計、支持的下游應用）、小樣本學習及自監督算法、強化學習及環境學習等。

付費5元查看完整內容

預訓練語言模型 · 自然語言處理 · 綜述論文 ·

2021 年 11 月 4 日

[付費5元查看完整內容]基于大型預訓練語言模型的自然語言處理研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型的、預訓練的基于Transformer的語言模型，如BERT，已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研，這些研究使用了大型語言模型來解決NLP任務，通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法，用于訓練增強或其他目的。最后，我們討論了局限性，并提出了未來研究的方向。

引言

近年來，大型預訓練的基于Transformer的語言模型(PLMs)，如BERT (Devlin et al.， 2019)和GPT (Radford et al.， 2018)系列模型席卷了自然語言處理(NLP)，在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x，然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al.， 2015)。注意，每個新的NLP任務都需要重新學習潛在特征表示，而且在許多情況下，訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的，我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示，然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞，這是一項具有大量自然出現的文本的通用任務，可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上，最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務，研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調，提示PLMs執行期望的任務，或者將任務重新構造為文本生成問題，并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

先進行預訓練，然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練，然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM，這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞)，或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識，從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成，以充分利用生成語言模型(如GPT-2 (Radford et al.， 2019)和T5 (Raffel et al.， 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研，如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明，本文主要關注非生成性任務(如分類、序列標注和結構預測)，這些任務仍然涵蓋廣泛的NLP任務，包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外，還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據，通常生成的PLM是針對任務進行微調的，或者是一些輔助數據，如反例、澄清、上下文或其他。在第一種情況下，銀色標記數據可以添加到現有的標記數據中。在第二種情況下，輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景，并描述了第一種范式，即預訓練然后微調。第三節討論第二種范式，即基于提示的學習。第4節總結了第三種范式，即作為文本生成的NLP。在第5節中，我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向，并在第7節進行總結。

范式1: 先訓練，然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型，而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型，然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務，它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中，我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識，然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法，以鼓勵預訓練的模型執行特定任務(Yuan et al.， 2021)。使用提示符有幾個優點。提示，特別是上下文學習(例如Brown et al.， 2020)，可能不需要更新PLM的參數，與微調方法相比，或在2.4.4中描述的基礎上，減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合，從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al.， 2021b)，特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后，提示允許以一種不受監督的方式探索PLM，以評估PLM對特定任務所獲得的知識(如Petroni et al.， 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功，最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務，如分類和結構預測。例如，圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同，這些任務被重新表述為文本生成問題，從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息，從而能夠準確地重構預期的類標簽(即避免映射中的歧義)，并促進生成/解碼過程(即為預測提供足夠的上下文)。