近年來,人工智能技術接連取得突破,尤其是在強化學習、大規模語言模型和人工智能生成內容技術等方 面,正逐步成為各個行業的創新驅動力。OpenAI于 2022年 11月 30日發布的 ChatGPT由于具有驚人的自然語言理 解和生成能力,引起全社會大范圍的關注,成為全球熱議的話題,并被廣泛應用于各個行業。僅兩個月后,ChatGPT 的月活躍用戶數便達1億,成為史上用戶數增長最快的消費者應用。鑒于ChatGPT目前造成的影響,對其進行全面 的分析較為必要。本文從歷史沿革、應用現狀和前景展望這3個角度對ChatGPT進行剖析,探究其對社會的影響、技 術的原理和挑戰以及未來發展的可能性,并從模型能力的角度簡要介紹 GPT-4相對于 ChatGPT的改進。作為一個 現象級技術產品,從技術角度而言ChatGPT對相關領域具有里程碑式的重要意義,從應用角度而言其可能會給人類 社會帶來巨大的影響。ChatGPT有潛力成為計算機領域最偉大的成就之一。但就目前而言,ChatGPT仍然存在一些 局限,尚未達到強人工智能的水平。在當前階段,研究人員需要對人工智能技術持有自信和謙虛學習的態度,繼續 發展相關的技術研究和應用。在人工智能時代,人工智能技術已經普及到許 多行業,為底層技術賦能升級,并在各種應用場景中 發揮著重要作用。其中,最常見的應用場景包括自 然語言處理、計算機視覺、推薦系統以及預測分析 等。
人工智能技術在持續提高和改進,并不斷沖擊 著人類的認知。 2012年,ImageNet圖像識別比賽中,一種神經網 絡模型(AlexNet)(Krizhevsky 等,2017)首次展現了 明顯超越傳統方法的能力。2016年,AlphaGo(Silver 等,2016)戰勝了圍棋世界冠軍。在那之前,人們普 遍認為這個古老的中國棋類游戲由于具有過高的復 雜性而難以被人工智能系統模擬。2017 年,Google 的 Vaswani等人(2017)提出 Transformer 深度學習模 型架構,奠定了當前大模型領域主流的算法架構基 礎。2018 年,谷歌提出了大規模預訓練語言模型 BERT (bidirectional encoder representations from transformers)(Devlin等,2019),該模型是基于 Transformer 的雙向深層預訓練模型,其模型參數首次超 過了 3億規模(BERT-Large約有 3. 4個參數);同年, OpenAI 提出了生成式預訓練 Transformer 模型—— GPT(generative pre-training)(Radford等,2018),大大 地推動了自然語言處理領域的發展。2018年,人工 智能系統 OpenAI Five(Berner 等,2019)戰勝了世界 頂級的 Dota 2 人類隊伍,人工智能在復雜任務領域 樹立了一個新的里程碑;此后,Google DeepMind 團 隊提出的AlphaFold(Jumper等,2021)以前所未有的 準確度超越了人類研究者在蛋白質結構預測上的表 現,突破了人們對人工智能在生物學領域的應用的 想象。2019 年,一種人工智能系統 AlphaStar(Viny? als 等,2019)戰勝了世界頂級的 StarCraft II 人類選 手,為人工智能在復雜任務領域的未來發展提供了 更加強有力的支持。2020年,隨著OpenAI GPT-3模 型(Brown 等,2020)(模型參數約 1 750 億)的問世, 在 眾 多 自 然 語 言 處 理(natural language processing, NLP)任務中,人工智能均表現出超過人類水平的能 力。2021 年 1 月,Google Brain 提出了 Switch Trans? former模型(Fedus等,2021),以高達1. 6萬億的參數 量成為史上首個萬億級語言模型;同年 12 月,谷歌 還提出了 1. 2億參數的通用稀疏模型 GLaM(Du等, 2022),在多個小樣本學習任務的性能超過 GPT-3。 2022年 2月,人工智能生成內容(artifical intelligence generated content,AIGC)技 術 被《MIT Technology Review》評選為 2022年全球突破性技術之一。同年 8月,Stability AI開源了文字轉圖像的Stable Diffusion 模型(Rombach等,2022)。同樣在8月,藝術家杰森· 艾倫(Jason Allen)利用AI工具制作的繪畫作品《太空 歌劇院》(Théatre D’opéra Spatial),榮獲美國科羅拉 多州藝術博覽會藝術競賽冠軍,相關技術于年底入 選 全 球 知 名 期 刊《Science》年 度 科 技 突 破(Break? through of the Year 2022)Runners-up 第 2 位(// www. science. org/content/article/breakthrough-2022)。
近幾年,自然語言處理技術逐漸成為了各個行 業關鍵的創新驅動力。其中 2022 年 12 月公布的 ChatGPT 則是生成式人工智能技術的佼佼者,幾乎 可以賦能各個行業。隨著人工智能技術的不斷提 高,ChatGPT 作為一種先進的語言模型受益于更大 的模型尺寸、更先進的預訓練方法、更快的計算資源 和更多的語言處理任務。因此,它已廣泛應用于各 行各業,并成為全球熱議的話題。本文將嘗試剖析 ChatGPT,評估其輿論影響力 和應用現狀,歸納其特性;簡要分析其背后的技術原 理,探討其可擴展性;評估其存在的技術挑戰及局 限,討論其未來的發展和應用前景,并從模型能力的 角度簡要介紹GPT-4相比于ChatGPT的改進
近期發布的 ChatGPT 和 GPT-4 等大型語言模型, 不僅能高質量完成自然語言生成任務, 生 成流暢通順, 貼合人類需求的語言, 而且具備以生成式框架完成各種開放域自然語言理解任務的能 力. 在少樣本, 零樣本場景下, 大模型可取得接近乃至達到傳統監督學習方法的性能, 且具有較強的 領域泛化性, 從而對傳統自然語言核心任務產生了巨大的沖擊和影響. 本文就大模型對自然語言處理的影響進行了詳細的調研和分析, 試圖探究大模型對自然語言處理核心任務帶來哪些挑戰和機遇, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術的未來 發展趨勢和應用. 分析結果表明, 大模型時代的自然語言處理依然大有可為. 我們不僅可以將大模 型作為研究方法和手段, 學習, 借鑒大型語言模型的特點和優勢, 變革自然語言處理的主流研究范式, 對分散獨立的自然語言處理任務進行整合, 進一步提升自然語言核心任務的能力; 還可就可解釋性, 公平性, 安全性, 信息準確性等共性問題開展深入研究, 促進大模型能力和服務質量的提升. 未來, 以 大模型作為基座, 拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通用人 工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務。
1 引言
2022 年 11 月 30 日, OpenAI 發布了對話式語言大模型 (ChatGPT1), Chat Generative Pretrained Transformer). 該模型允許用戶使用自然語言對話形式進行交互, 可實現包括自動問答, 文本 分類, 自動文摘, 機器翻譯, 聊天對話等各種自然語言理解和自然語言生成任務. ChatGPT 在開放域 自然語言理解上展現了出色的性能, 甚至無需調整模型參數, 僅使用極少數示例數據即可在某些任務 上超過了針對特定任務設計并且使用監督數據進行訓練的模型. 當面對用戶所提出的各種文本生成 任務時, ChatGPT 在多數情況下可以生成出通暢通順, 有邏輯性且多樣化的長文本.
ChatGPT 自發布以來引起了廣泛的關注, 僅在 5 天內注冊用戶就超過了 100 萬. 據雅虎財 經2)統計, 在 ChatGPT 推出僅兩個月后, 月活躍用戶已達 1 億, 相比之下, 之前一直被認為是用戶增 長速度最快的消費級應用程序 Tiktok 則花費了 9 個月的時間. 稍后不久, 微軟于 2023 年 2 月 8 日 推出了新一代 AI 驅動搜索引擎 New Bing3) , 該引擎將基于 ChatGPT 技術的生成模型與 Bing 搜 索深度集成, 創造了對話式搜索的新范式. 2023 年 3 月 14 日, OpenAI 發布了下一代生成式多模態 預訓練大模型 GPT-44) , 它不僅能夠理解自然語言文本, 還能夠對圖片內容進行深度理解, 并且具備 比 ChatGPT 更強的問題求解和推理能力, 在多種人類考試和自然語言理解任務中取得了更加優秀 的成績 [1].
長期以來, 自然語言處理任務主要采用監督學習范式, 即針對特定任務, 給定監督數據, 設計統 計學習模型, 通過最小化損失函數來學習模型參數, 并在新數據上進行模型推斷. 隨著深度神經網絡 的興起, 傳統的統計機器學習模型逐漸被神經網絡模型所替代, 但仍然遵循監督學習的范式. 2020 年 5 月 Open AI 發布的首個千億參數 GPT-3 模型初步展示了生成式模型的強大功能, 其具備流暢的 文本生成能力, 能夠撰寫新聞稿, 模仿人類敘事, 創作詩歌, 初步驗證了通過海量數據和大量參數訓 練出來的大模型能夠遷移到其他類型的任務 [2]. 然而, 直到 ChatGPT 的出現, 學術界才意識到大模 型對于傳統自然語言處理任務范式的潛在顛覆性.
以 ChatGPT 為代表的大型語言模型, 給自然語言處理帶來的是威脅, 挑戰還是新的機遇? 今后 的自然語言處理核心任務將采用何種主流范式實現語言理解和生成? 自然語言處理的研究領域將如 何延伸? 以大模型為代表的自然語言處理技術將如何引領通用人工智能的發展? 我們就大模型對自 然語言處理的影響進行了詳細的調研和思考, 試圖分析大模型對自然語言處理核心任務帶來的沖擊 和啟發, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術 的未來發展和應用, 以期回答上述問題.
2. 背景知識
在探討大模型給自然語言處理帶來的挑戰和機遇之前, 我們首先需要介紹相關的背景知識, 包括 自然語言處理的概念和研究歷史, 大規模預訓練語言模型從語言模型, 預訓練模型到大模型的技術發展歷程, 以及 ChatGPT 和 GPT-4 的基本技術與能力。
**3 大模型時代的自然語言處理核心任務 **
自然語言處理包含自然語言理解和自然語言生成兩個方面, 常見任務包括文本分類, 結構分析 (詞法分析, 分詞, 詞性標注, 句法分析, 篇章分析), 語義分析, 知識圖譜, 信息提取, 情感計算, 文本生 成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答等. 在神經網絡方法出現之前, 因為缺乏行 之有效的語義建模和語言生成手段, 自然語言處理的主流方法是基于機器學習的方法, 采用有監督分 類, 將自然語言處理任務轉化為某種分類任務. 在神經網絡時代, Word2Vec 詞嵌入模型, BERT 等 上下文相關語言模型為詞語, 句子乃至篇章的分布式語義提供了有效的建模手段; 編碼器-解碼器架 構和注意力機制提升了文本生成的能力; 相比傳統自然語言處理所遵循的詞法-句法-語義-語篇-語用 分析級聯式處理架構, 端到端的神經網絡訓練方法減少了錯誤傳播, 極大提升了下游任務的性能. 不 過, 神經網絡方法仍然遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計深度學習模型, 通 過最小化損失函數來學習模型參數. 由于深度學習也是一種機器學習方法, 因此從某種程度上, 基于 神經網絡的方法和基于機器學習的方法并無本質區別. 然而, 不同于通常的深度學習方法, 以 ChatGPT 為代表的生成式大模型, 除了能高質量完成自 然語言生成類任務之外, 還具備以生成式框架完成各種開放域自然語言理解任務的能力. 只需要將 模型輸出轉換為任務特定的輸出格式, 無需針對特定任務標注大量的訓練數據, ChatGPT 即可在少 樣本乃至零樣本上, 達到令人滿意的性能, 甚至可在某些任務上超過了特別設計并使用監督數據進行 訓練的模型. 因此, ChatGPT 對各種自然語言處理核心任務帶來了巨大的, 不可避免的沖擊和影響, 也醞釀著新的研究機遇. 接下來, 針對各種自然語言處理核心任務, 我們將首先介紹其任務需求和主 流方法, 然后分析大模型對其主流研究范式所帶來的影響, 并探討未來研究趨勢.
-本分類 * 結構化預測 * 語義分析 * 知識圖譜與文本信息抽取 * 情感計算 * 文本生成 * 自動文摘 * 機器翻譯 * 對話系統 * 信息檢索 * 自動問答
ChatGPT 等大型語言模型, 對文本分類, 結構分析, 語義分析, 信 息提取, 知識圖譜, 情感計算, 文本生成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答各種核 心的自然語言理解和生成任務均產生了巨大的沖擊和影響. ChatGPT 在大規模預訓練過程中習得廣泛的語言和世界知識, 處理自然語言任務時不僅能在少 樣本, 零樣本場景下接近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 這將激 勵, 促進研究者們打破固有思維方式的樊籬, 學習, 借鑒 ChatGPT 等大模型的特點和優勢, 對自然 語言處理的主流研究范式進行變革, 進一步提升自然語言核心任務的能力, 例如以生成式框架完成各 種開放域自然語言處理任務并減少級聯損失, 通過多任務學習促進知識共享, 通過擴展上下文窗口提 升理解能力, 通過指令遵循和上下文學習從大模型有效提取信息, 通過思維鏈提升問題拆解和推理能 力, 通過基于人類反饋的強化學習實現和人類意圖對齊等. 長期以來, 自然語言處理分為自然語言理解和自然語言生成兩個領域, 每個領域各有多種核心任 務, 每種任務又可根據任務形式, 目標, 數據等進一步細分, 今后在各種應用任務的主流架構和范式 逐漸統一的情況下, 有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作. 另一方面, 基于大模型的強大基座能力, 針對具體任務進行按需適配, 數據增強, 個性化, 擬人交互, 可 進一步拓展自然語言處理的應用場景, 為各行各業提供更好的服務.
**4 大模型時代的自然語言處理共性問題 **
在自然語言處理研究領域中, 除了各種核心任務之外, 還有可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質量和評價等一些共性問題. 這些問題不是某種任務所特有的, 而是廣泛存在于各種自然 語言理解和生成任務中. 圍繞這些共性問題進行針對性研究, 分析其成因和機理, 設計應對措施, 對 確保自然語言處理任務的性能, 效率, 穩定性和領域適用性至關重要. 大模型自身同樣存在著自然語言處理的共性問題, 如模型可控性, 多樣性, 魯棒性和可解釋性仍 需提升, 訓練和使用成本過高, 語言數據質量缺乏保障, 評價方法單一等. ChatGPT 的一項亮點技 術是 “與人類意圖對齊”, 其目的除了理解用戶意圖之外, 還需要拒絕不合理的請求, 給出負責的, 合 乎人類道德準則和倫理規范的答案. 由于大模型的結構復雜, 參數龐大, 生成過程難以解釋, 生成文 本時經常面臨幻覺生成, 錯誤知識, 前后不一致等問題, 人們對于從系統獲取信息的準確性無從感知, 給系統的廣泛實際應用帶來了極大的潛在風險. 因此, 如何提升模型的公平性, 無害性, 有益性和魯 棒性, 確保大模型擁有正確的價值觀, 保障大模型生成內容的信息準確性變得愈發重要. 隨著以 GPT-3 為代表的大模型技術逐漸發展, 模型的參數數量, 計算時延, 訓練所需的資源等 都在顯著增加. 在語言建模能力不斷增長的同時, 模型的計算成本與能耗指標也成為當前大模型成 功應用的一大門檻. 大規模高質量文本數據資源在模型的構建過程中扮演了極其重要的作用, 訓練數據規模越大, 種 類越豐富, 質量越高, 所得到的大規模語言模型的性能越好, 而訓練數據中的瑕疵數據, 可能會對模 型的表現產生負面影響; 相較于以前的單一類型或少數任務驅動的基準評測, 針對大規模語言模型的 評測需覆蓋的問題場景范圍更廣, 復雜度更高, 難度也更大, 需要探索更有效合理的任務評價指標. 總之, 這些由大模型所強化的真實需求, 將極大地加強模型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等各種共性問題的研究熱度.
**5 討論 **
**
**
前兩節我們探討了大模型對各種自然語言理解和生成核心任務將帶來哪些沖擊和影響, 分析了 大模型將如何加強自然語言處理共性問題的研究. 本節首先將聚焦大模型自身, 探究如何從模型規 模, 學習方法, 個性化等角度進一步提升大模型的內在能力; 其次, 從工具學習, 多模態, 具身智能的 角度, 討論如何進一步延伸和擴展大模型的感知, 計算, 推理, 交互和控制能力, 使大模型成為通用人 工智能的基座; 最后, 介紹 ChatGPT 等大型語言模型將催生哪些應用場景, 為各行各業帶來哪些自 然語言處理新應用.
**6 總結與展望 **
綜上所述, ChatGPT 等大型語言模型, 對傳統自然語言處理核心任務產生了巨大的沖擊和影響. 這些核心任務普遍遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計和定制機器學習和深 度學習模型. 相比之下, 利用 ChatGPT 完成自然語言處理任務, 不僅能在少樣本, 零樣本場景下接 近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 雖然如此, 面對大型語言模型所帶來的沖擊, 研究者們完全無需產生 “自然語言處理已經不存在 了” 等悲觀情緒. 首先, ChatGPT 等對話式大模型, 并非橫空出世, 而是沿著神經語言模型的發展路 線, 利用海量算力, 基于大規模高質量文本數據所實現的大型全注意力模型. 未來研究者們能夠將大 模型作為研究方法和手段, 更能夠學習, 借鑒生成式無監督預訓練, 多任務學習, 上下文學習, 指令遵 循, 思維鏈, 基于人類反饋的強化學習等大型語言模型的特點和優勢, 進一步提升自然語言核心任務 的能力.
大模型為自然語言處理帶來了架構通用化, 任務統一化, 能力按需化, 模型定制化等變化趨勢. 今后在各種自然語言理解和生成任務的主流架構和范式逐漸統一的情況下, 一方面,各種自然語言 處理任務有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作; 另一方面, 基 于大模型的強大基礎能力, 針對具體任務進行按需適配, 數據增強, 模型壓縮與輕量化, 跨模態和多 模態融合, 加強自然語言處理模型方法的可控性, 可配性, 領域適應性, 多樣性, 個性化和交互能力, 將進一步拓展自然語言處理的應用場景.
大模型時代的自然語言處理, 存在算法模型的可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質 量和評價等一些共性問題, 這些問題也是妨礙大模型能力提升和服務質量的主要因素. 未來, 針對模 型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等 各種自然語言處理共性問題的研究將越來越深入.
自然語言處理是人工智能的重要組成部分, 是人工智能從感知智能上升到認知智能的主要手段. ChatGPT 的出現, 已經打開了通向通用人工智能的大門. 未來, 以大模型作為基座, 利用工具學習, 多模態融合, 具身智能拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通 用人工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務.
AIGC(Artificial Intelligence Generated Content),即人工智能內容生成。AIGC通常基于深度學習和自然語言處理技術,利用大規模的語料庫進行訓練,從而讓機器能夠自動生成與人類語言相似的內 容。一般來說,AIGC需要輸入一些指令或者關鍵詞,然后系統就會自動產生相應的內容,例如文章、新聞、評論、詩歌、小說、音樂、視頻字幕等等。當下,樹立對AIGC正確的認知已經成為重要的知識素養。下文將從概念、技術和熱點話題等多個角度出發,幫助讀者形成對AIGC概念的初步認識。
理解AIGC,需要結合人工智能(Artificial Intelligence)、內容生成(Generated Content)兩個角度。一方面,AIGC屬于AI的分支,從人工智能的角度理解有利于掌握其技術內涵。AI指人工智能,它是一種能夠通過計算機程序實現人類智能的技術。AI在上個世紀50年代出現,并在之后幾十年里得到了廣泛的發展和應用。它包括了許多不同的子領域,如機器學習、自然語言處理、 計算機視覺等,可以應用于廣泛的領域,如醫療、金融、工業等。
AIGC 技術的興起可以追溯到近年來機器學習和深度學習等技術的發展。AIGC指人工智能生成技術,它是一種利用機器學習和神經網絡等技術來生成各種形式內容的技術。這些內容包括文本、圖像、音頻等等,通常是通過輸入大量的訓練數據來訓練模型,并使用這些模型來生成新的內容。2023年,ChatGPT應用的出現展示了AIGC的潛 力,掀起了AIGC的發展浪潮。AGI指通用人工智能,它是一種可以像人類一樣進行多種任務和活動的人工智能技術。與目前的AI技術相比,AGI具有更高的靈活性和智能性,可以在不同的環境和任務中進行適應和學習。然而,AGI技術仍處于概念發展的初級階段,目前還沒有實現真正意義上的 AGI系統。 以上三個概念之間的關系可以這樣理解:AI是整個人工智能領域的總稱,包括了AIGC和AGI等不同的技術方向。AIGC是AI領域中的一個重要分支,主要指通過機器學習等技術生成內容的技術范疇。而AGI則是AI領域一個更高級的目標,指向一個能夠像人類一樣進行多種任務和活動的智能系統。
生成預訓練變換器(GPT)在自然語言處理領域代表了一項顯著的突破,它正在推動我們向開發能夠以接近人類的方式理解和使用語言的機器發展。GPT基于變換器架構,這是一種為自然語言處理任務設計的深度神經網絡。由于它們在自然語言處理任務上的卓越表現以及有效的對話能力,GPT在研究者和工業界得到了顯著的關注,使它們成為自然語言處理及相關領域中最廣泛使用和最有效的模型之一,這促使我們進行了這項調研。這篇綜述為GPT提供了詳細的概述,包括它的架構、工作過程、訓練程序、啟用技術以及它對各種應用的影響。在這篇綜述中,我們也探討了GPT的潛在挑戰和限制。此外,我們討論了可能的解決方案和未來的方向。總的來說,這篇文章旨在提供對GPT、啟用技術、它們對各種應用的影響、新出現的挑戰以及潛在解決方案的全面理解。 1. 引言
語言是人類交流的基石,對于塑造我們與世界的互動起著至關重要的作用。隨著自然語言處理(NLP)的出現,我們與機器交互的方式發生了革命性的變化。NLP已經成為通信世界的游戲規則改變者,使人類能夠以更自然的方式與機器互動。NLP的發展受到了互聯網文本數據指數級增長的推動。多年來,NLP從簡單的基于規則的系統發展到復雜的基于深度學習的模型。盡管有了進步,但由于人類語言的復雜性,自然語言理解和生成一直是NLP領域的一個挑戰。然而,最近的進步為解決這些挑戰開辟了新的途徑。NLP的一項突破是GPT [1]的開發。GPT在OpenAI發布ChatGPT后走紅,OpenAI是一家專注于開發AI技術的研究公司[2]。GPT是一個深度學習模型,它在大量的文本數據上進行預訓練,可以針對特定的任務進行微調,如語言生成、情感分析、語言建模、機器翻譯和文本分類。GPT使用的變換器架構是對NLP以往方法的重大進步,如RNN和CNN。它使用自注意力機制,使模型在生成下一個詞時考慮整個句子的上下文,這提高了模型理解和生成語言的能力。解碼器負責根據輸入表示生成輸出文本[3]。 GPT能夠執行NLP中的廣泛任務。其主要優勢之一在于自然語言理解(NLU),其中它可以分析和理解文本的含義,包括識別句子中的實體和關系。它也擅長自然語言生成(NLG),這意味著它可以創建文本輸出,如創作創新內容或以全面且有信息性的方式回答問題。另外,GPT也是代碼生成器,可以編寫各種語言(如Python或JavaScript)的編程代碼。GPT也可以用于問答,這意味著它可以提供關于事實性主題的概括,或者根據輸入文本創作故事。此外,GPT可以總結一段文本,如提供新聞文章或研究論文的簡要概述,它也可以用于翻譯,使得能夠將文本從一種語言翻譯為另一種語言。總的來說,GPT能夠以高精度和準確度執行廣泛的NLP任務,使其成為各種行業(包括金融、醫療保健、市場營銷等)中的無價工具。隨著NLP技術的不斷進步,我們可以預見GPT和其他語言模型將變得更加復雜和強大,使我們能夠更自然、更有效地與機器交流。 **A. 動機 **
GPT已經成為NLP領域的一種變革性技術,推動了廣泛行業和應用的快速發展和增長。盡管GPT得到了廣泛的采用,并有許多潛在的應用,但關于GPT的能力仍有許多需要探索和理解的地方。盡管在與學術和圖書館[4]、教育[5]、GPT模型[6]、銀行和企業通信[7]、chatGPT及其版本的進步[8]、以及生成AI[9]相關的文獻中有關于GPT的研究,但并沒有現有的評論致力于對GPT進行全面的調查。因此,有必要進行一項全面的評論,重點是GPT的架構、啟用技術、潛在應用、新出現的挑戰、有趣的項目和未來的方向。這些限制促使我們進行了這項審查。因此,這篇審查不僅將幫助這個領域的研究者和實踐者更好地理解GPT,而且在進行研究時,還將提供關于其潛在應用和主要限制的寶貴見解。 在這篇關于GPT的綜述中,我們使用各種可靠的來源進行了深入的文獻審查。我們的搜索主要集中在經過同行評審的期刊,以及來自知名國內和國際會議、研討會、書籍、座談會和期刊的高質量文章。為了確保我們的來源的可信度,我們參考了像Google Scholar和arXiv這樣知名的檔案庫,以及來自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等頂級數據庫的出版物。為了找到相關的GPT引用和出版物,我們使用了如NLPGPT、GPT架構、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直應用等關鍵詞。然后,我們根據所有檢索到的文章的標題進行篩選,排除了任何質量較差的論文。接下來,我們審查了剩下的文章的摘要,以確定它們的貢獻。在我們的文獻審查的最后一步,我們提取了分析所需的必要數據。通過遵循這些步驟,我們確保了我們的研究基于高質量和可信的來源。
2. GPT
A. GPT演化
GPT模型經歷了NLP技術中的多次變化和突破。以下是GPT模型發展中的一些重大轉折點:在GPT之前,NLP模型已經在與特定任務相關的大量標注數據上進行了訓練。這有一個重大的缺點,因為很難獲得用于精確訓練模型所需的標注數據量。由于NLP模型被限制在特定的數據集上,所以它們無法完成訓練集以外的任務。為了解決這些限制,OpenAI提供了一個名為GPT-1的生成式語言模型,該模型使用未標記的數據創建,然后提供給用戶進行微調,以完成后續的任務,如情感分析、分類和問答[18]。這表明該模型試圖根據輸入產生適當的響應,而且用于訓練模型的數據沒有標記[19]。圖2顯示了從1960年創建的Eliza到2022年更為當前的ChatGPT,幾個預訓練模型的演變時間線。GPT-1是第一個能夠閱讀文本并回答查詢的模型[20]。OpenAI在2018年發布了GPT-1。GPT1是AI發展的一個重要步驟,因為它使計算機能夠比以前更自然地理解文本材料。這種生成性語言模型能夠學習各種各樣的連接,并在連續的文本和長篇大論的語料庫上獲得大量知識[21]。這發生在在大型BooksCorpus數據集上訓練之后。在設計方面,GPT-1使用一個12層解碼器架構的變換器,帶有自我注意機制進行訓練。GPT-1能夠在不同任務上執行零射擊性能,這是由于其預訓練而取得的一項重大成功。這種能力證明,當將生成性語言建模與成功的預訓練思想結合起來時,可以用來推廣模型。以TL為基礎,GPT模型發展成為一種強大的工具,可以在微調最少的情況下執行NLP任務[22]。它為其他模型使用更大的數據集和參數在生成性預訓練中取得更大的進步鋪平了道路[18]。
為了在2019年后期創建一個更好的語言模型,OpenAI使用更大的數據集和更多的參數創建了GPT-2。GPT-2的模型設計和執行是一些關鍵的進步[23]。它擁有15億個參數,是GPT-1(1.17億個參數)的10倍,它的參數和數據量也是GPT-1的10倍[21]。通過僅使用原始文本作為輸入,并利用很少或沒有訓練樣本,它在解決與翻譯、總結等相關的各種語言任務方面非常有效。在各種下游任務數據集上對GPT-2進行評估,發現它在識別長距離關系和預測句子方面表現出色,顯著提高了準確性[24]。最近的GPT模型迭代版本是GPT-3。這是由OpenAI創建的一個大型語言預測和生成模型,可以生成源文本的長篇段落。GPT-3最終成為OpenAI的突破性AI語言軟件。簡單來說,它是一種可以自己創建行的軟件,這些行非常獨特,幾乎聽起來像是由人類編寫的[25]。GPT-3程序目前通過云基礎設施API提供有限的訪問,需要訪問權限來調查其功能。自從它的首次亮相以來,它已經產生了一些有趣的應用。其容量約為1750億個參數,比GPT-2大100倍,這是一個關鍵優勢。它使用從大型內容存檔和互聯網收集的5000億詞的語料庫"Common Crawl"進行教學[26]。其其他值得注意和意想不到的能力是進行基本的數學運算,編寫代碼片段,和執行聰明的任務。因此,NLP模型可以通過更快地響應請求和精確地保持最佳實踐,同時減少人為錯誤,來幫助企業[27]。由于其復雜性和大小,許多學者和作家都將其稱為最終的黑箱AI方法。由于執行推理的高成本和不便,以及億參數的大小使其資源密集型,因此很難在工作中實踐[24]。GPT-4被命名為GPT-3的繼任者。與此同時,OpenAI已經秘密地發布了幾個基于GPT-3.5的AI模型,這是GPT-3的更新版本[28]。
GPT-3.5是在文本和代碼的混合上進行訓練的。它從互聯網收集的大量數據中學習了單詞、句子和各種組件之間的關系,這些數據包括成千上萬的維基百科條目、社交媒體帖子和新聞項目。OpenAI利用GPT-3.5開發了幾個定制的系統,以完成特定的工作[26]。它從網上收集了大量數據,包括成千上萬的維基百科條目、社交媒體帖子和新聞項目,并利用這些信息學習了句子、單詞和單詞組成部分之間的關系[29]。 OpenAI的GPT模型的最新版本是GPT-4,這是一個多模態的大型語言模型。它于2023年3月14日推出,并通過ChatGPT Plus向公眾提供有限的訪問。需要排隊等待獲得商業API的訪問權限[10]。GPT-4在預訓練階段,使用公共數據和“來自第三方供應商的許可數據”,預測下一個詞。然后,基于人類和AI的輸入,通過強化學習進行調整,以實現人類對齊和政策符合。與GPT-3的上下文窗口只有4096和2049個tokens不同,該團隊創建了兩個版本的GPT-4,其上下文窗口分別為8192和32768個tokens。
B. GPT模型架構
GPT模型基于用于NLP任務的神經網絡,如語言建模,文本分類和文本生成。GPT模型的架構基于變壓器模型[30]。Transformer模型使用自注意機制處理可變長度的輸入序列,使其非常適合NLP任務。GPT通過用解碼器塊替代編碼器-解碼器塊簡化了架構。GPT模型采用Transformer模型,并使用無監督學習技術在大量文本數據上進行預訓練。預訓練過程涉及預測序列中給定前面單詞的下一個單詞,這是一項稱為語言建模的任務。這種預訓練過程使模型能夠學習可以針對特定下游任務進行微調的自然語言表示[31]。
C GPT 模型如何工作
GPT模型通過使用Transformer這種神經網絡架構處理自然語言文本的輸入序列來工作[38]。GPT模型使用無監督學習技術在大量的文本輸入上預訓練這種Transformer架構[39]。在預訓練過程中,模型獲得了根據前面的詞預測序列中下一個詞的能力。語言建模是一種過程,使模型能夠發現訓練數據中詞與其上下文之間的統計關系。圖5展示了GPT操作的各個階段。第一步包括有監督的微調,第二步涉及對輸入產生最優反應,第三步涉及近似策略優化和強化學習。預訓練后,模型可以針對特定任務進行微調,如文本分類或文本生成。在微調過程中,模型在特定于手頭工作的較小數據集上進行訓練,并改變模型的參數以最大化該任務的性能[8]。圖3展示了GPT的一般Transformer架構。當用于文本生成時,GPT模型通過預測基于之前生成的詞的系列中的下一個詞來創建文本。根據其被修改的方式,模型可以生成與輸入文本相似的文本,或者符合某種主題或風格的文本。圖4展示了GPT模型的Transformer架構和用于微調不同任務的輸入變換。
D. GPT版本比較
GPT模型有幾個版本,每個版本都有自己的特性和功能。表III列出了各種GPT模型版本的比較。表中展示了以下細節,如GPT模型的發布年份、參數、生成的標記、輸入類型、每個模型的特性、每個模型的缺點,以及每個模型的大小。生成型AI(GAI)模型有不同的類型,如單模態、交叉模態和多模態。第一種類型是單模態,依賴于單一類型的輸入,如文本或圖像。另一方面,交叉模態可以處理多種類型的輸入并將它們關聯起來。多模態是最復雜的AI類型,因為它可以處理和整合來自多種模態的信息,如語音、文本、圖像,甚至是與環境的物理交互。GPT只采用單模態和多模態類型,其中ChatGPT被認為是單模態,而GPT-4是多模態。圖6是一個插圖,區分了單模態、交叉模態和多模態生成AI模型。 總的來說,GPT模型在NLP方面表現出了出色的性能,通過增強每一次迭代和其前身的能力。然而,每個模型也有自己的限制和缺點,如輸出控制的限制、缺乏多樣化的數據和倫理問題。在為特定任務選擇GPT模型時,研究者和開發者應謹慎考慮這些因素[40]。具體來說,本節描述了GPT的演變、架構,并比較了不同版本和類型的GPT。
III. 使能技術
GPT是多種技術的匯聚。它借助了最新的技術,如大數據、人工智能、云計算、EC、5G及以后的網絡,以及人機交互。在這一部分,我們將提供與GPT相關的啟用技術的概述。構成GPT模型的主要技術在圖7中展示。
IV. GPT模型對各種應用的影響
GPT已經取得了顯著的進步,它的影響正在教育、醫療保健、工業、農業、旅游和運輸、電子商務、娛樂、生活方式、游戲、市場營銷和金融等各個行業中被感知到。這一部分將提供有關GPT模型在上述應用中的影響的寶貴見解,如圖8所示。
本節將介紹使用GPT模型技術開發的用于上述部分中提到的不同應用的激動人心的項目。表IV,表V顯示了這些項目的不同級別,以及用于比較他們在許多實際應用中的能力的不同參數。
VI. 開放的研究問題和未來方向
本節強調了與實施和采用可持續GPT模型相關的各種開放研究問題。它還為GPT開發領域的研究人員提供了對未來研究方向的深入了解。圖9概述了在使用GPT模型時可能出現的許多問題,以及需要考慮的各種未來方法,以便有效地使用GPT模型。
VII.結論
GPT和其他大型語言模型的影響深遠而深刻。隨著這些技術的不斷發展和改進,它們有可能改變我們與技術和彼此互動的方式。從個性化推薦和客戶服務到語言翻譯和文本生成,可能性是無窮的。然而,就像任何技術一樣,必須解決可能出現的道德和社會問題。隨著我們越來越依賴這些語言模型,我們必須確保我們正在負責任地使用這些工具,并考慮它們對整個社會的影響。這包括與訓練模型所使用的數據偏見、保護隱私和安全、理解人類創造力的含義以及可能對就業和工作流動的影響等相關的挑戰。我們需要繼續評估和反思GPT和其他語言模型的影響,以確保它們的使用方式對整個社會都有益。通過這樣做,我們可以幫助確保這些技術被充分利用,同時最大程度地減少它們可能產生的任何負面影響。
作者 | 李振華 螞蟻集團研究院院長 倪丹成 螞蟻集團研究院研究總監 徐潤 螞蟻集團研究院高級專家
來源 |《中國外匯》2023年第6期
要點人工智能大模型作為中美新一輪技術競爭的核心領域之一,國家層面應積極鼓勵國內基礎模型研究的發展、配套硬件基礎設施建設及應用落地,相關配套管理措施也需及時跟進。
從2022年下半年人工智能繪畫熱潮,到人工智能對話機器人程序ChatGPT在全球走紅,ChatGPT上線僅2個月全球活躍用戶數量達1億,超越TikTok成為史上用戶增長最快的消費者應用,再到3月14日OpenAI發布下一代里程碑大模型GPT-4,生成式人工智能領域持續爆出令人驚喜的技術突破和產品體驗,并催生多家獨角獸公司。生成式人工智能領域的爆發主要歸功于人工智能大模型技術的巨大突破,標志著人工智能技術從專用人工智能轉向通用人工智能的拐點,有望大幅提升人工智能的適用場景和研發效率,并打開大規模商業化的想象空間。目前以微軟、谷歌、Meta、百度、騰訊、阿里巴巴、字節跳動等為代表的頭部科技企業紛紛摩拳擦掌,積極投身于人工智能大模型研發熱潮之中。
人工智能大模型技術演進趨勢
人工智能大模型的定義和優勢 人工智能大模型即基礎模型(Foundation Model)(《On the Opportunities and Risk of Foundation Models》,2021.08,李飛飛等100位學者聯合發表),國際上稱為預訓練模型,指通過在大規模寬泛的數據上進行訓練后能適應一系列下游任務的模型。 相較于小模型(針對特定場景需求、使用人工標注數據訓練出來的模型),大模型主要有以下三點優勢: 涌現能力。通過簡單的規則和相互作用,大模型能夠有效集成自然語言處理等多項人工智能核心技術,并涌現出強大的智能表現,將人工智能的能力從感知提升至理解、推理,甚至近似人類“無中生有”的原創能力。 適用場景廣泛。人工智能大模型通過在海量、多類型的場景數據中學習,能夠總結不同場景、不同業務下的通用能力,擺脫了小模型場景碎片化、難以復用的局限性,為大規模落地人工智能應用提供可能。 研發效率提高。傳統小模型研發普遍為手工作坊式,高度依賴人工標注數據和人工調優調參,研發成本高、周期長、效率低。大模型則將研發模式升級為 大規模工廠式,采用自監督學習方法,減少對人工標注數據的依賴,顯著降低人力成本、提升研發效率。人工智能大模型的技術演進趨勢 階段一,訓練數據演進:從追求規模到重視質量 追求規模。2018年以來,以BERT、GPT-3等為代表的人工智能大模型的成功使人們認識到通過提升參數規模、訓練數據量有助于顯著提升人工智能的智能水平,引發了大模型研發的軍備競賽,大模型參數呈現數量級增長,充分享受算法進步下的數據規模紅利。 人工智能大模型的發展也經歷預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現從億級到百萬億級突破(見圖1)。
重視質量。伴隨大模型參數的持續擴大,訓練數據的質量對模型表現的重要性愈發凸顯。OpenAI對其研發的InstructGPT模型進行實驗發現:隨著參數量增加,模型性能均得到不同程度的提高;利用人工標注數據進行有監督的微調訓練后的小參數模型,比100倍參數規模無監督的GPT模型效果更好。未來,提升大模型的訓練數據質量或許比提升數據規模更為重要,人工標注數據仍有其存在的價值和意義,相關產業鏈的發展也值得重視(見圖2)。
階段二,模態支持演進:從單一模態到多模態 從支持的模態來看,人工智能大模型先后經歷了單語言預訓練模型、多語言預訓練模型、多模態預訓練模型三個階段,模型能力持續升級(見圖3)。
多模態預訓練模型代表有2022年大火的開源模型Stable Diffusion,掀起一波人工智能繪畫熱潮,已有大量產品級應用;以及谷歌、Meta推出的文字生成視頻、文字生成音樂等預訓練模型,但仍在早期研發階段,技術尚未成熟。 ChatGPT所基于的InstructGPT模型仍屬于自然語言處理(NLP)領域的單模態模型,擅長理解和生成文本,但不支持從文本生成圖片、音頻、視頻等功能。OpenAI最新發布的大模型里程碑之作GPT-4并沒有一味追求更大規模參數,而是轉向多模態,支持輸入圖像或文本后生成文本。 階段三,架構設計演進:從稠密結構到稀疏結構 人工智能大模型架構設計指模型的計算架構,分為稠密結構和稀疏結構,二者區別為:在訓練中,稠密結構需激活全部神經元參與運算,而稀疏結構僅需部分神經元參與運算。 稠密結構導致高昂的大模型訓練成本。以GPT-3為代表的早期的人工智能大模型均為稠密結構,在計算時需激活整個神經網絡,帶來極大的算力開銷和內存開銷。根據國盛證券的測算,GPT-3一次訓練成本高達140萬美元。 稀疏結構能夠顯著降低大模型訓練成本。稀疏結構是一種更像人腦的神經網絡結構,在執行具體任務的過程中只有部分特定的神經元會被激活,顯著降低模型算力消耗。目前稀疏結構已經應用至人工智能前沿研究。2022年6月,谷歌發布了第一個基于稀疏結構的多模態模型LIMoE,證明了稀疏結構在降低模型算力消耗的同時,還能在多項任務中取得不亞于稠密結構的效果。
中美人工智能大模型技術現狀對比及原因探析
國內在人工智能大模型研究上具備良好的基礎 從2018年至今推出大模型數量來看,美國頭部科技企業如谷歌、Meta、OpenAI、微軟等在人工智能大模型領域積累深厚,但我國研究機構在全球前十大排名中也占據四個席位,包括智源人工智能研究院、清華大學、百度、阿里巴巴(見圖4)。 我國與國外最領先的技術相比仍有2—3年差距 從大模型的參數量來看,美國人工智能研究機構總是率先取得突破,比如谷歌2017年提出Transformer模型奠定了大模型的底層模型基礎,OpenAI的GPT系列持續引領潮流;中國人工智能大模型雖然具備追趕的能力,但追趕的過程需要花費1—2年時間,此后在模型技能上仍需時間打磨,完全拉齊效果大概需要2—3年時間(見圖5)。例如,OpenAI于2019年1月推出擁有15億參數量的GPT-2大模型,而國內直至2021年1月由智源人工智能研究院研發出26億參數量的大模型——悟道文源1.0。
中美大模型技術差距的原因探析
人工智能大模型研發已成為全球新一輪技術競爭的核心領域之一,但以下多種因素制約了我國大模型技術的進一步發展,導致與美國大模型技術存在較大差距。 底層算法原創性不足,頂尖人才欠缺。人工智能大模型研發的關鍵因素之一是算法,而算法的進步依賴于最頂級的人才進行前沿性研究。根據2022年入選AI 2000榜單的學者國籍來看,美國共入選了1146人次,占全球57.3%,是排名第二的中國的5倍,我國在頂尖人工智能人才儲備上仍相距美國有很大差距。 產業鏈仍有短板,人工智能芯片自研能力不足制約算力發展。伴隨大模型參數量的指數級擴張,對于算力的要求也呈爆炸式增長,而算力增長主要依靠高端人工智能芯片的儲備和芯片技術的持續進步。但在芯片方面,美國占據絕對領先地位,我國起步晚,對美國進口依賴程度高,存在“卡脖子”風險。近年來,國內大廠如阿里巴巴、華為、百度、騰訊等也正加快投入積極研發本土人工智能芯片。 長期主義精神和持續投入上存在一定差距。近年來國內科技企業在業務競爭壓力加劇、發展環境穩定性不足等背景下,不計回報的長期投入決心一定程度上受到影響,更加重視短期商業回報,在高風險創新領域,更傾向采取保守和追隨的策略。
人工智能大模型應用場景和商業化前景展望
人工智能大模型有望賦能乃至顛覆各行各業 賦能制造業。首先,人工智能大模型能夠大幅提高制造業的從研發、銷售到售后各個環節的工作效率。比如研發環節可利用人工智能生成圖像或生成3D模型技術賦能產品設計、工藝設計、工廠設計等流程。在銷售和售后環節,可利用生成式人工智能技術打造更懂用戶需求、更個性化的智能客服及數字人帶貨主播,大幅提高銷售和售后服務能力及效率。其次,人工智能大模型結合機器人流程自動化(RPA)有望解決人工智能無法直接指揮工廠機器設備的痛點。RPA作為“四肢”連接作為“大腦”的人工智能大模型和作為“工具”的機器設備,降低流程銜接難度,實現工廠生產全流程自動化。最后,人工智能大模型合成數據能夠解決制造業缺乏人工智能模型訓練數據的痛點。以搬運機器人(AMR)為例,核心痛點是它對工廠本身的地圖識別、干擾情景訓練數據積累有限,自動駕駛的算法精度較差,顯著影響產品性能。但人工智能大模型合成的數據可作為真實場景數據的廉價替代品,大幅縮短訓練模型的周期,提高生產效率。 賦能醫療行業。首先,人工智能大模型能夠幫助提升醫療通用需求的處理效率,比如呼叫中心自動分診、常見病的問診輔助、醫療影像解讀輔助等。其次,人工智能大模型通過合成數據支持醫學研究。醫藥研發所需數據存在法律限制和病人授權等約束,難以規模化;通過合成數據,能夠精確復制原始數據集的統計特征,但又與原始數據不存在關聯性,賦能醫學研究進步。此外,人工智能大模型通過生成3D虛擬人像和合成人聲,解決部分輔助醫療設備匱乏的痛點,幫助喪失表情、聲音等表達能力的病人更好地求醫問診。 賦能金融行業。對于銀行業,可以在智慧網點、智能服務、智能風控、智能運營、智能營銷等場景開展人工智能大模型技術應用;對于保險業,人工智能大模型應用包括智能保險銷售助手、智能培訓助手等,但在精算、理賠、資管等核心價值鏈環節賦能仍需根據專業知識做模型訓練和微調;對于證券期貨業,人工智能大模型可以運用在智能投研、智能營銷、降低自動化交易門檻等領域。 賦能乃至顛覆傳媒與互聯網行業。首先,人工智能大模型將顯著提升文娛內容生產效率、降低成本。此前人工智能只能輔助生產初級重復性或結構化內容,如人工智能自動寫新聞稿、人工智能播報天氣等。在大模型賦能下,已經可以實現人工智能營銷文案撰寫(如美國獨角獸公司Jasper.ai)、人工智能生成游戲原畫(目前國內游戲廠商積極應用人工智能繪畫技術)、人工智能撰寫劇本(僅憑一段大綱可以自動生成完整劇本的產品Dramatron)等,后續伴隨音樂生成、動畫視頻生成等AIGC技術的持續突破,人工智能大模型將顯著縮短內容生產周期、降低制作成本。其次,人工智能大模型將顛覆互聯網已有業態及場景入口。短期來看,傳統搜索引擎最容易被類似ChatGPT的對話式信息生成服務所取代,因為后者具備更高的信息獲取效率和更好的交互體驗;同時傳統搜索引擎商業模式搜索競價廣告也將迎來嚴峻的挑戰,未來可能會衍生出付費會員模式或新一代營銷科技。中長期看,其他互聯網業態,如內容聚合分發平臺、生活服務平臺、電商購物平臺、社交社區等流量入口都將有被人工智能大模型重塑或顛覆的可能性。人工智能大模型的商業模式及前景分析 短期內,人工智能大模型的變現方式仍然以開放付費應用程序編程接口(API)調用為主。由于人工智能大模型投入成本高昂,大模型廠商前期投入巨大,通過開放API模式向各行業開放模型并收取調用費,能夠規避集中押注單一行業的風險,構建相對穩定且輕量的收入模型。而行業應用開發者通過較低的價格便可調用最領先的大模型技術,應用于自身產品中提升服務質量。以OpenAI為例,2023年3月1日宣布正式允許第三方開發者通過API將ChatGPT集成到其應用程序(APP)和服務中,同時采取低價搶占市場策略,將優化后API定價降至此前的十分之一,對后發大模型公司帶來巨大追趕壓力。這一舉措大幅降低使用門檻,商業用戶數量將迎來快速增長。 長期來看,人工智能大模型廠商仍會深度介入某些具備重要價值的垂類應用場景,比如信息咨詢、金融服務、醫療服務等,通過戰略投資生態合作伙伴或自研應用級產品的方式,并通過付費訂閱或新一代廣告模式來進行變現。
相關建議
現階段,人工智能大模型發展存在著一定挑戰。首先,人工智能大模型本身仍有一定技術風險:魯棒性(即系統的健壯性)不足,系統在面對黑天鵝事件和對抗性威脅時可能會表現出能力缺失;可解釋性較低,缺乏理論支撐,本質基于條件概率,只能接近但無法重現人類思維邏輯,存在部分事實性錯誤;算法偏見,訓練語料庫若缺乏代表性或包含人類偏見,模型會存在算法偏見問題。其次,人工智能大模型發展也會帶來一定的社會風險:數字鴻溝,可能會加劇技術擁有者和缺乏者在信息獲取層面的不公平現象;壟斷風險,領先的大模型技術若被海外巨頭壟斷,將對國內的技術進步和經濟發展造成不利影響;內容風險,人工智能生成內容爆發后可能會產生大量錯誤信息污染互聯網環境。 為此,人工智能大模型作為中美新一輪技術競爭的核心領域之一,國家層面應積極鼓勵國內基礎模型研究的發展、配套硬件基礎設施建設及應用落地,配套管理措施也需及時跟進。 基礎研究方面,人工智能大模型是高資金投入、高人才壁壘的研究領域,頭部效應明顯,應構建以領軍企業為主體、產學研合作的創新體系,對于重點人才需加大力度引進,強化科學家之家的國際交流合作,加速追趕國際前沿水平。 產業配套方面,大力支持國產人工智能芯片和超算平臺的發展,構建國家數據資源平臺、發展數據標注產業及合成數據產業等,為國產人工智能大模型研發提供算力和數據保障。 應用落地方面,應積極推動大模型在制造業、醫療、金融、傳媒、互聯網領域的行業示范應用和規模化價值落地,打造一批可復制、可推廣的標桿型示范案例。 行業監管方面,在人工智能大模型及相關應用產業發展的早期,監管層應以更為包容的態度展開相關工作,鼓勵探索創新,大模型帶來的風險主要是技術層面的問題,通過行業共同探索技術解決方案能夠有效把控相關風險。
版權聲明
凡注明“來源:中國外匯”的所有作品,均為國家外匯管理局外匯研究中心合法擁有版權或有權使用的作品,未經本公眾號授權不得進行營利性使用。非營利性轉載或引用,應注明“來源:中國外匯”。違反上述聲明者,本公眾號將保留追究其相關法律責任的權利。
**內容簡介:**ChatGPT的火爆出圈使得AI生成(AIGC)技術受到了全社會前所未有的廣泛關注。此消彼長之下,傳統的知識工程遭受了諸多質疑。在多模態智能領域,AIGC的能力不斷提升,多模態知識工程工作應該何去何從?是否仍有價值?在本次分享中,講者將探討當前AIGC技術耀眼“光芒”背后的“暗面”,思考與展望AIGC時代的多模態知識工程研究。
關于AIGC時代的多模態知識工程思考與展望,我們將從以下六個方面展開介紹: 第一部分,我們回顧一下AIGC技術的發展歷程和它帶來的劃時代影響力; 第二部分,我們對AIGC技術的不足(阿克琉斯之踵)之處進行分析與總結; 第三部分,我們將介紹多模態認知智能的框架和兩種實現路徑,并進行對比分析;第四~六部分,我們會展望當前AIGC大模型和MMKG多模態圖譜間如何競與合。
01
AIGC時代:未來已來
隨著人工智能總體階段的發展,生成式人工智能技術(AIGC)也在不斷迭代。從20世紀50年代到90年代中期,是AIGC的早期萌芽階段,這一時期受限于技術水平,AIGC僅限于小范圍實驗。這一時期的AIGC典型事件包括:1950年,艾倫·圖靈提出的著名的“圖靈測試”,給出判斷機器是否具有“智能”的方法;1966年,世界上第一款可人機對話機器人“Eliza”的問世;以及在80年代中期IBM公司創造的語音控制打字機“Tangora”的出現。
而從20世紀90年代到21世紀10年代中期,AIGC處于沉淀積累階段,這一階段的AIGC技術從實驗性向實用性轉變,但仍因受限于算法瓶頸,無法直接進行內容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創作的小說《1 the road》的問世;以及2012年微軟開發的全自動同聲傳譯系統的出現,它能夠將英文語音自動翻譯成中文語音。
自21世紀10年代中期至今,是AIGC快速發展的階段,得益于深度學習算法不斷迭代,人工智能生成內容百花齊放。2014年,Goodfellow提出的生成對抗網絡GAN用于生成圖像;2019年,英偉達發布StyleGAN模型可以自動生成高質量圖片;2019年DeepMind發布DVD-GAN用于生成連續性視頻,直到2022年,OpenAI發布ChatGPT模型生成流暢的自然語言文本。
可以說,ChatGPT的爆紅出圈宣告了AIGC時代的到來。
現在的AIGC技術可以生成的內容包括文本、圖像、音頻和視頻等。如今,已經有很多強大的算法被發明出來,如用于圖像生成的Stable Diffusion算法。此外,還有很多走在技術前沿的創業公司不斷推動AIGC技術的應用落地,如Jasper AI的AI寫作軟件和midjourney的AI繪畫工具的發明都在解放著人類的內容創作生產力。這些共同促進了一個萬物皆可AI生成的AIGC時代。
右圖是一張來自互聯網的趣味圖片——機器人一家三口在人類博物館中觀賞人類的最后一篇推文“GPT-5也沒啥了不起的”——表達了創作者對當今AIGC技術飛速發展的隱隱擔憂。
那么,我們首先看一下多模態大模型的分類與發展脈絡。如上圖所示,多模態大模型發展非常迅速,我們可以將多模態大模型簡單分為多模態統一大模型和多模態文圖生成大模型,前者用于統一的多模態生成和理解,后者特指具備強大的多模態文到圖生成能力的大模型。
當前,文圖生成大模型已經可以生成逼真、高清以及風格化的意境圖像。
還有一些文圖生成大模型,如斯坦福大學提出的ControlNet,其生成能力更加精致、可控。它不僅可以生成各類質地細膩、細節精致的圖片,也可以通過簡筆畫來對圖像生成進行操控。
AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。
我們還看到Google發布的PaLM-E模型,展現了多模態AIGC大模型驅動的具身智能的情景。這個具備5620億參數的具身多模態大模型,可以將真實世界的傳感器信號與文本輸入相結合,建立語言和感知的鏈接,可以用自然語言操控機器人完成操作規劃、視覺問答等任務。
AIGC的驚艷效果不禁讓很多人對符號主義(知識工程)的研究產生了疑問。Rich Sutton在著名文章《苦澀的教訓》中提出,唯一導致AI進步的因素是更多的數據和更有效的計算。而DeepMind的研究主任Nando de Freitas也宣稱,“AI現在完全取決于規模,AI領域更難的挑戰已經解決了,游戲結束了!”。我們也看到,在大多數領域,大模型已經(暫時)戰勝了精心設計的知識工程。然而,AI的流派之爭真的結束了嗎?
02
AIGC的阿克****琉斯之踵
第二部分,讓我們來看一下當前AIGC大模型實際存在的一些問題。
盡管今天的ChatGPT(包括GPT-4)很強大,它的諸多問題仍舊難以忽視: 第一、強語言弱知識的問題,ChatGPT無法理解用戶查詢中的知識性錯誤,它具備強大的語言能力,但知識能力仍舊較弱; 第二、實時信息自更新慢,新舊知識難以區分,目前ChatGPT的知識還停留在2021年,而每一次信息更新都需要成本高昂的重新訓練; 第三、其邏輯推理能力并不可靠,應該說尚不具備復雜數學邏輯推理與專業邏輯推理能力; 第四、由于缺乏領域知識,它也無法真正為領域類問題提供專業靠譜的答案。
當前的多模態大模型的跨模態生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來說,當前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語義理解錯誤等問題。因此,盡管我們看到AIGC跨模態生成的視覺效果驚艷,但往往存在較大的模態間信息不對稱問題。
此外,當前多模態大模型的多模態理解能力也存在問題。上圖是來自BLIP2進行視覺問答任務的錯誤樣例。我們看到: 1)模型由于缺乏事實知識,無法知曉球拍上的“w”圖案是品牌“Wilson”的logo,因而錯誤回答成“nike”; 2)模型由于欠缺邏輯推理能力,不理解圖像場景和問題的邏輯關系,因而回答錯誤; 3)模型由于常識儲備不足,對某個具體場景(沖浪)下的意圖理解犯了常識性錯誤。
讓我們再來看一下Google的具身多模態大模型PaLM-E,雖然依賴如此大規模的參數實現了初步的機器人操控,但其demo視頻中所展示的空間范圍、物品種類、規劃和操作任務的復雜度等都非常有限。我們可以想象,如果要在真實世界的復雜場景中達到實用級別,PaLM-E的參數規模是否還需要增大百倍、千倍甚至萬倍?如果一味用海量參數存儲所有知識,那么智慧涌現的代價是否過于昂貴?
至此,我們對多模態大模型做個簡單的小結。首先,多模態大模型的本質是“用語言解釋視覺,用視覺完善語言”。換句話說,我們要將文本中的語言符號知識,與視覺中的可視化信息建立統計關聯。所謂“用語言解釋視覺”,就是將語言中蘊含的符號知識體系和邏輯推理能力延伸至對視覺內容的理解;而所謂“用視覺完善語言”,是指豐富的視覺信息可以成為符號知識體系和邏輯推理能力的重要完善和補充。
我們知道,多模態大模型能發揮重大作用的重要前提是: 1)具有海量高質量圖文配對數據; 2)文字富含事實知識和常識; 3)其邏輯推理過程可顯式化被學習。
而我們所面臨的現實情況卻是: 1)數據量大但質量差,信息不對稱; 2)純文字中的知識與常識也不完備; 3)其邏輯推理是隱性難以學習的。
正因為這些理想與現實間的差距,導致了前面提到的多模態大模型的種種問題與不足。綜上,我們認為,統計大模型始終難以較低成本,全面、準確地掌握人類知識、常識和邏輯推理能力。
03
多模態認知智能
第三部分,我們引出多模態認知智能,其研究旨在解決前一部分提到的問題。
上圖是我們提出的一個多模態認知智能的研究框架。總的來說,多模態認知智能主要研究基于多模態數據的知識獲取、表示、推理與應用。在多模態知識獲取層面,我們從語料中通過抽取、生成、群智等方法獲取知識或者從語言模型中萃取知識。在多模態知識表示層面,可以使用多模態圖譜、常識圖譜、語言模型、大規模知識網絡等方法進行知識表示。基于多模態知識表示,可以進一步支撐多模態理解、推理和元認知等能力,從而賦能諸如跨模態搜索、推薦、問答、生成等多模態知識的應用。
多模態認知智能目前有兩種實現路徑。一種是多****模態大模型,其代表了聯結主義和經驗主義的思想,從海量預訓練數據中學習概率關聯,是簡單而魯棒的,它屬于統計學習范疇,具備端到端、干預少和“數”盡其用的優勢,其劣勢在于難以學習到從因到果、從主到次、從整體到部分、從概括到具體、從現象到本質、從具體到一般等邏輯關系。
另一種實現路徑是多模態知識工程,其代表了符號主義的思想,從精選數據和專家知識中學習符號關聯,是精細而脆弱的,它往往通過專家系統和知識圖譜實現,具備易推理、可控、可干預、可解釋的優點,但是它的劣勢主要在于將數據轉換成符號知識的過程往往伴隨著巨大的信息損失,而其中隱性知識等難以表達的知識往往是信息損失的主體。
結合多模態大模型和多模態知識工程的優劣勢分析,我們認為:在AIGC大模型時代,多模態知識工程依然不可或缺。
當前,多模態知識工程的主要形式之一是多模態知識圖譜(MMKG)。多模態知識圖譜是在傳統知識圖譜的基礎上,增加多種模態數據以豐富符號知識表達的方法,其多模態數據包括但不限于圖像、視頻、語言、代碼等。多模態知識圖譜可以將符號接地到具象的視覺等模態對象上,實現跨模態語義對齊。
目前多模知識圖譜的主流形式有兩種。 一種是A-MMKG,其中多模態數據僅作為文字符號實體的關聯屬性存在; 另一種是N-MMKG,其中多模態數據也可作為圖譜中的實體存在,可與現有實體發生廣泛關聯。
至此,我們進一步分析AIGC多模態大模型和大規模多模態知識圖譜各自的優缺點。
多模態大模型的優點是:
1)關聯推理能力強:可以學習掌握大量跨模態知識模式,隱空間的關聯推理能力強,具有很強的泛化能力; 2)多任務通吃:一套大模型處理各類跨模態任務; 3)人工成本低:不依賴人工schema設計與數據標注; 4)適配能力強:可通過調優訓練或prompt對話等方式來適配新的領域和任務。
而其不足之處在于:
1)可靠程度低:所生成的內容可靠性堪憂,存在誤差累積、隱私泄露等問題,無法勝任高精度嚴肅場景需求; 2)知識推理弱:沒有真正掌握數據背后的知識,缺乏知識推理能力,更無因果推理能力; 3)可解釋性弱:雖有CoT加持,但可解釋性仍然不足; 4)訓練成本高:需要消耗大量計算資源和時間來進行訓練,需要強大的計算設備和高效的算法。
**而與之對應的,**多模態知識圖譜的優點是:
1)專業可信度高:其結構和關系清晰,易于理解和解釋,可為人類決策提供參考,通常為某個具體應用場景構建,可提供更精準和針對性的知識支持; 2)可解釋性好:以結構化形式表示知識 ,知識的可訪問性、可重用性、可解釋性好,對人類友好; 3)可擴展性強:知識圖譜的內容可以隨著應用場景的需要進行不斷擴展和更新,可以不斷完善和改進。
而多模態知識圖譜的缺點在于:
1)推理能力弱:只能表示已有的知識和關系,對于未知或不確定的領域難以進行有效的知識建模和推理; 2)人工成本高:其構建需要依賴于人工或半自動的方式進行知識抽取和建模,難以實現完全自動化; 3)架構調整難:其基本schema架構通常是靜態的,不易根據新的數據或場景進行修改和調整。
由上分析可見:多模態大模型的優點常常是多模態知識圖譜的不足,而多模態大模型的不足又往往是多模態知識圖譜的優勢。因此,我們認為:當前階段,大模型與知識圖譜仍應繼續保持競合關系,互相幫助,互為補充。
04
AIGC for MMKG
第四部分,我們思考與展望一下AIGC大模型如何輔助MMKG的構建與應用。
第一,AIGC大模型為知識獲取降本增效。
(1)通過知識誘導(萃取),可以快速獲取大量知識或常識。例如,我們可以從語言大模型中誘導語言知識和關系知識;我們也可以從多模態大模型中誘導跨模態對齊知識和視覺常識知識。
(2)AIGC大模型的出現使得零樣本、少樣本、開放知識抽取成為可能。例如,我們可以利用ChatGPT對話大模型的理解和生成能力,從給定文本中抽取三元組知識;我們也可以利用多模態AIGC大模型的跨模態生成和理解能力,從給定圖文數據中抽取多模態知識。
(3)AIGC大模型可以顯著增強垂域多模態知識獲取能力。GPT-4、ChatPDF模型等已經顯示了強大的領域知識抽取能力,如基于多模態文檔的知識抽取。
第二,AIGC大模型助圖譜設計一臂之力。
大模型在部分領域上擁有領域常識知識,可以輔助完成schema的半自動化設計。在多模態場景中,也有一些嘗試,例如可以用多模態AIGC大模型生成cms領域的schema。
第三,AIGC大模型為知識推理保駕護航。
基于大模型的跨模態生成與推理能力,可以輔助完成KG表示學習、圖譜補全等任務。
第四,AIGC大模型為知識融合掃清障礙。
利用大模型的泛化能力和海量知識,可以輔助完成多模態知識圖譜融合。利于對于兩個MMKG的對齊,多模態AIGC大模型在兩者之間可以生成實體知識或語義層面的特征,輔助完成實體對齊。
第五,AIGC大模型為****知識更新舔磚加瓦。
基于大模型的常識知識和通用抽取能力可以輔助MMKG進行知識更新。可以利用多模態AIGC大模型從新事實中輔助抽取新知識;當新知識抽取完成后,可以借助多模態AIGC大模型輔助更新多模態知識圖譜。此外,還可以借助多模態AIGC大模型輔助過期事實檢測,從而將過期知識從知識圖譜中刪除。
第六,AIGC大模型為知識問答錦上添花。
利用大模型的語言理解能力和解析能力,可以幫助更好的構建多模態知識問答系統。在ChatGPT的知識問答評測結果顯示其在很多問題類型上效果顯著,且跨語言低資源情況下具有碾壓級效果,但是其數值類問題效果不及SOTA。因此,使用AIGC大模型助力MM-KGQA和K-VQA等任務,可以提升問題解析能力,強化知識推理能力,提供外部知識輔助等。
05
MMKG for AIGC
第五部分,我們總結與展望一下MMKG如何助力AIGC大模型的提升與完善。
第一,MMKG參與AIGC大模型的生成能力評估**。**
基于多模態知識圖譜中的知識構建測試集,可對大模型的生成能力進行各方面評估。例如利用各類百科知識圖譜進行事實性檢驗評估,也可以利用各類MMKG構建測試集進行符號推理能力評估、視覺常識推理能力評估、非語言推理能力評估等。
第二,MMKG引導AIGC大模型的可控約束生成。
已有工作在文本AIGC模型中引入指定約束(如包含/避免某主題)進行可控生成。可以展望未來會出現多模態知識引導大模型約束生成的工作。比如對于圖像生成,可通過將文本鏈接到多模態知識圖譜的具體實體,提供實體圖像信息,幫助正確生成實體對應圖像;對于文本生成,通過鏈接到多模態知識圖譜的具體實體,提供實體關系屬性和實體圖像等實體畫像信息,幫助正確生成符合實體性質和特點的文本。
第三,MMKG幫助AIGC大模型進行知識編輯。
目前已有在文本大模型上的知識編輯的相關工作。可以預見,未來也會出現利用多模態知識圖譜來對多模態大模型進行知識編輯的研究工作。
第四,MMKG輔助AIGC大模型的領域(任務)適配。
用多模態知識圖譜做領域知識微調可以將大模型的能力適配到領域任務。例如,在電商領域跨模態檢索場景,常常存在語義不匹配的問題。這種情況下,大模型如何低成本、高效率地解決該領域的具體問題是其應用落地的關鍵。我們與阿里合作的這篇工作提出了通過微調大模型,加上多模態知識輔助的方式,實現了大模型的輕量級領域適配。
06
AIGC+MMKG
第六部分,我們展望一下AIGC大模型和MMKG如何進一步合作。
我們認為,走向通用人工智能需要AIGC大模型和MMKG攜手并進。在未來,基于知識工程和統計模型的語言認知和多模態感知將會相互結合,并且借助MMKG和AIGC大模型,共同走向多模態認知的發展道路上。從視覺感知和語言認知到多模態認知,從連接主義和符號主義到神經符號主義,通用人工智能必將是一條融合之路。
AIGC和MMKG的第一種融合方式是注入知識以增強預訓練大模型**。**目前知識增強的預訓練語言模型已有多種路徑實現。在多模態知識增強預訓練的方向上,也有工作將場景圖知識融入視覺語言預訓練模型的預訓練過程中以增強跨模態語言理解能力。未來還有很多方式方法來將MMKG中的知識以更多方式融入到大模型當中。
AIGC和MMKG的第二種融合方式是基于知識檢索增強的多模態生成**。**例如,給定文本提示,訪問外部多模態知識庫以檢索相關圖文對,將其用作生成圖像的參考。
AIGC和MMKG的第三種融合方式是因果知識增強的多模態生成**。**已有工作利用因果圖譜中的因果關系和圖推理能力,輔助大模型的因果決策,通過在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中。可以展望,未來因果知識也可被用在對多模態大模型的理解與生成能力優化上。
AIGC和MMKG的第四種融合方式是個性化知識接入的多模態生成**。**在未來,或許每個個體或企業都會擁有AI私有化助手,那么如何管理個性化多模態知識,諸如個人畫像知識圖譜、企業畫像知識圖譜、價值觀知識圖譜、自媒體知識圖譜等,將這些知識以一種可插拔式的方式接入AIGC大模型中,提高大模型的個性化生成能力將是非常值得探索的方向。
實際上,Microsoft 365 Copilot就可以看作是知識庫與大模型良好協作的一款劃時代產品。借助Microsoft Graph(可以看做是一種知識庫)與AIGC大模型的協作融合,助力Word、PowerPoint、Excel的生產力大提升。
此外,在行業落地層面,AIGC大模型和MMKG的融合更具價值**。**由于利用海量通用語料和通用知識訓練的通用大模型與行業應用場景之間依然存在鴻溝,因此需要進行行業數據挖掘和行業特色知識獲取來進一步訓練更加實用的行業大模型。
基于上述原因,行業落地往往需要多層次的模型,并有效與知識庫和外部工具進行配合,才能真正解決好行業問題。通用多模態預訓練生成大模型、行業領域預訓練模型、任務小模型以及行業知識庫、外部工具將構成一個模型共同體,協作解決行業復雜問題。
07
總 結
最后總結一下本次分享的主要觀點。首先,AIGC技術的發展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術無法真正實現通用人工智能。在多模態領域,MMKG的構建與應用仍具重要價值。我們認為,AIGC和MMKG應該相互借力,我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競合方式的探索和展望。未來,符號知識和統計模型的競合方式有待進一步深入探索。
(在此感謝輔助完成分享PPT材料的課題組同學們,包括陳石松、朱祥茹、王續武、查志偉、王小丹、趙一聰、鄒健。演講稿的文字記錄與整理由查志偉同學完成。)
分享人簡介
李直旭,復旦大學研究員、博士生導師,上海市數據科學重點實驗室主任助理,復旦大學知識工場實驗室執行副主任,曾兼任科大訊飛蘇州研究院副院長,博士畢業于澳大利亞昆士蘭大學。主要研究方向為認知智能與知識工程、多模態知識圖譜、大數據分析與挖掘等。在領域主流期刊和國際會議上發表論文150余篇,主持十余項國家和省部級科研項目。
摘要: 超大預訓練模型(Pre-trained model, PTM)是人工智能領域近年來迅速崛起的研究方向, 在自然語言處理和計算機視覺等多種任務中達到了有史以來的最佳性能, 促進了人工智能生成內容的發展和落地. ChatGPT作為當下最火熱的PTM, 更是以優異的表現獲得各界的廣泛關注. 本文圍繞ChatGPT展開. 首先概括了PTM的基本思想并對其發展歷程進行了梳理; 接著, 詳細探討了ChatGPT的技術細節, 并以平行智能的視角闡述了ChatGPT; 最后, 從技術、范式以及應用等多個方面對PTM的發展趨勢進行了展望.
2022年底, 一款名為ChatGPT (Chat generative pre-trained Transformer)的人工智能聊天程序引爆全球, 成為了各行業關注的焦點. ChatGPT火熱之余, 不禁讓眾人思考: ChatGPT有何奧秘? “ChatGPT是一種基于人工智能的自然語言處理技術, 能夠根據給定的問題和語境生成符合語言習慣和邏輯的回答. 這種技術可以應用于各種領域, 如客服、智能助手、教育、醫療等, 能夠幫助人們更方便、高效地獲取所需信息. 當前, ChatGPT在各個領域的應用越來越廣泛, 因為它可以實現智能化、個性化、高效化的服務, 得到了廣大用戶的認可和喜愛. 隨著技術的不斷進步和完善, ChatGPT在處理語言難度、語境理解、知識獲取和表達等方面都得到了不斷的提升, 使得它在應用領域的效果和準確度都越來越好. 因此, 當下ChatGPT的火熱現象主要是因為它能夠提供高效便捷的智能服務, 并且在技術上不斷突破和進步, 能夠越來越好地滿足人們的需求. 同時, 隨著ChatGPT技術的發展, 它還將繼續在各個領域發揮重要作用, 成為人們生活中不可或缺的一部分.”①就這些問題, ChatGPT自己如是說道. 由ChatGPT的回答, 我們不難發現ChatGPT的論述條理清晰、井然有序, 更難得的是符合大眾日常的語言習慣, 這讓上述問題的答案不言而喻. ChatGPT的橫空出世勢必會給各行業帶來巨大的沖擊和挑戰, 同時也意味著新機遇的誕生. 因此, 人們需對ChatGPT有全面且深刻的認識.
ChatGPT屬于自然語言處理(Natural language processing, NLP)領域的超大預訓練模型(Pre-trained model, PTM)[1-2], 這類超大PTM也稱基石模型(Foundation model)[3, 4]、大模型(Large/big model)[5-7]. 簡單來說, 超大PTM旨在設計具有超大參數量的深度神經網絡(Deep neural network, DNN), 在海量未標記的數據上對其進行訓練. 利用超大參數量DNN強大的函數近似能力, 預訓練可使超大PTM在這些海量數據上提取共性特征. 再根據下游任務, 對超大PTM進行微調(Fine-tune)或上下文學習(In-context learning), 使最終的模型可在具有一定相關度但不同的任務中獲得優異的表現. 目前, 國內外眾多科研機構、公司研發的超大PTM已在各領域取得了巨大的突破, 引領了新一輪的人工智能科技競賽.
為進一步推進以ChatGPT為代表的超大PTM技術的發展和應用, 加速人工智能生成內容(Artificial intelligence-generated content, AIGC)落地, 本文首先梳理了超大PTM的經典模型, 并進行簡要介紹. 其次, 詳細地介紹了ChatGPT中的關鍵技術——Transformer, 探討了ChatGPT的設計與實現, 同時以平行智能的視角解讀了ChatGPT. 在綜合分析ChatGPT和其他PTM的基礎上, 我們進一步從技術、生態、范式以及應用等多個方面探討了超大PTM的發展趨勢.
ChatGPT的設計與實現
如前所述, ChatGPT的出色表現得益于其成功地引入了人類的價值偏好. 不同于其他PTM, ChatGPT采用RLHF的方式將人類的語言習慣引入模型中, ChatGPT實現的基本流程如圖4所示, 可大致分為如下4步:
步驟0: 預訓練GPT. 基于大規模語料庫, 以自監督學習的方式預訓練GPT模型. 使GPT在大規模語料庫上提取自然語言共性特征.
步驟1: 監督微調(Supervised fine-tuning) GPT. 基于真人標注偏好的答案初步引入真人價值偏好, 根據人工示例監督微調GPT.
步驟2: 獎勵模型(Reward model)設計. 基于真人對模型輸出排序的數據, 監督訓練獲得獎勵模型, 使獎勵模型學習到真人的價值偏好.
步驟3: RL反饋優化GPT. 基于獎勵模型并采用近端策略優化(Proximal policy optimization, PPO)算法[38], 閉環反饋優化監督微調后的GPT, 獲得ChatGPT.
經步驟0后的GPT, 在具體任務上表現并不一定出色, 但已具備相當潛力, 通過微調或者上下文學習的模式即可在多種任務中獲得優異表現. 步驟0的介紹可參考上一節. 而步驟1至步驟3是ChatGPT的關鍵步驟, 這些步驟成功地將人類因素引入了GPT中. 換一個角度來看, 步驟1至步驟3也是RL的標準流程.
來源:哈爾濱工業大學、自然語言處理研究所(HIT-NLP)
2022年11月30日,OpenAI推出全新的對話式通用人工智能工具——ChatGPT。ChatGPT表現出了非常驚艷的語言理解、生成、知識推理能力,它可以很好地理解用戶意圖,做到有效的多輪溝通,并且回答內容完整、重點清晰、有概括、有邏輯、有條理。ChatGPT上線后,5天活躍用戶數高達100萬,2個月活躍用戶數已達1個億,成為歷史上增長最快的消費者應用程序。除了被廣大用戶追捧外,ChatGPT還受到了各國政府、企業界、學術界的廣泛關注,使人們看到了解決自然語言處理這一認知智能核心問題的一條可能的路徑,并被認為向通用人工智能邁出了堅實的一步,將對搜索引擎構成巨大的挑戰,甚至將取代很多人的工作,更將顛覆很多領域和行業。 哈工大自然語言處理研究所組織多位老師和同學撰寫了本調研報告,從技術原理、應用場景、未來發展等方面對ChatGPT進行了盡量詳盡的介紹及總結。
本報告僅供內部參考。 主要編撰人員 第一章由車萬翔、楊沐的、張偉男、趙妍妍、馮驍騁、孫承杰、李佳朋編寫;第二章由張偉男、隋典伯、高翠蕓、朱慶福、李明達、王雪松編寫;第三章由劉銘、朱聰慧、湯步洲編寫;第四章由徐永東、高翠蕓、朱慶福編寫;第五章由楊沐昀、張偉男、韓一、莊子或編寫;第六章由隋典伯、高翠蕓編寫;第七章由車萬翔、劉銘編寫。參與各章審校工作的還有:崔一鳴、徐志明等。 報告整體由車萬翔統稿。
目錄
第一章 ChatGPT的背景與意義
1.1 自然語言處理的發展歷史 1.2 大規模預訓練語言模型的技術發展歷程 1.3 ChatGPT技術發展歷程 1.3.1 ChatGPT的相關技術 1.3.2 ChatGPT技術發展脈絡的總結 1.3.3 ChatGPT的未來技術發展方向 1.4 ChatGPT的優勢與劣勢 1.4.1 ChatGPT的優勢 1.4.2 ChatGPT的劣勢 1.5 ChatGPT的應用前景 1.5.1 在人工智能行業的應用前景及影響 1.5.2 在其他行業的應用前景及影響 1.6 ChatGPT 帶來的風險與挑戰 第二章 ChatGPT相關核心算法
2.1 基于Transformer的預訓練語言模型.. 2.1.1 編碼預訓練語言模型(Encoder-only Pre-trained Models) 2.1.2 解碼預訓練語言模型(Decoder-only Pre-trained Models) 2.1.3 基于編解碼架構的預訓練語言模型(Encoder-decoder Pre-trained Models) 2.2 提示學習與指令精調 2.2.1 提示學習概述 2.2.2 ChatGPT中的指令學習 2.3 思維鏈(Chain of Thought,COT) 2.4 基于人類反饋的強化學習(Reinforcement Learning with Hu-man Feedback,RLHF) 第三章 大模型訓練與部署
3.1 大模型并行計算技術 3.2 并行計算框架 3.3 模型部署 3.3.1 預訓練模型部署的困難 3.3.2 部署框架和部署工具 3.3.3 部署技術和優化方法 3.4 預訓練模型的壓縮 3.4.1 模型壓縮方案概述 3.4.2 結構化模型壓縮策略 3.4.3 非結構化模型壓縮策略 3.4.4 模型壓縮小結 第四章 ChatGPT相關數據集
4.1 預訓練數據集 4.1.1 文本預訓練數據集 4.1.2 代碼預訓練數據集 4.2 人工標注數據規范及相關數據集. 4.2.1 指令微調工作流程及數據集構建方法 4.2.2 常見的指令微調數據集 4.2.3 構建指令微調數據集的關鍵問題 第五章 大模型評價方法
5.1 模型評價方式 5.1.1人工評價 5.1.2 自動評價 5.2 模型評價指標 5.2.1 準確性 5.2.2 不確定性 5.2.3 攻擊性 5.2.4 毒害性 5.2.5 公平性與偏見性 5.2.6 魯棒性 5.2.7 高效性 5.3 模型評價方法小結 第六章 現有大模型及對話式通用人工智能系統
6.1 現有大模型對比 6.2 對話式通用人工智能系統調研 6.2.1 對話式通用人工智能系統 6.2.2不同系統之間的比較 第七章 自然語言處理的未來發展方向
7.1 提高ChatGPT的能力 7.2 加深對模型的認識 7.3 實際應用 7.4 從語言到AGI的探索之路
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。
ChatGPT系列報告:
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
【芯片算力】▲芯片需求=量↑x價↑,AIGC拉動芯片產業量價齊升。1)量:AIGC帶來的全新場景+原場景流量大幅提高;2)價:對高端芯片的需求將拉動芯片均價。ChatGPT的“背后英雄”:芯片,看好國內GPU、CPU、FPGA、AI芯片及光模塊產業鏈。 相關標的:海光信息、景嘉微、龍芯中科、中國長城、安路科技、復旦微電、紫光國微、寒武紀、瀾起科技、德科立、天孚通信、中際旭創。 【深度學習框架】深度學習框架是人工智能算法的底層開發工具,是人工智能時代的操作系統,當前深度學習框架發展趨勢是趨于大模型訓練,對深度學習框架的分布式訓練能力提出了要求,國產深度學習框架迎來發展機遇。 相關標的:百度、海天瑞聲、商湯科技、微軟、谷歌、Meta。 【深度學習大模型】ChatGPT是基于OpenAI公司開發的InstructGPT模型的對話系統,GPT系列模型源自2017年誕生的Transformer模型,此后大模型數量激增,參數量進入千億時代,國內百度也發布了ERNIE系列模型并有望運用于即將發布的文心一言(ERNIEBot)對話系統,未來國內廠商有望在模型算法領域持續發力。 相關標的:百度、科大訊飛、商湯科技、谷歌、微軟。 【應用】ChatGPT火爆全球的背后,可以窺見伴隨人工智能技術的發展,數字內容的生產方式向著更加高效邁進。ChatGPT及AIGC未來有望在包括游戲、廣告營銷、影視、媒體、互聯網、娛樂等各領域應用,優化內容生產的效率與創意,加速數實融合與產業升級。 相關標的:百度、騰訊、阿里巴巴、網易、昆侖萬維、閱文集團、捷成股份、視覺中國、風語筑、中文在線、三七互娛、吉比特、天娛數科。 【通信】AIGC類產品未來有望成為5G時代新的流量入口,率先受益的有望是AIGC帶來的底層基礎算力爆發式增長。 相關標的:包括算力調度(運營商)、算力供給(運營商、奧飛數據、數據港)、算力設備(浪潮信息、聯想集團、紫光股份、中興通訊、銳捷網絡、天孚通信、光庫科技、中際旭創、新易盛)、算力散熱(英維克、高瀾股份)。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。