亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

ChatGPT 持續成為大家關注的焦點,開啟通用人工智能(AGI)之門。北京交通大學桑基韜教授和于劍教授撰寫的《從ChatGPT看AI未來趨勢和挑戰》,詳述了ChatGPT 的“能”與“不能”,AI中什么是“真”以及AI的未來趨勢,非常值得關注!

在人工智能領域,ChatGPT 作為一種重要的技術突破,引起了廣泛的關注.本文將探討 ChatGPT 在人 工智能發展中的地位及其對未來 AI 的影響首先,介紹了 ChatGPT 所展現出的優秀對話生成能力,使其幾 乎可以勝任所有自然語言處理任務,并將作為數據生成器、知識挖掘工具、模型調度員、自然交互界面在各 種場景得到應用.接著,分析了其在事實錯誤、毒害內容生成、安全性、公平性、可解釋性、數據隱私等方 面的局限,并討論了作為輔助人類工具的 ChatGPT 明確能力邊界和提高能力范圍的重要性.然后,從概念經 典表示對真定義進行了分析,并從概念三指不等價的角度闡釋性了 ChatGPT 無法區分真假的原因. 在論述 AI 未來時,從拓展應用、克服局限、探索理論分析了中短期技術趨勢,并從感知、認知、情感、行為智能四個 層面的關系討論了長期發展路徑. 最后,探討了 ChatGPT 作為認知智能的代表,對包括認知成本、教育要求、 圖靈測試認識、學術界的機遇與挑戰、信息繭房、能源環境問題和生產力提升等方面可能產生的影響.目錄:

1 ChatGPT的“能”:生成

2 ChatGPT的“不能”:負責

3 什么是“真”?

4 AI的未來

5 ChatGPT的影響

[1]桑基韜,于劍.從ChatGPT看AI未來趨勢和挑戰[J/OL].計算機研究與發展:1-10[2023-04-18].//kns.cnki.net/kcms/detail/11.1777.TP.20230414.1444.003.html.

引言

2022 年 11 月 30 日,OpenAI 公司發布了一款名 為 ChatGPT 的軟件.該軟件在發布后的 5 天內,用戶 數量就超過了 100 萬,2 個月內活躍用戶數更是突破 了 1 億,成為了迄今為止增長速度最快的應用軟件. 該軟件幾乎可以完成自然語言處理的所有任務,因 此在營銷、客服、教育、娛樂、咨詢、翻譯等行業 有著廣闊的應用前景.這一成功也激勵了OpenAI首席 執行官 Sam Altman,他于 2023 年 2 月 24 日發表了 一篇名為“Planning for AGI and Beyond”的文章, 認為 AGI(Artificial General Intelligence,通用人工 智能)是 AI systems that are generally smarter than humans,需要開始為 AGI 的到來做準備.AGI 會是 AI 的未來嗎?本文將對此進行討論.

1 ChatGPT 的“能”:生成

比爾蓋茨將 ChatGPT 譽為自 1980 年現代圖形桌 面環境 GUI 問世以來最具革命性的科技進步.如果說 上一次讓 AI 火出圈的 AlphaGo 所展現出的是在特定 領域的“專”,這一次 ChatGPT 展現出的則是 AI 在 廣泛應用場景的“通”:這個“通”以正常人都會、 都懂、都能體驗的對話形式呈現,讓 AI—特別是自 然語言處理技術進入主流用戶群,孕育出了這一現 象級產品.具體而言,ChatGPT 在對話過程中展現出了自然對話、多輪交互、上下文學習、思維鏈推理、 實時反饋在線糾錯、涌現出適應未訓練任務以及 GPT-4 中新出現的理解弦外之音的能力.

ChatGPT 背后的思想其實很簡單:將所有語言任務歸為對話任務,將對話任務歸為文字接龍的生成問題 . 自 然 語 言 處 理 領 域 的 學 者 普 遍 認 為 , ChatGPT 展現出的優秀對話生成能力對傳統研究方 法產生了巨大挑戰. 1)從目標上看,自然語言處理 旨在讓計算機能夠以文字或語音的方式與人類進行 有效交流;而對話是人類日常生活中最基本的交流 方式,實現了人機自然對話在一定程度上便達到了 自然語言處理的核心目標.2)從任務類型上,自然 語言處理可分為自然語言理解和自然語言生成兩大 類.在谷歌的 T5 模型[1]推出之后,兩類任務統一為單 項語言生成的文字接龍形式.自 GPT-1 起,OpenAI 就 一直堅持采用基于解碼器結構的自回歸語言模型, 這種模型在處理單向語言生成問題方面具有天然的 優勢.所以 ChatGPT 可以處理以前不同賽道的語言處 理任務,比如翻譯、問答、摘要、擴寫、寫作、潤 色、代碼生成、語句分析、段落理解等.

當然,ChatGPT 能夠實現如今順暢自然的人機 對話,不僅源于其對 GPT 單向語言生成技術路線的 持續發展,還依賴于算法、算力和數據等多方面的 支持. 由于 ChatGPT 并未對模型進行開源,也沒有發 布論文透露具體細節,我們只能基于 OpenAI 已公開 的 GPT 系列技術發展路線來推測這些能力背后的潛在原因. 圖1展示了部分 ChatGPT 已展現出的能力及 其背后主要技術原因的對應關系. 值得關注的是, ChatGPT 許多能力背后的原因仍在探索過程中. 關于上下文學習的能力,有學者認為模型從提示詞 (prompt)提供的示例中確定了待解決任務的自然語言 指令(instruct),從而在無需微調模型的情況下提升了 問題回答的質量[2] .關于任務涌現和多任務遷移能力, 一方面,有學者認為指令學習、大規模預訓練和數 據集多樣性共同促進了模型在新任務的泛化能力[3] . 例如,通過在大量不同類型和指令任務上進行微調, 模型學習到了一定程度的通用能力,從而能夠泛化 到未見過的指令和場景.另一方面,不同任務的劃分 具有一定的主觀性,其本質上都可以建模為統一的 自然語言生成任務.大型預訓練語言模型通過學習大 量訓練數據,掌握了豐富的語言知識和多種任務之 間的共性,進而利用這些共性來提高不同任務的性 能.然而,一些問題仍然沒有明確答案,例如:何種模型規模和訓練數據量閾值可以產生任務涌現能力?涌現能力與模型規模和訓練數據量之間的量化關系 如何?同時,其他一些能力,如在線糾錯、理解弦 外之音等,其背后的原因仍然是個謎.

OpenAI 首席科學家 llya Sutskeve 最近在與英偉 達 CEO 黃仁勛的訪談中對 ChatGPT 能力學習進行了 解釋:“ChatGPT 通過學習文本中的統計相關性,獲 得了這個世界的一個壓縮、抽象、可用的映射表 達”.這讓我們不禁思考:ChatGPT 是否學到了人類 文字符號世界的暗知識(tacit knowledge[4]).Michael Polanyi 在他的這本認識論著作中曾提到:“We can know more than we can say(我們所知者,遠多于所 能說者)”.可以確定的是:機器學習模型通過統計海量符號語料中的規律,能夠學習到詞匯、語法、 乃至一定程度的上下文和常識知識.問題是:隨著語 料規模的不斷增加和統計規律的持續積累,模型所 建立的世界表達分辨率越來越高、維度越來越豐富 時,是否真的有可能學習到人類情感、道德觀念等 支撐整個世界運行的更復雜的暗知識? 在學術界積極探索 ChatGPT 能力背后的技術原 因的同時,工業界已在歡迎這項新技術,并將其優 秀的對話生成能力融入各種應用場景.根據 ChatGPT 對話的對象和本身的定位,我們將這些應用分成 4 個層次(如下表 1 所示):

1) 數據生成器,根據需求直接生成數據.此類應用 僅輸入用戶需求,利用 ChatGPT 的生成能力返回特 定類型的數據.由于思路簡潔且實現容易,數據生成 類應用在 ChatGPT 發布之初就大量出現.主要應用場 景包括對話生成(客服、虛擬數字人)、文案生成 (法律文書、營銷策劃廣告)和代碼生成等.典型的 成功案例包括寫作助手 Notion AI、營銷文案生成工 具 Jasper.ai.

2) 知識挖掘工具,對數據進行再加工或分析挖掘. 此類應用同時輸入用戶需求和待處理的原始數據, 利用 ChatGPT 強大的自然語言處理能力返回經過加 工的數據或挖掘出的新信息.知識挖掘類應用可以分 為 離 線 和 在 線 兩 種 形 式 . 離 線 應 用 通 過 調 用 類 ChatGPT API 分析和挖掘私有數據等專業領域語料構 建知識庫,為進一步應用提供知識支持.在線應用的 主要場景包括翻譯、潤色、摘要生成、文檔管理等. 一些典型案例包括搜索引擎摘要插件WebChatGPT、 文檔分析工具 ChatPDF 以及 OpenAI 官方隨 GPT-4 發 布的摩根士丹利策略分析師.

3) 模型調度員,調用其他機器學習模型共同解決 用戶需求.此類應用同時輸入用戶需求、待處理數據 以及多個可調用的機器學習模型,通過 ChatGPT 作 為人類與其他模型間的連接,設計解決方案、調用 并管理其他機器學習模型,共同完成用戶需求并輸出結果.這方面的典型案例是微軟近期發布的系列多 模態解決方案 Visual ChatGPT[5]、MM-ReAct[6]和 HuggingGPT[7],其通過調度其他視覺基礎模型來協 同完成視覺和語音任務.此外,AI 賦能一直以來的一 個痛點問題是,智能中臺需要整合不同模型和技術, 并根據業務需求擴展新的模型.ChatGPT 有望實現智 能中臺的升級:提供友好的開發/業務人員界面、實 現模塊化模型管理、簡化技術集成和部署,從而提 高 AI 賦能效率.隨著 ChatGPT 應用探索的深入,相 信模型調度員類型的應用將越來越受到關注.

4) 人機交互界面,調用更廣泛的應用程序幫助人 類解決實際問題. 第一種形式是將 ChatGPT 嵌入到特 定應用中,從而極大地提升自然交互體驗,如微軟 的 365 Copilot 和 Copilot X 分別將 ChatGPT 融入 Office 和 Github.第二種形式是在 ChatGPT 搭建的自 然語言交互框架上開發各類信息服務應用,去年 10 月推出的開源庫 LangChain 和 OpenAI 最近發布的插 件集 Plugins 都是大型語言模型應用開發框架的典型 嘗試.正如 Windows 和 Android 分別是桌面和移動時 代的操作系統,ChatGPT 有望成為智能時代的操作 系統接口.進一步暢想,如果把語言分為人類之間溝 通的自然語言和人與計算機之間溝通的計算機語言, ChatGPT 在一定程度上統一了二者:用自然語言實 現了人和計算機之間的溝通,不得不說“自然語言 編程(Natural Language Programming)”這一新詞非常 貼切.從這個角度看,我們甚至可以大膽預測:人機 交互界面將從磁帶、鍵盤字符、鼠標圖形全面進化 到自然語言時代.

以上圍繞對話生成討論了 ChatGPT 的具體能力、 背后的技術原因以及在不同定位下的應用形式.盡管 “對話生成”提供了無限的想象,但 OpenAI 的野心 顯 然 并 不 止 于 此 . 從 名 稱 和 發 布 時 間 點 來 看 , ChatGPT 似乎只是一種過渡性技術的產品形式.在以 對話這種產品形式向主流用戶群展示了強大的技術 實力之后,OpenAI 新發布的 GPT-4 并未繼續在對話 生成功能上炫技,而是悄然接入了各類官方應用.

從生物學角度,語言和智能的演化過程相互促 進.人類智能在很大程度上依賴于高度復雜的語言系 統.語言作為思維的載體和智慧的外在表現,其運用 能力很大程度上反映了認知能力和智能水平.語言習 得是認知發展的重要組成部分.兒童在成長過程中通 過習得語言來理解世界,并逐漸掌握其他認知技 能.ChatGPT 等技術在語言生成能力的持續提升能將 人工智能帶到什么高度,讓人非常期待.

2 ChatGPT 的“不能”:負責

能力越大,責任越大. ChatGPT 展現出的強大能 力讓主流用戶群欣喜、學術界驚訝、工業界狂熱.這 些能力讓我們在使用它時感受到了與以往技術不同 的體驗.回顧人類歷史上的幾次技術革命,從早期的 石器、金屬器具、機械設備、電氣設備到近幾十年 的計算機、互聯網和智能手機,每一個階段所發明 的工具都對人類生活產生了深遠影響.在使用這些工 具時,我們可以清楚地意識到它們作為工具的定位, 即輔助人類來完成任務.然而,在使用 ChatGPT 的過 程中,我們經常會產生一種與另一個人對話的錯覺, 尤其是當類似 Plugins 這類功能使其能夠像人類一樣 利用其他工具進行自我增強的時候.埃隆-馬斯克在使 用 ChatGPT 后的感受是“好到嚇人”.這種獨特的體 驗無疑將加速技術融入人類社會的進程.正如 OpenAI 自己對 ChatGPT 的評價:“盡管 ChatGPT 還沒有實 現真正的智能,但它讓人體驗到了真正的智能實現 后,每個人都能用它做各種他們想做的事情的滋味.”

整個 2023 年 3 月被各種生成式 AI 技術和產品 的發布充斥:Meta Alpaca、GPT-4、PaLM-E、文心 一言、Office Copilot、Midjourney V5、英偉達新顯 卡 、 Github CopilotX 、 ChatGPT 插件、 Security Copilot 等.我們可以預見相關技術的應用領域將迅速 拓展、應用程度將大幅度加深.人們在享受技術帶來 的便捷和生產力提升的過程中,對技術的態度將從 習慣逐漸轉變為依賴.而當人們開始依賴這些技術代 替自己學習、思考、甚至決策時,有兩個問題擺在 我們面前:技術是否已經做好準備承擔責任?人類對技術的信賴是否超出了它的能力?實際上,ChatGPT 在使用過程中已被發現存在 諸多問題:如數學計算、未來預測、時空物理現實 推理等方面能力的局限,以及事實錯誤(幻覺)、生成 毒害內容等方面的不可控[8] .下面從可信 AI 的 4 個維 度對 ChatGPT 存在的問題展開討論.

1) 安全性. OpenAI 在官網上將“安全”列為五個目 錄之一,在隨 GPT-4 發布的報告中批露了其在技術 和評估兩方面都設立了專門的安全小組,足見對安 全性的重視.然而,和所有機器學習模型一樣, ChatGPT 仍存在著被對抗攻擊的風險.一種典型方式 是提示語注入攻擊(prompt injection attack):在提示 語中混入惡意指令,可能繞過 ChatGPT 的安全機制, 迫使其執行意外動作,如泄露敏感信息、輸出有害 內容等.例如,ChatGPT 驅動的新 Bing 在受到攻擊后 泄露了其內部代號“Sydney”;ChatGPT 被誘導規劃 搶劫方案,甚至提供了購買搶劫道具的鏈接等.

2) 公平性.在 ChatGPT 之前,OpenAI 的文生圖DALL-E系列曾被發現存在輸出性別和種族歧視內容 的問題.類似地,GPT-2、Bert、RoBERTa 等語言模 型在一個測試項目中也被發現具有嚴重的性別偏見 傾向[9] .盡管目前尚無系統性研究分析 ChatGPT 在性 別和種族偏見方面的表現,但已有研究發現它存在 明顯的語言敏感性:例如,當用日語和俄語分別詢 問一個日俄爭議島嶼的歸屬問題時,ChatGPT 給出 了截然不同的答案[10].

3) 可解釋性. ChatGPT 的思維鏈能力可以在答案中 同時呈現推理過程,這在部分程度上解決了實驗室 環境下模型可解釋性的問題.然而,需要注意的是, 這種推理過程的解釋是面向用戶的,并不一定與模 型的實際運行機制準確對應.此外,ChatGPT 仍存在 很多尚未解釋的行為,包括自我在線糾錯、理解弦 外之音等能力,以及出現事實錯誤(幻覺)等問題.由 于大模型本身的復雜性以及僅通過 API 提供服務的 現實限制,ChatGPT 對于用戶和開發者都是完全的 黑箱.隨著應用場景的拓寬和加深,現有的解釋性水 平可能難以滿足透明度和回溯性等的要求.

4) 數據隱私. 涉及 2 個方面:訓練階段的數據侵權 和推理階段的隱私泄露.大模型訓練需要的海量數據 多來自網絡,其中難免包括未經授權的版權保護內 容.ChatGPT 雖然可能避免語句層面的抄襲,但難以 避免語義上的深度抄襲.2023 年,大模型領域發生了 多起版權侵權案.例如,三名藝術家指控 Stable Diffusion 使用其版權作品作為訓練數據,而微軟和 OpenAI 因其開發被指控其開發的編程助手 Copilot 涉 嫌復制 Github 上的開源代碼而受到指控.在推理階段, 攻擊者有可能通過逆向攻擊等手段,利用模型輸出 的結果來反向推導出訓練數據中的隱私信息.GPT-2、 BERT、RoBERTa 等語言模型均被發現存在數據隱私 泄露的風險[11] .隨著模型規模和功能多樣性的增加, 這種風險可能進一步加大:模型規模越大,其記憶 能力越強;功能越多樣化,可被利用的信息和攻擊 方式也越豐富.ChatGPT 自身代號的泄露便證實了這 一點.

從生成式 AI 模型選擇的技術路線和當前發展水平看,這些問題既可以歸結為大型語言模型固有的結構局限,也可以歸結為將符號任務統一建模為對 話問題的過度簡化.關于這條技術路線的未來發展, 同時存在著樂觀和悲觀的觀點.樂觀派認為,人腦神 經元突觸連接總數約為一百萬億,隨著語言模型參 數量的不斷增加,模型可能在某個時刻實現量變到 質變的躍遷,這些問題也會自然消失.然而,包括喬 姆斯基、Stuart Russell 等大佬在內的悲觀派則持相反 觀點,他們認為端到端的深度學習與人類進行推理和使用語言的方式有著巨大差異,依靠更多數據和 算力無法消除這些缺陷或實現真正的智能.

不討論技術路線的選擇或者觀點的對錯,不管 生成式 AI 模型的能力演進到何種程度,其定位始終 是幫助人類更好地完成任務的工具.作為工具,首先 應該明確能力邊界,即“做自己能做的事”.在認知 心理學中,約瑟利窗口(Johari Window)將人際關 系劃分為公開區、盲區、隱藏區、未知區四個象限 [12] .參照這種方法,如圖 2 所示,我們可以沿“自知” 和“能力”兩個維度繪制一個坐標系,智能工具處 理的任務將落在其中一個象限內.當任務落在“自知” 負半軸的兩個象限時,可能會出現不可預知的問題:在隱藏區時,模型“不知道自己能”,可能在收到用 戶反饋后將原本正確的答案改為錯誤,或接受用戶 錯誤反饋的引導;在未知區時,模型“不知道自己 不能”,可能會產生事實錯誤幻覺,一本正經地胡說 八道.

根據“自知”-“能力”坐標系,首先需要明確 能力邊界,即擴大“自知”正半軸兩個象限的覆蓋 范圍,使更多任務落入公開區和盲區.在公開區時, 模型可以自信地回答用戶的問題;而在盲區時,模 型應該承認能力缺陷,避免回答不知道的問題,或 者虛心接受用戶的反饋引導.PAL[13]是開發隱藏區的 一個例子,通過在提示詞中注入包含推理過程的程 序示例,成功挖掘了模型在原本容易回答錯誤的數 學推理類任務的解決能力.在明確能力邊界后,需要 進一步提升模型的能力,即擴大“能力”正半軸、 尤其是第一象限的面積,使更多的任務從盲區轉移 到公開區.縮小盲區的一個例子是 ReAct[14],它將推 理和行動結合,通過調用搜索等插件從網絡等外部 資源中逐步、有選擇性地收集和處理新信息,從而 提高了模型在各種復雜場景下的解決能力.另一個最 新提出的框架 Reflexion[15],它在 ReAct 基礎上加入 了自省 Reflect 功能,通過試錯的方式,在尋找自身 能力邊界的同時,探索新任務的解決方案.這是一個 在同時確定能力邊界和提高能力范圍方面很有意思的嘗試.

當然,“自知”-“能力”坐標系只是一個理想 和簡化的框架.人類在執行任務時,通常會考慮諸如 道德、倫理、公平等價值觀.而 ChatGPT 并不具備人 類的價值觀和判斷力,可能會生成與事實相悖的錯 誤信息和誤導性的建議.比如,當用戶詢問“林黛玉 是如何倒拔垂楊柳的”,ChatGPT 會一本正經地介紹 相關具體細節.事實上,《林黛玉倒拔垂楊柳》是一 部網絡小說,中文論壇上也有許多對這一虛構情節 的討論.模型在學習這些語料時無法區分虛構和現實, 因此產生了這個尷尬的回答.隨著 GPT-4 的發布,可 以預見 ChatGPT 將有能力在符號世界中實現自動化 生成.然而,它依然不能確保所生成內容的真實性, 自然更無法對生成結果承擔責任.

3 什么是“真”?

為了解釋為何 ChatGPT 無法保證結果為真,首 先需要探討什么是“真”.“真”的定義有很多,本 文采用亞里士多德的經典定義[16]:說是者為非,非 者為是,即為假;而說是者為是,非者為非,即為 真. 基于此,Tarski 提出一個更形式化的“真”的定 義[17]:

X 是真語句當且僅當 p, 其中 p 代表任意語句,X 是語句 p 的名稱. 即,一個語句是真的,當且僅當它描述的情況確實 發生了.比如:“樹在長芽”是真語句當且僅當樹在 長芽,即“樹在長芽”是真語句當且僅當樹在長芽 確實發生了. 但是,這個看似合理的“真”的定義卻隱含矛 盾.Tarski 轉述了烏卡謝維茨的加強版說謊者悖論: 令 C 是“C 不是一個真語句”的名稱,因此, 有如下兩個假設: 1)α假設:C=“C 不是真語句”; 2)β假設:“C 不是真語句”是真語句當且僅 當“C 不是真語句”. 綜合α假設與β假設,即可以得到:C 是真語 句當且僅當“C 不是真語句”,悖論. Tarski 關于“真”的定義和上面的推理似乎都沒 有問題,那問題出在哪里呢?我們認為問題出在概 念的定義上,因此需要仔細考察概念的定義. 眾所周知,概念的經典表示由三部分組成:符 號表示、內涵表示和外延表示.其中,概念的符號表 示由概念名稱表示,概念的內涵表示由描述概念特 性的命題表示,概念的外延表示由概念所包含的實 例的經典集合表示.比如,“偶數”這個概念,其中文符號表示是“偶數”這個詞;內涵表示是 “能被 2 整除的整數”這個命題;外延表示是包含所有偶數 的集合:{...,-6,-4,-2,0,2,4,6,...}.

如圖 3 所示,根據經典表示,每個概念具備 3 種 功能:指名、指心和指物,同時對應著波普爾的 3 個世界:符號世界、心理世界和物理世界[18] .概念的 指名功能,是指每個概念都指向認知世界或符號世 界中的一個實體,用所指對象的特定符號名稱來表 示.這些符號名稱可以組成各種不同的語言.概念的指 心功能,是指每個概念也指向人類心理世界中的實 體,代表這個概念在心理世界里的對象表示.概念的 指物功能,強調概念與物理世界中的實體之間的對 應,這些實體遵循物理世界的規律,可以獨立于人 的主觀感受. 如果從概念的表示來實現人工智能,指名指物 指心對應了 3 條路徑:符號主義、連接主義和行為 主義.如果從概念的功能角度來對人工智能分類,可 以分為認知智能、情感智能和行為智能.認知智能實 現了概念的指名功能,即處理和理解符號世界的問 題.情感智能則實現了概念的指心功能,主要關注心 理世界中的問題.而行為智能則體現了概念的指物功 能,主要解決物理世界中的問題.然而,如果要實現 概念的三指功能,必須首先解決機器的感知問題.解 決機器感知問題是最基本的人工智能,通常被稱為 感知智能.感知智能主要關注機器的輸入輸出處理, 是實現認知智能、情感智能和行為智能的基礎.

在概念的經典表示下,概念的指名、指心與指 物功能是等價的,其符號表示、內涵表示和外延表 示在功能上也是可以互換的.這是因為概念的經典表 示存在 6 條預設:1) 概念的外延表示可以由集合{x1,x2,? ,}表示; 2) 概念的內涵表示存在且用命題?xP(x)表示; 3) 概念的名稱存在,且用符號表示 A;4) 概念的外延表示與內涵表示同名:A={x1,x2, ? ,}=“?xP(x)”;5) 概念的表示唯一,即同一個概念的表示與個體無關:?α(A α=A), α 代表一個人;6) 概念的指稱等價,即其內涵表示與外延表 示在指稱對象的時候功能等價?x(x∈A?P(x)),其中, A={x1,x2,? ,}.

根據上述概念的經典表示,可以知道概念的指 名、指心與指物功能是等價的.在日常生活中,這種 情況非常普遍,因此說真話是通常的情形.羅素曾給 出一個清晰的論證[19]:“除非假定說真話是一種通常 的情況,否則沒有人能夠學會說話:假設當你的孩 子看到一條狗時,你隨意地說出‘貓’、‘馬’或者‘鱷 魚’,那么當他看到的不是一條狗時,你無法通過能 通過說‘狗’來欺騙他.因此,說謊是一種派生的行為, 它預設了說真話是通常的規則.”在上述羅素的論證 里,可以清楚地看到,其預設了概念的指名與指物 等價,即假設概念的三指等價是真的必要條件.如果概念的指名、指心與指物功能等價,則可 以認為:認知智能、情感智能與行為智能等價.這意 味著一旦實現了認知智能,也就同時實現了情感智 能和行為智能.同時,人工智能的三條實現路徑—符 號 主 義 、 連 接 主 義 和 行 為 主 義 一 也 是 等 價 的.ChatGPT 和 GPT4 的出現,表明認知智能已經取 得了巨大的進步. 如果概念的三指等價,那么認知 智能的巨大進步預示著情感智能和行為智能將取得 同樣的巨大進步.從這個角度看,實現 AGI 似乎也有 可能性.然而,烏卡謝維茨悖論告訴我們概念三指等價 在邏輯上并不永遠成立:它內蘊矛盾.Tarski 的真定 義實際上等價于如下命題:概念的指名功能為真當 且僅當概念的指物功能為真.顯然,概念的經典表示 也預設了 Tarski 的真定義. 仔細分析烏卡謝維茨悖論 的邏輯推理,可以發現 α 假設與 β 假設都預設了概 念的指名功能為真與概念的指物功能為真等價,這 必然導致悖論.實際上,在概念的三指等價條件下, 針對包含算術系統的邏輯系統,哥德爾證明了不完 全性定理,而Tarski得到了著名的真之不可定義定理. 這些都說明在復雜一點的符號系統內部,不可能解 決 何 為 真 何 為 假 的 問 題 . 因 此 , 從 理 論 上 講 , ChatGPT 和 GPT4 同樣無法解決真假問題.因此,我 們必須放棄概念的三指等價假設.一旦放棄了這個假 設,就會發現認知智能、情感智能與行為智能是不 可能等價的.實際上,現實生活中,這三種智能從未 等價過.

4 AI 的未來

很多人認為 ChatGPT 已經開啟了第四次技術革 命.面對這種尺度的變革,我們很難在早期準確預測未來的發展.在這里,我們僅從中短期技術趨勢和長 期發展路徑兩個方面,來探討在當前階段我們對這 一技術的理解.

4.1 中短期技術趨勢

OpenAI 發明 ChatGPT 對于人工智能領域的影響, 可以類比哥倫布發現了美洲大陸.在哥倫布發現美洲 之前,探險家們一直渴望著探索新大陸,并嘗試使 用各種方法去尋找它.然而,即使是經驗非常豐富的 探險家,也并不確定新大陸是否真實存在,以及哪 種航海方法更為有效.哥倫布的成功不僅堅定了后來 探險家們的信心,更在一定階段內統一了尋找新大 陸的方法:在新的突破性技術出現以前,看似簡陋 的帆船和羅盤已經足以帶領人們到達目的地. 同樣地,ChatGPT 的誕生為人工智能領域注入 了信心并指明了發展方向,展示了“大力出奇跡” 的可能:通過不斷擴大神經網絡的模型規模和增加 數據量,可以在 AI 的道路上取得實質性的進展.在這 一目標和技術路線的共識下,我們從拓展應用、克 服局限和探索理論 3 個方面探討人工智能領域中短 期的可能技術趨勢.

4.1.1 拓展應用

**1) 垂直化. **ChatGPT 發布初期,人們嘗試在提示 詞中注入角色信息以增強垂直領域對話質量.為克服 提示詞 token 數量限制以融合領域語料,有工作提出 基于LangChain框架,將領域文檔切片后分布式輸入. 但這種做法存在私域數據泄露風險,解決思路之一 是利用 ChatGPT 控制和調用其他領域模型來提高垂 直化能力.此外,MIT 最近提出保護隱私的遷移學習 框架 Offsite-Tuning[20],可在不訪問完整模型的前提 下,在下游領域數據上微調數十億級參數的基礎模 型.對于需要構建領域模型的場景,在不泄露基礎模 型和領域數據的情況下,實現對通用基礎模型的領 域微調非常重要.

2) 個性化. 個性化可視為垂直化的極致,針對個 人需求和偏好的個性化微調模型能夠提供更精確的 服務.典型的應用場景包括個性化推薦系統、個性化 教育輔導、個人 AI 助理等.微軟于 2023 年 4 月 4 日 開源了大模型協作項目 JARVIS,旨在大型語言模型 與機器學習社區的其他模型之間建立連接.JARVIS 這 個名字讓我們對鋼鐵俠中同名的 AI 助理產生更多聯 想.如果未來個性化模型可以通過多模的人機交互來 增強,實現與人類對世界的同步感知、學習和成長, 這樣的 AI 助手能夠更好地理解個性化需求、情感和 行為,協助我們實現更高效的工作、學習和生活方 式.在這個過程中,我們需要解決諸如中心平臺式 AI 如何保護個人數據以及在個體層面部署模型等問題.

3) 工程化. ChatGPT 的誕生某種程度上是工程 化的勝利,而它的成功無疑將進一步加速 AI 技術從 實驗室研究走向工程化和產業化.從必要性上看,隨 著數據量和計算資源需求的增加,工業界擁有更好 的條件主導大模型研發,相關實驗室研究也需調整 研究范式和目標以適應工程化需求.從可行性上看, ChatGPT 的成功讓工業界看到了 AI 技術在各行業落 地和價值實現的可能,眾多開源項目和成熟技術框 架的出現則為 AI 技術工程化提供了支持.從重要性上 看,工程化是一個學科發展和成熟的標志,AI 技術 的工程化有助于進一步優化和完善相關技術,激發 學術創新活力,推動 AI 領域的整體發展.

4.1.2 克服局限

1) 多模態增強. 多模態大模型的發展逐漸以語 言模型為主,將視覺、語音等多模態信息映射到語 義符號空間進行處理.近來的多模態解決方案更是提 出直接以大型語言模型為基座來拓展多模態能力, 如 Visual ChatGPT 和 MM-ReAct 以 ChatGPT 為中心 調度其他視覺模型、PaLM-E 固定語言模型訓練額外 的視覺編碼器等.然而,人類在進行多模態學習時并 不完全依賴于符號空間,大腦神經網絡在不同感官 區域間傳遞、整合信息,同時結合視覺形象、空間 關系等非符號性表示.由于多模態世界建模更為復雜, 以語言模型為主或是現有條件下的折衷.隨著多模態 數據量與模型參數繼續增加,期望在視覺、語音等 空間實現真正的多模態生成能力.如被細線系著的氣 球照片,無需映射至語義空間,模型即可預測線剪 斷后的情景.

2)人機交互增強. 有人將現在的 ChatGPT 比作 一個博覽群書的神童,卻從未親身體驗過這個世界. 經典的認知實驗發現,與被動旁觀的貓相比,具有 自由活動能力的貓可以通過主動與環境互動并獲得 反饋,從而更好地學習行為能力[21] .在一項微軟的最 近研究中,ChatGPT 已經能夠根據人類的要求自動 編寫代碼并指揮無人機協助完成任務[22] .通過進一步 考慮生物學特性、身體感知和行動的影響,有望實 現與真實物理世界的雙向交互,在自主行為反饋中 不斷提升自身智能水平.

3) 可信增強. 之前的討論已概括了 ChatGPT 當 前的局限和進行可信研究的必要性.可以預見,每個 大模型公司都將需要一個專注于可信的安全和倫理 團隊.這就不難理解 OpenAI 的系列舉措:GPT-4 在訓 練完成后經過半年的評估和修正才發布、用 30 余頁 技術報告介紹安全補丁 System Card,以及對模型評 估框架Evals的開源.即便如此,ChatGPT還是因隱私問題在意大利遭禁,并遭到包括馬斯克和沃茲尼亞 克等上千名知名人士的聯名叫停.值得注意的是,除 了安全、公平、可解釋、數據隱私等經典可信問題 外,ChatGPT 還會帶來模型回音壁等新問題.目前, 使用 ChatGPT 生成的對話數據進行訓練已經成為公 開的秘密,甚至出現了專門收集 ChatGPT 對話的網 站 ShareGPT.其實,在人類反饋強化 RLHF 后,就有 學者提出了基于智能模型反饋強的 RLAIF 框架[23] .隨 著模型規模繼續增加,可供訓練的自然數據面臨枯 竭,模型生成標注和反饋數據在模型間的回音壁效 應將加劇可信問題.此外,垂直化、個性化、多模態 等技術趨勢也會帶來新的可信挑戰.關于可信增強的 方案,考慮到傳統 AI 測試基準已不足以評估模型能 力,我們需要盡快構建新的可信測試基準:包括可 信 benchmark 數據集和可信測試框架.此外,為了準 確評估模型的應用成熟度,我們應該研制面向大型 語言模型的可信標準,以規范不同可信等級的模型 在相應的應用場景中使用.同時,結合工程化的發展 趨勢,我們可以參考軟件開發周期中的測試-調試閉 環,在基礎模型和下游模型兩個層面進行迭代優化, 以確保模型在大規模應用場景中的可信性.

4.1.3 探索理論

1) 預訓練模型機理研究.近年來,計算機視覺和自 然語言處理領域的技術框架逐漸趨同.學習范式從特 征工程、深度監督學習轉向自監督預訓練,模型結 構從 CNN、RNN 發展為 Transformer.針對自監督預 訓練和 Transformer 結構,仍有很多基礎性問題等待 研究,如自監督學習泛化理論、預訓練與微調的動 態平衡分析、Transformer 結構的\定性和魯棒性分析 等.對于 ChatGPT,除了探究在線糾錯、理解弦外之 音等原因未知的能力外,還需進一步研究任務涌現 能力與模型規模以及訓練數據量等的關系,為未來 模型設計和實際應用提供指導.

2) 學科交叉融合研究. ChatGPT 作為催化劑,不僅 將推動人工智能學科內部計算機視覺和自然語言處 理領域的進一步整合,而且將激發學術界和工業界 更加深入地探討和實踐人工智能和其他學科交叉融 合以及跨學科應用的可能性.以腦科學為例,結合腦 結構和人工神經網絡研究,我們將更有可能揭示智 能產生的本質原因.實際上,OpenAI 的 CEO Sam Altman 早就投資了可控核聚變公司 Helion 和生物科 技公司 Retro Biosciences.科技部近期啟動的 AI for Science 專項部署工作更是明確指出了將人工智能與 數學、物理、化學、天文等基礎學科緊密結合,重 點攻關藥物研發、基因研究、生物育種研發、新材 料研發等領域的關鍵問題.

4.2 長期發展路徑

我們沿著概念經典表示和人工智能分類的討論 來看 AI 未來可能的發展路徑.《左傳》里有句名言, “太上有立德,其次有立功,其次有立言”.顯然, 立德屬于心理世界,是情感智能的范疇;立功屬于 物理世界,是行為智能的范疇;立言屬于符號世界, 是認知智能的范疇.應該指出,這三個世界既互相獨 立又相互依存.比如,符號世界也必須通過心理世界 表示才能為人所感知,同樣符號世界也必須通過物 理世界顯現展現才能傳播.對于人而言,認知的物理 世界本身也屬于符號世界的示例,沒有成為符號示 例的物理對象難以被符號世界記錄,同樣,物理世 界也是通過心理世界被人感知.

三個世界各自都足夠復雜.在符號世界中,有自 然符號、模擬符號和象征符號.其中自然符號直接用 物理世界中的對象作為符號,比如學生用書包或其 它個人物品占座.此時的書包或個人物品就有了符號 意義,屬于典型的自然符號.圖像、視頻等是典型的 模擬符號.文字是最常見的象征符號.至于心理世界、 物理世界的復雜性,更是眾所周知.

為了計算方便,通常假定概念的三指等價,即 符號世界、心理世界、物理世界三界同構.比如,符 號主義的物理符號系統假設認定物理符號系統具有 產生智能行為的充要條件,這暗示了符號世界與物 理世界等價.連接主義認為只要能模擬大腦的思考功 能就足夠了,實際上它假設了心理世界(或其子集) 與物理世界等價.行為主義則認為只要能在物理世界 實現智能,不需要知識、表示和推理,只需要感知 和行動,這意味著符號世界、心理世界是物理世界 或其子集.但是,3 個世界并不同構.比如,喬姆斯基 曾經寫過一個著名的句子:“Colorless green ideas sleep furiously.”這個句子在符號世界可行,但在心 理世界和物理世界就失去了可行性.因此,3 個世界 同構假設僅是一種有用的簡化,并不總是成立。

由于 3 個世界并不同構,它們之間的關系相當復雜.這導致在 3 個世界中實現智能的難度也大為不 同.從共性上講,無論在哪個世界實現智能,首先必 須解決最基礎的感知問題,即輸入輸出問題.從難度 上看,感知智能、認知智能、情感智能、行為智能 依次增加.原因很簡單:感知智能保持了 3 個世界同 構假設.從認知智能開始,我們必須放棄 3 個世界同 構的假設,只能假設 3 個世界的某些受限子集同構. 認知智能旨在解決符號世界的智能問題,其實現主 要受制于符號世界的規律,這些規律可能是顯知識, 也可能是暗知識,但認知智能依然在符號世界內預 設概念的三指等價.情感智能主要解決心理世界的智 能問題,除了受制于心理世界外,也受制于情感所 在的物理個體,即情感必須在認知層面具備具身特 性.理論上,西施難以與青蛙共情,夏蟲不能與秋雁 同語.對于機器來說,情感智能是基于認知智能的, 情感智能也是依賴于機器內部的符號操作.僅有認知 智能并不能實現情感智能,情感智能的實現難度髙 于認知智能,情感智能預設心理世界內的概念三指 等價.行為智能主要解決物理世界的智能問題,不但 受限于作為行為主體的自身物理條件,也受限于其 所處的物理環境,約束最多,因此實現難度最大.莫 拉維克悖論實際上是對行為智能實現難度最大的一 個簡單說明.對于行為智能來說,任一概念的三指等 價都需要檢驗,任一概念的三指等價都不能先驗預 設成立,這正是莫拉維克悖論背后隱藏的挑戰.圖 4 比較清楚地說明了概念的三指等價性從默認成立到 必須檢驗所對應的不同智能階段。

根據以上分析,人工智能的發展路徑可以預測 為:首先成熟的是感知智能,次之為認知智能,再 次為情感智能,最后是行為智能.這與人工智能目前 的現狀相符.當前,感知智能的問題已經大部分解決, 已經融入人們的日常生活.得益于 ChatGPT 等技術, 認知智能的問題已經初步解決,即將走入人們的生 活.情感智能的問題部分解決,受限可用,比如在三 界同構假設成立時,可以使用類 ChatGPT 技術.行為 智能的問題尚極具挑戰性,在目前的情況下可用性 受到嚴重限制,如在工廠等封閉場景下部分可用, 距離人們的日常生活需求尚遠.之所以在部分封閉場 景下行為智能能實現,原因即在于此時對應的相關 概念可以保證其三指等價.

粗略地說,感知智能是人工智能中的基礎智能, 可視為人工智能的 1.0 階段.認知智能是人工智能的 2.0 階段.情感智能則為人工智能的 3.0 階段.行為智能 可以看作是人工智能的 4.0 階段.目前的人工智能發 展已經進入了 AI2.0 時代,未來的 AI3.0 和 4.0 還有待努力.

5 ChatGPT的影響

人工智能發展至今,邁入認知智能時代,確實 取得了重大進步.雖然離 AI3.0 和 4.0 距離尚遠,但依 然將對我們的生活產生重要影響: 1)生成式 AI 的成功提醒我們,符號世界、心 理世界、物理世界三界同構假設不是恒真.今后,各 種符號的證據力量需要檢測,不能預設為真. 這不僅 大幅提升認知成本,還考驗認知能力.隨著類似 ChatGPT 工具的普及,它可能代表認知的最低水準.

2)每次技術進步,都對教育提出了更高的要求, 這次也不例外. ChatGPT 展現出的認知水平要求人們 更注重提出問題和獨立判斷的能力.鑒于符號世界的 人類普適性,教育尤其是高等教育需要提前布局.

3)ChatGPT 表明認知智能已可用,但依然不可 能通過原始的圖靈測試.這表明圖靈測試是有啟發性 的思想實驗,但不是衡量智能的實踐標準.

4)ChatGPT 的成功為國內人工智能學術界同時 帶來機遇與挑戰.機遇包括提高學界對相關問題的理 解,例如任務的主觀性,以往的多任務可能在新視 角下視為單任務;同時,全社會對人工智能潛在能 力的直觀體驗和認可得到提升,將極大推動相關產 業的發展.然而,挑戰也不容忽視:應用研究方面, 社會對技術的期待值提高,實效性和實用性至關重 要;理論研究方面,技術已領先于理論,亟需加強 理論研究.

5)類 ChatGPT 技術的大規模應用可能導致意識 形態等方面的信息繭房效應. 特別是類 ChatGPT 是中 心化的 AI 平臺,容易使人們在獲取信息時只接觸到 特定內容和片面觀點,這一方面會加劇社會分化, 另一方面會降低觀點多樣性,阻礙創新思維的產生, 為社會帶來潛在危害.

6)大模型對計算量的巨大需求可能會加劇全球 能源危機,并對環境產生不良影響.我們期望 AI for science 通過加速科學發現,更迅速地找到可持續能 源解決方案和新的節能技術,從而盡量降低這些負 面影響.

7)ChatGPT 在提高生產力方面潛力巨大.通過自 動化處理一些繁瑣的、重復性的任務,它可以解放 人們的時間和精力,讓人們關注于更有價值、更具 創造力的工作,進一步推動社會創新和發展.

參 考 文 獻

[1] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transferlearning with a unified text-to-text transformer[J]. The Journal of Machine Learning Research. 2020, 21(1):5485-5551

[2] Zhou Y, Muresanu AI, Han Z, et al. Large language models are human-level prompt engineers[OL]. arXiv preprint arXiv:2211.01910. 2022

[3] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[OL]. arXiv preprint arXiv:2206.07682. 2022

[4] Polanyi M, Sen A. The tacit dimension[M]. Chicago, IL: University of Chicago Press,2009

[5] Wu C, Yin S, Qi W, et al. Visual chatgpt: Talking, drawing and editing with visual foundation models[OL]. arXiv preprint, arXiv:2303.04671. 2023

[6] Yang Z, Li L, Wang J, et al. MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action[OL]. arXiv preprint, arXiv:2303.11381. 2023

[7] Shen Y, Song K, Tan X, et al. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace[OL]. arXiv preprint, arXiv:2303.17580, 2023

[8] Borji A. A categorical archive of chatgpt failures[OL]. arXiv preprint, arXiv:2302.03494. 2023

[9] Liu Y, Liu X, Chen H, et al. Does Debiasing Inevitably Degrade the Model Performance[OL]. arXiv preprint, arXiv:2211.07350. 2022

[10] Zhuo TY, Huang Y, Chen C, et al. Exploring ai ethics of chatgpt: A diagnostic analysis[OL]. arXiv preprint, arXiv:2301.12867. 2023

[11] Carlini N, Tramer F, Wallace E, et al. Extracting Training Data from Large Language Models[C] //Proc of USENIX Security Symp. Berkeley, CA : USENIX Association, 2021: 2633-2650

[12] Luft J, Ingham H. The Johari window, a graphic model of interpersonal awareness[C] //Proc of the Western Training Laboratory in Group Development. Los Angeles: University of California, Los Angeles, 1955, 246

[13] Gao L, Madaan A, Zhou S, et al. PAL: Program-aided Language Models[OL]. arXiv preprint, arXiv:2211.10435. 2022

[14] Yao Shunyu, Zhao J, Yu Dian, et al. ReAct: Synergizing reasoning and acting in language models [C] //Proc of the Int Conf on Learning Representations (ICLR). 2023[2023-04-10].

[15] Shinn N, Labash B, Gopinath A. Reflexion: An autonomous agent with dynamic memory and self-reflection[OL]. arXiv preprint, arXiv:2303.11366. 2023

[16] Ross W D. Aristotle on His Predecessors, Being the First Book of His Metaphysics [M] (1908): 110-113

[17] Tarski A. The semantic conception of truth: and the foundations of semantics[J]. Philosophy and Phenomenological Research. 1944,4(3):341- 376

[18] Yu Jian. Brilliance and Darkness: Turing Test[J]. Journal of Computer Research and Development, 2020, 57(5): 906-911(in Chinese) (于劍. 圖靈測試的明與暗[J],計算機研究與發展,2020,57(5):906-911)

[19] Russell B. An Inquiry into Meaning and Truth [M].Beijing: China Commerce and Trade Press,2012 (羅素. 意義與真理的探究[M]. 北京:商務出版社,2012)

[20] Xiao G, Lin J, Han S. Offsite-Tuning: Transfer Learning without Full Model[OL]. arXiv preprint, arXiv:2302.04870. 2023

[21] Held R, Hein A. Movement-produced stimulation in the development of visually guided behavior [J]. Journal of Comparative and Physiological Psychology, 1963, 56(5):872

[22] Vemprala S, Bonatti R, Bucker A, et al. Chatgpt for robotics: Design principles and model abilities.2023

[23] Bai Y, Kadavath S, Kundu S, et al. Constitutional AI: Harmlessness from AI Feedback[OL]. arXiv preprint, arXiv:2212.08073. 2022

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

為應對數字經濟中數字智能的挑戰,人工智能生成內容(artificial intelligence-generated content, AIGC)應運而生。AIGC通過根據用戶輸入的關鍵字或需求生成內容,使用人工智能來輔助或取代人工內容生成。大型模型算法的發展大大增強了AIGC的能力,這使得AIGC產品成為一種很有前途的生成工具,也為我們的生活增添了便利。AIGC作為一種上游技術,在支持下游應用方面具有無限的潛力。重要的是要分析AIGC當前的功能和缺點,以了解如何在未來的應用中最好地利用它。因此,本文對AIGC的定義、基本條件、前沿功能和高級特性進行了較為全面的綜述。此外,還討論了大規模預訓練模型的優勢和AIGC的產業鏈。此外,文章還探討了AIGC中輔助生成和自動生成之間的區別,并提供了文本生成的示例。本文還探討了AIGC與元宇宙的潛在集成。最后指出了存在的問題和未來的發展方向。1. 引言隨著Web 3.0仍處于蓬勃發展階段[1],人工智能(AI)1已被證明是許多具有挑戰性任務的有效工具,如生成內容、分類和理解。近年來,人工智能的一些進步已經幫助該技術完成了比以前更復雜的任務,例如理解輸入數據,然后生成內容。人工智能生成內容(Artificial Intelligence Generated Content, AIGC)是對專業生成內容(Professional Generated Content, PGC)、用戶生成內容(User Generated Content, UGC)[2]、[3]等傳統內容創作方式的補充。AIGC根據AI技術生成滿足用戶需求的內容。它被認為是一項有前途的技術,有許多應用。因此,了解AIGC的能力和局限性對于充分挖掘其潛力至關重要。

事實上,AIGC的起源可以追溯到更早的時期。其發展歷史大致可以分為三個階段(如圖1所示)。在第一個階段,研究者通過最原始的編程技術控制計算機實現內容的輸出。希勒和艾薩克森在1957年完成了世界上第一首用電腦完成的音樂《伊利亞特組曲》。然后,世界上第一個人機交互機器人Eliza誕生了。Eliza顯示了通過模式匹配和智能短語搜索適當答案的能力,但不反映語義理解。然而,現在大多數人仍然將Eliza視為人工智能的靈感來源。此后二十年,為沉積堆積階段。第二階段假設AIGC的可用性是由于大規模數據庫可用性的提高和計算設備性能的提高。《路》是世界上第一部完全由人工智能創作的小說。隨后,微軟還展示了一個全自動同聲傳譯系統,該系統能夠在短時間內將英語語音翻譯成漢語,準確率達到[4]。然而,算法瓶頸直接限制了AIGC生成豐富內容的能力。第三階段開始于2010年,AIGC進入快速發展階段。Goodfellow[5]提出了一種通用對抗網絡(GAN),利用現有數據生成圖片。在2022年,OpenAI發布了一個新的聊天機器人模型,稱為ChatGPT。它能夠理解人類的語言,并像人類一樣生成文本。月活躍用戶在兩個月內突破1億。20235年1月,每天大約有1300萬獨立訪問者使用ChatGPT。隨著ChatGPT等產品的不斷完善,AIGC顯示出了巨大的應用潛力和商業價值。它引起了企業家、投資者、學者和公眾的廣泛關注。

目前AIGC的內容質量明顯優于以前。此外,AIGC內容的類型也更加豐富,包括文本、圖像、視頻、代碼等。表一列出了一些AIGC型號或各大科技公司開發的經典產品及其應用。ChatGPT是一個基于大型語言模型(LLM)的機器學習系統。在經過幽默的大型文本數據集的訓練后,LLM不僅擅長生成合理的對話,而且還能生成引人注目的片段(如故事和文章)。由于其獨特的人類反饋訓練過程,ChatGPT能夠更精確地理解人類的思維。谷歌聲稱他們即將推出的產品Bard將具有相同的功能,但更側重于生成對話。與ChatGPT相比,Bard可以利用外部知識源,通過提供自然語言問題的答案而不是搜索結果來幫助用戶解決問題。此外,微軟的Turning-NLG是一個擁有170億個參數的LLM,它適用于摘要、翻譯和問答。

擴散模型是圖像生成領域的前沿方法。它的簡單交互和快速生成功能大大降低了進入門檻。幾個流行的應用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已經在社交媒體上產生了指數級的討論和作品展示。NVIDIA是視覺生成研究的先驅。他們的產品(即StyleGAN)是一種最先進的高分辨率圖像合成方法,專門用于圖像生成、藝術和設計。此外,由于不同行業對生成圖片的不同要求,StyleGAN為幾個初創公司提供了機會。例如,Looka專注于logo和網站設計,而Lensa專注于頭像生成。GAN已經能夠生成極其逼真的圖像。DeepMind正試圖將其應用于生成視頻領域。他們提出的模型稱為雙視頻鑒別器GAN (DVD-GAN)[6],可以通過計算高效的鑒別器分解生成更長和更高分辨率的視頻。DVD-GAN是對現實視頻生成的探索。

為了給相關學者和研究人員提供更多的見解和思路,本文重點關注AIGC相關問題,并總結了該領域的新興概念。此外,討論了未來AIGC可能遇到的潛在挑戰和問題,如在道德標準上缺乏全球共識,以及人工智能濫用和濫用的潛在風險。最后,對AIGC的發展和部署提出了展望。我們認為AIGC將為人類實現更便捷的服務和更高的生活質量。本文的主要貢獻如下。

本文給出了AIGC的定義,并討論了其關鍵條件。然后,通過闡述AIGC的3個前沿功能和6個高級特征來展示AIGC帶來的巨大影響。

進一步詳細描述了AIGC的產業鏈,并列出了AIGC中采用的大型預訓練模型的幾個優點。

為揭示AIGC中輔助生成和自動生成之間的差異,本文對文本生成、人工智能輔助寫作和人工智能生成寫作示例進行了深入的討論和分析

從實際應用的角度,總結了AIGC的優缺點,然后介紹了AIGC與Metaverse的結合

最后,指出了AIGC目前需要解決的幾個問題,并提出了未來應用的一些方向

2. 人工智能生成內容(AIGC) 內涵

人工智能生成內容(AIGC)是指由機器生成的博客、營銷材料、文章、產品描述等內容。如圖3所示,AIGC經歷了三種不同的內容生成模式。在PGC模式下,內容由專業團隊[7]、[8]生成。PGC的優點是生成的內容大多是高質量的,但生產周期長,難以滿足產出的數量需求。在UGC模式下,用戶可以選擇多種創作工具自行完成內容生成[9]、[10]。UGC的優勢在于使用這些創意工具可以降低創作的門檻和成本,提高用戶參與創作的積極性。UGC的劣勢在于創作者水平參差不齊,產出內容的質量難以保證。AIGC可以克服PGC和UGC在數量和質量上的不足。它有望成為未來內容生成的主要模式。在AIGC模式中,AI技術利用專業知識提高內容生成的質量,也節省了時間。

如圖4所示,AIGC由三個關鍵部分組成: 數據、硬件和算法。音頻、文本和圖像等高質量數據是訓練算法的基本構建塊。數據量和數據源對[20]預測的準確性有至關重要的影響。硬件,特別是計算能力,構成了AIGC的基礎設施。隨著人們對計算能力需求的不斷增長,更快、更強大的芯片以及云計算解決方案已經變得必不可少。硬件應該能夠處理tb級的數據和具有數百萬個參數的算法。加速芯片與云計算的結合對于提供高效運行大型模型[21]所需的計算能力起著至關重要的作用。最終,算法的性能決定了內容生成的質量,而數據和硬件的支持對于實現最優結果至關重要。

AIGC產業鏈是一個從上游到下游相互關聯的生態系統。如圖8所示,下游應用嚴重依賴上游產品的基礎支持。數據供應商、算法機構、硬件開發機構是上游AIGC的主要組成部分。數據供應商利用網絡爬行技術從新聞網站、博客和社交媒體收集大量文本。然后,利用自然語言處理技術[48]對這些野生數據進行自動標記或處理。算法機構通常由一群經驗豐富的計算機科學家和數學家組成,他們具有深厚的理論背景和實踐經驗。他們可以開發高效準確的算法來解決各種復雜問題。硬件開發機構專注于開發專用芯片、處理器、加速器卡等硬件設備,以加速AI算法的計算速度和響應能力。

大規模人工智能模型是人工智能向通用智能發展的一個重要里程碑。大規模模型的使用明確表明AIGC具有更強的泛化能力。盡管通用數據的激增和可靠數據的缺乏帶來了挑戰,但深度學習完全依賴模型從數據中自動學習,從而顯著提高性能。大規模模型同時具有大規模和預訓練的特點,需要在為實際任務建模之前對大量廣義數據進行預訓練。這些模型被稱為大規模預訓練模型[53]。事實上,AI的大規模模型可以看作是對人類大腦的模擬,這是AI的靈感來源[54]。事實上,人腦是一個具有基本認知能力[55]的大規模模型。人類大腦可以高效地處理來自不同感官的信息,并同時執行不同的認知任務。因此,人工智能大規模模型不僅期望具有眾多參與者,而且能夠有效地理解多模態信息,跨模態感知,并同時在不同任務之間遷移或執行。人工智能大規模模型理解人類思維準確率的提高歸功于基于人類反饋數據訓練模型[56]的系統。

如圖9所示,開發大規模預訓練模型的過程可以分為三個主要步驟。第一步是收集解釋性數據來訓練監督學習策略。第二步涉及收集比較數據來訓練獎勵模型,這使模型能夠做出更準確的預測。最后一步是收集解釋性數據,使用增強學習技術優化模型。這將提高模型的性能和效率

3. 應用

隨著硬件和算法的快速發展,AIGC的應用前景更加廣闊。我們認為AIGC最具潛力的方向包括跨模態生成、搜索引擎優化、媒體制作、電商、電影制作等領域,如圖13所示。

4. 結論

近年來,在海量高質量數據和高性能硬件的支持下,許多用于大型模型的算法得到了快速發展。這些算法不僅具有理解文本的能力,而且具有輔助或自動生成豐富內容的能力。ChatGPT等應用實例展示了AIGC技術的商業價值和應用性能,在短時間內引起了眾多一線企業的廣泛關注和投資。本文簡要介紹了AIGC技術,并闡述了它的特點。此外,還對AIGC能力的優勢和劣勢進行了比較分析。然而,AIGC的發展仍然面臨著許多挑戰和機遇。本文還對AIGC面臨的挑戰和未來方向提出了見解。最后,希望本文的綜述能為學術界、產業界和企業界的發展提供有益的思路,為AIGC領域的進一步探索提供有價值的思考方向和見解。

付費5元查看完整內容

原創作者:趙偉翔,趙妍妍,陸鑫,王世龍,童彥澎,秦兵

轉載須標注出處:哈工大SCIR引言

情感對話技術旨在賦予對話機器人類似人類的情感,使它們具備識別、理解和表達情感的能力,從而為用戶提供更為人性化和多樣化的回復。讓計算機具備“情商”可以說是人工智能領域的更高追求。人工智能之父馬文·明斯基(Marvin Minsky)在其著作《情感機器》[1]中指出:“只具備智力而無情感的人工智能,并非真正的智能。這表明對話機器人不僅需要“智商”,還要具備“情商”。因此,研發具備情感功能的對話機器人成為學術界和產業界共同關注的課題。近年來,產業界的許多對話機器人產品都增加了情感功能,以提高產品的趣味性和人性化,例如微軟的小冰、小黃雞聊天機器人等。情感對話技術成為了提升這些應用產品(如閑聊機器人[2]、智能客服[3]、語音助手[4]等)性能的核心技術。通過在這些產品中加入情感對話技術,可以使得機器人更好地理解用戶的需求和情感,從而提供更為貼近用戶心理的服務。隨著ChatGPT[5]的問世,對話機器人領域迎來了革新。作為一款先進的大型語言模型,ChatGPT為對話機器人帶來了更為豐富且精確的語義理解和回復生成能力,極大地提升了與人類用戶的交互體驗。考慮到ChatGPT在基本對話技術方面的重要突破,以及近期研究分析了其在各項傳統自然語言處理任務中的表現[6, 7],我們對ChatGPT在情感對話技術發展方面的影響產生了興趣。因此,在本文中,我們將探討ChatGPT在情感對話領域的多個任務上的性能表現,分析其優缺點,并思考情感對話領域未來的研究方向。

任務設置

我們將從情感對話理解和生成能力這兩個維度出發,對ChatGPT在其下各個主流任務的性能表現進行比較和分析。評測方法對于各個任務上的SOTA模型,我們直接引用了其原論文的實驗結果,而ChatGPT的性能測試則全部使用OpenAI開放API的"gpt-3.5-turbo"模型(截止至3.8日的模型版本)。我們測試了ChatGPT在各個任務上零式學習(Zero-shot Learing)和上下文學習(In-context Learning)的表現。

評測詳情

對話情緒識別

任務定義

對話情緒識別是一個分類任務,旨在對一段對話中的話語進行情緒分類。任務的輸入是一段連續的對話,輸出是這段對話中所有話語的情緒,圖1給出了一個簡單的示例。對話中的話語情緒識別并不簡單等同于單個句子的情緒識別,需要綜合考慮對話中的背景、上下文、說話人等信息。對話情緒識別可廣泛應用于各種對話場景中,如社交媒體中評論的情感分析、人工客服中客戶的情緒分析等。此外,對話情緒識別還可應用于聊天機器人中,實時分析用戶的情緒狀態,實現基于用戶情感驅動的回復生成。

圖1. 對話情緒識別示例[8]

數據集介紹

IEMOCAP

[9]南加州大學SAIL實驗室收集,由人扮演的雙人對話,12小時的多模態視聽數據。10個專業演員(5男5女),一共分為5個Session,每個Session分配1男1女。對話分為兩部分,一部分是固定的劇本,另一部分是給定主題情景下的自由發揮。151段對話,共7433句。標注了6類情緒:Neutral, Happiness, Sadness, Anger, Frustrated, Excited,非中性情緒占比77%。IEMOCAP是對話情緒識別中常用的數據集之一,質量較高,優點是有多模態信息,缺點是數據規模較小。本次測試僅使用其文本模態數據。數據集鏈接://sail.usc.edu/iemocap/MELD[10]來源于老友記,多人對話形式,是EmotionLines[11]老友記部分的多模態擴充(文本+視頻)。1432段對話,共13708句。標注了7類情緒:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear和3類情感:Positive, Negative, Neutral,非中性情緒占比53%。MELD是對話情緒識別中常用的數據集之一,優點是數據集質量較高,缺點是數據集中的對話涉及到的劇情背景太多,情緒識別難度很大。本次測試僅使用其文本模態數據。數據集鏈接:EmoryNLP[12]來源于老友記,多人對話形式。897段對話,共12606句。標注了7類情緒:Sad, Mad, Scared, Powerful, Peaceful, Joyful, Neutral,非中性情緒占比70%。EmoryNLP是對話情緒識別中常用的數據集之一,由于和MELD來源相同,故優缺點與MELD數據集類似。數據集鏈接:DailyDialog[13]高質量多輪對話數據集,純文本,噪聲小,對話反映不同主題的日常生活,無固定說話人。數據集除了7類情緒標注,還有10類主題標注以及4類對話行為標注。13118段對話,共102979句。標注了7類情緒:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear,非中性情緒占比16.8%。DailyDialog是對話情緒識別中常用的數據集之一,優點是數據規模較大,缺點是中性情緒占比過高。數據集鏈接:評價指標介紹對于IEMOCAP、MELD和EmoryNLP數據集,目前大部分論文使用Weighted-F1指標進行評價;對于DailyDialog數據集,由于其中性占比實在太高,目前大部分論文都使用不考慮中性類別的Micro-F1指標進行評價。

主實驗結果

下面是主實驗結果,從中可以看出ChatGPT相比于最先進的微調模型普遍還有10—20百分點的性能差距。模型IEMOCAPMELDEmoryNLPDailyDialogCoMPM[14] (NAACL 2022)69.4666.5238.9360.34SPCL[15] (EMNLP 2022)69.7467.2540.94—ChatGPT, 0-shot44.9757.3037.4740.66ChatGPT, 1-shot47.4658.6335.6042.00ChatGPT, 3-shot48.5858.3535.9242.39

案例展示

下面是從DailyDialogue數據集中找到的一段對話數據,模擬了醫生和病人的對話場景,我們將其翻譯成中文展示。說話人對話內容數據集標注ChatGPT預測A早上好。你怎么了?中性中性B早上好,醫生。我頭疼得厲害。中性難過A好的,年輕人。告訴我它是怎么開始的。中性中性B昨天我流鼻涕,現在我鼻塞了,喉嚨痛,恐怕我發燒了。我感覺很糟糕。中性難過A別擔心,年輕人。讓我給你做個檢查。首先讓我看看你的喉嚨。張開嘴說“啊”。中性中性B啊。中性中性A你的喉嚨發炎了。你的舌頭上有厚厚的舌苔。你有流感的癥狀。中性恐懼B那我該怎么辦?中性恐懼A你只需要好好休息,多喝水。我給你開藥方。中性積極B非常感謝。中性積極

分析與討論

案例展示部分中,我們將數據集可能的標注錯誤用紅色字體展示,將ChatGPT扭轉了標注錯誤用綠色字體展示;另外ChatGPT預測結果中還有黃色字體的標簽,這是我們額外發現的問題:ChatGPT與數據集規范不匹配問題。從這部分實際預測樣例看,ChatGPT做不好的最大問題是它的標準與數據集的標準有偏差。數據集標注時可能按一種標注規范來確定什么情況是什么情緒,而ChatGPT自己有一套理解和規范。具體來說,在上面醫生和病人的對話中,病人在描述自己頭疼癥狀時,數據集標注的是中性,而ChatGPT則認為這是難過,這個不能說是誰對誰錯,而是兩者認識的標準不同。更進一步討論,這種標準的不匹配可能并不是ChatGPT能力的問題,而是Few-Shot設定的問題。因為當標注規范細致繁瑣到一定程度后,就已經不可能僅由幾個示例覆蓋了,這是Few-shot天然所不能做好的事情。基于此可對未來方向有所推測:如果是不追求與特定規范嚴格對齊的場景,那么基于ChatGPT等Few-Shot設定下的改進是可行的,但是使用數據集標簽評價是不合適的,可能需要廣泛的人工評價;如果是追求與特定規范嚴格對齊的場景,Few-Shot設定可能并不是一個好的選擇,有監督微調模型仍然是更好的方案。

對話情緒原因識別

任務定義

對話情緒原因識別,旨在找出一段對話中,引起目標句情緒的原因。任務的輸入是一段連續的對話和目標句,輸出引發目標句情緒的原因。在這里,情緒原因有兩種存在形式,分別為句子級情緒原因和詞組級情緒原因,圖2給出了一個簡單的示例。這本次測試中,我們僅關注在對句子級情緒原因的識別。

圖2 對話情緒原因識別示例

數據集介紹

我們在基準數據集RECCON-DD[16]上進行了實驗。它是在對話情緒識別數據集DailyDialog[13]的基礎上,進行情緒原因的標注。我們只考慮存在于對話上文中的情緒原因,并且重復的因果語句被刪除。數據集鏈接:評價指標介紹我們分別對負例和正例因果對計算F1值,以及計算二者的macro-F1值。

主實驗結果

模型Neg. F1Pos. F1Macro F1KBCIN[17] (AAAI 2023)89.6568.5979.12ChatGPT 0-shot85.2551.3368.29ChatGPT 1-shot82.1052.8467.47

分析與討論

對于 ChatGPT 的錯誤案例分析,可以發現其在 Pos. F1 上的性能與 SOTA 存在較大差距的原因在于數據集中有大量情緒原因樣本存在于目標句本身。ChatGPT 未能對這種樣例進行正確的預測,而更偏向于從對話上文中尋找原因語句。這一現象與上述對話情緒識別的分析是相符的。ChatGPT 的性能不佳的最大問題在于其預測標準與數據集的標注標準存在很大偏差。在給定一個示例后,ChatGPT 的性能下降進一步表明,對于情緒原因這類標注規范較為復雜的任務,充分發揮 ChatGPT 性能的關鍵是使其能夠深刻理解數據集構建時的規范,從而沖破其自身的語言模型先驗,以獲得更符合下游測試數據的性能表現。

對話動作識別

任務定義

為對話中的每一個輪次,都進行一次對話動作的分類,是一個四分類任務,我們認為每一個輪次都完成了一個對話動作,動作標簽集合:{告知(inform), 提問(question), 指示(directive), 承諾(commissive)},對話動作的理解能力是對話情感理解能力的一個重要組成部分。

數據集介紹

采用DailyDialog[13]作為實驗數據集,相關介紹同對話情緒識別。評價指標介紹分類任務多采用weighted-F1與macro-F1作為評測指標,本任務中,ChatGPT會給出四分類以外的無意義標簽,嚴重拉低宏平均值,故采用加權平均f1值作為評價指標。

主實驗結果

ModelAccweighted-F1Co-GAT-0.79ChatGPT, oneshot0.670.65ChatGPT, oneshot+prompt-engineering0.710.70ChatGPT, fewshot0.730.71ChatGPT, fewshot+prompt-engineering0.730.72

案例展示

下面是測試數據集中的一個數據實例,對話翻譯成中文展示如下。說話人話語ChatGPT預測標簽真實標簽A我們什么時候才能盼到你來吃晚餐?今天能來嗎?提問指示B不行。我答應和我的妹妹去聽音樂會了。告知承諾A好吧...那周日怎么樣?提問指示B那聽起來不錯。承諾承諾分析與討論ChatGPT對于指示、承諾這兩類標簽的理解能力較差,經常將提問與指示,告知與承諾混淆,正如案例所示。這是兩個難以區分的標簽,如果沒有明顯的定義區別,它們之間會有語義上的重疊:“今天能來嗎”是一種引導性的問句,“我答應和我妹妹去音樂會了”是一種承諾性的告知。這不能說明ChatGPT的對話動作理解能力差,仍表現出ChatGPT的標簽體系與數據集的標簽體系存在差異。若在提示詞中加入詳細的標簽解釋(提示詞工程),評價指標會有明顯提升。從實驗結果可以觀察到:在本任務上,few-shot是一種對于ChatGPT最高效的提示詞增強方式,無需復雜的提示詞工程(本實驗是對commissive和directive標簽做了詳細解釋,具體見

任務提示模板

節),也能使得評價指標得到可觀的提升。本實驗的設定few-shot為3個樣本,提示詞工程也是簡單地進行設計,我們有理由相信,在精細挑選更多示例,以及更精細化地做提示詞工程,能進一步降低ChatGPT理解的標簽體系與數據集原始標簽體系的差異,從而進一步提升ChatGPT在該任務的上限,但與上述兩個任務中提及的觀點相似,這種追求與數據集標簽體系對齊的評價體系仍然值得思考。共情回復生成****任務定義給定對話歷史,模型將扮演傾聽者的角色,設身處地理解用戶處境,生成感同身受的共情回復。數據集介紹EmpatheticDialogues[19]:一個大規模的多輪雙人共情對話數據集,包含了眾包收集的24850段共情對話,并為每個對話提供了一個情緒標簽(一共有32種分布均勻的情緒)。

數據集鏈接:評價指標介紹自動評價指標:?Bleu-n (B-1, B-2, B-3, B-4)[20],Rouge-L (R-L)[21]:評估生成回復與參考回復的相似程度。?**Distinct-n **(D-1, D-2, D-3)[22]:評估生成回復的多樣性。人工評價指標:我們采取了基于屬性的成對人工偏好評價方式。具體來說,100對分別由DialoGPT和ChatGPT生成的回復語句被隨機選取出來,2位志愿者依據以下三個方面挑選出哪一句回復更好:?流暢度:評價哪一條回復更流暢,與對話歷史更相關。?共情能力:評價哪一條回復更共情,展現出對于用戶狀態和處境更好的理解。?信息量:評價哪一條回復展現出與對話歷史相關的更多信息。

主實驗結果

人工評價結果

WinLossTieEmpSOA [24] v.s ChatGPT流暢度844.547.5共情能力1053.536.5信息量98011分析與討論在共情回復生成時,ChatGPT更傾向于生成更長更具多樣性的回復。此外,其尤其傾向于提出建議解決用戶面臨的問題**,**從而與真實回復產生偏差。更進一步,從人工評價來看,SOTA方法的流暢度和共情能力勉強能夠與ChatGPT相比,但回復的信息量相差甚遠。ChatGPT生成的回復能夠完全理解用戶處境,回復質量也相當之高,從而明顯優于目前的SOTA模型。但在共情能力方面,ChatGPT在表達共情時會頻繁重復這樣的模式:復述情緒?信息擴展。反復循環著同樣一種模式不免使得用戶產生乏味。對于該任務的未來方向,首先一點是提升模型的個性化共情能力,模板且套路化的共情表達方式顯然還未能夠與真實的人類共情對話所對齊。其次,由自動評價和人工評價得到的模型性能差異化表現,進一步說明了目前仍缺乏一個合理的評價指標,來衡量共情對話系統的優劣。情緒支持對話****任務定義情緒支持對話是一個生成任務,旨在為處于消極情緒狀態時,前來尋求幫助的求助者給予情緒支持。任務的輸入為發生在求助者和支持者之間的雙人對話歷史,輸出為生成的支持者輪次的情緒支持回復。情緒支持對話可以分為三個階段:支持者需要(1)確定求助者所面臨的問題,(2)安慰求助者,然后(3)提供一些建議或信息,以幫助求助者采取行動來應對他們的問題。支持者在此過程中可以使用以下8種策略,分別為:提問(Question), 復述或改述(Restatement or Paraphrasing), 反思感受(Reflection of Feelings), 自我揭示(Self-disclosure), 肯定和安慰(Affirmation and Reassurance), 提供建議(Providing Suggestions),信息(Information)和其他(Others)。

圖3 情緒支持對話的三個階段和各個階段支持者使用的策略[25]

數據集介紹

數據集:ESConv[25]包含1,053段對話和31,410個句子。為了構建這個數據集,數據集作者招募了已經學會了提供情感支持的常用步驟和策略的支持者,通過一個在線平臺與需要情感支持的志愿者進行交流。支持者被要求在每個回合中標注所采取的策略,而尋求支持的人則被要求每兩個回合在Likert量表上給出反饋,該量表有五個等級,表明其消極情緒的緩解程度。數據集鏈接:評價指標介紹自動評價指標:?Bleu-n (B-1, B-2, B-3, B-4),Rouge-L (R-L):評估生成回復與參考回復的相似程度。?Distinct-n (D-1, D-2, D-3):評估生成回復的多樣性。?ACC:預測策略的準確率。人工評價指標:我們招募了一名熟悉情緒支持對話的志愿者與模型進行交互,以進行人工評估。具體而言,我們從測試集中隨機抽取了89段對話。然后,我們要求志愿者在這些對話場景下扮演求助者的角色,并與模型展開交流。對于MISC和ChatGPT,志愿者需要在以下五個方面進行評判(或判斷兩者表現相當),這些方面涵蓋了情緒支持對話的三個階段:?流暢度:哪個模型能產生更連貫和流暢的回應;?探索能力:哪個模型能更有效地探討求助者的問題;?共情能力:哪個模型在理解求助者的感受和情況方面表現出更強的同理心;?建議能力:哪個模型能提供更有價值的建議;?總體表現:哪個模型能提供更有效的情感支持。主實驗結果

人工評價結果

WinLossTieMISC v.s ChatGPT流暢度63152探索能力63845共情能力****401633建議能力37313總體表現126512分析與討論ChatGPT的生成內容仍保持著長而多樣的特點,使其在自動評價指標Distinct-n上遠超過SOTA方法。但多樣性也帶來了與真實回復的偏離。從人工評價結果來看,情緒支持對話的特點之一是為用戶提供建議和有效信息以走出困境。這恰好符合ChatGPT的生成偏好,故在此任務上展示出優秀的效果。然而,在共情能力方面,SOTA方法優于ChatGPT的原因在于,ChatGPT太過“急于求成”,一旦確認用戶所面臨的困境,便立刻給出相應的建議和應對措施,忽略了對用戶情緒的撫慰和關照。但這并不能說明ChatGPT不具有共情能力。其在共情回復生成任務中展現出的優秀表現能夠證明,其能夠設身處地安慰用戶。通過適當的提示詞工程,我們相信可以使ChatGPT“放慢節奏”,在給出用戶建議前進行充分的情緒疏導。相比MISC,ChatGPT能展現出更多樣化且更有效的建議,從而在建議能力方面遠遠超過現有模型。但這一點MISC無法通過現有數據集學習,因為語料中真實的建議本身就具有局限性。對于未來關于情緒支持對話的研究,如何使得模型自適應地控制情緒支持的節奏(不宜“操之過急”提出建議解決問題,也不宜“停滯不前”重復無效的安慰)是一個值得關注的研究點。此外,研究更合理的自動評價指標,以對齊與人工評價的差異,仍需要進一步探索。結論與展望經過對ChatGPT情感對話能力的初步探索,我們發現ChatGPT在情感對話理解和生成方面表現出色。需要注意的是,我們的實驗結果可能無法完全反映ChatGPT在相應任務上的最佳表現。通過更加精細化的提示詞工程和上下文示例選擇,我們相信ChatGPT的性能可以進一步提高。未來的情感對話理解工作方向之一是探索ChatGPT與標簽標注規范的對齊,而在情感對話生成方面,重要的是研究合理的自動評價指標以衡量模型能力,因為目前所廣泛采用的自動評價和人工評價得到的性能表現可能會有所不同。

付費5元查看完整內容

摘要: 超大預訓練模型(Pre-trained model, PTM)是人工智能領域近年來迅速崛起的研究方向, 在自然語言處理和計算機視覺等多種任務中達到了有史以來的最佳性能, 促進了人工智能生成內容的發展和落地. ChatGPT作為當下最火熱的PTM, 更是以優異的表現獲得各界的廣泛關注. 本文圍繞ChatGPT展開. 首先概括了PTM的基本思想并對其發展歷程進行了梳理; 接著, 詳細探討了ChatGPT的技術細節, 并以平行智能的視角闡述了ChatGPT; 最后, 從技術、范式以及應用等多個方面對PTM的發展趨勢進行了展望.

2022年底, 一款名為ChatGPT (Chat generative pre-trained Transformer)的人工智能聊天程序引爆全球, 成為了各行業關注的焦點. ChatGPT火熱之余, 不禁讓眾人思考: ChatGPT有何奧秘? “ChatGPT是一種基于人工智能的自然語言處理技術, 能夠根據給定的問題和語境生成符合語言習慣和邏輯的回答. 這種技術可以應用于各種領域, 如客服、智能助手、教育、醫療等, 能夠幫助人們更方便、高效地獲取所需信息. 當前, ChatGPT在各個領域的應用越來越廣泛, 因為它可以實現智能化、個性化、高效化的服務, 得到了廣大用戶的認可和喜愛. 隨著技術的不斷進步和完善, ChatGPT在處理語言難度、語境理解、知識獲取和表達等方面都得到了不斷的提升, 使得它在應用領域的效果和準確度都越來越好. 因此, 當下ChatGPT的火熱現象主要是因為它能夠提供高效便捷的智能服務, 并且在技術上不斷突破和進步, 能夠越來越好地滿足人們的需求. 同時, 隨著ChatGPT技術的發展, 它還將繼續在各個領域發揮重要作用, 成為人們生活中不可或缺的一部分.”①就這些問題, ChatGPT自己如是說道. 由ChatGPT的回答, 我們不難發現ChatGPT的論述條理清晰、井然有序, 更難得的是符合大眾日常的語言習慣, 這讓上述問題的答案不言而喻. ChatGPT的橫空出世勢必會給各行業帶來巨大的沖擊和挑戰, 同時也意味著新機遇的誕生. 因此, 人們需對ChatGPT有全面且深刻的認識.

ChatGPT屬于自然語言處理(Natural language processing, NLP)領域的超大預訓練模型(Pre-trained model, PTM)[1-2], 這類超大PTM也稱基石模型(Foundation model)[3, 4]、大模型(Large/big model)[5-7]. 簡單來說, 超大PTM旨在設計具有超大參數量的深度神經網絡(Deep neural network, DNN), 在海量未標記的數據上對其進行訓練. 利用超大參數量DNN強大的函數近似能力, 預訓練可使超大PTM在這些海量數據上提取共性特征. 再根據下游任務, 對超大PTM進行微調(Fine-tune)或上下文學習(In-context learning), 使最終的模型可在具有一定相關度但不同的任務中獲得優異的表現. 目前, 國內外眾多科研機構、公司研發的超大PTM已在各領域取得了巨大的突破, 引領了新一輪的人工智能科技競賽.

為進一步推進以ChatGPT為代表的超大PTM技術的發展和應用, 加速人工智能生成內容(Artificial intelligence-generated content, AIGC)落地, 本文首先梳理了超大PTM的經典模型, 并進行簡要介紹. 其次, 詳細地介紹了ChatGPT中的關鍵技術——Transformer, 探討了ChatGPT的設計與實現, 同時以平行智能的視角解讀了ChatGPT. 在綜合分析ChatGPT和其他PTM的基礎上, 我們進一步從技術、生態、范式以及應用等多個方面探討了超大PTM的發展趨勢.

ChatGPT的設計與實現

如前所述, ChatGPT的出色表現得益于其成功地引入了人類的價值偏好. 不同于其他PTM, ChatGPT采用RLHF的方式將人類的語言習慣引入模型中, ChatGPT實現的基本流程如圖4所示, 可大致分為如下4步:

步驟0: 預訓練GPT. 基于大規模語料庫, 以自監督學習的方式預訓練GPT模型. 使GPT在大規模語料庫上提取自然語言共性特征.

步驟1: 監督微調(Supervised fine-tuning) GPT. 基于真人標注偏好的答案初步引入真人價值偏好, 根據人工示例監督微調GPT.

步驟2: 獎勵模型(Reward model)設計. 基于真人對模型輸出排序的數據, 監督訓練獲得獎勵模型, 使獎勵模型學習到真人的價值偏好.

步驟3: RL反饋優化GPT. 基于獎勵模型并采用近端策略優化(Proximal policy optimization, PPO)算法[38], 閉環反饋優化監督微調后的GPT, 獲得ChatGPT.

經步驟0后的GPT, 在具體任務上表現并不一定出色, 但已具備相當潛力, 通過微調或者上下文學習的模式即可在多種任務中獲得優異表現. 步驟0的介紹可參考上一節. 而步驟1至步驟3是ChatGPT的關鍵步驟, 這些步驟成功地將人類因素引入了GPT中. 換一個角度來看, 步驟1至步驟3也是RL的標準流程.

付費5元查看完整內容

ChatGPT快速滲透, AI產業迎發展新機   ChatGPT是由OpenAI公司開發的人工智能聊天機器人程序, 于2022年11月發布, 推出不久便在全球范圍內爆火。根據World of Engineering數據顯示, ChatGPT達到1億用戶量用時僅2個月, 成為史上用戶增長速度最快的消費級應用程序。與之相比, TikTok達到1億用戶用了9個月, Instagram則花了2年半的時間。從用戶體驗來看, ChatGPT不僅能實現流暢的文字聊天, 還可以勝任翻譯、 作詩、 寫新聞、 做報表、 編代碼等相對復雜的語言工作。   ChatGPT爆火的背后是人工智能算法的迭代升級。ChatGPT是基于GPT-3.5微調得到的新版本模型, 能夠借助人類反饋的強化學習(RLHF) 技術來指導模型訓練, 實現模型輸出與人類預期的需求, 使對話內容更加人性化和富有邏輯性。從2008年第一代生成式預訓練模型GPT-1誕生以來, GPT系列模型幾乎按照每年一代的速度進行迭代升級, 未來隨著大語言模型(LLM) 技術的不斷突破, AI相關應用有望加速落地, AI產業或將迎來新一輪發展機遇。   ChatGPT激起AI浪潮,大算力芯片迎來產業機遇   ChatGPT是生成式人工智能技術(AIGC) 的一種, 與傳統的決策/分析式AI相比, 生成式AI并非通過簡單分析已有數據來進行分析與決策, 而是在學習歸納已有數據后進行演技創造, 基于歷史進行模仿式、 縫合式創作, 生成全新的內容。AIGC的應用非常廣泛, 包括自然語言生成、 圖像生成、 視頻生成、 音樂生成、 藝術創作等領域。   AIGC產業鏈主要分為上游算力硬件層、 中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、 服務器和數據中心為AIGC模型的訓練提供算力支持, 是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、 清洗、 標注及模型的開發與訓練, 多方廠商入局自然語言處理、 計算機視覺、 多模態模型等領域;行業應用層目前主要涉及搜索、 對話、推薦等場景, 未來有望在多個行業呈現井噴式革新。   多模態賦能下游行業智慧化升級   多模態大模型有望成為AI主流, 賦能下游行業智能升級。生成式AI主要依賴于人工智能大模型, 如Transformer、 BERT、GPT系列等。這些模型通常包含數十億至數萬億個參數, 需要龐大的數據集進行訓練, 致使AI算力的需求也呈現出指數級的增長。多模態是一種全新的交互、 生成模式, 集合了圖像、 語音、 文本等方式, 因其可以結合多種數據類型和模態的學習,將有望徹底改變我們與機器互動的方式, 快速占據人工智能主導地位。我們認為多模態大模型長期來看不僅可以從成本端降本增效, 需求端也將通過快速滲透推廣為下游行業帶來持續增長需求, 從而快速推動下游行業智慧化應用升級。   模型更新升級帶動下游行業不斷發展   從GPT-1到ChatGPT, 模型參數與訓練數據量不斷增加, 所需算力資源不斷提升:   GPT-1:最早的GPT模型之一, 包含了1.17億個參數, 預訓練數據量約為5GB。   GPT-2:參數數量達到了1.5億個, 預訓練數據量達40GB。   GPT-3:是目前為止最大的語言模型之一, 包含了1750億個參數, 預訓練數據量為45TB。   ChatGPT:基于GPT-3模型的變種之一, 參數量預計與GPT-3相近。   GPT-4性能提升顯著, AIGC應用市場空間廣闊   多模態模型是實現人工智能應用的關鍵。3月14日OpenAI發布GPT-4多模態大模型, 擁有1) 強大的識圖能力;2) 文字輸入限制提升至2.5萬字;3) 回答準確性顯著提高;4) 能夠生成歌詞、 創意文本、 實現風格變化。在各種專業和學術基準上,GPT-4已具備與人類水平相當表現。如在模擬律師考試中, 其分數在應試者前10%, 相比下GPT-3.5在倒數10%左右。多模態大模型在整體復雜度及交互性上已有較大提升, 模型升級有望加速細分垂直應用成熟, 賦能下游智慧化升級, 帶動需求快速增長。   AIGC下游市場滲透率低, 增長空間廣闊。根據 Gartner數據, 目前由人工智能生成的數據占所有數據的 1%以下, 預計2023年將有 20%的內容被生成式AI 所創建, 2025 年人工智能生成數據占比將達到 10%。根據前瞻產業研究院數據, 2025年中國生成式商業AI應用規模將達2070億元, CAGR(2020-2025) 為84.06%。

付費5元查看完整內容

最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。

1. 引言

近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。

**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。

除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。

結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。

綜上所述,本文的主要貢獻如下:

據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。

回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。

討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。

調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力

生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。

3. 生成式人工智能

我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。

多模態模型

多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。

4. 應用

5. 效率

在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:

推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。

付費5元查看完整內容

 ChatGPT憑實力“出圈”。ChatGPT是一款對話式AI聊天機器人,由微軟旗下的人工智能研究實驗室OpenAI于2022年11月30日發布。它能寫論文、編代碼、寫小說,甚至知道繞開人類提問中預設的價值判斷、道德傾向等陷阱。ChatGPT一經推出,就在人工智能生成內容(AIGC)領域引起轟動,被評價聰明得“像人類”。

  “人形機器人”與“AI”的關系已密不可分。人形機器人離不開機器視覺與神經網絡,前者通過目標追蹤、圖像描述、場景理解等生成數據,后者模仿人腦對生成的數據進行算法處理,從而令人形機器人完成各自任務,而無論是機器視覺或神經網絡都與AI息息相關。AI已成為人形機器人的核心。

  ChatGPT助力AI快速實現技術平臺化和應用場景化。ChatGPT與以往的AI工具擁有諸多“共性”,但又具備獨特的“個性”。1)ChatGPT的“自然語言處理”采用了一種用于處理序列數據的模型,使其交互能力和學習能力得到加強。這意味著它與人類互動越多,“成長”越快,隨著時間推移對用戶提出的同一問題能做出不同或更靠譜的解答。2)ChatGPT使用大量語料庫作為訓練,它能更好地理解人類語言,避免“人工智障”的詬病。約有40名全職AI訓練師在多年時間內給ChatGPT“投喂”了3000億個單詞的語料。3)一般的對話型AI具備特定用途(例如某一組織的對內對外服務),而ChatGPT則試圖完成“幾乎任何語種“的任務。

  ChatGPT或帶來人形機器人下一拐點。人形機器人是一個多任務、通用型機器人平臺,未來它在工業生產、社會服務等領域將有非常多的應用場景。ChatGPT基于OpenAI公司開發的一個GPT-3.5架構的大型語言模型,通過強化學習訓練人工智能聊天機器人程序,能夠廣泛應用于業界和客戶服務,基于Transformer架構的強大算力的語言模型,具有深度學習特質,葆有出色的語言理解和文本對話生成能力,ChatGPT的語言理解和生成水平的便捷性或帶來人形機器人下一拐點。  

付費5元查看完整內容

**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **

** **

** **

ChatGPT是OpenAI推出的聊天機器人模型,月度用戶已破億,正在逐步探索商業化途徑。ChatGPT能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。根據UBS統計數據顯示,ChatGPT上線2個月后月度用戶數量破1億。   OpenAI的商業模式為,會員收費、開放API以及與微軟的戰略合作。會員服務:2023年2月1日,OpenAI推出付費訂閱項目ChatGPTPlus,價格為$20/月,目前面向美國用戶。API服務:ChatGPT將在未來加入OpenAI的API,目前已在包括游戲虛擬人等泛娛樂內容產業和互聯網的多方面進行應用。1)辦公軟件:微軟計劃將包括ChatGPT等AI工具整合進旗下的所有產品中。ChatGPT已加入瀏覽器擴展程序,集成了ChatGPT-4的BING短暫上線。2)泛娛樂:AI或將不斷趨近人類思維敘事,AIGC是踏入元宇宙的重要一步,且已有公司在直播場景、游戲場景等泛娛樂中應用ChatGPT。   谷歌、百度等眾多公司推出自有AI產品,百度文心一言(ERNIEBot)預計三月份完成內測。百度擁有飛槳(深度學習開源框架)、百度AI大底座(全棧AI基礎設施)和文心大模型(AI應用場景全覆蓋)。ERNIE是百度開創性提出的基于知識增強的持續學習語義理解框架。ERNIE3.0參數量增大到了10B,訓練數據集為4TB。產品應用或可期待。  

付費5元查看完整內容
北京阿比特科技有限公司