亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。

從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。

在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。

  • 安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。

  • 隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。

  • 信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。

  • 道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。

本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容:工作原理

在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。

如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。

? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。

在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。

? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。

在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。

付費5元查看完整內容

相關內容

人工智能生成內容

近期發布的 ChatGPT 和 GPT-4 等大型語言模型, 不僅能高質量完成自然語言生成任務, 生 成流暢通順, 貼合人類需求的語言, 而且具備以生成式框架完成各種開放域自然語言理解任務的能 力. 在少樣本, 零樣本場景下, 大模型可取得接近乃至達到傳統監督學習方法的性能, 且具有較強的 領域泛化性, 從而對傳統自然語言核心任務產生了巨大的沖擊和影響. 本文就大模型對自然語言處理的影響進行了詳細的調研和分析, 試圖探究大模型對自然語言處理核心任務帶來哪些挑戰和機遇, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術的未來 發展趨勢和應用. 分析結果表明, 大模型時代的自然語言處理依然大有可為. 我們不僅可以將大模 型作為研究方法和手段, 學習, 借鑒大型語言模型的特點和優勢, 變革自然語言處理的主流研究范式, 對分散獨立的自然語言處理任務進行整合, 進一步提升自然語言核心任務的能力; 還可就可解釋性, 公平性, 安全性, 信息準確性等共性問題開展深入研究, 促進大模型能力和服務質量的提升. 未來, 以 大模型作為基座, 拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通用人 工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務。

1 引言

2022 年 11 月 30 日, OpenAI 發布了對話式語言大模型 (ChatGPT1), Chat Generative Pretrained Transformer). 該模型允許用戶使用自然語言對話形式進行交互, 可實現包括自動問答, 文本 分類, 自動文摘, 機器翻譯, 聊天對話等各種自然語言理解和自然語言生成任務. ChatGPT 在開放域 自然語言理解上展現了出色的性能, 甚至無需調整模型參數, 僅使用極少數示例數據即可在某些任務 上超過了針對特定任務設計并且使用監督數據進行訓練的模型. 當面對用戶所提出的各種文本生成 任務時, ChatGPT 在多數情況下可以生成出通暢通順, 有邏輯性且多樣化的長文本.

ChatGPT 自發布以來引起了廣泛的關注, 僅在 5 天內注冊用戶就超過了 100 萬. 據雅虎財 經2)統計, 在 ChatGPT 推出僅兩個月后, 月活躍用戶已達 1 億, 相比之下, 之前一直被認為是用戶增 長速度最快的消費級應用程序 Tiktok 則花費了 9 個月的時間. 稍后不久, 微軟于 2023 年 2 月 8 日 推出了新一代 AI 驅動搜索引擎 New Bing3) , 該引擎將基于 ChatGPT 技術的生成模型與 Bing 搜 索深度集成, 創造了對話式搜索的新范式. 2023 年 3 月 14 日, OpenAI 發布了下一代生成式多模態 預訓練大模型 GPT-44) , 它不僅能夠理解自然語言文本, 還能夠對圖片內容進行深度理解, 并且具備 比 ChatGPT 更強的問題求解和推理能力, 在多種人類考試和自然語言理解任務中取得了更加優秀 的成績 [1].

長期以來, 自然語言處理任務主要采用監督學習范式, 即針對特定任務, 給定監督數據, 設計統 計學習模型, 通過最小化損失函數來學習模型參數, 并在新數據上進行模型推斷. 隨著深度神經網絡 的興起, 傳統的統計機器學習模型逐漸被神經網絡模型所替代, 但仍然遵循監督學習的范式. 2020 年 5 月 Open AI 發布的首個千億參數 GPT-3 模型初步展示了生成式模型的強大功能, 其具備流暢的 文本生成能力, 能夠撰寫新聞稿, 模仿人類敘事, 創作詩歌, 初步驗證了通過海量數據和大量參數訓 練出來的大模型能夠遷移到其他類型的任務 [2]. 然而, 直到 ChatGPT 的出現, 學術界才意識到大模 型對于傳統自然語言處理任務范式的潛在顛覆性.

以 ChatGPT 為代表的大型語言模型, 給自然語言處理帶來的是威脅, 挑戰還是新的機遇? 今后 的自然語言處理核心任務將采用何種主流范式實現語言理解和生成? 自然語言處理的研究領域將如 何延伸? 以大模型為代表的自然語言處理技術將如何引領通用人工智能的發展? 我們就大模型對自 然語言處理的影響進行了詳細的調研和思考, 試圖分析大模型對自然語言處理核心任務帶來的沖擊 和啟發, 探討大模型將加強哪些自然語言處理共性問題的研究熱度, 展望大模型和自然語言處理技術 的未來發展和應用, 以期回答上述問題.

2. 背景知識

在探討大模型給自然語言處理帶來的挑戰和機遇之前, 我們首先需要介紹相關的背景知識, 包括 自然語言處理的概念和研究歷史, 大規模預訓練語言模型從語言模型, 預訓練模型到大模型的技術發展歷程, 以及 ChatGPT 和 GPT-4 的基本技術與能力。

**3 大模型時代的自然語言處理核心任務 **

自然語言處理包含自然語言理解和自然語言生成兩個方面, 常見任務包括文本分類, 結構分析 (詞法分析, 分詞, 詞性標注, 句法分析, 篇章分析), 語義分析, 知識圖譜, 信息提取, 情感計算, 文本生 成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答等. 在神經網絡方法出現之前, 因為缺乏行 之有效的語義建模和語言生成手段, 自然語言處理的主流方法是基于機器學習的方法, 采用有監督分 類, 將自然語言處理任務轉化為某種分類任務. 在神經網絡時代, Word2Vec 詞嵌入模型, BERT 等 上下文相關語言模型為詞語, 句子乃至篇章的分布式語義提供了有效的建模手段; 編碼器-解碼器架 構和注意力機制提升了文本生成的能力; 相比傳統自然語言處理所遵循的詞法-句法-語義-語篇-語用 分析級聯式處理架構, 端到端的神經網絡訓練方法減少了錯誤傳播, 極大提升了下游任務的性能. 不 過, 神經網絡方法仍然遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計深度學習模型, 通 過最小化損失函數來學習模型參數. 由于深度學習也是一種機器學習方法, 因此從某種程度上, 基于 神經網絡的方法和基于機器學習的方法并無本質區別. 然而, 不同于通常的深度學習方法, 以 ChatGPT 為代表的生成式大模型, 除了能高質量完成自 然語言生成類任務之外, 還具備以生成式框架完成各種開放域自然語言理解任務的能力. 只需要將 模型輸出轉換為任務特定的輸出格式, 無需針對特定任務標注大量的訓練數據, ChatGPT 即可在少 樣本乃至零樣本上, 達到令人滿意的性能, 甚至可在某些任務上超過了特別設計并使用監督數據進行 訓練的模型. 因此, ChatGPT 對各種自然語言處理核心任務帶來了巨大的, 不可避免的沖擊和影響, 也醞釀著新的研究機遇. 接下來, 針對各種自然語言處理核心任務, 我們將首先介紹其任務需求和主 流方法, 然后分析大模型對其主流研究范式所帶來的影響, 并探討未來研究趨勢.

-本分類 * 結構化預測 * 語義分析 * 知識圖譜與文本信息抽取 * 情感計算 * 文本生成 * 自動文摘 * 機器翻譯 * 對話系統 * 信息檢索 * 自動問答

ChatGPT 等大型語言模型, 對文本分類, 結構分析, 語義分析, 信 息提取, 知識圖譜, 情感計算, 文本生成, 自動文摘, 機器翻譯, 對話系統, 信息檢索和自動問答各種核 心的自然語言理解和生成任務均產生了巨大的沖擊和影響. ChatGPT 在大規模預訓練過程中習得廣泛的語言和世界知識, 處理自然語言任務時不僅能在少 樣本, 零樣本場景下接近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 這將激 勵, 促進研究者們打破固有思維方式的樊籬, 學習, 借鑒 ChatGPT 等大模型的特點和優勢, 對自然 語言處理的主流研究范式進行變革, 進一步提升自然語言核心任務的能力, 例如以生成式框架完成各 種開放域自然語言處理任務并減少級聯損失, 通過多任務學習促進知識共享, 通過擴展上下文窗口提 升理解能力, 通過指令遵循和上下文學習從大模型有效提取信息, 通過思維鏈提升問題拆解和推理能 力, 通過基于人類反饋的強化學習實現和人類意圖對齊等. 長期以來, 自然語言處理分為自然語言理解和自然語言生成兩個領域, 每個領域各有多種核心任 務, 每種任務又可根據任務形式, 目標, 數據等進一步細分, 今后在各種應用任務的主流架構和范式 逐漸統一的情況下, 有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作. 另一方面, 基于大模型的強大基座能力, 針對具體任務進行按需適配, 數據增強, 個性化, 擬人交互, 可 進一步拓展自然語言處理的應用場景, 為各行各業提供更好的服務.

**4 大模型時代的自然語言處理共性問題 **

在自然語言處理研究領域中, 除了各種核心任務之外, 還有可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質量和評價等一些共性問題. 這些問題不是某種任務所特有的, 而是廣泛存在于各種自然 語言理解和生成任務中. 圍繞這些共性問題進行針對性研究, 分析其成因和機理, 設計應對措施, 對 確保自然語言處理任務的性能, 效率, 穩定性和領域適用性至關重要. 大模型自身同樣存在著自然語言處理的共性問題, 如模型可控性, 多樣性, 魯棒性和可解釋性仍 需提升, 訓練和使用成本過高, 語言數據質量缺乏保障, 評價方法單一等. ChatGPT 的一項亮點技 術是 “與人類意圖對齊”, 其目的除了理解用戶意圖之外, 還需要拒絕不合理的請求, 給出負責的, 合 乎人類道德準則和倫理規范的答案. 由于大模型的結構復雜, 參數龐大, 生成過程難以解釋, 生成文 本時經常面臨幻覺生成, 錯誤知識, 前后不一致等問題, 人們對于從系統獲取信息的準確性無從感知, 給系統的廣泛實際應用帶來了極大的潛在風險. 因此, 如何提升模型的公平性, 無害性, 有益性和魯 棒性, 確保大模型擁有正確的價值觀, 保障大模型生成內容的信息準確性變得愈發重要. 隨著以 GPT-3 為代表的大模型技術逐漸發展, 模型的參數數量, 計算時延, 訓練所需的資源等 都在顯著增加. 在語言建模能力不斷增長的同時, 模型的計算成本與能耗指標也成為當前大模型成 功應用的一大門檻. 大規模高質量文本數據資源在模型的構建過程中扮演了極其重要的作用, 訓練數據規模越大, 種 類越豐富, 質量越高, 所得到的大規模語言模型的性能越好, 而訓練數據中的瑕疵數據, 可能會對模 型的表現產生負面影響; 相較于以前的單一類型或少數任務驅動的基準評測, 針對大規模語言模型的 評測需覆蓋的問題場景范圍更廣, 復雜度更高, 難度也更大, 需要探索更有效合理的任務評價指標. 總之, 這些由大模型所強化的真實需求, 將極大地加強模型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等各種共性問題的研究熱度.

**5 討論 **

**

**

前兩節我們探討了大模型對各種自然語言理解和生成核心任務將帶來哪些沖擊和影響, 分析了 大模型將如何加強自然語言處理共性問題的研究. 本節首先將聚焦大模型自身, 探究如何從模型規 模, 學習方法, 個性化等角度進一步提升大模型的內在能力; 其次, 從工具學習, 多模態, 具身智能的 角度, 討論如何進一步延伸和擴展大模型的感知, 計算, 推理, 交互和控制能力, 使大模型成為通用人 工智能的基座; 最后, 介紹 ChatGPT 等大型語言模型將催生哪些應用場景, 為各行各業帶來哪些自 然語言處理新應用.

**6 總結與展望 **

綜上所述, ChatGPT 等大型語言模型, 對傳統自然語言處理核心任務產生了巨大的沖擊和影響. 這些核心任務普遍遵循監督學習范式, 需要針對特定任務, 給定監督數據, 設計和定制機器學習和深 度學習模型. 相比之下, 利用 ChatGPT 完成自然語言處理任務, 不僅能在少樣本, 零樣本場景下接 近乃至達到傳統監督學習方法的性能指標, 且具有較強的領域泛化性. 雖然如此, 面對大型語言模型所帶來的沖擊, 研究者們完全無需產生 “自然語言處理已經不存在 了” 等悲觀情緒. 首先, ChatGPT 等對話式大模型, 并非橫空出世, 而是沿著神經語言模型的發展路 線, 利用海量算力, 基于大規模高質量文本數據所實現的大型全注意力模型. 未來研究者們能夠將大 模型作為研究方法和手段, 更能夠學習, 借鑒生成式無監督預訓練, 多任務學習, 上下文學習, 指令遵 循, 思維鏈, 基于人類反饋的強化學習等大型語言模型的特點和優勢, 進一步提升自然語言核心任務 的能力.

大模型為自然語言處理帶來了架構通用化, 任務統一化, 能力按需化, 模型定制化等變化趨勢. 今后在各種自然語言理解和生成任務的主流架構和范式逐漸統一的情況下, 一方面,各種自然語言 處理任務有望進一步得到整合, 以增強自然語言處理模型的通用性, 減少重復性工作; 另一方面, 基 于大模型的強大基礎能力, 針對具體任務進行按需適配, 數據增強, 模型壓縮與輕量化, 跨模態和多 模態融合, 加強自然語言處理模型方法的可控性, 可配性, 領域適應性, 多樣性, 個性化和交互能力, 將進一步拓展自然語言處理的應用場景.

大模型時代的自然語言處理, 存在算法模型的可解釋性, 公平性, 安全性, 可靠性, 能耗, 數據質 量和評價等一些共性問題, 這些問題也是妨礙大模型能力提升和服務質量的主要因素. 未來, 針對模 型分析和可解釋性, 倫理問題與安全性, 信息準確性, 計算成本與能源消耗, 數據資源和模型評價等 各種自然語言處理共性問題的研究將越來越深入.

自然語言處理是人工智能的重要組成部分, 是人工智能從感知智能上升到認知智能的主要手段. ChatGPT 的出現, 已經打開了通向通用人工智能的大門. 未來, 以大模型作為基座, 利用工具學習, 多模態融合, 具身智能拓展其感知, 計算, 推理, 交互和控制能力, 自然語言處理技術將進一步助力通 用人工智能的發展, 促進各行各業的生產力進步, 更好地為人類社會服務.

付費5元查看完整內容

關于AIGC,一面享受其好處,一面則需管控好。

人工智能生成內容(AIGC)是人工智能發展的最新成果之一。相關應用生成的內容,如文本、圖像和音頻,已經引發了熱烈的討論。各種衍生的AIGC應用也逐漸進入了生活的各個領域,對人們的日常生活帶來了難以想象的影響。然而,這種生成工具的快速發展也引發了對AIGC中的隱私和安全問題,甚至是版權問題的關注。我們注意到,像區塊鏈和隱私計算這樣的先進技術可以與AIGC工具結合,但是還沒有工作去系統化和詳細地研究他們的相關性和前景。因此,有必要通過充分探索上述技術,研究它們如何用于保護AIGC中數據的隱私和安全。在這篇論文中,我們首先系統地回顧了AIGC的概念、分類和底層技術。然后,我們從多個角度討論了AIGC面臨的隱私和安全挑戰,并有針對性地列出了目前存在的對策。我們希望我們的綜述能幫助研究人員和行業建立一個更安全、更穩健的AIGC系統。

1. 引言

人工智能生成內容(AIGC)指的是使用先進的生成式人工智能(GAI)技術進行內容生成,這可以在短時間內自動創建大量內容。這一章簡要介紹了AIGC的應用及其歷史,并強調在AIGC背景下討論數據安全和隱私保護的重要性。

人工智能生成內容(AIGC)是一種使用人工智能技術生成圖像、文本、音頻和其他內容的新方法。AIGC采用深度學習、生成對抗網絡(GAN)或變分自編碼器(VAE)等技術,從大規模數據集中學習數據的潛在分布,從而生成逼真、高質量的新數據。近年來,AIGC發展迅速,而在2022年引起廣泛關注的ChatGPT [158]在人機交互、對話和輸出生成文本等應用方面具有強大的性能。原則上,ChatGPT是基于大型語言模型(LLM)[121]的機器學習系統,這是一個擁有數千億參數的LLM。經過大量文本數據集的訓練,ChatGPT能夠完成更合理的對話,并能創建具有獨特風格的文本。在圖像生成方面,如穩定擴散[2]、Midjourney[1]都有良好的表現,它們是擴散模型[45, 89]的應用,給定提示文本,可以生成與提示文本要求一致的新圖像。StyleGAN [103]也是一種優秀的生成模型,它基于GAN的結構,用于圖像生成、藝術和設計。AIGC模型的基本步驟與預訓練大型模型[121]相同。首先,收集數據并完成數據預處理步驟。然后在訓練數據集的幫助下完成模型的訓練,根據不同的要求對模型進行微調,然后推斷模型的效果。最后,進行模型的發布階段,發布預訓練模型。在數據收集的第一步中,最容易出現數據安全和隱私問題,模型開發者可能使用一些未經授權的數據來完成模型的訓練,導致數據泄露問題。

AIGC的發展離不開計算能力的提升和深度學習的持續研究。AIGC發展的歷史大致可以分為三個階段:

? 早期萌芽階段:在此階段,學者們已經探索了生成模型以及計算機生成的內容。1957年,世界上第一部計算機創作的音樂作品Illiac Suite出現。在1960年代,Joseph Weizenbaum編寫了世界上第一個聊天機器人Eliza,它能夠回答人們的問題。這些都是智能內容生成的有意義的早期嘗試,但由于在1980年代末和1990年代中期的高成本和商業化難度,因此資本投入有限,導致在AIGC方面沒有重大成就。

? 沉淀和積累階段:在20世紀初,深度學習發展迅速,提出了卷積神經網絡(CNNs)等深度學習算法來解決圖像分類、圖像分割等許多問題。同時,GPU、CPU等算術設備日益精密,互聯網也處于快速發展階段,為訓練各種人工智能算法提供了大量數據。

? 高速發展階段:2014年,GAN [75]的出現為生成內容提供了一種高效可行的網絡,這再次激起了對AIGC的興趣。這個階段是前兩個階段AIGC發展的延續,主要基于預訓練大型模型。2018年,NVIDIA發布了用于自動圖像生成的StyleGAN [103],2019年,DeepMind發布了用于連續視頻生成的DVD-GAN [43]。2021年,Open AI推出了DALL-E [169]和更新迭代版本的DALLE-2 [168],主要用于文本和圖像的交互式內容生成。特別是在2022年底,OpenAI發布了基于GPT3的聊天機器人應用ChatGPT,再次引發了廣泛的討論和熱烈的關注。

AIGC基于人工智能技術生成內容以滿足用戶的需求,是對傳統內容創作方法如專業生成內容(PGC)和用戶生成內容(UGC)[116, 224]的補充。在PGC時代,生產優質內容需要很長的時間。在UGC時代,每個人都可以作為用戶在線發布自己的創作,但是創作者的水平各不相同,輸出內容的質量難以保證。AIGC可以在數量和質量上克服PGC和UGC的短板,生成大量的內容,同時在學習后能夠輸出保證質量的內容。

1.2 AIGC中的安全性和隱私性的緊迫性

盡管AIGC模型因其強大的內容生成能力和效率而引起了全世界的關注,但對于其實際的大規模使用仍然存在擔憂,即,使用AIGC服務可能會引發安全性或隱私問題。可能來自AIGC的問題包括:用戶的輸入數據泄漏、模型攻擊、數據爬取和生成內容的不安全性。

1.2.1 相關法律和規定。近年來,世界各國都提出了關于AIGC使用及由此產生的數據安全和隱私問題的法律和規定。Chatgpt的普及標志著AIGC模型的蓬勃發展。AIGC模型的快速發展及其強大的生成能力使各國更加關注數據安全和隱私問題。用于訓練AIGC模型的數據可能包含敏感信息,如個人身份信息、醫療記錄和財務信息。如果這些敏感信息泄漏,將給個人和組織帶來巨大的風險。在數據安全方面,歐盟在2018年頒布了通用數據保護條例(GDPR) [3],這是一項新的歐盟關于收集、處理和存儲個人數據的規定。2019年,英國航空公司因違反GDPR公開用戶信息而被罰款近2億英鎊。GDPR是保護個人對其信息的權利并確保信息在使用過程中不被泄露的重要法律依據。此外,中國陸續頒布了數據安全法、個人信息保護法、網絡安全法,以確保個人數據在網絡流通過程中的安全性。2022年,中國頒布了《數據20條》,提出構建以數據為基礎的制度,以更好地發揮數據要素的作用,并規范正確使用數據要素。對于AIGC,各國已經注意到其強大的生成能力,因此提出了對其使用的限制。2018年,中國信息通信研究院發布了關于AIGC的白皮書,肯定了AIGC是邁向數字文明新時代的不可或缺的支持力量,并從政府、行業、企業、社會等方面對AIGC的發展給出了建議。2023年,中國互聯網信息辦公室發布了《關于征求生成式人工智能服務管理辦法(征求意見稿)意見的通知》,提出了從各個方面規范使用AIGC算法,保護用戶的權益和數據安全.

1.2.2 技術視角

除了每個國家發布的相關法律和規定,從技術的角度看,可能出現許多來自AIGC的隱私和安全問題,隱私安全受到威脅的可能性持續增加。因此,迫切需要提出解決方案,以保護在AIGC下的數據隱私安全。

? 深度偽造技術:AIGC的快速發展引發了對深度偽造技術[220]的擔憂,該技術使用基于AI的技術生成接近真實的照片、電影或音頻,這些可以用來描述不存在的事件或個人。深度偽造技術的出現使得篡改或生成高度真實且無法區分的音頻和視頻內容成為可能,這最終無法被觀察者的肉眼區分。一方面,偽造的內容可以誤導其他人相信生成的假信息,如果不防止,肯定會給國家安全、公民和企業的權益帶來新的風險,并在社會發展中引發潛在的危機。另一方面,偽造的內容對個人隱私和安全構成潛在威脅,例如,惡意用戶可以使用這些圖像進行欺詐和其他非法活動。

? 不夠好的內容:不夠好的內容意味著內容不夠真實或甚至有毒。當AI生成的內容不夠真實時,很容易讓用戶認為AIGC生成能力有限,并對AIGC模型本身產生負面印象,這阻礙了AIGC模型的發展。當AI生成的內容是有毒的,它可能對人類的認知產生影響,這涉及到道德和倫理問題。倫理是AIGC技術發展中不能忽視的一個方面,涉及到AI和人類社會之間的價值觀、道德、法律觀念等問題。AI生成內容的潛在毒性是指AI生成的內容存在偏見,即,AIGC可能生成違反社會價值的內容,因此它很容易成為許多惡意人士的工具。

? 易受攻擊的模型:惡意用戶可以利用AIGC模型的漏洞攻擊模型,并向輸入數據中添加有意的干擾信號以欺騙AIGC模型的行為。這可能導致模型生成錯誤的輸出,或者以有意的方式生成誤導信息。并且,使用模型反向傳播攻擊也可能從一些輸出中推斷出用于模型原始訓練的數據,這可以引發

1.3 貢獻

在這篇調查報告中,我們提供了AIGC的介紹,AIGC中的安全和隱私問題,以及我們提出的解決方案。這項調查的貢獻如下: ? 我們回顧并總結了AIGC的定義和分類,并列舉了其背景技術、基本模型和應用等。我們強調了在這個領域解決隱私和安全問題的緊迫性。

? 我們從流通數據的隱私、生成內容的安全、以及惡意用戶的威脅等角度,分析了AIGC面臨的隱私和安全挑戰。我們通過具體的例子,特別是關注AIGC中的版權問題,說明了這些在AIGC中的挑戰對用戶安全所構成的重大威脅。

? 我們全面總結了AIGC中隱私保護和數據安全的當前狀況,并研究了各種可用的應對策略,以及這些方法的優點和缺點。

? 我們首次系統地討論了區塊鏈和隱私計算在提高AIGC安全性中的重要作用,提供了一些示例案例,其中結合了區塊鏈、聯邦學習和數字水印等技術與AIGC,并揭示了它們在解決AIGC數據隱私、內容安全和知識產權問題方面的巨大潛力。

2 初步和相關技術

在這一部分,我們將介紹關于AIGC技術的背景和詳細信息。具體來說,我們將探討AIGC的定義,它的流行模型和應用,以及可能在AIGC中使用的隱私和安全技術。

AIGC,人工智能生成內容,是通過生成模型通過用戶的輸入輸出的內容。近年來,AIGC開始被視為與PGC和UGC并列的新型內容創作方式。AIGC可以從人類創作的無數作品中學習到底層的藝術風格和創造性模式,因此AIGC模型可以基于此生成更多樣化和真實感強的內容。最近,基于Diffusion Model的穩定擴散在圖像生成上的強大能力,以及基于Transformer模型的ChatGPT在文本生成上的表現,使AIGC得到了極大的關注。

在大數據時代,數據安全和隱私保護問題是無法避免的,特別是在AIGC盛行的情況下,這些問題將變得更為嚴重。本節將簡要介紹四種相關技術,它們可以用來解決AIGC中的數據安全和隱私保護問題。

3 挑戰

從前一節我們可以知道,作為一種新興的內容生成方法,AIGC正在越來越多的領域得到使用。然而,如圖2所示,AIGC中存在一些隱私和安全的挑戰。生成型AI模型可能會利用用戶數據作為進一步迭代的訓練數據,這引起了關于用戶數據隱私的重大關注。此外,由生成型AI模型生成的內容難以控制,可能含有虛假和欺騙性的內容,對用戶給予錯誤的引導,或者含有歧視性和偏見性的內容,可能導致不良的社會影響。生成型AI模型本身也可能被惡意用戶攻擊,導致一些隱私和安全問題。在本節中,我們將介紹AIGC中的隱私和安全挑戰,這些是在AIGC的實際應用中不可忽視的重要問題。

4 應對措施

從第三節的描述中我們可以清楚地看到,生成式AI正在迅速發展,并且與人類社會的聯系越來越密切。這種發展趨勢也暴露出AIGC的隱私和安全問題。因此,如何將現有的隱私計算和各種安全技術應用到生成式AI成為了今天必須面對的主題。數據的隱私和安全是讓AIGC更好地服務于人類社會的關鍵之一。只有正確處理由AIGC帶來的隱私和安全問題,我們才能推動生成式AI的可持續發展。在下文中,我們將描述現有的用于生成式AI中的隱私保護和保障數據安全的技術。

5 開放性問題與未來方向

AIGC中的隱私和安全問題引起了很多關注。盡管從不同的角度出發,已經有許多解決方案,但如何捍衛AIGC模型的數據安全仍然是一個遠未完全探索的領域。我們從新的場景、可能的技術等幾個角度,展望AIGC隱私和安全的未來方向。 5.1高危場景 5.2及時性 5.3可持續發展 5.4公平 5.5 AIGC遇到新興領域

6 結論

隨著ChatGPT等大模型驅動的AIGC服務進入人們的日常生活,它們給用戶帶來的隱私和安全問題逐漸顯現并成為AIGC時代亟待解決的問題之一。我們首先對AIGC的定義、分類和通用技術進行了簡要介紹,同時強調了保護AIGC的隱私和安全的緊迫性,指出隱私計算等技術可以與AIGC模型相結合。然后,我們從流通數據的隱私、生成內容的安全、版權和惡意用戶的威脅等幾個角度描述了AIGC當前面臨的挑戰。我們把研究重點放在了AIGC隱私和安全的解決方案上,運用了區塊鏈、聯邦學習、數字水印、差分隱私等技術。它們為解決包括AIGC工具在內的生成模型的隱私和安全問題提供了豐富的解決方案。然而,目前在AIGC中解決隱私和安全問題的方案還不夠成熟,大模型的快速發展為AI領域帶來了許多新的挑戰。我們在論文的最后討論了一些開放性問題和可能的AIGC隱私和安全的未來方向。我們希望這篇綜述能為AIGC的隱私和安全問題提供一個概覽,并為學術界和工業界如何更好地利用AIGC提供新的思路。

付費5元查看完整內容

AIGC發展過程:AI自行生成內容

  AIGC(ArtificialIntelligenceGeneratedContent)指的是人工智能系統生成的內容,通常是文字、圖像、音頻或視頻。這類內容可以通過自然語言處理,機器學習和計算機視覺等技術生成,即生成式AI。AI最初設立的目的是讓機器像人類一樣思考解決問題。目前AI的總體目的是通過各種算法解決問題提高生產效率。

  AIGC多樣化的內容生成能力使其覆蓋各類內容形式,各類應用場景正隨技術進步逐漸落地。AIGC不僅可覆蓋文本、音頻、圖像、視頻等基本內容模態,還可綜合圖像、視頻、文本進行跨模態生成,并應用于各類細分行業成為具體的生產力要素,例如游戲行業中的AI、NPC、虛擬人的視頻制作與生成等。

  AIGC發展過程:GPT助力,進入黃金期

  ChatGPT的發展帶動了文字類AI生成,或將在2023年進入黃金時期,圖片類AI生成黃金時期將在2025年左右抵達,3D和視頻類AI生成在2023年可能正處于草稿階段,進入黃金時期或許在2030年。

  AIGC產業應用,如在制造業、建筑業等巨型垂直實體領域中,AIGC的C/Content內容將不僅停留在圖片和文字的領域,而是進入信息更為豐富的領域。

付費5元查看完整內容

生成預訓練變換器(GPT)在自然語言處理領域代表了一項顯著的突破,它正在推動我們向開發能夠以接近人類的方式理解和使用語言的機器發展。GPT基于變換器架構,這是一種為自然語言處理任務設計的深度神經網絡。由于它們在自然語言處理任務上的卓越表現以及有效的對話能力,GPT在研究者和工業界得到了顯著的關注,使它們成為自然語言處理及相關領域中最廣泛使用和最有效的模型之一,這促使我們進行了這項調研。這篇綜述為GPT提供了詳細的概述,包括它的架構、工作過程、訓練程序、啟用技術以及它對各種應用的影響。在這篇綜述中,我們也探討了GPT的潛在挑戰和限制。此外,我們討論了可能的解決方案和未來的方向。總的來說,這篇文章旨在提供對GPT、啟用技術、它們對各種應用的影響、新出現的挑戰以及潛在解決方案的全面理解。 1. 引言

語言是人類交流的基石,對于塑造我們與世界的互動起著至關重要的作用。隨著自然語言處理(NLP)的出現,我們與機器交互的方式發生了革命性的變化。NLP已經成為通信世界的游戲規則改變者,使人類能夠以更自然的方式與機器互動。NLP的發展受到了互聯網文本數據指數級增長的推動。多年來,NLP從簡單的基于規則的系統發展到復雜的基于深度學習的模型。盡管有了進步,但由于人類語言的復雜性,自然語言理解和生成一直是NLP領域的一個挑戰。然而,最近的進步為解決這些挑戰開辟了新的途徑。NLP的一項突破是GPT [1]的開發。GPT在OpenAI發布ChatGPT后走紅,OpenAI是一家專注于開發AI技術的研究公司[2]。GPT是一個深度學習模型,它在大量的文本數據上進行預訓練,可以針對特定的任務進行微調,如語言生成、情感分析、語言建模、機器翻譯和文本分類。GPT使用的變換器架構是對NLP以往方法的重大進步,如RNN和CNN。它使用自注意力機制,使模型在生成下一個詞時考慮整個句子的上下文,這提高了模型理解和生成語言的能力。解碼器負責根據輸入表示生成輸出文本[3]。 GPT能夠執行NLP中的廣泛任務。其主要優勢之一在于自然語言理解(NLU),其中它可以分析和理解文本的含義,包括識別句子中的實體和關系。它也擅長自然語言生成(NLG),這意味著它可以創建文本輸出,如創作創新內容或以全面且有信息性的方式回答問題。另外,GPT也是代碼生成器,可以編寫各種語言(如Python或JavaScript)的編程代碼。GPT也可以用于問答,這意味著它可以提供關于事實性主題的概括,或者根據輸入文本創作故事。此外,GPT可以總結一段文本,如提供新聞文章或研究論文的簡要概述,它也可以用于翻譯,使得能夠將文本從一種語言翻譯為另一種語言。總的來說,GPT能夠以高精度和準確度執行廣泛的NLP任務,使其成為各種行業(包括金融、醫療保健、市場營銷等)中的無價工具。隨著NLP技術的不斷進步,我們可以預見GPT和其他語言模型將變得更加復雜和強大,使我們能夠更自然、更有效地與機器交流。 **A. 動機 **

GPT已經成為NLP領域的一種變革性技術,推動了廣泛行業和應用的快速發展和增長。盡管GPT得到了廣泛的采用,并有許多潛在的應用,但關于GPT的能力仍有許多需要探索和理解的地方。盡管在與學術和圖書館[4]、教育[5]、GPT模型[6]、銀行和企業通信[7]、chatGPT及其版本的進步[8]、以及生成AI[9]相關的文獻中有關于GPT的研究,但并沒有現有的評論致力于對GPT進行全面的調查。因此,有必要進行一項全面的評論,重點是GPT的架構、啟用技術、潛在應用、新出現的挑戰、有趣的項目和未來的方向。這些限制促使我們進行了這項審查。因此,這篇審查不僅將幫助這個領域的研究者和實踐者更好地理解GPT,而且在進行研究時,還將提供關于其潛在應用和主要限制的寶貴見解。 在這篇關于GPT的綜述中,我們使用各種可靠的來源進行了深入的文獻審查。我們的搜索主要集中在經過同行評審的期刊,以及來自知名國內和國際會議、研討會、書籍、座談會和期刊的高質量文章。為了確保我們的來源的可信度,我們參考了像Google Scholar和arXiv這樣知名的檔案庫,以及來自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等頂級數據庫的出版物。為了找到相關的GPT引用和出版物,我們使用了如NLPGPT、GPT架構、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直應用等關鍵詞。然后,我們根據所有檢索到的文章的標題進行篩選,排除了任何質量較差的論文。接下來,我們審查了剩下的文章的摘要,以確定它們的貢獻。在我們的文獻審查的最后一步,我們提取了分析所需的必要數據。通過遵循這些步驟,我們確保了我們的研究基于高質量和可信的來源。

2. GPT

A. GPT演化

GPT模型經歷了NLP技術中的多次變化和突破。以下是GPT模型發展中的一些重大轉折點:在GPT之前,NLP模型已經在與特定任務相關的大量標注數據上進行了訓練。這有一個重大的缺點,因為很難獲得用于精確訓練模型所需的標注數據量。由于NLP模型被限制在特定的數據集上,所以它們無法完成訓練集以外的任務。為了解決這些限制,OpenAI提供了一個名為GPT-1的生成式語言模型,該模型使用未標記的數據創建,然后提供給用戶進行微調,以完成后續的任務,如情感分析、分類和問答[18]。這表明該模型試圖根據輸入產生適當的響應,而且用于訓練模型的數據沒有標記[19]。圖2顯示了從1960年創建的Eliza到2022年更為當前的ChatGPT,幾個預訓練模型的演變時間線。GPT-1是第一個能夠閱讀文本并回答查詢的模型[20]。OpenAI在2018年發布了GPT-1。GPT1是AI發展的一個重要步驟,因為它使計算機能夠比以前更自然地理解文本材料。這種生成性語言模型能夠學習各種各樣的連接,并在連續的文本和長篇大論的語料庫上獲得大量知識[21]。這發生在在大型BooksCorpus數據集上訓練之后。在設計方面,GPT-1使用一個12層解碼器架構的變換器,帶有自我注意機制進行訓練。GPT-1能夠在不同任務上執行零射擊性能,這是由于其預訓練而取得的一項重大成功。這種能力證明,當將生成性語言建模與成功的預訓練思想結合起來時,可以用來推廣模型。以TL為基礎,GPT模型發展成為一種強大的工具,可以在微調最少的情況下執行NLP任務[22]。它為其他模型使用更大的數據集和參數在生成性預訓練中取得更大的進步鋪平了道路[18]。

為了在2019年后期創建一個更好的語言模型,OpenAI使用更大的數據集和更多的參數創建了GPT-2。GPT-2的模型設計和執行是一些關鍵的進步[23]。它擁有15億個參數,是GPT-1(1.17億個參數)的10倍,它的參數和數據量也是GPT-1的10倍[21]。通過僅使用原始文本作為輸入,并利用很少或沒有訓練樣本,它在解決與翻譯、總結等相關的各種語言任務方面非常有效。在各種下游任務數據集上對GPT-2進行評估,發現它在識別長距離關系和預測句子方面表現出色,顯著提高了準確性[24]。最近的GPT模型迭代版本是GPT-3。這是由OpenAI創建的一個大型語言預測和生成模型,可以生成源文本的長篇段落。GPT-3最終成為OpenAI的突破性AI語言軟件。簡單來說,它是一種可以自己創建行的軟件,這些行非常獨特,幾乎聽起來像是由人類編寫的[25]。GPT-3程序目前通過云基礎設施API提供有限的訪問,需要訪問權限來調查其功能。自從它的首次亮相以來,它已經產生了一些有趣的應用。其容量約為1750億個參數,比GPT-2大100倍,這是一個關鍵優勢。它使用從大型內容存檔和互聯網收集的5000億詞的語料庫"Common Crawl"進行教學[26]。其其他值得注意和意想不到的能力是進行基本的數學運算,編寫代碼片段,和執行聰明的任務。因此,NLP模型可以通過更快地響應請求和精確地保持最佳實踐,同時減少人為錯誤,來幫助企業[27]。由于其復雜性和大小,許多學者和作家都將其稱為最終的黑箱AI方法。由于執行推理的高成本和不便,以及億參數的大小使其資源密集型,因此很難在工作中實踐[24]。GPT-4被命名為GPT-3的繼任者。與此同時,OpenAI已經秘密地發布了幾個基于GPT-3.5的AI模型,這是GPT-3的更新版本[28]。

GPT-3.5是在文本和代碼的混合上進行訓練的。它從互聯網收集的大量數據中學習了單詞、句子和各種組件之間的關系,這些數據包括成千上萬的維基百科條目、社交媒體帖子和新聞項目。OpenAI利用GPT-3.5開發了幾個定制的系統,以完成特定的工作[26]。它從網上收集了大量數據,包括成千上萬的維基百科條目、社交媒體帖子和新聞項目,并利用這些信息學習了句子、單詞和單詞組成部分之間的關系[29]。 OpenAI的GPT模型的最新版本是GPT-4,這是一個多模態的大型語言模型。它于2023年3月14日推出,并通過ChatGPT Plus向公眾提供有限的訪問。需要排隊等待獲得商業API的訪問權限[10]。GPT-4在預訓練階段,使用公共數據和“來自第三方供應商的許可數據”,預測下一個詞。然后,基于人類和AI的輸入,通過強化學習進行調整,以實現人類對齊和政策符合。與GPT-3的上下文窗口只有4096和2049個tokens不同,該團隊創建了兩個版本的GPT-4,其上下文窗口分別為8192和32768個tokens。

B. GPT模型架構

GPT模型基于用于NLP任務的神經網絡,如語言建模,文本分類和文本生成。GPT模型的架構基于變壓器模型[30]。Transformer模型使用自注意機制處理可變長度的輸入序列,使其非常適合NLP任務。GPT通過用解碼器塊替代編碼器-解碼器塊簡化了架構。GPT模型采用Transformer模型,并使用無監督學習技術在大量文本數據上進行預訓練。預訓練過程涉及預測序列中給定前面單詞的下一個單詞,這是一項稱為語言建模的任務。這種預訓練過程使模型能夠學習可以針對特定下游任務進行微調的自然語言表示[31]。

C GPT 模型如何工作

GPT模型通過使用Transformer這種神經網絡架構處理自然語言文本的輸入序列來工作[38]。GPT模型使用無監督學習技術在大量的文本輸入上預訓練這種Transformer架構[39]。在預訓練過程中,模型獲得了根據前面的詞預測序列中下一個詞的能力。語言建模是一種過程,使模型能夠發現訓練數據中詞與其上下文之間的統計關系。圖5展示了GPT操作的各個階段。第一步包括有監督的微調,第二步涉及對輸入產生最優反應,第三步涉及近似策略優化和強化學習。預訓練后,模型可以針對特定任務進行微調,如文本分類或文本生成。在微調過程中,模型在特定于手頭工作的較小數據集上進行訓練,并改變模型的參數以最大化該任務的性能[8]。圖3展示了GPT的一般Transformer架構。當用于文本生成時,GPT模型通過預測基于之前生成的詞的系列中的下一個詞來創建文本。根據其被修改的方式,模型可以生成與輸入文本相似的文本,或者符合某種主題或風格的文本。圖4展示了GPT模型的Transformer架構和用于微調不同任務的輸入變換。

D. GPT版本比較

GPT模型有幾個版本,每個版本都有自己的特性和功能。表III列出了各種GPT模型版本的比較。表中展示了以下細節,如GPT模型的發布年份、參數、生成的標記、輸入類型、每個模型的特性、每個模型的缺點,以及每個模型的大小。生成型AI(GAI)模型有不同的類型,如單模態、交叉模態和多模態。第一種類型是單模態,依賴于單一類型的輸入,如文本或圖像。另一方面,交叉模態可以處理多種類型的輸入并將它們關聯起來。多模態是最復雜的AI類型,因為它可以處理和整合來自多種模態的信息,如語音、文本、圖像,甚至是與環境的物理交互。GPT只采用單模態和多模態類型,其中ChatGPT被認為是單模態,而GPT-4是多模態。圖6是一個插圖,區分了單模態、交叉模態和多模態生成AI模型。 總的來說,GPT模型在NLP方面表現出了出色的性能,通過增強每一次迭代和其前身的能力。然而,每個模型也有自己的限制和缺點,如輸出控制的限制、缺乏多樣化的數據和倫理問題。在為特定任務選擇GPT模型時,研究者和開發者應謹慎考慮這些因素[40]。具體來說,本節描述了GPT的演變、架構,并比較了不同版本和類型的GPT。

III. 使能技術

GPT是多種技術的匯聚。它借助了最新的技術,如大數據、人工智能、云計算、EC、5G及以后的網絡,以及人機交互。在這一部分,我們將提供與GPT相關的啟用技術的概述。構成GPT模型的主要技術在圖7中展示。

IV. GPT模型對各種應用的影響

GPT已經取得了顯著的進步,它的影響正在教育、醫療保健、工業、農業、旅游和運輸、電子商務、娛樂、生活方式、游戲、市場營銷和金融等各個行業中被感知到。這一部分將提供有關GPT模型在上述應用中的影響的寶貴見解,如圖8所示。

本節將介紹使用GPT模型技術開發的用于上述部分中提到的不同應用的激動人心的項目。表IV,表V顯示了這些項目的不同級別,以及用于比較他們在許多實際應用中的能力的不同參數。

VI. 開放的研究問題和未來方向

本節強調了與實施和采用可持續GPT模型相關的各種開放研究問題。它還為GPT開發領域的研究人員提供了對未來研究方向的深入了解。圖9概述了在使用GPT模型時可能出現的許多問題,以及需要考慮的各種未來方法,以便有效地使用GPT模型。

VII.結論

GPT和其他大型語言模型的影響深遠而深刻。隨著這些技術的不斷發展和改進,它們有可能改變我們與技術和彼此互動的方式。從個性化推薦和客戶服務到語言翻譯和文本生成,可能性是無窮的。然而,就像任何技術一樣,必須解決可能出現的道德和社會問題。隨著我們越來越依賴這些語言模型,我們必須確保我們正在負責任地使用這些工具,并考慮它們對整個社會的影響。這包括與訓練模型所使用的數據偏見、保護隱私和安全、理解人類創造力的含義以及可能對就業和工作流動的影響等相關的挑戰。我們需要繼續評估和反思GPT和其他語言模型的影響,以確保它們的使用方式對整個社會都有益。通過這樣做,我們可以幫助確保這些技術被充分利用,同時最大程度地減少它們可能產生的任何負面影響。

付費5元查看完整內容

 1、ChatGPT火爆的背后:算法革新+算力支持+數據共振   ChatGPT引起全球熱烈反響,上線僅五天用戶突破百萬,ChatGPT在文本交互和語言理解方面能力的顯著進步或為通用人工智能的實現帶來曙光。究其先進性根本,ChatGPT在以往基礎上推進算法革新優化,輔以強大算力支持,并以大規模數據共振,協同助推這一劃時代產品誕生。OpenAI以B端提供API接口流量+C端訂閱收費模式,探索ChatGPT商業化路徑。展望未來AI將橫縱向并行,結合技術深化與能力邊界拓展,進一步鋪開應用面。   2、數字內容生產新方式——AIGC   AIGC的興起推動人類叩響強人工智能之門,可應用于文本、音頻、圖片、視頻、跨模態、策略生成等,有望開啟新一輪內容生產力革命。隨著Transformer、DiffusionModel等算力模型的迭代,推動AIGC在設計、內容創作、游戲智能、機器交互等領域實現降本增效。   3、新時代生產力工具,AIGC賦能內容生產   基于AI生成內容技術,AIGC已在游戲、廣告營銷、影視、媒體、互聯網、娛樂等領域初顯成效,并展現出較大的潛力。   AIGC將推動游戲生產范式升級,并豐富游戲資產生成,高效輔助游戲測試,使制作成本顯著降低,全流程賦能游戲買量;   AIGC貫穿廣告營銷全流程,將優化案頭工作環節,提供更專業的個性化營銷方案,并充實廣告素材,實現廣告自動化生成;   AIGC提升影視行業全管線效率。影視劇本創作已初見成效,多AI技術將助力電影中期拍攝,后期制作將更快完成;   AIGC帶給媒體行業人機協作方案。新聞寫作編排效率提升,傳媒向智媒轉向開啟新篇章;   AIGC提供互聯網行業豐富內容,和更便捷的服務。ChatGPT賦能智慧搜索,互為供給加速發展內容平臺發展,虛擬結合激發電商沉浸式體驗;   AIGC為娛樂行業提供了更多樣的體驗。人際交互娛樂邁入新臺階,AIGC或成元宇宙之匙。

付費5元查看完整內容

最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。

1. 引言

近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。

**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。

除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。

結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。

綜上所述,本文的主要貢獻如下:

據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。

回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。

討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。

調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力

生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。

3. 生成式人工智能

我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。

多模態模型

多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。

4. 應用

5. 效率

在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:

推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **

** **

** **

 AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。   廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。   ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。   ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。   AI商業化落地在即,行業算法側和算力側投資機會有望超預期。   根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。

付費5元查看完整內容

AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。   自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。   ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。   生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。   人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。   未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。

付費5元查看完整內容
北京阿比特科技有限公司