亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

關于AIGC,一面享受其好處,一面則需管控好。

人工智能生成內容(AIGC)是人工智能發展的最新成果之一。相關應用生成的內容,如文本、圖像和音頻,已經引發了熱烈的討論。各種衍生的AIGC應用也逐漸進入了生活的各個領域,對人們的日常生活帶來了難以想象的影響。然而,這種生成工具的快速發展也引發了對AIGC中的隱私和安全問題,甚至是版權問題的關注。我們注意到,像區塊鏈和隱私計算這樣的先進技術可以與AIGC工具結合,但是還沒有工作去系統化和詳細地研究他們的相關性和前景。因此,有必要通過充分探索上述技術,研究它們如何用于保護AIGC中數據的隱私和安全。在這篇論文中,我們首先系統地回顧了AIGC的概念、分類和底層技術。然后,我們從多個角度討論了AIGC面臨的隱私和安全挑戰,并有針對性地列出了目前存在的對策。我們希望我們的綜述能幫助研究人員和行業建立一個更安全、更穩健的AIGC系統。

1. 引言

人工智能生成內容(AIGC)指的是使用先進的生成式人工智能(GAI)技術進行內容生成,這可以在短時間內自動創建大量內容。這一章簡要介紹了AIGC的應用及其歷史,并強調在AIGC背景下討論數據安全和隱私保護的重要性。

人工智能生成內容(AIGC)是一種使用人工智能技術生成圖像、文本、音頻和其他內容的新方法。AIGC采用深度學習、生成對抗網絡(GAN)或變分自編碼器(VAE)等技術,從大規模數據集中學習數據的潛在分布,從而生成逼真、高質量的新數據。近年來,AIGC發展迅速,而在2022年引起廣泛關注的ChatGPT [158]在人機交互、對話和輸出生成文本等應用方面具有強大的性能。原則上,ChatGPT是基于大型語言模型(LLM)[121]的機器學習系統,這是一個擁有數千億參數的LLM。經過大量文本數據集的訓練,ChatGPT能夠完成更合理的對話,并能創建具有獨特風格的文本。在圖像生成方面,如穩定擴散[2]、Midjourney[1]都有良好的表現,它們是擴散模型[45, 89]的應用,給定提示文本,可以生成與提示文本要求一致的新圖像。StyleGAN [103]也是一種優秀的生成模型,它基于GAN的結構,用于圖像生成、藝術和設計。AIGC模型的基本步驟與預訓練大型模型[121]相同。首先,收集數據并完成數據預處理步驟。然后在訓練數據集的幫助下完成模型的訓練,根據不同的要求對模型進行微調,然后推斷模型的效果。最后,進行模型的發布階段,發布預訓練模型。在數據收集的第一步中,最容易出現數據安全和隱私問題,模型開發者可能使用一些未經授權的數據來完成模型的訓練,導致數據泄露問題。

AIGC的發展離不開計算能力的提升和深度學習的持續研究。AIGC發展的歷史大致可以分為三個階段:

? 早期萌芽階段:在此階段,學者們已經探索了生成模型以及計算機生成的內容。1957年,世界上第一部計算機創作的音樂作品Illiac Suite出現。在1960年代,Joseph Weizenbaum編寫了世界上第一個聊天機器人Eliza,它能夠回答人們的問題。這些都是智能內容生成的有意義的早期嘗試,但由于在1980年代末和1990年代中期的高成本和商業化難度,因此資本投入有限,導致在AIGC方面沒有重大成就。

? 沉淀和積累階段:在20世紀初,深度學習發展迅速,提出了卷積神經網絡(CNNs)等深度學習算法來解決圖像分類、圖像分割等許多問題。同時,GPU、CPU等算術設備日益精密,互聯網也處于快速發展階段,為訓練各種人工智能算法提供了大量數據。

? 高速發展階段:2014年,GAN [75]的出現為生成內容提供了一種高效可行的網絡,這再次激起了對AIGC的興趣。這個階段是前兩個階段AIGC發展的延續,主要基于預訓練大型模型。2018年,NVIDIA發布了用于自動圖像生成的StyleGAN [103],2019年,DeepMind發布了用于連續視頻生成的DVD-GAN [43]。2021年,Open AI推出了DALL-E [169]和更新迭代版本的DALLE-2 [168],主要用于文本和圖像的交互式內容生成。特別是在2022年底,OpenAI發布了基于GPT3的聊天機器人應用ChatGPT,再次引發了廣泛的討論和熱烈的關注。

AIGC基于人工智能技術生成內容以滿足用戶的需求,是對傳統內容創作方法如專業生成內容(PGC)和用戶生成內容(UGC)[116, 224]的補充。在PGC時代,生產優質內容需要很長的時間。在UGC時代,每個人都可以作為用戶在線發布自己的創作,但是創作者的水平各不相同,輸出內容的質量難以保證。AIGC可以在數量和質量上克服PGC和UGC的短板,生成大量的內容,同時在學習后能夠輸出保證質量的內容。

1.2 AIGC中的安全性和隱私性的緊迫性

盡管AIGC模型因其強大的內容生成能力和效率而引起了全世界的關注,但對于其實際的大規模使用仍然存在擔憂,即,使用AIGC服務可能會引發安全性或隱私問題。可能來自AIGC的問題包括:用戶的輸入數據泄漏、模型攻擊、數據爬取和生成內容的不安全性。

1.2.1 相關法律和規定。近年來,世界各國都提出了關于AIGC使用及由此產生的數據安全和隱私問題的法律和規定。Chatgpt的普及標志著AIGC模型的蓬勃發展。AIGC模型的快速發展及其強大的生成能力使各國更加關注數據安全和隱私問題。用于訓練AIGC模型的數據可能包含敏感信息,如個人身份信息、醫療記錄和財務信息。如果這些敏感信息泄漏,將給個人和組織帶來巨大的風險。在數據安全方面,歐盟在2018年頒布了通用數據保護條例(GDPR) [3],這是一項新的歐盟關于收集、處理和存儲個人數據的規定。2019年,英國航空公司因違反GDPR公開用戶信息而被罰款近2億英鎊。GDPR是保護個人對其信息的權利并確保信息在使用過程中不被泄露的重要法律依據。此外,中國陸續頒布了數據安全法、個人信息保護法、網絡安全法,以確保個人數據在網絡流通過程中的安全性。2022年,中國頒布了《數據20條》,提出構建以數據為基礎的制度,以更好地發揮數據要素的作用,并規范正確使用數據要素。對于AIGC,各國已經注意到其強大的生成能力,因此提出了對其使用的限制。2018年,中國信息通信研究院發布了關于AIGC的白皮書,肯定了AIGC是邁向數字文明新時代的不可或缺的支持力量,并從政府、行業、企業、社會等方面對AIGC的發展給出了建議。2023年,中國互聯網信息辦公室發布了《關于征求生成式人工智能服務管理辦法(征求意見稿)意見的通知》,提出了從各個方面規范使用AIGC算法,保護用戶的權益和數據安全.

1.2.2 技術視角

除了每個國家發布的相關法律和規定,從技術的角度看,可能出現許多來自AIGC的隱私和安全問題,隱私安全受到威脅的可能性持續增加。因此,迫切需要提出解決方案,以保護在AIGC下的數據隱私安全。

? 深度偽造技術:AIGC的快速發展引發了對深度偽造技術[220]的擔憂,該技術使用基于AI的技術生成接近真實的照片、電影或音頻,這些可以用來描述不存在的事件或個人。深度偽造技術的出現使得篡改或生成高度真實且無法區分的音頻和視頻內容成為可能,這最終無法被觀察者的肉眼區分。一方面,偽造的內容可以誤導其他人相信生成的假信息,如果不防止,肯定會給國家安全、公民和企業的權益帶來新的風險,并在社會發展中引發潛在的危機。另一方面,偽造的內容對個人隱私和安全構成潛在威脅,例如,惡意用戶可以使用這些圖像進行欺詐和其他非法活動。

? 不夠好的內容:不夠好的內容意味著內容不夠真實或甚至有毒。當AI生成的內容不夠真實時,很容易讓用戶認為AIGC生成能力有限,并對AIGC模型本身產生負面印象,這阻礙了AIGC模型的發展。當AI生成的內容是有毒的,它可能對人類的認知產生影響,這涉及到道德和倫理問題。倫理是AIGC技術發展中不能忽視的一個方面,涉及到AI和人類社會之間的價值觀、道德、法律觀念等問題。AI生成內容的潛在毒性是指AI生成的內容存在偏見,即,AIGC可能生成違反社會價值的內容,因此它很容易成為許多惡意人士的工具。

? 易受攻擊的模型:惡意用戶可以利用AIGC模型的漏洞攻擊模型,并向輸入數據中添加有意的干擾信號以欺騙AIGC模型的行為。這可能導致模型生成錯誤的輸出,或者以有意的方式生成誤導信息。并且,使用模型反向傳播攻擊也可能從一些輸出中推斷出用于模型原始訓練的數據,這可以引發

1.3 貢獻

在這篇調查報告中,我們提供了AIGC的介紹,AIGC中的安全和隱私問題,以及我們提出的解決方案。這項調查的貢獻如下: ? 我們回顧并總結了AIGC的定義和分類,并列舉了其背景技術、基本模型和應用等。我們強調了在這個領域解決隱私和安全問題的緊迫性。

? 我們從流通數據的隱私、生成內容的安全、以及惡意用戶的威脅等角度,分析了AIGC面臨的隱私和安全挑戰。我們通過具體的例子,特別是關注AIGC中的版權問題,說明了這些在AIGC中的挑戰對用戶安全所構成的重大威脅。

? 我們全面總結了AIGC中隱私保護和數據安全的當前狀況,并研究了各種可用的應對策略,以及這些方法的優點和缺點。

? 我們首次系統地討論了區塊鏈和隱私計算在提高AIGC安全性中的重要作用,提供了一些示例案例,其中結合了區塊鏈、聯邦學習和數字水印等技術與AIGC,并揭示了它們在解決AIGC數據隱私、內容安全和知識產權問題方面的巨大潛力。

2 初步和相關技術

在這一部分,我們將介紹關于AIGC技術的背景和詳細信息。具體來說,我們將探討AIGC的定義,它的流行模型和應用,以及可能在AIGC中使用的隱私和安全技術。

AIGC,人工智能生成內容,是通過生成模型通過用戶的輸入輸出的內容。近年來,AIGC開始被視為與PGC和UGC并列的新型內容創作方式。AIGC可以從人類創作的無數作品中學習到底層的藝術風格和創造性模式,因此AIGC模型可以基于此生成更多樣化和真實感強的內容。最近,基于Diffusion Model的穩定擴散在圖像生成上的強大能力,以及基于Transformer模型的ChatGPT在文本生成上的表現,使AIGC得到了極大的關注。

在大數據時代,數據安全和隱私保護問題是無法避免的,特別是在AIGC盛行的情況下,這些問題將變得更為嚴重。本節將簡要介紹四種相關技術,它們可以用來解決AIGC中的數據安全和隱私保護問題。

3 挑戰

從前一節我們可以知道,作為一種新興的內容生成方法,AIGC正在越來越多的領域得到使用。然而,如圖2所示,AIGC中存在一些隱私和安全的挑戰。生成型AI模型可能會利用用戶數據作為進一步迭代的訓練數據,這引起了關于用戶數據隱私的重大關注。此外,由生成型AI模型生成的內容難以控制,可能含有虛假和欺騙性的內容,對用戶給予錯誤的引導,或者含有歧視性和偏見性的內容,可能導致不良的社會影響。生成型AI模型本身也可能被惡意用戶攻擊,導致一些隱私和安全問題。在本節中,我們將介紹AIGC中的隱私和安全挑戰,這些是在AIGC的實際應用中不可忽視的重要問題。

4 應對措施

從第三節的描述中我們可以清楚地看到,生成式AI正在迅速發展,并且與人類社會的聯系越來越密切。這種發展趨勢也暴露出AIGC的隱私和安全問題。因此,如何將現有的隱私計算和各種安全技術應用到生成式AI成為了今天必須面對的主題。數據的隱私和安全是讓AIGC更好地服務于人類社會的關鍵之一。只有正確處理由AIGC帶來的隱私和安全問題,我們才能推動生成式AI的可持續發展。在下文中,我們將描述現有的用于生成式AI中的隱私保護和保障數據安全的技術。

5 開放性問題與未來方向

AIGC中的隱私和安全問題引起了很多關注。盡管從不同的角度出發,已經有許多解決方案,但如何捍衛AIGC模型的數據安全仍然是一個遠未完全探索的領域。我們從新的場景、可能的技術等幾個角度,展望AIGC隱私和安全的未來方向。 5.1高危場景 5.2及時性 5.3可持續發展 5.4公平 5.5 AIGC遇到新興領域

6 結論

隨著ChatGPT等大模型驅動的AIGC服務進入人們的日常生活,它們給用戶帶來的隱私和安全問題逐漸顯現并成為AIGC時代亟待解決的問題之一。我們首先對AIGC的定義、分類和通用技術進行了簡要介紹,同時強調了保護AIGC的隱私和安全的緊迫性,指出隱私計算等技術可以與AIGC模型相結合。然后,我們從流通數據的隱私、生成內容的安全、版權和惡意用戶的威脅等幾個角度描述了AIGC當前面臨的挑戰。我們把研究重點放在了AIGC隱私和安全的解決方案上,運用了區塊鏈、聯邦學習、數字水印、差分隱私等技術。它們為解決包括AIGC工具在內的生成模型的隱私和安全問題提供了豐富的解決方案。然而,目前在AIGC中解決隱私和安全問題的方案還不夠成熟,大模型的快速發展為AI領域帶來了許多新的挑戰。我們在論文的最后討論了一些開放性問題和可能的AIGC隱私和安全的未來方向。我們希望這篇綜述能為AIGC的隱私和安全問題提供一個概覽,并為學術界和工業界如何更好地利用AIGC提供新的思路。

付費5元查看完整內容

相關內容

人工智能生成內容

以ChatGPT為代表的大模型,是全新一代知識表示和調用方式,相比以往知識圖譜的方式,更加高效智能可擴展等,開啟通用人工智能之門。但符號化的知識圖譜過時了嗎?并非如此,知識圖譜和大模型可以進行很好的結合,互相促進,提升知識利用的效果。來自澳大利亞格里菲斯大學(Griffith University)等學者《統一大型語言模型和知識圖譜:路線圖》,29頁pdf詳述最全指南,值得關注!

大型語言模型(LLMs),如ChatGPT和GPT4,由于其新興能力和通用性,正在自然語言處理和人工智能領域掀起新浪潮。然而,LLMs是黑箱模型,常常難以捕獲和獲取事實知識。相比之下,知識圖譜(KGs),例如維基百科和華普,是結構化知識模型,明確存儲豐富的事實知識。知識圖譜可以通過提供外部知識以推理和解釋,從而增強LLMs。同時,知識圖譜難以構建并且具有不斷演變的特性,這對知識圖譜中生成新事實和表示未見知識的現有方法提出了挑戰。因此,將LLMs和知識圖譜統一起來并同時利用它們的優勢是互補的。在這篇文章中,我們提出了一個前瞻性的LLMs和知識圖譜統一的路線圖。我們的路線圖包括三個總體框架,即1) 知識圖譜增強的LLMs,它在LLMs的預訓練和推理階段,或為了增強對LLMs所學知識的理解,將知識圖譜納入其中;2) LLM增強的知識圖譜,利用LLMs進行不同的知識圖譜任務,如嵌入,完成,構建,圖到文本生成和問答;以及 3)協同的LLMs + 知識圖譜,在其中LLMs和知識圖譜扮演著平等的角色,并以互利的方式工作,以增強LLMs和知識圖譜對由數據和知識驅動的雙向推理。我們在路線圖中回顧和總結了這三個框架內的現有努力,并指出了它們的未來研究方向。

1. 引言

大型語言模型(LLMs)(例如,BERT [1],RoBERTA [2]和T5 [3]),在大規模語料庫上預訓練,已經在各種自然語言處理(NLP)任務中展現出了優異的表現,如問題回答[4],機器翻譯[5]和文本生成[6]。最近,模型規模的急劇增加進一步賦予了LLMs新興的能力[7],為將LLMs作為人工通用智能(AGI)的應用鋪平了道路。像ChatGPT和PaLM2這樣的高級LLMs,擁有數十億的參數,在許多復雜的實際任務中展現出了巨大的潛力,如教育[8],代碼生成[9]和推薦[10]。

盡管LLMs在許多應用中取得了成功,但它們因缺乏事實知識而受到批評。具體來說,LLMs記住了訓練語料庫中包含的事實和知識[14]。然而,進一步的研究揭示,LLMs無法回憶起事實,而且經常會產生幻覺,生成事實上不正確的聲明[15],[28]。例如,當被問到“愛因斯坦在什么時候發現了重力?”時,LLMs可能會說“愛因斯坦在1687年發現了重力”,這與艾薩克·牛頓制定了引力理論的事實相矛盾。這個問題嚴重損害了LLMs的可信度。

作為黑箱模型,LLMs也因其缺乏可解釋性而受到批評。LLMs隱含地在它們的參數中表示知識。解釋或驗證LLMs獲取的知識很困難。此外,LLMs通過概率模型執行推理,這是一個不確定的過程[16]。LLMs用于得出預測或決策的特定模式和功能對人類來說并不直接可訪問或可解釋[17]。盡管一些LLMs通過應用思維鏈[29]來解釋它們的預測,但它們的推理解釋也受到了幻覺問題的影響[30]。這嚴重影響了LLMs在高風險場景中的應用,如醫療診斷和法律判斷。例如,在一個醫療診斷場景中,LLMs可能會錯誤地診斷疾病,并提供與醫學常識相矛盾的解釋。這引發了另一個問題,即在一般語料庫上訓練的LLMs可能無法很好地泛化到特定領域或新知識,因為缺乏領域特定的知識或新的訓練數據[18]。

為解決上述問題,一個可能的解決方案是將知識圖譜(KGs)融入到LLMs中。知識圖譜(KGs),以三元組(頭實體,關系,尾實體)的方式存儲大量事實,是一種結構化且決定性的知識表示方式(例如,Wikidata [20],YAGO [31],和 NELL [32])。KGs對于各種應用至關重要,因為它們提供了準確的顯式知識[19]。此外,它們因其象征性推理能力[22]而著名,該能力可以生成可解釋的結果。KGs也可以隨著新知識的不斷加入而積極演化[24]。此外,專家可以構建特定領域的KGs,以提供精確且可靠的特定領域知識[23]。然而,KGs難以構建[33],而當前在KGs中的方法[25],[27],[34]在處理真實世界KGs的不完整和動態變化性質方面是不足夠的。這些方法未能有效地模擬未見實體和表示新事實。此外,它們經常忽視KGs中的豐富文本信息。此外,KGs中的現有方法通常針對特定的KGs或任務定制,不夠通用。因此,利用LLMs來解決KGs面臨的挑戰也是必要的。我們分別在圖1中總結了LLMs和KGs的優缺點。

最近,將LLMs與KGs統一起來的可能性越來越受到研究人員和從業人員的關注。LLMs和KGs本質上是互相關聯的,可以相互增強。在KG增強的LLMs中,KGs不僅可以被整合到LLMs的預訓練和推理階段,以提供外部知識[35]-[37],而且還可以用于分析LLMs并提供可解釋性[14],[38],[39]。在LLM增強的KGs中,LLMs已經被用于各種與KG相關的任務,例如KG嵌入[40],KG完成[26],KG構建[41],KG-to-text生成[42],和KGQA[43],以提高KGs的性能并促進KGs的應用。在協同作用的LLM + KG中,研究人員將LLMs和KGs的優點結合起來,相互提高在知識表示[44]和推理[45],[46]方面的性能。雖然有一些關于知識增強LLMs的調查[47]-[49],主要關注使用KGs作為外部知識來增強LLMs,但它們忽視了其他整合KGs的可能性,以及LLMs在KG應用中的潛在角色。

在這篇文章中,我們提出了一個展望未來的路線圖,用于統一LLMs和KGs,利用它們各自的優勢并克服各種方法的限制,以適應各種下游任務。我們提出了詳細的分類,進行了全面的回顧,并指出了這些快速發展領域的新興方向。我們的主要貢獻如下:

路線圖。我們提出了一個展望未來的路線圖,用于整合LLMs和KGs。我們的路線圖包括三個通用框架來統一LLMs和KGs,即,KG增強的LLMs,LLM增強的KGs,以及協同作用的LLM + KGs,為這兩種不同但互補的技術的統一提供了指導。

分類和回顧。對于我們路線圖的每一個整合框架,我們都提出了詳細的分類和統一LLMs和KGs研究的新穎分類法。在每個類別中,我們從不同的整合策略和任務的角度回顧了研究,這為每個框架提供了更多的洞察。

新興進步的覆蓋范圍。我們覆蓋了LLMs和KGs的先進技術。我們包括了最新的LLMs如ChatGPT和GPT-4以及新的KGs,例如多模態知識圖譜的討論。

挑戰和未來方向的總結。我們強調了現有研究中的挑戰,并提出了一些有前途的未來研究方向。

2. 背景知識

在本節中,我們將首先簡要介紹幾種代表性的大型語言模型(LLMs),并討論提示工程,該工程有效地使用LLMs進行各種應用。然后,我們將說明知識圖譜(KGs)的概念,并介紹KGs的不同類別。

大型語言模型

在大規模語料庫上預訓練的大型語言模型(LLMs)已經在各種NLP任務中展現出巨大的潛力[13]。如圖3所示,大多數LLMs都源于Transformer設計[50],該設計包含了由自注意力機制賦能的編碼器和解碼器模塊。根據架構結構,LLMs可以被分類為三個組:1)僅編碼器的LLMs,2)編碼器-解碼器的LLMs,和3)僅解碼器的LLMs。如圖2所示,我們總結了幾個具有不同模型架構,模型大小和開源可用性的代表性LLMs。

提示工程

提示工程是一個新興的領域,專注于創建和精煉提示,以最大化大型語言模型(LLMs)在各種應用和研究領域中的效用[63]。如圖4所示,提示是為LLMs指定任務(例如,情感分類)的自然語言輸入序列。一個提示可能包含幾個元素,即1)指令,2)上下文,和3)輸入文本。指令是指導模型執行特定任務的短句。上下文為輸入文本或少數示例提供背景。輸入文本是需要模型處理的文本。提示工程尋求提高大型語言模型(例如,ChatGPT)在多種復雜任務中的能力,如問題回答,情感分類和常識推理。鏈式思維(CoT)提示[64]通過中間推理步驟實現復雜推理能力。Liu等人[65]結合外部知識來設計更好的知識增強提示。自動提示工程師(APE)提出了一種自動提示生成方法,以提高LLMs的性能[66]。提示提供了一種簡單的方式,可以在無需微調的情況下利用LLMs的潛力。精通提示工程可以更好地理解LLMs的優點和缺點。

知識圖譜(KGs)知識圖譜(KGs)將結構化知識存儲為三元組集合KG = {(h, r, t) ? E × R × E},其中E和R分別表示實體和關系的集合。現有的知識圖譜(KGs)可以根據存儲的信息被分為四組:1)百科全書型KGs,2)常識KGs,3)特定領域KGs,以及4)多模態KGs。我們在圖5中展示了不同類別的KGs的例子。

** 應用**

LLMs 以及 KGs 已被廣泛應用在各種真實世界的應用中。我們在表1中總結了一些使用LLMs和KGs的代表性應用。ChatGPT/GPT-4是基于LLM的聊天機器人,可以以自然對話格式與人類進行交流。為了提高LLMs的知識意識,ERNIE 3.0 和 Bard將KGs整合進他們的聊天機器人應用中。Firefly開發了一款照片編輯應用,允許用戶使用自然語言描述來編輯照片。Copilot、New Bing 和 Shop.ai 分別采用LLMs來增強他們在編碼助手、網絡搜索和推薦等領域的應用。Wikidata 和 KO 是兩個代表性的知識圖譜應用,被用來提供外部知識。AliOpenKG是一個為推薦設計的知識圖譜。Doctor.ai 開發了一個健康護理助手,整合了LLMs和KGs以提供醫療建議。

3 路線圖和分類

在本節中,我們首先提出一個明確的框架路線圖,以統一LLMs和KGs。然后,我們呈現了關于統一LLMs和KGs的研究分類。

3.1 路線圖

我們在圖6中描繪了統一KGs和LLMs的路線圖。在路線圖中,我們確定了統一LLMs和KGs的三個框架,包括KG增強的LLMs,LLM增強的KGs,以及協同的LLMs + KGs。

3.1.1 KG增強的LLMs

LLMs因其能夠從大規模語料庫中學習知識并在各種自然語言處理(NLP)任務中取得最先進的性能而聞名。然而,LLMs經常因其幻覺問題[15]和缺乏可解釋性而受到批評。為解決這些問題,研究人員已經提出了用知識圖譜(KGs)來增強LLMs。KGs以明確和結構化的方式存儲大量知識,這可以用來增強LLMs的知識意識。一些研究人員已經提出在預訓練階段將KGs納入LLMs,這可以幫助LLMs從KGs中學習知識[91],[92]。其他研究人員提出在推理階段將KGs納入LLMs。通過從KGs中檢索知識,可以顯著提高LLMs在獲取特定領域知識方面的性能[93]。為了提高LLMs的可解釋性,研究人員還利用KGs來解釋LLMs的事實[14]和推理過程[94]。

3.1.2 由LLM增強的KG

知識圖譜(KGs)儲存著結構化的知識,這在很多實際應用中都起著至關重要的作用[19]。然而,現有的KG方法在處理不完整的KG [25]和處理文本語料庫來構建KG [95]方面存在短板。鑒于LLM的泛化能力,許多研究人員正試圖利用LLM來解決KG相關的任務。最直接的方式就是將LLM作為KG相關任務的文本編碼器。研究人員利用LLM處理KG中的文本語料庫,然后使用文本的表示來豐富KG的表示[96]。一些研究還使用LLM來處理原始語料庫,并提取關系和實體用于KG的構建[97]。最近的一些研究試圖設計一個KG提示,這可以有效地將結構化的KG轉化為LLM可以理解的格式。這樣,LLM就可以直接應用到KG相關的任務中,例如KG完成[98]和KG推理[99].

3.1.3 融合了LLM和KG的系統

這幾年,研究人員越來越關注將LLM和KG融合的潛力[40],[42]。LLM和KG是兩種固有的互補技術,應當將它們統一到一個通用框架中,以便互相增強。為了進一步探索這種統一,我們在圖7中提出了一個融合了LLM和KG的統一框架。這個統一框架包含四層:1) 數據,2) 融合模型,3) 技術,和4) 應用。在數據層,LLM和KG分別用于處理文本和結構化數據。隨著多模態LLM[100]和KG[101]的發展,這個框架可以擴展到處理多模態數據,如視頻、音頻和圖像。在融合模型層,LLM和KG可以相互協同,以提高他們的能力。在技術層,已經在LLM和KG中使用的相關技術可以被納入到這個框架中,以進一步增強性能。在應用層,LLM和KG可以整合起來,以解決各種實際應用,如搜索引擎[102]、推薦系統[10]和AI助手[103]。

3.2 分類

為了更好地理解將大型語言模型(LLMs)和知識圖譜(KGs)統一的研究,我們為路線圖中的每個框架提供了更細粒度的分類。具體來說,我們關注了將知識圖譜和大型語言模型集成的不同方式,即,知識圖譜增強的大型語言模型、知識圖譜增量的大型語言模型,以及融合了大型語言模型和知識圖譜的系統。研究的細粒度分類如圖8所示。

知識圖譜增強的大型語言模型。整合知識圖譜可以提高大型語言模型在各種下游任務中的性能和可解釋性。我們將知識圖譜增強的大型語言模型研究分為三組:1) 知識圖譜增強的大型語言模型預訓練包括在預訓練階段應用知識圖譜并提高大型語言模型的知識表達的工作。2) 知識圖譜增強的大型語言模型推理包括在大型語言模型的推理階段使用知識圖譜的研究,這使得大型語言模型能夠在不進行再訓練的情況下獲取最新的知識。3) 知識圖譜增強的大型語言模型的可解釋性包括使用知識圖譜來理解大型語言模型所學習的知識和解釋大型語言模型的推理過程的工作。

大型語言模型增量的知識圖譜。大型語言模型可以應用于增強各種與知識圖譜相關的任務。我們根據任務類型將大型語言模型增量的知識圖譜研究分為五組:1) 大型語言模型增強的知識圖譜嵌入包括使用大型語言模型來豐富知識圖譜的表示,通過編碼實體和關系的文本描述。2) 大型語言模型增強的知識圖譜完成包括使用大型語言模型編碼文本或生成事實以提高知識圖譜完成(KGC)性能的論文。3) 大型語言模型增強的知識圖譜構建包括使用大型語言模型處理實體發現,共指消解,和關系提取任務以構建知識圖譜的工作。4) 大型語言模型增強的知識圖譜到文本生成包括使用大型語言模型生成描述來自知識圖譜的事.

7 未來方向

在前面的部分中,我們已經回顧了將知識圖譜(KGs)和大型語言模型(LLMs)統一的最新進展,但是仍有許多挑戰和未解決的問題需要解決。在本節中,我們將討論這個研究領域的未來方向。

  • 使用知識圖譜(KGs)進行大型語言模型(LLMs)的錯覺檢測
  • 在LLMs中編輯知識的知識圖譜(KGs)
  • 用于黑盒LLMs知識注入的知識圖譜(KGs)
  • 針對知識圖譜(KGs)的多模態LLMs
  • 用于理解知識圖譜結構的LLMs
  • 用于雙向推理的融合LLMs和KGs。

8 結論

將大型語言模型(LLMs)和知識圖譜(KGs)統一是一個吸引了學術界和工業界越來越多關注的活躍的研究方向。在本文中,我們對該領域的最近研究提供了全面的概述。我們首先介紹了將KGs集成以增強LLMs的不同方式。然后,我們介紹了應用LLMs于KGs的現有方法,并基于各種KG任務建立了分類法。最后,我們討論了這個領域的挑戰和未來的方向。我們希望本文能夠提供對這個領域的全面理解,并推動未來的研究。

付費5元查看完整內容

隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。

從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。

在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。

  • 安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。

  • 隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。

  • 信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。

  • 道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。

本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容:工作原理

在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。

如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。

? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。

在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。

? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。

在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。

付費5元查看完整內容

大型語言模型(LLMs)由于其能在許多知識領域中與最終用戶進行具有詳細且清晰的回答的人類級別對話的能力,引發了AI的新熱潮。響應其在許多工業應用中的快速采用,本綜述關注其安全性和可信度。首先,我們回顧了LLMs的已知漏洞,將它們分類為固有問題,預定攻擊和無意的錯誤。然后,我們考慮是否以及如何可以將已經為傳統軟件和深度學習模型(如卷積神經網絡)廣泛開發的驗證和驗證(V&V)技術整合并進一步擴展到LLMs的生命周期中,以對LLMs及其應用的安全性和可信度提供嚴謹的分析。特別是,我們考慮四種互補技術:偽造和評估,驗證,運行時監視和道德使用。考慮到LLMs的快速發展,本綜述并無意完整(盡管它包含300多個參考),尤其是在涉及到LLMs在各個領域的應用時,而是收集了有組織的文獻回顧和討論,以支持從V&V的視角快速理解安全性和可信度問題。

//arxiv.org/abs/2305.11391

1. 引言

大型語言模型(LLM)是一種具備大量可學習參數的深度學習模型(通常達到100億以上,如圖1所示)。LLMs是基于Transformer架構[116]的注意力驅動的序列模型,已經一直顯示出學習語言通用表示的能力。這種語言的通用表示可以被用于各種自然語言處理(NLP)任務。最近,這些模型在參數數量和預訓練語料庫方面的擴大,已經證實了Transformer作為編碼語言表示的普遍性。在特定規模下,這些模型開始表現出在上下文中的學習能力[184,278],以及從少數示例(零/一/少數 - 無需微調)和自然語言提示(描述模型需要實施的行為意圖的復雜指令)中學習的屬性。最近關于通過人類反饋進行強化學習(RLHF)[190]的研究進一步發展了這些模型對越來越復雜提示的對齊和響應的能力,導致了它們在如ChatGPT等系統中的普及,以及在大量應用中的使用。LLMs表現出復雜的語言和推理行為的能力,已經推動了它們在超出預期操作范圍的應用。盡管LLMs在語言流暢性上一直表現出色,但它們也容易產生錯覺[228],陳述事實上不正確的陳述[227],以及缺乏必要的安全性、透明度和控制機制[239]等問題。本文的目標是提供關于LLMs已知漏洞的回顧,并更重要的是,探討如何調整V&V技術以提高LLMs的安全性和可信度。雖然已有一些關于LLMs的調查[296,291],以及關于ChatGPT失敗的分類性檔案[47],但據我們所知,這是第一個從V&V的角度對安全性和可信度問題進行全面討論的工作。

V&V技術在支持安全關鍵系統中軟硬件的可靠和可信賴的開發方面取得了成功,并已被適應用于機器學習模型,主要關注圖像分類的卷積神經網絡(見諸如[125, 169]的調查和[124]等教科書),但也擴展到考慮如目標檢測、深度強化學習和循環神經網絡等。本文討論如何進一步擴展V&V以應對LLMs的安全性和可信度挑戰。V&V是一種獨立的程序,它們一起用于檢查系統(或產品,服務)是否滿足要求和規范,并且是否達到其預期的目的[7]。其中,驗證技術根據一組設計規格檢查系統,而驗證技術確保系統滿足用戶的操作需求。從軟件、卷積神經網絡到LLMs,系統的規模顯著增長,這使得常規的V&V技術由于其可擴展性問題而能力不足。將可學習參數作為其算法輸入的白盒V&V技術在實踐中不會很好地工作。相反,研究應專注于黑盒技術,對于卷積神經網絡,一些研究已經開始。此外,V&V技術需要考慮LLMs的非確定性特性(即,對于兩次具有相同輸入的測試,輸出不同),這與常見的神經網絡(如卷積神經網絡和目標檢測器)有顯著的不同,目前大多數V&V技術都在這些網絡上工作。

本文的結構如下。在第二部分,我們回顧了LLMs及其類別,它的生命周期,以及為提高安全性和可信度而引入的幾種技術。然后,在第三部分,我們介紹了現有漏洞的回顧。這之后,我們在第四部分提供了一個通用的驗證框架。該框架包括V&V技術,如偽造和評估(第五部分),驗證(第六部分),運行時監控(第七部分)和道德使用(第八部分)。我們在第九部分對本文進行總結。

2. 大型語言模型

這一部分總結了基于LLMs的機器學習任務的類別,然后討論了LLMs的生命周期。我們還將討論一些與安全性分析相關的基礎技術。

圖2展示了LLMs的生命周期階段。離線模型構造由三個步驟組成[291]:預訓練、適應調整和利用改進,每個步驟都包含幾個交織的子步驟。一般來說,預訓練步驟與常規的機器學習訓練類似,包括數據收集、架構選擇和訓練。在適應調整上,它可能進行指令調整[178]以從任務指令中學習,并進行對齊調整[190, 67]以確保LLMs與人類價值觀相符,例如公平、誠實和無害。除此之外,為了改善與最終用戶的交互,可能會通過例如上下文學習[49],思維鏈學習[257]來進行利用改進。一旦一個LLM被訓練,就需要進行評估以確保其性能符合預期。通常,我們從三個角度考慮評估:基本性能指標的評估,安全性分析以評估在應用中應用LLM的后果,以及通過公開可用的基準數據集進行的評估。評估將決定LLM是否可接受(對于預設定的標準),如果是的話,過程將向前移動到部署階段。否則,將至少確定一個失敗,并且過程將回退到三個訓練步驟中的任何一個。在部署階段,我們將決定如何使用LLM。例如,它可以在網頁平臺上供最終用戶直接交互,比如ChatGPT。或者,它可能被嵌入到搜索引擎中,比如新的Bing。然而,根據常規做法,會在LLMs和最終用戶之間的對話上設置保護,以確保AI規則最大程度地實施。

3 漏洞

本部分介紹已知類型漏洞的回顧。這些漏洞可以分為固有問題、有意攻擊和無意錯誤三類。固有問題是指LLMs本身無法立即解決的漏洞。然而,通過更多的數據和新的訓練方法等逐步改進是可能的。固有問題包括性能弱點,即LLMs尚未達到人類水平的智能方面,以及可持續性問題,因為LLMs的規模顯著大于常規機器學習模型。它們的訓練和日常執行可能會產生非可忽略的可持續性影響。此外,可信性和責任問題是LLMs固有的。有意攻擊是由惡意攻擊者發起的,他們試圖通過攻擊LLMs生命周期中的某些階段來實現他們的目標。已知的有意攻擊包括魯棒性漏洞、后門攻擊、毒化、虛假信息、隱私泄露和未經授權的信息披露。最后,隨著LLMs集成到更廣泛的應用中,將出現越來越多的無意錯誤,這些錯誤是開發人員在無意識中產生的,但卻會產生嚴重后果,例如偏見和歧視(通常與訓練數據的質量有關),以及最近報道的用戶信息的意外泄露。圖2展示了漏洞在LLMs的生命周期中可能被利用的方式。雖然固有問題和無意錯誤可能出現在生命周期的任何階段,但有意攻擊通常出現在生命周期的特定階段。例如,后門攻擊通常發生在預訓練和適應調整階段,其中嵌入了后門觸發器;毒化通常發生在訓練或對齊調整階段,此時LLMs從環境中獲取信息/數據。此外,許多攻擊發生在最終用戶與LLMs之間的交互中,使用特定的、經過精心設計的提示來從LLMs中檢索信息。我們注意到,盡管存在重疊,LLMs和常規深度學習模型(如卷積神經網絡或目標檢測器)具有略微不同的漏洞,并且盡管已經開始為常規深度學習模型開發規范語言[40, 127],但這些努力可能需要擴展到LLMs上。

4 通用驗證框架

圖3展示了一個通用的驗證框架示意圖,該框架可以與LLMs一起工作,并將幾個V&V技術類別定位到生命周期中。在評估階段,除了目前進行的活動(如圖2所述),我們需要從偽造和評估技術開始,并與解釋技術同時進行。偽造和評估技術提供了多樣的方法來找到故障案例,并具有統計理解潛在故障的能力,但并非窮盡。解釋技術旨在提供人類可理解的LLMs輸出解釋。雖然這兩個類別是并行的,但它們可以相互交互,例如,一個故障案例可能需要使用解釋技術來理解根本原因,而解釋需要區分不同的故障和非故障案例。驗證技術通常成本較高,可能僅在LLMs通過前兩個類別時才需要。除了離線驗證,還需要在保護層之上部署運行時監視器,以在操作時間發現故障案例。這主要是由于兩個原因:(1)當處理大量屬性和LLMs的高維度時,離線方法可能不完整;(2)LLMs可以是自適應和演化的。最后,在整個生命周期中,需要遵守倫理原則和AI規定,以確保對LLMs的道德使用。

5 偽造和評估

本部分總結了識別和評估基于LLMs的機器學習應用程序漏洞的已知方法。我們還討論了如何調整V&V,并應該如何調整。

6 驗證

本部分討論是否以及如何將更嚴格的驗證擴展到基于LLMs的機器學習任務中。到目前為止,LLMs的驗證或認證仍然是一個新興的研究領域。本節首先對各種NLP模型的驗證技術進行了全面系統的回顧。然后,我們討論了一些開創性的黑盒驗證方法,這些方法可以在大規模語言模型上發揮作用。接下來,我們討論如何將這些工作擴展到LLMs,并回顧減小LLMs規模以增加驗證技術有效性的努力。

7 運行時監視器

第2.3.2節提到的保護層為LLMs與最終用戶的交互提供了安全保障,同時保持其社會責任。本節討論了一種V&V方法,即運行時監視器,它與保護層有些相似,可以對LLMs的行為進行保護,以防止像第3節中討論的那樣的漏洞。使用運行時監視器而不是驗證的關鍵動機有兩個方面。首先,驗證方法需要大量的計算,因此在處理像LLMs這樣的大型模型時可能變得不切實際。其次,深度學習模型可能被應用于與收集訓練數據不同的場景。這表明需要一個運行時監視器來實時確定規范的可滿足性。

8 規定和道德使用

V&V提供了一系列技術手段,以支持LLMs與人類利益的一致性。然而,有人認為構建無法被濫用的LLMs可能是不可能的。這表明技術手段是必要的,但可能是不充分的。因此,需要道德手段來補充技術手段,以確保LLMs的使用與人類利益完全一致。以下,我們將討論幾個近期取得的進展跡象。

9. 結論

本文概述了LLM(大型語言模型)已知的漏洞,并討論了如何調整V&V(驗證和驗證)技術以適應它們的工作。鑒于LLM正在迅速被直接或間接與終端用戶進行交互的應用程序所采用,必須確保部署的LLM經歷足夠的審判過程,以避免任何不可取的安全和可信后果。考慮到LLM的規模和復雜性,白盒V&V技術可能變得不切實際,社區可能需要開發黑盒、非確定性敏感的V&V技術。此外,多學科的開發將確保充分考慮所有可信問題。

付費5元查看完整內容

AIGC發展過程:AI自行生成內容

  AIGC(ArtificialIntelligenceGeneratedContent)指的是人工智能系統生成的內容,通常是文字、圖像、音頻或視頻。這類內容可以通過自然語言處理,機器學習和計算機視覺等技術生成,即生成式AI。AI最初設立的目的是讓機器像人類一樣思考解決問題。目前AI的總體目的是通過各種算法解決問題提高生產效率。

  AIGC多樣化的內容生成能力使其覆蓋各類內容形式,各類應用場景正隨技術進步逐漸落地。AIGC不僅可覆蓋文本、音頻、圖像、視頻等基本內容模態,還可綜合圖像、視頻、文本進行跨模態生成,并應用于各類細分行業成為具體的生產力要素,例如游戲行業中的AI、NPC、虛擬人的視頻制作與生成等。

  AIGC發展過程:GPT助力,進入黃金期

  ChatGPT的發展帶動了文字類AI生成,或將在2023年進入黃金時期,圖片類AI生成黃金時期將在2025年左右抵達,3D和視頻類AI生成在2023年可能正處于草稿階段,進入黃金時期或許在2030年。

  AIGC產業應用,如在制造業、建筑業等巨型垂直實體領域中,AIGC的C/Content內容將不僅停留在圖片和文字的領域,而是進入信息更為豐富的領域。

付費5元查看完整內容

為應對數字經濟中數字智能的挑戰,人工智能生成內容(artificial intelligence-generated content, AIGC)應運而生。AIGC通過根據用戶輸入的關鍵字或需求生成內容,使用人工智能來輔助或取代人工內容生成。大型模型算法的發展大大增強了AIGC的能力,這使得AIGC產品成為一種很有前途的生成工具,也為我們的生活增添了便利。AIGC作為一種上游技術,在支持下游應用方面具有無限的潛力。重要的是要分析AIGC當前的功能和缺點,以了解如何在未來的應用中最好地利用它。因此,本文對AIGC的定義、基本條件、前沿功能和高級特性進行了較為全面的綜述。此外,還討論了大規模預訓練模型的優勢和AIGC的產業鏈。此外,文章還探討了AIGC中輔助生成和自動生成之間的區別,并提供了文本生成的示例。本文還探討了AIGC與元宇宙的潛在集成。最后指出了存在的問題和未來的發展方向。1. 引言隨著Web 3.0仍處于蓬勃發展階段[1],人工智能(AI)1已被證明是許多具有挑戰性任務的有效工具,如生成內容、分類和理解。近年來,人工智能的一些進步已經幫助該技術完成了比以前更復雜的任務,例如理解輸入數據,然后生成內容。人工智能生成內容(Artificial Intelligence Generated Content, AIGC)是對專業生成內容(Professional Generated Content, PGC)、用戶生成內容(User Generated Content, UGC)[2]、[3]等傳統內容創作方式的補充。AIGC根據AI技術生成滿足用戶需求的內容。它被認為是一項有前途的技術,有許多應用。因此,了解AIGC的能力和局限性對于充分挖掘其潛力至關重要。

事實上,AIGC的起源可以追溯到更早的時期。其發展歷史大致可以分為三個階段(如圖1所示)。在第一個階段,研究者通過最原始的編程技術控制計算機實現內容的輸出。希勒和艾薩克森在1957年完成了世界上第一首用電腦完成的音樂《伊利亞特組曲》。然后,世界上第一個人機交互機器人Eliza誕生了。Eliza顯示了通過模式匹配和智能短語搜索適當答案的能力,但不反映語義理解。然而,現在大多數人仍然將Eliza視為人工智能的靈感來源。此后二十年,為沉積堆積階段。第二階段假設AIGC的可用性是由于大規模數據庫可用性的提高和計算設備性能的提高。《路》是世界上第一部完全由人工智能創作的小說。隨后,微軟還展示了一個全自動同聲傳譯系統,該系統能夠在短時間內將英語語音翻譯成漢語,準確率達到[4]。然而,算法瓶頸直接限制了AIGC生成豐富內容的能力。第三階段開始于2010年,AIGC進入快速發展階段。Goodfellow[5]提出了一種通用對抗網絡(GAN),利用現有數據生成圖片。在2022年,OpenAI發布了一個新的聊天機器人模型,稱為ChatGPT。它能夠理解人類的語言,并像人類一樣生成文本。月活躍用戶在兩個月內突破1億。20235年1月,每天大約有1300萬獨立訪問者使用ChatGPT。隨著ChatGPT等產品的不斷完善,AIGC顯示出了巨大的應用潛力和商業價值。它引起了企業家、投資者、學者和公眾的廣泛關注。

目前AIGC的內容質量明顯優于以前。此外,AIGC內容的類型也更加豐富,包括文本、圖像、視頻、代碼等。表一列出了一些AIGC型號或各大科技公司開發的經典產品及其應用。ChatGPT是一個基于大型語言模型(LLM)的機器學習系統。在經過幽默的大型文本數據集的訓練后,LLM不僅擅長生成合理的對話,而且還能生成引人注目的片段(如故事和文章)。由于其獨特的人類反饋訓練過程,ChatGPT能夠更精確地理解人類的思維。谷歌聲稱他們即將推出的產品Bard將具有相同的功能,但更側重于生成對話。與ChatGPT相比,Bard可以利用外部知識源,通過提供自然語言問題的答案而不是搜索結果來幫助用戶解決問題。此外,微軟的Turning-NLG是一個擁有170億個參數的LLM,它適用于摘要、翻譯和問答。

擴散模型是圖像生成領域的前沿方法。它的簡單交互和快速生成功能大大降低了進入門檻。幾個流行的應用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已經在社交媒體上產生了指數級的討論和作品展示。NVIDIA是視覺生成研究的先驅。他們的產品(即StyleGAN)是一種最先進的高分辨率圖像合成方法,專門用于圖像生成、藝術和設計。此外,由于不同行業對生成圖片的不同要求,StyleGAN為幾個初創公司提供了機會。例如,Looka專注于logo和網站設計,而Lensa專注于頭像生成。GAN已經能夠生成極其逼真的圖像。DeepMind正試圖將其應用于生成視頻領域。他們提出的模型稱為雙視頻鑒別器GAN (DVD-GAN)[6],可以通過計算高效的鑒別器分解生成更長和更高分辨率的視頻。DVD-GAN是對現實視頻生成的探索。

為了給相關學者和研究人員提供更多的見解和思路,本文重點關注AIGC相關問題,并總結了該領域的新興概念。此外,討論了未來AIGC可能遇到的潛在挑戰和問題,如在道德標準上缺乏全球共識,以及人工智能濫用和濫用的潛在風險。最后,對AIGC的發展和部署提出了展望。我們認為AIGC將為人類實現更便捷的服務和更高的生活質量。本文的主要貢獻如下。

本文給出了AIGC的定義,并討論了其關鍵條件。然后,通過闡述AIGC的3個前沿功能和6個高級特征來展示AIGC帶來的巨大影響。

進一步詳細描述了AIGC的產業鏈,并列出了AIGC中采用的大型預訓練模型的幾個優點。

為揭示AIGC中輔助生成和自動生成之間的差異,本文對文本生成、人工智能輔助寫作和人工智能生成寫作示例進行了深入的討論和分析

從實際應用的角度,總結了AIGC的優缺點,然后介紹了AIGC與Metaverse的結合

最后,指出了AIGC目前需要解決的幾個問題,并提出了未來應用的一些方向

2. 人工智能生成內容(AIGC) 內涵

人工智能生成內容(AIGC)是指由機器生成的博客、營銷材料、文章、產品描述等內容。如圖3所示,AIGC經歷了三種不同的內容生成模式。在PGC模式下,內容由專業團隊[7]、[8]生成。PGC的優點是生成的內容大多是高質量的,但生產周期長,難以滿足產出的數量需求。在UGC模式下,用戶可以選擇多種創作工具自行完成內容生成[9]、[10]。UGC的優勢在于使用這些創意工具可以降低創作的門檻和成本,提高用戶參與創作的積極性。UGC的劣勢在于創作者水平參差不齊,產出內容的質量難以保證。AIGC可以克服PGC和UGC在數量和質量上的不足。它有望成為未來內容生成的主要模式。在AIGC模式中,AI技術利用專業知識提高內容生成的質量,也節省了時間。

如圖4所示,AIGC由三個關鍵部分組成: 數據、硬件和算法。音頻、文本和圖像等高質量數據是訓練算法的基本構建塊。數據量和數據源對[20]預測的準確性有至關重要的影響。硬件,特別是計算能力,構成了AIGC的基礎設施。隨著人們對計算能力需求的不斷增長,更快、更強大的芯片以及云計算解決方案已經變得必不可少。硬件應該能夠處理tb級的數據和具有數百萬個參數的算法。加速芯片與云計算的結合對于提供高效運行大型模型[21]所需的計算能力起著至關重要的作用。最終,算法的性能決定了內容生成的質量,而數據和硬件的支持對于實現最優結果至關重要。

AIGC產業鏈是一個從上游到下游相互關聯的生態系統。如圖8所示,下游應用嚴重依賴上游產品的基礎支持。數據供應商、算法機構、硬件開發機構是上游AIGC的主要組成部分。數據供應商利用網絡爬行技術從新聞網站、博客和社交媒體收集大量文本。然后,利用自然語言處理技術[48]對這些野生數據進行自動標記或處理。算法機構通常由一群經驗豐富的計算機科學家和數學家組成,他們具有深厚的理論背景和實踐經驗。他們可以開發高效準確的算法來解決各種復雜問題。硬件開發機構專注于開發專用芯片、處理器、加速器卡等硬件設備,以加速AI算法的計算速度和響應能力。

大規模人工智能模型是人工智能向通用智能發展的一個重要里程碑。大規模模型的使用明確表明AIGC具有更強的泛化能力。盡管通用數據的激增和可靠數據的缺乏帶來了挑戰,但深度學習完全依賴模型從數據中自動學習,從而顯著提高性能。大規模模型同時具有大規模和預訓練的特點,需要在為實際任務建模之前對大量廣義數據進行預訓練。這些模型被稱為大規模預訓練模型[53]。事實上,AI的大規模模型可以看作是對人類大腦的模擬,這是AI的靈感來源[54]。事實上,人腦是一個具有基本認知能力[55]的大規模模型。人類大腦可以高效地處理來自不同感官的信息,并同時執行不同的認知任務。因此,人工智能大規模模型不僅期望具有眾多參與者,而且能夠有效地理解多模態信息,跨模態感知,并同時在不同任務之間遷移或執行。人工智能大規模模型理解人類思維準確率的提高歸功于基于人類反饋數據訓練模型[56]的系統。

如圖9所示,開發大規模預訓練模型的過程可以分為三個主要步驟。第一步是收集解釋性數據來訓練監督學習策略。第二步涉及收集比較數據來訓練獎勵模型,這使模型能夠做出更準確的預測。最后一步是收集解釋性數據,使用增強學習技術優化模型。這將提高模型的性能和效率

3. 應用

隨著硬件和算法的快速發展,AIGC的應用前景更加廣闊。我們認為AIGC最具潛力的方向包括跨模態生成、搜索引擎優化、媒體制作、電商、電影制作等領域,如圖13所示。

4. 結論

近年來,在海量高質量數據和高性能硬件的支持下,許多用于大型模型的算法得到了快速發展。這些算法不僅具有理解文本的能力,而且具有輔助或自動生成豐富內容的能力。ChatGPT等應用實例展示了AIGC技術的商業價值和應用性能,在短時間內引起了眾多一線企業的廣泛關注和投資。本文簡要介紹了AIGC技術,并闡述了它的特點。此外,還對AIGC能力的優勢和劣勢進行了比較分析。然而,AIGC的發展仍然面臨著許多挑戰和機遇。本文還對AIGC面臨的挑戰和未來方向提出了見解。最后,希望本文的綜述能為學術界、產業界和企業界的發展提供有益的思路,為AIGC領域的進一步探索提供有價值的思考方向和見解。

付費5元查看完整內容

人工智能生成內容(AIGC)是一種使用人工智能算法創造性地生成、操作和修改有價值和多樣化數據的自動化方法。本文**重點研究了ChatGPT和Dall-E等AIGC應用在移動邊緣網絡(mobile AIGC networks)中的部署,這些應用在維護用戶隱私的同時,提供個性化和定制化的實時AIGC服務。**首先介紹了生成模型的背景和基本原理以及移動AIGC網絡的AIGC服務的生命周期,其中包括數據收集、訓練、微調、推理和產品管理。然后,討論了支持AIGC服務并使用戶能夠在移動邊緣網絡訪問AIGC所需的云邊-移動協同基礎設施和技術。探索了AIGC驅動的移動AIGC網絡的創意應用和用例。此外,還討論了部署移動AIGC網絡所面臨的實現、安全和隱私方面的挑戰。最后,指出了完全實現移動AIGC網絡的未來研究方向和開放問題。

//www.zhuanzhi.ai/paper/4db7f7a43d99cc11e86982637091dba0

1. 引言

圖1移動AIGC網絡概述,包括云層、邊緣層、D2D移動層。AIGC服務的生命周期,包括數據收集、預訓練、微調、推理和產品管理,在核心網絡和邊緣網絡之間循環。

**近年來,人工智能生成內容(artificial intelligence-generated content, AIGC)已成為一種生產、操作和修改數據的新方法。**通過利用AI技術,AIGC將內容生成與傳統的專業生成內容(PGC)和用戶生成內容(UGC)[1] -[3]一起自動化。隨著數據創建的邊際成本降低到幾乎為零,AIGC(例如ChatGPT)有望為人工智能發展和數字經濟提供大量合成數據,為社會提供顯著的生產力和經濟價值。人工智能技術的不斷進步,特別是在大規模和多模態模型[4],[5]領域,推動了AIGC能力的快速增長。這一進展的一個主要例子是DALL-E[6]的開發,這是一個基于OpenAI最先進的GPT-3語言模型的人工智能系統,由1750億個參數組成,旨在通過預測連續的像素來生成圖像。在其最新迭代DALL-E2[7]中,采用擴散模型來減少訓練過程中產生的噪聲,從而生成更精細和新穎的圖像。在使用AIGC模型生成文本到圖像的背景下,語言模型起著指導作用,增強了輸入提示和結果圖像之間的語義一致性。同時,AIGC模型處理現有的圖像屬性和組件,從現有數據集生成無限的合成圖像。

**基于具有數十億個參數的大規模預訓練模型,AIGC服務旨在增強知識和創造性工作領域,這些領域雇用了數十億人。**通過利用生成式人工智能,這些領域可以實現至少10%的內容創造效率提高,可能產生數萬億美元的經濟價值。AIGC可以應用于各種形式的文本生成,從實際應用(如客戶服務查詢和消息)到創造性任務(如活動跟蹤和營銷文案[9])。例如,OpenAI的ChatGPT[10]可以根據用戶提供的提示自動生成有社會價值的內容。通過與ChatGPT進行廣泛而連貫的對話,來自各行各業的人可以在調試代碼、發現健康食譜、編寫腳本和設計營銷活動方面尋求幫助。在圖像生成領域,AIGC模型可以根據現有圖像的屬性和成分處理現有圖像,實現端到端的圖像合成,如直接從現有的[7]圖像生成完整的圖像。此外,AIGC模型在跨模態生成方面具有巨大的潛力,因為它們可以在空間上處理現有的視頻屬性,并同時自動處理多個視頻片段[11]。

與PGC和UGC相比,AIGC在內容創造方面的優勢已經顯而易見。具體來說,生成式AI模型可以在幾秒鐘內產生高質量的內容,并提供為用戶需求量身定制的個性化內容[2]。隨著時間的推移,AIGC的性能得到了顯著提高,這是由增強的模型、增加的數據可用性和更大的計算能力[12]驅動的。一方面,先進的模型[4],如擴散模型,為跨模態AIGC生成提供了更強大的工具。這些進展歸功于生成式人工智能模型的基礎性研究,以及生成式深度神經網絡(DNN)中學習范式和網絡結構的不斷細化。另一方面,隨著網絡日益互聯,用于生成式人工智能訓練和推理的數據和計算能力變得更加容易獲得[9],[13]。例如,需要數千個GPU的AIGC模型可以在云數據中心進行訓練和執行,使用戶能夠通過核心網絡提交頻繁的數據生成請求。

盡管AIGC具有革新現有生產流程的潛力,但在移動設備上訪問AIGC服務的用戶目前缺乏對交互式和資源密集型數據生成服務[14],[25]的支持。首先,可以利用云數據中心強大的計算能力訓練AIGC預訓練模型,如用于ChatGPT的GPT-3和用于ChatGPT Plus的GPT-4。用戶通過在云服務器上執行AIGC模型,通過核心網絡訪問基于云的AIGC服務。然而,由于其遠程特性,云服務具有較高的延遲。因此,在移動邊緣網絡,即圖1所示的移動AIGC網絡上部署交互密集型的AIGC業務,應該是一個更實際的選擇[26]-[28]。具體而言,開發移動AIGC網絡的動機包括

低延遲:用戶可以訪問移動AIGC網絡[29]中的低延遲服務,而不是將AIGC服務請求定向到核心網內的云服務器。例如,用戶可以通過將預訓練模型下載到邊緣服務器和移動設備進行微調和推理,直接在無線接入網絡(RANs)中獲得AIGC服務,從而支持實時、交互式的AIGC。

本地化和移動性:在移動AIGC網絡中,在網絡邊緣設有計算服務器的基站可以通過本地化服務請求[30]、[31]來微調預訓練模型。此外,用戶的位置可以作為AIGC微調和推理的輸入,解決特定的地理需求。此外,用戶移動性可以集成到AIGC服務提供過程中,實現動態、可靠的AIGC服務提供。

自定義和個性化:本地邊緣服務器可以適應本地用戶需求,允許用戶根據自己的偏好請求個性化服務,同時根據本地服務環境提供定制化服務。一方面,邊緣服務器通過對AIGC服務[2]進行相應微調,可以根據本地用戶群體的需求定制AIGC服務;另一方面,用戶可以通過指定偏好向邊緣服務器請求個性化服務。

隱私和安全:AIGC用戶只需要向邊緣服務器提交服務請求,而不需要將偏好發送到核心網絡內的云服務器。因此,AIGC用戶的隱私和安全可以在AIGC服務的提供過程中得到保護,包括服務的微調和推斷。

如圖1所示,當用戶通過邊緣服務器和移動設備在移動邊緣網絡上訪問AIGC服務時,有限的計算、通信和存儲資源為交付交互式和資源密集型的AIGC服務帶來了挑戰。首先,邊緣服務器上的資源分配必須權衡邊緣服務器AIGC服務的準確性、延遲和能耗。此外,計算密集型的AIGC任務可以從移動設備卸載到邊緣服務器,提高推理延遲和服務可靠性。此外,生成內容的AI模型可以被緩存在邊緣網絡中,類似于內容分發網絡(CDN)[32],[33],以減少訪問模型的延遲。最后,探索移動性管理和激勵機制,在空間和時間上鼓勵用戶參與。與傳統人工智能相比,AIGC技術需要算法的整體技術成熟度、透明性、魯棒性、公正性和洞察力,才能有效地應用于實際。從可持續性的角度來看,AIGC可以使用現有的和合成的數據集作為生成新數據的原材料。然而,當有偏數據被用作原始數據時,這些偏差會持續存在于模型的知識中,這不可避免地導致算法的結果不公平。最后,靜態AIGC模型主要依賴模板來生成機器生成的內容,這些內容可能具有類似的文本和輸出結構。

本文概述了與AIGC和移動邊緣智能相關的研究活動,如圖2所示。鑒于人們對AIGC的興趣日益增加,最近發表了一些相關主題的調研報告。表一列出了這些調查與本文的比較。

**[34]中的研究提供了研究人員和行業發表的當前AIGC模型的全面概述。**作者確定了9個類別,總結了生成式人工智能模型的演變,包括文本到文本、文本到圖像、文本到音頻、文本到視頻、文本到3D、文本到代碼、文本到科學、圖像到文本和其他模型。此外,他們揭示,只有6個具有巨大計算能力和高技能和經驗豐富的團隊可以部署這些最先進的模型,這甚至比類別的數量還要少。按照[34]中開發的生成式AI模型的分類法,其他調研隨后詳細討論了生成式AI模型。在[9]中的研究檢查了現有的生成文本和檢測模型的方法。[18]的研究提供了多模態圖像合成和處理的主要方法、數據集和評估指標的全面概述。[24]的研究基于語音和圖像合成技術,總結了現有的基于深度生成模型的同步語音手勢生成工作。在[16]上的研究探討了與人工智能生成音樂相關的版權法,其中包括人工智能工具、開發者、用戶和公共領域之間的復雜交互。[4]中的研究為高級生成模型提供了全面的指導和比較,包括GAN、基于能量的模型、變分自編碼器(VAE)、自回歸模型、基于流的模型和擴散模型。隨著擴散模型在產生創造性數據方面受到廣泛關注,對[21]的研究給出了擴散模型的基本算法和全面分類。基于這些算法,作者[1]從藝術分析人工智能和藝術創作人工智能兩個角度闡述了藝術與人工智能的互動。此外,作者還在[2]中討論了在元宇宙中應用計算藝術來創建超現實的網絡空間。

圖3:本次調研的大綱,介紹了移動邊緣網絡的AIGC服務提供,并強調了移動邊緣網絡在提供AIGC服務方面的一些基本實現挑戰。

在6G[19]中,針對智能移動網絡,引入了基于邊緣計算系統的移動邊緣智能,包括邊緣緩存、邊緣計算和邊緣智能。[17]研究探討了分布式學習在無線網絡中的部署。研究[15]為聯邦學習提供了指南,并對在移動邊緣網絡中實現聯邦學習(FL)進行了全面概述。作者詳細分析了實現FL所面臨的挑戰,包括通信成本、資源分配、隱私和安全。在[12]中,詳細介紹了邊緣智能和智能邊緣的各種應用場景和技術。此外,[20]研究還討論了6G無線網絡低功耗、低延遲、可靠可信邊緣智能的前景和潛力。[22]研究探索了區塊鏈技術如何用于實現邊緣智能,以及邊緣智能如何支持區塊鏈在移動邊緣網絡的部署。對區塊鏈驅動的邊緣智能、邊緣智能友好的區塊鏈及其在移動邊緣網絡中的實現進行了全面的綜述。[23]還提供了在移動邊緣網絡實現元宇宙的愿景。詳細討論了使能技術和挑戰,包括通信與網絡、計算和區塊鏈。

與現有的調研和教程不同,本文的調研集中于移動AIGC網絡的部署,以提供實時和隱私保護的AIGC服務。介紹了移動邊緣網絡中AIGC和協同基礎設施的發展現狀。隨后,介紹了深度生成模型技術以及在移動AIGC網絡中提供AIGC服務的工作流程。此外,還展示了創造性的應用程序和幾個示范用例。確定了移動AIGC網絡部署的實現挑戰,從資源分配到安全和隱私**。我們的調研貢獻如下**。

-我們首先提供一個教程,建立AIGC服務的定義、生命周期、模型和指標。然后,提出了移動AIGC網絡,即在移動邊緣網絡上提供AIGC服務,與移動邊緣-云協作的通信、計算和存儲基礎設施。

-介紹了移動AIGC網絡中的幾個用例,包括用于文本、圖像、視頻和3D內容生成的創造性AIGC應用程序。總結了基于這些用例構建移動AIGC網絡的優勢。

-確定了實現移動AIGC網絡的關鍵實現挑戰。移動AIGC網絡的實施挑戰不僅來自于動態的信道條件,還來自于AIGC服務中無意義內容、不安全內容規則和隱私泄露。

-最后,分別從網絡與計算、機器學習(ML)和實際實現考慮等角度討論了未來的研究方向和開放問題。

如圖3所示,調研的組織如下。第二節考察了AIGC的背景和基礎。第三部分介紹了移動AIGC網絡的技術和協作基礎設施。第四節討論了移動AIGC網絡的應用和優勢,第五節展示了潛在的用例。第六節討論了實現中的挑戰。第七部分探討了未來的研究方向。第八節提出結論。

付費5元查看完整內容

隨著ChatGPT的病毒式傳播,生成式AI (AIGC,又名AI生成內容)已經成為各地的頭條新聞,因為它具有分析和創建文本、圖像等的能力。在如此鋪天蓋地的媒體報道下,我們幾乎不可能錯過從某個角度一瞥AIGC的機會。在人工智能從純分析過渡到創造的時代,值得注意的是,ChatGPT及其最新的語言模型GPT-4,只是眾多AIGC任務中的一個工具。ChatGPT的能力給許多人留下了深刻的印象,他們想知道它的局限性: GPT-5(或其他未來的GPT變體)能否幫助ChatGPT統一所有AIGC任務,以進行多樣化的內容創建?為了回答這個問題,需要對現有的AIGC任務進行全面的回顧。**因此,我們的工作來填補這一空白,通過提供AIGC的第一眼,從它的技術到應用。現代生成式人工智能依賴于各種技術基礎,從模型架構和自監督預訓練到生成式建模方法(如GAN和擴散模型)。**在介紹基本技術的基礎上,根據AIGC任務的輸出類型,包括文本、圖像、視頻、3D內容等,重點介紹了AIGC任務的技術發展情況,展現了ChatGPT未來的潛力。此外,總結了它們在一些主流行業的重要應用,如教育和創意內容。討論了目前面臨的挑戰,并對生成式人工智能在不久的將來可能如何發展提出了展望。 //www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b

1. 引言

生成式人工智能(AIGC,又稱人工智能生成內容)已經通過ChatGPT或DALLE[343]等有趣的工具成為頭條新聞,這表明人工智能的新時代正在到來。在鋪天蓋地的媒體報道下,普通大眾有很多機會一睹AIGC的風采。然而,媒體報道的內容往往是有偏見的,有時是誤導性的。此外,ChatGPT的強大功能給許多人留下了深刻的印象,他們想知道它的局限性。最近,OpenAI發布了GPT-4[307],與之前的變體GPT-3相比,性能有了顯著的提高,以及多模態生成能力,如理解圖像。AIGC支持的GPT-4的強大功能給許多人留下了深刻的印象,許多人想知道它的局限性:GPT-5(或其他GPT變體)能否幫助下一代ChatGPT統一所有的AIGC任務?因此,對生成式人工智能的全面回顧是應對人工智能驅動的內容創作這一必然趨勢的基礎。更重要的是,我們的工作及時填補了這一空白。 **傳統人工智能的目標主要是進行分類[263]或回歸[227]。這種判別性方法主要用于分析現有數據。**因此,傳統人工智能也經常被稱為分析人工智能。相比之下,生成式AI通過創建新內容來區分。然而,生成式人工智能通常也要求模型在生成新內容之前首先理解一些現有數據(如文本指令)[40,342]。從這個角度來看,分析型AI可以被視為現代生成型AI的基礎,它們之間的邊界往往是模糊的。請注意,分析性AI任務也會生成內容。例如,在圖像分類中生成標簽內容[216]。然而,圖像識別往往不被考慮在生成式人工智能的范疇內,因為標簽內容的維數較低。生成式人工智能的典型任務涉及生成高維數據,如文本或圖像。這些生成的內容也可以用作合成數據,以緩解深度學習對更多數據的需求[144]。第2節概述了生成式人工智能的流行及其背后的原因。 **如上所述,生成式AI與傳統AI的區別在于其生成的內容。也就是說,生成式AI在概念上類似于AIGC(又稱AI生成內容)[304]。**在描述基于AI的內容生成的背景下,這兩個術語通常可以互換。本文為簡單起見,將內容生成任務稱為AIGC。例如,ChatGPT是用于AIGC任務的工具,稱為聊天機器人[43],考慮到AIGC任務的多樣性,這只是冰山一角。盡管生成式AI和AIGC非常相似,但這兩個術語有細微的區別。AIGC專注于內容生成的任務,而生成AI還考慮了支持各種AIGC任務開發的基本技術基礎。本文將這些基礎技術分為兩類。第一類指的是生成式建模技術,如GAN[124]和擴散模型[156],它們與內容創作的生成式AI直接相關。第二類人工智能技術主要由骨干架構(如Transformer[443])和自監督預訓練(如BERT[87]或MAE[141])組成。其中一些是在分析AI的背景下開發的。然而,它們也成為展示競爭性能的關鍵,特別是在具有挑戰性的AIGC任務中。考慮到這一點,第3節總結了這兩類基礎技術。 **在這些基本技術之上,許多AIGC任務已經成為可能,并且可以根據生成的內容類型直接進行分類。**第4、5和6節對AIGC任務的發展進行了總結。具體來說,第4節和第5節分別關注文本輸出和圖像輸出。對于文本生成,聊天機器人[43]和機器翻譯[497]是兩個主要任務。一些文本生成任務也將其他模態作為輸入,主要關注圖像和語音。對于圖像生成,兩個主要任務是圖像恢復和編輯[253]。最近,文本到圖像(text-to-image)引起了廣泛關注。除了以上兩種主要的輸出類型(即文本和圖像),第6節還涵蓋了其他類型的輸出,如視頻、3D、語音等。 **隨著技術的進步,AIGC的性能在越來越多的任務中得到了滿足。**例如,聊天機器人過去僅限于回答簡單的問題。然而,最近的ChatGPT已經被證明可以理解笑話并在簡單的指令下生成代碼。文本到圖像曾經被認為是一項具有挑戰性的任務;然而,最近的DALL-E 2[342]和穩定擴散[357]已經能夠生成逼真的圖像。因此,AIGC應用于行業的機會出現了。章節7介紹了AIGC在各個行業的應用,包括娛樂、數字藝術、媒體/廣告、教育等。隨著AIGC在現實世界中的應用,也出現了許多倫理問題等挑戰。除了當前的挑戰,還提出了對生成式人工智能可能如何發展的展望。 本文從生成內容(即AIGC任務)的角度對生成人工智能進行了調查,涵蓋其基本技術、任務級技術發展、行業應用以及社會影響。論文結構的概述如圖4所示。

2. 概述

采用AI進行內容創作有很長的歷史。1954年,IBM在紐約的總部首次公開演示了機器翻譯系統。1957年,第一首電腦生成的音樂誕生了,名為“伊利亞克組曲”。這種早期的嘗試和概念證明的成功引起了人們對人工智能未來的高度期待,這促使政府和公司向人工智能投資大量資源。然而,如此高的投資熱潮并沒有產生預期的產出。在那之后,一個被稱為人工智能冬天的時期到來了,這極大地破壞了人工智能及其應用的發展。進入2010年代,人工智能再次流行起來,特別是在2012年AlexNet[216]用于ImageNet分類的成功之后。進入21世紀20年代,人工智能已經進入了一個新時代,不僅可以理解現有數據,還可以創建新的內容[40,342]。本節通過關注生成AI的流行及其原因來概述它。 3 AIGC背后的基本技術

本文將AIGC視為一組用人工智能方法生成內容的任務或應用。在介紹AIGC之前,我們首先了解AIGC背后的基本技術,這些技術在技術層面上屬于生成式人工智能的范圍。本文將基本技術大致分為兩類:生成技術和創造技術。具體來說,創建技術是指能夠生成各種內容的技術,例如GAN和擴散模型。通用技術不能直接生成內容,但對AIGC的開發至關重要,例如Transformer架構。在本節中,我們將簡要總結AIGC所需的技術。

4 AIGC任務:文本生成

NLP研究自然語言,有兩個基本任務:理解和生成。這兩個任務并不是完全獨立的,因為適當文本的生成通常依賴于對一些文本輸入的理解。例如,語言模型通常將文本序列轉換為另一個文本序列,這構成了文本生成的核心任務,包括機器翻譯、文本摘要和對話系統。除此之外,文本生成向兩個方向發展:可控性和多模態。第一個方向是生成內容。 4.1 文本到文本

4.1.1聊天機器人 對話系統(聊天機器人)的主要任務是在人類和機器之間提供更好的交流[85,299]。根據應用中是否指定任務,對話系統可以分為兩類:(1)任務導向型對話系統(TOD)[323,502,533]和(2)開放域對話系統(OOD)[4,532,541]。具體來說,面向任務的對話系統專注于任務完成和解決特定問題(例如,餐廳預訂和機票預訂)[533]。同時,開放域對話系統通常是數據驅動的,目的是在沒有任務或域限制的情況下與人類聊天[353,533]。面向任務的系統。面向任務的對話系統可以分為模塊化系統和端到端系統。模塊化方法包括四個主要部分: 自然語言理解(NLU)[395,409],對話狀態跟蹤(DST)[382,462],對話策略學習(DPL)[169,483]和自然語言生成(NLG)[25,99]。在用NLU將用戶輸入編碼為語義槽后,DST和DPL決定下一個動作,然后由NLG轉換為自然語言作為最終響應。這四個模塊旨在以可控的方式產生響應,并可以單獨優化。然而,有些模塊可能是不可微的,單個模塊的改進可能不會導致整個系統的改進[533]。為了解決這些問題,端到端方法要么通過使每個模塊可微[139,162]來實現端到端訓練管道,要么在系統中使用單個端到端模塊[498,531]。模塊化系統和端到端系統仍然存在一些挑戰,包括如何提高DST[208,312]的跟蹤效率,以及如何提高具有有限數據的端到端系統的響應質量[145,148,282]。

**Open-domain系統。**開放域系統旨在與沒有任務和域限制的用戶聊天[353,533],可以分為三種類型:基于檢索的系統,生成系統和集成系統[533]。基于檢索的系統總是從響應語料庫中找到現有的響應,而生成系統可以生成可能不會出現在訓練集中的響應。集成系統通過選擇最佳響應或用生成模型優化基于檢索的模型[378,533,546],將基于檢索的方法和生成的方法相結合。之前的工作從多個方面改進了開放域系統,包括對話上下文建模[105,181,250,282],提高響應一致性[9,117,251,483]和多樣性[31,211,335,408]。最近,ChatGPT(參見圖12)取得了前所未有的成功,也屬于開放域對話系統的范圍。除了回答各種問題,ChatGPT還可以用于論文寫作、代碼調試、表生成等。

4.1.2 機器翻譯

顧名思義,機器翻譯自動將文本從一種語言翻譯為另一種語言171,7497。隨著深度學習取代基于規則的[108]和基于統計的[212,213]方法,神經機器翻譯(NMT)需要最少的語言專業知識[399,451],并因其在句子中捕獲長依賴的能力更高[62]而成為一種主流方法。神經機器學習的成功主要歸功于語言模型[34],它以前一個詞為條件來預測一個詞出現的概率。Seq2seq[413]是將編碼器-解碼器RNN結構[191]應用于機器翻譯的開創性工作。當句子變長時,Seq2seq[413]的性能會變差,針對這一問題,[24]中提出了一種注意力機制,通過額外的單詞對齊來幫助翻譯長句子。隨著越來越多的關注,2006年,與谷歌的基于短語的生成系統相比,谷歌的NMT系統幫助減少了約60%的人工翻譯工作量,彌補了人類翻譯和機器翻譯之間的差距[475]。基于CNN的架構也已被研究用于NMT,并進行了多次嘗試[190,192],但未能取得與由注意力[24]增強的RNN相當的性能。Convolutional Seq2seq[120]使CNN與注意力機制兼容,表明CNN可以取得與RNN相當甚至更好的性能。然而,這種改進后來被另一種稱為Transformer[443]的架構超越。使用RNN或Transformer作為架構,NMT通常使用自回歸生成模型,其中貪婪搜索只考慮在推理過程中預測下一個工作概率最高的單詞。NMT的一個趨勢是在低資源設置中取得令人滿意的性能,其中模型是用有限的雙語語料庫訓練的[458]。緩解這種數據稀缺的一種方法是利用輔助語言,如使用其他語言對進行多語言訓練[187,383,547],或以英語作為中間中間中間語言[58,350]的中間中間語言轉換[58,350]。另一種流行的方法是利用預訓練語言模型,如BERT[87]或GPT[338]。例如,在[359]中顯示,使用BERT[87]或RoBERTa[259]初始化模型權重可以顯著提高英德翻譯性能。在不需要微調的情況下,GPT家族模型[40,338,339]也顯示出具有競爭力的性能。最近,ChatGPT在機器翻譯中顯示了其能力,與商業產品(如谷歌翻譯)相比表現出了競爭力[182]。

4.2多模態文本生成 4.2.1圖像到文本。 圖像到文本,也稱為圖像描述,指的是用自然語言描述給定圖像的內容(參見圖14)。該領域的一項開創性工作是神經圖像描述(NIC)[447],它使用CNN作為編碼器來提取輸入圖像的高級表示,然后將這些表示輸入RNN解碼器以生成圖像描述。這種兩步編碼器-解碼器架構已被廣泛應用于后期關于圖像描述的工作中,我們將其分別稱為視覺編碼[407]和語言解碼。本文首先回顧了圖像描述的兩個階段的歷史和最近的趨勢。 **視覺編碼。**提取圖像的有效表示是視覺編碼模塊的主要任務。從NIC[447]開始,使用GoogleNet[417]提取輸入圖像的全局特征,多個工作采用各種CNN骨干網絡作為編碼器,包括[195]中的AlexNet[216]和[92,272]中的VGG網絡[393]。然而,語言模型很難生成具有全局視覺特征的細粒度標題。以下工作介紹了細粒度視覺特征的注意力機制,包括對CNN特征的不同網格[56,264,463,484]或不同視覺區域[16,200,518]的注意力。另一個分支工作[500,536]采用圖神經網絡來編碼不同區域之間的語義和空間關系。然而,人類定義的圖結構可能會限制元素之間的相互作用[407],這可以通過連接所有元素的自注意力方法231,501,530來緩解。 **語言解碼。**在圖像描述中,語言解碼器通過預測給定單詞序列的概率來生成標題[407]。受NLP領域突破的啟發,語言解碼器的骨干從RNN[200, 264, 447, 456]發展到Transformer[132, 149, 231],實現了顯著的性能提升。除了視覺編碼器-語言解碼器架構之外,一個分支工作采用類似BERT的架構,在單個模型的早期階段融合圖像和標題[244,526,542]。例如,[542]采用單個編碼器來學習圖像和文本的共享空間,首先在大型圖像-文本語料庫上進行保留并進行微調,特別是針對圖像描述任務。 4.2.2 語音到文本生成

語音到文本生成,也稱為自動語音識別(ASR),是將口語,特別是語音信號轉換為相應文本的過程173,347。ASR有許多潛在的應用,如語音撥號、計算機輔助語言學習、字幕生成以及Alexa和Siri等虛擬助手,自20世紀50年代以來,ASR一直是一個令人興奮的研究領域[194,270,345],并從隱馬爾可夫模型(HMM)[188, 225]發展到基于DNN的系統[75,127,152,297,473]。

**各種研究主題和挑戰。**已有工作對ASR系統進行了多方面的改進。多個工作討論了語音信號的不同特征提取方法[270],包括時間特征(如離散小波變換[287,419])和譜特征(如最常用的梅爾頻率倒譜系數(MFCC)[61,69,429])。另一個工作分支將系統管道[355]從多模型[268]改進為端到端[161,233,234,296,453]。具體來說,多模型系統[268,270]首先學習聲學模型(例如,將特征映射到音素的音素分類器),然后學習單詞輸出的語言模型[355]。另一方面,端到端模型直接從音頻輸入預測轉錄[161,233,234,296,453]。盡管端到端模型在各種語言和方言中取得了令人印象深刻的性能,但仍然存在許多挑戰。首先,它們在資源不足的語音任務中的應用仍然具有挑戰性,因為獲取大量標注的訓練數據是昂貴和耗時的[104,355]。其次,這些系統可能很難處理具有特殊詞匯表外單詞的語音,并且可能在訓練數據上表現良好,但可能對新的或未見過的數據[104,334]泛化能力不強。此外,訓練數據中的偏差也會影響有監督ASR系統的性能,導致對某些人群或語音風格[35]的準確性較差。 **資源受限的語音任務。**研究人員致力于研究克服ASR系統挑戰的新技術,其中主要討論了語音資源不足的問題,即缺乏語音受損的數據[355]。一個工作分支[321,346]采用多任務學習來優化不同任務的共享編碼器。與此同時,自監督ASR系統最近成為一個不依賴大量標記樣本的活躍研究領域。具體來說,自監督ASR系統首先在大量未標記語音數據上預訓練模型,然后在較小的標記數據集上進行微調,以促進ASR系統的效率。它可以應用于低資源語言,處理不同的說話風格或噪聲條件,并轉錄多種語言[23,71,255,492]。

5 AIGC任務:圖像生成

與文本生成類似,圖像生成的任務也可以根據其輸入控制分為不同的類別。由于輸出是圖像,一個簡單的控制類型是圖像。圖像類型的控制引起了大量的任務,如超分辨率、去模糊、編輯、翻譯等。圖像類型控件的一個限制是缺乏靈活性。相比之下,文本引導控制可以根據人類的自由意志生成任何風格的任何圖像內容。文本到圖像屬于跨模態生成的范疇,因為輸入文本與輸出圖像是不同的模態。 5.1圖像到圖像

5.1.1圖像恢復 圖像恢復解決了一個典型的逆向問題,即從相應的退化版本恢復干凈的圖像,示例如圖16所示。由于退化圖像與純凈圖像之間存在無限種可能的映射關系,因此這種反問題的病態性質是非平凡的。退化有兩個來源:原始圖像中的信息缺失和在干凈的圖像中添加了一些不受歡迎的東西。前一種退化包括拍攝一張低分辨率的照片,從而丟失一些細節信息,裁剪某個區域,并將彩色圖像轉換為灰色形式。恢復任務依次是圖像超分辨率、修復和著色。另一類恢復任務旨在消除不受歡迎的干擾,如去噪,去霧,去模糊等。早期恢復技術主要使用數學和統計建模來消除圖像退化,包括用于去噪的空間濾波器[123,392,529],用于去模糊的核估計[485,489]。最近,基于深度學習的方法[42,59,93,177,248,252,481,486]由于其通用性和比傳統方法優越的視覺質量,在圖像恢復任務中發揮了主導作用。CNN被廣泛用于圖像恢復[94,411,442,459]中作為構建塊,而最近的工作探索了更強大的transformer架構,并在各種任務中取得了令人印象深刻的性能,如圖像超分辨率[247]、著色[218]和修復[240]。也有一些工作將CNN和Transformer的強度結合在一起[103,534,535]。 **復原的生成方法。**典型的圖像恢復模型在重建損失的情況下學習源(退化)圖像和目標(干凈)圖像之間的映射。根據任務的不同,可以通過對干凈的圖像進行各種擾動(包括分辨率下采樣和灰度變換)來生成訓練數據對。為了保持更多的高頻細節并創建更真實的圖像,生成模型被廣泛用于修復,例如超分辨率[223,460,528]和修復[42,252,298]中的GAN。然而,基于gan的模型通常遭受復雜的訓練過程和模式崩潰。這些缺點和DMs的大規模流行導致許多最近的工作將DMs用于圖像恢復任務[199,232,265,349,367,369]。像GAN和DM這樣的生成方法也可以從單個退化圖像中產生多種不同的干凈輸出。 **從單任務到多任務。**現有的大多數復原方法針對不同形式的圖像退化訓練單獨的模型。這限制了它們在實際用例中的有效性,在實際用例中,圖像被退化的組合損壞。為了解決這個問題,一些研究[6,207,391,540]引入了多失真數據集,這些數據集結合了不同強度的各種退化形式。一些研究[207,258,505,509]提出了不同的恢復模型,其中不同的子網絡負責不同的退化。另一項工作[228,242,391,410,540]依賴注意力模塊或引導子網絡來幫助恢復網絡通過不同的退化,允許單個網絡處理多個退化

5.1.2 圖像編輯

圖像編輯是指修改圖像以滿足某種需求,如風格遷移(見圖17),而圖像恢復是為了增強圖像質量。從技術上講,一些圖像恢復任務,如著色,也可能被視為圖像編輯,因為將添加顏色視為所需的需求。現代相機通常具有基本的編輯功能,如銳度調整[524]、自動裁剪[525]、紅眼去除[396]等。然而,在AIGC中,我們對高級圖像編輯任務更感興趣,這些任務以各種形式改變圖像語義,如內容、樣式、對象屬性等。 5.2 多模態圖像生成

文本到圖像(T2I)任務旨在從文本描述生成圖像(見圖??),可以追溯到從標簽或屬性[405,495]生成圖像。AlignDRAW[271]是一項從自然語言生成圖像的開創性工作,令人印象深刻的是,AlignDRAW[271]可以從新穎的文本中生成圖像,如“一個停車標志在藍天中飛翔”。最近,文本到圖像領域的進展可以分為三個分支,包括基于GAN的方法,自回歸方法和基于擴散的方法。

付費5元查看完整內容

最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。

1. 引言

近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。

**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。

除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。

結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。

綜上所述,本文的主要貢獻如下:

據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。

回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。

討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。

調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力

生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。

3. 生成式人工智能

我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。

多模態模型

多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。

4. 應用

5. 效率

在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:

推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。

付費5元查看完整內容

AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。   自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。   ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。   生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。   人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。   未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。

付費5元查看完整內容

生成對抗網絡(GAN)已經在計算機視覺、自然語言處理等領域推廣了各種應用,因為它的生成模型能夠從現有的樣本分布中合理地生成真實的例子。GAN不僅在基于數據生成的任務上提供了令人印象深刻的性能,而且由于其博弈優化策略,也為面向隱私和安全的研究提供了有利條件。遺憾的是,目前并沒有對GAN在隱私和安全方面進行全面的綜述,這也促使了本文對這些最新的研究成果進行系統的總結。現有的作品根據隱私和安全功能進行適當的分類,并對其優缺點進行綜合分析。鑒于GAN在隱私和安全方面仍處于非常初級的階段,并提出了有待解決的獨特挑戰,本文還闡述了GAN在隱私和安全方面的一些潛在應用,并闡述了未來的一些研究方向。

生成對抗網絡(Generative Adversarial Networks, GAN)帶來的技術突破迅速對機器學習及其相關領域產生了革命性的影響,這種影響已經蔓延到各個研究領域和應用領域。作為一種強大的生成框架,GAN顯著促進了許多復雜任務的應用,如圖像生成、超分辨率、文本數據操作等。最近,利用GAN為嚴重的隱私和安全問題制定優雅的解決方案,由于其博弈優化策略,在學術界和業界都變得越來越流行。本綜述的目的是提供一個關于GAN的全面的回顧和深入總結的最新技術,并討論了一些GAN在隱私和安全領域有前途的未來研究方向。我們以對GAN的簡要介紹開始我們的綜述。

付費5元查看完整內容
北京阿比特科技有限公司