亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

關于ChatGPT的一切,讀這篇論文就行了!

OpenAI最近發布了GPT-4(又名ChatGPT plus),這被證明是生成式AI (GAI)的一小步,但卻是通用人工智能(AGI)的一大步。自2022年11月正式發布以來,ChatGPT憑借媒體的廣泛報道迅速吸引了眾多用戶。這種前所未有的關注也促使眾多研究者從各個方面對ChatGPT進行研究。據谷歌scholar統計,有500多篇文章的標題中有ChatGPT或在摘要中提到它。考慮到這一點,迫切需要進行調研,我們的工作填補了這一空白。首先對ChatGPT的底層技術、應用以及面臨的挑戰進行了全面的綜述。對ChatGPT如何演變為實現通用AIGC(即AI生成內容)的前景進行了展望,這將是AGI發展的一個重要里程碑

1. 引言

過去幾年見證了大量生成式AI (AIGC,又稱AI生成內容)工具的出現[73,135,141],這表明AI已經進入了一個創造而不是純粹理解內容的新時代。關于生成式AI (AIGC)的完整調查,讀者可以參考[214]。在這些AIGC工具中,2022年11月發布的ChatGPT引起了前所未有的關注。它吸引了眾多用戶,月活躍用戶在短短兩個月內就突破了1億,打破了其他社交產品的用戶增長記錄[118]。ChatGPT是由OpenAI開發的,它最初是一個非營利性研究實驗室,使命是構建安全有益的人工通用智能(AGI)。OpenAI在2020年宣布GPT-3后,逐漸被公認為世界領先的AI實驗室。最近,它發布了GPT-4,這可以被視為生成AI的一小步,但對于AGI來說是一大步。

由于其令人印象深刻的語言理解能力,許多新聞文章提供了廣泛的報道和介紹,舉幾個例子,BBC Science Focus [69], BBC news [39], CNN Business [79], Bloomberg news[157]。谷歌管理層針對ChatGPT的威脅發布了“紅色警報”,暗示ChatGPT對公司,尤其是其搜索服務構成了重大威脅。在微軟將ChatGPT引入必應(Bing)搜索服務之后,這種危險似乎更難被忽視。股價的變化也反映出微軟相信ChatGPT可能會幫助必應與谷歌搜索競爭。這種對ChatGPT前所未有的關注,也促使眾多研究人員從各個方面對這個有趣的AIGC工具進行研究[149,163]。根據我們在谷歌scholar上的文獻綜述,不少于500篇文章在標題中包含ChatGPT或在摘要中提到這個病毒式的術語。如果沒有一個完整的調查,讀者很難掌握ChatGPT的進展。我們的全面綜述及時提供了對ChatGPT的初步了解

由于本次綜述的主題可以看作是一個商業工具,因此我們首先介紹了開發ChatGPT的公司OpenAI的背景。此外,本綜述還對ChatGPT的功能進行了詳細的討論。在背景介紹之后,本工作總結了ChatGPT背后的技術。具體來說,我們介紹了它的兩個核心技術:Transformer架構和自回歸修飾,在此基礎上,我們給出了大型語言模型GPT從v1到v4的技術路徑[18,122,136,137]。強調了突出的應用和相關的挑戰,如技術限制、濫用、倫理和監管。最后,我們對ChatGPT未來如何演變為通用AIGC以實現AGI的最終目標進行了展望,從而總結了本調查。我們工作的結構化概述如圖1所示。

2 ChatGPT概述

首先,我們提供了ChatGPT的背景和相應的組織,即旨在構建人工通用智能(AGI)的OpenAI。期望AGI能夠解決人類層面的問題以及超越人類層面的問題,前提是建立安全、可信、有益于我們社會的系統。

2.1 OpenAI

OpenAI是一個研究實驗室,由一組致力于構建安全和有益AGI[50]的研究人員和工程師組成。它成立于2015年12月11日,由一群備受矚目的科技高管組成,包括特斯拉CEO Elon Musk, SpaceX總裁Gwynne Shotwell, LinkedIn聯合創始人Reid Hoffman,以及風險投資家Peter Thiel和Sam Altman[78]。在這一小節中,我們將討論OpenAI的早期發展,它是如何成為一個營利性組織的,以及它對AI領域的貢獻。 OpenAI最初是一個非營利組織[24],其研究主要集中在深度學習和強化學習、自然語言處理、機器人等方面。在發表了幾篇有影響力的論文[123]并開發了一些最復雜的人工智能模型后,該公司很快就因其前沿研究而建立了聲譽。然而,為了創造能夠帶來資金的人工智能技術,OpenAI在2019年被重組為營利性公司[31]。盡管如此,該公司在為其技術創建商業應用的同時,繼續開發合乎道德和安全的人工智能。此外,OpenAI還與幾家頂級科技公司合作,包括微軟、亞馬遜和IBM。今年早些時候,微軟透露了與OpenAI的一項為期數年、價值數十億美元的新合資項目[21]。雖然微軟沒有給出確切的投資金額,但Semafor聲稱微軟正在討論花費100億美元[101]。據《華爾街日報》(the Wall Street Journal)報道,OpenAI的市值約為290億美元。

從大型語言模型到開源軟件,OpenAI顯著推動了人工智能領域的發展。首先,OpenAI開發了一些迄今為止最強大的語言模型,包括GPT-3[95],該模型因其在許多上下文中產生連貫和現實的文本的能力而獲得了廣泛的贊譽。OpenAI還開展了強化學習的研究,這是人工智能的一個分支,旨在訓練機器人根據獎懲做出選擇。近端策略優化(PPO)[71]、軟Actor-Critic (SAC)[189]和可信區域策略優化(TRPO)[181]只是OpenAI迄今為止創建的一些強化學習算法。這些算法已被用于訓練智能體執行各種任務,包括玩游戲和控制機器人。到目前為止,OpenAI已經創建了許多軟件工具來協助其研究工作,包括OpenAI Gym[76],這是一個用于創建和對比強化學習算法的工具集。在硬件方面,OpenAI投資了幾個高性能處理系統,包括NVIDIA的DGX-1和DGX-2系統[150]。這些系統是在考慮深度學習的情況下創建的,能夠提供構建復雜AI模型所需的處理能力。除了ChatGPT, OpenAI開發的其他流行工具包括DALL-E[141]和Whisper [135], Codex[25]。圖2顯示了OpenAI產品發展歷程。

ChatGPT使用交互形式對用戶[1]提出的問題提供詳細的、類人的回答。ChatGPT能夠根據提示輸入文本生成高質量的文本輸出。基于GPT-4的ChatGPT plus還可以將圖像作為輸入。除了聊天機器人的基本角色外,ChatGPT還可以成功地處理各種文本到文本的任務,如文本摘要[45]、文本補全、文本分類[86]、情感[221]分析[112]、釋義[104]、翻譯[35]等。

ChatGPT已經成為搜索引擎領域的有力競爭者。正如我們在引言部分提到的,谷歌提供了世界上最優秀的搜索引擎,認為ChatGPT是對其壟斷地位的挑戰[188]。值得注意的是,微軟已經將ChatGPT集成到其Bing搜索引擎中,允許用戶接收更多有創意的回復[174]。我們可以看到搜索引擎和ChatGPT之間的明顯區別。即搜索引擎幫助用戶找到他們想要的信息,而ChatGPT開發雙向對話的回復,為用戶提供更好的體驗。其他公司正在開發類似的聊天機器人產品,如谷歌的LamMDA和Meta的BlenderBot。與ChatGPT不同,谷歌于2021年開發的LaMDA積極參與與用戶的對話,導致輸出文本中出現種族主義、性別歧視和其他形式的偏見[119]。

BlenderBot是Meta的聊天機器人,由于開發人員對其輸出材料設置了更嚴格的限制[130],用戶的反饋相對枯燥。ChatGPT似乎在某種程度上平衡了類人的輸出和偏差,允許更令人興奮的反應。值得注意的是,除了比普通ChatGPT更高效和具有更高的最大token限制外,由GPT-4支持的ChatGPT還可以創建多種方言語言和情感反應,并減少不良結果,從而減少偏差[169]。文獻[96]指出,可以通過使用多任務學習和增強訓練數據質量來進一步提高ChatGPT的建模能力。

3 ChatGPT背后的技術

3.1 兩項核心技術

骨干架構:Transformer。在Transformer出現之前[182],RNN是語言理解的主要骨干架構,而注意力是模型性能的關鍵組成部分。與之前只將注意力作為支持組件的工作相比,谷歌團隊在他們的工作標題中聲稱:“attention is All You Need”[182]聲稱,自從谷歌在2017年發布了一篇論文,即“attention is All You Need”[182]以來,對Transformer骨干結構的研究和使用在深度學習社區中經歷了爆炸性的增長。本文總結了Transformer的工作原理,重點關注其核心組件self-attention。自注意力的基本原理假設,給定輸入文本,該機制能夠為單個單詞分配不同的權重,從而促進捕獲序列中的依賴關系和上下文關系。序列中的每個元素都具有其唯一的表示形式。為了計算序列中每個元素與其他元素的關系,需要計算輸入序列的Q (query)、K (key)和V (value)矩陣。這些矩陣是由輸入序列的線性變換推導出來的。通常,查詢矩陣對應于當前元素,鍵矩陣代表其他元素,值矩陣封裝了要聚合的信息。通過計算查詢與關鍵矩陣之間的相似度,確定當前元素與其他元素之間的關聯權重。這通常通過點積操作來實現。隨后,對相似度進行歸一化,以確保所有關聯的總和等于1,這通常通過softmax函數執行。然后將歸一化的權重應用于相應的值,然后對這些加權值進行聚合。這個過程產生了一種新的表示,包括當前單詞和文本中其他單詞之間的關聯信息。上述過程可以正式表述如下:

Transformer技術已經成為近期大型語言模型發展的重要基礎,如BERT[41]和GPT[18, 122, 136, 137]系列也是基于Transformer技術的模型。還有一系列工作將Transformer從語言擴展到視覺,即計算機視覺[42,63,100],這表明Transformer已經成為NLP和計算機視覺的統一骨干架構。 生成式預訓練:自回歸。對于模型預訓練[64,212,216-218],有多種流行的生成式建模方法,包括基于能量的模型[56,159,160,186],變分自編碼器[5,84,124],GAN[17, 54, 198],擴散模型[20,33,213,215,220]等。在這里,我們主要總結自回歸建模方法[11,90,90,177,178],因為它們是GPT模型的基礎[18,122,136,137]。自回歸模型是統計分析中處理時間序列數據的一種重要方法。這些模型指定輸出變量與前面的值線性相關。在語言建模的上下文中[18,122,136,137],自回歸模型根據前一個單詞預測后一個單詞,或根據下面的單詞預測最后一個可能的單詞。該模型學習序列數據的聯合分布,使用之前的時間步長作為輸入來預測序列中的每個變量。自回歸模型假設聯合分布????(??)可以分解為條件分布的乘積,如下所示:

雖然兩者都依賴于之前的時間步長,但自回歸模型與循環神經網絡(RNN)架構的區別在于,前者使用之前的時間步長作為輸入,而不是RNN中發現的隱藏狀態。本質上,自回歸模型可以被概念為一個前饋網絡,其中包含所有之前的時間步長變量作為輸入。早期的工作使用不同的函數對離散數據進行建模,以估計條件分布,例如全可見Sigmoid置信網絡(FVSBN)[51]中的邏輯回歸和神經自回歸分布估計(NADE)中的一個隱層神經網絡[90]。隨后的研究擴展到對連續變量建模[177,178]。自回歸方法已廣泛應用于其他領域,具有代表性的作品有:PixelCNN[180]和PixelCNN++[153]),音頻生成(WaveNet[179])。

3.2 技術路徑

ChatGPT是在一系列GPT模型的基礎上發展起來的,這是自然語言處理領域的一項重大成就。圖6概述了這一開發過程。在下面,我們總結了GPT的關鍵組成部分以及更新后的GPT的主要變化。

GPT-1。在只有解碼器的情況下,GPT-1采用了12層的Transformer,具有117M的參數[136]。圖4展示了GPT-1的概述以及如何將其用于各種下游任務。在包含獨特未出版書籍的大型BooksCorpus數據集上進行訓練,GPT-1能夠掌握長程依賴關系的上下文。一般任務無關的GPT模型在12個任務中的9個中優于為特定任務訓練的模型,包括自然語言推理、問答、語義相似性和文本分類[136]。觀察到GPT-1在各種零樣本任務上表現良好,表明了高水平的泛化能力。在GPT-2發布之前,GPT-1已經發展成為用于各種NLP任務的強大模型。

GPT-2。作為GPT-1的繼承,GPT-2由OpenAI于2019年推出,專注于在沒有明確監督的情況下學習NLP任務。與GPT-1類似,GPT-2基于僅解碼器的Transformer模型。然而,GPT-2的模型架構和實現已經開發出來,具有15億個參數和800萬個網頁的訓練數據集,這是其前身GPT-1的10倍以上[137]。在零樣本設置下,GPT-2在測試的8個語言建模數據集中的7個上取得了最先進的結果,其中7個數據集的任務包括對不同類別單詞的性能識別、模型捕捉長期依賴關系的能力、常識推理、閱讀理解、摘要和翻譯[137]。然而,GPT-2在問答任務上仍然表現不佳,這表明無監督模型GPT-2的能力有待提高[137]。

GPT-3。GPT-3的基礎是Transformer架構,特別是GPT-2架構。與具有15億個參數的GPT-2相比,GPT-3具有1750億個參數、96個注意力層和3.2 M的批處理大小,大小[18]顯著增加。GPT-3在各種各樣的在線內容上進行訓練,包括小說、論文和網站,使用語言建模,這是一種無監督學習,模型試圖根據前面的單詞猜測短語中的下一個單詞。完成后,GPT-3可以使用監督學習在特定任務上進行微調,其中使用特定任務的較小數據集來訓練模型,如文本補全或語言翻譯。由于OpenAI的API[36],開發人員可以將GPT-3模型用于許多應用程序,包括聊天機器人、語言翻譯和內容生產。API根據任務的規模和復雜程度提供不同的訪問級別。與其他性能高度依賴微調的語言模型相比,GPT-3可以執行許多任務(如語言翻譯),而無需任何此類微調、梯度或參數更新,使該模型與任務無關[105]。

GPT-3.5。GPT-3.5是廣泛流行的GPT-3的變體,ChatGPT是GPT-3.5的微調版本。在GPT-3模型之上,GPT-3.5具有額外的微調程序:有監督的微調和人工反饋的強化學習(RLHF)[203],如圖5所示,其中機器學習算法接收用戶反饋并使用它們來對齊模型。RLHF用于克服傳統無監督和有監督學習只能從無標記或有標記數據中學習的局限性。人工反饋可以采取不同的形式,包括懲罰或獎勵模型的行為,為未標記的數據分配標簽,或更改模型參數。通過將人工反饋納入訓練過程,GPT-3.5的可用性顯著提高。

GPT-4。2023年3月14日,OpenAI發布了GPT-4[122],這是GPT系列的第四部分。GPT-4是一個大型多模態模型,能夠將文本和圖像作為輸入,并生成文本作為輸出。該模型在幾個專業和職業標準上提供了人類水平的性能,但在現實世界中,它仍然比人類的能力弱得多。例如,GPT-4的虛擬律師考試成績位于測試參與者的前10%,而GPT-3.5的分數位于最低的10%[77]。GPT-4遵循人類意圖的能力明顯優于早期版本[125]。在提供給ChatGPT和OpenAI API的樣本中,5214個問題中,GPT-4的答案在70.2%的情況下優于GPT-3.5。在絕大多數預訓練數據于2021年9月結束后,GPT-4通常對發生了什么缺乏意識,也沒有從經驗中學習。它偶爾會表現出基本的邏輯錯誤,這些錯誤似乎與它在各個領域的技能不一致,或者當從用戶那里接受錯誤的聲明時,它可能過度信任用戶[122]。它可能會像人們一樣與復雜的問題作斗爭,例如生成包含安全缺陷的代碼[122]。表2總結了從v1到v4的GPT模型參數和訓練數據集。

4 ChatGPT的應用

4.1 科技寫作

ChatGPT以其強大的內容生成能力而被廣泛認可,對學術領域的寫作產生了重大影響。許多現有的工作已經測試了ChatGPT如何應用于科學寫作,包括頭腦風暴、文獻綜述、數據分析、直接內容生成、語法檢查以及作為學術評審員。

頭腦風暴。頭腦風暴是獲得初始想法的基本方法,是高質量科學研究的先決條件。ChatGPT可以在頭腦風暴中發揮各種作用,從激發創造力[57,139]產生新想法,到提供建議[98,168]擴展現有想法。ChatGPT可以幫助用戶進行發散性和創造性思維[139]。此外,一些研究以問答的形式探討了ChatGPT對未來護理研究的見解,可以分析未來技術發展對護理實踐的影響,并為護士、患者和醫療保健系統[57]提供有價值的見解。此外,ChatGPT還表現出多角度“思考”的能力,它可以從醫療系統、社會經濟、個人健康行為等多個維度分析和反思COVID-19大流行后超額死亡的影響[168]。評估ChatGPT是否能為特定領域的研究人員提供有用的建議。作者在[98]中測試了它在臨床決策支持方面的能力,并評估了它與人工建議的差異。測試結果表明,與人類思維不同,ChatGPT生成的建議具有獨特的視角,其生成的建議具有高度的可理解性和相關性,在科學研究中具有重要價值。

文獻綜述。一篇全面的文獻綜述需要涵蓋所有的相關研究,這會耗費研究者太多的時間和精力。例如,基于人工智能的科學文獻研究工具語義學者搜索引擎(Semantic Scholar search engine)已經索引了2億多份學術出版物。因此,找到相關的研究論文并從中提取關鍵見解幾乎是大海撈針。幸運的是,ChatGPT作為一個人工智能驅動的研究閱讀工具,可以幫助我們瀏覽大量的論文并理解其內容。在實際使用中,我們可以給ChatGPT一個主題,然后它可以幫助我們查找相關文獻。在討論ChatGPT處理文獻綜述的能力之前,我們回顧了一個類似的AI工具SciSpace Copilot,它可以幫助研究人員快速瀏覽和理解論文[152]。具體來說,它可以為科學文本和數學提供解釋,包括后續問題,以多種語言提供更詳細的答案,促進更好的閱讀和理解文本。相比之下,ChatGPT作為一種通用語言模型,不僅具有SciSpace Copilot的所有功能,而且可以廣泛應用于各種自然語言處理場景[152]。為了總結所選領域的相關工作,文獻綜述是必不可少的。作為一項探索性任務,他們選擇了“醫療領域的數字孿生”主題,并使用關鍵詞“醫療領域的數字孿生”匯編了過去三年(2020、2021和2022)從谷歌學者搜索結果中獲得的論文摘要。然后用ChatGPT對這些摘要進行轉述,生成的結果具有良好的[7]性能。然而,ChatGPT在這項任務中的應用還處于起步階段。[59]的作者要求ChatGPT提供10篇醫學領域DOIs的開創性學術文章。不幸的是,在進行了5次測試之后,結果顯示,在提供的50個doi中,只有8個存在,并且已經正確地發布。雖然ChatGPT在文獻綜述方面的能力還比較薄弱,但我們相信在不久的將來,ChatGPT將被廣泛用于文獻綜述,進一步提高研究人員的效率,使他們能夠將時間集中在重點研究上。

數據分析。科學數據需要在分析之前進行清理和組織,這通常需要花費研究人員幾天甚至幾個月的時間,最重要的是,在某些情況下,必須學習使用Python或r等編程語言。使用ChatGPT進行數據處理可以改變研究前景。例如,如[102]所示,ChatGPT完成了對一個模擬數據集的數據分析任務,該數據集包含10萬名年齡和風險分布不同的醫療工作者,以幫助確定疫苗的有效性,這大大加快了研究過程[102]。[152]中討論了另一個類似的用于數據分析的人工智能工具,其中基于人工智能的電子表格機器人可以將自然語言指令轉換為電子表格公式。此外,像Olli這樣的平臺還可以可視化數據,用戶只需要簡單地描述所需的內容,然后他們可以得到人工智能創建的折線圖、柱狀圖和散點圖。考慮到ChatGPT是目前為止最強大的人工智能工具,我們相信這些功能也可以在ChatGPT中以更智能的方式實現。

內容生成。許多工作嘗試使用ChatGPT為他們的文章生成內容[3,146]。例如,[3]利用ChatGPT輔助撰寫兩種疾病的發病機制的醫學報告。具體來說,ChatGPT提供了三方面關于同型半胱氨酸血癥相關骨質疏松的機制,所有這些都被證明是正確的。然而,當涉及到生成信息的參考文獻時,ChatGPT所提到的論文并不存在。[223]描述了一項使用ChatGPT編寫催化綜述文章的研究,主題設置為CO2加氫生成高級醇。chatgpt生成的內容包括論文的必要部分,但缺乏對反應機制的介紹,這對該主題至關重要。這篇文章的內容包含了大量有用的信息,但缺少具體的細節,存在一定的錯誤。此外,ChatGPT可以幫助準備稿件,但生成的結果與實際發表的內容相差較大。一個可能的原因是ChatGPT的關鍵詞與人工生成的文本差異很大,這就需要用戶對生成的內容進行進一步的編輯[88]。ChatGPT還被用于生成特定領域的綜述文章,如健康領域[7],這表明學者可以專注于核心研究,而將創造性較低的部分留給AI工具。然而,考慮到人工生成的內容和ChatGPT生成的內容之間的風格差異,[7,88]建議不要完全依賴ChatGPT。利用ChatGPT作為助手來幫助我們完成寫作,而不是僅僅依賴它。

校對。在ChatGPT出現之前,有很多語法檢查工具。一些工作[82,109,197]對語法和拼寫校對進行了測試,表明ChatGPT提供了比其他AI工具更好的用戶體驗。例如,ChatGPT可以自動修復任何標點和語法錯誤,以提高寫作質量[197]。此外,該研究還研究了ChatGPT如何超越幫助用戶檢查語法的范圍,進一步生成關于文檔統計、詞匯統計等報告,改變作品的語言,使其適合任何年齡的人,甚至將其改編為故事[82]。另一個次要但值得注意的是,到目前為止,Grammarly的高級版本Grammarly Premium需要用戶每月支付30美元的費用,這比ChatGPT Plus每月20美元的費用要貴得多。此外,ChatGPT已經與其他基于人工智能的語法檢查器進行了比較,包括QuillBot、DeepL、DeepL Write和谷歌Docs。實驗結果表明,ChatGPT在錯誤檢測數量方面表現最好。雖然ChatGPT在校對時存在一些可用性問題,例如比DeepL慢10倍以上,并且缺乏突出建議或為特定單詞或短語提供替代選項的能力[109],但應該注意的是,語法檢查只是冰山一角。ChatGPT在改進語言、重構文本和寫作的其他方面也很有價值。

學術評審。研究論文的同行評議是傳播新思想的一個關鍵過程,對科學進步有重大影響。然而,產生的研究論文的數量給人類評審者帶來了挑戰。[161]對ChatGPT用于文獻綜述的潛力進行了研究。具體來說,ChatGPT能夠對輸入的學術論文進行分析,然后從論文的概述、優缺點、清晰度、質量、新穎性、可重復性等方面對論文進行評價。然后,將論文生成的評論輸入ChatGPT進行情感分析。在此之后,可以對接受評審的論文做出決定。

4.2 教育領域

ChatGPT具有產生類似人類的響應的能力,已經被許多研究工作所研究,以探討它給教育領域帶來的影響。在這里,我們從兩個角度對它們進行總結:教/學和學科。

教與學。在典型的課堂環境中,教師是知識的來源,而學生是知識的接受者。在課堂之外,學生經常被要求完成老師設計的作業。ChatGPT可以顯著改變教師和學生之間的交互方式[10,148,209,211]。

各種教育科目的ChatGPT。在現代教育中,有各種各樣的學科,包括經濟學、法學、物理學、數據科學、數學、體育、心理學、工程學和媒體教育等。盡管ChatGPT并不是專門為成為某一特定主題的大師而設計的,但在眾多的作品中已經證明,ChatGPT對某一主題的理解還不錯,有時甚至超越了人類的水平。為了方便討論,我們將主題分為STEM(科學、技術、工程、數學)和非STEM(包括經濟學、法學、心理學等)。

4.3 醫療領域

醫學知識評估。ChatGPT在醫療領域的能力已經在一些工作中得到了評估[43,53,72,205]。疾病診斷和治療。雖然一些機器學習算法已被應用于輔助疾病分析,但大多數情況下主要局限于與單任務相關的圖像判讀。在這一部分,我們討論ChatGPT在臨床決策支持中的能力。

5 挑戰

5.1 技術局限

盡管ChatGPT功能強大,但它也有自己的缺點,這也是OpenAI團隊官方認可的。為了證明其局限性,已經進行了大量的工作[15,16,26,60,96,151,226],總結如下:

不正確。ChatGPT有時會生成看似合理的錯誤或無意義的答案,就像一本正經地胡說八道[16]。也就是說,ChatGPT提供的答案并不總是可靠的[15,16,226]。正如OpenAI所認識到的,這個問題是具有挑戰性的,一個主要原因是目前的模型訓練依賴于監督訓練和強化學習,以使語言模型與指令保持一致。因此,模型模仿人類演示者聽起來很有道理,但往往以正確性為代價。事實錯誤相關的問題在ChatGPT plus版本中得到了緩解,但這個問題仍然存在[122]。

不合邏輯。在[16,60,151]中指出,ChatGPT的邏輯推理能力還有待提高。由于ChatGPT缺乏理性的人類思維,它既不能“思考”,也不能“推理”,因此未能通過圖靈測試[60]。ChatGPT僅僅是一個復雜的統計模型,無法理解自己或對方的話,也無法回答深入的問題[151]。此外,ChatGPT缺乏一個“世界模型”來進行空間、時間或物理推理,或預測和解釋人類的行為和心理過程[16],在數學和算術方面也有局限,無法解決困難的數學問題或謎語,甚至可能在一些簡單的計算任務[16]中得到不準確的結果。

不一致。當用相同的提示輸入給模型喂食時,ChatGPT可以產生兩個不同的輸出,這表明ChatGPT具有不一致的局限性。此外,ChatGPT對輸入提示高度敏感,這激發了一群研究人員對提示工程的研究。一個好的提示可以提高系統綜述性文獻搜索的查詢效率[191]。利用關于軟件開發任務的有效目錄和指導等提示模式,可以進一步提高軟件開發任務自動化的效率[193,194]。盡管在為ChatGPT發現更好的提示方面取得了進展,但簡單地改變提示可以產生顯著不同的輸出這一事實,意味著ChatGPT需要提高其魯棒性。

無意識。ChatGPT不具備自我意識[16],雖然它可以回答各種問題,生成看似相關連貫的文本,但它沒有意識,沒有自我意識,沒有情緒,也沒有任何主觀經驗。比如ChatGPT可以理解和創造幽默,但是它不能體驗情感或者主觀體驗[16]。關于自我意識,目前還沒有一個被廣泛接受的定義,也沒有可靠的測試方法。一些研究者建議從某些行為或活動模式推斷自我意識,而另一些人則認為這是一種主觀體驗,無法客觀地測量[16]。機器究竟是真正擁有自我意識,還是只能模擬自我意識,目前還不清楚。

6. 展望

在這個蓬勃發展的生成AI時代,有大量的AIGC工具用于各種生成任務,包括text-to- text [12, 75, 117, 138, 200], text-to-image[106, 144, 166, 199, 219],圖像描述[68,187,202],text-to-speech[85, 145, 167],語音識別[93,97,126,155,190],視頻生成[66,108,116,201],3D生成[67,114]等。盡管具有令人印象深刻的功能,但在[55]中指出,ChatGPT并不是生成式AI所需要的全部。從輸入輸出的角度來看,ChatGPT主要擅長文本到文本的任務。隨著底層語言模型從GPT-3.5進化到GPT-4,加號版ChatGPT在輸入端增加了模態。具體來說,它可以選擇性地將圖像作為輸入,但是,它仍然不能處理視頻或其他數據模態。在輸出端,GPT-4仍然局限于生成文本,這使得它與通用的AIGC工具相距甚遠。很多人都想知道下一代GPT可能會實現什么[8,19]。一個極有可能的情況是,ChatGPT可能會走向通用型AIGC,這將是實現人工通用智能(AGI)[19]的一個重要里程碑。

實現這樣的通用AIGC的一種天真的方式是,以并行的方式將各種AIGC工具集成到一個共享agent中。這種樸素方法的一個主要缺點是不同的AIGC任務之間沒有交互。在查閱了大量文章后,我們推測可能存在兩種將ChatGPT橋接并推向AGI的路線圖。因此,我們主張一個共同的景觀,實現多元化AIGC模式之間的互聯互通。

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

學習如何顛覆性的AI聊天機器人將改變學校、工作和更多領域。 《ChatGPT入門》為你解密這個能回答問題、寫作文、生成幾乎任何被問到的文本的人工智能工具。這個強大的生成型AI被廣泛預測將顛覆教育和商業。在這本書中,你將學習ChatGPT是如何工作的,以及如何操作它以得到滿意的結果。你還將探討使用AI生成內容的各種目的的倫理問題。由一位在人工智能前線工作了十多年的記者撰寫,這本書深入探討了ChatGPT的潛力,讓你能做出明智的決定——而無需向ChatGPT尋求幫助。 了解ChatGPT的工作方式以及它如何適應生成型AI的世界 利用ChatGPT的力量來幫助你,并避免讓它阻礙你 編寫能得到你想要的回應類型的查詢 看看ChatGPT API如何與其他工具和平臺交互 這本及時的《入門》書籍非常適合任何生活或職業可能受到ChatGPT和其他AI影響的人。ChatGPT只是冰山一角,這本書可以幫助你為未來做好準備。

盡管你可以在YouTube、博客、文章、社交媒體和其他地方找到大量關于ChatGPT的內容,但這本書是首批,如果不是第一本,關于這個主題的全面性文本,特別是針對初學者或介紹級別。并且請不要誤解。在少數AI科學家之外,每個人在接觸ChatGPT時都是初學者。請安心,知道你正在和全球數百萬其他人一起學習。 如果你已經在嘗試或使用ChatGPT,你將在這本書中找到多種方法,利用你已經知道的內容,并將新事物融入到你的努力中,以便從ChatGPT中獲得更多。請注意,對ChatGPT的討論包括解釋和提及支持ChatGPT的GPT模型,但這些模型也被用作除此聊天機器人之外的其他應用的AI模型。對類似ChatGPT的模型的引用可能意味著它們在技術上與ChatGPT相似,也可能不相似。例如,競爭模型可能有也可能沒有大型語言模型(LLMs)作為其基礎,正如ChatGPT一樣,但它們仍然被稱為“類似”,因為它們的用戶界面和功能與ChatGPT的非常相似。這樣,你可以更容易地比較和理解市場上的各種生成型AI聊天機器人,而不需要深陷技術細節。一些網址可能會跨越兩行文本。如果你正在閱讀紙質版的這本書,并想訪問其中一個網頁,只需按照文本中記錄的方式準確輸入地址,忽略行間斷開的部分。如果你正在閱讀電子書,那就簡單了;只需點擊網址即可直接進入網頁。

付費5元查看完整內容

為應對數字經濟中數字智能的挑戰,人工智能生成內容(artificial intelligence-generated content, AIGC)應運而生。AIGC通過根據用戶輸入的關鍵字或需求生成內容,使用人工智能來輔助或取代人工內容生成。大型模型算法的發展大大增強了AIGC的能力,這使得AIGC產品成為一種很有前途的生成工具,也為我們的生活增添了便利。AIGC作為一種上游技術,在支持下游應用方面具有無限的潛力。重要的是要分析AIGC當前的功能和缺點,以了解如何在未來的應用中最好地利用它。因此,本文對AIGC的定義、基本條件、前沿功能和高級特性進行了較為全面的綜述。此外,還討論了大規模預訓練模型的優勢和AIGC的產業鏈。此外,文章還探討了AIGC中輔助生成和自動生成之間的區別,并提供了文本生成的示例。本文還探討了AIGC與元宇宙的潛在集成。最后指出了存在的問題和未來的發展方向。1. 引言隨著Web 3.0仍處于蓬勃發展階段[1],人工智能(AI)1已被證明是許多具有挑戰性任務的有效工具,如生成內容、分類和理解。近年來,人工智能的一些進步已經幫助該技術完成了比以前更復雜的任務,例如理解輸入數據,然后生成內容。人工智能生成內容(Artificial Intelligence Generated Content, AIGC)是對專業生成內容(Professional Generated Content, PGC)、用戶生成內容(User Generated Content, UGC)[2]、[3]等傳統內容創作方式的補充。AIGC根據AI技術生成滿足用戶需求的內容。它被認為是一項有前途的技術,有許多應用。因此,了解AIGC的能力和局限性對于充分挖掘其潛力至關重要。

事實上,AIGC的起源可以追溯到更早的時期。其發展歷史大致可以分為三個階段(如圖1所示)。在第一個階段,研究者通過最原始的編程技術控制計算機實現內容的輸出。希勒和艾薩克森在1957年完成了世界上第一首用電腦完成的音樂《伊利亞特組曲》。然后,世界上第一個人機交互機器人Eliza誕生了。Eliza顯示了通過模式匹配和智能短語搜索適當答案的能力,但不反映語義理解。然而,現在大多數人仍然將Eliza視為人工智能的靈感來源。此后二十年,為沉積堆積階段。第二階段假設AIGC的可用性是由于大規模數據庫可用性的提高和計算設備性能的提高。《路》是世界上第一部完全由人工智能創作的小說。隨后,微軟還展示了一個全自動同聲傳譯系統,該系統能夠在短時間內將英語語音翻譯成漢語,準確率達到[4]。然而,算法瓶頸直接限制了AIGC生成豐富內容的能力。第三階段開始于2010年,AIGC進入快速發展階段。Goodfellow[5]提出了一種通用對抗網絡(GAN),利用現有數據生成圖片。在2022年,OpenAI發布了一個新的聊天機器人模型,稱為ChatGPT。它能夠理解人類的語言,并像人類一樣生成文本。月活躍用戶在兩個月內突破1億。20235年1月,每天大約有1300萬獨立訪問者使用ChatGPT。隨著ChatGPT等產品的不斷完善,AIGC顯示出了巨大的應用潛力和商業價值。它引起了企業家、投資者、學者和公眾的廣泛關注。

目前AIGC的內容質量明顯優于以前。此外,AIGC內容的類型也更加豐富,包括文本、圖像、視頻、代碼等。表一列出了一些AIGC型號或各大科技公司開發的經典產品及其應用。ChatGPT是一個基于大型語言模型(LLM)的機器學習系統。在經過幽默的大型文本數據集的訓練后,LLM不僅擅長生成合理的對話,而且還能生成引人注目的片段(如故事和文章)。由于其獨特的人類反饋訓練過程,ChatGPT能夠更精確地理解人類的思維。谷歌聲稱他們即將推出的產品Bard將具有相同的功能,但更側重于生成對話。與ChatGPT相比,Bard可以利用外部知識源,通過提供自然語言問題的答案而不是搜索結果來幫助用戶解決問題。此外,微軟的Turning-NLG是一個擁有170億個參數的LLM,它適用于摘要、翻譯和問答。

擴散模型是圖像生成領域的前沿方法。它的簡單交互和快速生成功能大大降低了進入門檻。幾個流行的應用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已經在社交媒體上產生了指數級的討論和作品展示。NVIDIA是視覺生成研究的先驅。他們的產品(即StyleGAN)是一種最先進的高分辨率圖像合成方法,專門用于圖像生成、藝術和設計。此外,由于不同行業對生成圖片的不同要求,StyleGAN為幾個初創公司提供了機會。例如,Looka專注于logo和網站設計,而Lensa專注于頭像生成。GAN已經能夠生成極其逼真的圖像。DeepMind正試圖將其應用于生成視頻領域。他們提出的模型稱為雙視頻鑒別器GAN (DVD-GAN)[6],可以通過計算高效的鑒別器分解生成更長和更高分辨率的視頻。DVD-GAN是對現實視頻生成的探索。

為了給相關學者和研究人員提供更多的見解和思路,本文重點關注AIGC相關問題,并總結了該領域的新興概念。此外,討論了未來AIGC可能遇到的潛在挑戰和問題,如在道德標準上缺乏全球共識,以及人工智能濫用和濫用的潛在風險。最后,對AIGC的發展和部署提出了展望。我們認為AIGC將為人類實現更便捷的服務和更高的生活質量。本文的主要貢獻如下。

本文給出了AIGC的定義,并討論了其關鍵條件。然后,通過闡述AIGC的3個前沿功能和6個高級特征來展示AIGC帶來的巨大影響。

進一步詳細描述了AIGC的產業鏈,并列出了AIGC中采用的大型預訓練模型的幾個優點。

為揭示AIGC中輔助生成和自動生成之間的差異,本文對文本生成、人工智能輔助寫作和人工智能生成寫作示例進行了深入的討論和分析

從實際應用的角度,總結了AIGC的優缺點,然后介紹了AIGC與Metaverse的結合

最后,指出了AIGC目前需要解決的幾個問題,并提出了未來應用的一些方向

2. 人工智能生成內容(AIGC) 內涵

人工智能生成內容(AIGC)是指由機器生成的博客、營銷材料、文章、產品描述等內容。如圖3所示,AIGC經歷了三種不同的內容生成模式。在PGC模式下,內容由專業團隊[7]、[8]生成。PGC的優點是生成的內容大多是高質量的,但生產周期長,難以滿足產出的數量需求。在UGC模式下,用戶可以選擇多種創作工具自行完成內容生成[9]、[10]。UGC的優勢在于使用這些創意工具可以降低創作的門檻和成本,提高用戶參與創作的積極性。UGC的劣勢在于創作者水平參差不齊,產出內容的質量難以保證。AIGC可以克服PGC和UGC在數量和質量上的不足。它有望成為未來內容生成的主要模式。在AIGC模式中,AI技術利用專業知識提高內容生成的質量,也節省了時間。

如圖4所示,AIGC由三個關鍵部分組成: 數據、硬件和算法。音頻、文本和圖像等高質量數據是訓練算法的基本構建塊。數據量和數據源對[20]預測的準確性有至關重要的影響。硬件,特別是計算能力,構成了AIGC的基礎設施。隨著人們對計算能力需求的不斷增長,更快、更強大的芯片以及云計算解決方案已經變得必不可少。硬件應該能夠處理tb級的數據和具有數百萬個參數的算法。加速芯片與云計算的結合對于提供高效運行大型模型[21]所需的計算能力起著至關重要的作用。最終,算法的性能決定了內容生成的質量,而數據和硬件的支持對于實現最優結果至關重要。

AIGC產業鏈是一個從上游到下游相互關聯的生態系統。如圖8所示,下游應用嚴重依賴上游產品的基礎支持。數據供應商、算法機構、硬件開發機構是上游AIGC的主要組成部分。數據供應商利用網絡爬行技術從新聞網站、博客和社交媒體收集大量文本。然后,利用自然語言處理技術[48]對這些野生數據進行自動標記或處理。算法機構通常由一群經驗豐富的計算機科學家和數學家組成,他們具有深厚的理論背景和實踐經驗。他們可以開發高效準確的算法來解決各種復雜問題。硬件開發機構專注于開發專用芯片、處理器、加速器卡等硬件設備,以加速AI算法的計算速度和響應能力。

大規模人工智能模型是人工智能向通用智能發展的一個重要里程碑。大規模模型的使用明確表明AIGC具有更強的泛化能力。盡管通用數據的激增和可靠數據的缺乏帶來了挑戰,但深度學習完全依賴模型從數據中自動學習,從而顯著提高性能。大規模模型同時具有大規模和預訓練的特點,需要在為實際任務建模之前對大量廣義數據進行預訓練。這些模型被稱為大規模預訓練模型[53]。事實上,AI的大規模模型可以看作是對人類大腦的模擬,這是AI的靈感來源[54]。事實上,人腦是一個具有基本認知能力[55]的大規模模型。人類大腦可以高效地處理來自不同感官的信息,并同時執行不同的認知任務。因此,人工智能大規模模型不僅期望具有眾多參與者,而且能夠有效地理解多模態信息,跨模態感知,并同時在不同任務之間遷移或執行。人工智能大規模模型理解人類思維準確率的提高歸功于基于人類反饋數據訓練模型[56]的系統。

如圖9所示,開發大規模預訓練模型的過程可以分為三個主要步驟。第一步是收集解釋性數據來訓練監督學習策略。第二步涉及收集比較數據來訓練獎勵模型,這使模型能夠做出更準確的預測。最后一步是收集解釋性數據,使用增強學習技術優化模型。這將提高模型的性能和效率

3. 應用

隨著硬件和算法的快速發展,AIGC的應用前景更加廣闊。我們認為AIGC最具潛力的方向包括跨模態生成、搜索引擎優化、媒體制作、電商、電影制作等領域,如圖13所示。

4. 結論

近年來,在海量高質量數據和高性能硬件的支持下,許多用于大型模型的算法得到了快速發展。這些算法不僅具有理解文本的能力,而且具有輔助或自動生成豐富內容的能力。ChatGPT等應用實例展示了AIGC技術的商業價值和應用性能,在短時間內引起了眾多一線企業的廣泛關注和投資。本文簡要介紹了AIGC技術,并闡述了它的特點。此外,還對AIGC能力的優勢和劣勢進行了比較分析。然而,AIGC的發展仍然面臨著許多挑戰和機遇。本文還對AIGC面臨的挑戰和未來方向提出了見解。最后,希望本文的綜述能為學術界、產業界和企業界的發展提供有益的思路,為AIGC領域的進一步探索提供有價值的思考方向和見解。

付費5元查看完整內容

ChatGPT 持續成為大家關注的焦點,開啟通用人工智能(AGI)之門。北京交通大學桑基韜教授和于劍教授撰寫的《從ChatGPT看AI未來趨勢和挑戰》,詳述了ChatGPT 的“能”與“不能”,AI中什么是“真”以及AI的未來趨勢,非常值得關注!

在人工智能領域,ChatGPT 作為一種重要的技術突破,引起了廣泛的關注.本文將探討 ChatGPT 在人 工智能發展中的地位及其對未來 AI 的影響首先,介紹了 ChatGPT 所展現出的優秀對話生成能力,使其幾 乎可以勝任所有自然語言處理任務,并將作為數據生成器、知識挖掘工具、模型調度員、自然交互界面在各 種場景得到應用.接著,分析了其在事實錯誤、毒害內容生成、安全性、公平性、可解釋性、數據隱私等方 面的局限,并討論了作為輔助人類工具的 ChatGPT 明確能力邊界和提高能力范圍的重要性.然后,從概念經 典表示對真定義進行了分析,并從概念三指不等價的角度闡釋性了 ChatGPT 無法區分真假的原因. 在論述 AI 未來時,從拓展應用、克服局限、探索理論分析了中短期技術趨勢,并從感知、認知、情感、行為智能四個 層面的關系討論了長期發展路徑. 最后,探討了 ChatGPT 作為認知智能的代表,對包括認知成本、教育要求、 圖靈測試認識、學術界的機遇與挑戰、信息繭房、能源環境問題和生產力提升等方面可能產生的影響.目錄:

1 ChatGPT的“能”:生成

2 ChatGPT的“不能”:負責

3 什么是“真”?

4 AI的未來

5 ChatGPT的影響

[1]桑基韜,于劍.從ChatGPT看AI未來趨勢和挑戰[J/OL].計算機研究與發展:1-10[2023-04-18].//kns.cnki.net/kcms/detail/11.1777.TP.20230414.1444.003.html.

引言

2022 年 11 月 30 日,OpenAI 公司發布了一款名 為 ChatGPT 的軟件.該軟件在發布后的 5 天內,用戶 數量就超過了 100 萬,2 個月內活躍用戶數更是突破 了 1 億,成為了迄今為止增長速度最快的應用軟件. 該軟件幾乎可以完成自然語言處理的所有任務,因 此在營銷、客服、教育、娛樂、咨詢、翻譯等行業 有著廣闊的應用前景.這一成功也激勵了OpenAI首席 執行官 Sam Altman,他于 2023 年 2 月 24 日發表了 一篇名為“Planning for AGI and Beyond”的文章, 認為 AGI(Artificial General Intelligence,通用人工 智能)是 AI systems that are generally smarter than humans,需要開始為 AGI 的到來做準備.AGI 會是 AI 的未來嗎?本文將對此進行討論.

1 ChatGPT 的“能”:生成

比爾蓋茨將 ChatGPT 譽為自 1980 年現代圖形桌 面環境 GUI 問世以來最具革命性的科技進步.如果說 上一次讓 AI 火出圈的 AlphaGo 所展現出的是在特定 領域的“專”,這一次 ChatGPT 展現出的則是 AI 在 廣泛應用場景的“通”:這個“通”以正常人都會、 都懂、都能體驗的對話形式呈現,讓 AI—特別是自 然語言處理技術進入主流用戶群,孕育出了這一現 象級產品.具體而言,ChatGPT 在對話過程中展現出了自然對話、多輪交互、上下文學習、思維鏈推理、 實時反饋在線糾錯、涌現出適應未訓練任務以及 GPT-4 中新出現的理解弦外之音的能力.

ChatGPT 背后的思想其實很簡單:將所有語言任務歸為對話任務,將對話任務歸為文字接龍的生成問題 . 自 然 語 言 處 理 領 域 的 學 者 普 遍 認 為 , ChatGPT 展現出的優秀對話生成能力對傳統研究方 法產生了巨大挑戰. 1)從目標上看,自然語言處理 旨在讓計算機能夠以文字或語音的方式與人類進行 有效交流;而對話是人類日常生活中最基本的交流 方式,實現了人機自然對話在一定程度上便達到了 自然語言處理的核心目標.2)從任務類型上,自然 語言處理可分為自然語言理解和自然語言生成兩大 類.在谷歌的 T5 模型[1]推出之后,兩類任務統一為單 項語言生成的文字接龍形式.自 GPT-1 起,OpenAI 就 一直堅持采用基于解碼器結構的自回歸語言模型, 這種模型在處理單向語言生成問題方面具有天然的 優勢.所以 ChatGPT 可以處理以前不同賽道的語言處 理任務,比如翻譯、問答、摘要、擴寫、寫作、潤 色、代碼生成、語句分析、段落理解等.

當然,ChatGPT 能夠實現如今順暢自然的人機 對話,不僅源于其對 GPT 單向語言生成技術路線的 持續發展,還依賴于算法、算力和數據等多方面的 支持. 由于 ChatGPT 并未對模型進行開源,也沒有發 布論文透露具體細節,我們只能基于 OpenAI 已公開 的 GPT 系列技術發展路線來推測這些能力背后的潛在原因. 圖1展示了部分 ChatGPT 已展現出的能力及 其背后主要技術原因的對應關系. 值得關注的是, ChatGPT 許多能力背后的原因仍在探索過程中. 關于上下文學習的能力,有學者認為模型從提示詞 (prompt)提供的示例中確定了待解決任務的自然語言 指令(instruct),從而在無需微調模型的情況下提升了 問題回答的質量[2] .關于任務涌現和多任務遷移能力, 一方面,有學者認為指令學習、大規模預訓練和數 據集多樣性共同促進了模型在新任務的泛化能力[3] . 例如,通過在大量不同類型和指令任務上進行微調, 模型學習到了一定程度的通用能力,從而能夠泛化 到未見過的指令和場景.另一方面,不同任務的劃分 具有一定的主觀性,其本質上都可以建模為統一的 自然語言生成任務.大型預訓練語言模型通過學習大 量訓練數據,掌握了豐富的語言知識和多種任務之 間的共性,進而利用這些共性來提高不同任務的性 能.然而,一些問題仍然沒有明確答案,例如:何種模型規模和訓練數據量閾值可以產生任務涌現能力?涌現能力與模型規模和訓練數據量之間的量化關系 如何?同時,其他一些能力,如在線糾錯、理解弦 外之音等,其背后的原因仍然是個謎.

OpenAI 首席科學家 llya Sutskeve 最近在與英偉 達 CEO 黃仁勛的訪談中對 ChatGPT 能力學習進行了 解釋:“ChatGPT 通過學習文本中的統計相關性,獲 得了這個世界的一個壓縮、抽象、可用的映射表 達”.這讓我們不禁思考:ChatGPT 是否學到了人類 文字符號世界的暗知識(tacit knowledge[4]).Michael Polanyi 在他的這本認識論著作中曾提到:“We can know more than we can say(我們所知者,遠多于所 能說者)”.可以確定的是:機器學習模型通過統計海量符號語料中的規律,能夠學習到詞匯、語法、 乃至一定程度的上下文和常識知識.問題是:隨著語 料規模的不斷增加和統計規律的持續積累,模型所 建立的世界表達分辨率越來越高、維度越來越豐富 時,是否真的有可能學習到人類情感、道德觀念等 支撐整個世界運行的更復雜的暗知識? 在學術界積極探索 ChatGPT 能力背后的技術原 因的同時,工業界已在歡迎這項新技術,并將其優 秀的對話生成能力融入各種應用場景.根據 ChatGPT 對話的對象和本身的定位,我們將這些應用分成 4 個層次(如下表 1 所示):

1) 數據生成器,根據需求直接生成數據.此類應用 僅輸入用戶需求,利用 ChatGPT 的生成能力返回特 定類型的數據.由于思路簡潔且實現容易,數據生成 類應用在 ChatGPT 發布之初就大量出現.主要應用場 景包括對話生成(客服、虛擬數字人)、文案生成 (法律文書、營銷策劃廣告)和代碼生成等.典型的 成功案例包括寫作助手 Notion AI、營銷文案生成工 具 Jasper.ai.

2) 知識挖掘工具,對數據進行再加工或分析挖掘. 此類應用同時輸入用戶需求和待處理的原始數據, 利用 ChatGPT 強大的自然語言處理能力返回經過加 工的數據或挖掘出的新信息.知識挖掘類應用可以分 為 離 線 和 在 線 兩 種 形 式 . 離 線 應 用 通 過 調 用 類 ChatGPT API 分析和挖掘私有數據等專業領域語料構 建知識庫,為進一步應用提供知識支持.在線應用的 主要場景包括翻譯、潤色、摘要生成、文檔管理等. 一些典型案例包括搜索引擎摘要插件WebChatGPT、 文檔分析工具 ChatPDF 以及 OpenAI 官方隨 GPT-4 發 布的摩根士丹利策略分析師.

3) 模型調度員,調用其他機器學習模型共同解決 用戶需求.此類應用同時輸入用戶需求、待處理數據 以及多個可調用的機器學習模型,通過 ChatGPT 作 為人類與其他模型間的連接,設計解決方案、調用 并管理其他機器學習模型,共同完成用戶需求并輸出結果.這方面的典型案例是微軟近期發布的系列多 模態解決方案 Visual ChatGPT[5]、MM-ReAct[6]和 HuggingGPT[7],其通過調度其他視覺基礎模型來協 同完成視覺和語音任務.此外,AI 賦能一直以來的一 個痛點問題是,智能中臺需要整合不同模型和技術, 并根據業務需求擴展新的模型.ChatGPT 有望實現智 能中臺的升級:提供友好的開發/業務人員界面、實 現模塊化模型管理、簡化技術集成和部署,從而提 高 AI 賦能效率.隨著 ChatGPT 應用探索的深入,相 信模型調度員類型的應用將越來越受到關注.

4) 人機交互界面,調用更廣泛的應用程序幫助人 類解決實際問題. 第一種形式是將 ChatGPT 嵌入到特 定應用中,從而極大地提升自然交互體驗,如微軟 的 365 Copilot 和 Copilot X 分別將 ChatGPT 融入 Office 和 Github.第二種形式是在 ChatGPT 搭建的自 然語言交互框架上開發各類信息服務應用,去年 10 月推出的開源庫 LangChain 和 OpenAI 最近發布的插 件集 Plugins 都是大型語言模型應用開發框架的典型 嘗試.正如 Windows 和 Android 分別是桌面和移動時 代的操作系統,ChatGPT 有望成為智能時代的操作 系統接口.進一步暢想,如果把語言分為人類之間溝 通的自然語言和人與計算機之間溝通的計算機語言, ChatGPT 在一定程度上統一了二者:用自然語言實 現了人和計算機之間的溝通,不得不說“自然語言 編程(Natural Language Programming)”這一新詞非常 貼切.從這個角度看,我們甚至可以大膽預測:人機 交互界面將從磁帶、鍵盤字符、鼠標圖形全面進化 到自然語言時代.

以上圍繞對話生成討論了 ChatGPT 的具體能力、 背后的技術原因以及在不同定位下的應用形式.盡管 “對話生成”提供了無限的想象,但 OpenAI 的野心 顯 然 并 不 止 于 此 . 從 名 稱 和 發 布 時 間 點 來 看 , ChatGPT 似乎只是一種過渡性技術的產品形式.在以 對話這種產品形式向主流用戶群展示了強大的技術 實力之后,OpenAI 新發布的 GPT-4 并未繼續在對話 生成功能上炫技,而是悄然接入了各類官方應用.

從生物學角度,語言和智能的演化過程相互促 進.人類智能在很大程度上依賴于高度復雜的語言系 統.語言作為思維的載體和智慧的外在表現,其運用 能力很大程度上反映了認知能力和智能水平.語言習 得是認知發展的重要組成部分.兒童在成長過程中通 過習得語言來理解世界,并逐漸掌握其他認知技 能.ChatGPT 等技術在語言生成能力的持續提升能將 人工智能帶到什么高度,讓人非常期待.

2 ChatGPT 的“不能”:負責

能力越大,責任越大. ChatGPT 展現出的強大能 力讓主流用戶群欣喜、學術界驚訝、工業界狂熱.這 些能力讓我們在使用它時感受到了與以往技術不同 的體驗.回顧人類歷史上的幾次技術革命,從早期的 石器、金屬器具、機械設備、電氣設備到近幾十年 的計算機、互聯網和智能手機,每一個階段所發明 的工具都對人類生活產生了深遠影響.在使用這些工 具時,我們可以清楚地意識到它們作為工具的定位, 即輔助人類來完成任務.然而,在使用 ChatGPT 的過 程中,我們經常會產生一種與另一個人對話的錯覺, 尤其是當類似 Plugins 這類功能使其能夠像人類一樣 利用其他工具進行自我增強的時候.埃隆-馬斯克在使 用 ChatGPT 后的感受是“好到嚇人”.這種獨特的體 驗無疑將加速技術融入人類社會的進程.正如 OpenAI 自己對 ChatGPT 的評價:“盡管 ChatGPT 還沒有實 現真正的智能,但它讓人體驗到了真正的智能實現 后,每個人都能用它做各種他們想做的事情的滋味.”

整個 2023 年 3 月被各種生成式 AI 技術和產品 的發布充斥:Meta Alpaca、GPT-4、PaLM-E、文心 一言、Office Copilot、Midjourney V5、英偉達新顯 卡 、 Github CopilotX 、 ChatGPT 插件、 Security Copilot 等.我們可以預見相關技術的應用領域將迅速 拓展、應用程度將大幅度加深.人們在享受技術帶來 的便捷和生產力提升的過程中,對技術的態度將從 習慣逐漸轉變為依賴.而當人們開始依賴這些技術代 替自己學習、思考、甚至決策時,有兩個問題擺在 我們面前:技術是否已經做好準備承擔責任?人類對技術的信賴是否超出了它的能力?實際上,ChatGPT 在使用過程中已被發現存在 諸多問題:如數學計算、未來預測、時空物理現實 推理等方面能力的局限,以及事實錯誤(幻覺)、生成 毒害內容等方面的不可控[8] .下面從可信 AI 的 4 個維 度對 ChatGPT 存在的問題展開討論.

1) 安全性. OpenAI 在官網上將“安全”列為五個目 錄之一,在隨 GPT-4 發布的報告中批露了其在技術 和評估兩方面都設立了專門的安全小組,足見對安 全性的重視.然而,和所有機器學習模型一樣, ChatGPT 仍存在著被對抗攻擊的風險.一種典型方式 是提示語注入攻擊(prompt injection attack):在提示 語中混入惡意指令,可能繞過 ChatGPT 的安全機制, 迫使其執行意外動作,如泄露敏感信息、輸出有害 內容等.例如,ChatGPT 驅動的新 Bing 在受到攻擊后 泄露了其內部代號“Sydney”;ChatGPT 被誘導規劃 搶劫方案,甚至提供了購買搶劫道具的鏈接等.

2) 公平性.在 ChatGPT 之前,OpenAI 的文生圖DALL-E系列曾被發現存在輸出性別和種族歧視內容 的問題.類似地,GPT-2、Bert、RoBERTa 等語言模 型在一個測試項目中也被發現具有嚴重的性別偏見 傾向[9] .盡管目前尚無系統性研究分析 ChatGPT 在性 別和種族偏見方面的表現,但已有研究發現它存在 明顯的語言敏感性:例如,當用日語和俄語分別詢 問一個日俄爭議島嶼的歸屬問題時,ChatGPT 給出 了截然不同的答案[10].

3) 可解釋性. ChatGPT 的思維鏈能力可以在答案中 同時呈現推理過程,這在部分程度上解決了實驗室 環境下模型可解釋性的問題.然而,需要注意的是, 這種推理過程的解釋是面向用戶的,并不一定與模 型的實際運行機制準確對應.此外,ChatGPT 仍存在 很多尚未解釋的行為,包括自我在線糾錯、理解弦 外之音等能力,以及出現事實錯誤(幻覺)等問題.由 于大模型本身的復雜性以及僅通過 API 提供服務的 現實限制,ChatGPT 對于用戶和開發者都是完全的 黑箱.隨著應用場景的拓寬和加深,現有的解釋性水 平可能難以滿足透明度和回溯性等的要求.

4) 數據隱私. 涉及 2 個方面:訓練階段的數據侵權 和推理階段的隱私泄露.大模型訓練需要的海量數據 多來自網絡,其中難免包括未經授權的版權保護內 容.ChatGPT 雖然可能避免語句層面的抄襲,但難以 避免語義上的深度抄襲.2023 年,大模型領域發生了 多起版權侵權案.例如,三名藝術家指控 Stable Diffusion 使用其版權作品作為訓練數據,而微軟和 OpenAI 因其開發被指控其開發的編程助手 Copilot 涉 嫌復制 Github 上的開源代碼而受到指控.在推理階段, 攻擊者有可能通過逆向攻擊等手段,利用模型輸出 的結果來反向推導出訓練數據中的隱私信息.GPT-2、 BERT、RoBERTa 等語言模型均被發現存在數據隱私 泄露的風險[11] .隨著模型規模和功能多樣性的增加, 這種風險可能進一步加大:模型規模越大,其記憶 能力越強;功能越多樣化,可被利用的信息和攻擊 方式也越豐富.ChatGPT 自身代號的泄露便證實了這 一點.

從生成式 AI 模型選擇的技術路線和當前發展水平看,這些問題既可以歸結為大型語言模型固有的結構局限,也可以歸結為將符號任務統一建模為對 話問題的過度簡化.關于這條技術路線的未來發展, 同時存在著樂觀和悲觀的觀點.樂觀派認為,人腦神 經元突觸連接總數約為一百萬億,隨著語言模型參 數量的不斷增加,模型可能在某個時刻實現量變到 質變的躍遷,這些問題也會自然消失.然而,包括喬 姆斯基、Stuart Russell 等大佬在內的悲觀派則持相反 觀點,他們認為端到端的深度學習與人類進行推理和使用語言的方式有著巨大差異,依靠更多數據和 算力無法消除這些缺陷或實現真正的智能.

不討論技術路線的選擇或者觀點的對錯,不管 生成式 AI 模型的能力演進到何種程度,其定位始終 是幫助人類更好地完成任務的工具.作為工具,首先 應該明確能力邊界,即“做自己能做的事”.在認知 心理學中,約瑟利窗口(Johari Window)將人際關 系劃分為公開區、盲區、隱藏區、未知區四個象限 [12] .參照這種方法,如圖 2 所示,我們可以沿“自知” 和“能力”兩個維度繪制一個坐標系,智能工具處 理的任務將落在其中一個象限內.當任務落在“自知” 負半軸的兩個象限時,可能會出現不可預知的問題:在隱藏區時,模型“不知道自己能”,可能在收到用 戶反饋后將原本正確的答案改為錯誤,或接受用戶 錯誤反饋的引導;在未知區時,模型“不知道自己 不能”,可能會產生事實錯誤幻覺,一本正經地胡說 八道.

根據“自知”-“能力”坐標系,首先需要明確 能力邊界,即擴大“自知”正半軸兩個象限的覆蓋 范圍,使更多任務落入公開區和盲區.在公開區時, 模型可以自信地回答用戶的問題;而在盲區時,模 型應該承認能力缺陷,避免回答不知道的問題,或 者虛心接受用戶的反饋引導.PAL[13]是開發隱藏區的 一個例子,通過在提示詞中注入包含推理過程的程 序示例,成功挖掘了模型在原本容易回答錯誤的數 學推理類任務的解決能力.在明確能力邊界后,需要 進一步提升模型的能力,即擴大“能力”正半軸、 尤其是第一象限的面積,使更多的任務從盲區轉移 到公開區.縮小盲區的一個例子是 ReAct[14],它將推 理和行動結合,通過調用搜索等插件從網絡等外部 資源中逐步、有選擇性地收集和處理新信息,從而 提高了模型在各種復雜場景下的解決能力.另一個最 新提出的框架 Reflexion[15],它在 ReAct 基礎上加入 了自省 Reflect 功能,通過試錯的方式,在尋找自身 能力邊界的同時,探索新任務的解決方案.這是一個 在同時確定能力邊界和提高能力范圍方面很有意思的嘗試.

當然,“自知”-“能力”坐標系只是一個理想 和簡化的框架.人類在執行任務時,通常會考慮諸如 道德、倫理、公平等價值觀.而 ChatGPT 并不具備人 類的價值觀和判斷力,可能會生成與事實相悖的錯 誤信息和誤導性的建議.比如,當用戶詢問“林黛玉 是如何倒拔垂楊柳的”,ChatGPT 會一本正經地介紹 相關具體細節.事實上,《林黛玉倒拔垂楊柳》是一 部網絡小說,中文論壇上也有許多對這一虛構情節 的討論.模型在學習這些語料時無法區分虛構和現實, 因此產生了這個尷尬的回答.隨著 GPT-4 的發布,可 以預見 ChatGPT 將有能力在符號世界中實現自動化 生成.然而,它依然不能確保所生成內容的真實性, 自然更無法對生成結果承擔責任.

3 什么是“真”?

為了解釋為何 ChatGPT 無法保證結果為真,首 先需要探討什么是“真”.“真”的定義有很多,本 文采用亞里士多德的經典定義[16]:說是者為非,非 者為是,即為假;而說是者為是,非者為非,即為 真. 基于此,Tarski 提出一個更形式化的“真”的定 義[17]:

X 是真語句當且僅當 p, 其中 p 代表任意語句,X 是語句 p 的名稱. 即,一個語句是真的,當且僅當它描述的情況確實 發生了.比如:“樹在長芽”是真語句當且僅當樹在 長芽,即“樹在長芽”是真語句當且僅當樹在長芽 確實發生了. 但是,這個看似合理的“真”的定義卻隱含矛 盾.Tarski 轉述了烏卡謝維茨的加強版說謊者悖論: 令 C 是“C 不是一個真語句”的名稱,因此, 有如下兩個假設: 1)α假設:C=“C 不是真語句”; 2)β假設:“C 不是真語句”是真語句當且僅 當“C 不是真語句”. 綜合α假設與β假設,即可以得到:C 是真語 句當且僅當“C 不是真語句”,悖論. Tarski 關于“真”的定義和上面的推理似乎都沒 有問題,那問題出在哪里呢?我們認為問題出在概 念的定義上,因此需要仔細考察概念的定義. 眾所周知,概念的經典表示由三部分組成:符 號表示、內涵表示和外延表示.其中,概念的符號表 示由概念名稱表示,概念的內涵表示由描述概念特 性的命題表示,概念的外延表示由概念所包含的實 例的經典集合表示.比如,“偶數”這個概念,其中文符號表示是“偶數”這個詞;內涵表示是 “能被 2 整除的整數”這個命題;外延表示是包含所有偶數 的集合:{...,-6,-4,-2,0,2,4,6,...}.

如圖 3 所示,根據經典表示,每個概念具備 3 種 功能:指名、指心和指物,同時對應著波普爾的 3 個世界:符號世界、心理世界和物理世界[18] .概念的 指名功能,是指每個概念都指向認知世界或符號世 界中的一個實體,用所指對象的特定符號名稱來表 示.這些符號名稱可以組成各種不同的語言.概念的指 心功能,是指每個概念也指向人類心理世界中的實 體,代表這個概念在心理世界里的對象表示.概念的 指物功能,強調概念與物理世界中的實體之間的對 應,這些實體遵循物理世界的規律,可以獨立于人 的主觀感受. 如果從概念的表示來實現人工智能,指名指物 指心對應了 3 條路徑:符號主義、連接主義和行為 主義.如果從概念的功能角度來對人工智能分類,可 以分為認知智能、情感智能和行為智能.認知智能實 現了概念的指名功能,即處理和理解符號世界的問 題.情感智能則實現了概念的指心功能,主要關注心 理世界中的問題.而行為智能則體現了概念的指物功 能,主要解決物理世界中的問題.然而,如果要實現 概念的三指功能,必須首先解決機器的感知問題.解 決機器感知問題是最基本的人工智能,通常被稱為 感知智能.感知智能主要關注機器的輸入輸出處理, 是實現認知智能、情感智能和行為智能的基礎.

在概念的經典表示下,概念的指名、指心與指 物功能是等價的,其符號表示、內涵表示和外延表 示在功能上也是可以互換的.這是因為概念的經典表 示存在 6 條預設:1) 概念的外延表示可以由集合{x1,x2,? ,}表示; 2) 概念的內涵表示存在且用命題?xP(x)表示; 3) 概念的名稱存在,且用符號表示 A;4) 概念的外延表示與內涵表示同名:A={x1,x2, ? ,}=“?xP(x)”;5) 概念的表示唯一,即同一個概念的表示與個體無關:?α(A α=A), α 代表一個人;6) 概念的指稱等價,即其內涵表示與外延表 示在指稱對象的時候功能等價?x(x∈A?P(x)),其中, A={x1,x2,? ,}.

根據上述概念的經典表示,可以知道概念的指 名、指心與指物功能是等價的.在日常生活中,這種 情況非常普遍,因此說真話是通常的情形.羅素曾給 出一個清晰的論證[19]:“除非假定說真話是一種通常 的情況,否則沒有人能夠學會說話:假設當你的孩 子看到一條狗時,你隨意地說出‘貓’、‘馬’或者‘鱷 魚’,那么當他看到的不是一條狗時,你無法通過能 通過說‘狗’來欺騙他.因此,說謊是一種派生的行為, 它預設了說真話是通常的規則.”在上述羅素的論證 里,可以清楚地看到,其預設了概念的指名與指物 等價,即假設概念的三指等價是真的必要條件.如果概念的指名、指心與指物功能等價,則可 以認為:認知智能、情感智能與行為智能等價.這意 味著一旦實現了認知智能,也就同時實現了情感智 能和行為智能.同時,人工智能的三條實現路徑—符 號 主 義 、 連 接 主 義 和 行 為 主 義 一 也 是 等 價 的.ChatGPT 和 GPT4 的出現,表明認知智能已經取 得了巨大的進步. 如果概念的三指等價,那么認知 智能的巨大進步預示著情感智能和行為智能將取得 同樣的巨大進步.從這個角度看,實現 AGI 似乎也有 可能性.然而,烏卡謝維茨悖論告訴我們概念三指等價 在邏輯上并不永遠成立:它內蘊矛盾.Tarski 的真定 義實際上等價于如下命題:概念的指名功能為真當 且僅當概念的指物功能為真.顯然,概念的經典表示 也預設了 Tarski 的真定義. 仔細分析烏卡謝維茨悖論 的邏輯推理,可以發現 α 假設與 β 假設都預設了概 念的指名功能為真與概念的指物功能為真等價,這 必然導致悖論.實際上,在概念的三指等價條件下, 針對包含算術系統的邏輯系統,哥德爾證明了不完 全性定理,而Tarski得到了著名的真之不可定義定理. 這些都說明在復雜一點的符號系統內部,不可能解 決 何 為 真 何 為 假 的 問 題 . 因 此 , 從 理 論 上 講 , ChatGPT 和 GPT4 同樣無法解決真假問題.因此,我 們必須放棄概念的三指等價假設.一旦放棄了這個假 設,就會發現認知智能、情感智能與行為智能是不 可能等價的.實際上,現實生活中,這三種智能從未 等價過.

4 AI 的未來

很多人認為 ChatGPT 已經開啟了第四次技術革 命.面對這種尺度的變革,我們很難在早期準確預測未來的發展.在這里,我們僅從中短期技術趨勢和長 期發展路徑兩個方面,來探討在當前階段我們對這 一技術的理解.

4.1 中短期技術趨勢

OpenAI 發明 ChatGPT 對于人工智能領域的影響, 可以類比哥倫布發現了美洲大陸.在哥倫布發現美洲 之前,探險家們一直渴望著探索新大陸,并嘗試使 用各種方法去尋找它.然而,即使是經驗非常豐富的 探險家,也并不確定新大陸是否真實存在,以及哪 種航海方法更為有效.哥倫布的成功不僅堅定了后來 探險家們的信心,更在一定階段內統一了尋找新大 陸的方法:在新的突破性技術出現以前,看似簡陋 的帆船和羅盤已經足以帶領人們到達目的地. 同樣地,ChatGPT 的誕生為人工智能領域注入 了信心并指明了發展方向,展示了“大力出奇跡” 的可能:通過不斷擴大神經網絡的模型規模和增加 數據量,可以在 AI 的道路上取得實質性的進展.在這 一目標和技術路線的共識下,我們從拓展應用、克 服局限和探索理論 3 個方面探討人工智能領域中短 期的可能技術趨勢.

4.1.1 拓展應用

**1) 垂直化. **ChatGPT 發布初期,人們嘗試在提示 詞中注入角色信息以增強垂直領域對話質量.為克服 提示詞 token 數量限制以融合領域語料,有工作提出 基于LangChain框架,將領域文檔切片后分布式輸入. 但這種做法存在私域數據泄露風險,解決思路之一 是利用 ChatGPT 控制和調用其他領域模型來提高垂 直化能力.此外,MIT 最近提出保護隱私的遷移學習 框架 Offsite-Tuning[20],可在不訪問完整模型的前提 下,在下游領域數據上微調數十億級參數的基礎模 型.對于需要構建領域模型的場景,在不泄露基礎模 型和領域數據的情況下,實現對通用基礎模型的領 域微調非常重要.

2) 個性化. 個性化可視為垂直化的極致,針對個 人需求和偏好的個性化微調模型能夠提供更精確的 服務.典型的應用場景包括個性化推薦系統、個性化 教育輔導、個人 AI 助理等.微軟于 2023 年 4 月 4 日 開源了大模型協作項目 JARVIS,旨在大型語言模型 與機器學習社區的其他模型之間建立連接.JARVIS 這 個名字讓我們對鋼鐵俠中同名的 AI 助理產生更多聯 想.如果未來個性化模型可以通過多模的人機交互來 增強,實現與人類對世界的同步感知、學習和成長, 這樣的 AI 助手能夠更好地理解個性化需求、情感和 行為,協助我們實現更高效的工作、學習和生活方 式.在這個過程中,我們需要解決諸如中心平臺式 AI 如何保護個人數據以及在個體層面部署模型等問題.

3) 工程化. ChatGPT 的誕生某種程度上是工程 化的勝利,而它的成功無疑將進一步加速 AI 技術從 實驗室研究走向工程化和產業化.從必要性上看,隨 著數據量和計算資源需求的增加,工業界擁有更好 的條件主導大模型研發,相關實驗室研究也需調整 研究范式和目標以適應工程化需求.從可行性上看, ChatGPT 的成功讓工業界看到了 AI 技術在各行業落 地和價值實現的可能,眾多開源項目和成熟技術框 架的出現則為 AI 技術工程化提供了支持.從重要性上 看,工程化是一個學科發展和成熟的標志,AI 技術 的工程化有助于進一步優化和完善相關技術,激發 學術創新活力,推動 AI 領域的整體發展.

4.1.2 克服局限

1) 多模態增強. 多模態大模型的發展逐漸以語 言模型為主,將視覺、語音等多模態信息映射到語 義符號空間進行處理.近來的多模態解決方案更是提 出直接以大型語言模型為基座來拓展多模態能力, 如 Visual ChatGPT 和 MM-ReAct 以 ChatGPT 為中心 調度其他視覺模型、PaLM-E 固定語言模型訓練額外 的視覺編碼器等.然而,人類在進行多模態學習時并 不完全依賴于符號空間,大腦神經網絡在不同感官 區域間傳遞、整合信息,同時結合視覺形象、空間 關系等非符號性表示.由于多模態世界建模更為復雜, 以語言模型為主或是現有條件下的折衷.隨著多模態 數據量與模型參數繼續增加,期望在視覺、語音等 空間實現真正的多模態生成能力.如被細線系著的氣 球照片,無需映射至語義空間,模型即可預測線剪 斷后的情景.

2)人機交互增強. 有人將現在的 ChatGPT 比作 一個博覽群書的神童,卻從未親身體驗過這個世界. 經典的認知實驗發現,與被動旁觀的貓相比,具有 自由活動能力的貓可以通過主動與環境互動并獲得 反饋,從而更好地學習行為能力[21] .在一項微軟的最 近研究中,ChatGPT 已經能夠根據人類的要求自動 編寫代碼并指揮無人機協助完成任務[22] .通過進一步 考慮生物學特性、身體感知和行動的影響,有望實 現與真實物理世界的雙向交互,在自主行為反饋中 不斷提升自身智能水平.

3) 可信增強. 之前的討論已概括了 ChatGPT 當 前的局限和進行可信研究的必要性.可以預見,每個 大模型公司都將需要一個專注于可信的安全和倫理 團隊.這就不難理解 OpenAI 的系列舉措:GPT-4 在訓 練完成后經過半年的評估和修正才發布、用 30 余頁 技術報告介紹安全補丁 System Card,以及對模型評 估框架Evals的開源.即便如此,ChatGPT還是因隱私問題在意大利遭禁,并遭到包括馬斯克和沃茲尼亞 克等上千名知名人士的聯名叫停.值得注意的是,除 了安全、公平、可解釋、數據隱私等經典可信問題 外,ChatGPT 還會帶來模型回音壁等新問題.目前, 使用 ChatGPT 生成的對話數據進行訓練已經成為公 開的秘密,甚至出現了專門收集 ChatGPT 對話的網 站 ShareGPT.其實,在人類反饋強化 RLHF 后,就有 學者提出了基于智能模型反饋強的 RLAIF 框架[23] .隨 著模型規模繼續增加,可供訓練的自然數據面臨枯 竭,模型生成標注和反饋數據在模型間的回音壁效 應將加劇可信問題.此外,垂直化、個性化、多模態 等技術趨勢也會帶來新的可信挑戰.關于可信增強的 方案,考慮到傳統 AI 測試基準已不足以評估模型能 力,我們需要盡快構建新的可信測試基準:包括可 信 benchmark 數據集和可信測試框架.此外,為了準 確評估模型的應用成熟度,我們應該研制面向大型 語言模型的可信標準,以規范不同可信等級的模型 在相應的應用場景中使用.同時,結合工程化的發展 趨勢,我們可以參考軟件開發周期中的測試-調試閉 環,在基礎模型和下游模型兩個層面進行迭代優化, 以確保模型在大規模應用場景中的可信性.

4.1.3 探索理論

1) 預訓練模型機理研究.近年來,計算機視覺和自 然語言處理領域的技術框架逐漸趨同.學習范式從特 征工程、深度監督學習轉向自監督預訓練,模型結 構從 CNN、RNN 發展為 Transformer.針對自監督預 訓練和 Transformer 結構,仍有很多基礎性問題等待 研究,如自監督學習泛化理論、預訓練與微調的動 態平衡分析、Transformer 結構的\定性和魯棒性分析 等.對于 ChatGPT,除了探究在線糾錯、理解弦外之 音等原因未知的能力外,還需進一步研究任務涌現 能力與模型規模以及訓練數據量等的關系,為未來 模型設計和實際應用提供指導.

2) 學科交叉融合研究. ChatGPT 作為催化劑,不僅 將推動人工智能學科內部計算機視覺和自然語言處 理領域的進一步整合,而且將激發學術界和工業界 更加深入地探討和實踐人工智能和其他學科交叉融 合以及跨學科應用的可能性.以腦科學為例,結合腦 結構和人工神經網絡研究,我們將更有可能揭示智 能產生的本質原因.實際上,OpenAI 的 CEO Sam Altman 早就投資了可控核聚變公司 Helion 和生物科 技公司 Retro Biosciences.科技部近期啟動的 AI for Science 專項部署工作更是明確指出了將人工智能與 數學、物理、化學、天文等基礎學科緊密結合,重 點攻關藥物研發、基因研究、生物育種研發、新材 料研發等領域的關鍵問題.

4.2 長期發展路徑

我們沿著概念經典表示和人工智能分類的討論 來看 AI 未來可能的發展路徑.《左傳》里有句名言, “太上有立德,其次有立功,其次有立言”.顯然, 立德屬于心理世界,是情感智能的范疇;立功屬于 物理世界,是行為智能的范疇;立言屬于符號世界, 是認知智能的范疇.應該指出,這三個世界既互相獨 立又相互依存.比如,符號世界也必須通過心理世界 表示才能為人所感知,同樣符號世界也必須通過物 理世界顯現展現才能傳播.對于人而言,認知的物理 世界本身也屬于符號世界的示例,沒有成為符號示 例的物理對象難以被符號世界記錄,同樣,物理世 界也是通過心理世界被人感知.

三個世界各自都足夠復雜.在符號世界中,有自 然符號、模擬符號和象征符號.其中自然符號直接用 物理世界中的對象作為符號,比如學生用書包或其 它個人物品占座.此時的書包或個人物品就有了符號 意義,屬于典型的自然符號.圖像、視頻等是典型的 模擬符號.文字是最常見的象征符號.至于心理世界、 物理世界的復雜性,更是眾所周知.

為了計算方便,通常假定概念的三指等價,即 符號世界、心理世界、物理世界三界同構.比如,符 號主義的物理符號系統假設認定物理符號系統具有 產生智能行為的充要條件,這暗示了符號世界與物 理世界等價.連接主義認為只要能模擬大腦的思考功 能就足夠了,實際上它假設了心理世界(或其子集) 與物理世界等價.行為主義則認為只要能在物理世界 實現智能,不需要知識、表示和推理,只需要感知 和行動,這意味著符號世界、心理世界是物理世界 或其子集.但是,3 個世界并不同構.比如,喬姆斯基 曾經寫過一個著名的句子:“Colorless green ideas sleep furiously.”這個句子在符號世界可行,但在心 理世界和物理世界就失去了可行性.因此,3 個世界 同構假設僅是一種有用的簡化,并不總是成立。

由于 3 個世界并不同構,它們之間的關系相當復雜.這導致在 3 個世界中實現智能的難度也大為不 同.從共性上講,無論在哪個世界實現智能,首先必 須解決最基礎的感知問題,即輸入輸出問題.從難度 上看,感知智能、認知智能、情感智能、行為智能 依次增加.原因很簡單:感知智能保持了 3 個世界同 構假設.從認知智能開始,我們必須放棄 3 個世界同 構的假設,只能假設 3 個世界的某些受限子集同構. 認知智能旨在解決符號世界的智能問題,其實現主 要受制于符號世界的規律,這些規律可能是顯知識, 也可能是暗知識,但認知智能依然在符號世界內預 設概念的三指等價.情感智能主要解決心理世界的智 能問題,除了受制于心理世界外,也受制于情感所 在的物理個體,即情感必須在認知層面具備具身特 性.理論上,西施難以與青蛙共情,夏蟲不能與秋雁 同語.對于機器來說,情感智能是基于認知智能的, 情感智能也是依賴于機器內部的符號操作.僅有認知 智能并不能實現情感智能,情感智能的實現難度髙 于認知智能,情感智能預設心理世界內的概念三指 等價.行為智能主要解決物理世界的智能問題,不但 受限于作為行為主體的自身物理條件,也受限于其 所處的物理環境,約束最多,因此實現難度最大.莫 拉維克悖論實際上是對行為智能實現難度最大的一 個簡單說明.對于行為智能來說,任一概念的三指等 價都需要檢驗,任一概念的三指等價都不能先驗預 設成立,這正是莫拉維克悖論背后隱藏的挑戰.圖 4 比較清楚地說明了概念的三指等價性從默認成立到 必須檢驗所對應的不同智能階段。

根據以上分析,人工智能的發展路徑可以預測 為:首先成熟的是感知智能,次之為認知智能,再 次為情感智能,最后是行為智能.這與人工智能目前 的現狀相符.當前,感知智能的問題已經大部分解決, 已經融入人們的日常生活.得益于 ChatGPT 等技術, 認知智能的問題已經初步解決,即將走入人們的生 活.情感智能的問題部分解決,受限可用,比如在三 界同構假設成立時,可以使用類 ChatGPT 技術.行為 智能的問題尚極具挑戰性,在目前的情況下可用性 受到嚴重限制,如在工廠等封閉場景下部分可用, 距離人們的日常生活需求尚遠.之所以在部分封閉場 景下行為智能能實現,原因即在于此時對應的相關 概念可以保證其三指等價.

粗略地說,感知智能是人工智能中的基礎智能, 可視為人工智能的 1.0 階段.認知智能是人工智能的 2.0 階段.情感智能則為人工智能的 3.0 階段.行為智能 可以看作是人工智能的 4.0 階段.目前的人工智能發 展已經進入了 AI2.0 時代,未來的 AI3.0 和 4.0 還有待努力.

5 ChatGPT的影響

人工智能發展至今,邁入認知智能時代,確實 取得了重大進步.雖然離 AI3.0 和 4.0 距離尚遠,但依 然將對我們的生活產生重要影響: 1)生成式 AI 的成功提醒我們,符號世界、心 理世界、物理世界三界同構假設不是恒真.今后,各 種符號的證據力量需要檢測,不能預設為真. 這不僅 大幅提升認知成本,還考驗認知能力.隨著類似 ChatGPT 工具的普及,它可能代表認知的最低水準.

2)每次技術進步,都對教育提出了更高的要求, 這次也不例外. ChatGPT 展現出的認知水平要求人們 更注重提出問題和獨立判斷的能力.鑒于符號世界的 人類普適性,教育尤其是高等教育需要提前布局.

3)ChatGPT 表明認知智能已可用,但依然不可 能通過原始的圖靈測試.這表明圖靈測試是有啟發性 的思想實驗,但不是衡量智能的實踐標準.

4)ChatGPT 的成功為國內人工智能學術界同時 帶來機遇與挑戰.機遇包括提高學界對相關問題的理 解,例如任務的主觀性,以往的多任務可能在新視 角下視為單任務;同時,全社會對人工智能潛在能 力的直觀體驗和認可得到提升,將極大推動相關產 業的發展.然而,挑戰也不容忽視:應用研究方面, 社會對技術的期待值提高,實效性和實用性至關重 要;理論研究方面,技術已領先于理論,亟需加強 理論研究.

5)類 ChatGPT 技術的大規模應用可能導致意識 形態等方面的信息繭房效應. 特別是類 ChatGPT 是中 心化的 AI 平臺,容易使人們在獲取信息時只接觸到 特定內容和片面觀點,這一方面會加劇社會分化, 另一方面會降低觀點多樣性,阻礙創新思維的產生, 為社會帶來潛在危害.

6)大模型對計算量的巨大需求可能會加劇全球 能源危機,并對環境產生不良影響.我們期望 AI for science 通過加速科學發現,更迅速地找到可持續能 源解決方案和新的節能技術,從而盡量降低這些負 面影響.

7)ChatGPT 在提高生產力方面潛力巨大.通過自 動化處理一些繁瑣的、重復性的任務,它可以解放 人們的時間和精力,讓人們關注于更有價值、更具 創造力的工作,進一步推動社會創新和發展.

參 考 文 獻

[1] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transferlearning with a unified text-to-text transformer[J]. The Journal of Machine Learning Research. 2020, 21(1):5485-5551

[2] Zhou Y, Muresanu AI, Han Z, et al. Large language models are human-level prompt engineers[OL]. arXiv preprint arXiv:2211.01910. 2022

[3] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[OL]. arXiv preprint arXiv:2206.07682. 2022

[4] Polanyi M, Sen A. The tacit dimension[M]. Chicago, IL: University of Chicago Press,2009

[5] Wu C, Yin S, Qi W, et al. Visual chatgpt: Talking, drawing and editing with visual foundation models[OL]. arXiv preprint, arXiv:2303.04671. 2023

[6] Yang Z, Li L, Wang J, et al. MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action[OL]. arXiv preprint, arXiv:2303.11381. 2023

[7] Shen Y, Song K, Tan X, et al. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace[OL]. arXiv preprint, arXiv:2303.17580, 2023

[8] Borji A. A categorical archive of chatgpt failures[OL]. arXiv preprint, arXiv:2302.03494. 2023

[9] Liu Y, Liu X, Chen H, et al. Does Debiasing Inevitably Degrade the Model Performance[OL]. arXiv preprint, arXiv:2211.07350. 2022

[10] Zhuo TY, Huang Y, Chen C, et al. Exploring ai ethics of chatgpt: A diagnostic analysis[OL]. arXiv preprint, arXiv:2301.12867. 2023

[11] Carlini N, Tramer F, Wallace E, et al. Extracting Training Data from Large Language Models[C] //Proc of USENIX Security Symp. Berkeley, CA : USENIX Association, 2021: 2633-2650

[12] Luft J, Ingham H. The Johari window, a graphic model of interpersonal awareness[C] //Proc of the Western Training Laboratory in Group Development. Los Angeles: University of California, Los Angeles, 1955, 246

[13] Gao L, Madaan A, Zhou S, et al. PAL: Program-aided Language Models[OL]. arXiv preprint, arXiv:2211.10435. 2022

[14] Yao Shunyu, Zhao J, Yu Dian, et al. ReAct: Synergizing reasoning and acting in language models [C] //Proc of the Int Conf on Learning Representations (ICLR). 2023[2023-04-10].

[15] Shinn N, Labash B, Gopinath A. Reflexion: An autonomous agent with dynamic memory and self-reflection[OL]. arXiv preprint, arXiv:2303.11366. 2023

[16] Ross W D. Aristotle on His Predecessors, Being the First Book of His Metaphysics [M] (1908): 110-113

[17] Tarski A. The semantic conception of truth: and the foundations of semantics[J]. Philosophy and Phenomenological Research. 1944,4(3):341- 376

[18] Yu Jian. Brilliance and Darkness: Turing Test[J]. Journal of Computer Research and Development, 2020, 57(5): 906-911(in Chinese) (于劍. 圖靈測試的明與暗[J],計算機研究與發展,2020,57(5):906-911)

[19] Russell B. An Inquiry into Meaning and Truth [M].Beijing: China Commerce and Trade Press,2012 (羅素. 意義與真理的探究[M]. 北京:商務出版社,2012)

[20] Xiao G, Lin J, Han S. Offsite-Tuning: Transfer Learning without Full Model[OL]. arXiv preprint, arXiv:2302.04870. 2023

[21] Held R, Hein A. Movement-produced stimulation in the development of visually guided behavior [J]. Journal of Comparative and Physiological Psychology, 1963, 56(5):872

[22] Vemprala S, Bonatti R, Bucker A, et al. Chatgpt for robotics: Design principles and model abilities.2023

[23] Bai Y, Kadavath S, Kundu S, et al. Constitutional AI: Harmlessness from AI Feedback[OL]. arXiv preprint, arXiv:2212.08073. 2022

付費5元查看完整內容

轉載機器之心報道

機器之心編輯部

為什么仿佛一夜之間,自然語言處理(NLP)領域就突然突飛猛進,摸到了通用人工智能的門檻?如今的大語言模型(LLM)發展到了什么程度?未來短時間內,AGI 的發展路線又將如何?自 20 世紀 50 年代圖靈測試提出以來,人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統,受到語法規則的約束。因此,開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年,語言建模方法被廣泛用于語言理解和生成,包括統計語言模型和神經語言模型。近些年,研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型(PLMs),并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升,因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是,當參數規模超過一定水平時,這個更大的語言模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習。為了區別于 PLM,這類模型被稱為大型語言模型(LLMs)。

從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數量爆炸的大模型不斷涌現。可以說,LLMs 的研究在學界和業界都得到了很大的推進,尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響,并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步,中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展,尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源,討論了未來發展方向等問題。對于領域內研究人員和工程師而言,這份綜述是一份極其有用的學習資源。

論文鏈接://www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb

在進入正文前,我們先來看 2019 年以來出現的各種大語言模型(百億參數以上)時間軸,其中標黃的大模型已開源。

LLMs 概覽

**在第一節中,研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常,大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量(擴大倍數)。他們可以更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本。這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。

LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」,這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時,它還引入了一個顯著的特征:當規模達到一定水平時,性能顯著高于隨機的狀態。以此類推,這種新模式與物理學中的相變現象密切相關。原則上,這種能力也可以與一些復雜的任務有關,而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力:上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。

關鍵技術接下來來看 LLMs 的關鍵技術,包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。訓練。由于規模巨大,成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數,經常聯合使用各種并行策略。為了支持分布式訓練,DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外,優化技巧對訓練穩定性和模型性能也很重要,例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法,從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后,LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時,這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用,比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優,以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征(包括高質量和低質量的數據),它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致,InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法,使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的,在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器,因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據,無法捕獲最新信息。針對這些問題,人們提出使用外部工具來彌補 LLMs 的不足,比如可以利用計算器進行精確計算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識,這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求,開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗,并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中,研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。

下表 2 列出了常用的數據源。

**預訓練 **

預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練,LLMs 可以獲得基本的語言理解和生成技能。在這個過程中,預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外,為了有效地預訓練 LLMs,模型架構、加速方法和優化技術都需要精心設計。在第四節中,研究者首先在第 4.1 節討論了數據的收集和處理,然后在第 4.2 節介紹了常用的模型架構,最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM,從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。

收集大量文本數據后,必須對它們進行預訓練以構建預訓練語料庫,包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。

架構在本節中,研究者回顧了 LLMs 的架構設計,即主流架構,預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。

由于出色的并行化性和容量,Transformer 架構已成為開發各種 LLM 的 backbone,使得將語言模型擴展到數千億個參數成為可能。一般來說,現有 LLMs 的主流架構大致可以分為三大類,即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來,各種改進被相繼提出以提高其訓練穩定性,性能和計算效率。在這一部分中,研究者討論了 Transformer 四個主要部分的相應配置,包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用,它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs,有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中,研究者回顧了訓練 LLMs 的重要設置,技術和訓練 LLMs 技巧。對于 LLMs 的參數優化,研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。 隨著模型和數據規模的增加,在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是,需要解決兩個主要技術問題,例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法,以解決上述兩個挑戰,即 3D 并行、ZeRO 和混合精度訓練,并就如何利用它們進行訓練給出了建議。

LLMs 的適應性調優經過預訓練,LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明,LLMs 的能力可以根據具體目標進一步調整。在第五節中,研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法,即指令調優(instruction tuning)和對齊調優(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上,指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法,這與監督微調和多任務提示訓練高度相關。為了執行指令調優,我們首先需要收集或構建指令格式的實例。然后,我們通常使用這些格式化實例以監督學習方式微調 LLMs(例如,使用序列到序列損失進行訓練)。在指令調整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務的能力,即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下,本文主要關注指令調優對 LLMs 的影響,并提供實例收集和調優的詳細指南或策略。此外,本文還討論了使用指令調優來滿足用戶的實際需求,這已廣泛應用于現有的 LLMs,例如 InstructGPT 和 GPT-4。格式化實例構建:通常,指令格式的實例由任務描述(稱為指令)、輸入輸出對和少量演示(可選)組成。作為重要的公共資源,現有研究已經發布了大量以自然語言格式化的標記數據(參見表 5 中的可用資源列表)。接下來,本文將介紹構造格式化實例的兩種主要方法(參見圖 4 中的插圖),然后討論實例構造的幾個關鍵因素。指令調優策略:與預訓練不同,指令調優通常更有效,因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程,但它的優化在幾個方面與預訓練不同,例如訓練目標(即序列到序列損失)和優化配置(例如更小的批次) 大小和學習率),這在實踐中需要特別注意。除了這些優化配置之外,指令調優還需要考慮兩個重要方面:

  • 平衡數據分布。
  • 結合指令調優和預訓練。

對齊調優這部分首先介紹了對齊的背景及其定義和標準,然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集,最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。

使用在預訓練或適應性調整之后,使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習(in-context learning),它以自然語言文本的形式制定了任務描述或演示。此外,思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中,研究者詳細介紹了這兩種技術的細節。上下文學習**


作為一種特殊的 prompt 形式,上下文學習(ICL)是 GPT-3 首次提出的,它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈(CoT)是一種改進的 prompt 策略,可以提高 LLM 在復雜推理任務中的表現,如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt,而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中,研究者詳細說明了 CoT 與 ICL 的用法,并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性,研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務,然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務,最后討論了現有的基準和實證分析。基本評估任務

 圖 7:一個公開 LLM 的內在和外在幻覺的例子(訪問日期:2023 年 3 月 19 日)。作為內在幻覺的例子,LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺,在這個例子中,LLM 似乎對 RLHF(從人類反饋中強化學習)的含義有不正確的理解,盡管它能正確理解 LLM 的含義。

高級任務評估除了上述基本評估任務,LLMs 還表現出一些高級能力,需要特別評估。在第 7.2 節中,研究者討論了幾個有代表性的高級能力和相應的評價方法,包括人工對齊、與外部環境的交互以及工具的操作。

總結與未來方向

在最后一節中,研究者總結了這次調查的討論,并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理:為了理解 LLM 的基本工作機制,最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明,當語言模型的參數規模增加到一個臨界點(如 10B)時,一些新興能力會以一種意想不到的方式出現(性能的突然飛躍),典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷,但也令人困惑:LLMs 何時以及如何獲得這些能力?最近的一些研究要么是進行廣泛的體驗,調查新興能力的效果和這些能力的促成因素,要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題,然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性,跨學科的理論或原則(例如 LLMs 是否可以被視為某種復雜系統)可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索,對于開發下一代的 LLMs 很重要。模型架構:由于可擴展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能,如神經網絡配置和可擴展的并行訓練(見 4.2.2 節討論)。為了進一步提高模型的容量(如多輪對話能力),現有的 LLMs 通常保持較長的上下文長度,例如,GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此,一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性(原始的二次成本)。此外,研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的,例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰,這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時,原先學到的知識很可能被破壞,例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時,也會出現類似的情況,這被稱為對齊稅(alignment tax)。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構,以有效支持數據更新和任務專業化。模型訓練:在實踐中,由于巨大的計算量以及對數據質量和訓練技巧的敏感性,預訓練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優化和訓練穩定性等因素,開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預測縮放),便于在訓練中發現早期的異常問題。此外,它還要求有更靈活的硬件支持或資源調度機制,以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高,因此必須設計一個合適的機制,根據公開的模型檢查點(例如 LLaMA 和 Flan-T5)不斷地預訓練或微調 LLMs。為此,必須解決一些技術問題,包括數據不一致、災難性遺忘和任務專業化。到目前為止,仍然缺乏具有完整的預處理和訓練日志(例如準備預訓練數據的腳本)的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外,開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用:由于微調在實際應用中的成本很高,prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中,上下文學習(prompt 的一種特殊形式)賦予了 LLMs 在新任務上良好的表現,甚至在某些情況下超過了全數據微調模型。此外,為了提高復雜推理的能力,人們提出了先進的 prompt 技術,例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現有的 prompt 方法仍然有以下幾個不足之處。首先,它在設計 prompt 時需要大量的人力,因此為解決各種任務而自動生成有效的 prompt 將非常有用;其次,一些復雜的任務(如形式證明和數字計算)需要特定的知識或邏輯規則,而這些知識或規則可能無法用自然語言描述或用例子來證明,因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要;第三,現有的 prompt 策略主要集中在單圈的表現上,因此開發用于解決復雜任務的交互式 prompt 機制(如通過自然語言對話)非常有用,ChatGPT 已經證明了這一點。安全和對齊:盡管 LLMs 具備相當的能力,但它的安全問題與小型語言模型相似。例如,LLMs 表現出產生幻覺文本的傾向,比如那些看似合理但可能與事實不符的文本。更糟糕的是,LLMs 可能被有意的指令激發,為惡意的系統產生有害的、有偏見的或有毒的文本,導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題(如隱私、過度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法,來自人類反饋的強化學習(RLHF)已被廣泛使用,它將人類納入訓練循環,以發展良好的 LLMs。為了提高模型的安全性,在 RLHF 過程中加入安全相關的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據,使得它很難在實踐中得到正確的實施。因此,有必要改進 RLHF 框架,以減少人類標簽員的工作,并尋求一種更有效的注釋方法,保證數據質量,例如可以采用 LLMs 來協助標注工作。最近,紅色團隊被采用來提高 LLMs 的模型安全性,它利用收集的對抗性 prompt 來完善 LLMs(即避免紅色團隊的攻擊)。此外,通過與人類交流建立 LLMs 的學習機制也很有意義,人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統:由于 LLMs 在解決各種任務方面表現出強大的能力,它們可以被應用于廣泛的現實世界的應用(例如,遵循特定的自然語言指令)。作為一個顯著的進步,ChatGPT 已經潛在地改變了人類獲取信息的方式,這帶來了新必應的發布。在不久的將來,可以預見,LLMs 將對信息搜索技術產生重大影響,包括搜索引擎和識別系統。此外,隨著 LLMs 的技術升級,智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內,這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統(例如,ChatGPT 對插件的支持),這將與人類生活密切相關。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發出比以往更多的智能系統(可能有多模態信號)。同時,在這個發展過程中,人工智能的安全性應該是首要關注的問題之一,也就是說,讓人工智能為人類帶來好處而不是壞處。

付費5元查看完整內容

隨著ChatGPT的病毒式傳播,生成式AI (AIGC,又名AI生成內容)已經成為各地的頭條新聞,因為它具有分析和創建文本、圖像等的能力。在如此鋪天蓋地的媒體報道下,我們幾乎不可能錯過從某個角度一瞥AIGC的機會。在人工智能從純分析過渡到創造的時代,值得注意的是,ChatGPT及其最新的語言模型GPT-4,只是眾多AIGC任務中的一個工具。ChatGPT的能力給許多人留下了深刻的印象,他們想知道它的局限性: GPT-5(或其他未來的GPT變體)能否幫助ChatGPT統一所有AIGC任務,以進行多樣化的內容創建?為了回答這個問題,需要對現有的AIGC任務進行全面的回顧。**因此,我們的工作來填補這一空白,通過提供AIGC的第一眼,從它的技術到應用。現代生成式人工智能依賴于各種技術基礎,從模型架構和自監督預訓練到生成式建模方法(如GAN和擴散模型)。**在介紹基本技術的基礎上,根據AIGC任務的輸出類型,包括文本、圖像、視頻、3D內容等,重點介紹了AIGC任務的技術發展情況,展現了ChatGPT未來的潛力。此外,總結了它們在一些主流行業的重要應用,如教育和創意內容。討論了目前面臨的挑戰,并對生成式人工智能在不久的將來可能如何發展提出了展望。 //www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b

1. 引言

生成式人工智能(AIGC,又稱人工智能生成內容)已經通過ChatGPT或DALLE[343]等有趣的工具成為頭條新聞,這表明人工智能的新時代正在到來。在鋪天蓋地的媒體報道下,普通大眾有很多機會一睹AIGC的風采。然而,媒體報道的內容往往是有偏見的,有時是誤導性的。此外,ChatGPT的強大功能給許多人留下了深刻的印象,他們想知道它的局限性。最近,OpenAI發布了GPT-4[307],與之前的變體GPT-3相比,性能有了顯著的提高,以及多模態生成能力,如理解圖像。AIGC支持的GPT-4的強大功能給許多人留下了深刻的印象,許多人想知道它的局限性:GPT-5(或其他GPT變體)能否幫助下一代ChatGPT統一所有的AIGC任務?因此,對生成式人工智能的全面回顧是應對人工智能驅動的內容創作這一必然趨勢的基礎。更重要的是,我們的工作及時填補了這一空白。 **傳統人工智能的目標主要是進行分類[263]或回歸[227]。這種判別性方法主要用于分析現有數據。**因此,傳統人工智能也經常被稱為分析人工智能。相比之下,生成式AI通過創建新內容來區分。然而,生成式人工智能通常也要求模型在生成新內容之前首先理解一些現有數據(如文本指令)[40,342]。從這個角度來看,分析型AI可以被視為現代生成型AI的基礎,它們之間的邊界往往是模糊的。請注意,分析性AI任務也會生成內容。例如,在圖像分類中生成標簽內容[216]。然而,圖像識別往往不被考慮在生成式人工智能的范疇內,因為標簽內容的維數較低。生成式人工智能的典型任務涉及生成高維數據,如文本或圖像。這些生成的內容也可以用作合成數據,以緩解深度學習對更多數據的需求[144]。第2節概述了生成式人工智能的流行及其背后的原因。 **如上所述,生成式AI與傳統AI的區別在于其生成的內容。也就是說,生成式AI在概念上類似于AIGC(又稱AI生成內容)[304]。**在描述基于AI的內容生成的背景下,這兩個術語通常可以互換。本文為簡單起見,將內容生成任務稱為AIGC。例如,ChatGPT是用于AIGC任務的工具,稱為聊天機器人[43],考慮到AIGC任務的多樣性,這只是冰山一角。盡管生成式AI和AIGC非常相似,但這兩個術語有細微的區別。AIGC專注于內容生成的任務,而生成AI還考慮了支持各種AIGC任務開發的基本技術基礎。本文將這些基礎技術分為兩類。第一類指的是生成式建模技術,如GAN[124]和擴散模型[156],它們與內容創作的生成式AI直接相關。第二類人工智能技術主要由骨干架構(如Transformer[443])和自監督預訓練(如BERT[87]或MAE[141])組成。其中一些是在分析AI的背景下開發的。然而,它們也成為展示競爭性能的關鍵,特別是在具有挑戰性的AIGC任務中。考慮到這一點,第3節總結了這兩類基礎技術。 **在這些基本技術之上,許多AIGC任務已經成為可能,并且可以根據生成的內容類型直接進行分類。**第4、5和6節對AIGC任務的發展進行了總結。具體來說,第4節和第5節分別關注文本輸出和圖像輸出。對于文本生成,聊天機器人[43]和機器翻譯[497]是兩個主要任務。一些文本生成任務也將其他模態作為輸入,主要關注圖像和語音。對于圖像生成,兩個主要任務是圖像恢復和編輯[253]。最近,文本到圖像(text-to-image)引起了廣泛關注。除了以上兩種主要的輸出類型(即文本和圖像),第6節還涵蓋了其他類型的輸出,如視頻、3D、語音等。 **隨著技術的進步,AIGC的性能在越來越多的任務中得到了滿足。**例如,聊天機器人過去僅限于回答簡單的問題。然而,最近的ChatGPT已經被證明可以理解笑話并在簡單的指令下生成代碼。文本到圖像曾經被認為是一項具有挑戰性的任務;然而,最近的DALL-E 2[342]和穩定擴散[357]已經能夠生成逼真的圖像。因此,AIGC應用于行業的機會出現了。章節7介紹了AIGC在各個行業的應用,包括娛樂、數字藝術、媒體/廣告、教育等。隨著AIGC在現實世界中的應用,也出現了許多倫理問題等挑戰。除了當前的挑戰,還提出了對生成式人工智能可能如何發展的展望。 本文從生成內容(即AIGC任務)的角度對生成人工智能進行了調查,涵蓋其基本技術、任務級技術發展、行業應用以及社會影響。論文結構的概述如圖4所示。

2. 概述

采用AI進行內容創作有很長的歷史。1954年,IBM在紐約的總部首次公開演示了機器翻譯系統。1957年,第一首電腦生成的音樂誕生了,名為“伊利亞克組曲”。這種早期的嘗試和概念證明的成功引起了人們對人工智能未來的高度期待,這促使政府和公司向人工智能投資大量資源。然而,如此高的投資熱潮并沒有產生預期的產出。在那之后,一個被稱為人工智能冬天的時期到來了,這極大地破壞了人工智能及其應用的發展。進入2010年代,人工智能再次流行起來,特別是在2012年AlexNet[216]用于ImageNet分類的成功之后。進入21世紀20年代,人工智能已經進入了一個新時代,不僅可以理解現有數據,還可以創建新的內容[40,342]。本節通過關注生成AI的流行及其原因來概述它。 3 AIGC背后的基本技術

本文將AIGC視為一組用人工智能方法生成內容的任務或應用。在介紹AIGC之前,我們首先了解AIGC背后的基本技術,這些技術在技術層面上屬于生成式人工智能的范圍。本文將基本技術大致分為兩類:生成技術和創造技術。具體來說,創建技術是指能夠生成各種內容的技術,例如GAN和擴散模型。通用技術不能直接生成內容,但對AIGC的開發至關重要,例如Transformer架構。在本節中,我們將簡要總結AIGC所需的技術。

4 AIGC任務:文本生成

NLP研究自然語言,有兩個基本任務:理解和生成。這兩個任務并不是完全獨立的,因為適當文本的生成通常依賴于對一些文本輸入的理解。例如,語言模型通常將文本序列轉換為另一個文本序列,這構成了文本生成的核心任務,包括機器翻譯、文本摘要和對話系統。除此之外,文本生成向兩個方向發展:可控性和多模態。第一個方向是生成內容。 4.1 文本到文本

4.1.1聊天機器人 對話系統(聊天機器人)的主要任務是在人類和機器之間提供更好的交流[85,299]。根據應用中是否指定任務,對話系統可以分為兩類:(1)任務導向型對話系統(TOD)[323,502,533]和(2)開放域對話系統(OOD)[4,532,541]。具體來說,面向任務的對話系統專注于任務完成和解決特定問題(例如,餐廳預訂和機票預訂)[533]。同時,開放域對話系統通常是數據驅動的,目的是在沒有任務或域限制的情況下與人類聊天[353,533]。面向任務的系統。面向任務的對話系統可以分為模塊化系統和端到端系統。模塊化方法包括四個主要部分: 自然語言理解(NLU)[395,409],對話狀態跟蹤(DST)[382,462],對話策略學習(DPL)[169,483]和自然語言生成(NLG)[25,99]。在用NLU將用戶輸入編碼為語義槽后,DST和DPL決定下一個動作,然后由NLG轉換為自然語言作為最終響應。這四個模塊旨在以可控的方式產生響應,并可以單獨優化。然而,有些模塊可能是不可微的,單個模塊的改進可能不會導致整個系統的改進[533]。為了解決這些問題,端到端方法要么通過使每個模塊可微[139,162]來實現端到端訓練管道,要么在系統中使用單個端到端模塊[498,531]。模塊化系統和端到端系統仍然存在一些挑戰,包括如何提高DST[208,312]的跟蹤效率,以及如何提高具有有限數據的端到端系統的響應質量[145,148,282]。

**Open-domain系統。**開放域系統旨在與沒有任務和域限制的用戶聊天[353,533],可以分為三種類型:基于檢索的系統,生成系統和集成系統[533]。基于檢索的系統總是從響應語料庫中找到現有的響應,而生成系統可以生成可能不會出現在訓練集中的響應。集成系統通過選擇最佳響應或用生成模型優化基于檢索的模型[378,533,546],將基于檢索的方法和生成的方法相結合。之前的工作從多個方面改進了開放域系統,包括對話上下文建模[105,181,250,282],提高響應一致性[9,117,251,483]和多樣性[31,211,335,408]。最近,ChatGPT(參見圖12)取得了前所未有的成功,也屬于開放域對話系統的范圍。除了回答各種問題,ChatGPT還可以用于論文寫作、代碼調試、表生成等。

4.1.2 機器翻譯

顧名思義,機器翻譯自動將文本從一種語言翻譯為另一種語言171,7497。隨著深度學習取代基于規則的[108]和基于統計的[212,213]方法,神經機器翻譯(NMT)需要最少的語言專業知識[399,451],并因其在句子中捕獲長依賴的能力更高[62]而成為一種主流方法。神經機器學習的成功主要歸功于語言模型[34],它以前一個詞為條件來預測一個詞出現的概率。Seq2seq[413]是將編碼器-解碼器RNN結構[191]應用于機器翻譯的開創性工作。當句子變長時,Seq2seq[413]的性能會變差,針對這一問題,[24]中提出了一種注意力機制,通過額外的單詞對齊來幫助翻譯長句子。隨著越來越多的關注,2006年,與谷歌的基于短語的生成系統相比,谷歌的NMT系統幫助減少了約60%的人工翻譯工作量,彌補了人類翻譯和機器翻譯之間的差距[475]。基于CNN的架構也已被研究用于NMT,并進行了多次嘗試[190,192],但未能取得與由注意力[24]增強的RNN相當的性能。Convolutional Seq2seq[120]使CNN與注意力機制兼容,表明CNN可以取得與RNN相當甚至更好的性能。然而,這種改進后來被另一種稱為Transformer[443]的架構超越。使用RNN或Transformer作為架構,NMT通常使用自回歸生成模型,其中貪婪搜索只考慮在推理過程中預測下一個工作概率最高的單詞。NMT的一個趨勢是在低資源設置中取得令人滿意的性能,其中模型是用有限的雙語語料庫訓練的[458]。緩解這種數據稀缺的一種方法是利用輔助語言,如使用其他語言對進行多語言訓練[187,383,547],或以英語作為中間中間中間語言[58,350]的中間中間語言轉換[58,350]。另一種流行的方法是利用預訓練語言模型,如BERT[87]或GPT[338]。例如,在[359]中顯示,使用BERT[87]或RoBERTa[259]初始化模型權重可以顯著提高英德翻譯性能。在不需要微調的情況下,GPT家族模型[40,338,339]也顯示出具有競爭力的性能。最近,ChatGPT在機器翻譯中顯示了其能力,與商業產品(如谷歌翻譯)相比表現出了競爭力[182]。

4.2多模態文本生成 4.2.1圖像到文本。 圖像到文本,也稱為圖像描述,指的是用自然語言描述給定圖像的內容(參見圖14)。該領域的一項開創性工作是神經圖像描述(NIC)[447],它使用CNN作為編碼器來提取輸入圖像的高級表示,然后將這些表示輸入RNN解碼器以生成圖像描述。這種兩步編碼器-解碼器架構已被廣泛應用于后期關于圖像描述的工作中,我們將其分別稱為視覺編碼[407]和語言解碼。本文首先回顧了圖像描述的兩個階段的歷史和最近的趨勢。 **視覺編碼。**提取圖像的有效表示是視覺編碼模塊的主要任務。從NIC[447]開始,使用GoogleNet[417]提取輸入圖像的全局特征,多個工作采用各種CNN骨干網絡作為編碼器,包括[195]中的AlexNet[216]和[92,272]中的VGG網絡[393]。然而,語言模型很難生成具有全局視覺特征的細粒度標題。以下工作介紹了細粒度視覺特征的注意力機制,包括對CNN特征的不同網格[56,264,463,484]或不同視覺區域[16,200,518]的注意力。另一個分支工作[500,536]采用圖神經網絡來編碼不同區域之間的語義和空間關系。然而,人類定義的圖結構可能會限制元素之間的相互作用[407],這可以通過連接所有元素的自注意力方法231,501,530來緩解。 **語言解碼。**在圖像描述中,語言解碼器通過預測給定單詞序列的概率來生成標題[407]。受NLP領域突破的啟發,語言解碼器的骨干從RNN[200, 264, 447, 456]發展到Transformer[132, 149, 231],實現了顯著的性能提升。除了視覺編碼器-語言解碼器架構之外,一個分支工作采用類似BERT的架構,在單個模型的早期階段融合圖像和標題[244,526,542]。例如,[542]采用單個編碼器來學習圖像和文本的共享空間,首先在大型圖像-文本語料庫上進行保留并進行微調,特別是針對圖像描述任務。 4.2.2 語音到文本生成

語音到文本生成,也稱為自動語音識別(ASR),是將口語,特別是語音信號轉換為相應文本的過程173,347。ASR有許多潛在的應用,如語音撥號、計算機輔助語言學習、字幕生成以及Alexa和Siri等虛擬助手,自20世紀50年代以來,ASR一直是一個令人興奮的研究領域[194,270,345],并從隱馬爾可夫模型(HMM)[188, 225]發展到基于DNN的系統[75,127,152,297,473]。

**各種研究主題和挑戰。**已有工作對ASR系統進行了多方面的改進。多個工作討論了語音信號的不同特征提取方法[270],包括時間特征(如離散小波變換[287,419])和譜特征(如最常用的梅爾頻率倒譜系數(MFCC)[61,69,429])。另一個工作分支將系統管道[355]從多模型[268]改進為端到端[161,233,234,296,453]。具體來說,多模型系統[268,270]首先學習聲學模型(例如,將特征映射到音素的音素分類器),然后學習單詞輸出的語言模型[355]。另一方面,端到端模型直接從音頻輸入預測轉錄[161,233,234,296,453]。盡管端到端模型在各種語言和方言中取得了令人印象深刻的性能,但仍然存在許多挑戰。首先,它們在資源不足的語音任務中的應用仍然具有挑戰性,因為獲取大量標注的訓練數據是昂貴和耗時的[104,355]。其次,這些系統可能很難處理具有特殊詞匯表外單詞的語音,并且可能在訓練數據上表現良好,但可能對新的或未見過的數據[104,334]泛化能力不強。此外,訓練數據中的偏差也會影響有監督ASR系統的性能,導致對某些人群或語音風格[35]的準確性較差。 **資源受限的語音任務。**研究人員致力于研究克服ASR系統挑戰的新技術,其中主要討論了語音資源不足的問題,即缺乏語音受損的數據[355]。一個工作分支[321,346]采用多任務學習來優化不同任務的共享編碼器。與此同時,自監督ASR系統最近成為一個不依賴大量標記樣本的活躍研究領域。具體來說,自監督ASR系統首先在大量未標記語音數據上預訓練模型,然后在較小的標記數據集上進行微調,以促進ASR系統的效率。它可以應用于低資源語言,處理不同的說話風格或噪聲條件,并轉錄多種語言[23,71,255,492]。

5 AIGC任務:圖像生成

與文本生成類似,圖像生成的任務也可以根據其輸入控制分為不同的類別。由于輸出是圖像,一個簡單的控制類型是圖像。圖像類型的控制引起了大量的任務,如超分辨率、去模糊、編輯、翻譯等。圖像類型控件的一個限制是缺乏靈活性。相比之下,文本引導控制可以根據人類的自由意志生成任何風格的任何圖像內容。文本到圖像屬于跨模態生成的范疇,因為輸入文本與輸出圖像是不同的模態。 5.1圖像到圖像

5.1.1圖像恢復 圖像恢復解決了一個典型的逆向問題,即從相應的退化版本恢復干凈的圖像,示例如圖16所示。由于退化圖像與純凈圖像之間存在無限種可能的映射關系,因此這種反問題的病態性質是非平凡的。退化有兩個來源:原始圖像中的信息缺失和在干凈的圖像中添加了一些不受歡迎的東西。前一種退化包括拍攝一張低分辨率的照片,從而丟失一些細節信息,裁剪某個區域,并將彩色圖像轉換為灰色形式。恢復任務依次是圖像超分辨率、修復和著色。另一類恢復任務旨在消除不受歡迎的干擾,如去噪,去霧,去模糊等。早期恢復技術主要使用數學和統計建模來消除圖像退化,包括用于去噪的空間濾波器[123,392,529],用于去模糊的核估計[485,489]。最近,基于深度學習的方法[42,59,93,177,248,252,481,486]由于其通用性和比傳統方法優越的視覺質量,在圖像恢復任務中發揮了主導作用。CNN被廣泛用于圖像恢復[94,411,442,459]中作為構建塊,而最近的工作探索了更強大的transformer架構,并在各種任務中取得了令人印象深刻的性能,如圖像超分辨率[247]、著色[218]和修復[240]。也有一些工作將CNN和Transformer的強度結合在一起[103,534,535]。 **復原的生成方法。**典型的圖像恢復模型在重建損失的情況下學習源(退化)圖像和目標(干凈)圖像之間的映射。根據任務的不同,可以通過對干凈的圖像進行各種擾動(包括分辨率下采樣和灰度變換)來生成訓練數據對。為了保持更多的高頻細節并創建更真實的圖像,生成模型被廣泛用于修復,例如超分辨率[223,460,528]和修復[42,252,298]中的GAN。然而,基于gan的模型通常遭受復雜的訓練過程和模式崩潰。這些缺點和DMs的大規模流行導致許多最近的工作將DMs用于圖像恢復任務[199,232,265,349,367,369]。像GAN和DM這樣的生成方法也可以從單個退化圖像中產生多種不同的干凈輸出。 **從單任務到多任務。**現有的大多數復原方法針對不同形式的圖像退化訓練單獨的模型。這限制了它們在實際用例中的有效性,在實際用例中,圖像被退化的組合損壞。為了解決這個問題,一些研究[6,207,391,540]引入了多失真數據集,這些數據集結合了不同強度的各種退化形式。一些研究[207,258,505,509]提出了不同的恢復模型,其中不同的子網絡負責不同的退化。另一項工作[228,242,391,410,540]依賴注意力模塊或引導子網絡來幫助恢復網絡通過不同的退化,允許單個網絡處理多個退化

5.1.2 圖像編輯

圖像編輯是指修改圖像以滿足某種需求,如風格遷移(見圖17),而圖像恢復是為了增強圖像質量。從技術上講,一些圖像恢復任務,如著色,也可能被視為圖像編輯,因為將添加顏色視為所需的需求。現代相機通常具有基本的編輯功能,如銳度調整[524]、自動裁剪[525]、紅眼去除[396]等。然而,在AIGC中,我們對高級圖像編輯任務更感興趣,這些任務以各種形式改變圖像語義,如內容、樣式、對象屬性等。 5.2 多模態圖像生成

文本到圖像(T2I)任務旨在從文本描述生成圖像(見圖??),可以追溯到從標簽或屬性[405,495]生成圖像。AlignDRAW[271]是一項從自然語言生成圖像的開創性工作,令人印象深刻的是,AlignDRAW[271]可以從新穎的文本中生成圖像,如“一個停車標志在藍天中飛翔”。最近,文本到圖像領域的進展可以分為三個分支,包括基于GAN的方法,自回歸方法和基于擴散的方法。

付費5元查看完整內容

最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。

1. 引言

近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。

**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。

除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。

結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。

綜上所述,本文的主要貢獻如下:

據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。

回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。

討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。

調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力

生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。

3. 生成式人工智能

我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。

多模態模型

多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。

4. 應用

5. 效率

在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:

推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。

付費5元查看完整內容

OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮,它面對多種多樣的問題對答如流,似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領域的新訓練范式:來自普林斯頓博士生Ameet Deshpande講述《大型語言模型》技術細節,值得關注!

付費5元查看完整內容

最近OpenAI推出的ChatGPT持續成為熱點,背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型(也稱預訓練模型、基礎模型等)通常是在大規模無標注數據上進行訓練,學習出一種特征和規則,核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類,36頁pdf詳述大模型分類圖。

在過去的幾年里,我們已經看到了幾十種Transformer家族的模型的迅速出現,它們的名字都很有趣,但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型,由一些架構特征定義。2017年,谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而,在那之前,注意力只是這些模型使用的機制之一,這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣,transformer論文的關鍵見解是,注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此,我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此,我們將簡要描述最重要的方面,因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始,并描述一些組件。

從人類反饋(或偏好)中進行強化學習,即RLHF(或RLHP),最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近,它已被應用于ChatGPT和類似的對話代理,如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練,我們就可以對對話產生不同的響應,并讓人類對結果進行排名。在強化學習的背景下,我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止,您已經理解了什么是Transformer模型,以及為什么它們如此流行和有影響力。在本節中,我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成,對于最初的Transformer也是如此。然而,從那時起,已經取得了不同的進展,揭示了在某些情況下,只使用編碼器,只使用解碼器,或兩者都是有益的。 編碼器預訓練這些模型也被稱為雙向編碼或自編碼,在預訓練過程中只使用編碼器,通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段,注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用,如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型,在預訓練過程中只使用解碼器,而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型,也稱為序列到序列,使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞,而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成,但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務,如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時,我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務,例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類,所有這些任務都可以被認為是自監督的:

  1. 語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
  2. 掩碼語言建模(MLM):從輸入句子中屏蔽一些標記,然后訓練模型,用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同,但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標,并訓練模型來預測這些目標。
  3. 降噪自編碼器(DAE):采用部分損壞的輸入(例如,從輸入中隨機采樣token,并將其替換為“[MASK]”元素。從輸入中隨機刪除標記,或按隨機順序打亂句子),并旨在恢復原始未失真的輸入。
  4. 對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似,來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP,但使用兩個連續的片段作為正例,并使用相同的片段,但其順序交換為負例在這里,我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如,問答、情感分析或實體識別)。然而,如前所述,一些Transformer模型也在NLP之外找到了應用,也包括在目錄中。

付費5元查看完整內容

AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。   自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。   ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。   生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。   人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。   未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。

付費5元查看完整內容
北京阿比特科技有限公司