轉載機器之心報道 編輯:張倩
在眾多前沿成果都不再透露技術細節之際,Stable Diffusion 3 論文的發布顯得相當珍貴。
Stable Diffusion 3 的論文終于來了!
這個模型于兩周前發布,采用了與 Sora 相同的 DiT(Diffusion Transformer)架構,一經發布就引起了不小的轟動。
與之前的版本相比,Stable Diffusion 3 生成的圖在質量上實現了很大改進,支持多主題提示,文字書寫效果也更好了(明顯不再亂碼)。
Stability AI 表示,Stable Diffusion 3 是一個模型系列,參數量從 800M 到 8B 不等。這個參數量意味著,它可以在很多便攜式設備上直接跑,大大降低了 AI 大模型的使用門檻。
在最新發布的論文中,Stability AI 表示,在基于人類偏好的評估中,Stable Diffusion 3 優于當前最先進的文本到圖像生成系統,如 DALL?E 3、Midjourney v6 和 Ideogram v1。不久之后,他們將公開該研究的實驗數據、代碼和模型權重。
在論文中,Stability AI 透露了關于 Stable Diffusion 3 的更多細節。
論文標題:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis * 論文鏈接://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
架構細節
對于文本到圖像的生成,Stable Diffusion 3 模型必須同時考慮文本和圖像兩種模式。因此,論文作者稱這種新架構為 MMDiT,意指其處理多種模態的能力。與之前版本的 Stable Diffusion 一樣,作者使用預訓練模型來推導合適的文本和圖像表征。具體來說,他們使用了三種不同的文本嵌入模型 —— 兩種 CLIP 模型和 T5—— 來編碼文本表征,并使用改進的自編碼模型來編碼圖像 token。
Stable Diffusion 3 模型架構。
改進的多模態擴散 transformer:MMDiT 塊。
SD3 架構基于 Sora 核心研發成員 William Peebles 和紐約大學計算機科學助理教授謝賽寧合作提出的 DiT。由于文本嵌入和圖像嵌入在概念上有很大不同,因此 SD3 的作者對兩種模態使用兩套不同的權重。如上圖所示,這相當于為每種模態設置了兩個獨立的 transformer,但將兩種模態的序列結合起來進行注意力運算,從而使兩種表征都能在各自的空間內工作,同時也將另一種表征考慮在內。
在訓練過程中測量視覺保真度和文本對齊度時,作者提出的 MMDiT 架構優于 UViT 和 DiT 等成熟的文本到圖像骨干。
通過這種方法,信息可以在圖像和文本 token 之間流動,從而提高模型的整體理解能力,并改善所生成輸出的文字排版。正如論文中所討論的那樣,這種架構也很容易擴展到視頻等多種模式。
得益于 Stable Diffusion 3 改進的提示遵循能力,新模型有能力制作出聚焦于各種不同主題和質量的圖像,同時還能高度靈活地處理圖像本身的風格。
通過 re-weighting 改進 Rectified Flow
Stable Diffusion 3 采用 Rectified Flow(RF)公式,在訓練過程中,數據和噪聲以線性軌跡相連。這使得推理路徑更加平直,從而減少了采樣步驟。此外,作者還在訓練過程中引入了一種新的軌跡采樣計劃。他們假設,軌跡的中間部分會帶來更具挑戰性的預測任務,因此該計劃給予軌跡中間部分更多權重。他們使用多種數據集、指標和采樣器設置進行比較,并將自己提出的方法與 LDM、EDM 和 ADM 等 60 種其他擴散軌跡進行了測試。結果表明,雖然以前的 RF 公式在少步采樣情況下性能有所提高,但隨著步數的增加,其相對性能會下降。相比之下,作者提出的重新加權 RF 變體能持續提高性能。
擴展 Rectified Flow Transformer 模型
作者利用重新加權的 Rectified Flow 公式和 MMDiT 骨干對文本到圖像的合成進行了擴展(scaling)研究。他們訓練的模型從帶有 450M 個參數的 15 個塊到帶有 8B 個參數的 38 個塊不等,并觀察到驗證損失隨著模型大小和訓練步驟的增加而平穩降低(上圖的第一行)。為了檢驗這是否轉化為對模型輸出的有意義改進,作者還評估了自動圖像對齊指標(GenEval)和人類偏好分數(ELO)(上圖第二行)。結果表明,這些指標與驗證損失之間存在很強的相關性,這表明后者可以很好地預測模型的整體性能。此外,scaling 趨勢沒有顯示出飽和的跡象,這讓作者對未來繼續提高模型性能持樂觀態度。
靈活的文本編碼器
通過移除用于推理的內存密集型 4.7B 參數 T5 文本編碼器,SD3 的內存需求可顯著降低,而性能損失卻很小。如圖所示,移除該文本編碼器不會影響視覺美感(不使用 T5 時的勝率為 50%),只會略微降低文本一致性(勝率為 46%)。不過,作者建議在生成書面文本時加入 T5,以充分發揮 SD3 的性能,因為他們觀察到,如果不加入 T5,生成排版的性能下降幅度更大(勝率為 38%),如下圖所示:
只有在呈現涉及許多細節或大量書面文本的非常復雜的提示時,移除 T5 進行推理才會導致性能顯著下降。上圖顯示了每個示例的三個隨機樣本。
模型性能
作者將 Stable Diffusion 3 的輸出圖像與其他各種開源模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及閉源模型(如 DALL-E 3、Midjourney v6 和 Ideogram v1)進行了比較,以便根據人類反饋來評估性能。在這些測試中,人類評估員從每個模型中獲得輸出示例,并根據模型輸出在多大程度上遵循所給提示的上下文(prompt following)、在多大程度上根據提示渲染文本(typography)以及哪幅圖像具有更高的美學質量(visual aesthetics)來選擇最佳結果。
以 SD3 為基準,這個圖表概述了它在基于人類對視覺美學、提示遵循和文字排版的評估中的勝率。
從測試結果來看,作者發現 Stable Diffusion 3 在上述所有方面都與當前最先進的文本到圖像生成系統相當,甚至更勝一籌。
在消費級硬件上進行的早期未優化推理測試中,最大的 8B 參數 SD3 模型適合 RTX 4090 的 24GB VRAM,使用 50 個采樣步驟生成分辨率為 1024x1024 的圖像需要 34 秒。
此外,在最初發布時,Stable Diffusion 3 將有多種變體,從 800m 到 8B 參數模型不等,以進一步消除硬件障礙。
更多細節請參考原論文。
參考鏈接:
轉載機器之心報道
編輯:陳萍、張倩這篇由微軟撰寫的報告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。
一周之前,ChatGPT迎來重大更新,不管是 GPT-4 還是 GPT-3.5 模型,都可以基于圖像進行分析和對話。與之對應的,多模態版GPT-4V模型相關文檔也一并放出。當時 OpenAI 放出的文檔只有18頁,很多內容都無從得知,對于想要更深入了解GPT-4V應用的人來說,難度還是相當大的。 短短幾天時間,當大家還在死磕OpenAI 放出的18頁文檔時,微軟就公布了一份長達166頁的報告,定性地探討了GPT-4V的功能和使用情況。
報告地址: MedARC(醫療人工智能研究中心)聯合創始人兼CEO Tanishq Mathew Abraham表示,「這篇報告將是GPT-4V高級用戶的必讀之作。」
該報告共分為11個章節,重點是對最新模型 GPT-4V(ision)進行分析,以加深大眾對 LMM(大型多模態模型) 的理解。文章用很大篇幅介紹了GPT-4V可以執行的任務,包括用測試樣本來探索GPT-4V的質量和通用性,現階段GPT-4V能夠支持的輸入和工作模式,以及提示模型的有效方法。 在探索 GPT-4V 的過程中,該研究還精心策劃組織了涵蓋各個領域和任務的一系列定性樣本。對這些樣本的觀察表明,GPT-4V 在處理任意交錯的多模態輸入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成為強大的多模態通用系統。 此外,GPT-4V 對圖像獨特的理解能力可以催生新的人機交互方法,例如視覺參考提示(visual referring prompting)。報告最后深入討論了基于 GPT-4V 的系統的新興應用場景和未來研究方向。該研究希望這一初步探索能夠激發未來對下一代多模態任務制定的研究,開發和增強 LMM 解決現實問題的新方法,并更好地理解多模態基礎模型。 下面我們逐一介紹每個章節的具體內容。 論文概覽
論文第一章介紹了整個研究的基本情況。作者表示,他們對GPT-V4的探討主要在以下幾個問題的指導下進行: 1、GPT-4V 支持哪些輸入和工作模式?多模態模型的通用性必然要求系統能夠處理不同輸入模態的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針方面表現出了前所未有的能力。他們還證明,GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術,包括指令跟隨、思維鏈、上下文少樣本學習等。 2、GPT-4V 在不同領域和任務中表現出的質量和通用性如何?為了了解 GPT-4V 的能力,作者對涵蓋廣泛領域和任務的查詢進行了采樣,包括開放世界視覺理解、視覺描述、多模態知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等。GPT-4V 在許多實驗領域都表現出了令人印象深刻的人類水平的能力。 3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能夠很好地理解像素空間編輯,例如在輸入圖像上繪制的視覺指針和場景文本。受這種能力的啟發,研究者討論了「視覺參考提示」,它可以直接編輯輸入圖像以指示感興趣的任務。視覺參考提示可與其他圖像和文本提示無縫結合使用,為教學和示例演示提供了一個細致入微的界面。 4、未來的發展方向是什么?鑒于 GPT-4V 在跨領域和跨任務方面的強大能力,我們不禁要問,多模態學習乃至更廣泛的人工智能的下一步是什么?作者將思考和探索分為兩個方面,即需要關注的新出現的應用場景,以及基于 GPT-4V 系統的未來研究方向。他們介紹了他們的初步探索結果,以啟發未來的研究。 中文版
當地時間 5 月 10 日上午,一年一度的谷歌 I/O 來了,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。PaLM 二代模型****支持多語言、更強的數學、代碼能力
首先,谷歌給出了自己對標 GPT-4 的大模型 PaLM 2。 要說這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。
在過去的幾年里,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。
谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是將計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。
會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。
皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。
從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。
PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級別的高級語言能力考試。
與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成服務的一部分推出。 皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。
谷歌內部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分別針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。
其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從圖像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型。
皮查伊在會上展示了 Med-PaLM 2 的醫療內容生成效果。
目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 將繼續為谷歌最新的 Bard 提供支持。 論文地址://ai.google/static/documents/palm2techreport.pdf
PaLM 2 技術報告
我們介紹了PaLM 2,這是一個全新的、具有更優秀的多語言和推理能力的語言模型,比其前任PaLM(Chowdhery等人,2022)更高效。PaLM 2是一個基于Transformer的模型,其訓練使用的目標混合類似于UL2(Tay等人,2023)。通過對英語和多語言、以及推理任務的廣泛評估,我們證明了PaLM 2在不同模型大小的下游任務上質量顯著提升,同時相比于PaLM展示出更快、更高效的推理能力。這種改進的效率使得模型能夠被更廣泛地部署,同時也使模型能夠更快地響應,為交互提供更自然的節奏。PaLM 2展示了強大的推理能力,這一點由其在BIG-Bench以及其他推理任務上相對于PaLM的大幅改進所證明。PaLM 2在一系列負責任的AI評估中表現穩定,并且能夠在推理時控制毒性,無需額外的開銷或影響其他能力。總的來說,PaLM 2在各種任務和能力上都實現了最先進的性能。自從Shannon(1951)通過預測下一個詞來估算語言中的信息以來,語言建模一直是一個重要的研究領域。建模起初以n-gram為基礎的方法(Kneser & Ney, 1995)開始,但隨著LSTM(Hochreiter & Schmidhuber, 1997; Graves, 2014)的出現,其發展速度快速提升。后來的研究表明,語言建模也導致了語言理解的提升(Dai & Le, 2015)。隨著規模的增大和Transformer架構(Vaswani等人,2017)的應用,過去幾年大型語言模型(LLMs)在語言理解和生成能力上表現出了強大的性能,這導致在推理、數學、科學和語言任務中取得了突破性的成績(Howard & Ruder, 2018; Brown等人,2020; Du等人,2022; Chowdhery等人,2022; Rae等人,2021; Lewkowycz等人,2022; Tay等人,2023; OpenAI, 2023b)。在這些進步中,關鍵的因素包括模型規模(Brown等人,2020; Rae等人,2021)和數據量(Hoffmann等人,2022)的擴大。到目前為止,大多數LLMs主要遵循一種標準的配方,即主要使用單語語料庫并配合語言建模目標。我們介紹了PaLM 2,這是PaLM(Chowdhery等人,2022)的后繼者,這是一個將建模進步、數據改進和規模洞察力統一起來的語言模型。PaLM 2融合了以下各種研究進步:
? 計算最優縮放:最近,計算最優縮放(Hoffmann等人,2022)表明,數據大小至少與模型大小同等重要。我們驗證了這項研究對更大計算量的適用性,并同樣發現,為了達到給定訓練計算量的最佳性能,數據和模型大小應大致按1:1的比例縮放(這與過去的趨勢不同,過去的趨勢是模型的縮放速度比數據集快3倍)。
? 改進的數據集混合:之前的大型預訓練語言模型通常使用由英文文本主導的數據集(例如,Chowdhery等人(2022)的非代碼部分約占78%)。我們設計了一個更具多語言和多樣性的預訓練混合,它涵蓋了數百種語言和領域(例如,編程語言、數學和平行多語言文檔)。我們證明,較大的模型可以處理更多不同的非英語數據集,而不會導致英語理解性能的下降,并應用去重復來減少記憶(Lee等人,2021)
?** 架構和目標的改進**:我們的模型架構基于Transformer。過去的LLMs幾乎都獨自使用一個因果或掩蔽語言建模目標。鑒于UL2(Tay等人,2023)的強大結果,我們在這個模型中使用調優的不同預訓練目標的混合,以訓練模型理解語言的不同方面。
中文版
GPT-4 打開通用人工智能之門?
人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。**證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。**鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個詞預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。
**1. 引言 **
智力是一個多方面的、難以捉摸的概念,長期以來一直挑戰著心理學家、哲學家和計算機科學家。1994年,52名心理學家組成的小組在一篇關于智力科學的社論中簽署了一個寬泛的定義,試圖抓住它的本質。小組將智力定義為一種非常普遍的心智能力,其中包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力。這一定義意味著智力并不局限于特定的領域或任務,而是包含了廣泛的認知技能和能力。構建一個顯示出1994年共識定義所捕獲的那種通用智能的人工系統,是人工智能研究的一個長期而雄心勃勃的目標。在早期的著作中,人工智能(AI)研究現代學科的創始人提出了一系列理解智能的理想目標[MMRS06]。幾十年來,人工智能研究人員一直在追求智能的原則,包括可泛化的推理機制(例如,[NSS59], [LBFL93])和包含大型常識語料庫的知識庫的構建[Len95]。然而,人工智能研究的許多最新成功可以被描述為狹隘地專注于明確定義的任務和挑戰,例如下國際象棋或圍棋,這些分別在1996年和2016年被人工智能系統掌握。在20世紀90年代末和21世紀初,開發更通用的AI系統的呼聲越來越高(例如,[SBD+96]),該領域的學術界試圖確定可能用于更通用智能系統(例如,[Leg08, GHT15])的原則。“通用人工智能”(AGI)一詞在21世紀初流行開來(見[Goe14]),以強調從“狹義人工智能”(如正在開發的集中的、現實世界的應用程序所示)轉向更廣泛的智能概念的愿望,喚起了早期人工智能研究的長期愿望和夢想。我們使用AGI來指的是顯示上述1994定義中所捕獲的廣泛智能能力的系統,以及這些能力達到或超過人類水平的額外要求,這可能隱含在共識組的工作中。然而,我們注意到,AGI沒有一個被廣泛接受的單一定義,我們在結論部分討論了其他定義。
過去幾年人工智能研究中最顯著的突破是通過大型語言模型(LLMs)實現的自然語言處理的進步。這些神經網絡模型**基于Transformer架構[VSP+17],并在大量Web-文本數據語料庫上進行訓練,其核心是使用自監督目標來預測部分句子中的下一個單詞。**本文報告了由OpenAI開發的一個新的LLM,它是GPT-4的早期和非多模態版本[Ope23],根據1994年的定義,顯示出許多智能的特征。盡管純粹是一個語言模型,但這個早期版本的GPT-4在各種領域和任務上表現出了卓越的能力,包括抽象、理解、視覺、編碼、數學、醫學、法律、理解人類的動機和情感等。在OpenAI的早期開發中,我們使用純自然語言查詢(提示)與GPT-4進行交互。在圖1.1中,我們展示了GPT-4輸出的一些初步示例,包括用一首詩的形式證明無窮素數,用TiKZ(一種用于在LATEX中創建圖形的語言)畫一只獨角獸,用Python創建一個復雜的動畫,以及解決一個高中水平的數學問題。它很容易完成所有這些任務,并且產生的輸出基本上與人類的輸出沒有區別(甚至比人類的輸出更好)。還將GPT-4的性能與之前的LLM進行了比較,其中最著名的是ChatGPT,它是GPT-3 [BMR+20]的微調版本。在圖1.2中,我們展示了向ChatGPT請求無限素數詩和TikZ獨角獸圖的結果。雖然系統在兩個任務上的表現都很出色,但與GPT-4的輸出無法比較。這些初步觀察結果將在本文中在各種任務中重復出現。GPT-4能力的通用性,與跨越廣泛領域的眾多能力的結合,以及它在廣泛的任務范圍上達到或超過人類水平的性能,使我們可以輕松地說,GPT-4是邁向AGI的重要一步。
我們聲稱GPT-4代表了AGI的進步,但這并不意味它所做的事情上是完美的,或者它接近于能夠做人類可以做的任何事情(這是AGI的通常定義之一;有關這方面的更多信息,請參閱結論部分),或者它有內在的動機和目標(AGI某些定義中的另一個關鍵方面)。事實上,即使在1994年智能定義的受限背景下,也不完全清楚GPT-4可以在智能的某些軸上走多遠,例如規劃(見第8節),而且可以說它完全沒有“快速學習并從經驗中學習”這一部分,因為模型沒有不斷更新(盡管它可以在一個會話中學習,例如見第5節)。總的來說,GPT-4仍然有許多局限性和偏差,我們在下面詳細討論,這些也在OpenAI的報告[Ope23]中有所涉及。特別是它仍然遭受的一些證據確鑿的缺點LLM如幻覺(MNBM20)的問題(見圖1.8)或犯基本的算術錯誤CKB + 21,然而它也克服一些基本的障礙,如獲得許多非語言功能(例如,它解決了大部分的LLM [MIB + 23]中描述失效模式,并取得了很大的進步在常識性的,參見圖1.7第一個例子和附錄a)。這突出了一個事實,盡管GPT-4在許多任務上都達到或超過了人類的水平,但總體上它的智能模式顯然與人類不同。然而,幾乎可以肯定的是,GPT-4只是邁向一系列越來越普遍的智能系統的第一步,事實上,在我們的測試過程中,GPT-4本身已經得到了改進,參見圖1 - 3,了解在一個月的訓練過程中獨角獸繪圖的演變2。然而,即使作為第一步,GPT-4也挑戰了大量廣泛接受的關于機器智能的假設,并展示了涌現的行為和能力,這些行為和能力的來源和機制目前還難以精確地識別(再次參閱結論部分以了解有關此的更多討論)。撰寫本文的主要目標是分享我們對GPT-4的能力和限制的探索,以支持我們的評估,即技術飛躍已經實現。我們相信,GPT-4的智能標志著計算機科學及其他領域的真正范式轉變。
1.1 GPT-4智能的研究方法
我們如何衡量一個在未知但極其龐大的web-text數據語料庫上訓練的LLM的智能?機器學習中標準的方法是在一組標準基準數據集上評估系統,確保它們獨立于訓練數據,并且覆蓋一系列任務和領域。這種方法旨在將真正的學習與單純的記憶分開,并有豐富的理論框架支持[SSBD14, MRT18]。然而,這種方法并不一定適用于研究GPT-4,原因有二。首先,由于我們無法訪問其大量訓練數據的全部細節,我們必須假設它可能已經看到了每個現有的基準,或至少一些類似的數據。例如,似乎GPT-4知道最近提出的BIG-bench [SRR+22](至少GPT-4知道BIG-bench中的canary GUID)。當然,OpenAI本身可以訪問所有的訓練細節,因此他們的報告[Ope23]包含許多詳細的基準測試結果。然而,超越傳統基準的第二個原因可能更重要:GPT4智能的關鍵方面之一是它的通用性,表面上理解和連接任何主題的能力,以及執行超出狹窄AI系統典型范圍的任務的能力。GPT-4一些最令人印象深刻的表現是在不承認單一解決方案的任務上,例如編寫圖形用戶界面(GUI)或幫助人類對一些與工作有關的問題進行頭腦風暴。也可以設計此類生成式或交互式任務的基準,但評估的指標成為一個挑戰(例如,有關NLP這一活躍研究領域的一些最新進展,請參見[PSZ+21])。我們注意到,[Cho19]也對衡量AI系統的標準方法提出了批評,其中提出了一個新的基準來評估通用智能。由于前面提到的原因,以及該基準本質上是可視化的,因此更適合[Ope23]中描述的GPT-4的多模態版本,我們沒有在后一個基準上測試GPT-4。 為克服上述限制,本文提出一種研究GPT-4的不同方法,更接近傳統心理學而不是機器學習,利用人類的創造力和好奇心。本文旨在生成新的和困難的任務和問題,令人信服地證明GPT-4遠遠超出了記憶,并且它對概念、技能和領域有深刻和靈活的理解([CWF+22]中也提出了某種類似的方法)。探討了GPT-4的反應和行為,以驗證其一致性、連貫性和正確性,并揭示其局限性和偏差。我們承認這種方法有些主觀和非正式,它可能無法滿足科學評估的嚴格標準。然而,我們相信這是欣賞GPT-4非凡的能力和挑戰的有用和必要的第一步,這樣的第一步為開發更正式和全面的方法來測試和分析具有更通用智能的AI系統開辟了新的機會。
為了說明我們評估GPT-4智能的方法,讓我們考慮圖1.1中與GPT-4交互的前兩個示例。第一個例子是要求GPT-4以一首詩的形式證明質數的無限。這是一項具有挑戰性的任務,需要結合初等數學推理、詩意表達和自然語言生成。第二個例子是讓GPT-4在TiKZ中畫一只獨角獸。這是另一項具有挑戰性的任務,需要結合視覺想象力和編碼技能。在這兩種情況下,GPT-4產生了令人印象深刻的輸出,遠遠優于之前最先進的LLM ChatGPT,至少可以媲美(如果不是優于)人類會做的事情。
然而,令人印象深刻的輸出還不足以讓我們相信GPT-4已經真正掌握了這些任務。我們需要進一步研究,以排除GPT-4只是簡單地記憶或復制一些現有數據的可能性。對于這篇詩,我們可以稍微改變一下問題,讓GPT-4用莎士比亞的風格寫一個同樣定理的證明,見圖2.2,或者要求不同的組合,比如寫一個關于語言模型的柏拉圖式對話,見圖1.6。可以看到,GPT-4很容易適應不同的風格并產生令人印象深刻的輸出,這表明它對所涉及的概念有靈活和普遍的理解。對于獨角獸,我們可以稍微修改一下代碼,然后讓GPT-4修復或改進它。例如,我們可以刪除角,對坐標應用一些隨機變換,然后讓GPT-4將角重新添加到獨角獸中(我們還小心地刪除了代碼中的文本信息,如注釋)。如圖1 -4所示,GPT-4可以正確識別頭部的位置,繪制一個角,并將其連接到頭部,這表明它可以基于自然語言描述理解和操作代碼,以及推斷和生成視覺特征。這些例子展示了我們如何利用人類的創造力和好奇心來產生新的和困難的問題,并探索GPT-4的反應和行為,以評估其智力。在本文的其余部分,我們圍繞用例組織了對GPT-4的研究,涵蓋了各種領域和任務,并強調了GPT-4的優點和缺點。我們接下來會介紹這些。
1.2 實驗
我們在幾個選定的主題上執行上述方法,這些主題大致涵蓋了1994年智力定義中給出的不同能力。智力是一種非常普遍的心智能力,包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力。
**1. GPT-4的主要優勢是它對自然語言無與倫比的掌握。**它不僅可以生成流暢連貫的文本,還可以以各種方式理解和操縱它,例如總結、翻譯或回答一系列極其廣泛的問題。此外,我們所說的翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨領域的翻譯,如醫學、法律、會計、計算機編程、音樂等,參見圖1.6中的柏拉圖對話。這些技能清楚地證明了GPT-4可以理解復雜的想法。在第2節中進一步探討了GPT-4跨模式和學科的組合技能。我們還在第7節中給出了更多關于語言的實驗。
**2. 編碼和數學是抽象推理和思考能力的象征。**在第3節和第4節中,我們分別探討了GPT4在這些領域的能力。然而,我們注意到,就像論文的所有其他部分一樣,我們只是觸及了這些主題的皮毛,整篇論文可以(并且將會)討論GPT-4在這些領域的性能。此外,我們可以選擇其他幾個專家領域來展示GPT-4的一般推理能力,如醫學或法律。我們對美國醫學執照考試第1步、第2步和第3步的選擇題部分(大部分分數)進行了初步測試(詳見[Ope23]),每一步的準確率都在80%左右。對GPT-4在多州司法考試中的能力進行的類似初步測試顯示,準確率在70%以上。我們注意到,最近在最新一代LLM中觀察到這些領域出現了人類水平的能力,例如,數學和醫學上的谷歌's PaLM參見[LAD+22, SAT+22],法律上的GPT-3.5參見[BIK22]。正如我們之前解釋的,我們研究GPT-4的方法不同于這些工作。
**3.在第5節中,我們將測試模型規劃和解決問題的能力,**以及在一定程度上通過讓它玩各種游戲(或翻桌子,模擬游戲環境)以及與工具交互來快速學習和從經驗中學習的能力。特別是,GPT-4可以使用工具(包括它自己)這一事實,對于使用GPT-4構建實際應用程序肯定是非常重要的。
**4. 我們爭論的一個重要部分是,GPT-4在許多任務上達到了人類水平的性能。**因此,我們很自然地會問,GPT-4對人類本身的理解程度如何。我們在第6節中展示了關于這個問題的幾個實驗,包括理解人類以及GPT-4使自己為人類所理解的實驗,即解決可解釋性問題。我們特別注意到,此類任務需要大量的常識,這是迄今為止LLM的眾所周知的痛點[DM15]。在圖1.7中,我們給出了GPT-4在常識性問題上比ChatGPT好多少的第一個例子,并在附錄a中提供了一些進一步的例子。
5. 在整篇論文中,每當我們發現局限性時,我們都會強調,但我們也將第8節專門用于深入分析缺乏規劃,這可能是GPT-4架構的自回歸性質的直接后果。
6. 最后,在第9節中,我們討論了這種早期形式的AGI的預期社會影響,在第10節中,我們分享了該領域的關鍵挑戰、方向和下一步步驟。
許多讀者腦海中可能揮之不去的一個問題是,GPT-4是否真正理解所有這些概念,或者它只是在沒有任何真正或深入理解的情況下,在即興發揮方面比之前的模型好得多。我們希望在閱讀本文后,這個問題應該幾乎翻轉過來,人們可能會想,除了即興發揮之外,真正的理解還有多少。有人能合理地說一個通過了軟件工程候選人考試的系統(圖1.5)不是真正的智能嗎? 也許對理解的唯一真正考驗是一個人是否可以產生新的知識,例如證明新的數學定理,這是LLM目前仍然無法實現的壯舉。
結論
**本文在廣泛的任務和領域中展示了對GPT-4的初步探索,為GPT-4的能力在其中許多方面與人類水平相當的說法提供了支持性證據。**這一結論與OpenAI在[Ope23]中提出的研究結果一致。實驗的一個主要目標是對GPT-4的智能進行初步評估,鑒于這一概念缺乏正式定義,這是一項艱巨的任務,特別是對人工系統。希望我們的探索為理解GPT-4的卓越能力和挑戰提供了有用和必要的第一步,并為開發更正式和全面的方法來測試和分析具有如此廣泛智能的未來AI系統開辟了新機會。上述模型在深度和通用性方面的能力表明,機器學習社區需要通過結構化的數據集和任務超越經典的基準測試,并且對這些新模型的能力和認知能力的評估在本質上已經更接近于評估人類的能力,而不是狹義AI模型的能力。希望我們的研究能夠促進對GPT-4和類似系統的進一步研究,無論是在探索新的應用和領域方面,還是在理解其智能基礎的機制和原理方面。**本文工作的中心主張是,GPT-4實現了一種形式的通用智能,確實展示了人工通用智能的火花。**這可以通過它的核心心智能力(如推理、創造力和推理),它獲得專業知識的主題范圍(如文學、醫學和編碼),以及它能夠執行的各種任務(如玩游戲、使用工具、解釋自己,……)來證明。要創建一個有資格成為完整AGI的系統,還有很多工作要做。最后,討論了幾個直接的下一步步驟,包括定義AGI本身,構建AGI LLM中缺失的一些組件,以及更好地理解最近LLM所顯示的智能的起源。
人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個字預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。