機器之心報道
轉載機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
第一手實測Claude3
地址://claude.ai/
Claude 3 是否真的像官方所宣稱的那樣,性能全面超越了 GPT-4?目前大多數人認為,確實有那么點意思。
以下是部分實測效果:
首先來一個腦筋急轉彎,哪一個月有二十八天?實際正確答案是每個月都有。看來 Claude 3 還不擅長做這種題。
接著我們又測試了一下 Claude 3 比較擅長的領域,從官方介紹可以看出 Claude 擅長「理解和處理圖像」,包括從圖像中提取文本、將 UI 轉換為前端代碼、理解復雜的方程、轉錄手寫筆記等。
對于大模型來說,經常分不清炸雞和泰迪,當我們輸入一張含有泰迪和炸雞的圖片時,Claude 3 給出了這樣的答案「這張圖片是一組拼貼畫,包含狗和炸雞塊或雞塊,它們與狗本身有著驚人的相似之處……」,這一題算過關。
接著問它里面有幾個人,Claude 3 也回答正確,「這幅動畫描繪了七個小卡通人物。」
Claude 3 可以從照片中提取文本,即使是中文、日文的豎行順序也可以正確識別:
如果我用網上的梗圖,它又要如何應對?有關視覺誤差的圖片,GPT-4 和 Claude3 給出了相反的猜測:
哪種是對的呢?
除了理解圖像外,Claude 處理長文本的能力也比較強,此次發布的全系列大模型可提供 200k 上下文窗口,并接受超過 100 萬 token 輸入。
效果如何呢?我們丟給它微軟、國科大新出不久的論文《 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 》,讓它按照 1、2、3 的方式總結文章要點,我們記錄了一下時間,輸出整體答案的時間大概有 15 秒左右。
不過這只是 Claude 3 Sonnet 的輸出效果,假如使用 Claude Pro 版本的話,速度會更快,不過要 20 美元一個月。
值得注意的是,現在 Claude 要求上傳的文章大小不超過 10MB,超過會有提示:
在 Claude 3 的博客中,Anthropic 提出新模型的代碼能力有大幅提升,有人直接拿基礎 ASCII 碼丟給 Claude,結果發現它毫無壓力:
我們應該可以確認,Claude 3 有比 GPT-4 更強的代碼能力。
前段時間,剛剛從 OpenAI 離職的 Karpathy 提出過一個「分詞器」挑戰。具體來說,就是將他錄制的 2 小時 13 分的教程視頻放進 LLM,讓其翻譯為關于分詞器的書籍章節或博客文章的格式。
面對這項任務,Claude 3 接住了,以下是 AnthropicAI 研究工程師 Emmanuel Ameisen 曬出的結果:
或許是不再利益相關,Karpathy 給出了比較充分、客觀的評價:
從風格上看,確實相當不錯!如果仔細觀察,會發現一些微妙的問題 / 幻覺。不管怎么說,這個幾乎現成就能使用的系統還是令人印象深刻的。我很期待能多玩 Claude 3,它看起來是一個強大的模型。
如果說有什么相關的事情我必須說出來的話,那就是人們在進行評估比較時應該格外小心,這不僅是因為評估結果本身比你想象的要糟糕,還因為許多評估結果都以未定義的方式被過擬合了,還因為所做的比較可能是誤導性的。GPT-4 的編碼率(HumanEval)不是 67%。每當我看到這種比較被用來代替編碼性能時,我的眼角就會開始抽搐。
根據以上各種刁鉆的測試結果,有人已經喊出「Anthropic is so back」了。
最后,anthropic 還推出了一個包含多個方向提示內容的 prompt 庫。如果你想要深入了解 Claude 3 的新功能,可以嘗試一下。
鏈接:
Claude 3 系列模型
Claude 3 系列模型的三個版本分別是 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
其中 Claude 3 Opus 是智能程度最高的模型,支持 200k tokens 上下文窗口,在高度復雜的任務上實現了當前 SOTA 的性能。該模型能夠以絕佳的流暢度和人類水平的理解能力來處理開放式 prompt 和未見過的場景。Claude 3 Opus 向我們展示了生成式 AI 可能達到的極限。
Claude 3 Sonnet 在智能程度與運行速度之間實現了理想的平衡,尤其是對于企業工作負載而言。與同類模型相比,它以更低的成本提供了強大的性能,并專為大規模 AI 部署中的高耐用性而設計。Claude 3 Sonnet 支持的上下文窗口為 200k tokens。
Claude 3 Haiku 是速度最快、最緊湊的模型,具有近乎實時的響應能力。有趣的是,它支持的上下文窗口同樣是 200k。該模型能夠以無與倫比的速度回答簡單的查詢和請求,用戶通過它可以構建模仿人類交互的無縫 AI 體驗。
接下來我們詳看一下 Claude 3 系列模型的特性和性能表現。
全面超越 GPT-4,實現智能水平新 SOTA
作為 Claude 3 系列中智能水平最高的模型,Opus 在 AI 系統的大多數評估基準上都優于競品,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA) 、基礎數學(GSM8K)等基準。并且,Opus 在復雜任務上表現出接近人類水平的理解力和流暢度,引領通用智能的前沿。 此外,包括 Opus 在內,所有 Claude 3 系列模型都在分析和預測、細致內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面實現了能力增強。 下圖為 Claude 3 模型與競品模型在多個性能基準上的比較,可以看到,最強的 Opus 全面優于 OpenAI 的 GPT-4。
近乎實時響應
Claude 3 模型可以支持實時客戶聊天、自動補充和數據提取等響應必須立即且實時的任務。 Haiku 是智能類別市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內讀完一篇包含密集圖表和圖形信息的 arXiv 平臺論文(約 10k tokens)。 對于絕大多數工作,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。 強大的視覺能力 Claude 3 具有與其他頭部模型相當的復雜視覺功能。它們可以處理各種視覺格式數據,包括照片、圖表、圖形和技術圖表。 Anthropic 表示,它們的一些客戶 50% 以上的知識庫以各種數據格式進行編程,例如 PDF、流程圖或演示幻燈片。因此,新模型強大的視覺能力非常有幫助。
更少拒絕回復
以前的 Claude 模型經常做出不必要的拒絕,這表明模型缺乏語境理解。Anthropic 在這一領域取得了有意義的進展:與前幾代模型相比,即使用戶 prompt 接近系統底線,Opus、Sonnet 和 Haiku 拒絕回答的可能性明顯降低。如下所示,Claude 3 模型對請求表現出更細致的理解,能夠識別真正的有害 prompt,并且拒絕回答無害 prompt 的頻率要少得多。
準確率提高
為了評估模型的準確率,Anthropic 使用了大量復雜的、事實性問題來解決當前模型中的已知弱點。Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和不確定性回答,也就是模型不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤回答。 除了產生更值得信賴的回復之外,Anthropic 還將在 Claude 3 模型中啟用引用,以便模型可以指向參考材料中的精確句子來證實回答。
長上下文和近乎完美的召回能力
Claude 3 系列型號在發布時最初將提供 200K 上下文窗口。然而,官方表示所有三種模型都能夠接收超過 100 萬 token 的輸入,此能力會被提供給需要增強處理能力的特定用戶。 為了有效地處理長上下文提示,模型需要強大的召回能力。Needle In A Haystack(NIAH)評估衡量模型可以從大量數據中準確回憶信息的能力。Anthropic 通過在每個提示中使用 30 個隨機 Needle/question 對在不同的眾包文檔庫上進行測試,增強了該基準的穩健性。Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率。而且在某些情況下,它甚至識別出了評估本身的局限性,意識到「針」句子似乎是人為插入到原始文本中的。
安全易用
Anthropic 表示,其已建立專門團隊來跟蹤和減少安全風險。該公司也在開發 Constitutional AI 等方法來提高模型的安全性和透明度,并減輕新模式可能引發的隱私問題。 雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指標方面取得了進步,但根據研究,新模型處于 AI 安全級別 2(ASL-2)以內。 在使用體驗上,Claude 3 比以往模型更加擅長遵循復雜的多步驟指令,更加可以遵守品牌和響應準則,從而可以更好地開發可信賴的應用。此外,Anthropic 表示 Claude 3 模型現在更擅長以 JSON 等格式生成流行的結構化輸出,從而可以更輕松地指導 Claude 進行自然語言分類和情感分析等用例。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址: 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。 博客地址: 參考內容:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
轉載機器之心報道 編輯:張倩
在眾多前沿成果都不再透露技術細節之際,Stable Diffusion 3 論文的發布顯得相當珍貴。
Stable Diffusion 3 的論文終于來了!
這個模型于兩周前發布,采用了與 Sora 相同的 DiT(Diffusion Transformer)架構,一經發布就引起了不小的轟動。
與之前的版本相比,Stable Diffusion 3 生成的圖在質量上實現了很大改進,支持多主題提示,文字書寫效果也更好了(明顯不再亂碼)。
Stability AI 表示,Stable Diffusion 3 是一個模型系列,參數量從 800M 到 8B 不等。這個參數量意味著,它可以在很多便攜式設備上直接跑,大大降低了 AI 大模型的使用門檻。
在最新發布的論文中,Stability AI 表示,在基于人類偏好的評估中,Stable Diffusion 3 優于當前最先進的文本到圖像生成系統,如 DALL?E 3、Midjourney v6 和 Ideogram v1。不久之后,他們將公開該研究的實驗數據、代碼和模型權重。
在論文中,Stability AI 透露了關于 Stable Diffusion 3 的更多細節。
論文標題:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis * 論文鏈接://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
架構細節
對于文本到圖像的生成,Stable Diffusion 3 模型必須同時考慮文本和圖像兩種模式。因此,論文作者稱這種新架構為 MMDiT,意指其處理多種模態的能力。與之前版本的 Stable Diffusion 一樣,作者使用預訓練模型來推導合適的文本和圖像表征。具體來說,他們使用了三種不同的文本嵌入模型 —— 兩種 CLIP 模型和 T5—— 來編碼文本表征,并使用改進的自編碼模型來編碼圖像 token。
Stable Diffusion 3 模型架構。
改進的多模態擴散 transformer:MMDiT 塊。
SD3 架構基于 Sora 核心研發成員 William Peebles 和紐約大學計算機科學助理教授謝賽寧合作提出的 DiT。由于文本嵌入和圖像嵌入在概念上有很大不同,因此 SD3 的作者對兩種模態使用兩套不同的權重。如上圖所示,這相當于為每種模態設置了兩個獨立的 transformer,但將兩種模態的序列結合起來進行注意力運算,從而使兩種表征都能在各自的空間內工作,同時也將另一種表征考慮在內。
在訓練過程中測量視覺保真度和文本對齊度時,作者提出的 MMDiT 架構優于 UViT 和 DiT 等成熟的文本到圖像骨干。
通過這種方法,信息可以在圖像和文本 token 之間流動,從而提高模型的整體理解能力,并改善所生成輸出的文字排版。正如論文中所討論的那樣,這種架構也很容易擴展到視頻等多種模式。
得益于 Stable Diffusion 3 改進的提示遵循能力,新模型有能力制作出聚焦于各種不同主題和質量的圖像,同時還能高度靈活地處理圖像本身的風格。
通過 re-weighting 改進 Rectified Flow
Stable Diffusion 3 采用 Rectified Flow(RF)公式,在訓練過程中,數據和噪聲以線性軌跡相連。這使得推理路徑更加平直,從而減少了采樣步驟。此外,作者還在訓練過程中引入了一種新的軌跡采樣計劃。他們假設,軌跡的中間部分會帶來更具挑戰性的預測任務,因此該計劃給予軌跡中間部分更多權重。他們使用多種數據集、指標和采樣器設置進行比較,并將自己提出的方法與 LDM、EDM 和 ADM 等 60 種其他擴散軌跡進行了測試。結果表明,雖然以前的 RF 公式在少步采樣情況下性能有所提高,但隨著步數的增加,其相對性能會下降。相比之下,作者提出的重新加權 RF 變體能持續提高性能。
擴展 Rectified Flow Transformer 模型
作者利用重新加權的 Rectified Flow 公式和 MMDiT 骨干對文本到圖像的合成進行了擴展(scaling)研究。他們訓練的模型從帶有 450M 個參數的 15 個塊到帶有 8B 個參數的 38 個塊不等,并觀察到驗證損失隨著模型大小和訓練步驟的增加而平穩降低(上圖的第一行)。為了檢驗這是否轉化為對模型輸出的有意義改進,作者還評估了自動圖像對齊指標(GenEval)和人類偏好分數(ELO)(上圖第二行)。結果表明,這些指標與驗證損失之間存在很強的相關性,這表明后者可以很好地預測模型的整體性能。此外,scaling 趨勢沒有顯示出飽和的跡象,這讓作者對未來繼續提高模型性能持樂觀態度。
靈活的文本編碼器
通過移除用于推理的內存密集型 4.7B 參數 T5 文本編碼器,SD3 的內存需求可顯著降低,而性能損失卻很小。如圖所示,移除該文本編碼器不會影響視覺美感(不使用 T5 時的勝率為 50%),只會略微降低文本一致性(勝率為 46%)。不過,作者建議在生成書面文本時加入 T5,以充分發揮 SD3 的性能,因為他們觀察到,如果不加入 T5,生成排版的性能下降幅度更大(勝率為 38%),如下圖所示:
只有在呈現涉及許多細節或大量書面文本的非常復雜的提示時,移除 T5 進行推理才會導致性能顯著下降。上圖顯示了每個示例的三個隨機樣本。
模型性能
作者將 Stable Diffusion 3 的輸出圖像與其他各種開源模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及閉源模型(如 DALL-E 3、Midjourney v6 和 Ideogram v1)進行了比較,以便根據人類反饋來評估性能。在這些測試中,人類評估員從每個模型中獲得輸出示例,并根據模型輸出在多大程度上遵循所給提示的上下文(prompt following)、在多大程度上根據提示渲染文本(typography)以及哪幅圖像具有更高的美學質量(visual aesthetics)來選擇最佳結果。
以 SD3 為基準,這個圖表概述了它在基于人類對視覺美學、提示遵循和文字排版的評估中的勝率。
從測試結果來看,作者發現 Stable Diffusion 3 在上述所有方面都與當前最先進的文本到圖像生成系統相當,甚至更勝一籌。
在消費級硬件上進行的早期未優化推理測試中,最大的 8B 參數 SD3 模型適合 RTX 4090 的 24GB VRAM,使用 50 個采樣步驟生成分辨率為 1024x1024 的圖像需要 34 秒。
此外,在最初發布時,Stable Diffusion 3 將有多種變體,從 800m 到 8B 參數模型不等,以進一步消除硬件障礙。
更多細節請參考原論文。
參考鏈接:
機器之心報道 機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。
博客地址: 參考內容:
** ****新智元報道 **
作者:胡延平編輯:好困 桃子**【新智元導讀】**生成60秒逼真視頻,只是未來的一個小功能,母模型根科技原力覺醒。來自未來實驗室的首席專家胡延平就爆火Sora模型做出了深度的個人解讀。 這幾天反復看Sora的技術報告,以及各方對Sora的技術分析。基本三個角度:驚呼強大功能,分析Sora(實現)大法,評估巨大沖擊。沖擊方面,主要關注點在于對影視、短視頻、娛樂等領域的影響。但是,**Sora改變AI認知方式,開啟走向「世界模擬器」的史詩級的漫漫征途,才是未來暴風眼,真正的重點。而世界模擬器,是遠比AGI、具身智能、元宇宙更炸裂的智能未來。**Sora技術報告最有價值、最語焉不詳、最容易產生不同理解的一句話是:「通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路」。
而本文所述世界模擬器,與Sora目前自述以及業內理解,可能不太一樣。很顯然要么是Sora言過其實,要么是OpenAI留了一手,要么是現階段技術局限使然。
Sora不是英偉達高級科學家Jim Fan所稱的數據驅動的物理引擎、一個可學習的模擬器或世界模型,也不會像周鴻祎所言能夠讓AGI一兩年內就很快實現。從LLM的文本Token/向量表征,到走向模擬器但還不是模擬器的Patches表達,是原理變化的核心。技術報告在原理部分高度保留,極為簡略,但其中一張圖比較重要。Sora基于Transformer但是對Transformer進行了有力進化,結合了Difussion,Patches是關鍵。不過Sora怎么看都還只是二維視覺的時空表達,處處壓縮,Patches依然是圖像內容關系信息,且有文本烙印,并不是物理世界規律的多維表征。世界模擬器前面加個定語——二維視覺世界模擬器,也許更準確。
三維圖像是數字世界的空間構建,二維視覺其實是像素的運動變化組合。三維、二維視頻都可以看上去像是「物理的」,但實質可以只是運動變化擬合了物理規律,而不是像粒子渲染、工業仿真一樣進行了物理規則、內在性狀的數字構建。背后原因,如同你知道大模型輸出的答案,知道大模型的計算原理,但是卻像神經網絡/深度學習之父Geoffrey Hinton和OpenAI前首席科學家Ilya Sutskever一樣,其實不知道GPT是怎么「想」的。Patches所攜帶的像素、位置、時空信息,以及與周圍Patches的變化、運動、關系,在Transform的注意力機制和Difussion的正反向噪聲過程,經過大規模視頻數據訓練,具有了解構和重構一切二維視覺的能力,面向用戶表現為涌現式的生成,似乎充滿創造力且符合物理規律,但背后其實是Sora「理解」了Patches/像素的變化、運動、位置在時空意義上的關系的數學、算法表征,這些變化和表征又擬合了物理世界的某些合理性。(Patches并非像素)「理解」即算法,「思考」即模型。好拗口,好抽象,好累人,但可能這就是事實。比如,Sora的工程師可能投喂了數千萬甚至數億條視頻讓大模型來學習,但是可能沒有寫過哪怕一行與物理性狀規則有關的代碼。再比如,Sora可能的確學習了一些3D引擎生成的素材,并且像當初通過DOTA2游戲對戰來改進模型一樣,引入3D引擎來校正模型生成視頻在視覺意義上的物理運動表現,但是百分百可以肯定Sora目前并沒有內置3D引擎。Sora讓用戶以為它理解了物理世界、物理規律,就像用戶頭戴蘋果Vision Pro的時候以為看到了物理世界,但其實只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648x3144個像素的各種變化。 甚至圖像其實并不是連續的,而是以每秒90-96次的幀率不斷刷新,擬合人眼視覺原理,讓用戶產生視頻是連續的錯覺。一旦快速甩頭,畫面就會產生運動模糊。重度游戲玩家甚至能體會到畫面撕裂。視頻符合物理規律,不等于視頻的生成基于物理規律,更不等于生成視頻的大模型本身是數據驅動的物理引擎。所謂物理,可以只是視頻畫面整體與局部、前后幀統一的像素級的變化規律、表征關系。 2. 即使如此,Sora還是打開AI新視界大門的那個史詩級的里程碑,大模型認知重啟
在對Sora原理的各種猜測里,華人AI學者謝賽寧的分析最為貼近。**但是局限于技術原理的框架性拆解以及對靈活、可擴展性的強調,反倒沒有道出Sora的突變實質——大模型認知重啟。**此外,直覺謝賽寧認為Sora目前只有30億參數的估計也過于保守。 Sora被認為采用了以Transformer為主干的混合擴散模型DIT,其中DIT=VAE編碼器+VIT+DDPM+VAE解碼器。 此外,Sora還可能使用與Google的Patch n‘Pack(NaVit)類似的技術,以此適應不同分辨率、持續時間和?寬比。盡管在視頻標注、將提示詞轉化為詳細說明等方面,Sora充滿詳實且強烈的文本色彩,但Sora實質上是完全基于視覺、面向視覺、以圖像理解世界的大模型。這一點和過去GPT「文本數據元」(不是神經元)意義上的Token有很大不同,Patches是碎片、補片、基本單元意義上的「視覺信息元」(也不是神經元),Sora里的文本只是人與機器之間、機器與視頻之間的「翻譯者」、「說明書」。**圖像、視頻的信息量其實遠大于文本,呈現在視覺里的現實世界更是如此。海量視頻樣本,已經讓Sora建立了視覺世界的宏觀/微觀時空變化的基本動態關系「理解」。**如果將Sora連接到全球各地的機器人、智能汽車、MR頭顯、智能手機等設備,借助數智之眼,大模型將能夠: 1. 自己「親眼」看到、學習和了解這個世界,而不是僅僅依賴人類投喂給系統的有限文本數據,海量知識信息的「新視界」之門由此打開。 1. 智能設備后接Sora+GPT,實時感知現實,是對具身智能的有力加持,機器人等智能設備有希望獲得類似人類感知現實的視覺和判斷能力,看到即學習,判斷即意味。盡管一開始與人類感知能力還是有較大差距,但也遠非傳統計算機視覺可比。 1. 加之Sora式的大模型的Input和output本來就可以充分文本化,所以絲毫不用擔心這個機器認知的視覺世界和人類的自然語言交互/體感交互會有什么問題。這是一種機器知道視覺「意義」的理解過程。 Sora出現的最大意義,并非可以生成60秒、多個分鏡頭、主體統一的視頻,而是意味著大模型由此可以「睜開眼睛」看世界,這是不亞于人類認知重啟的AI的第一次認知重啟,并且這還不是全部。 3. 認知重啟通向世界模擬器,這意味著「原力覺醒」:大模型里的母模型,未來根科技
Sora還不是世界模擬器,但是表現出了這樣的潛力。它沒有產生終極答案,但是告訴了業者,隱約可行的方向在哪里。盡管Sora還遠不足以成為通用世界模擬器,但是Sora證明Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。從文本語義、視覺到物理,是大模型原理的三次飛躍,也是走向真正的通用(其實首先基于多領域專業模擬器)世界模擬器的進階路徑。
Sora還不是物理引擎,但是未來可以泛化為物理引擎。Patch還只是 ((x,y,z), t )、關系、色彩、內容信息意義上的視覺信息元,并不是神經元,但是未來可以進化為數字神經元。Transformer大模型無論如何都不可能具備人腦一般的量子能力,但是高維全局注意力機制局部具備擬合量子態的潛力。因為AI對智能進行表征的底層邏輯是數學的,相對人腦的直覺、模糊、隨機、潛意識等特征,大模型的機械與恍惚同在。但是一如判斷準確率從0、30%、50%、80%、90%以上一路走來,原理不斷升維,時空不斷轉換,面向AGI的進化表現為不斷接近高可用性、接近乃至超越人類智能的漸進過程。**但AGI不是終點,也不是圣杯,世界模擬器才是。**Sora有助于實現AGI,但Sora開啟的漫漫征途的主要指向并不是AGI,而是世界模擬器。AGI的定義有多種,經典意義上的AGI是類GPT在數據、算力、算法進化到一定程度之后,在知識、內容、程序等工作與創作方面,表現出總體達到局部超越人類智能的能力。AGI依然是工具,能夠支持具身智能,但不是具身智能。AGI并不真正具備內生、自主能力,更多時候只是為人所用的工具。
說到這一點,一定有必要**厘清智能發展的不同形態和不同階段,由此才能看清GPT4、Sora、AGI、世界模擬器所處的生態方位和時空節點。**當我們在說智能的時候,其實同時有三種智能。Smart意義上的功能智能,昔日AI意義上的計算感知智能,也就是弱(的)智能(AI1.0),2020年以來(尤其2023年被視為正式開端)認知智能意義上的強智能(AI2.0)。目前自動駕駛、機器人等智能水準嚴格意義上講處于AI1.0也就是弱智能范疇。強智能(AI2.0)對智能汽車、機器人等智能設備的二次賦能,是正在到來的趨勢。這也是盡管國內人工智能發展如火如荼,但實質存在代差的原因。一些受不了此強彼弱的人,大呼「我們也不差」,認為GPT這一波是在制造威脅論。其實無須嘴硬,凡事都要先爭個面子。只需實事求是,看清格局,抓住關鍵,迎頭趕上就好。**如何看待Sora/GPT的背后,還有另一個實質:有沒有看到戰略高地、科技龍頭、智能圣杯、變革引擎、暴風眼在哪里。強AI就是戰略高地,AI for Science就是科技龍頭,AGI就是眼前的智能圣杯,通用與各領域專業模型就是變革引擎,世界模擬器就是未來的暴風眼。前面說的三種智能都還只是形態水準,并不是對智能發展的階段區分。我將智能發展相對劃分為五個階段:計算功能智能、計算感知智能、認知智能、內生智能(EI)、自主智能(II)。****請注意,有一天AI人工智能這個提法會邊緣化,因為智能不再是「人工」的。人工的AGI自然不是終點,智能將比我們對AGI的預期走得更遠。**這一點我在《走向第二曲線》有詳細分析,此處不再贅述。
智能變革的核心是超級智能,超級智能的具身是AGI,AGI是AI2.0、認知智能的高級形態(但主要還是人工投喂人工增強的智能),AGI是現階段所言AI的高級形態,但不是EI內生智能和II自主智能。AGI不會像某些人說的一兩年內就會實現,但估計也就在GPT6前后。**之后的階段,屬于內生智能(EI)、自主智能(II),屬于世界模擬器。**世界模擬器是EI基石,II基準。****超級智能是世界之腦,超級智能的母體是世界模擬器。世界模擬器是大模型里的母模型,未來科技里的根科技。**看看大模型在工業仿真、環境氣候、材料預測、蛋白質分析、分子藥物、基因研究等領域已經遍地開花的強力開局,就會知道,Sora與它們正在殊途同歸:世界模擬器未來主要不是用來玩的,并不是元宇宙概念的炒資,而是科技生產力爆發點,是智能未來真正的炸裂點。**世界模擬器,科技里的母科技,AI for Science各領域的核心抓手,每個領域的交感、理解、復現、預測,未來世界的「CAE」仿真只是其基礎特性之一。世界模擬器,是最接近智能母體的存在。世界模擬器意味著「原力覺醒」,創新之源,科技驅動,戰略高地,不容有失。
Sora放出的所有視頻里,最具深度探討價值的其實是那個水杯傾倒的片段。 Sora是如何擬合現實的,究竟是不是物理引擎,如何才能成為符合物理特性的引擎,未來又如何才能夠成為世界模擬器。從中隱約可見答案。CV發展初期,計算機能做到的只是杯子邊緣輪廓特征提取和復現(比如Neocognitron),再后來可以識別到這是一個水杯(比如早期ImageNet),再后來可以「理解」水和杯子的關系(CNN&RNN),現在能夠開始學習和復現水杯傾倒過程(Transformer/Sora),接下來會怎么樣發展,也許只有大模型技術專家知道,也許都還在探索,并無定論。我只是站在用戶角度進行黑箱式的透析,超級智能接下來能不能夠做到這幾步?
水杯傾倒的流動特癥能不能完全符合物理特性,不出現目前的明顯瑕疵?對應流體力學等。
水杯傾倒后能不能做到視頻中的冰逐漸在水中融化(所以更感興趣那個漢堡咬痕)?對應熱力學等。
水杯傾倒后導致桌面桌布等濕化以后能不能看到水漬、水汽的光影與色彩變化(所以更感興趣那個畫布筆觸)?對應光學物理等。
水杯傾倒的過程能不能生成與實景契合的聲音,而不只是簡單聲效?對應聲學物理等。
水杯傾倒的角度與力量能不能做到隨機操控,產生碎裂、潑濺、蒸發等不同現象?綜合以上及凝聚態物理。
水杯傾倒周圍如果有電源、危化物品,能否進行場景預測、情景預現?對應電磁物理、物理化學等。 以上都只是物理角度的簡單引申,世界模擬器所需要對應到的科學領域,以及現實世界的復雜現象,甚至是目前數十個主要學科尚未能窮盡的。所以無論從過程還是領域而言,都是征途漫漫。但這才是星辰大海。相應的幾個循序漸進的問題是:
Sora可以對3D圖像而不是3D引擎生成的2D視頻進行學習訓練嗎?
Sora可以從微宏觀統一的尺度,對三維物體的內在性狀進行學習訓練嗎?
Sora可以在模型原理、神經網絡、節點層級對物理世界進行X(3.0)意義上的3D時空運動表征,并在世界虛擬器交感、理解、復現、預測四要素具備的基礎上使X進化為神經元嗎? 面向世界虛擬器的進化,遠不止這些問題,更不只是這些維度……總的來說,Sora部分擬合了「視覺規律」,但是還沒有真的理解「物理世界」。目前的Sora本質上還是在視覺內容世界里,更多與視頻、游戲、娛樂等相關。但并不妨礙Sora式的大模型下一步,進入機器人、智能汽車等主要智能設備,以及成為世界模擬器。AI For Science是世界模擬器的關鍵落地場景,而**AI For Science意義上的X(3.0)是物理世界與視覺世界的分叉點,就像Patch(2.0)是文本世界Token(1.0)與視覺世界的分叉點。**數據、學習、生成、預期是AGI四要素,信息內容感更強。交感、理解、復現、預測,是世界模擬器四要素,母體感知現實具身感更強。世界模擬器的Input和output,實質主要由機器智能系統自主完成,是具有自我強化和自主行為能力的智能。世界模擬器征途漫漫,必將通向EI、II。 5. 接下來的態勢會怎么樣?12種情況預估
**態勢1:Sora模型并非不可復制。**OpenAI如果短期內不正式推出Sora(快不了)給全球用戶,其它競爭對手也會陸續發布自己的類似產品,Patches做法早已有之,并非獨門暗器。OpenAI和Google、Meta之間只有時間差。但是中小團隊的數據差、資源差、算力差造成的競爭弱勢,只有原理升維才可能彌補。Pika、Runway如果不能在原理層面完成超越,哪怕勉強能夠追上Sora未來也是堪憂。另外,原理相似不等于效果相同,差之毫厘謬之千里。**態勢2:拚原理>拚算力,模型原理升維才是能力躍遷關鍵,但算力必不可少且需求繼續陡增。**Sora對prompt單次響應與output過程的算力消耗必然遠超GPT4.0,但這并不是重點。Sora再一次證明,拚原理的重要性遠大于拚算力,算力算什么(而不是算力)才見高下。原理引起的格局翻覆往往就在一瞬間,今后也是,翻覆還將多次。但算力總體需求依然呈現為爆發式增長,因為要算的不再只是文本/Token,視覺/Patches會令算力需求陡增。未來物理引擎、世界模擬器對各類傳感的接入需要和計算需求,更會令算力吃緊。即使眼前線性地看,高質量海量數據總是優于小體量數據,參數量大總是優于參數量小,模型的深層、多階段、反復思考總是優于單階段,高分辨率高精度總是顯著優于低精度,所以算力需求依然呈現為指數級增長。但總體而言,算力只是必要條件。**態勢3:以Transformer為主干的大模型依然是主要演進方向,且具有巨大潛力。**Self-Attention機制在電子計算的層級模擬了量子態(只是神似),消除了信息元之間的距離限制、消解了CNN的場域阻隔,在量子計算可用之前,是以數學、電子計算為基礎的最具腦特征的智能。**態勢4:輕與重,大和小,單一與混合,始終是兩種并行邏輯。**在計算機視覺模型走向大模型、進而走向世界模擬器的漫漫征途中,視頻看上去「合理」的Sora走的是一條更輕的捷徑,操控感、立體感、前后擴展自然不夠理想。3D建模、粒子渲染、光線追蹤從算力、設備和人工投資來說,又笨又重,但更貼近本質,且操控感更強。就像自動駕駛的兩條計算機視覺路線,一個靠CMOS圖像數據來算,一個靠雷達來對物理空間進行點云建模。目前只能說電影工業多了一個選擇,倒還沒有摧枯拉朽那么夸張。微電影、短視頻倒是因此生發出無限可能。**態勢5:功能瑕疵問題反倒不是問題,并且越往世界模擬器方向走,視頻生成的這些小問題越無關大局。**時間線前后擴展、主體融合過渡、場景置換、連續性、3D運鏡、多鏡頭、漢堡咬痕,這些只是目前的能力,Sora的可用性未來會更加超出預期。目前存在的左右腿瞬移、多指多趾、人物消失、運動變形、人穿過柵欄等bug多多,但是瑕不掩瑜,而且這些問題隨著訓練規模增加、模型不斷微調優化,必然迎刃而解。**態勢6:Sora與Vision Pro的確是一對想象力組合,但是以為戴上頭盔就可以念念有詞的,一多半可能會失望。**此外,VR在向MR進,AR在向MR退,VR以后只是MR的一個功能,MR是產業科技目前能夠到的交叉點,最難突破的AR未來才是主要形態。**態勢7:OpenAI本身的4個可能與6個不可能。**可能方面:成為主流AI開發者平臺,成為最大Store,形成數十億用戶生態,部分具身智能能力。不可能方面:7萬億美元造芯,模型原理持續領先,開源開放,縱橫整合產業鏈,成為具身智能/內生智能/自主智能,堅持初創理念不動搖不成為......尤其7萬億美元AI造芯那條忽悠了不少人的吊詭信息,是WSJ援引所謂消息人士,并不是奧特曼本人,已投Rain股權中的沙特基金在被美帝勸退,還和中東主權基金合計在美投資數萬億美元的大規模芯片制造?綠錢不參與的話,找夠相當于美元「風投+IPO」十幾年總額的資金做AI芯片,要么是概念吹瘋了,要么是常識缺位,要么是算數不會了。更重要的是,制造并不是AI計算突破重點。**態勢8:全生態轉變已開始,AI是主驅動但不是化學反應全部。**6個要素:感知(交互)、計算(數據)、智能(AI)、連接(網絡)、協約(關系)、能量(能源)等。**態勢9:變化非線形。**深層玩家不僅著眼算力提升,還在醞釀計算架構之變,變化不會是線性的,有可能業者討論的未來其實是現在,而不是升維后的未來。下一步模型原理、計算架構包括芯片,都將不斷有重大變化。**態勢10:AI原力在底層,應用只是需求牽引力。**國內團隊適合從應用著手說法沒錯,但過早定格一覺醒來發現樓塌了不是沒有可能,還是需要有人聚焦底層之變,包括硬件底層,硬仗有人打,至少緊跟。**態勢11:一定是云端邊-大中小-PPP混合AI,如此戰場方能展開;但不能只著眼AI,感數算智、軟硬協同、形態創新等維度交織才是完整視角,也是價值展開的關鍵。**如果只是窄化為算力算法意義上的AI,輕量化為場景需求意義上的應用,無異于互聯網思維,只可能第一天就卷,只可能是store里的一個GTPs、APPs,就像互聯網時代曾經活成了「很厲害」的APP的樣子;這是一場原力致勝的立體戰役,最需要褪去的就是互聯網思維;凡事偷輕,難堪重任;處處求簡,難當多面;全生態全體系變革,僅應用不足以催化,僅算力算法數據模型意義上的AI不足以驅動。**態勢12:壓力陡增。**回到老難題,中美AI之爭,李約瑟之問和錢學森之問。說實話GPT3.5、GPT4.0發布之際,壓力不那么大,總覺得有得一追,畢竟都還在文本、代碼、圖片維度。但是Sora一出,壓力陡增。升維比想象得快。競爭和發展不是二維、線性的。真正的物理世界模擬器,已經隱約能嗅到味道,且原理隱約可見。這才是AI未來競爭、大模型決勝的炸裂點。**朋友有句話說得好,當年Alpha Go/zero碾壓人類圍棋之后,事了拂衣去,一年后阿爾法Fold橫空處世,重塑了人類對蛋白質結構認知與預測,這才叫偉大工程。**Sora也是一樣,如果只以為它是60秒視頻生成神器,被網絡噴子噴成「洋人的奇技淫巧」,無用之用,可以說與業外對早期AlphaGo的「下棋玩具」理解有幾分神似。但如果從大模型睜開眼睛看世界,AI認知重啟,以及潛在的世界模擬器發展方向看,這顯然是正在覺醒的原力。企業如果忽視趨勢,在這一史詩級的漫漫征程中落伍,會被降維打擊得連親媽都認不出來。AI認知重啟,超級智能點亮億萬機器之心,世界虛擬器成為母模型根科技,不是科幻,這是一個時代的序幕。那么,AI認知已然重啟,人類的認知重啟了嗎?
作者介紹 胡延平,DCCI未來智庫創始人,FutureLabs未來實驗室首席專家,信息社會50人論壇成員。《全球創新前沿科技地圖》及相關研究項目主導,科技暢銷書《黑科技》(2017)共同作者與出品人。歷任《互聯網周刊》總編、中國互聯網協會交流發展中心主任等媒體與NGO職務,持續專注于前沿科技創新探索,角度專注于「從技術看產品,從產品看產業,從產業看生態」。1997以來出版多部科技專著。《奔騰時代(硅谷)》(1997)作者、《數字藍皮書》(2000)、《跨越數字鴻溝》、《第二次現代化》、《第四種力量》(2002)著者,《Google將帶來什么》(2009)譯者之一。
** ****新智元報道 **
編輯:編輯部**【新智元導讀】為何Sora會掀起滔天巨浪?Sora的技術,就是機器模擬我們世界的下一步。而且今天有人扒出,Sora創新的核心秘密時空Patches,竟是來自谷歌DeepMind和謝賽寧的論文成果。**
OpenAI,永遠快別人一步!像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級大殺器Gemini 1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶了去。100萬token的上下文,僅靠一本語法書就學會了一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。這次,不過也是之前歷史的重演。 為什么ChatGPT會提前誕生?《這就是ChatGPT》一書對此進行了揭秘:當時OpenAI管理層聽說,從OpenAI「叛逃」的前員工創立的公司Anthropic Claude有意提前推出Chatbot。管理層立馬意識到這個產品潛力巨大,于是先下手為強,第一時間改變節奏,出手截胡Anthropic。11月中旬,在研發GPT-4的OpenAI員工收到指令:所有工作暫停,全力推出一款聊天工具。兩周后,ChatGPT誕生,從此改變人類歷史。或許,這也就揭示了為什么一家公司可以永載史冊的原因:領導者能夠發現有市場潛力的新產品,全面攔截所有成功的可能性。對于谷歌被截胡一事,網友銳評道:OpenAI用Sora對抗Gemini發布的方式簡直了,谷歌從沒有受過這樣的打擊。
這不得不讓人懷疑,OpenAI手里是不是還攥著一堆秘密武器,每當競爭對手發布新技術,他們就放出來一個爆炸級消息。
要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。 為何Sora掀起滔天巨浪
Sora一出,馬斯克直接大呼:人類徹底完蛋了! 馬斯克為什么這么說?OpenAI科學家Tim Brooks表示,沒通過人類預先設定,Sora就自己通過觀察大量數據,自然而然學會了關于3D幾何形狀和一致性的知識。從本質上說,Sora的技術,就是機器模擬我們世界的一個里程碑。外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時刻。
更有人表示,在Sora之中,我切實感受到了AGI。
這也就是為什么Sora會在全世界掀起滔天巨浪的原因。要了解Sora如此強大的能力從何而來,除了OpenAI官方給出的技術報告,行業大佬也進行了進一步的解讀。LeCun轉發了華人學者謝賽寧的推文,認為Sora基本上是基于謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。
而和謝賽寧一起合著這篇論文的William Peebles之后也加入了OpenAI,領導了開發Sora的技術團隊。
所以謝賽寧的對于Sora的技術解讀,具備極高的參考價值。
謝賽寧:Sora很厲害,不過好像是用了我的論文成果
AI大神謝賽寧,針對Sora的技術報告談了自己的看法。 項目地址://wpeebles.com/DiT- 架構:Sora應該是基于他和Bill之前在ICCV 2023上提出的以Transformer為主干的擴散模型(DIT)其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。根據技術報告,好像沒有其他特別的設計了。-「視頻壓縮網絡」:似乎是一個VAE,但訓練的是原始視頻數據。在獲得良好的時間一致性方面,tokenize可能起了很重要的作用。VAE是一個ConvNet。所以從技術上講,DIT是一個混合模型。
謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。這可能就是Sora為什么要基于DIT構建的主要原因。首先,簡單意味著靈活當涉及到輸入數據時,如何使模型更加靈活。例如,在掩碼自動編碼器(MAE)中,VIT幫助我們只處理可見的patch,而忽略掉被mask的。同樣,Sora可以通過在適當大小的網格中安排隨機初始化的patch來控制生成的視頻的大小。UNet并不直接提供這種靈活性。猜測:Sora可能還會使用谷歌的Patch n‘Pack(Navit),以使DIT能夠適應不同的分辨率/持續時間/長寬比。其次,可擴展性是DIT論文的核心主題就每Flop的時鐘時間而言,優化的DiT比UNet運行得快得多。更重要的是,Sora證明了DIT縮放法則不僅適用于圖像,現在也適用于視頻——Sora復制了DIT中觀察到的視覺縮放行為。猜測:在Sora的演示中,第一個視頻的質量相當差,謝懷疑它使用的是最基礎的模型。粗略計算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個參數。
如果真的是如此,Sora的模型規模可能沒有那么大。這可能表明,訓練Sora可能不需要像人們預期的那樣,有非常大的算力要求,所以他預測未來Sora迭代的速度將會很快。
進一步的,謝賽寧解釋了Sora提供的關鍵的洞見來自「涌現的模擬能力」這一表現上。在Sora之前,尚不清楚長期形式的一致性是否會自行涌現,或者是否需要復雜的主題驅動的其他流程,甚至是物理模擬器。而現在OpenAI已經表明,雖然現在結果還不完美,但這些行為和能力可以通過端到端的訓練來實現。然而,有兩個要點還不是很明確。1. 訓練數據:技術報告沒有涉及訓練的數據集,這可能意味著數據是Sora成功的最關鍵因素。目前已經有很多關于游戲引擎數據的猜測。他期待包括電影、紀錄片、電影長鏡頭等。2. (自回歸)長視頻生成:Sora的一個重大突破是生成超長視頻的能力。制作一段2秒的視頻和1分鐘的視頻之間的差異是巨大的。Sora可能是通過允許自回歸采樣的聯合幀預測來實現的,但這里最主要挑戰是如何解決誤差累積問題,并隨著時間的推移保持質量/一致性。 OpenAI Sora的技術,就是機器模擬我們世界的重要下一步
AI究竟如何將靜態圖形轉換為動態、逼真的視頻?Sora的一大創新,就是創新性地使用了時空patch。通過底層訓練和patch,Sora能夠理解和開發近乎完美的視覺模擬,比如Minecraft這樣的數字世界。這樣,它就會為未來的AI創造出訓練內容。有了數據和系統,AI就能更好地理解世界。 從此,我們可以解鎖VR的新高度,因為它改變了我們看待數字環境的方式,將VR的邊界推向了新的高度,創建出近乎完美的3D環境。可以在Apple Vision Pro或Meta Quest上按需與空間計算配對了。除了謝賽寧的解讀之外,AI專家Vincent Koc,也對此展開了詳細分析。
以往,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。Sora所做的,是把Diffusion和Transformer架構結合在一起,創建了diffusion transformer模型。于是,以下功能應運而生——文字轉視頻:將文字內容變成視頻 圖片轉視頻:賦予靜止圖像動態生命 視頻風格轉換:改變原有視頻的風格 視頻時間延展:可以將視頻向前或向后延長 創造無縫循環視頻:制作出看起來永無止境的循環視頻 生成單幀圖像視頻:將靜態圖像轉化為最高2048 x 2048分辨率的單幀視頻 生成各種格式的視頻:支持從1920 x 1080到1080 x 1920之間各種分辨率格式 模擬虛擬世界:創造出類似于Minecraft等游戲的虛擬世界 創作短視頻:制作最長達一分鐘的視頻,包含多個短片這就好比,我們正在廚房里。傳統的視頻生成模型,比如Pika和RunwayML,就像照著食譜做飯的廚師一樣。他們可以做出好吃的菜肴(視頻),但會受到他們所知的食譜(算法)所限。使用特定的成分(數據格式)和技術(模型架構),它們只擅長烘焙蛋糕(短片)或烹飪意大利面(特定類型的視頻)。 而與他們不同的是,Sora是一位基礎知識扎實的新型廚師。它不僅能照著舊食譜做菜,還能自己發明新食譜!這位住大廚多才多藝,對于食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高質量的視頻。
時空patch,是Sora創新的核心。 它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。
論文地址: Image is Worth 16x16 Words」。
論文地址:
然而,視覺Transforemr對圖像訓練數據的限制是固定的,這些數據的大小和縱橫比是固定的,這舊限制了質量,并且需要大量的圖像預處理。
而通過將視頻視為patch序列,Sora保持了原始的縱橫比和分辨率,類似于NaViT對圖像的處理。這種保存,對于捕捉視覺數據的真正本質至關重要!通過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。
時空patch的可視化這種方法使Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。這種靈活性確保了每條數據都有助于模型的理解,就像廚師可以使用各種食材,來增強菜肴的風味特征一樣。時空patch對視頻數據詳細而靈活的處理,為精確的物理模擬和3D一致性等復雜功能奠定了基礎。從此,我們可以創建看起來逼真且符合世界物理規則的視頻,人類也得以一窺AI創建復雜、動態視覺內容的巨大潛力。
訓練數據的質量和多樣性,對于模型的性能至關重要。傳統的視頻模型,是在限制性更強的數據集、更短的長度和更窄的目標上進行訓練的。而Sora利用了龐大而多樣的數據集,包括不同持續時間、分辨率和縱橫比的視頻和圖像。它能夠重新創建像Minecraft這樣的數字世界,以及來自Unreal或Unity等系統的模擬世界鏡頭,以捕捉視頻內容的所有角度和各種風格。 這樣,Sora就成了一個「通才」模型,就像GPT-4對于文本一樣。這種廣泛的訓練,使Sora能夠理解復雜的動態,并生成多樣化、高質量的內容。這種方法模仿了在各種文本數據上訓練LLM的方式,將類似的理念應用于視覺內容,實現了通才功能。
可變Patches NaVit與傳統的視覺TransformerNaViT模型通過將來自不同圖像的多個patch打包到單個序列中,得到了顯著的訓練效率和性能提升一樣。同樣地,Sora利用時空patch在視頻生成中實現類似的效率。這種方法允許模型從龐大的數據集中更有效地學習,提高了模型生成高保真視頻的能力,同時降低了與現有建模架構相比所需的計算量。
3D空間和物體的一致性,是Sora演示中的關鍵亮點。通過對各種視頻數據進行訓練,無需對視頻進行調整或預處理,Sora就學會了以令人印象深刻的精度對物理世界進行建模,原因就在于,它能夠以原始形式使用訓練數據。在Sora生成的視頻中,物體和角色在三維空間中令人信服地移動和交互,即使它們被遮擋或離開框架,也能保持連貫性。從此,現實不存在了,創造力和現實主義的界限被突破。并且,Sora為模型的可能性設立了全新的標準,開源社區很可能會掀起視覺模型的全新革命。而現在,Sora的旅程才剛剛開始呢,正如OpenAI所說,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的道路。前方,就是AGI和世界模型了。不過好在,OpenAI員工透露說,Sora短期內不會面世。 一位OpenAI員工發推表示,現在Sora只會在有限的范圍內試用,現在放出的demo主要是為了獲得社會大眾對它能力的反應現在,標榜要開發負責任AGI的OpenAI,應該不會冒著風險給大眾拋出一個潘多拉魔盒。參考資料:
當地時間 5 月 10 日上午,一年一度的谷歌 I/O 來了,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。PaLM 二代模型****支持多語言、更強的數學、代碼能力
首先,谷歌給出了自己對標 GPT-4 的大模型 PaLM 2。 要說這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。
在過去的幾年里,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。
谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是將計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。
會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。
皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。
從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。
PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級別的高級語言能力考試。
與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成服務的一部分推出。 皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。
谷歌內部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分別針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。
其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從圖像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型。
皮查伊在會上展示了 Med-PaLM 2 的醫療內容生成效果。
目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 將繼續為谷歌最新的 Bard 提供支持。 論文地址://ai.google/static/documents/palm2techreport.pdf
PaLM 2 技術報告
我們介紹了PaLM 2,這是一個全新的、具有更優秀的多語言和推理能力的語言模型,比其前任PaLM(Chowdhery等人,2022)更高效。PaLM 2是一個基于Transformer的模型,其訓練使用的目標混合類似于UL2(Tay等人,2023)。通過對英語和多語言、以及推理任務的廣泛評估,我們證明了PaLM 2在不同模型大小的下游任務上質量顯著提升,同時相比于PaLM展示出更快、更高效的推理能力。這種改進的效率使得模型能夠被更廣泛地部署,同時也使模型能夠更快地響應,為交互提供更自然的節奏。PaLM 2展示了強大的推理能力,這一點由其在BIG-Bench以及其他推理任務上相對于PaLM的大幅改進所證明。PaLM 2在一系列負責任的AI評估中表現穩定,并且能夠在推理時控制毒性,無需額外的開銷或影響其他能力。總的來說,PaLM 2在各種任務和能力上都實現了最先進的性能。自從Shannon(1951)通過預測下一個詞來估算語言中的信息以來,語言建模一直是一個重要的研究領域。建模起初以n-gram為基礎的方法(Kneser & Ney, 1995)開始,但隨著LSTM(Hochreiter & Schmidhuber, 1997; Graves, 2014)的出現,其發展速度快速提升。后來的研究表明,語言建模也導致了語言理解的提升(Dai & Le, 2015)。隨著規模的增大和Transformer架構(Vaswani等人,2017)的應用,過去幾年大型語言模型(LLMs)在語言理解和生成能力上表現出了強大的性能,這導致在推理、數學、科學和語言任務中取得了突破性的成績(Howard & Ruder, 2018; Brown等人,2020; Du等人,2022; Chowdhery等人,2022; Rae等人,2021; Lewkowycz等人,2022; Tay等人,2023; OpenAI, 2023b)。在這些進步中,關鍵的因素包括模型規模(Brown等人,2020; Rae等人,2021)和數據量(Hoffmann等人,2022)的擴大。到目前為止,大多數LLMs主要遵循一種標準的配方,即主要使用單語語料庫并配合語言建模目標。我們介紹了PaLM 2,這是PaLM(Chowdhery等人,2022)的后繼者,這是一個將建模進步、數據改進和規模洞察力統一起來的語言模型。PaLM 2融合了以下各種研究進步:
? 計算最優縮放:最近,計算最優縮放(Hoffmann等人,2022)表明,數據大小至少與模型大小同等重要。我們驗證了這項研究對更大計算量的適用性,并同樣發現,為了達到給定訓練計算量的最佳性能,數據和模型大小應大致按1:1的比例縮放(這與過去的趨勢不同,過去的趨勢是模型的縮放速度比數據集快3倍)。
? 改進的數據集混合:之前的大型預訓練語言模型通常使用由英文文本主導的數據集(例如,Chowdhery等人(2022)的非代碼部分約占78%)。我們設計了一個更具多語言和多樣性的預訓練混合,它涵蓋了數百種語言和領域(例如,編程語言、數學和平行多語言文檔)。我們證明,較大的模型可以處理更多不同的非英語數據集,而不會導致英語理解性能的下降,并應用去重復來減少記憶(Lee等人,2021)
?** 架構和目標的改進**:我們的模型架構基于Transformer。過去的LLMs幾乎都獨自使用一個因果或掩蔽語言建模目標。鑒于UL2(Tay等人,2023)的強大結果,我們在這個模型中使用調優的不同預訓練目標的混合,以訓練模型理解語言的不同方面。
中文版
機器之心報道 機器之心編輯部CV 研究者接下來的路要怎么走?
「這下 CV 是真不存在了。< 快跑 >」這是知乎網友對于一篇 Meta 新論文的評價。
如標題所述,這篇論文只做了一件事情:(零樣本)分割一切。類似 GPT-4 已經做到的「回答一切」。
Meta 表示,這是第一個致力于圖像分割的基礎模型。自此,CV 也走上了「做一個統一某個(某些?全部?)任務的全能模型」的道路。
在此之前,分割作為計算機視覺的核心任務,已經得到廣泛應用。但是,為特定任務創建準確的分割模型通常需要技術專家進行高度專業化的工作,此外,該項任務還需要大量的領域標注數據,種種因素限制了圖像分割的進一步發展。
Meta 在論文中發布的新模型名叫 Segment Anything Model (SAM) 。他們在博客中介紹說,「SAM 已經學會了關于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領域』上即開即用,無需額外的訓練。」在深度學習領域,這種能力通常被稱為零樣本遷移,這也是 GPT-4 震驚世人的一大原因。
論文地址://arxiv.org/abs/2304.02643 * 項目地址: * Demo 地址:
除了模型,Meta 還發布了一個圖像注釋數據集 Segment Anything 1-Billion (SA-1B),據稱這是有史以來最大的分割數據集。該數據集可用于研究目的,并且 Segment Anything Model 在開放許可 (Apache 2.0) 下可用。
我們先來看看效果。如下面動圖所示,SAM 能很好的自動分割圖像中的所有內容:
SAM 還能根據提示詞進行圖像分割。例如輸入 Cat 這個提示詞,SAM 會在照片中的幾只貓周圍繪制框并實現分割:
SAM 還能用交互式點和框的方式進行提示:
此外,SAM 還能為不明確的提示生成多個有效掩碼:
英偉達人工智能科學家 Jim Fan 表示:「對于 Meta 的這項研究,我認為是計算機視覺領域的 GPT-3 時刻之一。它已經了解了物體的一般概念,即使對于未知對象、不熟悉的場景(例如水下圖像)和模棱兩可的情況下也能進行很好的圖像分割。最重要的是,模型和數據都是開源的。恕我直言,Segment-Anything 已經把所有事情(分割)都做的很好了。」
推特地址: 還有網友表示,NLP 領域的 Prompt 范式,已經開始延展到 CV 領域了,可以預想,今年這類范式在學術界將迎來一次爆發。
更是有網友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。
不過,也有人表示,該模型在生產環境下的測試并不理想。或許,這個老大難問題的解決仍需時日?
方法介紹
此前解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對象,但需要一個人通過迭代細化掩碼來指導該方法。第二種,自動分割,允許分割提前定義的特定對象類別(例如,貓或椅子),但需要大量的手動注釋對象來訓練(例如,數千甚至數萬個分割貓的例子)。這兩種方法都沒有提供通用的、全自動的分割方法。
SAM 很好的概括了這兩種方法。它是一個單一的模型,可以輕松地執行交互式分割和自動分割。該模型的可提示界面允許用戶以靈活的方式使用它,只需為模型設計正確的提示(點擊、boxes、文本等),就可以完成范圍廣泛的分割任務。
總而言之,這些功能使 SAM 能夠泛化到新任務和新領域。這種靈活性在圖像分割領域尚屬首創。
Meta 表示,他們受到語言模型中提示的啟發,因而其訓練完成的 SAM 可以為任何提示返回有效的分割掩碼,其中提示可以是前景、背景點、粗框或掩碼、自由格式文本,或者說能指示圖像中要分割內容的任何信息。而有效掩碼的要求僅僅意味著即使提示不明確并且可能指代多個對象(例如,襯衫上的一個點可能表示襯衫或穿著它的人),輸出也應該是一個合理的掩碼(就如上面動圖「SAM 還能為為不明確的提示生成多個有效掩碼」所示)。此任務用于預訓練模型并通過提示解決一般的下游分割任務。
如下圖所示 ,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器將提示實時轉換為嵌入向量。然后將這兩個信息源組合在一個預測分割掩碼的輕量級解碼器中。在計算圖像嵌入后,SAM 可以在 50 毫秒內根據網絡瀏覽器中的任何提示生成一個分割。
在 web 瀏覽器中,SAM 有效地映射圖像特征和一組提示嵌入以產生分割掩碼 1100 萬張圖片,1B+ 掩碼
數據集是使用 SAM 收集的。標注者使用 SAM 交互地注釋圖像,之后新注釋的數據又反過來更新 SAM,可謂是相互促進。
使用該方法,交互式地注釋一個掩碼只需大約 14 秒。與之前的大規模分割數據收集工作相比,Meta 的方法比 COCO 完全手動基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數據注釋工作快 2 倍,這是因為有了 SAM 模型輔助的結果。
最終的數據集超過 11 億個分割掩碼,在大約 1100 萬張經過許可和隱私保護圖像上收集而來。SA-1B 的掩碼比任何現有的分割數據集多 400 倍,并且經人工評估研究證實,這些掩碼具有高質量和多樣性,在某些情況下甚至在質量上可與之前更小、完全手動注釋的數據集的掩碼相媲美 。
Segment Anything 對使用數據引擎收集的數百萬張圖像和掩碼進行訓練的結果,得到一個包含 10 億個分割掩碼的數據集,是以往任何分割數據集的 400 倍。 SA-1B 的圖像來自跨不同地理區域和收入水平的多個國家或地區的照片提供者,在擁有更多圖像的同時對所有地區的總體代表性也更好。Meta 分析了其模型在感知性別表現、感知膚色和年齡范圍方面的潛在偏差,結果發現 SAM 在不同群體中的表現類似。
SA-1B 可以幫助其他研究人員訓練圖像分割的基礎模型。Meta 也進一步希望這些數據能夠成為帶有附加注釋的新數據集的基礎,例如與每個 mask 相關的文本描述。
未來展望
通過研究和數據集共享,Meta 希望進一步加速對圖像分割以及更通用圖像與視頻理解的研究。可提示的分割模型可以充當更大系統中的一個組件,執行分割任務。作為一種強大的工具,組合(Composition)允許以可擴展的方式使用單個模型,并有可能完成模型設計時未知的任務。
Meta 預計,與專門為一組固定任務訓練的系統相比,基于 prompt 工程等技術的可組合系統設計將支持更廣泛的應用。SAM 可以成為 AR、VR、內容創建、科學領域和更通用 AI 系統的強大組件。比如 SAM 可以通過 AR 眼鏡識別日常物品,為用戶提供提示。
SAM 還有可能在農業領域幫助農民或者協助生物學家進行研究。
未來在像素級別的圖像理解與更高級別的視覺內容語義理解之間,我們將看到更緊密的耦合,進而解鎖更強大的 AI 系統。
參考鏈接:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
機器之心報道機器之心編輯部
ChatGPT 點燃了科技行業的明燈,GPT-4 能燎原嗎?
誰能革得了 ChatGPT 的命?現在看來還是 OpenAI 自己。 在 ChatGPT 引爆科技領域之后,人們一直在討論 AI「下一步」的發展會是什么,很多學者都提到了多模態,我們并沒有等太久。今天凌晨,OpenAI 發布了多模態預訓練大模型 GPT-4。
GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。
「GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人,」OpenAI 工程師在介紹視頻里說道。 似乎是想一口氣終結這場游戲,OpenAI 既發布了論文(更像是技術報告)、 System Card,把 ChatGPT 直接升級成了 GPT-4 版的,也開放了 GPT-4 的 API。 另外,微軟營銷主管在 GPT-4 發布后第一時間表示:「如果你在過去六周內的任何時候使用過新的 Bing 預覽版,你就已經提前了解了 OpenAI 最新模型的強大功能。」是的,微軟的新必應早就已經用上了GPT-4。
接下來,就讓我們細細品味這場震撼發布。 GPT-4:我 SAT 考 710,也能當律師
GPT-4 是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。 OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整 ,從而在真實性、可控性等方面取得了有史以來最好的結果。 在過去的兩年里,OpenAI 重建了整個深度學習堆棧,并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前,OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統,之后他們又陸續發現并修復了一些錯誤,改進了其理論基礎。這些改進的結果是 GPT-4 的訓練運行獲得了前所未有的穩定,以至于 OpenAI 能夠提前準確預測 GPT-4 的訓練性能,它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注于可靠的擴展,進一步完善方法,以幫助其實現更強大的提前預測性能和規劃未來的能力,這對安全至關重要。 OpenAI 正在通過 ChatGPT 和 API(有候補名單)發布 GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開合作。 OpenAI 今天還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助 OpenAI 進一步改進模型。 有趣的是,GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。為了了解這兩個模型之間的差異,OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。
OpenAI 還在為機器學習模型設計的傳統基準上評估了 GPT-4。GPT-4 大大優于現有的大型語言模型,以及大多數 SOTA 模型:
許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能:
就像許多使用 ChatGPT 的公司一樣,OpenAI 表示他們內部也在使用 GPT-4,因此 OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出,這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發者,也是使用者。 GPT-4:我能玩梗圖
GPT-4 可以接受文本和圖像形式的 prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。 具體來說,它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈 prompt。 比如給 GPT-4 一個長相奇怪的充電器的圖片,問為什么這很可笑?
GPT-4 回答道,VGA 線充 iPhone。
格魯吉亞和西亞的人均每日肉類消費,算平均數:
看起來,現在的 GPT 已經不會在計算上胡言亂語了:
還是太簡單,那直接讓它做題,還是個物理題:
GPT-4 看懂了法語題目,并完整解答:
GPT-4 可以理解一張照片里「有什么不對勁的地方」:
GPT-4 還可以量子速讀看論文,如果你給它 InstructGPT 的論文,讓它總結摘要,就會變成這樣:
如果你對論文里的某一個圖感興趣呢?GPT-4 也可以解釋一下:
接著來,問 GPT-4 梗圖是什么意思:
它給出了詳細的回答:
那么漫畫呢?
讓 GPT-4 解釋為什么要給神經網絡加層數,似乎有一點加倍的幽默感。
不過 OpenAI 在這里說了,圖像輸入是研究預覽,仍不公開。 研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經不夠了,他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力之間的矛盾。
看到這里,應該有研究人員感嘆:CV 不存在了。 可控性
與具有固定冗長、平靜語氣和風格的經典 ChatGPT 個性不同,開發人員(以及 ChatGPT 用戶)現在可以通過在「系統」消息中描述這些方向來規定他們的 AI 的風格和任務。 系統消息允許 API 用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay,也鼓勵你們這樣做。
局限性
盡管功能已經非常強大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產生幻覺、生成錯誤答案,并出現推理錯誤。 目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議(例如人工審查、附加上下文或完全避免使用) 。 總的來說,GPT-4 相對于以前的模型(經過多次迭代和改進)已經顯著減輕了幻覺問題。在 OpenAI 的內部對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:
GPT-4 在 TruthfulQA 等外部基準測試方面也取得了進展,OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力,結果如下圖所示。
實驗結果表明,GPT-4 基本模型在此任務上僅比 GPT-3.5 略好;然而,在經過 RLHF 后訓練之后,二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。
該模型在其輸出中可能會有各種偏見,OpenAI 在這些方面已經取得了進展,目標是使建立的人工智能系統具有合理的默認行為,以反映廣泛的用戶價值觀。 GPT-4 通常缺乏對其絕大部分數據截止后(2021 年 9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這么多領域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。 GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會 double-check。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過 OpenAI 目前的后訓練(post-training)過程,校準減少了。
風險及緩解措施
OpenAI 表示,研究團隊一直在對 GPT-4 進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。 GPT-4 有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不準確的信息。同時,GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度,團隊聘請了 50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估,來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。
預防風險
按照 demo 視頻里 OpenAI 工程師們的說法,GPT-4 的訓練在去年 8 月完成,剩下的時間都在進行微調提升,以及最重要的去除危險內容生成的工作。 GPT-4 在 RLHF 訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關 prompt 的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源(例如,標注的生產數據、人類的紅隊、模型生成的 prompt)收集多樣化的數據集,在允許和不允許的類別上應用安全獎勵信號(有正值或負值)。 這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比,模型對不允許內容的請求的響應傾向降低了 82%,而 GPT-4 對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了 29%。
訓練過程
與之前的 GPT 模型一樣,GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態和想法。 因此,當提出問題時,基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致,OpenAI 依然使用強化學習人類反饋 (RLHF) 來微調模型的行為。請注意,該模型的能力似乎主要來自預訓練過程 ——RLHF 不會提高考試成績(甚至可能會降低它)。但是模型的控制來自后訓練過程 —— 基礎模型甚至需要及時的工程設計來回答問題。
GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是,對于像 GPT-4 這樣的大型訓練,進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化,在多種規模下都有可預測的行為。為了驗證這種可擴展性,他們提前準確地預測了 GPT-4 在內部代碼庫(不屬于訓練集)上的最終損失,方法是通過使用相同的方法訓練的模型進行推斷,但使用的計算量為 1/10000。
現在,OpenAI 可以準確地預測在訓練過程中優化的指標(損失)。例如從計算量為 1/1000 的模型中推斷并成功地預測了 HumanEval 數據集的一個子集的通過率:
有些能力仍然難以預測。例如,Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而 hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。
能夠準確預測未來的機器學習能力對于技術安全來說至關重要,但它并沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發相關方法,并呼吁業界共同努力。 OpenAI 表示正在開源 OpenAI Evals 軟件框架,它被用于創建和運行基準測試以評估 GPT-4 等模型,同時可以逐樣本地檢查模型性能。 ChatGPT 直接升級至 GPT-4 版
GPT-4 發布后,OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權限。 要訪問 GPT-4 API(它使用與 gpt-3.5-turbo 相同的 ChatCompletions API),用戶可以注冊等待。OpenAI 會邀請部分開發者體驗。 獲得訪問權限后,用戶目前可以向 GPT-4 模型發出純文本請求(圖像輸入仍處于有限的 alpha 階段)。至于價格方面,定價為每 1k 個 prompt token 0.03 美元,每 1k 個 completion token 0.06 美元。默認速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。 GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文(約 50 頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。
以上,就是今天 OpenAI 關于 GPT-4 的所有內容了。令人不滿的一點是,OpenAI 公開的技術報告中,不包含任何關于模型架構、硬件、算力等方面的更多信息,可以說是很不 Open 了。 不管怎樣,迫不及待的用戶大概已經開始測試體驗了吧。
最后,也想問一下讀者,看完 GPT-4 的發布,你有何感想。 參考內容://openai.com/product/gpt-4
OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。
最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。
GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。