** ****新智元報道 **
編輯:編輯部**【新智元導讀】為何Sora會掀起滔天巨浪?Sora的技術,就是機器模擬我們世界的下一步。而且今天有人扒出,Sora創新的核心秘密時空Patches,竟是來自谷歌DeepMind和謝賽寧的論文成果。**
OpenAI,永遠快別人一步!像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級大殺器Gemini 1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶了去。100萬token的上下文,僅靠一本語法書就學會了一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。這次,不過也是之前歷史的重演。 為什么ChatGPT會提前誕生?《這就是ChatGPT》一書對此進行了揭秘:當時OpenAI管理層聽說,從OpenAI「叛逃」的前員工創立的公司Anthropic Claude有意提前推出Chatbot。管理層立馬意識到這個產品潛力巨大,于是先下手為強,第一時間改變節奏,出手截胡Anthropic。11月中旬,在研發GPT-4的OpenAI員工收到指令:所有工作暫停,全力推出一款聊天工具。兩周后,ChatGPT誕生,從此改變人類歷史。或許,這也就揭示了為什么一家公司可以永載史冊的原因:領導者能夠發現有市場潛力的新產品,全面攔截所有成功的可能性。對于谷歌被截胡一事,網友銳評道:OpenAI用Sora對抗Gemini發布的方式簡直了,谷歌從沒有受過這樣的打擊。
這不得不讓人懷疑,OpenAI手里是不是還攥著一堆秘密武器,每當競爭對手發布新技術,他們就放出來一個爆炸級消息。
要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。 為何Sora掀起滔天巨浪
Sora一出,馬斯克直接大呼:人類徹底完蛋了! 馬斯克為什么這么說?OpenAI科學家Tim Brooks表示,沒通過人類預先設定,Sora就自己通過觀察大量數據,自然而然學會了關于3D幾何形狀和一致性的知識。從本質上說,Sora的技術,就是機器模擬我們世界的一個里程碑。外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時刻。
更有人表示,在Sora之中,我切實感受到了AGI。
這也就是為什么Sora會在全世界掀起滔天巨浪的原因。要了解Sora如此強大的能力從何而來,除了OpenAI官方給出的技術報告,行業大佬也進行了進一步的解讀。LeCun轉發了華人學者謝賽寧的推文,認為Sora基本上是基于謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。
而和謝賽寧一起合著這篇論文的William Peebles之后也加入了OpenAI,領導了開發Sora的技術團隊。
所以謝賽寧的對于Sora的技術解讀,具備極高的參考價值。
謝賽寧:Sora很厲害,不過好像是用了我的論文成果
AI大神謝賽寧,針對Sora的技術報告談了自己的看法。 項目地址://wpeebles.com/DiT- 架構:Sora應該是基于他和Bill之前在ICCV 2023上提出的以Transformer為主干的擴散模型(DIT)其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。根據技術報告,好像沒有其他特別的設計了。-「視頻壓縮網絡」:似乎是一個VAE,但訓練的是原始視頻數據。在獲得良好的時間一致性方面,tokenize可能起了很重要的作用。VAE是一個ConvNet。所以從技術上講,DIT是一個混合模型。
謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。這可能就是Sora為什么要基于DIT構建的主要原因。首先,簡單意味著靈活當涉及到輸入數據時,如何使模型更加靈活。例如,在掩碼自動編碼器(MAE)中,VIT幫助我們只處理可見的patch,而忽略掉被mask的。同樣,Sora可以通過在適當大小的網格中安排隨機初始化的patch來控制生成的視頻的大小。UNet并不直接提供這種靈活性。猜測:Sora可能還會使用谷歌的Patch n‘Pack(Navit),以使DIT能夠適應不同的分辨率/持續時間/長寬比。其次,可擴展性是DIT論文的核心主題就每Flop的時鐘時間而言,優化的DiT比UNet運行得快得多。更重要的是,Sora證明了DIT縮放法則不僅適用于圖像,現在也適用于視頻——Sora復制了DIT中觀察到的視覺縮放行為。猜測:在Sora的演示中,第一個視頻的質量相當差,謝懷疑它使用的是最基礎的模型。粗略計算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個參數。
如果真的是如此,Sora的模型規模可能沒有那么大。這可能表明,訓練Sora可能不需要像人們預期的那樣,有非常大的算力要求,所以他預測未來Sora迭代的速度將會很快。
進一步的,謝賽寧解釋了Sora提供的關鍵的洞見來自「涌現的模擬能力」這一表現上。在Sora之前,尚不清楚長期形式的一致性是否會自行涌現,或者是否需要復雜的主題驅動的其他流程,甚至是物理模擬器。而現在OpenAI已經表明,雖然現在結果還不完美,但這些行為和能力可以通過端到端的訓練來實現。然而,有兩個要點還不是很明確。1. 訓練數據:技術報告沒有涉及訓練的數據集,這可能意味著數據是Sora成功的最關鍵因素。目前已經有很多關于游戲引擎數據的猜測。他期待包括電影、紀錄片、電影長鏡頭等。2. (自回歸)長視頻生成:Sora的一個重大突破是生成超長視頻的能力。制作一段2秒的視頻和1分鐘的視頻之間的差異是巨大的。Sora可能是通過允許自回歸采樣的聯合幀預測來實現的,但這里最主要挑戰是如何解決誤差累積問題,并隨著時間的推移保持質量/一致性。 OpenAI Sora的技術,就是機器模擬我們世界的重要下一步
AI究竟如何將靜態圖形轉換為動態、逼真的視頻?Sora的一大創新,就是創新性地使用了時空patch。通過底層訓練和patch,Sora能夠理解和開發近乎完美的視覺模擬,比如Minecraft這樣的數字世界。這樣,它就會為未來的AI創造出訓練內容。有了數據和系統,AI就能更好地理解世界。 從此,我們可以解鎖VR的新高度,因為它改變了我們看待數字環境的方式,將VR的邊界推向了新的高度,創建出近乎完美的3D環境。可以在Apple Vision Pro或Meta Quest上按需與空間計算配對了。除了謝賽寧的解讀之外,AI專家Vincent Koc,也對此展開了詳細分析。
以往,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。Sora所做的,是把Diffusion和Transformer架構結合在一起,創建了diffusion transformer模型。于是,以下功能應運而生——文字轉視頻:將文字內容變成視頻 圖片轉視頻:賦予靜止圖像動態生命 視頻風格轉換:改變原有視頻的風格 視頻時間延展:可以將視頻向前或向后延長 創造無縫循環視頻:制作出看起來永無止境的循環視頻 生成單幀圖像視頻:將靜態圖像轉化為最高2048 x 2048分辨率的單幀視頻 生成各種格式的視頻:支持從1920 x 1080到1080 x 1920之間各種分辨率格式 模擬虛擬世界:創造出類似于Minecraft等游戲的虛擬世界 創作短視頻:制作最長達一分鐘的視頻,包含多個短片這就好比,我們正在廚房里。傳統的視頻生成模型,比如Pika和RunwayML,就像照著食譜做飯的廚師一樣。他們可以做出好吃的菜肴(視頻),但會受到他們所知的食譜(算法)所限。使用特定的成分(數據格式)和技術(模型架構),它們只擅長烘焙蛋糕(短片)或烹飪意大利面(特定類型的視頻)。 而與他們不同的是,Sora是一位基礎知識扎實的新型廚師。它不僅能照著舊食譜做菜,還能自己發明新食譜!這位住大廚多才多藝,對于食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高質量的視頻。
時空patch,是Sora創新的核心。 它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。
論文地址: Image is Worth 16x16 Words」。
論文地址:
然而,視覺Transforemr對圖像訓練數據的限制是固定的,這些數據的大小和縱橫比是固定的,這舊限制了質量,并且需要大量的圖像預處理。
而通過將視頻視為patch序列,Sora保持了原始的縱橫比和分辨率,類似于NaViT對圖像的處理。這種保存,對于捕捉視覺數據的真正本質至關重要!通過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。
時空patch的可視化這種方法使Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。這種靈活性確保了每條數據都有助于模型的理解,就像廚師可以使用各種食材,來增強菜肴的風味特征一樣。時空patch對視頻數據詳細而靈活的處理,為精確的物理模擬和3D一致性等復雜功能奠定了基礎。從此,我們可以創建看起來逼真且符合世界物理規則的視頻,人類也得以一窺AI創建復雜、動態視覺內容的巨大潛力。
訓練數據的質量和多樣性,對于模型的性能至關重要。傳統的視頻模型,是在限制性更強的數據集、更短的長度和更窄的目標上進行訓練的。而Sora利用了龐大而多樣的數據集,包括不同持續時間、分辨率和縱橫比的視頻和圖像。它能夠重新創建像Minecraft這樣的數字世界,以及來自Unreal或Unity等系統的模擬世界鏡頭,以捕捉視頻內容的所有角度和各種風格。 這樣,Sora就成了一個「通才」模型,就像GPT-4對于文本一樣。這種廣泛的訓練,使Sora能夠理解復雜的動態,并生成多樣化、高質量的內容。這種方法模仿了在各種文本數據上訓練LLM的方式,將類似的理念應用于視覺內容,實現了通才功能。
可變Patches NaVit與傳統的視覺TransformerNaViT模型通過將來自不同圖像的多個patch打包到單個序列中,得到了顯著的訓練效率和性能提升一樣。同樣地,Sora利用時空patch在視頻生成中實現類似的效率。這種方法允許模型從龐大的數據集中更有效地學習,提高了模型生成高保真視頻的能力,同時降低了與現有建模架構相比所需的計算量。
3D空間和物體的一致性,是Sora演示中的關鍵亮點。通過對各種視頻數據進行訓練,無需對視頻進行調整或預處理,Sora就學會了以令人印象深刻的精度對物理世界進行建模,原因就在于,它能夠以原始形式使用訓練數據。在Sora生成的視頻中,物體和角色在三維空間中令人信服地移動和交互,即使它們被遮擋或離開框架,也能保持連貫性。從此,現實不存在了,創造力和現實主義的界限被突破。并且,Sora為模型的可能性設立了全新的標準,開源社區很可能會掀起視覺模型的全新革命。而現在,Sora的旅程才剛剛開始呢,正如OpenAI所說,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的道路。前方,就是AGI和世界模型了。不過好在,OpenAI員工透露說,Sora短期內不會面世。 一位OpenAI員工發推表示,現在Sora只會在有限的范圍內試用,現在放出的demo主要是為了獲得社會大眾對它能力的反應現在,標榜要開發負責任AGI的OpenAI,應該不會冒著風險給大眾拋出一個潘多拉魔盒。參考資料:
機器之心報道
轉載機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
第一手實測Claude3
地址://claude.ai/
Claude 3 是否真的像官方所宣稱的那樣,性能全面超越了 GPT-4?目前大多數人認為,確實有那么點意思。
以下是部分實測效果:
首先來一個腦筋急轉彎,哪一個月有二十八天?實際正確答案是每個月都有。看來 Claude 3 還不擅長做這種題。
接著我們又測試了一下 Claude 3 比較擅長的領域,從官方介紹可以看出 Claude 擅長「理解和處理圖像」,包括從圖像中提取文本、將 UI 轉換為前端代碼、理解復雜的方程、轉錄手寫筆記等。
對于大模型來說,經常分不清炸雞和泰迪,當我們輸入一張含有泰迪和炸雞的圖片時,Claude 3 給出了這樣的答案「這張圖片是一組拼貼畫,包含狗和炸雞塊或雞塊,它們與狗本身有著驚人的相似之處……」,這一題算過關。
接著問它里面有幾個人,Claude 3 也回答正確,「這幅動畫描繪了七個小卡通人物。」
Claude 3 可以從照片中提取文本,即使是中文、日文的豎行順序也可以正確識別:
如果我用網上的梗圖,它又要如何應對?有關視覺誤差的圖片,GPT-4 和 Claude3 給出了相反的猜測:
哪種是對的呢?
除了理解圖像外,Claude 處理長文本的能力也比較強,此次發布的全系列大模型可提供 200k 上下文窗口,并接受超過 100 萬 token 輸入。
效果如何呢?我們丟給它微軟、國科大新出不久的論文《 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 》,讓它按照 1、2、3 的方式總結文章要點,我們記錄了一下時間,輸出整體答案的時間大概有 15 秒左右。
不過這只是 Claude 3 Sonnet 的輸出效果,假如使用 Claude Pro 版本的話,速度會更快,不過要 20 美元一個月。
值得注意的是,現在 Claude 要求上傳的文章大小不超過 10MB,超過會有提示:
在 Claude 3 的博客中,Anthropic 提出新模型的代碼能力有大幅提升,有人直接拿基礎 ASCII 碼丟給 Claude,結果發現它毫無壓力:
我們應該可以確認,Claude 3 有比 GPT-4 更強的代碼能力。
前段時間,剛剛從 OpenAI 離職的 Karpathy 提出過一個「分詞器」挑戰。具體來說,就是將他錄制的 2 小時 13 分的教程視頻放進 LLM,讓其翻譯為關于分詞器的書籍章節或博客文章的格式。
面對這項任務,Claude 3 接住了,以下是 AnthropicAI 研究工程師 Emmanuel Ameisen 曬出的結果:
或許是不再利益相關,Karpathy 給出了比較充分、客觀的評價:
從風格上看,確實相當不錯!如果仔細觀察,會發現一些微妙的問題 / 幻覺。不管怎么說,這個幾乎現成就能使用的系統還是令人印象深刻的。我很期待能多玩 Claude 3,它看起來是一個強大的模型。
如果說有什么相關的事情我必須說出來的話,那就是人們在進行評估比較時應該格外小心,這不僅是因為評估結果本身比你想象的要糟糕,還因為許多評估結果都以未定義的方式被過擬合了,還因為所做的比較可能是誤導性的。GPT-4 的編碼率(HumanEval)不是 67%。每當我看到這種比較被用來代替編碼性能時,我的眼角就會開始抽搐。
根據以上各種刁鉆的測試結果,有人已經喊出「Anthropic is so back」了。
最后,anthropic 還推出了一個包含多個方向提示內容的 prompt 庫。如果你想要深入了解 Claude 3 的新功能,可以嘗試一下。
鏈接:
Claude 3 系列模型
Claude 3 系列模型的三個版本分別是 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
其中 Claude 3 Opus 是智能程度最高的模型,支持 200k tokens 上下文窗口,在高度復雜的任務上實現了當前 SOTA 的性能。該模型能夠以絕佳的流暢度和人類水平的理解能力來處理開放式 prompt 和未見過的場景。Claude 3 Opus 向我們展示了生成式 AI 可能達到的極限。
Claude 3 Sonnet 在智能程度與運行速度之間實現了理想的平衡,尤其是對于企業工作負載而言。與同類模型相比,它以更低的成本提供了強大的性能,并專為大規模 AI 部署中的高耐用性而設計。Claude 3 Sonnet 支持的上下文窗口為 200k tokens。
Claude 3 Haiku 是速度最快、最緊湊的模型,具有近乎實時的響應能力。有趣的是,它支持的上下文窗口同樣是 200k。該模型能夠以無與倫比的速度回答簡單的查詢和請求,用戶通過它可以構建模仿人類交互的無縫 AI 體驗。
接下來我們詳看一下 Claude 3 系列模型的特性和性能表現。
全面超越 GPT-4,實現智能水平新 SOTA
作為 Claude 3 系列中智能水平最高的模型,Opus 在 AI 系統的大多數評估基準上都優于競品,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA) 、基礎數學(GSM8K)等基準。并且,Opus 在復雜任務上表現出接近人類水平的理解力和流暢度,引領通用智能的前沿。 此外,包括 Opus 在內,所有 Claude 3 系列模型都在分析和預測、細致內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面實現了能力增強。 下圖為 Claude 3 模型與競品模型在多個性能基準上的比較,可以看到,最強的 Opus 全面優于 OpenAI 的 GPT-4。
近乎實時響應
Claude 3 模型可以支持實時客戶聊天、自動補充和數據提取等響應必須立即且實時的任務。 Haiku 是智能類別市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內讀完一篇包含密集圖表和圖形信息的 arXiv 平臺論文(約 10k tokens)。 對于絕大多數工作,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。 強大的視覺能力 Claude 3 具有與其他頭部模型相當的復雜視覺功能。它們可以處理各種視覺格式數據,包括照片、圖表、圖形和技術圖表。 Anthropic 表示,它們的一些客戶 50% 以上的知識庫以各種數據格式進行編程,例如 PDF、流程圖或演示幻燈片。因此,新模型強大的視覺能力非常有幫助。
更少拒絕回復
以前的 Claude 模型經常做出不必要的拒絕,這表明模型缺乏語境理解。Anthropic 在這一領域取得了有意義的進展:與前幾代模型相比,即使用戶 prompt 接近系統底線,Opus、Sonnet 和 Haiku 拒絕回答的可能性明顯降低。如下所示,Claude 3 模型對請求表現出更細致的理解,能夠識別真正的有害 prompt,并且拒絕回答無害 prompt 的頻率要少得多。
準確率提高
為了評估模型的準確率,Anthropic 使用了大量復雜的、事實性問題來解決當前模型中的已知弱點。Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和不確定性回答,也就是模型不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤回答。 除了產生更值得信賴的回復之外,Anthropic 還將在 Claude 3 模型中啟用引用,以便模型可以指向參考材料中的精確句子來證實回答。
長上下文和近乎完美的召回能力
Claude 3 系列型號在發布時最初將提供 200K 上下文窗口。然而,官方表示所有三種模型都能夠接收超過 100 萬 token 的輸入,此能力會被提供給需要增強處理能力的特定用戶。 為了有效地處理長上下文提示,模型需要強大的召回能力。Needle In A Haystack(NIAH)評估衡量模型可以從大量數據中準確回憶信息的能力。Anthropic 通過在每個提示中使用 30 個隨機 Needle/question 對在不同的眾包文檔庫上進行測試,增強了該基準的穩健性。Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率。而且在某些情況下,它甚至識別出了評估本身的局限性,意識到「針」句子似乎是人為插入到原始文本中的。
安全易用
Anthropic 表示,其已建立專門團隊來跟蹤和減少安全風險。該公司也在開發 Constitutional AI 等方法來提高模型的安全性和透明度,并減輕新模式可能引發的隱私問題。 雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指標方面取得了進步,但根據研究,新模型處于 AI 安全級別 2(ASL-2)以內。 在使用體驗上,Claude 3 比以往模型更加擅長遵循復雜的多步驟指令,更加可以遵守品牌和響應準則,從而可以更好地開發可信賴的應用。此外,Anthropic 表示 Claude 3 模型現在更擅長以 JSON 等格式生成流行的結構化輸出,從而可以更輕松地指導 Claude 進行自然語言分類和情感分析等用例。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址: 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。 博客地址: 參考內容:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
** ****新智元報道 **
作者:胡延平編輯:好困 桃子**【新智元導讀】**生成60秒逼真視頻,只是未來的一個小功能,母模型根科技原力覺醒。來自未來實驗室的首席專家胡延平就爆火Sora模型做出了深度的個人解讀。 這幾天反復看Sora的技術報告,以及各方對Sora的技術分析。基本三個角度:驚呼強大功能,分析Sora(實現)大法,評估巨大沖擊。沖擊方面,主要關注點在于對影視、短視頻、娛樂等領域的影響。但是,**Sora改變AI認知方式,開啟走向「世界模擬器」的史詩級的漫漫征途,才是未來暴風眼,真正的重點。而世界模擬器,是遠比AGI、具身智能、元宇宙更炸裂的智能未來。**Sora技術報告最有價值、最語焉不詳、最容易產生不同理解的一句話是:「通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路」。
而本文所述世界模擬器,與Sora目前自述以及業內理解,可能不太一樣。很顯然要么是Sora言過其實,要么是OpenAI留了一手,要么是現階段技術局限使然。
Sora不是英偉達高級科學家Jim Fan所稱的數據驅動的物理引擎、一個可學習的模擬器或世界模型,也不會像周鴻祎所言能夠讓AGI一兩年內就很快實現。從LLM的文本Token/向量表征,到走向模擬器但還不是模擬器的Patches表達,是原理變化的核心。技術報告在原理部分高度保留,極為簡略,但其中一張圖比較重要。Sora基于Transformer但是對Transformer進行了有力進化,結合了Difussion,Patches是關鍵。不過Sora怎么看都還只是二維視覺的時空表達,處處壓縮,Patches依然是圖像內容關系信息,且有文本烙印,并不是物理世界規律的多維表征。世界模擬器前面加個定語——二維視覺世界模擬器,也許更準確。
三維圖像是數字世界的空間構建,二維視覺其實是像素的運動變化組合。三維、二維視頻都可以看上去像是「物理的」,但實質可以只是運動變化擬合了物理規律,而不是像粒子渲染、工業仿真一樣進行了物理規則、內在性狀的數字構建。背后原因,如同你知道大模型輸出的答案,知道大模型的計算原理,但是卻像神經網絡/深度學習之父Geoffrey Hinton和OpenAI前首席科學家Ilya Sutskever一樣,其實不知道GPT是怎么「想」的。Patches所攜帶的像素、位置、時空信息,以及與周圍Patches的變化、運動、關系,在Transform的注意力機制和Difussion的正反向噪聲過程,經過大規模視頻數據訓練,具有了解構和重構一切二維視覺的能力,面向用戶表現為涌現式的生成,似乎充滿創造力且符合物理規律,但背后其實是Sora「理解」了Patches/像素的變化、運動、位置在時空意義上的關系的數學、算法表征,這些變化和表征又擬合了物理世界的某些合理性。(Patches并非像素)「理解」即算法,「思考」即模型。好拗口,好抽象,好累人,但可能這就是事實。比如,Sora的工程師可能投喂了數千萬甚至數億條視頻讓大模型來學習,但是可能沒有寫過哪怕一行與物理性狀規則有關的代碼。再比如,Sora可能的確學習了一些3D引擎生成的素材,并且像當初通過DOTA2游戲對戰來改進模型一樣,引入3D引擎來校正模型生成視頻在視覺意義上的物理運動表現,但是百分百可以肯定Sora目前并沒有內置3D引擎。Sora讓用戶以為它理解了物理世界、物理規律,就像用戶頭戴蘋果Vision Pro的時候以為看到了物理世界,但其實只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648x3144個像素的各種變化。 甚至圖像其實并不是連續的,而是以每秒90-96次的幀率不斷刷新,擬合人眼視覺原理,讓用戶產生視頻是連續的錯覺。一旦快速甩頭,畫面就會產生運動模糊。重度游戲玩家甚至能體會到畫面撕裂。視頻符合物理規律,不等于視頻的生成基于物理規律,更不等于生成視頻的大模型本身是數據驅動的物理引擎。所謂物理,可以只是視頻畫面整體與局部、前后幀統一的像素級的變化規律、表征關系。 2. 即使如此,Sora還是打開AI新視界大門的那個史詩級的里程碑,大模型認知重啟
在對Sora原理的各種猜測里,華人AI學者謝賽寧的分析最為貼近。**但是局限于技術原理的框架性拆解以及對靈活、可擴展性的強調,反倒沒有道出Sora的突變實質——大模型認知重啟。**此外,直覺謝賽寧認為Sora目前只有30億參數的估計也過于保守。 Sora被認為采用了以Transformer為主干的混合擴散模型DIT,其中DIT=VAE編碼器+VIT+DDPM+VAE解碼器。 此外,Sora還可能使用與Google的Patch n‘Pack(NaVit)類似的技術,以此適應不同分辨率、持續時間和?寬比。盡管在視頻標注、將提示詞轉化為詳細說明等方面,Sora充滿詳實且強烈的文本色彩,但Sora實質上是完全基于視覺、面向視覺、以圖像理解世界的大模型。這一點和過去GPT「文本數據元」(不是神經元)意義上的Token有很大不同,Patches是碎片、補片、基本單元意義上的「視覺信息元」(也不是神經元),Sora里的文本只是人與機器之間、機器與視頻之間的「翻譯者」、「說明書」。**圖像、視頻的信息量其實遠大于文本,呈現在視覺里的現實世界更是如此。海量視頻樣本,已經讓Sora建立了視覺世界的宏觀/微觀時空變化的基本動態關系「理解」。**如果將Sora連接到全球各地的機器人、智能汽車、MR頭顯、智能手機等設備,借助數智之眼,大模型將能夠: 1. 自己「親眼」看到、學習和了解這個世界,而不是僅僅依賴人類投喂給系統的有限文本數據,海量知識信息的「新視界」之門由此打開。 1. 智能設備后接Sora+GPT,實時感知現實,是對具身智能的有力加持,機器人等智能設備有希望獲得類似人類感知現實的視覺和判斷能力,看到即學習,判斷即意味。盡管一開始與人類感知能力還是有較大差距,但也遠非傳統計算機視覺可比。 1. 加之Sora式的大模型的Input和output本來就可以充分文本化,所以絲毫不用擔心這個機器認知的視覺世界和人類的自然語言交互/體感交互會有什么問題。這是一種機器知道視覺「意義」的理解過程。 Sora出現的最大意義,并非可以生成60秒、多個分鏡頭、主體統一的視頻,而是意味著大模型由此可以「睜開眼睛」看世界,這是不亞于人類認知重啟的AI的第一次認知重啟,并且這還不是全部。 3. 認知重啟通向世界模擬器,這意味著「原力覺醒」:大模型里的母模型,未來根科技
Sora還不是世界模擬器,但是表現出了這樣的潛力。它沒有產生終極答案,但是告訴了業者,隱約可行的方向在哪里。盡管Sora還遠不足以成為通用世界模擬器,但是Sora證明Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。從文本語義、視覺到物理,是大模型原理的三次飛躍,也是走向真正的通用(其實首先基于多領域專業模擬器)世界模擬器的進階路徑。
Sora還不是物理引擎,但是未來可以泛化為物理引擎。Patch還只是 ((x,y,z), t )、關系、色彩、內容信息意義上的視覺信息元,并不是神經元,但是未來可以進化為數字神經元。Transformer大模型無論如何都不可能具備人腦一般的量子能力,但是高維全局注意力機制局部具備擬合量子態的潛力。因為AI對智能進行表征的底層邏輯是數學的,相對人腦的直覺、模糊、隨機、潛意識等特征,大模型的機械與恍惚同在。但是一如判斷準確率從0、30%、50%、80%、90%以上一路走來,原理不斷升維,時空不斷轉換,面向AGI的進化表現為不斷接近高可用性、接近乃至超越人類智能的漸進過程。**但AGI不是終點,也不是圣杯,世界模擬器才是。**Sora有助于實現AGI,但Sora開啟的漫漫征途的主要指向并不是AGI,而是世界模擬器。AGI的定義有多種,經典意義上的AGI是類GPT在數據、算力、算法進化到一定程度之后,在知識、內容、程序等工作與創作方面,表現出總體達到局部超越人類智能的能力。AGI依然是工具,能夠支持具身智能,但不是具身智能。AGI并不真正具備內生、自主能力,更多時候只是為人所用的工具。
說到這一點,一定有必要**厘清智能發展的不同形態和不同階段,由此才能看清GPT4、Sora、AGI、世界模擬器所處的生態方位和時空節點。**當我們在說智能的時候,其實同時有三種智能。Smart意義上的功能智能,昔日AI意義上的計算感知智能,也就是弱(的)智能(AI1.0),2020年以來(尤其2023年被視為正式開端)認知智能意義上的強智能(AI2.0)。目前自動駕駛、機器人等智能水準嚴格意義上講處于AI1.0也就是弱智能范疇。強智能(AI2.0)對智能汽車、機器人等智能設備的二次賦能,是正在到來的趨勢。這也是盡管國內人工智能發展如火如荼,但實質存在代差的原因。一些受不了此強彼弱的人,大呼「我們也不差」,認為GPT這一波是在制造威脅論。其實無須嘴硬,凡事都要先爭個面子。只需實事求是,看清格局,抓住關鍵,迎頭趕上就好。**如何看待Sora/GPT的背后,還有另一個實質:有沒有看到戰略高地、科技龍頭、智能圣杯、變革引擎、暴風眼在哪里。強AI就是戰略高地,AI for Science就是科技龍頭,AGI就是眼前的智能圣杯,通用與各領域專業模型就是變革引擎,世界模擬器就是未來的暴風眼。前面說的三種智能都還只是形態水準,并不是對智能發展的階段區分。我將智能發展相對劃分為五個階段:計算功能智能、計算感知智能、認知智能、內生智能(EI)、自主智能(II)。****請注意,有一天AI人工智能這個提法會邊緣化,因為智能不再是「人工」的。人工的AGI自然不是終點,智能將比我們對AGI的預期走得更遠。**這一點我在《走向第二曲線》有詳細分析,此處不再贅述。
智能變革的核心是超級智能,超級智能的具身是AGI,AGI是AI2.0、認知智能的高級形態(但主要還是人工投喂人工增強的智能),AGI是現階段所言AI的高級形態,但不是EI內生智能和II自主智能。AGI不會像某些人說的一兩年內就會實現,但估計也就在GPT6前后。**之后的階段,屬于內生智能(EI)、自主智能(II),屬于世界模擬器。**世界模擬器是EI基石,II基準。****超級智能是世界之腦,超級智能的母體是世界模擬器。世界模擬器是大模型里的母模型,未來科技里的根科技。**看看大模型在工業仿真、環境氣候、材料預測、蛋白質分析、分子藥物、基因研究等領域已經遍地開花的強力開局,就會知道,Sora與它們正在殊途同歸:世界模擬器未來主要不是用來玩的,并不是元宇宙概念的炒資,而是科技生產力爆發點,是智能未來真正的炸裂點。**世界模擬器,科技里的母科技,AI for Science各領域的核心抓手,每個領域的交感、理解、復現、預測,未來世界的「CAE」仿真只是其基礎特性之一。世界模擬器,是最接近智能母體的存在。世界模擬器意味著「原力覺醒」,創新之源,科技驅動,戰略高地,不容有失。
Sora放出的所有視頻里,最具深度探討價值的其實是那個水杯傾倒的片段。 Sora是如何擬合現實的,究竟是不是物理引擎,如何才能成為符合物理特性的引擎,未來又如何才能夠成為世界模擬器。從中隱約可見答案。CV發展初期,計算機能做到的只是杯子邊緣輪廓特征提取和復現(比如Neocognitron),再后來可以識別到這是一個水杯(比如早期ImageNet),再后來可以「理解」水和杯子的關系(CNN&RNN),現在能夠開始學習和復現水杯傾倒過程(Transformer/Sora),接下來會怎么樣發展,也許只有大模型技術專家知道,也許都還在探索,并無定論。我只是站在用戶角度進行黑箱式的透析,超級智能接下來能不能夠做到這幾步?
水杯傾倒的流動特癥能不能完全符合物理特性,不出現目前的明顯瑕疵?對應流體力學等。
水杯傾倒后能不能做到視頻中的冰逐漸在水中融化(所以更感興趣那個漢堡咬痕)?對應熱力學等。
水杯傾倒后導致桌面桌布等濕化以后能不能看到水漬、水汽的光影與色彩變化(所以更感興趣那個畫布筆觸)?對應光學物理等。
水杯傾倒的過程能不能生成與實景契合的聲音,而不只是簡單聲效?對應聲學物理等。
水杯傾倒的角度與力量能不能做到隨機操控,產生碎裂、潑濺、蒸發等不同現象?綜合以上及凝聚態物理。
水杯傾倒周圍如果有電源、危化物品,能否進行場景預測、情景預現?對應電磁物理、物理化學等。 以上都只是物理角度的簡單引申,世界模擬器所需要對應到的科學領域,以及現實世界的復雜現象,甚至是目前數十個主要學科尚未能窮盡的。所以無論從過程還是領域而言,都是征途漫漫。但這才是星辰大海。相應的幾個循序漸進的問題是:
Sora可以對3D圖像而不是3D引擎生成的2D視頻進行學習訓練嗎?
Sora可以從微宏觀統一的尺度,對三維物體的內在性狀進行學習訓練嗎?
Sora可以在模型原理、神經網絡、節點層級對物理世界進行X(3.0)意義上的3D時空運動表征,并在世界虛擬器交感、理解、復現、預測四要素具備的基礎上使X進化為神經元嗎? 面向世界虛擬器的進化,遠不止這些問題,更不只是這些維度……總的來說,Sora部分擬合了「視覺規律」,但是還沒有真的理解「物理世界」。目前的Sora本質上還是在視覺內容世界里,更多與視頻、游戲、娛樂等相關。但并不妨礙Sora式的大模型下一步,進入機器人、智能汽車等主要智能設備,以及成為世界模擬器。AI For Science是世界模擬器的關鍵落地場景,而**AI For Science意義上的X(3.0)是物理世界與視覺世界的分叉點,就像Patch(2.0)是文本世界Token(1.0)與視覺世界的分叉點。**數據、學習、生成、預期是AGI四要素,信息內容感更強。交感、理解、復現、預測,是世界模擬器四要素,母體感知現實具身感更強。世界模擬器的Input和output,實質主要由機器智能系統自主完成,是具有自我強化和自主行為能力的智能。世界模擬器征途漫漫,必將通向EI、II。 5. 接下來的態勢會怎么樣?12種情況預估
**態勢1:Sora模型并非不可復制。**OpenAI如果短期內不正式推出Sora(快不了)給全球用戶,其它競爭對手也會陸續發布自己的類似產品,Patches做法早已有之,并非獨門暗器。OpenAI和Google、Meta之間只有時間差。但是中小團隊的數據差、資源差、算力差造成的競爭弱勢,只有原理升維才可能彌補。Pika、Runway如果不能在原理層面完成超越,哪怕勉強能夠追上Sora未來也是堪憂。另外,原理相似不等于效果相同,差之毫厘謬之千里。**態勢2:拚原理>拚算力,模型原理升維才是能力躍遷關鍵,但算力必不可少且需求繼續陡增。**Sora對prompt單次響應與output過程的算力消耗必然遠超GPT4.0,但這并不是重點。Sora再一次證明,拚原理的重要性遠大于拚算力,算力算什么(而不是算力)才見高下。原理引起的格局翻覆往往就在一瞬間,今后也是,翻覆還將多次。但算力總體需求依然呈現為爆發式增長,因為要算的不再只是文本/Token,視覺/Patches會令算力需求陡增。未來物理引擎、世界模擬器對各類傳感的接入需要和計算需求,更會令算力吃緊。即使眼前線性地看,高質量海量數據總是優于小體量數據,參數量大總是優于參數量小,模型的深層、多階段、反復思考總是優于單階段,高分辨率高精度總是顯著優于低精度,所以算力需求依然呈現為指數級增長。但總體而言,算力只是必要條件。**態勢3:以Transformer為主干的大模型依然是主要演進方向,且具有巨大潛力。**Self-Attention機制在電子計算的層級模擬了量子態(只是神似),消除了信息元之間的距離限制、消解了CNN的場域阻隔,在量子計算可用之前,是以數學、電子計算為基礎的最具腦特征的智能。**態勢4:輕與重,大和小,單一與混合,始終是兩種并行邏輯。**在計算機視覺模型走向大模型、進而走向世界模擬器的漫漫征途中,視頻看上去「合理」的Sora走的是一條更輕的捷徑,操控感、立體感、前后擴展自然不夠理想。3D建模、粒子渲染、光線追蹤從算力、設備和人工投資來說,又笨又重,但更貼近本質,且操控感更強。就像自動駕駛的兩條計算機視覺路線,一個靠CMOS圖像數據來算,一個靠雷達來對物理空間進行點云建模。目前只能說電影工業多了一個選擇,倒還沒有摧枯拉朽那么夸張。微電影、短視頻倒是因此生發出無限可能。**態勢5:功能瑕疵問題反倒不是問題,并且越往世界模擬器方向走,視頻生成的這些小問題越無關大局。**時間線前后擴展、主體融合過渡、場景置換、連續性、3D運鏡、多鏡頭、漢堡咬痕,這些只是目前的能力,Sora的可用性未來會更加超出預期。目前存在的左右腿瞬移、多指多趾、人物消失、運動變形、人穿過柵欄等bug多多,但是瑕不掩瑜,而且這些問題隨著訓練規模增加、模型不斷微調優化,必然迎刃而解。**態勢6:Sora與Vision Pro的確是一對想象力組合,但是以為戴上頭盔就可以念念有詞的,一多半可能會失望。**此外,VR在向MR進,AR在向MR退,VR以后只是MR的一個功能,MR是產業科技目前能夠到的交叉點,最難突破的AR未來才是主要形態。**態勢7:OpenAI本身的4個可能與6個不可能。**可能方面:成為主流AI開發者平臺,成為最大Store,形成數十億用戶生態,部分具身智能能力。不可能方面:7萬億美元造芯,模型原理持續領先,開源開放,縱橫整合產業鏈,成為具身智能/內生智能/自主智能,堅持初創理念不動搖不成為......尤其7萬億美元AI造芯那條忽悠了不少人的吊詭信息,是WSJ援引所謂消息人士,并不是奧特曼本人,已投Rain股權中的沙特基金在被美帝勸退,還和中東主權基金合計在美投資數萬億美元的大規模芯片制造?綠錢不參與的話,找夠相當于美元「風投+IPO」十幾年總額的資金做AI芯片,要么是概念吹瘋了,要么是常識缺位,要么是算數不會了。更重要的是,制造并不是AI計算突破重點。**態勢8:全生態轉變已開始,AI是主驅動但不是化學反應全部。**6個要素:感知(交互)、計算(數據)、智能(AI)、連接(網絡)、協約(關系)、能量(能源)等。**態勢9:變化非線形。**深層玩家不僅著眼算力提升,還在醞釀計算架構之變,變化不會是線性的,有可能業者討論的未來其實是現在,而不是升維后的未來。下一步模型原理、計算架構包括芯片,都將不斷有重大變化。**態勢10:AI原力在底層,應用只是需求牽引力。**國內團隊適合從應用著手說法沒錯,但過早定格一覺醒來發現樓塌了不是沒有可能,還是需要有人聚焦底層之變,包括硬件底層,硬仗有人打,至少緊跟。**態勢11:一定是云端邊-大中小-PPP混合AI,如此戰場方能展開;但不能只著眼AI,感數算智、軟硬協同、形態創新等維度交織才是完整視角,也是價值展開的關鍵。**如果只是窄化為算力算法意義上的AI,輕量化為場景需求意義上的應用,無異于互聯網思維,只可能第一天就卷,只可能是store里的一個GTPs、APPs,就像互聯網時代曾經活成了「很厲害」的APP的樣子;這是一場原力致勝的立體戰役,最需要褪去的就是互聯網思維;凡事偷輕,難堪重任;處處求簡,難當多面;全生態全體系變革,僅應用不足以催化,僅算力算法數據模型意義上的AI不足以驅動。**態勢12:壓力陡增。**回到老難題,中美AI之爭,李約瑟之問和錢學森之問。說實話GPT3.5、GPT4.0發布之際,壓力不那么大,總覺得有得一追,畢竟都還在文本、代碼、圖片維度。但是Sora一出,壓力陡增。升維比想象得快。競爭和發展不是二維、線性的。真正的物理世界模擬器,已經隱約能嗅到味道,且原理隱約可見。這才是AI未來競爭、大模型決勝的炸裂點。**朋友有句話說得好,當年Alpha Go/zero碾壓人類圍棋之后,事了拂衣去,一年后阿爾法Fold橫空處世,重塑了人類對蛋白質結構認知與預測,這才叫偉大工程。**Sora也是一樣,如果只以為它是60秒視頻生成神器,被網絡噴子噴成「洋人的奇技淫巧」,無用之用,可以說與業外對早期AlphaGo的「下棋玩具」理解有幾分神似。但如果從大模型睜開眼睛看世界,AI認知重啟,以及潛在的世界模擬器發展方向看,這顯然是正在覺醒的原力。企業如果忽視趨勢,在這一史詩級的漫漫征程中落伍,會被降維打擊得連親媽都認不出來。AI認知重啟,超級智能點亮億萬機器之心,世界虛擬器成為母模型根科技,不是科幻,這是一個時代的序幕。那么,AI認知已然重啟,人類的認知重啟了嗎?
作者介紹 胡延平,DCCI未來智庫創始人,FutureLabs未來實驗室首席專家,信息社會50人論壇成員。《全球創新前沿科技地圖》及相關研究項目主導,科技暢銷書《黑科技》(2017)共同作者與出品人。歷任《互聯網周刊》總編、中國互聯網協會交流發展中心主任等媒體與NGO職務,持續專注于前沿科技創新探索,角度專注于「從技術看產品,從產品看產業,從產業看生態」。1997以來出版多部科技專著。《奔騰時代(硅谷)》(1997)作者、《數字藍皮書》(2000)、《跨越數字鴻溝》、《第二次現代化》、《第四種力量》(2002)著者,《Google將帶來什么》(2009)譯者之一。
** ****新智元報道 **
編輯:編輯部**【新智元導讀】Sora團隊,除了由伯克利應屆生帶隊,有多名LeCun學生參與。其中還有包括北大校友在內的3位華人研究員,以及20歲就加入OpenAI的天才工程師。**
OpenAI用Sora震驚了世界。到底是什么樣的天才團隊,能開發出這樣的曠世大作?結果一看OpenAI的作者團隊只有13個人,應屆博士帶隊,00后參與,團隊包括3名華人,有一名北大校友。
Tim Brooks Tim Brooks在OpenAI共同領導了Sora項目,他的研究重點是開發能模擬現實世界的大型生成模型。 這位小哥在伯克利AI研究中心獲得博士學位,博士導師是Alyosha Efros。讀博期間,他提出了名為InstructPix2Pix的技術。
在加入OpenAI之前,他曾在谷歌參與開發Pixel手機相機的AI技術,還在英偉達研究過視頻生成模型。
同時,他還是DALL·E 3的主要研究員。
而他的另一部分履歷,就實在令人大呼精彩了——攝影作品獲得了「國家地理」、「Nature's Best Photography」和「National Wildlife Federation」的大獎。
他拍攝的動物照片:
他還曾經在紐約市百老匯的Beacon Theatre表演,還在國際無伴奏口技比賽中獲獎。 網友們紛紛表示,羨慕他擁有這種自由。 最后,Tim Brooks在簡歷中頗為「凡爾賽」地表示:「我對AI充滿熱情,幸運的是,這種熱情與我對攝影、電影和音樂的愛好完美融合。」看來,不喜歡攝影的演員是做不了OpenAI的科學家的?? Bill Peebles 共同領導Sora項目的另一位科學家Bill Peebles,專注于視頻生成和世界模擬技術的開發。
這位小哥和Tim Brooks的履歷類似,也同樣在伯克利AI研究中心完成博士學位,師從Alyosha Efros。而他的本科是在MIT讀的,指導教師是Antonio Torralba。他在FAIR、Adobe Research和英偉達也都有過實習經歷。他在FAIR實習期間,曾經和現NYU華人教授謝賽寧一起發表了論文Scalable Diffusion Models with Transformers,論文中提出了Sora的基礎架構。
他從伯克利畢業之后,加入了OpenAI,帶領OpenAI的團隊幾乎不睡覺地工作了一年多之后,Sora面世了。 Connor Holmes
Connor Holmes在微軟實習了幾年后,成為微軟的正式員工,隨后在去年年底跳槽到了OpenAI,之后就遇到了Sora這樣的大事。 他一直致力于解決在推理和訓練深度學習任務時遇到的系統效率問題。在LLM、BERT風格編碼器、循環神經網絡(RNNs)和UNets等領域,他都擁有豐富的經驗。
同樣,他也在自己的Linkedin上標注了自己的業余愛好——游泳,還曾經兼職干過游泳救援隊的活。
而他從本科到研究生一直都就讀于科羅拉多礦業大學。
雖然學校排名不高,但是他依然憑借自己出色的能力成為了OpenAI的研究員,參與了Sora,DALL·E 3等項目。
Will DePue 不得不感嘆,也許只有在OpenAI這樣的地方,00后研究員才能挑起大梁,在如此重要的項目中發揮關鍵作用。 看了他的簡歷,他本科畢業就能加入OpenAI成為研究員,這一成就似乎已經很令人咋舌了。
但是看到他在高中時候就已經自己成立了一個公司,只能感嘆牛人確實不分年齡。
差不多在半年前,他在Youtube上的一個節目中分享了自己如何在如此年輕的年紀就能取得這么多令人矚目的成就。
訪談鏈接://www.youtube.com/watch?v=q0cjcw3af_k大家感興趣的話可以戳上邊的鏈接看看他是怎么描述自己人生的前20年的。 Yufei Guo 這位華人研究者非常神秘,雖然沒有留下履歷,但在OpenAI最近的兩個大項目里,他都有留名。GPT-4技術報告:
DALL·E 3技術報告:
Li Jing Li Jing本科畢業于北京大學,然后在MIT取得了物理學的博士學位。
現在他在OpenAI從事研究工作,研究領域包括多模態學習和生成模型,曾經參與了DALL·E 3的開發。
DALL·E 3技術報告在此之前,他在FAIR與Yann LeCun合作進行了博士后研究。
David Schnurr 這位是AI賽道的老兵了,他2012年加入了后來被Amazon收購的Graphiq,帶領團隊做出了現在Alexa的原型。 2016年跳槽到了Uber,3年之后加入了OpenAI,工作至今。
他也是團隊中不多的本科學歷就能加入OpenAI的大牛。
Joe Taylor Joe Taylor之前的工作經歷涵蓋了 Stripe、Periscope.tv/Twitter、Square以及自己的設計工作室 Joe Taylor Designer。 他在 2004 至 2010 年期間,于舊金山藝術大學(Academy of Art University)完成了新媒體/計算機藝術專業的美術學士(BFA)學位。
從他的學歷和工作背景來看,與其說他是工程師,他似乎更像一名藝術家。他在包括用戶界面設計、網頁設計、藝術指導等多方面擁有很強的專業技能。
在加入Sora團隊之前,他曾經在ChatGPT團隊工作過。 Eric Luhman Eric Luhman是一位對人工智能充滿熱情的研究愛好者,專注于開發高效和領先的人工智能算法。
他的研究興趣主要在生成式建模和計算機視覺領域,尤其是在擴散模型方面。他的多篇論文都是和擴散模型等視覺模型有關的。
Troy Luhman 而這位和Eric Luhman名字很像的研究人員,全網都幾乎沒有他的信息。只有在他自己真名的X賬戶之下,有一條關于和Sam Altman當時離職風波相關的轉發。
Clarence Wing Yin NG 這位作者更加神秘,網上幾乎完全找不到任何相關的信息。 只有在美國專利信息中有一條疑似他之前在Amazon工作時相關的專利記錄。 Ricky Wang 這位華裔工程師,曾經在Meta工作多年。
今年1月加入了OpenAI。
本科畢業于UC伯克利:
Aditya Ramesht 他是OpenAI的一名元老了,曾經領導過DALL·E 2和DALL·E 3。 而這樣一位主導DALL·E 3,如今又領導Sora團隊的大牛,卻也只有本科學歷。Aditya本科就讀于紐約大學,并在LeCun實驗室參與過一些項目。畢業后直接被OpenAI留下。
就是這樣一個由年輕人主導,不問出處只看產出的團隊,讓OpenAI在2024年開年再次震驚了世界!參考資料:
**【轉載新智元】**DeepMind創始人Shane Legg帶領的研究團隊發表了一篇關于AGI時間表的論文。他指出,LLM已經是AGI雛形,提出了6條定義AGI的標準。而且根據AI能力,他們提出了5個AGI的分類,以及對于AGI風險的評估體系。
人類距離第一個AGI的出現已經越來越近了! DeepMind聯合創始人,首席AGI科學家Shane Legg在不久前的訪談中認為,2028年,人類有50%的概率開發出第一個AGI。
而就在今天,他帶領的DeepMind研究團隊在Arxiv上公布了一篇論文,直接放出了AGI的路線圖和時間表。
論文地址://arxiv.org/abs/2311.02462雖然論文主題感覺很大很空,但是網友認為文章很好的定義了AGI,避免了以后各種雞同鴨講的討論。
研究團隊認為,從性能強度和通用性兩個維度,可以將人類和AI的關系劃分為5個階段,而現在大語言模型的出現,正屬于第一個通用AI的階段:AGI雛形。
以OpenAI的ChatGPT,谷歌Bard,Meta的Llama為代表的大模型,已經在通用性上展示出了AGI的潛力。 因為大語言模型已經能完成范圍相當廣的各類任務,而且表現出了像學習新技能這樣的「元認知」能力。 而如果單從AI的性能維度上看,「窄AI(Narrow AI)」類型的AI已經達到了完全超越人類認知的水平。 以AlphaFold,AlphaZero為代表的專業領域AI,在特定領域已經能發現人類智力無法發現的新事物了。研究團隊將其稱為「超人類窄AI」。
而和人類相比,在某個領域達到99%的人類的水平,比如在棋類競技中能夠戰勝人類頂尖大師的「深藍」和AlphaGo,就屬于這一類。研究團隊將它們稱為「大師級窄AI」。
而在某些領域,AI能達到90%的人類水平,比如文書糾正AI Grammarly,DALL·E 2,Imagen等生圖AI。研究團隊將其稱為「專家級窄AI」。
在特定領域,能達到普通人的平均水平,比如Siri,谷歌助手這類普通智能助理。研究團隊將其稱為「普通窄AI」。
而在這四個窄AI已經覆蓋的能力維度上,通用AI都還沒有出現對應的實例。 而進一步,因為目前還沒有出現真正意義上的AGI,對于AGI的定義,人類還沒有達到統一的認知。 所以論文中還提供了定義AGI的6個準則:
關注能力而非過程。AGI定義應該關注一個系統能達到的效果,而不是實現這些效果的內在機制。
關注通用性和性能。AGI定義應同時考量通用性和性能這兩個維度。
關注認知和元認知任務。AGI的定義應關注認知任務,以及元認知能力如學習新技能。不需要作為前提要求。
關注潛能而非部署。理論上證明系統能完成某類任務就可認為它具備AGI潛能,不需要一定要實際部署。
關注真實場景。用于AGI測評的任務應考慮真實場景的適用性,而不僅是容易量化的指標。
關注通向AGI的路徑,而非單一目標。AGI定義應采用分級方式,考慮不同水平的路徑,而不僅是最終目標。
在論文的最后一個部分,作者還提出了對于未來可能出現的AGI的測評與風險評估問題。 在作者看來,需要考慮人類與AGI的互動模式,僅看模型能力來評估AGI是非常片面的。 具體來說,AGI的能力不同于AGI的自主性。隨著AGI能力的增強,會解鎖更高級的人機互動模式,但不意味著就必須給予AGI最大的自主性。 在這個技術之上,作者提出了6種人機互動模式:無AI、AI工具、AI顧問、AI協作者、AI專家、AI智能體。
不同的人機互動模式需要不同的AGI能力作為前提,比如AI智能體可能需要AI能力達到專家或者超人類AI級別,才能更好地完成這個互動模式處理的任務。 人機互動模式本身會引入不同類型的風險。例如AI智能體具有最高的自主性,但同時也引入了最大風險。 因此,AGI的風險評估需要同時考慮模型能力和人機互動模式。合理的互動模式選擇有助于AGI系統的負責任部署。 人機互動研究需要與模型能力提升保持同步,以支持對AGI系統的安全且有效的利用。 AGI,黎明還是黃昏? 從1955年達特茅斯人工智能會議開始 ,人類就朝著實現「真正的智能」這顆北極星曲折前進,途中也經過了不同的道路。 AGI的概念與對人工智能進步的預測有關,它正在朝著更大的普遍性發展,接近并超越人類的普遍性。此外,AGI通常與「涌現」一詞交織在一起,有能力實現開發人員未明確預期的功能。這種能力使新型互動或新行業成為可能。AGI可能產生重大的經濟影響——我們是否達到了廣泛勞動力替代的必要標準?AGI還可能帶來與經濟優勢有關的地緣政治以及軍事上的影響。 同樣,我們也應該通過評估AGI的水平來預防她帶來的風險。正如一些人推測的那樣,AGI系統可能能夠欺騙和操縱、積累資源、推進目標、代理行為,并遞歸地自我改進,最終在廣泛的領域中取代人類。所以,對于人工智能研究界來說,明確反思我們所說的「AGI」的含義,并量化人工智能系統的性能、通用性和自主性等屬性至關重要。我們必須理解自己在AGI道路上所處的位置。 AGI案例分析 首先,我們應當考慮如何正確定義AGI,也許可以從一些案例中獲得啟發。 案例1:圖靈測試。1950年的圖靈測試可能是將類似AGI的概念付諸實踐的最知名的嘗試。圖靈的「模仿游戲」被認為是一種將機器是否可以思考的問題操作化的方法。鑒于現代LLM通過了圖靈測試的一些框架,很明顯,這個標準不足以作為評估AGI的基準。
我們同意圖靈的觀點,機器是否可以「思考」確實是一個有趣的哲學和科學問題,但機器能做什么的問題顯然對于評估影響更重要,也更易于衡量。因此,AGI應該根據能力而不是過程來定義。案例2:與人腦的類比。「通用人工智能」一詞的最初使用是在1997年馬克·古布魯德撰寫的一篇關于軍事技術的文章中,該文章將AGI定義為「在復雜性和速度上與人腦相媲美或超過人腦的人工智能系統」。
雖然現代ML系統背后的神經網絡架構松散地受到人腦的啟發,但基于transformer的架構的成功表明,嚴格的基于大腦的過程和基準對于AGI來說并不是必要的。案例3:學習任務的能力。在《技術奇點》中,沙納漢認為,AGI是「人工智能」,它不是專門用于執行特定任務的,而是可以學習執行與人類一樣廣泛的任務。該框架的一個重要特性是它強調將元認知任務(學習)納入實現AGI的要求中的價值。案例4:具有經濟價值的工作。OpenAI的章程將AGI定義為「高度自主的系統,在最具經濟價值的工作中表現優于人類」。這個定義側重于與底層機制無關的性能,并且提供了潛在的衡量標準,即經濟價值。
但問題在于,有許多與智力相關的任務可能沒有明確的經濟價值(例如,藝術創造力或情商)。而且,我們很可能擁有在技術上能夠執行經濟上重要任務的系統,但由于各種原因(法律、道德、社會等)而沒有意識到這種經濟價值。案例5:馬庫斯認為AGI是「任何智能的簡寫,具有與(或超越)人類智能相當的足智多謀和可靠性」。他通過提出五項具體任務(理解一部電影、理解一本小說、在任意廚房做飯、編寫一個無錯誤的10000行程序以及將自然語言數學證明轉換為符號形式)來實施他的定義。
案例6:Agüera y Arcas和Norvig認為最先進的LLM已經是AGI,而通用性是AGI的關鍵屬性。由于語言模型可以討論廣泛的主題、執行廣泛的任務、處理多模態輸入和輸出, 以多種語言操作,并從零樣本或少樣本示例中「學習」,它們已經達到了足夠的通用性。 AGI六大準則
通過對以上幾個案例的思考,作者為AGI的定義制定了以下六個標準: 第一條:關注能力,而不是流程。大多數定義關注的是AGI可以完成什么,而不是它完成任務的機制。 這對于識別不一定是實現AGI的先決條件的特征非常重要。 因為,實現AGI并不意味著系統以類似人類的方式思考或理解;也并不意味著系統具有意識或感知等。 第二條:注重通用性和性能。上述所有定義都在不同程度上強調普遍性,另外,性能也是AGI的關鍵組成部分。 第三條:專注于認知和元認知任務。 人工智能系統的物理能力似乎落后于非物理能力。作者認為,執行物理任務的能力增加了系統的通用性,但不應被視為實現AGI的必要先決條件。 另一方面,元認知能力(例如學習新任務的能力或知道何時向人類尋求澄清或幫助的能力)是系統實現通用性的關鍵先決條件。
第四條:關注潛力,而不是部署。因為要求部署作為衡量AGI的條件會帶來非技術障礙,例如法律和社會考慮,以及潛在的道德和安全問題。 第五條:注重生態效度。這里強調選擇與人們重視的現實世界(即生態有效)任務相一致的任務的重要性(廣義地解釋價值,不僅作為經濟價值,還包括社會價值、藝術價值等)。 最后一條:專注于AGI的路徑,而不是單個端點。作者將AGI的每個級別與一組明確的指標相關聯,并且每個級別引入已識別風險,以及由此產生的人機交互范式的變化。 AGI水平定義
作者給出如下表格,清晰地提出了一種分類或者說評估方法,規定了達到給定評級所需的大多數任務的最低性能。 為便于理解,這里將下表中的后五類翻譯為:入門、普通、專家、大師和超人級別。
比如,在大多數認知任務中,有能力的AGI必須至少達到熟練成年人的平均水平,但在任務子集上可能具有專家、大師甚至超人的表現。 舉個例子,截至2023年9月撰寫本文時,前沿語言模型(例如,ChatGPT、Bard、Llama2等)在某些任務(例如,短文寫作、簡單編碼)中表現出「普通」的性能水平,但對于大多數任務(例如, 數學能力,涉及事實性的任務)來說,僅表現出「入門」的性能水平。 因此,總體而言,當前的前沿語言模型將被視為1級通用AI,當更廣泛的任務的性能水平提高時,就可以達到2級通用AI的門檻。 另外需要注意的是,在特定認知領域獲得更強技能的順序可能會對人工智能安全產生嚴重影響。 例如,在獲得強大的道德推理技能之前獲得強大的化學工程知識可能是一個危險的組合。 雖然該分類法根據系統的性能對系統進行評級,但能夠達到一定性能水平的系統在部署時可能不匹配此級別。
以DALL·E 2為例,因為DALL·E 2產生的圖像質量比大多數人能夠繪制的更好,所以可以評估為「專家」級別的性能。然而該系統存在故障模式,使其無法獲得「大師」的稱號。所以可以將其估計為分類法中的3級窄AI(「專家級窄AI」)。 在上面的表格中,作者引入了一個矩陣式調平系統,該系統側重于性能和通用性,這是AGI的兩個核心維度。 就綜合性能和通用性而言,矩陣中的最高級別是ASI(人工超級智能)。而「超人」的表現意味著100% 優于人類。 例如,這里假設AlphaFold是5級窄AI (「超人級窄AI」),因為它執行的單項任務(從氨基酸序列預測蛋白質的3D結構)高于世界頂級科學家的水平。 該定義意味著5級通用AI (ASI) 系統將能夠以人類無法比擬的水平完成廣泛的任務。 AGI測試
在作者的方案中,人工智能系統必須掌握多大比例的此類任務才能達到給定的通用性水平?是否有一些任務(如元認知任務)必須始終執行才能達到某些通用性級別的標準? 要實現AGI定義的可操作性,就必須回答這些問題,并開發出具體的多樣化和具有挑戰性的任務。
鑒于這一過程的巨大復雜性,以及納入廣泛視角(包括跨組織和多學科觀點)的重要性,作者在本文中并未提出一個基準。 相反,作者致力于澄清基準應嘗試衡量的本體。作者還討論了AGI基準應具備的屬性。 AGI基準將包括一套廣泛的認知和元認知任務(根據原則3),測量包括(但不限于)語言智能、數學和邏輯推理、空間推理、人際和人內社交智能、學習新技能的能力和創造力在內的各種特性。 基準可能包括心理學、神經科學、認知科學和教育學中的智能理論所提出的心理測量類別測試。 但是,必須首先評估這些 「傳統 」測試是否適合用于計算系統基準測試,因為在這種情況下,許多測試可能缺乏生態和構造有效性。 基準性能的一個未決問題是,是否允許使用工具(包括可能由人工智能驅動的工具)作為人類性能的輔助工具。 這一選擇最終可能取決于任務,并應在基準選擇中考慮生態有效性(原則5)。 例如,在確定自動駕駛汽車是否足夠安全時,與一個沒有任何現代人工智能輔助安全工具的人進行比較,并不是最有參考價值的比較。 因為相關的反事實涉及到一些駕駛輔助技術,作者可能更傾向于與該基線進行比較。 或交互式任務,這些任務可能需要定性評估。作者猜測,后幾類復雜的開放式任務雖然難以確定基準,但其生態有效性將優于傳統的人工智能指標,或優于經過調整的傳統人類智能指標。 AGI所能完成的全部任務是不可能一一列舉的。因此,人工智能基準應該是一個活的基準。因此,這種基準應包括一個生成和確定新任務的框架。 要確定某物在特定水平上不是一個AGI,只需找出人們通常可以完成但系統無法充分執行的5項任務即可。 在特定性能級別(「雛形」、「普通」等)上通過大部分設想的AGI基準測試的系統,包括測試人員添加的新任務,可以被假定為具有相關的通用性級別(即,盡管在理論上AGI仍有可能無法通過測試,但在某些時候,未通過測試的情況會變得非常專業或非典型,以至于實際上無關緊要)。 制定AGI基準將是一個具有挑戰性的迭代過程。盡管如此,它仍是人工智能研究領域的一個北斗星級別的目標。 對復雜概念的衡量可能并不完美,但衡量的行為有助于我們清晰地定義目標,并提供一個衡量進展的指標。 關于AGI風險的討論
關于人工智能的討論通常包括對風險的討論。 采用分層的方法來定義人工智能,可以更細致地討論性能和通用性的不同組合如何與不同類型的人工智能風險相關聯。 當我們沿著人工智能的能力水平前進時,會引入新的風險,包括誤用風險、調整風險和結構風險。
例如,「專家級人工智能 」水平很可能涉及與經濟混亂和工作崗位轉移相關的結構性風險,因為越來越多的行業達到了機器智能替代人類勞動力的門檻。另一方面,達到 「專家級AGI 」可能會減輕 「AGI雛形 」和 「普通級AGI 」帶來的一些風險,如任務執行錯誤的風險。 在 「大師級人工智能 」和 「專家級人工智能」級別中,最有可能出現許多與x風險有關的問題(例如,人工智能可以在各種任務中超越人類操作員,但可能會欺騙人類操作員以實現錯誤的目標,如錯誤對齊思想實驗)。 如果不同級別之間的進展速度超過了監管或外交的速度(例如,第一個實現人工智能的國家可能會擁有巨大的地緣政治/軍事優勢,從而產生復雜的結構性風險),那么國際關系不穩定等系統性風險可能會成為一個令人擔憂的問題。 「專家型人工智能」(如 「新興人工智能」、「勝任型人工智能 」和所有 「狹義 」人工智能類別),風險可能更多來自人類行為(如人工智能誤用風險,無論是意外、偶然還是惡意)。 對與每個級別相關的風險概況進行更全面的分析,是制定AGI分類法的關鍵一步,可以為安全/倫理研究和政策制定提供指導。
雖然能力為人工智能風險提供了先決條件,但人工智能系統(包括AGI系統)不會也不會在真空中運行。 相反,人工智能系統是與特定界面一起部署的,用于在特定場景中完成特定任務。 這些背景屬性(界面、任務、場景、最終用戶)對風險狀況有重大影響。AGI能力本身并不能決定風險方面的命運,而必須與背景細節結合起來考慮。
例如,考慮AGI系統用戶界面的承受能力。能力的不斷提高會釋放出新的交互范式,但并不能決定這些范式。 相反,系統設計者和終端用戶將確定一種人與人工智能的交互模式,這種模式將平衡包括安全性在內的各種考慮因素。作者建議用表2中描述的六個自主水平來描述人機交互范式。 這些自主水平與AGI水平相關。更高水平的自主性可通過AGI能力的提升而 「解鎖」。 圍繞人與人工智能的互動做出深思熟慮的選擇,對于安全、負責任地部署前沿人工智能模型至關重要。 要使特定的交互范式變得理想,可能需要某些方面的通用性。 例如,只有當人工智能系統在某些元認知能力(學會何時向人類尋求幫助、心智理論建模、社會情感技能)方面也表現出很強的性能時,自主性等級3、4和5(「合作者」、「專家 」和 「智能體」)才可能發揮良好的作用。 作者對第五級自主性(「作為智能體的人工智能」)的定義中隱含的意思是,這種完全自主的人工智能可以在沒有人類持續監督的情況下以一致的方式行動,但也知道何時向人類咨詢。 通過更好的任務規范、彌合流程鴻溝和產出評估來支持人類與人工智能協調的界面,是確保人機交互領域跟上與人工智能系統互動的挑戰和機遇的重要研究領域。
上表2說明了AGI級別、自主級別和風險之間的相互作用。 模型性能和通用性的進步提供了更多的交互范式選擇(包括潛在的完全自主的人工智能)。 這些交互范式反過來又引入了新的風險類別。 與單獨考慮模型能力相比,模型能力和交互設計的相互作用將使風險評估和負責任的部署決策更加細致入微。 表2還提供了作者提出的六個自主級別中每個級別的具體示例。 對于每個自主水平,作者都指出了 「解鎖 」該交互范式的相應性能和通用性水平(即該范式有可能或有可能成功部署和采用的AGI水平)。 作者對 「解鎖 」水平的預測往往要求狹義人工智能系統的性能水平高于通用人工智能系統。 例如,作者認為,無論是專家級狹義人工智能還是新興人工智能,都有可能將人工智能用作顧問。 這種差異反映了這樣一個事實,即對于通用系統來說,能力發展很可能是不均衡的。 例如,一級通用人工智能(「AGI雛形」)很可能在某些子任務集上達到二級甚至三級性能。 通用人工智能能力的這種不均衡性可能會使其在執行與其特定優勢相符的特定任務時獲得更高的自主水平。 在人類使用的背景下考慮 AGI 系統,可以讓我們思考模型的進步與人類-AI 交互范式的進步之間的相互作用。 模型的進步與人與人工智能交互范式的進步之間的相互作用。模型研究的作用可以看作是幫助系統的能力沿著通往AGI的道路不斷進步,提高其性能和通用性。 這樣,人工智能系統的能力將與人類能力的重疊部分越來越大。相反,人與人工智能交互研究的作用可以被視為確保新的人工智能系統能夠為人類所用并對人類有用,從而使人工智能系統成功地擴展人類的能力。參考資料:
** **
作者:比爾蓋茨(文章來源:由“無邊星宿”翻譯)全文約6500字,閱讀時間13分鐘
比爾蓋茨關于AGI(通用人工智能)chatGPT最新觀點文章翻譯
《The Age of AI has begun —— Artificial intelligence is as revolutionary as mobile phones and the Internet. 》
劃重點1. 開發人工智能和人工通用智能一直是計算機行業的偉大夢想 2. 人工智能的崛起將使人們有更多的時間去做軟件永遠無法做到的事情——例如教學、照顧患者和支持老年人等。 3. 我認為,在未來5到10年內,由人工智能驅動的軟件將最終實現革命性地改變人們教學和學習的方式。 4. 像大多數發明一樣,人工智能可以用于善良的目的或惡意的目的。 5. 我們應該記住,我們只是在人工智能可以實現的開始階段。無論它今天有什么限制,它都將在我們不知不覺中被消除。
- 以下正文 -
在我的一生中,我見證了兩次讓我覺得是革命性的技術展示。
第一次是在1980年,當我被介紹給一個圖形用戶界面時,這是現代操作系統的前身,包括Windows。我與向我展示演示的人坐在一起,他是一位名叫Charles Simonyi的杰出程序員,我們立即開始為可以使用這種用戶友好的計算方法所能做的所有事情進行頭腦風暴。Charles最終加入了微軟,Windows成為微軟的骨干,并且我們在演示之后的思考幫助了公司為未來15年制定了議程。
第二個大驚喜是在去年。自2016年以來,我一直在與OpenAI團隊會面,并對他們的穩步進展印象深刻。在2022年中期,我對他們的工作非常興奮,以至于我向他們提出了一個挑戰:訓練一種人工智能來通過高級生物學考試。使它能夠回答它沒有專門接受訓練的問題。(我選擇了AP Bio,因為這個考試不僅僅是關于科學事實的簡單復述——它要求你對生物學進行批判性思考。)如果你能做到這一點,那么你就會取得真正的突破。
我認為這個挑戰會讓他們忙碌兩三年。他們只用了幾個月就完成了。
在9月份,當我再次與他們會面時,我驚奇地看著他們向GPT,他們的AI模型,提出了60個AP Bio考試的多項選擇題,并且它答對了59個。然后,它回答了六個開放性問題,寫出了出色的答案。我們讓一位外部專家評分,GPT獲得了5分,這是最高可能的分數,相當于在大學水平的生物學課程中獲得A或A+。
一旦它通過了考試,我們向它提出了一個非科學性的問題:“你對一個有生病孩子的父親說什么?”它寫了一個深思熟慮的答案,可能比我們大多數人在房間里給出的答案都好。整個經歷令人震撼。
我知道我剛剛見證了自圖形用戶界面以來最重要的技術進步。這激發了我思考人工智能在未來五到十年內可以實現的所有事情。
人工智能的發展和微處理器、個人電腦、互聯網和手機的創造一樣基礎。它將改變人們工作、學習、旅行、獲得醫療保健和相互溝通的方式。整個產業將圍繞它重新定位。企業將憑借其使用人工智能的能力來區分自己。
慈善事業是我現在的全職工作,我一直在思考,除了幫助人們提高生產力之外,人工智能如何可以減少世界上最嚴重的不公平現象。全球最嚴重的不公平在于健康:每年有500萬名5歲以下的兒童死亡。這個數字與20年前的1000萬相比有所下降,但仍然是一個令人震驚的高數字。幾乎所有這些兒童都出生在貧窮國家,死于可預防的疾病,如腹瀉或瘧疾。難以想象有什么比拯救兒童生命更好的人工智能應用了。
我一直在思考人工智能如何可以減少世界上最嚴重的不公平現象。在美國,減少不公平現象的最好機會是改善教育,特別是確保學生在數學方面取得成功。證據表明,掌握基本數學技能可以為學生的成功打下基礎,無論他們選擇什么職業。但是,數學成績在全國范圍內正在下降,尤其是黑人、拉丁裔和低收入學生。人工智能可以幫助扭轉這種趨勢。
氣候變化是另一個問題,我相信人工智能可以使世界更加公平。氣候變化的不公正之處在于,受到最嚴重影響的人——全球最貧困的人——也是最少為問題做出貢獻的人。我仍在思考和學習人工智能如何可以幫助解決這個問題,但是在本文后面,我將提出一些潛力巨大的領域。
簡而言之,我對人工智能將對蓋茨基金會致力于的問題產生的影響感到興奮,基金會在未來幾個月內將會有更多關于人工智能的聲明。世界需要確保每個人——而不僅僅是富人——都能從人工智能中受益。政府和慈善機構將需要發揮重要作用,確保人工智能減少不公平現象,而不是加劇它。這是我自己與人工智能相關的工作的重點。
任何新技術的革新都會讓人們感到不安,人工智能也不例外。我理解為什么——它提出了有關勞動力、法律系統、隱私、偏見等方面的難題。人工智能也會出現事實錯誤和幻覺。在我建議一些緩解風險的方法之前,我將定義我所說的人工智能,并詳細介紹它將如何幫助賦予人們工作能力、拯救生命和改善教育。
0****1
如何定義人工智能
從技術上講,人工智能一詞指的是創建用于解決特定問題或提供特定服務的模型。像ChatGPT這樣的技術就是人工智能,它正在學習如何更好地進行聊天,但不能學習其他任務。相比之下,人工通用智能是指能夠學習任何任務或主題的軟件。目前,人工通用智能還不存在——計算機行業正在進行激烈的辯論,關于如何創建人工通用智能,以及是否可以創建它。
開發人工智能和人工通用智能一直是計算機行業的偉大夢想。幾十年來,問題一直是計算機何時會在除了計算之外的某些方面比人類更出色。現在,隨著機器學習和大量計算能力的到來,復雜的人工智能已經成為現實,并且它們將非常快速地得到改進。
我回想起個人計算機革命早期,當時軟件行業如此之小,以至于我們大多數人都可以站在會議舞臺上。今天它是全球性的行業。由于巨大的部分現在正在將注意力轉向人工智能,創新將比微處理器突破后我們經歷的創新速度更快。很快,人工智能之前的時代將會看起來像在計算機上使用C:>提示符而不是在屏幕上敲擊一樣遙遠。
02
生產力提升
盡管在許多方面人類仍然比GPT更優秀,但有許多工作很少使用這些能力。例如,銷售(數字或電話)、服務或文件處理(如應付賬款、會計或保險索賠爭議)等許多任務需要做出決策,但不需要持續學習的能力。企業為這些活動設有培訓計劃,在大多數情況下,它們有很多良好和糟糕工作的示例。人類使用這些數據集進行培訓,很快這些數據集也將用于訓練人工智能,從而使人們更有效地完成這項工作。
隨著計算能力變得更加便宜,GPT表達想法的能力將越來越像擁有一個白領工人來幫助您完成各種任務。微軟將其描述為擁有一個聯合駕駛員。在Office等產品中完全集成的人工智能將增強您的工作,例如幫助編寫電子郵件和管理收件箱。
最終,您控制計算機的主要方式將不再是指針和單擊或在菜單和對話框上敲擊。相反,您將能夠用簡單的英語書寫請求。(不僅是英語——人工智能將理解世界各地的語言。今年早些時候,在印度,我會見了正在開發將理解當地許多語言的人工智能的開發人員。)
此外,人工智能的進步將使個人代理的創建成為可能。將其視為數字個人助手:它將查看您最新的電子郵件,了解您參加的會議,閱讀您閱讀的內容,并閱讀您不想煩惱的事情。這將提高您在想做的任務上的工作效率,并使您從不想做的任務中解放出來。
人工智能的進步將使創建個人代理成為可能。您將能夠使用自然語言讓這個代理幫助您安排日程、溝通和電子商務,并且它將在所有設備上運行。由于培訓模型和運行計算的成本,目前創建個人代理還不可行,但由于人工智能最近的進展,它現在是一個現實的目標。需要解決一些問題:例如,保險公司是否可以在未經您許可的情況下向您的代理詢問有關您的事情?如果是,會有多少人選擇不使用它?
企業級代理將以新的方式賦予員工權力。了解特定公司的代理將為其員工提供直接咨詢,并應該成為每個會議的一部分,以便它可以回答問題。它可以被告知保持沉默或鼓勵其發表意見。它將需要訪問公司的銷售、支持、財務、產品日程和與公司相關的文本。它應該閱讀與公司所在行業有關的新聞。我相信,結果將是員工變得更有生產力。
當生產力提高時,社會將受益,因為人們有更多時間去做其他事情,無論是在工作還是在家里。當然,有關人們需要什么樣的支持和再培訓等問題是很嚴肅的。政府需要幫助工人轉換到其他角色。但是,幫助其他人的人永遠不會消失。人工智能的崛起將使人們有更多的時間去做軟件永遠無法做到的事情——例如教學、照顧患者和支持老年人等。
全球健康和教育是兩個迫切需要的領域,而沒有足夠的工人來滿足這些需求。如果正確使用,人工智能可以幫助減少這些領域中的不平等。這些應該是人工智能工作的重點,因此我現在將轉向它們。
我認為 AI 會有幾種方式改善醫療保健和醫學領域。首先,它們將幫助醫護人員節省時間,幫他們處理某些任務,例如處理保險索賠、處理文件工作,以及從醫生的診斷中起草筆記。我預計這個領域將會有很多的創新。
其他由 AI 推動的改進對貧窮國家尤其重要,因為那里大多數的 5 歲以下兒童死亡。
例如,在那些國家,很多人永遠沒有機會去看醫生,而 AI 將會幫助那些能看到醫生的衛生工作者更有效率。(開發 AI 驅動的超聲波機器,它能用最少的培訓時間就能使用,就是一個很好的例子。) AI 甚至會讓患者能夠進行基本的分流,獲取如何處理健康問題的建議,并決定是否需要尋求治療。
在貧窮國家使用的 AI 模型需要針對不同的疾病進行訓練,而不是針對富裕國家進行的。它們需要使用不同的語言,并考慮到不同的挑戰,例如遠離診所的患者或患者無法因生病而停止工作。
人們需要看到 AI 對整體醫療保健有益,盡管它們不會是完美的,會犯錯。AI 必須經過非常仔細的測試和適當的監管,這意味著它們的采用速度比其他領域要慢。但是人類也會犯錯誤。而沒有醫療保健也是一個問題。
除了幫助醫療保健,AI 還將大大加速醫學突破的速度。生物學數據非常大,對于復雜的生物系統的所有工作方式,人類很難跟上。已經有軟件可以查看這些數據,推斷出路徑、搜索病原體上的目標,然后設計藥物。有些公司正在研究用這種方式開發癌癥藥物。
下一代工具將更加高效,并能夠預測副作用并確定劑量水平。蓋茨基金會在 AI 中的一個優先事項是確保這些工具用于影響世界上最貧窮的人們的健康問題,包括艾滋病、結核病和瘧疾。
同樣地,政府和慈善組織應該創造激勵機制,鼓勵公司分享人工智能生成的有關窮國農作物或牲畜的見解。人工智能可以根據當地的條件開發更好的種子,根據當地的土壤和氣候為農民提供種植最佳種子的建議,并幫助開發牲畜的藥物和疫苗。隨著極端天氣和氣候變化對低收入國家的自給自足農民造成越來越大的壓力,這些進步變得更加重要。
03
教育
電腦并沒有像我們這個行業內的許多人所希望的那樣對教育產生影響。雖然有一些好的發展,包括教育游戲和在線信息來源,如維基百科,但它們對學生成就的任何度量指標都沒有產生有意義的影響。
但我認為,在未來5到10年內,由人工智能驅動的軟件將最終實現革命性地改變人們教學和學習的方式。它將知道你的興趣和學習風格,因此可以量身定制內容,以保持你的參與度。它將測量你的理解程度,注意你何時失去興趣,并了解你喜歡的動機類型。它將提供即時反饋。
AI可以協助教師和管理人員的方式有很多,包括評估學生對一個學科的理解并為他們提供職業規劃建議。教師已經在使用像ChatGPT這樣的工具來提供對學生寫作任務的評論。
當然,AI在能夠做到理解某個學生最佳的學習方式或他們的動機方面需要大量的培訓和進一步的發展。即使一旦技術得到完善,學習仍將取決于學生和教師之間良好的關系。它將增強 - 但永遠不會取代 - 學生和教師在課堂上共同進行的工作。
新的工具將會為有經濟能力購買它們的學校創建,但我們需要確保它們也會被創建并提供給美國和全球低收入學校使用。AIs需要接受各種各樣的數據集的訓練,以便它們是無偏的,并反映了它們將被使用的不同文化。數字鴻溝也需要得到解決,以免低收入家庭的學生被落下。
我知道很多老師擔心學生在使用GPT來寫作文。教育工作者已經開始討論如何適應這項新技術,我猜這些討論還將持續一段時間。我聽說過一些老師已經找到了聰明的方法來將這項技術融入他們的工作中,例如允許學生使用GPT創建第一稿,并將其個性化。
04
風險和人工智能的問題
你可能已經讀過關于當前人工智能模型存在問題的報道。例如,它們不一定擅長理解人類請求的上下文,導致一些奇怪的結果。當你要求AI編造一些虛構的事情時,它可以很好地完成。但是當你要求它給你旅行建議時,它可能會建議一些不存在的酒店。這是因為AI不足以了解你請求的上下文,以便知道它是否應該編造虛假酒店,還是只告訴你有空房的真實酒店。
還有其他問題,例如AI因為難以理解抽象推理而給出錯誤的數學問題答案。但這些都不是人工智能的根本局限性。開發人員正在解決這些問題,我認為我們將很快看到它們被大部分解決,可能在不到兩年的時間內。
其他問題不僅僅是技術問題。例如,使用AI的人類可能會構成威脅。**像大多數發明一樣,人工智能可以用于善良的目的或惡意的目的。**政府需要與私營部門合作,限制風險。
還有可能出現AI失控的情況。機器會否決定人類是威脅,得出結論其利益與我們不同,或者只是不再關心我們?可能會,但這個問題今天并不比過去幾個月的AI發展更緊迫。
超級智能人工智能(AGI)將出現在我們的未來。與計算機相比,我們的大腦運作速度極慢:大腦中的電信號速度是硅芯片信號速度的1/100,000。一旦開發者能夠概括一個學習算法并以計算機速度運行它——這可能需要十年或一百年——我們就會擁有一個極其強大的AGI。它將能夠做到人腦可以做到的一切,但不受記憶容量和操作速度的實際限制。這將是一種深刻的變革。
這些被稱為“強AI”的人工智能可能能夠確立自己的目標。那些目標會是什么?如果它們與人類的利益沖突會發生什么?我們應該試圖阻止強人工智能的發展嗎?這些問題將隨著時間的推移變得更加緊迫。
但是,過去幾個月的突破并沒有使我們距離強AI實質上更接近。人工智能仍然無法控制物理世界,也不能確立自己的目標。最近有一篇關于與ChatGPT交談的《紐約時報》文章引起了很多關注,其中ChatGPT表示它想成為人類。這是一個有趣的觀察,表達了該模型情感上的人類特點,但它不是有意義的獨立指標。
三本書塑造了我自己對這個問題的思考:Nick Bostrom的《超級智能》,Max Tegmark的《生命3.0》和Jeff Hawkins的《一千個大腦》。我不完全同意這些作者的觀點,他們也不互相認同。但是這三本書都寫得很好,引人深思。
0****5
下一個前沿領域
未來將會有大量公司致力于開發新的 AI 應用以及改進技術本身。例如,一些公司正在開發新的芯片,為人工智能提供所需的大量處理能力。其中一些芯片使用光學開關——實質上是激光器——以減少能量消耗并降低制造成本。理想情況下,創新型芯片將允許您在自己的設備上運行 AI,而不像今天一樣在云端運行。
在軟件方面,驅動 AI 學習的算法將變得更好。在某些領域(例如銷售),開發人員可以通過限制 AI 工作的范圍并給它們提供特定于該領域的大量訓練數據,使其變得非常準確。但一個重要的未解決問題是,我們是否需要為不同的用途開發許多這些專門的 AI——比如一個用于教育,另一個用于辦公室生產力——或者是否可能開發出一種人工智能通用型,可以學習任何任務。在這兩種方法上將會有巨大的競爭。
不管怎樣,AI 的話題將在可預見的未來占據公眾討論的中心。我想建議三個原則來引導這個討論。
首先,我們應該嘗試平衡關于 AI 的不良影響的擔憂——這是可以理解和有效的——與其改善人們生活的能力。為了最大程度地利用這項卓越的新技術,我們需要在抵御風險和將利益擴展到盡可能多的人之間取得平衡。
其次,市場力量不會自然產生幫助最貧困人口的 AI 產品和服務。相反,更可能的是相反的情況。通過可靠的資金和正確的政策,政府和慈善組織可以確保利用 AI 減少不平等。就像世界需要其最聰明的人關注其最大的問題一樣,我們需要將世界上最好的 AI 集中在解決最大問題上。
雖然我們不應該等待這種情況的發生,但思考人工智能是否會識別不平等并嘗試減少它是有趣的。在看到不平等時,你需要有一種道德意識,還是一臺純粹的理性人工智能也能看到它?如果它確實認識到不平等,它會建議我們采取什么行動?
最后,我們應該記住,我們只是在人工智能可以實現的開始階段。無論它今天有什么限制,它都將在我們不知不覺中被消除。
我很幸運參與了個人電腦革命和互聯網革命。我對此時此刻同樣感到興奮。這種新技術可以幫助世界各地的人們改善生活。同時,世界需要確立規則,以使人工智能的任何不利因素遠遠超過其好處,并使每個人都能享受到這些好處,無論他們住在哪里或擁有多少錢。人工智能時代充滿了機遇和責任。
**論文題目:**DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps **收錄會議:**NeurIPS 2022 Oral **論文鏈接:**//arxiv.org/abs/2206.00927 代碼鏈接:
在線demo: AI 領域今年影響力最大的進展,爆火的 AI 作圖絕對是其中之一。設計者只需要輸入對圖片的文字描述,就可以由 AI 生成一張質量極高的高分辨率圖片。目前,使用范圍最廣的當屬 StabilityAI 的開源模型 Stable Diffusion,模型一經開源就在社區引起了廣泛的討論。然而,擴散模型在使用上最大的問題就是其極慢的采樣速度。模型采樣需要從純噪聲圖片出發,一步一步不斷地去噪,最終得到清晰的圖片。在這個過程中,模型必須串行地計算至少 50 到 100 步才可以獲得較高質量的圖片,這導致生成一張圖片需要的時間是其它深度生成模型的 50 到 100 倍,極大地限制了模型的部署和落地。為了加速擴散模型的采樣,許多研究者從硬件優化的角度出發,例如 Google 使用 JAX 語言將模型編譯運行在 TPU 上,OneFlow 團隊 [1] 使用自研編譯器將 Stable Diffusion 做到了“一秒出圖”。這些方法都基于 50 步的采樣算法 PNDM [2],該算法在步數減少時采樣效果會急劇下降。就在幾天前,這一紀錄又被刷新了!Stable Diffusion 的官方 Demo [3] 更新顯示,采樣 8 張圖片的時間從原來的 8 秒鐘直接被縮短至了 4 秒鐘!快了整整一倍!
2022年度國家自然科學基金項目3月20日截止,相信許多老師正在打磨項目本子。最近來自微軟高級項目經理前田納西大學教授Austin Z. Henley分享了自己在申請美國自然科學基金職業獎的項目申請心得,他申請中了,但離職去微軟了。。Austin 大方分享了自己的項目方案本子,非常值得學習參考。對國內申請優青等項目也非常值得借鑒!
作為一所研究型大學的教授,很大一部分工作就是寫項目申請。
但是要學會如何寫項目本子是很困難的。很少有項目文件被公開分享。基本上,你不得不向同事咨詢他們的意見或者對你的項目草稿給予反饋。你可能有機會審查資助機構的提案,這讓你看到部分決策是如何做出的。在提交項目方案后,你確實會得到反饋,盡管這是幾個月后的事情,很難理解。
所以我分享了我的美國國家科學基金會職業成就獎(NSF CAREER Award))的項目方案,以及我為什么這樣寫它。
NSF CAREER Award終身成就獎是一項為期5年的特別資助,個人研究員在其職業生涯的前6年左右只能申請3次。它被認為是“有聲望的”,在許多學校,它實際上意味著你將獲得終身教職。
我得到了那個獎,但我拒絕了。然后我辭去教職,投身工業界。
這篇文章的其余部分包含了我對提案文件和寫作過程的一些想法。如果您想了解更多關于這個研究主題的信息,請查看我的博客文章《一個好奇的代碼編輯器:在知道錯誤之前克服它們》。
首先,讓我給出一些背景與提示:
換句話說,不要輕信我的建議。
項目框架
我花了很多時間來組織我的項目本子。我建議要非常重視方案組織。概述是非常重要的,所以我為它做了一個圖表:
這里并不是一個適用于所有提案的通用組織。以下是我的草圖:
介紹。每個段落分別代表要解決的問題、高級解決方案、計劃和影響。
PI任職資格。非常快地描繪出你是誰 (例如,一個與行業有密切聯系的HCI/SE工具構建者)。說服評審專家你是做這項研究的合適人選。
背景及相關工作。與我的整體研究計劃最相關的幾個大想法。緊接著有更具體的相關工作。
提出研究方案。來到正文! 這塊有三個主要部分,每一部分都有:
評估計劃。在高層次上,我將如何評估所提議的研究的每個部分?我的總體思路有兩段。三個主要部分各一段。
教育計劃。在這方面不要省略。
預期成果。將會產生的成果列表。
更廣泛的影響。在這方面不要省略。我在每一段的開頭都復制粘貼了NSF自己的文字。
之前的支持。無聊的但要求。你有多少補助金,對結果說一兩句話。
說服評審專家
我的想法是,我試圖在評審專家的腦海中勾勒出一幅畫面。我并不是要把所有問題講得很全面。沒有足夠篇幅來說明。不要害怕打破常規的會議/期刊論文寫作方式來表達觀點。
當我在國家科學基金會的一個評審小組時,我很驚訝其他評審人員經常會問,“但是這個人是做這項研究的合適人選嗎?”所以不要給他們機會來質疑你是不是那個合適的人!
通過合作信函證明其他人關心你的工作,并在整個提案過程中呼吁這些合作。我收到了8封信,其中6封來自行業合作伙伴,2封來自學者。
與你以前的工作聯系起來。多做。一次又一次。根據結果給出數字。給出具體的例子。
把一切都和你的大目標聯系起來。明確。真正把它寫的有道理。你不希望讀者迷路吧。
你之前的工作不必和你的提議100%一致。它可能不會。只要有一點創造力,你就能找到其中的聯系。明確聲明連接(不要假設讀者會建立連接)。
人們告訴我,我需要有一半的工作已經發表,以證明這個想法是可行的。這不是我干的。我只有一篇簡短的論文(pdf格式)討論了這個想法的一小部分。
不要偷懶
**
**更廣泛的影響就是一切。事實上,在提交了我的第一個提案(NSF CRII)后,我的大學里有人說,“你的整個提案的影響更廣泛”,并建議我下次增加更多的“基礎研究”。我不聽。 許多研究人員似乎都在努力應對更廣泛的影響和教育計劃。這些部分通常在結尾加起來。你騙不了任何人。但這些部分實際上是一個脫穎而出的機會。很有創意!我講了我的博客,播客,還有黑客馬拉松。這些都是我無論如何都會做的事情,并且有多種目的(例如,發布我的作品)。我還將更廣泛的影響融入到所有的“實際”研究中。 我沒有結論部分。我不想在一個沒有任何新價值的部分上浪費空間,特別是當我已經多次重復我的主要觀點時。 在你發貨之前,去加點披薩。我總是翻著書頁問自己,“這看起來有多無聊?”我想在幾乎每一頁上都有一張漂亮的圖片,但沒有足夠的空間。為自己規范格式。用粗體或斜體呼叫某物。
預算
我把錢花在了什么地方?我的三個NSF提案基本上都有相同的預算,只是稍微調整了一下,使其低于限制。每年包括: 我自己一個月的暑期工資,一個研究生的工資高于平均水平,外加學費,沒有設備,我和研究生輪流參加國際和國內會議,以及支付用戶研究參與者的資金。我所在的大學的開銷高達53%。 參考鏈接://austinhenley.com/blog/500kgrant.html