** ****新智元報道 **
編輯:編輯部**【新智元導讀】Sora團隊,除了由伯克利應屆生帶隊,有多名LeCun學生參與。其中還有包括北大校友在內的3位華人研究員,以及20歲就加入OpenAI的天才工程師。**
OpenAI用Sora震驚了世界。到底是什么樣的天才團隊,能開發出這樣的曠世大作?結果一看OpenAI的作者團隊只有13個人,應屆博士帶隊,00后參與,團隊包括3名華人,有一名北大校友。
Tim Brooks Tim Brooks在OpenAI共同領導了Sora項目,他的研究重點是開發能模擬現實世界的大型生成模型。 這位小哥在伯克利AI研究中心獲得博士學位,博士導師是Alyosha Efros。讀博期間,他提出了名為InstructPix2Pix的技術。
在加入OpenAI之前,他曾在谷歌參與開發Pixel手機相機的AI技術,還在英偉達研究過視頻生成模型。
同時,他還是DALL·E 3的主要研究員。
而他的另一部分履歷,就實在令人大呼精彩了——攝影作品獲得了「國家地理」、「Nature's Best Photography」和「National Wildlife Federation」的大獎。
他拍攝的動物照片:
他還曾經在紐約市百老匯的Beacon Theatre表演,還在國際無伴奏口技比賽中獲獎。 網友們紛紛表示,羨慕他擁有這種自由。 最后,Tim Brooks在簡歷中頗為「凡爾賽」地表示:「我對AI充滿熱情,幸運的是,這種熱情與我對攝影、電影和音樂的愛好完美融合。」看來,不喜歡攝影的演員是做不了OpenAI的科學家的?? Bill Peebles 共同領導Sora項目的另一位科學家Bill Peebles,專注于視頻生成和世界模擬技術的開發。
這位小哥和Tim Brooks的履歷類似,也同樣在伯克利AI研究中心完成博士學位,師從Alyosha Efros。而他的本科是在MIT讀的,指導教師是Antonio Torralba。他在FAIR、Adobe Research和英偉達也都有過實習經歷。他在FAIR實習期間,曾經和現NYU華人教授謝賽寧一起發表了論文Scalable Diffusion Models with Transformers,論文中提出了Sora的基礎架構。
他從伯克利畢業之后,加入了OpenAI,帶領OpenAI的團隊幾乎不睡覺地工作了一年多之后,Sora面世了。 Connor Holmes
Connor Holmes在微軟實習了幾年后,成為微軟的正式員工,隨后在去年年底跳槽到了OpenAI,之后就遇到了Sora這樣的大事。 他一直致力于解決在推理和訓練深度學習任務時遇到的系統效率問題。在LLM、BERT風格編碼器、循環神經網絡(RNNs)和UNets等領域,他都擁有豐富的經驗。
同樣,他也在自己的Linkedin上標注了自己的業余愛好——游泳,還曾經兼職干過游泳救援隊的活。
而他從本科到研究生一直都就讀于科羅拉多礦業大學。
雖然學校排名不高,但是他依然憑借自己出色的能力成為了OpenAI的研究員,參與了Sora,DALL·E 3等項目。
Will DePue 不得不感嘆,也許只有在OpenAI這樣的地方,00后研究員才能挑起大梁,在如此重要的項目中發揮關鍵作用。 看了他的簡歷,他本科畢業就能加入OpenAI成為研究員,這一成就似乎已經很令人咋舌了。
但是看到他在高中時候就已經自己成立了一個公司,只能感嘆牛人確實不分年齡。
差不多在半年前,他在Youtube上的一個節目中分享了自己如何在如此年輕的年紀就能取得這么多令人矚目的成就。
訪談鏈接://www.youtube.com/watch?v=q0cjcw3af_k大家感興趣的話可以戳上邊的鏈接看看他是怎么描述自己人生的前20年的。 Yufei Guo 這位華人研究者非常神秘,雖然沒有留下履歷,但在OpenAI最近的兩個大項目里,他都有留名。GPT-4技術報告:
DALL·E 3技術報告:
Li Jing Li Jing本科畢業于北京大學,然后在MIT取得了物理學的博士學位。
現在他在OpenAI從事研究工作,研究領域包括多模態學習和生成模型,曾經參與了DALL·E 3的開發。
DALL·E 3技術報告在此之前,他在FAIR與Yann LeCun合作進行了博士后研究。
David Schnurr 這位是AI賽道的老兵了,他2012年加入了后來被Amazon收購的Graphiq,帶領團隊做出了現在Alexa的原型。 2016年跳槽到了Uber,3年之后加入了OpenAI,工作至今。
他也是團隊中不多的本科學歷就能加入OpenAI的大牛。
Joe Taylor Joe Taylor之前的工作經歷涵蓋了 Stripe、Periscope.tv/Twitter、Square以及自己的設計工作室 Joe Taylor Designer。 他在 2004 至 2010 年期間,于舊金山藝術大學(Academy of Art University)完成了新媒體/計算機藝術專業的美術學士(BFA)學位。
從他的學歷和工作背景來看,與其說他是工程師,他似乎更像一名藝術家。他在包括用戶界面設計、網頁設計、藝術指導等多方面擁有很強的專業技能。
在加入Sora團隊之前,他曾經在ChatGPT團隊工作過。 Eric Luhman Eric Luhman是一位對人工智能充滿熱情的研究愛好者,專注于開發高效和領先的人工智能算法。
他的研究興趣主要在生成式建模和計算機視覺領域,尤其是在擴散模型方面。他的多篇論文都是和擴散模型等視覺模型有關的。
Troy Luhman 而這位和Eric Luhman名字很像的研究人員,全網都幾乎沒有他的信息。只有在他自己真名的X賬戶之下,有一條關于和Sam Altman當時離職風波相關的轉發。
Clarence Wing Yin NG 這位作者更加神秘,網上幾乎完全找不到任何相關的信息。 只有在美國專利信息中有一條疑似他之前在Amazon工作時相關的專利記錄。 Ricky Wang 這位華裔工程師,曾經在Meta工作多年。
今年1月加入了OpenAI。
本科畢業于UC伯克利:
Aditya Ramesht 他是OpenAI的一名元老了,曾經領導過DALL·E 2和DALL·E 3。 而這樣一位主導DALL·E 3,如今又領導Sora團隊的大牛,卻也只有本科學歷。Aditya本科就讀于紐約大學,并在LeCun實驗室參與過一些項目。畢業后直接被OpenAI留下。
就是這樣一個由年輕人主導,不問出處只看產出的團隊,讓OpenAI在2024年開年再次震驚了世界!參考資料:
機器之心報道
轉載機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
第一手實測Claude3
地址://claude.ai/
Claude 3 是否真的像官方所宣稱的那樣,性能全面超越了 GPT-4?目前大多數人認為,確實有那么點意思。
以下是部分實測效果:
首先來一個腦筋急轉彎,哪一個月有二十八天?實際正確答案是每個月都有。看來 Claude 3 還不擅長做這種題。
接著我們又測試了一下 Claude 3 比較擅長的領域,從官方介紹可以看出 Claude 擅長「理解和處理圖像」,包括從圖像中提取文本、將 UI 轉換為前端代碼、理解復雜的方程、轉錄手寫筆記等。
對于大模型來說,經常分不清炸雞和泰迪,當我們輸入一張含有泰迪和炸雞的圖片時,Claude 3 給出了這樣的答案「這張圖片是一組拼貼畫,包含狗和炸雞塊或雞塊,它們與狗本身有著驚人的相似之處……」,這一題算過關。
接著問它里面有幾個人,Claude 3 也回答正確,「這幅動畫描繪了七個小卡通人物。」
Claude 3 可以從照片中提取文本,即使是中文、日文的豎行順序也可以正確識別:
如果我用網上的梗圖,它又要如何應對?有關視覺誤差的圖片,GPT-4 和 Claude3 給出了相反的猜測:
哪種是對的呢?
除了理解圖像外,Claude 處理長文本的能力也比較強,此次發布的全系列大模型可提供 200k 上下文窗口,并接受超過 100 萬 token 輸入。
效果如何呢?我們丟給它微軟、國科大新出不久的論文《 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 》,讓它按照 1、2、3 的方式總結文章要點,我們記錄了一下時間,輸出整體答案的時間大概有 15 秒左右。
不過這只是 Claude 3 Sonnet 的輸出效果,假如使用 Claude Pro 版本的話,速度會更快,不過要 20 美元一個月。
值得注意的是,現在 Claude 要求上傳的文章大小不超過 10MB,超過會有提示:
在 Claude 3 的博客中,Anthropic 提出新模型的代碼能力有大幅提升,有人直接拿基礎 ASCII 碼丟給 Claude,結果發現它毫無壓力:
我們應該可以確認,Claude 3 有比 GPT-4 更強的代碼能力。
前段時間,剛剛從 OpenAI 離職的 Karpathy 提出過一個「分詞器」挑戰。具體來說,就是將他錄制的 2 小時 13 分的教程視頻放進 LLM,讓其翻譯為關于分詞器的書籍章節或博客文章的格式。
面對這項任務,Claude 3 接住了,以下是 AnthropicAI 研究工程師 Emmanuel Ameisen 曬出的結果:
或許是不再利益相關,Karpathy 給出了比較充分、客觀的評價:
從風格上看,確實相當不錯!如果仔細觀察,會發現一些微妙的問題 / 幻覺。不管怎么說,這個幾乎現成就能使用的系統還是令人印象深刻的。我很期待能多玩 Claude 3,它看起來是一個強大的模型。
如果說有什么相關的事情我必須說出來的話,那就是人們在進行評估比較時應該格外小心,這不僅是因為評估結果本身比你想象的要糟糕,還因為許多評估結果都以未定義的方式被過擬合了,還因為所做的比較可能是誤導性的。GPT-4 的編碼率(HumanEval)不是 67%。每當我看到這種比較被用來代替編碼性能時,我的眼角就會開始抽搐。
根據以上各種刁鉆的測試結果,有人已經喊出「Anthropic is so back」了。
最后,anthropic 還推出了一個包含多個方向提示內容的 prompt 庫。如果你想要深入了解 Claude 3 的新功能,可以嘗試一下。
鏈接:
Claude 3 系列模型
Claude 3 系列模型的三個版本分別是 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
其中 Claude 3 Opus 是智能程度最高的模型,支持 200k tokens 上下文窗口,在高度復雜的任務上實現了當前 SOTA 的性能。該模型能夠以絕佳的流暢度和人類水平的理解能力來處理開放式 prompt 和未見過的場景。Claude 3 Opus 向我們展示了生成式 AI 可能達到的極限。
Claude 3 Sonnet 在智能程度與運行速度之間實現了理想的平衡,尤其是對于企業工作負載而言。與同類模型相比,它以更低的成本提供了強大的性能,并專為大規模 AI 部署中的高耐用性而設計。Claude 3 Sonnet 支持的上下文窗口為 200k tokens。
Claude 3 Haiku 是速度最快、最緊湊的模型,具有近乎實時的響應能力。有趣的是,它支持的上下文窗口同樣是 200k。該模型能夠以無與倫比的速度回答簡單的查詢和請求,用戶通過它可以構建模仿人類交互的無縫 AI 體驗。
接下來我們詳看一下 Claude 3 系列模型的特性和性能表現。
全面超越 GPT-4,實現智能水平新 SOTA
作為 Claude 3 系列中智能水平最高的模型,Opus 在 AI 系統的大多數評估基準上都優于競品,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA) 、基礎數學(GSM8K)等基準。并且,Opus 在復雜任務上表現出接近人類水平的理解力和流暢度,引領通用智能的前沿。 此外,包括 Opus 在內,所有 Claude 3 系列模型都在分析和預測、細致內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面實現了能力增強。 下圖為 Claude 3 模型與競品模型在多個性能基準上的比較,可以看到,最強的 Opus 全面優于 OpenAI 的 GPT-4。
近乎實時響應
Claude 3 模型可以支持實時客戶聊天、自動補充和數據提取等響應必須立即且實時的任務。 Haiku 是智能類別市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內讀完一篇包含密集圖表和圖形信息的 arXiv 平臺論文(約 10k tokens)。 對于絕大多數工作,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。 強大的視覺能力 Claude 3 具有與其他頭部模型相當的復雜視覺功能。它們可以處理各種視覺格式數據,包括照片、圖表、圖形和技術圖表。 Anthropic 表示,它們的一些客戶 50% 以上的知識庫以各種數據格式進行編程,例如 PDF、流程圖或演示幻燈片。因此,新模型強大的視覺能力非常有幫助。
更少拒絕回復
以前的 Claude 模型經常做出不必要的拒絕,這表明模型缺乏語境理解。Anthropic 在這一領域取得了有意義的進展:與前幾代模型相比,即使用戶 prompt 接近系統底線,Opus、Sonnet 和 Haiku 拒絕回答的可能性明顯降低。如下所示,Claude 3 模型對請求表現出更細致的理解,能夠識別真正的有害 prompt,并且拒絕回答無害 prompt 的頻率要少得多。
準確率提高
為了評估模型的準確率,Anthropic 使用了大量復雜的、事實性問題來解決當前模型中的已知弱點。Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和不確定性回答,也就是模型不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤回答。 除了產生更值得信賴的回復之外,Anthropic 還將在 Claude 3 模型中啟用引用,以便模型可以指向參考材料中的精確句子來證實回答。
長上下文和近乎完美的召回能力
Claude 3 系列型號在發布時最初將提供 200K 上下文窗口。然而,官方表示所有三種模型都能夠接收超過 100 萬 token 的輸入,此能力會被提供給需要增強處理能力的特定用戶。 為了有效地處理長上下文提示,模型需要強大的召回能力。Needle In A Haystack(NIAH)評估衡量模型可以從大量數據中準確回憶信息的能力。Anthropic 通過在每個提示中使用 30 個隨機 Needle/question 對在不同的眾包文檔庫上進行測試,增強了該基準的穩健性。Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率。而且在某些情況下,它甚至識別出了評估本身的局限性,意識到「針」句子似乎是人為插入到原始文本中的。
安全易用
Anthropic 表示,其已建立專門團隊來跟蹤和減少安全風險。該公司也在開發 Constitutional AI 等方法來提高模型的安全性和透明度,并減輕新模式可能引發的隱私問題。 雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指標方面取得了進步,但根據研究,新模型處于 AI 安全級別 2(ASL-2)以內。 在使用體驗上,Claude 3 比以往模型更加擅長遵循復雜的多步驟指令,更加可以遵守品牌和響應準則,從而可以更好地開發可信賴的應用。此外,Anthropic 表示 Claude 3 模型現在更擅長以 JSON 等格式生成流行的結構化輸出,從而可以更輕松地指導 Claude 進行自然語言分類和情感分析等用例。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址: 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。 博客地址: 參考內容:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
如果所有人都覺得你正常,你的理想是大家都能想到的,它對人類的理想總量沒有增量。****
作者 | 張小珺
**
**
出品 | 騰訊新聞《潛望》
**就在一年以前,AI科學家楊植麟在硅谷做了一筆精確的計算。他意識到,如果決定啟動一場以AGI為目標的大模型創業,要在未來幾個月立馬籌措超1億美金資本。
然而,這僅僅只是一張入場券。一年后,這個數字翻了13倍。
大模型公司的競爭,與其說是一場科學競爭,不如說首先是一場殘酷的金錢角力。在資本方捂緊口袋的情況下,你要領先對手找到更多的錢,購買更多的卡,搶奪更多的人才。
“它需要人才聚集、資本聚集。”成立于2023年3月1日的大模型公司月之暗面(Moonshot AI)創始人兼CEO楊植麟說。
過去一年,國產大模型公司似乎處在一種緊迫而逼仄的生存邊緣。看上去,他們每個都手握重金。但一方面,他們要把剛融的錢,立馬投入極高昂的科研中追趕OpenAI——先是追齊GPT-3.5,沒等追上GPT-4,Sora又來了;另一方面,他們要馬不停蹄在落地場景上找可能,自我驗證你是一家公司、而不是只會吞噬資本金的研究所;這還不夠,每個項目不管是上市還是并購,出路更是毫不明朗。
在中國大模型創始人中,楊植麟年紀最輕,于1992年出生。業界評價他是堅定的AGI信徒和有技術號召力的創始人。他的學習與工作履歷很多與通用AI相關,論文引用超22000次。
對于大模型,中國科技界于2023年中從狂熱驟然轉冷,進入加速落地的實用主義主旋律。這不免讓大模型CEO們處于理想與現實的劇烈拉扯之間。在人人喊PMF(Product/Market Fit,產品/市場契合)、人人喊商業化的中國AI生態里,這位AI研究員出身的創始人倒不那么著急。******
**月之暗面是頭部國產大模型公司中,人數最少的一家,為80人。他沒有像他的對手那樣,做更穩妥的to B生意,或是在醫療、游戲等細分場景中找落地,而是做且只做了一款to C產品——智能助手Kimi,支持20萬漢字輸入。Kimi也是楊植麟的英文名。
楊植麟傾向于將他的公司看作是,構建一個結合科學、工程和商業的系統。你可以想象成,他要在人類世界上空,架起一張AI實驗臺,一手做實驗,一手將尖端技術落進真實世界,通過與人類互動找到應用機會,再將應用送入消費者手中。理想狀況是,前者燒掉數以十億、百億計資本;后者再把這些錢數成百上千倍地掙回來——怎么聽,都像“走鋼絲”一樣驚險。
“AI不是我在接下來一兩年找到什么PMF,而是接下來十到二十年如何改變世界。”他說。 這種抽象和理想主義的思考,令人不免替他捏一把冷汗:一位年輕的AI科學家,在現實主義的中國能否找到生存空間?
2024年2月,月之暗面逆勢完成一筆大額融資。據了解,它以15億美金投前估值完成超10億美元B輪,阿里領投,礪思資本、小紅書等跟投,該筆交易完成后,月之暗面投后估值約25億美元——由此,它成為中國大模型賽場上現階段估值最高的一家獨角獸。(他們拒絕回應和評論此事。)
就在第三筆融資的過程中,我們和楊植麟聊了聊他過去一年創業故事,這也是國產大模型搶跑一年的截面縮影。
他的公司沒有選址在大模型企業聚集地,北京搜狐網絡大廈。對于一家融資總額約90億元人民幣的公司,這間位于量子芯座的辦公室,顯得簡陋又破舊。門口連公司logo都沒有,只有一架白色鋼琴守在門口。 會議室在一個角落,由于窗戶小黑漆漆的,冬天送來暖風的空調機器嗡嗡作響。暗沉的光亮中,楊植麟形容自己過去一年的感知:“有點像開車在路上,前面有延綿的雪山,但你不知道里面是什么,你在一步一步往前走。”******
**以下是對楊植麟的訪談全文。(為方便閱讀,作者做了一些文本優化)
楊植麟與導師Ruslan Salakhutdinov(右)、William Cohen(左)合影
站在開端
“要ride the wave”
騰訊新聞《潛望》:最近你的狀態怎么樣?******
楊植麟:**忙啊,事情很多。但還是很興奮。站在產業開端,有巨大想象空間。 **騰訊新聞《潛望》:我剛進來****看到你們公司門口放了一架純白色鋼琴。********
楊植麟:上面還有一張Pink Floyd專輯。我都不知道誰放的,前兩天突然看到,沒來得及問。(Pink Floyd是發布專輯《月之暗面》的英國搖滾樂隊) 騰訊新聞《潛望》:2022年11月,ChatGPT發布那天,你在做什么?
****楊植麟:**我正在籌備這個事,找人組團隊,碰撞一些新認知。看到ChatGPT很激動。放到三五年前,甚至2021年,都是不可思議的。這種高階推理能力過去很難做到。 我預感市場會發生很多變量:一方面是資本,一方面是人才,這是做AI的核心生產要素。如果變量成立,我們就有可能正兒八經搞一家公司做這件事——一個為AGI搭建的組織從0到1存在可能性,這是很大的頓悟。獨立公司更make sense,但不是你想做馬上就能做,ChatGPT刺激了變量,使生產要素齊全。還是要ride the wave。
騰訊新聞《潛望》:你在決定創立一家AGI公司后,做了哪些準備?怎么湊齊資本和人才這兩個生產要素?****
**
**
**楊植麟:**是曲折的過程。ChatGPT擴散需要時間。有的人知道得早,有的人知道得晚,有的人一開始懷疑、后面變成震驚、再變成相信。找人找錢,跟timing結合得很緊。
我們2023年2月開始集中做第一輪融資。如果delay(延遲)到4月,基本沒機會了。但如果2022年12月或2023年1月做也沒機會,當時有疫情,大家沒反應過來——所以,真正窗口就是一個月。
當時,在美國有一個晚上,我做了精確的計算。算完覺得至少要在幾個月內拿到1億美元。市場上很多人沒開始融資,很多人覺得你這個不一定能融這么多錢。但后來證明是可以的,甚至比這個更多。
人才市場開始流動。受ChatGPT啟發,很多人在2023年3月或4月有這樣的realization(意識):這是接下來十年唯一值得做的。要在正確時間積極觸達對的人。如果是前兩年,人才聚集度不會這么高。那時更多人做傳統AI,或者跟AI相關的業務,都不是通用AI。 騰訊新聞《潛望》:總結一下,2月是融資的窗口期,3月、4月是招人的窗口期?******
楊植麟:差不多。 騰訊新聞《潛望》:你在美國那一晚是在哪算了這筆賬?具體怎么算的?
楊植麟:**22年底到23年初,我在美國待了一兩個月,找人聊。 在我住的地方。算一下你對應多少FLOPs(Floating Point Operations,每秒浮點運算次數)、Training Cost(訓練成本)、Inference(推理)、用戶量。 **騰訊新聞《潛望》:彼時彼刻,硅谷沉浸在****什么樣的情緒中?********
楊植麟:**這個產品開始有很多early adopters(早期用戶),集中在技術圈,我們本身在這個圈子,感受更深刻。硅谷大廠每半年要寫performance review(績效評估),開始很多人用ChatGPT寫。有的人平時寫的語言不大professional(專業),用ChatGPT寫,大家都一本正經的樣子。 暗流涌動。很多人考慮下一份工作去哪或者創業。很多和我們聊的朋友后來紛紛創業。而且,有很強FOMO情緒(Fear of Missing Out,害怕錯過)。所有人每天睡不著覺。不管晚上12點、1點、2點,你去找,always大家都在。有點焦慮,有點FOMO,又很興奮。 **騰訊新聞《潛望》:算出要融1億****美金那晚,你算到了幾點?********
****楊植麟:**還好吧,計算過程倒不用很久。 但算完我也不能跟太多人說。說了也沒有人覺得這事可以做。
技術師承**“把自己從無限雕花中解放出來”**
騰訊新聞《潛望》:創投行業提到你會說,“創始人很聰明,有技術號召力,團隊里也有很多技術明星”。所以,聊大模型創業之前,想先聊聊你的學術背景。******
你本科是清華計算機系,博士是卡耐基梅隆計算機學院,方向一直是AI嗎?
楊植麟:我是92年出生,11級本科,大二到現在十多年一直在這個方向。一開始偏發散的探索,到處看看,跟圖或多模態都做過一些,2017年收斂到語言模型——當時覺得語言模型是比較重要的問題,后來覺得它是唯一重要的問題。 騰訊新聞《潛望》:2017年AI業界對語言模型普遍是怎樣的認知,后來如何演進?
楊植麟:它(當時)是用來給語音識別做排序的模型。(笑)當你識別完一段語音,有很多結果,拿語言模型看到底哪個概率更大,輸出最有可能的結果,應用非常有限。 但你發現它是根本問題,因為你在對這個世界概率建模。雖然語言局限,它是世界的投映;但理論上你把token space(所有可能的標記組成的空間)做得更大,就可以構建一個通用世界模型。世界上每樣東西怎么產生、發展,都能給它分配一個概率。所有問題都可以被歸結成怎么對概率估計。 騰訊新聞《潛望》:你學術生涯的導師很有名,博士導師是蘋果公司AI負責人Ruslan Salakhutdinov和Google AI智能首席科學家William W. Cohen。他們都既在產業界,又在學界。
楊植麟:產業界和學術界從前幾年有更多結合,現在趨勢在變化:更多有價值的突破會產生在工業界,這是發展的必然規律。先從探索性研究開始,逐漸轉移到更成熟的工業化過程,但不意味著工業化過程中不需要研究,只是純研究會很難做出有價值的突破。 騰訊新聞《潛望》:從這幾位頗有名望的導師身上學到了什么?
楊植麟:我學習到最多是在Google,實習了很長時間。2018年底開始做基于Transformer的語言模型,最大learning是從無限雕花中把自己釋放出來,這很關鍵。 應該看什么是大方向、大梯度。當你眼前有十條路,一般人考慮我走這條路前面有一個行人怎么剎車,是短期細節,但這十條路到底選哪一條最重要。 這個領域在之前有這樣的問題。比如,在只有一兩百萬token(標記)的數據集上,看perplexity(困惑度,衡量模型在預測序列時的不確定性或混亂度)怎么降得更低,loss(損失,模型在訓練過程中的誤差或損失函數的值)怎么降得更低,怎么提升準確率,你會陷入無限雕花。有人發明很多詭異的architecture(架構),這些是雕花技巧。雕花之后可能在這種數據集上變好,但沒看到問題本質。 本質在于,要去分析這個領域缺少的是什么?第一性原理是什么? Scaling law為什么能成為第一性原理?你只要能找到一個結構,滿足兩個條件:一是足夠通用,二是可規模化。通用是你把所有問題放到這個框架建模,可規模化是只要你投入足夠多算力,它就能變好。 這是我在Google學到的思維:如果能被更底層的東西解釋,就不應該在上層過度雕花。有一句重要的話我很認同:如果你能用scale解決的問題,就不要用新的算法解決。新算法最大價值是讓它怎么更好的scale。當你把自己從雕花的事中釋放出來,可以看到更多。 騰訊新聞《潛望》:Google那時也是scaling law的追隨者嗎?它是怎么貫徹第一性原理的?
楊植麟:**已經有很多這樣的思想,但Google沒有貫徹得非常好。它有這樣的思維,但它沒辦法組織起來,變成一個真正的moonshot(登月計劃)。更多是,這有5個人追求我的第一性原理,那有5個人追求他們的第一性原理。沒有top-down(自上而下)的東西。 **騰訊新聞《潛望》:你讀博期間,先后和圖靈獎得主Yann LeCun(楊立昆)****、Yoshua Bengio合作發表論文,而且你都是一作。學術上這些合作是怎么產生的?——我的意思是,他們是圖靈獎得主,又不是你的導師,你靠什么吸引他們?********
楊植麟:學術界很open。只要你有好的想法、有意義的問題,這個都還好。兩個腦子或n個腦子做出來的,比一個腦子多。這在開發AGI的時候也可以用。AI一個重要策略叫“ensemble”(使用集成方法,用多個不同的模型或方法,將它們的預測或結果結合起來,獲得更優性能),本質在做一樣的事情,當你有diverse的觀點你可以碰撞出很多新東西。合作有很大受益。 騰訊新聞《潛望》:你是先有一個idea,拿去問他們是否感興趣嗎?
楊植麟:差不多是這個過程。 騰訊新聞《潛望》:在學術上搞定學術大佬和在融資中搞定資本大佬哪個更難?相似點是什么?
楊植麟:**“搞定”不是一個好的詞,背后本質是合作。合作就是能雙贏,因為雙贏是合作的前提。所以也沒什么區別,需要給別人提供獨特價值。 騰訊新聞《潛望》:怎么讓他們信任?你覺得你的天賦是什么?******
****楊植麟:**也沒有什么天賦,就是努力干活。
舊系統不適用了
“AGI需要新的組織方式”
騰訊新聞《潛望》:你剛說“更多有價值的突破會發生在工業界”,包括創業公司、巨頭的AI lab?******
楊植麟:Lab是歷史了。以前Google Brain是產業界最大AI lab,但它是把研究型組織安插在大公司。這種組織能探索新想法,很難產生偉大系統——能產生Transformer,但產生不了ChatGPT。 現在的開發方式會演變成,你是要做一個巨大的系統,需要新的算法,扎實的工程,甚至很多產品和商業化。好比21世紀初,你不可能在實驗室研究信息檢索,要放在現實世界,有一個巨大的系統,有一個有用戶的產品,像Google。所以,科研或教育系統會轉變職能,變成培養人才為主。 騰訊新聞《潛望》:你會怎么形容這個新的系統形式?OpenAI是它的雛形?
楊植麟:它是現在最成熟的組織了,還在逐漸演化。 騰訊新聞《潛望》:可以理解,這是為人類宏偉的科學目標而設立的組織?
楊植麟:我想強調,它不是純科學,它是科學、工程和商業的結合。它得是一個商業化組織,是公司、不是研究院。但這個公司是從零到一建造的,因為AGI需要新的組織方式——一,生產方式跟互聯網不一樣;二,它會從純研究變成研究、工程、產品、商業相結合。 核心是,它應該是一個登月計劃,有很多自頂向下的規劃,但規劃中又有創新空間,并不是所有技術都確定。在一個top-down(自上而下)框架下有bottom-up(自下而上)的元素。本來不存在這樣的組織,但組織要適配技術,因為技術決定了生產方式,不匹配就沒法有效產出。我們相信大概率要重新設計。 騰訊新聞《潛望》:去年OpenAI政變時,Sam Altman有一種選擇是加入微軟,領導新的微軟人工智能團隊。這和他在OpenAI做CEO的本質差別是什么?
楊植麟:你需要在舊文化里產生新組織,難度很大。 騰訊新聞《潛望》:你想做“中國的OpenAI”,可以這么說?
****楊植麟:**不大準確,我們不想做中國的什么東西,也不一定想做OpenAI。 首先,真正AGI肯定是全球化的,不存在由于市場保護機制導致你只能做某個regional market(區域市場)的AGI公司,長期不存在——全球化、AGI和你有一個很大用戶量的產品,這三個東西最終是必要條件。 第二,是不是OpenAI?你去看2017年-2018年,OpenAI風評很差,我們圈子的人找工作,一般考慮像Google。很多人跟Ilya Sutskever(OpenAI首席科學家)聊完,覺得這個人瘋了,太自以為是了——OpenAI不是瘋子就是騙子。但他們從很早開始投入,找到非共識,找到AI現在唯一work的第一性原理:通過next token prediction去scale(通過對下一個標記的預測來進行規模化)。 我認為,會有比OpenAI更偉大的公司存在。一個真正偉大的公司能結合技術理想主義,并讓它用一個偉大的產品跟用戶共創,AGI最終會是一個跟所有用戶co-work(協作)產生的東西。所以,不光是技術,也需要功利主義和現實追求。最終在這兩者之間完美結合。 不過我們應該學習OpenAI的技術理想主義。如果所有人都覺得你正常,你的理想是大家都能想到的,它對人類的理想總量沒有增量。
登月的第一步是長文本,第二步呢?
“接下來會有兩個milestone”
騰訊新聞《潛望》:話題回到你決定創業的時刻,你回國后立馬啟動了第一輪融資?**
楊植麟:**(去年)2月在美國就開始了,也有遠程的。最后以國內投資人為主。 **騰訊新聞《潛望》:第一輪融了1****億美金?********
楊植麟:第一輪還沒有,后來超過這個數。2023年完成兩輪,總共近20億人民幣。 現在是第三輪。融資我們沒有正式announce,現在沒辦法comment。 騰訊新聞《潛望》:有人說,2023年下半年開始,已經沒有人愿意投基礎大模型公司了,他們說的是錯誤的?
楊植麟:還是有。確實能看到情緒變化,不是說沒人投,至少目前市場上投資意向是蠻多的。 騰訊新聞《潛望》:除了資本和人,你在2023年還做了哪些關鍵決策?
楊植麟:要做什么事。這是我們這類公司的優勢——在最高層面的決策有技術vision(愿景)。 我們做long context(長上下文),需要對未來有判斷,你要知道什么是根本的、接下來的方向。還是第一性原理,“去雕花的過程”。如果你專注雕花,只能看OpenAI已經做了什么,我看怎么把它已經做的做出來。 你會發現在Kimi(AI智能助手)里做長文本無損壓縮,產品體驗獨特。讀英語文獻,它能很好幫你理解。你今天用Claude或GPT-4,不一定做得好,需要提前布局。我們做了半年多。相比我今天看到一個long context風口,趕緊召集兩個團隊,用最快速度開發,有很大區別。 當然馬拉松剛開始,接下來會有更多差異化,這需要你提前預判到底什么是“成立的非共識”。 騰訊新聞《潛望》:做這件事是在幾月份決定的?
楊植麟:二三月,公司成立就決定了。 騰訊新聞《潛望》:為什么長文本是登月第一步?
****楊植麟:**它很本質。它是新的計算機內存。 老的計算機內存,在過去幾十年漲了好幾個數量級,一樣的事會發生在新的計算機上。它能解決很多現在的問題。比如,現在多模態架構還需要tokenizer(標記器),但當你有一個無損壓縮的long context就不需要了,可以把原始的放進去。進一步講,它是把新計算范式變成更通用的基礎。 舊的計算機可以0、1表示所有,所有東西可被數字化。但今天新計算機還不行,context不夠多,沒那么通用。要變成通用的世界模型,是需要long context的。 第二,能夠做到個性化。AI最核心的價值是個性化互動,價值落腳點還是個性化,AGI會比上一代推薦引擎更加個性化。 但個性化過程不是通過微調實現,而是它能支持很長的context(上下文)。你跟機器所有的歷史都是context,這個context定義了個性化過程,而且無法被復刻,它會是更直接的對話,對話產生信息。
騰訊新聞《潛望》:接下來它有多大可擴展的空間?****
**
**
**楊植麟:**非常大。一方面是本身窗口的提升,有很長路要走,會有幾個數量級。
另一方面是,你不能只提升窗口,不能只看數字,今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個窗口下能實現的推理能力、the faithfulness的能力(對原始信息的忠實度)、the instruction following的能力(遵循指令的能力)——不應該只追求單一指標,而是結合指標和能力。
如果這兩個維度持續提升,能做非常多事。可能可以follow(執行)一個幾萬字的instruction(指令),instruction本身會定義很多agent(智能體),高度個性化。
騰訊新聞《潛望》:做長文本和追趕GPT-4技術是可復用的嗎?他們是一件事嗎?******
楊植麟:我覺得不是。更多是升維,是一個新維度,是GPT-4沒有的維度。 騰訊新聞《潛望》:很多人說國內這幾家大模型公司做的事都差不多——2023年追趕GPT-3.5,2024年追趕GPT-4。你認可這種說法嗎?
楊植麟:綜合能力提升肯定有關鍵目標,這個說法一定程度上是對的,你是后發肯定有追趕過程。但同時它是片面的。除了綜合能力,在很多空間可以產生獨特的能力,能在一些方向做到state of the art(世界領先)。Long context是一個。DALL-E3圖片生成效果完敗于Midjourney V6。所以要做兩方面。 騰訊新聞《潛望》:綜合能力和新維度分別耗費的時間及生產資源,占多大比例?
楊植麟:需要結合,新維度不可能脫離綜合能力存在,很難直接給出一個比例。但需要足夠投入才能把新維度做好。 騰訊新聞《潛望》:這些新維度對于你們,都會承載在Kimi上?
楊植麟:**這肯定是我們很重要的產品,也會有一些別的嘗試。 **騰訊新聞《潛望》:怎么看李廣密(拾象創始人)說,中國大模型公司今天的技術辨識度還不算****太高?********
楊植麟:我覺得還好啊,我們今天只是做出了很多差異化。這跟時間有關系,今年應該能看到更多維度。去年大家是先搭個架子,先跑起來。 騰訊新聞《潛望》:登月的第一步是長文本,第二步是什么?
****楊植麟:**接下來會有兩個大的milestone(里程碑)。一是真正的統一的世界模型,就是它能統一各種不同模態,一個真正的scalable和general的architecture(可擴展、通用的系統結構)。 二是能在沒有人類數據輸入的情況下,使AI持續進化。
騰訊新聞《潛望》:這兩個milestone****需要多久達到?******
楊植麟:兩到三年,有可能更快。 騰訊新聞《潛望》:所以三年后我們已經看到的是和今天完全不一樣的世界了。
楊植麟:**按照今天的發展速度是這樣。現在技術是萌芽,快速發展的階段。 **騰訊新聞《潛望》:能不能暢想一****下三年后會出現什么?********
****楊植麟:會有一定程度的AGI。我們今天在做的很多事AI也能做,甚至它做得更好。但關鍵看我們怎么用它。 騰訊新聞《潛望》:對于你、對于月之暗面這家公司來說呢?接下來第二步是什么?
楊植麟:我們會去做這兩件事。剩下很多問題,都是這兩個因素推導出來的。今天談到reasoning(推理)、agent(智能體),都是這兩個問題解決后的產物。要再做一些雕花,但沒有fundamental的blocker(根本性阻礙因素)。 騰訊新聞《潛望》:你會all in追趕GPT-4嗎?
楊植麟:(GPT-4)是AGI的必經之路。核心是,不能只滿足做到GPT-4的效果。一是要想現在真正的非共識是什么,除了GPT-4,下一步是什么?GPT-5和GPT-6應該是什么樣?二是看,你在這里面有哪些獨特能力,這點更重要。 騰訊新聞《潛望》:其他大模型公司會公布自己的模型能力和排名,你們好像沒做這件事?
楊植麟:刷榜意義很小了。最好的榜就是用戶,應該讓用戶投票。很多榜存在問題。 騰訊新聞《潛望》:在中國大模型公司的競賽中最快達到GPT-4,是你的目標嗎?快與慢有區別嗎?
楊植麟:肯定有,如果把時間放到足夠長周期,最終所有人都能達到。但要看你早晚是多長周期。半年或以上的周期是有意義的,也取決于你能用這個周期做什么事。 騰訊新聞《潛望》:你們預計會在什么時間達到GPT-4?
楊植麟:應該會很快,具體時間還沒辦法對外說。 騰訊新聞《潛望》:你們會是最快的嗎?
楊植麟:這要動態去看,但我們有概率。 騰訊新聞《潛望》:推出Kimi之后,你的北極星指標是什么?
****楊植麟:**今天是把產品做得更好,有更多升維(即新的維度)。舉個例子,不應該只去卷一個搜索場景,搜索在后面只是這個產品有價值的很小一部分,這個產品應該有更大增量。比傳統搜索引擎好個10%、20%,沒什么太大價值——只有一個顛覆性的東西,才配得上AGI這三個字。 獨特價值是你增量的智能。要抓住這個點,智能永遠是最核心的增量價值。如果你這個產品最核心價值只有10%-20%來自于AI,就不成立。
我一點也不焦慮落地
“user scaling和model scaling****需要同時做”
騰訊新聞《潛望》:2023年中是一個巨大分水嶺,市場從狂熱迅速轉冷。你的感知是怎樣的?******
楊植麟:這個判斷我不完全認同,我們確實在下半年完成了一輪融資。而且,持續有新東西出來。今天的模型能力在去年底無法想象。越來越多AI公司的用戶量和revenue(收入)一直在上升。它持續地證明了價值。 騰訊新聞《潛望》:上半年和下半年對于你來說,不同感受是?
楊植麟:沒有太大變化,變量肯定存在,但回到第一性原理——怎么給用戶提供好產品。最終,我們要滿足用戶需求,而不是贏得一場比賽。我們不是為了競爭而建立的公司。 騰訊新聞《潛望》:業界認為,2023年上半年和下半年一個顯著區別是,關注重心變了。上半年提AGI更多,下半年開始講怎么落地、怎么商業化。你有沒有這么做?
楊植麟:我肯定要做AGI嘛,這是接下來十年唯一有意義的事。但不是說我們不做應用。或者,不應該把它定義成一個“應用”。 “應用”聽起來好像你有一個技術,你想把它用在什么地方,有商業化閉環。但“應用”不是準確的詞。它跟AGI是相輔相成的。它本身是實現AGI的手段,也是實現AGI的目的。“應用”聽起來更像目的:我為了讓它有用。你是要combine東西方的哲學,要賺錢,也要有理想。 今天用戶幫我們發現了很多從沒考慮過的場景。他拿這個篩選簡歷,這是我們設計產品時沒想過的,但它天然work。用戶的輸入反過來讓模型變得更好。Midjourney為什么效果好?它在用戶端做了scaling——user scaling和model scaling需要同時做。反過來,你如果只關注應用,不關注模型能力迭代,不關注AGI,貢獻也有限。 騰訊新聞《潛望》:朱嘯虎(金沙江創投主管合伙人)就只投大模型的應用。他有一個觀點:核心最難的是AIGC的PMF——你十個人找不到PMF,你投一百個人也找不到,和人數、和成本沒關系,不要砸錢。他說“用LLaMA訓練兩三個月,至少能做到人類top 30的水平,立馬可以取代人”。你怎么看他的觀點?********
楊植麟:AI不是我在接下來一兩年找到什么PMF,而是接下來十到二十年如何改變世界——這是兩種不同思維。 我們是堅定的長期主義者。當你實現AGI或更強智能,今天的一切會被改寫。PMF固然重要,但如果著急找PMF,你很可能又被降維打擊。降維打擊發生過太多次。以前很多人做客服、對話系統,做slot filling(槽填充),有些規模不錯的公司。但是,全是降維打擊了,很難受。 它不是說不成立。假設你今天找到一個場景,用現在的技術能力,且從0到1增量價值巨大,從1到n空間又沒那么大,這種場景OK。Midjourney就是,或者做文案生成,相對簡單一點的任務,從0到1效果又很明顯。這種是只關注應用的機會。但是,最大機會不在這。你的目的假設是商業化,你不可能脫離AGI去思考。我現在只做應用,那好,可能過一年你就被碾壓了。 騰訊新聞《潛望》:可以偷偷把底層模型升級啊。
楊植麟:**但這個不可能做得比它更大。技術是這個時代唯一新變量,其他變量沒變。回到第一性原理,AGI是所有事情的核心。基于這個,我們推導出來:超級應用肯定需要有最強的技術能力。 **騰訊新聞《潛望》:可以用開源的模型嗎?(最新消息是Google宣布開源模型Gemma)********
楊植麟:**開源落后于閉源,這也是個事實。 **騰訊新聞《潛望》:會不會只是****暫時落后?********
楊植麟:目前看起來不是。 騰訊新聞《潛望》:為什么開源追不上閉源?
楊植麟:**因為開源的開發方式跟以前不一樣了,以前是所有人都可以contribute(貢獻)到開源,現在開源本身還是中心化的。開源的貢獻可能很多都沒有經過算力驗證。閉源會有人才聚集和資本聚集,最后一定是閉源更好,是一個consolidation(對市場的整合)。 如果我今天有一個領先的模型,開源出來,大概率不合理。反而是落后者可能會這么做,或者開源小模型,攪局嘛,反正不開源也沒價值。 **騰訊新聞《潛望》:你怎么對抗國內的焦慮情緒?他們會說,大模型公司如果沒有快速****做出能兌現投資人預期的落地場景和產品,難以融到下一筆錢。********
****楊植麟:**需要有長期和短期的平衡。完全沒有用戶、沒有收入,肯定不行。 可以看到,從GPT-3.5到GPT-4,解鎖了很多應用;從GPT-4到GPT-4.5再到GPT-5,大概率會持續解鎖更多,甚至是指數型的應用。所謂“場景摩爾定律”,就是你能用的場景數量會隨著時間指數級上升。我們需要邊提升模型能力,邊找更多場景,需要這樣的平衡。 它是個螺旋。看你投入多少分配在短期,多少分配在長期。要在你能活下去的情況下,追求長期。長期一定不能沒有,否則你會錯過整個時代。今天下結論,確實太早了。 **騰訊新聞《潛望》:你認可王慧文(美團聯合創始人、光年之外創始人)提出的“雙輪驅動”嗎?
楊植麟:**這是個好問題。一定程度上是這個邏輯。但你真正怎么去做,有很大區別。是不是能真的做一些“有概率的非共識”? **騰訊新聞《潛望》:我理解他們說的雙輪驅動,也需要****快速找到那個新的應用場景,否則不知道技術何以落地。********
楊植麟:還是model scaling(模型擴展)和user scaling(用戶擴展)之間的區別。 騰訊新聞《潛望》:國內除了你是model scaling的思維,還有誰是?
楊植麟:這個我就不好評價了。 騰訊新聞《潛望》:大多數人可能是user scaling的思維。或者能不能這么說,這是學院派和商業落地派的區別?
楊植麟:我們不是學院派,學院派絕對不work。 騰訊新聞《潛望》:很多大模型公司會通過to B落地(畢竟to B的確定性高),你們做嗎?
**楊植麟:我們不做。我們從第一天就決定做to C。
看你要什么東西。如果你知道這不是你想要的,你就不會FOMO。因為得到了,也沒啥。 騰訊新聞《潛望》:你焦慮嗎?過去一年。******
楊植麟:更多是興奮、激動。因為這件事我想了非常久。我們可能是我們最早想去探索月之暗面的人。你今天發現你真的在造一架火箭,每天在討論往火箭里加什么燃料跑得更快,怎么樣不讓它炸了。 騰訊新聞《潛望》:總結一下你所做過的“有概率的非共識”決定,除了to C、長文本,還有嗎?
楊植麟:更多在過程中,希望盡快跟大家見面。 騰訊新聞《潛望》:中國上一代創業者在應用和場景上吃到甜頭,所以他們更看產品、用戶、數據飛輪。以你為代表的新一代AI創業者,能代表新的未來嗎?
楊植麟:我們也很關注用戶,用戶是我們最終的目標,但也是共創的過程。最大區別是,這次會更加技術驅動——還是那個馬車和汽車的問題——現在屬于從馬車到汽車的跳躍過程,應該盡可能想怎么給用戶提供一輛汽車。 騰訊新聞《潛望》:你會覺得孤獨嗎?
****楊植麟:**哈哈哈……你這個問題很有意思。我覺得還好,因為我們還有大幾十、100號人一起在戰斗。
GPT-4還沒趕上,Sora又來了**“現在就有點像視頻生成的GPT-3.5,**是階躍式提升”
騰訊新聞《潛望》:今年Sora的突然出現,多少在你的意料之中,多少在你的意料之外**?****
楊植麟:**Generative AI(生成式AI)做到這個效果,在意料之內,意外的是時間——比之前預估更早。這也反映了現在AI的發展很快,很多scaling的紅利沒有被完全吃下來。 **騰訊新聞《潛望》:去年業界就判斷,2024年大模型一定會卷多模態敘事,視頻的生成效果會像2023年文生圖一樣迅速提升。Sora的技術能力是超出、符合還是低于你的預期?****
****楊植麟:解決了很多之前比較難的問題。比如,能在一個比較長的時間窗口內保持生成的一致性,這是關鍵點,是一個巨大的提升。 騰訊新聞《潛望》:它對于全球產業格局來說意義是什么?2024年大模型會有哪些新敘事?
楊植麟:**一是短期的應用價值,可以在生產環節進一步提升效率,當然更期待在目前能力基礎上,有更多延展。二是和其他模態結合。它本身是對世界建模,有了這個知識,對現有文本是非常好的補充。在這個基礎上,不管在agent還是和物理世界的連接方面,有蠻多空間和機會。 **騰訊新聞《潛望》:你們總體怎么判斷Sora****?********
楊植麟:**我們本來也在籌劃類似方向,做了一段時間。方向上,倒沒有太大意外,更多是技術細節。 **騰訊新聞《潛望》:應該學習的技術細節是?********
楊植麟:**很多OpenAI也沒完全講清楚。它講了大致的,會有一些關鍵細節。這要從它的效果或已有信息再去判斷,也結合我們之前的實驗。至少對我們來說,在開發過程中會加上更多數據點,有更多數據輸入。 **騰訊新聞《潛望》:之前視頻生成相對文字生成來說,主要瓶頸有哪?這次可以看到OpenAI找到了哪些解決辦法****?********
楊植麟:**主要瓶頸,核心還是數據,你怎么去規模化地擬合這個數據?之前沒被驗證過。特別是,當你的動作比較復雜,生成的效果photo realistic(照片逼真)。在這樣的條件下,能夠去規模化,它這次解決了這些。 剩下的是它也沒有完全解決,比如需要一個統一的architecture(架構)。DiT這個architecture仍然不是非常通用。在單純對視覺信號的marginal probability(邊際概率)去建模,它可以做得非常好,但怎么泛化成一個通用的新計算機?還是需要更unified architecture(統一的架構),這個東西還是有空間。 **騰訊新聞《潛望》:你讀了OpenAI出的Sora報告沒有?——《Video generation models as world simulators》,里****面有什么關鍵點值得劃重點?********
楊植麟:**讀了。考慮到當前的競爭情況,最重點它肯定都不會寫出來。但還是值得學習,這個東西本來是付費內容,你可能要花錢做很多實驗才知道,但現在你知道的有一些東西,不用花錢做實驗,就大概有一個認知吧。 **騰訊新聞《潛望》:你從里面提取到的關鍵****信號是?********
楊植麟:**這個東西一定程度上是scalable的。此外,它也給出了比較具體的architecture到底怎么做。但也有可能不同architecture在這個事情上不一定有那么本質的區別。 **騰訊新聞《潛望》:你認可它那句話嗎?——“擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑。”********
楊植麟:我非常認同,這兩個東西優化的是同一個目標函數,沒有太大疑問。 騰訊新聞《潛望》:你怎么看楊立昆又跳出來反對生成式AI?他的觀點是:“通過生成像素對世界進行建模是一種浪費,并且注定會失敗。生成恰好適用文本,因為文本是離散的具有有限數量的符號。這種情況下,處理預測中的不確定性很容易,處理高緯連續感官輸入中的預測不確定性是非常棘手的。”****
楊植麟:**我現在覺得,你通過對視頻的邊際概率去建模,本質是在做無損壓縮,跟語言模型next token predictions沒有本質區別。只要你壓縮得足夠好,就可以把這個世界可以被解釋的東西去進行解釋。 但同時也有重要的還沒做的事:它怎么跟已有的已經被壓縮的能力結合起來? 可以理解成有兩種不同壓縮。一種是壓縮原始世界,這是視頻模型在做的。另一種是壓縮人類產生的行為,因為人類產生的行為經過了人的大腦,這是世界上唯一能產生智能的東西。你可以認為視頻模型在做第一種,文本模型在做第二種,當然視頻模型也一定程度包含了第二種,一些人創造出來的視頻包含了創作者的智能。 它最終可能會是mix,需要通過這兩種方式從不同角度學習,但最終對智能的增長都有幫助。 所以,生成可能不是目的,它只是壓縮這個函數。如果你壓縮足夠好,最后生成的效果就會很好。反過來,如果你這個模型本身沒辦法生成,是不是也存在可能把它壓縮得非常好?這點存疑。有可能生成非常好,是壓縮非常好的一個必要條件。 **騰訊新聞《潛望》:Sora相對于去年的ChatGPT來說,是兩個不一樣的milestone,哪個更重大?****
楊植麟:**都很重要。現在就有點像(視頻生成的)GPT-3.5,是階躍式提升。它的模型也還比較小,可預見的是會有更大的模型,是確定性的效果提升。 **騰訊新聞《潛望》:也有人評價說,對于做多模態,Google Gemini突破更重要一些。********
楊植麟:**Gemini是follow GPT-4V的路線,把這個理解也放進去了。都很重要,只是最終需要把這些東西放在同一個模型,這還沒解決。 **騰訊新聞《潛望》:為什么放在同一個模型那么****難?********
****楊植麟:大家還不知道怎么做,還不存在一個被驗證過的architecture。 騰訊新聞《潛望》:Sora + GPT會產生什么?
楊植麟:Sora馬上可以用到視頻生產過程中,但如果跟語言模型結合,就有可能打通數字世界和物理世界。另外,你也可以去更加端到端完成任務,因為現在你對這個世界的建模比之前更好,它甚至能用來提升你對多模態輸入的理解能力。所以你最后能在不同模態之間做比較多切換。 總結下來,你對世界的理解更好了,你可以在數字世界里做更加端到端的任務,甚至去架起一座橋梁,連接物理世界,完成一些物理世界里的任務。這是起點。比方說,自動駕駛,或者一些家務,理論上都是打通物理世界的一個概念。 所以數字世界的突破是確定的了,但它也還是潛在有通往物理的可能。 騰訊新聞《潛望》:Sora對國產大模型公司意味著什么?有什么應對策略?
****楊植麟:**沒什么區別,這本來就是確定性方向。 **騰訊新聞《潛望》:****國產大模型GPT-4還沒趕上,Sora又來了,你怎么看?兩個世界好像差得越來越遠,你感覺焦慮嗎?
楊植麟:**這就是客觀的事實嘛。但實際上的差距可能還在縮小,這是技術發展的規律。 **騰訊新聞《潛望》:什么意思?就是說,一開始技術曲線很****陡峭,接著慢慢放緩。********
楊植麟:是的。我倒沒有很意外,OpenAI一直在做下一代模型。但客觀上差距會持續存在一段時間,甚至在國內不同公司之間的差距也會持續一段時間,現在是技術爆發期。 但再過兩三年,有可能中國頂尖的公司可以在這里面去做好更多基礎性工作,包括技術的基建、人才的儲備和組織文化的沉淀,有這些打磨后,更有可能在某一些方面有領先可能性——但需要一定的耐心。 騰訊新聞《潛望》:中美最終有沒有可能形成的是完全不一樣的AI科技生態?
楊植麟:生態有可能不一樣,如果你是從產品和商業化角度。但從技術角度,通用能力不會是完全不同的技術路線,基礎通用能力肯定會差不多。但因為AGI空間很大,在通用能力基礎上去有差異化,這個更可能發生。 騰訊新聞《潛望》:硅谷一直有一個爭論:one model rules all還是many specialized (smaller) models****(一個通用模型來處理各種任務,還是采用許多專門的較小模型來處理特定任務),你怎么看?********
****楊植麟:我的觀點是第一個。 楊植麟:在這一點上,中美會呈現巨大不同嗎?
****楊植麟:**我覺得最終不會。
**我接受有失敗的概率 **“它已經改變了我的生命”
騰訊新聞《潛望》:大模型創業在中國是比較怪異的存在,你們融了這么多錢,但似乎一大筆錢都要花在做科學實驗上,這種情況下怎么說服投資人愿意掏錢?**
楊植麟:跟在美國沒有區別。我們今天拿到的錢還不算特別多。所以,我們還要更多向OpenAI學習。 騰訊新聞《潛望》:我想知道做到GPT-4還需要多少錢?做到Sora還需要多少錢?********
楊植麟:GPT-4和Sora都不需要那么多,現在的錢更多是為了下一代甚至下下代模型做儲備,做前沿探索。 騰訊新聞《潛望》:中國大模型創業公司雖然拿了巨頭的錢,但巨頭也在訓練自己的模型——你怎么看大模型創業公司和巨頭的關系?****
楊植麟:這里面有競爭,也有合作。巨頭和創業公司第一目標不一樣,今天你去看每個大廠的第一目標,跟AGI公司的第一目標不同。第一目標會影響動作、結果,最終在生態里是不同的關系。 騰訊新聞《潛望》:為什么巨頭同時對多家大模型公司投入一點錢,而不重注一家公司?
楊植麟:這是階段問題。下面會有更多的consolidation(資源整合),會有更少的公司。 騰訊新聞《潛望》:有人說大模型公司的終局是被巨頭收購,你認可嗎?
楊植麟:我覺得不一定,但是他們有可能有很深入合作關系。 騰訊新聞《潛望》:比如說,可以怎么合作?
**楊植麟:OpenAI和微軟就是典型合作模式,這里面很多可以參考,也有一些可以優化。
騰訊新聞《潛望》:過去一年,在你看來創業中的曲折體現在了哪?******
楊植麟:**外部變量很多——資本、人才、卡、產品、研發、技術。有高光時刻,也有困難要克服。比如說卡。 中間有很多back and forth(來回)。一段時間很緊張,一段時間供應變好。最夸張的是,有一段時間每天在變,今天一臺機器價格260,明天340了,過兩天又跌回來,是一個動態變化的過程。要對這件事密切關注。價格一直變,策略也要一直變,到底從什么渠道,買還是租,有很多不同選擇。 **騰訊新聞《潛望》:這個動態因素是受什么影響****?********
楊植麟:有geo-political(地緣政治)原因,生產本身有批次,也受市場情緒變化。我們觀察到很多公司開始退卡,他們發現自己不一定要訓這個模型。市場情緒和大家的決策變化,供求關系跟著變化。好消息是,最近整個市場供應好了非常多。我個人判斷至少在接下來一到兩年,卡不會成為很大瓶頸。 騰訊新聞《潛望》:你似乎一直在思考組織,在團隊構建上是怎么做的?
楊植麟:招人思路發生過一些變化。世界上AGI人才非常有限,有經驗的人很少。我們最早期的畫像是,專注找對口的genius(天才)。這個證明非常成功。之前有對模型動手術的能力,有訓練超大規模模型直接的經驗,就可以很快做出來。包括Kimi發布,資本效率和組織效率其實很高。 騰訊新聞《潛望》:花了多少錢?
楊植麟:**一個挺小的數,相比很多其他花費,是花小錢辦大事。我們很長一段時間是30-40人的狀態。現在80人。我們追求人才密度。 人才畫像后來發生了變化。最早期招genius,認為他的上限高,公司上限是由人的上限決定的。但后面我們補齊了更多維度的人——產品運營側的人,leader型的人,能把事情做到極致的人。現在是一個更完整、有韌性、能打仗的團隊。 **騰訊新聞《潛望》:在中國大模型創業一年,怎么評價現在****取得的階段性成果?********
楊植麟:造了一個火箭的原型,現在點火試飛。積累了一個團隊,弄清楚了一些燃料的配方,多多少少還能看到一個PMF的雛形。 可以說,登月走了第一步。 騰訊新聞《潛望》:你怎么看楊立昆說,他不看好現有技術路線,認為自監督的語言模型沒辦法習得真正世界的知識,隨著模型規模的擴大出現謬誤,也就是機器幻覺的幾率會越來越高。他提出了“世界模型”的觀點。
楊植麟:沒有本質瓶頸。當token space足夠大,變成一個新型計算機解決通用性問題就OK了,它就是一個通用世界模型。 (他這么說)很重要一點在于,大家都能看到現在的局限性。但解決方式并不一定需要全新框架。AI唯一work就是next token prediction + scaling law,只要token足夠完整,都是可以做的。當然今天他指出的問題存在,但這些問題就是你把token space變得很通用,就可以了。 騰訊新聞《潛望》:他是放大了局限性。
楊植麟:我覺得是。但底層第一性原理沒什么問題,只是說現在有些小技術問題沒解決。 騰訊新聞《潛望》:你怎么看Geoffrey Hinton(深度學習之父)一而再、再而三呼吁AI Safety的問題?
楊植麟:Safety反而表明了,他對接下來技術能力的提升有極大信心。他們是相反的。 騰訊新聞《潛望》:幻覺的問題怎么解決?
楊植麟:**還是scaling law,就是scale的是不一樣的東西。 **騰訊新聞《潛望》:有多大概率scaling law走到最后發現根本走不通****?********
**楊植麟:可能約等于0。
騰訊新聞《潛望》:怎么看你的CMU校友陸奇的觀點:OpenAI未來肯定比Google大,只不過是大一倍、五倍還是十倍的問題?******
楊植麟:未來最成功的AGI公司肯定是會比現在所有公司都大。這點沒有疑問,它最終可能是double、triple GPT的事。它不一定是OpenAI,有可能是別的公司,但肯定有這樣的公司。 騰訊新聞《潛望》:如果你恰巧成了這家AI帝國的CEO,你會做什么用以保護人類嗎?
楊植麟:現在想這個問題還缺少一些前提條件。但我們肯定愿意跟社會不同角色去合作和提升,包括在模型上有更多安全措施。 騰訊新聞《潛望》:你2024年的目標是什么?
楊植麟:第一是技術突破,我們現在應該能做出比2023年好得多的模型。第二是用戶和產品,希望有更多成規模的用戶和黏性。 騰訊新聞《潛望》:2024年對于全球大模型產業有哪些預測?****
楊植麟:今年還會有更多capability出現,但格局不會跟今天有太大差別,top這幾個還是會領先。在能力上應該今年下半年會有一些比較大的突破,很多會來自OpenAI,它肯定還有下一代模型——有可能是4.5,也有可能是5,感覺是大概率事件。視頻的生成模型肯定還能繼續scale。 騰訊新聞《潛望》:2024年對于國產大模型產業有哪些預測?
楊植麟:一是可以看到新的獨特能力產生。你會看到國產模型,因為前期的投入,有合適的團隊,做出世界領先的某一些維度的能力。二是會出現更多用戶量級更大的產品,這是大概率的。三是會有進一步的consolidation和路線選擇的分化。 騰訊新聞《潛望》:創業你最害怕的一件事情是什么?
楊植麟:還好,就是要無所(畏懼)往前沖啊。 騰訊新聞《潛望》:想對同行說什么?
楊植麟:一起努力。 騰訊新聞《潛望》:說一個你對于大模型行業現在還不知道但最想知道的問題。
楊植麟:我不知道AGI的上限是什么樣的,它會產生一個什么樣的公司,這個公司能產生出來什么樣的產品。這是我現在最想知道的事。 騰訊新聞《潛望》:AGI這么發展下去,你最不想看到的一件事是什么?
楊植麟:我對這個比較樂觀,它可以讓人類文明往下一個階段去發展。 騰訊新聞《潛望》:有沒有人評價你,太過于理想主義?
楊植麟:**我們也是很腳踏實地的,我們真的也做了一些事,不是只是在說嘛。 **騰訊新聞《潛望》:如果你今天****拿到的錢是最后一筆錢,你會怎么花這筆錢?********
楊植麟:我希望這個永遠不會發生,因為我們未來還需要很多錢。 騰訊新聞《潛望》:如果你沒有做成什么,會覺得自己失敗了?
****楊植麟:**關系不是那么大,我接受有失敗的概率。 這個事情它已經完全改變了我的生命,我是充滿感激的。 ——————End——————
如需交流,歡迎添加作者微信:benita_zhangxj,煩請備注公司+職務)
** ****新智元報道 **
作者:胡延平編輯:好困 桃子**【新智元導讀】**生成60秒逼真視頻,只是未來的一個小功能,母模型根科技原力覺醒。來自未來實驗室的首席專家胡延平就爆火Sora模型做出了深度的個人解讀。 這幾天反復看Sora的技術報告,以及各方對Sora的技術分析。基本三個角度:驚呼強大功能,分析Sora(實現)大法,評估巨大沖擊。沖擊方面,主要關注點在于對影視、短視頻、娛樂等領域的影響。但是,**Sora改變AI認知方式,開啟走向「世界模擬器」的史詩級的漫漫征途,才是未來暴風眼,真正的重點。而世界模擬器,是遠比AGI、具身智能、元宇宙更炸裂的智能未來。**Sora技術報告最有價值、最語焉不詳、最容易產生不同理解的一句話是:「通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路」。
而本文所述世界模擬器,與Sora目前自述以及業內理解,可能不太一樣。很顯然要么是Sora言過其實,要么是OpenAI留了一手,要么是現階段技術局限使然。
Sora不是英偉達高級科學家Jim Fan所稱的數據驅動的物理引擎、一個可學習的模擬器或世界模型,也不會像周鴻祎所言能夠讓AGI一兩年內就很快實現。從LLM的文本Token/向量表征,到走向模擬器但還不是模擬器的Patches表達,是原理變化的核心。技術報告在原理部分高度保留,極為簡略,但其中一張圖比較重要。Sora基于Transformer但是對Transformer進行了有力進化,結合了Difussion,Patches是關鍵。不過Sora怎么看都還只是二維視覺的時空表達,處處壓縮,Patches依然是圖像內容關系信息,且有文本烙印,并不是物理世界規律的多維表征。世界模擬器前面加個定語——二維視覺世界模擬器,也許更準確。
三維圖像是數字世界的空間構建,二維視覺其實是像素的運動變化組合。三維、二維視頻都可以看上去像是「物理的」,但實質可以只是運動變化擬合了物理規律,而不是像粒子渲染、工業仿真一樣進行了物理規則、內在性狀的數字構建。背后原因,如同你知道大模型輸出的答案,知道大模型的計算原理,但是卻像神經網絡/深度學習之父Geoffrey Hinton和OpenAI前首席科學家Ilya Sutskever一樣,其實不知道GPT是怎么「想」的。Patches所攜帶的像素、位置、時空信息,以及與周圍Patches的變化、運動、關系,在Transform的注意力機制和Difussion的正反向噪聲過程,經過大規模視頻數據訓練,具有了解構和重構一切二維視覺的能力,面向用戶表現為涌現式的生成,似乎充滿創造力且符合物理規律,但背后其實是Sora「理解」了Patches/像素的變化、運動、位置在時空意義上的關系的數學、算法表征,這些變化和表征又擬合了物理世界的某些合理性。(Patches并非像素)「理解」即算法,「思考」即模型。好拗口,好抽象,好累人,但可能這就是事實。比如,Sora的工程師可能投喂了數千萬甚至數億條視頻讓大模型來學習,但是可能沒有寫過哪怕一行與物理性狀規則有關的代碼。再比如,Sora可能的確學習了一些3D引擎生成的素材,并且像當初通過DOTA2游戲對戰來改進模型一樣,引入3D引擎來校正模型生成視頻在視覺意義上的物理運動表現,但是百分百可以肯定Sora目前并沒有內置3D引擎。Sora讓用戶以為它理解了物理世界、物理規律,就像用戶頭戴蘋果Vision Pro的時候以為看到了物理世界,但其實只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648x3144個像素的各種變化。 甚至圖像其實并不是連續的,而是以每秒90-96次的幀率不斷刷新,擬合人眼視覺原理,讓用戶產生視頻是連續的錯覺。一旦快速甩頭,畫面就會產生運動模糊。重度游戲玩家甚至能體會到畫面撕裂。視頻符合物理規律,不等于視頻的生成基于物理規律,更不等于生成視頻的大模型本身是數據驅動的物理引擎。所謂物理,可以只是視頻畫面整體與局部、前后幀統一的像素級的變化規律、表征關系。 2. 即使如此,Sora還是打開AI新視界大門的那個史詩級的里程碑,大模型認知重啟
在對Sora原理的各種猜測里,華人AI學者謝賽寧的分析最為貼近。**但是局限于技術原理的框架性拆解以及對靈活、可擴展性的強調,反倒沒有道出Sora的突變實質——大模型認知重啟。**此外,直覺謝賽寧認為Sora目前只有30億參數的估計也過于保守。 Sora被認為采用了以Transformer為主干的混合擴散模型DIT,其中DIT=VAE編碼器+VIT+DDPM+VAE解碼器。 此外,Sora還可能使用與Google的Patch n‘Pack(NaVit)類似的技術,以此適應不同分辨率、持續時間和?寬比。盡管在視頻標注、將提示詞轉化為詳細說明等方面,Sora充滿詳實且強烈的文本色彩,但Sora實質上是完全基于視覺、面向視覺、以圖像理解世界的大模型。這一點和過去GPT「文本數據元」(不是神經元)意義上的Token有很大不同,Patches是碎片、補片、基本單元意義上的「視覺信息元」(也不是神經元),Sora里的文本只是人與機器之間、機器與視頻之間的「翻譯者」、「說明書」。**圖像、視頻的信息量其實遠大于文本,呈現在視覺里的現實世界更是如此。海量視頻樣本,已經讓Sora建立了視覺世界的宏觀/微觀時空變化的基本動態關系「理解」。**如果將Sora連接到全球各地的機器人、智能汽車、MR頭顯、智能手機等設備,借助數智之眼,大模型將能夠: 1. 自己「親眼」看到、學習和了解這個世界,而不是僅僅依賴人類投喂給系統的有限文本數據,海量知識信息的「新視界」之門由此打開。 1. 智能設備后接Sora+GPT,實時感知現實,是對具身智能的有力加持,機器人等智能設備有希望獲得類似人類感知現實的視覺和判斷能力,看到即學習,判斷即意味。盡管一開始與人類感知能力還是有較大差距,但也遠非傳統計算機視覺可比。 1. 加之Sora式的大模型的Input和output本來就可以充分文本化,所以絲毫不用擔心這個機器認知的視覺世界和人類的自然語言交互/體感交互會有什么問題。這是一種機器知道視覺「意義」的理解過程。 Sora出現的最大意義,并非可以生成60秒、多個分鏡頭、主體統一的視頻,而是意味著大模型由此可以「睜開眼睛」看世界,這是不亞于人類認知重啟的AI的第一次認知重啟,并且這還不是全部。 3. 認知重啟通向世界模擬器,這意味著「原力覺醒」:大模型里的母模型,未來根科技
Sora還不是世界模擬器,但是表現出了這樣的潛力。它沒有產生終極答案,但是告訴了業者,隱約可行的方向在哪里。盡管Sora還遠不足以成為通用世界模擬器,但是Sora證明Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。從文本語義、視覺到物理,是大模型原理的三次飛躍,也是走向真正的通用(其實首先基于多領域專業模擬器)世界模擬器的進階路徑。
Sora還不是物理引擎,但是未來可以泛化為物理引擎。Patch還只是 ((x,y,z), t )、關系、色彩、內容信息意義上的視覺信息元,并不是神經元,但是未來可以進化為數字神經元。Transformer大模型無論如何都不可能具備人腦一般的量子能力,但是高維全局注意力機制局部具備擬合量子態的潛力。因為AI對智能進行表征的底層邏輯是數學的,相對人腦的直覺、模糊、隨機、潛意識等特征,大模型的機械與恍惚同在。但是一如判斷準確率從0、30%、50%、80%、90%以上一路走來,原理不斷升維,時空不斷轉換,面向AGI的進化表現為不斷接近高可用性、接近乃至超越人類智能的漸進過程。**但AGI不是終點,也不是圣杯,世界模擬器才是。**Sora有助于實現AGI,但Sora開啟的漫漫征途的主要指向并不是AGI,而是世界模擬器。AGI的定義有多種,經典意義上的AGI是類GPT在數據、算力、算法進化到一定程度之后,在知識、內容、程序等工作與創作方面,表現出總體達到局部超越人類智能的能力。AGI依然是工具,能夠支持具身智能,但不是具身智能。AGI并不真正具備內生、自主能力,更多時候只是為人所用的工具。
說到這一點,一定有必要**厘清智能發展的不同形態和不同階段,由此才能看清GPT4、Sora、AGI、世界模擬器所處的生態方位和時空節點。**當我們在說智能的時候,其實同時有三種智能。Smart意義上的功能智能,昔日AI意義上的計算感知智能,也就是弱(的)智能(AI1.0),2020年以來(尤其2023年被視為正式開端)認知智能意義上的強智能(AI2.0)。目前自動駕駛、機器人等智能水準嚴格意義上講處于AI1.0也就是弱智能范疇。強智能(AI2.0)對智能汽車、機器人等智能設備的二次賦能,是正在到來的趨勢。這也是盡管國內人工智能發展如火如荼,但實質存在代差的原因。一些受不了此強彼弱的人,大呼「我們也不差」,認為GPT這一波是在制造威脅論。其實無須嘴硬,凡事都要先爭個面子。只需實事求是,看清格局,抓住關鍵,迎頭趕上就好。**如何看待Sora/GPT的背后,還有另一個實質:有沒有看到戰略高地、科技龍頭、智能圣杯、變革引擎、暴風眼在哪里。強AI就是戰略高地,AI for Science就是科技龍頭,AGI就是眼前的智能圣杯,通用與各領域專業模型就是變革引擎,世界模擬器就是未來的暴風眼。前面說的三種智能都還只是形態水準,并不是對智能發展的階段區分。我將智能發展相對劃分為五個階段:計算功能智能、計算感知智能、認知智能、內生智能(EI)、自主智能(II)。****請注意,有一天AI人工智能這個提法會邊緣化,因為智能不再是「人工」的。人工的AGI自然不是終點,智能將比我們對AGI的預期走得更遠。**這一點我在《走向第二曲線》有詳細分析,此處不再贅述。
智能變革的核心是超級智能,超級智能的具身是AGI,AGI是AI2.0、認知智能的高級形態(但主要還是人工投喂人工增強的智能),AGI是現階段所言AI的高級形態,但不是EI內生智能和II自主智能。AGI不會像某些人說的一兩年內就會實現,但估計也就在GPT6前后。**之后的階段,屬于內生智能(EI)、自主智能(II),屬于世界模擬器。**世界模擬器是EI基石,II基準。****超級智能是世界之腦,超級智能的母體是世界模擬器。世界模擬器是大模型里的母模型,未來科技里的根科技。**看看大模型在工業仿真、環境氣候、材料預測、蛋白質分析、分子藥物、基因研究等領域已經遍地開花的強力開局,就會知道,Sora與它們正在殊途同歸:世界模擬器未來主要不是用來玩的,并不是元宇宙概念的炒資,而是科技生產力爆發點,是智能未來真正的炸裂點。**世界模擬器,科技里的母科技,AI for Science各領域的核心抓手,每個領域的交感、理解、復現、預測,未來世界的「CAE」仿真只是其基礎特性之一。世界模擬器,是最接近智能母體的存在。世界模擬器意味著「原力覺醒」,創新之源,科技驅動,戰略高地,不容有失。
Sora放出的所有視頻里,最具深度探討價值的其實是那個水杯傾倒的片段。 Sora是如何擬合現實的,究竟是不是物理引擎,如何才能成為符合物理特性的引擎,未來又如何才能夠成為世界模擬器。從中隱約可見答案。CV發展初期,計算機能做到的只是杯子邊緣輪廓特征提取和復現(比如Neocognitron),再后來可以識別到這是一個水杯(比如早期ImageNet),再后來可以「理解」水和杯子的關系(CNN&RNN),現在能夠開始學習和復現水杯傾倒過程(Transformer/Sora),接下來會怎么樣發展,也許只有大模型技術專家知道,也許都還在探索,并無定論。我只是站在用戶角度進行黑箱式的透析,超級智能接下來能不能夠做到這幾步?
水杯傾倒的流動特癥能不能完全符合物理特性,不出現目前的明顯瑕疵?對應流體力學等。
水杯傾倒后能不能做到視頻中的冰逐漸在水中融化(所以更感興趣那個漢堡咬痕)?對應熱力學等。
水杯傾倒后導致桌面桌布等濕化以后能不能看到水漬、水汽的光影與色彩變化(所以更感興趣那個畫布筆觸)?對應光學物理等。
水杯傾倒的過程能不能生成與實景契合的聲音,而不只是簡單聲效?對應聲學物理等。
水杯傾倒的角度與力量能不能做到隨機操控,產生碎裂、潑濺、蒸發等不同現象?綜合以上及凝聚態物理。
水杯傾倒周圍如果有電源、危化物品,能否進行場景預測、情景預現?對應電磁物理、物理化學等。 以上都只是物理角度的簡單引申,世界模擬器所需要對應到的科學領域,以及現實世界的復雜現象,甚至是目前數十個主要學科尚未能窮盡的。所以無論從過程還是領域而言,都是征途漫漫。但這才是星辰大海。相應的幾個循序漸進的問題是:
Sora可以對3D圖像而不是3D引擎生成的2D視頻進行學習訓練嗎?
Sora可以從微宏觀統一的尺度,對三維物體的內在性狀進行學習訓練嗎?
Sora可以在模型原理、神經網絡、節點層級對物理世界進行X(3.0)意義上的3D時空運動表征,并在世界虛擬器交感、理解、復現、預測四要素具備的基礎上使X進化為神經元嗎? 面向世界虛擬器的進化,遠不止這些問題,更不只是這些維度……總的來說,Sora部分擬合了「視覺規律」,但是還沒有真的理解「物理世界」。目前的Sora本質上還是在視覺內容世界里,更多與視頻、游戲、娛樂等相關。但并不妨礙Sora式的大模型下一步,進入機器人、智能汽車等主要智能設備,以及成為世界模擬器。AI For Science是世界模擬器的關鍵落地場景,而**AI For Science意義上的X(3.0)是物理世界與視覺世界的分叉點,就像Patch(2.0)是文本世界Token(1.0)與視覺世界的分叉點。**數據、學習、生成、預期是AGI四要素,信息內容感更強。交感、理解、復現、預測,是世界模擬器四要素,母體感知現實具身感更強。世界模擬器的Input和output,實質主要由機器智能系統自主完成,是具有自我強化和自主行為能力的智能。世界模擬器征途漫漫,必將通向EI、II。 5. 接下來的態勢會怎么樣?12種情況預估
**態勢1:Sora模型并非不可復制。**OpenAI如果短期內不正式推出Sora(快不了)給全球用戶,其它競爭對手也會陸續發布自己的類似產品,Patches做法早已有之,并非獨門暗器。OpenAI和Google、Meta之間只有時間差。但是中小團隊的數據差、資源差、算力差造成的競爭弱勢,只有原理升維才可能彌補。Pika、Runway如果不能在原理層面完成超越,哪怕勉強能夠追上Sora未來也是堪憂。另外,原理相似不等于效果相同,差之毫厘謬之千里。**態勢2:拚原理>拚算力,模型原理升維才是能力躍遷關鍵,但算力必不可少且需求繼續陡增。**Sora對prompt單次響應與output過程的算力消耗必然遠超GPT4.0,但這并不是重點。Sora再一次證明,拚原理的重要性遠大于拚算力,算力算什么(而不是算力)才見高下。原理引起的格局翻覆往往就在一瞬間,今后也是,翻覆還將多次。但算力總體需求依然呈現為爆發式增長,因為要算的不再只是文本/Token,視覺/Patches會令算力需求陡增。未來物理引擎、世界模擬器對各類傳感的接入需要和計算需求,更會令算力吃緊。即使眼前線性地看,高質量海量數據總是優于小體量數據,參數量大總是優于參數量小,模型的深層、多階段、反復思考總是優于單階段,高分辨率高精度總是顯著優于低精度,所以算力需求依然呈現為指數級增長。但總體而言,算力只是必要條件。**態勢3:以Transformer為主干的大模型依然是主要演進方向,且具有巨大潛力。**Self-Attention機制在電子計算的層級模擬了量子態(只是神似),消除了信息元之間的距離限制、消解了CNN的場域阻隔,在量子計算可用之前,是以數學、電子計算為基礎的最具腦特征的智能。**態勢4:輕與重,大和小,單一與混合,始終是兩種并行邏輯。**在計算機視覺模型走向大模型、進而走向世界模擬器的漫漫征途中,視頻看上去「合理」的Sora走的是一條更輕的捷徑,操控感、立體感、前后擴展自然不夠理想。3D建模、粒子渲染、光線追蹤從算力、設備和人工投資來說,又笨又重,但更貼近本質,且操控感更強。就像自動駕駛的兩條計算機視覺路線,一個靠CMOS圖像數據來算,一個靠雷達來對物理空間進行點云建模。目前只能說電影工業多了一個選擇,倒還沒有摧枯拉朽那么夸張。微電影、短視頻倒是因此生發出無限可能。**態勢5:功能瑕疵問題反倒不是問題,并且越往世界模擬器方向走,視頻生成的這些小問題越無關大局。**時間線前后擴展、主體融合過渡、場景置換、連續性、3D運鏡、多鏡頭、漢堡咬痕,這些只是目前的能力,Sora的可用性未來會更加超出預期。目前存在的左右腿瞬移、多指多趾、人物消失、運動變形、人穿過柵欄等bug多多,但是瑕不掩瑜,而且這些問題隨著訓練規模增加、模型不斷微調優化,必然迎刃而解。**態勢6:Sora與Vision Pro的確是一對想象力組合,但是以為戴上頭盔就可以念念有詞的,一多半可能會失望。**此外,VR在向MR進,AR在向MR退,VR以后只是MR的一個功能,MR是產業科技目前能夠到的交叉點,最難突破的AR未來才是主要形態。**態勢7:OpenAI本身的4個可能與6個不可能。**可能方面:成為主流AI開發者平臺,成為最大Store,形成數十億用戶生態,部分具身智能能力。不可能方面:7萬億美元造芯,模型原理持續領先,開源開放,縱橫整合產業鏈,成為具身智能/內生智能/自主智能,堅持初創理念不動搖不成為......尤其7萬億美元AI造芯那條忽悠了不少人的吊詭信息,是WSJ援引所謂消息人士,并不是奧特曼本人,已投Rain股權中的沙特基金在被美帝勸退,還和中東主權基金合計在美投資數萬億美元的大規模芯片制造?綠錢不參與的話,找夠相當于美元「風投+IPO」十幾年總額的資金做AI芯片,要么是概念吹瘋了,要么是常識缺位,要么是算數不會了。更重要的是,制造并不是AI計算突破重點。**態勢8:全生態轉變已開始,AI是主驅動但不是化學反應全部。**6個要素:感知(交互)、計算(數據)、智能(AI)、連接(網絡)、協約(關系)、能量(能源)等。**態勢9:變化非線形。**深層玩家不僅著眼算力提升,還在醞釀計算架構之變,變化不會是線性的,有可能業者討論的未來其實是現在,而不是升維后的未來。下一步模型原理、計算架構包括芯片,都將不斷有重大變化。**態勢10:AI原力在底層,應用只是需求牽引力。**國內團隊適合從應用著手說法沒錯,但過早定格一覺醒來發現樓塌了不是沒有可能,還是需要有人聚焦底層之變,包括硬件底層,硬仗有人打,至少緊跟。**態勢11:一定是云端邊-大中小-PPP混合AI,如此戰場方能展開;但不能只著眼AI,感數算智、軟硬協同、形態創新等維度交織才是完整視角,也是價值展開的關鍵。**如果只是窄化為算力算法意義上的AI,輕量化為場景需求意義上的應用,無異于互聯網思維,只可能第一天就卷,只可能是store里的一個GTPs、APPs,就像互聯網時代曾經活成了「很厲害」的APP的樣子;這是一場原力致勝的立體戰役,最需要褪去的就是互聯網思維;凡事偷輕,難堪重任;處處求簡,難當多面;全生態全體系變革,僅應用不足以催化,僅算力算法數據模型意義上的AI不足以驅動。**態勢12:壓力陡增。**回到老難題,中美AI之爭,李約瑟之問和錢學森之問。說實話GPT3.5、GPT4.0發布之際,壓力不那么大,總覺得有得一追,畢竟都還在文本、代碼、圖片維度。但是Sora一出,壓力陡增。升維比想象得快。競爭和發展不是二維、線性的。真正的物理世界模擬器,已經隱約能嗅到味道,且原理隱約可見。這才是AI未來競爭、大模型決勝的炸裂點。**朋友有句話說得好,當年Alpha Go/zero碾壓人類圍棋之后,事了拂衣去,一年后阿爾法Fold橫空處世,重塑了人類對蛋白質結構認知與預測,這才叫偉大工程。**Sora也是一樣,如果只以為它是60秒視頻生成神器,被網絡噴子噴成「洋人的奇技淫巧」,無用之用,可以說與業外對早期AlphaGo的「下棋玩具」理解有幾分神似。但如果從大模型睜開眼睛看世界,AI認知重啟,以及潛在的世界模擬器發展方向看,這顯然是正在覺醒的原力。企業如果忽視趨勢,在這一史詩級的漫漫征程中落伍,會被降維打擊得連親媽都認不出來。AI認知重啟,超級智能點亮億萬機器之心,世界虛擬器成為母模型根科技,不是科幻,這是一個時代的序幕。那么,AI認知已然重啟,人類的認知重啟了嗎?
作者介紹 胡延平,DCCI未來智庫創始人,FutureLabs未來實驗室首席專家,信息社會50人論壇成員。《全球創新前沿科技地圖》及相關研究項目主導,科技暢銷書《黑科技》(2017)共同作者與出品人。歷任《互聯網周刊》總編、中國互聯網協會交流發展中心主任等媒體與NGO職務,持續專注于前沿科技創新探索,角度專注于「從技術看產品,從產品看產業,從產業看生態」。1997以來出版多部科技專著。《奔騰時代(硅谷)》(1997)作者、《數字藍皮書》(2000)、《跨越數字鴻溝》、《第二次現代化》、《第四種力量》(2002)著者,《Google將帶來什么》(2009)譯者之一。
** ****新智元報道 **
編輯:編輯部**【新智元導讀】為何Sora會掀起滔天巨浪?Sora的技術,就是機器模擬我們世界的下一步。而且今天有人扒出,Sora創新的核心秘密時空Patches,竟是來自谷歌DeepMind和謝賽寧的論文成果。**
OpenAI,永遠快別人一步!像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級大殺器Gemini 1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶了去。100萬token的上下文,僅靠一本語法書就學會了一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。這次,不過也是之前歷史的重演。 為什么ChatGPT會提前誕生?《這就是ChatGPT》一書對此進行了揭秘:當時OpenAI管理層聽說,從OpenAI「叛逃」的前員工創立的公司Anthropic Claude有意提前推出Chatbot。管理層立馬意識到這個產品潛力巨大,于是先下手為強,第一時間改變節奏,出手截胡Anthropic。11月中旬,在研發GPT-4的OpenAI員工收到指令:所有工作暫停,全力推出一款聊天工具。兩周后,ChatGPT誕生,從此改變人類歷史。或許,這也就揭示了為什么一家公司可以永載史冊的原因:領導者能夠發現有市場潛力的新產品,全面攔截所有成功的可能性。對于谷歌被截胡一事,網友銳評道:OpenAI用Sora對抗Gemini發布的方式簡直了,谷歌從沒有受過這樣的打擊。
這不得不讓人懷疑,OpenAI手里是不是還攥著一堆秘密武器,每當競爭對手發布新技術,他們就放出來一個爆炸級消息。
要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。 為何Sora掀起滔天巨浪
Sora一出,馬斯克直接大呼:人類徹底完蛋了! 馬斯克為什么這么說?OpenAI科學家Tim Brooks表示,沒通過人類預先設定,Sora就自己通過觀察大量數據,自然而然學會了關于3D幾何形狀和一致性的知識。從本質上說,Sora的技術,就是機器模擬我們世界的一個里程碑。外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時刻。
更有人表示,在Sora之中,我切實感受到了AGI。
這也就是為什么Sora會在全世界掀起滔天巨浪的原因。要了解Sora如此強大的能力從何而來,除了OpenAI官方給出的技術報告,行業大佬也進行了進一步的解讀。LeCun轉發了華人學者謝賽寧的推文,認為Sora基本上是基于謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。
而和謝賽寧一起合著這篇論文的William Peebles之后也加入了OpenAI,領導了開發Sora的技術團隊。
所以謝賽寧的對于Sora的技術解讀,具備極高的參考價值。
謝賽寧:Sora很厲害,不過好像是用了我的論文成果
AI大神謝賽寧,針對Sora的技術報告談了自己的看法。 項目地址://wpeebles.com/DiT- 架構:Sora應該是基于他和Bill之前在ICCV 2023上提出的以Transformer為主干的擴散模型(DIT)其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。根據技術報告,好像沒有其他特別的設計了。-「視頻壓縮網絡」:似乎是一個VAE,但訓練的是原始視頻數據。在獲得良好的時間一致性方面,tokenize可能起了很重要的作用。VAE是一個ConvNet。所以從技術上講,DIT是一個混合模型。
謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。這可能就是Sora為什么要基于DIT構建的主要原因。首先,簡單意味著靈活當涉及到輸入數據時,如何使模型更加靈活。例如,在掩碼自動編碼器(MAE)中,VIT幫助我們只處理可見的patch,而忽略掉被mask的。同樣,Sora可以通過在適當大小的網格中安排隨機初始化的patch來控制生成的視頻的大小。UNet并不直接提供這種靈活性。猜測:Sora可能還會使用谷歌的Patch n‘Pack(Navit),以使DIT能夠適應不同的分辨率/持續時間/長寬比。其次,可擴展性是DIT論文的核心主題就每Flop的時鐘時間而言,優化的DiT比UNet運行得快得多。更重要的是,Sora證明了DIT縮放法則不僅適用于圖像,現在也適用于視頻——Sora復制了DIT中觀察到的視覺縮放行為。猜測:在Sora的演示中,第一個視頻的質量相當差,謝懷疑它使用的是最基礎的模型。粗略計算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個參數。
如果真的是如此,Sora的模型規模可能沒有那么大。這可能表明,訓練Sora可能不需要像人們預期的那樣,有非常大的算力要求,所以他預測未來Sora迭代的速度將會很快。
進一步的,謝賽寧解釋了Sora提供的關鍵的洞見來自「涌現的模擬能力」這一表現上。在Sora之前,尚不清楚長期形式的一致性是否會自行涌現,或者是否需要復雜的主題驅動的其他流程,甚至是物理模擬器。而現在OpenAI已經表明,雖然現在結果還不完美,但這些行為和能力可以通過端到端的訓練來實現。然而,有兩個要點還不是很明確。1. 訓練數據:技術報告沒有涉及訓練的數據集,這可能意味著數據是Sora成功的最關鍵因素。目前已經有很多關于游戲引擎數據的猜測。他期待包括電影、紀錄片、電影長鏡頭等。2. (自回歸)長視頻生成:Sora的一個重大突破是生成超長視頻的能力。制作一段2秒的視頻和1分鐘的視頻之間的差異是巨大的。Sora可能是通過允許自回歸采樣的聯合幀預測來實現的,但這里最主要挑戰是如何解決誤差累積問題,并隨著時間的推移保持質量/一致性。 OpenAI Sora的技術,就是機器模擬我們世界的重要下一步
AI究竟如何將靜態圖形轉換為動態、逼真的視頻?Sora的一大創新,就是創新性地使用了時空patch。通過底層訓練和patch,Sora能夠理解和開發近乎完美的視覺模擬,比如Minecraft這樣的數字世界。這樣,它就會為未來的AI創造出訓練內容。有了數據和系統,AI就能更好地理解世界。 從此,我們可以解鎖VR的新高度,因為它改變了我們看待數字環境的方式,將VR的邊界推向了新的高度,創建出近乎完美的3D環境。可以在Apple Vision Pro或Meta Quest上按需與空間計算配對了。除了謝賽寧的解讀之外,AI專家Vincent Koc,也對此展開了詳細分析。
以往,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。Sora所做的,是把Diffusion和Transformer架構結合在一起,創建了diffusion transformer模型。于是,以下功能應運而生——文字轉視頻:將文字內容變成視頻 圖片轉視頻:賦予靜止圖像動態生命 視頻風格轉換:改變原有視頻的風格 視頻時間延展:可以將視頻向前或向后延長 創造無縫循環視頻:制作出看起來永無止境的循環視頻 生成單幀圖像視頻:將靜態圖像轉化為最高2048 x 2048分辨率的單幀視頻 生成各種格式的視頻:支持從1920 x 1080到1080 x 1920之間各種分辨率格式 模擬虛擬世界:創造出類似于Minecraft等游戲的虛擬世界 創作短視頻:制作最長達一分鐘的視頻,包含多個短片這就好比,我們正在廚房里。傳統的視頻生成模型,比如Pika和RunwayML,就像照著食譜做飯的廚師一樣。他們可以做出好吃的菜肴(視頻),但會受到他們所知的食譜(算法)所限。使用特定的成分(數據格式)和技術(模型架構),它們只擅長烘焙蛋糕(短片)或烹飪意大利面(特定類型的視頻)。 而與他們不同的是,Sora是一位基礎知識扎實的新型廚師。它不僅能照著舊食譜做菜,還能自己發明新食譜!這位住大廚多才多藝,對于食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高質量的視頻。
時空patch,是Sora創新的核心。 它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。
論文地址: Image is Worth 16x16 Words」。
論文地址:
然而,視覺Transforemr對圖像訓練數據的限制是固定的,這些數據的大小和縱橫比是固定的,這舊限制了質量,并且需要大量的圖像預處理。
而通過將視頻視為patch序列,Sora保持了原始的縱橫比和分辨率,類似于NaViT對圖像的處理。這種保存,對于捕捉視覺數據的真正本質至關重要!通過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。
時空patch的可視化這種方法使Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。這種靈活性確保了每條數據都有助于模型的理解,就像廚師可以使用各種食材,來增強菜肴的風味特征一樣。時空patch對視頻數據詳細而靈活的處理,為精確的物理模擬和3D一致性等復雜功能奠定了基礎。從此,我們可以創建看起來逼真且符合世界物理規則的視頻,人類也得以一窺AI創建復雜、動態視覺內容的巨大潛力。
訓練數據的質量和多樣性,對于模型的性能至關重要。傳統的視頻模型,是在限制性更強的數據集、更短的長度和更窄的目標上進行訓練的。而Sora利用了龐大而多樣的數據集,包括不同持續時間、分辨率和縱橫比的視頻和圖像。它能夠重新創建像Minecraft這樣的數字世界,以及來自Unreal或Unity等系統的模擬世界鏡頭,以捕捉視頻內容的所有角度和各種風格。 這樣,Sora就成了一個「通才」模型,就像GPT-4對于文本一樣。這種廣泛的訓練,使Sora能夠理解復雜的動態,并生成多樣化、高質量的內容。這種方法模仿了在各種文本數據上訓練LLM的方式,將類似的理念應用于視覺內容,實現了通才功能。
可變Patches NaVit與傳統的視覺TransformerNaViT模型通過將來自不同圖像的多個patch打包到單個序列中,得到了顯著的訓練效率和性能提升一樣。同樣地,Sora利用時空patch在視頻生成中實現類似的效率。這種方法允許模型從龐大的數據集中更有效地學習,提高了模型生成高保真視頻的能力,同時降低了與現有建模架構相比所需的計算量。
3D空間和物體的一致性,是Sora演示中的關鍵亮點。通過對各種視頻數據進行訓練,無需對視頻進行調整或預處理,Sora就學會了以令人印象深刻的精度對物理世界進行建模,原因就在于,它能夠以原始形式使用訓練數據。在Sora生成的視頻中,物體和角色在三維空間中令人信服地移動和交互,即使它們被遮擋或離開框架,也能保持連貫性。從此,現實不存在了,創造力和現實主義的界限被突破。并且,Sora為模型的可能性設立了全新的標準,開源社區很可能會掀起視覺模型的全新革命。而現在,Sora的旅程才剛剛開始呢,正如OpenAI所說,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的道路。前方,就是AGI和世界模型了。不過好在,OpenAI員工透露說,Sora短期內不會面世。 一位OpenAI員工發推表示,現在Sora只會在有限的范圍內試用,現在放出的demo主要是為了獲得社會大眾對它能力的反應現在,標榜要開發負責任AGI的OpenAI,應該不會冒著風險給大眾拋出一個潘多拉魔盒。參考資料:
**【轉載新智元】**DeepMind創始人Shane Legg帶領的研究團隊發表了一篇關于AGI時間表的論文。他指出,LLM已經是AGI雛形,提出了6條定義AGI的標準。而且根據AI能力,他們提出了5個AGI的分類,以及對于AGI風險的評估體系。
人類距離第一個AGI的出現已經越來越近了! DeepMind聯合創始人,首席AGI科學家Shane Legg在不久前的訪談中認為,2028年,人類有50%的概率開發出第一個AGI。
而就在今天,他帶領的DeepMind研究團隊在Arxiv上公布了一篇論文,直接放出了AGI的路線圖和時間表。
論文地址://arxiv.org/abs/2311.02462雖然論文主題感覺很大很空,但是網友認為文章很好的定義了AGI,避免了以后各種雞同鴨講的討論。
研究團隊認為,從性能強度和通用性兩個維度,可以將人類和AI的關系劃分為5個階段,而現在大語言模型的出現,正屬于第一個通用AI的階段:AGI雛形。
以OpenAI的ChatGPT,谷歌Bard,Meta的Llama為代表的大模型,已經在通用性上展示出了AGI的潛力。 因為大語言模型已經能完成范圍相當廣的各類任務,而且表現出了像學習新技能這樣的「元認知」能力。 而如果單從AI的性能維度上看,「窄AI(Narrow AI)」類型的AI已經達到了完全超越人類認知的水平。 以AlphaFold,AlphaZero為代表的專業領域AI,在特定領域已經能發現人類智力無法發現的新事物了。研究團隊將其稱為「超人類窄AI」。
而和人類相比,在某個領域達到99%的人類的水平,比如在棋類競技中能夠戰勝人類頂尖大師的「深藍」和AlphaGo,就屬于這一類。研究團隊將它們稱為「大師級窄AI」。
而在某些領域,AI能達到90%的人類水平,比如文書糾正AI Grammarly,DALL·E 2,Imagen等生圖AI。研究團隊將其稱為「專家級窄AI」。
在特定領域,能達到普通人的平均水平,比如Siri,谷歌助手這類普通智能助理。研究團隊將其稱為「普通窄AI」。
而在這四個窄AI已經覆蓋的能力維度上,通用AI都還沒有出現對應的實例。 而進一步,因為目前還沒有出現真正意義上的AGI,對于AGI的定義,人類還沒有達到統一的認知。 所以論文中還提供了定義AGI的6個準則:
關注能力而非過程。AGI定義應該關注一個系統能達到的效果,而不是實現這些效果的內在機制。
關注通用性和性能。AGI定義應同時考量通用性和性能這兩個維度。
關注認知和元認知任務。AGI的定義應關注認知任務,以及元認知能力如學習新技能。不需要作為前提要求。
關注潛能而非部署。理論上證明系統能完成某類任務就可認為它具備AGI潛能,不需要一定要實際部署。
關注真實場景。用于AGI測評的任務應考慮真實場景的適用性,而不僅是容易量化的指標。
關注通向AGI的路徑,而非單一目標。AGI定義應采用分級方式,考慮不同水平的路徑,而不僅是最終目標。
在論文的最后一個部分,作者還提出了對于未來可能出現的AGI的測評與風險評估問題。 在作者看來,需要考慮人類與AGI的互動模式,僅看模型能力來評估AGI是非常片面的。 具體來說,AGI的能力不同于AGI的自主性。隨著AGI能力的增強,會解鎖更高級的人機互動模式,但不意味著就必須給予AGI最大的自主性。 在這個技術之上,作者提出了6種人機互動模式:無AI、AI工具、AI顧問、AI協作者、AI專家、AI智能體。
不同的人機互動模式需要不同的AGI能力作為前提,比如AI智能體可能需要AI能力達到專家或者超人類AI級別,才能更好地完成這個互動模式處理的任務。 人機互動模式本身會引入不同類型的風險。例如AI智能體具有最高的自主性,但同時也引入了最大風險。 因此,AGI的風險評估需要同時考慮模型能力和人機互動模式。合理的互動模式選擇有助于AGI系統的負責任部署。 人機互動研究需要與模型能力提升保持同步,以支持對AGI系統的安全且有效的利用。 AGI,黎明還是黃昏? 從1955年達特茅斯人工智能會議開始 ,人類就朝著實現「真正的智能」這顆北極星曲折前進,途中也經過了不同的道路。 AGI的概念與對人工智能進步的預測有關,它正在朝著更大的普遍性發展,接近并超越人類的普遍性。此外,AGI通常與「涌現」一詞交織在一起,有能力實現開發人員未明確預期的功能。這種能力使新型互動或新行業成為可能。AGI可能產生重大的經濟影響——我們是否達到了廣泛勞動力替代的必要標準?AGI還可能帶來與經濟優勢有關的地緣政治以及軍事上的影響。 同樣,我們也應該通過評估AGI的水平來預防她帶來的風險。正如一些人推測的那樣,AGI系統可能能夠欺騙和操縱、積累資源、推進目標、代理行為,并遞歸地自我改進,最終在廣泛的領域中取代人類。所以,對于人工智能研究界來說,明確反思我們所說的「AGI」的含義,并量化人工智能系統的性能、通用性和自主性等屬性至關重要。我們必須理解自己在AGI道路上所處的位置。 AGI案例分析 首先,我們應當考慮如何正確定義AGI,也許可以從一些案例中獲得啟發。 案例1:圖靈測試。1950年的圖靈測試可能是將類似AGI的概念付諸實踐的最知名的嘗試。圖靈的「模仿游戲」被認為是一種將機器是否可以思考的問題操作化的方法。鑒于現代LLM通過了圖靈測試的一些框架,很明顯,這個標準不足以作為評估AGI的基準。
我們同意圖靈的觀點,機器是否可以「思考」確實是一個有趣的哲學和科學問題,但機器能做什么的問題顯然對于評估影響更重要,也更易于衡量。因此,AGI應該根據能力而不是過程來定義。案例2:與人腦的類比。「通用人工智能」一詞的最初使用是在1997年馬克·古布魯德撰寫的一篇關于軍事技術的文章中,該文章將AGI定義為「在復雜性和速度上與人腦相媲美或超過人腦的人工智能系統」。
雖然現代ML系統背后的神經網絡架構松散地受到人腦的啟發,但基于transformer的架構的成功表明,嚴格的基于大腦的過程和基準對于AGI來說并不是必要的。案例3:學習任務的能力。在《技術奇點》中,沙納漢認為,AGI是「人工智能」,它不是專門用于執行特定任務的,而是可以學習執行與人類一樣廣泛的任務。該框架的一個重要特性是它強調將元認知任務(學習)納入實現AGI的要求中的價值。案例4:具有經濟價值的工作。OpenAI的章程將AGI定義為「高度自主的系統,在最具經濟價值的工作中表現優于人類」。這個定義側重于與底層機制無關的性能,并且提供了潛在的衡量標準,即經濟價值。
但問題在于,有許多與智力相關的任務可能沒有明確的經濟價值(例如,藝術創造力或情商)。而且,我們很可能擁有在技術上能夠執行經濟上重要任務的系統,但由于各種原因(法律、道德、社會等)而沒有意識到這種經濟價值。案例5:馬庫斯認為AGI是「任何智能的簡寫,具有與(或超越)人類智能相當的足智多謀和可靠性」。他通過提出五項具體任務(理解一部電影、理解一本小說、在任意廚房做飯、編寫一個無錯誤的10000行程序以及將自然語言數學證明轉換為符號形式)來實施他的定義。
案例6:Agüera y Arcas和Norvig認為最先進的LLM已經是AGI,而通用性是AGI的關鍵屬性。由于語言模型可以討論廣泛的主題、執行廣泛的任務、處理多模態輸入和輸出, 以多種語言操作,并從零樣本或少樣本示例中「學習」,它們已經達到了足夠的通用性。 AGI六大準則
通過對以上幾個案例的思考,作者為AGI的定義制定了以下六個標準: 第一條:關注能力,而不是流程。大多數定義關注的是AGI可以完成什么,而不是它完成任務的機制。 這對于識別不一定是實現AGI的先決條件的特征非常重要。 因為,實現AGI并不意味著系統以類似人類的方式思考或理解;也并不意味著系統具有意識或感知等。 第二條:注重通用性和性能。上述所有定義都在不同程度上強調普遍性,另外,性能也是AGI的關鍵組成部分。 第三條:專注于認知和元認知任務。 人工智能系統的物理能力似乎落后于非物理能力。作者認為,執行物理任務的能力增加了系統的通用性,但不應被視為實現AGI的必要先決條件。 另一方面,元認知能力(例如學習新任務的能力或知道何時向人類尋求澄清或幫助的能力)是系統實現通用性的關鍵先決條件。
第四條:關注潛力,而不是部署。因為要求部署作為衡量AGI的條件會帶來非技術障礙,例如法律和社會考慮,以及潛在的道德和安全問題。 第五條:注重生態效度。這里強調選擇與人們重視的現實世界(即生態有效)任務相一致的任務的重要性(廣義地解釋價值,不僅作為經濟價值,還包括社會價值、藝術價值等)。 最后一條:專注于AGI的路徑,而不是單個端點。作者將AGI的每個級別與一組明確的指標相關聯,并且每個級別引入已識別風險,以及由此產生的人機交互范式的變化。 AGI水平定義
作者給出如下表格,清晰地提出了一種分類或者說評估方法,規定了達到給定評級所需的大多數任務的最低性能。 為便于理解,這里將下表中的后五類翻譯為:入門、普通、專家、大師和超人級別。
比如,在大多數認知任務中,有能力的AGI必須至少達到熟練成年人的平均水平,但在任務子集上可能具有專家、大師甚至超人的表現。 舉個例子,截至2023年9月撰寫本文時,前沿語言模型(例如,ChatGPT、Bard、Llama2等)在某些任務(例如,短文寫作、簡單編碼)中表現出「普通」的性能水平,但對于大多數任務(例如, 數學能力,涉及事實性的任務)來說,僅表現出「入門」的性能水平。 因此,總體而言,當前的前沿語言模型將被視為1級通用AI,當更廣泛的任務的性能水平提高時,就可以達到2級通用AI的門檻。 另外需要注意的是,在特定認知領域獲得更強技能的順序可能會對人工智能安全產生嚴重影響。 例如,在獲得強大的道德推理技能之前獲得強大的化學工程知識可能是一個危險的組合。 雖然該分類法根據系統的性能對系統進行評級,但能夠達到一定性能水平的系統在部署時可能不匹配此級別。
以DALL·E 2為例,因為DALL·E 2產生的圖像質量比大多數人能夠繪制的更好,所以可以評估為「專家」級別的性能。然而該系統存在故障模式,使其無法獲得「大師」的稱號。所以可以將其估計為分類法中的3級窄AI(「專家級窄AI」)。 在上面的表格中,作者引入了一個矩陣式調平系統,該系統側重于性能和通用性,這是AGI的兩個核心維度。 就綜合性能和通用性而言,矩陣中的最高級別是ASI(人工超級智能)。而「超人」的表現意味著100% 優于人類。 例如,這里假設AlphaFold是5級窄AI (「超人級窄AI」),因為它執行的單項任務(從氨基酸序列預測蛋白質的3D結構)高于世界頂級科學家的水平。 該定義意味著5級通用AI (ASI) 系統將能夠以人類無法比擬的水平完成廣泛的任務。 AGI測試
在作者的方案中,人工智能系統必須掌握多大比例的此類任務才能達到給定的通用性水平?是否有一些任務(如元認知任務)必須始終執行才能達到某些通用性級別的標準? 要實現AGI定義的可操作性,就必須回答這些問題,并開發出具體的多樣化和具有挑戰性的任務。
鑒于這一過程的巨大復雜性,以及納入廣泛視角(包括跨組織和多學科觀點)的重要性,作者在本文中并未提出一個基準。 相反,作者致力于澄清基準應嘗試衡量的本體。作者還討論了AGI基準應具備的屬性。 AGI基準將包括一套廣泛的認知和元認知任務(根據原則3),測量包括(但不限于)語言智能、數學和邏輯推理、空間推理、人際和人內社交智能、學習新技能的能力和創造力在內的各種特性。 基準可能包括心理學、神經科學、認知科學和教育學中的智能理論所提出的心理測量類別測試。 但是,必須首先評估這些 「傳統 」測試是否適合用于計算系統基準測試,因為在這種情況下,許多測試可能缺乏生態和構造有效性。 基準性能的一個未決問題是,是否允許使用工具(包括可能由人工智能驅動的工具)作為人類性能的輔助工具。 這一選擇最終可能取決于任務,并應在基準選擇中考慮生態有效性(原則5)。 例如,在確定自動駕駛汽車是否足夠安全時,與一個沒有任何現代人工智能輔助安全工具的人進行比較,并不是最有參考價值的比較。 因為相關的反事實涉及到一些駕駛輔助技術,作者可能更傾向于與該基線進行比較。 或交互式任務,這些任務可能需要定性評估。作者猜測,后幾類復雜的開放式任務雖然難以確定基準,但其生態有效性將優于傳統的人工智能指標,或優于經過調整的傳統人類智能指標。 AGI所能完成的全部任務是不可能一一列舉的。因此,人工智能基準應該是一個活的基準。因此,這種基準應包括一個生成和確定新任務的框架。 要確定某物在特定水平上不是一個AGI,只需找出人們通常可以完成但系統無法充分執行的5項任務即可。 在特定性能級別(「雛形」、「普通」等)上通過大部分設想的AGI基準測試的系統,包括測試人員添加的新任務,可以被假定為具有相關的通用性級別(即,盡管在理論上AGI仍有可能無法通過測試,但在某些時候,未通過測試的情況會變得非常專業或非典型,以至于實際上無關緊要)。 制定AGI基準將是一個具有挑戰性的迭代過程。盡管如此,它仍是人工智能研究領域的一個北斗星級別的目標。 對復雜概念的衡量可能并不完美,但衡量的行為有助于我們清晰地定義目標,并提供一個衡量進展的指標。 關于AGI風險的討論
關于人工智能的討論通常包括對風險的討論。 采用分層的方法來定義人工智能,可以更細致地討論性能和通用性的不同組合如何與不同類型的人工智能風險相關聯。 當我們沿著人工智能的能力水平前進時,會引入新的風險,包括誤用風險、調整風險和結構風險。
例如,「專家級人工智能 」水平很可能涉及與經濟混亂和工作崗位轉移相關的結構性風險,因為越來越多的行業達到了機器智能替代人類勞動力的門檻。另一方面,達到 「專家級AGI 」可能會減輕 「AGI雛形 」和 「普通級AGI 」帶來的一些風險,如任務執行錯誤的風險。 在 「大師級人工智能 」和 「專家級人工智能」級別中,最有可能出現許多與x風險有關的問題(例如,人工智能可以在各種任務中超越人類操作員,但可能會欺騙人類操作員以實現錯誤的目標,如錯誤對齊思想實驗)。 如果不同級別之間的進展速度超過了監管或外交的速度(例如,第一個實現人工智能的國家可能會擁有巨大的地緣政治/軍事優勢,從而產生復雜的結構性風險),那么國際關系不穩定等系統性風險可能會成為一個令人擔憂的問題。 「專家型人工智能」(如 「新興人工智能」、「勝任型人工智能 」和所有 「狹義 」人工智能類別),風險可能更多來自人類行為(如人工智能誤用風險,無論是意外、偶然還是惡意)。 對與每個級別相關的風險概況進行更全面的分析,是制定AGI分類法的關鍵一步,可以為安全/倫理研究和政策制定提供指導。
雖然能力為人工智能風險提供了先決條件,但人工智能系統(包括AGI系統)不會也不會在真空中運行。 相反,人工智能系統是與特定界面一起部署的,用于在特定場景中完成特定任務。 這些背景屬性(界面、任務、場景、最終用戶)對風險狀況有重大影響。AGI能力本身并不能決定風險方面的命運,而必須與背景細節結合起來考慮。
例如,考慮AGI系統用戶界面的承受能力。能力的不斷提高會釋放出新的交互范式,但并不能決定這些范式。 相反,系統設計者和終端用戶將確定一種人與人工智能的交互模式,這種模式將平衡包括安全性在內的各種考慮因素。作者建議用表2中描述的六個自主水平來描述人機交互范式。 這些自主水平與AGI水平相關。更高水平的自主性可通過AGI能力的提升而 「解鎖」。 圍繞人與人工智能的互動做出深思熟慮的選擇,對于安全、負責任地部署前沿人工智能模型至關重要。 要使特定的交互范式變得理想,可能需要某些方面的通用性。 例如,只有當人工智能系統在某些元認知能力(學會何時向人類尋求幫助、心智理論建模、社會情感技能)方面也表現出很強的性能時,自主性等級3、4和5(「合作者」、「專家 」和 「智能體」)才可能發揮良好的作用。 作者對第五級自主性(「作為智能體的人工智能」)的定義中隱含的意思是,這種完全自主的人工智能可以在沒有人類持續監督的情況下以一致的方式行動,但也知道何時向人類咨詢。 通過更好的任務規范、彌合流程鴻溝和產出評估來支持人類與人工智能協調的界面,是確保人機交互領域跟上與人工智能系統互動的挑戰和機遇的重要研究領域。
上表2說明了AGI級別、自主級別和風險之間的相互作用。 模型性能和通用性的進步提供了更多的交互范式選擇(包括潛在的完全自主的人工智能)。 這些交互范式反過來又引入了新的風險類別。 與單獨考慮模型能力相比,模型能力和交互設計的相互作用將使風險評估和負責任的部署決策更加細致入微。 表2還提供了作者提出的六個自主級別中每個級別的具體示例。 對于每個自主水平,作者都指出了 「解鎖 」該交互范式的相應性能和通用性水平(即該范式有可能或有可能成功部署和采用的AGI水平)。 作者對 「解鎖 」水平的預測往往要求狹義人工智能系統的性能水平高于通用人工智能系統。 例如,作者認為,無論是專家級狹義人工智能還是新興人工智能,都有可能將人工智能用作顧問。 這種差異反映了這樣一個事實,即對于通用系統來說,能力發展很可能是不均衡的。 例如,一級通用人工智能(「AGI雛形」)很可能在某些子任務集上達到二級甚至三級性能。 通用人工智能能力的這種不均衡性可能會使其在執行與其特定優勢相符的特定任務時獲得更高的自主水平。 在人類使用的背景下考慮 AGI 系統,可以讓我們思考模型的進步與人類-AI 交互范式的進步之間的相互作用。 模型的進步與人與人工智能交互范式的進步之間的相互作用。模型研究的作用可以看作是幫助系統的能力沿著通往AGI的道路不斷進步,提高其性能和通用性。 這樣,人工智能系統的能力將與人類能力的重疊部分越來越大。相反,人與人工智能交互研究的作用可以被視為確保新的人工智能系統能夠為人類所用并對人類有用,從而使人工智能系統成功地擴展人類的能力。參考資料:
2022年度國家自然科學基金項目3月20日截止,相信許多老師正在打磨項目本子。最近來自微軟高級項目經理前田納西大學教授Austin Z. Henley分享了自己在申請美國自然科學基金職業獎的項目申請心得,他申請中了,但離職去微軟了。。Austin 大方分享了自己的項目方案本子,非常值得學習參考。對國內申請優青等項目也非常值得借鑒!
作為一所研究型大學的教授,很大一部分工作就是寫項目申請。
但是要學會如何寫項目本子是很困難的。很少有項目文件被公開分享。基本上,你不得不向同事咨詢他們的意見或者對你的項目草稿給予反饋。你可能有機會審查資助機構的提案,這讓你看到部分決策是如何做出的。在提交項目方案后,你確實會得到反饋,盡管這是幾個月后的事情,很難理解。
所以我分享了我的美國國家科學基金會職業成就獎(NSF CAREER Award))的項目方案,以及我為什么這樣寫它。
NSF CAREER Award終身成就獎是一項為期5年的特別資助,個人研究員在其職業生涯的前6年左右只能申請3次。它被認為是“有聲望的”,在許多學校,它實際上意味著你將獲得終身教職。
我得到了那個獎,但我拒絕了。然后我辭去教職,投身工業界。
這篇文章的其余部分包含了我對提案文件和寫作過程的一些想法。如果您想了解更多關于這個研究主題的信息,請查看我的博客文章《一個好奇的代碼編輯器:在知道錯誤之前克服它們》。
首先,讓我給出一些背景與提示:
換句話說,不要輕信我的建議。
項目框架
我花了很多時間來組織我的項目本子。我建議要非常重視方案組織。概述是非常重要的,所以我為它做了一個圖表:
這里并不是一個適用于所有提案的通用組織。以下是我的草圖:
介紹。每個段落分別代表要解決的問題、高級解決方案、計劃和影響。
PI任職資格。非常快地描繪出你是誰 (例如,一個與行業有密切聯系的HCI/SE工具構建者)。說服評審專家你是做這項研究的合適人選。
背景及相關工作。與我的整體研究計劃最相關的幾個大想法。緊接著有更具體的相關工作。
提出研究方案。來到正文! 這塊有三個主要部分,每一部分都有:
評估計劃。在高層次上,我將如何評估所提議的研究的每個部分?我的總體思路有兩段。三個主要部分各一段。
教育計劃。在這方面不要省略。
預期成果。將會產生的成果列表。
更廣泛的影響。在這方面不要省略。我在每一段的開頭都復制粘貼了NSF自己的文字。
之前的支持。無聊的但要求。你有多少補助金,對結果說一兩句話。
說服評審專家
我的想法是,我試圖在評審專家的腦海中勾勒出一幅畫面。我并不是要把所有問題講得很全面。沒有足夠篇幅來說明。不要害怕打破常規的會議/期刊論文寫作方式來表達觀點。
當我在國家科學基金會的一個評審小組時,我很驚訝其他評審人員經常會問,“但是這個人是做這項研究的合適人選嗎?”所以不要給他們機會來質疑你是不是那個合適的人!
通過合作信函證明其他人關心你的工作,并在整個提案過程中呼吁這些合作。我收到了8封信,其中6封來自行業合作伙伴,2封來自學者。
與你以前的工作聯系起來。多做。一次又一次。根據結果給出數字。給出具體的例子。
把一切都和你的大目標聯系起來。明確。真正把它寫的有道理。你不希望讀者迷路吧。
你之前的工作不必和你的提議100%一致。它可能不會。只要有一點創造力,你就能找到其中的聯系。明確聲明連接(不要假設讀者會建立連接)。
人們告訴我,我需要有一半的工作已經發表,以證明這個想法是可行的。這不是我干的。我只有一篇簡短的論文(pdf格式)討論了這個想法的一小部分。
不要偷懶
**
**更廣泛的影響就是一切。事實上,在提交了我的第一個提案(NSF CRII)后,我的大學里有人說,“你的整個提案的影響更廣泛”,并建議我下次增加更多的“基礎研究”。我不聽。 許多研究人員似乎都在努力應對更廣泛的影響和教育計劃。這些部分通常在結尾加起來。你騙不了任何人。但這些部分實際上是一個脫穎而出的機會。很有創意!我講了我的博客,播客,還有黑客馬拉松。這些都是我無論如何都會做的事情,并且有多種目的(例如,發布我的作品)。我還將更廣泛的影響融入到所有的“實際”研究中。 我沒有結論部分。我不想在一個沒有任何新價值的部分上浪費空間,特別是當我已經多次重復我的主要觀點時。 在你發貨之前,去加點披薩。我總是翻著書頁問自己,“這看起來有多無聊?”我想在幾乎每一頁上都有一張漂亮的圖片,但沒有足夠的空間。為自己規范格式。用粗體或斜體呼叫某物。
預算
我把錢花在了什么地方?我的三個NSF提案基本上都有相同的預算,只是稍微調整了一下,使其低于限制。每年包括: 我自己一個月的暑期工資,一個研究生的工資高于平均水平,外加學費,沒有設備,我和研究生輪流參加國際和國內會議,以及支付用戶研究參與者的資金。我所在的大學的開銷高達53%。 參考鏈接://austinhenley.com/blog/500kgrant.html