** ****新智元報道 **
作者:胡延平編輯:好困 桃子**【新智元導讀】**生成60秒逼真視頻,只是未來的一個小功能,母模型根科技原力覺醒。來自未來實驗室的首席專家胡延平就爆火Sora模型做出了深度的個人解讀。 這幾天反復看Sora的技術報告,以及各方對Sora的技術分析。基本三個角度:驚呼強大功能,分析Sora(實現)大法,評估巨大沖擊。沖擊方面,主要關注點在于對影視、短視頻、娛樂等領域的影響。但是,**Sora改變AI認知方式,開啟走向「世界模擬器」的史詩級的漫漫征途,才是未來暴風眼,真正的重點。而世界模擬器,是遠比AGI、具身智能、元宇宙更炸裂的智能未來。**Sora技術報告最有價值、最語焉不詳、最容易產生不同理解的一句話是:「通過擴大視頻生成模型的規模,我們有望構建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路」。
而本文所述世界模擬器,與Sora目前自述以及業內理解,可能不太一樣。很顯然要么是Sora言過其實,要么是OpenAI留了一手,要么是現階段技術局限使然。
Sora不是英偉達高級科學家Jim Fan所稱的數據驅動的物理引擎、一個可學習的模擬器或世界模型,也不會像周鴻祎所言能夠讓AGI一兩年內就很快實現。從LLM的文本Token/向量表征,到走向模擬器但還不是模擬器的Patches表達,是原理變化的核心。技術報告在原理部分高度保留,極為簡略,但其中一張圖比較重要。Sora基于Transformer但是對Transformer進行了有力進化,結合了Difussion,Patches是關鍵。不過Sora怎么看都還只是二維視覺的時空表達,處處壓縮,Patches依然是圖像內容關系信息,且有文本烙印,并不是物理世界規律的多維表征。世界模擬器前面加個定語——二維視覺世界模擬器,也許更準確。
三維圖像是數字世界的空間構建,二維視覺其實是像素的運動變化組合。三維、二維視頻都可以看上去像是「物理的」,但實質可以只是運動變化擬合了物理規律,而不是像粒子渲染、工業仿真一樣進行了物理規則、內在性狀的數字構建。背后原因,如同你知道大模型輸出的答案,知道大模型的計算原理,但是卻像神經網絡/深度學習之父Geoffrey Hinton和OpenAI前首席科學家Ilya Sutskever一樣,其實不知道GPT是怎么「想」的。Patches所攜帶的像素、位置、時空信息,以及與周圍Patches的變化、運動、關系,在Transform的注意力機制和Difussion的正反向噪聲過程,經過大規模視頻數據訓練,具有了解構和重構一切二維視覺的能力,面向用戶表現為涌現式的生成,似乎充滿創造力且符合物理規律,但背后其實是Sora「理解」了Patches/像素的變化、運動、位置在時空意義上的關系的數學、算法表征,這些變化和表征又擬合了物理世界的某些合理性。(Patches并非像素)「理解」即算法,「思考」即模型。好拗口,好抽象,好累人,但可能這就是事實。比如,Sora的工程師可能投喂了數千萬甚至數億條視頻讓大模型來學習,但是可能沒有寫過哪怕一行與物理性狀規則有關的代碼。再比如,Sora可能的確學習了一些3D引擎生成的素材,并且像當初通過DOTA2游戲對戰來改進模型一樣,引入3D引擎來校正模型生成視頻在視覺意義上的物理運動表現,但是百分百可以肯定Sora目前并沒有內置3D引擎。Sora讓用戶以為它理解了物理世界、物理規律,就像用戶頭戴蘋果Vision Pro的時候以為看到了物理世界,但其實只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648x3144個像素的各種變化。 甚至圖像其實并不是連續的,而是以每秒90-96次的幀率不斷刷新,擬合人眼視覺原理,讓用戶產生視頻是連續的錯覺。一旦快速甩頭,畫面就會產生運動模糊。重度游戲玩家甚至能體會到畫面撕裂。視頻符合物理規律,不等于視頻的生成基于物理規律,更不等于生成視頻的大模型本身是數據驅動的物理引擎。所謂物理,可以只是視頻畫面整體與局部、前后幀統一的像素級的變化規律、表征關系。 2. 即使如此,Sora還是打開AI新視界大門的那個史詩級的里程碑,大模型認知重啟
在對Sora原理的各種猜測里,華人AI學者謝賽寧的分析最為貼近。**但是局限于技術原理的框架性拆解以及對靈活、可擴展性的強調,反倒沒有道出Sora的突變實質——大模型認知重啟。**此外,直覺謝賽寧認為Sora目前只有30億參數的估計也過于保守。 Sora被認為采用了以Transformer為主干的混合擴散模型DIT,其中DIT=VAE編碼器+VIT+DDPM+VAE解碼器。 此外,Sora還可能使用與Google的Patch n‘Pack(NaVit)類似的技術,以此適應不同分辨率、持續時間和?寬比。盡管在視頻標注、將提示詞轉化為詳細說明等方面,Sora充滿詳實且強烈的文本色彩,但Sora實質上是完全基于視覺、面向視覺、以圖像理解世界的大模型。這一點和過去GPT「文本數據元」(不是神經元)意義上的Token有很大不同,Patches是碎片、補片、基本單元意義上的「視覺信息元」(也不是神經元),Sora里的文本只是人與機器之間、機器與視頻之間的「翻譯者」、「說明書」。**圖像、視頻的信息量其實遠大于文本,呈現在視覺里的現實世界更是如此。海量視頻樣本,已經讓Sora建立了視覺世界的宏觀/微觀時空變化的基本動態關系「理解」。**如果將Sora連接到全球各地的機器人、智能汽車、MR頭顯、智能手機等設備,借助數智之眼,大模型將能夠: 1. 自己「親眼」看到、學習和了解這個世界,而不是僅僅依賴人類投喂給系統的有限文本數據,海量知識信息的「新視界」之門由此打開。 1. 智能設備后接Sora+GPT,實時感知現實,是對具身智能的有力加持,機器人等智能設備有希望獲得類似人類感知現實的視覺和判斷能力,看到即學習,判斷即意味。盡管一開始與人類感知能力還是有較大差距,但也遠非傳統計算機視覺可比。 1. 加之Sora式的大模型的Input和output本來就可以充分文本化,所以絲毫不用擔心這個機器認知的視覺世界和人類的自然語言交互/體感交互會有什么問題。這是一種機器知道視覺「意義」的理解過程。 Sora出現的最大意義,并非可以生成60秒、多個分鏡頭、主體統一的視頻,而是意味著大模型由此可以「睜開眼睛」看世界,這是不亞于人類認知重啟的AI的第一次認知重啟,并且這還不是全部。 3. 認知重啟通向世界模擬器,這意味著「原力覺醒」:大模型里的母模型,未來根科技
Sora還不是世界模擬器,但是表現出了這樣的潛力。它沒有產生終極答案,但是告訴了業者,隱約可行的方向在哪里。盡管Sora還遠不足以成為通用世界模擬器,但是Sora證明Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。從文本語義、視覺到物理,是大模型原理的三次飛躍,也是走向真正的通用(其實首先基于多領域專業模擬器)世界模擬器的進階路徑。
Sora還不是物理引擎,但是未來可以泛化為物理引擎。Patch還只是 ((x,y,z), t )、關系、色彩、內容信息意義上的視覺信息元,并不是神經元,但是未來可以進化為數字神經元。Transformer大模型無論如何都不可能具備人腦一般的量子能力,但是高維全局注意力機制局部具備擬合量子態的潛力。因為AI對智能進行表征的底層邏輯是數學的,相對人腦的直覺、模糊、隨機、潛意識等特征,大模型的機械與恍惚同在。但是一如判斷準確率從0、30%、50%、80%、90%以上一路走來,原理不斷升維,時空不斷轉換,面向AGI的進化表現為不斷接近高可用性、接近乃至超越人類智能的漸進過程。**但AGI不是終點,也不是圣杯,世界模擬器才是。**Sora有助于實現AGI,但Sora開啟的漫漫征途的主要指向并不是AGI,而是世界模擬器。AGI的定義有多種,經典意義上的AGI是類GPT在數據、算力、算法進化到一定程度之后,在知識、內容、程序等工作與創作方面,表現出總體達到局部超越人類智能的能力。AGI依然是工具,能夠支持具身智能,但不是具身智能。AGI并不真正具備內生、自主能力,更多時候只是為人所用的工具。
說到這一點,一定有必要**厘清智能發展的不同形態和不同階段,由此才能看清GPT4、Sora、AGI、世界模擬器所處的生態方位和時空節點。**當我們在說智能的時候,其實同時有三種智能。Smart意義上的功能智能,昔日AI意義上的計算感知智能,也就是弱(的)智能(AI1.0),2020年以來(尤其2023年被視為正式開端)認知智能意義上的強智能(AI2.0)。目前自動駕駛、機器人等智能水準嚴格意義上講處于AI1.0也就是弱智能范疇。強智能(AI2.0)對智能汽車、機器人等智能設備的二次賦能,是正在到來的趨勢。這也是盡管國內人工智能發展如火如荼,但實質存在代差的原因。一些受不了此強彼弱的人,大呼「我們也不差」,認為GPT這一波是在制造威脅論。其實無須嘴硬,凡事都要先爭個面子。只需實事求是,看清格局,抓住關鍵,迎頭趕上就好。**如何看待Sora/GPT的背后,還有另一個實質:有沒有看到戰略高地、科技龍頭、智能圣杯、變革引擎、暴風眼在哪里。強AI就是戰略高地,AI for Science就是科技龍頭,AGI就是眼前的智能圣杯,通用與各領域專業模型就是變革引擎,世界模擬器就是未來的暴風眼。前面說的三種智能都還只是形態水準,并不是對智能發展的階段區分。我將智能發展相對劃分為五個階段:計算功能智能、計算感知智能、認知智能、內生智能(EI)、自主智能(II)。****請注意,有一天AI人工智能這個提法會邊緣化,因為智能不再是「人工」的。人工的AGI自然不是終點,智能將比我們對AGI的預期走得更遠。**這一點我在《走向第二曲線》有詳細分析,此處不再贅述。
智能變革的核心是超級智能,超級智能的具身是AGI,AGI是AI2.0、認知智能的高級形態(但主要還是人工投喂人工增強的智能),AGI是現階段所言AI的高級形態,但不是EI內生智能和II自主智能。AGI不會像某些人說的一兩年內就會實現,但估計也就在GPT6前后。**之后的階段,屬于內生智能(EI)、自主智能(II),屬于世界模擬器。**世界模擬器是EI基石,II基準。****超級智能是世界之腦,超級智能的母體是世界模擬器。世界模擬器是大模型里的母模型,未來科技里的根科技。**看看大模型在工業仿真、環境氣候、材料預測、蛋白質分析、分子藥物、基因研究等領域已經遍地開花的強力開局,就會知道,Sora與它們正在殊途同歸:世界模擬器未來主要不是用來玩的,并不是元宇宙概念的炒資,而是科技生產力爆發點,是智能未來真正的炸裂點。**世界模擬器,科技里的母科技,AI for Science各領域的核心抓手,每個領域的交感、理解、復現、預測,未來世界的「CAE」仿真只是其基礎特性之一。世界模擬器,是最接近智能母體的存在。世界模擬器意味著「原力覺醒」,創新之源,科技驅動,戰略高地,不容有失。
Sora放出的所有視頻里,最具深度探討價值的其實是那個水杯傾倒的片段。 Sora是如何擬合現實的,究竟是不是物理引擎,如何才能成為符合物理特性的引擎,未來又如何才能夠成為世界模擬器。從中隱約可見答案。CV發展初期,計算機能做到的只是杯子邊緣輪廓特征提取和復現(比如Neocognitron),再后來可以識別到這是一個水杯(比如早期ImageNet),再后來可以「理解」水和杯子的關系(CNN&RNN),現在能夠開始學習和復現水杯傾倒過程(Transformer/Sora),接下來會怎么樣發展,也許只有大模型技術專家知道,也許都還在探索,并無定論。我只是站在用戶角度進行黑箱式的透析,超級智能接下來能不能夠做到這幾步?
水杯傾倒的流動特癥能不能完全符合物理特性,不出現目前的明顯瑕疵?對應流體力學等。
水杯傾倒后能不能做到視頻中的冰逐漸在水中融化(所以更感興趣那個漢堡咬痕)?對應熱力學等。
水杯傾倒后導致桌面桌布等濕化以后能不能看到水漬、水汽的光影與色彩變化(所以更感興趣那個畫布筆觸)?對應光學物理等。
水杯傾倒的過程能不能生成與實景契合的聲音,而不只是簡單聲效?對應聲學物理等。
水杯傾倒的角度與力量能不能做到隨機操控,產生碎裂、潑濺、蒸發等不同現象?綜合以上及凝聚態物理。
水杯傾倒周圍如果有電源、危化物品,能否進行場景預測、情景預現?對應電磁物理、物理化學等。 以上都只是物理角度的簡單引申,世界模擬器所需要對應到的科學領域,以及現實世界的復雜現象,甚至是目前數十個主要學科尚未能窮盡的。所以無論從過程還是領域而言,都是征途漫漫。但這才是星辰大海。相應的幾個循序漸進的問題是:
Sora可以對3D圖像而不是3D引擎生成的2D視頻進行學習訓練嗎?
Sora可以從微宏觀統一的尺度,對三維物體的內在性狀進行學習訓練嗎?
Sora可以在模型原理、神經網絡、節點層級對物理世界進行X(3.0)意義上的3D時空運動表征,并在世界虛擬器交感、理解、復現、預測四要素具備的基礎上使X進化為神經元嗎? 面向世界虛擬器的進化,遠不止這些問題,更不只是這些維度……總的來說,Sora部分擬合了「視覺規律」,但是還沒有真的理解「物理世界」。目前的Sora本質上還是在視覺內容世界里,更多與視頻、游戲、娛樂等相關。但并不妨礙Sora式的大模型下一步,進入機器人、智能汽車等主要智能設備,以及成為世界模擬器。AI For Science是世界模擬器的關鍵落地場景,而**AI For Science意義上的X(3.0)是物理世界與視覺世界的分叉點,就像Patch(2.0)是文本世界Token(1.0)與視覺世界的分叉點。**數據、學習、生成、預期是AGI四要素,信息內容感更強。交感、理解、復現、預測,是世界模擬器四要素,母體感知現實具身感更強。世界模擬器的Input和output,實質主要由機器智能系統自主完成,是具有自我強化和自主行為能力的智能。世界模擬器征途漫漫,必將通向EI、II。 5. 接下來的態勢會怎么樣?12種情況預估
**態勢1:Sora模型并非不可復制。**OpenAI如果短期內不正式推出Sora(快不了)給全球用戶,其它競爭對手也會陸續發布自己的類似產品,Patches做法早已有之,并非獨門暗器。OpenAI和Google、Meta之間只有時間差。但是中小團隊的數據差、資源差、算力差造成的競爭弱勢,只有原理升維才可能彌補。Pika、Runway如果不能在原理層面完成超越,哪怕勉強能夠追上Sora未來也是堪憂。另外,原理相似不等于效果相同,差之毫厘謬之千里。**態勢2:拚原理>拚算力,模型原理升維才是能力躍遷關鍵,但算力必不可少且需求繼續陡增。**Sora對prompt單次響應與output過程的算力消耗必然遠超GPT4.0,但這并不是重點。Sora再一次證明,拚原理的重要性遠大于拚算力,算力算什么(而不是算力)才見高下。原理引起的格局翻覆往往就在一瞬間,今后也是,翻覆還將多次。但算力總體需求依然呈現為爆發式增長,因為要算的不再只是文本/Token,視覺/Patches會令算力需求陡增。未來物理引擎、世界模擬器對各類傳感的接入需要和計算需求,更會令算力吃緊。即使眼前線性地看,高質量海量數據總是優于小體量數據,參數量大總是優于參數量小,模型的深層、多階段、反復思考總是優于單階段,高分辨率高精度總是顯著優于低精度,所以算力需求依然呈現為指數級增長。但總體而言,算力只是必要條件。**態勢3:以Transformer為主干的大模型依然是主要演進方向,且具有巨大潛力。**Self-Attention機制在電子計算的層級模擬了量子態(只是神似),消除了信息元之間的距離限制、消解了CNN的場域阻隔,在量子計算可用之前,是以數學、電子計算為基礎的最具腦特征的智能。**態勢4:輕與重,大和小,單一與混合,始終是兩種并行邏輯。**在計算機視覺模型走向大模型、進而走向世界模擬器的漫漫征途中,視頻看上去「合理」的Sora走的是一條更輕的捷徑,操控感、立體感、前后擴展自然不夠理想。3D建模、粒子渲染、光線追蹤從算力、設備和人工投資來說,又笨又重,但更貼近本質,且操控感更強。就像自動駕駛的兩條計算機視覺路線,一個靠CMOS圖像數據來算,一個靠雷達來對物理空間進行點云建模。目前只能說電影工業多了一個選擇,倒還沒有摧枯拉朽那么夸張。微電影、短視頻倒是因此生發出無限可能。**態勢5:功能瑕疵問題反倒不是問題,并且越往世界模擬器方向走,視頻生成的這些小問題越無關大局。**時間線前后擴展、主體融合過渡、場景置換、連續性、3D運鏡、多鏡頭、漢堡咬痕,這些只是目前的能力,Sora的可用性未來會更加超出預期。目前存在的左右腿瞬移、多指多趾、人物消失、運動變形、人穿過柵欄等bug多多,但是瑕不掩瑜,而且這些問題隨著訓練規模增加、模型不斷微調優化,必然迎刃而解。**態勢6:Sora與Vision Pro的確是一對想象力組合,但是以為戴上頭盔就可以念念有詞的,一多半可能會失望。**此外,VR在向MR進,AR在向MR退,VR以后只是MR的一個功能,MR是產業科技目前能夠到的交叉點,最難突破的AR未來才是主要形態。**態勢7:OpenAI本身的4個可能與6個不可能。**可能方面:成為主流AI開發者平臺,成為最大Store,形成數十億用戶生態,部分具身智能能力。不可能方面:7萬億美元造芯,模型原理持續領先,開源開放,縱橫整合產業鏈,成為具身智能/內生智能/自主智能,堅持初創理念不動搖不成為......尤其7萬億美元AI造芯那條忽悠了不少人的吊詭信息,是WSJ援引所謂消息人士,并不是奧特曼本人,已投Rain股權中的沙特基金在被美帝勸退,還和中東主權基金合計在美投資數萬億美元的大規模芯片制造?綠錢不參與的話,找夠相當于美元「風投+IPO」十幾年總額的資金做AI芯片,要么是概念吹瘋了,要么是常識缺位,要么是算數不會了。更重要的是,制造并不是AI計算突破重點。**態勢8:全生態轉變已開始,AI是主驅動但不是化學反應全部。**6個要素:感知(交互)、計算(數據)、智能(AI)、連接(網絡)、協約(關系)、能量(能源)等。**態勢9:變化非線形。**深層玩家不僅著眼算力提升,還在醞釀計算架構之變,變化不會是線性的,有可能業者討論的未來其實是現在,而不是升維后的未來。下一步模型原理、計算架構包括芯片,都將不斷有重大變化。**態勢10:AI原力在底層,應用只是需求牽引力。**國內團隊適合從應用著手說法沒錯,但過早定格一覺醒來發現樓塌了不是沒有可能,還是需要有人聚焦底層之變,包括硬件底層,硬仗有人打,至少緊跟。**態勢11:一定是云端邊-大中小-PPP混合AI,如此戰場方能展開;但不能只著眼AI,感數算智、軟硬協同、形態創新等維度交織才是完整視角,也是價值展開的關鍵。**如果只是窄化為算力算法意義上的AI,輕量化為場景需求意義上的應用,無異于互聯網思維,只可能第一天就卷,只可能是store里的一個GTPs、APPs,就像互聯網時代曾經活成了「很厲害」的APP的樣子;這是一場原力致勝的立體戰役,最需要褪去的就是互聯網思維;凡事偷輕,難堪重任;處處求簡,難當多面;全生態全體系變革,僅應用不足以催化,僅算力算法數據模型意義上的AI不足以驅動。**態勢12:壓力陡增。**回到老難題,中美AI之爭,李約瑟之問和錢學森之問。說實話GPT3.5、GPT4.0發布之際,壓力不那么大,總覺得有得一追,畢竟都還在文本、代碼、圖片維度。但是Sora一出,壓力陡增。升維比想象得快。競爭和發展不是二維、線性的。真正的物理世界模擬器,已經隱約能嗅到味道,且原理隱約可見。這才是AI未來競爭、大模型決勝的炸裂點。**朋友有句話說得好,當年Alpha Go/zero碾壓人類圍棋之后,事了拂衣去,一年后阿爾法Fold橫空處世,重塑了人類對蛋白質結構認知與預測,這才叫偉大工程。**Sora也是一樣,如果只以為它是60秒視頻生成神器,被網絡噴子噴成「洋人的奇技淫巧」,無用之用,可以說與業外對早期AlphaGo的「下棋玩具」理解有幾分神似。但如果從大模型睜開眼睛看世界,AI認知重啟,以及潛在的世界模擬器發展方向看,這顯然是正在覺醒的原力。企業如果忽視趨勢,在這一史詩級的漫漫征程中落伍,會被降維打擊得連親媽都認不出來。AI認知重啟,超級智能點亮億萬機器之心,世界虛擬器成為母模型根科技,不是科幻,這是一個時代的序幕。那么,AI認知已然重啟,人類的認知重啟了嗎?
作者介紹 胡延平,DCCI未來智庫創始人,FutureLabs未來實驗室首席專家,信息社會50人論壇成員。《全球創新前沿科技地圖》及相關研究項目主導,科技暢銷書《黑科技》(2017)共同作者與出品人。歷任《互聯網周刊》總編、中國互聯網協會交流發展中心主任等媒體與NGO職務,持續專注于前沿科技創新探索,角度專注于「從技術看產品,從產品看產業,從產業看生態」。1997以來出版多部科技專著。《奔騰時代(硅谷)》(1997)作者、《數字藍皮書》(2000)、《跨越數字鴻溝》、《第二次現代化》、《第四種力量》(2002)著者,《Google將帶來什么》(2009)譯者之一。
機器之心報道
轉載機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
第一手實測Claude3
地址://claude.ai/
Claude 3 是否真的像官方所宣稱的那樣,性能全面超越了 GPT-4?目前大多數人認為,確實有那么點意思。
以下是部分實測效果:
首先來一個腦筋急轉彎,哪一個月有二十八天?實際正確答案是每個月都有。看來 Claude 3 還不擅長做這種題。
接著我們又測試了一下 Claude 3 比較擅長的領域,從官方介紹可以看出 Claude 擅長「理解和處理圖像」,包括從圖像中提取文本、將 UI 轉換為前端代碼、理解復雜的方程、轉錄手寫筆記等。
對于大模型來說,經常分不清炸雞和泰迪,當我們輸入一張含有泰迪和炸雞的圖片時,Claude 3 給出了這樣的答案「這張圖片是一組拼貼畫,包含狗和炸雞塊或雞塊,它們與狗本身有著驚人的相似之處……」,這一題算過關。
接著問它里面有幾個人,Claude 3 也回答正確,「這幅動畫描繪了七個小卡通人物。」
Claude 3 可以從照片中提取文本,即使是中文、日文的豎行順序也可以正確識別:
如果我用網上的梗圖,它又要如何應對?有關視覺誤差的圖片,GPT-4 和 Claude3 給出了相反的猜測:
哪種是對的呢?
除了理解圖像外,Claude 處理長文本的能力也比較強,此次發布的全系列大模型可提供 200k 上下文窗口,并接受超過 100 萬 token 輸入。
效果如何呢?我們丟給它微軟、國科大新出不久的論文《 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 》,讓它按照 1、2、3 的方式總結文章要點,我們記錄了一下時間,輸出整體答案的時間大概有 15 秒左右。
不過這只是 Claude 3 Sonnet 的輸出效果,假如使用 Claude Pro 版本的話,速度會更快,不過要 20 美元一個月。
值得注意的是,現在 Claude 要求上傳的文章大小不超過 10MB,超過會有提示:
在 Claude 3 的博客中,Anthropic 提出新模型的代碼能力有大幅提升,有人直接拿基礎 ASCII 碼丟給 Claude,結果發現它毫無壓力:
我們應該可以確認,Claude 3 有比 GPT-4 更強的代碼能力。
前段時間,剛剛從 OpenAI 離職的 Karpathy 提出過一個「分詞器」挑戰。具體來說,就是將他錄制的 2 小時 13 分的教程視頻放進 LLM,讓其翻譯為關于分詞器的書籍章節或博客文章的格式。
面對這項任務,Claude 3 接住了,以下是 AnthropicAI 研究工程師 Emmanuel Ameisen 曬出的結果:
或許是不再利益相關,Karpathy 給出了比較充分、客觀的評價:
從風格上看,確實相當不錯!如果仔細觀察,會發現一些微妙的問題 / 幻覺。不管怎么說,這個幾乎現成就能使用的系統還是令人印象深刻的。我很期待能多玩 Claude 3,它看起來是一個強大的模型。
如果說有什么相關的事情我必須說出來的話,那就是人們在進行評估比較時應該格外小心,這不僅是因為評估結果本身比你想象的要糟糕,還因為許多評估結果都以未定義的方式被過擬合了,還因為所做的比較可能是誤導性的。GPT-4 的編碼率(HumanEval)不是 67%。每當我看到這種比較被用來代替編碼性能時,我的眼角就會開始抽搐。
根據以上各種刁鉆的測試結果,有人已經喊出「Anthropic is so back」了。
最后,anthropic 還推出了一個包含多個方向提示內容的 prompt 庫。如果你想要深入了解 Claude 3 的新功能,可以嘗試一下。
鏈接:
Claude 3 系列模型
Claude 3 系列模型的三個版本分別是 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
其中 Claude 3 Opus 是智能程度最高的模型,支持 200k tokens 上下文窗口,在高度復雜的任務上實現了當前 SOTA 的性能。該模型能夠以絕佳的流暢度和人類水平的理解能力來處理開放式 prompt 和未見過的場景。Claude 3 Opus 向我們展示了生成式 AI 可能達到的極限。
Claude 3 Sonnet 在智能程度與運行速度之間實現了理想的平衡,尤其是對于企業工作負載而言。與同類模型相比,它以更低的成本提供了強大的性能,并專為大規模 AI 部署中的高耐用性而設計。Claude 3 Sonnet 支持的上下文窗口為 200k tokens。
Claude 3 Haiku 是速度最快、最緊湊的模型,具有近乎實時的響應能力。有趣的是,它支持的上下文窗口同樣是 200k。該模型能夠以無與倫比的速度回答簡單的查詢和請求,用戶通過它可以構建模仿人類交互的無縫 AI 體驗。
接下來我們詳看一下 Claude 3 系列模型的特性和性能表現。
全面超越 GPT-4,實現智能水平新 SOTA
作為 Claude 3 系列中智能水平最高的模型,Opus 在 AI 系統的大多數評估基準上都優于競品,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA) 、基礎數學(GSM8K)等基準。并且,Opus 在復雜任務上表現出接近人類水平的理解力和流暢度,引領通用智能的前沿。 此外,包括 Opus 在內,所有 Claude 3 系列模型都在分析和預測、細致內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面實現了能力增強。 下圖為 Claude 3 模型與競品模型在多個性能基準上的比較,可以看到,最強的 Opus 全面優于 OpenAI 的 GPT-4。
近乎實時響應
Claude 3 模型可以支持實時客戶聊天、自動補充和數據提取等響應必須立即且實時的任務。 Haiku 是智能類別市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內讀完一篇包含密集圖表和圖形信息的 arXiv 平臺論文(約 10k tokens)。 對于絕大多數工作,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。 強大的視覺能力 Claude 3 具有與其他頭部模型相當的復雜視覺功能。它們可以處理各種視覺格式數據,包括照片、圖表、圖形和技術圖表。 Anthropic 表示,它們的一些客戶 50% 以上的知識庫以各種數據格式進行編程,例如 PDF、流程圖或演示幻燈片。因此,新模型強大的視覺能力非常有幫助。
更少拒絕回復
以前的 Claude 模型經常做出不必要的拒絕,這表明模型缺乏語境理解。Anthropic 在這一領域取得了有意義的進展:與前幾代模型相比,即使用戶 prompt 接近系統底線,Opus、Sonnet 和 Haiku 拒絕回答的可能性明顯降低。如下所示,Claude 3 模型對請求表現出更細致的理解,能夠識別真正的有害 prompt,并且拒絕回答無害 prompt 的頻率要少得多。
準確率提高
為了評估模型的準確率,Anthropic 使用了大量復雜的、事實性問題來解決當前模型中的已知弱點。Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和不確定性回答,也就是模型不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤回答。 除了產生更值得信賴的回復之外,Anthropic 還將在 Claude 3 模型中啟用引用,以便模型可以指向參考材料中的精確句子來證實回答。
長上下文和近乎完美的召回能力
Claude 3 系列型號在發布時最初將提供 200K 上下文窗口。然而,官方表示所有三種模型都能夠接收超過 100 萬 token 的輸入,此能力會被提供給需要增強處理能力的特定用戶。 為了有效地處理長上下文提示,模型需要強大的召回能力。Needle In A Haystack(NIAH)評估衡量模型可以從大量數據中準確回憶信息的能力。Anthropic 通過在每個提示中使用 30 個隨機 Needle/question 對在不同的眾包文檔庫上進行測試,增強了該基準的穩健性。Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率。而且在某些情況下,它甚至識別出了評估本身的局限性,意識到「針」句子似乎是人為插入到原始文本中的。
安全易用
Anthropic 表示,其已建立專門團隊來跟蹤和減少安全風險。該公司也在開發 Constitutional AI 等方法來提高模型的安全性和透明度,并減輕新模式可能引發的隱私問題。 雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指標方面取得了進步,但根據研究,新模型處于 AI 安全級別 2(ASL-2)以內。 在使用體驗上,Claude 3 比以往模型更加擅長遵循復雜的多步驟指令,更加可以遵守品牌和響應準則,從而可以更好地開發可信賴的應用。此外,Anthropic 表示 Claude 3 模型現在更擅長以 JSON 等格式生成流行的結構化輸出,從而可以更輕松地指導 Claude 進行自然語言分類和情感分析等用例。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址: 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。 博客地址: 參考內容:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
** ****新智元報道 **
編輯:編輯部**【新智元導讀】為何Sora會掀起滔天巨浪?Sora的技術,就是機器模擬我們世界的下一步。而且今天有人扒出,Sora創新的核心秘密時空Patches,竟是來自谷歌DeepMind和謝賽寧的論文成果。**
OpenAI,永遠快別人一步!像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級大殺器Gemini 1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶了去。100萬token的上下文,僅靠一本語法書就學會了一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。這次,不過也是之前歷史的重演。 為什么ChatGPT會提前誕生?《這就是ChatGPT》一書對此進行了揭秘:當時OpenAI管理層聽說,從OpenAI「叛逃」的前員工創立的公司Anthropic Claude有意提前推出Chatbot。管理層立馬意識到這個產品潛力巨大,于是先下手為強,第一時間改變節奏,出手截胡Anthropic。11月中旬,在研發GPT-4的OpenAI員工收到指令:所有工作暫停,全力推出一款聊天工具。兩周后,ChatGPT誕生,從此改變人類歷史。或許,這也就揭示了為什么一家公司可以永載史冊的原因:領導者能夠發現有市場潛力的新產品,全面攔截所有成功的可能性。對于谷歌被截胡一事,網友銳評道:OpenAI用Sora對抗Gemini發布的方式簡直了,谷歌從沒有受過這樣的打擊。
這不得不讓人懷疑,OpenAI手里是不是還攥著一堆秘密武器,每當競爭對手發布新技術,他們就放出來一個爆炸級消息。
要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。 為何Sora掀起滔天巨浪
Sora一出,馬斯克直接大呼:人類徹底完蛋了! 馬斯克為什么這么說?OpenAI科學家Tim Brooks表示,沒通過人類預先設定,Sora就自己通過觀察大量數據,自然而然學會了關于3D幾何形狀和一致性的知識。從本質上說,Sora的技術,就是機器模擬我們世界的一個里程碑。外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時刻。
更有人表示,在Sora之中,我切實感受到了AGI。
這也就是為什么Sora會在全世界掀起滔天巨浪的原因。要了解Sora如此強大的能力從何而來,除了OpenAI官方給出的技術報告,行業大佬也進行了進一步的解讀。LeCun轉發了華人學者謝賽寧的推文,認為Sora基本上是基于謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。
而和謝賽寧一起合著這篇論文的William Peebles之后也加入了OpenAI,領導了開發Sora的技術團隊。
所以謝賽寧的對于Sora的技術解讀,具備極高的參考價值。
謝賽寧:Sora很厲害,不過好像是用了我的論文成果
AI大神謝賽寧,針對Sora的技術報告談了自己的看法。 項目地址://wpeebles.com/DiT- 架構:Sora應該是基于他和Bill之前在ICCV 2023上提出的以Transformer為主干的擴散模型(DIT)其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。根據技術報告,好像沒有其他特別的設計了。-「視頻壓縮網絡」:似乎是一個VAE,但訓練的是原始視頻數據。在獲得良好的時間一致性方面,tokenize可能起了很重要的作用。VAE是一個ConvNet。所以從技術上講,DIT是一個混合模型。
謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。這可能就是Sora為什么要基于DIT構建的主要原因。首先,簡單意味著靈活當涉及到輸入數據時,如何使模型更加靈活。例如,在掩碼自動編碼器(MAE)中,VIT幫助我們只處理可見的patch,而忽略掉被mask的。同樣,Sora可以通過在適當大小的網格中安排隨機初始化的patch來控制生成的視頻的大小。UNet并不直接提供這種靈活性。猜測:Sora可能還會使用谷歌的Patch n‘Pack(Navit),以使DIT能夠適應不同的分辨率/持續時間/長寬比。其次,可擴展性是DIT論文的核心主題就每Flop的時鐘時間而言,優化的DiT比UNet運行得快得多。更重要的是,Sora證明了DIT縮放法則不僅適用于圖像,現在也適用于視頻——Sora復制了DIT中觀察到的視覺縮放行為。猜測:在Sora的演示中,第一個視頻的質量相當差,謝懷疑它使用的是最基礎的模型。粗略計算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個參數。
如果真的是如此,Sora的模型規模可能沒有那么大。這可能表明,訓練Sora可能不需要像人們預期的那樣,有非常大的算力要求,所以他預測未來Sora迭代的速度將會很快。
進一步的,謝賽寧解釋了Sora提供的關鍵的洞見來自「涌現的模擬能力」這一表現上。在Sora之前,尚不清楚長期形式的一致性是否會自行涌現,或者是否需要復雜的主題驅動的其他流程,甚至是物理模擬器。而現在OpenAI已經表明,雖然現在結果還不完美,但這些行為和能力可以通過端到端的訓練來實現。然而,有兩個要點還不是很明確。1. 訓練數據:技術報告沒有涉及訓練的數據集,這可能意味著數據是Sora成功的最關鍵因素。目前已經有很多關于游戲引擎數據的猜測。他期待包括電影、紀錄片、電影長鏡頭等。2. (自回歸)長視頻生成:Sora的一個重大突破是生成超長視頻的能力。制作一段2秒的視頻和1分鐘的視頻之間的差異是巨大的。Sora可能是通過允許自回歸采樣的聯合幀預測來實現的,但這里最主要挑戰是如何解決誤差累積問題,并隨著時間的推移保持質量/一致性。 OpenAI Sora的技術,就是機器模擬我們世界的重要下一步
AI究竟如何將靜態圖形轉換為動態、逼真的視頻?Sora的一大創新,就是創新性地使用了時空patch。通過底層訓練和patch,Sora能夠理解和開發近乎完美的視覺模擬,比如Minecraft這樣的數字世界。這樣,它就會為未來的AI創造出訓練內容。有了數據和系統,AI就能更好地理解世界。 從此,我們可以解鎖VR的新高度,因為它改變了我們看待數字環境的方式,將VR的邊界推向了新的高度,創建出近乎完美的3D環境。可以在Apple Vision Pro或Meta Quest上按需與空間計算配對了。除了謝賽寧的解讀之外,AI專家Vincent Koc,也對此展開了詳細分析。
以往,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和局限性。而Sora引入的,是一種全新的范式轉變——新的建模技術和靈活性,可以處理各種時間、縱橫比和分辨率。Sora所做的,是把Diffusion和Transformer架構結合在一起,創建了diffusion transformer模型。于是,以下功能應運而生——文字轉視頻:將文字內容變成視頻 圖片轉視頻:賦予靜止圖像動態生命 視頻風格轉換:改變原有視頻的風格 視頻時間延展:可以將視頻向前或向后延長 創造無縫循環視頻:制作出看起來永無止境的循環視頻 生成單幀圖像視頻:將靜態圖像轉化為最高2048 x 2048分辨率的單幀視頻 生成各種格式的視頻:支持從1920 x 1080到1080 x 1920之間各種分辨率格式 模擬虛擬世界:創造出類似于Minecraft等游戲的虛擬世界 創作短視頻:制作最長達一分鐘的視頻,包含多個短片這就好比,我們正在廚房里。傳統的視頻生成模型,比如Pika和RunwayML,就像照著食譜做飯的廚師一樣。他們可以做出好吃的菜肴(視頻),但會受到他們所知的食譜(算法)所限。使用特定的成分(數據格式)和技術(模型架構),它們只擅長烘焙蛋糕(短片)或烹飪意大利面(特定類型的視頻)。 而與他們不同的是,Sora是一位基礎知識扎實的新型廚師。它不僅能照著舊食譜做菜,還能自己發明新食譜!這位住大廚多才多藝,對于食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高質量的視頻。
時空patch,是Sora創新的核心。 它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。
論文地址: Image is Worth 16x16 Words」。
論文地址:
然而,視覺Transforemr對圖像訓練數據的限制是固定的,這些數據的大小和縱橫比是固定的,這舊限制了質量,并且需要大量的圖像預處理。
而通過將視頻視為patch序列,Sora保持了原始的縱橫比和分辨率,類似于NaViT對圖像的處理。這種保存,對于捕捉視覺數據的真正本質至關重要!通過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。
時空patch的可視化這種方法使Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。這種靈活性確保了每條數據都有助于模型的理解,就像廚師可以使用各種食材,來增強菜肴的風味特征一樣。時空patch對視頻數據詳細而靈活的處理,為精確的物理模擬和3D一致性等復雜功能奠定了基礎。從此,我們可以創建看起來逼真且符合世界物理規則的視頻,人類也得以一窺AI創建復雜、動態視覺內容的巨大潛力。
訓練數據的質量和多樣性,對于模型的性能至關重要。傳統的視頻模型,是在限制性更強的數據集、更短的長度和更窄的目標上進行訓練的。而Sora利用了龐大而多樣的數據集,包括不同持續時間、分辨率和縱橫比的視頻和圖像。它能夠重新創建像Minecraft這樣的數字世界,以及來自Unreal或Unity等系統的模擬世界鏡頭,以捕捉視頻內容的所有角度和各種風格。 這樣,Sora就成了一個「通才」模型,就像GPT-4對于文本一樣。這種廣泛的訓練,使Sora能夠理解復雜的動態,并生成多樣化、高質量的內容。這種方法模仿了在各種文本數據上訓練LLM的方式,將類似的理念應用于視覺內容,實現了通才功能。
可變Patches NaVit與傳統的視覺TransformerNaViT模型通過將來自不同圖像的多個patch打包到單個序列中,得到了顯著的訓練效率和性能提升一樣。同樣地,Sora利用時空patch在視頻生成中實現類似的效率。這種方法允許模型從龐大的數據集中更有效地學習,提高了模型生成高保真視頻的能力,同時降低了與現有建模架構相比所需的計算量。
3D空間和物體的一致性,是Sora演示中的關鍵亮點。通過對各種視頻數據進行訓練,無需對視頻進行調整或預處理,Sora就學會了以令人印象深刻的精度對物理世界進行建模,原因就在于,它能夠以原始形式使用訓練數據。在Sora生成的視頻中,物體和角色在三維空間中令人信服地移動和交互,即使它們被遮擋或離開框架,也能保持連貫性。從此,現實不存在了,創造力和現實主義的界限被突破。并且,Sora為模型的可能性設立了全新的標準,開源社區很可能會掀起視覺模型的全新革命。而現在,Sora的旅程才剛剛開始呢,正如OpenAI所說,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的道路。前方,就是AGI和世界模型了。不過好在,OpenAI員工透露說,Sora短期內不會面世。 一位OpenAI員工發推表示,現在Sora只會在有限的范圍內試用,現在放出的demo主要是為了獲得社會大眾對它能力的反應現在,標榜要開發負責任AGI的OpenAI,應該不會冒著風險給大眾拋出一個潘多拉魔盒。參考資料:
** ****新智元報道 **
編輯:潤 好困**【新智元導讀】**艾倫人工智能研究所等5機構最近公布了史上最全的開源模型「OLMo」,公開了模型的模型權重、完整訓練代碼、數據集和訓練過程,為以后開源社區的工作設立了新的標桿。
多年來,語言模型一直是自然語言處理(NLP)技術的核心,考慮到模型背后的巨大商業價值,最大最先進的模型的技術細節都是不公開的。 現在,真·完全開源的大模型來了! 來自艾倫人工智能研究所、華盛頓大學、耶魯大學、紐約大學和卡內基梅隆大學的研究人員,聯合發表了一項足以載入AI開源社區史冊的工作—— 他們幾乎將從零開始訓練一個大模型過程中的一切數據和資料都開源了! 論文://allenai.org/olmo/olmo-paper.pdf 權重: 適配:
具體來說,艾倫人工智能研究所推出的這個開放大語言模型(Open Language Model,OLMo)實驗和訓練平臺,則提供了一個完全開源的大模型,以及所有和訓練開發這個模型有關的數據和技術細節—— **訓練和建模:**它包括完整的模型權重、訓練代碼、訓練日志、消融研究、訓練指標和推理代碼。 **預訓練語料:**一個包含了高達3T token的預訓練開源語料庫,以及產生這些訓練數據的代碼。
**模型參數:**OLMo框架提供了四個不同架構、優化器和訓練硬件體系下的7B大小的模型,以及一個1B大小的模型,所有模型都在至少2T token上進行了訓練。 同時,也提供了用于模型推理的代碼、訓練過程的各項指標以及訓練日志。
7B:OLMo 7B、OLMo 7B (not annealed)、OLMo 7B-2T、OLMo-7B-Twin-2T **評估工具:**公開了開發過程中的評估工具套件,包括每個模型訓練過程中每1000 step中包含的超過500個的檢查點以及評估代碼。 所有數據都在apache 2.0下授權使用(免費商用)。
如此徹底的開源,似乎是給開源社區打了個樣——以后不像我這樣開源的,就別說自己是開源模型了。
性能評估
從核心的評估結果來看,OLMo-7B與同類開源模型相比略勝一籌。 在前9項評測中,OLMo-7B有8項排名前三,其中有2項超越了其他所有模型。 在很多生成任務或閱讀理解任務(例如truthfulQA)上,OLMo-7B都超過了Llama 2,但在一些熱門的問答任務(如MMLU或Big-bench Hard)上表現則要差一些。
前9個任務是研究人員對預訓練模型的內部評估標準,而下面三個任務則是為了完善HuggingFace Open LLM排行榜而加入的 下圖展示了9個核心任務準確率的變化趨勢。 除了OBQA外,隨著OLMo-7B接受更多數據的訓練,幾乎所有任務的準確率都呈現上升趨勢。
與此同時,OLMo 1B與其同類模型的核心評估結果表明,OLMo與它們處于同一水平。
通過使用艾倫AI研究所的Paloma(一個基準測試)和可獲取的檢查點,研究人員分析了模型預測語言能力與模型規模因素(例如訓練的token數量)之間的關系。 可以看到,OLMo-7B在性能上與主流模型持平。其中,每字節比特數(Bits per Byte)越低越好。
通過這些分析,研究人員發現模型在處理不同數據源時的效率差異較大,這主要取決于模型訓練數據與評估數據的相似度。 特別地,OLMo-7B在主要基于Common Crawl的數據源上表現出色(比如C4)。 不過,在與網絡抓取文本關系不大的數據源上,如WikiText-103、M2D2 S2ORC和M2D2 Wikipedia,OLMo-7B與其他模型相比效率較低。 RedPajama的評估也體現了相似的趨勢,可能是因為它的7個領域中只有2個來源于Common Crawl,且Paloma對每個數據源中的各個領域給予了相同的權重。 鑒于像Wikipedia和arXiv論文這樣的精選數據源提供的異質數據遠不如網絡抓取文本豐富,隨著預訓練數據集的不斷擴大,維持對這些語言分布的高效率會很更加困難。
OLMo架構
在模型的架構方面,團隊基于的是decoder-only的Transformer架構,并采用了PaLM和Llama使用的SwiGLU激活函數,引入了旋轉位置嵌入技術(RoPE),并改進了GPT-NeoX-20B的基于字節對編碼(BPE)的分詞器,以減少模型輸出中的個人可識別信息。 此外,為了保證模型的穩定性,研究人員沒有使用偏置項(這一點與PaLM的處理方式相同)。 如下表所示,研究人員已經發布了1B和7B兩個版本,同時還計劃很快推出一個65B的版本。
下表詳細比較了7B架構與這些其他模型在相似規模下的性能。
雖然研究人員在獲取模型參數方面取得了一定的進展,但開源社區目前預訓練數據集的開放程度還遠遠不夠。 之前的預訓練數據往往不會隨著模型的開源而公開(閉源模型就更不用說了)。 而且有關這些數據的說明文檔也常常缺乏足夠的細節,但是這些細節對于想要復現研究或完全理解相關工作至關重要。 這一情況加大了語言模型研究的難度——比如,了解訓練數據如何影響模型能力和其局限性。 為了推動語言模型預訓練領域的開放研究,研究人員構建并公開了預訓練數據集Dolma。 這是一個包含了從 7 種不同數據來源獲取的3萬億個token的多樣化、多源語料庫。 這些數據源一方面在大規模語言模型預訓練中常見,另一方面也能被普通大眾所接觸。 下表給出了來自各個數據源的數據量的概覽。
Dolma的構建過程包括六個步驟:語言過濾、質量過濾、內容過濾、去重、多源混合和token化。 在整理和最終發布Dolma過程中,研究人員確保各數據源的文檔保持獨立。 他們還開源了一套高效的數據整理工具,這套工具能夠幫助進一步研究Dolma、復制成果,并簡化預訓練語料庫的整理工作。 此外,研究人員也開源了WIMBD工具,以助于數據集分析。
網絡數據處理流程
代碼處理流程 訓練OLMo
研究人員利用PyTorch的FSDP框架和ZeRO優化器策略來訓練模型。這種方法通過將模型的權重和它們對應的優化器狀態在多個GPU中進行分割,從而有效減少了內存的使用量。 在處理高達7B規模的模型時,這項技術使研究人員能夠在每個GPU上處理4096個token的微批大小,以實現更高效的訓練。 對于OLMo-1B和7B模型,研究人員固定使用大約4M token(2048個數據實例,每個實例包含2048個token的序列)的全局批大小。 而對于目前正在訓練中的OLMo-65B模型,研究人員采用了一個批大小預熱策略,起始于大約2M token(1024個數據實例),之后每增加100B token,批大小翻倍,直至最終達到大約16M token(8192個數據實例)的規模。
為了加快模型訓練的速度,研究人員采用了混合精度訓練的技術,這一技術是通過FSDP的內部配置和PyTorch的amp模塊來實現的。 這種方法特別設計,以確保一些關鍵的計算步驟(例如softmax函數)始終以最高精度執行,以保證訓練過程的穩定性。 與此同時,其他大部分計算則使用一種稱為bfloat16的半精度格式,以減少內存使用并提高計算效率。 在特定配置中,每個GPU上的模型權重和優化器狀態都以最高精度保存。 只有在執行模型的前向傳播和反向傳播,即計算模型的輸出和更新權重時,每個Transformer模塊內的權重才會臨時轉換為bfloat16格式。 此外,各個GPU間同步梯度更新時,也會以最高精度進行,以確保訓練質量。
研究人員采用了AdamW優化器來調整模型參數。 無論模型規模大小如何,研究人員都會在訓練初期的5000步(大約處理21B個token)內逐漸增加學習率,這一過程稱為學習率預熱。 預熱結束后,學習率將按線性規律逐漸減少,直到降至最高學習率的十分之一。 此外,研究人員還會對模型參數的梯度進行裁剪,確保其總的 L1 范數不會超過 1.0。 在下表中,研究人員將自己在7B模型規模下的優化器配置與近期其他使用AdamW優化器的大型語言模型進行了對比。
研究人員利用開放數據集Dolma中的一個2T token的樣本,構建了他們的訓練數據集。 研究人員將每篇文檔的token連接起來,每篇文檔的末尾都會加上一個特殊的 EOS token,接著將這些 token 分成每組 2048 個,形成訓練樣本。 這些訓練樣本在每次訓練時都會以同樣的方式進行隨機打亂。研究人員還提供了一些工具,使得任何人都可以復原每個訓練批次的具體數據順序和組成。 研究人員已經發布的所有模型至少都經過了一輪(2T token)的訓練。其中一些模型還進行了額外的訓練,即在數據上進行第二輪訓練,但采用了不同的隨機打亂順序。 根據之前的研究,這樣重復使用少量數據的影響是微乎其微的。
為了確保代碼庫能夠同時在英偉達和AMD的GPU上都能高效運行,研究人員選擇了兩個不同的集群進行了模型訓練測試: 利用LUMI超級計算機,研究人員部署了最多256個節點,每個節點搭載了4張AMD MI250X GPU,每張GPU 擁有128GB內存和800Gbps的數據傳輸速率。 通過MosaicML (Databricks) 的支持,研究人員使用了27個節點,每個節點配備了8張英偉達A100 GPU,每張GPU擁有40GB內存和800Gbps的數據傳輸速率。 雖然研究人員為了提高訓練效率對批大小進行了微調,但在完成2T token的評估后,兩個集群的性能幾乎沒有差異。
訓練能耗 總結
與以往大多數僅僅提供模型權重和推理代碼的模型不同,研究人員開源了OLMo的全部內容,包括訓練數據、訓練和評估代碼,以及訓練日志、實驗結果、重要發現以及Weights & Biases的記錄等等。 此外,團隊正在研究如何通過指令優化和不同類型的強化學習(RLHF)來改進OLMo。而這些微調代碼、數據和經過微調后的模型也都會被開源。 研究人員致力于持續支持和發展OLMo及其框架,推動開放語言模型(LM)的發展,助力開放研究社區的發展。為此,研究人員計劃引入更多不同規模的模型、多種模態、數據集、安全措施和評估方法,豐富OLMo家族。 他們希望通過今后持續進行的徹底開源工作,增強開源研究社區的力量,并引發新一輪的創新浪潮。 團隊介紹
**
Yizhong Wang是華盛頓大學Paul G. Allen計算機科學與工程學院的博士生,導師是Hannaneh Hajishirzi和Noah Smith。同時,也是艾倫人工智能研究所的兼職研究實習生。 此前,他曾在Meta AI、微軟研究院和百度NLP進行實習。此前,他在北京大學獲得了碩士學位,在上海交通大學獲得了學士學位。 他的研究方向是自然語言處理(Natural Language Processing)、機器學習(Machine Learning),以及大語言模型(LLM)。
Yuling Gu是艾倫人工智能研究所(AI2)Aristo團隊的一位研究員。 2020年,她在紐約大學(NYU)獲得學士學位。除了主修的計算機科學外,她還輔修了一個跨學科專業——語言與心智,這個專業結合了語言學、心理學和哲學。隨后,她在華盛頓大學(UW)獲得了碩士學位。 她對機器學習的技術和認知科學的理論的融合應用充滿了熱情。參考資料:
轉載機器之心報道
編輯:陳萍、張倩這篇由微軟撰寫的報告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。
一周之前,ChatGPT迎來重大更新,不管是 GPT-4 還是 GPT-3.5 模型,都可以基于圖像進行分析和對話。與之對應的,多模態版GPT-4V模型相關文檔也一并放出。當時 OpenAI 放出的文檔只有18頁,很多內容都無從得知,對于想要更深入了解GPT-4V應用的人來說,難度還是相當大的。 短短幾天時間,當大家還在死磕OpenAI 放出的18頁文檔時,微軟就公布了一份長達166頁的報告,定性地探討了GPT-4V的功能和使用情況。
報告地址: MedARC(醫療人工智能研究中心)聯合創始人兼CEO Tanishq Mathew Abraham表示,「這篇報告將是GPT-4V高級用戶的必讀之作。」
該報告共分為11個章節,重點是對最新模型 GPT-4V(ision)進行分析,以加深大眾對 LMM(大型多模態模型) 的理解。文章用很大篇幅介紹了GPT-4V可以執行的任務,包括用測試樣本來探索GPT-4V的質量和通用性,現階段GPT-4V能夠支持的輸入和工作模式,以及提示模型的有效方法。 在探索 GPT-4V 的過程中,該研究還精心策劃組織了涵蓋各個領域和任務的一系列定性樣本。對這些樣本的觀察表明,GPT-4V 在處理任意交錯的多模態輸入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成為強大的多模態通用系統。 此外,GPT-4V 對圖像獨特的理解能力可以催生新的人機交互方法,例如視覺參考提示(visual referring prompting)。報告最后深入討論了基于 GPT-4V 的系統的新興應用場景和未來研究方向。該研究希望這一初步探索能夠激發未來對下一代多模態任務制定的研究,開發和增強 LMM 解決現實問題的新方法,并更好地理解多模態基礎模型。 下面我們逐一介紹每個章節的具體內容。 論文概覽
論文第一章介紹了整個研究的基本情況。作者表示,他們對GPT-V4的探討主要在以下幾個問題的指導下進行: 1、GPT-4V 支持哪些輸入和工作模式?多模態模型的通用性必然要求系統能夠處理不同輸入模態的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針方面表現出了前所未有的能力。他們還證明,GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術,包括指令跟隨、思維鏈、上下文少樣本學習等。 2、GPT-4V 在不同領域和任務中表現出的質量和通用性如何?為了了解 GPT-4V 的能力,作者對涵蓋廣泛領域和任務的查詢進行了采樣,包括開放世界視覺理解、視覺描述、多模態知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等。GPT-4V 在許多實驗領域都表現出了令人印象深刻的人類水平的能力。 3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能夠很好地理解像素空間編輯,例如在輸入圖像上繪制的視覺指針和場景文本。受這種能力的啟發,研究者討論了「視覺參考提示」,它可以直接編輯輸入圖像以指示感興趣的任務。視覺參考提示可與其他圖像和文本提示無縫結合使用,為教學和示例演示提供了一個細致入微的界面。 4、未來的發展方向是什么?鑒于 GPT-4V 在跨領域和跨任務方面的強大能力,我們不禁要問,多模態學習乃至更廣泛的人工智能的下一步是什么?作者將思考和探索分為兩個方面,即需要關注的新出現的應用場景,以及基于 GPT-4V 系統的未來研究方向。他們介紹了他們的初步探索結果,以啟發未來的研究。 中文版
當地時間 5 月 10 日上午,一年一度的谷歌 I/O 來了,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。PaLM 二代模型****支持多語言、更強的數學、代碼能力
首先,谷歌給出了自己對標 GPT-4 的大模型 PaLM 2。 要說這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。
在過去的幾年里,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。
谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是將計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。
會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。
皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。
從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。
PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級別的高級語言能力考試。
與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成服務的一部分推出。 皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。
谷歌內部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分別針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。
其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從圖像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型。
皮查伊在會上展示了 Med-PaLM 2 的醫療內容生成效果。
目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 將繼續為谷歌最新的 Bard 提供支持。 論文地址://ai.google/static/documents/palm2techreport.pdf
PaLM 2 技術報告
我們介紹了PaLM 2,這是一個全新的、具有更優秀的多語言和推理能力的語言模型,比其前任PaLM(Chowdhery等人,2022)更高效。PaLM 2是一個基于Transformer的模型,其訓練使用的目標混合類似于UL2(Tay等人,2023)。通過對英語和多語言、以及推理任務的廣泛評估,我們證明了PaLM 2在不同模型大小的下游任務上質量顯著提升,同時相比于PaLM展示出更快、更高效的推理能力。這種改進的效率使得模型能夠被更廣泛地部署,同時也使模型能夠更快地響應,為交互提供更自然的節奏。PaLM 2展示了強大的推理能力,這一點由其在BIG-Bench以及其他推理任務上相對于PaLM的大幅改進所證明。PaLM 2在一系列負責任的AI評估中表現穩定,并且能夠在推理時控制毒性,無需額外的開銷或影響其他能力。總的來說,PaLM 2在各種任務和能力上都實現了最先進的性能。自從Shannon(1951)通過預測下一個詞來估算語言中的信息以來,語言建模一直是一個重要的研究領域。建模起初以n-gram為基礎的方法(Kneser & Ney, 1995)開始,但隨著LSTM(Hochreiter & Schmidhuber, 1997; Graves, 2014)的出現,其發展速度快速提升。后來的研究表明,語言建模也導致了語言理解的提升(Dai & Le, 2015)。隨著規模的增大和Transformer架構(Vaswani等人,2017)的應用,過去幾年大型語言模型(LLMs)在語言理解和生成能力上表現出了強大的性能,這導致在推理、數學、科學和語言任務中取得了突破性的成績(Howard & Ruder, 2018; Brown等人,2020; Du等人,2022; Chowdhery等人,2022; Rae等人,2021; Lewkowycz等人,2022; Tay等人,2023; OpenAI, 2023b)。在這些進步中,關鍵的因素包括模型規模(Brown等人,2020; Rae等人,2021)和數據量(Hoffmann等人,2022)的擴大。到目前為止,大多數LLMs主要遵循一種標準的配方,即主要使用單語語料庫并配合語言建模目標。我們介紹了PaLM 2,這是PaLM(Chowdhery等人,2022)的后繼者,這是一個將建模進步、數據改進和規模洞察力統一起來的語言模型。PaLM 2融合了以下各種研究進步:
? 計算最優縮放:最近,計算最優縮放(Hoffmann等人,2022)表明,數據大小至少與模型大小同等重要。我們驗證了這項研究對更大計算量的適用性,并同樣發現,為了達到給定訓練計算量的最佳性能,數據和模型大小應大致按1:1的比例縮放(這與過去的趨勢不同,過去的趨勢是模型的縮放速度比數據集快3倍)。
? 改進的數據集混合:之前的大型預訓練語言模型通常使用由英文文本主導的數據集(例如,Chowdhery等人(2022)的非代碼部分約占78%)。我們設計了一個更具多語言和多樣性的預訓練混合,它涵蓋了數百種語言和領域(例如,編程語言、數學和平行多語言文檔)。我們證明,較大的模型可以處理更多不同的非英語數據集,而不會導致英語理解性能的下降,并應用去重復來減少記憶(Lee等人,2021)
?** 架構和目標的改進**:我們的模型架構基于Transformer。過去的LLMs幾乎都獨自使用一個因果或掩蔽語言建模目標。鑒于UL2(Tay等人,2023)的強大結果,我們在這個模型中使用調優的不同預訓練目標的混合,以訓練模型理解語言的不同方面。
中文版
機器之心報道機器之心編輯部
ChatGPT 點燃了科技行業的明燈,GPT-4 能燎原嗎?
誰能革得了 ChatGPT 的命?現在看來還是 OpenAI 自己。 在 ChatGPT 引爆科技領域之后,人們一直在討論 AI「下一步」的發展會是什么,很多學者都提到了多模態,我們并沒有等太久。今天凌晨,OpenAI 發布了多模態預訓練大模型 GPT-4。
GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。
「GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人,」OpenAI 工程師在介紹視頻里說道。 似乎是想一口氣終結這場游戲,OpenAI 既發布了論文(更像是技術報告)、 System Card,把 ChatGPT 直接升級成了 GPT-4 版的,也開放了 GPT-4 的 API。 另外,微軟營銷主管在 GPT-4 發布后第一時間表示:「如果你在過去六周內的任何時候使用過新的 Bing 預覽版,你就已經提前了解了 OpenAI 最新模型的強大功能。」是的,微軟的新必應早就已經用上了GPT-4。
接下來,就讓我們細細品味這場震撼發布。 GPT-4:我 SAT 考 710,也能當律師
GPT-4 是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。 OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整 ,從而在真實性、可控性等方面取得了有史以來最好的結果。 在過去的兩年里,OpenAI 重建了整個深度學習堆棧,并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前,OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統,之后他們又陸續發現并修復了一些錯誤,改進了其理論基礎。這些改進的結果是 GPT-4 的訓練運行獲得了前所未有的穩定,以至于 OpenAI 能夠提前準確預測 GPT-4 的訓練性能,它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注于可靠的擴展,進一步完善方法,以幫助其實現更強大的提前預測性能和規劃未來的能力,這對安全至關重要。 OpenAI 正在通過 ChatGPT 和 API(有候補名單)發布 GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開合作。 OpenAI 今天還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助 OpenAI 進一步改進模型。 有趣的是,GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。為了了解這兩個模型之間的差異,OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。
OpenAI 還在為機器學習模型設計的傳統基準上評估了 GPT-4。GPT-4 大大優于現有的大型語言模型,以及大多數 SOTA 模型:
許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能:
就像許多使用 ChatGPT 的公司一樣,OpenAI 表示他們內部也在使用 GPT-4,因此 OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出,這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發者,也是使用者。 GPT-4:我能玩梗圖
GPT-4 可以接受文本和圖像形式的 prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。 具體來說,它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈 prompt。 比如給 GPT-4 一個長相奇怪的充電器的圖片,問為什么這很可笑?
GPT-4 回答道,VGA 線充 iPhone。
格魯吉亞和西亞的人均每日肉類消費,算平均數:
看起來,現在的 GPT 已經不會在計算上胡言亂語了:
還是太簡單,那直接讓它做題,還是個物理題:
GPT-4 看懂了法語題目,并完整解答:
GPT-4 可以理解一張照片里「有什么不對勁的地方」:
GPT-4 還可以量子速讀看論文,如果你給它 InstructGPT 的論文,讓它總結摘要,就會變成這樣:
如果你對論文里的某一個圖感興趣呢?GPT-4 也可以解釋一下:
接著來,問 GPT-4 梗圖是什么意思:
它給出了詳細的回答:
那么漫畫呢?
讓 GPT-4 解釋為什么要給神經網絡加層數,似乎有一點加倍的幽默感。
不過 OpenAI 在這里說了,圖像輸入是研究預覽,仍不公開。 研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經不夠了,他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力之間的矛盾。
看到這里,應該有研究人員感嘆:CV 不存在了。 可控性
與具有固定冗長、平靜語氣和風格的經典 ChatGPT 個性不同,開發人員(以及 ChatGPT 用戶)現在可以通過在「系統」消息中描述這些方向來規定他們的 AI 的風格和任務。 系統消息允許 API 用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay,也鼓勵你們這樣做。
局限性
盡管功能已經非常強大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產生幻覺、生成錯誤答案,并出現推理錯誤。 目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議(例如人工審查、附加上下文或完全避免使用) 。 總的來說,GPT-4 相對于以前的模型(經過多次迭代和改進)已經顯著減輕了幻覺問題。在 OpenAI 的內部對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:
GPT-4 在 TruthfulQA 等外部基準測試方面也取得了進展,OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力,結果如下圖所示。
實驗結果表明,GPT-4 基本模型在此任務上僅比 GPT-3.5 略好;然而,在經過 RLHF 后訓練之后,二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。
該模型在其輸出中可能會有各種偏見,OpenAI 在這些方面已經取得了進展,目標是使建立的人工智能系統具有合理的默認行為,以反映廣泛的用戶價值觀。 GPT-4 通常缺乏對其絕大部分數據截止后(2021 年 9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這么多領域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。 GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會 double-check。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過 OpenAI 目前的后訓練(post-training)過程,校準減少了。
風險及緩解措施
OpenAI 表示,研究團隊一直在對 GPT-4 進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。 GPT-4 有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不準確的信息。同時,GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度,團隊聘請了 50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估,來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。
預防風險
按照 demo 視頻里 OpenAI 工程師們的說法,GPT-4 的訓練在去年 8 月完成,剩下的時間都在進行微調提升,以及最重要的去除危險內容生成的工作。 GPT-4 在 RLHF 訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關 prompt 的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源(例如,標注的生產數據、人類的紅隊、模型生成的 prompt)收集多樣化的數據集,在允許和不允許的類別上應用安全獎勵信號(有正值或負值)。 這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比,模型對不允許內容的請求的響應傾向降低了 82%,而 GPT-4 對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了 29%。
訓練過程
與之前的 GPT 模型一樣,GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態和想法。 因此,當提出問題時,基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致,OpenAI 依然使用強化學習人類反饋 (RLHF) 來微調模型的行為。請注意,該模型的能力似乎主要來自預訓練過程 ——RLHF 不會提高考試成績(甚至可能會降低它)。但是模型的控制來自后訓練過程 —— 基礎模型甚至需要及時的工程設計來回答問題。
GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是,對于像 GPT-4 這樣的大型訓練,進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化,在多種規模下都有可預測的行為。為了驗證這種可擴展性,他們提前準確地預測了 GPT-4 在內部代碼庫(不屬于訓練集)上的最終損失,方法是通過使用相同的方法訓練的模型進行推斷,但使用的計算量為 1/10000。
現在,OpenAI 可以準確地預測在訓練過程中優化的指標(損失)。例如從計算量為 1/1000 的模型中推斷并成功地預測了 HumanEval 數據集的一個子集的通過率:
有些能力仍然難以預測。例如,Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而 hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。
能夠準確預測未來的機器學習能力對于技術安全來說至關重要,但它并沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發相關方法,并呼吁業界共同努力。 OpenAI 表示正在開源 OpenAI Evals 軟件框架,它被用于創建和運行基準測試以評估 GPT-4 等模型,同時可以逐樣本地檢查模型性能。 ChatGPT 直接升級至 GPT-4 版
GPT-4 發布后,OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權限。 要訪問 GPT-4 API(它使用與 gpt-3.5-turbo 相同的 ChatCompletions API),用戶可以注冊等待。OpenAI 會邀請部分開發者體驗。 獲得訪問權限后,用戶目前可以向 GPT-4 模型發出純文本請求(圖像輸入仍處于有限的 alpha 階段)。至于價格方面,定價為每 1k 個 prompt token 0.03 美元,每 1k 個 completion token 0.06 美元。默認速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。 GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文(約 50 頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。
以上,就是今天 OpenAI 關于 GPT-4 的所有內容了。令人不滿的一點是,OpenAI 公開的技術報告中,不包含任何關于模型架構、硬件、算力等方面的更多信息,可以說是很不 Open 了。 不管怎樣,迫不及待的用戶大概已經開始測試體驗了吧。
最后,也想問一下讀者,看完 GPT-4 的發布,你有何感想。 參考內容://openai.com/product/gpt-4
2022年度國家自然科學基金項目3月20日截止,相信許多老師正在打磨項目本子。最近來自微軟高級項目經理前田納西大學教授Austin Z. Henley分享了自己在申請美國自然科學基金職業獎的項目申請心得,他申請中了,但離職去微軟了。。Austin 大方分享了自己的項目方案本子,非常值得學習參考。對國內申請優青等項目也非常值得借鑒!
作為一所研究型大學的教授,很大一部分工作就是寫項目申請。
但是要學會如何寫項目本子是很困難的。很少有項目文件被公開分享。基本上,你不得不向同事咨詢他們的意見或者對你的項目草稿給予反饋。你可能有機會審查資助機構的提案,這讓你看到部分決策是如何做出的。在提交項目方案后,你確實會得到反饋,盡管這是幾個月后的事情,很難理解。
所以我分享了我的美國國家科學基金會職業成就獎(NSF CAREER Award))的項目方案,以及我為什么這樣寫它。
NSF CAREER Award終身成就獎是一項為期5年的特別資助,個人研究員在其職業生涯的前6年左右只能申請3次。它被認為是“有聲望的”,在許多學校,它實際上意味著你將獲得終身教職。
我得到了那個獎,但我拒絕了。然后我辭去教職,投身工業界。
這篇文章的其余部分包含了我對提案文件和寫作過程的一些想法。如果您想了解更多關于這個研究主題的信息,請查看我的博客文章《一個好奇的代碼編輯器:在知道錯誤之前克服它們》。
首先,讓我給出一些背景與提示:
換句話說,不要輕信我的建議。
項目框架
我花了很多時間來組織我的項目本子。我建議要非常重視方案組織。概述是非常重要的,所以我為它做了一個圖表:
這里并不是一個適用于所有提案的通用組織。以下是我的草圖:
介紹。每個段落分別代表要解決的問題、高級解決方案、計劃和影響。
PI任職資格。非常快地描繪出你是誰 (例如,一個與行業有密切聯系的HCI/SE工具構建者)。說服評審專家你是做這項研究的合適人選。
背景及相關工作。與我的整體研究計劃最相關的幾個大想法。緊接著有更具體的相關工作。
提出研究方案。來到正文! 這塊有三個主要部分,每一部分都有:
評估計劃。在高層次上,我將如何評估所提議的研究的每個部分?我的總體思路有兩段。三個主要部分各一段。
教育計劃。在這方面不要省略。
預期成果。將會產生的成果列表。
更廣泛的影響。在這方面不要省略。我在每一段的開頭都復制粘貼了NSF自己的文字。
之前的支持。無聊的但要求。你有多少補助金,對結果說一兩句話。
說服評審專家
我的想法是,我試圖在評審專家的腦海中勾勒出一幅畫面。我并不是要把所有問題講得很全面。沒有足夠篇幅來說明。不要害怕打破常規的會議/期刊論文寫作方式來表達觀點。
當我在國家科學基金會的一個評審小組時,我很驚訝其他評審人員經常會問,“但是這個人是做這項研究的合適人選嗎?”所以不要給他們機會來質疑你是不是那個合適的人!
通過合作信函證明其他人關心你的工作,并在整個提案過程中呼吁這些合作。我收到了8封信,其中6封來自行業合作伙伴,2封來自學者。
與你以前的工作聯系起來。多做。一次又一次。根據結果給出數字。給出具體的例子。
把一切都和你的大目標聯系起來。明確。真正把它寫的有道理。你不希望讀者迷路吧。
你之前的工作不必和你的提議100%一致。它可能不會。只要有一點創造力,你就能找到其中的聯系。明確聲明連接(不要假設讀者會建立連接)。
人們告訴我,我需要有一半的工作已經發表,以證明這個想法是可行的。這不是我干的。我只有一篇簡短的論文(pdf格式)討論了這個想法的一小部分。
不要偷懶
**
**更廣泛的影響就是一切。事實上,在提交了我的第一個提案(NSF CRII)后,我的大學里有人說,“你的整個提案的影響更廣泛”,并建議我下次增加更多的“基礎研究”。我不聽。 許多研究人員似乎都在努力應對更廣泛的影響和教育計劃。這些部分通常在結尾加起來。你騙不了任何人。但這些部分實際上是一個脫穎而出的機會。很有創意!我講了我的博客,播客,還有黑客馬拉松。這些都是我無論如何都會做的事情,并且有多種目的(例如,發布我的作品)。我還將更廣泛的影響融入到所有的“實際”研究中。 我沒有結論部分。我不想在一個沒有任何新價值的部分上浪費空間,特別是當我已經多次重復我的主要觀點時。 在你發貨之前,去加點披薩。我總是翻著書頁問自己,“這看起來有多無聊?”我想在幾乎每一頁上都有一張漂亮的圖片,但沒有足夠的空間。為自己規范格式。用粗體或斜體呼叫某物。
預算
我把錢花在了什么地方?我的三個NSF提案基本上都有相同的預算,只是稍微調整了一下,使其低于限制。每年包括: 我自己一個月的暑期工資,一個研究生的工資高于平均水平,外加學費,沒有設備,我和研究生輪流參加國際和國內會議,以及支付用戶研究參與者的資金。我所在的大學的開銷高達53%。 參考鏈接://austinhenley.com/blog/500kgrant.html
【導讀】Pieter Abbeel 是加州大學伯克利分校的教授,伯克利機器人學習實驗室的主任,其新開課程CS294深度無監督學習包含兩個領域,分別是生成模型和自監督學習。這個15周的課程包含視頻PPT能資源,有助于讀者對深度學習無監督的理解。最新一期是生成式對抗網絡Generative Adversarial Networks的課程,共有257頁ppt,包括GAN, DC GAN, ImprovedGAN, WGAN, WGAN-GP, Progr.GAN, SN-GAN, SAGAN, BigGAN(-Deep), StyleGAN-v1,2, VIB-GAN, GANs as Energy Models,非常值得關注!
目錄內容: