事件:北京時間2月16日凌晨,OpenAI發布了其首個文生視頻模型Sora。相比其他文生視頻模型,Sora在整體性能,尤其是最大生成時長上有了較大幅度提升。 文生視頻技術突破,視頻時長和視頻質量顯著提升:Sora目前主要的功能包括文生視頻、圖生視頻和視頻生視頻。1)文生視頻:Sora目前可以根據文本要求生成60s的連貫視頻,生成的視頻除滿足了文本要求的主題、要素外,在對場景內的光影、人物輪廓描繪等方面都展示了極高的質量:場景中的積水倒影處理真實,人物的特寫鏡頭中臉部輪廓也非常清晰且細節豐富。同時,生成的視頻在3D一致性、長期一致性、互動性上都表現出了較高的質量,并且支持多種分辨率輸入和輸出。2)圖生視頻:Sora能夠在提供圖像和文字提示作為輸入的情況下生成視頻。增加的圖片提示將大幅縮窄模型的生成范圍,可以幫助用戶更快、更便捷地生成滿足要求的視頻。3)視頻生視頻:Sora可以根據輸入的視頻片段和文字要求對視頻進行編輯,如更改背景等;Sora還能夠在時間上向前或向后擴展視頻:通過這種方法來向前和向后擴展視頻,可以產生無縫的無限循環。視頻擴展的功能可以在已有的素材基礎上為創作者提供靈感,將為影視類素材的供給提供新的可能。 瑕不掩瑜,AI視頻應用或加速推進:對比之前的AI視頻模型,除最大生成時長從2-4s顯著提升至60s外,Sora也對以往AI視頻工具的不足和痛點進行了改進,盡管目前在一些物理過程和視頻內人和物的交互上還不夠穩定,但生成的視頻質量總體來說已經有明顯提升。我們認為,當前Sora生成的視頻在長度和質量上已經具備了一定的生產力價值,AI生成視頻在影視、游戲等相關行業內的應用或將加速推進。 文生視頻工具應用前景廣闊,相關行業供給有望開啟新時代:隨著AI文生視頻技術的不斷完善和更新,我們認為AI視頻有望憑借人工智能的技術優勢和視頻這一品類的內容優勢打開市場:在C端,通過AI視頻生成,此類AI視頻應用有望通過其生成的內容來構建自有用戶流量池,完成后續的流量變現;在B端,AI視頻可以大幅度降低視頻的制作成本,對廣告營銷、影視、游戲等都有可觀的降本增效作用,隨著AI視頻工具的不斷更新迭代,相關產業制作效率或將實現質的提升,游戲、短視頻等相關內容的供給端有望實現飛躍式的發展。
機器之心報道 機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。
博客地址: 參考內容:
Sora橫空出世引領多模態產業革命。美國時間2月15日,文生視頻大模型Sora橫空出世,能夠根據文本指令或靜態圖像生成1分鐘的視頻。其中,視頻生成包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,同時也接受現有視頻擴展或填補缺失的幀。總體而言,不管是在視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等方面,Sora都做到了業內領先水平,引領多模態產業革命。此外,當Sora訓練的數據量足夠大時,它也展現出了一種類似于涌現的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。
拆解視頻生成過程,技術博采眾長或奠定了Sora文生視頻領軍地位。從技術報告中,Sora視頻生成過程大致由“視頻編碼+加噪降噪+視頻解碼”三個步驟組成,視頻壓縮網絡、時空patches、transformer架構、視頻數據集等技術與資源在其中發揮了重要作用。 視頻壓縮網絡:過往VAE應用于視頻領域通常需插入時間層,Sora從頭訓練了能直接壓縮視頻的自編碼器,可同時實現時間和空間的壓縮,既節省算力資源,又最大程度上保留視頻原始信息,或為Sora生成長視頻的關鍵因素,并為后續處理奠定基礎。 時空patches:1)同時考慮視頻中時間和空間關系,能夠捕捉到視頻中細微的動作和變化,在保證視頻內容連貫性和長度的同時,創造出豐富多樣的視覺效果;2)突破視頻分辨率、長寬比等限制的同時顯著提升模型性能,節約訓練與推理算力成本。 Transformer架構:1)相比于U-Net架構,transformer突顯Scaling Law下的“暴力美學”,即參數規模越大、訓練時長越長、訓練數據集越大,生成視頻的效果更好;2)此外,在transformer大規模訓練下,逐步顯現出規模效應,迸發了模型的涌現能力。 視頻數據集:Sora或采用了更豐富的視頻數據集,在原生視頻的基礎上,將DALL?E3的re-captioning技術應用于視頻領域,同時利用GPT保障文字-視頻數據集質量,使得模型具有強大的語言理解能力。
OpenAI發布了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟 2月16日,OpenAI首次對外公布了SORA文生視頻模型,SORA模型可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。相比較而言,Runway Gen2、Pika等AI視頻工具,都還在突破幾秒內的連貫性,而OpenAI,已經達到了史詩級的紀錄。OpenAI目前已經邀請了一支專業的創意人士測試,用于反饋其在專業環境中的實用性。 SORA模型在訓練中將不同類型視覺素材統一為時空Latent Patch,采用Diffusion-transformer結構并大規模訓練,再次展現“暴力美學” 從technical report窺探技術路徑,OpenAI在文生視頻領域再次展現“暴力美學”,SORA在模型結構上使用了Diffusion Transformer結構,采用了大規模的訓練,在數據上將圖片和視頻統一壓縮轉換為時空Latent Patches并作為transformer輸入,而這一步也使得模型能夠在不同分辨率、持續時間和寬高比的視頻/圖像數據上進行訓練,同時為了提高模型的理解能力,SORA使用了DALL-E3模型中的re-captioning技術,訓練了一個caption模型為視頻數據生成文字字幕。 SORA模型已具備了一定的涌現能力,雖然也存在“幻覺問題”,但我們認為文生視頻的GPT-3時刻已來 SORA模型現在可用于視頻生成,圖片生成,視頻編輯、視頻鏈接和視頻前后拓展等,我們認為未來有望重塑影視/動畫/自媒體等諸多視頻生產行業,同時SORA還展現出了一定的涌現能力,使其能夠從物理世界模擬人、動物和環境的某些方面,包括3D連續,物體持續和long-range的連貫性,我們預計未來SORA也會逐步進化,如同GPT3到4一樣有更強的能力,或許文生視頻的GPT-3時刻已經到來。
近期,OpenAI的Sora的橫空出世再一次引發市場對AIGC的關注,文生視頻領域取得重大突破,效果遠超預期。我們將圍繞Sora的核心優勢、技術特點、行業影響、未來趨勢等方面進行闡述。 相較于此前的文生視頻模型,Sora取得哪些突破? 近期,OpenAI發布了文生視頻模型Sora,可以用文字指令生成長達1分鐘的高清視頻。相較于此前市場上的同類模型,如Runway、Pika等,Sora的生成效果有大幅提升,遠超預期: 首先,視頻長度方面,Sora可以生成長達60秒的視頻,長度遠遠大于其他AI視頻模型的幾秒鐘長度。 其次,Sora在視頻內容質量穩定性方面有大幅的提升,鏡頭多角度切換,視頻中的主角和背景能夠保持高度一致性和穩定性。 此外,Sora還展示了其對物理世界部分規律的理解,這也是一重大突破,甚至能夠實現一定程度的物理交互。 Sora的核心優勢和技術特點體現在哪些方面? Sora的技術優勢在于“Patches”和深度語言理解。Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時采用了Transformer架構。Sora模型的技術優勢和特點主要在于: 視覺數據Patches化:相較于大語音模型把所有的文本、符號、代碼都抽象為Tokens,Sora則把視頻抽象為Patches(補片),是一種具備高度擴展性且適用于視頻和圖片生成式模型訓練的有效表示; 視頻壓縮網絡(Video compression network):將原始視頻進行壓縮,從而降低視覺數據維度,用于訓練并生成視頻; 時空補片技術(Spacetime latent patches):給定一個壓縮的輸入視頻,模型提取一系列時空補片(patches),用于對不同分辨率、時長和長寬比的視頻和圖像進行訓練; 擴展Transformer視頻生成:Sora是一個擴散Transformer模型,通過輸入噪聲patches訓練來預測除噪的原始patches。OpenAI在這項研究中發現,擴散型Transformer同樣能在視頻模型領域中完成高效擴展; 視頻多樣化:相較于一些模型使用標準尺寸視頻用于訓練或生成,Sora能夠處理不同分辨率、時長、寬高比的視頻,在采樣靈活性、改進框架和構圖方面有顯著優勢; 語言理解:基于GPT模型的深度語言理解,能夠更加準確地理解提示詞所表達的真實需求; 圖生視頻、視頻生視頻:除了文生視頻外,Sora也能夠通過輸入圖像和視頻用于生成視頻,能夠實現靜態圖片動態化、視頻向前和向后拓展、視頻編輯等能力。 Sora模型對哪些行業影響更大? Sora最直接的影響主要是對視頻行業造成沖擊,這將對于廣告業、電影預告片、短視頻行業以及游戲帶來顛覆。Sora大大降低了視頻制作的門檻和成本。 對于國內AI創業公司的影響:和ChatGPT一樣,我們認為Sora的出現也會吸引國內玩家追隨,但由于文生視頻模型的訓練難度和成本更大,準入門檻也進一步提高。 Sora影響最大的將是短視頻行業,未來或將極大地提升內容供給及創作質量,尤其是流量熱點驅動的內容,或將進入“全民創作”時代。同時,文生視頻技術或將為當下熱門的短劇市場帶來變數,短劇重心有望回歸高質量劇本創作。 長視頻由于對內容質量等專業化要求較高,AI生成視頻在精準度、可編輯性等方面仍需進一步打磨,高額的成本也或是短期應用落地阻礙,但長期來看其未來發展空間足夠廣闊。 對于游戲行業,Sora模型有助于進一步提高開發效率。文生視頻能力可降低游戲CG和PV制作成本,可用于豐富游戲劇情和故事情節,提升玩家代入感。 視頻相較于文字而言,對于算力的需求將會是幾何式的增長。我們認為算力限制可能是影響文生視頻類應用開放使用的重要因素。 2024年AIGC行業有哪些趨勢? 多模態模型或在2024年迎來爆發。此前大模型在各個領域的應用,主要集中在文生文、文生圖之上,而在文生視頻領域卻進步緩慢。此次文生視頻模型Sora的發布,將給長短視頻,游戲和廣告行業帶來顛覆性創新。隨著文生圖、圖片對話技術的成熟,文生視頻已成為多模態大模型下一步發展的重點。大模型領域的競爭將進一步白熱化,多模態大模型將成為生成式AI的重點發展方向,并有望推動本輪AI行情進一步擴散。 除了在計算機視覺、自然語言處理等特定領域模型的發展,多模態大模型的進一步交叉融合或將成為未來重要的應用方向。未來人與機器之間的交互方式將更加豐富,或通過文字、視覺、語音等多維度溝通,進而提升效率。AI所創造的虛擬世界與現實世界的邊界逐漸模糊,逐漸向AGI方向邁進。
Sora問世,視頻創作領域迎來“iPhone時刻”。2023年2月15日,OpenAI發布視頻生成大模型Sora,通過文本指令,Sora可以直接輸出長達60秒的高清視頻,包含高度寫實的背景、復雜的多角度鏡頭以及富有情感的多角色敘事,更為可貴的是,Sora生成的視頻表現出對于真實世界物理常識的深刻理解。部分媒體報道驚嘆——“Sora之后,現實將不再存在”。從本輪AI應用端發展實踐來看,以文本創作(小說、劇本)、圖像創作(繪畫、平面設計、攝影)、視頻創意(廣告、短視頻、傳統影視、游戲)為代表的創意創作領域因其高容錯率、高投入度,在AI浪潮之初就被市場廣泛認為將會成為最先被AI深刻賦能的產業之一;從本輪AI模型發展演繹來看,以ChatGPT為代表的文本創作以Midjourney、StableDiffusion為代表的圖像創作以Runway、Sora為代表的視頻創作的發展速度無疑是極為驚人的。我們認為,從文字到圖像到視頻,AI內容創作的信息升維越來越考驗模型的創作效率與生成結果的穩定性(早期版本的Midjourney存在生成時間長、生成結果違背物理常識或者“AI感”明顯的問題;RunwayGen-1/2也存在生成視頻時長較短且生成視頻邏輯連貫性較弱等缺陷),但正如MidjourneyV5/6已逐步廣泛實現多行業的商業化落地,我們認為Sora的問世有望推動著視頻創作領域的“iPhone時刻”到來。
Sora取法Tokens文本特征標記,是基于Patches視覺特征標記的DiffusionTransformer模型。OpenAI研究團隊從LLM中汲取靈感,認為LLM范式的成功在一定程度上得益于Tokens的使用,故而通過將視頻信息分解為帶有時空特征的Patches訓練了DiffusionTransformer模型。從訓練角度而言,基于Patches視覺特征標記對原生視頻進行采樣擴大了可用樣本的規模且省去了標準化樣本的步驟。從推理角度而言,基于原生視頻訓練的模型在生成新視頻方面改善了構圖和取景。OpenAI目前發布的Sora視頻大模型主要具備文生視頻、視頻編輯、文生圖三類功能,在文生視頻過程中,用戶通過輸入Prompt提示詞DALL·E生成圖像Sora生成視頻。 文生圖和文生視頻是當下AI應用端落地焦點,海外相關技術產品迭代迅速。據Discord,按邀請頁面流量排序的十大AI應用程序中,有5個是圖片生成應用程序,2個是音頻生成應用程序,2個是視頻生成應用程序,其中,Midjourney位列第一,Pika位列第二,圖片約占前10名流量的74%,視頻約占前10名流量的8%。文生圖領域,海外有Adobe(老牌創意軟件巨頭,現已發布下一代Firefly支持多種文生圖功能)、Midjourney(文生圖模型新銳,現已廣泛實現商業化落地)。文生視頻領域,海外有Pika(AI初創公司,支持一鍵生成3秒共計72幀視頻)、Runway(擁有最早商業化的T2V模型RunwayGen-2)。 國內推薦關注萬興科技和美圖公司等創意軟件龍頭投資機會。萬興于2023年9月宣布即將發布國內首個專注于以視頻創意應用為核心的百億級參數多媒體大模型“天幕”,具備一鍵成片、AI美術設計、文生音樂、音頻增強、音效分析、多語言對話等核心能力。2022年底至2023全年萬興對旗下T2V/I多款拳頭產品進行AI功能更新,AI賦能之下訂閱收入占比及訂閱續約率取得雙增。美圖公司于2023年12更新視覺大模型MiracleVision4.0,具備文生視頻、圖生視頻、視頻生視頻等多模態能力,AI賦能之下訂閱業務收入占比逐年增長。
OpenAIGPT-4 更新促進應用生態繁榮 本次大會主要亮點:1、GPT-4Turbo:支持128k上下文,相當于300頁文檔,輸入價格大降2/3,速率限制翻倍,知識更新到2023年4月,改進指令跟隨和JSONMode,更新多個函數調用能力。這意味著比GPT-4更強、更便宜、開發成本更低、知識更新鮮,而且能一次性輸入一整本書。2、開放新模態API:包括接受圖像輸入的GPT-4Turbo、文生圖模型DALL·E3、文本轉語音模型TTS,不久后還將支持自動語音識別模型Whisperv3。3、GPT定制化服務:支持用戶5分鐘內、無代碼創建一個量身定制的ChatGPT版本,支持教育、設計、辦公等不同行業客戶定制個性化GPT,本月上線GPT應用商店,推出AssistantsAPI來降低開發者構建AI助手的門檻。我們認為此次OpenAI的更新在降低模型開發難度和成本上更進一步,同時進一步促進下游應用生態繁榮,對標海外,我們認為國內有望緊跟技術趨勢,加速模型更定迭代,逐步探索更多B端合C端應用場景,商業化落地節奏有望逐步清晰。
應用端產品落地進程加速,相關賽道值得關注 部分企業已經開始賺取收入,而新進入的公司仍然在積極拓寬業務的受眾范圍。LLM技術的發展為其產業鏈中下游應用端的開發打下了堅實的基礎,相關企業針對不同的場景開發應用產品,產品涉及語音、圖像、文本和多模態領域,覆蓋辦公、金融、多媒體、工業制造、社交和營銷等多個行業。 國內純模型端、教育、辦公、圖像、視頻、金融、醫療、社交類應用值得關注。參考海外AI應用成熟度發展情況,我們根據AI收入端、產品端、案例端等綜合分析海外垂直應用進展,可以得到目前純模型、教育、辦公、圖像、視頻、金融、醫療、社交類應用商業化落地最快,國內模型端相對海外大概滯后1年時間,參照海外應用發展情況,我們認為Q4或是國內應用商業化落地拐點。
機器之心報道
編輯:澤南「成立公司之后,我們陸續發布開源模型,一切進展順利,」王小川表示。 在業界都驚訝于百川智能平均 28 天發布一款大模型的時候,這家公司并沒有停下腳步。 9 月 6 日下午的發布會上,百川智能宣布正式開源微調后的 Baichuan-2 大模型。
中國科學院院士、清華大學人工智能研究院名譽院長張鈸在發布會上。
這是百川自 8 月發布 Baichuan-53B 大模型后的又一次新發布。本次開源的模型包括 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 與其 4bit 量化版本,并且均為免費可商用。 除了模型的全面公開之外,百川智能此次還開源了模型訓練的 Check Point,并公開了 Baichuan 2 技術報告,詳細介紹了新模型的訓練細節。百川智能創始人兼 CEO 王小川表示,希望此舉能夠幫助大模型學術機構、開發者和企業用戶深入了解大模型的訓練過程,更好地推動大模型學術研究和社區的技術發展。
今天開源的模型相對于大模型而言體量「較小」,其中 Baichuan2-7B-Base 和 Baichuan2-13B-Base 均基于 2.6 萬億高質量多語言數據進行訓練,在保留了上一代開源模型良好的生成與創作能力,流暢的多輪對話能力以及部署門檻較低等眾多特性的基礎上,兩個模型在數學、代碼、安全、邏輯推理、語義理解等能力有顯著提升。 「簡單來說,Baichuan7B 70 億參數模型在英文基準上已經能夠與 LLaMA2 的 130 億參數模型能力持平。因此,我們可以做到以小博大,小模型相當于大模型的能力,而在同體量上的模型可以得到更高的性能,全面超越了 LLaMA2 的性能,」王小川介紹道。 其中 Baichuan2-13B-Base 相比上一代 13B 模型,數學能力提升 49%,代碼能力提升 46%,安全能力提升 37%,邏輯推理能力提升 25%,語義理解能力提升 15%。
據介紹,在新的模型上,百川智能的研究者們從數據獲取到微調進行了很多優化。 「我們借鑒了之前做搜索時的更多經驗,對大量模型訓練數據進行了多粒度內容質量打分,使用了 2.6 億 T 的語料級來訓練 7B 與 13B 的模型,并且加入了多語言的支持,」王小川表示。「我們在千卡 A800 集群里可以達到 180TFLOPS 的訓練性能,機器利用率超過 50%。在此之外,我們也完成了很多安全對齊的工作。」 本次開源的兩個模型在各大評測榜單上的表現優秀,在 MMLU、CMMLU、GSM8K 等幾大權威評估基準中,以較大優勢領先 LLaMA2,相比其他同等參數量大模型,表現也十分亮眼,性能大幅度優于 LLaMA2 等同尺寸模型競品。 更值得一提的是,根據 MMLU 等多個權威英文評估基準評分 Baichuan2-7B 以 70 億的參數在英文主流任務上與 130 億參數量的 LLaMA2 持平。
7B 參數模型的 Benchmark 成績。
13B 參數模型的 Benchmark 成績。
Baichuan2-7B 和 Baichuan2-13B 不僅對學術研究完全開放,開發者也僅需郵件申請獲得官方商用許可后,即可以免費商用。 「除了模型發布以外,我們也希望對學術領域做更多的支持,」王小川表示。「除了技術報告以外,我們也把 Baichuan2 大模型訓練過程中的權重參數模型進行了開放。這對于大家理解預訓練,或者進行微調強化能夠帶來幫助。這也是在國內首次有公司能開放這樣的訓練過程。」 大模型訓練包含海量高質量數據獲取、大規模訓練集群穩定訓練、模型算法調優等多個環節。每個環節都需要大量人才、算力等資源的投入,從零到一完整訓練一個模型的高昂成本,阻礙了學術界對大模型訓練的深入研究。 百川智能本次開源了模型訓練從 220B 到 2640B 全過程的 Check Point。這對于科研機構研究大模型訓練過程、模型繼續訓練和模型的價值觀對齊等極具價值,可以推動國內大模型的科研進展。
此前,大部分開源模型只是對外公開自身的模型權重,很少提及訓練細節,開發者們只能進行有限的微調,很難深入研究。 百川智能公開的 Baichuan 2 技術報告詳細介紹了 Baichuan 2 訓練的全過程,包括數據處理、模型結構優化、Scaling law、過程指標等。 百川智能自成立之初,就將通過開源方式助力中國大模型生態繁榮作為公司的重要發展方向。成立不到四個月,便相繼發布了 Baichuan-7B、Baichuan-13B 兩款開源免費可商用的中文大模型,以及一款搜索增強大模型 Baichuan-53B,兩款開源大模型在多個權威評測榜單均名列前茅,目前下載量超過 500 萬次。 上周,首批大模型公眾服務拍照落地是科技領域的重要新聞。在今年創立的大模型公司中,百川智能是唯一一家通過《生成式人工智能服務管理暫行辦法》備案,可以正式面向公眾提供服務的企業。 憑借行業領先的基礎大模型研發和創新能力,此次開源的兩款 Baichuan 2 大模型,得到了上下游企業的積極響應,騰訊云、阿里云、火山方舟、華為、聯發科等眾多知名企業均參加了本次發布會并與百川智能達成了合作。據介紹,百川智能的大模型在 Hugging Face 上近一個月來的下載量已達到 337 萬。 按照此前百川智能的計劃,在今年他們還要發布千億參數大模型,并在明年一季度推出 「超級應用」。
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
ChatGPT引領AI技術新一輪熱潮,預示著NLP技術有望迅速進入平民化應用時代。2022年11月30日,OpenAI公司上線了聊天機器人模型ChatGPT,迅速引發了全球的熱潮。ChatGPT是一種預訓練的語言大模型,采用大量的參數和大量的數據進行訓練,基于人類反饋的強化學習算法,將NLP技術和機器學習結合,極大地提升了模型算法的效率和能力。隨著ChatGPT的熱度不斷攀升,多家科技公司都開始布局ChatGPT相關技術領域,NLP技術有望迅速進入平民化應用時代。
ChatGPT具有良好的商業價值,未來應用空間廣闊。ChatGPT相關技術不僅對眾多的C端應用帶來革新,同時也將對B端應用產生重大影響,企業數字化轉型有望真正從數字化走向智能化,ChatGPT在企業辦公中的應用,具備很大的想象空間。我們認為,協同辦公類應用作為企業各類應用的入口,同時具備知識管理、流程引擎等功能,具備很強卡位價值,在把ChatGPT技術引入后,可以極大提升產品的功能與應用體驗。員工僅需給出想要辦理的流程,由ChatGPT進行智能化辦理,從而改變過去員工需要自行在OA、ERP及業務系統中完成信息錄入、功能查找、業務辦理的現狀,將極大地提升辦公效率和使用體驗。目前微軟已經將ChatGPT應用到了Dynamics365、Teams等產品線,未來將要應用到Bing搜索中,未來的商業價值空間十分可觀。 AIGC有望成為未來人工智能的重要方向,商業化模式仍需摸索。AIGC即人工智能內容生成,ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望帶動AIGC在圖像、音樂、視頻等其他領域落地。Gartner曾多次將生成式AI列為未來的重要技術趨勢,是當下最引人注目的人工智能技術之一。據Gartner預計,到2025年,生成式人工智能將占所有生成數據的10%,而目前這一比例還不到1%。隨著ChatGPT開啟付費訂閱試點,AIGC的商業化進程正式拉開帷幕。據量子位報告統計,到2030年,AIGC的市場規模將超過萬億人民幣,但由于AIGC目前產業化程度有限,大量業務場景尚未成功變現,商業模式也還處于探索階段。我們認為,在當下時點,AIGC基于其出色的降本增效能力,在企業級市場的應用前景較為明朗和穩定,在C端消費市場的商業模式仍需進一步摸索。
事件:美國AI公司OpenAI推出基于大語言模型的對話模型ChatGPT,可提供高質量的回答,并能實現創作、編程等復雜功能,備受市場關注。不到兩個月的時間,ChatGPT全球日活用戶已突破千萬。
ChatGPT是突破式的創新技術ChatGPT是OpenAI公司推出的全新聊天機器人模型。通過引入人類反饋的強化學習,大幅提升了AI在人機對話時的準確度和可控性,具有強大的語言理解能力和語言表達能力。GPT模型仍在持續迭代,更先進大語言模型GPT-4有望在2023年推出,有望進一步推動AIGC產業發展。 ChatGPT應用及商業化落地加速科技公司紛紛涌入AIGC賽道,優秀的AIGC大模型層出不窮,我們認為基于AI文本生成的模型ChatGPT有望率先應用落地。AIGC賽道相關公司受到資本青睞,AIGC頭部初創公司OpenAI最新估值約為290億美元。作為AIGC領域領先的模型ChatGPT在對話機器人、智能創作等領域應用廣泛,亞馬遜、微軟、Jasper等公司已經開啟商業化之路,商業化前景廣闊。
Part1:確立對話式AI市場:對話式AI產品定位為“實現替代與輔助人工對話的共生,以達到最優人機協作”,為企業帶來最原始直觀的“"降本增效”實現。對話式AI產品的商業價值逐步得到市場充分認可,成為了人工智能產業落地的先行環節與價值凸顯賽道。
Part2:剖析對話式AI進程:在消費者行為線上化、公域流量私有化、用戶信息收集合規的需求背景下,對話洞察成為了收集分析用戶畫像、行為偏好等信息的合規高效的洞察方式。而對話式A產品也已步入了擬人智能化與深層價值挖掘的產品階段,其中金融與互聯網走在產品迭代前列,運營商與政務緊隨其后。
Part3:評估對話式AI效果:對話式AI產品的核心功能為“替代以釋放人力,輔助以優化體驗”。因此,企業可從降本增效出發,根據自身情況判斷是否采購或續約。企業在項目咨詢的供應商評選階段時,可從案例交付經驗、產品性能、產品成熟度、產品完整度和產品價格五大維度去評估考量,保證對話式AI項目實施的高效落地與產品上線后的優質運行。
Part4:進階對話式A技術:對話式AI產品的AI技術底座由智能語音、自然語言理解與知識工程核心支撐。本章節從這三大AI核心技術角度出發,對各AI技術難點進行剖析解讀,為未來對話式A廠商可進一步追求突破的技術方向給到參考。
Part5:探究對話式A邊界:為追求收入增長,各家廠商逐步嘗試公有云產品與私有化模式的試水融合。未來,半標場景的營銷與決策賦能的對話洞察可成為對話式AI廠商的重點發力方向。而在數字人產品行業,對話式AI廠商需回歸產品經營本質著重考慮評估數字人帶來的投入產出,同時行業也需對相關問題盡早分析預判,出臺完善相關法律法規,以保障整體行業的良性發展。