機器之心報道
編輯:澤南「成立公司之后,我們陸續發布開源模型,一切進展順利,」王小川表示。 在業界都驚訝于百川智能平均 28 天發布一款大模型的時候,這家公司并沒有停下腳步。 9 月 6 日下午的發布會上,百川智能宣布正式開源微調后的 Baichuan-2 大模型。
中國科學院院士、清華大學人工智能研究院名譽院長張鈸在發布會上。
這是百川自 8 月發布 Baichuan-53B 大模型后的又一次新發布。本次開源的模型包括 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 與其 4bit 量化版本,并且均為免費可商用。 除了模型的全面公開之外,百川智能此次還開源了模型訓練的 Check Point,并公開了 Baichuan 2 技術報告,詳細介紹了新模型的訓練細節。百川智能創始人兼 CEO 王小川表示,希望此舉能夠幫助大模型學術機構、開發者和企業用戶深入了解大模型的訓練過程,更好地推動大模型學術研究和社區的技術發展。
今天開源的模型相對于大模型而言體量「較小」,其中 Baichuan2-7B-Base 和 Baichuan2-13B-Base 均基于 2.6 萬億高質量多語言數據進行訓練,在保留了上一代開源模型良好的生成與創作能力,流暢的多輪對話能力以及部署門檻較低等眾多特性的基礎上,兩個模型在數學、代碼、安全、邏輯推理、語義理解等能力有顯著提升。 「簡單來說,Baichuan7B 70 億參數模型在英文基準上已經能夠與 LLaMA2 的 130 億參數模型能力持平。因此,我們可以做到以小博大,小模型相當于大模型的能力,而在同體量上的模型可以得到更高的性能,全面超越了 LLaMA2 的性能,」王小川介紹道。 其中 Baichuan2-13B-Base 相比上一代 13B 模型,數學能力提升 49%,代碼能力提升 46%,安全能力提升 37%,邏輯推理能力提升 25%,語義理解能力提升 15%。
據介紹,在新的模型上,百川智能的研究者們從數據獲取到微調進行了很多優化。 「我們借鑒了之前做搜索時的更多經驗,對大量模型訓練數據進行了多粒度內容質量打分,使用了 2.6 億 T 的語料級來訓練 7B 與 13B 的模型,并且加入了多語言的支持,」王小川表示。「我們在千卡 A800 集群里可以達到 180TFLOPS 的訓練性能,機器利用率超過 50%。在此之外,我們也完成了很多安全對齊的工作。」 本次開源的兩個模型在各大評測榜單上的表現優秀,在 MMLU、CMMLU、GSM8K 等幾大權威評估基準中,以較大優勢領先 LLaMA2,相比其他同等參數量大模型,表現也十分亮眼,性能大幅度優于 LLaMA2 等同尺寸模型競品。 更值得一提的是,根據 MMLU 等多個權威英文評估基準評分 Baichuan2-7B 以 70 億的參數在英文主流任務上與 130 億參數量的 LLaMA2 持平。
7B 參數模型的 Benchmark 成績。
13B 參數模型的 Benchmark 成績。
Baichuan2-7B 和 Baichuan2-13B 不僅對學術研究完全開放,開發者也僅需郵件申請獲得官方商用許可后,即可以免費商用。 「除了模型發布以外,我們也希望對學術領域做更多的支持,」王小川表示。「除了技術報告以外,我們也把 Baichuan2 大模型訓練過程中的權重參數模型進行了開放。這對于大家理解預訓練,或者進行微調強化能夠帶來幫助。這也是在國內首次有公司能開放這樣的訓練過程。」 大模型訓練包含海量高質量數據獲取、大規模訓練集群穩定訓練、模型算法調優等多個環節。每個環節都需要大量人才、算力等資源的投入,從零到一完整訓練一個模型的高昂成本,阻礙了學術界對大模型訓練的深入研究。 百川智能本次開源了模型訓練從 220B 到 2640B 全過程的 Check Point。這對于科研機構研究大模型訓練過程、模型繼續訓練和模型的價值觀對齊等極具價值,可以推動國內大模型的科研進展。
此前,大部分開源模型只是對外公開自身的模型權重,很少提及訓練細節,開發者們只能進行有限的微調,很難深入研究。 百川智能公開的 Baichuan 2 技術報告詳細介紹了 Baichuan 2 訓練的全過程,包括數據處理、模型結構優化、Scaling law、過程指標等。 百川智能自成立之初,就將通過開源方式助力中國大模型生態繁榮作為公司的重要發展方向。成立不到四個月,便相繼發布了 Baichuan-7B、Baichuan-13B 兩款開源免費可商用的中文大模型,以及一款搜索增強大模型 Baichuan-53B,兩款開源大模型在多個權威評測榜單均名列前茅,目前下載量超過 500 萬次。 上周,首批大模型公眾服務拍照落地是科技領域的重要新聞。在今年創立的大模型公司中,百川智能是唯一一家通過《生成式人工智能服務管理暫行辦法》備案,可以正式面向公眾提供服務的企業。 憑借行業領先的基礎大模型研發和創新能力,此次開源的兩款 Baichuan 2 大模型,得到了上下游企業的積極響應,騰訊云、阿里云、火山方舟、華為、聯發科等眾多知名企業均參加了本次發布會并與百川智能達成了合作。據介紹,百川智能的大模型在 Hugging Face 上近一個月來的下載量已達到 337 萬。 按照此前百川智能的計劃,在今年他們還要發布千億參數大模型,并在明年一季度推出 「超級應用」。
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
轉載機器之心報道 編輯:澤南、蛋醬、陳萍打字都不需要了。 我們都說大模型會改變所有應用的形態,ChatGPT 現在走完了變革的最后一步。
剛剛,ChatGPT 進行了一次重要更新,不管是 GPT-4 還是 GPT-3.5 模型,現在都可以基于圖像進行分析和對話了。
ChatGPT 中的新圖像識別功能允許用戶使用 GPT-3.5 或 GPT-4 模型上傳一張或多張圖像配合進行對話。OpenAI 在其宣傳博客文章中聲稱該功能可用于各種日常應用:從通過拍攝冰箱和食品儲藏室的照片來讓 AI 決定晚餐吃什么,到排除燒烤爐無法啟動的原因。OpenAI 還表示,你可以使用設備的觸摸屏圈出他們希望 ChatGPT 關注的圖像部分。
就像這個視頻所演示的,用戶能夠詢問如何升起自行車座椅,需要提供的是照片、使用手冊和用戶工具箱的圖片。然后,ChatGPT 會做出反應并建議用戶如何完成這一過程。
OpenAI 還表示,ChatGPT 的移動端 App 還將添加語音合成選項,與現有的語音識別功能配合使用時,我們就能與人工智能助手進行完全直接的口頭對話。
與此同時,在音頻方面,ChatGPT 新的語音合成功能據說由 OpenAI 所稱的「新文本到語音模型」驅動,盡管文本到語音問題已經解決了很長時間。該公司表示,該功能推出后,用戶可以在應用設置中選擇語音對話,然后從「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五種不同的合成聲音中進行選擇。OpenAI 表示,這些聲音都是與專業配音演員合作制作的。
這讓人想起了 OpenAI 2022 年開源的語音識別系統 Whisper,今后這一系統將繼續處理用戶語音輸入的轉錄工作。自 ChatGPT iOS 應用程序今年 5 月推出以來,Whisper 就一直集成在其中。 OpenAI 計劃 「在未來兩周內」向 Plus 和 Enterprise 訂閱者推出 ChatGPT 中的這些功能,它還指出,語音合成僅適用于 iOS 和安卓端應用,不過圖像識別功能在網絡界面和移動應用程序上均有提供。 鑒于 ChatGPT 的數億用戶們還沒有親自測試過這些功能,所以我們還不能判斷它的效果如何。而且對于它的工作原理,OpenAI 也和以往一樣沒有詳細說明,僅著重強調了大模型的安全性。
參考同類的 AI 研究可以推測,多模態 AI 模型通常會將文本和圖像轉換到一個共享的編碼空間,從而使它們能夠通過相同的神經網絡處理各種類型的數據。OpenAI 可以使用 CLIP 在視覺數據和文本數據之間架起一座橋梁,將圖像和文本表征整合到同一個潛在空間(一種矢量化的數據關系網)中。這種技術可以讓 ChatGPT 跨文本和圖像進行上下文推理。
今年 3 月,OpenAI 上線 GPT-4 ,展示了 AI 模型的多模態功能,在現場演示時,我們見識到了 GPT-4 對文本和圖像的處理能力,但一直以來,這種功能普通用戶都無法使用。相反,OpenAI 在與 Be My Eyes (是一款為盲人和弱視人士提供免費移動應用程序)的合作中創建了一款可以為盲人解讀場景照片的應用程序。
然而,由于隱私問題導致 OpenAI 的多模態功能至今未能發布。
最近幾周,科技巨頭一直在競相推出多模態方面的更新,將更多 AI 驅動的工具直接集成到核心產品中。谷歌上周宣布對其 ChatGPT 競爭對手 Bard 進行一系列更新,同樣在上周,亞馬遜表示將為其語音助手 Alexa 帶來基于生成式 AI 的更新。
在最近 ChatGPT 更新公告中,OpenAI 指出了對 ChatGPT 進行功能擴展的一些限制,并承認存在潛在的視覺混淆(即錯誤識別某些內容)以及視覺模型對非英語語言的不完美識別等問題。OpenAI 表示,他們已經在極端主義和科學能力等領域進行了風險評估,但仍然建議謹慎使用,尤其是在高風險或科學研究等專業環境中。
鑒于在開發上述 Be My Eyes 應用程序時遇到的隱私問題,OpenAI 指出,他們已經采取了技術措施,以限制 ChatGPT 的能力,這些系統應該尊重個人隱私。
盡管存在缺陷,但 OpenAI 仍然賦予了 ChatGPT「看、聽、說」的能力。然而,并不是所有人都對這一更新感到興奮。Hugging Face AI 研究員 Sasha Luccioni 博士表示,「我們應該停止像對待人類一樣對待 AI 模型。ChatGPT 擁有看、聽、說的能力是不被允許的。但它可以與傳感器集成,以不同的方式來提供信息。」
新能力上線之后,人們紛紛表示歡迎,有人表示這是 ChatGPT 迄今為止最大的變革之一,就差套個機器人的物理外殼了。
在 AI 研究領域,人們也開始分析起新版 ChatGPT 背后的技術。從 OpenAI 自己公開的簡短文檔看,是有一個名為 GPT-4V (ision) 的新款大模型。
文檔鏈接://cdn.openai.com/papers/GPTV_System_Card.pdf 英偉達研究員 Jim Fan 認為 GPT-4V 是一個整體模型。與之對應的是,谷歌的 Bard 是一個二階段模型,首先應用 Google Lens API 進行圖像字幕,然后使用純文本 LLM 進行更多推理。 OpenAI 表示,與 GPT-4 類似,GPT-4V 的訓練是在 2022 年完成的,在 2023 年 3 月開始提供系統的早期訪問。由于 GPT-4 是 GPT-4V 視覺功能背后的技術,因此其訓練過程也是一樣的。目前看來,GPT-4V 于 2022 年完成訓練之后,一直在經歷安全性測試。 從 OpenAI 公布的文檔中我們可以總結出:
不過有人表示,看起來 Bard 對于圖像的識別準確率比 ChatGPT 要高。 有關新技術的貢獻者,OpenAI 副總裁 Peter Welinder 本次特別感謝了工程師 Raul Puri。此外,多模態 ChatGPT 的主要貢獻者還包括 Hyeonwoo Noh、Jamie Kiros、Long Ouyang、Daniel Levy、Chong Zhang、Sandhini Agarwal 等人。
參考內容:
機器之心報道
機器之心編輯部能容納 50 頁文檔的輸入框不夠用,那幾千頁呢?
一個多月前,OpenAI 的 GPT-4 問世。除了各種出色的直觀演示外,它還實現了一個重要更新:可以處理的上下文 token 長度默認為 8k,但最長可達 32K(大約 50 頁文本)。這意味著,在向 GPT-4 提問時,我們可以輸入比之前長得多的文本。這使得 GPT-4 的應用場景大大擴展,能更好地處理長對話、長文本以及文件搜索和分析。
不過,這一記錄很快就被打破了:來自谷歌研究院的 CoLT5 將模型可以處理的上下文 token 長度擴展到了 64k。
這樣的突破并不容易,因為這些使用 Transformer 架構的模型都要面臨一個問題:Transformer 處理長文檔在計算上是非常昂貴的,因為注意力成本隨輸入長度呈二次增長,這使得大型模型越來越難以應用于更長的輸入。
盡管如此,研究者依然在此方向上不斷突破。前幾天,一篇來自開源對話 AI 技術棧 DeepPavlov 等機構的研究表明:通過采用一種名為 Recurrent Memory Transformer(RMT)的架構,他們可以將 BERT 模型的有效上下文長度增加到 200 萬個 token(按照 OpenAI 的計算方式,大約相當于 3200 頁文本),同時保持了較高的記憶檢索準確性(注:Recurrent Memory Transformer 是 Aydar Bulatov 等人在 NeurIPS 2022 的一篇論文中提出的方法)。新方法允許存儲和處理局部和全局信息,并通過使用 recurrence 使信息在輸入序列的各 segment 之間流動。
作者表示,通過使用 Bulatov 等人在「Recurrent Memory Transformer」一文中介紹的簡單的基于 token 的記憶機制,他們可以將 RMT 與 BERT 這樣的預訓練 Transformer 模型結合起來,用一個 Nvidia GTX 1080Ti GPU 就可以對超過 100 萬個 token 的序列進行全注意和全精度操作。
論文地址://arxiv.org/pdf/2304.11062.pdf
不過,也有人提醒說,這并不是真正的「免費的午餐」,上述論文的提升是用「更長的推理時間 + 實質性的質量下降」換來的。因此,它還不能算是一次變革,但它可能成為下一個范式(token 可能無限長)的基礎。
Recurrent Memory Transformer
該研究采用 Bulatov 等人 2022 年提出的方法 Recurrent Memory Transformer(RMT),并將其改成即插即用的方法,主要機制如下圖所示:
冗長的輸入被分成多個 segment,記憶向量(memory vector)被添加到第一個 segment 嵌入之前,并與 segment token 一起處理。對于像 BERT 這樣的純編碼器模型,記憶只在 segment 的開頭添加一次,這一點與 (Bulatov et al., 2022) 不同,純解碼器模型將記憶分為讀取和寫入兩部分。對于時間步長 τ 和 segment ,循環按照如下步驟執行:
其中,N 是 Transformer 的層數。前向傳播之后, 包含 segment τ 的更新記憶 token。
輸入序列的 segment 按照順序處理。為了啟用循環連接,該研究將記憶 token 的輸出從當前 segment 傳遞到下一個 segment 的輸入:
RMT 中的記憶和循環都僅基于全局記憶 token。這允許主干 Transformer 保持不變,從而使 RMT 的記憶增強能力與任何 Transformer 模型都兼容。
計算效率
該研究估算了不同大小和序列長度的 RMT 和 Transformer 模型所需的 FLOP。
如下圖 3 所示,如果 segment 的長度固定,RMT 可針對任何模型大小進行線性擴展。該研究通過將輸入序列分成 segment,并僅在 segment 邊界內計算完整的注意力矩陣來實現線性擴展。
由于 FFN 層的計算量很大,較大的 Transformer 模型往往會表現出較慢的隨序列長度的二次擴展(quadratic scaling)。然而,對于大于 32000 的超長序列,它們會退回到二次擴展。對于多于一個 segment 的序列(本研究中 > 512),RMT 比非循環模型需要更少的 FLOP,并且可以將 FLOP 的數量減少多達 295 倍。RMT 為較小的模型提供了更大的 FLOP 相對減少,但在絕對數量上,OPT-175B 模型的 FLOP 減少了 29 倍是非常顯著的。
記憶任務
為了測試記憶能力,該研究構建了需要記憶簡單事實和基本推理的合成數據集。任務輸入由一個或多個事實和一個只有使用所有事實才能回答的問題組成。為了增加任務難度,該研究還添加了與問題或答案無關的自然語言文本來充當噪聲,因此模型的任務是將事實與不相關的文本分開,并使用事實來回答問題。
事實記憶
第一項任務是檢測 RMT 在記憶中長時間寫入和存儲信息的能力,如下圖 4 頂部所示。在最簡單的情況下,事實往往位于輸入開頭,而問題總是在末尾。問題和答案之間不相關文本的數量逐漸增加,以至于整個輸入不適合單個模型輸入。
事實檢測與記憶
事實檢測通過將一個事實移動到輸入中的隨機位置來增加任務難度,如上圖 4 中部所示。這需要模型首先將事實與不相關文本區分開來,把事實寫入記憶中,然后用它回答位于末尾的問題。
利用記憶事實進行推理
記憶的另一個操作是使用記憶事實和當前上下文進行推理。為了評估這一功能,研究者使用了一個更復雜的任務,其中生成了兩個事實并將它們放置在了輸入序列之中,如上圖 4 底部所示。在序列末尾提出的問題是以一種「必須使用任意事實來正確回答問題」的方式來描述。
實驗結果
研究者使用 4 到 8 塊英偉達 1080ti GPU 來訓練和評估模型。對于更長的序列,他們則使用單個 40GB 的英偉達 A100 來加快評估速度。
課程學習
研究者觀察到,使用訓練計劃能夠顯著提升解決方案的準確性和穩定性。最開始,RMT 在較短版本的任務上進行訓練,并在訓練收斂時通過添加另一個 segment 來增加任務長度。課程學習過程一直持續,直到達到所需的輸入長度。
在實驗中,研究者首先從適合單個 segment 的序列開始。實際 segment 的大小為 499,但由于 BERT 的 3 個特殊 token 和 10 個記憶占位符從模型輸入中保留下來,大小為 512。他們注意到, 在較短任務上訓練后,RMT 更容易解決更長版本任務,這得益于它使用更少訓練步收斂到完美的解決方案。
外推能力
RMT 對不同序列長度的泛化能力如何呢?為了回答這個問題,研究者評估了在不同數量 segment 上訓練的模型,以解決更長的任務,具體如下圖 5 所示。
他們觀察到,模型往往在較短任務上表現更好,唯一的例外是單 segment 推理任務,一旦模型在更長序列上訓練,則該任務變得很難解決。一個可能的解釋是:由于任務大小超過了一個 segment,則模型不再「期待」第一個 segment 中的問題,導致質量下降。
有趣的是,RMT 泛化到更長序列的能力也隨著訓練 segment 的增加而出現。在 5 個或更多 segment 上訓練后,RMT 可以近乎完美地泛化到兩倍長的任務。
為了測試泛化的局限性,研究者將驗證任務大小增至 4096 個 segment 或 2,043,904 個 token(如上圖 1 所示),RMT 在如此長的序列上表現得出奇的好。檢測和記憶任務最簡單,推理任務最復雜。
記憶操作的注意力模式
在下圖 6 中,通過檢查特定 segment 上的 RMT 注意力,研究者觀察到了記憶操作對應特定的注意力模式。此外 5.2 節中極長序列上的高外推性能證明了學得記憶操作的有效性,即使使用數千次也是如此。
IDC 中國副總裁兼首席分析師武連峰表示,“大模型的背后蘊藏著一場人工智能落地模式的變革。如今火爆全球的 ChatGPT 背后的技術支撐正是大模型。沒有對大模型的長期投入,就不會誕生 ChatGPT 這樣的應用。在 IDC 提出的大模型評估框架下,百度文心大模型在本次評估中表現非常突出,是其打造生成式對話產品文心一言的堅實基礎。”
** 大模型開啟 AI 開發新范式,**
** 行業標準牽引規范發展 **
《白皮書》認為,人工智能已進入大規模落地應用的關鍵時期,而大模型的通用性、泛化性以及基于“預訓練+精調”等新開發范式,能夠**解決落地門檻過高、數據資源有限、應用開發“重復造輪子”**等問題。因此,攻關大模型成為產業智能化發展的必然選擇,為政策制定者和企業管理者所重點關注。
云智一體技術正在成為產業智能化關鍵加速引擎這一事實,在 AI 新基建的不斷發展下得以彰顯。
2021年6月18日,百度智能云正式對外發布“云智一體”系列白皮書——《“云智一體”技術與應用解析系列白皮書——企業 AI 開發篇》(以下簡稱“白皮書”)。作為國內首個關于“云智一體”技術解讀的正式報告,該白皮書從行業趨勢、技術解讀到落地應用展示,為處在智能化轉型階段的企業提供了關鍵法門。
白皮書的發布,不僅意味著企業在 AI 開發過程中的高性能、高利用率、高性價比、靈活部署的需求,有方法和實施路徑可以滿足,也意味著百度智能云在“云智一體”技術與應用方面再次領跑,基于多年的云計算與 AI 領域的行業思考與實踐,此次百度智能云在業內掀起認知升級,助力企業智能化轉型。