北京時間 9 月 13 日午夜,OpenAI 發布 o1 系列模型,旨在專門解決難題。OpenAI o1 在數學、 代碼、長程規劃等問題上取得了顯著提升,而背后的成功最重要離不開后訓練階段 (Post-Training Stage) 中強化學習訓練和推理階段思考計算量的增大。新的擴展律 —— 后訓練擴展律(Post-Training Scaling Laws) 已經出現,并可能引發社區對于算力分配、后訓練能力的重新思考。
大規模強化學習算法 OpenAI 使用了一種大規模的強化學習算法,來訓練 o1-preview 模型。該算法通過高效的數據訓練,讓模型學會如何利用“思維鏈”(Chain of Thought)來生產性地思考問題。模型在訓練過程中會通過強化學習不斷優化其思維鏈,最終提升解決問題的能力。 OpenAI 發現,o1 模型的性能會隨著強化學習時間(訓練時計算量)和推理時間(測試時計算量)的增加而顯著提高。這種基于推理的訓練方式與傳統的大規模語言模型(LLM)預訓練方式不同,具有獨特的擴展性優勢。
o1 性能在訓練時間和測試時間的計算中都平穩提升思維鏈(Chain of Thought) o1-preview 模型通過 思維鏈推理 顯著增強了其在復雜推理任務中的能力。思維鏈的基本理念類似于人類思考困難問題的過程:逐步分解問題、嘗試不同策略并糾正錯誤。通過強化學習訓練,o1-preview 能夠在回答問題前進行深入思考,逐步細化步驟。 這種推理方式大幅提升了 o1-preview 在復雜任務中的表現。例如,o1-preview 能夠通過思維鏈識別問題中的關鍵步驟并逐步解決。這種推理模式特別適用于需要多步驟推理的任務,如復雜的數學問題或高難度編程任務。 舉例說明: * 在某些復雜問題上,o1-preview 能夠逐步打破問題的難點,最終找到正確解答。這與人類面對挑戰性問題時逐步分析的思維方式非常相似。
中文版:
**【轉載新智元】**Emory大學的研究團隊提出了一種創新的方法,將大語言模型(LLM)在文本圖(Text-Attributed Graph, 縮寫為TAG)學習中的強大能力蒸餾到本地模型中,以應對文本圖學習中的數據稀缺、隱私保護和成本問題。通過訓練一個解釋器模型來理解LLM的推理過程,并對學生模型進行對齊優化,在多個數據集上實現了顯著的性能提升,平均提高了6.2%。
近年來,隨著文本屬性圖(TAG)在社交媒體、電子商務、推薦系統和學術引用網絡等領域的廣泛應用,研究人員對如何有效地從這些復雜數據結構中學習變得越來越感興趣。TAG不僅包含了節點之間的結構關系,還包含了節點本身的文本特征,因此如何同時處理這兩種信息成為研究中的一個核心問題。
當前,圖神經網絡(GNN)在TAG學習中得到了廣泛的應用,然而其訓練過程通常需要大量的人工標注數據,這在實際應用中往往難以獲取。 大語言模型(LLM)以其在少樣本和零樣本學習中的出色表現,為解決數據稀缺問題帶來了曙光。然而,LLM的部署和使用成本高昂,且存在隱私數據泄露的風險,這使得LLM在一些實際場景中的應用受到了限制。 為了解決這些問題,埃默里大學(Emory)大學的研究團隊提出了一種通過知識蒸餾將LLM的能力轉移到本地圖模型的方法,該方法創新性地結合了LLM的推理能力與GNN的結構化學習能力,通過將LLM生成的詳細推理過程轉化為圖模型能夠理解的信息,從而在無需依賴LLM的情況下,實現高效的TAG學習。
論文鏈接://arxiv.org/pdf/2402.12022 在將LLM蒸餾到本地模型的目標下,研究團隊面臨了多重挑戰,主要集中在以下幾個方面: 1. 如何讓語言模型教會圖模型?
大語言模型是生成性模型,能夠輸出詳細而豐富的文本信息,而圖神經網絡則通常是判別性模型,其輸入和輸出都相對簡潔。傳統的知識蒸餾方法通過對齊輸出的方式,難以讓圖模型充分吸收語言模型中的知識。因此,如何在訓練過程中有效地將語言模型中的豐富知識傳遞給圖模型,是研究團隊面臨的一個重要難題。 **2. 如何將文本推理轉化為圖推理? **
大語言模型生成的推理依據通常以自然語言的形式存在,而圖模型難以直接理解這些文本信息。因此,如何將這些文本推理轉化為圖模型能夠理解的圖推理,是一個未被充分探索且具有挑戰性的問題。研究團隊需要設計出一種方法,使得圖模型能夠利用語言模型的推理依據來增強自身的學習能力。 **3. 如何在蒸餾過程中協同文本和圖信息? **
文本屬性圖(TAG)同時包含文本和圖結構信息,這兩者之間高度異構。在知識蒸餾過程中,如何確保學生模型能夠同時保留文本和圖信息以及它們之間的相互作用,是研究團隊面臨的另一重大挑戰。研究團隊需要找到一種方法,使得學生模型不僅能從解釋器模型中繼承知識,還能在沒有語言模型支持的情況下,獨立處理并理解這些異構信息。
方法
在這項研究中,Emory大學的研究團隊提出了一種創新的框架,通過蒸餾大語言模型(LLM)的知識來增強圖神經網絡(GNN)在文本屬性圖(TAG)學習中的性能。該方法分為兩大核心部分:解釋器模型的訓練和學生模型的對齊優化。
**
**1. 解釋器模型的訓練
多層次特征增強: 研究團隊首先設計了一個解釋器模型,該模型的主要任務是理解并吸收LLM生成的推理依據。為了讓解釋器模型能夠有效地學習LLM的知識,研究團隊將LLM的推理依據轉化為多層次的圖推理增強特征。具體來說,這些特征包括:
**文本級特征:**LLM識別并提取與分類最相關的關鍵詞,從而減少文本中可能干擾模型分類的噪聲信息。這些關鍵詞通過文本編碼器進行處理,以生成增強的文本嵌入。
**結構級特征:**LLM分析每個節點的鄰居節點,識別出對節點分類最重要的鄰居節點,并提取這些鄰居節點中的關鍵信息。這些增強的結構特征用于圖卷積網絡(GNN)的信息傳遞過程中。
**消息級特征:**在結構級特征的基礎上,LLM進一步識別出每個鄰居節點中最關鍵的消息內容,并將其整合到消息傳遞的第一層中。通過這種方式,解釋器模型能夠聚焦于更具相關性的鄰居信息,從而提高分類精度。
**偽標簽與偽軟標簽生成:為了提供更加細膩的監督信號,研究團隊使用LLM生成的偽標簽和偽軟標簽來訓練解釋器模型。偽軟標簽包含了每個類別的概率信息,這比硬分類標簽提供了更多的監督信息,有助于解釋器模型更好地學習LLM的推理邏輯。
**2. 學生模型的對齊優化
模型對齊方法: 為了讓學生模型在沒有LLM支持的情況下也能做出準確預測,研究團隊設計了一種新的TAG模型對齊方法,該方法同時考慮了語義和結構的對齊。
**語義對齊:**研究團隊通過對比解釋器模型和學生模型的文本嵌入,特別是那些在結構中出現頻率較高且關鍵詞差異較大的節點,來實現語義對齊。這種對齊方式確保了學生模型能夠更好地繼承解釋器模型中的語義信息。
**結構對齊:**在結構對齊中,研究團隊關注那些鄰居結構變化較大的節點,計算這些節點的原始鄰居結構與增強鄰居結構之間的相似度。通過最小化這些差異,確保學生模型能夠在圖結構信息上與解釋器模型保持一致。
**多任務學習與對齊目標:**在訓練過程中,研究團隊采用多任務學習的方法,使用交叉熵損失來優化偽標簽的預測,同時使用均方誤差損失來對齊解釋器模型和學生模型的輸出。最終的訓練目標整合了語義對齊和結構對齊的損失,使得學生模型能夠在沒有LLM的情況下進行高效推理。
實驗與結果
研究團隊在四個廣泛使用的文本屬性圖數據集上驗證了他們的方法,包括Cora、PubMed、ogbn-products和arxiv-2023數據集。實驗結果顯示,該方法在所有數據集上均表現出色,特別是在標簽稀缺的情況下,性能提升尤為顯著。
在Cora數據集上,該方法的準確率相比現有方法提高了10.3%,而在PubMed和ogbn-products數據集上,分別提高了2.2%和4%。特別是在arxiv-2023數據集上,由于其內容超出了現有大語言模型的知識截止日期,研究團隊的方法依然實現了8.3%的性能提升,進一步證明了該方法在處理新穎和未見數據方面的能力。 研究團隊進一步分析了不同訓練數據比例下的模型性能,結果顯示該方法在訓練數據稀缺的情況下仍能保持優異的表現。這表明,通過蒸餾LLM的推理能力到學生模型,該方法能夠在有限的數據下有效學習,顯示出強大的泛化能力。
在計算成本方面,盡管研究團隊的方法在訓練時需要處理更多的輸入輸出數據(如LLM生成的推理依據),但其訓練和測試時間與現有方法相當,顯示出良好的效率。尤其是在處理大型數據集時,這種蒸餾方法能夠顯著降低計算成本,使其在實際應用中更具可行性。
結論
研究團隊的工作為如何在不依賴LLM的情況下有效利用其能力提供了新的思路。通過將大語言模型的知識蒸餾到本地圖模型中,研究人員不僅成功解決了TAG學習中的標簽稀缺問題,還顯著提升了模型的性能和遷移性。這一研究不僅在學術界具有重要意義,也為工業界在隱私保護和成本控制方面提供了實用的解決方案。
參考資料:
現代人工智能(AI)系統由基礎模型驅動。本文介紹了一套新的基礎模型,稱為Llama 3。它是一群本地支持多語言、編碼、推理和工具使用的語言模型。我們最大的模型是一個具有4050億參數和高達128K令牌上下文窗口的密集Transformer。本文對Llama 3進行了廣泛的實證評估。我們發現Llama 3在眾多任務上提供了與GPT-4等領先語言模型相當的質量。我們公開發布了Llama 3,包括4050億參數語言模型的預訓練和后訓練版本,以及我們的Llama Guard 3模型,用于輸入和輸出安全。本文還介紹了我們通過組合方法將圖像、視頻和語音能力集成到Llama 3中的實驗結果。我們觀察到這種方法在圖像、視頻和語音識別任務上與最先進的技術競爭。生成的模型尚未廣泛發布,因為它們仍在開發中。
基礎模型是為語言、視覺、語音和/或其他模態設計的通用模型,旨在支持大量AI任務。它們構成了許多現代AI系統的基礎。 現代基礎模型的發展包括兩個主要階段:(1) 預訓練階段,在這個階段,模型使用簡單的任務(如下一個詞預測或字幕生成)進行大規模訓練;(2) 后訓練階段,在這個階段,模型被調整以遵循指令、與人類偏好對齊,并提高特定能力(例如,編碼和推理)。
在本文中,我們介紹了一套新的語言基礎模型,稱為Llama 3。Llama 3模型群原生的支持多語言、編碼、推理和工具使用。我們最大的模型是一個具有4050億參數的密集Transformer,能夠在高達128K令牌的上下文中處理信息。表1列出了每個模型成員。本文中呈現的所有結果都是針對Llama 3.1模型的,為了簡潔,我們將在全文中稱之為Llama 3。
表1 Llama 3模型群的概覽。本文中的所有結果都是針對Llama 3.1模型的。 我們相信,在開發高質量的基礎模型方面有三個關鍵的杠桿:數據、規模和管理復雜性。我們在開發過程中尋求優化這三個杠桿:
數據。與Llama的早期版本(Touvron等人,2023a,b)相比,我們改進了用于預訓練和后訓練的數據量和質量。這些改進包括開發更謹慎的預訓練數據處理和策劃流程,以及為后訓練數據開發更嚴格的質量保證和過濾方法。我們對Llama 3進行了大約15T多語言令牌的預訓練,而Llama 2是1.8T令牌。
規模。我們訓練的模型規模遠遠大于以前的Llama模型:我們的旗艦語言模型使用了3.8×10253.8×1025次浮點運算進行預訓練,比Llama 2的最大版本多近50倍。具體來說,我們在15.6T文本令牌上預訓練了一個具有4050億可訓練參數的旗艦模型。根據基礎模型的規模法則,我們的旗艦模型的表現超過了使用相同過程訓練的較小模型。雖然我們的規模法則表明,我們的旗艦模型對于我們的訓練預算來說是近似計算最優的大小,我們還訓練了更小的模型,比計算最優的時間長得多。產生的模型在相同的推理預算下比計算最優模型表現更好。我們使用旗艦模型在后訓練期間進一步提高這些較小模型的質量。
管理復雜性。我們做出設計選擇,力求最大化我們擴展模型開發過程的能力。例如,我們選擇標準的密集Transformer模型架構(Vaswani等人,2017)進行小幅度調整,而不是選擇專家混合模型(Shazeer等人,2017)以最大化訓練穩定性。同樣,我們采用了相對簡單的后訓練程序,基于監督微調(SFT)、拒絕采樣(RS)和直接偏好優化(DPO;Rafailov等人(2023)),而不是更復雜的強化學習算法(Ouyang等人,2022;Schulman等人,2017),這些算法往往不太穩定,更難擴展。
我們的工作成果是Llama 3:一個包含8B、70B和405B參數的三種多語言的語言模型的群體。我們在涵蓋廣泛語言理解任務的眾多基準數據集上評估了Llama 3的性能。此外,我們進行了廣泛的人類評估,將Llama 3與競爭模型進行了比較。表2展示了旗艦Llama 3模型在關鍵基準測試中的表現概覽。我們的實驗評估表明,我們的旗艦模型在各種任務上的表現與GPT-4(OpenAI,2023a)等領先的語言模型相當,并且接近于達到最先進的水平。我們的較小模型是同類中最好的,超過了參數數量相似的替代模型(Bai等人,2023;Jiang等人,2023)。Llama 3還在有益性和無害性之間提供了比其前身(Touvron等人,2023b)更好的平衡。我們在第5.4節中對Llama 3的安全性進行了詳細分析。
表2 在關鍵基準評估中微調后的Llama 3模型的性能。該表比較了8B、70B和405B版本的Llama 3與競爭模型的性能。我們在三種模型尺寸等級中,每個等級中表現最佳模型的結果用粗體表示。△表示使用5次提示(無CoT)獲得的結果。?表示未使用CoT獲得的結果。?表示使用零次提示獲得的結果。
我們正在根據Llama 3社區許可證的更新版本公開發布所有三個Llama 3模型;請參見 //llama.meta.com。這包括我們的405B參數語言模型的預訓練和后訓練版本,以及我們的Llama Guard模型(Inan等人,2023)的新版本,用于輸入和輸出安全。我們希望旗艦模型的開放發布將激發研究社區的一波創新,并加速朝著負責任的人工通用智能(AGI)發展道路前進。 作為Llama 3開發過程的一部分,我們還開發了模型的多模態擴展,使其具備圖像識別、視頻識別和語音理解能力。這些模型仍在積極開發中,尚未準備好發布。除了我們的語言建模結果外,本文還展示了我們對這些多模態模型進行的初步實驗的結果。
您的Python代碼可能運行正常,但如果您需要它運行得更快呢?這本實用的書籍將向您展示如何找到性能瓶頸并顯著加快高數據量程序中的代碼運行速度。通過解釋設計選擇背后的基本理論,這本擴展版的《高性能Python》幫助有經驗的Python程序員更深入地理解Python的實現。
機器之心報道 機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。
博客地址: 參考內容:
Sora橫空出世引領多模態產業革命。美國時間2月15日,文生視頻大模型Sora橫空出世,能夠根據文本指令或靜態圖像生成1分鐘的視頻。其中,視頻生成包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,同時也接受現有視頻擴展或填補缺失的幀。總體而言,不管是在視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等方面,Sora都做到了業內領先水平,引領多模態產業革命。此外,當Sora訓練的數據量足夠大時,它也展現出了一種類似于涌現的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。
拆解視頻生成過程,技術博采眾長或奠定了Sora文生視頻領軍地位。從技術報告中,Sora視頻生成過程大致由“視頻編碼+加噪降噪+視頻解碼”三個步驟組成,視頻壓縮網絡、時空patches、transformer架構、視頻數據集等技術與資源在其中發揮了重要作用。 視頻壓縮網絡:過往VAE應用于視頻領域通常需插入時間層,Sora從頭訓練了能直接壓縮視頻的自編碼器,可同時實現時間和空間的壓縮,既節省算力資源,又最大程度上保留視頻原始信息,或為Sora生成長視頻的關鍵因素,并為后續處理奠定基礎。 時空patches:1)同時考慮視頻中時間和空間關系,能夠捕捉到視頻中細微的動作和變化,在保證視頻內容連貫性和長度的同時,創造出豐富多樣的視覺效果;2)突破視頻分辨率、長寬比等限制的同時顯著提升模型性能,節約訓練與推理算力成本。 Transformer架構:1)相比于U-Net架構,transformer突顯Scaling Law下的“暴力美學”,即參數規模越大、訓練時長越長、訓練數據集越大,生成視頻的效果更好;2)此外,在transformer大規模訓練下,逐步顯現出規模效應,迸發了模型的涌現能力。 視頻數據集:Sora或采用了更豐富的視頻數據集,在原生視頻的基礎上,將DALL?E3的re-captioning技術應用于視頻領域,同時利用GPT保障文字-視頻數據集質量,使得模型具有強大的語言理解能力。
12 月 6 日,谷歌 CEO 桑達爾?皮查伊官宣 Gemini 1.0 版正式上線。這次發布的 Gemini 大模型是原生多模態大模型,是谷歌大模型新時代的第一步,它包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro 以及適用于特定任務和端側的 Gemini Nano。
現在,谷歌的類 ChatGPT 應用 Bard 已經升級到了 Gemini Pro 版本,實現了更為高級的推理、規劃、理解等能力,同時繼續保持免費。谷歌預計在明年初將推出「Bard Advanced」,其將使用 Gemini Ultra。
谷歌 DeepMind CEO 和聯合創始人 Demis Hassabis 代表 Gemini 團隊正式推出了大模型 Gemini。 Hassabis 表示長久以來,谷歌一直想要建立新一代的 AI 大模型。在他看來,AI 帶給人們的不再只是智能軟件,而是更有用、更直觀的專家助手或助理。 今天,谷歌大模型 Gemini 終于亮相了,成為其有史以來打造的最強大、最通用的模型。Gemini 是谷歌各個團隊大規模合作的成果,包括谷歌研究院的研究者。 特別值得關注的是,Gemini 是一個多模態大模型,意味著它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。 谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強開發人員和企業客戶構建和擴展 AI 的方式。
目前,Gemini 1.0 提供了三個不同的尺寸版本,分別如下:
谷歌對 Gemini 模型進行了嚴格的測試,并評估了它們在各種任務中的表現。從自然圖像、音頻和視頻理解,到數學推理等任務,Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過當前 SOTA 結果。 另外,Gemini Ultra 在 MMLU(大規模多任務語言理解數據集)中的得分率高達 90.0%,首次超越了人類專家。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試大模型的知識儲備和解決問題能力。 針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini 的表現有顯著改進。 在大多數基準測試中,Gemini 的性能都超越了 GPT-4。
**Gemini 高性能多模態大模型Gemini: A Family of Highly Capable Multimodal Models
這份報告介紹了一種新的多模態模型系列——Gemini,它在圖像、音頻、視頻和文本理解方面展現出非凡的能力。Gemini系列包括Ultra、Pro和Nano三種尺寸,適用于從復雜推理任務到設備內存受限用例的各種應用。在一系列廣泛的基準測試中的評估顯示,我們最強大的Gemini Ultra模型在這些基準測試的32項中的30項中推進了最新技術水平——特別是它是首個在廣受研究的考試基準MMLU上達到人類專家表現的模型,并且在我們檢查的所有20項多模態基準測試中提升了最新技術水平。我們相信,Gemini模型在跨模態推理和語言理解方面的新能力將使各種用例成為可能,我們討論了將它們負責任地部署給用戶的方法。
我們在Google開發了一系列高性能的多模態模型——Gemini。我們對Gemini進行了聯合訓練,覆蓋圖像、音頻、視頻和文本數據,旨在構建一個在多種模態上都具有強大的通才能力,并在各自領域內具有先進的理解和推理性能的模型。 Gemini 1.0,我們的首個版本,有三種尺寸:Ultra用于高度復雜的任務,Pro用于提升性能和大規模部署能力,Nano用于設備上的應用。每種尺寸都專門針對不同的計算限制和應用需求進行了優化。我們在一系列內部和外部基準測試上評估了Gemini模型的性能,涵蓋了廣泛的語言、編程、推理和多模態任務。 Gemini在大規模語言建模(Anil等,2023;Brown等,2020;Chowdhery等,2023;Hoffmann等,2022;OpenAI,2023a;Radford等,2019;Rae等,2021)、圖像理解(Alayrac等,2022;Chen等,2022;Dosovitskiy等,2020;OpenAI,2023b;Reed等,2022;Yu等,2022a)、音頻處理(Radford等,2023;Zhang等,2023)和視頻理解(Alayrac等,2022;Chen等,2023)方面推進了最新技術。它還基于序列模型(Sutskever等,2014)、深度學習基于神經網絡的長期研究(LeCun等,2015),以及機器學習分布式系統(Barham等,2022;Bradbury等,2018;Dean等,2012)來實現大規模訓練。 我們最強大的模型,Gemini Ultra,在我們報告的32個基準測試中的30個中取得了新的最新技術成果,包括12個流行的文本和推理基準測試中的10個,9個圖像理解基準測試中的9個,6個視頻理解基準測試中的6個,以及5個語音識別和語音翻譯基準測試中的5個。Gemini Ultra是首個在MMLU(Hendrycks等,2021a)上達到人類專家表現的模型——一個通過一系列考試測試知識和推理的著名基準測試——得分超過90%。除了文本,Gemini Ultra在挑戰性的多模態推理任務上也取得了顯著進展。例如,在最近的MMMU基準測試(Yue等,2023)上,該測試包含了關于圖像的多學科任務,需要大學級別的主題知識和深思熟慮的推理,Gemini Ultra取得了62.4%的新最新技術成績,比之前最好的模型高出5個百分點以上。它為視頻問答和音頻理解基準測試提供了統一的性能提升。 定性評估展示了令人印象深刻的跨模態推理能力,使模型能夠本地地理解和推理音頻、圖像和文本輸入序列(見圖5和表13)。以圖1中描繪的教育場景為例。一位老師畫了一個滑雪者下坡的物理問題,一位學生對其進行了解答。使用Gemini的多模態推理能力,模型能夠理解凌亂的手寫字,正確理解問題的構成,將問題和解決方案轉換為數學排版,識別學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。這為教育領域開辟了激動人心的可能性,我們相信Gemini模型的新多模態和推理能力在許多領域都有重大應用。大型語言模型的推理能力展示了構建能夠解決更復雜多步驟問題的通才型代理的前景。AlphaCode團隊構建了AlphaCode 2(Leblond等,2023),一種新的由Gemini驅動的代理,它結合了Gemini的推理能力、搜索和工具使用,擅長解決競賽編程問題。AlphaCode 2在Codeforces競賽編程平臺上排名前15%,比其最先進的前輩排名前50%有了大幅提升(Li等,2022)。 與此同時,我們通過Gemini Nano推進了效率的前沿,這是一系列針對設備上部署的小型模型。這些模型擅長于設備上的任務,如摘要、閱讀理解、文本完成任務,并在推理、STEM、編碼、多模態和多語言任務方面相對于它們的大小展示了令人印象深刻的能力。 在接下來的部分,我們首先提供模型架構、訓練基礎設施和訓練數據集的概述。然后,我們詳細評估了Gemini模型系列,涵蓋了廣泛研究的基準測試和跨文本、代碼、圖像、音頻和視頻的人類偏好評估——包括英語性能和多語言能力。我們還討論了負責任部署的方法,包括我們對影響評估的過程、開發模型政策、評估和在部署決策前減少傷害的方法。最后,我們討論了Gemini的更廣泛影響,它的局限性以及其潛在應用——為AI研究和創新的新時代鋪平道路。
聯合國教科文組織(UNESCO)在官網全球首個《生成式AI與教育未來》的應用指南,呼吁各國實施適當的政策,以確保在教育中應用以人為本的方法來使用生成式AI。
圖片 1)生成內容的準確性,由于大語言模型在預訓練時可能應用了很多“黑箱”數據,所以,AI可能會生成虛假的內容;
2)適當的使用年齡,使用生成式AI學生的年齡最好不要低于13歲;
3)合理的應用方法,生成式AI對教學、作業、課程分享等起到了幫助作用,但是不要過度依賴AI工具從而失去獨立思考的能力。
4)文化和社會價值觀,需要審核AI輸出的內容,盡量避免出現歧視、偏見、侮辱等內容,從而對學生的價值觀產生影響。
5)對教師進行系統的培訓,使其深度了解生成式AI的技術原理、生成機制等,以便在合適的教育場景中使用。
自ChatGPT、Bard、Claude、Midjourney以及其他內 容生成工具問世以來,人們對生成式AI抱有很高期 待。各企業CEO自然也在思考:這究竟是科技炒作, 還是顛覆行業格局的機遇?如果是后者,那生成式 AI能給自身業務帶來什么價值? ChatGPT的大眾版僅兩個月就吸引到1億用戶。它以 史無前例的方式推動了AI的普及,已成為迄今增長 最快的應用程序。無與倫比的易用性讓生成式AI有 別于以往所有AI技術。用戶不需要專修機器學習就 可以開展交互、獲取價值——只要會提問,幾乎人 人都能用。就像個人電腦或iPhone等其他突破性技 術一樣,一款生成式AI平臺可以衍生出許多應用程 序,適用于各個年齡段和教育水平的用戶群體,人 們無論身處何地,能夠上網即可使用。 而實現這一切,依靠的是驅動生成式AI聊天機器人 的基礎大模型,它們是經由大量非結構化、無標簽 數據(如文本、音頻等各類形式)訓練的龐大神經 網絡。基礎大模型可處理各種各樣的任務。相比之 下,以往的AI模型通常適用范圍更“窄”,往往只能執 行一項任務,如預測客戶流失率等。而一個基礎大 模型則既能為一份2萬字的量子計算技術報告生成 內容摘要,又能為園藝公司起草市場進入策略,還 能根據冰箱里的10種食材給出5張不同的食譜。不 過,在其豐富功能的背后,目前還存在結果不夠準 確的短板,這也讓人們再度關注起AI的風險管理 問題。 在監管得當的情況下,生成式AI不僅可以為企業開 辟新用例,還可以加速、擴展或改進現有用例。以 電銷場景為例,經過專門訓練的AI模型可以幫助銷 售人員發現追加銷售機會,但截至目前,這些模型 通常還只能根據通話前收集的人口統計信息和購買 規律等靜態客戶數據來判斷追加銷售的可能性。生 成式AI工具則可根據實際對話內容,利用內部客戶 數據、外部市場趨勢和社交媒體影響者數據,實時 為銷售人員提供追加銷售建議。同時,生成式AI還 可以為銷售人員撰寫銷售話稿,供其根據具體情況 進行調整。 上述例子只展示了AI技術對人類工作潛在影響的一 個側面,而實際上,幾乎所有知識工作者都有可能 因使用生成式AI而獲益。盡管生成式AI最終可能會 讓部分工作自動化,但其價值將更多來自于被嵌入 日常工具(如電子郵件或文字處理軟件)后知識工 作者對它的使用。這類升級后的工具可以大幅提高 生產力。 CEO們想知道是否應立即采取行動,以及如果采 取行動,該從何開始。有些人可能從中看到了機遇, 希望通過重塑人與生成式AI應用程序協同工作的 方式,在競爭中彎道超車。其他人則可能希望謹慎 行事,在進行大規模投資之前先嘗試幾個用例,增 進對生成式AI的理解。企業也需要評估自身是否具 備必要的技術專識、技術及數據架構、運營模式以 及風險管理流程,這些是更進一步部署生成式AI 時所需要的。 本文旨在幫助CEO及其團隊思考生成式AI的價值創 造場景以及如何開始應用。首先,我們總結了生成 式AI的入門指南,以幫助CEO更好了解AI日新月異的 發展現狀和可行技術選擇。第二部分將通過4個旨 在提高組織效能的案例,探討企業如何應用生成式 AI。這些案例來自我們對早期采用者的觀察,并介 紹了在技術、成本和運營模式要求等方面的各種選 擇。最后,我們將探討CEO如何發揮關鍵作用,利 用生成式AI帶領企業走向成功。 人們對生成式AI的期待顯而易見,企業高管自然希 望借此東風運籌帷幄,有計劃地快速推進。我們希 望本文能讓商業領袖更全面了解生成式AI未來潛力。
**為什么 ChatGPT 如此重要?AI C 端產品中的第一個爆款,可能代表著商業 化的拐點。**1)從用戶體驗上,比起競品和上一代產品,ChatGPT 的連續對話 能力明顯更強,具備了大范圍商業化的潛力。2)從應用場景的潛力上,語義 文本類產品想象空間較圖片類更大。短期看有望落地的包括更專業的客服機器 人、更垂直更專業化的 AI(如醫療教育領域)、新一代的智能搜索等。3)ChatGPT 的出現或將加快巨頭對于 AI 的發展速度。ChatGPT 的成功或將促進各科技巨 頭加大對于 AI 的研發投入,如谷歌近日宣布投資 OpenAI 的競爭對手 Anthropic。大廠的競爭有助于技術的進步和商業化的加速。
? 為什么是 ChatGPT?比起競品和上一代產品,ChatGPT 在多方面有了明顯改 善。1)道德性的增強,敢于質疑提問者提問前提的正確性和正當性。避免出 現偏見、歧視等毒害信息。2)主動承認錯誤或主動承認無法回答某一問題。3) 可以理解整段對話上下文的語義,而不是孤立的回答其中一個問題。4)對提 問者意圖判斷能力大幅提升,并非單純根據相關性進行答案羅列。因此整體上, ChatGPT 有著比其他 AI 機器人更好的用戶體驗,具備了真正意義上的連續對 話的能力。
**? 如何落地?**短期看是降本增效的新生產力工具,長期看可能帶來新的內容生 產范式。ChatGPT 的成功證明了生成式模型的進化,實現通用人工智能 AGI 的可能性進一步提高。其重要性體現在 AI 對人類傳達信息的載體有了更好 的學習,在此基礎上各個媒介之間的互通成為可能。例如從自然語言生成編程 語言,可以產生新的人機交互方式;從自然語言生成圖片和視頻,可以革新內 容行業的生產范式。短期直接落地的場景可能是在文本端,提高人的效率:搜 索、營銷文案、客服、輔助寫作;更長期的可能在于提高人機互動的智能, 如在游戲、虛擬人方面的應用。
生成式深度學習算法已經發展到很難區分什么是真實的,什么是虛假的。在2018年,人們發現利用這項技術進行不道德和惡意的應用是多么容易,例如傳播錯誤信息、冒充政治領導人以及誹謗無辜的個人。從那以后,這些“deepfakes”有了顯著的進步。
在本文中,我們將探討deepfakes的創建和檢測,并對這些架構的工作方式提供深入的了解。本次綜述的目的是讓讀者更深入地了解 (1)deepfakes是如何產生和檢測的,(2) 該領域的當前趨勢和進展,(3) 當前防御解決方案的缺點,(4) 需要進一步研究和關注的領域。