機器之心報道 機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。
博客地址: 參考內容:
機器之心報道
轉載機器之心編輯部性能比 GPT-4 強很多。
大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。
在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。
此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:
在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。
不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。
第一手實測Claude3
地址://claude.ai/
Claude 3 是否真的像官方所宣稱的那樣,性能全面超越了 GPT-4?目前大多數人認為,確實有那么點意思。
以下是部分實測效果:
首先來一個腦筋急轉彎,哪一個月有二十八天?實際正確答案是每個月都有。看來 Claude 3 還不擅長做這種題。
接著我們又測試了一下 Claude 3 比較擅長的領域,從官方介紹可以看出 Claude 擅長「理解和處理圖像」,包括從圖像中提取文本、將 UI 轉換為前端代碼、理解復雜的方程、轉錄手寫筆記等。
對于大模型來說,經常分不清炸雞和泰迪,當我們輸入一張含有泰迪和炸雞的圖片時,Claude 3 給出了這樣的答案「這張圖片是一組拼貼畫,包含狗和炸雞塊或雞塊,它們與狗本身有著驚人的相似之處……」,這一題算過關。
接著問它里面有幾個人,Claude 3 也回答正確,「這幅動畫描繪了七個小卡通人物。」
Claude 3 可以從照片中提取文本,即使是中文、日文的豎行順序也可以正確識別:
如果我用網上的梗圖,它又要如何應對?有關視覺誤差的圖片,GPT-4 和 Claude3 給出了相反的猜測:
哪種是對的呢?
除了理解圖像外,Claude 處理長文本的能力也比較強,此次發布的全系列大模型可提供 200k 上下文窗口,并接受超過 100 萬 token 輸入。
效果如何呢?我們丟給它微軟、國科大新出不久的論文《 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 》,讓它按照 1、2、3 的方式總結文章要點,我們記錄了一下時間,輸出整體答案的時間大概有 15 秒左右。
不過這只是 Claude 3 Sonnet 的輸出效果,假如使用 Claude Pro 版本的話,速度會更快,不過要 20 美元一個月。
值得注意的是,現在 Claude 要求上傳的文章大小不超過 10MB,超過會有提示:
在 Claude 3 的博客中,Anthropic 提出新模型的代碼能力有大幅提升,有人直接拿基礎 ASCII 碼丟給 Claude,結果發現它毫無壓力:
我們應該可以確認,Claude 3 有比 GPT-4 更強的代碼能力。
前段時間,剛剛從 OpenAI 離職的 Karpathy 提出過一個「分詞器」挑戰。具體來說,就是將他錄制的 2 小時 13 分的教程視頻放進 LLM,讓其翻譯為關于分詞器的書籍章節或博客文章的格式。
面對這項任務,Claude 3 接住了,以下是 AnthropicAI 研究工程師 Emmanuel Ameisen 曬出的結果:
或許是不再利益相關,Karpathy 給出了比較充分、客觀的評價:
從風格上看,確實相當不錯!如果仔細觀察,會發現一些微妙的問題 / 幻覺。不管怎么說,這個幾乎現成就能使用的系統還是令人印象深刻的。我很期待能多玩 Claude 3,它看起來是一個強大的模型。
如果說有什么相關的事情我必須說出來的話,那就是人們在進行評估比較時應該格外小心,這不僅是因為評估結果本身比你想象的要糟糕,還因為許多評估結果都以未定義的方式被過擬合了,還因為所做的比較可能是誤導性的。GPT-4 的編碼率(HumanEval)不是 67%。每當我看到這種比較被用來代替編碼性能時,我的眼角就會開始抽搐。
根據以上各種刁鉆的測試結果,有人已經喊出「Anthropic is so back」了。
最后,anthropic 還推出了一個包含多個方向提示內容的 prompt 庫。如果你想要深入了解 Claude 3 的新功能,可以嘗試一下。
鏈接:
Claude 3 系列模型
Claude 3 系列模型的三個版本分別是 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
其中 Claude 3 Opus 是智能程度最高的模型,支持 200k tokens 上下文窗口,在高度復雜的任務上實現了當前 SOTA 的性能。該模型能夠以絕佳的流暢度和人類水平的理解能力來處理開放式 prompt 和未見過的場景。Claude 3 Opus 向我們展示了生成式 AI 可能達到的極限。
Claude 3 Sonnet 在智能程度與運行速度之間實現了理想的平衡,尤其是對于企業工作負載而言。與同類模型相比,它以更低的成本提供了強大的性能,并專為大規模 AI 部署中的高耐用性而設計。Claude 3 Sonnet 支持的上下文窗口為 200k tokens。
Claude 3 Haiku 是速度最快、最緊湊的模型,具有近乎實時的響應能力。有趣的是,它支持的上下文窗口同樣是 200k。該模型能夠以無與倫比的速度回答簡單的查詢和請求,用戶通過它可以構建模仿人類交互的無縫 AI 體驗。
接下來我們詳看一下 Claude 3 系列模型的特性和性能表現。
全面超越 GPT-4,實現智能水平新 SOTA
作為 Claude 3 系列中智能水平最高的模型,Opus 在 AI 系統的大多數評估基準上都優于競品,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA) 、基礎數學(GSM8K)等基準。并且,Opus 在復雜任務上表現出接近人類水平的理解力和流暢度,引領通用智能的前沿。 此外,包括 Opus 在內,所有 Claude 3 系列模型都在分析和預測、細致內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面實現了能力增強。 下圖為 Claude 3 模型與競品模型在多個性能基準上的比較,可以看到,最強的 Opus 全面優于 OpenAI 的 GPT-4。
近乎實時響應
Claude 3 模型可以支持實時客戶聊天、自動補充和數據提取等響應必須立即且實時的任務。 Haiku 是智能類別市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內讀完一篇包含密集圖表和圖形信息的 arXiv 平臺論文(約 10k tokens)。 對于絕大多數工作,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。 強大的視覺能力 Claude 3 具有與其他頭部模型相當的復雜視覺功能。它們可以處理各種視覺格式數據,包括照片、圖表、圖形和技術圖表。 Anthropic 表示,它們的一些客戶 50% 以上的知識庫以各種數據格式進行編程,例如 PDF、流程圖或演示幻燈片。因此,新模型強大的視覺能力非常有幫助。
更少拒絕回復
以前的 Claude 模型經常做出不必要的拒絕,這表明模型缺乏語境理解。Anthropic 在這一領域取得了有意義的進展:與前幾代模型相比,即使用戶 prompt 接近系統底線,Opus、Sonnet 和 Haiku 拒絕回答的可能性明顯降低。如下所示,Claude 3 模型對請求表現出更細致的理解,能夠識別真正的有害 prompt,并且拒絕回答無害 prompt 的頻率要少得多。
準確率提高
為了評估模型的準確率,Anthropic 使用了大量復雜的、事實性問題來解決當前模型中的已知弱點。Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和不確定性回答,也就是模型不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus 在這些具有挑戰性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤回答。 除了產生更值得信賴的回復之外,Anthropic 還將在 Claude 3 模型中啟用引用,以便模型可以指向參考材料中的精確句子來證實回答。
長上下文和近乎完美的召回能力
Claude 3 系列型號在發布時最初將提供 200K 上下文窗口。然而,官方表示所有三種模型都能夠接收超過 100 萬 token 的輸入,此能力會被提供給需要增強處理能力的特定用戶。 為了有效地處理長上下文提示,模型需要強大的召回能力。Needle In A Haystack(NIAH)評估衡量模型可以從大量數據中準確回憶信息的能力。Anthropic 通過在每個提示中使用 30 個隨機 Needle/question 對在不同的眾包文檔庫上進行測試,增強了該基準的穩健性。Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率。而且在某些情況下,它甚至識別出了評估本身的局限性,意識到「針」句子似乎是人為插入到原始文本中的。
安全易用
Anthropic 表示,其已建立專門團隊來跟蹤和減少安全風險。該公司也在開發 Constitutional AI 等方法來提高模型的安全性和透明度,并減輕新模式可能引發的隱私問題。 雖然與之前的模型相比,Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指標方面取得了進步,但根據研究,新模型處于 AI 安全級別 2(ASL-2)以內。 在使用體驗上,Claude 3 比以往模型更加擅長遵循復雜的多步驟指令,更加可以遵守品牌和響應準則,從而可以更好地開發可信賴的應用。此外,Anthropic 表示 Claude 3 模型現在更擅長以 JSON 等格式生成流行的結構化輸出,從而可以更輕松地指導 Claude 進行自然語言分類和情感分析等用例。
技術報告里寫了什么
目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。
報告地址: 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:
首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。
Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。
Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。
針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。
他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。
與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。
視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。
此外,他還發現了其他一些趨勢:
從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。 博客地址: 參考內容:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
Sora橫空出世引領多模態產業革命。美國時間2月15日,文生視頻大模型Sora橫空出世,能夠根據文本指令或靜態圖像生成1分鐘的視頻。其中,視頻生成包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,同時也接受現有視頻擴展或填補缺失的幀。總體而言,不管是在視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等方面,Sora都做到了業內領先水平,引領多模態產業革命。此外,當Sora訓練的數據量足夠大時,它也展現出了一種類似于涌現的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。
拆解視頻生成過程,技術博采眾長或奠定了Sora文生視頻領軍地位。從技術報告中,Sora視頻生成過程大致由“視頻編碼+加噪降噪+視頻解碼”三個步驟組成,視頻壓縮網絡、時空patches、transformer架構、視頻數據集等技術與資源在其中發揮了重要作用。 視頻壓縮網絡:過往VAE應用于視頻領域通常需插入時間層,Sora從頭訓練了能直接壓縮視頻的自編碼器,可同時實現時間和空間的壓縮,既節省算力資源,又最大程度上保留視頻原始信息,或為Sora生成長視頻的關鍵因素,并為后續處理奠定基礎。 時空patches:1)同時考慮視頻中時間和空間關系,能夠捕捉到視頻中細微的動作和變化,在保證視頻內容連貫性和長度的同時,創造出豐富多樣的視覺效果;2)突破視頻分辨率、長寬比等限制的同時顯著提升模型性能,節約訓練與推理算力成本。 Transformer架構:1)相比于U-Net架構,transformer突顯Scaling Law下的“暴力美學”,即參數規模越大、訓練時長越長、訓練數據集越大,生成視頻的效果更好;2)此外,在transformer大規模訓練下,逐步顯現出規模效應,迸發了模型的涌現能力。 視頻數據集:Sora或采用了更豐富的視頻數據集,在原生視頻的基礎上,將DALL?E3的re-captioning技術應用于視頻領域,同時利用GPT保障文字-視頻數據集質量,使得模型具有強大的語言理解能力。
12 月 6 日,谷歌 CEO 桑達爾?皮查伊官宣 Gemini 1.0 版正式上線。這次發布的 Gemini 大模型是原生多模態大模型,是谷歌大模型新時代的第一步,它包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro 以及適用于特定任務和端側的 Gemini Nano。
現在,谷歌的類 ChatGPT 應用 Bard 已經升級到了 Gemini Pro 版本,實現了更為高級的推理、規劃、理解等能力,同時繼續保持免費。谷歌預計在明年初將推出「Bard Advanced」,其將使用 Gemini Ultra。
谷歌 DeepMind CEO 和聯合創始人 Demis Hassabis 代表 Gemini 團隊正式推出了大模型 Gemini。 Hassabis 表示長久以來,谷歌一直想要建立新一代的 AI 大模型。在他看來,AI 帶給人們的不再只是智能軟件,而是更有用、更直觀的專家助手或助理。 今天,谷歌大模型 Gemini 終于亮相了,成為其有史以來打造的最強大、最通用的模型。Gemini 是谷歌各個團隊大規模合作的成果,包括谷歌研究院的研究者。 特別值得關注的是,Gemini 是一個多模態大模型,意味著它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。 谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強開發人員和企業客戶構建和擴展 AI 的方式。
目前,Gemini 1.0 提供了三個不同的尺寸版本,分別如下:
谷歌對 Gemini 模型進行了嚴格的測試,并評估了它們在各種任務中的表現。從自然圖像、音頻和視頻理解,到數學推理等任務,Gemini Ultra 在大型語言模型研發被廣泛使用的 32 個學術基準測試集中,在其中 30 個測試集的性能超過當前 SOTA 結果。 另外,Gemini Ultra 在 MMLU(大規模多任務語言理解數據集)中的得分率高達 90.0%,首次超越了人類專家。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試大模型的知識儲備和解決問題能力。 針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini 的表現有顯著改進。 在大多數基準測試中,Gemini 的性能都超越了 GPT-4。
**Gemini 高性能多模態大模型Gemini: A Family of Highly Capable Multimodal Models
這份報告介紹了一種新的多模態模型系列——Gemini,它在圖像、音頻、視頻和文本理解方面展現出非凡的能力。Gemini系列包括Ultra、Pro和Nano三種尺寸,適用于從復雜推理任務到設備內存受限用例的各種應用。在一系列廣泛的基準測試中的評估顯示,我們最強大的Gemini Ultra模型在這些基準測試的32項中的30項中推進了最新技術水平——特別是它是首個在廣受研究的考試基準MMLU上達到人類專家表現的模型,并且在我們檢查的所有20項多模態基準測試中提升了最新技術水平。我們相信,Gemini模型在跨模態推理和語言理解方面的新能力將使各種用例成為可能,我們討論了將它們負責任地部署給用戶的方法。
我們在Google開發了一系列高性能的多模態模型——Gemini。我們對Gemini進行了聯合訓練,覆蓋圖像、音頻、視頻和文本數據,旨在構建一個在多種模態上都具有強大的通才能力,并在各自領域內具有先進的理解和推理性能的模型。 Gemini 1.0,我們的首個版本,有三種尺寸:Ultra用于高度復雜的任務,Pro用于提升性能和大規模部署能力,Nano用于設備上的應用。每種尺寸都專門針對不同的計算限制和應用需求進行了優化。我們在一系列內部和外部基準測試上評估了Gemini模型的性能,涵蓋了廣泛的語言、編程、推理和多模態任務。 Gemini在大規模語言建模(Anil等,2023;Brown等,2020;Chowdhery等,2023;Hoffmann等,2022;OpenAI,2023a;Radford等,2019;Rae等,2021)、圖像理解(Alayrac等,2022;Chen等,2022;Dosovitskiy等,2020;OpenAI,2023b;Reed等,2022;Yu等,2022a)、音頻處理(Radford等,2023;Zhang等,2023)和視頻理解(Alayrac等,2022;Chen等,2023)方面推進了最新技術。它還基于序列模型(Sutskever等,2014)、深度學習基于神經網絡的長期研究(LeCun等,2015),以及機器學習分布式系統(Barham等,2022;Bradbury等,2018;Dean等,2012)來實現大規模訓練。 我們最強大的模型,Gemini Ultra,在我們報告的32個基準測試中的30個中取得了新的最新技術成果,包括12個流行的文本和推理基準測試中的10個,9個圖像理解基準測試中的9個,6個視頻理解基準測試中的6個,以及5個語音識別和語音翻譯基準測試中的5個。Gemini Ultra是首個在MMLU(Hendrycks等,2021a)上達到人類專家表現的模型——一個通過一系列考試測試知識和推理的著名基準測試——得分超過90%。除了文本,Gemini Ultra在挑戰性的多模態推理任務上也取得了顯著進展。例如,在最近的MMMU基準測試(Yue等,2023)上,該測試包含了關于圖像的多學科任務,需要大學級別的主題知識和深思熟慮的推理,Gemini Ultra取得了62.4%的新最新技術成績,比之前最好的模型高出5個百分點以上。它為視頻問答和音頻理解基準測試提供了統一的性能提升。 定性評估展示了令人印象深刻的跨模態推理能力,使模型能夠本地地理解和推理音頻、圖像和文本輸入序列(見圖5和表13)。以圖1中描繪的教育場景為例。一位老師畫了一個滑雪者下坡的物理問題,一位學生對其進行了解答。使用Gemini的多模態推理能力,模型能夠理解凌亂的手寫字,正確理解問題的構成,將問題和解決方案轉換為數學排版,識別學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。這為教育領域開辟了激動人心的可能性,我們相信Gemini模型的新多模態和推理能力在許多領域都有重大應用。大型語言模型的推理能力展示了構建能夠解決更復雜多步驟問題的通才型代理的前景。AlphaCode團隊構建了AlphaCode 2(Leblond等,2023),一種新的由Gemini驅動的代理,它結合了Gemini的推理能力、搜索和工具使用,擅長解決競賽編程問題。AlphaCode 2在Codeforces競賽編程平臺上排名前15%,比其最先進的前輩排名前50%有了大幅提升(Li等,2022)。 與此同時,我們通過Gemini Nano推進了效率的前沿,這是一系列針對設備上部署的小型模型。這些模型擅長于設備上的任務,如摘要、閱讀理解、文本完成任務,并在推理、STEM、編碼、多模態和多語言任務方面相對于它們的大小展示了令人印象深刻的能力。 在接下來的部分,我們首先提供模型架構、訓練基礎設施和訓練數據集的概述。然后,我們詳細評估了Gemini模型系列,涵蓋了廣泛研究的基準測試和跨文本、代碼、圖像、音頻和視頻的人類偏好評估——包括英語性能和多語言能力。我們還討論了負責任部署的方法,包括我們對影響評估的過程、開發模型政策、評估和在部署決策前減少傷害的方法。最后,我們討論了Gemini的更廣泛影響,它的局限性以及其潛在應用——為AI研究和創新的新時代鋪平道路。
轉載機器之心報道 編輯:澤南、蛋醬、陳萍打字都不需要了。 我們都說大模型會改變所有應用的形態,ChatGPT 現在走完了變革的最后一步。
剛剛,ChatGPT 進行了一次重要更新,不管是 GPT-4 還是 GPT-3.5 模型,現在都可以基于圖像進行分析和對話了。
ChatGPT 中的新圖像識別功能允許用戶使用 GPT-3.5 或 GPT-4 模型上傳一張或多張圖像配合進行對話。OpenAI 在其宣傳博客文章中聲稱該功能可用于各種日常應用:從通過拍攝冰箱和食品儲藏室的照片來讓 AI 決定晚餐吃什么,到排除燒烤爐無法啟動的原因。OpenAI 還表示,你可以使用設備的觸摸屏圈出他們希望 ChatGPT 關注的圖像部分。
就像這個視頻所演示的,用戶能夠詢問如何升起自行車座椅,需要提供的是照片、使用手冊和用戶工具箱的圖片。然后,ChatGPT 會做出反應并建議用戶如何完成這一過程。
OpenAI 還表示,ChatGPT 的移動端 App 還將添加語音合成選項,與現有的語音識別功能配合使用時,我們就能與人工智能助手進行完全直接的口頭對話。
與此同時,在音頻方面,ChatGPT 新的語音合成功能據說由 OpenAI 所稱的「新文本到語音模型」驅動,盡管文本到語音問題已經解決了很長時間。該公司表示,該功能推出后,用戶可以在應用設置中選擇語音對話,然后從「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五種不同的合成聲音中進行選擇。OpenAI 表示,這些聲音都是與專業配音演員合作制作的。
這讓人想起了 OpenAI 2022 年開源的語音識別系統 Whisper,今后這一系統將繼續處理用戶語音輸入的轉錄工作。自 ChatGPT iOS 應用程序今年 5 月推出以來,Whisper 就一直集成在其中。 OpenAI 計劃 「在未來兩周內」向 Plus 和 Enterprise 訂閱者推出 ChatGPT 中的這些功能,它還指出,語音合成僅適用于 iOS 和安卓端應用,不過圖像識別功能在網絡界面和移動應用程序上均有提供。 鑒于 ChatGPT 的數億用戶們還沒有親自測試過這些功能,所以我們還不能判斷它的效果如何。而且對于它的工作原理,OpenAI 也和以往一樣沒有詳細說明,僅著重強調了大模型的安全性。
參考同類的 AI 研究可以推測,多模態 AI 模型通常會將文本和圖像轉換到一個共享的編碼空間,從而使它們能夠通過相同的神經網絡處理各種類型的數據。OpenAI 可以使用 CLIP 在視覺數據和文本數據之間架起一座橋梁,將圖像和文本表征整合到同一個潛在空間(一種矢量化的數據關系網)中。這種技術可以讓 ChatGPT 跨文本和圖像進行上下文推理。
今年 3 月,OpenAI 上線 GPT-4 ,展示了 AI 模型的多模態功能,在現場演示時,我們見識到了 GPT-4 對文本和圖像的處理能力,但一直以來,這種功能普通用戶都無法使用。相反,OpenAI 在與 Be My Eyes (是一款為盲人和弱視人士提供免費移動應用程序)的合作中創建了一款可以為盲人解讀場景照片的應用程序。
然而,由于隱私問題導致 OpenAI 的多模態功能至今未能發布。
最近幾周,科技巨頭一直在競相推出多模態方面的更新,將更多 AI 驅動的工具直接集成到核心產品中。谷歌上周宣布對其 ChatGPT 競爭對手 Bard 進行一系列更新,同樣在上周,亞馬遜表示將為其語音助手 Alexa 帶來基于生成式 AI 的更新。
在最近 ChatGPT 更新公告中,OpenAI 指出了對 ChatGPT 進行功能擴展的一些限制,并承認存在潛在的視覺混淆(即錯誤識別某些內容)以及視覺模型對非英語語言的不完美識別等問題。OpenAI 表示,他們已經在極端主義和科學能力等領域進行了風險評估,但仍然建議謹慎使用,尤其是在高風險或科學研究等專業環境中。
鑒于在開發上述 Be My Eyes 應用程序時遇到的隱私問題,OpenAI 指出,他們已經采取了技術措施,以限制 ChatGPT 的能力,這些系統應該尊重個人隱私。
盡管存在缺陷,但 OpenAI 仍然賦予了 ChatGPT「看、聽、說」的能力。然而,并不是所有人都對這一更新感到興奮。Hugging Face AI 研究員 Sasha Luccioni 博士表示,「我們應該停止像對待人類一樣對待 AI 模型。ChatGPT 擁有看、聽、說的能力是不被允許的。但它可以與傳感器集成,以不同的方式來提供信息。」
新能力上線之后,人們紛紛表示歡迎,有人表示這是 ChatGPT 迄今為止最大的變革之一,就差套個機器人的物理外殼了。
在 AI 研究領域,人們也開始分析起新版 ChatGPT 背后的技術。從 OpenAI 自己公開的簡短文檔看,是有一個名為 GPT-4V (ision) 的新款大模型。
文檔鏈接://cdn.openai.com/papers/GPTV_System_Card.pdf 英偉達研究員 Jim Fan 認為 GPT-4V 是一個整體模型。與之對應的是,谷歌的 Bard 是一個二階段模型,首先應用 Google Lens API 進行圖像字幕,然后使用純文本 LLM 進行更多推理。 OpenAI 表示,與 GPT-4 類似,GPT-4V 的訓練是在 2022 年完成的,在 2023 年 3 月開始提供系統的早期訪問。由于 GPT-4 是 GPT-4V 視覺功能背后的技術,因此其訓練過程也是一樣的。目前看來,GPT-4V 于 2022 年完成訓練之后,一直在經歷安全性測試。 從 OpenAI 公布的文檔中我們可以總結出:
不過有人表示,看起來 Bard 對于圖像的識別準確率比 ChatGPT 要高。 有關新技術的貢獻者,OpenAI 副總裁 Peter Welinder 本次特別感謝了工程師 Raul Puri。此外,多模態 ChatGPT 的主要貢獻者還包括 Hyeonwoo Noh、Jamie Kiros、Long Ouyang、Daniel Levy、Chong Zhang、Sandhini Agarwal 等人。
參考內容:
當地時間 5 月 10 日上午,一年一度的谷歌 I/O 來了,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。PaLM 二代模型****支持多語言、更強的數學、代碼能力
首先,谷歌給出了自己對標 GPT-4 的大模型 PaLM 2。 要說這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。
在過去的幾年里,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。
谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是將計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。
會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。
皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。
從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。
PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級別的高級語言能力考試。
與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成服務的一部分推出。 皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。
谷歌內部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分別針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2。
其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從圖像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型。
皮查伊在會上展示了 Med-PaLM 2 的醫療內容生成效果。
目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 將繼續為谷歌最新的 Bard 提供支持。 論文地址://ai.google/static/documents/palm2techreport.pdf
PaLM 2 技術報告
我們介紹了PaLM 2,這是一個全新的、具有更優秀的多語言和推理能力的語言模型,比其前任PaLM(Chowdhery等人,2022)更高效。PaLM 2是一個基于Transformer的模型,其訓練使用的目標混合類似于UL2(Tay等人,2023)。通過對英語和多語言、以及推理任務的廣泛評估,我們證明了PaLM 2在不同模型大小的下游任務上質量顯著提升,同時相比于PaLM展示出更快、更高效的推理能力。這種改進的效率使得模型能夠被更廣泛地部署,同時也使模型能夠更快地響應,為交互提供更自然的節奏。PaLM 2展示了強大的推理能力,這一點由其在BIG-Bench以及其他推理任務上相對于PaLM的大幅改進所證明。PaLM 2在一系列負責任的AI評估中表現穩定,并且能夠在推理時控制毒性,無需額外的開銷或影響其他能力。總的來說,PaLM 2在各種任務和能力上都實現了最先進的性能。自從Shannon(1951)通過預測下一個詞來估算語言中的信息以來,語言建模一直是一個重要的研究領域。建模起初以n-gram為基礎的方法(Kneser & Ney, 1995)開始,但隨著LSTM(Hochreiter & Schmidhuber, 1997; Graves, 2014)的出現,其發展速度快速提升。后來的研究表明,語言建模也導致了語言理解的提升(Dai & Le, 2015)。隨著規模的增大和Transformer架構(Vaswani等人,2017)的應用,過去幾年大型語言模型(LLMs)在語言理解和生成能力上表現出了強大的性能,這導致在推理、數學、科學和語言任務中取得了突破性的成績(Howard & Ruder, 2018; Brown等人,2020; Du等人,2022; Chowdhery等人,2022; Rae等人,2021; Lewkowycz等人,2022; Tay等人,2023; OpenAI, 2023b)。在這些進步中,關鍵的因素包括模型規模(Brown等人,2020; Rae等人,2021)和數據量(Hoffmann等人,2022)的擴大。到目前為止,大多數LLMs主要遵循一種標準的配方,即主要使用單語語料庫并配合語言建模目標。我們介紹了PaLM 2,這是PaLM(Chowdhery等人,2022)的后繼者,這是一個將建模進步、數據改進和規模洞察力統一起來的語言模型。PaLM 2融合了以下各種研究進步:
? 計算最優縮放:最近,計算最優縮放(Hoffmann等人,2022)表明,數據大小至少與模型大小同等重要。我們驗證了這項研究對更大計算量的適用性,并同樣發現,為了達到給定訓練計算量的最佳性能,數據和模型大小應大致按1:1的比例縮放(這與過去的趨勢不同,過去的趨勢是模型的縮放速度比數據集快3倍)。
? 改進的數據集混合:之前的大型預訓練語言模型通常使用由英文文本主導的數據集(例如,Chowdhery等人(2022)的非代碼部分約占78%)。我們設計了一個更具多語言和多樣性的預訓練混合,它涵蓋了數百種語言和領域(例如,編程語言、數學和平行多語言文檔)。我們證明,較大的模型可以處理更多不同的非英語數據集,而不會導致英語理解性能的下降,并應用去重復來減少記憶(Lee等人,2021)
?** 架構和目標的改進**:我們的模型架構基于Transformer。過去的LLMs幾乎都獨自使用一個因果或掩蔽語言建模目標。鑒于UL2(Tay等人,2023)的強大結果,我們在這個模型中使用調優的不同預訓練目標的混合,以訓練模型理解語言的不同方面。
中文版
機器之心報道 機器之心編輯部CV 研究者接下來的路要怎么走?
「這下 CV 是真不存在了。< 快跑 >」這是知乎網友對于一篇 Meta 新論文的評價。
如標題所述,這篇論文只做了一件事情:(零樣本)分割一切。類似 GPT-4 已經做到的「回答一切」。
Meta 表示,這是第一個致力于圖像分割的基礎模型。自此,CV 也走上了「做一個統一某個(某些?全部?)任務的全能模型」的道路。
在此之前,分割作為計算機視覺的核心任務,已經得到廣泛應用。但是,為特定任務創建準確的分割模型通常需要技術專家進行高度專業化的工作,此外,該項任務還需要大量的領域標注數據,種種因素限制了圖像分割的進一步發展。
Meta 在論文中發布的新模型名叫 Segment Anything Model (SAM) 。他們在博客中介紹說,「SAM 已經學會了關于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領域』上即開即用,無需額外的訓練。」在深度學習領域,這種能力通常被稱為零樣本遷移,這也是 GPT-4 震驚世人的一大原因。
論文地址://arxiv.org/abs/2304.02643 * 項目地址: * Demo 地址:
除了模型,Meta 還發布了一個圖像注釋數據集 Segment Anything 1-Billion (SA-1B),據稱這是有史以來最大的分割數據集。該數據集可用于研究目的,并且 Segment Anything Model 在開放許可 (Apache 2.0) 下可用。
我們先來看看效果。如下面動圖所示,SAM 能很好的自動分割圖像中的所有內容:
SAM 還能根據提示詞進行圖像分割。例如輸入 Cat 這個提示詞,SAM 會在照片中的幾只貓周圍繪制框并實現分割:
SAM 還能用交互式點和框的方式進行提示:
此外,SAM 還能為不明確的提示生成多個有效掩碼:
英偉達人工智能科學家 Jim Fan 表示:「對于 Meta 的這項研究,我認為是計算機視覺領域的 GPT-3 時刻之一。它已經了解了物體的一般概念,即使對于未知對象、不熟悉的場景(例如水下圖像)和模棱兩可的情況下也能進行很好的圖像分割。最重要的是,模型和數據都是開源的。恕我直言,Segment-Anything 已經把所有事情(分割)都做的很好了。」
推特地址: 還有網友表示,NLP 領域的 Prompt 范式,已經開始延展到 CV 領域了,可以預想,今年這類范式在學術界將迎來一次爆發。
更是有網友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。
不過,也有人表示,該模型在生產環境下的測試并不理想。或許,這個老大難問題的解決仍需時日?
方法介紹
此前解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對象,但需要一個人通過迭代細化掩碼來指導該方法。第二種,自動分割,允許分割提前定義的特定對象類別(例如,貓或椅子),但需要大量的手動注釋對象來訓練(例如,數千甚至數萬個分割貓的例子)。這兩種方法都沒有提供通用的、全自動的分割方法。
SAM 很好的概括了這兩種方法。它是一個單一的模型,可以輕松地執行交互式分割和自動分割。該模型的可提示界面允許用戶以靈活的方式使用它,只需為模型設計正確的提示(點擊、boxes、文本等),就可以完成范圍廣泛的分割任務。
總而言之,這些功能使 SAM 能夠泛化到新任務和新領域。這種靈活性在圖像分割領域尚屬首創。
Meta 表示,他們受到語言模型中提示的啟發,因而其訓練完成的 SAM 可以為任何提示返回有效的分割掩碼,其中提示可以是前景、背景點、粗框或掩碼、自由格式文本,或者說能指示圖像中要分割內容的任何信息。而有效掩碼的要求僅僅意味著即使提示不明確并且可能指代多個對象(例如,襯衫上的一個點可能表示襯衫或穿著它的人),輸出也應該是一個合理的掩碼(就如上面動圖「SAM 還能為為不明確的提示生成多個有效掩碼」所示)。此任務用于預訓練模型并通過提示解決一般的下游分割任務。
如下圖所示 ,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器將提示實時轉換為嵌入向量。然后將這兩個信息源組合在一個預測分割掩碼的輕量級解碼器中。在計算圖像嵌入后,SAM 可以在 50 毫秒內根據網絡瀏覽器中的任何提示生成一個分割。
在 web 瀏覽器中,SAM 有效地映射圖像特征和一組提示嵌入以產生分割掩碼 1100 萬張圖片,1B+ 掩碼
數據集是使用 SAM 收集的。標注者使用 SAM 交互地注釋圖像,之后新注釋的數據又反過來更新 SAM,可謂是相互促進。
使用該方法,交互式地注釋一個掩碼只需大約 14 秒。與之前的大規模分割數據收集工作相比,Meta 的方法比 COCO 完全手動基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數據注釋工作快 2 倍,這是因為有了 SAM 模型輔助的結果。
最終的數據集超過 11 億個分割掩碼,在大約 1100 萬張經過許可和隱私保護圖像上收集而來。SA-1B 的掩碼比任何現有的分割數據集多 400 倍,并且經人工評估研究證實,這些掩碼具有高質量和多樣性,在某些情況下甚至在質量上可與之前更小、完全手動注釋的數據集的掩碼相媲美 。
Segment Anything 對使用數據引擎收集的數百萬張圖像和掩碼進行訓練的結果,得到一個包含 10 億個分割掩碼的數據集,是以往任何分割數據集的 400 倍。 SA-1B 的圖像來自跨不同地理區域和收入水平的多個國家或地區的照片提供者,在擁有更多圖像的同時對所有地區的總體代表性也更好。Meta 分析了其模型在感知性別表現、感知膚色和年齡范圍方面的潛在偏差,結果發現 SAM 在不同群體中的表現類似。
SA-1B 可以幫助其他研究人員訓練圖像分割的基礎模型。Meta 也進一步希望這些數據能夠成為帶有附加注釋的新數據集的基礎,例如與每個 mask 相關的文本描述。
未來展望
通過研究和數據集共享,Meta 希望進一步加速對圖像分割以及更通用圖像與視頻理解的研究。可提示的分割模型可以充當更大系統中的一個組件,執行分割任務。作為一種強大的工具,組合(Composition)允許以可擴展的方式使用單個模型,并有可能完成模型設計時未知的任務。
Meta 預計,與專門為一組固定任務訓練的系統相比,基于 prompt 工程等技術的可組合系統設計將支持更廣泛的應用。SAM 可以成為 AR、VR、內容創建、科學領域和更通用 AI 系統的強大組件。比如 SAM 可以通過 AR 眼鏡識別日常物品,為用戶提供提示。
SAM 還有可能在農業領域幫助農民或者協助生物學家進行研究。
未來在像素級別的圖像理解與更高級別的視覺內容語義理解之間,我們將看到更緊密的耦合,進而解鎖更強大的 AI 系統。
參考鏈接:
? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:
Open AI推出Plugin(插件),成功鏈接互聯網。我們認為此舉意味著Open AI已經成功鏈接互聯網,且正處于蘋果“App Store”時刻。APP Store商業模式在互聯網時代大放異彩,我們認為Plugin在“AI+”的時代具有異曲同工之妙,APP Store極此舉在“互聯網+”的時代極大的推動了應用軟件的生態繁榮,而Plugin正處于“AI+”時代的這一時刻。Plugin功能強大,Open AI本身具備開發插件,網絡瀏覽器幫助Open AI接入互聯網成功彌補自身短板,代碼解釋器引領“編程變革”。
ChatGPT plugin生態伙伴正在愈發繁榮,已知插件的功能包括制定旅游計算、收集財政票據、網上訂購、預定餐廳、數學計算等各個方面,包括人們日常應用等各個部分。Plugin已經具備“AI助手”的能力:1、ChatGPT Plugin可以及時更新實時信息;2、ChatGPT Plugin更具有服務化的意識;3、辦公領域中,扮演更加類似“助手”的作用,此外Plugin調用極其便捷,我們認為功能類似微信的“小程序”;此外,Plugin創建第三方插件同樣方便快速。 我們認為Plugin意義非凡,打開海量應用空間。Plguin的出現正式成為引爆“AI+”的關鍵導火索,各類應用有望快速接入“大模型”,從而使“AI+”賦能千行百業,使用者可以通過插件的方式讓客戶通過簡單自然語言的對話,就可以完成復雜的任務,比如文檔操作、編程、預定參訂、食材等操作;此外,我們認為Plugin的商業模式與蘋果APPStore有異曲同工之妙,Plugin的出現即為AI時代的流量和客戶的入口。我們認為AI加速賦能應用的時代已經到來,目前來看,大模型的賦能應用的場景只限于自然語言處理,我們認為未來計算機視覺、多模態、生物計算同樣有望引爆應用市場,同時,我們認為未來5-10年內,所有的科技應用有望在大模型的加持下大放異彩,包括醫療、教育、辦公、工業等多方面。 高于操作系統戰略的地位 Plugin。 通過多插件的相互協同構建私人定制的 人工智能管家將是 OpenAI 的未來形態。通過 ChatGPT 釋放出的第一批第三方插件中,基本全方位覆蓋衣食住行、情感交互、工作以及學習等日常所需。而相關插件的能力將通過 ChatGPT Plugins 的三大基礎套件: Browsing(聯網插件)、Code Interpreter(代碼編程器)以及 Retrieval(知識檢索插件) 目前通過多類插件的協作,可以實現多應用的協同,其本質上類似于 24x7 的私人助理。 不可忽視的戰略意義:復制蘋果生態的偉大歷程。 OpenAI 正沿著類蘋果模式的“終端+平臺+生態”,邁向高于操作系統的戰略地位。引入插件 Plugin 標志 ChatGPT 走在創建生態系統的偉大道路上,統一平臺+插件的模式有望構建與蘋果+App Store 相似的繁榮生態。復盤蘋果生態模式發展進程,我們發現ChatGPT 已經具備全部的先決條件: 通過 ChatGPT 劃時代的交互方式搶占終端的制高點,對標 iPhone 4 發布;發布 Plugin 并推出“交互+編程+個人助手”三大套件,對標 APP Store 模式,打造蘋果式的手機體驗; 宣布接入海量應用插件,在統一平臺上形成功能相互協同=App Store 通過排行榜、搜索等方式幫助 iPhone 用戶快速找到想要的應用程序的 “蘋果平臺”商業模式。 ChatGPT 自身的三大套件是構建海量插件相互協同的核心抓手,其目的是通過將多插件形成對用戶的全方位覆蓋,最終形成專屬個人的 AI 管家。 從ChatGPT 的首批接入的插件廠商即可看出 OpenAI 的目標是覆蓋人類生活的全維度。通過調節和協作相關插件, ChatGPT 從本質上轉變為每個人的私人助理。當個人可以通過同一平臺同時安排衣食住行、工作、娛樂乃至教育的任務部署,將構建不可打破的高粘性,并反哺于 GPT 模型的優化,最終進一步擴展ChatGPT-PlugIn 的戰略宏圖。
**為什么 ChatGPT 如此重要?AI C 端產品中的第一個爆款,可能代表著商業 化的拐點。**1)從用戶體驗上,比起競品和上一代產品,ChatGPT 的連續對話 能力明顯更強,具備了大范圍商業化的潛力。2)從應用場景的潛力上,語義 文本類產品想象空間較圖片類更大。短期看有望落地的包括更專業的客服機器 人、更垂直更專業化的 AI(如醫療教育領域)、新一代的智能搜索等。3)ChatGPT 的出現或將加快巨頭對于 AI 的發展速度。ChatGPT 的成功或將促進各科技巨 頭加大對于 AI 的研發投入,如谷歌近日宣布投資 OpenAI 的競爭對手 Anthropic。大廠的競爭有助于技術的進步和商業化的加速。
? 為什么是 ChatGPT?比起競品和上一代產品,ChatGPT 在多方面有了明顯改 善。1)道德性的增強,敢于質疑提問者提問前提的正確性和正當性。避免出 現偏見、歧視等毒害信息。2)主動承認錯誤或主動承認無法回答某一問題。3) 可以理解整段對話上下文的語義,而不是孤立的回答其中一個問題。4)對提 問者意圖判斷能力大幅提升,并非單純根據相關性進行答案羅列。因此整體上, ChatGPT 有著比其他 AI 機器人更好的用戶體驗,具備了真正意義上的連續對 話的能力。
**? 如何落地?**短期看是降本增效的新生產力工具,長期看可能帶來新的內容生 產范式。ChatGPT 的成功證明了生成式模型的進化,實現通用人工智能 AGI 的可能性進一步提高。其重要性體現在 AI 對人類傳達信息的載體有了更好 的學習,在此基礎上各個媒介之間的互通成為可能。例如從自然語言生成編程 語言,可以產生新的人機交互方式;從自然語言生成圖片和視頻,可以革新內 容行業的生產范式。短期直接落地的場景可能是在文本端,提高人的效率:搜 索、營銷文案、客服、輔助寫作;更長期的可能在于提高人機互動的智能, 如在游戲、虛擬人方面的應用。
自ChatGPT推出以來,國內學術界和科技企業相繼宣布或將推出類似機器人對話模型,有望推動大模型發展。2月7日,百度官宣“文心一言”。2月20日,復旦大學發布了類ChatGPT模型“MOSS”,并面向大眾公開邀請內測,國產大模型有望迎來爆發式增長。 需求和政策兩方面,合力推動AI產業增長。國內應用層面的需求推動AI產業的加速發展。根據IDC數據預測,2021年中國人工智能軟件及應用市場規模為51億美元,預計2026年將會達到211億美元。數據、算法、算力是AI發展的驅動力,其中數據是AI發展的基石,中國數據規模增速有望排名全球第一。政策方面,“十四五”規劃中提到“瞄準人工智能”,“聚焦人工智能關鍵算法”,加快推進“基礎算法”的“突破與迭代應用”;北京、上海、廣州等城市發布相關規劃。 頭部企業采取“模型+工具平臺+生態”三層共建模式,有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。大模型廠商主要包括百度(文心大模型)、騰訊(HunYuan大模型)、阿里(通義大模型)、商湯、華為(盤古大模型)等企業,也有智源研究院、中科院自動化所等研究機構,同時英偉達等芯片廠商也紛紛入局。大模型增強了AI技術的通用性,助力普惠AI的實現。未來,大模型有望于場景深度融合,配合專業工具和平臺支持應用落地,開放的生態來激發創新,形成良性循環。 技術發展有望促進生產效率提升,并進一步創造新的消費和需求,有利于文娛內容和互聯網行業。在AIGC和ChatGPT方面,我們建議持續關注技術發展和應用情況,把握技術催化和商業化落地帶來的投資機會:1)具備AIGC和ChatGPT的技術探索和應用的公司:百度集團-SW、商湯-W、萬興科技、拓爾思等;2)具有海量內容素材且具有AIGC探索布局的,圖片/文字/音樂/視頻內容及平臺公司騰訊控股,閱文集團、美圖公司、昆侖萬維、湯姆貓、神州泰岳、視覺中國、中文在線、漢儀股份、天娛數科、風語筑等。