1、大模型技術發展歷程
大模型泛指具有數十億甚至上百億參數的深度學習模型,而大語言模型是大模型的一個典型分支(以ChatGPT為代表)。Transformer架構的提出引入了注意力機制,突破了RNN和CNN處理長序列的固有局限,使語言模型能在大規模語料上得到豐富的語言知識預訓練,一方面,開啟了大語言模型快速發展的新時代;另一方面奠定了大模型技術實現的基礎,為其他領域模型通過增大參數量提升模型效果提供了參考思路。 復雜性、高維度、多樣性和個性化要求使得大型模型在自動駕駛、量化交易、醫療診斷和圖像分析、自然語言處理和智能對話任務上更易獲得出色的建模能力。 2、自動駕駛模型迭代路徑 自動駕駛算法模塊可分為感知、決策和規劃控制三個環節,其中感知模塊為關鍵的組成部分,經歷了多樣化的模型迭代:CNN(2011-2016)——RNN+GAN(2016-2018)——BEV(2018-2020)——Transformer+BEV(2020至今)——占用網絡(2022至今)。 特斯拉自動駕駛技術路徑的演進可視為自動駕駛技術迭代的風向標,呈現全棧自研、出軟硬件的協同發展趨勢:軟件層面從采用Mobileye到自研Transformer+BEV和占用網絡;硬件層面從與Mobileye、英偉達合作到自研FSD芯片方案。 3、大模型對自動駕駛行業的賦能與影響 自動駕駛領域的大模型發展相對大語言模型滯后,大約始于2019年,吸取了GPT等模型成功經驗。大模型的應用加速模型端的成熟,為L3/L4級別的自動駕駛技術落地提供了更加明確的預期。 可從成本、技術、監管與安全四個層面對于L3及以上級別自動駕駛落地的展望,其中:成本仍有下降空間;技術的發展仍將沿著算法和硬件兩條主線并進;法規政策還在逐步完善之中;安全性成為自動駕駛汽車實現商業化落地必不可少的重要因素。 各主機廠自2021年開始加速對L2+自動駕駛的布局,且預計在2024年左右實現L2++(接近L3)或者更高級別的自動駕駛功能的落地,其中政策有望成為主要催化。
預訓練大模型解決AI模型通用與泛化問題,避免傳統封閉作坊式AI開發面臨的“碎片化困境”。
隨著工業生產智能化需求不斷上升,人工智能算法在落地的過程中,將會面對大量不同場景、不同需求的用戶,對算法的通用性提出很高要求;而由于龐大的業務數量和場景種類多樣性使得各行業各場景的云解決方案難度加大,單一的解決方案套路對于用戶定制化需求已不具備優勢。傳統“小作坊模式”AI開發無法積累通用知識,特定的數據無法滿足AI快速落地行業的需求。因此,以模型預訓練和微調相結合的預訓練大模型能夠解決解決AI模型通用與泛化的問題,同時降低人工智能算法的開發成本,真正惠及細分行業。 華為鴻蒙4操作系統接入盤古大模型,智能助手小藝基于大模型全面升級。
2023年8月4日,華為發布鴻蒙4操作系統,其更新點之一在于融入了華為盤古大模型的能力,變得更加智能。華為盤古大模型,包括自然語言大模型、視覺大模型、多模態大模型,將會助力鴻蒙操作系統和鴻蒙生態。HarmonyOS4新版本中的華為智慧助手小藝已經接入了盤古大模型,多模態交互以及個性化創作兩大能力全面提升,可以實現更自然流暢的對話交互,擁有信息檢索、摘要生成、多語種翻譯等能力。 盤古大模型3.0是中國首個全棧自主的AI大模型,包括“5+N+X”三層架構。
2023年7月7日,面向行業的盤古大模型3.0發布,包含L0層基礎大模型、L1層行業大模型、L2層場景大模型三個層次。其中,基礎大模型包括盤古NLP大模型、盤古CV大模型、盤古多模態大模型、盤古預測大模型、盤古科學計算大模型等,提供滿足行業場景需要的上百種能力;行業大模型包括政務、金融、制造、藥物分子、礦山、鐵路、氣象等大模型;場景大模型為客戶提供的更多細化場景的場景大模型,如政務熱線、網點助手、供應鏈物流、先導藥物篩選、臺風路徑預測等。盤古大模型采用完全的分層解耦設計,可以快速適配、快速滿足行業的多變需求。 盤古大模型集成了華為云團隊在AI領域數十項研究成果,與MindSpore(昇思)語言、ModelArts平臺深度結合。MindSpore(昇思)是華為開源自研AI框架,2023年MindSpore2.0版本實現全新技術升級,成為支持科學計算的AI融合框架,在基礎能力上完成AI與HPC的融合,科學計算能力大幅提升。昇思MindSpore目前支持多種并行方式,可以原生實現大模型訓練(類似于ChatGPT所使用的TensorFlow框架,其最大的核心優點就是支持昇騰芯片)。ModelArts是面向開發者的一站式AI開發平臺,幫助用戶快速創建和部署模型,管理全周期AI工作流,助力千行百業智能升級。ModelArts支持應用到圖像分類、物體檢測、視頻分析、語音識別、產品推薦、異常檢測等多種AI應用場景,通過全面的AI工具和服務,為業務智能快速創新賦能。
模型層面,GPT-4領先,多模態演進趨勢加速。 ? ChatGPT推出以來,大語言模型(Large Language Model,LLM)技術的發展取得突破性發展,越來越多的大模型猶如雨后春筍般破土而 出,目前最為先進的模型為GPT-4,性能大幅領先市面上的其他模型。同時根據founder park,OpenAI估值目前也是此前微軟投資時近3倍。 ? 當下LLM模型的規模持續增長,參數量已遠遠超過千億級別,多模態嶄露頭角。1)模型規模的增長帶來性能的提升,但是同時對模型的訓練 和部署也帶來了挑戰。以Open AI為代表的人工智能公司,已經開始就模型訓練和部署提供收費服務,在推動LLM技術發展的同時,為企業帶 來營業收入。2)OpenAI、Google等大模型廠商或將紛紛推出多模態大模型,打開下游應用想象空間。 ? 應用層面,參照海外落地路徑,國內純模型端、教育、辦公、圖像、視頻、金融、醫療、社交類特別是C端應用值得關注。 ? 部分企業已經開始賺取收入,而新進入的公司仍然在積極拓寬業務的受眾范圍。 LLM技術的發展為其產業鏈中下游應用端的開發打下了堅實 的基礎,相關企業針對不同的場景開發應用產品,產品涉及語音、圖像、文本和多模態領域,覆蓋辦公、金融、多媒體、工業制造、社交和營 銷等多個行業。 ? 國內純模型端、教育、辦公、圖像、視頻、金融、醫療、社交類應用值得關注。參考海外AI應用成熟度發展情況,我們根據AI收入端、產品端、 案例端等綜合分析海外垂直應用進展,得到目前純模型端、辦公、圖像、視頻、金融、社交類應用商業化落地最快,國內模型端相對海外大概 滯后1年時間,參照海外應用發展情況,我們認為Q4或是國內應用商業化落地拐點。
受大模型熱潮催化,向量數據庫方興未艾。NVIDIA CEO 黃仁勛在3月的NVIDIA GTC Keynote 中,首次提及向量數據庫,并強調其在構建專有大型語言模型的組織中的重要性。大模型作為新一代的 AI 處理器,提供了數據處理能力;而向量數據庫提供了存儲能力,成為大模型時代的重要基座。向量數據庫是一種專門用于存儲和查詢向量數據的數據庫系統,與傳統數據庫相比,向量數據庫使用向量化計算,能夠高速地處理大規模的復雜數據;并可以處理高維數據,例如圖像、音頻和視頻等,解決傳統關系型數據庫中的痛點;同時,向量數據庫支持復雜的查詢操作,也可以輕松地擴展到多個節點,以處理更大規模的數據。
百億藍海市場蓄勢待發,向量數據庫空間廣闊。據 Statista 數據,2021 年全球數據庫市場規模為 800 億美元,同比增長約20.3%。假設增速保持20%,預計到2025年,全球數據庫市場規模將達到1658.9 億美元。據中國信通院測算,2020年中國數據庫市場規模約241億元;預計到2025年,中國數據庫市場規模將達688億元,復合增長率為23.4%。隨著AI應用場景加速落地,我們預計2025年向量數據庫滲透率約為30%,則全球向量數據庫市場規模約為99.5億美元,中國向量數據庫市場規模約為82.56億元。 海外需求逐步爆發,新興賽道群雄并起。目前向量數據庫的賽道仍處于發展初期,隨著大模型日趨成熟,越來越多玩家瞄準向量數據庫的機會并選擇加入賽道,呈現百花齊放的競爭格局。向量數據庫的頭部企業包括Zilliz、Pinecone等,目前的主要的客戶還是互聯網廠商隨著大模型應用的不斷拓寬,預計向量數據庫的公司將受到更多投資者青睞,迎來投資井噴期。 Zilliz目前已與Nvidia、IBM、Mircosoft等公司展開合作,在一級市場獲得1.13億美元投資;Pinecone先后上架Google云和AWS,逐步打開市場,在一級市場獲得1.38億美元投資。
人工智能是數字經濟的核心驅動力,AI 大模型是人工智能的新引擎。AI 大模型指通過在海量數據上進行預訓練,能夠適應多種下游任務的模型,具有強大的泛化能力、自監督學習功能和精度突破性能。其已經在自然語言處理、計算機視覺、氣象預報等多個領域取得了令人矚目的成果。大模型的發展是大勢所趨,未來將會助推數字經濟,為智能化升級帶來新范式。
近年來,隨著 ChatGPT 等生成式人工智能(AIGC)的突飛猛進,全球范圍內的經濟價值預計將達到數萬億美元。尤其在中國市場,生成式 AI 的應用規模有望在 2025 年突破 2000億元。這一巨大的潛力不僅吸引著業內領軍企業競相推出萬億、10 萬億參數量級別的大模型,而且對底層 GPU 支撐規模提出了更高的要求,達到了萬卡級別。然而,如何滿足如此龐大規模的訓練任務,對網絡的規模、性能、可靠性和穩定性等方面提出了前所未有的挑戰。
以 GPT3.5 為例,其訓練過程依賴于微軟專門建設的 AI 超算系統,由 1 萬個 V100 GPU 組成的高性能網絡集群,總計算力消耗約為 3640 PF-days。在這種情況下,尋求提供極致高性能網絡已成為人工智能領域的重要研究方向之一。
日前,針對AI大模型帶來的挑戰,中國移動聯合華為、中興、銳捷、思博倫、云脈芯聯、星云智聯、中科馭數、博通公司、是德科技、大禹智芯等十余家合作伙伴發布《面向AI大模型的智算中心網絡演進白皮書》。
本白皮書將從 AI 業務發展的歷程出發,深入研究大模型對網絡能力的需求,分析當前網絡與業務需求的差距,并探索網絡技術發展趨勢以彌補這一差距。我們希望,通過本白皮書的研究和分析,為未來面向 AI 大模型的智能計算中心網絡發展提供有益的參考和啟示。
在大數據時代,實體之間的關系變得更加復雜。因此,圖(或網絡)數據因承載復雜關系信息而受到越來越多的研究關注。對于無數的圖挖掘/學習任務,圖神經網絡(GNNs)已被證明是提取信息節點和圖表示的有效工具,它賦予了廣泛的應用,如推薦,欺詐檢測,分子設計等。然而,現實世界給GNN帶來了實際挑戰。首先,輸入圖是不斷演化的,即圖結構和節點特征是時間依賴的;將時間信息集成到GNN中以增強其表示能力需要額外的巧妙設計。其次,輸入圖可能是不可靠的、有噪聲的,并且對于各種下游圖挖掘/學習任務來說是次優的。最終用戶如何故意修改給定的圖(例如,圖拓撲和節點特征)以提高GNN的效用(例如,準確性和魯棒性)? 受上述兩種動力學的啟發,本教程重點介紹GNN中的自然動力學和人工動力學的主題,并系統地介紹相關工作。在此基礎上,指出了在這兩種動態結合方面一些有前途但尚未探索的研究問題。我們希望本教程可以對數據挖掘、機器學習和通用人工智能等領域的研究人員和從業人員有所幫助。
強化學習(RL)通過與復雜環境的交互,推動機器學習從基礎數據擬合到學習和規劃的新時代。RL具有深度學習功能,在自動駕駛、推薦系統、無線通信、機器人、游戲等領域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基礎發展,直到最近才被徹底理解,特別是它們的有限時間收斂速度和樣本復雜性。本教程將全面概述基礎RL算法的理論理解的最新進展,利用隨機近似/優化理論和利用RL問題的馬爾可夫結構。本教程還將介紹一些高級的RL算法及其最近的發展。
快速復雜控制系統的實時優化
控制系統是使汽車、機器人和制造過程等動力系統實現理想行為的機制;雖然看不見,但它們往往是我們日常生活中必不可少的。控制工程涉及控制系統的分析和設計,最優控制是控制工程中的重要問題之一。在最優控制問題中,在給定約束條件下,控制輸入以最小化代價函數為目標。即使已知控制系統的數學模型,由于大量的計算或數據存儲,通常很難找到其最優控制輸入,幾十年來,開發高效的最優控制問題算法一直是一個活躍的研究領域。在動態系統數學模型未知的情況下,通過自適應或學習實現動態系統的最優控制具有挑戰性;此外,開發實用的未知動力系統最優控制方法是控制工程和機器學習的一個挑戰。因此,控制系統為機器學習提供了充足的動力和機會。本教程旨在幫助機器學習領域的研究人員和工程師解決控制系統中的問題。首先概述了控制工程中的問題和概念,并概述了不需學習控制方法的具體好處; 本文主要研究的是基于實時優化的模型預測控制(MPC),該方法近年來得到了迅速的發展。MPC可以解決傳統控制目標之外的各種控制問題,如調節和跟蹤,并且在實時優化可行的情況下適用于各種類型的動力系統。MPC的典型應用包括基于詳細非線性模型的機械系統,如無人機、汽車和機器人,采樣周期為毫秒量級。此外,MPC能夠實現最優控制性能,常被用于學習控制方法的參考。在這些現有成果的背景下,將展開一場關于控制工程的思想和方法的討論,這將證明對機器學習是有益的。
機器學習系統設計的目標
機器學習系統設計是為機器學習系統定義接口、算法、數據、基礎設施和硬件以滿足特定要求的過程。
大多數ML課程只涵蓋ML算法部分。在本課程中,我們不會教你不同的ML算法,但我們會看看整個系統。
下是我們將要學習的系統應該具備的四個主要要求:
//stanford-cs329s.github.io/index.html
《概率機器人》對概率機器人學這一新興領域進行了全面的介紹。概率機器人學依賴統計技術表示信息和進行決策,以容納當今大多數機器人應用中必然存在的不確定性,是機器人學的一個分支。它依賴統計技術表示信息和制定決策。這樣做,可以接納在當今大多數機器人應用中引起的不確定性。
《概率機器人》主要專注于算法,對于每種算法,均提供了四項內容:①偽碼示例;②完整的數學推導;③實驗結果;④算法優缺點的詳細討論。 《概率機器人》包括了基礎知識、定位、地圖構建、規劃與控制四大部分。本書共17章,每章的后都提供了練習題和動手實踐的項目。
相信《概率機器人》可以加深讀者對概率機器人學的認識。
異常檢測已經得到了廣泛的研究和應用。建立一個有效的異常檢測系統需要研究者和開發者從嘈雜的數據中學習復雜的結構,識別動態異常模式,用有限的標簽檢測異常。與經典方法相比,近年來深度學習技術的進步極大地提高了異常檢測的性能,并將異常檢測擴展到廣泛的應用領域。本教程將幫助讀者全面理解各種應用領域中基于深度學習的異常檢測技術。首先,我們概述了異常檢測問題,介紹了在深度模型時代之前采用的方法,并列出了它們所面臨的挑戰。然后我們調查了最先進的深度學習模型,范圍從構建塊神經網絡結構,如MLP, CNN,和LSTM,到更復雜的結構,如自動編碼器,生成模型(VAE, GAN,基于流的模型),到深度單類檢測模型,等等。此外,我們舉例說明了遷移學習和強化學習等技術如何在異常檢測問題中改善標簽稀疏性問題,以及在實際中如何收集和充分利用用戶標簽。其次,我們討論來自LinkedIn內外的真實世界用例。本教程最后討論了未來的趨勢。