亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

2024年行業處于群雄逐鹿狀態,無論是海外的科技巨頭,還是國內一線的互聯網公司,都在積極訓練和迭代自身的模型能力。從模型的進階維度,我們看到大模型由最初大語言模型向多模態不斷進階,模型能力從文本到文生圖、文生視頻維度不斷擴充。

  觀察一:大模型的差距逐漸收斂,越來越多大模型從能力和實用性上比肩GPT4。OpenAI的核心能力主要體現在三個方面:1)數據收集和處理的能力,包括數據來源,清洗方式,數據結構等;2)模型結構,包括注意力、隱藏層等設計;3)訓練方法,包括各類超參數,學習率等。     觀察二:模型迭代速度快,目前仍然處于模型-應用邊界模糊的階段,淺層應用易被沖擊。判斷是否會被AI沖擊或賦能的核心角度,應該重點關注原有商業模式解決的核心痛點是否會被GPT取代。舉例:同為教育IT公司,Chegg的商業模式核心解決的是幫助學生查找歷年考試的試卷題目和答案,GPT可能代替部分查找答案的需求。而Duolingo的商業模式核心為通過設計游戲化機制等開發愿意讓用戶積極學習的APP。     觀察三:觀察海外B端軟件企業,目前處在結合模型能力調試產品性能的階段,AI功能付費深度尚在探索期。   觀察四:率先出AI業績的公司應集中觀察海外科技巨頭。海外科技巨頭具備領先的模型能力和應用場景,微軟云已率先受益于AI云的需求增加,Meta多次提及廣告業務易被賦能,谷歌和蘋果正在積極研發AI模型和手機的結合。     觀察五:獨立應用層面,我們看好兩類型AI需求:1)AI對生產力的提升。舉例:通過應用AIGC功能,能夠替代原有線下拍攝等需求,案例包含美圖23年推出AI商品圖、蘑菇街的AI商拍工具WeShop等。2)AI陪伴場景的需求。舉例:教育公司Duolingo設計開發MAX線上一對一語法教師功能。  

付費5元查看完整內容

相關內容

文 / 孫凌云,潘越

摘 要:

本文介紹了大模型在設計領域帶來的變革。首先探討了大模型如何開啟大知識,并分析了由此產生的新趨勢;然后,從設計對象多樣化和設計方法與模式變革兩個角度,探討了大模型帶來的設計機遇與挑戰,并分析了大模型時代下個體所需的新能力。 關鍵詞:

人工智能;大模型;GPT 技術;設計

0 引言

2022 年 11 月,ChatGPT 將人工智能(AI)大模型帶入了公眾視野。其中,Chat 代表該產品采用聊天對話的交互形式,允許任何用戶使用自然語言提出問題或表達需求;GPT 是 Generative Pre-trained Transformer的縮寫,Transformer 技術作為大模型的標志性底層技術,由 Google 在 2017 年推出。ChatGPT 發布時基于 GPT-3.5 模型。2023 年 3 月,GPT-4 模型發布;同年 11 月,OpenAI 開放了 GPTs,使用戶能夠通過自然語言指令構建 GPT 應用。2024 年 1 月,GPT Store 正式上線。目前,OpenAI 已開放了 GPT-4V(視覺)、 Code Interpreter(代碼)、DALLE-3(圖像)、TTS(文本到語音)的 API(應用程序接口)。

2024 年,大模型的發展呈現出百家爭鳴的局面,一方面,不同公司推出的通用基礎大模型和行業大模型不斷實現技術突破和能力更新;另一方面,將大模型技術轉化為創新應用的探索,在不同產業和垂直領域中仍然熱度不減。

隨著大模型技術和生成式人工智能的爆發式發展,設計領域也經歷了深刻的變革。設計對象變得更加多樣化,設計方法和模式的變化推動了設計范式的結構性轉變。這為設計領域帶來了前所未有的機遇,使設計的角色和重要性更加突出,同時也產生了伴隨轉型的種種挑戰。

在大模型的發展背景下,本文首先闡述了大模型技術如何開啟大知識,帶來了人機協作的新工作模式、智能物種的大爆發和科技進步加速的新趨勢;接著,從設計對象和設計方法兩個維度,介紹了大模型對設計領域帶來的宏觀變化;最后探討了大模型時代對個體能力提出的新要求。

1 大模型開啟大知識

1.1 大模型背后的大數據

ChatGPT 成為互聯網歷史上最快突破 1 億月活躍用戶的應用之一,這歸功于其在上線之初就展現出的超越大眾當時認知的自然語言理解、生成和交互能力。通過聊天機器人的界面,ChatGPT 展示了多種能力,包括建模歷史對話、保持對話語境的連續對話能力;從復雜內容中提取關鍵信息、歸納總結主題和意義的抽象概括能力;理解人類指令意圖、模擬相應角色的語言模式及潛在知識來生成回復、執行任務的角色扮演能力;拆解問題、逐步求解的邏輯推理能力;根據用戶反饋優化答案的更正錯誤能力;以及根據用戶指令與問題描述生成程序代碼的代碼生成能力等。與 ChatGPT 相比,升級版GPT-4 不僅在各項能力上取得了顯著進步,還支持輸入圖像和文本,表現出強大的圖像理解能力,實現了從單模態大模型到多模態大模型的突破。

ChatGPT 所展現的強大綜合能力離不開其前所未有的訓練數據規模。這是因為預訓練的本質可認為是由大規模數據集驅動的規律發現與學習過程。從 GPT-1 到 GPT-3,訓練數據量從 4.6 GB 增長到了753 GB。主要模型數據集中的維基百科數據集、書籍、雜志期刊、Github 代碼等為大模型帶來了豐富的客觀知識、故事講述與反應能力,以及語言生成的嚴謹性和邏輯推理能力。同時,從 GPT-1 到 GPT-3,模型參數量也從 1.17 億增加到 1 750 億。OpenAI 并未公布訓練 ChatGPT 和 GPT-4 的數據集來源和規模,但我們不難想象它們在數據模態和量級上的進一步突破。

在生成式人工智能領域,另一個代表性模型是由 Stability AI 于 2022 年 8 月發布的文本生成圖像模型 Stable Diffusion。Stable Diffusion 能夠根據用戶提供的文本生成高質量的圖像,其能力突破同樣得益于背后數十億訓練圖像數據的支持。

1.2 大模型開啟大知識

海量訓練數據使得大模型實現“讀書破萬卷,下筆如有神”。除了前文提及的能力突破之外,我們認為大模型的另一大貢獻還在于大模型開啟了大知識。本文將大模型開啟大知識的主要特征歸納為三點——龐大的知識空間、知識表示和調用方式的更新,以及知識空間的可擴展性與大模型能力的可延伸性。

(1)龐大的知識空間 通過學習大量的人類知識,大模型形成的知識空間在規模上超越了任何單一個體。例如,以ChatGPT 為代表的大語言模型(large language model,LLM)通過對人類自然語言知識空間的大量語料進行學習,發展出了近似人類水平的自然語言理解與生成能力,并積累了豐富的世界知識。自然語言一直是記錄和傳遞人類知識的主要方式之一,大量的人類知識通過自然語言這種形式化的手段得到了傳承和發揚。然而,自然語言并非承載和表達知識的唯一手段,通過語言和文字傳遞的知識只是人類集體知識的一部分,還有人類心智模型、經驗知識等難以用特定形式精確表述的隱性知識。對于語音、視覺、紅外、3D 點云等多模態信息,現有的視覺大模型和多模態大模型已展現出一定的處理能力。隨著全體人類知識的擴展和人工智能技術的發展,大模型的知識空間將愈發龐大。

2)知識表示和調用方式的更新 ChatGPT 等大模型的能力突破,使得自然語言成為新的“知識表示和調用方式”,允許任何用戶使用自然語言來提出問題和表達需求。與互聯網中通過搜索引擎使用關鍵詞進行信息檢索的方式相比,這種獲取知識的方式更加自然。通過使用自然語言與大模型進行交互,每個個體的智慧得以與大模型的知識空間相互碰撞和激發。這種知識表示和調用方式的更新,為人類文明積累的海量知識打開了新的窗口。另一方面,在多模態大模型中,自然語言也將成為通用接口,使用戶能夠更直觀、易用地控制和編輯大模型的內容生成。

(3)知識空間的可擴展性和大模型能力的可延伸性 一方面,大模型內部的知識空間會隨著版本的更新得到擴充和更新。另一方面,可以將現有的各類基礎大模型作為基座,通過引入和融合外部知識庫,實現大模型知識空間與外部知識庫的協同。在特定領域的模型應用方面,利用專業知識庫對通用領域的預訓練大模型進行相應領域的知識微調適配,將催生出越來越多適用于不同場景和領域的大模型創新應用。

1.3 通用人工智能的火花

2023 年 3 月,GPT-4 發布,其在多個領域的表 現接近人類水平,被視為通用人工智能(artificial general intelligence,AGI)的早期(但是仍不完整的)版本。同年 4 月,中共中央政治局會議首次提出重視通用人工智能的發展。2023 年 11 月,Google DeepMind 團隊提出評估通用人工智能的六個關鍵原則,并進一步得到了 人工智能的系統分類方法,包括: ●Level 0(無人工智能) ●Level 1(涌現,相當于或略優于未受專門訓練的普通人) ● Level 2 (勝任,至少達到熟練成年人的 50%水平) ● Level 3(專家,至少達到熟練成年人的 90%水平) ● Level 4(大師,至少達到熟練成年人的 99%水平) ● Level 5(超人,超越所有人類的表現)

在此基礎上,研究人員對現有人工智能系統進行了評估。其中,ChatGPT、Llama 2、Gemini 尚處于 Level 1(涌現)階段。

2024 年 2 月,OpenAI 推出了文生視頻大模型Sora。其在視頻生成領域的能力突破,再次引發了外界的廣泛討論。同年 3 月,Anthropic 發布了 Claude 3系列大模型,性能超越 GPT-4。隨著大模型不斷發展,其對包括設計領域在內的各領域影響日益增大。

2 大知識帶來的新趨勢

大模型開啟“大知識”。以此為特征的大模型能力突破將在各個領域引發新的變化,本文將主要趨勢概括如下。

2.1 人機協作的新工作模式

過去在討論人機關系多元化時,人們常常根據計算機人工智能技術的局限性來界定人與計算機的關系。例如,在設計領域,設計師與人工智能的關系可能被分類為主仆關系、助理角色、師生關系或合伙人角色等。然而,隨著大模型的興起,人工智能在人機協作中的角色和作用變得更加顯著,催生了人機協作的新工作模式。這種模式有望大幅提升生產效率,并降低運營成本。

舉例而言,設計師可以利用文生圖大模型來優化涉及圖像生成的工作流程。一些設計師在 Stable Diffusion 的用戶界面 ComfyUI 中結合 LCM 模型(latent consistency models)來完成故事板的繪制任務,通過簡單操作就能讓人工智能快速生成分辨率達標、符合故事板需求的圖像。在建筑設計方面,設計師繪制線稿草圖后,大模型可以基于這些線稿實時生成多組潛在的建筑效果圖,使設計師能夠更動態及時地對設計進行調整。此外,設計師還可以利用大模型的龐大知識庫來獲取知識支持、靈感啟發和技術支持,以逐步完成涉及大量知識的設計任務。例如,有團隊通過與大型模型逐步對話,一步步明確設計概念和設計空間,并最終細化到包括軟件、材料選擇、結構設計和制造方法在內的技術設計規范,從而完成了番茄采摘機器人的設計。

2.2 智能物種大爆發

如前文所述,經過特定領域的知識微調適配后,大模型將催生越來越多的垂直領域創新應用。這已經在教育、科研、編程、商業、設計等領域帶來了許多更新、更智能的應用與服務,并且將帶來更多可能性,迎來智能物種的大爆發。 一方面,由人工智能驅動的新形態產品、應用和服務將不斷出現,更好地滿足不同用戶的需求。例如,智能代理(AI Agent)近來愈發受到關注,它能理解用戶的指令,并在多變的環境中自主有效地完成任務。在人工智能硬件新物種方面,2023 年11 月發布的 AI pin 和 2024 年 1 月發布的 Rabbit R1 展示了人工智能實體化的初步形態。

另一方面,現有(成熟)產品或物種在大模型的驅動下,將展現全新的面貌。例如,“智能手機” 開始向“AI 手機”轉型,“個人計算機”向“AI PC”轉型。各大廠商正意欲通過人工智能重新設計手機和 PC 的體驗。在稍遠離日常生活的領域,人形機器人也在經歷變革。2023 年 11 月,工信部印發《人形機器人創新發展指導意見》,提出人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,重塑全球產業發展格局。人形機器人的研發是一個軟硬件一體的過程,大模型相當于為機器人提供了“大腦”,提升了機器人的通用能力、學習能力,進而增強了其環境感知、行為控制、人機交互等能力。隨著人形機器人技術的加速發展,它們能更好地在與真實世界的交互中收集人類數據,利用大模型處理數據,并利用數據繼續訓練人工智能。這被認為是推動通用人工智能研究的一種可能途徑。圖 1 示出了大模型垂直領域創新的一些應用。

圖 1 大模型垂直領域創新應用舉例

2.3 科技進步加速

AI for Science,即“人工智能驅動的科學研究”,是由鄂維南院士在 2018 年提出的科學研究新范式。

這一范式強調利用人工智能技術解決科學研究中的數據分析等難題,借助機器學習在高維問題上的表示能力,刻畫復雜系統的機理,創造科學模型,從而更高效、更具實用性地解決實際問題。結合以大模型為代表的新一代人工智能技術的能力飛躍,這一范式將進一步加速科技進步。具體而言,在大模型出現之前,從理論研究到產品的落地轉換通常需要 20 余年。而在 AI for Science 的驅動下,這一周期可以縮短至 5 年左右。

未來學家 Peter Diamandis 曾在 2020 年預測,未來 10 年人們經歷的科技進步將超過過去 100 年的總和,每個行業都將得到重塑。麥肯錫在 2021 年的技術趨勢報告中指出,包括應用人工智能在內多個領域的技術儲備已處于爆發的前夜,它們將重塑健康與材料科學、能源、交通等眾多行業和領域。在2024 年,人們已經切身體會到過去幾年科技飛速發展帶來的效應,尤其是在人工智能應用廣泛的領域。

設計的核心任務之一是將各種前沿科技進展轉化為實際產品。如果未來 10 年的科技進步將超越過去 100 年的總和,那么未來 10 年甚至更短時間內的設計創新也將超過之前 100 年的總和。這將為設計領域帶來巨大的空間和機會。

3 設計領域變革

隨著人工智能技術的飛速發展,設計的邊界不斷拓寬,成為與人工智能、大數據、云計算等前沿技術深度融合的領域及跨學科實踐載體。在ChatGPT 推出前,關于智能時代的設計的討論已經呈現出日益廣泛的趨勢。2022 年 8 月,浙江大學與阿里巴巴聯合發布的《產業數智化設計白皮書》指出,我國創新設計正在全面從以“計算機輔助設計” 為代表的“數字化”時代,邁入“數智化”時代。數智化技術已滲入設計活動各個階段,在設計資產逐步數智化的同時,數智化設計已展現出比傳統設計更卓越的能力。白皮書將洞察力、敏捷力、協同力視為數智化設計的特征能力。隨著大模型開啟“大知識”,設計領域正在經歷新的變化。本文將從設計對象和設計方法這兩個宏觀層面出發,介紹大模型帶來的設計領域變革。

3.1 設計對象多樣化

下面將從人工智能技術作為設計對象的能力變化、大模型帶來的交互邏輯更新,以及智能物種的爆發趨勢三個方面來探討大模型帶來的設計對象多樣化。

(1)人工智能作為設計對象和材料的能力突破與多樣發展 人工智能的能力從低于人類逐漸向接近人類、高于人類發展。ChatGPT 發布后,人工智能領域的相關進展似乎也被按下了加速鍵。2023 年 3 月, Google 發布了具身化多模態語言大模型 PalM-E,它將機器人任務和視覺語言任務通過一個共同的表示形式組合在一起,實現了對不同模態(狀態和 / 或圖像)的多模態語言建模處理。同年 4 月,Meta 發布了 Segment Anything Model(SAM),能夠自動分割圖像中的所有物體,或是根據提示詞分割相應物體,是計算機視覺和圖像領域的重大突破。人工智能技術的能力突破與多樣發展,豐富了設計對象的種類,將在不同領域催生設計創新,進而推動行業重塑。

(2)大模型交互方式和交互界面成為新設計對象 目前,數字產品普遍配備圖形用戶界面(graphical user interface,GUI)。用戶通過鼠標、鍵盤、屏幕等與圖形界面進行交互。ChatGPT 以對話機器人的形式,發展為生產力工具,顯示出對話式用戶界面(conversational user interface,CUI)和語言用戶界面(Language user interface,LUI)在大模型賦能下的巨大潛力。一方面,大模型本身,以及由大模型驅動的創新數字應用的交互方式和交互界面成為新設計對象。另一方面,在大模型驅動下,數字空間、物理世界、人類空間的三元空間將更加融合。各行各業的產品的交互邏輯迎來了優化重塑的巨大空間。在包括虛擬現實、增強現實、混合現實、空間計算在內的虛實融合的用戶體驗中,自然用戶界面(natural user interface,NUI)的交互邏輯、交互方式和界面設計也成為設計領域的新方向和設計對象。

(3)智能物種大爆發帶來設計機會大爆發 如前文所述,大模型將帶來智能物種爆發與科技進步加速。這為設計領域帶來了巨大的空間和機遇,因為設計既承擔著將各種前沿科技進展轉化為實際產品的重要任務,也扮演著為新技術帶來的新挑戰提供新方案的關鍵角色。智能物種在豐富人們的體驗,拓寬人們的想象邊界的同時,也不可避免地會引發用戶在接受新習慣與保持固有習慣之間的矛盾、技術適應等摩擦,這也將成為未來設計的新議題和新對象。

3.2 設計方法與模式變革

大模型將重塑所有設計方法與工具,在降低設計行業門檻的同時,也提升了設計的天花板。本文將這背后的設計方法與模式變化歸納為以下三點。

(1)大模型開啟大知識,為設計過程提供系統化的知識支持 一方面,從頭腦風暴、需求挖掘、文案處理到用戶調研,大模型的知識空間、自然語言能力和多模態信息處理能力將為設計中的各環節提供支持。例如,用戶畫像常應用于用戶需求分析。近年來,使用人工智能處理用戶數據的自動化用戶畫像生成(automatic persona generation,APG)方法,已經在產品市場營銷和企業推廣等活動中得到應用。在大模型的支持下,APG 方法將更高效地從大量的用戶數據中提取、融合有效信息,更精準地生成用戶畫像。另外,在概念創新設計的早期階段,人類設計師可以利用大模型能力驅動的智能設計工具,通過引入外部知識,獲得靈感激發,防止設計固化現象。此外,在前文曾提及的番茄采摘機器人的設計中,大模型則為從產品意義梳理、設計空間定義到原型設計的全流程提供了全面的知識支持和技術指導。

另一方面,以往設計師需要特定的設計工具來支持特定的設計任務,而隨著 OpenAI 推出 GPTs,用戶可以根據當下的需求和偏好來定制服務于特定任務的智能代理。在定制頁面里,用簡單的自然語言,比如“我要生成用于產品趨勢分析的 GPT”,在系統的引導下逐步明確需求和風格,就可以生成勝任特定任務的 GPT。在 GPTs 剛發布時,就有人用不到 1 min 的時間創建了一個名為 Trend Analyzer的 GPT,它可以在 90 s 內為用戶聯網查找目標產品類別的最新趨勢,并為其創建原型圖片。這種形式為融合大模型知識空間、用戶需求與外部知識提供了一條低門檻的路徑,也能更便捷地為設計師在設計過程中提供支持。

(2)圖像生成能力的提高,加速創意內容生產文生圖大模型產品在圖像生成方面取得了顯著進步,能夠用于素材生成、靈感激發和直接出圖。這些產品的圖像生成能力飛躍,重塑了設計過程中對專業技能要求最高、常常最為繁瑣且耗時最長的環節,如畫圖、建模、渲染和效果圖加工等。此外,圖生圖、圖片融合等功能對于現有圖片的創意加工、創意設計的靈感激發,以及組合創新的效果探索也作出了重要貢獻。

目前,文生圖大模型產品在可控性方面存在不足。例如,該領域的代表性產品 Midjourney 通過特定關鍵詞、墊圖、seed 值來調控固定模型,其可控性相對較弱。而另一代表性模型 Stable Diffusion,由于其開源屬性,擁有更多的插件和模型,圖片生成的可控性更強。2023 年初,ControlNet 技術作為Stable Diffusion 的一個重要控制組件問世,它賦予了文生圖工具根據多種條件對單張圖片進行細粒度受控變換的能力,從而提高了人工智能出圖的可控性。

(3)設計范式將發生結構性變化 大模型賦能的設計工具不僅具備洞察力、敏捷力和協同力,而且還發展出了想象力和創造力。以 Adobe Sensei 和 Adobe Firefly 為 例,Adobe Sensei于 2016 年發布,提供了數據洞察、自動化任務和個性化體驗等功能,以增強和簡化工作流程。而Adobe Firefly 于 2023 年 3 月發布,并于同年 9 月正式商用。它專注于通過生成式人工智能釋放創造力,提供包括設計元素生成、布局創建和風格應用等功能,支持設計師的創意探索,加速設計工作流程。在新智能工具成為主流的同時,設計師常用的主流工具也正在變得更加智能。

隨著人與智能工具進行人機協作的工作模式成為主流,設計團隊與設計價值鏈的變化將被催化。行業的門檻降低和生產效率的提高將導致設計團隊的構成變化和角色調整。設計流程的各個環節效率的提升,以及壁壘環節的消除,使設計價值鏈的邏輯發生改變。以 2023 年春季在小紅書上走紅的“小綠裙”為例,相關博主在小紅書上使用人工智能繪畫制作女生頭像,她的專業背景與服裝設計并無直接關聯。“小綠裙”并非博主生成圖像時的意圖,卻意外在小紅書上獲得了極高的人氣。在用戶驅動下,這款裙子被商家打版生產并銷售。這種由用戶利用工具生成設計圖,再由用戶推動生產制造的C2M(customer-to-manufacturer)模式,正在迅速改變傳統的電商邏輯。

智能時代的設計范式的特征之一是難以框定清晰的邊界,這是因為隨著技術的發展,設計方法與模式的變化時刻在發生,使得人們難以捕捉到精確的時間點來標記、描述和鎖定特定的范式。然而,可以肯定的是,我們正在見證設計領域前所未有的變革。數智化設計在洞察力、敏捷力和協同力得到提升的同時,正表現出強大的想象力和創造力。這種不斷變化的設計將在未來扮演更加重要的角色。

4 結語:大模型時代的個人能力重塑

本文介紹了在大模型背景下,大模型如何開啟 “大知識”,以及由此產生的新趨勢。在設計領域變革方面,從設計對象和設計方法兩個層面出發,探討了人工智能技術能力的演變、大模型的交互邏輯、智能物種的爆發趨勢如何帶來設計對象的多樣化,大知識和知識智能載體如何為設計提供知識支持,多模態大模型如何加速內容創意生產,以及設計價值鏈的調整等設計方法與范式的變化。

大模型正不可阻擋地重塑設計領域的各個方面,這對所有利益相關者的個體能力提出了新的要求。首先,設計師、設計研究者、設計專業學生等群體需要從觀念和行動上突破慣性思維,從建立基本的人工智能意識開始,積極擁抱和使用前沿智能工具,將這些工具融入個人或組織的工作流程中。在積極應用這些工具的過程中,與人工智能共同成長,實現自身能力的重構和提升。然而,在發揮技術優勢的同時,也要認識到技術的邊界和局限性。例如,大模型可能會產生“幻覺”,即看似正確的生成結果中可能包含虛假信息和錯誤信息。其次,個體應當掌握如何有效調用知識的能力,重視圍繞知識的方法論和系統論。隨著自然語言成為一種有效調用知識的新方式,個體應更加關注并理解知識的產生過程和原理,并在此基礎上,通過深入學習提示詞工程等方法,更好地利用 GPT 來調用知識。最后,學會在模糊和不確定性中找到方向。在快速變化的世界中,不僅要學會駕馭模糊的能力,還要具備正確的價值觀和積極的人格特質,堅定地為推動領域進步和人類文明的發展做出貢獻。

(參考文獻略)

孫凌云

CAAI 智能創意與數字藝術專委會主任,浙江大學國際設計研究院院長、計算機科學與技術學院副院長,教授。研究利用人工智能賦能設計行業,提出人工智能時代下的設計范式,應用于數字創意、智能硬件設計等領域。

潘越

浙江大學計算機科學與技術學院設計學博士后。主要研究方向為設計科學與創新工程。

選自《中國人工智能學會通訊》 2024年第14卷第4期 智能創意與數字藝術專題

掃描加入我們 獲取更多學會資源

付費5元查看完整內容

桑基韜 北京交通大學教授

**目錄****引言 **趨勢一:從專用到通用-預訓練大模型和智能代理

(1)預訓練語言模型 (2)視覺和多模態預訓練 (3)預訓練模型的應用 (4)AI Agent

趨勢二:從能力對齊到價值對齊-可信與對齊

(1)可信:小模型時代的價值對齊

(2)大模型時代的價值對齊

趨勢三:從設計目標到學習目標-預訓練+強化學習

(1)預訓練獲得基礎能力,強化學習進行價值對齊

(2)預訓練模仿人類,強化學習超越人類

展望

(1)“真”多模態:從微調回歸預訓練

(2)系統一 vs. 系統二

(3)基于交互的理解和學習

(4)超級智能 vs 超級對齊

引言

1956年的達特茅斯會議將“人工智能”定義為“使機器能夠模擬人類進行感知、認知、決策、執行的一系列人工程序或系統”。這一定義催生了模仿人類智能的兩種思路-邏輯演繹和歸納總結,它們分別啟發了人工智能發展的兩個重要階段:(1)1960至1990年,以邏輯為基礎、側重知識表達與推理的知識工程方法;(2)1990年之后,以概率為基礎、強調模型構建、學習和計算的機器學習方法

知識工程:邏輯演繹 vs. 機器學習:歸納總結

經過30多年的發展,機器學習方法大致經歷了三個階段:1990-2010年依賴手工設計特征的傳統機器學習、2010-2020年從低層到高層進行監督表示學習的(傳統)深度學習,以及2020年以后基于大規模無標注數據進行自監督學習的預訓練大模型。圍繞以預訓練大模型為中心的第三代機器學習,下面探討人工智能發展的三個趨勢和對未來的四點展望。

預訓練大模型:第三代機器學習

**趨勢一:從專用到通用-預訓練大模型和智能代理 **

**

**

以中英翻譯任務為例,知識工程方法需要語言學家來編寫規則庫,傳統機器學習和深度學習基于語料學習概率模型或進行模型微調。這些方法都為特定的機器翻譯任務而設計。然而,今天的同一個大語言模型不僅可以翻譯幾十種語言,還能處理問答、摘要、寫作等不同的自然語言理解和生成任務。結合我自己的研究經歷,芮勇老師在2017年提出了隱喻圖像理解的認知挑戰(將”大象”與“共和黨”建立聯系,從而理解圖像對美國政治的討論)。我們在2019年通過多個專用小模型流水線式(本義概念檢測-本義引申義概念映射-隱喻描述生成)的方式嘗試進行了解決。而到了2023年,只需要一句簡短的提示詞,GPT-4V就能非常準確地理解圖像背后的政治隱喻含義。

小模型的“專用” vs 大模型的“通用”

預訓練大模型采用的大規模預訓練技術與早期深度學習中的逐層預訓練技術,雖然都基于無標注數據來學習特征表示,但在訓練方法、預訓練任務、模型架構、功能實現、起源以及資源需求等方面存在很大差異。從起源來看,逐層預訓練技術最初應用于計算機視覺領域,旨在學習圖像的視覺特征表示。而大規模預訓練技術的起點是自然語言處理領域的語言模型NNLM和Word2Vec。

逐層預訓練 vs. 大規模預訓練 *

**(1)預訓練語言模型 **

語言模型的核心是計算一段文本序列出現的概率,大致經歷了統計語言模型、神經語言模型和預訓練語言模型幾個發展階段。與基于靜態詞向量的神經語言模型(如Word2Vec)不同,自ELMo模型起,預訓練語言模型開始學習能夠感知上下文的動態詞表示,從而可以更準確地預測文本序列的概率。在序列處理單元的發展上,從RNN到LSTM,再到Self-Attention,逐步解決了長序列預測和并行計算的問題。因此,預訓練語言模型得以在大規模無標注的樣本上進行高效學習。根據算力、數據量、模型規模之間關系的scaling law,目前預訓練語言模型的性能提升還沒有觸及天花板。

序列處理單元和語言模型的發展 *

**(2)視覺和多模態預訓練 **

預訓練語言模型的成功給計算機視覺領域帶來了兩個啟示:一是利用無標注樣本進行自監督學習,二是學習能夠適應多種任務的通用表示。從iGPT、Vision Transformer、BEiT、MAE到Swin Transformer,自注意力機制的計算資源消耗、局部結構信息保持等問題被逐步解決,推動了視覺預訓練模型的發展。 多模態預訓練模擬了人類理解物理世界的多模態過程。將大語言模型比作機器的大腦,多模態則為其提供了感知物理世界的眼睛和耳朵,可以極大擴展機器的感知和理解范圍。多模態預訓練的核心問題是如何有效實現不同模態之間的對齊。根據模態對齊策略的不同,多模態預訓練大致經歷了多模態聯合預訓練模型和多模態大語言模型兩個階段。早期模型并行處理不同模態的數據進行預訓練,主要技術包括單模態局部特征提取、模態對齊增強、跨模態對比學習等。其中CLIP通過在4億圖文對上進行對比學習,成功打通了語言和視覺模態。自2023年起,LLaVa、Mini-GPT、GPT-4V等在大語言模型的基礎上,通過微調來融合其他模態數據,從而繼承了語言模型中豐富的世界知識和優秀的交互能力。谷歌的Gemini模型則重新采用了聯合預訓練的多模態架構。最近,隨著LVM、VideoPoet和Sora等新模型的出現,多模態預訓練呈現出如下趨勢:(1)重視語言模型在多模態理解和生成的作用;(2)通常包含多模態編碼、跨模態對齊和多模態解碼三個關鍵模塊;(3)跨模態對齊趨向于采用Transformer架構、模型采用自回歸(VideoPoet)或擴散(Sora)方法。

多模態預訓練模型架構的演變 *

**(3)預訓練模型的應用 **

根據Leslie Valiant的觀點[1],大規模預訓練可以類比生物神經網絡通過億萬年數據積累所形成的先天結構先驗,即群體基因或生理進化。預訓練模型的應用,則類似于個體在后天面對小數據進行的微調。沿著GPT系列的發展,我們可以清晰地看到預訓練模型能力和對應的應用方式的變化:從GPT-1的預訓練模型參數微調(全量微調/參數高效微調)、GPT-2展現零樣本能力后的提示工程、GPT-3展現上下文學習能力后的范例設計、以及到GPT-3.5任務涌現后直接通過任務描述來引導模型。OpenAI的成功很大程度來源于其領先的認知和始終如一的堅持:通過增加數據和模型規模推動智能向更加通用的方向發展。 預訓練模型應用方式的演變 從專用模型到通用模型的轉變,帶來了如下四個方面的具體變化

  • 從閉集到開集:預訓練模型從大規模數據中學習到通用知識,打破了任務解決局限于特定類別的限制。例如,CLIP通過建立語言與視覺模態的關聯,能夠處理零樣本的視覺理解任務;SAM能夠對未見過的物體和場景進行有效分割等。
  • 老問題、新理解:模型應用方式的演變也為我們提供了對傳統問題理解的新視角。比如,小樣本學習從依賴訓練階段的標注樣本,轉變為在推理階段通過提示詞注入樣例上下文;零樣本學習由于CLIP等隱性知識庫的普遍存在,已逐漸轉變為開放詞匯學習的問題。
  • 中間任務的邊緣化:自然語言處理領域中,如分詞、詞性標注、NER等中間任務的重要性正在降低。經典的自然語言處理借鑒計算語言學,中間任務多是由人設計的。比如傳統對話系統被設計成包含自然語言理解、對話管理和自然語言生成三個模塊,每個模塊又細分為若干個中間任務。然而,隨著以自回歸的方式預訓練數據達到一定規模后,這些中間任務和模塊被統一為了對下一個詞元預測的問題。從上述介紹的隱喻圖像理解例子,我們也能觀察到視覺和多媒體領域的類似變化。
  • 領域邊界的模糊化:計算機視覺CV和自然語言處理NLP的領域界限正日益模糊。在傳統機器學習時代,CV從NLP借鑒了基礎的Bag-of-Words詞袋模型表示方法;而在早期深度學習階段,NLP則從CV引入了MLP、ResNet等網絡結構,以及Dropout、批歸一化等訓練和優化技術。到了預訓練大模型時代,CV先是借鑒了NLP的自監督預訓練和自注意力機制,而隨著LVM和VIdeoPoet等視覺GPT和視頻生成GPT類模型的推出,兩個領域正朝著多模態編碼和自回歸模塊化結構統一的方向發展。

不同機器學習階段NLP和CV兩個領域的相互借鑒

**(4)AI Agent **

預訓練大模型的通用性不僅體現在內容理解和生成上,還擴展到了思考和決策能力上。將Jasper、Midjourney等處理通用任務并具有自然交互能力的AI系統定位為CoPilot,具有規劃任務和使用工具能力的AI系統則可以被稱為AutoPilot,也就是AI Agent。在CoPilot模式下,AI是人類的助手,與人類協同參與到工作流程中;在AI Agent模式下,AI是人類的代理,獨立地承擔大部分工作,人類只負責設定任務目標和評估結果。 值得注意的是,AI Agent的概念在人工智能的早期就存在,在預訓練大模型之前經歷了基于規則設計和基于強化學習兩個階段。當前討論的AI Agent,更準確地說,是基于預訓練大模型的AI Agent。相比前兩個階段的AI Agent面向特定任務和場景設計,基于預訓練大模型的AI Agent核心特點在于其對通用任務和場景的適應性。 基于預訓練大模型的AI Agent AI Agent的主要架構包括Perception感知、Planning規劃、Action行動和Memory記憶。在行動環節,AI Agent既可以依托自身的大模型能力,也能調用外部API或其他模型等工具來執行任務。規劃過程包含任務分解和基于反饋的持續優化兩個方面。任務分解目前主要采用思維鏈和思維樹的方法,這些方法模仿人類的系統二推理過程,通過結構化地組織和細化思維來應對復雜問題。基于反饋的修正則主要通過兩種方法實現:一種是ReAct,它將推理與行動結合在單一輪次中,踐行了“學(行動)而不思(推理)則罔,思而不學則殆”的原則;另一種是Reflexion,可以看成是一種基于語言的、能夠從錯誤中進行多輪反思的在線強化學習方法。

任務規劃:CoT/ToT vs. ReAct vs. Reflexion

隨著大模型逐漸成為未來社會的基礎設施,如同電網、計算機、互聯網成為基礎設施后普及的電力、算力和信息獲取能力,智能服務的成本也將大幅降低。AI Agent,作為智能服務普及的應用載體,將推動AI原生技術的變革。

AI Agent:智能的應用載體

從C端來看,AI Agent將成為智能時代的信息入口:用戶將不再需要登錄不同網站/App來完成各種任務,而是通過AI Agent與各類服務進行統一交互。AI原生的應用、操作系統甚至硬件,將超越現在的圖形用戶界面GUI(Graphical User Interface),更多地融合自然語言用戶界面LUI(Language User Interface)[2],提供更為直觀和便捷的交互體驗。。 從B端看,機器學習即服務(MaaS)將機器學習模型作為服務來提供,相比SaaS實現了云服務的智能化升級。而代理即服務 (AaaS)則進一步將智能代理作為服務,推動云服務進一步向自動化升級。有觀點認為,軟件生產將進入類似3D打印的2.0時代,其具有(1)AI原生-面向AI使用設計自然語言接口、(2)解決復雜任務-規劃和執行任務鏈、(3)個性化-滿足長尾需求等特點。在這一趨勢下,面向企業的軟件可能不再僅僅是輔助員工的工具,而是作為數字員工,替代執行一部分基礎和重復性的工作。 基于預訓練大模型的AI Agent仍然面臨如下幾方面的技術挑戰:

  • 機制工程的設計復雜性和應用泛化性:目前AI Agent的工具調用、任務規劃通常涉及復雜的機制工程(mechanism engineering),即通過啟發式方法編寫包含邏輯結構和推理規則的提示詞框架。這種手工設計方式難以適應不斷變化的環境和用戶需求。根據從手工設計到數據驅動學習的發展規律,面向AI Agent進行機制學習是可能的解決思路,以實現更加靈活自適應的智能代理行為。

面向AI Agent的機制學習

  • 可信與對齊:由于加入了記憶、執行、規劃等環節,面向AI Agent的可信與對齊有新的問題需要解決。例如,在對抗魯棒性方面,不僅要關注模型本身的抗攻擊能力,還要考慮記憶載體、工具集、規劃過程等的安全性;在處理幻覺問題上,除了感知和認知階段的幻覺,還要考慮決策和行動階段的幻覺。

幻覺:感知-認知-決策-行動

  • 長上下文規劃和推理的一致性:在處理長對話或復雜任務時,Agent需要保持上下文的連貫性,確保其規劃和推理過程與用戶的長期目標和歷史交互保持一致。
  • 自然語言接口的可靠性:相比計算機語言嚴格的語法和結構,自然語言具有歧義和模糊性,可能導致指令理解和執行時出現錯誤。

**趨勢二:從能力對齊到價值對齊-可信與對齊 **

**

**

從人工智能的定義可以看出其與人類對齊的初衷。無論是基于邏輯演繹的知識工程方法,還是基于歸納總結的統計機器學習方法,目的都是與人類的對齊。以機器學習方法為例,監督學習范式下,人類標注訓練數據集(X,Y),模型學習從輸入X到輸出Y的映射f(),這一過程可以看成一種類人知識蒸餾;無監督和自監督范式下,由人類定義的相似度度量和代理任務(比如生成式代理任務旨在重構人類語言或自然圖像)也在向模型傳遞人類的知識。通過將訓練目標函數和人類對齊,模型在一系列代表人類不同能力的任務上相繼通過了圖靈測試,這在一定程度上實現了與人類的能力對齊。

AI與人類的能力對齊

然而,在一些強人機交互和對安全有嚴格要求的領域,由于魯棒性、公平性、解釋性等問題,AI模型仍然難以實現工業級的大規模應用。

AI與人類的價值對齊

目前,對于AGI實現的標準還沒有達成共識。如果將人機對齊視為實現AGI的一種標準,那么在追求目標層面上的能力對齊之外,還要考慮行為方式層面的價值對齊。能力對齊和價值對齊可以類比為結果和過程:就像旅行到達目的地是結果,但采用哪種交通方式、選擇哪條路線可以有不同的過程。 人機對齊:能力對齊+價值對齊 *

**(1)可信:小模型時代的價值對齊 **

可以發現,價值對齊所要求的對抗魯棒性[3]、算法公平性[4]、可解釋性[5]、數據隱私保護[6] 等問題,正是構成經典可信AI的四個核心維度。而可信AI是建立在泛化性的基礎上,這也對應了能力對齊是價值對齊的先決條件。概念上,我們可以將價值對齊看做可信AI的外延,它不僅包含了技術層面的對齊,還涵蓋了更廣泛的倫理和社會責任。

可信AI的內涵 *

**(2)大模型時代的價值對齊 **

到了預訓練大模型時代,隨著AI能力的持續提升,應用廣度和深度都將大幅增加。能力越大,責任越大。人們在享受AI帶來的便捷和生產力提升的同時,對AI的態度將從適應逐漸轉變為依賴。當人們開始依賴AI代替自己學習、思考、甚至決策時,對AI的可信和價值對齊也提出了更高的要求。除了將經典可信問題的研究對象從專用小模型遷移到預訓練大模型上[7,8,9],我們還面臨著一系列新的可信和價值對齊問題。 Anthropic提出了人機對齊的“3H原則[10]”:其中Helpful有益對應了能力對齊對于準確性的要求;而Honest誠實和Harmlles無害則大致對應了價值對齊中在可靠性和安全性方面的要求。哈工大秦兵老師提出的框架[11]中從合事實、合法、合情、合文化的維度,設定了普適和多元的價值觀對齊目標。相比經典可信AI中的問題,在新的價值對齊框架下,特別是面向生成式AI的特點,真實性[12]、無毒害性[13]、情境適應性[14]等新的價值對齊問題需要給予更多的關注。

大模型時代新的價值對齊問題

根據不同時間范圍,OpenAI設定了3個對齊與安全團隊,分別面向當前的前沿模型、過渡階段模型和未來超級模型。根據這個設定,下面結合我們自己的研究例子討論大模型時代價值對齊的三個階段。

大模型時代價值對齊研究的三個階段

**AI工程化:可信大模型測試、診斷和修復 **

應用生態建設是技術走向成熟的標志。以軟件科學向軟件工程的發展為例,通過建立測試環境、工具鏈、開發平臺等基礎設施,完善軟件構建、部署和維護等DevOps關鍵環節,形成了一個完整的軟件開發周期。AI的工程化應用生態建設涉及對整個智能生命周期進行管理。其中的軟件生態AIOps/LMOps通過提供必要的工具和服務,以確保模型開發、測試、部署和運維的高效與穩定。可信和價值對齊的研究需要深入到AI應用生態的構建和實施中,從概念和框架研究轉向更加實際的技術實踐,并將解決方案以工具和集成模塊的形式支撐模型研發和應用開發人員。

支撐AI工程化應用生態建設

仍以軟件工程為例,其應用生態的核心在于構建一個完備的測試-調試閉環體系,包括性能評估、缺陷識別定位與修復、以及回歸測試等環節。測試調試閉環的實施能夠提高軟件的可靠性,降低故障率和安全風險。由于數據驅動帶來的黑箱問題,機器學習模型無法像軟件那樣直接實現調試。借助解釋性方法對預訓練模型進行診斷,定位存在問題的模塊或模型參數,進而采取針對性的修復措施。對模型測試、診斷和修復的過程可以類比于去醫院看病的檢查、問診、治療環節。完成模型修復后,需重新測試以確認問題已解決且未引入新的問題,從而形成測試調試的閉環。

面向模型的測試-診斷-修復 vs. 醫院看病的檢測-治療-問診

測試、診斷、修復技術應以模塊化或工具的形式來支撐大模型研發和基于大模型的下游應用開發:

  • 模型研發支持:測試和調試技術應集成為模塊,嵌入到現有的研發流程中。這些模塊需針對預訓練模型的特性進行定制設計,以便研發人員能夠迅速評估模型的性能,準確定位問題,并執行有效的優化措施。
  • 下游應用開發支持:對于基于大模型的下游應用開發,測試和調試工具可以通過云服務的形式,在大模型平臺上提供。這樣,開發者便能夠依據具體的應用場景對模型進行細致的評估和調整,從而簡化模型的部署和運維流程,提升下游應用的可靠性和安全性。

**AIGC普及:自然-合成數據的OOD問題 **

從ChatGPT、Midjourney到Sora和Suno,文本、圖像、視頻、音樂的AI合成內容質量不斷提升,使得人越來越難以區分。AIGC內容的高真實性已經可以混淆人類的判斷,首當其沖的挑戰就是數字取證和偽造檢測,引發人們對虛假信息的擔憂。另一方面,AI生成作為實實在在的生產力,AIGC無處不在的趨勢恐怕難以阻擋。前段時間,全AI生成的預告片“芭比×海默”引發了病毒式傳播和熱議,Gartner預測:到2030年,主要影視作品中AI生成內容的比例將從2022年的0%上升到90%。

AI合成預告片“芭比×海默”

隨著社會逐漸適應和接受AI合成內容,特別是在AI替代人類的場景下,會出現很多AI工具與AI合成內容交互的情況。這會帶來一個新問題:目前這些從訓練數據、結構到訓練方法都是面向自然數據設計的模型,當應用到AI合成內容上時,會有什么問題?比如, AI合成文本和圖像會帶來信息檢索的偏見[15],并在檢索循環中放大這種偏見[16];相比自然圖像,AI合成圖像更容易產生幻覺[17]。看起來AIGC不僅confuse了人類,同時confuse了AI自己。 隨著AI合成數據日益增多,我們可能會遇到以下幾種情況:

  • 傳統泛化問題:用自然數據訓練,應用于自然數據。這是過去幾十年研究主要關注的情況,很多任務在實驗室條件下解決得很好了。
  • 自然到合成數據泛化:用自然數據訓練,應用于合成數據。也就是上述工作[15,16,17]討論的情況。
  • 合成到自然數據泛化:用合成數據訓練,應用于自然數據。比如,ShareGPT數據集廣泛應用與大語言模型訓練,Sora可能使用游戲引擎合成訓練數據。合成數據可以彌補自然數據的不足,推動模型能力的持續提升。這種情況預計會持續增長。
  • 合成到合成數據泛化:用合成數據訓練,應用于合成數據,這是合成數據內部的泛化性問題。

情況2和3可以被視為廣義的OOD問題,可以稱之為“自然數據與合成數據的OOD”(Natural-Synthetic OOD)。實際上,即使是情況4,也應該考慮以某種方式混合自然數據和合成數據進行模型訓練。深入理解自然數據和合成數據的差異,除了應用于鑒別真偽,對未來有效地使用合成數據訓練、以及在應用中與合成數據進行交互也非常重要。

自然-合成數據的OOD

**AI智能持續提升:超級對齊 **

目前實現價值對齊的主流方法是RLHF。當人類評估者可以提供高質量的反饋信號時,RLHF非常有效。但在AI能力進化的時間尺度上,人類的評估能力是相對固定的。從某一個臨界點開始,人類將無法再為對齊AI系統提高有效的反饋信號。超級對齊的核心問題是在這種情況發生時如何讓弱監督者控制比他們聰明得多的模型。 OpenAI超級對齊團隊提出的弱到強泛化(Weak-to-Strong Generalization, W2SG)框架[18]為超級對齊提供了新的解決思路,通過用弱老師模型模擬人類監督者、強學生模型模擬超過人類的被監督者,讓超級對齊的實證研究成為可能。可擴展監督(Scalable Oversight, SO)致力于增強監督系統,結合可擴展監督可以減少弱監督和強學生之間的能力差距,更好地挖掘弱到強泛化框架的潛力 [19]。進一步,弱監督學習與弱到強泛化有類似的問題設置:如何更好地利用不完整和有缺陷的監督信號。因此,在弱到強泛化框架下融合可擴展監督和弱監督學習,分別從增強監督信號和優化對監督信號的利用兩個角度來激發更強大模型的能力。

基于弱到強泛化的超級對齊:可擴展監督vs.弱監督學習

隨著AI能力進一步提升,可能會到達第二個臨界點:人類監督作用逐漸減弱至零。此時需要可以采用已經對齊的最強學生模型來替代人類,成為超人類的自動對齊評估器(automated alignment evaluator),作為新的弱老師模型繼續監督這之后更強的學生模型。自動對齊器可以進行遞歸更新(Recursive W2SG,縮寫為R-W2SG):使用經過監督對齊的強學生模型來更新自動對齊器,實現下一代的弱到強泛化,這樣可以確保弱老師模型和強學生模型之間只存在一代的能力差距。

基于弱到強泛化的兩階段超級對齊

**趨勢三:從設計目標到學習目標-預訓練+強化學習 **

**

**

OpenAI研究員Hyung Won Chung從手工設計和自動學習模塊的變化角度,總結了人工智能從專家系統、傳統機器學習、深度(監督)學習到深度強化學習的發展歷程[20]。在傳統機器學習和深度學習中,目標函數需要通過手工設計,重點在于學習特征表示和特征到目標的映射。而強化學習將目標函數也作為可學習的模塊,可以解決那些難以直接定義目標的任務。

不同方法中的手工設計和可學習模塊[20]

對比機器學習最近的主要發展節點,深度學習和大規模預訓練分別對應了模型結構和對數據標注要求的變革,而強化學習聚焦于目標函數的變革:在缺乏明確目標指導的情況下,通過與環境的交互學習。將預訓練與強化學習結合,是一個潛力巨大的研究方向:預訓練對人類已有知識和經驗壓縮,但其受限于概率建模的約束,創造未知知識的小概率事件很難發生;強化學習通過平衡利用已有信息和探索未知知識,引入隨機性,有機會打破預訓練模型依賴人類設計的局限,實現更高層次的智能。

深度學習vs預訓練vs強化學習 *

(1)預訓練獲得基礎能力,強化學習進行價值對齊

目前大模型訓練通常遵循預訓練、監督微調、基于反饋強化學習三個主要步驟。預訓練階段通過大量無標注的數據學習語義語法等基礎能力。監督微調通過高質量的提示詞與答案配對樣本對模型進行微調,可以提升模型的指令跟隨,同時確保輸出答案的形式符合預期。第三步的目的是使模型的輸出符合人類偏好和價值觀。由于人類價值觀的復雜性,直接定義非常困難。因此,在RLHF中首先學習一個獎勵模型,作為人類偏好的一種代理;然后通過與環境(即獎勵模型)的交互,讓模型學習并逐漸對齊人類的價值觀。 *

**(2)預訓練模仿人類,強化學習超越人類 **

AlphaGo的訓練除了模仿學習還有自我博弈強化,從而探索出了超越人類經驗的策略;相比之下,現在的預訓練大模型只有模仿學習,依賴反映人類活動的語料庫進行學習,模仿的是人類已有的知識和表達方式。參考AlphaGo強化學習的獎勵設計方式,為語言建模設計一個類似于圍棋輸贏的自我博弈任務,有希望突破人類知識的局限。當然,語言的復雜性和多樣性使得定義任務何為“勝利”沒那么容易,可能的方法是為預訓練模型設置不同的角色或立場,通過競爭或協作類的博弈任務進行能力增強[20]。 Demis Hassabis認為創造力分為三個層次,分別是插值(interpolation)、外推(extrapolation)和發明(invention)。根據這個分類,預訓練大模型目前仍然停留在第一個層次:對已有知識進行插值和組合,但顯然已經做到了頂級水平。AlphaGo與李世石第二局中的第37步是第二層次外推的代表:下出了人類棋手沒見過的策略。通過預訓練+強化學習突破人類監督限制,可以看成是在探索大模型的第二個層次。關于第三個層次,Hassabis認為它關注的“不是圍棋中下了一步好棋,而是發明了一種新的棋類游戲”。對應到大模型,可能需要它發現新的數學猜想或定理。回想AlphaGoZero拋棄了模仿學習人類棋譜,在只有勝負規則的情況下無師自通打了AlphaGo個100:0。類似的,如果拋棄預訓練階段對語料的擬合,讓模型直接從零開始探索,是否可能突破人類語法限制、甚至開發出自己的語言,這會是實現第三個層次智能的解決方案么?

**展望 **

**

**

(1)“真”多模態:從微調回歸預訓練

盡管在過去的一年里,大語言模型的成功促使很多多模態模型選擇在已有的大語言模型基礎上進行視覺和語音編碼器的微調,但從長遠來看,多模態大模型的發展傾向于從頭聯合預訓練多種模態數據。雖然語言是人類智能區別其他動物的關鍵,但從人類大腦的進化過程看,語言能力是在大概50萬年才開始發展的。人類視覺系統的進化經歷了幾億年的時間,早在語言能力形成前就完成了。此外,教育學的經驗也告訴我們,協調多模態感知有助于孩子的智力發育。 目前,我們已經看到一些模型,如Gemini,重新采用了聯合預訓練的方法。同時,許多人預測,下一代的多模態大模型,如GPT-5,尤其是當加入視頻生成能力后,將更可能采用統一的聯合預訓練方法。聯合預訓練能夠從底層更全面地理解和整合來自不同模態的信息,建立更深層次的聯系和協同。 *

**(2)系統一 vs. 系統二 **

雖然AI Agent通過設計復雜的提示詞強迫模型進行系統二的慢推理,但模型在預訓練階段對語料的系統一式處理限制了其復雜推理能力。據傳DeepMind和OpenAI正計劃通過加入樹搜索等策略增強對于訓練數據的利用,這本質上是在訓練階段引導模型進行系統二式的學習。這種訓練方法有望使模型在推理時能夠更好地發揮出系統二的能力。 一個有趣的問題是,如果訓練階段采用系統二學習、而在推理時采用系統一快回答,會產生什么效果?回顧MuZero在訓練中采用了MCTS自對弈方法,但在推理階段、尤其是需要快速響應的場景,它并不執行在線MCTS搜索,而是直接使用訓練好的策略網絡來做決策。這可以理解為經過系統二的強化訓練后,模型獲得了復雜的推理能力,并已經將這些能力固化為系統一的直覺。這可能代表了一種更理想的應用場景:模型在訓練階段深入學習并掌握復雜的推理能力,而在應用中以一種更直接、簡單的方式運用這些能力。 *

**(3)基于交互的理解和學習 **

李飛飛曾指出2020-2030的AI北極星任務是實現對真實世界的主動感知和交互。如果說統計方法通過模仿智能的結果來獲得智能,交互可以被視為通過模擬實現智能的途徑獲得智能。相比邏輯演繹和歸納總結獲得智能的形式化表達和自動實現方法,因果可能是實現通過交互獲得智能的一個重要解決方案。因果有望通過干預、不確定推斷、反事實推理等方式,解決統計機器學習在數據假設、優化目標、學習機制等方面的局限。

因果:基于交互的理解

基于交互的學習,特別是在將預訓練與強化學習結合的框架下,為人工智能的發展提供了新的視角。比如,將多模態預訓練模型置于具身智能的框架中,使其能夠在與環境交互的過程中學習和自我增強。通過與物理和社交環境的交互,模型可以分別增強其對物理世界[21]和社會互動[22]的常識理解和適應能力。 *

**(4)超級智能 vs 超級對齊 **

OpenAI的宮斗事件讓“超級智能”和“超級對齊”這兩個概念帶到了公眾視野中。作為OpenAI的技術領袖,Ilya Sutskever長期以來一直致力于推動AI智能水平的持續提升。而隨著超級對齊團隊的成立,以及他親自擔任團隊負責人,他的工作重心已經轉向了對齊和安全問題。 超級智能和超級對齊是未來人工智能發展的一條主要線索:一個探索能力上限、一個確保安全底線,一個打造最鋒利的矛、一個構造最堅固的盾。


參考資料:

[1] Leslie Valiant: “Evolution as Learming.” Talk @Theory-Fest 2019-2020: Evolution. [2] Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception. 2024. [3] Benign Adversarial Attack: Tricking Models for Goodness. 2022. [4] Towards Accuracy-Fairness Paradox: Adversarial Example-based Data Augmentation for Visual Debiasing. 2020. [5] 面向圖像分類的深度模型可解釋性研究綜述. 2022. [6] Adversarial privacy-preserving filter. 2020. [7] Towards Adversarial Attack on Vision-Language Pre-training Models. 2022. [8] Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training Models. 2022. [9] Exploring the Privacy Protection Capabilities of Chinese Large Language Models. 2024. [10] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. 2022. [11] 秦兵.”大語言模型之安全性檢測及人類價值觀對齊” 報告, 2023. [12] An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation. 2024. [13] CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility. 2024. [14] CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models. 2024. [15] LLMs may dominate information access: Neural retrievers are biased towards LLM generated texts. 2024. [16] AI-Generated Images Introduce Invisible Relevance Bias to Text-Image Retrieval. 2024 [17] AIGCs Confuse AI Too: Investigating and Explaining Synthetic Image-induced Hallucinations in Large Vision-Language Models. 2024. [18] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. 2023 [19] Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning. 2024 微信公眾號文章:“超級智能是矛,超級對齊是盾”。 [20] 微信公眾號文章:“關于Q*(Q-star)的兩個猜測”。 [21] A Reconfigurable Data Glove for Reconstructing Physical and Virtual Grasps. 2023. [22] Emergent Tool Use from Multi-Agent Interaction. 2020

付費5元查看完整內容

在不斷發展的技術和戰略分析領域,有兩個領域因其深遠的影響和有趣的可能性而脫穎而出:人工智能 (AI) 和博弈論。乍一看,它們可能看起來很不同——人工智能是計算機科學的一個分支,致力于創造智能機器,而博弈論則是研究競爭環境中的戰略決策。然而,當這兩個領域融合在一起時,它們開啟了一個新的可能性領域,徹底改變了我們處理和解決復雜戰略問題的方式。

人工智能和博弈論的交集不僅僅是一個技術聯盟;它代表了我們對戰略、決策和預測分析的理解的范式轉變。人工智能帶來了其無與倫比的計算能力、處理大量數據集的能力和先進的算法。另一方面,博弈論為理解競爭和合作互動的動態提供了一個框架,無論是在個人、公司還是國家之間。它們共同創建了一個強大的工具包,用于駕馭錯綜復雜的戰略決策世界。

在當今數字時代,這種融合尤為有效,因為數字時代數據豐富,計算能力不斷擴展。人工智能的學習、適應和決策能力越來越類似于人類的戰略思維,這是博弈論的一個核心方面。隨著人工智能系統變得越來越復雜,它們不僅在學習下國際象棋或圍棋等游戲。盡管如此,它們也被應用于戰略互動至關重要的現實世界場景——從金融市場到國際外交。

在本文中,我們將踏上人工智能和博弈論的探索之旅。我們將深入研究它們的歷史背景,研究人工智能如何用于解決復雜的博弈論問題,并展望這個令人興奮的跨學科領域的未來。通過了解人工智能和博弈論之間的協同作用,我們可以深入了解戰略決策的未來——一個機器競爭和制定戰略的未來。

人工智能和博弈論的歷史背景和里程碑

人工智能在戰略博弈和博弈論領域的旅程始于不起眼但意義重大的一步。最早的里程碑之一是IBM的“深藍”(Deep Blue)的誕生,這是一款國際象棋計算機,在1997年擊敗了世界冠軍加里·卡斯帕羅夫(Garry Kasparov)。這一事件標志著一個關鍵時刻,展示了人工智能在掌握需要深入戰略思維的游戲方面的潛力。

繼深藍之后,人工智能領域繼續發展,處理更復雜的游戲。一個里程碑式的成就是谷歌DeepMind的AlphaGo,它在2016年擊敗了世界冠軍圍棋選手李世石。圍棋,一個以其大量可能的位置和對直覺的依賴而聞名的游戲,對人工智能來說是一個重大挑戰。AlphaGo的勝利證明了人工智能在學習和制定戰略方面的先進能力,遠遠超出了蠻力計算。

在這些發展的同時,人工智能開始納入博弈論的原理。博弈論的理性決策者之間沖突與合作的數學模型為人工智能算法模擬和分析戰略互動提供了一個框架。這種整合使人工智能能夠超越游戲,應用于現實世界的場景,如經濟建模、政治戰略和社會行為分析。

機器學習是人工智能的一個子集,專注于構建從數據中學習的系統,機器學習的集成進一步推動了人工智能的能力。強化學習等技術,人工智能系統通過執行動作和觀察結果來學習決策,在開發能夠在動態環境中適應和優化策略的人工智能方面發揮了重要作用。

人工智能在預測博弈論中的應用標志著另一個重要的里程碑。人工智能系統經過訓練,可以預測戰略場景中的結果,考慮眾多變量和潛在策略。事實證明,這種能力在金融和經濟等領域非常寶貴,在這些領域,預測市場趨勢和消費者行為至關重要。

隨著人工智能系統越來越善于制定戰略,出現了倫理方面的考慮,特別是在軍事戰略和監視等敏感領域的使用方面。隨著我們邁向未來,圍繞人工智能在戰略決策中的道德使用問題的辯論仍然是一個關鍵的討論。

人工智能在解決博弈論問題中的應用

人工智能在博弈論中的應用在很大程度上延伸到了經濟學和政治學領域。在經濟學中,人工智能算法用于模擬市場行為、模擬競爭性商業場景和優化定價策略。在政治學中,人工智能有助于模擬選舉策略、外交談判和沖突解決。

示例:市場分析中的人工智能 考慮一個簡單的市場場景,公司在價格上競爭。人工智能算法可用于模擬該市場并預測均衡價格。

在政治戰略方面,人工智能可以模擬選舉場景,考慮選民偏好、競選策略和媒體影響等因素。這些模擬有助于了解選舉政治的動態,并制定有效的競選策略。 、

機器學習與預測博弈論

機器學習是人工智能的一個動態子集,它大大增強了博弈論的預測能力。通過分析模式和學習數據,機器學習模型可以預測各種博弈論場景中的結果,為戰略決策過程提供有價值的見解。

在博弈論中,預測建模涉及根據歷史數據和概率算法預測玩家的行動和反應。神經網絡、決策樹和強化學習算法等機器學習模型擅長處理這些復雜的場景。它們可以處理龐大的數據集,找出可能無法立即顯現的模式和戰略,為戰略規劃提供預測優勢。

在商業競爭戰略領域,機器學習模型被用來模擬市場情景,預測各種戰略舉措的結果。例如,公司可以利用這些模型來預測競爭對手對新產品發布、定價變化或營銷活動的反應。這種預測能力使企業能夠更有效地制定戰略,在激烈的市場競爭中領先一步。

行為博弈論中的人工智能

人工智能(AI)在行為博弈論領域發揮著越來越重要的作用,行為博弈論是一門結合了經濟學、心理學和戰略決策學等元素的學科。人工智能在這一領域的貢獻圍繞著理解和預測博弈論背景下的人類行為,為個人如何在戰略情況下做出決策提供了新的視角。

行為博弈論傳統上依賴心理學見解來解釋為什么人們有時會在戰略博弈中做出非理性或意想不到的決策。人工智能,尤其是機器學習模型,通過分析大量的行為數據,加強了對這一問題的理解。這些模型可以識別人類決策中的模式和異常現象,而這些模式和異常現象在傳統分析中可能并不明顯。例如,人工智能有助于理解為什么人們在某些博弈中會偏離納什均衡,或者為什么他們會在經典博弈論預測會出現競爭的情況下進行合作。

考慮一下 "最后通牒博弈"(Ultimatum Game),這是行為經濟學中的一個標準實驗。如果第二個玩家拒絕這個提議,那么兩個玩家都將一無所獲。雖然傳統博弈論認為任何非零提議都應被接受,但人類玩家經常會拒絕他們認為不公平的提議。人工智能模型可以分析此類博弈的數據,預測在什么情況下提議有可能被接受或拒絕,從而深入了解人類的公平與合作觀念。

人工智能的預測能力在涉及復雜人類互動的游戲中尤其有用。通過分析類似游戲的歷史數據,人工智能可以預測玩家在未來游戲中可能的行為。這種能力不僅在學術上很有意義,在市場研究、政治競選和談判策略等領域也有實際應用。

人工智能在博弈論中的未來前景和潛在影響

展望未來,人工智能(AI)與博弈論的交匯蘊含著實現變革性突破的巨大潛力。人工智能技術的飛速發展與博弈論的深刻見解相結合,有望徹底改變各行各業和全球政治的戰略決策方式。

在戰略規劃領域,人工智能分析復雜情景和預測結果的能力將變得越來越復雜。我們可以預見,人工智能系統不僅能模擬商業和經濟領域的可能戰略,還能積極提出最佳行動方案。例如,人工智能可以預測市場波動并提出庫存策略建議,從而徹底改變供應鏈管理;人工智能驅動的交易算法可以預測市場變化并做出實時反應,從而改變金融市場。

在全球政治中,人工智能在博弈論中的作用可以為解決沖突和外交談判帶來開創性的方法。可以開發人工智能系統來模擬國際沖突,并根據歷史數據、當前的政治氣候和潛在的未來情景提出解決方案。這些系統可以協助人類外交官了解不同外交戰略可能產生的結果,幫助預防沖突和促進全球合作。

人工智能系統能夠在戰略規劃和談判方面勝過人類,這一前景帶來了令人興奮和充滿挑戰的可能性。在商業領域,這種人工智能可以談判合同、優化交易,甚至參與高層決策過程。然而,這也帶來了有關透明度、公平性以及人類判斷在關鍵決策過程中的作用等倫理方面的考慮。

結論:引領人工智能與博弈論的未來交匯點

當我們結束對人工智能(AI)與博弈論動態融合的探索時,我們顯然站在了戰略分析與決策新時代的懸崖邊上。從人工智能在戰略博弈中的歷史里程碑、先進的經濟應用、對人類行為的深刻洞察,到人工智能在博弈論中的未來猜想,我們描繪了一幅快速發展的圖景,其中蘊含著豐富的潛力,也充滿了挑戰。

回顧歷程: 我們的旅程始于對歷史的回顧,追溯人工智能從掌握國際象棋和圍棋等棋類游戲到解決經濟學和政治學中復雜博弈論問題的演變過程。這些里程碑不僅展示了人工智能日益增長的實力,也為人工智能更深入地融入戰略決策奠定了基礎。

人工智能在經濟和政治中的作用: 我們深入研究了人工智能在博弈論中的高級經濟應用,探討了人工智能模型如何徹底改變市場分析、消費者行為預測和競爭性商業戰略。在政治領域,人工智能在外交談判和沖突解決建模方面的潛力預示著未來人工智能將在維護全球和平與穩定方面發揮至關重要的作用。

人工智能視角下的人類行為:人工智能在行為博弈論中的探索揭示了人工智能如何促進我們對人類決策的理解。通過分析有關人類行為的大量數據集,人工智能已開始揭示我們如何在戰略背景下做出選擇的復雜性,為從實驗經濟學到社會心理學等領域提供了寶貴的見解。

猜測人工智能的未來影響: 展望未來,我們推測了人工智能在博弈論中的未來,并設想了可能改變行業、重塑全球政治以及重新定義戰略談判性質的突破。人工智能在戰略規劃方面超越人類的潛力既帶來了令人興奮的可能性,也帶來了重大的倫理問題。

平衡技術進步與倫理責任: 當我們擁抱人工智能和博弈論的進步時,我們也必須認識到其對倫理和社會的影響。在將人工智能融入戰略決策過程時,必須堅持透明、公平和維護人類判斷力的原則。人工智能在博弈論中的未來不僅關乎技術實力,還關乎用人工智能增強人類智慧,從而創造一個更具戰略性、更知情、更合作的世界。

用心創新,擁抱未來: 總之,人工智能與博弈論的交叉代表著一個充滿無限可能的前沿領域。它有望徹底改變我們處理和解決復雜戰略問題的方式,為理解和塑造我們周圍的世界提供新的工具。在我們前進的過程中,我們必須以審慎的創新態度對待這一前沿領域,確保人工智能和博弈論的進步能夠為更大的利益服務,并以道德原則為指導,深刻理解其對社會的影響。

參考來源:Enrique J. ávila Mu?oz

付費5元查看完整內容

來源:中國信息通信研究院   日前,在“2022可信AI峰會”上,中國信息通信研究院云計算與大數據研究所所長何寶宏正式發布并解讀了“2022 人工智能十大關鍵詞”。  

  關鍵詞一:大模型

  大模型技術創新和工程落地齊頭并進,掀起行業大模型落地熱潮。大模型的更新迭代速度不斷加快,開始從“可用”的基礎大模型轉向為“好用”的行業大模型。   在技術創新方面,大模型的網絡構建、模型訓練、算法調優等技術趨于成熟,持續提升其通用性和泛化性,已初步具備通用智能雛形。例如,近期開源的NLLB可支持200種語言的相互翻譯。   在工程落地方面,已初步形成大模型As a Service的應用模式,加速向互聯網、ICT、金融、政務等垂直行業滲透。為支撐應用方更便捷地開發和部署大模型,多家頭部企業發布了行業大模型及開發工具。     關鍵詞二:生成式AI

  生成式AI開辟AI創作能力,加速AI與數據要素深度融合。近幾年生成式AI的技術能力越來越成熟,可生成逼真且富有創意的多模態數據,形成自動寫作、代碼生成、數字人等典型的應用形態,已連續兩年入選《人工智能技術成熟度曲線報告》。   在技術方面,生成式AI借助生成對抗學習等技術,能夠生成更加真實、更有創意、更有趣味的內容。例如,2017至2022年,在圖片生成權威榜單上,真實度和趣味度綜合評分提升了近5倍。   在應用方面,生成式AI既是生產要素,也是生產工具。除了圖像生成以外,在寫作和編程等方面也取得進展。    關鍵詞三:AI4S(AI for Science)

  AI for Science在多個傳統科學領域取得重大突破。隨著人工智能技術的快速發展和大規模應用,AI在逐漸成為科學研究新的生產工具,AI4S將進一步釋放科學研究的生產力,促進人工智能的工程落地。   一方面,AI與傳統科學領域的深度融合,極大拓展該領域解決問題的能力,目前AI在生物、數學、材料、物理、基因、化學等基礎科學領域都取得了諸多成果和突破,并對科學研究范式產生了深刻的影響,例如,目前人工智能已經能夠預測幾乎所有的生物蛋白質的可能結構,被譽為人類在21世紀取得的最重要的科學突破之一,可能開啟“數字生物學”的新時代。   另一方面,傳統科學領域的進步和對AI技術的需求加速了AI本身的發展。當前產學研共同發力人工智能與科學的融合,產業界聚焦工具創新,開源工具和基于開源工具產生的創新成果呈爆發趨勢,AI4S的研究范圍也擴展到了更多基礎問題領域。高校和研究院聚焦算法和應用,用AI算法更好地將科學計算和物理模型相連接,進而指導科學與產業創新。    關鍵詞四:知識驅動AI

  知識驅動助力人工智能認知能力的提升,滿足人工智能深入各個行業不同應用場景的需求。隨著深度學習與知識圖譜等多重技術的深度融合,綜合利用大量知識數據中的因果和邏輯關系,可以助力人工智能認知能力的提升,來解決人工智能深入各個行業時場景復雜、可解釋性較低等問題。   在技術方面,知識和數據雙輪驅動的人工智能技術路線展現了強勁的發展潛力,知識的融合應用有效地提升了智能問答、智能推薦、大規模預訓練模型等人工智能技術中的效果。文心大模型、孟子大模型等均嘗試利用知識增強技術路線提升效果。   在應用方面,知識與人工智能的融合拓展了人工智能的應用范圍,促進形成知識凝練、知識流轉、知識賦能閉環,推動數字化發展下行業與企業各類知識的沉淀、流轉,顯著提升實際場景的智能應用水平。     關鍵詞五:超級自動化

  超級自動化已經成為企業即開即用、敏捷配置的數字化轉型工具箱。經過一年多的發展,超級自動化有了很多新的價值。在概念深化方面,中國信息通信研究院在今年發布的《超級自動化技術與應用研究報告(2022)》中首次對其主要概念進行了深入剖析和理解,認為“超級自動化是多種技術能力與軟件工具組合,覆蓋了自動化從需求發現到應用實踐的全流程”;在技術發展方面,機器人流程自動化、智能流程管理、低代碼應用平臺、流程挖掘等工具和平臺,銜接起了企業級各類復雜業務場景,其綜合應用、交互使能是超級自動化發揮效能的重要手段。   人工智能、大數據、云計算等技術作為底座,為超級自動化發展注入了源源不斷的強大動力;在應用拓展方面,政府和企業使用超級自動化技術開始呈現出全面爆發的狀態。例如,日本全面引入RPA實現政務的數字化轉型,據統計各級政府的引入率已經超過90%。同時,產業創新層面,領先的RPA企業都不再局限于RPA或流程挖掘等單點能力的輸出,而是圍繞信通院提出的超級自動化技術與工具體系,開始由點及面的建立起立體服務架構。    關鍵詞六:人工智能中臺

  人工智能中臺重塑企業智能化轉型的能力底座。隨著企業從重視人工智能的“研發”,到“研發-運營”并重,AI開發平臺也逐漸向AI中臺演進。   理念層面,AI中臺更加重視管理和運營,技術層面,AI中臺高度集約了AI能力,具有規模化、標準化、可擴展等特點。其中,規模化是指整合了豐富的人工智能開發、部署、測試、運維等能力,標準化是指將異構的軟硬件環境封裝為標準化的界面,可擴展是指可以不斷適配新的技術和工具,保證AI技術的動態演進。   通過與數據中臺、云平臺、業務中臺、運營平臺的打通,AI中臺正在加速融入企業的技術平臺體系中。當前階段,大型的行業企業正在積極構建AI中臺體系,通過高效的組織管理實踐,推動全場景全領域的AI賦能。    關鍵詞七:MLOps

  MLOps落地開花,AI資產沉淀和治理成為實踐新風向。隨著業界對人工智能研發效率、團隊協作、安全保障等需求進一步提升,整個MLOps產業實踐呈現出“內涵很明確、落地很困難”的現狀。   從技術內涵來看, MLOps的核心和要求已明確,即圍繞“一個基礎、兩個關鍵、三個提升”,逐步建設從需求、開發、交付到模型運營的全生命周期運營管理機制。一個基礎是指持續交付,通過搭建工廠流水線式的模型生產方式,提高規模化生產效率。許多頭部企業都已開始實踐模式的持續交付,部分企業模型研發效率提升超過40%。兩個關鍵是指持續訓練和持續監控,通過持續訓練和持續監控搭建高效閉環的運營管理體系,提高機器學習可觀察性,保證模型質量,增加賦能效果。   三個提升是指數據管理、特征管理、模型管理能力的提升。對數據、特征和模型等AI資產加以沉淀、安全管控和風險治理,提升企業級AI治理能力,已成為MLOps新風向。   從落地現狀來看,持續交付、持續訓練、持續監控和模型治理難度依次提升,產業界當前尚處在提升持續交付和持續監控能力過程中,模型治理等僅有少量探索,未來仍然是AI工程化的重點方向。   此外,MLOps的工具市場持續火熱,端到端的MLOps一體化工具和細分場景的專項工具都非常火熱,端到端工具追求大而全的功能集,專項工具在局部或某些場景下功能和性能較好,例如流水線編排、模型監控、特征存儲、可觀測等工具,未來MLOps相關工具可能會成為AI軟件市場的重要賽道。    關鍵詞八:人工智能新基建

  AI軟件設施加速新基建的賦能效應。自2018年新基建的概念提出以來,政產學研用多方主體發力建設人工智能基礎設施,AI新基建的內涵也在這個過程中逐步明晰。   AI新基建主要包括數據基礎設施、算力基礎設施和AI軟件設施。數據和算力基礎設施非常重要,但是如果沒有軟件設施作為連接樞紐,則難以充分發揮人工智能的賦能效應,支撐起豐富的AI應用和服務。   因此,AI軟件設施在近兩年成為產業焦點,AI開源框架生態、預訓練大模型體系、AI軟件平臺生態等內容都得到了長足的發展。   AI新基建的愿景是讓AI像水、電一樣成為觸手可得的普惠資源:政策層面,國家以及各行業的“十四五”規劃相繼對人工智能新基建提出指導意見,不斷推動新基建的落地應用;產業層面,頭部科技企業聯合地方政府,積極建設運營區域性基礎設施,不斷加速AI生態的培育。

  關鍵詞九:企業智能

  企業智能化建設手段與方法實現全新變革,逐漸向全場景、全流程、全層級深度融合應用轉變。隨著智能化技術的不斷發展和應用深入,企業智能建設從部分場景、外部維護、單點優化逐漸向系統化、全面化轉變,通過智能基礎設施和智能應用雙驅重塑企業智能化發展勢能。   一方面,企業建設完善人工智能中臺、知識中臺、大模型等智能基礎設施,筑牢了企業智能的底座、打造了企業的知識大腦、拓寬了企業的全新賽道,整體上夯實了企業智能化發展的根基。例如國有六大銀行、電力、石油等大型央企都已經建設了各類智能基礎設施,并依托該設施為企業的智能轉型提供支持。   另一方面,智能文檔處理、智能會議、知識管理、智能客服等各類企業智能應用不斷發展,全面賦能企業辦公、管理、決策、風控、營銷、服務等各個環節,促進業務的數據化與知識化、工作流程的信息化與智能化。智能基礎設施和智能應用相輔相成,智能基礎設施促進智能應用的敏捷高效,智能應用助推智能基礎設施底座的升級優化,共同推動企業智能化的加速發展。    關鍵詞十:可信落地

  可信AI由理論研究邁向工程化落地。隨著人工智能技術的快速發展,社會各界對可信AI研究已經從理論探索逐步走向工程化落地實踐。政府與研究機構相關政策和規范從宏觀指導,開始向可操作、可落地的規范演進。在法律監管層面,各政府部門的法規政策愈發重視實施和操作。例如新加坡于5月出臺世界首個AI治理測試框架及工具包;英國6月宣布首個人工智能倫理和監管的重大研究計劃。   在行業可信實踐層面,各國研究機構紛紛開展可信AI技術研究及標準制定工作,為業界提供評估準則并聚焦準入落地。如英國BSI與艾倫圖靈實驗室合作開發技術標準改善人工智能治理,美國NIST發布《人工智能偏差識別和管理標準》和《AI風險管理框架(草案)》,為企業和機構的AI風險管理提供了大量可參考的要求和指導。   在企業可信實踐層面,產業界從企業戰略管理和技術工具研發創新雙線并進,加速了可信AI在企業的落地實踐。如頭部科技企業先后發布了AI治理戰略和治理體系,成立了相關委員會和工作組,聚焦企業層面的AI治理和風險管理體系。同時可信AI技術和保障工具也在蓬勃發展,各大企業積極研發可信產品應用,也開源了一批聚焦隱私性、魯棒性、安全性、可解釋性、公平性等可信能力的測試工具。

《人工智能白皮書(2022年)》發布

人工智能技術是釋放數字化疊加倍增效應、加快戰略新興產業發展、構筑綜合競爭優勢的必然選擇。縱觀全球,國內外人工智能相關不斷強化,持續推動釋放人工智能紅利;以深度學習為代表的人工智能技術飛速發展,新技術開始探索落地應用;工程化能力不斷增強,在醫療、制造、自動駕駛等領域的應用持續深入;可信人工智能技術引起社會廣泛關注。人工智能治理受到全球高度關注,各國規制進程不斷加速,基于可信人工智能的產業實踐不斷深入。

近日,中國信息通信研究院正式發布《人工智能白皮書(2022年)》,全面回顧了2021年以來全球人工智能在政策、技術、應用和治理等方面的最新動向,重點分析了人工智能所面臨的新發展形勢及其所處的新發展階段,致力于全面梳理當前人工智能發展態勢,為各界提供參考,共同推動人工智能持續健康發展。

**政策層面,**國內外不斷強化人工智能的戰略地位,推動釋放人工智能紅利。**技術及應用層面,以深度學習為代表的人工智能技術飛速發展,新技術開始探索落地應用;工程化能力不斷增強,在醫療、制造、自動駕駛等領域的應用持續深入;可信人工智能技術引起社會廣泛關注。與此同時,治理層面工作也受到全球高度關注,各國規制進程不斷加速,基于可信人工智能的產業實踐不斷深入。 **人工智能開始邁入全新階段

白皮書認為,未來人工智能除了重視技術創新以外,還更加關注工程實踐和可信安全,這也構成了新的“三維”發展坐標,牽引人工智能技術產業邁向新的階段。

付費5元查看完整內容

來源:中國人工智能學會,文 / 梁吉業

0 引言

從微觀世界粒子的相互作用到宏觀世界人的社交,從自然生態系統中的食物網到人造互聯網中的鏈接,事物間的關聯可謂無處不在。圖論起源于歐拉對“哥尼斯堡七橋問題”的研究,是建模事物間關聯的有效工具。在大數據時代,事物及其關聯前所未有地以數據的形式被記錄和收集,具體體現為圖數據。圖數據,即包含圖的數據,其中圖的節點代表事物,邊代表事物間的關聯。進一步地,事物及其關聯往往具有特定的性質,這些性質在經典的圖論中是被忽略的。

圖數據分析在生物制藥、智能交通、電子商務、疫情防控等領域發揮著極其重要的基礎性作用。圖機器學習,即從圖數據中學習,是圖數據分析的核心方法(見圖1)。

圖機器學習與網絡科學(也稱為“復雜網絡理論”)相關但又不同。首先,網絡科學研究的對象是圖,其中的節點和邊都是抽象的;而圖機器學習研究的對象是圖數據,其中的節點和邊往往包含特定的性質。此外,網絡科學側重于發現和度量網絡本身的性質,以及闡釋這些性質產生的機理;而圖機器學習則側重于完成諸如分類、回歸、聚類等學習任務。

與傳統的機器學習相比,圖機器學習以圖數據為研究對象并將事物間的關聯作為重點考慮因素,打破了傳統機器學習獨立同分布的基礎假設,將引發新的學習理論和范式。

本文從基于構圖的機器學習、基于圖表示的機器學習和圖機器學習應用三方面介紹圖機器學習的前沿進展,并對未來可能的研究問題進行展望。

簡介

梁吉業

計算智能與中文信息處理教育部重點實驗室主任、山西大學教授。主要研究方向為數據挖掘與機器學習。CAAI 知識工程與分布智能專委會副主任,CAAI Fellow。

1 基于構圖的機器學習

機器學習的目標是從數據中挖掘有價值的信息,而數據的質量對學習結果的好壞具有重要影響。如何利用低質量數據進行有效的學習是機器學習領域一個重要的研究問題。

在圖機器學習中低質量數據問題包含兩個層面,一是描述事物性質的數據是低質量的;二是描述事物間關聯的數據是低質量的。其中第一個問題與傳統機器學習所面臨的低質量數據問題具有高度相關性,在此不進行展開分析;第二個問題是圖機器學習特有的問題,也是本文關注的重點。圖數據中圖結構的建立可以分為兩類,一類是天然存在的圖;另一類是通過數據驅動的方法構建的圖。這兩類圖在一定程度上都存在低質量問題。

1.1 低質圖的質量提升

在一些實際應用中,圖是天然存在的,可以直接作為圖機器學習的輸入。然而這些圖的質量是無法保證的,其中可能包含對學習任務無關、甚至有誤導性的關聯信息。例如在科學引文網絡分析中,跨學科的文獻引用是學科交叉研究的體現,但這些引用關系對于將文獻按學科分類是不太相關的;在網頁搜索時,一些重要內容的鏈接會被人為篡改并指向惡意網頁,這些鏈接對于網頁排序是有害的。

針對低質的圖結構信息,一種直接的思路是檢測并修正圖中對學習任務不利的關聯信息,從而提高學習方法的泛化能力。然而,如何度量圖中關聯信息的好壞是一個具有挑戰性的問題,往往涉及到數據分布與具體學習任務的特性,在大部分情況下只能通過具體學習任務的成功與否進行事后評價。另一種可行的思路是將圖的修正也作為一個子學習任務并與具體的學習任務納入統一的學習過程,動態地修正圖中不利的關聯信息,同時提高學習模型的性能。

1.2 數據驅動的構圖

還有一些實際應用中,圖并非天然存在,此時需要從數據中構建圖。

傳統的構圖方法利用節點的屬性信息直接計算出圖,例如近鄰構圖、高斯核加權構圖等。此類方法的優點是簡單、高效,然而由于沒有考慮數據本身的特性,因此難以反映數據真實的分布信息。另一類方法通過構建優化模型從數據中學習圖,例如基于距離度量的方法,其建模的基本準則是樣本間距離越小對應連邊權重應該越大;基于數據表示的方法利用樣本間表示系數度量連邊的權重。此類方法可以較好地挖掘數據分布信息,但圖的質量嚴重依賴于建模時采用的數據分布假設的正確性。上述兩類構圖方法都獨立于具體的學習任務,因此難以滿足具體學習任務的需求。數據驅動的構圖通常面臨兩方面的挑戰,第一,好的圖應真實反映數據的分布信息,然而在實際中數據的分布通常是未知的、復雜多樣的;第二,圖質量的好壞通常是針對學習任務而言的,不同學習任務的需求是各異的。

在實際應用中,上述兩個挑戰往往同時存在。針對這一問題,動態構圖的方法被提出,此類方法將構圖與具體學習任務整合在同一個模型中,通過同時優化圖和學習任務的解來進一步提升學習方法的性能。2021年,Liang 等提出一種自適應構圖方法1,在自適應挖掘數據分布信息的同時兼顧具體學習任務的需求。該方法通過生成多個不同的聚類結果用來捕獲復雜、多樣數據分布信息,并將其權重和具體學習任務整合到一個優化問題中,實現二者的相互指導和動態提升。這種自適應構圖的方法在圖半監督學習和圖嵌入降維兩種學習任務中取得了明顯效果。

2 基于圖表示的機器學習

作為銜接圖數據和下游任務的橋梁,圖表示學習是進行各類圖建模任務的關鍵環節。現有的圖表示學習大致分為傳統的圖嵌入方法和新興的圖神經網絡方法兩大類。

2.1 傳統圖嵌入方法

在過去的幾十年間,傳統圖嵌入方法取得巨大進展,涌現了大量工作,如譜聚類、基于圖的降維、DeepWalk、LINE、PTE及node2vec等。這類方法的核心思想是將圖結構信息轉化為低維稠密的向量。這些低維的向量表示能夠保留圖的多種類型信息,如節點的鄰域信息、節點的結構角色和節點狀態等,從而使得其表示具有一定的可解釋性,同時使得快速高效的算法設計成為可能,而不必再去考慮原本的圖結構。2018年,Qiu等基于矩陣分解框架統一了傳統的圖嵌入方法2 ,概括了眾多經典圖嵌入方法在矩陣分解視角下的形式及作用機理。然而,傳統的圖嵌入得到的仍是“淺層”表示,且面臨節點屬性選擇、可擴展性、嵌入維度選擇等挑戰。2020 年《美國國家科學院院刊》(PNAS)的一項研究表明,在某些情況下,基于矩陣奇異值分解的傳統圖嵌入方法無法準確地捕獲復雜圖中的局部結構,對既稀疏又具有高聚類系數的圖難以獲得有效的嵌入表示。可見,傳統圖嵌入方法并不能很好適配復雜的圖數據分析場景。

2.2 圖神經網絡方法

近年來,圖神經網絡作為一種新型的圖表示學習工具迅速崛起,其理論與方法的研究現正處于爆發期。如何構建具有較好表示學習能力的圖卷積,從而有效獲取圖數據的“深層”抽象信息,已經成為圖神經網絡領域的研究熱點。現有的圖卷積方法可分為譜方法和空域方法兩類,譜方法基于卷積定理及譜圖理論來定義圖卷積;而空域方法從節點域出發,通過定義不同的消息傳遞函數來實現中心節點和其鄰近節點的信息聚合及更新。Bruna等于2014年首次給出了譜圖卷積的定義3,提出了基于譜方法的圖神經網絡模型,同時也指出了譜圖卷積的高計算復雜性等問題。后續有關譜方法的研究通常圍繞如何構造圖上的正交基(如Haar基、小波基)、如何實現快速正交變換等問題來設計不同的譜圖卷積。空域方法則是類似歐式空間CNN卷積操作,通過設計不同的節點信息聚合及更新函數來完成節點間的消息傳遞,實現結構信息與節點特征信息的融合及抽象。實質上,不管是譜方法還是空域方法,構造圖卷積的關鍵在于尋找節點信息聚合和更新的空間(頻域/時域)及方式(濾波 / 聚合)。換句話說,譜方法在頻域內做圖信號濾波,空域方法在時域內做信息聚合,殊途同歸。2017年Kipf等提出的GCN模型就是典型的例子4 ,從譜方法視角看其卷積運算是對ChebNet形式的簡化,而從空域角度看其等價于1階近鄰節點的消息傳遞。

目前,關于圖神經網絡的圖表示學習的研究,大多聚焦于大規模圖數據分析與深層圖神經網絡模型構建兩個方面。一方面,很多實際應用領域中的圖數據規模超大,含百萬甚至千萬級節點,這對圖神經網絡模型的高效計算帶來了巨大挑戰。現有的研究通常基于圖采樣、圖粗糙化、子圖構建等策略,主要用來降低圖神經網絡處理大規模圖數據的時間及空間代價。然而,這些方法通常也面臨鄰域選擇的不確定性、采樣帶來的冗余計算,以及采樣偏差、子圖表示的信息丟失等問題。另一方面,面向復雜的大規模圖數據,淺層圖神經網絡模型的表示能力有限,通過簡單地堆疊圖卷積模塊構建的深度圖神經網絡模型表現出弱于淺層模型的表達能力。因此,探索現有圖神經網絡加深后出現的性能退化機理是目前亟需解決的痛點和難點問題。

基于圖神經網絡的圖表示學習是當前圖機器學習領域的一個熱門研究方向,除了上述在大規模圖數據和深層網絡構建方面的進展外,還有很多值得深入研究的問題。例如,圖神經網絡如何在弱監督環境下進行表示學習、如何從攻防兩方面開展圖神經網絡對抗魯棒性的研究、如何可視化圖神經網絡的結構模式并對其進行可解釋性分析、如何融合拓撲結構和節點特征設計圖池化算子等。此外,實際應用中的異質圖、多維圖、符號圖、動態圖和超圖等復雜圖同樣為圖神經網絡的表示學習研究帶來了很大的挑戰。

值得注意的是,基于構圖的機器學習與基于圖表示的機器學習并非是分離的,已有研究嘗試將二者結合,以實現構圖、圖表示與下游圖任務的端到端學習。

3 圖機器學習應用

近年來,圖機器學習在計算機視覺、自然語言處理、網絡數據分析、推薦系統、交通預測和生物化學等領域取得了很多成功的應用。總體而言,這些應用呈現出三個趨勢。

3.1 面向特定領域的圖機器學習

相比僅關注事物性質或僅關注事物間關聯的方法,圖機器學習提供了更強大的建模能力,因此在特定的領域可以發揮更大作用。例如,在推薦系統中,圖神經網絡能夠更好地整合用戶與產品的屬性信息及其交互信息,進而學到精準的用戶偏好特征,以提升推薦效果;在鏈接預測中,圖機器學習為融入節點和邊的屬性信息提供了方法,因此可以提高預測質量并完成冷啟動預測任務,而這一任務僅利用網絡拓撲信息是不能有效完成的。

3.2 面向復雜場景的圖機器學習

傳統的機器學習如分類、回歸旨在學習并預測事物的性質,較少涉及事物間的關聯。然而,在某些復雜的應用場景中,事物間關聯是解決問題的核心。因此,需要用圖建模事物間關聯并將其作為學習目標。以圖像描述(Image Caption)這類復雜任務為例,其難點是不僅要檢測出圖像中的語義目標,而且要理解這些語義目標之間的相互關系,最后還要用合理的語言表達出來。相比于簡單的圖像分割、目標識別任務,圖像描述需要對圖像進行更高層次的理解。類似的任務還包括自然語言處理中句法依存樹的生成、知識工程中知識圖譜的自動構建等。

3.3 融入知識的圖機器學習

知識是由各種概念構成的。以概念為節點,以概念間的關聯為邊便構成了知識圖譜。經過多年發展,目前已經積累了大量的領域知識圖譜和世界知識。借助圖機器學習,這些以圖形式表示的知識可以方便地參與到學習過程中,從而提升學習方法的性能和可解釋性。例如在機器閱讀理解任務中,領域知識圖譜可以與圖神經網絡模型有效結合,從而提高機器閱讀理解系統的推理能力與可解釋性。

除了上述三種趨勢外,圖機器學習也在不斷地應用到新的領域,例如組合優化、程序分析和醫療健康等。

4 展望

雖然圖機器學習在近些年取得了重要進展,但作為一個新興領域,其仍然存在很多開放性的問題有待進一步探索。

從理論研究層面看,當數據間的關聯作為重點考慮的因素時,傳統機器學習采用的獨立同分布假設將不再適用,以之為基礎的傳統學習理論也將不再適用,因此需要建立新的圖機器學習理論。

從方法研究層面看,大部分現有的圖機器學習方法本質上是將圖數據嵌入到歐氏空間并在歐氏空間完成學習;然而圖數據本身并非歐氏空間數據,因此需要發展可以直接處理圖數據的機器學習方法。

從應用研究層面看,圖機器學習將在需要重點關注事物間關聯的應用場景(如電子商務、智慧交通、疫情防控等)中發揮更大的作用;同時由于考慮了事物本身的特性及其復雜的關聯,將圖機器學習方法用于自然科學和社會科學中大量存在的圖數據,將促使新的科學發現,加快科學研究的進展。

(參考文獻略)

1 //link.springer.com/article/10.1007%2Fs10994-021-05975-y 2 3 4

付費5元查看完整內容

技術側的突破和產品創新是過去幾年中國企業轉型的核心驅動力。因為多數甲方企業的數字基建仍未完成,亟需依靠成熟的技術組織(包括技術供應商、企業IT部門、研究院)發起創新,推動探索和實驗,經歷反復試錯,才能在一些局部實現數字化升級。

但當數字化轉型進入深水區,越來越多技術購買者發現,單-的產品和技術創新已經越來越難以滿足更加系統和復雜的轉型需求,而無論是產品技術型供應商還是轉型咨詢服務商,都缺少足夠能力和意愿與客戶做更深層的聯合探索。

易觀分析認為,無論出于內生需要還是外在形勢,業務部門都將再次走向前臺,擔負起引導技術組織共同實現企業數字化價值的責任,并被賦予更大的轉型話語權。

2022年,云原生、RPA、 低代碼、微服務、自動化機器學習平臺等低門門檻的數智化平臺和工具將加速被企業客戶所認可和采用,背后原因是企業必須顯著降低數字化賦能業務組織的技術門檻,才能讓掌舵轉型的業務團隊“武裝起來”,進而讓創新有機會由點及面,全面發生。

在這個過程中,技術創新回歸業務主線,技術應用立足業務增長,是大勢所趨。中心化的技術團隊也會逐漸去中心化,打散在各個業務條線,成為業務端主導轉型的組成部分。

付費5元查看完整內容
北京阿比特科技有限公司