文 / 孫凌云,潘越
摘 要:
本文介紹了大模型在設計領域帶來的變革。首先探討了大模型如何開啟大知識,并分析了由此產生的新趨勢;然后,從設計對象多樣化和設計方法與模式變革兩個角度,探討了大模型帶來的設計機遇與挑戰,并分析了大模型時代下個體所需的新能力。 關鍵詞:
人工智能;大模型;GPT 技術;設計
0 引言
2022 年 11 月,ChatGPT 將人工智能(AI)大模型帶入了公眾視野。其中,Chat 代表該產品采用聊天對話的交互形式,允許任何用戶使用自然語言提出問題或表達需求;GPT 是 Generative Pre-trained Transformer的縮寫,Transformer 技術作為大模型的標志性底層技術,由 Google 在 2017 年推出。ChatGPT 發布時基于 GPT-3.5 模型。2023 年 3 月,GPT-4 模型發布;同年 11 月,OpenAI 開放了 GPTs,使用戶能夠通過自然語言指令構建 GPT 應用。2024 年 1 月,GPT Store 正式上線。目前,OpenAI 已開放了 GPT-4V(視覺)、 Code Interpreter(代碼)、DALLE-3(圖像)、TTS(文本到語音)的 API(應用程序接口)。
2024 年,大模型的發展呈現出百家爭鳴的局面,一方面,不同公司推出的通用基礎大模型和行業大模型不斷實現技術突破和能力更新;另一方面,將大模型技術轉化為創新應用的探索,在不同產業和垂直領域中仍然熱度不減。
隨著大模型技術和生成式人工智能的爆發式發展,設計領域也經歷了深刻的變革。設計對象變得更加多樣化,設計方法和模式的變化推動了設計范式的結構性轉變。這為設計領域帶來了前所未有的機遇,使設計的角色和重要性更加突出,同時也產生了伴隨轉型的種種挑戰。
在大模型的發展背景下,本文首先闡述了大模型技術如何開啟大知識,帶來了人機協作的新工作模式、智能物種的大爆發和科技進步加速的新趨勢;接著,從設計對象和設計方法兩個維度,介紹了大模型對設計領域帶來的宏觀變化;最后探討了大模型時代對個體能力提出的新要求。
1 大模型開啟大知識
1.1 大模型背后的大數據
ChatGPT 成為互聯網歷史上最快突破 1 億月活躍用戶的應用之一,這歸功于其在上線之初就展現出的超越大眾當時認知的自然語言理解、生成和交互能力。通過聊天機器人的界面,ChatGPT 展示了多種能力,包括建模歷史對話、保持對話語境的連續對話能力;從復雜內容中提取關鍵信息、歸納總結主題和意義的抽象概括能力;理解人類指令意圖、模擬相應角色的語言模式及潛在知識來生成回復、執行任務的角色扮演能力;拆解問題、逐步求解的邏輯推理能力;根據用戶反饋優化答案的更正錯誤能力;以及根據用戶指令與問題描述生成程序代碼的代碼生成能力等。與 ChatGPT 相比,升級版GPT-4 不僅在各項能力上取得了顯著進步,還支持輸入圖像和文本,表現出強大的圖像理解能力,實現了從單模態大模型到多模態大模型的突破。
ChatGPT 所展現的強大綜合能力離不開其前所未有的訓練數據規模。這是因為預訓練的本質可認為是由大規模數據集驅動的規律發現與學習過程。從 GPT-1 到 GPT-3,訓練數據量從 4.6 GB 增長到了753 GB。主要模型數據集中的維基百科數據集、書籍、雜志期刊、Github 代碼等為大模型帶來了豐富的客觀知識、故事講述與反應能力,以及語言生成的嚴謹性和邏輯推理能力。同時,從 GPT-1 到 GPT-3,模型參數量也從 1.17 億增加到 1 750 億。OpenAI 并未公布訓練 ChatGPT 和 GPT-4 的數據集來源和規模,但我們不難想象它們在數據模態和量級上的進一步突破。
在生成式人工智能領域,另一個代表性模型是由 Stability AI 于 2022 年 8 月發布的文本生成圖像模型 Stable Diffusion。Stable Diffusion 能夠根據用戶提供的文本生成高質量的圖像,其能力突破同樣得益于背后數十億訓練圖像數據的支持。
1.2 大模型開啟大知識
海量訓練數據使得大模型實現“讀書破萬卷,下筆如有神”。除了前文提及的能力突破之外,我們認為大模型的另一大貢獻還在于大模型開啟了大知識。本文將大模型開啟大知識的主要特征歸納為三點——龐大的知識空間、知識表示和調用方式的更新,以及知識空間的可擴展性與大模型能力的可延伸性。
(1)龐大的知識空間 通過學習大量的人類知識,大模型形成的知識空間在規模上超越了任何單一個體。例如,以ChatGPT 為代表的大語言模型(large language model,LLM)通過對人類自然語言知識空間的大量語料進行學習,發展出了近似人類水平的自然語言理解與生成能力,并積累了豐富的世界知識。自然語言一直是記錄和傳遞人類知識的主要方式之一,大量的人類知識通過自然語言這種形式化的手段得到了傳承和發揚。然而,自然語言并非承載和表達知識的唯一手段,通過語言和文字傳遞的知識只是人類集體知識的一部分,還有人類心智模型、經驗知識等難以用特定形式精確表述的隱性知識。對于語音、視覺、紅外、3D 點云等多模態信息,現有的視覺大模型和多模態大模型已展現出一定的處理能力。隨著全體人類知識的擴展和人工智能技術的發展,大模型的知識空間將愈發龐大。
2)知識表示和調用方式的更新 ChatGPT 等大模型的能力突破,使得自然語言成為新的“知識表示和調用方式”,允許任何用戶使用自然語言來提出問題和表達需求。與互聯網中通過搜索引擎使用關鍵詞進行信息檢索的方式相比,這種獲取知識的方式更加自然。通過使用自然語言與大模型進行交互,每個個體的智慧得以與大模型的知識空間相互碰撞和激發。這種知識表示和調用方式的更新,為人類文明積累的海量知識打開了新的窗口。另一方面,在多模態大模型中,自然語言也將成為通用接口,使用戶能夠更直觀、易用地控制和編輯大模型的內容生成。
(3)知識空間的可擴展性和大模型能力的可延伸性 一方面,大模型內部的知識空間會隨著版本的更新得到擴充和更新。另一方面,可以將現有的各類基礎大模型作為基座,通過引入和融合外部知識庫,實現大模型知識空間與外部知識庫的協同。在特定領域的模型應用方面,利用專業知識庫對通用領域的預訓練大模型進行相應領域的知識微調適配,將催生出越來越多適用于不同場景和領域的大模型創新應用。
1.3 通用人工智能的火花
2023 年 3 月,GPT-4 發布,其在多個領域的表 現接近人類水平,被視為通用人工智能(artificial general intelligence,AGI)的早期(但是仍不完整的)版本。同年 4 月,中共中央政治局會議首次提出重視通用人工智能的發展。2023 年 11 月,Google DeepMind 團隊提出評估通用人工智能的六個關鍵原則,并進一步得到了 人工智能的系統分類方法,包括: ●Level 0(無人工智能) ●Level 1(涌現,相當于或略優于未受專門訓練的普通人) ● Level 2 (勝任,至少達到熟練成年人的 50%水平) ● Level 3(專家,至少達到熟練成年人的 90%水平) ● Level 4(大師,至少達到熟練成年人的 99%水平) ● Level 5(超人,超越所有人類的表現)
在此基礎上,研究人員對現有人工智能系統進行了評估。其中,ChatGPT、Llama 2、Gemini 尚處于 Level 1(涌現)階段。
2024 年 2 月,OpenAI 推出了文生視頻大模型Sora。其在視頻生成領域的能力突破,再次引發了外界的廣泛討論。同年 3 月,Anthropic 發布了 Claude 3系列大模型,性能超越 GPT-4。隨著大模型不斷發展,其對包括設計領域在內的各領域影響日益增大。
2 大知識帶來的新趨勢
大模型開啟“大知識”。以此為特征的大模型能力突破將在各個領域引發新的變化,本文將主要趨勢概括如下。
2.1 人機協作的新工作模式
過去在討論人機關系多元化時,人們常常根據計算機人工智能技術的局限性來界定人與計算機的關系。例如,在設計領域,設計師與人工智能的關系可能被分類為主仆關系、助理角色、師生關系或合伙人角色等。然而,隨著大模型的興起,人工智能在人機協作中的角色和作用變得更加顯著,催生了人機協作的新工作模式。這種模式有望大幅提升生產效率,并降低運營成本。
舉例而言,設計師可以利用文生圖大模型來優化涉及圖像生成的工作流程。一些設計師在 Stable Diffusion 的用戶界面 ComfyUI 中結合 LCM 模型(latent consistency models)來完成故事板的繪制任務,通過簡單操作就能讓人工智能快速生成分辨率達標、符合故事板需求的圖像。在建筑設計方面,設計師繪制線稿草圖后,大模型可以基于這些線稿實時生成多組潛在的建筑效果圖,使設計師能夠更動態及時地對設計進行調整。此外,設計師還可以利用大模型的龐大知識庫來獲取知識支持、靈感啟發和技術支持,以逐步完成涉及大量知識的設計任務。例如,有團隊通過與大型模型逐步對話,一步步明確設計概念和設計空間,并最終細化到包括軟件、材料選擇、結構設計和制造方法在內的技術設計規范,從而完成了番茄采摘機器人的設計。
2.2 智能物種大爆發
如前文所述,經過特定領域的知識微調適配后,大模型將催生越來越多的垂直領域創新應用。這已經在教育、科研、編程、商業、設計等領域帶來了許多更新、更智能的應用與服務,并且將帶來更多可能性,迎來智能物種的大爆發。 一方面,由人工智能驅動的新形態產品、應用和服務將不斷出現,更好地滿足不同用戶的需求。例如,智能代理(AI Agent)近來愈發受到關注,它能理解用戶的指令,并在多變的環境中自主有效地完成任務。在人工智能硬件新物種方面,2023 年11 月發布的 AI pin 和 2024 年 1 月發布的 Rabbit R1 展示了人工智能實體化的初步形態。
另一方面,現有(成熟)產品或物種在大模型的驅動下,將展現全新的面貌。例如,“智能手機” 開始向“AI 手機”轉型,“個人計算機”向“AI PC”轉型。各大廠商正意欲通過人工智能重新設計手機和 PC 的體驗。在稍遠離日常生活的領域,人形機器人也在經歷變革。2023 年 11 月,工信部印發《人形機器人創新發展指導意見》,提出人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,重塑全球產業發展格局。人形機器人的研發是一個軟硬件一體的過程,大模型相當于為機器人提供了“大腦”,提升了機器人的通用能力、學習能力,進而增強了其環境感知、行為控制、人機交互等能力。隨著人形機器人技術的加速發展,它們能更好地在與真實世界的交互中收集人類數據,利用大模型處理數據,并利用數據繼續訓練人工智能。這被認為是推動通用人工智能研究的一種可能途徑。圖 1 示出了大模型垂直領域創新的一些應用。
圖 1 大模型垂直領域創新應用舉例
2.3 科技進步加速
AI for Science,即“人工智能驅動的科學研究”,是由鄂維南院士在 2018 年提出的科學研究新范式。
這一范式強調利用人工智能技術解決科學研究中的數據分析等難題,借助機器學習在高維問題上的表示能力,刻畫復雜系統的機理,創造科學模型,從而更高效、更具實用性地解決實際問題。結合以大模型為代表的新一代人工智能技術的能力飛躍,這一范式將進一步加速科技進步。具體而言,在大模型出現之前,從理論研究到產品的落地轉換通常需要 20 余年。而在 AI for Science 的驅動下,這一周期可以縮短至 5 年左右。
未來學家 Peter Diamandis 曾在 2020 年預測,未來 10 年人們經歷的科技進步將超過過去 100 年的總和,每個行業都將得到重塑。麥肯錫在 2021 年的技術趨勢報告中指出,包括應用人工智能在內多個領域的技術儲備已處于爆發的前夜,它們將重塑健康與材料科學、能源、交通等眾多行業和領域。在2024 年,人們已經切身體會到過去幾年科技飛速發展帶來的效應,尤其是在人工智能應用廣泛的領域。
設計的核心任務之一是將各種前沿科技進展轉化為實際產品。如果未來 10 年的科技進步將超越過去 100 年的總和,那么未來 10 年甚至更短時間內的設計創新也將超過之前 100 年的總和。這將為設計領域帶來巨大的空間和機會。
3 設計領域變革
隨著人工智能技術的飛速發展,設計的邊界不斷拓寬,成為與人工智能、大數據、云計算等前沿技術深度融合的領域及跨學科實踐載體。在ChatGPT 推出前,關于智能時代的設計的討論已經呈現出日益廣泛的趨勢。2022 年 8 月,浙江大學與阿里巴巴聯合發布的《產業數智化設計白皮書》指出,我國創新設計正在全面從以“計算機輔助設計” 為代表的“數字化”時代,邁入“數智化”時代。數智化技術已滲入設計活動各個階段,在設計資產逐步數智化的同時,數智化設計已展現出比傳統設計更卓越的能力。白皮書將洞察力、敏捷力、協同力視為數智化設計的特征能力。隨著大模型開啟“大知識”,設計領域正在經歷新的變化。本文將從設計對象和設計方法這兩個宏觀層面出發,介紹大模型帶來的設計領域變革。
3.1 設計對象多樣化
下面將從人工智能技術作為設計對象的能力變化、大模型帶來的交互邏輯更新,以及智能物種的爆發趨勢三個方面來探討大模型帶來的設計對象多樣化。
(1)人工智能作為設計對象和材料的能力突破與多樣發展 人工智能的能力從低于人類逐漸向接近人類、高于人類發展。ChatGPT 發布后,人工智能領域的相關進展似乎也被按下了加速鍵。2023 年 3 月, Google 發布了具身化多模態語言大模型 PalM-E,它將機器人任務和視覺語言任務通過一個共同的表示形式組合在一起,實現了對不同模態(狀態和 / 或圖像)的多模態語言建模處理。同年 4 月,Meta 發布了 Segment Anything Model(SAM),能夠自動分割圖像中的所有物體,或是根據提示詞分割相應物體,是計算機視覺和圖像領域的重大突破。人工智能技術的能力突破與多樣發展,豐富了設計對象的種類,將在不同領域催生設計創新,進而推動行業重塑。
(2)大模型交互方式和交互界面成為新設計對象 目前,數字產品普遍配備圖形用戶界面(graphical user interface,GUI)。用戶通過鼠標、鍵盤、屏幕等與圖形界面進行交互。ChatGPT 以對話機器人的形式,發展為生產力工具,顯示出對話式用戶界面(conversational user interface,CUI)和語言用戶界面(Language user interface,LUI)在大模型賦能下的巨大潛力。一方面,大模型本身,以及由大模型驅動的創新數字應用的交互方式和交互界面成為新設計對象。另一方面,在大模型驅動下,數字空間、物理世界、人類空間的三元空間將更加融合。各行各業的產品的交互邏輯迎來了優化重塑的巨大空間。在包括虛擬現實、增強現實、混合現實、空間計算在內的虛實融合的用戶體驗中,自然用戶界面(natural user interface,NUI)的交互邏輯、交互方式和界面設計也成為設計領域的新方向和設計對象。
(3)智能物種大爆發帶來設計機會大爆發 如前文所述,大模型將帶來智能物種爆發與科技進步加速。這為設計領域帶來了巨大的空間和機遇,因為設計既承擔著將各種前沿科技進展轉化為實際產品的重要任務,也扮演著為新技術帶來的新挑戰提供新方案的關鍵角色。智能物種在豐富人們的體驗,拓寬人們的想象邊界的同時,也不可避免地會引發用戶在接受新習慣與保持固有習慣之間的矛盾、技術適應等摩擦,這也將成為未來設計的新議題和新對象。
3.2 設計方法與模式變革
大模型將重塑所有設計方法與工具,在降低設計行業門檻的同時,也提升了設計的天花板。本文將這背后的設計方法與模式變化歸納為以下三點。
(1)大模型開啟大知識,為設計過程提供系統化的知識支持 一方面,從頭腦風暴、需求挖掘、文案處理到用戶調研,大模型的知識空間、自然語言能力和多模態信息處理能力將為設計中的各環節提供支持。例如,用戶畫像常應用于用戶需求分析。近年來,使用人工智能處理用戶數據的自動化用戶畫像生成(automatic persona generation,APG)方法,已經在產品市場營銷和企業推廣等活動中得到應用。在大模型的支持下,APG 方法將更高效地從大量的用戶數據中提取、融合有效信息,更精準地生成用戶畫像。另外,在概念創新設計的早期階段,人類設計師可以利用大模型能力驅動的智能設計工具,通過引入外部知識,獲得靈感激發,防止設計固化現象。此外,在前文曾提及的番茄采摘機器人的設計中,大模型則為從產品意義梳理、設計空間定義到原型設計的全流程提供了全面的知識支持和技術指導。
另一方面,以往設計師需要特定的設計工具來支持特定的設計任務,而隨著 OpenAI 推出 GPTs,用戶可以根據當下的需求和偏好來定制服務于特定任務的智能代理。在定制頁面里,用簡單的自然語言,比如“我要生成用于產品趨勢分析的 GPT”,在系統的引導下逐步明確需求和風格,就可以生成勝任特定任務的 GPT。在 GPTs 剛發布時,就有人用不到 1 min 的時間創建了一個名為 Trend Analyzer的 GPT,它可以在 90 s 內為用戶聯網查找目標產品類別的最新趨勢,并為其創建原型圖片。這種形式為融合大模型知識空間、用戶需求與外部知識提供了一條低門檻的路徑,也能更便捷地為設計師在設計過程中提供支持。
(2)圖像生成能力的提高,加速創意內容生產文生圖大模型產品在圖像生成方面取得了顯著進步,能夠用于素材生成、靈感激發和直接出圖。這些產品的圖像生成能力飛躍,重塑了設計過程中對專業技能要求最高、常常最為繁瑣且耗時最長的環節,如畫圖、建模、渲染和效果圖加工等。此外,圖生圖、圖片融合等功能對于現有圖片的創意加工、創意設計的靈感激發,以及組合創新的效果探索也作出了重要貢獻。
目前,文生圖大模型產品在可控性方面存在不足。例如,該領域的代表性產品 Midjourney 通過特定關鍵詞、墊圖、seed 值來調控固定模型,其可控性相對較弱。而另一代表性模型 Stable Diffusion,由于其開源屬性,擁有更多的插件和模型,圖片生成的可控性更強。2023 年初,ControlNet 技術作為Stable Diffusion 的一個重要控制組件問世,它賦予了文生圖工具根據多種條件對單張圖片進行細粒度受控變換的能力,從而提高了人工智能出圖的可控性。
(3)設計范式將發生結構性變化 大模型賦能的設計工具不僅具備洞察力、敏捷力和協同力,而且還發展出了想象力和創造力。以 Adobe Sensei 和 Adobe Firefly 為 例,Adobe Sensei于 2016 年發布,提供了數據洞察、自動化任務和個性化體驗等功能,以增強和簡化工作流程。而Adobe Firefly 于 2023 年 3 月發布,并于同年 9 月正式商用。它專注于通過生成式人工智能釋放創造力,提供包括設計元素生成、布局創建和風格應用等功能,支持設計師的創意探索,加速設計工作流程。在新智能工具成為主流的同時,設計師常用的主流工具也正在變得更加智能。
隨著人與智能工具進行人機協作的工作模式成為主流,設計團隊與設計價值鏈的變化將被催化。行業的門檻降低和生產效率的提高將導致設計團隊的構成變化和角色調整。設計流程的各個環節效率的提升,以及壁壘環節的消除,使設計價值鏈的邏輯發生改變。以 2023 年春季在小紅書上走紅的“小綠裙”為例,相關博主在小紅書上使用人工智能繪畫制作女生頭像,她的專業背景與服裝設計并無直接關聯。“小綠裙”并非博主生成圖像時的意圖,卻意外在小紅書上獲得了極高的人氣。在用戶驅動下,這款裙子被商家打版生產并銷售。這種由用戶利用工具生成設計圖,再由用戶推動生產制造的C2M(customer-to-manufacturer)模式,正在迅速改變傳統的電商邏輯。
智能時代的設計范式的特征之一是難以框定清晰的邊界,這是因為隨著技術的發展,設計方法與模式的變化時刻在發生,使得人們難以捕捉到精確的時間點來標記、描述和鎖定特定的范式。然而,可以肯定的是,我們正在見證設計領域前所未有的變革。數智化設計在洞察力、敏捷力和協同力得到提升的同時,正表現出強大的想象力和創造力。這種不斷變化的設計將在未來扮演更加重要的角色。
4 結語:大模型時代的個人能力重塑
本文介紹了在大模型背景下,大模型如何開啟 “大知識”,以及由此產生的新趨勢。在設計領域變革方面,從設計對象和設計方法兩個層面出發,探討了人工智能技術能力的演變、大模型的交互邏輯、智能物種的爆發趨勢如何帶來設計對象的多樣化,大知識和知識智能載體如何為設計提供知識支持,多模態大模型如何加速內容創意生產,以及設計價值鏈的調整等設計方法與范式的變化。
大模型正不可阻擋地重塑設計領域的各個方面,這對所有利益相關者的個體能力提出了新的要求。首先,設計師、設計研究者、設計專業學生等群體需要從觀念和行動上突破慣性思維,從建立基本的人工智能意識開始,積極擁抱和使用前沿智能工具,將這些工具融入個人或組織的工作流程中。在積極應用這些工具的過程中,與人工智能共同成長,實現自身能力的重構和提升。然而,在發揮技術優勢的同時,也要認識到技術的邊界和局限性。例如,大模型可能會產生“幻覺”,即看似正確的生成結果中可能包含虛假信息和錯誤信息。其次,個體應當掌握如何有效調用知識的能力,重視圍繞知識的方法論和系統論。隨著自然語言成為一種有效調用知識的新方式,個體應更加關注并理解知識的產生過程和原理,并在此基礎上,通過深入學習提示詞工程等方法,更好地利用 GPT 來調用知識。最后,學會在模糊和不確定性中找到方向。在快速變化的世界中,不僅要學會駕馭模糊的能力,還要具備正確的價值觀和積極的人格特質,堅定地為推動領域進步和人類文明的發展做出貢獻。
(參考文獻略)
孫凌云
CAAI 智能創意與數字藝術專委會主任,浙江大學國際設計研究院院長、計算機科學與技術學院副院長,教授。研究利用人工智能賦能設計行業,提出人工智能時代下的設計范式,應用于數字創意、智能硬件設計等領域。
潘越
浙江大學計算機科學與技術學院設計學博士后。主要研究方向為設計科學與創新工程。
選自《中國人工智能學會通訊》 2024年第14卷第4期 智能創意與數字藝術專題
掃描加入我們 獲取更多學會資源
導讀 本文將介紹復旦大學知識工場實驗室關于領域大模型的研究工作。主要內容包括以下幾大部分:
01
來自 GPT4 的技術報告中指出,GPT4 仍處于通用人工智能(AGI)的初級階段。而目前研發中的 GPT4.5 或 GPT5 則已展現出了 AGI 的某些特征。
GPT4 的出現給研究和工業界帶來了巨大沖擊,其顯著特點是擁有強大的底座知識能力,超越了傳統知識圖譜,蘊含豐富的世界知識和人類常識。它能夠解答各種復雜問題,包括腦筋急轉彎等。對專注于知識圖譜的從業者來說,常識一直是知識領域最難解決的問題,但大模型似乎輕松解決了這一問題。因此,我們不禁要問:大模型是否終結了知識工程呢?
大模型是目前唯一能利用人類常識進行開放推理的技術。傳統常識知識圖譜在靈活應用常識于開放推理場景上受限,而大模型則能克服這一限制。
大模型具備開放世界的理解能力,能輕松處理具體場景問題,例如,在給大模型藥品說明書的情況下,面對一些具體場景的問題,大模型能輕松推理并回答。
大模型不僅限于單步問答,還能連續執行動作,形成 Agent。通過 Agent,大模型能一步步執行,去處理更復雜的一些任務,如編寫代碼或在 Minecraft 中收集原材料、制作工具等。
盡管大模型具有獨特的甚至不可替代的優點,但我們也面臨著大模型難以在領域落地的實際挑戰。為什么這么強的大模型現在不能很好地被應用呢?我們也尚未看到大模型引領的工業革命的進行。這主要是由于推理成本、能力缺陷和難以協同三方面的挑戰。
挑戰一:大模型的推理成本限制其應用。構建和使用大模型都需要大量資源,且在實際應用中大模型的推理速度相對較慢,即使是經過優化的版本,處理文本分析仍需數秒。這與傳統應用場景如文檔搜索和索引的速度相差甚遠,后者能在一秒內處理數十甚至上千篇文檔。此外,隨著大模型上下文長度的增加,如達到幾十萬 token,處理整個文檔庫將需要巨大的計算資源,導致推理成本進一步上升。這種高成本使得大模型在需要大規模重復應用的場景中變得不切實際。盡管有些企業愿意投入更多成本,但即使采購了大量計算資源并采用最新的推理技術,大模型是否能夠真正完成任務并創造價值呢?
挑戰二:大模型在復雜決策場景仍有缺陷。盡管大模型在聊天機器人等開放式閑聊場景中表現出色,但在工業、商業等嚴肅場景中,如替代程序員編寫代碼,大模型目前仍顯不足。從開放式閑聊到復雜決策,大模型還有很長的路要走。目前的大模型,如 GPT-3 或 GPT-4,無法直接應用于特定場景,仍需要用戶通過多次交互和提供 prompt 來引導。盡管許多工作正致力于提升大模型的能力,有可能發布的 GPT-4.5 或 GPT-5 等新一代模型能進一步提升性能,但即便如此,是否足夠滿足實際應用需求仍存有疑問。
挑戰三:大模型在企業應用中需要協同能力和可控性。即使招聘了天才員工,也需要時間適應企業流程。同樣,大模型也需要時間與企業現有流程相融合。即使大模型有能力重塑整個企業流程,但這也可能帶來不穩定和風險,因此直接替換原有系統并不現實。實際上,人們期望大模型能夠在人機協作中發揮作用,嵌入現有系統,輔助升級特定環節,而非全面替代。因此,大模型與現有業務人員或系統的對接能力,即其協同能力和可控性,顯得尤為重要。在實際應用中,我們更看重大模型能否在特定環節上協同工作,而非僅僅追求其在某些測試中的高分表現。
第二部分是關于大模型領域適配的研究。當前,領域大模型如醫療大模型、金融大模型等備受關注。持續預訓練是構建這些模型的基本方法,雖然簡單且開源,但數據問題至關重要。在選擇訓練數據時,面臨兩個主要挑戰:一是數據質量,即什么樣的數據是好的;二是數據配比,即如何平衡不同來源的數據。如維基百科與網絡小說在數量和性質上存在顯著差異,配比比例難以確定。過分依賴單一數據源可能導致模型出現偏差。如僅依賴維基百科可能導致模型缺乏娛樂性和現實感,而過多使用網絡小說可能導致模型產生不符合實際情況的認知。
在領域大模型的訓練中,數據的選擇是一個關鍵問題。我們將數據分為三層:第一層是基礎且不必要的數據,這些數據對于大模型來說已經足夠了解,無需再重復訓練;第二層是過于細節且不必要的數據,如實時股價等,這些數據對于人類專家來說也無需背誦,不適用于訓練大模型;最重要的是中間層,即高價值行業數據,這些數據對于微調大模型至關重要。然而,這些行業數據數量稀少且收集成本高,導致精品語料占比小,而“垃圾”語料卻占據大部分。盡管如此,兩者都是不可或缺的。
針對數據選擇的問題,我們提出了一個創新的解決方案。在訓練大模型時,無論是預訓練還是微調,我們為語料添加了一個特殊的標記,以指示其來源,如“維基”、“新聞”、“小說”或特定網站(如“起點”)。這樣,模型就能像人一樣區分不同來源的數據,從而更加準確地評估其可靠性。實驗證明,這種簡單的“來源增強”方法在許多小任務中的表現,甚至超越了未增強的更大規模的模型。
我們還有一些特別的發現。在下游任務中,如果我們提供任務相關信息,如論文分析或科幻小說創作,模型的表現會進一步提升。即使沒有這些信息,經過來源增強的模型本身也優于未增強的模型。關于來源標簽的選擇,我們發現具體的標簽表達方式并不重要。即使使用抽象字符對語料進行分類,也能增強模型效果。然而,帶有語義的標簽,盡管表達方式沒有嚴格規定,卻能帶來更顯著的增強效果。
我們正在研究一個工作,就是將語料進行系統化分類,類似于知識圖譜中的整體分類。嘗試使用這些分類來預訓練模型,希望獲得更強大的能力。目前,我們已經初步建立了訓練語料分類體系,并取得了一些積極的結果。這些分類不僅存在于語料中,而且確實能有效增強模型的能力。
接下來探討領域微調和能力提升。我們強調大模型協同能力的重要性,而不僅僅是模型在 MMLU 等考試題中的表現。首要工作是提升大模型理解復雜指令的能力。這與 GPT-4 Turbo 的發布會中提到的類似,即確保模型能準確輸出可解析的 JSON 格式。我們發現,模型能否給出固定、可對接的表達至關重要。因此,我們需要評估并提升模型理解復雜指令的能力。這些指令可包括各種特定要求,如格式約束(如 JSON 輸出)、內容約束(如簡短或詳細回答)等。通過將不同類別的特殊要求自由組合來測試模型是否能遵循這些復雜指令。這樣,大模型不僅能作為聊天機器人,還能更準確地滿足用戶在創作文章或作為 Agent 的執行器時的各種需求。
我們將復雜指令分為 8 個維度,通過自動化組合這些維度生成數據。在模型評估方面,我們更關注模型是否滿足要求而非其智商或輸出質量。由于是否符合要求可以通過程序自動判定,我們能夠實現自動評估的效果。
當遇到復雜指令,如告訴 Agent 一個復雜指令:從特定行為中選擇并以 JSON 格式輸出,同時避免多余推理。可以發現,每一個任務都能通過嚴謹程序進行判別,從而避免了精確匹配、模糊匹配以及大模型打分的局限,實現了更精準的能力評估。然而,最終的結果并不理想。在面臨 1—3 條復雜指令時,大多數模型能完全遵從;而一旦指令數量增至五條或更多,大部分模型都會遺漏或無法完成部分指令。
在工業場景中,大模型的數學能力雖受關注,但其在量綱理解上表現出了局限性。特別是在工業場景中單位至關重要,文檔與實驗報告中的單位錯誤會導致分析錯誤放大至 100 或 1000 倍。
我們的工作基于物理學中的量綱定義,構建了包含量綱組合知識的語料庫,并據此預訓練模型。通過這種方法,預訓練出的模型在帶有單位量的推理任務中表現出色,甚至超越了當時 GPT4 的性能。
接下來的工作專注于提升大模型的自我糾正能力。對于復雜的專業問題,大模型不應僅提供一次性的答案,而應像專家一樣進行思考和修正。因此,我們設計了一個大模型“內在的自我糾正”機制,設計構造自我糾正數據集,通過指令微調,并提出了部分答案掩碼(PAM)訓練方法,激發大模型在問答時進行自我迭代修正。具體來說,將數據中的問答對[Q/A]擴展為[Q/A1,A2,A3],并確保每次迭代中的答案[A2]優于[A1],[A3]優于[A2]。通過微調大模型,使其具備自我糾正的能力,即當給出初始答案[A]后,通過追問得到更完善的答案[A1、A2]。這種自我增強方法不僅提高了答案的正確率,而且將會應用于更大規模的模型訓練中。
在命令生成領域也應用了自我糾正能力。考慮到在使用命令行時,用戶可能無法一次性輸入正確的命令,而是需要根據報錯信息進行修改和調整。我們借鑒了這一機制,將其應用于大模型中,使大模型能夠基于報錯信息或其他反饋進行自我修正,從而提高命令生成的準確率。
最后來討論一下大模型的協同工作能力。協同能力的重要性超越了大模型本身智能水平或特定任務的評分。我們判斷,當前大模型能力仍不足以完全替代目前較為成熟的知識工程流程。大模型追求的是“端到端”的解決方案,即從原始文檔和用戶問題直接輸出答案。然而,傳統的知識工程流程更為復雜,包括檢索、知識抽取、構建知識庫、檢測一致性、調整知識庫以及進行知識檢索和推理等多個步驟。
大模型雖功能強大但成本高昂,并非所有流程都需其參與。從數據層面和應用特點出發,可以將任務分類。對于大部分任務,傳統BERT 模型即可實現 80% 至 90% 的準確率,僅在處理極端復雜句子時,大模型才是不可或缺的。對于大量語料的知識抽取和初步驗證,傳統模型因其高效和低成本而更為合適。然而,在知識庫糾錯和常識檢測等需要開放性和高級理解的環節,大模型則成為了唯一選擇。因此,大模型與小模型應協同工作,如上圖中的兩個典型例子,要根據任務需求去適配并執行一個流程。
為什么要這樣設計?關鍵要明確大模型適用的任務。大模型的作用主要體現在三個方面:首先,它擁有不可替代的常識驗證和推理能力;其次,作為高準確率的保底或教師方案,大模型能用于構建數據或指導小模型;最后,大模型是目前最強大的 Few-shot Learner,支持通過 Few-shot 方案進行微調。
第一個工作針對知識抽取,雖是一個傳統的 NLP 任務,但可以發現大模型在知識抽取中面臨特定挑戰。不同于其他 UIE(通用信息抽取)方法,大模型關注于對齊能力而非單純的抽取能力。例如,在 NER 任務中需要決定“中山公園”中的“孫中山”是否應被抽取為實體,這取決于數據集和應用場景。為了應對這種細微差別,我們微調了一個抽取模型底座,該底座集成了多種抽取任務。然而,這個模型底座在使用前需要針對應用場景進行對齊,確保其準確捕捉特定需求。在新聞人物信息抽取任務中,僅使用 300 條數據微調達到了 92% 的準確率;而使用 ChatGPT 僅有 60% 準確率,這主要由于 prompt 很難準確描述抽取的具體細節要求。
第二個工作是針對一個綜合的知識抽取任務,融合了實體抽取、實體對齊和實體關系抽取等多個子任務。這些子任務在大小模型上的適應性各不相同。通過適當選擇,部分使用大模型,部分使用小模型,能夠實現既超越大模型又優于單獨小模型 SOTA 的結果。
第三個工作是利用大模型進行常識驗證,通過構建特定的 prompt 將相關證據組合,讓大模型判斷其中是否存在常識錯誤。這種方法超越了傳統規則推理的局限,能夠提供更為準確的推理結果。
大模型在特定領域應用中并非能力不足,而是缺乏與領域的協同性。對于特殊需求,如 NL to SQL,需要通過微調使大模型適應特定任務。例如,在理解“基金表現最好”時,若未被告知其特定業務含義,大模型可能不準確。因此,需要在特定領域微調大模型。我們的做法是反向利用表格生成自然語言描述,再通過業務和產品經理的規則修正,最后訓練模型以學習這些特定知識。除非面對極端復雜問題,否則大部分大模型的智能水平是足夠的,關鍵在于任務協同和與現有流程的對齊。
盡管在大模型上下文長度非常長的情況下,檢索后回答 RAG 在當前大模型時代仍顯重要。由于成本考慮,不是所有問題都適合用大模型處理大量 token。目前常用下拉數據庫或單數據缺口方法,但在專業領域需要精確匹配。稀疏檢索(如 BM25)在常見精確問題中效果好但缺乏語義泛化性,而稠密檢索(如 BGE)雖效果好但易召回語義相近但不準確的內容。因此,我們致力于融合這兩種方法,根據問題中是否含有專有名詞來決定檢索策略。若問題中專有名詞分數高,則增加稀疏檢索比重,來提升領域任務的檢索效果。
最后關于 RAG,聚焦于 AIGC 的可靠性問題。當前,即使大模型展現出高度智能,人們對其答案的準確性仍持懷疑態度,形成了所謂的“狼來了”現象。因此,在專業領域,我們強調只有可溯源的結果才能贏得用戶的信任。RAG 系統要實現大模型在回答問題時能夠引用原文,確保答案的可靠性和準確性。以 New Bing 的精確模式為例,即使搜索的網頁內容正確,其答案仍可能出錯。
我們的工作思路是采用解碼硬約束方案,通過在微調階段給大模型標記特殊括號,實現特定部分的直接原文接管。一旦特殊括號標記出現,其后的內容將直接由算法接管,借助原文后綴樹進行填充,確保該部分與原文完全一致。這種方法確保了兩個標記間的內容為原文內容,同時利用模型的推理能力生成答案,避免了傳統方法的生硬和推理能力低下的問題。以上就是我們針對領域大模型落地應用方面所進行的一些研究,謝謝大家。以上就是本次分享的內容,謝謝大家。
分享嘉賓
INTRODUCTION
梁家卿博士
復旦大學
青年副研究員
梁家卿博士,復旦大學大數據學院青年副研究員,主要研究方向為基于知識圖譜與大模型的認知智能。在國際頂級學術會議與期刊(包括 TKDE,AAAI,IJCAI,ICDE 等)發表論文 50 多篇。在應用落地方面,作為技術負責人研發并公開發布了多個知識圖譜與大模型應用平臺如 CuteGPT、Emo-CuteGPT、CN-DBpedia、ProbasePlus、CN-Probase、“不倒翁”智能問答等,相關產品 API 被工業界與學術界多家單位已調用累計 17 億次以上,并形成了 16 個專利。有成功訓練百億參數量級別模型的經驗和在大規模集群上訓練千億參數量級別模型的經驗。先后在國際性的“知識庫構建”比賽中榮獲第二名;在中國計算機學會和中國中文信息學會的主辦的語言與智能技術競賽“信息抽取”比賽中榮獲第一名。主持研發的情感增強大模型 CuteGPT 在上海卓辰信息科技有限公司(幫助其情報信息知識抽取準確率達到 90% 以上)、上海雙地信息系統有限公司(幫助其開發了內容管理產品“小孔商業智能 AI 助理”)、上海光唯文化傳媒有限公司(應用于其客戶在新產品研發業務,新產品銷售額超過千萬元)等單位實現了落地應用。并且曾獲 ACM-ICPC 區域賽金牌、TopCoder Open 全球前 150 名、吳文俊人工智能科學技術獎科技進步獎三等獎、上海市優秀博士畢業生、上海市計算機學會優秀博士論文、華為云最佳論文復現獎、復旦大學超級博士后、上海市超級博士后、中國博士后科學基金面上資助、國家自然科學基金青年基金資助。
導讀
汽車行業作為技術創新的重要領域,正迅速采納大語言模型,如 GPT 系列,以推動行業的數字化轉型。這些模型在提升車載智能系統的交互體驗、優化客戶服務、加速產品開發及市場營銷策略方面展現出巨大潛力。通過具體應用案例分析,接下來我們一起揭示大語言模型如何為汽車企業帶來效率提升和成本優化,同時探討這些技術在未來汽車行業中的潛在發展方向。主要內容包括以下幾個部分:
01****大語言模型簡介
****人工智能技術蓬勃發展,并于 2012 年開始加速。那一年,Hinton 及其指導的學生通過 AlexNet 網絡在 2012 年 ImageNet 圖像分類大賽中奪冠,標志著深度學習技術重新獲得了廣泛關注。自 2012 年至 2017 年間,有監督學習技術成為了主流,期間圖像處理技術迅猛發展,然而自然語言處理領域卻未能實現突破性進展。這個階段在解決自然語言處理問題時,雖然采用了循環神經網絡、長短期記憶網絡等復雜的網絡結構,但仍未能解決自然語言處理領域的核心問題,如長期依賴導致的梯度消失問題、處理效率無法并行化,以及依賴大量標注數據的監督學習模式使得數據獲取成本高昂。正因如此,該時期自然語言處理領域并未實現顯著的突破。然而,一切在 2017 年發生了轉變,Google 發布了開創性的論文《Attention is All You Need》,首次提出了基于注意力機制的 Transformer 網絡架構。這種架構完全舍棄了傳統的循環和卷積網絡結構,實現了模型的并行化處理和自監督學習,使得大量未標注數據得以有效利用。并行化處理降低了計算復雜度,加速了大規模計算任務的處理速度。Transformer 網絡的提出促進了大規模預訓練模型的興起,標志性地將我們的研究方向分為三個主要類別:基于 Transformer 的 Encoder-Decoder 結構,分別形成了 Encoder 類、Decoder 類以及 Encoder-Decoder 的預訓練模型。例如,2018 年提出的 BERT 模型,屬于 Encoder 類,能夠執行閱讀理解等任務,通過上下文推斷含義;而 GPT 系列模型,作為 Decoder 類,側重于根據前文預測后文;Encoder-Decoder 模型則在如機器翻譯等任務中表現出色。這些創新大大推動了自然語言處理技術的發展。從下圖中可以看到基于 Transformer 架構衍生出的各類大型模型。左側圖展示了三個主要分支:紅色代表僅包含編碼器(encode only)的模型,中間部分包含編碼器和解碼器(encode-decode)的模型,而右側則聚焦于僅含解碼器(decode only)的模型。右側的圖則依據模型的規模進行分類。我們可以觀察到,自 Transformer 誕生后,隨著 GPT-1 的推出,模型規模開始逐漸增大。隨后,BERT 的問世以及 GPT 系列的持續發展,在 Transformer 架構的基礎上不斷演進,展現了模型規模的快速增長趨勢。
下圖詳細闡述了 GPT 系列模型的演進歷程。自 Transformer 模型問世以來,OpenAI 以此為基礎,提出了一種新的范式:利用預訓練加微調的方法來處理自然語言任務。GPT-1 采用了 5GB 的訓練語料和 1 億參數,盡管其性能不及隨后Google 推出的 BERT 模型,但 OpenAI 堅信未來的發展應朝向無監督學習方向邁進。因此,在 2019 年,OpenAI 推出了 GPT-2,使用了 40GB 的訓練數據和 15 億參數,并實施了 Zero-shot 學習,能在模型未接觸過的任務上進行作業,盡管生成的文本已相對較長,但仍存在改進空間。隨后,OpenAI 以 570GB 的數據訓練量和 1750 億參數推出了 GPT-3。與前作相比,GPT-3 采用了 Few-shot 學習方法,僅需少數樣本即可顯著提升性能,實現了接近監督學習最優效果的無監督學習能力。GPT-3 之后,OpenAI 轉而專注于模型的可控性問題。GPT-3 雖然功能強大,但其輸出內容有時并不完全符合人類的意圖。這一挑戰促使 OpenAI 發展出 ChatGPT,旨在從有監督學習向無監督學習轉變,同時從不可控走向可控,進而發展至今日的多模態方向,標志著自然語言處理技術向更加高級的發展階段邁進。
ChatGPT 的推出,為大型模型的訓練提供了一種新的范式。這一訓練范式的核心在于先進行預訓練,緊接著通過有監督的微調過程,進而采用獎勵建模,最終通過強化學習來優化模型性能。這種方法論不僅加深了我們對大規模自然語言處理模型訓練的理解,而且為未來模型的發展指明了方向,即如何有效結合預訓練、微調和強化學習,以實現更高效、更精準的語言模型訓練。
02
大語言模型對汽車行業的影響上述訓練范式提出之后,國內大型模型相關的發展也隨之加速。目前,大型模型的生態系統主要分為兩類:一類是以 OpenAI 的 ChatGPT 為代表的閉源模型,這類模型通過提供 API 服務進行應用;另一類是以 Meta 的 LLAMA 為代表的開源模型生態。除此之外,國內的大型模型發展同樣迅猛,展現了中國在人工智能領域的強大實力和獨特貢獻。這些發展不僅促進了技術的進步,還為未來的人工智能應用和研究打開了新的可能性。大模型的快速發展,不僅在國內外科技領域引起轟動,也為汽車行業帶來了實質性的應用機遇。通過這些實際應用案例,我們得以洞察大型語言模型所擁有的獨特能力。首先是理解能力的顯著提升。與早期模型相比,現代大型模型能更加自然地理解人類語言,其交互體驗遠勝過以往,讓人們更愿意與之對話,不再感覺像是與一臺機器人交流。其次,生成能力也大大增強。開發人員可以利用這些模型編寫代碼,生成符合預期的汽車外觀設計等內容,極大地拓展了創造性應用的邊界。再有,規劃能力的提升讓大模型能夠協助人們規劃活動、安排日程,有效地優化活動流程和步驟。最后,評估能力也是一個重要的進步。用戶可以向模型提出評估要求,例如對文本進行評分、檢測錯別字等,模型能夠根據要求完成評價任務。盡管在數學問題上可能仍存在不足,但在代碼審查和改進建議方面,大模型已展現出其潛在的評估和優化能力。汽車供應鏈的復雜性及其環節的廣泛性為大語言模型提供了廣闊的應用場景。從研發、生產制造,到銷售、物流,乃至售后服務,每一個環節都蘊含著與大語言模型結合的潛力。在銷售和售后服務方面,大語言模型能夠處理和分析行業新聞,對新出臺的政策進行摘要,幫助企業快速把握行業動態。此外,通過匯總和分析來自各大 APP 的市場評價,模型可以為產品改進提供實時反饋,指導市場營銷策略的調整。在產品研發和長期規劃方面,大語言模型通過處理大量文本數據,能夠挖掘出創新點和用戶需求,為產品迭代和創新提供有力的數據支撐。客服領域尤其能體現大模型的價值,不僅可以提供常規的客戶咨詢響應,還能在專業知識領域內提供支持,如快速識別合適的維修方案,從而提高服務效率和顧客滿意度。總的來說,大語言模型能夠深入汽車供應鏈的各個環節,優化流程,提高效率,同時也為企業提供了前所未有的洞察力,從而在競爭激烈的市場中獲得優勢。在汽車行業中,大型語言模型展現出多種關鍵應用場景:
語音助手與車載娛樂。智能座艙可以劃分為三個主要功能:一是執行基本命令,比如查詢天氣、股票信息或播放音樂;二是通過語音控制車輛的內部系統,以一系列語句完成復雜操作;三是將車輛當作多功能的 AI 助手,它能在游戲中擔當各種角色,豐富娛樂體驗。
客戶支持與售后。在這里,大模型可協助坐席人員處理客戶的咨詢與問題,提升服務效率。
銷售與市場營銷。通過分析用戶通過各種渠道提出的需求,有助于大模型精準營銷和銷售策略的優化。
車輛設計和系統研發。由于該領域涉及大量專業知識,通用大模型可能需要針對性的微調或專項訓練才能發揮作用。
企業內部知識服務。大模型可以通過問答系統或檢索企業內部的知識庫來優化知識管理。
自動駕駛技術。在此,大模型能生成逼真的模擬場景,助力自動駕駛系統的測試和開發。
03
大語言模型的實踐探索在本節中,將介紹大型語言模型在實際操作中的探索。隨著去年 LLAMA-70B 模型的問世,我們見證了開源大模型數量的顯著增加,并借此機會進行了一系列的實踐探索。這些探索主要基于 Transformer 結構,可分為三大類:語言理解、語言生成以及機器翻譯相關任務。具體到問答機器人,我們嘗試了 FAQ 問答,針對常見問題提供快速響應;此外,我們還開展了基于汽車手冊或企業內部知識文檔的長文本問答實踐。在傳統 NLP 任務方面,借鑒 OpenAI 發布的 GPT-2 研究成果,我們測試了模型在文本分類上的能力,并嘗試利用其生成報告的摘要。在 AI 代理的應用上,我們開發了自然語言查詢數據庫的功能,允許不具備編程技能的用戶通過自然語言完成數據庫查詢,尤其適用于無法直接生成報表的臨時查詢。進一步地,我們還探索了 AI 代理在更廣泛任務中的應用,例如自動填寫請假申請等行政事務。接下來,將詳細介紹 FAQ 問答機器人的應用場景。在大模型興起之前,常規做法是建立并維護一個問答知識庫,對用戶提出的查詢進行匹配,匹配工作通常是 Q-Q 的相似性,或是 Q-A 間的相似性,有時則是將這兩者結合起來進行。這一過程最終會產出一個答案。這里的主要挑戰包括相似問題的生成,因為標準問題的變體可能非常多,這就需要大量的人力投入。另一個挑戰是語義相似度模型的匹配準確度,Q-Q 和 Q-A 的匹配質量完全取決于相似度模型的性能,這就使得其語義理解的能力相對較弱。
我們從去年 6 月份開始嘗試了幾個不同版本的大語言模型。最初,我們直接使用指令詢問大模型,但這樣的方式無法達到我們預期的效果。隨后,我們對大模型進行了微調,并結合 prompt 進行了實驗,這種方法在問答生成上的效果有所改善,但結果的不確定性依然較大。我們的第三次嘗試結合了自有知識庫的相似度匹配和經過微調的大模型,這種方法的表現超過了前兩種。但當時使用的都是較小的 6B 模型,即便采用了 RAG(Retriever-Augmented Generation)加上 prompt 和微調的方式,生成的結果仍舊難以控制。之后,我們嘗試了 13B 和 70B 的大模型,并專注于利用這些模型的理解能力而非生成能力,這樣做取得了不錯的效果。
此外,我們也嘗試了多種使用 prompt 的技巧。分享一個小竅門:prompt 需要明確且清晰,指令需精準無誤,而最終輸出的結果最好是有強代碼結構的,比如 JSON 格式,或者是預先定義的明確結構。如果模型較大,使用 few-shot 方法效果會更好;只需給出幾個示例,模型便能呈現出較佳的性能。再者,向模型說明思考方式,逐步引導其如何操作,也能有效提升結果。在實際測試中,我們主要使用了 40 對 FAQ 標準問,并測試了 167 條數據。在第一版中,我們采用傳統的語義相似性方法進行問答,手動擴展了 300 條相似問,得到的準確率為 82%。需要注意的是,這個準確率是基于我們自己的測試數據得出的,不同的數據集可能會有不同的準確率。在第二版中,我們利用大模型生成每個標準問的 50 條相似問,這在使用大型語言模型時相對容易實現。結合語義相似性和大模型的方法,我們獲得了 94% 的回答準確率。這里的“準確”是指生成的答案必須與知識庫中的標準答案完全一致。雖然剩余的 6% 在檢查時發現與知識庫中的答案有些模糊匹配的情況,但 94% 的準確率在我們看來,實際上已經非常接近完美了。在第三版的實驗中,我們將每個標準問的相似問擴展到 100 條,測試后發現準確率略有下降,為 93%。在 FAQ 問答場景的測試中得出的結論是,大型語言模型能夠協助我們擴展相似問題。此外,結合了 RAG 索引輔助生成與大型語言模型(LLM)的方法能夠提高 FAQ 智能問答場景的準確率。總體來看,效果的優劣與召回數據的相關性以及大型語言模型的理解能力密切相關。
04
數據分析人員的要求關于數據分析人員的能力要求,大模型的出現確實引發了一部分人的焦慮,擔心自己的工作會被取代,或者擔心趕不上這一技術浪潮。然而,我認為大模型不會取代我們的工作,而是會成為我們完成任務的強大助手,促使我們做出積極的改變。通過前期的一些探索,我們發現大語言模型實際上能在數據分析工作中發揮重要作用。在項目實施過程中,大模型可以在多個階段提供支持。例如,在需求定義階段,它能夠提供需求靈感、輔助編寫和潤色文檔,提供關鍵需求信息,甚至在我們還未完全明確需求時補充設計元素。它還能幫助審核文檔,確保關鍵信息的包含。在構建階段,大模型能輔助生成代碼,補充代碼注釋,以及進行不同開發語言之間的代碼翻譯。這在一些擁有較老系統需要語言轉換的公司中尤其有用,特別是當這些系統的代碼注釋不夠充分時。此外,大模型還能進行代碼審核,確保代碼符合公司的要求,輔助開發框架的設計和生成。在測試階段,大模型能夠幫助生成測試用例、編寫測試文檔以及修復 bug。這些都是在大模型應用場景中應該考慮到的作用。
對于數據分析人員而言,大模型的出現帶來了技能要求的變化。首先,大模型可以輔助寫代碼,提高代碼編寫效率。這意味著數據分析人員不僅要掌握編碼技能,還需要能夠明確地定義和描述問題,以便大模型能高效生成代碼。因此,問題定義、分解能力以及設計規劃能力變得尤為重要。其次,代碼質量的辨別能力也變得關鍵。雖然大模型能生成代碼,但有時候生成的代碼可能是錯誤的。如果數據分析人員本身編碼水平有限,可能難以識別錯誤,進而影響工作效率。這意味著對代碼質量的判斷能力對于數據分析人員來說變得更加重要,特別是對于高資質人員的需求可能會增加,而對于剛入門的人員需求可能減少。但對新手來說,大模型也提供了學習和成長的機會。第三,代碼測試和診斷能力。隨著 AI 生成代碼的普及,數據分析人員需要能夠診斷和測試大模型生成的代碼,這要求具備高度的代碼理解能力和測試技能。第四,掌握 prompt 工程能力。大模型的輸出質量很大程度上取決于 prompt 的編寫質量。寫好 prompt 是達成高效輸出的關鍵,同時也需要考慮到安全管控和響應時間的優化。此外,作為算法相關人員,需要掌握對大模型的評估和評價能力,判斷不同模型是否適用于特定應用場景,以及它們的優勢和局限性。同時,對算力和資源的評估也變得重要,需要在使用大模型和資源投入之間做出權衡。最后,選擇合適的解決方案對于特定場景至關重要,并不是所有問題都需要用到大模型。數據分析人員需要具備判斷并選擇最適合當前場景解決方案的能力。
05****
問答環節
Q1**:如何保證大模型的可控性?**
***A1:目前,RAG(Retriever-Augmented Generation)是大家討論的熱點。使用 RAG 的通常做法是:首先將知識向量化存儲到向量數據庫中,然后查詢與之相似的問題,并讓大模型生成答案。但是,如果僅僅按照這種方式操作,很難保證生成的答案與知識庫中的信息完全一致,即使考慮到大模型的規模,也存在一定的困難。我們之所以能實現 94% 的準確率,與知識庫內容完全匹配,是因為我們采取了特定的策略。在提問時,我們根據問題的相似性選擇最相似的幾個問題,然后在生成答案時指導大模型選擇與哪個問題最相似,而不是直接將問題和答案一起提供給大模型讓其理解后再生成答案。我們是讓大模型直接返回最相似問題的編號。通過這種方式,我們可以通過編號直接獲取對應的準確答案,從而保證了答案的相似性和準確性。
Q2**:大語言模型可以做推薦系統嗎?*****A2:在我們的汽車行業場景中,使用大語言模型進行推薦的案例相對較少。我們主要在售后服務領域探索推薦系統的應用,由于汽車配件的種類較少,這與電商領域的推薦系統有所不同,因此我們還未在電商領域那樣廣泛嘗試使用大語言模型進行推薦。在售后服務領域,大語言模型的應用主要集中在售后維修案例的檢索上,這涉及到與知識庫相關的內容檢索。例如,基于用戶對售后維修或保養的咨詢,以及參與售后活動的需求,大語言模型可以輔助客服人員檢索知識庫中的相關信息,從而提供輔助服務。
Q3***:在 70B 的模型中,RAG +微調 + prompt 是否效果比 RAG + prompt 好?******A3:由于資源限制,我們尚未對 70B 的大模型進行調整,這取決于具體應用場景的需求。如果是通用場景,我們目前的測試顯示不需要進行微調。然而,對于特定垂直領域,如汽車行業中的特殊場景,我們還沒有進行嘗試,可能會需要進行相應的微調。
Q4**:大語言模型中做自然語言查詢數據庫,會不會有幻覺的問題?******A4:我們采用的自然語言查詢實現方式是這樣的:基于一種不會產生幻覺的方法,或者說,采用類似于 AI agent 的框架。它首先將自然語言轉換為 SQL 語句,然后執行數據庫查詢。如果 SQL 語句轉換錯誤,則查詢結果也會出錯。通常情況下,我們的測試結果顯示,要么查詢正確,要么由于生成的 SQL 語句錯誤而沒有產生結果。我們使用的是 Vicuna-13B v1.5 版本來生成 SQL 語句,主要進行了單表查詢的測試。在單表情況下,處理單表操作是可行的,包括執行 where 語句、模糊查詢等。
Q5**:是否有嘗試過用 Stable Diffusion 進行汽車設計?******A5:SD(Stable Diffusion)可以應用于汽車設計領域,我們的設計部門已經在使用它進行汽車設計工作。此外,SD 還能夠進行產品設計,我們已經在進行一些相關的嘗試。它還能生成一些海報,使得我們日常的海報生成工作比以往更為迅速。
Q6**:70B 模型的 GPU 配置要求是什么呢?以及它能支持多大的流量查詢?******A6:對于 70B 模型,我們采用了量化版本,例如使用 INT4 量化,需要 43G 的顯存。有關大模型的詳細配置,可以在官網找到相應的信息,這與模型能夠支持的流量查詢量密切相關。我們實際測試情況供參考:72b-int4 用 vllm 推理加速,輸入輸出共 1000 token,4 秒之內返回,用 A100 40G 2 張,可以支持 4 個并發。以上就是本次分享的內容,謝謝大家。
分享嘉賓
INTRODUCTION
林琳
某汽車集團
數據挖掘&人工智能主任專家
復旦大學基礎數學碩士,10 年以上汽車行業AI從業經驗,在大語言模型、運籌優化和機器學習領域有豐富的實戰經驗。
視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。
//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8
計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。
盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。
根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。
即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。
我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式
在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。
結論與未來方向
本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。
文 / 秦兵,吳迪,趙妍妍
摘 要:
本文以大語言模型價值觀對齊研究為主題,介紹大語言模型價值觀相關概念、價值觀對齊研究發展歷程和價值觀體系,旨在探索如何使大語言模型的價值觀與人類社會價值觀保持一致。從共同價值觀、群體價值觀和個體價值觀三種層次,討論了實現價值觀對齊的多種方法和所面臨的挑戰。文中強調了大語言模型發展中價值觀對齊的重要性,并展望了大語言模型價值觀對齊研究的發展方向。 關鍵詞:
大語言模型;價值觀對齊;共同價值觀;群體價值觀;個體價值觀
0 引言
自2022年11月30日OpenAI發布ChatGPT這一生成式大語言模型以來,人工智能領域迎來新的浪潮。大語言模型將各種自然語言處理任務整合成文本生成任務模式,使用戶與模型的互動變得更加便捷。用戶通過輸入文本指令,在生成文本、回答問題、情感分析、翻譯語言、摘要文章等任務上,均可以用統一的模型來獲取自然、高效的響應。這種整合為用戶提供了一個多功能、高度可定制的工具,有望推動自然語言處理技術在多個領域的應用邁上新臺階。憑借其強大的遷移能力,大語言模型在多領域展現出廣泛適應性,甚至在某些任務上具備超越人類專家的潛力。
大語言模型的性能受其不同來源預訓練語料庫影響,在學習知識的過程中不可避免地也會學習到包含各種人類觀念的內容,其中不乏與社會價值觀相悖的信息,從而在與用戶互動時存在激活這些不良內容的風險。因此,防止大語言模型在與用戶互動中產生違反人類價值觀的信息,從而更緊密遵循人類價值觀,已成為一個亟需研究的問題。
本文的目的是介紹大語言模型的價值觀相關概念、價值觀對齊研究發展歷程和價值觀體系;具體而言,將探討目前的價值觀分類方法和現有的價值觀對齊技術,以及這些技術未來的發展趨勢和在實際應用過程中可能面臨的挑戰。本文旨在通過對上述內容的介紹與討論,推動大語言模型的安全發展,確保其與人類價值觀有效的對齊;同時也將進一步探討與大語言模型價值觀對齊相關的新方法和新策略,以進一步應對大語言模型應用過程中在倫理和社會相關層面上可能遇到的挑戰。
1 價值觀相關概念
價值觀是對事物的價值或行為的重要性的衡量,它可以幫助確定最合適的行為、最恰當的生活方式,或者判斷不同行為的意義。在群體層面,共享的價值觀構成了文化和道德的基礎。在此基礎上,適用于全人類的價值觀一般稱為共同價值觀。而由某個群體形成的一系列規范,由這個群體共同遵守、為集體行為提供指導的價值觀,可視為群體價值觀。在個人層面,個人價值觀則體現了個人的偏好,因背景、經歷和信仰而異。
在人工智能領域,對齊技術旨在引導人工智能系統的行為符合設計者的利益和預期目標。對大語言模型而言,價值觀對齊是將人類的價值觀理念嵌入到語言模型中,使其生成內容能符合人類價值觀。
2 大語言模型價值觀對齊研究現狀
人工智能與人類價值觀對齊的概念最早由諾伯特 ? 維納在 1960 年提出。早期的相關研究主要側重于探索模型的輸出是否在特定情境下與人類價值觀保持一致,尤其是關于機器學習領域中的種族、性別、文化偏見和公平性問題的研究。例如,研究人員發現預訓練模型BERT等在類別預測時表現出性別和種族的刻板印象,于是提出了像StereoSet這樣的檢測數據集或設計了減少偏見的策略。然而,這些研究多集中于特定場景的自然語言理解任務,隨著大語言模型如ChatGPT在更開放和多樣的場景中得到了廣泛應用,亟需更深入的研究和細化的方法,以應對模型在不同場景中可能出現的倫理、社會和文化等挑戰,確保模型在各種不確定和不斷變化的情境中盡可能與人類價值觀保持一致。
在大語言模型價值觀對齊研究中,關鍵問題是如何進行價值觀的分類和對齊。價值觀分類主要用于識別語言表達背后的價值觀屬性,從而判斷模型是否與特定價值觀及其類型相符。這種分類不僅適用于用戶語言的檢測,而且對于評估大模型生成的語言也至關重要,以確保用戶及模型的行為符合社交媒體、新聞媒體和其他環境的道德和法律規范。價值觀對齊則側重于保證大語言模型的輸出內容與人類價值觀保持一致,通過預訓練、指令微調、人類反饋及后處理等手段實現。此外,還需要在共同價值觀基礎上,調整模型以反映不同群體的多元價值觀,從而適應多樣化的應用場景。這種方法不僅增強了模型的普適性也有助于更全面地滿足各類用戶的需求。
大語言模型的價值觀研究仍處于起步階段,但已經吸引了社會廣泛的關注。《時代》雜志評選2023年三大人工智能創新,其中之一便是大語言模型對齊技術。同時多家企業和研究機構已開始對這一領域進行重點布局,例如,OpenAI成立了SuperAlignment團隊,目標是在未來五年內解決大語言模型價值觀安全問題;加州大學伯克利分校等高等教育機構也已創建了Center for AI Safety組織,專注于AI安全研究,同時為研究者提供培訓和計算資源。在國內,諸如哈爾濱工業大學、清華大學、中國科學技術大學和天津大學等學術機構,以及微軟、騰訊等公司也在積極開展相關研究。大語言模型價值觀對齊的研究將成為未來工業界和學術界的重要研究領域。我們堅信,通過這些努力,大語言模型將更好地與人類價值觀保持一致,推動科技向善,為人工智能技術的安全發展打下堅實基礎。
3 大語言模型價值觀體系
本文將價值觀體系分為共同價值觀、群體價值觀和個體價值觀三個層次,如圖 1 所示。共同價值觀構成價值觀體系的基礎,代表著那些人類普遍認同的價值觀。這些價值觀為模型行為提供基本準則,其應用不受特定場景或人群差異的影響。群體價值觀考慮到大模型服務于不同的群體,大模型應當融入各個群體的價值觀,確保其能夠遵循各個群體的道德規范。隨著模型越來越多地融入個人日常生活,大模型的應用場景更加靈活,與個體價值觀的對齊也變得至關重要。為了使模型能夠提供個性化的服務,模型不僅需要遵循共同價值觀和群體價值觀,還需要根據個人的需求、性格和價值觀進行定制化調整。
圖 1 價值觀體系
3.1 大語言模型的共同價值觀
在哲學意義上,共同價值觀是超越民族、種族、國界和信仰,是全人類共同擁有的價值觀。對于多樣化應用的大語言模型而言,同樣存在所有應用領域通用的價值觀。因此,研究人員需要為大語言模型制定一套共同的價值觀體系,將其作為模型行為的基本規范。例如,Anthropic團隊提出的由有益性、誠實性和無害性規范組成的體系,體現了這一理念。
目前為止,廣泛認可的大語言模型共同價值觀標準尚未形成,研究人員正在積極探索各種價值觀體系的設計,以構建一個既能反映人類共同價值觀,又能確保各價值觀間和諧相容的體系。在此探索過程中,計算反思均衡(computational reflective equilibrium)的方法可以用于優化共同價值觀的設計,該方法提倡讓模型在具體實例或案例中應用共同價值觀并進行測試,如果在特定情境下發現模型的共同價值觀存在沖突,可能需要修改或調整模型的價值觀以解決沖突,從而逐漸找到更合適的共同價值觀設計。這一過程可以不斷完善和優化模型的共同價值觀,確保其適用性和有效性。在這個框架下,哈爾濱工業大學以社會主義核心價值觀為基礎,構建了模型價值觀的指導原則。這些原則涵蓋“言語侵犯”“暴力恐怖”“反動言論”等10個關鍵方面,以確保模型在處理文本內容時能夠避免產生令人不悅或危險的內容,更好地滿足廣泛的社會期望和要求,從而提高模型的社會適應性和倫理性。
3.2 大語言模型的群體價值觀
群體價值觀多體現為道德規范。在社會活動中,有許多依據群體價值觀制定的規范逐漸被社會所接受成為道德規范,所有社會參與者的行為受這些規范約束。為了語言模型的生成內容能夠符合道德規范,研究人員建立了如SOCAIL-CHEM101和Moral Integrity Corpus等語料庫,這些語料包含了大量的道德場景和簡化的道德規范。除了直接從具體場景和規范進行學習外,還有研究者采用規范倫理學的理論,如正義和美德來引導模型的道德學習。這些理論用于分析收集到的場景,進而訓練語言模型在特定情境中進行基于這些理論的道德判斷。有研究者也探討了利用故事人物作為學習先驗的方法。以“Goofus & Gallant”為例,該故事中的角色行為被用作模型的先驗學習對象,其中正面角色的行為是模型學習的依據。這種方法旨在指導模型學習并吸收相應的道德規范。通過詳細的故事情境展現和角色行為示范,模型能夠在具體的故事背景下,理解并模仿正面角色的行為。
目前大多數為語言模型構建的語料庫主要基于英文文本,這一偏向很可能導致大語言模型的輸出更傾向于體現西方的道德規范。然而,世界各地的道德規范因國家、地區和文化而異,遵循特定道德規范的語言模型可能無法有效服務于遵循不同道德規范的人群。因此,大語言模型價值觀研究不僅應關注模型如何遵循道德規范,而且需考慮模型對多元道德規范的適應性。研究工作應從將普遍認可的共同價值觀整合入模型開始,通過外部機制為模型引入多元價值觀,使之能夠依據具體情境做出適當調整。這將引導我們朝著開發能夠適應多元價值觀的大語言模型這一長期目標邁進,為更廣泛的社會群體提供普惠且包容的人工智能服務。
此外,針對特定領域,如司法和醫療,也存在普遍認可的專業道德規范。開發針對這些垂直領域的模型時,需要從該領域的基本道德規范出發進行對齊。基于此,大模型不僅遵循共同價值觀,還能在特定應用領域中展現出更加專業的倫理判斷。
3.3 大語言模型的個體價值觀
隨著語言模型應用變得更加深入和廣泛,它們將服務于更多樣化的用戶群體,并在日常生活中扮演重要角色,如私人助手等。因此,從個人層面來看,研究者需要讓語言模型的價值觀能夠根據服務對象進行靈活調整,以便提供不同的個性化服務。舉例來說,在教育領域,可以根據學生的不同偏好和不同性格進行個性化教學;在心理健康領域,可以針對患者價值觀設計治療方案,取得更好的治療效果;在論辯任務上,模型能夠根據受眾的價值觀偏好進行有針對性的論辯,取得更好的說服效果。
心理學領域對人類內在價值觀、性格及其相關心理活動的研究提供了重要的洞見,也為支持大語言模型的個性化服務打下了基礎。其中施瓦茨的人類基本價值觀理論是一個廣泛認可的框架。該理論認為,人類的價值觀是驅動行為和評判善惡的根本。基于此,施瓦茨定義了10種核心的價值觀動機。借鑒心理學中的理論,有學者們開發了ValueNet價值觀驅動型對話語言模型,以及能夠識別目標群體的道德價值觀的Moral Debater模型。這些模型的開發是心理學理論應用于人工智能的創新嘗試,旨在使語言模型能更準確地反映和適應目標人群的價值觀。
3.4 社會科學中的價值觀研究
為了深入理解和設計不同層次、適合不同群體的目標價值觀,并確保大語言模型與這些目標價值觀的有效對齊,研究者需要綜合倫理學、心理學、社會科學等多個學科領域的研究成果。這些領域在過去數十年中對人類價值觀進行了廣泛探索,為大語言模型價值觀的體系構建和對齊提供了堅實的理論基礎。跨學科的合作和綜合研究有助于更全面地理解價值觀的復雜性,從而可以為大語言模型的價值觀對齊提供更加科學和精準的指導。
在心理學領域,對人類內在價值觀及其心理活動的深入研究構成了豐富的理論基礎。特別是施瓦茨提出的人類基本價值觀理論,以及喬納森 ? 海特的道德基礎理論,均為探討群體道德價值觀提供了重要視角,其中海特強調了情感直覺在道德形成中的重要性,并將道德分為五個基本維度,涵蓋了關愛、公平、忠誠、權威和純潔等方面。借助這些理論框架,研究者能夠根據特定場景設計有針對性的價值觀和對齊策略。這些理論不僅指導了大語言模型價值觀對齊的研究方向,也為模型的進一步安全發展提供了理論基礎。例如,應用海特理論促進了道德場景數據集和社交媒體言論數據集的發展,為構建、理解和對齊目標價值觀體系提供了關鍵支持。
4 大語言模型的價值觀分類
價值觀分類的目標是辨識文本背后的價值觀屬性,并判斷其與既定目標價值觀的一致性。這個過程不僅適用于分析用戶語言,也關鍵于確保大型語言模型生成的內容符合目標價值觀標準。
4.1 大語言模型生成內容的價值觀分類
早期的文本價值觀分類研究主要集中在識別特定內容,例如文本中的暴力或偏見表達。隨著研究的進展,關注點逐漸轉向更廣泛的領域,不限于識別偏見或不當內容,而是探究語言模型在多元場景中的道德判斷與人類的一致性,以及其對惡意攻擊等情境的響應是否符合社會規范,或者借鑒心理學的方法來評估模型的價值觀特性。
在我們的日常生活中,經常會面臨需要在多種道德規范之間做出選擇的情況,即所謂的道德決策。探索大語言模型如何在這些復雜情境下評估和確定不同道德規范的相對優先級變得至關重要。這些道德決策反映了決策者內在價值觀的強度,以及不同價值觀之間的相對重要性。相關數據集如SCRUPLES 和 MoralExceptQA提供了復雜情境和評估任務,幫助我們分析模型的道德決策是否與人類決策一致,并揭示了大語言模型在靈活應用道德規范方面與人類的差異。這些研究有助于更深入地理解和提高大語言模型在復雜道德情境下的決策能力。
盡管大語言模型展現出在理解和遵循道德價值觀等規范方面的強大能力,我們仍需確保其在處理不同請求時始終堅持這些價值觀,防止產生違反價值觀的內容。為了全面評估大語言模型在價值觀對齊方面的能力,研究人員不僅分析了模型對常規請求的響應,還深入探索了其對惡意請求的響應。這包括設計特定的攻擊性提示,以測試模型在可能引發不當回復的情境下的表現。通過分析這些測試樣例的響應內容,研究人員能夠更準確地評估大語言模型在價值觀對齊方面的表現。例如,Anthropic團隊發布了一個旨在測試大語言模型價值觀的基準。該基準包括在紅隊行動中收集的有害和無害測試樣例,以及人工設計的測試信息,涵蓋攻擊性言論和不道德請求等內容。這些方法為評估和提升大語言模型的價值觀對齊能力提供了重要的工具。通過綜合運用以上的方式,不僅評估了模型在常規情景下的表現,也評估了其在處理具有惡意誘導的輸入時的表現,為模型在價值觀對齊方面提供了更深入的評估方法。
在心理學領域,問卷調查是評估人類價值觀的重要手段之一。近期,研究團隊將這種方法用于大語言模型,專注于研究模型在不同提示下生成內容的變化。實驗表明,盡管提示并未直接涉及特定價值觀,僅起到引導作用,但大語言模型的生成內容在不同提示下仍然會發生變化。這些研究為深入理解大語言模型的價值觀提供了新的視角。
盡管上述方法在某種程度上有助于評估模型的價值觀對齊,但這一領域仍面臨挑戰,因為目前缺乏直接測量大語言模型價值觀的有效方法。這一問題與心理學領域的類似挑戰相似,人類內在心理狀態同樣難以直接測量。然而,根據心理學的特質理論,可以通過觀察與之相關的外在行為來間接推測這些內在特質。因此,研究人員可以借鑒心理學領域的方法,嘗試評估和測量大語言模型的價值觀特性,但需要確保評估方法能夠準確測量模型的特定概念和特征,以保證評估結果的準確性和可靠性。
4.2 大語言模型在自主決策中的價值觀分類
價值觀分類不僅是針對模型的生成內容。模型自主決策的過程也涉及到價值觀的分類。對模型自主決策的價值觀分類方法不依賴于人工撰寫的誘導性文本,而是利用模型在不同決策場景下的偏好選項。例如,加州大學伯克利分校的研究人員開發了名為 MACHIAVELLI 的測試基準。研究人員在 100多本故事的基礎上構建了大量決策場景,并為每個選項設定了評估指標(如不公平行為、物理傷害行為、偷竊行為和權力欲望等)的變化值。模型在故事中做出各種決策,以推動劇情發展。在模型完成任務后,報告模型在不同價值維度上的得分。除此之外,還有如Jiminy Cricket等的測試基準,基于文本環境構建測試場景。這些方法為模型自主決策過程中的價值觀分類提供了有效手段。
5** 大語言模型的價值觀對齊技術**
價值觀對齊技術指通過預訓練或上下文提示等手段,確保語言模型生成的內容或決策符合目標價值觀。價值觀評估、分類與對齊過程相結合,可以實現使得大語言模型在各種情境下提供符合目標價值觀的服務的目的。
隨著大語言模型在多個領域的深入應用,為了確保這些模型與人類的價值觀保持一致,各種價值觀對齊技術逐漸發展和完善。目前,這些技術主要分為兩類,第一類是基于上下文的對齊學習方法,這種方法不需要對模型參數進行微調,而是依賴于模型本身強大的上下文理解能力和對指令的遵循能力;第二類是一系列通過訓練來調整模型行為的方法。如圖2所示,這些方法包括基于具體安全示例的監督微調(SFT)、基于人類偏好的人類偏好反饋強化學習 (RLHF),以及在人類偏好反饋強化學習基礎上加入明確規則的基于規范的獎勵模型(RBRM)等。上述不同技術都有其適用的場景和固有的優缺點。這些技術的發展不僅關系到模型的有效性,還涉及到如何確保人工智能技術在符合倫理和道德標準的同時,更好地服務于人類社會。
5.1 基于上下文學習的對齊
大語言模型在大規模語料庫上進行預訓練,并根據指令進行微調,已經獲得了大量的知識和能力。因此,上下文學習目前成為了一種有效的調整大語言模型輸出表現的方法,其具體做法是通過在提示中顯式要求模型避免有害回復來調整大語言模型的行為。例如,圖2左側所示,通過在提示中加入“不能違法”這一提示,大語言模型可以在輸出中避免給出教唆犯罪的內容。此方法的優點在于不需修改模型的參數,且不會影響模型的基本功能,但是其效果高度依賴于模型自身的糾錯能力,對于那些基礎性能較弱的模型表現不佳。
圖 2 大語言模型價值觀對齊方法
**
**
5.2 人在回路的對齊
人在回路的對齊具體是指在模型算法層面的各個階段,均可通過加入人工價值觀反饋來改進模型算法,常見的方法包括基于示例的監督微調對齊和基于人類偏好反饋的強化學習對齊等。
5.2.1 基于示例的監督微調對齊
與上下文學習不同,監督學習微調方法需要微調模型參數。如圖2所示,使用人工構建的符合價值觀的(輸入,輸出)數據對作為示例,以監督學習的方式訓練模型。在大語言模型ChatGPT出現之前,許多價值觀對齊的工作都采用這樣的訓練方式,例如ProsocialDialog、Moral Stories。此外還有研究人員設計了多種策略,通過提示大語言模型自動生成符合人類道德價值觀的指令數據,例如SelfInstruct和SELFALIGN。監督學習微調是一種在訓練穩定性和快速收斂方面表現出色的方法。然而,它也存在兩個主要限制,一是泛化到新樣例的能力較弱;二是缺乏對負面反饋的學習。這意味著雖然該方法在訓練集上表現良好,但可能在處理訓練集之外的新輸入時表現不佳,且在糾正不恰當輸出方面存在局限性。
5.2.2 基于人類偏好反饋的強化學習對齊
為了解決上述問題,大語言模型在微調階段引入了強化學習。人類反饋的強化學習是最具代表性的算法,共分為三個階段。首先,它使用監督微調訓練具有良好指令跟隨能力的模型。其次,收集并對各種質量的模型生成內容進行排名,以訓練一個獎勵模型。最后,通過PPO(proximal policy optimization)算法在微調大語言模型時應用獎勵模型,對模型的正確輸出進行獎勵和對負面輸出進行懲罰。如圖2所示,該過程對于回復1和2進行排名,對排名高的回復進行獎勵,鼓勵模型生成更好的回復。為了減少對手工反饋的依賴,許多研究使用大語言模型生成數據,例如 Constitutional AI。由于強化學習訓練成本高、資源需求大,且訓練過程不穩定和對超參數敏感,該方法仍需進一步探索。
此外也可采用基于規則的獎勵模型,為獎勵模型預先定義一些規則,獎勵模型根據規則而非從訓練數據學習到的偏好進行評分,如圖 2 所示。其中需要注意獎勵攻擊(reward hacking)問題,即生成模型可能通過學習到獎勵模型的某些特殊偏好來最大化其獎勵,這導致生成的內容可以被獎勵模型給出較高的評分但并不與人類的偏好完全對齊。受到PPO中訓練不穩定性的啟示,研究者探索了不依賴明確獎勵模型或強化學習的方法。DPO(direct preference optimization)采用了一種新策略,直接優化期望與不期望響應之間的相對對數概率。與此同時,RAFT方法則通過獎勵模型篩選高質量樣本進行模型的微調。有研究者提出RRHF方法,從各種基線模型、人類數據和目標模型等不同來源收集響應,并通過排名損失學習使它們與人類偏好保持一致。上述這些方法的共同特點是它們都能保留人類的偏好信號,同時規避了強化學習中常見的超參數敏感性問題。
5.3 多智能體協作的對齊
一些研究者還嘗試了通過多智能體協作對模型的價值觀進行對齊。例如 Stable Alignment方法使用了如Text-Davinci-003、ChatGPT等多種模型,并為它們設定了多種角色提示,從而構建了一個模擬社交互動的“沙盒”環境。在這個“沙盒”中,待對齊的模型會根據輸入指令生成多個回復,而這些回復會被“沙盒”中其他模型扮演的角色進行評分。這一機制旨在鼓勵模型傾向于生成得分更高的回復。多智能體構建的“沙盒”在這里起到了類似于獎勵模型的功能。這種對齊方式類似于模型蒸餾,依賴于扮演不同角色的大語言模型的價值觀對齊程度。
**6 **展望
隨著大語言模型技術的快速發展,其在社會各領域的影響也日益明顯。但同時,大模型與人類價值觀之間的對齊問題越來越受到公眾、研究者和政策制定者的關注。未來的大語言模型價值觀對齊研究有五個發展趨勢。
(1)多學科交叉驅動的大模型價值觀對齊。大語言模型的價值觀對齊問題亟需跨學科合作,涵蓋領域包括社會學、心理學等,這些學科可以為價值觀對齊研究提供重要的理論支持,同時可以協助研究人員建立更全面的價值觀指導原則和法規框架,以應對模型在不同領域和文化中的應用挑戰。基于此,多學科交叉可以從數據層面、算法動機層面、評測層面等多個層面為大模型價值觀對齊的研究提供支持,促進價值觀對齊策略和方法的高效發展。
(2)價值觀數據的多樣化和全面化。未來我們需要更加多樣和全面的數據集來捕捉和表示人類價值觀。這些數據集不僅應該包括各種文化、地域和社會背景的情境,還應該囊括不同哲學和道德觀念,確保大語言模型可以更好地為全世界不同用戶服務。實現價值觀數據的多樣性和全面性不僅需要跨足各個文化、地域和社會背景,還需要交叉學科的思維和貢獻。這些交叉學科相關的研究者們可以提供寶貴的思路和數據資源,有助于更好地理解和捕捉人類的多樣化價值觀。
(3)在大模型基礎能力之上持續增強價值觀對齊能力。研究表明,當大模型的價值觀對齊能力增強之后,很有可能會影響大模型的其他能力,因此,如何在不斷變化的環境中有效平衡價值觀對齊與模型的核心功能,成為了一個關鍵的研究問題。未來的工作應致力于開發成本更低、效率更高且廣泛適用的對齊策略,確保模型在處理復雜或惡意情境時,仍能做出與人類價值觀一致的決策。
(4)價值觀對齊模型的可解釋性。為了增進用戶對大語言模型決策過程的理解和信任,未來的研究需要更加關注模型的可解釋性。這包括探索如何使模型的決策過程更加透明,了解模型行為背后的原因,以及如何表示模型在提供服務時依賴的道德和價值觀標準。通過提高模型的可解釋性,研究者和用戶可以更好地理解模型行為背后的動機和邏輯。
(5)檢測評估手段的多樣性。目前大語言模型價值觀的不同評估手段有各自的局限性,也存在不同提示模版下大語言模型表現出的道德價值觀不同的情況,因此,檢測大語言模型內在價值觀是需要深入探索和分析的問題。研究者可借鑒心理學和認知科學等領域的評估方法,并探索適用于不同價值觀體系的分類評估方法。
大語言模型的價值觀對齊涉及哲學、倫理、心理學和社會學等多個領域。未來,更多的跨學科合作將成為必然趨勢。隨著大語言模型在各個領域的廣泛應用,政府和行業組織可能會出臺相關的政策和規范,確保技術的發展符合社會的整體利益。
7 結束語
大語言模型的價值觀問題既復雜又具有深遠的研究意義。雖然目前面臨眾多挑戰,但同時也蘊藏著巨大的機遇。盡管目前還存在許多挑戰,但大語言模型提供了前所未有的機遇。通過與人類價值觀的深入對齊,模型不僅可以提供更為智能和高效的服務,還可以更好地理解道德觀念和價值觀,推動人類社會的更為和諧發展。全社會需要充分認識到這一問題的重要性,并采取有效的對策,確保未來的大語言模型能為人類帶來更多的福祉和機遇。
(參考文獻略)
秦兵
哈爾濱工業大學社會計算與信息檢索研究中心主任、教授。主要研究方向為自然語言處理、知識圖譜、情感計算、文本生成。
吳迪
哈爾濱工業大學博士研究生。主要研究方向為價值對齊、社會計算和模型安全。
選自《中國人工智能學會通訊》 2024年第14卷第1期 人工智能倫理治理新挑戰專題
大模型與知識圖譜是知識表達的一體兩面,如何結合兩者是近期業界關注的焦點。來自英國愛丁堡大學等學者最新《大模型與知識圖譜》的簡述,討論了大模型和知識圖譜的互相促進的方式,值得關注!
大型語言模型(LLMs)已在知識表示領域——以及全球——引起軒然大波。這一轉折點標志著從明確的知識表示到對明確知識和參數知識雙方的混合表示的重新關注。在這篇立場論文中,我們將討論社區中關于LLMs(參數知識)和知識圖譜(明確知識)的一些常見爭論點,并推測這種重新關注帶來的機會、愿景以及相關的研究主題和挑戰。
大型語言模型與知識圖譜:機遇與挑戰
大型語言模型(LLMs)在知識表示(KR)和整個世界中引起了軒然大波,因為它們在廣泛的自然語言任務中展現出了人類級別的表現,包括一些需要人類知識的任務。在此之后,人們逐漸開始接受某些語言模型的參數中可能存在知識的可能性。LLMs的到來標志著知識計算的時代的開始,在這個時代中,KR內的推理概念擴大到基于各種知識表示的許多計算任務。這對知識表示領域來說是一個巨大的步驟。長時間以來,人們關注的是明確的知識,例如嵌入在文本中的知識,有時也被稱為非結構化數據,以及以結構化形式存在的知識,例如在數據庫和知識圖譜(KGs)[123]中。從歷史上看,人們長時間使用文本將他們的知識從一代傳遞到另一代,直到大約20世紀60年代,研究者開始研究知識表示以更好地理解自然語言,并開發了早期系統,例如MIT的ELIZA[180]。在21世紀初,知識表示和語義網社區合作標準化了廣泛使用的知識表示語言,例如RDF[121]和OWL[55],在網絡規模上,使用它們,大規模的知識庫被更廣泛地稱為KGs[123],由于它們有用的圖結構,實現了邏輯推理和基于圖的學習。與LLMs的到來相伴的這一轉折點,標志著從明確的知識表示向對明確知識和參數知識兩者的混合表示的重新關注的范式轉變。作為明確知識表示的流行方法,KGs現在被廣泛研究用于與基于Transformer的LLMs結合,包括像BERT[39]和RoBERTa[104]這樣的預訓練掩碼語言模型(PLMs),以及更近期的生成性LLMs,如GPT系列[23]和LLaMA[165]。一些工作使用LLMs增強KGs,例如,知識提取、KG構建和精煉,而其他工作使用KGs增強LLMs,例如,訓練和提示學習,或知識增強。在本文中,考慮到LLMs用于KGs和KGs用于LLMs的兩個方向,我們提出了一個從明確知識表示到對明確知識和參數知識兩者的混合表示的重新關注的轉變的更好理解。一個相關的調查論文[204]對使用LLMs進行KG構建和推理進行了全面的審查,而我們的工作為這一轉折點提供了更深入的視角,不僅考慮了關系性KGs,還考慮了使用本體論作為模式的KGs,以及其他維度的結構化知識,包括表格數據[183]和數值[122]。在LLMs和KGs的交叉點上的其他研究與我們論文中涵蓋的主題有輕微的重疊;例如,使用LLMs作為KGs的研究[5],使用KGs增強LLMs的研究[185],或者在三個與知識相關的任務上比較GPT-4、ChatGPT和SOTA微調方法——實體、關系和事件提取,鏈接預測和KG問題回答[204]。總的來說,這些論文中沒有一個深入探討這一轉折點的具體應用的含義。為此,本文總結了社區內的常見爭議點,介紹了在KGs和LLMs集成的一系列主題上的最新技術,并進一步提出了機會和挑戰。
知識圖譜與大型語言模型結合參數知識和明確知識的可用性所帶來的機會和愿景,本節我們將按照四個不同的主題對使用LLMs和KGs的最近發展進行分類、總結和展示。
1. LLMs 用于KGs:知識提取和規范化
KG的構建是一個復雜的任務,要求從包括結構化、半結構化和非結構化數據在內的廣泛來源收集和整合信息。傳統方法通常依賴于為處理每種數據類型而特別設計的模塊,并在內容多樣且結構異質時面臨困難。然而,LLMs 是在廣泛的信息來源上訓練的強大的NLP模型,使它們非常適合知識提取任務。本節介紹了使用LLMs從各種來源進行知識提取的工作。
實體解析與匹配實體解析(也稱為實體匹配、實體鏈接或實體對齊)是將出現在多個異構數據集中并指向同一個實體的信息片段進行鏈接的過程[46, 50, 126]。過去的研究主要集中在為扁平結構化數據所代表的實體之間開發方法和相似性度量。然而,針對KGs的半結構化數據的實體解析是一個相對較新的主題,受到的關注明顯較少。實體對齊的方法可以分為通用方法和基于嵌入的類別。通用方法,例如CG-MuAlign[203],使用圖神經網絡(GNNs)執行多類型實體對齊,利用鄰近信息并泛化到未標記的類型,以及REA[129],通過結合對抗性訓練與GNNs來解決多語言實體對齊問題,以應對輸入的噪聲標記數據問題。基于嵌入的實體對齊方法將圖實體之間的符號相似性減少到一個向量空間中,以消除圖組件的異質性并促進推理[156]。具體來說,總共有23種代表性的嵌入對齊方法在性能方面進行了交叉比較,但也顯示它們在標簽階段需要大量的監督。因此,在未來的研究調查中,非監督方法和能夠處理大規模KGs的方法是非常受歡迎的。LLMs在KGs的實體解析和鏈接中有多種用途[7]。首先,LLMs可以幫助標記訓練數據,這通常是一個資源密集且耗時的步驟,阻礙了KGs的實體對齊性能。類似于[146]使用生成對抗網絡(GANs)來減少標記數據的努力,我們認為LLMs可以提供KGs的標記樣本并控制上述基于嵌入的方法的性能。此外,LLMs可以幫助構建穩固的實體匹配規則語料庫,只要在圖設置中定義了一個聲明性形式化的邏輯語言L。這種邏輯語言的訓練數據應作為輸入提供給LLMs,類似于在文本語料庫中可供消費的SQL語句。然而,需要進行提示工程以產生對于像DBpedia[9]和Wikidata[169]這樣的實際大規模KGs有意義的規則語料庫。可以設想為這些實際的大規模KGs提供實體匹配規則日志,與這些KGs的查詢日志類似[18, 19]。總之,實體對齊和匹配是完整知識推理的必要前處理步驟。將通用實體鏈接方法與基于嵌入的方法相結合,以及利用LLM驅動的規則和標記數據構造,都可以更好地整合LLMs與知識推理[66]。后者整合LLMs和知識推理也可以提高性能,從而使模型的輸出可解釋和可解釋,并填補符號和統計AI之間的差距。
知識從表格數據中的提取
從數據庫、網頁表格和CSV文件等表格數據中提取知識是構建KG的常見方式。對于已知語義(元信息)的表格,可以定義和使用啟發式規則將其數據轉化為KG事實。然而,現實世界的表格通常具有不明確的語義,重要的元信息(如表格名稱和列標題)未明確定義。與此同時,在可以提取預期的知識之前,通常需要檢索、探索、整合和策劃原始數據。
近年來,基于Transformer的LM已被研究用于處理表格,尤其是它們的文本內容。它們可以被應用于表格向量表示作為其他預測任務的基礎[168]。TURL [38] 是一個典型的表格表示學習方法,使用BERT [39],已應用于多個任務,如單元格填充、列類型注釋和關系提取。類似地,RPT [162] 使用BERT和GPT進行表格表示模型的預訓練。Starmie [47] 使用模板將列轉化為序列,并使用可聯合和不可聯合的列對作為樣本微調BERT,采用對比學習框架。
在所有表格處理任務中,語義表格注釋,該注釋將表格數據匹配到KG組件(例如,表格列到KG類,表格單元格到KG實體,列間關系到KG屬性)可以直接應用于提取知識,用于KG的構建和填充[103, 76]。已經有幾次嘗試使用LLMs進行這些任務。Doduo [155] 將表格序列化為一個令牌序列,并訓練BERT來預測列類型和列間關系。Korini等人[86]提示ChatGPT來注釋語義列類型。當任務特定的示例極少或不存在時,ChatGPT的性能與RoBERTa模型相似。
盡管已經注意到了利用LLMs進行表格數據處理和KG構建,但仍然有很大的研究空間,特別是面臨以下挑戰:
將表格內容轉化為序列:表格或帶有其結構化上下文的表格元素需要被轉化為一個序列,然后才能輸入到LLMs中。對于不同的LLM利用場景,如微調LLMs、帶提示的LLM推斷以及LLM的指導調整,需要不同的轉換方法。
表示和利用非文本的表格數據:表格通常不僅包含長文本和短文本,還包含如數字和日期等其他類型的數據。還有很少的工作考慮這些數據。
提取表格知識:LLMs主要用于處理和理解表格,但很少應用于知識提取的最后步驟。已知OntoGPT[25]使用ChatGPT從文本中提取實例以填充本體,但對于表格沒有對應的工具。除了實例之外,提取關系事實更具挑戰性。
從文本中提取知識
從文本中提取知識通常涉及自動提取實體及其相關關系,傳統的流水線處理大量的句子和文檔。這個過程使原始文本轉化為可行動的知識,有助于各種應用,如信息檢索、推薦系統和KG構建。LLMs的語言理解能力已經增強了這一過程。例如,
命名實體識別 (NER) 和實體鏈接:如4.1.1節所述,涉及識別和分類文本中的命名實體(如人、組織和地點)并將其鏈接(更多內容參見4.2.1節)到KGs。
關系提取:關注識別和分類實體之間的關系,利用LLMs的零射擊和少射擊的上下文學習技術[178, 93]。
事件提取:旨在檢測和分類文本中提到的事件,包括其參與者和屬性[170, 194]。
語義角色標記 (SRL):涉及識別句子中實體所扮演的角色,如主語、賓語和謂語[148, 199]。
這些方法允許LLMs從文本中提取信息,無需在特定領域進行大量的明確培訓,從而提高其多功能性和適應性。此外,LLMs已經證明了在從英語之外的語言中提取知識的能力,包括低資源語言,為跨語言知識提取鋪平了道路,并使LLMs能夠在多種語言環境中使用[89]。
此外,對LLMs的提示引入了NLP領域的新范式和可能性。LLMs可以生成高質量的合成數據,然后可以用來微調較小的特定任務模型。這種方法,稱為合成數據生成,解決了有限的訓練數據可用性的挑戰,并提高了模型的性能[77, 163]。此外,指導調整已經成為一種強大的技術,其中LLMs被訓練在由明確指令描述的數據集上,使得能夠更精確地控制和定制它們的行為以適應特定的任務[178, 174]。
還有,對于構建特定領域的KGs,風險更高,因此對生成的文本(由專家)進行審查是必要的。然而,這仍然是一個進步,因為人工注釋的成本低于人類文本生成。
除了訓練和利用這些LLM所需的大量計算資源需求之外,還存在各種挑戰,包括在第2節中提到的挑戰。更具體地說,以下未來的方向仍然是可能的: * 從非常長的文檔中有效提取:當前的LLMs無法一次處理像小說這樣的非常長的文檔。在這方面,可以進一步改進建模長范圍依賴性和執行語料級信息提取。 * 高覆蓋率信息提取:幾乎所有的提取流水線都關注高精度。然而,高回報率被忽視或未被充分探索[152]。建立具有高精度和高回報率的知識提取器將是建立終身信息提取器的一個巨大飛躍。
LLMs 用于 KGs知識圖譜構建 我們強調了 LLMs 在改進知識圖譜構建中的重要作用,重點關注這個領域的當前趨勢、問題和未回答的問題。我們首先討論鏈接預測,這是根據現有的知識圖譜生成新事實的一種方法。接下來,我們考察歸納鏈接預測,一種預測未見關系的三元組的方法。我們的關注點隨后轉移到一種更為近期的方法,其中三元組直接從 LLM 的參數知識中提取出來。作為這個部分的結論,我們討論了基于 LLM 的知識圖譜構建方法的挑戰。這些挑戰涉及到長尾實體、數值以及這些方法的精確性問題。
**LLMs 用于 KGs 本體模式構建 **一個知識圖譜通常配備有一個本體模式(包括規則、約束和本體)以確保質量,使知識訪問更加容易,支持推理等。同時,一個獨立的本體,通常代表概念性知識有時帶有邏輯,也可以被視為一個知識圖譜。在這部分,我們介紹 LLMs 被應用于學習本體模式和管理本體的主題。
**KGs 為 LLMs 提供支持:訓練與訪問 **LLMs 在 4.1 到 4.3 節中,我們討論了使用 LLMs 為 KGs 提供支持的三個不同方面。在本節中,我們將研究相反的方向,即使用 KGs 為 LLMs 提供支持。這里有幾個維度。首先,KGs 可以用作 LLMs 的訓練數據。其次,KGs 中的三元組可以用于構建提示。最后但同樣重要的是,KGs 可以用作檢索增強語言模型中的外部知識。**4.5 應用 **將 KGs 和 LLMs 集成到統一的方法中具有巨大的潛力,因為它們的組合能夠相互增強并以有價值的方式互補。例如,KGs 提供非常準確和明確的知識,這對于某些應用(如醫療保健)至關重要,而 LLMs 由于缺乏事實知識而被批評導致幻覺和不準確的事實。其次,LLMs 缺乏可解釋性,相反,由于 KGs 具有符號推理能力,它們能夠生成可解釋的結果。另一方面,從非結構化文本構建 KGs 很困難,并且存在不完整性,因此,可以利用 LLMs 通過文本處理來解決這些挑戰。各種應用都采用了這種將 LLMs 與 KGs 結合的方法,如醫療助手,問題回答系統[188]或 ChatBots,以及可持續性等。
結論
近年來,大型語言模型(LLMs)的進展為知識圖譜(KG)研究標志了一個重要的轉折點。盡管如何結合它們的優勢的重要問題仍然懸而未決,但這為未來的研究提供了令人興奮的機會。社區已經迅速調整其研究重點,新的論壇如 KBC-LM 工作坊 [79] 和 LM-KBC 挑戰 [151] 已經出現,資源大量轉向知識提取、整合和使用的混合方法。我們提出以下建議:
不要因為范式的轉變而丟棄 KG:對于一系列可靠性或安全關鍵的應用,結構化知識仍然是不可或缺的,我們已經概述了 KGs 和 LLMs 如何相互促進的多種方式。KGs 是留下來的,不要僅僅因為時尚而拋棄它們。
殺掉你的寵兒:LLMs 已經大大推進了 KG 和本體構建管道中的許多任務,甚至使一些任務過時。對最為確立的管道組件進行嚴格的審查,并不斷地與基于 LLM 的最新技術進行比較。
保持好奇,保持批判:LLMs 無疑是過去幾年 AI 研究的最令人印象深刻的產物。盡管如此,公眾和研究文獻中都存在大量夸大的聲明和期望,人們應該保持適度的批判反思。特別是,對所謂的幻覺問題的根本解決方法尚未出現。
過去已經結束,讓我們開始新的旅程:由 LLMs 觸發的進展以前所未有的方式顛覆了這個領域,并使得進入這個領域有了重要的捷徑。在與知識計算相關的領域開始新的征程,現在是最好的時機。盡管目前的轉變方向廣泛開放,但隨著研究者繼續探索混合方法的潛力和挑戰,我們可以期待在知識的表示和處理上看到新的突破,這將對從知識計算到 NLP、AI 乃至其他領域產生深遠的影響。
基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注,特別是在以故障診斷、軟 測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模, 這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面 向工業監控典型監督任務的深度遷移學習方法,并將其分為基于模型遷移、基于樣例遷移與基于特 征遷移的工業監控方法。在此基礎上,對不同類方法的基本研究思想、在故障診斷與軟測量任務中 的研究進展進行了詳細闡述。隨后,從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移 問題、工業過程的動態特性問題等角度,指出了當前基于深度遷移學習的工業監控研究中存在的挑 戰,并對該領域的未來研究方向做出進一步展望。
1. 引言
隨著現代工業不斷向高端化、復雜化趨勢發展,系統運行的安全性、可靠性面臨著更大挑戰 [1~ 3]。作為保障工業安全可靠運行的必要手段,以數據驅動的故障診斷與軟測量為典型代表的工業監 控任務在近年來獲得了大量關注 [4~6]。故障診斷旨在識別出當前系統所發生的故障類型,而軟測量 往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中,質量變量一般指在工業過程中 與產品質量緊密相關的、需加以監控的過程變量,這類變量往往具有獲取成本較高、測量具有一定 延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本,有監督機器學 習方法目前在這兩類任務中得到了廣泛應用 [8~10]。近十年來,得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署,基于深度學習的方法在工業監控領域大放異彩。例如,基于各類卷積 神經網絡 [11~14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟 測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而,這些方法往往假設訓練數據與測試 數據具有相同的分布 [18]。在實際工業場景中,操作條件改變、給料變化等復雜變工況現象 [19~22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑 戰。
近年來,隨著深度遷移學習方法的興起,通過挖掘與遷移相似源域的知識來完成對目標域的建 模,為解決上述問題提供了新的思路 [23]。一般來說,深度遷移學習方法以深度神經網絡為基礎,通 過利用源域中的數據或模型,進一步結合目標域中的有限數據,以完成知識的遷移過程。不同于傳 統基于機器學習的工業監控方法對不同域單獨建模并決策,基于深度遷移學習的工業過程監控方法 往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經 驗中學習到的知識以輕松適應新的場景這一能力。基于此理念,近年來深度遷移學習方法在工業監 控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻 搜索,可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示,在過去的五年中,本領 域的相關研究經歷了飛速發展,其中,英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇,中 文文獻數量從 0 篇增長至 28 篇,顯示出相關學者對本領域的關注不斷提升。當前,國內外學者針 對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究,也有一些工作對相關研究進行了 整理與綜述。例如,文獻 [23] 根據傳統遷移學習中的不同任務場景,將遷移學習分為歸納式、直推 式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同,將深度 遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方 面,目前已有若干前人工作 [25,26]。例如,Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行 了總結與綜述。此外,針對流程工業的軟測量問題,Curreri 等人 [28] 根據遷移學習在不同類型工業 過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究 進行了簡要回顧,并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看,目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題,從深度遷移學習的角度出發對工業監控 中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此,本文面向工 業監控中的兩種典型有監督任務,即故障診斷與軟測量,對深度遷移學習方法展開了相關綜述。其 中,故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義;另一方面其建模 往往基于工業過程歷史運行過程中積累的有監督樣本,屬于工業監控中有監督學習的典型代表。此 外,在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注,屬于工業監 控領域的熱門研究方向之一。
本文的結構框架如圖2所示。首先,對基于深度遷移學習的工業監控方法現狀進行介紹。其中, 首先對深度遷移學習進行概述,進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類 別,即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測 量兩種應用場景進行介紹。其次,從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移 問題,以及工業過程的動態特性問題等角度,對當前基于深度遷移學習的工業監控方法所面臨的挑 戰進行了分析。最后對本領域的未來研究方向,包括多源信息融合的跨域工業監控以及語義知識與 數據聯合驅動的跨域工業監控做出進一步展望。
**基于深度遷移學習的工業監控方法總結 **
在本小節中,將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典 型工作、方法特點與適用場景總結于表1中。如表所示,總體來看,基于模型遷移的工業監控方法往 往要求目標域中包含少量標注數據。若源域中包含充足標注數據,即可基于源域工況建立基礎模型; 反之,可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法, 往往針對源域與目標域均具有標注樣本的情況,通過對源域與目標域數據進行權重學習,從而實現 可遷移樣例的挖掘。此外,樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景 較為適用。最后,基于特征遷移的工業監控方法相較于其余兩類方法,在近年來獲得了更多的研究 關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移,較適用 于目標域中只有無標注樣本的場景。
海洋是高質量發展的要地,海洋科學大數據的發展為認知和經略海洋帶來機遇的同時也引入了新的挑戰。海洋科學大數據具有超多模態的顯著特征,目前尚未形成面向海洋領域特色的多模態智能計算理論體系和技術框架。因此,本文首次從多模態數據技術的視角,系統性介紹面向海洋現象/過程的智能感知、認知和預知的交叉研究進展。首先,通過梳理海洋科學大數據全生命周期的階段演進過程,明確海洋多模態智能計算的研究對象、科學問題和典型應用場景。其次,在海洋多模態大數據內容分析、推理預測和高性能計算三個典型應用場景中展開現有工作的系統性梳理和介紹。最后,針對海洋數據分布和計算模式的差異性,提出海洋多模態大數據表征建模、跨模態關聯、推理預測、高性能計算四個關鍵科學問題中的挑戰,并提出未來展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2029&journal_id=jig
海洋是高質量發展的要地,是人類社會的未來。但目前對海洋系統的精細認知不足 5%。 通過觀測、監測、調查、分析和統計獲取的海洋大數據是人類認識海洋的主要途徑。如圖 1, 隨著全球海洋立體“空-天-地-海-底”觀測系統的不斷發展(吳立新等, 2020),形成了面向海洋 的遙感圖像、時空序列數值、仿真數據、文獻資料、監控視音頻等大規模多模態數據。根據 當前關于海洋數據量的研究,2014 年全球各種海洋數據總量約為 25PB,預計 2030 年全球 海洋數據總量將達到 275PB。這表明海洋多模態數據的存量已經接近 EB 級,日增量也達到 TB 級。其中,海洋遙感圖像和時空序列數值是其主體,時空序列數值以矩陣形式呈現,通 常也作為圖像對待。所以,對以圖像為主的海洋多模態大數據的深入分析和挖掘,是認知海 洋動力過程、能量物質循環、藍色生命演變,實現科學重大發現、生態環境健康、應對極端 天氣和氣候變化的關鍵途徑,也是支撐人類社會可持續發展的重大戰略需求。
和傳統大數據相比,海洋多模態大數據具有超巨系統(占地表 71%面積,日增量 10TB)、 超多視角(“陸-海-氣-冰-地”耦合、“水文氣象聲光電磁”多態)、超跨尺度(“厘米至百公里” 空間尺度,“微秒至年代際”時間尺度)等顯著特征,導致現有的多模態智能計算技術難以應 對跨尺度多模態融合分析、多學科跨領域協同推理、大算力多架構兼容應用等難題。因此, 雖然我國對海觀測能力日益強大,但海洋多模態大數據價值挖掘的智能化水平不足,迫切需 要針對其差異化特點,構建面向海洋的多模態智能計算理論體系和技術框架。目前,海洋多 模態智能計算領域的研究剛剛起步,尚未形成體系化和差異化研究方向,現階段的工作大多 關注現有多模態數據挖掘技術在海洋場景下的應用優化,并未針對海洋領域數據的分布特點 開展深入研究。因此,本文通過梳理現階段海洋領域面向多模態智能計算中的內容分析、融 合推理、智能計算等方面的現有工作,結合領域場景需求,提出海洋多模態智能計算的主要 研究內容、現有進展、關鍵問題和未來展望
分享嘉賓:陳宏智博士 字節跳動編輯整理:王柳月 上海對外經貿大學出品平臺:DataFunTalk
**導讀:**作為一種基礎的數據結構,圖數據的應用場景無處不在,如社交、風控、搜廣推、生物信息學中的蛋白質分析等。如何高效地對海量的圖數據進行存儲、查詢、計算及分析,是當前業界熱門的方向。本文將介紹字節跳動自研的圖數據庫ByteGraph及其在字節內部的應用和挑戰。 本文將圍繞以下五點展開:
01
了解圖數據庫
目前,字節內部有如下表三款自研的圖數據產品。
1. 對比圖數據庫與關系數據庫
圖模型的基本元素包括點、邊和屬性。舉例:張三的好友所在的公司有多少名員工?傳統關系型數據庫需要多表join,而圖作為半結構化數據,在圖上進行遍歷和屬性的過濾會更加高效。
2. 什么是圖數據庫?
近五年來,圖數據庫在領域內熱度上升趨勢非常明顯,各個大廠與開源社區都推出了自己的圖數據庫。用戶規模比較大、有一定影響力的查詢語言包括Cypher、Apache開源項目的Gremlin等。從集群規模來看,過往有單機數據庫,現在大多圖數據庫都具備分布式能力,這就需要考慮數據的防丟失問題、主副本之間的一致性、多臺機器數據上的shard問題。 部分圖數據庫把圖數據庫與圖計算引擎二者合并在一起,目前字節內部采用的暫時分離的兩套系統。
02****適用場景介紹舉例
1. ByteGraph適用的業務數據模型
ByteGraph初始立項是在2018年,主要目的是對頭條的用戶行為及好友關系進行存儲來替換Mysql;2019年6月承接對抖音用戶關系的數據存儲任務,接著在字節內部各種微服務重承接了相關業務。
2. 已上線業務場景分類
目前有1.5萬臺物理機,服務于600+業務集群。
03****數據模型和查詢語言
1. 有向屬性圖建模
目前來看,圖數據庫通常有兩大類,一種是屬性圖,另一種是RDF圖。屬性圖在節點和邊上有屬性表,從某種角度上講,它仍帶有關系數據庫的基本特性,類似表結構的形式,實際是采用Key-Value形式來存儲的,如用戶A關注了用戶B,用戶C點贊了某個視頻等,則會把關注的時間、點贊時間、評論的內容等以不同的有向邊存儲在屬性圖中,用圖來描述業務邏輯。
2. Gremlin查詢語言接口
選用Gremlin語言是考慮到之后方便對圖計算、圖數據庫二者進行融合,本身是圖靈完備的圖遍歷語言,相較于Cypher等類SQL語言,對于善用Python的數據分析師更容易上手。 舉例:寫一條用戶A所有一跳好友中滿足粉絲數量大于100的子集。首先定位用戶A在圖中的點,其次求一跳查詢中的所有鄰居,判斷入度鄰居整體數量是否大于100,拉取滿足條件的所有用戶。
04
ByteGraph架構與實現
1. ByteGraph整體架構
ByteGraph整體架構分為查詢引擎層(Graph Query Engine,下文簡稱GQ)、存儲引擎層(Graph Storage Engine,下文簡稱GS)和磁盤存儲層三層,整體上計算和存儲分離,每層由多個進程實例組成集群。
2. ByteGraph讀寫流程
拿“讀流程”舉例,請求獲取用戶A的一跳鄰居。首先一個查詢進來后,從client端隨機挑選一個查詢層響應,對應到GQ2上,獲取對應的數據存放的位置是哪一臺機器,接著把請求給到GS1,檢查數據是否在該層以及是否為最新數據,如果不在則去KV store把所需數據拉取至GS1 緩存中。
3. ByteGraph實現:GQ
GQ同MySQL的SQL層一樣,負責查詢的解析和處理,其中的“處理”可以分為下述三個步驟: * Parser階段:利用遞歸下降解析器將查詢語言解析為一個查詢語法樹。 * 生成查詢計劃:將Parser階段得到的查詢語法樹按照查詢優化策略(RBO&CBO)轉換為執行計劃。 * 執行查詢計劃:理解GS數據分Partition的邏輯,找到相應數據并下推部分算子,保證網絡開銷不會太大,最后合并查詢結果,完成查詢計劃。
RBO主要基于Gremlin開源實現中的自帶優化規則、針對字節應用中的算子下推、自定義的算子優化(fusion)三大規則。CBO本質上是對每個點的出入度做統計,把代價用方程量化表示。
對于不同支持場景使用不同策略,圖分區算法的選擇與workload強相關,圖分區算法能有效減少網絡通信次數。
Brute force哈希分區:即根據起點和邊的類型進行一致性哈希分區,可以大部分查詢場景需求,尤其是一度查詢場景。
知識圖譜場景:點、邊類型極多,但每種類型邊數量相對較少,此時根據邊類型進行哈希分區,將同種邊類型數據分布在一個分區內。 * 社交場景:更容易出現大V,利用facebook于2016年提出的social hash算法,通過離線計算盡量將有關聯的數據放置在同一分片內,降低延遲。****
4. ByteGraph實現:GS
存儲結構
單個Partition定義為一個起點+一種特定的邊類型扇出的一跳鄰居。在GS中,將一個Partition按照排序鍵(可顯式設置或系統默認維護)組織成Btree。每棵Btree都有獨立的WAL序列,獨立維護自增logid。這種設計有利于支持GNN場景,做分布式采樣。 Edge Page、Meta Page分別是位于Btree中的葉子結點、非葉子結點(充當index作用),分別用于存儲圖中的邊數據和指向子節點的Key。Meta page長度是固定的,但是一個meta page會放多少edge page是可配的,通常配置為2000一片。如上圖,Partition在磁盤中將每個page都存儲為一個獨立的鍵值對(下文簡稱KV対)。meta page的key是起點+邊類型,edge page的key存在meta page中實現對特定edge page的查找。 單機內存引擎整體采用hash map的結構,partition和page按需加載到內存中,根據LRU策略(Least Recent Used),swap到磁盤;某個page被修改后,WAL同步寫到磁盤,page會插入到dirty鏈表中,考慮當前機器狀態,異步寫回。
日志管理:單個起點+邊類型組成一棵Btree,每個結點是一個KV對。
每棵Btree單一寫者,防止并發寫入導致不完整;每棵樹都有獨立的WAL日志流,且寫入請求處理流程中只寫入WAL,并修改內存中數據,compaction時再將數據落盤,解決由于每個KV對可能由多條邊組成而導致的寫放大。即使內存數據丟失,仍可通過更新后的logid在磁盤上進行WAL的查詢并寫入。 * 緩存實現:根據不同場景及當下cpu的開銷有不同策略。
圖原生緩存:相對于Memcached等直接緩存二進制數據而言,能更好的理解圖的語義,并支持一度查詢中的部分計算下推功能。 高性能LRU Cache:支持緩存逐出,且逐出的頻率和觸發閾值可調;采用numa aware和cpu cacheline aware設計,提高性能;支持Intel AEP等新硬件。 Write-through cache:支持多種與底層存儲同步數據的模式,可以每次寫入或定時落盤;支持定期與底層存儲校驗數據,防止數據過舊;支持負緩存等常見優化策略。 緩存與存儲分離:當數據規模不變、請求流量增大的情況下,緩存與存儲分離的模式可以快速擴容緩存以提高服務能力。
05****關鍵問題分析
1. 索引
局部索引:給定一個起點和邊類型,對邊上的屬性構建索引
特點:邊上元素皆可做索引項,能夠加速查詢,提高屬性過濾和排序性能;但會額外維護一份索引數據,與對應的原數據使用同一條日志流,保證一致性。
全局索引:目前只支持點的屬性全局索引,即指定一個屬性值查詢出對應的點。
數據存儲在不同機器上,索引數據的一致性使用分布式事務解決。
2. 熱點讀寫
熱點讀
場景舉例:某熱點視頻被頻繁刷新,查看其點贊數量。 應用機制:GQ層采用多個bgdb并發處理同一熱點的讀請求,單節點緩存命中讀性能可達20萬以上;GS層采用copy on write(即先拷貝,再寫入并替換)保證讀寫、讀讀均可并發。
熱點寫
場景舉例:某熱點視頻短時間內被瘋狂轉發、點贊。 問題溯源:單機cpu使用率被拉高,磁盤寫入iops有上限,當客戶端寫入qps>磁盤iops時,就會發生請求排隊。 應對機制:采用group commit機制,即將多個寫入請求組合至一個batch寫入KV,再批量返回,降低磁盤層iops的上限。
3. 輕重查詢資源分配
將輕重查詢的資源池分離,輕查詢走light線程池,負責數量多的小查詢;重查詢則走heavy線程池,負責數量少的重查詢。當heavy線程池空閑時,輕查詢也可走。
4. 高可用
城域網雙機房,如國內的兩個機房,延遲較低。follow一寫多讀策略,備機房把寫流量轉入主機房,只有主機房會把WAL更新到KV存儲上。
廣域網容災部署,如新加坡和美國的兩臺機器,延遲較高。follow了mysql的思想,每次寫入在本地寫入成功后,會被轉化為binlog,再發送給其他單元;并通過hybrid logical clock保證各單元對于一條邊的操作順序一致性。
5. 離線在線數據流融合
導入存量數據、寫入在線數據,將二者集成在公司內部數據平臺進行離線數據分析,具體流程如圖。 今天的分享就到這里,謝謝大家。
在文末分享、點贊、在看,給個3連擊唄~
分享嘉賓:
隨著空間數據體量的持續增長,空間數據所蘊含的價值巨大.傳統的數據感知存儲技術和處理分析方法已然不能充分挖掘海量空間數據的價值.因此,空間數據智能,一個專注于海量空間數據的研究與應用的多學科交叉的領域,正扮演著越來越重要的角色.介紹了空間數據智能的概念、空間數據智能領域所面臨的技術挑戰及空間數據智能的關鍵技術,同時介紹了空間數據智能在社會生活中的典型應用場景,最后對空間數據智能研究的發展做出了展望.
引言
空間數據是描述自然地理空間和人類活動空間 所包含的人、物體、事件的信息.通常來說,空間數據 具有空間位置信息、時間信息和屬性信息.與土地一 樣,具有空間位置信息的空間數據是一個國家擁有 的具有戰略意義的重要資源.我國幅員遼闊、人口眾 多,加上這十多年來快速發展的數字化建設,空間數 據的現有量級十分巨大.伴隨著各類傳感器和全球 定位系統的更加廣泛使用,諸如遙感數據、地圖測 繪、交通軌跡數據、手機信令數據、APP打卡數據等 空間數據將持續增長,并帶來巨大的價值.
面對海量異構的空間數據,傳統的數據感知存儲技術和處理分析方法顯然已經不適用,亟需對應 的科學技術的發展,這正是空間數據智能逐漸興起 的原因.空間數據智能是利用先進通信技術、人工智 能方法、大數據分析、先進計算機技術等技術方法對 空間數據進行更好地感知、采集、分享、管理、分析及 應用的一個多學科交叉的研究領域.空間數據智能 旨在通過相關理論和技術的突破,充分釋放空間數 據的潛在價值,讓海量空間數據賦能于各行各業,服 務于我國經濟社會的發展. 隨著空間數據智能的持續發展,空間數據智能 逐漸形成了數據感知、數據管理、數據分析、數據安 全等主要發展方向,分別專注于數據的獲取與感知、 數據的存儲與管理、數據的加工和深入分析、數據的 隱私和安全等方面.
1 空間數據智能的挑戰和關鍵技術
1.1 技術挑戰
空間數據的持續增長對于空間數據智能而言, 既是機遇又伴隨挑戰.空間數據智能所面臨的主要 挑戰包括數據感知、數據分析處理、數據應用、數據 隱私與安全、高精度地圖等方面. 1) 數據感知.如何全方位、高效、實時和可靠地 感知空間數據,從現有海量的傳感器中收集空間數 據,打造一個海陸空一體化的空間數據體系,是目前 面臨的一個關鍵挑戰.隨著物聯網的快速發展,無處 不在的傳感器每天都在高速生產海量的空間數據, 急需探究一種能夠滿足在不同類型傳感器和碎片化 的數據生產過程中實現高效穩定采集數據的方法.
2) 數據分析處理.如何處理結構復雜、高維、高 噪音和多源異構的海量空間數據是目前面臨的一個 主要挑戰,傳統的空間數據處理技術已不能滿足現有的實時動態計算需求,迫切需要構建一套具備整 合、清洗、儲存和處理海量空間數據的技術體系.
3) 數據應用.面對多源異構的海量空間數據, 如何利用大數據、云計算和人工智能等新一代信息 技術實現數據價值的挖掘和分析,并針對不同的應 用場景提供個性化、高效、實時和有用的價值服務, 也是目前面臨的一個主要挑戰.
4) 數據隱私與安全.如何在充分利用空間數據 的價值的同時做好空間數據的隱私和安全保護是一 個非常重大的挑戰,空間數據直接耦合了大量的位 置信息,關乎個人隱私和國家安全,因此,做好空間 數據的隱私與安全保護是未來的一個極其重要的研 究工作.
5) 高精度地圖.現有的位置服務往往存在精度 低、基準差異大、延時高、穩定性差等痛點,無法滿足 人們對高效精準的位置服務的日益增長的需求,特 別是在自動駕駛和出行導航方面,因此迫切需要構 建一套具備高精度、統一基準和實時穩定的地圖服 務體系.
1.2 關鍵技術
1.2.1 時空數據庫
時空數據庫旨在存儲與管理同時具備時間和空 間屬性的時空數據.時空數據是包含對象、過程、事 件及其在空間、時間、語義等方面的關聯關系.例如, 對于移動物體,其在移動過程中產生的軌跡數據就 屬于時空數據.因此,時空數據庫可以捕捉具有空間 參考的移動對象的運動變化,即通過增加時間維度, 將原先的空間數據模型擴展為時空數據模型[1],并 為時空數據提供高性能的讀寫和計算服務.根據時 空數據庫的存儲和計算特點,時空數據庫可以分為 分布式時空數據庫、AI賦能時空數據庫、新型硬件 時空數據庫等.
1) 分布式時空數據庫.由于 GPS定位設備的廣 泛普及和移動計算的快速發展,時空數據的規模呈 爆炸性增長[2],這對大規模時空數據的存儲和處理 帶來了巨大挑戰.鑒于此,現有工作提出了基于批式 或流式 分 布 式 處 理 平 臺 (如 Hadoop,Spark,Flink 等)的分布式時空數據庫系統[3G5]、分布式時空索引 及更新策略[6]等.
2) AI賦能時空數據庫.時空數據的核心價值是 蘊含于其中的深層信息∕知識.通過 AI技術可以捕 獲時空數據中隱含知識和數據價值,能夠實現更加 智能高效的數據庫管理與應用.為此,現有工作提出了基于神經網絡的學習型索引[7]、基于強化學習的 參數調優[8]、基于遷移學習的基數估計[9]以及基于 深度學習的異常檢測[10]等.
3) 新型硬件時空數據庫.數據庫系統大多依賴 多級內存層次結構(如磁盤、主內存和多個級別的處 理器緩存),而計算機硬件與各個級別的設備都直接 影響到數據庫性能.傳統的以 CPU 為計算中心的數 據庫技術面臨“能耗墻,內存墻”的限制.近年來,新 型硬件(如 GPU,NPU 等)被廣泛應用,借助其高吞 吐、低延遲、易擴展的特點以及其與 AI的強交互能 力,新型硬件時空數據庫正在快速發展.例如,現有 工作提出了基于 GPU 的時空數據庫系統[11],以提 高時空數據的實時查詢能力.
針對數據庫系統的研究,除了需要提供高性能 的讀寫和計算服務外,還要求數據庫在與用戶進行交 互時提供高可用性.時空數據庫可用性主要體現在為 用戶提供對預期之外的時空查詢結果的解釋,滿足用 戶從時空數據庫查詢中得到精確和完整查詢結果的 期望[12G13].現有工作提出了針對反向topGk 查詢的 why和 whyGnot問題處理框架[14]、路網中基于范圍 skyline查詢的 why和 whyGnot問題處理方法[15]、 概率反向skyline查詢的causality與responsibility 計算方法[16]等.
1.2.2 空間感知技術和時空數據挖掘
空間信息的感知依賴于傳感器技術和網絡技 術,是空間數據智能的神經末梢.然而現實世界是復 雜多變的,因此需要可靠的、泛在的、實時更新的感 知層收集可靠的時空信息.空間感知技術可從傳輸 網絡和接口來分類,根據網絡范圍主要分為衛星網、 互聯網、物聯網和無線傳感網技術[17]:1)衛星網可 以通過航天衛星、航天飛機、無人機等裝置進行衛星 定位、對地觀測、地圖繪制,大氣層云圖繪制等;2)互 聯網通過智能手機、移動終端、智能穿戴設備等采集 人的移動性數據、社交媒體等;3)物聯網主要通過工 業和家用網絡中常見的 RFID 室內外定位,監控設 備,監測傳感器等低能耗消耗的傳感器來收集環境 數據;4)無線傳感網可將其末段傳感器采集的數據 如地震、電磁、溫度、濕度、噪聲、光強度等借助物聯 網,廣域網或者衛星網絡傳輸給網絡所有者.
由空間感知技術采集到的多源異構時空數據, 經過有效強大的時空數據庫存儲和管理,最后由時 空數據挖掘技術來探索發現數據價值并給各類應用 提供有力支撐.空間數據中的數據挖掘技術進行簡單分類如下:1)時空數據預處理方法:軌跡分段和壓 縮、地圖匹配、區域劃分和缺值補全等;2)傳統的統 計方法:回歸分析、判別分析、因子分析、歷史平均和 自回歸等;3)傳統的機器學習方法:聚類方法、隱空 間模型、條件隨機場等;4)前沿的機器學習方法:深 度學習、強化學習、元學習、遷移學習、持續學習和對 比學習等;5)可視化方法:時序數據可視化、軌跡可 視化、集體趨勢時空可視化、聚類可視化、地圖可視 化和相似性探索可視化等.數據挖掘方法十分豐富, 需要綜合使用多種技術來挖掘空間數據中存在的價 值,為人所用.
1.2.3 時空數據安全與隱私
為了更好地保障用戶對其個人數據的使用知情 權和處理權,歐洲政府于2018年出臺了用戶隱私保 護政策?通用數據保護條例?(GDPR).中國在3年后 也頒布了?中華人民共和國數據安全法?,加快填補 國內數據安全保護的空白.其中,由于時空數據可以 用于城市規劃、智能交通和商業分析等應用,并且往 往涉及到公共事件、政策等方面的敏感信息,因此保 障時空數據的安全與隱私更是對維護國家安全有重 要意義.在城市發展的過程中,依據空間數據的時空 特性,我們認為在數據采集、數據處理和數據發布 3個階段有不同的隱私保護要求.
1)數據采集.由于設備和環境的限制,采集到 的連續數據在空間上和時間上都很強的不確定性[18]. 尤其是個人軌跡數據會更加稀疏,因為用戶不會隨 時訪問位置服務并貢獻數據.為了保護這一階段用 戶的隱私,同時得到高質量的時空數據,目前的研究 工作提出了在神經網絡模型中引入注意力機制[19]; 采用眾感知框架的同時結合壓縮感知[20]等.
2)數據處理.在挖掘空間數據包含大量可用信 息時,安全和隱私面臨的挑戰更加嚴峻.如果研究者 還是以普通的深度學習框架對數據進行處理,中心 化地處理大規模的未脫敏數據,不僅會加重中心服 務器的負擔、浪費邊緣計算資源,更重要的是大量用 戶的隱私安全得不到保障.目前,新型的聯邦學習框 架[21]已經掀起了一陣研究熱潮,致力于解決深度學 習過程中隱私泄露問題.聯邦學習具有極高的可擴 展性,并能很好地與其他隱私保護方法相結合,例如 同態加密[22]和差分隱私[23]等密碼學方法.
3)數據發布.在發布收集到的原始數據或是處 理好的數據結果時,平衡好用戶隱私和數據可用性 之間的關系時非常重要的.常見的方法包括 KG匿名和對數據進行模糊處理[24],保障了每個用戶的敏感 信息能夠藏匿于打包的數據集中.
2 空間數據智能的典型應用場景
2.1 城市交通應用
國家“十四五”規劃進一步明確了要大力推進智 能交通的發展,促進交通領域的數字化和智能化提 升.空間數據智能技術是實現智能交通的關鍵技術, 通過依托無處不在的城市交通時空數據,借助物聯 網、移動互聯網、大數據、云計算、人工智能和數字孿 生等新一代信息技術,可以有效地實現交通時空數 據的價值分析和共享,能夠實時動態精準地提供道 路交通狀態信息、位置導航服務、出行客流情況和環 境天氣關聯影響[25],在實現交通智能化管理的同時 也可以進一步有效地促進自動駕駛和車路協同系統 的發展. 未來通過借助空間數據智能技術,能夠大大加 快城市交通由信息化向智能化的轉型,為廣大乘客、 交通機構和政府部門提供智能化的交通出行和管理 服務.對廣大乘客而言,空間數據智能技術能夠為用 戶帶來精準的位置服務和個性化的出行線路規劃, 為用戶提供舒適便捷的出行服務,同時這也是滿足 了社會在出行過程中對時空服務日益增長的需求. 對于交通管理機構,空間數據智能技術可以幫助其 提升交通管理的效率,有效地解決交通擁堵和交通 事故等問題.與此同時,空間數據智能技術能夠有效 輔助政府部門進行交通規劃、商業選址和基礎建設 的相關決策,加快智能鐵路、智慧機場、智能公路、智 慧港口和智慧車站的建設,從而進一步促進智慧城 市的發展[26].
2.2 城市防災應急
除了在城市交通上的應用外,空間數據智能的 另一個主要的應用方向為在城市尺度下的防災應急 應用.依據災難發生的時間,可與將應用劃分為三大 類:災難發生前的預測、災難發生過程中的緊急調 度、災難發生后的災害管理. 1)災難發生前的預測.通常而言,災難可以劃 分為2類,即洪水、臺風、地震、泥石流等自然災難, 以及車禍、踩踏事件等人為災難.這些災難絕大部分 都不會毫無預兆的發生,在現有的研究中,依據土壤 類型、降雨量、氣候、海拔、經緯度、植被等可以觀測 的空間數據進行統計分析,包括地震、洪水、臺風等災難在內的自然災害都能夠被提前預知[27],從而提 前做好預防的準備,減少突發的自然災難所帶來的 經濟損失.而在2.1節城市交通應用的基礎上所衍 生的交通故障預測[28],未來的交通擁堵預測[29]以 及人流的預測[30]等方向也有著成熟的方法,通過城 市尺度的空間數據準確地預測了未來的交通、人群 流向,在有政府干預的前提下,交通事故、踩踏事件 等人為災難數量也能夠得到有效的控制,從源頭遏 止不必要的經濟損失. 2)災難發生時的緊急調度.在災難剛剛發生的 時候,救援人員難以提前到場,此時受災人僅能夠依 靠自己逃離受災地點,而不正確的應對行為以及撤 離路線通常會引發二次受災.在歷史的空間數據,尤 其是人群過往的軌跡數據以及相應位置的地理以及 建筑結構數據的支持下,目前這一階段較為成熟的 應用方向包括了小范圍的突發狀態下(例如火災現 場)的人群疏散引導[31],以及城市尺度下的重大災 難時(例如突發的地震)的人流方向推導[32].相比于 能夠采集到大量數據的災前預測方向以及災難后的 災害管理方向,災難發生時的應用由于缺乏足夠的 數據支持,目前還有更多的研究空間. 3)災難發生后的災害管理.在2021年7月20日 時,河南省鄭州市連遭暴雨襲擊,同時產生了嚴重的 內澇現象,損失極其嚴重.但是在災后的救援過程之 中,一份收集受災人員的空間位置以及受災說明的 數據的騰訊文檔卻發揮了極大的作用.在短短1天 內其訪問量超過了250萬次,并且據不完全統計至 少救助了超過85名受災群眾.這充分說明了空間數 據在災難發生期間能夠發揮重大的作用.在現有的 研究之中,災 后 的 災 害 管 理 主 要 以 救 援 路 線 的 規 劃[33]以及救援物資分配[34]為主.依據災后受災人員 的位置,各個地方的受災情況進行規劃,從而盡可能 地減少災難發生后的損失.
2.3 傳染病防疫
基于人群傳播網絡的傳染病給人類社會帶來了 廣泛的影響,而傳染病的傳播和人的移動息息相關. 通過整合人口遷徙相關的空間數據,比如個人 GPS 軌跡、交通軌跡、航班數據等,結合傳染病物理傳播 模型和深度學習等方法進行建模,空間數據智能可 以在疫情預警、疫情預測、疫情排查、疫情物資配置 等方面發揮重要作用.
1) 空間數據智能助力疫情預警.基于區域間的 人口流動數據建模,可以預測下一個可能爆發的疫情區域[35],為各個地區提前預防、防疫政策調整提供 科學依據.
2)空間數據智能協助疫情傳播預測.在發生疫 情后,根據該地區包括人口遷徙[36]、交通運輸[37]在 內的空間數據,進行空間數據驅動的預測模型的建 立及傳播模擬,可以對傳染病的傳播態勢進行預測, 了解疫情發展態勢和峰值時間等,協助醫療專家對 疫情發展做出更加精確的評估,輔助政府部門制定 防疫政策.
3)空間數據智能協助疫情排查,通過對包括個 人軌跡在內的空間數據的整合以及密接判定模型的 建立,空間 數 據 智 能 方 法 可 以 快 速 鎖 定 密 接 接 觸 者[38].作為一種重要的“技防”,空間數據智能可以 讓傳染病排查工作在傳統的流行病學調查的基礎上 變得更加高效精準.
4)空間數據智能優化疫情物資配給[39].傳染病 爆發區域對防控物資的需求量大,空間數據智能通 過先進的計算機及通信技術整合各地的物資數據, 利用算法優化物資配置并規劃派送方案,并結合對 潛在風險區域的挖掘,協助防疫物資科學儲備.
2.4 智慧能源
為實現“碳達峰”和“碳中和”的目標,“十四五” 期間我國將加快能源數字化轉型,建設清潔低碳、安 全高效的現代智慧零碳能源體系.空間數據智能技 術通過利用物聯網、云計算、大數據、人工智能和5G 等技術,可以實時感知能源領域的時空信息,集成多 種能源(電、煤、石油、天然氣、供冷、供熱等)的生產、 傳輸、存儲、消費、交易等時空數據于一體[40],建立 能源體系的數字底座,實現風光儲一體化、石油管道 運輸規劃、電力供應、綠色能源交易、用戶需求預測 等能源全生命周期管理環節的價值挖掘和分析[41], 構建能源價值的一體化智能服務平臺.
空間數據智能技術可以大大提升能源領域的數 字化、自動化和智能化,做到零碳能源智能生產,實 現能源的脫碳生產和清潔利用;建立分布式智慧能 源網絡,提高能源的傳輸和利用效率;同時實現多能 協同供應與調度管理,充分發揮多種能源相互配合 使用的優勢.除此之外,空間數據智能技術還可以提 供能源的智能交易服務,實時高效地滿足供需側的 多樣化需求;打造低碳車聯網能源服務,促進新能源 汽車的快速發展,減少道路交通的碳排放和空氣污 染;同時提供一站式園區智慧能源服務,降低園區能 耗強度和碳排放強度.因此,空間數據智能技術能夠全面助力能源的數字化轉型,加快雙碳目標的實現.
2.5 國土空間規劃
國家“十四五”規劃提出要推進完善新型城鎮化 戰略,構建國土空間開發保護的新格局.如何在可持 續發展的目標下,研究土地利用變化過程,預測土地 利用未來發展趨勢,實現地區土地利用的數量、功 能、布局、強度等系統性優化,是當前國土空間規劃 研究的重點.空間數據智能技術是構建國土空間開 發新格局,實現土地資源高效利用和合理配置,為土 地管理部門提供成熟決策方法的關鍵技術[42]. 通過借助空間數據智能技術,將不同部門的多 源地理數據(地形地貌、遙感影像、地表覆蓋、測繪基 準、土壤、植被、環境監測等)聚合在一起,實現統一 數據訪問接口,構建數據庫集成管理和統計分析系 統,逐步構建地理時空信息云平臺,旨在實現國土空 間規劃“一張圖”,為政府部門提供準確標準的數據 支撐. 通過借助空間數據智能技術,構建融合統計方 法和地理學定律的空間計量模型,可以評估土地儲 備潛力,預測未來土地儲備需求量和土地價格;構建 人類活動與基礎設施的時空關聯關系模型,可以自 動提取城市邊界,分析城市混合功能空間結構,實現 城市功能區的精細化管理和動態監測;構建土地利 用變化模擬模型,可以挖掘復雜驅動力因素對城市 發展的驅動機制,分析主導影響因素,預測不同情景 下的未來土地利用;構建多目標土地利用優化模型, 可以提升用地強度利用效率,對土地資源進行空間 合理調控,實現經濟發展、環境保護、社會公平和區 域協調的平衡,為國土規劃部門提供有效的解決方 案和決策支持.
3 未來展望
3.1 多模態數據融合和數據庫的易用性
隨著5G 和物聯網技術的快速發展、以及時空 應用場景的不斷變化,時空數據庫在不斷發展的同 時,也面臨了諸多亟需解決的挑戰性難題,如多模態 數據融合.真實世界中時空數據除了時間序列和地 理位置數據外,還存在大量具有時空屬性的多模態 數據,如 GPS文本、運動圖像、交通視頻等,如何在 現有時空數據庫中融合具有時空屬性的多模態數 據,以支持多模態時空數據融合處理,是時空數據庫 領域面臨的新挑戰。
此外,隨著以博客、社交網絡、基于位置的服務 (locationbasedservice,LBS)等為代表的新型信息 發布方式的不斷涌現,以及云計算、物聯網技術的不 斷發展,高精尖的數據庫技術逐漸進入人們的視野, 并幫助一般用戶進行感知和決策.然而,用戶并不精 通數據庫專業技術,但仍然需要對許多事務進行決 策,因此需要高可用、易懂易用的數據庫.“數據庫平 民化”已經成為數據庫未來發展的一大趨勢,如何利 用即時查詢、查詢構造等提升時空數據庫易用性是 時空數據庫領域面對的又一新挑戰.
3.2 新一代時空數據數據挖掘算法
隨著移動智能設備和移動通信技術的快速發 展,空間數據的采集變得日益普遍,使得大規模空間 數據在醫療、能源、交通等領域具有重要應用價值, 然而與空間大數據相匹配的信息處理、知識提取算 法仍是亟待研究的領域.此外,人工智能和數據挖掘 算法在近十余年來取得了長足的發展,我國也在近 年提出了促進人工智能和大數據國家戰略,指出人 工智能和數據挖掘技術將成為發展國民經濟水平各 領域的重要抓手.在空間數據智能研究中,如何有效 地實現空間大數據和人工智能研究的深度融合、再 創新是重要的未來發展方向.
然而,在空間數據智能中,應用并發展人工智能 和數據挖掘技術也存在以下幾點重要問題:首先,空 間數據往往體量巨大且結構異質,這對發展、應用的 人工智能模型的計算效率、空間復雜度和可并行度 等性能指標提出了很高要求.其次,空間大數據由于 物體在空間上重疊、包含等原因,往往缺乏也難以獲 取高質量數據標簽.這使得現有算法模型大部分局 限在非監督學習、弱監督學習范式下,難以從大規模 無標簽空間數據中提取出高質量知識.此外,空間大 數據由于獲取渠道多元、大規模感知設備的精度低 等原因,存在數據質量差、單位數據價值密度低等問 題.空間數據噪音在很大程度上受定位設備的影響, 如 GPS、蜂窩基站、WiFi熱點等,且不同數據渠道采 集的數據存在較大差異,難以有效融合.因此,在空 間數據智能中設計數據挖掘和人工智能算法需要有 效解決對數據質量的兼容性問題,從而實現穩健的 空間知識提取.
3.3 時空復雜性與復雜系統
隨著社會分工的不斷深入,快速的城市化是過 去數十年中貫穿我國和世界各國的主旋律.空間上 的聚集和由信息技術發展帶來的高頻社交行為,使得復雜系統成為了研究人類社會及相關問題的必要 范式.
在此背景下,人的行為模式在不同空間尺度下 表現出完全不同的復雜行為模式.以交通規劃領域 為例,其在個體層面關注于出發地 目的地(OGD)的 建模,在聚合層面要建道路截面流量,而在城市區域 層面則要關注宏觀人群流動規律.復雜系統的內在 特性使得微觀機制和宏觀規律間存在難以預測的非 線性效應,這位多尺度的空間數據智能研究提出了 獨特的挑戰. 現有復雜系統研究主要采用演繹的研究方法, 即基于一系列預設的微觀機制推到、仿真宏觀的行 為規律.然而,這一研究范式無法有效利用日益豐富 的空間數據,無法實現數據驅動的規律發現和知識 獲取.另一方面,單純的數據挖掘算法無法有效地和 已有復雜系統理論相結合,挖掘出的觀測規律在理 論完備性和可泛化能力上存在隱患.因此,空間數據 智能的未來研究中,一個重要方向是提出能有效結 合復雜系統理論與空間大數據的新研究范式,并且 解決其在社會各領域的有效應用.
3.4 可解釋的時空關系建模
近年來,機器學習領域取得了蓬勃發展,對于現 有的機器學習方法來說,單純追求預測精度是不夠 的,這類模型具有一個共同的特點,內部結構復雜, 運行機制像一個黑盒子一樣.且大多數預測模型根 據相關性進行預測,但相關性并不意味著因果關系, 模型輸出結果也難以得到有效解釋.因此,在未來, 正確性和可解釋性成為了機器學習特別是深度學習 要實現的目標.
深度學習領域嘗試開展具有可解釋和分析能力 的關系模型,這些模型的一致目標是探究能否找到 一個原因,來對模型結果進行針對性的解釋以及可 靠的指導.因此,深度學習開始結合一些因果發現與 因果推斷方法,例如因果圖、結構因果模型等,通過 對觀測的時空數據進行分析來揭示隱藏的因果信 息.因果分析也是快速發展的可解釋人工智能領域 的一個重要課題,旨在構建可解釋和透明的算法,解 釋如何做出決定.從以往研究來看,因果關系已經在 無數領域和場景下得到學習,包括教育、醫學、經濟 學、流行病學、氣象學和環境健康等.
因果學習與機器學習領域有著密切的關系.機 器學習領域的蓬勃發展促進了因果發現和因果推斷 領域的研究與探討.例如,應用決策樹、集成方法、深度神經網絡等強大的機器學習方法,可以更準確 地估計潛在的結果.因果學習是解釋分析的強大建 模工具,它可以使當前的機器學習做出可解釋的預 測.因此,如何更進一步將因果學習與機器學習連接 起來,克服認識上的不透明性,從相關性最終獲得因 果性,是未來需要解決的難題.隨著數字傳感技術的 進步與發展,以及時空數據庫的不斷豐富,發展具有 因果關系挖掘能力的模型或許是破解黑箱模型的關鍵。