亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

導讀 本文將介紹復旦大學知識工場實驗室關于領域大模型的研究工作。主要內容包括以下幾大部分:

  1. 背景
  2. 大模型的領域適配
  3. 大模型的能力提升
  4. 大模型的協同工作 分享嘉賓|梁家卿博士 復旦大學 青年副研究員 編輯整理|王甲君 內容校對|李瑤 出品社區|DataFun

01

背景

來自 GPT4 的技術報告中指出,GPT4 仍處于通用人工智能(AGI)的初級階段。而目前研發中的 GPT4.5 或 GPT5 則已展現出了 AGI 的某些特征。 GPT4 的出現給研究和工業界帶來了巨大沖擊,其顯著特點是擁有強大的底座知識能力,超越了傳統知識圖譜,蘊含豐富的世界知識和人類常識。它能夠解答各種復雜問題,包括腦筋急轉彎等。對專注于知識圖譜的從業者來說,常識一直是知識領域最難解決的問題,但大模型似乎輕松解決了這一問題。因此,我們不禁要問:大模型是否終結了知識工程呢? 大模型是目前唯一能利用人類常識進行開放推理的技術。傳統常識知識圖譜在靈活應用常識于開放推理場景上受限,而大模型則能克服這一限制。 大模型具備開放世界的理解能力,能輕松處理具體場景問題,例如,在給大模型藥品說明書的情況下,面對一些具體場景的問題,大模型能輕松推理并回答。 大模型不僅限于單步問答,還能連續執行動作,形成 Agent。通過 Agent,大模型能一步步執行,去處理更復雜的一些任務,如編寫代碼或在 Minecraft 中收集原材料、制作工具等。 盡管大模型具有獨特的甚至不可替代的優點,但我們也面臨著大模型難以在領域落地的實際挑戰。為什么這么強的大模型現在不能很好地被應用呢?我們也尚未看到大模型引領的工業革命的進行。這主要是由于推理成本、能力缺陷和難以協同三方面的挑戰。 挑戰一:大模型的推理成本限制其應用。構建和使用大模型都需要大量資源,且在實際應用中大模型的推理速度相對較慢,即使是經過優化的版本,處理文本分析仍需數秒。這與傳統應用場景如文檔搜索和索引的速度相差甚遠,后者能在一秒內處理數十甚至上千篇文檔。此外,隨著大模型上下文長度的增加,如達到幾十萬 token,處理整個文檔庫將需要巨大的計算資源,導致推理成本進一步上升。這種高成本使得大模型在需要大規模重復應用的場景中變得不切實際。盡管有些企業愿意投入更多成本,但即使采購了大量計算資源并采用最新的推理技術,大模型是否能夠真正完成任務并創造價值呢? 挑戰二:大模型在復雜決策場景仍有缺陷。盡管大模型在聊天機器人等開放式閑聊場景中表現出色,但在工業、商業等嚴肅場景中,如替代程序員編寫代碼,大模型目前仍顯不足。從開放式閑聊到復雜決策,大模型還有很長的路要走。目前的大模型,如 GPT-3 或 GPT-4,無法直接應用于特定場景,仍需要用戶通過多次交互和提供 prompt 來引導。盡管許多工作正致力于提升大模型的能力,有可能發布的 GPT-4.5 或 GPT-5 等新一代模型能進一步提升性能,但即便如此,是否足夠滿足實際應用需求仍存有疑問。  挑戰三:大模型在企業應用中需要協同能力和可控性。即使招聘了天才員工,也需要時間適應企業流程。同樣,大模型也需要時間與企業現有流程相融合。即使大模型有能力重塑整個企業流程,但這也可能帶來不穩定和風險,因此直接替換原有系統并不現實。實際上,人們期望大模型能夠在人機協作中發揮作用,嵌入現有系統,輔助升級特定環節,而非全面替代。因此,大模型與現有業務人員或系統的對接能力,即其協同能力和可控性,顯得尤為重要。在實際應用中,我們更看重大模型能否在特定環節上協同工作,而非僅僅追求其在某些測試中的高分表現。

02****

大模型的領域適配

第二部分是關于大模型領域適配的研究。當前,領域大模型如醫療大模型、金融大模型等備受關注。持續預訓練是構建這些模型的基本方法,雖然簡單且開源,但數據問題至關重要。在選擇訓練數據時,面臨兩個主要挑戰:一是數據質量,即什么樣的數據是好的;二是數據配比,即如何平衡不同來源的數據。如維基百科與網絡小說在數量和性質上存在顯著差異,配比比例難以確定。過分依賴單一數據源可能導致模型出現偏差。如僅依賴維基百科可能導致模型缺乏娛樂性和現實感,而過多使用網絡小說可能導致模型產生不符合實際情況的認知。 在領域大模型的訓練中,數據的選擇是一個關鍵問題。我們將數據分為三層:第一層是基礎且不必要的數據,這些數據對于大模型來說已經足夠了解,無需再重復訓練;第二層是過于細節且不必要的數據,如實時股價等,這些數據對于人類專家來說也無需背誦,不適用于訓練大模型;最重要的是中間層,即高價值行業數據,這些數據對于微調大模型至關重要。然而,這些行業數據數量稀少且收集成本高,導致精品語料占比小,而“垃圾”語料卻占據大部分。盡管如此,兩者都是不可或缺的。 針對數據選擇的問題,我們提出了一個創新的解決方案。在訓練大模型時,無論是預訓練還是微調,我們為語料添加了一個特殊的標記,以指示其來源,如“維基”、“新聞”、“小說”或特定網站(如“起點”)。這樣,模型就能像人一樣區分不同來源的數據,從而更加準確地評估其可靠性。實驗證明,這種簡單的“來源增強”方法在許多小任務中的表現,甚至超越了未增強的更大規模的模型。 我們還有一些特別的發現。在下游任務中,如果我們提供任務相關信息,如論文分析或科幻小說創作,模型的表現會進一步提升。即使沒有這些信息,經過來源增強的模型本身也優于未增強的模型。關于來源標簽的選擇,我們發現具體的標簽表達方式并不重要。即使使用抽象字符對語料進行分類,也能增強模型效果。然而,帶有語義的標簽,盡管表達方式沒有嚴格規定,卻能帶來更顯著的增強效果。  我們正在研究一個工作,就是將語料進行系統化分類,類似于知識圖譜中的整體分類。嘗試使用這些分類來預訓練模型,希望獲得更強大的能力。目前,我們已經初步建立了訓練語料分類體系,并取得了一些積極的結果。這些分類不僅存在于語料中,而且確實能有效增強模型的能力。

03

大模型的能力提升

接下來探討領域微調和能力提升。我們強調大模型協同能力的重要性,而不僅僅是模型在 MMLU 等考試題中的表現。首要工作是提升大模型理解復雜指令的能力。這與 GPT-4 Turbo 的發布會中提到的類似,即確保模型能準確輸出可解析的 JSON 格式。我們發現,模型能否給出固定、可對接的表達至關重要。因此,我們需要評估并提升模型理解復雜指令的能力。這些指令可包括各種特定要求,如格式約束(如 JSON 輸出)、內容約束(如簡短或詳細回答)等。通過將不同類別的特殊要求自由組合來測試模型是否能遵循這些復雜指令。這樣,大模型不僅能作為聊天機器人,還能更準確地滿足用戶在創作文章或作為 Agent 的執行器時的各種需求。 我們將復雜指令分為 8 個維度,通過自動化組合這些維度生成數據。在模型評估方面,我們更關注模型是否滿足要求而非其智商或輸出質量。由于是否符合要求可以通過程序自動判定,我們能夠實現自動評估的效果。 當遇到復雜指令,如告訴 Agent 一個復雜指令:從特定行為中選擇并以 JSON 格式輸出,同時避免多余推理。可以發現,每一個任務都能通過嚴謹程序進行判別,從而避免了精確匹配、模糊匹配以及大模型打分的局限,實現了更精準的能力評估。然而,最終的結果并不理想。在面臨 1—3 條復雜指令時,大多數模型能完全遵從;而一旦指令數量增至五條或更多,大部分模型都會遺漏或無法完成部分指令。 在工業場景中,大模型的數學能力雖受關注,但其在量綱理解上表現出了局限性。特別是在工業場景中單位至關重要,文檔與實驗報告中的單位錯誤會導致分析錯誤放大至 100 或 1000 倍。 我們的工作基于物理學中的量綱定義,構建了包含量綱組合知識的語料庫,并據此預訓練模型。通過這種方法,預訓練出的模型在帶有單位量的推理任務中表現出色,甚至超越了當時 GPT4 的性能。 接下來的工作專注于提升大模型的自我糾正能力。對于復雜的專業問題,大模型不應僅提供一次性的答案,而應像專家一樣進行思考和修正。因此,我們設計了一個大模型“內在的自我糾正”機制,設計構造自我糾正數據集,通過指令微調,并提出了部分答案掩碼(PAM)訓練方法,激發大模型在問答時進行自我迭代修正。具體來說,將數據中的問答對[Q/A]擴展為[Q/A1,A2,A3],并確保每次迭代中的答案[A2]優于[A1],[A3]優于[A2]。通過微調大模型,使其具備自我糾正的能力,即當給出初始答案[A]后,通過追問得到更完善的答案[A1、A2]。這種自我增強方法不僅提高了答案的正確率,而且將會應用于更大規模的模型訓練中。  在命令生成領域也應用了自我糾正能力。考慮到在使用命令行時,用戶可能無法一次性輸入正確的命令,而是需要根據報錯信息進行修改和調整。我們借鑒了這一機制,將其應用于大模型中,使大模型能夠基于報錯信息或其他反饋進行自我修正,從而提高命令生成的準確率。

04

大模型的協同工作

最后來討論一下大模型的協同工作能力。協同能力的重要性超越了大模型本身智能水平或特定任務的評分。我們判斷,當前大模型能力仍不足以完全替代目前較為成熟的知識工程流程。大模型追求的是“端到端”的解決方案,即從原始文檔和用戶問題直接輸出答案。然而,傳統的知識工程流程更為復雜,包括檢索、知識抽取、構建知識庫、檢測一致性、調整知識庫以及進行知識檢索和推理等多個步驟。 大模型雖功能強大但成本高昂,并非所有流程都需其參與。從數據層面和應用特點出發,可以將任務分類。對于大部分任務,傳統BERT 模型即可實現 80% 至 90% 的準確率,僅在處理極端復雜句子時,大模型才是不可或缺的。對于大量語料的知識抽取和初步驗證,傳統模型因其高效和低成本而更為合適。然而,在知識庫糾錯和常識檢測等需要開放性和高級理解的環節,大模型則成為了唯一選擇。因此,大模型與小模型應協同工作,如上圖中的兩個典型例子,要根據任務需求去適配并執行一個流程。 為什么要這樣設計?關鍵要明確大模型適用的任務。大模型的作用主要體現在三個方面:首先,它擁有不可替代的常識驗證和推理能力;其次,作為高準確率的保底或教師方案,大模型能用于構建數據或指導小模型;最后,大模型是目前最強大的 Few-shot Learner,支持通過 Few-shot 方案進行微調。 第一個工作針對知識抽取,雖是一個傳統的 NLP 任務,但可以發現大模型在知識抽取中面臨特定挑戰。不同于其他 UIE(通用信息抽取)方法,大模型關注于對齊能力而非單純的抽取能力。例如,在 NER 任務中需要決定“中山公園”中的“孫中山”是否應被抽取為實體,這取決于數據集和應用場景。為了應對這種細微差別,我們微調了一個抽取模型底座,該底座集成了多種抽取任務。然而,這個模型底座在使用前需要針對應用場景進行對齊,確保其準確捕捉特定需求。在新聞人物信息抽取任務中,僅使用 300 條數據微調達到了 92% 的準確率;而使用 ChatGPT 僅有 60% 準確率,這主要由于 prompt 很難準確描述抽取的具體細節要求。 第二個工作是針對一個綜合的知識抽取任務,融合了實體抽取、實體對齊和實體關系抽取等多個子任務。這些子任務在大小模型上的適應性各不相同。通過適當選擇,部分使用大模型,部分使用小模型,能夠實現既超越大模型又優于單獨小模型 SOTA 的結果。 第三個工作是利用大模型進行常識驗證,通過構建特定的 prompt 將相關證據組合,讓大模型判斷其中是否存在常識錯誤。這種方法超越了傳統規則推理的局限,能夠提供更為準確的推理結果。 大模型在特定領域應用中并非能力不足,而是缺乏與領域的協同性。對于特殊需求,如 NL to SQL,需要通過微調使大模型適應特定任務。例如,在理解“基金表現最好”時,若未被告知其特定業務含義,大模型可能不準確。因此,需要在特定領域微調大模型。我們的做法是反向利用表格生成自然語言描述,再通過業務和產品經理的規則修正,最后訓練模型以學習這些特定知識。除非面對極端復雜問題,否則大部分大模型的智能水平是足夠的,關鍵在于任務協同和與現有流程的對齊。 盡管在大模型上下文長度非常長的情況下,檢索后回答 RAG 在當前大模型時代仍顯重要。由于成本考慮,不是所有問題都適合用大模型處理大量 token。目前常用下拉數據庫或單數據缺口方法,但在專業領域需要精確匹配。稀疏檢索(如 BM25)在常見精確問題中效果好但缺乏語義泛化性,而稠密檢索(如 BGE)雖效果好但易召回語義相近但不準確的內容。因此,我們致力于融合這兩種方法,根據問題中是否含有專有名詞來決定檢索策略。若問題中專有名詞分數高,則增加稀疏檢索比重,來提升領域任務的檢索效果。 最后關于 RAG,聚焦于 AIGC 的可靠性問題。當前,即使大模型展現出高度智能,人們對其答案的準確性仍持懷疑態度,形成了所謂的“狼來了”現象。因此,在專業領域,我們強調只有可溯源的結果才能贏得用戶的信任。RAG 系統要實現大模型在回答問題時能夠引用原文,確保答案的可靠性和準確性。以 New Bing 的精確模式為例,即使搜索的網頁內容正確,其答案仍可能出錯。 我們的工作思路是采用解碼硬約束方案,通過在微調階段給大模型標記特殊括號,實現特定部分的直接原文接管。一旦特殊括號標記出現,其后的內容將直接由算法接管,借助原文后綴樹進行填充,確保該部分與原文完全一致。這種方法確保了兩個標記間的內容為原文內容,同時利用模型的推理能力生成答案,避免了傳統方法的生硬和推理能力低下的問題。以上就是我們針對領域大模型落地應用方面所進行的一些研究,謝謝大家。以上就是本次分享的內容,謝謝大家。

分享嘉賓

INTRODUCTION

梁家卿博士

復旦大學

青年副研究員

梁家卿博士,復旦大學大數據學院青年副研究員,主要研究方向為基于知識圖譜與大模型的認知智能。在國際頂級學術會議與期刊(包括 TKDE,AAAI,IJCAI,ICDE 等)發表論文 50 多篇。在應用落地方面,作為技術負責人研發并公開發布了多個知識圖譜與大模型應用平臺如 CuteGPT、Emo-CuteGPT、CN-DBpedia、ProbasePlus、CN-Probase、“不倒翁”智能問答等,相關產品 API 被工業界與學術界多家單位已調用累計 17 億次以上,并形成了 16 個專利。有成功訓練百億參數量級別模型的經驗和在大規模集群上訓練千億參數量級別模型的經驗。先后在國際性的“知識庫構建”比賽中榮獲第二名;在中國計算機學會和中國中文信息學會的主辦的語言與智能技術競賽“信息抽取”比賽中榮獲第一名。主持研發的情感增強大模型 CuteGPT 在上海卓辰信息科技有限公司(幫助其情報信息知識抽取準確率達到 90% 以上)、上海雙地信息系統有限公司(幫助其開發了內容管理產品“小孔商業智能 AI 助理”)、上海光唯文化傳媒有限公司(應用于其客戶在新產品研發業務,新產品銷售額超過千萬元)等單位實現了落地應用。并且曾獲 ACM-ICPC 區域賽金牌、TopCoder Open 全球前 150 名、吳文俊人工智能科學技術獎科技進步獎三等獎、上海市優秀博士畢業生、上海市計算機學會優秀博士論文、華為云最佳論文復現獎、復旦大學超級博士后、上海市超級博士后、中國博士后科學基金面上資助、國家自然科學基金青年基金資助。

付費5元查看完整內容

相關內容

Datawhale分享 分享:張鈸,清華大學教授,中國科學院院士

2024年4月,中國科學院院士、清華大學計算機系教授、清華大學人工智能研究院名譽院長張鈸,做客清華大學“人文清華講壇”,以《走進“無人區”,探索人工智能之路》為題做了一場演講。元界全程收聽了中新網直播。5月25日,《光明日報》刊發了這一演講的整理全文。 張鈸院士從人工智能的兩條路徑、人工智能的三個階段、深度學習的不安全性、邁向通用人工智能的四個步驟、基礎模型的三大出路等方面,娓娓道來。 他認為,目前比較成功的AI工具,其強大性主要來源于兩個“大”,一是大模型,二是大文本。而從大語言模型邁向通用人工智能需要四個步驟。第一步是跟人類進行交互、與人類對齊,第二步是多模態生成,第三步是與數字世界交互,體現是AI智能體。第四步是與客觀世界交互,體現是具身智能。 但我們說通往通用人工智能這個目標,至少需要邁出以上四步,并不是說,完成這四步就意味著實現了通用人工智能。 他認為,第一代人工智能的目標是讓機器像人類一樣思考。第二代人工智能最大的問題是不安全、不可信、不可控、不可靠、不易推廣。第一代和第二代人工智能的模型、算法都有很多缺陷。而迄今為止,人工智能尚無較為成型的理論,更多是模型和算法,因此,必須大力發展科學完備的人工智能理論,在此基礎上,才能發展出安全、可控、可信、可靠和可擴展的人工智能技術。 對目前的人工智能技術而言,雖然提高了效率和質量,但系統越信息化和智能化,也就意味著越不安全。他表示,第一代人工智能運用了知識、算法、算力三個要素,其中最主要的是知識。第二代人工智能則主要用了數據、算法和算力三個要素。為了克服人工智能的固有缺點,唯一的辦法是把知識、數據、算法和算力這四個要素同時運用。 他認為,在未來只有少數工作可能會被人工智能取代。人工智能是探索“無人區”,其魅力就在于它永遠在路上。“我們不能因為它的進展而過于樂觀,也不必因為它的挫折而沮喪,我們需要的是堅持不懈地努力。”

以下為演講整理稿全文:

1978年成立的清華大學人工智能與智能控制教研組

人工智能的兩條路徑

迄今為止,全世界對于“什么是智能”尚無統一認識,但經過多年的探索,人工智能已然走出了兩條道路。一條道路是行為主義學派,另一條道路是內在主義學派。 其中,行為主義學派主張用機器模擬人類的智能行為。“智能”與“智能的行為”是兩個完全不同的概念。“智能”在我們大腦里,人類至今仍對其知之甚少;“智能的行為”則是智能的外部表現,可以進行觀察和模擬。因此,行為主義學派人工智能追求的目標是機器行為與人類行為的相似性,而非內部工作原理的一致性。目前人工智能的主流是機器智能,這種人工智能與人類的智能只存在行為相似,并非完全一致。內在主義學派主張必須用機器模擬人類大腦的工作原理,即類腦計算。這兩個學派按照不同的思路對人工智能進行探索,前者主張除人類這條道路外,機器或其他方法也可以走出一條智能道路;后者主張走向智能道路只能依靠人類。目前這兩種思路都處于探索階段。 人類對人工智能道路的探索始于1956年。當時在美國召開了人工智能研討會,來自數學、計算機科學、認知心理學、經濟學和哲學等不同領域的10位專家經過八周的討論定義了人工智能。他們主張通過符號推理、符號表示來做一個能像人那樣思考的機器。在這次會議上,紐維爾(Newell)和西蒙(Simon)演示了一個名為“邏輯學家”的程序。該程序用機器證明了數學原理第二章中的部分原理,數學定理證明與推理相似,這表明機器能做類似推理的工作。最終,“人工智能”在這個會議上獲得了定義。 1978年,清華大學成立了人工智能與智能控制教研組,這是中國最早的人工智能教學與科研機構。教研組有三十余位教師參與,其中絕大部分來自自動控制領域,而非人工智能。1978年,教研組招收了第一批碩士生,1985年開始招收第一批博士生,已能夠開展一些與人工智能相關的教學工作,但科研工作進展不大。1982年至1984年,教研組進行調查研究,訪問了西南、東北等地大量研究所及工廠。結合所見所聞,教研組確定了以智能機器人作為主要研究方向。 1985年清華大學建立智能機器人實驗室,1986年國家設立“863”發展計劃,該計劃將智能機器人作為一個主題。清華大學參加了第一屆智能機器人主題的“863”高技術研究,從第一屆到第四屆均作為專家單位參加委員會。到了第五屆,清華大學成為開展智能機器人研究的組長單位,1997年,成為空間機器人研究的組長單位。“智能技術與系統”國家重點實驗室自1987年開始籌建,1990年正式成立。 在這些工作的基礎上,相關研究得以開展。當時首先建立了兩個理論。一是問題求解的商空間理論和粒計算理論,在國際上影響很大。2005年,清華大學發起、組織了國際粒計算會議,每年一次,延續至今。二是在人工神經網絡方面做了很多早期工作。

人工智能的三個階段

1956年至今,人工智能的發展分為三個階段,分別是第一代人工智能、第二代人工智能和第三代人工智能。 第一代人工智能的目標是讓機器像人類一樣思考。思考是指推理、決策、診斷、設計、規劃、創作、學習等。無論做管理工作還是技術工作,都需要兩方面的能力,一是在某個領域具有豐富的知識和經驗,二是具有很強的推理能力。其中推理是指運用知識的能力,換言之,是從已有知識出發,推出新的結論、新的知識的能力。 基于以上分析,人工智能的創始人提出了“基于知識與經驗的推理模型”,該模型的核心是若要實現機器思考,只需將相應的知識放入計算機即可。例如,如果要讓計算機像醫生一樣為患者診斷,只需要把醫生的知識和經驗放到知識庫里,將醫生看病的推理過程放入推理機制之中,計算機就能為患者實施機器診斷。這一推理模型的核心思想是知識驅動,通過計算模型來實現讓機器像人類那樣思考。該模型最大的缺點是缺乏自學能力,難以從客觀世界學習知識,所有知識都源于人類灌輸。因此,第一代人工智能永遠無法超越人類。 第二代人工智能源于第一代人工智能的低潮期,主要基于人工神經網絡。1943年,人工神經網絡模型提出,它主要模擬人類腦神經網絡的工作原理。第二代人工智能面臨的主要問題是感性知識的傳授。第一代人工智能主要在符號主義指導下進行,目的是模擬人類的理性行為。但人類除了理性行為外,還有大量的感性行為,而感性行為要用人工神經網絡進行模擬。 我們常說知識是人類智慧的源泉,知識是理性行為的基礎,這里的知識來自教育,主要指理性知識、分析問題的方法等。但感性的知識難以用語言傳授,也無法從書本上獲得。每一個人最初得到的感性知識是對自己母親的認識。但,具體是什么時候開始對母親有所認識的?又是怎樣實現這種認識的?這些問題到現在仍難以解答。 所有感性知識都在不斷觀察、不斷傾聽的過程中學習累積,第二代人工智能深度學習沿用了這個方法。例如,過去我們主要通過編程的方法告訴計算機馬、牛、羊的具體特征,現在則將網上大量馬、牛、羊的照片做成訓練樣本,讓計算機進行觀察和學習即可。學習完畢,再把剩下的樣本作為測試樣本去測試它,識別率能達到95%以上。觀察和傾聽的過程通過人工神經網絡進行,將識別的問題作為分類問題,利用人工神經網絡來分類。通過神經網絡進行學習的過程稱為深度學習,基于深度學習能夠進行分類、預測和生成等。 但是第二代人工智能的所有數據(圖像、語音等)均來自客觀世界,它的識別只能用于區別不同的物體,并不能真正地認識物體。所以第二代人工智能最大的問題是不安全、不可信、不可控、不可靠、不易推廣。 第三代人工智能的基本思路是必須發展人工智能理論。迄今為止,人工智能尚無較為成型的理論,更多是模型和算法,且第一代和第二代人工智能的模型、算法都有很多缺陷。因此,必須大力發展科學完備的人工智能理論,在此基礎上,才能發展出安全、可控、可信、可靠和可擴展的人工智能技術。 對目前的人工智能技術而言,雖然提高了效率和質量,但系統越信息化和智能化,也就意味著越不安全。第一代人工智能運用了知識、算法、算力三個要素,其中最主要的是知識。第二代人工智能則主要用了數據、算法和算力三個要素。為了克服人工智能的固有缺點,唯一的辦法是把知識、數據、算法和算力這四個要素同時運用。目前得到較多運用的AI工具(大語言模型),就能夠充分利用知識、數據、算法、算力這四個要素。清華大學團隊提出了第三代人工智能的三空間模型,將整個感知、認知系統進行連接,為發展人工智能理論提供了非常好的條件。

深度學習的不安全性

在研究過程中,研究者發現了人工智能深度學習的不安全性。 其中一個典型案例是:研究者制作了雪山和狗的對比圖,先讓計算機和人看雪山,二者都能判定為雪山,但是只要在圖片上添加一點噪聲,人看雪山仍是雪山,計算機卻會將雪山看成一條狗。這個案例說明,人工智能目前基于深度學習的模式識別跟人類的視覺完全不同,盡管它能夠像人類那樣區分雪山和狗,但實際上它既不認識狗,也不認識雪山。 這里面的關鍵問題是——什么是狗?應該如何定義一條狗?人類通常通過視覺來進行區分,主要看狗的外形,但什么是狗的外形?狗有各種形態、各種姿勢,為什么人類的視覺能夠在千變萬化的外形里確定目標是狗?這個問題的答案,到現在為止尚未弄清楚。最早的計算機識別狗時,狗變換了位置后計算機就不能識別了,這是位移的不變性,這個問題現在已經解決。 但是尚未解決的問題還有很多。例如,計算機能夠識別固定尺寸的狗,但是把狗變大或變小后都難以識別,這是大小的不變性。現在計算機只能通過局部紋理來區分狗和雪山。因此,如果將雪山圖上的某個紋理改成皮毛紋理,即便雪山的形狀保持不變,計算機仍會把雪山誤認為是狗。所以說,到目前為止,人工智能的深度學習仍然不夠安全可靠。

大語言模型的“大模型”與“大文本”

目前比較成功的AI工具,其強大性主要來源于兩個“大”,一是大模型,二是大文本。 第一個大模型的“大”是大的人工神經網絡,人工神經網絡可以用來分類、學習數據中間的關聯關系,也可以用來預測。這個巨大的人工神經網絡叫“轉換器”。AI工具的能力強大,離不開深度神經網絡的強大。原來的神經網絡是逐字輸入,現在一次能夠輸入2000多字(一個token,粗略地講相當于一個漢字)。人類從1957年到2013年花了56年時間探究文本的語意表示問題,現在的文本不是用符號表示,而是用語意向量表示,這也是最重要的一個突破。 過去計算機處理文本只能把它當作數據處理,現在可以把它當成知識來處理,即向量表示。此外,還提出了“自監督學習”。過去供計算機學習的文本都要做預處理、預先標注,此項工作量太大,所以無法支撐計算機大量學習。自監督學習是指原來的文本不經過任何處理就可以被計算機學習,用前面的文本預測后面的詞,輸入后預測下一個,被預測的內容又把再下一個變成輸入,有些類似于接龍式學習方式。 第二個“大”是大文本。計算機實現自監督學習后,所有文本不用經過任何預處理就可以學習,文本也由原來的GB量級發展為TB量級。現在比較成功的人工智能大約學習了40TB以上,相當于一千多萬本牛津辭典,并且這個學習過程并非死讀,而是理解其中的內容。這就使得我們進入了生成式人工智能時代。無論是第一代還是第二代人工智能,都受到三個限制——特定領域用特定模型完成特定任務。“三個特定”是所謂的“窄人工智能”,即專用人工智能。 目前比較成功的AI工具能夠通過其強大的語言生成能力讓人類在與它對話時沒有領域限制,這是人工智能的重大進步。另外,生成多樣性的輸出是目前AI工具的重要特征。它有多樣化的輸出就有可能創新,因為輸出多樣化,難以保證每個輸出都正確,所以越希望它能輸出有創造性,就越要允許它犯錯誤。我們在日常使用一些AI工具時也會發現,有時AI對問題的回答非常機智聰明,有時則是明顯的胡說八道,這就是多樣化輸出的結果。 目前AI工具產生了兩個重大突破,一是生成語意連貫的類似人類的文本,二是在開領域實現了人機自然語言對話。大語言模型是向通用人工智能邁出的一步,有西方專家認為這是通用人工智能的曙光,但它并不是通用人工智能,人類走向通用人工智能依然任重道遠。 走向通用人工智能必須滿足三個條件。第一,系統必須與領域無關。目前較為成功的AI工具在對話、自然語言處理的問題上做到了與領域無關,但在處理其他大量問題上仍難以實現這一目標。第二,系統與任務無關,即什么任務都會做。目前AI工具能進行對話、四則運算、作詩、寫代碼等多種任務,但仍難以完成復雜環境下的復雜任務。第三,尚需建立一個統一的理論。因此,人工智能還有很長的路要走。

邁向通用人工智能的四個步驟

從大語言模型邁向通用人工智能需要四個步驟。第一步是跟人類進行交互、與人類對齊,第二步是多模態生成,第三步是與數字世界交互,第四步是與客觀世界交互,。我們并不是說,完成這四步就意味著實現了通用人工智能,而是說通往通用人工智能這個目標,至少需要邁出以上四步。 第一步是與人類對齊。目前AI工具輸出的內容不一定正確,若要解決這個問題,必須依靠人類幫助它克服,使之與人類對齊。從AI工具的應用實踐來看,它的錯誤需要人類幫助糾正,而且它的錯誤糾正速度和迭代速度都很快。與此同時,我們要看到輸出內容的錯誤仍然存在,但我們如果想要它具有創造性,就要允許它犯錯誤。 第二步是多模態生成。現在已經可以用大模型生成圖像、聲音、視頻、代碼等各種模態的內容。隨著技術的進步,鑒別一個內容是由機器生成還是人工完成將會變得越來越困難,這為“造假”提供了非常好的機會。“造假”又名“深度造假”,即用深度學習的辦法“造假”。試想一下,如果以后網絡上95%的文本都由AI生成,那么我們還能通過網絡獲取真知與真相嗎?比方說,當一件事情發生后,網絡上出現一片支持或者反對意見,這些意見究竟是來自多數人的真實表達,還是來自少數人操縱AI歪曲事實?如何有效防止AI工具操縱輿論、混淆視聽,這是需要我們嚴肅考慮的。 目前人工智能領域已經實現了三項突破,即開領域生成語意連貫的類似人類的文本。其中,**語意連貫是最重要的突破,這個突破后就有了圖像的突破。**因為圖像只要求在空間上連貫即可,而視頻則進一步要求時空上的連貫。我們在語言上進行突破,緊接著會有圖像的突破,圖像突破后肯定還會有視頻的突破。在這個發展過程中,計算的資源要求和硬件都會變得越來越多。 隨著人工智能的發展,很多人注意到了“涌現”現象。例如,當系統規模沒有達到一定程度時,生成的圖畫很糟糕、水平較差,但當規模達到一定程度,生成的大多數圖畫突然間就變得質量很高。這個過程稱為“涌現”,“涌現”是從量變到質變的過程。到目前為止,全世界范圍內都還無法完全理解“涌現”現象出現的原因。 **第三步是AI智能體。**大語言模型邁向通用人工智能必須與數字世界進行連接,首先在數字世界里具體操作,從而解決問題、感知自己成果的優劣,并進行反饋。這個工作對促進大模型的性能向前發展有很大益處。 第四步是具身智能。具身智能,即具有身體的智能。智能光有腦還不夠,還必須具有身體,這樣才能動口又動手。所以,大語言模型邁向通用人工智能,必須通過機器人與客觀世界連在一起。

基礎模型的出路在哪里?

當下,信息產業的發展非常迅猛,原因在于建立了相關理論,在理論指導下制作的硬件和軟件都是通用的。過去,信息產業領域內出現了一些具有世界影響力的大型企業,應用推廣相應技術并實現信息化,整個鏈條發展非常迅速。 但是,人工智能產業的發展缺乏理論,只有算法和模型,而根據算法和模型建立的硬件和軟件全是專用的。“專用”即意味著市場很小,到現在為止,人工智能產業還沒有產生具有世界影響力的大型企業,所以人工智能產業必須跟垂直領域深度結合才有可能發展。不過,目前情況也在發生變化,具有一定通用性的基礎模型的出現,肯定會影響產業發展。

2020年,全世界人工智能產業達到10億美元以上的獨角獸企業一共有40家,2022年變成117家,2024年初達到126家,從這個情況來看,它是逐步增長的。到現在為止,中國有100甚至200家企業在做大模型。 這么多人做基礎模型,他們未來的出路在哪里?

第一個出路是向各行各業轉移,做各個垂直領域的大模型。現在很多行業都在考慮這個問題,例如石油行業考慮石油行業的大模型,金融行業考慮金融行業的大模型,所以將來做通用大模型的數量將越來越少,大多數做大模型的人才會轉向各個垂直領域。 第二個出路是最重要的,即經過微調應用在產業里。換言之,提供公開的大模型軟件,讓大家開發應用。 第三個出路是跟其他技術結合,發展新的產業。國外很多獨角獸企業都將AI工具與其他技術結合,發展新產業,有的是向各個行業轉移,還有的專門做圖像、視頻、語音等。國內一些大模型現在也已經取得了比較好的發展。 基于此,勢必要推動人工智能領域的產業變革。今后無論做硬件還是做軟件,一定要放到基礎模型的平臺當中。過去是在一個零基礎的計算機中制作軟件,效率很低,而現在平臺已經學習超過一千萬本牛津辭典,能力水平至少相當于一個高中生,若將同樣的工作放到基礎模型的平臺上進行將會事半功倍,所以采用這個平臺是不可阻擋的趨勢。而這些“高中生”則來源于大模型企業提供的公開平臺。

大模型的局限性

大模型的所有工作都由外部驅動,在外部提示下進行。它缺乏主動性,在外部提示下做某事時,主要基于概率預測的方法,所以會出現一些人類沒有的缺點,即輸出的質量不可控。并且它不知道是非對錯,所以它的輸出也不可信。與此同時,它受外部影響太大,只能聽從指令來完成相應的事情。但人類則是完全不同的,即使這件事是由別人安排完成,人也能夠在自己的意識控制下進行,所以是可控、可信的。 由此可見,目前的人工智能并不知道自己的所作所為。AI工具尚不能準確分辨對錯,且現在還難以主動進行自我迭代,仍舊需要在人類的操作下進行。未來的人工智能最多成為人類的助手,在人類的監控下進行操作,只有少數工作可以完全交給機器獨立完成。 有研究機構曾做過關于人工智能對各行各業影響的統計,列出了大量行業,在未來這些行業中只有少數工作可能會被人工智能取代。可見,人工智能對各行各業都有重大影響,但大多數是幫助人類提高工作質量和效率,而非取代人類進行工作。人工智能是探索“無人區”,其魅力就在于它永遠在路上。我們不能因為它的進展而過于樂觀,也不必因為它的挫折而沮喪,我們需要的是堅持不懈地努力。編 輯:高 潔責 編:段少敏

審 核:李國慶來源:《光明日報》(2024年05月25日 10版),原題《探索之路:人工智能發展的回顧與展望》,如有涉及版權等問題請及時聯系我們,著作權解釋權屬原創者所有!

付費5元查看完整內容

導讀 本文將分享螞蟻多模態認知團隊過去一年在視頻多模態檢索領域的研究成果。文章主要圍繞如何提升視頻文本語義檢索效果,及如何高效地進行視頻同源檢索這兩項研究工作展開。主要包括以下幾大部分:

  1. 概述
  2. 視頻-文本語義檢索
  3. 視頻-視頻同源搜索
  4. 總結
  5. Q&A 分享嘉賓|郭清沛 螞蟻集團 高級算法專家 編輯整理|張進東 內容校對|李瑤 出品社區|DataFun

01概述視頻多模態檢索在螞蟻內部有著廣泛的應用。視頻多模態檢索具體包括兩個方向,一個是視頻-文本的語義檢索,另外一個是視頻-視頻的同源檢索。  視頻-文本的語義檢索方向旨在通過文本檢索與其語義相近的視頻,其檢索文本未必在檢索到的視頻描述中直接出現,但檢索視頻的內容與檢索文本需要保證語義相關。例如,在支付寶的搜索欄中,用戶期望通過文本檢索出與之相關的視頻內容;在安全防控場景中,可通過文本檢索來查找安全防控場景中的敏感視頻。檢索文本通常是短文本。另一方向是視頻-視頻的同源檢索。同源檢索可以實現在視頻底庫查找與查詢視頻相關的片段,在實際場景中有著廣泛應用。例如在進行視頻采購時,可以避免采購到已有視頻,從而降低采購成本;在視頻版權保護中,當用戶提供一段短視頻時,需要通過對海量視頻底庫檢索來判斷該視頻是否存在侵權。

 快速提升視頻-文本語義檢索的方法包括:視頻-文本預訓練、關注難樣本和引入細粒度。關于視頻-文本預訓練方面,我們在 MSRVTT 文本視頻檢索數據集上使用 r@sum 指標來衡量語義檢索算法效果,其中 r@sum 指標將 top1-recall(r@1),top-5 recall (r@5) 和 top-10 recall(r@10)的指標相加得到。通過采用視頻-文本預訓練的手段,我們在 r@sum 指標上實現了 24.5% 的提升;隨后引入關注難樣本,成功提高了 r@sum 8.1%;引入細粒度識別技術,可以提升 r@sum 2.8%。除此之外,在視頻的同源檢索領域,我們自主研發了視頻侵權檢測方法。基于此方法,成功節省了 85% 的存儲量,并且在侵權檢索中能夠實現 18 倍的速度提升,同時,檢索效果相較于傳統的視頻檢索方法,在 top1 F1-score 上有 2.78% 的提升。接下來,將圍繞著視頻-文本 語義檢索 和 視頻-視頻 同源檢索兩大方向,詳細闡述我們的提升方法。

02****

視頻-文本語義檢索****在過去的一年里,我們在視頻文本語義檢索方向進行了三個方面的研究,以提高視頻-文本的語義檢索效果,分別為:視頻-文本預訓練、關注難樣本以及引入細粒度。1. 視頻-文本預訓練第一個關鍵性進展是視頻-文本預訓練技術。在展開相關介紹前,先介紹下“視頻-文本預訓練”的含義。

 預訓練是正式 finetune 前的階段,它主要是利用大規模且無監督的視頻-文本對數據進行語義對齊訓練,以提升下游任務的表征能力。通過預訓練,我們期望模型能在各類下游任務上取得良好的表現。在具體的應用中,常見的下游任務包括視頻-文本檢索(video-text retrieval)、VQA(video question answering)、視頻描述生成(video captioning)等。在理解預訓練任務之前,需要了解兩個概念,一個是視頻-文本 pair 數據從何而來,另一個則是如何理解視頻所對應的文本。通常一個視頻會對應兩個文本來源,其一是視頻所對應的標題描述,這個描述通常是對整個視頻內容的概述,比如短視頻 app 中每個視頻對應的標題文本;另外一個來源是每段視頻配備的音頻,并通過語音識別(ASR)技術,將音頻所對應的文本識別出來。根據 ASR 的起止時間區間,可將其對應的視頻片段視為當前時間片段的 ASR 文本,進而建立起視頻和文本的關聯關系。我們基于以上兩種關聯數據構建大規模無監督的視頻-文本對,并在此數據集上進行預訓練。然后將預訓練后的模型作為各項下游任務的初始化模型,可以顯著提高下游任務的效果。

 國內大多數短視頻場景主要面向中文用戶,當前在中文視頻-文本預訓練方面,我們主要面臨兩大挑戰。首先,缺少公開可用的中文視頻-文本預訓練數據集,學術界通常使用的數據集大多為英文文本,例如 HowTo100M 和 WebVid 等,難以獲取公開的中文視頻-文本預訓練數據集,鑒于此,我們構建出了業界首個開放訪問的中文視頻-文本預訓練數據集,該項成果已于 2023 年的 CVPR 上發表。其次模型設計時需關注跨模態交互,以實現視頻和文本之間更深度的交互與融合,從而提升視頻-文本檢索的效果。我們提出了一種加強視頻-文本跨模態交互的新型模型,即 SNP-S3,該工作已發表于 2023 年的 IEEE T-CSVT 期刊上。首先來介紹第一部分的主要研究成果。我們提出了業界首個公開發布的中文視頻-文本預訓練數據集,通過在該數據集上進行預訓練,能夠顯著提升中文視頻文本檢索模型的效果。

 主要工作包括三部分:首先構建了大規模的公開中文視頻-文本數據集 CNVid-3.5M;其次采用有效的數據處理方法,過濾掉那些匹配度不高的視頻和文本對數據,顯著提高了數據質量;最后我們在 CNVid-3.5M 上進行中文預訓練,驗證了我們提出的 CNVid-3.5M 可以顯著提升中文視頻-文本預訓練的效果,并建立了該數據集上的 benchmark。整個過程如上圖所示。

 接下來介紹數據集的構造過程。我們從多個中文視頻網站上收集原始視頻。在收集視頻時,我們會特別關注當前視頻的類別、主題,并盡力保持各個類別與主題間的均衡性。我們成功構建了 450 萬個原始的中文視頻-文本對。上圖展示了視頻對應的文本關鍵詞所生成的詞云。

 在收集完數據后,緊接著是數據清洗的工作,將數據集中相對低質量的視頻-文本對進行過濾。原始的視頻-文本對并不是嚴格在語義上對齊的。例如,存在于當前視頻中的視覺信號與該視頻背景音樂音頻轉換而來的文本,可能并無明確的語義關聯性,而且引入背景音樂音頻的文本可能會作為污染訓練數據。因此,我們盡可能地把不相關的這些視頻-文本對過濾掉。為了實現這一目標,我們提出了使用圖文預訓練模型進行視頻數據清洗的方法。具體實施步驟如下:首先我們利用訓練好的圖文相關性模型 CLIP,評估當前文本與視頻中每一幀關鍵幀之間的相關性,并將關鍵幀之間的相關性進行聚合得到整體相關性,通過對整體相關性設定閾值,來濾除相關性較低的視頻。至此,我們過濾掉接近 100w 低質的視頻-文本對,保留了約 350 萬條中文視頻-文本對。

 上圖中展示了我們構建的 CNVid-3.5M 數據集的基本指標統計。截至當前分享時間,我們所構建的中文 350 萬的 CNVid-3.5M 是當前業界最大的公開的中文視頻-文本預訓練數據集。

 接下來我們基于 CNVid-3.5M 數據集構建了 Benchmark,以觀察各種不同架構的模型在我們構建的數據集上進行預訓練的效果是否有提升。

 上圖展示了三個階段的詳細實驗結果。在構建數據集的過程中,使用我們搜集構建的原始數據集進行視頻-文本預訓練,結果顯示在翻譯后的中文 MSRVT 數據集的表現上,經過預訓練后與預訓練前相比,總的 R@SUM 指標有了 17.7% 的顯著提升。同時,表格中也揭示了在我們的過濾階段,將 450 萬數據過濾為 350 萬時,雖然預訓練數據量有所減少,但整體上模型的效果反而有所增強。

 中文視頻-文本預訓練的第二個難點是在模型設計上,需要關注跨模態的交互,針對這個問題我們提出了增強視頻-文本跨模態交互的模型 SNP-S3。S3 指的是重要的語義信息的增強,其針對傳統預訓練的以下兩個缺點設計。

 傳統預訓練任務,一般是在跨模態 encoder 上面,直接去用 mask language modeling 任務做預訓練,另外一個常見的預訓練任務是做全局的 Vision-Text Matching 的任務。如上圖所示,傳統的 Mask Language Model (MLM)任務存在的一個問題是,當 mask 的 token 是文本當中不太重要的詞時,比如量詞 a,模型甚至可以不去看視頻相關的內容,通過語法的知識就能夠把當前 mask 的詞直接復原出來。但是當 mask 的詞是關鍵詞時,模型就必須看到當前視頻,才能夠知道 mask 的詞是什么。比如男孩穿著一件紅色的衣服,如果把紅色 mask 掉,模型沒有看到視覺輸入的話是沒有辦法去重建的。通過強迫模型必須要基于給定的視覺輸入去推理 mask 的文本內容這種方式,增強了各個不同模態之間的交互。傳統的 Vision-Text Matching 的任務存在的問題是,它更多的是做全局的對齊,視覺跟文本更多是在整個句子層面的語義去做對齊。句子層面的對齊是全局的粒度,缺乏局部信息。比如在句子中,把關鍵的詞如red 直接去掉,去跟視頻 matching 它仍然是可以做得非常好的。這也就意味著檢索模型其實并沒有細粒度的區分能力。像red 這種屬性詞,還有一些動詞,都需要更細粒度的能力。我們希望能夠在傳統的基于全局的匹配基礎上,讓模型能夠對這些細粒度的信息更加敏感。由此引入了關鍵詞匹配的方式,把句子中更重要的詞匯,比如名詞、動詞、形容詞與視頻來做屬性的匹配,以此來增強模型在細粒度上的識別能力。這兩點改進,即針對 Mask Language Modeling 重要詞來做 mask(Mask Significant Semantic Model,MSSM),和在全局信息上面加入細粒度的改進(LVWM),都是為 S3 顯著性語義增強的目標來服務。

 這里介紹 S3 具體的實現。MSSM 任務,重點在于將關鍵詞語直接 mask 掉,強依賴于給定的視覺輸入來重建被 mask 掉的詞語。LVWM 任務則是增加了視覺輸入與單詞匹配的任務。具體而言,之前的 Mask Language Modeling 是按照一定的概率從文本中隨機挑詞,需要挑出重要的詞。重要詞有兩種定義,一種是用詞性打標工具去定義,另外一種是通過在整個大的數據集上去統計一個詞出現的頻次,用類似于TF-IDF 的方式衡量當前詞的重要性。在這里我們結合了這兩種方式,要成為重要詞首先必須是名詞、動詞和形容詞;此外,詞頻不能特別高,詞頻越低其 IDF 就會越大,詞頻低就意味著其信息量較高,通過這種方式挑選出重要的詞進行 mask。另外一個改進是視覺和單詞的匹配。將第一步挑選出的關鍵詞,與視覺信號分別來做匹配,每個詞都會有一個與視覺輸入的相似度,最終把相似度聚合,得到當前句子從單詞的維度跟視覺的匹配程度,進而構建相似矩陣。構建的矩陣會跟之前全局視覺文本的匹配的相似度矩陣一起加到 loss 里面去做優化。

這里對 S3 方法進行了定量分析,可以得到以下結論:

  • MSM 在各個不同的模型結構上都有著比傳統 MLM 更好的效果。所以可以直接去替代之前傳統的 MLM 任務。
  • 另外,LVWM 任務只能作為傳統的全局的視頻-文本匹配任務的補充,并不能替代全局的視覺-文本匹配任務。如果把 LVWM 任務加到傳統的 GVTM 任務上,可以看到 B3 相比于 B1、B7 相比于 B5 都有著更好的效果,證明它是非常好的局部信息的補充。
  • 另外提出的 S3 里面兩個核心的組件都是模型無關的,可以看到 B1 v.s. B4,B5 v.s. B8,分別是在 ResNet50、PVT 不同的模型結構上面;所以這兩個策略可以用在任何模型結構上面,我們通過 S3 策略可以使 r@sum 指標提升 6.8%。

我們也對 S3 方法進行了定性分析。加上 S3 之后,給定輸入文本,模型會關注到視覺上跟文本更相關的區域。上圖展示了一些具體的例子,比如人在海上沖浪的圖片,可以看到 baseline 關注區域是分散的,并沒有太多的語義,但是加上了 S3 方法之后,它會關注人,還會關注后面海浪的背景。以上就是對視頻-文本預訓練的介紹,主要包括兩方面的內容,首先是如何構建中文視頻-文本預訓練數據集;第二是在模型設計環節,如何強化視頻文本的交互水平。通過這兩項優化可以顯著提高視頻-文本語義檢索的效果。 2. 關注難樣本接下來繼續分享如何通過關注難題樣本進一步提升視頻-文本語義檢索效果。關注難樣本可使視頻-文本語義檢索提升 R@Sum 近 8.1%。

 關注難樣本的要點是模型在學習的過程中能夠逐漸去關注難樣本,這主要的原因是難樣本并不是一開始對模型的訓練就有幫助的。在訓練剛開始的時候,難樣本可能會讓模型難以收斂,但是當模型收斂得比較好的時候去關注難樣本,可以對模型的性能有更進一步地提升。關注難樣本主要有兩個思路,一個是人工指定對難樣本的關注度,比如根據模型訓練的不同階段設定對難樣本不同的關注度;另一個是讓模型自適應地去學習對難樣本的關注度,我們團隊在這兩個方面都進行了探索。首先介紹下人工指定對難樣本的關注度這一策略,主要使用的方法是基于課程學習的難樣本挖掘工作,該工作發表在 CVPR2023 上。

 訓練過程中的樣本大致可以分為好的樣本、難樣本,還有噪聲樣本。所謂好的樣本,是指視頻-文本 pair 語義對齊的質量相對較高,文本能夠在語義上描述清楚當前視頻片段所對應的內容。難樣本指的是,視頻跟文本也是語義對齊關系,但是文本所體現的語義,跟視頻是弱相關的,但是也有相關性。而噪聲樣本則是指視頻和對應文本語義上幾乎沒有相關性,比如視頻所對應的音頻中歌詞與視頻的語義關聯并不大,歌詞并不能夠描述當前視頻的語義,這種文本跟視頻相關性比較低的視頻-文本 pair 我們定義為噪聲樣本。

 這三種樣本在訓練過程中起到的作用也是不一樣的。首先噪聲樣本,不管是在訓練剛開始,還是在訓練最后都對訓練有負面影響,所以噪聲樣本是需要直接丟棄的;對于高質量的樣本,在訓練開始的階段模型會更多去關注,可以加速模型的收斂;對于難樣本,則是在模型已經收斂到一定程度,已經有比較好的表現時要更多關注難樣本,可以讓模型更好地學習難例,進一步提升模型性能。但如果在一開始就關注難樣本,可能會使模型學偏導致無法很好地收斂。

 基于這個觀察,我們設計了難例課程學習的算法,算法的核心思路是通過課程學習的方式,剛開始的時候讓模型更多去關注好的樣本,在模型有一定相關性判別能力之后嘗試做難例挖掘,讓模型能夠在訓練的后期更多地關注比較困難的樣本。具體的做法如上圖所示,首先第一步是采用 contrast learning 的方式構建了視頻和文本的相似度矩陣,相似度矩陣的對角線均為正樣本,對角線以外都是負樣本,接下來根據對角線上面的相似度的值來判斷當前的正樣本是難樣本還是簡單樣本。一般來說如果對正樣本的相似度比較高,可能就是簡單樣本。通過這種方式在列維度對難樣本做度量。同時,也在行層面對難樣本進行度量,每一行都代表當前文本跟當前batch 內所有視頻的相似度,我們取出所有負樣本,如果當前文本跟負樣本的相似度比較高,那么就認為當前視頻-文本樣本是難例。接下來,我們把基于行還有基于列的度量結合在一起,構建 VTM(video-text matching) loss 的權重。這一權重由行加權和列加權共同作用得出,權重系數的大小是通過課程學習的方式來調整的,剛開始的時候權重為 0,就相當于沒有加難例挖掘的 loss;隨著訓練的進行,會讓權重 loss 的部分越來越大,這樣讓模型逐漸關注到難樣本上。

 我們通過實驗分析了當前模型加入 HSCL 難樣本課程學習的 loss 之后的效果表現。采用了兩個數據集,一個是中文的預訓練和 fine tuning 的數據集 CNVid-3.5M,另外一個是在英文上面來做個預訓練和 fine tuning 的數據集 COCO+VG+CC。實驗發現,在引入難樣本課程學習方法之后,可以為文本視頻檢索的 r@sum 指標帶來 5% 左右的提升。以上介紹的是人工方式來指定對難樣本的關注度,這一方式不夠自動化,需要做超參數的調整。我們希望讓模型能夠自適應地學習對難樣本的關注度,因此設計了一種自適應方法,接下來介紹的 DMAE 和 NegNCE 的方法發表在 2023 年的 ACM Multi Media 上。通過這種方法,可以帶來 R@SUM 3.1% 的提升。

 接下來介紹一下 DMAE 和 NegNCE 的 motivation。DMAE 是雙模態的 attention 增強的模塊,它的核心是希望能夠找到盡可能多的難例,主要是采用兩個思路,第一個是擴大簡單樣本和難樣本之間的邊界。如上圖右側,從 b 到 c 是在 NegNCE 的基礎上增加 DMAE,可以看到通過 DMAE 的難例挖掘,可以引入更多的難負例擴大決策邊界,進而提升模型對樣本的區分度。NegNCE 的核心思想是把這些難樣本全部都找出來后,看哪些難樣本是真正需要去關注的,因為這些難樣本,有可能之前的 infoNCE 的 contrastive loss 都已經解決了,但是還有那些解決不了的希望能夠通過加一個輔助的 NegNCE loss 到訓練目標里面,讓模型動態地關注這些難樣本。傳統的 infoNCE 更多的是關注正樣本,把正樣本拉近,把負樣本推遠,并沒有關注難的負樣本,引入 NegNCE 可以讓模型顯式地去關注難樣本,在上圖的 case 中難的負樣本,在決策邊界上是很近的,它雖然是負樣本,但是它跟當前 Anchor 的相似度可能會比正樣本更近。NegNCE 能夠把這樣的負樣本逐漸推遠。DMAE 會挖掘出更多的這種負樣本,把更多的負樣本囊括在當前模型 loss 所考慮的范圍之內,即DMAE 挖掘更多負樣本,NegNCE 去努力區分負樣本,通過這兩個 loss 的配合,讓模型能夠在訓練過程中自適應地去關注難樣本。

 DMAE 主要有兩方面的工作,一個是在文本側,因為文本句子表達包含很多冗余性,所以希望能夠讓模型更多地關注到句子中關鍵的詞。這些關鍵詞首先得是名詞、動詞和形容詞這些比較重要的詞,其次是出現的詞頻,即相對于詞頻更低,這樣的代表詞有更多的信息量。把這兩個結合在一起,來挑選出文本的關鍵詞,對這些關鍵詞,會在做文本 attention 的時候給予更高的權重。另一方面的工作在視覺側,視頻和圖片最大的區別在于視頻中會包含很多關鍵幀,關鍵幀之間是包含一定冗余性的,也就意味著在時序上鄰近的這些幀可能在語義上甚至視覺上都是非常類似的。這意味著如果當前幀存在難樣本,那么跟它比較相似的另外一幀也存在很多難樣本。我們把這兩類難樣本求并集,合并之后的難樣本集合就是當前幀和另外一幀跟它比較相似的幀構成的難樣本集合。

 具體的實現方式為,在計算視頻跟文本相似度矩陣之后,會做文本側的加權,文本側的權重主要是依據單詞的詞性、詞頻來確定。另外,視頻側的權重主要是把當前視頻關鍵幀跟它自身來做相似度矩陣。接下來保留 top 的 score,比如對于每一幀找跟它最相近的幀的難樣本,也作為當前幀的難樣本,通過這種方式構建相似度矩陣,在相似度矩陣上面可以挖掘出更多的難例。越難的樣本在相似度矩陣上最終得到的score 就會越高。

 當挖掘更多的難例之后,我們希望模型在訓練過程中能夠去動態區分這些難例,由此顯式地引入了 NegNCE loss。傳統的計算視頻跟文本的相似度采用 InfoNCE loss。InfoNCE 的分子是正樣本,分母是所有的負樣本,InfoNCE 在拉近正樣本和推遠負樣本過程中把正樣本和負樣本等同看待。在訓練過程中,NegNCE 首先會判斷哪些是負樣本。對于相同的文本而言,如果負樣本的視頻跟文本的相似度比正樣本視頻更大則認為是難例。通過這種方式,在訓練過程中,我們可以把所有負樣本比正樣本相似度更高的視頻-文本 pair 全部挖掘出來,并加上輔助 loss(如上圖公式(6)),專門來做難的負樣本的挖掘。輔助 loss 和之前的 InfoNCE loss 通過加權相加。我們可以通過調整r2 的權重來調整模型在訓練過程中對難樣本的關注度。

 我們通過實驗驗證了上面提到的難樣本策略。DMAE 主要是用來擴大難樣本的范圍,NegNCE 讓模型在擴大難樣本范圍之后更多的去關注對模型而言比較難區分的負樣本,可以看到用 DMAE 加入 NegNCE 之后,整體的效果是有提升的。把這兩個組件合在一起,整體對 r@sum 指標有 3% 的提升。

3. 引入細粒度接下來介紹第三方面,引入細粒度,也可以快速提升視頻文本語義檢索的效果。在實驗中,引入細粒度可以對 R@Sum 指標提升 2.8%。

 視頻-文本語義檢索的已有工作缺乏對較細語義粒度的區分。比如現在常用的 Pairwise loss 更多是通過做二值量化來判斷視頻和文本之間是否相似,屬于粗粒度的識別,本質上是一個二分類。另外一類基于 Triplet loss 這種方法,并不做相關或不相關二分類,而是建模偏序關系,可以讓模型在更細粒度上建模語義相關性。但是怎么去構建不同語義粒度的視頻-文本 pair 呢?這個是我們的核心挑戰。

 為了構建不同語義粒度的視頻-文本 pair,我們采用生成的方法生成這樣偏序 pair。具體的思路是借鑒在單模態文本上的 CSE 工作。擴展到多模態上時,如果當前完整的文本和完整的視頻是完全相關的,那么在視頻上面如果要去掉一些關鍵幀,那么視頻的相關性會逐漸變弱。所以構建的偏序關系是:文本跟完整的視頻之間的相關性> 文本跟去掉關鍵幀之后的視頻的相關性。同樣,對于文本側而言也是一樣的:當前視頻跟文本之間的相關性 > 當前視頻跟文本去掉關鍵詞之后的相關性。基于這個思路,我們生成不同語義粒度的這種相關性的 pair。在生成偏序 pair 上另一個和單模態的不同點是,對于單模態,可能更多的只考慮文本或者圖片本身的語義。而對于多模態,在構建偏序對時,實際上是要看到文本才能夠確定當前視頻中的哪些幀重要,哪些幀不重要;對于文本側也是一樣,看到視頻之后才能確定這些文本描述中哪些詞是重要的,哪些詞是不重要的。基于這樣的觀察我們提出了兩個模塊,第一個是跨模態的 token 重要性的預測,算法核心是通過給定一個模態輸入,預測另一個模態的 token 重要性。比如給定視覺側全局信息輸入,讓模型預測當前文本 token 的重要性,即文本中的哪些詞是重要的;對于視覺側也是一樣,給定當前文本的總體的表征來預測當前視覺的哪些 token 是重要的。通過這種方式,來選出重要的文本 token 和視覺的 token,并進一步把這些重要的 token 做 mask,通過 mask 生成的樣本就比 mask 之前的完整文本或視頻跟另一個模態的相關性更弱。通過這種方式,我們就可以生成有偏序關系的 triplet 三元組。

 具體的實現分為兩個階段,第一個是生成偏序的樣本,首先要預測對另外一個模態而言,哪些 token 是更關鍵的;預測到更關鍵的這些 token 的權重之后要確定 mask 掉哪些 token 對當前文本的 token 語義影響是最大的。第二步把語義影響最大的這些 token 直接 mask 掉就生成了偏序的 pair。類似于 Triplet loss 的思想,mask 之后的樣本與另外一個模態之間的相關性會變弱。Triple data 三元組里面兩兩建立相關性,也就是三個 loss 來做約束。如上圖公式(17)所示,帶 p 的都是已經做過mask 的。所表達的含義就是,沒有做過 mask 的跟文本的相關性要高于做過 mask 的相關性,沒有做過 mask 的文本跟視頻的相關性要比做過 mask 的文本跟視頻的相關性更高。

 我們通過實驗驗證了引入細粒度的具體效果。引入了細粒度 TPM-CL 的方法后,相比之前,在 MSRVTT R@sum 指標有約 2.8% 的提升。也可以跟 DMAE 合用,通過 DMAE 擴大引入更多的負樣本,TPM-CL 是讓模型在訓練過程中更多地關注難以區分的負樣本,這兩個方法結合帶來了 4.4% 的提升。小結一下,快速提升視頻-文本語義檢索的第三個方法是引入細粒度,具體在這方面做的工作是偏序樣本生成,以及引入偏序損失。以上就是對視頻-文本語義檢索三個主要優化方法的介紹。接下來將介紹視頻多模態在視頻-視頻同源檢索方面的應用。

03****

視頻-視頻同源搜索****視頻-視頻同源檢索的核心是如何高效低成本地實現視頻侵權檢測。我們在該領域提出了一種自研的端到端的片段匹配定位技術,能夠迅速實現視頻到視頻的版權檢索,相較于傳統方法,可節省 85% 的存儲空間,并在視頻侵權檢索場景中加速 18 倍。在檢索效果方面,F1 相比已有的方法,可提高 2.78%。

1. 視頻到視頻同源檢索的挑戰

視頻到視頻同源檢索所面臨的挑戰主要包括:

  • 首先,視頻侵權類型復雜,內容變化多樣且劇烈。這會對版權檢索的準確性造成影響。涉及的復雜的侵權類型包括:幾何變換(如剪切、縮放、旋轉等)、光學變換(如色調、噪聲、對比度、亮度等)、時域變換(如丟幀、快放、剪輯、幀率變化、加減速等),以及將以上各類變換綜合運用產生的復合變換。這些特殊的變換使得對視頻做同源檢測工作變得困難重重。例如在視頻的空域上增加多種濾鏡,并對原始視頻進行裁剪和模糊處理,得到的所有視頻都是對原始視頻的侵權。又如,對原始視頻進行加減速,或拼接,這種視頻也屬于侵權。
  • 另一方面,數據量龐大,視頻的每一幀都需進行計算處理,因此計算量也較大,存儲量大和計算量大帶來了成本高的難題。 因此,要實現視頻到視頻的同源檢索,核心在于:如何提升檢索的準確度,以及如何降低成本。

 傳統的視頻對視頻同源檢索方法無法滿足需求。以 MultiMedia09 的研究為例,他們采用時序網絡,基于動態規劃的方法尋找侵權片段的最長路徑。其優點在于無需監督且定位較為精確,但其缺點是魯棒性較差,尤其是面對加速或減速,或者時域和空域復合變換的情況,其效果難以達到預期。還有一些工作是基于深度學習模型,通過基于特征相似度矩陣的方式處理,這種方法將視頻是否侵權的問題轉化為待檢測視頻與侵犯版權視頻的二分類,即將視頻特征整合后,若侵權則標記為標簽"1",反之則標記為標簽"0"。這種方法無法實現視頻的侵權檢測的片段定位。

2. 框架及核心技術基于現有算法無法滿足需求,而視頻侵權檢測對于業務意義重大,我們自主研發一套侵權檢測框架,以解決上述效果和成本問題。

 框架的整體設計如上圖所示。首先,對視頻底庫進行處理,對視頻抽取關鍵幀,然后對關鍵幀進行幀級特征提取,并存儲在特征庫中。在處理查詢視頻時,同樣會對查詢視頻進行關鍵幀抽取和特征提取,然后,使用查詢視頻與底庫進行特征匹配,完成匹配后,進行精細排序,最終判斷當前的查詢視頻是否存在侵權。核心技術包括以下兩個層面:首先是如何準確抽取視頻的關鍵幀,這實際上是降低成本要求。如果我們將視頻中的每一幀全部保存下來,存儲成本會相對較高。因此期待能通過關鍵幀來替代整段視頻,從而降低視頻在版權檢索過程中的成本。其次是如何迅速定位視頻侵權部分的問題,此環節涉及到準確率與成本的平衡。例如,剛剛所提到的 ICCV 的研究,主要涉及的 Pairwise 式的視頻侵權檢測,雖然理論上可行,但在實際業務中無法實現,因為其侵權比對成本過高。我們提出的自研解決方案分別是自監督的 SKE 方法和檢測定位的 SPD 模塊。接下來將詳細闡述這兩種方法。

 首先來介紹 SPD 模塊。該模塊的核心理念是,在提供候選視頻以及查詢視頻后,將候選視頻和查詢視頻的關鍵幀的特征進行兩兩對比,構建出相似性矩陣。在特征相似性圖上可以看到部分相似度值會更高,且具有一定的連續性。基于這一觀察,我們將視頻之間可能存在片段匹配的問題轉化為在特征相似圖上進行侵權模式 Pattern 目標檢測的操作。這也就意味著我們可以構建侵權相似度圖訓練集,同時在特征相似度圖上標注出侵權的起止時間,便可在特征相似度圖上直接訓練 YOLO 的目標檢測模型,從而實現快速識別。判斷候選視頻是否與底庫中的任何一個視頻,以及視頻的某個片段存在雷同之處,進而判定該視頻是否存在侵權行為。SPD 核心模塊與業界主流的動態規劃相比,具有更出色的性能表現,能夠提速 18 倍。這主要得益于 YOLO 的快速目標檢測。此外,針對較為復雜的場景,例如那些經過加減速處理的侵權,以及使用濾鏡處理的侵權,相比于業界主流方案均有顯著的提升。

侵權檢測的第二個核心任務就是降低成本。其核心思想是用關鍵幀取代傳統的均勻幀。相較于均勻幀,關鍵幀的數量通常會壓縮約 70% 至 80%,因此,相應的存儲空間也會大幅度地減少。關鍵幀檢測作為關鍵幀抽取模塊的核心內容,首先需要對視頻進行預處理,將其所有幀在同一時間內鋪平,拼接成一張大的圖像。接下來是對大圖做類似于圖像分割的任務,目標是輸出每一像素對應的確切類別。在我們的場景中,每一像素實際上代表著一個關鍵幀,所以目標是輸出每一幀成為關鍵幀的可能性。這樣就可以挑選出當前視頻中最能彰顯視頻特征的那部分幀。如果要將上述關鍵幀抽取模塊與侵權定位模塊結合使用,那么核心就在于挑選出關鍵幀,然而,直接利用關鍵幀抽取模塊并不是可導的,因此我們先輸出關鍵幀的概率 mask,同時構建一個均勻幀的 mask,然后將這兩個 mask 進行加法運算。最后,使用 mask 對密集采樣的均勻幀的特征相似圖進行點乘,點乘后得到的特征相似圖就可以與 SPD 模塊聯合在一起訓練。通過這種方式,我們可以確保 SPD 模塊的梯度能動態回傳給關鍵幀抽取模塊,同時關鍵幀抽取與 SPD 模塊可以共同進行端到端的聯合訓練,構成一個完整的端到端的模型,而不必像傳統的方法那樣先訓練關鍵幀再訓練其它模塊。將關鍵幀抽取和 SPD 進行聯合訓練比單獨使用 SPD 有著明顯的提升。此外,在大規模的數據集上測試后發現,無論在成本上還是存儲需求上,都有明顯的減少。可以看到,與單獨使用 SPD 相比,存儲關鍵幀能夠節省 85% 的存儲量。同時,在侵權檢測效果方面,可以使用更少的關鍵幀達到更好的效果,整體性能提升 2.78%。04****

總結****總體來回顧一下本次分享的內容。主要介紹了視頻多模態檢索的兩個方向,一個是視頻-文本語義檢索,另外一個是視頻-視頻同源檢索。

 針對視頻-文本語義檢索提出了三個可以快速提升視頻-文本檢索效果的方法:首先是通過視頻預訓練,可以帶來 24.5% 的提升;第二是通過關注難樣本,帶來了 8.1% 的提升,其中難樣本分為兩種,一種是基于人工指定模型在不同訓練階段,關注不同的難樣本,另外一種是讓模型在訓練過程中自適應地去學習對難樣本的關注度;第三是引入細粒度,可以帶來 2.8% 的提升,主要涉及如何生成偏序樣本,以及引入三元組偏序損失,對細粒度語義進行建模。視頻-視頻同源檢索部分介紹了自研的端到端的片段匹配定位方法,可以節省 85% 的存儲,侵權檢索加速 18 倍,檢索 F1 相比于使用均勻幀的效果有大幅提升。

 上述所提到的工作是螞蟻智能引擎多模態認知團隊在過去一年公開的研究成果,主要涉及到視頻語義檢索以及視頻到視頻的版權檢索方面的研究進展。若對此感興趣,歡迎進一步了解我們的工作。同時,我們也熱忱邀請更多的同學加入我們,共同攜手推動相關工作的開展。

05****

Q&A** Q1:關鍵幀需要先標注數據,再訓練分割模型嗎?******A1:關鍵幀模塊有兩種使用方式,如果把模塊單獨抽取出來的話,它實際上類似于分割模型,這是需要去標注的。比如可以人工標注哪些幀是關鍵幀,然后單獨訓練模型,用模型從視頻中抽取關鍵幀。但如果要采用這里所用的端到端的方式的話,把關鍵幀的模塊跟下游任務相似幀比對,這里的下游任務,更多的是侵權定位模塊,比如兩個相似視頻比對下任務是兩個相似幀比對,用這種方式實現自適應端到端的方式,根據任務的特性去篩選關鍵幀,這時候就不需要去標注了。

Q2**:現在有沒有 hugging face 上面現成的關鍵幀提取的模型?****A2:目前模型還沒有開源,但是有開源計劃,目前在走內部的開源流程。Q3:多模態的 embedding,到下游推薦場景的時候往往沒有效果,有什么好的解決辦法嗎?

******A3:或許我們更加傾向于參考前面視頻文本語義檢索部分的內容。在語義檢索層面,將文本語義檢索具體用在搜索或者是推薦場景中,會有幾個協作緊密的環節。首先在搜推的召回階段,可以用增加視頻文本鏈路,去增加召回階段的召回。其次,在排序階段,可以引入經過視頻-文本預訓練之后的視頻和文本的特征,加入到排序的特征里面。第三,在精排階段,更多的是需要做視頻的打散。這時候,可以用訓練的embedding 來做打散,如果效果不太好,可能與具體的業務場景有關系,或者與怎么用這種多模態預訓練表征有關系,可能要明確具體的場景、具體的問題才能做出解答。

Q4**:剛才演講的過程中提到節省了存儲,主要數據都存在什么樣的存儲介質里?****A4:如果是小規模的視頻版權檢索的話,可以直接存儲在比如 NAS 盤,就是普通的硬盤上面。如果是大規模的存儲,會把這些特征直接存儲在向量檢索的數據庫。通過數據庫來存儲,存儲量會相比 NAS 更節省,但是用關鍵幀的話,會帶來非常大的存儲空間的節省。Q5:關鍵幀的解決方案是不是也可以用在視頻到視頻的翻譯里面?不同語種的翻譯。

******A5:視頻至視頻的翻譯具體是指將英文視頻轉換為相應的 ASR 語音譯文。視頻中語音內容的翻譯,其關鍵之處在于不僅音軌能夠匹配,而且音軌與口型也能夠一致對應。由于不同語言之間的語速實際上存在差異,若采用傳統翻譯方法,譬如中文轉為英文,或者英文轉回中文,其所需時間也會因此有所不同,這就需要進行一定程度的剪輯工作。換一下角度來看,我認為這項技術實則是解決了兩個視頻間的對齊問題。對于我所述的翻譯場景,我雖了解并不深入,但假設確實存在視頻片段間的對齊問題,那么我認為這種方法應可廣泛適用。

Q6**:關于團隊招聘情況可否詳細介紹?******A6:衷心感謝您對我們團隊的密切關注。我們是螞蟻智能引擎多模態認知團隊,我們始終致力于招聘人才,目前正在進行中的招聘涵蓋了多個領域,不僅限于今天詳細介紹過的發展方向。我們主要的研究方向包括多模態大模型、視頻大模型以及版權檢索等。總的來說,我們的工作主要可以分為兩大板塊:視頻處理和圖文處理。在圖文處理方面,我們重點關注多模態和大模型;而在視頻處理方面,我們專注于實時性和視頻文本的語義檢索以及視頻到視頻的版型檢索等。對于這些領域有濃厚興趣或者相關經驗的同學們,歡迎隨時向我們發送您的簡歷,我們的 recruitment base 位于杭州和北京,我們在這兩地的團隊都在熱烈歡迎您的加入!

Q7**:提取視頻特征指用視覺輸入嗎?***

***A7:在此論述的視頻特性的提取,若指的是例如同源檢索內的視頻特征,其實際操作流程是:首先,我們會在視頻中抽取出幀級別的關鍵幀,并對這些關鍵幀進行特征抽取。對于此前提及的視頻-文本預訓練視頻的特征抽取,其過程可能是直接針對視頻級別進行的,類似于 video swing 模型,直接產出整個視頻的表征。因此,這兩項工作所采用的視頻特性抽取可能存在差異,一個更關注于幀級別的特征抽取,另一個則側重于整個視頻級別的抽取。然而,無論哪種方式,都需要借助視覺輸入。

Q8**:視頻特征是如何通過融合關鍵幀的特征提取到的? ******A8:這是因為在今天的分享里實際上都是視頻幀級別信息,視頻片段作為其中重要組成部分,與其底層庫及視頻關鍵幀之間的匹配,共同構建了類似于相似度的矩陣特征向量矩陣。然而,此種方式實際上并未實現對整體視頻及其關鍵幀特征至整個視頻特征的聚合過程。實際上常用的聚合方法中,既包括無參數方法,如基于關鍵幀特征進行 LV 級 pooling 操作,亦有參數化方法,如在上層加入臨時編碼器,把視頻幀的特征作為類似于Transformer 的標記作為輸入,利用 Transformer 進行連續建模,可能涉及的參數化方法。此外,亦可能包括類似于時序視頻建模方法的策略,例如 Token Shift 方法,這些方式都可將幀級別特征轉化為視頻級別特征。這些方法均已得到實踐與嘗試,且產生了一定的成效。

Q9**:應該理解為視頻的特征,是整個視頻的特征,可能是人為賦予的,但是真的特征,即實質上的特征仍然得以體現。是這樣理解嗎?******A9:是的。實際操作則更多地受問題處理粒度的影響,如何設計視頻特征呢?例如在視頻文本語義檢索領域,其所關注的核心問題便是如何從文本角度進行視頻檢索?由于將整段視頻視為一個整體,因此該領域的研究會更傾向于視頻總體呈現的表達方式,即如何展現視頻內容?再以視頻到圖像檢索為例,由于該方式更注重圖源檢索,例如在版權檢索等場景中,檢索結果可能包含了 query 的視頻片段,而這些片段與底庫中的某一片段可能存在侵權風險。因此,該領域的研究更側重于視頻片段或更微觀的視頻幀的表達。因此,在這種情況下,視頻特征的關注點并不在于整個視頻的embedding 表達,而是視頻幀的表達。我們還是應根據具體問題進行詳細的分析。

Q10**:視頻的 ASR 和關鍵幀的 OCR 信息有使用嗎?***

**A10:有使用的。例如,在同源檢索領域內,實際上并不涉及到大量的文本信息;而在語義檢索方面,比如說處理視頻數據時,首先我們需要介紹 OCR(光學字符識別)技術。一般情況下,我們在進行語義檢索操作時,會構建視頻與文本的配對關系。當視頻缺乏整體性的視頻描述時,視頻與文本的配對通常是從 ASR 中獲取的。將 ASR 的起始時間和結構時間與其對應的視頻片段作為 ASR 文本所對應的視覺輸入。同時,我們還會利用當前 ASR 所對應的視覺片段中的關鍵幀進行 OCR,提取出 OCR 的文本,并加入到 ASR 當中。因此,可以說,ASR 和 OCR 共同構成了文本的內容。然而,值得注意的是,如果將 OCR 文本添加到這部分文本中,可能會出現一些問題。因為關鍵幀中的 OCR 文本往往相似度較高,可能需要采取類似于視頻級別的 OCR 方法,進行 OCR 文本的去重。

Q11***:剛才回答的這一部分問題,都是在視頻-文本預訓練這一部分做的嗎?***

A11:是的。實際上,這方面的研究不只是局限于視頻-文本預訓練,還涉及到視頻文本語義檢索。使用何種文本,我們剛才探討的,都是如何在模型或者數據的層面,去提高視頻文本與檢索效果。實際上,還有一個重要的角度是如何構建文本,以便文本更能與視頻相關聯,例如,文本可以來源于視頻的標題,比如整個視頻的標題,也有可能是視頻的封面描述,還有可能是視頻中對應的片段所對應的自動語音識別(ASR),或者是視頻中關鍵幀的光學字符識別(OCR),這些都有可能與視頻密切相關。具體實現還需要考慮具體的業務場景,例如,如果您打算嘗試利用視頻中的文本進行視頻檢索,那么 OCR 無疑是必須包含在文本內的。Q12:問 ASR 一般會包含 BGM 一類的噪音是怎么過濾的?是用 Facebook 的庫嗎?**

***A12:我們所設計的噪聲過濾模型,一方面,具備 BGM 識別的強大功能,這部分功能已經有成熟的開源模型可以使用。另一方面,即使模型未成功過濾掉噪音,其實也是無妨的,因為該模型的 BGM 一般為歌詞。對于純音樂類型的 BGM,其實它的 ASR 并不會輸出任何文本。能夠輸出文本的背景音一般都是歌詞,然而歌詞與視頻內容的關聯性,通常可以通過訓練圖文關聯性的模型進行調整,例如類似于中文 clip 這樣的模型就可以將其有效地過濾掉。

Q13**:視頻檢索涉及到線上實時 Infer 嗎?是離線做 T+1 的,還是實時流的?如果線上實時 infer 的話,這么大的模型是怎么扛住的?***

***A13:可以實時 Infer,以視頻文本語義檢索為例,經過有效的訓練后,我們可以利用視頻在入庫時,通過訓練過的模型,來獲取視頻的整體 embedding。然后,我們便可以將這個 embedding 存儲在向量檢索的數據庫中。對于文本檢索來說,通常的方式就是在線查詢文本。我們可以去部署一些較為輕量化的方案,例如,我們將文本方面的模型進行輕量化處理,采用量化解釋和增強流等方法,以生產出與視頻部分相匹配的輕量級模型。在實際檢索中,我們只需要運行這個輕量級的模型,實時提取出文本的表征,接著習慣于之前已經存儲了視頻向量的檢索底層庫,進行量化檢索即可。對于檢索來說,有很多可以提升速度的手段,例如基于 faiss 等向量庫實現實時的檢索。

Q14**:請問你們平常用到的向量數據庫是哪個?****

**A14:我們內部使用了一款名為千尋的檢索平臺,這并非開源產品。然而,其實現原理與我之前所提及的 Facebook 開源的向量檢索數據庫 faiss 原理基本相同。以上就是本次分享的內容,謝謝大家。

分享嘉賓

INTRODUCTION

郭清沛

螞蟻集團

高級算法專家

螞蟻集團高級算法專家,智能引擎視頻及多模態技術負責人。

付費5元查看完整內容

文 / 孫凌云,潘越

摘 要:

本文介紹了大模型在設計領域帶來的變革。首先探討了大模型如何開啟大知識,并分析了由此產生的新趨勢;然后,從設計對象多樣化和設計方法與模式變革兩個角度,探討了大模型帶來的設計機遇與挑戰,并分析了大模型時代下個體所需的新能力。 關鍵詞:

人工智能;大模型;GPT 技術;設計

0 引言

2022 年 11 月,ChatGPT 將人工智能(AI)大模型帶入了公眾視野。其中,Chat 代表該產品采用聊天對話的交互形式,允許任何用戶使用自然語言提出問題或表達需求;GPT 是 Generative Pre-trained Transformer的縮寫,Transformer 技術作為大模型的標志性底層技術,由 Google 在 2017 年推出。ChatGPT 發布時基于 GPT-3.5 模型。2023 年 3 月,GPT-4 模型發布;同年 11 月,OpenAI 開放了 GPTs,使用戶能夠通過自然語言指令構建 GPT 應用。2024 年 1 月,GPT Store 正式上線。目前,OpenAI 已開放了 GPT-4V(視覺)、 Code Interpreter(代碼)、DALLE-3(圖像)、TTS(文本到語音)的 API(應用程序接口)。

2024 年,大模型的發展呈現出百家爭鳴的局面,一方面,不同公司推出的通用基礎大模型和行業大模型不斷實現技術突破和能力更新;另一方面,將大模型技術轉化為創新應用的探索,在不同產業和垂直領域中仍然熱度不減。

隨著大模型技術和生成式人工智能的爆發式發展,設計領域也經歷了深刻的變革。設計對象變得更加多樣化,設計方法和模式的變化推動了設計范式的結構性轉變。這為設計領域帶來了前所未有的機遇,使設計的角色和重要性更加突出,同時也產生了伴隨轉型的種種挑戰。

在大模型的發展背景下,本文首先闡述了大模型技術如何開啟大知識,帶來了人機協作的新工作模式、智能物種的大爆發和科技進步加速的新趨勢;接著,從設計對象和設計方法兩個維度,介紹了大模型對設計領域帶來的宏觀變化;最后探討了大模型時代對個體能力提出的新要求。

1 大模型開啟大知識

1.1 大模型背后的大數據

ChatGPT 成為互聯網歷史上最快突破 1 億月活躍用戶的應用之一,這歸功于其在上線之初就展現出的超越大眾當時認知的自然語言理解、生成和交互能力。通過聊天機器人的界面,ChatGPT 展示了多種能力,包括建模歷史對話、保持對話語境的連續對話能力;從復雜內容中提取關鍵信息、歸納總結主題和意義的抽象概括能力;理解人類指令意圖、模擬相應角色的語言模式及潛在知識來生成回復、執行任務的角色扮演能力;拆解問題、逐步求解的邏輯推理能力;根據用戶反饋優化答案的更正錯誤能力;以及根據用戶指令與問題描述生成程序代碼的代碼生成能力等。與 ChatGPT 相比,升級版GPT-4 不僅在各項能力上取得了顯著進步,還支持輸入圖像和文本,表現出強大的圖像理解能力,實現了從單模態大模型到多模態大模型的突破。

ChatGPT 所展現的強大綜合能力離不開其前所未有的訓練數據規模。這是因為預訓練的本質可認為是由大規模數據集驅動的規律發現與學習過程。從 GPT-1 到 GPT-3,訓練數據量從 4.6 GB 增長到了753 GB。主要模型數據集中的維基百科數據集、書籍、雜志期刊、Github 代碼等為大模型帶來了豐富的客觀知識、故事講述與反應能力,以及語言生成的嚴謹性和邏輯推理能力。同時,從 GPT-1 到 GPT-3,模型參數量也從 1.17 億增加到 1 750 億。OpenAI 并未公布訓練 ChatGPT 和 GPT-4 的數據集來源和規模,但我們不難想象它們在數據模態和量級上的進一步突破。

在生成式人工智能領域,另一個代表性模型是由 Stability AI 于 2022 年 8 月發布的文本生成圖像模型 Stable Diffusion。Stable Diffusion 能夠根據用戶提供的文本生成高質量的圖像,其能力突破同樣得益于背后數十億訓練圖像數據的支持。

1.2 大模型開啟大知識

海量訓練數據使得大模型實現“讀書破萬卷,下筆如有神”。除了前文提及的能力突破之外,我們認為大模型的另一大貢獻還在于大模型開啟了大知識。本文將大模型開啟大知識的主要特征歸納為三點——龐大的知識空間、知識表示和調用方式的更新,以及知識空間的可擴展性與大模型能力的可延伸性。

(1)龐大的知識空間 通過學習大量的人類知識,大模型形成的知識空間在規模上超越了任何單一個體。例如,以ChatGPT 為代表的大語言模型(large language model,LLM)通過對人類自然語言知識空間的大量語料進行學習,發展出了近似人類水平的自然語言理解與生成能力,并積累了豐富的世界知識。自然語言一直是記錄和傳遞人類知識的主要方式之一,大量的人類知識通過自然語言這種形式化的手段得到了傳承和發揚。然而,自然語言并非承載和表達知識的唯一手段,通過語言和文字傳遞的知識只是人類集體知識的一部分,還有人類心智模型、經驗知識等難以用特定形式精確表述的隱性知識。對于語音、視覺、紅外、3D 點云等多模態信息,現有的視覺大模型和多模態大模型已展現出一定的處理能力。隨著全體人類知識的擴展和人工智能技術的發展,大模型的知識空間將愈發龐大。

2)知識表示和調用方式的更新 ChatGPT 等大模型的能力突破,使得自然語言成為新的“知識表示和調用方式”,允許任何用戶使用自然語言來提出問題和表達需求。與互聯網中通過搜索引擎使用關鍵詞進行信息檢索的方式相比,這種獲取知識的方式更加自然。通過使用自然語言與大模型進行交互,每個個體的智慧得以與大模型的知識空間相互碰撞和激發。這種知識表示和調用方式的更新,為人類文明積累的海量知識打開了新的窗口。另一方面,在多模態大模型中,自然語言也將成為通用接口,使用戶能夠更直觀、易用地控制和編輯大模型的內容生成。

(3)知識空間的可擴展性和大模型能力的可延伸性 一方面,大模型內部的知識空間會隨著版本的更新得到擴充和更新。另一方面,可以將現有的各類基礎大模型作為基座,通過引入和融合外部知識庫,實現大模型知識空間與外部知識庫的協同。在特定領域的模型應用方面,利用專業知識庫對通用領域的預訓練大模型進行相應領域的知識微調適配,將催生出越來越多適用于不同場景和領域的大模型創新應用。

1.3 通用人工智能的火花

2023 年 3 月,GPT-4 發布,其在多個領域的表 現接近人類水平,被視為通用人工智能(artificial general intelligence,AGI)的早期(但是仍不完整的)版本。同年 4 月,中共中央政治局會議首次提出重視通用人工智能的發展。2023 年 11 月,Google DeepMind 團隊提出評估通用人工智能的六個關鍵原則,并進一步得到了 人工智能的系統分類方法,包括: ●Level 0(無人工智能) ●Level 1(涌現,相當于或略優于未受專門訓練的普通人) ● Level 2 (勝任,至少達到熟練成年人的 50%水平) ● Level 3(專家,至少達到熟練成年人的 90%水平) ● Level 4(大師,至少達到熟練成年人的 99%水平) ● Level 5(超人,超越所有人類的表現)

在此基礎上,研究人員對現有人工智能系統進行了評估。其中,ChatGPT、Llama 2、Gemini 尚處于 Level 1(涌現)階段。

2024 年 2 月,OpenAI 推出了文生視頻大模型Sora。其在視頻生成領域的能力突破,再次引發了外界的廣泛討論。同年 3 月,Anthropic 發布了 Claude 3系列大模型,性能超越 GPT-4。隨著大模型不斷發展,其對包括設計領域在內的各領域影響日益增大。

2 大知識帶來的新趨勢

大模型開啟“大知識”。以此為特征的大模型能力突破將在各個領域引發新的變化,本文將主要趨勢概括如下。

2.1 人機協作的新工作模式

過去在討論人機關系多元化時,人們常常根據計算機人工智能技術的局限性來界定人與計算機的關系。例如,在設計領域,設計師與人工智能的關系可能被分類為主仆關系、助理角色、師生關系或合伙人角色等。然而,隨著大模型的興起,人工智能在人機協作中的角色和作用變得更加顯著,催生了人機協作的新工作模式。這種模式有望大幅提升生產效率,并降低運營成本。

舉例而言,設計師可以利用文生圖大模型來優化涉及圖像生成的工作流程。一些設計師在 Stable Diffusion 的用戶界面 ComfyUI 中結合 LCM 模型(latent consistency models)來完成故事板的繪制任務,通過簡單操作就能讓人工智能快速生成分辨率達標、符合故事板需求的圖像。在建筑設計方面,設計師繪制線稿草圖后,大模型可以基于這些線稿實時生成多組潛在的建筑效果圖,使設計師能夠更動態及時地對設計進行調整。此外,設計師還可以利用大模型的龐大知識庫來獲取知識支持、靈感啟發和技術支持,以逐步完成涉及大量知識的設計任務。例如,有團隊通過與大型模型逐步對話,一步步明確設計概念和設計空間,并最終細化到包括軟件、材料選擇、結構設計和制造方法在內的技術設計規范,從而完成了番茄采摘機器人的設計。

2.2 智能物種大爆發

如前文所述,經過特定領域的知識微調適配后,大模型將催生越來越多的垂直領域創新應用。這已經在教育、科研、編程、商業、設計等領域帶來了許多更新、更智能的應用與服務,并且將帶來更多可能性,迎來智能物種的大爆發。 一方面,由人工智能驅動的新形態產品、應用和服務將不斷出現,更好地滿足不同用戶的需求。例如,智能代理(AI Agent)近來愈發受到關注,它能理解用戶的指令,并在多變的環境中自主有效地完成任務。在人工智能硬件新物種方面,2023 年11 月發布的 AI pin 和 2024 年 1 月發布的 Rabbit R1 展示了人工智能實體化的初步形態。

另一方面,現有(成熟)產品或物種在大模型的驅動下,將展現全新的面貌。例如,“智能手機” 開始向“AI 手機”轉型,“個人計算機”向“AI PC”轉型。各大廠商正意欲通過人工智能重新設計手機和 PC 的體驗。在稍遠離日常生活的領域,人形機器人也在經歷變革。2023 年 11 月,工信部印發《人形機器人創新發展指導意見》,提出人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,重塑全球產業發展格局。人形機器人的研發是一個軟硬件一體的過程,大模型相當于為機器人提供了“大腦”,提升了機器人的通用能力、學習能力,進而增強了其環境感知、行為控制、人機交互等能力。隨著人形機器人技術的加速發展,它們能更好地在與真實世界的交互中收集人類數據,利用大模型處理數據,并利用數據繼續訓練人工智能。這被認為是推動通用人工智能研究的一種可能途徑。圖 1 示出了大模型垂直領域創新的一些應用。

圖 1 大模型垂直領域創新應用舉例

2.3 科技進步加速

AI for Science,即“人工智能驅動的科學研究”,是由鄂維南院士在 2018 年提出的科學研究新范式。

這一范式強調利用人工智能技術解決科學研究中的數據分析等難題,借助機器學習在高維問題上的表示能力,刻畫復雜系統的機理,創造科學模型,從而更高效、更具實用性地解決實際問題。結合以大模型為代表的新一代人工智能技術的能力飛躍,這一范式將進一步加速科技進步。具體而言,在大模型出現之前,從理論研究到產品的落地轉換通常需要 20 余年。而在 AI for Science 的驅動下,這一周期可以縮短至 5 年左右。

未來學家 Peter Diamandis 曾在 2020 年預測,未來 10 年人們經歷的科技進步將超過過去 100 年的總和,每個行業都將得到重塑。麥肯錫在 2021 年的技術趨勢報告中指出,包括應用人工智能在內多個領域的技術儲備已處于爆發的前夜,它們將重塑健康與材料科學、能源、交通等眾多行業和領域。在2024 年,人們已經切身體會到過去幾年科技飛速發展帶來的效應,尤其是在人工智能應用廣泛的領域。

設計的核心任務之一是將各種前沿科技進展轉化為實際產品。如果未來 10 年的科技進步將超越過去 100 年的總和,那么未來 10 年甚至更短時間內的設計創新也將超過之前 100 年的總和。這將為設計領域帶來巨大的空間和機會。

3 設計領域變革

隨著人工智能技術的飛速發展,設計的邊界不斷拓寬,成為與人工智能、大數據、云計算等前沿技術深度融合的領域及跨學科實踐載體。在ChatGPT 推出前,關于智能時代的設計的討論已經呈現出日益廣泛的趨勢。2022 年 8 月,浙江大學與阿里巴巴聯合發布的《產業數智化設計白皮書》指出,我國創新設計正在全面從以“計算機輔助設計” 為代表的“數字化”時代,邁入“數智化”時代。數智化技術已滲入設計活動各個階段,在設計資產逐步數智化的同時,數智化設計已展現出比傳統設計更卓越的能力。白皮書將洞察力、敏捷力、協同力視為數智化設計的特征能力。隨著大模型開啟“大知識”,設計領域正在經歷新的變化。本文將從設計對象和設計方法這兩個宏觀層面出發,介紹大模型帶來的設計領域變革。

3.1 設計對象多樣化

下面將從人工智能技術作為設計對象的能力變化、大模型帶來的交互邏輯更新,以及智能物種的爆發趨勢三個方面來探討大模型帶來的設計對象多樣化。

(1)人工智能作為設計對象和材料的能力突破與多樣發展 人工智能的能力從低于人類逐漸向接近人類、高于人類發展。ChatGPT 發布后,人工智能領域的相關進展似乎也被按下了加速鍵。2023 年 3 月, Google 發布了具身化多模態語言大模型 PalM-E,它將機器人任務和視覺語言任務通過一個共同的表示形式組合在一起,實現了對不同模態(狀態和 / 或圖像)的多模態語言建模處理。同年 4 月,Meta 發布了 Segment Anything Model(SAM),能夠自動分割圖像中的所有物體,或是根據提示詞分割相應物體,是計算機視覺和圖像領域的重大突破。人工智能技術的能力突破與多樣發展,豐富了設計對象的種類,將在不同領域催生設計創新,進而推動行業重塑。

(2)大模型交互方式和交互界面成為新設計對象 目前,數字產品普遍配備圖形用戶界面(graphical user interface,GUI)。用戶通過鼠標、鍵盤、屏幕等與圖形界面進行交互。ChatGPT 以對話機器人的形式,發展為生產力工具,顯示出對話式用戶界面(conversational user interface,CUI)和語言用戶界面(Language user interface,LUI)在大模型賦能下的巨大潛力。一方面,大模型本身,以及由大模型驅動的創新數字應用的交互方式和交互界面成為新設計對象。另一方面,在大模型驅動下,數字空間、物理世界、人類空間的三元空間將更加融合。各行各業的產品的交互邏輯迎來了優化重塑的巨大空間。在包括虛擬現實、增強現實、混合現實、空間計算在內的虛實融合的用戶體驗中,自然用戶界面(natural user interface,NUI)的交互邏輯、交互方式和界面設計也成為設計領域的新方向和設計對象。

(3)智能物種大爆發帶來設計機會大爆發 如前文所述,大模型將帶來智能物種爆發與科技進步加速。這為設計領域帶來了巨大的空間和機遇,因為設計既承擔著將各種前沿科技進展轉化為實際產品的重要任務,也扮演著為新技術帶來的新挑戰提供新方案的關鍵角色。智能物種在豐富人們的體驗,拓寬人們的想象邊界的同時,也不可避免地會引發用戶在接受新習慣與保持固有習慣之間的矛盾、技術適應等摩擦,這也將成為未來設計的新議題和新對象。

3.2 設計方法與模式變革

大模型將重塑所有設計方法與工具,在降低設計行業門檻的同時,也提升了設計的天花板。本文將這背后的設計方法與模式變化歸納為以下三點。

(1)大模型開啟大知識,為設計過程提供系統化的知識支持 一方面,從頭腦風暴、需求挖掘、文案處理到用戶調研,大模型的知識空間、自然語言能力和多模態信息處理能力將為設計中的各環節提供支持。例如,用戶畫像常應用于用戶需求分析。近年來,使用人工智能處理用戶數據的自動化用戶畫像生成(automatic persona generation,APG)方法,已經在產品市場營銷和企業推廣等活動中得到應用。在大模型的支持下,APG 方法將更高效地從大量的用戶數據中提取、融合有效信息,更精準地生成用戶畫像。另外,在概念創新設計的早期階段,人類設計師可以利用大模型能力驅動的智能設計工具,通過引入外部知識,獲得靈感激發,防止設計固化現象。此外,在前文曾提及的番茄采摘機器人的設計中,大模型則為從產品意義梳理、設計空間定義到原型設計的全流程提供了全面的知識支持和技術指導。

另一方面,以往設計師需要特定的設計工具來支持特定的設計任務,而隨著 OpenAI 推出 GPTs,用戶可以根據當下的需求和偏好來定制服務于特定任務的智能代理。在定制頁面里,用簡單的自然語言,比如“我要生成用于產品趨勢分析的 GPT”,在系統的引導下逐步明確需求和風格,就可以生成勝任特定任務的 GPT。在 GPTs 剛發布時,就有人用不到 1 min 的時間創建了一個名為 Trend Analyzer的 GPT,它可以在 90 s 內為用戶聯網查找目標產品類別的最新趨勢,并為其創建原型圖片。這種形式為融合大模型知識空間、用戶需求與外部知識提供了一條低門檻的路徑,也能更便捷地為設計師在設計過程中提供支持。

(2)圖像生成能力的提高,加速創意內容生產文生圖大模型產品在圖像生成方面取得了顯著進步,能夠用于素材生成、靈感激發和直接出圖。這些產品的圖像生成能力飛躍,重塑了設計過程中對專業技能要求最高、常常最為繁瑣且耗時最長的環節,如畫圖、建模、渲染和效果圖加工等。此外,圖生圖、圖片融合等功能對于現有圖片的創意加工、創意設計的靈感激發,以及組合創新的效果探索也作出了重要貢獻。

目前,文生圖大模型產品在可控性方面存在不足。例如,該領域的代表性產品 Midjourney 通過特定關鍵詞、墊圖、seed 值來調控固定模型,其可控性相對較弱。而另一代表性模型 Stable Diffusion,由于其開源屬性,擁有更多的插件和模型,圖片生成的可控性更強。2023 年初,ControlNet 技術作為Stable Diffusion 的一個重要控制組件問世,它賦予了文生圖工具根據多種條件對單張圖片進行細粒度受控變換的能力,從而提高了人工智能出圖的可控性。

(3)設計范式將發生結構性變化 大模型賦能的設計工具不僅具備洞察力、敏捷力和協同力,而且還發展出了想象力和創造力。以 Adobe Sensei 和 Adobe Firefly 為 例,Adobe Sensei于 2016 年發布,提供了數據洞察、自動化任務和個性化體驗等功能,以增強和簡化工作流程。而Adobe Firefly 于 2023 年 3 月發布,并于同年 9 月正式商用。它專注于通過生成式人工智能釋放創造力,提供包括設計元素生成、布局創建和風格應用等功能,支持設計師的創意探索,加速設計工作流程。在新智能工具成為主流的同時,設計師常用的主流工具也正在變得更加智能。

隨著人與智能工具進行人機協作的工作模式成為主流,設計團隊與設計價值鏈的變化將被催化。行業的門檻降低和生產效率的提高將導致設計團隊的構成變化和角色調整。設計流程的各個環節效率的提升,以及壁壘環節的消除,使設計價值鏈的邏輯發生改變。以 2023 年春季在小紅書上走紅的“小綠裙”為例,相關博主在小紅書上使用人工智能繪畫制作女生頭像,她的專業背景與服裝設計并無直接關聯。“小綠裙”并非博主生成圖像時的意圖,卻意外在小紅書上獲得了極高的人氣。在用戶驅動下,這款裙子被商家打版生產并銷售。這種由用戶利用工具生成設計圖,再由用戶推動生產制造的C2M(customer-to-manufacturer)模式,正在迅速改變傳統的電商邏輯。

智能時代的設計范式的特征之一是難以框定清晰的邊界,這是因為隨著技術的發展,設計方法與模式的變化時刻在發生,使得人們難以捕捉到精確的時間點來標記、描述和鎖定特定的范式。然而,可以肯定的是,我們正在見證設計領域前所未有的變革。數智化設計在洞察力、敏捷力和協同力得到提升的同時,正表現出強大的想象力和創造力。這種不斷變化的設計將在未來扮演更加重要的角色。

4 結語:大模型時代的個人能力重塑

本文介紹了在大模型背景下,大模型如何開啟 “大知識”,以及由此產生的新趨勢。在設計領域變革方面,從設計對象和設計方法兩個層面出發,探討了人工智能技術能力的演變、大模型的交互邏輯、智能物種的爆發趨勢如何帶來設計對象的多樣化,大知識和知識智能載體如何為設計提供知識支持,多模態大模型如何加速內容創意生產,以及設計價值鏈的調整等設計方法與范式的變化。

大模型正不可阻擋地重塑設計領域的各個方面,這對所有利益相關者的個體能力提出了新的要求。首先,設計師、設計研究者、設計專業學生等群體需要從觀念和行動上突破慣性思維,從建立基本的人工智能意識開始,積極擁抱和使用前沿智能工具,將這些工具融入個人或組織的工作流程中。在積極應用這些工具的過程中,與人工智能共同成長,實現自身能力的重構和提升。然而,在發揮技術優勢的同時,也要認識到技術的邊界和局限性。例如,大模型可能會產生“幻覺”,即看似正確的生成結果中可能包含虛假信息和錯誤信息。其次,個體應當掌握如何有效調用知識的能力,重視圍繞知識的方法論和系統論。隨著自然語言成為一種有效調用知識的新方式,個體應更加關注并理解知識的產生過程和原理,并在此基礎上,通過深入學習提示詞工程等方法,更好地利用 GPT 來調用知識。最后,學會在模糊和不確定性中找到方向。在快速變化的世界中,不僅要學會駕馭模糊的能力,還要具備正確的價值觀和積極的人格特質,堅定地為推動領域進步和人類文明的發展做出貢獻。

(參考文獻略)

孫凌云

CAAI 智能創意與數字藝術專委會主任,浙江大學國際設計研究院院長、計算機科學與技術學院副院長,教授。研究利用人工智能賦能設計行業,提出人工智能時代下的設計范式,應用于數字創意、智能硬件設計等領域。

潘越

浙江大學計算機科學與技術學院設計學博士后。主要研究方向為設計科學與創新工程。

選自《中國人工智能學會通訊》 2024年第14卷第4期 智能創意與數字藝術專題

掃描加入我們 獲取更多學會資源

付費5元查看完整內容

導讀 本次分享主題為專利大模型的實踐經驗及問答探索。主要內容包括以下四大部分:

  1. 專利大模型背景介紹
  2. 訓練過程
  3. 專利搜索與大模型結合
  4. 挑戰和展望 分享嘉賓|王為磊 智慧芽信息科技(蘇州)有限公司 搜索與算法總監;首席科學家 編輯整理|吳葉國 內容校對|李瑤 出品社區|DataFun

01

專利大模型背景介紹****

智慧芽一直致力于為科技創新和知識產權領域提供信息服務。在小型模型時代(如 Bert),參數量較少,智能理解方面存在局限性。因此,在著手開發大模型之前,智慧芽深入思考了領域聚焦的重要性。在知識產權領域,專利檢索、專利對比、標引工作以及專利撰寫等方面的產品的 AI 迭代存在廣泛需求,而且在行業中存在著巨大的突破空間。****

針對這些問題,智慧芽從四個層次來設計和構建垂域大模型:

  • 首先,重視數據的質量和規模,確保擁有足夠數量和專業化的數據,這是開發領域特定大模型的基礎。智慧芽擁有 1.8 億條專利文本,包括專利、文獻、新聞、書籍等,以及大量的生物醫藥數據,包括 7 萬多種藥物、相關臨床資料、新聞和對應的保護專利等,這是訓練專利大模型的基礎。
  • 其次,需要關注大模型相關算法的完整鏈路,包括預訓練、SFT、Reward Model 等,以及優化策略如 PPO(DPO),在實際應用中還會使用 RAG 技術。RAG 和專利檢索在技術上有共通之處,但也存在差異,后文將詳細闡述。在數據處理過程中,還需要運用多個小模型,特別是在處理大規模數據時。
  • 第三,自主研發領域特定大模型。智慧芽已經推出了專利大模型(PatentGPT)和生物醫藥大模型(PharmGPT)。
  • 最后是領域特定大模型的應用。智慧芽的兩款大模型產品已投入使用,并解決了企業客戶在一些場景下面臨的實際問題,也收到了一些反饋。智慧芽目前的主要客戶群體是企業客戶。 總體來說,面向研發場景的垂直領域模型需要具備差異化的海量數據,并結合小型模型以提高效率,從多個方面解決實際生產問題。主要的挑戰來自于數據的高精度結構化提取和產品化應用。因為最終還需要將這些問題的解決方案組合起來形成良性循環。

02訓練過程

**1. **專利大模型:以業務為導向的不斷迭代

 智慧芽專利大模型基于開源大模型經歷了三個版本的迭代。是基于 llama2 和 mixtral8*7B 進行的繼續訓練和后續步驟。在整個大模型訓練鏈路中,除了通用大模型的 Pre-train 環節外,智慧芽主要完成了后續的 CPT(continue pre-train)、SFT、Reward、DPO(PPO)等工作。在訓練過程中,智慧芽重點關注以下幾個方面:

  • 首先是差異化數據集。使用了超過 246B 的訓練數據,包括全球 170 個受理機構的 1.8 億專利、1.6 億論文、超過 2100 萬條新聞、超過 50 萬條投融資信息、超過 1.1 億家企業、超過 78 萬份市場報告以及 40 多萬本書籍數據。
  • 第二,算法以業務為導向。構建大型模型的最終目標是解決客戶問題,因此在調整和訓練算法時必須以此為中心。在數據配方方面,需要滿足公司下游的需求,比如專利對比、專利撰寫等;在強化學習方面,需要建立基于領域專家反饋的強化學習,智慧芽在訓練過程中獲得了超過 50 位知識產權和生物醫藥專家的反饋,其中包括 3 萬條 SFT 數據和 10 萬偏好數據,以保持與人類意圖的一致性;在專利檢索的融合方面,需要向用戶提供可追溯、可解釋的結果,智慧芽的客戶中有很多大型科技公司和金融類機構,對結果的可解釋性和可追溯性要求極高。
  • 最后,注重垂直業務能力而非通用能力。通用能力方面,國內外的大模型API 已經非常優秀。專利大模型在垂直行業能力方面(如專利撰寫、專利對比、專利搜索)整體超越通用模型;此外,專利大模型也通過了中國專利代理師資格考試。

接下來將具體介紹智慧芽專利大模型在數據、算法、評估等方面的實踐。 **2. **專利大模型:數據

首先來看數據集的大小。從上圖中可以看到,大模型數據集在不斷變大。最早的 Bert 使用了 3.7B tokens;GPT-3 使用了 500B tokens;LLaMA 1 使用了 1.4T tokens;LLaMA 2 使用了 2T tokens。 智慧芽的專利大模型數據集也經歷了從小到大的過程。在實踐過程中,數據集變大后,模型的能力提升是明顯可感知的。 再來看數據配方。現在許多開源和閉源的大模型都公布了它們的數據配方,這些數據來源包括網絡爬蟲、代碼、維基百科、書籍、論文、新聞等。每個模型的數據集配比都非常講究。例如,LLaMA 大模型的數據集配比非常雜且全面;而 OpenAI 的 GPT-3 則有自己的特色,強調代碼和書籍的訓練。這些配比也是大量實驗中得出的結論。 智慧芽為了完成大模型訓練的下游任務,結合自身的垂域數據集摸索出了專利、論文以及行業領域中獨有數據(包括檢索報告、書籍等)的配方。此外,也加入了一定量 Common Sense 的數據,因為在連續預訓練的過程中會出現嚴重遺忘,必須有Common Sense 數據的支持,以防止過度遺忘的發生。專利、書籍和論文是智慧芽未來將繼續深挖的一個方向。 微軟 Phi-1 和最新版本 Phi-1.5 的數據配方以 Textbooks 和 Code為主,使用了較小的參數量,卻實現了非常出色的推理能力。這也體現了數據配方和數據質量對模型能力的重要性。GPT-3 的數據配方特點如上圖右上所示,可以看到其前三個數據集都以 Text 為主,同時也各有特點,比如第一個數據集以 books 和 journals 為主,第二個數據集也以 books 為主,第三個數據集則是維基百科。GPT-3 大模型性能的優秀和穩定性與數據集的配方密切相關。 **3. **專利大模型:算法是一系列模型

算法涉及一系列模型,下面將分四個方面進行介紹。

  • 首先是數據預處理。預處理雖然繁瑣,但卻至關重要,尤其在處理大量數據時。智慧芽團隊專門配備了數名大數據工程師與算法工程師合作完成數據預處理工作,包括語言探測、垃圾過濾、去重、個人信息篩選等工作。在算法方面,主要是以小模型為主,并結合搜索引擎技術。
  • 第二是預訓練。預訓練分為兩個階段,第一階段主要使用專利數據,而第二階段則采用了均衡配置的 Exam、Chat 和 Book 等數據。關于數據配比,需要不斷摸索。上圖也給出了智慧芽的一些數據配方,供大家參考。
  • 第三是 SFT 和強化學習。前文提到,智慧芽通過 50 位知識產權專家撰寫反饋數據,形成了自有的 3 萬條 SFT 數據和對應 PPO 的 10 萬條人類偏好數據。為了保證訓練效果,通用的偏好數據是必要的,但在產品化時,專家數據就顯得尤為關鍵。換言之,在預訓練過程中,越靠前越需要通用或多樣化知識,而越靠后則更偏向業務和產品化,更依賴專家反饋數據。
  • 最后是 RAG 檢索增強生成。智慧芽嘗試了多種方式將大模型與搜索結合,例如最初將大模型生成的結果數據抽取 3-5 個 query 進行搜索引擎搜索,但效果并不理想。反之,將搜索結果提交給各個大模型進行總結,是目前采取的主要方案。另外,在工程量允許的情況下,還可以先將搜索結果交給大模型,再交給搜索引擎,實現多輪迭代。目前,智慧芽主要采用第一種方案,第二種方案作為輔助。 4. SFT**:Instruction Tuning unlock pretrain model**

SFT 入門非常容易,但要精通卻相當困難,需要關注許多細節。在預訓練完成后,如何有效利用 SFT 成為解鎖大模型知識的關鍵步驟。如果 SFT 做得不好,那么 Reward 模型就無法選擇出好的答案,使用 PPO 也無法獲得好的結果,即使進行 100 次采樣也是無濟于事,會導致強化學習失效。因此,SFT 扮演著非常重要的角色。接下來將從三個方面進行分享: (1)數據。這里可分為三類數據: * Task 類數據,可以從各種開源數據集中提取,例如 FLAN 類數據等。垂直行業通常都有相應的數據集,用于各種 NLP 任務,如 NER、關系抽取、分類等,有許多開源數據集可供使用。 * Chat 類數據,可使用熱門的 ShareGPT 數據集,還有多輪對話的 OpenAssistant 數據集。在使用過程中,可能需要對這些數據進行一些翻譯,因為 ShareGPT 以英文為主,沒有中文領域的數據。 * 合成類數據集,有許多來源,如 ChatGPT-3.5、ChatGPT-4 和 Claude-3 等都有 API 可以根據一些問題或答案生成相應的數據集。

(2)訓練策略 如果只使用上述三個數據集中的某一個,例如只使用 Chat 數據,在解決下游任務時可能會導致偏差,因此需要特別注意協調使用。 上圖中左下方的圖表展示了在聊天和問答環境下,基于 LLaMA(7B)和LLaMA(13B)模型的指令調優實驗結果(均為單輪對話)。實驗中,以在 Self-Instruct-52K 數據集上微調的 LLaMA(7B)/(13B)模型為基準,采用了四種指令改進策略:增加復雜性、增加多樣性、平衡難度和擴展指令數量。下面的三列數據展示了各種指令調優的結果: * 第一行:使用 FLAN-T5 數據集進行調優,在 QA 維度上的勝率表現較好; * 第二行:使用 ShareGPT 數據集進行調優,在 Chat 維度 AlpacaFarm 上的勝率為 81.30%,因為 ShareGPT 主要涉及對話內容; * 第四行:將 ShareGPT 和 Self-Instruct-52K 數據集一起用于調優,在Chat 上的勝率為 71%,相比僅使用 ShareGPT,存在一定程度的下降。 * 第五行:將 FLAN-T5、ShareGPT 和 Self-Instruct-52K 數據集一起用于調優,結果相對較為均衡。

若要提高單個任務的精度,也有許多方法可供選擇,例如擴大數據集規模、增強多樣性。此外,如果 7B 模型不足以滿足需求,可以考慮使用 13B 模型,甚至 70B 模型。 (3)數據三核心:數量、質量和多樣性 數量:SFT 訓練數據數量的增加存在雙降的規律。當數據量為幾千條的時候,訓練的 loss 會快速下降;隨著后續任務的不兼容或產品化需求的提出,數據量會不斷增加,此過程中損失也會相應上升。這一問題在智慧芽的實際生產中也經常遇到。以下是幾種解決思路: * 將數據融合到預訓練中進行預學習(OPT-IML),這實際上是有效的; * 采用多階段學習而非一次性學習,這也是智慧芽大模型的整體思路,即分階段進行訓練; * 使用數據權重,對 SFT 中不同的數據設置不同的損失權重,對于專家標注的數據,可以設置較大的損失權重,以加快損失的下降速度;對于自動生成或合成的質量較低的數據,可以設置較小的損失權重。

質量:SFT 數據的質量至關重要。為了確保數據質量,需要進行指標化管理,包括輸入長度、輸出長度、Reward score、Perplexity、MTLD、KNN-i、Unieval-naturalness、Unieval-coherence、Unieval-understandability 等各種指標。 多樣性:在 SFT 中,多樣性非常重要。除了需要增加更多的指標外,還有其他一些影響多樣性的問題,例如各種類型數據的配比應該合理;多語言配置支持,智慧芽的業務需要支持三種語言;SFT 數據的長短等。例如,WizardLM 的一篇論文介紹了如何增加指令的多樣性和復雜性,通過從廣度和深度上進行擴展,并將 CoT 的數據融入其中進行自動擴展,以構建更復雜、更多樣的執行數據。這都是增加多樣性的有效方法。**5. **專利大模型:評估

評估任何大模型都是相當有挑戰的。 * 首先,評估通用能力。通用能力的不足必然會影響垂直領域的穩定性。因此,智慧芽使用了英文數據集(MMLU)和中文數據集(C-Eval)進行綜合評估。就中文而言,專利大模型相對于 ChatGPT-3.5-turbo 具有一定優勢,但在英文方面表現普通,與我們英文 SFT 不足有較大關系,現在還在繼續擴充中。 * 其次,使用專利領域的公開數據集 Patent-Match。智慧芽主要關注專利的侵權和創新性,而 Patent-Match 數據集可用于判斷專利是否侵權。從測試結果來看,無論是中文還是英文,專利大模型在專利領域,都遠遠超過了 ChatGPT-3.5-turbo,甚至超過了 ChatGPT-4。上圖顯示了智慧芽不同版本大模型的評估數據。同時也可以看出,Sparse 版本的 MOE 和 Dense 版本之間,也有非常有趣的現象,以后有機會給大家分享更多。 * 最后,對智慧芽自身細粒度業務能力進行了評估,如專利撰寫、專利總結、專利問答等。智慧芽使用了專利領域自建測試集(面向業務)Patent-Bench,并采用 PK 方法進行評估,與 ChatGPT-3.5-turbo 和 CGPT-4.0 進行對比。在不同的任務上,表現有所不同:在總結方面,專利大模型相對于 ChatGPT-3.5-turbo 仍具有優勢;在專利撰寫方面,由于通用大模型缺乏專利知識,專利大模型的優勢更為明顯;而在專利問答方面,專利大型模型的優勢也十分突出,這與智慧芽使用了更深層次、更具差異性的數據集有很大關系。 **6. **專利抽取:抗體輕重鏈提取+抗原配對信息

接下來分享應用專利大模型能夠解決的實際業務問題。 上圖顯示了專利抽取的需求,一個生物醫藥客戶需要從專利中獲取抗體抗原的配對信息。這涉及到輕鏈、重鏈以及它們對應的抗原等關鍵數據,在生物醫藥領域至關重要。特別是對于大型藥物公司,其核心藥物都受到專利保護,因此準確提取這些信息至關重要。然而,在過去,數據集的準確性和提取都需要人工干預。要實現客戶的需求,使用純人工方法完成需時 5 個月;使用小型模型結合人工標注(并由人工審核)需時 2 個月;而通過專利大模型,經過 Lora 微調、全參數微調、指令微調等方案,僅需 4 天即可完成任務。**7. **技術方案對比:抗體抗原實驗結果

上圖中可以看到,專利大模型(PatentGPT)明顯勝出并解決了該業務問題。但并不是所有的實驗都有這么好的效果,但是專利大模型打開了一扇窗,在有些場景下可以解決一些小模型無法解決的問題,特別是在長上下文理解等任務方面。03專利搜索與大模型結合

在落地過程中,專利大模型一定需要與搜索進行結合。 **1. **為什么要 RAG ( Retrieval Augmented generation )

可以從兩個方面解釋其原因: (1)在模型層面: * 減少幻覺 * 解決信息更新問題。這在產品化過程中至關重要,因為出于成本考慮,模型不可能頻繁進行訓練,因此數據更新的問題就顯得尤為關鍵。RAG 在工程化或產品化落地上扮演著重要的角色。 * 利用少量高價值數據的問題。這一點尤為重要,在大模型的學習過程中,由于高價值數據量有限,很難學到這些數據,也無法將其放到指令微調中深入學習。在這種情況下,RAG 變得非常關鍵。

(2)在業務層面: * 獲得更可信的正確結果。尤其是在生成涉及侵權或法律方面的結果時,對精度的要求非常高。 * 有引用鏈接,提高可解釋性。當客戶獲取生成的結果時,通常要求其具有可解釋性和可追溯性,以證明整個鏈路的可信性。因此,每個回答都必須提供相應的鏈接地址,這也是產品需求的一部分。 * 獲得新增領域信息以解決產品迭代問題。因為模型更新需要產品迭代,因此如果需要在短期內立即上線,RAG 是一個可行的解決方案。

2.** RAG **在智慧芽的實踐架構:找到答案+探索?!

以下是 RAG 實現流程的概述。比如先問一個問題,“介紹計算機學院的課程”,獲得結果后,再問”電子學院呢”,在該流程中,除了必須的安全判斷步驟外,主要分為以下幾個步驟: * 請求重寫:在此步驟中,首先進行 Query Rewrite。這是非常關鍵的一步,直接搜索“電子學院”可能無法獲得有價值的信息,因為用戶實際的需求是介紹一下電子學院的課程。和原來傳統的搜索不一樣,需要有一個根據歷史改寫的過程,這個實現還是非常有挑戰性的,尤其是上下文比較長的時候。 * 文檔檢索:文檔檢索階段包括以下幾個工作: Text2SQL:智慧芽之前通過小型模型提取了大量結構化數據,因此需要進行結構化檢索 Text2SQL。智慧芽定義了自己的 PatentSQL。 BM25:智慧芽原有的基于詞袋模型的 BM25 算法也需要調整。對于剛剛重寫的查詢,“介紹一下電子學院的課程”,搜索時不能直接使用全部關鍵詞,而是需要根據核心關鍵詞“電子學院課程”進行搜索。智慧芽使用大模型進行關鍵詞提取,以提高精度和搜索效果。 向量檢索:智慧芽原來的向量是基于相似性或相關性的特征空間實現的。現在需要結合非對稱性,因為業務上不僅需要尋找相似性或相關性,還要處理問答和侵權關系等非對稱性任務。為此,智慧芽需要重新訓練一個針對專利領域的 embedding model。這個模型需要通過預訓練數據和領域特定數據(如專利論文和臨床信息)完成預訓練,并進行大量的對比學習。ChatGPT 訓練自己的 text-embedding-ada 模型也是為了解決類似的問題,當然,embedding model 不一定是 Decoder-only 的,可以結合 Encoder 實現。 * 段落抽取:將前面三個搜索步驟的結果匯總,根據下游大模型的長文本能力,形成篇章或者段落。 * 答案生成:調用大模型,基于重寫后的查詢和檢索到的段落生成結果。

此外,RAG 所使用的大模型也需要基于搜索結果進行 SFT 和強化學習。**3. ****RAG **挑戰:一半是工程,一半是算法突破

在 RAG 的實施過程中,上圖中展示了其中一個例子:“發燒多少度需要吃藥”,模型給出了回答,接著問:“兒童呢”這意味著詢問小孩發燒多少度需要吃藥。系統首先需要確定是否涉及多輪對話,然后判斷是否需要搜索。這個例子中模型判斷是多輪對話,Query 需要進行改寫;如果不是,可以直接利用當前問題進行搜索。在實踐中面臨的挑戰包括: * 在多輪對話過程中進行搜索改寫。 * 判斷是否需要搜索,通過小參數的大型模型來解決這個調度問題。 * 搜索與大型模型的深度融合(SELF-RAG),當大模型直接生成內容時,通過生成特殊的 token 來指示是否需要搜索。 * 100 億向量的性能問題,RAG 的應用需要對源數據進行 Chunking 分段,將上百頁的專利分成多個部分。如何通過工程化方法使其運行更快,也是一個挑戰,這涉及到工程化的問題。

04挑戰和展望

關于未來方向的一些思考

在實踐過程中,智慧芽進行了以下思考: * 稀疏化:智慧芽也開發了一個 MoE 模型,除了模型本身,主要目的是平衡成本、速度和精度。隨著業務的擴大,成本問題將不可避免地出現。MoE 模型能夠更好地平衡性能和使用成本。 * 自我迭代:智慧芽實現了一個強化學習的自我迭代 self play,即自我對話和自我評估,現在也有很多 Self-Rewarding 相關的文章,就是讓模型自己和自己對話、評估、迭代,這是一個很好的方向。目前代碼已經實現,并初步看到了一些效果,后續將進行更深入的實驗。 * 多模態:專利并非只是全文本,還包含化合物序列、表格、附圖等圖片數據。因此,需要多模態的能力來充分理解專利內容。多模態處理也是智慧芽未來研究的方向之一。 * Agent:真正的應用場景肯定需要結合多個 Agent,這是智慧芽未來需要探索的方向之一。 以上就是本次分享的內容,謝謝大家。

分享嘉賓

INTRODUCTION

王為磊

智慧芽信息科技(蘇州)有限公司

搜索與算法總監;首席科學家

目前在智慧芽信息科技(蘇州)有限公司任職搜索與算法總監,首席科學家。 曾經獲得過姑蘇高層次人才,蘇州園區緊缺人才等;發表國際核刊論文 10 多篇,專利 30 余篇,曾參與研發了國家火炬計劃一項,主持國家科研項目一項,江蘇科技計劃項目一項,蘇州重點產業科技創新等多個項目。 目前主攻:專利情報挖掘,專利搜索,基于大模型的專利理解與生成等方向。目前研發的基于 1.8 億專利文本為主的專利大模型(PatentGPT),在專利撰寫、專利對比等產品里得到應用,取得客戶高度認可,針對專利大模型,2023 受邀參加世界人工智能峰會,做“專利大模型的實踐與探索”主題報告;受邀參加“中國 2023 知識產權年會”, 做“專利大模型在知識產權的應用”主題報告。

付費5元查看完整內容

本文整理自7月7日世界人工智能大會“AI生成與垂直大語言模型的無限魅力”論壇上上海市數據科學重點實驗室主任、復旦大學教授肖仰華《面向領域應用的大模型關鍵技術》的主題分享。

轉載“DataFunTalk”

**導讀:**當ChatGPT之類的生成式大模型呈現出較強的通用智能能力之后,產業界的關注點較多地落在了千行百業。大模型只有在實體型的千行百業落地取得效果才能凸顯其價值。ChatGPT之類的大模型均是用通用語料訓練而成,具備通識能力。那么自然就會遇到一些有意思的問題,為何千行百業的垂直領域需要通用大模型?當前的通用大模型是否就已經能夠勝任垂直領域的復雜任務?通用大模型需要如何優化才能勝任領域中的復雜任務。本報告對這些問題做初步回答。

一、垂域問題為何需要通用大模型解決?****

首先,通用生成式大模型所帶來的開放世界理解能力是至關重要的。這種能力使得大模型能夠對各種開放環境中的自然語言問題都有著一定程度的理解,在大多數情況下能夠提供準確答案。盡管當前的生成式大模型在生成答案時可能存在一些事實或邏輯上的錯誤。但總體而言,其生成的內容不會偏離問題的主題,對于通識問題能夠進行準確回答。這種開放世界問題理解能力對于垂域領域認知的實現至關重要。ChatGPT之前的AI實現思路傾向于認為只有讓其學會大多數垂域的能力,才能實現開放世界的通識理解能力。或者說,如果垂域認知都無法實現,實現通用認知則更加困難。然而,ChatGPT出現之后,證明了先煉制通用大模型塑造機器的通識能力,再經垂直領域數據的持續訓練練就垂域認知能力,是一條更為可行的落地路徑。事實上,將機器的垂域認知能力建立在通用認知能力基礎之上是必然的、是合理的。一個醫生如不理解“健康”,怎么可能真正理解 “疾病”。也就是說理解某個概念,不單單要理解這個概念自身的內涵與外延,更要理解概念之外的內涵與外延。所以,理解領域內,就包括理解領域外,傳統所謂的“垂域認知”本質上是個偽命題。這種“先通識、再專識”的智能實現路徑與人類的教育過程極為相似。我們人類的教育,首先是側重通識教育的基礎教育,才是側重專業知識的高等教育。生成式大模型的發展刷新了我們對領域認知智能實現路徑的認識,這是大模型技術發展帶來的重要啟發之一。

大模型除了開放世界的理解能力之外,還具有很多其他能力特性,在領域應用中尤為值得關注:

一、組合創新能力

通過在訓練階段引導大模型學習多個不同任務,從而可以讓大模型組合創造出解決更多復合任務的能力。例如,我們可以讓大模型根據李清照的詩詞風格寫一個Python代碼的注釋,這要求它既具備寫詩的能力,又具備編寫代碼的能力。大模型通過對指令學習的結果進行組合泛化,模擬了人類舉一反三的能力,從而讓機器能夠勝任一些從未學習過的新任務。

二、評估評價能力

通用大模型具有出色的。具有一定規模的大模型(特別是百億以上的大模型)在常見的文本任務結果評估方面具有優良性能。傳統的文本任務,其結果評估工作往往需要人工參與,耗費昂貴的人力成本。而現在,我們可以利用大模型進行很多評估任務。例如,我們可以讓大模型扮演一個翻譯專家的角色,對翻譯質量進行評估。通過設計合理的評價標準、給出有效的評分示例、給出翻譯專家評價過程思維鏈,巨型大模型(比如GPT4)是能夠出色的完成諸如習語翻譯這類非常專業的評價工作。大模型的評價能力能夠顯著領域任務中的人工評價的成本,從而顯著降低領域智能化解決的方案的落地成本。

三、復雜指令理解及其執行能力

復雜指令理解及其執行能力是大模型的核心特點之一。只需給予大模型詳細的指令,清晰表達任務約束或規范,超大模型就能夠按指令要求地完成任務。這種忠實于指令要求的能力與大模型的情境化生成能力高度相關。給定合理提示,且提示越是豐富、細致,大模型往往越能生成高質量內容。大模型的情景化生成能力刷新了我們對智能本質的認識,傳統關聯認為智能是人類的知識發現和應用能力。這類定義是從人類視角出發,知識是人類認知世界的產物。而從大模型的角度來看,只要在給予的情境提示做出合理生成,就是一種智能。這種情景化生成能力本質上體現了一種建模世界的能力,且無關于人類對于世界的認知方式。

四、復雜任務的分解能力和規劃能力

復雜任務的分解能力和規劃能力是大模型的另一項優勢。它可以將復雜任務分解為多個步驟,并合理規劃任務的執行順序。這為垂域應用提供了重要的機會,使得大模型能夠與傳統信息系統協同工作,將傳統IT系統中數據庫、知識庫、辦公自動化系統、代碼庫等眾多系統高效協同,完成以往傳統智能系統難以勝任的復雜決策任務,從而提升整個信息系統的智能水平。

五、符號推理能力

此外,大模型還具備符號推理能力,可以進行常識推理、以及一定程度的邏輯推理、數值推理。雖然這些推理能力在面對復雜的領域文本任務時仍需進一步提升其專業水平。此外,價值觀對齊能力也是大模型落地的重要特性,以確保大模型的輸出與我們人類誰的倫理道德、意識形態、價值觀念相一致。

總而言之,通用大模型作具備開放世界的理解能力、組合創新能力、評估能力、忠實的指令理解和執行能力、復雜任務的分解和規劃能力、符號推理能力以及與價值觀對齊能力性。這些優點使得大模型成為了為人工智能的新基座。也就是說任何應用接入大模型,均可以享受其所到來的智能能力。大模型也日益成為智能化應用生態中的核心部件,控制與協調各個傳統信息系統,帶動信息系統智能水平的整體性提升。

二、大模型能夠直接勝任垂域任務嗎?**

對于通用大模型是否已經能夠勝任垂域任務,需要審慎評估。目前的判斷是,大模型還無法直接勝任各領域復雜決策任務。因此,在企業服務市場,我們既要重視大模型給我們帶來的重大機遇,也要保持冷靜,對ChatGPT能做什么不能做什么保持謹慎態度。要意識到,我們仍需開展大量研究工作才能將ChatGPT應用落地。

ChatGPT這類大模型在開放環境下的人機對話或閑聊已經取得顯著效果,但其解決實際工作中的復雜決策任務存在差距。我們在垂直領域的大部分任務是復雜決策任務。例如,設備故障排查、疾病診斷、投資決策……等任務都屬于嚴肅的復雜決策場景。所謂“嚴肅”是指這些任務對于錯誤有著較低的容忍度。上述場景的任一錯誤都會帶來巨大損失與難以接受的代價。這些任務也是“復雜”的,需要豐富的專業知識、復雜的決策邏輯、宏觀態勢的判斷能力(例如股票市場的宏觀態勢)。還需要擁有綜合任務的拆解與規劃能力,比如將故障排查分解成若干步驟;需要復雜約束下做出取舍的能力,例如投資決策往往要多眾多約束進行權衡與取舍。還需要具備未見事物的預見能力和在不確定場景下進行推理和推斷的能力,因為我們現實環境發展快速往往超出我們預期,我們往往要在對信息不完全的情況下就要做出及時的決策。

復雜決策任務

舉個例子來說,讓機器“調研知識工場實驗室最近發表的大模型持續學習的論文”,這看似一個簡單的任務,實則需要使用上述各類復雜決策能力。例如,要了解知識工場實驗室是一個什么樣的團隊、有哪些成員,需要了解大模型持續學習的內涵,需要具備AI領域的專業知識。同時,還需要知道如何查找論文資源(比如我們都知道計算機領域的前沿論文往往可以從Arxiv網站上下載),下載論文時可能會遇到一些未預料到的問題(例如網絡訪問出現404、出現驗證碼等情況)。我自己實驗室的本科生、碩士生顯然能夠完成上述任務。但是,當前的大模型還難以完成整套流程中的工作,還需要針對性地提升大模型自身的能力,還需要從外圍不足大模型的先天不足。

總體而言,大模型在領域知識方面仍然相對匱乏。通用大模型具備寬廣的知識底座,具有寬度有余但深度不足。然而,在解決實際問題時,例如運維問題,如果沒有設備相關的知識,是無法勝任運維任務的。因此,大模型需要具備專業知識的深度和長程推理的能力,才能在垂直領域落地應用。

寬廣的知識底座

另一個無法回避的問題是大模型的"幻覺"問題,即一本正經地胡說八道問題。當我們詢問復旦大學的校訓時,大模型可能會很有條理地編造出看似嚴謹的回答。但仔細查證,你會發現在一些基本事實(比如它編造了復旦校訓的出處),大模型的回答容易出錯。大模型以“一本正經”的文字風格編造答案的現象,將會為其應用帶來巨大困擾。因為看似嚴謹的回答往往藏著一些基本事實錯誤,我們在應用時仍然要付諸極大的代價進行信息真偽的判斷。這實質上反而帶來了大模型應用的額外成本。大模型的幻覺問題,其自身經過優化之后能夠解決么?比如使用更多的訓練數據,更充分算力的訓練。理論上ChatGPT這類大模型是概率化的生成式大模型,仍然會以一定概率犯錯。某種意義上,幻覺是大模型的創造力所必須付出的代價,魚和熊掌難以兼得。因此,幻覺問題是大模型落地垂域應用不可避免的問題。

大模型的"幻覺"問題

此外,大模型缺乏對于給定信息的"忠實度"。在領域任務中,我們需要大模型遵循特定領域的規范、制度、流程和知識進行回答。然而,如果沒有進行適當的調優,大模型往往會拋開給定的文檔或信息,而傾向于利用已習得的通用知識進行自由發揮。飄逸的創造發揮與忠實的事實陳述是一對難以調和的矛盾。對于一個給定的問題,是用通識回答還是用專識回答。我們人類對于問題的知識適配,往往是直覺方式完成的,但是要讓機器在通識和專識之間的靈活協同是十分困難的。雖然巨型大模型(比如GPT4)能在一定程度上緩解大模型忠實度缺乏的問題,但是即便進行過微調和優化,大模型的答案仍然有可能超越給定的范圍,從而產生錯誤。這是當前通用大模型面臨的一個重大問題。

信息的"忠實度"

因此,我的基本判斷是僅僅依靠現有的通用大模型是不足以解決各行業領域的許多問題的。我們需要發展垂域大模型,并積極發展外圍插件,實施大模型和知識圖譜、傳統知識庫相結合的策略,緩解大模型的自身問題,提升大模型的落地效果。

三、通用大模型如何勝任垂域任務?******

通用大模型向特定領域應用,仍需大量優化,才能從“不作詩、只做事”,才能從一個知識容器變成解決問題的利器,才能釋放大模型的巨大潛力。我相信達觀數據的"曹植"模型也在做類似優化。我將以我實驗室自己的大模型KW-CuteGPT面向領域優化過程作為例子,向大家介紹大模型勝任垂域任務的路徑。存在兩個基本優化的路徑,一是大模型自身的優化,二是大模型與外圍技術的協同。

先討論大模型自身能力如何優化。首先是提升大模型對長文本的理解能力。比如,用大模型做對客服通話記錄進行總結是一個很常見的應用場景,很多客戶經常花了五六分鐘,通過冗長對話記錄,才能表達自己的意圖。而其中可能只包含一兩個重要的信息點。用大模型進行對話的摘要,需要支持長文本的理解能力。當前已經商用的一些大模型,如GPT-4,已經能夠支持最長32K的輸入長度,相當于上萬字,是非常了不起的能力。然而,大多數開源模型只支持2-4K的輸入長度,在長文本的理解能力方面仍存在不足。因此,在發展垂域大模型的過程中,首要的任務就是提升長文本輸入的理解與處理能力。長文本之所以具有挑戰性,是因為其中存在全局語義約束,許多語義約束涉及多個句子甚至多個段落,讓大模型理解這種全局上下文仍是巨大挑戰。

提升長文本理解能力

其次,我們需要進一步提升大模型求解復雜任務的規劃和協同能力。這里同樣給出一個問答系統中的真實案例,我們常常面臨一個困惑:對于某個自然語言問題,是應該調用知識圖譜的知識來回答,還是讓大模型來回答?我們希望大模型能夠自主決策、規劃,判斷是否需要使用外部知識,并決定需要使用哪些外部知識。對于不同來源或不同類型的知識,可以通過API調用獲取其知識。這就進一步需要讓大模型理解API以及相應的使用規則、調用關系、參數配置以及輸入輸出格式等,從而實現達模型其與外部知識庫工具的協同。然而,客觀來說,大模型的外部工具林林種種,工具所處的環境也是非常復雜,必須不斷進行優化大模型的規模與協同能力,才能確保大模型在協同各種工具完成復雜任務是取得理想效果。

復雜任務的規劃和協同能力

第三,還需要進一步優化文本的結構化解釋和風格樣式。在實際應用中,用戶對樣式有特定要求,需要大模型能夠理解并及時響應對輸出格式的調整。行業復雜抽取仍然面臨著很大的需求。過去,我們通常需要在提示中提供行業背景信息(比如領域Schema),大模型才能夠抽取出關鍵要素。經過優化之后,大模型在各個領域的背景理解能力大幅提升,可以自適應地對各個領域的背景進行理解,而無需依賴于特定的行業背景提示,能夠將專業性較強的文本進行結構化分析和拆解。

優化文本的結構化解釋和風格樣式

第四,要持續提升大模型的問答領域問題的能力,包括不兜圈子直接回答、忠實于給定文檔的回答以及堅定正確信念等能力。通用大模型在問答過程中容易出現繞圈子、和稀泥式樣的回答。在與大模型對話的過程中,它很可能會回復“我是一個大模型,我的回答僅供參考……”,不愿意給出具有明確判斷性質的答案(主要是通用模型出于安全、免責的初衷),讓你困惑了半天卻無法獲得想要的答案。垂域應用中,我們不希望它繞圈子,我們希望它能直接給出答案,才能輔助我們實現決策。同時,我們要求大模型在給定文檔的基礎上生成答案時,不要超出給定的內容范圍。它必須結合給定的內容和自身的語言生成能力,給出一個合理的答案,而不是自行發揮。在垂域應用中,我們不希望大模型隨意發揮,它需要忠實于所涉領域。另外,要提升大模型對于正確信念的堅持能力。信念不堅定的模型會出現“墻頭草”式的回答,即沒有明確立場,你告訴它"你錯了",它立即改口,你說"2+2=4"是錯誤的,它會說"是的,我錯了,2+2應該等于5"。信念過于堅定的大模型又會出現“死鴨子嘴硬”的問題,即明確提示它回答錯誤了,但它仍然堅持不改。這兩種情況都是錯誤的。在垂域的應用中,我們希望大模型能夠意識到自己的錯誤,既不動搖自己的正確信念,又能夠避免死鴨子嘴硬式的知錯不改問題。

提升大模型的問答領域問題的能力

從大模型與外圍技術的協同角度來看,首先還需要進一步優化大模型的診斷和應用評測。知識工場實驗室最近發布了幾個跨學科的評測體系,這些評測體系旨在從大模型訓練過程的診斷以及大模型的應用效果兩個角度進行評測。目前許多評測都是以應用效果為導向,但實際上,面向診斷的評測也十分重要。我們需要建立訓練大模型所需的數據集的評測基準,需要通過評測建立大模型訓練過程中的關鍵參數、模型架構、數據配比的最佳實踐體系。此外,大模型的評測應該從當前最求標準評測數據集上的“高分”的單一目標發展到兼顧解決實際問題的“高能”的雙重目標。這意味著評測不僅僅關注各類側重考察知識點掌握能力的考題評測,更要關注大模型解決實際復雜的決策問題的能力。面向“高分高能”的大模型評測體系,是大模型評測主要發展方向。

優化大模型的診斷和應用評測

另外,還要進一步提升大模型的數據治理能力。大模型在實際應用中表現出的很多問題,比如答案偏見、隱私泄露、版權侵犯、內容違規、錯誤觀念等等,最終均可以歸結到數據源頭的問題。當前的主流思路仍然是大模型能力煉制之后的事后優化。這里需要指出的是,事后優化難以從源頭上解決大模型的上述問題。比如大模型的隱私泄露、版權侵犯、意識形態錯誤,我們無法在結果層面百分百地保證其相應安全性。大模型仍然存在一定的犯錯概率,或者是難以預料的犯錯情形,從而造成違背相關法律規范,帶來難以彌補的影響。因此,必須從數據源頭加強數據治理,開展數據清洗、隱私識別、樣本糾偏、違規內容清洗等的工作。有關部門應積極推動大模型訓練數據集的標準與規范,進行大模型訓練數據集的合規性認證,從數據源頭保障大模型產業的健康發展。

提升大模型的數據治理能力

總而言之,目前國產大模型研發中的主要問題仍然在于缺乏數據治理系統與能力、評測偏離應用需求。加大這兩個方面的研究力度,推動這兩個問題的解決,是近期推動我國大模型產業向好發展的關鍵舉措。 最后,仍然強調一下,通用大模型絕不能停留在類ChatGPT的開放式聊天階段,必須盡快提升其解決實際問題的能力,引導大模型發展成為助力我國各行業高質量發展與數字化轉型的先進生產力。

付費5元查看完整內容

導讀 本文將分享滴普科技在數據治理方面的實踐與總結。 全文將圍繞以下兩個方面展開介紹:

  1. 數據治理建設路徑

  2. 數據治理實踐分享 分享嘉賓|汪歡 滴普科技 高級解決方案架構師 編輯整理|吳葉國 出品社區|DataFun

01****數據治理建設路徑

1. 業務數字化的目的是打造一體化的業務流、信息流與數據流

從企業整體經營管理的角度,戰略制定及分解—領域業務目標制定—業務方案設計—業務需求識別 & 信息系統功能及數據庫設計—數據匯聚及分析—業務目標監測及改善,這個過程會有層層信息耗散,全局數據治理的目的就是利用體系機制保障最大程度減少這個耗散或補足耗散的部分,讓數據盡可能的還原企業的業務事實。 企業在 IT 規劃過程中,首先會做業務流梳理,表現為流程架構、價值流或者能力框架;業務流中的相關信息流轉,如表、證、單、書等,稱之為信息流;信息流中識別出數據對象,梳理數據關系,可以指導數字化系統建設。 但是企業在實際開展數字化過程中,人力資源、采購、生產、研發等每個領域都會有數字化訴求。業務人員和 IT 人員通過分析應用訴求,把業務流轉和應用需求相結合,進行數據設計,進而形成新系統。因為 IT 建設是逐步開展的,業務人員的視角不同,實施人員和數據開發人員的理解各異,最終每個系統都會對數據有自己的局部理解,因此簡單的把人力資源、采購、生產、研發等存量信息系統里面的數據拼到一起,是無法構建出反映企業業務本質的數據流或者數據孿生模型的。 數字化的數據如果無法反映業務全貌,那基于這些數據進行加工也不可能得到正確的結果,因此需要通過對業務的理解進行數據治理。 數據治理是從業務流到信息流、數據流、數據庫表的流轉。業務系統中的物理表字段,哪怕短期內由于無法改變業務系統不能完成源頭治理,也要在數倉的 ODS 層完成治理,形成能還原業務本質的數據映象。 數據映象描述的是業務過程中的業務細節。企業經營中戰略分解到各業務部門的經營目標都會有相關的考核指標。如果數據映象是真實的,那基于指標體系做的業務分析就能更真實反應業務階段結果,達成企業業務流、信息流、數據流的一致性,支撐企業從戰略規劃到目標分解的監控,最終實現數據價值的呈現。 總結來說,整個數據治理的核心動作分為兩個部分,一個是業務數據的治理(形成真實數據映像),另一個是分析體系的治理(基于數據映像面向管控目標做合理性的分析結構設計及實現)。

2. 典型的企業數字平臺框架

典型企業的數字平臺框架如上圖所示。 (1)業務系統作為局部數據映象或數據源。 (2)數據中臺做全面的數據匯聚與建模,數據中臺基于貼源層、明細層、匯總層、應用層進行分層,面向分析型需求由開發人員進行數據建模。 (3)自助式數據消費是面向業務分析師或者有一定業務理解能力的開發人員,他們會自助式的基于成熟的模型進行組裝式的開發。 (4)智能決策包括駕駛艙、可視建模和智能應用等。 從業務數據系統的數據源到分層的數據建模以及數據消費的全過程,需要一系列的管理機制,包括數據標準、數據模型、數據質量以及管理流程和機制,形成了一套體系化、規范化的方法,保證整個鏈路的暢通。 3. 對數據治理核心內容的理解

滴普對理解的數據治理核心內容包括三塊:數據治理體系設計,業務數據深化治理,分析數據體系設計。

(1)數據治理體系設計

數據治理體系設計主要涉及數據架構、數據標準、主數據等該如何進行治理動作管理。首先基于業務系統和分析系統現狀,梳理一套機制并把該機制固化起來,但這只是一套文檔和理想態機制,需要與業務數據及分析數據體系的實際開展動作進行結合細化;同時建立聯合團隊一起進行一些專業性的數據治理活動,如建立數據目錄、數據標準等,構建數據管理內容的同步將能力轉移并固化在甲方身上。本質上是通過體制機制、流程文件去固化企業的專項數據能力,以將數據治理作為一項持續性的工作開展下去。 當然也會涉及到數據管理組織的設計,組織設計是相對可大可小的事情,因為會涉及到數據資產權限,業務部門,IT 部門等平臺部門。

(2)業務數據深化治理

這部分包括幾個比較核心的工作: 第一、 數據資產目錄 梳理方法上有自上而下、自下而上兩個方向。 **自上而下:**基于業務鏈條去識別每一個業務領域,比如制造、研發、生產、采購等的關鍵信息,這些信息有可能已經在 IT 系統有留存,也有可能是一個線下紙質的表單。數據資產目錄構建要描述企業全部數據要素,但是系統的建設一定是落后于企業的管理訴求的,所以不能只是梳理企業既有的 IT 平臺里的數據要素,需要基于整個業務鏈條去梳理企業的數據要素,構建數據資產目錄、進行分級分類。 **自下而上:**因為單純基于業務鏈條有些業務細節可能會被忽略,所以需要基于存量的 IT 系統的數據庫表進行盤點和映射作為補充。 通過自上而下從業務出發,自下而上從數據庫表出發,可以得到相對近似于企業數據資產全貌的數據資產目錄。數據資產目錄厘清了企業的業務數據資產,它有兩個用途: **① 構建業務友好的數據地圖。**數據資產結構劃分是基于業務線構建的,會形成對業務非常友好的可視結構。不論是當前 IT 系統的庫表結構,還是識別出的數據對象實體以及未來的指標標簽都可以和它進行關聯。可以給業務人員提供友好的數據資產入口,同時支撐高階的數據分析人員及數據開發人員找數。 **② 劃分責任田。**如果企業是自上而下進行業務梳理的,會有從業務域到業務子域到整個業務對象的目錄映射,可以很容易的找到每一個數據的責任人,當出現一些數據標準、跨領域的數據爭議的時候,可以起到劃分責任田的作用。 第二、數據模型 通過數據目錄可以知道有多少數據資產,通過數據模型可以知道數據對象之間的關系。 數據模型包括概念模型、邏輯模型和物理模型。治理項目初始完成概念模型,只有對象和對象之間的關系,后續需持續進行邏輯模型的建設(加入主外鍵、關鍵屬性)。在做專題的主數據治理需要實現數據清潔干凈,提升質量,其中深化的邏輯模型設計是其重要支撐。 第三、數據標準設計 數據標準應該是面向未來的業務需求去設計的,其不只是存量的字段長度、表結構,還包括業務規則、業務含義、業務的管理角色等相關標準。有的數據標準是面向增量數據結構的,比如可以用數據標準去約束數倉內的增量的數據變更或者新增的 IT 系統的數據結構。但是對于存量系統來說,其數據結構可能和數據標準存在差異,如果強制存量 IT 系統修改,短時間是不可行的,通常可以通過建立映射關系解決,以兼顧業務連續性需求及面向未來業務的合理性。 第四、數據分布定義 盤點數據標準在存量的業務系統包括數倉內的分布情況。有些分布會極其復雜,如有的制造業企業有七八十個系統,每個系統各管一個業務段,數據分布相當繁雜,可能單一屬性分布在十幾個系統和幾十張表中。 識別完數據分布以后,還要識別可信數據源。比如從 20 個數據源里面定義 TOP5 的可信數據源,TOP5 的可信數據源里面,可能建立交集、并集、篩除等關系。 第五、數據質量改善 開展專項數據治理,一方面是標準比對;另一方面,對主數據和主數據相關的重要交易數據做關鍵屬性洞察。 通過業務資產梳理,可以收集業務人員以及 IT 人員遇到的問題和困難,并對其進行根因分析,制定數據探查的規則以識別數據問題。再進一步分析這些問題到底是業務問題、數據流轉的問題、系統應用功能問題,還是數據結構和數據標準本身執行不到位的問題,并給出改善建議。如短期內通過映射關系解決,長期內希望通過業務及數據管理動作進行改善,因為業務及數據管理動作才是數據質量產生的源頭。

(3)分析數據體系設計

分析數據體系分為兩個部分。 第一、厘清分析數據資產 包括兩部分: **① 指標管理體系。**首先做存量分析建設,存量就是各個業務部門已經在使用的系統、報表、指標,同一個指標可能有多個部門在用。將這些指標收集起來,做結構化、標準化,包括指標的聚合、收斂、規則定義,叫做指標存量標準化設計。 **② 運營績效指標設計。**如果企業本身處于管理變革階段,單個領域業務方向的變化會牽引出新的考核體系。可以基于前瞻性的考核體系設計一套指標體系,牽引管理變革落地的方向。另外,一些行業實踐的成套體系的指標可以借鑒(例如 IPD、MTL),進行企業內部管理的優化,這些內容屬于運營績效指標設計。 第二、數據能力供給設計 分析數據體系除去指標,還有比如標簽、算法模型,如制造業的庫存優化分析等算法模型、車聯網的充電模型等高階數據應用的設計,定義為數據能力供給設計。

4. 數據治理開展路徑

數據治理開展路徑,有如下的兩部分組成:

第一部分,治理活動。

首先以數據盤點為切入點,形成覆蓋企業業務全域的數據資產地圖。數倉一般是按照 FSLDM 模型的理念構建,雖然對于開發人員非常友好但是對業務的可讀性相對較低,必須基于業務友好的視角做數據盤點和建立高可讀性的資產地圖。 資產地圖首先需要做資產的價值排序和痛點排序以確定哪些資產優先治理。排序有兩種視角,一種是按主題,比如客戶主數據,供應商主數據以及和它相關的重要的數據;還有一種是按業務域,比如采購域、生產域、財務域。 資產地圖的進一步的治理是做標準化、質檢改善。以采購域為例,做采購域的數據標準的設計,做存量和增量的映射和規則的執行。完成后,單域的數據質量和清潔度都得到提升,然后基于數據標準約束信息系統的改造。從分析側來說,前端數據整合規則的高質量定義可以極大的減輕定位數據、ETL 清洗、ODS 層到明細層的設計工作。 最后一步是數據的共享分發和數據分析場景的建設。共享分發可以是基于原生的業務形態、業務系統數據的分發,也可以是指標、報表、標簽的分發。 第二部分,外部賦能。

首先搭建數據治理體系框架。第一步建立組織,比如先找到資產管理員、數據平臺管理員、業務分析師這樣三個角色,就可以啟動一些核心的活動,把相關的制度模板,如數據共享、數據權屬設計、增量數據的標準約束和審批流程等體系框架搭建起來。 數據治理體系框架搭建后,進行數據資產的盤點,完全域數據資產盤點是迭代更新的過程。數據資產是為了反映業務的數字映像,因為業務會發生變化,所以需要沉淀能力形成一套方法和模板。后面每隔一定時間迭代一次,根據業務環節產生的業務變化刷新資產目錄。 有了體系框架、數據架構和方法賦能,就可以開展重點專題的治理,比如從 L3 業務對象(概念實體)的識別,到邏輯側及物理側的映射,最后在價值呈現上做指標算法、數據共享機制構建(需要數據管理平臺和數據應用平臺支撐)。

5. 業務數據治理工作的起點-數據資產盤點

數據治理工作的核心抓手是數據資產,所有的標準、質量、安全都是構建在數據資產上面的。 以某制造業數據資產盤點為例,它的生產過程,從新產品導入、生產計劃、制造過程,工藝管理、物流倉儲交付到產品退貨,構成了生產域。通過生產運營的業務活動識別出關鍵的信息對象,稱為業務對象。 L1 可以復制企業的自然職能領域,如果企業的流程 IT 部門有業務架構或者是流程架構,可以直接參考其結構,便于業務人員的感知;L2 基于每個業務過程識別出來對象進行偏向于數據本身的聚合,既考慮業務可識別性,又考慮數據本身的聚合性。 在梳理資產目錄過程中,根據對象和業務的關系可以比較粗顆粒的畫出對象之間的關系,稱為概念模型,它僅有 1:1、N:N、 1:N 的三種關系,不承載實體和屬性。基于概念模型,我們可以衍生出細分領域的邏輯模型和物理模型設計。 存量信息系統中,有了數據資產目錄和數據之間的關系后,還需要統計數據在信息系統之間的分布以及數據在整個業務域的流向圖。 數據資產盤點是整個數據工作的核心抓手和起點。

6. 針對重點領域-分階段開展數據資產深化定義

數據資產目錄到 L3 層是業務分類結構,如上圖從銷售、零售管理到客戶,是業務人員一看就明晰的結構。 但 L3 層是一個偏概念性的東西,需要填充更多的屬性形成邏輯實體。也就是將概念實體切割成邏輯實體和邏輯屬性。 再往下就是物理表的映射。邏輯實體和存量的物理表的區別在于,邏輯實體在業務側承載更多的業務細節,但是系統表的數據結構設計還有性能上的考慮,數據庫的性能、讀寫的性能、以及冗余字段。 7. 基于數據資產目錄的數據認責

不論是數據平臺還是數據資產的目錄結構,都會關心數據資產認責,數據的所有者是誰,數據的變更需要找誰,需要進行相應角色的定義,比如業務數據的定義責任人,系統管理責任人,數據錄入責任人,并形成類似這樣一個矩陣表。 責任人的認定,在業務數據,到屬性級別是比較理想的顆粒度。但是屬性級別設置責任人可能設置工作比較繁重,所以實際在開展的時候,一般會在 L3 層設置它的管理權責。如果短時間內涉及到一些比較復雜、跨領域的數據,或者權責難以厘清的數據,我們可以再往上推到 L2 層去定義,后續看情況再細化。

8. 數據治理的落地平臺支撐

以上是數據治理的開展路徑以及核心的數據資產工作部分。數據資產目錄設計、數據模型、數據標準,這些數據管理動作需要有一個 IT 平臺去落地,滴普提供一站式的數據智能服務的平臺,包括從數據集成到數據治理(數據標準、數據質量、數據安全等),數據資源的開放和共享。

02

數據治理實踐

下面是一些案例的介紹。

1. 某食品加工企業報表應用驅動的數據治理咨詢交付路徑

客戶的 CIO 本身有多年頭部咨詢公司的 IT 咨詢規劃經歷,對企業信息化及數據管理有比較深的理解,為了兼顧企業長期的數據治理能力構建及中短期的業務價值體驗,所以這個項目就分成了兩個部分。 (1)數據治理體系設計。包括現狀診斷及體制機制設計,以及前面講到的數據目錄構建、標準設計,屬于業務數據治理。 (2)指標體系的設計。指標體系對比較核心的管理部門,做全量指標體系的盤點和結構化、標準化的設計。針對某一個比較強勢有價值承接的業務板塊,做指標的定義和拆解,在物理表上做面向大屏的主題專題庫的設計。 這里可以理解為兩塊,一塊用來在業務側呈現價值,另一塊是通過數據定義和設計去支撐指標的高質量實現。這樣既實現了業務部門可感知的價值,又實現了 IT 部門基于長遠考慮的夯實數據治理基礎目的。

2. 某制造企業數據治理的起點-數據盤點 & 治理體系設計

該制造企業是一個整車制造商,這些年做了很多數據治理的項目,這個體系設計&數據盤點項目是他們整個體系的起點。 在項目之前,客戶做過主數據項目一期,但是他們比較關心的客戶主數據,主數據下面是有數據標準、數據模型,包括全鏈路的數據關系。兩三年后,企業的系統變了,業務也發生一些變化,以前做的主數據就有了很大的偏差。需要一套數據治理體系進行持續數據治理運營,所以就啟動了這個數據規范化的項目。 客戶在這個項目做兩件事,一個是數據治理標準化體系構建,包括標準設計、模型構建、數據質量管理、流程和組織設計等。還有一個是數據目錄設計,做全公司范圍的數據資產盤點到 L3 級的業務對象,作為后續數據治理持續開展的路徑和索引。 還有一塊比較核心內容,不屬于數據治理范疇。因為這家企業是沒有流程 IT 部門的,IT 負責人之前對業務全貌和整體流向一直不是很清楚。我們幫助企業基于對現有業務的理解做了一個業務全景圖。但是這個項目到最后,CIO 非常關心這個業務全景圖,以此看到從業務全景圖到數據的映射,也可以指導每年的 IT 規劃。

03

問答環節****Q1:主數據在數據治理的方法,或者是數據標準的價值?

A1:為什么有主數據?因為有些企業的業務鏈路特別長,特別像制造業的產品主數據,客戶主數據。10 年前,大部分企業做數據治理就是做主數據治理,進行跨業務域跨系統的數據的整合和取用,形成對主數據的單一真實映象并進行分發。 現在的數據平臺在慢慢地弱化主數據的概念,因為數據平臺里面內置的功能和方法,可以支撐主數據需要的核心能力。主數據是跨業務域、跨系統的數據的整合分發,現在企業數據管理的范圍已經不僅僅局限于主數據了(也包括很多重要的交易數據),越來越偏向更廣泛的數據治理,不需要特別去考慮主數據專項的方法論,滴普前面講到的一些方法,其實就可以覆蓋原有主數據的核心過程。 數據標準最大的作用就是幫助系統里面的數據更真實地反映業務。數據標準來源于業務人員、IT 人員達成的一致性對數據的理解,并約束增量的業務。讓企業的數據源頭慢慢地往越來越貼合真實業務的方向走,就是數據標準最大的價值。

Q2:從不同業務系統做完數據治理后,要再形成一個新的數據庫嗎?或者是要做一層知識圖譜的結構?

A2:做完數據治理工作短時間內很難得到一個全新的數據庫,短時間內它可能就是一個標準。從制定標準到約束源頭的數據庫去改造,需要一個漸進的過程。當然未來方向上,還是需要重新形成一層選定的數據層,承載治理后的清潔數據。但是最終,如果源頭業務系統已經按照數據標準逐漸地替換(通過系統的功能演進或生命周期更換掉),已經比如過四五年以后全部都符合數據標準了,也就完成了數據治理。

Q3:數據標準制定后在原業務系統無法落地怎么辦?

A3:不能用短期的時效性去看數據標準落地,一定要看長期性的效果。數據標準解決的是兩件事情。對于存量的,特別是很多生產制造企業,業務系統對于生產過程非常重要,建議還是采取映射的結構,幫助企業更清晰地獲取現有的數據結構,不能一下子要求業務系統按標準馬上去改造。對于增量的數據結構,并通過數據平臺的校核功能,在業務系統功能變更或新增的時候進行數據表的比對,哪幾條不符合必須按標準改造。存量的不建議強行去改造(除非有高層的強力支持),會受到業務的極大反彈。

Q4:數據治理工作的價值或者 KPI 怎么量化?

A4:一種是通過企業的數字化或信息化場景切入,比如企業正在做業財一體化的項目、在做大型軟件包的更替,要和周邊的數據做交互。那么數據治理的價值就是幫助軟件包更好地和周邊數據的交互,或者獲取更清晰的其他周邊系統的數據結構。這是一種支撐大型軟件包的落地效果的價值。 還有一種是大部分企業在做的中臺可視化涉及的指標、標簽算法。比如財務部門以前出分析結果很慢,幫它做準做快,這就是價值的體現。 再有一種,如果數據治理后期,資產形成相關的服務以后,可以通過資產服務的調用,包括復用性、資產價值本身的評估,通過前端的調用性和對業務應用的貢獻去計算價值。

付費5元查看完整內容

**導讀:**本次分享的題目是圖表示學習技術在藥物推薦系統中的應用。

主要包括以下四個部分:

研究背景與挑戰 * 判別式藥品包推薦 * 生成式藥品包推薦 * 總結與展望

分享嘉賓|鄭值 中科大 博士研究生

編輯整理|王麗穎 360 出品社區|DataFun


01

研究背景與挑戰

1. 研究背景

  • 醫療資源總體不足,分布不均帶來沉重壓力

藥物推薦是智慧醫療的一個子問題,首先從智慧醫療的大背景說起,在我國智慧醫療存在緊迫性,隨著人口增長、老齡化加劇,人們對于高質量醫療服務的需求不斷攀升。圖中兩組數據,一是全國醫療機構的就診人數在 60.5 億人次,同比增長 22.4%;二是柳葉刀上關于各國醫療衛生條件統計,我國醫生大學本科以上學歷僅 57.4%,包括醫生、護士、社區衛生工作者等 16 類衛生工作職業的每萬人從業者數量上,中國僅達到美國的 1/3 。我國的診療人數不斷攀升,但醫療資源和醫療水平相對于發達國家還有較大的不足,此外還存在著醫療資源分配不均的問題。基層醫療機構的醫療水平相對有限,而頂層機構是供不應求的。因此如何充分利用高水平醫療機構的診療經驗,協助提升基層醫療機構的醫療水平,是一個亟待解決的重要問題。

  • 智慧醫療,人工智能技術帶來了曙光

隨著近些年醫療機構數字化進程加快,我國大量的醫療機構尤其是三甲醫院等高水平醫療機構都已經積累了非常豐富的電子病歷數據。如果能夠利用大數據人工智能技術,充分挖掘此信息并提取相關知識,則有可能幫助我們理解這些高水平機構中醫療專家的一些診療方式和思想,進而支撐智慧復診、醫療影像分析、慢性病隨訪等一系列的下游智慧醫療的應用,這些具有顯著的意義。2. 研究挑戰當下越來越多的醫療 AI 技術正在取得更加廣泛的應用,也推動了醫療服務的公平化和普惠化。部分 AI 技術如醫療影像分析等已經取得了一些令人矚目的成果,但在藥品推薦系統中卻存在較少應用,原因是藥品推薦系統和傳統的推薦系統有著非常大的差別,技術上也存在著諸多的難點。

  • 包推薦系統

第一個挑戰是傳統基于協同過濾等方法的推薦系統的應用場景主要是一次為一名用戶推薦一個物品,他們的輸入是單個物品和單個用戶的表示,輸出的是二者之間的匹配程度打分。然而在藥品推薦中,醫生往往需要一次為患者開出一組藥品。藥品推薦系統實際上是一個包推薦系統,叫做 package recommendation system,同時為一個用戶推薦一組藥品。如何結合包推薦系統進行藥品推薦,是我們面臨的第一個大挑戰。

  • 藥品間相互作用

藥品推薦系統的第二個挑戰是藥品之間存在著多種多樣的相互作用。有些藥品之間存在藥效互相促進的協同作用,有些藥品間存在藥效互相抵消的拮抗作用,甚至有些藥品的合用會導致毒性或者其他副作用。圖中病人是患有某種腎臟疾病,左邊部分是醫生為病人所開藥品,其中部分藥品存在協同作用,可以促進藥效。右邊部分是統計分析出來的對癥高頻藥品。可以看到這些藥品可能是由于一些拮抗作用而沒有被選取,下面的藥品可能是跟已有的某種藥品產生了毒性,因此也沒有被此患者使用。此外,藥品的相互作用影響是個性化的。我們在數據統計中發現存在大量有拮抗作用、甚至是有毒性作用的藥品同時使用。根據分析,其實醫生是會根據病人的病情考慮相互作用影響而開出藥物。比如一些腎臟健康的病人,他往往可以承受一定的藥品腎臟毒性的,因此我們需要對藥品之間的相互作用進行個性化的建模和分析。

3. 圖表示學習技術成為了新的可能

總結來說,結合以上的挑戰,圖表示學習技術是非常適合解決藥品推薦系統中存在的問題。隨著圖神經網絡的飛速發展,人們意識到圖神經網絡技術可以非常有效的建模節點之間的組合效應與節點之間的關系,這啟發我們圖表示學習技術或許將會成為構建藥品推薦系統的一個利器。圖中舉例來說,我們可以將一個藥品包根據其中的相互作用構建成圖,通過已有的圖神經網絡進行建模。基于以上想法,我們使用圖深度學習技術在藥品推薦系統上做了兩篇工作,分別發表在 WWW 和 TOIS 期刊上,以下是詳細介紹。

02

判別式藥品包推薦首先介紹一下我們發表在 WWW2021 上的關于藥品包推薦論文。這篇文章采用了包推薦系統中廣泛應用的判別式模型定義方法建模,同時使用了圖表示學習技術作為核心技術部分。

1. 數據描述

  • 電子病例數據

首先介紹工作中使用的數據描述。我們在研究工作中使用的電子病歷是來自于一個大型三甲醫院的真實電子病歷數據庫,其中每條電子病歷都包括了以下幾類信息:一是患者的基本信息,包括患者的年齡、性別、醫保等等;二是患者的化驗信息,包括醫生關注的化驗結果的異常,以及異常的種類:偏高、偏低、是否陽性等;三是醫生為患者撰寫的病情描述:包括患者為什么入院、以及初步體格檢查等信息;最后是醫生為患者開的一組藥品。此電子病歷數據是一個異構數據,包括年齡、性別、化驗等結構化信息以及病情描述等非結構化文本信息。

  • 藥品數據

為了研究藥品之間的相互作用,我們從 DrugBank 與藥制網兩個大型在線開源藥品知識庫里收集了部分藥品的屬性及相互作用數據。藥品相互作用是基于一些模板的自然語言描述,如上圖中 description 一欄是在講某種藥品可能可以增加代謝或減弱代謝等,中間話是模板,前后是填充的藥品名字。因此只要清楚模型分類,則可以把數據庫里所有的藥品相互作用進行標記。因此,**我們在專業醫師的指導下,把藥品相互作用考慮了無相互作用、協同作用和拮抗作用三類,把模板進行了標注,得到了藥品相互作用的分類。

2. 數據預處理與問題定義數據預處理來說,對于電子病歷數據,我們將其分為了兩個部分:患者的基本信息和化驗信息,我們將其處理為一個 One-hot 的向量;病情描述文本部分,我們通過一些 Padding 與 Cut off 將其轉化為定長文本。對于藥品相互作用數據:我們將其轉化為一個藥品的相互作用矩陣。同時問題定義如下:給定一組患者的描述以及對應 Ground-truth 藥品包,我們將訓練一個個性化的打分函數,該函數可以輸入給定患者和樣品包,輸出一個匹配程度打分。很明顯,這是一個判別式模型的定義方式。

3. 模型概覽

**本文提出的論文題目是 DPR:Drug Package Recommendation via Interaction-aware Graph Induction。模型包括三個部分:**預訓練部分,我們基于 NCF 框架得到病人與藥品初始表征。藥品包構建部分,我們提出了一種基于藥品相互作用關系類型,將藥品包構建成藥品圖的方法。最后一個部分是基于圖的藥品包的推薦框架,其中設計了兩個不同的變種,從兩種不同的角度去理解如何建模藥品之間的相互作用。

預訓練

首先預訓練部分是按照傳統的一對一推薦方式進行的。給定一個病例,醫生為給病人使用過的藥品是正例,未使用過的藥品是負例。通過 BPRLoss 進行預訓練,使用過的藥品得分比沒使用過的高。預訓練部分主要是要捕捉基本的藥效信息,為后面捕捉更復雜的交互作用提供基礎。對于 One-hot 部分,我們使用 MLP 提取特征;對于文本部分,我們使用LSTM提取文本特征。

藥品圖構建

與傳統推薦相比,藥品推薦的核心問題是如何考慮藥品間的相互作用關系,得到藥品包的表征。基于此,本文提出了基于圖模型的藥品包建模方法。 首先,已標注好的藥品相互作用關系會轉化成一個藥品相互作用矩陣,其中不同的數值表示不同的相互作用類型。隨后基于此矩可以將任意一個給定的藥品包轉化成一個異構藥品圖,圖中節點對應藥品包中的藥品,節點屬性是節點對應上一個步驟中的預訓練過的Embedding。同時為了避免計算量過大,我們并沒有把藥品圖構建成完全圖,即沒有讓任意兩個藥品之間都有一條邊,而是有選擇的進行保留,具體而言只保留了那些被標注過的藥品對的邊以及頻率超過一定閾值的邊。

藥品圖構建

為了對藥品圖進行有效表征,我們提出了兩種方式對藥品圖上的邊屬性進行形式化。

第一種形式是 DPR-WG,使用帶權圖表示藥品圖。首先是根據標注好的藥品相互作用,對邊全值進行初始化,其中使用-1表示拮抗,+1表示協同,0 是表示無相互作用或者未知。隨后使用了掩碼向量對藥品圖中的邊權值進行個性化的更新。該掩碼向量反映了不同藥品的相互作用,對于個病人的個性化的影響程度,它的計算方法是使用一個非線性層加 Sigmoid 的函數使得每一個維度取值都是從 0~1 之間,從而實現特征選擇的作用,對藥品的相互作用進行個性化調整。藥品圖更新過程是在 DPR-WG 中先算出一個更新因子,更新因子與對應邊上的權重相乘或者相加等進行更新。后續實驗中發現其實更新方法對結果影響不大,在藥品圖表征過程中,我們設計了基于帶權圖的表示藥品的方法。總結來說,我們首先設計了一個針對帶權圖的信息更新過程:聚合鄰居信息,在聚合的過程中,根據邊的權重,個性化調整它聚合程度。隨后我們使用了一個 Self Attention 機制把不同節點之間的權重計算,使用一個聚合 MLP 把圖聚合起來得到最終整個藥品圖的表征。后續把病人表征與藥品圖表征輸入到打分函數里面去,可以得到輸出進行推薦。此外,本文使用 BPRLoss 訓練模型,引入負采樣方法,對應 1 個正樣本有 10 個負樣本。

第二個變種是使用屬性圖表示藥品圖。首先是通過一個 MLP 融合邊兩端的節點向量初始化邊向量。隨后同樣使用掩碼向量對邊向量進行更新,此時更新方法就不再是更新因子,而是計算一個更新向量,使用更新向量與藥品的邊向量進行逐元素相乘,得到更新后的邊屬性向量。我們專門設計了針對屬性圖的 GNN,其 message passsing 過程首先是根據邊向量及兩端的節點 Embedding計算出message進行傳播,通過self attention及聚合方法得到Graph Embedding。同樣我們可以采用 BPRLoss 進行訓練,不同的是我們額外引進了一個針對邊分類的交叉熵損失函數,希望邊向量可以包含藥品相互作用的類別信息。因為上一個變種中初始化的正負號天然的保留了此信息,但此變種的圖沒有,因此通過引入損失函數來把此信息補上。

從實驗結果來看,我們的兩個模型均在不同的評價指標上超出了其他判別式模型。同時我們也進行了案例分析:采用 t-SNE 方法,把之前提到的掩碼向量投影到一個二維的空間上。圖中所示,比如孕婦、嬰兒以及肝臟病人等,他們使用的藥物有非常明顯的聚集成簇的趨勢,證明了我們方法的有效性。03

生成式藥品包推薦以上判別式模型只能在已有藥品包中進行挑選,沒有生成新的藥品包能力,會影響推薦效果,接下來我們將會介紹發表在 TOIS 期刊上的針對上一篇工作的擴展工作,目的是希望模型能夠生成全新的為新病人量身定做藥品包。此工作是保留了上一篇論文中圖表示學習的核心思想,同時完全改變問題定義,把模型定義成生成模型,引入序列生成與強化學習技術,大幅的提高了推薦效果。

1. 判別式推薦->生成式推薦

判別式模型與生成式模型的核心區別是判別式模型是給定病人與給定藥品包的匹配程度打分,而生成式模型是為病人生成候選藥品包并挑選最佳藥品包。

2. 啟發式生成方法

針對上文中提出的判別式模型的缺點,我們設計了一些啟發式生成方法:通過在相似病人的藥品包中進行增加和刪除部分藥品的操作,形成一些歷史記錄中從來沒有出現過的藥品包供模型挑選。實驗結果證明這種簡單的方法十分有效,為后續方法提供了基礎。

3. 模型概覽

接下來是發表在 TOIS 的 Interaction-aware Drug Package Recommendation via Policy Gradient 文章。文中提出的模型叫做 DPG,不同于上一篇的 DPR,這里的 G 是 Generation。此模型主要包含三個部分,分別是藥品相互作用圖上的信息傳播,病人的表征以及藥品包生成模塊,與上文的最大的區別是藥品包生成模塊。

藥品相互作用圖

首先構建藥品相互作用圖部分,文中保留了圖神經網絡捕捉藥品間相互作用的方法,不同的是判別式模型中,藥品包是給定的,可以方便的轉化為藥品圖,而在生成式模型中,藥品圖是不固定的,由于計算量原因,無法把所有的藥品包都構建成圖。本文把所有的藥品全部包含在了一個藥品相互作用圖中,同樣采用 Attributed graph 進行圖形式化,同時也保留了邊分類損失函數,保留邊的 Embedding 信息,最后也構建了基于此藥品相互作用圖上的 GNN。經過幾輪(一般為2)的 message passing 后,我們提取其中節點 Embedding 作為要使用的藥品 Embedding。

病人表征

 病人表征部分,同樣采用了 MLP 和 LSTM 提取病人的表征向量,同時也會計算掩碼向量,后續用于捕捉病人個性化表示向量。

  • 基于序列生成的藥品包生成

藥品包生成任務可以視為一個序列生成任務,采用循環神經網絡 RNN 實現。但此方法也帶來了兩大挑戰: 第一個挑戰是在生成過程中如何考慮生成出的藥品和已有的藥品之間的相互作用。為此我們提出了一種基于藥品相互作用向量的方法顯式建模藥品之間的相互作用。第二個挑戰是樣品包是一個集合,本質是無序的,但是序列生成任務往往針對有序序列順序的方法。為此我們提出了一種基于策略梯度的強化學習方法,同時增加了基于SCST的方法來提升此算法的效果和穩定性。

  • 基于極大似然的藥品包生成

首先介紹如何在基于極大自然的藥品包生成過程中考慮藥品間的相互作用,此部分也是后面用強化學習部分的基礎。基于極大似然的序列生成方法在 NLP 領域已經得到了廣泛使用,在生成過程中,每生成一個藥品都依賴于之前生成的其他藥品。 為了考慮到藥品間的相互作用,同時又不為模型帶來過大的計算負擔,我們提出在每一個時間步,顯式計算最新生成的藥品與之前藥品的相互作用向量,此向量計算方法來自于之前圖神經網絡里的一個層。同時我們增加掩碼向量與相互作用向量進行對應元素相乘,引入患者的個性化信息。最后把所有藥品的相互作用向量求和,使用 MLP 將其融合得到綜合的相互作用向量。后續把此向量融入經典的序列模型中進行生成,則是解決了第一個挑戰。

與經典的序列生成不同的是藥品包其實是一個集合,不應該出現重復藥品,因此我們后續增加了一個限制,讓模型不能生成已經生成過的這個藥品,保證生成結果一定是一個集合。最后我們采用了基于極大似然的 MLE 損失函數訓練模型。

  • 基于強化學習的藥品包生成

以上基于最大似然的方法最大的缺點是藥品包具有嚴格順序,部分人工為藥品指定順序的方法,如根據頻率排序,根據首字母排序等等,會破壞藥品包集合的特性,同時也會損失掉部分模型的 performance,因此我們提出了基于強化學習的藥品包生成模型。強化學習中模型的目標是最大化人工設置的 reward 函數,在模型生成完整的藥品包之后,給一個和順序無關的 reward 損失函數,則可以減弱模型對順序的依賴性。本文采用的是 F-value 作為 reward,它是一個順序無關的函數,同時是我們所關注的評價指標。本文采用 F-value 作為評價指標,在訓練方式上采用了基于策略梯度的訓練方式,在此就不進行詳細推導。

基于策略梯度的訓練方法中,其重一個廣為人知的方法是使用一個 baseline 減少梯度估計的方差,從而增加訓練的穩定性。因此我們使用了基于 SCST 的訓練方式,即 Self-critical sequence training 方法。baseline 同樣來自于模型自身生成的這個藥品包所獲得的 reward,自己生成的方式我設計為 Greedy search 的正常序列生成方法。我們希望模型根據 Policy gradient 采樣出來的藥品包的 reward 要高于傳統給予 Greedy search 生成出來藥品包。基于此本文設計了強化學習的損失函數,如圖中所示,這里就不詳細的介紹推導過程。

  • 極大似然預訓練+強化學習

此外,強化學習的一個特性是訓練較難,因此我們結合了以上兩種訓練方式,首先采用極大自然的估計方法對模型進行預訓練,隨后采用強化學習的方法,對模型參數進行微調。

  • 實驗結果

接下來是模型的實驗結果。

在上表中,所有的藥品包都是用 Greedy search 生成的。首先基于生成式模型的表現普遍優于基于判別式模型方法,該實驗證明了生成式模型將會是一個更加優秀的選擇。此模型在 F value 上超越了其他所有的 Baseline。此外,基于強化學習的模型表現大大超越了基于極大似然模型,證明了強化學習方法的有效性。

后續我們還進行了一系列的消融實驗。我們分別去掉了相互作用圖,包括相互作用的掩碼向量以及強化學習的模塊進行消融,結果證明我們的各個模塊都是有效的。同時可以看到,把 SCST 模塊去掉,模型效果下降非常多,因此也證明了強化學習確實比較難訓練。如果不加 Baseline 限制,整個訓練過程會非常抖動。

最后我們也做了大量的案例分析,可以看到孕婦和嬰兒有明顯的個性化偏好。同時我們額外加了一些常見病如胃病、心臟病等,這些病的掩碼向量則分布非常分散,沒有形成簇。常見病的患者情況多種多樣,不會有特別個性化的情況出現,不像孕婦和嬰兒有著非常明顯的對于藥品的篩選,如某些需要指定小兒藥品,有些藥品孕婦不能使用等。同時我們對藥品的相互作用向量進行了投影,可以看到協同作用和拮抗作用兩種藥品相互作用形成了兩個不同的對立情況,說明模型捕捉到了兩種不同相互作用帶來的不同效果。

04

總結與展望總結來說,我們的研究主要是相互作用感知的個性化藥品包推薦,包括判別式的藥品包推薦以及生成式的藥品包推薦。兩者共同點是都使用了圖表示學習技術來建模藥品間的相互作用、都使用了掩碼向量考慮病人病情對于相互作用的個性化的感知。兩項工作最大的區別是問題定義差別,對于判別模型我們要的是一個打分函數,那么對于生成模型我們要的是一個生成器,通過實驗證明,生成式模型其實是對于問題更好的一個定義。

|分享嘉賓|

鄭值

中科大 博士研究生

本科及碩士就讀于中科大計算機學院,博士就讀于中科大大數據學院。以第一作者身份發表CCF A類會議及期刊論文4篇,CCF中文A類期刊論文1篇。曾獲得元慶獎學金、華為獎學金、深交所獎學金等獎項,并入選騰訊犀牛鳥精英科研人才計劃。主要研究方向為推薦系統。

付費5元查看完整內容

分享嘉賓:朱杰明 華為諾亞方舟實驗室編輯整理:張奧宇 AWS出品平臺:DataFunTalk **導讀:**經過多年的技術進步,推薦系統場景已經從最開始的協同過濾,發展到了現在的深度學習為核心的階段。隨著深度學習模型的體量逐漸變大后,其優化的難度也在增大,特別在推理性能上的限制下,最后模型的效果提升受到了很大的局限性,很少能產生質的飛躍。對于這類問題,今天會和大家討論怎么借助預訓練模型的方法來跨過深水區,輔助推薦系統進一步大幅提高性能。 今天的介紹會圍繞下面五點展開:

  • 華為諾亞方舟實驗室
  • 信息流推薦場景
  • 推薦技術的發展
  • 預訓練模型在信息流推薦的應用
  • 展望

01 華為諾亞方舟實驗室

華為諾亞方舟實驗室包含計算視覺,語音語義,推薦搜索,決策推理,AI技術理論和AI系統工程六個子實驗室。實驗室的定位一方面是面向AI的技術研究,另一方面是面向產品的技術賦能,技術服務于產品。同時,實驗室在全球建立廣泛合作,目前已經涵蓋到10多個國家,并與25所大學建立了聯合實驗室以及合作項目。

具體到推薦團隊,我們有很多研究課題。在學術成果方面,我們團隊已經在KDD/SIGIR等頂級會議上發表超過50篇論文,其中比較有代表性的DeepFM,已經有超過1000的引用量。在此基礎上,我們持續對華為多個實際的應用業務進行技術支持,包括應用市場、游戲中心、信息流、廣告、音樂等場景。

02

信息流推薦場景

華為的多模態信息流推薦主要包含以下幾個場景:華為手機的負一屏圖文新聞推薦,華為瀏覽器的圖文和短視頻瀑布流,華為視頻APP里面的電影/電視劇推薦。大家可以看到,相對于傳統的推薦,現在的應用場景越來越向多模態、多元化的技術路線發展。如何構建一個面向多模態的推薦,是當下的一個難點,也是一個轉折點。

03 推薦技術的發展

首先回顧一下推薦技術的發展。在2000年左右,我們使用最多的技術是協同過濾。迄今為止,矩陣分解或者基于物品的協同過濾,依然是業界廣泛使用的算法之一,因為不僅簡單,而且效果往往很顯著。 從2010年開始,隨著廣義線性模型的提出,很多模型,比如采用了FTRL算法和線性更新的邏輯回歸,因子分解或者FM等被提出以及應用。這類方法比傳統的協同過濾模型,在性能和效果上有所提升。在排序領域,像BPR,RankSVM等算法也獲得了很好的效果。這里面效果的提升主要來源于大規模的訓練數據以及很高效的訓練迭代機制,比如實時更新。 從2015年開始,深度學習模型受到更多的關注。比如google提出的YoutubeDNN從發表開始就受到了業界各方面的關注,也得到了廣泛的應用。還有后來的Wide&Deep架構也受到了很大關注。我們在此基礎上提出了DeepFM。與此同時,這個階段也有阿里的DIN等代表性工作出來。 深度學習模型的成功主要取決于GPU算力的飛躍,進而為各個推薦系統的業務場景帶來了效果的提升。但是隨著模型體量的增大,我們發現優化的難度也在提升,比如為了保證線上推理性能的要求,上線的模型很難帶來質的提升。我們一直在思考什么是推薦技術的下一個突破性方向。從18年的BERT模型提出開始,在NLP領域已經建立了預訓練+微調的新范式。同時,在CV領域,也已經開始大規模的進行大規模預訓練模型的研究。我們希望借鑒相同的經驗,通過預訓練模型來輔助推薦系統進行進一步的性能提升。

04 預訓練模型在信息流推薦中的應用

在本次分享中,希望從信息流推薦場景出發,介紹兩部分技術,一部分是新聞場景下的預訓練和排序建模,另一部分就是用戶視角下的新聞界面表征建模。 從圖中可以看出,給定一條新聞內容,現有技術已經能夠從文本等相關內容里挖掘出包括類別標簽,關鍵詞和實體詞等。我們往往并不關心這些具體類別或者標簽的含義是什么,而是直接當成一種ID進行向量嵌入加到模型中。這并沒有幫助模型去進行語義理解,比如圖中標簽Tag里面的“養生”,我們并沒有建模文本語義。 另一方面,如果只是從文本模態去挖掘的話,很難捕捉到完整的用戶行為。當看到新聞界面的時候,用戶的第一感覺是什么?這就促使我們去思考如何從用戶視角下去捕捉新聞界面的多模態信息,包括圖片是否清晰,排版的類型,配大圖還是三張小圖這些都會對用戶的直觀感覺產生影響。

1. 新聞場景下的BERT預訓練和排序建模

我們首先理解一下基于文本內容的新聞推薦模型。就目前業界的研究來看,微軟亞洲研究院做的工作比較多,主要是分為以下幾個方面。 第一個是Topic Modeling。隨著LDA模型的提出,Topic Modeling在文本內容建模以及基于內容的推薦中得到了廣泛的應用。但是LDA是一個無監督學習方法,很多時候它的效果取決于語料的選擇,而且LDA得到的embedding與下游任務并不是百分之百匹配,就只能部分地去解決語義理解的問題。 隨著深度模型的提出,更多的模型開始采取像Word2Vec或者Glove的word embedding的方式來對詞的語義進行建模,但更多時候是以一種token初始化或者相似度來建模并融入到模型中。從2020年開始,很多團隊開始嘗試將BERT應用到新聞推薦的任務中,比如微軟、我們團隊。 圖中展示了四個微軟的前期工作,比如NPA,這是利用TextCNN來建立token之間的相關關系和文本語義表征,然后利用attention的方法來得到用戶的興趣表征。有了用戶的興趣表征和新聞的語義表征,就可以進行語義匹配任務。類似的方法包括NAML和NRMS,分表利用Multi-view和Multi-head技術進行建模。除了這些基于向量表征的方式,也有基于token級別的匹配關系建模的方法,比如FIM,該模型計算的就是文本token與token之間的相似度。但總的來說這些方法比較依賴下游任務的訓練,并沒有充分利用到NLP領域的語言知識。

如何充分利用pretrain + finetune的方式來提高新聞推薦的效果,這是我們的思考點。 基于此,我們提出了UNBERT,通過預訓練的新聞文本表征來優化推薦模型本身。 這個模型的輸入就是將用戶的閱讀的歷史新聞和曝光的新聞進行拼接,當成一個整體的句子進行輸入。句子與句子之間用不同的分隔符以及segment id進行表征,并借此來判斷是歷史閱讀的新聞還是曝光新聞。由于BERT是對token與token之間的關系進行建模,我們通過CLS token這種結構對新聞token level的匹配信息進行建模。比如不同新聞之間token級別的相似性可以在這一層表現出來。但是BERT本身不具備句子表征的優勢,我們的做法就是按照segment id對不同新聞進行pooling得到新聞向量,然后再經過相應的transformer來對新聞之間的相似性建模,這樣做的好處能夠判斷曝光新聞更歷史閱讀新聞之間句子級別的相似性度。最后進行兩層的融合輸出預測分數。 訓練任務就是通過使用點擊日志數據參考CTR任務來進行二分類訓練。這里我們遇到的難題就是如何優化BERT來保證效率。

首先我們看一下模型的效果。 這種簡單的借鑒NLP的pretrain + finetune的方式帶來了離線效果的顯著提升。相較于前面提到的基于transformer的NRMS和attention的NAML都有很大的性能提升。 我們認為這種效果提升并不是transformer結構本身,而是利用了BERT預訓練模型中包含的大量通用語言知識。這種知識是從領域外的大量訓練語料帶來的,并且是傳統新聞推薦無法做到的。除此之外,我們再對比不同的模型在時間維度(天)的一個表現,這個柱狀圖是按照每天產生的新新聞加入到評估中,可以看出來UNBERT的表現相對更加穩定,而其他基于ID類的方法都會下跌比較厲害,也就是說這種基于BERT的新聞推薦模型在冷啟動方面有更好的泛化能力。

我們在微軟的MIND新聞數據集上進行了比較長時間的嘗試。 最開始的UNBERT方案現在排名第六,并且經過改進的MINER方案現在排名第二。兩個方案都是采取比較一致的結構,基于BERT結構然后加上CTR數據進行finetune得到。并且可以看到,排名靠前的方案都是基于BERT結構做的。

更重要的改進是如何將基于BERT的方案優化到能夠進行線上服務的程度,這個工作量遠比離線實驗大。 首先,BERT的計算量非常龐大,很難適應線上的業務需求。為了達到該需求,我們進行了很多嘗試。第一個就是直接對模型的參數和層數進行裁剪,并進行了一定對比,另外也驗證了模型知識蒸餾方案的效果。可以看到,將BERT-Base的層數縮減為四層左右得到的BERT-mini,所降低的點數不是很多。但相對于原始的模型的話,還是能帶來一些增益。 另外采用知識蒸餾的結構的話,會將原始模型蒸餾到像MLP這種DNN結構,也能帶來一些增益。但是最后我們沒有采取這種方式,因為蒸餾方法雖然能夠帶來推理效率的大幅提升,可訓練時長卻是普通方案的兩倍。最后我們還是采取了小型BERT的方案。

為了落地,我們采取了如下的一些優化方式。 首先就是模型的兼容,我們本來設想取代現有的CTR模型。但是當前上線的模型已經過多年的優化,有很多不可替代的統計類特征,還有ID類特征。直接用基于文本的BERT模型的話,效果上還存在一定差距。所以我們思考如何利用模型的優勢來提升現有線上方案的效果,最后決定采用DCN結構的方式來兼容這種ID類模型。UNBERT是基于token與token level的匹配,以及news與news level的匹配,所以很難做到離線的緩存。為了做到這一點,我們在上線過程中把每個新聞的表征給解耦了。在進行了分離并訓練之后,我們能夠得到每個新聞的表征,并將這些向量緩存到cache里面。在實時推理的時候,我們只需要從cache中取得當前新聞的表征就能進行推理。

第二點,如果原始模型直接拿來用,是維度為768的embedding,這對于下游任務來說,這個維度太高了,而且我們的新聞量可能是百萬或上億級別,這樣不僅內存消耗高,運算也會很慢。我們嘗試過通過PCA的方式進行降維,但是線上效果并不理想。因為對于BERT來講,finetune是非常重要的,所以我們在模型上加上全連接層降維,然后進行finetune,得到50維的向量來表示一個新聞。

第三點,我們非常關注訓練和推理的效率,因為如果不使用業務數據進行finetune,上線效果表現有限,我們還是希望能夠做到每天更新一次。不同于NLP和CV領域,推薦系統不僅強調推理階段的輕量化,也要保證數據的實時性和模型的更新效率。

如何在訓練階段保證效率呢?我們首先采用諾亞提出的4層TinyBert作為預訓練模型。另外,在數據方面,MIND數據集只有幾千萬的數據,基本一天以內就能處理得非常好。但是在實際業務中,我們經常遇到上億甚至是十億級別的新聞交互數據。如果要完全過一遍數據的話,往往需要幾天時間,是不可能做到以天為單位進行更新的。為了達到天更的目的,我們對數據進行了一定的篩選,一些長尾用戶,比如點擊歷史太短或者缺失就被過濾掉,這樣就能降低數據量,保留更多擁有歷史點擊序列和曝光序列的序列對。通過這些序列對,我們能夠做到天更。我們最后在公開數據集和業務數據集上都驗證了這個方案。

之前的純BERT模型,能夠在榜單上取得很好的成績,能否讓傳統模型比如DeepFM/DCN也得到提升呢?我們最后經過驗證發現,只要是經過finetune之后,這種傳統的模型也能帶來AUC百分位的提升。在正式上線并經過一段時間測試后,CTR有2.3%的平均提升。但是目前我們的挖掘還不充分,當前版本只用了新聞的標題。后續我們還計劃把整個文章內容都進行進一步的優化。但是如果想對整個文本進行建模,我們可能需要對效率進行更多的考量,因為文章本身的token更多,難度會更大。

2. 用戶視角下的新聞界面表征建模

我們的第二個工作是在MM2021上發表的工作。現有新聞推薦模型都是從資料庫取出新聞,它可能包括文本、圖片,但是沒有展示在界面的信息。如果我們的模型能夠捕捉到用戶視角下的界面信息,比如把閱讀一張圖片的不同排版信息捕捉下來,可能是大圖,三張小圖或者是單小圖。當前視覺模型是做不到這一點的。

如何來捕捉這種信息呢?

我們設計了這樣的模型。用戶觀看的第一印象往往決定了是否產生點擊行為,我們稱這個為視覺印象。直觀理解就是圖片或是標題里的關鍵詞是不是吸引人?給用戶留下了怎樣的印象?我們把整個新聞界面劃分為多個卡片,每個卡片包含幾個子領域,包括圖片、類別、標題等。以圖中的展示界面為例,一張卡片包含圖片、類別和標題的局部印象,同時整體卡片也能獲取一個全局的表征,我們稱為全局印象。這樣包含了展示方式的建模其實就是我們希望獲取的在用戶視角下的展示界面的多模態信息。

整個方案的設計和實現是比較直觀的,在用戶在發起請求之后,我們希望不僅能夠獲得新聞相關行為信息,也能夠獲得新聞在界面上的展示形態,比如具體是呈現哪一種視覺表達形式。根據這個表征形式,我們能夠更好的建模整個新聞內容,進而返回更加精確的推薦結果給用戶。

相對于傳統新聞推薦,我們加入了一個界面表征模塊,這個模塊包含了局部印象和全局印象。 局部印象模塊會把整個卡片按照固定的大小切成很多patch,然后采用預訓練的ResNet或CLIP獲取向量表征。接著進行索引計算,并對標題文本進行雙映射,也就是文本的token和patch之間進行一個相關性的計算。我們通過第一層的attention計算來對圖片和文本的相關性進行計算。然后我們也會對token之間和patch之間的相關性進行計算,最終產生豐富的多模態表達。最后的輸出其實是卡片圖片的一個表征,不同之處在于,它的建模方式是條件式的,也就是說當給我們對應的文本,我們的整個卡片圖片表征應該是什么樣的?如果我們的patch分得足夠細,就能夠捕捉到大圖或者小圖,字體風格或者文字排版等關鍵信息,它的建模方式會更加豐富。

另外,我們也會把卡片當成一張整體的圖進行全局的建模,比如采取ResNet或者CLIP。最后,把全局表征和局部表征進行融合,作為新聞的一個向量特征輸入到CTR模型中。由于這個模型采用了大概三層的attention結構,這會帶來比較高復雜度。通常情況下,引入多模態信息的話,模型的復雜度會大于普通模型,所以與Bert模型的使用相同,我們采取離線計算卡片向量并緩存的方式。

我們來看一下結果,也是在MIND的數據集上,我們通過模擬的方式生成界面卡片信息,然后對應到不同的新聞上面,最后再對比現有的模型,我們發現多模態信息能夠帶來較大的提升,AUC的提升能夠到百分位點。同時,我們也對比了基于界面的新聞和不帶圖片的新聞,可以發現,當引入新聞界面信息是能夠帶來性能提升。比如NRMS的提升能夠達到兩個百分點,也就是說圖片本身對于用戶點擊的提升效果還是很明顯的。

從圖中可以看出,想較與基線模型NRMS和FIM,我們方案取得了較大的指標提升。這里面就包括界面卡片的表征、歷史閱讀新聞卡片的表征。那么問題的關鍵就是如何把模型真正應用到業務系統里面去。但是在實際落地中,我們遇到了很多挑戰。

第一點是是數據問題。由于圖片本身存儲是比較大的,現在只有大概近一個月的數據,這就造成我們在對用戶進行建模的時候,較長的歷史行為無法拿到對應的圖片,也就沒法生成界面,這造成我們的覆蓋率不夠高。

**第二點是是工程上的問題。**如果要實時訓練和推理的話,我們需要用戶界面的圖片進行建模和表征,這就需要定制化一些方法對界面展示進行模擬和回放。這些工程化內容還在進行當中。對于線上推理環節來說,由于我們已經上線了基于文本的向量表征模型,我們需要思考如何與先有的模型進行疊加,而不是分開建模。因為分開建模代價很高,需要緩存兩份embedding,而且線上推理的時候,由于embedding數量越來越多,也會影響推理的速度。所以我們考慮如何通過文本和圖片聯合給出多模態表征。目前,我們還沒有完全上線模型,但是我們也做了一些工程化的優化,并有了一定結果。總體來講,我們發現,對于新聞、短視頻等信息流推薦,多模態的表征能夠很好得提升推薦的效果。

05 展望

我們對于下一階段的工作還有很多展望。

第一方面是如何高效地預訓練模型并且微調。現有的研究工作都是強調極簡計算或模型量化,目的是在手機端運行一個小模型。但是并不在意模型的更新效率。那么在推薦領域,我們需要做到快速更新模型,而實時數據推薦領域的數據量又非常大。之前我們的方案都是按照序列數據進行finetune,因為每個用戶都有各自的序列,這就造成數據量很大。所以我們思考可不可以從數據pair的結構上進行數據縮減。不同的用戶,可能它閱讀過的的item pair是一致的,這樣我們可能進行合并和優化計算。另外,微軟也公布了一種SpeedyFeed的方法,我們目前在業務數據上進行了一定初步嘗試,效率提升在2-3倍左右。但如果要進行全量數據更新的話,SpeedyFeed也還是無法做到天更,還需要結合對數據進行一定篩選。

第二方面就是如何只對pretrained embeddings進行微調。如果我們同時考慮多種模態、文本、視覺、音頻等,那么我們的模型就會越來越多。很有可能我們做不到對多個大模型同時finetune,所以我們考慮能不能直接在embedding上進行finetune。但是現在這種在embedding上直接加多層MLP,效果并不好。這是未來的一個研究點。另外一點就是文本BERT表征和圖片視覺表征如何進一步融合并兼容到現有的推薦結構里面來得到提升。現在所做的嘗試包括pretrained embedding作為初始化,向量表征或者通過相似性計算來改進現有模型,比如DCN或者DIN結構。我們線上方案采用向量初始化方案,因為它對推理接口的改動很小。如果我們有不同模態的向量,就不能簡單使用初始化的方法,因為初始化只能用一種向量。如何在下游任務上利用多種embedding,也是可以探索的點。另外,對于融入了視覺卡片的應用,在推理階段,我們只是做到了單新聞的評估,并不可能知道用戶當前上下文展示的是什么新聞。在完成排序之前,我們是不知道這個信息的,而一旦排序之后,我們就可以獲取到這個信息,所以在訓練階段,這個信息是可以獲取的。如何在訓練階段利用這種上下文信息來更好捕捉用戶的視覺偏好,也是我們可以探索的點。

分享嘉賓:

付費5元查看完整內容
北京阿比特科技有限公司