亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘 要 隨著大語言模型技術的快速發展,其在網絡空間認知域作戰中的應用展現出巨大潛力。基于大語言模型的發展歷程和獨 特優勢,聚焦于網絡空間認知戰領域,從態勢感知、態勢認知、鑒定識別和信息作戰4個方面梳理了大語言模型關鍵技術路線,并 詳細分析了將其應用在網絡空間認知戰中的具體方案及未來挑戰,為我國在該新興領域取得新質戰斗力提供理論和技術支持。 關鍵詞 大語言模型,網絡空間,認知戰,技術與挑戰 《孫子兵法》云:“不戰而屈人之兵”,從作戰效率 和作戰效果而言,這是一種費效比極佳、“善之善 者”的作戰方案。在現代戰爭中,網絡空間認知域作 戰構成了一個多維度戰略框架,通過融合物理領域 的行動、信息領域的利用和認知領域的防御與攻擊, 旨在在網絡空間奪取敵人的意志、信念、心理和思 維主導權。網絡空間認知域作戰方式融合了傳統的 輿論戰、心理戰、法律戰,以及政治戰、經濟戰、文 化戰等多種戰術手段,形成了一個綜合性的作戰體 系,具有“全天候、不宣而戰”的特點,極大程度上助 力實現“不戰而勝”的戰略目標,對我軍新型戰斗力 的塑造起到了關鍵作用。 網絡空間的認知戰是利用先進的網絡信息技術 和傳播媒介,在現實物理戰場之外構建的思想認識、 公共輿論和意識形態的斗爭領域。這種戰斗形式通 過主導和影響公眾的情感認同和認知,爭取主導權 和話語權,目的是引導事件的發展至有利于本國利 益的方向。在網絡空間認知戰中,一方面充分利用 算法和數字智能的優勢,以實現對公眾認知的操縱; 另一方面,基于分布式協同控制技術進行智能技術 賦能,通過網絡實現作戰資源的協調、戰場態勢的 感知和上下級指令共享,進而達成分布式的智能化 作戰,實現自主決策和協同行動。各個國家對于未 來戰爭作戰力量的部署都向著動態/分布式作戰體系 發展[1] 。在認知戰領域,隨著大語言模型(large lan? guage models,LLMs)的進步,特別是通過內容創建和 虛假信息活動執行過程的自動化,可以實現在態勢 感知和態勢認知的基礎上,由識別虛假信息和生成 虛假信息兩方面協同控制戰場局勢,實現分布式體 系部署,為網絡空間認知戰的發展提供了更多的可能性,使整個網絡空間認知戰的作戰方式更加靈活。 LLMs基于機器學習技術,借助其強大的生成能 力和理解能力,能夠被用來為認知層面的攻擊提供 支持[2] ,也使得生成面向特定語境的高復雜度的信息 成為可能。這些信息能夠更深刻地觸動目標群體, 同時使得影響活動更不易被察覺和消除。不僅為更 多不同類型的行為者發起虛假信息宣傳活動打開了 大門,也為覆蓋大量受眾的高度可擴展的宣傳活動 創造了潛力。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

摘要 大模型驅動的具身智能是涵蓋人工智能、機器人學和認知科學的交叉領域, 重點研究如何將 大模型的感知、推理和邏輯思維能力與具身智能相結合, 提升現有模仿學習、強化學習、模型預測控 制等具身智能框架的數據效率和泛化能力. 近年來, 隨著大模型能力的不斷提升, 以及具身智能中示 教數據、仿真平臺、任務集合的不斷完善, 大模型和具身智能的結合將成為人工智能的下一個浪潮, 有望成為人工智能邁向實體機器人的重要突破口. 本文圍繞大模型驅動的具身智能這一研究領域, 從 3 個方面進行了系統的調研、分析和展望. 首先, 回顧了大模型和具身智能的相關技術背景, 以及具身 智能現有的學習框架. 其次, 按照大模型賦能具身智能的方式, 將現有研究分為大模型驅動的環境感 知、大模型驅動的任務規劃、大模型驅動的基礎策略、大模型驅動的獎勵函數、大模型驅動的數據生 成等 5 類范式. 最后, 總結了大模型驅動的具身智能中存在的挑戰, 對可行的技術路線進行展望, 為相 關研究人員提供參考, 進一步推動國家人工智能發展戰略. 關鍵詞 具身智能, 大模型, 環境感知, 任務規劃, 基礎策略

1 引言 具身智能 (embodied AI) 是人工智能、機器人學、認知科學的交叉領域, 主要研究如何使機器人 具備類似人類的感知、規劃、決策和行為能力[1] . 具身智能可以追溯到 20 世紀 50 年代, 艾倫 · 圖靈首 次提出具身智能的概念, 探索如何使機器感知和理解世界, 并作出相應的決策和行動 [2, 3] . 隨后在 80 年代對符號主義的反思中, 以羅德尼 · 布魯克斯為代表的研究者逐漸認識到, 智能不應該只在對數據 的被動學習中得到, 而應該通過與環境進行主動交互中獲取, 應當重點研究如何讓機器人主動適應環 境 [4] . 近年來, 在高性能算力平臺和大規模標注數據的支持下, 深度學習方法通過挖掘數據模式, 在圖像識別、語言處理、圍棋、蛋白質結構預測等任務中取得了一系列突破性的進展. 然而, 這些非具身智 能體缺乏與環境交互學習的經驗, 無法直接驅動機器人實體完成特定任務. 相比較而言, 具身智能強 調感知 - 運動回路 (perception-action loop), 使用物理實體來感知和建模環境, 根據任務目標和實體能 力進行規劃和決策, 最后使用實體的運動能力來完成任務. 具身實體對任務的完成結果將作為反饋進 一步優化智能體的策略, 從而使智能體的行為能夠適應變化的環境, 這一過程與人類的學習和認知過 程有很高的相似性. 具身智能在研究中更多體現智能的理念, 在具身實體中融合了視覺、語言、決策 等多方面的技術來提升智能體的通用型和泛化性 [5] . 近年來, 以 ChatGPT 為帶代表的大語言模型 (large language model, LLM) [6] 技術取得了突破性 的進展, 通過在大規模網絡對話數據中進行學習, ChatGPT 能夠實現包括自動問答、文本分類、自動文 摘、機器翻譯、聊天對話等各種自然語言理解和自然語言生成任務, 同時具備在少樣本和零樣本場景 下達到了傳統監督學習方法的性能, 并具有較強的泛化能力 [7] . 通過先進的思維鏈 (chain-of-thought, CoT) [8] 等提示技術, 大語言模型的邏輯推理能力獲得了大幅提升, 從而有望解決復雜具身智能場景 中的任務分解和推理問題. 視覺基礎模型 (visual foundation model, VFM) [9] 通過自監督的學習目標 可以獲得強大的視覺編碼器, 能夠解決如圖像分類、語義分割、場景理解等視覺感知任務. 在具身智 能任務中, 強大的視覺編碼器能夠對視覺傳感器獲得的周圍環境信息進行分析和理解, 從而幫助智能 體進行決策. 在此基礎上, 視覺 - 語言模型 (visual-language model, VLM) [10] 通過引入預訓練視覺編 碼器和視覺 - 語言模態融合模塊, 使得大語言模型能夠獲取視覺輸入, 同時根據語言提示進行視覺問 答. 在具身智能中, 引入視覺 - 語言模型能夠使智能體根據任務語言指令和環境的視覺觀測進行推理 和決策, 從而提升智能體對環境的感知和理解能力. 多模態大模型 (large multimodal model) [11, 12] 通 過引入視頻、音頻、肢體語言、面部表情和生理信號等更多模態, 可以分析更豐富的傳感器輸入并進 行信息融合, 同時結合具身智能體中特有的機器人狀態、關節動作等模態信息, 幫助解決更復雜的具 身智能任務. 大模型通過充分利用大規模數據集中學習到的知識, 結合特定的具身智能場景和任務描 述, 為智能體提供環境感知和任務規劃的能力. 圖 1 列舉了近年來大模型驅動的具身智能領域的代表 性成果. 在賦能感知和規劃之外, 大模型能夠和具身智能的經典框架結合, 提升策略的泛化能力和對環境的 適應能力. 具身智能的傳統框架主要包括模仿學習 (imitation learning, IL)[13] 、強化學習 (reinforcement learning, RL) [14] 、模型預測控制 (model-predictive control, MPC) [15] 等. 具體地, 模仿學習遵循監 督學習的范式, 通過直接從專家軌跡數據中學習策略, 但往往受限于專家數據的規模和協變量偏移 (covariate shift) 問題而容易產生較高的泛化誤差; 強化學習通過在環境交互中試錯來獲得樣本, 通過最大化獎勵來獲得策略和值函數, 但在機器人任務中受限于復雜的獎勵設計和長時間的環境交互; 模 型預測控制通過使用環境模型產生對未來策略執行情況的預測, 結合策略搜索方法獲得當前最優的動 作, 但依賴于對環境的先驗知識和環境模型的泛化能力. 近年來, 許多研究嘗試了大模型技術與上述 框架的結合, 從而克服現有框架面臨的問題 [16] . 具體地, 在模仿學習中, 大語言模型和視覺語言模型 能夠作為基礎策略使智能體利用大模型對環境的理解和泛化能力, 同時, 大模型對任務的分解能夠產 生的任務短期目標來降低模仿學習的難度 [17] ; 在強化學習中, 大模型能夠根據對任務和場景的理解產 生合適獎勵函數來引導強化學習中價值函數和策略函數的學習, 同時強化學習能夠作為大模型的基礎 策略和人類偏好對齊的工具, 引導策略的輸出符合人類偏好 [18] ; 在模型預測控制的框架下, 大模型能 夠利用從大量訓練數據中獲取的對物理世界的理解構建環境模型, 進而使智能體能夠使用環境模型進 行交互和策略搜索 [19] . 此外, 視覺生成模型和語言生成模型可以根據任務需求生成機器人交互環境 供強化學習算法進行交互, 或生成交互數據來擴充特定任務下的專家樣本, 用于緩解真實機器人任務 中普遍存在的數據稀缺問題 [20] . 本文圍繞大模型驅動的具身智能, 首先介紹相關技術背景, 包括具身智能的基本概念, 大模型相 關技術, 以及強化學習、模仿學習、模型預測控制等策略學習框架. 隨后, 從學習范式的角度, 將大模 型驅動的具身智能算法進行分類, 主要包括大模型驅動的環境感知、任務規劃、基礎策略、獎勵函數 和數據生成等 5 個方面. 其中, (1) 大模型驅動的環境感知從冗余的多傳感器觀測中進行特征抽取和 信息融合, 能夠提取對策略學習有用的信息, 從而使具身智能學習框架普遍受益; (2) 大模型對宏觀任 務的規劃使用大模型的邏輯推理能力對復雜任務進行分解, 允許使用靈活的底層學習框架對分解后的 任務進行策略學習; (3) 大模型驅動的基礎策略可以與模仿學習框架進行結合并作為模型學習的初始 策略, 在使用少量機器人的任務數據微調后, 大模型能夠將通用的環境理解能力和特定的具身應用場 景結合, 減少策略訓練對機器人數據的需求量并提升策略的泛化能力; (4) 大模型驅動的獎勵函數可與 強化學習算法進行結合, 減少機器人場景中人為進行獎勵函數設計的難度, 降低獎勵函數設計對物理 先驗知識的依賴, 克服強化學習算法在機器人任務中面臨的稀疏獎勵問題; (5) 大模型驅動的數據生成 根據學習框架的不同分為兩類: 一方面, 大模型可作為環境模型生成智能體的未來軌跡預測, 與模型 預測控制算法和基于模型的強化學習算法相結合進行策略搜索; 另一方面, 大模型可以生成機器人數 據用于具身策略訓練, 作用于無模型強化學習算法和模仿學習算法, 從而緩解機器人任務的數據缺乏 問題. 在對研究現狀進行總結和分析的基礎上, 本文提出了大模型驅動的具身智能研究中存在的 5 大挑 戰, 主要包括: (1) 大模型在特定具身場景中的適應問題. 從宏觀上看, 大模型是廣泛意義上的 “通才”, 而在特定具身任務中往往需要能解決該任務的 “專才” 智能體, 如何使用大模型中涌現的通用知識在 機器人任務中達到精確的物體操作和穩定的運動控制, 仍然是一項長期的挑戰. (2) 大模型策略和人類 偏好的對齊問題. 具身任務的策略偏好和大模型中使用人類偏好往往有所不同, 例如, 面對具身智能 規劃問題, 大語言模型往往趨向于給出多樣的、全面的回答, 而智能體執行任務需要準確的、可安全 執行的指令分解. 如何將大模型能力和人類偏好在具身智能任務中進行對齊是一項重要的研究問題. (3) 具身策略的跨域泛化問題. 大模型能夠對不同的任務指令進行解析, 對多樣化的視覺場景進行識 別. 然而, 具身智能同時面臨著跨域泛化的難題, 如環境參數改變、機器人動力學改變, 跨形態學實體 的泛化等機器人特有的問題, 目前大模型尚不具備直接解決問題的能力. (4) 大模型驅動多智能體協 作的能力. 在解決復雜任務中往往需要多個智能體進行協作, 其中涉及到的任務分配、合作博弈、溝 通反饋等傳統多智能體合作問題在大模型背景下缺乏相關研究, 如何使大模型驅動多智能體進行高效 協作在未來是重要的研究問題. (5) 大模型具身策略的決策實時性問題. 機器人策略在執行過程中環境觀測是快速變化的, 具身策略需要保持較高的決策頻率. 而大模型在進行單次推理時需要較高的計算 代價, 如何解決大模型在規劃和決策時的實時性是大模型在實體機器人應用的重要問題. 本文將對以 上挑戰進行分析和總結, 對可能的研究路線進行展望, 為大模型在具身智能中的廣泛應用提供系統性 參考. 本文的主要框架如圖 2 所示.

付費5元查看完整內容

摘要 規劃與調度問題是在一定周期內完成資源與任務最優配置的過程,人工智能技術在此領域取得許多重要進展。 大語言模型作為生成式人工智能的代表,在規劃與調度領域同樣展現出強大能力。將規劃與調度劃分為用戶需求分析、方案生成、場景建模、優化算法設計4個階段,探討了大語言模型技術在每個階段的應用,并構思一套完整的以大語言模型技術構建的求解框架,以及這些技術與框架如何在各階段發揮效用。這些技術在解決更大規模、更復雜的問題具有潛在發展空間,并展望了結合大語言模型的研究趨勢。 //www.jc2.org.cn/CN/abstract/abstract703.shtml

付費5元查看完整內容

文/李興明,胡慶擁

摘 要:

大語言模型在實際應用場景中經常面臨知識沖突的問題,主要包括上下文 - 記憶知識沖突、多源上下文知識沖突和記憶內知識沖突。本文首先從訓練數據的局限性、模型問題,以及外部信息缺陷三個方面深入分析知識沖突的成因;隨后進一步探討了知識沖突造成的影響,并全面回顧了知識沖突的解決方案,如領域事實增強、提示工程和模型結構層面的改進。最后對知識沖突領域未來研究方向進行了展望,包括建立可靠的評估框架、基于大模型的智能體研究,以及多模態背景下的知識沖突處理。 關鍵詞:

人工智能;大語言模型;知識沖突;智能體;多模態

0 引言

近年來,隨著深度學習、Transformer架構等關鍵技術的突破,預訓練大語言模型(large languagemodel,LLM)實現了飛躍式發展,成為人工智能領域最炙手可熱的研究方向之一。自2022年底ChatGPT系統面世以來,業界掀起了“大模型”研究熱潮,全球研究機構與科技巨頭紛紛布局,在大模型領域投入大量研發資源和力量。

大語言模型通過預訓練的方式,在海量非結構化數據上學習獲取通用知識和語義表征能力,可廣泛應用于自然語言理解、生成、推理、問答等諸多任務,被視為實現通用人工智能的關鍵基石;大語言模型卓越的泛化能力和強大的知識遷移特性,使其在智能對話、文本摘要、代碼生成、決策推理等多個應用場景展現出巨大潛力,有望推動通用人工智能的發展。

然而,隨著大模型規模和復雜性的不斷擴張,其內在存在的知識質量缺陷問題也日益凸顯,主要表現為三個方面。

(1)數據不平衡、噪聲較多導致模型吸收了大量低質量、不一致的知識;

(2)純序列建模難以很好地刻畫現實世界中的結構化知識,因為大模型傾向于編碼訓練數據中普遍存在的淺層模式,而非真正理解其中蘊含的底層知識;

(3)缺乏高效知識概念學習和推理機制。 上述問題最終會導致模型內知識與客觀事實存在明顯的語義沖突和矛盾,從而產生“知識沖突”的問題,影響大模型輸出的可信性,進而限制了其在實際應用中的廣泛落地。

**1 **大語言模型的知識沖突

1.1 參數化知識概述

“參數化知識”是指大語言模型在大規模無標注的文本語料數據庫上經過自監督預訓練得到的、存儲于其權重(參數)中的知識,代表模型對數據的理解和泛化能力。這種知識包括但不限于語言學知識、常識、算術知識和世界知識等。

不同于傳統模型依賴于顯式編碼的知識庫,參數化知識的特點在于其隱含性及動態性。這意味著知識不是以明顯的形式存在,而是通過模型參數的復雜交互而隱式地表現出來。大語言模型能夠利用這些內化的知識,理解復雜的查詢,生成信息豐富的回答,或者完成特定的文本任務。

參數化知識的一個關鍵優勢,是它使得模型具備了一定程度上的泛化能力。也就是說,即便是模型在訓練數據中未直接接觸過的信息或任務,只要這些新的查詢與模型通過預訓練內化的知識在某種程度上相關,模型仍有可能給出合理的輸出。這種能力歸功于大語言模型在訓練過程中,學習到的深層語言結構和豐富的世界知識;換言之,這種參數知識是大模型強大能力的基礎和源泉。

盡管參數化知識為大語言模型提供了強大的預測能力和靈活性,但其仍存在以下幾點局限性。

(1)知識不足或信息缺失。盡管模型的預訓練語料庫包含了豐富的信息,但不可能全面覆蓋所有領域的全部事實。如果特定的事實知識在訓練數據中未出現或出現頻次極低,模型可能缺乏相應的知識,導致在需要這些特定信息時生成錯誤或無關的答案。此外,模型難以保留訓練語料庫中的所有知識,尤其是對于不常見的信息。

(2)參數無法動態更新。隨著時間的推移和科技的發展,許多知識在不斷發生變化。例如,問題“美國總統是誰?”在2019年的答案可能是“唐納德·特朗普”,而現在的答案是“喬·拜登”。在實際使用過程中,需要不斷更新模型中的過時和錯誤知識。與傳統數據庫或知識圖譜不同,語言模型的知識存儲方式是分布式的,蘊含于整個網絡結構的參數中,這使得精確定位并更新模型中對應的舊知識成為一項挑戰。

(3)預訓練和微調成本高。隨著參數數量的增加,訓練和推理的計算成本也相應增加。這不僅需要更多的計算資源,還可能限制模型在資源受限的環境中的應用。

1.2 什么是知識沖突

在實際應用中,大語言模型除了依賴其內部參數化的知識外,還會持續接觸到外部的情境知識。這包括用戶輸入的提示、互動對話,以及通過工具或檢索增強提供外部信息作為大語言模型的新證據,例如ChatGPT外掛的插件及 New Bing。將這些動態獲取的新知識融合進模型,一方面可以彌補模型預訓練階段積累知識的滯后性,使其了解時事和新興領域;但另一方面,外部輸入的知識往往也會與大模型內部的參數知識產生分歧和矛盾,從而引發“知識沖突”問題。

所謂“知識沖突”,是指大語言模型內部固化的參數知識與來自上下文環境的外部獲取知識之間存在的差異、矛盾和沖突。這種知識沖突不僅影響大模型對問題的理解和判斷,還可能導致其生成的輸出存在事實錯誤、邏輯違背常識等嚴重缺陷,從而降低模型可靠性和可信性。

知識沖突可以進一步分為下述幾類,如圖1所示。

圖 1 知識沖突的分類

(1)上下文 - 記憶知識沖突。指大語言模型的參數知識與提供的上下文信息(如用戶提示、檢索文檔、歷史對話等)存在的不一致與沖突。

(2)多源上下文知識沖突。指大語言模型在利用第三方工具或采取檢索增強策略時,從不同知識源獲取的信息之間存在不一致,如不同文檔的時間戳不一致、部分檢索文本含有虛假信息等。

(3)記憶內知識沖突。指針對用戶同一個問題的不同表述,由于模型訓練數據的不一致,可能會導致模型給出不同甚至自相矛盾的回復。

1.3 知識沖突的影響

知識沖突問題不僅是大語言模型面臨的一個技術挑戰,更是實現其可靠應用和廣泛部署的關鍵瓶頸。深入研究并解決知識沖突問題,可以優化大語言模型的一致性、魯棒性和泛化能力,這對于工具增強和檢索增強技術在大模型部署中的成功應用至關重要。更為重要的是,有效處理知識沖突還能有助于預防惡意攻擊者濫用大模型強大的生成能力,如傳播虛假信息和進行網絡攻擊。例如,攻擊者可能通過劫持第三方工具,提供給模型欺騙性和誤導性文檔,若能妥善解決知識沖突問題,則可避免模型產生有害信息。盡管目前對知識沖突問題的研究尚處于初級階段,開展系統深入的理論研究和技術創新,對于大語言模型的持續發展和廣泛應用構建堅實的理論和實踐基礎也尤為重要。

2 知識沖突的成因分析

要分析大語言模型在知識沖突場景中的表現及解決方案,首先需要深入探討導致其產生知識沖突的根源。本節將從訓練數據、模型架構和上下文信息三個方面,深入探討導致大語言模型產生知識沖突的根因。

2.1 訓練數據

2.1.1 領域數據不足 盡管大語言模型因其海量知識壓縮和出色的泛化能力在知識密集型任務中表現出色,但在特定領域的專業知識處理上仍面臨挑戰。這主要源于訓練數據在覆蓋范圍和深度上的不足。若未能充分學習某領域的全面知識,模型在該領域的表現便可能出現缺陷,在回答相關專業問題時容易出現“上下文 -記憶知識沖突”,即模型的存儲知識與實際情境不匹配,從而產生錯誤或不準確的輸出。

2.1.2 訓練數據質量缺陷:錯誤信息與偏見 大語言模型主要通過在海量無標注的文本語料庫上自監督學習獲取知識。然而,這些語料庫常存在質量缺陷,可能包含大量低質量信息、錯誤知識和潛在的社會文化偏見。一方面,模型從包含錯誤知識的數據中學習后,這些錯誤會被內化并放大,導致參數中編碼了矛盾的知識,進而在特定場景下產生沖突;另一方面,訓練數據所反映的各種偏見也會被模型學習和放大,如性別、種族等,影響其判斷和決策過程,發知識系統中潛在的偏差和矛盾。

此外,大模型往往過度依賴訓練數據中的淺層模式和相關性,如詞語共現統計、位置接近性等,而未能真正理解知識的本質,這使得模型容易受訓練數據中的虛假相關性的影響,導致在不同語境下產生前后不一致的輸出,加劇了知識沖突的風險。

2.1.3 訓練數據時效性 大語言模型的參數化知識具有明顯的時間局限性。一旦完成訓練,這些知識就無法繼續更新,而是靜態固化于訓練數據的時間節點,以隨著時間推移自動更新和追蹤現實世界的變遷。隨著時間流逝,模型內部知識會逐漸過時失效,成為引發知識沖突的又一重要根源。

為彌補模型內部知識的滯后性,在實際應用場景中,用戶通常需提供動態的外部補充信息,如上下文對話歷史、相關文檔檢索等。然而,當模型嘗試將這些外部動態知識與自身內部的過時靜態知識融合時,兩者之間的矛盾和沖突往往難以避免,從而使模型陷入知識沖突的困境。

2.2 模型架構

2.2.1 解碼策略 大語言模型通過預測詞匯表中每個單詞出現的概率分布來生成輸出,解碼(decoding)環節對于將模型知識轉化為可解釋輸出至關重要。主流解碼策略包括確定性搜索 (如貪婪搜索(greedy search)和束搜索(beam search))和隨機采樣(如Top-k采樣(Top-ksampling)和Top-p 采樣(Top-p sampling))。

貪婪搜索通過選擇每一步概率最高的單詞生成輸出,而束搜索則維持多個高概率候選序列,力求在整體上找到最優輸出。相比之下,隨機采樣是當前大語言模型廣泛采用的主導解碼策略,它通過在概率分布中隨機抽樣,能夠產生更多樣化的輸出。然而,這種隨機性也為生成的內容引入了不確定性,可能導致模型在相同條件下輸出前后不一致的結果,從而引發由內部記憶機制導致的知識沖突。

另外,大模型通常按從左到右逐詞生成方式,可能引發“滾雪球效應”,即早期生成的單詞會對整個輸出產生重大影響。一旦早期出現偏差,后續難以糾正,加劇了輸出與事實的偏離,進而引發知識沖突。

2.2.2 預訓練和微調的不一致 大模型在預訓練和微調兩階段獲取的知識存在潛在不一致,這是導致模型輸出知識沖突的另一重要原因。

預訓練旨在大規模無標注語料庫上學習通用的語言表示能力,如文本中的底層模式、結構和語義知識。而微調則是在特定任務數據集上對模型參數進行進一步優化,以提高其在特定領域的性能表現。由于兩階段的訓練目標和數據來源的差異,模型可能從中習得了不盡相同的知識。

一方面,預訓練數據覆蓋面廣但深度有限,模型從中習得的是普遍的世界知識和語言模式;另一方面,微調階段引入了新的專業知識,這些知識可能無法從預訓練數據中學習,甚至可能與之存在矛盾。當用戶的查詢觸及此類知識時,模型難以準確把握哪些知識才是相關準確的,從而在生成輸出時產生混亂,引發知識沖突。

2.3 外部上下文信息

大語言模型在實際應用中存在參數知識滯后和情境理解不足的缺陷。為彌補這一缺陷,檢索增強生成技術(retrieval-augmented generation,RAG)被廣泛采用,通過檢索并融合外部補充信息,以增強模型的知識掌握能力。一些主流商業模型如ChatGPT、Perplexity.ai、Gemini、NewBing等在部分web界面上已開始使用帶RAG功能的版本。然而,所檢索的外部信息的準確性和時效性不足,可能成為導致大模型產生知識沖突的又一主要誘因。

2.3.1 外部信息的準確性缺陷 首先,信息檢索系統將原文本編碼為向量表示時,不可避免會發生一定信息損失,如可能遺漏或扭曲了原文細節和語義,影響檢索質量。其次,檢索系統返回結果并非全部與查詢高度相關。以“提升遙感影像目標檢測精度”為例,返回內容可能包含“紅外目標檢測”等偏題信息。模型整合這些無關或錯誤信息時,可能被誤導而接受并傳播了不當知識。

更為關鍵的是,檢索得到的外部信息可能與模型內部知識存在矛盾,不同檢索文檔間也可能出現差異和沖突。最新研究發現,檢索文檔的質量與模型對內部參數知識的依賴傾向之間存在反比關系:檢索到的證據越不相關,模型對內部參數知識的依賴性越強;同時,當外部證據部分與內部記憶一致時,大模型會過度信賴該部分,而忽視其他相沖突的外部信息。但這種復雜的證據權衡機制有待深入探究。此外,惡意攻擊者可能故意提供虛假外部信息,誘導模型生成有害或違法輸出,引發潛在安全隱患。

2.3.2 外部信息時效性缺陷 外部信息的時效性也是一大挑戰。在科技、政治等快速變化的領域,過時的信息可能會嚴重誤導模型和最終用戶。以政治人物相關查詢為例,若參考的是多年前的舊信息,結論就可能與當下情況嚴重偏離。即使采用私有知識庫作為檢索源,時效性問題也難以完全根除。若知識庫未及時維護和更新,同一文檔的新舊版本可能并存,導致時間上的矛盾和沖突。以法規修訂為例,用戶查詢時應當參考的是最新版本,但若模型同時檢索到舊版本,其生成的回復就可能出現嚴重錯誤。

3 知識沖突的解決方案

面對大語言模型中的知識沖突問題,國內外研究者已提出了多種策略緩解這一挑戰。下面將對這些解決方案進行全面的回顧,結合之前對于知識沖突成因的討論,我們將現有的策略分為如圖 2 所示的三大類:①領域事實增強,主要針對訓練數據層面的問題;②模型層面,旨在通過改進模型架構或其內部機制以應對知識沖突;③提示工程,側重于優化模型對于外部信息的處理。

圖 2 知識沖突解決方案

3.1 領域事實增強

3.1.1 持續預訓練 通過持續預訓練,模型能夠不斷補充和更新其知識庫,以適應不斷發展的知識領域。圖3示出了大模型的不同預訓練方式。首先是對預訓練數據質量的優化,包括刪除重復數據、剔除過時、錯誤及虛假信息,從根源上避免模型內化矛盾知識,鑒于現有的預訓練語料庫規模龐大,目前的研究主要采用簡單的啟發式。規則來選擇和過濾數據。其次,在通用語言模型的基礎上,引入特定領域的高質量語料對其進行微調,使模型逐步完善相關知識的表示,有效地獲取新領域的知識。例如,雖然持續預訓練可以幫助模型快速有效地學習領域事實知識,但其也存在嚴重缺陷,如模型易發生災難性遺忘,忘記已經學過的來自舊領域的知識,常用的解決方法是將領域數據與通用數據按一定比例混合后對模型進行預訓練。

圖 3 大模型的不同預訓練方式

3.1.2 持續 SFT 除持續預訓練外,持續微調也是增強模型領域事實知識以避免出現知識沖突的重要方法。研究人員通過設計不同的知識注入方式,如ERNIE、KnowBERT和K-BERT等,將專業領域知識注入到語言模型中,從而提升其在下游任務的性能;為了增強模型在特定任務背景下優先考慮上下文信息,而在與場景上下文無關時則更依賴內部參數知識的能力和魯棒性,知識感知微調方法 (knowledgeaware finetuning,KAFT)通過將反事實和不相關的上下文納入微調數據集,采取對抗訓練策略,增強模型分辨與任務相關知識的能力。此外,拒絕感知指令微調(refusal-aware instruction tuning,R-Tuning)通過識別參數知識和指令微調數據之間的知識差距,然后基于知識交集構建拒絕感知據,來微調大語言模型,使其避免回答超出能力范圍的問題。

3.1.3 外部知識 大語言模型雖展現出強大的理解、生成和泛化能力,但在實際應用中,仍面臨準確性、知識更新速度和答案透明度等方面的挑戰。引入外部知識可有效結合大語言模型的參數化知識和非參數化的外部知識,如數據庫、網站、非結構化文檔等,成為緩解知識沖突,加速大模型落地應用的關鍵手段。提升與外部知識的結合主要有兩種方式,一是檢索增強,通過在原有的檢索框架和策略上做進一步改進,以提供與情境上下文更加相關、細粒度的外部證據,避免返回無關或矛盾信息;二是工具增強,調用其他專業模型API,擴展大模型的能力邊界。

3.2 模型架構

3.2.1 解碼策略 在大語言模型中,優化解碼策略是用于減少模型在文本生成過程中可能存在的知識沖突的有效方法。這些策略通過調整模型生成文本的概率分布,直接影響輸出結果,從而提高模型的靈活性和輸出的可信度。盡管這些方法可能需要對模型進行額外的訓練或調整,或依賴于外部信息資源,但是它們在提高生成文本的一致性和可信度方面顯示出顯著優勢。下述是三種代表性的優化解碼策略。

(1) 上 下 文 感 知 解 碼(context-aware decoding,CAD)是一種基于對比的解碼策略,旨在減少生成文本中的知識沖突。該策略利用一個對比模型計算在考慮和不考慮輸入信息的情況下,輸出的概率分布差異;隨后,一個放大模型被用來增強這些差異,提升與輸入信息一致的輸出的概率,同時降低與輸入信息沖突的輸出的概率;最終,根據調整后的概率分布,生成模型輸出與輸入信息更為一致且可信的文本。

(2)對比層解碼。對比層解碼(decoding bycontrasting layers, DoLa)通過動態選擇并比較模型不同層次在詞匯空間中的對數概率差異。這種層間對比幫助生成模型依據調整后的概率分布生成文本,從而增強文本與事實知識的一致性和可信度。

(3)推理時干預(inference-time intervention,ITI)。在解碼過程中實施,通過激活與事實性知識更相關的注意力頭,促進這些信息在模型中的傳播。這種策略可以在使用較少數據集和訓練資源的情況下對模型進行微調,顯著提升模型在回答問題時的準確性和可靠性。

3.2.2 訓練判別器 通過對一個小型的大語言模型進行微調,將其作為判別器,并結合提示工程技術幫助模型區分信息是否可靠,從而使模型在面對可能存在虛假或誤導信息的上下文內容時,保持忠誠可靠的輸出。通過構建事實有效性預測模型,預測大語言模型學到知識中的事實信息能夠在多久的時間期限內保持有效,來決定在生成回復內容時是否接受該事實信息,同時利用事實有效性預測還可在生成過程中丟棄易發生變化的事實,給予提供的最新上下文信息更高的置信度。

3.2.3 知識編輯 在大語言模型(LLMs)的應用中,知識編輯技術旨在優化模型的信息準確性,通過有針對性地修改模型參數或引入外部插件來糾正嵌入其中的錯誤知識。這種方法避免了對整個模型進行全面微調,從而在提升模型實用性的同時,維持了其作為可靠知識庫的基本功能。主要的知識編輯方法有兩種。

(1)知識插件。該方法允許在保持模型原有結構不變的情況下,通過插入可訓練的參數模塊來引入新的知識。這種策略的優勢在于它避免了對預訓練模型權重的直接修改,從而保留了模型中已有的知識資產。這使得模型能夠在擴展新知識的同時,繼續利用已有的廣泛知識基礎,例如K-Adapter等。

(2)定位 - 編輯。基于對大語言模型中知識存儲機制的研究,定位 - 編輯方法專注于精確定位和編輯模型中的特定區域。這種策略識別并修改存儲錯誤信息的網絡部分,尤其是前饋神經網絡(FFN)中的相關神經元,以此來糾正或更新錯誤的知識。這種精確的編輯方法優化了模型的知識準確性,而不損害其整體性能。

3.3 提示工程

提示工程是緩解大語言模型知識沖突的一種重要策略,它通過精心設計的提示詞來完善模型的輸入信息及優化模型輸出內容。使用提示工程的緩解技術可以概述如下。

3.3.1 補充情境信息 通過檢索增強策略和工具增強,如FreshPrompt、ChatProtect等,將與任務相關的情境知識集成到提示中。這種方法不僅豐富了模型處理的上下文,而且提高了其對特定領域信息的敏感性和應答質量。

3.3.2 設計系統提示 使用系統提示明確告知大語言模型不要提供虛假或不可驗證的信息,或提示模型對潛在的虛假信息保持警惕,并在生成前與參數記憶知識進行核實,或要求模型進行自我反思,通過不斷迭代反饋及模型自我糾正錯誤,改善生成答案的事實性和一致性。

采用分治思想的提示策略,提示大語言模型將問題拆分成多個子問題,分別進行回答,再對生成的內容進行合并,這樣可以幫助模型更好地理解問題;同時采取該策略,某個子任務的解答不會過度依賴于其他子任務解答的正確性,增強了模型對于中間錯誤的魯棒性。類似地,采用思維鏈策略(如COT、TOT、GOT)要求模型對問題進行連貫且逐步深入的思考,從而提高輸出的邏輯性和深度。

最后,針對用戶可能給出模糊的指令這一情況,提示模型要求用戶對指令進行修改完善,對問題進一步澄清。

4 未來展望

在大語言模型知識沖突領域未來的研究方向上有下述思考。

(1)可靠的評估方法 現有研究多聚焦于大語言模型在特定任務場景下內部參數知識與外部情境知識產生沖突的情形,探討模型在面對知識沖突時對內部參數知識和外部信息的依賴程度及解決沖突的方法。然而,對于如何評估知識沖突,尤其是在不同下游任務背景下的評估方法,現有研究仍顯不足。如何對大語言模型在各種任務場景下處理知識沖突的性能進行評估,以及建立自動化的評估框架和標準指標仍有待進一步研究。通過建立可靠的評估方法,探索知識沖突對模型在不同下游任務下的影響,可以幫助研究者優化模型的設計和應用策略,開發更強大、更可靠的模型。

(2)基于大模型的智能體 目前,大語言模型在處理知識沖突的研究側重于提升模型訓練數據的質量、提供更準確的外部信息,以及設計更有效的提示詞等方面。這些方法雖然在一定程度上提高了模型輸出的準確性,但對于模型自主識別和解決知識沖突的能力仍然缺乏深入探討。未來對于大語言模型的研究更應關注其在處理復雜信息源中的自主決策能力,尤其是在面對可能引起知識沖突的場景時;研究基于大模型的智能體,使其能夠識別并管理知識沖突,是應對這一挑戰的有效途徑。

此類智能體首先需要能夠實現知識沖突檢測,即具備識別多樣化信息源中存在知識沖突的內容,以及決策出需要剔除或修正的知識點。同時,根據實際需求主動尋找并整合新知識,優化和更新現有背景知識,以提供更為準確和詳盡的回復。開發此類智能體不僅可提高模型在復雜信息環境中的適應性和實用性,還能增強其可靠性和用戶信任度。

(3)多模態背景下的知識沖突 現有研究多集中于單一文本模態,而多模態領域的知識沖突則相對較少探討。現實世界信息通常以視覺、聽覺和文本等多種形式表達,這些模態間可能存在不一致或矛盾。未來可探索不同模態間的知識表示、跨模態知識融合、跨模態推理,以及解決模態間知識沖突等方向。理解和解決多模態數據中的知識沖突,可極大提升模型對復雜現實情境的理解能力,提高其在決策支持、自動化內容生成和人機交互等領域的準確性和效率,既是提升大模型實用性和智能化水平的關鍵步驟,也是一個具有挑戰性的前沿研究領域。 (參考文獻略)

李興明

國防科技大學博士研究生。主要研究方向為大語言模型的檢索增強與知識沖突。

胡慶擁

軍事科學院助理研究員。主要研究方向為大規模三維點云語義理解等,谷歌學術引用5000余次,入選斯坦福大學2023年度全球前2%科學家榜單、中國科協青年人才托舉工程。

選自《中國人工智能學會通訊》 2024年第14卷第5期 青托專欄

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

文 / 孫凌云,潘越

摘 要:

本文介紹了大模型在設計領域帶來的變革。首先探討了大模型如何開啟大知識,并分析了由此產生的新趨勢;然后,從設計對象多樣化和設計方法與模式變革兩個角度,探討了大模型帶來的設計機遇與挑戰,并分析了大模型時代下個體所需的新能力。 關鍵詞:

人工智能;大模型;GPT 技術;設計

0 引言

2022 年 11 月,ChatGPT 將人工智能(AI)大模型帶入了公眾視野。其中,Chat 代表該產品采用聊天對話的交互形式,允許任何用戶使用自然語言提出問題或表達需求;GPT 是 Generative Pre-trained Transformer的縮寫,Transformer 技術作為大模型的標志性底層技術,由 Google 在 2017 年推出。ChatGPT 發布時基于 GPT-3.5 模型。2023 年 3 月,GPT-4 模型發布;同年 11 月,OpenAI 開放了 GPTs,使用戶能夠通過自然語言指令構建 GPT 應用。2024 年 1 月,GPT Store 正式上線。目前,OpenAI 已開放了 GPT-4V(視覺)、 Code Interpreter(代碼)、DALLE-3(圖像)、TTS(文本到語音)的 API(應用程序接口)。

2024 年,大模型的發展呈現出百家爭鳴的局面,一方面,不同公司推出的通用基礎大模型和行業大模型不斷實現技術突破和能力更新;另一方面,將大模型技術轉化為創新應用的探索,在不同產業和垂直領域中仍然熱度不減。

隨著大模型技術和生成式人工智能的爆發式發展,設計領域也經歷了深刻的變革。設計對象變得更加多樣化,設計方法和模式的變化推動了設計范式的結構性轉變。這為設計領域帶來了前所未有的機遇,使設計的角色和重要性更加突出,同時也產生了伴隨轉型的種種挑戰。

在大模型的發展背景下,本文首先闡述了大模型技術如何開啟大知識,帶來了人機協作的新工作模式、智能物種的大爆發和科技進步加速的新趨勢;接著,從設計對象和設計方法兩個維度,介紹了大模型對設計領域帶來的宏觀變化;最后探討了大模型時代對個體能力提出的新要求。

1 大模型開啟大知識

1.1 大模型背后的大數據

ChatGPT 成為互聯網歷史上最快突破 1 億月活躍用戶的應用之一,這歸功于其在上線之初就展現出的超越大眾當時認知的自然語言理解、生成和交互能力。通過聊天機器人的界面,ChatGPT 展示了多種能力,包括建模歷史對話、保持對話語境的連續對話能力;從復雜內容中提取關鍵信息、歸納總結主題和意義的抽象概括能力;理解人類指令意圖、模擬相應角色的語言模式及潛在知識來生成回復、執行任務的角色扮演能力;拆解問題、逐步求解的邏輯推理能力;根據用戶反饋優化答案的更正錯誤能力;以及根據用戶指令與問題描述生成程序代碼的代碼生成能力等。與 ChatGPT 相比,升級版GPT-4 不僅在各項能力上取得了顯著進步,還支持輸入圖像和文本,表現出強大的圖像理解能力,實現了從單模態大模型到多模態大模型的突破。

ChatGPT 所展現的強大綜合能力離不開其前所未有的訓練數據規模。這是因為預訓練的本質可認為是由大規模數據集驅動的規律發現與學習過程。從 GPT-1 到 GPT-3,訓練數據量從 4.6 GB 增長到了753 GB。主要模型數據集中的維基百科數據集、書籍、雜志期刊、Github 代碼等為大模型帶來了豐富的客觀知識、故事講述與反應能力,以及語言生成的嚴謹性和邏輯推理能力。同時,從 GPT-1 到 GPT-3,模型參數量也從 1.17 億增加到 1 750 億。OpenAI 并未公布訓練 ChatGPT 和 GPT-4 的數據集來源和規模,但我們不難想象它們在數據模態和量級上的進一步突破。

在生成式人工智能領域,另一個代表性模型是由 Stability AI 于 2022 年 8 月發布的文本生成圖像模型 Stable Diffusion。Stable Diffusion 能夠根據用戶提供的文本生成高質量的圖像,其能力突破同樣得益于背后數十億訓練圖像數據的支持。

1.2 大模型開啟大知識

海量訓練數據使得大模型實現“讀書破萬卷,下筆如有神”。除了前文提及的能力突破之外,我們認為大模型的另一大貢獻還在于大模型開啟了大知識。本文將大模型開啟大知識的主要特征歸納為三點——龐大的知識空間、知識表示和調用方式的更新,以及知識空間的可擴展性與大模型能力的可延伸性。

(1)龐大的知識空間 通過學習大量的人類知識,大模型形成的知識空間在規模上超越了任何單一個體。例如,以ChatGPT 為代表的大語言模型(large language model,LLM)通過對人類自然語言知識空間的大量語料進行學習,發展出了近似人類水平的自然語言理解與生成能力,并積累了豐富的世界知識。自然語言一直是記錄和傳遞人類知識的主要方式之一,大量的人類知識通過自然語言這種形式化的手段得到了傳承和發揚。然而,自然語言并非承載和表達知識的唯一手段,通過語言和文字傳遞的知識只是人類集體知識的一部分,還有人類心智模型、經驗知識等難以用特定形式精確表述的隱性知識。對于語音、視覺、紅外、3D 點云等多模態信息,現有的視覺大模型和多模態大模型已展現出一定的處理能力。隨著全體人類知識的擴展和人工智能技術的發展,大模型的知識空間將愈發龐大。

2)知識表示和調用方式的更新 ChatGPT 等大模型的能力突破,使得自然語言成為新的“知識表示和調用方式”,允許任何用戶使用自然語言來提出問題和表達需求。與互聯網中通過搜索引擎使用關鍵詞進行信息檢索的方式相比,這種獲取知識的方式更加自然。通過使用自然語言與大模型進行交互,每個個體的智慧得以與大模型的知識空間相互碰撞和激發。這種知識表示和調用方式的更新,為人類文明積累的海量知識打開了新的窗口。另一方面,在多模態大模型中,自然語言也將成為通用接口,使用戶能夠更直觀、易用地控制和編輯大模型的內容生成。

(3)知識空間的可擴展性和大模型能力的可延伸性 一方面,大模型內部的知識空間會隨著版本的更新得到擴充和更新。另一方面,可以將現有的各類基礎大模型作為基座,通過引入和融合外部知識庫,實現大模型知識空間與外部知識庫的協同。在特定領域的模型應用方面,利用專業知識庫對通用領域的預訓練大模型進行相應領域的知識微調適配,將催生出越來越多適用于不同場景和領域的大模型創新應用。

1.3 通用人工智能的火花

2023 年 3 月,GPT-4 發布,其在多個領域的表 現接近人類水平,被視為通用人工智能(artificial general intelligence,AGI)的早期(但是仍不完整的)版本。同年 4 月,中共中央政治局會議首次提出重視通用人工智能的發展。2023 年 11 月,Google DeepMind 團隊提出評估通用人工智能的六個關鍵原則,并進一步得到了 人工智能的系統分類方法,包括: ●Level 0(無人工智能) ●Level 1(涌現,相當于或略優于未受專門訓練的普通人) ● Level 2 (勝任,至少達到熟練成年人的 50%水平) ● Level 3(專家,至少達到熟練成年人的 90%水平) ● Level 4(大師,至少達到熟練成年人的 99%水平) ● Level 5(超人,超越所有人類的表現)

在此基礎上,研究人員對現有人工智能系統進行了評估。其中,ChatGPT、Llama 2、Gemini 尚處于 Level 1(涌現)階段。

2024 年 2 月,OpenAI 推出了文生視頻大模型Sora。其在視頻生成領域的能力突破,再次引發了外界的廣泛討論。同年 3 月,Anthropic 發布了 Claude 3系列大模型,性能超越 GPT-4。隨著大模型不斷發展,其對包括設計領域在內的各領域影響日益增大。

2 大知識帶來的新趨勢

大模型開啟“大知識”。以此為特征的大模型能力突破將在各個領域引發新的變化,本文將主要趨勢概括如下。

2.1 人機協作的新工作模式

過去在討論人機關系多元化時,人們常常根據計算機人工智能技術的局限性來界定人與計算機的關系。例如,在設計領域,設計師與人工智能的關系可能被分類為主仆關系、助理角色、師生關系或合伙人角色等。然而,隨著大模型的興起,人工智能在人機協作中的角色和作用變得更加顯著,催生了人機協作的新工作模式。這種模式有望大幅提升生產效率,并降低運營成本。

舉例而言,設計師可以利用文生圖大模型來優化涉及圖像生成的工作流程。一些設計師在 Stable Diffusion 的用戶界面 ComfyUI 中結合 LCM 模型(latent consistency models)來完成故事板的繪制任務,通過簡單操作就能讓人工智能快速生成分辨率達標、符合故事板需求的圖像。在建筑設計方面,設計師繪制線稿草圖后,大模型可以基于這些線稿實時生成多組潛在的建筑效果圖,使設計師能夠更動態及時地對設計進行調整。此外,設計師還可以利用大模型的龐大知識庫來獲取知識支持、靈感啟發和技術支持,以逐步完成涉及大量知識的設計任務。例如,有團隊通過與大型模型逐步對話,一步步明確設計概念和設計空間,并最終細化到包括軟件、材料選擇、結構設計和制造方法在內的技術設計規范,從而完成了番茄采摘機器人的設計。

2.2 智能物種大爆發

如前文所述,經過特定領域的知識微調適配后,大模型將催生越來越多的垂直領域創新應用。這已經在教育、科研、編程、商業、設計等領域帶來了許多更新、更智能的應用與服務,并且將帶來更多可能性,迎來智能物種的大爆發。 一方面,由人工智能驅動的新形態產品、應用和服務將不斷出現,更好地滿足不同用戶的需求。例如,智能代理(AI Agent)近來愈發受到關注,它能理解用戶的指令,并在多變的環境中自主有效地完成任務。在人工智能硬件新物種方面,2023 年11 月發布的 AI pin 和 2024 年 1 月發布的 Rabbit R1 展示了人工智能實體化的初步形態。

另一方面,現有(成熟)產品或物種在大模型的驅動下,將展現全新的面貌。例如,“智能手機” 開始向“AI 手機”轉型,“個人計算機”向“AI PC”轉型。各大廠商正意欲通過人工智能重新設計手機和 PC 的體驗。在稍遠離日常生活的領域,人形機器人也在經歷變革。2023 年 11 月,工信部印發《人形機器人創新發展指導意見》,提出人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,重塑全球產業發展格局。人形機器人的研發是一個軟硬件一體的過程,大模型相當于為機器人提供了“大腦”,提升了機器人的通用能力、學習能力,進而增強了其環境感知、行為控制、人機交互等能力。隨著人形機器人技術的加速發展,它們能更好地在與真實世界的交互中收集人類數據,利用大模型處理數據,并利用數據繼續訓練人工智能。這被認為是推動通用人工智能研究的一種可能途徑。圖 1 示出了大模型垂直領域創新的一些應用。

圖 1 大模型垂直領域創新應用舉例

2.3 科技進步加速

AI for Science,即“人工智能驅動的科學研究”,是由鄂維南院士在 2018 年提出的科學研究新范式。

這一范式強調利用人工智能技術解決科學研究中的數據分析等難題,借助機器學習在高維問題上的表示能力,刻畫復雜系統的機理,創造科學模型,從而更高效、更具實用性地解決實際問題。結合以大模型為代表的新一代人工智能技術的能力飛躍,這一范式將進一步加速科技進步。具體而言,在大模型出現之前,從理論研究到產品的落地轉換通常需要 20 余年。而在 AI for Science 的驅動下,這一周期可以縮短至 5 年左右。

未來學家 Peter Diamandis 曾在 2020 年預測,未來 10 年人們經歷的科技進步將超過過去 100 年的總和,每個行業都將得到重塑。麥肯錫在 2021 年的技術趨勢報告中指出,包括應用人工智能在內多個領域的技術儲備已處于爆發的前夜,它們將重塑健康與材料科學、能源、交通等眾多行業和領域。在2024 年,人們已經切身體會到過去幾年科技飛速發展帶來的效應,尤其是在人工智能應用廣泛的領域。

設計的核心任務之一是將各種前沿科技進展轉化為實際產品。如果未來 10 年的科技進步將超越過去 100 年的總和,那么未來 10 年甚至更短時間內的設計創新也將超過之前 100 年的總和。這將為設計領域帶來巨大的空間和機會。

3 設計領域變革

隨著人工智能技術的飛速發展,設計的邊界不斷拓寬,成為與人工智能、大數據、云計算等前沿技術深度融合的領域及跨學科實踐載體。在ChatGPT 推出前,關于智能時代的設計的討論已經呈現出日益廣泛的趨勢。2022 年 8 月,浙江大學與阿里巴巴聯合發布的《產業數智化設計白皮書》指出,我國創新設計正在全面從以“計算機輔助設計” 為代表的“數字化”時代,邁入“數智化”時代。數智化技術已滲入設計活動各個階段,在設計資產逐步數智化的同時,數智化設計已展現出比傳統設計更卓越的能力。白皮書將洞察力、敏捷力、協同力視為數智化設計的特征能力。隨著大模型開啟“大知識”,設計領域正在經歷新的變化。本文將從設計對象和設計方法這兩個宏觀層面出發,介紹大模型帶來的設計領域變革。

3.1 設計對象多樣化

下面將從人工智能技術作為設計對象的能力變化、大模型帶來的交互邏輯更新,以及智能物種的爆發趨勢三個方面來探討大模型帶來的設計對象多樣化。

(1)人工智能作為設計對象和材料的能力突破與多樣發展 人工智能的能力從低于人類逐漸向接近人類、高于人類發展。ChatGPT 發布后,人工智能領域的相關進展似乎也被按下了加速鍵。2023 年 3 月, Google 發布了具身化多模態語言大模型 PalM-E,它將機器人任務和視覺語言任務通過一個共同的表示形式組合在一起,實現了對不同模態(狀態和 / 或圖像)的多模態語言建模處理。同年 4 月,Meta 發布了 Segment Anything Model(SAM),能夠自動分割圖像中的所有物體,或是根據提示詞分割相應物體,是計算機視覺和圖像領域的重大突破。人工智能技術的能力突破與多樣發展,豐富了設計對象的種類,將在不同領域催生設計創新,進而推動行業重塑。

(2)大模型交互方式和交互界面成為新設計對象 目前,數字產品普遍配備圖形用戶界面(graphical user interface,GUI)。用戶通過鼠標、鍵盤、屏幕等與圖形界面進行交互。ChatGPT 以對話機器人的形式,發展為生產力工具,顯示出對話式用戶界面(conversational user interface,CUI)和語言用戶界面(Language user interface,LUI)在大模型賦能下的巨大潛力。一方面,大模型本身,以及由大模型驅動的創新數字應用的交互方式和交互界面成為新設計對象。另一方面,在大模型驅動下,數字空間、物理世界、人類空間的三元空間將更加融合。各行各業的產品的交互邏輯迎來了優化重塑的巨大空間。在包括虛擬現實、增強現實、混合現實、空間計算在內的虛實融合的用戶體驗中,自然用戶界面(natural user interface,NUI)的交互邏輯、交互方式和界面設計也成為設計領域的新方向和設計對象。

(3)智能物種大爆發帶來設計機會大爆發 如前文所述,大模型將帶來智能物種爆發與科技進步加速。這為設計領域帶來了巨大的空間和機遇,因為設計既承擔著將各種前沿科技進展轉化為實際產品的重要任務,也扮演著為新技術帶來的新挑戰提供新方案的關鍵角色。智能物種在豐富人們的體驗,拓寬人們的想象邊界的同時,也不可避免地會引發用戶在接受新習慣與保持固有習慣之間的矛盾、技術適應等摩擦,這也將成為未來設計的新議題和新對象。

3.2 設計方法與模式變革

大模型將重塑所有設計方法與工具,在降低設計行業門檻的同時,也提升了設計的天花板。本文將這背后的設計方法與模式變化歸納為以下三點。

(1)大模型開啟大知識,為設計過程提供系統化的知識支持 一方面,從頭腦風暴、需求挖掘、文案處理到用戶調研,大模型的知識空間、自然語言能力和多模態信息處理能力將為設計中的各環節提供支持。例如,用戶畫像常應用于用戶需求分析。近年來,使用人工智能處理用戶數據的自動化用戶畫像生成(automatic persona generation,APG)方法,已經在產品市場營銷和企業推廣等活動中得到應用。在大模型的支持下,APG 方法將更高效地從大量的用戶數據中提取、融合有效信息,更精準地生成用戶畫像。另外,在概念創新設計的早期階段,人類設計師可以利用大模型能力驅動的智能設計工具,通過引入外部知識,獲得靈感激發,防止設計固化現象。此外,在前文曾提及的番茄采摘機器人的設計中,大模型則為從產品意義梳理、設計空間定義到原型設計的全流程提供了全面的知識支持和技術指導。

另一方面,以往設計師需要特定的設計工具來支持特定的設計任務,而隨著 OpenAI 推出 GPTs,用戶可以根據當下的需求和偏好來定制服務于特定任務的智能代理。在定制頁面里,用簡單的自然語言,比如“我要生成用于產品趨勢分析的 GPT”,在系統的引導下逐步明確需求和風格,就可以生成勝任特定任務的 GPT。在 GPTs 剛發布時,就有人用不到 1 min 的時間創建了一個名為 Trend Analyzer的 GPT,它可以在 90 s 內為用戶聯網查找目標產品類別的最新趨勢,并為其創建原型圖片。這種形式為融合大模型知識空間、用戶需求與外部知識提供了一條低門檻的路徑,也能更便捷地為設計師在設計過程中提供支持。

(2)圖像生成能力的提高,加速創意內容生產文生圖大模型產品在圖像生成方面取得了顯著進步,能夠用于素材生成、靈感激發和直接出圖。這些產品的圖像生成能力飛躍,重塑了設計過程中對專業技能要求最高、常常最為繁瑣且耗時最長的環節,如畫圖、建模、渲染和效果圖加工等。此外,圖生圖、圖片融合等功能對于現有圖片的創意加工、創意設計的靈感激發,以及組合創新的效果探索也作出了重要貢獻。

目前,文生圖大模型產品在可控性方面存在不足。例如,該領域的代表性產品 Midjourney 通過特定關鍵詞、墊圖、seed 值來調控固定模型,其可控性相對較弱。而另一代表性模型 Stable Diffusion,由于其開源屬性,擁有更多的插件和模型,圖片生成的可控性更強。2023 年初,ControlNet 技術作為Stable Diffusion 的一個重要控制組件問世,它賦予了文生圖工具根據多種條件對單張圖片進行細粒度受控變換的能力,從而提高了人工智能出圖的可控性。

(3)設計范式將發生結構性變化 大模型賦能的設計工具不僅具備洞察力、敏捷力和協同力,而且還發展出了想象力和創造力。以 Adobe Sensei 和 Adobe Firefly 為 例,Adobe Sensei于 2016 年發布,提供了數據洞察、自動化任務和個性化體驗等功能,以增強和簡化工作流程。而Adobe Firefly 于 2023 年 3 月發布,并于同年 9 月正式商用。它專注于通過生成式人工智能釋放創造力,提供包括設計元素生成、布局創建和風格應用等功能,支持設計師的創意探索,加速設計工作流程。在新智能工具成為主流的同時,設計師常用的主流工具也正在變得更加智能。

隨著人與智能工具進行人機協作的工作模式成為主流,設計團隊與設計價值鏈的變化將被催化。行業的門檻降低和生產效率的提高將導致設計團隊的構成變化和角色調整。設計流程的各個環節效率的提升,以及壁壘環節的消除,使設計價值鏈的邏輯發生改變。以 2023 年春季在小紅書上走紅的“小綠裙”為例,相關博主在小紅書上使用人工智能繪畫制作女生頭像,她的專業背景與服裝設計并無直接關聯。“小綠裙”并非博主生成圖像時的意圖,卻意外在小紅書上獲得了極高的人氣。在用戶驅動下,這款裙子被商家打版生產并銷售。這種由用戶利用工具生成設計圖,再由用戶推動生產制造的C2M(customer-to-manufacturer)模式,正在迅速改變傳統的電商邏輯。

智能時代的設計范式的特征之一是難以框定清晰的邊界,這是因為隨著技術的發展,設計方法與模式的變化時刻在發生,使得人們難以捕捉到精確的時間點來標記、描述和鎖定特定的范式。然而,可以肯定的是,我們正在見證設計領域前所未有的變革。數智化設計在洞察力、敏捷力和協同力得到提升的同時,正表現出強大的想象力和創造力。這種不斷變化的設計將在未來扮演更加重要的角色。

4 結語:大模型時代的個人能力重塑

本文介紹了在大模型背景下,大模型如何開啟 “大知識”,以及由此產生的新趨勢。在設計領域變革方面,從設計對象和設計方法兩個層面出發,探討了人工智能技術能力的演變、大模型的交互邏輯、智能物種的爆發趨勢如何帶來設計對象的多樣化,大知識和知識智能載體如何為設計提供知識支持,多模態大模型如何加速內容創意生產,以及設計價值鏈的調整等設計方法與范式的變化。

大模型正不可阻擋地重塑設計領域的各個方面,這對所有利益相關者的個體能力提出了新的要求。首先,設計師、設計研究者、設計專業學生等群體需要從觀念和行動上突破慣性思維,從建立基本的人工智能意識開始,積極擁抱和使用前沿智能工具,將這些工具融入個人或組織的工作流程中。在積極應用這些工具的過程中,與人工智能共同成長,實現自身能力的重構和提升。然而,在發揮技術優勢的同時,也要認識到技術的邊界和局限性。例如,大模型可能會產生“幻覺”,即看似正確的生成結果中可能包含虛假信息和錯誤信息。其次,個體應當掌握如何有效調用知識的能力,重視圍繞知識的方法論和系統論。隨著自然語言成為一種有效調用知識的新方式,個體應更加關注并理解知識的產生過程和原理,并在此基礎上,通過深入學習提示詞工程等方法,更好地利用 GPT 來調用知識。最后,學會在模糊和不確定性中找到方向。在快速變化的世界中,不僅要學會駕馭模糊的能力,還要具備正確的價值觀和積極的人格特質,堅定地為推動領域進步和人類文明的發展做出貢獻。

(參考文獻略)

孫凌云

CAAI 智能創意與數字藝術專委會主任,浙江大學國際設計研究院院長、計算機科學與技術學院副院長,教授。研究利用人工智能賦能設計行業,提出人工智能時代下的設計范式,應用于數字創意、智能硬件設計等領域。

潘越

浙江大學計算機科學與技術學院設計學博士后。主要研究方向為設計科學與創新工程。

選自《中國人工智能學會通訊》 2024年第14卷第4期 智能創意與數字藝術專題

掃描加入我們 獲取更多學會資源

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

文 / 秦兵,吳迪,趙妍妍

摘 要:

本文以大語言模型價值觀對齊研究為主題,介紹大語言模型價值觀相關概念、價值觀對齊研究發展歷程和價值觀體系,旨在探索如何使大語言模型的價值觀與人類社會價值觀保持一致。從共同價值觀、群體價值觀和個體價值觀三種層次,討論了實現價值觀對齊的多種方法和所面臨的挑戰。文中強調了大語言模型發展中價值觀對齊的重要性,并展望了大語言模型價值觀對齊研究的發展方向。 關鍵詞:

大語言模型;價值觀對齊;共同價值觀;群體價值觀;個體價值觀

0 引言

自2022年11月30日OpenAI發布ChatGPT這一生成式大語言模型以來,人工智能領域迎來新的浪潮。大語言模型將各種自然語言處理任務整合成文本生成任務模式,使用戶與模型的互動變得更加便捷。用戶通過輸入文本指令,在生成文本、回答問題、情感分析、翻譯語言、摘要文章等任務上,均可以用統一的模型來獲取自然、高效的響應。這種整合為用戶提供了一個多功能、高度可定制的工具,有望推動自然語言處理技術在多個領域的應用邁上新臺階。憑借其強大的遷移能力,大語言模型在多領域展現出廣泛適應性,甚至在某些任務上具備超越人類專家的潛力。

大語言模型的性能受其不同來源預訓練語料庫影響,在學習知識的過程中不可避免地也會學習到包含各種人類觀念的內容,其中不乏與社會價值觀相悖的信息,從而在與用戶互動時存在激活這些不良內容的風險。因此,防止大語言模型在與用戶互動中產生違反人類價值觀的信息,從而更緊密遵循人類價值觀,已成為一個亟需研究的問題。

本文的目的是介紹大語言模型的價值觀相關概念、價值觀對齊研究發展歷程和價值觀體系;具體而言,將探討目前的價值觀分類方法和現有的價值觀對齊技術,以及這些技術未來的發展趨勢和在實際應用過程中可能面臨的挑戰。本文旨在通過對上述內容的介紹與討論,推動大語言模型的安全發展,確保其與人類價值觀有效的對齊;同時也將進一步探討與大語言模型價值觀對齊相關的新方法和新策略,以進一步應對大語言模型應用過程中在倫理和社會相關層面上可能遇到的挑戰。

1 價值觀相關概念

價值觀是對事物的價值或行為的重要性的衡量,它可以幫助確定最合適的行為、最恰當的生活方式,或者判斷不同行為的意義。在群體層面,共享的價值觀構成了文化和道德的基礎。在此基礎上,適用于全人類的價值觀一般稱為共同價值觀。而由某個群體形成的一系列規范,由這個群體共同遵守、為集體行為提供指導的價值觀,可視為群體價值觀。在個人層面,個人價值觀則體現了個人的偏好,因背景、經歷和信仰而異。

在人工智能領域,對齊技術旨在引導人工智能系統的行為符合設計者的利益和預期目標。對大語言模型而言,價值觀對齊是將人類的價值觀理念嵌入到語言模型中,使其生成內容能符合人類價值觀。

2 大語言模型價值觀對齊研究現狀

人工智能與人類價值觀對齊的概念最早由諾伯特 ? 維納在 1960 年提出。早期的相關研究主要側重于探索模型的輸出是否在特定情境下與人類價值觀保持一致,尤其是關于機器學習領域中的種族、性別、文化偏見和公平性問題的研究。例如,研究人員發現預訓練模型BERT等在類別預測時表現出性別和種族的刻板印象,于是提出了像StereoSet這樣的檢測數據集或設計了減少偏見的策略。然而,這些研究多集中于特定場景的自然語言理解任務,隨著大語言模型如ChatGPT在更開放和多樣的場景中得到了廣泛應用,亟需更深入的研究和細化的方法,以應對模型在不同場景中可能出現的倫理、社會和文化等挑戰,確保模型在各種不確定和不斷變化的情境中盡可能與人類價值觀保持一致。

在大語言模型價值觀對齊研究中,關鍵問題是如何進行價值觀的分類和對齊。價值觀分類主要用于識別語言表達背后的價值觀屬性,從而判斷模型是否與特定價值觀及其類型相符。這種分類不僅適用于用戶語言的檢測,而且對于評估大模型生成的語言也至關重要,以確保用戶及模型的行為符合社交媒體、新聞媒體和其他環境的道德和法律規范。價值觀對齊則側重于保證大語言模型的輸出內容與人類價值觀保持一致,通過預訓練、指令微調、人類反饋及后處理等手段實現。此外,還需要在共同價值觀基礎上,調整模型以反映不同群體的多元價值觀,從而適應多樣化的應用場景。這種方法不僅增強了模型的普適性也有助于更全面地滿足各類用戶的需求。

大語言模型的價值觀研究仍處于起步階段,但已經吸引了社會廣泛的關注。《時代》雜志評選2023年三大人工智能創新,其中之一便是大語言模型對齊技術。同時多家企業和研究機構已開始對這一領域進行重點布局,例如,OpenAI成立了SuperAlignment團隊,目標是在未來五年內解決大語言模型價值觀安全問題;加州大學伯克利分校等高等教育機構也已創建了Center for AI Safety組織,專注于AI安全研究,同時為研究者提供培訓和計算資源。在國內,諸如哈爾濱工業大學、清華大學、中國科學技術大學和天津大學等學術機構,以及微軟、騰訊等公司也在積極開展相關研究。大語言模型價值觀對齊的研究將成為未來工業界和學術界的重要研究領域。我們堅信,通過這些努力,大語言模型將更好地與人類價值觀保持一致,推動科技向善,為人工智能技術的安全發展打下堅實基礎。

3 大語言模型價值觀體系

本文將價值觀體系分為共同價值觀、群體價值觀和個體價值觀三個層次,如圖 1 所示。共同價值觀構成價值觀體系的基礎,代表著那些人類普遍認同的價值觀。這些價值觀為模型行為提供基本準則,其應用不受特定場景或人群差異的影響。群體價值觀考慮到大模型服務于不同的群體,大模型應當融入各個群體的價值觀,確保其能夠遵循各個群體的道德規范。隨著模型越來越多地融入個人日常生活,大模型的應用場景更加靈活,與個體價值觀的對齊也變得至關重要。為了使模型能夠提供個性化的服務,模型不僅需要遵循共同價值觀和群體價值觀,還需要根據個人的需求、性格和價值觀進行定制化調整。

圖 1 價值觀體系

3.1 大語言模型的共同價值觀

在哲學意義上,共同價值觀是超越民族、種族、國界和信仰,是全人類共同擁有的價值觀。對于多樣化應用的大語言模型而言,同樣存在所有應用領域通用的價值觀。因此,研究人員需要為大語言模型制定一套共同的價值觀體系,將其作為模型行為的基本規范。例如,Anthropic團隊提出的由有益性、誠實性和無害性規范組成的體系,體現了這一理念。

目前為止,廣泛認可的大語言模型共同價值觀標準尚未形成,研究人員正在積極探索各種價值觀體系的設計,以構建一個既能反映人類共同價值觀,又能確保各價值觀間和諧相容的體系。在此探索過程中,計算反思均衡(computational reflective equilibrium)的方法可以用于優化共同價值觀的設計,該方法提倡讓模型在具體實例或案例中應用共同價值觀并進行測試,如果在特定情境下發現模型的共同價值觀存在沖突,可能需要修改或調整模型的價值觀以解決沖突,從而逐漸找到更合適的共同價值觀設計。這一過程可以不斷完善和優化模型的共同價值觀,確保其適用性和有效性。在這個框架下,哈爾濱工業大學以社會主義核心價值觀為基礎,構建了模型價值觀的指導原則。這些原則涵蓋“言語侵犯”“暴力恐怖”“反動言論”等10個關鍵方面,以確保模型在處理文本內容時能夠避免產生令人不悅或危險的內容,更好地滿足廣泛的社會期望和要求,從而提高模型的社會適應性和倫理性。

3.2 大語言模型的群體價值觀

群體價值觀多體現為道德規范。在社會活動中,有許多依據群體價值觀制定的規范逐漸被社會所接受成為道德規范,所有社會參與者的行為受這些規范約束。為了語言模型的生成內容能夠符合道德規范,研究人員建立了如SOCAIL-CHEM101和Moral Integrity Corpus等語料庫,這些語料包含了大量的道德場景和簡化的道德規范。除了直接從具體場景和規范進行學習外,還有研究者采用規范倫理學的理論,如正義和美德來引導模型的道德學習。這些理論用于分析收集到的場景,進而訓練語言模型在特定情境中進行基于這些理論的道德判斷。有研究者也探討了利用故事人物作為學習先驗的方法。以“Goofus & Gallant”為例,該故事中的角色行為被用作模型的先驗學習對象,其中正面角色的行為是模型學習的依據。這種方法旨在指導模型學習并吸收相應的道德規范。通過詳細的故事情境展現和角色行為示范,模型能夠在具體的故事背景下,理解并模仿正面角色的行為。

目前大多數為語言模型構建的語料庫主要基于英文文本,這一偏向很可能導致大語言模型的輸出更傾向于體現西方的道德規范。然而,世界各地的道德規范因國家、地區和文化而異,遵循特定道德規范的語言模型可能無法有效服務于遵循不同道德規范的人群。因此,大語言模型價值觀研究不僅應關注模型如何遵循道德規范,而且需考慮模型對多元道德規范的適應性。研究工作應從將普遍認可的共同價值觀整合入模型開始,通過外部機制為模型引入多元價值觀,使之能夠依據具體情境做出適當調整。這將引導我們朝著開發能夠適應多元價值觀的大語言模型這一長期目標邁進,為更廣泛的社會群體提供普惠且包容的人工智能服務。

此外,針對特定領域,如司法和醫療,也存在普遍認可的專業道德規范。開發針對這些垂直領域的模型時,需要從該領域的基本道德規范出發進行對齊。基于此,大模型不僅遵循共同價值觀,還能在特定應用領域中展現出更加專業的倫理判斷。

3.3 大語言模型的個體價值觀

隨著語言模型應用變得更加深入和廣泛,它們將服務于更多樣化的用戶群體,并在日常生活中扮演重要角色,如私人助手等。因此,從個人層面來看,研究者需要讓語言模型的價值觀能夠根據服務對象進行靈活調整,以便提供不同的個性化服務。舉例來說,在教育領域,可以根據學生的不同偏好和不同性格進行個性化教學;在心理健康領域,可以針對患者價值觀設計治療方案,取得更好的治療效果;在論辯任務上,模型能夠根據受眾的價值觀偏好進行有針對性的論辯,取得更好的說服效果。

心理學領域對人類內在價值觀、性格及其相關心理活動的研究提供了重要的洞見,也為支持大語言模型的個性化服務打下了基礎。其中施瓦茨的人類基本價值觀理論是一個廣泛認可的框架。該理論認為,人類的價值觀是驅動行為和評判善惡的根本。基于此,施瓦茨定義了10種核心的價值觀動機。借鑒心理學中的理論,有學者們開發了ValueNet價值觀驅動型對話語言模型,以及能夠識別目標群體的道德價值觀的Moral Debater模型。這些模型的開發是心理學理論應用于人工智能的創新嘗試,旨在使語言模型能更準確地反映和適應目標人群的價值觀。

3.4 社會科學中的價值觀研究

為了深入理解和設計不同層次、適合不同群體的目標價值觀,并確保大語言模型與這些目標價值觀的有效對齊,研究者需要綜合倫理學、心理學、社會科學等多個學科領域的研究成果。這些領域在過去數十年中對人類價值觀進行了廣泛探索,為大語言模型價值觀的體系構建和對齊提供了堅實的理論基礎。跨學科的合作和綜合研究有助于更全面地理解價值觀的復雜性,從而可以為大語言模型的價值觀對齊提供更加科學和精準的指導。

在心理學領域,對人類內在價值觀及其心理活動的深入研究構成了豐富的理論基礎。特別是施瓦茨提出的人類基本價值觀理論,以及喬納森 ? 海特的道德基礎理論,均為探討群體道德價值觀提供了重要視角,其中海特強調了情感直覺在道德形成中的重要性,并將道德分為五個基本維度,涵蓋了關愛、公平、忠誠、權威和純潔等方面。借助這些理論框架,研究者能夠根據特定場景設計有針對性的價值觀和對齊策略。這些理論不僅指導了大語言模型價值觀對齊的研究方向,也為模型的進一步安全發展提供了理論基礎。例如,應用海特理論促進了道德場景數據集和社交媒體言論數據集的發展,為構建、理解和對齊目標價值觀體系提供了關鍵支持。

4 大語言模型的價值觀分類

價值觀分類的目標是辨識文本背后的價值觀屬性,并判斷其與既定目標價值觀的一致性。這個過程不僅適用于分析用戶語言,也關鍵于確保大型語言模型生成的內容符合目標價值觀標準。

4.1 大語言模型生成內容的價值觀分類

早期的文本價值觀分類研究主要集中在識別特定內容,例如文本中的暴力或偏見表達。隨著研究的進展,關注點逐漸轉向更廣泛的領域,不限于識別偏見或不當內容,而是探究語言模型在多元場景中的道德判斷與人類的一致性,以及其對惡意攻擊等情境的響應是否符合社會規范,或者借鑒心理學的方法來評估模型的價值觀特性。

在我們的日常生活中,經常會面臨需要在多種道德規范之間做出選擇的情況,即所謂的道德決策。探索大語言模型如何在這些復雜情境下評估和確定不同道德規范的相對優先級變得至關重要。這些道德決策反映了決策者內在價值觀的強度,以及不同價值觀之間的相對重要性。相關數據集如SCRUPLES 和 MoralExceptQA提供了復雜情境和評估任務,幫助我們分析模型的道德決策是否與人類決策一致,并揭示了大語言模型在靈活應用道德規范方面與人類的差異。這些研究有助于更深入地理解和提高大語言模型在復雜道德情境下的決策能力。

盡管大語言模型展現出在理解和遵循道德價值觀等規范方面的強大能力,我們仍需確保其在處理不同請求時始終堅持這些價值觀,防止產生違反價值觀的內容。為了全面評估大語言模型在價值觀對齊方面的能力,研究人員不僅分析了模型對常規請求的響應,還深入探索了其對惡意請求的響應。這包括設計特定的攻擊性提示,以測試模型在可能引發不當回復的情境下的表現。通過分析這些測試樣例的響應內容,研究人員能夠更準確地評估大語言模型在價值觀對齊方面的表現。例如,Anthropic團隊發布了一個旨在測試大語言模型價值觀的基準。該基準包括在紅隊行動中收集的有害和無害測試樣例,以及人工設計的測試信息,涵蓋攻擊性言論和不道德請求等內容。這些方法為評估和提升大語言模型的價值觀對齊能力提供了重要的工具。通過綜合運用以上的方式,不僅評估了模型在常規情景下的表現,也評估了其在處理具有惡意誘導的輸入時的表現,為模型在價值觀對齊方面提供了更深入的評估方法。

在心理學領域,問卷調查是評估人類價值觀的重要手段之一。近期,研究團隊將這種方法用于大語言模型,專注于研究模型在不同提示下生成內容的變化。實驗表明,盡管提示并未直接涉及特定價值觀,僅起到引導作用,但大語言模型的生成內容在不同提示下仍然會發生變化。這些研究為深入理解大語言模型的價值觀提供了新的視角。

盡管上述方法在某種程度上有助于評估模型的價值觀對齊,但這一領域仍面臨挑戰,因為目前缺乏直接測量大語言模型價值觀的有效方法。這一問題與心理學領域的類似挑戰相似,人類內在心理狀態同樣難以直接測量。然而,根據心理學的特質理論,可以通過觀察與之相關的外在行為來間接推測這些內在特質。因此,研究人員可以借鑒心理學領域的方法,嘗試評估和測量大語言模型的價值觀特性,但需要確保評估方法能夠準確測量模型的特定概念和特征,以保證評估結果的準確性和可靠性。

4.2 大語言模型在自主決策中的價值觀分類

價值觀分類不僅是針對模型的生成內容。模型自主決策的過程也涉及到價值觀的分類。對模型自主決策的價值觀分類方法不依賴于人工撰寫的誘導性文本,而是利用模型在不同決策場景下的偏好選項。例如,加州大學伯克利分校的研究人員開發了名為 MACHIAVELLI 的測試基準。研究人員在 100多本故事的基礎上構建了大量決策場景,并為每個選項設定了評估指標(如不公平行為、物理傷害行為、偷竊行為和權力欲望等)的變化值。模型在故事中做出各種決策,以推動劇情發展。在模型完成任務后,報告模型在不同價值維度上的得分。除此之外,還有如Jiminy Cricket等的測試基準,基于文本環境構建測試場景。這些方法為模型自主決策過程中的價值觀分類提供了有效手段。

5** 大語言模型的價值觀對齊技術**

價值觀對齊技術指通過預訓練或上下文提示等手段,確保語言模型生成的內容或決策符合目標價值觀。價值觀評估、分類與對齊過程相結合,可以實現使得大語言模型在各種情境下提供符合目標價值觀的服務的目的。

隨著大語言模型在多個領域的深入應用,為了確保這些模型與人類的價值觀保持一致,各種價值觀對齊技術逐漸發展和完善。目前,這些技術主要分為兩類,第一類是基于上下文的對齊學習方法,這種方法不需要對模型參數進行微調,而是依賴于模型本身強大的上下文理解能力和對指令的遵循能力;第二類是一系列通過訓練來調整模型行為的方法。如圖2所示,這些方法包括基于具體安全示例的監督微調(SFT)、基于人類偏好的人類偏好反饋強化學習 (RLHF),以及在人類偏好反饋強化學習基礎上加入明確規則的基于規范的獎勵模型(RBRM)等。上述不同技術都有其適用的場景和固有的優缺點。這些技術的發展不僅關系到模型的有效性,還涉及到如何確保人工智能技術在符合倫理和道德標準的同時,更好地服務于人類社會。

5.1 基于上下文學習的對齊

大語言模型在大規模語料庫上進行預訓練,并根據指令進行微調,已經獲得了大量的知識和能力。因此,上下文學習目前成為了一種有效的調整大語言模型輸出表現的方法,其具體做法是通過在提示中顯式要求模型避免有害回復來調整大語言模型的行為。例如,圖2左側所示,通過在提示中加入“不能違法”這一提示,大語言模型可以在輸出中避免給出教唆犯罪的內容。此方法的優點在于不需修改模型的參數,且不會影響模型的基本功能,但是其效果高度依賴于模型自身的糾錯能力,對于那些基礎性能較弱的模型表現不佳。

圖 2 大語言模型價值觀對齊方法

**

**

5.2 人在回路的對齊

人在回路的對齊具體是指在模型算法層面的各個階段,均可通過加入人工價值觀反饋來改進模型算法,常見的方法包括基于示例的監督微調對齊和基于人類偏好反饋的強化學習對齊等。

5.2.1 基于示例的監督微調對齊

與上下文學習不同,監督學習微調方法需要微調模型參數。如圖2所示,使用人工構建的符合價值觀的(輸入,輸出)數據對作為示例,以監督學習的方式訓練模型。在大語言模型ChatGPT出現之前,許多價值觀對齊的工作都采用這樣的訓練方式,例如ProsocialDialog、Moral Stories。此外還有研究人員設計了多種策略,通過提示大語言模型自動生成符合人類道德價值觀的指令數據,例如SelfInstruct和SELFALIGN。監督學習微調是一種在訓練穩定性和快速收斂方面表現出色的方法。然而,它也存在兩個主要限制,一是泛化到新樣例的能力較弱;二是缺乏對負面反饋的學習。這意味著雖然該方法在訓練集上表現良好,但可能在處理訓練集之外的新輸入時表現不佳,且在糾正不恰當輸出方面存在局限性。

5.2.2 基于人類偏好反饋的強化學習對齊

為了解決上述問題,大語言模型在微調階段引入了強化學習。人類反饋的強化學習是最具代表性的算法,共分為三個階段。首先,它使用監督微調訓練具有良好指令跟隨能力的模型。其次,收集并對各種質量的模型生成內容進行排名,以訓練一個獎勵模型。最后,通過PPO(proximal policy optimization)算法在微調大語言模型時應用獎勵模型,對模型的正確輸出進行獎勵和對負面輸出進行懲罰。如圖2所示,該過程對于回復1和2進行排名,對排名高的回復進行獎勵,鼓勵模型生成更好的回復。為了減少對手工反饋的依賴,許多研究使用大語言模型生成數據,例如 Constitutional AI。由于強化學習訓練成本高、資源需求大,且訓練過程不穩定和對超參數敏感,該方法仍需進一步探索。

此外也可采用基于規則的獎勵模型,為獎勵模型預先定義一些規則,獎勵模型根據規則而非從訓練數據學習到的偏好進行評分,如圖 2 所示。其中需要注意獎勵攻擊(reward hacking)問題,即生成模型可能通過學習到獎勵模型的某些特殊偏好來最大化其獎勵,這導致生成的內容可以被獎勵模型給出較高的評分但并不與人類的偏好完全對齊。受到PPO中訓練不穩定性的啟示,研究者探索了不依賴明確獎勵模型或強化學習的方法。DPO(direct preference optimization)采用了一種新策略,直接優化期望與不期望響應之間的相對對數概率。與此同時,RAFT方法則通過獎勵模型篩選高質量樣本進行模型的微調。有研究者提出RRHF方法,從各種基線模型、人類數據和目標模型等不同來源收集響應,并通過排名損失學習使它們與人類偏好保持一致。上述這些方法的共同特點是它們都能保留人類的偏好信號,同時規避了強化學習中常見的超參數敏感性問題。

5.3 多智能體協作的對齊

一些研究者還嘗試了通過多智能體協作對模型的價值觀進行對齊。例如 Stable Alignment方法使用了如Text-Davinci-003、ChatGPT等多種模型,并為它們設定了多種角色提示,從而構建了一個模擬社交互動的“沙盒”環境。在這個“沙盒”中,待對齊的模型會根據輸入指令生成多個回復,而這些回復會被“沙盒”中其他模型扮演的角色進行評分。這一機制旨在鼓勵模型傾向于生成得分更高的回復。多智能體構建的“沙盒”在這里起到了類似于獎勵模型的功能。這種對齊方式類似于模型蒸餾,依賴于扮演不同角色的大語言模型的價值觀對齊程度。

**6 **展望

隨著大語言模型技術的快速發展,其在社會各領域的影響也日益明顯。但同時,大模型與人類價值觀之間的對齊問題越來越受到公眾、研究者和政策制定者的關注。未來的大語言模型價值觀對齊研究有五個發展趨勢。

(1)多學科交叉驅動的大模型價值觀對齊。大語言模型的價值觀對齊問題亟需跨學科合作,涵蓋領域包括社會學、心理學等,這些學科可以為價值觀對齊研究提供重要的理論支持,同時可以協助研究人員建立更全面的價值觀指導原則和法規框架,以應對模型在不同領域和文化中的應用挑戰。基于此,多學科交叉可以從數據層面、算法動機層面、評測層面等多個層面為大模型價值觀對齊的研究提供支持,促進價值觀對齊策略和方法的高效發展。

(2)價值觀數據的多樣化和全面化。未來我們需要更加多樣和全面的數據集來捕捉和表示人類價值觀。這些數據集不僅應該包括各種文化、地域和社會背景的情境,還應該囊括不同哲學和道德觀念,確保大語言模型可以更好地為全世界不同用戶服務。實現價值觀數據的多樣性和全面性不僅需要跨足各個文化、地域和社會背景,還需要交叉學科的思維和貢獻。這些交叉學科相關的研究者們可以提供寶貴的思路和數據資源,有助于更好地理解和捕捉人類的多樣化價值觀。

(3)在大模型基礎能力之上持續增強價值觀對齊能力。研究表明,當大模型的價值觀對齊能力增強之后,很有可能會影響大模型的其他能力,因此,如何在不斷變化的環境中有效平衡價值觀對齊與模型的核心功能,成為了一個關鍵的研究問題。未來的工作應致力于開發成本更低、效率更高且廣泛適用的對齊策略,確保模型在處理復雜或惡意情境時,仍能做出與人類價值觀一致的決策。

(4)價值觀對齊模型的可解釋性。為了增進用戶對大語言模型決策過程的理解和信任,未來的研究需要更加關注模型的可解釋性。這包括探索如何使模型的決策過程更加透明,了解模型行為背后的原因,以及如何表示模型在提供服務時依賴的道德和價值觀標準。通過提高模型的可解釋性,研究者和用戶可以更好地理解模型行為背后的動機和邏輯。

(5)檢測評估手段的多樣性。目前大語言模型價值觀的不同評估手段有各自的局限性,也存在不同提示模版下大語言模型表現出的道德價值觀不同的情況,因此,檢測大語言模型內在價值觀是需要深入探索和分析的問題。研究者可借鑒心理學和認知科學等領域的評估方法,并探索適用于不同價值觀體系的分類評估方法。

大語言模型的價值觀對齊涉及哲學、倫理、心理學和社會學等多個領域。未來,更多的跨學科合作將成為必然趨勢。隨著大語言模型在各個領域的廣泛應用,政府和行業組織可能會出臺相關的政策和規范,確保技術的發展符合社會的整體利益。

7 結束語

大語言模型的價值觀問題既復雜又具有深遠的研究意義。雖然目前面臨眾多挑戰,但同時也蘊藏著巨大的機遇。盡管目前還存在許多挑戰,但大語言模型提供了前所未有的機遇。通過與人類價值觀的深入對齊,模型不僅可以提供更為智能和高效的服務,還可以更好地理解道德觀念和價值觀,推動人類社會的更為和諧發展。全社會需要充分認識到這一問題的重要性,并采取有效的對策,確保未來的大語言模型能為人類帶來更多的福祉和機遇。

(參考文獻略)

秦兵

哈爾濱工業大學社會計算與信息檢索研究中心主任、教授。主要研究方向為自然語言處理、知識圖譜、情感計算、文本生成。

吳迪

哈爾濱工業大學博士研究生。主要研究方向為價值對齊、社會計算和模型安全。

選自《中國人工智能學會通訊》 2024年第14卷第1期 人工智能倫理治理新挑戰專題

付費5元查看完整內容

基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注,特別是在以故障診斷、軟 測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模, 這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面 向工業監控典型監督任務的深度遷移學習方法,并將其分為基于模型遷移、基于樣例遷移與基于特 征遷移的工業監控方法。在此基礎上,對不同類方法的基本研究思想、在故障診斷與軟測量任務中 的研究進展進行了詳細闡述。隨后,從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移 問題、工業過程的動態特性問題等角度,指出了當前基于深度遷移學習的工業監控研究中存在的挑 戰,并對該領域的未來研究方向做出進一步展望。

1. 引言

隨著現代工業不斷向高端化、復雜化趨勢發展,系統運行的安全性、可靠性面臨著更大挑戰 [1~ 3]。作為保障工業安全可靠運行的必要手段,以數據驅動的故障診斷與軟測量為典型代表的工業監 控任務在近年來獲得了大量關注 [4~6]。故障診斷旨在識別出當前系統所發生的故障類型,而軟測量 往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中,質量變量一般指在工業過程中 與產品質量緊密相關的、需加以監控的過程變量,這類變量往往具有獲取成本較高、測量具有一定 延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本,有監督機器學 習方法目前在這兩類任務中得到了廣泛應用 [8~10]。近十年來,得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署,基于深度學習的方法在工業監控領域大放異彩。例如,基于各類卷積 神經網絡 [11~14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟 測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而,這些方法往往假設訓練數據與測試 數據具有相同的分布 [18]。在實際工業場景中,操作條件改變、給料變化等復雜變工況現象 [19~22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑 戰。

近年來,隨著深度遷移學習方法的興起,通過挖掘與遷移相似源域的知識來完成對目標域的建 模,為解決上述問題提供了新的思路 [23]。一般來說,深度遷移學習方法以深度神經網絡為基礎,通 過利用源域中的數據或模型,進一步結合目標域中的有限數據,以完成知識的遷移過程。不同于傳 統基于機器學習的工業監控方法對不同域單獨建模并決策,基于深度遷移學習的工業過程監控方法 往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經 驗中學習到的知識以輕松適應新的場景這一能力。基于此理念,近年來深度遷移學習方法在工業監 控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻 搜索,可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示,在過去的五年中,本領 域的相關研究經歷了飛速發展,其中,英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇,中 文文獻數量從 0 篇增長至 28 篇,顯示出相關學者對本領域的關注不斷提升。當前,國內外學者針 對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究,也有一些工作對相關研究進行了 整理與綜述。例如,文獻 [23] 根據傳統遷移學習中的不同任務場景,將遷移學習分為歸納式、直推 式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同,將深度 遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方 面,目前已有若干前人工作 [25,26]。例如,Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行 了總結與綜述。此外,針對流程工業的軟測量問題,Curreri 等人 [28] 根據遷移學習在不同類型工業 過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究 進行了簡要回顧,并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看,目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題,從深度遷移學習的角度出發對工業監控 中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此,本文面向工 業監控中的兩種典型有監督任務,即故障診斷與軟測量,對深度遷移學習方法展開了相關綜述。其 中,故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義;另一方面其建模 往往基于工業過程歷史運行過程中積累的有監督樣本,屬于工業監控中有監督學習的典型代表。此 外,在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注,屬于工業監 控領域的熱門研究方向之一。

本文的結構框架如圖2所示。首先,對基于深度遷移學習的工業監控方法現狀進行介紹。其中, 首先對深度遷移學習進行概述,進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類 別,即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測 量兩種應用場景進行介紹。其次,從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移 問題,以及工業過程的動態特性問題等角度,對當前基于深度遷移學習的工業監控方法所面臨的挑 戰進行了分析。最后對本領域的未來研究方向,包括多源信息融合的跨域工業監控以及語義知識與 數據聯合驅動的跨域工業監控做出進一步展望。

**基于深度遷移學習的工業監控方法總結 **

在本小節中,將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典 型工作、方法特點與適用場景總結于表1中。如表所示,總體來看,基于模型遷移的工業監控方法往 往要求目標域中包含少量標注數據。若源域中包含充足標注數據,即可基于源域工況建立基礎模型; 反之,可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法, 往往針對源域與目標域均具有標注樣本的情況,通過對源域與目標域數據進行權重學習,從而實現 可遷移樣例的挖掘。此外,樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景 較為適用。最后,基于特征遷移的工業監控方法相較于其余兩類方法,在近年來獲得了更多的研究 關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移,較適用 于目標域中只有無標注樣本的場景。

付費5元查看完整內容

摘要 隨著深度學習算法在圖像分割領域的成功應用,在圖像實例分割方向上涌現出一大批優秀的算法架構.這些架構在分割效果、運行速度等方面都超越了傳統方法.本文圍繞圖像實例分割技術的最新研究進展,對現階段經典網絡架構和前沿網絡架構進行梳理總結,結合常用數據集和權威評價指標對各個架構的分割效果進行比較和分析.最后,對目前圖像實例分割技術面臨的挑戰以及可能的發展趨勢進行了展望.

//www.ejournal.org.cn/CN/abstract/abstract12215.shtml

付費5元查看完整內容

摘要: 深度學習的可解釋性研究是人工智能、機器學習、認知心理學、邏輯學等眾多學科的交叉研究課題,其在信息推送、醫療研究、金融、信息安全等領域具有重要的理論研究意義和實際應用價值.從深度學習可解釋性研究起源、研究探索期、模型構建期3方面回顧了深度學習可解釋性研究歷史,從可視化分析、魯棒性擾動分析、敏感性分析3方面展現了深度學習現有模型可解釋性分析研究現狀,從模型代理、邏輯推理、網絡節點關聯分析、傳統機器學習模型改進4方面剖析了可解釋性深度學習模型構建研究,同時對當前該領域研究存在的不足作出了分析,展示了可解釋性深度學習的典型應用,并對未來可能的研究方向作出了展望.

付費5元查看完整內容
北京阿比特科技有限公司