亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要 規劃與調度問題是在一定周期內完成資源與任務最優配置的過程,人工智能技術在此領域取得許多重要進展。 大語言模型作為生成式人工智能的代表,在規劃與調度領域同樣展現出強大能力。將規劃與調度劃分為用戶需求分析、方案生成、場景建模、優化算法設計4個階段,探討了大語言模型技術在每個階段的應用,并構思一套完整的以大語言模型技術構建的求解框架,以及這些技術與框架如何在各階段發揮效用。這些技術在解決更大規模、更復雜的問題具有潛在發展空間,并展望了結合大語言模型的研究趨勢。 //www.jc2.org.cn/CN/abstract/abstract703.shtml

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

隨著大規模語言模型(LLM)技術的快速發展以及生物信息學特定語言模型(BioLMs)的出現,對當前領域的綜合分析、計算特性和多樣化應用的需求日益增加。本綜述旨在通過對BioLMs進行全面回顧來滿足這一需求,重點介紹其演變、分類及其獨特特征,同時詳細考察訓練方法、數據集和評估框架。我們探討了BioLMs在疾病診斷、藥物發現和疫苗開發等關鍵領域的廣泛應用,突出了它們在生物信息學中的影響力和變革潛力。我們識別了BioLMs中固有的關鍵挑戰和局限性,包括數據隱私和安全問題、可解釋性問題、訓練數據和模型輸出中的偏差以及領域適應的復雜性。最后,我們強調了新興趨勢和未來發展方向,提供了有價值的見解,以指導研究人員和臨床醫生推動BioLMs在日益復雜的生物學和臨床應用中的進步。

1. 引言

大規模語言模型(LLM)的快速發展,如BERT [1]、GPT [2]及其專門化的對應物,已經徹底改變了自然語言處理(NLP)領域。它們能夠建模上下文、解讀復雜數據模式,并生成類人反應,這使得它們自然地延伸到生物信息學領域,在這個領域中,生物序列往往與人類語言的結構和復雜性相似 [3]。LLM已成功應用于多個生物信息學領域,包括基因組學、蛋白質組學和藥物發現,提供了以前通過傳統計算方法無法獲得的見解 [4]。 盡管取得了顯著進展,但在系統地分類和全面評估這些模型在生物信息學問題上的應用方面仍然存在挑戰。考慮到生物信息學數據的多樣性以及生命活動的復雜性,導航這一領域常常充滿挑戰,因為現有研究通常集中在有限的應用范圍內。這導致了對LLM在多個生物信息學子領域中更廣泛應用的理解存在空白 [5]。 本綜述旨在通過提供LLM在生物信息學中的應用的全面概述,來解決這些挑戰。文章通過關注不同層次的生命活動,從兩個主要視角收集并展示相關工作:生命科學和生物醫學應用。我們與領域專家合作,編寫了跨越這些視角中的關鍵領域的深入分析,如核體分析、蛋白質結構與功能預測、基因組學、藥物發現和疾病建模,包括腦部疾病、癌癥以及疫苗開發中的應用。 此外,我們提出了“生命活性因子”(Life Active Factors,LAFs)這一新術語,用以描述作為生命科學研究目標候選分子和細胞成分的因素,這不僅包括具體實體(DNA、RNA、蛋白質、基因、藥物),還包括抽象組件(生物通路、調節因子、基因網絡、蛋白質相互作用)以及生物學測量(表型、疾病生物標志物)。LAFs是一個全面的術語,能夠調和各個生物信息學子領域研究中產生的概念差異,有助于對LAFs及其在復雜生物系統中相互作用的多模態數據的理解。LAFs的引入與基礎模型的精神高度契合,強調了在尊重每個LAF作為生物網絡節點的相互關系的同時,統一了LAFs的序列、結構和功能。 通過彌合現有的知識空白,本工作旨在為生物信息學家、生物學家、臨床醫生和計算研究人員提供如何有效利用LLM來解決生物信息學中迫切問題的理解。我們的綜述不僅突出了近期的進展,還識別了開放性挑戰和機遇,為未來跨學科合作和創新奠定基礎(圖1)。

付費5元查看完整內容

大模型在軍事指揮決策中存在巨大的潛在應用價值,需要明確大模型能力邊界,才能更好地推動應用落地。從國內外 大模型行業發展現狀、大模型的能力邊界、潛在的指揮控制應用3個方面進行了分析。分析最先新大模型能力邊界以及國內大 模型的相對水平,對大模型能力缺陷、能力擴展手段進行了總結。提出大模型在指揮控制應用方法以及帶來的智能化等級提 升。提出在指揮與控制應用領域應重點開展的工作建議。

付費5元查看完整內容

摘 要 隨著大語言模型技術的快速發展,其在網絡空間認知域作戰中的應用展現出巨大潛力。基于大語言模型的發展歷程和獨 特優勢,聚焦于網絡空間認知戰領域,從態勢感知、態勢認知、鑒定識別和信息作戰4個方面梳理了大語言模型關鍵技術路線,并 詳細分析了將其應用在網絡空間認知戰中的具體方案及未來挑戰,為我國在該新興領域取得新質戰斗力提供理論和技術支持。 關鍵詞 大語言模型,網絡空間,認知戰,技術與挑戰 《孫子兵法》云:“不戰而屈人之兵”,從作戰效率 和作戰效果而言,這是一種費效比極佳、“善之善 者”的作戰方案。在現代戰爭中,網絡空間認知域作 戰構成了一個多維度戰略框架,通過融合物理領域 的行動、信息領域的利用和認知領域的防御與攻擊, 旨在在網絡空間奪取敵人的意志、信念、心理和思 維主導權。網絡空間認知域作戰方式融合了傳統的 輿論戰、心理戰、法律戰,以及政治戰、經濟戰、文 化戰等多種戰術手段,形成了一個綜合性的作戰體 系,具有“全天候、不宣而戰”的特點,極大程度上助 力實現“不戰而勝”的戰略目標,對我軍新型戰斗力 的塑造起到了關鍵作用。 網絡空間的認知戰是利用先進的網絡信息技術 和傳播媒介,在現實物理戰場之外構建的思想認識、 公共輿論和意識形態的斗爭領域。這種戰斗形式通 過主導和影響公眾的情感認同和認知,爭取主導權 和話語權,目的是引導事件的發展至有利于本國利 益的方向。在網絡空間認知戰中,一方面充分利用 算法和數字智能的優勢,以實現對公眾認知的操縱; 另一方面,基于分布式協同控制技術進行智能技術 賦能,通過網絡實現作戰資源的協調、戰場態勢的 感知和上下級指令共享,進而達成分布式的智能化 作戰,實現自主決策和協同行動。各個國家對于未 來戰爭作戰力量的部署都向著動態/分布式作戰體系 發展[1] 。在認知戰領域,隨著大語言模型(large lan? guage models,LLMs)的進步,特別是通過內容創建和 虛假信息活動執行過程的自動化,可以實現在態勢 感知和態勢認知的基礎上,由識別虛假信息和生成 虛假信息兩方面協同控制戰場局勢,實現分布式體 系部署,為網絡空間認知戰的發展提供了更多的可能性,使整個網絡空間認知戰的作戰方式更加靈活。 LLMs基于機器學習技術,借助其強大的生成能 力和理解能力,能夠被用來為認知層面的攻擊提供 支持[2] ,也使得生成面向特定語境的高復雜度的信息 成為可能。這些信息能夠更深刻地觸動目標群體, 同時使得影響活動更不易被察覺和消除。不僅為更 多不同類型的行為者發起虛假信息宣傳活動打開了 大門,也為覆蓋大量受眾的高度可擴展的宣傳活動 創造了潛力。

付費5元查看完整內容

摘要 文章探討了大模型作為人工智能技術的前沿應用之一,在軍事領域具有廣泛的應用前景,包括指揮控制、情報分析、戰術訓練等多個方面。然而,大模型的應用也面臨著諸多挑戰和安全風險,如計算資源需求、模型解釋性、數據安全性等方面的問題。為了充分發揮大模型在軍事領域的潛力,文章提出了一系列建議,包括加強技術創新、提升計算資源支持、保障數據安全、加強模型解釋性、應對安全風險等方面的措施。 關鍵詞 大模型,人工智能,軍事應用,指揮控制

0 引言 當今迅速發展的科技時代,人工智能(AI)技術正以前所未有的速度改變著我們的生活和工作方式。其中,大模型(Large Language Model,LLM)作為人工智能技術的重要代表之一,已經在各個領域展現出了驚人的應用潛力。在軍事領域,大模型所蘊含的強大計算能力、大規模數據處理能力和智能決策能力引發了人們對其在戰爭模擬、情報分析、戰場指揮等方面的廣泛關注[1-4]。 大模型[5-6]通常指的是擁有數億甚至數十億參數的深度學習模型,其可以通過學習大量的數據來提取特征,從而實現對復雜問題的建模和預測。隨著軍事技術的不斷發展和戰爭形態的日新月異,如何有效利用大模型技術來增強軍事力量、提高戰爭效率、保障國家安全,成為當前軍事領域面臨的重大挑戰 要課題之一。大模型的應用可以極大地提高情報分析的準確性和效率,輔助指揮員進行決策,提高指揮控制的智能化水平,同時也可以用于武器系統的目標識別、路徑規劃等領域,提高武器系統的性能。 本文將首先介紹大模型大模型的概念、特點,其次介紹大模型在軍事領域中的具體應用、情報分析、指揮控制、武器系統等方面,接著分析大模型在軍事領域應用的挑戰,如數據安全、算法偏見等,探討我國在這一領域的現狀和未來發展方向,最后總結全文并展望未來。

付費5元查看完整內容

文/李興明,胡慶擁

摘 要:

大語言模型在實際應用場景中經常面臨知識沖突的問題,主要包括上下文 - 記憶知識沖突、多源上下文知識沖突和記憶內知識沖突。本文首先從訓練數據的局限性、模型問題,以及外部信息缺陷三個方面深入分析知識沖突的成因;隨后進一步探討了知識沖突造成的影響,并全面回顧了知識沖突的解決方案,如領域事實增強、提示工程和模型結構層面的改進。最后對知識沖突領域未來研究方向進行了展望,包括建立可靠的評估框架、基于大模型的智能體研究,以及多模態背景下的知識沖突處理。 關鍵詞:

人工智能;大語言模型;知識沖突;智能體;多模態

0 引言

近年來,隨著深度學習、Transformer架構等關鍵技術的突破,預訓練大語言模型(large languagemodel,LLM)實現了飛躍式發展,成為人工智能領域最炙手可熱的研究方向之一。自2022年底ChatGPT系統面世以來,業界掀起了“大模型”研究熱潮,全球研究機構與科技巨頭紛紛布局,在大模型領域投入大量研發資源和力量。

大語言模型通過預訓練的方式,在海量非結構化數據上學習獲取通用知識和語義表征能力,可廣泛應用于自然語言理解、生成、推理、問答等諸多任務,被視為實現通用人工智能的關鍵基石;大語言模型卓越的泛化能力和強大的知識遷移特性,使其在智能對話、文本摘要、代碼生成、決策推理等多個應用場景展現出巨大潛力,有望推動通用人工智能的發展。

然而,隨著大模型規模和復雜性的不斷擴張,其內在存在的知識質量缺陷問題也日益凸顯,主要表現為三個方面。

(1)數據不平衡、噪聲較多導致模型吸收了大量低質量、不一致的知識;

(2)純序列建模難以很好地刻畫現實世界中的結構化知識,因為大模型傾向于編碼訓練數據中普遍存在的淺層模式,而非真正理解其中蘊含的底層知識;

(3)缺乏高效知識概念學習和推理機制。 上述問題最終會導致模型內知識與客觀事實存在明顯的語義沖突和矛盾,從而產生“知識沖突”的問題,影響大模型輸出的可信性,進而限制了其在實際應用中的廣泛落地。

**1 **大語言模型的知識沖突

1.1 參數化知識概述

“參數化知識”是指大語言模型在大規模無標注的文本語料數據庫上經過自監督預訓練得到的、存儲于其權重(參數)中的知識,代表模型對數據的理解和泛化能力。這種知識包括但不限于語言學知識、常識、算術知識和世界知識等。

不同于傳統模型依賴于顯式編碼的知識庫,參數化知識的特點在于其隱含性及動態性。這意味著知識不是以明顯的形式存在,而是通過模型參數的復雜交互而隱式地表現出來。大語言模型能夠利用這些內化的知識,理解復雜的查詢,生成信息豐富的回答,或者完成特定的文本任務。

參數化知識的一個關鍵優勢,是它使得模型具備了一定程度上的泛化能力。也就是說,即便是模型在訓練數據中未直接接觸過的信息或任務,只要這些新的查詢與模型通過預訓練內化的知識在某種程度上相關,模型仍有可能給出合理的輸出。這種能力歸功于大語言模型在訓練過程中,學習到的深層語言結構和豐富的世界知識;換言之,這種參數知識是大模型強大能力的基礎和源泉。

盡管參數化知識為大語言模型提供了強大的預測能力和靈活性,但其仍存在以下幾點局限性。

(1)知識不足或信息缺失。盡管模型的預訓練語料庫包含了豐富的信息,但不可能全面覆蓋所有領域的全部事實。如果特定的事實知識在訓練數據中未出現或出現頻次極低,模型可能缺乏相應的知識,導致在需要這些特定信息時生成錯誤或無關的答案。此外,模型難以保留訓練語料庫中的所有知識,尤其是對于不常見的信息。

(2)參數無法動態更新。隨著時間的推移和科技的發展,許多知識在不斷發生變化。例如,問題“美國總統是誰?”在2019年的答案可能是“唐納德·特朗普”,而現在的答案是“喬·拜登”。在實際使用過程中,需要不斷更新模型中的過時和錯誤知識。與傳統數據庫或知識圖譜不同,語言模型的知識存儲方式是分布式的,蘊含于整個網絡結構的參數中,這使得精確定位并更新模型中對應的舊知識成為一項挑戰。

(3)預訓練和微調成本高。隨著參數數量的增加,訓練和推理的計算成本也相應增加。這不僅需要更多的計算資源,還可能限制模型在資源受限的環境中的應用。

1.2 什么是知識沖突

在實際應用中,大語言模型除了依賴其內部參數化的知識外,還會持續接觸到外部的情境知識。這包括用戶輸入的提示、互動對話,以及通過工具或檢索增強提供外部信息作為大語言模型的新證據,例如ChatGPT外掛的插件及 New Bing。將這些動態獲取的新知識融合進模型,一方面可以彌補模型預訓練階段積累知識的滯后性,使其了解時事和新興領域;但另一方面,外部輸入的知識往往也會與大模型內部的參數知識產生分歧和矛盾,從而引發“知識沖突”問題。

所謂“知識沖突”,是指大語言模型內部固化的參數知識與來自上下文環境的外部獲取知識之間存在的差異、矛盾和沖突。這種知識沖突不僅影響大模型對問題的理解和判斷,還可能導致其生成的輸出存在事實錯誤、邏輯違背常識等嚴重缺陷,從而降低模型可靠性和可信性。

知識沖突可以進一步分為下述幾類,如圖1所示。

圖 1 知識沖突的分類

(1)上下文 - 記憶知識沖突。指大語言模型的參數知識與提供的上下文信息(如用戶提示、檢索文檔、歷史對話等)存在的不一致與沖突。

(2)多源上下文知識沖突。指大語言模型在利用第三方工具或采取檢索增強策略時,從不同知識源獲取的信息之間存在不一致,如不同文檔的時間戳不一致、部分檢索文本含有虛假信息等。

(3)記憶內知識沖突。指針對用戶同一個問題的不同表述,由于模型訓練數據的不一致,可能會導致模型給出不同甚至自相矛盾的回復。

1.3 知識沖突的影響

知識沖突問題不僅是大語言模型面臨的一個技術挑戰,更是實現其可靠應用和廣泛部署的關鍵瓶頸。深入研究并解決知識沖突問題,可以優化大語言模型的一致性、魯棒性和泛化能力,這對于工具增強和檢索增強技術在大模型部署中的成功應用至關重要。更為重要的是,有效處理知識沖突還能有助于預防惡意攻擊者濫用大模型強大的生成能力,如傳播虛假信息和進行網絡攻擊。例如,攻擊者可能通過劫持第三方工具,提供給模型欺騙性和誤導性文檔,若能妥善解決知識沖突問題,則可避免模型產生有害信息。盡管目前對知識沖突問題的研究尚處于初級階段,開展系統深入的理論研究和技術創新,對于大語言模型的持續發展和廣泛應用構建堅實的理論和實踐基礎也尤為重要。

2 知識沖突的成因分析

要分析大語言模型在知識沖突場景中的表現及解決方案,首先需要深入探討導致其產生知識沖突的根源。本節將從訓練數據、模型架構和上下文信息三個方面,深入探討導致大語言模型產生知識沖突的根因。

2.1 訓練數據

2.1.1 領域數據不足 盡管大語言模型因其海量知識壓縮和出色的泛化能力在知識密集型任務中表現出色,但在特定領域的專業知識處理上仍面臨挑戰。這主要源于訓練數據在覆蓋范圍和深度上的不足。若未能充分學習某領域的全面知識,模型在該領域的表現便可能出現缺陷,在回答相關專業問題時容易出現“上下文 -記憶知識沖突”,即模型的存儲知識與實際情境不匹配,從而產生錯誤或不準確的輸出。

2.1.2 訓練數據質量缺陷:錯誤信息與偏見 大語言模型主要通過在海量無標注的文本語料庫上自監督學習獲取知識。然而,這些語料庫常存在質量缺陷,可能包含大量低質量信息、錯誤知識和潛在的社會文化偏見。一方面,模型從包含錯誤知識的數據中學習后,這些錯誤會被內化并放大,導致參數中編碼了矛盾的知識,進而在特定場景下產生沖突;另一方面,訓練數據所反映的各種偏見也會被模型學習和放大,如性別、種族等,影響其判斷和決策過程,發知識系統中潛在的偏差和矛盾。

此外,大模型往往過度依賴訓練數據中的淺層模式和相關性,如詞語共現統計、位置接近性等,而未能真正理解知識的本質,這使得模型容易受訓練數據中的虛假相關性的影響,導致在不同語境下產生前后不一致的輸出,加劇了知識沖突的風險。

2.1.3 訓練數據時效性 大語言模型的參數化知識具有明顯的時間局限性。一旦完成訓練,這些知識就無法繼續更新,而是靜態固化于訓練數據的時間節點,以隨著時間推移自動更新和追蹤現實世界的變遷。隨著時間流逝,模型內部知識會逐漸過時失效,成為引發知識沖突的又一重要根源。

為彌補模型內部知識的滯后性,在實際應用場景中,用戶通常需提供動態的外部補充信息,如上下文對話歷史、相關文檔檢索等。然而,當模型嘗試將這些外部動態知識與自身內部的過時靜態知識融合時,兩者之間的矛盾和沖突往往難以避免,從而使模型陷入知識沖突的困境。

2.2 模型架構

2.2.1 解碼策略 大語言模型通過預測詞匯表中每個單詞出現的概率分布來生成輸出,解碼(decoding)環節對于將模型知識轉化為可解釋輸出至關重要。主流解碼策略包括確定性搜索 (如貪婪搜索(greedy search)和束搜索(beam search))和隨機采樣(如Top-k采樣(Top-ksampling)和Top-p 采樣(Top-p sampling))。

貪婪搜索通過選擇每一步概率最高的單詞生成輸出,而束搜索則維持多個高概率候選序列,力求在整體上找到最優輸出。相比之下,隨機采樣是當前大語言模型廣泛采用的主導解碼策略,它通過在概率分布中隨機抽樣,能夠產生更多樣化的輸出。然而,這種隨機性也為生成的內容引入了不確定性,可能導致模型在相同條件下輸出前后不一致的結果,從而引發由內部記憶機制導致的知識沖突。

另外,大模型通常按從左到右逐詞生成方式,可能引發“滾雪球效應”,即早期生成的單詞會對整個輸出產生重大影響。一旦早期出現偏差,后續難以糾正,加劇了輸出與事實的偏離,進而引發知識沖突。

2.2.2 預訓練和微調的不一致 大模型在預訓練和微調兩階段獲取的知識存在潛在不一致,這是導致模型輸出知識沖突的另一重要原因。

預訓練旨在大規模無標注語料庫上學習通用的語言表示能力,如文本中的底層模式、結構和語義知識。而微調則是在特定任務數據集上對模型參數進行進一步優化,以提高其在特定領域的性能表現。由于兩階段的訓練目標和數據來源的差異,模型可能從中習得了不盡相同的知識。

一方面,預訓練數據覆蓋面廣但深度有限,模型從中習得的是普遍的世界知識和語言模式;另一方面,微調階段引入了新的專業知識,這些知識可能無法從預訓練數據中學習,甚至可能與之存在矛盾。當用戶的查詢觸及此類知識時,模型難以準確把握哪些知識才是相關準確的,從而在生成輸出時產生混亂,引發知識沖突。

2.3 外部上下文信息

大語言模型在實際應用中存在參數知識滯后和情境理解不足的缺陷。為彌補這一缺陷,檢索增強生成技術(retrieval-augmented generation,RAG)被廣泛采用,通過檢索并融合外部補充信息,以增強模型的知識掌握能力。一些主流商業模型如ChatGPT、Perplexity.ai、Gemini、NewBing等在部分web界面上已開始使用帶RAG功能的版本。然而,所檢索的外部信息的準確性和時效性不足,可能成為導致大模型產生知識沖突的又一主要誘因。

2.3.1 外部信息的準確性缺陷 首先,信息檢索系統將原文本編碼為向量表示時,不可避免會發生一定信息損失,如可能遺漏或扭曲了原文細節和語義,影響檢索質量。其次,檢索系統返回結果并非全部與查詢高度相關。以“提升遙感影像目標檢測精度”為例,返回內容可能包含“紅外目標檢測”等偏題信息。模型整合這些無關或錯誤信息時,可能被誤導而接受并傳播了不當知識。

更為關鍵的是,檢索得到的外部信息可能與模型內部知識存在矛盾,不同檢索文檔間也可能出現差異和沖突。最新研究發現,檢索文檔的質量與模型對內部參數知識的依賴傾向之間存在反比關系:檢索到的證據越不相關,模型對內部參數知識的依賴性越強;同時,當外部證據部分與內部記憶一致時,大模型會過度信賴該部分,而忽視其他相沖突的外部信息。但這種復雜的證據權衡機制有待深入探究。此外,惡意攻擊者可能故意提供虛假外部信息,誘導模型生成有害或違法輸出,引發潛在安全隱患。

2.3.2 外部信息時效性缺陷 外部信息的時效性也是一大挑戰。在科技、政治等快速變化的領域,過時的信息可能會嚴重誤導模型和最終用戶。以政治人物相關查詢為例,若參考的是多年前的舊信息,結論就可能與當下情況嚴重偏離。即使采用私有知識庫作為檢索源,時效性問題也難以完全根除。若知識庫未及時維護和更新,同一文檔的新舊版本可能并存,導致時間上的矛盾和沖突。以法規修訂為例,用戶查詢時應當參考的是最新版本,但若模型同時檢索到舊版本,其生成的回復就可能出現嚴重錯誤。

3 知識沖突的解決方案

面對大語言模型中的知識沖突問題,國內外研究者已提出了多種策略緩解這一挑戰。下面將對這些解決方案進行全面的回顧,結合之前對于知識沖突成因的討論,我們將現有的策略分為如圖 2 所示的三大類:①領域事實增強,主要針對訓練數據層面的問題;②模型層面,旨在通過改進模型架構或其內部機制以應對知識沖突;③提示工程,側重于優化模型對于外部信息的處理。

圖 2 知識沖突解決方案

3.1 領域事實增強

3.1.1 持續預訓練 通過持續預訓練,模型能夠不斷補充和更新其知識庫,以適應不斷發展的知識領域。圖3示出了大模型的不同預訓練方式。首先是對預訓練數據質量的優化,包括刪除重復數據、剔除過時、錯誤及虛假信息,從根源上避免模型內化矛盾知識,鑒于現有的預訓練語料庫規模龐大,目前的研究主要采用簡單的啟發式。規則來選擇和過濾數據。其次,在通用語言模型的基礎上,引入特定領域的高質量語料對其進行微調,使模型逐步完善相關知識的表示,有效地獲取新領域的知識。例如,雖然持續預訓練可以幫助模型快速有效地學習領域事實知識,但其也存在嚴重缺陷,如模型易發生災難性遺忘,忘記已經學過的來自舊領域的知識,常用的解決方法是將領域數據與通用數據按一定比例混合后對模型進行預訓練。

圖 3 大模型的不同預訓練方式

3.1.2 持續 SFT 除持續預訓練外,持續微調也是增強模型領域事實知識以避免出現知識沖突的重要方法。研究人員通過設計不同的知識注入方式,如ERNIE、KnowBERT和K-BERT等,將專業領域知識注入到語言模型中,從而提升其在下游任務的性能;為了增強模型在特定任務背景下優先考慮上下文信息,而在與場景上下文無關時則更依賴內部參數知識的能力和魯棒性,知識感知微調方法 (knowledgeaware finetuning,KAFT)通過將反事實和不相關的上下文納入微調數據集,采取對抗訓練策略,增強模型分辨與任務相關知識的能力。此外,拒絕感知指令微調(refusal-aware instruction tuning,R-Tuning)通過識別參數知識和指令微調數據之間的知識差距,然后基于知識交集構建拒絕感知據,來微調大語言模型,使其避免回答超出能力范圍的問題。

3.1.3 外部知識 大語言模型雖展現出強大的理解、生成和泛化能力,但在實際應用中,仍面臨準確性、知識更新速度和答案透明度等方面的挑戰。引入外部知識可有效結合大語言模型的參數化知識和非參數化的外部知識,如數據庫、網站、非結構化文檔等,成為緩解知識沖突,加速大模型落地應用的關鍵手段。提升與外部知識的結合主要有兩種方式,一是檢索增強,通過在原有的檢索框架和策略上做進一步改進,以提供與情境上下文更加相關、細粒度的外部證據,避免返回無關或矛盾信息;二是工具增強,調用其他專業模型API,擴展大模型的能力邊界。

3.2 模型架構

3.2.1 解碼策略 在大語言模型中,優化解碼策略是用于減少模型在文本生成過程中可能存在的知識沖突的有效方法。這些策略通過調整模型生成文本的概率分布,直接影響輸出結果,從而提高模型的靈活性和輸出的可信度。盡管這些方法可能需要對模型進行額外的訓練或調整,或依賴于外部信息資源,但是它們在提高生成文本的一致性和可信度方面顯示出顯著優勢。下述是三種代表性的優化解碼策略。

(1) 上 下 文 感 知 解 碼(context-aware decoding,CAD)是一種基于對比的解碼策略,旨在減少生成文本中的知識沖突。該策略利用一個對比模型計算在考慮和不考慮輸入信息的情況下,輸出的概率分布差異;隨后,一個放大模型被用來增強這些差異,提升與輸入信息一致的輸出的概率,同時降低與輸入信息沖突的輸出的概率;最終,根據調整后的概率分布,生成模型輸出與輸入信息更為一致且可信的文本。

(2)對比層解碼。對比層解碼(decoding bycontrasting layers, DoLa)通過動態選擇并比較模型不同層次在詞匯空間中的對數概率差異。這種層間對比幫助生成模型依據調整后的概率分布生成文本,從而增強文本與事實知識的一致性和可信度。

(3)推理時干預(inference-time intervention,ITI)。在解碼過程中實施,通過激活與事實性知識更相關的注意力頭,促進這些信息在模型中的傳播。這種策略可以在使用較少數據集和訓練資源的情況下對模型進行微調,顯著提升模型在回答問題時的準確性和可靠性。

3.2.2 訓練判別器 通過對一個小型的大語言模型進行微調,將其作為判別器,并結合提示工程技術幫助模型區分信息是否可靠,從而使模型在面對可能存在虛假或誤導信息的上下文內容時,保持忠誠可靠的輸出。通過構建事實有效性預測模型,預測大語言模型學到知識中的事實信息能夠在多久的時間期限內保持有效,來決定在生成回復內容時是否接受該事實信息,同時利用事實有效性預測還可在生成過程中丟棄易發生變化的事實,給予提供的最新上下文信息更高的置信度。

3.2.3 知識編輯 在大語言模型(LLMs)的應用中,知識編輯技術旨在優化模型的信息準確性,通過有針對性地修改模型參數或引入外部插件來糾正嵌入其中的錯誤知識。這種方法避免了對整個模型進行全面微調,從而在提升模型實用性的同時,維持了其作為可靠知識庫的基本功能。主要的知識編輯方法有兩種。

(1)知識插件。該方法允許在保持模型原有結構不變的情況下,通過插入可訓練的參數模塊來引入新的知識。這種策略的優勢在于它避免了對預訓練模型權重的直接修改,從而保留了模型中已有的知識資產。這使得模型能夠在擴展新知識的同時,繼續利用已有的廣泛知識基礎,例如K-Adapter等。

(2)定位 - 編輯。基于對大語言模型中知識存儲機制的研究,定位 - 編輯方法專注于精確定位和編輯模型中的特定區域。這種策略識別并修改存儲錯誤信息的網絡部分,尤其是前饋神經網絡(FFN)中的相關神經元,以此來糾正或更新錯誤的知識。這種精確的編輯方法優化了模型的知識準確性,而不損害其整體性能。

3.3 提示工程

提示工程是緩解大語言模型知識沖突的一種重要策略,它通過精心設計的提示詞來完善模型的輸入信息及優化模型輸出內容。使用提示工程的緩解技術可以概述如下。

3.3.1 補充情境信息 通過檢索增強策略和工具增強,如FreshPrompt、ChatProtect等,將與任務相關的情境知識集成到提示中。這種方法不僅豐富了模型處理的上下文,而且提高了其對特定領域信息的敏感性和應答質量。

3.3.2 設計系統提示 使用系統提示明確告知大語言模型不要提供虛假或不可驗證的信息,或提示模型對潛在的虛假信息保持警惕,并在生成前與參數記憶知識進行核實,或要求模型進行自我反思,通過不斷迭代反饋及模型自我糾正錯誤,改善生成答案的事實性和一致性。

采用分治思想的提示策略,提示大語言模型將問題拆分成多個子問題,分別進行回答,再對生成的內容進行合并,這樣可以幫助模型更好地理解問題;同時采取該策略,某個子任務的解答不會過度依賴于其他子任務解答的正確性,增強了模型對于中間錯誤的魯棒性。類似地,采用思維鏈策略(如COT、TOT、GOT)要求模型對問題進行連貫且逐步深入的思考,從而提高輸出的邏輯性和深度。

最后,針對用戶可能給出模糊的指令這一情況,提示模型要求用戶對指令進行修改完善,對問題進一步澄清。

4 未來展望

在大語言模型知識沖突領域未來的研究方向上有下述思考。

(1)可靠的評估方法 現有研究多聚焦于大語言模型在特定任務場景下內部參數知識與外部情境知識產生沖突的情形,探討模型在面對知識沖突時對內部參數知識和外部信息的依賴程度及解決沖突的方法。然而,對于如何評估知識沖突,尤其是在不同下游任務背景下的評估方法,現有研究仍顯不足。如何對大語言模型在各種任務場景下處理知識沖突的性能進行評估,以及建立自動化的評估框架和標準指標仍有待進一步研究。通過建立可靠的評估方法,探索知識沖突對模型在不同下游任務下的影響,可以幫助研究者優化模型的設計和應用策略,開發更強大、更可靠的模型。

(2)基于大模型的智能體 目前,大語言模型在處理知識沖突的研究側重于提升模型訓練數據的質量、提供更準確的外部信息,以及設計更有效的提示詞等方面。這些方法雖然在一定程度上提高了模型輸出的準確性,但對于模型自主識別和解決知識沖突的能力仍然缺乏深入探討。未來對于大語言模型的研究更應關注其在處理復雜信息源中的自主決策能力,尤其是在面對可能引起知識沖突的場景時;研究基于大模型的智能體,使其能夠識別并管理知識沖突,是應對這一挑戰的有效途徑。

此類智能體首先需要能夠實現知識沖突檢測,即具備識別多樣化信息源中存在知識沖突的內容,以及決策出需要剔除或修正的知識點。同時,根據實際需求主動尋找并整合新知識,優化和更新現有背景知識,以提供更為準確和詳盡的回復。開發此類智能體不僅可提高模型在復雜信息環境中的適應性和實用性,還能增強其可靠性和用戶信任度。

(3)多模態背景下的知識沖突 現有研究多集中于單一文本模態,而多模態領域的知識沖突則相對較少探討。現實世界信息通常以視覺、聽覺和文本等多種形式表達,這些模態間可能存在不一致或矛盾。未來可探索不同模態間的知識表示、跨模態知識融合、跨模態推理,以及解決模態間知識沖突等方向。理解和解決多模態數據中的知識沖突,可極大提升模型對復雜現實情境的理解能力,提高其在決策支持、自動化內容生成和人機交互等領域的準確性和效率,既是提升大模型實用性和智能化水平的關鍵步驟,也是一個具有挑戰性的前沿研究領域。 (參考文獻略)

李興明

國防科技大學博士研究生。主要研究方向為大語言模型的檢索增強與知識沖突。

胡慶擁

軍事科學院助理研究員。主要研究方向為大規模三維點云語義理解等,谷歌學術引用5000余次,入選斯坦福大學2023年度全球前2%科學家榜單、中國科協青年人才托舉工程。

選自《中國人工智能學會通訊》 2024年第14卷第5期 青托專欄

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

轉載集智俱樂部

導語

生成技術如大規模語言模型(LLMs)、擴散模型(Diffusion)、自監督學習(SSL)、序列到序列(Seq2Seq)模型和擴散模型的出現,為進一步增強時空數據挖掘開辟了新的可能性。本文詳盡地介紹了生成技術在時空數據挖掘中的應用,提出了一個標準的時空數據挖掘框架,并探討了未來的研究方向。通過結合生成技術和時空數據挖掘方法,我們能夠更好地理解和利用時空數據,提升數據挖掘的效果和效率。******

集智俱樂部聯合美國佐治亞理工學院博士&松鼠AI首席科學家文青松、香港科技大學(廣州)助理教授梁宇軒、中國科學院計算技術研究所副研究員姚迪、澳大利亞新南威爾士大學講師薛昊、莫納什大學博士生金明等五位發起人,共同發起「時序時空大模型」讀書會,鼓勵研究人員和實踐者認識到LLM在推進時序及時空數據挖掘方面的潛力,共學共研相關文獻。讀書會從5月8日(周三)開始,每周三19:00-21:00(北京時間)進行,預計持續10-12周。歡迎感興趣的朋友報名參與!****

**研究領域:時空數據挖掘,生成技術,大語言模型,擴散模型,自監督學習,序列到序列 Qianru Zhang(張倩茹), Haixin Wang(汪海昕), Cheng Long(龍程)等 | 作者

標題:A Survey of Generative Techniques for Spatial-Temporal Data Mining鏈接: Zhang(張倩茹), Haixin Wang(汪海昕), Cheng Long(龍程), Liangcai Su(蘇良才), Xingwei He(賀星偉), Jianlong Chang(常建龍), Tailin Wu(吳泰霖), Hongzhi Yin(尹洪志), Siu-Ming Yiu(姚兆明), Qi Tian(田奇), Christian S. Jensen

綜述摘要

本文聚焦于將生成技術整合到時空數據挖掘中,考慮到時空數據的顯著增長和多樣性。隨著RNN、CNN和其他非生成技術的進步,研究人員已經探索了它們在捕捉時空數據中的時間和空間依賴關系方面的應用。然而,生成技術如大規模語言模型(LLMs)、擴散模型(Diffusion)、自監督學習(SSL)、序列到序列(Seq2Seq)模型和擴散模型的出現,為進一步增強時空數據挖掘開辟了新的可能性。本文對基于生成技術的時空方法進行了全面分析,并引入了一個專門為時空數據挖掘流程設計的標準框架。通過提供詳盡的綜述和利用生成技術的時空方法的新分類,本文加深了對這一領域中各種技術的理解。此外,本文還強調了未來有前景的研究方向,敦促研究人員深入探索時空數據挖掘。本文強調需要探索尚未開發的機會,推動知識的邊界,以解鎖新的洞見并提高時空數據挖掘的效果和效率。通過整合生成技術并提供一個標準化的框架,推動了該領域的進步,鼓勵研究人員探索生成技術在時空數據挖掘中的巨大潛力。 **

**

一、引言

隨著GPS技術和移動設備的顯著進步,時空數據的量級大幅增長,涵蓋了人類軌跡數據、交通軌跡數據、犯罪數據、氣候數據和事件數據等多種類型。這些數據在城市管理、出租車調度優化、人類健康和天氣預報等領域具有重要意義。近年來,循環神經網絡(RNN)和卷積神經網絡(CNN)在捕捉時空數據的時間和空間依賴關系方面取得了巨大成功,促使研究人員進一步探索這些非生成技術在時空數據挖掘中的應用。這些努力已在交通預測和異常軌跡檢測等任務中取得了顯著進展。  現有生成式技術應用示意圖 然而,隨著大規模語言模型(LLMs)和擴散模型(DMs)等生成技術在計算機視覺和自然語言處理領域的成功,研究人員開始探索這些技術在時空數據挖掘中的潛力。這一新研究方向為時空數據挖掘帶來了新的見解,包括零樣本預測和跨任務的強泛化能力。生成技術如LLMs、DMs和自監督學習(SSL)在計算機視覺和自然語言處理領域的卓越表現,不僅激發了研究人員的興趣,還對該領域產生了深遠影響。近期的研究提供了將生成技術整合到時空數據挖掘方法中的有利證據,顯著提高了性能。這些發現激發了研究人員對生成技術在時空數據挖掘中潛在應用的深入探索,促使該領域涌現出大量基于生成技術的研究成果。 盡管已有許多研究集中于利用生成技術進行時空數據挖掘,但現有綜述缺乏對這一領域的全面分析和專門框架。因此,本文旨在提供基于生成技術的時空數據挖掘方法的全面分析,并引入一個標準化的框架。通過詳細的綜述和創新的分類方法,本文幫助讀者深入理解該領域中使用的各種技術。此外,本文還強調了未來的研究方向,鼓勵研究人員進一步探索未開發的機會,推動知識邊界,以解鎖新的洞見,提升時空數據挖掘的效果和效率。

二、時空數據挖掘的挑戰與機遇

時空數據具有兩個顯著的挑戰,這些挑戰同時也是時空數據挖掘算法的機遇。 **

**

1. 相關性:時空相關性指的是數據集中不同空間和時間方面之間的相互依賴關系和聯系。這些相關性在實際應用中會引發若干問題和復雜性。首先,在預測精度方面,時空相關性會在數據中引入復雜的模式和依賴關系。如果未能準確捕捉和建模這些相關性,會導致預測精度下降,從而削弱預測模型在交通預測、天氣預報和疾病爆發分析等領域的效果。其次,在數據預處理和融合方面,時空相關性常常需要將來自多個來源和模式的數據進行整合和融合。將異構數據類型在時空背景下進行對齊是一項挑戰,要求細致的數據預處理步驟和融合技術,以確保數據的準確性和一致性。 **

**

2. 異質性:時空異質性指的是數據集中空間和時間模式的固有變異性和多樣性。不同區域和時間段表現出不同的特征、趨勢和關系,這種異質性在數據分析中會引發若干問題,并對時空數據挖掘算法提出挑戰。主要問題包括:首先,泛化挑戰,時空異質性使得開發能夠有效捕捉和表示不同區域和時間段的多樣化模式和關系的通用模型和算法變得困難。在一個區域或時間段訓練的模型可能無法很好地泛化到其他區域或時間段。其次,偏差和不完整性,時空異質性可能導致數據收集和表示中的偏差和不完整性。數據在區域和時間上的分布可能不均衡,導致數據集不平衡,從而引入偏差并扭曲時空數據挖掘算法的分析和結果。

三、時空數據的類型與實例

時空數據結合了空間和時間的元素,可以揭示跨越時空現象的見解,廣泛應用于環境監測、交通分析、流行病學、社會科學和城市規劃等領域。這些數據通過地理坐標和時間戳表示,便于分析模式、趨勢和關系。時空數據可以分為事件數據、軌跡數據、點數據和柵格數據四類。

1. 事件數據:事件數據指的是在特定位置和時間發生的具體事件,例如犯罪數據或投票數據。這些數據通常使用歐幾里得坐標系表示,但在道路網絡中的事件(如事故),事件之間的距離則由沿路段的最短路徑決定。事件數據還可以包括附加變量,如犯罪類型或投票的政黨。

2. 軌跡數據:軌跡數據記錄了物體隨時間移動的空間路徑,例如飛行數據和出租車數據。軌跡數據通常通過在移動物體上安裝傳感器來收集,這些傳感器在不同時間間隔記錄GPS位置。時間間隔越小,軌跡的精度越高。

事件數據和軌跡數據示意圖**

  1. 點數據**:點數據是指從一組移動參考點收集的數據,例如氣象氣球在大氣中收集的數據或傳感器測量水體表面溫度的數據。每個氣象站代表一個特定的位置,定期記錄溫度讀數。點數據可以用于重建任意位置和時間的時空場。 不同時間步點數據示意圖**

4. 柵格數據:柵格數據中的參考點是靜態的,可以在空間上規則或不規則地分布。柵格數據的觀測值在固定時間間隔記錄,常見的類型包括衛星圖像,每個像素對應柵格網格中的一個單元,包含光譜特征信息;數字高程模型(DEM),表示海拔或地形;氣候變量,表示溫度、降水和風速;以及土地覆蓋或土地使用信息,每個單元表示特定位置的土地覆蓋類型,如森林、城市區域、水體或農業用地。 在固定時間和地點以及不固定時間和空間的柵格數據示意圖

**

四、生成技術在時空數據挖掘中的應用

  1. 大語言模型(LLMs)大規模語言模型(LLMs)在自然語言處理和計算機視覺領域表現出色。例如,ST-LLM模型通過將時間步驟作為token處理,從全局視角建模時空依賴關系,顯著提升了交通流量預測的準確性。
  2. 自監督學習(SSL)自監督學習(SSL)通過未標記數據中的替代任務來學習有用的表示。例如,TrajRCL模型利用對比學習技術,顯著提升了軌跡數據的表示學習效果。
  3. 擴散模型(Diffusion Models)擴散模型利用正向和逆向過程,模擬時空數據的生成過程。例如,DiffSTG模型將時空圖神經網絡與不確定性量化特性相結合,提高了預測的準確性和可靠性。
  4. 序列到序列模型(Seq2Seq)序列到序列模型(Seq2Seq)廣泛應用于處理序列數據的任務,如機器翻譯和文本摘要。基于Seq2Seq的時空數據挖掘方法,如Trafformer,通過自注意力機制,顯著提高了交通流量預測的精度。**

**

******五、時空數據挖掘的標準框架 ******

我們提出了一種利用生成技術解決時空數據挖掘挑戰的方法。首先討論數據預處理,然后介紹生成技術的適應性。我們還專門設置了一個小節來解決特定的時空數據挖掘問題。為提供結構化概述,我們展示了一個概述流程的框架。  框架示意圖 圖中展示了利用生成技術進行時空數據挖掘的一般流程。該流程涉及處理從各種位置傳感器收集的原始時空數據,包括事件數據、軌跡數據、點參考數據和柵格數據。首先,創建數據實例來存儲時空數據,這些實例可以是點、時間序列、空間地圖、軌跡或時空柵格。為了在不同的挖掘任務中應用生成技術,時空數據實例需要轉換為特定的數據格式,具體取決于所選擇的數據表示方式。這些時空數據實例可以表示為序列數據、矩陣、張量或圖。最后,選擇合適的生成技術來處理各種時空數據挖掘任務,如預測、分類和表示學習等。這些模型利用生成技術的獨特能力,從時空數據中提取有價值的見解,并解決復雜的時空數據挖掘挑戰。 **

**

六、生成技術在時空挖掘任務中的應用

我們展示了一種全面的分類法,將現有研究基于生成技術分為四大類:大規模語言模型(LLMs)、自監督學習(SSL)、擴散模型(Diffusion)和序列到序列模型(Seq2Seq)。每類技術提供了獨特的方法來解決時空分析中的挑戰。在每一類中,具體研究針對不同的時空任務,采用特定的生成技術進行研究。這一分類法為理解和組織時空分析領域的多樣研究提供了有價值的框架,促進了知識傳播和領域的進一步發展。相關研究的應用任務大致可分為時空表示學習時空預測時空推薦,如表所示。每個領域都有眾多研究專注于發展專門的方法和技術,以應對各自的挑戰和需求。通過探索這些領域中的研究廣度和深度,研究人員可以深入了解用于解決各種時空分析任務的多樣化方法和創新技術,從而推動整個領域的發展。

基于生成技術的現有研究分類,由四種技術組成,包括大規模語言模型(LLMs)、自監督學習(SSL)、擴散模型(Diffusion)和序列到序列(Seq2Seq)模型。這些技術涵蓋四種時空任務,每種任務都有基于特定生成技術的具體研究。  在不同應用任務中的相關工作,包括時空表示學習、時空預測和時空推薦。我們提供了詳細信息,包括期刊/會議名稱、使用的具體生成技術、涉及的特定應用子任務以及用于評估的數據集。

七、未來研究方向

此外,我們探討了時空數據挖掘未來的研究方向。我們提出了四個潛在方向,并進行了詳細描述:基準數據集的偏斜分布、大規模基礎模型、時空方法的泛化能力以及與外部知識的結合。 **

**

1. 基準數據集的偏斜分布:基準時空數據集中的偏斜分布指數據點在空間和時間維度上的不均衡分布。這意味著某些區域或時間段的數據點數量顯著多于或少于其他區域或時間段。這種不均衡可能導致數據集對特定位置或時間段產生偏向,進而影響分析或預測的準確性和可靠性。未來的研究應致力于解決這種分布偏差問題,以確保分析和模型的公平性和準確性。 **

**

2. 大規模基礎模型:目前,缺乏廣泛的高質量多模態數據集限制了大規模基礎模型的探索和發展。因此,迫切需要深入研究這些模型,以提升其在下游任務中的表現,特別是在時空預測領域。通過填補這一研究空白,開發和利用大規模基礎模型,可以顯著提高各種時空預測應用的準確性和有效性。 **

**

3. 時空方法的泛化能力:現有的時空分析方法在適應不同任務方面面臨挑戰,主要是由于其有限的泛化能力。這一限制妨礙了這些方法在各個領域和場景中的有效應用,因為它們難以捕捉不同任務中的復雜性和細微差別。因此,必須探索具有更強泛化能力的新方法,以實現對各種時空分析任務的無縫適應和改進表現。通過解決這一限制我們可以釋放時空方法的全部潛力,使研究人員和從業者能夠以更靈活和穩健的方式應對多樣化的挑戰。 **

**

4. 與外部知識的結合:隨著知識圖譜的不斷發展,探索將這些圖譜中衍生的外部知識整合到時空方法中變得越來越重要。外部知識的引入有望增強時空方法的分析能力,使其能夠利用更廣泛的背景信息和領域專業知識。通過有效利用這些圖譜中的豐富知識,研究人員和從業者可以開辟新的途徑,提高時空方法在不同應用和領域中的準確性、穩健性和整體表現。因此,探索促進外部知識與時空方法無縫集成的方法,對于推進時空分析領域具有重要意義。

八、總結

本文詳盡地介紹了生成技術在時空數據挖掘中的應用,提出了一個標準的時空數據挖掘框架,并探討了未來的研究方向。通過結合生成技術和時空數據挖掘方法,我們能夠更好地理解和利用時空數據,提升數據挖掘的效果和效率。希望這篇介紹能夠為從事時空數據研究的學者和工程師提供有價值的參考,推動這一領域的持續創新與發展。

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

可控文本生成是生成式AI的重要技術之一,在智能創作、自動客服、游戲制作和數字人等領域具有廣闊的應用前景。本報告將從三個部分進行介紹:可控文本生成的研究進展、瀾舟可控文本生成的應用、可控我文本生成未來發展方向。關于可控文本生成研究進展,我將綜述可控文本生成神經網絡模型、模型訓練與解碼、改進生成質量的若干關鍵技術。然后,我將介紹瀾舟可控文本生成的相關研究和應用,例如營銷文案生成、小說生成和續寫、ESG報告生成、科技文獻寫作、可控對話生成和插圖生成等。最后我將討論可控文本生成存在的問題,包括前后一致性問題、常識問題和多樣化生成問題,并探討未來的發展方向。

付費5元查看完整內容

摘要: 隨著深度神經網絡和智能移動設備的快速發展,網絡結構輕量化設計逐漸成為前沿且熱門的研究方向,而輕量化的本質是在保持深度神經網絡精度的前提下優化存儲空間和提升運行速度。闡述深度學習的輕量化網絡結構設計方法,對比與分析人工設計的輕量化方法、基于神經網絡結構搜索的輕量化方法和基于自動模型壓縮的輕量化方法的創新點與優劣勢,總結與歸納上述3種主流輕量化方法中性能優異的網絡結構并分析各自的優勢和局限性。在此基礎上,指出輕量化網絡結構設計所面臨的挑戰,同時對其應用方向及未來發展趨勢進行展望。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0060931

付費5元查看完整內容
北京阿比特科技有限公司