亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

文 / 吳建龍

摘 要:

圖像分類、動作識別等視覺理解任務通常依賴于大量的標注數據,而在實際場景中,獲取足夠的標注數據往往成本很高且具有挑戰性。本文主要探討標注受限場景下的視覺表征學習與理解任務。首先聚焦于圖像與視頻兩種數據,提出一系列無監督表征學習算法,使模型能夠從大量未標注數據中捕獲高層次、具有判別 性的語義表征;其次,將半監督學習應用于具的視覺理解任務上,以實現標注受限場景下高性能、低成本視覺模型的構建。通過對無監督和半監督學習算法的深入探索與應用,為解決實際場景中標注數據不足的問題提供了有效的解決方案。

關鍵詞:

無監督學習;半監督學習;表征學習;視覺理解;圖像分類;視頻動作識別

0 引言

近年來,隨著計算機視覺和人工智能技術的迅猛發展,視覺理解任務成為了學術界和工業界的熱點之一。視覺理解旨在賦予計算機對圖像和視頻進行高層次的理解和推理能力,使其能夠像人類一樣感知、分析和理解視覺信息在自動駕駛、智能監控、醫學影像診斷等不同領域都有廣泛的應用,具有重要的研究意義。

在大多數的視覺理解任務中,傳統的方法通常依賴于大量的標注數據進行監督學習。然而,獲取大規模的標注數據卻是一項極具挑戰性的任務,一方面,人工標注數據的過程需要大量的時間、精力和資源投入,成本高昂;另一方面,隨著目前深度學習模型復雜性的增加,需要標注的數據量也呈指數級增長,導致數據獲取成本進一步上升。

為了降低現有視覺理解任務對標注數據的依賴性,本文基于圖像和視頻數據,深入探究了無監督表征學習和半監督學習兩種范式。無監督表征學習能夠在不需要任何標注的情況下發現數據中的潛在模式和規律,從而為后續的視覺理解任務提供有價值的特征表示;而半監督學習則結合有限的標注數據和大量未標注數據來提高視覺模型的性能和泛化能力,能夠有效減少標注投入。本文全面分析了現有相關方法的局限性,并針對性提出了一系列創新性算法,以在標注受限的場景下實現高效的視覺表征學習與理解分析。

1 主要研究成果

本文以標注受限場景下的視覺表征和理解為主題,以學習判別性表征和構建高性能、低成本的視覺模型為兩條主線。對于第一條主線,創新性提出了基于圖對比聚類的表征學習算法(成果一);特別地,針對視頻數據的表征學習,提出了一種基于記憶增強預測器的自監督預訓練方法(成果二)。對于第二條主線,依次提出了基于對比層次匹配和魯棒自適應閾值的半監督圖像分類算法(成果三)和基于近鄰一致性和對比學習的半監督動作識別算法(成果四)。下面將對上述成果進行簡要介紹。

成果一 基于圖對比聚類的表征學習算法

傳統的無監督學習方法主要通過對數據的統計分析或者降維等手段來提取特征,但這些方法往往難以充分挖掘數據之間的潛在關系和結構信息。而對比學習作為一種新興范式,為無監督特征學習領域帶來了全新的思路和方法。相比傳統方法,對比學習通過比較樣本之間的差異性來學習特征,在一定程度上提高了表征的可區分度和泛化性。

與對比學習的核心思想相契合,聚類任務的目標是將數據分成若干個不同的組,每個組內的數據點具有相似的特征,而組間的數據點則有較大的差異性。因此,近期出現了一系列研究將對比學習算法與聚類任務相結合,希望實現兩種任務的相互促進。盡管這些研究取得了一定成效,但它們都仍然遵循對比學習的基本框架,僅假設樣本及其經過隨機增強后的樣本在特征空間中應該相似,而忽視了潛在的類別信息。

為此,提出了一種基于圖對比聚類的表征學習算法。該算法結合了樣本的潛在類別信息,假設一個集群中的樣本及其增強應該共享相似的表示和聚類分配,將傳統的實例級一致性提升到集群級一致性,從而能夠更好地減少類內方差并增加類間方差。如圖1所示,首先基于當前特征構建一個相似度圖,相似度較高的樣本間的邊將在圖中保留。基于此相似度圖所提供的樣本關系,設計了表示圖對比模塊和分配圖對比模塊來分別學習樣本表征和聚類分配。在表示圖對比模塊中,提出了一種基于圖拉普拉斯的對比損失,該損失通過拉近樣本與其鄰居樣本間(相似度圖中存在邊連接的樣本)的加權距離來學習更具區分性和聚類友好的特征。而針對分配圖對比模塊,傳統的基于對比學習的聚類假設樣本及其增強樣本應該具有相似的聚類分配分布,這雖然是合理的,但是并沒有利用到相似樣本的信息。因此提出了一種新的對比策略來學習更緊湊的聚類分配,即利用相似度圖隨機挑選一個鄰居,并約束樣本與隨機挑選的鄰居所對應的聚類分配分布越接近越好。實驗結果表明,我們提出的基于圖對比聚類的表征學習方法能在學習到高質量判別性表征的同時,獲得當前最好的聚類分配結果。

圖 1 基于圖對比聚類的表征學習算法框架

成果二 基于記憶增強預測機制的無監督視頻表****征學習算法

針對視頻數據,基于預測的方法在時空表示學習領域取得了顯著成果。這些方法通常使用基于多層感知機的預測器,來對齊同一視頻的不同時間段提取的特征。然而,這樣的預測器存在三個限制。

(1)缺乏全面利用訓練過程中學到的知識的能力

理想情況下,模型應該能夠累積并整合數據集中的時空關聯信息以提高預測的準確性。然而,現有方法通常只根據特定片段的局部特征進行同一視頻的另一時間段的特征,從而導致模型無法充分利用整個數據集中蘊含的知識進行精確預測。

(2)忽視了不同編碼器之間的特征分布差距

現有方法的訓練目標通常是最小化在線編碼器和動量更新編碼器輸出特征之間的差異。然而,基于多層感知機的預測器對來自不同參數的編碼器產生的特征分布進行對齊時,未能充分考慮編碼器間的特征分布差異,從而導致對齊效果受限。

(3)缺乏對細節視覺概念跨片段對齊的能力

現有方法主要關注全局特征的對齊,忽視了對不同時間段視頻蘊含的細粒度視覺概念的對齊。

針對以上限制,提出了記憶增強預測器來增強視頻表征模型的預測能力,模型架構如圖2所示。記憶增強預測器利用了記憶網絡架構的特性,通過引入可以被動態更新和查詢的外部記憶槽作為存儲機制,以在整個訓練過程捕獲和保留所有訓練視頻中的關鍵信息,并在預測時利用存儲的相關知識來提升預測精度。記憶槽通常以矩陣的形式實現,其中每一行代表一個記憶單元。在模型訓練時,這個矩陣會作為可訓練的參數,通過反向傳播算法進行更新。這樣的預測器主要具有四種能力。

圖 2 基于記憶增強預測機制的無監督視頻表征學習框架

(1)存儲能力

我們采用了分離的鍵和值存儲機制,其中鍵用于存儲來自在線編碼器的特征表示,而值則存儲目標編碼器的特征表示。鍵部分充當信息的索引,而值部分則包含了與鍵相對應的具體知識內容。通過這種鍵值對的形式,模型能夠獨立地處理來自不同編碼器的信息,將視頻數據中的豐富信息和知識以結構化的方式存儲起來,從而更有效地管理和利用這些信息。

(2)查詢檢索能力

在預測時,我們基于當前輸入或情境查詢鍵記憶,從而生成一個知識相關性向量。該向量反映了輸入特征與存儲在鍵記憶中特征的相關度。

(3)總結能力

預測特征通過使用加權求和的方式組合值記憶中存儲的記憶單元得到,并根據相關性向量的權重賦予各個記憶單元的貢獻度。

(4)更新能力

在訓練過程中,如果預測特征與目標特征之間存在偏差,損失函數將引導記憶網絡調整存儲的特征,從而減少預測誤差。這種更新機制確保了預測器不僅能回憶過去的信息,還能從每次迭代的反饋中學習。當模型在預測過程中犯錯時,它可以利用這些錯誤來調整其記憶內容。

基于上述四種能力,所提出的鍵值記憶預測器能夠有效地利用整個訓練過程中學習到的視頻數據集的知識,提高模型預測的準確性,并彌合不同編碼器之間特征分布的差距。

此外,為了實現不同視頻片段間細粒度視覺細節的語義對齊,引入了細粒度視覺概念對齊模塊。通過為在線和動量更新編碼器創建視覺概念字典,為不同的視頻片段編碼視覺概念代碼。通過最小化不同編碼器編碼的視覺概念代碼之間的KL散度,促進相同視頻的不同視圖之間包含的細粒度共享視覺概念。在各類基準數據集上的廣泛實驗表明,該方法在動作識別和檢索任務上相比于其他算法取得了顯著的提升,展示了其在學習泛化視頻表示方面的先進性和有效性。

成果三 基于對比層次匹配和魯棒自適應閾值的半監督圖像分類方法

在標注受限場景下,半監督學習是一種很好的選擇。通過挖掘大量未標注數據中的信息,半監督只需簡單結合少量的標注數據即可學習到與全監督學習模式下性能接近的模型,大大降低了數據收集和標記的成本。

目前主流的半監督學習算法主要基于偽標簽技術,即利用未標注樣本的預測分布構造偽標簽作為自身的監督信號指導模型訓練。能否生成偽標簽的準則是預測分布中的最大概率是否超過設定的閾值,若超過則該最大概率所對應的類別將作為偽標簽。因此,閾值對于基于偽標簽技術的半監督學習來說直觀重要。根據閾值的設計思路,主要可以分為兩類方法,一類基于固定閾值;另一類基于動態閾值。基于固定閾值的方法對所有樣本、所有類別“一視同仁”,訓練全程閾值唯一且保持不變。而基于動態閾值的方法結合了課程學習的思想,根據樣本和不同類別學習的難易程度動態調節,因此性能一般好于固定閾值的方案。但是目前這兩類方法仍然存在一定局限性,一方面,基于固定閾值的方法樣本利用率很低,而基于動態閾值的方法樣本利用率不穩定,因此導致產生的結果都很不穩定且方差很大,特別是在只有少量標記樣本參與訓練的情況下;另一方面,這些方法僅研究了實例層級的一致性,忽略了類間關系,因此會使學習到的特征難以區分;此外,現有方法還忽略了類別間的層次結構,例如不同細粒度類別的狗和貓都屬于動物這個粗粒度類別。

為了解決上述問題,提出了基于對比層次匹配和魯棒自適應閾值的半監督圖像分類方法。該方法設計了一種更加穩定的動態閾值策略,并結合標簽的層次化信息充分考慮了實例層級的預測匹配和基于圖的相似度匹配。算法框架如圖3所示,與常規只有一個分類層的半監督分類算法不同,該算法共包含粗粒度分類層、細粒度分類層和投影層三層。細粒度和粗粒度分類層分別用來進行實例層級的預測匹配,即粗、細粒度偽標簽學習;而投影層則用來進行基于圖的相似度匹配,即特征對比學習。

在進行粗、細粒度偽標簽學習之前,首先提出了一種基于動態比例的魯棒自適應閾值學習策略。該策略維護了一個從小到大排序的分數隊列來存儲歷史樣本的最大概率,這個分數隊列近似模擬了目前樣本的學習狀態。若我們期望選擇一定比例的樣本進行偽標簽學習,則只需要在隊列中找到該比例位置(從右往左)所對應的最大概率作為閾值即可,這樣高于該閾值的樣本都將參與到偽標簽學習中。在訓練過程中逐漸增加比例即可實現樣本的穩定利用。

此外,提出了一種基于粗、細偽標簽圖的對比損失來學習判別性表征。粗/細偽標簽圖的構造準則為:若樣本生成的粗/細偽標簽一致,那么在圖中有邊連接;反之無邊。在一般情況下,如果兩個樣本屬于同一個細粒度類,那么它們應該具有相同的粗粒度偽標簽,然而,在真正的訓練過程中并不總是滿足這種關系,尤其是在訓練早期階段。因此,我們利用粗偽標簽圖來糾正細偽標簽圖,從而得到更加準確的偽標簽圖。新的偽標簽圖中仍然保留相連關系的樣本將作為正樣本對,非相連關系的作為負樣本對,以此進行特征對比學習。在各種主流的數據集上,該方法均獲得了最好的分類性能,并且極大地提升了結果的穩定性。

圖 3 基于對比層次匹配和魯棒自適應閾值的半監督學習算法框架

成果四 基于近鄰一致性學習和近鄰對比學習的半監督動作識別方法

目前,半監督學習在圖像分類領域已經非常成熟,有些方法的性能甚至超越了全監督學習方法,但是在基于視頻的動作識別(視頻分類)領域卻表現欠佳。相對于圖像分類任務,動作識別任務更為復雜。動作識別所處理的數據是視頻,視頻中不僅包含圖像的外貌信息,還包含了幀與幀之間運動關系,這種時空信息的綜合進一步加大了動作識別任務的難度。

實現半監督動作識別最直接的方式就是將目前主流的基于偽標簽技術的半監督圖像分類學習方法遷移到視頻數據上,然而得到的效果并不好。這種現象主要由以下三個原因導致,首先,這些方法只能關注到RGB圖像中的外貌信息,忽略了視頻中的運動信息,而運動信息恰恰是視頻正確分類的關鍵;其次,這些方法利用閾值構造監督信息,只對超過閾值的樣本進行偽標簽學習,而對于無法產生偽標簽的樣本將會采取丟棄策略,這會導致監督信號不足、訓練效率低下等問題;最后,正如上文所述,這些方法僅關注了實例層級的一致性,忽略了類別層級的一致性。

因此,提出一種基于近鄰一致性學習和近鄰對比學習的半監督動作識別方法。如圖4所示,該方法將關注外貌信息的RGB模態和反映運動信息的TG模態相結合,并基于更加穩定的教師 - 學生架構構建模型。教師網絡集成RGB和TG模態間的互補信息生成高置信度的偽標簽,以指導學生網絡學習。

然而僅依賴偽標簽學習對于更有難度的動作識別任務來說監督信息仍顯不足。為此,提出了近鄰一致性學習,即對于那些未達到閾值的樣本,“求助”其近鄰來輔助生成額外的監督信息——近鄰標簽。為了得到高置信度的近鄰,設計了一種提純策略,以過濾掉噪聲近鄰。該策略統籌不同模態間的意見,將在不同模態下所找到的樣本的近鄰的交集作為該樣本的真正近鄰。其近鄰中心將作為近鄰標簽引導樣本向其靠近。

另外,考慮到樣本特征對所生成的監督信息質量有著重要影響,為此基于提純后的近鄰信息進一步提出了近鄰對比損失,即在不同視角和不同模態間縮小樣本與近鄰之間的距離,同時確保樣本與非其近鄰樣本之間的距離盡可能遠。該損失充分探究了樣本間的相互關系,將原本基于實例層級的對比拓展到了類別層級。

我們在多個動作識別數據集上對所提方法進行了驗證,其性能要明顯優于現有的半監督學習算法。

圖 4 基于近鄰一致性學習和近鄰對比學習的半監督動作識別算法框架

2 結束語

目前,視覺理解任務在很大程度上依賴于大量的標注數據,然而這種依賴性往往使得這些任務需要花費大量的成本,并且難以應用到實際的工業場景中。因此,本文從實際角度出發,深入探討標注受限場景下的視覺表征學習和理解分析。針對無監督表征學習和半監督學習在視覺數據(包括圖像和視頻)上的已有工作,系統地分析了其目前存在的不足之處,并針對性地提出了一系列解決方案,為相關領域的研究提供更多的技術支持與經驗。未來工作中,我們將借助當前流行的大模型作為輔助知識,進一步提升受限場景下的視覺任務的性能;同時關注知識蒸餾與量化等模型壓縮技術,以實現受限場景下的輕量化視覺模型構建。

(參考文獻略)

吳建龍

哈爾濱工業大學(深圳)副教授。主要研究興趣包括多模態學習、計算機視覺和機器學習等。主持國家自然科學基金面上和青年項目等3項國家級項目,近五年在TPAMI、TIP、ICML、CVPR和ICCV等頂級期刊和會議上發表論文40余篇。入選中國科協青年人才托舉工程、哈爾濱工業大學青年拔尖人才計劃和鵬城孔雀計劃特聘崗位;榮獲CCF A類會議SIGIR 2021最佳學生論文獎、2021年山東省科學技術進步一等獎和2023年山東省技術發明一等獎等。

選自《中國人工智能學會通訊》 2024年第14卷第5期 青托專欄

付費5元查看完整內容

相關內容

文/李興明,胡慶擁

摘 要:

大語言模型在實際應用場景中經常面臨知識沖突的問題,主要包括上下文 - 記憶知識沖突、多源上下文知識沖突和記憶內知識沖突。本文首先從訓練數據的局限性、模型問題,以及外部信息缺陷三個方面深入分析知識沖突的成因;隨后進一步探討了知識沖突造成的影響,并全面回顧了知識沖突的解決方案,如領域事實增強、提示工程和模型結構層面的改進。最后對知識沖突領域未來研究方向進行了展望,包括建立可靠的評估框架、基于大模型的智能體研究,以及多模態背景下的知識沖突處理。 關鍵詞:

人工智能;大語言模型;知識沖突;智能體;多模態

0 引言

近年來,隨著深度學習、Transformer架構等關鍵技術的突破,預訓練大語言模型(large languagemodel,LLM)實現了飛躍式發展,成為人工智能領域最炙手可熱的研究方向之一。自2022年底ChatGPT系統面世以來,業界掀起了“大模型”研究熱潮,全球研究機構與科技巨頭紛紛布局,在大模型領域投入大量研發資源和力量。

大語言模型通過預訓練的方式,在海量非結構化數據上學習獲取通用知識和語義表征能力,可廣泛應用于自然語言理解、生成、推理、問答等諸多任務,被視為實現通用人工智能的關鍵基石;大語言模型卓越的泛化能力和強大的知識遷移特性,使其在智能對話、文本摘要、代碼生成、決策推理等多個應用場景展現出巨大潛力,有望推動通用人工智能的發展。

然而,隨著大模型規模和復雜性的不斷擴張,其內在存在的知識質量缺陷問題也日益凸顯,主要表現為三個方面。

(1)數據不平衡、噪聲較多導致模型吸收了大量低質量、不一致的知識;

(2)純序列建模難以很好地刻畫現實世界中的結構化知識,因為大模型傾向于編碼訓練數據中普遍存在的淺層模式,而非真正理解其中蘊含的底層知識;

(3)缺乏高效知識概念學習和推理機制。 上述問題最終會導致模型內知識與客觀事實存在明顯的語義沖突和矛盾,從而產生“知識沖突”的問題,影響大模型輸出的可信性,進而限制了其在實際應用中的廣泛落地。

**1 **大語言模型的知識沖突

1.1 參數化知識概述

“參數化知識”是指大語言模型在大規模無標注的文本語料數據庫上經過自監督預訓練得到的、存儲于其權重(參數)中的知識,代表模型對數據的理解和泛化能力。這種知識包括但不限于語言學知識、常識、算術知識和世界知識等。

不同于傳統模型依賴于顯式編碼的知識庫,參數化知識的特點在于其隱含性及動態性。這意味著知識不是以明顯的形式存在,而是通過模型參數的復雜交互而隱式地表現出來。大語言模型能夠利用這些內化的知識,理解復雜的查詢,生成信息豐富的回答,或者完成特定的文本任務。

參數化知識的一個關鍵優勢,是它使得模型具備了一定程度上的泛化能力。也就是說,即便是模型在訓練數據中未直接接觸過的信息或任務,只要這些新的查詢與模型通過預訓練內化的知識在某種程度上相關,模型仍有可能給出合理的輸出。這種能力歸功于大語言模型在訓練過程中,學習到的深層語言結構和豐富的世界知識;換言之,這種參數知識是大模型強大能力的基礎和源泉。

盡管參數化知識為大語言模型提供了強大的預測能力和靈活性,但其仍存在以下幾點局限性。

(1)知識不足或信息缺失。盡管模型的預訓練語料庫包含了豐富的信息,但不可能全面覆蓋所有領域的全部事實。如果特定的事實知識在訓練數據中未出現或出現頻次極低,模型可能缺乏相應的知識,導致在需要這些特定信息時生成錯誤或無關的答案。此外,模型難以保留訓練語料庫中的所有知識,尤其是對于不常見的信息。

(2)參數無法動態更新。隨著時間的推移和科技的發展,許多知識在不斷發生變化。例如,問題“美國總統是誰?”在2019年的答案可能是“唐納德·特朗普”,而現在的答案是“喬·拜登”。在實際使用過程中,需要不斷更新模型中的過時和錯誤知識。與傳統數據庫或知識圖譜不同,語言模型的知識存儲方式是分布式的,蘊含于整個網絡結構的參數中,這使得精確定位并更新模型中對應的舊知識成為一項挑戰。

(3)預訓練和微調成本高。隨著參數數量的增加,訓練和推理的計算成本也相應增加。這不僅需要更多的計算資源,還可能限制模型在資源受限的環境中的應用。

1.2 什么是知識沖突

在實際應用中,大語言模型除了依賴其內部參數化的知識外,還會持續接觸到外部的情境知識。這包括用戶輸入的提示、互動對話,以及通過工具或檢索增強提供外部信息作為大語言模型的新證據,例如ChatGPT外掛的插件及 New Bing。將這些動態獲取的新知識融合進模型,一方面可以彌補模型預訓練階段積累知識的滯后性,使其了解時事和新興領域;但另一方面,外部輸入的知識往往也會與大模型內部的參數知識產生分歧和矛盾,從而引發“知識沖突”問題。

所謂“知識沖突”,是指大語言模型內部固化的參數知識與來自上下文環境的外部獲取知識之間存在的差異、矛盾和沖突。這種知識沖突不僅影響大模型對問題的理解和判斷,還可能導致其生成的輸出存在事實錯誤、邏輯違背常識等嚴重缺陷,從而降低模型可靠性和可信性。

知識沖突可以進一步分為下述幾類,如圖1所示。

圖 1 知識沖突的分類

(1)上下文 - 記憶知識沖突。指大語言模型的參數知識與提供的上下文信息(如用戶提示、檢索文檔、歷史對話等)存在的不一致與沖突。

(2)多源上下文知識沖突。指大語言模型在利用第三方工具或采取檢索增強策略時,從不同知識源獲取的信息之間存在不一致,如不同文檔的時間戳不一致、部分檢索文本含有虛假信息等。

(3)記憶內知識沖突。指針對用戶同一個問題的不同表述,由于模型訓練數據的不一致,可能會導致模型給出不同甚至自相矛盾的回復。

1.3 知識沖突的影響

知識沖突問題不僅是大語言模型面臨的一個技術挑戰,更是實現其可靠應用和廣泛部署的關鍵瓶頸。深入研究并解決知識沖突問題,可以優化大語言模型的一致性、魯棒性和泛化能力,這對于工具增強和檢索增強技術在大模型部署中的成功應用至關重要。更為重要的是,有效處理知識沖突還能有助于預防惡意攻擊者濫用大模型強大的生成能力,如傳播虛假信息和進行網絡攻擊。例如,攻擊者可能通過劫持第三方工具,提供給模型欺騙性和誤導性文檔,若能妥善解決知識沖突問題,則可避免模型產生有害信息。盡管目前對知識沖突問題的研究尚處于初級階段,開展系統深入的理論研究和技術創新,對于大語言模型的持續發展和廣泛應用構建堅實的理論和實踐基礎也尤為重要。

2 知識沖突的成因分析

要分析大語言模型在知識沖突場景中的表現及解決方案,首先需要深入探討導致其產生知識沖突的根源。本節將從訓練數據、模型架構和上下文信息三個方面,深入探討導致大語言模型產生知識沖突的根因。

2.1 訓練數據

2.1.1 領域數據不足 盡管大語言模型因其海量知識壓縮和出色的泛化能力在知識密集型任務中表現出色,但在特定領域的專業知識處理上仍面臨挑戰。這主要源于訓練數據在覆蓋范圍和深度上的不足。若未能充分學習某領域的全面知識,模型在該領域的表現便可能出現缺陷,在回答相關專業問題時容易出現“上下文 -記憶知識沖突”,即模型的存儲知識與實際情境不匹配,從而產生錯誤或不準確的輸出。

2.1.2 訓練數據質量缺陷:錯誤信息與偏見 大語言模型主要通過在海量無標注的文本語料庫上自監督學習獲取知識。然而,這些語料庫常存在質量缺陷,可能包含大量低質量信息、錯誤知識和潛在的社會文化偏見。一方面,模型從包含錯誤知識的數據中學習后,這些錯誤會被內化并放大,導致參數中編碼了矛盾的知識,進而在特定場景下產生沖突;另一方面,訓練數據所反映的各種偏見也會被模型學習和放大,如性別、種族等,影響其判斷和決策過程,發知識系統中潛在的偏差和矛盾。

此外,大模型往往過度依賴訓練數據中的淺層模式和相關性,如詞語共現統計、位置接近性等,而未能真正理解知識的本質,這使得模型容易受訓練數據中的虛假相關性的影響,導致在不同語境下產生前后不一致的輸出,加劇了知識沖突的風險。

2.1.3 訓練數據時效性 大語言模型的參數化知識具有明顯的時間局限性。一旦完成訓練,這些知識就無法繼續更新,而是靜態固化于訓練數據的時間節點,以隨著時間推移自動更新和追蹤現實世界的變遷。隨著時間流逝,模型內部知識會逐漸過時失效,成為引發知識沖突的又一重要根源。

為彌補模型內部知識的滯后性,在實際應用場景中,用戶通常需提供動態的外部補充信息,如上下文對話歷史、相關文檔檢索等。然而,當模型嘗試將這些外部動態知識與自身內部的過時靜態知識融合時,兩者之間的矛盾和沖突往往難以避免,從而使模型陷入知識沖突的困境。

2.2 模型架構

2.2.1 解碼策略 大語言模型通過預測詞匯表中每個單詞出現的概率分布來生成輸出,解碼(decoding)環節對于將模型知識轉化為可解釋輸出至關重要。主流解碼策略包括確定性搜索 (如貪婪搜索(greedy search)和束搜索(beam search))和隨機采樣(如Top-k采樣(Top-ksampling)和Top-p 采樣(Top-p sampling))。

貪婪搜索通過選擇每一步概率最高的單詞生成輸出,而束搜索則維持多個高概率候選序列,力求在整體上找到最優輸出。相比之下,隨機采樣是當前大語言模型廣泛采用的主導解碼策略,它通過在概率分布中隨機抽樣,能夠產生更多樣化的輸出。然而,這種隨機性也為生成的內容引入了不確定性,可能導致模型在相同條件下輸出前后不一致的結果,從而引發由內部記憶機制導致的知識沖突。

另外,大模型通常按從左到右逐詞生成方式,可能引發“滾雪球效應”,即早期生成的單詞會對整個輸出產生重大影響。一旦早期出現偏差,后續難以糾正,加劇了輸出與事實的偏離,進而引發知識沖突。

2.2.2 預訓練和微調的不一致 大模型在預訓練和微調兩階段獲取的知識存在潛在不一致,這是導致模型輸出知識沖突的另一重要原因。

預訓練旨在大規模無標注語料庫上學習通用的語言表示能力,如文本中的底層模式、結構和語義知識。而微調則是在特定任務數據集上對模型參數進行進一步優化,以提高其在特定領域的性能表現。由于兩階段的訓練目標和數據來源的差異,模型可能從中習得了不盡相同的知識。

一方面,預訓練數據覆蓋面廣但深度有限,模型從中習得的是普遍的世界知識和語言模式;另一方面,微調階段引入了新的專業知識,這些知識可能無法從預訓練數據中學習,甚至可能與之存在矛盾。當用戶的查詢觸及此類知識時,模型難以準確把握哪些知識才是相關準確的,從而在生成輸出時產生混亂,引發知識沖突。

2.3 外部上下文信息

大語言模型在實際應用中存在參數知識滯后和情境理解不足的缺陷。為彌補這一缺陷,檢索增強生成技術(retrieval-augmented generation,RAG)被廣泛采用,通過檢索并融合外部補充信息,以增強模型的知識掌握能力。一些主流商業模型如ChatGPT、Perplexity.ai、Gemini、NewBing等在部分web界面上已開始使用帶RAG功能的版本。然而,所檢索的外部信息的準確性和時效性不足,可能成為導致大模型產生知識沖突的又一主要誘因。

2.3.1 外部信息的準確性缺陷 首先,信息檢索系統將原文本編碼為向量表示時,不可避免會發生一定信息損失,如可能遺漏或扭曲了原文細節和語義,影響檢索質量。其次,檢索系統返回結果并非全部與查詢高度相關。以“提升遙感影像目標檢測精度”為例,返回內容可能包含“紅外目標檢測”等偏題信息。模型整合這些無關或錯誤信息時,可能被誤導而接受并傳播了不當知識。

更為關鍵的是,檢索得到的外部信息可能與模型內部知識存在矛盾,不同檢索文檔間也可能出現差異和沖突。最新研究發現,檢索文檔的質量與模型對內部參數知識的依賴傾向之間存在反比關系:檢索到的證據越不相關,模型對內部參數知識的依賴性越強;同時,當外部證據部分與內部記憶一致時,大模型會過度信賴該部分,而忽視其他相沖突的外部信息。但這種復雜的證據權衡機制有待深入探究。此外,惡意攻擊者可能故意提供虛假外部信息,誘導模型生成有害或違法輸出,引發潛在安全隱患。

2.3.2 外部信息時效性缺陷 外部信息的時效性也是一大挑戰。在科技、政治等快速變化的領域,過時的信息可能會嚴重誤導模型和最終用戶。以政治人物相關查詢為例,若參考的是多年前的舊信息,結論就可能與當下情況嚴重偏離。即使采用私有知識庫作為檢索源,時效性問題也難以完全根除。若知識庫未及時維護和更新,同一文檔的新舊版本可能并存,導致時間上的矛盾和沖突。以法規修訂為例,用戶查詢時應當參考的是最新版本,但若模型同時檢索到舊版本,其生成的回復就可能出現嚴重錯誤。

3 知識沖突的解決方案

面對大語言模型中的知識沖突問題,國內外研究者已提出了多種策略緩解這一挑戰。下面將對這些解決方案進行全面的回顧,結合之前對于知識沖突成因的討論,我們將現有的策略分為如圖 2 所示的三大類:①領域事實增強,主要針對訓練數據層面的問題;②模型層面,旨在通過改進模型架構或其內部機制以應對知識沖突;③提示工程,側重于優化模型對于外部信息的處理。

圖 2 知識沖突解決方案

3.1 領域事實增強

3.1.1 持續預訓練 通過持續預訓練,模型能夠不斷補充和更新其知識庫,以適應不斷發展的知識領域。圖3示出了大模型的不同預訓練方式。首先是對預訓練數據質量的優化,包括刪除重復數據、剔除過時、錯誤及虛假信息,從根源上避免模型內化矛盾知識,鑒于現有的預訓練語料庫規模龐大,目前的研究主要采用簡單的啟發式。規則來選擇和過濾數據。其次,在通用語言模型的基礎上,引入特定領域的高質量語料對其進行微調,使模型逐步完善相關知識的表示,有效地獲取新領域的知識。例如,雖然持續預訓練可以幫助模型快速有效地學習領域事實知識,但其也存在嚴重缺陷,如模型易發生災難性遺忘,忘記已經學過的來自舊領域的知識,常用的解決方法是將領域數據與通用數據按一定比例混合后對模型進行預訓練。

圖 3 大模型的不同預訓練方式

3.1.2 持續 SFT 除持續預訓練外,持續微調也是增強模型領域事實知識以避免出現知識沖突的重要方法。研究人員通過設計不同的知識注入方式,如ERNIE、KnowBERT和K-BERT等,將專業領域知識注入到語言模型中,從而提升其在下游任務的性能;為了增強模型在特定任務背景下優先考慮上下文信息,而在與場景上下文無關時則更依賴內部參數知識的能力和魯棒性,知識感知微調方法 (knowledgeaware finetuning,KAFT)通過將反事實和不相關的上下文納入微調數據集,采取對抗訓練策略,增強模型分辨與任務相關知識的能力。此外,拒絕感知指令微調(refusal-aware instruction tuning,R-Tuning)通過識別參數知識和指令微調數據之間的知識差距,然后基于知識交集構建拒絕感知據,來微調大語言模型,使其避免回答超出能力范圍的問題。

3.1.3 外部知識 大語言模型雖展現出強大的理解、生成和泛化能力,但在實際應用中,仍面臨準確性、知識更新速度和答案透明度等方面的挑戰。引入外部知識可有效結合大語言模型的參數化知識和非參數化的外部知識,如數據庫、網站、非結構化文檔等,成為緩解知識沖突,加速大模型落地應用的關鍵手段。提升與外部知識的結合主要有兩種方式,一是檢索增強,通過在原有的檢索框架和策略上做進一步改進,以提供與情境上下文更加相關、細粒度的外部證據,避免返回無關或矛盾信息;二是工具增強,調用其他專業模型API,擴展大模型的能力邊界。

3.2 模型架構

3.2.1 解碼策略 在大語言模型中,優化解碼策略是用于減少模型在文本生成過程中可能存在的知識沖突的有效方法。這些策略通過調整模型生成文本的概率分布,直接影響輸出結果,從而提高模型的靈活性和輸出的可信度。盡管這些方法可能需要對模型進行額外的訓練或調整,或依賴于外部信息資源,但是它們在提高生成文本的一致性和可信度方面顯示出顯著優勢。下述是三種代表性的優化解碼策略。

(1) 上 下 文 感 知 解 碼(context-aware decoding,CAD)是一種基于對比的解碼策略,旨在減少生成文本中的知識沖突。該策略利用一個對比模型計算在考慮和不考慮輸入信息的情況下,輸出的概率分布差異;隨后,一個放大模型被用來增強這些差異,提升與輸入信息一致的輸出的概率,同時降低與輸入信息沖突的輸出的概率;最終,根據調整后的概率分布,生成模型輸出與輸入信息更為一致且可信的文本。

(2)對比層解碼。對比層解碼(decoding bycontrasting layers, DoLa)通過動態選擇并比較模型不同層次在詞匯空間中的對數概率差異。這種層間對比幫助生成模型依據調整后的概率分布生成文本,從而增強文本與事實知識的一致性和可信度。

(3)推理時干預(inference-time intervention,ITI)。在解碼過程中實施,通過激活與事實性知識更相關的注意力頭,促進這些信息在模型中的傳播。這種策略可以在使用較少數據集和訓練資源的情況下對模型進行微調,顯著提升模型在回答問題時的準確性和可靠性。

3.2.2 訓練判別器 通過對一個小型的大語言模型進行微調,將其作為判別器,并結合提示工程技術幫助模型區分信息是否可靠,從而使模型在面對可能存在虛假或誤導信息的上下文內容時,保持忠誠可靠的輸出。通過構建事實有效性預測模型,預測大語言模型學到知識中的事實信息能夠在多久的時間期限內保持有效,來決定在生成回復內容時是否接受該事實信息,同時利用事實有效性預測還可在生成過程中丟棄易發生變化的事實,給予提供的最新上下文信息更高的置信度。

3.2.3 知識編輯 在大語言模型(LLMs)的應用中,知識編輯技術旨在優化模型的信息準確性,通過有針對性地修改模型參數或引入外部插件來糾正嵌入其中的錯誤知識。這種方法避免了對整個模型進行全面微調,從而在提升模型實用性的同時,維持了其作為可靠知識庫的基本功能。主要的知識編輯方法有兩種。

(1)知識插件。該方法允許在保持模型原有結構不變的情況下,通過插入可訓練的參數模塊來引入新的知識。這種策略的優勢在于它避免了對預訓練模型權重的直接修改,從而保留了模型中已有的知識資產。這使得模型能夠在擴展新知識的同時,繼續利用已有的廣泛知識基礎,例如K-Adapter等。

(2)定位 - 編輯。基于對大語言模型中知識存儲機制的研究,定位 - 編輯方法專注于精確定位和編輯模型中的特定區域。這種策略識別并修改存儲錯誤信息的網絡部分,尤其是前饋神經網絡(FFN)中的相關神經元,以此來糾正或更新錯誤的知識。這種精確的編輯方法優化了模型的知識準確性,而不損害其整體性能。

3.3 提示工程

提示工程是緩解大語言模型知識沖突的一種重要策略,它通過精心設計的提示詞來完善模型的輸入信息及優化模型輸出內容。使用提示工程的緩解技術可以概述如下。

3.3.1 補充情境信息 通過檢索增強策略和工具增強,如FreshPrompt、ChatProtect等,將與任務相關的情境知識集成到提示中。這種方法不僅豐富了模型處理的上下文,而且提高了其對特定領域信息的敏感性和應答質量。

3.3.2 設計系統提示 使用系統提示明確告知大語言模型不要提供虛假或不可驗證的信息,或提示模型對潛在的虛假信息保持警惕,并在生成前與參數記憶知識進行核實,或要求模型進行自我反思,通過不斷迭代反饋及模型自我糾正錯誤,改善生成答案的事實性和一致性。

采用分治思想的提示策略,提示大語言模型將問題拆分成多個子問題,分別進行回答,再對生成的內容進行合并,這樣可以幫助模型更好地理解問題;同時采取該策略,某個子任務的解答不會過度依賴于其他子任務解答的正確性,增強了模型對于中間錯誤的魯棒性。類似地,采用思維鏈策略(如COT、TOT、GOT)要求模型對問題進行連貫且逐步深入的思考,從而提高輸出的邏輯性和深度。

最后,針對用戶可能給出模糊的指令這一情況,提示模型要求用戶對指令進行修改完善,對問題進一步澄清。

4 未來展望

在大語言模型知識沖突領域未來的研究方向上有下述思考。

(1)可靠的評估方法 現有研究多聚焦于大語言模型在特定任務場景下內部參數知識與外部情境知識產生沖突的情形,探討模型在面對知識沖突時對內部參數知識和外部信息的依賴程度及解決沖突的方法。然而,對于如何評估知識沖突,尤其是在不同下游任務背景下的評估方法,現有研究仍顯不足。如何對大語言模型在各種任務場景下處理知識沖突的性能進行評估,以及建立自動化的評估框架和標準指標仍有待進一步研究。通過建立可靠的評估方法,探索知識沖突對模型在不同下游任務下的影響,可以幫助研究者優化模型的設計和應用策略,開發更強大、更可靠的模型。

(2)基于大模型的智能體 目前,大語言模型在處理知識沖突的研究側重于提升模型訓練數據的質量、提供更準確的外部信息,以及設計更有效的提示詞等方面。這些方法雖然在一定程度上提高了模型輸出的準確性,但對于模型自主識別和解決知識沖突的能力仍然缺乏深入探討。未來對于大語言模型的研究更應關注其在處理復雜信息源中的自主決策能力,尤其是在面對可能引起知識沖突的場景時;研究基于大模型的智能體,使其能夠識別并管理知識沖突,是應對這一挑戰的有效途徑。

此類智能體首先需要能夠實現知識沖突檢測,即具備識別多樣化信息源中存在知識沖突的內容,以及決策出需要剔除或修正的知識點。同時,根據實際需求主動尋找并整合新知識,優化和更新現有背景知識,以提供更為準確和詳盡的回復。開發此類智能體不僅可提高模型在復雜信息環境中的適應性和實用性,還能增強其可靠性和用戶信任度。

(3)多模態背景下的知識沖突 現有研究多集中于單一文本模態,而多模態領域的知識沖突則相對較少探討。現實世界信息通常以視覺、聽覺和文本等多種形式表達,這些模態間可能存在不一致或矛盾。未來可探索不同模態間的知識表示、跨模態知識融合、跨模態推理,以及解決模態間知識沖突等方向。理解和解決多模態數據中的知識沖突,可極大提升模型對復雜現實情境的理解能力,提高其在決策支持、自動化內容生成和人機交互等領域的準確性和效率,既是提升大模型實用性和智能化水平的關鍵步驟,也是一個具有挑戰性的前沿研究領域。 (參考文獻略)

李興明

國防科技大學博士研究生。主要研究方向為大語言模型的檢索增強與知識沖突。

胡慶擁

軍事科學院助理研究員。主要研究方向為大規模三維點云語義理解等,谷歌學術引用5000余次,入選斯坦福大學2023年度全球前2%科學家榜單、中國科協青年人才托舉工程。

選自《中國人工智能學會通訊》 2024年第14卷第5期 青托專欄

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

摘要: 近年來,強化學習與注意力機制的結合在算法研究領域備受矚目。在強化學習算法中,注意力機制的應用在提高算法性能方面發揮了重要作用。本文重點聚焦于注意力機制在深度強化學習中的發展,審視了其在多智能體強化學習領域的應用,并對相關研究成果進行調研。首先介紹了注意力機制和強化學習的研究背景與發展歷程,并調研了該領域中的相關實驗平臺;然后,回顧了強化學習與注意力機制的經典算法,并從不同角度對注意力機制進行分類;接著,對注意力機制在強化學習領域的應用進行了梳理,根據三種任務類型(完全合作型、完全競爭型和混合合作競爭型)進行分類分析,重點關注了多智能體領域的應用情況;最后總結了注意力機制對強化學習算法的改進作用,并展望了該領域所面臨的挑戰和未來的研究前景。本文的工作有助于研究人員更深入地探索該領域,有助于進一步推動強化學習與注意力機制在實際項目中取得更加廣泛和深遠的應用,為未來的研究提供了一定的指導作用。 隨著人工智能技術的不斷發展,強化學習 (Reinforcement Learning, RL)和注意力機制的結 合在多機器人控制領域受到了越來越多的關注。RL 是機器學習的一個分支,專注于處理序列決策問題, 具有良好的魯棒性能和能夠更好地適應環境的優 點[1]。在實際 RL 應用中,智能體接收到的信息復 雜且繁多,并且 RL 算法的可解釋性較低。為了解 決這些難題,研究人員在 RL 中引入了注意力機制。 隨著機器學習的發展和計算機算力的提升, RL 領域、注意力機制領域以及二者相結合的應用 正受到越來越多的關注。在過去幾十年中,研究人 員們提出了多種與其相關的算法,充分發揮了 RL 的決策能力和注意力機制的信息處理能力,以實現 多個智能體之間的最優決策。1989 年,Watkins 和 Dayan 將 Bellman 方程、Markov 決策過程等最優控 制理論與時間差學習相結合,創造了 Q-learning 算 法。隨后,Q-learning 被廣泛應用于解決各種實際 問題。注意力機制最早于 2014 年被提出,由 Google Mind 團隊的研究人員[2]引入了一種基于 RNN 的注 意力模型,名為視覺注意的循環模型,旨在解決視 覺任務中的對象識別和圖像分類等問題。隨著智能 體數量的增加,各個智能體之間需要處理和溝通以 做出決策的信息也在顯著增加,這會導致有用信號 淹沒在背景噪聲中。為了應對這一問題,研究人員 [3]提出了一種基于注意力機制的多智能體強化學 習(Multi-Agent Reinforcement Learning, MARL)算 法——多重注意力演員-評論家算法(Multiple Attention Actor-Critic with Attention, MAAC-A )。 MAAC-A 通過一個集中的評論家和多個分散的演 員來學習多智能體系統(Multi-Agent System, MAS)。 為了克服傳統價值函數方法和 PG 方法在多智能體 問題上的限制,MAAC-A 借鑒了多智能體深度確定 性策略梯度方法(Multi-Agent Deep Deterministic Policy Gradient, MADDPG),該方法運用注意力機 制關注不同智能體之間的交互,從而提高學習效率 和性能。隨后,2021 年,研究者[4]提出了一種基于 自關注機制的深度循環 Q 學雙引擎謠言檢測模型, 結合自注意力機制和 RL,可以更早地排除不必要 的信息,進而提高準確率。由于其處理大量信息的能力,注意力機制在RL 領域引起了廣泛關注。OpenAI、DeepMind和Google Brain 等團隊是該領域的領導者,發表了多種具有里程碑意義的方案,對RL研究產生了深遠的影響。此外,許多學者和團隊的努力推動了RL中注意力機制的迅速發展,為未來解決各種RL問題奠定了基礎。近年來,在中國、美國和歐洲出現了更多的 RL 工作室,反映了該領域的快速發展趨勢。目前,關于 RL 的綜述性論文大約有400篇。然而,僅有大約40 篇綜述性論文探討了其在多智能體領域的應用。這些綜述從不同的角度出發,包括 RL 協作([5,6]引用)、競爭[7]、混合[8]等不同分類,以及從無人機無人駕駛飛行器(UnmannedAerial Vehicles , UAV)領域[9,10]、通信[11]、交通信號[12]、微電網[13]、資源分配[14,15] 、運動控制[16]等不同領域的應用,對RL 以及MARL算法進行了深入講述。作為人工智能發展前沿的一部分,RL與注意力機制的結合已引起許多國家的重視。盡管有關于和注意力機制的綜述已有許多,但專注于多智能體領域中注意力機制與RL 結合應用的綜述尚未出現。因此,本文旨在填補這一研究空白,重點關注2014年一月至 2023 年十月的RL 與注意力機制結合在多智能體領域的研究成果,并進行了全面總結。本文的主要貢獻如下:(1)回顧了深度學習中注意力機制的經典算法,根據不同的角度對注意力機制進行分類;(2)首次系統介紹了近年來RL 中的注意力機制算法的結合情況以及研究進展,是該領域的第一次綜述; (3)對注意力機制在MARL 領域的應用進行了梳理,關注并展望了該領域所面臨的挑戰和未來的研究前景。我們的工作有助于研究人員更好地深入研究該領域。 本文主要探討了注意力機制在DRL中的發展和應用,旨在為后續基于RL 的注意力機制應用提供概念理解和理論支持。

付費5元查看完整內容

本文總結了視覺 Transformer 處理多種識別任務的百余種代表性方法,并對比分析了不同任務內的模型表 現,在此基礎上總結了每類任務模型的優點、不足以及面臨的挑戰。本文根據識別粒度的不同,分別著眼于諸如圖 像分類、視頻分類的基于全局識別的方法,以及目標檢測、視覺分割的基于局部識別的方法。考慮到現有方法在三 種具體識別任務的廣泛流行,本文總結了在人臉識別、動作識別和姿態估計中的方法。同時,也總結了可用于多種 視覺任務或領域無關的通用方法的研究現狀。基于 Transformer 的模型實現了許多端到端的方法,并不斷追求準確率 與計算成本的平衡。全局識別任務下的 Transformer 模型對補丁序列切分和標記特征表示進行了探索,局部識別任務 下的 Transformer 模型因能夠更好地捕獲全局信息而取得了較好的表現。在人臉識別和動作識別方面,注意力機制減 少了特征表示的誤差,可以處理豐富多樣的特征。Transformer 可以解決姿態估計中特征錯位的問題,有利于改善基 于回歸的方法性能,還減少了三維估計時深度映射所產生的歧義。大量探索表明了視覺 Transformer 在識別任務中的 有效性,并且在特征表示或網絡結構等方面的改進有利于提升性能。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?edit_id=202302&flag=2&file_no=202208300000009&journal_id=jig 計算機視覺(Computer Vision, CV)涉及對圖像 或視頻中有用信息的提取和分析。在所有CV任務中, 識別任務占有很大的比重。隨著深度學習技術的引 入,經典的方法是利用卷積神經網絡(Convolutional Neural Network, CNN)來解決此類問題。CNN通過局 部感知和參數共享,降低了網絡模型的復雜度,并 且可以直接將圖像數據作為輸入,避免了人工提取 特征的過程。但由于CNN擅長關注局部特征,難以 很好地利用對結果同樣十分重要的全局信息,使得 該領域的發展受到了一定的阻礙。 Transformer(Vaswani 等,2017)是一個從序列 到序列(Sequence to Sequence)的模型,最大特點是 拋棄了傳統的卷積神經網絡和循環神經網絡 (Recurrent Neural Network, RNN),采用注意力機制 組成網絡,使得模型可以并行化訓練,而且能夠關 注全局信息。Transformer被提出后在自然語言處理 (Natural Language Processing, NLP)領域大放異彩,例如備受關注的基于Transformer的雙向編碼器表 示 (Bidirectional Encoder Representations from Transformers, BERT)模型(Devlin 等,2019),以及 生成式預訓練Transformer(Generative Pre-Training, GPT) 系列模型 GPT1(Radford 和 Narasimhan , 2018),GPT2(Radford 等,2019),GPT3(Brown 等, 2020)。 這些基于Transformer的模型表現出的強大性 能使NLP研究取得了重大突破,同時吸引住了計算 機視覺研究人員的目光,他們將Transformer移植到 視覺任務中,并發現了其中的巨大潛力。 如首次使 用 純 Transformer 進行圖像識別的方法 Vision Transformer(ViT)(Dosovitskiy 等,2021),以及解決 目標檢測問題的Detection Transformer(DETR)模型 (Carion 等,2020)。 隨著越來越多的視覺Transformer模型被探索 出來,關于此研究的綜述文章也逐漸出現。按照分 類標準的不同,目前的綜述文章從不同的角度總結 現有的方法,包括輸入數據(Han 等,2020)、網絡 結構(Khan 等,2022)、應用場景(Liu 等,2021f, Liu 和 Lu,2021d,Khan 等,2022)。其中,從應 用場景角度進行總結的文章占大多數。Liu 等人 (2021f)分別從計算機視覺領域的三個基礎任務(分 類、檢測、分割)總結現有的方法。除了這三個基礎 任務外,Liu 和 Lu(2021d),Khan 等人(2022)又增 加了在識別、視頻處理、圖像增強和生成應用場景 下的方法總結。然而,這些不同的應用都是孤立存 在的,不能形成一個系統的各種方法的總結。此外, 現有的綜述文章多關注于視覺Transformer模型與 傳統的CNN模型結果的比較,對不同Transformer模 型間結果的比較分析較少。 為了解決以上問題,本文從視覺識別的角度出 發,總結比較了視覺Transformer處理多種識別任務 的代表性方法。按照識別粒度的不同,可以分為基 于全局識別的方法和基于局部識別的方法。基于全 局識別的方法,即對視覺數據(圖片、視頻)整體進行 識別,例如圖像分類、視頻分類。基于局部識別的 方法,即對視覺數據中的部分進行識別,例如目標 檢測等。考慮到現有方法在三種具體識別任務的廣 泛流行,本文也總結對比了在人臉識別、動作識別 和姿態估計三種識別任務的方法。在每類任務下, 對不同方法的特點和在公共數據集上的表現進行 了對比分析,并進一步總結了該類方法的優點與不 足,以及不同識別任務面臨的問題與挑戰。 本文與現有的綜述文章對比,具有以下優點: 1)本文從識別的角度分類,可以更系統地將現有方 法聯系起來;2)雖然一些綜述文章(Liu 和 Lu, 2021d,Khan 等,2022)也對識別任務的方法進行了 總結,但是涉及的內容不全面,而本文不但對基礎 識別任務的方法進行了總結,還總結了三種具體識 別任務的方法,并且對于每類任務方法,在對比分 析公共數據集結果的基礎上,總結了其發展現狀和 不足。 綜上所述,近年來 CNN 的局限性以及 Transformer研究的突破性使得視覺Transformer已廣 泛應用于CV領域,而關于視覺Transformer的綜述文 章還不夠豐富,特別是對其應用場景的總結存在著 較為孤立的現象。又因流行的CV應用場景大多能夠 以視覺識別的角度分析,所以本文系統地對用于識 別任務的視覺Transformer進行綜述具有必要性,同 時,本文通過每類任務對應的基準數據集上的實驗 對比分析,反映各類Transformer模型間的區別與聯 系也是十分必要的。最后,本綜述的出現帶來了更 系統的總結和更全面的內容,將為相關領域讀者快 速了解和認識Transformer在視覺識別任務中的應 用提供重要幫助。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

論文針對現有跨語言命名實體識別方法主要使用源語言數據和翻譯數據的局限性,提出充分利用目標語言的大規模無標簽數據提升遷移性能。作者基于半監督學習和強化學習方法,提出RIKD模型,首先通過在目標語言無標簽數據上迭代知識蒸餾,不斷獲得更高效的學生模型。其次,為了降低蒸餾過程中教師模型的推理錯誤和低質量數據帶來的噪聲,設計了一個基于強化學習的樣本選擇器,動態選擇信息量更大的樣本進行蒸餾。實驗結果表明,RIKD在基準數據集和內部數據集上顯著優于現有最優模型。

//www.zhuanzhi.ai/paper/18a3b87ee49058589b9acb0098a3ab42

付費5元查看完整內容

本文針對多模態情緒識別這一新興領域進行綜述。首先從情緒描述模型及情緒誘發方式兩個方面對情緒識別的研究基礎進行了綜述。接著針對多模態情緒識別中的信息融合這一重難點問題,從數據級融合、特征級融合、決策級融合、模型級融合4種融合層次下的主流高效信息融合策略進行了介紹。然后從多種行為表現模態混合、多神經生理模態混合、神經生理與行為表現模態混合這3個角度分別列舉具有代表性的多模態混合實例,全面合理地論證了多模態相較于單模態更具情緒區分能力和情緒表征能力,同時對多模態情緒識別方法轉為工程技術應用提出了一些思考。最后立足于情緒識別研究現狀的分析和把握,對改善和提升情緒識別模型性能的方式和策略進行了深入的探討與展望。

//tis.hrbeu.edu.cn/oa/darticle.aspx?type=view&id=202001032

情緒,是一系列主觀認知經驗的高度概括,由多種感覺、思想和行為等產生的生理心理狀態。人們在交流過程中無時無刻不傳遞著大量的情緒信息。從認知神經科學角度來看,情緒也屬于經典認知的一種。情緒在人與人之間的溝通中意義重大,而在人機交互中,情緒識別是實現人性化必不可少的部分。

1995年,Picard等[1]提出了“情感計算”,情感計算要賦予計算機像人一樣的觀察理解和生成情感特征的能力,最終使得計算機像人一樣進行自然親近和生動交互。情感計算逐漸演變成高級人機交互的關鍵技術,而情感計算的子領域情緒識別更是人工智能領域中日益受到重點關注的研究方向。

情緒識別應用領域非常廣闊,涉及日常生活的方方面面。在醫學領域[2-3],情緒識別能為精神疾病的診斷治療提供依據。比如在意識障礙的診斷上,利用標準的行為量表不容易檢測患者的意識狀態,而計算機輔助評估意識障礙患者的情緒能幫助醫生更好地做出診斷和治療;在遠程教育領域[4-5],學生佩戴具有情緒識別功能的便攜設備,以便教師可以監控學生在遠程授課過程中的情緒狀態,從而調整授課的進度和方式。在交通領域中[6-7],對于那些需要高度集中注意力進行操作的工作人員,例如宇航員、長途旅行客車司機、飛行員等,他們的憤怒、焦慮、悲傷等負面情緒會嚴重影響他們的專注度,導致操作水平下降,造成交通事故的發生[8]。及時檢測這類人員的情緒狀態是避免事故發生的一種有效手段。

付費5元查看完整內容

本文處理學習和推理語言和視覺數據的相關下游任務的挑戰,如視覺問題回答(VQA)和自然語言的視覺推理(NLVR)。我們設計了一個新穎的跨模態關聯模塊,用端到端框架在目標任務的監督下學習各種輸入模態組件之間的關聯表示,這比僅僅重塑原始表示空間更易于推廣到未觀測的數據。除了對文本實體和視覺實體之間的相關性進行建模外,我們還對文本中的實體關系和圖像中的對象關系之間的高階相關性進行建模。我們提出的方法使用公共基準,在兩個不同的語言和視覺任務上顯示出具有競爭力的性能,并改進了最新發布的結果。NLVR任務學習的輸入空間對齊及其相關表示提高了VQA任務的訓練效率。

付費5元查看完整內容
北京阿比特科技有限公司