摘要——近年來,大規模基礎模型(FMs)如大型語言模型(LLMs)和潛在擴散模型(LDMs)對包括音樂在內的各個領域產生了深遠的影響。本綜述全面考察了音樂領域的最先進(SOTA)預訓練模型和基礎模型,涵蓋了表示學習、生成學習和多模態學習。我們首先將音樂在各行業中的重要性置于背景之中,并追溯了人工智能在音樂領域的發展歷程。通過分析基礎模型針對的多種模態,我們發現許多音樂表示在基礎模型的發展中仍然未被充分探索。接著,我們重點探討了以往方法在多樣化音樂應用中的局限性,以及基礎模型在音樂理解、生成和醫學應用中的潛力。通過全面探討模型預訓練范式、架構選擇、標記化、微調方法和可控性,我們強調了諸如指令調優和上下文學習、規模法則和涌現能力、長序列建模等重要議題,應該得到更多關注。我們還專門分析了音樂智能體,并對預訓練和下游任務所必需的數據集和評估進行了深入探討。最后,通過強調倫理考量的重要性,我們倡導未來在音樂基礎模型研究中應更加關注可解釋性、透明度、人類責任和版權等問題。本文為音樂領域的人機協作未來的挑戰和趨勢提供了見解,旨在塑造該領域的發展方向。
關鍵詞——自監督學習、基礎模型、音樂信息檢索、音樂指令跟隨、音樂生成
音樂是人類文化的重要組成部分,雖然在各個文化中普遍存在,但其形式卻千差萬別。音樂的功能包括情感調節、交流、促進社會凝聚力等,廣泛應用于藝術、娛樂、宗教和廣告領域,并且是一個對全球經濟有重要貢獻的大型產業。音樂不僅在文化上為人類社會帶來益處,而且在與人工智能結合時也帶來了獨特的技術挑戰。 計算機音樂領域位于音樂、計算機科學、電氣工程和人工智能的交叉點上,借鑒了哲學(美學)、心理學(感知、認知和生產)以及物理學(聲學)等學科的知識。對音樂的計算方法通常使用信號處理等技術從音頻信號中提取特征,然后應用機器學習算法進行音樂信息檢索(MIR)任務或音樂創作。 盡管基礎模型(FMs)在自然語言處理、計算機視覺和語音處理領域已經得到廣泛應用,但我們在藝術領域的AI應用,尤其是音樂領域,仍然處于起步階段。音樂特有的一個挑戰是復調信號建模。與語音和語言信號不同,音樂通常有多個同時發聲的“說話者”,且這些“說話者”所表達的“意義”并未與現實世界的物體或事件建立聯系。不同音符事件的出現并非獨立的,這使得捕捉音樂“語言”的建模任務變得具有挑戰性。此外,與語音或一般音頻相比,音樂通常持續時間更長,采樣率更高,這也增加了對整個音樂片段進行建模的難度。 近年來,預訓練語言模型(PLMs)的進展在一系列與音樂相關的計算任務中顯著優于傳統算法,展示了現代機器學習技術在前所未有的規模上理解和處理音樂的潛力。然而,一個關鍵的瓶頸是數據集的規模和質量。為了使算法在復雜、真實的場景中可靠運行,必須在多樣且具有代表性的數據集上進行訓練。算法的性能在很大程度上取決于標注數據集的規模及其標注質量,這也說明了為何需要大量高質量的數據。不幸的是,由于版權保護的公共領域數據有限以及標注和注釋的高昂成本,音樂數據集往往規模受限。 基礎模型通過使用自監督學習(SSL)方法在大量未標注的音樂數據上進行預訓練,從而解決了這一問題。SSL使模型能夠通過利用數據的內在結構,在無需顯式標注的情況下學習有意義的表示。這種方法類似于自然的人類學習過程。例如,當兒童聽到不同樂器演奏時,他們能夠學習每種未知樂器的特征,并在新樂曲中識別這些樂器,而不一定知道它們的名稱。同樣,SSL使得機器學習模型能夠從大量未標注的數據集中提取通用知識,從而提高其在缺乏大量標注數據的下游任務中的性能。與其他領域的成功案例類似,通過這種方法訓練的模型在音樂理解和生成方面顯示出有希望的結果。
“基礎模型”一詞用來描述一種多用途的機器學習模型,該模型并非為單一特定任務而訓練,而是作為多個派生模型的基礎,這些模型能夠執行廣泛的任務[BHA+21]。這一術語反映了從傳統的架構或任務細節到廣泛適用的模型的重點轉移,這些模型的涌現能力和泛化能力通過顯著增加模型參數數量而得到釋放[WBZ+21],[CND+22]。與強調人工智能發展中狹窄方面的術語(如大型語言模型或自監督學習)相反,“基礎模型”捕捉到了這些模型的通用性本質。 基礎模型的興起得益于計算硬件的進步、神經網絡架構的創新(如Transformer架構),以及對最低限度監督訓練范式的關注。基礎模型通常采用深度神經網絡架構,并在大規模未標注的數據集上使用SSL進行訓練。在預訓練階段之后,基礎模型可以通過相對輕量級的微調或上下文學習階段適應各種下游任務,例如使用比預訓練數據少幾個數量級的標注數據集。 從Google的BERT(雙向編碼器表示Transformers [DCLT18])和OpenAI的GPT(生成預訓練Transformer [BMR+20])系列語言模型開始,基礎模型展示了SSL在大規模網絡數據集上訓練的強大能力,擺脫了對標注數據的依賴,而這些標注數據在經濟上難以擴展到網絡規模的數據量。這些PLMs不僅在文本分析和文本生成中展現了其效用,還在其他模態中展示了其價值,包括CLIP [RKH+21a]、DALLE [RPG+21] 和Flamingo [ADL+22]的圖像處理,Audiobox [VSL+23]的語音和音頻生成,Jukebox [DJP+20a]、MusicLM [ADB+23]和MusicGen [CKG+24]的音樂生成,以及RT-2 [BBC+23]的機器人控制。 2022年Stable Diffusion1和ChatGPT2的發布標志著基礎模型在公眾影響力以及工業和學術界對AI生成內容(AIGC)的興趣方面的一個重要轉折點。這一顯著進展主要得益于對語言指令的跟隨能力、在擴展到大型語言模型(LLMs)時算法進展中的涌現能力,以及潛在擴散模型(LDMs)的真實質量[RBL+21]。這些方法表明了人工智能的范式轉變,因為通用框架可以支持跨不同領域的多種應用。盡管自AI研究的最初階段以來,開發具有多任務和未見任務通用能力的AI一直是研究人員的目標[NSS59],但在隨后的幾十年里,大多數AI研究都集中在單一或有限數量的預定義任務上。此外,通過自然語言交互訪問高級問題解決能力促進了非專業人士的使用。盡管開發基礎模型需要大量的資金和計算投資以及大量的人力投入,但為特定需求適應現有模型的成本更為低廉,而Stable Diffusion、Llama [TLI+23a]、Mistral [JSM+23]和MAP-NEO [ZQL+24]等開源基礎模型的發布使用戶、開發者和研究人員都能夠探索這些模型的可能性。 本文將討論兩種經過自監督預訓練的基礎模型,它們可以執行多種下游任務。第一種是單模態預訓練模型,適用于波形或符號域,需要對下游任務進行微調。這可以是某種音樂理解的PLM變體,如MERT [LYZ+24],也可以是音樂生成的PLM,如Jukebox [DJP+20a]。第二種是多模態預訓練模型,可以同時接受自然語言和音樂作為輸入,并且有潛力通過上下文學習解決下游任務。這包括帶有多個文本輸入的潛在擴散模型(LDMs),如MusicLDM [CWL+23a],在LLM前加上音樂編碼器的模型,如Mu-llama [LHSS24],或者帶有多模態標記器的LLM,如AnyGPT [ZDY+24]、Gemini 1.5 [RST+24]和GPT-4o。
音樂的基礎模型不僅解決了數據稀缺問題并減少了注釋成本,還增強了音樂信息檢索和創作中的泛化能力。通過在大型音樂數據集上進行預訓練,這些模型提供了對未見結構、流派或樂器的更好理解能力。這些算法還可以通過世界音樂分析、音樂教育和新形式的藝術表達,幫助保護音樂的文化遺產。
在創意應用領域,AIGC可能是基礎模型最明顯的應用,包括音樂,如個性化音樂生成和與音樂家的協同創作。基礎模型使得能夠基于用戶指定的偏好(如流派、情緒、節奏和樂器)生成音樂。隨著LLMs和LDMs在音樂領域的最新進展,許多具有商業影響力的音樂生成初創公司,如SunoAI、TiangongAI和Udio等,已經涌現。音樂家和制作人可以操控上述參數來引導創作過程,輔助創意構思。這類音樂生成應用能夠實現用戶與音樂家之間的新型互動形式。音樂可以根據聽眾的反饋或提示信息進行變化,潛在地創造出更具沉浸感和個性化的聽覺體驗。此外,基礎模型在與音樂家或音樂編輯的協作中表現出更強的專業性和穩定性,能夠更好地執行他們的指令。 基礎模型解決了音樂理解的多個方面。通過分析聽眾的習慣和理解音樂的偏好,基礎模型可以為聽眾提供更個性化的推薦,改善流媒體平臺上的用戶體驗。基礎模型還可以更好地檢測翻唱歌曲并識別版權侵權行為,幫助藝術家和公司更有效地保護他們的知識產權。它們還可以提供對音樂作品的分析,幫助音樂學家理解音樂結構、特征等。 在娛樂和媒體領域,基礎模型可以為音樂家和音樂編輯創建與視覺媒體敘事相對應的自適應音軌,增強電影和電子游戲的影響力和沉浸感。
關于文化保護與多樣性,基礎模型可以在保護瀕臨消失的世界文化和音樂傳統中發揮作用。通過分析多樣化的音樂數據集,這些模型可以識別出世界各地風格、作品和表演中的獨特特征,這類似于當前LLMs在理解小語種方面的能力。此外,基礎模型還可以促進文化認知,幫助人們探索世界不同地區的音樂。 在音樂人類學領域,基礎模型可以作為研究不同國家和時代音樂演變的工具。通過分析大量音樂數據,基礎模型可以揭示音樂模式和文化影響。將這種分析與社會和歷史數據聯系起來,基礎模型可能為音樂在不同社會中的角色提供洞見。 基礎模型可以通過創建適應學習者節奏和風格的個性化學習體驗,改善音樂教育。例如,可以作為虛擬導師提供理論和實踐知識、反饋、虛擬伴奏和模擬合奏演奏。這可能使音樂教育更易于獲得,無論傳統音樂教育資源的可用性如何,從而鼓勵更包容的音樂學習文化,并消除歷史上限制人們參與音樂創作的障礙。 在音樂治療中,基礎模型可以定制生成符合個人治療目標或情感需求的音樂,潛在地提供心理健康支持。同樣,在非臨床環境中,通過生成反映或對抗聽眾情緒狀態的音樂,基礎模型可以在情緒調節和健康實踐中發揮作用。 基礎模型生成模仿人類作品的音樂的能力提出了重要的倫理考量。模型從數百萬音樂家和藝術家創作的訓練數據中獲益這一事實引發了有關數據合法使用的法律挑戰和辯論。倫理討論集中在版權、原創性以及AI在創作過程中的角色等問題上,理想情況下應注重可解釋性和透明性。隨著這些模型的普及,社會必須在利用技術進行音樂創作創新與尊重人類藝術家的權利和貢獻之間取得平衡。 音樂基礎模型的影響可能是深遠的,提供了用于生成、分析和互動音樂的新工具,以及用于音樂教育和治療的新手段。隨著這些模型的發展,必須謹慎考慮其倫理影響,確保它們能夠豐富人類文化,促進更公平和包容的全球社會。有關音樂基礎模型倫理問題的更多信息,請參見第六節。
本綜述旨在全面概述與音樂領域相關的基礎模型,包括LLMs和LDMs。盡管先前的一些綜述文章已經探討了FMs [BHA+21] 或LLMs [ZZL+23], [HLC+24] 在特定領域(如視覺 [ZHJL24],語音 [ZLL+23], [MMB+23], [LCP+23] 和音頻 [WCL+24], [MLPW22], [LSS+23], [TTG+24])的應用,但它們并未全面覆蓋與音樂相關的FMs應用。此外,先前的音樂綜述也未能提供關于FMs的全面概述。例如, [JLY20] 未能納入2021年后的新進展,特別是在LLMs和音頻LDMs方面。同樣,[HSF+24] 主要關注數字信號處理方法,忽視了FMs在音樂合成和理解中的整合。[HOHOB22] 雖然簡要提到了LLMs和LDMs,但缺乏對其在音樂理解以及多模態性應用中的深入探討。[ZBRR23] 提供了有限的關于音樂生成模型的討論,主要側重于商業場景,忽略了關鍵技術細節和倫理考量。 我們的綜述旨在彌合這一差距,回顧從音樂理解到生成、治療及與這些技術相關的倫理影響的廣泛FM應用。通過這樣做,我們希望強調音樂數據為FMs提出的獨特挑戰和機遇,包括建模長期時間依賴性和評估藝術輸出等方面。此外,本綜述還致力于更新文獻中未覆蓋的LLMs和音頻LDMs的最新進展。 本綜述將詳細探討音樂中的基礎模型。第2節研究了音樂模態和表示,包括心理聲學、音頻表示、符號音樂表示及其與其他模態的整合。然后,我們在第3節討論了FMs在音樂中的多樣化應用,包括理解、生成和醫學應用。第4節涵蓋了FMs的技術方面,重點討論預訓練策略、(指令)微調、模型架構、音頻標記化、LLM基礎模型的應用、音樂智能體、規模法則和涌現能力,以及未來工作。第5節的討論擴展到數據集和評估方法,重點介紹了音樂理解和生成任務中聲學和符號域的挑戰和解決方案。最后幾節批判性地評估了在音樂中使用FMs的倫理和社會影響以及版權問題。它們還涉及了潛在的文化問題,包括算法的透明性和互操作性、人類的責任和版權問題。我們建議一般機器學習研究人員關注第2和第3節,計算機音樂研究人員關注第4節中的FM方法論。若需快速入門,請參閱GitHub倉庫。
摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。
情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。
多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。
多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。
多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。
本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。
綜述的結構
第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。
多模態情感計算中的多模態學習
多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。
隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。
多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。
跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。
在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。
模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。
多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。
多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。
在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。
第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。
語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。
多模態情感計算中的模型
在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。
多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。
在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。
在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。
Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。
對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。
近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。
在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。
在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。
在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。
一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。
在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。
在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。
在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。
在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。
在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。
上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。
在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。
在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。
在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。
MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論
多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。
人工智能(AI)技術已經深刻地改變了遙感領域,徹底革新了數據收集、處理和分析的方式。傳統上依賴于手工解釋和特定任務模型的遙感,因基礎模型的出現得到了顯著增強。基礎模型是指大規模、預訓練的AI模型,能夠以前所未有的精度和效率執行各種任務。本文對遙感領域的基礎模型進行了全面的綜述,涵蓋了2021年6月至2024年6月期間發布的模型。我們根據這些模型在計算機視覺和特定領域任務中的應用對其進行分類,并提供了關于其架構、預訓練數據集和方法論的深入見解。通過詳細的性能比較,我們突出了這些基礎模型所取得的顯著進展和新興趨勢。此外,我們還討論了技術挑戰、實際影響和未來研究方向,特別是針對高質量數據的需求、計算資源以及模型泛化能力的提升。我們的研究還發現,預訓練方法,尤其是對比學習和掩碼自編碼器等自監督學習技術,顯著提升了基礎模型在遙感任務中的性能和穩健性,例如場景分類、目標檢測等應用。本文旨在為研究人員和從業者提供資源,通過對基礎模型在遙感中的進展和未來發展路徑的全景式綜述,推動該領域的持續發展和應用。
關鍵詞——遙感、機器學習、人工智能、圖像處理、計算機視覺、Transformers。
人工智能(AI)技術已經深刻地變革了遙感領域,徹底革新了數據的收集、處理和分析方式。傳統上,遙感項目嚴重依賴于手動解釋和任務特定模型,這些模型需要大量的標記數據集和顯著的計算資源。然而,隨著AI和深度學習(DL)的出現,一個新的時代已經到來。在這個時代中,大規模的預訓練模型,即基礎模型,能夠以前所未有的精度和效率執行各種任務。這些進步不僅增強了遙感的能力,還為其在各個領域的應用開辟了新的途徑。近年來,出現了許多基礎模型,它們在處理多樣的遙感任務方面表現出了卓越的性能。這些模型有可能顯著提升多個下游任務的性能,如場景分類、語義分割、目標檢測等。通過利用海量的預訓練數據和復雜的架構,這些基礎模型在該領域設立了新的基準,使其成為研究人員和工程師不可或缺的工具。本文旨在提供遙感領域基礎模型的全面綜述,涵蓋了2021年6月至2024年6月期間發布的基礎模型。在圖1中,按時間順序列出了51個視覺模型。為了方便研究人員的導航和使用,我們根據這些模型在計算機視覺任務和特定領域任務中的應用對其進行了分類。這樣的分類方式可以更清晰地了解哪些模型適用于特定目的,無論是一般的基于圖像的挑戰,還是更為專業的應用,如環境監測、土地覆蓋和土地利用、考古勘探、災害管理或其他領域。我們的貢獻包括:
基礎模型(FMs)指的是大規模的預訓練模型,這些模型為不同領域的各種下游任務提供了堅實的起點。基礎模型利用廣泛的數據集和先進的架構,能夠捕捉復雜的模式和特征,并通過較少的額外訓練進行微調以適應特定的應用。在遙感領域,由于數據的多樣性和復雜性,包括多光譜和多時相影像,基礎模型顯得尤為重要。諸如自監督學習(SSL)和Transformers等技術顯著提高了圖像分類、目標檢測和變化檢測等任務的性能和效率,解決了遙感數據所帶來的獨特挑戰。
基礎模型的發展得益于深度學習的進步和大型數據集的可用性。最初,卷積神經網絡(CNNs)如ResNet為圖像識別和分類任務的改進鋪平了道路。Transformers的引入,利用自注意力機制來建模遠程依賴關系,進一步提升了基礎模型在處理大規模圖像數據方面的能力。
遙感中的基礎模型的特點在于它們能夠通過SSL技術利用大量未標記數據,從而在無需大量標記數據集的情況下學習到穩健的表示。主要的SSL方法包括對比學習,它通過比較同一數據點的不同增強視圖來學習表示;以及預測編碼,它通過觀察部分數據來預測輸入數據的缺失部分。
遙感領域的知名基礎模型包括SatMAE,它為時間和多光譜衛星影像預訓練Transformers;Scale-MAE,一種用于多尺度地理空間表示學習的尺度感知掩碼自動編碼器;以及DINO-MC,它通過全球-局部視圖對齊擴展了SSL在遙感影像中的應用。這些模型在場景分類、目標檢測和變化檢測等各種遙感任務中表現出色。
盡管取得了成功,基礎模型仍面臨諸多挑戰,包括對高質量和多樣化訓練數據的需求、顯著的計算資源消耗,以及將模型有效適配于特定遙感任務的領域適應性。這些挑戰的解決對于基礎模型在遙感中的持續進步至關重要。
近年來,遙感基礎模型(FMs)的發展依賴于各種復雜的方法學,包括自監督學習(SSL)、Transformers及視覺Transformers(ViT),以及殘差神經網絡(ResNet)。這些方法顯著增強了基礎模型的能力,使其能夠在沒有大量人工監督的情況下從大量數據中學習,處理復雜的數據結構,并改善特征提取和表示能力。本節將回顧這些方法在遙感領域的機制和貢獻。
自監督學習(SSL)在基礎模型的預訓練階段起著至關重要的作用。通過SSL,模型能夠從輸入數據的部分信息中預測另一部分,從而減少對大量標注數據集的依賴。在遙感中,由于標注數據的稀缺性,SSL顯得尤為重要。使用SSL預訓練的模型能夠有效地從大量未標注的遙感數據中捕捉模式和特征,使其在下游任務中非常高效。圖3展示了自監督學習的一般流程。 在遙感應用中,常用的兩種SSL方法是對比學習和預測編碼。 1. 對比學習:對比學習旨在通過比較同一數據點的不同增強視圖來學習表示。其核心思想是在特征空間中將相似(正樣本)對拉近,而將不相似(負樣本)對推遠。這種方法高度依賴于數據增強,以創建同一圖像的多個視圖。 1. 預測編碼:預測編碼是另一種SSL技術,模型通過觀察部分數據來預測輸入數據的缺失部分。這種方法有助于捕捉數據中的空間和時間依賴性。常見的預測編碼方法包括自動編碼器(AE)和掩碼自動編碼器(MAE)。
常用的SSL方法包括SimCLR、MoCo(動量對比)、BYOL(自我引導潛在空間)和DINO(無標簽自蒸餾)。這些方法各有特色,在生成正負樣本對和更新模型參數方面采取了不同的策略。這些方法在遙感中的場景分類、語義分割和目標檢測等任務中表現出色。例如,SSL可以幫助模型在標注數據有限的情況下,學習分類土地覆蓋類型、識別建筑物和車輛等目標,并分割衛星圖像中的不同區域。
在深度學習中,主干網絡是作為特征提取器的關鍵神經網絡架構。它們構成了模型的基礎層,處理輸入數據以生成豐富的、層次化的特征表示。這些表示可以被模型的后續組件用來執行各種任務,如分類、檢測和分割。通過利用強大的主干網絡,模型能夠高效地處理復雜數據,并在不同應用中提升性能。
主干類型I:Transformers和視覺Transformers(ViT):Transformers最初為自然語言處理設計,通過自注意力機制建模長距離依賴關系,徹底改變了計算機視覺領域。視覺Transformers(ViT)將Vaswani等人(2017)提出的Transformers架構適用于圖像數據,將圖像塊視為序列的token。這種適應在遙感中尤為有用,因為圖像往往較大且包含復雜的空間結構。圖4展示了用于遙感分割任務的ViT基本結構。
ViT的關鍵組件包括圖塊嵌入、位置編碼、Transformer編碼器和分類頭。圖塊嵌入將圖像分割為固定大小的塊,并將每個塊線性嵌入到向量中。位置編碼則為圖塊嵌入添加空間結構信息。Transformer編碼器由多層多頭自注意力和前饋神經網絡組成,處理嵌入塊的序列以捕捉全局依賴關系。最后,分類頭是一個全連接層,用于處理最終的序列表示以執行下游任務,如圖像分類。Transformer中的自注意力機制允許每個token關注所有其他token,為捕捉全局上下文提供了強大的方式。 ViT在遙感任務中表現出色,如土地覆蓋分類、城市區域識別和植被分析,利用其捕捉局部和全局模式的能力。
主干類型II:卷積神經網絡(CNN):卷積神經網絡(CNN),如殘差神經網絡(ResNet),通過引入殘差連接解決了深層神經網絡中的退化問題,這些連接允許梯度繞過某些層,從而促進非常深的網絡訓練。這一能力在遙感中尤為重要,因為通常需要深度模型來捕捉衛星圖像中的復雜細節和變化。
ResNet的特點是其殘差塊,包括繞過一個或多個層的快捷連接。殘差塊可以描述為以下公式:y=F(x,{Wi})+x\mathbf{y} = \mathcal{F}(\mathbf{x}, {W_i}) + \mathbf{x}y=F(x,{Wi})+x其中,y\mathbf{y}y是輸出,F\mathcal{F}F表示要學習的殘差映射,x\mathbf{x}x是輸入,{Wi}{W_i}{Wi}是塊中各層的權重。根據維度,快捷方式可以是恒等映射(如果輸入和輸出維度匹配)或卷積層(如果維度不同)。
ResNet有多種架構,如ResNet-50、ResNet-101和ResNet-152,數字表示總層數。這些網絡在各種視覺任務中表現出色,因為它們能夠在不退化的情況下訓練更深的網絡。在遙感中,ResNet廣泛用于圖像分類、目標檢測和變化檢測任務。例如,基于ResNet的模型可以分類不同的土地覆蓋類型,檢測建筑物和車輛等目標,并通過比較時間序列衛星圖像來監測景觀變化。
通過結合這些方法,遙感基礎模型能夠利用大量數據,處理復雜結構,并在各種應用中實現最先進的性能。這些方法使模型能夠有效應對遙感的獨特挑戰,如大圖像尺寸、多樣化數據源,以及在環境監測和分析中對高精度的需求。
在接下來的部分中,我們將探討這些方法在不同遙感任務中的具體應用,分析其性能,并討論用于訓練和評估這些模型的數據集。
在這篇全面的綜述中,我們回顧了2021年6月至2024年6月間開發的遙感基礎模型的進展。我們將這些模型分類為視覺模型和視覺-語言模型,重點介紹了它們獨特的方法論和能力。我們的分析涵蓋了多種先進技術,包括自監督學習(SSL)、視覺Transformers(ViTs)和殘差神經網絡(ResNets)。這些模型在場景分類、語義分割和目標檢測等任務中,以及在環境監測、數字考古、農業、城市規劃和災害管理等特定領域的應用中,顯著提高了性能。盡管取得了顯著進展,但仍存在若干挑戰,如需要更多樣化和高質量的數據集、較高的計算需求以及任務特定的困難。解決這些挑戰需要進一步的研究和跨學科的合作。總而言之,這篇綜述提供了當前遙感基礎模型的詳細概述,提出了寶貴的見解并指明了未來的研究方向。我們建議繼續努力開發高效的模型架構、增強多模態數據整合以及擴大數據集的多樣性,以充分發揮這些模型在遙感領域的潛力。
摘要——在數據爆炸性增長和技術快速發展的時代,多模態大型語言模型(MLLMs)處于人工智能(AI)系統的前沿。MLLMs旨在無縫集成包括文本、圖像、視頻、音頻和生理序列在內的多種數據類型,解決遠遠超出單一模態系統能力范圍的復雜現實應用問題。在本文中,我們系統地梳理了MLLM在自然語言、視覺和音頻等多模態任務中的應用。我們還對不同MLLM在任務中的關注點進行了對比分析,并深入探討了當前MLLMs的不足之處,并提出了未來研究的潛在方向。通過這些討論,本文希望為MLLM的進一步發展和應用提供寶貴的見解。關鍵詞——MLLMs, 任務, AI應用, 融合技術。多模態大型語言模型(MLLMs)是設計用來處理和集成各種類型數據的復雜人工智能(AI)系統,包括文本、圖像、視頻、音頻和生理序列數據[1],[2],[3]。隨著我們進入多模態數據融合的時代,信息技術的快速進步和數據量的爆炸性增長,單一模態系統的能力已不足以應對復雜的現實任務[4],[5],[6]。因此,MLLMs的發展不僅是技術進化的必然趨勢,也是提高AI應用有效性的關鍵改進。通過融合來自多個數據源的信息,MLLMs培育了更全面和準確的信息表示,這種能力不僅釋放了巨大的潛力,還展示了在各個領域的顯著實際應用價值。多樣化數據集的整合使得MLLMs能夠更有效地執行任務,確立其作為下一代技術的不可或缺地位,致力于充分發揮AI技術的潛力[7],[8],[9]。值得注意的是,MLLMs在語言、圖像、視頻和音頻處理等多種多模態任務中表現出了顯著的性能。這些模型在集成多模態信息以增強多模態任務的有效性方面表現出色。在自然語言處理(NLP)任務中,如文本生成和機器翻譯,MLLMs利用圖像、視頻和音頻提供上下文支持,增強生成文本的準確性和表達力[10],[11],[12]。這些模型在情感分析和對話系統中也表現出色,通過整合多模態信息來提高理解和生成能力。特別是,MLLMs通過結合視覺和聽覺數據,豐富了文本生成和機器翻譯[13],[14],[15]。這些模型提高了生成文本的準確性和表達力,提供了傳統模型無法實現的細膩上下文支持。在情感分析和對話系統中,MLLMs能夠整合多模態信息,進一步加深系統的理解和響應能力,展示了在人機交互方面的重大進步[16],[17]。此外,在視覺任務中,MLLMs顯著提升了任務的理解、分析和生成能力。整合文本描述和圖像指令使得圖像分類、目標檢測和圖像注釋等任務更加準確。例如,像GPT-4V[13]和Gemini[18]這樣的MLLMs結合圖像內容和自然語言描述,產生更生動和精確的注釋結果。這些模型在圖像生成方面也取得了進展,可以從文本描述生成圖像或實現跨模態圖像風格遷移,從而拓寬了該領域的可能性。同時,由于視頻處理的復雜性,它提出了獨特的挑戰。然而,MLLMs的出現推動了語言模型在這一領域的能力發展。像NExT-GPT[19]和Sora[20]這樣的模型在多模態視頻生成方面處于領先地位,通過學習多模態數據生成更豐富和逼真的視頻內容。此外,智能視頻理解技術的進步,如VideoChat[21]和Video-LLaVA[22],顯著增強了分析和處理視頻內容的能力。這些發展在虛擬現實、電子游戲和教育應用中承諾了增強的用戶體驗。在音頻任務中,MLLMs為音頻處理任務帶來了新的技術變革。傳統的音頻處理通常依賴于單一模態的信號處理方法,如語音識別[23]或音頻分類[24],這些方法在處理復雜的多模態數據時存在局限性。MLLMs通過結合音頻信號、文本和視覺信息,能夠更好地理解和生成音頻相關內容。例如,在語音生成任務中,MLLMs可以利用文本和視覺信息生成更自然和上下文相關的語音輸出[25],[26]。在音頻理解任務中,這些模型可以結合視覺線索和文本描述,更準確地執行情感識別、音頻分類或音頻事件檢測。此外,MLLMs在跨模態音頻文本翻譯、音頻配樂生成和多模態情感分析等任務中顯示出強大的潛力[27],[18]。這些技術進步不僅提高了音頻處理的有效性,還擴展了其在智能家居、虛擬助手、影視制作等現實應用中的場景。本文回顧了MLLM應用的最新進展,在第二節介紹了MLLMs的基本概念和主要架構,第三節描述了它們在不同領域的表現,以識別其優缺點,第四節通過比較分析突出MLLMs的變革性影響,并在第五節提供了未來研究的路線圖。我們的討論旨在激勵持續創新,確保MLLMs在AI技術發展的前沿位置。通過對當前實施和進展的全面回顧,本文旨在總結研究成果,提供有價值的參考,并為MLLM領域的未來研究提供指導。我們的目標是激發新思想和新方向,以確保MLLMs在AI技術發展中保持領先地位。
總體而言,MLLMs 代表了人工智能和機器學習領域的重大進展,具備處理和解釋多種數據類型(包括文本、圖像、音頻和視頻)的能力[28], [29], [30]。通過整合和合成這些不同模態的數據,MLLMs 實現了對信息更全面和精確的理解和生成[3]。
特別是,MLLMs 是專門設計用來同時處理和解碼多模態數據的復雜系統。MLLMs 的核心原理在于不同模態的整合和交互,這顯著增強了模型的有效性。這種多模態方法不僅提升了對單一數據類型的理解,還促進了它們之間的更細致的互動,從而擴展了 AI 應用的范圍和準確性。例如,在圖像描述任務中,MLLMs 利用文本和視覺數據生成準確且上下文相關的圖像描述。這種協同作用使模型能夠超越單一模態系統的限制,提供更豐富和詳細的輸出。此外,音頻和視覺數據的結合可以大大提高視頻理解和注釋任務的性能,使 MLLMs 成為需要詳細多媒體分析的應用中的寶貴工具。
通過利用各種數據類型的集體優勢,MLLMs 不僅增強了 AI 解釋和與世界互動的能力,還為機器理解復雜、多方面的信息開辟了新的發展方向。
MLLM 通過多個關鍵組件有效地處理和整合來自不同模態的數據。這些組件設計用于將各種來源的原始輸入轉化為可操作的見解,使這些模型非常通用和有效。這些模型的架構大致可以分為三個主要組件:多模態輸入編碼器、特征融合機制和多模態輸出解碼器。
多模態輸入編碼器:多模態輸入編碼器是 MLLMs 中的關鍵組件,設計用于將來自不同模態的原始輸入數據轉化為模型可以有效處理的結構化格式。這個重要模塊專門處理不同類型的數據,確保每種數據形式都能被優化編碼,從而有效地貢獻于模型的整體功能。以下是編碼器如何處理每種數據類型的細節:
文本:對于文本數據,編碼器利用嵌入層技術,將詞匯映射到連續數字向量中,以及多層感知器(MLP)或更高級的 Transformer 來管理文本中的長程依賴和上下文。
圖像:視覺數據通過最先進的架構如 Vision Transformer (ViT) [31] 處理,ViT 將圖像部分視為序列以更好地捕捉關系,或通過殘差網絡(ResNet)[32] 處理,ResNet 幫助在各層中學習更深的特征而不丟失上下文。
音頻:音頻數據使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型進行分析。這些模型專門捕捉聲音的獨特特性,從基本音調到復雜的語言,增強了模型準確解釋聽覺信息的能力。
序列數據:對于如腦電圖(EEG)和心跳等序列數據,編碼器采用 1D 卷積神經網絡(1D-CNN)和長短期記憶網絡(LSTM)單元的組合。該設置特別有效于捕捉數據中的時間和空間模式,這對于醫療應用中的早期診斷至關重要。
通用編碼器:一種較新的創新是通用編碼器,旨在標準化處理各種高度多樣化的數據類型,包括音頻、視頻和功能性磁共振成像(fMRI)。該編碼器利用一種通用方法來處理和整合多種形式的數據,促進數據處理的一致性和效率。這些編碼器將原始輸入轉換為特征向量,然后轉化為固定長度的特征序列。這種標準化對于進一步處理數據至關重要,確保模型的后續層可以有效地執行特征融合和解碼。
通過適應和優化各種數據類型的初始處理,多模態輸入編碼器不僅提升了模型的性能,還擴展了其在不同領域的適用性。無論是提高圖像描述的準確性,豐富機器翻譯的上下文,還是推進醫療診斷工具的精度,這個編碼器在使 AI 模型能夠執行復雜任務方面發揮了基礎性作用。 特征融合機制:多模態模型的核心在于整合不同模態的特征。這個整合可以在不同階段進行[37],[38]:
早期融合:在初始階段結合輸入數據,利用不同模態的原始互聯性。
中期融合:在特征提取階段融合特征,使每種模態都能為統一表示做出獨特貢獻。
晚期融合:在決策階段整合單獨模態路徑的最終輸出,通常用于需要多種數據類型綜合判斷的任務。
聯合融合:一種混合方法,結合早期、中期和晚期融合,最大化各階段的數據利用。這些融合過程通常利用預訓練的大型語言模型(LLM),這些模型雖然最初設計用于文本數據,但通過高級特征投影和序列化技術適應處理和綜合多模態輸入。
多模態輸出解碼器:最后,多模態輸出解碼器將融合、綜合的多模態信息重新轉換為特定任務所需的可用形式。比如在圖像描述任務中,解碼器可能基于視覺輸入生成描述性文本。在視頻理解任務中,它可能生成結合視覺和聽覺數據的注釋或摘要。每個解碼器都經過精心設計以優化準確性和質量,確保輸出精確反映從綜合模態中獲得的見解。
總之,多模態大型語言模型的復雜架構使其能夠通過整合和合成文本、圖像和音頻數據來處理復雜任務。這種能力不僅提升了 AI 應用的性能,還為我們理解和互動技術開辟了新的創新途徑。
在融合多模態特征時,通常不會從零開始訓練新模型,而是利用現有的預訓練大型模型,如 LLMs。盡管預訓練的 LLMs 主要設計用于處理文本輸入,但可以通過各種技術使這些模型適應處理多模態數據。我們將在本節介紹一個具體示例,以詳細說明融合過程并進行理解。
首先,需要將每種模態的數據編碼并投影到統一的特征空間中。例如,可以使用預訓練模型如 ResNet 或 Vision Transformer 將圖像數據轉換為特征向量 Vimage。文本數據可以使用預訓練文本編碼器如 BERT [39] 轉換為特征向量 Vtext,音頻數據可以通過預訓練音頻編碼器如 wav2vec [40] 轉換為特征向量 Vaudio。然后,通過線性變換或其他投影方法將不同模態的特征向量映射到共享特征空間中。為了將這些多模態特征輸入到預訓練的 LLM 中,需要將來自不同模態的特征組織成一個序列。可以簡單地通過連接來自不同模態的特征(如 [Vimage, Vtext, ..., Vaudio, Vtext])來形成多模態特征序列。
接下來,將構建的多模態特征序列輸入到預訓練的 LLM 中進行處理。Transformer 模型通過多層自注意力機制和前饋神經網絡處理輸入特征序列。每一層包含自注意力和前饋網絡模塊,更新和整合特征表示,逐步提取更高層次的特征。經過多層 Transformer 處理后,模型生成一個包含綜合信息的特征表示序列。根據任務需求,可以通過特定的輸出層生成最終結果。例如,如果任務是生成文本描述,可以將綜合特征表示輸入到文本生成器中以生成描述性文本。
通過遵循這些步驟,可以有效地由 LLM 處理多模態特征。盡管預訓練語言模型如 GPT 和 LLAMA 主要設計用于文本輸入,但其能力可以通過特征投影和序列化方法擴展,以處理和整合多模態數據,從而執行復雜的多模態任務。
摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。
人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。
1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。
最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。
時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。
LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。
A. 構建大型語言模型的信任
黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。
2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。
另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。
最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。
具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。
3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。
4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。
5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。
B. 本綜述的主要貢獻
本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。
? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。
C. 本綜述的局限性
本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。
我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。
需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。
本文提供了對多模態基礎模型的分類和演變的全面綜述,這些模型展示了視覺和視覺-語言能力,重點關注從專家模型到通用助手的轉變。研究范圍涵蓋了五個核心主題,分為兩類。(i) 我們從對既定研究領域的調查開始:為特定目的預訓練的多模態基礎模型,包括兩個主題 - 學習視覺基礎架構的方法,用于視覺理解和文本到圖像生成。(ii) 然后,我們介紹了探索性、開放性研究領域的最新進展:旨在擔任通用助手角色的多模態基礎模型,包括三個主題 - 由大型語言模型(LLMs)啟發的統一視覺模型,多模態LLMs的端到端訓練,以及將多模態工具與LLMs鏈接。本文的目標讀者是計算機視覺和視覺-語言多模態社區的研究人員、研究生和專業人士,他們渴望了解多模態基礎模型的基礎知識和最新進展。
視覺是人類和許多生物感知和與世界互動的主要渠道之一。人工智能(AI)的核心愿望之一是開發能夠模仿這種能力的AI智能體,以有效地感知和生成視覺信號,從而推理和與視覺世界互動。例如,識別場景中的對象和動作,以及為交流創建素描和圖片。建立具有視覺能力的基礎模型是一個旨在實現此目標的普遍研究領域。
在過去的十年中,AI領域在模型的開發中經歷了豐碩的軌跡。我們將它們分為圖1.1所示的四個類別。這個分類可以在AI的不同領域中共享,包括語言、視覺和多模態。我們首先使用自然語言處理中的語言模型來說明演變過程。(i)在早期,為各個數據集和任務開發了特定任務的模型,通常是從頭開始訓練的。(ii)通過大規模的預訓練,語言模型在許多已建立的語言理解和生成任務上實現了最先進的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。這些預訓練的模型為下游任務適應提供了基礎。(iii)由GPT-3(Brown等,2020)舉例,大型語言模型(LLMs)將各種語言理解和生成任務統一到一個模型中。隨著網絡規模的訓練和統一,出現了一些新的能力,如上下文學習和思維鏈。(iv)伴隨著人工智能對齊的最新進展,LLMs開始扮演通用助手的角色,遵循人類的意圖,完成廣泛的語言任務,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。這些助手展示了有趣的能力,如交互和工具使用,并為開發通用AI智能體奠定了基礎。重要的是要注意,最新一代的基礎模型在提供額外功能的同時,也借鑒了其早期版本的顯著特性。
**受到NLP中LLMs的巨大成功的啟發,計算機視覺和視覺-語言社區的研究人員自然會問:ChatGPT/GPT-4在視覺、視覺-語言和多模態模型方面的對等物是什么?**毫無疑問,自從BERT誕生以來,視覺預訓練和視覺-語言預訓練(VLP)越來越受到關注,并已成為視覺的主流學習范式,承諾學習通用的可遷移的視覺和視覺-語言表示,或生成高度可能的圖像。可以說,它們可以被視為多模態基礎模型的早期生成,就像BERT/GPT-2對語言領域一樣。雖然建立像ChatGPT這樣的語言通用助手的路線圖很清晰,但研究社區越來越需要探索建立計算機視覺的對等物:通用視覺助手的可行解決方案。總的來說,建立通用智能體一直是AI的長期目標。具有新興屬性的LLMs已顯著降低了為語言任務建立此類智能體的成本。同樣,我們預見到視覺模型將展現出新的能力,例如遵循由各種視覺提示組成的指令,如用戶上傳的圖像、人類繪制的點擊、素描和遮罩,除了文本提示。這樣強大的零樣本視覺任務組成能力可以顯著降低建立AI智能體的成本。
在這篇文章中,我們將多模態基礎模型的范圍限制在視覺和視覺-語言領域。相關主題的最新綜述論文包括:(i) 圖像理解模型,如自監督學習(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何東西(SAM)(Zhang等,2023a,c);(ii) 圖像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 視覺-語言預訓練(VLP)。現有的VLP綜述論文涵蓋了在預訓練時代之前,針對特定VL問題的VLP方法,圖像-文本任務,核心視覺任務,和/或視頻-文本任務(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。兩篇最新的綜述論文討論了視覺模型與LLM的集成(Awais等,2023;Yin等,2022)。
其中,Gan等(2022)是一篇關于VLP的綜述,涵蓋了2022年及之前的CVPR關于視覺和語言研究的最新進展系列教程。本文總結了2023年CVPR關于視覺基礎模型最新進展的教程。與前述主要側重于給定研究主題的文獻回顧的綜述論文不同,本文提出了我們對多模態基礎模型從專家到大型語言模型時代的通用視覺助手的角色轉變的觀點。本綜述論文的貢獻總結如下。
?** 我們提供了一篇全面且及時的現代多模態基礎模型的綜述**,不僅涵蓋了視覺表示學習和圖像生成的成熟模型,還總結了過去6個月由LLM啟發的新興主題,包括統一視覺模型,與LLM的訓練和鏈接。 ? 本文旨在為觀眾提供一種觀點,推崇在開發多模態基礎模型中的一種轉變。在特定視覺問題的偉大建模成功的基礎上,我們正朝著構建能夠按照人類意圖完成廣泛計算機視覺任務的通用助手邁進。我們對這些高級主題進行了深入討論,展示了開發通用視覺助手的潛力。
正如Stanford基礎模型論文(Bommasani等,2021)所闡述的,AI正隨著諸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)這些模型的興起而經歷一場范式轉變,這些模型經過廣泛的數據訓練,可以適應各種下游任務。他們將這些模型稱為基礎模型,以強調它們在核心上的關鍵性但不完整的特性:研究社區的方法論的同質化和新能力的出現。從技術角度來看,使基礎模型成為可能的是遷移學習,使它們變得強大的是規模。基礎模型的出現主要觀察到在NLP領域,范例包括從BERT到ChatGPT。這一趨勢在近年來獲得了推動,擴展到計算機視覺和其他領域。在NLP中,BERT在2018年底的推出被視為基礎模型時代的開始。BERT的顯著成功迅速激發了計算機視覺社區對自監督學習的興趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一時期,預訓練的成功也顯著推動了視覺-語言多模態領域達到了前所未有的關注度。
在本文中,我們關注的是多模態基礎模型,這些模型繼承了Stanford論文(Bommasani等,2021)中討論的所有基礎模型的屬性,但側重于具有處理視覺和視覺-語言模態能力的模型。在不斷增長的文獻中,我們基于功能和通用性對多模態基礎模型進行分類,見圖1.2。對于每個類別,我們都展示了一些示例模型,展示了這些多模態基礎模型固有的主要能力。
學習通用視覺表示對于構建視覺基礎模型至關重要,因為預訓練一個強大的視覺主干對所有類型的計算機視覺下游任務都是基礎,這些任務范圍從圖像級別(例如,圖像分類、檢索和字幕)、區域級別(例如,檢測和定位)到像素級別任務(例如,分割)。我們將方法分為三類,取決于用于訓練模型的監督信號類型:
標簽監督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)這樣的數據集一直受到監督學習的歡迎,更大規模的專有數據集也在工業實驗室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。
語言監督。語言是一種更豐富的監督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)這樣的模型使用來自網絡的數百萬甚至數十億噪聲圖像-文本對上的對比損失進行預訓練。這些模型使得零射擊圖像分類成為可能,并使傳統的計算機視覺(CV)模型執行開放詞匯CV任務。我們提倡在野外進行計算機視覺的概念,并鼓勵未來基礎模型的開發和評估。
僅圖像自監督。這一工作方向旨在從圖像本身中挖掘出監督信號來學習圖像表示,范圍從對比學習(Chen等,2020a;He等,2020)、非對比學習(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽圖像建模(Bao等,2022;He等,2022a)。
多模態融合,區域級和像素級預訓練。除了預訓練圖像主干的方法外,我們還將討論允許多模態融合的預訓練方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),區域級和像素級圖像理解,例如開放集對象檢測(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。這些方法通常依賴于預訓練的圖像編碼器或預訓練的圖像-文本編碼器對。
最近,由于大規模圖像-文本數據的出現,已經構建了基礎圖像生成模型。使之成為可能的技術包括向量量化VAE方法(Razavi等,2019)、基于擴散的模型(Dhariwal和Nichol,2021)和自回歸模型。
基于文本的視覺生成。這個研究領域關注的是生成忠實的視覺內容,包括圖像、視頻等,這些內容是以開放式文本描述/提示為條件的。文本到圖像生成發展了生成模型,這些模型合成了忠實于文本提示的高保真度圖像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到圖像生成模型的成功,文本到視頻生成模型基于文本提示生成視頻,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。
與人類意圖一致的視覺生成器。這個研究領域關注的是改善預訓練的視覺生成器,以更好地遵循人類意圖。為解決基礎視覺生成器固有的各種挑戰,已經進行了努力。這些包括改善空間可控性(Zhang和Agrawala,2023;Yang等,2023b)、確保更好地遵循文本提示(Black等,2023)、支持靈活的基于文本的編輯(Brooks等
根據自然語言處理(NLP)中的模型發展歷史和分類,我們將圖1.2中的多模態基礎模型分為兩類。? 特定目的的預訓練視覺模型涵蓋了大多數現有的多模態基礎模型,包括視覺理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和視覺生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因為它們具有針對特定視覺問題的強大可遷移能力。? 通用助手指的是能夠遵循人類意圖以完成野外各種計算機視覺任務的AI代理。通用助手的含義有兩層面:(i)具有統一架構的通用型,可以完成不同類型問題的任務;以及(ii)容易遵循人類指令,而不是替代人類。為此,已經積極探討了一些研究課題,包括統一視覺建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),與大型語言模型(LLMs)的訓練和鏈接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。
? 第1章介紹了多模態基礎模型研究的領域,并展示了從專家模型到通用助手的研究歷史轉變。? 第2章介紹了不同消耗視覺數據的方式,重點關注如何學習一個強大的圖像骨干。? 第3章描述了如何生成與人類意圖一致的視覺數據。? 第4章描述了如何設計統一的視覺模型,具有交互式和可提示的界面,特別是在沒有使用LLMs的情況下。? 第5章描述了如何以端到端的方式訓練LLM,以處理視覺輸入進行理解和推理。? 第6章描述了如何將多模態工具與LLM鏈接,以實現新的功能。? 第7章總結了本文并討論了研究趨勢。
第2至6章是本綜述論文的核心章節。這些章節的結構概述如圖1.2所示。我們首先討論了兩種特定任務的典型多模態基礎模型,包括第2章中的視覺理解和第3章中的視覺生成。由于多模態基礎模型最初是基于圖像骨干/表示學習用于理解任務的,因此我們首先對圖像骨干學習方法的過渡進行了全面回顧,從早期的監督方法發展到最近的語言-圖像對比方法,并將討論擴展到從圖像級別到區域級別和像素級別的圖像表示(第2章)。最近,生成型AI越來越受歡迎,視覺生成基礎模型已經得到了發展。在第3章中,我們討論了大規模預訓練的文本到圖像模型,以及社區如何利用生成基礎模型開發新技術,使它們更好地與人類意圖一致。受到自然語言處理領域最新進展的啟發,LLMs在日常生活中為各種語言任務提供通用助手,計算機視覺社區一直在期望并嘗試構建通用的視覺助手。我們討論了構建通用助手的三種不同方法。受到LLMs的精神啟發,第4章著重于統一不同的視覺理解和生成模型,而無需在建模中明確納入LLMs。相比之下,第5章和第6章側重于采用LLMs構建通用視覺助手,通過在建模中明確增加LLMs來實現。具體來說,第5章描述了端到端訓練方法,第6章專注于無需訓練的方法,將各種視覺模型鏈接到LLMs。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。
現代深度學習已經在多個學科中帶來了許多發現:計算機視覺、語音識別、自然語言處理技術以及純粹通過自我游戲學習游戲的能力。這在很大程度上是由獲取大量數據的能力以及與問題域匹配的適當的歸納偏差所驅動的。在本教程中,我們將探討這一新興技術與信息論的相互作用。特別地,我們將討論兩個主題。
(1) 深度學習在信息論中的應用:信息論學界在編碼設計和解碼算法方面率先取得了幾項突破,徹底改變了現代數字通信。在這一主題中,我們將研究是否有可能利用現代深度學習技術來加速這種編碼方案的發現。我們將介紹這一領域的各種發展,展示Viterbi和BCJR算法可以從觀測數據中“學習”,以及如何為高密度編碼學習比消息傳遞更好的算法。此外,經過充分研究的信道編碼設置,我們基本上可以獲得無限數量的訓練數據,并且在一些設置中已經知道了接近最優的編碼策略,可以提供一個視角,通過它可以改進和增強目前的深度學習技術。除了代碼設計,深度學習作為一種通用函數逼近器在信息論中有更廣泛的應用潛力。我們將談到這個大致的概念。事實上,最近的一些研究已經將深度學習用于(條件)獨立檢驗、互信息估計、壓縮感知以及多假設檢驗中的誤發現率控制。
(2)在第二個主題中,我們將對信息論原理在理解和設計深度學習系統中的應用進行調研。這些工作大致可分為三類:(a)代表性(b)可學習性。(A)事實上,深度學習的一個基本結果是緊密逼近任何連續函數的能力。有幾個現代的表示定理的概括理解的數量和深度這樣的網絡需要近似各種函數類,以及一些不變的性質。我們將調研這些結果。(B)有一些新興的工作,包括張量方法,在一些數學假設下為神經網絡和混合專家提供了各種可學習性保證。
摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。
摘要
本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。
關鍵詞:遷移學習,強化學習,綜述,機器學習
介紹
強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。
DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。
在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。
在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。
本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。
在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。
第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。
近年來,預訓練模型(PTMs)的出現將自然語言處理(NLP)帶入了一個新的時代。在這項綜述中,我們提供了一個全面的PTMs調研。首先簡要介紹了語言表示學習及其研究進展。然后,我們根據四種觀點對現有的PTMs進行了系統的分類。接下來,我們將描述如何將PTMs的知識應用于下游任務。最后,我們概述了未來PTMs研究的一些潛在方向。本調查旨在為理解、使用和開發各種NLP任務的PTMs提供實際指導。
1. 概述
隨著深度學習的發展,各種神經網絡被廣泛用于解決自然語言處理(NLP)任務,如卷積神經網絡(convolutional neural networks, CNNs)[75,80,45]、遞歸神經網絡(neural networks, RNNs)[160, 100]、基于圖的神經網絡(graphbased neural network, GNNs)[146, 161, 111]和注意力機制[6,171]等。這些神經模型的優點之一是能夠緩解特征工程問題。非神經NLP方法通常嚴重依賴于離散的手工特征,而神經方法通常使用低維和稠密的向量(又稱分布式表示)隱式地表示語言的語法或語義特征。這些表示是在特定的NLP任務中學習的。因此,神經方法使人們可以很容易地開發各種NLP系統。
盡管神經模型在NLP任務中取得了成功,但與計算機視覺(CV)領域相比,性能改進可能不那么顯著。主要原因是,當前用于大多數監督的NLP任務的數據集相當小(機器翻譯除外)。深度神經網絡通常具有大量的參數,使其對這些小的訓練數據過度擬合,在實際應用中泛化效果不佳。因此,許多NLP任務的早期神經模型相對較淺,通常只包含1 ~ 3個神經層。
最近大量的工作表明,在大型語料庫上的預訓練模型(PTMs)可以學習通用語言表示,這對后續的NLP任務是有益的,可以避免從零開始訓練新模型。隨著計算能力的發展,深層模型(即隨著訓練技能的不斷提高,PTMs的體系結構由淺向深推進。第一代PTM的目標是學習好的詞嵌入。由于下游任務不再需要這些模型本身,它們在計算效率方面通常非常膚淺,如Skip-Gram[116]和GloVe[120]。雖然這些預訓練的嵌入可以捕獲單詞的語義含義,但它們是上下文無關的,不能捕獲文本的高級概念,如語法結構、語義角色、回指等。第二代PTMs主要學習上下文詞嵌入,如CoVe[113]、ELMo[122]、OpenAI GPT[130]、BERT[32]等。這些學習過的編碼器仍然需要在上下文中通過下游任務來表示單詞。此外,還提出了各種預訓練的任務,以學習PTMs的不同目的。
這篇綜述的貢獻可以總結如下:
3.資源豐富。我們在PTMs上收集了豐富的資源,包括開源系統、論文列表等。
綜述的其余部分組織如下。第2節概述了PTMs的背景概念和常用符號。第3節簡要概述了PTMs,并澄清了PTMs的分類。第4節提供了PTMs的擴展。第5節討論如何將PTMs的知識遷移到下游任務。第6節給出了PTMs的相關資源,包括開源系統、論文列表等。第7節介紹了跨各種NLP任務的應用程序集合。第8節討論了當前的挑戰并提出了未來的方向。第9節對本文進行了總結。
2. 背景
2.1 語言表示學習
分布式表示的核心思想是用低維實值向量來描述文本的意義。而向量的每一個維度都沒有對應的意義,而整體則代表一個具體的概念。圖1說明了NLP的通用神經體系結構。詞嵌入有兩種:非上下文嵌入和上下文嵌入。它們之間的區別是,一個詞的嵌入是否根據它出現的上下文動態變化。
2.2 神經上下文編碼器
大部分的神經上下文編碼器可以分為三類:卷積模型、序列模型和基于圖的模型。圖2說明了這些模型的體系結構。
(1) 卷積模型。卷積模型采用單詞在輸入句中的嵌入,通過卷積運算將相鄰詞的局部信息聚合起來,從而獲取單詞的意義[80]。卷積模型通常易于訓練,能夠捕獲局部上下文信息。
(2 )序列模型。序列模型通常采用rns(如LSTM[60]和GRU[21])來捕獲單詞的上下文表示。在實踐中,雙向RNNs被用來收集單詞兩邊的信息,但其性能往往受到長期依賴問題的影響。
(3) 基于圖模型。與上述模型不同的是,基于圖的模型以單詞為節點,學習單詞之間具有預定義語言結構的上下文表示,如句法結構[146,161]或語義關系[111]。
2.3 為什么要預訓練?
隨著深度學習的發展,模型參數的數量迅速增加。需要更大的數據集來充分訓練模型參數并防止過度擬合。然而,對于大多數NLP任務來說,構建大規模的標記數據集是一個巨大的挑戰,因為注釋成本非常昂貴,特別是對于語法和語義相關的任務。
相比之下,大規模的未標記語料庫相對容易構建。為了利用巨大的未標記文本數據,我們可以首先從它們那里學習良好的表示,然后將這些表示用于其他任務。最近的研究表明,借助從大型無注釋語料庫的PTMs中提取的表示,許多NLP任務的性能都有顯著提高。
預訓練的好處可以總結如下:
3. 預訓練語言模型分類
為了明確現有PTMs與NLP之間的關系,我們構建了PTMs的分類法,該分類法從不同的角度對現有PTMs進行了分類: (1) PTMs使用的單詞表示類型,(2) PTMs使用的主干網絡,(3) PTMs使用的預訓練任務類型,(4) 為特定類型的場景或輸入設計的PTMs。圖6顯示了分類以及一些相應的代表性PTMs。
此外,表1詳細區分了一些有代表性的PTMs。
4. 預訓練語言模型擴展
4.1 知識增強的PTMs
PTMs通常從通用的大型文本語料庫中學習通用語言表示,但缺乏領域特定的知識。將來自外部知識庫的領域知識整合到PTM中已被證明是有效的。外部知識范圍從語言學[87,78,123,178],語義[92],常識[48],事實[199,123,101,188,182],到具體領域的知識[54]。
4.2 多模態PTMS 由于PTMs在許多NLP任務上的成功,一些研究集中在獲得PTMs的跨模態版本上。這些模型中的絕大多數是為一般的視覺和語言特征編碼而設計的。這些模型是在一些巨大的跨模態數據語料庫上進行預訓練的,例如帶有口語單詞的視頻或帶有字幕的圖像,結合擴展的預訓練任務來充分利用多模態特征。VideoBERT[152]和CBT[151]是視頻和文本的聯合模型。為了獲得用于預訓練的視覺和語言標記序列,視頻分別由基于cnn的編碼器和現成的語音識別技術進行預處理。在處理后的數據上訓練一個變壓器編碼器,以學習下游任務(如視頻字幕)的視覺語言表示。此外,UniViLM[109]提出引入生成任務來進一步預訓練下游任務中使用的解碼器。
4.3 模型壓縮
應用基準、機器翻譯、問答、情感分析、摘要、命名實體識別
(1) PTMs的上界
目前,PTMs還沒有達到其上限。現有的PTMs大多可以通過更多的訓練步驟和更大的語料庫來進一步完善。
通過增加模型的深度可以進一步提高NLP的技術水平,如Megatron-LM144和Turing-NLG(170億個參數,78個隱藏尺寸為4256和28個注意頭的Transformer層)。
通用型PTM一直是我們學習語言固有的通用知識(甚至是世界知識)的追求,但此類PTM通常需要更深入的體系結構、更大的語料庫和更具挑戰性的訓練前任務,這又進一步導致了更高的訓練成本。然而,訓練大模型也是一個具有挑戰性的問題,需要更復雜、更高效的訓練技術,如分布式訓練、混合精度、梯度積累等。因此,更實際的方向是使用現有的硬件和軟件設計更有效的模型架構、自我監督的訓練前任務、優化器和訓練技能。ELECTRA[22]是這個方向的一個很好的解決方案。
(2) 面向任務的預訓練和模型壓縮
在實踐中,不同的下游任務需要不同的PTMs能力。PTMs與下游任務之間的差異通常表現在兩個方面:模型體系結構和數據分布。較大的差異可能導致PTMs的益處可能不明顯。盡管較大的PTM通常可以帶來更好的性能,但一個實際問題是如何在特殊場景(如低容量設備和低延遲應用程序)中利用這些巨大的PTM。因此,我們可以為下游任務精心設計特定的模型架構和預訓練任務,或者從現有的PTMs中提取部分特定于任務的知識。
此外,我們可以通過使用模型壓縮等技術,用通用的現有PTM來教他們,而不是從頭開始訓練面向任務的ptm(參見4.3節)。雖然在CV[17]中,針對CNNs的模型壓縮已經得到了廣泛的研究,但針對NLP的PTMs的模型壓縮才剛剛開始。Transformer 的全連接結構也使模型壓縮更具挑戰性。
(3) PTMs架構
Transformer已被證明是一種有效的預訓練體系結構。然而,Transformer 的主要限制是它的計算復雜度,它是輸入長度的平方。由于GPU內存的限制,目前大多數PTM不能處理512個標記以上的序列。打破這一限制需要改進Transformer的架構,比如Transformer- xl[27]。因此,為PTMs搜索更有效的模型體系結構對于捕獲更長期的上下文信息非常重要。
深度架構的設計具有挑戰性,我們可以從一些自動化方法中尋求幫助,如神經架構搜索(neural architecture search, NAS)[205]。
(4)超越微調的知識遷移
目前,將PTMs的知識傳遞給下游任務的主要方法是微調,但其缺點是參數效率低下:每個下游任務都有自己的微調參數。一種改進的解決方案是對原有PTMs的參數進行修正,并為特定的任務添加小的可調自適應模塊[149,61]。因此,我們可以使用一個共享的PTM來服務多個下游任務。事實上,從PTMs中挖掘知識可以更加靈活,如特征提取、知識提取[195]、數據擴充[185,84],利用PTMs作為外部知識[125]等。期望有更有效的方法。
(5) PTMs的可解釋性和可靠性
雖然PTM的性能令人印象深刻,但其深層的非線性架構使得決策過程高度不透明。
近年來,可解釋人工智能[4]已經成為人工智能領域的一個研究熱點。與用于圖像的CNN不同,由于Transformer的架構和語言的復雜性,解釋PTMs更加困難。人們做了大量的工作(見3.3節)來分析PTMs中包含的語言和世界知識,這有助于我們以某種程度的透明性理解這些PMTs。然而,許多模型分析工作依賴于注意力機制,注意力對可解釋性的有效性仍存在爭議[66,142]。
此外,隨著PTMs在生產系統中的廣泛應用,PTMs的可靠性也成為一個備受關注的問題。深層神經模型容易受到對抗性樣本的影響,這些例子可能會誤導模型,使其產生一個特定的錯誤預測,而這種預測會受到來自原始輸入的難以察覺的干擾。在CV中,對抗性攻擊和防御被廣泛研究。然而,由于語言的離散性,文本仍然面臨著挑戰。為文本生成對抗性樣本需要具備以下品質:(1)不易被人類法官察覺,但容易被神經模型誤導;(2)語法流利,語義與原輸入一致。Jin等人[71]用對抗性的例子成功地在文本分類和文本蘊涵方面攻擊了經過微調的BERT。Wallace等人[175]定義了通用的對抗觸發器,當將模型連接到任何輸入時,該觸發器可以誘導模型產生特定目的的預測。有些觸發器甚至會導致GPT-2模型生成帶有種族主義色彩的文本。對PTM進行對抗性攻擊的研究有助于我們了解它們的能力,從而充分暴露它們的弱點。Sun等人[155]的研究表明,BERT對拼寫錯誤并不敏感。此外,針對PTMs的對抗防御也很有前途,它提高了PTMs的魯棒性,使其對對抗攻擊免疫。
總的來說,作為許多NLP應用中的關鍵組件,PTMs的可解釋性和可靠性在很多方面還有待進一步的探索,這有助于我們理解PTMs是如何工作的,并為更好的使用和進一步的改進提供指導。
參考文獻:
Akbik et al. [2018] Alan Akbik, Duncan Blythe, and Roland Vollgraf. Contextual string embeddings for sequence labeling. In COLING, pages 1638–1649, 2018.
Alberti et al. [2019] Chris Alberti, Jeffrey Ling, Michael Collins, and David Reitter. Fusion of detected objects in text for visual question answering. In EMNLP-IJCNLP, pages 2131–2140, 2019.
Alsentzer et al. [2019] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDermott. Publicly available clinical BERT embeddings. arXiv preprint arXiv:1904.03323, 2019.
Arrieta et al. [2020] Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, et al. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, 58:82–115, 2020.
Baevski et al. [2019] Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli.Cloze-driven pretraining of self-attention networks. In Kentaro Inui, Jing Jiang, Vincent Ng, and Xiaojun Wan, editors, EMNLP-IJCNLP, pages 5359–5368, 2019.