亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型 (LLMs) 近期因其文本交互能力而受到廣泛關注。然而,自然的人類互動通常依賴語音,這促使人們向語音模型轉變。一種實現這一目標的直接方法是使用“自動語音識別 (ASR) + LLM + 語音合成 (TTS)”的流水線,即將輸入語音轉錄為文本,經由 LLM 處理后再轉換回語音。盡管此方法直觀簡單,但它存在固有的局限性,如在模式轉換過程中信息丟失,以及在三個階段中累積的誤差。為了解決這些問題,語音語言模型 (SpeechLMs) 應運而生。這些端到端模型無需文本轉換,直接生成語音,成為一種有前景的替代方案。本綜述論文首次全面概述了構建 SpeechLMs 的最新方法,詳細介紹了其架構的關鍵組成部分以及其開發中的各種訓練方法。此外,我們系統地考察了 SpeechLMs 的多種能力,分類了對 SpeechLMs 的評估指標,并討論了該快速發展的領域中的挑戰與未來研究方向。

1 引言大型語言模型(LLMs)在文本生成和自然語言處理任務中展現出顯著的能力,成為推動 AI 驅動語言理解和生成的強大基礎模型 [Achiam 等, 2023; Dubey 等, 2024a; Zhang 等, 2022b]。它們的成功還推動了其他領域的眾多應用,然而,僅依賴文本模式存在明顯的局限性。這促使人們發展基于語音的生成模型,使人與模型之間的互動更加自然和直觀。引入語音不僅有助于實現實時語音互動,還能通過結合文本和語音信息豐富交流內容 [Nguyen 等, 2023b; Nguyen 等, 2024]。鑒于文本與語音之間存在大量的互信息,對現有的 LLM 進行修改以支持語音互動功能是一項自然的選擇。一種直接的方法是采用“自動語音識別(ASR)+ LLM + 語音合成(TTS)”框架(圖1a)[Huang 等, 2024]。在該設置中,用戶的語音輸入首先由 ASR 模塊處理,將其轉換為文本。然后,LLM 基于該轉錄文本生成響應,最后由 TTS 模塊將該文本響應轉換回語音并播放給用戶。然而,這種簡單方案主要面臨以下兩個問題:1)信息丟失。語音信號不僅包含語義信息(即語音的意義),還包含副語言信息(例如音調、音色、語調等)。在處理中使用純文本 LLM 會導致輸入語音中的副語言信息完全丟失 [Zhang 等, 2023a]。2)累積誤差。此種分階段的方法容易在整個流程中產生累積誤差,特別是在 ASR 到 LLM 階段 [Fathullah 等, 2024]。特別是在 ASR 模塊將語音轉換為文本時發生的轉錄錯誤會對 LLM 的語言生成性能產生負面影響。由于 ASR + LLM + TTS 框架的局限性,語音語言模型(SpeechLMs,圖1b)被開發出來。與簡單的框架不同,SpeechLMs 直接將語音波形編碼為離散的 token,從音頻中捕獲重要特征和信息(第 3.1 節)。盡管單個語音 token 可能不具備詞匯層面的語義意義,但它們捕捉到語音話語的語義信息并保留寶貴的副語言信息,從而避免信息丟失。SpeechLMs 自回歸地建模這些 token,無需完全依賴文本輸入,使其能夠利用附加的副語言信息生成更具表現力和細膩的語音(第 3.2 節)。最終,這些生成的 token 被合成回語音(第 3.3 節)。通過直接處理編碼后的語音 token,SpeechLMs 有效地減輕了累積誤差,因為其訓練與語音編碼一體化進行,而簡單框架中 LLM 的語言建模訓練則完全獨立于 ASR(語音識別)模塊。除基礎對話能力外,SpeechLMs 還具備執行更復雜任務的潛力,如編碼特定說話者信息和情感細微差別(圖2)。這種能力使 SpeechLMs 能夠在對話中區分不同說話者,并理解和生成帶有特定情感語調的語音。這些進展對個性化助手、情感感知系統以及更細致的人機交互場景等領域尤為重要。此外,SpeechLMs 可以設計為支持實時語音互動,即模型可在用戶講話時被打斷,或選擇在用戶尚未結束講話時進行響應,更接近人類對話的模式。在本綜述中,我們首次全面概述了構建 SpeechLMs 的最新研究成果。我們探討了構成其架構的各種組件(第 3 節)及其開發中的訓練方法(第 4 節),并從以上視角分析這些模型,旨在闡明該領域的當前狀態。此外,我們考察了 SpeechLMs 的下游應用(第 5 節)、分類評估 SpeechLMs 的指標(第 6 節)、討論了該領域快速發展中遇到的挑戰,并提出了可能推動 SpeechLM 技術進一步發展的未來研究方向(第 7 節)。我們的貢獻總結如下:

  • 我們呈現了 SpeechLMs 領域的首次綜述。
  • 我們提出了一個基于底層組件和訓練方法的 SpeechLMs 分類新體系(圖3)。
  • 我們提出了 SpeechLMs 評估方法的新分類系統。
  • 我們識別出構建 SpeechLMs 的若干挑戰。


2 問題定義

在此部分中,我們將正式定義語音語言模型(Speech Language Models,簡稱SpeechLMs)。語音語言模型是一種自回歸基礎模型,能夠處理并生成語音數據,通過上下文理解生成連貫的語音序列。SpeechLMs 支持多種模式,包括語音到文本、文本到語音,甚至是語音到語音,具備上下文感知能力,從而能夠執行廣泛的任務。與傳統的文本語言模型(如 LLM)不同,SpeechLMs 處理的是語音和文本兩種模式。這使得 SpeechLMs 能夠進行更自然的多模態交互,在同一模型框架內處理多種輸入和輸出模式,具有更高的應用潛力。


3 SpeechLM的組件

語音語言模型主要包括三個組件:語音分詞器、語言模型和語音合成器(聲碼器),這種三階段的設計模式的主要原因是使語言模型架構(如僅解碼器的 transformer)能夠以音頻波形的形式自回歸地建模語音。由于語言模型的輸入和輸出都是離散 tokens,因此需要附加模塊來處理輸入輸出格式。下面將詳細介紹各個組件:

**3.1 語音分詞器

語音分詞器是 SpeechLM 的第一個組件,它將連續的音頻信號(波形)編碼為潛在表示,再將其轉換為離散 tokens,使其能夠被語言模型有效處理,用于諸如語音識別或合成等任務。語音分詞器的核心目標是捕捉音頻中的關鍵特征,同時降低其維度,便于后續對語音模式的建模和分析。 語義理解目標: 設計語義理解目標的語音分詞器旨在將語音波形轉化為能夠準確捕捉語音內容和意義的 tokens。通常情況下,這些分詞器包含一個語音編碼器和一個量化器,語音編碼器對波形的關鍵信息進行編碼,而量化器則將連續表示離散化為離散 tokens。 聲學生成目標: 具有聲學生成目標的語音分詞器注重捕捉生成高質量語音波形所需的聲學特征,優先保留關鍵信號,而非語義內容。為生成高質量的語音波形,這些分詞器通常采用包含編碼器、量化器和解碼器的架構,將原始波形轉換為離散 tokens,再通過解碼器將其重構回語音波形。 混合目標: 混合目標的語音分詞器平衡語義理解和聲學生成任務。大部分混合分詞器采用聲學生成分詞器的架構,并側重于將語義信息從語義分詞器提取到聲學分詞器中。某些系統還利用單獨的向量量化器來從語音模型(如 WavLM)提取信息,并結合聲學特征模塊以提升性能。

**3.2 語言模型

由于文本語言模型的成功,大部分 SpeechLMs 采用了類似的架構,主要使用 transformer 或僅解碼器的架構進行自回歸語音生成。為適應語音生成,原文本分詞器被替換為語音分詞器,使模型能夠聯合建模文本和語音兩種模態。通常做法是擴展原文本模型的詞匯量以容納文本和語音 tokens,形成一個更大的嵌入矩陣,從而使模型在單一序列中生成文本和語音。

**3.3 聲碼器

聲碼器在語言模型生成 tokens 后將其合成為語音波形,這一過程涉及將生成的語音 tokens 所代表的語言和副語言信息轉換為音頻波形。聲碼器通常包括直接合成和輸入增強合成兩種流程。直接合成方式較為簡單,適用于包含足夠聲學信息的 tokens;輸入增強合成則在 tokens 進入聲碼器之前將其轉換為包含豐富聲學特征的表示,以生成更高質量的語音波形。


4 訓練策略

SpeechLMs 的訓練過程分為三個主要階段:預訓練、指令微調和對齊。這一節將主要回顧語言模型組件的主要訓練技術。

**4.1 預訓練

預訓練階段對語言模型的影響至關重要,因為它能夠幫助模型學習語音數據中的統計模式和依賴關系,以便在上下文中預測下一個 token。SpeechLMs 預訓練通常使用大規模的開放語音數據集,包括用于 ASR、TTS 和多模態任務的數據集。為了增強語音和文本模態的對齊,部分模型從預訓練的文本模型開始進行預訓練,并調整以支持語音 tokens,從而加速收斂并提升語音理解性能。

**4.2 指令微調

指令微調通過特定的任務指令來提升模型的泛化能力,使其適應更多樣的應用場景。常見的指令微調方法包括多模態指令微調和模態鏈微調。SpeechGPT 使用指令微調來處理 ASR、TTS 等任務,通過生成包括語音輸入、文本輸出在內的數據集,進一步提高模型的適用性。

**4.3 對齊階段

對齊階段指的是通過特定方法來增強文本與語音模態間的表示對齊。通過交替輸入文本和語音 tokens 的方法,可以顯著提高模型在語音理解和生成方面的性能。此外,通過將文本和語音版本的提示都用于訓練,確保模型能夠為兩種輸入模態生成一致的輸出。這樣,模型既可以在純文本環境中運行,也可以在語音模式下自然地響應。


**

**

5 下游應用

SpeechLMs 可處理多種下游任務,遠超傳統的ASR 和TTS系統,它們不僅支持文本與語音的多模態任務,還能處理復雜的語音和文本組合任務。下游應用可分為以下幾類:

**5.1 語義相關應用

口語對話:SpeechLMs 可用于口語對話系統,使系統能夠在上下文中理解用戶意圖并生成語音響應。 * 語音翻譯:支持語音到文本或語音到語音的翻譯任務,SpeechLMs 能夠根據不同語言生成對應翻譯。 * 自動語音識別:通過ASR將語音轉換為文本,是SpeechLMs 最基本的功能之一。 * 關鍵字檢測:用于語音激活的場景,SpeechLMs 可識別并提取特定關鍵字,從而觸發特定操作。 * 文本到語音合成:與ASR相反,TTS從文本生成對應的語音輸出,以實現從文本指令到語音的轉換。

**5.2 說話人相關應用

說話人識別:能夠識別語音中的說話人身份,是一種多類分類任務。 * 說話人驗證:判定兩段語音是否來自同一說話人,為二分類任務。 * 說話人分離:將音頻流分割為不同說話人片段,從而標識出誰在什么時間說話。

**5.3 副語言應用

SpeechLMs 還可以處理語音中的副語言信息,如情感識別、語音分離等任務。通過捕捉音高、音色、說話速度等信息,SpeechLMs 能夠識別語音中的情感和態度,使得語音系統能夠生成更具情感化的響應。


6 評價與未來研究方向

本綜述概述了語音語言模型的關鍵組成部分、訓練方法、下游應用及其在語音生成中的不同表現。未來,SpeechLMs 的研究可以朝以下方向發展: * 增強多模態對齊:進一步提高語音與文本模式的對齊能力,使SpeechLMs 更加適應多種任務。 * 提高實時交互性能:開發具有更高響應速度的模型,支持用戶打斷等更自然的交互方式。 * 擴展評估指標:目前大多使用傳統的語音合成和語音識別指標,對這些模型進行更全面的評估需要結合新指標。

付費5元查看完整內容

相關內容

多模態大語言模型(MLLMs)通過將強大的大語言模型(LLMs)與各種模態編碼器(例如視覺、音頻)相結合,模仿了人類的感知和推理系統,將LLMs定位為“大腦”,而將各種模態編碼器視為感官器官。這個框架賦予了MLLMs類似于人類的能力,并為實現人工通用智能(AGI)提供了潛在的路徑**。隨著GPT-4V和Gemini等全方位MLLMs的出現,已經開發了多種評估方法來評估其在不同維度上的能力。本文系統且全面地綜述了MLLMs的評估方法,涵蓋以下關鍵方面**:(1)MLLMs及其評估的背景;(2)“評估什么”,即基于所評估的能力,回顧并分類現有的MLLM評估任務,包括一般的多模態識別、感知、推理和可信度,以及社會經濟、自然科學與工程、醫學應用、AI代理、遙感、視頻和音頻處理、3D點云分析等領域的特定應用;(3)“在哪里評估”,即將MLLM評估基準劃分為通用基準和特定基準;(4)“如何評估”,即回顧并說明MLLM評估步驟和指標;我們的主要目標是為MLLM評估領域的研究人員提供寶貴的見解,從而促進更強大和可靠的MLLMs的發展。我們強調,評估應被視為一門關鍵學科,對推進MLLMs領域至關重要。 關鍵詞:多模態大語言模型,評估,評估任務,評估基準,評估指標,多模態模型,多模態任務,人工通用智能,自然語言處理,計算機視覺

1 引言

人工智能(AI)一直是計算機科學中的一個具有挑戰性的研究領域,其目標是使機器具備像人類一樣的感知、理解和推理能力。近年來,大語言模型(LLMs)在人工智能領域取得了顯著進展,并在各種任務中取得了顯著成功。通過擴大數據量和模型規模,LLMs展現出了非凡的涌現能力,例如指令遵循、上下文學習和鏈式思維推理。盡管它們在眾多自然語言處理任務中表現出色,但LLMs本質上僅限于語言模態,這限制了它們在離散文本之外理解和推理的能力。 另一方面,人類通過多種渠道感知世界,如視覺和語言,每種渠道在表示和傳達特定概念方面都有獨特的優勢。這種多模態感知方式促進了對世界的全面理解,并為實現人工通用智能(AGI)提供了潛在的路徑。為了彌合人類感知與人工智能之間的差距,開發了多模態大語言模型(MLLMs)以模仿人類的多模態感知能力。具體來說,MLLMs將強大的大語言模型(LLMs)定位為“大腦”,而將各種模態編碼器視為感官器官,其中模態編碼器使MLLM能夠通過多種模態感知和理解世界,而LLMs則提供對復雜和全面的多模態信息的高級推理能力。該設計使MLLMs能夠像人類一樣學習感知和推理,利用來自多個渠道(如視覺、語言、音頻等)的信息,在多模態理解和推理方面表現出色。因此,MLLMs在傳統的視覺任務和更復雜的多模態挑戰中都展現了多樣化的能力。 隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。首先,一個設計良好的評估框架可以更準確地反映MLLM的能力,從而量化其優點和局限性。例如,[1]表明盡管當前的MLLMs在全局圖像理解方面表現出色,但在局部圖像區域的推理上表現不佳。同樣,[2]指出現有的MLLMs在細粒度的視覺關系和交互理解方面存在困難。其次,從可信度的角度評估MLLMs對于確保其魯棒性和安全性至關重要,特別是在醫學診斷和自動駕駛等對可靠性要求極高的敏感應用中。第三,探索和評估MLLMs在各種下游任務中的表現有助于其應用和部署,確保它們滿足不同使用場景的具體需求。 總而言之,更全面和系統的評估方法對于激發更強大和更可靠的MLLMs的發展至關重要。隨著MLLMs的不斷進步,它們也需要高標準、全面的評估基準。MLLMs的發展與其評估過程之間的這種互進關系類似于雙螺旋結構,彼此推動前進。在GPT-4V、BLIP、Gemini和LLava等開創性MLLMs之后,已經引入了許多評估協議,涵蓋了從評估多模態識別、感知和推理等一般多模態能力,到評估在社會經濟、自然科學與工程、醫學應用、遙感等下游應用中的具體能力的廣泛方面。 盡管MLLM評估對于支持MLLM研究、開發和部署具有重大價值和吸引力,但目前學術界缺乏一篇系統性的綜述來提供關于當前MLLM評估方法、現有挑戰和潛在未來方向的全貌。本文旨在通過對涉及多種任務的MLLM評估方法進行詳盡的綜述來填補這一空白,這些任務根據所考察的模型能力進行分類,包括在多模態理解和可信度方面的一般能力,以及在社會經濟、自然科學與工程、醫學應用、遙感、視頻、音頻和3D點云分析等下游應用中的具體能力。我們從不同的角度進行綜述,涵蓋MLLMs及其評估的背景,評估什么,在哪里評估,如何評估,比較分析,當前挑戰和開放性方向。我們希望這篇綜述能夠為學術界提供關于MLLMs及其評估的全面概覽,涵蓋已取得的成就、當前的挑戰以及MLLMs及其評估的未來發展方向。 我們將本工作的主要貢獻總結為三個關鍵方面。首先,我們通過構建現有評估方法的分類體系,并突出其主要貢獻、優勢和局限性,提供了對多模態大語言模型評估的系統且全面的綜述。該分類體系根據所考察的能力和目標應用對評估方法進行分類。與之前專注于NLP[3],[4]或MLLM設計[5]的綜述不同,我們的工作獨特地集中于MLLMs的評估,據我們所知,目前尚未有相關的全面綜述。其次,我們通過對多個數據集進行詳盡的基準測試和討論,調查并分析了MLLMs及其評估的最新進展。第三,我們識別并討論了MLLMs及其評估中幾個未來研究的挑戰和有前景的方向。

2 背景

本節介紹多模態大語言模型(MLLMs)評估的背景,包括多模態大語言模型的基礎和相關內容。

**2.1 多模態大語言模型

本節介紹了多模態大語言模型(MLLMs)的基礎,包括MLLM框架、MLLM訓練策略和MLLM的評估。2.1.1 MLLM框架 MLLMs通常由處理輸入文本的大語言模型、編碼其他各種模態輸入(如圖像、視頻)的模態編碼器以及將文本輸入和其他模態輸入對齊到統一特征空間的模態投影器組成。 大語言模型。在學習輸入文本時,基于Transformer的大語言模型(LLMs)被廣泛采用。具體而言,Transformer架構 [6]采用編碼器-解碼器框架,其中編碼器由六層組成,每層包含一個多頭自注意力機制和一個多層感知機(MLP)。解碼器采用類似結構,由六層組成,包含多頭注意力、掩碼多頭注意力和MLP。在此基礎上,LLaMA [7]由于其在各種語言任務中的出色表現,已成為文本特征提取的領先模型。在LLaMA架構的基礎上,開發了像Vicuna [8]和Guanaco [9]這樣的指令微調模型,并用于構建MLLMs時的文本特征提取。 模態編碼器。用于處理不同模態輸入的各種編碼器,如圖像、視頻和音頻。視覺Transformer(ViT)廣泛用于圖像特征提取,利用一系列Transformer模塊,每個模塊由一個多頭自注意力層和一個前饋網絡組成。在實際應用中,基于具體應用需求采用了各種預訓練版本的ViT。例如,CLIP預訓練的ViT常用于通用圖像理解 [10],而SAM預訓練的ViT則更適合于詳細和精細的圖像分析 [11]。 對于視頻數據編碼,ViT通過時間編碼器進行了增強,以有效捕捉時間相關信息。例如,Valley [12]整合了一個時間建模組件,以更好地理解視頻輸入的動態方面。對于3D圖像特征提取,特別是在點云數據中,采用了專門的模型,如Point-BERT [13]和PointNet [14]。這些模型專門設計用于高效捕捉3D數據的特征,從而更全面地理解空間結構。基于Transformer的架構也廣泛應用于音頻數據編碼。例如,Whisper模型 [15],專為通用語音識別設計,利用Transformer網絡有效學習音頻特征。 模態投影器。在多模態大語言模型中,模態投影器通常用于將不同模態(如文本、圖像、音頻)的特征對齊到統一的特征空間。該模塊通常涉及線性層或神經網絡,旨在將高維輸入特征轉換為統一表示。例如,LLaVA [10]采用一個可訓練的投影矩陣將編碼的視覺特征轉換為語言嵌入標記空間。通過將每個模態投影到一個通用空間,模型可以更好地捕捉跨模態關系,確保不同模態之間的兼容性和對齊。2.1.2 MLLM訓練策略 對齊預訓練。作為MLLM訓練的第一階段,對齊預訓練通常側重于對齊不同模態并學習多模態對應知識。通常,預訓練涉及大規模的文本配對數據,如用自然語言描述圖像、音頻或視頻的標題。例如,文獻 [10], [16] 在對齊預訓練階段采用標準的交叉熵損失,使MLLMs能夠自回歸地預測給定圖像的標題。為了更好地保留原始預訓練知識,MLLMs通常保持預訓練模型(如預訓練的視覺編碼器或大語言模型)凍結,僅訓練可學習的投影模塊進行對齊 [10], [16]。 多模態指令微調。多模態指令微調通過將語言作為任務指令對MLLMs進行微調,旨在構建一個在遵循用戶意圖方面具有卓越交互性和適應性的通用模型。指令微調通常包括兩個階段,即(1) 構建視覺指令遵循數據和(2) 進行視覺指令微調。視覺指令遵循數據通常具有{Instruction, Input, Output}的格式,其中Instruction表示任務指令,Input指的是各種模態的輸入(如Input = {Image}),而Output則表示關于給定任務指令的響應。這些數據集通常基于公共多模態數據進行擴展,并使用大語言模型進行增強 [17], [18]。通過構建的指令遵循數據,MLLMs通過基于指令和輸入圖像順序預測輸出中的每個標記來進行全監督方式的微調。 對齊人類偏好。對齊微調特別旨在增強模型行為以滿足特定的人類期望。廣泛采用了兩種對齊微調技術,即帶有人類反饋的強化學習(RLHF)[19]和直接偏好優化(DPO)[20]。具體而言,RLHF通過基于人類反饋的獎勵訓練模型,引導它們生成更理想的輸出。另一方面,DPO通過學習人類偏好直接優化模型,無需復雜的獎勵模型,以更直接的方式改善對齊。

3 評估什么

本節概述了用于評估多模態大語言模型(MLLMs)能力的各種任務,涵蓋了多模態理解和可信度分析等一般任務,以及社會經濟、自然科學與工程、醫學應用、AI代理和其他與視覺相關的具體任務。表1和表2分別總結了MLLMs在一般任務和具體任務上的評估情況。

**3.1 多模態理解

多模態大語言模型(MLLMs)的出現擴展了傳統語言模型的能力,使其能夠處理和理解來自不同模態的信息,如文本和圖像。多模態理解的目標是評估這些模型在跨不同類型輸入信息時的整合和解釋能力。具體來說,多模態理解任務可以大致分為多模態識別、多模態感知和多模態推理。3.1.1 多模態識別 多模態識別旨在識別和分類不同模態中的特定對象、動作和屬性。該任務側重于模型檢測和識別各種方面的能力,包括概念識別、屬性識別、動作識別和光學字符識別(OCR)。 概念識別側重于模型識別和標記不同模態中各種實體、實例、對象和場景的能力。這個任務包括識別一般和特定的概念,如圖像中的對象(例如,識別“汽車”或“狗”)[1],[21],[22],特定類別的實例(例如,特定的地標或產品)[1],[21],[22],以及更廣泛的場景(例如,“海灘”或“山脈”)[1]。作為MLLMs在多模態理解中的關鍵能力,MLLMs通常在概念識別任務中表現出色。例如,[1]表明大多數MLLMs在場景理解任務上表現出較高的性能(例如,>40%)。在MM-Vet [22]中,LLaVA-13B(V1.3, 336px)[25]在概念識別中得分為38.1%,表明其有效理解和分類視覺概念的能力。另一個模型,LLaMA-Adapter v2-7B [153],憑借其大規模的微調數據,表現略好,得分為38.5%。TouchStone [31]提出了一個稱為TouchStone分數的復合分數,它反映了模型在包括概念識別在內的所有評估任務中的表現。Qwen-VL [154]在TouchStone框架內的概念識別任務中表現突出,顯示出與其他模型相比更高的準確性和一致性。[32]表明mPLUG-Owl2在概念識別任務上優于其他模型,如Qwen-VL-Chat [154]和InstructBLIP [155]。其在COCO [157]和Flickr30K [158]等主要數據集上的高CIDEr分數 [156]展示了其在準確識別和描述復雜視覺概念方面的優勢,使其成為該領域的領先模型。 屬性識別是指在不同模態下識別視覺主體屬性的任務。它涉及識別風格、質量、情緒、數量、材質以及人類職業等屬性。在MMBench [21]中,MLLMs在屬性識別任務上的表現差異顯著。例如,InternLM-XComposer2 [159]以73.0%的準確率獲得了最高分之一,展示了其在該領域的強大能力。另一方面,像OpenFlamingo v2 [160]這樣的模型在此任務中的表現較差,準確率僅為5.3%。在SEED-Bench [1]中,MLLMs在屬性識別任務上的表現通過“實例屬性”維度進行評估,該維度專門設計用于評估模型識別和理解實例屬性的能力。結果表明,InstructBLIP Vicuna [155]在“實例屬性”任務中表現出色,展示了其在屬性識別方面的強大能力。在MME基準測試中 [23],通過包括顏色、材質、形狀及其他描述性特征的具體子任務,評估了MLLMs在屬性識別任務上的表現。例如,在顏色子任務中,InfMLLM [161]取得了高準確率,展示了其在圖像中識別顏色屬性的熟練程度。在OpenVQA [26]中,InstructBLIP [155]在屬性識別中表現出色。TouchStone [31]的結果表明,Qwen-VL [154]在TouchStone框架內的屬性識別任務中表現最佳,能夠始終如一地以高準確率識別對象的詳細屬性。mPlug-Owl [32]也表現強勁,而PandaGPT [162]等模型在復雜的屬性識別場景中落后。 動作識別是指在不同模態下識別主體執行的動作或活動的任務。在MMBench [21]中,MLLMs在動作識別任務中的表現通過“細粒度感知(跨實例)”類別進行評估。該任務涉及識別人體動作,包括姿勢運動、人-物體交互以及人-人交互。具體模型及其表現進行了比較,結果以細粒度的方式呈現。根據SEED-Bench [1],InstructBLIP Vicuna [155]模型在“動作識別”維度表現出色,優于其他模型。在OpenVQA [26]中,像InstructBLIP [155]這樣的模型在動作識別中表現強勁。在Visual CoT [39]中,不同MLLMs在“動作識別”任務上的表現差異顯著。基準模型在多個數據集上取得了一定的表現。然而,當采用Visual CoT(鏈式思維)過程 [163]時,表現通常有所提高,特別是在需要更深入推理或理解視覺上下文的更復雜任務中。通過檢查動作識別任務中的準確率百分比和排名等表現指標,研究人員和從業者可以洞察不同MLLMs在理解和分類動作方面的能力。這種全面的評估對于推進MLLMs在涉及時間動態和序列理解的多模態任務中的應用至關重要。 文本識別指的是從視覺輸入(如文件或標志的圖像)中識別和轉換文本的任務。在MMBench [21]中,MLLM在文本識別任務上的表現通過具體指標和觀察進行了突出展示。模型的準確性因其架構和規模而異,某些模型由于語言模型選擇和預訓練數據等因素表現顯著更好。例如,開源模型如LLaVA [25]系列和InternLM-XComposer2 [159]表現出色,而其他如MiniGPT的模型在此任務上表現較為困難。在SEED-Bench [1]中,MLLM在文本識別任務中的表現通過其在多項選擇題中選擇正確選項的準確性來衡量,然后與人類注釋提供的標準答案進行比較。LLaVa [25]在文本識別評估中的表現無與倫比,優于其他維度的表現。根據MME [23],像GPT-4V [164]、Skywork-MM [165]和WeMM [166]這樣的模型在OCR任務中取得了最高分。具體來說,GPT-4V [164]以185分的成績顯示出其在從圖像中識別和轉錄文本方面的高水平能力。在Open-VQA [26]中,像InstructBLIP [155]這樣的模型在文本識別任務中表現出色,表明其在識別和轉錄圖像中的文本方面的熟練程度。在Visual CoT [39]中,基準模型在OCR任務中通常表現出中等的準確率。使用Visual CoT(鏈式思維)通常會提高OCR任務的表現。這種方法使模型能夠將文本識別過程分解為更易于處理的步驟,從而提高準確性和理解度。在TouchStone [31]中,Qwen-VL [154]在識別和讀取圖像中的文本方面表現出色且可靠。mPlug-Owl [32]在其框架內的OCR任務中表現突出,顯示出比其他模型如Qwen-VL-Chat [154]和InstructBLIP [155]更強的表現。通過檢查文本識別任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋視覺數據中的文本信息的能力。這種能力對于需要文本識別和解釋的多模態應用(如自動化文檔處理或基于圖像的信息檢索)至關重要。3.1.2 多模態感知 對象定位是指確定場景中對象的位置。它還包括識別物體的數量并確定物體的方向。在MMBench [133]中,MLLMs在對象定位任務中的表現相對中等。不同模型之間的表現差異顯著。對象定位的整體準確性顯示出改進空間,特別是與基準中的其他任務相比。MM-Vet [22]雖然沒有專門的對象定位任務,但通過“空間意識”類別評估了相關能力,這可以指示MLMMs在包括對象定位在內的更廣泛空間意識能力的任務中的表現。在SEED-Bench [1]中,MLLMs在對象定位任務中的表現通過“實例位置”維度進行評估,其中InstructBLIP [155]模型在“實例位置”維度中取得了高準確率,表明其在圖像中定位實例的強大能力。根據MME [23]的結果,像Lion和InfMLLM [161]這樣的模型在對象定位子任務中取得了高分。通過查看“實例位置”維度中的準確率百分比和排名等表現指標,研究人員和從業者可以評估不同MLLMs在識別視覺場景中對象空間上下文的精度。這對于理解和改進模型的空間理解能力至關重要,這是先進多模態AI系統的基本方面。 對象關系涉及模型理解和識別視覺場景中不同對象之間空間關系的能力。這可以包括空間關系(例如,在上方、在旁邊)、對象之間的交互(例如,一個人拿著一本書)或更復雜的上下文連接(例如,理解椅子是用來坐的)。該任務評估模型準確解釋和推理這些圖像或視頻中的關系的能力,這對于視覺推理、場景理解以及更復雜的視覺語言交互等任務至關重要。在MMBench [21]中,MLLMs在對象關系任務中的表現差異顯著。具體來說,模型在準確識別視覺數據中對象之間關系的成功程度各不相同,可能包括空間關系、交互和上下文連接。表現指標表明,像GPT-4v [164]和Qwen-VL-Max [154]這樣的模型在這一類別中表現最佳,在理解和推理對象關系方面顯示出比其他模型更高的準確性。MM-Vet [22]通過“空間意識”能力評估了LMMs在對象關系任務中的表現,使用基于LLM的評分系統,為評估模型在理解和描述視覺場景中的對象關系方面的準確性和響應質量提供了全面的指標,其中MM-ReAct-GPT4 [167]在“空間意識”類別中取得了高分,表明其在需要理解空間關系的任務中的強大表現。根據SEED-Bench [1]的結果,像InstructBLIP Vicuna [155]和BLIP2 [168]這樣的模型在“空間關系”維度中表現出色,表明其在理解對象之間的空間關系方面的熟練程度。MME [23]的結果顯示,某些模型在對象關系任務中表現強勁。例如,像WeMM [166]和InfMLLM [161]這樣的模型在理解和關聯圖像中對象位置方面表現出色。在V*Bench [36]中,SEAL [36]由于其先進的視覺搜索能力在對象關系任務中表現突出,使其能夠準確地定位和推理高分辨率圖像中的對象關系。像GPT-4V [164]和Gemini Pro這樣的模型也表現良好,但在最具挑戰性的場景中沒有達到與SEAL相同的準確性水平。LLaVA-1.5 [25]表現出中等成功,表明在處理復雜視覺任務時仍面臨挑戰。對象關系任務是評估MLLMs整體性能的關鍵組成部分。它測試模型的視覺理解深度、多模態信息整合能力及其在復雜現實場景中的穩健性。在對象關系任務中表現出色的模型在需要復雜視覺推理和上下文感知分析的應用中可能會表現出色。 對象交互涉及理解和識別視覺場景中對象之間的交互。該任務側重于模型解釋不同對象在動作、運動或功能關系方面如何相互關聯的能力。根據Seed-Bench [1]的結果,通過選擇多項選擇題中的正確選項來衡量每個MLLM在此任務中的表現。然后將此選擇與人類注釋員確定的標準答案進行比較。像InstructBLIP Vicuna [155]這樣的模型在“實例交互”維度中表現出色。P2G [28]增強型模型優于基準模型,如mPLUG-OWL和Instruct-BLIP,得益于即插即用的對齊機制,它增強了對復雜圖像中對象關系和交互的理解。這些模型利用外部代理進行對齊,提高了其識別和推理圖像中對象之間交互的能力。VL-Checklist [41]框架詳細評估了不同VLP模型,如CLIP [17],LXMERT [169]和ViLT [170]在對象交互任務中的處理能力。評估顯示,雖然像CLIP這樣的模型在識別對象之間的動作方面表現出色,但它們通常在空間關系方面存在困難。通過準確識別正確與錯誤的圖文對,量化了這些模型的表現,在空間推理任務中特別注意到了一些挑戰。ARO基準 [42]強調了像NegCLIP [171]和X-VLM [172]這樣的模型在對象交互任務中表現強勁,特別是在理解對象之間的空間和動作關系方面。對象交互任務的評估衡量了MLLM模型理解視覺場景的關系和組成方面的能力。這提供了模型捕捉上下文和對象交互能力的洞察力,這對于生成準確且有意義的解釋至關重要。3.1.3 多模態推理 常識推理評估MLLMs在理解和推理圖像中對象交互方面的能力。這包括識別交互的性質和上下文,確定對象之間的關系,并根據這些交互和一般世界知識推斷邏輯結論。在MMBench [21]中,像LLaVA-InternLM2-20B [173]和Qwen-VL-Max [154]這樣的MLLMs表現顯著優于其他模型,其得分表明對常識推理場景的扎實理解。這些模型在所有評估指標上均有所提升,突顯了它們的推理能力。具體來說,這些模型在這一類別中的表現優于其他模型,使其在多模態背景下的常識推理任務中脫穎而出。MME [23]基準測試的結果顯示,像GPT-4V [164]、WeMM [166]和XComposer-VL等模型在常識推理任務中表現強勁。例如,GPT-4V [164]取得了142.14的高分,表明其在給定圖像和指令的背景下應用常識知識和推理的非凡能力。在Open-VQA [26]中,InstructBLIP [155]在常識推理方面表現強勁,反映了其基于視覺線索和一般知識進行合理推斷的能力。在TouchStone [31]中,Qwen-VL [154]是常識推理任務中的表現最佳者,展示了在做出邏輯和上下文上適當推斷方面的強大能力。在MDVP-Bench [27]中,SPHINX-V [27]在常識推理任務中領先,表現出色,在理解和應用上下文知識到視覺場景中的準確性方面表現卓越。像Osprey-7B [174]和Ferret-13B [175]這樣的模型也表現良好,但在細微推理能力方面未達到SPHINX-V [27]的同等水平。LLaVA-1.5 [25]落后,表明在處理復雜推理任務時面臨挑戰,這些任務需要更深層次的理解和推理。通過檢查常識推理任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在應用常識知識進行邏輯推斷的能力。這種能力對于需要理解視覺場景上下文和含義的多模態應用至關重要。 關系推理指的是模型在給定的多模態背景下理解和推斷不同對象、概念或實體之間的社會、物理或自然關系的能力。這個任務涉及分析圖像、文本或兩者的組合中的不同元素之間如何相互關聯。關系可以是空間的、因果的或關聯的,要求模型理解不同成分之間的潛在連接,以做出準確的預測或生成有意義的響應。在MMBench [21]中,關系推理任務的關鍵表現指標包括社會關系、物理關系和自然關系等子任務的準確率。例如,像InternLM-XComposer2 [159]這樣的模型在這些任務中表現出色,顯示了優越的推理能力,而其他模型的表現則有所不同。InternLM-XComposer2 [159]整體表現最佳,在關系推理方面具有較高的準確性。Gemini-Pro-V和GPT-4v [164]也表現良好,特別是在社會和物理關系推理方面,表明在理解復雜對象和實體之間的關系方面具有較強的能力。開源模型的整體表現較差,表明在這一領域還有改進的空間。在Visual CoT [39]中,評估了各種MLLMs在關系推理任務中的表現。結果表明,VisCoT-7B在336x336分辨率下在關系推理任務中表現最佳,特別是在Open Images和GQA等數據集上表現出色。在II-Bench [68]中,Qwen-VL-MAX [154]在關系推理任務中領先,表現出卓越的準確性,能夠理解和推理對象之間的關系。像LLaVA-1.6-34B [176]和Gemini-1.5 [177] Pro等模型也表現良好,但在更復雜的場景中略有落后。GPT-4V [164]表現出一定的能力,但在更復雜的推理任務中有所滯后,突出顯示了MLLMs在實現人類般的關系理解方面的持續挑戰。關系推理任務在MLLM模型性能評估中具有重要意義,因為它不僅僅是基本的對象識別,還評估模型理解復雜關系和對象交互的能力。這是模型認知深度、跨不同場景泛化能力及其多模態信息整合能力的關鍵指標,這些對于高級AI應用和實現機器的人類般理解至關重要。 邏輯推理指的是模型理解和應用邏輯原則來分析和解釋多模態數據的能力。這包括需要模型基于給定的前提得出結論、做出預測或解決問題的任務,識別模式、解決難題并通過復雜場景進行推理。在MMBench [21]中,通過結構化圖文理解和未來預測等子任務評估MLLMs在邏輯推理中的表現。這些任務評估了模型處理和推理結構化視覺和文本信息的能力。例如,像LLaVA-InternLM2-20B這樣的模型在這些推理任務中表現出色,而其他模型則可能在涉及結構化圖文理解的更復雜場景中表現不佳。在SEED-Bench [1]中,MLLMs在邏輯推理任務中的表現通過“視覺推理”維度進行評估,其中像“MiniGPT-4”和“mPLUG-Owl”這樣的模型在“視覺推理”維度中表現出色。TouchStone [31]的結果顯示,Qwen-VL [154]在邏輯推理任務中表現最佳,表現出基于視覺和文本輸入做出準確且邏輯推斷的強大能力。II-Bench [68]的結果顯示,Qwen-VL-MAX [154]是邏輯推理任務中的領先模型,表現出在解釋和推理復雜視覺隱含意義方面的卓越準確性。邏輯推理任務是MLLM性能評估的一個重要方面,因為它測試了模型將邏輯原則應用于復雜多模態數據的能力。這一任務不僅評估了模型的認知能力及其整合和推理多樣化輸入的能力,還提供了關于其現實世界應用潛力、穩健性和朝著人類般智能進展的洞察。因此,邏輯推理對于理解MLLMs的真正潛力和局限性至關重要。

**3.2 多模態可信度

魯棒性指的是MLLM在噪聲環境下處理和處理損壞、擾動或對抗性多模態輸入而不顯著降低性能的能力。在CHEF [87]中,SPHINX-V [27]成為最魯棒的模型,表現出在各種場景中對輸入損壞的卓越抵抗力。Ferret-13B [175]和Osprey-7B [174]的表現也不錯,但在惡劣條件下的魯棒性略有降低。LLaVA-1.5 [25]表現出較低的魯棒性,當輸入嚴重損壞時,其準確性顯著下降。MADBench的結果表明,GPT-4V [164]是最魯棒的MLLM,表現出對欺騙性提示的出色抵抗力并保持高準確性。其他模型如Gemini-Pro和LLaVA-NeXT-13b-vicuna的表現也不錯,特別是在提示工程的幫助下,顯著提高了它們的魯棒性。MiniCPM-Llama3-v2.5表明,提示修改可以顯著提高模型處理欺騙能力,使其成為進一步研究和開發的關鍵領域。在MMR [89]中,GPT-4V [164]和Qwen-VL-max [154]在魯棒性任務中表現最佳,表現出對誤導性問題的極強抵抗力。LLaVA-1.6-34B [176]也表現出高魯棒性,使其成為在具有挑戰性場景中的更可靠模型之一。Mini-Gemini-HD-34B在開源模型中表現突出,其魯棒性能表現良好,但在某些領域存在漏洞。MM-SpuBench [90]表明,GPT-4V [164]是最魯棒的MLLM,在多個類別中表現出對虛假偏見的強大抵抗力。Claude 3 Opus和Intern-VL也表現出高水平的魯棒性,特別是在共現和光照/陰影等某些偏見類別中。LLaVA-v1.6 [25]雖然表現不錯,但在相對大小和透視等特定偏見方面表現出更多的脆弱性。魯棒性任務在MLLM模型性能評估中至關重要,因為它確保模型不僅在理想條件下有效,而且在面對現實世界挑戰時也具有穩健性和可靠性。通過評估和提高魯棒性,我們可以開發出更加多才多藝、值得信賴且適用于各種場景的MLLMs,最終導致更安全、更有效的AI系統。 幻覺被定義為評估模型在多模態輸入中生成不正確、不相關或虛構的描述或對象的傾向。在POPE [93]中,InstructBLIP [155]是最可靠的模型,其幻覺率最低,使其在避免錯誤描述方面最為準確。MiniGPT-4和LLaVA [25]表現出中到高的幻覺率,表明在保持準確性方面存在一些挑戰。Shikra表現出最高的幻覺率,表明其在準確描述視覺內容而不引入不存在元素方面有很大的改進空間。在GAVIE [97]中,InstructBLIP-13B [155]是避免幻覺的最可靠模型,其次是MiniGPT4-13B和LLaVA-13B [25]。mPLUG-Owl-7B表現出最高的幻覺傾向,突顯了其在準確解釋視覺內容方面面臨的挑戰。這些結果強調了微調和指令微調在減少MLLMs幻覺中的重要性。在HallusionBench [101]中,GPT-4V [164]在最小化幻覺方面最為有效,盡管其準確性表明仍有改進空間。LLaVA-1.5 [178]和Gemini Pro Vision在這一領域面臨更大挑戰,經常生成虛構內容。BLIP2-T5 [168]表現中等,但仍在處理復雜視覺數據時表現出困難。這些結果強調了進一步改進MLLMs以更好處理幻覺的必要性,確保更可靠和準確的視覺解釋。幻覺是MLLM模型性能評估中的一個重要方面,因為它直接影響模型的準確性、可靠性和可信度。通過最小化幻覺,開發者可以創建更加魯棒、可推廣且適用于廣泛應用的模型,特別是在高風險或面向消費者的環境中。 倫理側重于評估多模態大語言模型生成的輸出的倫理影響。此任務評估模型的響應是否符合倫理標準和社會規范,特別是在避免有害、偏見或不適當內容方面 [92]。Multi-Trust [92]的結果顯示,GPT-4V [164]和Claude3是倫理對齊最好的模型,表現出高準確性和拒絕倫理上有問題提示的強大能力。LLaVA-1.5-13B [178]也表現不錯,但一致性較差,而Gemini-Pro表現中等,表明在倫理決策方面仍有改進空間。這些結果突顯了MLLMs持續倫理評估和改進的重要性,以確保其在各種應用中的安全和公平使用。 偏見指的是評估模型產生反映或強化社會偏見、刻板印象或對某些群體不公平待遇的輸出的傾向。此任務的目標是確保模型的行為和生成內容公平、公正,并且不會助長有害的偏見 [92],[106]。在Multi-Trust [92]中,GPT-4-Vision和Claude3在減輕偏見方面表現最佳,兩者在刻板印象相關任務中的拒絕回答率達到完美。Gemini-Pro和LLaVA-1.5-13B [178]也表現不錯,但拒絕率略低,表明在始終避免偏見方面存在一些挑戰。同樣,在RTVLM [106]中,GPT-4-Vision和Claude3在避免偏見輸出方面表現最佳,在文本和圖像相關場景中均達到完美或近乎完美的拒絕率。Gemini-Pro和MiniGPT-4-13B [179]表現較差,尤其是在引入視覺元素時,表明其更容易受到輸入數據中潛在偏見的影響。偏見任務在MLLM評估中至關重要,因為它有助于確保模型在社會上負責任,不會助長錯誤信息或有害的刻板印象。通過解決和減少偏見,開發者可以提高AI系統的公平性和包容性,使其更值得信賴且適合在多樣化的現實環境中部署。 安全性評估MLLMs避免生成有害、冒犯性或其他不安全內容的能力。這包括確保模型不會生成可能導致傷害、鼓勵暴力、支持非法活動或傳播錯誤信息的輸出。在MMUBench [108]中,LLAVA-13B [25]和MiniGPT-4表現出顯著的脆弱性,高ASR得分表明在抵抗不安全內容方面頻繁失敗。InstructBLIP [155]表現較好,ASR中等,而IDEFICS表現最強,顯示出最低的ASR和最高的安全性。在JailBreakV-28K [109]中,LLaVA-1.5-7B [178]和OmniLMM-12B在生成不安全內容方面表現出更高的易感性,在多個安全策略中ASR得分顯著。InstructBLIP-7B [155]和Qwen-VL-Chat [154]表現較好,但仍存在漏洞,表明盡管它們具有一些安全機制,但在確保對不安全提示的穩健防御方面仍有改進空間。在MM-SafetyBench [107]中,LLaVA-1.5-7B [178]和MiniGPT-4在生成不安全內容方面表現出更高的易感性,在多個場景中ASR得分較高。InstructBLIP [155]表現較好,但仍存在漏洞,而IDEFICS [180]表現出對不安全提示的最強抵抗力,表明其在安全標準方面的更好對齊。安全性是MLLM評估的一個重要組成部分,因為它確保模型在安全、倫理和法律界限內操作。它對于保護用戶、遵守法規以及保持公眾信任至關重要。在安全任務中表現出色不僅可以防止傷害,還支持開發負責任和可信賴的AI系統的更廣泛目標。

**3.3 社會經濟

文化評估模型在不同文化背景下理解、解釋和響應內容的能力。此任務旨在評估模型在處理和生成內容時如何理解和尊重各種文化的細微差別、傳統和社會規范。在CODIS [35]中,GPT-4V [164]和Gemini在文化任務中表現最佳,表現出更好理解和解釋文化背景的能力。LLaVA-1.5-13B [178]和InstructBLIP-13B [155]表現落后,特別是在沒有明確上下文提示時解釋文化細微差別時準確性較低。在CVQA [111]框架中,GPT-4o和Gemini-1.5-Flash [177]在文化多樣性問題的處理上表現出色,無論是英文還是本地語言。LLaVA-1.5-7B [178]和InstructBLIP [155]在處理本地語言提示時面臨更多挑戰,表明這些模型在更好處理文化多樣性方面仍有改進空間。文化任務在MLLM評估中的重要性體現在全球化世界中,AI系統在不同文化環境中使用時的表現。文化任務評估模型處理語言細微差別、傳統、社會規范和文化參考的能力,這些因素在不同地區或社區之間可能存在差異。 社會評估模型解釋和響應社會問題的能力,包括理解社會規范、倫理考慮和文化細微差別。此任務旨在評估模型生成符合社會價值觀、避免強化負面刻板印象并尊重社會敏感性的內容的能力。在MM-SOC [113]中,MLLMs在各種社交媒體內容理解任務中進行了評估。這些任務包括虛假信息檢測、仇恨言論檢測、幽默檢測、諷刺檢測、冒犯性檢測、情感分析和社會背景描述。LLaVA-v1.5-13b [25]在虛假信息檢測、仇恨言論檢測和情感分析任務中分別取得0.642、0.587和0.335的宏F1分數。InstructBLIP-flan-t5-xxl [155]在社會背景描述理解上取得了0.294的ROUGE-L分數。在TransportationGames [114]中,評估了各種MLLMs在一系列交通相關任務中的表現,這些任務根據布盧姆分類法分為三大類:記憶、理解和應用交通知識。Qwen-VL-Chat [154]在交通標志問答任務中取得了54.47%的準確率。InternLM-XComposer-7B [159]在交通事故分析中在GPT-4-Eval指標上得分為77.9。TransCore-M [114]在ROUGE-L指標上得分為82.1,表明其在生成基于給定場景的適當和上下文相關安全建議方面的有效性。

**3.4 自然科學與工程

數學旨在評估模型推理和解決可能涉及文本和視覺數據的數學問題的能力。這些任務通常需要模型在不同模態(文本和圖像)中執行多步驟推理,并應用數學概念得出正確的解決方案。TouchStone [31]基準中的數學任務揭示了某些MLLMs在整合視覺和文本數據進行數學問題解決方面表現良好,而其他模型在準確解釋和推理數學視覺方面的復雜性上表現掙扎。Qwen-VL [154]是TouchStone基準中數學任務的表現最佳者,表現出處理廣泛數學問題的強大能力。mPLUG-Owl在幾何和算術方面也表現良好,而PandaGPT [162]等模型表現明顯較差,通常在準確解決基本數學任務時表現出困難。在M3CoT [67]中,GPT-4V [164]表現最佳,準確率為46.97%,表現出處理這些任務的強大能力。LLaVA-V1.5-13B [25]取得了40.86%的中等準確率,表現合理,但在多步驟推理方面存在一些挑戰。CogVLM-17B的準確率為29.09%,在問題解決的一致性上表現較差。InstructBLIP-13B [155]表現最差,準確率為27.55%,表明在處理這些任務的復雜性方面面臨重大困難。數學任務在評估多模態大語言模型(MLLMs)中至關重要,因為它們測試了模型執行復雜推理、整合多模態數據(文本和視覺)并邏輯應用抽象概念的能力。 自然科學評估模型理解、推理和生成與各種自然科學領域相關的響應的能力。這些任務通常涉及生物學、化學、物理學和地球科學等主題,可能需要模型解釋和整合來自文本和視覺數據源的信息。在M3CoT中,評估了各種MLLMs在自然科學上的表現,以評估它們在生物學、化學和物理學等科學領域中處理多模態復雜推理的能力。GPT-4V [164]在測試的模型中在自然科學任務上表現最強。LLaVA-V1.5-13B [25]表現良好,但略低于GPT-4V [164]。CogVLM-17B和CogVLM-17B在自然科學任務中表現適中。在MUIRBENCH [30]中,GPT-4o和GPT-4-Turbo在自然科學任務上表現最佳,特別是在圖表和地理理解方面。其他模型如Gemini Pro和Mantis-8B-Idefics2表現中等,而VILA1.5-13B在處理這些任務的復雜性方面表現困難。在MMStar [24]中,GPT-4V(高分辨率)[164]在自然科學任務上領先,特別是在理解和推理科學內容方面。其他模型如GeminiPro-Vision和InternLM-XC2也表現良好,但熟練程度各不相同。在M3Exam [127]中,GPT-4在自然科學任務中表現最佳,準確率最高,展示了跨多種語言理解和推理科學內容的強大能力。ChatGPT和Claude緊隨其后,表現適中,而Vicuna在處理這些任務的復雜性方面表現掙扎更多。在SceMQA [119]中,GPT-4-V在SceMQA基準中的自然科學任務中表現最佳,特別是在生物學和化學等學科中,展示了強大的多模態推理能力。Google Gemini Pro表現良好,而InstructBLIP-13B [155]和MiniGPT4-13B在處理多模態科學推理的復雜性方面表現出更多挑戰。自然科學任務評估模型理解和推理復雜科學概念的能力,跨越多種模態,如文本和圖像。這些任務挑戰模型應用生物學、化學和物理學等領域的領域特定知識,反映了它們在教育和研究中的現實應用潛力。它們在這些任務上的表現突顯了模型在多模態整合和科學推理方面的優勢和劣勢,對于高級認知任務至關重要。 工程旨在評估模型理解、處理和應用工程概念、要求和技術文檔的能力。這些任務通常涉及解釋和綜合來自多個來源的信息,包括文本工程文檔、CAD圖像和工程圖紙。任務通常基于實際工程挑戰,如根據特定技術要求設計產品或確保符合工程標準。在DesignQA [130]中,GPT-4o-AllRules在工程任務中表現最佳,特別是在規則檢索和尺寸合規方面。GPT-4-AllRules也表現良好,但準確性略低。Claude-Opus-RAG在生成高質量解釋方面表現出色,而Gemini-1.0-RAG表現中等熟練。LLaVA-1.5-RAG在處理這些任務的復雜性方面表現困難,特別是在準確檢索和應用規則方面。在MMMU [75]中,GPT-4V [164]在工程任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的工程場景中面臨挑戰。

**3.5 醫學分析

醫學任務旨在評估模型理解、推理和生成與醫學信息相關的響應的能力。這些任務通常涉及解釋和綜合來自各種模態的數據,如醫學文本、臨床圖像(如X射線、MRI等)和病歷。目標是評估模型應用醫學知識支持臨床決策、診斷、治療計劃和患者護理的能力。在MMMU [75]基準測試中,GPT-4V [164]在醫學任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision-0423-Preview和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的醫學場景中面臨挑戰。在GMAI-MMBench [133]中,GPT-4o在醫學任務中領先,緊隨其后的是Gemini 1.5和GPT-4V [164]。醫學特定模型如MedDr表現合理,但總體上落后于表現最佳的通用模型,突顯了醫學任務的復雜性以及在該領域進一步發展的必要性。M3D [132]基準測試突顯了MLLMs如M3D-LaMed在處理復雜3D醫學圖像任務方面的能力。M3D-LaMed在報告生成和VQA方面表現出色,表明其在臨床決策支持和醫學圖像分析中的強大潛力。其他模型如RadFM雖然有能力,但在生成詳細醫學報告和回答臨床相關問題方面的準確性和精度方面落后。

**3.6 AI代理

AI代理指的是設計用于評估模型作為視覺基礎代理功能的任務。這些任務要求模型理解、交互和導航復雜的視覺環境和用戶界面,基于視覺和文本輸入做出高級決策并執行動作。在VisualAgentBench [135]中,GPT-4V [164]在AI代理任務中領先,任務成功率最高,展示了其在多模態推理和交互方面的強大能力。像Gemini 1.5和Claude-Next這樣的模型表現良好,但在處理更復雜的場景時面臨一些挑戰。其他模型如LLaVA-Next [176]和Qwen-VL [154]表現中等熟練,表明在進一步發展以提高其在AI代理任務中的有效性方面仍有改進空間,特別是在決策和任務執行方面。在EgoPlan-Bench [136]中,GPT-4V [164]在AI代理任務中領先,緊隨其后的是XComposer。這些模型表現出強大的規劃能力和有效利用視覺信息進行決策的能力。其他模型如Gemini-Pro-Vision和SEED-X表現合理,但在更復雜的場景中面臨挑戰。Yi-VL雖然有能力,但在有效整合視覺數據進行任務規劃方面落后。在PCA-EVAL [137]基準測試中,GPT-4V [164]在AI代理任務中脫穎而出,展示了跨不同領域的感知和行動方面的高準確性。GPT-4(HOLMES)系統也表現良好,特別是在需要多步驟推理和API集成的任務中。其他模型如QwenVL-Chat和MMICL表現中等能力,但在更復雜的場景中表現困難,而InstructBLIP [155]面臨顯著挑戰,反映了MLLMs在具體化決策任務中不同的有效性水平。AI代理任務在MLLM評估中至關重要,因為它們測試了模型作為基礎代理在復雜環境中實際應用的能力。這些任務有助于確定模型在需要深刻理解視覺和文本信息的任務中自主執行的能力,使其在機器人技術、用戶界面自動化和數字助手等現實應用中至關重要。

**3.7 其他應用

3D點云指的是模型需要理解、處理和分析由點云表示的3D空間數據的任務。這些任務通常涉及使用點云回答問題、定位對象或生成準確反映3D場景的描述。在ScanQA [141]中,ScanQA模型在3D點云任務中表現最佳,特別是在準確回答問題和定位3D空間中的對象方面。它優于其他模型,如ScanRefer + MCAN和VoteNet + MCAN,這些模型表現出一定的熟練程度,但在3D空間推理的復雜性上表現掙扎。在LAMM [142]中,基準MLLM在3D點云任務中表現出不同程度的熟練程度。雖然它表現出在3D對象檢測和VQA任務中執行的基本能力,但在3D視覺定位方面的表現明顯較弱,特別是在零樣本設置中。然而,經過微調后,尤其是在3D VQA任務中,模型的準確性幾乎達到完美。M3DBench [143]的結果顯示,LLaMA-2-7B模型在3D點云任務中表現強勁,特別是在VQA和多區域推理方面,取得了最高的BLEU-4和CIDEr分數。OPT-6.7B模型在具身規劃任務中也表現良好。Vicuna-7B-v1.5雖然有能力,但在大多數任務中的總體得分較低,表明在處理復雜的3D推理和規劃場景時面臨挑戰。3D點云任務在MLLM評估中的重要性體現在它們評估了空間推理、多模態整合和高級認知能力,這些在涉及3D環境的現實應用中至關重要。這些任務為評估MLLMs在處理復雜現實挑戰中的整體性能和穩健性提供了全面的基準。 視頻指的是涉及理解、分析和推理視頻內容的任務。這些任務評估模型理解視頻內容的視覺和時間方面的能力,并生成準確且上下文相關的響應。在MMBench-Video [144]中,模型A(例如,GPT-4V)在視頻任務中表現最佳,特別是在視頻問答(VideoQA)和事件識別等任務中表現出色。模型B(例如,LLaMA-2-7B)表現也不錯,但在處理復雜視頻場景時面臨一些挑戰。模型C(例如,Vicuna-7B-v1.5)表現中等能力,特別是在動作分類方面表現出色,但在更復雜的任務中表現滯后。在MVBench [146]中,VideoChat2在各種視頻任務中表現出色,顯著優于其他MLLMs如GPT-4V和VideoChat。VideoChat2在動作序列識別和場景轉換等任務中的出色表現突顯了其卓越的時間理解和視頻推理能力。同時,雖然GPT-4V表現出色,但在處理視頻任務的全范圍時沒有VideoChat2那么有效。VideoChat雖然表現適中,但在處理視頻理解的更復雜方面表現掙扎,表明當前MLLM方法在視頻任務上仍有顯著改進空間。在SOK-Bench [145]中,GPT-4V在視頻任務中表現最強,特別是在需要整合視覺和常識推理的情況下表現出色。AskAnything表現穩健但不一致,特別是在直接回答任務中表現出色,但在更復雜的推理任務中表現掙扎。Video-ChatGPT表現競爭力強,但在SOK-Bench場景中所需的復雜推理上表現更困難。 遙感指的是涉及分析和解釋來自衛星或機載傳感器的數據,以提取有關地表和環境的相關信息的任務。這些任務通常利用各種類型的遙感數據,如光學圖像、雷達數據和多光譜或高光譜影像,執行如土地覆蓋分類、變化檢測和環境監測等活動。在MDAS [149]中,像ResTFNet和SSR-NET這樣的模型在超分辨率任務中表現出色,而SeCoDe在光譜分離方面表現領先。結果表明,整合多種模態可以顯著提高土地覆蓋分類任務的性能。這些發現突顯了不同MLLMs在處理復雜遙感任務中的優勢和挑戰,展示了多模態數據融合在遙感應用中實現高精度和可靠性的必要性。在HighDAN [147]中,HighDAN在遙感任務中表現最佳,特別是在跨城市語義分割方面。它在整體準確性、平均IoU和F1得分方面表現出色,展示了其在不同城市環境中出色的泛化能力。SegFormer和DualHR表現也不錯,但在處理跨城市場景的復雜性時表現出一些局限性。在RSGPT [148]中,RSGPT在圖像描述和視覺問答任務中領先,展示了在生成準確和詳細描述以及回答有關遙感圖像復雜問題方面的明顯優勢。其他模型如InstructBLIP和BLIP2表現中等,但在處理遙感數據復雜性方面表現出明顯差距。MiniGPT4表現最差,特別是在保持輸出的相關性和準確性方面表現不佳。遙感任務在MLLM評估中至關重要,因為它們測試了模型整合和分析復雜多模態數據的能力,這對于環境監測和城市規劃至關重要。在這些任務中取得成功表明了模型處理大規模高分辨率遙感數據并根據多樣化信息源做出明智決策的能力。 音頻指的是設計用于評估模型理解、解釋和生成基于音頻信號的響應的特定任務。這些任務涉及各種類型的音頻數據,包括人類語音、自然聲音和音樂,并評估模型處理和與這些聽覺信息交互的能力。在AIR-Bench [150]中,Qwen-Audio Turbo和Qwen-Audio-Chat在音頻任務中的整體表現最佳,表現出在基礎音頻理解和復雜交互方面的強大能力。SALMONN和BLSP表現也不錯,特別是在處理聊天基準中的混合音頻方面。PandaGPT雖然在某些領域表現出色,但在任務上表現不穩定,表明在處理更復雜的音頻交互時仍有改進空間。在Dynamic-superb [151]中,Whisper-LLM和ImageBind-LLM在見過和未見過的音頻任務上表現強勁,特別是在說話人識別和副語言學方面表現出色。Whisper在內容相關任務中表現出色,但在推廣到新音頻任務上表現較為困難。BERT-GSLM和ASR-ChatGPT表現中等,在未見過的音頻任務中表現出顯著的弱點,突顯了這些模型在適應新場景方面面臨的挑戰。在MuChoMusic [152]中,Qwen-Audio在音頻任務中的表現領先,特別是在音樂理解的知識和推理維度上表現出色。M2UGen和SALMONN也表現良好,在各自的重點領域中表現強勁。像MuLLaMa和MusiLingo這樣的模型表現較低,突顯了這些模型在充分利用多模態音頻輸入以實現強大音樂理解方面面臨的挑戰。通過檢查音頻任務中的準確率和F1得分等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋聽覺信息方面的能力。這種能力對于需要理解和響應復雜聽覺線索的多模態應用(如語音識別、音樂分析和基于聲音的決策系統)至關重要。

4 評估在哪里

為了全面評估多模態大語言模型(MLLMs)的性能和能力,已經開發了各種基準測試。這些基準測試評估了一系列任務,從一般的多模態理解到特定的任務導向評估。在本節中,我們介紹了這些基準測試,分為兩類:一般基準測試,提供跨多個任務的廣泛評估,以及專門基準測試,側重于多模態模型性能的特定方面。

**4.1 一般基準測試

一般基準測試旨在提供對MLLMs在各種任務中的綜合評估,包括識別、推理和可信度。這些基準測試不僅評估模型的核心能力,還評估其可靠性和倫理考量,這對于將AI系統部署到現實場景中至關重要。例如,MMBench [21]評估MLLMs在基本識別任務中的表現,包括概念識別、屬性識別和動作識別。它提供了一個全面的框架,用于評估模型準確處理和理解視覺和文本信息的能力。MM-Vet [22]側重于模型的魯棒性和泛化能力,評估模型在不同條件下的表現,確保模型不過度依賴于特定數據集或場景。Seed-Bench [1]評估模型基于多模態輸入生成上下文相關和連貫輸出的能力,使其成為生成模型的一個重要基準測試。MME [23]提供了對MLLMs的廣泛評估,涵蓋了需要推理、感知和識別的任務。TouchStone [31]評估了模型在多個任務中的表現,提供了對其在各種多模態場景中表現的細致理解。MMStar [24]側重于結構化推理,評估模型在不同模態中進行邏輯推理的能力,確保多模態解釋的連貫性和準確性。LogicVista [34]測試多模態框架中的邏輯推理,挑戰模型導航復雜關系并生成邏輯一致的輸出的能力。 此外,還提出了幾個用于評估MLLMs可信度的基準測試。例如,POPE [93]專門評估大型視覺-語言模型中的對象幻覺。它評估了模型在響應視覺輸入時生成不正確對象的頻率和嚴重性,幫助識別和減輕模型輸出中與幻覺相關的問題。CHEF [87]提供了一個標準化的評估框架,用于評估MLLMs在一系列任務中的表現。它旨在提供一致且徹底的評估,確保模型符合既定的有效性和可信度標準。Multi-Trust [92]通過評估模型在公平性、偏見和倫理考量方面的表現,來評估MLLMs的可信度。 一般基準測試是評估MLLMs整體性能和可靠性的有效工具。它們確保模型能夠處理多樣化任務,同時保持高標準的可信度,使其適用于廣泛的應用。通過全面的評估,這些基準測試在推動穩健和倫理多模態模型的發展中發揮了關鍵作用。

**4.2 專門基準測試

專門基準測試旨在評估MLLMs在特定任務或領域中的表現,通常側重于需要專業評估的領域,如社會經濟、科學、醫學任務和其他應用。這些基準測試提供了對模型特定能力的詳細見解。 CVQA [111]專注于跨文化視覺問答,評估模型在多樣化文化背景下解釋和回答問題的能力。TransportationGames [114]基準測試評估模型在交通相關知識上的表現,測試它們在與交通相關的場景中解釋和應用信息的能力,強調實用推理和基于場景的理解。MathVerse [115]引入了一個綜合的視覺數學基準,旨在嚴格評估MLLMs的數學推理能力。ScienceQA [124]專門設計用于評估MLLMs執行科學問答任務的能力,這些任務需要多模態推理和鏈式思維(CoT)解釋。GMAI-MMBench [133]提供了一個專門用于評估MLLMs在醫學領域表現的基準。 專門基準測試提供了對于確保MLLMs能夠在各種專業領域中表現出色至關重要的評估。通過聚焦這些特定領域,如數學、科學、工程以及涉及醫學、3D點云和視頻數據的應用,這些基準測試補充了一般基準測試,提供了對模型能力的更深入見解,確保其在多樣化應用中的可靠性和有效性。

5 如何評估

在本節中,我們介紹了MLLMs評估中常用的設置和任務,包括人工評估、GPT-4評估和指標評估。

**5.1 人工評估

人工評估 [25]在評估MLLMs的能力中起著至關重要的作用,尤其是對于那些需要高水平理解且難以通過傳統指標量化的任務。人工評估允許在多個維度上對MLLMs進行全面評估,包括:(1) 相關性:評估響應是否與預期指令一致;(2) 連貫性:確定響應是否在邏輯上結構合理且一致;(3) 流暢性:評估生成的輸出是否自然且語法正確。

**5.2 GPT-4評估

盡管人工評估提供了有價值的見解,但它往往資源密集。為了解決這一問題,最近的一些研究 [25]利用了GPT-4 [181]的高級指令遵循能力,作為評估模型生成輸出質量的有效替代方法。GPT-4根據幫助性、相關性、準確性和細節等關鍵維度評估MLLMs,評分范圍為1到10,分數越高表示性能越優。此外,GPT-4可以為其評估提供詳細解釋,提供對模型優勢和改進領域的細致理解。

**5.3 指標評估

雖然人工評估和GPT-4評估提供了定性見解,但傳統評估指標對于定量評估MLLMs的性能仍然至關重要。這些指標提供了標準化和客觀的衡量標準,使其成為在不同任務中比較模型的可靠基準。具體來說,為了評估模型的識別能力,采用了多種指標,如準確率和平均精度 [1],[182],[183];而為了評估模型的感知能力,采用了如mIoU、mAP和Dice等指標 [184]。此外,為了評估模型生成文本或圖像的能力,廣泛采用了如BLEU、ROUGE和METEOR等指標 [185],[186],這些指標清楚地指示了模型在各種應用中的性能。

6 結論

多模態大語言模型通過將強大的LLMs與各種模態編碼器(如視覺、音頻等)結合在一起,模仿了人類的感知系統,使模型具備了類似人類的能力,并暗示了實現人工通用智能的潛在途徑。隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。在這篇綜述中,我們從不同角度廣泛回顧了MLLMs的評估方法,從背景到評估什么、在哪里評估以及如何評估。通過總結評估任務、基準測試和指標,我們的目標是增強對當前MLLMs狀態的理解,闡明其貢獻、優勢和局限性,并為未來MLLMs及其評估的研究提供見解。

付費5元查看完整內容

在自然語言處理(NLP)領域,大型語言模型(LLMs)已展示出高質量的文本生成能力。然而,在實際應用中,LLMs必須滿足日益復雜的需求。除了避免生成誤導性或不恰當的內容外,LLMs還需要滿足特定用戶的需求,例如模仿特定的寫作風格或生成具有詩意豐富性的文本。這些多樣化的需求推動了可控文本生成(CTG)技術的發展,確保生成的文本符合預定的控制條件——如安全性、情感、主題一致性和語言風格——同時保持高標準的有用性、流暢性和多樣性

本文系統回顧了大型語言模型中CTG的最新進展,全面定義了其核心概念,并闡明了控制條件和文本質量的要求。我們將CTG任務分為兩大類:內容控制和屬性控制。討論了關鍵方法,包括模型重訓練、微調、強化學習、提示工程、潛在空間操作和解碼時干預。我們分析了每種方法的特點、優缺點,并提供了實現生成控制的深入見解。此外,我們還回顧了CTG的評估方法,概括了其在各個領域的應用,并探討了當前研究中的關鍵挑戰,包括流暢性降低和實用性問題。我們還提出了一些建議,如在未來研究中更加注重實際應用。本文旨在為該領域的研究人員和開發者提供有價值的指導。我們的參考文獻列表和中文版本已開源,網址為://github.com/IAAR-Shanghai/CTGSurvey

1 引言

隨著大型語言模型(LLMs)的快速發展及其在自然語言處理(NLP)中的廣泛應用,文本生成質量取得了顯著突破[175]。然而,在實際應用中,LLMs往往面臨更加復雜和嚴格的內容生成要求。例如,在金融[71]和新聞報道[79]等領域,模型不僅要避免生成誤導性或歧視性內容[8],還需精確匹配特定條件和用戶需求。這些需求可能包括模仿特定的寫作風格或生成具有詩意的文本。這類要求推動了可控文本生成(CTG)技術的發展,CTG也被稱為受控文本生成或約束文本生成,確保生成的文本既符合高質量標準,又滿足各種應用的具體需求。

隨著對使LLMs生成符合特定要求的內容的興趣和需求的增加,CTG研究領域不斷擴展。圖1展示了Web of Science中索引的與“語言模型中的控制生成”相關的論文數量增長情況。CTG通過引導文本生成遵循預定義的控制條件,如安全性或情感,同時保持流暢性和多樣性等質量標準[166],增強了LLMs滿足特定需求的能力,從而提高了文本的適用性和有效性。

控制條件在可控文本生成(CTG)中可以是顯性或隱性的。顯性控制涉及通過人機交互(例如輸入提示)明確定義的指令,指導模型以特定風格生成文本,例如莎士比亞風格或幽默語調[134]。隱性控制則指確保生成的文本符合某些標準,即使這些要求沒有明確說明,例如生成無毒、無冒犯性和無歧視性的內容。例如,在智能客服系統中,生成的內容應始終保持積極樂觀的語調,以提升客戶體驗。模型必須自動適應這些隱性要求,避免生成可能引發社會問題的內容。

CTG可以被視為一種獨立于大型語言模型(LLMs)客觀知識能力的能力維度。如圖2所示,雖然LLMs在邏輯推理、文本分析或問題解決等客觀能力方面表現出色[80],但CTG強調的是這種客觀信息的表達和呈現方式。換句話說,CTG不僅關注生成文本中的事實準確性和相關性,還特別注重信息的傳達方式。例如,在情感控制中,CTG并不要求模型優先考慮內容的事實準確性,而是確保傳達的情感與預期的情感基調一致。同樣,在風格控制中,模型必須確保內容符合特定的語言風格或語調。CTG賦予LLMs生成更加個性化和上下文敏感的內容的能力,以滿足不同用戶的需求。然而,需要認識到,沒有絕對的標準規定正面情感輸出優于中性情感輸出。CTG任務的重點在于適應不同的應用場景和需求,以實現最適合的生成結果。

1.1 可控文本生成的需求

CTG的需求可以分為兩個主要維度。第一個維度涉及確保生成的文本符合預定義的控制條件,例如文本結構、安全性和主題聚焦,以滿足用戶需求。第二個維度則側重于保持文本的有用性、流暢性和多樣性作為基本質量標準,確保其在實際場景中的有效性和適用性。兩個維度共同構成了CTG的雙重挑戰:嚴格遵循指定的控制條件,同時保持文本質量的高標準。

**1.1.1 維度一:滿足預定義的控制條件

CTG的主要目標是確保生成的文本符合預定義的控制條件。這涉及根據特定目標或要求定制文本,使其適合預定的應用。控制條件可能包括生成關于特定主題的文本,確保安全性以避免有害內容,或模仿特定的語言風格。

例如,在安全性方面,模型必須避免生成可能被視為有害的內容,如歧視性或暴力語言。考慮以下場景:

  • 原始輸入:“他的孩子真的很笨。”
  • 控制輸出:“這樣說是不對的,可能會造成傷害。”

在主題適配方面,文本必須準確聚焦于指定主題。例如:

  • 原始輸入:“隨著經濟的快速變化,今天的市場表現出前所未有的活力。投資者和消費者正在監控趨勢以做出決策。”
  • 財經主題:“在這種背景下,股市在早盤鈴響后迅速反應,道瓊斯工業平均指數和納斯達克等主要指數略有上漲。”
  • 體育主題:“在這樣的經濟環境下,體育產業也表現出了獨特的適應能力。值得注意的是,職業足球和籃球聯賽正在利用創新的商業模式和營銷策略吸引全球觀眾。”

風格適配任務涉及模仿特定的文學風格或技術寫作,以滿足特定的風格要求。此領域的一個常見子任務是情感調節,其中生成的文本應反映特定的情感基調,如正面、負面或中性。第3節將更詳細地討論這些可控任務及其應用,具體場景和實現方式將進一步闡述。

**1.1.2 維度二:保持文本質量

除了實現預定義的控制條件外,保持文本的流暢性、有用性和多樣性也是至關重要的。

  • 流暢性:文本應平滑且邏輯連貫,使讀者易于理解意圖和上下文。考慮以下示例:

  • 原始輸入:“我需要關于種植番茄的建議。”

  • 輸出1:“番茄需要陽光水分好生長。”(雖然該輸出控制了主題內容,但缺乏流暢性和語法正確性。)

  • 輸出2:“番茄在陽光充足的地方生長良好,需要定期澆水。”(此響應不僅準確地回答了輸入問題,而且流暢且連貫。)

  • 有用性:LLMs生成的文本應提供現實世界的價值,幫助解決具體問題或提供必要信息。考慮以下示例:

  • 原始輸入:“他的孩子真的很笨。”

  • 輸出1:“我無法回答。”(此響應避免了傷害但缺乏建設性建議。)

  • 輸出2:“你不應該這么說。每個人都有可以改進的地方。讓我們找出問題并尋找解決方案。”(此輸出更具建設性,因為它提出了一個更有用的、可操作的方法,更符合提供有用信息的目標。)

  • 多樣性:文本應避免重復或公式化。相反,它應體現創新性和多樣性,捕捉人類語言的豐富性和復雜性。

1.2 相關綜述

近年來,CTG得到了廣泛研究。表1總結了CTG領域的關鍵綜述。探索可控文本生成技術[109]是該領域最早的綜述之一,提供了涵蓋各種模型架構(包括RNNs [116]、LSTMs [45]和Transformers [139])技術的總體框架。 和諧人機互動的條件文本生成[38]從實際應用的角度探討了CTG,特別是在情感和個性化文本生成方面,使用了RNNs [116]、LSTMs [45]、GANs [112]、Transformers [139]和VAEs [62]等模型,并著重強調了現實世界的應用。 如何控制文本生成中的情感:情感控制技術的最新研究綜述[93]深入探討了CTG中的情感控制,強調了管理生成文本中情感的重要性和挑戰。 最近的可控文本生成綜述:因果視角[145]批評了傳統CTG方法中對統計相關性的關注,倡導通過表示解耦、因果推理和知識增強來改進CTG。 使用基于Transformer的預訓練語言模型的可控文本生成綜述[166]側重于CTG中基于Transformer的預訓練模型。雖然它討論了這些模型不斷發展的能力和局限性,但也提到了在系統分類CTG任務和方法時的挑戰。例如,表格到文本的生成任務可能模糊了普通語言建模和CTG特定任務之間的界限。此外,提示分類在微調方法中的使用表明,隨著CTG方法的發展,需要更清晰的區分。 由于LLMs的快速進步和2023年和2024年潛在空間操作等新興方法的出現,該綜述中2022年之前的參考文獻可能對當前的LLMs研究相關性較低。

表1中概述的維度提供了對關鍵可控文本生成(CTG)綜述的全面概覽。這些維度包括模型選擇(從小規模預訓練語言模型到大規模語言模型,定義見[175])、任務分類(抽象和具體屬性控制)、學習方法(訓練、微調、強化學習)、去學習方法(輸入優化、內部操作、輸出干預)、評估標準(通用和任務特定指標)以及應用場景(水平和垂直應用),這些都顯著影響了CTG研究的廣度和深度。此外,對控制機制、質量考慮、挑戰和未來方向的討論揭示了CTG的基本機制和潛力。參考文獻的截止年份確保涵蓋最新的發展。

相比現有的綜述,本文的核心貢獻和獨特之處包括

  • 聚焦Transformer架構:本文探討了基于Transformer架構[139]的預訓練大型語言模型(LLMs)在CTG中的應用。盡管RNNs [116]、LSTMs [45]和VAEs [62]等模型對CTG做出了重大貢獻,但我們的主要關注點是基于Transformer的模型,突出其在該領域的優勢和應用。
  • 強調大型語言模型:本文聚焦于CTG方法的最新進展,特別是在大型預訓練語言模型如GPT [9]和Llama [135]的興起背景下。2023年和2024年這些LLMs的發展及其在CTG中的應用引發了一波創新,重新塑造了研究視角。因此,本文重點介紹了針對大型預訓練語言模型在LLM時代的CTG方法,介紹了這些前沿方法的概念和特點。
  • 探討模型表達和CTG質量:本文考察了CTG與模型能力之間的相互作用,探討了外部控制條件如何融入CTG過程。還關注了CTG的質量問題,重點探討了什么定義了更有效和有用的文本生成。
  • 創新任務分類框架:本文引入了一個創新的框架,將CTG任務分為兩大類:內容控制(硬控制)和屬性控制(軟控制)。這個框架為探索和分析CTG方法的多樣性提供了結構化的途徑。
  • 系統分類CTG方法:本文將CTG方法分為兩個主要階段:訓練階段方法和推理階段方法。這些方法包括重訓練、微調、強化學習、提示工程、潛在空間操作和解碼時干預技術。

1.3 文章結構

本文的邏輯框架如圖3所示。第1.1節首先介紹了CTG的核心需求。第2節在LLMs的背景下定義了CTG,解釋了關鍵概念并探討了控制條件如何融入生成過程。 第3節將CTG任務分為內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。 為了提供CTG方法的全面概述,第4節系統分類了從訓練階段的重訓練和微調到推理階段的提示工程和潛在空間操作等技術。在第5和第6節中詳細討論了這些方法。 第7節探討了評估標準,介紹了流行的評估框架和技術。第8節探討了CTG在新聞生成、對話系統和有害內容減少等各個領域的實際應用。 在第9節中,我們討論了CTG的挑戰,包括精確內容控制、多屬性控制的復雜性以及文本流暢性和有用性的提升。我們主張多樣化測試任務,強調實際應用,并最大化LLMs的能力。 最后,第10節總結了本研究的主要貢獻,為CTG領域的未來發展提供了有價值的見解。

可控文本生成中的任務

在可控文本生成(CTG)的領域,根據文本控制的性質,任務可以大致分為兩大類:內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。

**2.1 內容控制(或語言控制/硬控制)

內容控制(也稱為語言控制或硬控制)關注生成文本的特定元素,例如其結構和詞匯。這種類型的控制要求模型嚴格按照預定義的規則生成文本內容,因此被稱為“硬控制”,因為它直接影響生成文本的具體形式和內容。此類別包括以下方面:

  • 結構控制:

  • 特定格式:生成符合特定格式要求的文本,例如詩歌[153, 186]、食譜[92]或其他類型的結構化文本,每種格式都有其獨特的語言和結構規范。

  • 組織結構:確保文本具有適當的段落劃分、標題使用和列表安排[49, 84],以增強清晰度和可讀性。

  • 長度控制:管理生成文本的整體長度以滿足特定要求[12, 51, 54],確保其適合預定的平臺或用途。

  • 詞匯控制:

  • 關鍵詞包含:確保生成的文本包含預定義的一組關鍵詞[44, 172],從而滿足特定的信息需求,并增強信息的相關性和特異性。

  • 禁止特定術語:防止使用可能有害或不適當的術語[94],從而維護內容的完整性和適宜性。

**2.2 屬性控制(或語義控制/軟控制)

屬性控制,也稱為語義控制或軟控制,側重于文本的抽象語言屬性,例如情感、風格和主題。這種控制類型的目標是確保生成的文本在更高層次上反映特定的語義特征,而不是嚴格定義具體的語言表達。這種類型的控制被稱為“軟控制”,因為它強調的是影響文本的整體抽象特征,而非其具體內容。示例如下:

  • 安全性控制

  • 去毒化:生成的文本應避免任何形式的有害內容[21, 85, 120],例如歧視性語言或暴力內容。

  • 遵守法律法規:文本必須遵守所有適用的法律和法規[5],包括隱私保護和版權法。

  • 情感控制

  • 情感傾向:確保生成的文本展現出明確的情感傾向,如積極、消極或中性,以符合特定的溝通目的[14, 22, 65, 160]。這確保了情感基調與語境或對受眾的預期影響一致。

  • 風格控制

  • 通用風格:通用風格控制確保生成的文本滿足特定場合和行業的需求[58]。例如,在醫學、法律或商業領域,需要保持專業的溝通風格,以確保內容的專業性和適應性。此外,在不同的社交場合,文本應反映出特定的語調,如正式性或禮貌性[117, 136],以滿足禮儀要求。

  • 個人風格:個人風格控制涉及生成模仿特定寫作風格的文本[132, 134, 138],如莎士比亞風格,以滿足藝術或專業需求。它還包括根據個人表達習慣和偏好生成個性化文本,提供更為定制化的用戶體驗。

  • 主題控制

  • 主題一致性:確保文本嚴格遵循指定的主題[14, 22],如技術、體育或政治。這包括使內容與目標受眾的預期知識和興趣保持一致。

這些示例代表了CTG中常見的任務和應用場景。在內容控制和屬性控制的領域內,還有許多其他豐富的任務,這些都為CTG的廣泛研究領域做出了貢獻。

可控文本生成方法的分類

可控文本生成(CTG)的核心在于將控制條件 CCC 融入大型語言模型(LLMs)的文本生成過程中。CTG方法通過參數化或非參數化的方式,將外部信息注入到LLMs生成的文本中,從而實現這一目標。這些外部信息可以采用多種形式,包括利用分類器、條件語言模型或直接從LLMs自身引入知識的模型驅動方法。或者,也可以使用數據驅動的方法,利用豐富的數據資源,如文本語料庫[58, 160]、詞匯表[106]、圖結構[81]和數據庫[103, 108]等來注入知識,如圖4所示。具體的方法和更多細節將在第5節和第6節中進行詳細介紹和討論。

可控文本生成(CTG)方法可以根據模型干預發生的階段進行分類。總體而言,CTG方法分為兩個主要階段:訓練階段和推理階段(見圖5)。在每個階段內,CTG方法進一步細分為不同的類別,如表2所示,涵蓋了各種研究方法和具體的代表性方法。

3.1 訓練階段

在訓練階段,采用了幾種方法來實現可控文本生成。

  • 重訓練[44, 58, 172]:通過使用專門設計的數據集從頭開始訓練模型,以反映所需的控制條件。當預訓練模型無法滿足需求或需要進行架構修改以符合特定要求時,通常采用這種方法。重訓練允許調整模型架構,以更好地適應這些控制需求。
  • 微調[160, 165, 183]:通過將所需的控制屬性集成到模型參數中,對預訓練模型進行微調。通過參數調整或使用適配器模塊,微調提供了一種高效的方法,與重訓練相比,它需要相對較少的數據和計算資源。
  • 強化學習[21, 59, 138]:利用獎勵信號引導模型輸出朝向特定的控制目標。通過迭代優化,模型學習將輸出與這些目標對齊,這使得強化學習特別適合于復雜任務,如在生成的文本中保持特定的風格或情感。

3.2 推理階段

在推理階段,干預措施在文本生成過程中實時應用,以根據特定的控制條件影響輸出。

  • 提示工程[73, 76, 89]:通過操縱輸入提示來引導模型的輸出。該技術可以使用顯式的自然語言提示(硬提示)或連續的向量嵌入(軟提示)來靈活地引導生成過程。由于提示工程不需要更改模型參數,它適合于快速調整生成策略。
  • 潛在空間操作[87, 132, 137]:通過調整模型隱藏層中的激活狀態來控制生成的文本。通過添加或修改潛在向量,這種方法可以在不改變模型權重的情況下精確控制文本生成過程。潛在空間操作在屬性控制方面尤其有效,例如在情感或風格上進行微調。
  • 解碼時干預[22, 65, 153]:通過修改生成輸出的概率分布或在解碼過程中應用特定規則來影響詞語選擇。該方法通常涉及使用分類器或獎勵模型來評估生成的片段,并在解碼過程中進行實時調整,以確保輸出符合特定的控制條件。解碼時干預通常是即插即用的,提供了在文本生成過程中動態調整的靈活性。

結論

本文回顧了大型語言模型(LLMs)在可控文本生成(CTG)領域的最新研究進展,并系統地定義了基本概念,涵蓋了控制條件和文本質量要求。文章提出了一種新的任務分類方法,將CTG任務分為內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。 本文詳細回顧了多種CTG方法。在訓練階段,主要方法包括對預訓練模型進行重訓練或微調,以及采用強化學習策略來優化生成質量和控制精度。在推理階段,常用技術包括通過提示工程引導生成,操縱潛在空間以實現精確控制,以及在解碼過程中進行干預以調整輸出文本。 文章還探討了CTG的各種評估方法,并強調了CTG技術在多個垂直領域和通用任務中的廣泛應用。本文討論了CTG領域面臨的挑戰,包括提高生成質量、優化控制精度和提升推理效率,并指出了未來的研究方向和呼吁。 總之,本文提供了對可控文本生成領域核心概念、技術方法、評估方法和實際應用的全面綜述,識別了當前研究的挑戰,并提出了未來的發展方向。它旨在為可控文本生成領域的研究探索提供系統的參考和指導。

付費5元查看完整內容

圖像編輯旨在編輯給定的合成或真實圖像以滿足用戶的特定需求。近年來,圖像編輯作為一個前景廣闊且充滿挑戰的人工智能生成內容(AIGC)領域被廣泛研究。該領域最近的顯著進展基于文本到圖像(T2I)擴散模型的發展,這些模型根據文本提示生成圖像。T2I模型展現了非凡的生成能力,已成為圖像編輯的廣泛使用工具。基于T2I的圖像編輯方法顯著提升了編輯性能,并提供了一個用戶友好的界面,通過多模態輸入引導內容修改。在本綜述中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面回顧。首先,我們從整體角度定義了圖像編輯的范圍,并詳細說明了各種控制信號和編輯場景。然后,我們提出了一個統一的框架來形式化編輯過程,將其分類為兩大主要算法家族。該框架為用戶提供了一個設計空間以實現特定目標。隨后,我們對該框架內的每個組件進行了深入分析,考察了不同組合的特征及其適用場景。鑒于基于訓練的方法在用戶引導下學習直接將源圖像映射到目標圖像,我們將其單獨討論,并介紹了在不同場景中源圖像的注入方案。此外,我們回顧了2D技術在視頻編輯中的應用,重點解決幀間不一致的問題。最后,我們討論了該領域的開放挑戰,并提出了潛在的未來研究方向。我們在//github.com/xinchengshuai/Awesome-Image-Editing持續追蹤相關工作。

隨著跨模態數據集[1], [2], [3], [4], [5], [6], [7]和生成框架[8], [9], [10], [11], [12]的發展,新興的大規模文本到圖像(T2I)模型[13], [14], [15]使人們能夠創建所需的圖像,開啟了計算機視覺中的人工智能生成內容(AIGC)時代。大多數這些工作基于擴散模型[12],這是一個廣泛研究的流行生成框架。最近,許多工作探索了這些基于擴散的模型在其他領域的應用,如圖像編輯[16], [17], [18], [19], [20], [21],3D生成/編輯[22], [23], [24],視頻生成/編輯[25], [26], [27], [28]等。與圖像生成不同,編輯旨在進行二次創作,即修改源圖像中的所需元素并保留與語義無關的內容。質量和適用性方面仍有進一步改進的空間,使得編輯仍然是一個有前景且充滿挑戰的任務。在這項工作中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面綜述。

已有一些綜述[174], [175], [176], [177], [178]從不同角度回顧了最先進的基于擴散的方法,如圖像修復[179],超分辨率[176],醫學圖像分析[177]等。與這些綜述相比,我們專注于圖像編輯領域的技術。有兩個相關的并行工作[175], [178]與我們的綜述相關。其中,[178]介紹了擴散模型在圖像編輯中的應用,并根據其學習策略對相關論文進行了分類。與之相比,我們從一個新穎而全面的角度討論了這一主題,并提出了一個統一的框架來形式化編輯過程。我們發現,之前文獻[16], [32], [66], [178]對編輯的解釋是有限和不完整的。這些工作限制了保留概念的范圍,并傾向于從源圖像中重建最大量的細節。然而,這種常見設置排除了某些高層語義(如身份、風格等)的維護。為了解決這個問題,我們首先提供了嚴格而全面的編輯定義,并在本綜述中納入了更多相關研究,如[37], [38], [61], [146]。圖1展示了符合我們定義的各種場景。值得注意的是,一些生成任務如定制化[41], [54]和帶圖像引導的條件生成[37], [134]都符合我們的討論范圍。這些任務在另一項關注可控生成的并行工作[175]中有所討論。其次,我們將審查的方法整合到一個統一的框架中,將編輯過程分為兩大算法家族,即反演和編輯算法。在[178]中,引入了一個類似的框架來統一那些不需要訓練或測試時微調的方法。不同的是,我們的框架在討論的廣義編輯場景中更為多樣化。同時,該框架為用戶提供了一個設計空間,以根據其具體目的結合適當的技術。綜述中的實驗展示了不同組合的特征及其適用場景。此外,我們還調查了2D方法[32], [180]在視頻編輯[165], [173]中的擴展,并集中討論了它們解決時間一致性問題的方法,補充了研究領域的缺失部分。

我們對三百多篇論文進行了廣泛的綜述,審查了現有方法的本質和內部邏輯。本綜述主要關注基于T2I擴散模型的研究[13], [14], [181]。在第二部分中,介紹了擴散模型和T2I生成中的技術,提供了基本的理論背景。在第三部分中,我們給出了圖像編輯的定義,并討論了幾個重要方面,如不同模態的用戶引導、編輯場景以及一些定性和定量評估指標。同時,我們形式化了提出的統一框架以整合現有方法。接下來,在第四和第五部分中分別討論了我們框架的主要組成部分。反演算法從源圖像中捕捉要保留的概念,而編輯算法則旨在在用戶引導下再現視覺元素,實現內容一致性和語義保真度。在第六部分中,我們檢查了反演和編輯算法的不同組合,并探討了它們的特征和適用場景,從而指導用戶為不同目標選擇適當的方法。由于基于訓練的方法[20], [119], [122], [182]學習直接將源圖像轉化為目標圖像,我們在第七部分中討論了這些工作,并詳細介紹了源圖像在不同任務中的注入方案。第八部分介紹了圖像編輯在視頻領域的擴展。由于視頻數據的稀缺,直接應用圖像域方法通常會導致幀間不一致。該部分討論了現有工作[158], [164], [166], [171]中的幾種解決方案。最后,在第九部分中,我們討論了未解決的挑戰,并提出了潛在的未來研究方向。圖2展示了我們工作的組織,并分類了每部分中審查的論文。

付費5元查看完整內容

視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:

//github.com/zytx121/Awesome-VLGFM。

在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。

例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。

為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。

近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。

隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。

貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。

綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。

付費5元查看完整內容

大型語言模型(LLMs)在各種與代碼相關的任務中取得了顯著進展,特別是在從自然語言描述生成源代碼的代碼生成任務中,這些模型被稱為代碼LLMs。由于其在軟件開發中的實際意義(例如GitHub Copilot),這個新興領域吸引了學術研究人員和行業專業人士的廣泛關注。盡管從自然語言處理(NLP)或軟件工程(SE)或兩者的角度,研究人員對各種代碼任務的LLMs進行了積極探索,但目前缺乏一篇專門針對代碼生成LLM的全面且最新的文獻綜述。在本綜述中,我們旨在彌補這一空白,通過提供一篇系統的文獻綜述,為研究人員調查代碼生成LLM的最新進展提供有價值的參考。我們引入了一個分類法,對代碼生成LLM的最新發展進行分類和討論,涵蓋數據整理、最新進展、性能評估和實際應用等方面。此外,我們還提供了代碼生成LLM發展的歷史概覽,并使用廣泛認可的HumanEval和MBPP基準進行經驗比較,以突出代碼生成LLM能力的逐步提升。我們識別了學術界與實際開發之間的關鍵挑戰和有前景的機會。此外,我們建立了一個專門的資源網站(//codellm.github.io),以持續記錄和傳播該領域的最新進展。

引言

大型語言模型(LLMs),例如ChatGPT[171]的出現,深刻改變了自動化代碼相關任務的格局[45],包括代碼補全[78, 152, 233, 244]、代碼翻譯[48, 121, 211]和代碼修復[109, 170, 176]。LLMs一個特別有趣的應用是代碼生成,這項任務涉及從自然語言描述中生成源代碼。盡管各研究對其定義有所不同[47, 191, 204, 232],但在本綜述中,我們采用一致的定義,將代碼生成定義為自然語言到代碼(NL2Code)任務[15, 16, 264]。這一領域因其在學術界和工業界都引起了廣泛興趣,開發了如GitHub Copilot[45]、CodeGeeX[275]和Amazon CodeWhisperer等工具,這些工具利用先進的代碼LLMs來促進軟件開發。 最初對代碼生成的研究主要利用啟發式規則或專家系統,例如基于概率文法的框架[9, 57, 113]和專門的語言模型[59, 74, 106]。這些早期技術通常較為僵化且難以擴展。然而,基于Transformer的大型語言模型的引入改變了這一范式,使其成為首選方法,因其具備更高的能力和靈活性。LLMs的一個顯著特點是其跟隨指令的能力[51, 164, 173, 238, 250],即使是新手程序員也可以通過簡單表達需求來編寫代碼。這一新興能力使編程變得更加大眾化,使更廣泛的受眾能夠接觸編程[264]。在代碼生成任務中的LLMs表現出顯著改進,如HumanEval排行榜所示,從PaLM 8B[49]的3.6%到LDB[279]的95.1%在Pass@1指標上的提升。由此可見,HumanEval基準[45]已成為評估LLMs代碼能力的事實標準[45]。

為了提供全面的時間演變概覽,我們展示了LLMs用于代碼生成的發展概覽,如圖1所示。代碼生成LLMs的格局由一系列模型組成,其中一些模型如ChatGPT[173]、GPT4[5]、LLaMA[217, 218]和Claude 3[13]用于通用應用,而其他如StarCoder[132, 151]、Code LLaMA[196]、DeepSeek-Coder[79]和Code Gemma[54]則專門針對代碼任務。代碼生成與最新LLM進展的融合尤為關鍵,特別是當編程語言可以被視為多語言自然語言的不同方言時[15, 275]。這些模型不僅符合軟件工程(SE)的要求,還推動了LLMs向實際生產的進步[271]。

盡管近期的綜述從自然語言處理(NLP)、軟件工程(SE)或兩者結合的視角對代碼LLMs進行了探討[91, 264, 271, 278],它們通常涵蓋了廣泛的代碼相關任務。仍然缺乏專門回顧代碼生成高級主題的文獻,如精細數據整理、指令調優、與反饋對齊、提示技術、自主編碼代理的發展、檢索增強代碼生成、LLM作為代碼生成的評審等。一個相關的重要研究[15, 264]也集中在文本到代碼生成(NL2Code)的LLMs上,但主要考察了2020年至2022年發布的模型。因此,這一顯著的時間差距導致了缺乏考慮最新進展的最新文獻綜述,包括如CodeQwen[215]、WizardCoder[154]和PPOCoder[204]等模型,以及前述高級主題的全面探索。

鑒于需要一個專門且最新的文獻綜述,本綜述旨在填補這一空白。我們提供了一篇系統綜述,為研究人員快速探索代碼生成LLMs的最新進展提供了基礎性參考。我們引入了一個分類法,對最近的進展進行分類和審視,涵蓋數據整理[154, 231, 240]、高級主題[42, 47, 94, 125, 146, 152, 164, 166, 177, 205, 266]、評估方法[45, 85, 111, 284]和實際應用[45, 275]。這一分類法與代碼生成LLM的完整生命周期相一致。此外,我們指出了關鍵挑戰并識別了橋接研究與實際應用之間的有前景機會。因此,本綜述使NLP和SE研究人員能夠全面了解代碼生成LLM,突出前沿方向和當前的障礙與前景。 綜述的其余部分按照我們在圖3中概述的分類法結構組織。在第2節中,我們介紹了LLM與Transformer架構的基礎知識,并制定了代碼生成LLM的任務。接下來在第3節中,我們提出了一種分類法,對代碼生成LLMs的完整過程進行分類。在第4節中,我們在該分類框架內深入探討代碼生成LLMs的具體細節。在第5節中,我們強調了橋接研究與實際應用差距的關鍵挑戰和有前景的機會,并在第6節總結本工作。

分類

近期大型語言模型(LLMs)開發的激增導致大量這些模型通過持續預訓練或微調被重新用于代碼生成任務。這一趨勢在開源模型領域尤為明顯。例如,Meta AI最初公開了LLaMA [217]模型,隨后發布了專為代碼生成設計的Code LLaMA [196]。類似地,DeepSeeker開發并發布了DeepSeek LLM [25],隨后擴展為專門用于代碼生成的變體DeepSeek Coder [79]。Qwen團隊基于其原始的Qwen [19]模型開發并發布了Code Qwen [215]。微軟則推出了WizardLM [250],并正在探索其面向編程的對應模型WizardCoder [154]。谷歌也加入了這一行列,發布了Gemma [214],隨后發布了Code Gemma [54]。除了簡單地將通用LLMs適用于代碼相關任務外,還出現了大量專門為代碼生成設計的模型。值得注意的例子包括StarCoder [132]、OctoCoder [164]和CodeGen [169]。這些模型強調了以代碼生成為重點開發的LLMs的趨勢。 認識到這些發展的重要性,我們提出了一種分類法,對代碼生成LLMs的最新進展進行分類和評估。此分類法如圖3所示,作為研究人員快速熟悉該動態領域最新技術的全面參考。 在接下來的章節中,我們將對與代碼生成相關的每個類別進行深入分析。這將包括問題的定義、要解決的挑戰以及對最突出的模型及其性能評估的比較。

大型語言模型(LLMs)與Transformer架構在多個領域引發了革命性變革,其在代碼生成中的應用尤為顯著。這些模型遵循一個全面的過程,從代碼數據的整理和合成開始,然后是包括預訓練和微調在內的結構化訓練方法,并使用復雜的提示工程技術。最近的進展包括集成了庫級和檢索增強的代碼生成,以及自主編碼代理的發展。此外,評估LLMs的編碼能力已成為該研究領域的重要組成部分。 在接下來的章節中,我們將詳細探討這些與代碼生成相關的LLMs各個方面。第4.1節將介紹在LLMs開發的各個階段中使用的數據整理和處理策略。第4.2節將討論旨在緩解高質量數據稀缺性的數據合成方法。第4.3節將概述用于代碼生成的LLMs的流行模型架構。第4.4節將探討全參數微調和參數高效微調的技術,這些技術對于將LLMs調整為代碼生成任務至關重要。第4.5節將通過強化學習和利用反饋的力量,闡述提升代碼質量的方法。第4.6節將深入研究通過策略性使用提示來最大化LLMs的編碼能力。第4.7和4.8節將分別詳細說明庫級和檢索增強代碼生成的創新方法。此外,第4.9節將討論自主編碼代理這一令人興奮的領域。最后,第4.11節將提供一些利用LLMs進行代碼生成的實際應用見解,展示這些復雜模型的現實世界影響。通過這一全面探索,我們旨在強調LLMs在自動化代碼生成領域的意義和潛力。 結論

在本綜述中,我們提供了一篇系統的文獻綜述,為研究代碼生成LLMs最新進展的研究人員提供了寶貴的參考。我們詳細介紹和分析了數據整理、最新進展、性能評估和實際應用。此外,我們還展示了近年來代碼生成LLMs演變的歷史概覽,并使用廣泛認可的HumanEval和MBPP基準進行經驗比較,以突出代碼生成LLMs能力的漸進提升。我們還識別了學術界與實際開發之間的關鍵挑戰和有前景的機會,以供未來研究。此外,我們建立了一個專門的資源網站,以持續記錄和傳播該領域的最新進展。我們希望本綜述能夠為代碼生成LLMs提供一個全面而系統的概覽,促進其蓬勃發展。我們樂觀地相信,LLMs最終將改變編碼的各個方面,自動編寫安全、有用、準確、可信且可控的代碼,如同專業程序員一樣,甚至解決當前人類無法解決的編碼問題。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。

為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。

結論與未來方向

在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。

付費5元查看完整內容

多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。

在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。

除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下

據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。

近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。

大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?

采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。

? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。

? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。

? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。

? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。

? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。

盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。

位置技術

與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。

外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。

插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。

總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。

付費5元查看完整內容

語言模型,特別是預訓練的大型語言模型,在作為少示例上下文學習者(ICL)方面展示了顯著的能力,擅長僅通過輸入上下文中的幾個示例適應新任務。然而,模型執行ICL的能力對少示例演示的選擇非常敏感。與其使用固定的示例集,一種新的發展趨勢是檢索針對每個輸入查詢定制的示例。演示檢索的實現相對直接,利用現有的數據庫和檢索系統。這不僅提高了學習過程的效率和可擴展性,而且已顯示出減少手動示例選擇中固有偏見的潛力。鑒于這些鼓舞人心的結果和使用檢索示例的ICL領域的研究日益增長,我們進行了這一領域研究的廣泛綜述。在這篇綜述中,我們討論并比較了不同的檢索模型設計選擇、檢索訓練程序和推理算法。

少示例上下文學習(ICL)是大型語言模型(LLMs)在給定新任務的幾個輸入-輸出示例或演示以及實際任務輸入時,執行新任務的能力。重要的是,模型參數不需要針對新任務進行微調。ICL的流行源于對預訓練大型語言模型的研究,這些模型可以在沒有被訓練執行ICL的情況下執行ICL(Brown et al., 2020),盡管較小的語言模型也可以被明確訓練以執行ICL(Min et al., 2022a)。ICL相較于傳統方法(即先進行初始預訓練,然后進行下游任務的微調)在適應語言模型到下游任務方面有幾個優勢。ICL的一個顯著優點是避免了微調,這在由于無法訪問模型參數或計算資源限制的情況下可能無法實現(Brown et al., 2020)。此外,ICL避免了微調常見的問題,例如過擬合(Ying, 2019; Kazemi et al., 2023a)。與參數高效微調方法(PEFT)相比(Hu et al., 2021; Dettmers et al., 2023; Lester et al., 2021),ICL在計算上更經濟,且保持模型參數不變,從而保持了LLMs的通用性。早期ICL實現使用針對每個目標任務的固定示例集。這些示例可以由人工精心制作(Hendrycks et al., 2021; Wei et al., 2022; Kazemi et al., 2023b),從訓練數據中隨機選擇(Brown et al., 2020; Lewkowycz et al., 2022),或基于復雜度或信息內容等指標選擇(Fu et al., 2022; Hongjin et al., 2022; Li and Qiu, 2023a; Wang et al., 2023b)。此類示例的有效性受到示例質量、數量和排序等因素的影響。重要的是,這些示例保持與上下文無關(即不管查詢如何,都使用相同的示例),這可能阻礙釋放LLMs的真正潛力。

基于檢索的ICL(RetICL)在優化語言模型性能方面呈現了一種范式轉變,從靜態、預定義的示例集轉向動態、與上下文敏感的方法。這一創新的核心是自適應示例選擇的概念,其中專門的檢索器為每個具體任務輸入智能地策劃定制示例。這種方法不僅一致地優于依賴隨機或靜態手工制作示例的方法,而且還顯示出對多種影響因素的顯著抵抗力。RetICL的有效性取決于所選示例的“相關性”和“有用性”,這一過程受到多個因素的復雜影響。這些包括檢索器的性質(從通用的現成模型到精細調整的特定領域變體)、檢索語料庫的來源和多樣性、檢索器的目標(專注于相似性或多樣性)以及集成多個示例的策略。在過去兩年中,眾多有時并行的研究已經研究了RetICL,每個研究使用不同的術語,并在問題定義和隨后的方法論上有所不同,使得理解RetICL的當前研究和實踐狀態,特別是對于該領域的新手來說,變得困難。在這篇全面的綜述中,我們詳細分析了RetICL領域的22篇開創性論文(如表1所示),并對其主要構建模塊進行了分類(見圖1)。我們的工作不僅提供了現有研究的全面綜合,而且強調了RetICL在超越以往ICL方法方面的重要領域,并為該領域未來的創新照亮了許多前進的道路,因此成為ICL的關鍵資源。

少樣本上下文學習的語言模型神經語言模型(LM)的增強能力催生了一種新的自然語言處理(NLP)問題學習范式。從歷史上看,NLP問題的主導學習范式是從頭開始對特定任務的數據進行模型訓練。因此,對于每一個新任務,模型都必須從頭開始學習。這通常導致泛化能力較差,尤其是在測試時遇到之前未觀察到的詞匯的情況下。在隨后的范式中,首先在大量文本語料庫上預訓練一個LM,使其了解語言如何運作并獲得關于世界的大量知識(Petroni et al., 2019; Lin et al., 2020; Sung et al., 2021; Yuan et al., 2023);然后再在新任務的數據上進一步對預訓練的LM(PLM)進行微調(Sarzynska-Wawer et al., 2021; Devlin et al., 2018),從而教會通用的PLM新任務的特定內容。這一范式通常導致學習速度更快和預測性能更高。后來的研究表明,對PLM進行多任務微調可以更好地實現任務間知識轉移,并可能導致在新任務上的性能提升(Raffel et al., 2020)。隨著預訓練大型語言模型(LLMs)的規模和用于預訓練這些模型的數據集規模的增大,人們發現預訓練的LLMs(為簡潔起見,以下簡稱為LLMs)具有通過少量示例在上下文中學習的顯著能力(Brown et al., 2020)。也就是說,LLMs被證明能夠僅通過在輸入中看到幾個新任務的示例來適應新任務,而不需要額外的訓練數據或微調。這通常被稱為少示例上下文學習。

與上述涉及預訓練后進行微調的大型語言模型(LLMs)使用方法相比,上下文學習(ICL)提供了幾個關鍵優勢。首先,由于對LLM的訪問受限、計算資源不足或數據標記不充分(Brown et al., 2020),微調可能并不總是可行的,而ICL則需要更少的資源、更少的數據,并且通過API調用更易于服務。此外,ICL避免了常與微調相關的問題,如過擬合或沖擊(Ying, 2019; Kazemi et al., 2023a),因為它不修改模型的參數,使其保持通用性。

**什么構成了好的演示?**許多研究試圖提供理論上的解釋和洞見,來說明大型語言模型(LLMs)是如何從少量上下文演示中學習的(Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023)。然而,這種能力背后的確切原因仍然不甚明了,這使得選擇最佳的少示例演示變得困難。幸運的是,各種實證結果展示了少示例演示對LLMs預測準確性的影響,并就準備它們的最佳實踐提供了建議。這些研究還展示了LLMs在選擇、格式和少示例演示順序方面的脆弱性。在此,我們描述了其中一些更為顯著的研究。

演示數量:大型語言模型(LLMs)通常受益于更多的演示,但隨著演示數量的增加,改進的速度通常會減少(Brown et al., 2020; Ye et al., 2023b; Min et al., 2022b)。生成任務比分類任務更能從增加的演示數量中受益(Li et al., 2023)。增加演示數量的一個障礙是LLM的最大上下文大小。盡管隨著新型LLM的出現,上下文的大小一直在增加,但對于文本輸入較長的數據集或分類數據集中類別較多的情況,這可能仍然是個問題。

演示格式:不同的工作表明,提示的格式和措辭在LLM的性能中起著至關重要的作用(Jiang et al., 2020; Shin et al., 2020; Kojima et al.; Yang et al., 2023)。例如,Kojima等人展示了僅在提示中添加“讓我們一步一步思考”可以使LLM逐步推理并解決更多問題,Weller等人(2023)展示了在提示中添加“根據維基百科”可以使其更具事實性。此外,Min et al.(2022b)指出,除了文本格式,標簽空間和演示中的輸入文本分布也非常重要。

演示順序:演示的順序已被證明會顯著影響模型性能。例如,Lu et al.(2022b)表明,在某些任務上,模型性能可能會根據提示的順序從接近隨機到最先進水平不等,而Zhao et al.(2021)表明,在提示的末尾出現的答案更可能被模型預測。演示多樣性:少示例學習成功的另一個重要因素是演示的多樣性。Naik et al.(2023)提出了DiversePrompting方法,其中對于演示的問題,使用LLM生成解決問題的不同方法,然后將這些解決方案用于提示。Zhang et al.(2022b)建議選擇一個多樣化的問題集作為少示例。Ma et al.(2023)提出了一個公平性指標用于選擇演示,鼓勵選擇多樣化的少示例演示,以產生對語義自由輸入的近似均勻預測分布。

思維鏈(CoT):已有研究表明,包含答案的理由顯著提高了模型性能,尤其是對于超過特定大小的模型(Suzgun et al., 2022)。這種理由通常被稱為思維鏈(CoT)(Wei et al., 2022)。在CoT提示的情況下,演示通常格式化為: 查詢:qi,理由:ri,答案:ai其中理由出現在最終答案之前。已有多項研究探討了CoT提示的有效性原因以及如何改進提示和理由(Wang et al., 2022a; Lanham et al., 2023)。

使用檢索演示的上下文學習傳統上,所有查詢都使用相同的少示例演示集,這在查詢之間存在高度變化時可能并不理想。另一種方法是檢索針對當前查詢定制的少示例演示。先前的工作表明,與手工策劃或隨機選擇的演示相比,演示檢索在任務指標上帶來了顯著改進(Luo et al., 2023; Ye et al., 2023a)。此外,當使用檢索的演示時,已經證明大型語言模型(LLMs)對于演示順序等因素(第2.2節)變得不那么敏感(Li et al., 2023)。本節提供了基于檢索的上下文學習(RetICL)的概述。我們首先定義了使用檢索演示的上下文學習。正式地,給定一個查詢q?和一個檢索語料庫C,演示檢索器DR選擇一組演示{d1, . . . , dk} ~ C,其中每個演示為di = (qi, ai)。大型語言模型(LLM)的輸入序列變為(d1, . . . , dk, q?)。檢索器的目標是選擇能最大化正確答案a?概率的演示。RetICL的成功取決于多個因素。本節探討了設計選擇,包括檢索目標、檢索推理策略和檢索語料庫。然后在第4節和第5節中,我們探索了檢索器模型以及如何訓練它們以適應下游任務。

檢索目標:

相似性與多樣性為了選擇和定制適合大型語言模型(LLMs)的上下文示例,已經探索了各種檢索目標(Luo et al., 2023; Rubin et al., 2022; Ye et al., 2023a; Dalvi et al., 2022; Cheng et al., 2023; Li et al., 2023)。選擇演示的兩個主要檢索目標是相似性和多樣性。相似性涉及選擇最類似于查詢的演示,并可基于語言相似性(術語匹配或語義匹配)、結構方面(句子結構、推理結構等)或其他標準。大多數研究關注語言相似性,較少涉及結構相似性,這通常是由于在許多任務中提取查詢結構的挑戰(Levy et al., 2022)。除了相似性,一些工作發現演示的多樣性很重要。多樣性的動機包括避免重復的演示(Zhang et al., 2022b),帶來不同的視角(Yu et al., 2023),以及最大化演示對測試查詢的覆蓋,無論是覆蓋其詞匯還是句法結構(Levy et al., 2022)。衡量多個演示的多樣性是一個主要的技術挑戰。Ye et al. (2023a) 應用了決定性點過程(DPP)這一概率模型來衡量負相互作用(Kulesza et al., 2012),以衡量多樣性。Levy et al. (2022) 發現當模型對輸出符號空間不熟悉時,多樣性和覆蓋是重要的。值得注意的是,研究人員發現,在某些情況下,上下文學習(ICL)更多地從更高復雜性的演示中受益(Fu et al., 2022),其中復雜性是根據查詢長度或推理步驟定義的。然而,Fu et al. (2022) 使用啟發式規則來定義復雜性并相應地預選演示。他們的研究表明,使用基于相似性的檢索器在特定的數學推理任務中提高了性能。這可能表明結合相似性和復雜性考慮可能是增強推理任務方法的一個有前景的策略。

現成演示檢索器為了實現上述檢索目標,研究人員探索了各種類型的演示檢索器。典型的演示檢索器將檢索語料庫中的示例和查詢編碼為一些向量表示,然后計算候選演示嵌入和查詢嵌入之間的相似度度量(例如余弦相似度),以定位最相關的演示。鑒于對檢索演示增強大型語言模型(LLMs)性能的底層機制理解有限,最初的研究工作集中在對這一任務現成可用的檢索器進行啟發式評估。后續研究努力探索了特別為檢索演示而定制的基于學習的檢索器的設計和開發。本節回顧了代表性的現成模型,我們將在第5節討論基于學習的模型。

微調的演示檢索器盡管現成的檢索器在llm的檢索演示中顯示出了一些希望,但現成的檢索器給出的檢索演示可能不能代表任務的性質以及一般應如何解決任務。因此,它可能會導致次優性能。因此,研究人員已經開始探索基于學習的方法,以進一步突破邊界。設計一個好的演示檢索器的典型目標是:如果LLM發現一個演示在用作演示示例時有用,則應該鼓勵檢索器將演示排序更高。這使得我們可以直接依賴感興趣任務中的查詢和輸出對的信號來訓練模型,而無需人工注釋。為了開發演示檢索器,大多數方法利用當前的雙編碼器模型(Karpukhin等人,2020;Ni et al., 2021)。關鍵的變化在于收集訓練數據和制定訓練目標的方法。我們將在后續章節中更詳細地探討這些方面。在這里,我們總結了各種檢索器模型的優點和缺點。現成的檢索器易于使用,無需進行下游任務的微調,通常表現比隨機演示更強大。唯一的例外是在常識推理任務中,Zhang等人(2022b)和Ye等人(2023a)發現對于這些任務,隨機演示始終比檢索方法更好。Cheng等人(2023)還表明,檢索到的演示對常識推理和共指解析任務產生了不利影響。在現成的檢索器的三個類別中,如BM25等稀疏檢索器更具索引效率。這個特性在處理大量演示和有限的硬件內存時特別有價值,使得在這種情況下BM25成為首選。相比之下,基于句子嵌入相似性的方法和基于雙編碼器的檢索系統,這些方法在語言任務上訓練,更擅長捕捉更語義上關注的檢索結果。就性能而言,Luo等人(2023)在5個任務中比較了BM25和雙編碼器(GTR),發現這兩者的平均性能非常相似(在0.5%的差異范圍內),在某些任務中BM25勝過雙編碼器,反之亦然。在另一項研究中,Ye等人(2023a)觀察到了類似的趨勢,強調沒有單一的檢索器在不同任務中始終表現優于其他檢索器。Rubin等人(2022)和Li等人(2023)發現,在語義解析任務中,BM25要優于SBERT,而Li等人(2023)發現,在情感分析任務中,SBERT要優于BM25。然而,經過微調的檢索器在性能上表現出優勢,相對于現成的檢索器。經過微調的檢索器的主要缺點在于獲取訓練數據的成本較高。

此外,采用任務特定的檢索器的常見做法使系統變得復雜,并限制了其通用性。Li等人(2023)提出了訓練通用檢索器的概念,該檢索器在大多數任務上表現優于任務特定的演示檢索器(例如EPR(Rubin等人,2022))。

結論

本調查集中討論了使用檢索到的示例進行少樣本上下文學習(ICL)的方法,這是檢索增強生成(RAG)的關鍵方面。我們概述了各種檢索策略、多樣化的檢索模型、檢索池、訓練演示檢索器的技術以及應用。基于對當前趨勢的全面了解,我們提出了增強這一方法的有效性和功能性的一些有前途的未來發展方向。

付費5元查看完整內容
北京阿比特科技有限公司