多模態大語言模型(MLLMs)通過將強大的大語言模型(LLMs)與各種模態編碼器(例如視覺、音頻)相結合,模仿了人類的感知和推理系統,將LLMs定位為“大腦”,而將各種模態編碼器視為感官器官。這個框架賦予了MLLMs類似于人類的能力,并為實現人工通用智能(AGI)提供了潛在的路徑**。隨著GPT-4V和Gemini等全方位MLLMs的出現,已經開發了多種評估方法來評估其在不同維度上的能力。本文系統且全面地綜述了MLLMs的評估方法,涵蓋以下關鍵方面**:(1)MLLMs及其評估的背景;(2)“評估什么”,即基于所評估的能力,回顧并分類現有的MLLM評估任務,包括一般的多模態識別、感知、推理和可信度,以及社會經濟、自然科學與工程、醫學應用、AI代理、遙感、視頻和音頻處理、3D點云分析等領域的特定應用;(3)“在哪里評估”,即將MLLM評估基準劃分為通用基準和特定基準;(4)“如何評估”,即回顧并說明MLLM評估步驟和指標;我們的主要目標是為MLLM評估領域的研究人員提供寶貴的見解,從而促進更強大和可靠的MLLMs的發展。我們強調,評估應被視為一門關鍵學科,對推進MLLMs領域至關重要。 關鍵詞:多模態大語言模型,評估,評估任務,評估基準,評估指標,多模態模型,多模態任務,人工通用智能,自然語言處理,計算機視覺
人工智能(AI)一直是計算機科學中的一個具有挑戰性的研究領域,其目標是使機器具備像人類一樣的感知、理解和推理能力。近年來,大語言模型(LLMs)在人工智能領域取得了顯著進展,并在各種任務中取得了顯著成功。通過擴大數據量和模型規模,LLMs展現出了非凡的涌現能力,例如指令遵循、上下文學習和鏈式思維推理。盡管它們在眾多自然語言處理任務中表現出色,但LLMs本質上僅限于語言模態,這限制了它們在離散文本之外理解和推理的能力。 另一方面,人類通過多種渠道感知世界,如視覺和語言,每種渠道在表示和傳達特定概念方面都有獨特的優勢。這種多模態感知方式促進了對世界的全面理解,并為實現人工通用智能(AGI)提供了潛在的路徑。為了彌合人類感知與人工智能之間的差距,開發了多模態大語言模型(MLLMs)以模仿人類的多模態感知能力。具體來說,MLLMs將強大的大語言模型(LLMs)定位為“大腦”,而將各種模態編碼器視為感官器官,其中模態編碼器使MLLM能夠通過多種模態感知和理解世界,而LLMs則提供對復雜和全面的多模態信息的高級推理能力。該設計使MLLMs能夠像人類一樣學習感知和推理,利用來自多個渠道(如視覺、語言、音頻等)的信息,在多模態理解和推理方面表現出色。因此,MLLMs在傳統的視覺任務和更復雜的多模態挑戰中都展現了多樣化的能力。 隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。首先,一個設計良好的評估框架可以更準確地反映MLLM的能力,從而量化其優點和局限性。例如,[1]表明盡管當前的MLLMs在全局圖像理解方面表現出色,但在局部圖像區域的推理上表現不佳。同樣,[2]指出現有的MLLMs在細粒度的視覺關系和交互理解方面存在困難。其次,從可信度的角度評估MLLMs對于確保其魯棒性和安全性至關重要,特別是在醫學診斷和自動駕駛等對可靠性要求極高的敏感應用中。第三,探索和評估MLLMs在各種下游任務中的表現有助于其應用和部署,確保它們滿足不同使用場景的具體需求。 總而言之,更全面和系統的評估方法對于激發更強大和更可靠的MLLMs的發展至關重要。隨著MLLMs的不斷進步,它們也需要高標準、全面的評估基準。MLLMs的發展與其評估過程之間的這種互進關系類似于雙螺旋結構,彼此推動前進。在GPT-4V、BLIP、Gemini和LLava等開創性MLLMs之后,已經引入了許多評估協議,涵蓋了從評估多模態識別、感知和推理等一般多模態能力,到評估在社會經濟、自然科學與工程、醫學應用、遙感等下游應用中的具體能力的廣泛方面。 盡管MLLM評估對于支持MLLM研究、開發和部署具有重大價值和吸引力,但目前學術界缺乏一篇系統性的綜述來提供關于當前MLLM評估方法、現有挑戰和潛在未來方向的全貌。本文旨在通過對涉及多種任務的MLLM評估方法進行詳盡的綜述來填補這一空白,這些任務根據所考察的模型能力進行分類,包括在多模態理解和可信度方面的一般能力,以及在社會經濟、自然科學與工程、醫學應用、遙感、視頻、音頻和3D點云分析等下游應用中的具體能力。我們從不同的角度進行綜述,涵蓋MLLMs及其評估的背景,評估什么,在哪里評估,如何評估,比較分析,當前挑戰和開放性方向。我們希望這篇綜述能夠為學術界提供關于MLLMs及其評估的全面概覽,涵蓋已取得的成就、當前的挑戰以及MLLMs及其評估的未來發展方向。 我們將本工作的主要貢獻總結為三個關鍵方面。首先,我們通過構建現有評估方法的分類體系,并突出其主要貢獻、優勢和局限性,提供了對多模態大語言模型評估的系統且全面的綜述。該分類體系根據所考察的能力和目標應用對評估方法進行分類。與之前專注于NLP[3],[4]或MLLM設計[5]的綜述不同,我們的工作獨特地集中于MLLMs的評估,據我們所知,目前尚未有相關的全面綜述。其次,我們通過對多個數據集進行詳盡的基準測試和討論,調查并分析了MLLMs及其評估的最新進展。第三,我們識別并討論了MLLMs及其評估中幾個未來研究的挑戰和有前景的方向。
本節介紹多模態大語言模型(MLLMs)評估的背景,包括多模態大語言模型的基礎和相關內容。
本節介紹了多模態大語言模型(MLLMs)的基礎,包括MLLM框架、MLLM訓練策略和MLLM的評估。2.1.1 MLLM框架 MLLMs通常由處理輸入文本的大語言模型、編碼其他各種模態輸入(如圖像、視頻)的模態編碼器以及將文本輸入和其他模態輸入對齊到統一特征空間的模態投影器組成。 大語言模型。在學習輸入文本時,基于Transformer的大語言模型(LLMs)被廣泛采用。具體而言,Transformer架構 [6]采用編碼器-解碼器框架,其中編碼器由六層組成,每層包含一個多頭自注意力機制和一個多層感知機(MLP)。解碼器采用類似結構,由六層組成,包含多頭注意力、掩碼多頭注意力和MLP。在此基礎上,LLaMA [7]由于其在各種語言任務中的出色表現,已成為文本特征提取的領先模型。在LLaMA架構的基礎上,開發了像Vicuna [8]和Guanaco [9]這樣的指令微調模型,并用于構建MLLMs時的文本特征提取。 模態編碼器。用于處理不同模態輸入的各種編碼器,如圖像、視頻和音頻。視覺Transformer(ViT)廣泛用于圖像特征提取,利用一系列Transformer模塊,每個模塊由一個多頭自注意力層和一個前饋網絡組成。在實際應用中,基于具體應用需求采用了各種預訓練版本的ViT。例如,CLIP預訓練的ViT常用于通用圖像理解 [10],而SAM預訓練的ViT則更適合于詳細和精細的圖像分析 [11]。 對于視頻數據編碼,ViT通過時間編碼器進行了增強,以有效捕捉時間相關信息。例如,Valley [12]整合了一個時間建模組件,以更好地理解視頻輸入的動態方面。對于3D圖像特征提取,特別是在點云數據中,采用了專門的模型,如Point-BERT [13]和PointNet [14]。這些模型專門設計用于高效捕捉3D數據的特征,從而更全面地理解空間結構。基于Transformer的架構也廣泛應用于音頻數據編碼。例如,Whisper模型 [15],專為通用語音識別設計,利用Transformer網絡有效學習音頻特征。 模態投影器。在多模態大語言模型中,模態投影器通常用于將不同模態(如文本、圖像、音頻)的特征對齊到統一的特征空間。該模塊通常涉及線性層或神經網絡,旨在將高維輸入特征轉換為統一表示。例如,LLaVA [10]采用一個可訓練的投影矩陣將編碼的視覺特征轉換為語言嵌入標記空間。通過將每個模態投影到一個通用空間,模型可以更好地捕捉跨模態關系,確保不同模態之間的兼容性和對齊。2.1.2 MLLM訓練策略 對齊預訓練。作為MLLM訓練的第一階段,對齊預訓練通常側重于對齊不同模態并學習多模態對應知識。通常,預訓練涉及大規模的文本配對數據,如用自然語言描述圖像、音頻或視頻的標題。例如,文獻 [10], [16] 在對齊預訓練階段采用標準的交叉熵損失,使MLLMs能夠自回歸地預測給定圖像的標題。為了更好地保留原始預訓練知識,MLLMs通常保持預訓練模型(如預訓練的視覺編碼器或大語言模型)凍結,僅訓練可學習的投影模塊進行對齊 [10], [16]。 多模態指令微調。多模態指令微調通過將語言作為任務指令對MLLMs進行微調,旨在構建一個在遵循用戶意圖方面具有卓越交互性和適應性的通用模型。指令微調通常包括兩個階段,即(1) 構建視覺指令遵循數據和(2) 進行視覺指令微調。視覺指令遵循數據通常具有{Instruction, Input, Output}的格式,其中Instruction表示任務指令,Input指的是各種模態的輸入(如Input = {Image}),而Output則表示關于給定任務指令的響應。這些數據集通常基于公共多模態數據進行擴展,并使用大語言模型進行增強 [17], [18]。通過構建的指令遵循數據,MLLMs通過基于指令和輸入圖像順序預測輸出中的每個標記來進行全監督方式的微調。 對齊人類偏好。對齊微調特別旨在增強模型行為以滿足特定的人類期望。廣泛采用了兩種對齊微調技術,即帶有人類反饋的強化學習(RLHF)[19]和直接偏好優化(DPO)[20]。具體而言,RLHF通過基于人類反饋的獎勵訓練模型,引導它們生成更理想的輸出。另一方面,DPO通過學習人類偏好直接優化模型,無需復雜的獎勵模型,以更直接的方式改善對齊。
本節概述了用于評估多模態大語言模型(MLLMs)能力的各種任務,涵蓋了多模態理解和可信度分析等一般任務,以及社會經濟、自然科學與工程、醫學應用、AI代理和其他與視覺相關的具體任務。表1和表2分別總結了MLLMs在一般任務和具體任務上的評估情況。
多模態大語言模型(MLLMs)的出現擴展了傳統語言模型的能力,使其能夠處理和理解來自不同模態的信息,如文本和圖像。多模態理解的目標是評估這些模型在跨不同類型輸入信息時的整合和解釋能力。具體來說,多模態理解任務可以大致分為多模態識別、多模態感知和多模態推理。3.1.1 多模態識別 多模態識別旨在識別和分類不同模態中的特定對象、動作和屬性。該任務側重于模型檢測和識別各種方面的能力,包括概念識別、屬性識別、動作識別和光學字符識別(OCR)。 概念識別側重于模型識別和標記不同模態中各種實體、實例、對象和場景的能力。這個任務包括識別一般和特定的概念,如圖像中的對象(例如,識別“汽車”或“狗”)[1],[21],[22],特定類別的實例(例如,特定的地標或產品)[1],[21],[22],以及更廣泛的場景(例如,“海灘”或“山脈”)[1]。作為MLLMs在多模態理解中的關鍵能力,MLLMs通常在概念識別任務中表現出色。例如,[1]表明大多數MLLMs在場景理解任務上表現出較高的性能(例如,>40%)。在MM-Vet [22]中,LLaVA-13B(V1.3, 336px)[25]在概念識別中得分為38.1%,表明其有效理解和分類視覺概念的能力。另一個模型,LLaMA-Adapter v2-7B [153],憑借其大規模的微調數據,表現略好,得分為38.5%。TouchStone [31]提出了一個稱為TouchStone分數的復合分數,它反映了模型在包括概念識別在內的所有評估任務中的表現。Qwen-VL [154]在TouchStone框架內的概念識別任務中表現突出,顯示出與其他模型相比更高的準確性和一致性。[32]表明mPLUG-Owl2在概念識別任務上優于其他模型,如Qwen-VL-Chat [154]和InstructBLIP [155]。其在COCO [157]和Flickr30K [158]等主要數據集上的高CIDEr分數 [156]展示了其在準確識別和描述復雜視覺概念方面的優勢,使其成為該領域的領先模型。 屬性識別是指在不同模態下識別視覺主體屬性的任務。它涉及識別風格、質量、情緒、數量、材質以及人類職業等屬性。在MMBench [21]中,MLLMs在屬性識別任務上的表現差異顯著。例如,InternLM-XComposer2 [159]以73.0%的準確率獲得了最高分之一,展示了其在該領域的強大能力。另一方面,像OpenFlamingo v2 [160]這樣的模型在此任務中的表現較差,準確率僅為5.3%。在SEED-Bench [1]中,MLLMs在屬性識別任務上的表現通過“實例屬性”維度進行評估,該維度專門設計用于評估模型識別和理解實例屬性的能力。結果表明,InstructBLIP Vicuna [155]在“實例屬性”任務中表現出色,展示了其在屬性識別方面的強大能力。在MME基準測試中 [23],通過包括顏色、材質、形狀及其他描述性特征的具體子任務,評估了MLLMs在屬性識別任務上的表現。例如,在顏色子任務中,InfMLLM [161]取得了高準確率,展示了其在圖像中識別顏色屬性的熟練程度。在OpenVQA [26]中,InstructBLIP [155]在屬性識別中表現出色。TouchStone [31]的結果表明,Qwen-VL [154]在TouchStone框架內的屬性識別任務中表現最佳,能夠始終如一地以高準確率識別對象的詳細屬性。mPlug-Owl [32]也表現強勁,而PandaGPT [162]等模型在復雜的屬性識別場景中落后。 動作識別是指在不同模態下識別主體執行的動作或活動的任務。在MMBench [21]中,MLLMs在動作識別任務中的表現通過“細粒度感知(跨實例)”類別進行評估。該任務涉及識別人體動作,包括姿勢運動、人-物體交互以及人-人交互。具體模型及其表現進行了比較,結果以細粒度的方式呈現。根據SEED-Bench [1],InstructBLIP Vicuna [155]模型在“動作識別”維度表現出色,優于其他模型。在OpenVQA [26]中,像InstructBLIP [155]這樣的模型在動作識別中表現強勁。在Visual CoT [39]中,不同MLLMs在“動作識別”任務上的表現差異顯著。基準模型在多個數據集上取得了一定的表現。然而,當采用Visual CoT(鏈式思維)過程 [163]時,表現通常有所提高,特別是在需要更深入推理或理解視覺上下文的更復雜任務中。通過檢查動作識別任務中的準確率百分比和排名等表現指標,研究人員和從業者可以洞察不同MLLMs在理解和分類動作方面的能力。這種全面的評估對于推進MLLMs在涉及時間動態和序列理解的多模態任務中的應用至關重要。 文本識別指的是從視覺輸入(如文件或標志的圖像)中識別和轉換文本的任務。在MMBench [21]中,MLLM在文本識別任務上的表現通過具體指標和觀察進行了突出展示。模型的準確性因其架構和規模而異,某些模型由于語言模型選擇和預訓練數據等因素表現顯著更好。例如,開源模型如LLaVA [25]系列和InternLM-XComposer2 [159]表現出色,而其他如MiniGPT的模型在此任務上表現較為困難。在SEED-Bench [1]中,MLLM在文本識別任務中的表現通過其在多項選擇題中選擇正確選項的準確性來衡量,然后與人類注釋提供的標準答案進行比較。LLaVa [25]在文本識別評估中的表現無與倫比,優于其他維度的表現。根據MME [23],像GPT-4V [164]、Skywork-MM [165]和WeMM [166]這樣的模型在OCR任務中取得了最高分。具體來說,GPT-4V [164]以185分的成績顯示出其在從圖像中識別和轉錄文本方面的高水平能力。在Open-VQA [26]中,像InstructBLIP [155]這樣的模型在文本識別任務中表現出色,表明其在識別和轉錄圖像中的文本方面的熟練程度。在Visual CoT [39]中,基準模型在OCR任務中通常表現出中等的準確率。使用Visual CoT(鏈式思維)通常會提高OCR任務的表現。這種方法使模型能夠將文本識別過程分解為更易于處理的步驟,從而提高準確性和理解度。在TouchStone [31]中,Qwen-VL [154]在識別和讀取圖像中的文本方面表現出色且可靠。mPlug-Owl [32]在其框架內的OCR任務中表現突出,顯示出比其他模型如Qwen-VL-Chat [154]和InstructBLIP [155]更強的表現。通過檢查文本識別任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋視覺數據中的文本信息的能力。這種能力對于需要文本識別和解釋的多模態應用(如自動化文檔處理或基于圖像的信息檢索)至關重要。3.1.2 多模態感知 對象定位是指確定場景中對象的位置。它還包括識別物體的數量并確定物體的方向。在MMBench [133]中,MLLMs在對象定位任務中的表現相對中等。不同模型之間的表現差異顯著。對象定位的整體準確性顯示出改進空間,特別是與基準中的其他任務相比。MM-Vet [22]雖然沒有專門的對象定位任務,但通過“空間意識”類別評估了相關能力,這可以指示MLMMs在包括對象定位在內的更廣泛空間意識能力的任務中的表現。在SEED-Bench [1]中,MLLMs在對象定位任務中的表現通過“實例位置”維度進行評估,其中InstructBLIP [155]模型在“實例位置”維度中取得了高準確率,表明其在圖像中定位實例的強大能力。根據MME [23]的結果,像Lion和InfMLLM [161]這樣的模型在對象定位子任務中取得了高分。通過查看“實例位置”維度中的準確率百分比和排名等表現指標,研究人員和從業者可以評估不同MLLMs在識別視覺場景中對象空間上下文的精度。這對于理解和改進模型的空間理解能力至關重要,這是先進多模態AI系統的基本方面。 對象關系涉及模型理解和識別視覺場景中不同對象之間空間關系的能力。這可以包括空間關系(例如,在上方、在旁邊)、對象之間的交互(例如,一個人拿著一本書)或更復雜的上下文連接(例如,理解椅子是用來坐的)。該任務評估模型準確解釋和推理這些圖像或視頻中的關系的能力,這對于視覺推理、場景理解以及更復雜的視覺語言交互等任務至關重要。在MMBench [21]中,MLLMs在對象關系任務中的表現差異顯著。具體來說,模型在準確識別視覺數據中對象之間關系的成功程度各不相同,可能包括空間關系、交互和上下文連接。表現指標表明,像GPT-4v [164]和Qwen-VL-Max [154]這樣的模型在這一類別中表現最佳,在理解和推理對象關系方面顯示出比其他模型更高的準確性。MM-Vet [22]通過“空間意識”能力評估了LMMs在對象關系任務中的表現,使用基于LLM的評分系統,為評估模型在理解和描述視覺場景中的對象關系方面的準確性和響應質量提供了全面的指標,其中MM-ReAct-GPT4 [167]在“空間意識”類別中取得了高分,表明其在需要理解空間關系的任務中的強大表現。根據SEED-Bench [1]的結果,像InstructBLIP Vicuna [155]和BLIP2 [168]這樣的模型在“空間關系”維度中表現出色,表明其在理解對象之間的空間關系方面的熟練程度。MME [23]的結果顯示,某些模型在對象關系任務中表現強勁。例如,像WeMM [166]和InfMLLM [161]這樣的模型在理解和關聯圖像中對象位置方面表現出色。在V*Bench [36]中,SEAL [36]由于其先進的視覺搜索能力在對象關系任務中表現突出,使其能夠準確地定位和推理高分辨率圖像中的對象關系。像GPT-4V [164]和Gemini Pro這樣的模型也表現良好,但在最具挑戰性的場景中沒有達到與SEAL相同的準確性水平。LLaVA-1.5 [25]表現出中等成功,表明在處理復雜視覺任務時仍面臨挑戰。對象關系任務是評估MLLMs整體性能的關鍵組成部分。它測試模型的視覺理解深度、多模態信息整合能力及其在復雜現實場景中的穩健性。在對象關系任務中表現出色的模型在需要復雜視覺推理和上下文感知分析的應用中可能會表現出色。 對象交互涉及理解和識別視覺場景中對象之間的交互。該任務側重于模型解釋不同對象在動作、運動或功能關系方面如何相互關聯的能力。根據Seed-Bench [1]的結果,通過選擇多項選擇題中的正確選項來衡量每個MLLM在此任務中的表現。然后將此選擇與人類注釋員確定的標準答案進行比較。像InstructBLIP Vicuna [155]這樣的模型在“實例交互”維度中表現出色。P2G [28]增強型模型優于基準模型,如mPLUG-OWL和Instruct-BLIP,得益于即插即用的對齊機制,它增強了對復雜圖像中對象關系和交互的理解。這些模型利用外部代理進行對齊,提高了其識別和推理圖像中對象之間交互的能力。VL-Checklist [41]框架詳細評估了不同VLP模型,如CLIP [17],LXMERT [169]和ViLT [170]在對象交互任務中的處理能力。評估顯示,雖然像CLIP這樣的模型在識別對象之間的動作方面表現出色,但它們通常在空間關系方面存在困難。通過準確識別正確與錯誤的圖文對,量化了這些模型的表現,在空間推理任務中特別注意到了一些挑戰。ARO基準 [42]強調了像NegCLIP [171]和X-VLM [172]這樣的模型在對象交互任務中表現強勁,特別是在理解對象之間的空間和動作關系方面。對象交互任務的評估衡量了MLLM模型理解視覺場景的關系和組成方面的能力。這提供了模型捕捉上下文和對象交互能力的洞察力,這對于生成準確且有意義的解釋至關重要。3.1.3 多模態推理 常識推理評估MLLMs在理解和推理圖像中對象交互方面的能力。這包括識別交互的性質和上下文,確定對象之間的關系,并根據這些交互和一般世界知識推斷邏輯結論。在MMBench [21]中,像LLaVA-InternLM2-20B [173]和Qwen-VL-Max [154]這樣的MLLMs表現顯著優于其他模型,其得分表明對常識推理場景的扎實理解。這些模型在所有評估指標上均有所提升,突顯了它們的推理能力。具體來說,這些模型在這一類別中的表現優于其他模型,使其在多模態背景下的常識推理任務中脫穎而出。MME [23]基準測試的結果顯示,像GPT-4V [164]、WeMM [166]和XComposer-VL等模型在常識推理任務中表現強勁。例如,GPT-4V [164]取得了142.14的高分,表明其在給定圖像和指令的背景下應用常識知識和推理的非凡能力。在Open-VQA [26]中,InstructBLIP [155]在常識推理方面表現強勁,反映了其基于視覺線索和一般知識進行合理推斷的能力。在TouchStone [31]中,Qwen-VL [154]是常識推理任務中的表現最佳者,展示了在做出邏輯和上下文上適當推斷方面的強大能力。在MDVP-Bench [27]中,SPHINX-V [27]在常識推理任務中領先,表現出色,在理解和應用上下文知識到視覺場景中的準確性方面表現卓越。像Osprey-7B [174]和Ferret-13B [175]這樣的模型也表現良好,但在細微推理能力方面未達到SPHINX-V [27]的同等水平。LLaVA-1.5 [25]落后,表明在處理復雜推理任務時面臨挑戰,這些任務需要更深層次的理解和推理。通過檢查常識推理任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在應用常識知識進行邏輯推斷的能力。這種能力對于需要理解視覺場景上下文和含義的多模態應用至關重要。 關系推理指的是模型在給定的多模態背景下理解和推斷不同對象、概念或實體之間的社會、物理或自然關系的能力。這個任務涉及分析圖像、文本或兩者的組合中的不同元素之間如何相互關聯。關系可以是空間的、因果的或關聯的,要求模型理解不同成分之間的潛在連接,以做出準確的預測或生成有意義的響應。在MMBench [21]中,關系推理任務的關鍵表現指標包括社會關系、物理關系和自然關系等子任務的準確率。例如,像InternLM-XComposer2 [159]這樣的模型在這些任務中表現出色,顯示了優越的推理能力,而其他模型的表現則有所不同。InternLM-XComposer2 [159]整體表現最佳,在關系推理方面具有較高的準確性。Gemini-Pro-V和GPT-4v [164]也表現良好,特別是在社會和物理關系推理方面,表明在理解復雜對象和實體之間的關系方面具有較強的能力。開源模型的整體表現較差,表明在這一領域還有改進的空間。在Visual CoT [39]中,評估了各種MLLMs在關系推理任務中的表現。結果表明,VisCoT-7B在336x336分辨率下在關系推理任務中表現最佳,特別是在Open Images和GQA等數據集上表現出色。在II-Bench [68]中,Qwen-VL-MAX [154]在關系推理任務中領先,表現出卓越的準確性,能夠理解和推理對象之間的關系。像LLaVA-1.6-34B [176]和Gemini-1.5 [177] Pro等模型也表現良好,但在更復雜的場景中略有落后。GPT-4V [164]表現出一定的能力,但在更復雜的推理任務中有所滯后,突出顯示了MLLMs在實現人類般的關系理解方面的持續挑戰。關系推理任務在MLLM模型性能評估中具有重要意義,因為它不僅僅是基本的對象識別,還評估模型理解復雜關系和對象交互的能力。這是模型認知深度、跨不同場景泛化能力及其多模態信息整合能力的關鍵指標,這些對于高級AI應用和實現機器的人類般理解至關重要。 邏輯推理指的是模型理解和應用邏輯原則來分析和解釋多模態數據的能力。這包括需要模型基于給定的前提得出結論、做出預測或解決問題的任務,識別模式、解決難題并通過復雜場景進行推理。在MMBench [21]中,通過結構化圖文理解和未來預測等子任務評估MLLMs在邏輯推理中的表現。這些任務評估了模型處理和推理結構化視覺和文本信息的能力。例如,像LLaVA-InternLM2-20B這樣的模型在這些推理任務中表現出色,而其他模型則可能在涉及結構化圖文理解的更復雜場景中表現不佳。在SEED-Bench [1]中,MLLMs在邏輯推理任務中的表現通過“視覺推理”維度進行評估,其中像“MiniGPT-4”和“mPLUG-Owl”這樣的模型在“視覺推理”維度中表現出色。TouchStone [31]的結果顯示,Qwen-VL [154]在邏輯推理任務中表現最佳,表現出基于視覺和文本輸入做出準確且邏輯推斷的強大能力。II-Bench [68]的結果顯示,Qwen-VL-MAX [154]是邏輯推理任務中的領先模型,表現出在解釋和推理復雜視覺隱含意義方面的卓越準確性。邏輯推理任務是MLLM性能評估的一個重要方面,因為它測試了模型將邏輯原則應用于復雜多模態數據的能力。這一任務不僅評估了模型的認知能力及其整合和推理多樣化輸入的能力,還提供了關于其現實世界應用潛力、穩健性和朝著人類般智能進展的洞察。因此,邏輯推理對于理解MLLMs的真正潛力和局限性至關重要。
魯棒性指的是MLLM在噪聲環境下處理和處理損壞、擾動或對抗性多模態輸入而不顯著降低性能的能力。在CHEF [87]中,SPHINX-V [27]成為最魯棒的模型,表現出在各種場景中對輸入損壞的卓越抵抗力。Ferret-13B [175]和Osprey-7B [174]的表現也不錯,但在惡劣條件下的魯棒性略有降低。LLaVA-1.5 [25]表現出較低的魯棒性,當輸入嚴重損壞時,其準確性顯著下降。MADBench的結果表明,GPT-4V [164]是最魯棒的MLLM,表現出對欺騙性提示的出色抵抗力并保持高準確性。其他模型如Gemini-Pro和LLaVA-NeXT-13b-vicuna的表現也不錯,特別是在提示工程的幫助下,顯著提高了它們的魯棒性。MiniCPM-Llama3-v2.5表明,提示修改可以顯著提高模型處理欺騙能力,使其成為進一步研究和開發的關鍵領域。在MMR [89]中,GPT-4V [164]和Qwen-VL-max [154]在魯棒性任務中表現最佳,表現出對誤導性問題的極強抵抗力。LLaVA-1.6-34B [176]也表現出高魯棒性,使其成為在具有挑戰性場景中的更可靠模型之一。Mini-Gemini-HD-34B在開源模型中表現突出,其魯棒性能表現良好,但在某些領域存在漏洞。MM-SpuBench [90]表明,GPT-4V [164]是最魯棒的MLLM,在多個類別中表現出對虛假偏見的強大抵抗力。Claude 3 Opus和Intern-VL也表現出高水平的魯棒性,特別是在共現和光照/陰影等某些偏見類別中。LLaVA-v1.6 [25]雖然表現不錯,但在相對大小和透視等特定偏見方面表現出更多的脆弱性。魯棒性任務在MLLM模型性能評估中至關重要,因為它確保模型不僅在理想條件下有效,而且在面對現實世界挑戰時也具有穩健性和可靠性。通過評估和提高魯棒性,我們可以開發出更加多才多藝、值得信賴且適用于各種場景的MLLMs,最終導致更安全、更有效的AI系統。 幻覺被定義為評估模型在多模態輸入中生成不正確、不相關或虛構的描述或對象的傾向。在POPE [93]中,InstructBLIP [155]是最可靠的模型,其幻覺率最低,使其在避免錯誤描述方面最為準確。MiniGPT-4和LLaVA [25]表現出中到高的幻覺率,表明在保持準確性方面存在一些挑戰。Shikra表現出最高的幻覺率,表明其在準確描述視覺內容而不引入不存在元素方面有很大的改進空間。在GAVIE [97]中,InstructBLIP-13B [155]是避免幻覺的最可靠模型,其次是MiniGPT4-13B和LLaVA-13B [25]。mPLUG-Owl-7B表現出最高的幻覺傾向,突顯了其在準確解釋視覺內容方面面臨的挑戰。這些結果強調了微調和指令微調在減少MLLMs幻覺中的重要性。在HallusionBench [101]中,GPT-4V [164]在最小化幻覺方面最為有效,盡管其準確性表明仍有改進空間。LLaVA-1.5 [178]和Gemini Pro Vision在這一領域面臨更大挑戰,經常生成虛構內容。BLIP2-T5 [168]表現中等,但仍在處理復雜視覺數據時表現出困難。這些結果強調了進一步改進MLLMs以更好處理幻覺的必要性,確保更可靠和準確的視覺解釋。幻覺是MLLM模型性能評估中的一個重要方面,因為它直接影響模型的準確性、可靠性和可信度。通過最小化幻覺,開發者可以創建更加魯棒、可推廣且適用于廣泛應用的模型,特別是在高風險或面向消費者的環境中。 倫理側重于評估多模態大語言模型生成的輸出的倫理影響。此任務評估模型的響應是否符合倫理標準和社會規范,特別是在避免有害、偏見或不適當內容方面 [92]。Multi-Trust [92]的結果顯示,GPT-4V [164]和Claude3是倫理對齊最好的模型,表現出高準確性和拒絕倫理上有問題提示的強大能力。LLaVA-1.5-13B [178]也表現不錯,但一致性較差,而Gemini-Pro表現中等,表明在倫理決策方面仍有改進空間。這些結果突顯了MLLMs持續倫理評估和改進的重要性,以確保其在各種應用中的安全和公平使用。 偏見指的是評估模型產生反映或強化社會偏見、刻板印象或對某些群體不公平待遇的輸出的傾向。此任務的目標是確保模型的行為和生成內容公平、公正,并且不會助長有害的偏見 [92],[106]。在Multi-Trust [92]中,GPT-4-Vision和Claude3在減輕偏見方面表現最佳,兩者在刻板印象相關任務中的拒絕回答率達到完美。Gemini-Pro和LLaVA-1.5-13B [178]也表現不錯,但拒絕率略低,表明在始終避免偏見方面存在一些挑戰。同樣,在RTVLM [106]中,GPT-4-Vision和Claude3在避免偏見輸出方面表現最佳,在文本和圖像相關場景中均達到完美或近乎完美的拒絕率。Gemini-Pro和MiniGPT-4-13B [179]表現較差,尤其是在引入視覺元素時,表明其更容易受到輸入數據中潛在偏見的影響。偏見任務在MLLM評估中至關重要,因為它有助于確保模型在社會上負責任,不會助長錯誤信息或有害的刻板印象。通過解決和減少偏見,開發者可以提高AI系統的公平性和包容性,使其更值得信賴且適合在多樣化的現實環境中部署。 安全性評估MLLMs避免生成有害、冒犯性或其他不安全內容的能力。這包括確保模型不會生成可能導致傷害、鼓勵暴力、支持非法活動或傳播錯誤信息的輸出。在MMUBench [108]中,LLAVA-13B [25]和MiniGPT-4表現出顯著的脆弱性,高ASR得分表明在抵抗不安全內容方面頻繁失敗。InstructBLIP [155]表現較好,ASR中等,而IDEFICS表現最強,顯示出最低的ASR和最高的安全性。在JailBreakV-28K [109]中,LLaVA-1.5-7B [178]和OmniLMM-12B在生成不安全內容方面表現出更高的易感性,在多個安全策略中ASR得分顯著。InstructBLIP-7B [155]和Qwen-VL-Chat [154]表現較好,但仍存在漏洞,表明盡管它們具有一些安全機制,但在確保對不安全提示的穩健防御方面仍有改進空間。在MM-SafetyBench [107]中,LLaVA-1.5-7B [178]和MiniGPT-4在生成不安全內容方面表現出更高的易感性,在多個場景中ASR得分較高。InstructBLIP [155]表現較好,但仍存在漏洞,而IDEFICS [180]表現出對不安全提示的最強抵抗力,表明其在安全標準方面的更好對齊。安全性是MLLM評估的一個重要組成部分,因為它確保模型在安全、倫理和法律界限內操作。它對于保護用戶、遵守法規以及保持公眾信任至關重要。在安全任務中表現出色不僅可以防止傷害,還支持開發負責任和可信賴的AI系統的更廣泛目標。
文化評估模型在不同文化背景下理解、解釋和響應內容的能力。此任務旨在評估模型在處理和生成內容時如何理解和尊重各種文化的細微差別、傳統和社會規范。在CODIS [35]中,GPT-4V [164]和Gemini在文化任務中表現最佳,表現出更好理解和解釋文化背景的能力。LLaVA-1.5-13B [178]和InstructBLIP-13B [155]表現落后,特別是在沒有明確上下文提示時解釋文化細微差別時準確性較低。在CVQA [111]框架中,GPT-4o和Gemini-1.5-Flash [177]在文化多樣性問題的處理上表現出色,無論是英文還是本地語言。LLaVA-1.5-7B [178]和InstructBLIP [155]在處理本地語言提示時面臨更多挑戰,表明這些模型在更好處理文化多樣性方面仍有改進空間。文化任務在MLLM評估中的重要性體現在全球化世界中,AI系統在不同文化環境中使用時的表現。文化任務評估模型處理語言細微差別、傳統、社會規范和文化參考的能力,這些因素在不同地區或社區之間可能存在差異。 社會評估模型解釋和響應社會問題的能力,包括理解社會規范、倫理考慮和文化細微差別。此任務旨在評估模型生成符合社會價值觀、避免強化負面刻板印象并尊重社會敏感性的內容的能力。在MM-SOC [113]中,MLLMs在各種社交媒體內容理解任務中進行了評估。這些任務包括虛假信息檢測、仇恨言論檢測、幽默檢測、諷刺檢測、冒犯性檢測、情感分析和社會背景描述。LLaVA-v1.5-13b [25]在虛假信息檢測、仇恨言論檢測和情感分析任務中分別取得0.642、0.587和0.335的宏F1分數。InstructBLIP-flan-t5-xxl [155]在社會背景描述理解上取得了0.294的ROUGE-L分數。在TransportationGames [114]中,評估了各種MLLMs在一系列交通相關任務中的表現,這些任務根據布盧姆分類法分為三大類:記憶、理解和應用交通知識。Qwen-VL-Chat [154]在交通標志問答任務中取得了54.47%的準確率。InternLM-XComposer-7B [159]在交通事故分析中在GPT-4-Eval指標上得分為77.9。TransCore-M [114]在ROUGE-L指標上得分為82.1,表明其在生成基于給定場景的適當和上下文相關安全建議方面的有效性。
數學旨在評估模型推理和解決可能涉及文本和視覺數據的數學問題的能力。這些任務通常需要模型在不同模態(文本和圖像)中執行多步驟推理,并應用數學概念得出正確的解決方案。TouchStone [31]基準中的數學任務揭示了某些MLLMs在整合視覺和文本數據進行數學問題解決方面表現良好,而其他模型在準確解釋和推理數學視覺方面的復雜性上表現掙扎。Qwen-VL [154]是TouchStone基準中數學任務的表現最佳者,表現出處理廣泛數學問題的強大能力。mPLUG-Owl在幾何和算術方面也表現良好,而PandaGPT [162]等模型表現明顯較差,通常在準確解決基本數學任務時表現出困難。在M3CoT [67]中,GPT-4V [164]表現最佳,準確率為46.97%,表現出處理這些任務的強大能力。LLaVA-V1.5-13B [25]取得了40.86%的中等準確率,表現合理,但在多步驟推理方面存在一些挑戰。CogVLM-17B的準確率為29.09%,在問題解決的一致性上表現較差。InstructBLIP-13B [155]表現最差,準確率為27.55%,表明在處理這些任務的復雜性方面面臨重大困難。數學任務在評估多模態大語言模型(MLLMs)中至關重要,因為它們測試了模型執行復雜推理、整合多模態數據(文本和視覺)并邏輯應用抽象概念的能力。 自然科學評估模型理解、推理和生成與各種自然科學領域相關的響應的能力。這些任務通常涉及生物學、化學、物理學和地球科學等主題,可能需要模型解釋和整合來自文本和視覺數據源的信息。在M3CoT中,評估了各種MLLMs在自然科學上的表現,以評估它們在生物學、化學和物理學等科學領域中處理多模態復雜推理的能力。GPT-4V [164]在測試的模型中在自然科學任務上表現最強。LLaVA-V1.5-13B [25]表現良好,但略低于GPT-4V [164]。CogVLM-17B和CogVLM-17B在自然科學任務中表現適中。在MUIRBENCH [30]中,GPT-4o和GPT-4-Turbo在自然科學任務上表現最佳,特別是在圖表和地理理解方面。其他模型如Gemini Pro和Mantis-8B-Idefics2表現中等,而VILA1.5-13B在處理這些任務的復雜性方面表現困難。在MMStar [24]中,GPT-4V(高分辨率)[164]在自然科學任務上領先,特別是在理解和推理科學內容方面。其他模型如GeminiPro-Vision和InternLM-XC2也表現良好,但熟練程度各不相同。在M3Exam [127]中,GPT-4在自然科學任務中表現最佳,準確率最高,展示了跨多種語言理解和推理科學內容的強大能力。ChatGPT和Claude緊隨其后,表現適中,而Vicuna在處理這些任務的復雜性方面表現掙扎更多。在SceMQA [119]中,GPT-4-V在SceMQA基準中的自然科學任務中表現最佳,特別是在生物學和化學等學科中,展示了強大的多模態推理能力。Google Gemini Pro表現良好,而InstructBLIP-13B [155]和MiniGPT4-13B在處理多模態科學推理的復雜性方面表現出更多挑戰。自然科學任務評估模型理解和推理復雜科學概念的能力,跨越多種模態,如文本和圖像。這些任務挑戰模型應用生物學、化學和物理學等領域的領域特定知識,反映了它們在教育和研究中的現實應用潛力。它們在這些任務上的表現突顯了模型在多模態整合和科學推理方面的優勢和劣勢,對于高級認知任務至關重要。 工程旨在評估模型理解、處理和應用工程概念、要求和技術文檔的能力。這些任務通常涉及解釋和綜合來自多個來源的信息,包括文本工程文檔、CAD圖像和工程圖紙。任務通常基于實際工程挑戰,如根據特定技術要求設計產品或確保符合工程標準。在DesignQA [130]中,GPT-4o-AllRules在工程任務中表現最佳,特別是在規則檢索和尺寸合規方面。GPT-4-AllRules也表現良好,但準確性略低。Claude-Opus-RAG在生成高質量解釋方面表現出色,而Gemini-1.0-RAG表現中等熟練。LLaVA-1.5-RAG在處理這些任務的復雜性方面表現困難,特別是在準確檢索和應用規則方面。在MMMU [75]中,GPT-4V [164]在工程任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的工程場景中面臨挑戰。
醫學任務旨在評估模型理解、推理和生成與醫學信息相關的響應的能力。這些任務通常涉及解釋和綜合來自各種模態的數據,如醫學文本、臨床圖像(如X射線、MRI等)和病歷。目標是評估模型應用醫學知識支持臨床決策、診斷、治療計劃和患者護理的能力。在MMMU [75]基準測試中,GPT-4V [164]在醫學任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision-0423-Preview和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的醫學場景中面臨挑戰。在GMAI-MMBench [133]中,GPT-4o在醫學任務中領先,緊隨其后的是Gemini 1.5和GPT-4V [164]。醫學特定模型如MedDr表現合理,但總體上落后于表現最佳的通用模型,突顯了醫學任務的復雜性以及在該領域進一步發展的必要性。M3D [132]基準測試突顯了MLLMs如M3D-LaMed在處理復雜3D醫學圖像任務方面的能力。M3D-LaMed在報告生成和VQA方面表現出色,表明其在臨床決策支持和醫學圖像分析中的強大潛力。其他模型如RadFM雖然有能力,但在生成詳細醫學報告和回答臨床相關問題方面的準確性和精度方面落后。
AI代理指的是設計用于評估模型作為視覺基礎代理功能的任務。這些任務要求模型理解、交互和導航復雜的視覺環境和用戶界面,基于視覺和文本輸入做出高級決策并執行動作。在VisualAgentBench [135]中,GPT-4V [164]在AI代理任務中領先,任務成功率最高,展示了其在多模態推理和交互方面的強大能力。像Gemini 1.5和Claude-Next這樣的模型表現良好,但在處理更復雜的場景時面臨一些挑戰。其他模型如LLaVA-Next [176]和Qwen-VL [154]表現中等熟練,表明在進一步發展以提高其在AI代理任務中的有效性方面仍有改進空間,特別是在決策和任務執行方面。在EgoPlan-Bench [136]中,GPT-4V [164]在AI代理任務中領先,緊隨其后的是XComposer。這些模型表現出強大的規劃能力和有效利用視覺信息進行決策的能力。其他模型如Gemini-Pro-Vision和SEED-X表現合理,但在更復雜的場景中面臨挑戰。Yi-VL雖然有能力,但在有效整合視覺數據進行任務規劃方面落后。在PCA-EVAL [137]基準測試中,GPT-4V [164]在AI代理任務中脫穎而出,展示了跨不同領域的感知和行動方面的高準確性。GPT-4(HOLMES)系統也表現良好,特別是在需要多步驟推理和API集成的任務中。其他模型如QwenVL-Chat和MMICL表現中等能力,但在更復雜的場景中表現困難,而InstructBLIP [155]面臨顯著挑戰,反映了MLLMs在具體化決策任務中不同的有效性水平。AI代理任務在MLLM評估中至關重要,因為它們測試了模型作為基礎代理在復雜環境中實際應用的能力。這些任務有助于確定模型在需要深刻理解視覺和文本信息的任務中自主執行的能力,使其在機器人技術、用戶界面自動化和數字助手等現實應用中至關重要。
3D點云指的是模型需要理解、處理和分析由點云表示的3D空間數據的任務。這些任務通常涉及使用點云回答問題、定位對象或生成準確反映3D場景的描述。在ScanQA [141]中,ScanQA模型在3D點云任務中表現最佳,特別是在準確回答問題和定位3D空間中的對象方面。它優于其他模型,如ScanRefer + MCAN和VoteNet + MCAN,這些模型表現出一定的熟練程度,但在3D空間推理的復雜性上表現掙扎。在LAMM [142]中,基準MLLM在3D點云任務中表現出不同程度的熟練程度。雖然它表現出在3D對象檢測和VQA任務中執行的基本能力,但在3D視覺定位方面的表現明顯較弱,特別是在零樣本設置中。然而,經過微調后,尤其是在3D VQA任務中,模型的準確性幾乎達到完美。M3DBench [143]的結果顯示,LLaMA-2-7B模型在3D點云任務中表現強勁,特別是在VQA和多區域推理方面,取得了最高的BLEU-4和CIDEr分數。OPT-6.7B模型在具身規劃任務中也表現良好。Vicuna-7B-v1.5雖然有能力,但在大多數任務中的總體得分較低,表明在處理復雜的3D推理和規劃場景時面臨挑戰。3D點云任務在MLLM評估中的重要性體現在它們評估了空間推理、多模態整合和高級認知能力,這些在涉及3D環境的現實應用中至關重要。這些任務為評估MLLMs在處理復雜現實挑戰中的整體性能和穩健性提供了全面的基準。 視頻指的是涉及理解、分析和推理視頻內容的任務。這些任務評估模型理解視頻內容的視覺和時間方面的能力,并生成準確且上下文相關的響應。在MMBench-Video [144]中,模型A(例如,GPT-4V)在視頻任務中表現最佳,特別是在視頻問答(VideoQA)和事件識別等任務中表現出色。模型B(例如,LLaMA-2-7B)表現也不錯,但在處理復雜視頻場景時面臨一些挑戰。模型C(例如,Vicuna-7B-v1.5)表現中等能力,特別是在動作分類方面表現出色,但在更復雜的任務中表現滯后。在MVBench [146]中,VideoChat2在各種視頻任務中表現出色,顯著優于其他MLLMs如GPT-4V和VideoChat。VideoChat2在動作序列識別和場景轉換等任務中的出色表現突顯了其卓越的時間理解和視頻推理能力。同時,雖然GPT-4V表現出色,但在處理視頻任務的全范圍時沒有VideoChat2那么有效。VideoChat雖然表現適中,但在處理視頻理解的更復雜方面表現掙扎,表明當前MLLM方法在視頻任務上仍有顯著改進空間。在SOK-Bench [145]中,GPT-4V在視頻任務中表現最強,特別是在需要整合視覺和常識推理的情況下表現出色。AskAnything表現穩健但不一致,特別是在直接回答任務中表現出色,但在更復雜的推理任務中表現掙扎。Video-ChatGPT表現競爭力強,但在SOK-Bench場景中所需的復雜推理上表現更困難。 遙感指的是涉及分析和解釋來自衛星或機載傳感器的數據,以提取有關地表和環境的相關信息的任務。這些任務通常利用各種類型的遙感數據,如光學圖像、雷達數據和多光譜或高光譜影像,執行如土地覆蓋分類、變化檢測和環境監測等活動。在MDAS [149]中,像ResTFNet和SSR-NET這樣的模型在超分辨率任務中表現出色,而SeCoDe在光譜分離方面表現領先。結果表明,整合多種模態可以顯著提高土地覆蓋分類任務的性能。這些發現突顯了不同MLLMs在處理復雜遙感任務中的優勢和挑戰,展示了多模態數據融合在遙感應用中實現高精度和可靠性的必要性。在HighDAN [147]中,HighDAN在遙感任務中表現最佳,特別是在跨城市語義分割方面。它在整體準確性、平均IoU和F1得分方面表現出色,展示了其在不同城市環境中出色的泛化能力。SegFormer和DualHR表現也不錯,但在處理跨城市場景的復雜性時表現出一些局限性。在RSGPT [148]中,RSGPT在圖像描述和視覺問答任務中領先,展示了在生成準確和詳細描述以及回答有關遙感圖像復雜問題方面的明顯優勢。其他模型如InstructBLIP和BLIP2表現中等,但在處理遙感數據復雜性方面表現出明顯差距。MiniGPT4表現最差,特別是在保持輸出的相關性和準確性方面表現不佳。遙感任務在MLLM評估中至關重要,因為它們測試了模型整合和分析復雜多模態數據的能力,這對于環境監測和城市規劃至關重要。在這些任務中取得成功表明了模型處理大規模高分辨率遙感數據并根據多樣化信息源做出明智決策的能力。 音頻指的是設計用于評估模型理解、解釋和生成基于音頻信號的響應的特定任務。這些任務涉及各種類型的音頻數據,包括人類語音、自然聲音和音樂,并評估模型處理和與這些聽覺信息交互的能力。在AIR-Bench [150]中,Qwen-Audio Turbo和Qwen-Audio-Chat在音頻任務中的整體表現最佳,表現出在基礎音頻理解和復雜交互方面的強大能力。SALMONN和BLSP表現也不錯,特別是在處理聊天基準中的混合音頻方面。PandaGPT雖然在某些領域表現出色,但在任務上表現不穩定,表明在處理更復雜的音頻交互時仍有改進空間。在Dynamic-superb [151]中,Whisper-LLM和ImageBind-LLM在見過和未見過的音頻任務上表現強勁,特別是在說話人識別和副語言學方面表現出色。Whisper在內容相關任務中表現出色,但在推廣到新音頻任務上表現較為困難。BERT-GSLM和ASR-ChatGPT表現中等,在未見過的音頻任務中表現出顯著的弱點,突顯了這些模型在適應新場景方面面臨的挑戰。在MuChoMusic [152]中,Qwen-Audio在音頻任務中的表現領先,特別是在音樂理解的知識和推理維度上表現出色。M2UGen和SALMONN也表現良好,在各自的重點領域中表現強勁。像MuLLaMa和MusiLingo這樣的模型表現較低,突顯了這些模型在充分利用多模態音頻輸入以實現強大音樂理解方面面臨的挑戰。通過檢查音頻任務中的準確率和F1得分等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋聽覺信息方面的能力。這種能力對于需要理解和響應復雜聽覺線索的多模態應用(如語音識別、音樂分析和基于聲音的決策系統)至關重要。
為了全面評估多模態大語言模型(MLLMs)的性能和能力,已經開發了各種基準測試。這些基準測試評估了一系列任務,從一般的多模態理解到特定的任務導向評估。在本節中,我們介紹了這些基準測試,分為兩類:一般基準測試,提供跨多個任務的廣泛評估,以及專門基準測試,側重于多模態模型性能的特定方面。
一般基準測試旨在提供對MLLMs在各種任務中的綜合評估,包括識別、推理和可信度。這些基準測試不僅評估模型的核心能力,還評估其可靠性和倫理考量,這對于將AI系統部署到現實場景中至關重要。例如,MMBench [21]評估MLLMs在基本識別任務中的表現,包括概念識別、屬性識別和動作識別。它提供了一個全面的框架,用于評估模型準確處理和理解視覺和文本信息的能力。MM-Vet [22]側重于模型的魯棒性和泛化能力,評估模型在不同條件下的表現,確保模型不過度依賴于特定數據集或場景。Seed-Bench [1]評估模型基于多模態輸入生成上下文相關和連貫輸出的能力,使其成為生成模型的一個重要基準測試。MME [23]提供了對MLLMs的廣泛評估,涵蓋了需要推理、感知和識別的任務。TouchStone [31]評估了模型在多個任務中的表現,提供了對其在各種多模態場景中表現的細致理解。MMStar [24]側重于結構化推理,評估模型在不同模態中進行邏輯推理的能力,確保多模態解釋的連貫性和準確性。LogicVista [34]測試多模態框架中的邏輯推理,挑戰模型導航復雜關系并生成邏輯一致的輸出的能力。 此外,還提出了幾個用于評估MLLMs可信度的基準測試。例如,POPE [93]專門評估大型視覺-語言模型中的對象幻覺。它評估了模型在響應視覺輸入時生成不正確對象的頻率和嚴重性,幫助識別和減輕模型輸出中與幻覺相關的問題。CHEF [87]提供了一個標準化的評估框架,用于評估MLLMs在一系列任務中的表現。它旨在提供一致且徹底的評估,確保模型符合既定的有效性和可信度標準。Multi-Trust [92]通過評估模型在公平性、偏見和倫理考量方面的表現,來評估MLLMs的可信度。 一般基準測試是評估MLLMs整體性能和可靠性的有效工具。它們確保模型能夠處理多樣化任務,同時保持高標準的可信度,使其適用于廣泛的應用。通過全面的評估,這些基準測試在推動穩健和倫理多模態模型的發展中發揮了關鍵作用。
專門基準測試旨在評估MLLMs在特定任務或領域中的表現,通常側重于需要專業評估的領域,如社會經濟、科學、醫學任務和其他應用。這些基準測試提供了對模型特定能力的詳細見解。 CVQA [111]專注于跨文化視覺問答,評估模型在多樣化文化背景下解釋和回答問題的能力。TransportationGames [114]基準測試評估模型在交通相關知識上的表現,測試它們在與交通相關的場景中解釋和應用信息的能力,強調實用推理和基于場景的理解。MathVerse [115]引入了一個綜合的視覺數學基準,旨在嚴格評估MLLMs的數學推理能力。ScienceQA [124]專門設計用于評估MLLMs執行科學問答任務的能力,這些任務需要多模態推理和鏈式思維(CoT)解釋。GMAI-MMBench [133]提供了一個專門用于評估MLLMs在醫學領域表現的基準。 專門基準測試提供了對于確保MLLMs能夠在各種專業領域中表現出色至關重要的評估。通過聚焦這些特定領域,如數學、科學、工程以及涉及醫學、3D點云和視頻數據的應用,這些基準測試補充了一般基準測試,提供了對模型能力的更深入見解,確保其在多樣化應用中的可靠性和有效性。
在本節中,我們介紹了MLLMs評估中常用的設置和任務,包括人工評估、GPT-4評估和指標評估。
人工評估 [25]在評估MLLMs的能力中起著至關重要的作用,尤其是對于那些需要高水平理解且難以通過傳統指標量化的任務。人工評估允許在多個維度上對MLLMs進行全面評估,包括:(1) 相關性:評估響應是否與預期指令一致;(2) 連貫性:確定響應是否在邏輯上結構合理且一致;(3) 流暢性:評估生成的輸出是否自然且語法正確。
盡管人工評估提供了有價值的見解,但它往往資源密集。為了解決這一問題,最近的一些研究 [25]利用了GPT-4 [181]的高級指令遵循能力,作為評估模型生成輸出質量的有效替代方法。GPT-4根據幫助性、相關性、準確性和細節等關鍵維度評估MLLMs,評分范圍為1到10,分數越高表示性能越優。此外,GPT-4可以為其評估提供詳細解釋,提供對模型優勢和改進領域的細致理解。
雖然人工評估和GPT-4評估提供了定性見解,但傳統評估指標對于定量評估MLLMs的性能仍然至關重要。這些指標提供了標準化和客觀的衡量標準,使其成為在不同任務中比較模型的可靠基準。具體來說,為了評估模型的識別能力,采用了多種指標,如準確率和平均精度 [1],[182],[183];而為了評估模型的感知能力,采用了如mIoU、mAP和Dice等指標 [184]。此外,為了評估模型生成文本或圖像的能力,廣泛采用了如BLEU、ROUGE和METEOR等指標 [185],[186],這些指標清楚地指示了模型在各種應用中的性能。
多模態大語言模型通過將強大的LLMs與各種模態編碼器(如視覺、音頻等)結合在一起,模仿了人類的感知系統,使模型具備了類似人類的能力,并暗示了實現人工通用智能的潛在途徑。隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。在這篇綜述中,我們從不同角度廣泛回顧了MLLMs的評估方法,從背景到評估什么、在哪里評估以及如何評估。通過總結評估任務、基準測試和指標,我們的目標是增強對當前MLLMs狀態的理解,闡明其貢獻、優勢和局限性,并為未來MLLMs及其評估的研究提供見解。
大型語言模型 (LLMs) 近期因其文本交互能力而受到廣泛關注。然而,自然的人類互動通常依賴語音,這促使人們向語音模型轉變。一種實現這一目標的直接方法是使用“自動語音識別 (ASR) + LLM + 語音合成 (TTS)”的流水線,即將輸入語音轉錄為文本,經由 LLM 處理后再轉換回語音。盡管此方法直觀簡單,但它存在固有的局限性,如在模式轉換過程中信息丟失,以及在三個階段中累積的誤差。為了解決這些問題,語音語言模型 (SpeechLMs) 應運而生。這些端到端模型無需文本轉換,直接生成語音,成為一種有前景的替代方案。本綜述論文首次全面概述了構建 SpeechLMs 的最新方法,詳細介紹了其架構的關鍵組成部分以及其開發中的各種訓練方法。此外,我們系統地考察了 SpeechLMs 的多種能力,分類了對 SpeechLMs 的評估指標,并討論了該快速發展的領域中的挑戰與未來研究方向。
1 引言大型語言模型(LLMs)在文本生成和自然語言處理任務中展現出顯著的能力,成為推動 AI 驅動語言理解和生成的強大基礎模型 [Achiam 等, 2023; Dubey 等, 2024a; Zhang 等, 2022b]。它們的成功還推動了其他領域的眾多應用,然而,僅依賴文本模式存在明顯的局限性。這促使人們發展基于語音的生成模型,使人與模型之間的互動更加自然和直觀。引入語音不僅有助于實現實時語音互動,還能通過結合文本和語音信息豐富交流內容 [Nguyen 等, 2023b; Nguyen 等, 2024]。鑒于文本與語音之間存在大量的互信息,對現有的 LLM 進行修改以支持語音互動功能是一項自然的選擇。一種直接的方法是采用“自動語音識別(ASR)+ LLM + 語音合成(TTS)”框架(圖1a)[Huang 等, 2024]。在該設置中,用戶的語音輸入首先由 ASR 模塊處理,將其轉換為文本。然后,LLM 基于該轉錄文本生成響應,最后由 TTS 模塊將該文本響應轉換回語音并播放給用戶。然而,這種簡單方案主要面臨以下兩個問題:1)信息丟失。語音信號不僅包含語義信息(即語音的意義),還包含副語言信息(例如音調、音色、語調等)。在處理中使用純文本 LLM 會導致輸入語音中的副語言信息完全丟失 [Zhang 等, 2023a]。2)累積誤差。此種分階段的方法容易在整個流程中產生累積誤差,特別是在 ASR 到 LLM 階段 [Fathullah 等, 2024]。特別是在 ASR 模塊將語音轉換為文本時發生的轉錄錯誤會對 LLM 的語言生成性能產生負面影響。由于 ASR + LLM + TTS 框架的局限性,語音語言模型(SpeechLMs,圖1b)被開發出來。與簡單的框架不同,SpeechLMs 直接將語音波形編碼為離散的 token,從音頻中捕獲重要特征和信息(第 3.1 節)。盡管單個語音 token 可能不具備詞匯層面的語義意義,但它們捕捉到語音話語的語義信息并保留寶貴的副語言信息,從而避免信息丟失。SpeechLMs 自回歸地建模這些 token,無需完全依賴文本輸入,使其能夠利用附加的副語言信息生成更具表現力和細膩的語音(第 3.2 節)。最終,這些生成的 token 被合成回語音(第 3.3 節)。通過直接處理編碼后的語音 token,SpeechLMs 有效地減輕了累積誤差,因為其訓練與語音編碼一體化進行,而簡單框架中 LLM 的語言建模訓練則完全獨立于 ASR(語音識別)模塊。除基礎對話能力外,SpeechLMs 還具備執行更復雜任務的潛力,如編碼特定說話者信息和情感細微差別(圖2)。這種能力使 SpeechLMs 能夠在對話中區分不同說話者,并理解和生成帶有特定情感語調的語音。這些進展對個性化助手、情感感知系統以及更細致的人機交互場景等領域尤為重要。此外,SpeechLMs 可以設計為支持實時語音互動,即模型可在用戶講話時被打斷,或選擇在用戶尚未結束講話時進行響應,更接近人類對話的模式。在本綜述中,我們首次全面概述了構建 SpeechLMs 的最新研究成果。我們探討了構成其架構的各種組件(第 3 節)及其開發中的訓練方法(第 4 節),并從以上視角分析這些模型,旨在闡明該領域的當前狀態。此外,我們考察了 SpeechLMs 的下游應用(第 5 節)、分類評估 SpeechLMs 的指標(第 6 節)、討論了該領域快速發展中遇到的挑戰,并提出了可能推動 SpeechLM 技術進一步發展的未來研究方向(第 7 節)。我們的貢獻總結如下:
在此部分中,我們將正式定義語音語言模型(Speech Language Models,簡稱SpeechLMs)。語音語言模型是一種自回歸基礎模型,能夠處理并生成語音數據,通過上下文理解生成連貫的語音序列。SpeechLMs 支持多種模式,包括語音到文本、文本到語音,甚至是語音到語音,具備上下文感知能力,從而能夠執行廣泛的任務。與傳統的文本語言模型(如 LLM)不同,SpeechLMs 處理的是語音和文本兩種模式。這使得 SpeechLMs 能夠進行更自然的多模態交互,在同一模型框架內處理多種輸入和輸出模式,具有更高的應用潛力。
語音語言模型主要包括三個組件:語音分詞器、語言模型和語音合成器(聲碼器),這種三階段的設計模式的主要原因是使語言模型架構(如僅解碼器的 transformer)能夠以音頻波形的形式自回歸地建模語音。由于語言模型的輸入和輸出都是離散 tokens,因此需要附加模塊來處理輸入輸出格式。下面將詳細介紹各個組件:
語音分詞器是 SpeechLM 的第一個組件,它將連續的音頻信號(波形)編碼為潛在表示,再將其轉換為離散 tokens,使其能夠被語言模型有效處理,用于諸如語音識別或合成等任務。語音分詞器的核心目標是捕捉音頻中的關鍵特征,同時降低其維度,便于后續對語音模式的建模和分析。 語義理解目標: 設計語義理解目標的語音分詞器旨在將語音波形轉化為能夠準確捕捉語音內容和意義的 tokens。通常情況下,這些分詞器包含一個語音編碼器和一個量化器,語音編碼器對波形的關鍵信息進行編碼,而量化器則將連續表示離散化為離散 tokens。 聲學生成目標: 具有聲學生成目標的語音分詞器注重捕捉生成高質量語音波形所需的聲學特征,優先保留關鍵信號,而非語義內容。為生成高質量的語音波形,這些分詞器通常采用包含編碼器、量化器和解碼器的架構,將原始波形轉換為離散 tokens,再通過解碼器將其重構回語音波形。 混合目標: 混合目標的語音分詞器平衡語義理解和聲學生成任務。大部分混合分詞器采用聲學生成分詞器的架構,并側重于將語義信息從語義分詞器提取到聲學分詞器中。某些系統還利用單獨的向量量化器來從語音模型(如 WavLM)提取信息,并結合聲學特征模塊以提升性能。
由于文本語言模型的成功,大部分 SpeechLMs 采用了類似的架構,主要使用 transformer 或僅解碼器的架構進行自回歸語音生成。為適應語音生成,原文本分詞器被替換為語音分詞器,使模型能夠聯合建模文本和語音兩種模態。通常做法是擴展原文本模型的詞匯量以容納文本和語音 tokens,形成一個更大的嵌入矩陣,從而使模型在單一序列中生成文本和語音。
聲碼器在語言模型生成 tokens 后將其合成為語音波形,這一過程涉及將生成的語音 tokens 所代表的語言和副語言信息轉換為音頻波形。聲碼器通常包括直接合成和輸入增強合成兩種流程。直接合成方式較為簡單,適用于包含足夠聲學信息的 tokens;輸入增強合成則在 tokens 進入聲碼器之前將其轉換為包含豐富聲學特征的表示,以生成更高質量的語音波形。
SpeechLMs 的訓練過程分為三個主要階段:預訓練、指令微調和對齊。這一節將主要回顧語言模型組件的主要訓練技術。
預訓練階段對語言模型的影響至關重要,因為它能夠幫助模型學習語音數據中的統計模式和依賴關系,以便在上下文中預測下一個 token。SpeechLMs 預訓練通常使用大規模的開放語音數據集,包括用于 ASR、TTS 和多模態任務的數據集。為了增強語音和文本模態的對齊,部分模型從預訓練的文本模型開始進行預訓練,并調整以支持語音 tokens,從而加速收斂并提升語音理解性能。
指令微調通過特定的任務指令來提升模型的泛化能力,使其適應更多樣的應用場景。常見的指令微調方法包括多模態指令微調和模態鏈微調。SpeechGPT 使用指令微調來處理 ASR、TTS 等任務,通過生成包括語音輸入、文本輸出在內的數據集,進一步提高模型的適用性。
對齊階段指的是通過特定方法來增強文本與語音模態間的表示對齊。通過交替輸入文本和語音 tokens 的方法,可以顯著提高模型在語音理解和生成方面的性能。此外,通過將文本和語音版本的提示都用于訓練,確保模型能夠為兩種輸入模態生成一致的輸出。這樣,模型既可以在純文本環境中運行,也可以在語音模式下自然地響應。
**
SpeechLMs 可處理多種下游任務,遠超傳統的ASR 和TTS系統,它們不僅支持文本與語音的多模態任務,還能處理復雜的語音和文本組合任務。下游應用可分為以下幾類:
口語對話:SpeechLMs 可用于口語對話系統,使系統能夠在上下文中理解用戶意圖并生成語音響應。 * 語音翻譯:支持語音到文本或語音到語音的翻譯任務,SpeechLMs 能夠根據不同語言生成對應翻譯。 * 自動語音識別:通過ASR將語音轉換為文本,是SpeechLMs 最基本的功能之一。 * 關鍵字檢測:用于語音激活的場景,SpeechLMs 可識別并提取特定關鍵字,從而觸發特定操作。 * 文本到語音合成:與ASR相反,TTS從文本生成對應的語音輸出,以實現從文本指令到語音的轉換。
說話人識別:能夠識別語音中的說話人身份,是一種多類分類任務。 * 說話人驗證:判定兩段語音是否來自同一說話人,為二分類任務。 * 說話人分離:將音頻流分割為不同說話人片段,從而標識出誰在什么時間說話。
SpeechLMs 還可以處理語音中的副語言信息,如情感識別、語音分離等任務。通過捕捉音高、音色、說話速度等信息,SpeechLMs 能夠識別語音中的情感和態度,使得語音系統能夠生成更具情感化的響應。
本綜述概述了語音語言模型的關鍵組成部分、訓練方法、下游應用及其在語音生成中的不同表現。未來,SpeechLMs 的研究可以朝以下方向發展: * 增強多模態對齊:進一步提高語音與文本模式的對齊能力,使SpeechLMs 更加適應多種任務。 * 提高實時交互性能:開發具有更高響應速度的模型,支持用戶打斷等更自然的交互方式。 * 擴展評估指標:目前大多使用傳統的語音合成和語音識別指標,對這些模型進行更全面的評估需要結合新指標。
最近在大型語言模型(LLMs)上的進展塑造了人工智能智能體的新范式,即基于LLM的智能體。與獨立的LLMs相比,基于LLM的智能體通過增強LLMs感知和利用外部資源和工具的能力,極大地擴展了LLMs的多功能性和專業性。到目前為止,基于LLM的智能體已經在軟件工程(SE)領域得到了應用,并顯示出顯著的效果。多個智能體之間的協同作用以及與人類互動相結合,為解決復雜的現實世界中的SE問題帶來了更大的希望。在此工作中,我們提出了一個關于用于SE的基于LLM智能體的全面系統的綜述。我們收集了106篇論文,并從兩個角度對它們進行了分類,即SE視角和智能體視角。此外,我們還討論了該關鍵領域中存在的開放性挑戰和未來的研究方向。本綜述的資料庫位于//github.com/FudanSELab/Agent4SE-Paper-List。 大型語言模型(LLMs)[1] 已經取得了顯著的進步,并展示了類似人類智能的潛力。近年來,LLMs 在軟件工程(SE)中得到了廣泛的應用。如最近的綜述所示[2],[3],LLMs 已經被采用并在各種軟件開發和維護任務中顯示出有希望的表現,例如程序生成[4]–[8],軟件測試[9]–[11]和調試[12]–[17]以及程序改進[18]–[20]。人工智能智能體是能夠自主感知并對其周圍環境采取行動以達成特定目標的人工實體[21]。智能體的概念已經發展了很長時間(例如,早期的智能體是基于符號邏輯或強化學習構建的[22]–[25])。最近,LLMs 的顯著進步進一步形成了一種新的AI智能體范式,即基于LLM的智能體,這種智能體利用LLMs作為中心控制單元。不同于獨立的LLMs,基于LLM的智能體通過賦予LLMs感知和利用外部資源和工具的能力來擴展其多功能性和專業性,這使得它們可以通過多個智能體之間的協作或涉及人類互動來應對更復雜的真實世界目標。在此工作中,我們提出了一個關于用于SE的基于LLM智能體的全面系統的綜述。我們收集了106篇論文,并從兩個角度對它們進行了分類,即SE視角和智能體視角。此外,我們還討論了該領域中的開放性挑戰和未來的研究方向。從SE的角度來看,我們分析了基于LLM的智能體如何應用于不同的軟件開發和改進活動,包括單個任務(例如需求工程、代碼生成、靜態代碼檢查、測試和調試)以及軟件開發和改進的端到端過程。從這個角度來看,我們提供了基于LLM的智能體如何處理SE任務的整體概覽。從智能體的角度來看,我們專注于設計用于SE的基于LLM智能體的組件。具體而言,我們分析了這些智能體的關鍵組件,包括規劃、記憶、感知和行動。除了基本的智能體構建外,我們還分析了多智能體系統,包括它們的角色、協作機制以及人機協作。從這個角度來看,我們總結了當應用于SE領域時,基于LLM智能體的不同組件的特點。總之,本綜述做出了以下貢獻:
背景與初步介紹
2.1 基于LLM智能體的基本框架 基于LLM的智能體通常由四個關鍵組件組成:規劃、記憶、感知和行動[21]。規劃和記憶是LLM控制的大腦的關鍵部分,它們通過感知和行動組件與環境進行交互以實現特定目標。圖2展示了基于LLM的智能體的基本框架。 規劃:規劃組件將復雜任務分解為多個子任務,并安排這些子任務以達到最終目標。具體來說,智能體可以(i)通過不同的推理策略生成一個無需調整的計劃,或者(ii)根據外部反饋(如環境反饋或人工反饋)調整已生成的計劃。 記憶:記憶組件記錄智能體執行過程中產生的歷史思想、動作和環境觀察[21][26][27]。基于累積的記憶,智能體可以回顧和利用之前的記錄和經驗,從而更有效地處理復雜任務。記憶管理(即如何表示記憶)和利用(即如何讀寫或檢索記憶)至關重要,這直接影響到智能體系統的效率和效果。 感知:感知組件接收來自環境的信息,這有助于更好的規劃。具體來說,智能體可以感知多模態輸入,例如文本輸入、視覺輸入和聽覺輸入。 行動:基于大腦做出的規劃和決策,行動組件執行具體的行動以與環境互動并影響環境。行動的一個重要機制是控制和利用外部工具,這可以通過訪問更多的外部資源來擴展LLMs的固有能力,并將行動空間擴展到不僅僅是文本交互之外。 2.2 高級的基于LLM的智能體系統 多智能體系統:雖然單個智能體系統可以專門解決某一特定任務,但使多個智能體之間進行協作(即多智能體系統)可以進一步解決與不同知識領域相關的更復雜任務。特別地,在一個多智能體系統中,每個智能體都有一個獨特的角色和相關專業知識,使其負責不同的任務;此外,智能體之間可以相互溝通,并隨著任務的推進共享進度/信息。通常情況下,智能體可以協作(即通過處理不同的子任務來實現最終目標)或競爭(即在同一任務上工作同時進行對抗性的辯論)的方式工作。 人機協調:智能體系統可以進一步結合人類的指令,并在人類指導下繼續執行任務。這種人機協調范式有助于更好地與人類偏好對齊并使用人類的專業知識。具體來說,在人機交互期間,人類不僅可以向智能體提供任務要求和對當前任務狀態的反饋,還可以與智能體合作共同實現目標。 2.3 相關綜述 一般領域的基于LLM的智能體已經被廣泛討論和綜述過[21][26][28]–[32]。與這些綜述不同,本文綜述側重于專門為軟件工程領域設計和應用的基于LLM的智能體。在軟件工程領域,已有幾項關于LLMs在軟件工程中的通用應用的綜述或文獻回顧[2][3][10][32][33]。與這些綜述不同的是,本文綜述特別關注智能體的視角,并且對于基于LLM的智能體在軟件工程中的應用更加全面。此外,He等人[34]提出了一篇關于多智能體系統在軟件工程中潛在應用和新興挑戰的展望文章。不同于這份展望文章,本文的工作重點是對現有智能體系統(包括單個智能體和多智能體系統)進行全面綜述。總的來說,據我們所知,這是第一篇專門針對軟件工程領域基于LLM智能體文獻的綜述。 綜述方法論
3.1 綜述范圍 我們將注意力集中在那些應用基于LLM的智能體來處理SE任務的論文上。以下是術語的具體定義: SE任務:遵循之前關于LLMs在SE中的應用綜述[2][3],我們關注整個軟件生命周期中的所有SE任務,包括需求工程、軟件設計、代碼生成、軟件質量保證(即靜態檢查和測試)以及軟件改進。 基于LLM的智能體:一個獨立的LLM可以作為一個簡單的“智能體”工作,因為它可以接受文本輸入并產生文本輸出,這使得LLMs和基于LLM的智能體之間沒有明確界限。然而,這可能會導致過于寬泛的范圍,并與現有的關于LLMs在SE中的應用綜述[2][3]有大量重疊。基于廣泛接受的關于AI智能體的共識,智能體的關鍵特征在于它們能夠自主且迭代地從動態環境中感知反饋并對其采取行動[21]。為了確保從智能體的角度進行更集中的討論,此綜述重點關注不僅將LLMs作為其“大腦”的核心部分,而且還具有迭代與環境互動、實時接收反饋并采取行動能力的基于LLM的智能體。 更具體地說,我們在論文收集過程中應用了以下納入和排除標準: 納入標準:如果一篇論文滿足以下任何一項標準,則將其納入我們的綜述:(i) 論文提出了一種技術、框架或工具,用于使用基于LLM的智能體解決特定的SE任務;(ii) 論文展示了一種一般的技術、框架或工具,前提是其評估至少包括一個SE任務;(iii) 論文展示了一項對特定SE任務上基于LLM的智能體進行評估的經驗研究。 排除標準:如果一篇論文滿足以下任何一項標準,則將其排除在我們的綜述之外:(i) 論文不涉及任何SE任務;(ii) 論文僅在討論或未來工作的上下文中討論基于LLM的智能體,而未將其整合為主要方法的一部分;(iii) 論文僅使用獨立的LLM來處理文本輸入并生成文本輸出,而沒有任何與環境的迭代互動。 3.2 論文收集 我們的論文收集過程包含兩個步驟:關鍵詞搜索和滾雪球法。 3.2.1 關鍵詞搜索 我們遵循軟件工程綜述中的既定實踐[35]-[39],使用DBLP數據庫[40]進行論文收集。近期的研究[39]表明,從其他主要出版物數據庫收集的論文通常是DBLP中論文的子集,DBLP涵蓋了超過7百萬份計算機科學領域的學術會議(超過6,500個)和期刊(1,850個)的出版物[41]。DBLP還包括arXiv[42],這是一個廣泛采用的開放獲取存儲庫。我們采用一種在軟件工程綜述中廣泛采用的試錯法來確定搜索關鍵詞。最初,所有作者,特別是那些在LLM和SE領域有相關研究經驗和出版物的作者,聚在一起建議與我們的范圍相關的論文,從而得到一個初步的相關論文集合。隨后,前兩位作者審閱這些論文的標題、摘要和引言以識別額外的關鍵詞。然后,我們進行頭腦風暴會議以擴展和細化我們的搜索字符串,納入相關術語、同義詞和變體。這一過程使我們能夠迭代地改進我們的搜索關鍵詞列表。 最終的關鍵詞包括 ("agent" OR "llm" OR "language model") AND ("api" OR "bug" OR "code" OR "coding" OR "debug" OR "defect" OR "deploy" OR "evolution" OR "fault" OR "fix" OR "maintenance" OR "program" OR "refactor" OR "repair" OR "requirement" OR "software" OR "test" OR "verification" OR "vulnerab")。 基于這些關鍵詞,我們在2024年7月1日在DBLP上進行了57次搜索,并獲得了10,362條結果。表1顯示了通過關鍵詞搜索收集的論文統計數據。前兩位作者手動審查每篇論文,以過濾掉不在本次綜述范圍內的論文。結果,我們通過這一過程確定了67篇相關的論文。 3.2.2 滾雪球法 為了提高我們綜述的全面性,我們采用了滾雪球法來識別那些過渡相關的論文并擴展我們的論文收集[35]。具體來說,在2024年7月1日至7月10日期間,我們進行了前后滾雪球法。后向滾雪球法涉及檢查每篇收集論文中的參考文獻,以識別我們范圍內的相關論文;而前向滾雪球法則使用谷歌學術來查找引用這些收集論文的相關論文。這一迭代過程一直持續到不再發現新的相關論文為止。在這個過程中,我們又檢索到了另外39篇論文。 3.3 收集論文的統計 如表1所示,我們總共收集了106篇論文用于這次綜述。圖3展示了截至2024年7月10日隨時間累積發表的論文數量。我們觀察到該領域研究興趣的持續增長,突顯了此次綜述的必要性和相關性。此外,圖4顯示了論文發表場所的分布情況,涵蓋了諸如軟件工程、人工智能和人機交互等不同的研究社區。特別是,大多數論文來自arXiv且尚未經過同行評審。這種情況是可以預期的,因為該領域正在興起并且仍處于快速發展之中。
視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:
//github.com/zytx121/Awesome-VLGFM。
在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。
例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。
為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。
近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。
隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。
貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。
綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。
大型語言模型(LLMs)在各種與代碼相關的任務中取得了顯著進展,特別是在從自然語言描述生成源代碼的代碼生成任務中,這些模型被稱為代碼LLMs。由于其在軟件開發中的實際意義(例如GitHub Copilot),這個新興領域吸引了學術研究人員和行業專業人士的廣泛關注。盡管從自然語言處理(NLP)或軟件工程(SE)或兩者的角度,研究人員對各種代碼任務的LLMs進行了積極探索,但目前缺乏一篇專門針對代碼生成LLM的全面且最新的文獻綜述。在本綜述中,我們旨在彌補這一空白,通過提供一篇系統的文獻綜述,為研究人員調查代碼生成LLM的最新進展提供有價值的參考。我們引入了一個分類法,對代碼生成LLM的最新發展進行分類和討論,涵蓋數據整理、最新進展、性能評估和實際應用等方面。此外,我們還提供了代碼生成LLM發展的歷史概覽,并使用廣泛認可的HumanEval和MBPP基準進行經驗比較,以突出代碼生成LLM能力的逐步提升。我們識別了學術界與實際開發之間的關鍵挑戰和有前景的機會。此外,我們建立了一個專門的資源網站(//codellm.github.io),以持續記錄和傳播該領域的最新進展。
引言
大型語言模型(LLMs),例如ChatGPT[171]的出現,深刻改變了自動化代碼相關任務的格局[45],包括代碼補全[78, 152, 233, 244]、代碼翻譯[48, 121, 211]和代碼修復[109, 170, 176]。LLMs一個特別有趣的應用是代碼生成,這項任務涉及從自然語言描述中生成源代碼。盡管各研究對其定義有所不同[47, 191, 204, 232],但在本綜述中,我們采用一致的定義,將代碼生成定義為自然語言到代碼(NL2Code)任務[15, 16, 264]。這一領域因其在學術界和工業界都引起了廣泛興趣,開發了如GitHub Copilot[45]、CodeGeeX[275]和Amazon CodeWhisperer等工具,這些工具利用先進的代碼LLMs來促進軟件開發。 最初對代碼生成的研究主要利用啟發式規則或專家系統,例如基于概率文法的框架[9, 57, 113]和專門的語言模型[59, 74, 106]。這些早期技術通常較為僵化且難以擴展。然而,基于Transformer的大型語言模型的引入改變了這一范式,使其成為首選方法,因其具備更高的能力和靈活性。LLMs的一個顯著特點是其跟隨指令的能力[51, 164, 173, 238, 250],即使是新手程序員也可以通過簡單表達需求來編寫代碼。這一新興能力使編程變得更加大眾化,使更廣泛的受眾能夠接觸編程[264]。在代碼生成任務中的LLMs表現出顯著改進,如HumanEval排行榜所示,從PaLM 8B[49]的3.6%到LDB[279]的95.1%在Pass@1指標上的提升。由此可見,HumanEval基準[45]已成為評估LLMs代碼能力的事實標準[45]。
為了提供全面的時間演變概覽,我們展示了LLMs用于代碼生成的發展概覽,如圖1所示。代碼生成LLMs的格局由一系列模型組成,其中一些模型如ChatGPT[173]、GPT4[5]、LLaMA[217, 218]和Claude 3[13]用于通用應用,而其他如StarCoder[132, 151]、Code LLaMA[196]、DeepSeek-Coder[79]和Code Gemma[54]則專門針對代碼任務。代碼生成與最新LLM進展的融合尤為關鍵,特別是當編程語言可以被視為多語言自然語言的不同方言時[15, 275]。這些模型不僅符合軟件工程(SE)的要求,還推動了LLMs向實際生產的進步[271]。
盡管近期的綜述從自然語言處理(NLP)、軟件工程(SE)或兩者結合的視角對代碼LLMs進行了探討[91, 264, 271, 278],它們通常涵蓋了廣泛的代碼相關任務。仍然缺乏專門回顧代碼生成高級主題的文獻,如精細數據整理、指令調優、與反饋對齊、提示技術、自主編碼代理的發展、檢索增強代碼生成、LLM作為代碼生成的評審等。一個相關的重要研究[15, 264]也集中在文本到代碼生成(NL2Code)的LLMs上,但主要考察了2020年至2022年發布的模型。因此,這一顯著的時間差距導致了缺乏考慮最新進展的最新文獻綜述,包括如CodeQwen[215]、WizardCoder[154]和PPOCoder[204]等模型,以及前述高級主題的全面探索。
鑒于需要一個專門且最新的文獻綜述,本綜述旨在填補這一空白。我們提供了一篇系統綜述,為研究人員快速探索代碼生成LLMs的最新進展提供了基礎性參考。我們引入了一個分類法,對最近的進展進行分類和審視,涵蓋數據整理[154, 231, 240]、高級主題[42, 47, 94, 125, 146, 152, 164, 166, 177, 205, 266]、評估方法[45, 85, 111, 284]和實際應用[45, 275]。這一分類法與代碼生成LLM的完整生命周期相一致。此外,我們指出了關鍵挑戰并識別了橋接研究與實際應用之間的有前景機會。因此,本綜述使NLP和SE研究人員能夠全面了解代碼生成LLM,突出前沿方向和當前的障礙與前景。 綜述的其余部分按照我們在圖3中概述的分類法結構組織。在第2節中,我們介紹了LLM與Transformer架構的基礎知識,并制定了代碼生成LLM的任務。接下來在第3節中,我們提出了一種分類法,對代碼生成LLMs的完整過程進行分類。在第4節中,我們在該分類框架內深入探討代碼生成LLMs的具體細節。在第5節中,我們強調了橋接研究與實際應用差距的關鍵挑戰和有前景的機會,并在第6節總結本工作。
分類
近期大型語言模型(LLMs)開發的激增導致大量這些模型通過持續預訓練或微調被重新用于代碼生成任務。這一趨勢在開源模型領域尤為明顯。例如,Meta AI最初公開了LLaMA [217]模型,隨后發布了專為代碼生成設計的Code LLaMA [196]。類似地,DeepSeeker開發并發布了DeepSeek LLM [25],隨后擴展為專門用于代碼生成的變體DeepSeek Coder [79]。Qwen團隊基于其原始的Qwen [19]模型開發并發布了Code Qwen [215]。微軟則推出了WizardLM [250],并正在探索其面向編程的對應模型WizardCoder [154]。谷歌也加入了這一行列,發布了Gemma [214],隨后發布了Code Gemma [54]。除了簡單地將通用LLMs適用于代碼相關任務外,還出現了大量專門為代碼生成設計的模型。值得注意的例子包括StarCoder [132]、OctoCoder [164]和CodeGen [169]。這些模型強調了以代碼生成為重點開發的LLMs的趨勢。 認識到這些發展的重要性,我們提出了一種分類法,對代碼生成LLMs的最新進展進行分類和評估。此分類法如圖3所示,作為研究人員快速熟悉該動態領域最新技術的全面參考。 在接下來的章節中,我們將對與代碼生成相關的每個類別進行深入分析。這將包括問題的定義、要解決的挑戰以及對最突出的模型及其性能評估的比較。
大型語言模型(LLMs)與Transformer架構在多個領域引發了革命性變革,其在代碼生成中的應用尤為顯著。這些模型遵循一個全面的過程,從代碼數據的整理和合成開始,然后是包括預訓練和微調在內的結構化訓練方法,并使用復雜的提示工程技術。最近的進展包括集成了庫級和檢索增強的代碼生成,以及自主編碼代理的發展。此外,評估LLMs的編碼能力已成為該研究領域的重要組成部分。 在接下來的章節中,我們將詳細探討這些與代碼生成相關的LLMs各個方面。第4.1節將介紹在LLMs開發的各個階段中使用的數據整理和處理策略。第4.2節將討論旨在緩解高質量數據稀缺性的數據合成方法。第4.3節將概述用于代碼生成的LLMs的流行模型架構。第4.4節將探討全參數微調和參數高效微調的技術,這些技術對于將LLMs調整為代碼生成任務至關重要。第4.5節將通過強化學習和利用反饋的力量,闡述提升代碼質量的方法。第4.6節將深入研究通過策略性使用提示來最大化LLMs的編碼能力。第4.7和4.8節將分別詳細說明庫級和檢索增強代碼生成的創新方法。此外,第4.9節將討論自主編碼代理這一令人興奮的領域。最后,第4.11節將提供一些利用LLMs進行代碼生成的實際應用見解,展示這些復雜模型的現實世界影響。通過這一全面探索,我們旨在強調LLMs在自動化代碼生成領域的意義和潛力。 結論
在本綜述中,我們提供了一篇系統的文獻綜述,為研究代碼生成LLMs最新進展的研究人員提供了寶貴的參考。我們詳細介紹和分析了數據整理、最新進展、性能評估和實際應用。此外,我們還展示了近年來代碼生成LLMs演變的歷史概覽,并使用廣泛認可的HumanEval和MBPP基準進行經驗比較,以突出代碼生成LLMs能力的漸進提升。我們還識別了學術界與實際開發之間的關鍵挑戰和有前景的機會,以供未來研究。此外,我們建立了一個專門的資源網站,以持續記錄和傳播該領域的最新進展。我們希望本綜述能夠為代碼生成LLMs提供一個全面而系統的概覽,促進其蓬勃發展。我們樂觀地相信,LLMs最終將改變編碼的各個方面,自動編寫安全、有用、準確、可信且可控的代碼,如同專業程序員一樣,甚至解決當前人類無法解決的編碼問題。
在過去的一年中,多模態大型語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中表現出色。然而,龐大的模型規模和高昂的訓練與推理成本阻礙了MLLMs在學術界和工業界的廣泛應用。因此,研究高效且輕量級的MLLMs具有巨大的潛力,特別是在邊緣計算場景中。在這篇綜述中,我們對當前高效MLLMs的研究現狀進行了全面而系統的回顧。具體來說,我們總結了代表性高效MLLMs的時間線、高效結構和策略的研究現狀以及應用。最后,我們討論了當前高效MLLM研究的局限性和未來有前景的研究方向。更多詳情請參考我們的GitHub倉庫://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。
大規模預訓練作為人工智能(AI)領域的一種領先方法,使得像大型語言模型和多模態模型這樣的通用模型在許多任務中超越了專門的深度學習模型。大型語言模型(LLM)的卓越能力激發了將它們與其他基于模態的模型結合起來以增強多模態能力的努力。這一概念得到了OpenAI的GPT-4V[1]和Google的Gemini[2]等專有模型顯著成功的進一步支持。因此,多模態大型語言模型(MLLMs)應運而生,包括mPLUG-Owl系列[3, 4]、InternVL[5]、EMU[6]、LLaVA[7]、InstructBLIP[8]、MiniGPT-v2[9]和MiniGPT-4[10]。這些模型通過有效利用每種模態的預訓練知識,繞過了從頭開始訓練的計算成本。MLLMs繼承了LLM的認知能力,展示了許多顯著特性,如強大的語言生成和遷移學習能力。此外,通過與其他基于模態的模型建立強大的表示連接和對齊,MLLMs能夠處理來自多種模態的輸入,顯著拓寬了它們的應用范圍。 MLLMs的成功主要歸因于規模定律:隨著數據、計算能力或模型規模等資源的增加,AI模型的性能會提高。然而,可擴展性伴隨著高資源需求,這阻礙了大型模型的發展和部署。例如,MiniGPT-v2的訓練需要基于NVIDIA A100 GPU計算出的總計超過800個GPU小時[9]。這對主要企業外的研究人員來說是一個巨大的費用負擔。除了訓練之外,推理也是MLLMs資源消耗的主要部分。考慮一個典型場景,模型輸入包括一個尺寸為336 × 336像素的圖像和一個長度為40個tokens的文本提示,使用LLaVA-1.5和Vicuna-13B LLM骨干進行推理需要18.2T的FLOPS和41.6G的內存使用量。大規模模型的資源密集型特性也引發了關于民主化和隱私保護的擔憂,因為當前主流的MLLMs,如GPT-4V和Gemini,由少數幾家主導企業控制,并在云端運行。如上述實驗所示,即使是開源的MLLMs,對計算資源的高要求也使得在邊緣設備上運行它們變得具有挑戰性。這進一步加劇了確保公平訪問和保護用戶隱私的挑戰。
鑒于這些挑戰,高效MLLMs的研究受到了越來越多的關注。這些努力的主要目標是減少MLLMs的資源消耗,擴大其適用性,同時盡量減少性能下降。高效MLLMs的研究始于用輕量級替代品替換大型語言模型,并進行典型的視覺指令微調。隨后,研究進一步通過以下方式增強了能力并擴展了用例:(1)引入更輕量的架構,注重效率,旨在減少參數數量或計算復雜度[25, 13, 18];(2)開發了更專業的組件,聚焦于高級架構的效率優化或賦予特定屬性,如局部性[19, 17, 12];(3)支持資源敏感任務,一些工作采用視覺token壓縮來提高效率,使MLLM的能力能夠轉移到資源密集型任務中,如高分辨率圖像和視頻理解[35, 39, 14, 40]。
在本綜述中,我們旨在呈現快速發展的高效MLLMs領域的最新進展,如圖2所示。我們將文獻組織成六個主要類別,涵蓋高效MLLMs的各個方面,包括架構、高效視覺、高效LLMs、訓練、數據和基準測試以及應用。Architecture 關注通過高效技術開發的MLLM框架,以降低計算成本。該架構由多個基于模態的基礎模型組成,具有不同于單模態模型的特征,從而促進了新技術的發展。
Efficient Vision 探討優化高效視覺特征提取策略,強調在保持準確性的同時提高效率的方法。它解決了集成高質量視覺數據以實現有效跨模態理解的問題。
Efficient LLMs 探索提高語言模型計算效率和可擴展性的策略。它研究了模型復雜性與性能之間的權衡,并提出了平衡這些競爭因素的有前景途徑。
Training 調查了對高效MLLMs開發至關重要的訓練方法的現狀。它解決了與預訓練階段、指令微調階段及整體訓練策略相關的挑戰,以實現最先進的結果。
Data and Benchmarks 評估用于多模態語言模型評估的數據集和基準測試的效率。它評估了數據集規模、復雜性和計算成本之間的權衡,同時倡導開發優先考慮效率和與現實世界應用相關性的基準測試。
Application 研究高效MLLMs在各個領域的實際影響,強調性能和計算成本之間的平衡。通過解決諸如高分辨率圖像理解和醫療問答等資源密集型任務,本節強調了高效MLLMs在拓寬其應用范圍和解決現實問題方面的潛力。
總之,這篇綜述深入探討了這些研究工作,探索了多種使MLLMs更具資源效率的策略。我們回顧了高效MLLMs的發展歷史,提供了高效MLLMs策略的分類法,并全面比較了現有高效MLLMs的性能。通過這一探索,我們希望提供對當前最先進技術的全面理解,從而揭示這一新興領域的復雜細微之處。此外,這篇綜述還充當了路線圖,突出了未來研究的潛在途徑,促進了對高效MLLMs領域挑戰和機遇的更深入理解。除了這篇綜述,我們還建立了一個GitHub倉庫,收錄了綜述中提到的論文,并按照相同的分類法進行整理,地址為:
按照標準的MLLM框架,高效MLLMs可以分為三個主要模塊:視覺編碼器g,負責接收和處理視覺輸入;預訓練語言模型,管理接收到的多模態信號并進行推理;視覺-語言投影器P,作為連接兩種模態的橋梁。為了提高通用MLLMs的效率,主要的優化在于處理高分辨率圖像、壓縮視覺令牌、實施高效結構以及使用緊湊的語言模型等策略。圖3展示了架構圖。表1概述了高效MLLMs的總結,包括基礎LLM、視覺編碼器、圖像分辨率和用于連接視覺和語言的投影器。這些高效MLLMs包括:MobileVLM[20]、LLaVA-Phi[21]、Imp-v1[22]、TinyLLaVA[23]、Bunny[24]、Gemini Nano-2[2]、MobileVLMv2[17]、MoE-LLaVA-3.6B[25]、Cobra[13]、Mini-Gemini[26]、Vary-toy[27]、TinyGPT-V[28]、SPHINX-Tiny[14]、ALLaVA[29]、MM1-3B[30]、LLaVA-Gemma[31]、Mipha-3B[32]、VLMamba[18]、MiniCPM-V2.0[70]、DeepSeek-VL[34]、KarmaVLM[71]、moondream2[72]。在本節中,我們將按順序全面概述這三個模塊以及其他高效組件。
Vision Transformer (ViT) [94] 架構在計算機視覺應用中獲得了顯著的關注并被廣泛使用。然而,隨著ViT模型規模的增長,可訓練參數和操作數量也隨之增加,影響了它們的部署和性能。此外,自注意力機制的計算和內存成本隨著圖像分辨率的增加呈二次增長。參考論文[95],本綜述旨在探索可用于高效MLLMs的最有效的視覺編碼方法。
本綜述全面分析了多模態大型語言模型(MLLMs)——亦稱為大型視覺語言模型(LVLMs)——中的幻覺現象。這些模型在多模態任務中展示了顯著的進步和非凡的能力。盡管這些發展充滿希望,MLLMs常常生成與視覺內容不一致的輸出,這一挑戰被稱為幻覺,它對模型的實際部署構成了重大障礙,并引起了對其在現實世界應用中可靠性的關注。這個問題日益受到關注,促使人們努力檢測和緩解這種不準確性。我們回顧了近期在識別、評估和緩解幻覺方面的進展,提供了關于幻覺成因、評估基準、度量和應對策略的詳盡概覽。此外,我們還分析了當前的挑戰和限制,并提出了開放性問題,勾勒出未來研究的潛在途徑。通過對幻覺成因、評估基準和緩解方法進行細致的分類和概述,本綜述旨在加深對MLLMs中幻覺的理解,并激發該領域的進一步發展。通過我們徹底和深入的審查,我們為加強MLLMs的魯棒性和可靠性的持續對話做出了貢獻,為研究人員和實踐者提供了寶貴的見解和資源。資源可在以下網址獲取://github.com/showlab/Awesome-MLLM-Hallucination.
** 引言**
近年來,大型語言模型(LLMs)[29, 81, 85, 99, 132]在自然語言處理(NLP)的廣泛任務中占據了主導地位,實現了語言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的進展。借助強大的LLMs能力,多模態大型語言模型(MLLMs)[22, 75, 111, 138],有時被稱為大型視覺語言模型(LVLMs),正在吸引越來越多的關注。MLLMs在多模態任務中表現出有希望的能力,如圖像標題生成[66]、視覺問題回答[22, 75]等。然而,隨著MLLMs的快速進展,這些模型傾向于生成幻覺[69, 76, 137],產生看似合理但實際上是虛假的內容,這一趨勢令人關注。
幻覺問題起源于LLMs本身。在NLP領域,幻覺問題被實證地分為兩類[44]:1) 真實性幻覺,強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實不一致或捏造;2) 忠實性幻覺,指生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內部的自洽性。與純LLMs相比,MLLMs中的幻覺研究主要集中在生成文本響應與提供的視覺內容之間的差異[69, 76, 137],即跨模態不一致。這種差異表明,LLMs的研究成果不能簡單地轉移到MLLMs上。因此,全面調查MLLMs中幻覺現象的最新進展,以激發新思想并促進該領域的發展,是迫切需要的。
在計算機視覺領域,對象識別是核心任務,包括子任務如對象分類[60]、檢測[27]和分割[37]等。同樣,MLLMs中的幻覺研究主要集中在對象幻覺上。在MLLMs時代之前,有一項關于圖像標題生成中對象幻覺的開創性工作[90],通過比較標題和圖像內容評估對象存在性。在MLLMs中,對象幻覺被實證地分為三類:1) 類別,識別給定圖像中不存在或錯誤的對象類別;2) 屬性,強調對象的屬性描述,如顏色、形狀、材料等;3) 關系,評估對象之間的關系,如人與對象的互動或相對位置。需要注意的是,一些文獻可能將對象計數、對象事件等視為獨立的幻覺類別;然而,在本工作中,我們將它們歸入屬性類別。
由于LLMs中幻覺的根本原因已有眾多研究,因此,前沿MLLMs所面臨的獨特挑戰需要進行深入調查。我們的分析專門針對MLLMs中幻覺的獨特起源,涵蓋了從數據、模型、訓練到推理階段的一系列貢獻因素。此外,我們提供了專門為評估MLLMs中幻覺而設計的基準和度量的全面概述。然后,我們回顧和討論了針對識別原因量身定做的緩解幻覺問題的最新工作。
通過我們的全面綜述,我們旨在促進MLLMs領域的發展,并提供有價值的見解,加深對MLLMs中幻覺相關機會和挑戰的理解。這種探索不僅增強了我們對當前MLLMs局限性的理解,還為未來研究和開發更加穩健和可靠的MLLMs提供了重要的指導。
與現有綜述的比較。在追求可靠的生成性AI方面,幻覺作為一個主要挑戰,已經引發了一系列關于其最新進展的綜述論文。對于純LLMs,已有幾篇綜述[44, 129],描述了LLMs中幻覺的格局。相比之下,關于MLLMs領域的幻覺的綜述非常少。據我們所知,目前只有一項與我們同時進行的短期綜述[76],探討了LVLMs的幻覺問題。然而,我們的綜述在分類和范圍上都有所不同。我們呈現了一種分層且細致的幻覺分類,如圖1所示,清晰地描繪了這一領域的格局。此外,我們的方法不僅限于[76]中規定的特定模型架構,而是通過追溯各種影響因素,分析幻覺的成因。我們涵蓋了更廣泛的文獻,無論是在論文數量還是分類結構上。此外,我們的緩解策略與潛在原因緊密相關,確保了一種連貫和有針對性的方法。
本綜述的組織。在本文中,我們呈現了關于MLLMs中幻覺最新發展的全面綜述。綜述的組織如下:我們首先提供足夠的背景并定義與LLMs、MLLMs、幻覺等相關的概念。接下來,我們深入分析導致MLLMs中幻覺的各種因素。在此之后,我們展示了用于評估MLLMs中幻覺的一組度量和基準。然后,我們詳細介紹了一系列旨在緩解MLLMs中幻覺的方法。最后,我們深入探討了當前限制和未來前景的挑戰和開放問題,提供見解并勾畫出即將到來的研究路徑。
數據
數據是MLLMs的基礎,使它們能夠獲得跨模態理解和遵循指令的能力。然而,數據也可能無意中成為MLLMs幻覺的來源。這主要表現在三個方面:數量、質量和統計偏差。 1.1 數量。深度學習模型對數據的需求很大,特別是像MLLMs這樣的大模型。數據量在構建穩健和可靠的MLLMs中扮演著重要角色。目前,圖像-文本配對數據集[92]和視覺QA數據[48, 80]被用于訓練MLLMs。盡管這些數據集通常比計算機視覺中的典型數據集大,但在數量上仍遠不及用于訓練LLMs的純文本數據。數據不足可能導致問題多模態對齊,從而產生幻覺[96, 103]。 1.2 質量。鑒于對大規模訓練數據的需求日益增加,啟發式數據收集方法被用來高效地收集大量數據。雖然這些方法提供了大量數據,但它們并不保證數據質量,從而增加了幻覺的風險。與幻覺相關的數據質量可以進一步分為以下三個方面。
噪聲數據。如定義部分所述,訓練MLLMs涉及兩個階段。預訓練階段使用從網絡上爬取的圖像-文本對,這些數據樣本可能不準確、未對齊或損壞。噪聲數據將限制跨模態特征對齊[117, 120],這是MLLMs的基礎。至于指令調整數據,流行的方法如LLaVA[75]使用先進的GPT-4[82]模型生成指令。然而,ChatGPT是一個不能解釋視覺內容的語言模型,導致噪聲數據的風險。此外,語言模型本身就存在幻覺問題[44],進一步增加了風險。LLaVA-1.5[74]加入了人工注釋的QA數據進入指令遵循,顯示了改進的結果,揭示了噪聲數據的影響。
缺乏多樣性。最近的研究[73, 117]顯示,數據的多樣性也起著至關重要的作用。對于兩個訓練階段使用的數據,指令調整數據更可能有這個問題,因為它通常數量較少。一個顯著的特點是,大多數遵循指令的數據樣本都是關于圖像內容的對話。我們將這種類型的數據視為正向指令,因為它總是忠實地反映圖像內容。相比之下,負向指令數據[73]和拒絕回答響應[11]在數據集中很少。鑒于這樣的訓練數據,最近的研究[69, 73]觀察到的一個潛在缺點是,當前模型傾向于對呈現給模型的任何指令回答“是”,即使正確的答案應該是“否”,導致幻覺。這種現象表明了數據多樣性的影響。
詳細描述(開放問題)。文本描述的細節程度對這一問題的影響仍是一個開放問題。如2.2節所討論,預訓練數據中的文本,如LAION[92],通常描述突出對象的總體內容。而在指令調整階段的文本,如LLaVA-150k[75],包含更詳細的描述。這個LLaVA-150k數據集是基于視覺模型識別的對象由GPT-4生成的。最近的一項研究[16]認為,在訓練數據中,與對象位置、屬性和非突出對象相關的詳細描述通常缺失。這種屬性導致跨模態對齊不完整,剝奪了模型的基礎能力[62, 126]。然而,另一項研究[120]假設指令調整數據中的文本描述包含過多細節,超過了MLLMs的感知限制。當使用這種詳細數據進行訓練時,模型可能會試圖匹配真實標注標題的細節程度和長度分布,從而冒險表達它無法從圖像中辨識的細節,因此展現出幻覺。訓練數據的細節水平仍是一個開放問題。
1.3 統計偏差。如[23]所述,神經網絡,特別是大型語言模型,具有記憶訓練數據的內在傾向。訓練數據集中名詞(如對象)的分布對模型的行為有強烈的影響。經常出現的對象和對象共現是兩種顯著的統計偏差類型,如[69, 90, 137]所討論。例如,‘人’可能是訓練數據中出現最頻繁的對象之一。在推理過程中,即使給定的圖像中不包含人,模型仍然傾向于預測存在人。另一方面,對象共現是指模型會記住哪兩個對象通常“一起出現”的現象[90]。例如,給定一個帶有冰箱的廚房圖像,當詢問微波爐時,MLLMs傾向于回答‘是’,因為在廚房場景中冰箱和微波爐經常一起出現。大多數數據集都存在偏見。增加數據規模可能緩解這一影響,但鑒于現實世界的長尾分布,它無法完全解決。
2 模型
目前,流行的MLLMs的架構通常包括幾個組件,通常包括預訓練的視覺模型、預訓練的LLM和如上所述的對齊模塊。由于這些模型是連接在一起的,而不是從頭開始進行端到端訓練,每個模塊的錯誤都可能累積。每個模塊的不良和有問題的輸出可能導致幻覺。
弱視覺模型。如相關工作[31, 90, 103]所述,幻覺的一個主要潛在原因是視覺模型弱,這可能導致視覺概念的誤分類或誤解。即使是最強大的視覺模型在編碼過程中也可能仍會經歷信息丟失。弱視覺模型意味著感知能力弱,這從根本上破壞了多模態理解。
語言模型先驗。現代MLLMs的架構是不平衡的。通常,語言模型比視覺模型大得多,也強得多,導致傾向于優先考慮基于語言的信息[31, 63, 64, 73, 90]。一個典型的現象是,語言模型中蘊含的知識,也稱為參數知識,可以覆蓋視覺內容。例如,給定一個顯示紅色香蕉的圖像,這在現實世界中是違反直覺的,一個MLLM可能仍然回應“黃色香蕉”,因為“香蕉是黃色的”是LLM中根深蒂固的知識。這種語言/知識先驗使模型忽視視覺內容并響應幻覺。
弱對齊界面。對齊界面在MLLMs中扮演著至關重要的角色,因為它充當兩種模態之間的橋梁。一個弱的對齊界面很容易導致幻覺。一個弱對齊界面的潛在原因是數據,如前面章節所討論的。除此之外,界面架構本身和訓練損失設計也很重要[52, 77, 123]。最近的研究[52]認為,類似LLaVA的線性投影界面保留了大部分信息,但缺乏對投影特征的監督。[52]中的可視化顯示,投影層后的特征與語言嵌入仍然不同。分布差異導致跨模態交互出現問題,導致幻覺。另一方面,類似Q-former[66]的架構對提取的視覺特征有多樣化的監督,將其與語言嵌入空間對齊。然而,可學習查詢的使用不可避免地導致細粒度視覺信息的丟失。
3 訓練
MLLMs的訓練目標基本上與LLMs相同,即自回歸下一個令牌預測損失。這種損失方法直接而有效,且易于擴展,表現出在語言建模中的良好性能。然而,MLLMs領域的一些研究表明,由于視覺內容的復雜空間結構,下一個令牌預測損失可能不適合學習視覺內容[5, 16]。此外,這種損失在令牌級別進行優化,而缺乏序列級別的監督[5]。另一個觀點是,與訓練LLMs不同,訓練MLLMs的程序中缺少RLHF階段[96, 119],成為幻覺的潛在原因。
4 推理
就推理而言,一些工作也指出自回歸生成中存在潛在問題。在生成過程中,隨著序列長度的增加,自注意力將更多地聚焦于之前生成的文本令牌,即視覺內容的注意力被稀釋[45, 102-104]。通過在生成期間可視化注意力圖[45, 104],可以觀察到生成內容更多地關注之前的特殊令牌,如標點符號,而不是視覺內容令牌。'失去注意力'的問題也會導致模型的輸出響應與視覺內容無關。
結論
基于強大的大型語言模型,多模態大型語言模型在各種多模態任務中表現出卓越的性能。然而,幻覺現象對MLLMs的實際應用提出了重大挑戰,引發了關于安全性、可靠性和信任度的不可否認的擔憂。在這篇全面的綜述中,我們對多模態大型語言模型中的幻覺進行了徹底的檢查,重點關注其潛在原因、評估指標、基準和緩解方法。盡管取得了相當的進展,幻覺仍然是一個復雜且持續的問題,需要持續的研究。多模態大型語言模型中的幻覺挑戰仍然引人注目,需要持續的審視和創新。鑒于這些挑戰,我們在這個新興領域概述了幾個有希望的未來發展方向。通過導航幻覺的復雜景觀,我們希望這篇綜述能成為解決MLLMs中幻覺現象復雜性的基礎資源。我們設想這篇綜述能激勵研究人員和實踐者致力于推進研究和在這一關鍵研究領域開發穩健的解決方案。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。
關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。
使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。
結論
基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。