多模態大語言模型(MLLMs)為預訓練的大語言模型(LLMs)賦予了視覺能力。盡管LLMs中的文本提示已被廣泛研究,視覺提示則為更細粒度和自由形式的視覺指令開辟了新天地。本文首次全面調研了MLLMs中的視覺提示方法,重點討論視覺提示、提示生成、組合推理和提示學習。我們對現有的視覺提示進行分類,并討論用于自動標注圖像的生成方法。同時,我們考察了使視覺編碼器與基礎LLMs更好對齊的視覺提示方法,涉及MLLM的視覺基礎、對象引用和組合推理能力。此外,我們總結了改善MLLM對視覺提示的感知和理解的模型訓練及上下文學習方法。本文探討了在MLLMs中開發的視覺提示方法,并展望了這些方法的未來。
引言
多模態大語言模型(MLLMs)增強了預訓練的大語言模型(LLMs)以實現視覺能力,從而在復雜的多模態任務上實現視覺理解和推理。然而,由于使用文本提示描述和指定視覺元素的局限性,傳統提示方法在提供準確的視覺基礎和詳細視覺信息的引用上表現不佳,這可能導致視覺幻覺和語言偏見。 最近,視覺提示方法作為一種新范式應運而生,補充了文本提示,使得在多模態輸入上能夠進行更細粒度和像素級的指令。由于視覺提示方法可以采取多種形式,且常常在像素級粒度上操作,通用的提示模板可能不適用于不同的圖像,這使得實例級視覺提示生成變得必要。因此,我們在第二部分提供了當前視覺提示方法的全面分類,并在第三部分介紹了生成這些視覺提示的方法。
盡管視覺提示方法在增強MLLM的視覺能力方面取得了成功,但一些研究表明,MLLM與視覺提示之間可能存在不一致,因為預訓練階段缺乏異構視覺提示訓練數據。這種不一致可能導致MLLM忽視或誤解某些視覺提示,從而引發幻覺問題。因此,我們總結了現有的將視覺提示與MLLM感知和推理對齊的努力,以實現更可控的組合推理。此外,我們考察了現有的預訓練、微調和上下文學習方法,這些方法從根本上使MLLM與多模態增強提示對齊。現有的LLM提示相關文獻主要限于文本提示設計和上下文演示,缺乏對像素級指令和多模態交互的文獻覆蓋。盡管視覺提示在計算機視覺中也有研究,但相關調研限于視覺任務和視覺骨干模型,而涉及MLLM的多模態感知和推理任務尚缺乏。此外,最近的一項關于“Segment Anything Models”(SAM)的調研探討了SAM在MLLM中的多種應用,但僅限于SAM模型,缺乏對多樣視覺提示方法的全面研究。本文首次對MLLM中的視覺提示進行全面調研,以填補這些空白,擴展對視覺提示生成、多模態提示、感知與推理及提示學習的理解。我們在圖1中展示了調研的分類,并總結了我們的貢獻如下: * 提供了MLLM中視覺提示和提示生成方法的全面分類。 * 解釋了視覺提示如何融入MLLM的感知與推理,促進更可控的組合推理,幫助防止幻覺和語言偏見問題。 * 總結了MLLM與視覺提示對齊的方法,包括模型訓練和上下文學習,解決誤解問題,并提出更可控組合推理的策略。
視覺提示是多模態大語言模型(MLLMs)中的重要工具,指導模型解讀和處理視覺數據。這些提示(Wu et al., 2024f)可以采取多種形式,如邊界框、標記、像素級提示和軟提示。它們提供額外的信息,以增強模型的視覺感知能力。通過使用不同的技術處理圖像和視頻,視覺提示提高了模型在復雜理解和推理任務中的表現。
邊界框用于標記圖像中的物體或區域,使得 MLLMs 能夠提取視覺特征(Lin et al., 2024a)。這些特征幫助模型理解圖像內容并與相應文本關聯,從而增強細粒度和基于內容的圖像理解。先前的研究,如 Shikra Chen et al. (2023b) 和 VTPrompt Jiang et al. (2024),量化邊界框以數值表示關鍵物體,建模輸入和輸出位置。其他方法針對特定任務修改邊界框:A3VLM Huang et al. (2024a) 使用 3D 邊界框定位圖像中的可操作部分,CityLLaVA Duan et al. (2024) 擴大邊界框,而 TextCoT Luan et al. (2024) 將邊界框的短邊延伸以匹配長邊,確保它涵蓋整個感興趣區域。此外,CRG Wan et al. (2024) 用黑色像素遮蓋特定區域以減少先驗,提供了一種在不增加訓練的情況下修正預測的方法。Groma Ma et al. (2024a) 和 InstructDET Dang et al. (2023) 將用戶指定的區域(即邊界框)編碼為視覺標記,通過將其直接整合到用戶指令中增強 MLLMs 的定位能力。另一個框架 Lin et al. (2024b) 通過在邊界框內整合外部知識的上下文嵌入,進一步增強 MLLMs 的定位能力,為各種 MLLMs 提供視覺提示以提升細粒度認知能力。
與邊界框類似,視覺標記是視覺數據(如圖像或視頻)中的特定元素,用于突出、識別或引起對特定特征或區域的注意。它們通常用于指示與任務相關的圖像特定部分。先前的研究 Shtedritski et al. (2023) 表明,訓練于大規模網絡數據的模型可以集中于特定的視覺標記,例如紅圈,以突出所需區域,而不是圍繞它們裁剪圖像。AutoAD-ZeroXie et al. (2024) 提出了一種兩階段的無訓練方法,通過在框架中“圈定”字符并對每個身份進行顏色編碼來整合字符信息。最近,Set-of-Mark (SoM) 提示(Yang et al., 2023)直接在圖像上覆蓋視覺標記,幫助模型生成基于特定圖像區域的答案。ViP-LLaVACai et al. (2024) 通過整合諸如涂鴉和箭頭等任意視覺提示,擴展了這一點,使用微調模型來識別這些標記。Liao et al. (2024) 還利用 SoM 技術引入反饋,將其轉化為文本或視覺標記,以改善語義基礎。SoM-LLaVA Yan et al. (2024) 提出了一種通過逐項列出項目并全面描述圖像中所有標記項目的方法,以增強 SoM 的標簽關聯。其他方法,如 ToL Fan et al. (2024b) 和 OWG Tziafas 和 Kasaei (2024),為框架中的每個段落鏈接唯一 ID,而 Pivot Nasiriany et al. (2024) 則將 3D 位置投影到圖像空間,并在此投影位置繪制視覺標記,以指代輸出空間中的空間概念。
先前的方法依賴于粗糙的標記,如彩色框或圓,這導致在準確突出物體時出現歧義。為了解決這個問題,像素級提示(Ma et al., 2024b)使用圖像或視頻中的單個像素,增強 MLLMs 的語義定位能力。方法如 FGVP Yang et al. (2024a)、EVP Liu et al. (2023b)、DOrA Wu et al. (2024e) 和 CoLLaVO Lee et al. (2024) 利用像素級提示傳達語義信息,實現精確的物體定位。OMG-LLaVA Zhang et al. (2024e) 和 VisionLLM Wang et al. (2024b) 將圖像標記為像素中心的視覺標記,將視覺任務與語言指令對齊。技術如圖像修復(Bar et al., 2022)將視覺標記解碼為像素,而 ControlMLLM Wu et al. (2024d) 則建模像素與文本提示之間豐富的語義關系。此外,還有坐標提示方法,如 SCAFFOLD Lei et al. (2024a) 和 AO-Planner Chen et al. (2024a),將輸入圖像轉換為使用度量的坐標,增強 MLLMs 的空間理解和推理能力。
軟視覺提示在像素空間中學習并直接應用于圖像,使模型能夠更有效地適應特定的下游任務。特別地,TVP Zhang et al. (2024g)、BlackVIP Oh et al. (2023) 和 VPGTrans Zhang et al. (2024a) 向圖像添加像素級提示,或通過在圖像周圍添加通用提示,或設計與圖像形狀相匹配的提示。在學習提示(Rezaei et al., 2024)、WVPrompt Ren et al. (2024) 和 ILM-VP Chen et al. (2023a) 中,任務相關的擾動模式被注入到像素空間中以修改輸入樣本。此外,ImageBrush Yang et al. (2024b) 通過從圖像中提取標記特征來增強語義理解。
與文本提示不同,視覺提示通常是位置感知的、特定實例的,涉及特定的視覺對象、關系和上下文。目前的方法使用視覺提示生成方法和模型,通過生成圖像和視頻的視覺提示(如分割、檢測和圖像修復)來提高 MLLMs 的準確性和理解能力。此外,視覺提示方法的工具鏈被用于實現多步驟視覺推理和規劃。為了創建普遍適用的視覺提示,還開發了可學習的像素值。
理解人造視覺提示在實際用例中可能非常重要,因為視覺提示在表達個人意圖或關注當前視覺證據時尤其有效。早期的探索(Shtedritski et al., 2023)發現,在物體周圍畫一個簡單的紅圈可以引導模型的注意力到該區域。此外,MIVPG Zhong et al. (2024) 利用圖像或補丁中的實例相關性來豐富詳細的視覺證據。 ViP Cai et al. (2024) 引入了一種新穎的多模態模型,能夠解碼自由形式的視覺提示,使用戶能夠用自然線索直觀地標記圖像。這種方法不需要復雜的區域編碼,并在區域特定的理解任務上取得了最先進的性能。此外,ViP-Bench Cai et al. (2024) 也被提出用于評估 MLLM 對這種自然工程視覺提示的感知。在領域特定的 CityLLaVA Duan et al. (2024) 框架中,收集并定制了工程視覺提示,以進一步增強微調的 MLLM。
分割方法,如 OpenSeeD Zhang et al. (2023b)、SAM Kirillov et al. (2023) 和 SegFormer Xie et al. (2021),用于勾勒和識別圖像中的特定區域、物體或結構,從而使模型能夠更準確地關注相關的視覺信息。通過預訓練的分割模型,外部視覺知識可以轉移并整合到 MLLM 的提示中。Yang et al. (2024a) 探索了一種通過圖像修復(Bar et al., 2022)方法進行像素級注釋的細粒度視覺提示方法。Lin et al. (2024b) 提出了一種指令調優方法,將細粒度分割知識直接整合到空間嵌入圖中作為視覺提示,從而增強模型對視覺場景的上下文意識。VAP Chen et al. (2024a) 開發了一種視覺可用性提示方法,通過 SAM Kirillov et al. (2023) 在導航任務中固化視覺元素。DOrA Wu et al. (2024e) 進一步引入 3D 空間和上下文信息,以改善 3D 視覺定位任務。
細粒度的分割信息還增強了 MLLM 的視覺感知和推理能力。OMG-LLaVA Zhang et al. (2024e) 整合了多級視覺提示,使 MLLM 能夠從粗到細的視覺感知,獲得更全面的視覺理解。Liu et al. (2023b) 提出增強模型理解和處理圖像中低級結構元素的能力。He et al. (2024) 進一步將此類視覺提示融入 MLLM 微調,以增強模型在細粒度視覺感知中的能力。CoLLaVO Lee et al. (2024) 提出了一種蠟筆提示方法,通過與圖像修復色彩圖結合的全景分割方法,更好地區分圖像中的多個物體。
物體檢測模型如 SoM Yang et al. (2023)、RCNN Girshick (2015) 和 Omni3D Brazil et al. (2023) 提供精確的物體識別和定位,輔助 MLLM 的視覺定位能力并引導 MLLM 的注意力關注語義上有意義的內容。由 Yan et al. (2024) 開發的 SoM-LLaVA 使用數字標簽將視覺對象與文本描述對齊。物體標簽使模型能夠準確列出和描述這些物體,增強視覺推理和視覺指令跟隨能力。InstructDET Dang et al. (2023) 將通用指令融入訓練過程中,通過使模型理解和遵循各種引用指令來多樣化物體檢測。這增強了模型在不同任務上下文中理解用戶意圖和指令的靈活性。Wan et al. (2024) 提出通過對比區域引導改進視覺語言模型的定位。通過引導模型的注意力到相關區域,MLLM 能夠更準確地將視覺區域與相應的文本指令關聯。Cho et al. (2024) 擴展視覺語言模型以理解 3D 環境,通過提高空間意識和對三維空間中物體交互的理解。
為了通過多步驟或交互推理實現更復雜的多模態理解,幾種方法將各種視覺提示方法作為工具鏈聚合(Wu et al., 2024f),由 MLLM 調用以輔助各個推理子任務。Zhou et al. (2024b) 提出了一個圖像思維方法,能夠自動確定每個推理步驟的視覺信息提取方法,并將其實現為視覺提示,促使 MLLM 遵循特定的推理路徑,實現逐步的多模態推理。Tziafas 和 Kasaei (2024) 專注于通過整合包括開放式分割和物體定位在內的視覺提示方法,調整視覺語言模型以適應開放世界抓取任務。為了實現更可轉移和通用的視覺提示,Sheng et al. (2024) 創建了一種更統一的上下文學習方法,將各種上下文視覺提示整合到一個統一的表示空間。MineDreamer Zhou et al. (2024a) 進一步開發了一種多用途的視覺提示生成方法,用于與當前決策意圖一致并在視覺上表達下一步目標的虛構視覺場景。
可學習或軟視覺提示用于適應 MLLM 中的視覺編碼器,使得視覺提示的使用更加可控和多樣化,符合下游任務。這些技術用于具有視覺指令的多模態指令調優。Rezaei et al. (2024) 研究了如何學習視覺提示以指導 ViT 中的注意機制。Li et al. (2023a) 微調 MLLM 以遵循使用可學習視覺提示的零-shot 示范指令。Chen et al. (2023a) 關注通過學習提示更好地將視覺輸入映射到相應的標簽。對于一些特定和領域導向的問題,Ren et al. (2024) 開發了一種可學習的視覺提示方法,作為圖像水印識別圖像的版權和所有權。
與此同時,可學習的視覺提示還可以在 MLLM 和下游任務之間進行遷移。VPGTrans Zhang et al. (2024a) 提出了一個可轉移的視覺提示生成器,以低成本訓練數據點和計算,將預訓練的源 MLLM 適應目標 MLLM。Memory-space visual prompt Jie et al. (2024) 在視覺變換器架構的關鍵和值層注入可學習提示,從而實現高效的視覺語言微調。Wu et al. (2023) 還注入軟視覺標記作為視覺組合操作,經過學習以更好地與少量示例組合多模態信息。黑箱視覺提示方法 Oh et al. (2023) 專注于強大的遷移學習,其中視覺提示幫助模型適應新的任務和領域,而無需直接訪問模型參數。
最近的視覺提示工作顯著提升了 MLLM 的視覺定位和指代能力。一些研究強調迭代反饋和多模態交互在細化語義定位中的重要性,其他則探索面向對象的感知和視覺關系理解。SoM-LLaVA Yan et al. (2024) 使用 Set-of-Mark 模型標記圖像中的所有物體,并要求模型列出所有項目。InstructDET Dang et al. (2023) 和 VTPrompt Jiang et al. (2024) 進一步實現了多模態定位,從文本中提取對象實體及其區域邊界框。
使用細粒度視覺定位編碼器,多個研究通過視覺線索引導 MLLM 的注意力至圖像中的相關區域,從而提高區域指代能力。CRG Wan et al. (2024) 使用對比區域引導,直接將模型的注意力引導到圖像中特定的興趣區域。RelationVLM Huang et al. (2024c) 利用視覺提示增強 MLLM 對物體空間關系的理解與推理。Shikra Chen et al. (2023b) 應用于視覺對話系統,使 MLLM 能夠根據對話中的指代線索做出更精確和上下文相關的互動。此外,還有多項工作旨在提供一個綜合框架,將不同粒度的視覺提示方法整合在一起,以實現更細粒度和靈活的多模態交互,包括自由形式視覺提示輸入 Lin et al. (2024a) 和視覺提示反饋機制 Liao et al. (2024)。
為了提高模型對復雜視覺關系的理解,并確保其能夠準確引用和描述多圖像輸入中的對象,多個研究提出了在多圖像輸入中使用視覺提示的新方法及評估基準。Fan et al. (2024c) 提出了一個包含多面板圖像的新基準數據集,以測試 MLLM 在區分面板間對象及導航不同視覺元素方面的能力。Pan et al. (2024) 利用形態標記自編碼提升模型在多圖像間的視覺定位能力。Li et al. (2023a) 微調 MLLM 以遵循多圖像中的上下文示范指令。此外,AIM Gao et al. (2024) 提出動態調整其定位和指代能力,以適應多個圖像中的新視覺上下文。
多種方法也被開發,以允許 MLLM 識別特定的興趣區域,提高其處理復雜和動態視頻內容的能力。OmAgent Zhang et al. (2024c) 開發了一種視覺提示方法,通過注釋一系列視覺特征,實現視頻理解中的任務劃分。RACCooN Yoon et al. (2024) 使用視覺提示引導 MLLM 識別視頻中的目標區域進行操作。Wu et al. (2024c) 在視頻中進行對象定位,使模型能夠理解和指代動態場景中的對象。
最近的研究使用視覺提示來增強 3D 視覺理解。Li et al. (2024) 構建了一個包含指令-響應對的廣泛數據集用于 3D 場景,并引入了 3DMIT,以高效地進行提示調優,同時消除 3D 場景與語言之間的對齊階段。DOrA Wu et al. (2024e) 提出了一個具有順序感知指代的新型 3D 視覺定位框架。該方法利用 LLM 推斷有序的物體序列,以引導逐步特征細化過程。 Cho et al. (2024) 構建了一個名為 LV3D 的大規模數據集,并引入了在該數據集上預訓練的新型 MLLM Cube-LLM。Zhang et al. (2024d) 提出了 Agent3D-Zero,采用鳥瞰圖像和選擇視角的新視覺提示,釋放 MLLM 觀察 3D 場景的能力。3DAP Liu et al. (2023a) 開發了一種新型視覺提示方法,創建一個 3D 坐標系統和附加注釋,以增強 GPT-4V 完成 3D 空間任務的能力。
本節討論視覺提示如何增強 MLLM 中的組合和多模態學習,促進視覺規劃、推理和行動生成等任務的改善。我們考察視覺提示如何促進復雜的逐步推理、決策制定以及對視覺生成模型的控制,擴展其在多種任務中的能力。我們還回顧了一些邊緣應用(附錄 9),這些應用可能尚未充分探索,且缺乏足夠的解決方案。
近期研究表明,視覺提示改善了視覺規劃任務。Zhou et al. (2024b) 提出了一個圖像思維(IoT)提示方法,促使 MLLM 自動設計視覺和文本步驟,并利用外部圖像處理工具生成多模態推理序列,用于輔助 MLLM 完成復雜視覺推理任務。OWG Tziafas 和 Kasaei (2024) 結合分割與抓取合成模型,通過分割、抓取規劃和排序解鎖基礎世界理解。Zhou et al. (2024a) 引入了想象鏈(CoI)方法,并在 Minecraft 中創建了一個具身代理 MineDreamer。該方法設想執行指令的逐步過程,借助 LLM 增強的擴散模型,將想象轉化為精確的視覺提示,支持代理行為的準確生成。BEVInstructor Fan et al. (2024a) 將鳥瞰圖表示作為視覺提示融入 MLLM,用于導航指令生成。AO-Planner Chen et al. (2024a) 實現了以可用性為導向的運動規劃和行動決策,采用 VAP 方法與高層 PathAgent。
為了實現更復雜的圖像推理,最近的研究將視覺提示與逐步推理方法結合。Luan et al. (2024) 提出了一種新穎的逐步推理框架,用于文本豐富的圖像理解,命名為 TextCoT。該方法包括三個階段:圖像概述以獲取全局信息、粗略定位以估計包含答案的部分,以及細粒度觀察以提供精確答案。Wu et al. (2024f) 提出了 DetToolChain,解鎖 MLLM 在物體檢測任務中的潛力。該方法涉及使用“檢測提示工具包”,其中包含視覺處理和檢測推理提示,并結合多模態檢測逐步推理方法,以推理檢測提示的順序實現。
本節介紹使用視覺提示技術對多模態大語言模型(MLLMs)進行對齊的關鍵方法,包括預訓練、微調和指令調優,旨在統一多模態提示并提高跨任務的可遷移性。除了模型訓練技術外,我們還總結了評估數據集(附錄8),這些數據集為未來開發更強大的視覺提示方法提供了靈感。
為了提升 MLLM 在更細粒度視覺感知或推理任務上的能力,研究集中在設計更好的預訓練目標,包括視覺提示。PSALM Zhang et al. (2024h) 擴展了 MLLM 在多種圖像分割任務上的能力,通過引入掩膜解碼器和靈活的輸入架構,統一了單一模型內的多種分割任務,支持通用、指代、交互和開放詞匯分割,同時在域內和域外的像素級分割任務上表現出色。OMG-LLaVA Zhang et al. (2024e) 提出了一個統一框架,將圖像級、對象級和像素級的推理與理解融合在一個模型中,結合通用分割方法作為視覺編碼器,并與 LLM 結合,使用戶能夠通過多種視覺和文本提示進行靈活互動。VisionLLM v2 Wu et al. (2024a) 引入了一個端到端的通用 MLLM,將視覺感知、理解和生成統一在一個框架內。該模型采用新穎的“超鏈接”技術將中央 LLM 與任務特定解碼器連接,支持跨數百個視覺和視覺-語言任務的信息傳輸和端到端優化。UrbanVLP Hao et al. (2024) 提出了一個針對城市區域概況的視覺-語言預訓練框架,整合了來自衛星(宏觀級)和街景(微觀級)影像的多粒度信息,克服了以往的局限性。該方法還結合了自動文本生成和校準機制,以生成高質量的城市區域文本描述,增強可解釋性。
Zhang et al. (2024g) 提出了可轉移視覺提示(TVP)方法,旨在提高軟視覺提示的可轉移性,這些提示是在不同 MLLM 之間用于下游任務的小量可學習參數。Lin et al. (2024b) 將細粒度外部知識(如 OCR 和分割)通過視覺提示整合到多模態 MLLM 中,直接將細粒度知識信息嵌入到空間嵌入圖中。CoLLaVO Lee et al. (2024) 通過一種名為 Crayon Prompt 的視覺提示增強了 MLLM 的對象級圖像理解,該提示源自全景分割模型生成的全景色彩圖。CityLLaVA Duan et al. (2024) 引入了一個高效的 MLLM 微調框架,專為城市場景設計,結合了視覺提示工程技術,包括邊界框引導、視角選擇和全局-局部聯合視圖。ViP-LLaVA Cai et al. (2024) 被賦予理解任意視覺提示的能力,通過直接將視覺標記疊加到圖像上進行訓練。ImageBrush Yang et al. (2024b) 提出了一個基于示例的圖像操作框架,無需語言提示即可學習視覺上下文指令。
顯式視覺提示(EVP)Liu et al. (2023b) 提出了一個統一的方法,用于低級結構分割任務,使用凍結的預訓練視覺變換器主干,并引入源自凍結的塊嵌入和高頻圖像成分的任務特定軟提示。BlackVIP Oh et al. (2023) 通過一個協調器適應大型預訓練模型,以生成軟視覺提示,并使用 SPSA-GC 進行高效梯度估計,從而在不同領域實現穩健的少量適應。基于迭代標簽映射的視覺提示(ILM-VP)Chen et al. (2023a) 通過雙層優化共同優化輸入模式和標簽映射,從而提高軟視覺提示的準確性和可解釋性。MemVP Jie et al. (2024) 通過將視覺信息直接注入 MLLM 的前饋網絡權重,有效地結合了預訓練視覺編碼器和語言模型,以應對視覺-語言任務,將其視為附加的事實知識。VPG-C Li et al. (2023a) 通過補全缺失的視覺細節來增強 MLLM 中的視覺提示,更好地理解具有交錯多模態上下文的演示指令。它擴展了傳統視覺提示生成器,通過 LLM 引導的上下文感知視覺特征提取來創建更全面的視覺提示。
指令調優已被證明能夠有效提高文本僅 LLM 和 MLLM 的整體能力,如指令跟隨和結構化輸出 Ouyang et al. (2022); Wang et al. (2022); Liu et al. (2024a)。對于專注于視覺提示的 MLLM,AnyRef He et al. (2024) 引入了一種統一的指代表示,使 MLLM 能夠通過指令調優處理多種輸入模態和視覺提示(文本、邊界框、圖像、音頻)。該模型使用特殊的標記和提示來格式化多模態輸入,使其能夠一致地處理各種指代格式。重新聚焦機制通過結合基礎文本嵌入增強掩膜嵌入,提高分割準確性。AnyRef 將視覺和音頻編碼器與 LLM 結合,使用投影層對不同模態在語言空間中進行對齊。該模型通過文本損失和掩膜損失的組合進行端到端的指令調優,使其能夠響應多模態提示生成文本描述和像素級分割。
除了使用單一數據點作為輸入優化性能的方法外,一些工作集中在利用視覺提示增強上下文學習(ICL)。圖像思維(IoT)提示 Zhou et al. (2024b) 是一種無訓練的方法,通過整合離散的圖像處理動作來增強 MLLM 在視覺問答任務上的能力。IoT 使 MLLM 能夠自動設計并提取逐步的視覺推理,將其與文本推理結合,提高了準確性和可解釋性。CRG Wan et al. (2024) 是一種無訓練的方法,通過將模型輸出與掩蓋特定圖像區域的情況進行對比,改善 MLLM 的視覺定位,指導模型關注相關圖像區域。AIM Gao et al. (2024) 使任何 MLLM 能夠通過將演示中的圖像信息聚合到相應文本標簽的潛在空間中,執行高效的 ICL,這減少了內存成本,通過在聚合后丟棄視覺標記,近似多模態 ICL 提示僅包含單個查詢圖像。I2L Wang et al. (2024a) 將演示、視覺線索和推理結合為單一圖像,通過 ICL 增強多模態模型在復雜任務上的表現。I2L-Hybrid 通過在每個任務實例中自動選擇 I2L 和其他上下文學習方法擴展了這一方法。
通過視覺提示的少量學習也能在最低計算成本和更好的數據效率下提高 MLLM 的能力。CoMM Chen et al. (2024b) 提出了一個高質量一致的交錯圖像-文本數據集,旨在增強 MLLM 的生成能力,并調查其上下文學習能力。M2oEGPT Sheng et al. (2024) 提出了一個 ICL 框架,通過多模態量化和統一嵌入,使得在通用標記嵌入空間中聯合學習多模態數據,結合自回歸變換器與專家混合(MoEs)進行穩定的多任務共訓練。Partial2Global Xu et al. (2024a) 通過基于變換器的列表排序器選擇視覺 ICL 中的最佳上下文示例,比較多個備選樣本,并使用一致性感知排名聚合器實現全局一致的排名。Hossain et al. (2024) 為語義分割中的基礎類和新類引入可學習的視覺提示,并提出了一種新類-基礎類因果注意機制,使新提示能夠在不降低基礎類性能的情況下被基礎提示上下文化。Emu2 Sun et al. (2024) 是一個訓練 MLLM 以預測多模態序列中下一個元素的模型。其統一架構使得強大的多模態上下文學習能力得以實現,使其能夠快速適應新任務,僅需幾個示例。
在本次調研中,我們首次全面回顧了多模態大語言模型(MLLMs)中的視覺提示方法。我們對各種視覺提示技術進行了分類,并討論了它們的生成過程,考察了這些技術如何融入 MLLMs,以增強視覺推理和感知能力。我們的工作還分析了現有的訓練和上下文學習方法在視覺提示中的應用。最后,我們提出了未來的研究方向,鼓勵利用視覺提示來改進 MLLM 的組合推理能力。
本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。
流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。
盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。
實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:
在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。
接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。
與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。
數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。
盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。
總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。
視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。
開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。
近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。
盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。
具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:
我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。
一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。
如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。
三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
本綜述全面分析了多模態大型語言模型(MLLMs)——亦稱為大型視覺語言模型(LVLMs)——中的幻覺現象。這些模型在多模態任務中展示了顯著的進步和非凡的能力。盡管這些發展充滿希望,MLLMs常常生成與視覺內容不一致的輸出,這一挑戰被稱為幻覺,它對模型的實際部署構成了重大障礙,并引起了對其在現實世界應用中可靠性的關注。這個問題日益受到關注,促使人們努力檢測和緩解這種不準確性。我們回顧了近期在識別、評估和緩解幻覺方面的進展,提供了關于幻覺成因、評估基準、度量和應對策略的詳盡概覽。此外,我們還分析了當前的挑戰和限制,并提出了開放性問題,勾勒出未來研究的潛在途徑。通過對幻覺成因、評估基準和緩解方法進行細致的分類和概述,本綜述旨在加深對MLLMs中幻覺的理解,并激發該領域的進一步發展。通過我們徹底和深入的審查,我們為加強MLLMs的魯棒性和可靠性的持續對話做出了貢獻,為研究人員和實踐者提供了寶貴的見解和資源。資源可在以下網址獲取://github.com/showlab/Awesome-MLLM-Hallucination.
** 引言**
近年來,大型語言模型(LLMs)[29, 81, 85, 99, 132]在自然語言處理(NLP)的廣泛任務中占據了主導地位,實現了語言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的進展。借助強大的LLMs能力,多模態大型語言模型(MLLMs)[22, 75, 111, 138],有時被稱為大型視覺語言模型(LVLMs),正在吸引越來越多的關注。MLLMs在多模態任務中表現出有希望的能力,如圖像標題生成[66]、視覺問題回答[22, 75]等。然而,隨著MLLMs的快速進展,這些模型傾向于生成幻覺[69, 76, 137],產生看似合理但實際上是虛假的內容,這一趨勢令人關注。
幻覺問題起源于LLMs本身。在NLP領域,幻覺問題被實證地分為兩類[44]:1) 真實性幻覺,強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實不一致或捏造;2) 忠實性幻覺,指生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內部的自洽性。與純LLMs相比,MLLMs中的幻覺研究主要集中在生成文本響應與提供的視覺內容之間的差異[69, 76, 137],即跨模態不一致。這種差異表明,LLMs的研究成果不能簡單地轉移到MLLMs上。因此,全面調查MLLMs中幻覺現象的最新進展,以激發新思想并促進該領域的發展,是迫切需要的。
在計算機視覺領域,對象識別是核心任務,包括子任務如對象分類[60]、檢測[27]和分割[37]等。同樣,MLLMs中的幻覺研究主要集中在對象幻覺上。在MLLMs時代之前,有一項關于圖像標題生成中對象幻覺的開創性工作[90],通過比較標題和圖像內容評估對象存在性。在MLLMs中,對象幻覺被實證地分為三類:1) 類別,識別給定圖像中不存在或錯誤的對象類別;2) 屬性,強調對象的屬性描述,如顏色、形狀、材料等;3) 關系,評估對象之間的關系,如人與對象的互動或相對位置。需要注意的是,一些文獻可能將對象計數、對象事件等視為獨立的幻覺類別;然而,在本工作中,我們將它們歸入屬性類別。
由于LLMs中幻覺的根本原因已有眾多研究,因此,前沿MLLMs所面臨的獨特挑戰需要進行深入調查。我們的分析專門針對MLLMs中幻覺的獨特起源,涵蓋了從數據、模型、訓練到推理階段的一系列貢獻因素。此外,我們提供了專門為評估MLLMs中幻覺而設計的基準和度量的全面概述。然后,我們回顧和討論了針對識別原因量身定做的緩解幻覺問題的最新工作。
通過我們的全面綜述,我們旨在促進MLLMs領域的發展,并提供有價值的見解,加深對MLLMs中幻覺相關機會和挑戰的理解。這種探索不僅增強了我們對當前MLLMs局限性的理解,還為未來研究和開發更加穩健和可靠的MLLMs提供了重要的指導。
與現有綜述的比較。在追求可靠的生成性AI方面,幻覺作為一個主要挑戰,已經引發了一系列關于其最新進展的綜述論文。對于純LLMs,已有幾篇綜述[44, 129],描述了LLMs中幻覺的格局。相比之下,關于MLLMs領域的幻覺的綜述非常少。據我們所知,目前只有一項與我們同時進行的短期綜述[76],探討了LVLMs的幻覺問題。然而,我們的綜述在分類和范圍上都有所不同。我們呈現了一種分層且細致的幻覺分類,如圖1所示,清晰地描繪了這一領域的格局。此外,我們的方法不僅限于[76]中規定的特定模型架構,而是通過追溯各種影響因素,分析幻覺的成因。我們涵蓋了更廣泛的文獻,無論是在論文數量還是分類結構上。此外,我們的緩解策略與潛在原因緊密相關,確保了一種連貫和有針對性的方法。
本綜述的組織。在本文中,我們呈現了關于MLLMs中幻覺最新發展的全面綜述。綜述的組織如下:我們首先提供足夠的背景并定義與LLMs、MLLMs、幻覺等相關的概念。接下來,我們深入分析導致MLLMs中幻覺的各種因素。在此之后,我們展示了用于評估MLLMs中幻覺的一組度量和基準。然后,我們詳細介紹了一系列旨在緩解MLLMs中幻覺的方法。最后,我們深入探討了當前限制和未來前景的挑戰和開放問題,提供見解并勾畫出即將到來的研究路徑。
數據
數據是MLLMs的基礎,使它們能夠獲得跨模態理解和遵循指令的能力。然而,數據也可能無意中成為MLLMs幻覺的來源。這主要表現在三個方面:數量、質量和統計偏差。 1.1 數量。深度學習模型對數據的需求很大,特別是像MLLMs這樣的大模型。數據量在構建穩健和可靠的MLLMs中扮演著重要角色。目前,圖像-文本配對數據集[92]和視覺QA數據[48, 80]被用于訓練MLLMs。盡管這些數據集通常比計算機視覺中的典型數據集大,但在數量上仍遠不及用于訓練LLMs的純文本數據。數據不足可能導致問題多模態對齊,從而產生幻覺[96, 103]。 1.2 質量。鑒于對大規模訓練數據的需求日益增加,啟發式數據收集方法被用來高效地收集大量數據。雖然這些方法提供了大量數據,但它們并不保證數據質量,從而增加了幻覺的風險。與幻覺相關的數據質量可以進一步分為以下三個方面。
噪聲數據。如定義部分所述,訓練MLLMs涉及兩個階段。預訓練階段使用從網絡上爬取的圖像-文本對,這些數據樣本可能不準確、未對齊或損壞。噪聲數據將限制跨模態特征對齊[117, 120],這是MLLMs的基礎。至于指令調整數據,流行的方法如LLaVA[75]使用先進的GPT-4[82]模型生成指令。然而,ChatGPT是一個不能解釋視覺內容的語言模型,導致噪聲數據的風險。此外,語言模型本身就存在幻覺問題[44],進一步增加了風險。LLaVA-1.5[74]加入了人工注釋的QA數據進入指令遵循,顯示了改進的結果,揭示了噪聲數據的影響。
缺乏多樣性。最近的研究[73, 117]顯示,數據的多樣性也起著至關重要的作用。對于兩個訓練階段使用的數據,指令調整數據更可能有這個問題,因為它通常數量較少。一個顯著的特點是,大多數遵循指令的數據樣本都是關于圖像內容的對話。我們將這種類型的數據視為正向指令,因為它總是忠實地反映圖像內容。相比之下,負向指令數據[73]和拒絕回答響應[11]在數據集中很少。鑒于這樣的訓練數據,最近的研究[69, 73]觀察到的一個潛在缺點是,當前模型傾向于對呈現給模型的任何指令回答“是”,即使正確的答案應該是“否”,導致幻覺。這種現象表明了數據多樣性的影響。
詳細描述(開放問題)。文本描述的細節程度對這一問題的影響仍是一個開放問題。如2.2節所討論,預訓練數據中的文本,如LAION[92],通常描述突出對象的總體內容。而在指令調整階段的文本,如LLaVA-150k[75],包含更詳細的描述。這個LLaVA-150k數據集是基于視覺模型識別的對象由GPT-4生成的。最近的一項研究[16]認為,在訓練數據中,與對象位置、屬性和非突出對象相關的詳細描述通常缺失。這種屬性導致跨模態對齊不完整,剝奪了模型的基礎能力[62, 126]。然而,另一項研究[120]假設指令調整數據中的文本描述包含過多細節,超過了MLLMs的感知限制。當使用這種詳細數據進行訓練時,模型可能會試圖匹配真實標注標題的細節程度和長度分布,從而冒險表達它無法從圖像中辨識的細節,因此展現出幻覺。訓練數據的細節水平仍是一個開放問題。
1.3 統計偏差。如[23]所述,神經網絡,特別是大型語言模型,具有記憶訓練數據的內在傾向。訓練數據集中名詞(如對象)的分布對模型的行為有強烈的影響。經常出現的對象和對象共現是兩種顯著的統計偏差類型,如[69, 90, 137]所討論。例如,‘人’可能是訓練數據中出現最頻繁的對象之一。在推理過程中,即使給定的圖像中不包含人,模型仍然傾向于預測存在人。另一方面,對象共現是指模型會記住哪兩個對象通常“一起出現”的現象[90]。例如,給定一個帶有冰箱的廚房圖像,當詢問微波爐時,MLLMs傾向于回答‘是’,因為在廚房場景中冰箱和微波爐經常一起出現。大多數數據集都存在偏見。增加數據規模可能緩解這一影響,但鑒于現實世界的長尾分布,它無法完全解決。
2 模型
目前,流行的MLLMs的架構通常包括幾個組件,通常包括預訓練的視覺模型、預訓練的LLM和如上所述的對齊模塊。由于這些模型是連接在一起的,而不是從頭開始進行端到端訓練,每個模塊的錯誤都可能累積。每個模塊的不良和有問題的輸出可能導致幻覺。
弱視覺模型。如相關工作[31, 90, 103]所述,幻覺的一個主要潛在原因是視覺模型弱,這可能導致視覺概念的誤分類或誤解。即使是最強大的視覺模型在編碼過程中也可能仍會經歷信息丟失。弱視覺模型意味著感知能力弱,這從根本上破壞了多模態理解。
語言模型先驗。現代MLLMs的架構是不平衡的。通常,語言模型比視覺模型大得多,也強得多,導致傾向于優先考慮基于語言的信息[31, 63, 64, 73, 90]。一個典型的現象是,語言模型中蘊含的知識,也稱為參數知識,可以覆蓋視覺內容。例如,給定一個顯示紅色香蕉的圖像,這在現實世界中是違反直覺的,一個MLLM可能仍然回應“黃色香蕉”,因為“香蕉是黃色的”是LLM中根深蒂固的知識。這種語言/知識先驗使模型忽視視覺內容并響應幻覺。
弱對齊界面。對齊界面在MLLMs中扮演著至關重要的角色,因為它充當兩種模態之間的橋梁。一個弱的對齊界面很容易導致幻覺。一個弱對齊界面的潛在原因是數據,如前面章節所討論的。除此之外,界面架構本身和訓練損失設計也很重要[52, 77, 123]。最近的研究[52]認為,類似LLaVA的線性投影界面保留了大部分信息,但缺乏對投影特征的監督。[52]中的可視化顯示,投影層后的特征與語言嵌入仍然不同。分布差異導致跨模態交互出現問題,導致幻覺。另一方面,類似Q-former[66]的架構對提取的視覺特征有多樣化的監督,將其與語言嵌入空間對齊。然而,可學習查詢的使用不可避免地導致細粒度視覺信息的丟失。
3 訓練
MLLMs的訓練目標基本上與LLMs相同,即自回歸下一個令牌預測損失。這種損失方法直接而有效,且易于擴展,表現出在語言建模中的良好性能。然而,MLLMs領域的一些研究表明,由于視覺內容的復雜空間結構,下一個令牌預測損失可能不適合學習視覺內容[5, 16]。此外,這種損失在令牌級別進行優化,而缺乏序列級別的監督[5]。另一個觀點是,與訓練LLMs不同,訓練MLLMs的程序中缺少RLHF階段[96, 119],成為幻覺的潛在原因。
4 推理
就推理而言,一些工作也指出自回歸生成中存在潛在問題。在生成過程中,隨著序列長度的增加,自注意力將更多地聚焦于之前生成的文本令牌,即視覺內容的注意力被稀釋[45, 102-104]。通過在生成期間可視化注意力圖[45, 104],可以觀察到生成內容更多地關注之前的特殊令牌,如標點符號,而不是視覺內容令牌。'失去注意力'的問題也會導致模型的輸出響應與視覺內容無關。
結論
基于強大的大型語言模型,多模態大型語言模型在各種多模態任務中表現出卓越的性能。然而,幻覺現象對MLLMs的實際應用提出了重大挑戰,引發了關于安全性、可靠性和信任度的不可否認的擔憂。在這篇全面的綜述中,我們對多模態大型語言模型中的幻覺進行了徹底的檢查,重點關注其潛在原因、評估指標、基準和緩解方法。盡管取得了相當的進展,幻覺仍然是一個復雜且持續的問題,需要持續的研究。多模態大型語言模型中的幻覺挑戰仍然引人注目,需要持續的審視和創新。鑒于這些挑戰,我們在這個新興領域概述了幾個有希望的未來發展方向。通過導航幻覺的復雜景觀,我們希望這篇綜述能成為解決MLLMs中幻覺現象復雜性的基礎資源。我們設想這篇綜述能激勵研究人員和實踐者致力于推進研究和在這一關鍵研究領域開發穩健的解決方案。
近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。
近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。
“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:
上下文學習 * 規模定律 * 同質化
上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。
通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強
這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。
近期,大型視覺-語言模型(LVLMs)的發展在人工智能領域引起了越來越多的關注,因其實際應用潛力。然而,“幻覺”——或更具體地說,事實視覺內容與相應文本生成之間的錯配,為利用LVLMs提出了一個重大挑戰。在這份全面的綜述中,我們解剖與LVLM相關的幻覺現象,試圖建立一個概覽并促進未來的緩解措施。我們的綜述從闡明LVLMs中幻覺的概念開始,呈現了多種幻覺癥狀并突出了LVLM幻覺固有的獨特挑戰。隨后,我們概述了專門為評估LVLMs獨有的幻覺而定制的基準和方法論。此外,我們深入調查了這些幻覺的根本原因,包括來自訓練數據和模型組件的洞察。我們還批判性地回顧了緩解幻覺的現有方法。本綜述最后討論了與LVLMs中的幻覺相關的開放問題和未來方向。
1. 引言
在人工智能迅速發展的領域中,如GPT-4 [OpenAI, 2023]、LLaMA [Touvron等,2023a]和LLaMA2 [Touvron等,2023b]等大型語言模型(LLMs)在自然語言理解(NLU)和生成(NLG)方面取得了顯著進步。為了利用LLMs的NLU和NLG能力來處理視覺-語言任務,一種流行的方法是將視覺特征作為補充輸入插入到LLMs中,并將它們與文本特征對齊。這種方法已經在幾個大型視覺-語言模型(LVLMs)中得到應用,如MiniGPT-4 [Zhu等,2023]、LLaVA [Liu等,2023c]和LLaVA-1.5 [Liu等,2023b]。盡管現有LVLMs顯示出了令人充滿希望的結果,但一個不可忽視的問題一直阻礙著它們的實際應用:幻覺。LVLM中的幻覺指的是圖像的事實內容與相應生成的文本內容之間的不一致,類似于在大型語言模型中遇到的純文本幻覺[Huang等,2023a]。
現有研究[Rohrbach等,2018; Li等,2023b; Hu等,2023; Zhai等,2023]已經解決了圖像標題生成模型中的幻覺問題,主要關注“對象的存在”,特別是給定圖像中描繪的對象是否被模型生成的文本準確描述。與在封閉領域內訓練的圖像標題生成模型相比,LVLMs利用LLMs的強大理解和表達能力,獲得更詳細和可解釋的生成描述。然而,這些增強的能力也多樣化并可能加劇了幻覺,這不僅限于對象的存在,還表現在描述性錯誤中,如屬性和關系錯誤。我們關注視覺幻覺,指的是圖像傳達的語義內容與模型生成的文本內容之間的所有不一致。
LVLMs中的幻覺癥狀是多方面的。從認知角度來看,幻覺可以表現為真/假判斷的錯誤和對視覺信息描述的不準確。例如,正如圖1的第一個例子所示,模型對“圖像中有貓嗎?”和“圖像中有四只鳥嗎?”等問題的響應有缺陷,顯示出錯誤的事實辨別。此外,第二個例子顯示了生成的描述與視覺事實的不一致。同時,從視覺語義的角度提供了一個三元分類:對象、屬性和關系上的幻覺。例如,模型在圖像中生成不存在的對象如“筆記本電腦”和“小狗”,提供錯誤的屬性描述如將男人描述為“長發”,并對對象之間的關系進行不準確的斷言,如聲稱自行車“在”男人“前面”。當前方法基于模型的認知性能評估這些LVLMs中的幻覺,主要關注兩個方面:非幻覺生成和幻覺鑒別。前者涉及對模型響應中的幻覺元素進行詳細分析并量化它們的比例。后者,另一方面,只需要對響應是否包含任何幻覺內容進行二元判斷。這些方法在§3中進行了全面討論。
盡管LLM社區已廣泛討論了LLMs中幻覺的原因,但LVLMs的視覺模態引入了分析這些事件的獨特挑戰。我們對LVLMs中的幻覺進行了徹底分析,重點關注訓練數據和模型特性。我們的分析表明,LVLMs中的幻覺不僅由LLMs的生成性質引起,還由偏見訓練數據、視覺編碼器無法準確地定位圖像、不同模態之間的錯位、對上下文關注不足以及許多其他因素引起。在此之后,我們提供了現有幻覺緩解方法的全面概述。針對這些原因,當前的緩解方法主要集中在訓練數據的優化、LVLMs內各個模塊的精細化以及生成輸出的后處理上。這些方法被用來減少幻覺的發生,從而產生更忠實的響應。最后,我們列出了幾個發展LVLMs中幻覺研究的重要方向。 總之,這項研究旨在為LVLMs的發展提供洞察,并探索與LVLMs幻覺相關的機會和挑戰。這一探索不僅幫助我們了解當前LVLMs的局限性,還為未來的研究和開發更可靠、更高效的LVLMs提供了重要指導。
LVLMs是處理視覺和文本數據以解決涉及視覺和自然語言的復合任務的高級多模態模型。結合了LLMs的能力,LVLMs是之前視覺-語言預訓練模型(VLPMs)[Long等,2022]的演進。 LVLM架構通常包含三個組件:視覺編碼器、模態連接模塊和LLM。視覺編碼器,通常是CLIP視覺編碼器[Radford等,2021]的一個調整,將輸入圖像轉換為視覺令牌。連接模塊旨在將視覺令牌與LLM的詞嵌入空間對齊,確保LLM可以處理視覺信息。模態對齊的方法有多種,包括交叉注意力[Alayrac等,2022]、適配器[Gao等,2023]、Q-Formers[Li等,2023a; Dai等,2023a; Zhu等,2023],以及更簡單的結構如線性層或多層感知器(MLP)[Liu等,2023c; Chen等,2023b; Liu等,2023b]。LLM在LVLMs中像中央處理單元一樣,接收對齊的視覺和文本信息,隨后綜合這些信息以產生響應。 LVLMs的訓練涉及兩個關鍵階段:(1)預訓練,LVLMs從對齊的圖像-文本對中獲取視覺-語言知識;(2)指令調優,期間LVLMs學習使用多樣化的任務數據集遵循人類指令。完成這些階段后,LVLMs可以高效地處理和解釋視覺和文本數據,使它們能夠在像視覺問題回答(VQA)這樣的復合多模態任務中進行推理。
LVLMs中的幻覺指的是視覺輸入(視為“事實”)和LVLM的文本輸出之間的矛盾。通過視覺-語言任務的視角,LVLM幻覺癥狀可以被解釋為判斷或描述的缺陷。 當模型對用戶的查詢或陳述的響應與實際視覺數據不一致時,會發生判斷幻覺。例如,如圖1所示,當面對展示三只鳥的圖像并詢問圖片中是否有貓時,模型錯誤地肯定回答“是”。另一方面,描述幻覺是無法忠實地描繪視覺信息的失敗。例如,在圖1下部,模型不準確地描述了男人的頭發、杯子的數量和顏色、自行車的位置,并編造了不存在的對象,如筆記本電腦和狗。 從語義角度來看,這種錯位可以通過聲稱不存在的對象、不正確的對象屬性或不準確的對象關系來表征,如不同顏色所突出的那樣。
LVLMs通過結合視覺和語言模塊來處理視覺-語言任務。然而,這種整合也在幻覺檢測、因果推理和緩解方法方面帶來了獨特的挑戰。 幻覺檢測困難:LVLM的多模態性質妨礙了幻覺的檢測。LVLM幻覺可能在包括但不限于對象、屬性和關系等多個語義維度上表現出來[Zhai等,2023; You等,2023]。為了全面檢測這些幻覺,模型不僅需要進行自然語言理解,還需要使用細粒度的視覺注釋并將它們與生成的文本精確對齊。
LVLMs中幻覺的原因通常是多方面的。一方面,LLMs和LVLMs共享的數據相關問題,如錯誤信息、偏見以及知識邊界限制[Hu等,2023]。然而,LVLMs獨特地受到它們結合視覺數據的影響。例如,視覺不確定性,如不清晰或扭曲的圖像,可以加劇LVLMs中的語言先驗和統計偏見,導致更嚴重的幻覺[Liu等,2023a]。
除了采用針對LLM的幻覺緩解方法,如數據質量提升、編碼優化和與人類偏好對齊外,LVLM特有的方法還包括精煉視覺表現和改進多模態對齊。例如,有建議擴大視覺分辨率可以有效減少幻覺[Bai等,2023]。盡管如此,使用大量數據訓練高分辨率視覺編碼器可能需要大量資源。因此,探索更具成本效益的增強視覺表現的策略是至關重要的。此外,視覺和文本令牌之間的顯著差距表明,改善視覺-語言令牌對齊可能降低幻覺發生率[Jiang等,2023]。
在建立了LVLM中幻覺的概念之后,我們轉向檢查現有的LVLM幻覺評估方法和基準。對應于圖1中提到的描述和判斷任務中的幻覺癥狀,當前的評估方法可以分為兩大類:(1) 評估模型生成非幻覺內容的能力,和(2) 評估模型幻覺鑒別的能力,如圖2所示。同樣,基于評估任務,基準也可以被分類為區分性和生成性兩種,如表1所示。
手工流程方法(Handcrafted Pipeline Methods):這些方法通過手動設計多個步驟,具有強解釋性。例如,CHAIR(Caption Hierarchy and Image Relationship)專注于評估圖像描述中對象幻覺,通過量化模型生成與真實描述之間的差異。CCEval(Contrastive Caption Evaluation)則在應用CHAIR之前使用GPT-4進行對象對齊。FAITHSCORE提供了一種無參考的、細粒度的評估方法,通過識別描述性子句、提取原子事實,并與輸入圖像進行比較。 * 基于模型的端到端方法(Model-based End-to-End Methods):這些方法直接評估LVLMs的響應。LLM-based Evaluation使用先進的LLM(如GPT-4)基于幻覺來評估LVLM生成的內容。幻覺數據驅動模型評估則構建標記的幻覺數據集,用于微調模型以檢測幻覺。例如,M-HalDetect創建了一個帶有注釋的LVLM圖像描述數據集,并在該數據集上微調InstructBLIP模型以識別幻覺。
這些方法通常采用問答格式,詢問LVLMs關于圖像內容的問題,并評估模型的響應。例如,POPE(Perceptual Object Presence Evaluation)設計了關于圖像中對象存在的二元(是/否)問題來評估LVLMs的幻覺鑒別能力。CIEM(Contrastive Instruction Evaluation Method)類似于POPE,但通過ChatGPT自動化對象選擇。NOPE(Negative Object Presence Evaluation)是另一種基于VQA的方法,旨在評估LVLMs識別視覺查詢中對象缺失的能力。
基準測試是專門針對LVLMs的幻覺問題設計的,旨在評估模型在非幻覺內容生成或幻覺鑒別方面的能力。這些基準可以分為兩類:
這些基準專注于評估模型在對象幻覺方面的性能。例如,POPE、NOPE和CIEM都是判別性基準,它們的數據集大小分別為3000、17983和72941,主要關注對象幻覺,使用準確度作為評估指標。
生成性基準擴展了評估范圍,包括屬性和關系幻覺。例如,AMBER(A Multimodal Language Model Benchmark)是一個綜合性基準,集成了生成性和判別性任務。生成性基準的評估指標通常比判別性基準更復雜和多樣化,因為它們需要針對特定的幻覺類別設計定制的評估方法。
這些評估方法和基準為研究者提供了一套工具,以系統地分析和改進LVLMs在處理視覺-語言任務時的性能,特別是在減少幻覺方面。通過這些工具,研究者可以更好地理解模型的局限性,并開發出更有效的緩解策略。
數據偏見(Data Bias):訓練數據中可能存在分布不平衡,例如在事實判斷問答對中,大多數答案可能是“是”(Yes),導致模型傾向于給出肯定的回答,即使在不準確的情況下。 * 注釋不相關性(Annotation Irrelevance):生成的指令數據可能包含與圖像內容不匹配的對象、屬性和關系,這可能是由于生成模型的不可靠性造成的。
有限的視覺分辨率(Limited Visual Resolution):視覺編碼器可能無法準確識別和理解高分辨率圖像中的所有細節,這可能導致在生成描述時出現幻覺。 * 細粒度視覺語義(Fine-grained Visual Semantics):視覺編碼器可能無法捕捉到圖像中的所有細粒度信息,如背景描述、對象計數和對象關系,從而導致幻覺。
連接模塊的簡單性(Connection Module Simplicity):簡單的連接模塊,如線性層,可能無法充分對齊視覺和文本模態,增加了幻覺的風險。 * 有限的標記約束(Limited Token Constraints):在模態對齊過程中,由于標記數量的限制,可能無法完全編碼圖像中的所有信息,導致信息丟失和幻覺。
上下文注意力不足(Insufficient Context Attention):在解碼過程中,模型可能只關注部分上下文信息,忽視了輸入的視覺信息,導致生成的文本內容與視覺輸入不一致。 * 隨機采樣解碼(Stochastic Sampling Decoding):隨機采樣引入了解碼過程中的隨機性,雖然有助于生成多樣化的內容,但也增加了幻覺的風險。 * 能力錯位(Capability Misalignment):LLM在預訓練階段建立的能力與在指令調整階段提出的擴展要求之間存在差距,導致模型生成超出其知識范圍的內容,增加了幻覺的可能性。
這些原因相互交織,共同作用于LVLMs,導致在視覺-語言任務中出現幻覺現象。為了緩解這些問題,研究者們提出了一系列針對性的優化策略,旨在提高模型的準確性和可靠性。
LVLM(Large Vision-Language Models)中的幻覺問題是指模型生成的文本內容與實際視覺輸入之間存在不一致性。為了緩解這一問題,研究者們提出了多種方法,這些方法主要針對幻覺產生的原因進行優化。數據優化:通過改進訓練數據來減輕幻覺。視覺編碼器增強(Vision Encoder Enhancement):提高圖像分辨率和感知能力。連接模塊增強(Connection Module Enhancement):開發更強大的連接模塊以更好地對齊視覺和語言模態。LLM解碼優化(LLM Decoding Optimization):通過優化解碼策略和與人類偏好對齊來減少幻覺。后處理(Post-processing):通過額外的模塊或操作來修正生成的輸出。
配備了先進的視覺編碼器、強大的LLMs和模態對齊模塊,LVLMs在開放領域的視覺-語言任務中表現出色。然而,幻覺嚴重挑戰了LVLMs的實際應用。在這項綜述中,我們對LVLMs中幻覺現象進行了細致的調查。這項探索涵蓋了對這些幻覺背后基本原因的詳細分析,評估了創新的評估方法及相關基準,并討論了有效的緩解方法。我們還深入探討了現有的挑戰,并討論了可能的方向。這項綜述旨在為解決LVLMs中幻覺的復雜性奠定基礎,并促進未來研究,以便在各種應用中實際實施這些模型。 參考:
eason. //zhuanlan.zhihu.com/p/681171544 參考文獻 [Alayrac et al., 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, volume 35, 2022. [Bai et al., 2023] Jinze Bai, Shuai Bai, Shusheng Yang, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. [Chen et al., 2023a] Chi Chen, Ruoyu Qin, Fuwen Luo, et al. Position-enhanced visual instruction tuning for multimodal large language models. arXiv preprint arXiv:2308.13437, 2023. [Chen et al., 2023b] Jun Chen, Deyao Zhu, Xiaoqian Shen, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478, 2023. [Chen et al., 2023c] Zhe Chen, Jiannan Wu, Wenhai Wang, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.
在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。
自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。
傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。
大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。
鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。
本綜述的組織:我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。
在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。
當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。
本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。
基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。
結論
在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。
在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。
鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)。我們將現有工作分類為三個目的類別:深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。
//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875
**1 引言 **
隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。
DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。
我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。
通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。
將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。
與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。
解釋:深度模型的特征歸因和推理過程
解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。
影響:訓練樣本的數據價值和異常檢測
通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。
洞察:從數據中發現模式和知識
XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論
本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。
總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。