亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型視覺語言模型(LVLMs)通過在大型語言模型(LLMs)的基礎上整合視覺模態,增強了用戶交互并豐富了用戶體驗。它展現了強大的信息處理和生成能力。然而,幻覺現象的存在限制了LVLMs在各個領域的潛力和實際效用。盡管已有大量工作致力于幻覺的減緩與糾正,但針對這一問題的綜述性研究卻較為少見。在本次綜述中,我們首先介紹了LVLMs和幻覺現象的背景。隨后,介紹了LVLMs的結構以及幻覺生成的主要原因。接著,我們總結了近期在幻覺糾正和減緩方面的相關工作。此外,我們還從判斷性和生成性角度介紹了LVLMs幻覺評估的可用基準。最后,我們提出了一些未來的研究方向,以增強LVLMs的可靠性和實用性。

近年來,大型語言模型(LLMs)在自然語言處理(NLP)領域取得了優異的成績。基于Transformer的LLMs通過在大規模語料庫上學習語言模式和知識,獲得了理解和生成自然語言的能力。許多LLMs在NLP領域中涌現,如GPT-4 [1]、Llama [2]、InstructGPT [3]、PaLM [4]和Vicuna [5]。在大規模語料庫和大量參數的支持下,這些LLMs能夠完成廣泛的任務,并展示出強大的零樣本能力。盡管LLMs具有令人興奮且穩健的特性,但它們僅限于文本領域。越來越多的研究提出將視覺信息融入LLMs中,這些新模型稱為大型視覺語言模型(LVLMs),可應用于多種場景,如醫療診斷與輔助[6]、[7],藝術與娛樂[8],自動駕駛[9],虛擬助手和聊天機器人[10]、[11]。憑借其出色的性能,LVLM吸引了眾多用戶。然而,一些用戶發現,LVLM生成的信息在事實層面上是錯誤的,但看似合理,例如錯誤地報告不存在的物體、物體屬性、行為和物體間關系。上述現象被稱為幻覺,這使得LVLM難以應用于對準確性和可靠性要求較高的場景中。例如,幻覺可能會誤導用戶,提供錯誤或不準確的信息,甚至在內容摘要或信息檢索中導致錯誤信息的傳播。如果LVLM頻繁生成幻覺,可能會影響其發展。因此,糾正或減緩幻覺對于LVLMs來說是必要的。

為了構建一個可信賴的LVLM,幻覺是必須克服的障礙。因此,出現了大量關于減緩或糾正LVLM幻覺的研究工作。目前,已有幾篇綜述總結了LLMs中的幻覺糾正工作[12]、[13]。在多模態領域,也有部分工作[14]、[15]致力于總結多模態大型語言模型中的幻覺現象。然而,我們的綜述采用了明顯不同的分類策略。我們根據不同幻覺糾正工作的核心思想以及幻覺評估基準進行了分類。

在本文中,我們對LVLM幻覺現象的最新進展進行了綜述。首先,我們介紹了與LVLM和幻覺相關的背景知識。在第二節中,我們提供了LVLM的結構及其產生幻覺的主要原因。第三節總結了幻覺的糾正和減緩工作。接下來,第四節中我們介紹了用于評估LVLM幻覺的基準。最后,在第五節中,我們對LVLM幻覺糾正的未來前景提供了一些見解,并描繪了潛在的研究方向。

II. LVLM的背景

**A. LVLM的結構

LVLMs可以分為三個模塊:感知模塊、跨模態模塊和響應模塊,如圖1(A)所示。通過這三個模塊,視覺信息被提取并映射到文本空間。進一步地,視覺信息和文本信息結合以生成最終的響應。 感知模塊通常使用視覺Transformer(ViT)[16]或其變體[17]將圖像轉換為高維向量。在輸入ViT之前,圖像被分割成若干patch,并添加位置信息。如圖1(A)所示,ViT是一個僅包含編碼器的模型,由N個編碼器組成。編碼器的多頭注意力機制是Transformer模型的核心組件,具有強大的并行計算能力,能夠在序列的不同部分之間建立聯系。 跨模態模塊旨在彌合視覺和語言之間的模態差距[18]。近年來,LVLMs中的跨模態模塊采用了可學習接口[10]、[19]、Q-former[20]和pereceiver resampler[21]等結構。可學習接口基于投影矩陣將視覺信息映射到文本空間。Q-former通過與文本交互視覺信息來彌合模態間的差距。pereceiver resampler通過使用交叉注意力將視覺特征編碼到文本中。 響應模塊充當LVLMs的大腦。因此,它需要強大的能力來處理和分析視覺和文本的輸入,以生成最終答案。響應模塊通常采用LLMs,如Vicuna [5]、Llama [2]、Flan-PaLM [22]和Llama2 [23]。ViT和LLM都是基于Transformer的,但LLM是僅包含解碼器的結構。解碼器的掩碼多頭注意力機制增加了掩碼操作。因此,LLM在文本生成過程中無法利用“未來”信息,確保了生成內容的真實性。

**B. 幻覺的成因

有幾個因素導致LVLM產生幻覺。幻覺的發生可能與LVLM的多個部分有關,包括感知模塊、跨模態模塊和響應模塊。因此,為了更好地糾正和減緩幻覺,我們將幻覺現象的主要原因歸納如下:

模態差距:每種模態都有其獨特的特性和表達方式,這導致了不同模態數據在分布、特征和語義上的顯著差異。模態差距的存在使響應模塊在理解圖像輸入時產生偏差,導致錯誤的響應生成。例如,如圖1(B)所示,紅白相間的物體實際上是一個標志,而不是中文字符。由于模態差距的存在,響應模塊錯誤地將其描述為“紅白相間的中文字符”。

數據集中的有害信息:交叉熵損失的本質是模仿。因此,LVLMs從數據集中學習模式以生成與訓練數據相似的響應。由于LVLMs需要大量數據進行訓練,大多數數據集是通過LVLMs或LLMs生成的。盡管這些數據在生成后經過人工清理,仍有一定比例的誤導性樣本保留在數據集中。當LVLM從這些帶有幻覺的數據中學習時,必然會生成幻覺。

LLM的幻覺:LVLMs的優異表現主要歸功于其將LLMs作為“大腦”。然而,LLMs很容易產生幻覺。此外,LLMs已經積累了豐富的參數化知識。當這些參數化知識錯誤或與接收到的視覺信息沖突時,會導致幻覺。此外,可用解碼策略的隨機性也可能是幻覺的誘因。許多特殊現象通常在解碼過程中發生,并且與幻覺密切相關。

III. 幻覺的糾正 在本部分中,我們將回顧和總結近年來與LVLM(大型視覺語言模型)中幻覺現象相關的糾正與減緩工作。隨著LVLM在各個領域的廣泛應用,如何有效地減少其生成不準確或錯誤的內容(即幻覺)成為了一個重要的研究方向。幻覺的產生與數據集、模態差距以及輸出響應的生成機制密切相關,因此幻覺糾正的方法主要集中在以下三類:數據集去幻覺、模態差距補償以及輸出糾正。我們將對這三類方法進行詳細介紹,分析各自的工作原理和應用場景。

**A. 數據集去幻覺

數據集去幻覺是通過改進或清理訓練數據集,以減少或避免模型在推理過程中生成幻覺內容的一種有效方法。LVLM通常通過指令調優來增強推理性能,而這一過程對高質量、大規模的指令數據集有高度依賴。然而,現實中構建這樣的數據集并不容易,即便有LLMs或LVLMs的幫助也很難確保數據完全無誤。因此,通過對現有數據集進行改寫、去除過度自信樣本和打破不當共現現象成為解決這一問題的重要策略。

數據重寫 數據重寫是指對訓練數據中的錯誤信息或潛在誤導性樣本進行修改,以確保模型學到的信息更加準確。例如,針對某些數據中由于標注錯誤或不準確導致的幻覺現象,可以通過自動化工具或人工驗證的方式,識別并糾正這些問題。數據重寫的方法可以幫助LVLM在訓練時避免學習到有害的或不準確的信息,從而減小幻覺的生成概率。

去除過度自信 在LVLM的訓練過程中,有些數據會使模型對某些錯誤的或不確定的輸出表現出過度的自信。這種過度自信會使模型在推理階段產生幻覺。為了解決這一問題,研究者提出了一些方法來降低模型在面對不確定輸入時的自信水平。例如,通過調整損失函數,使模型在訓練過程中對不確定的樣本保持一定程度的懷疑,從而避免模型生成看似合理但實際上錯誤的響應。

打破共現現象 共現現象是指在訓練數據中,某些視覺元素和文本描述頻繁一起出現,導致模型在推理時不加區分地將這些元素聯系在一起。例如,某些物體和某些動作在數據集中經常共現,但在實際場景中這些組合并不總是正確的。為了解決這一問題,可以通過打亂數據集中這些元素的組合,或引入新的樣本,以減少這種共現現象對模型產生的負面影響。

**B. 模態差距補償

模態差距是LVLM中幻覺產生的一個重要原因。由于視覺信息和文本信息之間的特性差異,模型在融合這些多模態數據時,可能會產生錯誤的推斷。通過有效的跨模態模塊設計,可以彌合視覺和語言之間的差距,減少因模態不匹配導致的幻覺現象。

可學習接口的應用 可學習接口是一種基于投影矩陣的方法,它將視覺信息映射到文本空間。這種方法通過學習視覺和語言之間的對應關系,使模型能夠更好地理解視覺信息并將其與文本結合。通過這種方式,模型能夠在視覺和語言之間建立更加緊密的聯系,從而減少幻覺的產生。

Q-former的引入 Q-former是一種通過交互方式將視覺信息與文本信息連接起來的技術。它通過設計一種特殊的查詢機制,使視覺信息在跨模態過程中與文本信息進行交互。這種方法能夠更好地處理模態之間的差異,尤其是在復雜的視覺場景中,幫助模型準確地生成文本描述。

pereceiver resampler的使用 pereceiver resampler是一種使用交叉注意力機制的技術,旨在將視覺特征編碼到文本中。通過這種方法,視覺特征被轉換為與文本相匹配的表征,從而減少模態差距導致的幻覺現象。

**C. 輸出糾正

除了通過改進數據集和跨模態機制來減少幻覺,研究人員還致力于直接糾正模型輸出的幻覺內容。輸出糾正方法通過后處理技術或改進解碼策略,來確保模型生成的最終響應更加準確。

后處理機制 后處理機制是一種在模型生成響應之后對其進行檢查和修正的技術。例如,通過引入額外的驗證模塊,檢查生成的文本是否與視覺信息一致。如果發現生成內容存在邏輯或事實錯誤,可以通過該模塊進行修正。這樣的后處理機制可以有效減少模型生成幻覺的可能性。

解碼策略的優化 解碼策略對生成式模型的輸出有很大的影響。研究發現,某些解碼策略(如貪婪搜索或隨機采樣)容易引發幻覺現象。為了解決這一問題,研究人員提出了一些新的解碼策略,例如基于約束的采樣方法或對抗性解碼策略。這些方法通過更好地平衡生成的多樣性和準確性,減少了模型生成幻覺的概率。


IV. 幻覺的評估基準

在減緩和糾正LVLM幻覺的過程中,建立有效的評估基準是至關重要的。評估基準用于衡量模型在生成過程中出現幻覺的頻率和嚴重程度,同時也為模型改進提供反饋。我們從判斷性和生成性兩個角度總結了現有的幻覺評估基準。

判斷性基準 判斷性基準主要通過分析模型生成的響應是否符合事實或是否與視覺輸入一致來評估幻覺。例如,通過引入人工評估或使用預定義的規則來判斷模型生成的內容是否準確。這類基準側重于定量地評估幻覺現象,幫助研究人員了解幻覺在不同場景中的發生頻率。

生成性基準 生成性基準則側重于評估模型在生成過程中所表現出的創造性和合理性。盡管模型可能生成出具有一定創新性的內容,但這些內容不一定符合事實或邏輯。因此,生成性基準的評估主要關注模型是否能夠在保持生成多樣性的同時,減少幻覺的產生。


V. 未來研究方向

盡管當前LVLM在減少幻覺方面取得了一定進展,未來仍有很多值得探索的方向。以下是一些可能的研究方向: 1. 多模態融合的優化 進一步優化視覺與語言之間的融合機制,特別是在復雜場景中的跨模態理解和表達。 1. 數據集構建的改進 通過新的數據增強和數據清洗技術,構建更高質量、更具代表性的大規模數據集,以減少訓練數據中的幻覺樣本。 1. 模型透明性的提高 提高LVLM的透明性和可解釋性,使得用戶可以更清楚地理解模型生成幻覺的原因,從而對其進行有效的糾正。 1. 動態學習機制的引入 引入動態學習機制,使模型能夠在運行過程中不斷調整和修正自身,避免幻覺的累積效應。

付費5元查看完整內容

相關內容

近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這篇綜述中,我們從偏好中心的角度回顧了在人類偏好學習領域針對LLMs的探索進展,涵蓋了偏好反饋的來源和形式、偏好信號的建模和使用以及對齊LLMs的評估。

我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。

大規模語言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人工智能(AI)產生了突破性的影響,改變了人們對AI系統理解和應用人類語言潛力的看法。這些具有大規模參數(主要超過100億)的神經網絡語言模型最初在從各種來源收集的大規模語料庫上進行了預訓練,其中相當一部分來源于互聯網[11]。通過模仿人類在文本數據中使用自然語言的方式進行預訓練,基礎LLMs獲得了強大而通用的語言技能[1, 12]。另一方面,觀察發現基礎LLMs在理解或恰當地回應多樣化的人類指令方面存在困難[13],因為預訓練中的模仿過程并未強制基礎LLMs按照人類意圖來執行指令[13, 14]。來自互聯網的預訓練語料庫中殘留的一些有毒、有偏見或事實錯誤的內容甚至會導致基礎LLMs的不當模仿,產生不理想的生成結果[15, 16, 17, 18, 19, 20]。在現實生活中的實際應用中,基礎LLMs必須進化得更加符合人類意圖,而不是模仿預訓練語料庫中可能存在噪聲的行為。

人類偏好學習[21]可以通過根據輸出結果中反映人類偏好的反饋信息優化LLMs,有效地使LLMs與人類意圖對齊,從而指定人類的意圖[22]。最近涌現的大量進化后的LLMs能夠生成適當的響應以應對各種人類指令,驗證了這一方法的有效性[2, 6, 8, 9, 13]。目前,關于人類偏好學習的綜述大多集中于狹義的人類偏好學習方法或廣義的語言模型(LM)對齊方法。關于人類偏好學習的綜述主要集中于強化學習(RL),這可能不適用于LLMs,也不包含與非RL偏好學習方法相關的見解[23, 24]。關于LM對齊[25, 26, 27, 28]以及一般AI系統對齊[22]或超越語言的大模型[29]的綜述,主要將人類偏好學習視為解決對齊問題的工具。這些綜述缺乏對偏好學習,特別是偏好建模方法的系統回顧和討論,而偏好建模方法對于捕捉人類意圖以實現LM對齊至關重要[13]。為了進一步探索更有效的偏好學習方法以實現更好的LLM對齊,我們對適用于語言模型的人類偏好學習方法進行了全面綜述,從偏好學習的角度審視LLM對齊方法。通過分析偏好學習框架內的各種對齊方法,我們勾勒出將人類偏好引入LLMs的全貌,從各個方面提供關于人類偏好學習的見解,適用于各個領域。 具體而言,如圖1所示,我們引入了人類偏好學習在LLMs中的各個方面,包括偏好反饋的來源和形式、偏好建模、偏好信號的使用以及整合人類偏好的LLMs的評估:

  • 反饋來源:偏好反饋的質量和規模對于人類偏好學習至關重要,而反饋收集的來源可以極大地影響它們。最近的人類偏好學習方法不僅從人類那里收集偏好反饋,還從模擬人類的方式中收集,探索高質量和大規模之間的平衡。
  • 反饋形式:偏好反饋的形式決定了其信息密度和收集難度,從而也影響了偏好反饋的質量和規模。人類偏好學習工作中采用的反饋形式大致包括自然適合偏好表達但信息量較少的相對關系,以及更能反映人類偏好的絕對屬性,但更難收集。不同形式的結合可以進一步增加偏好反饋的信息密度。
  • 偏好建模:偏好建模旨在從偏好反饋中獲得偏好模型,提供可推廣和直接可用的人類偏好信號以對齊LLMs。各種偏好建模方法專注于獲取具有數值輸出的偏好模型。一些工作還探索了具有自然語言輸出的偏好建模方法。除了明確獲得任何偏好模型外,另一類研究通過直接使用反饋數據作為偏好信號來隱式建模人類偏好,以間接偏好建模目標對齊LLMs或利用對齊的LLMs提供偏好信號。
  • 偏好使用:偏好使用是根據偏好信號的指導調整基礎LLMs的階段,使LLMs與人類意圖對齊。根據偏好信號使用的具體目標,最近的方法可以分為四大類:基于人類反饋的強化學習(RLHF),最大化LLM輸出的總體預期獎勵分數;在首選輸出上的監督微調(SFT),最大化人類偏好輸出樣本的生成概率;偏好引導的對比學習,增加更偏好的輸出的生成概率,同時減少不太偏好的輸出的生成概率;以及偏好條件的微調和生成,最大化由相應偏好信號條件生成的輸出的生成概率。
  • 評估:最后,全面評估LLMs的遵循人類意圖的能力對于驗證人類偏好學習的有效性至關重要。現行的評估協議分為三類:開放形式基準,評估LLMs對多樣化指令響應的人類偏好而不提供標準答案;自動評估,在具有標準標簽的一組任務上使用自動指標評估LLMs;以及定性分析,直接檢查對一些代表性指令的每個響應。 值得注意的是,本綜述涵蓋了雖然不是特定于LLMs但可用于對齊LLMs的人類偏好學習研究工作,從經典強化學習等領域提供見解。我們進一步總結了近期在對齊LLMs與人類意圖方面取得的關鍵進展,并討論了當前未解決的挑戰和未來研究的可能前景,包括多元化人類偏好學習、可擴展的LLMs對齊監督、語言無關的LLM對齊、多模態互補對齊、LLM對齊進展的全面評估以及對欺騙性對齊的實證研究。我們希望這篇綜述能幫助研究人員發現人類偏好在LLM對齊中的運作機制,通過對前沿研究工作的回顧,啟發他們在對齊LLMs和其他AI系統方面實現與人類意圖的對齊。

本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們從第三部分到第七部分介紹人類偏好學習在LLMs中的各個方面,包括反饋來源(第三部分)、反饋形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和評估(第七部分)。最后但同樣重要的是,我們在第八部分總結了人類偏好學習,并討論了我們對未來的展望。

付費5元查看完整內容

由于其強大的生成能力,深度生成模型在低層視覺任務領域引起了廣泛關注。其中,以擴散模型為基礎的解決方案,因其通過正向擴散過程破壞圖像和逆向去噪過程生成圖像的特點,而廣受贊譽。這些模型能夠生成質量高且多樣性豐富的樣本,確保生成具有復雜紋理信息的視覺效果。盡管它們在低層視覺中的成功和廣泛應用顯著,但缺乏一篇全面且有啟發性的綜述來整合這些開創性的擴散模型研究并組織相關內容。為填補這一空白,本文提出了首個聚焦于低層視覺任務中去噪擴散模型技術的全面綜述,涵蓋了該領域的理論和實踐貢獻。我們展示了三種通用的擴散建模框架,并探討了它們與其他常用深度生成模型的關系,從而為后續分析奠定理論基礎。隨后,我們從多角度對低層視覺任務中使用的擴散模型進行了分類,考慮了基礎框架和目標任務。此外,除了自然圖像處理方法外,我們還總結了在其他低層視覺任務中應用的擴展擴散模型,包括醫學、遙感和視頻場景。我們概述了低層視覺任務中常用的基準測試和評估指標,并對三項主要任務中的擴散模型技術進行了全面評估,涵蓋了性能和效率。最后,我們闡明了當前擴散模型的局限性,并提出了七個未來研究的有趣方向。本綜述旨在促進對低層視覺任務中去噪擴散模型的深刻理解。對于感興趣的讀者,可以在//github.com/ChunmingHe/awesome-diffusion-models-in-low-level-vision找到一份包含超過20個低層視覺任務的擴散模型技術、數據集及其他相關信息的精選列表。

作為計算機視覺的一個重要組成部分,低層視覺任務旨在改善由于復雜場景導致的低質量數據,并在圖像超分辨率[1]、去模糊[2]、去霧[3]、圖像修復[4]、融合[5]、壓縮感知[6]、低光增強[7]和遙感云去除[8]等方面有著廣泛且實際的應用。請參見圖1中的視覺結果。

傳統方法[13], [14]將問題表述為變分優化挑戰,并采用手工設計的算法來解決與特定圖像屬性或降解先驗相關的近似約束[15], [16]。然而,這些方法由于缺乏通用性,無法應對復雜的降解問題。隨著深度學習的出現,卷積神經網絡(CNN)[17]和Transformers[18]因其強大的特征提取能力被廣泛應用于低層視覺任務。此外,豐富數據集的收集,如超分辨率中的DIV2K[19]和去雨中的Rain800[20],進一步促進了其通用性。盡管這些技術在PSNR和SSIM等基于失真的指標上取得了可喜的結果,但它們在紋理生成方面表現不佳,限制了其在現實場景中的應用。

為應對此局限,深度生成模型,尤其是生成對抗網絡(GANs)[21],被引入到低層視覺領域。得益于其強大的生成能力,這些網絡有望合成真實的紋理細節,從而擴展到現實世界的應用。然而,這些策略仍面臨幾個關鍵挑戰:(1) 訓練過程容易受到模式崩潰和不穩定優化的影響,需要在訓練期間進行復雜的超參數調優。(2) 生成的結果仍可能出現偽影和反事實細節,破壞全局一致性,限制了其適用范圍。

一種新型深度生成模型,稱為擴散模型(DMs)[22]-[30],最近因其卓越的生成能力和訓練穩定性成為計算機視覺領域的熱門話題。擴散模型的特點在于正向擴散階段和逆向擴散階段,通過引入噪聲系統性地擾動數據,然后學習逆轉這一過程以生成樣本。作為基于似然的模型,擴散模型將其訓練目標表述為重加權變分下界,以其廣泛的分布覆蓋、穩定的訓練目標和簡單的可擴展性而受到好評。

利用上述優勢,擴散模型在多個領域中取得了顯著成功,包括數據生成、圖像內容理解和低層視覺。在低層視覺領域,擴散模型[9], [10], [31], [32]主要集中于低質量數據的恢復,確保重建的高質量數據具有精確的語義信息和逼真的紋理細節,即使在復雜且嚴重降解的現實場景中也是如此。如圖1所示,許多基于擴散模型的算法在各種低層視覺任務中表現出色。然而,不同任務中使用的技術表現出顯著的多樣性和復雜性,使其難以理解和改進,從而對未來發展和通用重建模型的引入構成了障礙。因此,迫切需要一篇結構良好且全面的低層視覺任務中基于擴散模型的綜述。然而,大多數現有的基于擴散模型的綜述[33]-[36]側重于基礎理論模型和生成技術的發展。只有少數綜述[37]-[39]集中于自然圖像場景中的某一特定問題或少數有限任務。

為滿足領域需求并彌補上述缺陷,我們提出了首個針對低層視覺任務的基于擴散模型的綜述(見圖2和圖3)。本綜述包括詳細的理論介紹、廣泛的應用范圍、全面的實驗分析和廣泛的未來展望。具體來說,我們在第2節全面介紹了擴散模型的基本原理,闡明了擴散模型與其他深度生成模型之間的聯系和相互關系。然后,我們在第3節總結了現有的前沿基于擴散模型的自然低層視覺方法,基于基礎框架和目標任務對其進行分類,包括六個廣泛使用的任務。接著,我們在第4節擴展到更廣泛的場景,包括醫學、遙感和視頻場景,旨在提供應用范圍廣泛的綜合概述。此外,第5節匯編了30多個常用基準測試和10多個基本評估指標。在三個主要任務(超分辨率、圖像去模糊和低光圖像增強)的相關設置中,我們提供了基于擴散模型方法的豐富實驗。最后,我們在第6節中指出了現有低層視覺任務中基于擴散模型方法的局限性,并提出了未來研究和改進的三個主要潛力方向,并在第7節總結了本綜述。

我們希望這篇基于擴散模型的綜述,旨在促進對低層視覺領域的理解,能夠激發計算機視覺社區的進一步興趣并促進相關研究工作。

付費5元查看完整內容

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。

付費5元查看完整內容

本綜述全面分析了多模態大型語言模型(MLLMs)——亦稱為大型視覺語言模型(LVLMs)——中的幻覺現象。這些模型在多模態任務中展示了顯著的進步和非凡的能力。盡管這些發展充滿希望,MLLMs常常生成與視覺內容不一致的輸出,這一挑戰被稱為幻覺,它對模型的實際部署構成了重大障礙,并引起了對其在現實世界應用中可靠性的關注。這個問題日益受到關注,促使人們努力檢測和緩解這種不準確性。我們回顧了近期在識別、評估和緩解幻覺方面的進展,提供了關于幻覺成因、評估基準、度量和應對策略的詳盡概覽。此外,我們還分析了當前的挑戰和限制,并提出了開放性問題,勾勒出未來研究的潛在途徑。通過對幻覺成因、評估基準和緩解方法進行細致的分類和概述,本綜述旨在加深對MLLMs中幻覺的理解,并激發該領域的進一步發展。通過我們徹底和深入的審查,我們為加強MLLMs的魯棒性和可靠性的持續對話做出了貢獻,為研究人員和實踐者提供了寶貴的見解和資源。資源可在以下網址獲取://github.com/showlab/Awesome-MLLM-Hallucination.

** 引言**

近年來,大型語言模型(LLMs)[29, 81, 85, 99, 132]在自然語言處理(NLP)的廣泛任務中占據了主導地位,實現了語言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的進展。借助強大的LLMs能力,多模態大型語言模型(MLLMs)[22, 75, 111, 138],有時被稱為大型視覺語言模型(LVLMs),正在吸引越來越多的關注。MLLMs在多模態任務中表現出有希望的能力,如圖像標題生成[66]、視覺問題回答[22, 75]等。然而,隨著MLLMs的快速進展,這些模型傾向于生成幻覺[69, 76, 137],產生看似合理但實際上是虛假的內容,這一趨勢令人關注。

幻覺問題起源于LLMs本身。在NLP領域,幻覺問題被實證地分為兩類[44]:1) 真實性幻覺,強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實不一致或捏造;2) 忠實性幻覺,指生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內部的自洽性。與純LLMs相比,MLLMs中的幻覺研究主要集中在生成文本響應與提供的視覺內容之間的差異[69, 76, 137],即跨模態不一致。這種差異表明,LLMs的研究成果不能簡單地轉移到MLLMs上。因此,全面調查MLLMs中幻覺現象的最新進展,以激發新思想并促進該領域的發展,是迫切需要的。

在計算機視覺領域,對象識別是核心任務,包括子任務如對象分類[60]、檢測[27]和分割[37]等。同樣,MLLMs中的幻覺研究主要集中在對象幻覺上。在MLLMs時代之前,有一項關于圖像標題生成中對象幻覺的開創性工作[90],通過比較標題和圖像內容評估對象存在性。在MLLMs中,對象幻覺被實證地分為三類:1) 類別,識別給定圖像中不存在或錯誤的對象類別;2) 屬性,強調對象的屬性描述,如顏色、形狀、材料等;3) 關系,評估對象之間的關系,如人與對象的互動或相對位置。需要注意的是,一些文獻可能將對象計數、對象事件等視為獨立的幻覺類別;然而,在本工作中,我們將它們歸入屬性類別。

由于LLMs中幻覺的根本原因已有眾多研究,因此,前沿MLLMs所面臨的獨特挑戰需要進行深入調查。我們的分析專門針對MLLMs中幻覺的獨特起源,涵蓋了從數據、模型、訓練到推理階段的一系列貢獻因素。此外,我們提供了專門為評估MLLMs中幻覺而設計的基準和度量的全面概述。然后,我們回顧和討論了針對識別原因量身定做的緩解幻覺問題的最新工作。

通過我們的全面綜述,我們旨在促進MLLMs領域的發展,并提供有價值的見解,加深對MLLMs中幻覺相關機會和挑戰的理解。這種探索不僅增強了我們對當前MLLMs局限性的理解,還為未來研究和開發更加穩健和可靠的MLLMs提供了重要的指導。

與現有綜述的比較。在追求可靠的生成性AI方面,幻覺作為一個主要挑戰,已經引發了一系列關于其最新進展的綜述論文。對于純LLMs,已有幾篇綜述[44, 129],描述了LLMs中幻覺的格局。相比之下,關于MLLMs領域的幻覺的綜述非常少。據我們所知,目前只有一項與我們同時進行的短期綜述[76],探討了LVLMs的幻覺問題。然而,我們的綜述在分類和范圍上都有所不同。我們呈現了一種分層且細致的幻覺分類,如圖1所示,清晰地描繪了這一領域的格局。此外,我們的方法不僅限于[76]中規定的特定模型架構,而是通過追溯各種影響因素,分析幻覺的成因。我們涵蓋了更廣泛的文獻,無論是在論文數量還是分類結構上。此外,我們的緩解策略與潛在原因緊密相關,確保了一種連貫和有針對性的方法。

本綜述的組織。在本文中,我們呈現了關于MLLMs中幻覺最新發展的全面綜述。綜述的組織如下:我們首先提供足夠的背景并定義與LLMs、MLLMs、幻覺等相關的概念。接下來,我們深入分析導致MLLMs中幻覺的各種因素。在此之后,我們展示了用于評估MLLMs中幻覺的一組度量和基準。然后,我們詳細介紹了一系列旨在緩解MLLMs中幻覺的方法。最后,我們深入探討了當前限制和未來前景的挑戰和開放問題,提供見解并勾畫出即將到來的研究路徑。

數據

數據是MLLMs的基礎,使它們能夠獲得跨模態理解和遵循指令的能力。然而,數據也可能無意中成為MLLMs幻覺的來源。這主要表現在三個方面:數量、質量和統計偏差。 1.1 數量。深度學習模型對數據的需求很大,特別是像MLLMs這樣的大模型。數據量在構建穩健和可靠的MLLMs中扮演著重要角色。目前,圖像-文本配對數據集[92]和視覺QA數據[48, 80]被用于訓練MLLMs。盡管這些數據集通常比計算機視覺中的典型數據集大,但在數量上仍遠不及用于訓練LLMs的純文本數據。數據不足可能導致問題多模態對齊,從而產生幻覺[96, 103]。 1.2 質量。鑒于對大規模訓練數據的需求日益增加,啟發式數據收集方法被用來高效地收集大量數據。雖然這些方法提供了大量數據,但它們并不保證數據質量,從而增加了幻覺的風險。與幻覺相關的數據質量可以進一步分為以下三個方面。

噪聲數據。如定義部分所述,訓練MLLMs涉及兩個階段。預訓練階段使用從網絡上爬取的圖像-文本對,這些數據樣本可能不準確、未對齊或損壞。噪聲數據將限制跨模態特征對齊[117, 120],這是MLLMs的基礎。至于指令調整數據,流行的方法如LLaVA[75]使用先進的GPT-4[82]模型生成指令。然而,ChatGPT是一個不能解釋視覺內容的語言模型,導致噪聲數據的風險。此外,語言模型本身就存在幻覺問題[44],進一步增加了風險。LLaVA-1.5[74]加入了人工注釋的QA數據進入指令遵循,顯示了改進的結果,揭示了噪聲數據的影響。

缺乏多樣性。最近的研究[73, 117]顯示,數據的多樣性也起著至關重要的作用。對于兩個訓練階段使用的數據,指令調整數據更可能有這個問題,因為它通常數量較少。一個顯著的特點是,大多數遵循指令的數據樣本都是關于圖像內容的對話。我們將這種類型的數據視為正向指令,因為它總是忠實地反映圖像內容。相比之下,負向指令數據[73]和拒絕回答響應[11]在數據集中很少。鑒于這樣的訓練數據,最近的研究[69, 73]觀察到的一個潛在缺點是,當前模型傾向于對呈現給模型的任何指令回答“是”,即使正確的答案應該是“否”,導致幻覺。這種現象表明了數據多樣性的影響。

詳細描述(開放問題)。文本描述的細節程度對這一問題的影響仍是一個開放問題。如2.2節所討論,預訓練數據中的文本,如LAION[92],通常描述突出對象的總體內容。而在指令調整階段的文本,如LLaVA-150k[75],包含更詳細的描述。這個LLaVA-150k數據集是基于視覺模型識別的對象由GPT-4生成的。最近的一項研究[16]認為,在訓練數據中,與對象位置、屬性和非突出對象相關的詳細描述通常缺失。這種屬性導致跨模態對齊不完整,剝奪了模型的基礎能力[62, 126]。然而,另一項研究[120]假設指令調整數據中的文本描述包含過多細節,超過了MLLMs的感知限制。當使用這種詳細數據進行訓練時,模型可能會試圖匹配真實標注標題的細節程度和長度分布,從而冒險表達它無法從圖像中辨識的細節,因此展現出幻覺。訓練數據的細節水平仍是一個開放問題。

1.3 統計偏差。如[23]所述,神經網絡,特別是大型語言模型,具有記憶訓練數據的內在傾向。訓練數據集中名詞(如對象)的分布對模型的行為有強烈的影響。經常出現的對象和對象共現是兩種顯著的統計偏差類型,如[69, 90, 137]所討論。例如,‘人’可能是訓練數據中出現最頻繁的對象之一。在推理過程中,即使給定的圖像中不包含人,模型仍然傾向于預測存在人。另一方面,對象共現是指模型會記住哪兩個對象通常“一起出現”的現象[90]。例如,給定一個帶有冰箱的廚房圖像,當詢問微波爐時,MLLMs傾向于回答‘是’,因為在廚房場景中冰箱和微波爐經常一起出現。大多數數據集都存在偏見。增加數據規模可能緩解這一影響,但鑒于現實世界的長尾分布,它無法完全解決。

2 模型

目前,流行的MLLMs的架構通常包括幾個組件,通常包括預訓練的視覺模型、預訓練的LLM和如上所述的對齊模塊。由于這些模型是連接在一起的,而不是從頭開始進行端到端訓練,每個模塊的錯誤都可能累積。每個模塊的不良和有問題的輸出可能導致幻覺。

弱視覺模型。如相關工作[31, 90, 103]所述,幻覺的一個主要潛在原因是視覺模型弱,這可能導致視覺概念的誤分類或誤解。即使是最強大的視覺模型在編碼過程中也可能仍會經歷信息丟失。弱視覺模型意味著感知能力弱,這從根本上破壞了多模態理解。

語言模型先驗。現代MLLMs的架構是不平衡的。通常,語言模型比視覺模型大得多,也強得多,導致傾向于優先考慮基于語言的信息[31, 63, 64, 73, 90]。一個典型的現象是,語言模型中蘊含的知識,也稱為參數知識,可以覆蓋視覺內容。例如,給定一個顯示紅色香蕉的圖像,這在現實世界中是違反直覺的,一個MLLM可能仍然回應“黃色香蕉”,因為“香蕉是黃色的”是LLM中根深蒂固的知識。這種語言/知識先驗使模型忽視視覺內容并響應幻覺。

弱對齊界面。對齊界面在MLLMs中扮演著至關重要的角色,因為它充當兩種模態之間的橋梁。一個弱的對齊界面很容易導致幻覺。一個弱對齊界面的潛在原因是數據,如前面章節所討論的。除此之外,界面架構本身和訓練損失設計也很重要[52, 77, 123]。最近的研究[52]認為,類似LLaVA的線性投影界面保留了大部分信息,但缺乏對投影特征的監督。[52]中的可視化顯示,投影層后的特征與語言嵌入仍然不同。分布差異導致跨模態交互出現問題,導致幻覺。另一方面,類似Q-former[66]的架構對提取的視覺特征有多樣化的監督,將其與語言嵌入空間對齊。然而,可學習查詢的使用不可避免地導致細粒度視覺信息的丟失。

3 訓練

MLLMs的訓練目標基本上與LLMs相同,即自回歸下一個令牌預測損失。這種損失方法直接而有效,且易于擴展,表現出在語言建模中的良好性能。然而,MLLMs領域的一些研究表明,由于視覺內容的復雜空間結構,下一個令牌預測損失可能不適合學習視覺內容[5, 16]。此外,這種損失在令牌級別進行優化,而缺乏序列級別的監督[5]。另一個觀點是,與訓練LLMs不同,訓練MLLMs的程序中缺少RLHF階段[96, 119],成為幻覺的潛在原因。

4 推理

就推理而言,一些工作也指出自回歸生成中存在潛在問題。在生成過程中,隨著序列長度的增加,自注意力將更多地聚焦于之前生成的文本令牌,即視覺內容的注意力被稀釋[45, 102-104]。通過在生成期間可視化注意力圖[45, 104],可以觀察到生成內容更多地關注之前的特殊令牌,如標點符號,而不是視覺內容令牌。'失去注意力'的問題也會導致模型的輸出響應與視覺內容無關。

結論

基于強大的大型語言模型,多模態大型語言模型在各種多模態任務中表現出卓越的性能。然而,幻覺現象對MLLMs的實際應用提出了重大挑戰,引發了關于安全性、可靠性和信任度的不可否認的擔憂。在這篇全面的綜述中,我們對多模態大型語言模型中的幻覺進行了徹底的檢查,重點關注其潛在原因、評估指標、基準和緩解方法。盡管取得了相當的進展,幻覺仍然是一個復雜且持續的問題,需要持續的研究。多模態大型語言模型中的幻覺挑戰仍然引人注目,需要持續的審視和創新。鑒于這些挑戰,我們在這個新興領域概述了幾個有希望的未來發展方向。通過導航幻覺的復雜景觀,我們希望這篇綜述能成為解決MLLMs中幻覺現象復雜性的基礎資源。我們設想這篇綜述能激勵研究人員和實踐者致力于推進研究和在這一關鍵研究領域開發穩健的解決方案。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

近期,大型視覺-語言模型(LVLMs)的發展在人工智能領域引起了越來越多的關注,因其實際應用潛力。然而,“幻覺”——或更具體地說,事實視覺內容與相應文本生成之間的錯配,為利用LVLMs提出了一個重大挑戰。在這份全面的綜述中,我們解剖與LVLM相關的幻覺現象,試圖建立一個概覽并促進未來的緩解措施。我們的綜述從闡明LVLMs中幻覺的概念開始,呈現了多種幻覺癥狀并突出了LVLM幻覺固有的獨特挑戰。隨后,我們概述了專門為評估LVLMs獨有的幻覺而定制的基準和方法論。此外,我們深入調查了這些幻覺的根本原因,包括來自訓練數據和模型組件的洞察。我們還批判性地回顧了緩解幻覺的現有方法。本綜述最后討論了與LVLMs中的幻覺相關的開放問題和未來方向。

1. 引言

在人工智能迅速發展的領域中,如GPT-4 [OpenAI, 2023]、LLaMA [Touvron等,2023a]和LLaMA2 [Touvron等,2023b]等大型語言模型(LLMs)在自然語言理解(NLU)和生成(NLG)方面取得了顯著進步。為了利用LLMs的NLU和NLG能力來處理視覺-語言任務,一種流行的方法是將視覺特征作為補充輸入插入到LLMs中,并將它們與文本特征對齊。這種方法已經在幾個大型視覺-語言模型(LVLMs)中得到應用,如MiniGPT-4 [Zhu等,2023]、LLaVA [Liu等,2023c]和LLaVA-1.5 [Liu等,2023b]。盡管現有LVLMs顯示出了令人充滿希望的結果,但一個不可忽視的問題一直阻礙著它們的實際應用:幻覺。LVLM中的幻覺指的是圖像的事實內容與相應生成的文本內容之間的不一致,類似于在大型語言模型中遇到的純文本幻覺[Huang等,2023a]。

現有研究[Rohrbach等,2018; Li等,2023b; Hu等,2023; Zhai等,2023]已經解決了圖像標題生成模型中的幻覺問題,主要關注“對象的存在”,特別是給定圖像中描繪的對象是否被模型生成的文本準確描述。與在封閉領域內訓練的圖像標題生成模型相比,LVLMs利用LLMs的強大理解和表達能力,獲得更詳細和可解釋的生成描述。然而,這些增強的能力也多樣化并可能加劇了幻覺,這不僅限于對象的存在,還表現在描述性錯誤中,如屬性和關系錯誤。我們關注視覺幻覺,指的是圖像傳達的語義內容與模型生成的文本內容之間的所有不一致。

LVLMs中的幻覺癥狀是多方面的。從認知角度來看,幻覺可以表現為真/假判斷的錯誤和對視覺信息描述的不準確。例如,正如圖1的第一個例子所示,模型對“圖像中有貓嗎?”和“圖像中有四只鳥嗎?”等問題的響應有缺陷,顯示出錯誤的事實辨別。此外,第二個例子顯示了生成的描述與視覺事實的不一致。同時,從視覺語義的角度提供了一個三元分類:對象、屬性和關系上的幻覺。例如,模型在圖像中生成不存在的對象如“筆記本電腦”和“小狗”,提供錯誤的屬性描述如將男人描述為“長發”,并對對象之間的關系進行不準確的斷言,如聲稱自行車“在”男人“前面”。當前方法基于模型的認知性能評估這些LVLMs中的幻覺,主要關注兩個方面:非幻覺生成和幻覺鑒別。前者涉及對模型響應中的幻覺元素進行詳細分析并量化它們的比例。后者,另一方面,只需要對響應是否包含任何幻覺內容進行二元判斷。這些方法在§3中進行了全面討論。

盡管LLM社區已廣泛討論了LLMs中幻覺的原因,但LVLMs的視覺模態引入了分析這些事件的獨特挑戰。我們對LVLMs中的幻覺進行了徹底分析,重點關注訓練數據和模型特性。我們的分析表明,LVLMs中的幻覺不僅由LLMs的生成性質引起,還由偏見訓練數據、視覺編碼器無法準確地定位圖像、不同模態之間的錯位、對上下文關注不足以及許多其他因素引起。在此之后,我們提供了現有幻覺緩解方法的全面概述。針對這些原因,當前的緩解方法主要集中在訓練數據的優化、LVLMs內各個模塊的精細化以及生成輸出的后處理上。這些方法被用來減少幻覺的發生,從而產生更忠實的響應。最后,我們列出了幾個發展LVLMs中幻覺研究的重要方向。 總之,這項研究旨在為LVLMs的發展提供洞察,并探索與LVLMs幻覺相關的機會和挑戰。這一探索不僅幫助我們了解當前LVLMs的局限性,還為未來的研究和開發更可靠、更高效的LVLMs提供了重要指導。

2 幻覺在LVLM時代

**2.1 大型視覺-語言模型

LVLMs是處理視覺和文本數據以解決涉及視覺和自然語言的復合任務的高級多模態模型。結合了LLMs的能力,LVLMs是之前視覺-語言預訓練模型(VLPMs)[Long等,2022]的演進。 LVLM架構通常包含三個組件:視覺編碼器、模態連接模塊和LLM。視覺編碼器,通常是CLIP視覺編碼器[Radford等,2021]的一個調整,將輸入圖像轉換為視覺令牌。連接模塊旨在將視覺令牌與LLM的詞嵌入空間對齊,確保LLM可以處理視覺信息。模態對齊的方法有多種,包括交叉注意力[Alayrac等,2022]、適配器[Gao等,2023]、Q-Formers[Li等,2023a; Dai等,2023a; Zhu等,2023],以及更簡單的結構如線性層或多層感知器(MLP)[Liu等,2023c; Chen等,2023b; Liu等,2023b]。LLM在LVLMs中像中央處理單元一樣,接收對齊的視覺和文本信息,隨后綜合這些信息以產生響應。 LVLMs的訓練涉及兩個關鍵階段:(1)預訓練,LVLMs從對齊的圖像-文本對中獲取視覺-語言知識;(2)指令調優,期間LVLMs學習使用多樣化的任務數據集遵循人類指令。完成這些階段后,LVLMs可以高效地處理和解釋視覺和文本數據,使它們能夠在像視覺問題回答(VQA)這樣的復合多模態任務中進行推理。

**2.2 LVLMs中的幻覺

LVLMs中的幻覺指的是視覺輸入(視為“事實”)和LVLM的文本輸出之間的矛盾。通過視覺-語言任務的視角,LVLM幻覺癥狀可以被解釋為判斷或描述的缺陷。 當模型對用戶的查詢或陳述的響應與實際視覺數據不一致時,會發生判斷幻覺。例如,如圖1所示,當面對展示三只鳥的圖像并詢問圖片中是否有貓時,模型錯誤地肯定回答“是”。另一方面,描述幻覺是無法忠實地描繪視覺信息的失敗。例如,在圖1下部,模型不準確地描述了男人的頭發、杯子的數量和顏色、自行車的位置,并編造了不存在的對象,如筆記本電腦和狗。 從語義角度來看,這種錯位可以通過聲稱不存在的對象、不正確的對象屬性或不準確的對象關系來表征,如不同顏色所突出的那樣。

**2.3 LVLMs中幻覺的獨特挑戰

LVLMs通過結合視覺和語言模塊來處理視覺-語言任務。然而,這種整合也在幻覺檢測、因果推理和緩解方法方面帶來了獨特的挑戰。 幻覺檢測困難:LVLM的多模態性質妨礙了幻覺的檢測。LVLM幻覺可能在包括但不限于對象、屬性和關系等多個語義維度上表現出來[Zhai等,2023; You等,2023]。為了全面檢測這些幻覺,模型不僅需要進行自然語言理解,還需要使用細粒度的視覺注釋并將它們與生成的文本精確對齊。

交織的原因

LVLMs中幻覺的原因通常是多方面的。一方面,LLMs和LVLMs共享的數據相關問題,如錯誤信息、偏見以及知識邊界限制[Hu等,2023]。然而,LVLMs獨特地受到它們結合視覺數據的影響。例如,視覺不確定性,如不清晰或扭曲的圖像,可以加劇LVLMs中的語言先驗和統計偏見,導致更嚴重的幻覺[Liu等,2023a]。

綜合緩解方法

除了采用針對LLM的幻覺緩解方法,如數據質量提升、編碼優化和與人類偏好對齊外,LVLM特有的方法還包括精煉視覺表現和改進多模態對齊。例如,有建議擴大視覺分辨率可以有效減少幻覺[Bai等,2023]。盡管如此,使用大量數據訓練高分辨率視覺編碼器可能需要大量資源。因此,探索更具成本效益的增強視覺表現的策略是至關重要的。此外,視覺和文本令牌之間的顯著差距表明,改善視覺-語言令牌對齊可能降低幻覺發生率[Jiang等,2023]。

3 評估方法和基準

在建立了LVLM中幻覺的概念之后,我們轉向檢查現有的LVLM幻覺評估方法和基準。對應于圖1中提到的描述和判斷任務中的幻覺癥狀,當前的評估方法可以分為兩大類:(1) 評估模型生成非幻覺內容的能力,和(2) 評估模型幻覺鑒別的能力,如圖2所示。同樣,基于評估任務,基準也可以被分類為區分性和生成性兩種,如表1所示。

評估方法:

非幻覺內容生成評估(Evaluation on Non-Hallucinatory Generation):

手工流程方法(Handcrafted Pipeline Methods):這些方法通過手動設計多個步驟,具有強解釋性。例如,CHAIR(Caption Hierarchy and Image Relationship)專注于評估圖像描述中對象幻覺,通過量化模型生成與真實描述之間的差異。CCEval(Contrastive Caption Evaluation)則在應用CHAIR之前使用GPT-4進行對象對齊。FAITHSCORE提供了一種無參考的、細粒度的評估方法,通過識別描述性子句、提取原子事實,并與輸入圖像進行比較。 * 基于模型的端到端方法(Model-based End-to-End Methods):這些方法直接評估LVLMs的響應。LLM-based Evaluation使用先進的LLM(如GPT-4)基于幻覺來評估LVLM生成的內容。幻覺數據驅動模型評估則構建標記的幻覺數據集,用于微調模型以檢測幻覺。例如,M-HalDetect創建了一個帶有注釋的LVLM圖像描述數據集,并在該數據集上微調InstructBLIP模型以識別幻覺。

幻覺鑒別評估(Evaluation on Hallucination Discrimination)

這些方法通常采用問答格式,詢問LVLMs關于圖像內容的問題,并評估模型的響應。例如,POPE(Perceptual Object Presence Evaluation)設計了關于圖像中對象存在的二元(是/否)問題來評估LVLMs的幻覺鑒別能力。CIEM(Contrastive Instruction Evaluation Method)類似于POPE,但通過ChatGPT自動化對象選擇。NOPE(Negative Object Presence Evaluation)是另一種基于VQA的方法,旨在評估LVLMs識別視覺查詢中對象缺失的能力。

基準(Benchmarks):

基準測試是專門針對LVLMs的幻覺問題設計的,旨在評估模型在非幻覺內容生成或幻覺鑒別方面的能力。這些基準可以分為兩類:

判別性基準(Discriminative Benchmarks):

這些基準專注于評估模型在對象幻覺方面的性能。例如,POPE、NOPE和CIEM都是判別性基準,它們的數據集大小分別為3000、17983和72941,主要關注對象幻覺,使用準確度作為評估指標。

生成性基準(Generative Benchmarks):

生成性基準擴展了評估范圍,包括屬性和關系幻覺。例如,AMBER(A Multimodal Language Model Benchmark)是一個綜合性基準,集成了生成性和判別性任務。生成性基準的評估指標通常比判別性基準更復雜和多樣化,因為它們需要針對特定的幻覺類別設計定制的評估方法。

這些評估方法和基準為研究者提供了一套工具,以系統地分析和改進LVLMs在處理視覺-語言任務時的性能,特別是在減少幻覺方面。通過這些工具,研究者可以更好地理解模型的局限性,并開發出更有效的緩解策略。

4. LVLM幻覺的原因

數據問題(Data Issues)

數據偏見(Data Bias):訓練數據中可能存在分布不平衡,例如在事實判斷問答對中,大多數答案可能是“是”(Yes),導致模型傾向于給出肯定的回答,即使在不準確的情況下。 * 注釋不相關性(Annotation Irrelevance):生成的指令數據可能包含與圖像內容不匹配的對象、屬性和關系,這可能是由于生成模型的不可靠性造成的。

視覺編碼器問題(Vision Encoder Issues)

有限的視覺分辨率(Limited Visual Resolution):視覺編碼器可能無法準確識別和理解高分辨率圖像中的所有細節,這可能導致在生成描述時出現幻覺。 * 細粒度視覺語義(Fine-grained Visual Semantics):視覺編碼器可能無法捕捉到圖像中的所有細粒度信息,如背景描述、對象計數和對象關系,從而導致幻覺。

模態對齊問題(Modality Alignment Issues)

連接模塊的簡單性(Connection Module Simplicity):簡單的連接模塊,如線性層,可能無法充分對齊視覺和文本模態,增加了幻覺的風險。 * 有限的標記約束(Limited Token Constraints):在模態對齊過程中,由于標記數量的限制,可能無法完全編碼圖像中的所有信息,導致信息丟失和幻覺。

LLM問題(LLM Issues)

上下文注意力不足(Insufficient Context Attention):在解碼過程中,模型可能只關注部分上下文信息,忽視了輸入的視覺信息,導致生成的文本內容與視覺輸入不一致。 * 隨機采樣解碼(Stochastic Sampling Decoding):隨機采樣引入了解碼過程中的隨機性,雖然有助于生成多樣化的內容,但也增加了幻覺的風險。 * 能力錯位(Capability Misalignment):LLM在預訓練階段建立的能力與在指令調整階段提出的擴展要求之間存在差距,導致模型生成超出其知識范圍的內容,增加了幻覺的可能性。

這些原因相互交織,共同作用于LVLMs,導致在視覺-語言任務中出現幻覺現象。為了緩解這些問題,研究者們提出了一系列針對性的優化策略,旨在提高模型的準確性和可靠性。

5. LVLM幻覺的緩解

LVLM(Large Vision-Language Models)中的幻覺問題是指模型生成的文本內容與實際視覺輸入之間存在不一致性。為了緩解這一問題,研究者們提出了多種方法,這些方法主要針對幻覺產生的原因進行優化。數據優化:通過改進訓練數據來減輕幻覺。視覺編碼器增強(Vision Encoder Enhancement):提高圖像分辨率和感知能力。連接模塊增強(Connection Module Enhancement):開發更強大的連接模塊以更好地對齊視覺和語言模態。LLM解碼優化(LLM Decoding Optimization):通過優化解碼策略和與人類偏好對齊來減少幻覺。后處理(Post-processing):通過額外的模塊或操作來修正生成的輸出。

6 結論

配備了先進的視覺編碼器、強大的LLMs和模態對齊模塊,LVLMs在開放領域的視覺-語言任務中表現出色。然而,幻覺嚴重挑戰了LVLMs的實際應用。在這項綜述中,我們對LVLMs中幻覺現象進行了細致的調查。這項探索涵蓋了對這些幻覺背后基本原因的詳細分析,評估了創新的評估方法及相關基準,并討論了有效的緩解方法。我們還深入探討了現有的挑戰,并討論了可能的方向。這項綜述旨在為解決LVLMs中幻覺的復雜性奠定基礎,并促進未來研究,以便在各種應用中實際實施這些模型。 參考:

eason. //zhuanlan.zhihu.com/p/681171544 參考文獻 [Alayrac et al., 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, volume 35, 2022. [Bai et al., 2023] Jinze Bai, Shuai Bai, Shusheng Yang, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. [Chen et al., 2023a] Chi Chen, Ruoyu Qin, Fuwen Luo, et al. Position-enhanced visual instruction tuning for multimodal large language models. arXiv preprint arXiv:2308.13437, 2023. [Chen et al., 2023b] Jun Chen, Deyao Zhu, Xiaoqian Shen, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478, 2023. [Chen et al., 2023c] Zhe Chen, Jiannan Wu, Wenhai Wang, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.

付費5元查看完整內容

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。

付費5元查看完整內容
北京阿比特科技有限公司