亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近期,大型視覺-語言模型(LVLMs)的發展在人工智能領域引起了越來越多的關注,因其實際應用潛力。然而,“幻覺”——或更具體地說,事實視覺內容與相應文本生成之間的錯配,為利用LVLMs提出了一個重大挑戰。在這份全面的綜述中,我們解剖與LVLM相關的幻覺現象,試圖建立一個概覽并促進未來的緩解措施。我們的綜述從闡明LVLMs中幻覺的概念開始,呈現了多種幻覺癥狀并突出了LVLM幻覺固有的獨特挑戰。隨后,我們概述了專門為評估LVLMs獨有的幻覺而定制的基準和方法論。此外,我們深入調查了這些幻覺的根本原因,包括來自訓練數據和模型組件的洞察。我們還批判性地回顧了緩解幻覺的現有方法。本綜述最后討論了與LVLMs中的幻覺相關的開放問題和未來方向。

1. 引言

在人工智能迅速發展的領域中,如GPT-4 [OpenAI, 2023]、LLaMA [Touvron等,2023a]和LLaMA2 [Touvron等,2023b]等大型語言模型(LLMs)在自然語言理解(NLU)和生成(NLG)方面取得了顯著進步。為了利用LLMs的NLU和NLG能力來處理視覺-語言任務,一種流行的方法是將視覺特征作為補充輸入插入到LLMs中,并將它們與文本特征對齊。這種方法已經在幾個大型視覺-語言模型(LVLMs)中得到應用,如MiniGPT-4 [Zhu等,2023]、LLaVA [Liu等,2023c]和LLaVA-1.5 [Liu等,2023b]。盡管現有LVLMs顯示出了令人充滿希望的結果,但一個不可忽視的問題一直阻礙著它們的實際應用:幻覺。LVLM中的幻覺指的是圖像的事實內容與相應生成的文本內容之間的不一致,類似于在大型語言模型中遇到的純文本幻覺[Huang等,2023a]。

現有研究[Rohrbach等,2018; Li等,2023b; Hu等,2023; Zhai等,2023]已經解決了圖像標題生成模型中的幻覺問題,主要關注“對象的存在”,特別是給定圖像中描繪的對象是否被模型生成的文本準確描述。與在封閉領域內訓練的圖像標題生成模型相比,LVLMs利用LLMs的強大理解和表達能力,獲得更詳細和可解釋的生成描述。然而,這些增強的能力也多樣化并可能加劇了幻覺,這不僅限于對象的存在,還表現在描述性錯誤中,如屬性和關系錯誤。我們關注視覺幻覺,指的是圖像傳達的語義內容與模型生成的文本內容之間的所有不一致。

LVLMs中的幻覺癥狀是多方面的。從認知角度來看,幻覺可以表現為真/假判斷的錯誤和對視覺信息描述的不準確。例如,正如圖1的第一個例子所示,模型對“圖像中有貓嗎?”和“圖像中有四只鳥嗎?”等問題的響應有缺陷,顯示出錯誤的事實辨別。此外,第二個例子顯示了生成的描述與視覺事實的不一致。同時,從視覺語義的角度提供了一個三元分類:對象、屬性和關系上的幻覺。例如,模型在圖像中生成不存在的對象如“筆記本電腦”和“小狗”,提供錯誤的屬性描述如將男人描述為“長發”,并對對象之間的關系進行不準確的斷言,如聲稱自行車“在”男人“前面”。當前方法基于模型的認知性能評估這些LVLMs中的幻覺,主要關注兩個方面:非幻覺生成和幻覺鑒別。前者涉及對模型響應中的幻覺元素進行詳細分析并量化它們的比例。后者,另一方面,只需要對響應是否包含任何幻覺內容進行二元判斷。這些方法在§3中進行了全面討論。

盡管LLM社區已廣泛討論了LLMs中幻覺的原因,但LVLMs的視覺模態引入了分析這些事件的獨特挑戰。我們對LVLMs中的幻覺進行了徹底分析,重點關注訓練數據和模型特性。我們的分析表明,LVLMs中的幻覺不僅由LLMs的生成性質引起,還由偏見訓練數據、視覺編碼器無法準確地定位圖像、不同模態之間的錯位、對上下文關注不足以及許多其他因素引起。在此之后,我們提供了現有幻覺緩解方法的全面概述。針對這些原因,當前的緩解方法主要集中在訓練數據的優化、LVLMs內各個模塊的精細化以及生成輸出的后處理上。這些方法被用來減少幻覺的發生,從而產生更忠實的響應。最后,我們列出了幾個發展LVLMs中幻覺研究的重要方向。 總之,這項研究旨在為LVLMs的發展提供洞察,并探索與LVLMs幻覺相關的機會和挑戰。這一探索不僅幫助我們了解當前LVLMs的局限性,還為未來的研究和開發更可靠、更高效的LVLMs提供了重要指導。

2 幻覺在LVLM時代

**2.1 大型視覺-語言模型

LVLMs是處理視覺和文本數據以解決涉及視覺和自然語言的復合任務的高級多模態模型。結合了LLMs的能力,LVLMs是之前視覺-語言預訓練模型(VLPMs)[Long等,2022]的演進。 LVLM架構通常包含三個組件:視覺編碼器、模態連接模塊和LLM。視覺編碼器,通常是CLIP視覺編碼器[Radford等,2021]的一個調整,將輸入圖像轉換為視覺令牌。連接模塊旨在將視覺令牌與LLM的詞嵌入空間對齊,確保LLM可以處理視覺信息。模態對齊的方法有多種,包括交叉注意力[Alayrac等,2022]、適配器[Gao等,2023]、Q-Formers[Li等,2023a; Dai等,2023a; Zhu等,2023],以及更簡單的結構如線性層或多層感知器(MLP)[Liu等,2023c; Chen等,2023b; Liu等,2023b]。LLM在LVLMs中像中央處理單元一樣,接收對齊的視覺和文本信息,隨后綜合這些信息以產生響應。 LVLMs的訓練涉及兩個關鍵階段:(1)預訓練,LVLMs從對齊的圖像-文本對中獲取視覺-語言知識;(2)指令調優,期間LVLMs學習使用多樣化的任務數據集遵循人類指令。完成這些階段后,LVLMs可以高效地處理和解釋視覺和文本數據,使它們能夠在像視覺問題回答(VQA)這樣的復合多模態任務中進行推理。

**2.2 LVLMs中的幻覺

LVLMs中的幻覺指的是視覺輸入(視為“事實”)和LVLM的文本輸出之間的矛盾。通過視覺-語言任務的視角,LVLM幻覺癥狀可以被解釋為判斷或描述的缺陷。 當模型對用戶的查詢或陳述的響應與實際視覺數據不一致時,會發生判斷幻覺。例如,如圖1所示,當面對展示三只鳥的圖像并詢問圖片中是否有貓時,模型錯誤地肯定回答“是”。另一方面,描述幻覺是無法忠實地描繪視覺信息的失敗。例如,在圖1下部,模型不準確地描述了男人的頭發、杯子的數量和顏色、自行車的位置,并編造了不存在的對象,如筆記本電腦和狗。 從語義角度來看,這種錯位可以通過聲稱不存在的對象、不正確的對象屬性或不準確的對象關系來表征,如不同顏色所突出的那樣。

**2.3 LVLMs中幻覺的獨特挑戰

LVLMs通過結合視覺和語言模塊來處理視覺-語言任務。然而,這種整合也在幻覺檢測、因果推理和緩解方法方面帶來了獨特的挑戰。 幻覺檢測困難:LVLM的多模態性質妨礙了幻覺的檢測。LVLM幻覺可能在包括但不限于對象、屬性和關系等多個語義維度上表現出來[Zhai等,2023; You等,2023]。為了全面檢測這些幻覺,模型不僅需要進行自然語言理解,還需要使用細粒度的視覺注釋并將它們與生成的文本精確對齊。

交織的原因

LVLMs中幻覺的原因通常是多方面的。一方面,LLMs和LVLMs共享的數據相關問題,如錯誤信息、偏見以及知識邊界限制[Hu等,2023]。然而,LVLMs獨特地受到它們結合視覺數據的影響。例如,視覺不確定性,如不清晰或扭曲的圖像,可以加劇LVLMs中的語言先驗和統計偏見,導致更嚴重的幻覺[Liu等,2023a]。

綜合緩解方法

除了采用針對LLM的幻覺緩解方法,如數據質量提升、編碼優化和與人類偏好對齊外,LVLM特有的方法還包括精煉視覺表現和改進多模態對齊。例如,有建議擴大視覺分辨率可以有效減少幻覺[Bai等,2023]。盡管如此,使用大量數據訓練高分辨率視覺編碼器可能需要大量資源。因此,探索更具成本效益的增強視覺表現的策略是至關重要的。此外,視覺和文本令牌之間的顯著差距表明,改善視覺-語言令牌對齊可能降低幻覺發生率[Jiang等,2023]。

3 評估方法和基準

在建立了LVLM中幻覺的概念之后,我們轉向檢查現有的LVLM幻覺評估方法和基準。對應于圖1中提到的描述和判斷任務中的幻覺癥狀,當前的評估方法可以分為兩大類:(1) 評估模型生成非幻覺內容的能力,和(2) 評估模型幻覺鑒別的能力,如圖2所示。同樣,基于評估任務,基準也可以被分類為區分性和生成性兩種,如表1所示。

評估方法:

非幻覺內容生成評估(Evaluation on Non-Hallucinatory Generation):

手工流程方法(Handcrafted Pipeline Methods):這些方法通過手動設計多個步驟,具有強解釋性。例如,CHAIR(Caption Hierarchy and Image Relationship)專注于評估圖像描述中對象幻覺,通過量化模型生成與真實描述之間的差異。CCEval(Contrastive Caption Evaluation)則在應用CHAIR之前使用GPT-4進行對象對齊。FAITHSCORE提供了一種無參考的、細粒度的評估方法,通過識別描述性子句、提取原子事實,并與輸入圖像進行比較。 * 基于模型的端到端方法(Model-based End-to-End Methods):這些方法直接評估LVLMs的響應。LLM-based Evaluation使用先進的LLM(如GPT-4)基于幻覺來評估LVLM生成的內容。幻覺數據驅動模型評估則構建標記的幻覺數據集,用于微調模型以檢測幻覺。例如,M-HalDetect創建了一個帶有注釋的LVLM圖像描述數據集,并在該數據集上微調InstructBLIP模型以識別幻覺。

幻覺鑒別評估(Evaluation on Hallucination Discrimination)

這些方法通常采用問答格式,詢問LVLMs關于圖像內容的問題,并評估模型的響應。例如,POPE(Perceptual Object Presence Evaluation)設計了關于圖像中對象存在的二元(是/否)問題來評估LVLMs的幻覺鑒別能力。CIEM(Contrastive Instruction Evaluation Method)類似于POPE,但通過ChatGPT自動化對象選擇。NOPE(Negative Object Presence Evaluation)是另一種基于VQA的方法,旨在評估LVLMs識別視覺查詢中對象缺失的能力。

基準(Benchmarks):

基準測試是專門針對LVLMs的幻覺問題設計的,旨在評估模型在非幻覺內容生成或幻覺鑒別方面的能力。這些基準可以分為兩類:

判別性基準(Discriminative Benchmarks):

這些基準專注于評估模型在對象幻覺方面的性能。例如,POPE、NOPE和CIEM都是判別性基準,它們的數據集大小分別為3000、17983和72941,主要關注對象幻覺,使用準確度作為評估指標。

生成性基準(Generative Benchmarks):

生成性基準擴展了評估范圍,包括屬性和關系幻覺。例如,AMBER(A Multimodal Language Model Benchmark)是一個綜合性基準,集成了生成性和判別性任務。生成性基準的評估指標通常比判別性基準更復雜和多樣化,因為它們需要針對特定的幻覺類別設計定制的評估方法。

這些評估方法和基準為研究者提供了一套工具,以系統地分析和改進LVLMs在處理視覺-語言任務時的性能,特別是在減少幻覺方面。通過這些工具,研究者可以更好地理解模型的局限性,并開發出更有效的緩解策略。

4. LVLM幻覺的原因

數據問題(Data Issues)

數據偏見(Data Bias):訓練數據中可能存在分布不平衡,例如在事實判斷問答對中,大多數答案可能是“是”(Yes),導致模型傾向于給出肯定的回答,即使在不準確的情況下。 * 注釋不相關性(Annotation Irrelevance):生成的指令數據可能包含與圖像內容不匹配的對象、屬性和關系,這可能是由于生成模型的不可靠性造成的。

視覺編碼器問題(Vision Encoder Issues)

有限的視覺分辨率(Limited Visual Resolution):視覺編碼器可能無法準確識別和理解高分辨率圖像中的所有細節,這可能導致在生成描述時出現幻覺。 * 細粒度視覺語義(Fine-grained Visual Semantics):視覺編碼器可能無法捕捉到圖像中的所有細粒度信息,如背景描述、對象計數和對象關系,從而導致幻覺。

模態對齊問題(Modality Alignment Issues)

連接模塊的簡單性(Connection Module Simplicity):簡單的連接模塊,如線性層,可能無法充分對齊視覺和文本模態,增加了幻覺的風險。 * 有限的標記約束(Limited Token Constraints):在模態對齊過程中,由于標記數量的限制,可能無法完全編碼圖像中的所有信息,導致信息丟失和幻覺。

LLM問題(LLM Issues)

上下文注意力不足(Insufficient Context Attention):在解碼過程中,模型可能只關注部分上下文信息,忽視了輸入的視覺信息,導致生成的文本內容與視覺輸入不一致。 * 隨機采樣解碼(Stochastic Sampling Decoding):隨機采樣引入了解碼過程中的隨機性,雖然有助于生成多樣化的內容,但也增加了幻覺的風險。 * 能力錯位(Capability Misalignment):LLM在預訓練階段建立的能力與在指令調整階段提出的擴展要求之間存在差距,導致模型生成超出其知識范圍的內容,增加了幻覺的可能性。

這些原因相互交織,共同作用于LVLMs,導致在視覺-語言任務中出現幻覺現象。為了緩解這些問題,研究者們提出了一系列針對性的優化策略,旨在提高模型的準確性和可靠性。

5. LVLM幻覺的緩解

LVLM(Large Vision-Language Models)中的幻覺問題是指模型生成的文本內容與實際視覺輸入之間存在不一致性。為了緩解這一問題,研究者們提出了多種方法,這些方法主要針對幻覺產生的原因進行優化。數據優化:通過改進訓練數據來減輕幻覺。視覺編碼器增強(Vision Encoder Enhancement):提高圖像分辨率和感知能力。連接模塊增強(Connection Module Enhancement):開發更強大的連接模塊以更好地對齊視覺和語言模態。LLM解碼優化(LLM Decoding Optimization):通過優化解碼策略和與人類偏好對齊來減少幻覺。后處理(Post-processing):通過額外的模塊或操作來修正生成的輸出。

6 結論

配備了先進的視覺編碼器、強大的LLMs和模態對齊模塊,LVLMs在開放領域的視覺-語言任務中表現出色。然而,幻覺嚴重挑戰了LVLMs的實際應用。在這項綜述中,我們對LVLMs中幻覺現象進行了細致的調查。這項探索涵蓋了對這些幻覺背后基本原因的詳細分析,評估了創新的評估方法及相關基準,并討論了有效的緩解方法。我們還深入探討了現有的挑戰,并討論了可能的方向。這項綜述旨在為解決LVLMs中幻覺的復雜性奠定基礎,并促進未來研究,以便在各種應用中實際實施這些模型。 參考:

eason. //zhuanlan.zhihu.com/p/681171544 參考文獻 [Alayrac et al., 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, volume 35, 2022. [Bai et al., 2023] Jinze Bai, Shuai Bai, Shusheng Yang, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. [Chen et al., 2023a] Chi Chen, Ruoyu Qin, Fuwen Luo, et al. Position-enhanced visual instruction tuning for multimodal large language models. arXiv preprint arXiv:2308.13437, 2023. [Chen et al., 2023b] Jun Chen, Deyao Zhu, Xiaoqian Shen, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478, 2023. [Chen et al., 2023c] Zhe Chen, Jiannan Wu, Wenhai Wang, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

在大型語言模型(LLMs)中的幻覺總被視為局限。然而,它們也可能成為創造力的來源嗎?本綜述探索了這種可能性,暗示幻覺可能通過培養創造力促進LLM的應用。本綜述首先回顧了幻覺的分類及其對LLM在關鍵應用中可靠性的負面影響。然后,通過歷史案例和近期相關理論,綜述探討了LLMs中幻覺的潛在創造性好處。為了闡明這種聯系的價值和評估標準,我們深入研究了創造力的定義和評估方法。遵循發散思維和收斂思維階段的框架,本綜述系統性地回顧了文獻,討論了如何轉換和利用LLMs中的幻覺以培養創造力。最后,綜述討論了未來研究方向,強調需要進一步探索和完善LLMs內創造性過程中幻覺的應用。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

最近在生物醫學圖像分析領域的進展顯著受到了“分割任何模型”(Segment Anything Model,簡稱SAM)的推動。這種變革性技術,最初是為通用計算機視覺開發的,迅速在醫學圖像處理中找到了應用。在過去的一年里,SAM在零樣本學習(zero-shot learning)適應醫學成像方面展示了其能力,這一時期發表了超過100篇相關論文。SAM的基本前提在于其能夠在不了解物體類型或成像方式的情況下,對圖像中的物體進行分割或識別。這種方法與人類視覺系統能夠實現的任務相契合,盡管在非生物視覺背景下的應用在理論上仍然更具挑戰性。SAM的一個顯著特點是其能夠根據指定的分辨率尺度或感興趣區域調整分割,類似于語義引導。這種適應性激發了在醫學成像應用中的創造性和創新浪潮。 我們的綜述聚焦于2023年4月1日至2023年9月30日這個關鍵的首六個月期間。我們審視了SAM必要的適應和整合,以應對長期存在的臨床挑戰,尤其是在我們分析中涵蓋的33個開放數據集的背景下。盡管在許多應用中SAM達到或接近了最先進的性能,但在某些領域,如頸動脈、腎上腺、視神經和下頜骨的分割方面,它還存在不足。我們的綜述深入探討了SAM的基礎方法在哪些創新技術上表現出色,并探索了在不同醫學成像場景中有效轉化和應用這些模型的核心概念。

在生物醫學圖像分析領域快速發展的背景下,“分割任何模型”(Segment Anything Model,簡稱SAM)已經成為一種改變范式的技術。最初為通用計算機視覺所構想的SAM,迅速在醫學圖像處理領域發揮了重要作用。這項綜述深入探討了SAM在生物醫學成像中的應用和適應情況,特別強調過去一年中其在學術研究中的顯著增長。 SAM最引人注目的特點之一是其能夠在不需要事先了解物體類型或成像方式的情況下,分割醫學圖像中的物體。這一能力在生物醫學成像領域至關重要,準確分割各種解剖結構和病理狀態至關重要。SAM的方法論呼應了人類視覺系統在物體識別和分割方面的適應性,標志著計算圖像分析的重大進步。 我們的綜述集中于2023年4月1日至2023年9月30日這一時期。這六個月是SAM首次發布后的關鍵發展階段,其特點是廣泛適應和整合SAM,以應對長期存在的臨床挑戰,尤其是在開放數據集的背景下。我們的分析涵蓋了33個這樣的數據集,提供了SAM在這一動態領域的尖端應用的全面評估。 此外,我們對SAM在當前表現不佳的領域進行了批判性評估,包括復雜解剖區域如頸動脈、腎上腺、視神經和下頜骨的分割。這項調查旨在突出目前的局限性,并識別未來提升SAM技術的潛在領域。 這項綜述還探討了SAM的基礎方法在哪些創新技術上表現出色。我們深入探討了在不同醫學成像場景中有效轉化和應用這些模型的基本概念。我們的目標是描述SAM在生物醫學成像中的應用現狀,并為未來研究提供戰略方向。 總之,隨著SAM在生物醫學成像領域的推進,其多方面的影響日益明顯。除了在圖像分割方面的技術能力外,SAM還代表著跨學科合作的典范,融合了計算機科學、醫學和數據分析的前沿。這項綜述不僅突出了SAM的技術成就,也強調了它作為重定義醫學研究范式的催化劑的角色。通過考察SAM在不同醫學領域的整合,我們提供了這項技術如何重塑診斷方法、提升患者護理和開辟個性化醫學新途徑的見解。我們對SAM在不同醫學背景下的應用的探索不僅是學術上的練習,而且是AI在醫療保健中變革潛力的證明,為未來可能進一步改變該領域的創新提供了路線圖。

付費5元查看完整內容

鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)我們將現有工作分類為三個目的類別深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。

我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。

通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。

解釋:深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。

影響:訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。

洞察:從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論

本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。

總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容

隨著在線視頻平臺的迅猛增長和視頻內容量的激增,對于精通視頻理解工具的需求顯著增強。大型語言模型(LLMs)在關鍵語言任務中展現出驚人的能力,這項綜述為利用大型語言模型的視頻理解的最新進展(Vid-LLMs)提供了詳細概覽。Vid-LLMs的新興能力令人驚訝地先進,特別是它們結合常識知識的開放式空間-時間推理能力,為未來的視頻理解展示了一條有希望的路徑。我們檢查了 Vid-LLMs 的獨特特征和能力,將方法分為四大類:基于LLM的視頻智能體,Vid-LLMs預訓練,Vid-LLMs指令微調,以及混合方法。此外,這項綜述還全面研究了 Vid-LLMs 的任務和數據集,以及用于評估的方法。此外,綜述還探討了 Vid-LLMs 在各個領域的廣泛應用,從而展示了它們在應對現實世界視頻理解挑戰方面的顯著可擴展性和多功能性。最后,綜述總結了現有 Vid-LLMs 的局限性和未來研究的方向。欲了解更多信息,我們建議讀者訪問 //github.com/yunlong10/Awesome-LLMs-for-Video-Understanding 存儲庫。

我們生活在一個多模態的世界中,視頻已成為最常見的媒體形式,這在一定程度上得益于互聯網技術,特別是移動互聯網技術的發展。隨著在線視頻平臺的快速擴張和監控、娛樂、自動駕駛中相機的日益普及,視頻內容已成為一種關鍵且吸引人的媒介,其豐富性和吸引力超越了傳統的文本和圖文結合形式。這一進步促使視頻制作呈指數級增長,每天都有數以百萬計的視頻被創作出來。然而,手動處理如此龐大的視頻內容既費時又費力。因此,對于能夠有效管理、分析和處理這些大量視頻內容的工具的需求日益增長。為了滿足這一需求,視頻理解和分析技術應運而生,利用智能分析技術。該技術旨在自動識別和解釋視頻內容,從而減輕人類操作者的負擔

正如圖1所示,視頻理解方法的演變可分為四個階段: 傳統方法。在視頻理解的早期階段,使用了手工特征提取技術,如尺度不變特征變換(SIFT)[1]、加速穩健特征(SURF)[2]和定向梯度直方圖(HOG)[3]來捕捉視頻中的關鍵信息。背景減除[4]、光流方法[5]和改進的密集軌跡(IDT)[6, 7]用于跟蹤建模運動信息。由于視頻可以被視為時間序列數據,因此也使用了隱藏馬爾可夫模型(HMM)[8]等時間序列分析技術來理解視頻內容。在深度學習普及之前,也使用了基本的機器學習算法,如支持向量機(SVM)[9]、決策樹和隨機森林,用于視頻分類和識別任務。集群分析[10]用于分類視頻段落,或主成分分析(PCA)[11, 12]用于數據降維,也是視頻分析中常用的方法。

神經視頻模型。與經典方法相比,用于視頻理解的深度學習方法具有更優越的任務解決能力。DeepVideo[13]是最早將深度神經網絡引入視頻理解的方法,具體是卷積神經網絡(CNN)。然而,由于對運動信息的使用不足,其性能并未超過最佳手工特征方法。雙流網絡[14]結合了CNN和IDT來捕獲運動信息以提高性能,驗證了深度神經網絡在視頻理解方面的能力。為了處理長視頻理解,采用了長短時記憶(LSTM)[15]。時間段網絡(TSN)[16]也為長視頻理解而設計,通過單獨分析視頻段然后聚合它們。基于TSN,引入了Fisher向量(FV)編碼[17]、雙線性編碼[18]和局部聚合描述符(VLAD)[19]編碼[20]。這些方法在UCF-101[21]和HMDB51[22]數據集上提高了性能。與雙流網絡不同,3D網絡通過引入3D CNN到視頻理解(C3D)[23]開啟了另一分支。膨脹的3D ConvNets(I3D)[24]利用了2D CNN,即Inception[25]的初始化和架構,在UCF-101和HMDB51數據集上取得了巨大的進步。隨后,人們開始使用動力學-400(K-400)[26]和某些事物(Something-Something)[27]數據集來評估模型在更具挑戰性的場景中的性能。ResNet[28]、ResNeXt[29]和SENet[30]也從2D轉向3D,導致了R3D[31]、MFNet[32]和STC[33]的出現。為了提高效率,3D網絡在各種研究中被分解為2D和1D網絡(例如,S3D[34]、ECO[35]、P3D[36])。LTC[37]、T3D[38]、Non-local[39]和V4D[40]專注于長期時間建模,而CSN[41]、SlowFast[42]和X3D[43]則致力于高效率。引入視覺變壓器(ViT)[44]促進了一系列杰出模型的出現(例如,TimeSformer[45]、VidTr[46]、ViViT[47]、MViT[48])。

自監督視頻預訓練。自監著學習預訓練模型[51]在視頻理解方面的可轉移性[49, 50]使它們能夠在最小額外標注的情況下跨多種任務泛化,克服了早期深度學習模型對大量特定任務數據的需求。VideoBERT [52] 是進行視頻預訓練的早期嘗試。它基于雙向語言模型BERT [53],為自監著學習設計了與視頻-文本數據相關的任務。它使用層次性k-means對視頻特征進行標記化。預訓練模型可以微調以處理多個下游任務,包括動作分類和視頻字幕。遵循“預訓練”和“微調”范式,出現了大量針對視頻理解的預訓練模型研究,特別是視頻-語言模型。它們要么使用不同的架構(ActBERT [54]、掩蔽自動編碼器作為空時學習者 [55]、OmniMAE [56]、VideoMAE [57]、MotionMAE [58]),要么采用預訓練和微調策略(MaskFeat [59]、VLM:任務不可知[60]、ALPRO [61]、全能變壓器 [62]、maskViT [63]、CLIP-ViP [64]、揭示視頻-語言學習的單幀偏見 [65]、LF-VILA [66]、EMCL [67]、HiTeA [68]、CHAMPAGNE [69])。

大型語言模型用于視頻理解。最近,大型語言模型(LLMs)迅速進步[70]。在大量數據集上預訓練的大型語言模型的出現引入了新的情境學習能力[71]。這使它們能夠使用提示來處理多種任務,而不需要微調。ChatGPT [72] 是基于這一基礎的第一個開創性應用。這包括生成代碼和調用其他模型的工具或API的能力等。許多研究正在探索使用像ChatGPT這樣的LLMs來調用視覺模型API,解決計算機視覺領域的問題,包括Visual-ChatGPT [73]。指令調整的出現進一步增強了這些模型有效響應用戶請求和執行特定任務的能力。集成視頻理解能力的LLMs提供了更復雜的多模態理解優勢,使它們能夠處理和解釋視覺和文本數據之間的復雜交互。類似于它們在自然語言處理(NLP)[74]中的影響,這些模型作為更通用的任務解決器,擅長處理更廣泛的任務范圍,利用它們從大量多模態數據中獲得的廣泛知識庫和情境理解。這使它們不僅能理解視覺內容,還能以更符合人類理解的方式推理。許多工作也在探索使用LLMs進行視頻理解任務,即Vid-LLMs。 以前的綜述論文要么研究視頻理解領域的特定子任務,要么關注視頻理解之外的方法。例如,[75]綜述了通用視覺-語言任務的多模態基礎模型,包括圖像和視頻應用。[76]和[77]分別專注于視頻字幕和視頻動作識別任務的綜述。其他視頻理解任務,如視頻問答和定位未被考慮。此外,[78]和[79]分別調研了視頻相關方法

——視頻擴散模型和LLMs,缺乏對視頻理解的專注。盡管對社區有重要價值,但以前的綜述論文在基于大型語言模型調研一般視頻理解任務方面留下了差距。本文通過對使用大型語言模型的視頻理解任務進行全面綜述來填補這一差距。

本綜述結構如下:第2節提供了全面概述,強調利用LLMs能力的方法,并詳細介紹這些方法解決的具體任務和數據集。第3節深入探討了利用LLMs進行視頻理解的最新研究,介紹了它們在該領域的獨特方法和影響。第4節提供了各種任務、相關數據集和評估指標的詳細總結和分析。第5節探索了Video-LLMs在多個重要領域的應用。綜述在第6節總結關鍵發現,并識別未解決的挑戰和未來研究的潛在領域。

除了這篇綜述外,我們還建立了一個GitHub存儲庫,匯集了用于大型語言模型(Vid-LLMs)視頻理解的各種支持資源。這個專注于通過Vid-LLMs增強視頻理解的存儲庫可以在Awesome-LLMs-for-Video-Understanding中訪問。

基礎

視頻理解是一個充滿挑戰的任務,它激發了眾多創新任務的創造,目的是增強模型解釋視頻內容的能力。從視頻分類和動作識別的基礎任務出發,該領域已經演化為包括更復雜的任務。這些任務范圍從帶有詳細描述的視頻字幕,到視頻問答。后者不僅需要理解視頻內容,還需要運用邏輯和常識知識進行推理以制定回答。隨著我們在這一領域的進步,任務變得越來越復雜和具有挑戰性,需要模型能夠像人類一樣直觀地解釋視頻。我們將視頻理解的主要任務總結如下:

識別與預測。這些任務在視頻理解中形成了一對緊密結合的雙胞胎,強調視頻中的時間連續性和進展。 字幕和總結。專注于更細致的細節,這些任務涉及提供每個時刻的準確和具體的文本描述,并提煉視頻的精髓,捕捉主要主題和關鍵敘述。這些任務提供了對視頻內容的微觀和宏觀理解,結合了以細節為導向的洞察力和更廣闊的視角。

定位和檢索。無縫地將視覺內容與文本上下文聯系起來,這類任務要求模型識別出與提供的文本描述準確對應的特定視頻或片段。

問答。這些任務強調模型不僅要理解視頻的視覺和聽覺組成部分,還要整合外部知識和推理能力,提供與上下文相關的答案。

隨著具有挑戰性的任務的發展,模型的進展反映了它們設計用來解決的任務的日益復雜化。從處理有限數量幀以將視頻分類為預定義標簽的經典方法(反映了理解的狹窄范圍)到更復雜模型的出現,視頻分類的視野發生了巨大擴張。現代大型模型現在能夠處理數百幀,使它們不僅能生成詳細的文本描述,還能回答有關視頻內容的復雜問題。這種能力的飛躍標志著從經常難以泛化的任務特定、經典方法向更多功能和綜合方法的重大轉變。將LLMs整合到視頻理解中目前由四個主要策略引領:

基于LLM的視頻智能體。在這種方法中,LLMs充當中心控制器。它們指導視覺模型有效地將視頻中的視覺信息翻譯到語言領域。這包括提供詳細的文本描述和轉錄音頻元素。 Vid-LLM預訓練。該方法重點使用監督或對比訓練技術從頭開始開發基礎視頻模型。在這個框架中,LLMs作為編碼器和解碼器,提供全面的視頻理解方法。 Vid-LLM指令調整。這種策略涉及構建專門的調整數據集,以微調視覺模型與LLMs的整合,特別是為視頻領域量身定制。 混合方法。這些策略利用視覺模型在微調過程中提供額外的反饋。這種協作方法使模型能夠獲得超越文本生成的技能,如對象分割和其他復雜的視頻分析任務。 接下來,我們將分解LLMs的關鍵組成部分,并仔細研究它們如何與基礎模型一起工作以改進視頻理解。

付費5元查看完整內容

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

量子啟示的機器學習(QiML)是一個迅速發展的領域,由于其有潛力在經典計算框架內利用量子力學的原理,因此受到了全球研究者的關注。然而,當前的綜述文獻經常只是對QiML進行淺層次的探討,而更多地關注更為廣泛的量子機器學習(QML)領域。為了填補這一空白,這項綜述為QiML提供了一個整合的、全面的調研,探討了QiML的多種研究領域,包括張量網絡模擬、去量子化算法等,并展示了近期的進展、實際應用以及可能的未來研究方向。進一步地,通過分析該術語的各種先前解釋及其固有的模糊性,為QiML建立了一個具體的定義。隨著QiML的不斷發展,我們預期未來將從量子力學、量子計算和經典機器學習中汲取大量新的發展,進一步豐富該領域。這項調查旨在為研究者和實踐者提供指導,為他們提供對QiML當前狀況和未來方向的全面了解。

量子啟示的機器學習(QiML)領域已經取得了大量的增長,吸引了全球研究者的關注。作為量子機器學習(QML)的一個特定子集,QiML專注于在經典計算框架內開發受量子力學原理啟發的經典機器學習算法,這通常被稱為QML分類中的“經典-經典”象限,如圖1所示。QiML代表了一個多面的研究領域,其綜述旨在超越傳統的經典最先進的結果,或探索量子形式所提供的表現力。

為了在QML的背景下定位QiML,我們簡要地說明了后者。更廣泛地說,QML位于量子計算和機器學習的吸引人的交匯點。主導的研究領域關注“經典-量子”域,并探討使用量子硬件加速和增強機器學習策略。在此,經典機器學習中存在的兩大挑戰得到了回應。首先,很多領域中數據集的不斷增大和復雜化產生了計算挑戰,這些挑戰經典機器學習難以高效管理。其次,量子計算提供了解決目前用經典計算方法難以實現的復雜問題的潛力[1]。但是,目前在實際的量子硬件上評估QML算法受到一些因素的限制,例如量子位數有限、量子門中的高誤差率、維持量子狀態(失去相干性)的困難,以及與量子錯誤糾正相關的挑戰[2]。因此,QML的景觀主要受到理論考慮的影響,而噪聲中間規模量子(NISQ)設備的最近進展為全規模量子計算的潛力提供了一個初步的、經驗性的預覽[3]。因此,QML對機器學習領域的真正影響和范圍仍然是一個持續的研究話題。

QiML與QML研究并肩發展。經常被引用的研究領域包括張量網絡量子模擬和去量子化算法[4],[5]。然而,與QML相比,QiML中的發現通常都有數字證據支持,這得益于沒有量子硬件的要求,因此相對于其他QML子集,更容易進行定量評估。雖然QiML研究正在蓬勃發展,但當前的綜述文獻往往忽略了這一領域,更多的關注是放在整個QML上。通常,QiML只是被簡要提及或被淺層次地處理[5],[6],[7],[8],[9],[10]。QiML的實際應用案例、其應用以及與標準經典基準的比較分析通常都沒有被探索。這指出了對QiML作為一個獨立領域進行深入審查的迫切需求。為了回應這一文獻空白,我們的調查旨在為QiML的各個方面提供一個全面、綜合的討論。

我們的目標是提供一個關于QiML在實踐中如何被使用的可訪問和全面的概述,詳細描述其最近的進展,并使讀者了解該領域的進展。讀者應該注意,從量子力學的視角探索QiML方法,并基于啟示來源對方法進行分類將是有趣的,但這次調查是從應用的角度來看待這個領域的。這次調查的貢獻是提供了近年來QiML及其研究方向的進展概述,并確定了QiML研究的未來方向。具體來說,它們是:突出并分類現有的QiML方法; ? 為QiML建立一個具體的定義,考慮到其多方向的研究趨勢; ? 討論這些方法的實際應用,特別是確定當前已經應用QiML技術的任務; ? 討論QiML在實踐中的限制因素,以及; ? 探索和討論QiML研究的潛在未來方向。

付費5元查看完整內容

圖像恢復(IR)一直是低級視覺領域中不可或缺且具有挑戰性的任務,旨在提高由各種形式的退化所扭曲的圖像的主觀質量。近期,擴散模型在AIGC的視覺生成方面取得了顯著進展,從而引起了一個直觀的問題,“擴散模型是否可以提升圖像恢復”。為了回答這個問題,一些開創性的研究試圖將擴散模型整合到圖像恢復任務中,從而取得了比先前基于GAN的方法更好的表現。盡管如此,關于基于擴散模型的圖像恢復的全面而有啟發性的綜述仍然很少。在本文中,我們是第一個全面回顧近期基于擴散模型的圖像恢復方法的,涵蓋了學習范例、條件策略、框架設計、建模策略和評估。具體來說,我們首先簡要介紹擴散模型的背景,然后介紹兩種在圖像恢復中利用擴散模型的流行工作流。隨后,我們分類并強調使用擴散模型進行IR和盲/實際世界IR的創新設計,旨在激發未來的發展。為了徹底評估現有的方法,我們總結了常用的數據集、實施細節和評估指標。此外,我們為開源方法在三個任務中提供了客觀的比較,包括圖像超分辨率、去模糊和修復。最后,受到現有工作中的限制的啟發,我們為基于擴散模型的IR提出了五個潛在的并且具有挑戰性的未來研究方向,包括采樣效率、模型壓縮、扭曲模擬和估計、扭曲不變學習和框架設計。

資源庫將在 //github.com/lixinustc/Awesome-diffusion-model-for-image-processing/ 上發布。

圖像恢復(IR)一直是低層次視覺任務中的長期研究主題,在提高圖像的主觀質量方面發揮著不可替代的作用。流行的IR任務包括圖像超分辨率(SR)[1-10]、去模糊[11-17]、去噪[18-25]、修復[26-31]和壓縮偽影去除[32-38]等。一些IR任務的視覺示例顯示在圖1中。為了恢復扭曲的圖像,傳統的IR方法將恢復視為信號處理,并從空間或頻率的角度使用手工制作的算法減少偽影[18, 39-44]。隨著深度學習的發展,眾多IR工作為各種IR任務定制了一系列數據集,例如,用于SR的DIV2K [45]、Set5 [46]和Set14 [47],用于去雨的Rain800 [48]、Rain200 [?]、Raindrop [49]和DID-MDN [50],以及用于運動去模糊的REDS [51]和Gopro [52]等。利用這些數據集,大多數近期的工作[1-3, 7-11, 13, 16, 19, 21-23, 32-34, 53-55]專注于通過基于卷積神經網絡(CNNs)[56]或Transformer [57]的精心設計的骨干網絡來提高IR網絡針對復雜退化的表示能力。盡管這些工作在客觀質量(例如,PSNR和SSIM)上取得了卓越的進展,但恢復的圖像仍然受到不滿意的紋理生成的困擾,這阻礙了IR方法在實際場景中的應用。

得益于生成模型的發展[58-66],尤其是生成對抗網絡(GAN)[64],一些開創性的IR研究[5, 6, 67-70]指出,先前的像素級損失,例如MSE損失和L1損失容易受到模糊紋理的影響,并將GAN的對抗損失引入到IR網絡的優化中,從而增強其紋理生成能力。例如,SRGAN [5] 和DeblurGAN [12]分別使用像素級損失和對抗損失的組合來實現以感知為導向的SR網絡和去模糊網絡。在他們之后,改進基于GAN的IR的兩個主要方向是增強生成器(即恢復網絡)[5, 6, 71-73]和鑒別器[74-77]。特別是,ESRGAN [6]引入了強大的RRDB [6]作為基于GAN的SR任務的生成器。三種流行的鑒別器,包括像素級鑒別器(U-Net形狀)[74]、塊級鑒別器[75, 78-80]和圖像級鑒別器[76, 77](即VGG類似的架構)被設計來關注不同粒度級別的主觀質量(即從局部到全局)。盡管有上述進展,但大多數基于GAN的IR研究仍然面臨兩個不可避免但至關重要的問題:1) 基于GAN的IR的訓練容易受到模式腐敗和不穩定優化的影響;2) 大多數生成的圖像的紋理似乎是假的和與事實不符的。

近年來,擴散模型作為生成模型的一個新分支浮現出來,為視覺生成任務帶來了一系列的突破。擴散模型的原型可以追溯到工作[81],并由DDPM [82]、NCSN [83]和SDE [84]進一步發展。一般來說,擴散模型由前向/擴散過程和反向過程組成,其中前向過程逐漸增加像素級噪聲到圖像,直到它滿足高斯噪聲,而反向過程旨在通過估算得分的去噪[83]或噪聲預測[82]來重建圖像。與GANs相比,擴散模型產生高保真度和多樣化的生成結果,從而成功地替代了在一系列領域中的GANs,如視覺生成[82-86]和條件視覺生成[86-97]。隨著視覺-語言模型的進步,擴散模型已被擴展到跨模態生成,如StableDiffusion [98]和DALLE-2 [99]。這極大地推動了人工智能生成內容(AIGC)的發展。我們已經在圖2中根據時間線列出了基于擴散模型的代表性作品。

受到擴散模型優越的生成能力的啟發,許多研究探索了它們在圖像恢復任務中的應用,目標是促進紋理的恢復。根據訓練策略,這些工作大致可以分為兩類:1) 第一類[100–109]致力于通過有監督學習從零開始優化用于IR的擴散模型;2) 第二類(即零樣本類)[110–117]努力利用預訓練擴散模型中的生成先驗用于IR。典型地,基于有監督學習的方法需要收集大規模的扭曲/清晰的圖像對,而基于零樣本的方法主要依賴已知的退化模式。這些局限性阻礙了這些基于擴散模型的方法在真實世界場景中的應用,其中的扭曲通常是多種多樣和未知的。為了進一步解決上述問題,一些研究[118–123]已經擴展了擴散模型,通過結合真實世界的扭曲模擬、核估計、領域轉換和扭曲不變學習來處理盲目/真實世界的圖像恢復。

盡管擴散模型在圖像恢復方面已經顯示出顯著的效果,但相關的技術和基準測試顯示出相當的多樣性和復雜性,這使它們難以被追蹤和改進。此外,缺乏一個基于擴散模型的IR的綜合性審查進一步限制了其發展。在本文中,我們首次回顧并總結了基于擴散模型的圖像恢復方法的工作,旨在為圖像恢復社區提供一個結構良好且深入的知識庫,并促進其在該社區內的演變。

在這次綜述中,我們首先在第2部分介紹擴散模型的背景,重點介紹三種基本的建模方法,即NCSN [83]、DDPM [82]和SDE [84],并從優化策略、采樣效率、模型架構和條件策略的角度對擴散模型進行進一步的改進。基于這些初步信息,我們在第3部分從兩個不同的方向闡明了擴散模型在圖像恢復中的進展:1) 基于監督的擴散模型IR,和2) 基于零樣本的擴散模型IR。在第4部分,我們總結了在更實用和具有挑戰性的場景下基于擴散模型的IR,即盲目/真實世界的退化。這旨在進一步增強基于擴散模型的IR方法滿足實際應用需求的能力。為了促進合理和詳盡的比較,在第5部分,我們闡明了在不同的基于擴散模型的IR任務中常用的數據集和實驗設置。此外,還提供了不同任務之間基準的綜合比較。在第6部分,我們深入分析了基于擴散模型的IR的主要挑戰和潛在方向。本次審查的最終結論總結在第7部分。

基于擴散模型的圖像恢復方法

根據擴散模型(DMs)是否針對IR進行無需訓練,我們初步將基于DM的IR方法分類為兩大類,即監督型DM-based方法 [100, 105, 107, 108, 121, 191-194] 和零樣本型DM-based方法 [112, 114, 115, 195-200]。特別地,監督型DM-based IR方法需要從頭開始使用IR數據集的成對的扭曲/干凈圖像來訓練擴散模型。與之前直接將扭曲圖像作為輸入的基于GAN的方法 [201–209] 不同,基于DM的IR采用精心設計的條件機制在反向過程中將扭曲的圖像作為指導。盡管這種方法產生了有希望的紋理生成結果,但它遇到了兩個顯著的限制:1) 從零開始訓練擴散模型依賴于大量的成對訓練數據。2) 在現實世界中收集成對的扭曲/干凈圖像是具有挑戰性的。相反,零樣本型DM-based方法只需扭曲的圖像,無需重新訓練擴散模型,從而提供了一個吸引人的選擇。它不是從IR的訓練數據集中獲得恢復能力,而是從預訓練的擴散模型中挖掘并利用圖像恢復的結構和紋理先驗知識。這一核心思想源于直覺:預訓練的生成模型可以被視為使用大量真實世界數據集(如ImageNet [210] 和FFHQ [211])構建的結構和紋理倉庫。因此,零樣本型DM-based IR方法面臨的一個關鍵挑戰是:如何在保持數據結構的同時提取相應的感知先驗。在接下來的小節中,我們首先簡要回顧代表性的監督型DM-based IR方法:SR3 [100],以及零樣本型DM-based IR方法:ILVR [195]。然后,我們從條件策略、擴散建模和框架的角度對這兩種方法進行進一步分類,這些總結在表1和表2中。此外,擴散模型的整體分類在圖4中進行了說明。

擴散模型用于盲/真實世界的圖像恢復

盡管第3節中的方法在圖像恢復方面取得了巨大的突破,但其中大多數方法 [100, 101, 104, 112–114, 197, 218, 219] 都集中在解決合成扭曲問題上,它們通常在分布外(OOD)的真實世界/盲目退化條件下表現不佳。原因在于真實世界IR的固有挑戰:1) 未知的退化模式很難被識別。2) 在現實世界中收集扭曲/干凈的圖像對是微不足道的,甚至是不可用的。為了克服這一點,先前的工作 [241–248] 嘗試通過模擬真實世界的退化 [72, 241–244, 246] 和無監督學習 [245, 247, 248] 等方法來解決它。受此啟發,一些開創性的工作 [117, 118, 120, 123, 221] 開始探索如何利用擴散模型解決真實世界的退化問題。在本文中,我們將基于DM的盲/真實世界IR [108, 109, 118–121, 123, 220–222, 226] 分為四類,即扭曲模擬 [118, 226],核估計 [119, 120],域轉換 [122, 226],以及扭曲不變的擴散模型 [123, 222, 237]。

結論

本文為圖像恢復 (IR) 的最近受歡迎的擴散模型提供了一個全面的評述,深入探討了其顯著的生成能力以增強結構和紋理恢復。首先,我們闡述了擴散模型的定義和演變。隨后,我們從培訓策略和退化場景的角度提供了現有作品的系統分類。具體來說,我們將現有的工作分為三個主要流程:有監督的 DM-based IR、零鏡頭的 DM-based IR 和基于盲/真實世界的 DM-based IR。對于每一個流程,我們基于技術提供了細粒度的分類,并詳細描述了它們的優點和缺點。對于評估,我們總結了 DM-based IR 常用的數據集和評估指標。我們還在三個典型任務上,包括圖像SR、去模糊和修復,使用扭曲和感知度量比較了開源的 SOTA 方法。為了克服 DMbased IR 中的潛在挑戰,我們強調了未來有望探索的五個潛在方向。

付費5元查看完整內容
北京阿比特科技有限公司