Transformer架構在自然語言處理和計算機視覺等多個領域展現了顯著的成功。當涉及到圖學習時,transformer不僅需要捕捉節點對之間的交互,還需要保持揭示它們之間潛在關系和鄰近性的圖結構,顯示出捕捉不同圖結構的表達能力。因此,已經提出并廣泛應用了各種結構保持圖transformer,用于生物信息學和化學信息學中的圖級任務。然而,與圖結構保持相關的策略在文獻中尚未得到良好的組織和系統化。在本文中,我們提供了結構保持圖transformer的全面概述,并從它們的設計目標的角度對這些方法進行了概括。首先,我們將策略分為四個主要組:節點特征調制、上下文節點采樣、圖重寫以及transformer架構改進。然后,我們根據圖結構保持的覆蓋范圍和目標進一步細分策略。此外,我們還討論了圖transformer模型在保持圖結構和理解圖的本質方面的挑戰和未來方向。
大規模圖數據的分布式處理具有許多實際應用,并且已被廣泛研究。近年來,提出了許多分布式圖處理框架和算法。雖然大量工作致力于分析這些框架和算法,且大部分是基于編程模型進行分析,但較少的研究集中于理解它們在分布式環境中的挑戰。在分布式環境中應用圖任務并非易事,通常面臨許多挑戰,通過我們的分析,這些包括并行性、負載平衡、通信開銷和帶寬問題。在本文中,我們通過概述分布式圖算法的挑戰和解決方案,提供了該領域當前最先進狀態的廣泛綜述。我們首先對分布式圖處理中的固有挑戰進行系統分析,然后概述現有的通用解決方案。隨后,我們綜述了最近的分布式圖處理論文中強調的挑戰及采取的應對策略。最后,我們討論當前的研究趨勢,并識別潛在的未來機會。
圖是一種高維結構,用于模型化實體之間的點對點關系。由于其強大的表示能力,圖廣泛應用于社交網絡分析[26]、道路網絡路由[74]和生物結構預測[22]。隨著近年來信息科學和大數據應用[1, 55]的發展,圖數據集的規模已變得過大,單一機器因其有限的存儲和計算能力而難以應對。為了支持對大規模圖的查詢和分析,研究人員提出了許多分布式圖算法和系統,這些系統將大規模圖分別存儲在多臺機器上并進行協作計算,例如Pregel [116]、Giraph [10]、GraphX [76]和GraphScope [61]。
近年來,關于分布式圖算法的研究激增,重點是開發特定算法如PageRank、標簽傳播和三角形計數,或解決工作調度和機器到機器通信等挑戰。然而,提供該領域全面視角的綜述仍然有限。本文旨在通過整合過去十年在SIGMOD、VLDB、PPoPP、SC、TPDS和TC等知名會議和期刊上發表的關于大規模圖的分布式圖算法的研究,彌合這一差距。我們從這些論文中提煉出四個主要且經常被提及的挑戰: ? 并行性是一個主要目標,需要同時處理多個操作并減少迭代輪數。 ? 負載均衡旨在均勻分配頂點工作并提高計算資源的利用率。這有助于防止某些機器過載而其他機器閑置。 ? 通信是指頂點之間的消息交換,與隨機內存訪問相比,這是一個昂貴的操作。優化通信開銷可以在實際執行中提高效率。 ? 帶寬限制了頂點之間傳輸的消息大小。某些算法需要大量帶寬,這在某些框架中可能不可行。 為了應對這些挑戰,提出了許多開源分布式圖處理框架(例如,Pregel [116]和GPS [137])。這些框架中抽象了通用解決方案(例如,并行循環、消息接收和發送以及廣播)。用戶可以利用高級功能開發圖算法,有效地抽象出底層實現細節的復雜性。然而,由于圖算法的不規則性,這些解決方案高度多樣化,專門為特定算法量身定做,沒有統一模式適合所有圖算法。 此外,現有研究中的分布式圖算法解決了各種圖任務。為了清晰地介紹它們,我們將廣泛研究的圖任務分類為七個主題:中心性、社區檢測、相似性、緊密子圖、遍歷、模式匹配和覆蓋。在本文中,我們首先介紹針對四個挑戰的通用解決方案,然后解析不同算法主題中解決挑戰的研究論文比例。此外,我們深入探討了特定主題中某些挑戰受到不同程度關注的原因。例如,與相似性主題相關的論文中70%集中于減少通信開銷(圖8c)。通過這些分析,我們展示了分布式圖算法研究的深入見解,并提出了未來研究的潛在有前景方向。本文的獨特貢獻是構建了一個綜合圖,如圖1所示,該圖概述了調研材料中的論文、主題、算法、解決方案和挑戰等之間的復雜連接,為該領域的格局提供了視覺敘述。讀者可以通過在線交互工具( 貢獻。現有綜述主要集中于特定的分布式挑戰(例如,負載均衡[92])或特定的分布式算法(例如,模式匹配[23])。然而,我們的綜述針對不同分布式圖算法在考慮不規則計算的情況下所面臨的挑戰。具體來說,我們的主要貢獻如下: ? 我們提供了分布式圖算法中主要挑戰及其解決方案的概述。這為分布式圖處理提供了全面的理解。 ? 我們調研了各種分布式圖算法,并根據它們解決的挑戰將它們分類為七個主題。 ? 對于分布式圖算法的每一個主題,我們進行了現有工作的徹底分析。我們還總結了它們解決的主要挑戰,并提供了對背后原因的獨特見解。本文的其余部分安排如下。第2節回顧了現有的分布式圖系統和計算處理。第3節總結了一些挑戰和解決方案,這些挑戰和解決方案在單機算法中并不常見。第4節詳細描述了流行的分布式圖算法,并突出了它們與單機版本的差異。第5節討論了流行的研究趨勢和潛在的研究機會。第6節總結了這次綜述。分布式圖處理:挑戰與解決方案概述****分布式圖處理能夠通過互聯的計算機處理非常大規模的圖。然而,從單機計算向分布式計算的轉變引入了一些挑戰,這些挑戰源于分布式系統和圖的固有特性,這些特性在設計分布式圖算法時是必須考慮的關鍵因素。在本節中,我們將對分布式圖處理中的固有挑戰進行系統分析(第3.1節)并提供現有解決方案的概述(第3.2節)。
分布式圖處理中的固有挑戰
在一個由多個互聯機器組成的分布式系統中,每臺機器都作為一個獨立的計算單元,這些機器常常分布在不同的地點。如圖2所示,這種設置利用集體的計算力進行高效的數據處理。然而,這也帶來了在計算和網絡資源利用方面的重大挑戰,這些挑戰在分布式圖處理的背景下尤為關鍵。 計算資源效率:分布式系統的特點是其龐大且可擴展的計算資源,這使得系統能夠處理大量圖數據并執行復雜的圖計算。因此,在設計分布式圖算法時,充分利用系統中的計算資源非常重要。與所有指令在單一機器上執行的集中式圖算法不同,分布式圖算法需要多臺機器的協作與合作來完成任務,這帶來了并行性和負載平衡的挑戰。 * 并行性:分布式圖處理中的并行性涉及在不同機器上同時執行多個計算。這種方法需要將較大的圖分析任務劃分為更小、更易管理的子任務。這些子任務隨后在不同機器之間分配,使得它們能夠同時執行。這種策略不僅有助于高效地利用資源,還顯著減少了整體的計算時間,從而提高了圖處理任務的性能。然而,圖分析任務往往呈現出固有的順序依賴性[3, 88, 180],使得在分布式圖算法中實現并行性變得復雜。深刻理解這些任務的基本性質對于識別可以有效并行化的獨立子任務至關重要。這需要仔細分析,以在保持順序依賴性的完整性和優化并行執行之間找到平衡。 * 負載平衡:分布式圖處理中的負載平衡確保計算工作負載在所有機器上均勻分配。負載不均會導致效率低下:一些機器可能迅速完成任務并處于閑置狀態,而其他機器(通常稱為拖后腿者)則在進行持續的計算中,最終延遲整個過程。這種不平衡在分布式圖處理中尤為問題,因為計算的不規則性來自于非均勻[50]的度分布和拓撲不對稱。盡管解決負載不平衡至關重要,但它非常復雜。它不僅需要精確的初始工作負載量化,還需要在運行時進行持續的調整以解決任何不平衡。
網絡資源效率:在分布式系統中,機器通過網絡通信,高效使用網絡資源變得至關重要,尤其是在圖處理中。圖數據的固有復雜性,由復雜的結構和不規則的頂點連接標記,經常需要對單個頂點的操作與多個其他頂點進行互動。這種情況導致頻繁且廣泛的網絡數據交換,尤其是當互聯頂點分布在不同機器上時。因此,在網絡資源效率方面出現了兩個主要挑戰。 * 通信開銷:分布式系統中的通信開銷由消息交換的網絡資源使用定義,主要取決于數據傳輸量。在分布式圖處理中,需要跨機器通信以訪問位于不同機器上的頂點或邊,增加了網絡通信。這些數據交換的低效管理可能導致顯著的網絡擁堵,使網絡通信成為整體計算性能的關鍵瓶頸。因此,管理通信開銷對于優化分布式圖處理的效率和有效性至關重要。 * 帶寬:分布式系統中的帶寬代表每輪消息傳遞中機器之間的最大數據傳輸容量。受到硬件和網絡基礎設施的限制,帶寬不是無限可擴展的。在分布式圖處理中,由于圖中頂點的度分布不均,高度頂點在與鄰居進行廣泛通信[33]時,或同時被許多頂點訪問時(在某些基于隨機游走的算法[109]中很常見),需要高帶寬。此外,低帶寬利用率也是一個挑戰。對于許多任務,如三角形計數、BFS和連通分量,大量的小消息在低度頂點之間傳輸,這些消息只包含有關其鄰居的信息。另一方面,每次使用消息傳遞接口(如MPI)的消息交換都會引入額外的開銷,以報頭信息和握手協議消息的形式出現,從而導致實際有效數據的比例降低,進而導致帶寬資源的低效利用[150]。因此,在分布式圖處理中,有效且高效地優化帶寬利用率是一個挑戰。
解決方案概述
繼第3.1節對分布式圖處理中固有挑戰的分析之后,本節總結了為應對這些挑戰而開發的各種解決方案,特別是在分布式圖處理領域,并提供了第4節中詳細算法常用技術的概覽。3.2.1 計算資源效率優化。本節重點介紹優化計算資源效率的解決方案,包括并行性和負載平衡。優化網絡資源效率。本節重點介紹解決通信開銷和帶寬挑戰的解決方案,關于網絡資源效率。通信開銷:在分布式圖處理中,不同機器的頂點頻繁交換消息,導致了大量的通信開銷。 結論
圖可以很好地表示實體之間的關系。分析和處理大規模圖數據已在許多應用中得到應用,如社交網絡分析、推薦系統和道路網絡路由。分布式圖處理提供了一種在現實世界中高效處理大規模圖數據的解決方案。為了了解分布式環境中圖任務的最新研究并促進其發展,本文進行了一項關于分布式圖任務的廣泛綜述。 我們首先概述了現有的分布式圖處理基礎設施。這些工具促進了分布式算法的設計,但仍然難以克服由分布式系統和圖的固有特性所引起的挑戰。隨后,我們分析并總結了分布式環境中圖任務面臨的主要挑戰及其根據分布式系統和圖的特性提出的相應解決方案。然后,我們提供了主要圖任務的分類,并對它們在分布式環境中的現有努力進行了詳細分析,包括它們關注的挑戰和解決這些挑戰的獨特見解。最后,我們討論了分布式圖處理領域的研究重點和現有的研究空白,并識別了潛在的未來研究機會。
近年來,隨著提示學習方法在自然語言處理領域被提出,其日益受到研究人員廣泛關注.它通過將各類下游任務重 構成預訓練任務的形式,以參數高效和數據高效的方式將大規模預訓練模型應用在各類自然語言相關下游任務中.其中以 GPT 系列為代表的模型通過提示學習在對話生成和多模態圖文理解等任務上取得了巨大的成功.然而,這類模型及方法還不 能解決視覺中的稠密任務.受此啟發,一些研究人員逐漸將提示學習廣泛應用到視覺相關的各類任務當中,如圖像識別、目 標檢測、圖像分割、領域適應、持續學習等.由于目前還沒有提示學習應用在視覺相關領域中的綜述,本文將對視覺單模態 領域以及視覺語言多模態領域的提示學習方法展開全面論述和分析.作為回顧,我們首先簡要介紹自然語言處理領域的預訓 練模型,并對提示學習的基本概念、下游應用形式以及提示模版類型進行闡述和分類.其次,我們分別介紹視覺單模態領域 以及視覺語言多模態領域里提示學習方法適配的預訓練模型和任務.再次,我們分別介紹視覺單模態領域以及視覺語言多模 態領域的提示學習方法.在自然語言處理領域,提示學習方法以繼承預訓練形式實現多任務統一為主要目的;與此不同,在 視覺相關領域,提示學習方法側重于面向特定下游任務進行設計.為此,我們將從方法設計上進行簡單分類,然后從應用任 務角度詳細介紹視覺單模態提示學習和視覺語言多模態提示學習方法.最后,我們對比分析了自然語言處理領域和視覺相關 領域提示學習研究的進展,并對未來研究路線給出了展望。
近年來,隨著如 GPT[1],BERT[2],T5[3]等大規 模預訓練語言模型的相繼提出,“預訓練-微調”范 式極大地推動了自然語言處理領域的發展.在這個 范式中,首先對以 Transformer[4]為主干的模型在廣 泛無標注的語料數據集上通過語言建模[1,2,5]等任務 進行自監督預訓練,然后在下游應用中針對不同的 任務設計不同的優化目標和添加新的網絡模塊,通 過對模型和添加網絡模塊的全部參數進行微調來 實現部署和應用.由于預訓練數據體量大、模型參數 多,預訓練模型具有極強的文本綜合表征和理解能 力,使得“預訓練-微調”范式在各類下游任務上都 展現出了卓越的性能.然而,這種范式存在以下幾個 問題:(1)在不同任務上都需要優化和調整模型 的全部參數,造成了巨大的計算開銷以及部署成本 的增加;(2)需要針對不同任務進行不同的優化 目標設計,不可避免地造成了預訓練與下游任務之 間的差異,限制了對預訓練知識的充分利用;(3) 收集專屬各類下游任務的訓練集對模型進行微調 成為此范式必不缺少的一個環節,不適用于數據資 源匱乏的實際應用場景. 為此,LAMA[6]、GPT-3 [7]等大規模語言模型相 繼被提出,這些大規模語言模型采用一種“預訓練 -提示-預測”的新范式,一定程度地解決了“預訓 練-微調”范式中存在的問題,再次推動了自然語言 處理領域的發展,其中的提示學習也成為近幾年的 研究熱點.不同于“預訓練-微調”范式需要將預訓 練模型通過不同的目標設計適配應用到各類下游 任務中,“預訓練-提示-預測”范式通過將下游任 務重構成預訓練任務的形式,使得各類下游任務能 夠以預訓練預測的方式被解決,這些下游任務包括事實 調查[6,8]、文本分類[9,10]、自然語言推理[11]、命名體 識別[12]、常識推理[13,14]、問答[15]等.例如,在根據影 評“這部電影很好看”對電影情感類別判斷的例子 中,不需要專門收集下游數據和額外增加一個需訓 練優化的分類層到預訓練模型,只需要將影評與提 示模版“這部電影的類型是___”串接起來作為模 型的輸入,直接借助于預訓練階段的語言建模任務 就可以在空白處預測出電影的類別.總的來說,“預 訓練-提示-預測”范式展現出了以下優勢:(1)預 訓練模型的全部參數都可以保持不變,極大降低了 下游應用的計算和部署成本;(2)通過任務重構 保證了下游任務與預訓練任務的一致性,可以更加 充分地利用預訓練模型的知識;(3)額外收集下 游訓練集在這種范式下不是必要的,除了可以和微 調的方式一樣應用在數據充足的場景下,提示學習 還可以在零樣本或者少樣本場景下使用.
在視覺單模態以及視覺語言多模態領域,“預 訓練-微調”范式被廣泛采用[16,17],也同樣存在計算 成本高、部署復雜等難題.受提示學習高效利用大規 模預訓練語言模型的啟發,很多學者將提示學習引 入到視覺單模態和視覺語言多模態領域來解決各 類相關下游任務. 目前的視覺單模態提示學習方法包括串接可 優化向量序列[18-20],添加像素級可優化擾動[21-23], 學習提示網絡層[24-26],面向特定成分的組合提示學 習[27,28],建立標簽映射[29-31],任務重構[31],網絡結 構搜索[32]等.這些方法適用的下游任務包括數據均 衡視覺分類[18,21,24,31],持續學習[19,33,34],領域泛化、 適應[20,28,35],細粒度目標檢索[36],對抗魯棒學習[23], 語義分割[37],長尾識別[38],開放集學習[39]等. 在視覺語言多模態領域,提示學習方法包括純 文本提示學習[40-42],視覺信息引導的文本提示學習 [43,44],文本或外部知識引導的文本提示學習[45,46], 文本和視覺聯合提示學習[47,48],面向特定成分的組 合提示學習[49,50],基于分布的提示學習[51,52],多任 務共享的提示學習[53],梯度引導的提示學習[54],無 監督提示學習[55],建立顏色與標簽關系[56],視覺映 射到語言空間[57]等.這些視覺語言多模態提示學習 方法被應用于各類下游任務,包括數據均衡視覺分 類[40,43,47,51,53],基礎到新類別泛化[45,46,48,52],領域泛 化[40,43,48,58],領域適應[59,60],視覺問答[61,62],圖片 描述[63,64],圖文檢索[65],視覺蘊含[61],視覺推理[66], 多標簽分類[67],開放集識別[31,68],去偏差提示學習 [69,70],組合零樣本學習[71,72],圖像分割[73,74]等. 針對自然語言處理領域中的提示學習方法[6,75] 已經有相關綜述[76]展開了全面的介紹.而在視覺相 關領域中,目前只有針對預訓練技術的綜述[77,78], 而缺少視覺領域提示學習方法的綜述.為此,本文對 單模態視覺以及多模態視覺語言領域中的提示學 習方法展開全面介紹.
我們將首先介紹自然語言處理領域的預訓練 模型和提示學習方法[6,75]的基本概念,并且結合大 規模預訓練語言模型的預訓練任務簡要介紹提示 學習的應用形式和模版類型.其次,我們將分別介紹 視覺單模態與視覺語言多模態領域里的預訓練模 型.再次,我們將針對提示學習在各類下游任務上的 廣泛應用,分別詳細介紹視覺單模態以及視覺語言多模態領域中針對各類應用任務提示學習方法的 設計以及特點的分析.最后,我們給出在未來研究中 視覺和多模態提示學習方法發展的方向,并總結全 文.全文組織結構如圖 1 所示.
數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。
在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。
在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。
盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
基于變換器架構的大型模型在人工智能中扮演著越來越重要的角色,特別是在自然語言處理(NLP)和計算機視覺(CV)領域內。模型壓縮方法減少了它們的內存和計算成本,這是在實際設備上實現變換器模型的必要步驟。鑒于變換器的獨特架構,特別是交替注意力機制和前饋神經網絡(FFN)模塊,需要特定的壓縮技術。這些壓縮方法的效率也非常重要,因為通常不現實在整個訓練數據集上重新訓練大型模型。本綜述提供了近期壓縮方法的全面回顧,特別關注它們在變換器模型上的應用。壓縮方法主要分為剪枝、量化、知識蒸餾和高效架構設計四個類別。在每個類別中,我們討論了CV和NLP任務的壓縮方法,強調共同的基本原則。最后,我們深入探討了各種壓縮方法之間的關系,并討論了該領域的進一步方向。
深度神經網絡已成為眾多人工智能應用中不可或缺的部分,其架構涵蓋了多種形式,如多層感知機(MLP)、卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、變換器(Transformers)等。近來,基于變換器的模型已成為各個領域的主流選擇,包括自然語言處理(NLP)和計算機視覺(CV)領域。考慮到它們強大的擴展能力,大多數擁有超過數十億參數的大型模型都是基于變換器架構的,這些模型被視為通用人工智能(AGI)的基礎元素。盡管大型模型展示了顯著的能力,但它們極大的規模對實際開發提出了挑戰。例如,GPT-3模型有1750億參數,大約需要350GB的內存模型存儲空間(float16)。巨大的參數量及其相關的計算開銷要求設備具有極高的內存和計算能力。直接部署這樣的模型將會產生巨大的資源成本,并顯著增加二氧化碳排放。此外,在像手機這樣的邊緣設備上,由于存儲和計算資源有限,這些模型的開發變得不切實際。
模型壓縮是一種有效的策略,用于減輕與變換器模型相關的開發成本。這種方法基于減少冗余的原則,包括多種類別,如剪枝、量化、知識蒸餾、高效架構設計等。網絡剪枝直接移除冗余組件,如塊、注意力頭、FFN層或個別參數。通過采用不同的剪枝粒度和剪枝標準,可以派生出多種子模型。量化通過使用較低位表示模型權重和中間特征來減少開發成本。例如,將全精度模型(float32)量化為8位整數時,內存成本可以減少四分之一。根據計算過程,它可以分為訓練后量化(PTQ)或量化感知訓練(QAT),其中前者只需要有限的訓練成本,對大型模型更有效。知識蒸餾作為一種訓練策略,將知識從大模型(教師)轉移到小模型(學生)。學生通過模擬模型的輸出和中間特征來模仿教師的行為。值得注意的是,對于像GPT-4這樣的高級模型,僅通過APIs訪問,它們生成的指示和解釋也可以指導學生模型的學習。除了從預定義的大型模型獲得模型外,一些方法通過直接減少注意力模塊或FFN模塊的計算復雜性來產生高效的架構。結合不同的方法可以實現極端壓縮。例如,Han等人結合了網絡剪枝、量化和哈夫曼編碼,在傳統的VGGNet上實現了令人印象深刻的49倍壓縮率。關于變換器模型,它們的壓縮策略展示出獨特的特點。與CNN或RNN等其他架構不同,變換器具有獨特的設計,包括替代的注意力和FFN模塊。前者通過計算不同令牌上的注意力圖來捕獲全局信息,而后者分別從每個令牌提取信息。這種特定的架構可以激發針對最優壓縮率的定制壓縮策略。此外,對于這樣的大型模型,壓縮方法的效率尤為重要。由于大型模型的高計算成本,通常無法負擔在原始訓練集上重新訓練整個模型。一些訓練效率高的方法,如訓練后壓縮更受青睞。
在這項綜述中,我們旨在全面調查如何壓縮這些變換器模型(圖1),并且根據量化、知識蒸餾、剪枝、高效架構設計等將方法進行分類。在每個類別中,我們分別調查了NLP和CV領域的壓縮方法。表1總結了主要的壓縮類別,并列出了適合大型變換器模型的代表性方法。盡管NLP和CV通常被視為非常不同的領域,我們觀察到它們的模型壓縮方法實際上共享相似的原則。最后,我們討論了不同壓縮方法之間的關系,并提出了一些未來的研究方向。本文的其余部分組織如下。第2節介紹變換器的基本概念。繼此之后,第3節對保持架構的壓縮方法進行了深入討論,包括量化和知識蒸餾——這些技術保持了模型的架構。第4節進一步探討了保持架構的壓縮,包括剪枝和高效架構設計。第5節探索了額外的變換器壓縮方法。最后,第6節總結了壓縮方法并討論了未來的研究方向。架構保留型壓縮量化是在各種設備上部署變換器的關鍵步驟,尤其是對于設計了專用于低精度算術運算的GPU和NPU。1)訓練后量化(PTQ)[21],[41],[22],[42],[43],[44],[45],主要集中在使用少量未標記的校準數據優化權重和激活的量化參數,一些最新方法還探索了權重量化的自適應舍入。(2) 量化感知訓練(QAT)[46],[47],[48],[49],[50],[51],[23],[52],[53],[54],[55],[56],將量化節點插入網絡并使用完整的訓練數據進行訓練,其中所有的權重和量化參數都一起優化。在本節中,我們系統地介紹了基于變換器的視覺模型和大型語言模型的模型量化研究,如圖2所示。
知識蒸餾(KD)旨在通過壓縮[83],[84],[85]或轉移[87],[88],[86]來自教師網絡的知識來訓練學生網絡。在本文中,我們主要關注旨在實現一個緊湊的學生模型的蒸餾方法,同時保持與笨重的教師模型相比滿意的性能。學生模型通常具有更窄、更淺的架構,使它們更適合在資源有限的系統上部署。
神經網絡剪枝長期以來被認為是一種有效的方法,用于縮小模型大小和加速模型推理。剪枝方法的分類可能相當復雜,包括剪枝和模型訓練的順序、結構規范,以及確定被剪枝參數的方式[133]。然而,在本綜述的范圍內,將源模型限定為針對自然語言處理[134],[4]或視覺識別[12],[26],[135],[136]的預訓練大型變換器,提出了幾種特定的技術類別需要被討論(見圖5)。
結論
在這項綜述中,我們系統地調查了變換器模型的壓縮方法。與傳統模型的壓縮方法相比,壓縮變換器模型時有獨特的考慮因素。與如CNN或RNN等其他架構不同,變換器擁有獨特的架構設計,包括替代的注意力和FFN模塊,這要求專門定制的壓縮方法以獲得最佳壓縮率。此外,這些大型模型的壓縮方法效率尤其關鍵。某些模型壓縮技術需要大量的計算資源,對于如此龐大的模型可能是難以承受的。這項綜述旨在涵蓋與變換器相關的大多數近期工作,并為它們的壓縮制定一個全面的路線圖。隨后,我們深入探討了各種方法之間的相互聯系,解決后續挑戰,并概述了未來研究的方向。
不同壓縮方法之間的關系。不同的壓縮方法可以一起使用,以獲得極其高效的架構。一個傳統的序列是首先定義一個具有高效操作的新架構。然后移除冗余組件(例如,注意力頭,層)以獲得更小的模型。對于實際硬件實現,將權重或激活量化到較低位是必不可少的。所需位數的選擇不僅取決于錯誤的容忍度,還取決于硬件設計。作為一個例子,Int8計算在Nvidia A00上高效優化,但在較老的Tesla P100上缺乏支持。蒸餾通常作為一種訓練策略,在剪枝和量化的微調階段都適用。為了追求極高的壓縮率,探索如何結合不同的壓縮策略是有前景的。盡管在CNN這樣的傳統模型上已經被廣泛探索,但變換器模型具有更復雜的架構和更高的計算成本。通過聯合搜索找到合適的組合策略是具有挑戰性的。
訓練高效的壓縮策略。與壓縮傳統模型相比,更加強調壓縮方法的計算成本。大型變換器目前在使用大量計算資源的大型數據集上進行訓練。例如,Llama2在幾個月內使用數千個GPU在2萬億令牌上進行訓練。在預訓練期間,尤其當原始數據通常無法訪問時,使用可比的計算資源進行微調是不切實際的。因此,在訓練后應用高效的壓縮方法變得更加可行。最初為傳統小模型開發的一系列工作已廣泛研究了訓練后量化,這些方法已無縫過渡到變換器。僅用幾個GPU小時,一些最新的工作GPTQ、SmoothQuant已將FP16模型量化到Int8,而不會造成顯著性能損失。然而,對于較低位(例如,4位),量化模型仍然遭受顯著的性能下降。值得注意的是,極低位模型,如二進制變換器,在傳統小模型中已被廣泛探索,但在大模型的背景下仍然相對未被探索。
對于剪枝,訓練后的挑戰與剪枝粒度密切相關。雖然非結構化稀疏性可以實現高壓縮率并且最小化微調需求,但類似策略難以轉移到結構性剪枝。直接移除整個注意力頭或層將導致模型架構的顯著改變和準確率的顯著降低。如何識別有效權重以及如何有效恢復性能都是洞見方向。識別有效權重和恢復表示能力的高效策略是解決這些挑戰的關鍵研究方向。
超越變換器的高效架構。在現實世界應用中,變換器架構的輸入上下文可以擴展到極長長度,包括NLP中的序列文本(例如,數十萬詞的書)或CV中的高分辨率圖像。原生注意力機制對輸入序列長度的復雜度呈二次方增長,對于長序列輸入構成了顯著的計算挑戰。許多研究通過減輕注意力的計算成本來解決這個問題,采用了稀疏注意力、局部注意力等技術。然而,這些注意力壓縮策略通常會妥協表示能力,導致性能降低。如RWKV和RetNet等新興架構采用類似RNN的遞歸輸出生成,有效地將計算復雜度降低到O(N)。這一發展為進一步探索更高效模型提供了希望。對于計算機視覺任務,即使是不帶注意力模塊的純MLP架構也能達到SOTA性能。超越廣泛使用的變換器架構,通過仔細研究它們的效率、泛化能力和擴展能力,探索新的高效架構是有前景的。
多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用。
人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。
自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。
2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。
本文的貢獻如下:
? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。
? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。
? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。
II. 多模態基礎模型的預訓練
近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。
III. 多模態基礎模型的少樣本適應方法
為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法。
A. 基于提示的微調適應方法
文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。
視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。
多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。
B. 基于適配器的微調適應方法
1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。
2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。
C. 基于外部知識的適應方法
1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。
2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。
擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
圖分析用于深入挖掘圖數據的內在特征,然而圖作為非歐幾里德數據,傳統的數據分析方法普遍存在較高的計算量和空間開銷。圖嵌入是一種解決圖分析問題的有效方法,其將原始圖數據轉換到低維空間并保留關鍵信息,從而提升節點分類、鏈接預測、節點聚類等下游任務的性能。與以往的研究不同,同時對靜態圖和動態圖嵌入文獻進行全面回顧,我們提出一種靜態圖嵌入和動態圖嵌入通用分類方法, 即基于矩陣分解的圖嵌入、基于隨機游走的圖嵌入、基于自編碼器的圖嵌入、基于圖神經網絡(GNN)的圖嵌入和基于其他方法的圖嵌入。其次,對靜態圖和動態圖方法的理論相關性進行分析,對模型核心策略、下游任務和數據集進行全面總結。最后,提出了四個圖嵌入的潛在研究方向。
//fcst.ceaj.org/article/2022/1673-9418/1673-9418-16-1-59.shtml
圖是復雜系統中常用的信息載體,可以表示現實中許多復雜關系,如社交網絡[1]、犯罪網絡[2]、交通網絡[3]等。圖結構作為一種非歐幾里德數據,很難直接應用卷積神經網絡(convolutional neural network,CNN)[4]和循環神經網絡(recurrent neural network,RNN)[5]等深度學習方法[6]。為了構造用于圖數據挖掘的特征表示,圖嵌入將節點映射到低維空間,生成保留原始圖中某些重要信息的低維向量。目前,圖嵌入不僅在節點分類[7]、鏈接預測[8]、節點聚類[9]、可視化[10]等復雜網絡上的機器學習任務中獲得成功,還廣泛用于社交影響力建模[11]、內容推薦[12]等現實任務。
早期的圖嵌入算法主要用于數據降維,通過鄰域關系構建相似度圖,將節點嵌入低維向量空間,并保持相連節點向量的相似性。這類方法通常時間復雜度高,很難擴展到大型圖上。近年來,圖嵌入算法轉向擴展性強的方法。例如,矩陣分解方法[13]使用鄰接矩陣的近似分解作為嵌入;隨機游走法[14]將游走序列輸入到Skip-Gram[15]生成嵌入。這些方法利用圖的稀疏性降低了時間復雜度。當前,很多綜述[16,17,18,19,20,21]對圖嵌入方法進行了歸納與總結,但存在兩大局限:一是部分綜述僅涉及傳統方法介紹,許多新模型沒有納入研究;二是這些綜述只關注靜態圖嵌入或動態圖嵌入,忽略了二者之間的關聯性。
本文對圖嵌入方法進行全面系統性綜述,有以下三方面的貢獻:(1)提出一種新的圖嵌入分類法,同時對靜態圖和動態圖方法進行分類;(2)對現有模型進行系統性分析,為理解現有方法提供新視角;(3)提出了四個圖嵌入的潛在研究方向。
數據增強是通過轉換為機器學習人工創建訓練數據,是機器學習學科中一個廣泛研究的研究領域。雖然它對于提高模型的泛化能力很有用,但它也可以解決許多其他挑戰和問題,從克服有限數量的訓練數據到規范目標到限制數據量用于保護隱私。基于對數據增強的目標和應用的精確描述以及現有的分類法作品,該調查涉及用于文本分類的數據增強方法,旨在實現簡潔和研究人員和從業人員的綜合概述。根據分類法,我們將100多種方法分為12不同的分組,并提供最先進的參考資料,闡述哪些方法非常有前途。最后,研究給出了可能構成未來工作基石的觀點。
傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。