亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—文本到圖像 (T2I) 擴散模型 (DMs) 因其在圖像生成方面的顯著進展而受到廣泛關注。然而,隨著其日益普及,與信任度的關鍵非功能性屬性相關的倫理和社會問題也日益凸顯,例如魯棒性、公平性、安全性、隱私性、事實性和可解釋性,這些問題與傳統深度學習 (DL) 任務中的類似問題相似。由于 T2I DMs 的獨特特性,例如其多模態性,傳統的研究深度學習任務信任度的方式往往不足以應對這些問題。鑒于這一挑戰,近年來一些新方法被提出,通過偽造、增強、驗證與確認以及評估等多種方式來研究 T2I DMs 的信任度。然而,關于這些非功能性屬性和方法的深入分析仍然相對缺乏。在本次調研中,我們對可信的 T2I DMs 文獻進行了及時且重點突出的回顧,涵蓋了從屬性、手段、基準和應用等角度構建的簡明分類結構。我們的調研首先介紹了 T2I DMs 的基本知識,隨后總結了 T2I 任務特有的關鍵定義/指標,并基于這些定義/指標分析了最新文獻中提出的研究手段。此外,我們還回顧了 T2I DMs 的基準測試和領域應用。最后,我們指出了當前研究中的空白,討論了現有方法的局限性,并提出了未來研究方向,以推動可信 T2I DMs 的發展。此外,我們還通過我們的 GitHub 倉庫(//github.com/wellzline/Trustworthy-T2I-DMs)保持領域最新進展的更新。 關鍵詞—文本到圖像擴散模型,人工智能安全,可靠性,負責任的人工智能,基礎模型,多模態模型。

1. 引言

文本到圖像 (T2I) 擴散模型 (DMs) 在生成高保真圖像方面取得了顯著進展。通過簡單的自然語言描述生成高質量圖像的能力,可能會為多個現實世界的應用帶來巨大好處,如智能汽車 [1], [2], [3]、醫療保健 [4], [5], [6],以及一系列不受領域限制的生成任務 [7], [8], [9], [10], [11]。擴散模型是一類概率生成模型,它通過先注入噪聲再進行逆過程來生成樣本 [12]。T2I DMs 是其中的一種特殊實現,通過描述性文本作為指導信號來引導圖像生成。像 Stability AI 的 Stable Diffusion (SD) [13] 和 Google 的 Imagen [14] 這樣的模型,經過大規模帶注釋的文本-圖像對數據集訓練,能夠生成照片般真實的圖像。商業產品如 DALL-E 3 [15] 和 Midjourney [16] 在多個 T2I 應用中展示了令人印象深刻的能力,推動了該領域的發展。 然而,類似于傳統深度學習 (DL) 系統 [17], [18], [19],T2I DMs 的日益普及和進步也引發了倫理和社會問題 [20], [21], [22],特別是圍繞信任度的一系列非功能性屬性問題,包括魯棒性、公平性、安全性、隱私性、事實性和可解釋性。然而,由于 T2I DMs 的獨特特性,傳統 DL 的信任度研究方法并不直接適用于它們。這里有兩個主要區別:(1) 傳統的信任度研究通常針對單一模態系統,無論是文本 [23], [24] 還是圖像 [25], [26],而 T2I DMs 涉及多模態任務,處理輸入(文本)和輸出(圖像)等更為多樣的數據結構 [27],這使得傳統 DL 任務中提出的黑箱信任度方法不再適用;(2) 與傳統的確定性 AI 模型(如用于 DL 分類任務的模型)相比,T2I DMs 的生成機制有所不同。即使與生成式對抗網絡 (GANs) 等隨機生成式 AI 模型相比,T2I DMs 的訓練目標和基礎算法也有本質區別 [28], [29], [30]。因此,傳統 DL 的白箱方法無法直接應用于 T2I DMs。T2I DMs 的這些獨特特性要求開發新的方法來應對其特定的信任度挑戰。 為應對這一挑戰,近年來涌現了大量關于 T2I DMs 信任度的研究。然而,社區中仍然缺乏專門針對這一關鍵且新興領域的調查研究。為此,本次調研旨在填補這一空白——提供一份關于 T2I DMs 信任度的及時且重點突出的文獻綜述。

范圍、分類和術語

在本次調研中,我們特別關注 T2I DMs 信任度的六個關鍵非功能性屬性1:魯棒性、公平性、安全性、隱私性、事實性和可解釋性。此外,我們通過四種方式探討這些屬性:偽造、增強、驗證與確認 (V&V) 以及評估。我們對屬性和手段的選擇基于傳統 DL 系統中常研究的信任度和安全性方面 [17], [31], [32],這些系統定義了一組類似的屬性,僅在命名上略有不同。此外,我們還總結了 T2I DMs 的幾個基準測試和應用領域。該分類如圖 1 所示。 圖 1. 可信 T2I DMs 的分類。

我們現在為每個屬性提供非正式定義,正式定義將在后面介紹:

  • 魯棒性 是指模型在面對“小”輸入擾動時保持一致性能的能力。
  • 公平性 是確保模型輸出不會偏向或歧視某些個人或群體。
  • 安全性(本文中特別關注后門攻擊)涉及保護模型免受隱藏漏洞的攻擊,這些漏洞可能在特定輸入觸發時導致惡意預測。
  • 隱私性 是指訓練模型可能無意中泄露訓練數據中的敏感信息的風險。
  • 可解釋性 旨在使模型的內部工作機制變得可理解,為模型如何做出決策提供洞見。
  • 事實性 是指生成的圖像與文本描述的常識或事實保持一致,而不僅僅是與文本提示相匹配。

此外,我們將研究這些屬性的四種主要手段進行分類:

  • 偽造 涉及通過設計和執行復雜攻擊暴露模型的漏洞,從而展示模型的缺陷或弱點。
  • 驗證與確認 (V&V) 側重于確保模型的正確性,檢查其是否符合預定義的(正式)規范。
  1. 非功能性屬性(也稱為質量屬性)指的是描述系統如何執行其功能的特性,而不是系統執行什么功能。
  • 評估 類似于 V&V,但不針對特定規范,而是設計和應用指標來評估模型。
  • 增強 涉及實施對策以保護模型免受各種威脅或修復影響模型信任度的缺陷。

總而言之,在本次綜述的范圍內,偽造旨在“查找漏洞”,評估旨在設計信任度測量規范,V&V 旨在實施符合過程,最后,增強旨在設計附加機制。

相關綜述

擴散模型 (DMs) 在多個領域取得了顯著的性能提升,極大地推動了生成式 AI 的發展。已有若干綜述總結了 DMs 的進展,包括通用綜述 [33], [34] 以及專注于特定領域的綜述,如視覺 [35]、語言處理 [36], [37]、音頻 [38]、時間序列 [39] 和醫學分析 [40]。此外,還有綜述涵蓋了 DMs 在不同數據結構中的應用 [41]。然而,這些綜述都未專門針對文本到圖像 (T2I) 任務。 在 T2I DMs 領域,一些評論深入探討了功能性屬性 [27], [42], [43],但它們忽略了非功能性屬性。相比之下,我們的工作聚焦于信任度,提供了對研究非功能性屬性的現有方法的及時分析,并指出了當前研究的局限性。此外,一些研究分析了 T2I DMs 的特定屬性,如可控生成。例如,[44] 重點分析了新條件在 T2I 模型中的集成及其影響,而 [45] 探討了文本編碼器在 T2I DMs 圖像生成過程中的作用。最近的工作 [46] 調查了多種類型的攻擊,包括對抗性攻擊、后門攻擊和成員推斷攻擊 (MIAs),以及相應的防御策略。然而,這些綜述都沒有全面探討信任度作為一組屬性和手段的關鍵問題。據我們所知,本工作是第一個全面深入分析 T2I DMs 的信任度非功能性屬性及其應對手段的研究,同時涵蓋了它們的基準和應用。

貢獻

總而言之,我們的主要貢獻如下:

  1. 分類法:我們提出了一個簡明的可信 T2I DMs 分類法,涵蓋三個維度——非功能性屬性的定義、研究這些屬性的手段以及基準和應用。
  2. 綜述:我們圍繞提出的信任度分類法進行了一項及時且重點突出的綜述,匯集了71篇相關論文。
  3. 分析:我們對六個與信任度相關的非功能性屬性和四種手段進行了深入分析,概括了所綜述論文中的解決方案,進行了比較,識別了模式和趨勢,并總結了關鍵論點。
  4. 空白和未來方向:我們為每個屬性和手段識別了研究空白,指出了現有工作的局限性,并提出了推動可信 T2I DMs 發展的未來研究方向。

付費5元查看完整內容

相關內容

圖像編輯旨在編輯給定的合成或真實圖像以滿足用戶的特定需求。近年來,圖像編輯作為一個前景廣闊且充滿挑戰的人工智能生成內容(AIGC)領域被廣泛研究。該領域最近的顯著進展基于文本到圖像(T2I)擴散模型的發展,這些模型根據文本提示生成圖像。T2I模型展現了非凡的生成能力,已成為圖像編輯的廣泛使用工具。基于T2I的圖像編輯方法顯著提升了編輯性能,并提供了一個用戶友好的界面,通過多模態輸入引導內容修改。在本綜述中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面回顧。首先,我們從整體角度定義了圖像編輯的范圍,并詳細說明了各種控制信號和編輯場景。然后,我們提出了一個統一的框架來形式化編輯過程,將其分類為兩大主要算法家族。該框架為用戶提供了一個設計空間以實現特定目標。隨后,我們對該框架內的每個組件進行了深入分析,考察了不同組合的特征及其適用場景。鑒于基于訓練的方法在用戶引導下學習直接將源圖像映射到目標圖像,我們將其單獨討論,并介紹了在不同場景中源圖像的注入方案。此外,我們回顧了2D技術在視頻編輯中的應用,重點解決幀間不一致的問題。最后,我們討論了該領域的開放挑戰,并提出了潛在的未來研究方向。我們在//github.com/xinchengshuai/Awesome-Image-Editing持續追蹤相關工作。

隨著跨模態數據集[1], [2], [3], [4], [5], [6], [7]和生成框架[8], [9], [10], [11], [12]的發展,新興的大規模文本到圖像(T2I)模型[13], [14], [15]使人們能夠創建所需的圖像,開啟了計算機視覺中的人工智能生成內容(AIGC)時代。大多數這些工作基于擴散模型[12],這是一個廣泛研究的流行生成框架。最近,許多工作探索了這些基于擴散的模型在其他領域的應用,如圖像編輯[16], [17], [18], [19], [20], [21],3D生成/編輯[22], [23], [24],視頻生成/編輯[25], [26], [27], [28]等。與圖像生成不同,編輯旨在進行二次創作,即修改源圖像中的所需元素并保留與語義無關的內容。質量和適用性方面仍有進一步改進的空間,使得編輯仍然是一個有前景且充滿挑戰的任務。在這項工作中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面綜述。

已有一些綜述[174], [175], [176], [177], [178]從不同角度回顧了最先進的基于擴散的方法,如圖像修復[179],超分辨率[176],醫學圖像分析[177]等。與這些綜述相比,我們專注于圖像編輯領域的技術。有兩個相關的并行工作[175], [178]與我們的綜述相關。其中,[178]介紹了擴散模型在圖像編輯中的應用,并根據其學習策略對相關論文進行了分類。與之相比,我們從一個新穎而全面的角度討論了這一主題,并提出了一個統一的框架來形式化編輯過程。我們發現,之前文獻[16], [32], [66], [178]對編輯的解釋是有限和不完整的。這些工作限制了保留概念的范圍,并傾向于從源圖像中重建最大量的細節。然而,這種常見設置排除了某些高層語義(如身份、風格等)的維護。為了解決這個問題,我們首先提供了嚴格而全面的編輯定義,并在本綜述中納入了更多相關研究,如[37], [38], [61], [146]。圖1展示了符合我們定義的各種場景。值得注意的是,一些生成任務如定制化[41], [54]和帶圖像引導的條件生成[37], [134]都符合我們的討論范圍。這些任務在另一項關注可控生成的并行工作[175]中有所討論。其次,我們將審查的方法整合到一個統一的框架中,將編輯過程分為兩大算法家族,即反演和編輯算法。在[178]中,引入了一個類似的框架來統一那些不需要訓練或測試時微調的方法。不同的是,我們的框架在討論的廣義編輯場景中更為多樣化。同時,該框架為用戶提供了一個設計空間,以根據其具體目的結合適當的技術。綜述中的實驗展示了不同組合的特征及其適用場景。此外,我們還調查了2D方法[32], [180]在視頻編輯[165], [173]中的擴展,并集中討論了它們解決時間一致性問題的方法,補充了研究領域的缺失部分。

我們對三百多篇論文進行了廣泛的綜述,審查了現有方法的本質和內部邏輯。本綜述主要關注基于T2I擴散模型的研究[13], [14], [181]。在第二部分中,介紹了擴散模型和T2I生成中的技術,提供了基本的理論背景。在第三部分中,我們給出了圖像編輯的定義,并討論了幾個重要方面,如不同模態的用戶引導、編輯場景以及一些定性和定量評估指標。同時,我們形式化了提出的統一框架以整合現有方法。接下來,在第四和第五部分中分別討論了我們框架的主要組成部分。反演算法從源圖像中捕捉要保留的概念,而編輯算法則旨在在用戶引導下再現視覺元素,實現內容一致性和語義保真度。在第六部分中,我們檢查了反演和編輯算法的不同組合,并探討了它們的特征和適用場景,從而指導用戶為不同目標選擇適當的方法。由于基于訓練的方法[20], [119], [122], [182]學習直接將源圖像轉化為目標圖像,我們在第七部分中討論了這些工作,并詳細介紹了源圖像在不同任務中的注入方案。第八部分介紹了圖像編輯在視頻領域的擴展。由于視頻數據的稀缺,直接應用圖像域方法通常會導致幀間不一致。該部分討論了現有工作[158], [164], [166], [171]中的幾種解決方案。最后,在第九部分中,我們討論了未解決的挑戰,并提出了潛在的未來研究方向。圖2展示了我們工作的組織,并分類了每部分中審查的論文。

付費5元查看完整內容

視覺變換器(Vision Transformers,ViTs)最近引起了相當大的關注,作為卷積神經網絡(CNNs)的有希望替代品,在幾個與視覺相關的應用中顯現出來。然而,它們龐大的模型尺寸以及高計算和內存需求阻礙了部署,特別是在資源受限的設備上。這強調了針對ViTs的算法-硬件協同設計的必要性,旨在通過定制算法結構和底層硬件加速器來優化它們的性能,以彼此的優勢為依托。模型量化通過將高精度數值轉換為低精度,減少了ViTs的計算需求和內存需求,允許創建專門為這些量化算法優化的硬件,提高效率。本文提供了ViTs量化及其硬件加速的全面綜述。我們首先深入探討ViTs的獨特架構屬性及其運行特性。隨后,我們檢查模型量化的基本原理,接著是對ViTs最先進量化技術的比較分析。此外,我們探索了量化ViTs的硬件加速,強調了硬件友好算法設計的重要性。最后,本文將討論持續的挑戰和未來研究方向。我們在

//github.com/DD-DuDa/awesome-vit-quantization-acceleration 上持續維護相關的開源材料。

在計算機視覺領域,卷積神經網絡(CNNs)歷來是基石,已在眾多任務中展示出顯著的效果。然而,隨著變換器(Transformer)架構的出現,情況開始發生變化。變換器在自然語言處理(NLP)中取得了巨大成功之后,被適配用于計算機視覺,形成了視覺變換器(Vision Transformers,ViTs)。ViTs的關鍵特性是自注意力(self-attention),它允許模型通過學習圖像標記序列中元素之間的復雜關系,從而在上下文中分析視覺數據。這種把握更廣泛上下文及圖像內部依賴關系的能力,推動了基于變換器的視覺模型的迅速發展,并隨后將它們確立為多種任務的新基礎,包括圖像分類、對象檢測、圖像生成、自動駕駛和視覺問題回答,展示了它們在計算機視覺中的多功能性和變革性影響。 盡管ViTs具備卓越的能力,但由于其本質上龐大的模型尺寸以及自注意力機制導致的計算和內存需求呈二次方增長,特別是在圖像分辨率提高時,這些因素顯著阻礙了其在計算和內存資源受限的設備上的部署,尤其是在如自動駕駛和虛擬現實等實時應用中,滿足低延遲需求和提供高質量用戶體驗至關重要。這強調了對模型壓縮技術如剪枝、量化、知識蒸餾和低秩分解等進步的迫切需要。此外,ViTs的迅速采用不僅歸功于算法創新和數據可用性,還歸功于處理器性能的提升。雖然CPU和GPU提供廣泛的計算多樣性,但它們固有的靈活性可能導致效率低下。鑒于ViTs的重復性但又獨特的操作特性,利用專門設計的硬件來優化數據重用,從而提高ViT部署的效率,存在明顯的機會。 量化是一種將高精度映射為低精度的技術,已成功地促進了輕量級和計算效率高的模型的創建,增強了算法與硬件的交互。在算法方面,有多種專門為ViTs設計的技術,旨在在數據壓縮至較低位寬后保持應用的準確性。其中一些技術被設計得更符合硬件友好,考慮到現有的架構,如GPU的INT8/FP8 Tensorcore。在硬件方面,高級量化算法的優化推動了更高效處理器的設計,可能包括更有效的數據重用模塊,用于并行處理低位數據。算法和硬件的共同設計是現代硬件加速器開發中的常見方法,顯著提高了它們的性能。 然而,近年來發布的大量相關工作使得初學者難以獲得全面的概述和清晰的比較結果。此外,一些在不考慮實際硬件的情況下模擬算法設計的方法,在部署時可能導致意外的精度低下。迫切需要一項全面的綜述,總結、分析并比較這些方法。本文力求填補這一空白,提供了關于ViTs量化及其硬件加速的廣泛回顧。具體而言,我們深入探討了ViTs量化的細微挑戰,從算法和硬件兩個角度出發,提供了不同量化方法的縱向比較,并在圖1中進行了說明。此外,我們展示了先進的硬件設計解決方案,并推測未來的趨勢和潛在機會。與近期的綜述相比——有些專注于各種高效技術但不考慮硬件,有些僅限于推理優化且算法細節有限,還有些提供了主要針對大型語言模型的模型壓縮的廣泛概覽——本文提供了詳細的描述和比較,以協同的方式處理算法與硬件的相互作用,從而提供了對ViTs量化領域更清晰、更有結構的洞見。 本文的組織結構如下所述。第二部分深入探討了視覺變換器的架構,介紹了其變體,并通過分析其運行特性和瓶頸進行了剖析。第三部分闡述了模型量化的基本原理。隨后,第四部分檢查了與ViTs量化相關的迫切挑戰,并提供了先前方法性能的比較回顧。第五部分探索了可用于硬件加速的方法范圍。最后,第六部分總結了本文,突出了潛在的機會和挑戰。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。

擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。

雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。

總結來說,我們的貢獻包括

我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。

我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。

我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。

我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。

本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。

分類法

利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件

在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。

在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。

通用可控文本到圖像生成

除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論

在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。

付費5元查看完整內容

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。

為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。

結論與未來方向

在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。

付費5元查看完整內容

多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。

在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。

除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下

據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。

近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)我們將現有工作分類為三個目的類別深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。

我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。

通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。

解釋:深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。

影響:訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。

洞察:從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論

本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。

總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

智能交通系統(ITS)對于改善交通擁堵、減少交通事故、優化城市規劃等方面至關重要。然而,由于交通網絡的復雜性,傳統機器學習和統計方法已經逐漸退居二線。隨著人工智能時代的到來,許多深度學習框架在各個領域取得了顯著進展,現在被認為是許多領域中有效的方法。作為一種深度學習方法,自2019年以來,圖神經網絡(GNNs)在ITS領域成為一種極具競爭力的方法,這得益于它們在處理圖相關問題上的強大能力。因此,越來越多的學者開始關注GNNs在交通領域的應用,這些應用已經顯示出卓越的性能。然而,這一領域的大多數研究仍然集中在交通預測上,而ITS的其他領域,如自動駕駛和城市規劃,仍需要更多關注。本文旨在綜述GNNs在六個代表性和新興的ITS領域的應用:交通預測、自動駕駛、交通信號控制、交通安全、需求預測和停車管理。我們回顧了2018至2023年的廣泛的圖相關研究,總結了它們的方法、特點和貢獻,并以信息豐富的表格或列表的形式呈現。最后,我們確定了將GNNs應用于ITS的挑戰,并提出了潛在的未來方向。 隨著城市的擴張和交通系統的發展,一些交通系統問題逐漸暴露出來,包括交通擁堵、環境污染和日益增加的交通事故數量。為了緩解上述問題,改善交通流量,規劃路線,提高交通安全,五十多年前美國提出了智能交通系統(ITS)。ITS是一個涵蓋許多領域的智能系統,包括交通預測、自動駕駛、交通信號控制等。值得注意的是,交通預測是吸引最多關注的最熱門研究領域之一,因為它在交通領域具有基礎應用,如優化路線規劃,促進道路交通,減少交通事故。然而,在這些ITS子領域中實現高精度和高置信度仍然是一大挑戰。根據Verses等人[147]的說法,處理大量嘈雜數據以及可擴展性和泛化方面存在許多實際挑戰。因此,應進一步開發高效的算法和可擴展的模型,以充分利用大數據的潛力,建立準確高效的ITS。 在過去三十年中,提出了統計方法,如簡單線性時間序列模型,包括自回歸積分移動平均(ARIMA)[84, 167],傳統機器學習方法,包括邏輯回歸(LR),支持向量回歸(SVR),k-最近鄰(KNN)[21, 68, 170]來解決這些問題。然而,數據的增長和復雜的道路條件使傳統方法逐漸退居二線。此外,計算技術的進步,如圖形處理單元(GPU),使得深度機器學習模型成為現象。根據[33]總結的深度學習驅動的交通預測的重要里程碑,自2015年以來,交通預測的深度學習模型蓬勃發展,2019年之后最受歡迎的模型是圖神經網絡(GNNs)。GNNs的優勢不僅在于能夠很好地建模基于圖的問題,還在于能夠捕捉時空依賴性并在非歐幾里得空間中表示關系[33, 69, 120]。

在對ITS領域的工作進行詳細調查后,我們發現大部分研究集中在交通預測上。然而,我們認為ITS的其他領域需要更多關注。此外,盡管最近的研究已轉向深度學習和強化學習等有前景的技術,但GNNs仍需要更多關注和應用。考慮到交通網絡的圖結構和上述GNNs的優勢,我們認為它們是ITS下一個新興且具有高度競爭力的解決方案。我們主要調查了2018年至2023年在ITS領域發表的基于GNNs的論文,并進行了詳細總結。我們還確定了ITS領域面臨的研究挑戰,并提出了一些潛在的未來發展方向。 根據以上討論,我們的主要貢獻可以總結如下: ? 綜合性綜述。對2018至2023年智能交通系統的廣泛研究工作或調查進行了詳細調研。這項研究不僅涵蓋了ITS的一般和典型研究領域,而且對所綜述的研究進行了詳細闡述,總結了它們的方法和挑戰,并形成了信息豐富的表格和列表。 ? 全面的分類法。我們根據研究領域相關性、使用的圖方法和遇到的特定領域挑戰仔細分類了研究學術文獻,幫助讀者從多維度充分理解ITS的每個領域。 ? 挑戰和未來方向。在進行全面綜述后,我們總結了將GNNs應用于ITS時面臨的重大挑戰,并提出了潛在的未來方向,這對于那些想要跟進并深入研究這一研究領域的人來說是有益的。

付費5元查看完整內容

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

量子啟示的機器學習(QiML)是一個迅速發展的領域,由于其有潛力在經典計算框架內利用量子力學的原理,因此受到了全球研究者的關注。然而,當前的綜述文獻經常只是對QiML進行淺層次的探討,而更多地關注更為廣泛的量子機器學習(QML)領域。為了填補這一空白,這項綜述為QiML提供了一個整合的、全面的調研,探討了QiML的多種研究領域,包括張量網絡模擬、去量子化算法等,并展示了近期的進展、實際應用以及可能的未來研究方向。進一步地,通過分析該術語的各種先前解釋及其固有的模糊性,為QiML建立了一個具體的定義。隨著QiML的不斷發展,我們預期未來將從量子力學、量子計算和經典機器學習中汲取大量新的發展,進一步豐富該領域。這項調查旨在為研究者和實踐者提供指導,為他們提供對QiML當前狀況和未來方向的全面了解。

量子啟示的機器學習(QiML)領域已經取得了大量的增長,吸引了全球研究者的關注。作為量子機器學習(QML)的一個特定子集,QiML專注于在經典計算框架內開發受量子力學原理啟發的經典機器學習算法,這通常被稱為QML分類中的“經典-經典”象限,如圖1所示。QiML代表了一個多面的研究領域,其綜述旨在超越傳統的經典最先進的結果,或探索量子形式所提供的表現力。

為了在QML的背景下定位QiML,我們簡要地說明了后者。更廣泛地說,QML位于量子計算和機器學習的吸引人的交匯點。主導的研究領域關注“經典-量子”域,并探討使用量子硬件加速和增強機器學習策略。在此,經典機器學習中存在的兩大挑戰得到了回應。首先,很多領域中數據集的不斷增大和復雜化產生了計算挑戰,這些挑戰經典機器學習難以高效管理。其次,量子計算提供了解決目前用經典計算方法難以實現的復雜問題的潛力[1]。但是,目前在實際的量子硬件上評估QML算法受到一些因素的限制,例如量子位數有限、量子門中的高誤差率、維持量子狀態(失去相干性)的困難,以及與量子錯誤糾正相關的挑戰[2]。因此,QML的景觀主要受到理論考慮的影響,而噪聲中間規模量子(NISQ)設備的最近進展為全規模量子計算的潛力提供了一個初步的、經驗性的預覽[3]。因此,QML對機器學習領域的真正影響和范圍仍然是一個持續的研究話題。

QiML與QML研究并肩發展。經常被引用的研究領域包括張量網絡量子模擬和去量子化算法[4],[5]。然而,與QML相比,QiML中的發現通常都有數字證據支持,這得益于沒有量子硬件的要求,因此相對于其他QML子集,更容易進行定量評估。雖然QiML研究正在蓬勃發展,但當前的綜述文獻往往忽略了這一領域,更多的關注是放在整個QML上。通常,QiML只是被簡要提及或被淺層次地處理[5],[6],[7],[8],[9],[10]。QiML的實際應用案例、其應用以及與標準經典基準的比較分析通常都沒有被探索。這指出了對QiML作為一個獨立領域進行深入審查的迫切需求。為了回應這一文獻空白,我們的調查旨在為QiML的各個方面提供一個全面、綜合的討論。

我們的目標是提供一個關于QiML在實踐中如何被使用的可訪問和全面的概述,詳細描述其最近的進展,并使讀者了解該領域的進展。讀者應該注意,從量子力學的視角探索QiML方法,并基于啟示來源對方法進行分類將是有趣的,但這次調查是從應用的角度來看待這個領域的。這次調查的貢獻是提供了近年來QiML及其研究方向的進展概述,并確定了QiML研究的未來方向。具體來說,它們是:突出并分類現有的QiML方法; ? 為QiML建立一個具體的定義,考慮到其多方向的研究趨勢; ? 討論這些方法的實際應用,特別是確定當前已經應用QiML技術的任務; ? 討論QiML在實踐中的限制因素,以及; ? 探索和討論QiML研究的潛在未來方向。

付費5元查看完整內容
北京阿比特科技有限公司