亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自回歸模型在自然語言處理(NLP)領域取得了巨大成功。最近,自回歸模型逐漸成為計算機視覺領域的重要研究方向,并在生成高質量視覺內容方面表現出色。NLP中的自回歸模型通常在子詞級別上進行操作,然而,在計算機視覺中,數據的表示策略可以在像素級、令牌級或尺度級進行,以反映視覺數據的多樣性和層次性,這與語言的順序結構有所不同。本綜述全面梳理了視覺自回歸模型的相關文獻。為了提升不同學科背景的研究者的可讀性,我們首先介紹視覺中的序列表示和建模基礎。接著,我們將視覺自回歸模型的基本框架劃分為三類:基于像素、基于令牌和基于尺度的模型,這些分類基于不同的表示策略。然后,我們探討自回歸模型與其他生成模型之間的內在聯系。此外,我們對計算機視覺中的自回歸模型進行了多維度分類,包括圖像生成、視頻生成、3D生成和多模態生成,并詳細介紹了其在各類領域的應用,包括新興領域如具身人工智能(Embodied AI)和3D醫學人工智能,參考文獻多達250篇。最后,我們指出了當前視覺自回歸模型所面臨的挑戰,并提出了未來潛在的研究方向。我們還在Github上建立了一個倉庫,收錄了本綜述涉及的相關文獻,網址為://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey

1 引言

自回歸模型通過基于先前元素的條件概率預測序列中的每個元素來生成數據,最初在自然語言處理(NLP)領域獲得了突出地位(Vaswani 等人,2017;Radford 等人,2019;Brown 等人,2020;Achiam 等人,2023;Wan 等人,2023;Zhou 等人,2023a)。這種成功可歸因于其捕捉長距離依賴和生成高質量、上下文相關輸出的內在優勢。特別是,經驗性縮放定律(Henighan 等人,2020;Hoffmann 等人,2022;Muennighoff 等人,2023;Tao 等人,2024;Lyu 等人,2023)表明,增加模型規模和計算預算會持續改善跨熵損失,在圖像生成、視頻建模、多模態任務和數學問題求解等各個領域都遵循通用的冪律關系。受其在 NLP 中的成就啟發,自回歸模型最近開始在計算機視覺領域展示出巨大的潛力。圖 1 的時間線展示了視覺自回歸模型演變的關鍵里程碑和發展,強調了它們從 NLP 到計算機視覺的過渡。迄今為止,自回歸模型已被應用于廣泛的生成任務,包括圖像生成(Parmar 等人,2018;Chen 等人,2020)、圖像超分辨率(Guo 等人,2022;Li 等人,2016)、圖像編輯(Yao 等人,2022;Crowson 等人,2022)、圖像到圖像翻譯(Li 等人,2024e;Li 等人,2024d)和視頻生成(Tulyakov 等人,2018;Hong 等人,2022)、多模態任務(Yu 等人,2023c;Lu 等人,2022)以及醫療任務(Ren 等人,2024;Tudosiu 等人,2024)等。這種廣泛的適用性強調了進一步探索和應用自回歸模型的潛力。隨著視覺自回歸模型的迅速發展,跟上最新的進展變得越來越具有挑戰性。因此,對現有工作的全面綜述對于研究社區來說是及時且重要的。本文旨在對視覺自回歸的最新發展進行深入概述,并探索未來改進的潛在方向。我們強調,至少有三種由序列表示策略定義的不同類別的視覺自回歸模型:基于像素的、基于令牌的和基于尺度的模型。Pixel-RNN(Van Den Oord 等人,2016)作為像素級模型的代表,通過將二維圖像轉換為一維像素序列來預測下一個像素,捕捉了局部和長距離依賴,但計算成本較高。受 NLP 啟發的下一個令牌預測將圖像壓縮為離散令牌,以高效處理高分辨率圖像,代表性模型如 VQ-VAE(Van Den Oord 等人,2017)。VAR(Tian 等人,2024)引入了下一個尺度預測,這是一種分層方法,從粗到細自回歸地生成多個尺度的內容,捕捉多分辨率的視覺信息。每個類別都提供了獨特的優勢和挑戰,使其成為未來研究的有前途的方向。我們進一步從多角度介紹了自回歸模型在計算機視覺中的分類,基于序列表示策略、底層框架或目標任務對現有模型進行分類。我們的分類旨在提供一個結構化的概覽,展示這些模型如何在各種視覺任務中被利用。然后,我們提出了定量和定性的指標來評估其性能和適用性。最后,我們強調了自回歸模型當前的局限性,如計算復雜度和模式崩潰,并提出了未來研究的潛在方向。總之,本綜述做出了以下貢獻:

  • 鑒于基于視覺自回歸模型的最新進展激增,我們提供了這些模型的全面且及時的文獻回顧,旨在讓讀者快速理解通用的自回歸建模框架。
  • 我們基于序列表示策略對視覺自回歸模型進行了分類,并系統地匯編了各個領域的應用。這旨在幫助特定領域的研究人員快速識別和了解相關工作。
  • 我們從大約 250 篇相關參考文獻中對視覺中的自回歸模型進行了全面回顧,并總結了它們在四個圖像生成基準(ImageNet、MS-COCO、MJHQ-30K 和 GenEval bench)中與 GAN/擴散/MAE 方法的比較評估。
付費5元查看完整內容

相關內容

VILA-U 是一個融合了視頻、圖像和語言理解與生成的統一基礎模型。傳統的視覺語言模型(VLMs)通常為視覺內容的理解與生成使用獨立的模塊,這可能導致不一致性和復雜性的增加。相比之下,VILA-U 采用單一的自回歸下一個標記預測框架來處理這兩個任務,從而無需使用像擴散模型這樣的額外組件。這種方法不僅簡化了模型架構,還在視覺語言理解與生成方面取得了接近最新技術水平的性能。VILA-U 的成功歸因于兩個主要因素:統一的視覺塔在預訓練期間將離散的視覺標記與文本輸入對齊,增強了視覺感知能力;此外,自回歸圖像生成能夠在高質量數據集的支持下,達到與擴散模型相當的生成質量。這使得 VILA-U 能夠在一個完全基于標記的自回歸框架中實現與更復雜模型相當的表現。

1. 引言

近年來,大型語言模型(LLMs)在各種語言任務中展現出了卓越的能力。它們的優勢特性,如指令跟隨、零樣本泛化和小樣本上下文學習,促使研究人員將其與視覺模型結合,構建用于多模態任務的視覺語言模型(VLMs)。許多研究工作[15, 51, 45]已經投入到這一領域,并在視覺語言理解基準測試中取得了顯著的性能。在這些研究中,視覺輸入通過一個如 CLIP [58] 的視覺基礎模型投射到 LLMs 的語義空間中,通過包含文本-圖像對齊訓練目標來連接兩種模態。

除了視覺理解之外,將視覺和語言模態結合的另一個重要研究方向是視覺生成。文本引導的圖像生成有兩種流行的方法。一種方法使用擴散模型 [60],這是一種在各種生成任務中非常強大的工具。另一種方法通過向量量化(VQ)將視覺內容轉換為離散的標記,然后利用自回歸 Transformer 進行高質量和多樣化的生成[21, 73, 33]。隨著視覺理解和生成的快速進步,一個新興趨勢是將這些技術統一到一個單一的多模態框架中。 有兩種主要方法可以實現這種統一。許多 VLMs [31, 41, 64, 63] 保持理解導向的框架,并將生成任務卸載到外部擴散模型上。這種分離的方式增加了基礎設施設計的復雜性。現有的大規模基礎模型訓練管道和部署系統已經針對基于下一個標記預測的語言建模進行了高度優化。為支持擴散模型而設計一個全新的堆棧將會帶來巨大的工程成本。為避免此類成本,設計一個用于圖像理解和生成的單一端到端自回歸框架是更為理想的。在 VLMs [48, 75] 中,已經有趨勢采用 VQ 編碼器將視覺輸入轉換為離散標記,并以與語言數據相同的下一個標記預測方式處理它們。然而,在 VLMs 中用 VQ 標記替代連續標記通常會導致下游視覺感知任務的性能顯著下降。其他一些工作[52, 65]不得不進行各種架構修改,并從頭開始進行多模態訓練,這非常耗費計算資源。

在這項工作中,我們提出了 VILA-U,這是一種端到端的自回歸框架,具有統一的下一個標記預測目標,適用于視覺和文本輸入,能夠在視覺語言理解和生成任務中取得競爭性的性能,而無需像擴散模型這樣的外部組件。我們確定了兩個關鍵原則,可以有效且高效地統一視覺和語言模態。(1)現有的端到端自回歸 VLMs 無法在視覺理解性能上達到競爭力,因為離散 VQ 標記僅在圖像重建損失上訓練,未與文本輸入對齊。因此,在 VQ 視覺塔預訓練期間引入文本對齊對于增強感知能力至關重要。(2)如果在足夠大規模的高質量數據集上進行訓練,自回歸圖像生成可以達到與擴散模型相似的生成質量。基于這些見解,VILA-U 采用了一個統一的基礎視覺塔,通過向量量化將視覺輸入轉換為離散標記,并使用對比學習將這些標記與文本輸入對齊。VILA-U 的多模態訓練利用了一個統一的下一個標記預測目標,針對視覺和文本標記在一個小規模的高質量圖像-文本數據集上進行訓練。

我們在常見的視覺語言任務上對 VILA-U 進行了評估,包括圖像-語言理解、視頻-語言理解、圖像生成和視頻生成。VILA-U 顯著縮小了端到端自回歸模型與連續標記 VLMs 在視覺理解性能上的差距,同時引入了具備競爭力的原生視覺生成能力。

2. 相關工作

大規模語言模型 (LLMs)。基于預訓練大規模Transformer的大規模語言模型 (LLMs) [68] 徹底革新了自然語言處理領域。LLMs 具有巨大的模型規模和預訓練數據語料庫,在各種語言任務中取得了顯著的性能。像LLaMA [67]、Mixtral [29] 和Vicuna [13] 等開源LLMs 的發展進一步推動了研究如何將LLMs 應用于復雜的語言任務。除了出色的零樣本通用性外,LLMs 通常還在自定義數據集上進行微調,以在特定任務上獲得更好的表現。指令微調 (Instruction tuning) [55, 14, 56] 也是提升LLMs 應用效果的關鍵步驟。在本工作中,我們采用了LLaMA-2-7B [67] 作為基礎LLM。

視覺語言模型 (VLMs)。結合計算機視覺和自然語言處理技術,催生了視覺語言模型 (VLMs),特別是在LLMs 時代。研究人員在VLMs 中使用視覺基礎模型,如CLIP [58]、BLIP [38] 和CoCa [74] 提取視覺特征,并將其與文本對齊,再將它們輸入LLM,從而實現文本與視覺內容之間的跨模態理解。在這一進展的基礎上,許多VLMs [3, 36, 51, 45] 被設計并在大量視覺-語言數據上進行訓練,在視覺理解和推理任務上取得了顯著性能。VLMs 分為兩類:(1) 類BLIP的VLMs [4, 3, 39, 37, 16, 26] 使用交叉注意力機制融合語言和視覺信息,并可選地使用感知器 (perceiver) [28] 下采樣視覺標記。(2) 類LLaVA的VLMs [50, 20, 11, 1, 80, 72, 5, 2, 12, 49, 45, 79] 將視覺輸入轉換為標記(patches),通過ViTs 進行處理,ViTs的輸出經過MLP層后對齊至語言空間。在本工作中,我們旨在開發一個具備與先前工作相當的視覺理解能力,同時具備視覺生成能力的新型VLM。

統一視覺語言模型。已經有眾多研究致力于開發能夠同時生成文本和視覺內容(包括圖像和視頻)的統一視覺語言模型。生成視覺內容的兩種主流方法是:(1) 許多工作 [64, 63, 31, 30, 41] 將VLMs 與擴散模型(如Stable Diffusion [60])結合,以實現高質量的圖像生成。(2) 其他工作 [48, 75, 52, 65, 70] 采用基于VQGAN的視覺編碼器,將視覺輸入轉換為離散標記,并使LLMs 學會預測這些標記。在本工作中,我們基于自回歸的下一個標記預測方法來設計框架,以便有效高效地讓我們的VLM 學習生成視覺內容。 3. 方法

本工作提出了一個多模態框架,旨在高效地統一視覺和語言模態。實現這種統一的關鍵組件包括一個統一的基礎視覺塔,它將視覺輸入轉換為與文本對齊的離散標記,以及一個統一的多模態生成訓練過程。圖1展示了我們框架中的主要多模態訓練和推理流程概覽。

**3.1 統一基礎視覺塔

為了支持多樣化的視覺理解和生成任務,我們首先構建了一個統一的基礎視覺塔,以提供適當的視覺特征。我們在視覺塔的訓練中引入了文本-圖像對比損失和基于VQ的圖像重建損失,從而增強了視覺塔的文本對齊和離散標記化能力。如圖2所示,從圖像中提取的特征主要通過殘差量化進行離散化。接著,在一條路徑中,離散化的視覺特征被輸入解碼器以重建圖像,并計算重建損失;在另一條路徑中,我們計算離散視覺特征與文本編碼器提供的文本特征之間的圖像-文本對比損失。通過這種訓練過程,視覺塔學習如何提取適用于我們視覺語言模型(VLM)的理解和生成的離散特征。 統一訓練方案。對比損失和重建損失的簡單組合不能很好地收斂,這是因為對齊任務和重建任務分別需要高層語義特征和低層外觀特征。直接從頭訓練整個視覺塔以同時實現這兩個目標可能會產生沖突的目標。在實踐中,我們觀察到,在同時訓練圖像重建和對比損失的情況下,經過幾個epoch的訓練后,在ImageNet [17]上的零樣本圖像分類Top-1準確率僅為5%。為了解決這個問題,我們嘗試了不同的訓練方案,發現以下方案最有效:我們首先讓模型具備圖像-文本對齊能力,然后在保持對齊能力的同時學習重建能力。我們使用CLIP模型的預訓練權重來初始化視覺編碼器和文本編碼器,以確保良好的圖像-文本對齊。接下來,我們凍結文本編碼器,并保持所有視覺組件可訓練,使用對比損失和重建損失。這種訓練方法收斂速度快,性能強勁。預訓練的CLIP權重包含了已經學習的高層先驗知識,這些知識從頭開始學習非常困難且計算開銷巨大。通過使用這些權重初始化,視覺編碼器能夠更快、更穩妥地綁定低層和高層特征。通過這個訓練方案,我們可以有效訓練出一個具備良好文本對齊和圖像重建能力的視覺塔。我們使用加權和來組合文本-圖像對比損失和基于VQ的圖像重建損失:

討論:失敗的訓練方案。我們嘗試了許多訓練方案,發現都沒有我們的最終方法有效。我們列出了四個替代方案,并討論了它們與最終方案相比的不足之處:(1) 僅加載CLIP預訓練權重到文本編碼器;(2) 加載預訓練的RQ-VAE權重到視覺編碼器和解碼器,同時從頭訓練其他部分;(3) 凍結視覺編碼器;(4) 使文本編碼器可訓練。

方案1和2失敗的原因是視覺編碼器沒有加載CLIP預訓練權重。通常,從頭訓練一個CLIP模型需要大量GPU天數和大的全局批量(例如,32k)。然而,基于VQ的重建訓練需要相對較小的全局批量(例如,512)以保持穩定的改進。使用如此小的批量訓練一個從頭開始的文本對齊視覺塔將會非常耗時且資源密集。方案3失敗的原因是凍結視覺編碼器會阻止它學習重建所需的低層特征,這種情況下,重建的負擔完全落在視覺解碼器上,但僅使用語義特征是不可能很好地重建圖像的。方案4失敗的原因是在初始訓練階段,量化的特征是混亂的,對比損失擾亂了文本編碼器的權重,減緩了整個訓練過程。

相比之下,我們的最終訓練方案利用了視覺編碼器的預訓練CLIP權重,使其保持已學習的語義特征,而不是從頭開始學習。這使得我們能夠在保持視覺編碼器可訓練的同時,使用較小的批量訓練,促進在訓練過程中學習用于重建的低層特征。

殘差矢量量化。我們的視覺特征是離散量化的,因此它們的表示能力很大程度上取決于我們量化器中使用的碼本大小。由于我們希望它們包含高層和低層特征,因此在矢量特征空間中需要更多的容量,這就需要更大的碼本大小來保證下游任務的良好性能。然而,過多的每個圖像的碼本會導致LLM在視覺生成過程中生成過多的標記,導致延遲增加。因此,為了增加矢量特征容量,同時保持合理的標記數量,我們采用了基于RQ-VAE [33] 的殘差矢量量化方法來將矢量zzz 離散化為DDD 個離散碼:

直觀上,在每個深度上我們選擇一個碼來減少量化誤差。與標準矢量量化方法相比,我們使用DDD 個碼來量化一個矢量,允許更精細的近似和更大的特征空間。在多模態訓練和推理過程中,LLM 只需要預測碼嵌入,不同深度的碼由深度 Transformer 依次生成,初始輸入是碼嵌入,正如我們將在3.2節中介紹的。因此,通過這種殘差量化,我們能夠增強視覺塔的表示能力,同時幾乎不增加延遲。

**3.2 統一多模態生成預訓練

圖1展示了我們統一的多模態預訓練過程概覽。我們的視覺塔編碼器按順序處理視覺輸入,生成1D標記序列。該序列然后與文本標記連接,形成一個多模態序列。為了區分模態并支持視覺內容生成,我們在圖像標記的開始和結束處插入特殊標記:<image_start> 和 <image_end>,在視頻標記的開始和結束處插入 <video_start> 和 <video_end>。視頻標記是多幀圖像標記的直接拼接。 預訓練數據形式。在統一的預訓練數據中,我們利用文本和視覺標記之間的不同連接形式,以促進理解和生成。我們使用[圖像,文本]、[文本,圖像] 和 [文本,視頻] 的形式,并僅在每對的后一個模態上添加監督損失,以避免無條件內容生成并促進模態對齊。我們還使用了交錯文本和圖像的連接形式來增強理解,并僅對文本施加監督損失。值得注意的是,我們在預訓練期間出于效率原因排除了[視頻,文本]的形式,因為我們發現,在監督微調期間結合該形式可以有效地提高視頻理解能力。 訓練目標。由于視覺標記和文本標記都是離散的,我們可以使用通用語言建模的下一個標記預測目標來訓練LLM。然而,由于視覺標記采用了殘差量化,文本和視覺標記的訓練目標略有不同。對于文本標記,負對數似然損失計算如下:

4 實驗

本節中,我們將介紹全面的實驗,以評估我們方法在各種視覺理解和生成任務中的性能。首先,我們描述實驗設置,包括模型架構、訓練數據集和評估基準。隨后,我們評估了統一基礎視覺塔的性能,并與其他流行的視覺語言模型(VLMs)在各種視覺理解和生成基準上進行比較。最后,我們展示了一些定性結果。

**4.1 實驗設置

在我們的實驗中,我們采用了LLaMA-2-7B [66] 作為基礎語言模型。對于視覺塔,我們選擇了SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384 [77] 作為視覺編碼器架構,并采用了來自RQ-VAE [33] 的殘差量化器、深度Transformer和解碼器架構。量化器碼本大小為16384。所有圖像和視頻的分辨率調整為256×256 / 384×384,每張圖像或每幀視頻被轉換為16×16×4 / 27×27×16的碼,殘差深度D=4 / D=16。我們在COYO-700M [6] 上訓練視覺塔,并在ImageNet [18] 上對零樣本分類和重建性能進行評估。對于視覺理解,我們使用了來自ShareGPT4V [10] 的1M [圖像,文本] 數據和來自MMC4 [81] 的6M交錯文本和圖像數據。對于視覺生成,我們使用了來自我們內部數據集的15M高質量[文本,圖像] 數據和來自OpenVid [54] 數據集的1M [文本,視頻] 數據。視覺生成使用了Classifier-free guidance [25],CFG值為3。

為了檢驗視覺理解能力,我們在廣泛采用的基于圖像的零樣本視覺語言基準上評估了模型,包括VQA-v2 [24],GQA [27],TextVQA [62],POPE [42],MME [23],SEED [34],MM-Vet [76],以及基于視頻的視覺語言基準,包括ActivityNet [7],MSVD [8],MSRVTT [71],TGIF [43]。 為了評估視覺生成能力,我們使用了MJHQ-30K [35] 和GenAI-Bench [46] 作為基準。前者通過生成圖像與30K高質量圖像之間的FID來反映圖像生成的整體能力。后者是一個具有挑戰性的圖像-文本生成基準,反映了視覺生成模型的綜合生成能力。該基準分為兩類提示:基本技能(包括文本輸入中的屬性、場景和關系理解)和高級技能(包括計數、區分、比較和邏輯關系理解)。

**4.2 統一基礎視覺塔

我們在表1中展示了用于衡量統一基礎視覺塔的重建和文本對齊能力的常用指標:重建FID(rFID)和ImageNet上零樣本圖像分類的Top-1準確率。我們的模型在重建結果上顯著優于VQ-GAN。當使用相同的碼形狀時,我們的rFID略低于RQ-VAE。這是預期的,因為訓練過程中引入的對比損失旨在增強圖像理解,導致重建質量下降。對于文本對齊能力,我們的統一視覺塔在256 / 384分辨率下分別達到了73.3 / 78.0的Top-1準確率。這表明了我們統一視覺塔出色的文本對齊能力。然而,值得注意的是,視覺塔的rFID和Top-1準確率僅作為中間指標,并不直接線性關聯于我們整個多模態框架的最終性能。接下來部分中展示的視覺理解和生成任務的性能更加重要。

**4.3 定量評估

視覺理解任務。表2和表3總結了我們的方法與其他領先的VLM在圖像-語言和視頻-語言基準上的對比。與CLIP等基礎模型生成的連續視覺標記相比,基于VQGAN的離散視覺標記與文本的對齊度較低,從而損害了VLM在視覺理解任務中的表現。通過我們的統一基礎視覺塔,即使使用離散視覺標記,我們的模型在性能上也接近領先的VLM。 視覺生成任務。如表4所示,VILA-U在視覺生成方面優于其他自回歸方法,并且在一些基于擴散的方法中具有可比的性能。該結果表明我們的方法在視覺生成方面的可行性。表5總結了我們的方法和其他視覺生成方法在GenAI-Bench上的定量結果。盡管我們的方法遜色于在數十億級別圖像-文本對上訓練的基于擴散的視覺生成方法,但在高級提示上,我們的方法與SD v2.1 [61] 和SD-XL [57] 的表現相當,甚至僅用量級較少的數據進行訓練。這進一步表明,VILA-U通過我們的統一訓練框架可以有效、高效地學習視覺和文本模態之間的相關性。

**4.4 定性評估

視覺理解。為了驗證VILA-U在綜合視覺理解任務中的有效性,我們在多個理解和推理任務中應用了該模型,部分示例如圖3和圖4所示。從結果中可以看到,VILA-U在各種任務(包括視覺描述和視覺問答)中的多樣性。此外,我們的模型繼承了一些來自VILA [45] 的重要能力,包括多圖像理解和上下文學習,如圖5和圖6所示。

視覺生成。我們在圖7中展示了一些使用VILA-U生成視覺內容的示例。可以看到,即使使用相對較小的數據集進行訓練,我們的模型可以同時用于圖像生成和視頻生成。在給定的示例中,我們的方法能夠根據用戶輸入生成好看的圖像和連續的視頻。

5. 結論

我們提出了VILA-U,這是一種新穎且統一的視覺語言模型,將視頻、圖像和語言的理解與生成任務整合到一個自回歸的下一個標記預測框架中。與大多數利用額外組件(如擴散模型)來統一視覺生成和理解的視覺語言模型(VLMs)相比,我們的方法不僅更加簡潔,而且還證明了自回歸方法可以在性能上與當前最先進的VLMs相媲美。我們取得成功的原因在于:首先,我們的統一基礎視覺塔在預訓練期間將離散的視覺特征與文本對齊;其次,我們使用了一個適用于視覺理解和生成訓練的高質量數據集。我們相信,VILA-U可以作為多樣化視覺語言任務的通用框架。

付費5元查看完整內容

近年來,圖對比學習(Graph Contrastive Learning, GCL)在推薦系統中受到越來越多的關注,因為它在減小數據稀疏性導致的偏差方面表現出了高效性。然而,大多數現有的GCL模型依賴于啟發式方法,并且在構建對比視圖時通常假設實體獨立性。我們認為,這些方法在動態訓練過程中難以在語義不變性和視圖難度之間取得平衡,而這兩者都是圖對比學習中的關鍵因素。為了解決上述問題,我們提出了一種新的基于GCL的推薦框架RGCL,該框架能夠有效地保持對比對的語義不變性,并隨著模型能力的演變在訓練過程中動態適應。具體而言,RGCL首先引入了決策邊界感知的對抗擾動,以約束對比增強視圖的探索空間,避免任務特定信息的減少。此外,為了在生成困難對比視圖時引入全局的用戶-用戶和物品-物品協作關系,我們提出了一種對抗對比學習目標,以構建一個關系感知的視圖生成器。此外,考慮到無監督GCL可能會縮小數據點與決策邊界之間的邊距,從而降低模型的魯棒性,我們引入了基于最大擾動的對抗樣本,以實現邊距最大化。我們還提供了對我們設計有效性的理論分析。通過在五個公開數據集上的大量實驗,我們證明了RGCL相比于十二個基線模型的優越性。

付費5元查看完整內容

這篇論文研究了半監督圖分類,在有限標記圖和大量未標記圖的情況下,旨在準確預測圖的類別。盡管圖神經網絡(GNNs)具有很強的能力,但它們通常需要大量昂貴的標記圖,而大量未標記圖未能有效利用。此外,GNNs 在使用消息傳遞機制編碼局部鄰域信息方面固有地受到限制,因此缺乏對節點之間高階依賴關系的建模能力。為了應對這些挑戰,我們提出了一個名為 HEAL 的超圖增強 DuAL 框架,用于半監督圖分類,從超圖和線圖的角度分別捕獲圖的語義。具體而言,為了更好地探索節點之間的高階關系,我們設計了一個超圖結構學習方法,以自適應方式學習超過成對關系的復雜節點依賴關系。同時,基于學習到的超圖,我們引入了一個線圖來捕獲超邊之間的相互作用,從而更好地挖掘底層語義結構。最后,我們開發了一個關系一致性學習方法,以促進兩個分支之間的知識轉移,并提供更好的相互指導。對真實世界的圖數據集進行的廣泛實驗驗證了所提方法對現有最先進方法的有效性。

//www.zhuanzhi.ai/paper/94c9eada51f44769c3175466cb6664bd

付費5元查看完整內容

受到自然語言處理(NLP)中通用模型成功的啟發,近期研究嘗試將不同的視覺任務統一到相同的序列格式中,并使用自回歸的Transformers進行序列預測。它們應用單向注意力來捕捉序列依賴性,并遞歸生成任務序列。然而,這樣的自回歸Transformers可能不適合視覺任務,因為視覺任務序列通常缺乏在自然語言中通常觀察到的序列依賴性。在這項工作中,我們設計了Masked AutoDecoder (MAD),一個有效的多任務視覺通用模型。MAD包含兩個核心設計。首先,我們開發了一個并行解碼框架,引入雙向注意力以全面捕捉上下文依賴性,并并行解碼視覺任務序列。其次,我們設計了一種遮蔽序列建模方法,通過遮蔽和重構任務序列來學習豐富的任務上下文。通過這種方式,MAD通過單一網絡分支和簡單的交叉熵損失處理所有任務,最小化任務特定設計。廣泛的實驗展示了MAD作為統一各種視覺任務新范式的巨大潛力。與自回歸對手相比,MAD實現了更優的性能和推理效率,同時與任務特定模型保持競爭力的準確率。代碼將在//github.com/hanqiu-hq/MAD 發布。

付費5元查看完整內容

Transformer架構在自然語言處理和計算機視覺等多個領域展現了顯著的成功。當涉及到圖學習時,transformer不僅需要捕捉節點對之間的交互,還需要保持揭示它們之間潛在關系和鄰近性的圖結構,顯示出捕捉不同圖結構的表達能力。因此,已經提出并廣泛應用了各種結構保持圖transformer,用于生物信息學和化學信息學中的圖級任務。然而,與圖結構保持相關的策略在文獻中尚未得到良好的組織和系統化。在本文中,我們提供了結構保持圖transformer的全面概述,并從它們的設計目標的角度對這些方法進行了概括。首先,我們將策略分為四個主要組:節點特征調制、上下文節點采樣、圖重寫以及transformer架構改進。然后,我們根據圖結構保持的覆蓋范圍和目標進一步細分策略。此外,我們還討論了圖transformer模型在保持圖結構和理解圖的本質方面的挑戰和未來方向。

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。

在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。

本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。

//contrastive-nlp-tutorial.github.io/

對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability

經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions

講者:

付費5元查看完整內容

圖結構數據的自監督學習最近引起了從無標記圖學習可泛化、可遷移移和魯棒表示的興趣。其中,圖對比學習(GraphCL)以良好的表征學習性能出現。不幸的是,與圖像數據不同的是,GraphCL的有效性依賴于特定的數據擴展,由于圖數據的多樣性,必須根據經驗或反復試驗的規則手動選擇每個數據集。這極大地限制了GraphCL更普遍的適用性。為了填補這一關鍵空白,本文提出了一個統一的雙層優化框架,在對特定圖形數據執行GraphCL時自動、自適應、動態地選擇數據增強。聯合增強優化(JOint Augmentation Optimization, JOAO)的通用框架被實例化為最小最大化優化。JOAO所做的增強的選擇通常與從手工調優中觀察到的以前的“最佳實踐”一致:但現在已經自動化,更加靈活和通用。此外,我們提出了一種新的增強感知投影頭機制,在每個訓練步驟中,通過選擇不同的投影頭對應不同的增強來路由輸出特征。大量實驗表明,JOAO在不同規模和類型的多個圖數據集上的性能與最先進的競爭對手(包括GraphCL)相當,有時甚至更好,而無需對增強選擇進行任何費力的數據集特定調優。我們在//github.com/ Shen-Lab/GraphCL_Automated發布了代碼。

付費5元查看完整內容

傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。

付費5元查看完整內容

近年來,基于圖學習的推薦系統(GLRS)這個新興話題得到了快速發展。GLRS采用高級的圖學習方法來建模用戶的偏好和意圖,以及物品的特征來進行推薦。與其他RS方法(包括基于內容的過濾和協同過濾)不同,GLRS是建立在圖上的,其中重要對象(如用戶、物品和屬性)是顯式或隱式連接的。

隨著圖學習技術的快速發展,探索和開發圖中的同質或異質關系是構建更有效的RS的一個有前途的方向。通過討論如何從基于圖的表示中提取重要的知識,以提高推薦的準確性、可靠性和可解釋性。

首先對GLRS進行了表示和形式化,然后對該研究領域面臨的主要挑戰和主要進展進行了總結和分類。

引言

推薦系統(RS)是人工智能(AI)最流行和最重要的應用之一。它們已被廣泛采用,以幫助許多流行的內容分享和電子商務網站的用戶更容易找到相關的內容、產品或服務。與此同時,圖學習(Graph Learning, GL)是一種新興的人工智能技術,它涉及到應用于圖結構數據的機器學習,近年來發展迅速,顯示出了其強大的能力[Wu et al., 2021]。事實上,得益于這些學習關系數據的能力,一種基于GL的RS范式,即基于圖學習的推薦系統(GLRS),在過去幾年中被提出并得到了廣泛的研究[Guo等人,2020]。在本文中,我們對這一新興領域的挑戰和進展進行了系統的回顧。

動機: 為什么要用圖學習RS?

RS中的大部分數據本質上是一個圖結構。在現實世界中,我們身邊的大多數事物都或明或暗地相互聯系著;換句話說,我們生活在一個圖的世界里。這種特征在RS中更加明顯,這里考慮的對象包括用戶、物品、屬性、上下文,這些對象之間緊密相連,通過各種關系相互影響[Hu et al., 2014],如圖1所示。在實踐中,RS所使用的數據會產生各種各樣的圖表,這對推薦的質量有很大的幫助。

圖學習具有學習復雜關系的能力。作為最具發展前景的機器學習技術之一,GL在獲取嵌入在不同類型圖中的知識方面顯示出了巨大的潛力。具體來說,許多GL技術,如隨機游走和圖神經網絡,已經被開發出來學習特定類型的關系由圖建模,并被證明是相當有效的[Wu et al., 2021]。因此,使用GL來建模RS中的各種關系是一個自然和令人信服的選擇。

圖學習如何幫助RS? 到目前為止,還沒有統一的GLRS形式化。我們通常從高層次的角度對GLRS進行形式化。我們用一個RS的數據構造一個圖G = {V, E},其中對象(如用戶和商品)在V中表示為節點,它們之間的關系(如購買)在E中表示為邊。構建并訓練GLRS模型M(Θ)學習最優模型參數Θ,生成最優推薦結果R。

根據具體的推薦數據和場景,可以以不同的形式定義圖G和推薦目標R,例如,G可以是同質序列或異構網絡,而R可以是對物品的預測評級或排名。目標函數f可以是最大效用[Wang et al., 2019f]或節點之間形成鏈接的最大概率[Verma et al., 2019]。

這項工作的主要貢獻總結如下:

? 我們系統地分析了各種GLRS圖所呈現的關鍵挑戰,并從數據驅動的角度對其進行分類,為更好地理解GLRS的重要特征提供了有用的視角。

? 我們通過系統分類較先進的技術文獻,總結了目前GLRS的研究進展。

? 我們分享和討論了一些GLRS開放的研究方向,供社區參考。

付費5元查看完整內容
北京阿比特科技有限公司