亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

VILA-U 是一個融合了視頻、圖像和語言理解與生成的統一基礎模型。傳統的視覺語言模型(VLMs)通常為視覺內容的理解與生成使用獨立的模塊,這可能導致不一致性和復雜性的增加。相比之下,VILA-U 采用單一的自回歸下一個標記預測框架來處理這兩個任務,從而無需使用像擴散模型這樣的額外組件。這種方法不僅簡化了模型架構,還在視覺語言理解與生成方面取得了接近最新技術水平的性能。VILA-U 的成功歸因于兩個主要因素:統一的視覺塔在預訓練期間將離散的視覺標記與文本輸入對齊,增強了視覺感知能力;此外,自回歸圖像生成能夠在高質量數據集的支持下,達到與擴散模型相當的生成質量。這使得 VILA-U 能夠在一個完全基于標記的自回歸框架中實現與更復雜模型相當的表現。

1. 引言

近年來,大型語言模型(LLMs)在各種語言任務中展現出了卓越的能力。它們的優勢特性,如指令跟隨、零樣本泛化和小樣本上下文學習,促使研究人員將其與視覺模型結合,構建用于多模態任務的視覺語言模型(VLMs)。許多研究工作[15, 51, 45]已經投入到這一領域,并在視覺語言理解基準測試中取得了顯著的性能。在這些研究中,視覺輸入通過一個如 CLIP [58] 的視覺基礎模型投射到 LLMs 的語義空間中,通過包含文本-圖像對齊訓練目標來連接兩種模態。

除了視覺理解之外,將視覺和語言模態結合的另一個重要研究方向是視覺生成。文本引導的圖像生成有兩種流行的方法。一種方法使用擴散模型 [60],這是一種在各種生成任務中非常強大的工具。另一種方法通過向量量化(VQ)將視覺內容轉換為離散的標記,然后利用自回歸 Transformer 進行高質量和多樣化的生成[21, 73, 33]。隨著視覺理解和生成的快速進步,一個新興趨勢是將這些技術統一到一個單一的多模態框架中。 有兩種主要方法可以實現這種統一。許多 VLMs [31, 41, 64, 63] 保持理解導向的框架,并將生成任務卸載到外部擴散模型上。這種分離的方式增加了基礎設施設計的復雜性。現有的大規模基礎模型訓練管道和部署系統已經針對基于下一個標記預測的語言建模進行了高度優化。為支持擴散模型而設計一個全新的堆棧將會帶來巨大的工程成本。為避免此類成本,設計一個用于圖像理解和生成的單一端到端自回歸框架是更為理想的。在 VLMs [48, 75] 中,已經有趨勢采用 VQ 編碼器將視覺輸入轉換為離散標記,并以與語言數據相同的下一個標記預測方式處理它們。然而,在 VLMs 中用 VQ 標記替代連續標記通常會導致下游視覺感知任務的性能顯著下降。其他一些工作[52, 65]不得不進行各種架構修改,并從頭開始進行多模態訓練,這非常耗費計算資源。

在這項工作中,我們提出了 VILA-U,這是一種端到端的自回歸框架,具有統一的下一個標記預測目標,適用于視覺和文本輸入,能夠在視覺語言理解和生成任務中取得競爭性的性能,而無需像擴散模型這樣的外部組件。我們確定了兩個關鍵原則,可以有效且高效地統一視覺和語言模態。(1)現有的端到端自回歸 VLMs 無法在視覺理解性能上達到競爭力,因為離散 VQ 標記僅在圖像重建損失上訓練,未與文本輸入對齊。因此,在 VQ 視覺塔預訓練期間引入文本對齊對于增強感知能力至關重要。(2)如果在足夠大規模的高質量數據集上進行訓練,自回歸圖像生成可以達到與擴散模型相似的生成質量。基于這些見解,VILA-U 采用了一個統一的基礎視覺塔,通過向量量化將視覺輸入轉換為離散標記,并使用對比學習將這些標記與文本輸入對齊。VILA-U 的多模態訓練利用了一個統一的下一個標記預測目標,針對視覺和文本標記在一個小規模的高質量圖像-文本數據集上進行訓練。

我們在常見的視覺語言任務上對 VILA-U 進行了評估,包括圖像-語言理解、視頻-語言理解、圖像生成和視頻生成。VILA-U 顯著縮小了端到端自回歸模型與連續標記 VLMs 在視覺理解性能上的差距,同時引入了具備競爭力的原生視覺生成能力。

2. 相關工作

大規模語言模型 (LLMs)。基于預訓練大規模Transformer的大規模語言模型 (LLMs) [68] 徹底革新了自然語言處理領域。LLMs 具有巨大的模型規模和預訓練數據語料庫,在各種語言任務中取得了顯著的性能。像LLaMA [67]、Mixtral [29] 和Vicuna [13] 等開源LLMs 的發展進一步推動了研究如何將LLMs 應用于復雜的語言任務。除了出色的零樣本通用性外,LLMs 通常還在自定義數據集上進行微調,以在特定任務上獲得更好的表現。指令微調 (Instruction tuning) [55, 14, 56] 也是提升LLMs 應用效果的關鍵步驟。在本工作中,我們采用了LLaMA-2-7B [67] 作為基礎LLM。

視覺語言模型 (VLMs)。結合計算機視覺和自然語言處理技術,催生了視覺語言模型 (VLMs),特別是在LLMs 時代。研究人員在VLMs 中使用視覺基礎模型,如CLIP [58]、BLIP [38] 和CoCa [74] 提取視覺特征,并將其與文本對齊,再將它們輸入LLM,從而實現文本與視覺內容之間的跨模態理解。在這一進展的基礎上,許多VLMs [3, 36, 51, 45] 被設計并在大量視覺-語言數據上進行訓練,在視覺理解和推理任務上取得了顯著性能。VLMs 分為兩類:(1) 類BLIP的VLMs [4, 3, 39, 37, 16, 26] 使用交叉注意力機制融合語言和視覺信息,并可選地使用感知器 (perceiver) [28] 下采樣視覺標記。(2) 類LLaVA的VLMs [50, 20, 11, 1, 80, 72, 5, 2, 12, 49, 45, 79] 將視覺輸入轉換為標記(patches),通過ViTs 進行處理,ViTs的輸出經過MLP層后對齊至語言空間。在本工作中,我們旨在開發一個具備與先前工作相當的視覺理解能力,同時具備視覺生成能力的新型VLM。

統一視覺語言模型。已經有眾多研究致力于開發能夠同時生成文本和視覺內容(包括圖像和視頻)的統一視覺語言模型。生成視覺內容的兩種主流方法是:(1) 許多工作 [64, 63, 31, 30, 41] 將VLMs 與擴散模型(如Stable Diffusion [60])結合,以實現高質量的圖像生成。(2) 其他工作 [48, 75, 52, 65, 70] 采用基于VQGAN的視覺編碼器,將視覺輸入轉換為離散標記,并使LLMs 學會預測這些標記。在本工作中,我們基于自回歸的下一個標記預測方法來設計框架,以便有效高效地讓我們的VLM 學習生成視覺內容。 3. 方法

本工作提出了一個多模態框架,旨在高效地統一視覺和語言模態。實現這種統一的關鍵組件包括一個統一的基礎視覺塔,它將視覺輸入轉換為與文本對齊的離散標記,以及一個統一的多模態生成訓練過程。圖1展示了我們框架中的主要多模態訓練和推理流程概覽。

**3.1 統一基礎視覺塔

為了支持多樣化的視覺理解和生成任務,我們首先構建了一個統一的基礎視覺塔,以提供適當的視覺特征。我們在視覺塔的訓練中引入了文本-圖像對比損失和基于VQ的圖像重建損失,從而增強了視覺塔的文本對齊和離散標記化能力。如圖2所示,從圖像中提取的特征主要通過殘差量化進行離散化。接著,在一條路徑中,離散化的視覺特征被輸入解碼器以重建圖像,并計算重建損失;在另一條路徑中,我們計算離散視覺特征與文本編碼器提供的文本特征之間的圖像-文本對比損失。通過這種訓練過程,視覺塔學習如何提取適用于我們視覺語言模型(VLM)的理解和生成的離散特征。 統一訓練方案。對比損失和重建損失的簡單組合不能很好地收斂,這是因為對齊任務和重建任務分別需要高層語義特征和低層外觀特征。直接從頭訓練整個視覺塔以同時實現這兩個目標可能會產生沖突的目標。在實踐中,我們觀察到,在同時訓練圖像重建和對比損失的情況下,經過幾個epoch的訓練后,在ImageNet [17]上的零樣本圖像分類Top-1準確率僅為5%。為了解決這個問題,我們嘗試了不同的訓練方案,發現以下方案最有效:我們首先讓模型具備圖像-文本對齊能力,然后在保持對齊能力的同時學習重建能力。我們使用CLIP模型的預訓練權重來初始化視覺編碼器和文本編碼器,以確保良好的圖像-文本對齊。接下來,我們凍結文本編碼器,并保持所有視覺組件可訓練,使用對比損失和重建損失。這種訓練方法收斂速度快,性能強勁。預訓練的CLIP權重包含了已經學習的高層先驗知識,這些知識從頭開始學習非常困難且計算開銷巨大。通過使用這些權重初始化,視覺編碼器能夠更快、更穩妥地綁定低層和高層特征。通過這個訓練方案,我們可以有效訓練出一個具備良好文本對齊和圖像重建能力的視覺塔。我們使用加權和來組合文本-圖像對比損失和基于VQ的圖像重建損失:

討論:失敗的訓練方案。我們嘗試了許多訓練方案,發現都沒有我們的最終方法有效。我們列出了四個替代方案,并討論了它們與最終方案相比的不足之處:(1) 僅加載CLIP預訓練權重到文本編碼器;(2) 加載預訓練的RQ-VAE權重到視覺編碼器和解碼器,同時從頭訓練其他部分;(3) 凍結視覺編碼器;(4) 使文本編碼器可訓練。

方案1和2失敗的原因是視覺編碼器沒有加載CLIP預訓練權重。通常,從頭訓練一個CLIP模型需要大量GPU天數和大的全局批量(例如,32k)。然而,基于VQ的重建訓練需要相對較小的全局批量(例如,512)以保持穩定的改進。使用如此小的批量訓練一個從頭開始的文本對齊視覺塔將會非常耗時且資源密集。方案3失敗的原因是凍結視覺編碼器會阻止它學習重建所需的低層特征,這種情況下,重建的負擔完全落在視覺解碼器上,但僅使用語義特征是不可能很好地重建圖像的。方案4失敗的原因是在初始訓練階段,量化的特征是混亂的,對比損失擾亂了文本編碼器的權重,減緩了整個訓練過程。

相比之下,我們的最終訓練方案利用了視覺編碼器的預訓練CLIP權重,使其保持已學習的語義特征,而不是從頭開始學習。這使得我們能夠在保持視覺編碼器可訓練的同時,使用較小的批量訓練,促進在訓練過程中學習用于重建的低層特征。

殘差矢量量化。我們的視覺特征是離散量化的,因此它們的表示能力很大程度上取決于我們量化器中使用的碼本大小。由于我們希望它們包含高層和低層特征,因此在矢量特征空間中需要更多的容量,這就需要更大的碼本大小來保證下游任務的良好性能。然而,過多的每個圖像的碼本會導致LLM在視覺生成過程中生成過多的標記,導致延遲增加。因此,為了增加矢量特征容量,同時保持合理的標記數量,我們采用了基于RQ-VAE [33] 的殘差矢量量化方法來將矢量zzz 離散化為DDD 個離散碼:

直觀上,在每個深度上我們選擇一個碼來減少量化誤差。與標準矢量量化方法相比,我們使用DDD 個碼來量化一個矢量,允許更精細的近似和更大的特征空間。在多模態訓練和推理過程中,LLM 只需要預測碼嵌入,不同深度的碼由深度 Transformer 依次生成,初始輸入是碼嵌入,正如我們將在3.2節中介紹的。因此,通過這種殘差量化,我們能夠增強視覺塔的表示能力,同時幾乎不增加延遲。

**3.2 統一多模態生成預訓練

圖1展示了我們統一的多模態預訓練過程概覽。我們的視覺塔編碼器按順序處理視覺輸入,生成1D標記序列。該序列然后與文本標記連接,形成一個多模態序列。為了區分模態并支持視覺內容生成,我們在圖像標記的開始和結束處插入特殊標記:<image_start> 和 <image_end>,在視頻標記的開始和結束處插入 <video_start> 和 <video_end>。視頻標記是多幀圖像標記的直接拼接。 預訓練數據形式。在統一的預訓練數據中,我們利用文本和視覺標記之間的不同連接形式,以促進理解和生成。我們使用[圖像,文本]、[文本,圖像] 和 [文本,視頻] 的形式,并僅在每對的后一個模態上添加監督損失,以避免無條件內容生成并促進模態對齊。我們還使用了交錯文本和圖像的連接形式來增強理解,并僅對文本施加監督損失。值得注意的是,我們在預訓練期間出于效率原因排除了[視頻,文本]的形式,因為我們發現,在監督微調期間結合該形式可以有效地提高視頻理解能力。 訓練目標。由于視覺標記和文本標記都是離散的,我們可以使用通用語言建模的下一個標記預測目標來訓練LLM。然而,由于視覺標記采用了殘差量化,文本和視覺標記的訓練目標略有不同。對于文本標記,負對數似然損失計算如下:

4 實驗

本節中,我們將介紹全面的實驗,以評估我們方法在各種視覺理解和生成任務中的性能。首先,我們描述實驗設置,包括模型架構、訓練數據集和評估基準。隨后,我們評估了統一基礎視覺塔的性能,并與其他流行的視覺語言模型(VLMs)在各種視覺理解和生成基準上進行比較。最后,我們展示了一些定性結果。

**4.1 實驗設置

在我們的實驗中,我們采用了LLaMA-2-7B [66] 作為基礎語言模型。對于視覺塔,我們選擇了SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384 [77] 作為視覺編碼器架構,并采用了來自RQ-VAE [33] 的殘差量化器、深度Transformer和解碼器架構。量化器碼本大小為16384。所有圖像和視頻的分辨率調整為256×256 / 384×384,每張圖像或每幀視頻被轉換為16×16×4 / 27×27×16的碼,殘差深度D=4 / D=16。我們在COYO-700M [6] 上訓練視覺塔,并在ImageNet [18] 上對零樣本分類和重建性能進行評估。對于視覺理解,我們使用了來自ShareGPT4V [10] 的1M [圖像,文本] 數據和來自MMC4 [81] 的6M交錯文本和圖像數據。對于視覺生成,我們使用了來自我們內部數據集的15M高質量[文本,圖像] 數據和來自OpenVid [54] 數據集的1M [文本,視頻] 數據。視覺生成使用了Classifier-free guidance [25],CFG值為3。

為了檢驗視覺理解能力,我們在廣泛采用的基于圖像的零樣本視覺語言基準上評估了模型,包括VQA-v2 [24],GQA [27],TextVQA [62],POPE [42],MME [23],SEED [34],MM-Vet [76],以及基于視頻的視覺語言基準,包括ActivityNet [7],MSVD [8],MSRVTT [71],TGIF [43]。 為了評估視覺生成能力,我們使用了MJHQ-30K [35] 和GenAI-Bench [46] 作為基準。前者通過生成圖像與30K高質量圖像之間的FID來反映圖像生成的整體能力。后者是一個具有挑戰性的圖像-文本生成基準,反映了視覺生成模型的綜合生成能力。該基準分為兩類提示:基本技能(包括文本輸入中的屬性、場景和關系理解)和高級技能(包括計數、區分、比較和邏輯關系理解)。

**4.2 統一基礎視覺塔

我們在表1中展示了用于衡量統一基礎視覺塔的重建和文本對齊能力的常用指標:重建FID(rFID)和ImageNet上零樣本圖像分類的Top-1準確率。我們的模型在重建結果上顯著優于VQ-GAN。當使用相同的碼形狀時,我們的rFID略低于RQ-VAE。這是預期的,因為訓練過程中引入的對比損失旨在增強圖像理解,導致重建質量下降。對于文本對齊能力,我們的統一視覺塔在256 / 384分辨率下分別達到了73.3 / 78.0的Top-1準確率。這表明了我們統一視覺塔出色的文本對齊能力。然而,值得注意的是,視覺塔的rFID和Top-1準確率僅作為中間指標,并不直接線性關聯于我們整個多模態框架的最終性能。接下來部分中展示的視覺理解和生成任務的性能更加重要。

**4.3 定量評估

視覺理解任務。表2和表3總結了我們的方法與其他領先的VLM在圖像-語言和視頻-語言基準上的對比。與CLIP等基礎模型生成的連續視覺標記相比,基于VQGAN的離散視覺標記與文本的對齊度較低,從而損害了VLM在視覺理解任務中的表現。通過我們的統一基礎視覺塔,即使使用離散視覺標記,我們的模型在性能上也接近領先的VLM。 視覺生成任務。如表4所示,VILA-U在視覺生成方面優于其他自回歸方法,并且在一些基于擴散的方法中具有可比的性能。該結果表明我們的方法在視覺生成方面的可行性。表5總結了我們的方法和其他視覺生成方法在GenAI-Bench上的定量結果。盡管我們的方法遜色于在數十億級別圖像-文本對上訓練的基于擴散的視覺生成方法,但在高級提示上,我們的方法與SD v2.1 [61] 和SD-XL [57] 的表現相當,甚至僅用量級較少的數據進行訓練。這進一步表明,VILA-U通過我們的統一訓練框架可以有效、高效地學習視覺和文本模態之間的相關性。

**4.4 定性評估

視覺理解。為了驗證VILA-U在綜合視覺理解任務中的有效性,我們在多個理解和推理任務中應用了該模型,部分示例如圖3和圖4所示。從結果中可以看到,VILA-U在各種任務(包括視覺描述和視覺問答)中的多樣性。此外,我們的模型繼承了一些來自VILA [45] 的重要能力,包括多圖像理解和上下文學習,如圖5和圖6所示。

視覺生成。我們在圖7中展示了一些使用VILA-U生成視覺內容的示例。可以看到,即使使用相對較小的數據集進行訓練,我們的模型可以同時用于圖像生成和視頻生成。在給定的示例中,我們的方法能夠根據用戶輸入生成好看的圖像和連續的視頻。

5. 結論

我們提出了VILA-U,這是一種新穎且統一的視覺語言模型,將視頻、圖像和語言的理解與生成任務整合到一個自回歸的下一個標記預測框架中。與大多數利用額外組件(如擴散模型)來統一視覺生成和理解的視覺語言模型(VLMs)相比,我們的方法不僅更加簡潔,而且還證明了自回歸方法可以在性能上與當前最先進的VLMs相媲美。我們取得成功的原因在于:首先,我們的統一基礎視覺塔在預訓練期間將離散的視覺特征與文本對齊;其次,我們使用了一個適用于視覺理解和生成訓練的高質量數據集。我們相信,VILA-U可以作為多樣化視覺語言任務的通用框架。

付費5元查看完整內容

相關內容

無監督多重圖學習 (UMGL) 旨在通過各種邊類型學習節點表示,而無需手動標注。然而,現有研究忽略了一個關鍵因素:圖結構的可靠性。現實世界的數據通常表現出復雜的特性,并且包含大量與任務無關的噪聲,嚴重影響了 UMGL 的性能。此外,現有方法主要依賴于對比學習來最大化不同圖之間的互信息,這使得它們僅限于處理多重圖的冗余場景,未能捕捉到視圖特有的任務相關信息。在本文中,我們專注于一個更具現實性和挑戰性的任務:無監督地從多個圖中學習一個融合圖,該圖能夠保留足夠的任務相關信息,同時去除任務無關的噪聲。具體而言,我們提出的信息感知無監督多重圖融合框架 (InfoMGF) 使用圖結構優化來消除無關噪聲,同時最大化視圖共享和視圖特有的任務相關信息,從而應對非冗余多重圖的前沿問題。理論分析進一步保證了 InfoMGF 的有效性。在不同下游任務上與多種基線方法的綜合實驗表明了其優越的性能和魯棒性。令人驚訝的是,我們的無監督方法甚至超過了復雜的監督方法。源碼和數據集可在 //github.com/zxlearningdeep/InfoMGF 獲取。

付費5元查看完整內容

零樣本學習(ZSL)通過進行視覺-語義交互來識別未見類別,將語義知識從已見類別傳遞到未見類別,這一過程得到了語義信息(例如,屬性)的支持。然而,現有的ZSL方法僅使用預訓練的網絡主干(即CNN或ViT)提取視覺特征,由于缺乏語義信息的指導,這些方法未能學習匹配的視覺-語義對應關系來表示與語義相關的視覺特征,導致視覺-語義交互不理想。為解決這一問題,我們提出了一個漸進式語義引導視覺變換器用于零樣本學習(簡稱ZSLViT)。ZSLViT主要考慮了整個網絡中的兩個屬性:一是顯式地發現與語義相關的視覺表征,二是丟棄與語義無關的視覺信息。具體來說,我們首先引入了語義嵌入的token學習,通過語義增強和語義引導的token注意力來改善視覺-語義對應關系,并顯式地發現與語義相關的視覺token。然后,我們融合低視覺-語義對應關系的視覺token以丟棄與語義無關的視覺信息,用于視覺增強。這兩種操作被整合到各種編碼器中,以便在ZSL中逐步學習與語義相關的視覺表征,以實現精確的視覺-語義交互。廣泛的實驗表明,我們的ZSLViT在三個流行的基準數據集上,即CUB、SUN和AWA2,取得了顯著的性能提升。

付費5元查看完整內容

隨著大型語言模型(LLMs)的成功,將視覺模型整合到LLMs中以構建視覺-語言基礎模型近來引起了更多的關注。然而,現有的基于LLM的大型多模態模型(例如,Video-LLaMA,VideoChat)只能處理有限數量的幀來理解短視頻。在這項研究中,我們主要關注設計一個高效且有效的模型用于長期視頻理解。我們提出一種在線處理視頻的方法,而不是像大多數現有工作那樣嘗試同時處理更多幀,并在內存庫中存儲過去的視頻信息。這使得我們的模型能夠參考歷史視頻內容進行長期分析,而不會超出LLMs的上下文長度限制或GPU內存限制。我們的內存庫可以以現成的方式無縫集成到當前的多模態LLMs中。我們在各種視頻理解任務上進行了廣泛的實驗,例如長視頻理解、視頻問題回答和視頻字幕制作,我們的模型在多個數據集上都能實現最先進的性能。

付費5元查看完整內容

受到自然語言處理(NLP)中通用模型成功的啟發,近期研究嘗試將不同的視覺任務統一到相同的序列格式中,并使用自回歸的Transformers進行序列預測。它們應用單向注意力來捕捉序列依賴性,并遞歸生成任務序列。然而,這樣的自回歸Transformers可能不適合視覺任務,因為視覺任務序列通常缺乏在自然語言中通常觀察到的序列依賴性。在這項工作中,我們設計了Masked AutoDecoder (MAD),一個有效的多任務視覺通用模型。MAD包含兩個核心設計。首先,我們開發了一個并行解碼框架,引入雙向注意力以全面捕捉上下文依賴性,并并行解碼視覺任務序列。其次,我們設計了一種遮蔽序列建模方法,通過遮蔽和重構任務序列來學習豐富的任務上下文。通過這種方式,MAD通過單一網絡分支和簡單的交叉熵損失處理所有任務,最小化任務特定設計。廣泛的實驗展示了MAD作為統一各種視覺任務新范式的巨大潛力。與自回歸對手相比,MAD實現了更優的性能和推理效率,同時與任務特定模型保持競爭力的準確率。代碼將在//github.com/hanqiu-hq/MAD 發布。

付費5元查看完整內容

序列到序列的視覺-語言模型展現出了前景,但由于其自回歸方式生成預測的方式,其應用受到了推理延遲的限制。我們提出了一種并行解碼的序列到序列視覺-語言模型,該模型采用Query-CTC損失進行訓練,可以在解碼器中對多個推理路徑進行邊際化處理。這允許我們模擬令牌的聯合分布,而不是像自回歸模型那樣限制于條件分布。結果模型,NARVL,在性能上與其最先進的自回歸對應模型相當,但在推理時間上更快,將與順序生成token相關的線性復雜度減少到常數時間的聯合推理范式。

自回歸的序列到序列Transformer模型是一種深度神經網絡架構,將一系列代表文本片段的令牌(每個令牌表示為一個向量)映射到另一個序列上,通常代表相同序列向前移動一個位置的情況。這樣的模型可以處理各種任務,其中輸入(查詢)文本可能是自然語言中的一個句子,輸出(目標)可能是不同語言中的相同句子(翻譯),或輸入表達的問題的答案(問答QA),實體或類的名稱等。Transformer架構的多功能和統一設計導致了全能(AIO)模型的發展,使得多種任務可以作為序列到序列翻譯問題來處理。

視覺-語言AIO模型,包括序列到序列的模型,已經成功地將多模態輸入(通常是圖像和文本字符串)映射到文本輸出,這些文本輸出編碼了可以表達為一串文本的任務,如視覺問答(VQA)、視覺定位(VG)、視覺蘊含(VE)和圖像字幕(IC)。這些自回歸序列到序列模型面臨推理成本問題,因為它們往往笨重且需要執行T次以生成長度為T的輸出序列。

在一些最新的視覺-語言AIO模型中提出了非自回歸方法,這些方法將序列到序列映射定義為一個二分匹配問題。這種方法在視覺信息是關鍵的任務中表現出色,如對象定位和檢測。然而,它在處理以語言為中心的任務,如視覺問答和圖像字幕,方面的效果較差。這種差異可能源于任務的性質:在對象檢測/定位中,令牌是無序的,每個令牌對應不同的對象或框,與句子中有序的令牌相比,對象間的相關性較弱,而句子中單詞間的相關性更強。因此,與語言導向的任務相比,集合到集合、順序獨立的翻譯方法更適合視覺任務。

主要假設:我們假設基于Transformer的架構可以利用輸入和輸出空間的同質性,同時使輸出空間更加靈活。特別是,我們對一次性聯合解碼序列,而不是逐步解碼的可能性感興趣。我們測試這樣的架構是否能夠在顯著降低推理成本的同時,達到與自回歸基線相當的性能。

為了測試這一假設,我們開發了一個新的視覺語言全能模型,將基于Transformer的自回歸一步預測模型轉變為目標令牌的聯合預測器,如第3節所述。在第4節中,我們展示了這樣一個模型,我們命名為NARVL,可以用于多個視覺-語言任務(視覺問答VQA、字幕、蘊含、定位)。如圖1所示,NARVL在性能上與最先進的自回歸模型相當,但在速度上有顯著優勢,范圍從1.4到12.7倍不等。

NARVL的實現通過重新利用自回歸Transformer模型的解碼器,并且模型有一層可學習的查詢令牌(LQT),這些令牌在推理時固定,在微調期間學習。NARVL通過Query-CTC(Q-CTC)損失啟用,這是CTC損失的一個變體,CTC損失用于音頻和語言,但從未應用于視覺領域,在這個領域,普通的經驗交叉熵損失(CE)相對于預測中的生成變異性被邊際化。而在語言領域,多個解碼假設源自編碼器的輸出,在視覺中這是限制的,因為輸入和輸出空間是異構的。因此,我們修改了CTC損失,使其不是相對于解碼路徑進行邊際化,而是相對于從順序可學習查詢令牌的順序索引到預測令牌的路徑進行邊際化。

因此,我們的關鍵貢獻可以總結如下:(i)我們提出了一個新的序列到序列非自回歸的全能視覺語言模型,該模型并行生成序列。(ii)我們引入Query-CTC損失來訓練這一架構,靈感來自于音頻識別和語言中使用的CTC損失,利用順序可學習查詢令牌生成多個生成路徑,并在普通交叉熵損失中對結果種群進行邊際化。我們展示了(iii)所得到的架構與多個視覺-語言任務中的最先進自回歸架構具有競爭力,且由于模型在推理時僅執行一次,而不是按照輸出層中的令牌數量順序執行多個步驟,因此大大減少了推理時間。

付費5元查看完整內容

但由于它們之間固有的差距,設計一個用于處理各種模態(例如自然語言、2D圖像、3D點云、音頻、視頻、時間序列、表格數據)的統一網絡仍然具有挑戰性。在這項工作中,我們提出了一個名為Meta-Transformer的框架,它利用一個固定的編碼器在沒有任何成對的多模態訓練數據的情況下執行多模態感知。在Meta-Transformer中,來自各種模態的原始輸入數據被映射到一個共享的令牌空間,允許一個具有固定參數的后續編碼器提取輸入數據的高級語義特征。Meta-Transformer由三個主要組件組成:一個統一的數據令牌化器、一個模態共享的編碼器和用于下游任務的任務特定頭部。Meta-Transformer是第一個能夠在12種模態上執行統一學習并使用非配對數據的框架。在不同基準上的實驗顯示,Meta-Transformer可以處理包括基本感知(文本、圖像、點云、音頻、視頻)、實際應用(X射線、紅外、超光譜和IMU)和數據挖掘(圖、表格和時間序列)在內的廣泛任務。Meta-Transformer為使用變換器開發統一的多模態智能展示了一個有前景的未來。代碼將在 //github.com/invictus717/MetaTransformer 上提供。

付費5元查看完整內容

利用基于Transformer的序列編碼器進行對比學習,在序列推薦方面取得了優勢。它最大化了共享相似語義的成對序列擴充之間的一致性。然而,現有的序列推薦對比學習方法主要以左右單向Transformer為基礎編碼器,由于用戶行為可能不是嚴格的從左到右的順序,因此對于序列推薦來說,這種方法不是最優的。為了解決這個問題,我們提出了一種新的框架,名為對比學習與雙向Transformer序列推薦(CBiT)。具體來說,我們首先在雙向Transformer中對長用戶序列應用滑動窗口技術,它允許對用戶序列進行更細粒度的劃分。然后我們結合完形填空任務掩碼和dropout掩碼生成高質量的正樣本,進行多對對比學習,與普通的一對對比學習相比,表現出更好的性能和適應性。此外,我們還引入了一種新的動態損失加權策略來平衡完形任務損失和對比任務損失。在三個公共基準數據集上的實驗結果表明,我們的模型在序列推薦方面優于最先進的模型。

//www.zhuanzhi.ai/paper/b6f7c83da0550bfea4e27ceaef3b0aed

付費5元查看完整內容

模型無關元學習(Model-agnostic meta learning, MAML)是目前小樣本元學習的主流方法之一。盡管MAML是有效的,但由于MAML固有的雙層問題結構,其優化具有挑戰性。具體而言,MAML的損失情況比經驗風險最小化方法復雜得多,可能包含更多的鞍點和局部最小化點。為了應對這一挑戰,我們利用最近發明的銳度感知最小化(sharp -aware minimization)方法,提出一種銳度感知的MAML方法(Sharp-MAML)。實驗結果表明,Sharp-MAML及其高效計算變體的性能優于現有主流的MAML基準(例如,在Mini-Imagenet上的準確率為+12%)。我們用收斂速度分析和Sharp-MAML的泛化界來補充實證研究。據我們所知,這是第一次在雙層學習背景下對銳度感知最小化問題進行實證和理論研究。代碼可以在//github.com/mominabbass/Sharp-MAML上找到。

付費5元查看完整內容

零樣本學習(Zero-shot learning, ZSL)解決了未見類別識別問題,將語義知識從顯性類別轉移到未見類別。通常,為了保證理想的知識轉移,在ZSL中使用一個公共(潛在)空間來關聯視覺域和語義域。然而,現有的空間學習方法僅僅通過一步適應來緩解分布的分歧,從而使語義和視覺領域保持一致。這種策略通常是無效的,因為這兩個領域的特征表示具有異質性的本質,本質上包含了分布和結構的變化。為了解決這一問題,我們提出了一種新的層次語義-視覺自適應(HSVA)框架。具體來說,HSVA通過兩步層次適應,即結構適應和分布適應,對語義域和視覺域進行對齊。在結構調整步驟中,我們采用兩個特定于任務的編碼器將源數據(視覺域)和目標數據(語義域)編碼到一個與結構對齊的公共空間中。為此,提出了一個監督對抗差異(supervised adversarial不符,SAD)模塊,以對抗最小化兩個任務特定分類器預測之間的差異,從而使視覺和語義特征流形更緊密地對齊。在分布自適應步驟中,我們直接最小化潛在的多元高斯分布之間的Wasserstein距離,使用公共編碼器對齊視覺分布和語義分布。最后,在一個統一的框架下推導了在兩個部分對齊的變分自編碼器下的結構和分布自適應。在四個基準數據集上的大量實驗表明,HSVA在傳統ZSL和廣義ZSL上都取得了優異的性能。代碼可在//github.com/shiming-chen/HSVA上獲得。

付費5元查看完整內容

現有的GNN解釋方法側重于解釋圖的節點或邊的重要性,但忽略了圖子結構。事實上子結構更直觀且容易被人理解。論文提出了一種通過識別重要的子圖來解釋GNNs 的方法,即 Subgraph X。給定一個經過訓練的GNN模型和一個輸入圖,Subgraph X 通過蒙特卡洛樹搜索有效地探索不同的子圖來解釋其預測。為了使樹搜索更加有效,論文提出使用 Shapley 值作為子圖重要性的衡量標準,這也可以捕捉到不同子圖之間的相互作用。為了加快計算速度,論文提出了高效的近似方案來計算圖數據的 Shapley 值。該論文是通過識別子圖來解釋 GNN 的第一次嘗試,實驗結果表明,Subgraph X 明顯改善了解釋結果,同時將計算量也相對合理。

先說說為啥要關注圖神經網絡的可解釋性?

現有的 GNN 模型大多被視為黑盒子,其預測結果缺乏可解釋性。如果不理解和推理預測背后的關系,這些模型就不能被人們理解信任,阻礙了它們在關鍵領域的應用,因此研究深度圖模型的可解釋性十分必要。

本文的提出的解釋方法的獨特性在于?

很多文獻在研究圖像和文本上的深度模型的解釋技術方面做了工作,這些方法可以通過不同的策略解釋網絡行為和特定輸入的預測結果。然而,GNN 的可解釋性仍未得到充分的探索。與圖像和文本不同,圖數據不是網格狀的數據,它包含重要的結構信息。因此,圖像和文本領域的方法不能直接應用。目前存在的GNN 解釋方法,如 GNNExplainer、PGExplainer 和 PGM-Explainer,但它都是關注節點、邊或節點特征層面的可解釋性,沒有進行子圖層面的可解釋性研究。本文認為子圖層面的解釋更加直觀和有用,因為子圖是復雜圖的簡單構件,與圖的功能高度相關。

付費5元查看完整內容
北京阿比特科技有限公司