亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,在計算攝影、虛擬現實、游戲和電影產業等領域,對視覺內容(如2D圖像和多幀視頻)的需求不斷增長。為了滿足這些需求,研究者們提出了多種生成模型,包括VQVAE、GAN和擴散模型(Diffusion Models),以促進從噪聲或文本生成視覺內容。然而,如何將這些模型應用于更實際的圖像到圖像生成任務(也稱為圖像處理與編輯)仍然是一個開放的挑戰。本論文探討了基于生成模型的圖像編輯范式,重點關注來自大規模預訓練的基礎模型。 我們首先探索了實時圖像縮放技術。現代相機拍攝的圖像可以達到6K分辨率,但這些圖像占用的存儲空間過大。為此,我們提出了一種量化自編碼器,通過優化熵損失將大型6K圖像壓縮為JPEG縮略圖,從而減小文件大小。隨后,一個高效的解碼器可以實時將低分辨率縮略圖還原為高分辨率圖像。 接著,我們轉向文本驅動的圖像修復技術。相機運動、數字電路噪聲以及惡劣天氣(如雨和霧)可能會降低攝影師拍攝的圖像質量。我們提出了一種基于擴散模型的圖像修復方法,該方法通過語義和修復指令進行引導。為了以較低的訓練成本實現這種多模態應用,我們使用合成退化圖像對預訓練的潛在擴散模型進行適配器微調。 最后,我們討論了文本驅動的視頻編輯方法。除了圖像層面的計算攝影外,創意特效也廣泛應用于游戲、電影和短視頻應用中。這些特效通常需要時間運動一致性和語義層面的編輯,例如身份和風格。由于目前沒有魯棒且開源的視頻生成模型可用,我們專注于以零樣本方式利用文本到圖像的潛在擴散模型。具體來說,我們將圖像生成模型轉換為視頻模型,并在DDIM反演過程中提取擴散Unet中的時空注意力圖,作為運動和幾何表示。然后,在DDIM去噪過程中,根據目標提示重新使用這些注意力圖。我們簡潔的框架能夠在保持顯著時間一致性的同時,實現形狀、屬性和全局風格的編輯。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。

在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。

本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。

付費5元查看完整內容

視覺生成模型,尤其是擴散模型,在高質量視覺生成方面展示了令人驚嘆的性能,越來越受到學術界和工業界的關注。代表性模型或工具,如DALLE-3 [1] 和 MidJourney,已經廣泛應用于日常生活,幫助創作藝術作品或圖片。然而,這些強大的工具也帶來了潛在風險,因為它們可能被惡意使用來生成并傳播不安全的內容,如色情和暴力圖片,可能導致嚴重后果。在本文中,我們討論了如何從不同方面使視覺生成模型更加可靠和可控。特別地,我們重點關注擴散模型,因為它們是目前最廣泛使用的視覺生成模型。 首先,我們揭示了擴散模型中存在的潛在風險,表明在訓練過程中,它們可能容易被插入(惡意的)隱形后門,這可能導致不可靠和有害的行為。為此,我們提出了一種新的雙層優化框架來表述訓練過程,可以通過提出的不同算法實例化,分別用于無條件和條件擴散模型。大量實驗表明,后門可以在不影響模型正常性能的情況下有效插入,從而使后門更加隱蔽和穩健。同時,我們實證發現,目前各種防御方法無法緩解提出的隱形后門,增強了該方法在實際應用中的可用性。此外,所提出的隱形后門還可以直接應用于模型水印,用于在黑盒環境中進行模型所有權驗證,進一步增強了該框架的意義。 接下來,我們重點討論文本到圖像的擴散模型的可控生成。我們介紹了MuLan,一種多模態大語言模型(Multimodal-LLM)代理,它可以根據文本提示逐步生成對象。MuLan首先將提示分解為幾個子提示,每個子提示專注于一個對象。每個對象的生成都依賴于先前生成的對象。通過一個視覺語言模型(VLM)檢查器,MuLan可以及時監控生成過程,并在每個生成階段后自適應地修正可能的錯誤。MuLan大大提升了在文本提示中對象屬性和空間關系的生成性能。通過GPT-4V [2] 和人類的評估,大量實驗表明MuLan的卓越性能。此外,我們展示了MuLan可以在生成過程中啟用人機交互,進一步增強生成過程的靈活性和效果。 //lbezone.hkust.edu.hk/bib/9903412#

付費5元查看完整內容

生成模型近年來在二維和視頻合成領域取得了顯著進展。然而,二維和視頻生成中仍然存在明顯的不一致性,例如光照和幾何相關的問題。引入三維建模有望增強二維和視頻生成的連貫性與真實感,從而推動三維生成技術的進一步發展。鑒于直接用于生成建模的大量三維數據收集存在挑戰,從單視圖圖像學習三維分布成為一種可行的三維生成方法。這種方法得益于大量可用的非結構化、高質量且多樣化的單視圖圖像數據。一種常見的從單視圖圖像生成三維內容的策略是采用生成對抗網絡(GAN),并用三維渲染器替代生成器。本論文從四個角度探討了三維生成領域。首先,我們研究生成的幾何形狀,并提出通過將三維感知注入到生成器和判別器中來增強學習到的幾何結構。其次,我們分析了三維生成模型訓練中對姿態的要求,并解除生成器對姿態先驗的限制,從而實現更靈活的三維生成模型。第三,在復雜場景合成的背景下,我們分析了現有方法的不足,并提出利用三維先驗來促進從單視圖場景圖像進行三維建模。第四,我們還將討論高效三維生成表示的引入,特別是高斯散點表示(Gaussian Splatting)。最后,我們展望了三維生成領域的未來發展方向。深度學習的快速發展[21]顯著推動了計算機視覺領域中的許多任務,例如視覺對象識別[22, 23]、目標檢測[24, 25, 26]、圖像渲染[27, 28, 1]等,并在諸多方面便利了我們的日常生活,如自動駕駛[29, 30]、生物研究[31]和智能創作[32, 33]。在所有技術類型中,生成建模[34, 35, 36]在數據分析和機器學習中發揮了重要作用。與直接對輸入進行預測的判別模型不同,生成模型旨在再現數據分布,以便能夠從中采樣新的實例。為此目的,它們需要全面地表征數據。例如,檢測模型可以忽略與任務無關的信息(如顏色)而不影響性能,但生成模型需要管理圖像的每個細節(如物體排列以及每個物體的紋理)以實現令人滿意的生成。從這一角度來看,學習生成模型通常更具挑戰性,但同時也促進了一系列應用[37, 38, 39, 33]。近年來,深度生成模型[35, 34, 36]在二維圖像合成[33, 40, 41]方面取得了令人難以置信的成功。然而,在二維空間中學習生成模型已逐漸難以滿足某些現實世界應用的需求,因為我們的物理世界實際上是三維的。以電影行業為例,我們期望設計三維數字資產,而不僅僅是生成二維圖像,以帶來身臨其境的體驗。現有的內容創作流程通常需要大量專業知識和人力投入,這既耗時又昂貴。許多開創性的嘗試[42, 43, 44, 45, 2, 46]旨在研究如何自動生成三維數據,但這類研究仍處于早期階段。二維生成和三維生成之間的關鍵區別之一在于數據格式。具體而言,二維圖像可以自然地表示為像素值的數組,便于神經網絡[22, 23]處理。而常見的三維表示形式(如點云[47, 48]、網格[49, 50]和體素網格[51, 52])則難以直接被卷積神經網絡處理。最近,隱式表示形式Neural Radiance Field(NeRF)[1]被提出用于通過學習從坐標到三維屬性的映射來建模三維對象,成為與神經網絡兼容的良好表示形式。最新研究[2, 6, 53, 3, 46, 54, 55, 45, 56, 4, 57]通過將NeRF與生成對抗網絡(GAN)[34]結合,使三維生成成為可能,從而發展出一種三維感知的GAN。具體而言,它們用三維渲染器替代GAN中的生成器。這種替換使得在生成圖像時可以顯式地控制視點,從而得益于生成器的三維感知能力。三維生成的難點還來源于訓練數據的獲取。在理想情況下,高質量三維資產的全面集合對于準確的生成建模至關重要。然而,使用設備大規模獲取此類數據極其困難。一種引人注目的方法是探索從二維生成數據集中轉移知識的潛力。一種可行的方法是利用二維單視圖圖像數據集學習三維表示。每個三維對象通常對應多個從不同視點拍攝的相似圖像,具有類似的結構。例如,在數據集中可能僅有不超過兩張同一人臉的圖像。鑒于人臉的共同結構特性,從不同角度拍攝的多樣化圖像中提取通用人臉特征是可行的。這使得模型能夠想象每個人臉的未見視圖。通過這種方式,可以探索如何從二維單視圖圖像集合中學習三維生成。構建高效三維生成器需考慮以下幾個關鍵因素:

  1. 高質量圖像生成能力:生成器必須能夠生成高分辨率、高保真且真實感強的圖像,包括光照、陰影和紋理的真實性。與二維生成相比,三維生成任務中的“高質量圖像”還意味著多視圖一致性,即不同視圖圖像的重疊區域應表示相同的物體并具有一致的紋理。
  2. 高質量的幾何基礎:生成的幾何形狀應合理且精確。這是一個挑戰性任務,因為訓練數據不僅是單視圖的,而且是圖像格式。因此,生成器需采用先進的幾何建模技術,確保表面光滑、比例真實,并在場景中保持一致的幾何結構。此外,它還應能生成復雜的結構,如精細的建筑結構。
  3. 輕松利用易得數據的能力:模型應能有效利用易收集的數據集,而不需要大量的預處理或專門的數據采集。例如,大多數三維生成方法[2, 6]要求對收集數據進行精確的姿態標注,這非常昂貴。去除這種數據要求是必要的,以使三維生成模型能夠泛化到任意類別的數據。
  4. 復雜場景生成的能力:三維世界由不同的物體組成,生成器需不僅能生成單一物體,還能捕獲場景中物體之間復雜的關系。由于場景中定義一個標準化空間非常困難,更可行的方法是借助附加的弱三維提示(如深度信息)來確保在只有單視圖圖像數據的情況下實現高質量場景生成。
  5. 高效的訓練與推理:許多三維生成模型通常需要約5至7天在8個高端GPU上進行訓練才能有效收斂,這導致了相當大的能源浪費。因此,提高模型效率至關重要。這需要仔細設計網絡結構和三維表示形式,因為這些要素在優化計算資源和減少訓練時間方面起著關鍵作用。 本文余下部分將討論如何實現這些目標,具體組織如下:第二章介紹三維生成的基礎知識,包括生成對抗網絡的公式和三維生成的表示形式,同時討論相關工作及三維生成任務中的挑戰。第三章分析當前最流行的三維生成方法的問題,并探討如何在三維生成模型中保證良好的幾何基礎。第四章研究大多數三維生成方法對姿態標注的依賴性問題,并提出一種新方法以擺脫此類先驗需求,從而支持從易得數據中學習的概念。第五章指出復雜場景生成的問題,并提出一種新架構以促進真實場景生成。第六章聚焦于高效且可動畫的三維生成。最后,第七章討論了三維生成模型領域中未解決的問題及未來工作方向。
付費5元查看完整內容

3D 感知在自動駕駛領域中起著至關重要的作用。基于視覺的 3D 感知方法依賴于僅使用相機輸入來重建 3D 環境,隨著深度學習技術的普及,這些方法取得了顯著進展。盡管取得了這些突破,現有的框架仍面臨性能瓶頸,并且通常需要大量的激光雷達(LiDAR)標注數據,這限制了它們在不同自動駕駛平臺上大規模應用的實際可行性。 本論文對基于視覺的 3D 感知技術的發展作出了多方面的貢獻。在第一部分,論文介紹了對單目和立體 3D 物體檢測算法的結構性改進。通過將地面參考幾何先驗信息融入單目檢測模型,本研究在單目 3D 檢測的基準評估中取得了前所未有的精度。與此同時,本文通過將單目網絡中的見解和推理結構融入立體 3D 檢測模型,進一步優化了立體檢測系統的操作效率。 第二部分專注于基于數據驅動的策略及其在 3D 視覺檢測中的實際應用。論文提出了一種新穎的訓練方案,結合了帶有 2D 或 3D 標簽的多種數據集。這種方法不僅通過使用大規模擴展的數據集增強了檢測模型,還在實際場景中通過利用僅具有 2D 注釋的數據集,使得模型部署更加經濟。 最后,論文展示了一個創新的管道,旨在實現自動駕駛場景中的無監督深度估計。大量的實證分析驗證了該新提出管道的魯棒性和有效性。綜合來看,這些貢獻為基于視覺的 3D 感知技術在自動駕駛應用中的廣泛采用奠定了堅實的基礎。

付費5元查看完整內容

隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。

付費5元查看完整內容

衛星影像的廣泛可用性,例如在Google Earth等平臺上的應用,極大地增強了人們繪制和可視化地球表面的能力。盡管衛星影像具有廣覆蓋性和易獲取性,但其分辨率通常有限,缺乏探索感興趣環境(尤其是城市區域)所需的細節。街景圖像則在場景理解方面提供了重要的洞察力和實用性,從城市規劃到戶外導航,再到增強現實的多種應用都受益于街景圖像。然而,獲取街景圖像成本高昂,并且需要頻繁更新以保持準確性。相比之下,衛星影像更易獲取且無處不在,因此成為生成街景圖像的有前景替代方案。這一過程被稱為衛星到地面跨視圖合成(satellite-to-ground cross-view synthesis),因其廣泛的實際應用前景而受到廣泛關注。 從衛星圖像直接生成地面視圖需要克服顯著的技術挑戰,這主要是由于兩類圖像在視角和尺度上的巨大差異。本研究探討了創新方法,旨在生成幾何上一致且符合對應衛星圖像的3D城市場景和街景圖像,同時在不同視角之間保持強魯棒的多視圖一致性,并提升跨視圖合成和大規模3D城市場景的質量和真實感。 為實現這一目標,我們首先在生成管線中引入了一種地理變換層(geo-transformation layer)。該層通過估算的地面高度值構建密集體素網格,并將信息從俯視圖轉換為街景視圖,從而保留了物理的衛星到地面的關系,解決了幾何一致性問題。接著,通過在幾何中計算3D場景點云與幀像素之間的密集映射,我們提出了一種考慮點間空間關系的3D稀疏生成器,解決了在生成圖像序列時的多視圖一致性問題。此外,在隱式輻射場(implicit radiance field)爆炸性應用的背景下,我們進一步探索了神經場景表示在有限部分觀測下完成3D場景的潛在生成能力。我們提出了一種基于稀疏網格表示的可擴展新視圖合成管線,可以為大量不完整的場景數據填充合理的信息。

最后,我們不再僅局限于圖像或視頻生成,而是進一步提升到整個大規模場景的生成。我們的方法將擴散模型引入3D稀疏表示中,用于直接生成3D場景,并結合基于點的神經渲染技術,從任意視角生成一致且合理的圖像或視頻。

通過利用生成模型和神經渲染技術的最新進展,我們旨在提升場景級生成能力,彌合通過衛星圖像生成一致地面視圖的鴻溝,并釋放其在虛擬建模、地圖服務、3D城市設計、游戲、仿真以及跨視圖匹配等多樣化應用中的巨大潛力。本研究希望挖掘衛星影像的全部潛能,為理解我們所處的世界及其環境提供更深刻的洞察力。

付費5元查看完整內容

在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。

本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。

總結來說,本論文的主要貢獻如下:

  • 我們提出了一種干預性視頻關系檢測方法,稱為IVRD,旨在解決VidVRD中關系的長尾不平衡問題。盡管尾部關系具有信息性,但由于其在數據集中稀少,難以預測。我們特別提出了一套分層的關系原型,這迫使關系推理模塊關注實體之間動態交互的視覺內容,而非依賴于對象與關系標簽之間的偽相關性。通過引入因果推理,IVRD為改善長尾不平衡情況下的視頻理解提供了一個有前景的方向,使模型能夠更好地泛化到現實世界場景中,特別是在稀有或不常見的關系在場景理解中扮演關鍵角色時。
  • 我們引入了一種視頻問答中的不變性定位方法,稱為IGV,這是一種與模型無關的學習框架,旨在解決由答案-環境之間的偽相關性帶來的負面影響。IGV通過定位問題關鍵的(因果)場景,發現因果推理模式。具體而言,IGV利用了因果場景與答案之間的關系在環境變化時仍保持不變這一事實,并且去除因果場景應導致問題回答失敗。通過定位這些關鍵場景,IGV使VideoQA模型能夠專注于準確推理所需的視覺內容,同時避免環境負面的影響,從而顯著提升了模型的推理能力。
  • 我們提出了視頻問答中的等變性定位方法EIGV,進一步增強了魯棒性和視覺可解釋性。基于IGV,EIGV還引入了等變性,促使回答過程對因果場景和問題中的語義變化更為敏感。相較之下,不變性定位要求回答過程對環境場景的變化不敏感。這兩種正則化機制協同工作,區分因果場景與環境場景,并通過呈現視覺-語言對齊提供更多的透明性。通過結合不變性和等變性定位的優勢,EIGV創建了一個更加魯棒且可解釋的VideoQA框架。
  • 我們發現了視頻問答中的時空推理,解決了長視頻和多對象樣本(即復雜視頻問答)上的低準確性問題。現有的VideoQA實踐(包括預訓練模型如SeVila [162])大多是在短視頻片段(約15秒)和少數實體(約2個)上進行訓練的,因此在復雜視頻(超過80秒且包含5個以上對象)上表現較差。原因在于長視頻不可避免地引入大量冗余和偽相關性,因為許多與問題無關的環境對象存在。為應對這一挑戰,我們首先強調建模問題關鍵的時間片段和空間對象的重要性,接著提出了時空推理(Spatio-Temporal Rationalization, STR)方法,通過可微選擇模塊自適應地收集問題關鍵的時間片段和對象,并通過跨模態交互進行推理。結合更合理的候選答案解碼策略,STR有效識別出與問題無關的幀和對象作為因果模式,尤其在復雜場景下顯著改善了預測性能。

本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。

總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。

付費5元查看完整內容

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

圖像和視頻生成的目的是從隨機噪聲或基于特定條件合成高保真度的視覺數據。尤其是生成對抗網絡(GANs)的最新進展,在各種圖像和視頻生成任務中取得了顯著的成功,展現了深度神經網絡捕捉視覺數據的高維分布的強大能力。這方面的進展顯著推動了生成人工智能(AI)的發展,受到了廣泛的公眾關注。盡管在圖像和視頻合成方面取得了巨大的成功,但仍存在一些問題需要仔細探索。本論文旨在找出這一領域的剩余挑戰,并通過先進的深度學習技術提出解決方案。這構成了四個主要研究內容。

數據是深度學習的本質。對于圖像和視頻生成及其下游應用而言,高質量的數據集是非常可取的。此外,研究人員通常非常關注提高生成質量,卻忽略了對由生成數據引起的問題(如“Deepfakes”)的防范。與其他研究不同,本論文的第一項嘗試是構建一個有用的面部視頻數據集,以促進后續研究,并通過設計更好的視頻操縱方法來防止生成數據的負面影響。介紹了DeeperForensics-1.0,這是一個用于現實世界面部偽造檢測的大規模視頻數據集。正在進行的努力是應對“Deepfakes”,它引發了合法的擔憂,尤其是在可能被濫用和誤用方面。它代表了同類中最廣泛的數據集之一,由總共1760萬幀構成的60,000個視頻組成。應用了廣泛的現實世界擾動,以獲得更具挑戰性、規模更大、多樣性更高的基準。DeeperForensics-1.0中的所有源視頻都是精心收集的,假視頻是由新提出的端到端面部交換框架生成的。生成視頻的質量超過了現有數據集中的視頻,經用戶研究驗證。基準特點是一個隱藏的測試集,其中包含高欺騙性分數的操縱視頻。進行了全面研究,評估了五個代表性的檢測基線,并對不同設置進行了徹底的分析。這項工作驗證了設計更好的視頻操縱方法可以協助面部取證。

在確保了潛在的對策之后,興趣轉移到提出一個對各種生成任務幾乎沒有質量犧牲的統一框架,這對現實世界應用具有很高的實用價值。鑒于不同任務的不同性質,實現這一目標并非易事。因此,之前的研究通常針對特定形式的應用開發定制模塊。本論文設計了一個簡潔但容易適應各種任務的雙流圖像到圖像轉換(TSIT)框架。論文揭示了規范化層的重要性,并精心設計了一個帶有新提出的特征變換的雙流生成模型,以粗到細的方式。這允許網絡有效捕獲和融合多尺度語義結構信息和風格表達,使TSIT能夠適應無監督和監督設置下的各種任務。不需要額外的約束(例如,循環一致性),從而貢獻了一種非常干凈簡單的方法。使得具有任意風格控制的多模態圖像合成成為可能。系統研究將TSIT與最先進的任務特定基線進行了比較,驗證了其在感知質量和量化評估中的有效性。

除了圖像和視頻生成的實踐角度上的進展外,本論文進一步希望通過更基礎和理論的研究解決剩余問題。本論文的第三項工作是焦頻損失(FFL),這是一種新穎的頻率級損失函數,直接在頻率域優化生成模型。該損失與不同類別、網絡結構和任務的多樣化基線的現有空間損失相輔相成。盡管得益于生成模型的發展,圖像重建和合成取得了顯著的成功,但在真實和生成圖像之間,尤其是在頻率域,仍可能存在差距。論文表明,縮小頻率域中的差距可以進一步提高圖像重建和合成質量。所提出的FFL允許模型適應性地關注難以合成的頻率分量,降低容易合成的分量的權重。這一目標函數為抵抗神經網絡固有偏見導致的重要頻率信息丟失提供了很大的阻力。論文證明了FFL在提高VAE、pix2pix和SPADE等流行模型的感知質量和量化性能方面的多功能性和有效性。其在StyleGAN2上的潛力進一步展示。

通過實踐和理論方面的努力,已經嘗試提高合成數據的保真度和多樣性。然而,當前的生成模型,如GANs,通常需要大量的訓練數據才能充分發揮其能力,而有時收集足夠的數據樣本是不可行的。在保留合成質量的同時,使用較少的數據訓練生成模型仍然未被充分探索。論文進一步介紹了適應性偽增強(APA),這是一種用于有限數據下GAN訓練的簡單而有效的策略。最近的研究表明,由于鑒別器過擬合,這是阻礙生成器收斂的根本原因,因此在有限數據下訓練GANs仍然是一項艱巨的任務。所引入的APA通過使用生成器本身來增強真實數據分布,用生成的圖像適應性地欺騙鑒別器,鼓勵生成器和鑒別器之間的健康競爭。作為一種替代依賴于標準數據增強或模型規范化的現有方法,APA通過減輕過擬合來提高訓練效果。廣泛的實驗展示了APA在低數據環境下的有效性。提供了理論分析,以檢驗這種新訓練策略的收斂性和合理性。APA簡單有效。它可以無縫添加到強大的當代GANs,如StyleGAN2,且計算成本可忽略不計。

這篇論文最后還討論了其他相關話題,并展望了圖像和視頻生成領域的潛在未來工作,例如視頻生成的更高級話題、現有和未來對新型強大擴散模型(DM)的努力,為這一研究領域提供了更多見解。

付費5元查看完整內容
北京阿比特科技有限公司