隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。
計算機視覺領域的一個根本挑戰在于準確建模/表征圖像分布。例如,在高級視覺任務中,潛在空間中更好的圖像表示可以顯著增強下游任務(如圖像分類和分割)的性能。同樣,在圖像恢復中,更準確的干凈圖像分布模型(以退化圖像為條件)可以產生具有更好感知質量的結果。然而,由于圖像及其潛在代碼的高維度性,建模這些分布極具挑戰性。
在相對平行的研究方向上,深度生成模型取得了顯著進展,旨在隱式或顯式地建模圖像分布。這些模型為處理復雜分布提供了強大的工具。然而,由于不同的領域先驗和任務公式,直接應用這些模型并不可行,且會導致次優性能。如何無縫且有效地將生成模型集成到圖像恢復和表示任務中,并結合任務特定的先驗知識,仍然是一個有待進一步探索的開放領域。
本論文重點探索深度生成模型在圖像恢復和表示任務中的潛力,涵蓋從高級視覺任務(如圖像分類)到低級視覺任務(如圖像壓縮和恢復)。首先,針對圖像分類任務,我們引入了一種新穎的變分推理框架,以獲得具有增強泛化能力的潛在表示。我們使用生成對抗網絡隱式建模給定潛在代碼的圖像后驗分布,以從提供的訓練數據中解耦領域不變特征。隨后,我們探索了顯式建模后驗分布的可能性。利用歸一化流(Normalizing Flow)的能力——一種能夠獲得給定樣本確切似然的生成模型——我們將其應用于低光圖像增強(LLIE)任務,并考慮其歸納偏差。盡管基于流的模型取得了有希望的結果,但其性能受到歸一化流設計中的固有限制的約束。因此,我們深入研究了將LLIE任務的原始圖像空間先驗知識無縫集成到擴散框架中,以克服模型設計中的局限性。盡管我們的基于擴散的解決方案取得了有希望的結果,但它仍存在兩個主要局限性:首先,盡管在原始空間中增強具有獨特優勢,但原始圖像的顯著存儲開銷限制了其應用。因此,在接下來的兩項工作中,我們探索了通過準確建模圖像的潛在分布并利用自回歸模型的能力來進一步提高編碼效率的聯合壓縮方法。其次,盡管所提出的工作將推理路徑從數十或數百步縮短到僅三步(與常用的擴散模型相比),但仍需要迭代評估并導致推理開銷。在最后一項工作中,我們提出了一種加速策略,結合蒸餾策略和一種新穎的自一致性損失。我們在超分辨率任務中僅通過一步推理實現了最先進的性能,其中條件分布相對更復雜。 總的來說,本論文做出了三項主要貢獻。首先,我們展示了基于生成的圖像恢復和表示方法的有效性和獨特優勢。其次,我們提出了多種方法,將深度生成模型的能力與圖像恢復和表示任務的領域知識無縫結合。為了驗證這些方法的有效性,我們在多個數據集上進行了廣泛的實驗。實驗結果明確表明,我們的方法優于之前的最先進模型。本論文提出的努力和成就不僅強調了圖像恢復和表示技術的實際能力,還為未來的研究和行業應用提供了基礎支持。
近年來,在計算攝影、虛擬現實、游戲和電影產業等領域,對視覺內容(如2D圖像和多幀視頻)的需求不斷增長。為了滿足這些需求,研究者們提出了多種生成模型,包括VQVAE、GAN和擴散模型(Diffusion Models),以促進從噪聲或文本生成視覺內容。然而,如何將這些模型應用于更實際的圖像到圖像生成任務(也稱為圖像處理與編輯)仍然是一個開放的挑戰。本論文探討了基于生成模型的圖像編輯范式,重點關注來自大規模預訓練的基礎模型。 我們首先探索了實時圖像縮放技術。現代相機拍攝的圖像可以達到6K分辨率,但這些圖像占用的存儲空間過大。為此,我們提出了一種量化自編碼器,通過優化熵損失將大型6K圖像壓縮為JPEG縮略圖,從而減小文件大小。隨后,一個高效的解碼器可以實時將低分辨率縮略圖還原為高分辨率圖像。 接著,我們轉向文本驅動的圖像修復技術。相機運動、數字電路噪聲以及惡劣天氣(如雨和霧)可能會降低攝影師拍攝的圖像質量。我們提出了一種基于擴散模型的圖像修復方法,該方法通過語義和修復指令進行引導。為了以較低的訓練成本實現這種多模態應用,我們使用合成退化圖像對預訓練的潛在擴散模型進行適配器微調。 最后,我們討論了文本驅動的視頻編輯方法。除了圖像層面的計算攝影外,創意特效也廣泛應用于游戲、電影和短視頻應用中。這些特效通常需要時間運動一致性和語義層面的編輯,例如身份和風格。由于目前沒有魯棒且開源的視頻生成模型可用,我們專注于以零樣本方式利用文本到圖像的潛在擴散模型。具體來說,我們將圖像生成模型轉換為視頻模型,并在DDIM反演過程中提取擴散Unet中的時空注意力圖,作為運動和幾何表示。然后,在DDIM去噪過程中,根據目標提示重新使用這些注意力圖。我們簡潔的框架能夠在保持顯著時間一致性的同時,實現形狀、屬性和全局風格的編輯。
衛星影像的廣泛可用性,例如在Google Earth等平臺上的應用,極大地增強了人們繪制和可視化地球表面的能力。盡管衛星影像具有廣覆蓋性和易獲取性,但其分辨率通常有限,缺乏探索感興趣環境(尤其是城市區域)所需的細節。街景圖像則在場景理解方面提供了重要的洞察力和實用性,從城市規劃到戶外導航,再到增強現實的多種應用都受益于街景圖像。然而,獲取街景圖像成本高昂,并且需要頻繁更新以保持準確性。相比之下,衛星影像更易獲取且無處不在,因此成為生成街景圖像的有前景替代方案。這一過程被稱為衛星到地面跨視圖合成(satellite-to-ground cross-view synthesis),因其廣泛的實際應用前景而受到廣泛關注。 從衛星圖像直接生成地面視圖需要克服顯著的技術挑戰,這主要是由于兩類圖像在視角和尺度上的巨大差異。本研究探討了創新方法,旨在生成幾何上一致且符合對應衛星圖像的3D城市場景和街景圖像,同時在不同視角之間保持強魯棒的多視圖一致性,并提升跨視圖合成和大規模3D城市場景的質量和真實感。 為實現這一目標,我們首先在生成管線中引入了一種地理變換層(geo-transformation layer)。該層通過估算的地面高度值構建密集體素網格,并將信息從俯視圖轉換為街景視圖,從而保留了物理的衛星到地面的關系,解決了幾何一致性問題。接著,通過在幾何中計算3D場景點云與幀像素之間的密集映射,我們提出了一種考慮點間空間關系的3D稀疏生成器,解決了在生成圖像序列時的多視圖一致性問題。此外,在隱式輻射場(implicit radiance field)爆炸性應用的背景下,我們進一步探索了神經場景表示在有限部分觀測下完成3D場景的潛在生成能力。我們提出了一種基于稀疏網格表示的可擴展新視圖合成管線,可以為大量不完整的場景數據填充合理的信息。
最后,我們不再僅局限于圖像或視頻生成,而是進一步提升到整個大規模場景的生成。我們的方法將擴散模型引入3D稀疏表示中,用于直接生成3D場景,并結合基于點的神經渲染技術,從任意視角生成一致且合理的圖像或視頻。
通過利用生成模型和神經渲染技術的最新進展,我們旨在提升場景級生成能力,彌合通過衛星圖像生成一致地面視圖的鴻溝,并釋放其在虛擬建模、地圖服務、3D城市設計、游戲、仿真以及跨視圖匹配等多樣化應用中的巨大潛力。本研究希望挖掘衛星影像的全部潛能,為理解我們所處的世界及其環境提供更深刻的洞察力。
理解圖像內容是許多應用的重要組成部分,例如自動駕駛、增強現實、機器人、醫學影像和遙感。隨著深度神經網絡的突破,語義圖像理解在過去幾年中取得了顯著進展。然而,神經網絡需要大量標注數據才能進行適當訓練。由于大規模真實世界數據集的標注成本高昂,網絡可以在具有現成或較低成本標注的數據集(如自動標注的合成數據)上進行訓練。然而,神經網絡通常對領域偏移(domain shifts)敏感,因此在與訓練數據不同的領域中表現較差。因此,無監督領域適應(UDA)和領域泛化(DG)方法的目標是使在源域(例如合成數據)上訓練的模型在未標注或甚至未見過的目標域(例如真實世界數據)上表現良好。
大多數UDA/DG研究專注于設計適應和泛化技術以克服領域偏移的問題。然而,學習框架中其他方面對領域魯棒性的影響大多被忽視。因此,我們從更全面的角度研究領域魯棒性,探討不同學習框架方面對UDA和DG的影響,包括網絡架構、通用訓練方案、圖像分辨率、裁剪大小和上下文信息。特別是,我們解決了現有DG和UDA方法中的以下問題:(1) 我們研究了最新架構對領域魯棒語義/全景分割的影響,并設計了一種專為領域泛化和領域適應分割量身定制的網絡架構,而不是依賴過時的分割架構來評估DG/UDA策略。(2) 為了避免對源域的過擬合,我們提出了保持先驗知識的通用訓練策略。(3) 為了在DG/UDA增加的GPU內存消耗下實現精細的分割細節,我們提出了一個領域魯棒且內存高效的多分辨率訓練框架。(4) 為了解決目標域的局部外觀歧義,我們提出了一種增強空間上下文關系學習的方法。以下段落詳細介紹了這些貢獻。
由于之前的UDA和DG語義分割方法大多基于過時的DeepLabV2網絡和ResNet骨干網絡,我們對較新的架構進行了基準測試,揭示了Transformer的潛力,并設計了DAFormer網絡架構,專為UDA和DG量身定制。它由分層Transformer編碼器和多級上下文感知特征融合解碼器組成。DAFormer網絡通過三種簡單但至關重要的訓練策略來穩定訓練并避免對源域的過擬合:在源域上進行稀有類采樣,通過緩解自訓練對常見類別的確認偏差,改善偽標簽的質量;Thing-Class ImageNet特征距離和學習率預熱有助于從ImageNet預訓練中轉移特征。通過這些技術,DAFormer在UDA和DG中實現了顯著的性能提升,甚至能夠學習像火車、公交車和卡車等難以分類的類別。
此外,我們研究了全景分割的主要架構設計及其UDA能力。我們表明,之前的全景UDA方法在設計上做出了次優選擇。基于這些發現,我們提出了EDAPS,一種特別為領域適應全景分割設計的網絡架構。它使用一個共享的領域魯棒Transformer編碼器,以促進語義和實例特征的聯合適應,同時針對領域適應語義分割和實例分割的具體需求設計了任務特定解碼器。
雖然DAFormer和EDAPS能夠更好地區分不同的類別,但我們觀察到它們缺乏精細的分割細節。我們將其歸因于使用了下采樣的圖像,導致了低分辨率的預測。然而,直接使用全分辨率圖像在UDA/DG中由于其較高的GPU內存消耗而不可行。使用高分辨率圖像的隨機裁剪進行訓練雖然緩解了這一問題,但在捕捉長程、領域魯棒的上下文信息方面表現不足。因此,我們提出了HRDA,一種用于UDA和DG的多分辨率訓練方法,結合了小型高分辨率裁剪以保留精細分割細節和大型低分辨率裁剪以捕捉長程上下文依賴關系,同時保持可管理的GPU內存占用。HRDA能夠適應小物體并保留精細分割細節,顯著提高了之前UDA和DG方法的性能。
即使有了DAFormer和HRDA改進的區分能力和高分辨率性能,UDA方法在目標域中具有類似視覺外觀的類別上仍然表現掙扎,因為沒有可用的真實標簽來學習細微的外觀差異。為了解決這個問題,我們提出了一個掩碼圖像一致性(MIC)模塊,通過學習目標域的空間上下文關系作為穩健視覺識別的額外線索,來增強UDA。MIC通過對隨機遮蔽的目標圖像的預測與基于完整圖像生成的偽標簽之間的一致性進行約束。為了最小化一致性損失,網絡必須學會從上下文中推斷被遮蔽區域的預測。由于其簡單且通用的概念,MIC可以集成到各種UDA方法中,涵蓋不同的視覺識別任務,如圖像分類、語義分割和目標檢測。MIC顯著提高了不同識別任務和領域差距的最新性能。
總體而言,本論文揭示了在領域魯棒的視覺場景理解中,從網絡架構和通用訓練策略等學習框架的不同方面進行全面考量的重要性。所提出的方法大幅提升了從合成到真實、白天到夜晚、晴朗到惡劣天氣等多個感知任務的領域適應性能。例如,在GTA→Cityscapes的語義分割中,它們實現了+18.4 mIoU的總體提升。超越領域適應,DAFormer和HRDA甚至在更具挑戰性的領域泛化設置中也表現出色,在從GTA泛化到5個未見的真實世界數據集時,性能提升了+12.0 mIoU。實現已開源并可在//github.com/lhoyer上獲取。
機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。
為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。
我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。
非線性優化已成為機器學習的主力工具。然而,我們對機器學習中優化理論的理解仍然有限。例如,經典的優化理論依賴于諸如損失函數的有界Lipschitz平滑性等假設,而這些假設在機器學習中很少滿足。此外,現有理論也無法很好地解釋為什么自適應方法在某些機器學習任務中(如訓練Transformers)優于梯度下降法。在本論文中,為了彌合這一差距,我們提出了更貼近機器學習實際的廣義平滑性條件,并研究了在這些條件下流行的經典和自適應方法的收斂性。我們的收斂性結果優于現有結果,同時為理解自適應性在機器學習應用中的作用提供了新的見解。 首先,受到一些最近的研究工作和深度神經網絡訓練中見解的啟發,我們提出了一種廣義的非均勻平滑性條件,其在幾乎所有地方都通過梯度范數的函數來約束Hessian范數。我們開發了一種簡單但強大的分析技術,該技術通過沿軌跡約束梯度,從而為凸優化和非凸優化問題得出了更強的結果。特別是,我們在這種廣義平滑性條件下,得到了梯度下降(GD)、隨機梯度下降(SGD)和Nesterov加速梯度方法(NAG)在凸或非凸設置中的經典收斂速率。 此外,這種新的分析技術還使我們能夠為自適應矩估計方法(Adam)獲得改進的收斂結果。盡管Adam在訓練深度神經網絡中非常流行且高效,但其理論性質尚未完全被理解,現有的收斂性證明需要非常強的假設(如全局有界的梯度)來證明其收斂至駐點。在本論文中,我們證明了Adam在更為現實的條件下可以證明收斂,特別是我們不需要之前研究中的強假設,并且也考慮了廣義平滑性條件。 然而,上述結果無法解釋為什么像Adam這樣的自適應方法在訓練Transformers等機器學習應用中顯著優于SGD,因為我們為Adam獲得的收斂速率并不比SGD更快。先前的研究經驗性地觀察到,自適應方法沿訓練軌跡往往表現出比SGD更小的方向性平滑性。在本論文中,我們將這一觀察形式化為一個更為嚴謹的理論解釋。具體而言,我們提出了一種方向性平滑性條件,在此條件下,我們證明了無記憶的Adam和RMSProp在確定性設置中具有更快的收斂性。值得注意的是,我們的收斂速率比典型的梯度下降法更快,為理解自適應性在訓練Transformers中的優勢提供了新的見解。
優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。
近年來,自然語言生成的許多工作依賴于深度學習,通常使用帶有軟注意機制的神經網絡從數據中選擇顯著方面,然后構建流暢的自然語言文本。然而,在對數據的自然描述中,人類通常會提到更高級別的模式,這可能需要對數據進行復雜的計算。在許多情況下,僅使用軟注意機制的神經模型難以提取這些模式。此外,用戶可能會發現這些模型難以解釋和控制。在本論文中,我提出了一種通過在數據和文本上引入某些類型的離散層級操作的方法,以實現基礎自然語言生成。與僅使用注意力機制相比,這種層級操作可以更好地對數據中的復雜模式建模,揭示可解釋的中間計算,并實現可控的生成。
在論文的前半部分,我將討論在不同的基礎自然語言生成任務中向神經模型添加特定的離散層級操作,如圖像和表格標題生成、對話響應生成以及構建多跳問題回答的推理鏈。這些任務涵蓋了各種數據模態(包括圖像、表格數據、數值數據和知識庫)。在論文的后半部分,我將描述用于文本解碼器中的內容規劃的層級方法,研究詩歌生成中的押韻模式以及用于連貫敘事文本生成的離散計劃。
生成式人工智能旨在制定特定類型的數據分布,以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是,在計算機視覺中,生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等,而前者探索和制造復雜的數據流形。有人可能會爭論,由于旨在模擬現實世界中無限制領域的巨大復雜性的數據,計算機視覺中的生成式人工智能需要更加先進。然而,即使是最復雜的網絡設計,也很難準確地制定我們自然世界中的確切數據分布,因此還有很大的改進空間。 隨著最近生成式人工智能技術的突破,現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品,幸運的是,這篇論文也參與其中。在這篇論文中,作者旨在通過探索最佳可能的視覺表征形式(即神經隱式嵌入、頻域表征、基于變換器的表征),以盡可能捕獲更多的視覺信息,進一步推動生成式人工智能的性能。毫無疑問,數據表征是生成式人工智能的一個關鍵前提,因為它揭示了模型能力的上限。此外,從一個更廣泛但不那么精確的角度來看,生成建模的目標——模擬精確的數據分布,也可以視為一種表征學習。在論文的最后部分,作者還探討了超越視覺表征的主題,向更一般的跨模態表征進發,適應多種類型的數據模態,這是朝著更具挑戰性的目標邁進的啟發式步驟:通用人工智能。
這篇論文始于UltraSR,探索適合圖像超分辨率的隱式神經視覺表征,通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合,以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時,Spectral Hint GAN(SH-GAN)采取了不同的路線,深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊:Spectral Hint Unit(SHU),以及兩種新策略:異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法:通過基于StyleGAN的共調制框架有效地填充低頻圖像結構,以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像(T2I)擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion,在這項工作中,我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索,從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索,包括但不限于語義、紋理、背景等,并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行,我們提出了Versatile Diffusion,這是第一個提出統一的多模態多流擴散管道的工作,均勻處理多種跨模態任務,生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍,我們的目標是將不同模態的表征合并到一個生成網絡中,向通用生成式人工智能的大膽一步邁進。
總之,所有工作都提供了有關數據表征的寶貴見解,其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征:隱式神經表征、頻域表征和基于變換器的表征。在最后一部分,Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41,在Places2數據集上達到7.10,獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858;FID為11.20和4.57,測量文本到圖像和圖像變化,超越了所有方面的基線Stable Diffusion。
計算機視覺系統自從分類手寫數字的時代以來取得了巨大的進步。特別是,監督學習已經成為解決科研之外任務的普遍方法。這些系統被部署在從自動駕駛汽車到自動醫療診斷和天氣預報等多個行業的眾多產品中。這些進步可以歸因于深度學習算法、專業庫和專用硬件的進步,以及用于模型訓練的大型標注數據集的增加。然而,仍然存在一些任務,其中僅僅捕獲和標注更多數據的標準范式并不是一個可行的解決方案。 在這篇論文中,我們調查如何最好地利用多模態數據來解決獲取足夠質量或完整性數據困難的計算機視覺任務。我們專注于兩個特定任務:引導式超分辨率和細粒度分類。引導式超分辨率涉及通過將低分辨率數據與輔助模態結合來進行放大,而細粒度分類需要利用邊際信息,使分類算法能夠捕捉到細粒度類別之間細微的外觀差異。最初,我們在缺乏地面真實數據的情況下為引導式超分辨率提供解決方案。首先,我們提出了一種將引導式超分辨率視為學習從引導到源域的像素到像素映射的新穎無監督公式。我們使用多層感知器參數化來保留高頻細節。其次,我們提出了一種新穎的混合模型,以在保持解決測試時優化問題的嚴謹性的同時,最好地利用深度學習方法。關鍵是一個可微分優化層,它作用于一個學習的親和圖,確保目標對源的高保真度,因此對未見域具有高泛化性。隨后,我們提出了一種自動識別社區科學家照片中細粒度植物標本的統一方法。該方法旨在利用社區科學家觀察中通常可用的各種先驗知識,包括地理和時間背景以及植物分類學,以學習跨類似物種的可轉移表示。最后,我們提出了2021年半地球植物標本館數據集,這是我們作為機器學習競賽的一部分創建的一個大型策劃和開放獲取的植物標本數據集,以鼓勵進一步研究從照片中自動識別細粒度植物物種。 近年來,計算機視覺領域取得了顯著進步。當然,這些進步可以歸因于深度學習研究、專業庫和專用硬件的進展,但最重要的是,這些進步得益于大量數據的可用性,例如像ChatGPT(OpenAI,2022年)和Stable Diffusion(Rombach等,2021年)這樣的生成模型分別在互聯網上爬取了數十億的文本和圖像進行訓練。 然而,并非所有任務都能使用現成的互聯網規模數據集來解決。許多重要問題,如自動檢測惡性腫瘤、評估自然災害造成的損害或繪制瀕危物種的地理分布,仍然是放大數據收集不是解決方案的挑戰。這些挑戰可以大致分為兩類。首先,由于傳感器捕獲它們的固有技術限制,感知特定模態存在困難,例如遙感器如航空或衛星成像或主動傳感器如激光掃描儀、ToF相機或MRI掃描儀。其次,觀察罕見事件或特定數據類型的多樣性困難,因為在現實世界的數據收集工作中不經常遇到某些場景或類別。例如,捕捉所有容易發生事故的駕駛場景,或收集所有生物物種的足夠數據就是這種情況。
為了解決數據收集質量挑戰性應用中傳感器可用性的限制,一個可行的解決方案是利用更常見的傳感器捕獲的數據來增強傳感器的輸出。這種設置在許多計算機視覺任務中都很常見,特別是在低分辨率傳感器與捕獲不同模態圖像的高分辨率傳感器配對時。這項任務,被稱為引導式超分辨率,涉及在高分辨率引導圖像的幫助下增加低分辨率源圖像的分辨率。一個常見的實際應用是在RGB圖像的指導下對深度圖進行超分辨率。這種配置在配備有深度傳感器和常規攝像機的各種設備上都能找到,如增強/虛擬現實頭戴式顯示器(AR,VR),現代手持設備,機器人和自動駕駛汽車。事實上,消費級深度攝像頭捕獲的深度圖分辨率較低;類似地,激光掃描儀獲得的稀疏深度測量可以在相對較大的印記上進行平均。相反,即使是入門級相機現在也能以非常高的分辨率捕獲圖像。這種設置也經常用于環境監測,例如樹高、生物量或物種分布概率等關鍵指標的地圖通常可用的分辨率遠低于現代遙感器的地面采樣距離(Keil和Jetz,2014年,Metzger等,2022年)。因此,一個自然的問題是如何利用這些系統捕獲的成對圖像來提高低分辨率傳感器的質量,從高分辨率傳感器傳輸細節。 獲取大量高質量注釋的挑戰甚至可能比數據收集過程本身更加困難。這是至關重要的,因為監督學習在計算機視覺的成功中發揮了核心作用,可以追溯到深度學習早期的開創性工作,如AlexNet(Krizhevsky等,2012年)贏得ImageNet ILSVRC-2012挑戰賽(Deng等,2009a)。事實上,全球數據標注市場預計到2028年將達到82.2億美元(Grand View Research),凸顯了其重要性。例如ImageNet這樣的基準通常為每個類提供大量的訓練圖像,在這種設置下,分類算法取得了令人印象深刻的結果。然而,一旦我們減少每個訓練類的圖像數量,它們的性能就會迅速下降。然而,由于各種原因,簡單地收集更多數據和注釋并不總是可行的。例如,自然界展示了物種的長尾分布,導致大量類別不平衡,某些物種罕見或難以觀察。此外,某些地區數據的可用性變化和觀察者偏見可能會進一步加劇獲取全面注釋的難度,如圖1.1所示。此外,標注這些數據集需要專業的分類學專業知識,因此許多這些觀察結果仍未標注。這是大多數描述生物多樣性的大型圖像集合的現實,例如那些從相機陷阱、社區科學家觀察、無人機調查或植物標本館(Tuia等,2022年,Bebber等,2010年)中獲得的。因此,我們認為自動物種識別工具的需求迫切。這項任務,通常被稱為細粒度分類,涉及將圖像分類為更廣泛類別內的子類別,例如物種,并且以區分基于微妙視覺線索的標本為特征。我們認為,僅憑外觀信息不足以區分細粒度類別,因為學習這種微妙模式的數據有限。幸運的是,物種觀察通常伴隨著側面信息,例如捕獲圖像的時空背景,這些信息可以與環境先驗結合使用。這個問題再次強調了開發利用多模態數據來增強自動識別標本的方法的需要。