亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視頻超分旨在對低分辨率視頻提升分辨率的同時對細節進行增強(可能還會附帶噪聲抑制、壓縮偽影移除亦或取出運動模糊)。現有的視頻超分方案大多在合成數據上進行訓練,這種簡單的退化機制在面對真實場景的復雜退化時就會出現嚴重的性能下降。因此,如何將學術界的視頻超分方案應用到真實場景,或者縮小兩者之間的性能差異就更為值得進行探索與研究 。

為緩解上述問題,本文采用多個相機(iPhone 11 Pro Max)采用成對LR-HR視頻序列構建了一個Real-world Video Super-Resolution(RealVSR) 。由于LR-HR視頻對是通過兩個相機采集得到,兩者之間不可避免會存在某種程度的不對齊、亮度/色彩差異。為更魯棒的進行VSR模型訓練、重建更多細節,我們將LR-HR視頻轉換為YCbCr顏色空間,將亮度通道分解為拉普拉斯金字塔,針對不同的成分實施不同的損失函數 。

實驗結果表明:相比合成數據訓練的模型,在RealVSR數據集上訓練的VSR模型在真實場景數據具有更好的視覺質量,邊緣更銳利 。此外,這些模型表現出了非常好了跨相機泛化性能。下圖給出了合成數據訓練模型與RealVSR訓練模型的效果對比,很明顯:在RealVSR上訓練的視頻超分模型在真實數據上重建細節更為清晰。

付費5元查看完整內容

相關內容

深度學習在大規模均衡數據集的視覺識別方面取得了顯著進展,但在現實世界的長尾數據上仍然表現不佳。以往的方法多采用類別再平衡訓練策略,有效緩解類別不平衡問題,但可能存在類別尾部過擬合的風險。目前的解耦方法利用多階段訓練方案克服了過擬合問題,但仍無法在特征學習階段捕獲尾類信息。在本文中,我們證明軟標簽可以作為一個強大的解決方案,將標簽相關性納入多階段訓練方案的長尾識別。軟標簽所體現的類之間的內在聯系有助于長尾識別,將知識從頭類傳遞到尾類。

具體地說,我們提出了一個概念簡單但特別有效的多階段訓練方案,稱為自監督蒸餾(SSD)。本方案由兩部分組成。首先,我們引入了一個自蒸餾的長尾識別框架,該框架可以自動挖掘標簽關系。其次,提出了一種新的基于自監督引導的蒸餾標簽生成模塊。提取的標簽集成了來自標簽和數據域的信息,可以有效地建模長尾分布。我們進行了廣泛的實驗,我們的方法在三個長尾識別基準上取得了最先進的結果:ImageNet-LT, CIFAR100-LT和iNaturalist 2018。在不同的數據集上,我們的SSD比強大的LWS基線性能高出2.7%到4.5%。

//www.zhuanzhi.ai/paper/9551df29964dcd508862fb665b5b696a

付費5元查看完整內容

互聯網視頻在過去幾年發生了爆發式增長,這給視頻傳輸基礎設施帶來了巨大的負擔。網絡視頻傳輸系統的質量很大程度上取決于網絡帶寬。受客戶端 / 服務器日益增長的計算能力和深度學習的最新進展的啟發,一些工作提出將深度神經網絡 (DNN) 應用于視頻傳輸系統的工作,以提高視頻傳輸質量。這些 DNN 的方法將一整個視頻平均分成一些視頻段,然后傳輸低分辨率的視頻段和其對應的 context-aware 模型到客戶端,客戶端用這些訓練好的模型推理對應的低分辨率視頻段。通過這種方式,可以在有限的互聯網帶寬下獲得更好的用戶體驗質量 (QoE)。其中,傳輸一段長視頻需要同時傳輸多個超分辨率模型。

近日,來自北京郵電大學和英特爾中國研究院的研究者首先探索了不同視頻段所對應的不同模型間的關系,然后設計了一種引入內容感知特征調制(Content-aware Feature Modulation,CaFM)模塊的聯合訓練框架,用來壓縮視頻傳輸中所需傳輸的模型大小。該研究的方法讓每一個視頻段只需傳輸原模型參數量的 1%,同時還達到了更好的超分效果。該研究進行了大量的實驗在多種超分辨率 backbone、視頻時長和超分縮放因子上展現了該方法的優勢和通用性。另外,該方法也可以被看作是一種新的視頻編解碼方式。在相同的帶寬壓縮下,該方法的性能(PSNR)優于商用的 H.264 和 H.265,體現了在行業應用中的潛能。

論文鏈接://arxiv.org/abs/2108.08202

GitHub 地址:

與當前單圖像超分辨率 (SISR)和視頻超分辨率 (VSR)的方法相比,內容感知 DNN 利用神經網絡的過擬合特性和訓練策略來實現更高的性能。具體來說,首先將一個視頻分成幾段,然后為每段視頻訓練一個單獨的 DNN。低分辨率視頻段和對應的模型通過網絡傳輸給客戶端。不同的 backbone 都可以作為每個視頻段的模型。與 WebRTC 等商業視頻傳輸技術相比,這種基于 DNN 的視頻傳輸系統取得了更好的性能。

盡管將 DNN 應用于視頻傳輸很有前景,但現有方法仍然存在一些局限性。一個主要的限制是它們需要為每個視頻段訓練一個 DNN,從而導致一個長視頻有大量單獨的模型。這為實際的視頻傳輸系統帶來了額外的存儲和帶寬成本。在本文中,研究者首先仔細研究了不同視頻段的模型之間的關系。盡管這些模型在不同的視頻段上實現了過擬合,但該研究觀察到它們的特征圖之間存在線性關系,并且可以通過內容感知特征調制(CaFM)模塊進行建模。這促使研究者設計了一種方法,使得模型可以共享大部分參數并僅為每個視頻段保留私有的 CaFM 層。然而,與單獨訓練的模型相比,直接微調私有參數無法獲得有競爭力的性能。因此,研究者進一步設計了一個巧妙的聯合訓練框架,該框架同時訓練所有視頻段的共享參數和私有參數。通過這種方式,與單獨訓練的多個模型相比,該方法可以獲得相對更好的性能。

該研究的主要貢獻包括:

  • 提出了一種新穎的內容感知特征調制(CaFM)模塊的聯合訓練框架,用于網絡間的視頻傳輸;
  • 對各種超分辨率 backbone、視頻時間長度和縮放因子進行了廣泛的實驗,證明了該方法的優勢和通用性;
  • 在相同的帶寬壓縮下,與商業 H.264 和 H.265 標準進行比較,由于過度擬合的特性,該方法展示了更有潛力的結果。
付費5元查看完整內容

相機重定位研究在已知環境中根據 RGB-D 圖像推算相機的位置姿態,是實現場景建模、增強現實、機器人導航等技術的基礎。近年來,最先進的研究工作通常 (A) 先記憶和推測所觀測到不同對象的位置;(B) 再通過這些對象位置的相對關系反算自身位姿。對于 (A),被觀測對象的位置信息通常表示為圖像像素坐標和場景世界坐標之間的對應關系(2D/3D-3D correspondences),使用決策樹、神經網絡等機器學習模型實現;對于 (B),通常表示為局部坐標系與世界坐標系之間的剛體變換,使用 Perspective-n-Point、orthogonal Procrustes 等非機器學習算法求解。

核心問題

現實環境中包含著多種多樣的動態成分,造成場景日新月異的變化。這些動態變化給相機重定位帶來了麻煩:一方面,動態變化引入噪聲導致對應關系匹配失敗;另一方面,匹配正確的對象可能由于位置變化導致相機位姿求解錯誤。由于動態變化難以預料、無法窮盡,所以不易使用監督學習的方法直接學習場景中的動態變化。即使應用 RANSAC 等魯棒估計算法,也難以準確求解動態場景下的相機位姿。因此,動態變化場景中的相機重定位面臨挑戰。

本文方法

為解決上述問題,我們提出基于空間劃分的神經路由算法 NeuralRouting。我們的直觀見解是,場景中的動態變化通常表現為幾何對象的三維位置改變。于是,我們從幾何角度出發建模場景空間。

首先,我們將場景三維空間進行層次劃分構建樹形結構(space partition tree),樹的每個節點對應場景中的一個區域。隨著樹的層次加深,場景區域劃分由粗粒度走向細粒度。基于區域劃分,我們使用神經網絡學習圖像像素在樹中的路由(routing),從而記憶視覺對象在不同粒度場景空間中的位置。得益于空間劃分,通過顯式地設定錯誤路由(模擬三維位置改變),我們可以構造動態變化對象的標注,以此學習場景中的動態變化,將其作為一個額外的路由分類,稱為離群節點(outlier)。如果一個像素屬于靜態區域,它將被路由到樹的葉子節點,以該節點對應的場景區域作為預測結果;如果一個像素屬于動態區域,它將被路由到離群節點,被視為噪聲點拒絕進行區域預測。因此,圖像中的每個像素如果不被拒絕,那么就會被映射到場景空間,從而建立了圖像像素和場景空間之間魯棒的對應關系。通過這些對應關系,我們使用基于 Kabsch 算法的 RANSAC 框架求解相機位姿。

付費5元查看完整內容

本項研究針對深度傳感系統獲取的場景深度圖像分辨率低和細節丟失等問題,突破現有基于彩色指導的場景深度復原方法的局限性,即在訓練及測試階段同時需要高分辨率彩色圖像和降質深度圖像作為網絡輸入來估計高質量深度圖像(在實際測試環境中,同視角的高分辨率彩色輔助信息并不容易獲得)。首次提出基于跨任務場景結構知識遷移的單一場景深度圖像超分辨率方法,在訓練階段從彩色圖像蒸餾出場景結構信息來輔助提升深度復原性能,而測試階段僅提供單張降質深度圖像作為輸入即可實現深度圖像重建。該算法框架同時構造了深度估計任務(彩色圖像為輸入估計深度信息)及深度復原任務(低質量深度為輸入估計高質量深度),并提出了基于師生角色交換的跨任務知識蒸餾策略以及不確定度引導的結構正則化學習來實現雙邊知識遷移,通過協同訓練兩個任務來提升深度超分辨率任務的性能。在實際部署和測試中,所提出的方法具有模型輕量化,算法速度快等特點,且在缺少高分辨率彩色信息輔助的情況下仍可獲得優異的性能。

//faculty.dlut.edu.cn/yexinchen/zh_CN/zdylm/1123985/list/index.htm

付費5元查看完整內容

在本文中,我們關注的是語義圖像合成任務,目的是將語義標記映射遷移到逼真的圖像。現有的方法在保留語義信息方面缺乏有效的語義約束,忽略了空間維度和通道維度上的結構相關性,導致結果模糊且容易產生假象。為了解決這些限制,我們提出了一種新的對偶注意力GAN (DAGAN),它可以合成具有輸入布局細節的真實照片和語義一致的圖像,而不增加額外的訓練開銷或修改現有方法的網絡結構。我們還提出了兩個新的模塊,即位置-方向的空間注意力模塊和尺度-方向的通道注意模塊,分別用于捕獲空間和通道維度上的語義結構注意力。具體來說,SAM通過空間注意力圖選擇性地將每個位置的像素關聯起來,從而使得具有相同語義標簽的像素無論在空間上的距離如何都相互關聯起來。同時,CAM通過通道注意力圖選擇性地強調每個通道上的標度特征,從而在所有的通道圖中集成相關的特征,而不管它們的標度如何。最后對SAM和CAM的結果進行求和,進一步改進特征表示。在四個具有挑戰性的數據集上進行的廣泛實驗表明,DAGAN取得了比最先進的方法顯著更好的結果,同時使用更少的模型參數。源代碼和經過訓練的模型可以在這個https URL中獲得。

//arxiv.org/abs/2008.13024

付費5元查看完整內容

我們提出了一種單一圖像視圖合成方法,允許從單一輸入圖像生成新的場景視圖。這是一個挑戰,因為它需要從一個單一的圖像全面理解3D場景。因此,目前的方法通常使用多幅圖像,在地面真實深度上訓練,或者局限于合成數據。為此,我們提出了一種新穎的端到端模型;它被訓練在真實的圖像上,沒有使用任何真實的3D信息。為此,我們引入了一種新的可微點云渲染器,用于將潛在的3D點云特征轉換為目標視圖。我們的細化網絡對投影特征進行解碼,插入缺失區域,生成逼真的輸出圖像。我們的生成模型內部的3D組件允許在測試時對潛在特征空間進行可解釋的操作,例如,我們可以從單個圖像動畫軌跡。與以前的工作不同,我們可以生成高分辨率的圖像,并推廣到其他輸入分辨率。我們在Matterport、Replica和RealEstate10K數據集上超越基線和前期工作。

付費5元查看完整內容

研究了大規模三維點云的有效語義分割問題。通過依賴昂貴的采樣技術或繁重的計算預處理/后處理步驟,大多數現有的方法只能在小規模點云上進行訓練和操作。在這篇文章中,我們介紹了一種高效的輕量級神經結構——RandLA-Net,它可以直接推斷大規模點云的每點語義。我們的方法的關鍵是使用隨機點抽樣而不是更復雜的點選擇方法。雖然隨機抽樣具有很高的計算效率和內存效率,但它也會隨機地丟棄一些關鍵特性。為了克服這個問題,我們引入了一個新的局部特征聚合模塊,逐步增加每個3D點的接受域,從而有效地保留幾何細節。大量實驗表明,我們的RandLA-Net單次可以處理100萬個點,速度比現有方法快200倍。此外,我們的RandLA-Net在語義分割的兩個大規模基準上明顯超過了最先進的方法Semantic3D和SemanticKITTI。

付費5元查看完整內容
北京阿比特科技有限公司