互聯網視頻在過去幾年發生了爆發式增長,這給視頻傳輸基礎設施帶來了巨大的負擔。網絡視頻傳輸系統的質量很大程度上取決于網絡帶寬。受客戶端 / 服務器日益增長的計算能力和深度學習的最新進展的啟發,一些工作提出將深度神經網絡 (DNN) 應用于視頻傳輸系統的工作,以提高視頻傳輸質量。這些 DNN 的方法將一整個視頻平均分成一些視頻段,然后傳輸低分辨率的視頻段和其對應的 context-aware 模型到客戶端,客戶端用這些訓練好的模型推理對應的低分辨率視頻段。通過這種方式,可以在有限的互聯網帶寬下獲得更好的用戶體驗質量 (QoE)。其中,傳輸一段長視頻需要同時傳輸多個超分辨率模型。
近日,來自北京郵電大學和英特爾中國研究院的研究者首先探索了不同視頻段所對應的不同模型間的關系,然后設計了一種引入內容感知特征調制(Content-aware Feature Modulation,CaFM)模塊的聯合訓練框架,用來壓縮視頻傳輸中所需傳輸的模型大小。該研究的方法讓每一個視頻段只需傳輸原模型參數量的 1%,同時還達到了更好的超分效果。該研究進行了大量的實驗在多種超分辨率 backbone、視頻時長和超分縮放因子上展現了該方法的優勢和通用性。另外,該方法也可以被看作是一種新的視頻編解碼方式。在相同的帶寬壓縮下,該方法的性能(PSNR)優于商用的 H.264 和 H.265,體現了在行業應用中的潛能。
論文鏈接://arxiv.org/abs/2108.08202
GitHub 地址:
與當前單圖像超分辨率 (SISR)和視頻超分辨率 (VSR)的方法相比,內容感知 DNN 利用神經網絡的過擬合特性和訓練策略來實現更高的性能。具體來說,首先將一個視頻分成幾段,然后為每段視頻訓練一個單獨的 DNN。低分辨率視頻段和對應的模型通過網絡傳輸給客戶端。不同的 backbone 都可以作為每個視頻段的模型。與 WebRTC 等商業視頻傳輸技術相比,這種基于 DNN 的視頻傳輸系統取得了更好的性能。
盡管將 DNN 應用于視頻傳輸很有前景,但現有方法仍然存在一些局限性。一個主要的限制是它們需要為每個視頻段訓練一個 DNN,從而導致一個長視頻有大量單獨的模型。這為實際的視頻傳輸系統帶來了額外的存儲和帶寬成本。在本文中,研究者首先仔細研究了不同視頻段的模型之間的關系。盡管這些模型在不同的視頻段上實現了過擬合,但該研究觀察到它們的特征圖之間存在線性關系,并且可以通過內容感知特征調制(CaFM)模塊進行建模。這促使研究者設計了一種方法,使得模型可以共享大部分參數并僅為每個視頻段保留私有的 CaFM 層。然而,與單獨訓練的模型相比,直接微調私有參數無法獲得有競爭力的性能。因此,研究者進一步設計了一個巧妙的聯合訓練框架,該框架同時訓練所有視頻段的共享參數和私有參數。通過這種方式,與單獨訓練的多個模型相比,該方法可以獲得相對更好的性能。
該研究的主要貢獻包括:
對于視頻理解任務而言,多種模態的輸入數據往往會攜帶大量的冗余信息,除了普通的RGB幀數據,視頻多模態分析還會用到音頻、光流和深度圖等模態的數據,但是對于某些時刻,其他模態的數據不論是數據獲取還是前向傳播都會有更高的計算性能要求,這對于一些即時的多模態應用是不合理的。
基于此,本文設計了一種自適應的多模態學習框架對一段視頻的不同片段選取最為合適的模態數據作為輸入,在保證識別精度的同時,獲得了較為明顯的計算量節省效果。 本文的整體框架包含了一個輕量的策略級網絡Policy Network和一個識別網絡Recognition Network,其中策略網絡的作用是對視頻序列的每個模態片段計算二進制策略向量,用來判斷是否保留當前模態的數據進行后續的識別。
識別網絡由多個子網絡構成,分別對上一步選取得到的多模態數據進行特征提取和后融合得到識別結果。整體網絡聯合訓練,在測試階段,首先將輸入多模態視頻片段送入策略網絡,其輸出決定用于給定片段的正確模態,然后將選擇的輸入模態路由到識別網絡中的相應的子網絡以生成片段級預測。
最后,網絡將所有片段級預測平均作為視頻級預測。與普通的視頻理解模型相比,輕量級策略網絡(本文使用的是MobileNetV2)產生的額外計算成本可以忽略不計。
經過一系列的實驗表明,本文方法在四個標準數據集上都取得了較好的效果。
我們提出了一種新的視頻神經表示(NeRV),它在神經網絡中對視頻進行編碼。與傳統的將視頻表示為幀序列不同,我們將視頻表示為以幀索引為輸入的神經網絡。給定幀索引,NeRV輸出相應的RGB圖像。NeRV中的視頻編碼只是簡單地將神經網絡擬合到視頻幀上,解碼過程是一個簡單的前饋操作。作為一種圖像隱式表示,NeRV輸出整幅圖像,比像素隱式表示效率高,編碼速度提高了25倍至70倍,解碼速度提高了38倍至132倍,同時獲得了更好的視頻質量。有了這樣的表示,我們可以將視頻視為神經網絡,從而簡化了幾個與視頻相關的任務。例如,傳統的視頻壓縮方法受到為任務專門設計的長而復雜的流水線的限制。相比之下,使用NeRV,我們可以使用任何神經網絡壓縮方法作為視頻壓縮的代理,并達到與傳統的基于幀的視頻壓縮方法(H.264, HEVC等)相當的性能。除了壓縮外,我們還展示了NeRV在視頻去噪中的推廣作用。源代碼和預先訓練的模型可以在//github.com/haochen-rye/NeRV.git上找到。
現有的神經視頻壓縮方法大多采用預測編碼框架,該框架首先生成預測幀,然后將其殘差與當前幀進行編碼。然而,在壓縮比方面,預測編碼只是一種次優方案,因為它使用簡單的減法操作來去除幀間的冗余。在本文中,我們提出了一個深度上下文視頻壓縮框架,以實現從預測編碼到條件編碼的范式轉換。特別是,我們試圖回答以下問題:如何定義、使用和學習條件下的深度視頻壓縮框架。為了挖掘條件編碼的潛力,我們提出使用特征域上下文作為條件。這使我們能夠利用高維上下文為編碼器和解碼器攜帶豐富的信息,這有助于重建高頻內容以獲得更高的視頻質量。我們的框架也是可擴展的,條件可以靈活設計。實驗表明,我們的方法可以顯著優于以往的先進的(SOTA)深度視頻壓縮方法。與x265使用非常慢的預設相比,1080P標準測試視頻可以節省26.0%的比特率。
知識蒸餾(KD)的目標是將知識從一個更大的、優化的教師網絡轉移到一個更小的、可學習的學生網絡。現有的KD方法主要考慮兩種類型的知識,即個體知識和關系知識。然而,這兩類知識通常是獨立建模的,而它們之間的內在相關性在很大程度上被忽略了。充分的學生網絡學習需要將個體知識和關系知識結合起來,同時保留它們內在的相關性。在本文中,我們提出基于實例間的屬性圖來提取新的整體知識。通過圖神經網絡從相關鄰域樣本中聚合個體知識,將整體知識表示為統一的基于圖的嵌入,通過對比的方式提取整體知識來學習學生網絡。在基準數據集上進行了大量的實驗和燒蝕研究,結果證明了該方法的有效性。該代碼已在//github.com/wyc-ruiker/HKD上發布
視頻處理與壓縮是多媒體計算與通信領域的核心主題之一,是連接視頻采集傳輸和視覺分析理解的關鍵橋梁,也是諸多視頻應用的基礎。當前“5G+超高清+AI”正在引發多媒體計算與通信領域的新一輪重大技術革新,視頻處理與壓縮技術正在發生深刻變革,亟需突破針對視頻大數據的高效緊湊表示理論和方法。為此,學術研究機構和工業界對視頻大數據的視覺表示機理、視覺信息緊湊表達、視頻信號重建與恢復、高層與低層視覺融合處理方法及相應硬件技術等前沿領域進行了廣泛深入研究。本文從數字信號處理基礎理論出發,分析了當前視頻處理與壓縮領域的熱點問題和研究內容,包括基于統計先驗模型的視頻數據表示模型及處理方法、融合深度網絡模型的視頻處理技術、視頻壓縮技術以及視頻壓縮標準進展等領域。詳細描述了視頻超分辨率、視頻重建與恢復、視頻壓縮技術等領域面臨的前沿動態、發展趨勢、技術瓶頸和標準化進程等內容,進一步對國際國內研究內容和發展現狀進行了綜合對比與分析。最后,展望了視頻處理與壓縮技術的技術發展與演進方向,更高質量視覺效果和高效率視覺表達之間將不再是單獨研究的個體,融合類腦視覺系統及編碼機理的視頻處理與壓縮技術將是未來研究的重要領域之一。
自上個世紀 40 年代誕生以來,計算機經歷了數 次革命性發展,將計算這一概念從單純解決科學與 工程技術中的數學問題擴展到更加廣泛的數據處理 和智能多媒體計算領域。視頻作為承載了海量非結 構化數據和應用最廣泛的多媒體數據格式,已與人 們的生活密不可分,是人類獲得信息的重要途徑之 一,因而與視頻相關的各種技術問題都得了到廣泛 關注。在視頻技術的發展過程中,從模擬到數字的 轉換是一次偉大的技術革新,它帶來數字信號處理 等理論的構建,為該領域的持續發展奠定了基礎。繼數字化、高清化之后,視頻技術正在經歷由超高 清和智能化等新一輪技術革新帶來的跨越式發展。
20 世紀四五十年代是視頻技術基礎理論發展的 關鍵期。這一時期最耀眼的明珠莫過于香農發表的 《通信中的數學理論》以及信息論三大定理,它們 奠定了信息論與編碼研究的理論基礎,這當中蘊含 的數學原理在 70 年后的今天依然深刻,其中提出的 信源編碼、信道編碼理論至今依然對高效通信系統 具有巨大的影響。上世紀 70 年代是視頻技術研究快 速發展的時期。1979 年,美國工程院院士 A. Netravali 等人發表了《 Motion ‐ Compensated Transform Coding》,標志著基于塊的預測變換混合 編碼框架正式建立。同時伴隨著日趨成熟的電荷耦 合器件(charge coupled device,CCD)和互補金屬 氧化物半導體( complementary metal oxide semiconductor,CMOS)等成像技術的發展,視頻 處理領域具備了堅實的硬件基礎。
20 世紀 80 年代是視頻處理領域發展的萌芽期, 由 R. Tsai 和 T. S. Huang 共同開創了視頻超分辨率 研究(Tsai 等人,1984)。而在神經網絡研究方面, 多層神經網絡及其反向傳播算法被提出,由此開啟 了視頻處理與神經網絡研究的熱潮。在視頻壓縮領 域,國際電報電話咨詢委員會 ( Consultative Committee of International Telegraph and Telephone, CCITT)則于 1984 年頒布了首個視頻壓縮國際標準 H.120。
90 年代至本世紀初,視頻處理技術的研究熱點 包括基于對象的統計先驗模型構建方法及其在視頻 重建,分辨率提升等領域的應用,這一時期主流的 研究手段是建立高秩空間與低秩空間的局部線性嵌 入表示。20 世紀的最后十年是視頻壓縮標準研究的 黃金時代,這十年內國際標準化組織(International Organization for Standardization,ISO)/國際電工委 員會(International Electrotechnical Commission, IEC)和國際電信聯盟電信標準分局(International Telecommunication Union - Telecommunication Standardization Sector,ITU-T)標準組織先后發布了 MPEG 系列標準,H.261,H.263 以及 H.263+等國際 標準。
2006 年以后,隨著算力和成對標注數據規模的 提升,深度學習逐漸成為各研究領域的主流方法, 深度神經網絡無論在視頻處理還是視頻壓縮任務中 均能夠大幅超越傳統的基于統計模型規則的方法。后來陸續提出了多種深度網絡模型結構及其優化方 法,并將視頻處理和壓縮任務從局部優化遷移到端 到端整體優化。
隨著當今智能化與信息化時代的來臨,以數字視 頻為核心內容的多媒體技術在各行各業蓬勃發展, 特別是移動互聯網的飛速演進為數字視頻創造了更 廣闊的應用空間。視頻技術是智慧城市、視覺通訊 等領域的核心技術,也是智能交通、智慧醫療、遠 程教育等行業應用不可或缺的關鍵模塊。據統計, 視頻相關產業規模已超過數萬億,是促進國家產業 轉型與升級,關乎國計民生的重要支柱。
視頻行業的核心需求是將視頻實時高清的呈現 給用戶,這其中的技術基礎是視頻處理和壓縮。首 先,視頻獲取過程不可避免的引入信號失真,為提 高視頻用戶體驗,對視頻進行實時高效的處理以提 高其質量非常必要。另一方面,產業規模的擴大和 應用場景的拓寬衍生了海量非結構化視頻數據,高 效的傳輸和存儲是確保視頻產業健康發展的基礎, 而視頻壓縮技術正是實現視頻緊致表達的關鍵。面 向視頻產業的發展需求,本年度發展報告將從視頻 壓縮和處理兩個基礎關鍵技術著手進行研究,歸納 其發展現狀,從國內外研究基礎與現狀入手分析領 域關鍵技術并展望未來發展空間。