論文鏈接://arxiv.org/abs/2109.06620 代碼鏈接: 作者單位:北京大學深圳研究生院 & 鵬城實驗室
自然圖像中的非局部自相似性已被證實是圖像恢復的有效先驗。然而,大多數現有的深度非局部方法為每個查詢項分配固定數量的鄰域塊,忽略了非局部相關性的動態。此外,非局部相關性通常基于像素,容易因圖像退化而產生偏差。為了糾正這些弱點,在本文中,我們提出了一種動態注意圖學習模型(DAGL)來探索圖像恢復塊級別的動態非局部屬性。具體來說,我們提出了一種改進的圖模型,以對每個節點具有動態和自適應數量的鄰居執行逐塊圖卷積。通過這種方式,圖像內容可以通過其連接的鄰域的數量自適應地平衡過度平滑和過度銳化的偽影,并且塊方式的非局部相關性可以增強消息傳遞過程。各種圖像恢復任務的實驗結果:合成圖像去噪、真實圖像去噪、圖像去馬賽克和壓縮偽影減少表明,我們的 DAGL 可以產生具有卓越精度和視覺質量的最新結果。
視頻超分旨在對低分辨率視頻提升分辨率的同時對細節進行增強(可能還會附帶噪聲抑制、壓縮偽影移除亦或取出運動模糊)。現有的視頻超分方案大多在合成數據上進行訓練,這種簡單的退化機制在面對真實場景的復雜退化時就會出現嚴重的性能下降。因此,如何將學術界的視頻超分方案應用到真實場景,或者縮小兩者之間的性能差異就更為值得進行探索與研究 。
為緩解上述問題,本文采用多個相機(iPhone 11 Pro Max)采用成對LR-HR視頻序列構建了一個Real-world Video Super-Resolution(RealVSR) 。由于LR-HR視頻對是通過兩個相機采集得到,兩者之間不可避免會存在某種程度的不對齊、亮度/色彩差異。為更魯棒的進行VSR模型訓練、重建更多細節,我們將LR-HR視頻轉換為YCbCr顏色空間,將亮度通道分解為拉普拉斯金字塔,針對不同的成分實施不同的損失函數 。
實驗結果表明:相比合成數據訓練的模型,在RealVSR數據集上訓練的VSR模型在真實場景數據具有更好的視覺質量,邊緣更銳利 。此外,這些模型表現出了非常好了跨相機泛化性能。下圖給出了合成數據訓練模型與RealVSR訓練模型的效果對比,很明顯:在RealVSR上訓練的視頻超分模型在真實數據上重建細節更為清晰。
群體行為識別 (GAR) 是人物行為識別的一個子問題,群體行為由人物的個人行為和人物之間的交互組成,該任務旨在推斷場景中人物群體的整體行為標簽。GAR有著豐富的應用場景,包括監控視頻分析、體育視頻解析、社交場景理解等。GAR的關鍵問題是在給定視頻片段的情況下,結合時空交互因素來獲得精細的行為特征表示。
最近提出的推理模塊主要結合時空交互因素來獲得精細的活動表示,最常用的方法主要結合循環神經網絡、注意力機制和圖神經網絡 (GNN)。GNN是GAR中經常采用的方法,GNN在構建的語義圖上執行消息傳遞,并在公開數據集的測試中取得了有競爭力的結果。然而,以前使用GNN的方法只在預定義的圖形上對個人之間的交互進行建模,但是存在以下缺點:
對于給定人的交互模式是預先定義的而不是基于目標人的視覺時空上下文,預定義的圖推理不適用于所有人的特征更新;
預定義全連接或者交叉連接的圖模型很容易導致過度平滑,使特征無法區分并降低性能。
此外,如果擴展到長視頻片段或擴展到有很多人的場景,計算開銷會顯著上漲。
為了解決以上問題,受[1,2]啟發,我們提出了動態推理網絡 (DIN),其中包含動態關系 (DR) 和動態游走 (DW) 兩個模塊。這兩個模塊組合可以用于預測人物各異的交互圖,以便更好地建模交互,如上圖所示。對于時空圖上的給定人物特征,本文首先定義其時空鄰居為時空交互域,該交互域在DR和DW之間共享。
該交互域的大小不會受到空間或時間擴展的影響,從而減少計算。在這個初始化的交互域中,我們使用 DR 來預測一個中心特征的關系矩陣,表示人與人之間的交互關系。然后,為了對長時期的時間和空間依賴性建模,我們使用 DW 來預測域內每個特征的動態游走偏移,動態游走允許局部初始化的交互域可以在全局的時空圖上更新特征。DR和DW實現簡單,很容易部署到任何廣泛使用的主干網絡上,我們把這整個時空推理框架稱為DIN。
此外,以前的方法很少進行計算復雜度分析,但這是對設計模塊的重要評估,因此本文進行了計算復雜性分析,并表明提出的模塊在效果更好的同時,計算開銷更低。
本文將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割,并引入Transformer,性能優于CFBI、LWL等網絡,代碼即將開源!
半監督視頻目標分割是在第一幀中僅給定mask注釋的視頻序列中分割目標對象的任務。有限的可用信息使其成為一項極具挑戰性的任務。大多數以前表現最好的方法都采用基于匹配的轉導推理或在線歸納學習。然而,它們要么對類似實例的區分度較低,要么在時空信息的利用上不足。在這項工作中,我們提出將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割。所提出的方法由兩個功能分支組成。transduction 分支采用輕量級的 Transformer 架構來聚合豐富的時空線索,而 Induction 分支執行在線歸納學習以獲得有判別力的目標信息。為了橋接這兩個不同的分支,引入了一個雙頭標簽編碼器來為每個分支學習合適的目標先驗。生成的mask編碼被進一步強制解開以更好地保持它們的互補性。對幾個流行基準的大量實驗表明,在不需要合成訓練數據的情況下,所提出的方法創造了一系列新的最先進記錄。
圖神經網絡最近的成功極大地促進了分子性質的預測,促進了藥物發現等活動。現有的深度神經網絡方法通常對每個屬性都需要大量的訓練數據集,在實驗數據量有限的情況下(特別是新的分子屬性)會影響其性能,這在實際情況中是常見的。為此,我們提出了Meta-MGNN,一種新穎的預測少樣本分子性質的模型。Meta-MGNN應用分子圖神經網絡學習分子表示,建立元學習框架優化模型。為了挖掘未標記的分子信息,解決不同分子屬性的任務異質性,Meta-MGNN進一步將分子結構、基于屬性的自監督模塊和自關注任務權重整合到Meta-MGNN框架中,強化了整個學習模型。在兩個公共多屬性數據集上進行的大量實驗表明,Meta-MGNN優于各種最先進的方法。
//www.zhuanzhi.ai/paper/19590a2a40a84addde18b8a37112c3fc
關于概念及其屬性的常識知識(CSK)對于人工智能應用程序(如健壯的聊天機器人)是有用的。以前的作品,如ConceptNet、TupleKB和其他一些人編譯了大量的CSK集合,但它們在表達上受到限制,只包含了S的簡單概念和P和o的單一字符串的主語-謂語-賓語(SPO)三元組。此外,這些項目要么優先考慮精度,要么優先考慮回憶,但很難協調這些互補的目標。本文提出了一種自動構建大規模CSK斷言知識庫的方法——Ascent,該方法具有更高的表達能力,同時具有比以往的研究更好的查全率和查全率。Ascent通過捕獲帶有子組和方面的復合概念,以及使用語義方面精煉斷言,從而超越了三元組。后者對于表示斷言和進一步限定符的時間和空間有效性很重要。Ascent使用語言模型將開放信息提取相結合。內部評估顯示了提升Ascent KB知識庫的卓越大小和質量。
目標檢測器通常在完全標注實例的監督學習情況下獲得很好的結果。但是,對于稀疏實例注釋,它們的性能遠遠不能令人滿意。現有的稀疏標注目標檢測方法主要是對難的負樣本的損失進行重加權,或者將未標注的實例轉換為忽略區域,以減少假陰性的干擾。我們認為這些策略是不夠的,因為它們最多可以減輕由于缺少注釋而造成的負面影響。在本文中,我們提出了一個簡單而有效的機制,稱為協同挖掘,稀疏標注的目標檢測。在協同挖掘中,一個連體網絡的兩個分支相互預測偽標簽集。為了增強多視圖學習和更好地挖掘未標記實例,將原始圖像和相應的增強圖像分別作為Siamese網絡的兩個分支的輸入。協同挖掘可以作為一種通用的訓練機制,應用于大多數現代目標檢測器。在三種不同稀疏注釋設置的MS COCO數據集上進行了實驗,使用兩種典型的框架:基于錨的檢測器RetinaNet和無錨檢測器FCOS。實驗結果表明,與RetinaNet的協同挖掘方法相比,在相同的稀疏標注設置下,相比于不同的基線,改進了1.4%~2.1%,超過了現有的方法。
邊緣流通常用于捕獲動態網絡中的交互,如電子郵件、社交或計算機網絡。邊緣流異常或罕見事件的檢測問題有著廣泛的應用。然而,由于缺乏標簽,交互的高度動態特性,以及網絡中時間和結構變化的糾纏,它提出了許多挑戰。目前的方法在解決上述挑戰和有效處理大量交互方面能力有限。在此,我們提出了一種檢測邊緣流異常的新方法- F-FADE,它使用一種新的頻率因子分解技術來有效地模擬節點對間相互作用頻率的時間演化分布。然后,根據觀測到的每一次相互作用頻率的可能性來確定異常。F-FADE能夠在在線流媒體設置中處理時間和結構變化的各種異常,而只需要恒定的內存。我們在一個合成和六個真實世界動態網絡上的實驗表明,F-FADE達到了最先進的性能,可以檢測出以前的方法無法發現的異常。
視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。
//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。
題目: Deep Unfolding Network for Image Super-Resolution
摘要:
基于學習的單圖像超分辨率(SISR)方法不斷顯示出優于傳統的基于模型的方法的有效性和效率,這主要是由于端到端的訓練。但是,與基于模型的方法不同,基于模型的方法可以在統一的MAP(maximum a posteriori)框架下處理具有不同比例因子、模糊內核和噪聲級別的SISR問題,基于學習的方法通常缺乏這種靈活性。為了解決這一問題,本文提出了一種基于學習方法和基于模型方法的端到端可訓練展開網絡。具體來說,通過半二次分裂算法展開映射推理,可以得到由交替求解一個數據子問題和一個先驗子問題組成的固定次數的迭代。這兩個子問題可以用神經模塊來解決,從而得到一個端到端可訓練的迭代網絡。因此,所提出的網絡繼承了基于模型的方法的靈活性,在保持基于學習的方法的優點的同時,通過單一模型對不同尺度因子的模糊、有噪聲的圖像進行超分辨。大量的實驗證明了所提出的深度展開網絡在靈活性、有效性和可推廣性方面的優越性。