近期,歸一化流(Normalizing Flow)模型在底層視覺領域取得了驚人的效果。在圖像超分辨率上(image SR),可以用來從低分辨率圖像中預測出細節不同的高質量高分辨率(?diverse photo-realistic)圖像。在圖像再縮放(image rescaling)上,可以用來聯合建模下采樣和上采樣過程,從而提升性能。
本文提出了一個統一的框架 HCFlow,可以用于處理這兩個問題。具體而言,HCFlow 通過對低分辨率圖像和丟失的高頻信息進行概率建模,在高分辨率和低分辨率圖像之間學習一個雙射(bijection)。其中,高頻信息的建模過程以一種多層級的方式條件依賴于低分辨率圖像。在訓練中,該研究使用最大似然損失函數進行優化,并引入了感知損失函數(perceptual loss)和生成對抗損失函數(GAN loss)等進一步提升模型效果。
實驗結果表明,HCFlow 在通用圖像超分辨率、人臉圖像超分辨率和圖像再縮放等任務上取得了最佳的結果。
對于一張包含了許多文字信息的圖片,不同的人感興趣的文字信息可能是不同的。然而目前對于圖片文字敏感的圖像描述模型并不能根據不同的信息需求生成個性化的描述。為了研究如何生成個性化的關于圖片文字的描述,我們定義了一個新的具有挑戰的任務,名為“問題控制的圖片文字敏感的圖像描述”(Qc-TextCap)。這個任務采用問題作為控制信號,要求模型首先理解問題,然后找到對應的圖片文字,最后結合圖像中的對象用流利的人類語言描述出來。我們基于已有的兩個“圖片文字敏感的圖像描述”數據集自動構建了兩個適合Qc-TextCap的數據集:ControlTextCaps和ControlVizWiz。我們進一步提出了一個新穎的對空間位置和問題敏感的模型(GQAM),可以逐步地編碼相關的視覺特征和文本特征以支持最后的描述生成。考慮到圖像中對象區域和文字區域的空間關系,GQAM首先應用一個空間視覺編碼器去融合相關的視覺特征。然后我們使用一個問題導向的編碼器去為每個問題挑選最相關的視覺特征。最后,GQAM使用一個多模態解碼器生成圖像描述。我們的模型在兩個數據集上的效果都超過了基準模型。通過問題作為控制信號,我們的模型可以得到更加多樣,更有信息量的圖像描述。
本項研究針對深度傳感系統獲取的場景深度圖像分辨率低和細節丟失等問題,突破現有基于彩色指導的場景深度復原方法的局限性,即在訓練及測試階段同時需要高分辨率彩色圖像和降質深度圖像作為網絡輸入來估計高質量深度圖像(在實際測試環境中,同視角的高分辨率彩色輔助信息并不容易獲得)。首次提出基于跨任務場景結構知識遷移的單一場景深度圖像超分辨率方法,在訓練階段從彩色圖像蒸餾出場景結構信息來輔助提升深度復原性能,而測試階段僅提供單張降質深度圖像作為輸入即可實現深度圖像重建。該算法框架同時構造了深度估計任務(彩色圖像為輸入估計深度信息)及深度復原任務(低質量深度為輸入估計高質量深度),并提出了基于師生角色交換的跨任務知識蒸餾策略以及不確定度引導的結構正則化學習來實現雙邊知識遷移,通過協同訓練兩個任務來提升深度超分辨率任務的性能。在實際部署和測試中,所提出的方法具有模型輕量化,算法速度快等特點,且在缺少高分辨率彩色信息輔助的情況下仍可獲得優異的性能。
//faculty.dlut.edu.cn/yexinchen/zh_CN/zdylm/1123985/list/index.htm
在本文中,我們關注的是語義圖像合成任務,目的是將語義標記映射遷移到逼真的圖像。現有的方法在保留語義信息方面缺乏有效的語義約束,忽略了空間維度和通道維度上的結構相關性,導致結果模糊且容易產生假象。為了解決這些限制,我們提出了一種新的對偶注意力GAN (DAGAN),它可以合成具有輸入布局細節的真實照片和語義一致的圖像,而不增加額外的訓練開銷或修改現有方法的網絡結構。我們還提出了兩個新的模塊,即位置-方向的空間注意力模塊和尺度-方向的通道注意模塊,分別用于捕獲空間和通道維度上的語義結構注意力。具體來說,SAM通過空間注意力圖選擇性地將每個位置的像素關聯起來,從而使得具有相同語義標簽的像素無論在空間上的距離如何都相互關聯起來。同時,CAM通過通道注意力圖選擇性地強調每個通道上的標度特征,從而在所有的通道圖中集成相關的特征,而不管它們的標度如何。最后對SAM和CAM的結果進行求和,進一步改進特征表示。在四個具有挑戰性的數據集上進行的廣泛實驗表明,DAGAN取得了比最先進的方法顯著更好的結果,同時使用更少的模型參數。源代碼和經過訓練的模型可以在這個https URL中獲得。