基于深度學習的圖像處理算法研究
隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。
盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:
(1) 一種基于無監督學習的空間自適應圖像平滑算法
該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。
(2) 一種基于弱監督學習的圖像反光去除算法
該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。
(3) 一種基于多標簽聯合訓練的本征圖像分解算法
本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。
(4) 一種基于解耦學習的實時參數化圖像處理框架
傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。
摘要:醫學影像分割是計算機視覺在醫學影像處理中的一個重要應用領域,其目標是從醫學影像中分割出目標區域,為后續的疾病診斷和治療提供有效的幫助。近年來深度學習技術在圖像處理方面取得了巨大進展,基于深度學習的醫學影像分割算法逐漸成為該領域研究的重點和熱點。首先敘述了計算機視覺下的醫學影像分割任務及其難點,然后重點綜述了基于深度學習的醫學影像分割算法,對當前具有代表性的相關方法進行了分類和總結,進而介紹了醫學影像分割算法常用的評價指標和數據集。最后,對該技術的發展進行了總結和展望。
辨識性特征學習及在細粒度分析中的應用
細粒度分析旨在對粗粒度的大類進行細粒度的子類劃分,如把鳥劃分為里海燕鷗、 北極燕鷗等子類別。其廣泛應用于智能農業、智能醫療等智能產業,具有重要的研究 和應用價值。其挑戰在于類間差異小、類內差異大。以圖像為例,不同子類別在形狀、 顏色上差異細微,難以區分;相同子類別在姿態、視角上差異顯著,容易誤分。因此, 關鍵科學問題是:如何獲取細粒度子類別的辨識性信息并有效表達,突破細粒度分析難題。針對上述問題,本文從減少標注成本、減少人工先驗、提高辨識速度、提高語義 關聯四個方面展開辨識性特征學習研究,并分別應用于細粒度圖像分類和細粒度跨媒 體檢索任務。主要工作總結如下:
在減少標注成本上,提出了基于對象-部件注意力模型的細粒度圖像分類方法。在對象級注意力上,提出注意力選擇和顯著性提取,自動定位對象區域,學習更 精細的對象特征。在部件級注意力上,提出空間關聯約束和部件語義對齊,實現 辨識性部件的有效定位,排除了姿態、視角等差異的干擾。兩者結合能夠學習 到多粒度的辨識性特征,準確率超過了使用對象、部件人工標注的強監督方法。
在減少人工先驗上,提出了基于堆疊式深度強化學習的細粒度圖像分類方法。首 先,層次化地定位圖像中的多粒度辨識性區域,并自適應地確定其數目。然后, 通過多尺度區域的定位及辨識性特征學習,進一步提升細粒度圖像分類準確率。學習過程由語義獎勵函數驅動,能夠有效捕捉圖像中的辨識性、概念性的視覺 信息,實現弱監督甚至無監督條件下的辨識性特征學習。
在提高辨識速度上,提出了基于弱監督快速辨識定位的細粒度圖像分類方法。首 先,提出多級注意力引導的辨識性定位,通過顯著圖生成偽監督信息,實現了 弱監督條件下的辨識性定位。進一步顯著圖驅動二次定位學習,增強了定位的 準確性。然后,提出多路端到端辨識性定位網絡,實現多個辨識性區域的同時 定位,從而提高了辨識速度。多個辨識性區域之間互補促進,提升細粒度圖像 分類準確率。
在提高語義關聯上,引入文本、視頻、音頻等跨媒體數據,提出了基于細粒度 分類的跨媒體檢索方法。建立了首個包含 4 種媒體類型(圖像、文本、視頻和 音頻)的細粒度跨媒體檢索公開數據集和評測基準 PKU FG-XMedia。提出了能 夠同時學習 4 種媒體統一表征的深度模型 FGCrossNet,確保統一表征的辨識性、 類內緊湊性和類間松散性。實現圖像向跨媒體的擴展,分類向檢索的擴展。
摘要: 圖像補全是圖像處理的一個研究領域,為有物體遮擋以及圖像關鍵部分缺失狀況下的圖像識別提供了解決方案,應用領域非常廣泛,受到了人們的關注。經深度學習方法補全的圖像具有更高的圖像分辨率和可靠性,逐漸成為圖像補全的主流方法之一。文中針對圖像補全領域的主要問題,介紹了相關深度學習方法的基本原理和經典算法,系統而漸進地剖析了2010年以來有代表性的圖像補全方法,探討了基于深度學習的圖像補全在不同領域的具體應用,并列舉了該研究領域目前面臨的幾個問題。
摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.
摘要: 大數據時代,數據呈現維度高、數據量大和增長快等特點。如何有效利用其中蘊含的有價值信息,以實現數據的智能化處理,已成為當前理論和應用的研究熱點。針對現實普遍存在的多義性對象,數據多標簽被提出并被廣泛應用于數據智能化組織。近年來,深度學習在數據特征提取方面呈現出高速、高精度等優異性,使基于深度學習的多標簽生成得到廣泛關注。文中分五大類別總結了最新研究成果,并進一步從數據、關系類型、應用場景、適應性及實驗性能方面對其進行對比和分析,最后探討了多標簽生成面臨的挑戰和未來的研究方向。