圖像質量評價一直是圖像處理和計算機視覺領域的一個基礎問題,圖像質量評價模型也廣泛應用于圖像/視頻編碼、超分辨率重建和圖像/視頻視覺質量增強等相關領域。圖像質量評價主要包括全參考圖像質量評價、半參考圖像質量評價和無參考圖像質量評價。全參考圖像質量評價和半參考圖像質量評價分別指預測圖像質量時參考信息完全可用和部分可用,而無參考圖像質量評價是指預測圖像質量時參考信息不可用。雖然全參考和半參考圖像質量評價模型較為可靠,但在計算過程中必須依賴參考信息,使得應用場景極為受限。無參考圖像質量評價模型因不需要依賴參考信息而有較強的適用性,一直都是圖像質量評價領域研究的熱點。本文主要概述2012—2020年國內外公開發表的無參考圖像質量評價模型,根據模型訓練過程中是否需要用到主觀分數,將無參考圖像質量評價模型分為有監督學習和無監督學習的無參考圖像質量評價模型。同時,每類模型分成基于傳統機器學習算法的模型和基于深度學習算法的模型。對基于傳統機器學習算法的模型,重點介紹相應的特征提取策略及思想;對基于深度學習算法的模型,重點介紹設計思路。此外,本文介紹了圖像質量評價在新媒體數據中的研究工作及圖像質量評價的應用。最后對介紹的無參考圖像質量評價模型進行總結,并指出未來可能的發展方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210203&flag=1
摘要 在線社交網絡中的消息流行度預測研究,對推薦、廣告、檢索等應用場景都具有非常重要的作用。近年來,深度學習的蓬勃發展和消息傳播數據的積累,為基于深度學習的流行度預測研究提供了堅實的發展基礎。現有的流行度預測研究綜述,主要是圍繞傳統的流行度預測方法展開的,而基于深度學習的流行度預測方法目前仍未得到系統性地歸納和梳理,不利于流行度預測領域的持續發展。鑒于此,該文重點論述和分析現有的基于深度學習的流行度預測相關研究,對近年來基于深度學習的流行度預測研究進行了歸納梳理,將其分為基于深度表示和基于深度融合的流行度預測方法,并對該研究方向的發展現狀和未來趨勢進行了分析展望。
隨著人臉表情識別任務逐漸從實驗室受控環境轉移至具有挑戰性的真實世界環境,在深度學習技術的迅猛發展下,深度神經網絡能夠學習出具有判別能力的特征,逐漸應用于自動人臉表情識別任務。目前的深度人臉表情識別系統致力于解決以下兩個問題:1)由于缺乏足量訓練數據導致的過擬合問題;2)真實世界環境下其他與表情無關因素變量(例如光照、頭部姿態和身份特征)帶來的干擾問題。本文首先對近十年深度人臉表情識別方法的研究現狀以及相關人臉表情數據庫的發展進行概括。然后,將目前基于深度學習的人臉表情識別方法分為兩類:靜態人臉表情識別和動態人臉表情識別,并對這兩類方法分別進行介紹和綜述。針對目前領域內先進的深度表情識別算法,對其在常見表情數據庫上的性能進行了對比并詳細分析了各類算法的優缺點。最后本文對該領域的未來研究方向和機遇挑戰進行了總結和展望:考慮到表情本質上是面部肌肉運動的動態活動,基于動態序列的深度表情識別網絡往往能夠取得比靜態表情識別網絡更好的識別效果。此外,結合其他表情模型如面部動作單元模型以及其他多媒體模態,如音頻模態和人體生理信息能夠將表情識別拓展到更具有實際應用價值的場景。
對流體圖像序列進行運動分析一直是流體力學、醫學和計算機視覺等領域的重要研究課題。從圖像對中提取的密集精確的速度矢量場能夠為許多領域提供有價值的信息,基于光流法的流體運動估計技術因其獨特的優勢成為一個有前途的方向。光流法可以獲得具有較高分辨率的密集速度矢量場,在小尺度精細結構的測量上有所改進,彌補了基于相關分析法的粒子圖像測速技術的不足。此外,光流方法還可以方便的引入各種物理約束,獲得較為符合流體運動特性的運動估計結果。為了全面反映基于光流法的流體運動估計算法的研究進展,本文在廣泛調研相關文獻的基礎上,對國內外具有代表性的論文進行了系統闡述。首先介紹了光流法的基本原理,然后將現有算法按照要解決的突出問題進行分類:結合流體力學知識的能量最小化函數,提高對光照變化的魯棒性,大位移估計和消除異常值。對每類方法,從問題解決過程的角度予以介紹,分析了各類突出問題中現有算法的特點和局限性。最后,總結分析了流體運動估計技術當前面臨的問題和挑戰,并對未來基于光流法的運動估計算法的研究方向和研究重點進行了展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210209&flag=1
生成對抗網絡(GAN)是無監督學習領域最近幾年快速發展的一個研究方向,其主要特點是能夠以一種間接的方 式對一個未知分布進行建模。在計算機視覺研究領域中,生成對抗網絡有著廣泛的應用,特別是在圖像生成方面,與其他的 生成模型相比,生成對抗網絡不僅可以避免復雜的計算,而且生成的圖像質量也更好。因此,本文將對生成對抗網絡及其在 圖像生成中的研究進展做一個小結和分析;本文首先從模型的架構、目標函數的設計、生成對抗網絡在訓練中存在的問題, 以及如何處理模式崩潰問題等角度對生成對抗網絡進行一個詳細的總結和歸納;其次介紹生成對抗網絡在圖像生成中的兩 種方法;隨后對一些典型的、用來評估生成圖像質量和多樣性的方法進行小結;并且對基于圖像生成的應用進行詳細分析;最后對生成對抗網絡和圖像生成進行總結,同時對其發展趨勢進行一個展望。
深度學習在大量領域取得優異成果,但仍然存在著魯棒性和泛化性較差、難以學習和適應未觀測任務、極其依賴大規模數據等問題.近兩年元學習在深度學習上的發展,為解決上述問題提供了新的視野.元學習是一種模仿生物利用先前已有的知識,從而快速學習新的未見事物能力的一種學習定式.元學習的目標是利用已學習的信息,快速適應未學習的新任務.這與實現通用人工智能的目標相契合,對元學習問題的研究也是提高模型的魯棒性和泛化性的關鍵.近年來隨著深度學習的發展,元學習再度成為熱點,目前元學習的研究百家爭鳴、百花齊放. 本文從元學習的起源出發,系統地介紹元學習的發展歷史,包括元學習的由來和原始定義,然后給出當前元學習的通用定義,同時總結當前元學習一些不同方向的研究成果,包括基于度量的元學習方法、基于強泛化新的初始化參數的元學習方法、基于梯度優化器的元學習方法、基于外部記憶單元的元學方法、基于數據增強的元學方法等. 總結其共有的思想和存在的問題,對元學習的研究思想進行分類,并敘述不同方法和其相應的算法.最后論述了元學習研究中常用數據集和評判標準,并從元學習的自適應性、進化性、可解釋性、連續性、可擴展性展望其未來發展趨勢.
引言
隨著計算設備并行計算性能的大幅度 進步,以及近些年深度神經網絡在各個領域 不斷取得重大突破,由深度神經網絡模型衍 生而來的多個機器學習新領域也逐漸成型, 如強化學習、深度強化學習[1] [2] 、深度監督 學習等。在大量訓練數據的加持下,深度神 經網絡技術已經在機器翻譯、機器人控制、 大數據分析、智能推送、模式識別等方面取 得巨大成果[3] [4] [5] 。
實際上在機器學習與其他行業結合的 過程中,并不是所有領域都擁有足夠可以讓 深度神經網絡微調參數至收斂的海量數據, 相當多領域要求快速反應、快速學習,如新 興領域之一的仿人機器人領域,其面臨的現 實環境往往極為復雜且難以預測,若按照傳 統機器學習方法進行訓練則需要模擬所有 可能遇到的環境,工作量極大同時訓練成本 極高,嚴重制約了機器學習在其他領域的擴 展,因此在深度學習取得大量成果后,具有 自我學習能力與強泛化性能的元學習便成 為通用人工智能的關鍵。
元學習(Meta-learning)提出的目的是 針對傳統神經網絡模型泛化性能不足、對新 種類任務適應性較差的特點。在元學習介紹 中往往將元學習的訓練和測試過程類比為 人類在掌握一些基礎技能后可以快速學習并適應新任務,如兒童階段的人類也可以快 速通過一張某動物照片學會認出該動物,即 機 器 學 習 中 的 小 樣 本 學 習 ( Few-shot Learning)[6] [7] ,甚至不需要圖像,僅憑描 述就可學會認識新種類,對應機器學習領域 中的(Zero-shot Learning)[8] ,而不需要大 量該動物的不同照片。人類在幼兒階段掌握 的對世界的大量基礎知識和對行為模式的 認知基礎便對應元學習中的“元”概念,即一 個泛化性能強的初始網絡加上對新任務的 快速適應學習能力,元學習的遠期目標為通 過類似人類的學習能力實現強人工智能,當 前階段體現在對新數據集的快速適應帶來 較好的準確度,因此目前元學習主要表現為 提高泛化性能、獲取好的初始參數、通過少 量計算和新訓練數據即可在模型上實現和 海量訓練數據一樣的識別準確度,近些年基 于元學習,在小樣本學習領域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同時為模擬 人類認知,在 Zero-shot Learning 方向也進行 了大量探索[18] [19] [20] [21] [22] 。
在機器學習盛行之前,就已產生了元學習的相關概念。當時的元學習還停留在認知 教育科學相關領域,用于探討更加合理的教 學方法。Gene V. Glass 在 1976 年首次提出 了“元分析”這一概念[23] ,對大量的分析結 果進行統計分析,這是一種二次分析辦法。G Powell 使用“元分析”的方法對詞匯記憶 進行了研究[24] ,指出“強制”和“誘導”意象有 助于詞匯記憶。Donald B.Maudsley 在 1979 年首次提出了“元學習”這一概念,將其描述 為“學習者意識到并越來越多地控制他們已 經內化的感知、探究、學習和成長習慣的過 程”,Maudsley 將元學習做為在假設、結構、 變化、過程和發展這 5 個方面下的綜合,并 闡述了相關基本原則[25] 。BIGGS J.B 將元學 習描述為“意識到并控制自己的學習的狀 態” [26] ,即學習者對學習環境的感知。P Adey 將元學習的策略用在物理教學上[27] , Vanlehn K 探討了輔導教學中的元學習方法 [28] 。從元分析到元學習,研究人員主要關 注人是如何意識和控制自己學習的。一個具 有高度元學習觀念的學生,能夠從自己采用 的學習方法所產生的結果中獲得反饋信息,進一步評價自己的學習方法,更好地達到學 習目標[29] 。隨后元學習這一概念慢慢滲透 到機器學習領域。P.Chan 提出的元學習是一 種整合多種學習過程的技術,利用元學習的 策略組合多個不同算法設計的分類器,其整 體的準確度優于任何個別的學習算法[30] [31] [32] 。HilanBensusan 提出了基于元學習的決 策樹框架[33] 。Vilalta R 則認為元學習是通 過積累元知識動態地通過經驗來改善偏倚 的一種學習算法[34] 。
Meta-Learning 目前還沒有確切的定義, 一般認為一個元學習系統需結合三個要求:系統必須包含一個學習子系統;利用以前學 習中提取的元知識來獲得經驗,這些元知識 來自單個數據集或不同領域;動態選擇學習偏差。
元學習的目的就是為了設計一種機器學習模型,這種模型有類似上面提到的人的 學習特性,即使用少量樣本數據,快速學習 新的概念或技能。經過不同任務的訓練后, 元學習模型能很好的適應和泛化到一個新任務,也就學會了“Learning to learn”。
隨著人工智能技術的深入發展,自動駕駛已經成為人工智能技術的典型應用,近十年得到了長足的發展,作為一類非確定性系統,自動駕駛車輛的質量和安全性得到越來越多的關注.對自動駕駛系統,特別是自動駕駛智能系統(如感知模塊,決策模塊,綜合功能及整車)的測試技術得到了業界和學界的深入研究.本文調研了56篇相關領域的學術論文,分別就感知模塊、決策模塊、綜合功能模塊及整車系統的測試技術、用例生成方法和測試覆蓋度量等維度對目前已有的研究成果進行了梳理,并描述了自動駕駛智能系統測試中的數據集及工具集.最后,對自動駕駛智能系統測試的未來工作進行了展望,為該領域的研究人員提供參考.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6266&flag=1
在計算機視覺領域中,語義分割是場景解析和行為識別的關鍵任務,基于深度卷積神經網絡的圖像語義分割方法已經取得突破性進展。語義分割的任務是對圖像中的每一個像素分配所屬的類別標簽,屬于像素級的圖像理解。目標檢測僅定位目標的邊界框,而語義分割需要分割出圖像中的目標。本文首先分析和描述了語義分割領域存在的困難和挑戰,介紹了語義分割算法性能評價的常用數據集和客觀評測指標。然后,歸納和總結了現階段主流的基于深度卷積神經網絡的圖像語義分割方法的國內外研究現狀,依據網絡訓練是否需要像素級的標注圖像,將現有方法分為基于監督學習的語義分割和基于弱監督學習的語義分割兩類,詳細闡述并分析這兩類方法各自的優勢和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012數據集上比較了部分監督學習和弱監督學習的語義分割模型,并給出了監督學習模型和弱監督學習模型中的最優方法,以及對應的MIoU(mean intersection-over-union)。最后,指出了圖像語義分割領域未來可能的熱點方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20200601&flag=1
顯著性檢測一直是計算機視覺領域的關鍵問題,在視覺跟蹤、圖像壓縮和目標識別等方面有著非常重要的應用。基于傳統RGB圖像和RGB-D (RGB depth)圖像的顯著性檢測易受復雜背景、光照、遮擋等因素影響,在復雜場景的檢測精度較低,魯棒的顯著性檢測仍存在很大挑戰。隨著光場成像技術的發展,人們開始從新的途徑解決顯著性檢測問題。光場數據記錄著空間光線位置信息和方向信息,隱含場景的幾何結構,能為顯著性檢測提供可靠的背景、深度等先驗信息。因此,利用光場數據進行顯著性檢測得到了廣泛關注,成為研究熱點。盡管基于光場數據的顯著性檢測算法陸續出現,但是缺少對該問題的深刻理解以及研究進展的全面綜述。本文系統地綜述了基于光場數據的顯著性檢測研究現狀,并進行深入探討和展望。對光場理論以及用于光場顯著性檢測的公共數據集進行介紹;系統地介紹了光場顯著性檢測領域的算法模型和最新進展,從人工設計光場特征、稀疏編碼特征和深度學習特征等方面進行全面闡述及分析;通過4個公共光場顯著性數據集上的實驗數據對不同方法的優缺點進行比較和分析,并結合實際應用指出當前研究的局限性與發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20201201&flag=1
在觀測圖像時,人類的視覺系統能夠快速獲取圖像中感興趣的區域和目標,這個過程稱為視覺注意力機制。顯著性檢測是通過智能算法模擬人類視覺注意力機制,提取圖像中人類感興趣的區域(Borji等,2015)。顯著性檢測一直是計算機視覺領域的研究熱點。顯著性檢測首先檢測場景中最引人注意的目標,然后將這類目標作為整體劃分出來。準確有效的顯著性檢測可以為視覺跟蹤(Mahadevan和Vasconcelos,2012)、目標檢測與識別(Han和Vasconcelos,2014)和視頻壓縮(Itti,2004)等提供可靠的先驗信息。
自Itti等人(1998)提出多尺度顯著性檢測模型以來,出現了大量各式各樣的顯著性檢測模型,顯著性檢測算法的性能逐步提升,取得了很大進展(Ju等,2014;Ren等,2015)。但是在復雜場景中,魯棒的顯著性檢測仍存在很大挑戰,主要表現在:1)場景中存在多個顯著目標且尺度變化較大;2)顯著區域的顏色或紋理與背景相似;3)場景中光源顏色不一致;4)顯著目標被部分遮擋;5)難以提取完整目標。
針對這些難點,研究者提出多種顯著性檢測算法,根據使用數據來源不同,這些顯著性檢測算法分為3類:基于RGB圖像的顯著性檢測算法、基于RGB-D(RGB depth)圖像的顯著性檢測算法和基于光場數據的顯著性檢測算法。其中基于RGB圖像的顯著性檢測算法最多,一個原因是RGB圖像是人們生活中最廣泛使用且最容易獲取的圖像。這類算法大多通過計算圖像的顏色、形狀、方向以及紋理等底層圖像特征(Xu等,2013;Zhao和Koch,2012)獲取顯著線索,或利用特征學習技術如卷積神經網絡(Li和Yu,2015a)、稀疏編碼(Li等,2013b)或者循環神經網絡(Tang等,2016)等方式檢測顯著性目標。雖然這些方法在顯著性檢測任務上取得了有競爭力的效果,但是對于挑戰性場景,仍然可能出現顯著目標檢測錯誤。原因有兩個:1)基于深度學習的顯著性檢測算法受限于RGB圖像的特征;2)基于RGB圖像的傳統算法存在許多先驗知識,如顯著性區域與其周圍環境存在高對比度、背景簡單、顯著性目標無遮擋、場景光源單一等,而實際上許多真實場景與這些先驗相悖,導致基于RGB圖像的傳統算法性能降低,如圖 1(Li等,2014)中基于全局對比度(global contrast,GC)的顯著性檢測算法(Cheng等,2015)和基于差別區域特征融合(discriminative regional feature integration,DRFI)的顯著性檢測算法(Jiang等,2013)都無法精準地從背景中分離顯著目標。
Poggio和Poggio(1984)表明RGB圖像不能完全表示人眼對世界的認識,因為RGB圖像忽略了人的雙目系統對場景深度的感知。深度信息能夠區分位于不同深度層的物體,減少背景干擾(Wolfe和Horowitz,2004)。因此,學者們開始利用雙目相機,如Kinect(Zhang,2012)獲取含有深度信息的RGB-D圖像,結合深度特征和RGB圖像中的特征來提高顯著性檢測的魯棒性(Lang等,2012;Peng等,2014)。然而,這類算法也存在兩方面問題:1)基于RGB-D圖像的顯著性檢測算法嚴重依賴深度圖的質量,當深度圖質量較差時,則無法為顯著性檢測提供有效信息;2)基于RGB-D圖像的顯著性檢測算法常常忽略深度和外觀之間的關聯,當顯著目標與背景有著相似的顏色和深度時,如圖 2(Piao等,2019a)所示,基于異性中心-周圍特征的深度顯著性檢測算法(anisotropic center-surround difference,ACSD)(Ju等,2014)也無法精準檢測顯著目標。
光場成像借助新的成像技術,能夠同時記錄光輻射在空間中的位置和方向信息(Adelson和Wang,1992),與RGB圖像和RGB-D圖像相比,光場數據包含了光的顏色、強度、位置和方向,更能反映自然場景的幾何和反射特性,已成功用于計算機視覺的許多任務,如材料識別(Wang等,2016)、深度估計(Tao等,2017;Williem等,2018;Jeon,2019)和顯著性檢測(Li等,2014;Zhang等,2015)等。其中,在顯著性檢測任務中,相比RGB圖像和RGB-D圖像,利用光場數據進行顯著性檢測有以下優勢:1)光場數據包含位置信息和角度信息,為獲得場景深度信息提供了多視角幾何信息;2)數字重聚焦技術(Ng等,2005)可以將光場數據合成一系列聚焦在不同深度層的焦點堆棧圖像,顯著目標個體通常處于同一深度面,利用這些焦點堆棧圖像的聚焦區域線索,能夠提供背景線索,更完整地檢測顯著目標;3)光場數據記錄不同方向的光線信息,可以從多個角度描述場景,提供了有效的顯著目標遮擋信息;4)從光場數據中能生成全聚焦圖像,全聚焦圖像中的每個像素都是清晰的,有更清楚的顏色、紋理等。從這些方面來看,光場數據可以為顯著性檢測提供更多信息以及解決檢測難題的途徑,有利于處理相似的前景和背景、顯著目標被部分遮擋、多個顯著目標等難點場景,如圖 1所示,相比基于RGB圖像的算法,光場顯著性檢測方法(light field saliency,LFS)(Li等,2014)更能應對復雜場景。
自Li等人(2014)利用光場數據進行顯著性檢測后,基于光場數據的顯著性檢測迅速發展,出現了很多基于光場數據的顯著性檢測算法(Zhang等,2015;Li等,2015b;Zhang等,2017;Wang等,2018b;Zhang等,2020),但是一直沒有完整的關于光場顯著性檢測進展的文獻綜述和詳細調查,目前,基于光場數據的顯著性檢測研究在該領域內仍然存在很大的進步空間,因此有必要進行全面綜述和討論。本文系統描述了基于光場數據的顯著性檢測研究進展和面臨的挑戰,希望能為進一步研究顯著性檢測提供幫助,并期待能啟發更多的創新型工作。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1