數據作為深度學習的驅動力,對于模型的訓練至關重要。充足的訓練數據不僅可以緩解模型在訓練時的過擬合問題,而且可以進一步擴大參數搜索空間,幫助模型進一步朝著全局最優解優化。然而,在許多領域或任務中,獲取到充足訓練樣本的難度和代價非常高。因此,數據增廣成為一種常用的增加訓練樣本的手段。本文對目前深度學習中的圖像數據增廣方法進行研究綜述,梳理了目前深度學習領域為緩解模型過擬合問題而提出的各類數據增廣方法,按照方法本質原理的不同,將其分為單數據變形、多數據混合、學習數據分布和學習增廣策略等4類方法,并以圖像數據為主要研究對象,對各類算法進一步按照核心思想進行細分,并對方法的原理、適用場景和優缺點進行比較和分析,幫助研究者根據數據的特點選用合適的數據增廣方法,為后續國內外研究者應用和發展研究數據增廣方法提供基礎。針對圖像的數據增廣方法,單數據變形方法主要可以分為幾何變換、色域變換、清晰度變換、噪聲注入和局部擦除等5種;多數據混合可按照圖像維度的混合和特征空間下的混合進行劃分;學習數據分布的方法主要基于生成對抗網絡和圖像風格遷移的應用進行劃分;學習增廣策略的典型方法則可以按照基于元學習和基于強化學習進行分類。目前,數據增廣已然成為推進深度學習在各領域應用的一項重要技術,可以很有效地緩解訓練數據不足帶來的深度學習模型過擬合的問題,進一步提高模型的精度。在實際應用中可根據數據和任務的特點選擇和組合最合適的方法,形成一套有效的數據增廣方案,進而為深度學習方法的應用提供更強的動力。在未來,根據數據和任務基于強化學習探索最優的組合策略,基于元學習自適應地學習最優數據變形和混合方式,基于生成對抗網絡進一步擬合真實數據分布以采樣高質量的未知數據,基于風格遷移探索多模態數據互相轉換的應用,這些研究方向十分值得探索并且具有廣闊的發展前景。
經典機器學習算法假設訓練數據和測試數據具有相同的輸入特征空間和相同的數據分布。在諸多現實問題中,這一假設往往不能滿足,導致經典機器學習算法失效。領域自適應是一種新的學習范式,其關鍵技術在于通過學習新的特征表達來對齊源域和目標域的數據分布,使得在有標簽源域訓練的模型可以直接遷移到沒有標簽的目標域上,同時不會引起性能的明顯損失。本文介紹領域自適應的定義,分類和代表性算法,重點討論基于度量學習的領域自適應算法和基于對抗學習的領域自適應算法。最后,分析領域自適應的典型應用和存在挑戰,明確領域自適應的發展趨勢,并提出未來可能的研究方向。
全球定位、移動通信技術迅速發展的背景下涌現出了海量的時空軌跡數據,這些數據是對移動對象在時空環境下的移動模式和行為特征的真實寫照,蘊含了豐富的信息,這些信息對于城市規劃、交通管理、服務推薦、位置預測等領域具有重要的應用價值,而這些過程通常需要通過對時空軌跡數據進行序列模式挖掘才能得以實現。時空軌跡序列模式挖掘旨在從時空軌跡數據集中找出頻繁出現的序列模式,挖掘時空數據中隱藏的信息,例如: 位置模式(頻繁軌跡、熱點區域)、活動周期模式、語義行為模式。綜述近來年時空軌跡序列模式挖掘的研究進展,先介紹時空軌跡序列的數據特點及應用,再描述時空軌跡模式的挖掘過程:從基于時空軌跡序列來挖掘位置模式、周期模式、語義模式三個方面來介紹該領域的研究情況,最后闡述現有時空軌跡序列模式挖掘方法存在的問題,展望其未來的發展趨勢。
摘要: 圖像分類的應用場景非常廣泛, 很多場景下難以收集到足夠多的數據來訓練模型, 利用小樣本學習進行圖像分類可解決訓練數據量小的問題. 本文對近年來的小樣本圖像分類算法進行了詳細綜述, 根據不同的建模方式, 將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類, 其中基于卷積神經網絡模型的算法包括四種學習范式: 遷移學習、元學習、對偶學習和貝葉斯學習; 基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據, 但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務, 有關的研究成果目前相對較少. 此外, 本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較. 最后, 討論了小樣本圖像分類技術的難點及未來研究趨勢.
深度學習在大量領域取得優異成果,但仍然存在著魯棒性和泛化性較差、難以學習和適應未觀測任務、極其依賴大規模數據等問題.近兩年元學習在深度學習上的發展,為解決上述問題提供了新的視野.元學習是一種模仿生物利用先前已有的知識,從而快速學習新的未見事物能力的一種學習定式.元學習的目標是利用已學習的信息,快速適應未學習的新任務.這與實現通用人工智能的目標相契合,對元學習問題的研究也是提高模型的魯棒性和泛化性的關鍵.近年來隨著深度學習的發展,元學習再度成為熱點,目前元學習的研究百家爭鳴、百花齊放. 本文從元學習的起源出發,系統地介紹元學習的發展歷史,包括元學習的由來和原始定義,然后給出當前元學習的通用定義,同時總結當前元學習一些不同方向的研究成果,包括基于度量的元學習方法、基于強泛化新的初始化參數的元學習方法、基于梯度優化器的元學習方法、基于外部記憶單元的元學方法、基于數據增強的元學方法等. 總結其共有的思想和存在的問題,對元學習的研究思想進行分類,并敘述不同方法和其相應的算法.最后論述了元學習研究中常用數據集和評判標準,并從元學習的自適應性、進化性、可解釋性、連續性、可擴展性展望其未來發展趨勢.
引言
隨著計算設備并行計算性能的大幅度 進步,以及近些年深度神經網絡在各個領域 不斷取得重大突破,由深度神經網絡模型衍 生而來的多個機器學習新領域也逐漸成型, 如強化學習、深度強化學習[1] [2] 、深度監督 學習等。在大量訓練數據的加持下,深度神 經網絡技術已經在機器翻譯、機器人控制、 大數據分析、智能推送、模式識別等方面取 得巨大成果[3] [4] [5] 。
實際上在機器學習與其他行業結合的 過程中,并不是所有領域都擁有足夠可以讓 深度神經網絡微調參數至收斂的海量數據, 相當多領域要求快速反應、快速學習,如新 興領域之一的仿人機器人領域,其面臨的現 實環境往往極為復雜且難以預測,若按照傳 統機器學習方法進行訓練則需要模擬所有 可能遇到的環境,工作量極大同時訓練成本 極高,嚴重制約了機器學習在其他領域的擴 展,因此在深度學習取得大量成果后,具有 自我學習能力與強泛化性能的元學習便成 為通用人工智能的關鍵。
元學習(Meta-learning)提出的目的是 針對傳統神經網絡模型泛化性能不足、對新 種類任務適應性較差的特點。在元學習介紹 中往往將元學習的訓練和測試過程類比為 人類在掌握一些基礎技能后可以快速學習并適應新任務,如兒童階段的人類也可以快 速通過一張某動物照片學會認出該動物,即 機 器 學 習 中 的 小 樣 本 學 習 ( Few-shot Learning)[6] [7] ,甚至不需要圖像,僅憑描 述就可學會認識新種類,對應機器學習領域 中的(Zero-shot Learning)[8] ,而不需要大 量該動物的不同照片。人類在幼兒階段掌握 的對世界的大量基礎知識和對行為模式的 認知基礎便對應元學習中的“元”概念,即一 個泛化性能強的初始網絡加上對新任務的 快速適應學習能力,元學習的遠期目標為通 過類似人類的學習能力實現強人工智能,當 前階段體現在對新數據集的快速適應帶來 較好的準確度,因此目前元學習主要表現為 提高泛化性能、獲取好的初始參數、通過少 量計算和新訓練數據即可在模型上實現和 海量訓練數據一樣的識別準確度,近些年基 于元學習,在小樣本學習領域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同時為模擬 人類認知,在 Zero-shot Learning 方向也進行 了大量探索[18] [19] [20] [21] [22] 。
在機器學習盛行之前,就已產生了元學習的相關概念。當時的元學習還停留在認知 教育科學相關領域,用于探討更加合理的教 學方法。Gene V. Glass 在 1976 年首次提出 了“元分析”這一概念[23] ,對大量的分析結 果進行統計分析,這是一種二次分析辦法。G Powell 使用“元分析”的方法對詞匯記憶 進行了研究[24] ,指出“強制”和“誘導”意象有 助于詞匯記憶。Donald B.Maudsley 在 1979 年首次提出了“元學習”這一概念,將其描述 為“學習者意識到并越來越多地控制他們已 經內化的感知、探究、學習和成長習慣的過 程”,Maudsley 將元學習做為在假設、結構、 變化、過程和發展這 5 個方面下的綜合,并 闡述了相關基本原則[25] 。BIGGS J.B 將元學 習描述為“意識到并控制自己的學習的狀 態” [26] ,即學習者對學習環境的感知。P Adey 將元學習的策略用在物理教學上[27] , Vanlehn K 探討了輔導教學中的元學習方法 [28] 。從元分析到元學習,研究人員主要關 注人是如何意識和控制自己學習的。一個具 有高度元學習觀念的學生,能夠從自己采用 的學習方法所產生的結果中獲得反饋信息,進一步評價自己的學習方法,更好地達到學 習目標[29] 。隨后元學習這一概念慢慢滲透 到機器學習領域。P.Chan 提出的元學習是一 種整合多種學習過程的技術,利用元學習的 策略組合多個不同算法設計的分類器,其整 體的準確度優于任何個別的學習算法[30] [31] [32] 。HilanBensusan 提出了基于元學習的決 策樹框架[33] 。Vilalta R 則認為元學習是通 過積累元知識動態地通過經驗來改善偏倚 的一種學習算法[34] 。
Meta-Learning 目前還沒有確切的定義, 一般認為一個元學習系統需結合三個要求:系統必須包含一個學習子系統;利用以前學 習中提取的元知識來獲得經驗,這些元知識 來自單個數據集或不同領域;動態選擇學習偏差。
元學習的目的就是為了設計一種機器學習模型,這種模型有類似上面提到的人的 學習特性,即使用少量樣本數據,快速學習 新的概念或技能。經過不同任務的訓練后, 元學習模型能很好的適應和泛化到一個新任務,也就學會了“Learning to learn”。
在計算機視覺領域,全景分割是一個新穎且重要的研究問題,它是機器感知、自動駕駛等新興前沿技術的基石,有著十分重要的研究意義. 本文綜述了基于深度學習的全景分割研究的最新進展,總結了全景分割任務的基本處理流程,并對已發表的全景分割工作基于其網絡結構特點進行分類,并作了全面的介紹與分析,最后對全景分割任務目前面臨的問題以及未來的發展趨勢做出了分析,并針對所面臨的問題提出了一些切實可行的解決思路.
全景分割[1]是將圖像劃分為語義區域(stuff)和 對象實例(things)的任務,是近年來新興起的一個研 究方向,也是計算機視覺中一個重要的研究問題. 隨著圖像處理技術的發展,數字圖像已經成為日常 生活中不可缺少的媒介,每時每刻都在產生圖像數 據. 對圖像中的物體進行快速準確的分割變得愈發重要.
全景分割包含語義分割和實例分割兩大任務. 語義分割是將類別標簽按圖像中物體類別分配給 每個像素,即將輸入圖像中的像素分為不同的語義 類別. 傳統的語義分割方法多數基于模型驅動,模 型驅動方法可分為生成式和判別式[2] . 生成式模型 首先學習圖像的特征和標簽概率,然后計算輸入圖 像特征時各個標簽的后驗概率,依據此概率對圖像 進行標注. 馬爾科夫隨機場(Markov Random Field, MRF)是一種應用廣泛的生成式模型[3],它利用先驗上下文信息和訓練得到的結果,提高分割性能. 但 是當圖像較大時,分割速度和精度會大幅下降. 判 別式模型假設圖像特征與標簽之間存在某種映射 關系,然后從歷史數據學習該映射關系的相關參數 [2] . 典型的判別式模型包括支持向量機(Support Vector Machine, SVM)、條件隨機場(Conditional Random Field, CRF)等. SVM 因其可處理非線性且 具有良好的泛化能力,在語義分割研究中得到了廣 泛應用[3]. CRF 不僅可以利用圖像上下文信息,還 可學習從局部到全局的上下文信息,已經成功應用 于圖像標記[4] . 然而,判別式模型存在收斂速度慢無法解決存在隱變量的情況等不容忽視的問題.
近年來,隨著硬件計算能力的提高,語義分割 得到快速發展. 隨著全卷積網絡(fully convolutional network, FCN)的出現[5],深度學習推動語義分割任 務快速發展,并且在自動駕駛、人臉識別等領域得 到應用.
實例分割實質上是目標檢測和語義分割的結合,目的是將輸入圖像中的目標檢測出來,并且對 每個像素分配類別標簽. 實例分割能夠對前景語義 類別相同的不同實例進行區分,這是它與語義分割 的最大區別. 相比語義分割,實例分割發展較晚, 因此實例分割模型主要基于深度學習技術,但它也 是圖像分割一個重要的組成部分. 隨著深度學習的 發展,實例分割相繼出現了 SDS [6]、DeepMask [7]、 MultiPath Network [8]等方法,分割精度和效率逐漸 得到提升.
全景分割是語義分割和實例分割的綜合. 全景 分割任務不僅要求區分輸入圖像中的背景語義類 別和前景語義類別,還要將同一類別前景語義中的 不同實例分割出來,因此全景分割任務比語義分 割、實例分割任務的難度更高. 全景分割由 Kirillov 等人[1]于 2018 年提出,已經得到計算機視覺學界的 高度重視,涌現出 JSIS-Net[9]、TASCNet[10]、AUNet[11] 等方法,顯著推動了全景分割的發展. 但是在真實 環境下,全景分割經常遇到以下挑戰:
(1) 分支融合沖突 全景分割任務是語義分割與實例分割兩個任務的綜合,在網絡結構方面,現有大部分方法將輸 入圖像的特征輸入到語義分支與實例分支,然后融 合兩個分支的輸出,得到全景輸出. 但是在融合時 會出現像素分配沖突,影響全景預測質量.
(2) 小物體檢測分割 數據集中的圖像會出現大小、距離不一的許多 物體,對于大物體,諸多全景分割方法能夠對其進 行準確分割,當小物體出現時,經常伴隨被忽略或 者分割不準確的問題,這導致全景分割精度較低, 直接增加了全景分割的難度.
(3) 分割對象交疊 在圖像采集過程中,會因為季節、天氣、光照、 距離等條件的變化,出現不同的場景,圖像中物體 會出現遮擋交疊等情況,這使得分割方法無法準確 判斷像素的歸屬,導致分割不精確. 為了克服上述挑戰,已經出現了一些全景分割 方法,它們在分支融合、小物體檢測、遮擋處理方 面提出了不同的應對策略,在一定程度上解決了這 些問題.
本文首先介紹全景分割的流程,然后重點 介紹深度學習在全景分割領域的研究進展. 本文內容安排如下:第 1 節介紹全景分割的基 本流程;第 2 節對語義分割、實例分割等相關知識 以及全景分割數據集進行介紹;第 3 節介紹深度學 習在全景分割領域的研究進展;第 4 節討論全景分 割研究面臨的挑戰,并對今后的發展趨勢進行展 望;第 5 節對本文進行總結.
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。
摘要:圖像分類的應用場景非常廣泛,很多場景下難以收集到足夠多的數據來訓練模型,利用小樣本學習進行圖像分類可解決訓練數據量小的問題.本文對近年來的小樣本圖像分類算法進行了詳細綜述,根據不同的建模方式,將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類,其中基于卷積神經網絡模型的算法包括四種學習范式:遷移學習、元學習、對偶學習和貝葉斯學習;基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據,但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務,有關的研究成果目前相對較少.此外,本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較.最后,討論了小樣本圖像分類技術的難點及未來研究趨勢.
摘要: 線條畫作為一種簡單而有效的視覺傳達手段,通過突出主要的細節特征,使得人們可以快速地獲得主要信息;同時,風格線條畫作為一種藝術形式,讓人們能夠快速欣賞和理解其藝術特征。文中對線條畫的生成方法進行了綜述與分析。線條畫生成技術可以分為基于2D圖像的方法與基于3D模型的方法。其中,基于2D圖像的線條畫生成技術包括樣本學習方法、非樣本學習的數據驅動方法與非數據驅動方法;基于3D模型的線條畫生成技術包括圖像空間方法、對象空間方法以及兩者的混合方法。通過介紹與分析各種方法并對比分析其優缺點,總結了線條畫生成技術現階段存在的問題及其可能的解決方案,并在此基礎上對線條畫生成的未來發展趨勢進行了展望。