摘要: 圖像分類的應用場景非常廣泛, 很多場景下難以收集到足夠多的數據來訓練模型, 利用小樣本學習進行圖像分類可解決訓練數據量小的問題. 本文對近年來的小樣本圖像分類算法進行了詳細綜述, 根據不同的建模方式, 將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類, 其中基于卷積神經網絡模型的算法包括四種學習范式: 遷移學習、元學習、對偶學習和貝葉斯學習; 基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據, 但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務, 有關的研究成果目前相對較少. 此外, 本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較. 最后, 討論了小樣本圖像分類技術的難點及未來研究趨勢.
深度學習在大量領域取得優異成果,但仍然存在著魯棒性和泛化性較差、難以學習和適應未觀測任務、極其依賴大規模數據等問題.近兩年元學習在深度學習上的發展,為解決上述問題提供了新的視野.元學習是一種模仿生物利用先前已有的知識,從而快速學習新的未見事物能力的一種學習定式.元學習的目標是利用已學習的信息,快速適應未學習的新任務.這與實現通用人工智能的目標相契合,對元學習問題的研究也是提高模型的魯棒性和泛化性的關鍵.近年來隨著深度學習的發展,元學習再度成為熱點,目前元學習的研究百家爭鳴、百花齊放. 本文從元學習的起源出發,系統地介紹元學習的發展歷史,包括元學習的由來和原始定義,然后給出當前元學習的通用定義,同時總結當前元學習一些不同方向的研究成果,包括基于度量的元學習方法、基于強泛化新的初始化參數的元學習方法、基于梯度優化器的元學習方法、基于外部記憶單元的元學方法、基于數據增強的元學方法等. 總結其共有的思想和存在的問題,對元學習的研究思想進行分類,并敘述不同方法和其相應的算法.最后論述了元學習研究中常用數據集和評判標準,并從元學習的自適應性、進化性、可解釋性、連續性、可擴展性展望其未來發展趨勢.
引言
隨著計算設備并行計算性能的大幅度 進步,以及近些年深度神經網絡在各個領域 不斷取得重大突破,由深度神經網絡模型衍 生而來的多個機器學習新領域也逐漸成型, 如強化學習、深度強化學習[1] [2] 、深度監督 學習等。在大量訓練數據的加持下,深度神 經網絡技術已經在機器翻譯、機器人控制、 大數據分析、智能推送、模式識別等方面取 得巨大成果[3] [4] [5] 。
實際上在機器學習與其他行業結合的 過程中,并不是所有領域都擁有足夠可以讓 深度神經網絡微調參數至收斂的海量數據, 相當多領域要求快速反應、快速學習,如新 興領域之一的仿人機器人領域,其面臨的現 實環境往往極為復雜且難以預測,若按照傳 統機器學習方法進行訓練則需要模擬所有 可能遇到的環境,工作量極大同時訓練成本 極高,嚴重制約了機器學習在其他領域的擴 展,因此在深度學習取得大量成果后,具有 自我學習能力與強泛化性能的元學習便成 為通用人工智能的關鍵。
元學習(Meta-learning)提出的目的是 針對傳統神經網絡模型泛化性能不足、對新 種類任務適應性較差的特點。在元學習介紹 中往往將元學習的訓練和測試過程類比為 人類在掌握一些基礎技能后可以快速學習并適應新任務,如兒童階段的人類也可以快 速通過一張某動物照片學會認出該動物,即 機 器 學 習 中 的 小 樣 本 學 習 ( Few-shot Learning)[6] [7] ,甚至不需要圖像,僅憑描 述就可學會認識新種類,對應機器學習領域 中的(Zero-shot Learning)[8] ,而不需要大 量該動物的不同照片。人類在幼兒階段掌握 的對世界的大量基礎知識和對行為模式的 認知基礎便對應元學習中的“元”概念,即一 個泛化性能強的初始網絡加上對新任務的 快速適應學習能力,元學習的遠期目標為通 過類似人類的學習能力實現強人工智能,當 前階段體現在對新數據集的快速適應帶來 較好的準確度,因此目前元學習主要表現為 提高泛化性能、獲取好的初始參數、通過少 量計算和新訓練數據即可在模型上實現和 海量訓練數據一樣的識別準確度,近些年基 于元學習,在小樣本學習領域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同時為模擬 人類認知,在 Zero-shot Learning 方向也進行 了大量探索[18] [19] [20] [21] [22] 。
在機器學習盛行之前,就已產生了元學習的相關概念。當時的元學習還停留在認知 教育科學相關領域,用于探討更加合理的教 學方法。Gene V. Glass 在 1976 年首次提出 了“元分析”這一概念[23] ,對大量的分析結 果進行統計分析,這是一種二次分析辦法。G Powell 使用“元分析”的方法對詞匯記憶 進行了研究[24] ,指出“強制”和“誘導”意象有 助于詞匯記憶。Donald B.Maudsley 在 1979 年首次提出了“元學習”這一概念,將其描述 為“學習者意識到并越來越多地控制他們已 經內化的感知、探究、學習和成長習慣的過 程”,Maudsley 將元學習做為在假設、結構、 變化、過程和發展這 5 個方面下的綜合,并 闡述了相關基本原則[25] 。BIGGS J.B 將元學 習描述為“意識到并控制自己的學習的狀 態” [26] ,即學習者對學習環境的感知。P Adey 將元學習的策略用在物理教學上[27] , Vanlehn K 探討了輔導教學中的元學習方法 [28] 。從元分析到元學習,研究人員主要關 注人是如何意識和控制自己學習的。一個具 有高度元學習觀念的學生,能夠從自己采用 的學習方法所產生的結果中獲得反饋信息,進一步評價自己的學習方法,更好地達到學 習目標[29] 。隨后元學習這一概念慢慢滲透 到機器學習領域。P.Chan 提出的元學習是一 種整合多種學習過程的技術,利用元學習的 策略組合多個不同算法設計的分類器,其整 體的準確度優于任何個別的學習算法[30] [31] [32] 。HilanBensusan 提出了基于元學習的決 策樹框架[33] 。Vilalta R 則認為元學習是通 過積累元知識動態地通過經驗來改善偏倚 的一種學習算法[34] 。
Meta-Learning 目前還沒有確切的定義, 一般認為一個元學習系統需結合三個要求:系統必須包含一個學習子系統;利用以前學 習中提取的元知識來獲得經驗,這些元知識 來自單個數據集或不同領域;動態選擇學習偏差。
元學習的目的就是為了設計一種機器學習模型,這種模型有類似上面提到的人的 學習特性,即使用少量樣本數據,快速學習 新的概念或技能。經過不同任務的訓練后, 元學習模型能很好的適應和泛化到一個新任務,也就學會了“Learning to learn”。
深度學習是機器學習和人工智能研究的最新趨勢,作為一個十余年來快速發展的嶄新領域,越來越受到研究者的關注。卷積神經網絡(CNN)模型是深度學習模型中最重要的一種經典結構,其性能在近年來深度學習任務上逐步提高。由于可以自動學習樣本數據的特征表示,卷積神經網絡已經廣泛應用于圖像分類、目標檢測、語義分割以及自然語言處理等領域。首先分析了典型卷積神經網絡模型為提高其性能增加網絡深度以及寬度的模型結構,分析了采用注意力機制進一步提升模型性能的網絡結構,然后歸納分析了目前的特殊模型結構,最后總結并討論了卷積神經網絡在相關領域的應用,并對未來的研究方向進行展望。
地址: //fcst.ceaj.org/CN/abstract/abstract2521.shtml
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.
摘 要 圖像自動標注技術是減少圖像數據與內容之間“語義鴻溝”的其中一種最有效途徑,對于幫助人類理解圖像內容,從海量圖像數據中檢索感興趣的信息具有重要現實意義.通過研究近20年公開發表的圖像標注文獻,總結了圖像標注模型的一般性框架;并通過該框架結合各種具體工作,分析出在圖像標注研究過程中需要解決的一般性問題;將各種圖像標注模型所采用的主要方法歸為9種類型,分別為相關模型、隱Markov模型、主題模型、矩陣分解模型、近鄰模型、基于支持向量機的模型、圖模型、典型相關分析模型以及深度學習模型,并對每種類型的圖像標注模型,按照“基本原理介紹—具體模型差異—模型總結”3個層面進行了研究與分析.此外,總結了圖像標注模型常用的一些數據集、評測指標,對一些比較著名的標注模型的性能進行了比較,并據此對各種類型的標注模型做了優缺點分析.最后,提出了圖像標注領域一些開放式問題和研究方向.
小樣本學習旨在通過少量樣本學習到解決問題的模型.近年來在大數據訓練模型的趨勢下,機器學習和深度學習在許多領域中取得了成功.但是在現實世界中的很多應用場景中,樣本量很少或者標注樣本很少,而對大量無標簽樣本進行標注工作將會耗費很大的人力.所以,如何用少量樣本進行學習就成為了目前人們需要關注的問題.本文系統梳理了當前小樣本學習的相關工作,具體介紹了基于模型微調、基于數據增強和基于遷移學習三大類小樣本學習模型與算法的研究進展;本文將基于數據增強的方法細分為基于無標簽數據、基于數據合成和基于特征增強三類,將基于遷移學習的方法細分為基于度量學習、基于元學習和基于圖神經網絡三類.本文還總結了目前常用的小樣本數據集,以及代表性的小樣本學習模型在這些數據集上的實驗結果,隨后對小樣本學習的現狀和挑戰進行了概述,最后展望了小樣本學習的未來發展方向.
//www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6138&journal_id=jos
隨著大數據時代的到來,深度學習模型已經在圖像分類、文本分類等任務中取得了先進成果.但深度學習模型的成功很大程度 上依賴于大量訓練數據,而在現實世界的真實場景中某些類別只有少量數據或少量標注數據,而對無標簽數據進行標注將會消耗 大量的時間和人力.與此相反,人類只需要通過少量數據就能做到快速學習.例如一個五六歲的小孩子從未見過企鵝,但如果給他看 過一張企鵝的圖像,當他進入動物園看到真正的企鵝時,就會馬上認出這是自己曾經在圖像上見過的“企鵝”,這就是機器學習和人類學習之間存在的差距.受到人類學習觀點的啟發[1],小樣本學習[2] [3](few-shot learning)的概念被提出,使得機器學習更加靠近人類思維.
早在 20 世紀八九十年代,就有一些研究人員注意到了單樣本學習(one-shot learning)的問題,直到 2003 年 Li 等[4]才正式提出了 單樣本學習的概念.他們認為當新的類別只有一個或幾個帶標簽的樣本時,已經學習到的舊類別可以幫助預測新類別[5].小樣本學 習也叫作少樣本學習(low-shot learning) [7],其目標是從少量樣本中學習到解決問題的方法.與小樣本學習相關的概念還有零樣本學 習(zero-shot learning)等.零樣本學習是指在沒有訓練數據的情況下,利用類別的屬性等信息訓練模型,從而識別新類別.
小樣本學習的概念最早從計算機視覺(Computer Vision) [8]領域興起,近幾年受到廣泛關注,在圖像分類任務中已有很多性能優 異的算法模型[34][37][45].但是在自然語言處理領域(Natural Language Processing) [9]的發展較為緩慢,原因在于圖像和語言特性不同.圖 像相比文本更為客觀,所以當樣本數量較少時,圖像的特征提取比文本更加容易[87].不過近年來小樣本學習在自然語言處理領域也 有了一些研究和發展[10][46][48].根據所采用方法的不同,本文將小樣本學習分為基于模型微調、基于數據增強和基于遷移學習三種. 基于模型微調的方法首先在含有大量數據的源數據集上訓練一個分類模型,然后在含有少量數據的目標數據集上對模型進行微 調.但這種做法可能導致模型過擬合,因為少量數據并不能很好地反映大量數據的真實分布情況.為解決上述過擬合的問題,基于數 據增強和基于遷移學習的小樣本學習方法被提出.基于數據增強的方法是利用輔助數據集或者輔助信息增強目標數據集中樣本的 特征或擴充對目標數據集,使模型能更好地提取特征.本文根據學習方法不同,將基于數據增強的小樣本學習方法進一步細分為基 于無標簽數據、基于數據合成和基于特征增強三類方法.基于遷移學習的方法是目前比較前沿的方法,是指將已經學會的知識遷移 到一個新的領域中.本文根據學習框架將基于遷移學習的方法細分為基于度量學習、基于元學習和基于圖神經網絡(Graph Neural Networks)的方法.在度量學習的框架下目前已有許多性能較好的小樣本學習模型,例如比較著名的原型網絡(Prototypical Networks) [34]和匹配網絡(Matching Networks) [31]等.基于元學習的方法不僅在目標任務上訓練模型,而是從許多不同的任務中學習 元知識,當一個新的任務到來時,利用元知識調整模型參數,使模型能夠快速收斂.近年來隨著圖神經網絡的興起,研究者將圖神經網 絡也應用到小樣本學習中,取得了先進的結果.
除了圖像分類和文本分類這兩個主要任務,許多其他任務也面臨著小樣本問題.在計算機視覺應用中,利用小樣本學習進行人臉識別[8][60][82]、食品識別[61]、表情識別[66]、手寫字體識別[70][79]以及其他的圖像識別[65]. 在自然語言處理應用中,使用小樣本方法 實現對話系統[67]、口語理解[62],或者完成 NLP 的基本任務,例如 word embedding[63].在多媒體領域應用中,可以使用小樣本方法實現 影像提取[73]和聲紋識別[80]等.在生物與醫學領域,可以應用于疾病診斷[71][72]、臨床實驗[84]、護士能力評價[75]、農作物病害識別[69][81]、 水量分析[76]等.在經濟領域,可應用于產品銷量預測[77]等.在工業與軍事領域,可應用于齒輪泵壽命預測[78]、軍事目標識別[74]和目標 威脅評估[83]等.
本文首先從基于模型微調、基于數據增強和基于遷移學習三種方法介紹小樣本學習的研究進展,總結小樣本學習的幾個著名數據集以及已有模型在這些數據集上的實驗結果;接下來,本文對小樣本學習的研究現狀和主要挑戰進行總結;最后展望了未來的 發展趨勢.
摘要:圖像分類的應用場景非常廣泛,很多場景下難以收集到足夠多的數據來訓練模型,利用小樣本學習進行圖像分類可解決訓練數據量小的問題.本文對近年來的小樣本圖像分類算法進行了詳細綜述,根據不同的建模方式,將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類,其中基于卷積神經網絡模型的算法包括四種學習范式:遷移學習、元學習、對偶學習和貝葉斯學習;基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據,但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務,有關的研究成果目前相對較少.此外,本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較.最后,討論了小樣本圖像分類技術的難點及未來研究趨勢.
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。
最近深度神經網絡已經在監督識別任務上取得了令人振奮的突破,但是深度神經網絡要求每個類都有足夠 多的且完全標注的訓練數據。如何從少數訓練樣本中學習并識別新的類別,對于深度神經網絡來說是一個具有挑戰性的問題。針對如何解決少樣本學習的問題,全面總結了現有的基于深度神經網絡的少樣本學習方法,涵蓋了方法 所用模型、數據集及評估結果等各個方面。具體地,針對基于深度神經網絡的少樣本學習方法,提出將其分為四種 類別,即數據增強方法、遷移學習方法、度量學習方法和元學習的方法;對于每個類別,進一步將其分為幾個子類 別,并且在每個類別與方法之間進行一系列比較,以顯示各種方法的優劣和各自的特點。最后,強調了現有方法的局限性,并指出了少樣本學習研究領域的未來研究方向。
摘要 : 零樣本圖像分類指訓練集和測試集在數據的類別上沒有交集的情況下進行圖像分類 . 該技術 是解決類別標簽缺失問題的一種有效手段 , 因此受到了日益廣泛的關注 . 自提出此問題至今 , 零樣本 圖像分類的研究已經大致有十年時間 . 本文系統地對過去十年中零樣本圖像分類技術的研究進展進行 了綜述 , 主要包括以下 4 個方面 . 首先介紹零樣本圖像分類技術的研究意義及其應用價值 , 然后重點 總結和歸納零樣本圖像分類的發展過程和研究現狀 , 接下來介紹常用的數據集和評價準則 , 以及與零 樣本學習相關的技術的區別和聯系 , 最后分析有待深入研究的熱點與難點問題 , 并對未來的發展趨勢 進行了展望 .
關鍵詞: 零樣本圖像分類 , 屬性 , 詞向量 , 跨模態映射 , 領域適應學習