當前的深度學習模型被訓練以適應訓練集的分布。盡管得益于前沿架構設計的顯著進展,這些模型仍無法對分布外(OOD)樣本進行推理——即那些與訓練集范圍不一致的實例。與人類不同,人類能夠自然地識別未知的事物,而當前的深度學習模型卻缺乏這一能力。由于很難將開放世界中的所有物體包含在訓練集中,設計一種開放集識別算法來檢測和拒絕OOD樣本變得至關重要。本論文聚焦于研究開放集識別及其在計算機視覺中的應用。首先,我們介紹了一個用于自動駕駛應用的開放集3D語義分割系統。我們的目標是檢測那些不常見的、未包含在訓練集中的異常物體,因為這些離群點對自動駕駛系統的安全至關重要。隨后,我們從信息瓶頸的角度分析開放集問題,并提出了一種原型相似度學習算法,以學習更多類別特定和實例特定的信息,從而提高開放集識別性能。最后,我們深入分析了一個新設定——統一開放集識別,在這一設定中,既要檢測OOD樣本,也要檢測那些被錯誤分類的訓練集內樣本,因為模型對這些樣本的預測是錯誤的。總的來說,我們的工作為開放集識別社區提供了新的理論分析視角、新的訓練與評估設定,以及新的應用方向。
人類通過整合多種感官信息(包括視覺、語言和聽覺線索)來理解和與周圍環境互動。視覺-語言表示學習領域致力于使機器學習視覺和文本數據之間的多模態關聯與互動。本論文解決了三個關鍵問題:預訓練數據的可擴展性、預訓練目標的效率以及細粒度的視覺-語言對齊。 在數據可擴展性方面,我們關注利用未配對的圖像和文本進行可擴展的視覺-語言表示學習。為了增強模態之間的隱式對齊并增加數據的多樣性,我們引入了跨模態CutMix技術,該技術通過將視覺補丁與句子混合,創建多模態句子,即句子的多模態視圖。通過將多樣化的多模態句子融入對比學習,文本與多模態樣本之間的實例級對齊得到了有效利用。我們的方法繞過了配對數據集的限制,促進了基于更廣泛和更多樣的未配對數據的可擴展多模態表示學習。 在學習效率方面,我們研究了加速視覺-語言預訓練的方法。我們實證發現,訓練效率的一個重要障礙在于掩碼語言建模中的預測率(重建的令牌百分比)和破壞率(破壞的令牌百分比)交織在一起。具體來說,適當的破壞率是以大量輸出令牌被排除在預測損失之外為代價的。為了克服這一限制,我們提出了自由語言建模(FLM),這是一種新的預訓練目標,能夠將預測率與破壞率在掩碼語言建模中解耦。我們的方法通過允許為每個令牌自定義破壞范圍,從而實現了更快的收斂,同時在下游視覺-語言任務中保持了競爭力的表現。 關于跨模態對齊粒度,我們深入研究了未修剪視頻與自然語言之間的細粒度對齊。我們提出了一個針對未修剪視頻的基礎視覺-語言學習(GVL)框架,重點在于檢測有信息量的事件并將多句描述與相應的事件段對齊。我們引入了并行解碼范式(PDVC)用于密集視頻字幕生成,以有效地對視頻進行分段,從而提高生成的密集字幕的連貫性和可讀性。此外,我們提出了兩個雙重預文本任務以促進細粒度的段級對齊:文本到事件對比和事件到文本生成。該框架具有廣泛的適用性,可應用于視覺基礎的語言理解與生成任務。 我們進行了大量實驗以驗證我們提出的方法。這些工作不僅推動了多模態學習的前沿,也為機器智能系統中視覺與語言的更高效、更有效的整合鋪平了道路。
深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。
從數據中純粹發現因果模型的結構面臨可識別性問題。
通常情況下,如果沒有關于數據生成的假設,多個等效模型可能會同樣解釋觀察結果,盡管它們可能會得出截然不同的因果結論。因此,選擇它們中的任意一個元素可能會導致不安全的決策,特別是在這些模型與世界真實運作方式不一致時。因此,在數據有限的情況下,必須保持一種關于我們可能候選模型的認知不確定性,以減輕這些不匹配模型所帶來的風險。 從貝葉斯的角度來看,這種不確定性可以通過給定數據的模型后驗分布來捕捉。
然而,正如貝葉斯推斷中的許多問題一樣,由于可能的結構數量龐大(這些結構通常表示為有向無環圖,DAG),后驗分布通常是不可解的。因此,需要進行近似。盡管過去十年中,生成建模領域取得了顯著進展,尤其是由變分推斷和深度學習強力結合推動的進展,但大多數這些模型都集中于連續空間,使得它們不適用于涉及離散對象(如有向圖)的問題,因為這些對象存在高度復雜的無環性約束。 在本論文的第一部分,我們介紹了生成流網絡(GFlowNet),一種專門為離散和組合對象(如圖)上的分布而設計的新型概率模型。
GFlowNet將生成過程視為一個順序決策問題,通過逐步構建樣本來生成數據。這些模型通過在網絡中強制執行某些流量的守恒,來描述通過一個歸一化常數定義的分布。我們將重點介紹它們如何根植于機器學習和統計學的各個領域,包括變分推斷和強化學習,并討論它們在一般空間中的擴展。 在本論文的第二部分,我們展示了如何利用GFlowNet來近似給定數據的貝葉斯網絡的DAG結構的后驗分布。
不僅僅是結構,我們還展示了條件分布的參數也可以被集成到由GFlowNet近似的后驗中,從而允許對貝葉斯網絡進行靈活的表示。 關鍵詞:生成流網絡,貝葉斯推斷,結構學習,貝葉斯網絡,強化學習,變分推斷
神經網絡模型是機器學習中的熱點研究方向之一,其模型包括網絡架構和 神經元模型兩部分。在過去半個多世紀的研究中,出現了各種基于不同網絡架 構的學習模型與方法,但對基本的神經元模型研究相對較少。人工神經元模型 的建模通常參考生物神經細胞,當前最流行的模型仍是 1943 年提出的 MP 模 型[145] (第一代神經元模型)。七八十年來,學界對非 MP 的新型神經元模型僅有 一些探索,比如 60 年代提出的脈沖神經元模型 (第二代神經元模型)。脈沖神經 元模型在微觀尺度上建模了生物神經系統的短程突觸可塑性 (short-term synaptic plasticity),具有良好的神經學性質,但尚未在現實應用中展現出計算優勢。 本文首先對第二代脈沖神經元模型進行研究,指出該模型的重大缺陷—— 分岔 (bifurcation) 問題。這可能是制約脈沖神經元模型發展的關鍵因素之一,對 該問題進行修正將顯著提升脈沖神經元的計算潛力。然后,本文對第三代神經元 模型進行探索,通過建模生物神經系統中的長程突觸可塑性 (long-term synaptic plasticity),首次實現了中觀尺度 (mesoscopic scale) 的神經元建模。該探索將極 大地完善現有神經元模型體系。本文對第二代和第三代人工神經元模型展開了 系統研究,主要取得了如下五方面的創新結果:
關鍵詞:機器學習;神經網絡;突觸可塑性;MP 神經元模型;脈沖神經元模型; FT 神經元模型;機器學習理論;時間序列分析
基于車載3D LiDAR的幾何與語義場景理解深度學習研究
3D LiDAR點云數據在計算機視覺、機器人學和自動駕駛中的場景感知中起著至關重要的作用。涉及3D點云的幾何與語義場景理解是推動自動駕駛技術發展的關鍵。然而,仍然存在許多挑戰,特別是在提高這些系統的整體準確性(如分割精度、深度估計精度等)和效率方面。
為了解決與LiDAR任務相關的準確性問題,我們提出了DurLAR,這是首個高保真128通道3D LiDAR數據集,具有全景環境(近紅外)和反射率圖像。利用DurLAR,超越了先前基準的數據集分辨率,我們著手解決單目深度估計任務。利用這種高分辨率但稀疏的真實場景深度信息,我們提出了一種新型的聯合監督/自監督損失函數,大大提高了深度估計的精度。
為了在確保精度的同時提高3D分割的效率,我們提出了一種新穎的管道,采用更小的架構,所需的真實標簽注釋更少,同時在分割精度上超越了現有方法。這一創新通過一種新型的稀疏深度可分卷積(SDSC)模塊得以實現,該模塊顯著減少了網絡的參數量,同時保持了任務的整體性能。此外,我們還引入了一種新的時空冗余幀下采樣(ST-RFD)方法,該方法利用傳感器運動知識提取多樣化的訓練數據幀樣本,從而提高計算效率。
此外,近年來在3D LiDAR分割方面的進展重點關注點云的空間定位和分布,以提高分割精度。然而,坐標和點強度的依賴性導致了性能的亞優表現和較差的等距不變性。為了提高分割精度,我們引入了基于距離感知的點距離分布特征(RAPiD)及其相關的RAPiD-Seg架構。這些特征展示了剛性變換不變性,并能適應點密度變化,專注于鄰近結構的局部幾何。利用LiDAR的各向同性輻射和語義分類,它們增強了局部表示和計算效率。 通過廣泛的實驗和定性分析,我們驗證了方法的有效性。我們的方法在語義分割的mIoU和深度估計的RMSE上超越了現有的最先進技術(SoTA)。所有貢獻已被同行評審的會議接受,進一步證明了我們在自動駕駛中3D LiDAR應用的準確性和效率方面的進展。
這篇論文在機器學習領域做出了重大貢獻,特別是在開放世界場景的背景下,系統面對以前未見過的數據和情境。傳統的機器學習模型通常在一個固定且已知的類別集內進行訓練和測試,這種情況被稱為封閉世界設定。雖然這種假設在受控環境中有效,但在現實世界應用中卻不足夠,因為新的類別或數據分類可能會動態且意外地出現。為了解決這個問題,我們的研究了開放世界機器學習的兩個相互關聯的步驟:超出分布(OOD)檢測和開放世界表示學習(ORL)。OOD檢測專注于識別那些落在模型訓練分布之外的未知類別的實例。這個過程減少了對不熟悉輸入做出過度自信、錯誤預測的風險。超越OOD檢測,ORL擴展了模型的能力,不僅能檢測未知實例,還能從中學習并納入這些新類別的知識。 在OOD檢測領域,我們的工作首先引入了先進的方法論,即ReACT和DICE,它們可以有效地區分已知和未知類別的樣本。ReACT在測試時截斷異常高的單元激活,以減少模型對輸出的過度自信,而DICE通過稀疏化利用模型最有貢獻的權重來進行OOD檢測。此外,我們提出了一種基于距離的OOD檢測方法,通過引入一種非參數方法,使用K-最近鄰(KNN)距離,從而改變了對底層特征空間的剛性分布假設。 超越OOD檢測,ORL涉及更深入地探索未知的學習,回答關于已知和未知類別之間的相互作用,以及標簽信息在塑造表示中的作用的關鍵研究問題。通過嚴格的調查,我們旨在闡明關于已知類別的知識如何有助于揭示以前未見過的類別,以及標簽信息如何影響已知和新穎類別的學習和表示。這種探索激發了一種綜合的算法框架(OpenCon)的開發,用于ORL,由期望-最大化(EM)視角的理論解釋所支撐。 通過深入研究這些開放世界學習的研究問題,本論文為構建不僅表現良好,而且在面對真實世界不斷演變的復雜性時可靠的機器學習模型鋪平了道路。
抽象的知識深深根植于許多基于計算機的應用中。從數據中自動獲取知識是人工智能的一個重要研究方向。機器學習提供了相應的算法。其中一個研究領域專注于開發受生物啟發的學習算法。各自的機器學習方法基于神經學概念,因此它們可以系統地從數據中獲取知識并存儲它。可以歸類為深度學習模型的一類機器學習算法被稱為深度神經網絡(deep Neural Networks, DNNs)。DNNs由多個人工神經元組成,這些神經元按層排列,通過使用反向傳播算法進行訓練。這些深度學習方法在從高維數據中推理和存儲復雜知識方面表現出驚人的能力。
然而,DNN會受到一個問題的影響,即無法將新知識添加到現有的知識庫中。不斷積累知識的能力是促進進化的重要因素,因此是發展強大人工智能的先決條件。所謂的“災難性遺忘”(CF)效應導致DNN在對新數據分布進行幾次訓練迭代后,立即失去已經派生的知識。只有用過去和新數據的聯合數據分布進行昂貴的再訓練,才能抽象出整個新知識集。為了抵消這種影響,各種旨在緩解甚至解決CF問題的技術已經并且仍在開發中。這些已發表的CF回避研究通常暗示他們的方法對各種持續學習任務的有效性。本文的研究背景是基于深度學習方法的持續機器學習。第一部分是面向實際應用的評估協議的開發,該協議可以用于研究不同的機器學習模型對協同效應的抑制。在第二部分,綜合研究表明,在面向應用的需求下,所研究的模型都不能表現出令人滿意的持續學習效果。第三部分提出了一種新的深度學習模型——深度卷積高斯混合模型(deep Convolutional Gaussian Mixture Models, DCGMMs)。DCGMMs建立在無監督高斯混合模型(GMMs)的基礎上。GMM不能被認為是深度學習方法,它必須在訓練前以數據驅動的方式進行初始化。這些方面限制了GMM在持續學習場景中的使用。
本文提出的訓練過程使使用隨機梯度下降(SGD)(應用于DNN)來訓練GMMs成為可能。集成退火方案解決了數據驅動的初始化問題,這是GMM訓練的先決條件。實驗證明,新的訓練方法在不迭代其缺點的情況下,可以得到與傳統方法相當的結果。另一個創新是gmm以層的形式排列,這類似于DNN。將GMM轉換為層使其能夠與現有層類型相結合,從而構建深層體系結構,從而可以用較少的資源派生出更復雜的知識。在本工作的最后一部分,研究DCGMM模型的持續學習能力。為此,提出一種稱為高斯混合重放(GMR)的重放方法。GMR利用DCGMM的功能來描述數據樣本的生成和重現。與現有CF回避模型的比較表明,在面向應用的條件下,GMR可以取得類似的持續學習效果。總之,所提出的工作表明,確定的面向應用的需求仍然是“應用”持續學習研究方法的開放問題。此外,新的深度學習模型為許多其他研究領域提供了一個有趣的起點。
基于深度學習的單目場景深度估計方法研究
單目圖像的深度估計是計算機視覺研究的基礎性課題,由于其可以指導多種高 階視覺任務的學習,且具有良好的實際應用前景,近年來也成為計算機視覺領域的 熱門課題。單目深度估計旨在基于單張圖片或單目視頻信息,預測并恢復出場景像 素級別的深度信息。由于現實場景較為復雜,且單目圖像或視頻信息又缺乏魯棒的 幾何約束,現有的深度估計方法往往會丟失細節或無法預測正確的尺度信息,使得 其實際應用受到制約。本文通過設計有效的深度卷積網絡及其學習框架,提出了幾 種新的深度估計方法。主要研究成果概述如下:
(1)本文提出了一種新的多尺度端到端深度估計框架。先前的主流方法往往只 能預測超像素級別的深度信息,或基于多步非端到端的學習方法。這導致了算法預 測的深度圖像丟失細節,且不利于實際應用。為了端到端的預測精細的深度圖像, 本文從兩個方面整合了多尺度信息:(a)提出了一種新的多尺度網絡以學習多級深 度表征,并利用多尺度表征逐步地引導網絡的上采樣和預測過程;(b)提出了一種 細粒度正則化方法,使優化器引導網絡學習正確的深度結構信息。在不同數據集上 的大量實驗表明,本文的方法可以預測更完善的細節信息,且可以取得同期最佳的 預測效果。
(2)現有的基于深度神經網絡的方法缺少有效機制以恢復并保留深度圖像中的 邊緣細節信息,這使其預測效果受到影響。因此,本文提出了一種新的漸進困難挖 掘網絡以處理該問題。特別地,本文構建了困難挖掘目標函數,尺度內和尺度間子 網絡來精確地定位和修正預測困難的區域。尺度內修正模塊可以遞歸地從不同語義 特征中恢復深度細節,尺度間修正模塊可以利用不同尺度的深度信息進行互補交互。困難挖掘目標函數可以引導網絡的學習過程,使得網絡自適應地關注容易產生累計 預測誤差的區域。這三種模塊可以有效地協作,逐步地減少學習過程中的誤差傳播, 進一步地增強深度預測效果。大量的實驗分析表明,本文的方法可以有效恢復深度 圖像中的邊緣和細節信息,并取得同期最好的預測效果。
(3)本文提出了一種新的任務遞歸學習框架(Task-recursive Learning, TRL) 以同時處理語義分割,平面法向量預測和深度估計三個任務。TRL 通過一系列任務 層面的交互以遞歸地修正預測結果,其中位于每一個時間階段的網絡模塊可以封裝 每一個跨任務交互過程。在每一個時間階段內,TRL將多任務學習過程序列化,并 遞歸地進行交互。為了自適應地增強任務間的相似模式,本文將交互過程封裝在任 務注意力模塊(TAM)中,進而使任務的學習過程可以相互促進。在時間階段之間,通過使用特征選擇單元(FS-unit),網絡將先前獲得的經驗有選擇性地傳播至接下 來的時間節點,進而使任務間的互補信息更充分地被利用。同時,任務交互序列也 在由粗到細的尺度空間中得到延伸,使得細節信息可以被逐步地修正。最終,該多 任務序列化問題被統一地整合進遞歸網絡框架中。在公開數據集上的大量實驗表明, 本文的方法可以遞歸地修正三個任務的預測結果,并獲得同期最佳的數值效果。
(4)本文提出了一種新的模式相似性傳播框架以同時預測場景深度,法向量和 語義分割。其動機來自于相應的統計觀察,即模式相似像素對在同一任務內部和不 同任務之間均頻繁地出現。因此,可以進行兩種形式的傳播過程,即跨任務傳播和 任務特異傳播以自適應地擴散這些相似的模式。跨任務傳播通過計算非局部的關聯 性信息以整合跨任務的相似模式,使這些相似模式更好的適應每一個任務。任務特 異性傳播則是在特征空間進行迭代擴散過程,使跨任務的相似模式能夠被廣泛地應 用于任務內部。由此一來,這些任務層面的關聯性信息可以調整和促進每一個任務 的學習。在公開數據集上的大量實驗證明了本文方法的有效性,同時也在多個數據 集和三個任務上獲得了同期最佳的效果。
(5)在線的景深學習問題要求連續地調整深度估計模型使其適應于不斷變化的 場景。由于神經網絡往往容易過擬合至當前場景而遺忘之前學得的經驗,這類開放 世界問題十分具有挑戰性。為此,本文提出了一種新的抵抗遺忘的學習方法(LPF) 以處理無監督的在線單目景深學習。與以往更新模型中所有參數的方法不同的是, LPF學習適應器模塊以高效地調整特征表示和分布,從而避免在線場景下的知識丟 失問題。具體地,本文提出了一個新的元學習方法,通過將在線適應過程與目標函 數相結合,使學習到的適應器模塊可以適應于視頻中時間連續的景深模式。為了進 一步地避免過擬合,本文提出了一種新的時間連續正則化方法來調整每個在線學習 步驟的梯度下降過程。在現實場景數據庫上的大量實驗表明,本文的方法在僅增加 少量參數的情況下,明顯地提升了在線景深估計的質量。
開放環境下的度量學習研究
利用對象之間的相似性關系,度量學習為樣本學到有效的特征表示,使得 在該表示空間中,樣本之間的距離度量能夠精確反映樣本之間的相似與不相 似關系。有效的距離度量與表示空間極大地輔助了后續的多樣化任務。在度 量學習的研究中,傳統的方法依賴于靜態的、封閉的環境,需要無干擾、不變 化的特征,大量的訓練樣本,且只能處理單一的對象語義。而實際應用場景 比較復雜,是開放的,并存在“輸入噪聲多”、“訓練樣本少”、“特征變化 快”、“語義表示廣”等特點。本文從模型在開放環境下輸入、輸出層面上面 臨的挑戰作為切入點,提出針對或利用度量學習特性的具體算法,從理論和應 用等多個角度使得度量學習的研究能夠契合開放的環境。
本文的主要內容有:
從理論上分析了度量學習的泛化能力,并提出策略以降低其樣本復雜度。傳統機器學習方法要求大量有標記的訓練樣本,而實際場景中,對于某些 類別,考慮到樣本搜集和標注的代價,只能獲取極少量的有標記的樣本。本文從目標函數性質以及度量重用兩個角度進行泛化能力的理論分析,相 對于以往的分析結果,提出如何能獲得更快的泛化收斂率,即如何利用更 少的樣本得到同樣的泛化誤差。同時,本文通過大量實驗進行驗證,說明 滿足理論假設時,各因素對樣本復雜度的影響與理論中給出的趨勢一致。
提出一種應用度量語義變換在小樣本情況下應對特征變化的學習方法。除了僅有少量的訓練樣本,當在開放環境下處理新的任務時,模型也會 面臨特征空間變化的挑戰。本文利用特征之間的關聯性,提出構建特征的 “元表示”空間,利用在該空間中學習的度量,將已有特征空間的分類器 轉換到新的特征空間上,以“重用”已有的訓練好的異構分類器。提出的 ReForm 方法也降低了學習算法的樣本和計算需求。值得一提的是,在ReForm 方法重用分類器的過程中,沒有歷史訓練數據的傳輸,而僅僅需 要已有的模型,這也保護了不同階段、不同任務之間數據的隱私性。
提出能夠靈活挖掘并自適應利用開放環境中復雜語義的多度量學習框架。圖片、文本等對象在不同場景下往往存在豐富的語義。以往的度量學習 方法只針對對象的單一語義進行建模,而忽略了語義的多樣性。本文提出 “語義度量”這一概念以及統一的框架 U?2 ?,學習多個局部度量,不但能 統一已有的方法、靈活挖掘出對象本身的不同語義,也能夠提升后續眾多 實際問題的性能。針對度量數目的選擇,本文也提出自適應的多度量學習 框架 L???,利用全局度量的輔助,動態地為不同的語義分配度量的數目。L??? 一方面防止模型過擬合、提升分類能力,一方面也降低了存儲開銷。
提出一種利用分布擾動以適應輸入特征和對象關系噪聲的度量學習方法。開放動態的環境容易受到噪聲的影響。一方面,輸入的樣本特征容易附帶 噪聲,導致樣本特征的描述不夠精確;另一方面,對象之間的關聯關系也 會不準確,使后續相似性的學習更加困難。針對這一難點,本文首先對樣 本之間的距離做概率化分析,指出上述兩種噪聲都來源于樣本特征的擾 動。并提出一種基于“期望距離”的度量學習方法 Drift。該方法在學習 過程中動態地引入噪聲,有效地增廣數據,使模型有更好的泛化能力。利 用 Drift 學到的距離度量更加魯棒,能夠更真實地反映對象之間的關系。
辨識性特征學習及在細粒度分析中的應用
細粒度分析旨在對粗粒度的大類進行細粒度的子類劃分,如把鳥劃分為里海燕鷗、 北極燕鷗等子類別。其廣泛應用于智能農業、智能醫療等智能產業,具有重要的研究 和應用價值。其挑戰在于類間差異小、類內差異大。以圖像為例,不同子類別在形狀、 顏色上差異細微,難以區分;相同子類別在姿態、視角上差異顯著,容易誤分。因此, 關鍵科學問題是:如何獲取細粒度子類別的辨識性信息并有效表達,突破細粒度分析難題。針對上述問題,本文從減少標注成本、減少人工先驗、提高辨識速度、提高語義 關聯四個方面展開辨識性特征學習研究,并分別應用于細粒度圖像分類和細粒度跨媒 體檢索任務。主要工作總結如下:
在減少標注成本上,提出了基于對象-部件注意力模型的細粒度圖像分類方法。在對象級注意力上,提出注意力選擇和顯著性提取,自動定位對象區域,學習更 精細的對象特征。在部件級注意力上,提出空間關聯約束和部件語義對齊,實現 辨識性部件的有效定位,排除了姿態、視角等差異的干擾。兩者結合能夠學習 到多粒度的辨識性特征,準確率超過了使用對象、部件人工標注的強監督方法。
在減少人工先驗上,提出了基于堆疊式深度強化學習的細粒度圖像分類方法。首 先,層次化地定位圖像中的多粒度辨識性區域,并自適應地確定其數目。然后, 通過多尺度區域的定位及辨識性特征學習,進一步提升細粒度圖像分類準確率。學習過程由語義獎勵函數驅動,能夠有效捕捉圖像中的辨識性、概念性的視覺 信息,實現弱監督甚至無監督條件下的辨識性特征學習。
在提高辨識速度上,提出了基于弱監督快速辨識定位的細粒度圖像分類方法。首 先,提出多級注意力引導的辨識性定位,通過顯著圖生成偽監督信息,實現了 弱監督條件下的辨識性定位。進一步顯著圖驅動二次定位學習,增強了定位的 準確性。然后,提出多路端到端辨識性定位網絡,實現多個辨識性區域的同時 定位,從而提高了辨識速度。多個辨識性區域之間互補促進,提升細粒度圖像 分類準確率。
在提高語義關聯上,引入文本、視頻、音頻等跨媒體數據,提出了基于細粒度 分類的跨媒體檢索方法。建立了首個包含 4 種媒體類型(圖像、文本、視頻和 音頻)的細粒度跨媒體檢索公開數據集和評測基準 PKU FG-XMedia。提出了能 夠同時學習 4 種媒體統一表征的深度模型 FGCrossNet,確保統一表征的辨識性、 類內緊湊性和類間松散性。實現圖像向跨媒體的擴展,分類向檢索的擴展。