圖能夠方便地表達事物之間的關聯關系,因而廣泛應用于現實生活中的諸多應 用場景,例如社交網絡圖、電路圖和電商交易圖,為圖計算賦能數據挖掘和分析提 供基礎。由于圖計算的重要性和普遍性,同一圖計算平臺上通常并行運行著大量圖 算法(以下簡稱并發圖計算任務),為不同的應用或者用戶提供高性能的圖計算能力 支撐。除了與傳統圖計算任務相同的計算特征外,并發圖計算任務還存在著嚴重的 資源競爭、數據競爭等新型挑戰,任務并發度和總體性能較低。為此,如何設計面 向并發圖計算任務的高性能執行環境,快速挖掘出海量圖數據中潛在的各種商業或 科學價值,已成為目前亟需解決的問題。為了高效支持圖計算任務的執行,目前國內外學者已經從面向圖計算的體系結 構和系統軟件等方面開展了廣泛的研究。然而,現有圖計算硬件加速器和軟件系統 無法充分感知不同圖計算任務之間的運行時特征,例如潛在的數據局部性和通信行 為相似性等。現有方案在支持并發圖計算任務時面臨著數據訪問行為不規則、冗余 訪存開銷大以及通信效率低等問題,導致嚴重的數據訪問瓶頸和底層硬件資源的低 效利用。為了解決并發圖計算任務面臨的挑戰,分別從體系結構層面和系統軟件層 面開展研究來實現高性能并發圖計算技術,有效支持并發圖計算任務的執行。針對并發圖計算任務數據訪問行為不規則問題,提出了以數據局部性為中心的 并發圖計算硬件加速技術,以提高并發圖計算任務的訪存效率。分析發現,由于不 同圖計算任務往往沿著同一圖拓撲來遍歷相同圖數據,這些任務之間存在極強的數 據局部性。基于此發現,該硬件加速技術首先動態探索并發圖計算任務活躍圖頂點 之間的依賴關系,使并發圖計算任務沿著圖拓撲遍歷和處理相同圖數據,以此來規 則化并發圖計算任務的圖遍歷行為。其次,該硬件加速技術對并發圖計算任務的圖 頂點訪問進行高效合并,從而提高頂點訪問的局部性。實驗結果表明,與現有圖計 算硬件加速技術 HATS、Minnow 和 PHI 相比,本設計能夠獲得最高 11.3 倍的加速比。針對并發圖計算任務冗余訪存開銷大問題,提出基于細粒度同步的核外并發圖 計算技術。該技術首先提出了一種面向并發圖計算任務的細粒度同步執行機制,使得只需在緩存和內存中加載和存儲相同圖結構數據的一個副本就能服務多個并發圖 計算任務,從而降低圖數據的冗余訪存成本,提高底層硬件資源的利用率。其次, 提出了圖結構感知的數據重劃分和緩存機制,通過自適應地加載并發圖計算任務所 需的圖數據,并將頻繁使用的圖數據緩存在主存中,提高加載圖數據利用率和最小 化 I/O 開銷。實驗結果表明,所提出的核外并發圖計算技術,能夠將現有圖計算系統 GridGraph、GraphChi 和 X-Stream 的并發圖計算任務吞吐率最高提升 13 倍。針對并發圖計算任務在分布式環境下擴展性差的問題,提出了相似性感知的分 布式并發圖計算技術。分析發現,并發圖計算任務之間的通信行為存在極強的相似 性。基于此發現,首先提出了相似性感知的分布式并發圖計算執行機制,其沿著圖 劃分塊之間的拓撲關系來加載圖數據,并以此高效驅動分布式平臺中每個計算節點 上的任務執行,從而使得加載的圖數據能夠被更多任務共享;通過高效的通信機制 來使得不同任務的通信行為以規則的方式批量進行,從而降低并發圖計算任務的通 信成本,提高通信效率。其次,提出了面向并發圖計算任務的增量負載均衡機制和 面向動態圖處理的數據存儲優化機制,以此來提高分布式計算資源利用率和保證在 支持動態圖處理時的執行效率。實驗結果表明,與分布式圖計算系統 Gemini 和 Seraph 相比,本設計在支持并發圖計算任務時能夠獲得最高 6 倍的加速比。總的來說,本文分別研究了并發圖計算任務不規則訪存行為與底層體系結構不 匹配問題、并發圖計算任務之間冗余數據訪存開銷高問題以及分布式并發圖計算擴 展性差問題,圍繞體系結構、單機和分布式系統軟件層面實現高性能并發圖計算技 術,顯著提升并發圖計算任務的執行性能。
本論文旨在研究復雜場景下高精度的有向目標檢測算法。有向目標檢測是 通用水平目標檢測的一個擴展研究方向,其主要特點是可以更精準地定位目標, 并擅長完成包含大量密集排列、大長寬比、方向任意目標的復雜場景的檢測任 務。大量文獻表明,有向目標檢測不僅在計算機視覺領域中有著重要的學術研 究價值,在國防建設、科學技術、醫學治療、食品健康、工業發展、環境保護、 農業養殖、公共安全、文化傳播等領域也具有廣闊的應用價值。 受益于通用水平目標檢測在深度學習時代的蓬勃發展,有向目標檢測器可 以很輕松地基于先進的水平檢測算法進行實現。但是,有向目標檢測的研究常常 需要面對一些獨特的問題挑戰,如不同定義法下由邊界不連續造成的損失陡增、 類正方目標導致的表示歧義等。如何更加高效地實現高精度有向目標檢測已成 為當下的研究熱點。本論文以有向目標檢測為研究重點,在魯棒有向目標檢測 器搭建、高效位姿參數估計、弱監督算法探索以及有向目標檢測工具設計這四個 方面來擴展和完善現有的算法。論文的主要貢獻包含以下幾方面:
? 介紹了如何基于一個水平目標檢測器搭建出一個有向目標檢測器,主要內 容包括不同旋轉框的定義、不同錨框的形式、旋轉框重疊率的計算、回歸 參數的估計以及回歸損失等基礎知識。
? 提出了一種從粗到細的漸進式回歸的有向目標檢測器 R 3Det。本文針對單 階段級聯檢測器中存在的特征不對齊問題設計了特征精修模塊,最終在精 度和速度之間取得了較佳的平衡。
? 在特定旋轉框定義法下,本文通過將角度估計方式從回歸轉換成精細的分 類(CSL 和 DCL)以解決有向目標檢測中的邊界不連續問題,并進一步采 用四邊分類的策略在構造的新數據集 OHD-SJTU 上實現了目標頭部檢測。
? 為同時解決邊界不連續、類正方形檢測以及評估與損失不一致性等問題, 本文提出了高斯分布建模和距離度量技術(GWD 和 KLD)。通過尺度不變 性證明和梯度分析,本文發現使用 KLD 作為最終的回歸損失可以顯著地 提升高精度指標。
? 在保留高斯分布建模的優勢下,本文提出了使用分布之間的相似性度量 (KFIoU) 取代距離度量,更好地解決了評估與損失不一致的問題并在不引 入任何超參數的情況下取得了性能的提升。
? 本文首次在目標檢測領域中提出了一個新的研究課題:基于水平框標注 訓練的弱監督有向目標檢。同時,本文設計了一種新的自監督的網絡架構 (H2RBox),其通過衡量輸入圖片在不同視圖下的一致性來實現精準的旋轉。框估計。與基于弱監督實例分割的方法相比,H2RBox 具有性能高、速度 快和存儲需求低的優勢,且各方面都接近強監督有向目標檢測算法。
? 從學術研究、工業部署和國產化三個角度出發,本文分別基于 TensorFlow、 PyTorch 和 Jittor 搭建了三種各具特色的有向目標檢測工具:MMRotate、 AlphaRotate 和 JDet,為有向目標檢測的發展和應用提供了便利。
基于深度學習的單目場景深度估計方法研究
單目圖像的深度估計是計算機視覺研究的基礎性課題,由于其可以指導多種高 階視覺任務的學習,且具有良好的實際應用前景,近年來也成為計算機視覺領域的 熱門課題。單目深度估計旨在基于單張圖片或單目視頻信息,預測并恢復出場景像 素級別的深度信息。由于現實場景較為復雜,且單目圖像或視頻信息又缺乏魯棒的 幾何約束,現有的深度估計方法往往會丟失細節或無法預測正確的尺度信息,使得 其實際應用受到制約。本文通過設計有效的深度卷積網絡及其學習框架,提出了幾 種新的深度估計方法。主要研究成果概述如下:
(1)本文提出了一種新的多尺度端到端深度估計框架。先前的主流方法往往只 能預測超像素級別的深度信息,或基于多步非端到端的學習方法。這導致了算法預 測的深度圖像丟失細節,且不利于實際應用。為了端到端的預測精細的深度圖像, 本文從兩個方面整合了多尺度信息:(a)提出了一種新的多尺度網絡以學習多級深 度表征,并利用多尺度表征逐步地引導網絡的上采樣和預測過程;(b)提出了一種 細粒度正則化方法,使優化器引導網絡學習正確的深度結構信息。在不同數據集上 的大量實驗表明,本文的方法可以預測更完善的細節信息,且可以取得同期最佳的 預測效果。
(2)現有的基于深度神經網絡的方法缺少有效機制以恢復并保留深度圖像中的 邊緣細節信息,這使其預測效果受到影響。因此,本文提出了一種新的漸進困難挖 掘網絡以處理該問題。特別地,本文構建了困難挖掘目標函數,尺度內和尺度間子 網絡來精確地定位和修正預測困難的區域。尺度內修正模塊可以遞歸地從不同語義 特征中恢復深度細節,尺度間修正模塊可以利用不同尺度的深度信息進行互補交互。困難挖掘目標函數可以引導網絡的學習過程,使得網絡自適應地關注容易產生累計 預測誤差的區域。這三種模塊可以有效地協作,逐步地減少學習過程中的誤差傳播, 進一步地增強深度預測效果。大量的實驗分析表明,本文的方法可以有效恢復深度 圖像中的邊緣和細節信息,并取得同期最好的預測效果。
(3)本文提出了一種新的任務遞歸學習框架(Task-recursive Learning, TRL) 以同時處理語義分割,平面法向量預測和深度估計三個任務。TRL 通過一系列任務 層面的交互以遞歸地修正預測結果,其中位于每一個時間階段的網絡模塊可以封裝 每一個跨任務交互過程。在每一個時間階段內,TRL將多任務學習過程序列化,并 遞歸地進行交互。為了自適應地增強任務間的相似模式,本文將交互過程封裝在任 務注意力模塊(TAM)中,進而使任務的學習過程可以相互促進。在時間階段之間,通過使用特征選擇單元(FS-unit),網絡將先前獲得的經驗有選擇性地傳播至接下 來的時間節點,進而使任務間的互補信息更充分地被利用。同時,任務交互序列也 在由粗到細的尺度空間中得到延伸,使得細節信息可以被逐步地修正。最終,該多 任務序列化問題被統一地整合進遞歸網絡框架中。在公開數據集上的大量實驗表明, 本文的方法可以遞歸地修正三個任務的預測結果,并獲得同期最佳的數值效果。
(4)本文提出了一種新的模式相似性傳播框架以同時預測場景深度,法向量和 語義分割。其動機來自于相應的統計觀察,即模式相似像素對在同一任務內部和不 同任務之間均頻繁地出現。因此,可以進行兩種形式的傳播過程,即跨任務傳播和 任務特異傳播以自適應地擴散這些相似的模式。跨任務傳播通過計算非局部的關聯 性信息以整合跨任務的相似模式,使這些相似模式更好的適應每一個任務。任務特 異性傳播則是在特征空間進行迭代擴散過程,使跨任務的相似模式能夠被廣泛地應 用于任務內部。由此一來,這些任務層面的關聯性信息可以調整和促進每一個任務 的學習。在公開數據集上的大量實驗證明了本文方法的有效性,同時也在多個數據 集和三個任務上獲得了同期最佳的效果。
(5)在線的景深學習問題要求連續地調整深度估計模型使其適應于不斷變化的 場景。由于神經網絡往往容易過擬合至當前場景而遺忘之前學得的經驗,這類開放 世界問題十分具有挑戰性。為此,本文提出了一種新的抵抗遺忘的學習方法(LPF) 以處理無監督的在線單目景深學習。與以往更新模型中所有參數的方法不同的是, LPF學習適應器模塊以高效地調整特征表示和分布,從而避免在線場景下的知識丟 失問題。具體地,本文提出了一個新的元學習方法,通過將在線適應過程與目標函 數相結合,使學習到的適應器模塊可以適應于視頻中時間連續的景深模式。為了進 一步地避免過擬合,本文提出了一種新的時間連續正則化方法來調整每個在線學習 步驟的梯度下降過程。在現實場景數據庫上的大量實驗表明,本文的方法在僅增加 少量參數的情況下,明顯地提升了在線景深估計的質量。
機器學習中的標記增強理論與應用研究
標記端多義性是當今機器學習的熱點問題。多標記學習中,每個樣本都被賦予一組 標記子集來表示其多種語義信息。然而,標記強度差異現象在多義性機器學習任務中廣 泛存在,而既有多標記學習研究中普遍采用的相關/無關兩個子集的邏輯劃分法幾乎完 全忽視了這種現象,造成學習過程中不可避免的信息損失。針對這一突出問題,有必要 用一種稱為標記分布的標注結構來代替邏輯標記對示例的類別信息進行描述。標記分布 通過連續的描述度來顯式表達每個標記與數據對象的關聯強度,很自然地解決了標記強 度差異的問題,而在以標記分布標注的數據集上學習的過程就稱為標記分布學習。由于 描述度的標注成本更高且常常沒有客觀的量化標準,現實任務中大量的多義性數據仍然 是以簡單邏輯標記標注的,為此本文提出了標記增強這一概念。標記增強在不增加額外 數據標注負擔的前提下,挖掘訓練樣本中蘊含的標記重要性差異信息,將邏輯標記轉化 為標記分布。
本文對標記增強進行研究,主要工作包括:構建標記增強基礎理論框架。該理論框架回答了以下三個問題:第一,標記增強所 需的類別信息從何而來?即標記分布的內在生成機制;第二,標記增強的結果如何評價?即標記增強所得標記分布的質量評價機制;第三,標記增強為何有效?即標記增強對后 續分類器的泛化性能提升機制。理論分析和實驗結果驗證了標記增強的有效性。
提出一種面向標記分布學習的標記增強專用算法。以面向標記分布學習的標記增強 為目標專門設計的算法十分重要,其關鍵是如何設計能夠充分挖掘數據中隱藏的標記信 息的優化目標函數。因此,本文提出一種面向標記分布學習的標記增強方法 GLLE。該 方法利用訓練樣本特征空間的拓撲結構以及標記間相關性,挖掘了標記強度信息,從而 生成了標記分布。實驗結果驗證了 GLLE 對邏輯標記數據集進行標記增強處理后使用標 記分布學習的有效性。
標記增強在其他學習范式上的應用。本文提出了基于標記增強的多標記學習方法 LEMLL,該方法將標記增強與多標記預測模型統一到同一學習目標中,使得預測模型可 以在更為豐富的監督信息下進行訓練,有效地提升了學習效果。本文提出了基于標記增 強的偏標記學習方法 PLLE,該方法利用標記增強恢復候選標記的描述度,使得后續的 學習問題轉化為多輸出回歸問題。在多標記數據集和偏標記數據集上的實驗結果顯示, 相較于對比算法,基于標記增強方法取得了顯著更優的表現。
大數據相似查詢關鍵技術研究
傳統的數據庫針對數據表的查詢條件主要包括數值范圍查詢、點查詢以及模 糊匹配查詢,但是這些查詢只能支持準確查詢。相似查詢可以根據指定的相似函 數(比如杰卡德相似度)查詢數據集中的數據,具體包括基于閾值的查詢、TopK 查 詢兩種,其中每種查詢又包括相似選擇和連接兩種常見算子。由于相似查詢廣泛 應用于海量相似文本搜索、相似圖片搜索、結構化實體去重以及多源數據融合等 領域,所以高效的相似查詢是最近國內外研究的重點。針對相似查詢的關鍵技術, 論文的主要研究目標和貢獻如下:
基于分布式內存索引的相似查詢:論文介紹了一款基于分布式內存的相似 查詢處理系統 Dima 。Dima 擴展了 SQL 語法來支持四種核心相似查詢操作,以便 讓用戶能夠調用這些相似查詢開展復雜數據分析任務。文章提出負載均衡感知的 相似片段分布式索引來避免昂貴的數據傳輸并且緩解長尾效應,進而提高整體相 似查詢性能。由于 Spark 是被廣泛使用的分布式內存計算系統,因此 Dima 無縫集 成在 Spark 內核中。Dima 是第一個支持對大數據集進行復雜相似查詢的成熟分布 式內存系統。實驗結果表明 Dima 比最新的方法性能高出 1-3 個數量級。
基于神經網絡的相似查詢基數估計:傳統數據庫查詢優化質量很大程度上 依賴于查詢中間結果基數估計的準確度。而在相似查詢系統中,基數估計對于復 合謂詞順序選擇以及相似連接順序選擇也是至關重要的。但是,針對相似查詢的 基數估計無法使用直方圖技術,采樣技術在高維環境下也會帶來較大誤差。本文 提出使用神經網絡來解決相似查詢的基數估計。本文提出兩種策略來提高基數估 計準確度并且減少訓練集規模:查詢分片和數據分片。實驗顯示本文提出的方法 能夠高效學習到高維數據的距離分布并且能夠對相似查詢進行準確的基數估計。
相似實體融合規則生成:作為相似查詢的重要應用,多源結構化數據中的 實體融合技術被學術界廣泛研究。實體融合的重要步驟包括實體分塊(Blocking), 匹配(Entity Matching)與實體合并(Entity Consolidation),這些步驟依賴于實體 對之間的相似度特征以及實體分塊規則,其中用戶的參與是不可缺少的,比如訓 練實體匹配模型的訓練集生成、數據轉換規則的確定等。本文設計了幾種用戶交 互的實體融合問題,并且提出一個問題調度框架,這個框架能夠根據每種問題的 收益/代價比選擇不同種類的問題進行交叉詢問來提高實體合并的準確度。
多層圖分析技術研究
近年來,越來越多的領域都使用“圖”來表示和管理數據,稱為“圖數據”。針對 圖數據的分析可以發現其中的結構特征、頻繁模式、演變規律等有用的知識,具有 重要的科研意義和應用價值。隨著研究的深入,人們發現現實世界的圖數據往往 包含數據對象間多種類型的關系。例如,社交網絡數據包括多個社交媒體組成的 網絡;交通網絡數據涵蓋了多種交通工具組成的網絡。這種圖數據稱為“多層圖”, 其每一層包含了數據對象間某種特定類型的關系。
多層圖分析可以發現準確可靠、價值更高的知識。然而,多層圖分析面臨兩 方面的挑戰:一方面,單層圖上的計算語義在多層圖場景下不再適用,多層圖上 的計算語義更加復雜;另一方面,多層圖分析涉及多個圖層上的計算任務,使得 問題的固有計算復雜性大大增加。現有的多層圖分析方法在計算語義和算法設計 兩個方面都存在缺陷,不能很好的解決多層圖分析的有關問題。
本文綜合運用數據分析的相關理論、技術和方法,對于多層圖分析進行了系統研究。本文同時考慮了無概率的普通多層圖和帶概率的多層圖,從圖數據的稠 密性、可靠性、傳播性和相似性四方面重要性質出發,對多層圖分析領域中的一 系列重要問題進行了深入研究,主要研究成果如下:
本文研究了多層圖上的多樣化稠密區域發現問題,該問題在生物蛋白復合 體檢測和社區發現上具有重要應用。在無概率的普通多層圖模型基礎上,本文提 出了一種新的稠密區域概念 d-Coherent-Core(簡稱 d-CC),設計了兩種近似比為 1/4 的高效搜索算法來求解該 NP-難問題,算法在結果質量和執行時間兩個方面 均優于基于準團的傳統算法。d-CC 概念同時刻畫了稠密區域的稠密度和支持度兩 方面重要特性,滿足唯一性、包含性和層次性 3 個重要數學性質。自底向上和自 頂向下兩種搜索算法采用了高效的搜索策略和剪枝方法,分別適用于支持度參數 較小和較大兩種情況。真實數據上的實驗結果表明:自底向上和自頂向下兩種搜 索算法是高效、準確的。
本文研究了多層圖上的 top-k 可靠頂點搜索問題,該問題在通信網絡中具 有重要的研究意義,相比基于閾值的搜索問題自適應性更好。本文給出了一種圖 層帶概率的多層圖模型,提出了一種新的多層圖計算框架——共享計算,其可以 有效利用多層圖不同圖層間的重疊結構以減少搜索代價、提高算法效率。基于此,本文設計了求解 top-k 可靠頂點搜索問題的共享 BFS 精確算法和隨機算法。真實 數據上的實驗結果表明:共享 BFS 精確算法具有很高的效率和擴展性;共享 BFS 隨機算法具有很高的準確率。
本文研究了多層圖上的影響力最大化問題,該問題在病毒式營銷和輿情控 制中應用廣泛。為描述影響力最大化問題中的圖數據,本文給出了一種帶概率的 多層圖模型,其可以表示由于邊的不確定性而形成的多層圖。針對已有算法的缺 陷,本文設計了一種能夠同時達到高時間效率、高結果質量、低內存開銷和高健 壯性的影響力最大化算法,具有線性的時間和空間復雜度。該算法采用高質量的 分數估計方法和增量式的分數更新方法,在實際社交網絡中表現出良好的性能和 很高的擴展性。
本文研究了多層圖上 SimRank 頂點相似性測度問題,該問題是推薦系統、 實體識別等眾多應用的基礎。在帶概率的多層圖模型基礎上,本文嚴格給出了符 合其可能世界語義的 SimRank 相似性測度定義,設計了高效、準確的計算頂點間 SimRank 相似性的方法。同時,作為 SimRank 相似性測度的基礎,本文提出了多 層圖上隨機游走的定義,嚴格證明了這一定義滿足馬爾可夫性,設計了計算隨機 游走概率的高效算法。真實數據上的實驗結果表明:本文提出的 SimRank 算法是 高效、準確的;本文提出的 SimRank 測度比傳統測度在實際應用中效果更好。
面向文本生成的深度序列模型研究
人工智能走向成熟的一個重要標志是賦予計算機“說話” 的能力,實現文本 的自動生成。文本生成范圍很廣,按照不同的輸入劃分,可包括圖像到文本的生 成、音頻到文本的生成、數據到文本的生成以及文本到文本的生成。其中,文本 到文本的生成旨在分析理解輸入文本,撰寫得到新的自然語言文本。文本到文本 生成技術廣泛應用在智能編輯、智能助理、人機對話等領域,悄然融入到人們的 日常生活中,也成為學術界研究的熱點。
文本到文本的生成可以看做是將承載原始信息的文本轉變成符合用戶真實 信息需求的文本。本文根據信息變換方式的不同,將文本到文本的生成劃分成三 類任務:壓縮式生成、對等式生成和多樣化生成。其中壓縮式生成將文本或文本 集合壓縮成簡明扼要的內容;對等式生成中輸入文本和輸出文本在語義上具有 一一對應性;多樣化生成中輸入文本和輸出文本在語義上存在著多種對應關系。近年來,隨著深度學習的崛起,利用深度序列模型,實現序列到序列的學習已然 成為文本到文本生成研究領域的主流。基于深度序列建模的文本到文本生成主 要包含三個環節:輸入文本的語義理解,輸入信息到輸出信息的映射,以及輸出 文本的建模。基于此,本文研究了面向文本生成的深度序列建模過程中三個關鍵 性的挑戰問題:1)輸入文本的語義繁雜性;2)輸入文本和輸出文本間的映射多 樣性;3)輸出文本的結構復雜性。
首先,針對語義繁雜性問題,本文提出了兩種利用深度學習技術進行語義精 簡表征的算法。首先,從無監督方式利用詞向量表達文檔語義的角度,本文提出 了基于聚合和基于生成的文檔表征模型。傳統的詞向量袋模型無法刻畫單詞間 的語義關聯性,并且缺乏合理的概率統計基礎。針對這兩個問題,本文設計了一 個詞向量聚合框架,利用球上連續概率分布建模詞向量間的余弦相似度,以及一 個基于詞向量的概率生成模型,同時建模文本和單詞的生成。其次,從有監督方 式直接利用神經網絡端到端建模文本生成的角度,針對壓縮式生成中輸入文本 較長帶來的復雜語義理解問題,本文設計了層次化的表征模型,捕捉文檔中的層 次組成結構。句子是關于長文檔核心主題的更主要的載體。但是,現有的工作平 等地對待每個句子,并未考慮不同句子所起作用的不同。針對此問題,本文提出了自我注意力機制,自動學習不同句子的權重,以組合得到最終的文檔表達。實 驗結果驗證了本文提出的模型在繁雜語義的精簡表征能力上的有效性。
然后,針對映射多樣性問題,本文提出了基于顯式的控制變量來幫助學習映 射關系的模型。現有工作僅用單模型來學習映射關系,因此只適用于對等式生 成,在多樣化生成中失敗。針對此問題,本文直接面向對話任務,解決 “話語-回 復” 間一對多的具體化映射關系導致單模型傾向生成高頻回復的問題。本文提出 了一種新的可控回復生成機制,將具體化控制變量引入到深度序列模型中,并通 過高斯核層與單詞的使用表達相互作用,以指導模型生成不同具體化程度下的 回復。當變量設為固定值時,模型刻畫的就是一對一關系,適用于對等式生成。實驗結果證明,本文所提模型可以有效地控制目標文本的生成。
最后,針對結構復雜性問題,本文分別從非結構化文本和結構化文本兩個角 度對輸出文本進行了研究。首先,針對非結構化文本中疑問句存在的疑問模式, 本文在基于自我注意力機制的深度序列模型中,引入疑問詞詞表,并在非疑問詞 和疑問詞詞表上使用詞表選擇機制,以更好地學習疑問句模式。其次,相比于非 結構化文本,結構化文本能夠更有條理地組織信息,然而鮮有人關注結構化文本 的生成,比如提綱、信息表和報表等。因此,本文提出了提綱生成任務,識別多 段落文檔中潛在的章節并生成相應的章節標題,并將其形式化為層次化的結構 預測問題,提出了層次化的結構生成模型,捕捉三個級別的一致性。實驗證實, 本文所提模型不僅可以捕捉文本的內在復雜結構,并且可以顯著提升生成效果。
綜上所述,本文研究了壓縮式生成、對等式生成以及多樣化生成三類文本到 文本的生成任務,在深度序列建模的三個環節,理解、映射以及建模上的問題, 并相應的提出了多個新穎的深度模型,在公開的評測數據集上對各個模型的性 能進行了驗證。
解耦合的類腦計算系統棧設計
類腦計算是一種借鑒生物大腦計算原理的信息處理范式,涉及算法、硬件和 工藝等諸多領域。在算法層面,深度神經網絡在各類智能問題的解決上表現出了 一定的通用性;在硬件層面,大量涌現的深度學習專用芯片和神經形態芯片為類 腦計算的相關研究領域提供強大算力;在工藝層面,以憶阻器為代表的各種新型 器件也為類腦計算芯片架構突破“馮諾依曼瓶頸”帶來了新的可能。但現有的類 腦計算研究尚缺乏能將算法、芯片和工藝等不同領域技術需求有機結合起來的軟 硬件系統棧設計。例如,專用芯片在帶來更高計算性能的同時也降低了靈活性,使 得算法的適配變得困難;憶阻器等新型器件在為芯片提供更高能效的同時,也帶 來了器件不穩定引起的噪音等問題。針對上述問題,本文提出一套新型類腦計算 系統棧設計,在理論層面引入類腦計算完備性,使得類腦系統實現軟硬件解耦合 成為可能;在基礎軟件層面設計了相應的編譯器,實現軟件編程模型到硬件執行 模型的等價轉換;在硬件層面設計了基于憶阻器件的類腦芯片架構,充分利用本 文提出的編譯器設計和解耦合系統棧帶來的優勢。本文的創新點主要有:
? 提出軟硬件解耦合的類腦系統棧設計。在系統棧中引入軟件編程模型和硬件 執行模型來解耦合——軟件編程模型靈活度高,適應各類編程需求,而硬件 執行模型足夠簡潔,適合硬件高效實現;引入類似于圖靈完備性的類腦完備 性概念來建立軟件和硬件兩類模型的等價性,并給出相應的構造性證明,使 得類腦計算系統軟硬件解耦合成為可能。
? 設計針對硬件約束的類腦編譯器,將神經網絡軟件編程模型轉換為等價的硬 件執行模型。編譯器通過數據重編碼方式,使目標網絡在極端硬件約束條件 下仍然能夠保持精度損失可控(包括無損);此外,提出適用于硬件執行模 型的粗粒度剪枝壓縮方法,充分利用神經網絡模型本身的冗余,在 ImageNet 數據集的 VGG16 模型上,即使剪枝粒度達到 256 × 256 壓縮率也能達到 60% 以上,且精度損失可以忽略。
? 設計與上述類腦計算完備性和編譯技術適配的新型類腦芯片架構 FPSA (Field Programmable Synapse Array)。利用編譯器轉換后硬件執行模型的簡潔 性,簡化基于憶阻器的芯片結構設計,提高計算密度與計算性能,并引入可 重構路由架構以優化片內通信。與同樣基于憶阻器的類腦芯片架構 PRIME 相比,性能提升可達三個數量級。
辨識性特征學習及在細粒度分析中的應用
細粒度分析旨在對粗粒度的大類進行細粒度的子類劃分,如把鳥劃分為里海燕鷗、 北極燕鷗等子類別。其廣泛應用于智能農業、智能醫療等智能產業,具有重要的研究 和應用價值。其挑戰在于類間差異小、類內差異大。以圖像為例,不同子類別在形狀、 顏色上差異細微,難以區分;相同子類別在姿態、視角上差異顯著,容易誤分。因此, 關鍵科學問題是:如何獲取細粒度子類別的辨識性信息并有效表達,突破細粒度分析難題。針對上述問題,本文從減少標注成本、減少人工先驗、提高辨識速度、提高語義 關聯四個方面展開辨識性特征學習研究,并分別應用于細粒度圖像分類和細粒度跨媒 體檢索任務。主要工作總結如下:
在減少標注成本上,提出了基于對象-部件注意力模型的細粒度圖像分類方法。在對象級注意力上,提出注意力選擇和顯著性提取,自動定位對象區域,學習更 精細的對象特征。在部件級注意力上,提出空間關聯約束和部件語義對齊,實現 辨識性部件的有效定位,排除了姿態、視角等差異的干擾。兩者結合能夠學習 到多粒度的辨識性特征,準確率超過了使用對象、部件人工標注的強監督方法。
在減少人工先驗上,提出了基于堆疊式深度強化學習的細粒度圖像分類方法。首 先,層次化地定位圖像中的多粒度辨識性區域,并自適應地確定其數目。然后, 通過多尺度區域的定位及辨識性特征學習,進一步提升細粒度圖像分類準確率。學習過程由語義獎勵函數驅動,能夠有效捕捉圖像中的辨識性、概念性的視覺 信息,實現弱監督甚至無監督條件下的辨識性特征學習。
在提高辨識速度上,提出了基于弱監督快速辨識定位的細粒度圖像分類方法。首 先,提出多級注意力引導的辨識性定位,通過顯著圖生成偽監督信息,實現了 弱監督條件下的辨識性定位。進一步顯著圖驅動二次定位學習,增強了定位的 準確性。然后,提出多路端到端辨識性定位網絡,實現多個辨識性區域的同時 定位,從而提高了辨識速度。多個辨識性區域之間互補促進,提升細粒度圖像 分類準確率。
在提高語義關聯上,引入文本、視頻、音頻等跨媒體數據,提出了基于細粒度 分類的跨媒體檢索方法。建立了首個包含 4 種媒體類型(圖像、文本、視頻和 音頻)的細粒度跨媒體檢索公開數據集和評測基準 PKU FG-XMedia。提出了能 夠同時學習 4 種媒體統一表征的深度模型 FGCrossNet,確保統一表征的辨識性、 類內緊湊性和類間松散性。實現圖像向跨媒體的擴展,分類向檢索的擴展。
機器學習中部分非凸和隨機優化算法研究
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算 法復雜度理論等多門學科。算法理論與應用是機器學習中最為重要的核心之一。其中一階優化算法因其簡單有效性,而被廣泛研究與應用。另一方面由于近年來 數據規模的不斷增大,數據集的規模使得二階或更高階的算法應用受阻。這使得 一階算法進一步成為機器學習的研究重點。隨著機器學習中問題模型的不斷擴張, 例如深度學習,非凸問題和模型也激發了學者們廣泛的研究興趣。這使得研究非 凸算法顯得更加急迫。而且由于數據集的龐大性,確定算法難以逃出鞍點,因此 隨機算法受到了史無前例的關注。本文主要結果可以歸納如下:
一、研究了三種 ADMM 算法。第一個 ADMM 的工作是關于一般的 ADMM 收 斂性分析統一框架。在此框架下,很多現有的 ADMM 收斂性分析可以歸納進該 框架。除了現有的 ADMM 算法,根據統一框架還能夠設計出新的 ADMM 算法。第二個和第三個 ADMM 都是針對結構非凸優化問題提出的:一個是針對泛 ?q 正 則化約束優化問題,而另一個是針對 ?1?2 正則化約束優化。給出了后面兩種非凸 ADMM 算法的收斂性分析,所得到的結果可以指導用戶選擇合適的超參數。
二、研究了兩種一階優化領域常用的非精確算法。第一種是非精確的加速算 法。相較于之前的研究,該算法的假設更為真實。而且還囊括了一大類隨機噪聲 的情況,使得算法更為實用。而機器學習中的一階催化劑算法由于是該加速算法 帶上了隨機噪聲,因此可以看做本算法的特例。在第二部分給出了非精確非凸算 法的收斂性框架理論。可以被廣泛應用到各種一階非凸算法。
三、證明了在有界和無界延遲以及隨機和確定性塊選擇下異步并行梯度下降法 的收斂結果。這些結果不需要迄今為止絕大多數其他工作中出現的獨立性假設。這是由于本文使用了 Lyapunov 函數技術,可直接處理延遲,而不是像之前的工作 一樣僅僅將它們建模為噪聲。
四、分析了馬爾可夫鏈隨機梯度下降法,其中樣本采用了某個馬爾可夫鏈的軌跡。主要貢獻之一是給出了馬爾可夫鏈隨機梯度下降法的在凸情況下的非遍歷收 斂分析。結果然后擴展到不精確的格式。這種分析使得能夠建立不可逆有限狀態 馬爾可夫鏈和非凸最小化問題的收斂性。這樣的結果適用于不知道具體的概率分 布,但可以通過馬爾可夫鏈進行采樣的情形。