新型深度學習模型的研究
深度學習是近年來機器學習領域中的熱點研究領域。深度森林模型是一 種新型深度學習模型,擴展了深度學習的內涵和適用范圍。本文開展深度森 林方面的相關研究工作,主要取得了以下創新結果:
1.基于森林的多層分布表示。多層分布式表示學習被認為是神經網絡獨有的 特性,本文提出了基于森林的多層模型 mGBDT,第一次顯示出多層分布 式表示通過森林模型也能進行。在表格數據和混合數據等各類建模任務 上,mGBDT 展示了其兼具表示學習和離散數據建模的能力。
2.基于森林的自編碼器模型。自編碼器被認為是只能通過神經網絡實現的獨 有模型,本文工作提出了第一個基于森林的自編碼器 eForest,在多類數 據上均取得了優異的性能體現。與此同時,還利用 Intel 眾核芯片 KNL, 通過多進程,向量化和編譯器優化等技術,獲得了近線性加速比,為大規 模應用提供了基礎。
多層圖分析技術研究
近年來,越來越多的領域都使用“圖”來表示和管理數據,稱為“圖數據”。針對 圖數據的分析可以發現其中的結構特征、頻繁模式、演變規律等有用的知識,具有 重要的科研意義和應用價值。隨著研究的深入,人們發現現實世界的圖數據往往 包含數據對象間多種類型的關系。例如,社交網絡數據包括多個社交媒體組成的 網絡;交通網絡數據涵蓋了多種交通工具組成的網絡。這種圖數據稱為“多層圖”, 其每一層包含了數據對象間某種特定類型的關系。
多層圖分析可以發現準確可靠、價值更高的知識。然而,多層圖分析面臨兩 方面的挑戰:一方面,單層圖上的計算語義在多層圖場景下不再適用,多層圖上 的計算語義更加復雜;另一方面,多層圖分析涉及多個圖層上的計算任務,使得 問題的固有計算復雜性大大增加。現有的多層圖分析方法在計算語義和算法設計 兩個方面都存在缺陷,不能很好的解決多層圖分析的有關問題。
本文綜合運用數據分析的相關理論、技術和方法,對于多層圖分析進行了系統研究。本文同時考慮了無概率的普通多層圖和帶概率的多層圖,從圖數據的稠 密性、可靠性、傳播性和相似性四方面重要性質出發,對多層圖分析領域中的一 系列重要問題進行了深入研究,主要研究成果如下:
本文研究了多層圖上的多樣化稠密區域發現問題,該問題在生物蛋白復合 體檢測和社區發現上具有重要應用。在無概率的普通多層圖模型基礎上,本文提 出了一種新的稠密區域概念 d-Coherent-Core(簡稱 d-CC),設計了兩種近似比為 1/4 的高效搜索算法來求解該 NP-難問題,算法在結果質量和執行時間兩個方面 均優于基于準團的傳統算法。d-CC 概念同時刻畫了稠密區域的稠密度和支持度兩 方面重要特性,滿足唯一性、包含性和層次性 3 個重要數學性質。自底向上和自 頂向下兩種搜索算法采用了高效的搜索策略和剪枝方法,分別適用于支持度參數 較小和較大兩種情況。真實數據上的實驗結果表明:自底向上和自頂向下兩種搜 索算法是高效、準確的。
本文研究了多層圖上的 top-k 可靠頂點搜索問題,該問題在通信網絡中具 有重要的研究意義,相比基于閾值的搜索問題自適應性更好。本文給出了一種圖 層帶概率的多層圖模型,提出了一種新的多層圖計算框架——共享計算,其可以 有效利用多層圖不同圖層間的重疊結構以減少搜索代價、提高算法效率。基于此,本文設計了求解 top-k 可靠頂點搜索問題的共享 BFS 精確算法和隨機算法。真實 數據上的實驗結果表明:共享 BFS 精確算法具有很高的效率和擴展性;共享 BFS 隨機算法具有很高的準確率。
本文研究了多層圖上的影響力最大化問題,該問題在病毒式營銷和輿情控 制中應用廣泛。為描述影響力最大化問題中的圖數據,本文給出了一種帶概率的 多層圖模型,其可以表示由于邊的不確定性而形成的多層圖。針對已有算法的缺 陷,本文設計了一種能夠同時達到高時間效率、高結果質量、低內存開銷和高健 壯性的影響力最大化算法,具有線性的時間和空間復雜度。該算法采用高質量的 分數估計方法和增量式的分數更新方法,在實際社交網絡中表現出良好的性能和 很高的擴展性。
本文研究了多層圖上 SimRank 頂點相似性測度問題,該問題是推薦系統、 實體識別等眾多應用的基礎。在帶概率的多層圖模型基礎上,本文嚴格給出了符 合其可能世界語義的 SimRank 相似性測度定義,設計了高效、準確的計算頂點間 SimRank 相似性的方法。同時,作為 SimRank 相似性測度的基礎,本文提出了多 層圖上隨機游走的定義,嚴格證明了這一定義滿足馬爾可夫性,設計了計算隨機 游走概率的高效算法。真實數據上的實驗結果表明:本文提出的 SimRank 算法是 高效、準確的;本文提出的 SimRank 測度比傳統測度在實際應用中效果更好。
深度預測學習問題與方法研究
隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文面向這類數據的時間與空間結構特性,系統研究基于神經網絡的 深度預測學習方法。該方法旨在學習時空序列背后的演變規律,并對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其復雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下游語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關系,每個階段包含 2-3 個創新點:
第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基于 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。
第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用于存在固有動力學模式但趨勢信息相對復雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。
第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 系推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機制, 旨在同時促進模型對短期時空特征的感知和對長期語義關系的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了面向時空數據的深度預測學 習是一種有效的無監督表征學習框架。
此外,本文還設計了一套名為 PredLearn 的模型庫,從系統實現的角度對上述 創新性方法及其特點和適用范圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最后,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平臺的技術轉化。
基于深度學習的圖像處理算法研究
隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。
盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:
(1) 一種基于無監督學習的空間自適應圖像平滑算法
該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。
(2) 一種基于弱監督學習的圖像反光去除算法
該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。
(3) 一種基于多標簽聯合訓練的本征圖像分解算法
本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。
(4) 一種基于解耦學習的實時參數化圖像處理框架
傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。
面向物體語義理解的視覺表示學習
在對真實世界中的物體進行描述時,人們通常使用大量抽象的語義概念,如物體的顏色、形狀、類別等。一方面,這些抽象的語義概念在不同的物體間是可以共享的,因此語義概念天然地可以將不同的物體聯系在一起,從而快速、準確地建立真實世界中身邊的物體與已知的物體之間的關聯,方便人們理解周圍的世界。另一方面,不同抽象程度的語義概念之間也并非完全相互獨立,而是存在一定的關聯關系,因此語義概念也是人在進行推理過程中的重要線索之一。綜上所述,語義概念在感知和認知任務中都有重要的作用,因此對于計算機視覺算法來說,掌握和理解語義概念具有巨大的潛在價值。具體來說,算法對于語義概念的理解可以分為以下四個層次:第一,識別物體具有的語義概念,如物體屬性預測、物體識別等;第二,挖掘物體間由語義概念組成的關聯,如統計出多個物體具有相同的屬性;第三,建立多維度的語義關聯知識網絡,如建立起尐馬少這類物體基本都具有尐四足少屬性這樣的知識;第四,利用語義關聯知識進行邏輯推理。近年來,盡管計算機視覺技術取得了長足的發展,但是由于物體語義的高度復雜,上述感知問題仍然沒有被完全解決。而在更高的層面上,只有很少的工作涉及到了挖掘不同抽象程度的語義概念之間的聯系。針對上述物體間及語義概念間的關聯學習,本文利用表示學習的方法,著手解決其中的三個關鍵問題:(就)快速、準確地識別物體間的語義關聯;(尲)在不同的語義抽象程度上挖掘物體間的關聯關系;(尳)使用盡可能少的人工標注,建立不同抽象程度的語義概念之間的關聯。在理論方面,本文提出的方法可以實現對圖像、場景的深層次理解,在一定程度上解決計算機視覺問題中的知其然而不知其所以然的問題。在應用方面,本文提出的方法在多個不同抽象程度的語義概念上建立了物體之間的關聯,并且通過學習的方式建立了不同抽象程度的語義概念之間的關聯,因此本文提出的方法在個性化圖像檢索、知識推理等任務上具有潛在的應用價值。具體地,本文以最常見的語義概念——類別作為出發點,逐漸深入地展開研究工作,圍繞物體間語義關聯及語義概念間的關聯學習開展以下四個主要工作:
(1)提出了一種端到端的有監督二值碼深度學習算法,用來解決大規模依據類別的圖像檢索任務。該任務中,給定一張查詢圖像,系統的目標是檢索屬于同類的數據庫中圖像。為了引入判別性,該方法對圖像對或圖像三元組之間。的距離進行約束,要求相似的圖像具有相似的二值碼,反之亦然。此外,針對哈希編碼學習中的二值量化導致的損失函數不可導問題,該方法提出了一種全新的量化損失約束,在保持判別性約束的同時,通過施加量化損失約束,減少量化損失帶來的檢索精度損失。
(2)提出了一種基于離散優化的兩階段有監督二值碼深度學習方法,主要針對上一個工作中,由于判別性損失與量化損失的優化目標不同而導致的判別性損失難以收斂到最優的問題。其中,在第一階段,通過設計一種離散優化算法,直接在漢明空間中迭代優化,得到具有強判別性的二值碼;在第二階段,通過訓練模型擬合優化得到的二值碼,從而避免判別性損失與量化損失之間的沖突,得到檢索精度更高的二值碼。
(3)提出了一種可以在多個維度的語義概念上建立物體間關聯的二值碼學習方法,從而相比于前兩個工作,可以更好地建模物體間豐富的語義關聯。該方法通過同時使用多個損失函數對模型進行訓練,將多種不同抽象程度的語義概念編碼到同一組二值碼中。因此,該方法可以根據不同用戶的特定需求,按照不同的方式使用學習到的二值編碼,進行相應的圖像檢索任務,找到在特定語義標準下相似的數據庫圖像。另外,考慮到目前公開的數據集中,只有極少數的數據同時具有多種不同抽象程度的語義概念的標注,為了使模型具有更強的泛化性能,該方法被設計為可以使用大量存在的部分標注數據進行訓練。
(4)設計了一種算法來自動地挖掘語義概念間天然存在的關聯,包括物體的類別之間的關聯,以及物體類別與視覺屬性之間的關聯。在前三個方法中,并沒有很好地利用不同語義概念之間的關聯進行模型的學習。其中一個重要原因是語義概念間關聯數據的匱乏。由于目前的公開數據集上幾乎沒有這類標注,該方法基于表示學習技術,自動地從大量圖像中學習視覺屬性的概念,并基于學習到的視覺屬性,建立類別層級結構中不同語義概念之間的關聯,從而構建起語義關聯知識。在應用層面上,該方法可以對物體識別模型的預測結果給出人類可理解的解釋。此外,該方法學習到的語義關聯知識,對于需要進行知識推理的計算機視覺認知任務具有巨大的潛在應用價值。
表示學習(representation learning), 又稱表征學習,是指將輸入數據轉化成 適用于機器學習形式的過程。通常地,機器學習的性能依賴于對數據表示的選 擇,一個好的表示可以使得模型對輸入數據進行更好的理解。近年來,神經網絡 的興起,使得我們可以自動地對輸入數據進行特征抽取。這極大推動了表示學習 的發展,并給我們帶來了進一步探究的可能性。
一般地,表示學習的研究可以按照不同角度進行劃分:從學習方式上,可以 分為有監督學習和無監督學習;從輸入數據模態上,可以分為文本表示、圖像表 示以及語音表示;從共享獨立性上,可以分為共享表示和私有表示。在自然語言 處理中,使用深度學習技術(即深度神經網絡)對文本進行表示學習已經成為一 個很有價值的研究方向。本文工作圍繞著以下問題展開:1)對于不同粒度的文 本(詞語、句子、句對),如何設計合理的結構,使得模型可以學習到適合最終任 務的表示?深度學習的到來使得自然語言處理中的研究工作由原來的特征工程 (feature engineering) 過渡到了現在的結構工程 (architecture engineering) ,而對于 文本的表示學習,首先要解決的最基本問題就是尋找合適的歸納偏置 (inductive bias),使得模型可以更好地對輸入文本進行編碼。而本文分別針對不同粒度的文 本信號,進行相應的網絡結構探索,希望找到更適合下游任務的結構偏置。2)如 何進行針對性的遷移學習?有針對性地進行遷移是指我們要對遷移的知識“按 需分配”,這就要求我們學習的知識應該具備可遷移性,此外,我們還要對已有 的知識進行可理解分析,從而可以分離我們真正需要的知識,最終實現知識的定 向遷移。對于以上兩個亟待解決的問題,本文通過兩個方面,九個章節進行遞進 式探討,其貢獻總結如下:
一方面,對于不同粒度文本的表示學習,本文分別探索了最適合下游任務的 歸納偏置,并且利用這些歸納偏置設計新的模型,這些模型在主流的數據集上都 取得了當時最好的效果。
關鍵詞:深度學習;語義表示學習;自然語言處理;歸納偏置;知識遷移
深度學習在很多人工智能應用領域中取得成功的關鍵原因在于,通過復雜的深層網絡模型從海量數據中學習豐富的知識。然而,深度學習模型內部高度的復雜性常導致人們難以理解模型的決策結果,造成深度學習模型的不可解釋性,從而限制了模型的實際部署。因此,亟需提高深度學習模型的可解釋性,使模型透明化,以推動人工智能領域研究的發展。本文旨在對深度學習模型可解釋性的研究進展進行系統性的調研,從可解釋性原理的角度對現有方法進行分類,并且結合可解釋性方法在人工智能領域的實際應用,分析目前可解釋性研究存在的問題,以及深度學習模型可解釋性的發展趨勢。為全面掌握模型可解釋性的研究進展以及未來的研究方向提供新的思路。
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。
論文摘要:本工作針對機器學習算法的分布式梯度優化,期望通過設 計一系列算法層面的方法,首先優化計算過程和通信過程,進而從全局上優化整體迭 代過程,最終實現在分布式環境下高效高性能的目標。具體而言,本文的研究內容有 以下三點主要貢獻。
關鍵詞:機器學習,分布式梯度優化,梯度提升樹,隨機梯度下降,數據草圖
作者介紹: 江佳偉,男, 信息科學技術學院 計算機軟件與理論專業,他的博士生導師是崔斌教授, 博士學位論文題目為《機器學習算法的分布式梯度優化研究》。博士期間學術成果:CCF A類會議SIGMOD發表第一作者論文3篇,CCF A類SCI期刊TOIS發表第一作者論文1篇,CCF A類會議ICDE發表通訊作者論文1篇,CCF B類會議DASFAA發表第一作者論文1篇,CCF C類會議APWeb-WAIM發表第一作者論文1篇,SCI期刊NSR發表第三作者論文1篇。
論文摘要:傳統監督學習通常假設訓練數據類別標記恒定、特征信息充分、樣本充 足。但很多現實的機器學習任務不滿足這些假設條件,導致學習效果不盡人 意。為此,本文考慮通過引入增廣信息 (Augmented Information) 進行學習。增 廣信息包括傳統靜態學習中未考慮的額外信息以及動態學習過程中出現的新信 息。本文主要工作如下:
關鍵詞: 機器學習;增廣學習;增廣信息;多標記學習;新標記學習;多視圖 學習;單趟學習
作者介紹:朱越,他是南京大學計算機科學與技術學院五年級博士生,也是LAMDA集團的成員。在此之前,他于2011年獲得了計算機科學與技術的理學學士學位,并于2013年在周志華教授的指導下獲得了理學碩士學位。2015年3月至2015年9月,他拜訪了香港科技大學James T. Kwok的小組。