論文摘要:本工作針對機器學習算法的分布式梯度優化,期望通過設 計一系列算法層面的方法,首先優化計算過程和通信過程,進而從全局上優化整體迭 代過程,最終實現在分布式環境下高效高性能的目標。具體而言,本文的研究內容有 以下三點主要貢獻。
關鍵詞:機器學習,分布式梯度優化,梯度提升樹,隨機梯度下降,數據草圖
作者介紹: 江佳偉,男, 信息科學技術學院 計算機軟件與理論專業,他的博士生導師是崔斌教授, 博士學位論文題目為《機器學習算法的分布式梯度優化研究》。博士期間學術成果:CCF A類會議SIGMOD發表第一作者論文3篇,CCF A類SCI期刊TOIS發表第一作者論文1篇,CCF A類會議ICDE發表通訊作者論文1篇,CCF B類會議DASFAA發表第一作者論文1篇,CCF C類會議APWeb-WAIM發表第一作者論文1篇,SCI期刊NSR發表第三作者論文1篇。
本書介紹了在并行和分布式計算平臺上擴展機器學習和數據挖掘方法的代表性方法的集成集合。對并行學習算法的需求是高度特定于任務的:在某些情況下,并行學習算法是由龐大的數據集驅動的,而在另一些情況下,并行學習算法是由模型復雜性或實時性能需求驅動的。為大規模機器學習選擇適合于任務的算法和平臺,需要了解可用選項的好處、權衡和約束。本書提供的解決方案涵蓋了一系列的并行化平臺,從FPGAs和gpu到多核系統和商品集群,并發編程框架包括CUDA、MPI、MapReduce和DryadLINQ,以及學習設置(監督、非監督、半監督和在線學習)。廣泛的并行化的推進樹,支持向量機,譜聚類,信念傳播和其他流行的學習算法,并深入到幾個應用,這本書適合研究人員,學生,和從業者。
論文摘要:隨著數碼相機、智能手機等數碼設備的普及,用戶可以隨時隨地拍攝各種感興趣的場景。然而,在成像過程的曝光時間內存在難以避免的相機抖動、物體運動、場景深度變化等原因,使拍攝的圖片和視頻中往往存在一些模糊現象,影響對圖片內容的理解。因此對這些低質量圖片的恢復將有助于人們更好的理解圖像內容。本文擬對模糊圖片和視頻的還原進行研究,分別利用不同的結構先驗知識對模糊圖像和視頻內容進行恢復。本文的主要研究內容和貢獻如下:
針對場景文字圖片中文字筆畫寬度不同的特性,提出了一種基于文字特有多尺度字典的場景文字去模糊方法。并且統計了場景文字圖像中筆畫寬度的分布規律,通過該統計規律分別訓練得到不同尺度的場景文字字典。然后利用該文字特有多尺度字典對文字圖片中的文字區域建模先驗知識。本文提出的文字特有多尺度字典可以有效處理場景中不同筆畫寬度的場景文字。
根據圖像中相似圖像塊之間的低秩結構特性,本文提出了一種基于低秩先驗的圖像去模糊方法,觀察到在模糊圖像中使用低秩約束可以在一定程度上減少圖像的模糊效應,同時保留圖像的主要結構信息,而這一現象在圖像的梯度域上更加明顯。基于此本文提出基于低秩近似的圖像去模糊方法,分別在圖像的灰度域和梯度域增加低秩約束,保留圖像的主要邊緣結構達到去模糊的效果。
由于視頻中存在復雜的相機抖動,物體運動和場景深度變化等多種原因,傳統的基于均勻模糊核或全局非均勻模糊核的視頻去模糊方法不能滿足真實視頻的特性。基于此,提出了一種基于像素級非線性模糊核的視頻去模糊方法。通過對視頻雙向光流構造二次方程,來近似求解每個像素的非線性模糊核,可以反映出視頻中更真實的模糊核。此外,為了提高光流的準確性,將語義分割引入到視頻去模糊中,通過不同物體信息對光流進行不同的建模,得到更好的光流估計結果從而進一步提高視頻去模糊的效果。
關鍵詞: 圖像去模糊,文字圖像去模糊,視頻去模糊,稀疏表達,低秩表示,像素級非線性模糊核,光流,語義分割
作者介紹:他目前是天津大學計算機科學與技術學院和美國加州大學默塞德分校電子工程與計算機科學聯合培養的博士研究生,他的博士生導師是操曉春,他的研究興趣包括圖像去模糊,圖像/視頻分析和增強,以及相關的視覺問題,相關研究成果發表在權威期刊和會議上,如IEEE TIP, CVPR, ECCV等。
論文主題:基于屬性圖挖掘的職業流動行為研究
論文作者:胥皇,西北工業大學博士研究生,他的導師是於志文。
指導老師:於志文,工學博士,西北工業大學教授,博士生導師,洪堡學者。西北工業大學計算機學院兼軟件與微電子學院黨委書記,智能感知與計算工信部重點實驗室主任,陜西省嵌入式系統技術重點實驗室主任,普適與智能計算研究所所長。
論文摘要: 職業流動行為是指個人在職業生涯中的工作變動引起的人才流動現象,根據研究的層次,可分為微觀(個人)、中觀(用人單位內)和宏觀(行業和地區間)三個行為粒度。職業流動行為受經濟、文化和政治等環境因素的影響,與知識水平、職業追求和家庭背景等個人因素相關,且對個人、家庭、用人單位、社會經濟甚至國家的人才戰略等都有重要意乂。隨著經濟全球化的發展,職業流動行為呈現岀逐漸活躍的趨勢,為相關分析和研究帶來了新的機會和挑戰。相關硏究主要集中在人力資源管理和組織行為學等領域,且對微觀流動的硏究通常規模較小,對宏觀流動的硏究一般粒度較粗。隨著互聯網的普及,職業流動的信息迅速數字化,為開展大規模細粒度的研究創造了可能。同時,不斷增強的數據挖掘技術,以及日益提髙的計算能力,為復雜藪據建模提供了機會。因此,本文基于屬性圖挖掘技術,研究職業流動行為相關的若干關鍵問題。具體而言,本文以職業流動的屬性圖表示為基礎,通過圖重建技術實現行為粒度的切換,將相關研究問題轉換為屬性圖上的建模任務,并重點解決了靜態圖聚類和動態圖預測兩個關鍵問題。
論文題目:基于路徑依賴關系的循環分析技術研究
論文作者:謝肖飛,天津大學博士研究生,主要研究方向是計算機科學及計算機應用、軟件工程及安全軟件工程、可信軟件及網絡安全等信息安全領域。
指導老師:李曉紅,教授,博士生導師,智能與計算學部網絡安全學院副院長、軟件與信息安全工程研究所所長,天津市先進網絡重點室副主任。兼任計算機學會高級會員、中國計算機學會女工委委員、ACM會員、軟件工程專委會委員、形式化專委會委員、全國高等學校計算機教育研究會常務理事、天津大學女工委員、智能與計算學部教代會主任。主要從事計算機科學及計算機應用、軟件工程及安全軟件工程、可信軟件及網絡安全等信息安全領域的研究工作。 主持和參與科技部“863”計劃、國家重大研究計劃,國家基金重點、天津市重點等項目20余項,發表重要期刊和會議論文100余篇。在頂級會議和期刊發表論文23篇,其中:CCF A類或SCI一區8篇(TSE2017、JIOT2018、FSE2016、AAAI2017、FSE2017、IJCAI2017、IEEE S&P 2015、IEEE S&P2016),CCF B類9篇(ISSTA2016、ECAI2016,ICSME2017、SANER2017、ICWS2017、ICWS2018、AAMAS2018、ICSOC 2018),JCR一區2篇,SCI二區2篇、SCI三區2篇,論文“Proteus: Computing Disjunctive Loop Summary via Path Dependency Analysis”解決了符號執行中循環處理的難題,被軟件工程頂級會議FSE 2016接收,并獲得ACM SIGSOFT 2016年度杰出論文獎。曾獲授權國家發明專利13項,獲湖北省科技進步一等獎1項,天津科技進步三等獎1項。指導博士生獲得天津大學優秀博士論文,碩士研究生連續三年獲得天津市優秀碩士學位論文。
論文摘要:軟件已經被廣泛應用于在現代社會的各個領域,由于代碼實現不當導致軟件 的質量問題也層出不窮。基于靜態分析的程序驗證和測試是保障軟件代碼安全性 與正確性的兩種主要技術,而循環分析是靜態分析中面臨的最大挑戰之一。在靜 態分析中,由于循環的迭代次數往往不能確定,使得無法對循環的所有行為分析 和檢測,從而影響程序驗證和高覆蓋率測試用例生成的效率。循環分析已經成為 程序驗證、測試及其它靜態分析應用的主要瓶頸。高效的循環分析技術可以提高 程序分析的效率,從而更好地保證軟件質量。
論文摘要:本文基于方差縮減、拒絕采樣、訪存優化等技術,研究了隱變量模型和深度表示學習兩類模型的高效算法,并研究了這些算法在文本分析、生成式模型、圖節 點分類等多個任務中的應用。具體地,本文創新點有:
關鍵詞:表示學習;隱變量模型;主題模型;采樣算法;圖卷積網絡
作者介紹:陳健飛,他目前是清華大學計算機科學與技術系的博士研究生,他的博士生導師是朱軍。他研究興趣是大規模機器學習,尤其是可擴展的深層生成模型和深層主題模型。之前,他專注于擴展各種主題模型,包括LDA、CTM、DTM等。
論文摘要:圖數據的處理在各個領域都有?泛的應?。隨著圖數據規模的擴?和對處理能?要求的提升,眾多專門?向圖數據的處理系統應運??。本?先從傳統的離線處理?度切?,研究了如何基于向上和向外兩種擴展?式進??規模圖數據的分析,主要?作包括:
關鍵詞:?數據;圖數據處理;離線處理;在線處理;混合事務/分析處理
作者介紹:朱曉偉,他目前是清華大學計算機科學與技術系的博士研究生,他的博士生導師是陳文光。他的研究方向是于并行/分布式計算和大數據分析。
CMU大神博士生Brandon Amos,馬上就要畢業了。博士期間,他在可微優化機器學習建模方向,發表了ICLR 一篇,ICML 三篇,NeurIPS 三篇,分析了可微優化機器學習建模的很多問題。近日,他將自己的博士論文也開放了出來,系統的講述了可微優化機器學習建模的方方面面。
博士論文簡介
我們提出了兩種基于優化建模的基本方法:
然后,我們將展示如何使用OptNet方法,1)將無模型和基于模型的強化學習與可微最優控制相結合,2)針對top-k學習問題,我們展示了如何將cvxpy領域特定的語言轉換為可微優化層,從而實現本文方法的快速原型化。
近年來,移動設備得到了越來越大的發展,計算能力越來越強,存儲空間越來越大。一些計算密集型的機器學習和深度學習任務現在可以在移動設備上運行。為了充分利用移動設備上的資源,保護用戶的隱私,提出了移動分布式機器學習的思想。它使用本地硬件資源和本地數據來解決移動設備上的機器學習子問題,只上傳計算結果而不是原始數據來幫助全局模型的優化。該體系結構不僅可以減輕服務器的計算和存儲負擔,而且可以保護用戶的敏感信息。另一個好處是帶寬的減少,因為各種各樣的本地數據現在可以參與培訓過程,而不需要上傳到服務器。本文對移動分布式機器學習的研究現狀進行了綜述。我們調查了一些廣泛使用的移動分布式機器學習方法。我們還就這一領域的挑戰和未來方向進行了深入的討論。我們相信這項調查能夠清晰地展示移動分布式機器學習的概況,并為移動分布式機器學習在實際應用中的應用提供指導。