題目: A Survey on Deep Geometry Learning: From a Representation Perspective
摘 要:
目前,研究人員已經在利用深度學習處理二維圖像方面取得了很大的成功。近年來,三維計算機視覺和幾何深度學習越來越受到人們的重視。針對不同的應用,提出了許多先進的三維造型技術。與二維圖像可以由像素的規則網格統一表示不同,三維圖形具有多種表示,如深度和多視圖圖像、基于體素的表示、基于點的表示、基于網格的表示、隱式的表面表示等。然而,不同應用程序的性能在很大程度上取決于所使用的表示,并且沒有一種惟一的表示可以適用于所有應用程序。因此,在本次調查中,我們從表象的角度回顧了三維幾何深度學習的最新發展,總結了不同表象在不同應用中的優缺點。我們也提出現有的數據集在這些表示和進一步討論未來的研究方向。
題目: Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey
摘要:
雖然深度神經網絡(DNNs)在許多不同的問題設置中均能獲得最新的成果,但它們仍受到一些關鍵缺陷的影響。一方面,DNNs依賴于利用大量的訓練數據,其標注過程既耗時又昂貴。另一方面,DNNs通常被視為黑匣子系統,這使其評估和驗證變得復雜。可以通過將先驗知識合并到DNN中來緩解這兩個問題。受卷積神經網絡(CNNs)在計算機視覺任務中的成功啟發,一個有前途的領域是將有關問題的對稱幾何變換的知識合并到一起。這保證了更高的數據效率和更容易解釋的過濾器響應。在本次調查中,試圖簡要概述將幾何先驗知識納入DNNs的不同方法。此外,還嘗試將這些方法連接到3D目標檢測領域以進行自動駕駛,我們希望在這些方面應用這些方法會獲得可喜的結果。
題目: Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks
摘要: 無監督學習的表示仍然是機器學習中的一個開放問題,尤其是語音信號的挑戰,語音信號的特征通常是長序列和復雜的層次結構。然而,最近的一些研究表明,通過使用一種自監督的編碼器-鑒別器方法來獲得有用的語音表示是可能的。本文提出了一種改進的自監督方法,即一個神經編碼器由多個工作者共同完成不同的自監督任務。不同任務之間所需的一致意見自然會給編碼人員帶來有意義的約束,有助于發現一般的表示,并將學習淺顯表示的風險降至最低。實驗表明,該方法可以學習可遷移的、具有魯棒性的、與問題無關的特征,這些特征從語音信號中傳遞相關信息,如說話人身份、音素,甚至更高層次的特征,如情感線索。此外,大量的設計選擇使編碼器易于輸出,方便其直接使用或適應不同的問題。
題目: Review: deep learning on 3D point clouds
簡介:
點云是在三維度量空間中定義的點集。點云已經成為三維表示中最重要的數據格式之一。由于激光雷達等獲取設備的可用性增加以及機器人、自動駕駛、增強和虛擬現實等領域的應用增加,它越來越受歡迎。深度學習現在是計算機視覺中最強大的數據處理工具,成為分類、分割和檢測等任務的首選技術。深度學習技術主要應用于具有結構化網格的數據,而點云則是非結構化的。點云的無結構使得深度學習直接處理點云非常具有挑戰性。早期的方法通過將點云預處理成結構化的網格格式來克服這一挑戰,代價是計算成本的增加或深度信息的丟失。然而,最近許多先進的深度學習技術正在開發中,這些技術可以直接操作點云。這篇論文包含了對當前最先進的深度學習技術的調查,這些技術主要集中在點云數據上。我們首先簡要地討論了在點云上直接使用深度學習所面臨的主要挑戰,我們還簡要地討論了通過將點云預處理成結構化網格來克服這些挑戰的早期方法。然后,我們回顧了各種先進的深度學習方法,直接處理點云的非結構化形式。我們介紹了流行的3D點云基準數據集。我們還進一步討論了深度學習在當前流行的三維視覺任務中的應用,包括分類、分割和檢測。
作者:
王程,福建省特支“雙百計劃”入選者、福建省科技創新領軍人才、廈門大學計算機科學系教授、博士生導師、副院長。研究方向:三維視覺,空間大數據分析,激光雷達,虛擬/增強現實。個人主頁:
簡介: 在許多將數據表示為圖形的領域中,學習圖形之間的相似性度量標準被認為是一個關鍵問題,它可以進一步促進各種學習任務,例如分類,聚類和相似性搜索。 最近,人們對深度圖相似性學習越來越感興趣,其中的主要思想是學習一種深度學習模型,該模型將輸入圖映射到目標空間,以使目標空間中的距離近似于輸入空間中的結構距離。 在這里,我們提供對深度圖相似性學習的現有文獻的全面回顧。 我們為方法和應用提出了系統的分類法。 最后,我們討論該問題的挑戰和未來方向。
在特征空間上學習足夠的相似性度量可以顯著確定機器學習方法的性能。從數據自動學習此類度量是相似性學習的主要目的。相似度/度量學習是指學習一種功能以測量對象之間的距離或相似度,這是許多機器學習問題(例如分類,聚類,排名等)中的關鍵步驟。例如,在k最近鄰(kNN)中分類[25],需要一個度量來測量數據點之間的距離并識別最近的鄰居;在許多聚類算法中,數據點之間的相似性度量用于確定聚類。盡管有一些通用度量標準(例如歐幾里得距離)可用于獲取表示為矢量的對象之間的相似性度量,但是這些度量標準通常無法捕獲正在研究的數據的特定特征,尤其是對于結構化數據。因此,找到或學習一種度量以測量特定任務中涉及的數據點的相似性至關重要。
題目: Network Representation Learning: A Survey
摘要:
隨著信息技術的廣泛應用,信息網絡越來越受到人們的歡迎,它可以捕獲各種學科之間的復雜關系,如社交網絡、引用網絡、電信網絡和生物網絡。對這些網絡的分析揭示了社會生活的不同方面,如社會結構、信息傳播和交流模式。然而,在現實中,大規模的信息網絡往往使網絡分析任務計算昂貴或難以處理。網絡表示學習是近年來提出的一種新的學習范式,通過保留網絡拓撲結構、頂點內容和其它邊信息,將網絡頂點嵌入到低維向量空間中。這有助于在新的向量空間中方便地處理原始網絡,以便進行進一步的分析。在這項調查中,我們全面回顧了目前在數據挖掘和機器學習領域的網絡表示學習的文獻。我們提出了新的分類法來分類和總結最先進的網絡表示學習技術,根據潛在的學習機制、要保留的網絡信息、以及算法設計和方法。我們總結了用于驗證網絡表示學習的評估協議,包括已發布的基準數據集、評估方法和開源算法。我們還進行了實證研究,以比較代表性的算法對常見數據集的性能,并分析其計算復雜性。最后,我們提出有希望的研究方向,以促進未來的研究。
作者簡介:
Xingquan Zhu是佛羅里達大西洋大學計算機與電氣工程和計算機科學系的教授,在中國上海復旦大學獲得了計算機科學博士學位。曾在多家研究機構和大學工作過,包括微軟亞洲研究院(實習)、普渡大學、佛蒙特大學和悉尼科技大學。主要研究方向:數據挖掘、機器學習、多媒體系統、生物信息學。
論文主題: Deep Learning for Image Super-resolution: A Survey
論文摘要: 圖像超分辨率(SR)是提高圖像分辨率的一類重要的圖像處理技術以及計算機視覺中的視頻。近年來,基于深度學習的圖像超分辨率研究取得了顯著進展技術。在這項調查中,我們旨在介紹利用深度學習的圖像超分辨率技術的最新進展系統的方法。一般來說,我們可以粗略地將現有的SR技術研究分為三大類:監督SR、非監督SR和領域特定SR。此外,我們還討論了一些其他重要問題,如公開可用的基準數據集和性能評估指標。最后,我們通過強調幾個未來來結束這項調查未來社區應進一步解決的方向和公開問題.
論文題目: Deep Learning in Video Multi-Object Tracking: A Survey
論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
題目: Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
摘要: 自2010年以來,深度學習已經徹底改變了語音識別、圖像識別和自然語言處理,每一項都涉及到輸入信號中的單一模態。然而,人工智能中的許多應用都涉及到一種以上的模式。因此,研究跨多種模式的建模和學習這一更為困難和復雜的問題具有廣泛的興趣。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究領域的一個重要課題。本文從學習多模態表示、多模態信號在不同層次的融合以及多模態應用三個新的角度,對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,它將多模態信號統一到同一向量空間中,從而實現跨模態信號處理。我們還回顧了為一般下游任務構造和學習的許多嵌入類型的特性。關于多模融合,本文著重介紹了用于集成特定任務的單模信號表示的特殊體系結構。在應用程序方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題解答。我們相信,這項檢討有助于社區未來在新興多模態情報領域的研究。
作者簡介:
Zichao Yang (楊子超),他是芝加哥大學計算機科學系的博士生。他對機器學習、深度學習及其在計算機視覺、自然語言處理中的應用感興趣。在到CMU之前,他獲得了香港大學的碩士學位,上海交通大學的學士學位。他之前曾在谷歌DeepMind實習,與Chris Dyer和Phil Blunsom合作,MSR與He Xiaodong、Gao Jianfeng和Li Deng合作。 個人主頁://www.cs.cmu.edu/~zichaoy/
Xiaodong He(何曉東)是華盛頓大學西雅圖分校電氣工程系的副教授。他也是微軟研究中心的首席研究員,華盛頓州雷德蒙德。1996年獲清華大學(北京)學士學位,1999年獲中國科學院(北京)碩士學位,2003年獲密蘇里哥倫比亞大學博士學位。他的研究興趣在于人工智能領域,包括深度學習、語音、自然語言、計算機視覺、信息檢索和知識表示與管理。他撰寫/合著了100多篇論文和一本書,并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上發表。IEEE、IEEE SPM等場館。他和同事開發了MSR-NRC-SRI條目和MSR條目,分別在2008年NIST機器翻譯評估和2011年IWSLT評估(中英文)中獲得第一名,并開發了MSR圖像字幕系統,在2015年的MS COCO字幕挑戰賽中獲得一等獎。他曾在多家IEEE期刊擔任編輯職務,擔任NAACL-HLT 2015地區主席,并在主要演講和語言處理會議的組織委員會/項目委員會任職。他是IEEESLTC的當選成員,任期2015-2017年。他是IEEE高級成員,2016年IEEE西雅圖分部主席。 個人主頁:
Li Deng是一位經驗豐富的首席執行官,在高科技行業有著豐富的工作經驗。在人工智能、機器學習、數學建模、計算機科學、語音識別、自然語言處理、深度學習、神經網絡、大數據分析、財務和統計建模等方面具有較強的技術、執行管理和業務開發專業技能。等
報告名稱: Deep Geometric Learning of Big Data and Applications
報告摘要: 深度學習技術在計算機視覺,自然語言處理和語音分析方面取得了令人印象深刻的性能。這些任務專注于位于歐幾里得域上的數據,并且針對這些域的數學工具(例如卷積,下采樣,多尺度和局部性)已得到明確定義,并受益于GPU等快速計算硬件。但是,許多基本數據和任務都涉及非歐幾里德領域,而這些領域最初并不是為深度學習方法設計的。例如計算機圖形學中的3D點云和3D形狀,大腦結構連接網絡中的功能性MRI信號,基因組學中基因調控網絡的DNA,量子化學中的藥物設計,高能物理中的中微子檢測以及常見的知識圖理解視覺場景。這一主要局限性促使近年來的研究界將神經網絡推廣到任意的幾何域,例如圖形和流形。卷積,粗化,多分辨率,因果關系等基本操作已通過頻譜和空間方法進行了重新定義。這些非歐氏數據分析問題的最新結果顯示了在許多領域中都有希望的令人振奮的新工具。
該研討會的目標是:1)召集數學家,機器學習科學家和領域專家,以建立這些新興技術的現狀; 2)討論用于分析這些新的深度學習技術的框架; 3)確立新的研究方向以及這些技術在神經科學,社會科學,計算機視覺,自然語言處理,物理學,化學中的應用,以及4)討論了GPU以外的適用于非歐幾里德領域的新計算機處理體系結構。
邀請嘉賓: Jure Leskovec,斯坦福大學計算機科學副教授。 研究重點是對大型社會和信息網絡進行挖掘和建模,它們的演化,信息的傳播以及對它們的影響。 調查的問題是由大規模數據,網絡和在線媒體引起的。
Stanley Osher,加州大學洛杉磯分校 IPAM 數學與計算機科學教授,電氣工程與化學和生物分子工程教授。
報告部分大綱: