題目: Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
摘要: 自2010年以來,深度學習已經徹底改變了語音識別、圖像識別和自然語言處理,每一項都涉及到輸入信號中的單一模態。然而,人工智能中的許多應用都涉及到一種以上的模式。因此,研究跨多種模式的建模和學習這一更為困難和復雜的問題具有廣泛的興趣。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究領域的一個重要課題。本文從學習多模態表示、多模態信號在不同層次的融合以及多模態應用三個新的角度,對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,它將多模態信號統一到同一向量空間中,從而實現跨模態信號處理。我們還回顧了為一般下游任務構造和學習的許多嵌入類型的特性。關于多模融合,本文著重介紹了用于集成特定任務的單模信號表示的特殊體系結構。在應用程序方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題解答。我們相信,這項檢討有助于社區未來在新興多模態情報領域的研究。
作者簡介:
Zichao Yang (楊子超),他是芝加哥大學計算機科學系的博士生。他對機器學習、深度學習及其在計算機視覺、自然語言處理中的應用感興趣。在到CMU之前,他獲得了香港大學的碩士學位,上海交通大學的學士學位。他之前曾在谷歌DeepMind實習,與Chris Dyer和Phil Blunsom合作,MSR與He Xiaodong、Gao Jianfeng和Li Deng合作。 個人主頁://www.cs.cmu.edu/~zichaoy/
Xiaodong He(何曉東)是華盛頓大學西雅圖分校電氣工程系的副教授。他也是微軟研究中心的首席研究員,華盛頓州雷德蒙德。1996年獲清華大學(北京)學士學位,1999年獲中國科學院(北京)碩士學位,2003年獲密蘇里哥倫比亞大學博士學位。他的研究興趣在于人工智能領域,包括深度學習、語音、自然語言、計算機視覺、信息檢索和知識表示與管理。他撰寫/合著了100多篇論文和一本書,并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上發表。IEEE、IEEE SPM等場館。他和同事開發了MSR-NRC-SRI條目和MSR條目,分別在2008年NIST機器翻譯評估和2011年IWSLT評估(中英文)中獲得第一名,并開發了MSR圖像字幕系統,在2015年的MS COCO字幕挑戰賽中獲得一等獎。他曾在多家IEEE期刊擔任編輯職務,擔任NAACL-HLT 2015地區主席,并在主要演講和語言處理會議的組織委員會/項目委員會任職。他是IEEESLTC的當選成員,任期2015-2017年。他是IEEE高級成員,2016年IEEE西雅圖分部主席。 個人主頁:
Li Deng是一位經驗豐富的首席執行官,在高科技行業有著豐富的工作經驗。在人工智能、機器學習、數學建模、計算機科學、語音識別、自然語言處理、深度學習、神經網絡、大數據分析、財務和統計建模等方面具有較強的技術、執行管理和業務開發專業技能。等
題目: A Survey on Deep Geometry Learning: From a Representation Perspective
摘 要:
目前,研究人員已經在利用深度學習處理二維圖像方面取得了很大的成功。近年來,三維計算機視覺和幾何深度學習越來越受到人們的重視。針對不同的應用,提出了許多先進的三維造型技術。與二維圖像可以由像素的規則網格統一表示不同,三維圖形具有多種表示,如深度和多視圖圖像、基于體素的表示、基于點的表示、基于網格的表示、隱式的表面表示等。然而,不同應用程序的性能在很大程度上取決于所使用的表示,并且沒有一種惟一的表示可以適用于所有應用程序。因此,在本次調查中,我們從表象的角度回顧了三維幾何深度學習的最新發展,總結了不同表象在不同應用中的優缺點。我們也提出現有的數據集在這些表示和進一步討論未來的研究方向。
題目: Review: deep learning on 3D point clouds
簡介:
點云是在三維度量空間中定義的點集。點云已經成為三維表示中最重要的數據格式之一。由于激光雷達等獲取設備的可用性增加以及機器人、自動駕駛、增強和虛擬現實等領域的應用增加,它越來越受歡迎。深度學習現在是計算機視覺中最強大的數據處理工具,成為分類、分割和檢測等任務的首選技術。深度學習技術主要應用于具有結構化網格的數據,而點云則是非結構化的。點云的無結構使得深度學習直接處理點云非常具有挑戰性。早期的方法通過將點云預處理成結構化的網格格式來克服這一挑戰,代價是計算成本的增加或深度信息的丟失。然而,最近許多先進的深度學習技術正在開發中,這些技術可以直接操作點云。這篇論文包含了對當前最先進的深度學習技術的調查,這些技術主要集中在點云數據上。我們首先簡要地討論了在點云上直接使用深度學習所面臨的主要挑戰,我們還簡要地討論了通過將點云預處理成結構化網格來克服這些挑戰的早期方法。然后,我們回顧了各種先進的深度學習方法,直接處理點云的非結構化形式。我們介紹了流行的3D點云基準數據集。我們還進一步討論了深度學習在當前流行的三維視覺任務中的應用,包括分類、分割和檢測。
作者:
王程,福建省特支“雙百計劃”入選者、福建省科技創新領軍人才、廈門大學計算機科學系教授、博士生導師、副院長。研究方向:三維視覺,空間大數據分析,激光雷達,虛擬/增強現實。個人主頁:
題目: Multimodal Model Agnostic Meta-Learning via Task-Aware Modulation
簡介:
模型不可知元學習者的目標是從相似的任務中獲取元學習參數,以適應分布相同但梯度更新較少的新任務。由于模型選擇的靈活性,這些框架在諸如少鏡頭圖像分類和增強學習等多個領域表現出了良好的性能。然而,此類框架的一個重要限制是,它們尋求在整個任務分布中共享的公共初始化,這極大地限制了它們能夠學習的任務分布的多樣性。在本文中,我們增強了MAML的能力,以識別從多模式任務分布中采樣的任務模式,并通過梯度更新快速適應。具體來說,我們提出了一個多模態MAML框架,該框架能夠根據所識別的模式調整其元學習先驗參數,從而實現更高效的快速適應。我們在一組不同的少鏡頭學習任務上對所提出的模型進行評估,包括回歸、圖像分類和強化學習。結果不僅證明了我們的模型在調整元學習先驗以響應任務特征方面的有效性,而且表明了多模態分布的訓練比單模態訓練有更好的效果。
邀請嘉賓:
Risto Vuorio是密歇根大學Satinder Singh實驗室的訪問學者,致力于深度強化學習和終身學習,對開發新的增強學習算法并將其應用于新問題很感興趣。
Shao-Hua Sun是南加利福尼亞大學(USC)計算機科學專業的三年級博士生,與Joseph J. Lim教授一起在視覺與機器人認知學習實驗室(CLVR)擔任Annenberg研究員。在加入USC之前,在國立臺灣大學(NTU)電子工程系獲得學士學位。研究興趣橫跨深度學習、計算機視覺、強化學習、元學習、機器人學習等領域。
論文題目: Rule-Guided Compositional Representation Learning on Knowledge Graphs
摘要:
知識圖的表示學習是將知識圖中的實體和關系嵌入到低維連續向量空間中。早期的KG嵌入方法只關注編碼在三元組中的結構化信息,由于KG的結構稀疏性,其性能受到限制。最近的一些嘗試考慮路徑信息來擴展KGs的結構,但是在獲取路徑表示的過程中缺乏可解釋性。本文提出了一種新的基于規則和路徑的聯合嵌入(RPJE)方案,該方案充分利用了邏輯規則的可解釋性和準確性、KG嵌入的泛化性以及路徑的補充語義結構。具體來說,首先從KG中挖掘出不同長度(規則體中的關系數)的Horn子句形式的邏輯規則,并對其進行編碼,用于表示學習。然后,利用長度2的規則來精確地組合路徑,而使用長度1的規則來明確地創建關系之間的語義關聯和約束關系嵌入。優化時還考慮了規則的置信度,保證了規則在表示學習中的可用性。大量的實驗結果表明,RPJE在KG完成任務上的表現優于其他最先進的基線,這也證明了利用邏輯規則和路徑來提高表示學習的準確性和可解釋性的優越性。
論文作者:
張永飛:男,博士,副教授,博士生導師。2005年畢業于北京航空航天大學自動化學院,獲學士學位,免推直博;2011年畢業于北京航空航天大學模式識別與智能系統專業,獲博士學位。2007年至2009年在美國密蘇里大學哥倫比亞分校電氣與工程學院訪問。2011年加入北航計算機學院數字媒體北京市重點實驗室。科研工作:目前主要研究方向包括(1)(視覺)大數據智能分析處理;(2)高性能實時圖像/視頻編解碼與可靠傳輸。主持國家自然科學基金項目面上項目、國家重點研發計劃項目子課題、國家自然科學基金重點項目子課題、863項目子課題、國家重點實驗室自主課題、企業合作預研項目等多項科研任務;作為技術骨干參與國家973計劃、杰出青年基金、國家自然科學基金項目等多項國家級課題的科研工作等。
劉偲,計算機學院副教授、博導。 2012年博士畢業于中科院自動化所,2009-2014年于新加坡國立大學(NUS)任研究助理、博后。2016年在微軟亞洲研究院(MSRA)任鑄星計劃研究員。2014-2018在中國科學院信工所任副研究員。其研究方向是跨模態多媒體智能分析,包括自然語言處理(NLP)和計算機視覺(CV)。共發表了CCF A類論文 40余篇,其研究成果發表于TPAMI、IJCV、TIP、CVPR、ICCV和ACM MM等。 Google Scholar引用4000+次。2017年入選中國科協青年人才托舉工程,2017年獲CCF-騰訊犀牛鳥專利獎。任2017中國計算機大會(CNCC)主論壇特邀講者,2017 CCF青年精英大會“青年技術秀”講者。獲2017 ACM 中國新星提名獎,2017國際計算機學會人工智能專委會中國區(ACM SIGAI China) 新星獎,2018吳文俊人工智能優秀青年獎。 另外,她獲CCF A類會議ACM MM 2012最佳技術演示獎,ACM MM 2013最佳論文獎。指導學生獲得ChinaMM2018 最佳學生論文獎。帶領學生多次獲得國際、國內競賽冠軍: 2016年獲CCF大數據與計算智能大賽(BDCI)綜合特等獎,2017年獲CVPR Look Into Person Challenge Human Parsing Track冠軍,2019年獲得ICCV Youtube-Video Object Segmentation 競賽冠軍。 主辦了ECCV 2018和ICCV 2019‘Person in Context’workshop。擔任中國圖像圖形學學會理事、副秘書長。任ICCV 2019、CVPR 2020 Area chair,AAAI 2019、IJCAI2019、IJCAI 2020 SPC。
報告主題: 語言與視覺多模態智能的進展
報告摘要: 基于近年來深度學習技術對語音,語言,視覺等子領域的推動,在語言和視覺跨模態交叉學科領域我們也取得了很多激動人心的進展,包括跨語言與圖像的理解、推理和生成。具體而言,語言與視覺多模態智能的研究可分為多個層次,包括從底層的多模態表征學習,到上層的語言和視覺表征的融合與對應,再到更上層的應用比如圖像描述、視覺問答、文字到圖像合成等。同時各個層次的模型并不是萬卻獨立,而往往是通過端到端的訓練聯合優化的。在報告中我將結合經典的語言與視覺多模態應用介紹跨語言和視覺的語義表示建模及跨模態信息融合。同時,我還將探討多模態智能中的可解釋性和可控性問題。最后,對多模態智能未來的突破進行了展望。
邀請嘉賓: 何曉冬博士是京東人工智能研究院常務副院長,深度學習及語音和語言實驗室的負責人。他還在華盛頓大學(西雅圖)、香港中文大學(深圳)、同濟大學、及中央美術學院任兼職教授和榮譽教授。在加入京東集團之前,他曾擔任微軟雷德蒙德研究院深度學習技術中心的首席研究員和負責人。他的研究主要集中在人工智能領域,包括深度學習,自然語言處理,語音識別,計算機視覺,信息檢索和多模態智能。他與合作者在這些領域發表了100多篇論文,谷歌學術統計引用數超過13000次,并多次獲得優秀論文獎及贏得重要的人工智能方面大賽。他與合作者發明的深層結構化語義模型(DSSM/C-DSSM),分層注意力網絡(HAN),CaptionBot,SAN,AttnGAN,BUTD Attention等廣泛應用于語言,視覺,IR和人機對話等任務。基于其在自然語言和視覺技術及多模態信息處理方面的貢獻,他于2018年入選IEEE Fellow。
Deep learning has revolutionized speech recognition, image recognition, and natural language processing since 2010, each involving a single modality in the input signal. However, many applications in artificial intelligence involve more than one modality. It is therefore of broad interest to study the more difficult and complex problem of modeling and learning across multiple modalities. In this paper, a technical review of the models and learning methods for multimodal intelligence is provided. The main focus is the combination of vision and natural language, which has become an important area in both computer vision and natural language processing research communities. This review provides a comprehensive analysis of recent work on multimodal deep learning from three new angles - learning multimodal representations, the fusion of multimodal signals at various levels, and multimodal applications. On multimodal representation learning, we review the key concept of embedding, which unifies the multimodal signals into the same vector space and thus enables cross-modality signal processing. We also review the properties of the many types of embedding constructed and learned for general downstream tasks. On multimodal fusion, this review focuses on special architectures for the integration of the representation of unimodal signals for a particular task. On applications, selected areas of a broad interest in current literature are covered, including caption generation, text-to-image generation, and visual question answering. We believe this review can facilitate future studies in the emerging field of multimodal intelligence for the community.
主題:Deep Learning for Graphs: Models and Applications
摘要:圖提供了多種類型的數據的通用表示,而深度學習在表示學習方面顯示了巨大的能力。因此,用圖連接深度學習提供了機會,使各種現實世界問題的通用解決方案成為可能。然而,傳統的深度學習技術對常規網格數據(如圖像和序列)具有破壞性,因此不能直接應用于圖結構數據。因此,將這兩個領域結合起來面臨著巨大的挑戰。在本教程中,我將全面概述圖深度學習的最新進展,包括模型和應用。特別地,我將介紹一些基本概念,回顧最先進算法,并舉例說明各種重要的應用。最后,我將通過討論開放問題和挑戰來總結本教程。
嘉賓簡介:唐繼良(Jiang Tang)自2016年秋季@起擔任密歇根州立大學計算機科學與工程系的助理教授。在此之前,他是Yahoo Research的研究科學家,并于2015年從亞利桑那州立大學獲得博士學位。他的研究興趣包括社交計算,數據挖掘和機器學習及其在教育中的應用。他曾獲得2019年NSF職業獎,2015年KDD最佳論文亞軍和6項最佳論文獎,包括WSDM2018和KDD2016。他是會議組織者(例如KDD,WSDM和SDM)和期刊編輯(例如TKDD)。他的研究成果發表在高排名的期刊和頂級會議論文集上,獲得了數千篇引文(Google學術搜索)和廣泛的媒體報道。
題目主題: Dual Learning for Machine Learning
簡介:
許多AI任務以雙重形式出現,例如英語法語翻譯與法語英語翻譯,語音識別與語音合成,問題解答與問題生成,圖像分類與圖像生成。雖然結構對偶性在AI中很常見,但大多數學習算法并未在學習/推理中利用它。雙重學習是一種新的學習框架,它利用AI任務的原始-雙重結構來獲取有效的反饋或正則化信號,從而增強學習/推理過程。雙重學習已在不同的學習環境中進行了研究,并應用于不同的應用程序。 在本教程中,我們將對雙重學習進行介紹,它由三部分組成。在第一部分中,我們將介紹雙重半監督學習,并展示如何有效地一起利用標記和未標記的數據。我們將從神經機器翻譯開始,然后轉移到其他應用程序。在第二部分中,我們介紹了雙重無監督學習,其中的培訓是完全無監督的。我們介紹了無監督機器翻譯和無監督圖像翻譯。最后,我們介紹了雙重監督學習及其以外的內容,其中包括雙重監督學習,雙重推理和雙重對抗性學習。在本教程的最后,我們提出了雙重學習的幾個未來方向。
作者介紹:
Tao Qin博士是Microsoft Research Asia機器學習小組的高級首席研究經理。 他的研究興趣包括機器學習(側重于深度學習和強化學習),人工智能(對語言理解和計算機視覺的應用),游戲理論和多主體系統(對云計算,在線和移動廣告的應用, 電子商務),信息檢索和計算廣告。 他擁有清華大學的博士學位和學士學位。 他是ACM和IEEE的高級會員,也是中國科學技術大學的兼職教授(博士生導師)。
大綱:
題目: Learning Representations via Graph-structured Networks
報告簡介: 近年來,在無數的計算機視覺任務中,采用卷積神經網絡(ConvNets)的數量急劇增加。卷積的結構被證明在許多任務中都很強大,可以捕獲圖像像素中的相關性和抽象概念。但是,當計算機視覺處理更困難的AI任務時,ConvNets也被證明缺乏建模許多屬性的能力。這些屬性包括成對關系,全局上下文以及處理超出空間網格的不規則數據的能力。
一個有效的方向是根據手頭的任務來重新組織要使用圖形處理的數據,同時構建網絡模塊,這些模塊在圖形中的可視元素之間關聯和傳播信息。我們稱這些網絡為傳播模塊,稱為圖結構網絡。在本教程中,我們將介紹一系列有效的圖結構網絡,包括非局部神經網絡,空間傳播網絡,稀疏高維CNN和場景圖網絡。我們還將討論許多視覺問題中仍然存在的相關開放挑戰。
報告目錄:
部分嘉賓介紹:
Xiaolong Wang,將于2020年秋天加入圣地亞哥圣地亞哥分校(ECE)部門擔任助理教授。 目前是加州大學伯克利分校的博士后,與Alexei Efros和Trevor Darrell一起工作。 在卡內基梅隆大學(Carnegie Mellon University)獲得機器人學博士學位,博導是Abhinav Gupta。
,英偉達研究員,博士就讀于加州大學默塞德分校,與楊明教授一起研究計算機視覺,深度學習以及兩者的結合。曾于2015年在香港中文大學的多媒體實驗室(MMLAB)和2017年NVIDIA Research擔任實習生。