報告主題:Universal Features-Information Extraction for Transfer Learning
報告摘要:深度神經網絡已成功地在廣泛的應用中使用。從概念上講,我們知道數據和標簽之間的統計相關性是已知的,并且條件分布的一些近似版本存儲在DNN的權重中。通過嘗試了解DNN的操作,我們的目標是對統計量在網絡內部的表示方式進行數學解釋,以便我們可以將存儲在一個DNN中的學習知識與其他來源的知識(例如先驗知識)集成在一起,結構知識,其他神經網絡的學習成果,或者只是將其用于新的相關問題中。在本次演講中,我們試圖通過建立一種理論結構來解決該問題,該結構可以通過信息與特定推理問題的相關性來衡量信息的含義,并以此來解釋神經網絡在提取“通用特征”(定義為解決方案)時的行為。針對特定的優化問題。我們表明,這種學習過程與統計學和信息論中的許多著名概念緊密相關。基于此理論框架,我們展示了一些在轉移學習中使用神經網絡的靈活方法,特別是結合了一些常規的信號處理技術。
邀請嘉賓:鄭立中(Lizhong Zheng)于1994和1997年在清華大學電子工程系獲得學士和碩士學位,2002年在加州大學伯克利分校電氣和計算機工程系獲博士學位,并到麻省理工學院(MIT) 電氣和計算機科學系任教。目前是該系全職教授,IEEE Fellow。主要從事信息論、無線通信和統計干擾理論研究。曾獲得IEEE 信息理論學會論文獎、美國國家自然基金會CAREER獎和AFOSR 年輕研究學者獎。 近年來在信息論、信息幾何、有損信息處理、網絡信息論模型訓練和社區發現等最新信息理論及其在通信和大數據等方面的應用有著開創性的研究。
我們常常希望將表征性知識從一個神經網絡轉移到另一個神經網絡。例如,將一個大的網絡提煉成一個較小的網絡,將知識從一種感覺模態傳遞到另一種感覺模態,或者將一組模型集成到一個單獨的估計器中。知識蒸餾是解決這些問題的標準方法,它最小化了教師和學生網絡的概率輸出之間的KL分歧。我們證明這一目標忽視了教師網絡的重要結構知識。這激發了另一個目標,通過這個目標,我們訓練學生從老師對數據的描述中獲取更多的信息。我們把這個目標稱為對比學習。實驗表明,我們得到的新目標在各種知識轉移任務(包括單模型壓縮、集成蒸餾和跨模態轉移)上的性能優于知識蒸餾和其他前沿蒸餾器。我們的方法在許多轉移任務中設置了一個新的水平,有時甚至超過教師網絡與知識蒸餾相結合。
元學習已被提出作為一個框架來解決具有挑戰性的小樣本學習設置。關鍵的思想是利用大量相似的小樣本任務,以學習如何使基學習者適應只有少數標記的樣本可用的新任務。由于深度神經網絡(DNNs)傾向于只使用少數樣本進行過度擬合,元學習通常使用淺層神經網絡(SNNs),因此限制了其有效性。本文提出了一種新的學習方法——元轉移學習(MTL)。具體來說,“meta”是指訓練多個任務,“transfer”是通過學習每個任務的DNN權值的縮放和變換函數來實現的。此外,我們還介紹了作為一種有效的MTL學習課程的困難任務元批處理方案。我們使用(5類,1次)和(5類,5次)識別任務,在兩個具有挑戰性的小樣本學習基準上進行實驗:miniImageNet和Fewshot-CIFAR100。通過與相關文獻的大量比較,驗證了本文提出的HT元批處理方案訓練的元轉移學習方法具有良好的學習效果。消融研究還表明,這兩種成分有助于快速收斂和高精度。
地址:
代碼:
題目: Integrating Deep Learning with Logic Fusion for Information Extraction
摘要:
信息抽取(Information extraction, IE)旨在從輸入文本中產生結構化的信息,例如命名實體識別和關系抽取。通過特征工程或深度學習為IE提出了各種嘗試。然而,他們中的大多數人并沒有將任務本身所固有的復雜關系聯系起來,而這一點已被證明是特別重要的。例如,兩個實體之間的關系高度依賴于它們的實體類型。這些依賴關系可以看作是復雜的約束,可以有效地表示為邏輯規則。為了將這種邏輯推理能力與深度神經網絡的學習能力相結合,我們提出將一階邏輯形式的邏輯知識集成到深度學習系統中,以端到端方式聯合訓練。該集成框架通過邏輯規則對神經輸出進行知識正則化增強,同時根據訓練數據的特點更新邏輯規則的權值。我們證明了該模型在多個IE任務上的有效性和泛化性。
作者:
Sinno Jialin Pan是南洋理工大學計算機科學與工程學院院長兼副教授,研究方向是遷移學習、數據挖掘、人工智能、機器學習。
報告題目: Bayesian Deep Learning
報告摘要: 深度神經網絡是連接主義系統,通過它通過學習例子來完成任務,而不需要事先了解這些任務。它們可以很容易地擴展到數百萬個數據點,并且可以通過隨機梯度下降進行優化。貝葉斯方法可以用于學習神經網絡權重的概率分布。貝葉斯深度學習與貝葉斯深度學習(如何對DNNs進行貝葉斯推理?如何學習分層結構的貝葉斯模型?),本篇報告給出一定解釋。
嘉賓介紹: 朱軍博士是清華大學計算機系長聘副教授、智能技術與系統國家重點實驗室副主任、卡內基梅隆大學兼職教授。2013年,入選IEEE Intelligent Systems的“人工智能10大新星”(AI’s 10 to Watch)。他主要從事機器學習研究,在國際重要期刊與會議發表學術論文80余篇。擔任國際期刊IEEE TPAMI和Artificial Intelligence的編委、國際會議ICML 2014地區聯合主席、以及ICML、NIPS等國際會議的領域主席。
論文題目: A Structural Graph Representation Learning Framework
論文摘要: 許多基于圖的機器學習任務的成功在很大程度上取決于從圖數據中學習到的適當表示。大多數工作都集中在于學習保留鄰近性的節點嵌入,而不是保留節點之間結構相似性的基于結構的嵌入。這些方法無法捕獲對基于結構的應用程序(如web日志中的visitor stitching)至關重要的高階結構依賴和連接模式。在這項工作中,我們闡述了高階網絡表示學習,并提出了一個稱為HONE的通用框架,用于通過節點鄰域中的子圖模式(network motifs, graphlet orbits/positions)從網絡中學習這種結構性節點嵌入。HONE引入了一種通用的diffusion機制和一種節省空間的方法,該方法避免了使用k-step線性算子來顯式構造k-step motif-based矩陣。此外,HONE被證明是快速和有效的,最壞情況下的時間復雜度幾乎是線性的。實驗結果表明,該算法能有效地處理大量的網絡日志數據,包括鏈接預測和visitor stitching。
作者簡介:
Ryan A. Rossi,目前在Adobe Research工作,研究領域是機器學習;涉及社會和物理現象中的大型復雜關系(網絡/圖形)數據的理論、算法和應用。在普渡大學獲得了計算機科學博士和碩士學位。
Nesreen K. Ahmed,英特爾實驗室的高級研究員。我在普渡大學計算機科學系獲得博士學位,在普渡大學獲得統計學和計算機科學碩士學位。研究方向是機器學習和數據挖掘,涵蓋了大規模圖挖掘、統計機器學習的理論和算法,以及它們在社會和信息網絡中的應用。
題目: Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
摘要: 自2010年以來,深度學習已經徹底改變了語音識別、圖像識別和自然語言處理,每一項都涉及到輸入信號中的單一模態。然而,人工智能中的許多應用都涉及到一種以上的模式。因此,研究跨多種模式的建模和學習這一更為困難和復雜的問題具有廣泛的興趣。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究領域的一個重要課題。本文從學習多模態表示、多模態信號在不同層次的融合以及多模態應用三個新的角度,對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,它將多模態信號統一到同一向量空間中,從而實現跨模態信號處理。我們還回顧了為一般下游任務構造和學習的許多嵌入類型的特性。關于多模融合,本文著重介紹了用于集成特定任務的單模信號表示的特殊體系結構。在應用程序方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題解答。我們相信,這項檢討有助于社區未來在新興多模態情報領域的研究。
作者簡介:
Zichao Yang (楊子超),他是芝加哥大學計算機科學系的博士生。他對機器學習、深度學習及其在計算機視覺、自然語言處理中的應用感興趣。在到CMU之前,他獲得了香港大學的碩士學位,上海交通大學的學士學位。他之前曾在谷歌DeepMind實習,與Chris Dyer和Phil Blunsom合作,MSR與He Xiaodong、Gao Jianfeng和Li Deng合作。 個人主頁://www.cs.cmu.edu/~zichaoy/
Xiaodong He(何曉東)是華盛頓大學西雅圖分校電氣工程系的副教授。他也是微軟研究中心的首席研究員,華盛頓州雷德蒙德。1996年獲清華大學(北京)學士學位,1999年獲中國科學院(北京)碩士學位,2003年獲密蘇里哥倫比亞大學博士學位。他的研究興趣在于人工智能領域,包括深度學習、語音、自然語言、計算機視覺、信息檢索和知識表示與管理。他撰寫/合著了100多篇論文和一本書,并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上發表。IEEE、IEEE SPM等場館。他和同事開發了MSR-NRC-SRI條目和MSR條目,分別在2008年NIST機器翻譯評估和2011年IWSLT評估(中英文)中獲得第一名,并開發了MSR圖像字幕系統,在2015年的MS COCO字幕挑戰賽中獲得一等獎。他曾在多家IEEE期刊擔任編輯職務,擔任NAACL-HLT 2015地區主席,并在主要演講和語言處理會議的組織委員會/項目委員會任職。他是IEEESLTC的當選成員,任期2015-2017年。他是IEEE高級成員,2016年IEEE西雅圖分部主席。 個人主頁:
Li Deng是一位經驗豐富的首席執行官,在高科技行業有著豐富的工作經驗。在人工智能、機器學習、數學建模、計算機科學、語音識別、自然語言處理、深度學習、神經網絡、大數據分析、財務和統計建模等方面具有較強的技術、執行管理和業務開發專業技能。等
報告名稱: Deep Geometric Learning of Big Data and Applications
報告摘要: 深度學習技術在計算機視覺,自然語言處理和語音分析方面取得了令人印象深刻的性能。這些任務專注于位于歐幾里得域上的數據,并且針對這些域的數學工具(例如卷積,下采樣,多尺度和局部性)已得到明確定義,并受益于GPU等快速計算硬件。但是,許多基本數據和任務都涉及非歐幾里德領域,而這些領域最初并不是為深度學習方法設計的。例如計算機圖形學中的3D點云和3D形狀,大腦結構連接網絡中的功能性MRI信號,基因組學中基因調控網絡的DNA,量子化學中的藥物設計,高能物理中的中微子檢測以及常見的知識圖理解視覺場景。這一主要局限性促使近年來的研究界將神經網絡推廣到任意的幾何域,例如圖形和流形。卷積,粗化,多分辨率,因果關系等基本操作已通過頻譜和空間方法進行了重新定義。這些非歐氏數據分析問題的最新結果顯示了在許多領域中都有希望的令人振奮的新工具。
該研討會的目標是:1)召集數學家,機器學習科學家和領域專家,以建立這些新興技術的現狀; 2)討論用于分析這些新的深度學習技術的框架; 3)確立新的研究方向以及這些技術在神經科學,社會科學,計算機視覺,自然語言處理,物理學,化學中的應用,以及4)討論了GPU以外的適用于非歐幾里德領域的新計算機處理體系結構。
邀請嘉賓: Jure Leskovec,斯坦福大學計算機科學副教授。 研究重點是對大型社會和信息網絡進行挖掘和建模,它們的演化,信息的傳播以及對它們的影響。 調查的問題是由大規模數據,網絡和在線媒體引起的。
Stanley Osher,加州大學洛杉磯分校 IPAM 數學與計算機科學教授,電氣工程與化學和生物分子工程教授。
報告部分大綱:
報告主題:A Geometric View of Optimal Transportation and Generative Adversarial Networks (GANs)
報告摘要:這項工作介紹了生成對抗網絡(GAN)的最佳運輸(OT)視圖。自然數據集具有內在模式,可以概括為流形分布原理:一類數據的分布接近于低維流形。 GAN主要完成兩項任務:流形學習和概率分布轉換。后者可以使用經典的最佳運輸方法進行。 從OT的角度來看,生成器計算最佳運輸圖,鑒別器計算生成的分布與實際數據分布之間的Wasserstein距離,兩者都可以簡化為凸幾何優化過程。此外,OT理論發現了生成器和鑒別器之間的內在協作關系而不是競爭關系,以及模式崩潰的根本原因。 此外,我們提出了一種新穎的生成模型,該模型使用自動編碼器進行流形學習,并使用OT映射進行分布轉換。 AE-OT模型提高了理論上的嚴格性和透明度,還提高了計算的穩定性和效率,尤其是消除了模式崩潰。實驗結果驗證了我們的假設,并證明了我們提出的模型的優勢。
邀請嘉賓:顧險峰,清華大學計算機系學士,哈佛大學博士,師承國際著名數學大師丘成桐先生。現為美國紐約州立大學石溪分校計算機系終身教授,曾獲美國NSFCAREER獎,中國海外杰青,“華人菲爾茲獎”-晨興應用數學金獎等。顧險峰教授團隊將微分幾何、代數拓撲、黎曼面理論,偏微分方程與計算機科學相結合,創立跨領域學科“計算共形幾何”,并廣泛應用于計算機圖形學,計算機視覺,三維幾何建模與可視化,無線傳感網絡,醫學圖像等領域。
PPT下載鏈接:
//www.sdlcv-workshop.com/slides/talk_Geometric_GANs.pdf
Most previous event extraction studies have relied heavily on features derived from annotated event mentions, thus cannot be applied to new event types without annotation effort. In this work, we take a fresh look at event extraction and model it as a grounding problem. We design a transferable neural architecture, mapping event mentions and types jointly into a shared semantic space using structural and compositional neural networks, where the type of each event mention can be determined by the closest of all candidate types . By leveraging (1)~available manual annotations for a small set of existing event types and (2)~existing event ontologies, our framework applies to new event types without requiring additional annotation. Experiments on both existing event types (e.g., ACE, ERE) and new event types (e.g., FrameNet) demonstrate the effectiveness of our approach. \textit{Without any manual annotations} for 23 new event types, our zero-shot framework achieved performance comparable to a state-of-the-art supervised model which is trained from the annotations of 500 event mentions.