表示學習(representation learning), 又稱表征學習,是指將輸入數據轉化成 適用于機器學習形式的過程。通常地,機器學習的性能依賴于對數據表示的選 擇,一個好的表示可以使得模型對輸入數據進行更好的理解。近年來,神經網絡 的興起,使得我們可以自動地對輸入數據進行特征抽取。這極大推動了表示學習 的發展,并給我們帶來了進一步探究的可能性。
一般地,表示學習的研究可以按照不同角度進行劃分:從學習方式上,可以 分為有監督學習和無監督學習;從輸入數據模態上,可以分為文本表示、圖像表 示以及語音表示;從共享獨立性上,可以分為共享表示和私有表示。在自然語言 處理中,使用深度學習技術(即深度神經網絡)對文本進行表示學習已經成為一 個很有價值的研究方向。本文工作圍繞著以下問題展開:1)對于不同粒度的文 本(詞語、句子、句對),如何設計合理的結構,使得模型可以學習到適合最終任 務的表示?深度學習的到來使得自然語言處理中的研究工作由原來的特征工程 (feature engineering) 過渡到了現在的結構工程 (architecture engineering) ,而對于 文本的表示學習,首先要解決的最基本問題就是尋找合適的歸納偏置 (inductive bias),使得模型可以更好地對輸入文本進行編碼。而本文分別針對不同粒度的文 本信號,進行相應的網絡結構探索,希望找到更適合下游任務的結構偏置。2)如 何進行針對性的遷移學習?有針對性地進行遷移是指我們要對遷移的知識“按 需分配”,這就要求我們學習的知識應該具備可遷移性,此外,我們還要對已有 的知識進行可理解分析,從而可以分離我們真正需要的知識,最終實現知識的定 向遷移。對于以上兩個亟待解決的問題,本文通過兩個方面,九個章節進行遞進 式探討,其貢獻總結如下:
一方面,對于不同粒度文本的表示學習,本文分別探索了最適合下游任務的 歸納偏置,并且利用這些歸納偏置設計新的模型,這些模型在主流的數據集上都 取得了當時最好的效果。
關鍵詞:深度學習;語義表示學習;自然語言處理;歸納偏置;知識遷移
【導讀】牛津大學的博士生Oana-Maria Camburu撰寫了畢業論文《解釋神經網絡 (Explaining Deep Neural Networks)》,系統性介紹了深度神經網絡可解釋性方面的工作,值得關注。
作者介紹:
Oana-Maria Camburu,來自羅馬尼亞,目前是牛津大學的博士生,主修機器學習、人工智能等方向。
Explaining Deep Neural Networks
深度神經網絡在計算機視覺、自然語言處理和語音識別等不同領域取得了革命性的成功,因此越來越受歡迎。然而,這些模型的決策過程通常是無法向用戶解釋的。在各種領域,如醫療保健、金融或法律,了解人工智能系統所做決策背后的原因至關重要。因此,最近研究了幾個解釋神經模型的方向。
在這篇論文中,我研究了解釋深層神經網絡的兩個主要方向。第一個方向由基于特征的事后解釋方法組成,也就是說,這些方法旨在解釋一個已經訓練過的固定模型(事后解釋),并提供輸入特征方面的解釋,例如文本標記和圖像的超級像素(基于特征的)。第二個方向由生成自然語言解釋的自解釋神經模型組成,也就是說,模型有一個內置模塊,為模型的預測生成解釋。在這些方面的貢獻如下:
首先,我揭示了僅使用輸入特征來解釋即使是微不足道的模型也存在一定的困難。我表明,盡管有明顯的隱含假設,即解釋方法應該尋找一種特定的基于真實值特征的解釋,但對于預測通常有不止一種這樣的解釋。我還展示了兩類流行的解釋方法,它們針對的是不同類型的事實基礎解釋,但沒有明確地提及它。此外,我還指出,有時這兩種解釋都不足以提供一個實例上決策過程的完整視圖。
其次,我還介紹了一個框架,用于自動驗證基于特征的事后解釋方法對模型的決策過程的準確性。這個框架依賴于一種特定類型的模型的使用,這種模型有望提供對其決策過程的洞察。我分析了這種方法的潛在局限性,并介紹了減輕這些局限性的方法。引入的驗證框架是通用的,可以在不同的任務和域上實例化,以提供現成的完整性測試,這些測試可用于測試基于特性的后特殊解釋方法。我在一個情緒分析任務上實例化了這個框架,并提供了完備性測試s1,在此基礎上我展示了三種流行的解釋方法的性能。
第三,為了探索為預測生成自然語言解釋的自解釋神經模型的發展方向,我在有影響力的斯坦福自然語言推斷(SNLI)數據集之上收集了一個巨大的數據集,數據集約為570K人類編寫的自然語言解釋。我把這個解釋擴充數據集稱為e-SNLI。我做了一系列的實驗來研究神經模型在測試時產生正確的自然語言解釋的能力,以及在訓練時提供自然語言解釋的好處。
第四,我指出,目前那些為自己的預測生成自然語言解釋的自解釋模型,可能會產生不一致的解釋,比如“圖像中有一只狗。”以及“同一幅圖片中沒有狗”。不一致的解釋要么表明解釋沒有忠實地描述模型的決策過程,要么表明模型學習了一個有缺陷的決策過程。我將介紹一個簡單而有效的對抗性框架,用于在生成不一致的自然語言解釋時檢查模型的完整性。此外,作為框架的一部分,我解決了使用精確目標序列的對抗性攻擊的問題,這是一個以前在序列到序列攻擊中沒有解決的場景,它對于自然語言處理中的其他任務很有用。我將這個框架應用到e-SNLI上的一個最新的神經模型上,并表明這個模型會產生大量的不一致性。
這項工作為獲得更穩健的神經模型以及對預測的可靠解釋鋪平了道路。
語義表示是自然語言處理的基礎,我們需要將原始文本數據中的有用信息轉換為計算機能夠理解的語義表示,才能實現各種自然語言處理應用。表示學習旨在從大規模數據中自動學習數據的語義特征表示,并支持機器學習進一步用于數據訓練和預測。以深度學習為代表的表示學習技術,能夠靈活地建立對大規模文本、音頻、圖像、視頻等無結構數據的語義表示,顯著提升語音識別、圖像處理和自然語言處理的性能,近年來引發了人工智能的新浪潮。本書是第一本完整介紹自然語言處理表示學習技術的著作。書中全面介紹了表示學習技術在自然語言處理領域的最新進展,對相關理論、方法和應用進行了深入介紹,并展望了未來的重要研究方向。
本書全面介紹了自然語言處理表示學習技術的理論、方法和應用,內容包括三大部分:第一部分介紹了單詞、短語、句子和文檔等不同粒度語言單元的表示學習技術;第二部分介紹了與自然語言密切相關的世界知識、語言知識、復雜網絡和跨模態數據的表示學習技術;第三部分整理了相關開放資源與工具,并探討了面向自然語言處理的表示學習技術面臨的重要挑戰和未來研究方向。本書對于自然語言處理和人工智能基礎研究具有一定的參考意義,既適合專業人士了解自然語言處理和表示學習的前沿熱點,也適合機器學習、信息檢索、數據挖掘、社會網絡分析、語義Web等其他相關領域學者和學生作為參考讀物。
隨著圖像處理,語音識別等人工智能技術的發展,很多學習方法尤其是采用深度學習框架的方法取得了優異的性能,在精度和速度方面有了很大的提升,但隨之帶來的問題也很明顯,這些學習方法如果要獲得穩定的學習效果,往往需要使用數量龐大的標注數據進行充分訓練,否則就會出現欠擬合的情況而導致學習性能的下降。因此,隨著任務復雜程度和數據規模的增加,對人工標注數據的數量和質量也提出了更高的要求,造成了標注成本和難度的增大。同時,單一任務的獨立學習往往忽略了來自其他任務的經驗信息,致使訓練冗余重復因而導致了學習資源的浪費,也限制了其性能的提升。為了緩解這些問題,屬于遷移學習范疇的多任務學習方法逐漸引起了研究者的重視。與單任務學習只使用單個任務的樣本信息不同,多任務學習假設不同任務數據分布之間存在一定的相似性,在此基礎上通過共同訓練和優化建立任務之間的聯系。這種訓練模式充分促進任務之間的信息交換并達到了相互學習的目的,尤其是在各自任務樣本容量有限的條件下,各個任務可以從其它任務獲得一定的啟發,借助于學習過程中的信息遷移能間接利用其它任務的數據,從而緩解了對大量標注數據的依賴,也達到了提升各自任務學習性能的目的。在此背景之下,本文首先介紹了相關任務的概念,并按照功能的不同對相關任務的類型進行劃分后再對它們的特點進行逐一描述。然后,本文按照數據處理模式和任務關系建模過程的不同將當前的主流算法劃分為兩大類:結構化多任務學習算法和深度多任務學習算法。其中,結構化多任務學習算法采用線性模型,可以直接針對數據進行結構假設并且使用原有標注特征表述任務關系,同時,又可根據學習對象的不同將其細分為基于任務層面和基于特征層面兩種不同結構,每種結構有判別式方法和生成式方法兩種實現手段。與結構化多任務學習算法的建模過程不同,深度多任務學習算法利用經過多層特征抽象后的深層次信息進行任務關系描述,通過處理特定網絡層中的參數達到信息共享的目的。緊接著,以兩大類算法作為主線,本文詳細分析了不同建模方法中對任務關系的結構假設、實現途徑、各自的優缺點以及方法之間的聯系。最后,本文總結了任務之間相似性及其緊密程度的判別依據,并且分析了多任務作用機制的有效性和內在成因,從歸納偏置和動態求解等角度闡述了多任務信息遷移的特點。 //gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=JSJX20190417000&dbcode=CJFD&dbname=CAPJ2019
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.
論文題目:富信息網絡表示學習及典型應用問題研究
論文作者:楊成,博士,北京郵電大學計算機學院助理教授,2019年7月畢業于清華大學計算機科學與技術系,從事自然語言處理與社會計算相關方向的研究,博士期間在國內外頂級期刊會議上發表多篇論文,Google Scholar累計獲得引用近500次,并擔任國內外頂級會議包括ACL、EMNLP、SMP等在內的程序委員會成員和期刊的審稿人。
指導老師:孫茂松,教授,博士生導師,曾任清華大學計算機科學與技術系系主任,現任教育部在線教育研究中心副主任、清華大學計算機系黨委書記、清華大學大規模在線開放教育研究中心主任。
論文摘要:網絡是表達對象與對象間關系的常用數據形式,在人們的日常生活與工作學 習中無處不在。除去網絡的拓撲結構信息之外,真實的網絡數據中一般還包含著 根據節點的屬性、行為等產生的豐富信息,統稱為富信息網絡。隨著互聯網技術 和移動智能設備的發展,富信息網絡的數據規模飛速增長,并帶來了豐富的應用 任務和巨大的市場價值。在富信息網絡數據的規模及其相關應用的研究需求日益 增長的同時,數據驅動的深度學習技術已經在計算機視覺、自然語言處理等多個 領域取得了巨大的成功。如何讓已經在多個領域展示出其有效性的機器學習,特 別是深度學習技術,服務于富信息網絡數據及其典型應用已經在近年來成為人工 智能領域的研究熱點。 傳統的鄰接矩陣形式的網絡表示具有維度過高和數據稀疏兩大缺點,使得研 究者們無法在網絡數據上應用機器學習和深度學習技術。因此,研究者們轉而將 網絡中的節點編碼為低維稠密的向量表示,稱為網絡表示或者網絡嵌入。為網絡 中的節點學習其向量表示的任務稱為網絡表示學習。本文針對現有的網絡表示學 習工作的缺點和不足,系統性地進行了以下五個工作: 針對缺乏對于已有網絡表示學習算法的理論分析的問題,本文提出了網絡表 示學習的統一框架和增強算法。本工作將大多數現有的只考慮拓撲結構信息的網 絡表示學習方法總結為一個統一的兩步框架:鄰近度矩陣構造和降維,并進一步 提出了網絡嵌入更新(NEU)算法,該算法從理論上隱含地近似了高階鄰近度,可 以應用于已有網絡表示學習方法以提高它們的性能。 針對現有網絡表示學習方法忽略了網絡拓撲結構以外的豐富信息的問題,本 文提出了結合富特征信息的網絡表示學習。受前一工作中得到的最先進的網絡表 示學習算法實際上等同于一種特殊的矩陣分解的結論的啟發,該工作以文本特征 為例,在矩陣分解的框架下將節點的特征信息結合到網絡表示學習中。 針對現有網絡表示學習方法難以應用于相對復雜的典型應用問題的缺點,本 文以網絡表示學習技術作為模型底層,并根據特定的富信息網絡場景利用包括循 環神經網絡、卷積神經網絡在內的深度學習模型進行建模,在推薦系統和傳播預 測兩個富信息網絡典型應用問題中,創新性地提出了基于位置的社交網絡的推薦 系統、微觀層面的信息傳播預測和多層面的信息傳播預測的應用模型。
論文題目:大規模結構化知識的 表示學習、自動獲取與計算應用
論文作者:林衍凱,騰訊微信模式識別中心高級研究員。博士畢業于來自清華大學自然語言處理組, 由孫茂松教授和劉知遠副教授共同指導,主要研究方向為知識圖譜表示、構建和應用。目前已在人工智能、自然語言處理等領域的著名國際會議IJCAI,AAAI,EMNLP,ACL發表相關論文多篇,Google Scholar引用數超過1400。曾獲2017年百度獎學金、2018年清華大學學術新秀。
指導老師:孫茂松,教授,博士生導師,曾任清華大學計算機科學與技術系系主任,現任教育部在線教育研究中心副主任、清華大學計算機系黨委書記、清華大學大規模在線開放教育研究中心主任。
論文摘要:知識圖譜是人工智能研究和智能信息服務基礎核心技術,能夠賦予智能體精 準查詢、深度理解與邏輯推理等能力。目前,基于深度學習的自然語言處理技術只 能從數據中機械地學習完成特定任務的語義模式,不具備魯棒性和可解釋性,做 不到對語言的深層理解與推理。我們認為要想實現真正的自然語言理解,需要在 現有深度學習技術的基礎上融合知識圖譜信息。實現自然語言處理與知識圖譜的 融合并非輕而易舉,需要解決幾個關鍵問題: (1)知識表示。在深度學習模型中充分利用大規模知識圖譜,需要首先解決知 識圖譜表示的問題。在這方面,我的工作包括:a. 考慮知識圖譜復雜關系的知識 表示:我們提出了基于映射矩陣進行空間投影的知識圖譜表示模型,用于處理知 識圖譜中的復雜關系。b. 考慮知識圖譜復雜路徑的知識表示:我們認為實體之間 多步的關系路徑同樣包含著豐富的關系推理信息,并提出了一種基于路徑表示的 知識圖譜表示模型。c. 考慮知識圖譜復雜屬性的知識表示:我們提出了一種同時 學習知識圖譜中實體、關系和特性表示的知識圖譜表示模型,以提高知識圖譜表 示的質量。 (2)知識獲取。如何從互聯網大規模的結構化、半結構和無結構數據中自動獲 取知識,輔以少量人工校驗,是大規模知識圖譜構建的必由之路。在這方面,我的 工作包括:a. 基于選擇注意力機制的關系抽取:針對遠程監督數據中存在大量的 噪音的問題,我們提出了一個基于句子級別選擇注意力機制的神經網絡關系抽取 模型,用于過濾錯誤標注的句子。b. 基于多語言注意力機制的關系抽取:現有的 關系抽取系統通常專注于如何更好地利用單語言數據,忽略了多語言數據對于關 系抽取任務的幫助。針對這個問題,我們提出了一個基于多語言選擇注意力機制 的關系抽取模型。 (3)知識應用。面向不同自然語言處理任務,我們需要探索將知識合理地融合 到該任務下的深度學習模型中,實現知識指導的自然語言理解。在這方面,我的 工作包括:a. 基于知識的實體分類:我們提出了基于知識注意力機制的實體分類 模型,用于考慮命名實體和上下文之間的聯系以及知識圖譜中豐富的有關信息。b. 基于知識的開放域問答:我們借鑒人類回答問題的模式提出了一個基于 ‘‘粗讀-精 讀-總結’’ 模式的開放域問答系統。 我們的工作有效地解決了面向知識圖譜的知識表示、知識獲取、知識應用中 的關鍵問題,為邁向真正的自然語言理解打下了堅實的基礎。
教機器理解人類語言文檔是人工智能中最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀文章和回答理解問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解程度的一項重要任務。另一方面,如果我們能夠構建高性能的閱讀理解系統,那么它將成為問答和對話系統等應用的關鍵技術。本文以神經閱讀理解為研究對象:一種基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比,這些端到端神經模型在學習豐富的語言現象方面更加有效,并且在所有現代閱讀理解基準上的表現都有很大的提高。本文由兩部分組成。第一部分是對神經閱讀理解的本質進行概括,介紹我們在構建有效的神經閱讀理解模型方面所做的努力,更重要的是了解神經閱讀理解模型實際學到了什么,以及解決當前任務需要什么樣的語言理解深度。我們還總結了該領域的最新進展,討論了該領域的未來發展方向和有待解決的問題。在本文的第二部分,我們探討了如何在最近神經閱讀理解成功的基礎上建立實際應用。特別是,我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放領域的問題;(2)如何從當前的單圈、跨步閱讀理解模式中構建會話問答系統。我們在DrQA和CoQA項目中實現了這些想法,并證明了這些方法的有效性。我們相信他們對推動未來的語言技術有很大幫助。