隨著谷歌知識圖譜、DBpedia、微軟 Concept Graph、YAGO 等眾多知識圖譜的不斷出現, 根據 RDF 來構建的知識表達體系越來越為人們所熟知. 利用 RDF 三元組表達形式成為人們對現實世界中 知識的基本描述方式, 由于其結構簡單、邏輯清晰, 所以易于理解和實現, 但也因為如此, 當其面對現 實中無比繁雜的知識和很多常識時, 往往也無法做到對知識的認識面面俱到, 知識圖譜的構建過程注 定會使其中包含的知識不具有完整性, 即知識庫無法包含全部的已知知識. 此時知識庫補全技術在應 對此種情形時就顯得尤為重要, 任何現有的知識圖譜都需要通過補全來不斷完善知識本身, 甚至可以 推理出新的知識. 本文從知識圖譜構建過程出發, 將知識圖譜補全問題分為概念補全和實例補全兩個 層次: (1) 概念補全層次主要針對實體類型補全問題, 按照基于描述邏輯的邏輯推理機制、基于傳統機 器學習的類型推理機制和基于表示學習的類型推理機制等 3 個發展階段展開描述; (2) 實例補全層次 又可以分為 RDF 三元組補全和新實例發現兩個方面, 本文主要針對 RDF 三元組補全問題沿著統計 關系學習、基于隨機游走的概率學習和知識表示學習等發展階段來闡述實體補全或關系補全的方法. 通過對以上大規模知識圖譜補全技術研究歷程、發展現狀和最新進展的回顧與探討, 最后提出了未來 該技術需要應對的挑戰和相關方向的發展前景.
摘要 大數據是經濟發展的新動能, 社會發展的新引擎, 塑造國家競爭力的戰略制高點, 對人民生活 具有重大影響. 然而隨著社會對數據價值認知的提升和大數據平臺建設的蓬勃發展, 大數據安全問題 日益成為阻礙大數據應用推廣的瓶頸. 同時, 由于大數據技術、框架仍在不斷演變當中, 研究人員對大 數據安全內涵的核心認知和關鍵特征理解還存在差異, 尚未形成相對統一的大數據安全框架. 當前亟 需對大數據安全技術發展現狀進行梳理, 為大數據安全重點問題的研究和突破提供參考. 本文結合典 型大數據系統技術框架, 圍繞大數據安全需求, 構建了大數據安全技術框架. 在此框架下, 從大數據安 全共享與可信服務、大數據平臺安全和大數據安全監管 3 個方面系統梳理了大數據安全關鍵技術的 研究現狀, 囊括了大數據業務流程和大數據系統技術框架所涉及的主要安全機制. 最后總結了大數據 安全技術有待解決的核心問題和發展趨勢.
題目: 機器學習的隱私保護研究綜述
簡介:
大規模數據收集大幅提升了機器學習算法的性能,實現了經濟效益和社會效益的共贏,但也令個人隱私保護面臨更大的風險與挑戰.機器學習的訓練模式主要分為集中學習和聯邦學習2類,前者在模型訓練前需統一收集各方數據,盡管易于部署,卻存在極大數據隱私與安全隱患;后者實現了將各方數據保留在本地的同時進行模型訓練,但該方式目前正處于研究的起步階段,無論在技術還是部署中仍面臨諸多問題與挑戰.現有的隱私保護技術研究大致分為2條主線,即以同態加密和安全多方計算為代表的加密方法和以差分隱私為代表的擾動方法,二者各有利弊.為綜述當前機器學習的隱私問題,并對現有隱私保護研究工作進行梳理和總結,首先分別針對傳統機器學習和深度學習2類情況,探討集中學習下差分隱私保護的算法設計;之后概述聯邦學習中存的隱私問題及保護方法;最后總結目前隱私保護中面臨的主要挑戰,并著重指出隱私保護與模型可解釋性研究、數據透明之間的問題與聯系.
論文題目:大規模結構化知識的 表示學習、自動獲取與計算應用
論文作者:林衍凱,騰訊微信模式識別中心高級研究員。博士畢業于來自清華大學自然語言處理組, 由孫茂松教授和劉知遠副教授共同指導,主要研究方向為知識圖譜表示、構建和應用。目前已在人工智能、自然語言處理等領域的著名國際會議IJCAI,AAAI,EMNLP,ACL發表相關論文多篇,Google Scholar引用數超過1400。曾獲2017年百度獎學金、2018年清華大學學術新秀。
指導老師:孫茂松,教授,博士生導師,曾任清華大學計算機科學與技術系系主任,現任教育部在線教育研究中心副主任、清華大學計算機系黨委書記、清華大學大規模在線開放教育研究中心主任。
論文摘要:知識圖譜是人工智能研究和智能信息服務基礎核心技術,能夠賦予智能體精 準查詢、深度理解與邏輯推理等能力。目前,基于深度學習的自然語言處理技術只 能從數據中機械地學習完成特定任務的語義模式,不具備魯棒性和可解釋性,做 不到對語言的深層理解與推理。我們認為要想實現真正的自然語言理解,需要在 現有深度學習技術的基礎上融合知識圖譜信息。實現自然語言處理與知識圖譜的 融合并非輕而易舉,需要解決幾個關鍵問題: (1)知識表示。在深度學習模型中充分利用大規模知識圖譜,需要首先解決知 識圖譜表示的問題。在這方面,我的工作包括:a. 考慮知識圖譜復雜關系的知識 表示:我們提出了基于映射矩陣進行空間投影的知識圖譜表示模型,用于處理知 識圖譜中的復雜關系。b. 考慮知識圖譜復雜路徑的知識表示:我們認為實體之間 多步的關系路徑同樣包含著豐富的關系推理信息,并提出了一種基于路徑表示的 知識圖譜表示模型。c. 考慮知識圖譜復雜屬性的知識表示:我們提出了一種同時 學習知識圖譜中實體、關系和特性表示的知識圖譜表示模型,以提高知識圖譜表 示的質量。 (2)知識獲取。如何從互聯網大規模的結構化、半結構和無結構數據中自動獲 取知識,輔以少量人工校驗,是大規模知識圖譜構建的必由之路。在這方面,我的 工作包括:a. 基于選擇注意力機制的關系抽取:針對遠程監督數據中存在大量的 噪音的問題,我們提出了一個基于句子級別選擇注意力機制的神經網絡關系抽取 模型,用于過濾錯誤標注的句子。b. 基于多語言注意力機制的關系抽取:現有的 關系抽取系統通常專注于如何更好地利用單語言數據,忽略了多語言數據對于關 系抽取任務的幫助。針對這個問題,我們提出了一個基于多語言選擇注意力機制 的關系抽取模型。 (3)知識應用。面向不同自然語言處理任務,我們需要探索將知識合理地融合 到該任務下的深度學習模型中,實現知識指導的自然語言理解。在這方面,我的 工作包括:a. 基于知識的實體分類:我們提出了基于知識注意力機制的實體分類 模型,用于考慮命名實體和上下文之間的聯系以及知識圖譜中豐富的有關信息。b. 基于知識的開放域問答:我們借鑒人類回答問題的模式提出了一個基于 ‘‘粗讀-精 讀-總結’’ 模式的開放域問答系統。 我們的工作有效地解決了面向知識圖譜的知識表示、知識獲取、知識應用中 的關鍵問題,為邁向真正的自然語言理解打下了堅實的基礎。