亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

東北大學《實體對齊》最新綜述論文

摘要

實體對齊(Entity Alignment)旨在發現不同知識圖譜(Knowledge Graph)中指代相同事物的實體,是知識圖譜融合的關 鍵技術,近年來受到了廣泛的關注。早期,研究者們使用字符串的各種特征來進行實體對齊工作。近年來,隨著知識表示學 習(Knowledge Representation Learning)技術的不斷發展,研究者們提出了許多基于知識表示學習的實體對齊方法,效果明顯 優于傳統方法。然而,實體對齊的研究仍然存在著許多亟待解決的問題與挑戰,比如數據質量、計算效率等。本文從實體對齊的定義、數據集和評價指標出發,詳細深入地綜述和比較了傳統實體對齊方法和基于知識表示學習的實體對齊方法。針對傳統方法,分類介紹了基于相似性計算和基于關系推理的實體對齊方法,并深入研究了每類方法對字符特 征、屬性特征、關系特征的利用,同時深入分析了不同方法之間的優勢與不足。針對基于知識表示學習的實體對齊方法,本文進行了重點討論、分析和對比。 首先,本文將該類實體對齊方法抽象為由三個模塊(即嵌入模塊、交互模塊和對齊模塊)組 成的統一框架,依據三個模塊對每個方法進行了詳細的綜述。進一步地,根據方法所利用的信息種類的不同,將已有方法劃 分為基于結構信息、屬性信息、實體名信息、實體描述信息和綜合信息等八類方法,對每一類方法進行了詳細的綜述。然后, 對基于知識表示學習的實體對齊方法進行了深入對比分析。最后,討論了實體對齊工作的主要挑戰,包括稀疏知識圖譜的處 理、標注數據的缺乏和噪聲問題、方法的效率問題等,并對該工作的未來進行了展望。

//cjc.ict.ac.cn/online/bfpub/zf-202237100856.pdf

1 引言

近幾年,互聯網的快速發展促使各領域建立了 越 來 越 多 包 含 互 補 信 息 的 大 規 模 知 識 圖 譜 (Knowledge Graph)。同時,隨著鏈接數據(Linked Data)1計劃的發展,網絡上語義數據的數量不斷增 加,而各應用領域面臨的主要挑戰之一就是集成越 來越多獨立設計且存在于不同知識圖譜中的實體, 使得大規模的知識圖譜之間可以高效協調。因此, 如何發現不同知識圖譜實例之間的鏈接成為各個 領域亟待解決的重要問題[1]。

尤其是,隨著近幾年知識圖譜的快速發展,涌 現出大量的知識圖譜[2]。然而,目前很多的知識圖 譜由不同機構和個人構建,這些知識圖譜的需求特 定,設計和構建并不統一,因此互相之間存在異構 和冗余問題。知識融合旨在將知識圖譜中的異構和 冗余等信息進行對齊和合并,形成全局統一的知識 標識和關聯[1]。實體對齊(Entity Alignment,EA) [3], [4] 是知識圖譜融合過程的關鍵技術,主要目的是發現 不同知識圖譜之間的等價實體。由于不同知識圖譜 的知識內容存在來源各異和人為理解不同,指代同 一個事物的文字表達會各有不同。這是不同知識圖 譜融合集成的顯著問題,影響共享數據的實現。因 此,針對基于知識圖譜的知識融合研究,對后續大 數據集成統一的技術探索和發展意義重大[5]。

實體對齊一般可以分為本體對齊和實例對齊, 本體對齊重點關注類、屬性和關系,而實例對齊則 更加注重真實世界中指代的具體事物[2]。早期的相 關工作主要集中在本體對齊方面,近幾年隨著機器 學習和深度學習的發展,也逐漸向實例對齊方向發 展。本體對齊相對于實例對齊而言更加籠統概括,主要針對包含相似實例的一類實體;而實例對齊對 信息的精細程度要求更多,也更加復雜。此外,實 體對齊任務與傳統的實體消歧(鏈接)任務存在差 異,傳統的實體消歧需要將文本內容中提及的實 體,鏈接到知識圖譜或知識圖譜中的實體。然而實 體對齊,是將兩個或者多個結構化的知識圖譜或知 識圖譜中的實體進行等價對齊[6]。

隨著實體對齊技術的發展,許多學者提出了不同種類的實體對齊方法,涌現出大量的實體對齊研 究文獻。早期,研究者們使用字符串的各種特征來 進行實體對齊工作。近些年,隨著知識表示學習 (Knowledge Representation Learning)技術的快速發 展,研究者們提出了許多基于知識表示學習的實體 對齊方法,這些方法取得了比傳統方法更好的效果。然而,截止目前仍然缺少有關實體對齊技術全 面而深入的方法綜述。已有的綜述文獻[7]主要概括 了傳統實體對齊方法;文獻[8]僅針對基于圖神經網 絡(Graph Neural Network,GNN)的實體對齊方法進 行了簡略介紹;文獻[5]和[9]從實驗的角度,對部分 實體對齊方法在數據集上的性能進行了深入比較 分析。與上述已有綜述不同,本文從方法和技術層 面,更加全面深入地綜述和比較了傳統實體對齊方 法和基于知識表示學習的實體對齊方法,對這些已 有方法進行了詳細的劃分與綜述。針對傳統方法, 本文深入分析研究了每類方法對字符特征、屬性特 征、關系特征的利用,進而對比了不同方法之間的 優勢與不足。針對主流的基于知識表示學習的實體 對齊方法,本文深入挖掘并研究了每種方法所利用 的知識圖譜信息,根據所利用信息種類的不同將已 有方法細分為八個類別,同時進行了詳細的綜述和 對比分析。

基于以上分析,本文將實體對齊方法分為兩大 類,一類是傳統的實體對齊方法,一類是基于知識表示學習的實體對齊方法。在給出實體對齊的問題 定義、數據集和評價指標的基礎上,進一步詳細深 入地綜述和比較了這兩大類方法。主要貢獻如下:

  • 針對傳統方法,分類介紹了基于相似性計算和 基于關系推理的實體對齊方法,并深入研究了 每類方法對字符特征、屬性特征、關系特征的 利用,同時深入分析了不同方法之間的優勢與 不足

  • 針對基于知識表示學習的實體對齊方法,本文進行了重點討論、分析和對比:(i)本文將該 類實體對齊方法抽象為由三個模塊(即嵌入模 塊、交互模塊和對齊模塊)組成的統一框架,依 據三個模塊對每個方法進行了詳細的綜述;(ii)根據方法所利用的知識圖譜信息種類的 不同,將已有方法細分為基于結構信息、屬性 信息、實體名信息、實體描述信息和綜合信息 等八類方法,并對每類方法進行了詳細介紹和 分析;(iii)進一步對基于知識表示學習的實體 對齊方法進行了深入對比分析。分析結果表 明,科學有效的迭代方法和對多種信息的利用 都能夠提升方法的性能等。

  • 討論了實體對齊工作的主要挑戰和未來方向, 包括稀疏知識圖譜的處理、標注數據的缺乏和 噪聲問題、方法的效率問題等。

本文后續章節安排如下:第 2 節給出實體對齊 的問題定義、數據集和評價指標;第 3 節介紹傳統 實體對齊方法;第 4 節綜述基于知識表示學習的實 體對齊方法;第 5 節概括實體對齊工作的主要挑戰 和未來方向;最后給出本文總結。

2 數據

3 傳統實體對齊方法

傳統的實體對齊方法大多數都集中在句法和 結構上,尤其是早期的實體對齊和映射技術主要側 重于計算實體之間標簽和字符的距離。傳統的實體 對齊方法主要從兩個角度解決實體對齊問題:一類 是基于相似度計算來比較實體的符號特征[11],另一 類是基于關系推理[32],最近的研究還使用統計機器 學習來提高準確性。本節將詳細綜述已有的傳統實 體對齊方法,同時深入研究每類方法對字符特征、 屬性特征、關系特征的利用,并進行對比分析。

4 基于知識表示學習的實體對齊方法

表 示 學 習 又 叫 做 表 征 學 習 (Representation Learning),其目的是利用機器學習技術將描述對象 表示為低維稠密的向量,兩個向量之間的距離反映 的是兩個對象之間的語義關系。將表示學習應用于 知 識 表 示 中 , 即 知 識 表 示 學 習 (Knowledge Representation Learning),目的是實現知識圖譜中實 體和實體之間關系的向量表示,通過降低高維實體 和關系,得到低維向量的數值表示。基于知識表示學習技術能夠將實體和關系表 示為低維向量空間的能力,許多研究者們提出了基 于知識表示學習的實體對齊方法,該類方法也成為 目前解決實體對齊問題的主要技術。通過深入研究 這些方法,本文概括并抽象出一個統一的實體對齊 框架,如圖 4 所示。其基本思想就是首先通過知識 表示學習技術對知識圖譜進行嵌入,即嵌入模塊;之后根據已對齊的實體對將不同知識圖譜的嵌入空間映射到同一個向量空間中,即交互模塊;最后 根據向量空間中實體之間的距離或者相似度得到 實體對齊結果,即對齊模塊。此外,大多數方法還 引入了迭代機制,將實體對齊結果添加至已經對齊 的實體對中。本節接下來將對基于知識表示學習的實體對 齊方法進行重點介紹、對比分析和總結。首先,依 據圖 4 提到的三個模塊(即嵌入模塊、交互模塊和對 齊模塊)對每一種方法進行了詳細介紹。同時,本文 通過深入研究,對所有方法根據其利用的知識圖譜 信息的不同進行了詳細的分類(見 4.2 節)。然后進一 步對該類方法進行了詳細的對比,并對結果進行了 深入的分析(見 4.3 節)。下面 4.1 節首先簡單介紹現有的知識表示學習 技術,然后后續幾節重點綜述基于知識表示學習的 實體對齊方法,并進行深入的對比分析。

4.1 知識表示學習技術 目前主要的知識表示學習技術可以分為三類:翻譯模型、語義匹配模型、深度模型[38], [39]。

**4.2 基于知識表示學習的實體對齊方法 **

基于知識表示學習的實體對齊方法已經成為 目前解決實體對齊問題的主要技術,并取得了較好 的效果,其中絕大多數方法都使用翻譯模型或圖神 經網絡(Graph Neural Network, GNN) [59]進行知識表 示學習,因為它們有著較強的魯棒性和泛化能力。

5 展望

從上述已有方法可以看出,目前基于知識表示 學習的實體對齊方法主要包括三個模塊,分別是嵌 入模塊、交互模塊和對齊模塊。嵌入模塊目前主要 有三種方法,一種是利用 TransE 及其改進系列進行 關系結構信息嵌入;一種是使用 GNN 構建鄰接關 系圖進行嵌入;一種是使用 GNN 的改進模型 GCN 進行結構信息嵌入。嵌入模塊利用的信息主要有兩 種,即結構信息和屬性信息。交互模塊的作用主要 是將兩個不同的知識圖譜映射到同一向量空間,使 得向量的計算在同一空間。目前聯系兩個知識圖譜 的橋梁主要是預對齊的實體對,通過預對齊的實體 對在不同向量空間的轉換和校準,統一兩個知識圖 譜。對齊模塊的作用主要是根據已經嵌入的實體向 量來計算距離,此外,還能通過一些推理策略選擇 待對齊的實體。 值得注意的是,雖然基于知識表示學習的實體 對齊方法取得了較為不錯的效果,但是這并不意味 著傳統的實體對齊方法不具有研究價值。 正如文獻 [5]也指出這兩類方法是相輔相成的,結合起來考慮 會有可能取得更好的效果。 隨著知識圖譜的不斷完善,許多知識圖譜都變 得越來越復雜,規模也越來越大,原有的實體對齊 算法需要進一步考慮執行效率和準確率。 為了解決 這個問題,并行處理技術受到了越來越多地關注。目前研究工作將并行處理技術應用到實體對齊任 務中的是極少數[7],有關大規模知識圖譜的實體對 齊問題仍然需要進行深入的研究和探索。

通過 4.3 節的對比分析,可以看到針對知識圖 譜結構信息的利用還有待于繼續研究探索,無論是 鄰接實體還是實體間的關系,均對知識圖譜的更準 確表示起著至關重要的作用。使用神經網絡嵌入知 識圖譜的結構信息時,如何緩解錯誤信息的傳播至 關重要。目前普遍使用高速門機制,使得錯誤傳播 的問題得到了一定程度的緩解,但是對于單跳和多 跳實體的計算和信息傳播仍需繼續研究。此外,在知識圖譜結構信息嵌入表示方面,大 多數實體對齊模型是以實體為中心,多方面信息輔 助嵌入,在以后的研究中可以提高關系信息的占 比,甚至可以以實體之間關系為中心研究嵌入表 示,進而更深入地挖掘知識圖譜的結構信息。除了 結構信息,加入原知識圖譜中的實體描述信息使得 實體對齊效果顯著提高,如 BERT-INT,甚至可以 忽略結構信息。但是在真實大型知識圖譜中,很多實體缺乏具體準確的描述信息,所以對結構信息以 及其他未挖掘的信息有待于進一步深入研究。再 者,在實體對齊任務中,大多數模型方法在通用數 據集 DBP15K 數據集上獲得了不錯的效果。然而在 實際大型真實知識圖譜的表現一般,因此如何進一 步提出不同種類的數據集也成為實體對齊領域的 重要研究問題。

付費5元查看完整內容

相關內容

實體對齊(Entity Alignment)也被稱作實體匹配(Entity Matching),是指對于異構數據源知識庫中的各個實體,找出屬于現實世界中的同一實體。 實體對齊常用的方法是利用實體的屬性信息判定不同源實體是否可進行對齊。

圖分類研究最新綜述論文

圖數據廣泛存在于現實世界中, 可以自然地表示復合對象及其元素之間的復雜關聯. 對圖數據的分類是一 個非常重要且極具挑戰的問題, 在生物/化學信息學等領域有許多關鍵應用, 如分子屬性判斷, 新藥發現等. 但目前 尚缺乏對于圖分類研究的完整綜述. 首先給出圖分類問題的定義和該領域的挑戰; 然后梳理分析了兩類圖分類方 法—基于圖相似度計算的圖分類方法和基于圖神經網絡的圖分類方法; 接著給出了圖分類方法的評價指標、常用 數據集和實驗結果對比; 最后介紹了圖分類常見的實際應用場景, 展望了圖分類領域的未來研究方向并對全文進 行總結.

//www.jos.org.cn/jos/article/abstract/6323

圖數據 (graph data) 廣泛地存在于我們的生活中, 用于表示復合對象元素之間的復雜關系. 例如社交網絡, 引 文網絡, 生物化學網絡, 交通網絡等. 不同于結構規則的歐式數據, 圖數據的結構復雜, 蘊含著豐富的信息. 近年來,對圖數據的研究是學術界的一個熱點. 圖上的研究問題包括節點分類[1,2] , 圖分類[3,4] , 鏈路預測[5]等, 本文主要關注 圖分類問題. 給定一組圖, 圖分類的目標是學習圖和對應類別標簽的映射關系, 并預測未知圖的類別標簽. 圖分類 是一個重要的數據挖掘任務, 可以應用在很多領域, 例如化學信息學中, 通過對分子圖進行分類來判斷化合物分子 的誘變性、毒性、抗癌活性等[6,7] ; 生物信息學中, 通過蛋白質網絡分類判斷蛋白質是不是酶, 是不是具有對某種 疾病的治療能力[8,9] . 從這個角度來看, 圖分類研究具有非常重要的意義.

圖分類的研究方法主要包括基于圖核的方法, 基于圖匹配的方法和基于圖深度學習的方法. 目前已有一些針 對圖分類領域中某類特定方法的綜述, 如圖核方法綜述[10,11] , 圖相似度學習綜述[12] . 但就我們所知, 當前還沒有既 包括傳統方法又包括近年來快速發展的深度學習方法的圖分類研究綜述. 為了方便更多的研究人員, 本文梳理總 結了圖分類的各類研究方法和這些研究之間的相互關系. 本文將現有圖分類方法總結為兩大類, 第 1 類是基于相似度計算的圖分類方法. 基于相似度計算的圖分類是 通過計算成對圖的相似度對圖進行分類, 包括圖核方法和圖匹配方法. 其中, 圖核方法主要通過圖核的定義來計算 圖的相似度, 是常見的傳統圖分類方法. 過去多年中已經有多種基于圖核的分類方法被提出[13?15] , 它們共同的思想 是將圖分解為某種子結構, 通過對比不同圖上的子結構來計算圖的相似度進而進行圖分類. 基于圖匹配方法的圖 分類方法, 則是通過考慮一些跨圖的因素來計算圖之間的相似度分數進而對圖分類. 早期的圖分類問題主要關注 于圖核方法, 然而這種方法不夠靈活且通常計算代價較大, 圖的特征提取過程和圖的分類是獨立進行的, 因此無法 針對具體任務進行優化.

第 2 類是基于圖神經網絡的圖分類方法. 隨著深度學習在圖像, 文本等領域的成功, 研究人員開始關注用深度 學習建模圖數據. 基于深度學習的圖數據建模方法也逐漸被應用于圖分類問題[16?19] . 其中, 圖神經網絡應用于圖分 類問題時, 主要包括卷積算子和池化算子兩個重要部分. 卷積算子利用結構和節點特征信息對圖的特征進行提取, 池化算子對特征進行匯總得到整個圖的表示用于分類. 本文從這兩個角度對基于圖卷積神經網絡的圖分類進行了 總結分析. 盡管近期已有大量的基于圖神經網絡的方法應用于圖分類任務, 但這個領域仍然存在許多問題和挑戰, 例如領 域內不同模型的實驗設置不同導致的復現困難; 有些模型在特定數據集上表現較好, 但模型泛化能力有限; 此外, 圖 分類任務中對圖結構信息的利用也是一個挑戰. 本文從這個角度總結分析了圖分類中存在的挑戰和未來的研究方向.

本文第 1 節給出圖分類問題定義并指出圖分類領域中的問題和挑戰. 第 2 節梳理了基于相似度計算的圖分類 方法, 其中包括基于圖核方法的圖分類和基于圖匹配的圖分類. 第 3 節介紹并分析了基于圖神經網絡的圖分類方 法. 第 4 節關注圖分類方法的評價, 包括圖分類的數據集, 評價指標和一些典型方法的效果對比分析. 第 5 節匯總 了圖分類在各個領域的應用場景并給出未來可能的研究趨勢. 最后一節總結全文.

圖分類問題挑戰

圖分類是圖領域中一個極具挑戰的任務, 當前圖分類任務上仍然存在許多問題和難點, 主要包括以下幾個方面.

(1) 圖數據的復雜多樣性 生活中有大量的數據都可以用圖這種數據結構進行表示. 例如社交網絡, 化學分子結構, 生物蛋白質結構等. 每種類型的圖中都包含不同的特征信息和結構信息. 這種多樣的信息提高了圖數據的分類難度. 此外, 圖數據是非 歐空間數據, 一般來說, 每個圖的節點數不同, 圖中節點連接方式不同, 每個節點的鄰居個數也不同. 卷積、池化等 在歐式數據中比較容易定義的操作, 很難直接遷移到圖數據上. 圖數據的復雜性和多樣性, 為圖數據的分類帶來非 常大的挑戰.

(2) 圖結構信息的有效建模 作為非歐數據, 圖的結構信息非常豐富. 圖數據的結構信息是指圖上節點之間的連接關系, 包括節點的一階連 接信息, 二階信息以及高階信息等[21] . 圖上機器學習的最基礎挑戰之一就是找到一種可以表示、編碼圖結構的方 法, 從而使得圖結構信息可以被機器學習方法有效利用[22] . 圖的結構信息對于圖分類任務也至關重要. 例如, 在生 物信息學等領域的數據集中, 圖的屬性標簽與圖上的某些結構模式有著必然的聯系. 然而 Errica 等人[23]在實驗中 發現, 目前基于圖神經網絡的圖分類方法在大部分數據集上并沒能有效地利用到圖的結構信息, 其對于圖分類的 預測性能甚至不如沒有建模圖結構信息的方法. 因此, 如何有效建模并合理利用圖結構信息是圖分類任務面臨的 一大重要挑戰.

(3) 強表達能力且高效的模型構建 目前基于信息傳遞的圖神經網絡方法都與 1-WL 圖同構測試有著緊密的聯系. Xu 等人[24]已經證明, 基于信息 傳遞的圖神經網絡, 其表達能力的上界就是 1-WL (Weisfeiler-Lehman) 圖同構測試. 近年也有一些對表達能力更強 的基于高階 WL 圖同構測試的圖神經網絡的探索[25,26] . 但總的來說, WL 測試關注的是對圖是否同構的判斷. 一方 面, 對圖同構的判斷還未被證明可以在多項式時間內完成, 通常計算復雜度較高. 另一方面, 在這種標準下, 并不能 保證表達能力強的模型, 也就是對圖是否同構的判斷準確率高的模型, 在圖分類問題上也表現得好[27] . 基于此, 探 索合適的圖分類模型表達能力的判斷標準非常重要, 這也是對圖分類本質的探索過程. 如何構建一個具有強表達 能力且高效的模型是圖分類問題中的一個關鍵挑戰.

基于圖相似度計算的圖分類

在很多用圖來表示數據的領域, 圖之間相似度度量是關鍵問題之一[12] , 它可以進一步處理一些下游任務, 包 括圖分類, 圖聚類和相似性搜索等. 本節關注利用圖的相似度度量進行圖分類的方法. 給定一組圖, 基于相似度計 算的圖分類方法先通過圖核或者圖匹配的方法獲得兩個圖之間的相似度度量, 然后利用機器學習方法, 根據已經 得到的相似度度量對圖進行分類. 這類方法隱含的假設是當兩個圖相似度較高時, 它們所屬的類別也相同. 這類方 法的關鍵是對圖之間相似度的計算. 本節從相似度計算的角度, 將基于圖相似度計算的圖分類分為基于圖核的方 法和基于圖匹配的方法, 分別進行介紹和分析.

基于圖神經網絡的圖分類

前文介紹的圖核方法很多年來都是圖分類中的主導方法, 也取得了不錯的分類效果[25] . 但由于這些方法通常 依賴于一組固定特征, 其特征表示難以有效地適應于新的數據分布. 隨著圖深度學習的發展[46] , 一些神經網絡方 法開始用于解決圖分類任務. 本節重點關注基于圖神經網絡的圖分類方法, 這類方法通過端到端的方式進行模型 的優化學習, 為圖分類的準確率帶來了較大的提升. 1?n 應用于圖像分類任務的傳統卷積神經網絡, 主要包括卷積和池化兩個操作, 這兩個操作依賴于圖像數據的結 構規則性和平移不變性. 類比于圖像分類任務, 圖卷積神經網絡應用于圖分類問題時, 同樣需要關注卷積和池化算 子. 但不同于圖像數據, 圖數據是非歐空間數據, 同一個數據集中的每個圖大小不同, 結構不一. 圖中的每個節點也 具有不同的局部結構, 為圖分類中卷積算子和池化算子的設計帶來了巨大的挑戰. 給定一組圖. 基于圖神經網絡的 圖分類方法通常先通過卷積的方式對這些圖進行多次特征變換, 然后在此基礎上進行池化操作, 將圖的規模縮小. 這個過程可以重復多次, 最終得到整個圖的表示, 從而進行分類. 本節就從圖分類任務中的卷積算子和池化算子角 度, 對基于圖神經網絡的圖分類方法進行總結和分析. 利用圖神經網絡進行圖分類的過程如圖 5 所示. 其中, 可選 的操作和模塊用虛線表示. 環形箭頭表示操作可以選擇重復1-n 次

圖分類方法評價

評價指標

圖分類方法的評價指標主要包括分類準確率, 精準率, 召回率, F1 值和 AUC, 下面分別介紹

圖分類的應用場景

(1) 化學信息學、生物信息學

傳統的圖分類主要應用于生物和化學領域. 它們天然地提供了很多圖結構數據. 通過實驗判斷分子屬性或蛋 白質功能的方式代價較大, 因此機器學習的方法被廣泛應用于生物化學信息學中. 在化學信息學中, 化合物被建模 為圖, 該領域常見的問題是判斷化合物是否具有某些性質. 圖分類方法已經被用于判斷分子是否具有誘變性、抗 癌活性、毒性等任務中[6,7] . 圖分類在藥物開發領域, 也有著非常重要的應用, 通過圖機器學習的方法對藥物的安 全性等性質進行判斷, 同時幫助化學家深入理解不斷增長的藥物發現數據[72] . 此外, 在多標簽圖分類場景下, 圖分 類方法也被用于計算機嗅覺領域中定量結構氣味關系 (QSOR) 建模問題. 此時, 分子有一個或多個氣味屬性標簽, 任務是預測分子的氣味屬性標簽[20,68] . 同樣的, 在生物信息學領域, 對蛋白質的探索[9]也是一項重要任務. 蛋白質的高級結構被建模為圖. 常見的應 用包括蛋白質屬性判斷, 如蛋白質是酶或者非酶, 通過蛋白質交互網絡預測疾病[8]等.

(2) 社交網絡分析

在社交網絡分析領域, 最常見的數據之一是引用網絡, 如第 4.1 節中描述的 COLLAB 數據集. 數據集中的圖 是研究人員的自我中心網絡圖, 也就是以研究人員為中心的引用關系圖. 該場景下常見的分類任務是給定訓練集 中自我網絡圖的類別標簽, 模型經訓練后對測試集中自我網絡圖的類別進行判斷.

(3) 計算機安全

圖分類常被應用于計算機安全領域,例如軟件剽竊的檢測、惡意軟件檢測、軟件漏洞檢測[73?75]等重要安全 問題. 該場景下的圖一般是經過一些轉化方式得到的控制圖, 通過控制圖結構判斷是否存在安全問題. 如在漏洞檢 測中, 當無權訪問源代碼時, 我們需要分析二進制文件, 結合反匯編程序和代碼分析器, 提取代碼的控制流圖. 控制 流圖以結構化的形式包含二進制函數中所有信息[43] . 控制流圖中的節點表示匯編指令的基本塊, 當兩個基本塊之 間有跳轉, 循環或者返回等控制流時, 對應節點之間有邊, 圖標簽是有無漏洞. 當前, 主要是基于圖相似度計算的圖 分類方法應用于計算機安全領域, 這些方法的假設是, 當未知控制流圖的結構和已知有漏洞的控制流圖相似度較 高時, 判斷該未知程序可能存在漏洞.

(4) 自然語言處理

圖分類的方法應用于自然語言處理的第一步就是圖的構建. 一種常見的方法是構建文本的單詞共現圖[76?78] , 節點表示單詞等有意義的語言實體, 邊表示在固定大小的滑動窗口中的共現關系. 與傳統的詞袋表示文本的方法相 比, 圖不僅建模了單詞等實體, 也對他們之間的遠距離依賴關系進行了建模. 圖分類的方法在自然語言處理領域已經 被應用于文檔相似性計算, 文本分類的重要任務中. 例如, Nikolentzos 等人[77]用共現的方式將文檔構建為無向無權 圖, 然后利用最短路徑核計算文檔的相似性, 取得了較好的效果. Peng 等人[76]將文檔構建為詞共現圖, 然后用對單 詞圖進行圖卷積操作, 提取單詞圖特征進而對文檔進行分類, 相比于傳統的文本分類方法, 該模型取得了較大的提升.

(5) 計算機視覺

有些基于圖核和基于圖神經網絡的方法被用于計算機視覺領域的圖像分類, 語義分割, 點云圖的形狀分類等 應用中[79?82] . 為了進行人體活動識別, Wu 等人[79]首先構建了 2 個圖模型建模人體活動的空間特征和時序關系, 然 后提出了上下文相關的圖核來衡量圖之間的相似性, 進而對人體活動進行識別. Wang 等人[80]在點云圖上使用邊 卷積的方式提取幾何特征, 然后利用全局池化的方式得到整個圖的表示進而進行形狀分類任務, 取得了較好的 效果.

未來研究方向

雖然圖分類問題已有很長的研究歷史, 并在近年取得了較大的進步. 但該領域仍然有很多需要注意的問題和值得繼續探索的研究方向.

(1) 圖分類中圖結構信息的充分利用

圖中的結構信息, 即圖上節點的連接信息, 如一階連接信息, 二階信息和其他高階信息等, 對于圖分類有著非 常重要的作用, 例如生物信息數據集中, 某些結構模式與分子功能屬性有著必然的聯系. 但當前圖分類領域中很多 基于圖神經網絡的方法并沒有有效地利用到圖結構信息[23] , 例如, 在基于信息傳遞的圖神經網絡中, 節點之間的 連接關系僅用來指導節點之間的信息傳遞, 并沒有直接對結構信息建模. 對于在圖分類中如何更好地利用結構信 息和判斷模型對結構的利用程度上, 我們并無定論. 對于圖結構信息的合理利用和對結構利用程度的表示是圖分 類領域重要的研究方向.

(2) 圖分類方法的可解釋性

基于圖神經網絡的圖分類方法的提出, 使得圖的表示和分類過程可以統一地進行優化, 取得了較好的分類效 果. 但是, 這類模型通常比較復雜且不夠透明, 人類無法直觀地理解它們的預測結果. 對圖分類模型的預測能力進 行直觀解釋, 探索這些模型中各個組件對圖分類的作用不僅可以增加我們對 GNN 模型的信任, 促進 GNN 模型應 用于涉及到公平, 隱私和安全的領域中, 也可以增進研究人員對于網絡特征的理解, 進一步提升模型效果[27,83] . 對 圖卷積神經網絡的可解釋性已有一些初步的嘗試[24,83] , 但當它們應用于圖分類問題時的可解釋性, 仍然值得進一 步探索.

(3) 圖分類模型表達能力的衡量

當前圖分類模型主要是基于圖神經網絡的模型. 一方面, 基于圖神經網絡模型的表達能力都是用判斷圖是否同 構的能力來衡量的[24,51] . 但我們并不能保證在這樣的衡量標準下, 對圖是否同構的區分能力在圖分類任務中可以泛 化得好[27] . 在圖分類問題中, 模型表達能力的衡量方法是一個重要的需要考慮的問題. 另一方面, 由于基于神經網 絡的模型依賴于充足數據, 需要通過大量的數據進行訓練. 而當前圖分類領域的常見數據集通常規模較小, 不能很 好地體現出方法的優勢, 限制了基于圖神經網絡的模型的表示能力. 構建更好的圖分類數據集成為亟待解決的問題.

(4) 圖分類新技術

雖然已經有很多經典的圖神經網絡方法在圖分類任務上取得了較好的效果, 但仍面臨著標簽數據獲取昂貴、 模型遷移能力不足等諸多挑戰, 需要通過合理引入新技術來解決. 具體來說, 一方面, 圖神經網絡的訓練過程需要 大量的任務相關的標簽數據, 標簽數據的獲取代價高昂[84] . 另一方面, 實際中, 有時我們需要具有遷移能力的模型 應用于不同的場景中. 類比于自然語言處理和圖像處理領域, 圖上也可以通過先在數據豐富的任務上對模型預訓 練, 然后在目標任務上進行微調來解決這些問題. 目前已有一些圖上預訓練的初步嘗試[84?86] , 未來圖上的預訓練仍 是值得探索的問題. 此外, 當前圖分類主要關注同質圖, 而實際場景中有很多異質圖存在, 已有的關于異質圖的研 究主要集中在節點分類問題[87,88]上, 未來, 關于異質圖的分類也是值得關注的方向.

(5) 實驗可復現性和學術社區的健康發展

在機器學習領域, 實驗的可復現一直是一個非常關鍵的議題[23] . 當前用圖神經網絡處理圖分類的工作中, 實 驗程序通常不夠嚴格且很難復現. 不同方法中的實驗設置也不盡相同, 使得我們很難橫向的對不同方法進行比較. Errica 等人[23]對 5 個圖分類模型在統一的評估框架下做了對比. 同樣的數據劃分和實驗設置條件下, 用 10 折交叉 驗證的方法進行模型的評估和選擇, 保證了實驗的公平性. 未來圖分類領域的工作, 應該延續這種做法, 詳細地給 出方法的實驗設置, 方便公平對比和對問題的深入理解, 推進圖分類學術社區的健康發展.

付費5元查看完整內容

知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.

引言

知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .

為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.

盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.

本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.

1 符號定義

知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).

2. 使用事實進行知識圖譜嵌入

本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).

2.1 基于距離的模型

基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.

基于距離的模型總結

2.2 語義匹配模型

語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.

語義匹配模型總結

2.3 最新的知識圖譜嵌入模型

大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.

最新的知識圖譜嵌入模型總結

第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.

3 動態知識圖譜嵌入

當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.

4 融合多源信息的知識圖譜嵌入

多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.

5 知識圖譜嵌入的應用

近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.

5.1 基于知識圖譜嵌入的問答

隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.

值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。

5.2 推薦系統

在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.

5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.

受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.

6 挑戰與展望

目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.

6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.

知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.

多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.

多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.

One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.

6.1.2 知識應用的復雜性

KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.

6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.

6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.

6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.

7 總結

知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.

付費5元查看完整內容

面向知識圖譜的知識推理旨在通過已有的知識圖譜事實,去推斷新的事實,進而實現知識庫的補全。近年來,盡管基于分布式表示學習的方法在推理任務上取得了巨大的成功,但是他們的黑盒屬性使得模型無法為預測出的事實做出解釋。所以,如何設計用戶可理解、可信賴的推理模型成為了人們關注的問題。本文從可解釋性的基本概念出發,系統梳理了面向知識圖譜的可解釋知識推理的相關工作,具體介紹了事前可解釋推理模型和事后可解釋推理模型的研究進展;根據可解釋范圍的大小,本文將事前可解釋推理模型進一步細分為全局可解釋的推理和局部可解釋的推理;在事后解釋模型中,本文回顧了推理模型的代表方法,并詳細介紹提供事后解釋的兩類解釋方法。此外,本文還總結了可解釋知識推理在醫療、金融領域的應用。隨后,本文對可解釋知識推理的現狀進行概述,最后展望了可解釋知識推理的未來發展方向,以期進一步推動可解釋推理的發展和應用。

//www.jos.org.cn/jos/article/abstract/6522

知識圖譜(Knowledge Graph)本質是一種語義網絡,通常用 (頭實體,關系,尾實體)/ ( ,r, t) h 這樣 的三元組來表達事物屬性以及事物之間的語義關系。自谷歌提出知識圖譜概念以來,知識圖譜已經為智能 問答、對話生成、個性化推薦等多個 NLP 任務領域提供了有力支撐。雖然目前的知識圖譜中存在大量的實 體和事實數據,但是這樣大規模的數據仍然不完整,大量缺失的三元組嚴重限制了這些下游任務的性能。知識推理,這一旨在根據一定的推理機制去預測圖譜中缺失三元組的任務,也吸引了學術界越來越多的目光。

早在 2013 年,Li 等人[1] 提出利用表示學習的方法去做知識推理,通過將實體和關系映射到低維連續 的向量空間,將推理預測任務轉化為實體與關系所關聯的簡單的向量/矩陣操作。鑒于該方法的自由度高、 可計算性好、推理效率高等優點,該類方法在近幾年得到了廣泛關注和發展,并且廣泛的應用在推薦系統、 對話生成等互聯網場景。在這些場景下,研究者們更多的關注如何提高知識推理的性能,忽略知識推理發 生錯誤時的風險問題。即便推理模型在這些場景下產生錯誤推理時,通常來說,并不會招致非常嚴重的后果。然而,在當今人工智能技術應用的大趨勢下,知識推理不僅可以應用在上述互聯網場景,而且越來越 多的被應用在和人類的生產生活息息相關的一些領域(例如,智能醫療[98,99,100]、軍事[112] 、金融[90,111]、交 通運輸[113,114]),這些領域往往對模型的安全性能要求較高,風險高度敏感。例如,在醫療領域,推理的可 靠性會關系到人的生命安全。通常來說,在這些領域,僅僅獲得預測結果是不夠的,模型還必須解釋是怎 么獲得這個預測的,來建立用戶和推理模型之間的信任。

隨著深度學習的發展,知識推理方法的模型結構越來越復雜,僅僅一個網絡就可能包含幾百個神經元、 百萬個參數。盡管這些推理模型在速度、穩定性、可移植性、準確性等諸多方面優于人類,但由于用戶無 法對這類模型里的參數、結構、特征產生直觀理解,對于模型的決策過程和模型的推理依據知之甚少,對 于模型的決策過程知之甚少,不知道它何時會出現錯誤,在風險敏感的領域中,用戶仍然無法信任模型的 預測結果。因此,為了建立用戶和推理模型之間的信任,平衡模型準確率和可解釋性之間的矛盾,可解釋 性知識推理在近幾年的科研會議上成為關注熱點。

盡管有很多學者對知識推理領域進行了深入的研究,并從不同的角度(如分布式表示角度[120] 、圖神 經網絡角度[121] 、神經-符號角度[119] 等)對推理模型進行梳理和總結。然而,在推理模型的可解釋性方面 卻缺少深入的對比和總結。為了促進可解釋知識推理的研究與發展,本文對現有的可解釋推理模型進行了 系統梳理、總結和展望。本文首先闡述可解釋性的定義和可解釋性在推理任務中的必要性,并介紹常見的 可解釋模型劃分標準;然后,根據解釋產生的方式,對現有的可解釋知識推理模型進行總結和歸類,并討 論相關方法的局限性;接著,簡單介紹可解釋知識推理在金融領域和醫療領域的應用。最后,本文討論可 解釋知識推理面臨的挑戰以及可能的研究方向。

1 可解釋的知識推理

在詳細介紹現有的可解釋知識推理模型之前,首先介紹知識推理的基本概念,接著對什么是可解釋性 (Interpretability),以及為什么要在推理任務中注重可解釋性進行介紹,最后對本文的劃分標準做簡要說明。

1.1 知識推理的基本概念

2012 年,谷歌正式提出知識圖譜的概念,用于改善自身的搜索質量。知識圖譜通常用 ( ,r, t) h 這樣 的三元組表達實體及其實體之間的語義關系,其中 h 代表頭實體, r 代表實體之間的關系, t 代表尾實體。例如(詹姆斯·卡梅隆,執導,泰坦尼克號)即是一個三元組,其中頭實體和尾實體分別為“詹姆斯·卡梅隆” 和“泰坦尼克號”,“執導”是兩個實體之間的關系。代表性的知識圖譜,如 DBpedia[108] 、Freebase[53] 、 Wikidata[55] 、YAGO[107] 等,雖然包含數以億計的三元組,但是卻面臨非常嚴重的數據缺失問題。據 2014 年的統計,在 Freebase 知識庫中,有 75%的人沒有國籍信息,DBpedia 中 60% 的人缺少沒有出生地信息 [125] 。知識圖譜的不完整性嚴重制約了知識圖譜在下游任務中的效能發揮。因此,如何讓機器自動基于知 識圖譜中的已有知識進行推理,從而補全和完善知識圖譜,成為了工業界和學術界都亟待解決的問題。

總的來說,面向知識圖譜的知識推理實質上是指利用機器學習或深度學習的方法,根據知識圖譜中已 有的三元組去推理出缺失的三元組,從而對知識圖譜進行補充和完善。例如,已知(詹姆斯·卡梅隆,執導, 泰坦尼克號)和(萊昂納多·迪卡普里奧,出演,泰坦尼克號),可以得到(詹姆斯·卡梅隆,合作,萊昂納 多·迪卡普里奧)。知識推理主要包含知識圖譜去噪[12] 和知識圖譜補全(又稱之為鏈接預測)[1,27,94,95]兩個 任務[117] ,其中,知識圖譜去噪任務專注于知識圖譜內部已有三元組正確性的判斷;而知識圖譜補全專注 于擴充現有的圖譜。根據要推理元素的不同,知識圖譜補全任務可以進一步細分為實體預測和關系預測。其中,實體預測是指給定查詢 ( ,r,?) h ,利用已有事實的關系,推理出另一個實體并由此構成完整三元組, 同理,關系預測則是指給定查詢 ( ,?, t) h ,推理給定的頭尾實體之間的關系。由于知識圖譜中大多數三元組 都是正確的,知識圖譜去噪任務通常采用對已有三元組進行聯合建模并進一步判斷特定三元組是否成立的 方法。在這種情況下,知識圖譜補全任務可以轉化為知識圖譜去噪任務[123,124]。為此,在下面的內容里,本 文以知識圖譜補全任務為中心,對相關的可解釋性方法進行梳理和總結。

1.2 可解釋性及其在知識推理中的必要性

目前學術界和工業界對于可解釋性沒有明確的數學定義[62] ,不同的研究者解決問題的角度不同,為 可解釋性賦予的涵義也不同,所提出的可解釋性方法也各有側重。目前被廣泛接受的一種定義由 Miller (2017)[2,42]所提出,指可解釋性是人們能夠理解決策原因的程度。如果一個模型比另一個模型的決策過程 更簡單、明了、易于理解,那么它就比另一個模型具有更高的可解釋性。

在某些情況下,我們不必關心模型為什么做出這樣的預測,因為它們是在低風險的環境中使用的,這 意味著錯誤不會造成嚴重后果(例如,電影推薦系統),但是對于某些問題或任務,僅僅獲得預測結果是 不夠的。該模型還必須解釋是怎么獲得這個預測的,因為正確的預測只部分地解決了原始問題。通常來說, 以下三點原因推動了對可解釋性的需求:

1、高可靠性要求。盡管可解釋性對于一些系統來說并不是不可或缺的,但是,對于某些需要高度可靠 的預測系統來說很重要,因為錯誤可能會導致災難性的結果(例如,人的生命、重大的經濟損失)。可解釋性可以使潛在的錯誤更容易被檢測到,避免嚴重的后果。此外,它可以幫助工程師查明根 本原因并相應地提供修復。可解釋性不會使模型更可靠或其性能更好,但它是構建高度可靠系統 的重要組成部分。

2、道德和法律要求。第一個要求是檢測算法歧視。由于機器學習技術的性質,經過訓練的深度神經網 絡可能會繼承訓練集中的偏差,這有時很難被注意到。在我們的日常生活中使用 DNN 時存在公 平性問題,例如抵押資格、信用和保險風險評估。人們要求算法能夠解釋作出特定預測或判斷的 原因,希望模型的解釋能夠使“算法歧視”的受害者訴諸人權。此外,推理模型目前也被用于新 藥的發現和設計[124] 。在藥物設計領域,除了臨床測試結果以外,新藥還需要通常還需要支持結 果的生物學機制,需要具備可解釋性才能獲得監管機構的批準,例如國家藥品監督管理局 (NMPA)。

3、科學發現的要求。推理模型本身應該成為知識的來源,可解釋性使提取模型捕獲的這些額外知識成 為可能。當深度網絡達到比舊模型更好的性能時,它們一定發現了一些未知的“知識”。可解釋性 是揭示這些知識的一種方式。

1.3 本文的劃分標準

根據不同的劃分標準,知識推理模型可以被劃分成不同的類別。其中,根據解釋產生的方法,可以將 推理模型劃分為兩大類:事前可解釋和事后可解釋[41,62,96,97,102,118]。其中,事前可解釋模型主要指不需要額 外的解釋方法,解釋蘊含在自身架構之中的模型。事后可解釋性是指模型訓練后運用解釋方法進行推理過 程和推理結果的解釋,解釋方法自身是不包含在模型里面的。一種方法被看作能夠對黑盒模型進行解釋, 是指該方法可以:(1)通過可解釋和透明的模型(例如,淺決策樹、規則列表或者稀疏線性模型)對模型 的行為進行近似,可以為模型提供全局的可解釋;(2)能夠解釋模型在特定輸入樣例上進行預測的原因;(3)可以對模型進行內部檢查,了解模型的某些特定屬性,譬如模型敏感性或深度學習中神經元在某一特 定決策中起到的作用[41] 。值得注意的是,可以將事后解釋方法應用于事前可解釋的模型上,例如,可以 從敏感性分析的角度對事前模型進行剖析。此外,根據可解釋的范圍大小----是否解釋單個實例預測或整個 模型行為,可以將模型劃分為局部可解釋和全局可解釋兩大類[97,96];根據解釋方法是否特定于模型,可以 將模型劃分為特定于模型和模型無關兩種類別[96] 。在接下來的內容里,本文按照解釋產生的方式,對知 識推理模型進行總結和歸類。

付費5元查看完整內容

隨著智能化水平的不斷提高, 每時每刻都有大量的新知識產生, 知識圖譜逐漸成為我們管理知識的工具之一. 但現有的知識圖譜仍然存在屬性缺失、關系稀疏等問題, 同時還存在大量噪聲信息, 導致圖譜質量不佳, 易對自然語言處理領域中的各類任務造成影響. 面向知識圖譜的知識推理技術作為目前的研究熱點, 是解決該問題的主要方法, 其通過模擬人的推理過程完成對圖譜信息的完善, 在眾多應用中有較好表現. 以知識圖譜為切入點, 將知識推理技術按類別劃分并分別闡釋, 詳細分析該技術的幾種應用任務, 例如智能問答、推薦系統等, 最后對未來主要研究方向進行展望, 提出幾種研究思路.

//www.c-s-a.org.cn/csa/article/abstract/8137

付費5元查看完整內容
北京阿比特科技有限公司