亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

推薦系統在網絡上無處不在,通過提供用戶可能喜歡的物品的個性化建議來提高用戶的滿意度和體驗。在過去的幾年中,知識感知推薦系統已經顯示出能夠產生高質量的推薦,結合了基于內容和協作過濾的優點。利用知識圖譜來生成物品推薦的關鍵點是能夠為推薦問題定義有效的特征。知識圖譜嵌入學習了從知識圖譜到特征空間的映射,解決了一個優化問題,最大限度地減少了特征工程的耗時工作,導致了更高質量的特征。因此,本論文的主要目的是研究知識圖譜嵌入在推薦系統中的應用。在這篇論文中,我們介紹了entity2rec,它通過特定屬性的知識圖嵌入來學習用戶物品的關聯性以進行物品推薦。entity2rec已經與我們應用于推薦問題的一套現有知識圖嵌入算法(翻譯模型、node2vec)以及三個標準數據集上流行的協同過濾算法進行了基準測試。entity2rec已被證明能夠生成準確的、非顯而易見的推薦,實現了較高的準確性、偶然性和新穎性,并且在數據集稀疏且流行度低的情況下尤為有效。此外,entity2rec基于對知識圖譜語義進行編碼的推薦模型,因此可以針對特定的推薦問題進行解釋和配置。entity2rec還通過一個名為TinderBook的網絡應用程序在冷啟動場景下對真實的新用戶進行了測試。TinderBook是一個網絡應用,它利用基于entity2rec的項目-項目關聯度測量,向用戶推薦他們喜歡的單一書籍。

除了定義有效的特征外,知識感知推薦系統質量的一個關鍵因素是知識圖譜本身的質量。通常情況下,當從一組異質數據源中構建知識圖譜時,重復的數據是數據中的一個主要噪音來源。因此,論文的第二部分涉及到知識圖譜生成過程中的實體匹配問題。在這篇論文中,我們介紹了 "STEM:基于疊加閾值的實體匹配"。STEM是一個機器學習層,可以 "堆疊 "在現有的基于閾值的分類器上,以提高實體匹配任務的精度和召回率。STEM已經在來自不同領域(金融、音樂)的三個數據集上使用兩個不同的基于閾值的分類器(線性和Naive Bayes)進行了測試,大大改善了實體匹配的質量。STEM還被應用于歐洲研究項目3cixty的背景下,創建了一個包含城市的地點和事件的旅游知識圖,加強了重復數據刪除過程,并因此提高了知識圖的質量。

最后,本論文涉及到推薦問題向時間序列的擴展,即序列感知推薦系統(SARS)。特別關注的是學習推薦旅游路徑的問題,即用戶可能感興趣的旅游活動序列。我們提出了 "路徑推薦器",這是一種基于從Foursquare收集的用戶簽到序列訓練的循環神經網絡(RNN)的方法。路徑推薦器在一系列相關指標上顯示出優于一系列競爭性的序列感知算法(大數據、條件隨機域)。路徑推薦器架構的擴展和臨時版本被設計用于自動播放列表的延續問題,并在RecSys2018挑戰賽的背景下進行了測試,在創意賽道的33個參與者中取得了第14名,在主賽道的113個參與者中取得了第36名。已經收集的Foursquare數據集和這項工作中定義的SARS評估框架已經成為研究界的公共資源。

論文結構

本論文共分六章,討論推薦系統和語義學領域的研究挑戰。

第一章提供了本論文的總體背景,描述了本論文的研究挑戰和貢獻,并提供了工作綱要。

第二章描述了最先進的技術,從關于RS和語義學的一般概念到該領域的最新和最先進的工作。

第三章包含了關于使用翻譯模型[25, 26]、node2vec[27]和entity2rec[3]來為推薦系統創建知識圖譜嵌入的理論和實驗工作。

第四章描述了STEM(基于疊加閾值的實體匹配)方法[28],其實驗驗證和3cixty研究項目的使用案例[29]。

第五章介紹了路徑推薦器[30]、評估框架Sequeval和簽到數據集的收集[31, 32],以及路徑推薦器在音樂領域的擴展[33]。

在第六章中,我們總結了研究結果和亮點,概述了未來的工作,并得出論文的主要結論。

付費5元查看完整內容

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

本教程的目標是向RecSys社區介紹基于知識圖譜的可解釋推薦系統的開發和評估的最新進展。本文將首先介紹概念基礎,通過調查最新進展并描述知識圖譜如何被集成到推薦管道中的現實例子,也是為了提供解釋。本教程將繼續系統地介紹使用知識圖譜對推薦系統進行建模、集成、訓練和評估的算法解決方案,特別注意可解釋性的角度。實踐部分將為與會者提供基于知識圖譜的推薦系統的具體實現,利用開源工具和公共數據集;在這一部分,教程參與者將參與設計與建議配套的解釋,并闡明其影響。我們通過分析新出現的開放問題和未來的方向來結束本教程。

**介紹可解釋的推薦(20分鐘)**我們將首先提供可解釋推薦研究的歷史概述。事實上,盡管“可解釋推薦”這個術語是近年來才正式引入的,但其基本概念可以追溯到個性化推薦研究中最早的一些作品。我們將給出現實世界中解釋可以影響推薦的例子,考慮到音樂、教育和社交平臺等領域。解釋是向用戶顯示的一條信息,解釋為什么推薦某個特定的項目。在這一部分中,我們將重點關注推薦解釋的不同信息源(或顯示風格)。然后,我們對現有的可解釋推薦方法進行了分類,這可以幫助與會者了解可解釋推薦研究的最新進展。我們將提出受解釋影響的目標(效用、覆蓋面、多樣性、新穎性、可見性、曝光率),并提供相關工作。解釋還會對經濟、法律、社會、信任、技術和心理學等多個視角產生影響。

**基于知識圖譜的可解釋推薦模型(20分鐘)**我們將提供推薦管道的初步概述,以描述應如何在幾個階段實現解釋,即數據采集和存儲、數據準備、模型訓練、模型預測、模型評估和推薦交付。在本部分中,我們將深入研究現有的方法,這些方法使用KG來增強傳統模型,并在優化函數中嵌入正則化項,以隱式地編碼來自KG的用戶和產品之間的高階關系。然后,根據KG結構,詳細介紹了依賴預計算路徑(元組)建模用戶和產品之間高階關系的方法。最后,根據所考慮的方法,我們展示了如何從具有知識圖譜的推薦系統中產生不同類型的解釋。

**可解釋的推薦評估(20分鐘)**首先,我們將介紹最先進的評估策略,利用基于志愿者或付費實驗對象的用戶研究。雖然這是最有效的策略,但也是最耗時和昂貴的。然后我們將轉向另一種類型的評估,即在線評估,通過在線實驗來評估可解釋的推薦,調查不同的角度,如說服力、有效性、效率和解釋的滿意度。隨后,我們提出了離線評估推薦解釋的主要方法,如評估可由解釋模型解釋的推薦的百分比和直接評估解釋質量。在這一部分中,我們還將指出我們最近在定義解釋質量的離線評價指標方面所做的工作。我們將介紹現實世界平臺的例子,如LinkedIn和Spotify,以及根據所述建模策略處理解釋的方法。

**實踐中的推薦模型(35分鐘) **為了實際展示本教程第一部分中介紹的方法,我們首先介紹三個數據集,分別代表電影(MovieLens-1M (ML1M))、音樂(LASTFM - 1b (LASTFM))和電子商務(亞馬遜手機)領域。它們是公共的,在領域、廣泛性和稀疏性方面各不相同。 然后,我們加載并呈現了文獻中為三個考慮的數據集提供的KG,并展示了應該如何對這些信息進行預處理,以便在優化和推薦生成過程中啟用推薦模型,利用它們的內容。 在接下來的步驟中,我們創建并訓練了至少兩種最新的基于路徑的方法,它們支持文本解釋,例如PGPR和CAFE,它們依賴于RL代理,通過在KG中用戶和被推薦產品之間導航路徑來優化推薦。 展示了如何從預訓練的可解釋推薦系統開始創建top-n推薦,并測量傳統的有效性指標,如NDCG。

**解釋的創造和影響(30分鐘) **在第二部分中,我們首先展示了如何創建文本解釋,從預訓練的可解釋推薦系統開始,以伴隨用戶提供的top-n推薦。 然后,我們計算最先進的離線評價指標,以評估解釋的質量,如鏈接交互的近代性,共享實體的受歡迎程度,和解釋類型的多樣性。 最后,我們檢查和比較第一部分訓練的(至少兩個)模型提供的解釋,并分析解釋的影響和引起的權衡。

付費5元查看完整內容

協同過濾是一種被廣泛應用于推薦系統中的方法,其利用不同用戶之間(或不同物品之間)的相似性關系來過濾和抽 取用戶和物品的交互信息,從而進行用戶推薦.近年來,圖神經網絡因其出色的表示學習性能和良好的可擴展性逐漸成為推薦 領域中的一種新興的范式.文中從圖學習角度對近年來推薦領域的研究進行系統性的回顧與總結.首先,根據數據類型將推 薦場景分成兩類,包括基于交互信息的推薦系統(將用戶與物品交互數據作為關鍵數據源)和輔助信息增強的推薦系統(融入與 用戶和物品相關聯的社交信息和知識圖譜信息);其次,從隨機游走、圖表示學習和圖神經網絡方面入手,對不同推薦場景中的 方法、關鍵技術、主要難點和重要進展進行回顧與總結;最后,總結關于圖學習方法在推薦領域中面臨的挑戰和未來的主要研究 方向.

1 引言

隨著互聯網技術的高速發展以及移動終端的全面普及, 互聯網中的信息量呈指數級增長.互聯網給用戶提供海量資 源的同時,也給用戶帶來了信息過載的問題[1G2],即用戶很難 在眾多內容中快速、高效地篩選出自己感興趣或者對自己有 意義的內容.推薦系統通過主動向用戶推薦其感興趣內容,幫助用戶 過濾掉許多不感興趣或者不相關的內容,從而有效地緩解信 息過載的問題,使用戶能更加便捷地瀏覽感興趣的內容.因 此,推薦系統被廣泛地應用在許多企業的服務中,已逐漸成為 企業吸引用戶不可或缺的工具.針對不同的應用場景,推薦 系統也演變出不同的推薦任務,其中包括線上購物推薦(如 Amazon、天貓),社交媒體推薦(如微博、抖音)等,為 人 們 的生活帶來極大便利的同時,也極大地影響著其生活方式[1]. 傳統推薦 系 統 分 為 3 類[3]:基 于 內 容 的 推 薦 (ContentG BasedRecommendation,CB)[4]、基于協同過濾的推薦(CollaG borativeFilteringRecommendation,CF)[5]和 混 合 推 薦 (HyG bridRecommendation).基于內容的推薦算法根據用戶的歷 史交互記錄,構建與歷史交互的物品關聯性高的推薦物品集, 實現對目標用戶的推薦任務;基于協同過濾的推薦利用不同 用戶之間(不同物品之間)的相似性關系,對用戶與物品的交 互信息(點擊、購買、評分等交互行為)進行篩選過濾,為目標 用戶推薦感興趣的物品;混合推薦將不同推薦技術融入推薦 系統中,避免單一推薦技術的缺陷.傳統推薦系統中,相似性 度量方法包括歐氏距離、余弦相似度、皮爾遜相關系數等.常 用的模型方法包括矩陣分解(MatrixFactorization,MF)[6]、概 率矩 陣 分 解 (Probabilistic MatrixFactorization,PMF)[7]等. 傳統推薦系統簡單易操作,可以快速地對用戶與物品的交互 信息建模,但存在數據稀疏問題,無法處理關系復雜的推薦以 及缺乏可解釋性.

隨著機器學習的快速發展,經典的機器學習算法被廣泛 地應用到推薦領域中,如邏輯回歸(LogisticRegression,LR)、 梯度提升決策樹(GradientBoostingDecisionTree,GBDT)和 因子分解機(Factorization Machines,FM)等[8G10].基于機器 學習的推薦模型可以處理運算復雜的推薦,但基于機器學習 的推薦算法往往只能建模用戶的歷史交互數據中的低階特征 表示,缺乏對高階特征表示的建模能力. 隨著深度學習的興起,深度神經網絡被廣泛地應用到推 薦 領 域 中,如 深 度 神 經 網 絡 (Deep Neural Networks, DNN)[11G12]、卷積神經網絡(ConvolutionalNeuralNetworks, CNN)[13G15]、循 環 神 經 網 絡 (Recurrent Neural Network, RNN)[16]、注意力模型(Attention Model)[17]以及變分自編碼 器(VariationalAutoencoder,VAE)[18G19]等,并且都取得了不 錯的推薦效果.

推薦系統中的大部分數據本質上都可被視為圖結構數 據.例如,用戶對物品的交互行為(點擊、瀏覽、購買等),從圖 結構方面考慮,用戶一旦點擊或購買物品,就與這些物品相關 聯.但絕大多數深度學習任務都是針對1D,2D或3D 的歐氏 結構化數據(如聲音信號、圖像和視頻等)進行研究.推薦系 統中的非歐氏結構化數據(圖結構數據)的節點的鄰域并不一 致,部分節點的鄰居節點多,部分節點的鄰居節點少.非歐氏 結構化數據的復雜性使得傳統的深度學習無法有效地建模圖 結構數據[20].隨著圖學習(GraphLearning,GL)方法,特別 是圖學習中的圖神經網絡(GraphNeuralNetworks,GNN)的 提出,其在復雜關系提取和鏈路預測等許多圖任務中取得了 巨大成功[21G27],引起了學術界和工業界研究人員的關注.由 于推薦系統的大部分數據具有圖結構的特性,將圖學習方法 應用到推薦領域是一種很自然的做法.因此,圖學習方法已 逐漸成為推薦領域內一種被廣泛研究的新興推薦范式,即基 于圖學習的推薦系統[28G31].當用戶與物品的交互信息和用 戶與物品相關聯的輔助信息被構建成圖結構形式,再結合以 隨機游走、圖表示學習和圖神經網絡為主要代表的圖學習方 法,即可捕獲、學習和模擬用戶與物品之間高階的、復雜的關 系,更加有效地學習用戶的長期興趣偏好和物品的特征屬性, 以提升推薦系統的推薦性能[32G36].因此,對基于圖學習的推 薦方法進行系統性的總結與回顧,可以使研究者們更好地把 握這一新興領域的研究現狀和挑戰,促進圖學習方法在推薦 領域的發展.

由于圖學習技術在推薦領域中的廣泛運用,一部分研究 學者已經對基于圖結構數據的推薦系統進行了回顧和總結. Laknath [29]從全局排名方法、重啟隨機游走到吸收隨機游走3 個方面對不同推薦任務中的隨機游走方法進行了詳細的分析 與總結.Gao等[30]主要從推薦系統的冷啟動、可擴展性、個 性化以及動態性的推薦問題出發,對基于知識圖 譜(KnowG ledgeGraph,KG)推薦任務上的圖神經網絡方法進行了回顧 和總結.Guo等[28]將知識圖譜任務上的推薦方法劃分為嵌 入方法、路徑方法以及未統一定義方法,然后分別對各分類中 的推薦方法進行了詳細的分析與總結.Wu等[31]從圖神經網 絡角度對傳統推薦、社交推薦和知識圖譜推薦進行了總結. 然而,上述綜述工作存在不足之處,Laknath [29]和 Wu等[31]的 綜述工作僅對單一的推薦方法(前者是隨機游走方法,后者是 圖神經網絡方法)進行了回顧,Laknath [29]的綜述工作時間較 早,并沒有總結近幾年的相關推薦任務和方法.Gao等[30]和 Guo等[28]的綜述工作僅對單一的推薦場景(知識圖譜)進行 了總結.然而單一的推薦方法和推薦場景不能使研究學者快 速且全面地了解基于圖結構的推薦場景的研究現狀和挑戰. 針對上述工作的不足,本文首先總結了推薦任務中常用的數 據集和評價指標,以方便研究者快速開展對推薦系統的研究; 其次,根據運用的推薦數據類型將推薦運用場景分成兩組: 基于交互信息的推薦系統(僅利用用戶與物品的交互數據)和輔 助信息增強的推薦系統(融入與用戶和物品相關聯的社交信 息以及知識圖譜信息等信息).其中,輔助信息增強的推薦系 統主要從用戶社交信息和物品知識圖譜兩個方面對用戶和物 品相關聯的輔助信息進行詳細分析,從而對輔助信息增強的 推薦系統進行回顧與總結.針對不同的推薦運用場景,分別 對隨機游走、圖表示學習和圖神經網絡這3種圖學習方法進 行總結,分析了不同的圖學習方法在不同推薦場景下的難點 和研究現狀.最后,本文總結了圖學習方法在推薦領域的未 來研究方向,使研究者可以更加清晰地了解圖學習在推薦領 域中的挑戰和發展趨勢.基于圖學習的推薦方法的分類如 圖1所示.

2 推薦任務定義、評估指標和數據集

推薦系統用于推薦任務的關鍵數據為用戶與物品之間的交互數據,而為了更好地捕捉用戶的興趣偏好和物品的屬性 特征,推薦任務也常使用與用戶和物品相關的輔助信息,包括 用戶和物品的屬性信息、用戶之間的社交信息、物品之間的關 聯信息等,來增強用戶和物品的特征表示,如圖2所示.推薦 任務使用的大部分數據本質上都可被視為圖結構數據,用戶 交互信息可轉換為用戶與物品的交互二部圖[37],用戶和物品 表示為交互圖中的節點,用戶與物品之間的交互表示為交互 圖中的邊.將用戶和物品的屬性信息與用戶的交互圖相結 合,轉換為帶有屬性的交互圖,用戶和物品的屬性信息表示為 圖中的節點屬性.用戶之間社交關系,即用戶關注或分享鏈 接給某個用戶,可轉換為用戶信任關系圖.用戶與物品的屬 性信息也可以融入用戶與物品的交互圖中,組合成包含多個 實體和多重關系的異構圖,而在推薦任務中,常采用知識圖譜 的方式來表示多種實體之間的關系[29].基于圖學習的方法 在捕捉節點之間間接的、高階的、復雜的連接關系和整體圖拓 撲結構信息方面具有非常強大的建模能力[21],因此,將圖學 習方法應用到推薦領域是一種理所當然的做法.根據圖學習 方法中使用的用戶與物品的信息類型,本文將推薦系統主要 分為基于交互信息的推薦系統(模型只考慮用戶和物品的交 互關系)和輔助信息增強的推薦系統(利用社交關系和知識圖 譜等輔助信息增強用戶與物品的特征表示).

**3 基于交互信息的推薦系統 **

基于交互信息的推薦系統通常僅考慮用戶與物品之間的 交互關系來實現對用戶的興趣偏好建模,其基于這樣一個假 設,即用戶對物品的喜好不隨時間發生改變,從而為目標用戶 提供反映該用戶長期興趣的靜態物品推薦列表.基于交互信 息的推薦系統利用圖學習的方法,對用戶的交互二部圖以及 用戶與物品的節點屬性進行學習,以捕獲用戶和物品之間復 雜的、高階的和間接的交互關系,實現對用戶與物品鄰接矩陣 的補全,利用補全的鄰接矩陣來評估 O+ 中用戶u 對沒有交 互的物品i+ 感興趣的概率或者評分.基于圖學習的方法使 信息在用戶與物品交互圖上的節點之間廣泛傳播,以豐富交 互較少的用戶和物品的信息,能夠緩解數據稀疏性和冷啟動 問題.然而在交互圖上,用戶或物品之間可能不存在直接連 接,消息需要通過多跳鄰居節點進行傳播.因此,基于圖學習 方法在推薦領域如何高效地在用戶或物品之間傳播信息成為 一個重大挑戰.為充分發揮基于圖學習方法在用戶與物品交 互圖上的模型性能,本文將消息傳播問題主要概括為: (1)交互圖的采樣:交互二部圖是根據用戶和物品的交互 數據構建而成.但由于推薦任務中的物品數量巨大,考慮推 薦模型的訓練和計算效率,如何設計數據采樣方式才能有效 地捕捉用戶與物品之間的消息傳播,更好地提升推薦性能? (2)信息聚合:用戶與物品之間存在復雜、豐富和潛在的 交互關系,如何設計信息聚合方式才能有效地將復雜的、間接 和高階的信息聚合到目標節點,豐富用戶和物品的特征表示, 實現用戶與物品之間的消息傳播? (3)節點輸出:如何構建適用于下游推薦任務的節點表 示?

**4 融入社交信息的推薦系統 **

社交網絡的推薦系統主要考慮利用用戶社交網絡中的用 戶信任關系進一步挖掘用戶興趣偏好,緩解推薦任務中的數 據稀疏性問 題,從 而 有 效 地 為 目 標 用 戶 推 薦 其 感 興 趣 所 物 品[50,71G72].在真實的生活場景中,一個用戶的興趣愛好很可 能會受他所信任的朋友的興趣影響,即社交影響會在社交網 絡中傳播和擴散[51].社交關系可以構建成一個關于用戶之 間的同構圖,其中每個用戶代表圖中的一個節點,兩個用戶 之間存在信任關系會對應圖上的一條邊,即用戶信任關系圖 GU .在GU 中可能存在隱式社交關系,即用戶之間沒有顯式 的信任交互,但他們卻有潛在關系.在融入社交信息的推薦 系統中,利用社交網絡中信任的朋友的興趣特點,來分析目標 用戶的喜好,從而更加有效地利用信任朋友的偏好來為目標 用戶推薦其感興趣的物品,或者通過預測社交網絡中可能存 在的隱式社交連接,來向目標用戶推薦有共同興趣愛好的朋 友[73].由于社交圖也具有圖結構屬性,社交信息和用戶與物 品的交互信息可以自然而然地組合成由這兩部分信息構成的異構圖.一部分為用戶與物品的交互圖,另一部分為反映社 會關系的社交圖.此異構圖中包含兩種不同類型的信息(即 交互信息和社交信息). 融入社交信息的推薦系統主要考慮利用目標用戶所信任 的朋友的影響來幫助模型更好地理解用戶的興趣偏好,但是 對目標用戶的偏好建模,一方面需要考慮如何利用目標用戶 信任的朋友的偏好信息來分析目標用戶的喜好;另一方面需 要考慮不同的朋友對目標用戶產生的影響程度如何,這些問 題都值得深入研究.因此,如何適當地建模目標用戶信任的 朋友對目標用戶的影響是一個重大的問題.為充分利用社交 信息,改善圖學習推薦方法的推薦效果,本文將社交影響問題 主要概括為:

(1)朋友的影響:如何構建朋友的影響并將其融入推薦過 程中? 不同的朋友對目標用戶產生的影響程度不同,如何區 分朋友之間的影響力? 如何利用社交網絡中存在的隱式社交 關系?

(2)用戶偏好分析:如何從社交信息擴散角度和物品的交 互行為角度來分析用戶喜好? 如何將社交網絡中和物品交互 網絡中的興趣偏好特征融合,更加全面構建出用戶的喜好?

**5 融入知識圖譜的推薦系統 **

由于知識圖譜包含了物品之間豐富的語義信息和用戶與 物品、物品與物品之間的多重關系,若能夠充分捕捉物品之間 潛在的連接關系,對分析用戶真實的興趣偏好和物品的屬性 特征十分有益.因此,將知識圖譜融入推薦系統中,可以進一 步提升模型的推薦性能[22,64G68],還可以增加推薦物品的多樣 性和有效性.知識圖譜雖然包含了豐富的物品信息和用戶與 物品之間的多重復雜關系,但具有復雜的圖結構,其中包含了 多種類型的實體和關系,使充分挖掘知識圖譜的語義信息成 為一個挑戰[28].為充分利用知識圖譜中豐富的語義關系來 提升推薦性能,本文將知識圖譜應用在推薦任務上所面臨的 問題主要概括如下:

(1) 結構復雜性:鑒于知識圖譜具有復雜的圖結構,如何 簡化知識圖譜結構來實現消息的高效傳播和對知識圖譜信息 的充分挖掘?

(2)多關系傳播:如何捕獲實體與實體之間復雜、高階的 多重關系,并將其有效地融入推薦任務中?

(3)特征整合:如何從知識圖譜中復雜的實體和多種關系 中學習到用戶和物品的特征表示并進行有效地融合,從而更 加全面挖掘出用戶的喜好和物品的屬性?

**6 基于圖學習推薦的未來研究方向 **

圖學習方法不僅在圖分類、鏈路預測等圖結構任務上取 得了巨大成功[21G27,80G86],而且在推薦領域也具有出色的推薦 表現,但它仍然有許多問題和挑戰亟待解決.本節將對圖學 習方法在推薦領域中的未來研究方向進行分析與總結.

**6.1 基于圖學習的大規模圖推薦 **

在真實的應用場景中,推薦系統往往會面臨一個龐大的 用戶和商品群體,如淘寶、京東等網上購物平臺.數據的規模 是推薦系統無法避免的問題,它會導致系統在時間和空間方 面的計算資源花費極大.基于隨機游走和圖表示學習的推薦 方法在面對大規模的用戶和商品數據時,模型的處理效率低 下.而基于圖神經網絡的方法在大規模圖上的訓練成本較 高,不太適合大規模的圖結構數據.因此,需要研究更高效的 算法來加速對大規模推薦數據的處理,并不斷更新模型以產 生更加及時、有效的推薦.

6.2 多源多模態信息整合

輔助信息已被證明在改善數據稀疏性和冷啟動等推薦問 題上非常有效[29,71,87G90].在線上購物系統中,多源多模態的 信息包括商家對商品的描述、分類等信息,用戶對物品的點 擊、瀏覽、加入購物車、評分等信息以及商品的文本、圖像等信 息.現有的圖學習方法難以將多源多模態數據進行有效的融 入,導致對數據中豐富的信息利用不充分或數據對象之間的 關系表示不明顯,不能有效地捕捉到用戶更加真實的興趣偏 好和物品真實的屬性,使模型的推薦性能無法發揮到極致. 而現有圖學習推薦方法對節點的特征向量表示的方式比較單 一,通常只能對用戶歷史交互記錄進行有效的處理,難以將多 源多模態信息有效地融入用戶與物品的特征表示中,使模型 達到最佳的推薦效果.因此,如何有效地整合多源多模態數 據信息是圖學習推薦方法需要解決的一個重要問題.

6.3 基于圖學習的跨領域推薦

跨領域 推 薦[91G94]可 以 緩 解 推 薦 系 統 的 冷 啟 動 和 數 據 稀疏性問題,利用輔助域的信息為目標域進行推薦,能夠取得 不錯的推薦性能.例如用戶對電影交互以及用戶對書籍交互 可看作兩個領域,當用戶對電影交互信息存在稀疏性問題時, 可以利用用戶對書籍的交互信息來對電影的推薦任務提供幫 助.現有的圖學習方法往往只能對單一領域中的圖結構數據 進行學習,停留在單一的層面上,難以將訓練好的推薦模型從 一個領域中的圖結構數據遷移到另一個領域中的圖結構數據 上,不能實現在不同推薦模型之間進行有效的信息遷移.實際 上,推薦的數據和交互可以來自多個領域,包括各種來源、系統 和模式,它們之間是相互關聯的,可以相互協同來提升推薦效 果.因此,基于圖學習的跨領域推薦是一個值得研究的課題. 6.4 推薦方法的可解釋性研究 現有的圖學習推薦方法盡管取得了優異的推薦效果,但 推薦結果在科學解釋方面往往不能令用戶和工業界信服.盡 管推薦系統在可解釋方面取得了一些進展,但離真正理解用 戶選擇行為背后的原因和意圖還有漫長的路要走[95].然而, 因果推斷作為一種用于發現事物之間因果關系的重要技術, 尚未在推 薦 領 域 中 的 可 解 釋 性 方 面 得 到 廣 泛 的 研 究[96G97]. 因此,在基于圖學習的推薦方法中使用因果推斷技術來構建 可解釋的推薦系統是一個值得研究的方向.

**7 結束語 **

圖學習方法在推薦鄰域中的應用已經受到學術 界和工業界越來越多的關注.本文對基于圖學習推薦方法的 兩大應用場景進行了回顧與總結,即基于交互信息的推薦系 統和輔助信息增強的推薦系統.針對輔助信息增強的推薦系 統,本文主要從用戶社交信息和物品知識圖譜兩部分對關于 用戶和物品的輔助信息進行詳細分析與總結.本文還對各大 應用場景中的圖學習方法進行了分析與總結,指出了圖學習 推薦方法所面臨的難點及未來研究方向,對基于圖學習的推 薦系統的研究與發展具有一定的借鑒意義.

付費5元查看完整內容

知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.

引言

知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .

為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.

盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.

本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.

1 符號定義

知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).

2. 使用事實進行知識圖譜嵌入

本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).

2.1 基于距離的模型

基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.

基于距離的模型總結

2.2 語義匹配模型

語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.

語義匹配模型總結

2.3 最新的知識圖譜嵌入模型

大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.

最新的知識圖譜嵌入模型總結

第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.

3 動態知識圖譜嵌入

當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.

4 融合多源信息的知識圖譜嵌入

多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.

5 知識圖譜嵌入的應用

近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.

5.1 基于知識圖譜嵌入的問答

隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.

值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。

5.2 推薦系統

在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.

5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.

受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.

6 挑戰與展望

目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.

6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.

知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.

多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.

多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.

One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.

6.1.2 知識應用的復雜性

KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.

6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.

6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.

6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.

7 總結

知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.

付費5元查看完整內容

摘要

知識圖譜(KGs)在工業和學術領域有很多應用,這反過來又推動了朝著大規模地從各種來源提取信息大量的研究工作。盡管付出了這些努力,但眾所周知,即使是最先進的KGs也是不完整的。鏈路預測(Link Prediction, LP)是一種根據KG中已存在的實體去預測缺失事實的任務,是一種有前途的、廣泛研究的、旨在解決KG的不完整的任務。在最近的LP技術中,基于KG嵌入的LP技術在一些基準測試中取得了很好的性能。盡管這方面的文獻在迅速增加,但對這些方法中各種設計選擇的影響卻沒有引起足夠的注意。此外,這一領域的標準做法是通過測試大量的事實來報告準確性,其中一些實體被過度表示;這允許LP方法通過只修改包含這些實體的結構屬性來展示良好的性能,而忽略KG的主要部分。本篇綜述分析提供了基于嵌入的LP方法的全面比較,將分析的維度擴展到常見的文獻范圍之外。我們通過實驗比較了16種最先進的方法的有效性和效率,考慮了一個基于規則的基準,并報告了文獻中最流行的基準的詳細分析。

介紹

知識圖譜(KGs)是真實世界信息的結構化表示。在一個KG中,節點表示實體,例如人和地點;標簽是連接它們的關系類型;邊是用關系連接兩個實體的特定事實。由于KGs能夠以機器可讀的方式對結構化、復雜的數據進行建模,因此它被廣泛應用于各個領域,從問答到信息檢索和基于內容的推薦系統,并且對于任何語義web項目都非常重要。常見的KG有FreeBase、WikiData、DBPedia、Yago和行業KG有谷歌KG、Satori和Facebook Graph Search。這些巨大的KG可以包含數百萬個實體和數十億個事實。

盡管有這樣的努力,但眾所周知,即使是最先進的KGs也存在不完整性問題。例如,據觀察FreeBase是用于研究目的的最大和最廣泛使用的KGs之一,但是在FreeBase中超過70%的個體沒有出生地點,超過99%的個體沒有民族。這使得研究人員提出了各種各樣的技術來糾正錯誤,并將缺失的事實添加到KGs中,通常稱為知識圖譜補全或知識圖譜增強任務。可以通過從外部源(如Web語料庫)提取新的事實,或者從KG中已經存在的事實推斷缺失的事實,來增長現有的KG。后來的方法,稱為鏈接預測(LP),是我們分析的重點。

LP一直是一個日益活躍的研究領域,最近受益于機器學習和深度學習技術的爆炸式增長。目前絕大多數LP模型使用原始的KG元素來學習低維表示,稱為知識圖譜嵌入,然后利用它們來推斷新的事實。在短短幾年的時間里,研究人員受到RESCAL和TransE等一些開創性工作的啟發,開發了幾十種基于不同的架構的新模型。這一領域的絕大多數論文都有一個共同點,但也存在問題,那就是它們報告的結果匯總在大量的測試事實之上,其中很少有實體被過度表示。因此,LP方法可以在這些基準上表現出良好的性能,只對這些實體進行訪問,而忽略其他實體。此外,當前最佳實踐的局限性可能使人們難以理解這一文獻中的論文是如何結合在一起的,以及如何描述出值得追求的研究方向。除此之外,目前技術的優點、缺點和局限性仍然是未知的,也就是說,幾乎沒有研究過允許模型更好地執行的情況。粗略地說,我們仍然不知道是什么可以讓一個事實變得容易還是難以學習和預測。

為了緩解上述問題,我們對一組有代表性的基于KG嵌入的LP模型進行了廣泛的比較分析。我們優先考慮最先進的系統,并考慮屬于廣泛的體系結構的工作。我們從零開始對這些系統進行訓練和調整,并通過提出新的、信息豐富的評估實踐,提供超出原始論文的實驗結果。具體是:

我們考慮了16個模型,屬于不同的機器學習和深度學習架構;我們還采用了一個基于規則挖掘的附加的最先進的LP模型作為基線。我們提供了實驗比較考慮的方法的詳細描述和相關文獻的總結,以及知識圖譜嵌入技術的教育分類。 我們考慮了5個最常用的數據集,以及目前用于基準測試的最流行的指標;我們詳細分析了它們的特點和特性。 對于每個模型,我們為每個數據集提供了效率和有效性的定量結果。 我們在訓練數據中提出一組結構特征,并測量它們如何影響每個模型對每個測試事實的預測性能。

方法概述

在本節中,我們描述并討論了基于潛在特征的知識管理的主要方法。正如在第2節中所描述的,LP模型可以利用各種各樣的方法和架構,這取決于它們如何對優化問題進行建模,以及它們實現來處理優化問題的技術。

為了概述它們高度不同的特征,我們提出了一種新的分類法,如圖1所示。我們列出了三個主要的系列模型,并進一步將它們劃分為更小的組,以獨特的顏色標識。對于每個組,我們都包括最有效的代表性模型,優先考慮那些達到最先進性能的模型,并且在任何可能的情況下,優先考慮那些具有公開可用實現的模型。結果是一組16個模型,基于極其多樣化的架構;這些是我們隨后在比較分析的實驗部分所使用的模型。對于每個模型,我們還報告了發表的年份以及從其他模型得到的信息。我們認為,這種分類有助于理解這些模型和在我們的工作中進行的實驗。表1報告了關于所包括的模型的進一步信息,例如它們的損失函數和空間復雜性。我們確定了三大類模型:1)張量分解模型;2)幾何模型;3)深度學習模型。

張量分解模型

這個家族的模型將LP解釋為一個張量分解的任務。這些模型隱式地將KG考慮為一個三維鄰接矩陣(即一個3維張量),由于KG的不完整性,這個鄰接矩陣只有部分可觀測。張量被分解成低維向量的組合(比如一個多線性乘積):這些向量被用作實體和關系的嵌入表示。張量分解的核心思想是,只要訓練集訓練不過擬合,則學習到的嵌入應該能夠泛化,并將高值與圖鄰接矩陣中不可觀測的真實事實相關聯。在實踐中,每個事實的得分都是通過對事實中涉及的特定嵌入進行組合計算得出的;通過優化所有訓練事實的評分函數,可以像往常一樣進行學習嵌入。這些模型傾向于使用很少或根本沒有共享參數;這使得它們特別容易訓練。

幾何模型

幾何模型將關系解釋為潛在空間的幾何變換。對于給定的事實,頭實體嵌入進行空間轉換τ,使用嵌入的關系作為參數的值。對事實評分的值是結果向量和尾向量之間的距離;這樣則可以使用距離函數計算δ(例如L1和L2范數)。

?

深度學習模型

深度學習模型使用深度神經網絡來執行LP任務。神經網絡學習參數,如權重和偏差,它們結合輸入數據,以識別顯著模式。深度神經網絡通常將參數組織成獨立的層,通常穿插非線性激活函數。

隨著時間的推移,人們開發了許多不同類型的層,對輸入數據應用不同的操作。例如,全連接層將把輸入數據X與權重W結合起來,并添加一個偏差B: W X + B。為了簡單起見,在下面的公式中我們將不提及偏差的使用,使其保持隱式。更高級的層執行更復雜的操作,如卷積層(它學習卷積內核以應用于輸入數據)或遞歸層(以遞歸方式處理順序輸入)。

在LP任務中,通常結合各層的權重和偏差來學習KG嵌入;這些共享的參數使這些模型更有表現力,但可能導致參數更多,更難訓練,更容易過擬合。

付費5元查看完整內容

元學習的研究越來越受到學者們的重視,從最初在圖像領域的研究逐漸拓展到其他領域,目前推薦系統領域也出現了相關的研究問題,本文介紹了5篇基于元學習的推薦系統相關論文,包括用戶冷啟動推薦、項目冷啟動推薦等。

  1. MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

本文提出了一種新的推薦系統,解決了基于少量樣本物品來估計用戶偏好的冷啟動問題。為了確定用戶在冷啟動狀態下的偏好,現有的推薦系統,如Netflix,在啟動初向用戶提供物品選擇,我們稱這些物品為候選集。然后根據用戶選擇的物品做出推薦。以往的推薦研究有兩個局限性:(1) 只有少量物品交互行為的用戶推薦效果不佳,(2) 候選集合不足,無法識別用戶偏好。為了克服這兩個限制,我們提出了一種基于元學習的推薦系統MeLU。從元學習中,MeLU可以通過幾個例子快速地應用于新任務,通過幾個消費物品來估計新用戶的偏好。此外,我們提供了一個候選集合選擇策略,以確定自定義偏好估計的區分項目。我們用兩個基準數據集對MeLU進行了驗證,與兩個對比模型相比,該模型的平均絕對誤差至少降低了5.92%。我們還進行了用戶研究實驗來驗證選擇策略的有效性。

  1. Meta-Learning for User Cold-Start Recommendation 冷啟動問題是對實際推薦系統的長期挑戰。大多數現有的推薦算法依賴于大量的觀測數據,對于很少交互的推薦場景來說是脆弱的。本文用少樣本學習和元學習來解決這些問題。我們的方法是基于這樣一種見解,即從幾個例子中有一個很好的泛化,依賴于一個通用的模型初始化和一個有效的策略來使這個模型適應新出現的任務。為了實現這一點,我們將場景指定的學習與模型無關的序列元學習結合起來,并將它們統一到一個集成的端到端框架中,即場景指定的序列元學習者(或s^2 Meta)。我們的元學習器通過聚合來自各種預測任務的上下文信息來生成一個通用的初始模型,同時通過利用學習到的知識來有效地適應特定的任務。在各種現實世界數據集上的實驗表明,我們提出的模型可以在在線推薦任務中獲得對冷啟動問題的最好效果。

  2. Sequential Scenario-Specific Meta Learner for Online Recommendation

冷啟動問題是對實際推薦系統的長期挑戰。大多數現有的推薦算法依賴于大量的觀測數據,對于很少交互的推薦場景來說是脆弱的。本文用少樣本學習和元學習來解決這些問題。我們的方法是基于這樣一種見解,即從幾個例子中有一個很好的泛化,依賴于一個通用的模型初始化和一個有效的策略來使這個模型適應新出現的任務。為了實現這一點,我們將場景指定的學習與模型無關的序列元學習結合起來,并將它們統一到一個集成的端到端框架中,即場景指定的序列元學習者(或s^2 Meta)。我們的元學習器通過聚合來自各種預測任務的上下文信息來生成一個通用的初始模型,同時通過利用學習到的知識來有效地適應特定的任務。在各種現實世界數據集上的實驗表明,我們提出的模型可以在在線推薦任務中獲得對冷啟動問題的最好效果。

  1. A Meta-Learning Perspective on Cold-Start Recommendations for Items 矩陣分解(M F)是最流行的項目(item)推薦技術之一,但目前存在嚴重的冷啟動問題。項目冷啟動問題在一些持續輸出項目的平臺中顯得特別尖銳(比如Tweet推薦)。在本文中,我們提出了一種元學習策略,以解決新項目不斷產生時的項目冷啟動問題。我們提出了兩種深度神經網絡體系結構,實現了我們的元學習策略。第一個體系結構學習線性分類器,其權重由項目歷史決定,而第二個體系結構學習一個神經網絡。我們評估了我們在Tweet推薦的現實問題上的效果,實驗證明了我們提出的算法大大超過了MF基線方法。

  2. One-at-a-time: A Meta-Learning Recommender-System for Recommendation-Algorithm Selection on Micro Level

推薦算法的有效性通常用評價指標來評估,如均方根誤差、F1或點擊率CTR,在整個數據集上計算。最好的算法通常是基于這些總體度量來選擇的,然而,對于所有用戶、項目和上下文來說并沒有一個單獨的最佳算法。因此,基于總體評價結果選擇單一算法并不是最優的。在本文中,我們提出了一種基于元學習的推薦方法,其目的是為每個用戶-項目對選擇最佳算法。我們使用MovieLens 100K和1m數據集來評估我們的方法。我們的方法(RMSE,100K:0.973;1M:0.908)沒有優于單個的最佳算法SVD++(RMSE,100k:0.942;1M:0.887)。我們還探索了元學習者之間的區別,他們在每個實例(微級別),每個數據子集(中級)和每個數據集(全局級別)上進行操作。評估表明,與使用的總體最佳算法相比,一個假設完美的微級元學習器將提高RMSE 25.5%。

付費5元查看完整內容
北京阿比特科技有限公司