亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

題目: Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

摘要: 知識圖譜在最近的知識挖掘和發現中發揮了重要的作用,例如在生命科學或生物信息學領域。雖然在查詢優化、查詢變換以及大規模知識圖譜的存儲和檢索等方面已經做了大量的研究,但算法優化仍然是使用圖數據的主要挑戰和關鍵因素。在大規模標記屬性圖上優化算法的研究很少。在這里,我們提出了兩種優化方法,并將它們與直接查詢圖數據庫的簡單方法進行了比較。我們工作的目的是確定像Neo4j這樣的圖形數據庫的限制因素,我們描述了一個解決這些挑戰的新方案。為此,我們建議使用一個分類模式來區別圖數據庫中問題的復雜性。我們在一個測試系統上評估我們的優化方法,該測試系統包含一個由文本挖掘數據豐富的生物醫學出版物數據派生的知識圖譜。這個密集的圖譜有超過71M的節點和850M的關系數據。結果是非常令人鼓舞的,根據問題的不同,我們能夠顯示44到3839之間的加速因子。

付費5元查看完整內容

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

主題: Large-scale and high-dimensional statistical learning methods and algorithms

摘要: 在過去的二十年中,基因組學,神經科學,經濟學和互聯網服務等許多領域已經產生了越來越大的,具有高維,大樣本量或兩者兼有的數據集。這為我們提供了前所未有的機會,可以從數據中檢索和推斷出有價值的信息。同時,這也給統計方法和計算算法提出了新的挑戰。一方面,我們希望制定一個合理的模型來捕獲所需的結構并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能是一個很難得出有意義結論的障礙。本文站在兩個主題的交集上,提出了統計方法來捕獲數據中的所需結構,并尋求可擴展的方法來優化超大型數據集的計算。我們提出了使用套索/彈性網解決大規模稀疏回歸問題的可擴展且靈活的框架,以及在存在多個相關響應和其他細微差別(例如缺失值)的情況下解決稀疏降階回歸的可擴展框架。針對R軟件包snpnet和multiSnpnet中PLINK 2.0格式的基因組數據開發了優化的實現。這兩種方法已在UK Biobank的超大型和超大規模研究中得到證明,并且與傳統的預測建模方法相比有了顯著改進。此外,我們考慮另一類高維問題,即異類因果效應估計。與監督學習不同,此類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得治療之間真正差異的地面真理。我們建議采用非參數統計學習方法,尤其是梯度增強和多元自適應回歸樣條,以根據可用的預測因子來估計治療效果。

付費5元查看完整內容

題目: KG-BERT: BERT for Knowledge Graph Completion

摘要: 知識圖譜是許多人工智能任務的重要資源,但往往是不完整的。在這項工作中,我們使用預訓練的語言模型來對知識圖譜進行補全。我們將知識圖譜中的三元組視為文本序列,并提出了一種新的框架結構——知識圖譜雙向編碼方向轉換器(KG-BERT)來對這些三元組進行建模。該方法以一個三元組的實體描述和關系描述作為輸入,利用KG-BERT語言模型計算三元組的評分函數。在多個基準知識圖譜上的實驗結果表明,我們的方法在三元組分類、鏈接預測和關系預測任務上都能達到最新的性能。

付費5元查看完整內容

摘要

知識圖譜(KGs)在工業和學術領域有很多應用,這反過來又推動了朝著大規模地從各種來源提取信息大量的研究工作。盡管付出了這些努力,但眾所周知,即使是最先進的KGs也是不完整的。鏈路預測(Link Prediction, LP)是一種根據KG中已存在的實體去預測缺失事實的任務,是一種有前途的、廣泛研究的、旨在解決KG的不完整的任務。在最近的LP技術中,基于KG嵌入的LP技術在一些基準測試中取得了很好的性能。盡管這方面的文獻在迅速增加,但對這些方法中各種設計選擇的影響卻沒有引起足夠的注意。此外,這一領域的標準做法是通過測試大量的事實來報告準確性,其中一些實體被過度表示;這允許LP方法通過只修改包含這些實體的結構屬性來展示良好的性能,而忽略KG的主要部分。本篇綜述分析提供了基于嵌入的LP方法的全面比較,將分析的維度擴展到常見的文獻范圍之外。我們通過實驗比較了16種最先進的方法的有效性和效率,考慮了一個基于規則的基準,并報告了文獻中最流行的基準的詳細分析。

介紹

知識圖譜(KGs)是真實世界信息的結構化表示。在一個KG中,節點表示實體,例如人和地點;標簽是連接它們的關系類型;邊是用關系連接兩個實體的特定事實。由于KGs能夠以機器可讀的方式對結構化、復雜的數據進行建模,因此它被廣泛應用于各個領域,從問答到信息檢索和基于內容的推薦系統,并且對于任何語義web項目都非常重要。常見的KG有FreeBase、WikiData、DBPedia、Yago和行業KG有谷歌KG、Satori和Facebook Graph Search。這些巨大的KG可以包含數百萬個實體和數十億個事實。

盡管有這樣的努力,但眾所周知,即使是最先進的KGs也存在不完整性問題。例如,據觀察FreeBase是用于研究目的的最大和最廣泛使用的KGs之一,但是在FreeBase中超過70%的個體沒有出生地點,超過99%的個體沒有民族。這使得研究人員提出了各種各樣的技術來糾正錯誤,并將缺失的事實添加到KGs中,通常稱為知識圖譜補全或知識圖譜增強任務。可以通過從外部源(如Web語料庫)提取新的事實,或者從KG中已經存在的事實推斷缺失的事實,來增長現有的KG。后來的方法,稱為鏈接預測(LP),是我們分析的重點。

LP一直是一個日益活躍的研究領域,最近受益于機器學習和深度學習技術的爆炸式增長。目前絕大多數LP模型使用原始的KG元素來學習低維表示,稱為知識圖譜嵌入,然后利用它們來推斷新的事實。在短短幾年的時間里,研究人員受到RESCAL和TransE等一些開創性工作的啟發,開發了幾十種基于不同的架構的新模型。這一領域的絕大多數論文都有一個共同點,但也存在問題,那就是它們報告的結果匯總在大量的測試事實之上,其中很少有實體被過度表示。因此,LP方法可以在這些基準上表現出良好的性能,只對這些實體進行訪問,而忽略其他實體。此外,當前最佳實踐的局限性可能使人們難以理解這一文獻中的論文是如何結合在一起的,以及如何描述出值得追求的研究方向。除此之外,目前技術的優點、缺點和局限性仍然是未知的,也就是說,幾乎沒有研究過允許模型更好地執行的情況。粗略地說,我們仍然不知道是什么可以讓一個事實變得容易還是難以學習和預測。

為了緩解上述問題,我們對一組有代表性的基于KG嵌入的LP模型進行了廣泛的比較分析。我們優先考慮最先進的系統,并考慮屬于廣泛的體系結構的工作。我們從零開始對這些系統進行訓練和調整,并通過提出新的、信息豐富的評估實踐,提供超出原始論文的實驗結果。具體是:

我們考慮了16個模型,屬于不同的機器學習和深度學習架構;我們還采用了一個基于規則挖掘的附加的最先進的LP模型作為基線。我們提供了實驗比較考慮的方法的詳細描述和相關文獻的總結,以及知識圖譜嵌入技術的教育分類。 我們考慮了5個最常用的數據集,以及目前用于基準測試的最流行的指標;我們詳細分析了它們的特點和特性。 對于每個模型,我們為每個數據集提供了效率和有效性的定量結果。 我們在訓練數據中提出一組結構特征,并測量它們如何影響每個模型對每個測試事實的預測性能。

方法概述

在本節中,我們描述并討論了基于潛在特征的知識管理的主要方法。正如在第2節中所描述的,LP模型可以利用各種各樣的方法和架構,這取決于它們如何對優化問題進行建模,以及它們實現來處理優化問題的技術。

為了概述它們高度不同的特征,我們提出了一種新的分類法,如圖1所示。我們列出了三個主要的系列模型,并進一步將它們劃分為更小的組,以獨特的顏色標識。對于每個組,我們都包括最有效的代表性模型,優先考慮那些達到最先進性能的模型,并且在任何可能的情況下,優先考慮那些具有公開可用實現的模型。結果是一組16個模型,基于極其多樣化的架構;這些是我們隨后在比較分析的實驗部分所使用的模型。對于每個模型,我們還報告了發表的年份以及從其他模型得到的信息。我們認為,這種分類有助于理解這些模型和在我們的工作中進行的實驗。表1報告了關于所包括的模型的進一步信息,例如它們的損失函數和空間復雜性。我們確定了三大類模型:1)張量分解模型;2)幾何模型;3)深度學習模型。

張量分解模型

這個家族的模型將LP解釋為一個張量分解的任務。這些模型隱式地將KG考慮為一個三維鄰接矩陣(即一個3維張量),由于KG的不完整性,這個鄰接矩陣只有部分可觀測。張量被分解成低維向量的組合(比如一個多線性乘積):這些向量被用作實體和關系的嵌入表示。張量分解的核心思想是,只要訓練集訓練不過擬合,則學習到的嵌入應該能夠泛化,并將高值與圖鄰接矩陣中不可觀測的真實事實相關聯。在實踐中,每個事實的得分都是通過對事實中涉及的特定嵌入進行組合計算得出的;通過優化所有訓練事實的評分函數,可以像往常一樣進行學習嵌入。這些模型傾向于使用很少或根本沒有共享參數;這使得它們特別容易訓練。

幾何模型

幾何模型將關系解釋為潛在空間的幾何變換。對于給定的事實,頭實體嵌入進行空間轉換τ,使用嵌入的關系作為參數的值。對事實評分的值是結果向量和尾向量之間的距離;這樣則可以使用距離函數計算δ(例如L1和L2范數)。

?

深度學習模型

深度學習模型使用深度神經網絡來執行LP任務。神經網絡學習參數,如權重和偏差,它們結合輸入數據,以識別顯著模式。深度神經網絡通常將參數組織成獨立的層,通常穿插非線性激活函數。

隨著時間的推移,人們開發了許多不同類型的層,對輸入數據應用不同的操作。例如,全連接層將把輸入數據X與權重W結合起來,并添加一個偏差B: W X + B。為了簡單起見,在下面的公式中我們將不提及偏差的使用,使其保持隱式。更高級的層執行更復雜的操作,如卷積層(它學習卷積內核以應用于輸入數據)或遞歸層(以遞歸方式處理順序輸入)。

在LP任務中,通常結合各層的權重和偏差來學習KG嵌入;這些共享的參數使這些模型更有表現力,但可能導致參數更多,更難訓練,更容易過擬合。

付費5元查看完整內容

主題: Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

摘要: 廣義零樣本學習(GZSL)解決了同時涉及可見類和不可見類的實例分類問題。關鍵問題是如何有效地將從可見類學習到的模型轉換為不可見類。GZSL中現有的工作通常假設關于未公開類的一些先驗信息是可用的。然而,當新的不可見類動態出現時,這種假設是不現實的。為此,我們提出了一種新的基于異構圖的知識轉移方法(HGKT),該方法利用圖神經網絡對GZSL、不可知類和不可見實例進行知識轉移。具體地說,一個結構化的異構圖,它是由所見類的高級代表節點構造而成,這些代表節點通過huasstein-barycenter來選擇,以便同時捕獲類間和類內的關系,聚集和嵌入函數可以通過圖神經網絡來學習,它可以用來計算不可見類的嵌入,方法是從它們的內部遷移知識。在公共基準數據集上的大量實驗表明,我們的方法達到了最新的結果。

付費5元查看完整內容

主題: Deep Learning on Knowledge Graph for Recommender System: A Survey

摘要: 最近的研究表明,知識圖譜(KG)在提供有價值的外部知識以改進推薦系統(RS)方面是有效的。知識圖譜能夠編碼連接兩個對象和一個或多個相關屬性的高階關系。借助于新興的GNN,可以從KG中提取對象特征和關系,這是成功推薦的一個重要因素。本文對基于GNN的知識感知深度推薦系統進行了綜述。具體來說,我們討論了最新的框架,重點是它們的核心組件,即圖嵌入模塊,以及它們如何解決實際的推薦問題,如可伸縮性、冷啟動等。我們進一步總結了常用的基準數據集、評估指標以及開源代碼。最后,我們對調查結果進行了總結,并提出了這一快速發展領域的潛在研究方向。

付費5元查看完整內容

圖神經網絡是解決各種圖學習問題的有效的機器學習模型。盡管它們取得了經驗上的成功,但是GNNs的理論局限性最近已經被揭示出來。因此,人們提出了許多GNN模型來克服這些限制。在這次調查中,我們全面概述了GNNs的表達能力和可證明的強大的GNNs變體。

付費5元查看完整內容

In this paper we provide a comprehensive introduction to knowledge graphs, which have recently garnered significant attention from both industry and academia in scenarios that require exploiting diverse, dynamic, large-scale collections of data. After a general introduction, we motivate and contrast various graph-based data models and query languages that are used for knowledge graphs. We discuss the roles of schema, identity, and context in knowledge graphs. We explain how knowledge can be represented and extracted using a combination of deductive and inductive techniques. We summarise methods for the creation, enrichment, quality assessment, refinement, and publication of knowledge graphs. We provide an overview of prominent open knowledge graphs and enterprise knowledge graphs, their applications, and how they use the aforementioned techniques. We conclude with high-level future research directions for knowledge graphs.

題目: Pre-training Tasks for Embedding-based Large-scale Retrieval

摘要:

我們考慮大型查詢文檔檢索問題:給定一個查詢(例如,一個問題),從大型文檔語料庫返回相關文檔集(例如,包含答案的段落)。這個問題通常分兩步解決。檢索階段首先減少解決方案空間,返回候選文檔的子集。然后評分階段重新排列文檔。關鍵是,該檢索算法不僅要求較高的查全率,而且要求具有較高的效率,能夠及時返回與文檔數量成次線性關系的候選對象。不像評分階段,由于交叉注意力模型上的伯特式訓練任務,最近取得了重大進展,檢索階段仍然沒有得到很好的研究。以前的大部分工作依賴于經典的信息檢索(IR)方法,如BM-25(令牌匹配+ TF-IDF權值)。這些模型只接受稀疏的手工特性,不能針對感興趣的不同下游任務進行優化。本文對基于嵌入式的檢索模型進行了全面的研究。我們證明了學習強嵌入式變壓器模型的關鍵是訓練前的任務集。通過充分設計分段級的預訓練任務,變壓器模型比廣泛使用的BM-25模型以及沒有變壓器的嵌入模型有顯著的改進。我們研究的分段式預訓練任務包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的結合。

付費5元查看完整內容

簡介: 在許多將數據表示為圖形的領域中,學習圖形之間的相似性度量標準被認為是一個關鍵問題,它可以進一步促進各種學習任務,例如分類,聚類和相似性搜索。 最近,人們對深度圖相似性學習越來越感興趣,其中的主要思想是學習一種深度學習模型,該模型將輸入圖映射到目標空間,以使目標空間中的距離近似于輸入空間中的結構距離。 在這里,我們提供對深度圖相似性學習的現有文獻的全面回顧。 我們為方法和應用提出了系統的分類法。 最后,我們討論該問題的挑戰和未來方向。

在特征空間上學習足夠的相似性度量可以顯著確定機器學習方法的性能。從數據自動學習此類度量是相似性學習的主要目的。相似度/度量學習是指學習一種功能以測量對象之間的距離或相似度,這是許多機器學習問題(例如分類,聚類,排名等)中的關鍵步驟。例如,在k最近鄰(kNN)中分類[25],需要一個度量來測量數據點之間的距離并識別最近的鄰居;在許多聚類算法中,數據點之間的相似性度量用于確定聚類。盡管有一些通用度量標準(例如歐幾里得距離)可用于獲取表示為矢量的對象之間的相似性度量,但是這些度量標準通常無法捕獲正在研究的數據的特定特征,尤其是對于結構化數據。因此,找到或學習一種度量以測量特定任務中涉及的數據點的相似性至關重要。

付費5元查看完整內容

論文題目: Core techniques of question answering systems over knowledge bases:a survey

論文摘要: 語義網以知識庫的形式包含了大量的信息。為了提供這些信息,在過去的幾年中,許多基于KBs的問答系統被創建出來。在KBs上構建QA系統是困難的,因為有許多不同的挑戰需要解決。為了應對這些挑戰,QA系統通常結合了自然語言處理、信息檢索、機器學習和語義Web等技術。本次調查的目的是概述當前KBs質量保證系統中使用的技術。我們介紹了QA系統所使用的技術,這些技術是在一系列流行的基準上進行評估的:通過鏈接數據進行問答。解決同一任務的技術首先被組合在一起,然后再描述。討論了每種技術的優缺點。這樣可以直接比較類似的技術。此外,我們還指出了在WebQuestions和SimpleQuestions上使用的技術,這是QA系統的另外兩個流行基準。

付費5元查看完整內容
北京阿比特科技有限公司