知識圖譜(KG)嵌入已經成為不完備知識圖譜推理的主流方法,但由于其固有的淺層和靜態架構的限制,難以處理日益受到關注的復雜邏輯查詢,包括邏輯運算符、imputed邊、多源實體和未知中間實體。在這項工作中,我們提出了知識圖譜轉換器(kgTransformer),它具有掩碼的預訓練和微調策略。我們設計了一種KG三重變換方法,使Transformer能夠處理KGs,并通過混合專家(mix -of- experts, MoE)稀疏激活進一步加強了這種方法。然后,我們將復雜的邏輯查詢表述為掩碼預測,并引入兩階段掩碼訓練前策略以提高可移植性和泛化性。在兩個基準測試上的大量實驗表明,kgTransformer在9個域內和域外推理任務上可以始終優于基于KG嵌入的基準和高級編碼器。此外,kgTransformer可以通過提供完整的推理路徑來解釋給定的答案,從而具有可解釋性。
//keg.cs.tsinghua.edu.cn/jietang/publications/KDD22-Liu-et-al-KG-Transformer.pdf
表格是一種非常重要和常見的半結構化數據,廣泛使用在文檔和網頁中。在收集的六千萬個文檔和網頁表格(包括超過二十億單元格)中,微軟亞洲研究院的研究員們首次對通用結構的表格進行了大規模的預訓練。并且在表格結構理解的六個下游數據集上,也都取得 SOTA 的效果。
理解表格面臨著各種挑戰,需要綜合理解語義、空間和結構,如:需要在簡短的單元格文本里來捕捉表格里的語義;需要在二維的表格空間中進行理解;需要對表格的層級信息理解。
Transformer 在自然語言的預訓練上已經取得了較好的效果。但是,針對通用表格位置、結構建模困難等一系列問題,本文相應地提出了 Tree-based Transformer。同時,研究員們還設計了二維樹來建模單元格的空間和層級,并對單元格的二維樹坐標和單元格間的二維樹距離進行了量化,進一步設計了基于二維樹結構的注意力機制。
在表格預訓練任務上,為了可以學習到不同層級的表征,且更好的應用到不同級別的下游任務上,本文除了使用經典的 token MLM 任務,還進一步設計了 cell-level cloze 的任務和 table-level 的 context retrieval 任務。
實驗表明,模型在表格結構理解(表格類型識別和單元格類型識別)的六個下游數據集上均取得了最好的效果。消融實驗也證明了利用樹結構對理解通用結構表格的有效性。同時,結合三個預訓練任務,也有助于提高下游任務的表現。
邏輯查詢是知識圖譜問答系統中一個重要的問題子集。然而,有效地回答大型知識圖譜上的邏輯查詢仍然是一個極具挑戰性的問題。傳統的基于子圖匹配的方法存在底層知識圖譜的噪聲和不完整性等問題,線響應時間長。近年來出現了一種新的方法,其核心思想是將知識圖譜實體和查詢嵌入到一個向量空間中,使答案實體的嵌入與查詢實體的嵌入更加接近。與基于子圖匹配的方法相比,該方法能更好地處理知識圖譜中的噪聲或缺失信息,在線響應速度更快。雖然它可能很有前途,但仍然存在一些基本的限制,包括建模關系的線性轉換假設,以及無法回答具有多個可變節點的復雜查詢。在本文中,我們提出了一種基于嵌入的方法(NewLook)來解決這些限制。我們提出的方法有三個主要優點。首先(適用性),它支持四種類型的邏輯操作,并且可以使用多個變量節點回答查詢。第二(有效性),提出的NewLook超越了線性變換的假設,因此始終優于現有的方法。第三(效率),與基于子圖匹配的方法相比,NewLook在回答查詢方面至少快3倍;與現有的基于嵌入的方法相比,NewLook在線響應時間和離線訓練時間相當甚至更快。
知識圖譜(KGs)是一些真實應用中普遍存在的信息存儲結構,如web搜索、電子商務、社交網絡和生物學。由于KGs的規模和復雜性,查詢KGs仍然是一個基礎性和挑戰性的問題。有希望解決這個問題的方法包括在歐幾里得空間中嵌入KG單位(如實體和關系),這樣嵌入的查詢就包含了與其結果相關的信息。然而,這些方法不能捕獲圖中實體的層次性質和語義信息。此外,這些方法大多只利用多跳查詢(可以通過簡單的翻譯操作建模)來學習嵌入,并忽略更復雜的操作,如交集和更簡單查詢的并集。
為了解決這些復雜的操作,在本文中,我們將KG表示學習表述為一個自我監督的邏輯查詢推理問題,利用KGs上的翻譯、交叉和并查詢。我們提出了一種新的自我監督動態推理框架——雙曲面嵌入(HypE),它利用KG上的一階正存在查詢來學習其實體和關系在Poincaré球中的雙曲面表示。HypE將正面的一階查詢建模為幾何平移、交叉和合并。對于真實數據集中的KG推理問題,所提出的HypE模型顯著優于最先進的結果。我們還將HypE應用于一個流行的電子商務網站產品分類的異常檢測任務,以及分層組織的web文章,并演示了與現有的基線方法相比,顯著的性能改進。最后,我們還將學習到的HypE embeddings可視化在Poincaré球中,以清楚地解釋和理解表征空間。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39