文檔級關系三元組提取(DocRTE)是信息系統中的一項基礎任務,旨在從文檔中同時提取具有語義關系的實體。現有的方法在很大程度上依賴于大量的完全標記數據。然而,為新興關系收集和注釋數據是耗時且勞動密集的。最近的先進大型語言模型(LLM),如ChatGPT和LLaMA,展示了令人印象深刻的長文本生成能力,激發了我們探索一種獲取帶有新關系的自動標記文檔的替代方法。在本文中,我們提出了一種零樣本文檔級關系三元組提取(ZeroDocRTE)框架,該框架通過從LLM中檢索和去噪知識來生成標記數據,稱為GenRDK。具體來說,我們提出了一種鏈式檢索提示,以引導ChatGPT逐步生成帶標簽的長文本數據。為了提高合成數據的質量,我們提出了一種基于跨文檔知識一致性的去噪策略。利用我們的去噪合成數據,我們繼續對LLaMA2-13B-Chat進行微調,以提取文檔級關系三元組。我們在兩個公共數據集上進行了零樣本文檔級關系和三元組提取的實驗。實驗結果表明,我們的GenRDK框架勝過了強基線方法。
基于文本的分子生成是一項任務,在這項任務中,分子被生成以匹配特定的文本描述。最近,大多數現有的基于SMILES的分子生成方法依賴于自回歸架構。在這項工作中,我們提出了一種新穎的方法——文本引導的分子生成與擴散語言模型(TGM-DLM),該方法利用擴散模型來解決自回歸方法的局限性。TGM-DLM在SMILES字符串中集體和迭代地更新標記嵌入,使用兩階段擴散生成過程。第一階段從隨機噪聲中優化嵌入,由文本描述引導,而第二階段則糾正無效的SMILES字符串以形成有效的分子表示。我們證明了TGM-DLM在不需要額外數據資源的情況下,就超過了自回歸模型MolT5-Base的性能。我們的發現強調了TGM-DLM在生成具有特定屬性的連貫和精確分子方面的卓越有效性,為藥物發現和相關科學領域開辟了新途徑。代碼將在以下地址發布://github.com/Deno-V/tgm-dlm。
視覺信息提取(VIE)在文檔智能領域中扮演著重要角色。通常,它可以分為兩個任務:語義實體識別(SER)和關系抽取(RE)。最近,針對文檔的預訓練模型在 VIE 方面取得了顯著進展,特別是在 SER 領域。然而,大多數現有模型以隱式方式學習幾何表示,這對 RE 任務來說被認為是不夠的,因為幾何信息對 RE 尤為關鍵。此外,我們發現限制 RE 性能的另一個因素在于預訓練階段與 RE 微調階段之間的目標差距。為了解決這些問題,我們在本文中提出了一種用于 VIE 的多模態框架,名為 GeoLayoutLM。GeoLayoutLM 在預訓練階段顯式地對幾何關系進行建模,我們稱之為幾何預訓練。幾何預訓練通過三個專門設計的與幾何相關的預訓練任務來實現。此外,我們精心設計了新穎的關系頭,這些關系頭通過幾何預訓練任務進行預訓練,并針對 RE 進行微調,以豐富和增強特征表示。根據對標準 VIE 基準的廣泛實驗,GeoLayoutLM 在 SER 任務中獲得了非常具有競爭力的分數,并在 RE 任務中顯著優于先前的最先進方法(例如,RE 在 FUNSD 上的 F1 分數從 80.35% 提高到 89.45%)。
//www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db
深度圖神經網絡(Deep graph neural networks, GNNs)能夠很好地表達圖結構數據的建模。然而,深度圖模型的過載架構使得其難以在移動或嵌入式系統上部署和快速測試。為了壓縮重疊的GNN,通過師生架構進行知識蒸餾是一種有效的技術,其中的關鍵步驟是用預定義的距離函數測量教師和學生網絡之間的差異。然而,對各種結構的圖使用相同的距離可能是不合適的,最優距離公式難以確定。為了解決這些問題,我們提出了一種新的對抗性知識蒸餾框架,命名為GraphAKD,它對抗性訓練一個鑒別器和一個生成器,自適應檢測和減少差異。特別地,注意到良好捕獲的節點間和類間相關性有利于深度GNN的成功,我們提出使用可訓練的鑒別器來批判從節點級和類級視圖繼承的知識。鑒別器區分老師的知識和學生繼承的知識,而學生GNN作為生成器,目的是欺騙鑒別器。據我們所知,GraphAKD是第一個將對抗性訓練引入到圖領域知識蒸餾的系統。在節點級和圖級分類基準上的實驗表明,GraphAKD在很大程度上提高了學生的表現。結果表明,GraphAKD能夠準確地將知識從復雜的教師GNN傳遞到緊湊的學生GNN。
//arxiv.org/pdf/2205.11678.pdf
深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。
目標檢測在過去的十年中取得了長足的進步。然而,利用少樣本檢測新類仍然具有挑戰性,因為在低數據環境下的深度學習通常會導致特征空間的退化。現有的研究都采用了整體的微調范式來解決這個問題,即首先對模型進行大量樣本的所有基類的預訓練,然后用它來學習新的類特征空間。盡管如此,這種范式仍然是不完美的。在微調過程中,一個新類可能會隱式地利用多個基類的知識來構造其特征空間,導致特征空間分散,違反類間的可分離性。為了克服這些障礙,我們提出了一種兩步微調的框架,即關聯與識別的少樣本目標檢測(FADI),該框架采用兩步整合的方法為每個新類建立判別特征空間。1) 在關聯步驟中,與隱式利用多個基類不同,我們通過顯式模擬一個特定的基類特征空間來構造一個緊湊的新類特征空間。具體來說,我們根據每個新類的語義相似度將它們與基類關聯起來。之后,新類的特征空間可以很容易地模仿相關基類的經過良好訓練的特征空間。2)在判別步驟中,為了保證新類和相關基類之間的可分離性,我們對基類和新類的分類分支進行解糾纏。為了進一步擴大各類別間的可分性,引入了一個集合化的保證金損失。在Pascal VOC和MS-COCO數據集上的大量實驗表明,FADI實現了新的SOTA性能,在任何鏡頭/分割中顯著提高了18.7的基線。值得注意的是,這種優勢是在極少的場景中體現出來的。
可學習知識引導的事件因果關系識別數據增強方法
事件因果關系識別(Event Causality Identification, ECI)旨在識別文本中事件之間的因果關系,可以為許多自然語言處理任務提供重要線索,如邏輯推理、問答系統等。ECI任務通常被建模為一個分類問題,即識別一個句子中兩個事件之間是否存在因果關系。
目前大多數ECI方法采用監督學習的范式。雖然這些方法取得了很好的性能,但通常需要大規模的標注訓練數據。然而,現有的事件因果關系識別數據集相對較少。小規模的標注數據集阻礙了高性能事件因果關系識別模型的訓練,無法提供充足的訓練數據支撐模型準確理解文本中的事件關系語義。
本文探索了一個知識融合的數據增強方法,利用大量抽取的因果相關事件生成新訓練數據,解決ECI任務訓練數據缺失問題。該方法包含兩個框架,知識增強的事件因果關系數據自動標注框架和知識引導的事件因果關系數據生成框架。其中,知識引導的事件因果關系數據生成框架(Learnable Data Augmentation framework, LearnDA),利用對偶學習機制,將事件因果關系識別器和數據生成器對偶約束,從識別過程中學習如何生成任務相關的新數據,從生成過程中學習如何更準確地理解因果語義,生成高質量表達事件因果語義的新訓練數據。
知識圖譜(KG)是一種靈活的結構,能夠描述數據實體之間的復雜關系。目前,大多數KG嵌入模型都是基于負采樣進行訓練的,即模型的目標是最大限度地增加KG內被連接實體的某些相似度,同時最小化被采樣的斷開實體的相似度。負抽樣通過只考慮負實例的子集,降低了模型學習的時間復雜度,這可能會由于抽樣過程的不確定性而無法提供穩定的模型性能。為了避免這一缺陷,我們提出了一種新的KG嵌入高效非采樣知識圖譜嵌入框架(NS-KGE)。其基本思想是在模型學習中考慮KG中的所有負面實例,從而避免負面抽樣。框架可應用于基于平方損失的知識圖譜嵌入模型或其損失可轉換為平方損失的模型。這種非抽樣策略的一個自然副作用是增加了模型學習的計算復雜度。為了解決這一問題,我們利用數學推導來降低非采樣損失函數的復雜度,最終為我們提供了比現有模型更好的KG嵌入效率和精度。在基準數據集上的實驗表明,NS-KGE框架在效率和準確率方面均優于傳統的基于負采樣的模型,該框架適用于大規模知識圖譜嵌入模型。
時序知識圖譜推理是信息檢索和語義搜索的關鍵任務。當TKG頻繁更新時,這是特別具有挑戰性的。該模型必須適應TKG的變化,以便進行有效的訓練和推理,同時保持其對歷史知識的表現。最近的工作通過增加一個時間感知編碼函數來實現TKG補全(TKGC)。然而,使用這些方法在每個時間步驟中直接微調模型并不能解決以下問題:1)災難性遺忘;2)模型不能識別事實的變化(例如,政治派別的變化和婚姻的結束);3)缺乏訓練效率。為了解決這些挑戰,我們提出了時間感知增量嵌入(TIE)框架,該框架結合了TKG表示學習、經驗回放和時間正則化。我們引入一組度量標準來描述模型的不妥協性,并提出一個約束,將刪除的事實與負面標簽相關聯。在Wikidata12k和YAGO11k數據集上的實驗結果表明,本文提出的TIE框架減少了大約10倍的訓練時間,并在提出的指標上有所改進。對于任何傳統的度量方法,它都不會造成性能上的重大損失。廣泛的消融研究揭示了不同評估指標之間的性能權衡,這對于真實世界的TKG應用的決策是至關重要的。
知識圖譜(KGs)是一些真實應用中普遍存在的信息存儲結構,如web搜索、電子商務、社交網絡和生物學。由于KGs的規模和復雜性,查詢KGs仍然是一個基礎性和挑戰性的問題。有希望解決這個問題的方法包括在歐幾里得空間中嵌入KG單位(如實體和關系),這樣嵌入的查詢就包含了與其結果相關的信息。然而,這些方法不能捕獲圖中實體的層次性質和語義信息。此外,這些方法大多只利用多跳查詢(可以通過簡單的翻譯操作建模)來學習嵌入,并忽略更復雜的操作,如交集和更簡單查詢的并集。
為了解決這些復雜的操作,在本文中,我們將KG表示學習表述為一個自我監督的邏輯查詢推理問題,利用KGs上的翻譯、交叉和并查詢。我們提出了一種新的自我監督動態推理框架——雙曲面嵌入(HypE),它利用KG上的一階正存在查詢來學習其實體和關系在Poincaré球中的雙曲面表示。HypE將正面的一階查詢建模為幾何平移、交叉和合并。對于真實數據集中的KG推理問題,所提出的HypE模型顯著優于最先進的結果。我們還將HypE應用于一個流行的電子商務網站產品分類的異常檢測任務,以及分層組織的web文章,并演示了與現有的基線方法相比,顯著的性能改進。最后,我們還將學習到的HypE embeddings可視化在Poincaré球中,以清楚地解釋和理解表征空間。
異構網絡的表示學習方法為每個節點產生一個低維向量嵌入,通常在所有涉及節點的任務中都是固定的。許多現有的方法關注于以一種與下游應用程序無關的方式獲取節點的靜態向量表示。然而,在實踐中,下游任務(如鏈接預測)需要特定的上下文信息,這些信息可以從與節點相關的子圖中提取出來,作為任務的輸入。為了解決這一挑戰,我們提出了SLiCE,這是一個使用整個圖的全局信息和局部注意驅動機制來學習上下文節點表示的靜態表示學習方法的框架。我們首先通過引入高階語義關聯和屏蔽節點以自監督的方式預訓練我們的模型,然后針對特定的鏈接預測任務微調我們的模型。我們不再通過聚合所有通過元路徑連接的語義鄰居的信息來訓練節點表示,而是自動學習不同元路徑的組合,這些元路徑表征了特定任務的上下文,而不需要任何預先定義的元路徑。SLiCE在幾個公開可用的基準網絡數據集上顯著優于靜態和上下文嵌入學習方法。通過廣泛的評價,我們也證明了上下文學習的可解釋性、有效性和SLiCE的可擴展性。