知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰的解決方案。最后,我們總結并討論了一些仍具有挑戰的未來研究方向。
知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。
最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。
近年來,知識圖譜問答在醫療、金融、政務等領域被廣泛應用。用戶不再滿足于關于實體屬性的單跳問答,而是更多地傾向表達復雜的多跳問答需求。為了應對上述復雜多跳問答,各種不同類型的推理方法被陸續提出。系統地介紹了基于嵌入、路徑、邏輯的多跳知識問答推理的最新研究進展以及相關數據集和評測指標,并重點圍繞前沿問題進行了討論。最后總結了現有方法的不足,并展望了未來的研究方向。
近年來,基于圖學習的推薦系統(GLRS)這個新興話題得到了快速發展。GLRS采用高級的圖學習方法來建模用戶的偏好和意圖,以及物品的特征來進行推薦。與其他RS方法(包括基于內容的過濾和協同過濾)不同,GLRS是建立在圖上的,其中重要對象(如用戶、物品和屬性)是顯式或隱式連接的。
隨著圖學習技術的快速發展,探索和開發圖中的同質或異質關系是構建更有效的RS的一個有前途的方向。通過討論如何從基于圖的表示中提取重要的知識,以提高推薦的準確性、可靠性和可解釋性。
首先對GLRS進行了表示和形式化,然后對該研究領域面臨的主要挑戰和主要進展進行了總結和分類。
引言
推薦系統(RS)是人工智能(AI)最流行和最重要的應用之一。它們已被廣泛采用,以幫助許多流行的內容分享和電子商務網站的用戶更容易找到相關的內容、產品或服務。與此同時,圖學習(Graph Learning, GL)是一種新興的人工智能技術,它涉及到應用于圖結構數據的機器學習,近年來發展迅速,顯示出了其強大的能力[Wu et al., 2021]。事實上,得益于這些學習關系數據的能力,一種基于GL的RS范式,即基于圖學習的推薦系統(GLRS),在過去幾年中被提出并得到了廣泛的研究[Guo等人,2020]。在本文中,我們對這一新興領域的挑戰和進展進行了系統的回顧。
動機: 為什么要用圖學習RS?
RS中的大部分數據本質上是一個圖結構。在現實世界中,我們身邊的大多數事物都或明或暗地相互聯系著;換句話說,我們生活在一個圖的世界里。這種特征在RS中更加明顯,這里考慮的對象包括用戶、物品、屬性、上下文,這些對象之間緊密相連,通過各種關系相互影響[Hu et al., 2014],如圖1所示。在實踐中,RS所使用的數據會產生各種各樣的圖表,這對推薦的質量有很大的幫助。
圖學習具有學習復雜關系的能力。作為最具發展前景的機器學習技術之一,GL在獲取嵌入在不同類型圖中的知識方面顯示出了巨大的潛力。具體來說,許多GL技術,如隨機游走和圖神經網絡,已經被開發出來學習特定類型的關系由圖建模,并被證明是相當有效的[Wu et al., 2021]。因此,使用GL來建模RS中的各種關系是一個自然和令人信服的選擇。
圖學習如何幫助RS? 到目前為止,還沒有統一的GLRS形式化。我們通常從高層次的角度對GLRS進行形式化。我們用一個RS的數據構造一個圖G = {V, E},其中對象(如用戶和商品)在V中表示為節點,它們之間的關系(如購買)在E中表示為邊。構建并訓練GLRS模型M(Θ)學習最優模型參數Θ,生成最優推薦結果R。
根據具體的推薦數據和場景,可以以不同的形式定義圖G和推薦目標R,例如,G可以是同質序列或異構網絡,而R可以是對物品的預測評級或排名。目標函數f可以是最大效用[Wang et al., 2019f]或節點之間形成鏈接的最大概率[Verma et al., 2019]。
這項工作的主要貢獻總結如下:
? 我們系統地分析了各種GLRS圖所呈現的關鍵挑戰,并從數據驅動的角度對其進行分類,為更好地理解GLRS的重要特征提供了有用的視角。
? 我們通過系統分類較先進的技術文獻,總結了目前GLRS的研究進展。
? 我們分享和討論了一些GLRS開放的研究方向,供社區參考。
知識圖譜補全是一類重要的問題。近年來基于圖神經網絡的知識圖譜表示得到了很多關注。這邊綜述論文總結了圖神經網絡知識圖譜補全的工作,值得查看!
摘要:知識圖譜在諸如回答問題和信息檢索等各種下游任務中越來越流行。然而,知識圖譜往往不完備,從而導致性能不佳。因此,人們對知識庫補全的任務很感興趣。最近,圖神經網絡被用來捕獲固有地存儲在這些知識圖譜中的結構信息,并被證明可以跨各種數據集實現SOTA性能。在這次綜述中,我們了解所提出的方法的各種優勢和弱點,并試圖在這一領域發現新的令人興奮的研究問題,需要進一步的調研。
知識庫是以關系三元組形式的事實信息的集合。每個關系三元組可以表示為(e1,r,e2),其中e1和e2是知識庫中的實體,r是e1和e2之間的關系。最受歡迎的知識庫表示方式是多關系圖,每個三元組(r e1, e2)是表示為有向邊從e1, e2與標簽r。知識圖譜被用于各種下游任務。
然而,由于知識庫是從文本中自動挖掘來填充的,它們通常是不完整的,因為不可能手動編寫所有事實,而且在提取過程中經常會出現不準確的情況。這種不準確性會導致各種下游任務的性能下降。因此,大量工作開發一種有效的工具來完成知識庫(KBs)方面,它可以在不需要額外知識的情況下自動添加新的事實。這個任務被稱為知識庫補全(或鏈接預測),其目標是解決諸如(e1,r,?)這樣的查詢。
第一種實現高效知識庫補全的方法是像TransE (Bordes et al.(2013))和TransH (Wang et al.(2014))這樣的加法模型,其中關系被解釋為隱藏實體表示的簡單翻譯。然后觀察到,諸如Distmult (Yang et al.(2015))和Complex (Trouillon et al.(2016))等乘法模型優于這些簡單的相加模型。與平移不同,旋轉(Sun等人(2019a))將關系定義為簡單的旋轉,這樣頭部實體就可以在復雜的嵌入空間中旋轉來匹配尾部實體,這已經被證明滿足了很多有用的語義屬性,比如關系的組合性。最近,引入了表達性更強的基于神經網絡的方法(如ConvE (Dettmers等人(2018))和ConvKB(Nguyen等人(2018)),其中評分函數與模型一起學習。然而,所有這些模型都獨立地處理每個三元組。因此,這些方法不能捕獲語義豐富的鄰域,從而產生低質量的嵌入。
圖已被廣泛用于可視化真實世界的數據。在將ML技術應用于圖像和文本方面已經取得了巨大進展,其中一些已成功應用于圖形(如Kipf和Welling(2017)、Hamilton等人(2017)、Velickovic等人(2018)。基于該方法的啟發,許多基于圖神經網絡的方法被提出用于KBC任務中獲取知識圖的鄰域。在這次調查中,我們的目的是研究這些工作。
主題: A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges
摘要: 知識庫(KB)上的問答(QA)旨在通過知識庫中存儲的實體之間結構良好的關系信息自動回答自然語言問題。 為了使KBQA更適用于實際情況,研究人員已將注意力從簡單的問題轉移到復雜的問題,這些問題需要更多的KB三元組和約束推斷。 在本文中,我們介紹了復雜QA的最新進展。 除了依賴模板和規則的傳統方法外,該研究還被歸類為一個分類法,該分類法包含兩個主要分支,即基于信息檢索和基于神經語義解析。 在描述了這些分支機構的方法之后,我們分析了未來研究的方向,并介紹了Alime團隊提出的模型。
zhi