了解在線用戶可能關注的內容是內容推薦和搜索服務的關鍵。這些服務將受益于實體、概念、事件、主題和類別的高度結構化和web級本體。雖然現有的知識庫和分類法包含了大量的實體和類別,但我們認為它們未能以online population的語言風格發現適當粒度的概念、事件和主題。這些概念之間也不存在邏輯結構的本體。在本文中,我們提出GIANT,一種構建一個以用戶為中心的、網絡規模的、結構化的本體論的機制,該本體論包含了大量的自然語言短語,這些短語在不同的粒度上符合用戶的需要,這些短語是從大量的網絡文檔和搜索點擊圖中挖掘出來的。此外,還構造了各種類型的邊來維護本體中的層次結構。我們介紹了在GIANT中使用的基于圖神經網絡的技術,并與各種基線進行了比較,對提出的方法進行了評估。騰訊開發出了注意力本體,并將其應用到騰訊的各種應用中,涉及用戶超過10億。在騰訊QQ瀏覽器上進行的在線A/B測試表明,注意力本體可以顯著提高新聞推薦的點擊率。
簡介:
了解在線用戶可能要注意的內容是內容推薦和搜索服務的關鍵。這些服務將受益于實體,概念,事件,主題和類別的高度結構化和網絡規模的本體。盡管現有的知識庫和分類法包含大量的實體和類別,但我們認為它們無法以在線人群的語言風格發現適當的概念,事件和主題。在語義之間既沒有保持邏輯結構化的本體,也沒有保持本體。在本文中,我們介紹了GIANT,這是一種以用戶為中心,網絡規模的結構化本體的構建機制,其中包含大量從各種網絡文檔和搜索中提取的符合各種用戶關注的自然語言短語,并構造各種類型的邊緣以維持本體中的層次。GIANT中使用了基于圖神經網絡的技術,并與各種對比實驗進行了比較,評估了所提出的方法。 GIANT制作了Attention Ontology,已將其部署到涉及超過十億用戶的各種騰訊應用程序中。在騰訊QQ瀏覽器上進行的在線A/ B測試表明,Attention Ontology可以大大提高新聞推薦中的點擊率。
電子商務平臺的終極目標之一就是滿足客戶的各種購物需求。為了實現這一目標,電子商務中的許多工作都致力于創建分類法或本體。然而,電子商務中的用戶需求仍然沒有得到很好的定義,現有的本體都沒有足夠的深度和廣度來理解普遍的用戶需求。語義上的鴻溝阻礙了購物體驗的智能化。在本文中,我們提出構建一個大型的電子商務認知概念網“AliCoCo”,并在全球最大的中國電子商務平臺阿里巴巴進行實踐。我們正式地定義了電子商務中的用戶需求,然后將其概念化為網絡中的節點。我們將詳細介紹AliCoCo是如何半自動構建的,以及它在電子商務中的成功、持續和潛在應用。
作者:Jiaming Shen, Zhihong Shen, Chenyan Xiong, Chi Wang, Kuansan Wang, Jiawei Han
摘要:本體結構(Taxonomies)由機器可解釋的語義組成,并為許多Web應用程序提供有價值的知識。例如,在線零售商(亞馬遜和eBay)使用本體結構進行產品推薦,而網絡搜索引擎(Google和Bing)利用本體結構來增強查詢理解。當前我們在人工或半自動地構建本體結構方面已經做出了巨大的努力。然而,隨著網絡內容數量的快速增長,現有的本體結構無法捕捉到新興的知識。因此,在許多應用程序中,十分需要對現有本體結構進行動態擴展。在本文中,我們研究了如何通過添加一組新的概念來擴展現有的本體結構。我們提出了一種新的自監督框架TaxoExpanTM,該框架從已有的本體結構中自動生成一組 ?query concept, anchor concept ? 對作為訓練數據。使用這樣的自監督數據,TaxoExpanTM學習一個模型來預測query concept是否是 anchor concept的直接下義詞。我們在TaxoExspan中提出了兩種創新技術:(1)位置增強型圖形神經網絡,它編碼現有本體結構中anchor concept的局部結構;2)噪聲魯棒性訓練目標,使學習的模型能夠對自監控數據中的標簽噪聲不敏感。在來自不同領域的三個大規模數據集上的廣泛實驗證明了TaxoExspan在分類系統擴展方面的有效性和高效性。
目前信息流推薦中使用的內容理解技術,主要有兩部分構成:1. 門戶時代和搜索時代遺留的技術積累:分類、關鍵詞以及知識圖譜相關技術;2. 深度學習帶來的技術福利:embedding。但是分類對于興趣點刻畫太粗,實體又容易引起推薦多樣性問題,而 embedding 技術又面臨難以解釋的問題。這次主要介紹在信息流推薦中,騰訊是如何做內容理解克服上述問題的。主要包括:
概念體現了世界的知識,促進了人類的認知過程。從web文檔中挖掘概念并構建相應的分類法是文本理解中的核心研究問題,并支持許多下游任務,如查詢分析、知識庫構建、推薦和搜索。然而,我們認為之前的大多數研究都是從Wikipedia或靜態web頁面中提取了正式的和過于一般化的概念,而這些概念并不代表用戶的觀點。本文描述了我們在騰訊QQ瀏覽器中實現和部署概念的經驗。它通過挖掘大量的用戶查詢和交互式搜索單擊日志,在符合用戶興趣的適當粒度上發現以用戶為中心的概念。所提取的概念具有適當的粒度,與用戶語言風格一致,并且是動態更新的。我們進一步介紹了使用以用戶為中心的概念標記文檔的技術,并構建了主題-概念-實例分類,這有助于改進騰訊QQ瀏覽器中的搜索和新聞提要推薦。我們進行了廣泛的離線評估,以證明我們的方法可以提取出比其他幾種現有方法更高質量的概念。我們的系統已經部署在騰訊QQ瀏覽器中。基于大量真實用戶的在線A/B測試結果表明,將以用戶為中心的概念引入騰訊QQ瀏覽器推薦框架后,feed用戶的印象效率提高了6.01%。
awesome-taxonomy