簡介:
了解在線用戶可能要注意的內容是內容推薦和搜索服務的關鍵。這些服務將受益于實體,概念,事件,主題和類別的高度結構化和網絡規模的本體。盡管現有的知識庫和分類法包含大量的實體和類別,但我們認為它們無法以在線人群的語言風格發現適當的概念,事件和主題。在語義之間既沒有保持邏輯結構化的本體,也沒有保持本體。在本文中,我們介紹了GIANT,這是一種以用戶為中心,網絡規模的結構化本體的構建機制,其中包含大量從各種網絡文檔和搜索中提取的符合各種用戶關注的自然語言短語,并構造各種類型的邊緣以維持本體中的層次。GIANT中使用了基于圖神經網絡的技術,并與各種對比實驗進行了比較,評估了所提出的方法。 GIANT制作了Attention Ontology,已將其部署到涉及超過十億用戶的各種騰訊應用程序中。在騰訊QQ瀏覽器上進行的在線A/ B測試表明,Attention Ontology可以大大提高新聞推薦中的點擊率。
有關實體及其關系的真實世界事實的知識庫是各種自然語言處理任務的有用資源。然而,由于知識庫通常是不完整的,因此能夠執行知識庫補全或鏈接預測是很有用的。本文全面概述了用于知識庫完成的實體和關系的嵌入模型,總結了標準基準數據集上最新的實驗結果。
了解在線用戶可能關注的內容是內容推薦和搜索服務的關鍵。這些服務將受益于實體、概念、事件、主題和類別的高度結構化和web級本體。雖然現有的知識庫和分類法包含了大量的實體和類別,但我們認為它們未能以online population的語言風格發現適當粒度的概念、事件和主題。這些概念之間也不存在邏輯結構的本體。在本文中,我們提出GIANT,一種構建一個以用戶為中心的、網絡規模的、結構化的本體論的機制,該本體論包含了大量的自然語言短語,這些短語在不同的粒度上符合用戶的需要,這些短語是從大量的網絡文檔和搜索點擊圖中挖掘出來的。此外,還構造了各種類型的邊來維護本體中的層次結構。我們介紹了在GIANT中使用的基于圖神經網絡的技術,并與各種基線進行了比較,對提出的方法進行了評估。騰訊開發出了注意力本體,并將其應用到騰訊的各種應用中,涉及用戶超過10億。在騰訊QQ瀏覽器上進行的在線A/B測試表明,注意力本體可以顯著提高新聞推薦的點擊率。
Understanding what online users may pay attention to is key to content recommendation and search services. These services will benefit from a highly structured and web-scale ontology of entities, concepts, events, topics and categories. While existing knowledge bases and taxonomies embody a large volume of entities and categories, we argue that they fail to discover properly grained concepts, events and topics in the language style of online population. Neither is a logically structured ontology maintained among these notions. In this paper, we present GIANT, a mechanism to construct a user-centered, web-scale, structured ontology, containing a large number of natural language phrases conforming to user attentions at various granularities, mined from a vast volume of web documents and search click graphs. Various types of edges are also constructed to maintain a hierarchy in the ontology. We present our graph-neural-network-based techniques used in GIANT, and evaluate the proposed methods as compared to a variety of baselines. GIANT has produced the Attention Ontology, which has been deployed in various Tencent applications involving over a billion users. Online A/B testing performed on Tencent QQ Browser shows that Attention Ontology can significantly improve click-through rates in news recommendation.
電子商務平臺的終極目標之一就是滿足客戶的各種購物需求。為了實現這一目標,電子商務中的許多工作都致力于創建分類法或本體。然而,電子商務中的用戶需求仍然沒有得到很好的定義,現有的本體都沒有足夠的深度和廣度來理解普遍的用戶需求。語義上的鴻溝阻礙了購物體驗的智能化。在本文中,我們提出構建一個大型的電子商務認知概念網“AliCoCo”,并在全球最大的中國電子商務平臺阿里巴巴進行實踐。我們正式地定義了電子商務中的用戶需求,然后將其概念化為網絡中的節點。我們將詳細介紹AliCoCo是如何半自動構建的,以及它在電子商務中的成功、持續和潛在應用。
目前信息流推薦中使用的內容理解技術,主要有兩部分構成:1. 門戶時代和搜索時代遺留的技術積累:分類、關鍵詞以及知識圖譜相關技術;2. 深度學習帶來的技術福利:embedding。但是分類對于興趣點刻畫太粗,實體又容易引起推薦多樣性問題,而 embedding 技術又面臨難以解釋的問題。這次主要介紹在信息流推薦中,騰訊是如何做內容理解克服上述問題的。主要包括:
概念體現了世界的知識,促進了人類的認知過程。從web文檔中挖掘概念并構建相應的分類法是文本理解中的核心研究問題,并支持許多下游任務,如查詢分析、知識庫構建、推薦和搜索。然而,我們認為之前的大多數研究都是從Wikipedia或靜態web頁面中提取了正式的和過于一般化的概念,而這些概念并不代表用戶的觀點。本文描述了我們在騰訊QQ瀏覽器中實現和部署概念的經驗。它通過挖掘大量的用戶查詢和交互式搜索單擊日志,在符合用戶興趣的適當粒度上發現以用戶為中心的概念。所提取的概念具有適當的粒度,與用戶語言風格一致,并且是動態更新的。我們進一步介紹了使用以用戶為中心的概念標記文檔的技術,并構建了主題-概念-實例分類,這有助于改進騰訊QQ瀏覽器中的搜索和新聞提要推薦。我們進行了廣泛的離線評估,以證明我們的方法可以提取出比其他幾種現有方法更高質量的概念。我們的系統已經部署在騰訊QQ瀏覽器中。基于大量真實用戶的在線A/B測試結果表明,將以用戶為中心的概念引入騰訊QQ瀏覽器推薦框架后,feed用戶的印象效率提高了6.01%。
講座題目
可擴展可持續知識圖譜構建:Scalable construction of sustainable knowledge bases
講座內容
在工業中采用語義Web技術的一個主要障礙是構建可持續的知識庫;領域專家和終端用戶常常發現語義Web語言和工具很難使用。Reasonable Ontology Templates (OTTR) 是一種語言和框架,允許對RDF/OWL上的建模模式進行簡潔的表示和實例化。它旨在滿足領域專家、拓撲工程師和數據管理人員在創建和維護高質量、可持續知識庫的過程中的需求和專長。本教程適用于渴望在工作中有效地使用建模模式的語義web從業者和拓撲工程師,也適用于業界的信息管理人員。
講座嘉賓
Martin G.Skj?veland是奧斯陸大學和Sirius可伸縮數據訪問中心的研究員,也是合理本體模板的主要開發人員。
Melinda Hodkiewicz,西澳大學教授,是一名從事多學科項目的工程學者,旨在改進維護、資產管理和安全實踐。她目前是英國艾倫圖靈研究所的訪問學者,積極參與維護記錄的本體論和自然語言處理的開發。
Leif Harald Karlsen ,奧斯陸大學的高級講師。他之前曾在天狼星可擴展數據訪問中心擔任總工程師,全職致力于OTTR的實現。
Daniel P.Lupp,是奧斯陸大學(University of Oslo)的博士后研究員,致力于研究在本體規范和維護中使用OTTR的最佳實踐方法。
論文摘要
多路網絡中的節點通過多種類型的關系進行連接。然而,大多數現有的網絡嵌入方法假定只有節點之間存在單一類型的關系。即使對于考慮網絡復用性的人,他們忽略節點屬性,求助于節點標簽進行訓練,并且無法對圖的全局屬性建模。我們提出了一種簡單而有效的無監督網絡嵌入方法,該方法是基于深部圖的自組織網絡,該方法最大限度地利用圖的局部斑塊之間的互信息,以及整個圖的全局表示。我們設計了一個系統的方法來聯合集成來自多個圖的節點嵌入,方法是:1)使用一致正則化框架來最小化關系類型特定的節點嵌入之間的分歧;2)使用通用鑒別器來區分真正的樣本,而不考慮關系類型。我們還表明,注意機制可以推斷每種關系類型的重要性,因此可以作為預處理步驟用于過濾不必要的關系類型。在各種下游任務上的大量實驗表明,盡管DMGI是完全無監督的,但DMGI仍然優于現有的方法。
論文作者
Chanyoung Park1, Donghyun Kim, Jiawei Han1, Hwanjo Yu,伊利諾伊大學香檳分校計算機科學系,韓國浦項科技大學計算機科學與工程系
題目: Uncovering hidden concepts from AIS data: A network abstraction of maritime traffic for anomaly detection
簡介:
船舶自動識別系統(AIS)在多種類型船舶上的強制使用,為海上監視提供了新的機會。AIS應答器是一個豐富的信息源,每個人都可以使用射頻接收器來收集,并提供船舶位置的實時信息。適當利用AIS數據,可以發現潛在的非法行為,提供實時警報,并通知當局任何船只的異常行為。
在本文中,我們擴展現有網絡抽象的海上交通,基于節點(稱為路點)對應于海軍領域長期保持或主要是血管(例如:港口、披風、海上平臺等)和邊(稱為遍歷)對應于兩個連續的路徑點之間的航線船舶緊隨其后。目前的工作集中在這個網絡抽象的連接,并豐富了他們的語義信息,當跨越一個邊緣容器時使用不同的方式。為此提出了一種新的基于密度的聚類算法DB-Scan,該算法修改了算法的鄰近參數(即epsilon)。建議的替代方法是將i)航速、ii)航路及iii)船位的差異串聯起來,以厘定兩個連續船只位置之間的距離(兩個來自同一船只的連續AIS信號)。結果表明,這種組合的性能明顯優于只使用空間距離,更重要的是,結果在集群具有非常有趣的屬性。豐富的網絡模型可以通過數據挖掘技術進行處理和進一步檢查,甚至在無監督的情況下,以識別血管軌跡中的異常。在真實數據集上的實驗結果顯示了該網絡在探測航跡異常點和發現船舶航跡偏差方面的潛力。
邀請嘉賓:
Iraklis Varlamis目前是雅典Harokopio大學信息學和遠程信息學系的副教授,教授的課程有數據庫、數據庫設計、數據挖掘和編程。主要研究興趣是數據庫、數據與信息管理和挖掘,研究重點是語義在web挖掘任務中的應用,研究工作也適用于社交網絡中的知識管理和挖掘。
Konstantinos Tserpes是雅典Harokopio大學Web系統編程技術領域的助理教授,研究重點是面向服務的計算和數據分析。
Many resource allocation problems in the cloud can be described as a basic Virtual Network Embedding Problem (VNEP): finding mappings of request graphs (describing the workloads) onto a substrate graph (describing the physical infrastructure). In the offline setting, the two natural objectives are profit maximization, i.e., embedding a maximal number of request graphs subject to the resource constraints, and cost minimization, i.e., embedding all requests at minimal overall cost. The VNEP can be seen as a generalization of classic routing and call admission problems, in which requests are arbitrary graphs whose communication endpoints are not fixed. Due to its applications, the problem has been studied intensively in the networking community. However, the underlying algorithmic problem is hardly understood. This paper presents the first fixed-parameter tractable approximation algorithms for the VNEP. Our algorithms are based on randomized rounding. Due to the flexible mapping options and the arbitrary request graph topologies, we show that a novel linear program formulation is required. Only using this novel formulation the computation of convex combinations of valid mappings is enabled, as the formulation needs to account for the structure of the request graphs. Accordingly, to capture the structure of request graphs, we introduce the graph-theoretic notion of extraction orders and extraction width and show that our algorithms have exponential runtime in the request graphs' maximal width. Hence, for request graphs of fixed extraction width, we obtain the first polynomial-time approximations. Studying the new notion of extraction orders we show that (i) computing extraction orders of minimal width is NP-hard and (ii) that computing decomposable LP solutions is in general NP-hard, even when restricting request graphs to planar ones.