眾包數據庫關鍵技術研究
眾包通過整合計算機和互聯??眾來完成機器難以單獨處理的任務,其主要 包含三部分,任務發布者、眾包平臺和眾包??。傳統眾包技術中,三者的交互流 程過于復雜,導致任務發布者?法很好地管理任務。因此,眾包數據庫應運??, 其從系統層?出發整合三者之間復雜的交互流程,使得任務發布者可以通過描述 性語?輕松利???操作數據,降低了眾包的使?門檻。本?主要的內容如下:
眾包數據庫 CDB:為解決眾包平臺難使?、眾包任務難優化、眾包?? 質量難控制等問題,需要通過數據庫的思想來封裝眾包任務處理的流程。與傳統 數據庫不同的是,眾包數據庫的難點不僅在于解決單??標優化問題 (僅優化代 價),更重要的是建?細粒度的查詢優化模型,實現代價、質量和延遲的多?標優 化。因此,本?提出了?種新型的眾包數據庫系統 CDB 。不同于傳統的樹優化模 型,CDB ?次提出利?圖模型來進?細粒度查詢優化。其次,CDB 在該模型上建 ?統?的框架來進?多?標優化。該系統致?于幫助用戶高效率、高質量、低成 本地利用眾包來處理數據, 構建了一個中文眾包平臺 ChinaCrowd, 在華為公司落地 應用,取得了較好的經濟收益。另外,為?持較復雜的連接操作(基于記錄或者? 連接)與收集操作,本?分別提出了以下兩種算法框架對它們進?步優化。
基于眾包的連接操作:為解決現實世界中臟數據的復雜連接問題,需要引 ?基于眾包的連接操作。其難點在于代價較?,?尋求低代價?案時往往帶來質 量的降低。為此,本?提出?種低代價的眾包實體匹配框架 Power,在保持?質量 的同時??降低代價。本??先在待連接的記錄對上定義了?種偏序關系,然后 基于該關系對眾包??的回答進?推理,接下來循環提問直到所有記錄對的答案 都被推理出來。該方法致力于從理論和實踐兩方面優化眾包成本,實驗表明相比 于其他方法,Power 可在節省高達 100 倍的成本下進行高質量的數據連接。
基于眾包的收集操作:為解決傳統數據庫不能處理數據庫以外數據的特點, 眾包數據庫需要引?收集操作,其旨在通過眾包收集數據庫中缺失的實體。其難 點在于如何保證收集實體的正確性;如何盡可能收集相關領域的全部實體;如何 減少重復實體的數量以減少代價。為此,本?提出了基于激勵機制的眾包實體收 集框架 CrowdEC,其采?激勵的?式?勵??提供不重復的實體以降低代價。該 方法致力于建立收集操作的質量評價體系,從理論上給出了收集代價的競爭比保 證,使得用戶可實現低成本、高質量、高覆蓋的收集。
非易失內存系統中的寫優化和持久化技術研究
現代處理器的多核化發展趨勢和大量數據密集型應用的出現,使得計算機對高 容量主存的需求越來越迫切。現代計算機主存的主要存儲介質是 DRAM (dynamic random access memory)。但是,由于在存儲單元擴展和能耗效率方面的局限性, DRAM 很難做到更大的容量。新型的非易失內存(non-volatile memory,NVM)可 以有效地避免 DRAM 中存在的存儲單元擴展和能耗效率問題,從而被考慮作為下一 代主存的主要存儲介質。但是,現代的計算機系統都是面向傳統的 DRAM 主存設計 和優化的,在當前的計算機系統中使用 NVM 面臨著寫優化和數據持久化兩方面的 挑戰。在寫優化方面,由于 NVM 都是通過改變存儲介質的物理狀態來存儲數據的, 物理存儲單元被復寫一定次數后會失效而具有有限的寫耐久性,如何對 NVM 做有 效的寫優化處理來提升其耐久性和性能是關鍵;在持久化方面,NVM 系統中的數 據從 CPU 寫入到主存時就需要做數據持久化處理,如何使用有效的持久化技術來保 證數據的正確持久化和故障時的一致性是關鍵。另外,在一些應用場景如端設備上, NVM 主存還面臨著安全性問題,這是因為 NVM 在系統關機后依然保存著數據而 產生數據殘留,因此需要在 NVM 上使用內存加密。本文分別對非加密和加密 NVM 面臨的寫優化和持久化挑戰展開研究并提出有效的解決方案。
為了提升非加密 NVM 的寫耐久性,提出了一個面向 NVM 的寫優化數據組織 結構 Path Hashing。Path Hashing 是一個基于哈希的數據結構,使用了一個新的寫優 化哈希沖突處理方法,即位置共享,使得哈希數據結構中的插入和刪除操作不會產 生額外的 NVM 寫。通過進一步使用雙路徑哈希和路徑縮減技術,Path Hashing 可以 在哈希表空間利用率和請求延遲方面獲得高的性能。實驗結果表明,Path Hashing 不 會造成額外的 NVM 寫從而提升了 NVM 的耐久性,并可以達到 95% 以上的哈希表 空間利用率,與現有哈希表方法相比也實現了更低的請求延遲。
為了保證非加密 NVM 中數據的正確持久化和一致性,提出了一個面向 NVM 的持久化數據組織結構 Level Hashing。Level Hashing 在實現寫優化和降低開銷的同。時,可以保證 NVM 中哈希數據結構故障時的數據一致性并且支持高效地擴容操作。Level Hashing 提出了一個基于共享的兩層哈希表,它的搜索、插入、刪除和更新操 作在最差情況下具有常數級的時間復雜度,且很少產生額外的 NVM 寫。為了低開 銷地保證數據一致性,Level Hashing 對插入、刪除和擴容操作實現了免日志的一致 性保證。為了高效地擴容哈希表,Level Hashing 提出了一個原地擴容技術,這種方 法只需要重新哈希 1/3 的哈希桶而不是整個哈希表就可以完成擴容,從而顯著減少 了重哈希的桶數并提高了擴容性能。實驗結果顯示,與現有最好的哈希數據結構相 比,Level Hashing 獲得了 1.4 ? 3 倍的插入加速比、1.2 ? 2.1 倍的更新加速比和 4.3 倍的擴容加速比。
為了提升加密 NVM 的寫耐久性,提出了一個面向加密 NVM 的寫優化內存架 構 DeWrite。DeWrite 使用內存加密機制來保證 NVM 中的數據安全,并通過消除重 復的內存寫來提升 NVM 的使用壽命和運行性能。DeWrite 提出了一個輕量級內存行 粒度的數據去重技術來解決在加密 NVM 上執行低延遲的在線去重的挑戰,并提出 操作并行和元數據共享策略來高效整合數據去重和內存加密技術,以提高系統的時 間和空間效率。實驗結果顯示,和傳統的加密 NVM 方案相比,DeWrite 減少了平均 54% 的 NVM 寫操作數量。同時,DeWrite 對加密 NVM 中的內存讀操作和寫操作分 別加速了 3.1 倍和 4.2 倍,且減少了 40% 的能耗開銷。
為了保證加密 NVM 中數據的正確持久化和一致性,提出了一個面向加密 NVM 的持久化內存架構 SuperMem。SuperMem 是基于直寫式計數器 cache 的持久化技術, 有效地避免了現有基于寫回式計數器 cache 的持久化技術在備用電池的使用、可移 植性和恢復延遲等方面的問題。為了減少直寫式計數器 cache 帶來的額外的性能開 銷,SuperMem 采用了一個局部性感知的計數器寫聚合方法,通過探索計數器存儲 和數據寫分布的空間局部性來減少寫請求的數量;并采用了一個跨 bank 的計數器存 儲方法來高效地分發數據和計數器寫到不同的 bank 上,利用 bank 的訪問并行性來 加速內存寫。實驗結果顯示,SuperMem 使用計數器寫聚合方法減少了高達 50% 的 寫操作數量,使用跨 bank 的計數器存儲方法提升了最高 2 倍的系統運行性能。
多層圖分析技術研究
近年來,越來越多的領域都使用“圖”來表示和管理數據,稱為“圖數據”。針對 圖數據的分析可以發現其中的結構特征、頻繁模式、演變規律等有用的知識,具有 重要的科研意義和應用價值。隨著研究的深入,人們發現現實世界的圖數據往往 包含數據對象間多種類型的關系。例如,社交網絡數據包括多個社交媒體組成的 網絡;交通網絡數據涵蓋了多種交通工具組成的網絡。這種圖數據稱為“多層圖”, 其每一層包含了數據對象間某種特定類型的關系。
多層圖分析可以發現準確可靠、價值更高的知識。然而,多層圖分析面臨兩 方面的挑戰:一方面,單層圖上的計算語義在多層圖場景下不再適用,多層圖上 的計算語義更加復雜;另一方面,多層圖分析涉及多個圖層上的計算任務,使得 問題的固有計算復雜性大大增加。現有的多層圖分析方法在計算語義和算法設計 兩個方面都存在缺陷,不能很好的解決多層圖分析的有關問題。
本文綜合運用數據分析的相關理論、技術和方法,對于多層圖分析進行了系統研究。本文同時考慮了無概率的普通多層圖和帶概率的多層圖,從圖數據的稠 密性、可靠性、傳播性和相似性四方面重要性質出發,對多層圖分析領域中的一 系列重要問題進行了深入研究,主要研究成果如下:
本文研究了多層圖上的多樣化稠密區域發現問題,該問題在生物蛋白復合 體檢測和社區發現上具有重要應用。在無概率的普通多層圖模型基礎上,本文提 出了一種新的稠密區域概念 d-Coherent-Core(簡稱 d-CC),設計了兩種近似比為 1/4 的高效搜索算法來求解該 NP-難問題,算法在結果質量和執行時間兩個方面 均優于基于準團的傳統算法。d-CC 概念同時刻畫了稠密區域的稠密度和支持度兩 方面重要特性,滿足唯一性、包含性和層次性 3 個重要數學性質。自底向上和自 頂向下兩種搜索算法采用了高效的搜索策略和剪枝方法,分別適用于支持度參數 較小和較大兩種情況。真實數據上的實驗結果表明:自底向上和自頂向下兩種搜 索算法是高效、準確的。
本文研究了多層圖上的 top-k 可靠頂點搜索問題,該問題在通信網絡中具 有重要的研究意義,相比基于閾值的搜索問題自適應性更好。本文給出了一種圖 層帶概率的多層圖模型,提出了一種新的多層圖計算框架——共享計算,其可以 有效利用多層圖不同圖層間的重疊結構以減少搜索代價、提高算法效率。基于此,本文設計了求解 top-k 可靠頂點搜索問題的共享 BFS 精確算法和隨機算法。真實 數據上的實驗結果表明:共享 BFS 精確算法具有很高的效率和擴展性;共享 BFS 隨機算法具有很高的準確率。
本文研究了多層圖上的影響力最大化問題,該問題在病毒式營銷和輿情控 制中應用廣泛。為描述影響力最大化問題中的圖數據,本文給出了一種帶概率的 多層圖模型,其可以表示由于邊的不確定性而形成的多層圖。針對已有算法的缺 陷,本文設計了一種能夠同時達到高時間效率、高結果質量、低內存開銷和高健 壯性的影響力最大化算法,具有線性的時間和空間復雜度。該算法采用高質量的 分數估計方法和增量式的分數更新方法,在實際社交網絡中表現出良好的性能和 很高的擴展性。
本文研究了多層圖上 SimRank 頂點相似性測度問題,該問題是推薦系統、 實體識別等眾多應用的基礎。在帶概率的多層圖模型基礎上,本文嚴格給出了符 合其可能世界語義的 SimRank 相似性測度定義,設計了高效、準確的計算頂點間 SimRank 相似性的方法。同時,作為 SimRank 相似性測度的基礎,本文提出了多 層圖上隨機游走的定義,嚴格證明了這一定義滿足馬爾可夫性,設計了計算隨機 游走概率的高效算法。真實數據上的實驗結果表明:本文提出的 SimRank 算法是 高效、準確的;本文提出的 SimRank 測度比傳統測度在實際應用中效果更好。
搜索引擎中的實體推薦關鍵技術研究
搜索引擎是獲取信息的重要工具。近年來,為了更好地滿足用戶的信息獲取 需求,搜索引擎從最初只能被動地根據查詢返回相關網頁,逐步改進到能夠主動 地根據查詢提供相關信息推薦。實體推薦,即以實體為粒度進行信息推薦,是其 中推薦粒度最細且信息量最豐富的一種信息推薦形式。實體推薦旨在為用戶提供 與其查詢存在直接或間接關系的實體列表,能夠幫助用戶拓展知識面,因而越來 越受到用戶的歡迎。因此,實體推薦不僅成為現代搜索引擎必不可少的功能之一, 也正成為學術界重視的研究問題。
在搜索引擎實體推薦系統中,不僅需要為用戶提供與其查詢相關的實體推薦 結果,還需要對實體推薦結果進行恰當且合理的解釋以幫助用戶更好地理解推薦 結果。相應地,搜索引擎中的實體推薦研究主要包含以下兩個方面:(1)實體推薦算法,其目標是獲取與查詢相關的實體集合并對其進行排序;(2)實體推薦的可 解釋性,其目標是為實體推薦結果生成推薦理由,以提升推薦結果的可信度。針 對上述問題,本文研究了實體推薦算法的改進以及推薦理由的生成兩個方面的關 鍵技術,具體包括:(1)適用于搜索引擎的大規模實體推薦算法,以及基于上下文 優化實體推薦算法的具體策略;(2)實體對推薦理由的識別,以及實體推薦理由 的生成。本研究的主要內容包括以下幾個方面:
1. 基于排序學習與信息新穎性增強的實體推薦。構建適用于搜索引擎的大規 模實體推薦系統主要面臨以下 4 個挑戰:查詢與實體規模龐大、查詢的領域無關 性、用戶實體點擊數據極其稀疏以及很難為用戶推薦具有信息新穎性的實體。針 對上述挑戰,本文提出了一種基于排序學習框架的實體推薦算法,并圍繞信息新 穎性設計了相關特征與優化目標。一方面可以靈活地對召回與排序進行分階段優 化,另一方面可以直接基于查詢并面向信息新穎性構建多種粒度的排序特征,進 而能針對不同用戶偏好以及任何類型的查詢,為用戶提供個性化且兼具信息新穎 性的實體推薦結果,因此能夠大幅顯著提升實體推薦效果以及用戶參與度。
2. 基于深度多任務學習的上下文相關實體推薦。針對目前實體推薦方法普遍 忽略上下文信息以及上下文相關實體點擊數據存在數據稀疏問題,本文提出了一 種基于深度多任務學習的上下文相關實體推薦模型。一方面可以借助于上下文相 關文檔排序這一輔助任務中的大規模多任務交叉數據,另一方面可以基于多任務 學習來實現知識遷移,進而有效緩解數據稀疏問題并提升實體推薦結果的相關性,因此能夠顯著提升推薦效果。
3. 基于卷積神經網絡的實體對推薦理由識別。當推薦實體與查詢實體之間存 在確定的實體關系時,將能夠翔實地描述該實體對之間的關系的句子作為推薦理 由(簡稱為實體對推薦理由)展現給用戶,可以幫助用戶理解兩個實體間的關系, 從而提升推薦結果的可信度。目前的實體對推薦理由識別方法嚴重依賴于人工標 注的數據集以及人工設計的排序特征,從而導致識別出的實體對推薦理由的質量 較低。針對上述問題,本文提出了一種基于卷積神經網絡的實體對推薦理由識別 方法。一方面可以借助于搜索引擎點擊日志自動構建大規模訓練數據,另一方面 可以通過卷積神經網絡自動學習排序特征,進而顯著提升排序效果并帶來實體對 推薦理由質量的顯著提升。
4. 基于機器翻譯模型的實體推薦理由生成。當推薦實體與查詢之間不存在可 歸類的關系時,將能夠刻畫推薦實體特點的簡短描述作為推薦理由(簡稱為實體 推薦理由)展現給用戶,可以幫助用戶理清當前實體與查詢間的關聯,從而提升 推薦結果的可信度。然而,前人在實體推薦理由生成研究上鮮有涉獵。為此,本文 提出了基于機器翻譯模型的實體推薦理由生成方法,尤其是提出了一種由實體信 息指導的基于序列到序列學習的實體推薦理由生成模型。一方面可以有效識別并 保留源句子中的重要信息,另一方面可以指引模型生成與實體相關的結果,從而 能夠生成質量更高的實體推薦理由。
在應用方面,上述研究成果已在百度搜索引擎得到了大規模應用,取得了重 大的經濟效益和社會效益,并獲得了 2017 年中國電子學會科技進步一等獎。
現如今,很多數據處理與分析的任務僅僅依靠機器算法難以達到理想的效果。因此,眾包技術應 運而生,其利用群體的智慧來解決對計算機比較難的問題。其中,眾包平臺(例如 Amazon Mechanical Turk)為眾包技術的應用提供了有力的支撐。平臺上有成千上萬的網絡大眾來為任務發布者解決問題。然 而,對于任務發布者來說與眾包平臺交互是不方便的,因為平臺會要求任務發布者設置很多參數甚至書 寫代碼。所以研究者們借鑒傳統數據庫的思想,提出了眾包數據庫的概念,其封裝了任務發布者、眾包 平臺以及眾包工人之間的復雜交互過程,為發布者提供友好的API。使發布者可以通過簡單的類SQL語言 與平臺交互。在這篇綜述中,我們首先介紹眾包的概念;然后介紹設計眾包數據庫時需考慮的一些基本 技術例如真值推理、任務分配,代價優化等;接著我們介紹幾種主流的眾包數據庫系統。此外,我們會 介紹對于不同的數據庫算子包括選擇、連接、排序等的優化技術。最后我們會介紹該領域未來的研究方 向與挑戰。
論文摘要:圖數據上的查詢處理(如最短路徑查詢、可達查詢、關鍵字查詢等)是數據庫領域最基礎的問題之一。本文從用戶在不同實際應用場景下的需求入手進行分析,進行合理的建模,并提出了有針對性的高效查詢處理算法。
關鍵詞:大規模圖數據,查詢處理,最短路徑查詢,可達查詢,關鍵字查詢,事件參與;規劃查詢
作者介紹:成雨蓉,女,1989年8月生于遼寧省沈陽市。2008年考入東北大學,于信息學院計算機科學與技術專業攻讀本科。本科期間曾任信息學院團委副書記,并多次獲得國家、命名及校級獎學金,榮獲校級、市級優秀學生等稱號。2012年本科畢業后,獲得直博名額,在計算機科學與工程學院王國仁教授的指導下攻讀博士學位。
論文摘要:圖數據的處理在各個領域都有?泛的應?。隨著圖數據規模的擴?和對處理能?要求的提升,眾多專門?向圖數據的處理系統應運??。本?先從傳統的離線處理?度切?,研究了如何基于向上和向外兩種擴展?式進??規模圖數據的分析,主要?作包括:
關鍵詞:?數據;圖數據處理;離線處理;在線處理;混合事務/分析處理
作者介紹:朱曉偉,他目前是清華大學計算機科學與技術系的博士研究生,他的博士生導師是陳文光。他的研究方向是于并行/分布式計算和大數據分析。
知識圖譜在很多的真實的應用中都起著重要的作用,比如語義搜索、智能問答、文本理解等。通用知識圖譜構建中最重要的數據源之一是百科類網站,比如維基百科、百 度百科等。如英文知識圖譜 Freebase 最主要的數據源即是維基百科,大型中文通用知識圖譜 CN-DBpedia 主要的數據源是百度百科、互動百科等中文類百科網站。知識圖 譜相當于是現實世界的知識集合,這些知識并不是恒定不變的而是不斷變化的,沒有及時更新的知識圖譜無法及時地捕獲到已經變化的知識以及新出現的知識,而其數據源 百科類網站可以很及時的覆蓋新的知識和變化的知識。一個未能及時更新的知識圖譜會包含一些過時的知識、甚至是錯誤的知識,這會對知識圖譜的下層應用的產生很大的 限制。因而一個很重要的問題就是如何對知識圖譜進行更新,也就是使得知識圖譜和其數據源進行同步,這里的數據源只考慮百科類網站。
對于大部分的知識圖譜所采用的更新方式周期性批量更新,這種更新方式會有很多的弊端。其中一個弊端是在進行更新時的代價較大,百科類的網站通常會包含千萬級別的實體,在每次周期批量更新時會花費大量的時間代價,以及會占用大量的網絡帶寬。另一個主要的弊端是在周期性更新的周期內,會不斷有新知識的出現以及一些變化的知識,也就是周期性的更新方式也會導致知識圖譜中包含一些過時的知識。為了解決以上兩個問題,本文提出了智能知識圖譜更新系統 S-USB,一個更加智能的知識圖譜更新方案。
本文提出的智能知識圖譜更新系統 S-USB 可以智能的識別出已發生變化的實體并僅更新這些實體。S-USB 的核心部分是一個實體更新頻率預測器用于預測實體的更新頻率,該實體更新頻率預測器主要包括一系列高效的特征和回歸器。我們做了一系列實驗去檢測本文提出的知識圖譜智能更新系統 S-USB 以及實體更新頻率預測器的效果,實驗結果表明本文所提出的知識圖譜更新系統 S-USB 可以有效地識別出變化的實體和新出現的實體。特別的,本文所提出的知識圖譜智能更新系統已經在一些知識圖譜中得到應用落地,其中包括最大中文知識圖譜系統 CN-DBpedia。
本文的主要創新點主要有以下幾點: