亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大數據相似查詢關鍵技術研究

傳統的數據庫針對數據表的查詢條件主要包括數值范圍查詢、點查詢以及模 糊匹配查詢,但是這些查詢只能支持準確查詢。相似查詢可以根據指定的相似函 數(比如杰卡德相似度)查詢數據集中的數據,具體包括基于閾值的查詢、TopK 查 詢兩種,其中每種查詢又包括相似選擇和連接兩種常見算子。由于相似查詢廣泛 應用于海量相似文本搜索、相似圖片搜索、結構化實體去重以及多源數據融合等 領域,所以高效的相似查詢是最近國內外研究的重點。針對相似查詢的關鍵技術, 論文的主要研究目標和貢獻如下:

  1. 基于分布式內存索引的相似查詢:論文介紹了一款基于分布式內存的相似 查詢處理系統 Dima 。Dima 擴展了 SQL 語法來支持四種核心相似查詢操作,以便 讓用戶能夠調用這些相似查詢開展復雜數據分析任務。文章提出負載均衡感知的 相似片段分布式索引來避免昂貴的數據傳輸并且緩解長尾效應,進而提高整體相 似查詢性能。由于 Spark 是被廣泛使用的分布式內存計算系統,因此 Dima 無縫集 成在 Spark 內核中。Dima 是第一個支持對大數據集進行復雜相似查詢的成熟分布 式內存系統。實驗結果表明 Dima 比最新的方法性能高出 1-3 個數量級。

  2. 基于神經網絡的相似查詢基數估計:傳統數據庫查詢優化質量很大程度上 依賴于查詢中間結果基數估計的準確度。而在相似查詢系統中,基數估計對于復 合謂詞順序選擇以及相似連接順序選擇也是至關重要的。但是,針對相似查詢的 基數估計無法使用直方圖技術,采樣技術在高維環境下也會帶來較大誤差。本文 提出使用神經網絡來解決相似查詢的基數估計。本文提出兩種策略來提高基數估 計準確度并且減少訓練集規模:查詢分片和數據分片。實驗顯示本文提出的方法 能夠高效學習到高維數據的距離分布并且能夠對相似查詢進行準確的基數估計。

  3. 相似實體融合規則生成:作為相似查詢的重要應用,多源結構化數據中的 實體融合技術被學術界廣泛研究。實體融合的重要步驟包括實體分塊(Blocking), 匹配(Entity Matching)與實體合并(Entity Consolidation),這些步驟依賴于實體 對之間的相似度特征以及實體分塊規則,其中用戶的參與是不可缺少的,比如訓 練實體匹配模型的訓練集生成、數據轉換規則的確定等。本文設計了幾種用戶交 互的實體融合問題,并且提出一個問題調度框架,這個框架能夠根據每種問題的 收益/代價比選擇不同種類的問題進行交叉詢問來提高實體合并的準確度。

付費5元查看完整內容

相關內容

持久性內存存儲系統關鍵技術研究

存儲系統作為數據的載體,在應對爆炸式增長的數據時面臨嚴峻的挑戰;同 時,人工智能等新型應用還對存儲系統的吞吐率、延遲、擴展性等性能指標提出 了極為嚴苛的要求。新型持久性內存具有字節可尋址、數據掉電不丟失、性能高 等硬件特性,這為構建高性能存儲系統帶來了新的機遇。然而,持久性內存具有 極低的訪問延遲,這使得傳統存儲系統的軟件開銷占比日益凸顯;并且,持久性內 存特殊的硬件屬性難以被存儲系統軟件感知,從而導致其性能優勢難以被充分發 揮。為此,本文重新思考了基于持久性內存的存儲系統架構方式,并在操作系統、 網絡系統、存儲軟件等不同層次展開了研究:

? 針對文件系統軟件開銷高和系統難擴展的問題,提出了用戶態與內核態協同 的持久性內存文件系統架構 Kuco。Kuco 將存儲棧從內核態擴展到用戶態, 并利用內核線程管理文件系統元數據及權限。為防止內核線程成為系統瓶 頸,Kuco 引入了協同索引、兩級鎖協議、版本讀等內核態與用戶態的協同處 理邏輯。實驗表明,Kuco 提升元數據吞吐率最高達 16 倍。

? 針對 RDMA 在可靠模式下難擴展的問題,提出了基于連接分組的分布式內 存通信原語 ScaleRPC。該原語將網絡連接劃分到不同組,并以時間片輪詢的 方式服務各組,從而避免出現網卡緩存爭用;同時,引入了虛擬映射機制使 多組網絡連接共用同一物理消息池,從而降低 CPU 緩存缺失率。實驗表明, ScaleRPC 可以實現與不可靠模式相近的擴展性。

? 針對事務系統在負載沖突時尾延遲高的問題,提出了一種融合悲觀鎖和樂觀 讀的新型并發控制協議 Plor。Plor 要求事務在執行過程中首先對數據項加鎖, 然后再讀取對應數據項。在遇到鎖沖突時,事務可以繼續執行,而僅在事務 提交階段再進行沖突檢測,保證事務按序提交。實驗表明,Plor 的吞吐率可 達到樂觀并發控制協議的水平,并將 99.9% 尾延遲降低 12 倍。

? 針對持久性內存更新粒度與訪問粒度不匹配帶來的低效性問題,設計了一種 基于日志結構的持久性內存鍵值存儲引擎 FlatStore。FlatStore 通過多核流水 線調度的批量處理機制將小寫請求合并處理,從而降低對持久性內存的寫入 次數,并在提升帶寬的同時降低響應延遲。實驗表明,FlatStore 相比現有系 統性能提升最高達 6.3 倍。。

付費5元查看完整內容

多層圖分析技術研究

近年來,越來越多的領域都使用“圖”來表示和管理數據,稱為“圖數據”。針對 圖數據的分析可以發現其中的結構特征、頻繁模式、演變規律等有用的知識,具有 重要的科研意義和應用價值。隨著研究的深入,人們發現現實世界的圖數據往往 包含數據對象間多種類型的關系。例如,社交網絡數據包括多個社交媒體組成的 網絡;交通網絡數據涵蓋了多種交通工具組成的網絡。這種圖數據稱為“多層圖”, 其每一層包含了數據對象間某種特定類型的關系。

多層圖分析可以發現準確可靠、價值更高的知識。然而,多層圖分析面臨兩 方面的挑戰:一方面,單層圖上的計算語義在多層圖場景下不再適用,多層圖上 的計算語義更加復雜;另一方面,多層圖分析涉及多個圖層上的計算任務,使得 問題的固有計算復雜性大大增加。現有的多層圖分析方法在計算語義和算法設計 兩個方面都存在缺陷,不能很好的解決多層圖分析的有關問題。

本文綜合運用數據分析的相關理論、技術和方法,對于多層圖分析進行了系統研究。本文同時考慮了無概率的普通多層圖和帶概率的多層圖,從圖數據的稠 密性、可靠性、傳播性和相似性四方面重要性質出發,對多層圖分析領域中的一 系列重要問題進行了深入研究,主要研究成果如下:

  1. 本文研究了多層圖上的多樣化稠密區域發現問題,該問題在生物蛋白復合 體檢測和社區發現上具有重要應用。在無概率的普通多層圖模型基礎上,本文提 出了一種新的稠密區域概念 d-Coherent-Core(簡稱 d-CC),設計了兩種近似比為 1/4 的高效搜索算法來求解該 NP-難問題,算法在結果質量和執行時間兩個方面 均優于基于準團的傳統算法。d-CC 概念同時刻畫了稠密區域的稠密度和支持度兩 方面重要特性,滿足唯一性、包含性和層次性 3 個重要數學性質。自底向上和自 頂向下兩種搜索算法采用了高效的搜索策略和剪枝方法,分別適用于支持度參數 較小和較大兩種情況。真實數據上的實驗結果表明:自底向上和自頂向下兩種搜 索算法是高效、準確的。

  2. 本文研究了多層圖上的 top-k 可靠頂點搜索問題,該問題在通信網絡中具 有重要的研究意義,相比基于閾值的搜索問題自適應性更好。本文給出了一種圖 層帶概率的多層圖模型,提出了一種新的多層圖計算框架——共享計算,其可以 有效利用多層圖不同圖層間的重疊結構以減少搜索代價、提高算法效率。基于此,本文設計了求解 top-k 可靠頂點搜索問題的共享 BFS 精確算法和隨機算法。真實 數據上的實驗結果表明:共享 BFS 精確算法具有很高的效率和擴展性;共享 BFS 隨機算法具有很高的準確率。

  3. 本文研究了多層圖上的影響力最大化問題,該問題在病毒式營銷和輿情控 制中應用廣泛。為描述影響力最大化問題中的圖數據,本文給出了一種帶概率的 多層圖模型,其可以表示由于邊的不確定性而形成的多層圖。針對已有算法的缺 陷,本文設計了一種能夠同時達到高時間效率、高結果質量、低內存開銷和高健 壯性的影響力最大化算法,具有線性的時間和空間復雜度。該算法采用高質量的 分數估計方法和增量式的分數更新方法,在實際社交網絡中表現出良好的性能和 很高的擴展性。

  4. 本文研究了多層圖上 SimRank 頂點相似性測度問題,該問題是推薦系統、 實體識別等眾多應用的基礎。在帶概率的多層圖模型基礎上,本文嚴格給出了符 合其可能世界語義的 SimRank 相似性測度定義,設計了高效、準確的計算頂點間 SimRank 相似性的方法。同時,作為 SimRank 相似性測度的基礎,本文提出了多 層圖上隨機游走的定義,嚴格證明了這一定義滿足馬爾可夫性,設計了計算隨機 游走概率的高效算法。真實數據上的實驗結果表明:本文提出的 SimRank 算法是 高效、準確的;本文提出的 SimRank 測度比傳統測度在實際應用中效果更好。

付費5元查看完整內容

眾包數據庫關鍵技術研究

眾包通過整合計算機和互聯??眾來完成機器難以單獨處理的任務,其主要 包含三部分,任務發布者、眾包平臺和眾包??。傳統眾包技術中,三者的交互流 程過于復雜,導致任務發布者?法很好地管理任務。因此,眾包數據庫應運??, 其從系統層?出發整合三者之間復雜的交互流程,使得任務發布者可以通過描述 性語?輕松利???操作數據,降低了眾包的使?門檻。本?主要的內容如下:

  1. 眾包數據庫 CDB:為解決眾包平臺難使?、眾包任務難優化、眾包?? 質量難控制等問題,需要通過數據庫的思想來封裝眾包任務處理的流程。與傳統 數據庫不同的是,眾包數據庫的難點不僅在于解決單??標優化問題 (僅優化代 價),更重要的是建?細粒度的查詢優化模型,實現代價、質量和延遲的多?標優 化。因此,本?提出了?種新型的眾包數據庫系統 CDB 。不同于傳統的樹優化模 型,CDB ?次提出利?圖模型來進?細粒度查詢優化。其次,CDB 在該模型上建 ?統?的框架來進?多?標優化。該系統致?于幫助用戶高效率、高質量、低成 本地利用眾包來處理數據, 構建了一個中文眾包平臺 ChinaCrowd, 在華為公司落地 應用,取得了較好的經濟收益。另外,為?持較復雜的連接操作(基于記錄或者? 連接)與收集操作,本?分別提出了以下兩種算法框架對它們進?步優化。

  2. 基于眾包的連接操作:為解決現實世界中臟數據的復雜連接問題,需要引 ?基于眾包的連接操作。其難點在于代價較?,?尋求低代價?案時往往帶來質 量的降低。為此,本?提出?種低代價的眾包實體匹配框架 Power,在保持?質量 的同時??降低代價。本??先在待連接的記錄對上定義了?種偏序關系,然后 基于該關系對眾包??的回答進?推理,接下來循環提問直到所有記錄對的答案 都被推理出來。該方法致力于從理論和實踐兩方面優化眾包成本,實驗表明相比 于其他方法,Power 可在節省高達 100 倍的成本下進行高質量的數據連接。

  3. 基于眾包的收集操作:為解決傳統數據庫不能處理數據庫以外數據的特點, 眾包數據庫需要引?收集操作,其旨在通過眾包收集數據庫中缺失的實體。其難 點在于如何保證收集實體的正確性;如何盡可能收集相關領域的全部實體;如何 減少重復實體的數量以減少代價。為此,本?提出了基于激勵機制的眾包實體收 集框架 CrowdEC,其采?激勵的?式?勵??提供不重復的實體以降低代價。該 方法致力于建立收集操作的質量評價體系,從理論上給出了收集代價的競爭比保 證,使得用戶可實現低成本、高質量、高覆蓋的收集。

付費5元查看完整內容

搜索引擎中的實體推薦關鍵技術研究

搜索引擎是獲取信息的重要工具。近年來,為了更好地滿足用戶的信息獲取 需求,搜索引擎從最初只能被動地根據查詢返回相關網頁,逐步改進到能夠主動 地根據查詢提供相關信息推薦。實體推薦,即以實體為粒度進行信息推薦,是其 中推薦粒度最細且信息量最豐富的一種信息推薦形式。實體推薦旨在為用戶提供 與其查詢存在直接或間接關系的實體列表,能夠幫助用戶拓展知識面,因而越來 越受到用戶的歡迎。因此,實體推薦不僅成為現代搜索引擎必不可少的功能之一, 也正成為學術界重視的研究問題。

在搜索引擎實體推薦系統中,不僅需要為用戶提供與其查詢相關的實體推薦 結果,還需要對實體推薦結果進行恰當且合理的解釋以幫助用戶更好地理解推薦 結果。相應地,搜索引擎中的實體推薦研究主要包含以下兩個方面:(1)實體推薦算法,其目標是獲取與查詢相關的實體集合并對其進行排序;(2)實體推薦的可 解釋性,其目標是為實體推薦結果生成推薦理由,以提升推薦結果的可信度。針 對上述問題,本文研究了實體推薦算法的改進以及推薦理由的生成兩個方面的關 鍵技術,具體包括:(1)適用于搜索引擎的大規模實體推薦算法,以及基于上下文 優化實體推薦算法的具體策略;(2)實體對推薦理由的識別,以及實體推薦理由 的生成。本研究的主要內容包括以下幾個方面:

1. 基于排序學習與信息新穎性增強的實體推薦。構建適用于搜索引擎的大規 模實體推薦系統主要面臨以下 4 個挑戰:查詢與實體規模龐大、查詢的領域無關 性、用戶實體點擊數據極其稀疏以及很難為用戶推薦具有信息新穎性的實體。針 對上述挑戰,本文提出了一種基于排序學習框架的實體推薦算法,并圍繞信息新 穎性設計了相關特征與優化目標。一方面可以靈活地對召回與排序進行分階段優 化,另一方面可以直接基于查詢并面向信息新穎性構建多種粒度的排序特征,進 而能針對不同用戶偏好以及任何類型的查詢,為用戶提供個性化且兼具信息新穎 性的實體推薦結果,因此能夠大幅顯著提升實體推薦效果以及用戶參與度。

2. 基于深度多任務學習的上下文相關實體推薦。針對目前實體推薦方法普遍 忽略上下文信息以及上下文相關實體點擊數據存在數據稀疏問題,本文提出了一 種基于深度多任務學習的上下文相關實體推薦模型。一方面可以借助于上下文相 關文檔排序這一輔助任務中的大規模多任務交叉數據,另一方面可以基于多任務 學習來實現知識遷移,進而有效緩解數據稀疏問題并提升實體推薦結果的相關性,因此能夠顯著提升推薦效果。

3. 基于卷積神經網絡的實體對推薦理由識別。當推薦實體與查詢實體之間存 在確定的實體關系時,將能夠翔實地描述該實體對之間的關系的句子作為推薦理 由(簡稱為實體對推薦理由)展現給用戶,可以幫助用戶理解兩個實體間的關系, 從而提升推薦結果的可信度。目前的實體對推薦理由識別方法嚴重依賴于人工標 注的數據集以及人工設計的排序特征,從而導致識別出的實體對推薦理由的質量 較低。針對上述問題,本文提出了一種基于卷積神經網絡的實體對推薦理由識別 方法。一方面可以借助于搜索引擎點擊日志自動構建大規模訓練數據,另一方面 可以通過卷積神經網絡自動學習排序特征,進而顯著提升排序效果并帶來實體對 推薦理由質量的顯著提升。

4. 基于機器翻譯模型的實體推薦理由生成。當推薦實體與查詢之間不存在可 歸類的關系時,將能夠刻畫推薦實體特點的簡短描述作為推薦理由(簡稱為實體 推薦理由)展現給用戶,可以幫助用戶理清當前實體與查詢間的關聯,從而提升 推薦結果的可信度。然而,前人在實體推薦理由生成研究上鮮有涉獵。為此,本文 提出了基于機器翻譯模型的實體推薦理由生成方法,尤其是提出了一種由實體信 息指導的基于序列到序列學習的實體推薦理由生成模型。一方面可以有效識別并 保留源句子中的重要信息,另一方面可以指引模型生成與實體相關的結果,從而 能夠生成質量更高的實體推薦理由。

在應用方面,上述研究成果已在百度搜索引擎得到了大規模應用,取得了重 大的經濟效益和社會效益,并獲得了 2017 年中國電子學會科技進步一等獎。

付費5元查看完整內容

論文摘要:圖數據上的查詢處理(如最短路徑查詢、可達查詢、關鍵字查詢等)是數據庫領域最基礎的問題之一。本文從用戶在不同實際應用場景下的需求入手進行分析,進行合理的建模,并提出了有針對性的高效查詢處理算法。

  1. 大規模關聯不確定圖上的最短路徑查詢。分析了實際應用中圖數據上的不確定信息彼此間存在的相關性,從而提出了一種基于馬爾可夫網絡的關聯不確定圖模型,以克服現有獨立不確定圖模型中的不足。
  2. 分布式環境下不確定圖上的可達查詢。分析了在實際應用中,尤其是大數據環境下,不確定圖數據通常是分布式存儲的。
  3. 大規模容錯知識圖譜上的關鍵字查詢。分析了容錯性是知識圖譜在現實生活中的主要特征之一。
  4. 基于事件的社交網絡上事件參與規劃查詢。考慮在實際應用中二分圖匹配結合了時空信息的情況,提出一種為基于事件的社交網絡平臺上的用戶制定個性化參與其感興趣的事件的規劃查詢問題。

關鍵詞:大規模圖數據,查詢處理,最短路徑查詢,可達查詢,關鍵字查詢,事件參與;規劃查詢

作者介紹:成雨蓉,女,1989年8月生于遼寧省沈陽市。2008年考入東北大學,于信息學院計算機科學與技術專業攻讀本科。本科期間曾任信息學院團委副書記,并多次獲得國家、命名及校級獎學金,榮獲校級、市級優秀學生等稱號。2012年本科畢業后,獲得直博名額,在計算機科學與工程學院王國仁教授的指導下攻讀博士學位。

付費5元查看完整內容
北京阿比特科技有限公司