集群系統中的網絡流調度
當前,集群系統的部署和使用非常廣泛。在集群系統中,一個任務通常分為多 個處理階段順序執行,而在各處理階段之間需要通過內部網絡來傳輸數據和中間 結果。已有測量工作表明,數據傳輸時間占整個任務運行時間的比重很大,因此 優化集群系統中的數據傳輸時間對于加速任務、提升應用性能非常重要。網絡流 調度是優化數據傳輸時間的有效方法,主要指為數據流設定傳輸順序以及分配帶 寬。在小規模集群系統中,網絡內部容易做到無阻塞,流調度主要在邊緣鏈路上;而在大規模集群系統中,網絡內部也可能成為瓶頸,流調度也應作用于網絡內部。由于集群系統應用種類繁多,通信模式各不相同,因此內部網絡中既存在獨 立的單流也存在并發的流束。相應地,網絡流調度既包括單流調度也包括流束調 度。根據以上分類,本文分別在小規模與大規模集群系統中針對單流調度和流束 調度的問題進行了研究:
(1) 提出了穩定的單流調度策略。針對小規模與大規模集群系統都存在的調度 策略不穩定問題,本文設計了穩定的單流調度策略 BASRPT,并且針對小規模和 大規模集群系統分別設計了兩個版本。BASRPT 同時考慮流的剩余大小和所在隊 列的隊長,優先傳輸長隊列中的短流,既能夠控制隊長又能夠縮短流完成時間。仿 真結果表明,BASRPT 能夠維持隊列長度穩定并取得較低的流完成時間。
(2) 提出了已知部分信息的流束調度策略。針對小規模集群系統中部分流束信 息可知的場景,本文設計了已知部分信息的流束調度策略 IICS。IICS 借助流束中 已到達子流信息對剩余傳輸時間進行預測,并基于預測值近似實現最小剩余時間 優先。仿真結果表明,IICS 能夠取得與信息完全可知的策略接近的流束完成時間。
(3) 提出了網絡內部瓶頸感知的流束調度策略。針對大規模集群系統中的網絡 內部瓶頸約束,本文設計了分布式網絡內瓶頸感知的流束調度策略 DBA。DBA 在 所有鏈路的帶寬約束下,通過各節點演化的方式近似實現了全網范圍的最小剩余 時間優先策略。仿真結果表明,DBA 具有優越的流束完成時間性能和高吞吐量。
(4) 提出了光電路交換網絡中的流束調度策略。針對大規模集群系統中光電路 交換技術的快速發展,本文設計了光電路交換網絡中優化流束完成時間的調度策 略 GMRTF。GMRTF 同時結合了電路調度與流束調度,將同一電路上的子流適當 分組,組內不切換電路,組間采用最小剩余時間優先策略。大量仿真實驗驗證了 在光電路交換網絡中 GMRTF 能夠顯著降低流束完成時間并提高吞吐量。
多視光場光線空間幾何模型研究
光場以空間光線為基本單元,通過對光線位置和角度信息進行采樣,可實現重聚 焦、變視點、擴展景深等新穎應用,是計算機視覺與計算攝像學的重要理論創新點和技 術突破口。但是,現有光場成像理論存在投影模型不統一、光場成像裝置存在空間和角 度分辨率折衷等問題,尚無法滿足應用需求。本文以多視光場為研究對象,從光場相機 投影模型出發,重點研究光場相機光線采樣及變換過程,分析其對場景三維結構的影 響。另一方面,本文從 Plücker 光線出發,重點研究光線空間對極幾何,分析多視光場 內在射影關系,進而研究多視光場相機自標定和三維重建方法。論文研究工作的主要創 新點包括:(1)提出了統一描述異構光場相機的多投影中心模型。從傳統相機的中心投影模型 出發,推導了三維空間點投影變換矩陣,提出了隱含視點偏移的光場相機畸變模型,實 現了基于空間點的光場相機標定方法。此外,分析了多投影中心模型對平面和二次曲線 的映射,推導了共心二次曲線的共自配極三角形,闡述了其性質并在光場中重建共自配 極三角形,實現了基于共心二次曲線的光場相機標定方法。仿真與真實光場數據的實驗 結果表明,多投影中心模型可統一描述光場相機的異構特性,并利用不同標定物精確標 定光場相機。
(2)提出了統一描述光場相機光線采樣及變換的光線空間投影模型。從 Plücker 光 線出發,提出了 6 × 6 光線空間內參矩陣和投影矩陣,分別描述了光場相機光線采樣和 變換過程。根據 Plücker 光線的數學定義,推導了其在 Klein 曲面的高維特性及光線空 間投影變換的不變性。基于光線空間投影矩陣,建立了空間點與光線間線性約束,提出 了光場相機標定方法,定義了異面光線間幾何距離,并用于非線性優化。仿真與真實光 場數據的實驗結果表明,光線空間投影模型可統一描述光線采樣及變換過程,并精確標 定光場相機。
(3)提出了描述多視光場關聯關系的光線空間對極幾何。從光線空間投影模型出發, 研究了光線空間對極幾何,描述了二視圖光場間內在射影幾何,其獨立于場景結構,只 依賴于光場相機的內外參數,推導了 6 × 6 光線空間基本矩陣,并給出其性質。通過分 析光線空間基本矩陣的正交性約束和奇異性約束,提出了光線空間基本矩陣計算方法, 定義了光線對稱對極距離,并用于非線性優化。通過仿真與真實光場數據的實驗,驗證 了光線空間基本矩陣計算方法的準確性與可靠性,展示了光線空間對極幾何對于多視光 場應用的理論指導意義。
(4)提出了多視光場相機自標定和三維重建方法。從光線空間對極幾何出發,構建 了 6 × 6 光線空間單應,描述了多視光場間同一光線的關聯性關系,分解了僅與旋轉矩 陣相關的光線空間無窮單應,推導了絕對二次曲線的光線束。根據光線空間無窮單應 的旋轉共軛,計算光線空間無窮單應,估計光場相機內參數及相對姿態,定義了光線間 Sampson 距離,并用于非線性優化,最終實現光場相機及場景的計算重構。仿真與真實 數據的實驗結果表明,所提算法在精確重構光場相機投影矩陣的同時,可直接從多視光 場實現三維重建。
大數據相似查詢關鍵技術研究
傳統的數據庫針對數據表的查詢條件主要包括數值范圍查詢、點查詢以及模 糊匹配查詢,但是這些查詢只能支持準確查詢。相似查詢可以根據指定的相似函 數(比如杰卡德相似度)查詢數據集中的數據,具體包括基于閾值的查詢、TopK 查 詢兩種,其中每種查詢又包括相似選擇和連接兩種常見算子。由于相似查詢廣泛 應用于海量相似文本搜索、相似圖片搜索、結構化實體去重以及多源數據融合等 領域,所以高效的相似查詢是最近國內外研究的重點。針對相似查詢的關鍵技術, 論文的主要研究目標和貢獻如下:
基于分布式內存索引的相似查詢:論文介紹了一款基于分布式內存的相似 查詢處理系統 Dima 。Dima 擴展了 SQL 語法來支持四種核心相似查詢操作,以便 讓用戶能夠調用這些相似查詢開展復雜數據分析任務。文章提出負載均衡感知的 相似片段分布式索引來避免昂貴的數據傳輸并且緩解長尾效應,進而提高整體相 似查詢性能。由于 Spark 是被廣泛使用的分布式內存計算系統,因此 Dima 無縫集 成在 Spark 內核中。Dima 是第一個支持對大數據集進行復雜相似查詢的成熟分布 式內存系統。實驗結果表明 Dima 比最新的方法性能高出 1-3 個數量級。
基于神經網絡的相似查詢基數估計:傳統數據庫查詢優化質量很大程度上 依賴于查詢中間結果基數估計的準確度。而在相似查詢系統中,基數估計對于復 合謂詞順序選擇以及相似連接順序選擇也是至關重要的。但是,針對相似查詢的 基數估計無法使用直方圖技術,采樣技術在高維環境下也會帶來較大誤差。本文 提出使用神經網絡來解決相似查詢的基數估計。本文提出兩種策略來提高基數估 計準確度并且減少訓練集規模:查詢分片和數據分片。實驗顯示本文提出的方法 能夠高效學習到高維數據的距離分布并且能夠對相似查詢進行準確的基數估計。
相似實體融合規則生成:作為相似查詢的重要應用,多源結構化數據中的 實體融合技術被學術界廣泛研究。實體融合的重要步驟包括實體分塊(Blocking), 匹配(Entity Matching)與實體合并(Entity Consolidation),這些步驟依賴于實體 對之間的相似度特征以及實體分塊規則,其中用戶的參與是不可缺少的,比如訓 練實體匹配模型的訓練集生成、數據轉換規則的確定等。本文設計了幾種用戶交 互的實體融合問題,并且提出一個問題調度框架,這個框架能夠根據每種問題的 收益/代價比選擇不同種類的問題進行交叉詢問來提高實體合并的準確度。
持久性內存存儲系統關鍵技術研究
存儲系統作為數據的載體,在應對爆炸式增長的數據時面臨嚴峻的挑戰;同 時,人工智能等新型應用還對存儲系統的吞吐率、延遲、擴展性等性能指標提出 了極為嚴苛的要求。新型持久性內存具有字節可尋址、數據掉電不丟失、性能高 等硬件特性,這為構建高性能存儲系統帶來了新的機遇。然而,持久性內存具有 極低的訪問延遲,這使得傳統存儲系統的軟件開銷占比日益凸顯;并且,持久性內 存特殊的硬件屬性難以被存儲系統軟件感知,從而導致其性能優勢難以被充分發 揮。為此,本文重新思考了基于持久性內存的存儲系統架構方式,并在操作系統、 網絡系統、存儲軟件等不同層次展開了研究:
? 針對文件系統軟件開銷高和系統難擴展的問題,提出了用戶態與內核態協同 的持久性內存文件系統架構 Kuco。Kuco 將存儲棧從內核態擴展到用戶態, 并利用內核線程管理文件系統元數據及權限。為防止內核線程成為系統瓶 頸,Kuco 引入了協同索引、兩級鎖協議、版本讀等內核態與用戶態的協同處 理邏輯。實驗表明,Kuco 提升元數據吞吐率最高達 16 倍。
? 針對 RDMA 在可靠模式下難擴展的問題,提出了基于連接分組的分布式內 存通信原語 ScaleRPC。該原語將網絡連接劃分到不同組,并以時間片輪詢的 方式服務各組,從而避免出現網卡緩存爭用;同時,引入了虛擬映射機制使 多組網絡連接共用同一物理消息池,從而降低 CPU 緩存缺失率。實驗表明, ScaleRPC 可以實現與不可靠模式相近的擴展性。
? 針對事務系統在負載沖突時尾延遲高的問題,提出了一種融合悲觀鎖和樂觀 讀的新型并發控制協議 Plor。Plor 要求事務在執行過程中首先對數據項加鎖, 然后再讀取對應數據項。在遇到鎖沖突時,事務可以繼續執行,而僅在事務 提交階段再進行沖突檢測,保證事務按序提交。實驗表明,Plor 的吞吐率可 達到樂觀并發控制協議的水平,并將 99.9% 尾延遲降低 12 倍。
? 針對持久性內存更新粒度與訪問粒度不匹配帶來的低效性問題,設計了一種 基于日志結構的持久性內存鍵值存儲引擎 FlatStore。FlatStore 通過多核流水 線調度的批量處理機制將小寫請求合并處理,從而降低對持久性內存的寫入 次數,并在提升帶寬的同時降低響應延遲。實驗表明,FlatStore 相比現有系 統性能提升最高達 6.3 倍。。
在云計算中,由于需求的龐大和多樣性,平臺計算資源的容量管理一直是一個極大的挑戰。為了更好地根據整個云計算平臺的容量進行規劃,平臺往往會提前收集一部分非即時的計算作業需求,這些計算作業可以持續運行指定長度的時間,且起止時間更加靈活。通過根據非即時計算作業的需求和平臺在未來一段時間內的容量情況來進行統一調度,有助于平衡整個平臺的工作負荷,提升平臺資源的利用效率。但是,由于平臺上未來可用的計算容量是不確定的,所以對這些非即時作業的調度,在不確定的計算資源約束下進行安排是一個巨大的挑戰。
對于具有不確定約束的優化問題,傳統的優化方法無法直接進行求解,而是需要結合對不確定約束進行預測的步驟來進行優化。然而,單獨進行預測和優化的兩階段方法有明顯的不足之處:兩階段方法假設預測結果是準確的,可是在實際中預測誤差卻無法避免,從而導致優化得出的解會違反(violate) 約束。
在本篇論文中,微軟亞洲研究院的研究員們將這類問題建模成一個預測+優化(Prediction + Optimization)框架下的問題,并針對這類問題提出了不確定約束下的作業調度算法 CUC(Controlling under Uncertain Constraints),該算法的架構如圖4所示。其架構大體上可以概括為以下三個方面:
1)在預測階段預測未來容量的大小,同時對預測的不確定性進行建模; 2)用預測的未來容量的分布來指導作業調度的優化問題,得到相應的調度方案; 3)利用調度結果結合貝葉斯優化來進一步提升容量預測的表現。
幾十年來,不斷增長的計算能力一直是許多技術革命背后的推動力,包括最近在人工智能方面的進步。然而,由于集成電路進程規模的放緩,對于系統架構師來說,要繼續滿足當今應用不斷增長的計算需求,他們現在必須采用具有專門加速器的異構系統。
然而,建構這些加速器系統是極其昂貴和耗時的。首先,硬件的開發周期是出了名的長,這使得它很難跟上算法的快速發展。同時,現有的編譯器無法導航由新型加速器架構暴露的棘手映射空間。最后算法的設計通常沒有將硬件效率作為關鍵指標,因此,在設計高效硬件方面提出了額外的挑戰。
本文解決了聯合設計和優化算法、調度和加速硬件設計的重大挑戰。我們的目標是通過三管齊下的方法來推進最先進的技術: 開發從高層抽象自動生成加速器系統的方法和工具,縮短硬件開發周期; 適應機器學習和其他優化技術,以改進加速器的設計和編譯流程; 以及協同設計算法和加速器,以開發更多的優化機會。
本文的目標應用領域是深度學習,它在計算機視覺、神經語言處理等廣泛的任務中取得了前所未有的成功。隨著智能設備的普及,可以預見,深度學習將成為我們日常生活中的主要計算需求。因此,本文旨在通過硬件加速進行端到端系統優化,釋放前沿深度學習算法的普遍采用,改變生活的各個方面。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html
深度預測學習問題與方法研究
隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文面向這類數據的時間與空間結構特性,系統研究基于神經網絡的 深度預測學習方法。該方法旨在學習時空序列背后的演變規律,并對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其復雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下游語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關系,每個階段包含 2-3 個創新點:
第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基于 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。
第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用于存在固有動力學模式但趨勢信息相對復雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。
第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 系推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機制, 旨在同時促進模型對短期時空特征的感知和對長期語義關系的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了面向時空數據的深度預測學 習是一種有效的無監督表征學習框架。
此外,本文還設計了一套名為 PredLearn 的模型庫,從系統實現的角度對上述 創新性方法及其特點和適用范圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最后,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平臺的技術轉化。
大規模數據中心帶寬分配與流量調度技術研究
隨著互聯網和計算機技術的發展,基于互聯網提供的各種應用和服務也越來越多了。作為這些應用服務載體的數據中心,其建設需求也在不斷增加。然而,在數據中心發展的過程中,還面臨著諸多亟待解決的關鍵科學問題和挑戰。本論文主要關注大規模數據中心中帶寬資源受限、帶寬資源分散、流量總量巨大、流量時空變化這四類挑戰,在總結現有方法和研究成果的基礎之上,圍繞數據中心內的流量、數據中心間的流量、以及用戶服務請求這三個研究主體,展開對帶寬分配和流量調度這兩類問題的研究,具體的研究內容和貢獻如下:
在數據中心內部,集群計算應用觸發的流量顯著增加,從而使得鏈路帶寬經常成為稀缺資源。為此,本文針對多種集群計算框架共享同一數據中心網絡所引發的鏈路帶寬傾斜使用、帶寬資源非彈性使用、以及應用完成時間被延長這三方面的后果,研究跨集群計算框架的帶寬分配和流量調度問題,以實現高鏈路帶寬利用率和低應用完成時間的雙重目標。在帶寬分配方面,本文提出了虛擬鏈路組抽象模型,以構建虛擬帶寬資源共享池,并據此設計了三層帶寬分配方法,從而保障應用的網絡性能,并實現帶寬資源在集群計算框架間的彈性共享。在流量調度方面,本文設計了虛擬鏈路組依賴關系圖,并提出了一個近似比為3/2的鏈路選擇算法,從而實現負載均衡化的流量調度,并同時緩解鏈路帶寬傾斜使用的情況。實驗結果表明本文所提出的方法能夠大幅降低應用完成時間,且提高鏈路帶寬資源利用率。
在數據中心間,本文主要圍繞成本和性能兩個目標來展開針對數據中心間流量的帶寬分配和流量調度問題研究。首先,在成本方面,本文發現Internet服務供應商(Internet Service Provider,ISP)對數據中心間流量所采用的比例計費模型中存在著相當多的免費時間間隙:在這些時間間隙上傳輸的流量不影響整體傳輸成本。為此,本文提出了基于李雅普諾夫優化(Lyapunov Optimization)技術的帶寬分配和流量調度方法,以利用比例計費模型中的免費時間間隙進行流量傳輸,從而減少流量傳輸成本。實驗結果表明本文所提出的方法能夠大幅減少流量傳輸成本。其次,在性能方面,本文發現在進行帶寬分配和流量調度時,靈活地放置網絡流的端點能夠顯著地減少跨數據中心傳輸的Coflow的完成時間。為此,本文研究流量端點放置、帶寬分配和流量調度的聯合優化問題,以最小化跨數據中心運行的Coflow的平均完成時間。為了解決該問題,本文首先提出針對單個Coflow的端點放置、帶寬分配和流量調度算法,然后將此算法擴展到多個Coflow的場景。實驗結果表明本文所提出的方法能夠大幅減少Coflow的平均完成時間。最后,在兼顧成本和性能方面,本文研究了針對數據中心間流量的帶寬分配和流量調度問題,并提出了基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)的分布式帶寬分配和流量調度算法,從而最小化供應商的網絡帶寬成本,并同時為數據中心間流量提供帶寬保障。實驗結果表明本文所提出的方法能夠大幅減少供應商的網絡帶寬成本,并同時還能為數據中心間流量提供帶寬保障。
在面向用戶服務方面,本文主要研究帶寬分配和用戶請求流量調度兩個子問題。在帶寬分配方面,本文首先提出了“數據中心間的網絡即服務”模型,以將用戶在Internet上傳輸的流量引入到了大公司(如Google和Microsoft)的私有廣域網中,并且重點研究該模型下的多用戶多供應商的帶寬分配問題。本文設計了基于兩階段斯塔爾伯格博弈(Stackelberg Game)理論的帶寬分配方法,實驗結果表明本文所提出的帶寬分配方法能夠同時保證供應商和用戶的利益。在用戶請求流量調度方面,本文研究了供應商帶寬資源效率和用戶延遲聯合優化的用戶服務請求調度問題,并提出了基于對數平滑技術的請求調度算法。實驗結果表明,本文提出的請求調度算法能夠大幅提高數據中心帶寬資源利用率,且還能明顯減少用戶的延遲。
解耦合的類腦計算系統棧設計
類腦計算是一種借鑒生物大腦計算原理的信息處理范式,涉及算法、硬件和 工藝等諸多領域。在算法層面,深度神經網絡在各類智能問題的解決上表現出了 一定的通用性;在硬件層面,大量涌現的深度學習專用芯片和神經形態芯片為類 腦計算的相關研究領域提供強大算力;在工藝層面,以憶阻器為代表的各種新型 器件也為類腦計算芯片架構突破“馮諾依曼瓶頸”帶來了新的可能。但現有的類 腦計算研究尚缺乏能將算法、芯片和工藝等不同領域技術需求有機結合起來的軟 硬件系統棧設計。例如,專用芯片在帶來更高計算性能的同時也降低了靈活性,使 得算法的適配變得困難;憶阻器等新型器件在為芯片提供更高能效的同時,也帶 來了器件不穩定引起的噪音等問題。針對上述問題,本文提出一套新型類腦計算 系統棧設計,在理論層面引入類腦計算完備性,使得類腦系統實現軟硬件解耦合 成為可能;在基礎軟件層面設計了相應的編譯器,實現軟件編程模型到硬件執行 模型的等價轉換;在硬件層面設計了基于憶阻器件的類腦芯片架構,充分利用本 文提出的編譯器設計和解耦合系統棧帶來的優勢。本文的創新點主要有:
? 提出軟硬件解耦合的類腦系統棧設計。在系統棧中引入軟件編程模型和硬件 執行模型來解耦合——軟件編程模型靈活度高,適應各類編程需求,而硬件 執行模型足夠簡潔,適合硬件高效實現;引入類似于圖靈完備性的類腦完備 性概念來建立軟件和硬件兩類模型的等價性,并給出相應的構造性證明,使 得類腦計算系統軟硬件解耦合成為可能。
? 設計針對硬件約束的類腦編譯器,將神經網絡軟件編程模型轉換為等價的硬 件執行模型。編譯器通過數據重編碼方式,使目標網絡在極端硬件約束條件 下仍然能夠保持精度損失可控(包括無損);此外,提出適用于硬件執行模 型的粗粒度剪枝壓縮方法,充分利用神經網絡模型本身的冗余,在 ImageNet 數據集的 VGG16 模型上,即使剪枝粒度達到 256 × 256 壓縮率也能達到 60% 以上,且精度損失可以忽略。
? 設計與上述類腦計算完備性和編譯技術適配的新型類腦芯片架構 FPSA (Field Programmable Synapse Array)。利用編譯器轉換后硬件執行模型的簡潔 性,簡化基于憶阻器的芯片結構設計,提高計算密度與計算性能,并引入可 重構路由架構以優化片內通信。與同樣基于憶阻器的類腦芯片架構 PRIME 相比,性能提升可達三個數量級。
眾包數據庫關鍵技術研究
眾包通過整合計算機和互聯??眾來完成機器難以單獨處理的任務,其主要 包含三部分,任務發布者、眾包平臺和眾包??。傳統眾包技術中,三者的交互流 程過于復雜,導致任務發布者?法很好地管理任務。因此,眾包數據庫應運??, 其從系統層?出發整合三者之間復雜的交互流程,使得任務發布者可以通過描述 性語?輕松利???操作數據,降低了眾包的使?門檻。本?主要的內容如下:
眾包數據庫 CDB:為解決眾包平臺難使?、眾包任務難優化、眾包?? 質量難控制等問題,需要通過數據庫的思想來封裝眾包任務處理的流程。與傳統 數據庫不同的是,眾包數據庫的難點不僅在于解決單??標優化問題 (僅優化代 價),更重要的是建?細粒度的查詢優化模型,實現代價、質量和延遲的多?標優 化。因此,本?提出了?種新型的眾包數據庫系統 CDB 。不同于傳統的樹優化模 型,CDB ?次提出利?圖模型來進?細粒度查詢優化。其次,CDB 在該模型上建 ?統?的框架來進?多?標優化。該系統致?于幫助用戶高效率、高質量、低成 本地利用眾包來處理數據, 構建了一個中文眾包平臺 ChinaCrowd, 在華為公司落地 應用,取得了較好的經濟收益。另外,為?持較復雜的連接操作(基于記錄或者? 連接)與收集操作,本?分別提出了以下兩種算法框架對它們進?步優化。
基于眾包的連接操作:為解決現實世界中臟數據的復雜連接問題,需要引 ?基于眾包的連接操作。其難點在于代價較?,?尋求低代價?案時往往帶來質 量的降低。為此,本?提出?種低代價的眾包實體匹配框架 Power,在保持?質量 的同時??降低代價。本??先在待連接的記錄對上定義了?種偏序關系,然后 基于該關系對眾包??的回答進?推理,接下來循環提問直到所有記錄對的答案 都被推理出來。該方法致力于從理論和實踐兩方面優化眾包成本,實驗表明相比 于其他方法,Power 可在節省高達 100 倍的成本下進行高質量的數據連接。
基于眾包的收集操作:為解決傳統數據庫不能處理數據庫以外數據的特點, 眾包數據庫需要引?收集操作,其旨在通過眾包收集數據庫中缺失的實體。其難 點在于如何保證收集實體的正確性;如何盡可能收集相關領域的全部實體;如何 減少重復實體的數量以減少代價。為此,本?提出了基于激勵機制的眾包實體收 集框架 CrowdEC,其采?激勵的?式?勵??提供不重復的實體以降低代價。該 方法致力于建立收集操作的質量評價體系,從理論上給出了收集代價的競爭比保 證,使得用戶可實現低成本、高質量、高覆蓋的收集。
論文摘要:圖數據的處理在各個領域都有?泛的應?。隨著圖數據規模的擴?和對處理能?要求的提升,眾多專門?向圖數據的處理系統應運??。本?先從傳統的離線處理?度切?,研究了如何基于向上和向外兩種擴展?式進??規模圖數據的分析,主要?作包括:
關鍵詞:?數據;圖數據處理;離線處理;在線處理;混合事務/分析處理
作者介紹:朱曉偉,他目前是清華大學計算機科學與技術系的博士研究生,他的博士生導師是陳文光。他的研究方向是于并行/分布式計算和大數據分析。