亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

分形計算系統

在許多領域,編程成本已經成為阻礙計算機技術應用發展的主要瓶頸問 題:超級計算機性能走向百億億次級別,然而現代超級計算機發展趨勢是采用 異構運算部件,導致編程困難的問題越來越嚴峻;在物端邊緣計算領域,設備 數量和種類呈現爆炸式增長,而應用程序開發者不可能針對上百億種異構設 備進行編程,產生了“昆蟲綱悖論”;在機器學習領域,編程框架 TensorFlow 的代碼規模已經突破 400 萬行,為機器學習或深度學習開發領域特定加速器產 品的主要成本已經來源于配套軟件生態的研發。

編程難題包括并行編程難、異構編程難、大規模系統編程難、跨系統編程 難等諸多表現形式。學位論文擬提出分形計算概念,通過分形計算系統的研究 以回應編程難題;具體來說,分形計算系統針對來源于“編程-規模相關性”的 編程難題提供了解決方案。具體貢獻包括:

? 提出分形計算模型(FPM),一種采用了層次同性原理的通用并行計算 模型。分形計算模型具有編程-規模無關性,是一種串行編程、并行執 行的模型。使用者只需編寫串行的程序,該計算模型可以自動展開至任 意規模的系統上并行執行,因此可以在通用領域解決來源于編程-規模 相關性的編程難題。

? 提出分形馮·諾伊曼體系結構(FvNA),一種采用了層次同性原理的專 用并行體系結構。相同任務負載在不同規模的分形馮·諾依曼體系結構 計算機上可以分別自動展開、執行,因此可以做到對一系列不同規模的 計算機僅需進行一次編程。以機器學習領域專用體系結構為例,本文實 現了一系列分形機器學習計算機 Cambricon-F,以解決機器學習計算機 編程困難的問題。實驗結果表明,Cambricon-F 在改善了編程生產率的 同時,還能獲得不劣于 GPU 系統的性能和能效。

? 提出可重配分形指令集結構(FRISA),一種按照分形計算模型設計的 分形計算機指令集結構。分形可重配指令集結構能夠在分形馮·諾依曼 體系結構計算機上定義任意的分形運算,因此可以支持實現分形計算模型,形成通用分形馮·諾依曼體系結構計算機。以機器學習領域專用體 系結構為例,本文在 Cambricon-F 的基礎上實現了一系列可重配的分形 機器學習計算機 Cambricon-FR,以解決 Cambricon-F 在新興機器學習應 用上遇到的失效現象。實驗結果表明,Cambricon-FR 在解決了失效現 象、提高系統運行效率的同時,還能通過定義分形擴展指令縮短描述應 用所需的分形指令串的長度。

付費5元查看完整內容

相關內容

多視光場光線空間幾何模型研究

光場以空間光線為基本單元,通過對光線位置和角度信息進行采樣,可實現重聚 焦、變視點、擴展景深等新穎應用,是計算機視覺與計算攝像學的重要理論創新點和技 術突破口。但是,現有光場成像理論存在投影模型不統一、光場成像裝置存在空間和角 度分辨率折衷等問題,尚無法滿足應用需求。本文以多視光場為研究對象,從光場相機 投影模型出發,重點研究光場相機光線采樣及變換過程,分析其對場景三維結構的影 響。另一方面,本文從 Plücker 光線出發,重點研究光線空間對極幾何,分析多視光場 內在射影關系,進而研究多視光場相機自標定和三維重建方法。論文研究工作的主要創 新點包括:(1)提出了統一描述異構光場相機的多投影中心模型。從傳統相機的中心投影模型 出發,推導了三維空間點投影變換矩陣,提出了隱含視點偏移的光場相機畸變模型,實 現了基于空間點的光場相機標定方法。此外,分析了多投影中心模型對平面和二次曲線 的映射,推導了共心二次曲線的共自配極三角形,闡述了其性質并在光場中重建共自配 極三角形,實現了基于共心二次曲線的光場相機標定方法。仿真與真實光場數據的實驗 結果表明,多投影中心模型可統一描述光場相機的異構特性,并利用不同標定物精確標 定光場相機。

(2)提出了統一描述光場相機光線采樣及變換的光線空間投影模型。從 Plücker 光 線出發,提出了 6 × 6 光線空間內參矩陣和投影矩陣,分別描述了光場相機光線采樣和 變換過程。根據 Plücker 光線的數學定義,推導了其在 Klein 曲面的高維特性及光線空 間投影變換的不變性。基于光線空間投影矩陣,建立了空間點與光線間線性約束,提出 了光場相機標定方法,定義了異面光線間幾何距離,并用于非線性優化。仿真與真實光 場數據的實驗結果表明,光線空間投影模型可統一描述光線采樣及變換過程,并精確標 定光場相機。

(3)提出了描述多視光場關聯關系的光線空間對極幾何。從光線空間投影模型出發, 研究了光線空間對極幾何,描述了二視圖光場間內在射影幾何,其獨立于場景結構,只 依賴于光場相機的內外參數,推導了 6 × 6 光線空間基本矩陣,并給出其性質。通過分 析光線空間基本矩陣的正交性約束和奇異性約束,提出了光線空間基本矩陣計算方法, 定義了光線對稱對極距離,并用于非線性優化。通過仿真與真實光場數據的實驗,驗證 了光線空間基本矩陣計算方法的準確性與可靠性,展示了光線空間對極幾何對于多視光 場應用的理論指導意義。

(4)提出了多視光場相機自標定和三維重建方法。從光線空間對極幾何出發,構建 了 6 × 6 光線空間單應,描述了多視光場間同一光線的關聯性關系,分解了僅與旋轉矩 陣相關的光線空間無窮單應,推導了絕對二次曲線的光線束。根據光線空間無窮單應 的旋轉共軛,計算光線空間無窮單應,估計光場相機內參數及相對姿態,定義了光線間 Sampson 距離,并用于非線性優化,最終實現光場相機及場景的計算重構。仿真與真實 數據的實驗結果表明,所提算法在精確重構光場相機投影矩陣的同時,可直接從多視光 場實現三維重建。

付費5元查看完整內容

幾十年來,不斷增長的計算能力一直是許多技術革命背后的推動力,包括最近在人工智能方面的進步。然而,由于集成電路進程規模的放緩,對于系統架構師來說,要繼續滿足當今應用不斷增長的計算需求,他們現在必須采用具有專門加速器的異構系統。

然而,建構這些加速器系統是極其昂貴和耗時的。首先,硬件的開發周期是出了名的長,這使得它很難跟上算法的快速發展。同時,現有的編譯器無法導航由新型加速器架構暴露的棘手映射空間。最后算法的設計通常沒有將硬件效率作為關鍵指標,因此,在設計高效硬件方面提出了額外的挑戰。

本文解決了聯合設計和優化算法、調度和加速硬件設計的重大挑戰。我們的目標是通過三管齊下的方法來推進最先進的技術: 開發從高層抽象自動生成加速器系統的方法和工具,縮短硬件開發周期; 適應機器學習和其他優化技術,以改進加速器的設計和編譯流程; 以及協同設計算法和加速器,以開發更多的優化機會。

本文的目標應用領域是深度學習,它在計算機視覺、神經語言處理等廣泛的任務中取得了前所未有的成功。隨著智能設備的普及,可以預見,深度學習將成為我們日常生活中的主要計算需求。因此,本文旨在通過硬件加速進行端到端系統優化,釋放前沿深度學習算法的普遍采用,改變生活的各個方面。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html

付費5元查看完整內容

非易失內存系統中的寫優化和持久化技術研究

現代處理器的多核化發展趨勢和大量數據密集型應用的出現,使得計算機對高 容量主存的需求越來越迫切。現代計算機主存的主要存儲介質是 DRAM (dynamic random access memory)。但是,由于在存儲單元擴展和能耗效率方面的局限性, DRAM 很難做到更大的容量。新型的非易失內存(non-volatile memory,NVM)可 以有效地避免 DRAM 中存在的存儲單元擴展和能耗效率問題,從而被考慮作為下一 代主存的主要存儲介質。但是,現代的計算機系統都是面向傳統的 DRAM 主存設計 和優化的,在當前的計算機系統中使用 NVM 面臨著寫優化和數據持久化兩方面的 挑戰。在寫優化方面,由于 NVM 都是通過改變存儲介質的物理狀態來存儲數據的, 物理存儲單元被復寫一定次數后會失效而具有有限的寫耐久性,如何對 NVM 做有 效的寫優化處理來提升其耐久性和性能是關鍵;在持久化方面,NVM 系統中的數 據從 CPU 寫入到主存時就需要做數據持久化處理,如何使用有效的持久化技術來保 證數據的正確持久化和故障時的一致性是關鍵。另外,在一些應用場景如端設備上, NVM 主存還面臨著安全性問題,這是因為 NVM 在系統關機后依然保存著數據而 產生數據殘留,因此需要在 NVM 上使用內存加密。本文分別對非加密和加密 NVM 面臨的寫優化和持久化挑戰展開研究并提出有效的解決方案。

為了提升非加密 NVM 的寫耐久性,提出了一個面向 NVM 的寫優化數據組織 結構 Path Hashing。Path Hashing 是一個基于哈希的數據結構,使用了一個新的寫優 化哈希沖突處理方法,即位置共享,使得哈希數據結構中的插入和刪除操作不會產 生額外的 NVM 寫。通過進一步使用雙路徑哈希和路徑縮減技術,Path Hashing 可以 在哈希表空間利用率和請求延遲方面獲得高的性能。實驗結果表明,Path Hashing 不 會造成額外的 NVM 寫從而提升了 NVM 的耐久性,并可以達到 95% 以上的哈希表 空間利用率,與現有哈希表方法相比也實現了更低的請求延遲。

為了保證非加密 NVM 中數據的正確持久化和一致性,提出了一個面向 NVM 的持久化數據組織結構 Level Hashing。Level Hashing 在實現寫優化和降低開銷的同。時,可以保證 NVM 中哈希數據結構故障時的數據一致性并且支持高效地擴容操作。Level Hashing 提出了一個基于共享的兩層哈希表,它的搜索、插入、刪除和更新操 作在最差情況下具有常數級的時間復雜度,且很少產生額外的 NVM 寫。為了低開 銷地保證數據一致性,Level Hashing 對插入、刪除和擴容操作實現了免日志的一致 性保證。為了高效地擴容哈希表,Level Hashing 提出了一個原地擴容技術,這種方 法只需要重新哈希 1/3 的哈希桶而不是整個哈希表就可以完成擴容,從而顯著減少 了重哈希的桶數并提高了擴容性能。實驗結果顯示,與現有最好的哈希數據結構相 比,Level Hashing 獲得了 1.4 ? 3 倍的插入加速比、1.2 ? 2.1 倍的更新加速比和 4.3 倍的擴容加速比。

為了提升加密 NVM 的寫耐久性,提出了一個面向加密 NVM 的寫優化內存架 構 DeWrite。DeWrite 使用內存加密機制來保證 NVM 中的數據安全,并通過消除重 復的內存寫來提升 NVM 的使用壽命和運行性能。DeWrite 提出了一個輕量級內存行 粒度的數據去重技術來解決在加密 NVM 上執行低延遲的在線去重的挑戰,并提出 操作并行和元數據共享策略來高效整合數據去重和內存加密技術,以提高系統的時 間和空間效率。實驗結果顯示,和傳統的加密 NVM 方案相比,DeWrite 減少了平均 54% 的 NVM 寫操作數量。同時,DeWrite 對加密 NVM 中的內存讀操作和寫操作分 別加速了 3.1 倍和 4.2 倍,且減少了 40% 的能耗開銷。

為了保證加密 NVM 中數據的正確持久化和一致性,提出了一個面向加密 NVM 的持久化內存架構 SuperMem。SuperMem 是基于直寫式計數器 cache 的持久化技術, 有效地避免了現有基于寫回式計數器 cache 的持久化技術在備用電池的使用、可移 植性和恢復延遲等方面的問題。為了減少直寫式計數器 cache 帶來的額外的性能開 銷,SuperMem 采用了一個局部性感知的計數器寫聚合方法,通過探索計數器存儲 和數據寫分布的空間局部性來減少寫請求的數量;并采用了一個跨 bank 的計數器存 儲方法來高效地分發數據和計數器寫到不同的 bank 上,利用 bank 的訪問并行性來 加速內存寫。實驗結果顯示,SuperMem 使用計數器寫聚合方法減少了高達 50% 的 寫操作數量,使用跨 bank 的計數器存儲方法提升了最高 2 倍的系統運行性能。

付費5元查看完整內容

軟件系統網絡化建模、質量度量與保證

軟件開發活動中,質量問題層出不窮。例如軟件功能沒有滿足用戶的需求,軟件 不健壯,由于低可靠性而引起的經常性失效,交付有缺陷的軟件產品,需求不完整 亦或概念模糊等。多數情況下,軟件產品問題發生原因是質量監控人員沒有及時發 現問題并且修正,包括未對設計與需求進行評審或者評審方案不具備有效性,導致 開發過程中常常帶著問題進入下一階段的研發。因此需要花費更多的人力物力和時 間來糾正問題。因而,軟件質量保證是解決上述問題的有效手段之一。

經過長期的研究和實際案例分析,雖然現有軟件質量度量方法的有效性已經在 實踐中得到了檢驗,它們依然存在著許多不足之處,如傳統的方法側重于微觀層面 的統計,使得開發人員難以在較高層次分析和度量軟件體系結構的全局特性;現有 的質量模型企圖以單一模型廣泛地應用于軟件和信息系統的開發過程,但這與質量 本身的特征多樣性相背離;軟件質量模型設計的初衷沒有考慮其在軟件開發過程中 的應用場景,并未對軟件開發中的特定活動提供相應支持。因此開發出一個操作性 強,具有較高應用價值且能夠高效地發現質量隱患的模型仍是一個開發性的課題。本文圍繞著軟件質量模型構建、質量保證及質量改善開展工作,主要的研究內容包括:

(1) 針對現有的軟件質量模型均以靜態視角描述軟件某單一維度結構特征的局 限性,本文從多粒度、多類型依賴關系及多功能剖面等角度出發,提出了多維度軟 件網絡模型。并結合概率風險分析理論評估軟件設計的缺陷及軟件模塊的風險,借 助于多維度網絡模型將軟件系統映射為多功能剖面,使用故障樹模型分析不同功能 剖面上節點的組合失效因果鏈,給出了一種基于故障樹分析的可靠性度量方法。通 過實驗分析,驗證了上述方法可以有效檢測軟件高風險的關鍵節點,詮釋了軟件系 統拓撲結構因素與系統可靠性的相關性,可作為軟件設計早期階段確保軟件設計質 量的指導準則。

(2) 在軟件集成測試的場景之中,基于多維度軟件網絡模型,結合軟件風險分析 方法提出了一種兼顧測試成本與測試效率的集成測試序列生成算法。利用成本收益。分析方法,在生成測試用例的過程中保證兩條原則:一是為高風險的類賦予較高權 重,二是最小化測試樁復雜度。在此基礎上,我們從構造測試樁的成本和測試序列 對軟件系統運行風險的影響兩個方面,提出了評估測試序列優劣的度量方案及針對 集成測試序列合理分配測試資源的方法。通過與現有算法的實驗對比分析,證明了 所提出算法生成的類級集成測試序列,既能夠保證風險因子高的節點優先被測試, 又降低了構造測試樁的總復雜度,有效地降低了測試代價。

(3) 將本文提出的軟件質量模型應用于軟件回歸測試的場景之中,以保障軟件產 品質量。在多維度軟件網絡模型基礎上,結合可靠性度量方法提出了一種基于動態 反饋機制的自適應測試用例優先級排序技術。在計算測試用例優先級的過程中,利 用已經執行的測試用例對軟件可靠性變化信息進行動態反饋,以不斷更新系統的可 靠性數值,進而高效地定位到軟件缺陷,提高故障檢測效率。通過在不同的軟件系 統的實驗分析,驗證了所提出的自適應優先級排序技術具有較高的穩定性,尤其對 于嚴重故障具有較強的檢測能力,同時可以兼顧最大化軟件系統的可靠性。

(4) 為了從軟件體系結構的角度得到最佳的功能分布,基于多維度軟件網絡模型 提出了一種系統級別的自動化重構技術。將軟件系統映射成多依賴關系類型網絡和 方法級加權依賴網絡,借助于前者我們完成了重構預處理操作,借助于后者我們利 用加權聚類算法,根據“高內聚、低耦合”原則對系統的模塊進行重新劃分。為了移除 非繼承體系和繼承體系內部由內聚和耦合性引起的代碼壞味道,提出三種不同類型 的重構建議(包括搬移函數、搬移方法和提煉類重構的操作)。經過世界知名軟件公司 軟件質量評估專家的評估和驗證,證明了自動化重構算法的有效性。

付費5元查看完整內容

解耦合的類腦計算系統棧設計

類腦計算是一種借鑒生物大腦計算原理的信息處理范式,涉及算法、硬件和 工藝等諸多領域。在算法層面,深度神經網絡在各類智能問題的解決上表現出了 一定的通用性;在硬件層面,大量涌現的深度學習專用芯片和神經形態芯片為類 腦計算的相關研究領域提供強大算力;在工藝層面,以憶阻器為代表的各種新型 器件也為類腦計算芯片架構突破“馮諾依曼瓶頸”帶來了新的可能。但現有的類 腦計算研究尚缺乏能將算法、芯片和工藝等不同領域技術需求有機結合起來的軟 硬件系統棧設計。例如,專用芯片在帶來更高計算性能的同時也降低了靈活性,使 得算法的適配變得困難;憶阻器等新型器件在為芯片提供更高能效的同時,也帶 來了器件不穩定引起的噪音等問題。針對上述問題,本文提出一套新型類腦計算 系統棧設計,在理論層面引入類腦計算完備性,使得類腦系統實現軟硬件解耦合 成為可能;在基礎軟件層面設計了相應的編譯器,實現軟件編程模型到硬件執行 模型的等價轉換;在硬件層面設計了基于憶阻器件的類腦芯片架構,充分利用本 文提出的編譯器設計和解耦合系統棧帶來的優勢。本文的創新點主要有:

? 提出軟硬件解耦合的類腦系統棧設計。在系統棧中引入軟件編程模型和硬件 執行模型來解耦合——軟件編程模型靈活度高,適應各類編程需求,而硬件 執行模型足夠簡潔,適合硬件高效實現;引入類似于圖靈完備性的類腦完備 性概念來建立軟件和硬件兩類模型的等價性,并給出相應的構造性證明,使 得類腦計算系統軟硬件解耦合成為可能。

? 設計針對硬件約束的類腦編譯器,將神經網絡軟件編程模型轉換為等價的硬 件執行模型。編譯器通過數據重編碼方式,使目標網絡在極端硬件約束條件 下仍然能夠保持精度損失可控(包括無損);此外,提出適用于硬件執行模 型的粗粒度剪枝壓縮方法,充分利用神經網絡模型本身的冗余,在 ImageNet 數據集的 VGG16 模型上,即使剪枝粒度達到 256 × 256 壓縮率也能達到 60% 以上,且精度損失可以忽略。

? 設計與上述類腦計算完備性和編譯技術適配的新型類腦芯片架構 FPSA (Field Programmable Synapse Array)。利用編譯器轉換后硬件執行模型的簡潔 性,簡化基于憶阻器的芯片結構設計,提高計算密度與計算性能,并引入可 重構路由架構以優化片內通信。與同樣基于憶阻器的類腦芯片架構 PRIME 相比,性能提升可達三個數量級。

付費5元查看完整內容

機器學習中部分非凸和隨機優化算法研究

機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算 法復雜度理論等多門學科。算法理論與應用是機器學習中最為重要的核心之一。其中一階優化算法因其簡單有效性,而被廣泛研究與應用。另一方面由于近年來 數據規模的不斷增大,數據集的規模使得二階或更高階的算法應用受阻。這使得 一階算法進一步成為機器學習的研究重點。隨著機器學習中問題模型的不斷擴張, 例如深度學習,非凸問題和模型也激發了學者們廣泛的研究興趣。這使得研究非 凸算法顯得更加急迫。而且由于數據集的龐大性,確定算法難以逃出鞍點,因此 隨機算法受到了史無前例的關注。本文主要結果可以歸納如下:

一、研究了三種 ADMM 算法。第一個 ADMM 的工作是關于一般的 ADMM 收 斂性分析統一框架。在此框架下,很多現有的 ADMM 收斂性分析可以歸納進該 框架。除了現有的 ADMM 算法,根據統一框架還能夠設計出新的 ADMM 算法。第二個和第三個 ADMM 都是針對結構非凸優化問題提出的:一個是針對泛 ?q 正 則化約束優化問題,而另一個是針對 ?1?2 正則化約束優化。給出了后面兩種非凸 ADMM 算法的收斂性分析,所得到的結果可以指導用戶選擇合適的超參數。

二、研究了兩種一階優化領域常用的非精確算法。第一種是非精確的加速算 法。相較于之前的研究,該算法的假設更為真實。而且還囊括了一大類隨機噪聲 的情況,使得算法更為實用。而機器學習中的一階催化劑算法由于是該加速算法 帶上了隨機噪聲,因此可以看做本算法的特例。在第二部分給出了非精確非凸算 法的收斂性框架理論。可以被廣泛應用到各種一階非凸算法。

三、證明了在有界和無界延遲以及隨機和確定性塊選擇下異步并行梯度下降法 的收斂結果。這些結果不需要迄今為止絕大多數其他工作中出現的獨立性假設。這是由于本文使用了 Lyapunov 函數技術,可直接處理延遲,而不是像之前的工作 一樣僅僅將它們建模為噪聲。

四、分析了馬爾可夫鏈隨機梯度下降法,其中樣本采用了某個馬爾可夫鏈的軌跡。主要貢獻之一是給出了馬爾可夫鏈隨機梯度下降法的在凸情況下的非遍歷收 斂分析。結果然后擴展到不精確的格式。這種分析使得能夠建立不可逆有限狀態 馬爾可夫鏈和非凸最小化問題的收斂性。這樣的結果適用于不知道具體的概率分 布,但可以通過馬爾可夫鏈進行采樣的情形。

付費5元查看完整內容

該研究的第一作者為清華大學計算機系研究員張悠慧,與清華大學教授、清華大學類腦計算中心主任施路平共同為該論文的通訊作者。

神經形態計算從生物大腦中獲取靈感,為計算機技術和體系結構的下一波發展提供了方向。類腦計算與傳統計算機架構不同,后者是圍繞圖靈完備和完善的馮諾依曼結構,前者目前還沒有沒有廣義的系統層次結構,或對類腦性計算的完整性的理解。這會影響類腦計算軟件和硬件之間的兼容性,從而阻礙了大類腦式計算的開發效率。

面對這一挑戰,清華大學等機構的研究者們提出了「類腦計算完備」概念,它放寬了對硬件完整性的要求,并提出了相應的系統層次結構,其中包括圖靈完備的軟件抽象模型和通用的抽象神經形態架構。

使用這種層次結構,我們可以將各種程序描述為統一的表示形式,并轉換為任何神經形態完整硬件上的等效可執行文件。這意味著,這一體系可以確保編程語言的可移植性、硬件完整性和編譯可行性。

為了支持在各種典型硬件平臺上執行不同類型的程序,研究人員實現了一系列工具鏈軟件,進而證明了該系統結構的優勢。

付費5元查看完整內容

工業互聯時代,每天數以億計的傳感器源源不斷生成時間序列,用以記錄工業設備的溫度、振動、壓力、曲度和張力等參數。如何從這些非結構化的時間序列中挖掘出有價值信息,并運用于狀態監測、故障診斷和控制決策,引起了廣泛的關注和研究。隨著數據規模日益增長,能夠提供較為完備數據分析算法庫的主流單機環境如Matlab、R等,已無法較好地應對大規模時間序列分析場景下的數據處理需求。而現有的并行分析算法數量有限,常與平臺相互綁定,更換平臺需對算法進行二次開發,可擴展性較差。本文旨在設計一種通用的近似解分析框架,支持第三方算法快速實現并行化,解決因數據規模過大而導致的算法適用性問題。分析框架主要包含任務劃分、治理和合并三個步驟。任務劃分通過冗余保留了數據的局部相關性,生成相互獨立的子任務,減少分布式節點之間的數據通信和同步開銷。對于任務劃分問題,本文提出了近似解代價模型,得到了最優的任務劃分方案。基于Spark平臺設計并實現了原型系統,實驗結果表明,該系統在確保分析結果準確性的前提下,其加速能力隨著并行程度保持近似線性的增長,解決了單機算法的數據規模受限問題。同時,該系統易于集成與擴展,使數據分析人員免于算法重復開發。

付費5元查看完整內容

論文摘要:圖數據的處理在各個領域都有?泛的應?。隨著圖數據規模的擴?和對處理能?要求的提升,眾多專門?向圖數據的處理系統應運??。本?先從傳統的離線處理?度切?,研究了如何基于向上和向外兩種擴展?式進??規模圖數據的分析,主要?作包括:

  • ?向單機外存的圖數據處理系統 GridGraph,通過?維劃分和流式處理的?式,盡可能地使?順序 I/O 訪問外存上的數據并盡可能地將需要隨機訪問的數據駐留在內存中。通過?種創新的雙滑動窗?的處理模型,結合選擇性調度來減少不必要的數據訪問,GridGraph 有效地降低了系統在進?圖計算時的 I/O 量,可以獲得與之前的最佳系統 GraphChi 和 X-Stream 相??分顯著的性能提升。
  • ?向分布式內存的圖數據處理系統Gemini,通過降低系統設計上分布式帶來的開銷并盡可能地優化本地計算部分的實現,使得系統能夠在獲得擴展性的 同時不失?效性。基于?速?絡的現狀及逐漸普及的發展趨勢,Gemini 提出了以計算為中?的設計原則,?改過去分布式圖數據處理系統過度重視通信 代價的理念,可以獲得與現有系統相?多達數?倍的性能提升。離線處理的模式需要?量的數據準備時間,其開銷甚??于實際處理的時間。 因此,本?設計并實現了 LiveGraph,?個同時兼具數據管理和分析計算功能的在線圖處理系統:
  • LiveGraph 創新性地使?了?種分布式?志結構來存儲圖的拓撲信息,通過給每個頂點的鄰接邊表預留?定空間來?持?速的數據更新,同時保留了良 好的數據局部性。LiveGraph 不僅在事務處理??具有相?各類數據庫解決?案更卓越的性能,其能夠直接在最新版本的圖數據上進?分析計算的特點 更是??降低了數據準備的開銷,使在線的圖數據處理成為了可能。

關鍵詞:?數據;圖數據處理;離線處理;在線處理;混合事務/分析處理

作者介紹:朱曉偉,他目前是清華大學計算機科學與技術系的博士研究生,他的博士生導師是陳文光。他的研究方向是于并行/分布式計算和大數據分析。

付費5元查看完整內容
北京阿比特科技有限公司