亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多層圖分析技術研究

近年來,越來越多的領域都使用“圖”來表示和管理數據,稱為“圖數據”。針對 圖數據的分析可以發現其中的結構特征、頻繁模式、演變規律等有用的知識,具有 重要的科研意義和應用價值。隨著研究的深入,人們發現現實世界的圖數據往往 包含數據對象間多種類型的關系。例如,社交網絡數據包括多個社交媒體組成的 網絡;交通網絡數據涵蓋了多種交通工具組成的網絡。這種圖數據稱為“多層圖”, 其每一層包含了數據對象間某種特定類型的關系。

多層圖分析可以發現準確可靠、價值更高的知識。然而,多層圖分析面臨兩 方面的挑戰:一方面,單層圖上的計算語義在多層圖場景下不再適用,多層圖上 的計算語義更加復雜;另一方面,多層圖分析涉及多個圖層上的計算任務,使得 問題的固有計算復雜性大大增加。現有的多層圖分析方法在計算語義和算法設計 兩個方面都存在缺陷,不能很好的解決多層圖分析的有關問題。

本文綜合運用數據分析的相關理論、技術和方法,對于多層圖分析進行了系統研究。本文同時考慮了無概率的普通多層圖和帶概率的多層圖,從圖數據的稠 密性、可靠性、傳播性和相似性四方面重要性質出發,對多層圖分析領域中的一 系列重要問題進行了深入研究,主要研究成果如下:

  1. 本文研究了多層圖上的多樣化稠密區域發現問題,該問題在生物蛋白復合 體檢測和社區發現上具有重要應用。在無概率的普通多層圖模型基礎上,本文提 出了一種新的稠密區域概念 d-Coherent-Core(簡稱 d-CC),設計了兩種近似比為 1/4 的高效搜索算法來求解該 NP-難問題,算法在結果質量和執行時間兩個方面 均優于基于準團的傳統算法。d-CC 概念同時刻畫了稠密區域的稠密度和支持度兩 方面重要特性,滿足唯一性、包含性和層次性 3 個重要數學性質。自底向上和自 頂向下兩種搜索算法采用了高效的搜索策略和剪枝方法,分別適用于支持度參數 較小和較大兩種情況。真實數據上的實驗結果表明:自底向上和自頂向下兩種搜 索算法是高效、準確的。

  2. 本文研究了多層圖上的 top-k 可靠頂點搜索問題,該問題在通信網絡中具 有重要的研究意義,相比基于閾值的搜索問題自適應性更好。本文給出了一種圖 層帶概率的多層圖模型,提出了一種新的多層圖計算框架——共享計算,其可以 有效利用多層圖不同圖層間的重疊結構以減少搜索代價、提高算法效率。基于此,本文設計了求解 top-k 可靠頂點搜索問題的共享 BFS 精確算法和隨機算法。真實 數據上的實驗結果表明:共享 BFS 精確算法具有很高的效率和擴展性;共享 BFS 隨機算法具有很高的準確率。

  3. 本文研究了多層圖上的影響力最大化問題,該問題在病毒式營銷和輿情控 制中應用廣泛。為描述影響力最大化問題中的圖數據,本文給出了一種帶概率的 多層圖模型,其可以表示由于邊的不確定性而形成的多層圖。針對已有算法的缺 陷,本文設計了一種能夠同時達到高時間效率、高結果質量、低內存開銷和高健 壯性的影響力最大化算法,具有線性的時間和空間復雜度。該算法采用高質量的 分數估計方法和增量式的分數更新方法,在實際社交網絡中表現出良好的性能和 很高的擴展性。

  4. 本文研究了多層圖上 SimRank 頂點相似性測度問題,該問題是推薦系統、 實體識別等眾多應用的基礎。在帶概率的多層圖模型基礎上,本文嚴格給出了符 合其可能世界語義的 SimRank 相似性測度定義,設計了高效、準確的計算頂點間 SimRank 相似性的方法。同時,作為 SimRank 相似性測度的基礎,本文提出了多 層圖上隨機游走的定義,嚴格證明了這一定義滿足馬爾可夫性,設計了計算隨機 游走概率的高效算法。真實數據上的實驗結果表明:本文提出的 SimRank 算法是 高效、準確的;本文提出的 SimRank 測度比傳統測度在實際應用中效果更好。

付費5元查看完整內容

相關內容

非易失內存系統中的寫優化和持久化技術研究

現代處理器的多核化發展趨勢和大量數據密集型應用的出現,使得計算機對高 容量主存的需求越來越迫切。現代計算機主存的主要存儲介質是 DRAM (dynamic random access memory)。但是,由于在存儲單元擴展和能耗效率方面的局限性, DRAM 很難做到更大的容量。新型的非易失內存(non-volatile memory,NVM)可 以有效地避免 DRAM 中存在的存儲單元擴展和能耗效率問題,從而被考慮作為下一 代主存的主要存儲介質。但是,現代的計算機系統都是面向傳統的 DRAM 主存設計 和優化的,在當前的計算機系統中使用 NVM 面臨著寫優化和數據持久化兩方面的 挑戰。在寫優化方面,由于 NVM 都是通過改變存儲介質的物理狀態來存儲數據的, 物理存儲單元被復寫一定次數后會失效而具有有限的寫耐久性,如何對 NVM 做有 效的寫優化處理來提升其耐久性和性能是關鍵;在持久化方面,NVM 系統中的數 據從 CPU 寫入到主存時就需要做數據持久化處理,如何使用有效的持久化技術來保 證數據的正確持久化和故障時的一致性是關鍵。另外,在一些應用場景如端設備上, NVM 主存還面臨著安全性問題,這是因為 NVM 在系統關機后依然保存著數據而 產生數據殘留,因此需要在 NVM 上使用內存加密。本文分別對非加密和加密 NVM 面臨的寫優化和持久化挑戰展開研究并提出有效的解決方案。

為了提升非加密 NVM 的寫耐久性,提出了一個面向 NVM 的寫優化數據組織 結構 Path Hashing。Path Hashing 是一個基于哈希的數據結構,使用了一個新的寫優 化哈希沖突處理方法,即位置共享,使得哈希數據結構中的插入和刪除操作不會產 生額外的 NVM 寫。通過進一步使用雙路徑哈希和路徑縮減技術,Path Hashing 可以 在哈希表空間利用率和請求延遲方面獲得高的性能。實驗結果表明,Path Hashing 不 會造成額外的 NVM 寫從而提升了 NVM 的耐久性,并可以達到 95% 以上的哈希表 空間利用率,與現有哈希表方法相比也實現了更低的請求延遲。

為了保證非加密 NVM 中數據的正確持久化和一致性,提出了一個面向 NVM 的持久化數據組織結構 Level Hashing。Level Hashing 在實現寫優化和降低開銷的同。時,可以保證 NVM 中哈希數據結構故障時的數據一致性并且支持高效地擴容操作。Level Hashing 提出了一個基于共享的兩層哈希表,它的搜索、插入、刪除和更新操 作在最差情況下具有常數級的時間復雜度,且很少產生額外的 NVM 寫。為了低開 銷地保證數據一致性,Level Hashing 對插入、刪除和擴容操作實現了免日志的一致 性保證。為了高效地擴容哈希表,Level Hashing 提出了一個原地擴容技術,這種方 法只需要重新哈希 1/3 的哈希桶而不是整個哈希表就可以完成擴容,從而顯著減少 了重哈希的桶數并提高了擴容性能。實驗結果顯示,與現有最好的哈希數據結構相 比,Level Hashing 獲得了 1.4 ? 3 倍的插入加速比、1.2 ? 2.1 倍的更新加速比和 4.3 倍的擴容加速比。

為了提升加密 NVM 的寫耐久性,提出了一個面向加密 NVM 的寫優化內存架 構 DeWrite。DeWrite 使用內存加密機制來保證 NVM 中的數據安全,并通過消除重 復的內存寫來提升 NVM 的使用壽命和運行性能。DeWrite 提出了一個輕量級內存行 粒度的數據去重技術來解決在加密 NVM 上執行低延遲的在線去重的挑戰,并提出 操作并行和元數據共享策略來高效整合數據去重和內存加密技術,以提高系統的時 間和空間效率。實驗結果顯示,和傳統的加密 NVM 方案相比,DeWrite 減少了平均 54% 的 NVM 寫操作數量。同時,DeWrite 對加密 NVM 中的內存讀操作和寫操作分 別加速了 3.1 倍和 4.2 倍,且減少了 40% 的能耗開銷。

為了保證加密 NVM 中數據的正確持久化和一致性,提出了一個面向加密 NVM 的持久化內存架構 SuperMem。SuperMem 是基于直寫式計數器 cache 的持久化技術, 有效地避免了現有基于寫回式計數器 cache 的持久化技術在備用電池的使用、可移 植性和恢復延遲等方面的問題。為了減少直寫式計數器 cache 帶來的額外的性能開 銷,SuperMem 采用了一個局部性感知的計數器寫聚合方法,通過探索計數器存儲 和數據寫分布的空間局部性來減少寫請求的數量;并采用了一個跨 bank 的計數器存 儲方法來高效地分發數據和計數器寫到不同的 bank 上,利用 bank 的訪問并行性來 加速內存寫。實驗結果顯示,SuperMem 使用計數器寫聚合方法減少了高達 50% 的 寫操作數量,使用跨 bank 的計數器存儲方法提升了最高 2 倍的系統運行性能。

付費5元查看完整內容

城市環境下的移動數據分析與行為建模研究

在全球城鎮化進程方興未艾、我國轉向高質量的新型城鎮化發展的背景下,深 入理解城市環境下的移動行為模式是提升城市在規劃、管理、交通等方面綜合能力 的重要研究課題。近年來,通過智能終端、移動互聯網和社交媒體等多種渠道采集 的移動數據日益豐富,為研究城市移動數據分析與行為建模問題提供了契機。該研 究課題存在以下挑戰:首先,移動數據體量大、質量低,現有數據挖掘算法難以直 接適應;其次,城市環境下的移動行為模式復雜多樣,且與城市結構緊密關聯,現 有移動模型難以刻畫;最后,移動數據極易泄漏用戶隱私,目前仍然缺乏有效的隱 私保護方案。針對以上挑戰,本文對多尺度復雜移動行為建模、結合城市結構的移 動行為建模和保護移動數據隱私安全三個關鍵問題展開研究,為系統認知城市環 境下的移動行為模式提供了理論模型與關鍵技術。論文的主要創新點與貢獻如下:

第一,在個體移動行為建模方面,本文重點研究了意圖感知的移動行為模式識 別問題。首先,通過大規模真實數據分析證明了已有工作基于社交媒體簽到數據推 斷用戶移動意圖的方法存在顯著誤差,43%的簽到數據與真實移動行為不符。其次, 提出了一種基于無標注移動數據的意圖感知的移動模式識別算法,在用戶職業推 斷和訪問地點類型推斷上較基線算法取得了 112.5%~126.4%的性能提升。

第二,在群體移動行為建模方面,本文通過建模用戶連接移動網絡的行為模式, 建立了基于移動網絡連接數據的高質量群體移動行為估計算法,其較基線算法降 低了 22.5%的誤差。在此基礎上,本文進一步研究了城市結構感知的群體移動模式 識別問題,并提出了一種基于頻譜分解的規律性和隨機性群體移動行為分解算法。

第三,在移動行為驅動的城市演化方面,研究了移動行為與城市演化的內在關 聯,提出了基于個體移動行為模式的城市演化模型,其在微觀層面建模了個體移動 的關鍵行為規律,并在宏觀層面準確預測了城市演化中形態、面積、人口的分布規 律,為關聯微觀層面的移動行為和宏觀層面的城市演化搭建了重要的理論橋梁。

最后,在移動數據隱私保護方面,揭示了移動數據中個體移動行為的高唯一性 和強規律性分別會對匿名個體移動數據和聚合群體移動數據帶來嚴重的去匿名攻 擊和軌跡恢復攻擊的隱私風險。基于分析所得的個體移動行為中導致隱私風險的 關鍵因素,提出了通過時空泛化和添加噪音來隱藏移動行為規律的隱私安全保護 算法,實現了高效、可靠的移動數據隱私保護。

付費5元查看完整內容

深度預測學習問題與方法研究

隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文面向這類數據的時間與空間結構特性,系統研究基于神經網絡的 深度預測學習方法。該方法旨在學習時空序列背后的演變規律,并對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其復雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下游語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關系,每個階段包含 2-3 個創新點:

第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基于 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。

第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用于存在固有動力學模式但趨勢信息相對復雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。

第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 系推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機制, 旨在同時促進模型對短期時空特征的感知和對長期語義關系的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了面向時空數據的深度預測學 習是一種有效的無監督表征學習框架。

此外,本文還設計了一套名為 PredLearn 的模型庫,從系統實現的角度對上述 創新性方法及其特點和適用范圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最后,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平臺的技術轉化。

付費5元查看完整內容

軟件系統網絡化建模、質量度量與保證

軟件開發活動中,質量問題層出不窮。例如軟件功能沒有滿足用戶的需求,軟件 不健壯,由于低可靠性而引起的經常性失效,交付有缺陷的軟件產品,需求不完整 亦或概念模糊等。多數情況下,軟件產品問題發生原因是質量監控人員沒有及時發 現問題并且修正,包括未對設計與需求進行評審或者評審方案不具備有效性,導致 開發過程中常常帶著問題進入下一階段的研發。因此需要花費更多的人力物力和時 間來糾正問題。因而,軟件質量保證是解決上述問題的有效手段之一。

經過長期的研究和實際案例分析,雖然現有軟件質量度量方法的有效性已經在 實踐中得到了檢驗,它們依然存在著許多不足之處,如傳統的方法側重于微觀層面 的統計,使得開發人員難以在較高層次分析和度量軟件體系結構的全局特性;現有 的質量模型企圖以單一模型廣泛地應用于軟件和信息系統的開發過程,但這與質量 本身的特征多樣性相背離;軟件質量模型設計的初衷沒有考慮其在軟件開發過程中 的應用場景,并未對軟件開發中的特定活動提供相應支持。因此開發出一個操作性 強,具有較高應用價值且能夠高效地發現質量隱患的模型仍是一個開發性的課題。本文圍繞著軟件質量模型構建、質量保證及質量改善開展工作,主要的研究內容包括:

(1) 針對現有的軟件質量模型均以靜態視角描述軟件某單一維度結構特征的局 限性,本文從多粒度、多類型依賴關系及多功能剖面等角度出發,提出了多維度軟 件網絡模型。并結合概率風險分析理論評估軟件設計的缺陷及軟件模塊的風險,借 助于多維度網絡模型將軟件系統映射為多功能剖面,使用故障樹模型分析不同功能 剖面上節點的組合失效因果鏈,給出了一種基于故障樹分析的可靠性度量方法。通 過實驗分析,驗證了上述方法可以有效檢測軟件高風險的關鍵節點,詮釋了軟件系 統拓撲結構因素與系統可靠性的相關性,可作為軟件設計早期階段確保軟件設計質 量的指導準則。

(2) 在軟件集成測試的場景之中,基于多維度軟件網絡模型,結合軟件風險分析 方法提出了一種兼顧測試成本與測試效率的集成測試序列生成算法。利用成本收益。分析方法,在生成測試用例的過程中保證兩條原則:一是為高風險的類賦予較高權 重,二是最小化測試樁復雜度。在此基礎上,我們從構造測試樁的成本和測試序列 對軟件系統運行風險的影響兩個方面,提出了評估測試序列優劣的度量方案及針對 集成測試序列合理分配測試資源的方法。通過與現有算法的實驗對比分析,證明了 所提出算法生成的類級集成測試序列,既能夠保證風險因子高的節點優先被測試, 又降低了構造測試樁的總復雜度,有效地降低了測試代價。

(3) 將本文提出的軟件質量模型應用于軟件回歸測試的場景之中,以保障軟件產 品質量。在多維度軟件網絡模型基礎上,結合可靠性度量方法提出了一種基于動態 反饋機制的自適應測試用例優先級排序技術。在計算測試用例優先級的過程中,利 用已經執行的測試用例對軟件可靠性變化信息進行動態反饋,以不斷更新系統的可 靠性數值,進而高效地定位到軟件缺陷,提高故障檢測效率。通過在不同的軟件系 統的實驗分析,驗證了所提出的自適應優先級排序技術具有較高的穩定性,尤其對 于嚴重故障具有較強的檢測能力,同時可以兼顧最大化軟件系統的可靠性。

(4) 為了從軟件體系結構的角度得到最佳的功能分布,基于多維度軟件網絡模型 提出了一種系統級別的自動化重構技術。將軟件系統映射成多依賴關系類型網絡和 方法級加權依賴網絡,借助于前者我們完成了重構預處理操作,借助于后者我們利 用加權聚類算法,根據“高內聚、低耦合”原則對系統的模塊進行重新劃分。為了移除 非繼承體系和繼承體系內部由內聚和耦合性引起的代碼壞味道,提出三種不同類型 的重構建議(包括搬移函數、搬移方法和提煉類重構的操作)。經過世界知名軟件公司 軟件質量評估專家的評估和驗證,證明了自動化重構算法的有效性。

付費5元查看完整內容

大規模數據中心帶寬分配與流量調度技術研究

隨著互聯網和計算機技術的發展,基于互聯網提供的各種應用和服務也越來越多了。作為這些應用服務載體的數據中心,其建設需求也在不斷增加。然而,在數據中心發展的過程中,還面臨著諸多亟待解決的關鍵科學問題和挑戰。本論文主要關注大規模數據中心中帶寬資源受限、帶寬資源分散、流量總量巨大、流量時空變化這四類挑戰,在總結現有方法和研究成果的基礎之上,圍繞數據中心內的流量、數據中心間的流量、以及用戶服務請求這三個研究主體,展開對帶寬分配和流量調度這兩類問題的研究,具體的研究內容和貢獻如下:

在數據中心內部,集群計算應用觸發的流量顯著增加,從而使得鏈路帶寬經常成為稀缺資源。為此,本文針對多種集群計算框架共享同一數據中心網絡所引發的鏈路帶寬傾斜使用、帶寬資源非彈性使用、以及應用完成時間被延長這三方面的后果,研究跨集群計算框架的帶寬分配和流量調度問題,以實現高鏈路帶寬利用率和低應用完成時間的雙重目標。在帶寬分配方面,本文提出了虛擬鏈路組抽象模型,以構建虛擬帶寬資源共享池,并據此設計了三層帶寬分配方法,從而保障應用的網絡性能,并實現帶寬資源在集群計算框架間的彈性共享。在流量調度方面,本文設計了虛擬鏈路組依賴關系圖,并提出了一個近似比為3/2的鏈路選擇算法,從而實現負載均衡化的流量調度,并同時緩解鏈路帶寬傾斜使用的情況。實驗結果表明本文所提出的方法能夠大幅降低應用完成時間,且提高鏈路帶寬資源利用率。

在數據中心間,本文主要圍繞成本和性能兩個目標來展開針對數據中心間流量的帶寬分配和流量調度問題研究。首先,在成本方面,本文發現Internet服務供應商(Internet Service Provider,ISP)對數據中心間流量所采用的比例計費模型中存在著相當多的免費時間間隙:在這些時間間隙上傳輸的流量不影響整體傳輸成本。為此,本文提出了基于李雅普諾夫優化(Lyapunov Optimization)技術的帶寬分配和流量調度方法,以利用比例計費模型中的免費時間間隙進行流量傳輸,從而減少流量傳輸成本。實驗結果表明本文所提出的方法能夠大幅減少流量傳輸成本。其次,在性能方面,本文發現在進行帶寬分配和流量調度時,靈活地放置網絡流的端點能夠顯著地減少跨數據中心傳輸的Coflow的完成時間。為此,本文研究流量端點放置、帶寬分配和流量調度的聯合優化問題,以最小化跨數據中心運行的Coflow的平均完成時間。為了解決該問題,本文首先提出針對單個Coflow的端點放置、帶寬分配和流量調度算法,然后將此算法擴展到多個Coflow的場景。實驗結果表明本文所提出的方法能夠大幅減少Coflow的平均完成時間。最后,在兼顧成本和性能方面,本文研究了針對數據中心間流量的帶寬分配和流量調度問題,并提出了基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)的分布式帶寬分配和流量調度算法,從而最小化供應商的網絡帶寬成本,并同時為數據中心間流量提供帶寬保障。實驗結果表明本文所提出的方法能夠大幅減少供應商的網絡帶寬成本,并同時還能為數據中心間流量提供帶寬保障。

在面向用戶服務方面,本文主要研究帶寬分配和用戶請求流量調度兩個子問題。在帶寬分配方面,本文首先提出了“數據中心間的網絡即服務”模型,以將用戶在Internet上傳輸的流量引入到了大公司(如Google和Microsoft)的私有廣域網中,并且重點研究該模型下的多用戶多供應商的帶寬分配問題。本文設計了基于兩階段斯塔爾伯格博弈(Stackelberg Game)理論的帶寬分配方法,實驗結果表明本文所提出的帶寬分配方法能夠同時保證供應商和用戶的利益。在用戶請求流量調度方面,本文研究了供應商帶寬資源效率和用戶延遲聯合優化的用戶服務請求調度問題,并提出了基于對數平滑技術的請求調度算法。實驗結果表明,本文提出的請求調度算法能夠大幅提高數據中心帶寬資源利用率,且還能明顯減少用戶的延遲。

付費5元查看完整內容

眾包數據庫關鍵技術研究

眾包通過整合計算機和互聯??眾來完成機器難以單獨處理的任務,其主要 包含三部分,任務發布者、眾包平臺和眾包??。傳統眾包技術中,三者的交互流 程過于復雜,導致任務發布者?法很好地管理任務。因此,眾包數據庫應運??, 其從系統層?出發整合三者之間復雜的交互流程,使得任務發布者可以通過描述 性語?輕松利???操作數據,降低了眾包的使?門檻。本?主要的內容如下:

  1. 眾包數據庫 CDB:為解決眾包平臺難使?、眾包任務難優化、眾包?? 質量難控制等問題,需要通過數據庫的思想來封裝眾包任務處理的流程。與傳統 數據庫不同的是,眾包數據庫的難點不僅在于解決單??標優化問題 (僅優化代 價),更重要的是建?細粒度的查詢優化模型,實現代價、質量和延遲的多?標優 化。因此,本?提出了?種新型的眾包數據庫系統 CDB 。不同于傳統的樹優化模 型,CDB ?次提出利?圖模型來進?細粒度查詢優化。其次,CDB 在該模型上建 ?統?的框架來進?多?標優化。該系統致?于幫助用戶高效率、高質量、低成 本地利用眾包來處理數據, 構建了一個中文眾包平臺 ChinaCrowd, 在華為公司落地 應用,取得了較好的經濟收益。另外,為?持較復雜的連接操作(基于記錄或者? 連接)與收集操作,本?分別提出了以下兩種算法框架對它們進?步優化。

  2. 基于眾包的連接操作:為解決現實世界中臟數據的復雜連接問題,需要引 ?基于眾包的連接操作。其難點在于代價較?,?尋求低代價?案時往往帶來質 量的降低。為此,本?提出?種低代價的眾包實體匹配框架 Power,在保持?質量 的同時??降低代價。本??先在待連接的記錄對上定義了?種偏序關系,然后 基于該關系對眾包??的回答進?推理,接下來循環提問直到所有記錄對的答案 都被推理出來。該方法致力于從理論和實踐兩方面優化眾包成本,實驗表明相比 于其他方法,Power 可在節省高達 100 倍的成本下進行高質量的數據連接。

  3. 基于眾包的收集操作:為解決傳統數據庫不能處理數據庫以外數據的特點, 眾包數據庫需要引?收集操作,其旨在通過眾包收集數據庫中缺失的實體。其難 點在于如何保證收集實體的正確性;如何盡可能收集相關領域的全部實體;如何 減少重復實體的數量以減少代價。為此,本?提出了基于激勵機制的眾包實體收 集框架 CrowdEC,其采?激勵的?式?勵??提供不重復的實體以降低代價。該 方法致力于建立收集操作的質量評價體系,從理論上給出了收集代價的競爭比保 證,使得用戶可實現低成本、高質量、高覆蓋的收集。

付費5元查看完整內容

基于深度學習的圖像處理算法研究

隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。

盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:

(1) 一種基于無監督學習的空間自適應圖像平滑算法

該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。

(2) 一種基于弱監督學習的圖像反光去除算法

該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。

(3) 一種基于多標簽聯合訓練的本征圖像分解算法

本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。

(4) 一種基于解耦學習的實時參數化圖像處理框架

傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。

付費5元查看完整內容

面向物體語義理解的視覺表示學習

在對真實世界中的物體進行描述時,人們通常使用大量抽象的語義概念,如物體的顏色、形狀、類別等。一方面,這些抽象的語義概念在不同的物體間是可以共享的,因此語義概念天然地可以將不同的物體聯系在一起,從而快速、準確地建立真實世界中身邊的物體與已知的物體之間的關聯,方便人們理解周圍的世界。另一方面,不同抽象程度的語義概念之間也并非完全相互獨立,而是存在一定的關聯關系,因此語義概念也是人在進行推理過程中的重要線索之一。綜上所述,語義概念在感知和認知任務中都有重要的作用,因此對于計算機視覺算法來說,掌握和理解語義概念具有巨大的潛在價值。具體來說,算法對于語義概念的理解可以分為以下四個層次:第一,識別物體具有的語義概念,如物體屬性預測、物體識別等;第二,挖掘物體間由語義概念組成的關聯,如統計出多個物體具有相同的屬性;第三,建立多維度的語義關聯知識網絡,如建立起尐馬少這類物體基本都具有尐四足少屬性這樣的知識;第四,利用語義關聯知識進行邏輯推理。近年來,盡管計算機視覺技術取得了長足的發展,但是由于物體語義的高度復雜,上述感知問題仍然沒有被完全解決。而在更高的層面上,只有很少的工作涉及到了挖掘不同抽象程度的語義概念之間的聯系。針對上述物體間及語義概念間的關聯學習,本文利用表示學習的方法,著手解決其中的三個關鍵問題:(就)快速、準確地識別物體間的語義關聯;(尲)在不同的語義抽象程度上挖掘物體間的關聯關系;(尳)使用盡可能少的人工標注,建立不同抽象程度的語義概念之間的關聯。在理論方面,本文提出的方法可以實現對圖像、場景的深層次理解,在一定程度上解決計算機視覺問題中的知其然而不知其所以然的問題。在應用方面,本文提出的方法在多個不同抽象程度的語義概念上建立了物體之間的關聯,并且通過學習的方式建立了不同抽象程度的語義概念之間的關聯,因此本文提出的方法在個性化圖像檢索、知識推理等任務上具有潛在的應用價值。具體地,本文以最常見的語義概念——類別作為出發點,逐漸深入地展開研究工作,圍繞物體間語義關聯及語義概念間的關聯學習開展以下四個主要工作:

(1)提出了一種端到端的有監督二值碼深度學習算法,用來解決大規模依據類別的圖像檢索任務。該任務中,給定一張查詢圖像,系統的目標是檢索屬于同類的數據庫中圖像。為了引入判別性,該方法對圖像對或圖像三元組之間。的距離進行約束,要求相似的圖像具有相似的二值碼,反之亦然。此外,針對哈希編碼學習中的二值量化導致的損失函數不可導問題,該方法提出了一種全新的量化損失約束,在保持判別性約束的同時,通過施加量化損失約束,減少量化損失帶來的檢索精度損失。

(2)提出了一種基于離散優化的兩階段有監督二值碼深度學習方法,主要針對上一個工作中,由于判別性損失與量化損失的優化目標不同而導致的判別性損失難以收斂到最優的問題。其中,在第一階段,通過設計一種離散優化算法,直接在漢明空間中迭代優化,得到具有強判別性的二值碼;在第二階段,通過訓練模型擬合優化得到的二值碼,從而避免判別性損失與量化損失之間的沖突,得到檢索精度更高的二值碼。

(3)提出了一種可以在多個維度的語義概念上建立物體間關聯的二值碼學習方法,從而相比于前兩個工作,可以更好地建模物體間豐富的語義關聯。該方法通過同時使用多個損失函數對模型進行訓練,將多種不同抽象程度的語義概念編碼到同一組二值碼中。因此,該方法可以根據不同用戶的特定需求,按照不同的方式使用學習到的二值編碼,進行相應的圖像檢索任務,找到在特定語義標準下相似的數據庫圖像。另外,考慮到目前公開的數據集中,只有極少數的數據同時具有多種不同抽象程度的語義概念的標注,為了使模型具有更強的泛化性能,該方法被設計為可以使用大量存在的部分標注數據進行訓練。

(4)設計了一種算法來自動地挖掘語義概念間天然存在的關聯,包括物體的類別之間的關聯,以及物體類別與視覺屬性之間的關聯。在前三個方法中,并沒有很好地利用不同語義概念之間的關聯進行模型的學習。其中一個重要原因是語義概念間關聯數據的匱乏。由于目前的公開數據集上幾乎沒有這類標注,該方法基于表示學習技術,自動地從大量圖像中學習視覺屬性的概念,并基于學習到的視覺屬性,建立類別層級結構中不同語義概念之間的關聯,從而構建起語義關聯知識。在應用層面上,該方法可以對物體識別模型的預測結果給出人類可理解的解釋。此外,該方法學習到的語義關聯知識,對于需要進行知識推理的計算機視覺認知任務具有巨大的潛在應用價值。

付費5元查看完整內容

論文題目:富信息網絡表示學習及典型應用問題研究

論文作者:楊成,博士,北京郵電大學計算機學院助理教授,2019年7月畢業于清華大學計算機科學與技術系,從事自然語言處理與社會計算相關方向的研究,博士期間在國內外頂級期刊會議上發表多篇論文,Google Scholar累計獲得引用近500次,并擔任國內外頂級會議包括ACL、EMNLP、SMP等在內的程序委員會成員和期刊的審稿人。

指導老師:孫茂松,教授,博士生導師,曾任清華大學計算機科學與技術系系主任,現任教育部在線教育研究中心副主任、清華大學計算機系黨委書記、清華大學大規模在線開放教育研究中心主任。

論文摘要:網絡是表達對象與對象間關系的常用數據形式,在人們的日常生活與工作學 習中無處不在。除去網絡的拓撲結構信息之外,真實的網絡數據中一般還包含著 根據節點的屬性、行為等產生的豐富信息,統稱為富信息網絡。隨著互聯網技術 和移動智能設備的發展,富信息網絡的數據規模飛速增長,并帶來了豐富的應用 任務和巨大的市場價值。在富信息網絡數據的規模及其相關應用的研究需求日益 增長的同時,數據驅動的深度學習技術已經在計算機視覺、自然語言處理等多個 領域取得了巨大的成功。如何讓已經在多個領域展示出其有效性的機器學習,特 別是深度學習技術,服務于富信息網絡數據及其典型應用已經在近年來成為人工 智能領域的研究熱點。 傳統的鄰接矩陣形式的網絡表示具有維度過高和數據稀疏兩大缺點,使得研 究者們無法在網絡數據上應用機器學習和深度學習技術。因此,研究者們轉而將 網絡中的節點編碼為低維稠密的向量表示,稱為網絡表示或者網絡嵌入。為網絡 中的節點學習其向量表示的任務稱為網絡表示學習。本文針對現有的網絡表示學 習工作的缺點和不足,系統性地進行了以下五個工作: 針對缺乏對于已有網絡表示學習算法的理論分析的問題,本文提出了網絡表 示學習的統一框架和增強算法。本工作將大多數現有的只考慮拓撲結構信息的網 絡表示學習方法總結為一個統一的兩步框架:鄰近度矩陣構造和降維,并進一步 提出了網絡嵌入更新(NEU)算法,該算法從理論上隱含地近似了高階鄰近度,可 以應用于已有網絡表示學習方法以提高它們的性能。 針對現有網絡表示學習方法忽略了網絡拓撲結構以外的豐富信息的問題,本 文提出了結合富特征信息的網絡表示學習。受前一工作中得到的最先進的網絡表 示學習算法實際上等同于一種特殊的矩陣分解的結論的啟發,該工作以文本特征 為例,在矩陣分解的框架下將節點的特征信息結合到網絡表示學習中。 針對現有網絡表示學習方法難以應用于相對復雜的典型應用問題的缺點,本 文以網絡表示學習技術作為模型底層,并根據特定的富信息網絡場景利用包括循 環神經網絡、卷積神經網絡在內的深度學習模型進行建模,在推薦系統和傳播預 測兩個富信息網絡典型應用問題中,創新性地提出了基于位置的社交網絡的推薦 系統、微觀層面的信息傳播預測和多層面的信息傳播預測的應用模型。

付費5元查看完整內容
北京阿比特科技有限公司