廣告系統的神經網絡通常從多種資源中獲取輸入,如查詢廣告相關性、廣告特征和用戶畫像。這些輸入被編碼成一個或多位熱的二進制特性,通常每個示例只有一小部分非零的特性值。在線廣告行業的深度學習模型可能有TB級的參數,這些參數既不適合GPU內存,也不適合計算節點上的CPU主內存。例如,一個贊助的在線廣告系統可以包含超過10^11個稀疏特征,使得神經網絡成為一個大約有10tb參數的大型模型。本文介紹了一種用于大規模深度學習ADS系統的分布式GPU分級參數服務器。我們提出了一種利用GPU高帶寬內存、CPU主存和SSD作為三層分層存儲的分層工作流。所有的神經網絡訓練計算都包含在GPU中。對真實數據的大量實驗證實了該系統的有效性和可擴展性。在MPI集群中,一個4節點的層次化GPU參數服務器可以比內存中150節點的分布式參數服務器多訓練2倍以上的模型。此外,我們提出的系統的性價比是MPI-cluster解決方案的4-9倍。
考慮到當今使用的各種大數據應用程序的復雜性,cpu密集型的數據處理任務已經變得至關重要。降低每個進程的CPU利用率對于提高應用程序的總體速度非常重要。
這本書將教你如何執行計算的并行執行,將它們分布在一臺機器的多個處理器上,從而提高大數據處理任務的整體性能。我們將討論同步和異步模型、共享內存和文件系統、各種進程之間的通信、同步等等。
你會學到什么
Neural networks of ads systems usually take input from multiple resources, e.g., query-ad relevance, ad features and user portraits. These inputs are encoded into one-hot or multi-hot binary features, with typically only a tiny fraction of nonzero feature values per example. Deep learning models in online advertising industries can have terabyte-scale parameters that do not fit in the GPU memory nor the CPU main memory on a computing node. For example, a sponsored online advertising system can contain more than $10^{11}$ sparse features, making the neural network a massive model with around 10 TB parameters. In this paper, we introduce a distributed GPU hierarchical parameter server for massive scale deep learning ads systems. We propose a hierarchical workflow that utilizes GPU High-Bandwidth Memory, CPU main memory and SSD as 3-layer hierarchical storage. All the neural network training computations are contained in GPUs. Extensive experiments on real-world data confirm the effectiveness and the scalability of the proposed system. A 4-node hierarchical GPU parameter server can train a model more than 2X faster than a 150-node in-memory distributed parameter server in an MPI cluster. In addition, the price-performance ratio of our proposed system is 4-9 times better than an MPI-cluster solution.
題目: Learning@home: Crowdsourced Training of Large Neural Networks with Decentralized Mixture-of-Experts
摘要:
最近在深度學習方面的許多突破都是通過在海量數據集上訓練越來越大的模型實現的。然而,訓練這樣的模型可能會非常昂貴。例如,威震天在一個價值2500萬美元的GPU集群上訓練了83億參數的語言模型。因此,大多數研究人員無法負擔訓練最先進模型的費用并為其發展作出貢獻。假設,研究人員可以用志愿者提供的數千臺常規PC來眾包大型神經網絡的訓練。1萬臺價值2500美元的臺式機的原始計算能力使價值2500萬美元的服務器pod相形見絀,但是使用傳統的分布式訓練方法無法有效地利用這種能力。在這項工作中,我們提出了Learning@home:一種神經網絡訓練范式,用于處理數百萬連接不良的參與者。我們分析了該范例的性能、可靠性和架構約束,并將其與現有的分布式培訓技術進行了比較。
報告主題:How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE)
報告摘要:
數據量和復雜性每天都在增加,因此,公司必須了解其業務需求才能保持競爭優勢。得益于AI,機器學習和深度學習(DL)項目(例如Apache Spark,H2O,TensorFlow和Horovod),這些組織不再需要鎖定特定的供應商技術或專有解決方案來維持這種競爭優勢。這些功能豐富的深度學習應用程序可直接從開源社區獲得,其中包含針對特定用例量身定制的許多不同算法和選項。 企業面臨的最大挑戰之一是如何以一種簡單且一致的方式部署這些開源工具(請記住,其中一些工具具有操作系統內核和軟件組件)。例如,TensorFlow可以利用NVIDIA GPU資源,但是在GPU上運行TensorFlow要求用戶在主機上設置NVIDIA CUDA庫,并安裝和配置TensorFlow應用程序以利用GPU計算工具。設備驅動程序,庫和軟件版本的組合可能令人望而生畏,并可能對許多用戶造成失敗。 此外,由于GPU是一種高級資源,因此組織希望最大限度地利用它們。使用這些資源的群集需要按需配置,并在計算完成后立即釋放。 Docker容器是啟用這種即時集群置備和取消置備的理想選擇。它們還確保可重復且一致的部署。 Thomas Phelan演示了如何在安全的多租戶環境中使用Docker容器上的GPU硬件加速功能來部署AI,ML和DL應用程序,包括Spark,TensorFlow和Horovod。在Docker容器中使用基于GPU的服務確實需要仔細考慮,因此他還將探索一些最佳實踐。
嘉賓簡介
Thomas Phelan是BlueData的聯合創始人兼首席架構師。 此前,Silicon Graphics原始團隊的成員設計并實現了XFS,這是第一個商業上可用的64位文件系統。 他是VMware的一名早期員工,一名高級工程師和ESX存儲體系結構團隊的關鍵成員,他在其中設計和開發了ESX存儲I / O負載平衡子系統和模塊化可插拔存儲體系結構,并領導了許多關鍵團隊 存儲計劃,例如云存儲網關和vFlash。