亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在這次演講中,我將對分布式DNN訓練和服務中更好的系統效率提出三個論點。

首先,對于模型同步,Ring All-Reduce不是最優的,但Blink是。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最優的網絡吞吐量。Blink是一項美國專利,目前正在被微軟使用。Blink獲得了許多業內人士的關注,比如Facebook(分布式PyTorch團隊)、字節跳動(TikTok應用的母公司)。Blink還登上了英偉達GTC中國2019以及百度、騰訊等的新聞。

其次,通過sensAI的類并行性可以消除通信。sensAI將多任務模型解耦到斷開的子網中,每個子網負責單個任務的決策。sensAI的低延遲、實時模式服務吸引了灣區的幾家風險投資公司。

第三,小波變換比分組調度更有效。通過有意地增加任務啟動延遲,小波變換在加速器上不同訓練波的內存使用峰值之間交錯,從而提高了計算和設備上的內存使用。

【伯克利Guanhua Wang博士論文】分布式機器學習系統的顛覆性研究

付費5元查看完整內容

相關內容

分布式機器學習研究將具有大規模數據量和計算量的任務分布式地部署到多臺機器上,其核心思想在于“分而治之”,有效提高了大規模數據計算的速度并節省了開銷。

深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html

本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。

在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。

為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。

付費5元查看完整內容

不可錯過!多模態機器學習課程!

多模態機器學習(MMML)是一個充滿活力的多學科研究領域,通過整合和建模多種交流模式(包括語言、視覺和聲學)來解決人工智能的一些最初目標。這一研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模式之間的偶然性經常被發現。本課程是一門研究生水平的課程,涵蓋了多模態機器學習的最新研究論文,包括表示、對齊、推理、生成、協同學習和量化方面的技術挑戰。本課程的主要目標是提高批判性思維能力,了解最新的技術成就,并了解未來的研究方向。

本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習,(2)平移與映射,(3)模態對齊,(4)多模態融合和(5)協同學習。這些包括但不限于,多模態自動編碼器,深度典型相關分析,多核學習,注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用,包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。

//cmu-multicomp-lab.github.io/adv-mmml-course/spring2022/schedule/

付費5元查看完整內容

【導讀】深度學習優化是構建深度學習模型中的一個關鍵問題。來自NUS的研究人員發布了《大規模深度學習優化》綜述論文,DL優化目標是雙重的: 模型準確性和模型效率。至于模型的準確性,研究了最常用的優化算法,從梯度下降變量到(大批量)自適應方法,從一階方法到二階方法。此外,還闡述了在大批量訓練中出現的泛化差距這一有爭議的問題。

深度學習在人工智能的廣泛應用中取得了可喜的成果。更大的數據集和模型總是產生更好的性能。然而,我們通常花更長的訓練時間在更多的計算和通信上。在這項綜述中,我們的目標是提供一個清晰的草圖,關于優化大規模深度學習的模型準確性和模型效率。我們研究最常用于優化的算法,闡述大批量訓練中出現的泛化缺口這一有爭議的話題,并回顧SOTA解決通信開銷和減少內存占用的策略。

//www.zhuanzhi.ai/paper/9f75513e868ff294b34ab94275cab043

引言

目前,深度學習(DL)已經在廣泛的人工智能應用領域取得了可喜的結果,包括計算機視覺(如圖像分類[42,47,66],目標檢測和分割[35,41,65,85]),自然語言處理(如語言建模[28,117]和機器翻譯[108,114]),信息檢索(例如,推薦系統[43])和許多其他。規模是DL上升的主要推動力[28,42,55,56,94,104]。更大的數據集和神經網絡在所有通常需要更多計算和更長的訓練時間的任務中總是產生更好的性能。

因此,近年來,學術界和工業界對在具有更高計算能力和內存限制的TPU和GPU等設備的大集群上擴展DL和分布式訓練的興趣激增。數據并行已經成為分布式訓練的主要實踐。它將一個大的批處理分布到多個設備,其中每個設備持有一個相同的模型副本,計算局部批處理的梯度,最后在每次迭代收集梯度來同步參數更新。通過最新的優化技術,它現在能夠在成千上萬的GPU設備上訓練非常大的批量。然而,這種規模的訓練需要克服算法和系統相關的挑戰。其中一個主要的挑戰是模型精度在超過某一點(例如32k)時的大批量下降。單純地增加批處理大小通常會導致泛化性能下降,并降低計算效益。此外,我們不能總是通過使用更多的處理器來提高訓練速度,因為通信成本是不可忽略的開銷。多處理器協同訓練一個任務可以減少整體訓練時間,但相應的處理器間通信成本很高,限制了模型的可擴展性。更糟糕的是,擁有數百億到數萬億參數的模型顯然無法裝入單個設備的內存中,簡單地增加更多設備也無助于擴大訓練規模。這種限制阻止DL研究人員探索更高級的模型體系結構。現有的工作研究和開發了克服這些問題的優化技術,以加速大規模深度神經網絡(DNN)的訓練。我們將這些工作分為兩類,一種努力在大規模設置下保持/提高模型的準確性,另一種強調模型的效率,設計不太需要通信和內存的算法。重要的是,它們不是相互排斥的,而是可以協同使用,以進一步加快訓練。

該綜述的總體結構如圖1所示。第2節介紹了一個典型的有監督學習神經網絡優化問題的公式。我們將大規模DL優化大致分為模型精度和模型效率兩部分。第3節介紹了梯度下降優化系列,包括梯度下降變種、動量SGD和自適應梯度算法。隨著具有數據并行性的大批訓練在DL中日益普及,同時也帶來了挑戰,第4節討論了在這一設置中存在的問題,并回顧了主要的SOTA優化策略來改善這種情況。第5部分深入探討了泛化差距——批量訓練中的一個辯論話題。第6節介紹了二階優化。然后我們將注意力轉向模型效率。第7節調研了通信瓶頸,第8節重點討論了高效存儲技術。最后,第9節對本文進行總結。

梯度下降優化算法

訓練DNN是一個優化過程,即在網絡中找到使損失函數最小的參數。梯度下降及其變體算法是最常用的神經網絡優化算法[87]。為了控制梯度下降法的振動,引入了動量控制的思想。此外,將學習率與前一階段的梯度相適應,有利于避免波動。在本節中,我們簡要梳理了目前主流的優化算法,包括梯度下降變分算法(3.1節)、動量算法(3.2節)和自適應梯度算法(3.3節)。

大批量訓練

大型DNN和大型數據集推動了深度學習的發展[28,42,55,56,94,104]。然而,在海量數據集上訓練大型模型是計算密集型的。例如,BERT和ResNet-50等SOTA DL模型在16個TPUv3芯片上訓練3天,在8個Tesla P100 GPU上訓練29個小時[28,42]。一種直觀的加速訓練的方法是增加更多的計算能力(例如,更多的GPU節點)并使用數據并行(見圖1)。考慮到通信(即在每次迭代時同步更新)是一個問題,必須盡可能多地利用每個GPU來分攤通信成本。因此,需要使用大批量來將更多的數據分配到每個GPU上。批量大小的非平凡增長常常導致測試性能下降,如[45,52,54,61]中觀察到的。我們在4.1節中描述了大批量引入的訓練難點,在4.2節中描述了大批量訓練的配方(即帶熱身策略的線性LR縮放),在4.3節中描述了其他補充策略,如自適應分層學習和4.4節中描述了自適應批量大小。最后在第4.5節中討論我們可以擴大批量的程度。

泛化差距

優化通常是一項極其困難的任務,尤其是在訓練神經網絡時。對于非凸高維函數,有可能存在許多局部極小點和鞍點。優化方法,如SGD,一般收斂于參數空間的不同區域,高度依賴于網絡架構的設計、優化器的選擇、變量初始化等多種考慮[92]。泛化這個術語指的是一個假設如何很好地適用于訓練集中沒有看到的新例子。如4.1節所述,我們可以看到,盡管訓練函數的值相似,但用大批量方法訓練的模型在測試數據上的表現要比小批量方法差[45,52,70,92]。這種泛化性能的持續下降被稱為泛化差距。弄清這一差距的根源并找到消除這一差距的方法具有重大的現實意義,但仍是一個懸而未決的問題。本節的結構如下。第5.1節介紹了sharp and flat (wide) minima的概念;5.2節討論了局部最小值的銳度/平整度與其泛化能力之間的關系;第5.3節解釋了所謂的泛化差距,第5.4節提供了一個有點相反的解釋。

二階優化

DL中的優化,無論是理論上還是經驗上,目前都由一階梯度方法主導[2,3,15,21,26,116]。二階優化方法,包括二階導數和/或數據的二階統計,是遠遠不普遍的,盡管強大的理論性質,由于其令人望而卻步的計算,內存和通信成本。在本節中,我們將在6.1節中建立二階優化基礎知識,從6.2節中的經典牛頓方法開始,并轉向一些最新的算法,如Hessian-Free方法(在6.3節中)、K-FAC(在6.4節中)和Shampoo40

通信

大規模分布式訓練提高了訓練更深、更大模型的效率,其中采用了數據并行,充分利用了多個workers的計算能力。SGD計算效率高,并且得到了DL工具包TensorFlow[1]、PyTorch[77]和DeepSpeed[83]的良好支持,因此通常被選擇為優化方法。在數據并行的SGD中,每個worker處理其訓練數據的隨機小批,然后通過一個All-Reduce步驟或通過一個集中的參數服務器來同步本地更新,該服務器聚集了來自所有worker的隨機梯度,并采取Broadcast步驟,將更新后的參數向量傳送回所有workers。重復梯度同步的過程,直到滿足適當的收斂準則。

內存

更大的模型通常需要更多的計算和內存資源來訓練。訓練這些模型所需的內存數量可能比單個GPU上可用的內存數量大幾個數量級。在本節中,我們將看到一些流行的技術如何成功地在不影響模型性能的情況下降低訓練神經網絡的內存需求。第8.1節介紹了混合精度訓練[72]如何使用更少的位來保留訓練期間的權值和梯度,從而降低內存負擔。第8.2節介紹了兩種有效內存的自適應優化器,Adafactor[93]和SM3[10]。與上述方法正交,ZeRO[81]不改變模型優化方法,也不影響模型收斂,而是通過消除數據并行中的冗余來降低內存成本(章節8.3)。

結論

鑒于更大的數據集和更大的模型持續產生的準確性的顯著提高,大規模的深度學習已成為一個不可避免的趨勢。隨著數據集大小和DNN復雜度的增加,深度學習的計算強度、通信成本和內存需求均成比例增加。為了提高訓練速度已經付出了相當大的努力。在本文中,我們給出了大規模深度學習優化的概述。一般來說,目標是雙重的: 模型準確性和模型效率。至于模型的準確性,我們研究了最常用的優化算法,從梯度下降變量到(大批量)自適應方法,從一階方法到二階方法。此外,我們還闡述了在大批量訓練中出現的泛化差距這一有爭議的問題。至于模型的效率,我們總結了SOTA技術在解決通信開銷和內存占用方面的昂貴成本。我們希望這篇文章可以為那些有興趣進行大規模訓練的人提供一個清晰的草圖。

付費5元查看完整內容

在現代人工智能中,大規模深度學習模型已經成為許多重要互聯網業務背后的核心技術,如搜索/廣告/推薦系統/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型將模型規模擴大到10億甚至數萬個參數,幾乎所有學習任務的準確性都得到了顯著提高。使用云集群的分布式訓練是及時成功地訓練此類大規模模型的關鍵。開發更先進的分布式訓練系統和算法既可以降低能源成本,也可以讓我們訓練更大的模型。此外,開發像聯邦學習這樣的顛覆性學習模式也至關重要,它不僅可以保護用戶的隱私,還可以分擔處理前所未有的大數據和模型的負載。這次演講將主要關注大規模模型的分布式ML系統:云集群的動態分布式訓練(//DistML.ai)和邊緣設備的大規模聯合學習()。在第一部分中,我將介紹PipeTransformer,這是一種用于分布式訓練Transformer模型(BERT和ViT)的自動化彈性管道。在PipeTransformer中,我們設計了自適應的飛凍結算法,可以在訓練過程中逐步識別和凍結部分層,并設計了彈性流水線系統,可以動態減少GPU資源來訓練剩余的激活層,并在已釋放的GPU資源上分叉更多的管道,以擴大數據并行度的寬度。第二部分,我將討論可擴展的聯邦學習,用于在資源受限的邊緣設備和FedML生態系統上訓練大型模型,其目標是針對CV NLP、GraphNN和IoT等多種AI應用在邊緣進行無處不在的分布式訓練。

地址:

作者: Chaoyang He,美國洛杉磯南加州大學計算機科學系博士研究生

付費5元查看完整內容

在21世紀,人們與技術互動的方式發生了重大變化,自然語言生成(NLG)發揮著核心作用。智能手機和智能家居設備的用戶現在希望他們的設備能夠了解他們的處境,并在交互中產生自然的語言輸出。本文從人類溝通的三個方面來確定如何讓機器聽起來像人類——風格、內容和結構。本文提供了深度學習的解決方案來控制這些變量在神經文本生成。我首先概述了可以操縱的各種模塊,以進行有效的可控文本生成。我提供了一種使用反向翻譯進行樣式轉換的新穎解決方案,并引入了兩個新任務,將來自非結構化文檔的信息利用到生成過程中。我還為句子排序任務提供了一種新的優雅設計,以學習有效的文檔結構。最后,我提供了一個關于可控制文本生成應用的倫理考慮的討論。提出的工作,我計劃:(I) 提供對各種可控文本生成技術的經驗理解,(ii) 提供對樣式的計算理解并構建有用的樣式表示,(iii) 設計有效的內容基礎生成方式,以及(iv) 探索可控文本生成的更廣泛影響。

//www.cs.cmu.edu/~sprabhum/

付費5元查看完整內容

【導讀】現實應用中,不同硬件很多,對于IoT設備、以及FPGA、GPU和CPU的搜索結果的是不一樣的。如果對于每一個硬件都需要重新訓練并且重新搜索的話,是非常昂貴的,所以為了降低搜索成本,MIT韓松博士等學者提出一次訓練一個Once for All(一勞永逸)的網絡,可以從這個網絡中抽取不同的子網絡,定制到不同的硬件上,這樣就做到了只需要訓練一次,極大降低NAS的搜索成本。對很多IoT設備以及不同的手機,包括LG的手機、三星的手機、Google的手機,都定制了不同的網絡,定制的開銷是非常低的,無論是延遲還是準確率都全面超越了EfficientNet和MobileNetV3。

韓松博士在ICLR-NAS論壇做了報告,64頁PPT詳細講述了Once-for-All Network.

地址:

//sites.google.com/view/nas2020

訓練和搜索來訓練一個支持多種架構設置的一次性網絡(OFA)。通過從OFA網絡中進行選擇,不需要額外的訓練,就可以快速地得到一個專門的子網絡。我們還提出了一種新的漸進式縮減算法,一種廣義剪枝方法,它比剪枝方法(深度、寬度、內核大小和分辨率)在更多的維度上減少模型大小,從而可以獲得數量驚人的子網絡(> 1019),這些子網絡可以適應不同的延遲約束。在邊緣設備上,OFA始終優于SOTA NAS方法(與MobileNetV3相比,ImageNet top1精度提高了4.0%,或與MobileNetV3相同的精度,但比MobileNetV3快1.5倍,比有效凈w.r快2.6倍)。減少了許多數量級的GPU時間和二氧化碳排放。特別是,OFA在移動設置(<600M MACs)下實現了新的SOTA 80.0% ImageNet top1精度。OFA是第四屆低功耗計算機視覺挑戰的獲獎方案,包括分類跟蹤和檢測跟蹤。

韓松 本科畢業于清華大學,博士畢業于斯坦福大學,師從 NVIDIA 首席科學家 Bill Dally 教授。他的研究也廣泛涉足深度學習和計算機體系結構,他提出的 Deep Compression 模型壓縮技術曾獲得 ICLR'16 最佳論文,ESE 稀疏神經網絡推理引擎獲得 FPGA'17 最佳論文,對AI算法在移動端的高效部署影響深遠。他的研究成果在 Xilinx、NVIDIA、Facebook、Samsung 得到廣泛應用。韓松在博士期間與同為清華大學畢業的汪玉、姚頌聯合創立了深鑒科技(DeePhi Tech),其核心技術之一為神經網絡壓縮算法,隨后深鑒科技被美國半導體公司賽靈思收購。2018 年,韓松加入MIT擔任助理教授,入選2019年度麻省理工科技評論35 Innovators under 35,并在2020年獲得NSF CAREER Award。

ICLR 2020論文 Once for All: Train One Network and Specialize it for Efficient Deployment

作者:Han Cai、Chuang Gan、Song Han 論文鏈接:

將神經網絡部署在各種硬件平臺時,不同的部署場景需要匹配的網絡架構,同時網絡還要盡可能精簡。傳統的做法是手動設計、或者使用 AutoML 搜索網絡架構,之后針對每個不同網絡重新進行訓練。這樣的做法成本很高,也不具有擴展性。隨著需要部署的環境數量增加,這種做法的成本呈線性上升。本文提出了一種名為「一次構建、處處部署(Once for all:OFA)」的方法,可以高效設計神經網絡架構,并同時處理多種部署情況。研究人員的方法摒棄了給每一種情況設計一個專門模型的做法,而是提出訓練一個網絡,支持多種架構設定(網絡深度、寬度、核大小和清晰度等)。給定部署場景后,網絡可以搜索出一個特定的子網絡。這個子網絡是從原始網絡中搜索出來的,而且不需要訓練。

圖 1:左圖:當訓練了一個網絡后,根據部署條件的不同,從該網絡中搜索出一個子網絡。中圖:這樣的搜索方法的設計成本從 O(N) 降低到了 O(1)。右圖:相比其他網絡,論文提出的方法能夠在降低延遲的情況下更好地提升效果。

圖 2:階段性縮減流程示意。

付費5元查看完整內容
北京阿比特科技有限公司