在現代AI中,大規模的深度學習模型已經成為許多重要互聯網業務背后的核心技術,如搜索/ADs/推薦系統/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型將模型規模擴大到10億甚至萬億個參數,表明幾乎所有學習任務的精度都有了顯著提高。使用云集群進行分布式訓練是及時成功訓練此類大規模模型的關鍵。開發更先進的分布式訓練系統和算法既可以降低能量成本,也可以使我們訓練更大的模型。此外,開發聯邦學習這樣的顛覆式學習范式也至關重要,它不僅可以保護用戶的隱私,還可以分擔處理前所未有的大數據和模型的負擔。本次演講將主要討論用于大規模模型的分布式ML系統:用于云集群的動態分布式訓練(//DistML.ai)和用于邊緣設備的規模聯合學習()。
在第一部分中,我將介紹PipeTransformer,這是一種用于Transformer模型分布式訓練(BERT和ViT)的自動化彈性pipeline。在(zai)(zai)(zai)PipeTransformer中(zhong),我(wo)們設(she)計了一(yi)種自(zi)適應的(de)飛凍(dong)結(jie)算法,可以(yi)(yi)(yi)在(zai)(zai)(zai)訓(xun)練過程中(zhong)逐步識別(bie)并凍(dong)結(jie)某些層,以(yi)(yi)(yi)及(ji)一(yi)種彈(dan)性流水(shui)線系統(tong),可以(yi)(yi)(yi)動態(tai)減(jian)少(shao)GPU資(zi)源(yuan)來訓(xun)練剩余的(de)活動層,并在(zai)(zai)(zai)已釋放的(de)GPU資(zi)源(yuan)上分(fen)叉(cha)更多(duo)的(de)流水(shui)線,以(yi)(yi)(yi)擴大數據并行(xing)度(du)的(de)寬度(du)。在(zai)(zai)(zai)第二部分(fen)中(zhong),我(wo)將討論可擴展的(de)聯邦學(xue)習(xi),用于在(zai)(zai)(zai)資(zi)源(yuan)受限的(de)邊緣設(she)備和FedML生態(tai)系統(tong)上訓(xun)練大規模模型,旨在(zai)(zai)(zai)為各(ge)種AI應用(如CV NLP、GraphNN和IoT)在(zai)(zai)(zai)邊緣進行(xing)無(wu)處(chu)不在(zai)(zai)(zai)的(de)分(fen)布(bu)式訓(xun)練。
Chaoyang He是 FedML 聯合創始人兼 CTO,博士(shi)畢業于南加州(zhou)大學,他曾在華為、百度、騰訊任(ren)職,擁(yong)有豐富的(de)互聯網(wang)產品和(he)業務研(yan)發經驗(yan)。
在現代人工智能中,大規模深度學習模型已經成為許多重要互聯網業務背后的核心技術,如搜索/廣告/推薦系統/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型將模型規模擴大到10億甚至數萬個參數,幾乎所有學習任務的準確性都得到了顯著提高。使用云集群的分布式訓練是及時成功地訓練此類大規模模型的關鍵。開發更先進的分布式訓練系統和算法既可以降低能源成本,也可以讓我們訓練更大的模型。此外,開發像聯邦學習這樣的顛覆性學習模式也至關重要,它不僅可以保護用戶的隱私,還可以分擔處理前所未有的大數據和模型的負載。這次演講將主要關注大規模模型的分布式ML系統:云集群的動態分布式訓練(//DistML.ai)和邊(bian)(bian)緣設(she)(she)備的(de)(de)大(da)規模聯合學習()。在第(di)一部(bu)(bu)分(fen)中(zhong)(zhong),我將介紹(shao)PipeTransformer,這是(shi)(shi)一種(zhong)用于(yu)分(fen)布式(shi)訓(xun)練(lian)(lian)Transformer模型(BERT和ViT)的(de)(de)自動化彈(dan)性(xing)管道(dao)。在PipeTransformer中(zhong)(zhong),我們設(she)(she)計了自適(shi)應的(de)(de)飛凍(dong)結算(suan)法,可(ke)(ke)(ke)以在訓(xun)練(lian)(lian)過程(cheng)中(zhong)(zhong)逐步(bu)識別和凍(dong)結部(bu)(bu)分(fen)層,并(bing)設(she)(she)計了彈(dan)性(xing)流(liu)水線系統,可(ke)(ke)(ke)以動態減少GPU資(zi)源(yuan)(yuan)來訓(xun)練(lian)(lian)剩(sheng)余的(de)(de)激活層,并(bing)在已釋放的(de)(de)GPU資(zi)源(yuan)(yuan)上(shang)(shang)分(fen)叉更多的(de)(de)管道(dao),以擴(kuo)大(da)數據并(bing)行(xing)度的(de)(de)寬度。第(di)二(er)部(bu)(bu)分(fen),我將討論可(ke)(ke)(ke)擴(kuo)展(zhan)的(de)(de)聯邦(bang)學習,用于(yu)在資(zi)源(yuan)(yuan)受限的(de)(de)邊(bian)(bian)緣設(she)(she)備和FedML生態系統上(shang)(shang)訓(xun)練(lian)(lian)大(da)型模型,其(qi)目(mu)標是(shi)(shi)針對CV NLP、GraphNN和IoT等多種(zhong)AI應用在邊(bian)(bian)緣進行(xing)無處不在的(de)(de)分(fen)布式(shi)訓(xun)練(lian)(lian)。
地址:
作者: Chaoyang He,美國洛杉磯南加州大學(xue)計算(suan)機科學(xue)系(xi)博(bo)士(shi)研究生(sheng)
聯(lian)(lian)邦學(xue)習(xi)旨在在不犧牲本地(di)數(shu)據隱私的(de)情況下,從多個分(fen)散(san)的(de)邊緣設備(例如移(yi)動設備)或(huo)服(fu)(fu)務器中學(xue)習(xi)機器學(xue)習(xi)模(mo)(mo)(mo)型。最(zui)(zui)(zui)近的(de)自然語言處理技術依(yi)賴于(yu)深度學(xue)習(xi)和大(da)型預訓(xun)練(lian)語言模(mo)(mo)(mo)型。然而,大(da)型深度神經模(mo)(mo)(mo)型和語言模(mo)(mo)(mo)型都是用大(da)量數(shu)據訓(xun)練(lian)的(de),這(zhe)些數(shu)據通常位于(yu)服(fu)(fu)務器端。由(you)于(yu)文本數(shu)據廣泛(fan)來自最(zui)(zui)(zui)終用戶,在這(zhe)項工作(zuo)中,我(wo)們(men)研(yan)究了最(zui)(zui)(zui)近使用聯(lian)(lian)邦學(xue)習(xi)作(zuo)為學(xue)習(xi)框(kuang)架的(de) NLP 模(mo)(mo)(mo)型和技術。我(wo)們(men)的(de)綜述討論了聯(lian)(lian)邦自然語言處理的(de)主要挑戰,包括算法挑戰、系統挑戰以及隱私問(wen)題。我(wo)們(men)還對(dui)現有的(de)聯(lian)(lian)邦 NLP 評估方(fang)(fang)法和工具(ju)進行了嚴(yan)格審(shen)查。最(zui)(zui)(zui)后,我(wo)們(men)強調(diao)了當(dang)前的(de)研(yan)究差距(ju)和未(wei)來的(de)方(fang)(fang)向(xiang)。
ML規模(mo)(mo)化常(chang)常(chang)被低估。在多臺(tai)機器(qi)上訓練一個(ge)ML模(mo)(mo)型(xing)(最初是(shi)針對(dui)單個(ge)CPU/GPU實(shi)現的)到底(di)需(xu)要什么?一些痛點是(shi): (1) 需(xu)要編寫許多新代(dai)碼行來將代(dai)碼轉換為分布式版本(ben); (2)需(xu)要大(da)(da)量調整代(dai)碼以滿足系統/統計性(xing)能,這是(shi)模(mo)(mo)型(xing)開(kai)發(fa)的附加過程(cheng); (3)決定使用哪些/多少硬件資(zi)源(yuan)來訓練和部(bu)署模(mo)(mo)型(xing); (4) 從組(zu)織的角度出發(fa),在許多用戶和作(zuo)業之間實(shi)現資(zi)源(yuan)共享自動化,以滿足用戶的需(xu)求,同時使資(zi)源(yuan)利用率最大(da)(da)化,成(cheng)本(ben)最小化。
在本教程(cheng)中,我(wo)們將介紹自動化(hua)分(fen)布式ML基礎設施(shi)的(de)(de)(de)改進技術。本教程(cheng)涵蓋了對(dui)ML并行(xing)化(hua)至關重要的(de)(de)(de)三個領域: (1)對(dui)并行(xing)ML構建塊進行(xing)編組(zu)和標準化(hua); (2) ML并行(xing)表示(shi)(shi)(shi)和軟(ruan)件框架; (3)自動ML并行(xing)化(hua)的(de)(de)(de)算法和系(xi)統,以及在共享(xiang)集群(qun)上ML作業的(de)(de)(de)資(zi)源分(fen)配(pei)。通過(guo)(guo)揭示(shi)(shi)(shi)ML程(cheng)序的(de)(de)(de)獨特特征,并通過(guo)(guo)剖(pou)析成功案例(li)來揭示(shi)(shi)(shi)如何利用它們,我(wo)們為ML研(yan)究人員和實踐者(zhe)提供了進一步塑造(zao)和發展(zhan)SysML領域的(de)(de)(de)機會(hui)。
聽眾應該熟悉ML和(he)DL的基礎知識。了解TensorFlow、PyTorch和(he)分(fen)布式ML技(ji)術(shu)也有幫助,但不是必需的。
由螞(ma)(ma)蟻集(ji)團算(suan)法工程師胡斌斌、高級(ji)算(suan)法專(zhuan)家張(zhang)志強、資深算(suan)法專(zhuan)家周俊和(he)(he)北京(jing)郵電大學(xue)教(jiao)授(shou)石川聯合撰寫的(de)(de)(de)(de)《KGNN:Distributed Framework for Graph Neural Knowledge Representation》順利(li)入選(xuan)ICML2020 workshop(Bridge Between Perception and Reasoning: Graph Neural Networks & Beyond),該workshop由知名學(xue)者(zhe)(zhe)唐建、螞(ma)(ma)蟻集(ji)團研(yan)究員(yuan)宋(song)樂、斯坦福大學(xue)終身教(jiao)授(shou)Jure Leskovec聯合舉辦,并邀請(qing)了人工智能奠基者(zhe)(zhe)之一(yi)的(de)(de)(de)(de)Yoshua Bengio進行了keynote報(bao)告,該workshop旨在(zai)將不同領域(如深度學(xue)習、邏輯/符(fu)號推理(li)、統計關系(xi)學(xue)習和(he)(he)圖算(suan)法等)的(de)(de)(de)(de)研(yan)究人員(yuan)聚集(ji)起來(lai)討論系(xi)統和(he)(he)系(xi)統智能之間的(de)(de)(de)(de)潛在(zai)接口和(he)(he)集(ji)成,探索理(li)論基礎、模(mo)型和(he)(he)算(suan)法方面的(de)(de)(de)(de)新進展,沉淀新基準數(shu)據集(ji)和(he)(he)有影(ying)響力的(de)(de)(de)(de)應用(yong)。以下為該論文的(de)(de)(de)(de)解(jie)讀。
知(zhi)(zhi)識(shi)表(biao)示(shi)學習主要用于(yu)將知(zhi)(zhi)識(shi)圖(KG)融(rong)入各種在(zai)線(xian)服(fu)務中以提升(sheng)各個應用的(de)性(xing)能。現有的(de)知(zhi)(zhi)識(shi)表(biao)示(shi)學習方法(fa)雖然(ran)在(zai)性(xing)能上有了很大的(de)提高(gao),但它們(men)忽略了高(gao)階結構和豐(feng)富的(de)屬性(xing)信息,導致在(zai)語義豐(feng)富的(de)知(zhi)(zhi)識(shi)圖譜(pu)上性(xing)能不佳(jia)。另外,這(zhe)些方法(fa)不能進行歸納(na)式的(de)預測(ce),也不能適(shi)用于(yu)大型工業圖。
為(wei)了(le)解決這些問題,我(wo)們開發了(le)一(yi)個新(xin)的(de)(de)(de)框架KGNN在(zai)分布式(shi)學(xue)習系(xi)統中來充分利用知(zhi)識數(shu)據進(jin)行表示(shi)學(xue)習。KGNN配置了(le)基于GNN的(de)(de)(de)編(bian)碼(ma)器和(he)知(zhi)識感(gan)知(zhi)的(de)(de)(de)解碼(ma)器,目(mu)的(de)(de)(de)是(shi)以細粒(li)度的(de)(de)(de)方式(shi)將高階結構和(he)屬性信息結合在(zai)一(yi)起,并保留知(zhi)識圖譜中的(de)(de)(de)關(guan)系(xi)模式(shi)。我(wo)們在(zai)三(san)個數(shu)據集(ji)上進(jin)行了(le)鏈接預測和(he)三(san)元(yuan)組的(de)(de)(de)分類實驗,驗證了(le)該(gai)框架的(de)(de)(de)有效性和(he)可擴展性。
//logicalreasoninggnn.github.io/papers/11.pdf
當地時間2月26日到27日,斯坦福大(da)學(xue)(xue)和 Matroid 公司舉(ju)辦的第五屆Scaled ML2020成功舉(ju)辦。來自微(wei)軟、Google、Facebook、伯(bo)克利、斯坦福等眾多頂級機器(qi)學(xue)(xue)習系(xi)統專家匯(hui)聚一堂,進(jin)行了關于當下(xia)流行的TensorFlow、Pytorch等計算框架的報告(gao),非常值得關注。
TensorFlow、Kubernetes、Apache Spark、Tesla Autopilot、Keras、Horovod、Allen AI、Apache Arrow、MLPerf、OpenAI、Matroid等的創建者將在(zai)各種計算(suan)平臺(如gpu、cpu、FPGAs、TPUs和新生的AI芯片行業)上領導(dao)關(guan)于運行和擴(kuo)展機(ji)器學習(xi)算(suan)法與系(xi)統設計的討論。
地址:
會議旨在讓在各種(zhong)不同計算(suan)平(ping)臺上運(yun)行機器學習算(suan)法的研(yan)究人員匯聚一堂,彼此交流,并(bing)鼓勵算(suan)法設(she)計人員互相幫助(zhu),在平(ping)臺之(zhi)間擴展(zhan)、移植、交流不同想(xiang)法。
教程題目: Scheduling For Efficient Large-Scale Machine Learning Training
教程簡介:
近年來(lai)(lai),機(ji)(ji)器學(xue)習(xi)技術在許多(duo)(duo)實際應用(yong)(yong)中取得了(le)成功。當研究人員(yuan)和實踐者(zhe)繼續(xu)將機(ji)(ji)器學(xue)習(xi)擴展到新(xin)的應用(yong)(yong)領域并(bing)(bing)推(tui)動現有應用(yong)(yong)程序(xu)的邊(bian)界時(shi),由于(yu)數據集(ji)的增長、模(mo)(mo)型(xing)的復雜性和容(rong)量的增加,他們(men)(men)面(mian)臨(lin)著關(guan)鍵的計算挑戰。這些挑戰需(xu)要新(xin)的軟件系(xi)統(tong)來(lai)(lai)有效(xiao)地(di)訓(xun)(xun)(xun)練(lian)大(da)(da)型(xing)模(mo)(mo)型(xing),并(bing)(bing)使機(ji)(ji)器學(xue)習(xi)研究人員(yuan)能夠輕(qing)松地(di)試驗(yan)新(xin)思想。通過利用(yong)(yong)機(ji)(ji)器學(xue)習(xi)計算的結構特(te)性來(lai)(lai)設計高(gao)(gao)效(xiao)的訓(xun)(xun)(xun)練(lian)系(xi)統(tong),我們(men)(men)有很多(duo)(duo)機(ji)(ji)會來(lai)(lai)提(ti)(ti)高(gao)(gao)訓(xun)(xun)(xun)練(lian)時(shi)間(jian)和支持更大(da)(da)的訓(xun)(xun)(xun)練(lian)模(mo)(mo)型(xing)。在本教程中,將介紹兩個分(fen)布式培訓(xun)(xun)(xun)系(xi)統(tong)Bosen和Orion,它們(men)(men)可(ke)以在不(bu)需(xu)要大(da)(da)量人力(li)工(gong)作(zuo)的前提(ti)(ti)下,通過調(diao)度網絡內(nei)部通信及并(bing)(bing)行(xing)計算來(lai)(lai)改(gai)善訓(xun)(xun)(xun)練(lian)時(shi)間(jian)。此外,通過在TensorFlow中調(diao)度內(nei)存占用(yong)(yong),我們(men)(men)減少了(le)87%的GPU內(nei)存消耗,并(bing)(bing)且能夠在相(xiang)同的硬件上完(wan)成10倍參數的模(mo)(mo)型(xing)訓(xun)(xun)(xun)練(lian)工(gong)作(zuo)。
嘉賓簡介:
韋(wei)金(jin)良本科畢業(ye)于普渡大學(xue),博士(shi)期間師從Garth A.Gibson 及(ji) Eric P.Xing,主要研(yan)究方(fang)向是(shi)分(fen)布式系統(tong)、數據庫系統(tong)及(ji)機器(qi)學(xue)習應用。