隨著機器學習模型和數據量的增大,大規模分布式訓練決定了模型部署的效率。去中心化,作為一種經典的分布式系統設計原型,近年來在擴展機器學習規模上顯示出良好的效率和魯棒性。本文基于此背景,探究了不同去中心化系統下訓練復雜度的理論極限;并進一步提出了兩種算法,其復雜度可以達到該理論極限。 論文鏈接:
我們提出了一種新的在線元學習算法,在有限的監督下順序揭示任務實例,并期望學習器在每一輪中對它們進行元學習,從而允許學習器在很少的任務級監督下快速定制特定任務模型。在線元學習中出現的一個基本問題是,隨著時間的推移,學習任務越來越多,記憶的可擴展性也越來越強。到目前為止,之前的工作都允許完美的回憶,導致記憶隨時間線性增加。與之前的工作不同,在我們的方法中,先前的任務實例是允許被刪除的。我們建議通過固定大小的狀態向量來利用之前的任務實例,狀態向量是按順序更新的。我們的理論分析表明,我們提出的記憶高效在線學習(MOML)方法具有凸損失函數的次線性遺憾和非凸損失的次線性局部遺憾。在基準數據集上,我們證明了我們的方法可以超越之前的方法,即使它們允許完美的回憶。
我們考慮在分布在用戶設備上的私有數據上建立訓練模型。為了確保隱私,我們添加了設備上的噪聲,并使用安全聚合,以便只向服務器顯示噪聲和。我們提出了一個全面的端到端系統,在執行安全聚合之前適當地離散數據并添加離散高斯噪聲。我們提供了一種新的離散高斯和的隱私分析方法,并仔細分析了數據量化和模求和算法的影響。我們的理論保證強調了溝通、隱私和準確性之間的復雜張力。我們廣泛的實驗結果表明,我們的解決方案基本上能夠以低于16位精度的每個值匹配中心差分隱私的精度。
半監督學習(SSL)由于成功地使用了未標記數據,在許多機器學習任務中受到了極大的關注,而現有的SSL算法在訓練過程中要么使用所有未標記的示例,要么使用具有固定高置信度預測的未標記示例。然而,可能會有太多正確/錯誤的偽標簽示例被刪除/選擇。在本工作中,我們提出一個簡單但強大的訓練示例子集,以便只使用與已標記數據相關的偽標簽的未標記示例來訓練模型。在每次更新迭代中,只保留損失小于給定閾值(通過迭代動態調整)的示例,從而執行選擇。我們提出的Dash方法在無標記數據選擇方面具有自適應性,并具有理論保障。具體地,我們從非凸優化的角度從理論上建立了Dash的收斂速度。最后,我們通過與最先進的基準比較,證明了該方法的有效性。
非線性核方法是被工業界廣泛應用的重要的機器學習模型之一。由于核函數矩陣的維度正比于數據點個數,大規模數據集在時間和存儲上都給直接使用非線性核方法帶來極大困難。對于最常見的高斯核函數,隨機傅立葉特征(Random Fourier Features, RFF)可以有效地在線性時間內接近非線性核學習的效果,并且不需要直接計算龐大的核函數矩陣,因此成為大規模非線性核學習的重要工具之一。
本文首次通過研究隨機傅立葉特征的統計分布,提出基于Lloyd-Max(LM)最小失真準則的量化方法,以此進一步顯著減少RFF的存儲成本。我們給出LM量化下高斯核函數估計量的一系列嚴格理論結果,證明LM估計量的正確性和優越性,以及規范化量化后的傅立葉特征可以進一步降低高斯核估計的除偏方差。基于多個大規模數據集的實證分析證明,在平均可降低10倍以上的存儲成本的前提下,經LM量化后的特征可以達到使用全精度傅立葉特征的準確率。該方法的表現顯著優于過去已提出的隨機量化方法。本文為工業級大規模非線性核學習提供了一種存儲便利且效果極佳的壓縮數據表征方法。
深度神經網絡已經顯示出從圖像和文本等數據中提取通用特征表示的能力,這對各種學習任務都很有用。在聯邦設置中,表示學習的成果還沒有完全實現。盡管聯邦設置中的數據通常是非iid。在客戶端,集中深度學習的成功表明,數據通常共享一個全局特征表示,而在客戶端或任務之間的統計異質性集中在標簽。基于這種直覺,我們提出了一種新的聯合學習框架和算法來學習跨客戶端共享的數據表示。我們的算法利用客戶機之間的分布式計算能力,針對表示的每次更新的低維局部參數執行許多本地更新。我們證明了該方法在線性設置下獲得了接近最優樣本復雜度的ground-truth表示的線性收斂性,證明了該方法可以有效地降低每個客戶端的問題維數。此外,我們提供了大量的實驗結果,證明了我們的方法在異構環境下優于其他個性化聯合學習方法。
雖然許多現有的圖神經網絡(gnn)已被證明可以執行基于?2的圖平滑,從而增強全局平滑,但在本工作中,我們旨在通過基于?1的圖平滑進一步增強GNN的局部平滑自適應。在此基礎上,提出了一種基于?1和?2圖平滑的彈性GNN。特別地,我們提出了一種新的、通用的消息傳遞方案。該消息傳遞算法不僅有利于反向傳播訓練,而且在保證理論收斂的前提下達到了預期的平滑特性。在半監督學習任務上的實驗表明,所提出的彈性GNN在基準數據集上具有較好的自適應能力,對圖對抗攻擊具有顯著的魯棒性。
殘差網絡(ResNets)在模式識別方面顯示了令人印象深刻的結果,最近,由于與神經常微分方程(neural ODEs)的感知聯系,獲得了相當大的理論興趣。隨著層數的增加,這條鏈路依賴于網絡權值的收斂到平滑的函數。我們通過詳細的數值實驗研究了隨機梯度下降訓練權值的性質,以及它們隨網絡深度的變換。我們觀察到有明顯不同于神經ODE文獻中假設的標度區存在。根據網絡結構的某些特征,如激活函數的光滑性,人們可以得到另一個ODE極限,一個隨機微分方程或兩者都不能。這些發現對神經ODE模型作為深度ResNets的充分漸近描述的有效性提出了質疑,并指出了另一類微分方程作為深度網絡極限的更好描述。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
模型復雜性是深度學習的一個基本問題。
本文對深度學習中模型復雜性的最新研究進行了系統的綜述。深度學習的模型復雜度可分為表達能力和有效模型復雜度。
從模型框架、模型規模、優化過程和數據復雜性四個方面回顧了現有的研究成果。我們還討論了深度學習模型復雜性的應用,包括理解模型泛化能力、模型優化、模型選擇和設計。
最后,我們提出幾個有趣的未來方向。
//www.zhuanzhi.ai/paper/f7c683dfd6eb2f07eba0ed31d337345c
引言
主要由于其優越的性能,深度學習在許多應用中具有破壞性,如計算機視覺[40]、自然語言處理[55]和計算金融[91]。然而,與此同時,關于深度學習模型的一系列基本問題仍然存在,如為什么深度學習的表達能力比經典機器學習模型有很大提高,如何理解和量化深度模型的泛化能力,如何理解和改進優化過程等。深度學習的模型復雜性是一個核心問題,與許多基礎性問題有關。
深度學習的模型復雜性關注的是,對于某種深度學習體系結構,深度學習模型能夠表達多復雜的問題[15,44,70,89]。理解深度模型的復雜性是準確理解模型的能力和局限性的關鍵。探索模型復雜性不僅是理解深度模型本身的必要條件,也是研究許多其他相關基本問題的必要條件。例如,從統計學習理論的觀點來看,利用模型的表達能力來限制泛化誤差[69]。最近一些研究提出了基于范數的模型復雜度[60]和基于靈敏度的模型復雜度[76,81]來探討深度模型的泛化能力。此外,在訓練過程中檢測模型復雜性的變化可以為理解和提高模型優化和正則化的性能提供見解[44,74,89]。
對機器學習模型復雜性的研究可以追溯到幾十年前。20世紀90年代的一系列早期研究討論了經典機器學習模型的復雜性[16,20,21,98]。其中具有代表性的模型是決策樹[19],其復雜性總是通過樹的深度[20]和葉節點數量[16]來度量的。模型復雜性分析的另一個常見課題是邏輯回歸,它是大量參數化模型的基礎。從Vapnik-Chervonenicks理論[26,96]、Rademacher復雜性[46]、Fisher信息矩陣[21]和[6]模型的razor等角度研究logistic回歸模型的復雜性。在這里,模型剃刀是一個理論指標,比較一個參數模型家族的真實分布的復雜性。然而,深度學習模型與幾十年前討論的經典機器學習模型有很大的不同[70]。經典機器學習模型的復雜性分析不能直接應用或直接推廣到深度模型。
近年來,深度學習中的模型復雜性受到了越來越多的關注[13,60,70,78,81,89]。然而,據我們所知,目前還沒有關于深度學習中模型復雜性的研究。缺乏對這一新興和重要課題的調研促使我們對最新研究進行調查。在本文中,我們交替使用術語“深度學習模型”和“深度神經網絡”。幾十年前就有大量關于經典機器學習模型復雜性的研究,優秀的研究綜述了這些研究[20,21,61,93]。在本節中,我們將非常簡要地回顧幾個典型模型的復雜性,包括決策樹、邏輯回歸和貝葉斯網絡模型。討論了深度神經網絡的模型復雜度與其他模型的不同之處。
深度學習模型在結構上與傳統的機器學習模型不同,具有更多的參數。深度學習模型總是比傳統模型復雜得多。因此,以往對傳統機器學習模型的復雜性建模方法不能直接應用于深度學習模型,以獲得有效的復雜性測度。例如,用樹的深度[20,98]和葉節點數[16,61]來衡量決策樹的復雜性顯然不適用于深度學習模型。通過[46]可訓練參數的數量來衡量模型的復雜性對深度學習模型的影響非常有限,因為深度學習模型往往過于參數化。
本次綜述的其余部分組織如下。
在第2節中,我們介紹了深度學習模型的復雜性以及這兩類模型的表達能力和有效模型復雜性。
在第3節中,我們回顧了關于深度學習模型表達能力的現有研究。
在第4節中,我們綜述了關于深度學習模型有效復雜性的現有研究。
在第5節中,我們將討論深度學習模型復雜性的應用。
在第6節中,我們總結了這一研究并討論了一些未來的方向。
近年來深度學習在圖像、語音、自然語言處理等諸多領域得到廣泛應用,但隨著人們對深度學習的訓練速度和數據處理能力的需求不斷提升,傳統的基于單機的訓練過程愈發難以滿足要求,分布式的深度學習訓練方法成為持續提升算力的有效途徑.其中訓練過程中節點間網絡的通信性能至關重要,直接影響訓練性能.分析了分布式深度學習中的性能瓶頸,在此基礎上對目前常用的網絡性能優化方案進行綜述,詳細闡述了目前最新的超大規模分布式訓練的體系結構、優化方法、訓練環境和最有效的優化方法,最后對分布式訓練仍然存在的困難進行了總結,對其未來研究方向進行了展望.