該論文題為Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond,從新的視角來構造逼近框架,設計了Initialization Auxiliary and Pessimistic Trajectory Truncated Gradient Method (IAPTT-GM),解決下層非凸問題。具體來說,針對下層非凸結構特點,設計梯度下降迭代模塊,利用迭代初始點作為額外的控制元(Initialization Auxiliary),構造對下層最優解的逼近;另一方面,從理論分析與降低計算負擔兩個角度,在外層迭代中引入(Pessimistic Trajectory Truncation)機制,構造對上層目標的有效逼近。在基于元學習的小樣本分類任務與超參數優化數據超清洗任務上,論文驗證了當下層問題有非凸結構時,IAPTT-GM與現有流行算法相比,具有明顯的優勢。
我們考慮發現K個相關高斯有向無環圖(DAG)的問題,其中涉及的圖結構共享一個一致的因果順序和稀疏的支持聯合。在多任務學習環境下,我們提出一種l1/l2-正則化極大似然估計(MLE)來學習K個線性結構方程模型。我們從理論上證明,通過在相關任務中利用數據,聯合估計器可以獲得比單獨估計更好的恢復因果順序(或拓撲順序)的樣本復雜度。此外,聯合估計器還可以將不可識別的DAG與一些可識別的DAG一起估計,從而恢復不可識別的DAG。最后,我們的分析也顯示了結構的聯合支持恢復的一致性。為了實現,我們設計了一個連續優化問題,它的優化器與聯合估計器相同,可以用迭代算法有效地逼近。通過實驗驗證了理論分析和聯合估計的有效性。
隨著機器學習模型和數據量的增大,大規模分布式訓練決定了模型部署的效率。去中心化,作為一種經典的分布式系統設計原型,近年來在擴展機器學習規模上顯示出良好的效率和魯棒性。本文基于此背景,探究了不同去中心化系統下訓練復雜度的理論極限;并進一步提出了兩種算法,其復雜度可以達到該理論極限。 論文鏈接:
Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies
作者:Paul Vicol、Luke Metz、Jascha Sohl-Dickstein
論文地址://proceedings.mlr.press/v139/vicol21a/vicol21a.pdf
摘要:目前,展開(unrolled)計算圖應用在很多場景中,包括訓練 RNN、通過展開優化微調超參數和訓練可學習優化器等。但是,在這類計算圖中優化參數的方法存在著高方差梯度、偏差、更新緩慢以及大量內存使用等諸多問題。
研究者提出了一種名為 Persistent Evolution Strategies (PES)的方法,它可以將計算圖分成一系列截斷的展開,并在每次展開后執行基于進化策略的更新步驟。PES 通過在整個展開序列上累積校正項消除這些截斷的偏差,可以實現快速參數更新,具有低內存使用、無偏差以及合理的方差特征。實驗表明,PES 在合成任務上展現出了與其他梯度估計方法的優勢,并在訓練可學習優化器和微調超參數方面具有適用性。
論文鏈接://www.zhuanzhi.ai/paper/3a1e9a5b1d5014aa139465d7afb57410
基于數據采樣的優化(Optimization from Samples,OPS)是將機器學習和優化相結合,實現從數據到優化的端到端的性能保證。然而近期的研究指出,雖然從數據到模型的學習過程和基于模型的優化各自能給出較好的理論保證,但是 OPS 在一些情況下是不能達到端到端的理論保證的。
微軟亞洲研究院和中國科學院計算技術研究所的研究員們在去年的 ICML 會議上提出了基于結構化數據采樣的優化方法(Optimization from Structured Samples, OPSS),通過巧妙地利用采樣數據中的結構化信息,將學習和優化更緊密地結合, 從而達到端到端性能的理論保證。
在今年 ICML 會議上發表的本文,沿 OPSS 方向進一步探索,更進一步研究了比較復雜的基于數據采樣的影響力最大化問題(Influence Maximization from Samples, IMS)。具體是指:當社交網絡未知,只能觀察到其上的歷史傳播數據時,如何選取少數種子結點以達到影響力最大化的傳播效果。傳統的方式是先從歷史傳播數據中學習,得到一個傳播模型和模型參數,然后在這套模型和參數上運行成熟的基于影響力最大化的算法。但這樣的方法會導致在某些情況下,模型及其參數的學習效果不好時,優化的效果也不盡如人意。因此需要對這種傳統模式加以改進,在模型參數學習效果不好時仍能找到替代方法,從而達到良好的優化效果。
從端到端來講,本文的算法可以保證對于任何網絡結構和傳播參數的組合,都能從傳播數據采樣中得到影響力最大化的常數近似解,而且該算法不再依賴于最大似然估計,而是通過簡單直接的等式推導,使得網絡推斷可以基于更寬泛的假設從而達到運算速度更快、需要更少數據樣本的效果。同時,在解決 IMS 問題的過程中,網絡推斷(Network Inference)算法也得到了改進。
深度神經網絡已經顯示出從圖像和文本等數據中提取通用特征表示的能力,這對各種學習任務都很有用。在聯邦設置中,表示學習的成果還沒有完全實現。盡管聯邦設置中的數據通常是非iid。在客戶端,集中深度學習的成功表明,數據通常共享一個全局特征表示,而在客戶端或任務之間的統計異質性集中在標簽。基于這種直覺,我們提出了一種新的聯合學習框架和算法來學習跨客戶端共享的數據表示。我們的算法利用客戶機之間的分布式計算能力,針對表示的每次更新的低維局部參數執行許多本地更新。我們證明了該方法在線性設置下獲得了接近最優樣本復雜度的ground-truth表示的線性收斂性,證明了該方法可以有效地降低每個客戶端的問題維數。此外,我們提供了大量的實驗結果,證明了我們的方法在異構環境下優于其他個性化聯合學習方法。
我們提出并分析了一種基于動量的梯度方法,用于訓練具有指數尾損失(例如,指數或logistic損失)的線性分類器,它以O (1/t2)的速率最大化可分離數據的分類邊緣。這與標準梯度下降的速率O(1/log(t))和標準化梯度下降的速率O(1/t)形成對比。這種基于動量的方法是通過最大邊際問題的凸對偶,特別是通過將Nesterov加速度應用于這種對偶,從而在原函數中得到了一種簡單而直觀的方法。這種對偶觀點也可以用來推導隨機變量,通過對偶變量進行自適應非均勻抽樣。
Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。
Multi-task Additive Models for Robust Estimation and Automatic Structure Discovery
當前,面向高維數據的可解釋模型大多構建在單任務學習框架下,且以學習條件均值為目標。此類模型往往不能直接用于多任務數據,且在非高斯噪聲的數據處理中會出現性能的退化。特別地,傳統的組稀疏可解釋模型嚴重依賴變量結構的先驗信息。針對此類問題,本文在多任務雙層優化框架下,通過融合眾數回歸、可加模型與結構懲罰項,提出了一類新的多任務可加模型。該模型不僅能實現面向復雜噪聲數據的穩健估計,而且能夠自動地挖掘數據中潛在的變量組結構。優化上,針對模型非凸非光滑的特點,研究者基于半二次優化和前向后向切分算法提出了一類光滑優化策略,并給出了優化算法的收斂分析。應用上,模擬實驗和日冕物質拋射實驗從模型的估計誤差、結構發現能力等多角度驗證了構建模型的出色性能。
//papers.nips.cc/paper/2020/file/8767bccb1ff4231a9962e3914f4f1f8f-Paper.pdf
本文首先給出了一種學習節點信息卷積隱含層的圖網學習算法。根據標簽是附著在節點上還是附著在圖上,研究了兩種類型的GNN。在此基礎上,提出了一個完整的GNN訓練算法收斂性設計和分析框架。該算法適用于廣泛的激活函數,包括ReLU、Leaky ReLU、Sigmod、Softplus和Swish。實驗表明,該算法保證了對基本真實參數的線性收斂速度。對于這兩種類型的GNN,都用節點數或圖數來表征樣本復雜度。從理論上分析了特征維數和GNN結構對收斂率的影響。數值實驗進一步驗證了理論分析的正確性。
我們知道,目前的圖神經網絡(GNNs)由于被稱為過度平滑的問題,很難變深。多尺度GNN是一種很有前途的方法,以減輕過度平滑問題。然而,很少有人從學習理論的角度解釋為什么它在經驗上有效。在本研究中,我們推導了包括多尺度GNN的轉導學習算法的優化和泛化保證。利用boosting理論,證明了訓練誤差在弱學習類型條件下的收斂性。通過將其與泛化間隙邊界在轉導距離復雜度上的結合,我們證明了在此條件下,某一特定類型的多尺度GNN的測試誤差邊界隨深度的減小而相應減小。我們的結果為多尺度結構對抗過平滑問題的有效性提供了理論解釋。我們將boosting算法應用于訓練多尺度的GNN來完成真實的節點預測任務。我們證實其性能與現有的GNNs相當,實際行為與理論觀測一致。代碼可在//github.com/delta2323/GB-GNN下載。