這篇論文從二值化網絡訓練過程中的常見問題切入,一步步給出對應的解決方案,最后收斂到了一個實用化的訓練策略。接下來就跟著這篇論文一起看看二值化網絡(BNN)應該如何優化。
首先,BNN 的優化器應該如何選取?
可以看到,BNN 的優化曲面明顯不同于實數值網絡,如下圖所示。實數值網絡在局部最小值附近有更加平滑的曲面,因此實數值網絡也更容易泛化到測試集。相比而言,BNN 的優化曲面更陡,因此泛化性差并且優化難度大。
手工設計深度神經網絡需要花費大量的時間和精力。這促使了神經結構搜索(NAS)技術的發展,以實現這種設計的自動化。然而,NAS算法往往是緩慢和昂貴的;他們需要訓練大量的候選網絡,為搜索過程提供信息。如果我們能從網絡的初始狀態部分預測其訓練的準確性,這就可以緩解。在這項工作中,我們檢查了未經過訓練的網絡中數據點之間的激活重疊,并激勵它如何能給出一個有用的衡量指標,以表明網絡的訓練性能。我們將這種方法整合到一個簡單的算法中,該算法允許我們無需任何訓練就能在單個GPU上搜索強大的網絡,并在NAS-Bench-101、NAS-Bench-201、NATS-Bench和Network Design Spaces上驗證其有效性。我們的方法可以很容易地與更昂貴的搜索方法相結合;我們研究了一種規則化進化搜索的簡單適應。復制我們實驗的代碼可以在//github.com/BayesWatch/nas-without-training上找到。
論文鏈接://www.zhuanzhi.ai/paper/3a1e9a5b1d5014aa139465d7afb57410
基于數據采樣的優化(Optimization from Samples,OPS)是將機器學習和優化相結合,實現從數據到優化的端到端的性能保證。然而近期的研究指出,雖然從數據到模型的學習過程和基于模型的優化各自能給出較好的理論保證,但是 OPS 在一些情況下是不能達到端到端的理論保證的。
微軟亞洲研究院和中國科學院計算技術研究所的研究員們在去年的 ICML 會議上提出了基于結構化數據采樣的優化方法(Optimization from Structured Samples, OPSS),通過巧妙地利用采樣數據中的結構化信息,將學習和優化更緊密地結合, 從而達到端到端性能的理論保證。
在今年 ICML 會議上發表的本文,沿 OPSS 方向進一步探索,更進一步研究了比較復雜的基于數據采樣的影響力最大化問題(Influence Maximization from Samples, IMS)。具體是指:當社交網絡未知,只能觀察到其上的歷史傳播數據時,如何選取少數種子結點以達到影響力最大化的傳播效果。傳統的方式是先從歷史傳播數據中學習,得到一個傳播模型和模型參數,然后在這套模型和參數上運行成熟的基于影響力最大化的算法。但這樣的方法會導致在某些情況下,模型及其參數的學習效果不好時,優化的效果也不盡如人意。因此需要對這種傳統模式加以改進,在模型參數學習效果不好時仍能找到替代方法,從而達到良好的優化效果。
從端到端來講,本文的算法可以保證對于任何網絡結構和傳播參數的組合,都能從傳播數據采樣中得到影響力最大化的常數近似解,而且該算法不再依賴于最大似然估計,而是通過簡單直接的等式推導,使得網絡推斷可以基于更寬泛的假設從而達到運算速度更快、需要更少數據樣本的效果。同時,在解決 IMS 問題的過程中,網絡推斷(Network Inference)算法也得到了改進。
用反向傳播方法訓練深度殘差神經網絡(ResNets)的記憶成本隨網絡深度的增加而線性增加。規避這個問題的一種方法是使用可逆的架構。本文提出通過增加動量項來改變ResNet的正向規則。所得到的網絡,動量剩余神經網絡(動量ResNets)是可逆的。與以前的可逆架構不同,它們可以作為任何現有的ResNet塊的替代。我們證明動量ResNets可以被解釋為二階常微分方程(ode),并準確地描述了如何逐步增加動量增加動量ResNets的表示能力。我們的分析顯示,Momentum ResNets可以學習任何線性映射到一個倍增因子,而ResNets不能。在優化設置的學習中,需要收斂到一個不動點,我們從理論上和經驗上證明了我們的方法成功,而現有的可逆架構失敗。我們在CIFAR和ImageNet上展示了Momentum ResNets與ResNets具有相同的精度,但占用的內存要小得多,并展示了預訓練的Momentum ResNets對模型的微調是有前途的。
我們提出并分析了一種基于動量的梯度方法,用于訓練具有指數尾損失(例如,指數或logistic損失)的線性分類器,它以O (1/t2)的速率最大化可分離數據的分類邊緣。這與標準梯度下降的速率O(1/log(t))和標準化梯度下降的速率O(1/t)形成對比。這種基于動量的方法是通過最大邊際問題的凸對偶,特別是通過將Nesterov加速度應用于這種對偶,從而在原函數中得到了一種簡單而直觀的方法。這種對偶觀點也可以用來推導隨機變量,通過對偶變量進行自適應非均勻抽樣。
少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。