在CVPR 2020上,商湯研究院鏈接與編譯團隊、高性能計算團隊和北航劉祥龍老師團隊合作提出了用于加速卷積神經網絡訓練過程的INT8訓練技術。該工作通過將網絡的輸入、權重和梯度量化到8比特來加速網絡的前向傳播和反向傳播過程,縮短卷積神經網絡訓練時間。
論文觀察到梯度的獨特分布給量化訓練帶來了極大挑戰,為了解決梯度量化帶來的精度損失和不穩定問題,該論文進行了量化訓練收斂穩定性的理論分析并基于此提出了誤差敏感的學習率調節和基于方向自適應的梯度截斷方法。同時為了保證更高的加速比,該論文還提出使用周期更新、量化卷積融合等技術來減少量化操作帶來的時間開銷。
應用了上述方法之后,INT8訓練在圖像分類任務和檢測任務上都僅僅損失微小的精度,且訓練過程相比浮點訓練加速了22%。
本文針對深度卷積神經網絡提出了一種常規的、易應用的變換單元,即Gated Channel Transformation (GCT) 模塊。GCT結合了歸一化方法和注意力機制,并使用輕量級的、易于分析的變量來隱式地學習網絡通道間的相互關系。這些通道量級的變量可以直接影響神經元間的競爭或者合作行為,且能方便地與卷積網絡本身的權重參數一同參與訓練。通過引入歸一化方法,GCT模塊要遠比SE-Nets的SE模塊輕量,這使得將GCT部署在每個卷積層上而不讓網絡變得過于臃腫成為了可能。本文在多個大型數據集上針對數種基礎視覺任務進行了充分的實驗,即ImageNet數據集上的圖片分類,COCO上的目標檢測與實例分割,還有Kinetics上的視頻分類。在這些視覺任務上,引入GCT模塊均能帶來明顯的性能提升。這些大量的實驗充分證明了GCT模塊的有效性。