深度是深度神經網絡的關鍵,但更多的深度意味著更多的序列計算和更多的延遲。這就引出了一個問題——是否有可能構建高性能的「非深度」神經網絡?
近日,普林斯頓大學和英特爾實驗室的一項研究證明了這一觀點的可行性。該研究使用并行子網絡而不是一層又一層地堆疊,這有助于在保持高性能的同時有效地減少深度。
論文地址://arxiv.org/abs/2110.07641
通過利用并行子結構,該研究首次表明深度僅為 12 的網絡可在 ImageNet 上實現超過 80%、在 CIFAR10 上實現超過 96%、在 CIFAR100 上實現 81% 的 top-1 準確率。該研究還表明,具有低深度主干網絡的模型可以在 MS-COCO 上達到 48% 的 AP 指標。研究者分析了該設計的擴展規則,并展示了如何在不改變網絡深度的情況下提高性能。最后,研究者提供了關于如何使用非深度網絡來構建低延遲識別系統的概念證明。
手工設計深度神經網絡需要花費大量的時間和精力。這促使了神經結構搜索(NAS)技術的發展,以實現這種設計的自動化。然而,NAS算法往往是緩慢和昂貴的;他們需要訓練大量的候選網絡,為搜索過程提供信息。如果我們能從網絡的初始狀態部分預測其訓練的準確性,這就可以緩解。在這項工作中,我們檢查了未經過訓練的網絡中數據點之間的激活重疊,并激勵它如何能給出一個有用的衡量指標,以表明網絡的訓練性能。我們將這種方法整合到一個簡單的算法中,該算法允許我們無需任何訓練就能在單個GPU上搜索強大的網絡,并在NAS-Bench-101、NAS-Bench-201、NATS-Bench和Network Design Spaces上驗證其有效性。我們的方法可以很容易地與更昂貴的搜索方法相結合;我們研究了一種規則化進化搜索的簡單適應。復制我們實驗的代碼可以在//github.com/BayesWatch/nas-without-training上找到。