摘要: 深度卷積神經網絡(Deep convolutional neural networks, DCNNs)通過制作各種破紀錄的模型,主導了計算機視覺領域的最新發展。然而,在資源有限的環境下,如嵌入式設備和智能手機上,實現強大的DCNNs仍然是一個巨大的挑戰。研究人員已經認識到,1位CNNs是解決這一問題的一個可行方案;然而,與全精度DCNNs相比,它們的性能較差。在本文中,我們提出了一種新的方法,稱為貝葉斯優化1位CNNs(簡稱BONNs),利用貝葉斯學習這一成熟的解決困難問題的策略來顯著提高極端1位CNNs的性能。我們在貝葉斯框架中加入了全精度內核的先驗分布和特征,以端到端的方式構造了1位CNNs,這在以前的相關方法中都沒有考慮到。在理論支持下,實現了連續和離散空間同時優化網絡的貝葉斯損失,將不同的損失聯合起來,提高了模型的容量。在ImageNet和CIFAR數據集上的大量實驗表明,與最先進的1位CNNs相比,BONNs具有最佳的分類性能。
題目: Graph Random Neural Networks
摘要:
圖神經網絡(GNNs)將深度學習方法推廣到圖結構數據中,在圖形挖掘任務中表現良好。然而,現有的GNN常常遇到具有標記節點的復雜圖結構,并受到非魯棒性、過度平滑和過擬合的限制。為了解決這些問題,本文提出了一個簡單而有效的GNN框架——圖隨機神經網絡(Grand)。與現有GNNs中的確定性傳播不同,Grand采用隨機傳播策略來增強模型的魯棒性。這種策略也很自然地使Grand能夠將傳播從特征轉換中分離出來,減少了過度平滑和過度擬合的風險。此外,隨機傳播是圖數據擴充的一種有效方法。在此基礎上,利用無標記節點在多個擴展中的分布一致性,提高模型的泛化能力,提出了Grand的一致性正則化方法。在圖形基準數據集上的大量實驗表明,Grand在半監督的圖形學習任務上顯著優于最先進的GNN基線。最后,證明了它可以顯著減輕過度平滑和過度擬合的問題,并且它的性能與魯棒性相結合。
題目: Bayesian Neural Networks With Maximum Mean Discrepancy Regularization
摘要: 貝葉斯神經網絡(BNNs)訓練來優化整個分布的權重,而不是一個單一的集合,在可解釋性、多任務學習和校準等方面具有顯著的優勢。由于所得到的優化問題的難解性,大多數BNNs要么通過蒙特卡羅方法采樣,要么通過在變分近似上最小化一個合適的樣本下界(ELBO)來訓練。在這篇論文中,我們提出了后者的一個變體,其中我們用最大平均偏差(MMD)估計器代替了ELBO項中的Kullback-Leibler散度,這是受到了最近的變分推理工作的啟發。在根據MMD術語的性質提出我們的建議之后,我們接著展示了公式相對于最先進的公式的一些經驗優勢。特別地,我們的BNNs在多個基準上實現了更高的準確性,包括多個圖像分類任務。此外,它們對權重上的先驗選擇更有魯棒性,而且它們的校準效果更好。作為第二項貢獻,我們提供了一個新的公式來估計給定預測的不確定性,表明與更經典的標準(如微分熵)相比,它在對抗攻擊和輸入噪聲的情況下表現得更穩定。
主題: Meet AdaMod: a new deep learning optimizer with memory
簡介: AdaMod是一個新的深度學習優化器,它建立在Adam的基礎上,但提供了一個自動預熱啟發式和長期學習率緩沖。從最初的測試來看,AdaMod是一個前5名的優化器,它很容易擊敗或超過vanilla Adam,同時對學習率超參數不太敏感,訓練曲線更平滑,不需要熱身模式。
A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。