題目: NETWORK DECONVOLUTION
摘 要:
卷積是卷積神經網絡(CNNs)的核心操作,它將一個核函數應用于圖像上移位的重疊區域。然而,由于實際圖像數據具有很強的相關性,卷積核實際上是對冗余數據的再學習。在這項工作中,我們證明了這種冗余使神經網絡訓練具有挑戰性,并提出了網絡反褶積,這是一種在數據被輸入到每一層之前最優地去除像素和信道相關的方法。網絡反褶積可以有效地計算在一個卷積層的計算成本的一小部分。我們還發現,網絡第一層的反褶積濾波器與大腦視覺區域的生物神經元中發現的中央環繞結構相似。使用這種內核進行過濾會得到一個稀疏表示,這是神經網絡訓練中所缺少的一個理想特性。在不使用批處理標準化的情況下,從稀疏表示中學習可以促進更快的收斂和更好的結果。我們將我們的網絡反褶積操作應用到10個現代神經網絡模型中,在每個模型中替換批量歸一化。大量的實驗表明,在CIFAR-10、CIFAR-100、MNIST、Fashion-MNIST、Cityscapes和ImageNet數據集的所有情況下,網絡反卷積操作都能夠提供性能改進。
題目: Hyperbolic Attention Network
摘要: 最近的方法已經成功地證明了在雙曲空間中學習淺層網絡參數的優勢。我們將雙曲幾何引入到用于計算不同神經網絡結構的注意力機制的嵌入中,從而擴展了這一工作。通過改變object表示的嵌入幾何形狀,可以在不增加模型參數的情況下能更有效地利用嵌入空間。更重要的是,由于查詢的語義距離以指數的速度增長,雙曲幾何與歐幾里得幾何相反—可以編碼那些object而沒有任何干擾。我們的方法在總體上對WMT' 14(英語到德語)的神經機器翻譯、圖學習(合成和現實世界圖任務)和視覺問答(CLEVR)3個任務得到了提升,同時保持神經表征的簡潔。
題目: Training Binary Neural Networks with Real-to-Binary Convolutions
摘要:
本文展示了如何將二進制網絡訓練到與完全精確網絡相當的幾個百分點(~3?5%)之內。我們首先展示如何建立一個強大的基線,該基線通過結合最近提出的進展和仔細調整優化過程已經達到了最先進的精度。其次,我們證明了通過最小化二進制信號的輸出和相應的實值卷積之間的差異,可以獲得額外顯著的精度增益。我們以兩種互補的方式實現了這個想法:
最后,我們證明,當我們把所有的改進放在一起,當使用ResNet-18架構時,該模型在ImageNet上的top-1精度超過當前水平的5%,并將其與CIFAR-100和ImageNet上的real-value精度的差距分別降低到不足3%和5%。
題目: ImageNet Classification with Deep Convolutional Neural Networks
摘要:
我們訓練了一個大型的深度卷積神經網絡,將LSVRC-2010 ImageNet訓練集中的130萬幅高分辨率圖像分成1000個不同的類。在測試數據上,我們獲得了前1名和前5名的錯誤率,分別為39.7%和18.9%,這比之前的最新結果要好得多。該神經網絡有6000萬個參數和50萬個神經元,由5個卷積層組成,其中一些是最大池化層,還有兩個全局連接層,最后是1000路的softmax。為了加快訓練速度,我們使用了不飽和的神經元和一個非常高效的卷積網絡GPU實現。為了減少全局連通層中的過擬合,我們采用了一種新的正則化方法,該方法被證明是非常有效的。
作者:
Ilya Sutskever是OpenAI的聯合創始人和首席科學家,之前是斯坦福大學博士后,研究領域是機器學習,神經網絡。
論文題目
Few Shot Network Compression via Cross Distillation
論文摘要
模型壓縮已被廣泛應用于獲得輕量化的深層神經網絡。然而,大多數流行的方法需要使用足夠的訓練數據進行微調以確保準確性,這可能會受到隱私和安全問題的挑戰。作為隱私性和性能之間的折衷,本文研究了少鏡頭網絡壓縮:在每類樣本數較少的情況下,如何有效地壓縮性能可以忽略不計的網絡?少鏡頭網絡壓縮的核心挑戰在于在推理過程中原始網絡的高估計誤差,因為壓縮后的網絡很容易過度適應少數訓練實例。估計誤差能夠很好地預測和積累層,最終決定網絡輸出。為了解決這個問題,我們提出了一種新的分層知識提取方法cross蒸餾。通過將教師網絡和學生網絡的隱含層交織在一起,可以有效地減少層內累積的估計誤差。該方法提供了一個通用的框架,與流行的網絡壓縮技術(如剪枝)兼容。在基準數據集上進行的大量實驗表明,當只有少量訓練實例可用時,交叉蒸餾可以顯著提高學生網絡的準確性。
論文作者
郝麗百,賈翔悟,Irwin King,Michael Lyu,香港中文大學。