只包含加法操作的加法神經網絡 (ANN)為開發低能耗的深層神經網絡提供了一種新的途徑。但是,當用加法濾波器替換原始的卷積濾波器時會帶來精度下降。其主要原因是采用L1-范數進行神經網絡優化比較困難。在這種情況下,反向傳播的梯度通常會估計不準確。本文提出一種在不增加可訓練參數的前提下,通過基于核的漸進式知識蒸餾(PKKD)方法進一步提高ANN的性能。我們將與ANN具有相同結構的卷積神經網絡(CNN)進行隨機初始化并作為教師網絡,將ANN和CNN的特征和權重通過核變換映射到一個新的空間,減少了分布之間的差異,從而消除了精度下降問題。最后,ANN通過漸進的方法同時學習標簽和教師網絡的知識。該方法在幾個標準數據集上得到了很好的驗證,從而有效地學習了具有較高性能的ANN。例如,使用所提出的PKKD方法訓練的ANN-50在ImageNet數據集上獲得76.8%的精度,比相同結構的ResNet-50高0.6%。
Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher
知識提煉是一種在教師網絡的軟輸出指導下訓練學生網絡的策略。它已成為模型壓縮和知識轉移的成功方法。然而,目前的知識提煉缺乏令人信服的理論知識。另一方面,最近在神經正切核上的發現使我們能夠使用網絡隨機特征的線性模型來近似寬泛的神經網絡。在本文中,我們從理論上分析了廣義神經網絡的知識提煉問題。首先給出了線性化網絡模型的轉移風險界限。然后我們提出了一個任務訓練難度的度量,稱為數據效率。基于這一衡量標準,我們表明,對于一個完美的教師,高比例的教師軟標簽可能是有益的。最后,對于教師不完善的情況,我們發現硬標簽可以糾正教師的錯誤預測,這就解釋了硬標簽和軟標簽混合使用的實踐。
//www.zhuanzhi.ai/paper/8fb343feb238db246bcdb59a367b6cbd
在充分利用大量未標記數據的同時,從少量帶標記的樣例中學習的一種模式是,先進行無監督的預訓練,然后進行有監督的微調。盡管與計算機視覺半監督學習的常見方法相比,這種范式以任務無關的方式使用未標記數據,但我們證明它對于ImageNet上的半監督學習非常有效。我們方法的一個關鍵要素是在訓練前和微調期間使用大的(深度和廣度的)網絡。我們發現,標簽越少,這種方法(使用未標記數據的任務無關性)從更大的網絡中獲益越多。經過微調后,通過第二次使用未標記的例子,將大的網絡進一步改進,并以特定任務的方式將其精簡為分類精度損失很小的小網絡。本文提出的半監督學習算法可歸納為三個步驟: 使用SimCLRv2對一個大的ResNet模型進行無監督的預訓練,對少量帶標記的樣例進行有監督的微調,以及對未帶標記的樣例進行精化和傳遞特定任務的知識。使用ResNet-50,該程序僅使用1%的標簽(每個類別≤13張標記圖像),就實現了73.9%的ImageNet top-1精度,比以前的最先進的標簽效率提高了10倍。對于10%的標簽,ResNet-50用我們的方法訓練達到77.5%的top-1準確性,優于所有標簽的標準監督訓練。
//www.zhuanzhi.ai/paper/0c81b63b2aaae1ae2cc1a9b0fbb382b2
論文題目:Scalable Graph Neural Networks via Bidirectional Propagation
論文概述:圖神經網絡(GNN)是一個新興的非歐氏數據學習領域。近年來,人們對設計可擴展到大型圖形的GNN越來越感興趣。大多數現有的方法使用“圖采樣”或“分層采樣”技術來減少訓練時間;但是,這些方法在應用于具有數十億條邊的圖時仍然無法提供可靠的性能。在本文中,我們提出了一種可伸縮的圖神經網絡GBP,同時從特征向量和訓練/測試節點進行雙向消息傳播,為每個表示生成一個無偏估計量。每個傳播都是以局部方式執行的,從而實現了亞線性時間復雜性。廣泛的實驗證明,GBP達到了state-of-the-art性能同時顯著減少訓練和推理時間。在單臺機器上,GBP能夠在不到2000秒的時間內,在一個擁有超過6000萬個節點和18億條邊的圖形上提供優異的性能
//www.zhuanzhi.ai/paper/bf70cf78aa20bcfce7a1f6d36c8e080a
原文地址://arxiv.org/abs/2006.05057
我們研究在一種新穎實際的設定下對圖神經網絡的黑盒攻擊,我們限制攻擊者只能獲得部分節點的信息并且只能修改其中小部分的節點。在這樣的設定下,如何選擇節點變得愈發重要。我們證明圖神經網絡的結構歸納偏差能成為有效的黑盒攻擊源頭。具體來說,通過利用圖神經網路的向后傳播與隨機游走之間的聯系,我們表明基于梯度的常見白盒攻擊可以通過梯度和與PageRank類似的重要性分數之間的聯系而推廣到黑盒攻擊。在實踐中,我們發現基于這個重要性分數上確實很大的程度地增加了損失值,但是不能顯著提高分類錯誤的比率。我們的理論和經驗分析表明,損失值和誤分類率之間存在差異,即當受攻擊的節點數增加時,后者會呈現遞減的回報模式。因此,考慮到收益遞減效應,我們提出了一種貪心算法來校正這一重要性得分。實驗結果表明,所提出的選點程序在無需訪問模型參數或預測的前提下可以顯著提高常用數據集上常見GNN的誤分類率。
平移的不變性為卷積神經網絡注入了強大的泛化特性。然而,我們通常無法預先知道數據中存在哪些不變性,或者模型在多大程度上應該對給定的對稱組保持不變。我們展示了如何通過參數化增強分布和同時優化網絡參數和增強參數的訓練損失來學習不變性和等方差。通過這個簡單的過程,我們可以在一個很大的擴充空間中,僅在訓練數據上,恢復圖像分類、回歸、分割和分子性質預測上的正確不變量集和范圍。
神經結構搜索(NAS)旨在以全自動的方式找到表現出色且新穎的神經網絡結構。然而現有的搜索空間設計過度依賴于研究者的專業知識,所涵蓋的神經網絡相對比較單一,導致搜索策略雖然能找到表現不錯的結構,卻無法發現突破性的新型神經網絡。在這篇工作中,我們 1)首次提出了搜索最優的神經網絡結構生成分布(architecturegenerator)而不僅僅是單個神經網絡(single architecture) 的概念,2)并針對這個概念提出了一個全新的,多階層的,基于圖的搜索空間。該搜索空間不但能生成非常多樣化的網絡結構,而且只由幾個超參來定義。這極大減少了結構搜索的維度,使得我們能高效地使用貝葉斯優化作為搜索策略。與此同時,因為我們拓廣了搜索空間(包含眾多性能和存儲需求差異巨大的有效網絡結構),這使得多目標學習在我們的場景下更有意義。我們在六個圖像數據集上驗證了我們方法(NAGO)的高效性, 并展示了我們的方法能找到非常輕便且性能卓越的網絡結構。
題目: Multi-Channel Graph Neural Networks
摘要: 圖結構數據的分類在許多學科中已經變得越來越重要。據觀察,在真實世界圖中保留的隱式或顯式的層次社區結構對于下游分類應用是有用的。利用分層結構的一個直接方法是利用池化算法將節點聚類到固定的組中,并逐層縮小輸入圖以學習池化的圖。但池化收縮丟棄了圖的細節,難以區分兩個非同構圖,固定聚類忽略了節點固有的多重特性。為了彌補網絡的收縮損失和學習網絡節點的各種特性,我們提出了多通道圖神經網絡(MuchGNN)。在卷積神經網絡的基礎機制的驅動下,我們定義了定制的圖卷積來學習每一層的一系列圖通道,并分層縮小圖來編碼匯集的結構。在真實數據集上的實驗結果證明了MuchGNN的優越性。
本文通過最小化驗證損失代理來搜索最佳神經網絡結構。現有的神經結構搜索(NAS)方法在給定最新的網絡權重的情況下發現基于驗證樣本的最佳神經網絡結構。但是,由于在NAS中需要多次重復進行反向傳播,使用大量驗證樣本進行反向傳播可能會非常耗時。在本文中,我們建議通過學習從神經網絡結構到對應的損失的映射來近似驗證損失情況。因此,可以很容易地將最佳神經網絡結構識別為該代理驗證損失范圍的最小值。同時,本文進一步提出了一種新的采樣策略,可以有效地近似損失情況。理論分析表明,與均勻采樣相比,我們的采樣策略可以達到更低的錯誤率和更低的標簽復雜度。在標準數據集上的實驗結果表明,通過本方法進行神經結構搜索可以在較低的搜索時間內搜索到精度很高的網絡結構。
摘要:卷積神經網絡在廣泛的應用中取得了優秀的表現,但巨大的資源消耗量使得其應用于移動端和嵌入式設備成為了挑戰。為了解決此類問題,需要對網絡模型在大小、速度和準確度方面做出平衡。首先,從模型是否預先訓練角度,簡要介紹了網絡壓縮與加速的兩類方法——神經網絡壓縮和緊湊的神經網絡。具體地,闡述了緊湊的神經網絡設計方法,展示了其中不同運算方式,強調了這些運算特點,并根據基礎運算不同,將其分為基于空間卷積的模型設計和基于移位卷積模型設計兩大類,然后每類分別選取三個網絡模型從基礎運算單元、核心構建塊和整體網絡結構進行論述。同時,分析了各網絡以及常規網絡在ImageNet數據集上的性能。最后,總結了現有的緊湊神經網絡設計技巧,并展望了未來的發展方向。
深度卷積神經網絡在計算機視覺任務中有著廣泛的應用。然而由于神經網絡常常具有較大的計算量,其無法被直接應用在例如手機、無人車等移動設備上。于是,如何壓縮神經網絡使得他們可以被應用在資源受限的設備上已成為研究的熱點。
圖1:不同比特乘法和加法的運算代價對比
加法,減法,乘法和除法是數學中最基本的四個運算。眾所周知,乘法的運算速度比加法慢。圖1展示了加法和乘法在45nm元器件上的運算代價,可以看到,乘法的運算代價大大高于加法。然而現有的深度卷積神經網絡包含著大量的乘法運算,帶來了極大的運算代價。實際上,CNN中的卷積運算是計算特征和卷積核之間的互相關性。卷積被作為看作是從視覺數據中提取特征的默認操作,以往的工作引入各種方法來加速卷積。但是,幾乎沒有研究者嘗試用另一種更有效的相似性度來量代替卷積。由于加法的計算復雜度比乘法低得多。因此,我們研究卷積神經網絡中用加法代替乘法的可行性。
在本論文中,我們提出了AdderNet,一種幾乎不包含乘法的神經網絡。不同于卷積網絡,我們使用L1距離來度量神經網絡中特征和濾波器之間的相關性。由于L1距離中只包含加法和減法,神經網絡中大量的乘法運算可以被替換為加法和減法,從而大大減少了神經網絡的計算代價。此外,我們設計了帶有自適應學習率的改進的梯度計算方案,以確保濾波器的優化速度和更好的網絡收斂。在CIFAR和ImageNet數據集上的結果表明AdderNet可以在分類任務上取得和CNN相似的準確率。