題目: Training Binary Neural Networks with Real-to-Binary Convolutions
摘要:
本文展示了如何將二進制網絡訓練到與完全精確網絡相當的幾個百分點(~3?5%)之內。我們首先展示如何建立一個強大的基線,該基線通過結合最近提出的進展和仔細調整優化過程已經達到了最先進的精度。其次,我們證明了通過最小化二進制信號的輸出和相應的實值卷積之間的差異,可以獲得額外顯著的精度增益。我們以兩種互補的方式實現了這個想法:
最后,我們證明,當我們把所有的改進放在一起,當使用ResNet-18架構時,該模型在ImageNet上的top-1精度超過當前水平的5%,并將其與CIFAR-100和ImageNet上的real-value精度的差距分別降低到不足3%和5%。
題目: Smooth Adversarial Training
摘要:
人們通常認為,網絡不能兼具準確性和魯棒性,獲得魯棒性意味著失去準確性。還普遍認為,除非擴大網絡規模,否則網絡架構元素對提高對抗性的健壯性影響不大。本文通過對對抗訓練的仔細研究,提出了挑戰這些共同信念的證據。主要觀察結果是,廣泛使用的ReLU激活功能由于其不平滑的特性而大大削弱了對抗訓練。因此,提出了平滑對抗訓練(SAT),在其中我們用ReLU平滑近似代替了ReLU,以加強對抗訓練。SAT中平滑激活函數的目的是使它能夠找到更難的對抗示例,并在對抗訓練期間計算出更好的梯度更新。與標準的對抗訓練相比,SAT提高了“free”的對抗魯棒性,即準確性沒有降低,計算成本也沒有增加。例如,在不引入其他計算的情況下,SAT可將ResNet-50的魯棒性從33.0%提高到42.3%,同時還將ImageNet的準確性提高0.9%。SAT在較大的網絡上也能很好地工作:它可以幫助EfficientNet-L1在ImageNet上實現82.2%的準確性和58.6%的魯棒性,在準確性和魯棒性方面分別比以前的最新防御提高9.5%和11.6%。
摘要
圖神經網絡(GNNs)已被證明在建模圖結構的數據方面是強大的。然而,訓練GNN通常需要大量指定任務的標記數據,獲取這些數據的成本往往非常高。減少標記工作的一種有效方法是在未標記數據上預訓練一個具有表達能力的GNN模型,并進行自我監督,然后將學習到的模型遷移到只有少量標記的下游任務中。在本文中,我們提出了GPT-GNN框架,通過生成式預訓練來初始化GNN。GPT-GNN引入了一個自監督屬性圖生成任務來預訓練一個GNN,使其能夠捕獲圖的結構和語義屬性信息。我們將圖生成的概率分解為兩部分:1)屬性生成和2)邊生成。通過對兩個組件進行建模,GPT-GNN捕捉到生成過程中節點屬性與圖結構之間的內在依賴關系。在10億規模的開放學術圖和亞馬遜推薦數據上進行的綜合實驗表明,GPT-GNN在不經過預訓練的情況下,在各種下游任務中的表現顯著優于最先進的GNN模型,最高可達9.1%。
**關鍵詞:**生成式預訓練,圖神經網絡,圖表示學習,神經嵌入,GNN預訓練
題目: Continuous Graph Neural Networks
摘要:
本文建立了圖神經網絡與傳統動力系統之間的聯系。我們提出了持續圖神經網絡(CGNN),它將現有的圖神經網絡與離散動力學進行了一般化,因為它們可以被視為一種特定的離散化方案。關鍵思想是如何表征節點表示的連續動力學,即關于時間的節點表示的導數。受現有的基于擴散的圖方法(如社交網絡上的PageRank和流行模型)的啟發,我們將導數定義為當前節點表示、鄰節點表示和節點初始值的組合。我們提出并分析了兩種可能的動態圖,包括節點表示的每個維度(又名特征通道)各自改變或相互作用的理論證明。所提出的連續圖神經網絡在過度平滑方面具有很強的魯棒性,因此允許我們構建更深層次的網絡,進而能夠捕獲節點之間的長期依賴關系。在節點分類任務上的實驗結果證明了我們提出的方法在和基線對比的有效性。
介紹
圖神經網絡(GNNs)由于其在節點分類等多種應用中的簡單性和有效性而受到越來越多的關注;、鏈接預測、化學性質預測、自然語言理解。GNN的基本思想是設計多個圖傳播層,通過聚合鄰近節點的節點表示和節點本身的表示,迭代地更新每個節點表示。在實踐中,對于大多數任務,幾層(兩層或三層)通常就足夠了,更多的層可能導致較差的性能。
改進GNNs的一個關鍵途徑是能夠建立更深層次的網絡,以了解數據和輸出標簽之間更復雜的關系。GCN傳播層平滑了節點表示,即圖中相鄰的節點變得更加相似。當我們堆疊越來越多的層時,這會導致過度平滑,這意味著節點表示收斂到相同的值,從而導致性能下降。因此,重要的是緩解節點過平滑效應,即節點表示收斂到相同的值。
此外,對于提高我們對GNN的理論理解,使我們能夠從圖結構中描述我們可以學到的信號,這是至關重要的。最近關于理解GCN的工作(Oono和Suzuki, 2020)認為GCN是由離散層定義的離散動力系統。此外,Chen等人(2018)證明了使用離散層并不是構建神經網絡的唯一視角。他們指出,帶有剩余連接的離散層可以看作是連續ODE的離散化。他們表明,這種方法具有更高的記憶效率,并且能夠更平滑地建模隱藏層的動態。
我們利用基于擴散方法的連續視角提出了一種新的傳播方案,我們使用來自常微分方程(即連續動力系統)的工具進行分析。事實上,我們能夠解釋我們的模型學習了什么表示,以及為什么它不會遭受在GNNs中常見的過度平滑問題。允許我們建立更深層次的網絡,也就是說我們的模型在時間價值上運行良好。恢復過平滑的關鍵因素是在連續設置中使用了最初在PageRank中提出的原始分布。直觀上,重新開始分布有助于不忘記鄰接矩陣的低冪次信息,從而使模型收斂到有意義的平穩分布。
本文的主要貢獻是:
主題: Graph Neural Networks with Composite Kernels
摘要: 近年來,對圖結構化數據的學習引起了越來越多人的興趣。諸如圖卷積網絡(GCN)之類的框架已經證明了它們在各種任務中捕獲結構信息并獲得良好性能的能力。在這些框架中,節點聚合方案通常用于捕獲結構信息:節點的特征向量是通過聚集其相鄰節點的特征來遞歸計算的。但是,大多數聚合方案都將圖中的所有連接均等化,而忽略了節點特征的相似性。本文從內核權重的角度重新解釋了節點聚合,并提出了一個框架來考慮特征相似性。我們表明歸一化的鄰接矩陣等效于Kerin空間中基于鄰居的內核矩陣。然后,我們提出功能聚集作為基于原始鄰居的內核和可學習的內核的組成,以在特征空間中編碼特征相似性。我們進一步展示了如何將所提出的方法擴展到圖注意力網絡(GAT)。實驗結果表明,在一些實際應用中,我們提出的框架具有更好的性能。
交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在這篇論文中,我們提出了一種新的訓練方法,在不同架構和數據擴充的監督學習任務中,它的表現始終優于交叉熵。我們修改了批量對比損失,這是最近被證明在自監督學習強大表示是非常有效的。我們能夠比交叉熵更有效地利用標簽信息。在嵌入空間中,將同一類的點聚在一起,同時將不同類的樣本聚在一起。除此之外,我們還利用了關鍵的成分,如大批量和標準化嵌入,這些已經被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的交叉熵性能都超過了1%,在使用自動增廣數據增強的方法中,我們設置了78.8%的最新水平。這一損失也清楚地表明,在校準和準確性方面,對標準基準的自然損壞具有魯棒性。與交叉熵相比,我們的監督對比損失更穩定的超參數設置,如優化或數據擴充。
主題: TOPOLOGY OF DEEP NEURAL NETWORKS
摘要: 我們研究數據集M=Ma∪Mb?Rd的拓撲結構如何表示二進制分類問題中的兩個類別a和b,如何通過經過良好訓練的神經網絡的層而發生變化,即在訓練集和接近零的泛化誤差(≈0.01%)。目的是揭示深層神經網絡的兩個奧秘:(i)像ReLU這樣的非平滑激活函數要優于像雙曲正切這樣的平滑函數; (ii)成功的神經網絡架構依賴于多層結構,即使淺層網絡可以很好地近似任意函數。我們對大量點云數據集的持久同源性進行了廣泛的實驗,無論是真實的還是模擬的。結果一致地證明了以下幾點:(1)神經網絡通過更改拓撲結構來運行,將拓撲復雜的數據集在穿過各層時轉換為拓撲簡單的數據集。無論M的拓撲多么復雜,當通過訓練有素的神經網絡f:Rd→Rp時,Ma和Mb的貝蒂數都會大大減少;實際上,它們幾乎總是減小到可能的最低值:對于k≥1和β0(f(Mi))= 1,i = a,b,βk(f(Mi))= 0。此外,(2)ReLU激活的Betti數減少比雙曲線切線激活快得多,因為前者定義了改變拓撲的非同胚映射,而后者定義了保留拓撲的同胚映射。最后,(3)淺層和深層網絡以不同的方式轉換數據集-淺層網絡主要通過更改幾何結構并僅在其最終層中更改拓撲來運行,而深層網絡則將拓撲變化更均勻地分布在所有層中。
近年來,自適應推理因其計算效率高而受到越來越多的關注。不同于現有的工作,主要利用架構適應網絡冗余設計,在本文中,我們關注的空間冗余輸入樣本,并提出一種新穎的分辨率自適應網絡(RANet)。我們的動機是,低分辨率表示對于包含規范對象的“簡單”樣本的分類是足夠的,而高分辨率特征對于識別一些“困難”對象是有用的。在RANet中,輸入圖像首先被路由到一個輕量級的子網絡,這個子網絡能夠有效地提取粗糙的特征圖,并且具有高可信度預測的樣本將會很早就從這個子網絡中退出。只有那些先前預測不可靠的“硬”樣本才會激活高分辨率路徑。通過自適應地處理不同分辨率的特征,可以顯著提高RANet的計算效率。在三個分類基準測試任務(CIFAR-10、CIFAR-100和ImageNet)上的實驗證明了該模型在任意時間預測設置和預算批量分類設置中的有效性。
深度神經網絡在計算機視覺任務中取得了顯著的成功。現有的神經網絡主要在固定輸入尺寸的空間域內運行。在實際應用中,圖像通常很大,必須向下采樣到預定的神經網絡輸入大小。盡管下行采樣操作減少了計算量和所需的通信帶寬,但它同時在不影響冗余和顯著信息的前提下消除了冗余和顯著信息,從而導致精度下降。受數字信號處理理論的啟發,我們從頻率的角度分析了頻譜偏差,提出了一種基于學習的頻率選擇方法來識別可以在不損失精度的情況下去除的瑣碎頻率分量。提出的頻域學習方法利用眾所周知的神經網絡的相同結構,如ResNet-50、MobileNetV2和Mask R-CNN,同時接受頻域信息作為輸入。實驗結果表明,與傳統的空間降采樣方法相比,基于靜態信道選擇的頻域學習方法可以獲得更高的精度,同時進一步減小了輸入數據的大小。針對相同輸入大小的ImageNet分類,分別在ResNet-50和MobileNetV2上實現了1.41%和0.66%的top-1精度改進。即使只有一半的輸入大小,該方法仍然可以將ResNet-50的前1位精度提高1%。此外,我們還觀察到,在COCO數據集的實例分割方面,Mask R-CNN的平均精度提高了0.8%。
機器學習的許多應用都需要一個模型來對測試樣本做出準確的預測,這些測試樣本在分布上與訓練示例不同,而在訓練期間,特定于任務的標簽很少。應對這一挑戰的有效方法是,在數據豐富的相關任務上對模型進行預訓練,然后在下游任務上對其進行微調。盡管預訓練在許多語言和視覺領域都是有效的,但是如何在圖數據集上有效地使用預訓練仍是一個有待解決的問題。本文提出了一種新的圖神經網絡訓練策略和自監督方法。我們的策略成功的關鍵是在單個節點以及整個圖的層次上預訓練一個具有強表示能力的GNN,以便GNN能夠同時學習有用的局部和全局表示。我們系統地研究了多類圖分類數據集的預處理問題。我們發現,在整個圖或單個節點級別上對GNN進行預訓練的樸素策略改進有限,甚至可能導致許多下游任務的負遷移。相比之下,我們的策略避免了負遷移,顯著提高了下游任務的泛化能力,使得ROC-AUC相對于未經訓練的模型提高了9.4%,實現了分子特性預測和蛋白質功能預測的最好性能。
題目: The Break-Even Point on Optimization Trajectories of Deep Neural Networks
摘要:
深度神經網絡的早期訓練對其最終性能至關重要。在這項工作中,我們研究了在訓練初期使用的隨機梯度下降(SGD)超參數如何影響優化軌跡的其余部分。我們認為在這條軌跡上存在“盈虧平衡點”,超過這個平衡點,損失曲面的曲率和梯度中的噪聲將被SGD隱式地正則化。特別是在多個分類任務中,我們證明了在訓練的初始階段使用較大的學習率可以減少梯度的方差,改善梯度的協方差條件。從優化的角度來看,這些效果是有益的,并且在盈虧平衡點之后變得明顯。補充之前的工作,我們還表明,使用低的學習率,即使對于具有批處理歸一化層的神經網絡,也會導致損失曲面的不良適應。簡而言之,我們的工作表明,在訓練的早期階段,損失表面的關鍵屬性受到SGD的強烈影響。我們認為,研究確定的效應對泛化的影響是一個有前途的未來研究方向。