亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

題目: The Break-Even Point on Optimization Trajectories of Deep Neural Networks

摘要:

深度神經網絡的早期訓練對其最終性能至關重要。在這項工作中,我們研究了在訓練初期使用的隨機梯度下降(SGD)超參數如何影響優化軌跡的其余部分。我們認為在這條軌跡上存在“盈虧平衡點”,超過這個平衡點,損失曲面的曲率和梯度中的噪聲將被SGD隱式地正則化。特別是在多個分類任務中,我們證明了在訓練的初始階段使用較大的學習率可以減少梯度的方差,改善梯度的協方差條件。從優化的角度來看,這些效果是有益的,并且在盈虧平衡點之后變得明顯。補充之前的工作,我們還表明,使用低的學習率,即使對于具有批處理歸一化層的神經網絡,也會導致損失曲面的不良適應。簡而言之,我們的工作表明,在訓練的早期階段,損失表面的關鍵屬性受到SGD的強烈影響。我們認為,研究確定的效應對泛化的影響是一個有前途的未來研究方向。

付費5元查看完整內容

相關內容

深度神經網絡(DNN)是深度學習的一種框架,它是一種具備至少一個隱層的神經網絡。與淺層神經網絡類似,深度神經網絡也能夠為復雜非線性系統提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。

題目:

Con?dence-Aware Learning for Deep Neural Networks

簡介:

盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。

付費5元查看完整內容

題目: On the Generalization Benefit of Noise in Stochastic Gradient Descent

摘要:

長期以來一直有人認為,在深度神經網絡中,小批量隨機梯度下降比大批量梯度下降具有更好的泛化能力。但是,最近的論文對此主張提出了質疑,認為這種影響僅是批處理量較大時超優化超參數調整或計算預算不足的結果。在本文中,我們對一系列流行的模型進行了精心設計的實驗并進行了嚴格的超參數掃描,這證明了小批量或中等批量都可以大大勝過測試集上的超大批量。即使兩個模型都經過相同數量的迭代訓練并且大批量實現較小的訓練損失時,也會發生這種情況。我們的結果證實,隨機梯度中的噪聲可以增強泛化能力。我們研究最佳學習率時間表如何隨著epoch budget的增長而變化,并基于SGD動力學的隨機微分方程視角為我們的觀察提供理論解釋。

付費5元查看完整內容

題目: Continuous Graph Neural Networks

摘要:

本文建立了圖神經網絡與傳統動力系統之間的聯系。我們提出了持續圖神經網絡(CGNN),它將現有的圖神經網絡與離散動力學進行了一般化,因為它們可以被視為一種特定的離散化方案。關鍵思想是如何表征節點表示的連續動力學,即關于時間的節點表示的導數。受現有的基于擴散的圖方法(如社交網絡上的PageRank和流行模型)的啟發,我們將導數定義為當前節點表示、鄰節點表示和節點初始值的組合。我們提出并分析了兩種可能的動態圖,包括節點表示的每個維度(又名特征通道)各自改變或相互作用的理論證明。所提出的連續圖神經網絡在過度平滑方面具有很強的魯棒性,因此允許我們構建更深層次的網絡,進而能夠捕獲節點之間的長期依賴關系。在節點分類任務上的實驗結果證明了我們提出的方法在和基線對比的有效性。

介紹

圖神經網絡(GNNs)由于其在節點分類等多種應用中的簡單性和有效性而受到越來越多的關注;、鏈接預測、化學性質預測、自然語言理解。GNN的基本思想是設計多個圖傳播層,通過聚合鄰近節點的節點表示和節點本身的表示,迭代地更新每個節點表示。在實踐中,對于大多數任務,幾層(兩層或三層)通常就足夠了,更多的層可能導致較差的性能。

改進GNNs的一個關鍵途徑是能夠建立更深層次的網絡,以了解數據和輸出標簽之間更復雜的關系。GCN傳播層平滑了節點表示,即圖中相鄰的節點變得更加相似。當我們堆疊越來越多的層時,這會導致過度平滑,這意味著節點表示收斂到相同的值,從而導致性能下降。因此,重要的是緩解節點過平滑效應,即節點表示收斂到相同的值。

此外,對于提高我們對GNN的理論理解,使我們能夠從圖結構中描述我們可以學到的信號,這是至關重要的。最近關于理解GCN的工作(Oono和Suzuki, 2020)認為GCN是由離散層定義的離散動力系統。此外,Chen等人(2018)證明了使用離散層并不是構建神經網絡的唯一視角。他們指出,帶有剩余連接的離散層可以看作是連續ODE的離散化。他們表明,這種方法具有更高的記憶效率,并且能夠更平滑地建模隱藏層的動態。

我們利用基于擴散方法的連續視角提出了一種新的傳播方案,我們使用來自常微分方程(即連續動力系統)的工具進行分析。事實上,我們能夠解釋我們的模型學習了什么表示,以及為什么它不會遭受在GNNs中常見的過度平滑問題。允許我們建立更深層次的網絡,也就是說我們的模型在時間價值上運行良好。恢復過平滑的關鍵因素是在連續設置中使用了最初在PageRank中提出的原始分布。直觀上,重新開始分布有助于不忘記鄰接矩陣的低冪次信息,從而使模型收斂到有意義的平穩分布。

本文的主要貢獻是:

  • 基于PageRank和擴散方法,提出了兩個連續遞增模型容量的ODEs;
  • 我們從理論上分析了我們的層學習的表示,并表明當t → ∞我們的方法接近一個穩定的不動點,它捕獲圖結構和原始的節點特征。因為我們在t→∞時是穩定的,我們的網絡可以有無限多個“層”,并且能夠學習遠程依賴關系;
  • 我們證明了我們的模型的記憶是高效的,并且對t的選擇是具有魯棒性的。除此之外,我們進一步證明了在節點分類任務上,我們的模型能夠比許多現有的最先進的方法表現更好。
付費5元查看完整內容

主題: TOPOLOGY OF DEEP NEURAL NETWORKS

摘要: 我們研究數據集M=Ma∪Mb?Rd的拓撲結構如何表示二進制分類問題中的兩個類別a和b,如何通過經過良好訓練的神經網絡的層而發生變化,即在訓練集和接近零的泛化誤差(≈0.01%)。目的是揭示深層神經網絡的兩個奧秘:(i)像ReLU這樣的非平滑激活函數要優于像雙曲正切這樣的平滑函數; (ii)成功的神經網絡架構依賴于多層結構,即使淺層網絡可以很好地近似任意函數。我們對大量點云數據集的持久同源性進行了廣泛的實驗,無論是真實的還是模擬的。結果一致地證明了以下幾點:(1)神經網絡通過更改拓撲結構來運行,將拓撲復雜的數據集在穿過各層時轉換為拓撲簡單的數據集。無論M的拓撲多么復雜,當通過訓練有素的神經網絡f:Rd→Rp時,Ma和Mb的貝蒂數都會大大減少;實際上,它們幾乎總是減小到可能的最低值:對于k≥1和β0(f(Mi))= 1,i = a,b,βk(f(Mi))= 0。此外,(2)ReLU激活的Betti數減少比雙曲線切線激活快得多,因為前者定義了改變拓撲的非同胚映射,而后者定義了保留拓撲的同胚映射。最后,(3)淺層和深層網絡以不同的方式轉換數據集-淺層網絡主要通過更改幾何結構并僅在其最終層中更改拓撲來運行,而深層網絡則將拓撲變化更均勻地分布在所有層中。

付費5元查看完整內容

題目: Training Binary Neural Networks with Real-to-Binary Convolutions

摘要:

本文展示了如何將二進制網絡訓練到與完全精確網絡相當的幾個百分點(~3?5%)之內。我們首先展示如何建立一個強大的基線,該基線通過結合最近提出的進展和仔細調整優化過程已經達到了最先進的精度。其次,我們證明了通過最小化二進制信號的輸出和相應的實值卷積之間的差異,可以獲得額外顯著的精度增益。我們以兩種互補的方式實現了這個想法:

  • (1)具有損失函數,在訓練過程中,通過對二值卷積和實值卷積輸出的空間注意圖進行匹配;
  • (2)以數據驅動的方式,利用二值化過程之前的推理過程中可用的實值激活,在二進制卷積之后重新縮放激活。

最后,我們證明,當我們把所有的改進放在一起,當使用ResNet-18架構時,該模型在ImageNet上的top-1精度超過當前水平的5%,并將其與CIFAR-100和ImageNet上的real-value精度的差距分別降低到不足3%和5%。

付費5元查看完整內容

最近的研究表明,神經網絡學習的許多重要方面都發生在訓練的最早階段。例如,稀疏的、可訓練的子網絡出現(Frankle et al., 2019),梯度下降移動到一個小的子空間(guri - ari et al., 2018),網絡經歷一個關鍵時期(Achille et al., 2019)。在這里,我們檢查了深層神經網絡在早期訓練階段所經歷的變化。在這些早期的訓練迭代中,我們對網絡狀態進行了廣泛的測量,并利用Frankle等人(2019)的框架來定量探測權重分布及其對數據集各個方面的依賴。我們發現,在這個框架中,深度網絡在保持符號的同時,對隨機權值的重新初始化不夠健壯,并且即使經過幾百次迭代,權值的分布仍然是非獨立的。盡管存在這種行為,使用模糊輸入或輔助自監督任務的預訓練可以近似監督網絡中的變化,這表明這些變化并不是固有的標簽依賴,盡管標簽顯著地加速了這一過程。綜上所述,這些結果有助于闡明在學習的關鍵初始階段所發生的網絡變化。

付費5元查看完整內容

機器學習的許多應用都需要一個模型來對測試樣本做出準確的預測,這些測試樣本在分布上與訓練示例不同,而在訓練期間,特定于任務的標簽很少。應對這一挑戰的有效方法是,在數據豐富的相關任務上對模型進行預訓練,然后在下游任務上對其進行微調。盡管預訓練在許多語言和視覺領域都是有效的,但是如何在圖數據集上有效地使用預訓練仍是一個有待解決的問題。本文提出了一種新的圖神經網絡訓練策略和自監督方法。我們的策略成功的關鍵是在單個節點以及整個圖的層次上預訓練一個具有強表示能力的GNN,以便GNN能夠同時學習有用的局部和全局表示。我們系統地研究了多類圖分類數據集的預處理問題。我們發現,在整個圖或單個節點級別上對GNN進行預訓練的樸素策略改進有限,甚至可能導致許多下游任務的負遷移。相比之下,我們的策略避免了負遷移,顯著提高了下游任務的泛化能力,使得ROC-AUC相對于未經訓練的模型提高了9.4%,實現了分子特性預測和蛋白質功能預測的最好性能。

付費5元查看完整內容

主題: On the information bottleneck theory of deep learning

摘要: 深度神經網絡的實際成功并沒有得到令人滿意地解釋其行為的理論進展。在這項工作中,我們研究了深度學習的信息瓶頸理論,它提出了三個具體的主張:第一,深度網絡經歷了兩個不同的階段,分別是初始擬合階段和隨后的壓縮階段;第二,壓縮階段與深網絡良好的泛化性能有著因果關系;第三,壓縮階段是由隨機梯度下降的類擴散行為引起的。在這里,我們證明這些聲明在一般情況下都不成立,而是反映了在確定性網絡中計算有限互信息度量的假設。當使用簡單的binning進行計算時,我們通過分析結果和模擬的結合證明,在先前工作中觀察到的信息平面軌跡主要是所采用的神經非線性的函數:當神經激活進入飽和時,雙邊飽和非線性如產生壓縮相但線性激活函數和單邊飽和非線性(如廣泛使用的ReLU)實際上沒有。此外,我們發現壓縮和泛化之間沒有明顯的因果關系:不壓縮的網絡仍然能夠泛化,反之亦然。接下來,我們表明,壓縮階段,當它存在時,不產生從隨機性在訓練中,通過證明我們可以復制IB發現使用全批梯度下降,而不是隨機梯度下降。最后,我們證明當輸入域由任務相關信息和任務無關信息的子集組成時,隱藏表示確實壓縮了任務無關信息,盡管輸入的總體信息可能隨著訓練時間單調增加,并且這種壓縮與擬合過程同時發生而不是在隨后的壓縮期間。

付費5元查看完整內容
北京阿比特科技有限公司