題目: On the Generalization Benefit of Noise in Stochastic Gradient Descent
摘要:
長期以來一直有人認為,在深度神經網絡中,小批量隨機梯度下降比大批量梯度下降具有更好的泛化能力。但是,最近的論文對此主張提出了質疑,認為這種影響僅是批處理量較大時超優化超參數調整或計算預算不足的結果。在本文中,我們對一系列流行的模型進行了精心設計的實驗并進行了嚴格的超參數掃描,這證明了小批量或中等批量都可以大大勝過測試集上的超大批量。即使兩個模型都經過相同數量的迭代訓練并且大批量實現較小的訓練損失時,也會發生這種情況。我們的結果證實,隨機梯度中的噪聲可以增強泛化能力。我們研究最佳學習率時間表如何隨著epoch budget的增長而變化,并基于SGD動力學的隨機微分方程視角為我們的觀察提供理論解釋。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
有噪聲矩陣補全的目的是估計一個低秩矩陣只給出部分和損壞的項。盡管在設計有效的估計算法方面取得了實質性的進展,但如何評估所獲得估計的不確定性以及如何對未知矩陣執行統計推斷(例如,為一個未見的條目構造一個有效的和短的置信區間)仍在很大程度上不清楚。這篇報告向有噪聲矩陣補全的推理和不確定性量化邁出了一步。我們開發了一個簡單的方法來補償廣泛使用的凸估計量和非凸估計量的偏差。所得到的去偏估計量承認了近乎精確的非漸近分布特征,這進而使得諸如缺失項和低秩因子的置信區間/區域的最優構造成為可能。我們的推理過程不依賴于樣本分裂,從而避免了數據效率的不必要損失。作為一個副產品,我們得到了對我們的去偏估計的估計精度的一個清晰的表征,據我們所知,這是第一個可證明實現完全統計效率(包括前置常數)的可控算法。本文的分析建立在凸和非凸優化之間的密切聯系上。
由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。
這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。
我們研究了深度學習優化算法評估中的幾個混合因素。首先,我們深入研究自適應梯度方法如何與學習速率調整相互作用,這是一個眾所周知的難以調整的超參數,它對神經網絡訓練的收斂和推廣具有顯著影響。我們引入了一個“嫁接”實驗,該實驗將更新的大小與其方向解耦,發現文獻中的許多現有信念可能是由于對步長的隱式時間表的隔離不足而產生的。除了這一貢獻之外,我們還對自適應梯度方法的推廣進行了一些實證和理論回顧,旨在為這一空間帶來更清晰的視角。
題目: The Break-Even Point on Optimization Trajectories of Deep Neural Networks
摘要:
深度神經網絡的早期訓練對其最終性能至關重要。在這項工作中,我們研究了在訓練初期使用的隨機梯度下降(SGD)超參數如何影響優化軌跡的其余部分。我們認為在這條軌跡上存在“盈虧平衡點”,超過這個平衡點,損失曲面的曲率和梯度中的噪聲將被SGD隱式地正則化。特別是在多個分類任務中,我們證明了在訓練的初始階段使用較大的學習率可以減少梯度的方差,改善梯度的協方差條件。從優化的角度來看,這些效果是有益的,并且在盈虧平衡點之后變得明顯。補充之前的工作,我們還表明,使用低的學習率,即使對于具有批處理歸一化層的神經網絡,也會導致損失曲面的不良適應。簡而言之,我們的工作表明,在訓練的早期階段,損失表面的關鍵屬性受到SGD的強烈影響。我們認為,研究確定的效應對泛化的影響是一個有前途的未來研究方向。
主題: On the information bottleneck theory of deep learning
摘要: 深度神經網絡的實際成功并沒有得到令人滿意地解釋其行為的理論進展。在這項工作中,我們研究了深度學習的信息瓶頸理論,它提出了三個具體的主張:第一,深度網絡經歷了兩個不同的階段,分別是初始擬合階段和隨后的壓縮階段;第二,壓縮階段與深網絡良好的泛化性能有著因果關系;第三,壓縮階段是由隨機梯度下降的類擴散行為引起的。在這里,我們證明這些聲明在一般情況下都不成立,而是反映了在確定性網絡中計算有限互信息度量的假設。當使用簡單的binning進行計算時,我們通過分析結果和模擬的結合證明,在先前工作中觀察到的信息平面軌跡主要是所采用的神經非線性的函數:當神經激活進入飽和時,雙邊飽和非線性如產生壓縮相但線性激活函數和單邊飽和非線性(如廣泛使用的ReLU)實際上沒有。此外,我們發現壓縮和泛化之間沒有明顯的因果關系:不壓縮的網絡仍然能夠泛化,反之亦然。接下來,我們表明,壓縮階段,當它存在時,不產生從隨機性在訓練中,通過證明我們可以復制IB發現使用全批梯度下降,而不是隨機梯度下降。最后,我們證明當輸入域由任務相關信息和任務無關信息的子集組成時,隱藏表示確實壓縮了任務無關信息,盡管輸入的總體信息可能隨著訓練時間單調增加,并且這種壓縮與擬合過程同時發生而不是在隨后的壓縮期間。
簡介: 為了解釋超參數化深度網絡令人驚訝的良好泛化行為,最近的工作開發了各種泛化邊界學習方法,這些方法都是基于統一收斂的基礎學習理論技術。盡管眾所周知,存在多個邊界的數值很大,但通過大量實驗,我們發現了這些邊界的更多相關方面:在實踐中,這些邊界會隨著訓練數據集的大小而增加。然后,以我們的觀察為指導,我們提供了由梯度下降(GD)訓練的過參數化線性分類器和神經網絡的示例,其中即使證明了最大程度地考慮了GD的隱性偏差,也證明均勻收斂不能“解釋泛化”。更準確地說,即使我們僅考慮GD輸出的分類器集,其測試誤差小于我們的設置中的一些誤差,我們仍然表明,在這組分類器上應用(雙面)均勻收斂只會產生虛無泛化保證大于1?ε。通過這些發現,我們對基于統一收斂的泛化邊界的威力提出了疑問,以提供為什么超參數化的深層網絡能夠很好地泛化的完整情況。
本文提出了本質上是負面的結果,表明許多現有的(基于規范的)深度學習算法的性能邊界無法達到他們要求的結果。作者進一步說,當其他研究者繼續依靠雙邊一致收斂的機制時,他們將無法達到自己宣稱的結果。雖然本文沒有解決(也不假裝解決)深層神經網絡中的泛化問題,但是將該算法“釘死在十字架上”(培根原話“An Instance of the Fingerpost”),指出機器學習領域應該關注另一個不同的地方。
作者介紹: Vaishnavh Nagarajan,卡內基梅隆大學(CMU)計算機科學系五年級的博士生。他的興趣在于機器學習和人工智能的算法和基礎方面。目前,他正在研究如何在有監督和無監督的學習環境中從理論上理解深度學習中的泛化。在過去,他從事過更傳統的學習理論、多智能體系統和強化學習。
Zico Kolter,卡內基梅隆大學計算機科學學院計算機科學系的副教授。 除了在CMU的全職工作之外,還任博世AI中心(BCAI)的AI研究首席科學家,工作重點是機器學習,優化和控制。 具體來說,就是使深度學習算法更安全,更可靠,更易于解釋。個人主頁://www.csd.cs.cmu.edu/people/faculty/zico-kolter
We investigate how the final parameters found by stochastic gradient descent are influenced by over-parameterization. We generate families of models by increasing the number of channels in a base network, and then perform a large hyper-parameter search to study how the test error depends on learning rate, batch size, and network width. We find that the optimal SGD hyper-parameters are determined by a "normalized noise scale," which is a function of the batch size, learning rate, and initialization conditions. In the absence of batch normalization, the optimal normalized noise scale is directly proportional to width. Wider networks, with their higher optimal noise scale, also achieve higher test accuracy. These observations hold for MLPs, ConvNets, and ResNets, and for two different parameterization schemes ("Standard" and "NTK"). We observe a similar trend with batch normalization for ResNets. Surprisingly, since the largest stable learning rate is bounded, the largest batch size consistent with the optimal normalized noise scale decreases as the width increases.