題目: Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization
簡介:
在過去的十年中,深度學習證明了計算機視覺和自然語言處理所帶來的挑戰的最新準確性,從而使這些領域發生了革命性變化。深度學習模型現在是自動駕駛,醫學成像和神經機器翻譯等應用程序的基本構建塊。但是,在生產中部署這些模型時,仍然存在許多挑戰。研究人員和從業人員必須解決各種各樣的問題,包括如何有效地設計,培訓和部署資源密集型深度學習模型,以及如何在確保對變化條件的魯棒性的同時使這些方法自動化。本文提供并評估了提高深度學習訓練和推理效率以及底層系統對環境變化的魯棒性的新方法。我們通過關注為優化模型的準確性和資源使用而優化的許多超參數來解決這些問題。這些超參數包括模型架構的選擇,訓練數據集,優化算法,優化算法的超參數(例如學習率和動量)以及訓練時間預算。當前,在實踐中,幾乎所有超參數在訓練之前都進行了一次調整,此后保持不變,然而最佳的超參數值會隨時間變化(例如,隨著訓練的進行或替換用于推理的硬件時)。我們將動態調整應用于傳統上被認為是靜態的超參數。通過三個案例研究,我們表明,使用運行時信息來動態適應傳統上靜態的超參數可以提高機器學習訓練和推理的效率。 首先,我們提出并分析Selective-Backprop,這是一種新的重要采樣方法,它以在線方式對高損失示例進行優先排序。在Selective-Backprop中,被認為具有挑戰性的示例是可調超參數。通過優先處理這些具有挑戰性的示例,Selective-Backprop可以將給定的目標錯誤率訓練到比靜態方法快3.5倍的目標。接下來,我們探索AdaptSB,它是Selective-Backprop的變體,可以動態調整我們對具有挑戰性的示例進行優先級排序的方式。在“選擇性反向傳播”中,分配給難度不同示例的優先級保持不變。在AdaptSB中,我們將分配給不同類別示例的優先級視為可調超參數。通過對數據集和訓練階段動態地調整示例優先級,AdaptSB在出現標簽錯誤的數據集上表現優于Selective-Backprop。 最后,我們提出并分析了Mainstream,這是一種視頻分析系統,可讓并發應用共享共享邊緣資源,以最大程度地提高匯總結果質量。在Mainstream中,我們認為應用程序共享的程度是一個可調參數。 Mainstream在部署時使用更專業的DNN自動確定正確的權衡方案,以提高每幀的準確性并保留更多的非專業基礎模型。結果顯示,與靜態ap方法相比,Mainstream將平均事件檢測F1分數提高了多達87倍。
題目: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference
摘要:
大規模的預訓練語言模型(如BERT)給NLP應用帶來了顯著的改進。然而,它們也因推理速度慢而臭名昭著,這使得它們很難部署到實時應用程序中。我們提出了一個簡單而有效的方法DeeBERT,來加速BERT推理。我們的方法允許樣本在不經過整個模型的情況下提前退出。實驗表明,在模型質量下降最小的情況下,DeeBERT可以節省高達40%的推理時間。進一步的分析顯示了伯特變壓器層的不同行為,并揭示了它們的冗余性。我們的工作為有效地將深度轉換模型應用于下游任務提供了新的思路。
深度神經網絡的發展,為人們的日常生活產生了巨大的影響。機器學習幾乎在日常生活的每一個方面都提供了比人類更合理的建議。然而,盡管取得了這些成就,神經網絡的設計和訓練仍然是具有挑戰性和不可預測的過程。為了降低普通用戶的技術門檻,自動化超參數優化(HPO)已成為學術界和工業界的熱門話題。本文對HPO中最基本的主題進行了綜述。第一部分介紹了與模型訓練和結構相關的關鍵超參數,并討論了它們的重要性和定義值范圍的方法。然后,研究了主要的優化算法及其適用性,包括它們的效率和準確性,特別是對于深度學習網絡。本研究接下來將回顧HPO的主要服務和工具包,比較它們對最先進的搜索算法的支持、與主要深度學習框架的可行性以及用戶設計的新模塊的可擴展性。本文總結了HPO在深度學習中存在的問題,優化算法的比較,以及在計算資源有限的情況下進行模型評估的突出方法。
我們提供TaskSet,一個用于訓練和評估優化器的任務數據集。TaskSet在規模和多樣性上都是獨一無二的,它包含了超過1000個任務,從使用全連接或卷積神經網絡的圖像分類,到變分自編碼器,再到各種數據集上的非卷保存流。作為此類數據集的一個示例應用程序,我們將探索元學習一個超參數的有序列表并按順序進行嘗試。通過從使用TaskSet生成的數據中學習這個超參數列表,我們實現了比隨機搜索更大的樣本效率提升。接下來,我們利用任務集的多樣性和我們學習超參數列表的方法,對這些列表在各種環境下的泛化進行了實證研究,包括使用Resnet50的ImageNet分類和使用transformer的LM1B語言建模。作為這項工作的一部分,我們為所有的任務提供了開源代碼,并為這些問題提供了2900萬條訓練曲線和相應的超參數。
主題: Hyper-Parameter Optimization: A Review of Algorithms and Applications
摘要: 自深度神經網絡發展以來,它們為人們的日常生活做出了巨大的貢獻。機器學習在日常生活的方方面面提供了比人類所能提供的更合理的建議。然而,盡管取得了這一成就,神經網絡的設計和訓練仍然具有挑戰性和不可預測的過程,這些過程被稱為煉金術。為了降低普通用戶的技術門檻,自動化超參數優化(HPO)已成為學術界和工業界的熱門話題。本文對高性能氧最基本的課題進行了綜述。第一節介紹了與模型訓練和結構有關的關鍵超參數,并討論了它們的重要性和定義取值范圍的方法。然后,重點研究了主要的優化算法及其適用性,包括它們的效率和精度,特別是對于深度學習網絡。本研究接下來回顧了HPO的主要服務和工具包,比較了它們對最新搜索算法的支持、與主要深度學習框架的可行性以及用戶設計的新模塊的可擴展性。本文總結了HPO應用于深度學習中存在的問題,優化算法的比較,以及在計算資源有限的情況下模型評估的突出方法。
機器學習的許多應用都需要一個模型來對測試樣本做出準確的預測,這些測試樣本在分布上與訓練示例不同,而在訓練期間,特定于任務的標簽很少。應對這一挑戰的有效方法是,在數據豐富的相關任務上對模型進行預訓練,然后在下游任務上對其進行微調。盡管預訓練在許多語言和視覺領域都是有效的,但是如何在圖數據集上有效地使用預訓練仍是一個有待解決的問題。本文提出了一種新的圖神經網絡訓練策略和自監督方法。我們的策略成功的關鍵是在單個節點以及整個圖的層次上預訓練一個具有強表示能力的GNN,以便GNN能夠同時學習有用的局部和全局表示。我們系統地研究了多類圖分類數據集的預處理問題。我們發現,在整個圖或單個節點級別上對GNN進行預訓練的樸素策略改進有限,甚至可能導致許多下游任務的負遷移。相比之下,我們的策略避免了負遷移,顯著提高了下游任務的泛化能力,使得ROC-AUC相對于未經訓練的模型提高了9.4%,實現了分子特性預測和蛋白質功能預測的最好性能。
題目: The Break-Even Point on Optimization Trajectories of Deep Neural Networks
摘要:
深度神經網絡的早期訓練對其最終性能至關重要。在這項工作中,我們研究了在訓練初期使用的隨機梯度下降(SGD)超參數如何影響優化軌跡的其余部分。我們認為在這條軌跡上存在“盈虧平衡點”,超過這個平衡點,損失曲面的曲率和梯度中的噪聲將被SGD隱式地正則化。特別是在多個分類任務中,我們證明了在訓練的初始階段使用較大的學習率可以減少梯度的方差,改善梯度的協方差條件。從優化的角度來看,這些效果是有益的,并且在盈虧平衡點之后變得明顯。補充之前的工作,我們還表明,使用低的學習率,即使對于具有批處理歸一化層的神經網絡,也會導致損失曲面的不良適應。簡而言之,我們的工作表明,在訓練的早期階段,損失表面的關鍵屬性受到SGD的強烈影響。我們認為,研究確定的效應對泛化的影響是一個有前途的未來研究方向。
題目: Scalable Deep Unsupervised Clustering with Concrete GMVAEs
摘要:
離散隨機變量是概率聚類模型的自然組成部分。已經發現了許多具有離散潛變量的VAE變異體。訓練這類方法需要將離散的潛在變量邊緣化,使得訓練時間復雜度在簇數上呈線性。通過在這些方法中對離散變量應用連續松弛,我們可以將訓練時間復雜度降低到所使用的集群數量不變。我們證明了在實踐中,對于其中一種方法,即高斯混合VAE,使用連續松弛不會對聚類的質量產生負面影響,但會大大減少訓練時間,將20個集群的CIFAR-100上的培訓時間從47小時減少到不足6小時。
邀請嘉賓:
Hector Urdiales是全球領先的入站營銷和銷售平臺Hubspot的機器學習工程負責人。
Mark Collier就職于Hubspot,研究興趣是機器學習,深度學習,貝葉斯深度學習,遞歸神經網絡。