亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Recent years have seen the ever-increasing importance of pre-trained models and their downstream training in deep learning research and applications. At the same time, the defense for adversarial examples has been mainly investigated in the context of training from random initialization on simple classification tasks. To better exploit the potential of pre-trained models in adversarial robustness, this paper focuses on the fine-tuning of an adversarially pre-trained model in various classification tasks. Existing research has shown that since the robust pre-trained model has already learned a robust feature extractor, the crucial question is how to maintain the robustness in the pre-trained model when learning the downstream task. We study the model-based and data-based approaches for this goal and find that the two common approaches cannot achieve the objective of improving both generalization and adversarial robustness. Thus, we propose a novel statistics-based approach, Two-WIng NormliSation (TWINS) fine-tuning framework, which consists of two neural networks where one of them keeps the population means and variances of pre-training data in the batch normalization layers. Besides the robust information transfer, TWINS increases the effective learning rate without hurting the training stability since the relationship between a weight norm and its gradient norm in standard batch normalization layer is broken, resulting in a faster escape from the sub-optimal initialization and alleviating the robust overfitting. Finally, TWINS is shown to be effective on a wide range of image classification datasets in terms of both generalization and robustness. Our code is available at //github.com/ziquanliu/CVPR2023-TWINS.

相關內容

大量理論和經驗證據表明,較平坦的局部最小值傾向于提高泛化能力。對抗權重擾動(Adversarial Weight Perturbation,AWP)是一種快速有效地尋找這種最小值的新興技術。在AWP中,我們最小化損失w.r.t。模型參數的有界最壞情況擾動,從而有利于在其周圍鄰域內具有小損失的局部最小值。AWP的好處,以及平坦度和泛化之間的聯系,已經被廣泛研究了i.i.d.數據,如圖像。本文針對圖數據廣泛研究了這一現象。在此過程中,我們首先推導出非i.i.d的泛化界。節點分類任務。用所有現有的AWP公式確定一個消失梯度問題,并提出一種新的加權截斷AWP (WTAWP)來緩解這個問題。用WT-AWP正則化圖神經網絡,持續提高了許多不同圖學習任務和模型的自然和魯棒泛化能力。

付費5元查看完整內容

編譯 | 夏忻焱 審核 | 沈祥振 今天給大家帶來的是牛津大學的Sheheryar Zaidi和DeepMind公司的Michael Schaarschmidt聯合發表的文章《Pre-training via Denoising for Molecular Property Prediction》。從3D結構中預測分子性質的數據有限,這對神經網絡的泛化造成了挑戰。作者介紹了一種預訓練技術,它利用平衡狀態下3D分子結構的大型數據集來為下游任務學習有意義的表示。受最近噪聲正則化的啟發,作者的預訓練目標是基于去噪的。依賴于去噪自動編碼器和分數比配之間公認的聯系,作者還表明目標對應于直接從平衡結構學習分子力場——其由高斯混合近似物理狀態分布產生。實驗表明,使用這個預訓練目標可以大大改善多個基準測試的性能,在廣泛使用的QM9數據集中達到了最先進水平。最后,作者分析了不同因素對預訓練的影響,并提出了實用性的見解。

1 介紹 計算機視覺(CV)和自然語言處理(NLP)中表現最好的神經網絡依賴于模型在大型數據集上的預訓練,預訓練可幫助學習適用于下游任務的特征。對于從3D結構(中原子核的點云)中預測分子性質,如何學習3D結構的近似表示仍有待研究。比如,那些在QM9基準測試中表現最好的模型沒有一個進行了預訓練,這與CV和NLP產生了鮮明的對比。有效的預訓練方法可以對相關領域產生重大影響,比如藥物發現和材料科學。

在這項工作中,作者關注的問題是如何利用大型3D分子結構數據集來提高下游分子性質預測任務的性能,這些任務也依賴于輸入的3D結構。文章討論的問題是:如何利用像PCQM4Mv2這樣包含超過300萬個結構的大型數據集來提高像DES15K這樣小一個數量級的數據集性能?答案是一種自監督的預訓練,為下游的預測任務提供有用的表示。

受圖神經網絡(GNNs)噪聲正則化最新進展的啟發,預訓練目標是基于結構空間的去噪(因此是自監督的)。與現有的大多集中于2D圖的預訓練方法不同的是,作者的方法目標是下游任務涉及到的定義分子結構的3D點云的設置。依賴于去噪和分數匹配之間的公認聯系,作者表明去噪目標等于(近似)特定力場的學習,揭示了它如何幫助表征學習。

文章的貢獻總結如下: * 研究了一種簡單有效的方法,通過在3D結構空間中的去噪來預訓練,目的是改善從這類3D結構中的下游分子性質的預測。去噪目標被證明與學習一種特定力場有關。 * 實驗表明通過去噪來預訓練可以極大的改善在大小,任務性質和分子位置上都有所不同的具有多種挑戰的任務數據集上的性能表現。這證明結構去噪成功地轉移到分子性質預測上,特別是在廣泛使用的QM9數據集的12個目標中的10個目標都創造了最先進的表現。圖1說明了QM9其中一個目標的性能。 * 作者對常見的GNN架構進行了改進,特別地展現了如何將定制的激活轉換器(TAT)應用到圖網絡模擬器中(GNS),這是對預訓練的補充并且進一步提升了性能。 * 通過深入了解訓練集大小、模型大小和結構、以及上下游數據集之間的關系,作者分析了預訓練的好處。

2 方法 2.1問題設置

2.2通過去噪來預訓練

3 實驗 實驗目的是回答以下問題。首先,相比于隨機初始化訓練,通過去噪對神經網絡進行預訓練是否可以改善在下游任務中的性能?第二,上游和下游數據集的聯系如何影響預訓練的效果?評估涉及到四個現實的、具有挑戰性的分子數據集,包括:PCQM4Mv2、QM9、OC20、 DES15K。

4 分析 作者分析了不同因素如何影響預訓練,考慮了許多因素的影響,包括不同架構、不同數據集大小、不同模型大小和固定特征只對解碼器進行微調。

4.1 預訓練不同的架構

4.2 不同的數據集大小 如圖4(左)所示,預訓練提高了所有規模數據集的下游性能。隨著下游訓練數據集的減少,測試MAE的差異也變大了。如圖4(中)所示,上游數據增加,下游性能普遍提高,GNS-TAT性能達到飽和。更多的上游數據可以產生更好質量的表征,其結果體現在下游性能中。

4.3 不同的模型尺寸 如圖4(右)所示,預訓練繼續受益于更大的模型規模。預訓練是有用的,因為比較而言,從頭開始訓練的模型表現不佳:從頭開始訓練的1.3億參數的模型被不到一半規模(0.53億參數)的預訓練模型超越。

4.4 固定預訓練參數

5 總結 作者研究了通過3D分子空間結構去噪對神經網絡進行預訓練。作者表明去噪等同于學習一個特定的力場,激勵其學習有用的表征,揭示了去噪在其它工作中的成功應用。這項工作可以利用現有的大型3D結構數據集,提高從3D結構預測各種下游分子性質任務的性能。更廣泛的說,這彌補了CV/NLP和從結構中預測分子性質的預訓練之間效用的差距。 參考資料 Zaidi, S., Schaarschmidt, M., Martens, J., Kim, H., Teh, Y. W., Sanchez-Gonzalez, A., ... & Godwin, J. (2022). Pre-training via Denoising for Molecular Property Prediction. arXiv preprint arXiv:2206.00133.

付費5元查看完整內容

題目: Adversarial Training for Large Neural Language Models

簡介: 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利于推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM(大型神經語言模型的專家訓練),該算法通過在嵌入空間中應用擾動來最大化訓練目標,從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究,包括從頭開始進行預訓練,在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中,在各種NLP任務上,ALUM都比BERT獲得了可觀的收益。即使對于已經在超大型文本語料庫上進行過良好訓練的模型(例如RoBERTa),ALUM仍可以通過連續的預訓練獲得可觀的收益,而傳統的非對抗方法則不能。可以將ALUM與特定于任務的微調進一步結合以獲取更多收益。

付費5元查看完整內容

論文題目

Few Shot Network Compression via Cross Distillation

論文摘要

模型壓縮已被廣泛應用于獲得輕量化的深層神經網絡。然而,大多數流行的方法需要使用足夠的訓練數據進行微調以確保準確性,這可能會受到隱私和安全問題的挑戰。作為隱私性和性能之間的折衷,本文研究了少鏡頭網絡壓縮:在每類樣本數較少的情況下,如何有效地壓縮性能可以忽略不計的網絡?少鏡頭網絡壓縮的核心挑戰在于在推理過程中原始網絡的高估計誤差,因為壓縮后的網絡很容易過度適應少數訓練實例。估計誤差能夠很好地預測和積累層,最終決定網絡輸出。為了解決這個問題,我們提出了一種新的分層知識提取方法cross蒸餾。通過將教師網絡和學生網絡的隱含層交織在一起,可以有效地減少層內累積的估計誤差。該方法提供了一個通用的框架,與流行的網絡壓縮技術(如剪枝)兼容。在基準數據集上進行的大量實驗表明,當只有少量訓練實例可用時,交叉蒸餾可以顯著提高學生網絡的準確性。

論文作者

郝麗百,賈翔悟,Irwin King,Michael Lyu,香港中文大學。

付費5元查看完整內容
北京阿比特科技有限公司