亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文研究了任務自適應預訓練模型的選擇問題,這是一個有待探討的問題,即如何評估預訓練模型,以便在不進行微調的情況下從模型族中選擇適合任務的模型。一項試點工作(Nguyen等人,2020年)解決了將有監督的預訓練模型轉移到分類任務中的問題,但它不能處理新興的無監督的預訓練模型或回歸任務。

為了尋求一種實用的評估方法,我們提出了估計標簽的最大證據(邊緣似然),在給定預先訓練模型提取的特征。與似然值相比,最大證據值不容易出現過擬合,而且通過我們精心設計的算法可以大大減少昂貴的計算量。最大證據對數(LogME)可以用來評估遷移學習的預訓練模型:LogME高的預訓練模型可能具有良好的遷移性能。LogME具有快速、準確、通用的特點,是第一個實用的遷移學習評估方法。相對于蠻力微調,LogME在時間上帶來了超過3000倍的加速。它在設置上比以前的方法有很大的優勢,并且適用于以前的方法不能處理的新設置。它對于不同的預訓練模型(有監督的預訓練和無監督的預訓練)、下游任務(分類和回歸)和模式(視覺和語言)來說是足夠普遍的。

付費5元查看完整內容

相關內容

我們提出并分析了一種基于動量的梯度方法,用于訓練具有指數尾損失(例如,指數或logistic損失)的線性分類器,它以O (1/t2)的速率最大化可分離數據的分類邊緣。這與標準梯度下降的速率O(1/log(t))和標準化梯度下降的速率O(1/t)形成對比。這種基于動量的方法是通過最大邊際問題的凸對偶,特別是通過將Nesterov加速度應用于這種對偶,從而在原函數中得到了一種簡單而直觀的方法。這種對偶觀點也可以用來推導隨機變量,通過對偶變量進行自適應非均勻抽樣。

//www.zhuanzhi.ai/paper/9fd848dc95d2b0a9a5da37dbbd79d4ed

付費5元查看完整內容

?遷移學習作為機器學習領域的關鍵核心技術,能夠有效地緩解訓練模型時對訓練數據規模以及計算能力的需求。近年來,研究人員針對遷移學習進行了大量的研究,主要集中在提高遷移后模型在目標域上的準確率,而忽略了遷移后模型面對對抗樣本攻擊時的魯棒性。該論文針對人工智能系統安全問題,分析了在遷移學習場景下,當深度神經網絡面臨對抗樣本攻擊時,遷移策略對神經網絡魯棒性的影響。

該論文彌補了現有分析的缺陷,在基于多種常用的圖像數據集構建的遷移學習場景中,細致地探討了在目標域上微調的模型層數對模型準確率及魯棒性的影響,并揭示了兩者之間存在的平衡問題,即隨著模型微調的層數增加,其在目標域上的準確率與魯棒性出現了不同步的變化(如圖1所示,左右分別為在不同數據集上的實驗結果)。同時,該論文針對目前普遍采用的批歸一化層,分析了其對于遷移學習后模型性能的影響,并通過大量實驗證明:在遷移學習中有選擇地重用批歸一化層的參數,可以有效地提高系統魯棒性。

更進一步地,對于遷移學習過程中準確率與魯棒性的平衡問題,該論文針對性地提出協同對抗魯棒的遷移學習框架(如圖2所示),分別針對源域模型(文中稱為TeacherModel)的對抗訓練階段以及目標域模型(文中稱為StudentModel)的微調階段設計了新算法:考慮源域模型中的部分網絡層會被目標域模型重用—被用于提取輸入的特征—對此該論文提出特征距離最小化,通過減少源域模型對正常樣本與對抗樣本所提取特征的差異程度,使其魯棒性能夠更加容易地被目標域模型繼承;對于在目標域上的微調過程,該論文提出非拓展微調算法,通過限制微調部分網絡參數的利普希茨常數,降低模型對于對抗樣本的敏感程度,從而使微調后的模型能夠更好地從源域繼承魯棒性。作者在多個圖像數據集(CIFAR、SVHN、GTSRB)上進行了大量實驗和分析,實驗結果充分驗證了該方案的有效性。

//arxiv.org/pdf/2106.06667.pdf

付費5元查看完整內容

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,并承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,并解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限制的設備;(2)算法應與下游任務無關,這樣壓縮模型一般適用于不同的下游任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,并輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴于特定的下游任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在于,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,并可以直接應用于不同的下游任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

付費5元查看完整內容

后驗貝葉斯神經網絡(BNN)參數是非常高維和非凸的。出于計算上的原因,研究人員使用廉價的小批量方法來近似這種后變方法,如平均場變分推斷或隨機梯度馬爾科夫鏈蒙特卡羅(SGMCMC)。為了研究貝葉斯深度學習中的基礎問題,我們在現代體系結構中使用全批量哈密頓蒙特卡羅(HMC)。我們證明: (1)與標準訓練和深度集成相比,BNNs可以獲得顯著的性能增益; (2)單一的HMC長鏈可以提供多個較短鏈后驗的可比性表示;(3)與最近的研究相比,我們發現不需要后驗回火來獲得接近最佳的性能,幾乎沒有證據表明存在“冷后驗”效應,這主要是數據增強的人為影響;(4) BMA對先驗尺度的選擇具有較強的魯棒性,對對角高斯、混合高斯和logistic先驗的選擇具有較強的相似性;(5)貝葉斯神經網絡在域移下泛化性能差;(6)雖然深度集成和SGMCMC等廉價方法可以提供良好的泛化,但它們提供的預測分布與HMC不同。值得注意的是,深度集成預測分布與標準SGLD的HMC相似,比標準變分推斷更接近。

//www.zhuanzhi.ai/paper/175b8f7c93633d4479ce659fce81c737

付費5元查看完整內容

圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。

//www.zhuanzhi.ai/paper/f415f74f0c50433285945af702223eaf

付費5元查看完整內容

Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks

Authors: Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang

我們研究了將先驗知識整合到基于深度Transformer的模型中的問題,即:,以增強其在語義文本匹配任務中的性能。通過探索和分析BERT在解決這個任務時已經知道的東西,我們可以更好地理解BERT最需要什么特定任務的知識,在哪里最需要什么知識。這一分析進一步促使我們采取一種不同于大多數現有工作的方法。我們沒有使用先驗知識來創建一個新的訓練任務來微調BERT,而是直接將知識注入BERT特的多頭注意機制。這將我們引向一種簡單而有效的方法,它歷經快速訓練階段,因為它節省了模型在主要任務以外的額外數據或任務上的訓練。大量的實驗表明,本文提出的知識增強的BERT模型能夠持續地提高語義文本匹配性能,并且在訓練數據稀缺的情況下性能效益最為顯著。

//www.zhuanzhi.ai/paper/7b48ad08e4eaf1a9d87baf6474bec12f

付費5元查看完整內容

遷移學習從根本上改變了自然語言處理(NLP)的處理范式。許多最先進的模型首先在大型文本語料庫上進行預先訓練,然后在下游任務上進行微調。然而,當我們對下游任務的監督有限且薄弱時,由于預訓練模型的復雜度極高,過度微調往往會導致微調后的模型對下游任務的訓練數據進行過擬合,而不能泛化到看不到的數據。

為了解決這一問題,我們提出了一種新的方法來微調預先訓練的模型,以獲得更好的泛化性能。我們提出的方法采用了三個重要成分: (1)平滑誘導正則化,有效地管理了大量模型的復雜性; (2) Bregman近端點優化,它是信任域方法的一個實例,可以防止惡意更新;(3)自訓練,可以逐步改進模型擬合,有效抑制誤差傳播。我們的實驗表明,在有限或弱監督的情況下,該方法明顯優于現有的NLP任務。

付費5元查看完整內容

基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練transformer 模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。

付費5元查看完整內容

簡介:

在自然語言處理中,將預訓練的上下文詞嵌入模型微調到受監督的下游任務已變得司空見慣。但是,此過程通常很脆弱:即使具有相同的超參數值,不同的隨機種子也可能導致結果截然不同。為了更好地理解這種現象,我們嘗試使用GLUEbenchmark中的四個數據集,每個BERT都微調了數百個時間,同時僅改變了隨機種子。與先前報告的結果相比,我們發現性能有了實質性的提高,并且我們量化了最佳發現模型的性能如何隨微調試驗次數的變化而變化。此外,我們研究了隨機種子選擇影響的兩個因素:權重初始化和訓練數據順序。我們發現這兩者都對樣本外性能的差異做出了可比的貢獻,并且在所有探索的任務中,一些權重初始化都表現良好。在小型數據集上,我們觀察到許多微調試驗在整個訓練過程中存在差異,并且我們為從業者提供最佳實踐,以便盡早停止訓練不太理想的跑步。我們公開發布了我們的所有實驗數據,包括2100個試驗的訓練和驗證分數,以鼓勵在微調過程中進一步分析訓練動力學。

付費5元查看完整內容
北京阿比特科技有限公司