亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文中,包括劉知遠、唐杰、孫茂松等在內來自清華大學的研究者對大模型的參數高效微調進行了全方位的理論和實驗分析。

預訓練語言模型 (PLM) 已經毫無疑問地成為各種 NLP 任務的基礎架構,而且在 PLM 的發展中,呈現出了一個似乎不可逆的趨勢:即模型的規模越來越大。更大的模型不僅會在已知任務上取得更好的效果,更展現出了完成更復雜的未知任務的潛力。然而,更大的模型也在應用上面臨著更大的挑戰,傳統方法對超大規模的預訓練模型進行全參數微調的過程會消耗大量的 GPU 計算資源與存儲資源,巨大的成本令人望而卻步。

這種成本也造成了學術界中的一種「慣性」,即研究者僅僅在中小規模模型上驗證自己的方法,而習慣性地忽略大規模模型。

在近期論文《Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models》中,來自清華大學和北京智源人工智能研究院的研究者隨機選取了 1000 篇來自最近五個 NLP 會議的論文,發現使用預訓練模型已經成為了研究的基本范式,但涉及大模型的卻寥寥無幾(如下圖 1 所示)。

圖 1:在 1000 篇隨機挑選的論文中,使用預訓練模型的統計分布。

在這樣的背景下,一種新的模型適配方案——參數高效(Parameter-efficient)方法逐漸受到關注,與標準全參數微調相比,這些方法僅微調模型參數的一小部分,而其余部分保持不變,大大降低了計算和存儲成本,同時還有著可以媲美全參數微調的性能。研究者認為,這些方法本質上都是在一個「增量」(Delta Paremters)上進行調整,因此將它命名為 Delta Tuning。

論文地址: //www.zhuanzhi.ai/paper/394964350173683867cb546abdddb114

OpenDelta工具包:

研究者定義和描述了 Delta Tuning 問題,并通過一個統一的框架對以往的研究進行梳理回顧。在該框架中,現有 Delta Tuning 方法可以被分為三組:增量式(Addition-based)、指定式(Specification-based)和重參數化(Reparameterization)的方法。

除去實踐意義之外,研究者認為它還具有非常重要的理論意義,Delta Tuning 在某種程度上昭示著大模型的背后機理,有助于人們進一步發展面向大模型甚至深度神經網絡的理論。為此,他們從優化和最優控制兩個角度,提出理論框架去討論 Delta Tuning,以指導后續的結構和算法設計。

此外,研究者對代表性方法進行了全面的實驗對比,并在超過 100 個 NLP 任務的結果展示了不同方法的綜合性能比較。實驗結果涵蓋了對 Delta Tuning 的性能表現、收斂表現、高效性表現、Power of Scale、泛化表現、遷移性表現的研究分析。

他們還開發了一個開源工具包 OpenDelta,使從業者能夠高效、靈活地在 PLM 上實現 Delta Tuning。

圖片

付費5元查看完整內容

相關內容

 清華大學是中國乃至亞洲最著名的高等學府之一。其前身即1911年利用美國退還庚子賠款之退款在北京設立之清華學堂,1912年中華民國成立后改為清華學校,1928年北伐后由國民政府改制為國立清華大學。對日抗戰期間西遷昆明,與北京大學、南開大學合組國立西南聯合大學。1946年遷返北平復校。

隨著預訓練語言模型(pre- training language model, PLMs)成為各種NLP任務的基礎設施,研究人員也很樂意使用預訓練微調范式,來自新興研究的證據不斷證明,更大的模型往往產生更好的性能。然而,盡管取得了可喜的成果,但對大規模PLMs進行微調的過程帶來了高昂的適應成本。事實上,對一個巨大模型的所有參數進行微調,并為不同的任務保留單獨的實例,實際上是不可行的。這就需要一個新的研究分支專注于PLM的參數有效適應。為了激發人們對這些方法可能的優勢的想象,而不僅僅是參數效率,我們從形態學的角度創造了一個新的術語delta調優,用來指代最初的“參數高效調優”。與標準的微調相比,增量調優僅微調模型參數的一小部分,而保持其余部分不變,這在很大程度上降低了計算和存儲成本。最近的研究表明,一系列具有明顯調優參數選擇的增量調優方法可以達到與全參數微調相當的性能,這為激發大規模PLMs提供了一種新的有前途的方法。在本文中,我們首先正式描述了增量調優問題,然后全面回顧了最近的增量調優方法。我們還提出了一個統一的分類標準,將現有的增量調優方法分為三組:基于添加的方法、基于規范的方法和基于重參數化的方法。雖然最初提出的是一種控制大型模型的有效方法,但我們相信,隨著delta調諧的發現,一些令人著迷的證據可能有助于進一步揭示PLMs甚至深度神經網絡的機制。為此,我們討論了增量調整有效性的理論原理,并分別從優化和最優控制的角度提出了解釋增量調整的框架。此外,我們還對有代表性的方法進行了整體的實證研究,對100多個NLP任務的結果顯示了不同方法的綜合性能比較。實驗結果還包括對增量調諧的組合性、標度性和可轉移性的分析。為了促進增量調優的研究,我們還開發了一個開源工具包OpenDelta2,它使實踐者能夠高效、靈活地在plm上實現增量調優。最后,我們討論了一系列增量調優的實際應用。

付費5元查看完整內容

//ruder.io/recent-advances-lm-fine-tuning/index.html

在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。

如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。

標準的pre-train —— fine-tuning 場景

雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示:

付費5元查看完整內容
北京阿比特科技有限公司