亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著預訓練語言模型(pre- training language model, PLMs)成為各種NLP任務的基礎設施,研究人員也很樂意使用預訓練微調范式,來自新興研究的證據不斷證明,更大的模型往往產生更好的性能。然而,盡管取得了可喜的成果,但對大規模PLMs進行微調的過程帶來了高昂的適應成本。事實上,對一個巨大模型的所有參數進行微調,并為不同的任務保留單獨的實例,實際上是不可行的。這就需要一個新的研究分支專注于PLM的參數有效適應。為了激發人們對這些方法可能的優勢的想象,而不僅僅是參數效率,我們從形態學的角度創造了一個新的術語delta調優,用來指代最初的“參數高效調優”。與標準的微調相比,增量調優僅微調模型參數的一小部分,而保持其余部分不變,這在很大程度上降低了計算和存儲成本。最近的研究表明,一系列具有明顯調優參數選擇的增量調優方法可以達到與全參數微調相當的性能,這為激發大規模PLMs提供了一種新的有前途的方法。在本文中,我們首先正式描述了增量調優問題,然后全面回顧了最近的增量調優方法。我們還提出了一個統一的分類標準,將現有的增量調優方法分為三組:基于添加的方法、基于規范的方法和基于重參數化的方法。雖然最初提出的是一種控制大型模型的有效方法,但我們相信,隨著delta調諧的發現,一些令人著迷的證據可能有助于進一步揭示PLMs甚至深度神經網絡的機制。為此,我們討論了增量調整有效性的理論原理,并分別從優化和最優控制的角度提出了解釋增量調整的框架。此外,我們還對有代表性的方法進行了整體的實證研究,對100多個NLP任務的結果顯示了不同方法的綜合性能比較。實驗結果還包括對增量調諧的組合性、標度性和可轉移性的分析。為了促進增量調優的研究,我們還開發了一個開源工具包OpenDelta2,它使實踐者能夠高效、靈活地在plm上實現增量調優。最后,我們討論了一系列增量調優的實際應用。

付費5元查看完整內容

相關內容

自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

本文中,包括劉知遠、唐杰、孫茂松等在內來自清華大學的研究者對大模型的參數高效微調進行了全方位的理論和實驗分析。

預訓練語言模型 (PLM) 已經毫無疑問地成為各種 NLP 任務的基礎架構,而且在 PLM 的發展中,呈現出了一個似乎不可逆的趨勢:即模型的規模越來越大。更大的模型不僅會在已知任務上取得更好的效果,更展現出了完成更復雜的未知任務的潛力。然而,更大的模型也在應用上面臨著更大的挑戰,傳統方法對超大規模的預訓練模型進行全參數微調的過程會消耗大量的 GPU 計算資源與存儲資源,巨大的成本令人望而卻步。

這種成本也造成了學術界中的一種「慣性」,即研究者僅僅在中小規模模型上驗證自己的方法,而習慣性地忽略大規模模型。

在近期論文《Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models》中,來自清華大學和北京智源人工智能研究院的研究者隨機選取了 1000 篇來自最近五個 NLP 會議的論文,發現使用預訓練模型已經成為了研究的基本范式,但涉及大模型的卻寥寥無幾(如下圖 1 所示)。

圖 1:在 1000 篇隨機挑選的論文中,使用預訓練模型的統計分布。

在這樣的背景下,一種新的模型適配方案——參數高效(Parameter-efficient)方法逐漸受到關注,與標準全參數微調相比,這些方法僅微調模型參數的一小部分,而其余部分保持不變,大大降低了計算和存儲成本,同時還有著可以媲美全參數微調的性能。研究者認為,這些方法本質上都是在一個「增量」(Delta Paremters)上進行調整,因此將它命名為 Delta Tuning。

論文地址: //www.zhuanzhi.ai/paper/394964350173683867cb546abdddb114

OpenDelta工具包:

研究者定義和描述了 Delta Tuning 問題,并通過一個統一的框架對以往的研究進行梳理回顧。在該框架中,現有 Delta Tuning 方法可以被分為三組:增量式(Addition-based)、指定式(Specification-based)和重參數化(Reparameterization)的方法。

除去實踐意義之外,研究者認為它還具有非常重要的理論意義,Delta Tuning 在某種程度上昭示著大模型的背后機理,有助于人們進一步發展面向大模型甚至深度神經網絡的理論。為此,他們從優化和最優控制兩個角度,提出理論框架去討論 Delta Tuning,以指導后續的結構和算法設計。

此外,研究者對代表性方法進行了全面的實驗對比,并在超過 100 個 NLP 任務的結果展示了不同方法的綜合性能比較。實驗結果涵蓋了對 Delta Tuning 的性能表現、收斂表現、高效性表現、Power of Scale、泛化表現、遷移性表現的研究分析。

他們還開發了一個開源工具包 OpenDelta,使從業者能夠高效、靈活地在 PLM 上實現 Delta Tuning。

圖片

付費5元查看完整內容

由于其在語言、視覺和強化學習等領域的有效性,Transformer模型架構最近獲得了巨大的興趣。例如,在自然語言處理領域,Transformer 已經成為現代深度學習堆棧中不可或缺的重要組成部分。最近,出現了令人眼花繚亂的“X-former”模型——Reformer、Linformer、Performer、Longformer等等——它們改進了原始Transformer架構,其中許多都圍繞計算和內存效率進行了改進。為了幫助熱心的研究人員在這一熱潮中導航,本文列舉了大量深思熟慮的近期高效的“X-former”模型,為跨多個領域的現有工作和模型提供了一個有組織的、全面的概述

付費5元查看完整內容

在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。

//www.zhuanzhi.ai/paper/d2442bf43a31aaa81587f38a17e6c85d

付費5元查看完整內容

//ruder.io/recent-advances-lm-fine-tuning/index.html

在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。

如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。

標準的pre-train —— fine-tuning 場景

雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示:

付費5元查看完整內容

摘要

Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

關鍵詞:深度學習,自然語言處理,Transformer模型,注意力模型

介紹

Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在,在語言理解、圖像處理等許多領域都產生了巨大的影響。因此,在過去的幾年里,大量的研究致力于對該模型進行根本性的改進,這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究。

最近出現了大量的Transformer模型變體,研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時,僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此,對現有文獻進行綜述,既有利于社區,又十分及時。

自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差,它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性,這可能阻礙模型在許多設置的可伸縮性。最近,為了解決這個問題,出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。

根據上下文,可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況,當模型運行的加速器的內存有限時,這一點非常重要。效率也可能指計算成本,例如,在訓練和推理期間的失敗次數。特別是對于設備上的應用,模型應該能夠在有限的計算預算下運行。在這篇綜述中,我們提到了Transformer在內存和計算方面的效率,當它們被用于建模大型輸入時。

有效的自我注意力模型在建模長序列的應用中是至關重要的。例如,文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此,處理長序列的效率對于Transformer的廣泛采用至關重要。

本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自我注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新,我們還將在后面的章節簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法,并通過技術創新和主要用例對其進行了表征。特別地,我們回顧了在語言和視覺領域都有應用的Transformer模型,試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹,并繪制了它們之間的聯系。

付費5元查看完整內容

題目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

摘要: 語言模型預先從各種來源的文本訓練,形成了今天的自然語言處理的基礎。鑒于這些廣泛覆蓋模型的成功,我們研究了將一個預訓練的模型裁剪到目標任務的領域是否仍然有幫助。我們提出了一項涉及四個領域(生物醫學和計算機科學出版物、新聞和評論)和八個分類任務的研究,表明在高資源和低資源環境下,領域內的第二階段訓練(領域自適應訓練)可提高性能。此外,適應任務的未標記數據(任務自適應預訓練)甚至可以提高域自適應預訓練后的性能。最后,我們證明使用簡單的數據選擇策略來適應擴充的任務語料庫是一種有效的替代方法,特別是在域自適應預訓練資源可能不可用的情況下。總的來說,我們一致發現,多相適應性訓練在任務效果方面提供了很大的提高。

付費5元查看完整內容

題目

Pre-trained Models for Natural Language Processing: A Survey

關鍵詞

預訓練語言模型,深度學習,自然語言處理,BERT,Transfomer,人工智能

簡介

最近,預訓練模型(PTM)的出現將自然語言處理(NLP)帶入了一個新時代。 在此調查中,我們提供了針對NLP的PTM的全面概述。 我們首先簡要介紹語言表示學習及其研究進展。 然后,我們基于分類從四個角度對現有PTM進行系統分類。 接下來,我們描述如何使PTM的知識適應下游任務。 最后,我們概述了PTM未來研究的一些潛在方向。該調查旨在作為實踐指南,幫助您理解,使用和開發適用于各種NLP任務的PTM。

作者

Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai ,Xuanjing Huang

譯者

專知成員,范志廣

付費5元查看完整內容

雖然變分自編碼器(VAEs)代表了一個廣泛的有影響力的深度生成模型,但潛在的能量函數的許多方面仍然知之甚少。特別是,一般認為高斯編碼器/解碼器的假設降低了VAEs生成真實樣本的有效性。在這方面,我們嚴格地分析VAE目標,區分哪些情況下這個信念是真實的,哪些情況下不是真實的。然后我們利用相應的見解來開發一個簡單的VAE增強,不需要額外的hyperparameters或敏感的調優。在數量上,這個提議產生了清晰的樣本和穩定的FID分數,這些分數實際上與各種GAN模型相競爭,同時保留了原始VAE架構的理想屬性。這項工作的一個簡短版本將出現在ICLR 2019年會議記錄(Dai和Wipf, 2019)上。我們模型的代碼在這個https URL TwoStageVAE中可用。

付費5元查看完整內容
北京阿比特科技有限公司