亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近的GPT-3模型僅利用自然語言提示和一些任務演示作為輸入上下文,就實現了顯著的少樣本學習性能。受該工作的發現啟發,作者在一個更實際的場景中研究了少次學習,我們使用更小的語言模型,以便在微調時更具有計算效率。我們提出了LM-BFF——更好的面向語言模型的少樣本微調,這是一套簡單且互補的技術,用于在少量帶注釋的示例上微調語言模型。我們的方法包括:(1)基于提示的微調,以及一個自動化提示生成的新管道;(2)動態和有選擇地將演示整合到每個上下文中的精煉策略。最后,我們提出了一個系統的評價,以分析在一系列的自然語言處理任務的少數射擊性能,包括分類和回歸。我們的實驗表明,在這種低資源設置下,我們的方法結合起來顯著優于標準微調程序,實現了高達30%的絕對改進,在所有任務中平均達到11%。我們的方法對任務資源和領域專家知識做了最小的假設,因此構成了一個強大的任務不可知的方法,用于少樣本學習。

//www.zhuanzhi.ai/paper/8e74c666bc3760903ca59fe301bf7493

付費5元查看完整內容

相關內容

近年來,預訓練模型(例如ELMo、GPT、BERT和XLNet等)的快速發展大幅提升了諸多NLP任務的整體水平,同時也使得很多應用場景進入到實際落地階段。預訓練語言模型本身就是神經網絡語言模型,它的特點包括:第一,可以使用大規模無標注純文本語料進行訓練;第二,可以用于各類下游NLP任務,不是針對某項定制的,但以后可用在下游NIP任務上,你不需要為下游任務專門設計一種神經網絡,或者提供一種結構,直接在幾種給定的固定框架中選擇一種進行 fine-tune,就可以從而得到很好的結果。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

交通預測是智能交通系統成功的一個重要因素。深度學習模型包括卷積神經網絡和遞歸神經網絡已被應用于來建模交通預測問題的空間和時間依賴性。近年來,為了對交通系統中的圖結構和上下文信息進行建模,引入了圖神經網絡(GNNs)作為新的工具,在一系列交通預測問題中取得了最先進的性能。在本綜述論文中,我們回顧了近年來快速增長的使用不同GNN的研究,如圖卷積和圖注意力網絡,用于各種交通預測問題,如道路交通流量和速度預測,城市軌道交通系統客流預測,網約車平臺的需求預測等。我們也為每個問題提供了一個開放的數據和資源的集合,以及未來的研究方向。據我們所知,本文是第一次對圖神經網絡在交通預測問題中的應用進行全面的研究。我們還創建了一個Github公共資源庫來更新最新的論文、開放數據和資源。

//www.zhuanzhi.ai/paper/3a297985e3b4ac9f1c395dc78cc5cf03

付費5元查看完整內容

遷移學習從根本上改變了自然語言處理(NLP)的處理范式。許多最先進的模型首先在大型文本語料庫上進行預先訓練,然后在下游任務上進行微調。然而,當我們對下游任務的監督有限且薄弱時,由于預訓練模型的復雜度極高,過度微調往往會導致微調后的模型對下游任務的訓練數據進行過擬合,而不能泛化到看不到的數據。

為了解決這一問題,我們提出了一種新的方法來微調預先訓練的模型,以獲得更好的泛化性能。我們提出的方法采用了三個重要成分: (1)平滑誘導正則化,有效地管理了大量模型的復雜性; (2) Bregman近端點優化,它是信任域方法的一個實例,可以防止惡意更新;(3)自訓練,可以逐步改進模型擬合,有效抑制誤差傳播。我們的實驗表明,在有限或弱監督的情況下,該方法明顯優于現有的NLP任務。

付費5元查看完整內容

GPT-3: Few-Shot Learning with a Giant Language Model

最近的工作表明,通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關,但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下,人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3,這是一種具有1750億個參數的自回歸語言模型,它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能,有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務,與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的,討論我們從這樣一個系統中看到的功能,以及它們如何啟用與語言模型交互的新方式,此外還將關注這些交互帶來的局限性和更廣泛的問題。

//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容

圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。

//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c

付費5元查看完整內容

預訓練語言模型如BERT在自然語言理解(NLU)的許多任務中表現出色。模型中的tokens通常是細粒度的,像英語是單詞或sub-words或者是像中文字符。在英語中,例如,有多詞表達形式的自然詞匯單位,因此使用粗粒度標記似乎也是合理的。事實上,細粒度和粗粒度的標記化在學習預訓練語言模型方面都有優缺點。在本文中,我們提出了一種新的基于細粒度和粗粒度標記的預訓練語言模型,稱為AMBERT(一種多粒度的BERT)。對于英語,AMBERT將單詞序列(細粒度令牌)和短語序列(粗粒度令牌)作為標記化后的輸入,使用一個編碼器處理單詞序列,另一個編碼器處理短語序列,利用兩個編碼器之間的共享參數,最后創建單詞的上下文化表示序列和短語的上下文化表示序列。實驗在CLUE, GLUE, SQuAD和RACE基準數據集上進行了中文和英文測試,。結果表明,AMBERT模型在幾乎所有情況下都優于現有的性能最好的模型,特別是對中文的性能改善顯著。

//arxiv.org/pdf/2008.11869.pdf

概述

預訓練模型,如BERT、RoBERTa和ALBERT(Devlin et al., 2018; Liu et al., 2019; Lan et al., 2019) 在自然語言理解(NLU)方面顯示出強大的能力。基于Transformer的語言模型首先在預訓練中從大型語料庫中學習,然后在微調中從下游任務的標記數據中學習。基于Transformer (Vaswani et al ., 2017),通過預訓練的技術,和大數據, 該模型可以有效地捕捉詞法,句法,語義關系的標記輸入文本,在許多NLU任務,如情緒分析、文本蘊涵和機器閱讀理解實現最先進的性能。

例如在BERT中,預訓練主要是基于mask language modeling (MLM)進行的,其中輸入文本中約15%的token被一個特殊的token[mask]蒙住,目的是根據蒙住的文本重建出原始文本。對個別任務分別進行微調,如文本分類、文本匹配、文本跨度檢測等。通常,輸入文本中的標記是細粒度的;例如,它們是英語中的詞或子詞,是漢語中的字。原則上,標記也可以是粗粒度的,即,例如,英語中的短語和漢語中的單詞。英語中有很多多詞的表達,比如“紐約”和“冰淇淋”,短語的使用也似乎是合理的。在漢語中使用單詞(包括單字單詞)更為明智,因為它們是基本的詞匯單位。實際上,所有現有的預訓練語言模型都使用了單粒度(通常是細粒度)的標記。

以前的工作表明,細粒度方法和粗粒度方法各有利弊。細粒度方法中的標記作為詞匯單位不太完整,但它們的表示更容易學習(因為在訓練數據中有更少的標記類型和更多的標記),雖然粗粒度方法中的標記作為詞匯單位更完整,但是它們的表示更難以學習(因為在訓練數據中有更多的標記類型和更少的標記)。此外,對于粗粒度方法,不能保證標記(分割)是完全正確的。有時模棱兩可的存在,最好保留所有標記化的可能性。相比之下,對于細粒度的方法,標記化是在原始級別執行的,不存在“不正確”標記化的風險。

例如,Li et al(2019)觀察到,在漢語語言處理的深度學習中,細粒度模型的表現始終優于粗粒度模型。他們指出,原因是低頻率的單詞(粗粒度的標記)往往沒有足夠的訓練數據,而且往往沒有詞匯表,因此學習到的表示是不夠可靠的。另一方面,之前的工作也證明了在語言模型的預訓練中對粗粒度標記進行掩蔽是有幫助的(Cui et al., 2019;Joshi et al., 2020)。也就是說,盡管模型本身是細粒度的,但是在連續的標記(英語中的短語和漢語中的單詞)上進行屏蔽可以導致學習更準確的模型。

在本文中,我們提出了一個多粒度的BERT模型(AMBERT),它同時使用了細粒度和粗粒度標記。對于英語,AMBERT通過使用兩個編碼器同時構造輸入文本中的單詞和短語的表示來擴展BERT。確切地說,AMBERT首先在單詞和短語級別上進行標記化。然后,它將單詞和短語的嵌入作為兩個編碼器的輸入。它在兩個編碼器中使用相同的參數。最后,它在每個位置上分別獲得該詞的上下文表示和該短語的上下文表示。注意,由于參數共享,AMBERT中的參數數目與BERT中的參數數目相當。AMBERT可以在單詞級和短語級表示輸入文本,以利用這兩種標記方法的優點,并在多個粒度上為輸入文本創建更豐富的表示。

我們使用英文和中文的基準數據集進行了廣泛的實驗,以比較AMBERT和基線以及備選方案。結果表明,無論在中文還是英文中,AMBERT模型的性能都顯著優于單粒度的BERT模型。在英語方面,與谷歌BERT相比,AMBERT的GLUE分數比谷歌BERT高2.0%,RACE分數比谷歌BERT高2.5%,SQuAD 分數比谷歌BERT高5.1%。在漢語中,AMBERT的CLUE平均分提高了2.7%以上。AMBERT可以在CLUE的leader board擊敗所有參數小于200M的基礎模型。

在這項工作中,我們做出了以下貢獻。

  • 多粒度預訓練語言模型的研究,
  • 提出一種新的被稱為AMBERT的預訓練語言模型作為BERT的擴展,它利用了多粒度的token和共享的參數,
  • AMBERT在英文和中文基準數據集GLUE, SQuAD, RACE,和CLUE上的實證驗證

付費5元查看完整內容

UniLMv2:統一預訓練偽掩碼語言模型

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177

基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。

我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。

偽掩碼語言模型(PMLM)

在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。

在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。

付費5元查看完整內容

在NLP中,“域內數據”的概念常常過于簡單和模糊,因為文本數據在許多細微的語言方面存在差異,比如主題、風格或正式程度。此外,域標簽很多時候是不可用的,這使得構建特定于域的系統變得很困難。我們證明了大量的預先訓練的語言模型隱式地學習句子表示,這些句子表示在沒有監督的情況下由域進行聚類——這表明文本數據中域的簡單數據驅動定義。我們利用這一特性,提出了基于這些模型的域數據選擇方法,這些方法只需要少量的域內單語數據。我們評估了我們的神經機器翻譯的數據選擇方法在五個不同的領域,在這些領域中,它們的表現優于現有的方法,包括BLEU和句子選擇的精確度以及對oracle的召回率。

付費5元查看完整內容

元學習利用相關的源任務來學習初始化,可以通過有限的標記示例將初始化快速調整到目標任務。然而,許多流行的元學習算法,如模型無關元學習(MAML),都只假設可以訪問目標樣本進行微調。在這項工作中,我們提供了一個通用的元學習框架,該框架基于對不同源任務的損失進行加權,其中的權重允許依賴于目標樣本。在這個一般的設置中,我們提供了基于積分概率度量(IPM)和Rademacher復雜性的源任務加權經驗風險和預期目標風險之間距離的上限,該上限適用于包括MAML和加權MAML變體在內的許多元學習設置。然后開發一個基于最小化誤差學習算法對實證IPM,包括α-MAML加權MAML算法。最后,我們實證地證明了我們的加權元學習算法能夠比單加權元學習算法(如MAML)找到更好的初始化。

付費5元查看完整內容
北京阿比特科技有限公司