亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近,對未標記數據進行預訓練的進展,帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里,人們進行了大量的研究,利用大規模語言模型更好地從有限的數據中學習。在本教程中,我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外,我們的目標是向觀眾揭示新的研究機會,這將有望使我們更接近解決該領域現有的挑戰。

//github.com/allenai/acl2022-zerofewshot-tutorial

付費5元查看完整內容

相關內容

自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

隨著大規模預訓練模型的出現,自然語言處理中的知識化趨勢日益明顯。注意知識的自然語言處理模型可以訪問無限數量的外部信息; Ii) 將參數空間的知識存儲任務委托給知識源; Iii)獲取最新信息; Iv) 通過選擇知識,使預測結果更具可解釋性。在本教程中,我們將介紹將知識集成到自然語言處理中的關鍵步驟,包括從文本中建立知識基礎、知識表示和融合。我們還將介紹最新的最先進的應用,融合知識到語言理解,語言生成和常識推理。

//github.com/zcgzcgzcg1/ACL2022_KnowledgeNLP_Tutorial/

付費5元查看完整內容

自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于低資源設置和語言,因為通常需要時間、金錢和專業知識來標記大量文本數據。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。

本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。

//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial

目錄內容:

數據增強

數據增強是一種常用的技術,用于人為地增加給定訓練數據集的大小(即數據點的數量)和多樣性(即偏離真實數據分布)。小標記訓練數據集往往會導致過擬合,數據增強可以通過自動或手動創建增強數據來幫助緩解這個問題。這些技術在計算機視覺(CV)領域中得到了廣泛的探索,包括幾何/顏色空間轉換、混合和隨機擦除等方法。雖然文本數據由于其復雜的句法和語義結構而具有一定的挑戰性,但文本數據的增強方法卻非常廣泛。

NLP中具有代表性的數據增強方法包括: token增強,如隨機刪除或屏蔽令牌(Bowman et al., 2015),用同義詞或相關詞替換單詞(Zhang et al., 2015;Kobayashi, 2018),以及用隨機token插入或替換不重要的token (Xie et al.,2017,2019); 通過釋義提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基礎上,先將句子翻譯成某些中間語言,然后再將它們翻譯回來,生成具有不同詞匯和語言結構(如詞性、句法等)的中間語言的意譯,可以引入一定的方差,即雙向翻譯(Xie et al., 2019; Coulombe, 2018),或根據給定的標簽生成句子;對抗性數據增強,使用受擾動的數據顯著影響模型的預測和信心,而不影響人類判斷(Morris et al., 2020),例如使用梯度在模型的隱藏表示中尋找鄰居(Cheng et al., 2019)或連接分散但無意義的句子作為段落的結尾(Jia和Liang, 2017);隱藏空間增強,通過添加噪聲或對其他數據點進行插值等擾動來操縱隱藏表示(Chen等人,2020a)。

我們將向觀眾介紹最近廣泛使用的數據增強方法,并以NLP應用實例(如無監督翻譯的反向翻譯)為例,演示如何在實踐中利用這些代表性的數據增強技術。

半監督學習

當只有一個小的標簽訓練數據集可用時,數據增強可以應用在監督設置中產生更好的結果,數據增強也常用在半監督學習中。半監督學習在訓練模型時提供了一種利用未標記數據的方法,當只有有限的標記數據可用時,這種方法可以顯著改進模型。這在普通設置中特別有用,因為與有標記的數據相比,未標記的數據更便宜、更容易獲得。在本教程中,我們將使用示例應用程序或任務,簡要討論最近在NLP研究中探索的各種半監督技術。我們根據現有的半監督學習方法如何利用未標記的數據,將它們分成不同的類別:自訓練利用了固有存在或可以從數據集自動生成的監督(McClosky et al.,2006);多任務訓練利用帶有標簽的額外輔助任務,進一步利用與感興趣任務相關的未標記數據;一致性正則化訓練模型,當輸入通過數據增強受到干擾時,輸出相同的預測(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。

低資源語言的有限數據學習與未來工作

解決數據有限的學習問題還有其他相關方向,如其他半監督學習方法,如自訓練(He et al., 2020)、生成模型(Cheng et al., 2016)和協同訓練(Clark et al., 2018)。我們將簡要討論這些方法,更具體地說,我們將通過案例研究向觀眾介紹如何利用上述技術提高低資源語言的性能,包括跨語言遷移學習,它將模型從資源豐富的語言轉移到資源貧乏的語言(Schuster et al., 2019),很少/零樣本學習(Pham et al., 2019; Abad et al., 2020),只使用了來自低資源領域的幾個例子,以適應在另一個領域訓練的模型。盡管近年來在數據有限的情況下取得了成功,但為了更好地學習,仍有一些挑戰需要解決。為此,我們將通過強調一些挑戰來結束我們的教程,包括但不限于數據分布的轉移,量化增強的多樣性和效率,處理域外未標記的數據,學習特定于文本的數據增強策略,并討論未來可能有助于推進該領域的方向。

付費5元查看完整內容

機器閱讀理解(MRC)旨在教機器閱讀和理解人類語言,這是自然語言處理(NLP)的長期目標。隨著深度神經網絡的爆發和上下文語言模型(contextualized language models-CLM)的發展,MRC的研究經歷了兩個重大突破。作為一種現象,MRC和CLM對NLP社區有很大的影響。在本次調查中,我們提供了有關MRC的全面,比較性綜述,涵蓋了有關以下方面的總體研究主題:1)MRC和CLM的起源和發展,尤其著重于CLM的作用;2)MRC和CLM對NLP社區的影響;3)MRC的定義,數據集和評估;4)從人類認知過程的角度出發,從兩階段編碼器-解碼器解決架構的角度來看,一般的MRC架構和技術方法;5)以前的重點,新興的話題以及我們的經驗分析,其中我們特別關注在MRC研究的不同時期有效的方法。我們建議對這些主題進行全視圖分類和新的分類法。我們得出的主要觀點是:1)MRC促進了從語言處理到理解的進步;2)MRC系統的快速改進極大地受益于CLM的開發;3)MRC的主題正逐漸從淺的文本匹配轉變為認知推理。

本教程對機器閱讀理解進行了全面和比較的綜述,旨在訓練機器對真實數據的閱讀理解能力,這是人工智能的一個主要目標。討論涵蓋了背景、發展、影響、數據集、典型的和最先進的技術、經驗評估和最近的趨勢,特別關注最近的高級預先訓練的語言模型的作用。

付費5元查看完整內容

近年來,在大量原始文本上預先訓練的大型語言模型徹底改變了自然語言處理。現有的方法,基于因果或隱藏的語言模型的變化,現在為每一個NLP任務提供了事實上的方法。在這個演講中,我將討論最近在語言模型預訓練方面的工作,從ELMo、GPT和BERT到更近期的模型。我的目標是對總體趨勢進行廣泛的報道,但提供更多關于我們最近在Facebook AI和華盛頓大學開發的模型的細節。其中特別包括序列到序列模型的預訓練方法,如BART、mBART和MARGE,它們提供了一些迄今為止最普遍適用的方法。

付費5元查看完整內容

雖然在許多領域產生并提供了大量的未標記數據,但獲取數據標簽的成本仍然很高。另一方面,用深度神經網絡解決問題已經變得非常流行,但目前的方法通常依賴大量的標記訓練數據來實現高性能。為了克服注釋的負擔,文獻中提出了利用來自同一領域的可用未標記數據的解決方案,稱為半監督學習;利用相似但又不同領域的已有標記的數據或訓練過的模型,稱為領域自適應。本教程的重點將是后者。領域自適應在社會上也越來越重要,因為視覺系統部署在任務關鍵應用中,其預測具有現實影響,但現實世界的測試數據統計可以顯著不同于實驗室收集的訓練數據。我們的目標是概述視覺領域適應方法,這一領域在計算機視覺領域的受歡迎程度在過去幾年中顯著增加,這可以從過去幾年在頂級計算機視覺和機器學習會議上發表的大量的相關論文中得到證明。

//europe.naverlabs.com/eccv-2020-domain-adaptation-tutorial/

付費5元查看完整內容

【導讀】小樣本學習是一類重要的機器學習方法,旨在解決數據缺少的情況下如何訓練模型的問題。在CVPR2020的Tutorial,來自valeo.ai的學者給了Spyros Gidaris關于小樣本學習的最新教程報告。

在過去的幾年里,基于深度學習的方法在圖像理解問題上取得了令人印象深刻的效果,如圖像分類、目標檢測或語義分割。然而,真實字計算機視覺應用程序通常需要模型能夠(a)通過很少的注釋例子學習,(b)不斷適應新的數據而不忘記之前的知識。不幸的是,經典的監督深度學習方法在設計時并沒有考慮到這些需求。因此,計算機視覺的下一個重大挑戰是開發能夠解決這方面現有方法的重要缺陷的學習方法。本教程將介紹實現這一目標的可能方法。小樣本學習(FSL)利用先驗知識,可以快速地泛化到只包含少量有監督信息的樣本的新任務中。

//annotation-efficient-learning.github.io/

目錄內容:

  • 概述
  • 小樣本學習種類
  • 度量學習
  • 帶記憶模塊的元學習
  • 基于優化的元學習
  • 學習預測模型參數
  • 無遺忘小樣本學習
  • 結論

付費5元查看完整內容
北京阿比特科技有限公司