題目
跨語言表示學習,Unsupervised Cross-lingual Representation Learning at Scale
關鍵詞
自然語言處理,表示學習,跨語言,人工智能
簡介
本文表明,針對多種跨語言轉換任務,大規模地對多語言語言模型進行預訓練可以顯著提高性能。 我們使用超過2 TB的經過過濾的CommonCrawl數據在一百種語言上訓練了基于Transformer的屏蔽語言模型。 我們的模型稱為XLM-R,在各種跨語言基準測試中,其性能明顯優于多語言BERT(mBERT),包括XNLI的平均精度為+ 13.8%,MLQA的平均F1得分為+ 12.3%,NER的平均F1得分為+ 2.1%。 XLM-R在低資源語言上表現特別出色,與以前的XLM模型相比,斯瓦希里語的XNLI準確性提高了11.8%,烏爾都語的準確性提高了9.2%。 我們還對獲得這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極轉移和能力稀釋以及(2)大規模資源資源的高低性能之間的權衡。 最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性。 XLM-R在GLUE和XNLI基準測試中具有強大的單語言模型,因此非常具有競爭力。 我們將公開提供XLM-R代碼,數據和模型。
作者
Alexis Conneau, Kartikay Khandelwal等。
在為視覺訓練深度神經網絡時,預訓練表示的遷移提高了樣本效率并簡化了超參數調整。我們回顧了在大型監督數據集上進行預訓練和在目標任務上對模型進行微調的范例。我們擴大了預訓練的規模,并提出了一個簡單的方法,我們稱之為大遷移(BiT)。通過組合一些精心選擇的組件,并使用一個簡單的啟發式傳輸,我們在20多個數據集上實現了強大的性能。BiT在非常廣泛的數據范圍內執行得非常好——從每個類1個示例到總共100萬個示例。BiT在ILSVRC-2012上達到87.5%的top-1準確率,在CIFAR-10上達到99.4%,在19個任務的視覺任務適應基準(VTAB)上達到76.3%。在小型數據集上,在ILSVRC-2012上BiT達到了76.8%,每個類有10個例子,在CIFAR-10上達到了97.0%,每個類有10個例子。我們對導致高遷移性能的主要部件進行了詳細的分析。
交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在這篇論文中,我們提出了一種新的訓練方法,在不同架構和數據擴充的監督學習任務中,它的表現始終優于交叉熵。我們修改了批量對比損失,這是最近被證明在自監督學習強大表示是非常有效的。我們能夠比交叉熵更有效地利用標簽信息。在嵌入空間中,將同一類的點聚在一起,同時將不同類的樣本聚在一起。除此之外,我們還利用了關鍵的成分,如大批量和標準化嵌入,這些已經被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的交叉熵性能都超過了1%,在使用自動增廣數據增強的方法中,我們設置了78.8%的最新水平。這一損失也清楚地表明,在校準和準確性方面,對標準基準的自然損壞具有魯棒性。與交叉熵相比,我們的監督對比損失更穩定的超參數設置,如優化或數據擴充。
題目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER
簡介: 深度和大型預訓練語言模型是各種自然語言處理任務的最新技術。但是,這些模型的巨大規模可能會阻礙在實踐中使用它們。一些近期和并行的工作使用知識蒸餾將這些巨大的模型壓縮為淺層模型。在這項工作中,我們重點研究多語言命名實體識別(NER)的知識提煉。特別是,我們研究了幾種蒸餾策略,并提出了一個階段性的優化方案,該方案利用了與教師架構無關的教師內部表示形式,并表明它優于先前工作中采用的策略。此外,我們調查了幾個因素的作用,例如未標記數據的數量,注釋資源,模型架構和推理延遲僅舉幾例。我們證明了我們的方法可以對MBERT類教師模型進行大規模壓縮,在參數推斷方面最多可壓縮35倍,在延遲方面則可壓縮51倍,同時為41種語言的NER有95%的F1分數。
題目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning
摘要:
我們提出了CURL:用于強化學習的對比無監督表示法。CURL使用對比學習從原始像素中提取高級特征,并在提取的特征之上執行off-policy控制。在DeepMind控制套件和Atari游戲中,在100K交互步驟基準測試中,CURL在復雜任務上的表現優于先前基于模型和非模型的基于像素的方法,分別提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一個基于圖像的算法,它的效率和性能幾乎與使用基于狀態的特性的方法不相上下。
本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。
題目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA
摘要: 本文介紹了一種新的用于圖像-文本聯合嵌入的視覺語言預訓練模型圖像BERT。我們的模型是一個基于Transformer的模型,它以不同的模態作為輸入,對它們之間的關系進行建模。該模型同時進行了四項任務的預訓練:掩蔽語言建模(MLM)、掩蔽對象分類(MOC)、掩蔽區域特征回歸(MRFR)和圖像文本匹配(ITM)。為了進一步提高預訓練的質量,我們從Web上收集了一個大規模的弱監督圖像-文本(LAIT)數據集。我們首先在這個數據集上對模型進行預訓練,然后對概念字幕和SBU字幕進行第二階段的預訓練。實驗結果表明,多階段預訓練策略優于單階段預訓練策略。我們還在圖像檢索和文本檢索任務上對預先訓練好的ImageBERT模型進行了調優和評估,并在MSCOCO和Flickr30k數據集上獲得了最好的效果。
題目: Large Scale Learning of General Visual Representations for Transfer
摘要: 在訓練深層視覺神經網絡時,預訓練表示的傳遞提高了樣本效率,簡化了超參數整定。我們重新審視了在大監督數據集上進行預訓練和微調目標任務權重的范例。我們擴大了訓練前的規模,并創建了一個簡單的配方,我們稱之為大轉移(BiT)。通過組合一些精心挑選的組件,并使用簡單的啟發式進行傳輸,我們在20多個數據集上獲得了很強的性能。BiT在一系列出人意料的數據體系中表現良好——從10到100萬個標記示例。BiT在ILSVRC-2012上達到87.8%的top-1精度,在CIFAR-10上達到99.3%,在視覺任務適應基準(包括19個任務)上達到76.7%。在小型數據集上,ILSVRC-2012每類25個示例的BiT達到86.4%,CIFAR-10每類10個示例的BiT達到97.6%。我們對導致高傳輸性能的主要組件進行了詳細的分析。
作者簡介: Alexander Kolesnikov,谷歌儀器科學家。個人主頁:[//neutrons.ornl.gov/contacts/kolesnikovai]{}
教程題目:Unsupervised Cross-Lingual Representation Learning
教程簡介:
在本教程中,將會對弱監督、無監督跨語言詞表征領域的最新最前沿成果進行一次完整的綜述。在簡要介紹了監督跨語言詞表示的歷史之后,重點介紹以下內容:
組織者:
Sebastian Ruder是倫敦DeepMind的一名研究科學家。在Insight數據分析研究中心完成了自然語言處理和深度學習的博士學位,同時在柏林的文本分析初創公司AYLIEN擔任研究科學家。
Anders S?gaard是哥本哈根大學計算機科學自然語言處理與機器學習教授,同時是柏林谷歌的訪問科學家。
Ivan Vuli?目前擔任劍橋大學詞匯項目(2015-2020年跨語言詞匯習得)的高級研究員。在庫魯汶大學獲得了計算機科學博士學位,研究興趣是自然語言處理、人類語言理解、機器學習理論和應用,信息檢索,主要在多語言/跨語言和多模式設置,包括(但不限于)雙語詞典提取和跨語言語義建模、跨語言和多語言信息檢索,分布語義,跨語言文本挖掘和知識轉移,語言基礎和認知建模的語言,詞匯獲取、文本表示學習、潛在主題模型、文本數據的概率建模、術語挖掘和對齊、機器翻譯、資源稀缺語言的無監督技術、多習慣用法和多模態信息搜索和檢索、多模態和視覺/感知增強語義等。
摘要: 現有的不流利檢測方法大多嚴重依賴人工標注的數據,而在實踐中獲取這些數據的成本很高。為了解決訓練數據的瓶頸,我們研究了將多個自監督任務相結合的方法。在監督任務中,無需人工標記就可以收集數據。首先,我們通過隨機添加或刪除未標記新聞數據中的單詞來構建大規模的偽訓練數據,并提出了兩個自我監督的訓練前任務:(i)標記任務來檢測添加的噪聲單詞。(ii)對句子進行分類,區分原句和語法錯誤句子。然后我們將這兩個任務結合起來共同訓練一個網絡。然后使用人工標注的不流利檢測訓練數據對訓練前的網絡進行微調。在常用的英語交換機測試集上的實驗結果表明,與以前的系統(使用完整數據集進行訓練)相比,我們的方法只需使用不到1%(1000個句子)的訓練數據,就可以獲得具有競爭力的性能。我們的方法在全數據集上進行訓練,明顯優于以前的方法,在英語Switchboard上將錯誤率降低了21%。
This paper shows that pretraining multilingual language models at scale leads to significant performance gains for a wide range of cross-lingual transfer tasks. We train a Transformer-based masked language model on one hundred languages, using more than two terabytes of filtered CommonCrawl data. Our model, dubbed XLM-R, significantly outperforms multilingual BERT (mBERT) on a variety of cross-lingual benchmarks, including +13.8% average accuracy on XNLI, +12.3% average F1 score on MLQA, and +2.1% average F1 score on NER. XLM-R performs particularly well on low-resource languages, improving 11.8% in XNLI accuracy for Swahili and 9.2% for Urdu over the previous XLM model. We also present a detailed empirical evaluation of the key factors that are required to achieve these gains, including the trade-offs between (1) positive transfer and capacity dilution and (2) the performance of high and low resource languages at scale. Finally, we show, for the first time, the possibility of multilingual modeling without sacrificing per-language performance; XLM-Ris very competitive with strong monolingual models on the GLUE and XNLI benchmarks. We will make XLM-R code, data, and models publicly available.