論文題目
機器學習在固體材料科學中的最新進展和應用,Recent advances and applications of machine learning in solidstate materials science
論文簡介
自從一年前BERT問世以來,自然語言研究已經擁抱了一個新的范例,利用大量現有文本來使用自我監督來預先訓練模型的參數,而不需要數據注釋。因此,不需要從頭開始為自然語言處理(NLP)訓練機器學習模型,我們可以從一個具有語言知識的模型開始。但是,為了改進這種新的自然語言處理方法,我們必須了解到底是什么對語言理解性能有貢獻——網絡的高度(即,層的數量)、寬度(隱藏層表示的大小)、自我監督的學習標準,或者完全其他什么? “ALBERT:一個自我監督的語言表征學習的小BERT”,接受在ICLR2020上,我們對BERT進行了升級,提高了12項NLP任務的最新性能,包括競爭性斯坦福問答數據集(SQuAD v2.0)和SAT式閱讀理解競賽基準。ALBERT是作為TensorFlow之上的一個開源實現發布的,它包含了許多現成的ALBERT語言表示模型。
論文作者
Radu Soricut ,Zhenzhong Lan,來自Google研究院的研究科學家
交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在這篇論文中,我們提出了一種新的訓練方法,在不同架構和數據擴充的監督學習任務中,它的表現始終優于交叉熵。我們修改了批量對比損失,這是最近被證明在自監督學習強大表示是非常有效的。我們能夠比交叉熵更有效地利用標簽信息。在嵌入空間中,將同一類的點聚在一起,同時將不同類的樣本聚在一起。除此之外,我們還利用了關鍵的成分,如大批量和標準化嵌入,這些已經被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的交叉熵性能都超過了1%,在使用自動增廣數據增強的方法中,我們設置了78.8%的最新水平。這一損失也清楚地表明,在校準和準確性方面,對標準基準的自然損壞具有魯棒性。與交叉熵相比,我們的監督對比損失更穩定的超參數設置,如優化或數據擴充。
預先訓練詞嵌入是NLP深度學習成功的關鍵,因為它們允許模型利用web上幾乎無限數量的未注釋文本。在過去的幾年里,條件語言模型被用來生成預先訓練好的上下文表示,這比簡單的嵌入更加豐富和強大。本文介紹了一種新的預訓練技術——BERT(來自Transformer的雙向編碼器表示),它可以生成深度雙向的預訓練語言表示。BERT在斯坦福問答數據集、多項、斯坦福情感樹庫和許多其他任務上獲得了最先進的結果。
Jacob Devlin是谷歌的研究員。在谷歌,他的主要研究興趣是開發用于信息檢索、問題回答和其他語言理解任務的快速、強大和可擴展的深度學習模型。2014年至2017年,他在微軟研究院擔任首席研究員,領導微軟翻譯從基于短語的翻譯過渡到神經機器翻譯(NMT)。他獲得了ACL 2014最佳長論文獎和NAACL 2012最佳短論文獎。2009年,他在馬里蘭大學(University of Maryland)獲得了計算機科學碩士學位,導師是邦尼·多爾(Bonnie Dorr)博士。
題目: Large Scale Learning of General Visual Representations for Transfer
摘要: 在訓練深層視覺神經網絡時,預訓練表示的傳遞提高了樣本效率,簡化了超參數整定。我們重新審視了在大監督數據集上進行預訓練和微調目標任務權重的范例。我們擴大了訓練前的規模,并創建了一個簡單的配方,我們稱之為大轉移(BiT)。通過組合一些精心挑選的組件,并使用簡單的啟發式進行傳輸,我們在20多個數據集上獲得了很強的性能。BiT在一系列出人意料的數據體系中表現良好——從10到100萬個標記示例。BiT在ILSVRC-2012上達到87.8%的top-1精度,在CIFAR-10上達到99.3%,在視覺任務適應基準(包括19個任務)上達到76.7%。在小型數據集上,ILSVRC-2012每類25個示例的BiT達到86.4%,CIFAR-10每類10個示例的BiT達到97.6%。我們對導致高傳輸性能的主要組件進行了詳細的分析。
作者簡介: Alexander Kolesnikov,谷歌儀器科學家。個人主頁:[//neutrons.ornl.gov/contacts/kolesnikovai]{}
1、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT論文)
谷歌BERT斬獲最佳長論文!自然語言頂會NAACL2019最佳論文5篇出爐
Google NAACL2019 最佳論文
作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
摘要:本文介紹一種稱為BERT的新語言表征模型,意為來自變換器的雙向編碼器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的語言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有層的左、右語境來預訓練深度雙向表征。因此,預訓練的BERT表征可以僅用一個額外的輸出層進行微調,進而為很多任務(如問答和語言推理)創建當前最優模型,無需對任務特定架構做出大量修改。BERT的概念很簡單,但實驗效果很強大。它刷新了11個NLP任務的當前最優結果,包括將GLUE基準提升至80.4%(7.6%的絕對改進)、將MultiNLI的準確率提高到86.7%(5.6%的絕對改進),以及將SQuADv1.1問答測試F1的得分提高至93.2分(1.5分絕對提高)——比人類性能還高出2.0分。
網址:
//www.zhuanzhi.ai/paper/7acdc843627c496a2ad7fb2785357dec
BERT的slides: BERT一作Jacob Devlin斯坦福演講PPT:BERT介紹與答疑
2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Google CMU
作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
摘要:Transformer 網絡具有學習更長期依賴性的潛力,但這種潛力往往會受到語言建模中上下文長度固定的限制。因此,我們提出了一種叫做 Transformer-XL 的新神經架構來解決這一問題,它可以在不破壞時間一致性的情況下,讓 Transformer 超越固定長度學習依賴性。具體來說,它是由片段級的循環機制和全新的位置編碼策略組成的。我們的方法不僅可以捕獲更長的依賴關系,還可以解決上下文碎片化的問題。Transformer-XL 學習到的依賴性比 RNN 學習到的長 80%,比標準 Transformer 學到的長 450%,無論在長序列還是短序列中都得到了更好的結果,而且在評估時比標準 Transformer 快 1800+ 倍。此外,我們還提升了 bpc 和困惑度的當前最佳結果,在 enwiki8 上 bpc 從 1.06 提升至 0.99,在 text8 上從 1.13 提升至 1.08,在 WikiText-103 上困惑度從 20.5 提升到 18.3,在 One Billion Word 上從 23.7 提升到 21.8,在賓州樹庫(不經過微調的情況下)上從 55.3 提升到 54.5。我們的代碼、預訓練模型以及超參數在 TensorFlow 和 PyTorch 中都可以使用。。
網址:
3、XLNet: Generalized Autoregressive Pretraining for Language Understanding
Google CMU
作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
摘要:由于上下文雙向建模的表達能力更強,降噪自編碼類型中的典型代表BERT能夠比自回歸語言模型取得更好的結果。即,上下文建模獲得雙向的信息在Language Understanding中是很重要的。但是BERT存在以下不足:(1)在輸入端依賴mask的掩模的方式,遮蔽部分的輸入信息。(2)忽略了被mask位置之間的依賴性。這兩點在預訓練-微調兩個階段存在不符。即,上述2個方面在預訓練和微調這2個階段之間都是有差異的。在正視了上述優缺點之后,本文提出一種通用(或者廣義,英語原文是generalized)的自回歸預訓練方法:XLNet。XLNet的貢獻在于(1)新的雙向上下文學習方法:分解輸入的順序,對其進行排列組合,并遍歷所有的排列組合,獲得最大似然期望。(2)克服BERT自回歸中的缺陷。XLNet在預訓練中融合Transformer-XL和state-of-the-art自回歸模型的優點。實驗結果:XLNet在20個任務中超出了BERT,且很多是碾壓式地超越。XLNet在其中18個任務中取得了目前最優結果,包括問答、自然語言推理、情感分析和文檔排序。
網址:
4、ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations
作者:Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
摘要:通常而言,在預訓練自然語言表征時增加模型大小可以提升模型在下游任務中的性能。但在某些情況下,由于 GPU/TPU 內存限制、訓練時間延長以及意外的模型退化等原因,進一步增加模型大小的難度也隨之增加。所以,為了解決這些問題,來自谷歌的研究者提出通過兩種參數削減(parameter-reduction)技術來降低內存消耗,加快 BERT 的訓練速度。綜合實驗表明,ALBERT 的擴展效果要優于原始 BERT。此外,他們還使用了聚焦于句間連貫性建模的自監督損失,并證明這種損失對下游任務中的多語句輸入有持續幫助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基準測試上都取得了新的 SOTA 效果,并且參數量少于 BERT-large。
網址:
?
?更多預訓練語言模型的論文請上:
論文摘要:
預先訓練自然語言表示時,增加模型大小可改善下游任務的性能。 但是,由于GPU / TPU內存的限制,更長的訓練時間以及意外的模型降級,在某些時候,進一步的模型增加變得更加困難。 為了解決這些問題,我們提出了兩種參數減少技術,以降低內存消耗并提高BERT的訓練速度。 全面的經驗證據表明,與原始BERT相比,我們提出的方法所導致的模型可擴展性更好。 我們還使用了一個自我監督的損失,該損失集中于對句子間的連貫性進行建模,并表明它始終可以幫助多句子輸入的下游任務。 因此,我們的最佳模型在GLUE,RACE和SQuAD基準上建立了最新的技術成果,而參數卻比BERT-large少。
論文目錄:
介紹(Introduction)
相關工作(Related work)
ALBERT因素
實驗(Experiments)
討論(Discussion)
Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations, longer training times, and unexpected model degradation. To address these problems, we present two parameter-reduction techniques to lower memory consumption and increase the training speed of BERT. Comprehensive empirical evidence shows that our proposed methods lead to models that scale much better compared to the original BERT. We also use a self-supervised loss that focuses on modeling inter-sentence coherence, and show it consistently helps downstream tasks with multi-sentence inputs. As a result, our best model establishes new state-of-the-art results on the GLUE, RACE, and SQuAD benchmarks while having fewer parameters compared to BERT-large.The code and the pretrained models are available at //github.com/google-research/google-research/tree/master/albert.