摘要:自然語言處理(Natural language processing, NLP)是人工智能追求的核心,深度學習(deep learning)是近年來發展的主要動力。大多數NLP問題仍然沒有解決。語言的組合特性使我們能夠表達復雜的思想,但同時也使它難以將足夠的標簽提供給所有情況下都需要大量數據的算法。無監督語言表示技術的最新進展帶來了新的希望。在這個實踐教程中,我們將詳細介紹這些技術,并了解如何基于預訓練和對未標記文本的語言表示進行微調,從而極大地改進NLP學習。具體地說,我們考慮單詞嵌入(如word2vec、fastText和GloVe)中的淺表示,以及使用BERT等注意力機制的深表示。我們演示了如何在后續的NLP任務中對這些模型進行預訓練和微調的詳細流程和最佳實踐,這些任務包括尋找同義詞和類比、情感分析、問題回答和機器翻譯。所有的實踐實現都是使用Apache(孵化)MXNet和GluonNLP實現的,其中一部分可以在深入學習時使用。
邀請嘉賓:Aston Zhang, Haibin Lin, Leonard Lausen, Sheng Zha, and Alex Smola
摘要
圖神經網絡(GNNs)已被證明在建模圖結構的數據方面是強大的。然而,訓練GNN通常需要大量指定任務的標記數據,獲取這些數據的成本往往非常高。減少標記工作的一種有效方法是在未標記數據上預訓練一個具有表達能力的GNN模型,并進行自我監督,然后將學習到的模型遷移到只有少量標記的下游任務中。在本文中,我們提出了GPT-GNN框架,通過生成式預訓練來初始化GNN。GPT-GNN引入了一個自監督屬性圖生成任務來預訓練一個GNN,使其能夠捕獲圖的結構和語義屬性信息。我們將圖生成的概率分解為兩部分:1)屬性生成和2)邊生成。通過對兩個組件進行建模,GPT-GNN捕捉到生成過程中節點屬性與圖結構之間的內在依賴關系。在10億規模的開放學術圖和亞馬遜推薦數據上進行的綜合實驗表明,GPT-GNN在不經過預訓練的情況下,在各種下游任務中的表現顯著優于最先進的GNN模型,最高可達9.1%。
**關鍵詞:**生成式預訓練,圖神經網絡,圖表示學習,神經嵌入,GNN預訓練
題目: Adversarial Training for Large Neural Language Models
簡介: 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利于推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM(大型神經語言模型的專家訓練),該算法通過在嵌入空間中應用擾動來最大化訓練目標,從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究,包括從頭開始進行預訓練,在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中,在各種NLP任務上,ALUM都比BERT獲得了可觀的收益。即使對于已經在超大型文本語料庫上進行過良好訓練的模型(例如RoBERTa),ALUM仍可以通過連續的預訓練獲得可觀的收益,而傳統的非對抗方法則不能。可以將ALUM與特定于任務的微調進一步結合以獲取更多收益。
最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。
主題: Deep Learning for Document Analysis, Text Recognition, and Language Modeling
簡介:
深度學習已經成為許多與OCR和文檔分析相關的識別任務的主要方法。本教程將介紹深度學習在文檔分析問題中的應用:
本課程將提供大量基于PyTorch的示例,建議要對深度學習和Python有基本的了解。
嘉賓介紹:
Thomas Breuel致力于深度學習及其在NVIDIA研究中的應用。在此之前,他是谷歌大腦,IBM和施樂帕洛阿爾托研究中心的研究員。他是凱澤斯勞滕大學的計算機科學教授和圖像理解與模式識別(IUPR)的負責人。他在文檔分析、計算機視覺和機器學習等領域發表了大量論文,并為OCR、文檔分析和機器學習等領域的多個開源項目提供了幫助。
教程題目:Neural Vector Representations beyond Words: Sentence and Document Embeddings
教程簡介:
雖然word2vec和GloVe生成的詞嵌入被廣泛認為是處理文本數據的一種簡單方法,但最近在改進產生更好嵌入的方法方面取得了重大進展。特別是人們可能希望歸納出神經向量不僅表示單個單詞,而且表示更長的語言單位,包括:多單詞短語、整個句子甚至完整的文檔。這些設置的算法可以利用大型語料庫,但也可以利用其他類型數據的監督,如文檔標簽、詞匯資源或自然語言推理數據集。句子嵌入是特別有趣的,因為它們可能需要適當地解釋整個相當相似的句子之間相當微妙的區別。此外,還開發了新的技術來開發多語言和跨語言設置的嵌入式。因此,本教程將概述最新的最先進的方法,這些方法超越了word2vec,并且更好地對更長的單元(例如句子和文檔)的語義進行建模,包括單語和跨語言的。本教程將首先簡單介紹word2vec,以及它與傳統分布語義方法之間的關系,因此不需要先驗知識。
組織者:
Gerard de Melo是羅格斯大學(Rutgers University)的助理教授,領導著一個研究NLP和人工智能的團隊。他已經發表了100多篇論文,在WWW、CIKM、ICGL和NAACL VSM研討會上獲得了最佳論文/演示獎。
Biomedical text mining is becoming increasingly important as the number of biomedical documents rapidly grows. With the progress in machine learning, extracting valuable information from biomedical literature has gained popularity among researchers, and deep learning has boosted the development of effective biomedical text mining models. However, as deep learning models require a large amount of training data, applying deep learning to biomedical text mining is often unsuccessful due to the lack of training data in biomedical fields. Recent researches on training contextualized language representation models on text corpora shed light on the possibility of leveraging a large number of unannotated biomedical text corpora. We introduce BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), which is a domain specific language representation model pre-trained on large-scale biomedical corpora. Based on the BERT architecture, BioBERT effectively transfers the knowledge from a large amount of biomedical texts to biomedical text mining models with minimal task-specific architecture modifications. While BERT shows competitive performances with previous state-of-the-art models, BioBERT significantly outperforms them on the following three representative biomedical text mining tasks: biomedical named entity recognition (0.51% absolute improvement), biomedical relation extraction (3.49% absolute improvement), and biomedical question answering (9.61% absolute improvement). We make the pre-trained weights of BioBERT freely available at //github.com/naver/biobert-pretrained, and the source code for fine-tuning BioBERT available at //github.com/dmis-lab/biobert.
We introduce a new type of deep contextualized word representation that models both (1) complex characteristics of word use (e.g., syntax and semantics), and (2) how these uses vary across linguistic contexts (i.e., to model polysemy). Our word vectors are learned functions of the internal states of a deep bidirectional language model (biLM), which is pre-trained on a large text corpus. We show that these representations can be easily added to existing models and significantly improve the state of the art across six challenging NLP problems, including question answering, textual entailment and sentiment analysis. We also present an analysis showing that exposing the deep internals of the pre-trained network is crucial, allowing downstream models to mix different types of semi-supervision signals.