題目: 自然語言處理中的表示學習進展:從Transfomer到BERT
報告人: 邱錫鵬 博士 復旦大學
摘要: 目前全連接自注意力模型(比如Transformer)在自然語言處理領域取得了廣泛的成功。本報告主要介紹我們在自注意力模型方面的一些工作,主要涵蓋兩部分內容:1)Transformer及其改進模型:通過分析Transformer的基本原理和優缺點,提出一些改進模型Star-Transformer、Multi-Scale Transformer等。2)預訓練的Transformer模型的遷移方法:雖然預訓練的Transformer模型(比如BERT、GPT等)在很多自然語言任務上都取得了非常好的性能,我們通過任務轉換、繼續預訓練、多任務學習等方法來進一步提高其遷移能力。最后,對Transformer模型及其未來發展趨勢進行展望。
預先訓練詞嵌入是NLP深度學習成功的關鍵,因為它們允許模型利用web上幾乎無限數量的未注釋文本。在過去的幾年里,條件語言模型被用來生成預先訓練好的上下文表示,這比簡單的嵌入更加豐富和強大。本文介紹了一種新的預訓練技術——BERT(來自Transformer的雙向編碼器表示),它可以生成深度雙向的預訓練語言表示。BERT在斯坦福問答數據集、多項、斯坦福情感樹庫和許多其他任務上獲得了最先進的結果。
Jacob Devlin是谷歌的研究員。在谷歌,他的主要研究興趣是開發用于信息檢索、問題回答和其他語言理解任務的快速、強大和可擴展的深度學習模型。2014年至2017年,他在微軟研究院擔任首席研究員,領導微軟翻譯從基于短語的翻譯過渡到神經機器翻譯(NMT)。他獲得了ACL 2014最佳長論文獎和NAACL 2012最佳短論文獎。2009年,他在馬里蘭大學(University of Maryland)獲得了計算機科學碩士學位,導師是邦尼·多爾(Bonnie Dorr)博士。
神經網絡與深度學習,復旦大學邱錫鵬老師。近年來,以機器學習、知識圖譜為代表的人工智能技術逐漸變得普及。從車牌識別、人臉識別、語音識別、智能問答、推薦系統到自動駕駛,人們在日常生活中都可能有意無意地使用到了人工智能技術。這些技術的背后都離不開人工智能領域研究者們的長期努力。特別是最近這幾年,得益于數據的增多、計算能力的增強、學習算法的成熟以及應用場景的豐富,越來越多的人開始關注這一個“嶄新”的研究領域:深度學習。深度學習以神經網絡為主要模型,一開始用來解決機器學習中的表示學習問題。但是由于其強大的能力,深度學習越來越多地用來解決一些通用人工智能問題,比如推理、決策等。目前,深度學習技術在學術界和工業界取得了廣泛的成功,受到高度重視,并掀起新一輪的人工智能熱潮。
本課程主要介紹神經網絡與深度學習中的基礎知識、主要模型(前饋網絡、卷積網絡、循環網絡等)以及在計算機視覺、自然語言處理等領域的應用。
本書的寫作目的是使得讀者能夠掌握神經網絡與深度學習技術的基本原理,知其然還要知其所以然。全書共 15 章。第 1 章是緒論,介紹人工智能、機器學習、深度學習的概要,使讀者對相關知識進行全面的了解。第2、3章介紹機器學習的基礎知識。第4、5、6章分別講述三種主要的神經網絡模型:前饋神經 網絡、卷積神經網絡和循環神經網絡。第7章介紹神經網絡的優化與正則化方法。第8章介紹神經網絡中的注意力機制和外部記憶。第9章簡要介紹一些無監督學習方法。第10章介紹一些模型獨立的機器學習方法:集成學習、自訓練、協同訓練多任務學習、遷移學習、終身學習、元學習等,這些都是目前深度學習的難點和熱點問題。第11章介紹概率圖模型的基本概念,為后面的章節進行鋪墊。第12章介紹兩種早期的深度學習模型:玻爾茲曼機和深度信念網絡。第13章介紹最近兩年發展十分迅速的深度生成模型:變分自編碼器和生成對抗網絡。第14章介紹深度強化學習的知識。第15章介紹應用十分廣泛的序列生成模型。