自然語言生成經過幾十年的發展,已經成為人工智能和自然語言處理的重要研究領域。最早的自然語言生成系統采用規則、模板的方法,設計各司其職的模塊進行文本生成,其中體現了很多專家設計的詞匯、語法、句法甚至語用的語言學知識。統計語言模型則從概率統計的角度提出了語言建模的新思路,將詞匯與上下文的依賴關系編碼在條件概率中。以深度學習模型為基本架構的現代語言生成模型絕大多數通過端到端訓練的方式,能更好地建模詞匯與上下文之間統計共現關系,顯著地提升了文本生成的性能。特別是以Transformer為基礎架構的預訓練語言生成模型,能夠較好地捕獲包括詞匯、語法、句法、語義等各層面的語言學知識,極大地推動了自然語言生成的進展,生成效果令人驚嘆。
? 自然語言生成(NLG)是自然語言處理的一個子領域
? 專注于構建系統,自動生成連貫和有用的書面或口頭文本供人類使用
? NLG系統已經在改變我們生活的世界……
斯坦福經典自然語言處理課程CS224N《自然語言處理未來與深度學習》,包括:大型語言模型如GPT3,組合表示與泛化、NLP模型評估、擴展到其他模態、與深度學習交叉研究。
以ELMO (Peters et al., 2018)、GPT (Radford et al., 2018)和BERT (Devlin et al., 2019)為代表的預訓練語言模型受到了廣泛關注,并提出了大量的變體模型。在這些研究中,一些研究人員致力于將知識引入語言模型(Levine et al., 2019; Lauscher et al., 2019; Liu et al., 2019; Zhang et al., 2019b)。ERNIE-Baidu (Sun et al., 2019)引入新的掩蔽單元,如短語和實體,在這些掩蔽單元中學習知識信息。作為獎勵,來自短語和實體的語法和語義信息被隱式地集成到語言模型中。此外,ERNIE-Tsinghua (Zhang et al., 2019a)探索了一種不同的知識信息,將知識圖譜整合到BERT中,同時學習詞匯、句法和知識信息。Xiong et al. (2019) 將實體替換檢查任務引入到預先訓練的語言模型中,并改進若干與實體相關的下游任務,如問答和實體類型。Wang et al.(2020)提出了一種將知識注入語言模型的插件方式,他們的方法將不同種類的知識保存在不同的適配器中。這些方法所引入的知識信息并沒有很重視KG中圖表化的知識。
圖機器學習講述關于《圖神經網絡GNN高級主題》最新課程。
近年來,一些研究人員致力于把神經網絡模型遷移到圖數據這類非歐空間數據上,提出了圖神經網絡(GNN)模型,成功應用在半監督節點分類、圖分類、推薦系統、交通預測、知識推理等任務中。本課程講述了圖神經網絡的高級主題:
圖神經網絡局限性
位置感知圖神經網絡
身份感知圖神經網絡
圖神經網絡魯棒性
問答(QA)是自然語言處理中最早的核心問題之一,并且在許多現實世界的應用(例如搜索引擎和個人助理)中發揮了重要作用。開放域問答在最近幾年重獲關注,它通常基于大量非結構化文檔的收集,旨在自動回答人類以自然語言形式提出的問題。
//web.stanford.edu/class/cs224n/index.html#schedule
注意力(Attention)機制[2]由Bengio團隊與2014年提出并在近年廣泛的應用在深度學習中的各個領域,例如在計算機視覺方向用于捕捉圖像上的感受野,或者NLP中用于定位關鍵token或者特征。谷歌團隊近期提出的用于生成詞向量的BERT[3]算法在NLP的11項任務中取得了效果的大幅提升,堪稱2018年深度學習領域最振奮人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。
正如論文的題目所說的,Transformer中拋棄了傳統的CNN和RNN,整個網絡結構完全是由Attention機制組成。更準確地講,Transformer由且僅由self-Attenion和Feed Forward Neural Network組成。一個基于Transformer的可訓練的神經網絡可以通過堆疊Transformer的形式進行搭建,作者的實驗是通過搭建編碼器和解碼器各6層,總共12層的Encoder-Decoder,并在機器翻譯中取得了BLEU值得新高。
神經語言生成(NLG)——使用神經網絡模型生成連貫的文本——是自動化文本創建最有前途的方法之一。近年來,隨著深度語境語言建模(如LSTMs、GPT、GPT2)和遷移學習(如ELMo、BERT)的發展,神經文本生成出現了范式轉變。雖然這些工具極大地改善了NLG的狀態,但是對于低資源任務,最先進的NLG模型仍然面臨許多挑戰: 生成的文本缺乏多樣性,描述的情況違反常識性規則,使用事實信息的困難,以及設計可靠的評估指標的困難。在本教程中,我們將概述當前神經網絡架構的最新技術,以及它們如何形成文本生成的最新研究方向。我們將討論這些模型在生成連貫文本時如何以及為什么成功或失敗,并對幾個應用程序提供見解。
目錄內容: