摘要
我們介紹了使用神經模型的語音識別問題,強調了當輸入和輸出序列的長度不同時,訓練和推理的CTC損失。
我們討論了在推理過程中使用的beam搜索,以及如何使用圖Transformer網絡(Graph Transformer Network)在訓練時對該過程進行建模。圖Transformer網絡基本上是帶有自動微分的加權有限狀態自動機,它允許我們將先驗編碼到圖中。有不同類型的加權有限狀態和不同的操作,包括并集、克林閉包、交、合成和前向得分。損失函數通常是函數之間的區別。我們可以很容易地實現這些網絡使用GTN庫。
地址:
題目: Attention in Natural Language Processing
摘要:
注意力是一種越來越受歡迎的機制,在廣泛的神經結構中使用。該機制本身以各種格式實現。然而,由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們為自然語言處理中的注意力架構定義了一個統一的模型,重點是那些設計用來處理文本數據的向量表示的模型。根據四個維度提出了注意力模型的分類:輸入的表示、兼容性函數、分布函數和輸入和輸出的多樣性。然后展示了如何在注意力模型中利用先驗信息的例子,并討論了該領域正在進行的研究工作和面臨的挑戰。
【導讀】BERT自問世以來,幾乎刷新了各種NLP的任務榜,基于BERT的變種也層出不窮。19年來,很多研究人員都嘗試融合視覺音頻等模態信息進行構建預訓練語言模型。本文介紹了EMNLP2019來自UNC-北卡羅來納大學教堂山分校的Hao Tan的工作。構建LXMERT(從Transformers中學習跨模態編碼器表示)框架來學習這些視覺和語言的語義聯系。作者這份76頁PPT詳細介紹了語言和視覺任務的概況以及如何構建多模態BERT。
視覺和語言推理需要理解視覺概念、語言語義,最重要的是理解這兩種模式之間的對齊和關系。因此,我們提出了LXMERT(從Transformers中學習跨模態編碼器表示)框架來學習這些視覺和語言聯系。在LXMERT中,我們構建了一個大型Transformers模型,它由三個編碼器組成:一個對象關系編碼器、一個語言編碼器和一個跨模態編碼器。接下來, 賦予我們的模型的功能連接視覺和語言的語義,我們在大量image-and-sentence 預訓練模型, 通過五個不同代表訓練的任務: mask語言建模,mask對象預測(功能回歸和標簽分類), 跨模式匹配和圖像問答。這些任務有助于學習模態內和模態間的關系。從我們預先訓練的參數進行微調后,我們的模型在兩個可視化的問題回答數據集(即, VQA和GQA)。我們還通過將預訓練的跨模態模型應用于具有挑戰性的視覺推理任務NLVR2,并將之前的最佳結果提高了22%(54%至76%),從而展示了該模型的通用性。最后,我們展示了詳細的ablation study,以證明我們的新模型組件和預訓練策略對我們的結果有顯著的貢獻;并針對不同的編碼器提出了幾種注意可視化方法。代碼和預訓練的模型可在: //github.com/airsplay/lxmert
近年來,基于完全遞歸神經網絡(RNN)的端到端的語音識別模型在單信道和多信道環境下都被證明是有效的。在這項工作中,我們通過關注兩個方面來探索Transformer模型在這些任務中的使用。我們將語音識別模型中基于RNN的編碼器解碼器替換為Transformer架構。第二,為了使用Transformer 屏蔽網絡的神經beamformer在多通道的情況下,我們修改self-attention組件被限制在一段,而不是整個序列,以減少計算。除了模型架構的改進外,我們還加入了外部去重預處理,即加權預測誤差(WPE),使我們的模型能夠處理混響信號。