近年來,基于完全遞歸神經網絡(RNN)的端到端的語音識別模型在單信道和多信道環境下都被證明是有效的。在這項工作中,我們通過關注兩個方面來探索Transformer模型在這些任務中的使用。我們將語音識別模型中基于RNN的編碼器解碼器替換為Transformer架構。第二,為了使用Transformer 屏蔽網絡的神經beamformer在多通道的情況下,我們修改self-attention組件被限制在一段,而不是整個序列,以減少計算。除了模型架構的改進外,我們還加入了外部去重預處理,即加權預測誤差(WPE),使我們的模型能夠處理混響信號。