主題: FLAT: Chinese NER Using Flat-Lattice Transformer
摘要: 最近,通過結合單詞信息,已證明字符-單詞格結構對中文命名實體識別(NER)有效。 然而,由于晶格結構復雜且動態,因此大多數現有的基于晶格的模型難以充分利用GPU的并行計算,并且推理速度通常較低。 在本文中,我們提出了FLAT:中文NER的平面格子變壓器,它將晶格結構轉換為由跨度組成的平面結構。 每個跨度對應一個字符或潛在單詞及其在原始格中的位置。 借助Transformer的功能和精心設計的位置編碼,FLAT可以充分利用晶格信息,并具有出色的并行化能力。 在四個數據集上進行的實驗表明,FLAT在性能和效率上均優于其他基于詞典的模型。
題目: Named Entity Recognition as Dependency Parsing
摘要:
命名實體識別(NER)是自然語言處理中的一項基本任務,用于識別表示對實體的引用的文本范圍。NER研究通常只關注平面實體(flat NER),而忽略了實體引用可以嵌套的事實,如[中國銀行](Finkel和Manning, 2009)。在本文中,我們使用基于圖的依賴解析的思想,通過比亞仿射模型為我們的模型提供了輸入的全局視圖(Dozat和Manning, 2017)。biaffine模型對句子中的開始和結束標記對進行評分,我們使用這些標記來探索所有span,因此該模型能夠準確地預測命名實體。通過對8個語料庫的評估和對所有語料庫的SoTA性能的實現,我們表明該模型對嵌套和平面NER都能很好地工作,準確度提高了2.2個百分點。
學習跨句關系是文檔摘要提取的關鍵步驟,目前已有多種研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,這種神經網絡具有更復雜的結構來捕獲句子之間的關系。我們提出了一種基于異構圖的提取摘要神經網絡,該網絡包含除句子外的不同粒度的語義節點。這些額外的節點充當句子之間的中介,豐富了跨句關系。此外,通過引入文檔節點,我們的圖結構在從單文檔設置到多文檔設置的自然擴展方面具有靈活性。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要,并對其進行全面的定性分析來研究其好處的人。代碼將在Github上發布。
題目: Conditional Rap Lyrics Generation with Denoising Autoencoders
簡介: 我們開發了一種方法,該方法可以自動給定以另一種形式(例如新聞摘要)的輸入文本形式。 我們的方法是訓練基于Transformer的降噪自動編碼器,以從內容詞中重建說唱歌詞。 我們研究了三種自動去除內容詞的方法,這些方法傳達了歌詞的基本含義。 而且,我們提出了一種基于BERT的意韻增強措辭方案,并表明該方法將歌詞的平均韻律密度提高了10%。 在三個不同的輸入域(現有的說唱歌詞,新聞和電影情節摘要)上的實驗結果表明,我們的方法能夠生成連貫且技術熟練的說唱經文,以保留所輸入內容的單詞。 人工評估表明,與強大的信息檢索基準相比,我們的方法在內容保存和樣式傳遞之間取得了很好的表現。
We investigate a lattice-structured LSTM model for Chinese NER, which encodes a sequence of input characters as well as all potential words that match a lexicon. Compared with character-based methods, our model explicitly leverages word and word sequence information. Compared with word-based methods, lattice LSTM does not suffer from segmentation errors. Gated recurrent cells allow our model to choose the most relevant characters and words from a sentence for better NER results. Experiments on various datasets show that lattice LSTM outperforms both word-based and character-based LSTM baselines, achieving the best results.