文本分類,是NLP的基礎任務,旨在對給定文本預測其類別。然而,基礎任務不代表簡單任務:文本來源復雜多樣,文本粒度有大有小,文本標簽之間也有各種關系。面對各種問題,文本分類,仍在飛速發展中。來自美國弗吉尼亞大學的Kamran Kowsari博士等人,用了68頁A4紙的篇幅,從0開始,細致的總結了文本分類近些年的發展,循序漸進,新手友好!
近年來,復雜文檔和文本的數量呈指數級增長,需要對機器學習方法有更深刻的理解,才能在許多應用中準確地對文本進行分類。許多機器學習方法在自然語言處理方面取得了卓越的成績。這些學習算法的成功依賴于它們理解復雜模型和數據中的非線性關系的能力。然而,為文本分類找到合適的結構、體系和技術對研究人員來說是一個挑戰。本文簡要介紹了文本分類算法。本文概述了不同的文本特征提取、降維方法、現有的分類算法和技術以及評估手段。最后,討論了每種技術的局限性及其在實際問題中的應用。
題目: A Survey of Deep Learning Techniques for Neural Machine Translation
摘要: 近年來,隨著深度學習技術的發展,自然語言處理(NLP)得到了很大的發展。在機器翻譯領域,出現了一種新的方法——神經機器翻譯(NMT),引起了學術界和工業界的廣泛關注。然而,在過去的幾年里提出的大量的研究,很少有人研究這一新技術趨勢的發展過程。本文回顧了神經機器翻譯的起源和主要發展歷程,描述了神經機器翻譯的重要分支,劃分了不同的研究方向,并討論了未來該領域的一些研究趨勢。
在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。