自然語言處理是人工智能的核心技術, 文本表示是自然語言處理的基礎性和必要性工作, 影響甚至決定著自然語言處理系統的質量和性能. 探討了文本表示的基本原理、自然語言的形式化、語言模型以及文本表示的內涵和外延. 宏觀上分析了文本表示的技術分類, 對主流技術和方法, 包括基于向量空間、基于主題模型、基于圖、基于神經網絡、基于表示學習的文本表示, 進行了分析、歸納和總結, 對基于事件、基于語義和基于知識的文本表示也進行了介紹. 對文本表示技術的發展趨勢和方向進行了預測和進一步討論. 以神經網絡為基礎的深度學習以及表示學習在文本表示中將發揮重要作用, 預訓練加調優的策略將逐漸成為主流, 文本表示需要具體問題具體分析, 技術和應用融合是推動力.
基于人工智能技術的人機對話系統在人機交互、智能助手、智能客服、問答咨詢等多個領域應用日益廣泛,這極大地促進了自然語言理解及生成、對話狀態追蹤和端到端的深度學習模型構建等相關理論與技術的發展,并成為目前工業界與學術界共同關注的研究熱點之一。該文聚焦特定場景下的任務型對話系統,在對其基本概念進行形式化定義的基礎上,圍繞著以最少的對話輪次來獲得最佳用戶需求相匹配的對話內容為目標,針對目前存在的復雜業務場景下基于自然語言的用戶意圖的準確理解和識別、針對訓練數據的標注依賴及模型結果的可解釋性不足,以及多模態條件下對話內容的個性化生成這三個重大的技術問題和挑戰,對當前的技術與研究進展進行系統地對比分析和綜述,為進一步的研究工作奠定基礎。同時,對新一代的面向任務型的人機對話系統未來的關鍵研究方向與任務進行總結。
知識圖譜問答是通過處理用戶提出的自然語言問題,基于知識圖譜的某種形式,從中獲取相關答案的過程。由于知識規模、計算能力及自然語言處理能力的制約,早期知識庫問答系統被應用于限定領域。近年來,隨著知識圖譜的發展,以及開放領域問答數據集的陸續提出,知識圖譜已用于開放領域問答研究與實踐。以技術發展為主線,對開放領域知識圖譜問答進行綜述。首先,介紹五種基于規則模板的開放領域知識圖譜問答方法:傳統語義解析、傳統信息檢索、三元組匹配、話語模板和查詢模板,這類方法主要依賴人工定義的規則模板完成問答工作。其次,描述五種基于深度學習的方法,這類方法采用神經網絡模型完成問答過程的各類子任務,包括知識圖譜嵌入、記憶網絡、基于神經網絡的語義解析、基于神經網絡的查詢圖、基于神經網絡的信息檢索。接著,介紹開放領域知識圖譜問答常用的4個通用領域知識圖譜和11個開放領域問答數據集。隨后,按照問題的難易程度選擇3個經典問答數據集比較各問答系統的性能指標,對比不同方法間的性能差異并進行分析。最后,展望開放領域知識圖譜問答的未來研究方向。
在目前已發表的自然語言處理預訓練技術綜述中,大多數文章僅介紹神經網絡預訓練技術或者極簡單介紹傳統預訓練技術,存在人為割裂自然語言預訓練發展歷程。為此,以自然語言預訓練發展歷程為主線,從以下四方面展開工作:首先,依據預訓練技術更新路線,介紹了傳統自然語言預訓練技術與神經網絡預訓練技術,并對相關技術特點進行分析、比較,從中歸納出自然語言處理技術的發展脈絡與趨勢;其次,主要從兩方面介紹了基于BERT改進的自然語言處理模型,并對這些模型從預訓練機制、優缺點、性能等方面進行總結;再者,對自然語言處理的主要應用領域發展進行了介紹,并闡述了自然語言處理目前面臨的挑戰與相應解決辦法;最后,總結工作,預測了自然語言處理的未來發展方向。旨在幫助科研工作者更全面地了解自然語言預訓練技術發展歷程,繼而為新模型、新預訓練方法的提出提供一定思路。
自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能夠實現人與電腦之間用自然語言進行有效通信的各種理論和方法,涉及所有用計算機對自然語言進行的操作。
//www.datascienceassn.org/sites/default/files/Natural%20Language%20Processing%20with%20Python.pdf
伯德、克萊恩、洛佩爾編著的這本《Python自然語言處理》是自然語言處理領域的一本實用入門指南,旨在幫助讀者學習如何編寫程序來分析書面語言。《Python自然語言處理》基于Python編程語言以及一個名為NLTK的自然語言工具包的開源庫,但并不要求讀者有Python編程的經驗。全書共11章,按照難易程度順序編排。第1章到第3章介紹了語言處理的基礎,講述如何使用小的Python程序分析感興趣的文本信息。第4章討論結構化程序設計,以鞏固前面幾章中介紹的編程要點。第5章到第7章介紹語言處理的基本原理,包括標注、分類和信息提取等。第8章到第10章介紹了句子解析、句法結構識別和句意表達方法。第11章介紹了如何有效管理語言數據。后記部分簡要討論了NLP領域的過去和未來。
《Python自然語言處理》的實踐性很強,包括上百個實際可用的例子和分級練習。《Python自然語言處理》可供讀者用于自學,也可以作為自然語言處理或計算語言學課程的教科書,還可以作為人工智能、文本挖掘、語料庫語言學等課程的補充讀物。
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。
近幾年,神經網絡因其強大的表征能力逐漸取代傳統的機器學習成為自然語言處理任務的基本模型。然而經典的神經網絡模型只能處理歐氏空間中的數據,自然語言處理領域中,篇章結構,句法甚至句子本身都以圖數據的形式存在。因此,圖神經網絡引起學界廣泛關注,并在自然語言處理的多個領域成功應用。該文對圖神經網絡在自然語言處理領域中的應用進行了系統性的綜述, 首先介紹了圖神經網絡的核心思想并梳理了三種經典方法: 圖循環網絡,圖卷積網絡和圖注意力網絡;然后在具體任務中,詳細描述了如何根據任務特性構建合適的圖結構以及如何合理運用圖結構表示模型。該文認為,相比專注于探索圖神經網絡的不同結構,探索如何以圖的方式建模不同任務中的關鍵信息,是圖神經網絡未來工作中更具普遍性和學術價值的一個研究方向。
深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊,但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然語言處理模型的安全問題.針對自然語言處理領域同樣面臨對抗樣本的風險,在闡明對抗樣本相關概念的基礎上,文中首先對基于深度學習的自然語言處理模型的復雜結構、難以探知的訓練過程和樸素的基本原理等脆弱性成因進行分析,進一步闡述了文本對抗樣本的特點、分類和評價指標,并對該領域對抗技術涉及到的典型任務和數據集進行了闡述;然后按照擾動級別對主流的字、詞、句和多級擾動組合的文本對抗樣本生成技術進行了梳理,并對相關防御方法進行了歸納總結;最后對目前自然語言處理對抗樣本領域攻防雙方存在的痛點問題進行了進一步的討論和展望.
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。
摘要: 近年來,隨著深度學習的快速發展,面向自然語言處理領域的預訓練技術獲得了長足的進步。早期的自然語言處理領域長期使用Word2Vec等詞向量方法對文本進行編碼,這些詞向量方法也可看作靜態的預訓練技術。然而,這種上下文無關的文本表示給其后的自然語言處理任務帶來的提升非常有限,并且無法解決一詞多義問題。ELMo提出了一種上下文相關的文本表示方法,可有效處理多義詞問題。其后,GPT和BERT等預訓練語言模型相繼被提出,其中BERT模型在多個典型下游任務上有了顯著的效果提升,極大地推動了自然語言處理領域的技術發展,自此便進入了動態預訓練技術的時代。此后,基于BERT的改進模型、XLNet等大量預訓練語言模型不斷涌現,預訓練技術已成為自然語言處理領域不可或缺的主流技術。文中首先概述預訓練技術及其發展歷史,并詳細介紹自然語言處理領域的經典預訓練技術,包括早期的靜態預訓練技術和經典的動態預訓練技術;然后簡要梳理一系列新式的有啟發意義的預訓練技術,包括基于BERT的改進模型和XLNet;在此基礎上,分析目前預訓練技術研究所面臨的問題;最后對預訓練技術的未來發展趨勢進行展望。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。