摘要: 問題生成是指機器主動對一段文本進行提問,生成一個自然語言的問題。神經問題生成則是完全采用端到端的訓練方式,使用神經網絡完成文檔和答案到問題的轉換,是自然語言處理中一個新興而又重要的研究方向。文中首先對神經問題生成進行了簡單介紹,包括基本概念、主流框架和評價方法。接著介紹了該研究方向的關鍵問題,包括輸入建模、長文本處理、多任務學習、機器學習方法的應用、其他研究問題和改進點。最后,介紹了問題生成和問答系統的關系,以及問題生成的未來研究方向。
在目前已發表的自然語言處理預訓練技術綜述中,大多數文章僅介紹神經網絡預訓練技術或者極簡單介紹傳統預訓練技術,存在人為割裂自然語言預訓練發展歷程。為此,以自然語言預訓練發展歷程為主線,從以下四方面展開工作:首先,依據預訓練技術更新路線,介紹了傳統自然語言預訓練技術與神經網絡預訓練技術,并對相關技術特點進行分析、比較,從中歸納出自然語言處理技術的發展脈絡與趨勢;其次,主要從兩方面介紹了基于BERT改進的自然語言處理模型,并對這些模型從預訓練機制、優缺點、性能等方面進行總結;再者,對自然語言處理的主要應用領域發展進行了介紹,并闡述了自然語言處理目前面臨的挑戰與相應解決辦法;最后,總結工作,預測了自然語言處理的未來發展方向。旨在幫助科研工作者更全面地了解自然語言預訓練技術發展歷程,繼而為新模型、新預訓練方法的提出提供一定思路。
自然語言生成(NLG)技術利用人工智能和語言學的方法來自動地生成可理解的自然語言文本。NLG降低了人類和計算機之間溝通的難度,被廣泛應用于機器新聞寫作、聊天機器人等領域,已經成為人工智能的研究熱點之一。首先,列舉了當前主流的NLG的方法和模型,并詳細對比了這些方法和模型的優缺點;然后,分別針對文本到文本、數據到文本和圖像到文本等三種NLG技術,總結并分析了應用領域、存在的問題和當前的研究進展;進而,闡述了上述生成技術的常用評價方法及其適用范圍;最后,給出了當前NLG技術的發展趨勢和研究難點。
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。
在當前大規模數據檢索任務中,學習型哈希方法能夠學習緊湊的二進制編碼,在節省存儲空間的同時能快速地計算海明空間內的相似度,因此近似最近鄰檢索常使用哈希的方式來完善快速最近鄰檢索機制。對于目前大多數哈希方法都采用離線學習模型進行批處理訓練,在大規模流數據的環境下無法適應可能出現的數據變化而使得檢索效率降低的問題,提出在線哈希方法并學習適應性的哈希函數,從而在輸入數據的過程中連續學習,并且能實時地應用于相似性檢索。首先,闡釋了學習型哈希的基本原理和實現在線哈希的內在要求;接著,從在線條件下流數據的讀取模式、學習模式以及模型更新模式等角度介紹在線哈希不同的學習方式;而后,將在線學習算法分為六類:基于主-被動算法、基于矩陣分解技術、基于無監督聚類、基于相似性監督、基于互信息度量和基于碼本監督,并且分析這些算法的優缺點及特點;最后,總結和討論了在線哈希的發展方向。
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
句法分析的目標是分析輸入句子并得到其句法結構,是自然語言處理領域的經典任務之一。目前針對該任務的研究主要集中于如何通過從數據中自動學習來提升句法分析器的精度。該文對句法分析方向的前沿動態進行了調研,分別從有監督句法分析、無監督句法分析和跨領域跨語言句法分析三個子方向梳理和介紹了2018—2019年發表的新方法和新發現,并對句法分析子方向的研究前景進行了分析和展望。
摘要:近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
機器翻譯是指通過計算機將源語言句子翻譯到與之語義等價的目標語言句子的過程,是自然語言處理領域的一個重要研究方向。神經機器翻譯僅需使用神經網絡就能實現從源語言到目標語言的端到端翻譯,目前已成為機器翻譯研究的主流方向。該文選取了近期神經機器翻譯的幾個主要研究領域,包括同聲傳譯、多模態機器翻譯、非自回歸模型、篇章翻譯、領域自適應、多語言翻譯和模型訓練,并對這些領域的前沿研究進展做簡要介紹。
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。