摘要
利用面向可視化的自然語言界面(V-NLI)作為直接操作可視化分析的補充輸入方式,可以提供吸引人的用戶體驗。它使用戶能夠專注于他們的任務,而不是擔心操作可視化工具的界面。在過去的二十年中,特別是最近幾年,利用先進的自然語言處理技術,許多V-NLI系統在學術研究和商業軟件中得到了開發。在本文中,我們對現有的V-NLIs進行了全面的回顧。為了對每篇論文進行分類,我們在經典的信息可視化管道的基礎上,擴展了V-NLI層,開發了分類維度。使用了以下七個階段: 查詢理解、數據轉換、可視化映射、視圖轉換、人工交互、上下文管理和表示。最后,我們還闡明了未來社區工作的幾個有前途的方向。
引言
交互式可視化在數據分析領域變得越來越流行。作為分析套件的一個常見組成部分,Windows、圖標、菜單和指針(WIMP)界面被廣泛應用于當前的實踐中,以促進交互式可視化分析。然而,這種交互模式在可視化工具中呈現出陡峭的學習曲線,因為它要求用戶將其分析意圖轉化為特定工具的操作[127],如圖1的上半部分所示。
多年來,自然語言處理(Natural Language Processing, NLP)技術的快速發展為探索基于自然語言的數據可視化交互范式[18][277]提供了巨大的機遇。在高級NLP工具包[1],[3],[21],[83],[156]的幫助下,面向可視化的自然語言界面(V-NLI)最近作為傳統WIMP交互的補充輸入方式出現了,它支持根據用戶的NL查詢生成可視化。V-NLI的出現,極大地提高了可視化工具的可用性:(a)便捷、新手友好。自然語言是公眾掌握的一種技能。通過利用自然語言與計算機交互,V-NLI向用戶關閉特定于工具的操作,如圖1所示,為新手提供了方便的分析流程。(b)直觀有效。人們一致認為,當用戶能夠專注于他們的數據而不是分析工具的界面操作時,可視化分析是最有效的[85]。在V-NLI的幫助下,用戶可以用自己的語言表達自己的分析任務。(c)人文關懷。如今,我們獲取的大量信息都是通過視覺手段獲得的。V-NLI是一種創新的非視覺訪問方式,促進了盲人和低視力(BLV)人群的參與。
V-NLI的時間線如圖2所示。早在2001年,Cox等人[41]提出了用于可視化的NLI的初始原型,該原型只能接受結構良好的查詢。大約十年后,清晰地[241]引入了一個兩步過程,從NL查詢創建可視化。它首先提取用戶的分析任務和數據屬性,然后根據這些信息自動確定適當的可視化。雖然早期的研究是一個有希望的開始,但由于自然語言還不是一種普遍的交互方式,VNLI系統被限制在簡單的原型。然而,自從蘋果將Siri[221]集成到iPhone之后,NLIs開始受到更多的關注。2013年前后,單詞嵌入技術的出現[162]推動了神經網絡用于自然語言處理的發展,從而重新燃起了V-NLI的商業興趣。IBM在2014年首次發布了基于nl的認知服務Watson Analytics[4]。微軟Power BI的Q&A[5]和Tableau的Ask數據[2]分別于2018年和2019年發布,提供了自動補全、未指定語句推理等多種功能。DataTone[64]首先引入了歧義小部件來管理查詢中的歧義,而Eviza[207]則探索了分析性對話。經過幾年的技術積累,近五年出現了V-NLI的爆發(每年發表論文數見圖2)。隨著硬件設備的發展,協同多模態可視化界面獲得了顯著的興趣。Orko[234]是第一個在平板設備上結合觸摸和語音輸入的系統,Data@Hand[278]專注于智能手機。InChorus[229]將筆作為第三種形式來實現一致的互動體驗。經過訓練的語言模型在2018年以來的各種NLP任務中獲得了最新的研究結果,這為V-NLI[51],[181]提供了極大的提高智能的機會。Quda[62]和NLV[231]貢獻了用于可視化數據分析的NL查詢數據集,nvBench產生了第一個V-NLI基準[150]。ADVISor[142]和ncNet[149]是基于深度學習的V-NLI解決方案。除了數據探索,FlowSense[280]還使用V-NLI增強了基于數據流的可視化系統。NL4DV[174]工具包可以很容易地集成到現有的可視化系統中,以提供V-NLI服務。
關于V-NLI的研究文獻正在迅速發展,涉及可視化(VIS)、人機交互(HCI)、自然語言處理(NLP)和數據挖掘與管理(DMM)等方面。因此,越來越需要更好地組織研究景觀,對當前工作進行分類,確定知識差距,并幫助對這一日益增長的領域不熟悉的人理解社區中的挑戰和微妙之處。為此目的,以前曾作出幾次努力總結這方面的進展。例如,Srinivasan和Stasko (EuroVis 2017[233]的短論文)對5個現有的V-NLI系統進行了簡單的調研,基于它們允許用戶執行的任務進行了比較和對比。他們(CGA 2020期刊論文[235])進一步強調了評估V-NLI的關鍵挑戰,并討論了三種流行的任務框架策略在應用時的好處和考慮。雖然這兩項綜述可以為后續研究提供有價值的指導,但隨著近年來V-NLI的爆發,仍有相當多的新工作需要報道,細節有待討論。就我們所知,本文是對V-NLI進行系統全面回顧的第一步。
摘要: 數據庫自然語言接口(natural language interface to database, NLIDB)能夠憑借自然語言描述實現數據庫查詢操作,是促進用戶無障礙地與數據庫交互的重要工具.因為NLIDB具有較高的應用價值,近年來一直受到學術與商業領域的關注.目前成熟的NLIDB系統大部分基于經典自然語言處理方法,即通過指定的規則實現自然語言查詢到結構化查詢的轉化.但是基于規則的方法仍然存在拓展性不強的缺陷.深度學習方法具有分布式表示和深層次抽象表示等優勢,能深入挖掘自然語言中潛在的語義特征.因此近年來在NLIDB中,引入深度學習技術成為了熱門的研究方向.針對基于深度學習的NLIDB研究進展進行總結:首先以解碼方法為依據,將現有成果歸納為4種類型分別進行分析;然后匯總了7種模型中常用的輔助方法;最后根據目前尚待解決的問題,提出未來仍需關注的研究方向.
這本典型的數據結構課程,介紹了基本的數據結構和算法的集合,可以使用任何不同的編程語言進行教學。近年來,越來越多的學院開始采用Python語言向學生介紹編程和問題解決。與c++和Java等其他語言相比,Python提供了一些優勢,其中最重要的是Python有一個簡單的語法,更容易學習。本書通過為數據結構課程提供以Python為中心的文本,擴展了Python的使用。該語言干凈的語法和強大的特性貫穿始終,但這些特性的底層機制也得到了充分的探索,不僅揭示了“魔力”,而且研究了它們的總體效率。正文由14章和4個附錄組成。前四章介紹了與抽象數據類型、數據結構和算法相關的基本概念。后面的章節將在這些早期概念的基礎上介紹更高級的主題,并向學生介紹更多的抽象數據類型和更高級的數據結構。這本書包含了幾個主題的線索,在整個文本中,主題是重新訪問在不同的章節作為適當的。
摘要
科技的新時代讓人們可以方便地在各種平臺上分享自己的觀點。這些平臺為用戶提供了多種形式的表達方式,包括文本、圖像、視頻和音頻。然而,這使得用戶很難獲得關于一個主題的所有關鍵信息,使得自動多模態摘要(MMS)的任務必不可少。在本文中,我們對MMS領域的現有研究進行了全面的綜述。
//www.zhuanzhi.ai/paper/505f92ea3f81f199063a75af8f594fdf
引言
每天,互聯網都充斥著來自多個來源的大量新信息。由于技術的進步,人們現在可以以多種格式共享信息,并使用多種通信模式供他們使用。互聯網上日益增多的內容使得用戶很難從大量的資源中獲取有用的信息,因此有必要研究多模態摘要,與純文本摘要相比,視覺摘要平均能提高12.4%的用戶滿意度。事實上,幾乎每一個內容共享平臺提供陪一個觀點或事實以多種媒體形式,和每一個手機都有這個功能的設施表明多式的通訊手段的優越性的緩解在傳達和理解信息。
多模態輸入形式的信息已被用于除摘要之外的許多任務,包括多模態機器翻譯[11,21,22,39,108]、多模態移動預測[18,53,120]、電子商務產品分類[128]、多模態交互式人工智能框架[51]、多模態表情預測[5,17],多模態框架識別[10],多模態金融風險預測[59,101],多模態情感分析[79,93,122],多模態命名身份識別[2,77,78,109,126,130],多模態視頻描述生成[37,38,91],多模態產品標題壓縮[70]和多模態生物特征認證[28,42,106]。多模態信息處理和檢索任務的應用可能性是相當可觀的。多通道研究還可用于其他密切相關的研究問題,如圖像描述[14,15]、圖像到圖像的翻譯[40]、抗震路面試驗[94]、美學評價[55,67,129]和視覺問答[49]。
文本摘要是自然語言處理(NLP)和信息檢索(IR)領域最古老的問題之一,由于其具有挑戰性和廣泛的應用前景,引起了眾多研究者的關注。文本摘要的研究可以追溯到六十多年前[69]。NLP和IR社區通過開發無數的技術和模型體系結構來解決針對多個應用的文本摘要研究。作為這個問題的延伸,多模態摘要結的問題增加了另一個角度,結合了視覺和聽覺方面的混合,使任務更有挑戰性和有趣的處理。將多種模態納入摘要問題的擴展擴展了問題的廣度,導致任務的應用范圍更廣。近年來,多模態摘要經歷了許多新的發展(參見圖1關于MMS趨勢的統計),包括新數據集的發布,處理MMS任務的技術的進步,以及更合適的評估指標的建議。多模態摘要的思想是一個相當靈活的,包含了輸入和輸出方式的廣泛可能性,也使得單模態摘要技術的知識很難理解MMS任務的現有工作。這就需要對多模態摘要進行調研。
MMS任務與任何單模態摘要任務一樣,是一個要求很高的任務,且存在多個正確解,因此非常具有挑戰性。創建多模態摘要的人必須使用他們之前的理解和外部知識來生成內容。建立計算機系統來模仿這種行為變得困難,因為它們內在缺乏人類的感知和知識,使自動多模態摘要的問題成為一項重要但有趣的任務。盡管有相當多的調研論文是針對單模態摘要任務撰寫的,包括文本摘要[31,32,81,112,124]和視頻摘要[6,41,52,76,102],以及多模態研究[3,4,43,90,103,107]的調研論文。然而,據我們所知,我們是第一個提出多模摘要的調研。通過這份手稿,我們統一和系統化的信息在相關的工作,包括數據集,方法論,和評價技術。通過這項調研,我們旨在幫助研究人員熟悉各種技術和資源,以進行多模式摘要領域的研究。
多模態摘要方法
許多研究嘗試使用有監督和無監督技術來解決MMS任務。在本節中,我們試圖以一種通用的方式描述MMS框架,闡明不同方法的細微差別。由于所使用的各種輸入、輸出和技術跨越了一個很大的可能性范圍,我們將分別描述每一個可能性。我們將這一節分為三個階段:預處理、主模型和后處理。
預處理:在多模態環境中,預處理是至關重要的一步,因為它涉及從不同模態中提取特征。每個輸入模態都使用模態特征提取技術進行處理。盡管有些工作傾向于使用自己提出的模型來學習數據的語義表示,但幾乎所有的作品都遵循相同的預處理步驟。由于相關的作品有不同的輸入模態,我們分別描述了每種模態的預處理技術。
主模型:利用提取的特征來執行MMS任務已經采用了很多不同的技術。圖3顯示了研究人員解決MMS任務所采用的技術分析。我們已經嘗試了幾乎所有最近的架構,主要集中在以文本為中心的輸出摘要。在以文本為中心形式的方法中,相鄰形式被視為文本摘要的補充,通常在后處理步驟中被選擇(章節4.3)。
后處理:后期處理大部分現有工作無法生成多模態摘要。生成的系統綜合總結有一個內置的系統能產生多通道輸出(主要是通過生成文本使用seq2seq機制和選擇相關圖片)(61、134)或者他們采取一些后處理步驟,獲得視覺和聲音補充劑生成的文本摘要[133]。神經網絡模型使用多模態注意力機制來確定每個輸入情況的模態相關性,用于選擇最合適的圖像[12,133]。更準確地說,使用視覺覆蓋評分(在最后解碼步驟之后),即生成文本摘要時的注意力值之和,來確定最相關的圖像。根據任務需要,可以提取單幅圖像[133],也可以提取多幅圖像[13]來補充文本。
由于技術的進步,人們可以方便地以多種方式創建和共享信息,這在十年前是不可能的。由于這種進步,對多模態摘要的需求正在增加。我們提出了一項調研,以幫助熟悉用戶的工具和技術目前的MMS任務。在這份手稿中,我們正式定義了多模態摘要的任務,我們還根據各種輸入、輸出和技術相關的細節,對現有的作品進行了廣泛的分類。然后,我們包括用于處理MMS任務的數據集的全面描述。此外,我們還簡要描述了用于解決MMS任務的各種技術,以及用于判斷產生的摘要質量的評價指標。最后,本文還提出了MMS研究的幾個可能方向。我們希望這篇調研論文能夠對多模態摘要的研究起到重要的推動作用。
聯邦學習旨在在不犧牲本地數據隱私的情況下,從多個分散的邊緣設備(例如移動設備)或服務器中學習機器學習模型。最近的自然語言處理技術依賴于深度學習和大型預訓練語言模型。然而,大型深度神經模型和語言模型都是用大量數據訓練的,這些數據通常位于服務器端。由于文本數據廣泛來自最終用戶,在這項工作中,我們研究了最近使用聯邦學習作為學習框架的 NLP 模型和技術。我們的綜述討論了聯邦自然語言處理的主要挑戰,包括算法挑戰、系統挑戰以及隱私問題。我們還對現有的聯邦 NLP 評估方法和工具進行了嚴格審查。最后,我們強調了當前的研究差距和未來的方向。
自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能夠實現人與電腦之間用自然語言進行有效通信的各種理論和方法,涉及所有用計算機對自然語言進行的操作。
//www.datascienceassn.org/sites/default/files/Natural%20Language%20Processing%20with%20Python.pdf
伯德、克萊恩、洛佩爾編著的這本《Python自然語言處理》是自然語言處理領域的一本實用入門指南,旨在幫助讀者學習如何編寫程序來分析書面語言。《Python自然語言處理》基于Python編程語言以及一個名為NLTK的自然語言工具包的開源庫,但并不要求讀者有Python編程的經驗。全書共11章,按照難易程度順序編排。第1章到第3章介紹了語言處理的基礎,講述如何使用小的Python程序分析感興趣的文本信息。第4章討論結構化程序設計,以鞏固前面幾章中介紹的編程要點。第5章到第7章介紹語言處理的基本原理,包括標注、分類和信息提取等。第8章到第10章介紹了句子解析、句法結構識別和句意表達方法。第11章介紹了如何有效管理語言數據。后記部分簡要討論了NLP領域的過去和未來。
《Python自然語言處理》的實踐性很強,包括上百個實際可用的例子和分級練習。《Python自然語言處理》可供讀者用于自學,也可以作為自然語言處理或計算語言學課程的教科書,還可以作為人工智能、文本挖掘、語料庫語言學等課程的補充讀物。
生成對抗網絡(GAN)已經在計算機視覺、自然語言處理等領域推廣了各種應用,因為它的生成模型能夠從現有的樣本分布中合理地生成真實的例子。GAN不僅在基于數據生成的任務上提供了令人印象深刻的性能,而且由于其博弈優化策略,也為面向隱私和安全的研究提供了有利條件。遺憾的是,目前并沒有對GAN在隱私和安全方面進行全面的綜述,這也促使了本文對這些最新的研究成果進行系統的總結。現有的作品根據隱私和安全功能進行適當的分類,并對其優缺點進行綜合分析。鑒于GAN在隱私和安全方面仍處于非常初級的階段,并提出了有待解決的獨特挑戰,本文還闡述了GAN在隱私和安全方面的一些潛在應用,并闡述了未來的一些研究方向。
生成對抗網絡(Generative Adversarial Networks, GAN)帶來的技術突破迅速對機器學習及其相關領域產生了革命性的影響,這種影響已經蔓延到各個研究領域和應用領域。作為一種強大的生成框架,GAN顯著促進了許多復雜任務的應用,如圖像生成、超分辨率、文本數據操作等。最近,利用GAN為嚴重的隱私和安全問題制定優雅的解決方案,由于其博弈優化策略,在學術界和業界都變得越來越流行。本綜述的目的是提供一個關于GAN的全面的回顧和深入總結的最新技術,并討論了一些GAN在隱私和安全領域有前途的未來研究方向。我們以對GAN的簡要介紹開始我們的綜述。
摘要: 當前,以網絡數據為代表的跨媒體數據呈現爆炸式增長的趨勢,呈現出了跨模態、跨數據源的復雜關聯及動態演化特性,跨媒體分析與推理技術針對多模態信息理解、交互、內容管理等需求,通過構建跨模態、跨平臺的語義貫通與統一表征機制,進一步實現分析和推理以及對復雜認知目標的不斷逼近,建立語義層級的邏輯推理機制,最終實現跨媒體類人智能推理。文中對跨媒體分析推理技術的研究背景和發展歷史進行概述,歸納總結視覺-語言關聯等任務的關鍵技術,并對研究應用進行舉例。基于已有結論,分析目前跨媒體分析領域所面臨的關鍵問題,最后探討未來的發展趨勢。
本文從互補學習系統理論的角度提出了一種新的閱讀理解雙向認知知識框架(BCKF)。它旨在模擬大腦中兩種回答問題的思維方式,包括逆向思維和慣性思維。為了驗證該框架的有效性,我們設計了一個相應的雙向認知思維網絡(BCTN),對文章進行編碼,生成一個給定答案(問題)的問題(答案),并對雙向知識進行解耦。該模型具有逆向推理的能力,有助于慣性思維產生更準確的答案。在DuReader數據集中觀察到有效地改善,證實了我們的假設,即雙向知識有助于QA任務。同時,這個新穎的框架也展示了機器閱讀理解和認知科學的一個有趣的視角。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。