摘要:Web 2.0時代,消費者在在線購物、學習和娛樂時越來越多地依賴在線評論信息,而虛假的評論會誤導消費者的決策,影響商家的真實信用,因此有效識別虛假評論具有重要意義。文中首先對虛假評論的范圍進行了界定,并從虛假評論識別、形成動機、對消費者的影響以及治理策略4個方面歸納了虛假評論的研究內容,給出了虛假評論研究框架和一般識別方法的工作流程。然后從評論文本內容和評論者及其群組行為兩個角度,對近十年來國內外的相關研究成果進行了綜述,介紹了虛假評論效果評估的相關數據集和評價指標,統計分析了在公開數據集上實現的虛假評論有效識別方法,并從特征選取、模型方法、訓練數據集、評價指標值等方面進行了對比分析。最后對虛假評論識別領域的有標注語料規模限制等未來研究方向進行了探討。
文本情感分析是自然語言處理領域的一個重要分支,廣泛應用于輿情分析和內容推薦等方面,是近 年來的研究熱點。根據使用的不同方法,將其劃分為基于情感詞典的情感分析方法、基于傳統機器學習的情 感分析方法、基于深度學習的情感分析方法。通過對這三種方法進行對比,分析其研究成果,并對不同方法 的優缺點進行歸納總結,介紹相關數據集和評價指標,及應用場景,對情感分析子任務進行簡單概括,發現 將來的情感分析問題的研究趨勢及應用領域,并為研究者在相關領域方面提供一定的幫助和指導。
強化學習(ReinforcementLearning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與 環境進行交互來學習,最終將累積收益最大化.常用的強化學習算法分為模型化強化學習(ModelGbasedReinforcementLearG ning)和無模型強化學習(ModelGfreeReinforcementLearning).模型化強化學習需要根據真實環境的狀態轉移數據來預定義 環境動態模型,隨后在通過環境動態模型進行策略學習的過程中無須再與環境進行交互.在無模型強化學習中,智能體通過與 環境進行實時交互來學習最優策略,該方法在實際任務中具有更好的通用性,因此應用范圍更廣.文中對無模型強化學習的最 新研究進展與發展動態進行了綜述.首先介紹了強化學習、模型化強化學習和無模型強化學習的基礎理論;然后基于價值函數 和策略函數歸納總結了無模型強化學習的經典算法及各自的優缺點;最后概述了無模型強化學習在游戲 AI、化學材料設計、自 然語言處理和機器人控制領域的最新研究現狀,并對無模型強化學習的未來發展趨勢進行了展望.
摘要: 當前,以網絡數據為代表的跨媒體數據呈現爆炸式增長的趨勢,呈現出了跨模態、跨數據源的復雜關聯及動態演化特性,跨媒體分析與推理技術針對多模態信息理解、交互、內容管理等需求,通過構建跨模態、跨平臺的語義貫通與統一表征機制,進一步實現分析和推理以及對復雜認知目標的不斷逼近,建立語義層級的邏輯推理機制,最終實現跨媒體類人智能推理。文中對跨媒體分析推理技術的研究背景和發展歷史進行概述,歸納總結視覺-語言關聯等任務的關鍵技術,并對研究應用進行舉例。基于已有結論,分析目前跨媒體分析領域所面臨的關鍵問題,最后探討未來的發展趨勢。
近年來,互聯網技術的蓬勃發展極大地便利了人類的日常生活,不可避免的是互聯網中的信息呈井噴式爆發,如何從中快速有效地獲取所需信息顯得極為重要.自動文本摘要技術的出現可以有效緩解該問題,其作為自然語言處理和人工智能領域的重要研究內容之一,利用計算機自動地從長文本或文本集合中提煉出一段能準確反映源文中心內容的簡潔連貫的短文.探討自動文本摘要任務的內涵,回顧和分析了自動文本摘要技術的發展,針對目前主要的2種摘要產生形式(抽取式和生成式)的具體工作進行了詳細介紹,包括特征評分、分類算法、線性規劃、次模函數、圖排序、序列標注、啟發式算法、深度學習等算法.并對自動文本摘要常用的數據集以及評價指標進行了分析,最后對其面臨的挑戰和未來的研究趨勢、應用等進行了預測.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20190785
21世紀互聯網快速發展,文本數據呈指數級增長,用戶如何快速有效地從海量信息中提煉出所需的有用資料,已經成為一個亟待解決的問題.自動文本摘要(automaticsummarization)技術,又被稱為自動文摘,它的出現恰逢其時,為用戶提供簡潔而不丟失原意的信息,可以有效地降低用戶的信息負擔、提高用戶的信息獲取速度,將用戶從繁瑣、冗余的信息中解脫出來,節省了大量的人力物力,在信息檢索、輿情分析、內容審查等領域具有較高的研究價值.
早期的文本摘要普遍是通過人工來完成的,文本數據量的激增使得這項工作日漸繁重且效率低下,逐漸不能滿足用戶的需求.近年來,隨著對非結構化文本數據研究的進展,自動文摘任務得到了廣泛的關注和研究,其已成為自然語言處理領域的研究熱點之一.學術界涌現出大量圍繞算法技術、數據集、評價指標和系統的相關工作,這些工作在一定程度上取得了較好的效果,快速應用到金融、新聞、醫學、媒體等各個領域,如社交媒體摘要[1]、新聞摘要[2]、專利摘要[3]、觀點摘要[4]以及學術文獻摘要[5].盡管如此,目前計算機自動產生的摘要還遠不能達到人工摘要的質量,在該任務上還有很大的提升空間,仍需要相關研究者進一步探索有效的自動文摘技術.
目前已有一些文獻對自動文摘任務進行了調研和評估.在早期的工作中,萬小軍等人[6]首次將自動文摘的研究工作從內容表示、權重計算、內容選擇、內容組織4個角度進行了深度剖析,并對發展趨勢進行了展望,為之后的研究工作打下了良好的基礎.王俊麗等人[7]則主要針對抽取式自動文摘的圖排序算法進行了介紹.曹洋等人[8]重點分析了3種主要的機器學習算法在自動文摘中的應用.此外,還有一些相關的研究工作,但他們基本僅針對自動文摘中的單個技術方向進行詳細綜述,經過調研發現目前尚缺乏對自動文摘任務進行全面的研究綜述.
基于此,為了便于研究者在現有研究工作的基礎上取得更好的進展,非常有必要對目前自動文摘的研究成果進行全面的分析和總結.因此,我們查閱整理了近年來學術界相關的研究工作,包括自然語言處理、人工智能等相關領域的國際會議和學術期刊,對這些研究成果按照摘要產生的技術算法進行了詳細的分類以及優缺點的對比與總結.除此之外,本文對自動文本摘要研究常用的數據集、評價方法進行歸納總結,最后對自動文摘任務未來的研究趨勢進行展望與總結.
隨著人工智能技術的深入發展,自動駕駛已經成為人工智能技術的典型應用,近十年得到了長足的發展,作為一類非確定性系統,自動駕駛車輛的質量和安全性得到越來越多的關注.對自動駕駛系統,特別是自動駕駛智能系統(如感知模塊,決策模塊,綜合功能及整車)的測試技術得到了業界和學界的深入研究.本文調研了56篇相關領域的學術論文,分別就感知模塊、決策模塊、綜合功能模塊及整車系統的測試技術、用例生成方法和測試覆蓋度量等維度對目前已有的研究成果進行了梳理,并描述了自動駕駛智能系統測試中的數據集及工具集.最后,對自動駕駛智能系統測試的未來工作進行了展望,為該領域的研究人員提供參考.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6266&flag=1
隨著信息技術的快速發展,網絡攻擊逐漸呈現多階段、分布式和智能化的特性,單一的防火墻、入侵檢測系統等傳統網絡防御措施不能很好地保護開放環境下的網絡系統安全。網絡攻擊模型作為一種攻擊者視角的攻擊場景表示,能夠綜合描述復雜多變環境下的網絡攻擊行為,是常用的網絡攻擊分析與應對工具之一。本文首先介紹主要網絡攻擊模型,包括傳統樹、圖、網結構模型和現代殺傷鏈、ATT&CK、鉆石模型等;然后再對網絡攻擊模型的分析與應用進行說明,其中以求解攻擊指標為目的的分析過程主要包括概率框架、賦值方法和求解方法,基于生命周期的攻擊模型應用則包括了攻擊者視角和防守者視角的應用過程;最后總結了網絡攻擊模型及其分析應用的現有挑戰與未來方向。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190278
機器翻譯是指通過計算機將源語言句子翻譯到與之語義等價的目標語言句子的過程,是自然語言處理領域的一個重要研究方向。神經機器翻譯僅需使用神經網絡就能實現從源語言到目標語言的端到端翻譯,目前已成為機器翻譯研究的主流方向。該文選取了近期神經機器翻譯的幾個主要研究領域,包括同聲傳譯、多模態機器翻譯、非自回歸模型、篇章翻譯、領域自適應、多語言翻譯和模型訓練,并對這些領域的前沿研究進展做簡要介紹。
摘要: 大數據時代,數據呈現維度高、數據量大和增長快等特點。如何有效利用其中蘊含的有價值信息,以實現數據的智能化處理,已成為當前理論和應用的研究熱點。針對現實普遍存在的多義性對象,數據多標簽被提出并被廣泛應用于數據智能化組織。近年來,深度學習在數據特征提取方面呈現出高速、高精度等優異性,使基于深度學習的多標簽生成得到廣泛關注。文中分五大類別總結了最新研究成果,并進一步從數據、關系類型、應用場景、適應性及實驗性能方面對其進行對比和分析,最后探討了多標簽生成面臨的挑戰和未來的研究方向。