深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊,但目前對于對抗樣本的研究主要集中在計算機視覺領 域而忽略了自然語言處理模型的安全問題.針對自然語言處理領域同樣面臨對抗樣本的風險,在闡明對抗樣本相關概念的基 礎上,文中首先對基于深度學習的自然語言處理模型的復雜結構、難以探知的訓練過程和樸素的基本原理等脆弱性成因進行分析,進一步闡述了文本對抗樣本的特點、分類和評價指標,并對該領域對抗技術涉及到的典型任務和數據集進行了闡述;然后按 照擾動級別對主流的字、詞、句和多級擾動組合的文本對抗樣本生成技術進行了梳理,并對相關防御方法進行了歸納總結;最后 對目前自然語言處理對抗樣本領域攻防雙方存在的痛點問題進行了進一步的討論和展望.
近年來,深度學習技術得到了快速發展。在自然語言處理(NLP)任務中,隨著文本表征技術從詞級上升到了文檔級,利用大規模語料庫進行無監督預訓練的方式已被證明能夠有效提高模型在下游任務中的性能。首先,根據文本特征提取技術的發展,從詞級和文檔級對典型的模型進行了分析;其次,從預訓練目標任務和下游應用兩個階段,分析了當前預訓練模型的研究現狀,并對代表性的模型特點進行了梳理和歸納;最后,總結了當前預訓練模型發展所面臨的主要挑戰并提出了對未來的展望。
許多自然場景圖像中都包含著豐富的文本,他們對于場景理解有著重要的作用。隨著移動互聯網技術的飛速發展,許多新的應用場景都需要利用這些文本信息,例如招牌識別和自動駕駛等。因此,自然場景文本的分析與處理也越來越成為計算機視覺領域的研究熱點之一,該任務主要包括文本檢測與識別。傳統的文本檢測和識別方法依賴于人工設計的特征和規則,且模型設計復雜、效率低、泛化性能差。近年來隨著深度學習的發展,自然場景文本檢測、自然場景文本識別以及端到端的自然場景文本檢測與識別都取得了突破性的進展,其性能和效率都得到了顯著提高。本文介紹了該領域相關的研究背景,對近幾年基于深度學習的自然場景文本檢測、識別以及端到端自然場景文本檢測與識別的方法進行整理分類、歸納和總結,闡述了各類方法的基本思想和優缺點。并針對隸屬于不同類別下的方法,進一步論述和分析這些主要模型的算法流程、適用場景和他們的技術發展路線。此外還列舉說明了一些主流公開數據集,并對比了各個模型方法在代表性數據集上的性能情況。最后本文總結了目前不同場景數據下的自然場景文本檢測、識別以及端到端自然場景文本檢測與識別算法的局限性以及未來的挑戰和發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2023&journal_id=jig
近年來深度學習在圖像、語音、自然語言處理等諸多領域得到廣泛應用,但隨著人們對深度學習的訓練速度和數據處理能力的需求不斷提升,傳統的基于單機的訓練過程愈發難以滿足要求,分布式的深度學習訓練方法成為持續提升算力的有效途徑.其中訓練過程中節點間網絡的通信性能至關重要,直接影響訓練性能.分析了分布式深度學習中的性能瓶頸,在此基礎上對目前常用的網絡性能優化方案進行綜述,詳細闡述了目前最新的超大規模分布式訓練的體系結構、優化方法、訓練環境和最有效的優化方法,最后對分布式訓練仍然存在的困難進行了總結,對其未來研究方向進行了展望.
深度學習作為人工智能技術的重要組成部分,被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能,但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅,進而影響了模型的安全性。在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測與防御方法,并闡述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,展望對抗攻擊與防御領域未來的研究方向。
摘要: 深度學習作為人工智能技術的重要組成部分,被廣泛應用在計算機視覺、自然語言處理等領域。盡管深 度學習在圖像分類和目標檢測等方向上取得了較好性能,但研究表明,對抗攻擊的存在對深度學習模型的安全應 用造成了潛在威脅,進而影響模型的安全性。本文在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊 的主要思路,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測方法與防御方法,并從應用角度闡 述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,預測未來對抗攻擊與防御的 研究方向。
近年來,隨著web2.0的普及,使用圖挖掘技術進行異常檢測受到人們越來越多的關注.圖異常檢測在欺詐檢測、入侵檢測、虛假投票、僵尸粉絲分析等領域發揮著重要作用.本文在廣泛調研國內外大量文獻以及最新科研成果的基礎上,按照數據表示形式將面向圖的異常檢測劃分成靜態圖上的異常檢測與動態圖上的異常檢測兩大類,進一步按照異常類型將靜態圖上的異常分為孤立個體異常和群組異常檢測兩種類別,動態圖上的異常分為孤立個體異常、群體異常以及事件異常三種類型.對每一類異常檢測方法當前的研究進展加以介紹,對每種異常檢測算法的基本思想、優缺點進行分析、對比,總結面向圖的異常檢測的關鍵技術、常用框架、應用領域、常用數據集以及性能評估方法,并對未來可能的發展趨勢進行展望.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6100&flag=1
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
如今,深度學習已被廣泛應用于圖像分類和圖像識別的問題中,取得了令人滿意的實際效果,成為許多人工智能應用的關鍵所在.在對于模型準確率的不斷探究中,研究人員在近期提出了“對抗樣本”這一概念.通過在原有樣本中添加微小擾動的方法,成功地大幅度降低原有分類深度模型的準確率,實現了對于深度學習的對抗目的,同時也給深度學習的攻方提供了新的思路,對如何開展防御提出了新的要求.在介紹對抗樣本生成技術的起源和原理的基礎上,對近年來有關對抗樣本的研究和文獻進行了總結,按照各自的算法原理將經典的生成算法分成兩大類——全像素添加擾動和部分像素添加擾動.之后,以目標定向和目標非定向、黑盒測試和白盒測試、肉眼可見和肉眼不可見的二級分類標準進行二次分類.同時,使用MNIST數據集對各類代表性的方法進行了實驗驗證,以探究各種方法的優缺點.最后總結了生成對抗樣本所面臨的挑戰及其可以發展的方向,并就該技術的發展前景進行了探討.
摘要: 在自然語言處理領域,信息抽取一直以來受到人們的關注.信息抽取主要包括3項子任務:實體抽取、關系抽取和事件抽取,而關系抽取是信息抽取領域的核心任務和重要環節.實體關系抽取的主要目標是從自然語言文本中識別并判定實體對之間存在的特定關系,這為智能檢索、語義分析等提供了基礎支持,有助于提高搜索效率,促進知識庫的自動構建.綜合闡述了實體關系抽取的發展歷史,介紹了常用的中文和英文關系抽取工具和評價體系.主要從4個方面展開介紹了實體關系抽取方法,包括:早期的傳統關系抽取方法、基于傳統機器學習、基于深度學習和基于開放領域的關系抽取方法,總結了在不同歷史階段的主流研究方法以及相應的代表性成果,并對各種實體關系抽取技術進行對比分析.最后,對實體關系抽取的未來重點研究內容和發展趨勢進行了總結和展望.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190358#1
在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。