摘要: 隨著互聯網上多媒體數據的爆炸式增長,單一模態的檢索已經無法滿足用戶需求,跨模態檢索應運而生。跨模態檢索旨在以一種模態的數據去檢索另一種模態的相關數據,其核心任務是數據特征提取和不同模態間數據的相關性度量。文中梳理了跨模態檢索領域近期的研究進展,從傳統方法、深度學習方法、手工特征的哈希編碼方法以及深度學習的哈希編碼方法等角度歸納論述了跨模態檢索領域的研究成果。在此基礎上,對比分析了各類算法在跨模態檢索常用標準數據集上的性能。最后,分析了跨模態檢索研究存在的問題,并對該領域未來發展趨勢以及應用進行了展望。
隨著卷積神經網絡(Convolutional Neural Network,CNN)的不斷發展,目標檢測作為計算機視覺中最基本的技術,已取得了令人矚目的進展。介紹了強監督目標檢測算法對數據集標注精度要求高的現狀。對基于弱監督學習的目標檢測算法進行研究,按照不同的特征處理方法將該算法歸為四類,并分析比較了各類算法的優缺點。通過實驗比
較了各類基于弱監督學習的目標檢測算法的檢測精度,并將其與主流的強監督目標檢測算法進行了比較。展望了基于弱監督學習的目標檢測算法未來的研究熱點。
對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。
摘要: 人臉親子關系驗證即通過給定的不同人的兩幅人臉圖像判斷其是否具有親子關系, 是計算機視覺和機器學習領域中一個重要的研究問題, 在丟失兒童尋找、社會媒體分析、圖像自動標注等領域具有廣泛的應用價值. 隨著人臉親子關系驗證問題受到越來越多的關注, 其在多個方面都得到了相應的發展, 本文對人臉親子關系驗證方法做了綜述整理. 首先, 簡要介紹了人臉親子關系驗證在近十年的研究現狀, 隨后對問題進行了定義并討論其面臨的挑戰. 接下來, 匯總了常用的親子數據庫, 對數據庫屬性做了詳細的總結和對比. 然后, 對人臉親子關系驗證方法進行了分類總結、對比, 以及不同方法的性能表現. 最后, 展望了人臉親子關系驗證今后可能的研究方向.
在當前大規模數據檢索任務中,學習型哈希方法能夠學習緊湊的二進制編碼,在節省存儲空間的同時能快速地計算海明空間內的相似度,因此近似最近鄰檢索常使用哈希的方式來完善快速最近鄰檢索機制。對于目前大多數哈希方法都采用離線學習模型進行批處理訓練,在大規模流數據的環境下無法適應可能出現的數據變化而使得檢索效率降低的問題,提出在線哈希方法并學習適應性的哈希函數,從而在輸入數據的過程中連續學習,并且能實時地應用于相似性檢索。首先,闡釋了學習型哈希的基本原理和實現在線哈希的內在要求;接著,從在線條件下流數據的讀取模式、學習模式以及模型更新模式等角度介紹在線哈希不同的學習方式;而后,將在線學習算法分為六類:基于主-被動算法、基于矩陣分解技術、基于無監督聚類、基于相似性監督、基于互信息度量和基于碼本監督,并且分析這些算法的優缺點及特點;最后,總結和討論了在線哈希的發展方向。
近年來,由于多模態數據的快速增長,跨模態檢索受到了研究者的廣泛關注,它將一種模態的數據作為查詢去檢索其它模態的數據。例如,用戶可以用文本檢索圖像或/和視頻。由于查詢及其檢索結果模態表征的差異,如何度量不同模態之間的相似性是跨模態檢索的主要挑戰。隨著深度學習技術的推廣以及其在計算機視覺、自然語言處理等領域的顯著成果,研究者提出了一系列以深度學習為基礎的跨模態檢索方法,極大地緩解了不同模態間相似性度量的挑戰,本文稱之為深度跨模態檢索。本文將從以下角度綜述近些年來代表性的深度跨模態檢索論文,基于所提供的跨模態信息將這些方法分為三類:基于跨模態數據間一一對應的、基于跨模態數據間相似度的以及基于跨模態數據語義標注的深度跨模態檢索。一般來說,上述信息呈現遞增的情況,且提供學習的信息越多,跨模態檢索性能越優。在上述不同類別下,涵蓋了七類主流技術,即典型相關分析、一一對應關系保持、度量學習、似然分析、學習排序、語義預測以及對抗學習。不同類別下包含其中部分關鍵技術,其中代表性方法將被具體闡述。同時本文將對比提供不同跨模態數據信息下不同技術的區別,以闡述在提供了不同層次的跨模態數據信息下相關技術的關注點與使用異同。為評估不同的跨模態檢索方法,本文總結了部分代表性的跨模態檢索數據庫。最后本文討論了當前深度跨模態檢索待解決的問題以及未來的研究方向。
摘要 在線社交網絡中的消息流行度預測研究,對推薦、廣告、檢索等應用場景都具有非常重要的作用。近年來,深度學習的蓬勃發展和消息傳播數據的積累,為基于深度學習的流行度預測研究提供了堅實的發展基礎。現有的流行度預測研究綜述,主要是圍繞傳統的流行度預測方法展開的,而基于深度學習的流行度預測方法目前仍未得到系統性地歸納和梳理,不利于流行度預測領域的持續發展。鑒于此,該文重點論述和分析現有的基于深度學習的流行度預測相關研究,對近年來基于深度學習的流行度預測研究進行了歸納梳理,將其分為基于深度表示和基于深度融合的流行度預測方法,并對該研究方向的發展現狀和未來趨勢進行了分析展望。
摘要: 當前,以網絡數據為代表的跨媒體數據呈現爆炸式增長的趨勢,呈現出了跨模態、跨數據源的復雜關聯及動態演化特性,跨媒體分析與推理技術針對多模態信息理解、交互、內容管理等需求,通過構建跨模態、跨平臺的語義貫通與統一表征機制,進一步實現分析和推理以及對復雜認知目標的不斷逼近,建立語義層級的邏輯推理機制,最終實現跨媒體類人智能推理。文中對跨媒體分析推理技術的研究背景和發展歷史進行概述,歸納總結視覺-語言關聯等任務的關鍵技術,并對研究應用進行舉例。基于已有結論,分析目前跨媒體分析領域所面臨的關鍵問題,最后探討未來的發展趨勢。
摘要: 圖像修復是計算機視覺領域中極具挑戰性的研究課題。近年來,深度學習技術的發展推動了圖像修復性能的顯著提升,使得圖像修復這一傳統課題再次引起了學者們的廣泛關注。文章致力于綜述圖像修復研究的關鍵技術。由于深度學習技術在解決“大面積缺失圖像修復”問題時具有重要作用并帶來了深遠影響,文中在簡要介紹傳統圖像修復方法的基礎上,重點介紹了基于深度學習的修復模型,主要包括模型分類、優缺點對比、適用范圍和在常用數據集上的性能對比等,最后對圖像修復潛在的研究方向和發展動態進行了分析和展望。
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1