近年來,由于多模態數據的快速增長,跨模態檢索受到了研究者的廣泛關注,它將一種模態的數據作為查詢去檢索其它模態的數據。例如,用戶可以用文本檢索圖像或/和視頻。由于查詢及其檢索結果模態表征的差異,如何度量不同模態之間的相似性是跨模態檢索的主要挑戰。隨著深度學習技術的推廣以及其在計算機視覺、自然語言處理等領域的顯著成果,研究者提出了一系列以深度學習為基礎的跨模態檢索方法,極大地緩解了不同模態間相似性度量的挑戰,本文稱之為深度跨模態檢索。本文將從以下角度綜述近些年來代表性的深度跨模態檢索論文,基于所提供的跨模態信息將這些方法分為三類:基于跨模態數據間一一對應的、基于跨模態數據間相似度的以及基于跨模態數據語義標注的深度跨模態檢索。一般來說,上述信息呈現遞增的情況,且提供學習的信息越多,跨模態檢索性能越優。在上述不同類別下,涵蓋了七類主流技術,即典型相關分析、一一對應關系保持、度量學習、似然分析、學習排序、語義預測以及對抗學習。不同類別下包含其中部分關鍵技術,其中代表性方法將被具體闡述。同時本文將對比提供不同跨模態數據信息下不同技術的區別,以闡述在提供了不同層次的跨模態數據信息下相關技術的關注點與使用異同。為評估不同的跨模態檢索方法,本文總結了部分代表性的跨模態檢索數據庫。最后本文討論了當前深度跨模態檢索待解決的問題以及未來的研究方向。
視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,本文在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法,結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系,對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效,精度更高的算法被相繼提出,其發展方向也會越來越好。
行人檢測技術在智能交通系統,智能安防監控等領域表現出了極高的應用價值,已經成為計算機視覺領域的重要研究方向之一。得益于深度學習的飛速發展,基于深度卷積神經網絡的通用目標檢測模型被不斷擴展應用到行人檢測領域,并取得了良好的性能。但是由于行人目標內在的特殊性、復雜性,特別是考慮到復雜場景下的行人遮擋、尺度變化等問題,深度學習方法也面臨著嚴峻的挑戰。本文針對上述問題,以基于深度學習的行人檢測技術為研究對象,在充分調研文獻的基礎上,分別從基于錨點框、基于無錨點框以及通用技術改進(例如損失函數,非極大值抑制等)三個角度,對各類行人檢測算法進行細分,并選取具有代表性的方法進行詳細介紹和對比分析。此外,本文對行人檢測的通用數據集進行了詳細的介紹,對該領域先進算法的性能進行了對比分析,對行人檢測中待解決的問題與未來的研究方向做出預測和展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2020&journal_id=jig
信息論的經典結果表明,信源信道分離編碼是漸進最優的。但現代通信系統對時延、帶寬等愈發敏 感,分離設計對解碼具有無限計算能力這一假設難以成立。帶寬有限時,相對于信源信道聯合編碼,分離編 碼已被證明是次優的。傳統的聯合信源信道編碼需要復雜的編碼方案,相較之下,數據驅動的深度學習技術 則帶來了新的設計思路。適時地對相關研究成果進行總結,有助于進一步明確深度學習方法解決信源信道聯 合編碼問題的方式,為研究新的研究方向提供依據。首先介紹了基于深度學習的信源壓縮方案和端對端收發 信機模型,隨后分析不同信源類型下的兩種聯合編碼設計思路,最后探討了基于深度學習的信源信道聯合編 碼的潛在問題和未來的工作方向。
數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。
推薦系統旨在為用戶推薦個性化的在線商品或信息, 其廣泛應用于眾多Web場景之中, 來處理海量信息數據所導致的信息過載問題, 以此提升用戶體驗. 鑒于推薦系統強大的實用性, 自20世紀90年代中期以來, 研究者針對其方法與應用兩方面, 進行了大量廣泛的研究. 近年來, 很多工作發現知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統中存在的一系列關鍵問題, 例如數據稀疏、冷啟動、推薦多樣性等. 因此, 本文 針對基于知識圖譜的推薦系統這一領域進行了全面的綜述. 具體地, 首先簡單介紹推薦系統與知識圖譜中的一些基本概念. 隨后, 詳細介紹現有方法如何挖掘知識圖譜不同種類的信息并應用于推薦系統. 此外, 總結了相關的一系列推薦應用場景. 最后, 提出了對基于知識圖譜的推薦系統前景的看法, 并展望了該領域未來的研究方向.
摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.
摘要: 大數據時代,數據呈現維度高、數據量大和增長快等特點。如何有效利用其中蘊含的有價值信息,以實現數據的智能化處理,已成為當前理論和應用的研究熱點。針對現實普遍存在的多義性對象,數據多標簽被提出并被廣泛應用于數據智能化組織。近年來,深度學習在數據特征提取方面呈現出高速、高精度等優異性,使基于深度學習的多標簽生成得到廣泛關注。文中分五大類別總結了最新研究成果,并進一步從數據、關系類型、應用場景、適應性及實驗性能方面對其進行對比和分析,最后探討了多標簽生成面臨的挑戰和未來的研究方向。
人機對話系統能夠讓機器通過人類語言與人進行交互,是人工智能領域的一項重要工作。因其在虛擬助手和社交聊天機器人等領域的商業價值而廣受工業界和學術界的關注。近年來,互聯網社交數據快速增長促進了數據驅動的開放領域對話系統研究,尤其是將深度學習技術應用到其中取得了突破性進展。基于深度學習的開放領域對話系統使用海量社交對話數據,通過檢索或者生成的方法建立對話模型學習對話模式。將深度學習融入檢索式系統中研究提高對話匹配模型的效果,將深度學習融入生成式系統中構建更高質量的生成模型,成為了基于深度學習的開放領域對話系統的主要任務。本文對近幾年基于深度學習的開放領域對話系統研究進展進行綜述,梳理、比較和分析主要方法,整理其中的關鍵問題和已有解決方案,總結評測指標,展望未來研究趨勢。