摘要: 隨著人工智能和大數據等計算機應用對算力需求的迅猛增長以及應用場景的多樣化, 異構混合并行計算成為了研究的重點。文中介紹了當前主要的異構計算機體系結構, 包括CPU/協處理器、CPU/眾核處理器、CPU/ASCI和CPU/FPGA等;簡述了異構混合并行編程模型隨著各類異構混合結構的發展而做出的改變, 異構混合并行編程模型可以是對現有的一種語言進行改造和重新實現, 或者是現有異構編程語言的擴展, 或者是使用指導性語句異構編程, 或者是容器模式協同編程。分析表明, 異構混合并行計算架構會進一步加強對AI的支持, 同時也會增強軟件的通用性。文中還回顧了異構混合并行計算中的關鍵技術, 包括異構處理器之間的并行任務劃分、任務映射、數據通信、數據訪問, 以及異構協同的并行同步和異構資源的流水線并行等。根據這些關鍵技術, 文中指出了異構混合并行計算面臨的挑戰, 如編程困難、移植困難、數據通信開銷大、數據訪問復雜、并行控制復雜以及資源負載不均衡等。最后分析了異構混合并行計算面臨的挑戰, 指出目前關鍵的核心技術需要從通用與AI專用異構計算的融合、異構架構的無縫移植、統一編程模型、存算一體化、智能化任務劃分和分配等方面進行突破。
摘要:近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
摘要: 近年來, 卷積神經網絡(Convolutional neural network, CNNs)在計算機視覺、自然語言處理、語音識別等領域取得了突飛猛進的發展, 其強大的特征學習能力引起了國內外專家學者廣泛關注.然而, 由于深度卷積神經網絡普遍規模龐大、計算度復雜, 限制了其在實時要求高和資源受限環境下的應用.對卷積神經網絡的結構進行優化以壓縮并加速現有網絡有助于深度學習在更大范圍的推廣應用, 目前已成為深度學習社區的一個研究熱點.本文整理了卷積神經網絡結構優化技術的發展歷史、研究現狀以及典型方法, 將這些工作歸納為網絡剪枝與稀疏化、張量分解、知識遷移和精細模塊設計4個方面并進行了較為全面的探討.最后, 本文對當前研究的熱點與難點作了分析和總結, 并對網絡結構優化領域未來的發展方向和應用前景進行了展望.
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
現如今,很多數據處理與分析的任務僅僅依靠機器算法難以達到理想的效果。因此,眾包技術應 運而生,其利用群體的智慧來解決對計算機比較難的問題。其中,眾包平臺(例如 Amazon Mechanical Turk)為眾包技術的應用提供了有力的支撐。平臺上有成千上萬的網絡大眾來為任務發布者解決問題。然 而,對于任務發布者來說與眾包平臺交互是不方便的,因為平臺會要求任務發布者設置很多參數甚至書 寫代碼。所以研究者們借鑒傳統數據庫的思想,提出了眾包數據庫的概念,其封裝了任務發布者、眾包 平臺以及眾包工人之間的復雜交互過程,為發布者提供友好的API。使發布者可以通過簡單的類SQL語言 與平臺交互。在這篇綜述中,我們首先介紹眾包的概念;然后介紹設計眾包數據庫時需考慮的一些基本 技術例如真值推理、任務分配,代價優化等;接著我們介紹幾種主流的眾包數據庫系統。此外,我們會 介紹對于不同的數據庫算子包括選擇、連接、排序等的優化技術。最后我們會介紹該領域未來的研究方 向與挑戰。
摘要: 手語識別涉及計算機視覺、模式識別、人機交互等領域,具有重要的研究意義與應用價值。深度學習技術的蓬勃發展為更加精準、實時的手語識別帶來了新的機遇。該文綜述了近年來基于深度學習的手語識別技術,從孤立詞與連續語句兩個分支展開詳細的算法闡述與分析。孤立詞識別技術劃分為基于卷積神經網絡(CNN)、3維卷積神經網絡(3D-CNN)和循環神經網絡(RNN) 3種架構的方法;連續語句識別所用模型復雜度更高,通常需要輔助某種長時時序建模算法,按其主體結構分為雙向長短時記憶網絡模型、3維卷積網絡模型和混合模型。歸納總結了目前國內外常用手語數據集,探討了手語識別技術的研究挑戰與發展趨勢,高精度前提下的魯棒性和實用化仍有待于推進。
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。