人工智能技術因其強大的學習和泛化能力已經被廣泛應用到各種真實場景中.然而,現有人工智能技術還面臨著三大挑戰.第一,現有AI技術使用門檻高,依賴于AI從業者選擇合適模型、設計合理參數、編寫程序,因此很難被廣泛應用到非計算機領域;第二,現有AI算法訓練效率低,造成了大量計算資源浪費,甚至延誤決策時機;第三、現有AI技術強依賴高質量數據,如果數據質量較低,可能造成計算結果的錯誤.數據庫技術可以有效解決這三個難題,因此目前面向AI的數據管理得到了廣泛關注.本文首先給出AI中數據管理的整體框架,然后詳細綜述基于聲明式語言模型的AI系統、面向AI優化的計算引擎、執行引擎和面向AI的數據治理引擎四個方面.最后展望未來的研究方向和挑戰.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6121&flag=1
隨著網絡空間安全情報在網絡犯罪、網絡戰和網絡反恐等領域的作用日益凸顯,迫切需要對網絡空間安全情報的基本理論和綜合分析方法進行深入研究。當前,安全情報在實際應用中主要面臨著數據類型多樣、分布離散、內容不一致等問題,因此引入知識圖譜技術框架,旨在利用知識圖譜面向海量數據時信息收集及加工整合的思想,提高安全情報的收集效率、情報質量,同時拓展情報的使用范圍。本文首先簡要回顧安全情報和知識圖譜的研究現狀,同時介紹知識圖譜在安全領域的應用。其次給出面向安全情報的知識圖譜構建框架。然后介紹安全情報知識圖譜構建的關鍵技術,包括信息抽取、本體構建和知識推理等。最后,對安全情報知識圖譜發展面臨的問題進行了討論。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200505&flag=1
大數據時代下,面對不斷膨脹的數據信息、復雜多樣的應用場景、異構的硬件架構和參差不齊的用戶使用水平,傳統數據庫技術很難適應這些新的場景和變化. 機器學習技術因其較強的學習能力,逐漸在數據庫領域展現出了潛力和應用前景. 論文首先給出一個高效、高可靠、高可用、自適應性強的數據庫系統需要涵蓋的方面,包括數據庫運維、數據存儲、查詢優化等.其次,討論機器學習算法與數據庫技術結合過程中可能面臨的挑戰,包括訓練數據少、訓練時間長、泛化能力有限、適應性差四個方面.然后,綜述數據庫技術與機器學習結合的現狀以及具體技術.其中,重點介紹數據庫自動調參、查詢基數估計、查詢計劃選擇、索引和視圖自動選擇五個方向.自動調參技術包括啟發式算法、傳統機器學習、深度強化學習三類.啟發式算法從離散的參數空間中通過抽樣探索最優子空間,可以有效提高調參效率,但是難以保證在有效資源限制內找到合適配置;傳統機器學習算法在經過降維的參數空間中學習系統狀態到指定負載模板的映射關系,一定程度上提升模型的適應性;深度強化學習在高維參數空間中迭代的學習調優策略,并利用神經網絡提升對高維數據的處理能力,有效降低訓練數據的需求.查詢基數估計包括面向查詢和面向執行計劃兩類.面向查詢方法利用卷積神經網絡學習表數據、查詢條件、連接條件之間的關系,然而在不同場景下需要大量訓練而且泛化能力差;面向執行計劃方法在物理算子層面做級聯的代價估計,一定程度上提高對不同查詢的適應能力.查詢計劃選擇包括深度學習和強化學習兩類.深度學習方法融合數據庫估計器的代價值和數據特征,提高對每種計劃代價估計的精度,但是結果嚴重依賴估計器的表現;強化學習基于最終目標迭代生成查詢計劃,降低方法對查詢代價的依賴性.自動索引推薦包括分類器、強化學習、遺傳算法三類.分類算法根據離散的表特征分析不同索引的創建開銷和效率,通過結合遺傳算法,提高對復合索引的推薦效率;強化學習進一步提供增量式索引推薦的效率,實現在線索引選擇.自動視圖選擇包括啟發式算法、概率統計、強化學習三類.啟發式算法通過在視圖構建的有向無環圖上做貪心探索,提高選擇效率,然而適應性差;基于概率統計的算法將視圖選擇形式化成一個0-1選擇問題,有效降低圖的探索開銷;強化學習方法將視圖的創建和刪除統一成動態選擇過程,基于強化學習的訓練策略進一步提高選擇效率.最后,從八個方面展望機器學習將給數據庫帶來的革命性突破。
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
通過學習可觀測數據的概率密度而隨機生成樣本的生成模型在近年來受到人們的廣泛關注, 網絡結構中包含多個隱藏層的深度生成式模型以更出色的生成能力成為研究熱點, 深度生成模型在計算機視覺、密度估計、自然語言和語音識別、半監督學習等領域得到成功應用, 并給無監督學習提供了良好的范式. 本文根據深度生成模型處理似然函數的不同方法將模型分為三類: 第一類方法是近似方法, 包括采用抽樣方法近似計算似然函數的受限玻爾茲曼機和以受限玻爾茲曼機為基礎模塊的深度置信網絡、深度玻爾茲曼機和亥姆霍茲機, 與之對應的另一種模型是直接優化似然函數變分下界的變分自編碼器以及其重要的改進模型, 包括重要性加權自編碼和可用于半監督學習的深度輔助深度模型; 第二類方法是避開求極大似然過程的隱式方法, 其代表模型是通過生成器和判別器之間的對抗行為來優化模型參數從而巧妙避開求解似然函數的生成對抗網絡以及重要的改進模型, 包括WGAN、深度卷積生成對抗網絡和當前最頂級的深度生成模型BigGAN; 第三類方法是對似然函數進行適當變形的流模型和自回歸模型, 流模型利用可逆函數構造似然函數后直接優化模型參數, 包括以NICE為基礎的常規流模型、變分流模型和可逆殘差網絡(i-ResNet), 自回歸模型(NADE)將目標函數分解為條件概率乘積的形式, 包括神經自回歸密度估計(NADE)、像素循環神經網絡(PixelRNN)、掩碼自編碼器(MADE)以及WaveNet等. 詳細描述上述模型的原理和結構以及模型變形后, 闡述各個模型的研究進展和應用, 最后對深度生成式模型進行展望和總結.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866
受益于當前計算機性能的快速提升, 學習可觀測樣本的概率密度并隨機生成新樣本的生成模型成為熱點. 相比于需要學習條件概率分布的判別模型, 生成模型的訓練難度大、模型結構復雜, 但除了能夠生成新樣本外, 生成模型在圖像重構、缺失數據填充、密度估計、風格遷移和半監督學習等應用領域也獲得了巨大的成功. 當前可觀測樣本的數量和維數都大幅度增加, 淺層的生成模型受到性能瓶頸的限制而無法滿足應用需求, 從而被含有多個隱藏層的深度生成模型替代, 深度生成模型能夠學習到更好的隱表示, 模型性能更好. 本文對有重要意義的深度生成模型進行全面的分析和討論, 對各大類模型的結構和基本原理進行梳理和分類. 本文第1節介紹深度生成模型的概念和分類; 第2節介紹受限玻爾茲曼機和以受限玻爾茲曼機為基礎模塊的幾種深度生成模型, 重點內容是各種模型的不同訓練算法; 第3節介紹變分自編碼器的基本結構、變分下界的推理和重參數化方法; 第4節介紹生成對抗網絡, 主要內容為模型原理、訓練方法和穩定性研究, 以及兩種重要的模型結構; 第5節總結了流模型的結構, 詳細介紹了流模型的技術特點; 第6節分析了自回歸模型的模型結構以及幾種重要分支的研究進展; 第7節將介紹生成模型中的兩個小分支: 矩陣匹配模型和隨機生成模型; 第8節對深度生成模型存在的問題進行分析討論, 并對未來的研究方向和發展趨勢做出了展望.
在大數據時代下,深度學習、強化學習以及分布式學習等理論和技術取得的突破性進展,為機器學習提供了數據和算法層面的強有力支撐,同時促進了機器學習的規模化和產業化發展.然而,盡管機器學習模型在現實應用中有著出色的表現,但其本身仍然面臨著諸多的安全威脅.機器學習在數據層、模型層以及應用層面臨的安全和隱私威脅呈現出多樣性、隱蔽性和動態演化的特點.機器學習的安全和隱私問題吸引了學術界和工業界的廣泛關注,一大批學者分別從攻擊和防御的角度對模型的安全和隱私問題進行了深入的研究,并且提出了一系列的攻防方法. 在本綜述中,我們回顧了機器學習的安全和隱私問題,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足. 最后,我們探討了機器學習模型安全與隱私保護研究當前所面臨的挑戰以及未來潛在的研究方向,旨在為后續學者進一步推動機器學習模型安全與隱私保護研究的發展和應用提供指導.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1
對于容量快速增長、日趨多元化的大數據,業界亟需開發可行性更好的存儲工具。為滿足大數據存儲需求,存儲機制已經形成從傳統數據管理系統到NoSQL技術的結構化轉移。然而,目前可用的大數據存儲技術無法為持續增長的異構數據提供一致、可擴展和可用的解決方案。在科學實驗、醫療保健、社交網絡和電子商務等實際應用中,存儲是大數據分析的第一步。截至目前,亞馬遜、谷歌和阿帕奇等公司形成了大數據存儲方案的行業標準,但尚未有關于大數據存儲技術性能和容量提升的深入調查和文獻報告。本文旨在對目前可用于大數據的最先進的存儲技術進行全面調查,提供了一個明確的大數據存儲技術分類方法,以幫助數據分析師和研究人員了解和選擇更適合其需求的存儲機制。我們使用布魯爾的CAP定理比較和分析了現有存儲方法,評估了不同存儲架構的性能,討論了存儲技術的意義、應用及其對其他類別數據的支持。為了加快部署可靠和可擴展的存儲系統,文中還突出了未來研究面臨的幾個挑戰。
人工智能技術因其強大的學習和泛化能力已經被廣泛應用到各種真實場景中.然而,現有人工智能技術還面臨著三大挑戰.第一,現有AI技術使用門檻高,依賴于AI從業者選擇合適模型、設計合理參數、編寫程序,因此很難被廣泛應用到非計算機領域;第二,現有AI算法訓練效率低,造成了大量計算資源浪費,甚至延誤決策時機;第三、現有AI技術強依賴高質量數據,如果數據質量較低,可能造成計算結果的錯誤.數據庫技術可以有效解決這三個難題,因此目前面向AI的數據管理得到了廣泛關注.本文首先給出AI中數據管理的整體框架,然后詳細綜述基于聲明式語言模型的AI系統、面向AI優化的計算引擎、執行引擎和面向AI的數據治理引擎四個方面.最后展望未來的研究方向和挑戰.
摘要: 隨著人工智能和大數據等計算機應用對算力需求的迅猛增長以及應用場景的多樣化, 異構混合并行計算成為了研究的重點。文中介紹了當前主要的異構計算機體系結構, 包括CPU/協處理器、CPU/眾核處理器、CPU/ASCI和CPU/FPGA等;簡述了異構混合并行編程模型隨著各類異構混合結構的發展而做出的改變, 異構混合并行編程模型可以是對現有的一種語言進行改造和重新實現, 或者是現有異構編程語言的擴展, 或者是使用指導性語句異構編程, 或者是容器模式協同編程。分析表明, 異構混合并行計算架構會進一步加強對AI的支持, 同時也會增強軟件的通用性。文中還回顧了異構混合并行計算中的關鍵技術, 包括異構處理器之間的并行任務劃分、任務映射、數據通信、數據訪問, 以及異構協同的并行同步和異構資源的流水線并行等。根據這些關鍵技術, 文中指出了異構混合并行計算面臨的挑戰, 如編程困難、移植困難、數據通信開銷大、數據訪問復雜、并行控制復雜以及資源負載不均衡等。最后分析了異構混合并行計算面臨的挑戰, 指出目前關鍵的核心技術需要從通用與AI專用異構計算的融合、異構架構的無縫移植、統一編程模型、存算一體化、智能化任務劃分和分配等方面進行突破。
【簡介】近些年深度神經網絡幾乎在各個領域都取得了巨大的成功。然而,這些深度模型在尺寸上過于巨大,有幾百萬甚至上億的參數,造成了巨大的計算開銷,致使模型難以部署和落地。除此之外,模型的表現還高度依賴于大量的標注數據。為了使模型得到更加高效的訓練和處理標記數據不足的難題,知識蒸餾(KD)被用來遷移從一個模型到另一個模型學習到的知識。這個過程也經常被描述為student-teacher(S-T)學習框架,并且已經被廣泛應用到模型壓縮和知識遷移中。這篇論文主要介紹了知識蒸餾和student-teacher學習模型。首先,我們對于KD是什么,它是如何工作的提供了一個解釋和描述。然后,我們對近些年知識蒸餾方法的研究進展和典型用于視覺任務的S-T學習框架進行了一個全面的調研。最后,我們討論了知識蒸餾和S-T模型未來的發展方向和研究前景,以及目前這些方法所面臨的開放性挑戰。
介紹
深度神經網絡的成功主要依賴于精心設計的DNN架構。在大規模機器學習任務中,尤其是圖像識別和語音識別任務,大多數基于DNN的模型都是憑借大量的參數來提取特征從而保證模型的泛化能力。這種笨重的模型通常都有非常深和非常寬的特點,需要花費大量的時間進行訓練,而且不可能實時操作。所以,為了加速模型訓練,許多研究人員嘗試著利用預訓練的復雜模型來獲得輕量級的DNN模型,從而使得這些模型可以被部署應用。這是一篇關于知識蒸餾(KD)和student-teacher(S-T)學習模型的論文。一般來講,知識蒸餾被視作一種機制:當只給出小型的訓練集,其中包含相同或不同種類的樣本的時候,這種機制能夠使得人類快速學習新的,復雜的概念。在深度學習中,知識蒸餾是一個有效的方法,目前已經被廣泛的應用在了從一個網絡到另一個網絡的信息轉移上。知識蒸餾主要被應用在模型壓縮和知識遷移這兩個領域,對于模型壓縮,一個較小的學生模型被訓練來模仿一個預先訓練好的較大的模型。盡管知識和任務種類多樣,但是S-T框架是他們的一個相同點,其中提供知識的模型被稱作teacher,學習知識的模型被稱作student。我們對現有的知識蒸餾方法進行了重點分析和分類,其中還伴隨著各種類型的S-T結構的模型壓縮和知識轉移。我們回顧和調查了這一迅速發展的領域,強調了該領域的最新進展。雖然知識蒸餾方法已經應用于視覺智能、語音識別、自然語言處理等各個領域,但本文主要關注的是視覺領域的知識蒸餾方法,所以論文中關于知識蒸餾的大多數闡釋都是基于計算機視覺任務。由于知識蒸餾方法研究最多的領域是模型壓縮,所以我們系統地討論了該領域的技術細節、關鍵性挑戰和發展潛力。同時,重點介紹了在半監督學習、自監督學習等領域的知識遷移方法,重點介紹了以S-T學習框架為基礎的技術。
文章結構
section 2:探討知識蒸餾和S-T學習框架為什么會吸引如此多的關注。 section 3:關于知識蒸餾的理論分析。 section 4-section14:對目前的方法進行分類,并且分析了面臨的挑戰以及該領域的發展前景。 section 15:根據上面的分類結果,我們回答了section 2中提出的問題。 section 16:介紹了知識蒸餾和S-T框架的潛力。 section 17:總結。