摘要: 隨著智能時代和大數據時代的到來,各種復雜異構數據不斷涌現,成為數據驅動的人工智能方法、機器學習模型的基礎。復雜異構數據的表征直接關系著后續模型的學習性能,因此如何有效地表征復雜異構數據成為機器學習的一個重要研究領域。文中首先介紹了數據表征的多種類型,并提出了現有數據表征方法面臨的挑戰;其次,根據數據類型將數據劃分成單一類型數據和復合類型數據,針對單一類型數據,分別介紹了4種典型數據的表征學習發展現狀和代表算法,包含離散數據、網絡數據、文本數據和圖像數據;然后,詳細介紹了4種由多個單一數據或數據源復合而成的復雜數據,包含了離散特征與連續特征混合的結構化數據、屬性數據與復雜網絡復合的屬性網絡數據、來自不同領域的跨領域數據和由多種數據類型復合的多模態數據,分別介紹了基于上述復雜數據的表征學習現狀以及最新的表征學習模型;最后,對復雜異構數據表征學習的發展趨勢進行了探討。
隨著圖像處理,語音識別等人工智能技術的發展,很多學習方法尤其是采用深度學習框架的方法取得了優異的性能,在精度和速度方面有了很大的提升,但隨之帶來的問題也很明顯,這些學習方法如果要獲得穩定的學習效果,往往需要使用數量龐大的標注數據進行充分訓練,否則就會出現欠擬合的情況而導致學習性能的下降。因此,隨著任務復雜程度和數據規模的增加,對人工標注數據的數量和質量也提出了更高的要求,造成了標注成本和難度的增大。同時,單一任務的獨立學習往往忽略了來自其他任務的經驗信息,致使訓練冗余重復因而導致了學習資源的浪費,也限制了其性能的提升。為了緩解這些問題,屬于遷移學習范疇的多任務學習方法逐漸引起了研究者的重視。與單任務學習只使用單個任務的樣本信息不同,多任務學習假設不同任務數據分布之間存在一定的相似性,在此基礎上通過共同訓練和優化建立任務之間的聯系。這種訓練模式充分促進任務之間的信息交換并達到了相互學習的目的,尤其是在各自任務樣本容量有限的條件下,各個任務可以從其它任務獲得一定的啟發,借助于學習過程中的信息遷移能間接利用其它任務的數據,從而緩解了對大量標注數據的依賴,也達到了提升各自任務學習性能的目的。在此背景之下,本文首先介紹了相關任務的概念,并按照功能的不同對相關任務的類型進行劃分后再對它們的特點進行逐一描述。然后,本文按照數據處理模式和任務關系建模過程的不同將當前的主流算法劃分為兩大類:結構化多任務學習算法和深度多任務學習算法。其中,結構化多任務學習算法采用線性模型,可以直接針對數據進行結構假設并且使用原有標注特征表述任務關系,同時,又可根據學習對象的不同將其細分為基于任務層面和基于特征層面兩種不同結構,每種結構有判別式方法和生成式方法兩種實現手段。與結構化多任務學習算法的建模過程不同,深度多任務學習算法利用經過多層特征抽象后的深層次信息進行任務關系描述,通過處理特定網絡層中的參數達到信息共享的目的。緊接著,以兩大類算法作為主線,本文詳細分析了不同建模方法中對任務關系的結構假設、實現途徑、各自的優缺點以及方法之間的聯系。最后,本文總結了任務之間相似性及其緊密程度的判別依據,并且分析了多任務作用機制的有效性和內在成因,從歸納偏置和動態求解等角度闡述了多任務信息遷移的特點。 //gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=JSJX20190417000&dbcode=CJFD&dbname=CAPJ2019
摘要:隨著日益劇增的海量數據信息的產生以及數據挖掘算法的廣泛應用,人們已經進入了大數據時代.在數據規模飛速增長的前提下,如何高效穩定的存取數據信息以及加快數據挖掘算法的執行已經成為學術界和工業界急需解決的關鍵問題.機器學習算法作為數據挖掘應用的核心組成部分,吸引了越來越多研究者的關注,而利用新型的軟硬件手段來加速機器學習算法已經成為了目前的研究熱點之一.本文主要針對基于ASIC和FPGA等硬件平臺設計的機器學習加速器進行了歸納與總結.首先,本文先介紹了機器學習算法,對代表性的算法進行了分析和歸納.接下來對加速器可能的著眼點進行了列舉綜述,以各種機器學習硬件加速器為主要實例介紹了目前主流的加速器設計和實現,并圍繞加速器結構進行簡單分類和總結.最后本文對機器學習算法硬件加速這個領域進行了分析,并對目前的發展趨勢做出了展望.
現實網絡由多種相互作用、不斷進化的實體組成,而現有的研究大多將其簡單地描述為特定的靜態網絡,而沒有考慮動態網絡的演化趨勢。近年來,動態網絡的特性跟蹤研究取得了重大進展,利用網絡中實體和鏈接的變化來設計網絡嵌入技術。與被廣泛提出的靜態網絡嵌入方法相比,動態網絡嵌入努力將節點編碼為低維密集表示,有效地保持了網絡結構和時間動態,有利于處理各種下游機器學習任務。本文對動態網絡嵌入問題進行了系統的研究,重點介紹了動態網絡嵌入的基本概念,首次對現有的動態網絡嵌入技術進行了分類,包括基于矩陣分解的、基于躍格的、基于自動編碼器的、基于神經網絡的等嵌入方法。此外,我們仔細總結了常用的數據集和各種各樣的后續任務,動態網絡嵌入可以受益。在此基礎上,提出了動態嵌入模型、大規模動態網絡、異構動態網絡、動態屬性網絡、面向任務的動態網絡嵌入以及更多的嵌入空間等現有算法面臨的挑戰,并提出了未來可能的研究方向。
摘要:卷積神經網絡在廣泛的應用中取得了優秀的表現,但巨大的資源消耗量使得其應用于移動端和嵌入式設備成為了挑戰。為了解決此類問題,需要對網絡模型在大小、速度和準確度方面做出平衡。首先,從模型是否預先訓練角度,簡要介紹了網絡壓縮與加速的兩類方法——神經網絡壓縮和緊湊的神經網絡。具體地,闡述了緊湊的神經網絡設計方法,展示了其中不同運算方式,強調了這些運算特點,并根據基礎運算不同,將其分為基于空間卷積的模型設計和基于移位卷積模型設計兩大類,然后每類分別選取三個網絡模型從基礎運算單元、核心構建塊和整體網絡結構進行論述。同時,分析了各網絡以及常規網絡在ImageNet數據集上的性能。最后,總結了現有的緊湊神經網絡設計技巧,并展望了未來的發展方向。
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。
深度神經網絡已經被證明可以有效的解決圖像、自然語言等不同領域的問題.同時伴隨著移動互聯網技術的不斷發展,便攜式設備得到了迅速的普及,用戶提出了越來越多的需求.因此,如何設計高效、高性能的輕量級神經網絡是解決問題的關鍵.本文詳細闡述了三種構建輕量級神經網絡的方法,分別是人工設計輕量級神經網絡、神經網絡模型壓縮算法和基于神經網絡架構搜索的自動化神經網絡架構設計,同時簡要總結和分析了每種方法的特點,并重點介紹了典型的構建輕量級神經網絡的算法.最后,總結現有的方法,并給出了未來發展的前景.
知識圖譜是人工智能的重要基石,因其包含豐富的圖結構和屬性信息而受到廣泛關注.知識圖譜可以精確語義描述 現實世界中的各種實體及其聯系,其中頂點表示實體,邊表示實體間的聯系.知識圖譜劃分是大規模知識圖譜分布式處理的 首要工作,對知識圖譜分布式存儲、查詢、推理和挖掘起基礎支撐作用.隨著知識圖譜數據規模及分布式處理需求的不斷增 長,如何對其進行劃分已成為目前知識圖譜研究熱點問題.從知識圖譜和圖劃分的定義出發,系統性地介紹當前知識圖譜數 據劃分的各類算法,包括基本、多級、流式、分布式和其他類型圖劃分算法.首先,介紹 4 種基本圖劃分算法:譜劃分算法、 幾何劃分算法、分支定界算法、KL 及其衍生算法,這類算法通常用于小規模圖數據或作為其他劃分算法的一部分;然后, 介紹多級圖劃分算法,這類算法對圖粗糙化后進行劃分再投射回原始圖,根據粗糙化過程分為基于匹配的算法和基于聚合的 算法;其次,描述 3 種流式圖劃分算法,這類算法將頂點或邊加載為序列后進行劃分,包括哈希算法、貪心算法、Fennel 算法,以及這 3 種算法的衍生算法;再次,介紹以 KaPPa、JA-BE-JA 和輕量級重劃分為代表的分布式圖劃分算法及它們的 衍生算法;同時,在其他類型圖劃分算法中,介紹近年來新興的 2 種圖劃分算法:標簽傳播算法和基于查詢負載的算法。通 過在合成與真實知識圖譜數據集上的豐富實驗,比較了 5 類知識圖譜代表性劃分算法在劃分效果、查詢處理與圖數據挖掘方 面的性能差異,分析實驗結果并推廣到推理層面,獲得了基于實驗的知識圖譜劃分算法性能評價結論。最后,在對已有方法 分析和比較的基礎上,總結目前知識圖譜數據劃分面臨的主要挑戰,提出相應的研究問題,并展望未來的研究方向.
摘要: 大數據時代,數據呈現維度高、數據量大和增長快等特點。如何有效利用其中蘊含的有價值信息,以實現數據的智能化處理,已成為當前理論和應用的研究熱點。針對現實普遍存在的多義性對象,數據多標簽被提出并被廣泛應用于數據智能化組織。近年來,深度學習在數據特征提取方面呈現出高速、高精度等優異性,使基于深度學習的多標簽生成得到廣泛關注。文中分五大類別總結了最新研究成果,并進一步從數據、關系類型、應用場景、適應性及實驗性能方面對其進行對比和分析,最后探討了多標簽生成面臨的挑戰和未來的研究方向。
題目: 數據標注研究綜述
摘 要: 數據標注是大部分人工智能算法得以有效運行的關鍵環節.數據標注越準確、標注的數據量越大,算法的性能就越好.數據標注行業的發展帶動了中國許多城市和城鎮的就業,促使中國逐漸成為世界數據標注的中心.闡述 了數據標注的發展概況,包括起源、應用場景、分類和任務;列舉了目前常用的標注數據集、開源的數據標注工具 和商業數據標注平臺;提出了標注中的角色、標準和流程等數據標注規范;給出了一個情感分析場景中的數據標注 實例;描述各類主流的標注質量評估算法及其特點,并對比它們優缺點;最后,從任務、工具、數據標注質量和安全性 這 4 個方面對數據標注的研究方向和發展趨勢進行了展望.
關鍵詞: 數據標注;人工智能;眾包;大數據
AutoML: A Survey of the State-of-the-Art
深度學習已經滲透到我們生活的方方面面,給我們帶來了極大的便利。然而,針對某一特定任務構建高質量的深度學習系統的過程不僅耗時,而且需要大量的資源和人力,阻礙了深度學習在產業界和學術界的發展。為了緩解這一問題,越來越多的研究項目關注于自動化機器學習(AutoML)。在本文中,我們提供了一個全面的和最新的研究,在最先進的汽車。首先,根據機器學習的特點,詳細介紹了自動化技術。在此基礎上,總結了神經結構搜索(NAS)的研究現狀,這是目前自動化領域研究的熱點之一。我們還將NAS算法生成的模型與人工設計的模型進行了比較。最后,提出了有待進一步研究的幾個問題。