亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

科技的新時代讓人們可以方便地在各種平臺上分享自己的觀點。這些平臺為用戶提供了多種形式的表達方式,包括文本、圖像、視頻和音頻。然而,這使得用戶很難獲得關于一個主題的所有關鍵信息,使得自動多模態摘要(MMS)的任務必不可少。在本文中,我們對MMS領域的現有研究進行了全面的綜述。

//www.zhuanzhi.ai/paper/505f92ea3f81f199063a75af8f594fdf

引言

每天,互聯網都充斥著來自多個來源的大量新信息。由于技術的進步,人們現在可以以多種格式共享信息,并使用多種通信模式供他們使用。互聯網上日益增多的內容使得用戶很難從大量的資源中獲取有用的信息,因此有必要研究多模態摘要,與純文本摘要相比,視覺摘要平均能提高12.4%的用戶滿意度。事實上,幾乎每一個內容共享平臺提供陪一個觀點或事實以多種媒體形式,和每一個手機都有這個功能的設施表明多式的通訊手段的優越性的緩解在傳達和理解信息。

多模態輸入形式的信息已被用于除摘要之外的許多任務,包括多模態機器翻譯[11,21,22,39,108]、多模態移動預測[18,53,120]、電子商務產品分類[128]、多模態交互式人工智能框架[51]、多模態表情預測[5,17],多模態框架識別[10],多模態金融風險預測[59,101],多模態情感分析[79,93,122],多模態命名身份識別[2,77,78,109,126,130],多模態視頻描述生成[37,38,91],多模態產品標題壓縮[70]和多模態生物特征認證[28,42,106]。多模態信息處理和檢索任務的應用可能性是相當可觀的。多通道研究還可用于其他密切相關的研究問題,如圖像描述[14,15]、圖像到圖像的翻譯[40]、抗震路面試驗[94]、美學評價[55,67,129]和視覺問答[49]。

文本摘要是自然語言處理(NLP)和信息檢索(IR)領域最古老的問題之一,由于其具有挑戰性和廣泛的應用前景,引起了眾多研究者的關注。文本摘要的研究可以追溯到六十多年前[69]。NLP和IR社區通過開發無數的技術和模型體系結構來解決針對多個應用的文本摘要研究。作為這個問題的延伸,多模態摘要結的問題增加了另一個角度,結合了視覺和聽覺方面的混合,使任務更有挑戰性和有趣的處理。將多種模態納入摘要問題的擴展擴展了問題的廣度,導致任務的應用范圍更廣。近年來,多模態摘要經歷了許多新的發展(參見圖1關于MMS趨勢的統計),包括新數據集的發布,處理MMS任務的技術的進步,以及更合適的評估指標的建議。多模態摘要的思想是一個相當靈活的,包含了輸入和輸出方式的廣泛可能性,也使得單模態摘要技術的知識很難理解MMS任務的現有工作。這就需要對多模態摘要進行調研。

MMS任務與任何單模態摘要任務一樣,是一個要求很高的任務,且存在多個正確解,因此非常具有挑戰性。創建多模態摘要的人必須使用他們之前的理解和外部知識來生成內容。建立計算機系統來模仿這種行為變得困難,因為它們內在缺乏人類的感知和知識,使自動多模態摘要的問題成為一項重要但有趣的任務。盡管有相當多的調研論文是針對單模態摘要任務撰寫的,包括文本摘要[31,32,81,112,124]和視頻摘要[6,41,52,76,102],以及多模態研究[3,4,43,90,103,107]的調研論文。然而,據我們所知,我們是第一個提出多模摘要的調研。通過這份手稿,我們統一和系統化的信息在相關的工作,包括數據集,方法論,和評價技術。通過這項調研,我們旨在幫助研究人員熟悉各種技術和資源,以進行多模式摘要領域的研究。

多模態摘要方法

許多研究嘗試使用有監督和無監督技術來解決MMS任務。在本節中,我們試圖以一種通用的方式描述MMS框架,闡明不同方法的細微差別。由于所使用的各種輸入、輸出和技術跨越了一個很大的可能性范圍,我們將分別描述每一個可能性。我們將這一節分為三個階段:預處理、主模型和后處理。

  • 預處理:在多模態環境中,預處理是至關重要的一步,因為它涉及從不同模態中提取特征。每個輸入模態都使用模態特征提取技術進行處理。盡管有些工作傾向于使用自己提出的模型來學習數據的語義表示,但幾乎所有的作品都遵循相同的預處理步驟。由于相關的作品有不同的輸入模態,我們分別描述了每種模態的預處理技術。

  • 主模型:利用提取的特征來執行MMS任務已經采用了很多不同的技術。圖3顯示了研究人員解決MMS任務所采用的技術分析。我們已經嘗試了幾乎所有最近的架構,主要集中在以文本為中心的輸出摘要。在以文本為中心形式的方法中,相鄰形式被視為文本摘要的補充,通常在后處理步驟中被選擇(章節4.3)。

  • 后處理:后期處理大部分現有工作無法生成多模態摘要。生成的系統綜合總結有一個內置的系統能產生多通道輸出(主要是通過生成文本使用seq2seq機制和選擇相關圖片)(61、134)或者他們采取一些后處理步驟,獲得視覺和聲音補充劑生成的文本摘要[133]。神經網絡模型使用多模態注意力機制來確定每個輸入情況的模態相關性,用于選擇最合適的圖像[12,133]。更準確地說,使用視覺覆蓋評分(在最后解碼步驟之后),即生成文本摘要時的注意力值之和,來確定最相關的圖像。根據任務需要,可以提取單幅圖像[133],也可以提取多幅圖像[13]來補充文本。

由于技術的進步,人們可以方便地以多種方式創建和共享信息,這在十年前是不可能的。由于這種進步,對多模態摘要的需求正在增加。我們提出了一項調研,以幫助熟悉用戶的工具和技術目前的MMS任務。在這份手稿中,我們正式定義了多模態摘要的任務,我們還根據各種輸入、輸出和技術相關的細節,對現有的作品進行了廣泛的分類。然后,我們包括用于處理MMS任務的數據集的全面描述。此外,我們還簡要描述了用于解決MMS任務的各種技術,以及用于判斷產生的摘要質量的評價指標。最后,本文還提出了MMS研究的幾個可能方向。我們希望這篇調研論文能夠對多模態摘要的研究起到重要的推動作用。

付費5元查看完整內容

相關內容

摘要

作為一種比傳統機器學習方法更有效的訓練框架,元學習獲得了廣泛的歡迎。然而,在多模態任務等復雜任務分布中,其泛化能力尚未得到深入研究。近年來,基于多模態的元學習出現了一些研究。本綜述從方法論和應用方面提供了基于多模態的元學習景觀的全面概述。我們首先對元學習和多模態的定義進行了形式化的界定,并提出了這一新興領域的研究挑戰,如何豐富少樣本或零樣本情況下的輸入,以及如何將模型泛化到新的任務中。然后我們提出了一個新的分類系統,系統地討論了結合多模態任務的典型元學習算法。我們對相關論文的貢獻進行了調研,并對其進行了分類總結。最后,提出了該領域的研究方向。

//www.zhuanzhi.ai/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5

引言

深度學習方法在語音、語言和視覺領域取得了顯著進展[1,2,3]。然而,這些方法的性能嚴重依賴于大量標記數據的可用性,而在大多數應用中,獲取這些數據可能不切實際或成本高昂。僅使用有限的標記數據往往會導致過擬合問題,導致泛化到新數據[4]或完全不同的分布的不確定性。另一方面,人類學習過程中使用的“學會學習”機制[5]使我們能夠從很少的樣本[6]中快速學習新的概念。已有證據表明,通過結合先驗知識和情境,人類可以在有限情景下獲得多個先驗任務的經驗,在有限情景下,習得的抽象經驗被一般化,以提高未來對新概念的學習表現。受此啟發,提出了一種名為元學習(meta-learning)的計算范式[7,8],用來模擬人類學習廣義任務經驗的能力,旨在讓機器從類似任務中獲取先驗知識,并快速適應新任務。通過在動態選擇中提取跨領域任務目標,元學習過程比傳統機器學習模型更具數據效率[9,10]。

由于元學習能夠泛化到新的任務,我們的目的是了解元學習如何發揮作用,當任務更復雜時,例如,數據源不再是單模態的,或原始模態中的數據是有限的。最近的研究集中在將元學習框架應用于復雜任務的分配上[11,12],但僅限于單一的模態。特別是,在多個應用[7]、學習優化步驟[13]的先驗知識、數據嵌入[14,15]或模型結構[16]的多任務和單任務場景中,元學習已經被證明是成功的。然而,在異構任務模態下,如何巧妙地利用元學習給研究人員帶來了獨特的挑戰。要在額外模態的幫助下從這些任務中學習新概念,示例應該以成對或多種方式提供,其中每個示例包含同一概念的兩個或多個項目,但在不同的模態。

首先在圖像分類的零樣本學習(ZSL) /廣義零樣本學習(GSZL)領域探討了不同模態的異質特征。語義模式被認為在模型訓練中提供強大的先驗知識和輔助視覺模式。為了更好地將知識從可見的類遷移到不可見的類,基于元的算法被廣泛引入來捕獲配對模態之間的屬性關系。然而,訓練過程大多將一個模態視為主要模態,并通過添加另一個模態來利用額外的信息。它不涉及在真實的復雜情景中對多種模態的分析,如未配對的模態、缺失的模態以及模態之間的關聯。因此,一些研究進一步將元學習方法應用于由其他模態構成的任務。具體來說,當不同任務的模態來自不同的數據分布,或者不同任務的模態被遺漏或不平衡時,通過充分利用元學習背景下的多模態數據,可以將不同模式的優勢整合到問題中,從而提高績效。另一方面,元學習本身的訓練框架有助于提高原多模態學習者在新任務中的泛化能力。雖然對這兩個概念的跨學科研究聽起來很有前景,但目前的研究大多將元學習算法和多模態學習算法分開進行總結,導致多模態與元學習結合的研究存在差距。

最后,我們希望在本次綜述中對基于多模態的元學習算法進行系統而全面的研究。我們旨在為不同的方法提供直觀的解釋,并有助于:

識別將元學習算法應用于多模態任務的挑戰; 提出一個新的分類,并為每個類別提供深刻的分析; 總結解決不同挑戰的具體貢獻,包括其方法和與其他方法的區別; 強調當前的研究趨勢和未來可能的方向。

本綜述的其余部分組織如下。在第二節中,我們首先對元學習和多模態的定義進行了形式化界定,然后給出了基于多模態的元學習挑戰的總體范式。然后我們在第3節提出了一個基于元學習算法可以學習的先驗知識的新分類。我們分別在第4節、第5節和第6節對如何使原始元學習方法適應多模態數據的相關研究進行了考察,在第7節對這些工作進行了總結。最后,我們總結了目前的研究趨勢在第8節和可能的方向,未來的工作在第9節。

付費5元查看完整內容

引言

深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。

//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1

概述

機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。

我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。

人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.

在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。

付費5元查看完整內容

在人類中,注意力是所有感知和認知操作的核心屬性。考慮到我們處理競爭性信息來源的能力有限,注意力機制選擇、調整和關注與行為最相關的信息。

幾十年來,哲學、心理學、神經科學和計算機科學都在研究注意力的概念和功能。在過去的六年中,這一特性在深度神經網絡中得到了廣泛的研究。目前,深度學習的研究進展主要體現在幾個應用領域的神經注意力模型上。

本研究對神經注意力模型的發展進行了全面的概述和分析。我們系統地回顧了該領域的數百個架構,識別并討論了那些注意力顯示出重大影響的架構。我們亦制訂了一套自動化方法體系,并將其公諸于眾,以促進這方面的研究工作。通過批判性地分析650部文獻,我們描述了注意力在卷積、循環網絡和生成模型中的主要用途,識別了使用和應用的共同子組。

此外,我們還描述了注意力在不同應用領域的影響及其對神經網絡可解釋性的影響。最后,我們列出了進一步研究的可能趨勢和機會,希望這篇綜述能夠對該領域的主要注意力模型提供一個簡明的概述,并指導研究者開發未來的方法,以推動進一步的改進。

付費5元查看完整內容

文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。

本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。

在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。

盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。

//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e

付費5元查看完整內容

視頻中的異常檢測是一個研究了十多年的問題。這一領域因其廣泛的適用性而引起了研究者的興趣。正因為如此,多年來出現了一系列廣泛的方法,這些方法從基于統計的方法到基于機器學習的方法。在這一領域已經進行了大量的綜述,但本文著重介紹了使用深度學習進行異常檢測領域的最新進展。深度學習已成功應用于人工智能的許多領域,如計算機視覺、自然語言處理等。然而,這項調查關注的是深度學習是如何改進的,并為視頻異常檢測領域提供了更多的見解。本文針對不同的深度學習方法提供了一個分類。此外,還討論了常用的數據集以及常用的評價指標。然后,對最近的研究方法進行了綜合討論,以提供未來研究的方向和可能的領域。

//arxiv.org/abs/2009.14146

付費5元查看完整內容

多模態摘要(Multi-modal Summarization)是指輸入多種模態信息,通常包括文本,語音,圖像,視頻等信息,輸出一段綜合考慮多種模態信息后的核心概括。目前的摘要研究通常以文本為處理對象,一般不涉及其他模態信息的處理。然而,不同模態的信息是相互補充和驗證的,充分有效的利用不同模態的信息可以幫助模型更好的定位關鍵內容,生成更好的摘要。本文首先按照任務類型與模態信息是否同步對多模態摘要進行分類;接著介紹多模態表示中的一些基礎知識;最后按照任務類型分類,簡述了近幾年多模態摘要在教學型視頻、多模態新聞、多模態輸入多模態輸出以及會議中的相關工作,最后給出一些思考與總結。

本文從任務分類的角度,簡單介紹了多模態摘要的相關工作。盡管多模態摘要已經取得了一定的進展,但是依舊存在以下幾個關鍵點值得認真思考:

(1)現有模型結構簡單。現有模型架構基本為序列到序列模型結合層次化注意力機制,不同的工作會依據任務特點進行一定的改進。為了更有效的融合多模態信息,發揮模態信息的交互互補作用,在目前架構的基礎上,應該思考更加合適的架構。

(2)不同模態信息交互較少。現有工作模態融合的核心在于層次化注意力機制,除此以外,不同模態信息缺少顯式的交互方式,無法充分的發揮模態信息之間的互補關系。

(3)依賴于人工先驗知識。通常來講,需要人為預先選擇不同類型的預訓練特征抽取模型進行特征提取,這一過程依賴于很強的人工判斷來預先決定有效的特征,需要一定的領域專業知識。

(4)數據隱私性考慮少。多模態數據在提供更豐富信息的同時,也給數據保密帶來了一定的挑戰。例如多模態會議數據,其中的聲紋特征與臉部特征都是非常重要的個人隱私信息。因此在實際落地中需要充分考慮數據隱私性問題。

(5)單一文本輸出缺少多樣性。現有工作已經開始嘗試多模態輸入多模態輸出,當輸出摘要包含多種模態時,可以滿足更廣泛人群的需求。例如對于語言不熟悉時,可以通過視頻和圖片快速了解重要內容。在未來多模態摘要輸出也將成為一個重要的研究關注點。

總體而言,在多模態火熱發展的大背景下,多模態摘要作為其中的一個分支既具有多模態學習的共性問題,也具有摘要任務自身的個性問題,該任務在近幾年開始蓬勃發展,在未來也會成為一個重要的研究方向。

[1] Jind?ich Libovicky and Jind?ich Helcl. Attention strategies for multi-source sequence-to-sequence learning. ACL 2017. //www.aclweb.org/anthology/P17-2031

[2] Yansen Wang, Ying Shen, Zhun Liu, P. P. Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. AAAI 2019.

[3] Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, and M. Zhou. Unicoder-vl: A universal encoder forvision and language by cross-modal pre-training. AAAI 2020.

[4] R. Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Lo?c Barrault, Lucia Specia,and F. Metze. How2: A large-scale dataset for multimodal language understanding. NeurIPS 2018.

[5] Shruti Palaskar, Jind?ich Libovicky, Spandana Gella, and F. Metze. Multimodal abstractive summarization for how2 videos. ACL 2019.

[6] Haoran Li, Junnan Zhu, C. Ma, Jiajun Zhang, and C. Zong. Multi-modal summarization forasynchronous collection of text, image, audio and video. 2017.

[7] Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang, and C. Zong. Multi-modal sentence summarization with modality attention and image filtering. IJCAI 2018.

[8] Junnan Zhu, Haoran Li, Tianshang Liu, Y. Zhou, Jiajun Zhang, and C. Zong. Msmo: Multimodal summarization with multimodal output. EMNLP 2018.

[9] Junnan Zhu, Yin qing Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, and Changliang Li. Multimodal summarization with guidance of multimodal reference. AAAI 2020.

[10] B. Erol, Dar-Shyang Lee, and J. Hull. Multimodal summarization of meeting recordings. ICME 2003.

[11] Fumio Nihei, Yukiko I. Nakano, and Yutaka Takase. Fusing verbal and nonverbal information forextractive meeting summarization. GIFT 2018.

[12] Manling Li, L. Zhang, H. Ji, and R. Radke. Keep meeting summaries on topic: Abstractive multimodal meeting summarization. ACL 2019.

付費5元查看完整內容

近年來, 隨著海量數據的涌現, 可以表示對象之間復雜關系的圖結構數據越來越受到重視并給已有的算法帶來了極大的挑戰. 圖神經網絡作為可以揭示深層拓撲信息的模型, 已開始廣泛應用于諸多領域,如通信、生命科學和經濟金融等. 本文對近幾年來提出的圖神經網絡模型和應用進行綜述, 主要分為以下幾類:基于空間方法的圖神經網絡模型、基于譜方法的圖神經網絡模型和基于生成方法的圖神經網絡模型等,并提出可供未來進一步研究的問題.

//engine.scichina.com/publisher/scp/journal/SSM/50/3/10.1360/N012019-00133?slug=fulltext

圖是對對象及其相互關系的一種簡潔抽象的直觀數學表達. 具有相互關系的數據—圖結構數據在眾多領域普遍存在, 并得到廣泛應用. 隨著大量數據的涌現, 傳統的圖算法在解決一些深層次的重要問題, 如節點分類和鏈路預測等方面有很大的局限性. 圖神經網絡模型考慮了輸入數據的規模、異質性和深層拓撲信息等, 在挖掘深層次有效拓撲信息、 提取數據的關鍵復雜特征和 實現對海量數據的快速處理等方面, 例如, 預測化學分子的特性 [1]、文本的關系提取 [2,3]、圖形圖像的結構推理 [4,5]、社交網絡的鏈路預測和節點聚類 [6]、缺失信息的網絡補全 [7]和藥物的相互作用預測 [8], 顯示了令人信服的可靠性能.

圖神經網絡的概念最早于 2005 年由 Gori 等 [9]提出, 他借鑒神經網絡領域的研究成果, 設計了一種用于處理圖結構數據的模型. 2009 年, Scarselli 等 [10]對此模型進行了詳細闡述. 此后, 陸續有關于圖神經網絡的新模型及應用研究被提出. 近年來, 隨著對圖結構數據研究興趣的不斷增加, 圖神經網絡研究論文數量呈現出快速上漲的趨勢, 圖神經網絡的研究方向和應用領域都得到了很大的拓展.

目前已有一些文獻對圖神經網絡進行了綜述. 文獻 [11]對圖結構數據和流形數據領域的深度學習方法進行了綜述, 側重于將所述各種方法置于一個稱為幾何深度學習的統一框架之內; 文獻[12]將圖神經網絡方法分為三類: 半監督學習、無監督學習和最新進展, 并根據發展歷史對各種方法進行介紹、分析和對比; 文獻[13]介紹了圖神經網絡原始模型、變體和一般框架, 并將圖神經網絡的應用劃分為結構場景、非結構場景和其他場景; 文獻[14]提出了一種新的圖神經網絡分類方法, 重點介紹了圖卷積網絡, 并總結了圖神經網絡方法在不同學習任務中的開源代碼和基準.

本文將對圖神經網絡模型的理論及應用進行綜述, 并討論未來的方向和挑戰性問題. 與其他綜述文獻的不同之處在于, 我們給出新的分類標準, 并且介紹圖神經網絡豐富的應用成果. 本文具體結構如下: 首先介紹三類主要的圖神經網絡模型, 分別是基于空間方法的圖神經網絡、基于譜方法的圖神經網絡和基于生成方法的圖神經網絡等; 然后介紹模型在節點分類、鏈路預測和圖生成等方面的應用; 最后提出未來的研究方向.

付費5元查看完整內容

摘要

一個綜合的人工智能系統不僅需要用不同的感官(如視覺和聽覺)感知環境,還需要推斷世界的條件(甚至因果)關系和相應的不確定性。在過去的十年里,我們看到了許多感知任務的重大進展,比如視覺對象識別和使用深度學習模型的語音識別。然而,對于更高層次的推理,具有貝葉斯特性的概率圖模型仍然更加強大和靈活。近年來,貝葉斯深度學習作為一種將深度學習與貝葉斯模型緊密結合的統一的概率框架出現了。在這個總體框架中,利用深度學習對文本或圖像的感知可以提高更高層次推理的性能,推理過程的反饋也可以增強文本或圖像的感知。本文對貝葉斯深度學習進行了全面的介紹,并對其在推薦系統主題模型控制等方面的最新應用進行了綜述。此外,我們還討論了貝葉斯深度學習與其他相關課題如神經網絡的貝葉斯處理之間的關系和區別。

介紹

在過去的十年中,深度學習在許多流行的感知任務中取得了顯著的成功,包括視覺對象識別、文本理解和語音識別。這些任務對應于人工智能(AI)系統的看、讀、聽能力,它們無疑是人工智能有效感知環境所必不可少的。然而,要建立一個實用的、全面的人工智能系統,僅僅有感知能力是遠遠不夠的。首先,它應該具備思維能力。

一個典型的例子是醫學診斷,它遠遠超出了簡單的感知:除了看到可見的癥狀(或CT上的醫學圖像)和聽到患者的描述,醫生還必須尋找所有癥狀之間的關系,最好推斷出它們的病因。只有在那之后,醫生才能給病人提供醫療建議。在這個例子中,雖然視覺和聽覺的能力讓醫生能夠從病人那里獲得信息,但醫生的思維能力才是關鍵。具體來說,這里的思維能力包括識別條件依賴、因果推理、邏輯演繹、處理不確定性等,顯然超出了傳統深度學習方法的能力。幸運的是,另一種機器學習范式,概率圖形模型(PGM),在概率或因果推理和處理不確定性方面表現出色。問題在于,PGM在感知任務上不如深度學習模型好,而感知任務通常涉及大規模和高維信號(如圖像和視頻)。為了解決這個問題,將深度學習和PGM統一到一個有原則的概率框架中是一個自然的選擇,在本文中我們稱之為貝葉斯深度學習(BDL)。 在上面的例子中,感知任務包括感知病人的癥狀(例如,通過看到醫學圖像),而推理任務包括處理條件依賴性、因果推理、邏輯推理和不確定性。通過貝葉斯深度學習中有原則的整合,將感知任務和推理任務視為一個整體,可以相互借鑒。具體來說,能夠看到醫學圖像有助于醫生的診斷和推斷。另一方面,診斷和推斷反過來有助于理解醫學圖像。假設醫生可能不確定醫學圖像中的黑點是什么,但如果她能夠推斷出癥狀和疾病的病因,就可以幫助她更好地判斷黑點是不是腫瘤。 再以推薦系統為例。一個高精度的推薦系統需要(1)深入了解條目內容(如文檔和電影中的內容),(2)仔細分析用戶檔案/偏好,(3)正確評價用戶之間的相似度。深度學習的能力有效地處理密集的高維數據,如電影內容擅長第一子任務,而PGM專攻建模條件用戶之間的依賴關系,項目和評分(參見圖7為例,u, v,和R是用戶潛在的向量,項目潛在的向量,和評級,分別)擅長其他兩個。因此,將兩者統一在一個統一的概率原則框架中,可以使我們在兩個世界中都得到最好的結果。這種集成還帶來了額外的好處,可以優雅地處理推薦過程中的不確定性。更重要的是,我們還可以推導出具體模型的貝葉斯處理方法,從而得到更具有魯棒性的預測。

作為第三個例子,考慮根據從攝像機接收到的實時視頻流來控制一個復雜的動態系統。該問題可以轉化為迭代執行兩項任務:對原始圖像的感知和基于動態模型的控制。處理原始圖像的感知任務可以通過深度學習來處理,而控制任務通常需要更復雜的模型,如隱馬爾科夫模型和卡爾曼濾波器。由控制模型選擇的動作可以依次影響接收的視頻流,從而完成反饋回路。為了在感知任務和控制任務之間實現有效的迭代過程,我們需要信息在它們之間來回流動。感知組件將是控制組件估計其狀態的基礎,而帶有動態模型的控制組件將能夠預測未來的軌跡(圖像)。因此,貝葉斯深度學習是解決這一問題的合適選擇。值得注意的是,與推薦系統的例子類似,來自原始圖像的噪聲和控制過程中的不確定性都可以在這樣的概率框架下自然地處理。 以上例子說明了BDL作為一種統一深度學習和PGM的原則方式的主要優勢:感知任務與推理任務之間的信息交換、對高維數據的條件依賴以及對不確定性的有效建模。關于不確定性,值得注意的是,當BDL應用于復雜任務時,需要考慮三種參數不確定性:

  1. 神經網絡參數的不確定性
  2. 指定任務參數的不確定性
  3. 感知組件和指定任務組件之間信息交換的不確定性

通過使用分布代替點估計來表示未知參數,BDL提供了一個很有前途的框架,以統一的方式處理這三種不確定性。值得注意的是,第三種不確定性只能在BDL這樣的統一框架下處理;分別訓練感知部分和任務特定部分相當于假設它們之間交換信息時沒有不確定性。注意,神經網絡通常是過參數化的,因此在有效處理如此大的參數空間中的不確定性時提出了額外的挑戰。另一方面,圖形模型往往更簡潔,參數空間更小,提供了更好的可解釋性。

除了上述優點之外,BDL內建的隱式正則化還帶來了另一個好處。通過在隱藏單元、定義神經網絡的參數或指定條件依賴性的模型參數上施加先驗,BDL可以在一定程度上避免過擬合,尤其是在數據不足的情況下。通常,BDL模型由兩個組件組成,一個是感知組件,它是某種類型神經網絡的貝葉斯公式,另一個是任務特定組件,使用PGM描述不同隱藏或觀察變量之間的關系。正則化對它們都很重要。神經網絡通常過度參數化,因此需要適當地正則化。正則化技術如權值衰減和丟失被證明是有效地改善神經網絡的性能,他們都有貝葉斯解釋。在任務特定組件方面,專家知識或先驗信息作為一種正規化,可以在數據缺乏時通過施加先驗來指導模型。 在將BDL應用于實際任務時,也存在一些挑戰。(1)首先,設計一個具有合理時間復雜度的高效的神經網絡貝葉斯公式并非易事。這一行是由[42,72,80]開創的,但是由于缺乏可伸縮性,它沒有被廣泛采用。幸運的是,這個方向的一些最新進展似乎為貝葉斯神經網絡的實際應用提供了一些啟示。(2)第二個挑戰是如何確保感知組件和任務特定組件之間有效的信息交換。理想情況下,一階和二階信息(例如,平均值和方差)應該能夠在兩個組件之間來回流動。一種自然的方法是將感知組件表示為PGM,并將其與特定任務的PGM無縫連接,如[24,118,121]中所做的那樣。 本綜述提供了對BDL的全面概述,以及各種應用程序的具體模型。綜述的其余部分組織如下:在第2節中,我們將回顧一些基本的深度學習模型。第3節介紹PGM的主要概念和技術。這兩部分作為BDL的基礎,下一節第4節將演示統一BDL框架的基本原理,并詳細說明實現其感知組件和特定于任務的組件的各種選擇。第5節回顧了應用于不同領域的BDL模型,如推薦系統、主題模型和控制,分別展示了BDL在監督學習、非監督學習和一般表示學習中的工作方式。第6部分討論了未來的研究問題,并對全文進行了總結。

結論和未來工作

BDL致力于將PGM和NN的優點有機地整合在一個原則概率框架中。在這項綜述中,我們確定了這種趨勢,并回顧了最近的工作。BDL模型由感知組件和任務特定組件組成;因此,我們分別描述了過去幾年開發的兩個組件的不同實例,并詳細討論了不同的變體。為了學習BDL中的參數,人們提出了從塊坐標下降、貝葉斯條件密度濾波、隨機梯度恒溫器到隨機梯度變分貝葉斯等多種類型的算法。 BDL從PGM的成功和最近在深度學習方面有前景的進展中獲得了靈感和人氣。由于許多現實世界的任務既涉及高維信號(如圖像和視頻)的有效感知,又涉及隨機變量的概率推理,因此BDL成為利用神經網絡的感知能力和PGM的(條件和因果)推理能力的自然選擇。在過去的幾年中,BDL在推薦系統、主題模型、隨機最優控制、計算機視覺、自然語言處理、醫療保健等各個領域都有成功的應用。在未來,我們不僅可以對現有的應用進行更深入的研究,還可以對更復雜的任務進行探索。此外,最近在高效BNN (BDL的感知組件)方面的進展也為進一步提高BDL的可擴展性奠定了基礎。

付費5元查看完整內容

模態是指事物發生或存在的方式,如文字、語言、聲音、圖形等。多模態學習是指學習多個模態中各個模態的信息,并且實現各個模態的信息的交流和轉換。多模態深度學習是指建立可以完成多模態學習任務的神經網絡模型。多模態學習的普遍性和深度學習的熱度賦予了多模態深度學習鮮活的生命力和發展潛力。旨在多模態深度學習的發展前期,總結當前的多模態深度學習,發現在不同的多模態組合和學習目標下,多模態深度學習實現過程中的共有問題,并對共有問題進行分類,敘述解決各類問題的方法。具體來說,從涉及自然語言、視覺、聽覺的多模態學習中考慮了語言翻譯、事件探測、信息描述、情緒識別、聲音識別和合成,以及多媒體檢索等方面研究,將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類,并對各問題進行子分類和論述,同時列舉了為解決各問題產生的神經網絡模型。最后論述了實際多模態系統,多模態深度學習研究中常用的數據集和評判標準,并展望了多模態深度學習的發展趨勢。

付費5元查看完整內容

自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。

付費5元查看完整內容
北京阿比特科技有限公司