午夜剧场成年免费视-91久久精品美女高潮喷水APP

多模態機器學習是一個充滿活力的多學科研究領域，通過設計計算機代理來解決人工智能的一些原始目標，這些代理能夠通過整合和建模多種交互模態，包括語言、聽覺和視覺信息。隨著對視聽語音識別的初步研究，以及近年來對圖像和視頻字幕、視覺問答和語言引導強化學習等語言和視覺項目的研究，這一研究領域給多模態研究人員帶來了一些獨特的挑戰，因為數據的異質性和模態之間的偶然性經常被發現。

多模態機器學習(MMML)是一個充滿活力的多學科研究領域，研究從多個模態建模異構數據的計算方法。本課程介紹機器學習和深度學習的基本概念，涉及多模態機器學習的五個主要挑戰:(1)多模態表示，(2)模態對齊，(3)多模態推理，(4)翻譯和映射，(5)協同學習。本講座還討論了最新的多模態深度學習模型和方向。

付費5元查看完整內容

相關內容

多模態深度學習

關注 32

多模態表示學習 · 自然語言處理 · 計算機視覺 · 機器人 · 博士論文 ·

2022 年 3 月 6 日

[付費5元查看完整內容]【斯坦福Kevin Chen博士論文】視覺、語言和具身AI的多模態表示， Multimodal representations for vision, language, and embodied AI

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如，圖像識別被廣泛認為是計算機視覺的圣杯，而語言建模和翻譯則是自然語言處理的基本任務。然而，許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題，而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體，還需要能夠解釋自然語言描述或命令，并理解它們如何與其感知到的視覺觀察相關聯。此外，機器人需要利用這些信息來做決策，并決定采取哪些物理行動來完成任務。在本文的第一部分中，我提出了一種學習如何將自然語言和3D形狀聯系起來的方法，這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來，我們依賴一個跨模態嵌入空間來進行多模態推理，并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來，我們可以執行文本到形狀的檢索和形狀操作等任務，也可以執行新的任務，如文本到形狀的生成。在本論文的第二部分中，我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同，代理現在位于一個物理環境中，并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來，我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來，并將一系列的視覺觀察與物理運動和動作聯系起來

付費5元查看完整內容

多模態機器學習 · 卡內基梅隆大學 (Carnegie Mellon University) · 課程 ·

2022 年 2 月 1 日

[付費5元查看完整內容]開課了！CMU《多模態機器學習》2022課程，附課件與視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

不可錯過！多模態機器學習課程！

多模態機器學習(MMML)是一個充滿活力的多學科研究領域，通過整合和建模多種交流模式(包括語言、視覺和聲學)來解決人工智能的一些最初目標。這一研究領域給多模態研究人員帶來了一些獨特的挑戰，因為數據的異質性和模式之間的偶然性經常被發現。本課程是一門研究生水平的課程，涵蓋了多模態機器學習的最新研究論文，包括表示、對齊、推理、生成、協同學習和量化方面的技術挑戰。本課程的主要目標是提高批判性思維能力，了解最新的技術成就，并了解未來的研究方向。

本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習，(2)平移與映射，(3)模態對齊，(4)多模態融合和(5)協同學習。這些包括但不限于，多模態自動編碼器，深度典型相關分析，多核學習，注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用，包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。

//cmu-multicomp-lab.github.io/adv-mmml-course/spring2022/schedule/

付費5元查看完整內容

多模態深度學習 · 深度學習 ·

2021 年 6 月 8 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

引言

深度學習已經實現了廣泛的應用，并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展，但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態，即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法，并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類，并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集，以及它們的評估指標。最后，分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。

//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1

概述

機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外，DL的主要優點是它以分層的形式表示，即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來，并在多個應用中顯示出令人印象深刻的結果，如視覺數據處理、自然語言處理(NLP)、語音和音頻處理，以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。

我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面，以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此，上面提到的各種媒體形式都與模態有關，而這些多模態的共同表示可以定義為multimodal[47]。然而，對人類的全部方面進行建模是不夠的。單模態工作更好的地方，方法的進展需要在一個模式。多模態學習表明，當多種感官參與信息處理時，我們能更好地理解和分析。本文著重討論了各種各樣的模態，本文從MMDL的角度探討了多種模態，包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。

人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL，快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域，如自動駕駛汽車、圖像處理、醫療診斷和預測預測等，表現得與人類相似，甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.

在本研究中，我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組，并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用，并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外，還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后，針對每一組應用分別提出了有待解決的研究問題，并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究，并有助于更好地理解這一特定領域尚未解決的問題。

付費5元查看完整內容

多模態機器學習 · 卡內基梅隆大學 (Carnegie Mellon University) ·

2020 年 9 月 3 日

[付費5元查看完整內容]【硬核課】CMU《多模態機器學習》2020課程，附課件與視頻

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態機器學習(MMML)是一個充滿活力的多學科研究領域，通過整合和建模多種交流模態(包括語言、聲音和視覺信息)來實現人工智能的一些原始目標。隨著對視聽語音識別的初步研究，以及最近的語言和視覺項目，如圖像和視頻字幕，這個研究領域給多模態研究人員帶來了一些獨特的挑戰，因為數據的異質性和模式之間經常發現的偶然性。本課程將教授與MMML相關的基本數學概念，包括多模態對齊與融合、異質表示學習和多流時間建模。我們還將回顧最近描述最先進的MMML概率模型和計算算法的論文，并討論當前和即將面臨的挑戰。

課程目錄:

課程導論
多模態應用與數據集
基本概念：神經網絡
網絡優化
視覺單模態表示學習
語言單模態表示學習
多模態表示學習
多模態對齊
結構化表示
概率圖模型
判別性圖模型
神經生成模型
強化學習
多模態強化學習
融合與協同學習
多語言表示學習

付費5元查看完整內容

多模態深度學習 · 深度學習 ·

2020 年 3 月 29 日

[付費5元查看完整內容]多模態深度學習綜述，18頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

模態是指事物發生或存在的方式，如文字、語言、聲音、圖形等。多模態學習是指學習多個模態中各個模態的信息，并且實現各個模態的信息的交流和轉換。多模態深度學習是指建立可以完成多模態學習任務的神經網絡模型。多模態學習的普遍性和深度學習的熱度賦予了多模態深度學習鮮活的生命力和發展潛力。旨在多模態深度學習的發展前期，總結當前的多模態深度學習，發現在不同的多模態組合和學習目標下，多模態深度學習實現過程中的共有問題，并對共有問題進行分類，敘述解決各類問題的方法。具體來說，從涉及自然語言、視覺、聽覺的多模態學習中考慮了語言翻譯、事件探測、信息描述、情緒識別、聲音識別和合成，以及多媒體檢索等方面研究，將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類，并對各問題進行子分類和論述，同時列舉了為解決各問題產生的神經網絡模型。最后論述了實際多模態系統，多模態深度學習研究中常用的數據集和評判標準，并展望了多模態深度學習的發展趨勢。

付費5元查看完整內容

深度學習 · 遷移學習 · 元學習 · 知識圖譜 · 小樣本學習 ·

2020 年 1 月 1 日

[付費5元查看完整內容]2019->2020必看的十篇「深度學習領域綜述」論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】辭九迎零，我們迎來2020，到下一個十年。在2019年機器學習領域繼續快速發展，元學習、遷移學習、小樣本學習、深度學習理論等取得很多進展。在此，專知小編整理這一年這些研究熱點主題的綜述進展，共十篇，了解當下，方能向前。

1、A guide to deep learning in healthcare（醫療深度學習技術指南）

斯坦福&谷歌Jeff Dean最新Nature論文：醫療深度學習技術指南（29頁綜述）

Google 斯坦福 Nature Medicine

作者：Andre Esteva, Alexandre Robicquet, Bharath Ramsundar, Volodymyr Kuleshov, Mark DePristo, Katherine Chou, Claire Cui, Greg Corrado, Sebastian Thrun & Jeff Dean

摘要：我們介紹了醫療保健的深度學習技術，重點討論了計算機視覺、自然語言處理、強化學習和廣義方法的深度學習。我們將描述這些計算技術如何影響醫學的幾個關鍵領域，并探討如何構建端到端系統。我們對計算機視覺的討論主要集中在醫學成像上，我們描述了自然語言處理在電子健康記錄數據等領域的應用。同樣，在機器人輔助手術的背景下討論了強化學習，并綜述了基因組學的廣義深度學習方法。

網址：

//www.nature.com/articles/s41591-018-0316-z

2、Multimodal Machine Learning: A Survey and Taxonomy（多模態機器學習）

人工智能頂刊TPAMI2019最新《多模態機器學習綜述》

CMU TPAMI

作者：Tadas Baltru?aitis,Chaitanya Ahuja,Louis-Philippe Morency

摘要：我們對世界的體驗是多模態的 - 我們看到物體，聽到聲音，感覺質地，聞到異味和味道。情態是指某種事物發生或經歷的方式，并且當研究問題包括多種這樣的形式時，研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進展，它需要能夠將這種多模態信號一起解釋。多模態機器學習旨在構建可以處理和關聯來自多種模態的信息的模型。這是一個充滿活力的多學科領域，具有越來越重要的意義和非凡的潛力。本文不是關注特定的多模態應用，而是研究多模態機器學習本身的最新進展。我們超越了典型的早期和晚期融合分類，并確定了多模式機器學習所面臨的更廣泛的挑戰，即：表示，翻譯，對齊，融合和共同學習。這種新的分類法將使研究人員能夠更好地了解該領域的狀況，并確定未來研究的方向。

網址：

3、Few-shot Learning: A Survey（小樣本學習）

《小樣本學習(Few-shot learning)》最新41頁綜述論文，來自港科大和第四范式

香港科大第四范式

作者：Yaqing Wang,Quanming Yao

摘要：“機器會思考嗎”和“機器能做人類做的事情嗎”是推動人工智能發展的任務。盡管最近的人工智能在許多數據密集型應用中取得了成功，但它仍然缺乏從有限的數據示例學習和對新任務的快速泛化的能力。為了解決這個問題，我們必須求助于機器學習，它支持人工智能的科學研究。特別地，在這種情況下，有一個機器學習問題稱為小樣本學習(Few-Shot Learning，FSL)。該方法利用先驗知識，可以快速地推廣到有限監督經驗的新任務中，通過推廣和類比，模擬人類從少數例子中獲取知識的能力。它被視為真正人工智能，是一種減少繁重的數據收集和計算成本高昂的培訓的方法，也是罕見案例學習有效方式。隨著FSL研究的廣泛開展，我們對其進行了全面的綜述。我們首先給出了FSL的正式定義。然后指出了FSL的核心問題，將問題從“如何解決FSL”轉變為“如何處理核心問題”。因此，從FSL誕生到最近發表的作品都被歸為一個統一的類別，并對不同類別的優缺點進行了深入的討論。最后，我們從問題設置、技術、應用和理論等方面展望了FSL未來可能的發展方向，希望為初學者和有經驗的研究者提供一些見解。

網址：

4、meta Learning: A Survey（元學習）

元學習(Meta-Learning) 綜述及五篇頂會論文推薦

作者：Joaquin Vanschoren

摘要：元學習，或學習學習，是一門系統地觀察不同機器學習方法如何在廣泛的學習任務中執行的科學，然后從這種經驗或元數據中學習，以比其他方法更快的速度學習新任務。這不僅極大地加快和改進了機器學習管道或神經體系結構的設計，還允許我們用以數據驅動方式學習的新方法取代手工設計的算法。在本文中，我們將概述這一迷人且不斷發展的領域的最新進展。

網址：

5、A Comprehensive Survey on Transfer Learning（遷移學習）

中科院發布最新遷移學習綜述論文，帶你全面了解40種遷移學習方法

作者：Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Senior Member, IEEE, Hui Xiong, Senior Member, IEEE, and Qing He

摘要：遷移學習的目的是通過遷移包含在不同但相關的源域中的知識來提高目標學習者在目標域上的學習表現。這樣，可以減少對大量目標域數據的依賴，以構建目標學習者。由于其廣泛的應用前景，遷移學習已經成為機器學習中一個熱門和有前途的領域。雖然已經有一些關于遷移學習的有價值的和令人印象深刻的綜述，但這些綜述介紹的方法相對孤立，缺乏遷移學習的最新進展。隨著遷移學習領域的迅速擴大，對相關研究進行全面的回顧既有必要也有挑戰。本文試圖將已有的遷移學習研究進行梳理使其系統化，并對遷移學習的機制和策略進行全面的歸納和解讀，幫助讀者更好地了解當前的研究現狀和思路。與以往的文章不同，本文從數據和模型的角度對40多種具有代表性的遷移學習方法進行了綜述。還簡要介紹了遷移學習的應用。為了展示不同遷移學習模型的性能，我們使用了20種有代表性的遷移學習模型進行實驗。這些模型是在三個不同的數據集上執行的，即Amazon Reviews，Reuters-21578和Office-31。實驗結果表明，在實際應用中選擇合適的遷移學習模型是非常重要的。。

網址：

6、Multimodal Intelligence: Representation Learning, Information Fusion, and Applications（多模態智能論文綜述：表示學習，信息融合與應用）【IEEE Fellow何曉東&鄧力】多模態智能論文綜述：表示學習，信息融合與應用，259篇文獻帶你了解AI熱點技術

京東

作者：Chao Zhang,Zichao Yang,Xiaodong He,Li Deng

【摘要】自2010年以來，深度學習已經使語音識別、圖像識別和自然語言處理發生了革命性的變化，每種方法在輸入信號中都只涉及一種模態。然而，人工智能的許多應用涉及到多種模態。因此，研究跨多種模態的建模和學習的更困難和更復雜的問題具有廣泛的意義。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究的一個重要領域。本文從學習多模態表示、多模態信號在不同層次上的融合以及多模態應用三個新角度對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中，我們回顧了嵌入的關鍵概念，將多模態信號統一到同一個向量空間中，從而實現了多模態信號的交叉處理。我們還回顧了許多類型的嵌入的性質，構造和學習的一般下游任務。在多模態融合方面，本文著重介紹了用于集成單模態信號表示的特殊結構。在應用方面，涵蓋了當前文獻中廣泛關注的選定領域，包括標題生成、文本到圖像生成和可視化問題回答。我們相信這項綜述可促進未來多模態智能的研究。

網址：

7、Object Detection in 20 Years: A Survey（目標檢測）

密歇根大學40頁《20年目標檢測綜述》最新論文，帶你全面了解目標檢測方法

作者：Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye

摘要：目標檢測作為計算機視覺中最基本、最具挑戰性的問題之一，近年來受到了廣泛的關注。它在過去二十年的發展可以說是計算機視覺歷史的縮影。如果我們把今天的目標檢測看作是深度學習力量下的一種技術美學，那么讓時光倒流20年，我們將見證冷兵器時代的智慧。本文從目標檢測技術發展的角度，對近四分之一世紀(20世紀90年代至2019年)的400余篇論文進行了廣泛的回顧。本文涵蓋了許多主題，包括歷史上的里程碑檢測器、檢測數據集、度量、檢測系統的基本構建模塊、加速技術以及最新的檢測方法。本文還綜述了行人檢測、人臉檢測、文本檢測等重要的檢測應用，并對其面臨的挑戰以及近年來的技術進步進行了深入分析。

網址：

8、A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications（中文知識圖譜）

作者：Tianxing Wu, Guilin Qi ,*, Cheng Li and Meng Wang

摘要：隨著智能技術的不斷發展，作為人工智能支柱的知識圖譜以其強大的知識表示和推理能力受到了學術界和產業界的廣泛關注。近年來，知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。構建中文知識圖譜的技術也在迅速發展，不同的中文知識圖譜以支持不同的應用。同時，我國在知識圖譜開發方面積累的經驗對非英語知識圖譜的開發也有很好的借鑒意義。本文旨在介紹中文知識圖譜的構建技術及其應用，然后介紹了典型的中文知識圖譜，此外我們介紹了構建中文知識圖譜的技術細節，并介紹了了中文知識圖譜的幾種應用。

網址：

9、Advances and Open Problems in Federated Learning（聯邦學習）

【重磅】聯邦學習FL進展與開放問題萬字綜述論文，58位學者25家機構聯合出品，105頁pdf438篇文獻

摘要：聯邦學習(FL)是一種機器學習設置，在這種設置中，許多客戶(例如移動設備或整個組織)在中央服務器(例如服務提供商)的協調下協作地訓練模型，同時保持訓練數據分散。FL體現了集中數據收集和最小化的原則，可以減輕由于傳統的、集中的機器學習和數據科學方法所帶來的許多系統隱私風險和成本。在FL研究爆炸性增長的推動下，本文討論了近年來的進展，并提出了大量的開放問題和挑戰。

網址：

10、Optimization for deep learning: theory and algorithms（深度學習優化理論算法）

【2019年末硬貨】深度學習的最優化:理論和算法綜述論文，60頁pdf257篇文獻

摘要：什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先，我們討論了梯度爆炸/消失問題和更一般的不期望譜問題，然后討論了實際的解決方案，包括仔細的初始化和歸一化方法。其次，我們回顧了用于訓練神經網絡的一般優化方法，如SGD、自適應梯度方法和分布式方法，以及這些算法的現有理論結果。第三，我們回顧了現有的關于神經網絡訓練的全局問題的研究，包括局部極值的結果、模式連接、彩票假設和無限寬度分析。

網址：

付費5元查看完整內容

深度學習 · Xavier Bresson · 專知公眾號VIP · 圖深度學習 · 卷積神經網絡 ·

2019 年 11 月 27 日

[付費5元查看完整內容]【南洋理工大學Xavier Bresson】圖深度學習最近進展，35頁ppt，Deep Learning on Graphs

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

簡介： 機器學習在處理結構化數據集（例如表格數據）方面歷來是成功的。隨著最近的進步，特別是在深度學習方面的進步，現在還存在用于處理圖像，文本和語音數據的完善且強大的方法。但是，許多現實世界的數據并不屬于這些類別。這種數據重要的一種是網絡或圖形數據，可用于對諸如社交網絡，交易流，計算機網絡甚至分子相互作用之類的概念進行建模。使用圖，我們可以輕松地表示和捕獲對象之間的復雜交互和依賴關系，但同時也提出了一個問題：我們如何將機器學習應用于結構化數據圖？

嘉賓介紹： Xavier Bresson，NTU計算機科學副教授。他是圖深度學習領域的領先研究人員，圖深度學習是一個新的框架，該框架結合了圖和深度學習技術，可以處理多個領域的復雜數據。演講的目的是介紹基于圖的卷積神經網絡體系結構，以及此類問題的應用。

大綱：