不可錯過!多模態機器學習課程!
多模態機器學習(MMML)是一個充滿活力的多學科研究領域,通過整合和建模多種交流模式(包括語言、視覺和聲學)來解決人工智能的一些最初目標。這一研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模式之間的偶然性經常被發現。本課程是一門研究生水平的課程,涵蓋了多模態機器學習的最新研究論文,包括表示、對齊、推理、生成、協同學習和量化方面的技術挑戰。本課程的主要目標是提高批判性思維能力,了解最新的技術成就,并了解未來的研究方向。
本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習,(2)平移與映射,(3)模態對齊,(4)多模態融合和(5)協同學習。這些包括但不限于,多模態自動編碼器,深度典型相關分析,多核學習,注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用,包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。
//cmu-multicomp-lab.github.io/adv-mmml-course/spring2022/schedule/
多模態機器學習是一個充滿活力的多學科研究領域,通過設計計算機代理來解決人工智能的一些原始目標,這些代理能夠通過整合和建模多種交互模態,包括語言、聽覺和視覺信息。隨著對視聽語音識別的初步研究,以及近年來對圖像和視頻字幕、視覺問答和語言引導強化學習等語言和視覺項目的研究,這一研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模態之間的偶然性經常被發現。
多模態機器學習(MMML)是一個充滿活力的多學科研究領域,研究從多個模態建模異構數據的計算方法。本課程介紹機器學習和深度學習的基本概念,涉及多模態機器學習的五個主要挑戰:(1)多模態表示,(2)模態對齊,(3)多模態推理,(4)翻譯和映射,(5)協同學習。本講座還討論了最新的多模態深度學習模型和方向。
自然語言處理技術試圖用計算機模擬人類語言,解決從自動翻譯到問答等各種各樣的問題。CS11-711高級自然語言處理(在卡耐基梅隆大學的語言技術研究所)是一門自然語言處理的入門級研究生課程,目標是有興趣在該領域進行前沿研究的學生。其中,我們描述了自然語言處理的基本任務,如句法、語義和篇章分析,以及解決這些任務的方法。本課程著重于使用神經網絡的現代方法,并涵蓋基本的建模和學習所需的算法。課程以一個項目結束,在這個項目中,學生試圖在他們選擇的主題中重新實施和改進一篇研究論文。
//phontron.com/class/anlp2021/schedule.html
高級自然語言處理是一門關于自然語言處理的入門級研究生課程,面向有志于在該領域進行前沿研究的學生。其中,我們描述了自然語言處理的基本任務,如句法、語義和篇章分析,以及解決這些任務的方法。本課程著重于使用神經網絡的現代方法,并涵蓋基本的建模和學習所需的算法。課程以一個項目結束,在這個項目中,學生試圖在他們選擇的主題中重新實施和改進一篇研究論文。
目錄內容:
引言
Intro 1 - NLP 概述 Overview of NLP (8/31/2021) Intro 2 - 文本分類 Text Classification (9/2/2021) Intro 3 - 語言建模 Language Modeling and NN Basics (9/7/2021) Intro 4 - 神經網絡基礎 Neural Network Basics and Toolkit Construction (9/9/2021)
建模
Modeling 1 - 循環神經網絡 Recurrent Networks (9/14/2021) Modeling 2 - 條件生成 Conditioned Generation (9/16/2021) Modeling 3 - 注意力機制 Attention (9/21/2021)
表示
Representation 1 - 預訓練方法 Pre-training Methods (9/23/2021) Representation 2 - 多任務多領域Multi-task, Multi-domain, and Multi-lingual Learning (9/28/2021) Representation 3 - 提示學習Prompting + Sequence-to-sequence Pre-training (9/30/2021) Representation 4 - Interpreting and Debugging NLP Models (10/5/2021) Modeling 4 - 序列標注 Sequence Labeling (10/7/2021)
分析
Analysis 1 - Word Segmentation and Morphology (10/12/2021) Break -- No Class! (10/14/2021) Analysis 2 - Syntactic Parsing (10/19/2021) Analysis 3 - Semantic Parsing (10/21/2021) Analysis 4 - Discourse Structure and Analysis (10/26/2021)
應用
Applications 1 - 機器閱讀Machine Reading QA (10/28/2021) Applications 2 - Dialog (11/02/2021) Applications 3 - Computational Social Science, Bias and Fairness (11/4/2021) Applications 4 - Information Extraction and Knowledge-based QA (11/9/2021)
學習
Learning 1 - Modeling Long Sequences (11/11/2021) Learning 2 - Structured Learning Algorithms (11/16/2021) Learning 3 - Latent Variable Models (11/18/2021) Learning 4 - Adversarial Methods for Text (11/23/2021) Thanksgiving -- No Class!! (11/25/2021) Poster Presentations (11/30/2021 and 12/2/2021)
機器學習是指通過經驗自動提高性能的計算機程序(例如,學習識別人臉、推薦音樂和電影,以及駕駛自動機器人的程序)。本課程從不同的角度涵蓋了機器學習的理論和實際算法。我們涵蓋的主題如貝葉斯網絡,決策樹學習,支持向量機,統計學習方法,無監督學習和強化學習。本課程涵蓋了歸納偏差、PAC學習框架、貝葉斯學習方法、基于邊際的學習和奧卡姆剃刀等理論概念。編程作業包括各種學習算法的動手實驗。本課程旨在為研究生提供機器學習研究人員目前所需要的方法學、技術、數學和算法的全面基礎知識。
通過學習這門課程,能夠獲取:
實現和分析現有的學習算法,包括學習良好的分類、回歸、結構化預測、聚類和表示學習方法 將實際機器學習的多個方面整合到一個系統中:數據預處理、學習、正則化和模型選擇 描述用于學習的模型和算法的形式屬性,并解釋這些結果的實際含義 比較和對比不同的學習模式(有監督的,無監督的,等等) 設計實驗來評估和比較現實問題中不同的機器學習技術 運用概率、統計學、微積分、線性代數和最優化來開發新的預測模型或學習方法 給出ML技術的描述,分析它以確定(1)形式主義的表達能力;(2)算法隱含的歸納偏差;(3)搜索空間的大小和復雜度;(5)關于終止、收斂、正確性、準確性或泛化能力的任何保證(或缺乏保證)。
課程地址:
在人工智能、統計學、計算機系統、計算機視覺、自然語言處理和計算生物學等許多領域中,許多問題都可以被視為從局部信息中尋找一致的全局結論。概率圖模型框架為這一范圍廣泛的問題提供了一個統一的視圖,能夠在具有大量屬性和巨大數據集的問題中進行有效的推理、決策和學習。這門研究生水平的課程將為您在復雜問題中運用圖模型中解決核心研究主題提供堅實的基礎。本課程將涵蓋三個方面: 核心表示,包括貝葉斯網絡和馬爾科夫網絡,以及動態貝葉斯網絡;概率推理算法,包括精確和近似; 以及圖模型的參數和結構的學習方法。進入這門課程的學生應該預先具備概率、統計學和算法的工作知識,盡管這門課程的設計是為了讓有較強數學背景的學生趕上并充分參與。希望通過本課程的學習,學生能夠獲得足夠的實際應用的多變量概率建模和推理的工作知識,能夠用通用模型在自己的領域內制定和解決廣泛的問題。并且可以自己進入更專業的技術文獻。
引言
深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。
//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1
概述
機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。
我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。
人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.
在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。
ML模型無處不在——從交通(自動駕駛汽車)到金融(信用卡或抵押貸款申請)和職業(公司招聘)。然而,ML并非沒有風險。一些重要的風險涉及模型理解和問責:機器學習創建的模型很大程度上是我們難以窺視和理解的黑盒子;他們容易受到不可預見的錯誤、對抗性操縱以及在隱私和公平方面違反倫理規范的影響。
本課程將提供最先進的ML方法的介紹,旨在使人工智能更值得信賴。本課程關注四個概念: 解釋、公平、隱私和健壯性。我們首先討論如何解釋ML模型輸出和內部工作。然后,我們研究了偏差和不公平是如何在ML模型中產生的,并學習了緩解這個問題的策略。接下來,我們將研究模型在不應該泄漏敏感信息的情況下泄漏敏感信息的上下文中的差異隱私和成員關系推斷。最后,我們將討論對抗性攻擊和提供抗對抗性操作的健壯性的方法。
學生將了解一套方法和工具,以部署透明、倫理和魯棒的機器學習解決方案。學生將完成實驗,家庭作業,并討論每周閱讀。
以深度神經網絡為代表的“深度學習”系統正越來越多地接管所有人工智能任務,從語言理解、語音和圖像識別,到機器翻譯、規劃,甚至是游戲和自動駕駛。因此,在許多高級學術機構中,深度學習的專業知識正從深奧的要求迅速轉變為強制性的先決條件,并成為工業就業市場的一大優勢。
在本課程中,我們將學習深度神經網絡的基礎知識,以及它們在各種人工智能任務中的應用。在本課程結束時,預計學生將對這門學科非常熟悉,并能夠將深度學習應用于各種任務。他們也將被定位去理解關于這個主題的許多當前的文獻,并通過進一步的學習來擴展他們的知識。
如果你只對課程感興趣,你可以在YouTube頻道上觀看。
多模態機器學習(MMML)是一個充滿活力的多學科研究領域,通過整合和建模多種交流模態(包括語言、聲音和視覺信息)來實現人工智能的一些原始目標。隨著對視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕,這個研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模式之間經常發現的偶然性。本課程將教授與MMML相關的基本數學概念,包括多模態對齊與融合、異質表示學習和多流時間建模。我們還將回顧最近描述最先進的MMML概率模型和計算算法的論文,并討論當前和即將面臨的挑戰。
本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習,(2)平移與映射,(3)模態對齊,(4)多模態融合和(5)協同學習。這些包括但不限于,多模態自動編碼器,深度典型相關分析,多核學習,注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用,包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。
課程目錄: