現代數據分析方法被期望處理大量的高維數據,這些數據被收集在不同的領域。這種數據的高維性帶來了許多挑戰,通常被稱為“維數災難”,這使得傳統的統計學習方法在分析時不切實際或無效。為了應對這些挑戰,人們投入了大量精力來開發幾何數據分析方法,這些方法對處理數據的固有幾何形狀進行建模和捕獲,而不是直接對它們的分布進行建模。在本課程中,我們將探討這些方法,并提供他們使用的模型和算法的分析研究。我們將從考慮監督學習開始,并從后驗和似然估計方法中區分基于幾何原則的分類器。接下來,我們將考慮聚類數據的無監督學習任務和基于密度估計的對比方法,這些方法依賴于度量空間或圖結構。最后,我們將考慮內在表示學習中更基本的任務,特別關注降維和流形學習,例如,使用擴散圖,tSNE和PHATE。如果時間允許,我們將包括與本課程相關的研究領域的客座演講,并討論圖形信號處理和幾何深度學習的最新發展。
目錄內容:
Topic 01 - Intoduction (incl. curse of dimensionality & overiew of data analysis tasks)
Topic 02 - Data Formalism ((incl. summary statistics, data types, preprocessing, and simple visualizations)
Topic 03 - Bayesian Classification (incl. decision boundaries, MLE, MAP, Bayes error rate, and Bayesian belief networks)
Topic 04 - Decision Trees (incl. random forests, random projections, and Johnson-Lindenstrauss lemma)
Topic 05 - Principal Component Analysis (incl. preprocessing & dimensionality reduction)
Topic 06 - Support Vector Machines (incl. the "kernel trick" & mercer kernels)
Topic 07 - Multidimensional Scaling (incl. spectral theorem & distance metrics)
Topic 08 - Density-based Clustering (incl. intro. to clustering & cluster eval. with RandIndex)
Topic 09 - Partitional Clustering (incl. lazy learners, kNN, voronoi partitions)
Topic 10 - Hierarchical Clustering (incl. large-scale & graph partitioning)
Topic 11 - Manifold Learning (incl. Isomap & LLE)
Topic 12 - Diffusion Maps
該課程將發展數據科學的核心領域(如:模型的回歸和分類)從幾個角度:概念的形成和屬性,解決算法及其實現,數據可視化的探索性數據分析和建模輸出的有效表示。課程將以使用Python、scikit-learn和TensorFlow的實踐課程作為補充。
引言 Introduction. Motivation, applications, examples, common data formats (csv, json), loading data with Python, calculating statistics over a dataset with numpy, logistics and overview of the course.
線性回歸 Linear Regression. Defining a model, fitting a model, least squares regression, linear regression, gradient descent, scikit-learn.
Practical: Linear Regression
分類 Classification, part I. Classification, logistic regression, perceptron, multi-class classification, classification performance measures.
Practical: Classification I
Classification, part II. An overview of other classification techniques (e.g., decision trees, SVMs) and more advanced techniques including ensemble-based models (boosting, bagging, exemplified with AdaBoost and Random Forests).
Practical: Classification II
深度學習基礎 Deep learning basics. Neural networks, applications in the world, optimization, stochastic gradient descent, backpropagation, learning rates
TensorFlow深度學習 Deep learning with TensorFlow. Introduction to TensorFlow, minimal TensorFlow example, symbolic graphs, training a network, practical tips for deep learning.
Practical: Deep learning with TensorFlow
深度學習架構 Deep learning architectures. Convolutional networks, RNNs, LSTMs, autoencoders, regularization.
Practical: Deep learning architectures
Visualization, part I. Scales and coordinates, depicting comparisons.
Visualization, part II. Common plotting patterns, including dimension reduction.
可視化 Practical: Visualization
Challenges in Data Science. Summary of the course, ethics and privacy in data science, P-hacking, look-everywhere effect, bias in the training data, interpretability, information about the hand out test.
//www.cl.cam.ac.uk/teaching/1920/M20/materials.html
//sites.google.com/view/ift6268-a2020/schedule
近年來,表示學習取得了很大的進展。大多數都是以所謂的自監督表示學習的形式。在本課程中,我們將對什么是自我監督的學習方法有一個相當廣泛的解釋,并在適當的時候包括一些無監督學習方法和監督學習方法。我們感興趣的方法,學習有意義的和有效的語義表示,而不(專門)依賴標簽數據。更具體地說,我們將對以下方法感興趣,如: 數據增廣任務,知識蒸餾,自蒸餾,迭代學習,對比方法 (DIM, CPC, MoCo, SimCLR等),BYOL,以及自監督方法的分析。
我們的目標是了解自監督學習方法是如何工作的,以及起作用的基本原理是什么。
這是一個關于這一主題的高級研討會課程,因此,我們將閱讀和討論大量的最近的和經典的論文。講座將主要由學生主導。我們假設了解了機器學習的基礎知識 (特別是深度學習——正如你在IFT6135中看到的那樣),我們還將探索自監督表示學習在廣泛領域的應用,包括自然語言處理、計算機視覺和強化學習。
在本課程中,我們將廣泛討論自監督學習(SSL),特別是深度學習。最近,深度學習在許多應用領域取得了大量令人印象深刻的經驗收益,其中最引人注目的是在目標識別和圖像和語音識別的檢測領域。
在本課程中,我們將探討表示學習領域的最新進展。通過學生領導研討會,我們將回顧最近的文獻,并著眼于建立
本課程所涵蓋的特定主題包括以下內容:
因果學習
因果推理在許多領域都很重要,包括科學、決策制定和公共政策。確定因果關系的金標準方法使用隨機控制擾動實驗。然而,在許多情況下,這樣的實驗是昂貴的、耗時的或不可能的。從觀察數據中獲得因果信息是可替代的一種選擇,也就是說,從通過觀察感興趣系統獲得的數據中獲得而不使其受到干預。在這次演講中,我將討論從觀察數據中進行因果學習的方法,特別關注因果結構學習和變量選擇的結合,目的是估計因果效果。我們將用例子來說明這些概念。
本課程探索了生成式模型的各種現代技術。生成模型是一個活躍的研究領域: 我們在本課程中討論的大多數技術都是在過去10年發展起來的。本課程與當前的研究文獻緊密結合,并提供閱讀該領域最新發展的論文所需的背景。課程將集中于生成式建模技術的理論和數學基礎。作業將包括分析練習和計算練習。本課程專題旨在提供一個機會,讓你可以將這些想法應用到自己的研究中,或更深入地研究本課程所討論的主題之一。
COMS 4771是一個研究生水平的機器學習入門。本課程涵蓋監督機器學習的基本統計原理,以及一些常見的算法范例。
//www.cs.columbia.edu/~djhsu/coms4771-f20/#description
主題:
//www.math.arizona.edu/~hzhang/math574.html
隨著信息技術的飛速發展,在各個領域產生了大量的科學和商業數據。例如,人類基因組數據庫項目已經收集了千兆字節的人類遺傳密碼數據。萬維網提供了另一個例子,它擁有由數百萬人使用的文本和多媒體信息組成的數十億Web頁面。
本課程涵蓋了現代數據科學技術,包括基本的統計學習理論及其應用。將介紹各種數據挖掘方法、算法和軟件工具,重點在概念和計算方面。將涵蓋生物信息學、基因組學、文本挖掘、社交網絡等方面的應用。
本課程著重于現代機器學習的統計分析、方法論和理論。它是為學生誰想要實踐先進的機器學習工具和算法,也了解理論原理和統計性質的算法。主題包括回歸、分類、聚類、降維和高維分析。
本文為大家帶來了一份斯坦福大學的最新課程CS236——深度生成模型,目前更新到第一課,感興趣的同學可以多多關注,跟隨學習。
生成式模型被廣泛應用到人工智能和機器學習的諸多領域當中。最近,通過結合隨機梯度下降的優化方法,使用深度神經網絡參數化這些模型所取得的進展,已經使得對于包括圖像,文本和語音在內的復雜,高維度數據建模成為可能。在本次課程中,我們將要學習深度生成式模型的概率基礎和學習算法,包括自動編碼器(AE)的各種變體,生成式對抗網絡,自回歸模型和標準化流模型(normalizing flow models)。本課程還將討論從深度生成式模型中獲益的應用領域,例如計算機視覺,語音,自然語言處理,圖挖掘和強化學習。