使用人工智能和NLP的語言技術在我們的日常生活中發揮作用,從語法糾錯到機器翻譯,再到在線回答問題。作為我們日常活動的一部分,我們使用的語言的復雜性給處理非結構化文本的計算機帶來了獨特的挑戰,因為它們缺乏真實的文字交互上下文或意圖。在本課程中,我們將理解和分析解決這些挑戰的經典和最新的計算模型。本課程將圍繞以下主題展開,每個主題為期5周。
我們將深入地討論每一個主題,通過講座討論主題的核心方面,并利用每個主題的關鍵論文進行討論加以補充。學生將以每周閱讀和報告研究報告的方式來參與討論。
//www.worldscientific.com/page/pressroom/2018-07-31-01
這本書提供了一個機器學習和數據挖掘領域的數學分析。典型的計算機科學數學課程的數學分析部分省略了這些非常重要的思想和技術,這些思想和技術對于機器學習的專門領域是不可缺少的,以優化為中心,如支持向量機,神經網絡,各種類型的回歸,特征選擇和聚類。本書適用于研究者和研究生,他們將從書中討論的這些應用領域獲益。
數學分析可以被松散地描述為數學的一個領域,其主要對象是研究函數及其關于極限的行為。術語“函數”指的是實參數實函數的廣義集合,包括函數、運算符、測度等。在數學分析中,有幾個發展良好的領域對機器學習產生了特殊的興趣:拓撲(具有不同的風格:點集拓撲、組合拓撲和代數拓撲),賦范和內積空間的泛函分析(包括巴拿赫和希爾伯特空間),凸分析,優化,等等。此外,像測量和集成理論這樣的學科在統計學中發揮著至關重要的作用,這是機器學習的另一個支柱,在計算機科學家的教育中缺乏。我們的目標是為縮小這一差距做出貢獻,這是對研究感興趣的人的一個嚴重障礙。機器學習和數據挖掘文獻非常廣泛,包括各種各樣的方法,從非正式的到復雜的數學展示。然而,接近研究主題所需要的必要的數學背景通常以一種簡潔和無動機的方式呈現,或者干脆就不存在。本卷機器學習的通常介紹,并提供(通過其應用章節,討論優化,迭代算法,神經網絡,回歸,和支持向量機)的數學方面的研究。
這本書的目的是介紹計算機科學家所需要的一些基本數學知識。讀者并不期望自己是數學家,我們希望下面的內容對你有用。
利用Python及其標準庫中的數值和數學模塊,以及流行的開源數值Python包,如NumPy、SciPy、FiPy、matplotlib等。這個完全修訂的版本,更新了每個包的最新細節和更改Jupyter項目,演示了如何在大數據,云計算,金融工程,商業管理和更多的數字計算解決方案和數學模型應用。
Numerical Python,第二版,提供了許多使用Python在數據科學和統計中應用的全新案例研究示例,以及對以前的許多示例的擴展。由于Python的語法簡單而高級,以及數據分析的多種選項,因此它們都展示了Python在快速開發和探索性計算方面的強大功能。
閱讀本書后,讀者將熟悉許多計算技術,包括基于數組和符號計算,可視化和數字文件I/O,方程求解,優化,插值和積分,以及領域特定的計算問題,如微分方程求解,數據分析,統計建模和機器學習。
科學和數值計算是研究、工程和分析領域的一個蓬勃發展的領域。在過去的幾十年里,計算機行業的革命為計算機從業者提供了新的和強大的工具。這使得前所未有的規模和復雜性的計算工作成為可能。結果,整個領域和行業如雨后春筍般涌現出來。這種發展仍在繼續,隨著硬件、軟件和算法的不斷改進,它正在創造新的機會。最終,實現這一運動的技術是近幾十年來發展起來的強大的計算硬件。然而,對于計算從業者來說,用于計算工作的軟件環境與執行計算的硬件同等重要(如果不是更重要的話)。這本書是關于一個流行的快速增長的數值計算環境:Python編程語言及其用于計算工作的庫和擴展的充滿活力的生態系統。
計算是一項跨學科的活動,需要理論和實踐學科的經驗和專業知識:對數學和科學思維的牢固理解是有效計算工作的基本要求。同樣重要的是在計算機編程和計算機科學方面的扎實訓練。這本書的作用是通過介紹如何使用Python編程語言和圍繞該語言出現的計算環境來完成科學計算,從而將這兩個主題連接起來。在這本書中,假定讀者先前有一些數學和數值方法的訓練,以及Python編程的基本知識。這本書的重點是介紹用Python解決計算問題的實用方法。簡要介紹的理論涵蓋的主題給出在每一章,以介紹符號和提醒讀者的基本方法和算法。然而,這本書并不是對數值方法的自洽處理。為了幫助讀者以前不熟悉這本書的一些主題,進一步閱讀的參考文獻在每一章的結尾。同樣,沒有Python編程經驗的讀者可能會發現,將這本書和一本專注于Python編程語言本身的書一起閱讀會很有用
//www.programmer-books.com/wp-content/uploads/2019/02/Numerical-Python-2nd-Edition.pdf
自Goodfellow等人2014年開創性的工作以來,生成式對抗網(GAN)就受到了相當多的關注。這種關注導致了GANs的新思想、新技術和新應用的爆炸。為了更好地理解GANs,我們需要理解其背后的數學基礎。本文試圖從數學的角度對GANs進行概述。許多學數學的學生可能會發現關于GAN的論文更難以完全理解,因為大多數論文是從計算機科學和工程師的角度寫的。這篇論文的目的是用他們更熟悉的語言來介紹GANs。
這本書沒有假設讀者在統計方面有任何預先訓練,這本書的第一部分描述了基本的統計原理,從一個觀點,使他們的缺點直觀和容易理解。重點是用語言和圖形來描述概念。第二部分描述了解決第一部分所涵蓋問題的現代方法。使用來自實際研究的數據,包括許多例子來說明傳統程序的實際問題,以及更多的現代方法如何能對統計研究的許多領域中得出的結論產生實質性的影響。
這本書的第二版包括了自從第一版出現以來發生的一些進展和見解。包括與中位數相關的新結果,回歸,關聯的測量,比較依賴組的策略,處理異方差的方法,以及效應量的測量。
【導讀】陳丹琦博士是自然語言處理研究員領域的新星大神,她從斯坦福畢業后,到普林斯頓大學任助理教授。她將深度學習用于一系列自然語言處理重要問題,幫助機器獲取知識、更好地回答問題。她開設了COS 598C (Winter 2020)課程,深度學習自然語言處理, Deep Learning for Natural Language Processing,共有21講,講解最新NLP進展,非常值得follow。
本課程旨在介紹自然語言處理的前沿深度學習方法。本課程的主題包括詞的嵌入/上下文化的詞的嵌入、預訓練和微調、機器翻譯、問題回答、摘要、信息提取、語義分析和對話系統等。我們對每個主題進行了深入的討論,并討論了最近關于每個主題的重要論文,包括背景、方法、評價、目前的局限性和未來的發展方向。學生應定期閱讀和提交研究論文,并完成一篇期末論文。
學習目標:
本課程旨在為您在自然語言處理方面的前沿研究做準備。我們將討論在NLP的每個子領域中最有影響力的想法,最先進的技術和我們今天面臨的主要問題。
練習你的研究技能,包括閱讀研究論文,進行文獻調查,口頭和書面報告,以及提供建設性的反饋。
題目: Handbook of Mathematical Methods in Imaging
摘要: 該書全面介紹了成像科學中使用的數學技術。材料分為兩個中心主題,即反問題(算法重建)和信號與圖像處理。主題中的每個部分都涵蓋了應用(建模)、數學、數值方法(使用一個實例)和開放性問題。由該領域的專家撰寫的報告,在數學上是嚴謹的。條目是交叉引用的,以便在連接的主題中輕松導航。這本手冊有印刷版和電子版兩種形式,增加了150多幅插圖和擴展書目。
課程簡介: 本課程將向學生介紹NLP的基礎知識,涵蓋處理自然語言的標準框架以及解決各種NLP問題的算法和技術,包括最新的深度學習方法。 涵蓋的主題包括語言建模,表示學習,文本分類,序列標記,語法解析,機器翻譯,問題解答等。
課程安排:
嘉賓介紹:
陳丹琦,普林斯頓大學計算機科學的助理教授,在此之前,是西雅圖Facebook AI Research(FAIR)的訪問科學家。 斯坦福大學計算機科學系獲得博士學位,并在斯坦福NLP集團工作。研究方向:自然語言處理,文本理解、知識解釋。
Karthik Narasimhan,普林斯頓大學計算機科學系助理教授,研究跨越自然語言處理和強化學習。