本課程的教材是從機器學習的角度寫的,是為那些有必要先決條件并對學習因果關系基礎感興趣的人而開設的。我盡我最大的努力整合來自許多不同領域的見解,利用因果推理,如流行病學、經濟學、政治學、機器學習等。
有幾個主要的主題貫穿全課程。這些主題主要是對兩個不同類別的比較。當你閱讀的時候,很重要的一點是你要明白書的不同部分適合什么類別,不適合什么類別。
統計與因果。即使有無限多的數據,我們有時也無法計算一些因果量。相比之下,很多統計是關于在有限樣本中解決不確定性的。當給定無限數據時,沒有不確定性。然而,關聯,一個統計概念,不是因果關系。在因果推理方面還有更多的工作要做,即使在開始使用無限數據之后也是如此。這是激發因果推理的主要區別。我們在這一章已經做了這樣的區分,并將在整本書中繼續做這樣的區分。
識別與評估。因果效應的識別是因果推論所獨有的。這是一個有待解決的問題,即使我們有無限的數據。然而,因果推理也與傳統統計和機器學習共享估計。我們將主要從識別因果效應(在第2章中,4和6)之前估計因果效應(第7章)。例外是2.5節和節4.6.2,我們進行完整的例子估計給你的整個過程是什么樣子。
介入與觀察。如果我們能進行干預/實驗,因果效應的識別就相對容易了。這很簡單,因為我們可以采取我們想要衡量因果效應的行動,并簡單地衡量我們采取行動后的效果。觀測數據變得更加復雜,因為數據中幾乎總是引入混雜。
假設。將會有一個很大的焦點是我們用什么假設來得到我們得到的結果。每個假設都有自己的框來幫助人們注意到它。清晰的假設應該使我們很容易看到對給定的因果分析或因果模型的批評。他們希望,清晰地提出假設將導致對因果關系的更清晰的討論。
這是一本關于理論計算機科學的本科入門課程的教科書。這本書的教育目的是傳達以下信息:
? 這種計算出現在各種自然和人為系統中,而不僅僅是現代的硅基計算機中。 ? 類似地,除了作為一個極其重要的工具,計算也作為一個有用的鏡頭來描述自然,物理,數學,甚至社會概念。 ? 許多不同計算模型的普遍性概念,以及代碼和數據之間的二元性相關概念。 ? 一個人可以精確地定義一個計算的數學模型,然后用它來證明(有時只是猜測)下界和不可能的結果。 ? 現代理論計算機科學的一些令人驚訝的結果和發現,包括np完備性的流行、交互作用的力量、一方面的隨機性的力量和另一方面的去隨機化的可能性、在密碼學中“為好的”使用硬度的能力,以及量子計算的迷人可能性。
//www.math.arizona.edu/~hzhang/math574.html
隨著信息技術的飛速發展,在各個領域產生了大量的科學和商業數據。例如,人類基因組數據庫項目已經收集了千兆字節的人類遺傳密碼數據。萬維網提供了另一個例子,它擁有由數百萬人使用的文本和多媒體信息組成的數十億Web頁面。
本課程涵蓋了現代數據科學技術,包括基本的統計學習理論及其應用。將介紹各種數據挖掘方法、算法和軟件工具,重點在概念和計算方面。將涵蓋生物信息學、基因組學、文本挖掘、社交網絡等方面的應用。
本課程著重于現代機器學習的統計分析、方法論和理論。它是為學生誰想要實踐先進的機器學習工具和算法,也了解理論原理和統計性質的算法。主題包括回歸、分類、聚類、降維和高維分析。
有幾個主要的主題貫穿全書。這些主題主要是對兩個不同類別的比較。當你閱讀的時候,很重要的一點是你要明白書的不同部分適合什么類別,不適合什么類別。
統計與因果。即使有無限多的數據,我們有時也無法計算一些因果量。相比之下,很多統計是關于在有限樣本中解決不確定性的。當給定無限數據時,沒有不確定性。然而,關聯,一個統計概念,不是因果關系。在因果推理方面還有更多的工作要做,即使在開始使用無限數據之后也是如此。這是激發因果推理的主要區別。我們在這一章已經做了這樣的區分,并將在整本書中繼續做這樣的區分。
識別與評估。因果效應的識別是因果推論所獨有的。這是一個有待解決的問題,即使我們有無限的數據。然而,因果推理也與傳統統計和機器學習共享估計。我們將主要從識別因果效應(在第2章中,4和6)之前估計因果效應(第7章)。例外是2.5節和節4.6.2,我們進行完整的例子估計給你的整個過程是什么樣子。
介入與觀察。如果我們能進行干預/實驗,因果效應的識別就相對容易了。這很簡單,因為我們可以采取我們想要衡量因果效應的行動,并簡單地衡量我們采取行動后的效果。觀測數據變得更加復雜,因為數據中幾乎總是引入混雜。
假設。將會有一個很大的焦點是我們用什么假設來得到我們得到的結果。每個假設都有自己的框來幫助人們注意到它。清晰的假設應該使我們很容易看到對給定的因果分析或因果模型的批評。他們希望,清晰地提出假設將導致對因果關系的更清晰的討論。
摘要:這項工作考慮了這樣一個問題: 獲取大量數據的便利程度如何影響我們學習因果效應和關系的能力。在大數據時代,學習因果關系與傳統因果關系有哪些不同或相同之處?為了回答這個問題,這項綜述提供了一個在因果關系和機器學習之間聯系的全面和結構化的回顧。
//www.zhuanzhi.ai/paper/6ad7902913e98bd48540a5596b978edc
因果性是結果與引起結果的原因之間的一種一般性關系。它很難定義,而且我們通常只憑直覺知道原因和結果。因為下雨,街道是濕的。因為這個學生不學習,所以他考試考得很差。因為烤箱是熱的,奶酪在披薩上融化了。當用數據學習因果關系時,我們需要意識到統計關聯和因果之間的區別。例如,當天氣炎熱時,一家冰淇淋店的老板可能會注意到高昂的電費和較高的銷售額。因此,她會觀察到電費和銷售數字之間有很強的聯系,但電費并不是導致高銷售額的原因——讓商店的燈徹夜開著不會對銷售產生影響。在這種情況下,外部溫度是高電費和高銷售額的共同原因,我們說它是一個混亂的因果關系。
學習因果關系的能力被認為是人類水平智能的重要組成部分,可以作為AI的基礎(Pearl, 2018)。從歷史上看,學習因果關系已經在包括教育在內的許多高影響領域被研究過(LaLonde, 1986;Dehejia和Wahba, 1999年;Heckerman et al ., 2006;希爾,2011),醫學科學(馬尼和庫珀,2000;經濟學(Imbens, 2004)、流行病學(Hernan et al., 2000;Robins等人,2000年;、氣象學(Ebert-Uphoff和Deng, 2012)和環境衛生(Li et al., 2014)。受限于數據量,堅實的先驗因果知識是學習因果關系所必需的。研究人員對通過精心設計的實驗收集的數據進行研究,堅實的先驗因果知識至關重要(Heckerman et al., 2006)。以隨機對照試驗的原型為例(Cook et al., 2002),為了研究一種藥物的療效,患者將被隨機分配服用或不服用該藥物,這將保證平均而言,治療組和未治療組(對照組)在所有相關方面是等同的,排除任何其他因素的影響。然后,藥物對某些健康結果的影響——比如,偏頭痛的持續時間——可以通過比較兩組的平均結果來衡量。
這個綜述的目的是考慮在現在的大數據時代學習因果關系的新可能性和挑戰,這里指的是海量數據集的可用性。舉個例子,考慮到無法測量的混雜因素的可能性——可能會被減輕,因為可以測量更多的特征。因此,一方面,研究人員有可能在大數據的幫助下回答有趣的因果問題。例如,Yelp的正面評論是促使顧客去餐館,還是僅僅反映了受歡迎程度而沒有影響?這個因果問題可以通過Yelp維護的龐大數據庫中的數據來解決。另一方面,用大數據來回答因果問題,會帶來一些獨特的新問題。例如,盡管公共數據庫或通過web爬行收集的數據或應用程序編程接口(api)是空前巨大的,我們有很少的直覺對什么類型的偏差數據集可以遭受——數據更豐富,也更神秘,因此,負責任地更難模型。與此同時,大數據給其他學習任務(如預測)帶來的基本統計困難,使得因果調查更具挑戰性。也許這方面最顯著的例子是現代數據的高維性(Li et al., 2017a),比如文本數據(Imai et al., 2013)。
這本書的第五版繼續講述如何運用概率論來深入了解真實日常的統計問題。這本書是為工程、計算機科學、數學、統計和自然科學的學生編寫的統計學、概率論和統計的入門課程。因此,它假定有基本的微積分知識。
第一章介紹了統計學的簡要介紹,介紹了它的兩個分支:描述統計學和推理統計學,以及這門學科的簡短歷史和一些人,他們的早期工作為今天的工作提供了基礎。
第二章將討論描述性統計的主題。本章展示了描述數據集的圖表和表格,以及用于總結數據集某些關鍵屬性的數量。
為了能夠從數據中得出結論,有必要了解數據的來源。例如,人們常常假定這些數據是來自某個總體的“隨機樣本”。為了確切地理解這意味著什么,以及它的結果對于將樣本數據的性質與整個總體的性質聯系起來有什么意義,有必要對概率有一些了解,這就是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。
我們在第四章繼續研究概率,它處理隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常發生的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正規、均勻、伽瑪、卡方、t和F等隨機變量。
對因果推理的簡明和自成體系的介紹,在數據科學和機器學習中越來越重要。
因果關系的數學化是一個相對較新的發展,在數據科學和機器學習中變得越來越重要。這本書提供了一個獨立的和簡明的介紹因果模型和如何學習他們的數據。在解釋因果模型的必要性,討論潛在的因果推論的一些原則,這本書教讀者如何使用因果模型:如何計算干預分布,如何從觀測推斷因果模型和介入的數據,和如何利用因果思想經典的機器學習問題。所有這些主題都將首先以兩個變量的形式進行討論,然后在更一般的多元情況下進行討論。對于因果學習來說,二元情況是一個特別困難的問題,因為經典方法中用于解決多元情況的條件獨立不存在。作者認為分析因果之間的統計不對稱是非常有意義的,他們報告了他們對這個問題十年來的深入研究。
本書對具有機器學習或統計學背景的讀者開放,可用于研究生課程或作為研究人員的參考。文本包括可以復制和粘貼的代碼片段、練習和附錄,其中包括最重要的技術概念摘要。
首先,本書主要研究因果關系推理子問題,這可能被認為是最基本和最不現實的。這是一個因果問題,需要分析的系統只包含兩個可觀測值。在過去十年中,作者對這個問題進行了較為詳細的研究。本書整理這方面的大部分工作,并試圖將其嵌入到作者認為對研究因果關系推理問題的選擇性至關重要的更大背景中。盡管先研究二元(bivariate)案例可能有指導意義,但按照章節順序,也可以直接開始閱讀多元(multivariate)章節;見圖一。
第二,本書提出的解決方法來源于機器學習和計算統計領域的技術。作者對其中的方法如何有助于因果結構的推斷更感興趣,以及因果推理是否能告訴我們應該如何進行機器學習。事實上,如果我們不把概率分布描述的隨機實驗作為出發點,而是考慮分布背后的因果結構,機器學習的一些最深刻的開放性問題就能得到最好的理解。