從推薦買什么,看什么電影,到選擇看什么新聞,關注什么人,申請什么工作,在線系統已經成為我們日常生活的重要組成部分。一個自然要問的問題是這些社會技術系統如何影響我們的行為。然而,由于這些系統的輸出和人的行為之間的復雜的相互作用,確定它們對人的行為的影響是不容易的。
幸運的是,有大量關于因果推理的研究可供我們借鑒。在本教程的第一部分中,我將展示反事實推理對研究社會技術系統的價值,通過展示基于相關性的預測建模如何可能適得其反。然后,我們將討論因果推斷的不同方法,包括隨機實驗,自然實驗,如工具變量和回歸不連續,以及觀察方法,如分層和匹配。在整個過程中,我們將嘗試與圖形模型、機器學習和過去在社會科學中的工作聯系起來。
下半場將會有更多的實踐。我們將通過一個實際的例子來估計一個推薦系統的因果影響,從簡單到復雜的方法開始。實踐練習的目標是了解不同因果推理方法的缺陷,并獲得用混亂的真實世界數據進行因果推理的最佳實踐。
使用的代碼可以在//github.com/amit-sharma/causal-inference-tutorial/上找到
我們探索機器學習(ML)和因果推理之間的關系。通過相互借鑒,我們專注于改進每一個方面。機器學習已經成功地應用于許多問題,但由于缺乏強有力的理論保證,導致了許多意想不到的失敗。當應用于不同的分布時,在訓練分布上表現良好的模型往往會崩潰;微小的擾動可以“欺騙”訓練好的模型,并極大地改變它的預測;訓練算法中的任意選擇會導致截然不同的模型;等等。另一方面,雖然因果推理方法的發展已經取得了巨大的進步,有很強的理論保證,但現有的方法通常不能應用于實踐,因為它們假設有大量的數據。研究ML和因果推理的交集,我們直接解決了ML中缺乏魯棒性的問題,并提高了因果推理技術的統計效率。
本論文工作背后的動機是改進用于指導決策的預測模型和因果模型的構建方法。自始至終,我們主要關注醫療健康上下文中的決策制定。在ML的因果關系方面,我們使用ML工具和分析技術來開發統計上有效的因果模型,可以指導臨床醫生在兩種治療方法之間選擇。在ML的因果關系方面,我們研究如何使用產生觀測數據的因果機制知識來有效地正則化預測模型,而不引入偏差。在臨床環境中,我們展示了如何使用因果知識來建立穩健和準確的模型來預測傳染性感染的傳播。在非臨床環境中,我們研究了如何使用因果知識來訓練在圖像分類中對分布轉移具有魯棒性的模型。
【導讀】ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是世界數據挖掘領域的最高級別的學術會議,由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦,被中國計算機協會推薦為 A 類會議。自 1995 年以來,KDD 已經連續舉辦了26屆,今年將于2021年8月14日至18日舉辦,今年的會議主辦地在新加坡。
來自 Microsoft, TripAdvisor, Uber的研究人員在KDD2021上將給出關于因果推理機器學習的教程,非常值得關注!
近年來,無論是學術研究還是行業應用,都越來越多地使用機器學習方法來衡量因果效應,并基于這些因果估計設計最優決策。像CausalML和EconML這樣的開源包為應用研究人員和行業從業者提供了一個統一的工具,提供了各種用于因果推理的機器學習方法。本教程將涵蓋元學習者和基于樹的算法的條件處理效果評估、模型驗證和靈敏度分析、優化算法(包括策略簡化和成本優化)等主題。此外,本教程將展示在工業用例中生成這些算法。
//causal-machine-learning.github.io/kdd2021-tutorial/
因果推理概論
我們將概述因果推理的基本概念。快速回顧一下因果推理的主要工具和術語:相關性vs因果關系、平均、條件和個人治療效果、通過隨機化的因果推理、使用工具變量的因果推理、通過無混淆的因果推理。
介紹CasualML
我們將概述CausalML,這是一個開放源碼的Python包,它提供了一套基于最近研究的機器學習算法的提升建模和因果推理方法。我們將介紹CausalML的主要組成部分: (2) 驗證/分析方法(如合成數據生成、AUUC、敏感性分析、可解釋性),(3) 優化方法(如策略優化、價值優化、單元選擇)。
介紹EconML
我們將概述最近將機器學習與因果推理結合起來的方法,以及機器學習給因果推理估計方法帶來的重要統計性能。我們將概述EconML的結構和功能,并描述一些實現的關鍵因果機器學習方法(例如雙機器學習、因果森林、深度iv、雙魯性學習、動態雙機器學習)。我們還將概述置信區間構建(例如自舉、小袋自舉、去偏lasso)、可解釋性(形狀值、樹解釋器)和策略學習(雙魯棒策略學習)的方法。
Presenters Jing Pan, Uber, CausalML Yifeng Wu, Uber, CausalML Huigang Chen, Facebook, CausalML Totte Harinen, Toyota Research Institute, CausalML Paul Lo, Uber, CausalML Greg Lewis, Microsoft Research, EconML Vasilis Syrgkanis, Microsoft Research, EconML Miruna Oprescu, Microsoft Research, EconML Maggie Hei, Microsoft Research, EconML
Contributors Jeong-Yoon Lee, Netflix, CausalML Zhenyu Zhao, Tencent, CausalML Keith Battocchi, Microsoft Research, EconML Eleanor Dillon, Microsoft Research, EconML
參考文獻
Künzel, S?ren R., et al. “Metalearners for estimating heterogeneous treatment effects using machine learning.” Proceedings of the national academy of sciences 116.10 (2019): 4156-4165. (paper)
Chernozhukov, Victor, et al. “Double/debiased/neyman machine learning of treatment effects.” American Economic Review 107.5 (2017): 261-65. (paper)
Nie, Xinkun, and Stefan Wager. “Quasi-oracle estimation of heterogeneous treatment effects.” arXiv preprint arXiv:1712.04912 (2017) (paper)
Tso, Fung Po, et al. “DragonNet: a robust mobile internet service system for long-distance trains.” IEEE transactions on mobile computing 12.11 (2013): 2206-2218. (paper)
Louizos, Christos, et al. “Causal effect inference with deep latent-variable models.” arXiv preprint arXiv:1705.08821 (2017) (paper)
這本關于機器學習的研究生教科書講述了數據模式如何支持預測和結果行動的故事。從決策的基礎開始,我們將涵蓋作為有監督學習的組成部分的表示、優化和泛化。關于數據集作為基準檢查他們的歷史和科學基礎的一章。對因果關系的介紹,因果推理的實踐,序列決策,和強化學習使讀者了解概念和工具來。整本書討論了歷史背景和社會影響。讀者有概率論、微積分和線性代數方面的經驗就足夠了。
目錄內容:
導論 Introduction
決策 Decision making
監督學習 Supervised learning
表示學習 Representations and features
優化 Optimization
泛化 Generalization
深度學習 Deep learning
數據 Datasets
因果性 Causality
因果性實踐 Causal inference in practice
序列決策與動態優化,Sequential decision making and dynamic programming
強化學習,Reinforcement learning
Epilogue
Mathematical background
在一個常見的機器學習問題中,使用對訓練數據集估計的模型,根據觀察到的特征預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常會利用特征之間微妙的統計關系,這使得它們在應用于分布與訓練數據不同的測試數據時,可能更容易出現預測錯誤。對于學術研究和實際應用來說,如何開發能夠穩定和穩健地轉換數據的學習模型是至關重要的。
因果推理是指根據效果發生的條件得出因果關系的結論的過程,是一種強大的統計建模工具,用于解釋和穩定學習。本教程側重于因果推理和穩定學習,旨在從觀察數據中探索因果知識,提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推論,并介紹一些最近的數據驅動方法,以估計因果效應從觀測數據,特別是在高維設置。為了彌補因果推理和機器學習之間的差距,我們首先給出了穩定性和魯棒性學習算法的定義,然后將介紹一些最近的穩定學習算法來提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來的發展方向,并提供穩定學習的基準。
簡介:
在這篇文章中,我們解釋了一種貝葉斯方法來推斷干預或行動的影響。我們表明,在標準貝葉斯方法內表示因果關系易處理和不可能查詢之間的邊界,并開辟了潛在的因果推理新方法。這篇文章是我們Arxiv論文的詳細但非正式的介紹:用貝葉斯規則代替do演算,用貝葉斯規則代替因果推論。
因果關系-它是什么以及如何推斷-一直是機器學習和統計學中最具爭議的主題之一。最近出版的《Book of Why》重新引發了關于是否可以在標準貝葉斯建模范式中進行因果推斷或是否需要根本不同方法的爭論,這一爭論由來已久。這場辯論始于90年代的Pearl和Rubin之間,一直持續到今天-尤其是在Andrew Gelman的博客上-參見Gelman和Pearl。在本文中,我們討論了一些旨在彌合這場辯論的近期工作。
下圖將觀察到的因果推論與標準統計進行了對比。 在標準統計問題中,我們具有由某些系統生成的數據,并且我們希望使用該數據來推斷系統的某些屬性。 在觀察性因果推論中,我們要使用一個系統(在某些干預之前的系統)生成的數據來推斷另一系統(在干預之后的系統)的屬性。 這就要求我們對這兩個系統之間的關系做出假設(或等效地,干預如何改變原始系統),并對這些假設進行建模,以確定從系統A采樣的哪些數據可以告訴我們有關系統B的信息。