數十年來,因果推理是一個跨統計、計算機科學、教育、公共政策和經濟學等多個領域的重要研究課題。目前,與隨機對照試驗相比,利用觀測數據進行因果關系估計已經成為一個有吸引力的研究方向,因為有大量的可用數據和較低的預算要求。隨著機器學習領域的迅速發展,各種針對觀測數據的因果關系估計方法層出不窮。在這項調查中,我們提供了一個全面的綜述因果推理方法下的潛在結果框架,一個眾所周知的因果推理框架。這些方法根據是否需要潛在結果框架的所有三個假設分為兩類。對于每一類,分別對傳統的統計方法和最近的機器學習增強方法進行了討論和比較。并介紹了這些方法的合理應用,包括在廣告、推薦、醫藥等方面的應用。此外,還總結了常用的基準數據集和開放源代碼,便于研究者和實踐者探索、評價和應用因果推理方法。
地址:
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同,元學習使用較少的樣本數據集,并考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基于相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合,以提供可行的集成問題解決方案。介紹了元學習方法的性能比較,并討論了今后的研究方向。
決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:
課程可分為兩部分。
第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然后討論未知參數的估計和假設檢驗。最后,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。
第二部分是不確定性下的決策研究,特別是強化學習和專家咨詢學習。首先,我們研究幾個有代表性的統計模型。然后,我們給出了使用這些模型做出最優決策的算法的概述。最后,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、游戲樹搜索和優化方面有很多應用。
題目: Causal Relational Learning
摘要:
因果推理是自然科學和社會科學實證研究的核心,對科學發現和知情決策至關重要。因果推理的黃金標準是進行隨機對照試驗;不幸的是,由于倫理、法律或成本的限制,這些方法并不總是可行的。作為一種替代方法,從觀察數據中進行因果推斷的方法已經在統計研究和社會科學中得到發展。然而,現有的方法嚴重依賴于限制性的假設,例如由同質元素組成的研究總體,這些同質元素可以在一個單平表中表示,其中每一行都被稱為一個單元。相反,在許多實際環境中,研究領域自然地由具有復雜關系結構的異構元素組成,其中數據自然地表示為多個相關表。在本文中,從關系數據中提出了一個正式的因果推理框架。我們提出了一種稱為CaRL的聲明性語言,用于捕獲因果背景知識和假設,并使用簡單的Datalog類規則指定因果查詢。CaRL為在關系領域中推斷復雜干預的影響的因果關系和推理提供了基礎。我們對真實的關系數據進行了廣泛的實驗評估,以說明CaRL理論在社會科學和醫療保健領域的適用性。
對因果推理的簡明和自成體系的介紹,在數據科學和機器學習中越來越重要。
因果關系的數學化是一個相對較新的發展,在數據科學和機器學習中變得越來越重要。這本書提供了一個獨立的和簡明的介紹因果模型和如何學習他們的數據。在解釋因果模型的必要性,討論潛在的因果推論的一些原則,這本書教讀者如何使用因果模型:如何計算干預分布,如何從觀測推斷因果模型和介入的數據,和如何利用因果思想經典的機器學習問題。所有這些主題都將首先以兩個變量的形式進行討論,然后在更一般的多元情況下進行討論。對于因果學習來說,二元情況是一個特別困難的問題,因為經典方法中用于解決多元情況的條件獨立不存在。作者認為分析因果之間的統計不對稱是非常有意義的,他們報告了他們對這個問題十年來的深入研究。
本書對具有機器學習或統計學背景的讀者開放,可用于研究生課程或作為研究人員的參考。文本包括可以復制和粘貼的代碼片段、練習和附錄,其中包括最重要的技術概念摘要。
首先,本書主要研究因果關系推理子問題,這可能被認為是最基本和最不現實的。這是一個因果問題,需要分析的系統只包含兩個可觀測值。在過去十年中,作者對這個問題進行了較為詳細的研究。本書整理這方面的大部分工作,并試圖將其嵌入到作者認為對研究因果關系推理問題的選擇性至關重要的更大背景中。盡管先研究二元(bivariate)案例可能有指導意義,但按照章節順序,也可以直接開始閱讀多元(multivariate)章節;見圖一。
第二,本書提出的解決方法來源于機器學習和計算統計領域的技術。作者對其中的方法如何有助于因果結構的推斷更感興趣,以及因果推理是否能告訴我們應該如何進行機器學習。事實上,如果我們不把概率分布描述的隨機實驗作為出發點,而是考慮分布背后的因果結構,機器學習的一些最深刻的開放性問題就能得到最好的理解。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。近年來,將傳統的處理效果估計方法(如匹配估計器)和先進的表示學習方法(如深度神經網絡)相結合的一個新興的研究方向在廣闊的人工智能領域引起了越來越多的關注。來自Georgia、Buffalo、阿里巴巴與Virginia的學者做了因果推理表示學習報告,在本教程中,介紹用于治療效果估計的傳統和最先進的表示學習算法。關于因果推論,反事實和匹配估計的背景也將被包括。我們還將展示這些方法在不同應用領域的應用前景。
摘要
因果推理在醫療保健、市場營銷、醫療保健、政治科學和在線廣告等許多領域都有大量的實際應用。治療效果估計作為因果推理中的一個基本問題,在統計學上已被廣泛研究了幾十年。然而,傳統的處理效果估計方法不能很好地處理大規模、高維的異構數據。近年來,將傳統的處理效果估計方法(如匹配估計器)和先進的表示學習方法(如深度神經網絡)相結合的一個新興的研究方向在廣闊的人工智能領域引起了越來越多的關注。在本教程中,我們將介紹用于治療效果估計的傳統和最先進的表示學習算法。關于因果推論,反事實和匹配估計的背景也將被包括。我們還將展示這些方法在不同應用領域的應用前景。
題目: Causal Inference and Stable Learning
簡介:
在一個常見的機器學習問題中,使用一個根據訓練數據集估計的模型,根據觀察到的特征來預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常利用特征之間微妙的統計關系,這使得它們在應用于測試數據時更容易出現預測錯誤,因為測試數據的分布與訓練數據的分布不同。對于學術研究和實際應用來說,如何建立穩定、可靠的學習模型是至關重要的。因果推理是一種強大的統計建模工具,用于解釋和穩定的學習。因果推理是指基于某一效應發生的條件,對某一因果關系做出結論的過程。在本教程中,我們將重點討論因果推理和穩定學習,旨在從觀察數據中探索因果知識,以提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推理,并介紹一些最近的數據驅動的方法來估計因果效應的觀測數據,特別是在高維設置。摘要為了彌補因果推理與機器學習在穩定學習上的差距,我們首先給出了學習算法的穩定性和魯棒性的定義,然后介紹了一些最近出現的穩定學習算法,以提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來方向,并為穩定學習提供基準。
邀請嘉賓:
張潼,香港科技大學計算機科學與數學教授。此前,他是羅格斯大學(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和騰訊(Tencent)工作。張潼的研究興趣包括機器學習算法和理論、大數據統計方法及其應用。他是ASA和IMS的研究員,曾在主要機器學習期刊的編委會和頂級機器學習會議的項目委員會任職。張潼在康奈爾大學獲得數學和計算機科學學士學位,在斯坦福大學獲得計算機科學博士學位。
崔鵬,清華大學計算機系長聘副教授,博士生導師。2010年于清華大學計算機系獲得博士學位。研究興趣包括社會動力學建模、大規模網絡表征學習以及大數據驅動的因果推理和穩定預測。近5年在數據挖掘及人工智能領域高水平會議和期刊發表論文60余篇,曾5次獲得頂級國際會議或期刊論文獎,并先后兩次入選數據挖掘領域頂級國際會議KDD最佳論文專刊。目前擔任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等國際期刊編委。曾獲得國家自然科學二等獎、教育部自然科學一等獎、電子學會自然科學一等獎、CCF-IEEE CS青年科學家獎、ACM中國新星獎。入選中組部萬人計劃青年拔尖人才,并當選中國科協全國委員會委員。