本文從最大似然的角度分析了因果推理中的幾個問題。主要涉及兩種原型似然:連續數據的高斯似然和離散數據的多項似然。本文前半部分采用高斯似然進行檢驗和估計。基于因果圖的選擇,在第2章中,我們將使用似然比檢驗(likelihood ratio test, LRT)研究高斯分布下的邊緣獨立性和條件獨立性的檢驗。通過對LRT的漸近分布函數取點極值,引入了一類包絡分布。我們證明這些包絡分布是良好的,并導致一致一致的模型選擇過程。在第三章中,我們考慮在因果充分性和線性條件下總的因果效應的估計。我們推導了一個簡單的遞歸最小二乘估計量作為高斯誤差下的最小二乘估計量,它可以一致估計任何已知的總效應,無論是在點干預還是聯合干預下。此外,當與相當大的一類估計量比較時,該估計量被證明是漸近有效的,即使超出高斯假設。
//digital.lib.washington.edu/researchworks/handle/1773/47710
在后半部分,我們研究了工具變量(IV)模型與離散數據的推理。在第四章中,我們得到了多項抽樣下似然比統計量的非漸近尾界。這樣的界限是通過統計量的力矩產生函數在所有多項參數上一致地定界而建立的,這可以看作是Wilks定理的有限樣本版本。然后,在第5章中,將這些邊界與IV模型的凸參數化相結合,將統計推斷簡化為凸規劃。該方法提供了較強的保證,避免了識別和后選擇推理的困難。以越南征兵抽簽作為單調的工具,對兵役對年收入的分配效應進行了案例研究,說明了該方法。最后,我們研究了潛變量公式中平均處理效果的部分識別,并將其與量子力學中的Bell-CHSH不等式聯系起來。
本文分為兩個主要部分,在這兩個部分之前,我們分別對時序數據的特征分析做了簡要的介紹。
在第一部分中,我們研究了從非線性混合信號的觀測中恢復多維源信號的經典問題。本文表明,如果混合是由于一個充分可微和可逆但其他任意的非線性函數造成的,并且源的分量信號是統計獨立的,具有“非退化”的二階統計量,則這種恢復是可能的(直到源的原始分量信號的排列和單調縮放)。后一種假設要求源信號滿足三個規則條件之一,這些條件基本上確保源信號足夠遠離在時間上是確定的或恒定的不可恢復極端情況。這些假設涵蓋了許多流行的時間序列模型和隨機過程,允許我們將非線性盲源分離的初始問題重新描述為基于優化的函數逼近的簡單到狀態問題。本文提出通過最小化一種新的目標函數來解決這個近似問題,該目標函數通過類累積量統計有效量化了多個隨機過程之間的相互統計依賴性。這產生了一個可擴展的、直接的非線性獨立分量分析新方法,具有廣泛適用的理論保證,實驗表明該方法具有良好的性能。
在第二部分,我們從統計魯棒性的角度重新審視盲源分離問題。盲源分離(Blind source separation, BSS)旨在從混合信號X = f (S)中恢復未知信號S,且影響變換f可逆且未知。這是一個具有許多實際應用的基本問題,一個基本問題是了解當支持統計先驗假設被違反時,該問題的解決方案將如何表現。在經典的線性混合背景下,本文提出了一個通用框架來分析這種偏離,并量化它們對從x中盲恢復S的影響。在混合X的可能原因空間上引入了一種信息拓撲,并表明,可以以關于該拓撲的顯式連續性保證的形式對通用BSS-解決方案響應其定義結構假設的一般偏差的行為進行有益的分析。這使得可以靈活方便地量化一般模型的不確定性場景,并構成了第一個全面的BSS魯棒框架。該理論完全是建設性的,并用一些統計應用證明了它的有效性。 //ora.ox.ac.uk/objects/uuid:6187ba0d-d569-4f6f-914a-fee34f282d0f
本教材提供了一個全面的介紹統計原理,概念和方法,是必不可少的現代統計和數據科學。涵蓋的主題包括基于可能性的推理,貝葉斯統計,回歸,統計測試和不確定性的量化。此外,這本書討論了在現代數據分析中有用的統計思想,包括bootstrapping,多元分布的建模,缺失數據分析,因果關系以及實驗設計的原則。本教材包括兩個學期課程的充足材料,旨在為數據科學、統計和計算機科學的碩士學生掌握概率論的基本知識。對于想要加強統計技能的數據科學從業者來說也是有用的。
第一章對為什么統計和統計思想在數據科學領域具有重要意義進行了一般性討論。本書的這一章還將本書與側重于統計和機器學習的其他書進行了對比。后面的第2-5章可以看作是統計估計理論的簡要介紹。這兩種方法我們都包括,頻率理論和貝葉斯理論。換句話說,我們引入似然模型,就像解釋數值方法一樣,比如貝葉斯模型中的蒙特卡羅馬爾可夫鏈。第6章討論了統計檢驗,它與使用置信區間進行不確定性量化、貝葉斯推理和分類的方法相同。前六章提供了核心教學大綱,當然更多地關注理論和概念,但較少地關注應用。第7章著眼于回歸模型的廣泛領域,雖然本章更適用于此,但它肯定沒有涵蓋該領域,因為它應該與數據科學項目的普通教育有關。在我們看來,回歸是統計學和數據科學的一個基本概念,應該在單獨的講座/課程中討論;因此,這些材料需要包含在一個單獨的書中,其中一些我們在我們的書中引用。然而,我們認為,一本不涉及回歸的統計書也是不合適的。
這篇計算統計學的博士論文利用蒙特卡羅方法(近似貝葉斯計算和順序蒙特卡羅)和機器學習方法(深度學習和歸一化流)來開發隱式貝葉斯模型推理的新算法。隱式模型是指那些計算似然函數非常困難(通常是不可能的),但模型模擬是可行的。本文開發的推理方法是基于模擬的推理方法,因為它們利用了從隱式模型模擬數據的可能性。本文考慮了幾種方法: 論文II和Iv重點研究經典方法(基于順序蒙特卡羅的方法),而論文I和III重點研究最新的機器學習方法(分別是深度學習和歸一化流)。
第一篇論文構建了一種新的深度學習方法,用于學習摘要統計量,實現近似貝葉斯計算(ABC)。為了實現本文,我介紹了部分可交換網絡(PEN),這是一種專為馬爾可夫數據(即部分可交換數據)設計的深度學習體系結構。第二篇論文研究了隨機微分方程混合效應模型(SDEMEM)中的貝葉斯推理。由于SDEMEMs的似然函數難以處理,因此對SDEMEMs的貝葉斯推理具有挑戰性。論文II通過結合相關的偽邊際方法設計一種新穎的Gibbs-blocking策略來解決這個問題。本文還討論了自定義粒子濾波器如何適應推理過程。
第三篇論文介紹了一種新的推理方法——序列神經后驗似然逼近(SNPLA)。SNPLA是一種基于仿真的推理算法,利用歸一化流程通過序列方案學習隱式模型的后驗分布和似然函數。通過學習似然和后向,并利用反向Kullback Leibler (KL)發散,SNPLA避免了特別校正步驟和馬爾可夫鏈蒙特卡羅(MCMC)采樣。第四篇論文介紹了加速延遲接受(ADA)算法。ADA可以看作是延遲接受(DA) MCMC算法的擴展,該算法利用DA的兩個似然比之間的聯系,進一步加速MCMC從感興趣的后驗分布采樣,盡管我們的方法引入了一個近似。論文的主要案例研究是蛋白質折疊數據(反應坐標數據)的雙井勢隨機微分方程(DWP-SDE)模型。
向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。
通過人工神經網絡等獲得的預測具有很高的準確性,但人類經常將這些模型視為黑盒子。對于人類來說,關于決策制定的洞察大多是不透明的。在醫療保健或金融等高度敏感領域,對決策的理解至關重要。黑盒子背后的決策要求它對人類來說更加透明、可問責和可理解。這篇綜述論文提供了基本的定義,概述了可解釋監督機器學習(SML)的不同原理和方法。我們進行了最先進的綜述,回顧過去和最近可解釋的SML方法,并根據介紹的定義對它們進行分類。最后,我們通過一個解釋性的案例研究來說明原則,并討論未來的重要方向。
//www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c
目前人工智能(AI)模型的準確性是顯著的,但準確性并不是最重要的唯一方面。對于高風險的領域,對模型和輸出的詳細理解也很重要。底層的機器學習和深度學習算法構建的復雜模型對人類來說是不透明的。Holzinger等人(2019b)指出,醫學領域是人工智能面臨的最大挑戰之一。對于像醫療這樣的領域,深刻理解人工智能的應用是至關重要的,對可解釋人工智能(XAI)的需求是顯而易見的。
可解釋性在許多領域很重要,但不是在所有領域。我們已經提到了可解釋性很重要的領域,例如衛生保健。在其他領域,比如飛機碰撞避免,算法多年來一直在沒有人工交互的情況下運行,也沒有給出解釋。當存在某種程度的不完整時,需要可解釋性。可以肯定的是,不完整性不能與不確定性混淆。不確定性指的是可以通過數學模型形式化和處理的東西。另一方面,不完全性意味著關于問題的某些東西不能充分編碼到模型中(Doshi-Velez和Kim(2017))。例如,刑事風險評估工具應該是公正的,它也應該符合人類的公平和道德觀念。但倫理學是一個很寬泛的領域,它是主觀的,很難正式化。相比之下,飛機避免碰撞是一個很容易理解的問題,也可以被精確地描述。如果一個系統能夠很好地避免碰撞,就不用再擔心它了。不需要解釋。
本文詳細介紹了可解釋SML的定義,并為該領域中各種方法的分類奠定了基礎。我們區分了各種問題定義,將可解釋監督學習領域分為可解釋模型、代理模型擬合和解釋生成。可解釋模型的定義關注于自然實現的或通過使用設計原則強制實現的整個模型理解。代理模型擬合方法近似基于黑盒的局部或全局可解釋模型。解釋生成過程直接產生一種解釋,區分局部解釋和全局解釋。
綜上所述,本文的貢獻如下: