本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。
學習用于分布外預測的因果語義表示
Learning Causal Semantic Representation for Out-of-Distribution Prediction 論文摘要:標準的有監督學習方法特別是深度學習方法對分布外樣例的預測表現欠佳,主要由于其學到的表示難免會混淆語義因素和多樣因素,因為兩者在特定環境下具有特定的相關性,但只有語義因素是輸出變量的因。為此,我們通過對變量間因果關系的分析,將這兩個因素分開建模,進而提出了一個因果語義生成模型,并建立了相應的分布外預測方法用于解決常見且有挑戰性的單訓練域的情況。此方法源自因果不變性原理,并基于變分貝葉斯框架實現,其中引入了一個新穎的設計既實現了高效訓練又便于預測。理論上,我們證明了一定條件下,此模型可通過擬合訓練數據來識別語義因素,且這種識別保證了分布外泛化誤差的有界性和成功的領域自適應。實驗結果表明所提方法比主流基線方法具有更好的分布外預測表現。
本文研究了深度學習理論中一個基本的開放挑戰: 為什么深度網絡在過度參數化、非正則化和擬合訓練數據為零誤差的情況下仍能很好地泛化? 在論文的第一部分,我們將實證研究如何通過隨機梯度下降訓練深度網絡隱式控制網絡容量。隨后,為了說明這如何導致更好的泛化,我們將推導基于數據的一致收斂的泛化邊界,并改進參數計數的依賴性。由于其簡單性和通用性,一致收斂實際上已經成為深度學習文獻中使用最廣泛的工具。鑒于它的流行,在這篇論文中,我們也將后退一步,確定一致收斂的基本極限,作為解釋泛化的工具。特別地,我們將證明在一些過度參數化的設置的例子中,任何一致收斂界將只提供一個空洞的泛化界。考慮到這一點,在論文的最后一部分,我們將改變航向,并引入一種經驗技術來估計使用未標記數據的泛化。我們的技術不依賴于任何基于一致收斂的復雜性概念,而且非常精確。我們將從理論上說明為什么我們的技術如此精確。最后,我們將討論未來的工作如何探索在泛化邊界中納入分布假設的新方法(例如以未標記數據的形式),并探索其他工具來推導邊界,可能是通過修改統一收斂或開發完全新的工具。
互聯多模態信息源的日益可用性推動了推薦系統的新概率模型的開發,該模型利用關系數據中的上下文。因此,我們尋求整合上下文信息,以預測用戶的信息需求。在這篇論文中,我們關注一組將上下文信息建模到因子化模型的技術,特別是使用隱式反饋(如事件計數)的模型。此外,我們提出了這些模型的分析工具,提高了我們尋找合適超參數的能力。為了將計數(例如,頁面中的點擊次數)建模為隱式用戶反饋,我們選擇使用泊松分解作為構建塊。然后,我們開發了兩個泊松分解模型,其中包括社會網絡、項目文本內容和作為上下文信息的周期時間事件,并將其合并到一個聯合矩陣和張量分解模型中(第3章和第4章)。我們開發了一個聯合層次遞歸神經網絡和一個時間點過程模型來解決多會話推薦的問題,我們觀察項目的序列分組到會話序列中,并創建了一個能夠提供itens推薦和下一次會話時間預測的模型(第5章)。我們利用并開發了一種基于先驗預測分布的方法,該方法允許我們設置泊松因子分解模型的超參數,而不需要將模型與數據擬合,(第6章)這里的一個相關結果是泊松因子分解模型中潛在空間維度的一個封閉形式方程。一般來說,我們將這項工作定位為在推薦系統的背景下利用多關系和計數數據作為上下文信息的信號的概率建模的貢獻,貢獻范圍包括模型設計、分析和超參數選擇。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
《現代統計學導論》是對之前的游戲《統計學與隨機化和模擬導論》的重新構想。這本新書著重強調了探索性數據分析(特別是使用可視化、摘要和描述性模型探索多元關系),并提供了使用隨機化和引導的基于模擬的推理的全面討論,接著介紹了基于中心極限定理的相關方法。
第1部分:數據介紹。數據結構、變量、摘要、圖形、基本數據收集和研究設計技術。 第2部分:探索性數據分析。數據可視化和總結,特別強調多變量關系。 第3部分:回歸建模。用線性和邏輯回歸建模數值和分類結果,并使用模型結果來描述關系和作出預測。 第4部分:推理的基礎。案例研究被用來引入隨機測試、bootstrap間隔和數學模型的統計推理的思想。 第5部分:統計推斷。使用隨機化測試、引導間隔和數值和分類數據的數學模型的統計推斷的進一步細節。 第6部分:推理建模。擴展推理技術提出了迄今為止的線性和邏輯回歸設置和評估模型性能。
我們希望讀者能從本書中汲取三種思想,并為統計學的思維和方法打下基礎。
統計學是一個具有廣泛實際應用的應用領域。
你不必成為數學大師,也可以從有趣的、真實的數據中學習。
數據是混亂的,統計工具是不完善的。
地址:
本文是第三十四屆神經信息處理系統大會(NeurIPS 2020)入選論文《非誠實拍賣中效用與均衡的學習問題(Learning Utilities and Equilibria in Non-Truthful Auctions)》的解讀。
近年來不少文章(如[3, 4, 5])研究了非完美信息拍賣中的樣本復雜性問題。然而,大部分工作考慮的都是賣家收益最大化的樣本復雜性,鮮有工作研究買家收益最大化。而且,大部分現有工作都關注誠實拍賣,不涉及非誠實的報價策略。[6]是一個特例:他們研究了非誠實拍賣中一位買家誠實報價的效用與非誠實報價的效用至多相差多少。與本文一樣,[6]也采用了“采樣->估計”的思路。但他們沒有解決如何找到一組同時最大化所有買家的效用的策略(即納什均衡)的問題,而這正是本文的貢獻之一。
賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。
在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。
總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。
//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28
在一個常見的機器學習問題中,使用對訓練數據集估計的模型,根據觀察到的特征預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常會利用特征之間微妙的統計關系,這使得它們在應用于分布與訓練數據不同的測試數據時,可能更容易出現預測錯誤。對于學術研究和實際應用來說,如何開發能夠穩定和穩健地轉換數據的學習模型是至關重要的。
因果推理是指根據效果發生的條件得出因果關系的結論的過程,是一種強大的統計建模工具,用于解釋和穩定學習。本教程側重于因果推理和穩定學習,旨在從觀察數據中探索因果知識,提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推論,并介紹一些最近的數據驅動方法,以估計因果效應從觀測數據,特別是在高維設置。為了彌補因果推理和機器學習之間的差距,我們首先給出了穩定性和魯棒性學習算法的定義,然后將介紹一些最近的穩定學習算法來提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來的發展方向,并提供穩定學習的基準。
摘要:這項工作考慮了這樣一個問題: 獲取大量數據的便利程度如何影響我們學習因果效應和關系的能力。在大數據時代,學習因果關系與傳統因果關系有哪些不同或相同之處?為了回答這個問題,這項綜述提供了一個在因果關系和機器學習之間聯系的全面和結構化的回顧。
//www.zhuanzhi.ai/paper/6ad7902913e98bd48540a5596b978edc
因果性是結果與引起結果的原因之間的一種一般性關系。它很難定義,而且我們通常只憑直覺知道原因和結果。因為下雨,街道是濕的。因為這個學生不學習,所以他考試考得很差。因為烤箱是熱的,奶酪在披薩上融化了。當用數據學習因果關系時,我們需要意識到統計關聯和因果之間的區別。例如,當天氣炎熱時,一家冰淇淋店的老板可能會注意到高昂的電費和較高的銷售額。因此,她會觀察到電費和銷售數字之間有很強的聯系,但電費并不是導致高銷售額的原因——讓商店的燈徹夜開著不會對銷售產生影響。在這種情況下,外部溫度是高電費和高銷售額的共同原因,我們說它是一個混亂的因果關系。
學習因果關系的能力被認為是人類水平智能的重要組成部分,可以作為AI的基礎(Pearl, 2018)。從歷史上看,學習因果關系已經在包括教育在內的許多高影響領域被研究過(LaLonde, 1986;Dehejia和Wahba, 1999年;Heckerman et al ., 2006;希爾,2011),醫學科學(馬尼和庫珀,2000;經濟學(Imbens, 2004)、流行病學(Hernan et al., 2000;Robins等人,2000年;、氣象學(Ebert-Uphoff和Deng, 2012)和環境衛生(Li et al., 2014)。受限于數據量,堅實的先驗因果知識是學習因果關系所必需的。研究人員對通過精心設計的實驗收集的數據進行研究,堅實的先驗因果知識至關重要(Heckerman et al., 2006)。以隨機對照試驗的原型為例(Cook et al., 2002),為了研究一種藥物的療效,患者將被隨機分配服用或不服用該藥物,這將保證平均而言,治療組和未治療組(對照組)在所有相關方面是等同的,排除任何其他因素的影響。然后,藥物對某些健康結果的影響——比如,偏頭痛的持續時間——可以通過比較兩組的平均結果來衡量。
這個綜述的目的是考慮在現在的大數據時代學習因果關系的新可能性和挑戰,這里指的是海量數據集的可用性。舉個例子,考慮到無法測量的混雜因素的可能性——可能會被減輕,因為可以測量更多的特征。因此,一方面,研究人員有可能在大數據的幫助下回答有趣的因果問題。例如,Yelp的正面評論是促使顧客去餐館,還是僅僅反映了受歡迎程度而沒有影響?這個因果問題可以通過Yelp維護的龐大數據庫中的數據來解決。另一方面,用大數據來回答因果問題,會帶來一些獨特的新問題。例如,盡管公共數據庫或通過web爬行收集的數據或應用程序編程接口(api)是空前巨大的,我們有很少的直覺對什么類型的偏差數據集可以遭受——數據更豐富,也更神秘,因此,負責任地更難模型。與此同時,大數據給其他學習任務(如預測)帶來的基本統計困難,使得因果調查更具挑戰性。也許這方面最顯著的例子是現代數據的高維性(Li et al., 2017a),比如文本數據(Imai et al., 2013)。
CMU大神博士生Brandon Amos,馬上就要畢業了。博士期間,他在可微優化機器學習建模方向,發表了ICLR 一篇,ICML 三篇,NeurIPS 三篇,分析了可微優化機器學習建模的很多問題。近日,他將自己的博士論文也開放了出來,系統的講述了可微優化機器學習建模的方方面面。
博士論文簡介
我們提出了兩種基于優化建模的基本方法:
然后,我們將展示如何使用OptNet方法,1)將無模型和基于模型的強化學習與可微最優控制相結合,2)針對top-k學習問題,我們展示了如何將cvxpy領域特定的語言轉換為可微優化層,從而實現本文方法的快速原型化。