在許多問題上,模型誤設定構成了可靠推理的主要障礙。在貝葉斯設置中,模型誤設定會導致不一致,以及對數量相關的后驗分布的過度自信,即對不確定性的漏報。
本論文開發了一個貝葉斯框架,以減少在涉及時間序列數據的推理問題中出現的一種模型誤設定的影響:觀察和建模數據之間未建模的時間扭曲。涉及動態系統、信號處理和更普遍的功能數據的推理問題都會受到這種錯誤設定的影響。地震學中的逆向問題是這類問題的一個重要例子:在描述復雜的、空間異質的地震波傳播速度方面的不準確,會導致其建模的時間演化的錯誤。數據不足以約束這些傳播速度,因此我們尋求對模型誤差的魯棒性。我們的方法是使用傳輸-拉格朗日(TL)距離作為損失/失誤函數:這種距離可以被理解為 "圖空間 "的最優傳輸距離,它們自然忽略了數據中對時間扭曲更敏感的某些特征。我們表明,與標準的失配函數相比,它們產生的后驗分布既不偏頗又不分散。
特別是,我們使用矩張量反演,一個地震反演問題,作為我們的主要激勵性應用,并通過各種統計和物理指標證明TL損失的反演性能得到改善,適用于一系列日益復雜的反演和錯誤規范的情況。同時,我們還解決了幾個更廣泛的方法學問題。首先,在缺乏基于TL的可能性的可操作性表達的情況下,我們使用吉布斯后驗的概念構建了一個一致的先驗-后驗升級版。然后,我們通過幾個統計評分規則和等級統計,以及特定應用的物理標準,更廣泛地探索什么是在錯誤設定的環境中構成 "好的"推理,來比較不同損失函數對吉布斯后驗的影響。為了將我們的廣義(吉布斯)貝葉斯方法與更傳統的貝葉斯設置聯系起來,我們還對隨機噪聲信號之間的傳輸-拉格朗日距離的統計特性進行了分析和數字調查。
作為對貝葉斯反演的補充,我們還證明了最優傳輸距離對頻繁回歸的效用。我們研究了帶有TL損失的線性回歸模型,描述了相關混合整數優化問題的幾何結構,并提出了利用其基本結構的專用算法。然后,我們將TL線性回歸與經典的線性回歸在幾個應用中進行了比較。
最后,我們討論了TL距離的潛在概括,以包括通過時間序列嵌入的 "形狀 "概念,以及所提出的框架對其他形式的模型錯誤規范的可能擴展。
半導體制造在很大程度上依賴于其個別工藝的精度和準確性,以滿足器件的要求。如果不加檢查,這些過程的變化會導致最終產品的性能和產量下降。雖然對這些變化的分析和控制已經使用了幾十年,但機器學習最近的發展引入了各種各樣的新方法,這些方法可能被用于更好地建模、監控和控制這些過程。這些方法提供了比傳統過程控制方法更強大、可擴展和準確的可能性。雖然許多機器學習方法很有前途,但半導體制造的獨特方面給許多機器學習方法帶來了挑戰。特別是,半導體制造的高成本往往導致數據有限的場景,因為收集大量數據可能是不可行的昂貴。由于這一局限性,我們研究了在各種半導體制造設置中概率方法的使用。與其他機器學習方法相比,這些方法通常不太容易過擬合,但仍然足夠靈活,可以為復雜系統建模。具體地說,我們在四個不同的案例研究中研究了概率機器學習方法的應用。
//dspace.mit.edu/handle/1721.1/143184
首先,我們研究虛擬計量系統,有兩個目標。我們的第一個目標是定義一個虛擬計量框架,使我們能夠更好地理解這些系統中常見的誤差來源。該框架涉及配方、腔室、傳感器和晶圓片變量,并納入兩種常見的誤差來源:可觀測誤差和概念漂移。我們的第二個目標是使用這個框架來開發我們自己的建模方法,這種方法非常適合于存在這些錯誤的建模系統。我們的解決方案是一個貝葉斯方法,類似于傳統的卡爾曼濾波器;然而,它模擬了兩個變量之間的關系,而不是一個未知的系統狀態。然后,我們研究了優化離子注入系統劑量均勻性的概率方法。改善劑量均勻性的常用方法是通過調整晶圓上的注入時間來補償光束的變化。在這里,我們學習這些變化,然后解出一組補償時間。我們的方法由兩個組件組成,一個建模組件和一個優化組件。該建模組件類似于我們用于建模虛擬計量系統的概率方法,但也結合了針對離子注入設置的先驗信念。然后,優化組件使用我們的正向模型,在給定工具和工藝的物理約束條件下改善劑量均勻性。我們將此方法與之前的現有行業調優方法進行比較,可以看到在調優時間、流程吞吐量和調優成功方面的顯著改進。
接下來,我們研究了概率異常檢測方法,我們使用它來檢測發生的過程故障。這些方法使用過程傳感器信息來確定當前過程是否正常運行。我們采用核密度估計方法估計正常工作條件下傳感器信號的概率分布;然后使用這些分布來確定一個過程在名義上運行的可能性。結果表明,該方法優于許多傳統的過程控制方法,包括統計過程控制、一類支持向量機以及基于變分自動編碼器的異常檢測方法。最后,我們研究了使用貝葉斯優化和高斯過程模型來改善濺射沉積過程的厚度均勻性。本文中,我們使用高斯過程來模擬濺射沉積過程中的厚度均勻性作為腔體配置和配方參數的函數。該模型采用迭代的方式來尋找滿足期望均勻性要求的參數。我們的建模技術優于許多標準回歸方法,包括多項式模型、多元樣條、梯度增強回歸樹和許多不同的深度學習架構。
雖然這四個案例研究都考慮了半導體制造中概率方法的獨特應用,兩個關鍵主題貫穿始終。首先,我們發現,與許多替代方法相比,這些概率方法在數據有限的情況下更不容易過擬合。先驗和觀測噪聲估計所提供的固有正則化是這些方法成功的關鍵。第二,整合過程或領域特定知識對于用有限的數據進行訓練至關重要。理解底層系統,相應地構造方法,并進行小的逼近,將復雜的原始問題簡化為更簡單的形式,從而能夠有效地應用概率機器學習方法。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930
我們探索機器學習(ML)和因果推理之間的關系。通過相互借鑒,我們專注于改進每一個方面。機器學習已經成功地應用于許多問題,但由于缺乏強有力的理論保證,導致了許多意想不到的失敗。當應用于不同的分布時,在訓練分布上表現良好的模型往往會崩潰;微小的擾動可以“欺騙”訓練好的模型,并極大地改變它的預測;訓練算法中的任意選擇會導致截然不同的模型;等等。另一方面,雖然因果推理方法的發展已經取得了巨大的進步,有很強的理論保證,但現有的方法通常不能應用于實踐,因為它們假設有大量的數據。研究ML和因果推理的交集,我們直接解決了ML中缺乏魯棒性的問題,并提高了因果推理技術的統計效率。
本論文工作背后的動機是改進用于指導決策的預測模型和因果模型的構建方法。自始至終,我們主要關注醫療健康上下文中的決策制定。在ML的因果關系方面,我們使用ML工具和分析技術來開發統計上有效的因果模型,可以指導臨床醫生在兩種治療方法之間選擇。在ML的因果關系方面,我們研究如何使用產生觀測數據的因果機制知識來有效地正則化預測模型,而不引入偏差。在臨床環境中,我們展示了如何使用因果知識來建立穩健和準確的模型來預測傳染性感染的傳播。在非臨床環境中,我們研究了如何使用因果知識來訓練在圖像分類中對分布轉移具有魯棒性的模型。
這篇論文表明,通過神經符號模型的視角來看待智能系統比傳統的深度學習方法有幾個好處。神經符號模型包含符號程序性構造,如循環、條件和連續的神經成分。符號部分使模型具有可解釋性、泛化性和穩健性,而神經部分處理智能系統的復雜性。具體而言,本文提出了兩類神經符號模型——狀態機和神經符號transformers,并以基于強化學習的自主系統和多機器人系統為例對它們進行了評估。這些案例研究表明,學習的神經符號模型是人類可讀的,可以外推到看不見的場景,并可以處理規范中的穩健目標。為了有效地學習這些神經符號模型,我們引入了利用機器學習和程序合成的最新技術的神經符號學習算法。
//dspace.mit.edu/handle/1721.1/143249
機器學習是一種從數據中提取預測模型,從而能夠將預測泛化到未觀察數據的技術。根據已知數據集選擇良好模型的過程需要進行優化。具體地說,優化過程在約束集中生成一個變量來最小化目標。這個過程包含了包括神經網絡訓練在內的許多機器學習管道,這將是我們在本文中進行理論分析的主要試驗場。在各種優化算法中,梯度方法因其高維可擴展性和反向傳播的自然局限性而成為深度學習中的主導算法。然而,盡管基于梯度的算法很受歡迎,但我們從理論的角度對機器學習環境中的這種算法的理解似乎還遠遠不夠。一方面,在現有的理論框架內,大多數上下界是封閉的,理論問題似乎得到了解決。另一方面,理論分析很難產生比實踐者發現的經驗更快的算法。本文回顧了梯度法的理論分析,指出了理論與實踐的差異。然后,我們解釋了為什么會發生不匹配,并通過發展由經驗觀察驅動的理論分析,提出了一些初始解決方案。
//dspace.mit.edu/handle/1721.1/143318
隨著時間的推移,對反事實結果的估計有可能幫助決策者回答“如果”問題,從而解鎖個性化醫療保健。現有的因果推斷方法通常考慮觀察和處理決定之間的規則的、離散的時間間隔,因此無法自然地對不規則采樣數據建模,而這是實踐中常見的設置。為了處理任意的觀察模式,我們將數據解釋為一個連續時間過程的樣本,并提出使用控制微分方程數學對其潛在軌跡進行顯式建模。這導致了一種新的方法,即治療效果神經控制微分方程(TE-CDE),它允許在任何時間點評估潛在的結果。此外,對抗性訓練用于調整時間依賴性混淆,這在縱向設置中是至關重要的,是傳統時間序列中沒有遇到的額外挑戰。為了評估這個問題的解決方案,我們提出了一個基于tumor生長模型的可控模擬環境,用于一系列場景,不規則抽樣反映各種臨床場景。TE-CDE在不規則采樣的所有模擬場景中都優于現有方法。 //www.zhuanzhi.ai/paper/ea43838ec44c8c99431d950f48ed55d4
大量公司(如大疆、Parrot和3D-Robotics)投入到無人機行業,導致生產的無人機數量激增。無人機被廣泛用于商業目的,如運送貨物、測量和監測公共場所。另一方面,無人機也可以被用來進行恐怖襲擊,或者可以用來運輸非法毒品。因此,非常需要一種快速和可靠的無人機檢測技術,以便在關鍵情況下有足夠的時間采取對策。無人機被認為是復雜的目標,其大小從10平方米到0.01平方米不等,具有對稱的形狀和波動的雷達截面(RCS),因此信號-干擾-噪聲比(SINR)低。目前采用經典信號處理技術的雷達系統在接收快照數量有限的低SINR環境下可能無法探測到無人機。采用黎曼空間信號處理方法的多輸入多輸出(MIMO)雷達系統可以通過估計黎曼空間的干擾加噪聲協方差矩陣來提高無人機的探測概率,增強到達方向估計的穩健性,并改善最小方差無失真響應波束成形。
本論文利用均勻線性陣列(ULA)MIMO雷達系統,提出了兩個基于黎曼幾何學的恒定誤報率(CFAR)檢測器,一個基于黎曼平均數和距離的到達方向估計技術,以及在黎曼空間進行波束成形的干擾加噪聲協方差矩陣估計。所有提出的技術都利用了正則化的Burg算法(RBA),將每個測距倉轉換為托普利茨-赫米特正定(THPD)矩陣,該矩陣代表黎曼尼流形上的一個點。盡管Toeplitz結構是由ULA配置產生的,但非線性陣列配置會產生非Toeplitz協方差矩陣,即使RBA保證Toeplitz結構。所提出的黎曼尼-布勞爾矩陣(RBM)CFAR檢測器是基于雜波加噪聲布勞爾邊界的黎曼尼平均值與離群點的THPD協方差矩陣之間的黎曼尼距離。另外,所提出的基于角度的混合布勞爾(ABHB)CFAR檢測器是基于雜波加噪聲布勞爾約束的黎曼平均數、中位數與離群值的THPD協方差矩陣之間在黎曼流形上的計算角度。到達方向估計問題被表述為一個線性搜索優化問題,即搜索居住在流形上的所有THPD協方差矩陣的黎曼尼平均值與每個轉向向量的赫米特正定(HPD)矩陣之間的最小黎曼尼距離。干擾加噪聲協方差矩陣的估計被表述為THPD協方差矩陣的線性組合,其中線性組合操作的權重是基于黎曼平均數和每個THPD協方差矩陣之間的黎曼距離。最大的距離(潛在目標)將擁有零權重,最小的距離將擁有最大權重。模擬和真實數據分析驗證了所有技術在低單頻和小樣本量下的穩健性和性能。
《現代統計學導論》是對之前的游戲《統計學與隨機化和模擬導論》的重新構想。這本新書著重強調了探索性數據分析(特別是使用可視化、摘要和描述性模型探索多元關系),并提供了使用隨機化和引導的基于模擬的推理的全面討論,接著介紹了基于中心極限定理的相關方法。
第1部分:數據介紹。數據結構、變量、摘要、圖形、基本數據收集和研究設計技術。 第2部分:探索性數據分析。數據可視化和總結,特別強調多變量關系。 第3部分:回歸建模。用線性和邏輯回歸建模數值和分類結果,并使用模型結果來描述關系和作出預測。 第4部分:推理的基礎。案例研究被用來引入隨機測試、bootstrap間隔和數學模型的統計推理的思想。 第5部分:統計推斷。使用隨機化測試、引導間隔和數值和分類數據的數學模型的統計推斷的進一步細節。 第6部分:推理建模。擴展推理技術提出了迄今為止的線性和邏輯回歸設置和評估模型性能。
我們希望讀者能從本書中汲取三種思想,并為統計學的思維和方法打下基礎。
統計學是一個具有廣泛實際應用的應用領域。
你不必成為數學大師,也可以從有趣的、真實的數據中學習。
數據是混亂的,統計工具是不完善的。
地址:
向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。