由于深度學習的革命性發展,計算機科學領域,尤其是計算機視覺在近年來經歷了翻天覆地的變化。大多數經典算法已經被基于深度學習的方法所取代,并在性能上超越了它們。此外,新技術使得我們能夠解決以前沒有滿意解決方案的新領域的問題。深度學習架構的性能與其計算復雜性密切相關,這使得開發高效的高性能算法變得復雜。本論文的目標是為高質量圖像和視頻增強任務開發具有最大性能的高效算法。這些特性在許多計算能力有限的設備(如電視或移動設備)的應用中需求很大。除了在第一部分針對恢復質量的快速算法外,第二部分和第三部分還提出了改進的學習算法,以促進以最大感知質量高效生成圖像和視頻。在第一部分,提出了兩種高性能視頻超分辨率的高效算法。首先,設計了一種循環算法,通過使用一種抽象的隱藏狀態,盡可能高效地利用時間信息。該算法即使在連續幀之間沒有明確的對齊時,也能在運行時間和性能上取得令人印象深刻的成果。其次,通過集成一個輕量級模塊來同時對齊和融合時間信息,進一步改進了循環單元,該模塊具有動態注意力機制。在第二部分,提出了一種用于改進感知圖像超分辨率的算法。當算法被訓練以直接最大化對原始圖像的恢復時,結果往往會產生保守的高頻估計。已經提出了專用的感知超分辨率損失,它以犧牲恢復質量為代價,以換取更合理的高頻內容。為了進一步提高輕量級架構在感知上更加令人愉悅的圖像超分辨率的訓練指導,提出了在頻域中使用額外的感知損失。在第三部分,通過提出一種高效的無監督視頻增強算法來解決收集訓練對的問題。通過使用循環的生成對抗性框架,實現了沒有逐像素引導的數據學習。一個單一的循環判別器便于高效學習和在時間上一致的感知增強高分辨率視頻的生成。增強器實現了高性能和快速的運行時間。總的來說,本論文中提出的架構和學習算法在實現輕量級和高質量圖像和視頻增強方面取得了顯著進步。
隨著實用量子計算機的可能出現,人們開始研究其潛在的應用,特別是在人工智能的背景下。受到經典機器學習中深度神經網絡成功的激勵,人們普遍希望這種成功可以被轉化到所謂的量子變分算法或由經典機器學習啟發的量子神經網絡中。當前的深度學習算法主要是基于一系列啟示法開發的,這些啟示法通常缺乏嚴格的證明來證明其有效性。由于這些算法的不透明性,提供關于它們性能的明確保證仍然是一個巨大的挑戰。盡管這種復雜性延伸到深度學習的量子模擬,但越來越多的文獻已經識別出一套理論工具,以更好地了解為什么經典機器學習模型在現實任務中如此有效。我們使用這些工具來研究這些量子模擬,以部分解答在何時以及在什么條件下我們可以期望成功的問題。我們主要使用統計學習理論、量子力學、隨機矩陣理論和群論的工具來研究量子機器學習算法的可學習性。我們的發現表明,我們必須仔細考慮量子機器學習算法的設計,以達到合理的成功水平。事實上,我們的一些結果顯示,在量子機器學習中,隨機或無結構的方法容易遇到各種挑戰,包括與訓練性相關的問題或與最佳經典算法相比沒有顯著的優勢的問題。在整篇論文中,我們提供了幾個如何可能地向這些算法中引入結構來部分地解決這些問題的例子。此外,我們還探討了量子計算如何通知和加強經典機器學習的反向問題。我們研究了將酉矩陣納入經典神經網絡,這導致了這些酉神經網絡的更高效的設計。
基于代表性和大規模的訓練數據集的深度學習在各個領域都取得了令人印象深刻的性能提升。隨著工業資產條件監測數據的日益增多,深度學習在故障檢測和診斷中具有巨大的潛力。不幸的是,在安全關鍵系統的背景下,可用的訓練數據集通常既不具代表性也不是大規模的。原因主要有兩個:首先,故障在安全關鍵系統中非常罕見,導致故障樣本稀少。此外,即使出現異常或故障,也很難確定它們發生的確切時間,導致標簽稀少且不精確。其次,有大量的操作條件影響條件監測數據。在有限的觀察時間內,不可能收集到一個涵蓋所有相關條件的代表性數據集。由此產生的數據和標簽稀缺性會限制深度學習模型在條件評估中的性能。盡管已經提出了一些解決數據和標簽稀缺的解決方案,但它們往往做出了在現實世界場景中經常不現實的隱含或明確的假設。本論文解決了這些現實世界的挑戰和局限,并提出了四個主要貢獻。首先,盡管之前已經研究了如何增強故障診斷模型對變化操作環境的魯棒性,但先前提出的方法并未考慮除了操作環境的變化之外,還可能在部署時出現新的健康狀況。我們提出了一種基于對比特征學習的方法,可以同時實現兩個目標:(1)對操作環境變化的魯棒性和(2)對新故障的敏感性。其次,為了使故障診斷模型能在不同的操作環境之間傳輸,常見的限制是同樣的故障類別必須在兩種操作環境下都發生,而且操作環境的變化很小。這些限制嚴重限制了現有方法在實際工業應用背景下的域適應任務的應用。為了消除這些限制,我們提出了一種數據生成方法,該方法對于具有極端標簽空間差異的域適應特別有益,因此,它適用于在操作環境變化下的故障診斷的現實設置。第三,為了解決標簽噪聲的挑戰,先前提出的方法通常需要關于標簽噪聲的先驗知識。這在現實中往往是不可得的,因此,現有方法不適合在現實的操作背景下應用。我們消除了這一局限性,開發了一種僅依賴于標簽噪聲水平的粗略估計的方法。最后,在監視資產的第一階段,其中可能只有健康數據可用時,已經提出了不同的故障檢測方法。現有的異常檢測算法通常忽略了數據中的異常不僅是由故障引起的,還是由操作環境的變化引起的。如果每次操作環境發生變化時都檢測到故障,異常檢測將引發許多錯誤警報,因此,它不能在實際操作中部署。為了反制這一點,我們適應了對比特征學習以使其適用于異常檢測設置,并在兩個在實際服務條件下記錄的數據集上證明了該方法的優越性。我們證明了我們提出的方法可以在現實世界的約束條件下顯著提高故障檢測和診斷性能,減輕先前存在的局限性,并擴展了在條件監控中深度學習的現實設置的適用性。因此,所提出的框架擴展了深度學習模型在監控條件中的現實情境的適用性。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
隨著時間的推移,更復雜、更強大的深度神經網絡的設計不斷推動各種任務的最新水平。在追求增加性能的過程中,計算復雜性常常受到嚴重阻礙,這體現在參數數量的顯著增加、需要的浮點運算以及延遲。盡管深度神經網絡的巨大進步增加了人們在下游應用(如機器人技術和增強現實)中使用它們的興趣,但這些應用需要計算效率高的替代方案。這篇論文關注的是設計高效的深度神經網絡,具體來說,是在給定的計算約束下提高性能,或者在性能下降不大的情況下降低復雜性。首先,我們介紹了一種新穎的卷積操作重參數化及其在多任務學習中的應用。通過重參數化卷積操作,我們可以以總參數數量的一部分實現與單任務模型相當的性能。其次,我們進行了廣泛的研究,評估自我監督任務作為多任務學習框架中的輔助任務的效果。我們發現,與自我監督任務一起訓練目標任務可以提高性能和魯棒性,常常優于有標簽的輔助任務,而且不需要修改部署時使用的架構。
第三,我們提出了一種新穎的用于高效單物體視覺跟蹤的變換器層。我們證明了實時單物體追蹤器的性能可以在不影響延遲的情況下顯著提高,同時始終優于其他變換器層。最后,我們研究了適應利用點檢測和描述神經網絡用于計算能力有限的平臺的有效性。我們發現,網絡組件的混合精度量化,結合二元描述符歸一化層,可以在性能稍有下降的同時,至少提高一個數量級的稀疏3D地圖的大小、匹配速度和推理速度。總結來說,這篇論文關注的是在計算限制下設計深度神經網絡。隨著對高效深度網絡的興趣和需求的增加,我們預見所提出的工作將為更高效的方法鋪平道路,彌合與性能更好的替代方案之間的差距。
1. 引言
通過計算機自動視覺感知和理解物理世界是計算機視覺研究的一個基本目標。受人類視覺系統的啟發,計算機視覺研究旨在構建能利用視覺輸入(如圖像)的算法,使機器能對視覺輸入內容有高級理解。在這個范圍內,研究關注的是自動提取、分析和理解重要且有用的信息。早期的計算機視覺嘗試可以追溯到Lawrence Roberts的工作[Rob63],但直到David Marr的開創性工作,該領域才有了顯著的改進[Mar76; Mar82]。Marr的框架遵循自下而上的場景理解方法,利用低級線索,如角和邊緣,作為獲得高級信息目標的基礎模塊。這個框架最早和最突出的例子之一是將Canny邊緣檢測器[Can86]與Hough變換[Bal81]結合,以獲取形狀信息,如線和圓。在各種任務上,如立體匹配[Mor81]、運動跟蹤[HS+88; Har93]、圖像匹配[Zha+95]和圖像檢索[SM97],利用低級線索的持續成功激發了對更強大、更描述性的低級特征的興趣。一些最知名的手工特征提取器包括SIFT[Low04]、HOG[DT05]和SURF[BTG06]。將這些特征與機器學習方法(如SVM[CV95])結合,使得更具挑戰性的高級任務,如圖像分類成為可能[Csu+04; SWP05]。然而,這種特性的手動設計性質使得它們在設計假設不成立時變得次優。
受到手工特征提取器限制的啟發,深度神經網絡(DNNs)旨在通過直接優化期望的行為來聯合學習自下而上的特征提取器和預測頭,如分類器[LBH15]。DNNs基于線性函數、非線性激活函數和池化操作的組合。這些模型使用捕獲期望的輸出行為的成本函數進行優化,例如分類的交叉熵,和大規模數據集。自從Krizhevsky等人[KSH12]贏得了ImageNet分類挑戰[Rus+15],大幅超過了使用傳統手工特征提取器的方法,計算機視覺社區就大量采用了DNNs,尤其是卷積神經網絡(CNNs)[LeC+89]。自那時以來,CNNs不僅被用來改進圖像分類[SZ15; Sze+15; Sze+16; He+16; ZK16],還被用來執行廣泛的任務。這些任務包括但不限于語義分割[YK16a; Che+17; Zha+17; Yu+18; Che+18a]、人體姿態估計[NYD16; Cao+17; Sun+19; Cao+19]、單目深度估計[Zho+17; Fu+18; God+19]、物體檢測[Gir+14; Gir15; Ren+15; Red+16]和視覺物體跟蹤[Ber+16; Bha+19]。
為了提高CNNs的表示能力,網絡變得更深[SZ15; He+16]、更寬[ZK16; Sun+19],甚至用更具描述性的替代品替換卷積操作[Dos+21; Tol+21]。我們在圖1.1a中描繪了隨著時間推移在ImageNet分類基準[Rus+15]上的進展。如圖所示,雖然隨著時間的推移,我們看到了持續的性能提高,但這些進步往往以增加的計算復雜性為代價,例如參數的數量(圖1.2a)和FLOPs的數量(圖1.2b)。在一定程度上,這些進步主要需要高端的圖形處理單元(GPUs)和張量處理單元(TPUs),這些通常可以在云服務器上找到。
DNNs的巨大進步進一步激發了人們對其在機器人、增強現實(AR)、虛擬現實(VR)、自動駕駛汽車、物聯網(IoT)和移動電話[Sar+22]中的應用的興趣。然而,云計算的限制阻止了其在這些應用中進行推理的使用。首先,不穩定或丟失的網絡連接使得使用云處理成為不可能。其次,根據數據保護規定,如通用數據保護規定(GDPR)[Cus+19],禁止處理和存儲敏感數據。最后,隨著任何設備或服務的用戶數量的增加,云服務器需要處理增加的數據傳輸以及增加的處理需求,使得云計算不可行且成本效益低。為了緩解這些問題,上述應用依賴于在板上處理,也稱為邊緣計算。DNNs的在板處理解決了云計算的所有限制,并有可能提供確定的和實時的體驗[DD17]。然而,與云服務器、大型機和工作站不同,嵌入式平臺有限的存儲、內存、計算能力、電池壽命,且通常需要更快和更小的軟件更新。這些限制可以,部分地,通過結合以下方法來解決,具體取決于設備特定的約束:
拓撲優化:拓撲優化旨在通過改變網絡的架構來提高每操作的精度或每參數的精度。值得注意的例子包括MobileNets [How+17; San+18; How+19],ShuffleNets [Zha+18a; Ma+18],EfficientNets [TL19; TL21],等等 [Gho+18; Hua+18; Zop+18; Liu+18a; LSY18; Rad+20]。
硬件感知優化:嵌入式平臺通常對全精度(FP)運算提供有限的甚至沒有支持。此外,它們通常被優化為執行SIMD(單指令,多數據)整數(Int)運算 [Ign+18]。盡管標準的深度學習庫使用32位FP表示法 [Pas+19; Mar+15],但對Int表示法的需求呼喚量化神經網絡(QNNs)。通過用Int操作數替換FP,QNNs減少了相對于等效DNNs的存儲和內存需求,同時復雜的FP運算可以被更簡單的Int運算所替代。由于這些性質,QNNs可以以更高的吞吐量(每周期的操作數)和算術強度(每內存事務的算術操作數)執行 [CBD15; KS15; Ras+16; LZP17; Zhu+17; Liu+18b; Jac18; Nag+19; LS20]。
知識蒸餾:從一個大模型(稱為“教師”)開始,目標是將知識轉移到一個更適合部署的小模型(稱為“學生”) [HVD15]。具體來說,這可能包括同一架構家族的模型之間的知識轉移,從ResNet-101 [He+16] 到 ResNet-50 [He+16],也可能是不同的架構,例如從ResNet-101 [He+16] 到 MobileNet [How+17]。知識蒸餾可以被看作是兩個網絡之間的函數匹配,并在實踐中展示了優異的結果 [HVD15; Rom+15; TV17; MM18; CH19; SS20; Xie+20; Bey+22]。
模型剪枝和分解:由于DNNs的過度參數化,剪枝方法旨在識別并消除網絡中的冗余操作。這可能包括剪枝獨立的神經元 [Han+15; HMD16],但通常整個過濾器都用新的具有規則形狀的內核 [Li+17; Gor+18; Yan+18]。與剪枝類似,分解方法用低秩近似替換現有的過濾器。這可能是在二維過濾器上 [Den+14; JV 多任務學習:到目前為止討論的方法主要關注于每個任務學習一個網絡。不同的是,多任務學習(MTL)專注于用單個網絡學習多個任務。MTL最初是為了通過利用額外相關任務的訓練信號作為歸納偏差來提高目標任務的性能而提出的 [Car97]。然而,神經網絡的自下而上的方法使得不同任務之間可以共享參數和計算,使它們成為不僅可以提高任務性能 [Mis+16; Xu+18; Ran+19; Hoy+21; Bru+21] ,也可以減少總參數數量和FLOPs [Kok17; RBV17; BV17; RPC17; RBV18; MRK19; Bru+20; Sta+20]的優秀框架。
深度學習方法在解決計算機視覺任務方面取得了巨大的成功,在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而,深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此,深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性。 對于圖像去噪,我們系統地研究了深度圖像去噪器的魯棒性。具體而言,我們提出了一種新的攻擊方法,基于觀測的零均值攻擊(ObsAtk),考慮了自然噪聲的零均值假設,對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk,我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外,我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現,只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類,我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先,研究了神經常微分方程的魯棒性。我們通過經驗證明,與基于CNN的分類器相比,基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性,我們將時不變屬性引入到節點中,并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型,稱為時不變穩定神經ODE (TisODE),比vanilla 節點更魯棒。 其次,從通道激活的角度研究了vanilla CNN的魯棒性,并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是,我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到,對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道,誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活,觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此,我們假設,根據通道與真實類別的相關性,放大通道的激活可以提高魯棒性。為了驗證這一假設,我們開發了一種新的通道操作技術,即基于通道重要性的特征選擇(CIFS),該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述,本文系統研究了深度視覺算法的魯棒性,包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。
當代機器學習系統在各種任務上都取得了巨大的成功,包括圖像分類、目標檢測和跟蹤以及推薦算法。這一成功是由計算能力的巨大進步推動的,它使我們能夠利用大型訓練數據集,具有大量的類和具有大量參數的訓練模型。事實上,這些系統使用的模型具有足夠的模型容量,可以在有噪聲甚至完全隨機的標簽上訓練到誤差。然而,這些模型在實踐中往往具有很好的泛化性,避免了有害的“過擬合”。良好泛化的關鍵在于模型體系結構和訓練算法的隱性偏差,它們引導我們找到良好泛化的解決方案。本文通過分析過度參數化的線性模型,證明良好泛化的充要條件,從理論上更好地理解這一現象。此外,我們還實證研究了在訓練模型來解決控制領域的實際問題時,是否可以利用我們關于問題領域的知識來設計正確的內隱偏差。
我們從分析過參數化線性回歸的簡單設置開始,當特征的數量超過訓練點的數量時,對有噪聲的數據擬合一個線性模型。通過采取傅立葉理論的角度,我們映射了由過度參數化帶來的關鍵挑戰,眾所周知,由于欠采樣導致真實信號混疊的現象。借用信號處理中的“信號出血”和“信號污染”的概念,我們為傅里葉特征設置導出了良好的泛化條件。
接下來,我們分析最小-?2-范數插值器在高斯特征設定下的回歸和二元分類問題的泛化誤差。對于回歸,我們插值實值標簽,對于二元分類,我們插值二元標簽。(事實證明,在充分的過參數化條件下,二值標簽的最小范數插值與其他二值分類訓練方法等價,如支持向量機或邏輯損失梯度下降法。)我們研究了一個漸近設置,其中特征的數量d與訓練點的數量n成比例,且都是n, d→∞。在特征的雙水平尖峰協方差模型下,證明了存在一種中間狀態,在這種狀態下,我們在分類任務上表現良好,但在相應的回歸任務上表現不佳。然后,我們將分析擴展到多類分類設置,其中類的數量也與訓練點的數量成比例,通過導出由一熱編碼標簽的最小范數插值器引起的分類誤差的漸近界。最后,為了理解我們如何學習在實踐中很好地推廣的模型,我們經驗地研究了神經網絡的應用,在硬控制問題中,最優解是未知的,線性解被證明是次優的非線性控制策略。通過智能設計神經網絡架構和訓練方法,利用我們對控制系統動力學的知識,我們能夠更容易和魯棒地學習性能良好的控制策略。
半導體制造在很大程度上依賴于其個別工藝的精度和準確性,以滿足器件的要求。如果不加檢查,這些過程的變化會導致最終產品的性能和產量下降。雖然對這些變化的分析和控制已經使用了幾十年,但機器學習最近的發展引入了各種各樣的新方法,這些方法可能被用于更好地建模、監控和控制這些過程。這些方法提供了比傳統過程控制方法更強大、可擴展和準確的可能性。雖然許多機器學習方法很有前途,但半導體制造的獨特方面給許多機器學習方法帶來了挑戰。特別是,半導體制造的高成本往往導致數據有限的場景,因為收集大量數據可能是不可行的昂貴。由于這一局限性,我們研究了在各種半導體制造設置中概率方法的使用。與其他機器學習方法相比,這些方法通常不太容易過擬合,但仍然足夠靈活,可以為復雜系統建模。具體地說,我們在四個不同的案例研究中研究了概率機器學習方法的應用。
//dspace.mit.edu/handle/1721.1/143184
首先,我們研究虛擬計量系統,有兩個目標。我們的第一個目標是定義一個虛擬計量框架,使我們能夠更好地理解這些系統中常見的誤差來源。該框架涉及配方、腔室、傳感器和晶圓片變量,并納入兩種常見的誤差來源:可觀測誤差和概念漂移。我們的第二個目標是使用這個框架來開發我們自己的建模方法,這種方法非常適合于存在這些錯誤的建模系統。我們的解決方案是一個貝葉斯方法,類似于傳統的卡爾曼濾波器;然而,它模擬了兩個變量之間的關系,而不是一個未知的系統狀態。然后,我們研究了優化離子注入系統劑量均勻性的概率方法。改善劑量均勻性的常用方法是通過調整晶圓上的注入時間來補償光束的變化。在這里,我們學習這些變化,然后解出一組補償時間。我們的方法由兩個組件組成,一個建模組件和一個優化組件。該建模組件類似于我們用于建模虛擬計量系統的概率方法,但也結合了針對離子注入設置的先驗信念。然后,優化組件使用我們的正向模型,在給定工具和工藝的物理約束條件下改善劑量均勻性。我們將此方法與之前的現有行業調優方法進行比較,可以看到在調優時間、流程吞吐量和調優成功方面的顯著改進。
接下來,我們研究了概率異常檢測方法,我們使用它來檢測發生的過程故障。這些方法使用過程傳感器信息來確定當前過程是否正常運行。我們采用核密度估計方法估計正常工作條件下傳感器信號的概率分布;然后使用這些分布來確定一個過程在名義上運行的可能性。結果表明,該方法優于許多傳統的過程控制方法,包括統計過程控制、一類支持向量機以及基于變分自動編碼器的異常檢測方法。最后,我們研究了使用貝葉斯優化和高斯過程模型來改善濺射沉積過程的厚度均勻性。本文中,我們使用高斯過程來模擬濺射沉積過程中的厚度均勻性作為腔體配置和配方參數的函數。該模型采用迭代的方式來尋找滿足期望均勻性要求的參數。我們的建模技術優于許多標準回歸方法,包括多項式模型、多元樣條、梯度增強回歸樹和許多不同的深度學習架構。
雖然這四個案例研究都考慮了半導體制造中概率方法的獨特應用,兩個關鍵主題貫穿始終。首先,我們發現,與許多替代方法相比,這些概率方法在數據有限的情況下更不容易過擬合。先驗和觀測噪聲估計所提供的固有正則化是這些方法成功的關鍵。第二,整合過程或領域特定知識對于用有限的數據進行訓練至關重要。理解底層系統,相應地構造方法,并進行小的逼近,將復雜的原始問題簡化為更簡單的形式,從而能夠有效地應用概率機器學習方法。
近年來,深度學習已經將自己定位為機器學習最有前途的方向之一。然而,深度神經網絡在不確定性估計、模型選擇、先驗知識的整合等方面存在許多不足。幸運的是,所有這些問題都可以在貝葉斯深度學習框架內克服,使用貝葉斯神經網絡、變分自編碼器或深度神經網絡高斯過程等模型。不幸的是,這需要使用近似推理過程和先驗分布的規范。在這篇論文中,我們展示了這些模型中先驗規范不僅僅是一個麻煩,而是一個寶貴的機會,可以將領域知識和歸納偏見加入到學習算法中,從而提升全新應用的性能。為此,我們對相關文獻進行了全面的回顧,并進一步貢獻了不同的原創研究成果。
具體地說,我們證明了變分自編碼器中的高斯過程先驗可以改進時間序列的表示學習,并允許對缺失數據進行有效的插補,同時還可以提供校準的不確定性估計。我們還表明,通過使用變分高斯-馬爾可夫過程,這是可能的,在沒有顯著的額外計算成本。此外,我們表明,在變分自編碼器中使用自組織映射作為結構歸納偏差,可以提高學習表示的可解釋性,并使有效的潛在聚類。這些聚類表示可以作為潛在時間序列模型的輸入,從而準確地預測未來的狀態。在貝葉斯神經網絡中,我們證明了常用的各向同性高斯先驗不僅會導致次優性能,而且在某些情況下還會產生所謂的冷后驗效應,即經過緩和的后驗比真正的貝葉斯后驗表現更好。相反,我們提出了具有重尾性和空間相關性的備選先驗,可以提高性能,緩解冷后驗效應。最后,當沒有先驗知識可用時,我們表明先驗分布可以在元學習環境中從相關任務中學習。在深度神經網絡高斯過程的情況下,我們表明元學習的均值函數和核函數的先驗改進預測性能和不確定性估計。
我們希望本文將為貝葉斯深度學習框架奠定基礎,在該框架中,先驗分布的選擇將被視為建模任務的關鍵部分,手工設計和元學習的先驗將在任務之間自由共享,以實現貝葉斯深度學習。
//www.research-collection.ethz.ch/handle/20.500.11850/523269