計算機視覺系統自從分類手寫數字的時代以來取得了巨大的進步。特別是,監督學習已經成為解決科研之外任務的普遍方法。這些系統被部署在從自動駕駛汽車到自動醫療診斷和天氣預報等多個行業的眾多產品中。這些進步可以歸因于深度學習算法、專業庫和專用硬件的進步,以及用于模型訓練的大型標注數據集的增加。然而,仍然存在一些任務,其中僅僅捕獲和標注更多數據的標準范式并不是一個可行的解決方案。 在這篇論文中,我們調查如何最好地利用多模態數據來解決獲取足夠質量或完整性數據困難的計算機視覺任務。我們專注于兩個特定任務:引導式超分辨率和細粒度分類。引導式超分辨率涉及通過將低分辨率數據與輔助模態結合來進行放大,而細粒度分類需要利用邊際信息,使分類算法能夠捕捉到細粒度類別之間細微的外觀差異。最初,我們在缺乏地面真實數據的情況下為引導式超分辨率提供解決方案。首先,我們提出了一種將引導式超分辨率視為學習從引導到源域的像素到像素映射的新穎無監督公式。我們使用多層感知器參數化來保留高頻細節。其次,我們提出了一種新穎的混合模型,以在保持解決測試時優化問題的嚴謹性的同時,最好地利用深度學習方法。關鍵是一個可微分優化層,它作用于一個學習的親和圖,確保目標對源的高保真度,因此對未見域具有高泛化性。隨后,我們提出了一種自動識別社區科學家照片中細粒度植物標本的統一方法。該方法旨在利用社區科學家觀察中通常可用的各種先驗知識,包括地理和時間背景以及植物分類學,以學習跨類似物種的可轉移表示。最后,我們提出了2021年半地球植物標本館數據集,這是我們作為機器學習競賽的一部分創建的一個大型策劃和開放獲取的植物標本數據集,以鼓勵進一步研究從照片中自動識別細粒度植物物種。 近年來,計算機視覺領域取得了顯著進步。當然,這些進步可以歸因于深度學習研究、專業庫和專用硬件的進展,但最重要的是,這些進步得益于大量數據的可用性,例如像ChatGPT(OpenAI,2022年)和Stable Diffusion(Rombach等,2021年)這樣的生成模型分別在互聯網上爬取了數十億的文本和圖像進行訓練。 然而,并非所有任務都能使用現成的互聯網規模數據集來解決。許多重要問題,如自動檢測惡性腫瘤、評估自然災害造成的損害或繪制瀕危物種的地理分布,仍然是放大數據收集不是解決方案的挑戰。這些挑戰可以大致分為兩類。首先,由于傳感器捕獲它們的固有技術限制,感知特定模態存在困難,例如遙感器如航空或衛星成像或主動傳感器如激光掃描儀、ToF相機或MRI掃描儀。其次,觀察罕見事件或特定數據類型的多樣性困難,因為在現實世界的數據收集工作中不經常遇到某些場景或類別。例如,捕捉所有容易發生事故的駕駛場景,或收集所有生物物種的足夠數據就是這種情況。
為了解決數據收集質量挑戰性應用中傳感器可用性的限制,一個可行的解決方案是利用更常見的傳感器捕獲的數據來增強傳感器的輸出。這種設置在許多計算機視覺任務中都很常見,特別是在低分辨率傳感器與捕獲不同模態圖像的高分辨率傳感器配對時。這項任務,被稱為引導式超分辨率,涉及在高分辨率引導圖像的幫助下增加低分辨率源圖像的分辨率。一個常見的實際應用是在RGB圖像的指導下對深度圖進行超分辨率。這種配置在配備有深度傳感器和常規攝像機的各種設備上都能找到,如增強/虛擬現實頭戴式顯示器(AR,VR),現代手持設備,機器人和自動駕駛汽車。事實上,消費級深度攝像頭捕獲的深度圖分辨率較低;類似地,激光掃描儀獲得的稀疏深度測量可以在相對較大的印記上進行平均。相反,即使是入門級相機現在也能以非常高的分辨率捕獲圖像。這種設置也經常用于環境監測,例如樹高、生物量或物種分布概率等關鍵指標的地圖通常可用的分辨率遠低于現代遙感器的地面采樣距離(Keil和Jetz,2014年,Metzger等,2022年)。因此,一個自然的問題是如何利用這些系統捕獲的成對圖像來提高低分辨率傳感器的質量,從高分辨率傳感器傳輸細節。 獲取大量高質量注釋的挑戰甚至可能比數據收集過程本身更加困難。這是至關重要的,因為監督學習在計算機視覺的成功中發揮了核心作用,可以追溯到深度學習早期的開創性工作,如AlexNet(Krizhevsky等,2012年)贏得ImageNet ILSVRC-2012挑戰賽(Deng等,2009a)。事實上,全球數據標注市場預計到2028年將達到82.2億美元(Grand View Research),凸顯了其重要性。例如ImageNet這樣的基準通常為每個類提供大量的訓練圖像,在這種設置下,分類算法取得了令人印象深刻的結果。然而,一旦我們減少每個訓練類的圖像數量,它們的性能就會迅速下降。然而,由于各種原因,簡單地收集更多數據和注釋并不總是可行的。例如,自然界展示了物種的長尾分布,導致大量類別不平衡,某些物種罕見或難以觀察。此外,某些地區數據的可用性變化和觀察者偏見可能會進一步加劇獲取全面注釋的難度,如圖1.1所示。此外,標注這些數據集需要專業的分類學專業知識,因此許多這些觀察結果仍未標注。這是大多數描述生物多樣性的大型圖像集合的現實,例如那些從相機陷阱、社區科學家觀察、無人機調查或植物標本館(Tuia等,2022年,Bebber等,2010年)中獲得的。因此,我們認為自動物種識別工具的需求迫切。這項任務,通常被稱為細粒度分類,涉及將圖像分類為更廣泛類別內的子類別,例如物種,并且以區分基于微妙視覺線索的標本為特征。我們認為,僅憑外觀信息不足以區分細粒度類別,因為學習這種微妙模式的數據有限。幸運的是,物種觀察通常伴隨著側面信息,例如捕獲圖像的時空背景,這些信息可以與環境先驗結合使用。這個問題再次強調了開發利用多模態數據來增強自動識別標本的方法的需要。
深度生成模型已經徹底改變了人工智能領域,從根本上改變了我們如何生成模仿或從訓練數據推廣出的新穎對象,以及我們訪問和消費各類信息(如文本、圖像、語音和計算機程序)的方式。它們有潛力徹底改變其他科學領域,從數學問題解決到支持高能物理中快速而準確的模擬,或是使快速天氣預報成為可能。在計算生物學中,生成模型對于改進我們對復雜生物過程的理解、設計新藥物和治療方法、以及預測大流行期間病毒的進化等方面,都擁有巨大的潛力,而這只是眾多應用中的一部分。然而,由于生物對象的固有復雜性,它們帶來了獨特的挑戰,包括龐大的空間、多種補充數據模式,以及高度結構化和相對非結構化組件之間的獨特相互作用。
在這篇論文中,我們開發了幾種由計算生物學中關鍵問題所驅動的深度生成建模框架。鑒于這一努力的跨學科性質,我們首先提供了關于生成建模、不確定性量化、順序決策制定,以及生物學和化學中重要概念的全面背景,以便徹底理解我們的工作。接著,我們深入探討我們貢獻的核心,圍繞三個章節進行構建。第一章介紹了學習生物序列表示的方法,為后續分析打下了基礎。第二章展示了如何利用這些表示來預測生物分子的復雜屬性,重點關注三個具體應用:蛋白質適應性預測、遺傳變異對人類疾病風險的影響,以及病毒免疫逃逸。最后,第三章致力于設計新型生物分子的方法,包括藥物靶點識別、從頭分子優化和蛋白質工程。
這篇論文還對更廣泛的機器學習挑戰,如高維空間中的不確定性量化或高效的變換器架構,作出了幾個方法論貢獻,這些貢獻在其他應用領域也具有潛在價值。我們最后通過總結我們的主要發現,強調當前方法的不足,提出未來研究的可能途徑,并討論該領域內的新興趨勢來結束這篇論文。
由于深度學習的革命性發展,計算機科學領域,尤其是計算機視覺在近年來經歷了翻天覆地的變化。大多數經典算法已經被基于深度學習的方法所取代,并在性能上超越了它們。此外,新技術使得我們能夠解決以前沒有滿意解決方案的新領域的問題。深度學習架構的性能與其計算復雜性密切相關,這使得開發高效的高性能算法變得復雜。本論文的目標是為高質量圖像和視頻增強任務開發具有最大性能的高效算法。這些特性在許多計算能力有限的設備(如電視或移動設備)的應用中需求很大。除了在第一部分針對恢復質量的快速算法外,第二部分和第三部分還提出了改進的學習算法,以促進以最大感知質量高效生成圖像和視頻。在第一部分,提出了兩種高性能視頻超分辨率的高效算法。首先,設計了一種循環算法,通過使用一種抽象的隱藏狀態,盡可能高效地利用時間信息。該算法即使在連續幀之間沒有明確的對齊時,也能在運行時間和性能上取得令人印象深刻的成果。其次,通過集成一個輕量級模塊來同時對齊和融合時間信息,進一步改進了循環單元,該模塊具有動態注意力機制。在第二部分,提出了一種用于改進感知圖像超分辨率的算法。當算法被訓練以直接最大化對原始圖像的恢復時,結果往往會產生保守的高頻估計。已經提出了專用的感知超分辨率損失,它以犧牲恢復質量為代價,以換取更合理的高頻內容。為了進一步提高輕量級架構在感知上更加令人愉悅的圖像超分辨率的訓練指導,提出了在頻域中使用額外的感知損失。在第三部分,通過提出一種高效的無監督視頻增強算法來解決收集訓練對的問題。通過使用循環的生成對抗性框架,實現了沒有逐像素引導的數據學習。一個單一的循環判別器便于高效學習和在時間上一致的感知增強高分辨率視頻的生成。增強器實現了高性能和快速的運行時間。總的來說,本論文中提出的架構和學習算法在實現輕量級和高質量圖像和視頻增強方面取得了顯著進步。
數十年來,機器人在我們的日常生活中扮演了重要而隱秘的角色。我們每天依賴的許多產品,如汽車和藥品,都是通過機器人自動化生產的。這些系統將以更直接的方式進入我們的日常生活,他們的影響力不可避免地會減小。特別是腿部機器人,近期的進步終于使這些系統商業上可行,并將很快看到它們在物流、景觀工作和在建筑工地上協助工人的角色。然而,隨著它們的持續改進,操作它們的軟件和算法將需要能夠執行目前無法實現的更抽象的任務。毫無疑問,實現這一目標的方式之一將涉及利用機器學習技術的并發進步。
//www.research-collection.ethz.ch/handle/20.500.11850/614549
這篇博士論文正朝著這個目標努力,旨在幫助彌合現代機器人技術和機器學習技術之間的鴻溝。這項研究解決了實現更強大機器人系統所必需的兩個方面,即軟件和算法,并專注于深度強化學習(DRL)技術在解決腿部機器人,特別是四足機器人系統的運動控制問題的應用。為了統一上述領域,我們需要軟件系統能夠利用在Python中實現的DRL算法,并讓需要C++接口的研究人員和開發人員可以使用。因此,這項工作通過引入一個多功能的軟件工具箱,為機器人應用使用DRL算法做出了貢獻。它利用了最先進的機器學習平臺TensorFlow的Python API,用于構建包含神經網絡模型、梯度計算和隨機梯度下降優化器等組件的計算圖。這些圖可以在C++運行時環境中使用,以執行如訓練和部署等圖操作。此外,該工具箱在上述核心元素的基礎上,提供了對DRL的有用抽象,實現了幾種最先進的算法以及其他有用的實用工具。有了這個工具箱,我們提供了一個端到端的解決方案,用于設計、建模、訓練和部署神經網絡策略,這種策略專門為四足機器人ANYmal設計和測試。此外,復雜地形的行動對于有腿的機器人來說構成了重大挑戰。為了讓像ANYmal這樣的系統能夠在這樣的環境中自主運行,它們必須擁有謹慎規劃適合地形的立足點的方法,同時執行保證穩定性的運動。為了解決這個問題,本博士論文通過提出一種解決四足系統穿越非結構化地形的立足點選擇和步態生成問題的新方法,對算法的第二個方面做出了貢獻。這項工作主要圍繞一個框架進行,該框架用于制定馬爾科夫決策過程(MDPs),采用最新的基于模型的軌跡優化技術來評估動態可行性,取代了物理模擬。當與最先進的DRL算法一起使用時,這些MDPs會生成能夠在具有挑戰性的3D環境中規劃基礎姿勢、立足點位置和步態參數序列的地形感知神經網絡策略。這些所謂的步態規劃(GP)網絡,在與其他針對運動規劃和控制問題的最先進方法結合時,會產生有效的行動。這種方法已經在模擬中以及在ANYmal的物理平臺上得到了實驗驗證。
隨著時間的推移,更復雜、更強大的深度神經網絡的設計不斷推動各種任務的最新水平。在追求增加性能的過程中,計算復雜性常常受到嚴重阻礙,這體現在參數數量的顯著增加、需要的浮點運算以及延遲。盡管深度神經網絡的巨大進步增加了人們在下游應用(如機器人技術和增強現實)中使用它們的興趣,但這些應用需要計算效率高的替代方案。這篇論文關注的是設計高效的深度神經網絡,具體來說,是在給定的計算約束下提高性能,或者在性能下降不大的情況下降低復雜性。首先,我們介紹了一種新穎的卷積操作重參數化及其在多任務學習中的應用。通過重參數化卷積操作,我們可以以總參數數量的一部分實現與單任務模型相當的性能。其次,我們進行了廣泛的研究,評估自我監督任務作為多任務學習框架中的輔助任務的效果。我們發現,與自我監督任務一起訓練目標任務可以提高性能和魯棒性,常常優于有標簽的輔助任務,而且不需要修改部署時使用的架構。
第三,我們提出了一種新穎的用于高效單物體視覺跟蹤的變換器層。我們證明了實時單物體追蹤器的性能可以在不影響延遲的情況下顯著提高,同時始終優于其他變換器層。最后,我們研究了適應利用點檢測和描述神經網絡用于計算能力有限的平臺的有效性。我們發現,網絡組件的混合精度量化,結合二元描述符歸一化層,可以在性能稍有下降的同時,至少提高一個數量級的稀疏3D地圖的大小、匹配速度和推理速度。總結來說,這篇論文關注的是在計算限制下設計深度神經網絡。隨著對高效深度網絡的興趣和需求的增加,我們預見所提出的工作將為更高效的方法鋪平道路,彌合與性能更好的替代方案之間的差距。
1. 引言
通過計算機自動視覺感知和理解物理世界是計算機視覺研究的一個基本目標。受人類視覺系統的啟發,計算機視覺研究旨在構建能利用視覺輸入(如圖像)的算法,使機器能對視覺輸入內容有高級理解。在這個范圍內,研究關注的是自動提取、分析和理解重要且有用的信息。早期的計算機視覺嘗試可以追溯到Lawrence Roberts的工作[Rob63],但直到David Marr的開創性工作,該領域才有了顯著的改進[Mar76; Mar82]。Marr的框架遵循自下而上的場景理解方法,利用低級線索,如角和邊緣,作為獲得高級信息目標的基礎模塊。這個框架最早和最突出的例子之一是將Canny邊緣檢測器[Can86]與Hough變換[Bal81]結合,以獲取形狀信息,如線和圓。在各種任務上,如立體匹配[Mor81]、運動跟蹤[HS+88; Har93]、圖像匹配[Zha+95]和圖像檢索[SM97],利用低級線索的持續成功激發了對更強大、更描述性的低級特征的興趣。一些最知名的手工特征提取器包括SIFT[Low04]、HOG[DT05]和SURF[BTG06]。將這些特征與機器學習方法(如SVM[CV95])結合,使得更具挑戰性的高級任務,如圖像分類成為可能[Csu+04; SWP05]。然而,這種特性的手動設計性質使得它們在設計假設不成立時變得次優。
受到手工特征提取器限制的啟發,深度神經網絡(DNNs)旨在通過直接優化期望的行為來聯合學習自下而上的特征提取器和預測頭,如分類器[LBH15]。DNNs基于線性函數、非線性激活函數和池化操作的組合。這些模型使用捕獲期望的輸出行為的成本函數進行優化,例如分類的交叉熵,和大規模數據集。自從Krizhevsky等人[KSH12]贏得了ImageNet分類挑戰[Rus+15],大幅超過了使用傳統手工特征提取器的方法,計算機視覺社區就大量采用了DNNs,尤其是卷積神經網絡(CNNs)[LeC+89]。自那時以來,CNNs不僅被用來改進圖像分類[SZ15; Sze+15; Sze+16; He+16; ZK16],還被用來執行廣泛的任務。這些任務包括但不限于語義分割[YK16a; Che+17; Zha+17; Yu+18; Che+18a]、人體姿態估計[NYD16; Cao+17; Sun+19; Cao+19]、單目深度估計[Zho+17; Fu+18; God+19]、物體檢測[Gir+14; Gir15; Ren+15; Red+16]和視覺物體跟蹤[Ber+16; Bha+19]。
為了提高CNNs的表示能力,網絡變得更深[SZ15; He+16]、更寬[ZK16; Sun+19],甚至用更具描述性的替代品替換卷積操作[Dos+21; Tol+21]。我們在圖1.1a中描繪了隨著時間推移在ImageNet分類基準[Rus+15]上的進展。如圖所示,雖然隨著時間的推移,我們看到了持續的性能提高,但這些進步往往以增加的計算復雜性為代價,例如參數的數量(圖1.2a)和FLOPs的數量(圖1.2b)。在一定程度上,這些進步主要需要高端的圖形處理單元(GPUs)和張量處理單元(TPUs),這些通常可以在云服務器上找到。
DNNs的巨大進步進一步激發了人們對其在機器人、增強現實(AR)、虛擬現實(VR)、自動駕駛汽車、物聯網(IoT)和移動電話[Sar+22]中的應用的興趣。然而,云計算的限制阻止了其在這些應用中進行推理的使用。首先,不穩定或丟失的網絡連接使得使用云處理成為不可能。其次,根據數據保護規定,如通用數據保護規定(GDPR)[Cus+19],禁止處理和存儲敏感數據。最后,隨著任何設備或服務的用戶數量的增加,云服務器需要處理增加的數據傳輸以及增加的處理需求,使得云計算不可行且成本效益低。為了緩解這些問題,上述應用依賴于在板上處理,也稱為邊緣計算。DNNs的在板處理解決了云計算的所有限制,并有可能提供確定的和實時的體驗[DD17]。然而,與云服務器、大型機和工作站不同,嵌入式平臺有限的存儲、內存、計算能力、電池壽命,且通常需要更快和更小的軟件更新。這些限制可以,部分地,通過結合以下方法來解決,具體取決于設備特定的約束:
拓撲優化:拓撲優化旨在通過改變網絡的架構來提高每操作的精度或每參數的精度。值得注意的例子包括MobileNets [How+17; San+18; How+19],ShuffleNets [Zha+18a; Ma+18],EfficientNets [TL19; TL21],等等 [Gho+18; Hua+18; Zop+18; Liu+18a; LSY18; Rad+20]。
硬件感知優化:嵌入式平臺通常對全精度(FP)運算提供有限的甚至沒有支持。此外,它們通常被優化為執行SIMD(單指令,多數據)整數(Int)運算 [Ign+18]。盡管標準的深度學習庫使用32位FP表示法 [Pas+19; Mar+15],但對Int表示法的需求呼喚量化神經網絡(QNNs)。通過用Int操作數替換FP,QNNs減少了相對于等效DNNs的存儲和內存需求,同時復雜的FP運算可以被更簡單的Int運算所替代。由于這些性質,QNNs可以以更高的吞吐量(每周期的操作數)和算術強度(每內存事務的算術操作數)執行 [CBD15; KS15; Ras+16; LZP17; Zhu+17; Liu+18b; Jac18; Nag+19; LS20]。
知識蒸餾:從一個大模型(稱為“教師”)開始,目標是將知識轉移到一個更適合部署的小模型(稱為“學生”) [HVD15]。具體來說,這可能包括同一架構家族的模型之間的知識轉移,從ResNet-101 [He+16] 到 ResNet-50 [He+16],也可能是不同的架構,例如從ResNet-101 [He+16] 到 MobileNet [How+17]。知識蒸餾可以被看作是兩個網絡之間的函數匹配,并在實踐中展示了優異的結果 [HVD15; Rom+15; TV17; MM18; CH19; SS20; Xie+20; Bey+22]。
模型剪枝和分解:由于DNNs的過度參數化,剪枝方法旨在識別并消除網絡中的冗余操作。這可能包括剪枝獨立的神經元 [Han+15; HMD16],但通常整個過濾器都用新的具有規則形狀的內核 [Li+17; Gor+18; Yan+18]。與剪枝類似,分解方法用低秩近似替換現有的過濾器。這可能是在二維過濾器上 [Den+14; JV 多任務學習:到目前為止討論的方法主要關注于每個任務學習一個網絡。不同的是,多任務學習(MTL)專注于用單個網絡學習多個任務。MTL最初是為了通過利用額外相關任務的訓練信號作為歸納偏差來提高目標任務的性能而提出的 [Car97]。然而,神經網絡的自下而上的方法使得不同任務之間可以共享參數和計算,使它們成為不僅可以提高任務性能 [Mis+16; Xu+18; Ran+19; Hoy+21; Bru+21] ,也可以減少總參數數量和FLOPs [Kok17; RBV17; BV17; RPC17; RBV18; MRK19; Bru+20; Sta+20]的優秀框架。
氣候變化是我們這個時代最緊迫的問題之一,需要社會各個領域迅速動員許多工具和方法。機器學習被提議為其中一種工具,有可能補充和加強現有的氣候變化工作。在這篇論文中,我們提供了幾個方向,用于原則性地設計和使用基于機器學習的方法(特別側重于深度學習)來解決電力領域的與氣候相關的問題。在論文的第一部分,我們提出了統計和優化的方法來估計電網上的關鍵量。具體來說,我們使用基于回歸的工具來評估用于評估電力系統干預的與氣候和健康相關的排放因素。我們還提出了一種基于矩陣補全的方法來估計電力分配系統上的電壓,以實現分布式太陽能的集成。
受到這項工作的啟發,論文的第二部分,我們關注的是設計深度學習方法,這些方法明確捕捉了與應用場景相關的物理學、硬性約束和領域知識。特別是,我們利用深度學習中的隱含層工具來設計預測方法,這些方法對模型輸出將用于的下游(隨機)決策過程有認知。我們還設計了快速、保持可行性的神經近似器,用于具有硬性約束的優化問題,以及證明了能強制執行與部署系統相關的穩定性標準或操作約束的基于深度學習的控制器。這些方法直接適用于電力系統的問題,同時也更廣泛地適用于其他物理和安全關鍵領域。雖然第二部分展示了電力系統如何為深度學習研究提供有成效的方向,但在這篇論文的最后一部分,我們反過來展示了深度學習的洞察如何為電力系統的研究提供有成效的方向。具體來說,我們展示了受隱含層文獻啟發的方法如何被用于評估電網上的與政策相關的逆向問題。我們進一步展示了如何結合隱含層和對抗魯棒深度學習的洞察,使我們能夠為電力系統的兩個核心問題——N-k安全約束最優功率流和隨機最優功率流——提供可擴展的啟發式解決方案,這兩個問題由于其計算難度,很少在實際規模上進行研究。
總的來說,這篇論文展示了如何通過深度學習和電力系統的洞察進行橋接,可以顯著推進這兩個領域的方法,除此之外,還能解決與氣候行動相關的高影響力問題。
當代機器學習系統在各種任務上都取得了巨大的成功,包括圖像分類、目標檢測和跟蹤以及推薦算法。這一成功是由計算能力的巨大進步推動的,它使我們能夠利用大型訓練數據集,具有大量的類和具有大量參數的訓練模型。事實上,這些系統使用的模型具有足夠的模型容量,可以在有噪聲甚至完全隨機的標簽上訓練到誤差。然而,這些模型在實踐中往往具有很好的泛化性,避免了有害的“過擬合”。良好泛化的關鍵在于模型體系結構和訓練算法的隱性偏差,它們引導我們找到良好泛化的解決方案。本文通過分析過度參數化的線性模型,證明良好泛化的充要條件,從理論上更好地理解這一現象。此外,我們還實證研究了在訓練模型來解決控制領域的實際問題時,是否可以利用我們關于問題領域的知識來設計正確的內隱偏差。
我們從分析過參數化線性回歸的簡單設置開始,當特征的數量超過訓練點的數量時,對有噪聲的數據擬合一個線性模型。通過采取傅立葉理論的角度,我們映射了由過度參數化帶來的關鍵挑戰,眾所周知,由于欠采樣導致真實信號混疊的現象。借用信號處理中的“信號出血”和“信號污染”的概念,我們為傅里葉特征設置導出了良好的泛化條件。
接下來,我們分析最小-?2-范數插值器在高斯特征設定下的回歸和二元分類問題的泛化誤差。對于回歸,我們插值實值標簽,對于二元分類,我們插值二元標簽。(事實證明,在充分的過參數化條件下,二值標簽的最小范數插值與其他二值分類訓練方法等價,如支持向量機或邏輯損失梯度下降法。)我們研究了一個漸近設置,其中特征的數量d與訓練點的數量n成比例,且都是n, d→∞。在特征的雙水平尖峰協方差模型下,證明了存在一種中間狀態,在這種狀態下,我們在分類任務上表現良好,但在相應的回歸任務上表現不佳。然后,我們將分析擴展到多類分類設置,其中類的數量也與訓練點的數量成比例,通過導出由一熱編碼標簽的最小范數插值器引起的分類誤差的漸近界。最后,為了理解我們如何學習在實踐中很好地推廣的模型,我們經驗地研究了神經網絡的應用,在硬控制問題中,最優解是未知的,線性解被證明是次優的非線性控制策略。通過智能設計神經網絡架構和訓練方法,利用我們對控制系統動力學的知識,我們能夠更容易和魯棒地學習性能良好的控制策略。
人類學習本質上是多模態的。我們通過觀察、傾聽、閱讀和交流來學習和理解我們周圍的環境。機器學習領域已經取得了一些與人類活動相關的進展,如語音識別或計算機視覺,這使得對這種類人固有的多模態學習進行計算建模成為可能。多模態視頻理解作為一種機器學習任務,與這種學習形式很接近。本文提出將這個復雜的視頻理解任務分解為一系列相對簡單的任務,并增加復雜性。本文從語音識別的單調任務出發,介紹了一個端到端視聽語音識別模型。語音翻譯是一個更為復雜的任務,除了語音識別外,還需要處理重新排序的輸出序列,這也是本文的第二個任務。對于語音翻譯,我們引入了一個多模態融合模型,該模型學習以半監督的方式利用多視圖多模態數據。此外,我們還將繼續進行多模態視頻摘要和問題回答的任務,以解決抽象層次的理解任務,進一步涉及信息壓縮和重構。最后,我們將這項工作擴展到多模態自我理性化,不僅執行抽象層次的學習,而且還提供了對所獲得的視頻理解的解釋。針對這四個主要任務,我們根據任務的性質和復雜性,提出了一系列多模態融合模型,并在常用的視頻和語言理解數據集上對模型進行了比較和對比。
//lti.cs.cmu.edu/sites/default/files/palaskar%2C%20shruti%20-%20Thesis.pdf
半導體制造在很大程度上依賴于其個別工藝的精度和準確性,以滿足器件的要求。如果不加檢查,這些過程的變化會導致最終產品的性能和產量下降。雖然對這些變化的分析和控制已經使用了幾十年,但機器學習最近的發展引入了各種各樣的新方法,這些方法可能被用于更好地建模、監控和控制這些過程。這些方法提供了比傳統過程控制方法更強大、可擴展和準確的可能性。雖然許多機器學習方法很有前途,但半導體制造的獨特方面給許多機器學習方法帶來了挑戰。特別是,半導體制造的高成本往往導致數據有限的場景,因為收集大量數據可能是不可行的昂貴。由于這一局限性,我們研究了在各種半導體制造設置中概率方法的使用。與其他機器學習方法相比,這些方法通常不太容易過擬合,但仍然足夠靈活,可以為復雜系統建模。具體地說,我們在四個不同的案例研究中研究了概率機器學習方法的應用。
//dspace.mit.edu/handle/1721.1/143184
首先,我們研究虛擬計量系統,有兩個目標。我們的第一個目標是定義一個虛擬計量框架,使我們能夠更好地理解這些系統中常見的誤差來源。該框架涉及配方、腔室、傳感器和晶圓片變量,并納入兩種常見的誤差來源:可觀測誤差和概念漂移。我們的第二個目標是使用這個框架來開發我們自己的建模方法,這種方法非常適合于存在這些錯誤的建模系統。我們的解決方案是一個貝葉斯方法,類似于傳統的卡爾曼濾波器;然而,它模擬了兩個變量之間的關系,而不是一個未知的系統狀態。然后,我們研究了優化離子注入系統劑量均勻性的概率方法。改善劑量均勻性的常用方法是通過調整晶圓上的注入時間來補償光束的變化。在這里,我們學習這些變化,然后解出一組補償時間。我們的方法由兩個組件組成,一個建模組件和一個優化組件。該建模組件類似于我們用于建模虛擬計量系統的概率方法,但也結合了針對離子注入設置的先驗信念。然后,優化組件使用我們的正向模型,在給定工具和工藝的物理約束條件下改善劑量均勻性。我們將此方法與之前的現有行業調優方法進行比較,可以看到在調優時間、流程吞吐量和調優成功方面的顯著改進。
接下來,我們研究了概率異常檢測方法,我們使用它來檢測發生的過程故障。這些方法使用過程傳感器信息來確定當前過程是否正常運行。我們采用核密度估計方法估計正常工作條件下傳感器信號的概率分布;然后使用這些分布來確定一個過程在名義上運行的可能性。結果表明,該方法優于許多傳統的過程控制方法,包括統計過程控制、一類支持向量機以及基于變分自動編碼器的異常檢測方法。最后,我們研究了使用貝葉斯優化和高斯過程模型來改善濺射沉積過程的厚度均勻性。本文中,我們使用高斯過程來模擬濺射沉積過程中的厚度均勻性作為腔體配置和配方參數的函數。該模型采用迭代的方式來尋找滿足期望均勻性要求的參數。我們的建模技術優于許多標準回歸方法,包括多項式模型、多元樣條、梯度增強回歸樹和許多不同的深度學習架構。
雖然這四個案例研究都考慮了半導體制造中概率方法的獨特應用,兩個關鍵主題貫穿始終。首先,我們發現,與許多替代方法相比,這些概率方法在數據有限的情況下更不容易過擬合。先驗和觀測噪聲估計所提供的固有正則化是這些方法成功的關鍵。第二,整合過程或領域特定知識對于用有限的數據進行訓練至關重要。理解底層系統,相應地構造方法,并進行小的逼近,將復雜的原始問題簡化為更簡單的形式,從而能夠有效地應用概率機器學習方法。
在過去的幾年里,深度學習、大規模數據以及更強大的計算能力的進步為計算機視覺帶來了無數的突破。例如,在某些較低級別的視覺識別任務中,包括圖像分類、分割和目標檢測,機器已經取得了接近人類的表現,甚至超過人類。然而,對于其他需要更詳細理解視覺內容的更高層次的視覺任務,如視覺問答(VQA)和視覺描述(VC),機器仍然落后于人類。這在一定程度上是因為,與人類不同,機器缺乏對內容建立全面的、結構化的理解的能力,在此基礎上進行推理。具體來說,更高層次的視覺任務通常被簡化為直接在圖像上操作模型,并由端到端神經網絡處理,而沒有考慮場景的組成語義。已有研究表明,基于深度神經網絡的模型有時會因為從有偏見的數據集中獲取捷徑而犯下嚴重的錯誤。此外,神經網絡的“黑箱”性質意味著它們的預測幾乎無法解釋,這不利于VQA這樣的視覺推理任務。作為連接兩個層次的中級表示,視覺場景的結構化表示,如成對對象之間的視覺關系,已被證明不僅有利于組合模型學習與結構一起推理,而且為模型決策提供了更高的可解釋性。盡管如此,這些表示比傳統的識別任務受到的關注要少得多,留下了許多未解決的開放挑戰(例如,不平衡謂詞類問題)。
在本文中,我們研究如何用視覺關系作為結構化的表示來描述單個圖像或視頻的內容。兩個對象(分別是主語和賓語)之間的視覺關系是由一個三元組(主語、謂語、賓語)形式定義的,它包括主語和賓語的邊界框和類別標簽以及謂語標簽。視覺關系的三元組形式自然類似于人類用語言句子描述兩個對象之間的交互:副詞(謂語)連接主語和賓語,如“person is sitting on a chair”用(person,sitting on,chair)表示。為了建立場景的整體表示,通常采用以視覺對象為節點、謂詞為有向邊的圖結構來考慮對象和關系上下文。例如,“坐在椅子上的人拿著杯子”可以用(person,sitting on,chair)和(person,holding,glass)來表示,兩種視覺關系三聯中的人指的是同一個實體。
在論文的第一部分,我們花了兩章的時間學習具有視覺關系和場景圖的圖像的結構化表示,它們分別被稱為視覺關系檢測(VRD)和場景圖生成(SGG)。首先,我們深入研究了如何結合外部知識進行VRD。受最近預訓練表示成功的啟發,我們提出了一個基于transformer的多模態模型,該模型通過在大規模語料庫上預訓練獲得的視覺和語言知識來識別視覺關系。該模型還配備了一個獨立的空間模塊和一個新型的掩碼注意力模塊,以顯式捕捉物體之間的空間信息。這些設計有利于VRD,并幫助模型在兩個具有挑戰性的VRD數據集上取得具有競爭力的結果。其次,我們重新思考了數據集知識的作用,認為其中一些是“不好的”知識,會對預測視覺關系產生偏見,應該被刪除。具體來說,我們從報告偏差的新視角來解決關鍵的數據失衡問題,這一問題源于數據集本身,導致機器更喜歡簡單的謂詞(人,在,椅子上)或(鳥,在,房間),而不是更有信息的謂詞(人,坐在椅子上)或(鳥,在,房間里)。為了消除這種報告偏差,我們開發了一種模型無關的去偏差方法,通過考慮謂詞類被標記的可能性來生成更有信息的場景圖。此外,我們將重點從VRD轉移到SGG,以生成整體的、圖形化的表示,并利用消息傳遞網絡來結合上下文。大量的實驗表明,我們的方法顯著地緩解了長尾,達到了最先進的SGG去偏性能,并產生了顯著的更細粒度的場景圖。
在論文的第二部分,我們將靜態圖像VRD的設置擴展到時間域,并考慮人-物交互(HOI)檢測,這是VRD的一個特殊情況,視覺關系的對象僅限于人類。研究人員使用僅對靜態圖像進行操作的傳統HOI方法來預測視頻中與時間相關的HOI;然而,通過這種方式,模型忽略了時間上下文,可能會提供次優性能。另一項相關任務,視頻視覺關系檢測(VidVRD),也不是一個合適的設置,因為VidVRD方法通常忽略了與人相關的特征,視頻對象檢測仍然具有挑戰性,以及動作邊界標記本身可能不一致。因此,我們建議通過明確地考慮時間信息和采用基于關鍵幀的檢測來彌補這些差距。我們還表明,由于特征不一致的問題,一個普通動作檢測基線的樸素時間感知變體在基于視頻的HOI中表現不佳。然后,我們提出了一個新穎的、基于神經網絡的模型,利用時間信息,如人體和物體的軌跡、幀局部視覺特征和時空掩蔽的人體姿態特征。實驗表明,我們的方法不僅在我們提出的視頻HOI基準中是一個可靠的基線,而且在流行的視頻關系檢測基準中也是一個有競爭力的選擇。
總的來說,在這些工作中,我們探索了如何在靜態圖像和視頻設置中分別構建和學習視覺場景的結構化表征,通過引入外部知識、減少偏差機制和/或增強表征模型進行改進。在本文的最后,我們還討論了一些開放性的挑戰和局限性,為視覺場景的結構化表示學習指明了未來的方向。
在過去的十年里,深度學習的興起重新定義了許多計算機視覺和自然語言處理任務中的最先進技術,其應用范圍從自動個人助理和社交網絡過濾到自動駕駛汽車和藥物開發。這些算法的普及源于GPU普及帶來可用于訓練的計算能力的指數級增長。準確度的提高創造了對適合部署在邊緣設備上的更快、更省電的硬件需求。在這篇論文中,我們提出了一系列創新和技術,這些創新和技術屬于這種需求所引發的眾多研究領域之一,重點是卷積神經網絡的高能效硬件。
我們首先研究了標準28納米CMOS工藝在深度學習加速器設計方面的表現,特別考慮了在使用降低精度的算術和短SRAM內存字節時,基于標準單元電路的功率和面積。這一分析的結果表明,降低位精度后的功率效率增益是如何非線性的,以及在使用16位精度時如何達到飽和。
我們提出了Nullhop,一個率先使用卷積神經網絡典型的特征圖稀疏性的加速器,并通過量化來提高硬件能力。Nullhop的創新之處在于它能夠跳過所有的乘法運算,包括零值激活。在6.3平方毫米的空間內,它的功率效率達到3 TOP/s/W,吞吐量幾乎達到0.5 TOP/s。
我們提出了一種基于硬件-軟件代碼設計方法的神經網絡量化算法。我們在分類、物體檢測、分割和圖像生成等各種任務上訓練幾個網絡,以證明其能力。該量化方案在Elements中實現,Elements是一個卷積神經網絡加速器架構,支持可變權重位精度和稀疏性。我們通過多種設計參數化來展示Elements的能力,適合于廣泛的應用。其中一個參數化被稱為Deuterium,僅用3.3平方毫米就達到了超過4 TOP/s/W的能源效率。
我們用第三個卷積神經網絡加速器架構進一步探索稀疏性的概念,該架構被稱為TwoNullhop,能夠跳過特征圖和內核的零值。我們用Carbon測試了TwoNullhop架構,這個加速器盡管只有128個乘積單元,而且運行頻率只有500MHz,但在只有4平方毫米的空間里,實現了超過2.4TOP/s的能效,10.2TOP/s/W。
論文最后概述了我們預見的未來深度學習硬件發展的挑戰和可能性,試圖預測哪些主題將在未來幾年主導該領域。