隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。
物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。
另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。
生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。
在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。
1.1 通過逆轉物理過程進行生成建模
基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。
盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。
1.1.1 擴散模型的改進訓練技術
擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。
在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。
擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。
1.1.2 擴散模型的改進采樣技術
在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。
基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。
傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。
1.1.3 基于其他物理過程的生成模型
以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。
本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。
第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。
第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。
第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。
第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。
第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。
第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。
第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。
第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。
第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。
第十章 我們總結了論文內容并討論了當前的局限性。
在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。
深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。
表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡
。因此,我們將直接將網絡的
視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。
生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。
我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。
作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。
接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。
然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。
然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。
本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。
分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。
第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。
預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。
在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。
解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。
本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。
本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。
第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。
論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。
隨著在安全關鍵領域應用強化學習(RL)的需求日益增加,迫切需要安全、魯棒且多功能的RL算法。本論文直接回應了這一需求,引入了一套先進的策略優化算法,旨在克服安全RL面臨的關鍵挑戰,從而為更可靠和實用的部署鋪平道路。
論文的第一部分集中于提高樣本效率和訓練穩定性——這是可部署安全RL的關鍵方面。我們提出了約束變分策略優化(CVPO)方法,該方法將安全RL問題重新定義為兩階段優化過程。這種方法不僅確保了高效且穩定的學習,還提供了強大的性能保證,使其成為實際安全RL應用中安全性和樣本效率方面的優越選擇。 論文的第二部分深入探討了可部署RL的關鍵組成部分——魯棒性,特別是針對觀測擾動的魯棒性。我們發現,學到的安全策略對隱秘但不安全的行為誘導很脆弱。我們的發現強調了在不利條件下提高安全性的魯棒對抗訓練的必要性。基于此,我們首先引入了一種在策略上的對抗訓練流程,然后提出了SAFER,一種從CVPO衍生的離策略方法,有效地在對抗環境中增強了策略的魯棒性和安全性。
最后,論文通過從靜態離線數據集學習,解決了可部署RL的適應性和可擴展性問題。它引入了約束決策變換器(CDT),一種新穎的方法,利用序列建模技術在部署過程中動態調整安全性和任務性能之間的權衡。與CDT同時,論文提出了TAIL,一個可擴展的連續學習訓練范式,有效地將預訓練模型適應新任務,同時減輕災難性遺忘和過擬合。
總之,本論文致力于推動安全、魯棒和可擴展策略優化的界限,朝著在安全關鍵領域可部署RL邁進。所提出的方法提供了魯棒、高效和可適應的解決方案,這對RL系統的現實世界部署至關重要。 隨著強化學習(RL)繼續成熟并擴展其視野,從模擬環境過渡到真實世界的應用,使RL在實際的安全關鍵領域可部署的重點日益加強。可部署的RL指的是RL系統在復雜、動態且往往是高風險環境中安全、可靠且高效地互動和學習的能力。這包括自動駕駛車輛在城市交通中導航、金融系統執行交易或醫療機器人協助手術。為了使RL可部署,它必須遵守嚴格的安全、魯棒性、適應性和可擴展性要求——確保RL代理在多變和不可預測的現實世界條件下表現得當。
可部署RL的基石是安全性。安全強化學習(safe RL)專門通過學習不僅尋求最大化獎勵但也遵循預定義安全約束的策略來解決這一問題。這些約束對于防止危險行為和確保RL代理在可接受的風險參數內運作至關重要。安全性不僅僅是一個特性——它是一種基本必需品,支持在不確定性盛行且風險高的現實世界設置中部署RL的整個前提。
然而,僅有安全性并不能保證可部署性。為了讓RL從理論過渡到實踐,它還必須具備魯棒性和可擴展性。RL中的魯棒性指的是策略對環境變化和不確定性的抵抗力,包括在訓練期間未遇到的新場景或敵對嘗試破壞代理的行為。另一方面,適應性涉及RL算法高效地從大數據集和多樣化場景中學習和適應的能力。適應范式還應該是可擴展的,以持續發展并隨時間改進其策略。這關乎RL系統在廣泛的任務和條件中保持其性能和安全性的能力,不斷提高其能力和可靠性。
在這篇論文中,我們專注于推動安全RL的前沿,強調使其可部署。我們通過深入探討三個相互關聯的方面——安全性、魯棒性、適應性和可擴展性來解決這一挑戰,以安全性為核心,將其他方面進行語境化。我們的目標是開發方法論和算法,使我們更接近將RL視為一套理論工具和技術的愿景,而是一套實用、可靠且高效的解決方案,準備好用于真實世界的實施。這種追求是由RL在關鍵應用中的日益增長的需求和巨大潛力所激發的,推動了對不僅表現出色而且可信和可適應的系統的需求。通過專注于安全RL作為通往可部署RL的途徑,我們旨在為將智能、基于學習的系統整合到我們日常生活中的更廣泛目標做出貢獻,增強能力,并確保安全和福祉。
機器學習(ML)通過其近期前所未有的進步正在改變社會。自回歸模型的普及正在重塑社會的各個層面,從專業領域到學術追求,甚至休閑活動。智能AI系統的一個核心方面是它們處理和理解長時間的時間信息流,如文本、音頻或視頻數據的能力。在這篇論文中,我們深入探討了學習數據中長期依賴性的問題,從兩個主要角度來解決它:模型架構和學習算法。與其致力于在當代基準分數上獲得邊際改進,這些分數通常更依賴于工程優化,本論文的重點是深入理解潛在的時間機制,探索替代學習算法,并為未來在計算效率方面的改進提供基礎。
在第一章中,我們提出了一種新方法,將眾所周知的ML模型之一,循環神經網絡(RNN)的多個實例互聯。我們提出的實證證據表明,模型架構的修改在系統組件內引發不同的時間行為。這一發現可以被利用來區分長期依賴性和短期依賴性,為使用專門為每個設計的架構鋪平了道路。
第二章聚焦于在線學習算法,這種方法顯著偏離了用于訓練時間ML模型的傳統方法。這些算法在觀察到每個輸入后立即更新其參數,與更常用的方法形成對比,后者必須觀察整個輸入序列才能更新模型參數。我們研究了實時循環學習(RTRL)在眾所周知的RNN模型中的表現,并提出了一種數學上合理的近似方法。這種新方法提供了更好的近似,盡管它只與某些架構兼容。
在最后一章中,我們同時從這兩個方面應對學習長期依賴性的挑戰。我們提出了一種分層架構,能夠通過將其分解為更小的自包含子序列來處理擴展序列。與這種架構一起,我們提出了一種學習算法,使得在抽象空間中的學習成為可能,從而繞過了專注于短期序列細節的需求。這種架構和算法的結合導致了計算效率的顯著提高。重要的是,我們的方法不僅增強了當前模型的能力,而且還為未來模型架構和學習算法的共同設計開辟了令人興奮的途徑。
動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。
動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。
當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。
最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。
機器學習是一種從數據中提取預測模型,從而能夠將預測泛化到未觀察數據的技術。根據已知數據集選擇良好模型的過程需要進行優化。具體地說,優化過程在約束集中生成一個變量來最小化目標。這個過程包含了包括神經網絡訓練在內的許多機器學習管道,這將是我們在本文中進行理論分析的主要試驗場。在各種優化算法中,梯度方法因其高維可擴展性和反向傳播的自然局限性而成為深度學習中的主導算法。然而,盡管基于梯度的算法很受歡迎,但我們從理論的角度對機器學習環境中的這種算法的理解似乎還遠遠不夠。一方面,在現有的理論框架內,大多數上下界是封閉的,理論問題似乎得到了解決。另一方面,理論分析很難產生比實踐者發現的經驗更快的算法。本文回顧了梯度法的理論分析,指出了理論與實踐的差異。然后,我們解釋了為什么會發生不匹配,并通過發展由經驗觀察驅動的理論分析,提出了一些初始解決方案。
//dspace.mit.edu/handle/1721.1/143318