在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。
深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。
表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡
。因此,我們將直接將網絡的
視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。
近年來,深度學習取得了顯著進展。然而,其理論基礎,尤其在大模型領域,仍然相對滯后。本文的研究重點在于將堅實的理論基礎與大模型高效擴展的實際應用相結合。 在論文的第一部分中,我們聚焦于神經網絡的訓練動態,討論了過參數化神經網絡的理論。我們將簡要介紹神經切線核(Neural Tangent Kernel,NTK)的理論,并深入探討超參數遷移,這是一種重要的張量程序框架應用。我們將回顧一些奠定 NTK 作為研究領域的早期論文,并討論 NTK 的局限性。超參數遷移是一種新穎且高效的超參數調整范式,它提供了擴展模型的最優策略。我們將介紹深度神經網絡訓練動態的特征化,并提出一種高效的超參數選擇方案,其中通過在淺層網絡上調優選定的最優超參數同樣適用于深層網絡。 論文的第二部分集中于大模型擴展中的數據方面。我們首先介紹 Skill-Mix,這是一種新穎且獨特的評估方法,避免了傳統大型語言模型(LLM)評估中的數據污染和為排行榜“臨時抱佛腳”的問題。Skill-Mix 隨機選擇 k 種語言技能,然后提示 LLM 生成展示所選技能的簡潔文本。技能組合數量的指數級增長有效防止了數據污染,并進一步揭示了強大的 LLM 成功作答的創新性。接著,我們介紹了 ConceptMix,這是 Skill-Mix 的擴展,用于評估文本生成圖像模型結合 k 個隨機選定視覺概念的能力。最后,我們探討了 LLM 在給出優質 Skill-Mix 回答的情況下,學習和泛化技能組合的能力。結果表明,幾千條這樣的數據足以顯著提高模型在未見過的技能組合上的表現,甚至超越了尺寸更大的模型。這表明,將富含技能的合成文本融入訓練數據,是一種高效擴展數據規模的途徑。
在過去的十年里,深度學習在多個領域取得了顯著進展,尤其是在計算機視覺和自然語言處理方面。這些成就通常歸因于模型規模和數據的擴展。ImageNet [Deng et al., 2009] 通過提供一個大規模且標注豐富的數據集,極大推動了計算機視覺的發展,促成了更優模型的產生。ResNet [He et al., 2016a] 通過引入殘差連接,革新了深度學習,使得超深網絡的有效訓練成為可能,從而利用增加的模型規模提升性能。最近,隨著大規模語言模型(LLM)規模的不斷擴展,并在更大規模的語料庫上進行訓練,LLM 展現出了新的能力,例如少樣本上下文學習、推理和解決數學問題 [Brown et al., 2020, OpenAI, 2023]。
總的來說,擴展過程——即模型規模和數據集的擴大——對于開發能夠執行具有人類或超人準確性與適應性的強大 AI 模型至關重要。然而,這個過程的代價高昂,訓練大型 AI 模型,如 LLaMA-2 [Touvron et al., 2023] 和 GPT-4 [OpenAI, 2023],需要耗費數千萬甚至數億美元的計算資源。 本論文旨在深入理解擴展背后的原理,并使擴展過程更為高效,以較少的計算資源實現更高的性能。我們的工作分為兩個部分,分別探討擴展的兩個關鍵方面:模型規模和數據。
因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。
因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。
隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。
在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。
因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。
物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。
另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。
生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。
在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。
1.1 通過逆轉物理過程進行生成建模
基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。
盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。
1.1.1 擴散模型的改進訓練技術
擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。
在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。
擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。
1.1.2 擴散模型的改進采樣技術
在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。
基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。
傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。
1.1.3 基于其他物理過程的生成模型
以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。
本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。
第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。
第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。
第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。
第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。
第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。
第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。
第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。
第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。
第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。
第十章 我們總結了論文內容并討論了當前的局限性。
隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。
這篇論文探討了如何通過將實體信息納入神經網絡模型來增強自然語言理解。它解決了三個關鍵問題:
利用實體進行理解任務:本文引入了Entity-GCN模型,該模型在一個圖上執行多步推理,其中節點代表實體提及,邊代表關系。這種方法在一個多文檔問答數據集上取得了最先進的結果。
使用大型語言模型識別和消歧實體:該研究提出了一種新穎的系統,通過逐字生成實體名稱來檢索實體,克服了傳統方法的局限性,并顯著減少了內存占用。該方法還擴展到了多語言環境,并進一步優化了效率。
解釋和控制模型中的實體知識:本文提出了一種事后解釋技術,用于分析神經模型各層的決策過程,允許對知識表示進行可視化和分析。此外,提出了一種編輯實體事實知識的方法,使得在無需昂貴的重新訓練的情況下能夠修正模型預測。
實體在我們表示和匯總知識的方式中處于中心地位。例如,像維基百科這樣的百科全書是按實體組織的(例如,每篇維基百科文章對應一個實體)。書面百科全書已有約兩千年的歷史(例如,《自然史》可以追溯到公元77年),在此期間,它們在形式、語言、風格及許多其他方面都有了很大的發展。《百科全書,或科學、藝術和工藝詳解詞典》(在1751年至1772年間于法國出版;狄德羅和達朗貝爾,1751)和《大英百科全書》(在1768年至1771年間于蘇格蘭出版;斯梅利,1768)通常被認為是現代歷史上第一部印刷的百科全書,并定義了信息傳播的重大變革。盡管內容和語言可能有所不同,但通過實體、類別和交叉引用組織信息的基本方式在幾個世紀以來幾乎沒有改變。以這種方式組織世界知識對人類來說是自然且方便的,但對機器來說如何呢?機器學習算法能否利用我們的分類方式?我們能否構建能夠連接不同知識點或區分模糊概念的計算機算法?雖然這些復雜問題目前還沒有明確的答案,但在本文中,我們將論證,向自然語言處理(NLP)算法提供關于實體性質的額外信息,可以提高其在許多有用應用中的性能。
讓我們從一個利用實體進行多文檔問答的例子開始。在這種情況下,用戶向信息系統提出問題,該系統需要在文檔庫中搜索答案。此外,我們假設需要跨多個文檔進行分析和推理,因為在單個文檔中找不到簡單的答案。圖1.1展示了在這種情況下獲得答案的機器輔助過程。正如我們從中看到的那樣,機器進行的過程旨在模仿人類的行為,這似乎是一種合理的策略。我們假設將這種復雜任務分解為可學習的子步驟會導致整體系統的改進和人類可解釋性。我們可以使用客觀指標來驗證這一任務是否如此。
用于自然語言理解的實體 為了研究上述問題,在第三章中,我們探討了如何利用實體來解決自然語言理解(NLU)。我們引入了一種依靠在多個文檔內外傳播的信息進行“推理”的神經模型。我們的假設是,通過引用實體進行“推理”(學習)步驟使模型輸出預測,將使其學會處理復雜問題的合理且更具普遍性的策略。文本中出現的實體提及進行了注釋,這使得測試我們的假設變得更容易。然后,我們將任務框定為圖上的推理問題。這些提及是圖的節點,而邊則編碼了不同提及之間的關系(例如,文檔內和跨文檔的共指關系)。圖卷積網絡(GCN)應用于這些圖,并經過訓練以執行多步推理。我們展示了使用額外的實體信息可以實現一種可擴展且緊湊的方法,在開發時(即2018年)在一個流行的多文檔問答數據集WikiHop上取得了最先進的結果。 第三章的發現為更有趣的問題打開了大門,因為我們貢獻的一個限制因素是所有實體的提及都作為輸入提供給模型。檢索文本中實體提及的能力對于知識密集型任務(如開放領域問答和對話)至關重要。因此,一個自然的問題出現了:我們如何利用語言模型來識別和消歧文本中的實體?
使用語言模型在文本中查找實體 實體鏈接(EL;Bunescu & Pa?ca,2006;Cucerzan,2007;Dredze等,2010;Hoffart等,2011;Le & Titov,2018)是NLP中的一項基本任務,用作文本理解的構建模塊(Févry等,2020b;Verga等,2020)。它包括將非結構化文本中的實體提及錨定到知識庫(KB)標識符(例如,維基百科文章)。實體鏈接在多個領域有廣泛應用,涵蓋開放領域問答(De Cao等,2019b;Nie等,2019;Asai等,2020)、對話(Bordes等,2017;Wen等,2017;Williams等,2017;Chen等,2017b;Curry等,2018;Sevegnani等,2021)、生物醫學系統(Leaman & Gonzalez,2008;Zheng等,2015)、信息抽取(Sarawagi,2008;Martinez-Rodriguez等,2020)等。在圖1.2中,我們展示了將提及鏈接到知識庫中相關實體的例子。
盡管之前有大量關于實體檢索的研究(例如,Hoffart等,2011;Piccinno & Ferragina,2014;Huang等,2015;Le & Titov,2018;Logeswaran等,2019;Broscheit,2019;Wu等,2020,僅舉幾例),但大多數當前解決方案的一個共同設計選擇是:實體與唯一的原子標簽相關聯,可以將檢索問題解釋為跨這些標簽的多類分類。輸入和標簽之間的匹配通過雙編碼器(Wu等,2020;Karpukhin等,2020)計算:輸入的密集向量編碼與實體信息(如標題和描述)的編碼之間的點積。這種形式化允許使用現代最大內積搜索庫(Johnson等,2019)進行亞線性搜索,從而支持從大型實體數據庫中檢索。在第四章中,我們提出了一種新穎的方法:第一個通過逐字生成其唯一名稱(從左到右,自回歸方式)來檢索實體的系統。我們的模型緩解了當時廣泛采用的現代模型(4)可能忽略文本和知識庫中實體之間的細粒度交互的限制。此外,我們顯著減少了當前系統的內存占用(最多15倍),因為我們的編碼器-解碼器架構的參數隨詞匯量的變化而不是實體數量的變化而變化。我們還將我們的方法擴展到一個包含100多種語言的大型多語言環境(第五章)。在這種環境中,我們對盡可能多語言的實體名稱進行匹配,這允許利用源輸入和目標名稱之間的語言連接。最后,我們還提出了一種非常高效的方法,可以在文本片段中的所有潛在提及上并行化自回歸鏈接。這樣的系統依賴于一個淺層且高效的解碼器,使得模型速度提高超過70倍且沒有性能下降(第六章)。
語言模型的可解釋性和可控性 第四、五和六章的發現為許多子領域的許多有趣應用打開了大門。我們研究的一個引人注目的方面是,它表明系統的大部分收益來自模型回憶起其在語言建模預訓練和任務特定微調過程中獲得的實體名稱記憶的能力。不幸的是,這種能力是有代價的。因為大多數(如果不是全部)基于深度學習的語言模型都是黑箱函數。因此,我們不能完全理解它們的預測,也不能確定它們是推理還是記憶。當它們記憶時,我們通常也不能輕松地控制添加、刪除或修改這些記憶的方式和位置。這些反思引出了下一個研究問題:我們如何解釋和控制模型內部關于實體的知識?
為此,在第七章中,我們介紹了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。我們的系統學習屏蔽向量子集,同時保持可微性。這不僅讓我們能夠繪制歸因熱圖,還能分析決策在網絡層中的形成方式。我們使用該系統研究了BERT模型(Devlin等,2019a)在情感分類和問答任務中的表現,并展示了該技術也可以應用于第三章提出的基于圖的模型。最后,我們還提出了一種可以用于編輯語言模型中實體事實知識的方法,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測(第八章)。
貢獻 本論文的主要貢獻可總結如下: 1. 我們引入了一種依靠在多個文檔內外傳播的信息進行推理的神經模型。我們將其框定為圖上的推理問題。實體提及是該圖的節點,而邊則編碼了不同提及之間的關系。 1. 我們提出了一個系統,通過生成實體的唯一名稱(自回歸方式)來識別文本中的實體并將其鏈接到外部知識庫中,支持100多種語言。我們采用受限生成方法,將這種生成自回歸模型用作分類器。 1. 我們提出了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。 1. 我們開發了一種方法,可以編輯語言模型內部的實體事實知識,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測。
大多數(如果不是全部)研究結果表明,實體在自然語言處理中的核心作用,我們鼓勵在更多任務中納入實體信息的研究。
本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。
我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。
支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。
自然現象的不可約復雜性促使圖神經網絡成為執行圖結構數據上表示學習任務的標準模型。盡管它們捕捉局部與全局模式的能力十分出色,但與長距離和高階依賴相關的問題為這些模型帶來了相當大的挑戰。本工作通過首先識別負面影響圖神經網絡在學習強依賴于長距離交互事件的表示時性能的各個方面,來應對這些挑戰。特別是,當圖神經網絡需要在遠距離節點之間聚合消息時,消息傳遞機制會將指數級增長的信息量過度壓縮到靜態向量中。 值得注意的是,對于某些類別的圖(即路徑、樹、網格、環形和梯形),底層的連通性允許消息沿著邊緣傳遞,而不會遇到來自其他路徑的顯著干擾,從而將信息的增長量控制在線性級別上。 當底層圖不屬于上述類別時,會出現過度壓縮現象,因為信息的傳播發生在通過邊緣相連的節點之間,這導致了計算圖反映節點的連通性。這一現象導致節點對來自圖遠端的信息變得不敏感。為了提供一種緩解此類瓶頸的新架構設計視角,一個統一的理論框架揭示了網絡的寬度、深度和圖拓撲對消息傳遞神經網絡中過度壓縮現象的影響。 然后,論文轉向通過拓撲神經網絡利用高階交互。憑借多關系歸納偏見,拓撲神經網絡通過更高維度的結構傳遞消息,有效地提供信息流的快捷方式或額外路線。通過這種構建,底層的計算圖不再與輸入圖結構耦合,從而緩解了上述瓶頸,同時也考慮了高階交互。受到圖注意力網絡中開發的掩蔽自監督學習機制以及由單純形和胞腔復合體提供的豐富連通性的啟發,提出了兩種不同的注意力架構:單純形注意力網絡和胞腔注意力網絡。 這些架構背后的理念是利用特定排列的節點組內單純形或胞腔復合體提供的擴展鄰域概念。特別是,這些拓撲注意力網絡利用底層復合體的上下鄰接性來設計能夠衡量來自不同區域信息重要性的各向異性聚合。通過這樣做,它們捕捉到傳統圖神經網絡可能錯過的依賴關系。 最后,通過增強的細胞同構網絡引入了一個高階結構之間的通信方案,它通過讓一個胞腔復合體的所有細胞從它們的下層鄰域接收消息來增強拓撲消息傳遞方案。這種升級使得在胞腔復合體內的節點組之間,特別是以環狀結構排列的,能夠直接互動。這種增強的方案為高階和長距離交互提供了更全面的表示,展示了在大規模和長距離基準測試上的非常高性能。 在深度學習的不斷演進的景觀中,數據中存在的關系模式已變得至關重要,用以解決圖結構數據的表示學習任務。本論文從這一視角出發,探索了拓撲神經網絡的領域,強調了代數拓撲學領域的概念與在離散拓撲空間上執行表示學習任務之間的協同作用。本工作的目標結構旨在確保在理解高階交互及其在推進神經架構方面的角色上具有深度和廣度。
具體而言,本論文的目標是:
機器學習模型對抗性攻擊的脆弱性的理解日益重要。在對抗性機器學習中,一個基本問題是在存在所謂的規避攻擊的情況下量化需要多少訓練數據,其中數據在測試時會被損壞。在本論文中,我們采用了“球內精確性”概念,從學習理論的角度研究了對抗性魯棒學習的可行性,考慮樣本復雜性。我們首先得出了兩個負面結果。我們證明,在無分布設置下,任何非平凡的概念類都不能在對手能夠擾動單個輸入位的情況下得到魯棒學習。然后,我們展示了樣本復雜性的下界:單調合取的類以及布爾超立方體上的任何超類,其樣本復雜性至少是對手預算(即每個輸入上可以擾動的最大位數)的指數函數。特別地,這意味著在均勻分布下,不能對那些可以擾動輸入的 ω(log n) 位的對手進行魯棒學習。
作為獲得魯棒性學習保證的第一條途徑,我們考慮限制用于訓練和測試數據的分布類別。我們關注概率分布在輸入數據上滿足Lipschitz條件的學習問題:附近的點具有類似的概率。我們證明,如果對手被限制在擾動 O(log n) 位的情況下,那么可以在對數Lipschitz分布類別的條件下魯棒地學習單調合取類。然后,我們擴展了這一結果,展示了在相同的分布和對抗環境中學習 1-決策列表、2-決策列表和單調 k-決策列表的可行性。最后,我們展示對于每個固定的 k 值,k-決策列表類在 log(n) 有界對手條件下具有多項式樣本復雜性。考慮中間的 k-決策列表子類的優勢在于,我們能夠為這些情況獲得改進的樣本復雜性界限。
作為第二條途徑,我們研究了學習模型,其中學習者通過使用局部查詢獲得了更多的能力。我們首先考慮的學習模型使用局部成員查詢(LMQ),在該模型中,學習者可以查詢接近訓練樣本的點的標簽。我們證明,在均勻分布下,即使在學習者除了隨機示例外還可以訪問LMQ的情況下,對于擾動預算為 O(log n) 的對手,魯棒學習合取類和任何超類對于對數Lipschitz分布仍然不可避免地需要對對手的預算呈指數依賴。面對這個負面結果,我們引入了局部等價查詢預測器,該預測器返回假設和目標概念在訓練樣本中的某個點周圍區域內是否一致,以及如果存在反例的話也會返回反例。我們證明了一個分離結果:一方面,如果查詢半徑 λ 嚴格小于對手的擾動預算 ρ,那么在多種概念類別中是不可能進行無分布魯棒學習的;另一方面,當 λ = ρ 時,我們能夠在無分布環境中開發出魯棒的經驗風險最小化算法。然后,我們基于在線學習保證來限制這些算法的查詢復雜性,并在合取式特殊情況下進一步改進這些界限。接著,我們提供了一個在 {0, 1} n 上的半空間魯棒學習算法。最后,由于在 R n 上的半空間查詢復雜性是無界的,我們轉而考慮具有有界精度的對手,并在這種情況下給出了查詢復雜性的上界。
這篇論文表明,通過神經符號模型的視角來看待智能系統比傳統的深度學習方法有幾個好處。神經符號模型包含符號程序性構造,如循環、條件和連續的神經成分。符號部分使模型具有可解釋性、泛化性和穩健性,而神經部分處理智能系統的復雜性。具體而言,本文提出了兩類神經符號模型——狀態機和神經符號transformers,并以基于強化學習的自主系統和多機器人系統為例對它們進行了評估。這些案例研究表明,學習的神經符號模型是人類可讀的,可以外推到看不見的場景,并可以處理規范中的穩健目標。為了有效地學習這些神經符號模型,我們引入了利用機器學習和程序合成的最新技術的神經符號學習算法。
//dspace.mit.edu/handle/1721.1/143249