這篇論文研究了離散DGM的原理和應用。深度生成模型(DGM)是一種深度神經網絡,能夠建模高維概率分布并生成隨機樣本。在DGM的各種應用中,有些涉及固有的離散組件,這推動了對離散隨機變量的建模需求;例如,文本建模和具有離散變量的控制。離散性引起了關于離散DGM設計的基本問題。如何訓練一個離散DGM?其應用是什么?如何進行大規模的離散建模和預測?我們從重新參數化的角度研究了離散DGM的訓練。重新參數化是一種用DGM建模的隨機變量的梯度估計方法。由于梯度估計的高方差,這是具有挑戰性的。受到Straight-Through Gumbel-Softmax估計器的基本屬性的啟發,我們提出了一種新的重新參數化方法,稱為Gapped Straight-Through估計器,以減少方差而不產生重新采樣開銷。我們還介紹了離散重新參數化在強化學習(RL)中的應用,用于電力系統控制,其中控制變量是整數。我們對這個應用有兩方面的貢獻:電力系統的RL環境和一個帶有整數重新參數化方案的RL算法。環境構建確定了系統的實際選擇。已經發布了這個環境的開源包,并在電力研究社區中使用。電力系統的RL算法包括DDPG風格的策略梯度和對整數動作的重新參數化。 最后,我們從Transformer的核化視角探討大規模的生成性文本建模。我們觀察到,相對位置嵌入(RPE)對于Transformer在長序列上的良好表現是至關重要的。然而,RPE的理論框架仍然缺失。因此,我們通過條件正定(CPD)核來形式化RPE的核化版本。CPD核的多樣性使我們能夠推導出各種能夠實現長度外推的RPE(在短序列上訓練,但在長序列上測試)。實驗表明,對數變種在三個大型語言建模數據集上都實現了出色的外推效果。
建模的一個核心目標是幫助我們理解周圍的世界,但通常我們希望建模的現象只能間接觀察到。例如,我們經常通過它們對周圍物體產生的引力效應來檢測黑洞。未觀察到的現象通常使用與觀察到的變量存在統計關系但從未直接觀察到的潛變量來建模。這些潛變量模型是一種強大的形式主義,可以實現數據的簡潔和可解釋表示,但在變量之間的關系復雜時很難使用。 本論文開發了一種適用于具有非線性函數參數化變量之間依賴關系的潛變量模型的擬合技術,例如深度神經網絡或非線性微分方程。非線性依賴關系使得解析方法變得不可行,本論文的主要重點是將蒙特卡羅文獻中的抽樣算法擴展到深度生成模型中的工作。
具體來說,本論文側重于對順序數據進行建模,如神經電壓跟蹤或語音音頻。首先,我介紹了一種名為FIVO的方法,用于使用濾波順序蒙特卡羅來擬合非線性順序潛變量模型,并使用它來改進語音音頻和鋼琴譜的模型。然后,我開發了一種名為SIXO的基于平滑的FIVO擴展,成功地擬合了神經膜電位的生物物理模型。接下來,我介紹了NAS-X,這是SIXO的擴展,適用于離散潛變量。最后,我開發了用于嵌入式抽樣算法的擬合模型的方法,并與基于能量的建模建立了聯系。
這些方法為非線性潛變量模型中的推斷和學習建立了新的標準。例如,在霍奇金-赫胥黎神經膜電位模型中,NAS-X和SIXO相對于以前的方法實現了32倍的推斷對數似然度的改進。改進的推斷性能導致了參數學習方面的下游收益,并且能夠擬合基于具有數百個參數的非線性微分方程的潛變量模型。總的來說,本論文擴展了蒙特卡羅算法,以解決序列建模中的難題。
稀疏深度神經網絡 (DNNs) 在許多數據和計算密集型應用中是一個重要的計算核心(例如,圖像分類、語音識別和語言處理)。這些核心中的稀疏性激發了許多稀疏DNN加速器的發展。然而,盡管已經有大量的提議,但還沒有一個系統的方法來理解、建模和開發各種稀疏DNN加速器。為了解決這些限制,這篇論文首先提出了一個稀疏性相關加速特性的分類法,以系統地理解稀疏DNN加速器的設計空間。基于這個分類法,它提出了Sparseloop,這是第一個用于稀疏DNN加速器的快速、準確和靈活評估的分析建模工具,使得在早期階段可以探索龐大和多樣的稀疏DNN加速器設計空間。在代表性的加速器設計和工作負載中,Sparseloop比周期級模擬實現了超過2000倍的建模速度,保持了相對的性能趨勢,并達到了≤ 8%的平均建模誤差。利用Sparseloop,這篇論文研究了設計空間,并提出了HighLight,一個高效且靈活的稀疏DNN加速器。具體來說,HighLight通過一個新的稀疏模式,稱為分層結構稀疏性,來加速DNNs,關鍵的洞見是我們可以通過分層地組合簡單的稀疏模式來高效地加速各種程度的稀疏性(包括密集型)。與現有的工作相比,HighLight在具有不同稀疏度的工作負載中實現了高達6.4倍的能量延遲乘積 (EDP) 改進,并且始終位于代表性DNNs的EDP-準確性帕累托前沿。
受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。
這篇論文提出了一些新穎的方法,用于解決深度神經網絡(DNNs)在3D理解和3D設置方面的魯棒性面臨的重要挑戰。我們的研究主要集中在兩個方面:3D數據和設置的對抗魯棒性以及DNNs在現實3D場景下的魯棒性。一個3D理解范式是將3D表示為一組3D點,并直接在這組點上學習函數。我們的第一個工作,AdvPC,解決了當前3D點云對抗攻擊的有限可遷移性和防御易用性問題。通過使用點云自動編碼器生成更具可遷移性的攻擊,AdvPC在3D點云攻擊可遷移性方面大幅領先于當前的最先進攻擊。此外,與ModelNet40數據集上的其他基準攻擊相比,AdvPC增加了破壞防御能力高達38%。另一個3D理解范式是對3D數據的多個圖像進行2D處理。第二項工作,MVTN,通過使用多視圖轉換網絡(MVTN)來學習最優視點,解決了選擇3D形狀識別視點的問題。它將MVTN與多視圖方法相結合,在標準基準ModelNet40、ShapeNet Core55和ScanObjectNN上取得了最先進的結果。MVTN還提高了對現實場景(如旋轉和遮擋)的魯棒性。
我們的第三項工作分析了二維深度神經網絡的語義魯棒性,通過將DNN全局行為可視化為語義映射并觀察一些DNNs的有趣行為,解決了DNNs對語義原語高度敏感的問題。此外,我們開發了一種自下而上的方法來檢測DNNs的魯棒區域,以實現可擴展的語義魯棒性分析和不同DNNs的基準測試。第四項工作SADA展示了DNNs在自主導航的安全關鍵應用方面缺乏魯棒性的問題,超出了簡單的分類設置。我們提出了一個通用框架(BBGAN),用于對受過訓練的代理進行黑盒對抗攻擊,涵蓋了對執行任務的代理環境的語義擾動。BBGAN經過訓練,可以生成在諸如物體檢測、自動駕駛和自主無人機競速等任務上始終欺騙受過訓練的代理的失敗案例。
//repository.kaust.edu.sa/handle/10754/691198
深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。
首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。
從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。
然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。
然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。
**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。
//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
在生態學、流行病學和天文學等許多應用領域中,仿真模型被用來研究發生在自然界中的復雜現象。通常,這些模型的似然函數的分析形式要么是不可用的,要么是太昂貴而無法評估,從而使統計推斷復雜化。無概率推理(LFI)方法,如近似貝葉斯計算(ABC),基于用模型的正演模擬代替難以處理的似然評估,已成為對仿真模型進行推理的一種流行方法。然而,當前的LFI方法在計算和統計方面存在一些挑戰。特別是,標準的ABC算法需要大量的仿真,這使得它們在前向仿真代價昂貴的情況下不可行。
本文討論了計算代價高的模型的無概率推理。主要貢獻是基于高斯過程代理模型的LFI一致性框架。GP模型允許對仿真模型輸出的平滑假設進行編碼,以減少所需的仿真量。此外,由于模擬預算有限,所產生的基于模型的后驗逼近的不確定性可以被量化。我們提出貝葉斯實驗設計策略來選擇評估地點,以使計算成本最小化。順序設計(每次選擇一個模擬)和批處理策略(允許利用并行計算)都是推導出來的。除了LFI場景外,本文提出的方法也適用于可能性可以評估但代價昂貴的情況。
本質上,所提出的框架可以被視為概率數值方法的LFI對等物,如貝葉斯優化,用于優化昂貴的目標函數,貝葉斯求積,用于計算昂貴函數的積分。我們通過大量的經驗模擬證明了所提出的LFI方法的優點。文中還對所提算法進行了理論分析,并討論了它們與其他GP代理方法的關系。