非線性核方法是被工業界廣泛應用的重要的機器學習模型之一。由于核函數矩陣的維度正比于數據點個數,大規模數據集在時間和存儲上都給直接使用非線性核方法帶來極大困難。對于最常見的高斯核函數,隨機傅立葉特征(Random Fourier Features, RFF)可以有效地在線性時間內接近非線性核學習的效果,并且不需要直接計算龐大的核函數矩陣,因此成為大規模非線性核學習的重要工具之一。
本文首次通過研究隨機傅立葉特征的統計分布,提出基于Lloyd-Max(LM)最小失真準則的量化方法,以此進一步顯著減少RFF的存儲成本。我們給出LM量化下高斯核函數估計量的一系列嚴格理論結果,證明LM估計量的正確性和優越性,以及規范化量化后的傅立葉特征可以進一步降低高斯核估計的除偏方差。基于多個大規模數據集的實證分析證明,在平均可降低10倍以上的存儲成本的前提下,經LM量化后的特征可以達到使用全精度傅立葉特征的準確率。該方法的表現顯著優于過去已提出的隨機量化方法。本文為工業級大規模非線性核學習提供了一種存儲便利且效果極佳的壓縮數據表征方法。
隨著機器學習模型和數據量的增大,大規模分布式訓練決定了模型部署的效率。去中心化,作為一種經典的分布式系統設計原型,近年來在擴展機器學習規模上顯示出良好的效率和魯棒性。本文基于此背景,探究了不同去中心化系統下訓練復雜度的理論極限;并進一步提出了兩種算法,其復雜度可以達到該理論極限。 論文鏈接:
最大似然(Maximum likelihood, ML)是最基本、最通用的統計估計技術之一。受最近分布函數估計進展的啟發,我們提出壓縮最大似然(CML),它將ML應用于壓縮樣本。然后,我們證明了CML對于離散和連續域上的幾個基本學習任務是樣本有效的,包括具有結構的學習密度、估計概率多集和推斷對稱分布函數。
譜方法是對子空間并集附近的數據點進行聚類的一種常用方法,稱為子空間聚類。典型的用法是先構造一個隨機幾何圖,然后用譜方法對圖進行聚類,得到聚類結果。后一步被稱為光譜聚類。據我們所知,盡管在基于譜方法的子空間聚類中這兩個步驟都很重要,但現有的理論結果都集中在構建圖的第一步,而忽略了通過譜聚類糾正錯誤連接的最后一步。本文首次建立了一個理論來證明這種方法的有效性,在此理論中,我們通過分析在廣泛使用的半隨機模型下的一個簡化算法來論證譜聚類的機理。在此基礎上,我們證明了子空間聚類在相當廣泛的條件下的有效性。本文的見解和分析技術也可能對其他隨機圖問題有啟示。
最大平均差異(MMD)檢驗原則上可以檢測出兩個數據集之間的任何分布差異。但過去的研究顯示MMD檢驗不可感知對抗攻擊——MMD檢驗不能用來檢測自然數據和對抗數據之間的分布差異。
鑒于這種現象,作者提出了一個問題: 自然數據和對抗數據真的來自不同的分布嗎? 答案是肯定的——本文發現并總結了過去研究中忽視的三個關鍵因素并對應地提出解決方式。第一,過去的方法中使用的高斯核函數的表達能力有限,對應地,本文提出有效的深度核函數來代替高斯核函數; 第二,過去的方法忽視對核函數中的參數進行優化,對應地,本文遵循漸近統計學(asymptotic statistics), 使用部分數據計算近似的檢驗效果,并通過最大化該近似檢驗效果來優化深度核函數中的參數。第三,攻擊者可能生成非獨立同分布的對抗數據,對應地,本文使用wild bootstrap處理輸入數據處理了這個隱患。
通過以上三點,本文證實了MMD檢驗對于對抗攻擊的感知能力,為基于雙樣本檢驗(two-sample tests)的對抗數據檢測提供了一條新的道路。
回歸作為分類的對應,是一個具有廣泛應用的主要范式。域自適應回歸將回歸器從有標記的源域推廣到無標記的目標域。現有的區域適應回歸方法僅在淺層區取得了積極的結果。一個問題出現了:為什么在深層機制中學習不變表征不那么明顯?本文的一個重要發現是,分類對特征尺度具有魯棒性,而回歸則不具有魯棒性,對齊深度表示的分布會改變特征尺度,阻礙領域自適應回歸。基于這一發現,我們提出了通過表示空間的正交基來關閉域間隙,這是自由的特征縮放。受格拉斯曼流形的黎曼幾何啟發,我們定義了表示子空間上的幾何距離,并通過最小化它來學習深度可遷移表示。為了避免破壞深度表示的幾何性質,我們進一步引入了基不匹配懲罰來匹配正交基的排序跨表示子空間。我們的方法在三個領域自適應回歸基準上進行了評價,本文構建了其中兩個基準。我們的方法明顯優于最先進的方法。
本文提出了一種基于框架小波變換(framelet transforms)的圖神經網絡。這種方法為結構化的圖數據提供了多尺度表示。我們利用這種變換方式把圖數據特征分解到低通和高通頻率(low-pass and high-pass frequency)空間上,并利用這些頻率信息定義相應的框架小波圖卷積層(graph framelet convolutional layer)。此外,圖上的特征通過框架小波分解,聚合出了低通和高通光譜(spectra)的信息。我們利用這一特征,進一步提出了相應的圖池化(graph pooling)方法。這種池化方法同時考慮了圖數據的特征信息(feature information)和幾何信息(topology information)。
我們在多種節點預測和圖預測任務上對本文提出的框架小波卷積和池化方法的圖神經網絡進行了測試。實驗結果表明,我們的方法在多種應用下都可以達到SOTA的表現。
低秩稀疏矩陣優化問題是一類帶有組合性質的非凸非光滑優化問題. 由于零模與秩函數 的重要性和特殊性, 這類 NP-難矩陣優化問題的模型與算法研究在過去?幾年里取得了長足發 展. 本文從稀疏矩陣優化問題、低秩矩陣優化問題、低秩加稀疏矩陣優化問題、以及低秩張量 優化問題四個方面來綜述其研究現狀; 其中, 對稀疏矩陣優化問題, 主要以稀疏逆協方差矩陣估 計和列稀疏矩陣優化問題為典例進行概述, 而對低秩矩陣優化問題, 主要從凸松弛和因子分解 法兩個角度來概述秩約束優化和秩 (正則) 極小化問題的模型與算法研究. 最后,總結了低秩 稀疏矩陣優化研究中的一些關鍵與挑戰問題, 并提出了一些可以探討的問題。