最大似然(Maximum likelihood, ML)是最基本、最通用的統計估計技術之一。受最近分布函數估計進展的啟發,我們提出壓縮最大似然(CML),它將ML應用于壓縮樣本。然后,我們證明了CML對于離散和連續域上的幾個基本學習任務是樣本有效的,包括具有結構的學習密度、估計概率多集和推斷對稱分布函數。
在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。
半監督學習(SSL)由于成功地使用了未標記數據,在許多機器學習任務中受到了極大的關注,而現有的SSL算法在訓練過程中要么使用所有未標記的示例,要么使用具有固定高置信度預測的未標記示例。然而,可能會有太多正確/錯誤的偽標簽示例被刪除/選擇。在本工作中,我們提出一個簡單但強大的訓練示例子集,以便只使用與已標記數據相關的偽標簽的未標記示例來訓練模型。在每次更新迭代中,只保留損失小于給定閾值(通過迭代動態調整)的示例,從而執行選擇。我們提出的Dash方法在無標記數據選擇方面具有自適應性,并具有理論保障。具體地,我們從非凸優化的角度從理論上建立了Dash的收斂速度。最后,我們通過與最先進的基準比較,證明了該方法的有效性。
最近最優傳輸(OT)理論在機器學習中的幾個應用都依賴于正則化,尤其是熵和Sinkhorn算法。由于矩陣向量乘積在Sinkhorn算法中是普遍存在的,一些工作已經提出使用低秩因子來近似其迭代中出現的核矩陣。另一種方法是在OT問題中考慮的可行耦合集上施加低非負秩約束,不需要對代價或核矩陣進行逼近。這條路線首先由forrow2018探索,他提出了一種為平方歐氏地面成本量身定制的算法,使用了一個代理目標,可以通過正則化的Wasserstein重心機制來解決。在此基礎上,我們引入了一種通用方法,旨在完全通用性地解決具有任意代價的低非負秩約束下的OT問題。我們的算法依賴于低秩耦合的顯式分解,將其作為由公共邊際連接的子耦合因子的乘積; 與NMF方法類似,我們交替更新這些因素。證明了該算法的非漸近平穩收斂性,并通過基準實驗證明了該算法的有效性。
深度域自適應(DDA)方法在復雜域(如圖像、結構數據和順序數據)上具有更好的建模能力,其性能優于淺層模型。其基本思想是在一個潛在空間上學習領域不變表示,它可以在源域和目標域之間架起橋梁。一些理論研究建立了深刻的理解和學習領域不變特征的好處; 然而,它們通常僅限于沒有標簽遷移的情況,因此阻礙了它的適用性。在本文中,我們提出并研究了一種新的挑戰性設置,該設置允許我們使用Wasserstein距離(WS)不僅量化數據偏移,而且直接定義標簽偏移。我們進一步發展理論表明,減少數據的WS轉變導致關閉之間的差距的源和目標數據分布的空間(例如,中間的一層深網),同時仍然能夠量化的標簽對這個潛在的空間轉移。有趣的是,我們的理論可以解釋學習領域不變特征在潛在空間上的某些缺陷。最后,基于已有理論的結果和指導,我們提出了標簽匹配深度域自適應(LAMDA)方法,該方法在實際數據集上優于基準方法。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
我們提出了圖神經擴散(GRAND),它將圖的深度學習視為一個連續的擴散過程,并將圖神經網絡(GNN)視為一個潛在的PDE的離散化。在我們的模型中,層結構和拓撲對應于時間和空間算子的離散化選擇。我們的方法允許有原則地開發一大類新的GNN,這些GNN能夠解決圖學習模型的常見困境,如深度、過平滑和瓶頸。我們的模型成功的關鍵是相對于數據攝動的穩定性,這在隱式和顯式離散化方案中都得到了解決。我們開發了線性和非線性版本的GRAND,在許多標準圖基準上實現了有競爭性的結果。
//proceedings.mlr.press/v139/chamberlain21a/chamberlain21a.pdf
最近的對比表示學習方法依賴于估計一個上下文的多個視圖之間的互信息。例如,我們可以通過應用數據增強獲得給定圖像的多個視圖,或者我們可以將序列分割成包含序列中某個步驟的過去和未來的視圖。MI的下界比較容易優化,但當評估大量的MI有強烈的低估偏見。我們提出將完整的MI估計問題分解為一個較小的估計問題。這個表達式包含一個無條件和條件MI項的和,每個測量總的MI的適度塊,這有助于通過對比界近似。為了使和最大化,我們給出了條件MI的一個比較下界,它可以有效地逼近。我們將我們的一般方法稱為互信息分解估計(DEMI)。我們證明了DEMI可以捕獲比標準的非分解對比界在綜合設置更大數量的MI,并在視覺域的對話生成學習更好的表示。
圖表示學習算法的歸納偏差通常被編碼在其嵌入空間的背景幾何中。在本文中,我們證明了一般有向圖可以有效地用一個包含三個成分的嵌入模型來表示: 一個偽黎曼度量結構,一個非平凡的全局拓撲,以及一個明確包含嵌入空間中首選方向的唯一似然函數。我們將該方法應用于自然語言應用和生物學中一系列合成的和真實的有向圖的鏈接預測任務,從而證明了該方法的表征能力。特別地,我們證明了低維柱面閔可夫斯基和反Sitter時空可以產生與高維彎曲黎曼流形相同或更好的圖表示。
當前的大多數自監督表示學習 (SSL) 方法都基于對比損失和實例判別任務,即其中同一圖像實例的數據增強版本(“正樣本”)與從其他圖像中提取的實例(“負樣本”)進行對比。為了保證學習有效,應將許多負樣本與正樣本對進行比較,這在計算上要求很高。在本文中,我們為SSL提出了一個不同的方向和一個新的損失函數,它基于對隱空間特征的白化操作,且只需要正樣本對,無需負樣本對的訓練。白化操作對批量樣本具有“散射”效應,避免只用正樣本時所有樣本表示收斂到單個點的退化解。同時,和先前無需負樣本的SSL相比,所提方法不需要非對稱網絡,并且在概念上也很簡單。
本篇論文的貢獻有:
1.本文提出了一種新的SSL損失函數,Whitening MSE (W-MSE)。W-MSE 將批量樣本限制在球形分布中,它是對比損失的替代方法。 2.所提的損失函數不需要大量的負樣本,因此我們可以在當前批次中包含更多的正樣本對。同時,論文實驗證明了從一張圖像中提取的多個正樣本對可提高了模型性能。 3.通過相關實驗驗證了W-MSE的在各個任務上的有效性。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。