深度域自適應(DDA)方法在復雜域(如圖像、結構數據和順序數據)上具有更好的建模能力,其性能優于淺層模型。其基本思想是在一個潛在空間上學習領域不變表示,它可以在源域和目標域之間架起橋梁。一些理論研究建立了深刻的理解和學習領域不變特征的好處; 然而,它們通常僅限于沒有標簽遷移的情況,因此阻礙了它的適用性。在本文中,我們提出并研究了一種新的挑戰性設置,該設置允許我們使用Wasserstein距離(WS)不僅量化數據偏移,而且直接定義標簽偏移。我們進一步發展理論表明,減少數據的WS轉變導致關閉之間的差距的源和目標數據分布的空間(例如,中間的一層深網),同時仍然能夠量化的標簽對這個潛在的空間轉移。有趣的是,我們的理論可以解釋學習領域不變特征在潛在空間上的某些缺陷。最后,基于已有理論的結果和指導,我們提出了標簽匹配深度域自適應(LAMDA)方法,該方法在實際數據集上優于基準方法。
圖匹配深度學習由于其優于傳統方法的性能和為解決其他圖上的組合問題提供的見解而成為一個重要的研究課題。雖然最近的通用深度方法廣泛研究了有效的節點/邊緣特征學習或給出這些學習特征的下游通用求解器,但很少有現有工作質疑固定連通性/拓撲是否通常使用啟發式構建(例如,從學習的角度來看,我們認為固定的拓撲可能會限制模型的容量,從而潛在地阻礙性能。為了解決這個問題,我們提出學習潛在拓撲的分布,這樣可以更好地支持下游GM任務。我們設計了兩種潛在圖生成程序,一個是確定性的,一個是生成的。特別地,生成過程強調跨圖的一致性,因此可以看作是一個匹配引導的共生成模型。我們的方法在公共基準上的表現優于以往的先進水平,因此支持了我們的假設。
譜方法是對子空間并集附近的數據點進行聚類的一種常用方法,稱為子空間聚類。典型的用法是先構造一個隨機幾何圖,然后用譜方法對圖進行聚類,得到聚類結果。后一步被稱為光譜聚類。據我們所知,盡管在基于譜方法的子空間聚類中這兩個步驟都很重要,但現有的理論結果都集中在構建圖的第一步,而忽略了通過譜聚類糾正錯誤連接的最后一步。本文首次建立了一個理論來證明這種方法的有效性,在此理論中,我們通過分析在廣泛使用的半隨機模型下的一個簡化算法來論證譜聚類的機理。在此基礎上,我們證明了子空間聚類在相當廣泛的條件下的有效性。本文的見解和分析技術也可能對其他隨機圖問題有啟示。
本文研究了無監督圖表示學習,這在許多任務中至關重要,如藥物和材料中分子特性預測。現有方法主要側重于保留不同圖實例之間的局部相似性,但是沒有考慮整個數據集的全局語義結構。在本文中,作者提出了一個統一的框架,GraphLoG,用于自監督的全圖表示學習。
具體來說,除了局部相似性之外,GraphLoG 還引入了層次原型來捕獲全局語義。進一步提出了一種有效的在線期望最大化 (EM) 算法來學習模型。本文評估的方法是通過在未標記圖預訓練,然后對下游任務進行微調來進行。對化學和生物基準數據集的大量實驗證明了所提出方法的有效性。
傳統的無監督多源域適應(Multi-source Unsupervised Domain Adaptation)方法假設所有源域數據都可以直接訪問。然而,隱私保護政策要求所有數據和計算都必須在本地進行,這對域適應方法提出了三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而在隱私保護要求下,源域數據本地存儲、不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來構建可遷移的共識知識。大量實驗表明,KD3A顯著優于其他域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
雖然許多現有的圖神經網絡(gnn)已被證明可以執行基于?2的圖平滑,從而增強全局平滑,但在本工作中,我們旨在通過基于?1的圖平滑進一步增強GNN的局部平滑自適應。在此基礎上,提出了一種基于?1和?2圖平滑的彈性GNN。特別地,我們提出了一種新的、通用的消息傳遞方案。該消息傳遞算法不僅有利于反向傳播訓練,而且在保證理論收斂的前提下達到了預期的平滑特性。在半監督學習任務上的實驗表明,所提出的彈性GNN在基準數據集上具有較好的自適應能力,對圖對抗攻擊具有顯著的魯棒性。
傳統的無監督多源域適應(Domain Adaptation)方法假設所有源域都可以直接訪問。然而,該假設忽略了隱私保護政策,即所有數據和計算都必須在本地進行。在隱私保護要求下進行域適應存在三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而源域數據本地存儲,不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用,例如域對抗訓練。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來進行知識遷移。大量實驗表明,KD3A顯著優于其他前沿域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。