我們提出了一種新的用于分布式訓練神經網絡模型的聯邦學習方法,其中服務器在每一輪隨機選擇的設備子集的協調合作。我們主要從通信的角度來看待聯邦學習問題,并允許更多的設備級計算來節省傳輸成本。20指出了一個基本的困境,即局部設備級經驗損失的最小值與全局經驗損失的最小值不一致。與最近嘗試不精確最小化或利用設備來并行梯度計算的工作不同,我們在每一輪為每個設備提出了一個動態正則化,這樣在極限情況下全局解決方案和設備解決方案是對齊的。我們通過對真實數據和合成數據的實證結果以及分析結果證明,我們的方案能夠在凸和非凸設置下實現高效的訓練,同時完全不知道設備的異構性,對大量設備、部分參與和不平衡數據具有魯棒性。
聯邦學習(Federated Learning)是一種新興的保護隱私的機器學習范式,在學術界和行業中都引起了極大的關注。聯邦學習的一大特征是異構性,它來源于參與學習的設備有各種硬件規格、且設備狀態是動態變化的。異構性會對聯邦學習訓練過程產生巨大影響,例如,導致設備無法進行訓練或無法上載其模型更新。不幸的是,這種影響尚未在現有的聯邦學習文獻中進行過系統的研究和量化。本文進行了第一個聯邦學習中異構性影響的實證研究。本文從13.6萬部智能手機中收集了大量數據,這些數據可以真實地反映現實環境中的異構性。本文還構建了一個符合標準聯邦學習協議同時考慮了異構性的聯邦學習平臺。基于以上數據和平臺進行了廣泛的實驗,以比較目前最優的聯邦學習算法在考慮異構性和不考慮異構性下的性能。結果表明,異構性導致聯邦學習的性能顯著下降,包括高達9.2%的準確度下降,2.32倍的訓練時間延長以及公平性受損。此外,本文進行了原因分析,發現設備故障和參與偏差是導致性能下降的兩個潛在根本原因。我們的研究對聯邦學習從業者具有深刻的啟示。一方面,本文的發現表明聯邦學習算法設計師在模型評估過程中有必要考慮異構性。另一方面,本文的發現敦促聯邦學習的系統設計者設計特定的機制來減輕異構性的影響。中心博士生楊程旭為該文第一作者。
本文由騰訊 AI Lab 和中國科學院自動化研究所合作完成。圖分類、藥物分子官能團發掘、圖數據去噪等任務都可以歸結為尋找一個與原圖標簽最為相關且濾除噪聲結構的子圖。然而監督學習需要利用子圖層面的標簽,且圖的不規則離散結構對算法優化帶來了挑戰。
本文基于信息瓶頸理論提出了信息瓶頸子圖的概念和圖信息瓶頸算法,并針對圖的不規則離散結構提出了二層互信息優化算法與連續化松弛方法。基于該算法,不需要顯式的子圖標簽即可有效識別這種子圖。
實驗表明,該算法能有效提高多種圖分類算法的精度;在分子數據集上,該算法能夠準確識別最能影響藥物分子屬性的子結構;此外,該算法對于有噪聲的圖分類任務有較好的魯棒性。
本文在圖深度學習中開拓出了一個子圖識別的新的研究領域,并在藥物發現中起到了一定的輔助分析的作用。其中結合信息瓶頸理論來解決圖問題的思路也對今后的相關研究有借鑒意義。
想了解更多關于圖深度學習的信息,可閱讀文章:騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用
該論文提出一種面向詞替換攻擊的對抗訓練方法。該方法先將詞替換攻擊建模為詞向量空間上的凸包絡,并香農熵對凸組合參數進行正則,提出了對抗稀疏凸組合模型,該模型可以貼合語言的規律,高效地生成對抗句子,以攻擊已有深度語言模型。隨后,將該模型與對抗訓練整合實現不易被攻擊的魯棒模型訓練。相比之前的方法,該模型有如下的好處:1)包含所有可能出現的對抗噪聲。2)凸集利于優化 3)替換詞組集合的數量最小。論文提出的防御方法在情感分類和語言推斷任務中均有較大的魯棒性提升
論文由新加坡南洋理工大學董新帥同學、日本國立信息學研究所劉弘博士、廈門大學紀榮嶸教授、以及麻省理工學院的Anh Tuan Luu博士合作完成。論文中的董新帥同學和劉弘博士皆為廈門大學MAC實驗室畢業學生,通訊作者是紀榮嶸教授。
聯邦學習機制以其獨有的隱私保護機制受到很多擁有高質量數據的客戶青睞。通過聯邦學習,能有效地打破數據孤島,使數據發揮更大的作用,實現多方客戶在保證隱私的情況下共贏。但與此同時,在實際應用中各個客戶的數據分布非常不一致,對模型的需求也不盡相同,這些在很大程度上制約了傳統聯邦學習方法的性能和應用范圍。為此, 在客戶數據分布不一致的情況下如何提高模型的魯棒性成為了當前學術界與工業界對聯邦學習算法優化的核心目標,希望通過聯邦學習得到的模型能滿足不同客戶的需求。
傳統的聯邦學習的目的是為了獲得一個全局共享的模型,供所有參與者使用。但當各個參與者數據分布不一致時,全局模型卻無法滿足每個聯邦學習參與者對性能的需求,有的參與者甚至無法獲得一個比僅采用本地數據訓練模型更優的模型。這大大降低了部分用戶參與聯邦學習的積極性。
為了解決上述問題,讓每個參與方都在聯邦學習過程中獲益,個性化聯邦學習在最近獲得了極大的關注。與傳統聯邦學習要求所有參與方最終使用同一個模型不同,個性化聯邦學習允許每個參與方生成適合自己數據分布的個性化模型。為了生成這樣的個性化的模型,常見的方法是通過對一個統一的全局模型在本地進行定制化。而這樣的方法仍然依賴一個高效可泛化的全局模型,然而這樣的模型在面對每個客戶擁有不同分布數據時經常是可遇而不可求的。
為此,華為云 EI 溫哥華大數據與人工智能實驗室自研了一套個性化聯邦學習框架 FedAMP。該框架使用獨特的自適應分組學習機制,讓擁有相似數據分布的客戶進行更多的合作,并對每個客戶的模型進行個性化定制,從而有效地處理普遍存在的數據分布不一致問題,并大幅度提高聯邦學習性能。
最近的小樣本學習方法幾乎都是基于場景式(元任務式)訓練,即為了模仿測試時的情況,每個元任務中對于每個類只采樣少量訓練樣本(支撐樣本)。然而,這種嚴格仿照測試情況的訓練方式有個副作用,即訓練得到的模型容易受到少量支撐樣本的壞采樣的影響。在本工作中,我們第一次以探索場景之間關系的方式來嘗試解決該問題。特別地,我們提出了一個新穎的建模場景級別關系的元學習(MELR)框架:通過采樣兩個擁有相同類別集合的場景用于元訓練,MELR用來保證訓練得到的模型在元測試階段對于質量不高的支撐樣本的存在是魯棒的。這可以通過設計兩個關鍵部件來實現:(1)一個跨場景注意力模塊(CEAM)來提高模型減少壞采樣支撐樣本帶來的反作用的能力;(2)一個跨場景一致性正則(CECR)來保證分別在兩個場景下獨立得到的兩個分類器有一致的表現。在兩個基準數據集上,大量標準小樣本學習實驗顯示我們的MELR相比于我們使用的基準方法(原型網絡)取得了1.0%- 5.0%的性能提升,而且在相同設置下打敗了最新的方法。
//openreview.net/forum?id=D3PcGLdMx0
1.INDUCTIVE REPRESENTATION LEARNING IN TEMPORAL NETWORKS VIA CAUSAL ANONYMOUS WALKS
//arxiv.org/pdf/2101.05974.pdf
時序網絡是現實世界中動態系統的抽象。這些網絡通常根據某些定律發展,例如社交網絡中很普遍的三元閉包定律。歸納表示學習時間網絡應該能夠捕獲此類定律,并進一步將遵循相同定律應用于未在訓練過程中見過的數據,即inductive的能力。以前的工作主要依賴于網絡節點身份或豐富邊屬性,通常無法提取這些定律。因此,本文提出了因果關系匿名游走(Causal Anonymous Walks, CAW)來inductively的進行時序網絡的表示學習。
具體來說,CAW是通過時間隨機游走提取類似motif的結構來捕獲圖的動態性,這避免了motif計算復雜的問題。同時,CAW采用新穎的匿名化策略,用一組節點的命中計數來替換節點身份以保持模型inductive的能力,同時也建立了motif之間的相關性,這對于某些圖挖掘任務(如鏈路預測)是非常關鍵的。進一步的,本文進一步提出了一個神經網絡模型CAW-N來編碼CAW。最后,在6個真實時序網絡數據集上,CAW-N均取得了大幅度的提升,例如AUC提升了15%!
2.HOW TO FIND YOUR FRIENDLY NEIGHBORHOOD:GRAPH ATTENTION DESIGN WITH SELF-SUPERVISION
圖神經網絡中的注意力機制旨在分配更大的權重給重要的鄰居節點,以進行更好地表示。但是,圖神經網絡學到的東西不是那么容易理解的,尤其是在有噪聲的圖上。而本文提出的自監督的圖注意力網絡(SuperGAT)就是用來解決這一問題的。
3.ON THE BOTTLENECK OF GRAPH NEURAL NETWORKSAND ITS PRACTICAL IMPLICATIONS
自從Gori等人提出圖神經網絡(GNN)以來,訓練GNN的主要問題之一是在圖中的遠距離節點之間傳播信息。本文提出GNN在較長路徑中聚集信息時會出現瓶頸。這個瓶頸導致over-squarshing。這樣GNN就無法傳播源自遠程節點的消息,執行效果也不好。本文中調整了遠程GNN模型問題,無需任何調整或額外的權重即可突破瓶頸得到改善后的結果。
4.ADAGCN: ADABOOSTING GRAPH CONVOLUTIONALNETWORKS INTO DEEP MODELS
深圖模型的設計仍有待研究,其中至關重要部分是如何以有效的方式探索和利用來自鄰居的躍遷。在本文中,通過將AdaBoost集成到網絡計算中,提出了一種新穎的類RNN深度圖神經網絡架構。提出的圖卷積網絡AdaGCN(Adaboosting圖卷積網絡)具有有效提取來自當前節點的高階鄰居知識的能力。
不同于其他直接堆疊圖卷積層的圖神經網絡,AdaGCN在所有“層”之間共享相同的基礎神經網絡架構并進行遞歸優化處理,類似于RNN。
此外,本文還在理論上建立了AdaGCN與現有圖卷積方法之間的聯系,從而展示了模型的優勢。最后,用實驗證明了AdaGCN的計算優勢。
5.ACCURATE LEARNING OF GRAPH REPRESENTATIONSWITH GRAPH MULTISET POOLING
消息傳遞圖神經網絡已廣泛用于建模圖數據,在許多圖形分類和鏈路預測任務上取得了很好的效果。然而,為了獲得圖形的準確表示還需要定義良好的池化功能,即在不丟失單個節點特征和全局圖結構的前提下將節點表示集映射到緊湊的形式。
為了解決現有的圖池化的限制,本文將圖池化問題表述為帶有關于圖結構的輔助信息的多集編碼問題,并提出了圖形多集轉換器(GMT)。該方法可以輕松擴展到以前的節點聚類方法,來進行分層圖池化。實驗結果表明,GMT明顯優于其他圖形池化方法,并在圖重構和生成任務上獲得很大的性能提升。
6.GRAPH COARSENING WITH NEURAL NETWORKS
隨著大規模圖的日益流行,處理,提取和分析大型圖形數據的計算難題有著越來越重要意義。圖粗化是一種在保持基本屬性的同時減小圖尺寸的技術。盡管有豐富的圖粗化文獻,但只有有限的數據驅動方法。
本文利用圖深度學習的最新進展來進行圖粗化。首先提出測量粗化算法質量的框架并說明我們需要根據目標仔細選擇圖粗化的Laplace運算符和相關的投影/提升運算符。由于粗化圖的當前邊權可能不是最優的選擇,用圖神經網絡對權重分配圖進行參數化并對其進行訓練,以無監督的方式提高粗化質量。通過在合成網絡和真實網絡上進行的廣泛實驗,證明了該方法顯著改善了各種條件下的常用圖粗化方法指標,縮小率,圖尺寸和圖類型。它概括為較大的尺寸(訓練圖的25倍),可適應不同的損耗(可微分和不可微分),并且可以縮放到比以前大得多的圖。
可以看到GOREN可以在不同類型的圖上優化粗化方法。
我們提出并分析了具有條件風險值(CVaR)的凸損失分布魯棒優化算法和有條件風險值的χ2發散不確定性集。我們證明了我們的算法需要大量的梯度評估,獨立于訓練集的大小和參數的數量,使它們適合大規模的應用。對于χ2的不確定性集,這些是文獻中第一個這樣的保證,對于CVaR,我們的保證在不確定性水平上是線性的,而不是像之前的工作中那樣是二次的。我們還提供了下界來證明我們的CVaR算法的最壞情況的最優性和一個懲罰性的版本的χ2問題。我們的主要技術貢獻是基于[Blanchet & Glynn, 2015]的批量魯棒風險估計偏差的新界和多層蒙特卡洛梯度估計器的方差。