差分隱私(DP)是保護隱私的敏感數據,同時保持其實用性的一個最成功的提議。在這次演講中,我們將簡要介紹DP框架,然后提出一個新的機制來實現分布式DP。也就是說,在一個數據收集分布在不同組織中的場景中,這些組織不希望公開原始數據,而只希望公開它們經過脫敏的版本,并且仍然可以從合并來自不同來源的信息的優點中獲益。我們提出的機制特別適合于統計期望最大化方法的一種變體的應用,由于這種方法,原始數據的效用可以被檢索到一個近似的檢索度,而不影響原始數據所有者的隱私。
來自EPFL的Volkan Cevher教授講解關于《對抗機器學習》的最近報告。
圖是一種普遍存在的數據結構,它可以表示不同實體之間豐富的關系信息。在社交網絡中建立友好關系,預測蛋白質與蛋白質的相互作用,學習分子指紋,以及分類疾病,這些都是通過通過圖表數據進行學習而成為可能的任務。在過去的幾年里,隨著圖深度學習模型——圖神經網絡(graph neural network, GNNs)的出現,圖機器學習研究發生了革命性的變化。圖神經網絡在各種下游任務的圖表示自動學習方面表現出了卓越的性能。然而,當圖形代表敏感互動或包含個人信息時,通過圖學習可能會引起隱私問題。先前關于保護隱私的機器學習的工作已經在處理歐幾里得數據(如圖像、音頻和文本)時提出了保護用戶隱私的有效解決方案,但由于圖節點之間存在連接性,在圖上應用深度學習算法涉及的隱私問題往往更具挑戰性。本講座旨在介紹圖神經網絡,以及在敏感圖上應用GNNs的潛在隱私風險。然后,將概述可能的隱私攻擊的GNN和建立隱私保護GNN的最新嘗試。
來自MILA,Aaron Courville的《自監督表示學習綜述》, Introduction II - Overview of self-supervised representation learning?
我們提出并分析了具有條件風險值(CVaR)的凸損失分布魯棒優化算法和有條件風險值的χ2發散不確定性集。我們證明了我們的算法需要大量的梯度評估,獨立于訓練集的大小和參數的數量,使它們適合大規模的應用。對于χ2的不確定性集,這些是文獻中第一個這樣的保證,對于CVaR,我們的保證在不確定性水平上是線性的,而不是像之前的工作中那樣是二次的。我們還提供了下界來證明我們的CVaR算法的最壞情況的最優性和一個懲罰性的版本的χ2問題。我們的主要技術貢獻是基于[Blanchet & Glynn, 2015]的批量魯棒風險估計偏差的新界和多層蒙特卡洛梯度估計器的方差。
現代機器學習有兩個明顯的特點:它可以非常強大,也可以非常脆弱。前者不需要贅述。后者指的是現代機器學習算法的性能敏感地依賴于超參數的選擇。這個演講集中在機器學習的連續公式是“適定的”。我們將機器學習和相關的優化過程描述為表現良好的變分問題和類偏微分問題,并證明一些最流行的現代機器學習算法可以作為這些連續問題的離散化恢復。實驗結果表明,該方法對不同的超參數選擇具有更強的魯棒性。我們還討論了如何在這個框架下開發新的算法。
深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。
然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。
1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。
2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。
本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。
然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。
最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。
目錄:
3.問題 4. 休息時間 5. 分布式學習
知識圖譜以結構化的方式描述客觀世界中的概念、實體及其間的關系,將萬維網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解萬維網上海量信息的能力。知識圖譜可以由任何機構和個人自由構建,其背后的數據來源廣泛、質量參差不齊,導致它們之間存在多樣性和異構性。例如,對于相似領域,通常會存在多個不同的概念或實體指稱真實世界中的相同事物。本報告首先簡要介紹了語義網、知識圖譜及知識圖譜融合問題,然后介紹了面向知識圖譜模式層的本體匹配方法,接下來介紹了面向知識圖譜實例層的實體對齊方法,特別涉及近期基于表示學習的實體對齊方法,還介紹了知識融合過程中的真值推斷方法,最后做了總結和展望。