題目: 機器學習的隱私保護研究綜述
簡介:
大規模數據收集大幅提升了機器學習算法的性能,實現了經濟效益和社會效益的共贏,但也令個人隱私保護面臨更大的風險與挑戰.機器學習的訓練模式主要分為集中學習和聯邦學習2類,前者在模型訓練前需統一收集各方數據,盡管易于部署,卻存在極大數據隱私與安全隱患;后者實現了將各方數據保留在本地的同時進行模型訓練,但該方式目前正處于研究的起步階段,無論在技術還是部署中仍面臨諸多問題與挑戰.現有的隱私保護技術研究大致分為2條主線,即以同態加密和安全多方計算為代表的加密方法和以差分隱私為代表的擾動方法,二者各有利弊.為綜述當前機器學習的隱私問題,并對現有隱私保護研究工作進行梳理和總結,首先分別針對傳統機器學習和深度學習2類情況,探討集中學習下差分隱私保護的算法設計;之后概述聯邦學習中存的隱私問題及保護方法;最后總結目前隱私保護中面臨的主要挑戰,并著重指出隱私保護與模型可解釋性研究、數據透明之間的問題與聯系.
人工智能(AI)的成功應該在很大程度上歸功于豐富數據的可獲得性。然而,實際情況并非如此,行業中的開發人員常常面臨數據不足、不完整和孤立的情況。因此,聯邦學習被提議通過允許多方在不顯式共享數據的情況下協作構建機器學習模型,同時保護數據隱私,來緩解這種挑戰。然而,現有的聯邦學習算法主要集中在數據不需要顯式標記或者所有數據都有標記的情況下。然而在現實中,我們經常會遇到這樣的情況,標簽數據本身是昂貴的,沒有足夠的標簽數據供應。雖然這類問題通常通過半監督學習來解決,但據我們所知,聯邦半監督學習還沒有投入任何努力。在這項調查中,我們簡要地總結了目前流行的半監督算法,并對聯邦半監督學習做了簡要的展望,包括可能的方法、設置和挑戰。
題目: A Survey on Distributed Machine Learning
簡介: 在過去十年中,對人工智能的需求已顯著增長,并且這種增長得益于機器學習技術的進步以及利用硬件加速的能力,但是,為了提高預測質量并在復雜的應用程序中提供可行的機器學習解決方案,需要大量的訓練數據。盡管小型機器學習模型可以使用一定數量的數據進行訓練,但用于訓練較大模型(例如神經網絡)的輸入與參數數量成指數增長。由于處理訓練數據的需求已經超過了計算機器的計算能力的增長,因此急需在多個機器之間分配機器學習工作量,并將集中式的精力分配到分配的系統上。這些分布式系統提出了新的挑戰,最重要的是訓練過程的科學并行化和相關模型的創建。本文通過概述傳統的(集中的)機器學習方法,探討了分布式機器學習的挑戰和機遇,從而對當前的最新技術進行了廣泛的概述,并對現有的技術進行研究。
聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在 2016 年由谷歌最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。其中,聯邦學習可使用的機器學習算法不局限于神經網絡,還包括隨機森林等重要算法。聯邦學習有望成為下一代人工智能協同算法和協作網絡的基礎。最近來自斯坦福、CMU、Google等25家機構58位學者共同發表了關于聯邦學習最新進展與開放問題的綜述論文《Advances and Open Problems in Federated Learning》,共105頁pdf調研了438篇文獻,講解了最新聯邦學習進展,并提出大量開放型問題。
摘要
聯邦學習(FL)是一種機器學習設置,在這種設置中,許多客戶(例如移動設備或整個組織)在中央服務器(例如服務提供商)的協調下協作地訓練模型,同時保持訓練數據分散。FL體現了集中數據收集和最小化的原則,可以減輕由于傳統的、集中的機器學習和數據科學方法所帶來的許多系統隱私風險和成本。在FL研究爆炸性增長的推動下,本文討論了近年來的進展,并提出了大量的開放問題和挑戰。
目錄
1 介紹
4 .保護用戶數據的隱私
7 結束語
近幾年來,隨著機器學習的普及,機器學習系統的公平性問題引起了實際的道德、社會等問題。圖書《公平性與機器學習—局限與機遇》以公平性為核心問題來看待機器學習,提供了對當前機器學習實踐以及為實現公平而提出的技術修復方案的批判性思考。
社會、道德和機器學習自身等角度,介紹了目前機器學習中的公平性問題,如由于數據導致的偏置(bias)等問題。
圖書《Fairness and Machine Learning - Limitations and Opportunities》(《公平性與機器學習—局限與機遇》)以公平性為核心問題來看待機器學習,強調機器學習在道德方面的挑戰。作者希望該書盡可能地被廣泛閱讀,但在寫作時依然堅持著技術的嚴謹性。該書并沒有提供包羅萬象的對公平性完整的正式定義,也沒有提出一個快速解決社會對自動決策擔憂的修復方案。
解決機器學習公平性問題需要認真理解機器學習工具的局限性。該書提供了對當前機器學習實踐以及為實現公平而提出的技術修復方案的批判性思考。雖然這些問題都沒有簡單的答案,作者希望這本書能夠幫助讀者更深層次地理解如何構建負責任的機器學習系統。
報告主題:用戶隱私,數據孤島和聯邦學習 報告摘要:隨著人工智能(AI)的廣泛應用,AI系統所面臨的大數據挑戰也日益凸顯。一方面,AI系統的成功離不開大數據,另一方面,社會對于用戶隱私的泄露也越來越不能容忍。最近,歐洲推出了嚴厲的個人數據隱私法案,而部門和機構之間的隔閡也使得部門墻成為數據孤島間難以逾越的障礙。面對這一嚴峻挑戰,我們提出“聯邦遷移學習",用以建立機構間的橋梁,使得不同數據控制方可以參與聯合建立AI模型,并協作使用模型來進行決策。各方數據不出本地,而用戶隱私得到最好保護。我將舉例描述聯邦遷移學習這一技術的幾個功能,包括數據確權定價,利益合理分配,安全聯合建模。
嘉賓簡介:楊強,微眾銀行首席人工智能官,曾擔任香港科技大學計算機與工程系講座教授和系主任,前華為諾亞方舟實驗室主任,第四范式公司聯合創始人,AAAI執委,國際人工智能聯合會IJCAI理事會主席,香港人工智能與機器人學會理事長,ACM TIST 和IEEE TRANS on BIG DATA創始主編,AAAI, ACM,IEEE,AAAS等多個國際學會的Fellow。