亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

如今,圖數據已經被廣泛地應用于現實生活與科學研究當中,有巨大的使用和研究價值. 但與此同時,針 對圖數據的收集與發布中也存在巨大的隱私風險 . 如何在保護圖隱私的同時,發布與收集可用圖數據,是目前個 人、企業、政府等面臨的重大挑戰. 本文首先從隱私信息所包含的內容、不同的隱私泄露場景,以及敵手模型三個方 面深入地剖析了圖數據在使用中存在的隱私風險,然后重點從攻擊和防御兩個角度展開介紹. 針對攻擊而言,本文分析了當前可行的圖數據隱私攻擊與攻擊量化算法及其算法原理. 針對防御而言,本文總結了簡單匿名、圖修改、 聚類,以及差分隱私四種圖數據隱私防御技術;分析了集中與分布兩種數據存儲場景下,不同類型圖數據使用的各 類隱私防御算法,以及數據隱私性與可用性度量方法. 最后本文綜合已有的研究成果,指出了圖數據上隱私保護研 究當前存在的問題、面臨的挑戰,及未來的研究方向.

引言

圖數據目前已被廣泛應用于生活中的各個領 域 . 相較于列表等其他數據類型,圖數據具有更強 的表達能力:除通過結點表征實體屬性信息外,還可 以通過邊清晰地表達結點實體間的鏈接關系,因此 被普遍應用于現實生活與科學研究中[1] . 典型的圖 數據包括社交網絡、通訊網絡、移動軌跡、傳染病與 醫療數據、合作網絡、引用網絡、交易信息網絡、自治 系統數據及其他拓撲圖等,被政府、科研機構及企業 應用于犯罪分子行為模式挖掘、疾病傳播研究、推薦 系統等政府數據挖掘、學術研究與商業應用當中.

然而圖數據中蘊含大量的敏感信息,一旦泄露, 造成的后果極為嚴重 . 除如社交網絡中的個人資 料、醫療數據中的診療記錄、交易信息網絡中的交易 內容等圖結點上的敏感文本屬性外,圖數據中還包 含社會關系、醫患關系、交易方式等邊上的敏感鏈接 關系. 因此圖數據的隱私泄露事件往往涉及人數眾 多、影響廣泛 . 2018 年,社交網絡 Facebook 超過 5000萬用戶個人信息遭到泄露,除個人資料等用戶 結點屬性信息外,還包括好友資料、點贊與轉發情況 等用戶結點間的關聯關系 . 數據公司通過分析用戶 間的關聯關系,準確推測出了用戶的受教育情況、政 治傾向、性取向,甚至是用戶兒童時期受過的創傷, 從而精準投放引導性信息,以達到左右用戶行為的 目的 . 此外,數據分析者還利用用戶的好友列表,進 一步擴大影響范圍 . 最終,該隱私泄露事件累計波 及到了 8700 萬用戶 . Facebook 也因此信譽受損、市 值下跌,并面臨累計超過16億美元的罰款.

可見,圖數據在收集與發布等使用過程中面臨 著巨大的隱私風險 . 攻擊者可以結合各種背景知識 對圖數據發起隱私攻擊 . 在圖的集中式存儲場景 下,攻擊者可借助公開的人口統計數據、個體語義屬性信息、個體所在圖的局部結構信息、公開數據集、 網絡爬蟲爬取的圖數據等輔助信息,對匿名圖發起 結點實體身份再識別攻擊,并進一步推斷實體的語 義屬性、鏈接關系等隱私信息 . 在圖的分布式存儲 場景下,不可信的數據收集者可以在數據收集過程 中直接竊取用戶的隱私數據 . 即便只發布或收集與 原始圖相關的統計信息或隨機圖模型參數等,圖數 據的隱私安全依然會遭到威脅 . 一則,發布的統計 數據本身可能是敏感信息 . 二則,攻擊者可以通過 發布的數據以較高的準確度還原原始圖,或者綜合 利用各類統計數據對原始圖進行隱私推斷.

綜上所述,對圖數據隱私保護技術的研究迫在 眉睫 . 然而圖數據蘊含信息豐富,實體間關聯關系 復雜,給其上的隱私保護帶來了嚴峻的挑戰 . 首先, 圖數據上信息的多樣性增大了隱私定義的難度 . 圖 數據中結點所代表的實體身份、語義屬性、結點所在 的子圖結構、結點本身在圖中的存在性,以及圖中邊 上的語義屬性、邊的存在性,都可能是需要保護的敏 感信息. 如何選擇并綜合各類敏感信息進行合理的 隱私定義,是圖數據隱私保護上的一個難點 . 其次, 圖數據中結點之間復雜的關聯關系增大了隱私保護 技術設計與應用的難度 . 同一個結點可能與大量其 它結點存在各種不同的鏈接關系,并且結點上的語 義信息與結點所在子圖的結構特征也存在一定的關 聯,對圖中任何一個結點、一條邊或一條語義信息稍 做更改,都可能牽一發而動全身,大大降低圖數據整 體的可用性 . 因此,如何在充分保護用戶隱私的前 提下,同時保障圖數據的高可用性是研究者關注的 焦點.

針對關系型數據的傳統隱私保護技術無法滿足 圖數據發布與收集的隱私需求. 傳統的k-匿名技術、 l-多樣性技術、t-接近技術等雖然可以直接應用于圖 數據發布時,結點上語義信息的保護,但是無法同時 保護結點間特殊的鏈接關系,以及結點所在的特殊子 圖結構等隱私信息.而傳統的差分隱私技術直接應用 于圖數據的發布與收集時,相關函數敏感度較高,會 導致添加的噪聲過大,數據可用性急劇下降.此外,若 直接用傳統的差分隱私技術對結點上的語義信息、結 點存在性、邊上的語義信息與邊存在性等進行全面的 隱私保護,不僅會引起添加噪聲過大問題,而且會破 壞圖數據上信息之間的一致性,降低數據可用性. 因 此,為滿足圖數據上隱私保護的需求,需要在傳統隱 私保護技術的基礎上結合圖數據的特點、針對圖數據 上隱私保護的難點來進行創新.

本文第2節從圖數據隱私信息、泄露場景、與敵 手模型三個方面綜合分析了圖數據在收集與發布中 面臨的隱私風險 . 第 3 節分析了目前在圖數據模型 上各類攻擊算法及其量化方法,對攻擊者的能力進 行直觀地說明. 第4節介紹了圖數據中簡單匿名、圖 修改、聚類,及差分隱私四種主流隱私保護技術,并 梳理了針對不同應用場景與數據類型的隱私防御算 法 . 同時介紹了圖數據隱私性與可用性度量及二者 關系 . 第 5 節總結了當前圖數據隱私保護中仍然存 在的問題,并展望了未來可能的研究方向與挑戰 . 第6節總結全文.

2 隱私風險

隱私風險指的是在圖發布與收集的過程中可能 面臨來自多種攻擊者、對不同的攻擊對象發起的各 類攻擊,從而導致圖中的敏感信息泄露 . 本節將從 隱私信息、隱私泄露場景、敵手模型三個方面,評估 在圖收集發布的過程中所面臨的隱私風險。

2.1 隱私信息

隱私信息是圖中可能泄露的各類敏感信息 . 文 獻[3]從結構上將圖上的隱私信息主要分為結點上 的隱私信息與邊上的隱私信息兩大類 . 而本文則根 據文獻[2],從內容的角度將圖上的隱私信息分為 身份信息、語義屬性與鏈接關系三大類,并豐富了定 義內涵.

身份信息指圖數據中結點與結點所代表實體身 份的一一對應關系,如:社交網絡中結點所代表用戶 的用戶姓名、用戶 ID 等身份標識符 . 除結點與實體 的對應關系外,在傳染病傳播圖等數據中,結點本身 在圖中的存在性也是一個敏感信息.

語義屬性指結點中除身份信息外其他可能泄露 隱私的屬性信息,通常包括敏感屬性信息,如郵件通 訊網絡中與用戶結點關聯的郵件內容;或一組可以 唯一確定結點身份的非敏感屬性集合,即準標識符, 如職業社交網絡中用戶結點的職業、性別、年齡、所 在地郵編等. 鏈接關系指結點所代表實體之間的關聯關系, 在圖中用邊表示 .

鏈接關系上的隱私信息包括邊上 的權重,如商業網絡中兩個實體間的交易額;邊上的 屬性,如社交網絡中兩個實體間的朋友、親友、醫患 關系等;邊的存在性,如在通訊圖中結點所代表的實 體間是否存在短信或電話往來等.

2.2 隱私泄露場景

隱私泄露場景是圖數據發布與收集中可能泄露 隱私的環節,主要包括圖的集中式存儲與圖的分布 式存儲兩種場景. 圖1為隱私泄露場景示意圖. 下面 分別介紹兩種場景下圖數據面臨的隱私問題.

2. 3 敵手模型

敵手模型通過敵手能力、敵手知識,以及敵手目 標三個方面,全面刻畫攻擊者的特征 . 充分了解敵 手模型,做到知己知彼,可以為圖數據隱私防御方法 的研究提供指導依據.

3 隱私攻擊

3. 1 攻擊算法

在圖的分布式存儲場景下,當隱私泄露方式為 直接泄露時,攻擊者無需復雜的攻擊算法;而當攻擊 者試圖對用戶進行暴力入侵時,通常采用中間人攻 擊等信息安全領域的攻擊方法,不在本文的討論范 疇內 . 因此本節將主要介紹圖的集中式存儲場景下 的隱私攻擊算法. 目前,圖的集中式存儲場景下的攻擊算法可分為 兩大類,基于種子結點(seed-based)的攻擊算法以 及非種子結點(seed-free)攻擊算法. 本文進一步將 基于種子結點的攻擊算法分為基于種子結點的主動 攻擊算法與被動攻擊算法兩個子類 . 此外,不同于 [1,14]等文獻按照時間順序介紹相關算法細節,本 文首次提煉各類圖隱私攻擊面臨的關鍵問題,明晰攻 擊算法整體的發展脈絡.下文圍繞算法目標、針對的關 鍵問題,以及相應的解決方案,描述經典攻擊算法.

3. 2 攻擊量化

除從實踐上證明算法的可行性外,還有一系列 的研究致力于從理論上給出匿名圖可以被攻破的條 件,以及不同背景知識對去匿名化的影響 . 不同于 [1,14]等文獻,本文除量化算法所基于的隨機圖模 型外,還著重分析了各個經典量化算法針對的不同 的去匿名化條件,并在表3中從理論模型假設、攻擊 類型,以及量化攻擊時考慮的不同條件類型,全面總 結了當前攻擊量化研究成果.

4 隱私防御

為抵御上述針對圖數據的隱私攻擊,研究者結 合不同地隱私防御技術,提出了多種隱私防御的算 法,本節將從圖上的隱私防御技術、隱私防御算法, 以及圖的隱私性與可用性三方面展開介紹.

4. 1 隱私防御技術

目前,針對圖數據發布與收集的隱私防御技術 主要可以分為簡單匿名技術、圖修改技術、聚類技術 以及差分隱私技術四類 . 下面將依次介紹上述隱私 防御技術及其實現機制.

4. 2 隱私防御算法

在針對圖數據的發布與收集過程中,最直接的方 式是發布或收集原始圖的鄰居向量或鄰接矩陣,因此 部分研究基于原始圖的拓撲結構、鄰接矩陣或鄰居向 量設計隱私保護方案. 然而原始圖的拓撲結構復雜, 鄰接矩陣維度較高,在算法設計與實現過程中存在算 法時間復雜度高、噪聲添加大等困難. 因此除原始圖 外,還有研究針對圖上的統計特征、隨機圖模型參數, 以及合成圖的收集與發布進行隱私保護. 相比于以隱私技術為依據的傳統分類方式[1,14,] 本文從實際應用的角度出發,分別介紹在集中式與分 布式數據存儲場景下,針對以上四種圖上數據類型的 隱私防御算法. 同時,本文首次提煉出各類隱私防御 算法面臨的關鍵問題,并圍繞算法的防御目標、采用 的防御技術,以及算法針對的關鍵問題及其解決方 案,對相關算法進行描述,明晰各類算法發展脈絡.

5 挑戰與展望

隨著人們對個人隱私的逐步重視,各類新政 策的出臺,個人隱私保護需求與高質量服務需求 之間的矛盾被持續激化,使得對圖數據的隱私風 險評估與隱私性度量、可用性度量、隱私保護技 術、隱私保護算法等的深入研究空前迫切 . 目前, 已經有很多研究致力于解決圖上的隱私保護問 題,相關研究已經廣泛涉及到了不同場景下的多 種數據類型、隱私保護技術,取得了一定的進展 . 但由于圖數據具有蘊含信息豐富、數據之間關聯性強、現實中圖相對稀疏等特點,現有的研究還不 能滿足人們對圖數據上隱私保護的需求,當前還 有很多亟待解決的問題,限制了相關研究在現實 應用中的推廣與普及。

5. 1 圖數據隱私發布與收集中的難點問題

5. 1. 1 隱私性與可用性權衡問題

數據隱私性與可用性的權衡問題是隱私保護領 域的一個共性問題 . 如何找到可用性的犧牲與隱私 性保證之間的平衡點是設計隱私保護算法的關鍵 . 然而,圖中隱私信息類型豐富,不同結點之間具有很 強的關聯性,給圖數據隱私性與可用性的量化與隱 私方案設計帶來了更大的挑戰 . 首先,對于數據隱 私性而言,雖然針對不同采用不同隱私技術的匿名 圖有不同的量化方式,但是缺乏統一的量化標準;對 于數據可用性而言,雖然可以用特定的圖性質來度 量,但同樣尚且沒有簡潔統一的量化標準 . 并且,不 論是圖數據的隱私性度量還是可用性度量,目前都 很難兼顧圖上結點的身份信息、鏈接關系及屬性信 息等多種隱私信息 . 而一旦可以綜合量化數據隱私 性與可用性,就可以通過理論分析找到其平衡點,從 而設計更有效的隱私防御方案 . 其次,在具體設計 隱私方案時,不同的隱私信息類型需要采用不同的 隱私保護技術,因此很難兼顧所有的隱私信息;圖中 的同一個結點通過邊與很多其他結點相連,若對中 心結點進行修改則會極大程度破壞圖結構可用性, 而不做修改則很難保障中心結點的結構隱私 . 基于 此,無論是對圖數據隱私性與可用性的量化,還是對 于具體的隱私保護方案設計,圖數據的隱私性與可 用性權衡都將繼續是未來圖數據隱私保護的一個嚴 峻的挑戰.

**5. 1. 2 個性化隱私保護 **

圖數據在現實生活中圖數據有廣泛的應用,如 基于社交網絡、購買記錄等的推薦系統,基于地理 位置的路徑規劃,以及基于交易記錄的欺詐檢測等 等 . 在不同類型的網絡中對隱私保護強度有不同的 需求 . 而在同一個網絡中,同一個實體結點對不同 的隱私信息也有不同的需求 . 以基于社交網絡的朋 友推薦為例,社交網絡中的不同用戶哪些屬性為隱 私屬性,或者哪些鏈接關系為隱私鏈接關系都有不 同的定義 . 還有一些用戶不認為自己所在社交網絡 中存在隱私信息,反而希望服務提供商利用自己在 社交網絡中的信息,為自己提供更精準的好友推 薦、社群推薦或者商品推薦等服務 . 在以往的研究 中,還沒有發現能夠解決圖數據上個性化隱私保護 的可行方案 . 因此,如何針對不同網絡中不同實體 的隱私需求,在保護實體隱私的同時,為實體提供 更好的服務是未來圖數據隱私保護一個研究趨勢.

**5. 1. 3 圖數據的動態發布與多次收集 **

在對圖的研究中,圖的演化是一個重要的研究 方向 . 研究圖的演化可以對人的社交行為、疾病的 傳播規律等具有更深刻的認識與理解 . 而研究圖的 演化,往往需要對同一圖數據進行多次收集或者動 態發布 . 一般的隱私防御方案無法保證在多次收集 或者動態發布中數據的隱私安全 . 多次收集及動態 發布時,在保證結點、邊及屬性隱私安全的同時,還 需要保證同一時間序列下數據的一致性,如:同一時 間序列下相同結點的身份代碼要一致;此外發布數 據中邊的存在性、圖中的語義信息等要符合原始圖 的演化規律等 . 隱私防御算法在保證數據的一致性 同時,提高了數據的可用性,但同時也豐富了攻擊者 對同一時間序列下的圖數據發起攻擊時的敵手知 識,進一步增加了防御的難度 . 目前,已經有少量的研究關注該問題,但是鮮有有效的解決方案,因此該 問題是仍然是未來圖數據隱私保護上的一個重要探 索方向.

**5. 1. 4 面向主動攻擊的隱私防御算法 **

主動攻擊者具有很強的攻擊能力 . 現實中,主 動攻擊者可以通過在社交網絡中創建僵尸賬號并主 動關聯目標用戶對用戶發起隱私攻擊 . 近年來有文 獻提出一種具有魯棒性的主動攻擊算法,可以以較 高的準確度一次性對大量結點進行去匿名化攻擊 . 該算法的提出,不僅使研究者更深刻認識到主動攻 擊者強大的攻擊能力,更進一步提高了類似于社交 網絡等圖中用戶的隱私風險 . 然而,目前尚沒有攻 擊算法可以有效緩解由此類攻擊帶來的隱私風險 . 因此如何在現有的隱私保護算法上進行提升,或者 改進已有的隱私防御技術,使其能更好的應對具有 主動攻擊能力的攻擊者是未來隱私保護技術發展一 個可能方向.

**5. 1. 5 隱私放大理論在圖隱私保護中的應用 **

近年來,通過深入挖掘各類算法自身特征,有很 多工作提出了一系列的隱私放大理論,從而提升隱 私防御效果 . 上述工作利用算法本身的隨機性、下 采樣、隨機打亂等方式,放大差分隱私預算,以取得 更好的隱私防御效果 . 利用差分隱私進行圖的收集 與發布普遍面臨噪聲添加過大,導致數據可用性降 低等問題 . 若能深入研究圖的各類算法自身隱含的 隱私性,或者采用基于混淆模型等的技術放大隱私, 將會極大提升數據收集與發布的質量 . 然而,在圖 上應用隱私放大理論面臨諸多挑戰 . 圖上的結點之 間存在關聯邊,因此不同數據之間不再具有獨立性, 無論是給相關方案的設計,還是給理論上的證明都 增加了難度 . 目前,還沒有相關工作將隱私放大相 關的理論與技術應用于圖隱私保護相關的應用場景 下,該技術的應用可能給未來圖上隱私保護技術的 發展帶來新的突破.

5. 2 面向新應用場景的圖數據隱私保護

**5. 2. 1 面向圖數據機器學習中的隱私保護 **

圖數據在機器學習領域有著非常廣泛的應用, 如基于神經網絡的結點分類、鏈接預測、社群發現, 對異常檢測問題,商品及好友推薦問題等提供了巨 大的幫助 . 然而,近年來越來越多的研究發現,機器 學習中存在著巨大的隱私風險 . 攻擊者可以通過機 器學習發布的模型參數、預測結果等對訓練集發起 重構攻擊、成員推斷攻擊等,導致訓練集中數據隱私 泄漏 . 已有的針對圖數據的隱私保護算法只能用戶 對圖數據訓練集進行輸入擾動,并且此類擾動算法 由于添加的噪聲過大,可能嚴重影響訓練模型的可 用性. 而已有的針對機器學習的隱私保護策略,則面 臨著針對圖訓練數據隱私定義難,對關聯數據擾動 難等問題 . 因此如何在保證模型可用性的同時提出 可行的隱私保護方法是未來一個可能的探索領域.

**5. 2. 2 隱私保護下的圖性質多方共同計算 **

不同于分布式存儲場景下的數據收集,在隱私 保護下的圖性質多方共同計算中,沒有數據收集者, 各方掌握部分子圖,及各子圖之間公共的邊鏈接狀 況,但不了解其他各個參與方所掌握的隱私圖內部 結構 . 各方希望借助彼此的信息共同計算完整圖中 結點間的最短路徑、中心度等信息,實現計算結果共 享,同時不泄露自己所掌握圖中的隱私信息 . 借助 密碼學技術,如秘密共享或多方安全計算等可以解 決上述問題,但是存在通信開銷大、計算開銷大等弊 端 . 差分隱私等圖隱私保護技術可以緩解開銷問 題,但同時也可能面臨計算不準確等挑戰 . 目前有 少量的工作關注該問題,但僅僅集中在兩方的共同 計算上 . 能否將其擴展至多方共同計算,將會是未 來可以探究的新場景.

6 總 結

目前,圖數據在現實生活與研究中被廣泛的應 用. 與此同時,圖數據中也存在極高的隱私風險. 而 圖數據上豐富的信息,數據之間關聯性強,給圖數據 上的隱私保護帶來了巨大的挑戰 . 本文分析了圖的 發布與收集中的隱私風險,綜述了目前針對圖數據 隱私攻防的各類方案 . 綜合二者,本文在最后給出 了目前圖數據上隱私保護研究的仍然存在的問題以 及未來可能的研究方向 . 總之,圖數據上的隱私保 護研究雖然已經取得了一定的進展,但未來依舊有 很高的研究價值與廣闊的研究空間.

付費5元查看完整內容

相關內容

?作者 | ****戴恩炎,趙天翔,王蘇杭 單位 | ****賓夕法尼亞州立大學

對于可信圖神經網絡(Trustworthy Graph Neural Networks)在隱私(privacy),魯棒性(robustness),公平(fairness)和可解釋性(explainability) 的研究工作,我們進行了系統的梳理和討論。對于可信賴所要求的各個方面,我們將現有概念和方法歸類并提煉出各類的通用框架。同時我們也給出了代表性工作和前沿方法的具體細節。對于未來的工作方向,我們也進行了探討。

論文標題:

A Comprehensive Survey on Trustworthy Graph Neural Networks: Privacy, Robustness, Fairness, and Explainability

論文鏈接:

在現實應用當中,大量的數據列如交通網絡,社交網絡,知識圖譜乃至蛋白質結構,都是以圖的形式存在的。圖神經網絡(GNNs)將深度學習拓展到圖結構數據的處理和建模。典型的圖神經網絡會匯聚鄰居節點(neighbor node)的信息來增強目標節點(target node)來獲取更強的特征。這種被稱作 message-passing 的機制使得圖神經網絡在處理圖結構數據上取得了巨大成功并被廣泛應用到日常生活。例如,Pinterest 就應用了 GNNs 在他們的圖片推薦系統當中。一些將 GNNs 應用到信用評估等金融領域的工作也已開展。但是正如深度學習那樣,GNNs 在于可信賴性方面仍然存在很多問題:

在 GNNs 的應用中,隱私魯棒性并不能得到保證。黑客可以對基于 GNNs 的服務進行隱私攻擊或者對抗攻擊。如通過 GNNs 獲得的 node embedding,攻擊者可以推斷用戶的私人信息。他們也可以采取各種方式如添加虛假聯結去欺騙圖神經網絡模型。比如應用在金融風險評估的 GNNs 就可能被攻擊,對個人,企業和社會帶來重大損失。

圖神經網絡本身也有在公平性可解釋性的缺陷。現有研究已經證明圖神經網絡的結構會進一步加強隱藏在數據中的偏見,從而導致做出對年齡、性別、種族等帶有歧視的決策。另一方面,由于模型深度導致的高度非線性, GNNs 模型給出預測難以被理解,這大大限制了 GNNs 在實際場景中的應用。

以上的這些問題都阻礙了 GNNs 在高風險場景如金融和醫療領域進一步的發展。因此可信賴圖神經網絡的構建已經成為了熱門方向。在我們的綜述中 [6],我們對已有的可信賴圖神經網絡在隱私,魯棒性,公平性和可解釋性方面進行了總結歸納,并展望了進一步的工作方向。接下來在這篇博客中,我們將簡要的介紹綜述的框架及所包含的具體方向。

▲ Figure 1. 關于隱私章節的綜述結構.

隱私(Privacy)

模型訓練集中的隱私信息可能會在發布的模型或者提供的服務泄露。然而現有的綜述論文多以討論在圖像和文本這類數據的隱私問題,其中討論的方法難以拓展到圖數據結構和采用 message-passing 架構的圖神經網絡。因此我們對隱私攻擊(privacy attacks)以及圖神經網絡的隱私保護(privacy-preserving GNNs)進行了概述總結。囊括的概念和方法都列在圖 1 之中。首先,我們對隱私攻擊方法總結出了統一的框架。 然后,我們詳細介紹了四種隱私攻擊:Membership Inference Attack, Reconstruction Attack,Property Inference Attack 和 Model Extraction Attack。至于圖神經網絡的隱私保護,我們在綜述中按照采用的方法將其歸類為差分隱私(differential privacy),聯邦學習(federated learning)和對抗隱私保護(adversarial privacy preserving)。 部分在文章討論過得方法也列舉在圖 1 之中。對于更多的技術細節以及相關方法請見于綜述論文第三章。這一章節還包含了不同領域的數據集以及圖神經網絡隱私保護的實際應用。同時我們發現對于一些類型的隱私攻擊如 Property Inference Attack 及 Model Extraction Attack 現在都缺乏行之有效的防御辦法。因此對于不同的隱私攻擊的防御會是一個未來的研究方向。其他的未來研究方向也在文章中進行了討論。更多細節請見原文。

▲ Figure 2. 關于魯棒性章節的綜述組織結構.

魯棒性(Robustness)

魯棒性是可信賴模型的另一個重要方面。由于 message-passing 機制和圖結構,GNNs 可能會被節點特征和圖結構上的對抗性擾動影響。例如,詐騙犯可以通過創造和一些特定高信用用戶的交易來逃過基于 GNNs 的詐騙檢測。所以研發魯棒的圖神經網絡對于一些安全風險較高的領域如醫療和金融是十分有必要的。 現在已有一些綜述文章討論在圖學習上的魯棒性。因此,我們專注于討論在這個領域內新興的研究方向如大規模攻擊(scalable attack),圖后門攻擊(graph backdoor attack)和最近的提出的防御方法。擾動采樣(perturbation sampling)和減少候選擾動(perturbation candidate reduction)便是對已有方法進行改進,從而實現對大規模網絡攻擊。另外,節點插入攻擊(node injection attack)作為添加擾動的時間復雜度與圖規模線性相關的方法也具備對大規模網絡攻擊的潛力。至于圖后門攻擊,已有方法較少,我們對其進行了細致的介紹。 對于圖對抗攻擊的防御方法,如圖 2 所示,我們將其歸類為:對抗訓練(adversarial training),可驗證魯棒性(certifiable robustness),圖去噪(graph denoising)及其他方法。在這些方向中,基于自監督(self-supervision)的方法未在以往綜述中被討論過。因此我們討論了如 SimP-GNN [1] 的一些基于自監督的防御方法。對于其他的方向,我們則討論了些最新的進展,比如可以同時處理標簽稀少和對抗攻擊的 RS-GNN [2]。關于圖神經網絡魯棒性的未來研究方向也包含在綜述當中,詳情請見綜述第四章。

▲ Figure 2. 關于公平性章節的綜述組織結構.

公平(Fairness)

我們最近的研究 [3] 表明 GNNs 中的 message-passing 機制相較于多層感知機(MLP)會加劇數據中的偏見。這也證明了針對圖神經網絡實現公平性是十分有必要的。最近有很多研究保證 GNNs 滿足不同公平性標準的工作涌現。因此我們對與這些工作進行了系統的回顧和歸納,整體的結構可參見圖 3。 首先我們介紹了兩類可能存在于圖結構數據的偏見:一類是廣泛存在各類數據如表格,文本和圖數據的偏見;另一類則是圖結構數據所特有的偏見。對于算法公平性的研究,其中一個最重要的問題就是如何定義和量化算法公平與否。所以我們還列舉出被 GNNs 公平性文獻廣泛采用的定義。這些公平性的定義多數適用于各種數據結構。只有 Dyadic fairness 是為鏈接預測任務設計,僅適用于圖結構數據。 對于實現 GNNs 公平性的算法,我們將其分類為對抗去偏(adversarial debiasing),公平性約束(fairness constraints)以及其他方法。部分我們討論的代表性方法在圖三當中也有列舉。在對抗去偏和公平性約束的已有方法的介紹中,我們首先分別歸納了其目標函數的統一形式。關于具體方法的各自確切目標函數也一一進行了介紹。由于需要用戶的隱私信息用于訓練和驗證公平圖神經網絡,可以用圖神經網絡公平性研究的數據集較難獲得。因此我們還列舉了各應用領域可用的數據集來幫助未來的研究。

▲ Figure 4. 關于可解釋章節的綜述結構.

可解釋性(Explainability)

由于復雜圖結構的離散型和高度的非線性,再加上 message-passing 機制在 GNNs 中的應用,圖神經網絡普遍缺乏可解釋性。而開發可解釋圖神經網絡(explainable GNNs)是十分關鍵的。因為提供的解釋可以讓參與者更信任圖神經網絡模型所做的預測。并且提供的解釋可以用來了解模型所學到的知識,據此我們可以評估現有模型是否帶有偏見或者已經被對抗攻擊影響。 因此已經有一些工作開展了可解釋 GNNs 的研究,我們在這里則對其進行了總結性回顧。對于可解釋 GNNs 的討論框架可見于圖 4。其中我們首先對可解釋性的應該考慮的各個方面進行了探討。之后我們對已有的解釋 GNNs 的方法分為 實例級事后(instance-level post-hoc),模型級事后(model-level post-hoc)以及自解釋方法(self-explainable)。 值得強調的是,其中的 self-explainable GNNs 是一個未被討論的新方向。因此我們詳述了 self-explainable GNNs 如 SE-GNN [4] 和 ProtGNN [5] 的技術細節。對于其他種類的方法,我們根據其采用的方法進一步分為多個子類。由于在現實世界的圖中很難獲得可以作為檢驗標準的解釋,因此數據集及其評估指標也是可解釋性研究的一大挑戰。雖然已有人造數據集以及部分現實數據集被應用,但是創造可解釋性的基準數據集仍會一個重要的研究方向。更多內容詳見我們的綜述原文。

? 團隊簡介

該綜述論文主要由賓夕法尼亞州立大學(PSU)王蘇杭助理教授團隊協作完成。其他主要貢獻作者包括戴恩炎和趙天翔。

戴恩炎是來自 PSU 的第三年 PhD 學生,他目前的主要科研方向為 Trustworthy Graph Neural Networks。趙天翔也是來自 PSU 的第三年 PhD 學生,他主要從事 Weakly-Supervised Graph Learning 方向的研究。王蘇杭教授對于數據挖掘和機器學習有著廣泛的興趣,最近的研究主要集中于圖神經網絡的各個方向如 Trustworthiness, self-supervision, weak-supervision 和 heterophilic graph learning, deep generative models 和 causal recommender systems。

參考文獻

[1] Jin, Wei, Tyler Derr, Yiqi Wang, Yao Ma, Zitao Liu, and Jiliang Tang. "Node similarity preserving graph convolutional networks." In Proceedings of the 14th ACM International Conference on Web Search and Data Mining, pp. 148-156. 2021.

[2] Dai, Enyan, Wei Jin, Hui Liu, and Suhang Wang. "Towards Robust Graph Neural Networks for Noisy Graphs with Sparse Labels." Proceedings of the 15th ACM International Conference on Web Search and Data Mining. 2022. [3] Dai, Enyan, and Suhang Wang. "Say no to the discrimination: Learning fair graph neural networks with limited sensitive attribute information." Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021. [4] Dai, Enyan, and Suhang Wang. "Towards Self-Explainable Graph Neural Network." Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021. [5] Zhang, Zaixi, Qi Liu, Hao Wang, Chengqiang Lu, and Cheekong Lee. "ProtGNN: Towards Self-Explaining Graph Neural Networks." arXiv preprint arXiv:2112.00911 (2021). [6] Dai, Enyan, Tianxiang Zhao, Huaisheng Zhu, Junjie Xu, Zhimeng Guo, Hui Liu, Jiliang Tang, and Suhang Wang. "A Comprehensive Survey on Trustworthy Graph Neural Networks: Privacy, Robustness, Fairness, and Explainability." arXiv preprint arXiv:2204.08570 (2022).

付費5元查看完整內容

針對不同的異常檢測方法的差異及應用于工業物聯網(IIoT)安全防護的適用性問題,從技術原理出發,調研分析2000—2021年發表的關于網絡異常檢測的論文,總結了工業物聯網面臨的安全威脅,歸納了9種網絡異常檢測方法及其特點,通過縱向對比梳理了不同方法的優缺點和適用工業物聯網場景。另外,對常用數據集做了統計分析和對比,并從4個方向對未來發展趨勢進行展望。分析結果可以指導按應用場景選擇適配方法,發現待解決關鍵問題并為后續研究指明方向。

0 引言

隨著 5G 通信技術的快速發展,以及傳感器和處理器等嵌入式設備的計算和存儲能力不斷增加,這些網絡通信和嵌入式設備在工業系統中的應用越來越普遍。工業物聯網(IIoT, industrial Internet of things)是由應用程序、軟件系統和物理設備三者組成的大型網絡,這三者與外部環境以及人類之間進行通信和共享智能[1]。據埃森哲預測,到2030年,美國的工業物聯網價值將出到7.1 萬億美元,對歐洲而言價值將超過 1.2 萬億美元[2]。

在這波工業發展浪潮中,物聯網安全是影響工業物聯網廣泛使用的重要因素之一。事實上,物聯網設備的安全性通常很差,因此很容易成為攻擊者的目標。攻擊者利用這些設備可以進行毀滅性的網絡攻擊,如分布式拒絕服務(DDoS, distributed denial of service)[3-4]。傳統的工業環境在過去一直遭受攻擊,有的還造成了災難性的后果(例如,震網病毒[5]或故障超馳/工業破壞者[6])。因此,如果沒有安全性,工業物聯網將永遠無法發揮其全部潛力。另外,工業系統對性能和可用性有嚴格的要求,即使系統受到網絡攻擊,維護系統不間斷和安全地運行也常常是優先考慮的。

異常檢測在防御系統和網絡的惡意活動中是至關重要的。近年來,為了緩解網絡攻擊,工業物聯網異常檢測方面的研究迅速增多,許多檢測機制被提出。另一方面,在異常檢測方面研究者已經從技術手段、應用場景等方面做了一些調研工作,如文獻[7-10],但這些工作很少專門針對工業物聯網的特性和適用性進行深入剖析。近兩年,雖然出現了針對工業物聯網異常檢測的綜述性文章,但介紹的都不夠全面。例如,文獻[2]只介紹了基于系統規則、建模系統物理狀態的檢測方法,文獻[4]則只介紹了基于統計和機器學習的檢測方法。除了文獻[2,4]提到的檢測方法之外,還存在許多新穎的檢測技術。

因此,本文從技術原理的角度,梳理了基于系統不變性和物理狀態的建模、基于統計學習、特征選擇、機器學習、圖、邊緣/霧計算、指紋、生物免疫等算法的異常檢測技術,并詳細分析了各類技術的優缺點。由于用于工業異常檢測研究的數據集繁雜且多樣,本文詳細歸納了常用數據集的特點及其使用頻率,方便讀者對比和選擇。除此之外,本文針對工業物聯網典型場景的網絡威脅和異常檢測方法進行調研和綜述,介紹了邊緣/霧計算方法在異常檢測方面的應用,增加了對2021 年最新論文的調研,對不同檢測方法的特點和適用場景進行了深入分析。

1 工業物聯網面臨的安全威脅

工業4.0將信息通信技術應用于工業制造和自動化領域,極大地提高了生產力和效率。然而,這一進步的代價是擴大了工業系統的受攻擊面。針對工業物聯網的攻擊,可以分為被動攻擊和主動攻擊。被動攻擊是隱蔽的,通常無法檢測到,如竊聽和流量分析。主動攻擊包括丟包、回注、干擾網絡的正常運行等。惡意軟件感染、拒絕服務(DoS, denial of service)、未授權訪問和虛假數據包注入等主動攻擊通常是可以檢測到的[9]。下面簡要總結幾種主動攻擊的特點和目標。

惡意包注入攻擊。重放抓包,發送偽造或篡改的報文,以達到干擾或破壞系統操作的目的。 DoS攻擊。消耗系統或網絡資源,導致資源不可用。 未授權訪問攻擊。探測計算機或網絡以發現漏洞;對報文進行嗅探或攔截,用于收集信息。 除此之外,還涌現出了一些針對工業物聯網典型場景的威脅。 物理攻擊。例如針對交通運輸物聯網的物理攻擊,對交通設備節點本身進行物理上的破壞,如斷電、移動節點位置等,造成信息缺失、信息泄露等。 感知數據破壞。非授權地增刪、修改或破壞感知數據,例如針對新能源發電廠的電力物聯網生產數據篡改。 控制命令偽造攻擊。發送偽造的控制命令,從而達到破壞系統或惡意利用系統的目的,例如針對數控機床設備物聯網的控制命令偽造。 為了保護工業系統免受網絡攻擊,涌現出了各種安全措施,如加密通信數據、數據完整性校驗和訪問控制等方法,可以保護系統免受多種類型的攻擊。然而,即使這些安全措施已經到位,攻擊者仍然可以成功地對系統發起攻擊,如惡意包注入和DDoS攻擊等。因此,有必要對網絡進行異常檢測,以此來進一步保障工業系統的安全。

2 工業物聯網異常檢測

本節首先介紹了工業物聯網中存在的異常種類,進而詳細分析和梳理了現有的針對不同異常類別和不同應用場景的異常檢測方法。

2.1 異常種類

網絡攻擊以損害系統信息的機密性、完整性和資源的可用性為目標,通常以某種方式造成網絡運行偏離正常,表現出異常行為。因此,可以通過發現數據中不符合預期行為的模式來識別異常。現階段IIoT中主要存在3種異常[8]。 點異常。即個別數據實例相對于其余數據是異常的。例如,假設水溫傳感器值的預定義范圍是30℃~40℃,那么超出這個范圍的值將是一個異常點。 上下文異常。僅在特定上下文中表現異常的數據實例稱為上下文異常。這類異常多為空間數據或時序數據中的異常。 集合異常。如果相關數據實例的集合相對于整個數據集是異常的,則稱為集合異常。集合異常中的單個數據實例本身可能不是異常,但它們一起作為一個集合出現就是異常。例如,單個TCP連接請求是正常的,但是連續從同一個源收到多個這種請求就有可能是DoS攻擊,也就是異常。 網絡異常檢測是指檢測網絡流量數據中的異常,利用設備或軟件應用程序對網絡流量進行監控和分析,從而檢測出惡意活動。現有工業物聯網異常檢測方法可以分為基于系統不變性、物理狀態建模、統計學習、特征選擇、機器學習、邊緣/霧計算、圖、指紋以及生物免疫等算法的檢測方法。下面將針對每一種檢測方法的技術原理、現有研究成果、優缺點及適用應用場景做介紹梳理和深入分析。

2.2 基于系統不變性的檢測方法

系統不變性是指系統運行過程的“物理”或“化學”特性中的一個條件,每當系統處于給定狀態時,必須滿足該條件。通過分析物理不變性來檢測異常已經被應用于許多網絡信息物理系統(CPS, cyber-physical system)[11-14]。文獻[11]將所有組件的穩定性和正確性約束以邏輯不變性的形式表示出來,系統動作只有在保證不違反這些不變性時才能執行。針對 CPS 各個模塊的不變性,文獻[12]提出了統一不變性,開發了跨越系統各個層面的公共語義。然而,文獻[11-12]都是通過人工來產生物理不變性,開銷很大,且很容易出錯。為了解決這個問題,文獻[13]提出利用關聯規則挖掘算法自動識別系統不變性,該算法的優點是可以發現隱藏在設計布局中的不變性,避免了手動尋找的煩瑣。但是,這項技術僅適用于成對出現的傳感器和執行器,而在真實的CPS中,所有傳感器和執行器都是跨多個過程協同工作的。也有一些使用機器學習算法來挖掘CPS物理不變性的研究。例如,Momtazpour 等[14]采用預先發現潛在變量的外源性輸入自動回歸模型,以發現多個時間步內無線傳感器數據之間的不變性。Chen 等[15]利用代碼變異程序生成異常數據軌跡,然后利用支持向量機(SVM, support vector machine)分類器和統計模型檢驗來發現安全水處理實驗臺傳感器數據之間的不變性。文獻[16]采用幾種機器學習和數據挖掘技術的組合,系統地從工業控制系統(ICS, industrial control system)的操作日志以及執行器的狀態信息生成不變性。

2.3 基于物理狀態建模的檢測方法

CPS的底層過程一般由其工作原理控制,因此其過程狀態是可預測的。基于物理模型的異常檢測方法根據物理狀態對正常的物理操作進行建模,從而能夠從偏離物理操作模型的異常狀態中檢測到網絡攻擊。 文獻[17]提出了一個CPS攻擊彈性框架。該框架利用已知物理領域的數學描述,以及預測值和歷史數據信息,驗證預測值和測量值之間的相關性。文獻[18]描述了如何使用流體動力學模型來檢測供水網絡的物理故障和網絡攻擊,并通過狀態和測量方程以及未知輸入來建模水系統。該模型能夠反映傳感器、執行器故障或漏水等異常事件對系統的影響,但僅依靠建模物理模型來檢測網絡攻擊是不夠的,如果傳感器的測量值被破壞,則很難檢測到攻擊。為了識別攻擊者利用系統漏洞,注入合法的惡意控制命令來破壞電網的行為,文獻[19]提出結合電網物理基礎設施知識和網絡信息來檢測攻擊。該方法基于協議規范對數據包進行檢測,提取其中的關鍵控制命令,并通過電力系統運行方程進行仿真運行。通過仿真,對執行控制命令所產生的系統狀態進行估計,并與可信度量進行比較,從而識別攻擊。文獻[20]提出了一種針對電力領域的基于模型的異常檢測算法。該算法驗證了接收到的測量數據與控制底層物理系統運行的方程所獲得的預測數據的一致性。文獻[21]描述了一種基于模型的方法來保護智能電網。該方法基于系統狀態動力學方程,評估系統狀態,并與采集的測量值比較,檢測出受損的測量值。文獻[22]在一個水基礎設施實驗臺上測試了基于控制理論建模的故障檢測和基于網絡安全的異常檢測方法。結果表明,這2種方法都能有效地檢測出故障和攻擊,但存在一定的局限性。在物理故障和網絡攻擊同時進行的實驗中,網絡攻擊者可以躲避控制理論建模方法的檢測。因此,將物理動態建模方法中的狀態估計與網絡安全方法中的數據分析相結合,是提高 ICS 網絡安全的關鍵。

2.4 基于統計學習的檢測方法

基于統計的異常檢測方法為數據集創建一個分布模型,并與目標數據對象相匹配。假設正常數據落在高概率區間,而異常數據相對落在低概率區間,根據目標數據集中數據落在模型中的概率來判斷是否異常。Rajasegarar等[23-24]建立了2種異常檢測模型:統計檢測模型和非參數檢測模型。這2種模型可以應用于不同的場景,其中前者適用于數據類型和采樣周期預先確定的應用;而后者在沒有先驗知識的情況下,通過比較當前數據和相鄰數據的行為識別異常。費歡等[25]提出一種多源數據異常檢測方法。該方法主要應用于平臺空間,通過二維坐標的位置來確定2個節點之間的關系。類似地,文獻[26]提出基于密度的模型,通過分析電數據來發現太陽能發電系統的異常行為。 另外,傳感器數據的時間和頻率屬性能夠為建立時頻邏輯提供有價值的信息。時域信號(均值、標準差或方差等)可以描述有關系統行為的某些信息。例如,基于頻率的信號特性(傅里葉變換、小波變換等)可以單獨或結合時域特征來理解系統的行為[27]。工業系統復雜而廣泛,大量的傳感器被用于監控空間和物體,以為異常行為預測提供全面、多維度的運行數據。對于這種情況,基于相關性分析的方法[28]被證明可以更有效地識別異常。該方法能夠反映系統的真實表現,因為這些相關性可以從物理上反映系統的運行機制和條件。表1列出了基于統計學習方法的異常檢測在工業物聯網中的應用。

2.5 基于特征選擇的檢測方法

異常檢測處理的數據是人工從復雜的網絡系統中提取出來的。這些數據一般具有高維、強冗余、低相關性等特點。直接使用原始數據,檢測算法的性能會很差。而特征選擇的作用是從原始數據中選擇有用的特征,選出的特征具有更強的相關性、非冗余特性和更少的噪聲。這些特征可以幫助相關算法更高效、快速地區分、檢測和分類出不同的目標。因此許多研究者將其應用于入侵檢測系統(IDS, intrusion detection system)的設計中,以提高檢測精度,減少檢測時間。 這些研究通常來自2種觀點。一種是有效提取,如主成分分析(PCA, principal component analysis)。針對異常檢測系統耗時長、性能下降等問題,文獻[30]提出了一種混合的 PCA 神經網絡算法。該算法利用PCA變換對特征降維,使訓練時間減少約40%,測試時間減少約70%,同時還提高了檢測精度。文獻[31]基于核主成分分析和極限學習機(ELM, extreme learning machine)設計IDS。其中,核主成分分析用于特征矩陣降維。實驗結果表明,該系統比單純基于ELM或者SVM算法的IDS效率更高,速度更快。類似地,文獻[32]提出一種增量ELM與自適應PCA相結合的方法,該方法可以自適應地選擇相關特征以獲得更高的精度。然而,所有這些方法都沒有減少原始數據的特征量,總的時間消耗仍然非常大。另一種是有效特征選擇,如遺傳算法和最大相關最小冗余算法。文獻[33-34]將特征選擇問題定義為組合優化問題,提出基于局部搜索最優解算法來選擇有效的特征子集,用于檢測“正常”和“DoS”攻擊數據。雖然使用該算法選擇出的有效特征子集在檢測率和準確率方面都優于使用全部特征集,但也帶來了較高的誤報率。文獻[35]提出了一種基于遺傳算法的特征選擇方法來設計IDS以選擇最優特征,采用單點交叉而不是兩點交叉優化該遺傳算法的參數。總體而言,其給出了更好的結果,但在某些情況下分類率會下降。Feng 等[36]提出基于K近鄰和樹種子算法的IDS模型來選擇特征,減少特征冗余,檢測效率有所提升但準確率沒有明顯的改善。

上述方法有一個共同的缺點,即選擇的特征具有一定的隨機性和不確定性,不能應用于下次選擇。為了克服這個問題以及明確不同特征對異常檢測的影響,文獻[37]基于最大相關最小冗余特征選擇算法和 SVM 分類方法進行了一系列實驗。另外,為了進一步選取有效的特征,文獻[38]結合群體智能算法和強化學習,提出了一個名叫 QBSO-FS 的特征選擇模型,實驗結果表明,該模型確實優于傳統特征選擇算法。工業系統中基于特征選擇的異常檢測方法對比如表2所示。

2.6 基于機器學習的檢測方法

在工業系統中,機器學習方法(如貝葉斯網絡、k-means、ELM[39]、SVM、回歸等)已經被成功用于識別和檢測工業物聯網中的異常行為[10]。除此之外,聚類[40-42]、隨機森林[43]、孤立森林[44]和隱馬爾可夫模型[45]等算法也取得了不錯的成績。表3 總結了工業系統中基于機器學習的異常檢測方法。

單分類支持向量機(OCSVM, one class suport vector machine)是一種非常著名的異常檢測算法,被應用于許多應用領域中,它能夠學習可見數據的邊界,并將邊界之外的所有事件或數據點識別為系統異常行為[43,46-47]。為了進一步提升OCSVM 的性能,文獻[48]采用云灰狼優化算法對OCSVM參數進行優化。實驗結果表明,該算法在一定程度上確實提高了模型的檢測精度。與文獻[48]的工作不同,文獻[49]提出 2 種將OCSVM擴展到張量空間的異常檢測算法,即單分類支持塔克機和基于張量塔克分解以及遺傳算法的遺傳單分類支持塔克機。兩者都是針對傳感器大數據的無監督異常檢測,保留了數據結構信息的同時,提高了檢測的準確率和效率。

聚類方法以無監督的方式將特征相似的對象歸為一組,經過這種自動分組后,如果新的數據點不能被放入預定義的集群(組)中,則系統會將該數據點判為異常情況并生成警報[40,42]。梯度提升樹是一種集成學習分類器,文獻[50]用其檢測風力機螺栓斷裂問題的早期異常。該算法首先生成多棵決策樹,然后綜合所有樹的結果從而做出最終決策。梯度提升樹有個令人不容忽視的缺點,即不能處理海量數據。為了解決這個問題,文獻[51]提出結合輕量級梯度提升機和貝葉斯優化來檢測工業網絡流量中的異常。該方法在提高檢測效率和準確率的同時,減少了人工對模型訓練的參與度。

然而,機器學習方法有以下3個局限性:1) 性能很大程度上依賴所采用的特征工程技術的穩健性,限制了穩定性;2) 應用于大規模高維數據時,性能會嚴重惡化;3) 學習能力不夠強,無法應對工業物聯網環境中數據(網絡攻擊)的動態性。

2.6.1 深度學習方法

深度學習(DL, deep learning)是一種具有自動學習能力的智能算法,是機器學習的一個分支。由于 DL 對任何特征工程的獨立性、對動態環境的適應性以及強大的學習能力(特別是從高維數據中),其很快成為解決上述局限性的新的學習范式。各種各樣的 DL 方法已經成功應用于異常和入侵檢測,如卷積神經網絡(CNN, convolutional neural network)[52-53]、循環神經網絡(RNN, recurrent neural network)[54-56]、生成對抗網絡(GAN, generative adversarial network)[57-59]、脈沖神經網絡[60]、粒子深框架[61]和長短期記憶(LSTM, long short-term memory)網絡[56,62-66]。Ferrag等[53]對CNN、RNN和深度神經網絡(DNN, deep neural network)進行了入侵檢測研究,并對它們在不同配置下的性能進行了對比分析。Bhuvaneswari等[67]在基于霧的物聯網中引入向量卷積構建入侵檢測系統。但是,CNN有一個讓人無法忽視的缺點,即無法學習物聯網流量的長時依賴特征,而這正是 LSTM 網絡的優勢。因此, Saharkhizan等[68]提出使用LSTM來學習時序數據之間的依賴關系。該研究使用一個LSTM集合作為檢測器,將該檢驗器的輸出合并成決策樹,最終進行分類。

然而,這些模型的計算成本很高。為了解決這個問題,Liaqat等[69]提出了一個整合CNN和Cuda DNN LSTM的方案,該方案能夠及時有效地檢測出醫療物聯網環境中的復雜惡意僵尸網絡。

文獻[70]提出了一種壓縮卷積變分自動編碼器,用于IIoT中時間序列數據的異常檢測。該方法減少了模型的大小和推理的時間,但是分類性能基本上沒有提升。研究了卷積神經網絡在工業控制系統異常檢測的應用后,文獻[52]提出了一種基于測量預測值與觀測值的統計偏差的異常檢測方法,并指出一維卷積網絡在工業控制系統的異常檢測方面優于循環神經網絡。從網絡包內容分析的角度出發,文獻[66]提出了簽名+LSTM的多層異常檢測方法。其首先開發了一個數據包的基準簽名數據庫,并用布魯姆過濾器存儲該簽名數據庫同時檢測包異常,然后將該簽名數據庫作為數據源輸入LSTM中,來進行時間序列的異常檢測。為了保護集成電路免受網絡攻擊,文獻[71]采用 2 種異常檢測算法來做異常檢測,一個是傳統機器學習算法k-means,另一個是卷積自編碼算法,并取2種算法結果的邏輯與來作為最終的檢測結果。但是該方法在特征選擇時,沒有采用專有的特征選擇算法,僅僅通過人工過濾掉了不產生影響的屬性。另外,為了保護IIoT系統免受勒索軟件攻擊,文獻[72]提出了一種基于堆疊變分自編碼的檢測模型,該模型具有一個全連接神經網絡,能夠學習系統活動的潛在結構,并揭示勒索軟件的行為。為了提高檢測的準確率和降低出錯率,文獻[73]利用深度學習自編碼器結合編碼層的系數懲罰和重構損失來提取高維數據特征,然后使用極限學習機(ELM, extreme learning machine)對提取的特征進行快速有效的分類。文獻[59]提出一種基于雙向生成對抗網絡(BiGAN, bidirectional-GAN)的ICS入侵檢測策略。為了提高BiGAN模型在ICS入侵檢測中的適應性,該研究通過單變量原理和交叉驗證得到了最優模型。針對循環DL模型不能并行化且難以處理長流量序列的問題,文獻[74]設計了基于取證的深度學習模型,該模型使用局部門控制循環單元學習局部特征,并引入多頭注意力機制來捕獲和學習全局表示(即長期依賴)。文獻[75]設計了一個雙向多特征層的長短時記憶網絡。文獻[76]基于深度隨機神經網絡設計了入侵檢測方案,在訓練過程中,其選擇了數據集的41個最顯著的特征。文獻[77]提出了基于孿生卷積神經網絡的少樣本學習模型,以緩解ICPS中的過擬合問題,同時提高了智能異常檢測的準確率。表4展示了工業系統中的基于深度學習的異常檢測研究成果。

2.6.2 聯邦學習方法

聯邦學習是一種機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全等要求下,進行數據使用和機器學習建模。近年來,為了在異常檢測的過程中不泄露用戶的隱私,聯邦學習在工業物聯網中的應用引起了學術界和產業界的極大興趣。為了保護用戶的隱私數據,Liu 等[78]將聯邦學習與深度異常檢測相結合,建立具有LSTM的卷積神經網絡模型,同時在聯邦學習的過程中利用基于Top-k 選擇的梯度壓縮機制降低通信代價以及提高通信質量。2021 年,Liu 等[79]在文獻[78]的基礎上引入注意力機制,進一步提高了異常檢測的準確率。Li 等[80]基于卷積神經網絡和門控遞歸單元設計了聯邦深度學習方案。該方案允許多個工業CPS以隱私保護的方式共同構建一個綜合性的入侵檢測模型,并利用Paillier加密機制保護訓練過程中模型參數的安全性和隱私性。值得一提的是,該模型僅適用于同域工業 CPS。文獻[81]提出了一種聯邦深度強化學習異常檢測算法,即利用聯邦學習技術,建立一個通用的異常檢測模型,然后采用深度強化學習算法訓練每個局部模型。由于聯邦學習過程中不需要局部數據集,減少了隱私泄露的機會。此外,通過在異常檢測設計中引入隱私泄露程度和動作關系,提高了檢測精度。表5總結了聯邦學習在工業異常檢測中的研究成果。

![](//cdn.zhuanzhi.ai/vfiles/dc9936dca231d5dd5c00c2bea62099f4

2.7 基于邊緣/霧計算的檢測方法

深度神經網絡的進展極大地支持異常物聯網數據的實時檢測。然而,由于計算能力和能源供應有限,物聯網設備幾乎負擔不起復雜的深度神經網絡模型。雖然可以將異常檢測的任務轉移到云上,但當數千個物聯網設備同時將數據傳到云上時,會導致時延和網絡擁塞。 一種新興架構——霧(邊緣)計算的出現,解決了上述問題。該架構旨在通過將計算、通信、存儲和分析等資源密集型功能轉移到終端用戶來減輕云和核心網絡的網絡負擔。霧計算系統能夠處理對時間要求嚴格的物聯網的能源效率和時延敏感型應用,如工廠的火災報警系統、地下采礦環境等,都需要快速檢測出異常。因此,涌現出許多基于霧(邊緣)計算的異常檢測框架[82-84]。文獻[85]針對數據異常檢測的準確性和時效性,提出了一種基于層次邊緣計算(HEC, hierarchical edge computing)模型的多源多維數據異常檢測方案。該研究首先提出了 HEC 模型,來實現傳感器端和基站端負載均衡和低時延數據處理;然后設計了一種基于模糊理論的單源數據異常檢測算法,該算法能夠綜合分析多個連續時刻的異常檢測結果。針對工業物聯網終端設備中數據量大的問題,文獻[86]先采用邊緣計算對傳感器數據進行壓縮優化(即預處理),進而利用k-means 聚類算法對處理后數據的離群值進行判斷。然而,壓縮技術會造成數據信息的損失,可能影響檢測精度。因此,需要權衡好壓縮率與檢測精度的關系。

與文獻[84-85]類似,文獻[87]同樣基于 HEC提出了自適應異常檢測方法。首先,構建了 3 個復雜度不斷增加的 DNN 異常檢測模型,并將其與 HEC 的三層(物聯網設備、邊緣服務器、云)自下而上關聯。然后,根據輸入數據的上下文信息自適應地選擇合適的模型進行異常檢測。表6展示了工業物聯網中基于云計算、邊緣計算和霧計算的異常檢測方法。從表6中可以看出,雖然文獻[87]的準確率和 F1 得分略低于文獻[84],但平均時延大幅度降低了。由此可知其必然是犧牲了部分的精度來獲得較小的檢測時延。基于自適應圖更新模型,文獻[88]引入一種新的邊緣計算環境中的異常檢測方法。在云中心,利用深度學習模型對未知模式進行分類,根據分類結果定期更新特征圖,不斷地將分類結果傳輸到每個邊緣節點,利用緩存暫時保存新出現的異常或正常模式,直到邊緣節點接收到新的更新的特征圖。

2.8 基于圖的檢測方法

基于圖的異常檢測在醫療保健、網絡、金融和保險等各個領域都有應用。由于來自網絡、電子郵件、電話等的數據相互依賴,使用圖表檢測異常變得越來越流行。文獻[89]提出了一種基于知識圖譜的工業物聯網移動設備異常檢測方法,并利用可視化技術對檢測結果進行演示。具體地,作者使用優化后的基于頻繁項集的數據挖掘算法對數據進行分析,使提出的方法能夠準確地檢測出不同類型的并發攻擊。另外,作者還設計了可以將結果多維度可視化的異常告警模塊,幫助非專業用戶在工業領域充分了解網絡安全情況。文獻[90-91]引入了一種新的基于圖的異常檢測方法,并將背景知識添加到傳統圖挖掘方法的評價指標中。背景知識以規則覆蓋的形式添加,報告子結構實例覆蓋了最終圖的百分比。由于人們認為異常不會頻繁出現,因此作者假定,通過為規則覆蓋分配負權值,可以發現異常的子結構。該方法在不損失精度的同時,大大降低了檢測時間。表7介紹了工業物聯網中基于圖的異常檢測方法的研究成果。

2.9 基于指紋的檢測方法

指紋識別技術被廣泛應用在人們生活的方方面面,如企業考勤、智能小區等。另一方面,越來越多的無線智能設備被應用到ICS網絡中,由于設備的計算和存儲能力較弱,使用常規的加密方法和安全補丁來提高ICS網絡中遺留設備的安全水平幾乎是不可能的。因此,指紋識別技術的高度成功吸引了許多安全領域研究者的目光。已經有許多人將指紋技術的思想運用到檢測ICS網絡的異常工作中。文獻[92]提出 2 種設備類型指紋方法,來增強現有ICS環境下的入侵檢測方法。方法1利用ICS網絡的靜態和低時延等特征建立設備指紋,方法 2 采用物理操作時間為每個設備類型開發一個唯一的簽名。文獻[93]提出了一種混合增強設備指紋的方法,利用程序流程的簡單性和硬件配置的穩定性,通過過濾掉異常數據包,來實現ICS網絡中的異常檢測。為了消除對信號周期性的依賴,文獻[94]設計了一種不考慮周期性的異構工業物聯網設備指紋識別算法。該算法從信號傳輸的時間序列中提取模式,然后通過聚類得到的模式來學習設備的指紋。文獻[95]提出一種稱為過程傾斜的技術,該技術利用ICS過程中的小偏差(稱為工藝(process)指紋)進行異常檢測。表8展示了工業物聯網中基于指紋的異常檢測的研究成果。

2.10 基于生物免疫的檢測方法

基于異常的入侵檢測技術通常假陽性很高,這使一些學者將目光轉向其他領域以尋求突破。人工免疫系統(AIS, artificial immune system)是一類生物啟發計算方法,出現在20世紀90年代,連接了不同的領域,如免疫學、計算機科學和工程。基于AIS的IDS通常被用作異常檢測系統。文獻[96]在生物免疫系統的啟發下,提出了一種基于多智能體系統的入侵檢測新模型,該模型集成在網絡上的分布式代理行為中,以確保良好的入侵檢測性能。文獻[97]基于確定性樹突細胞算法(DDCA, deterministic dendritic cell algorithm)設計了用于工業場景的入侵檢測算法,該算法利用上下文與抗原之間的相關性作為異常檢測的基礎。DDCA的分類性能很大程度上依賴于特征選擇過程,高度相關的特征導致近似完美的分類,反之,相關性較差的特征在DDCA分類過程中會帶來非常負面的影響。為了能夠實時檢測異常,文獻[98]基于分層時間記憶網絡,構建了在線序列記憶算法。該分層時間記憶網絡不斷學習和建模輸入數據的時空特性,通過預測輸入和實際輸入之間的差異來更新其突觸連接。學習發生在每個時間步,但由于表示非常稀疏,因此只有小部分突觸被更新,大大節省了訓練時間。上文詳細介紹了工業物聯網領域的9種異常檢測方法。為了更加直觀地比較各種的算法,本文進而介紹了每種檢測方法的優缺點以及現有研究成果,如表9所示。

付費5元查看完整內容

人大學等《聯邦學習隱私保護》隱私保護技術

聯邦學習是順應大數據時代和人工智能技術發展而興起的一種協調多個參與方共同訓練模型的機制.它允許各個參與方將數據保留在本地,在打破數據孤島的同時保證參與方對數據的控制權.然而聯邦學習引入了大量參數交換過程,不僅和集中式訓練一樣受到模型使用者的威脅,還可能受到來自不可信的參與設備的攻擊,因此亟需更強的隱私手段保護各方持有的數據. 本文分析并展望了聯邦學習中的隱私保護技術的研究進展和趨勢.簡要介紹聯邦學習的架構和類型,分析聯邦學習過程中面臨的隱私風險,總結重建、推斷兩種攻擊策略,然后依據聯邦學習中的隱私保護機制歸納隱私保護技術,并深入調研應用上述技術的隱私保護算法,從中心、本地、中心與本地結合這3個層面總結現有的保護策略. 最后討論聯邦學習隱私保護面臨的挑戰并展望未來的發展方向.

//jos.org.cn/html/2022/3/6446.htm

1. 引言

近年來, 大數據驅動的人工智能迸發出巨大潛力, 在金融、醫療、城市規劃、自動駕駛等多個領域完成了大規模復雜任務學習. 機器學習作為人工智能的核心技術, 其性能和隱私性也廣受關注. 傳統的機器學習需要由服務商收集用戶的數據后集中訓練, 但是用戶的數據與用戶個體緊密相關, 可能直接包含敏感信息, 如個人年齡、種族、患病信息等; 也可能間接攜帶隱含的敏感信息, 如個人網頁瀏覽記錄、內容偏好所隱含的用戶政治傾向. 如果這些敏感信息在收集過程中被服務商泄露或者利用, 將直接威脅用戶的人身安全、個人名譽和財產安全. 即便服務商沒有直接公開用戶數據, 集中訓練后發布的模型也可能因為受到隱私攻擊而泄露參與訓練的數據. 隨著隱私問題受到的關注程度日益提高, 用戶分享數據的意愿越來越低. 與之矛盾的是, 人工智能技術卻必須依靠大量數據收集和融合, 如果不能獲取完整豐富的信息來訓練模型并發展技術, 人工智能應用的發展將受到嚴重限制.

在數據孤島現象與數據融合需求的矛盾逐漸凸顯的背景下, 聯邦學習(federated learning, FL)應運而生. 2017年, Google公司首次提出了聯邦學習的概念[1], 這是一種由多個數據持有方(如手機、物聯網設備, 或者金融、醫療機構等)協同訓練模型而不分享數據, 僅在中間階段交換訓練參數的學習機制. 理想狀況下, 聯邦學習得到的共享模型與數據集中在中心服務器上訓練所得模型相比, 效果相近或更好[2]. 由此, 企業能夠通過合法且高效的方式融合數據提取信息, 個人或其他持有數據的機構依然能夠在享受企業提供的人工智能服務的同時, 保有數據的控制權.

盡管聯邦學習避免了將數據直接暴露給第三方, 對于數據隱私有天然的保護作用, 但是其中依然存在大量隱私泄露的風險.

  • 首先, 聯邦學習需要交換中間參數協同訓練, 可能泄露隱私. 與集中式學習不同, 聯邦學習訓練過程需要交換大量中間參數, 其所攜帶原始數據會暴露在所有參與訓練的角色面前, 帶來泄露的風險. 例如, 已有研究表明, 可以通過梯度還原部分原始數據[3], 或根據中間參數推斷掌握的記錄內容是否來自某個特定參與者[4].

  • 其次, 不可靠的參與方加劇了隱私泄露的風險. 聯邦學習中, 各個參與方由于地理、設備等條件不同, 通信內容的有效性和身份的真實性都難以確認, 因此一旦出現不可靠的參與方攻擊, 極易泄露隱私.例如, 半誠實的參與方能夠根據合法獲取的中間參數推斷出其他參與方的標簽或數據; 而惡意的參與方更進一步, 能夠通過上傳精心設計的有害信息誘導其他參與方暴露更多自身數據, 或者不遵守隱私協議進而影響全局的隱私性.

  • 此外, 訓練完成的模型也面臨著隱私泄露的風險. 即便聯邦學習的過程中參數沒有泄露, 直接發布訓練所得的模型依然存在極大風險. 這種風險來自機器學習自身的脆弱性. 在訓練中, 模型提高準確性依賴于對數據樣本的規律挖掘. 但是研究者[4]注意到, 追求模型在訓練樣本上的準確度, 可能導致模型的參數乃至結構“記住”訓練樣本的細節, 使得模型攜帶訓練集的敏感信息. 根據這一特性, 攻擊者可以通過反復查詢模型的預測接口來推測某條記錄是否存在于訓練集、推測模型的具體參數, 而根據模型發布的參數能夠進一步推測訓練集成員或訓練集具體樣本.

由此可見, 不加保護的進行聯邦學習, 訓練中涉及的眾多參與者的數據都將面臨泄露的風險. 而數據一旦泄露, 不僅隱私泄露者面臨嚴重損失, 參與者間彼此信任合作的聯合訓練模式也將難以為繼.

解決聯邦學習信息泄露問題迫在眉睫. 然而, 聯邦學習中數據分布復雜、應用場景豐富且需要多次數據交換, 這些因素為隱私保護帶來一系列挑戰.

  • 第一, 聯邦學習的訓練場景多樣且需求復雜, 現有的隱私保護方法無法通用. 已有的集中式機器學習隱私保護研究以中心服務器誠實為前提, 僅考慮模型發布后可能受到的攻擊, 沒有針對內部攻擊者的解決方案. 而且現有算法大多針對單一的集中式訓練場景, 沒有考慮多個參與方、多種架構、多種數據分布方式下的數據交換和模型協同訓練的情況. 因此, 設計適應不同場景和不同需求的隱私保護算法, 同時抵御外部和內部攻擊, 是聯邦學習隱私保護的重要挑戰.

  • ** 第二, 聯邦學習中參與方的可信程度低, 潛在的攻擊角度多, 對隱私保護算法的魯棒性要求更高**. 這里, 魯棒性指模型容忍惡意攻擊穩定運行的能力. 聯邦學習中, 參與者一旦發起攻擊, 能夠觀察到更多的中間參數, 甚至能夠篡改參數影響訓練過程, 隱私防御的難度遠高于外部出現的攻擊. 而參與者之間如果共謀, 可能獲取更多敏感信息. 因此, 提高隱私保護算法的魯棒性, 減少隱私算法中對參與者的可信程度的假設, 是聯邦學習隱私保護面臨的難題.

  • ** 第三, 聯邦學習本身通信不穩定, 模型計算代價高, 因而對隱私保護機制的通信量和復雜度要求嚴格**. 現實場景下的聯邦學習所面臨的復雜松散的網絡結構導致終端通信不穩定, 在此基礎上的隱私保護算法難以簡化. 而復雜的隱私保護算法將帶來更高的計算量、更大通信代價, 進一步制約聯邦學習的訓練效率. 研究高效率、輕量級的聯邦學習隱私保護算法, 降低額外開銷, 是聯邦學習隱私保護必須面對的挑戰.

  • 第四, 聯邦學習中參數維度高、數據分布不均, 難以在提供隱私保護的同時保持模型的可用性. 聯邦學習中間參數的維度與模型結構和輸入數據維度相關, 參數維度往往極高, 造成了極大的隱私開銷.此外, 聯邦學習的用戶數量不定且數據集大小不一, 如何在平衡不同數據集的同時保護隱私, 也是一個巨大挑戰.

綜上所述, 更加精細的隱私策略設計、更加精確的隱私預算分配、更加適應數據交換的隱私協議構建, 是聯邦學習隱私保護進一步發展必須面對的議題. 而明確現有的隱私問題和保護手段, 是技術發展的基礎. 聯邦學習的基礎——機器學習的隱私攻擊和防御已經被充分調研[5]. 機器學習面臨的外部攻擊同樣威脅著聯邦學習的發布模型, 但是機器學習的隱私保護手段卻遠遠不足以為聯邦學習提供保護. 這是由于聯邦學習同時面臨著傳統的外部攻擊和其獨有的內部攻擊, 因此聯邦學習的隱私保護方案必須同時為內部訓練過程和外部模型發布提供雙重保護.

另外, 已有學者調研了聯邦學習隱私保護的現狀, 但由于思路與本文不同, 側重的方法和文獻也不相同. Lyv等人[6]和Wang等人[7]對聯邦學習可能受到的攻擊作了詳細的闡述, 但是在安全攻擊和隱私攻擊的區分上沒有進一步調研. 本文明確兩種攻擊的概念范圍: 以竊取數據、破壞模型隱私性和機密性為目的的攻擊為隱私攻擊, 以干擾模型訓練結果、破壞模型可用性和完整性的攻擊為安全攻擊. 此外, 本文還依據現有的隱私攻擊技術的原理歸納了主要策略分類. 現有文獻[7?10]均從技術或訓練階段的角度分析了目前的聯邦學習隱私保護算法, 而本文根據聯邦學習自身特性分析其特有的隱私泄露內容和泄露位置, 從隱私保護的對象的角度出發建立分類框架, 并歸納每個類別中主要的保護機制, 進而分析采用不同技術的算法的共性并探究機制本身的優勢和不足. 進一步地, 本文建立了攻擊策略與保護機制之間的聯系, 并在此基礎上嘗試為聯邦學習隱私保護的發展提出建議.

本文第1節介紹聯邦學習的架構和類型, 以及相應場景下的訓練方式. 第2節分析聯邦學習面對的隱私泄露風險來源, 總結具體的攻擊策略. 第3節介紹多種隱私保護技術原理, 并將其歸納為信息模糊、過程加密兩種隱私保護機制. 第4節調研隱私保護技術在聯邦學習中的應用, 涵蓋本地保護、中心保護、中心與本地結合這3種保護策略, 并對每種策略展開更加詳細的闡述. 第5節討論現有不足并展望未來方向.

2. 聯邦學習**

**聯邦學習的一般定義為[11]: N個參與方{F1, …, FN}各自持有訓練集{D1, …, DN}. 聯邦學習中, 各個參與方在不將本地數據Di暴露給第三方的情況下, 協作訓練模型MFED. 為了給聯邦學習模型一個衡量標準, 設傳統的集中式機器學習將各個數據集收集合并為D=D1∪…∪DN以訓練模型MSUM. 令VFED為聯邦學習模型MFED精度(performance), VSUM為傳統機器學習模型MSUM精度. 存在非負實數δ, 使得: |VFED?VSUM|<δ, 則稱此聯邦學習模型具有δ的精度損失. 可見, 使各個數據集留在本地協同訓練所得模型的精度, 理想狀況下應當接近于將數據集集中后訓練所得模型的精度. 區別于傳統的分布式機器學習, 聯邦學習具有如下特點. (1) 各個參與方的訓練集非獨立同分布. 各個參與方僅掌握局部信息, 其分布與全局不一定相同; 各個參與方僅掌握整個數據集的部分屬性及標簽信息, 且各方之間屬性和標簽可能不完全重疊. (2) 各個參與方的訓練集大小可能不平衡. 某些參與方可能由于其規模、影響力等因素掌握更多數據. (3) 參與方數量不定. 參與者數量可能很少, 例如只有幾個企業交換數據集; 也可能極多, 如訓練涉及數以萬計的App使用者. (4) 通信受限. 與分布式相比, 聯邦學習的架構更為松散, 參與的設備可能存在頻繁掉線、通信緩慢等情況, 因此聯邦學習的通信代價同樣受到極大關注. 根據這些特點, 學者為聯邦學習設計了不同的架構方式和學習類型.

聯邦學習架構

常見的聯邦學習架構為客戶-服務器. 典型的客戶-服務器架構由一個中心服務器和多個持有數據的客戶端組成. 被廣泛采用的聯邦平均FedAvg[1]即是基于客戶-服務器架構設計的算法. 在訓練中, 中心服務器將隨機初始化的模型結構和參數分發給客戶端, 客戶端根據本地數據訓練并更新模型后將參數上傳. 中心服務器收到各方參數后聚合計算, 更新模型參數再次下發. 該過程循環, 直至模型收斂或訓練終止. 除了常見的模型參數交換以外, 也存在梯度交換、數據特征的嵌入式表示交換等方式. 在此架構下, 原始數據不需要傳輸, 但是本地中間參數暴露給了中心服務器, 全局中間參數則會被每個客戶端獲取, 數據交換過程中, 巨大的通信量也會影響訓練效率. 而當參與訓練的客戶端數量過多時, 中心服務器的聚合計算甚至可能成為全局訓練效率的瓶頸.

當沒有中心服務器時, 聯邦學習采用另一種常見架構: 端對端的網絡架構[12]. 這種架構僅由持有數據的終端組成. 參與訓練的終端Fi直接將訓練參數發送給下一個(或多個)終端Fi+1, 下一個(或多個)終端Fi+1在收集到的一個(或多個)參數基礎上繼續訓練, 直到模型收斂或者訓練終止. 端對端網絡架構不依賴中心服務器這樣的第三方機構, 本地中間參數直接在參與方之間傳送. 因此需要考慮參與方如何協商使用相同的模型、算法、初始化參數等基本信息, 協調各方參與訓練的順序.

為了下文中概念統一、表述清晰, 本文將客戶-服務器中的服務器稱為中心服務器; 將客戶-服務器中的客戶端和端對端架構中的參與訓練終端統稱為終端; 所有參與訓練的服務器、終端統稱為參與方. 訓練過程中發送的梯度、模型參數、嵌入式表示等, 統稱為中間參數. 上述兩種典型架構如圖 1所示.

聯邦學習類型根據參與方的樣本分布情況, 聯邦學習按照數據的劃分情況可以分為3種類型: 橫向聯邦學習、縱向聯邦學習、遷移聯邦學習. 不同的數據的劃分方式需要的訓練方式和中間參數不同, 也為隱私泄露的風險和保護方式帶來影響.

橫向聯邦學習中, 各個參與方持有的數據特征相同, 但掌握的樣本不同. 例如, 幾個不同城市的醫院可能掌握著不同病人的情況, 但是由于具備相似的醫療手段, 醫院獲取屬性的屬性相同. 橫向聯邦學習中典型的方式之一是第1.1節所描述的聯邦平均算法FedAvg, 包括梯度平均和模型平均兩種類型[13], 多由客戶-服務器架構實現. 梯度平均是指終端交換和聚合模型梯度, 而模型平均指聚合模型參數. 在端對端架構中, 各個參與方訓練本地模型, 通過循環發送給下一個(或多個)訓練方或者隨機傳輸某個(或多個)終端[14]實現模型參數的共享.

而縱向聯邦學習則針對相反的情形, 即各個參與方持有的數據特征不同, 但掌握的樣本相同. 例如, 同一個城市中的醫院和銀行都接待過同一個市民, 保留著該市民的就診記錄或資金狀況. 顯然, 醫院和銀行獲取的數據屬性完全不同, 但是所持有的樣本ID是重疊的. 縱向聯邦學習首先需要參與方對齊相同ID的樣本, 然后, 各個參與方在對齊的樣本上分別訓練本地模型并分享參數. 不同架構同樣都適用于縱向聯邦學習, 但由于數據的縱向分布, 參與方之間的依賴程度更高, 模型需要更加精細地設計. 縱向聯邦學習已應用于線性回歸[11]、提升樹[15]、梯度下降[16]等多種模型上. 以縱向聯邦學習線性回歸算法[11]為例, 該算法在樣本對齊后, 將損失函數的梯度拆分, 使得兩個參與方能夠使用各自的本地數據分別計算梯度的一部分, 而需要共同計算的部分則通過雙方交換參數協同完成. 縱向分布的數據之間緊密的相關性, 為縱向學習的效率和容錯性帶來挑戰.

上述兩種類型都是比較理想的情況, 現實生活中, 大部分參與方所持有的數據, 在特征和樣本ID上的重疊都比較少且數據集分布不平衡. 針對這樣的情形, 遷移學習被應用到聯邦學習中來. 遷移學習作為一種有效的學習思想, 能夠將相關領域中的知識遷移到目標領域中, 使得各個參與方共同學習得到遷移知識. 以兩方遷移學習為例[17], 假設一方A掌握樣本的部分特征和全部標簽, 另一方B掌握部分特征, 雙方特征和樣本ID之間都有少量重疊. 聯邦遷移學習首先對齊樣本并共同訓練模型, 然后預測B方樣本的標簽. 為了達到預期效果, 訓練的目標函數包含兩個部分: 一部分是根據已有的標簽預測B方樣本, 使預測誤差最小化; 另一部分是A與B對齊的樣本之間的嵌入式表示的區別最小化. 各方根據目標函數在本地訓練, 并交換中間參數更新模型, 直至模型收斂.

目前, 縱向和遷移聯邦學習的隱私保護算法研究還不成熟, 且保護方式與橫向聯邦學習場景類似. 為了表述簡潔, 下文中調研的隱私保護算法若無特別說明, 即為橫向聯邦學習場景.

3. 聯邦學習中的隱私泄露風險

盡管聯邦學習不直接交換數據, 比傳統的集中式機器學習訓練有了更高的隱私保障, 但聯邦學習本身并沒有提供全面充分的隱私保護, 依然面臨著信息泄露的威脅. 模型面臨的隱私泄露風險來自模型訓練自身的脆弱性和攻擊者的強大能力: 模型訓練過程中, 獨特架構和訓練階段決定了隱私泄露的位置和時機; 攻擊者的角色和能力, 決定了隱私泄露的內容和程度. 而攻擊者依據自身特性所采取的攻擊策略, 則進一步影響攻擊者的能力, 從而影響模型隱私泄露的風險. 理清隱私泄露的風險, 才能為聯邦學習隱私防御找到總體方向.

4 隱私保護機制和技術

**隱私保護技術是防御敏感信息泄露的技術, 能為信息的隱私提供嚴格的可量化的保護. 隱私保護的技術多種多樣, 但總體分為兩大方向: 信息模糊機制和過程加密機制. 信息模糊機制面向數據內容本身, 通過處理數據或參數使數據內容不易被關聯到用戶身份上; 過程加密機制面向數據傳輸的過程, 通過改變數據交換的形式使得傳輸過程中的數據不被識別. 兩類機制使用的場景不同, 但都能在一定程度上抵御上述隱私攻擊.

5 聯邦學習中的隱私保護算法

基于上述隱私保護機制和技術, 學者們為聯邦學習設計了多種保護措施. 盡管這些保護措施設置在訓練的不同階段, 但隱私保護的對象是明確且清晰的: 中心或本地. 中心是指中心服務器所掌握的中間參數和訓練完成的模型; 本地則包括終端所掌握的數據和本地模型參數. 二者是聯邦學習主要的隱私泄露位置. 因此, 本節以隱私保護的對象為線索, 將聯邦學習隱私保護算法分為3種主要類型: 中心保護、本地保護、中心與本地同時保護策略. 中心保護策略以保護中心服務器所掌握的參數為目標, 考慮模型的使用者帶來的威脅; 本地保護策略以保護本地所掌握的參數為目標, 考慮中心服務器帶來的威脅; 中心和本地同時保護策略以保護所有參數為目標, 同時考慮模型使用者和中心服務器所帶來的威脅. 3種保護策略的區別如圖 4所示. 需要說明的是, 本地保護策略提供的保護有時也能起到防御模型使用者(外部攻擊者)的效果, 但防御使用者并非本地保護策略的核心任務, 所以該防御范圍在圖中用虛線表示.

6 未來展望

不同于傳統的集中式機器學習, 聯邦學習由于自身架構和訓練方式的獨特性, 面臨著更多樣的隱私攻擊手段和更迫切隱私保護需求. 現有的聯邦學習隱私保護算法在技術、平衡性、隱私保護成本和實際應用中還存在諸多不足之處. 明確這些問題和挑戰, 才能展望聯邦學習隱私保護未來發展的機遇和方向:

  • 構建隱私量化體系, 設計有針對性的隱私定義和保護技術
  • 研究隱私性、魯棒性、公平性合一的隱私保護機制
  • 實現低成本、輕量級的聯邦學習隱私保護策略
  • 探索面向復雜場景的異質聯邦學習隱私保護方案
  • 解決高維中間參數的隱私隱患
付費5元查看完整內容

隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。

//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a

引言

隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。

在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。

根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。

具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。

FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。

在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。

在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。

這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。

目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。

付費5元查看完整內容

深度學習是當前機器學習和人工智能興起的核心。隨著深度學習在自動駕駛、門禁安檢、人臉支付等嚴苛的安全領域中廣泛應用,深度學習模型的安全問題逐漸成為新的研究熱點。深度模型的攻擊根據攻擊階段可分為中毒攻擊和對抗攻擊,其區別在于前者的攻擊發生在訓練階段,后者的攻擊發生在測試階段。本文首次綜述了深度學習中的中毒攻擊方法,回顧深度學習中的中毒攻擊,分析了此類攻擊存在的可能性,并研究了現有的針對這些攻擊的防御措施。最后,對未來中毒攻擊的研究發展方向進行了探討。

//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200403&flag=1

付費5元查看完整內容

摘要: 隨著機器學習技術在生產、生活等各個領域的廣泛應用,機器學習算法本身的安全問題也引起越來越多的 關注。基于對抗樣本的攻擊方法是機器學習算法普遍面臨的安全挑戰之一。以機器學習的安全性問題為出發點,介 紹了當前機器學習面臨的隱私攻擊、完整性攻擊等安全問題,歸納了目前常見對抗樣本生成方法的發展過程及各自 的特點,總結了目前已有的針對對抗樣本攻擊的防御技術,最后對提高機器學習算法魯棒性的方法做了進一步的展 望。

作者介紹:

朱清新:1982年1月四川師范大學數學系本科畢業獲學士學位。1984年7月北京理工大學應用數學專業畢業獲碩士學位。1984年8月起任西南技術物理研究所工程師、副研究員,作為技術骨干參加了國防科工委7712工程項目并獲科研成果三等獎。1993年5月渥太華大學應用數學和電子工程系控制論專業畢業獲博士學位。1993年5月至1996年3月在渥太華大學電子工程系和加拿大卡爾頓大學計算機學院從事博士后研究并獲計算機第二碩士學位。1996年3月至1997年11月任加拿大Nortel公司和OmniMark高級研究員。1998年3月應聘回國到電子科技大學計算機學院工作,1999年6月聘為教授、2001年6月聘為博士生導師。2002年9月至2003年3月赴加拿大蒙特利爾Concordia大學計算機系任高級訪問學者。現任電子科技大學計算機學院學術委員會主任,計算運籌學研究室主任。主要研究領域包括:生物信息學、信息檢索、計算運籌學與最優化。

張小松: 長江學者特聘教授,國家重點研發計劃網絡空間安全專項首席科學家, 2017年網絡安全優秀人才獎獲得者。長期致力于軟件安全、網絡安全和數據安全領域的研究,成果在應用中取得重要的社會和經濟效益,近年來多次獲國家和省部級成果獎勵,發表包括CCF A類期刊IT、TSE、TIFS在內的學術論文六十余篇,出版了《網絡安全協議》、《惡意軟件分析與檢測》、《軟件測試》等專著、教材和譯著5部,獲授權國際、國內發明專利22項,公開50多項,獲軟件著作權登記10項。

付費5元查看完整內容
北京阿比特科技有限公司