延遲問題是驅使許多公司從云轉移到邊緣的原因。“邊緣智能”(edge AI)或“邊緣機器學習”指的是,數據通過存儲在硬件設備上的算法在本地進行處理,而不是通過位于云中的算法進行處理。這不僅使實時操作成為可能,而且還有助于顯著降低與處理云數據相關的功耗和安全漏洞。
自動化機器學習:
? 傳統機器學習嚴重依賴專家經驗進行數據預處理,提取有效特征,選擇合適算法和超參數 來訓練模型。
? 深度學習也要依賴相關專家經驗設計出符合特定應用場景如不同硬件設備和不同性能約束 的神經網絡結構。
? 為了減少對專家經驗的依賴以及避免人工經驗帶來的偏差,自動化機器學習應運而生。
人工智能作為數據智能的模塊之一,在AlphGo 2017年成為新聞媒體焦點之后較大家熟知,此后更多在自然語言處理層面的人工智能蓬勃發展,但是數據智能在更高維度串聯行業和企業業務,將人工智能的算法優勢與業務結合,逐步解構和重構行業商業邏輯。
隨著大數據技術的持續發展,原來割裂的各個領域技術呈現出加速融合的趨勢,比如離線處理與實時處理的融合,事務數據存儲與數據分析的融合,基于云平臺和數據中臺打通數據孤島,這些技術的融合發展,對于突破對海量數據處理的性能瓶頸意義重大。此外,AI在數據價值挖掘方面的作用得到更多重視,AI平臺和大數據平臺的融合程度進一步增強。
政策是引導醫療健康行業前行的主要因素,近兩年我國在大數據、智慧醫院、AI醫療等層面共發布了50+的政策及細則,大力推動了數據智能在公衛及院端的應用。此外,技術是數據智能落地醫療行業的基石。然而,相比其他領域,醫療與新技術的融合相對緩慢,如云計算在三級醫院的滲透率僅為16%,在三級以下醫院僅為個位數。
近年來,數據的融合應用驅動各行各業走向數字化、網絡化和智能化,數據安全、個人隱私保護等問題也愈發受到社會廣泛關注。如何在合規的前提下做好數據融合,成為一個亟需解決的難題。
近期,騰訊公司發布《騰訊隱私計算白皮書2021》(以下簡稱《白皮書》),深入探討隱私計算作為在數據融合應用過程中保障數據安全合規的關鍵技術路徑、商業模式、應用場景、技術變革、產業趨勢、法律問題及合規痛點,并從技術、應用、法律等視角對隱私計算的發展進行了展望。
1、隱私計算的定義
隱私計算(Privacy Computing)是指一種由兩個或多個參與方聯合計算的技術和系統,參與方在不泄露各自數據的前提下通過協作對他們的數據進行聯合機器學習和聯合分析。隱私計算的參與方既可以是同一機構的不同部門,也可以是不同的機構。在隱私計算框架下,參與方的數據明文不出本地,在保護數據安全的同時實現多源數據跨域合作,以破解數據保護與融合應用難題。
2、隱私計算三大流派
聯邦學習
聯邦學習是一種分布式機器學習技術和系統,包括兩個或多個參與方,這些參與方通過安全的算法協議進行聯合機器學習,可以在各方數據不出本地的情況下聯合多方數據源建模和提供模型推理與預測服務。在聯邦學習框架下,各參與方只交換密文形式的中間計算結果或轉化結果,不交換數據,保證各方數據不露出。聯邦學習可以通過同態加密、差分隱私、秘密分享等提高數據協作過程中的安全性。
安全多方計算
安全多方計算是一種在參與方不共享各自數據且沒有可信第三方的情況下安全地計算約定函數的技術和系統。通過安全的算法和協議,參與方將明文形式的數據加密后或轉化后再提供給其他方,任一參與方都無法接觸到其他方的明文形式的數據,從而保證各方數據的安全。安全多方計算的基本安全算子包括同態加密、秘密分享、混淆電路、不經意傳輸、零知識證明、同態承諾等。
可信計算
可信計算指借助硬件CPU芯片實現可信執行環境(TEE),從而構建一個受保護的“飛地”(Enclave),對于應用程序來說,它的Enclave 是一個安全的內容容器,用于存放應用程序的敏感數據與代碼,并保證它們的機密性與完整性。
3、隱私計算的應用場景
《白皮書》中提到,數據協作需求正推動隱私計算應用從金融、醫療等向其他行業延伸。以金融反欺詐模型為例,隱私計算能夠助力銀行聯合建模,提升反欺詐模型水平。傳統上,銀行通常基于歷史還款信息、征信數據和第三方的通用征信分來做貸前反欺詐,該方式存在數據維度缺乏、數據量較少等情況,需融合多方數據聯合建模才能構建更加精準的反欺詐模型,但這一過程中隱私保護和數據安全是不可忽視的重要環節,《白皮書》指出,聯邦學習可解決合作中數據隱私與特征變量融合矛盾,在雙方或多方合作中線上保障特征變量交換時的信息安全。
4、隱私計算助力數據安全的合規價值
《白皮書》指出,隱私計算助力數據安全合規的價值凸顯,有望成為數據協作過程中數據合規和隱私保護的技術工具。
一是隱私計算在無需轉移數據物理存儲服務器的情況下實現數據建模分析,從而減少數據協作過程中風險。對于個人信息保護來說,可以有效降低個人信息在應用過程中泄露的風險;對于企業的跨界數據合作而言,由于隱私計算能夠實現數據可用不可見,幫助不同企業和機構與產業鏈上下游的主體進行聯合分析,打造數據融合應用,同時在數據協作的過程中履行數據安全和合規義務,實現數據價值最大化。
二是隱私計算從技術層面滿足數據最小化、完整性和機密性原則要求。傳統的數據融合方式需要先將盡可能多的數據集中至一個數據中心,然后再訓練模型。因此很可能存在數據過度采集的問題,同時面臨數據傳輸、存儲的安全風險。而采用隱私計算技術,尤其是隱私計算和區塊鏈等技術結合形成的整體解決方案,對數據真實性、準確性進行記錄,如數據被篡改、可進行精準定位和追溯,防止數據被篡改,也能夠有效防止數據被無權限人員隨意訪問、修改、導出等,保障數據的完整性和機密性,與當前數據保護相關立法目的和原則高度契合。
三是隱私計算可證明、記載企業是否履行數據安全保障義務。
5、隱私計算的合規痛點
盡管隱私計算實現的數據保護功能與數據保護相關立法精神高度契合,具有廣闊的發展前景,但隱私計算仍存在一些合規痛點。
隱私計算的用戶授權機制仍需明確。
根據《網絡安全法》及《民法典》相關規定,數據處理者在處理數據時應公開收集、使用規則,并經用戶同意。從隱私計算的特點來看,數據合作方通過隱私計算技術實現數據分析與建模,不需實際流轉數據,且處理過程中的數據都進行了匿名化處理,或不需要獲得用戶授權同意。但在數據采集階段,數據合作各方仍需獲得用戶授權同意。此外,個人信息的匿名化標準尚存爭議,因此仍需做好告知同意的授權管理。
另外,《白皮書》指出,隱私計算在本地服務器中建模的行為也存在用戶授權的問題。即使企業在采集數據時通過隱私政策取得了用戶對本地建模行為的授權,但該授權仍需保持在與數據實際處理目的直接或合理關聯的范圍內。因此,在借助隱私計算技術解決用戶授權問題時,也需關注數據處理目的合法合規性。
隱私計算仍存在數據安全風險。
隱私計算盡管無需參與者直接共享原始數據,但模型更新仍然會泄露參與者訓練數據的相關信息,攻擊者可以采用推理攻擊判斷具體的數據點或數據屬性是否被用于訓練,或采用逆向學習的方法還原原始數據。如果有切實的證據證明經過隱私計算的數據結果具有可逆性且已被泄露,那么它便不再屬于法律規定的“經過處理無法識別特定個人且不能復原”的數據。因此,企業需從模型隱私、輸入隱私、訓練數據隱私、輸出隱私四方面保障數據的安全。
隱私計算參與各方權利義務的邊界有待進一步明確。隱私計算涉及個人信息主體、數據持有方、計算方、結果方,各方之間的法律關系尚需厘清,如發生數據泄露且溯源取證困難時,后三者間應如何進行責任劃分,這些都將影響隱私計算商業模式的發展。《白皮書》建議在現階段,隱私計算參與者宜通過協議方式,約定彼此的數據安全權利和義務邊界,以便在發生爭議時,明確各自的責任范圍。
//www.cebnet.com.cn/upload/resources/file/2021/04/19/176342.pdf
自動化機器學習支持用戶、開發人員和研究人員快速開發新的ML應用程序。然而,AutoML工具的輸出并不總是能夠很容易地用人類的直覺或專家知識來解釋,因此專家有時會對AutoML工具缺乏信任。因此,我們開發了一些方法,提高了AutoML系統的透明度和可解釋性,增加了對AutoML工具的信任,并對其他不透明的優化過程產生了有價值的見解。解釋AutoML的方法包括:
超參數的重要性: 哪些超參數(或其他設計決策)對提高ML系統的性能具有全局重要性?[Hutter等人2014]
自動消融研究: 如果一個AutoML工具從一個給定的配置開始(例如,由用戶或ML算法的原始開發人員定義),與AutoML工具返回的配置相比,哪些更改是重要的,以實現觀察到的性能改進?[Biedenkapp等人2017]
超參數效果的可視化: 我們如何可視化更改超參數設置的效果,無論是局部的還是全局的?[Hutter等人2014,Biedenkapp等人2018]
采樣過程的可視化: 在配置空間的哪些區域有一個AutoML工具在什么時候采樣,為什么采樣?我們在那兒能看到哪場演出?[Biedenkapp等人2018]
深度學習在語音識別、計算機視覺等許多領域得到了廣泛的應用和突破。其中涉及的深度神經網絡結構和計算問題已經在機器學習中得到了很好的研究。但對于理解深度學習模型在網絡架構中的建模、逼近或泛化能力,缺乏理論基礎。在這里,我們對具有卷積結構的深度卷積神經網絡(CNNs)很感興趣。convolutional architecture使得deep CNNs和fully connected deep neural networks有本質的區別,而30年前發展起來的關于fully connected networks的經典理論并不適用。本講座介紹了深度神經網絡的數學理論與整流線性單元(ReLU)激活函數。特別是,我們首次證明了深度CNN的普遍性,即當神經網絡的深度足夠大時,深度CNN可以用來逼近任意的連續函數,達到任意的精度。我們還給出了顯式的逼近率,并表明對于一般函數,深度神經網絡的逼近能力至少與全連接多層神經網絡一樣好,對于徑向函數更好。我們的定量估計嚴格按照待計算的自由參數的數量給出,驗證了深度網絡神經網絡處理大數據的效率。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。