亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

以機器學習為代表的人工智能技術需要對海量數據進行處理,對底層算力要求極高。分布式機器學習通過將計算 任務分布式地部署到多個計算節點來加快模型的訓練速度,從而將訓練任務完成時間降低到可接受范圍。由于通信開銷對分 布式機器學習系統的擴展性具有重要影響,因此,分布式機器學習系統網絡性能優化受到各界研究者的廣泛關注。本文首先 分析了分布式機器學習系統擴展性不足的主要原因,并提出了改善其擴展性的關鍵思路,然后系統地綜述了分布式機器學習 系統網絡性能優化相關的研究工作,并對這些研究工作從多個角度進行了對比分析。最后,對分布式機器學習系統網絡性能 優化研究的未來發展趨勢進行了展望。

引言

近年來,以機器學習,尤其是深度學習,為 代表的人工智能技術在圖像識別[1]、語音識別[2]、 機器翻譯[3]和自動駕駛[4]等應用領域都取得了突 破性進展。其原因可以分為三個方面:首先,互 聯網、大數據技術的發展,積累了海量的訓練數 據,在這些數據中蘊含著豐富的信息;其次,機 器學習理論的發展使得機器學習算法和模型不斷 完善,為從訓練數據中挖掘有價值的信息創造可 能;最后,GPU 等加速器以及云計算等技術大幅 提升計算性能,大大加快了從數據中獲取信息的 速度,使得機器學習技術的應用成為現實。總之, 作為第三次人工智能浪潮的“催化劑”,算力的大 幅提升直接將人工智能再次推向新的繁榮期。高性能的機器學習算法往往具有更高的計算 需求。據 OpenAI 統計,人工智能訓練所需要的算 力呈指數級增長,每 3.5 個月翻一倍①。相比之下, 近年來計算引擎的發展速度則遠遠落后于模型計 算需求的增長。以 Nvidia GPU 發展為例,表 1 展 示了 2012 年以來 Nvidia 的多代 GPU 在訓練 ResNet 模型時的性能表現。可以看到近 8 年來, GPU 的計算性能只提高了 16 倍左右,遠低于同 期模型計算需求的增長。在“后摩爾定律”時代, 單個計算引擎的性能提升逐漸進入了瓶頸期。面 對日益復雜的計算任務,分布式機器學習被認為 是必然的發展趨勢,逐漸成為業界的研究熱點[5]。

在分布式機器學習訓練任務的迭代計算過程 中,不同計算節點間需要頻繁同步機器學習模型 參數,以使得該模型能夠遍歷完整的數據集,從 而保證最終得到的模型與使用單機訓練的模型一 致。然而,隨著計算節點數量的增多,一方面, 不同節點間進行參數同步的流量逐漸增加;另一 方面,為了避免單輪訓練過多數據(即批尺寸過 大)帶來的模型泛化能力下降問題[6],每個節點 所分配的計算任務會逐漸減少。因此,對于分布 式機器學習系統,通信開銷和計算開銷的比值會 隨著系統規模的增大而呈現冪增長趨勢。這導致 通信成為限制大規模分布式機器學習系統擴展效 率的主要瓶頸,甚至出現隨著節點數量增加,模 型訓練速度反而下降的情況[7-11]。并且,過多的通 信時間會導致 GPU 等昂貴的計算設備大部分時 間處于等待參數同步的狀態,造成計算資源的浪 費。因此,研究如何對分布式機器學習系統的網 絡性能進行優化,降低通信操作對分布式機器學 習系統擴展效率的影響,從而提高機器學習模型 的訓練速度,具有重要的研究意義和實用價值。 本文將首先介紹分布式機器學習系統的通信 特點,并分析網絡通信成為分布式機器學習系統 擴展性瓶頸的原因,然后提出三種優化網絡性能 的關鍵思路,并以這些思路為指導,從通信模式、 通信數據量、通信效率以及網絡拓撲等方面具體 地介紹分布式機器學習系統網絡性能優化研究的 最新進展,并從加速效果、優化機制、擴展性、 對模型收斂性的影響以及是否需要升級硬件設備 或更新互聯方式等多個角度對這些研究工作進行 對比分析,最后討論分布式機器學習系統中網絡 性能優化研究的未來發展趨勢2. 分布式機器學習

隨著信息技術快速發展,全球數據呈現爆發 式增長,推動人類社會邁入大數據時代。在大數 據時代,機器學習訓練任務往往需要對海量的訓 練數據進行大量的計算,以提高模型的準確度。在單機上執行這樣的訓練任務,無論是在計算速 度還是在數據存儲方面都顯得十分吃力。例如, 使用單塊 Nvidia Tesla V100 GPU 訓練自然語言處 理模型 BERT-large 需要耗時 78 天,這顯然是不可 接受的。分布式機器學習的目標則是將訓練任務 分布式地部署到多個計算節點,從而提高模型訓 練的速度,減少任務耗時。因此,分布式機器學 習已經成為機器學習最熱門的研究領域之一分布式機器學習的并行方式主要包括數據并 行(Data Parallelism)和模型并行(Model Parallelism)。如圖 3 所示,數據并行是指每個計算節 點上均具有同一機器學習模型的副本,但不同計 算節點分配到的訓練數據是不同的,不同計算節 點間需要將各自的模型更新進行同步,以保證機 器學習模型的全局一致性。模型并行則是將機器 學習模型劃分為多個子模型,并分別部署在不同 計算節點上,訓練數據統一輸入,前一節點完成 子模型計算后將計算結果傳遞給后一節點繼續對 該訓練樣本進行處理。數據并行由于操作簡單, 且不同節點的計算負載比較均衡,應用最為廣泛。目前,TensorFlow[13]、Pytorch[14]和 MXNet[15]等主 流機器學習框架均對數據并行提供了支持,并且 具有極好的易用性,但模型并行仍需要用戶手動 對模型進行劃分和分布式部署。

假設某分布式機器學習系統共有 m 個計算節 點,批尺寸為 n。當采用數據并行時,每個計算 節點每輪處理的樣本數量為 n/m。各計算節點基 于所分配到的訓練數據對模型進行更新,然后將 不同計算節點更新后的模型進行匯總。匯總后的 模型參數如下:

對比公式(2)和公式(3)可知,如果在每一輪訓 練結束時,將模型參數在所有計算節點間進行同 步,則分布式訓練時的模型參數變化和單機訓練 完全相同,即分布式訓練可以在不改變模型的收 斂性的前提下提高模型的收斂速度。需要說明的 是,在實際應用中,一般是對不同計算節點的梯 度進行匯總,然后使用匯總后的梯度來更新模型 參數,并將新的參數賦給各計算節點的模型副本。相比于單機訓練,分布式訓練額外引入了節 點之間的數據通信,從而導致分布式訓練的速度 無法隨著計算節點數量的增加而線性提高。衡量分布式機器學習訓練加速效果的指標主要包括加 速比(speedup)和擴展效率(scaling efficiency)。加速比是指同一機器學習訓練任務在單機訓練和 分布式訓練時所需時間的比值。加速比越大,分 布式訓練的加速效果越顯著,也就是說,可以更 快地完成訓練任務。需要注意的是,加速比有可 能出現小于 1 的情況,此時分布式訓練速度反而 不及單機訓練。擴展效率是指加速比和計算節點 數量的比值。擴展效率越高,各計算節點的計算 資源利用率也就越高。圖 4 展示了利用 Nvidia Tesla V100 GPU 訓練 BERT 模型時加速比和擴展 效率隨 GPU 數量的變化,可以看出加速比和擴展 效率的變化趨勢并不相同。一般來說,隨著節點 數量的增多,擴展效率呈下降趨勢,而加速比則 呈先升后降趨勢。加速比在節點數量增多時反而 下降,是由于參數同步引入的通信開銷抵消了新 增節點帶來的性能收益。

具體來說,網絡性能之所以會成為分布式機 器學習系統擴展性瓶頸的主要原因有以下三點:1) 機器學習模型越來越復雜,模型參數量 不斷增加。機器學習算法理論的快速發展催生出 各種各樣的機器學習模型。例如,OpenAI 最近提 出的自然語言處理模型 GPT-3 [16]具有 1750 億參 數,而 Krizhevsky 等 人 在 2012 年提出的 AlexNet[17]模型參數量僅為 0.45 億。這導致在相 同節點規模下,任意兩個計算節點間需要同步的 參數量隨之大幅增加,加劇了分布式機器學習系 統中網絡通信的壓力;2) 復雜的機器學習模型同時也意味著需要 更多的算力,導致分布式系統規模的增大。如前 所述,在機器學習模型不變的情況下,分布式系 統規模越大,每個節點所承擔的計算任務越少, 計算耗時越短;與之相反,分布式系統規模越大, 每個節點需要通信的對端節點數量越多,通信耗 時越長。因此,隨著分布式機器學習系統規模的 增大,通信開銷在整體模型訓練開銷中的占比越 來越高;3) GPU 等計算設備的性能提升速度快于網絡設備的升級。雖然計算設備的性能提升速度遠 不及模型算力需求的增長,但仍比網絡設備的升 級速度更快。計算性能和通信性能的差距越來越 大,即,計算資源在單位時間內處理的數據需要 更長的時間才能被網絡資源處理完。這意味著分 布式機器學習系統中的網絡瓶頸問題將會日益嚴重。

如圖 5 所示,為消除(或緩解)網絡性能對 分布式機器學習系統擴展性的限制,從本質上來 說,有以下三種根本性思路:

1) 降低通信需求。通信需求,即需要通信 的數據量和通信次數,對通信耗時具有根本性的 影響。顯然,數據量越大,或者通信越頻繁,通 信耗時越長。因此,為了減少通信耗時,可以從 機器學習算法層面構建低網絡通信需求的訓練模 型,或采用知識蒸餾和模型剪枝等方式對原模型 進行修改以減小模型尺寸。這些方法會造成訓練 模型的變化,超出了本文的討論范圍,故后文不 再作詳細描述。參數量化以及參數稀疏化保持訓 練模型不變,通過降低被傳輸的參數量來降低通 信需求。并行方式的優化通過權衡參數數據量和 激活值數據量的大小來切換不同的并行方式:當 參數數據量較少時,采用數據并行;反之,采用 模型并行。模型一致性協議通過控制參數同步的 頻率來調節通信需求。參數同步架構對通信次數 和每次通信的數據量均會產生影響,通過選取合 適的參數同步架構可以有效降低通信需求;

2) 提升通信能力。在通信需求一定時,分 布式系統的通信能力越高,通信耗時越短。通信 能力的提升主要有兩種方式。一種是利用 RDMA、NVLink 等高性能傳輸協議實現高帶寬、低時延的 網絡傳輸,或利用 MLT 等新型機器學習專用傳輸 協議降低丟包對傳輸性能的影響;另一種是采用 高帶寬的網絡互聯拓撲。例如,BCube 和 BiGraph 均采用多網卡服務器架構,不但大幅提高每個計 算節點對外通信的能力,甚至可將節點內的通信 流量導出到服務器外部,從而繞過 PCIe 瓶頸;

3) 提高通信效率。在通信需求和通信能力 均確定的情況下,還可以通過提高通信效率來加 速分布式機器學習訓練。例如,在 GPU 節點間進 行集合通信時,NCCL 通信庫由于針對 GPU 設備 采取了定制優化,因此具有比傳統集合通信庫 MPI 更高的性能。網內聚合通過逐跳匯聚參數, 增加了單位數據所蘊含的參數信息,從而提高了 通信效率。通信調度是在通信需求和通信能力固 定的情況下,高效利用網絡資源的一種方式,既 包括采用小尺寸梯度聚合來降低啟動開銷的方 案,也包括優先傳輸緊急參數來增加計算和通信 重疊程度的方式。

**3 參數同步模式優化 **

在大規模分布式機器學習訓練場景中,計算 節點間需要頻繁地進行參數同步,因此,參數同 步模式對整體訓練性能具有重要的影響。本節將 從模型一致性協議和參數同步架構這兩個方面詳 細介紹對參數同步模式進行優化的相關工作。

**3.1 模型一致性協議 **

在數據并行模式下,每個計算節點都需要保 存一份相同的模型副本,然后使用本地的訓練數 據對模型副本進行更新。因此,在訓練過程中, 不同計算節點所維護的模型副本會出現差異。為 了使得分布式訓練能夠取得與單機訓練相同的效 果,需要保證這些模型副本的一致性。

**3.2 參數同步架構 **

除模型一致性協議外,參數同步架構對大規 模分布式機器學習系統的性能也有至關重要的影 響。參數同步架構是指不同計算節點上的模型更 新進行匯總,并對模型副本進行更新的方式。按 每次模型更新是否推送給所有其他計算節點,參 數同步架構可以分為中心化架構和去中心化架 構;按模型更新是否在單一邏輯節點匯總,可以 分為集中式架構和分布式架構。一般來說,中心化架構既可以是集中式架構,也可以是分布式架 構;而去中心化架構一定是分布式架構。目前常 用的參數同步架構大多為中心化架構,因此,除 特別說明外,下文所提到的參數同步架構均為中 心化架構。

4. 優化方案

通信效率優化

在實際部署中,通信的性能和效率也會對參 數同步過程產生重要的影響。即使采用相同的參 數同步模式,不同的通信方式也會對整體的訓練 性能造成很大的差異。因此,為了提高分布式機 器學習訓練時的通信效率,研究人員在以下方面 進行了深入研究。

并行方式優化

如上文所述,數據并行和模型并行是兩種經 典的分布式機器學習訓練方式。對于數據并行來 說,通信開銷主要來自不同計算節點間的參數同 步;對于模型并行來說,當某個計算節點的輸入 來自另一個計算節點的輸出時,便會產生通信開 銷。當模型參數量小于中間計算結果的數據量時, 數據并行帶來的通信開銷較小;反之,模型并行 的通信開銷更小。然而,對模型整體使用某一種 并行方式,可能無法達到最優的訓練性能。因此, 一些工作[68-74]提出使用混合并行、流水并行等方 式,通過細粒度的并行優化來提升分布式訓練性 能。

**網絡拓撲優化 **

除以上優化方案外,分布式機器學習系統領 域的研究者也對分布式訓練集群所使用的底層物 理網絡拓撲提出了優化方案。

表 4 綜合對比了近年來研究人員所提出的分 布式機器學習系統網絡性能優化研究相關工作。 對比的主要指標包括優化機制、訓練加速效果、 節點擴展性、對模型收斂性的影響以及是否需要 更換硬件設備或者互聯方式等。這些工作從多個 層面對分布式機器學習系統的網絡性能進行優 化,不同機制之間各有優劣。 從訓練加速效果來看,ASP 這一模型一致性 協議將通信開銷從模型訓練的核心路徑上移除, 使得網絡通信不會阻塞訓練過程,加速效果非常 好;模型壓縮或并行方式優化等方案,有效地減 少了各計算節點通信的數據量,而網內聚合方案 則逐跳減少了網絡中的流量,因此,這些方案具 有非常好的加速效果;傳輸協議和通信庫優化類 方案提高了點到點通信性能,網絡拓撲優化類方 案提高了通信節點之間的互聯帶寬,這些方案的 加速效果也很好;雖然不同參數同步架構的理論 參數同步時間之間的差距主要來自于時延開銷, 但在實際中,負載均衡、多流競爭等都會影響不 同參數同步架構的實際參數同步時間,總體來說, 參數同步架構類方案的加速效果不如前面幾種方案;通信調度類方案的加速效果與訓練模型的通信/計算比高度相關,相比其他方案來說,加速效果 比較有限。 從節點擴展性來看,網內聚合類方案受限于交 換機硬件計算能力和存儲空間限制,通常應用于單 機架規模的訓練集群,擴展性較差;隨著計算節點 數量的增多,通信/計算比越來越高,導致通信調度 類方案在節點數量較多時的擴展性較差;由于交換 機端口數量、布線難度等因素的限制,底層物理網 絡拓撲的規模往往不能無限增大,如 BCube 適用于 集裝箱規模的數據中心,故網絡拓撲類方案的擴展 性一般;雖然傳輸協議和通信庫類方案可將通信性

能提高數倍,暫緩網絡瓶頸出現的時間,但隨著節 點數量的增多,通信操作又將成為系統瓶頸,故該 類方案的擴展性也一般;并行方式優化類方案的模 型并行粒度不能無限切分,因此在節點規模很大 時,仍會出現大量節點使用數據并行的情況,并且 對大量節點求解最優并行方式的算法復雜度也非 常高,如 PipeDream 的求解時間與計算節點數的二 次方和模型層數的三次方成正比,以上因素導致并 行方式優化類方案的擴展性也一般;節點規模很大 時,環規約架構的通信時間被時延開銷所主導,參 數服務器架構的連接數量也會大大增加,從而導致 傳輸性能的降低,故參數同步架構類方案的擴展性 一般;模型一致性協議從核心路徑上移除了通信, 模型壓縮類方案可將通信量降低數十乃至上百倍, 因此這兩類方案的擴展性較高。 從對模型收斂性的影響來看,模型壓縮會導致 參數同步時信息量的丟失,從而影響模型收斂性; SSP和ASP以及去中心化參數同步架構引入了陳舊 參數對全局模型的更新,也會對模型收斂性產生一 定影響;其他類方案不涉及通信內容的改變,故不 影響模型收斂性; 從對硬件的依賴性來看,RDMA 和 NVLink 需 要專用的硬件設備,故依賴于硬件設備的更新升 級;網內聚合類方案依賴于可編程交換機或專用交 換機來實現在網絡內部對參數進行聚合的目的,故 該類方案也需要底層硬件設備的支持;網絡拓撲類 方案涉及對整個集群互聯方式的修改,比較適用于 新訓練集群的搭建,在現有集群上的部署難度較 大;其他類方案均為軟件層方案,對底層硬件環境 無特殊要求,因此部署難度較低,具有非常好的通 用性。 2016 年,Google 提出了一種分布式機器學習 新形式—聯邦學習[85]。 本質上,聯邦學習是一種 加密的分布式機器學習框架,允許各參與方在不共 享本地數據的條件下與其他各方共建模型。不同于 傳統分布式機器學習,聯邦學習面臨四個新的問 題:客戶端中數據非獨立同分布問題、差分隱私問 題、通信開銷問題和客戶端無狀態問題。本文僅關 注聯邦學習中的通信開銷問題。在聯邦學習中,通 信開銷遠大于計算開銷,這主要是由于客戶端與中 央服務器之間的網絡帶寬有限,且連接質量較差, 同時不同客戶端的連接質量參差不齊造成的。 雖然聯邦學習是一種分布式機器學習框架,但 有些針對傳統分布式機器學習的網絡性能優化方 案卻不適用于聯邦學習。例如,客戶端可能通過無 線方式接入網絡,故無法對這些客戶端之間的互聯 方式進行改善;一般來說,聯邦學習的網絡瓶頸點 基本在客戶端側,因此,網內聚合的方式不能解決 聯邦學習場景下的網絡傳輸痛點;聯邦學習中各客 戶端均要使用本地數據進行訓練,并且不會將本地 數據傳輸給其他客戶端,因此聯邦學習只能使用數 據并行方式,無法通過并行方式優化的方式來提高 訓練速度。 聯邦學習場景下的網絡性能優化主要依賴對 通信內容的壓縮來實現。一般來說,客戶端上行鏈 路的帶寬比下行鏈路帶寬更小,因此,一些工作 [85-87]最早嘗試通過多種梯度壓縮方式,如量化、稀 疏化、下采樣、矩陣分解、計數草圖(count sketch) 和周期平均等,來減小客戶端的上行通信壓力。

隨 后,一些工作[88]通過壓縮參數的方式降低下行通信 成本。文獻[88]采用 Federated Dropout 的方式對神 經元進行隨機丟棄,這樣客戶端可以只訓練一個更 小的子模型,從而既減小了中央服務器到客戶端的 通信數據量,又能更加高效地完成本地計算。 雖然模型壓縮會減緩模型的收斂速度,但受限 于網絡連接質量,聯邦學習不得不通過壓縮通信內 容的方式來降低通信成本,提高訓練速度。相比之 下,傳統分布式機器學習訓練集群的互聯帶寬非常 高,并且連接可靠性極高,因此,模型壓縮在傳統 分布式機器學習訓練中往往作為可選方案,需要充 分權衡收斂性和訓練速度來決定是否需要對模型 進行壓縮,以及使用何種壓縮方式和壓縮比例。

5 研究趨勢展望

分布式機器學習系統性能優化作為分布式機 器學習領域最為熱門的研究方向之一,正在吸引越 來越多學術界和工業界研究人員的關注。由于分布 式機器學習系統網絡性能優化研究與工業界結合 緊密,具有重要的實踐價值,可以預計在未來數年 內相關研究還將持續成為焦點。 當前,國內學術界和工業界關于分布式機器學 習系統網絡性能優化的研究基本與國際水平處于 并跑狀態。因此,在國家大力發展新基建的背景下, 加強分布式機器學習系統網絡性能優化研究,不但 能夠為人工智能的發展提供內生動力,并且可以為 依托人工智能實現外部賦能創造條件,對于推動傳統行業信息化、數字化、智能化轉型升級具有非常 重要的意義。從網絡通信的角度看,我們認為未來的分布式 機器學習系統性能優化研究主要包括以下四個方 向

(1)模型的高質量壓縮。分布式機器學習訓 練的通信數據量對通信耗時具有決定性影響。從機 器學習算法的發展趨勢來看,越來越大的機器學習 模型已經成為必然[16][89]。因此,如何對訓練超大模 型時的通信數據進行高質量的壓縮,既能大幅降低 通信數據量,又不會造成訓練信息的大量丟失,是 未來緩解甚至徹底消除網絡瓶頸的重要方向。當 前,模型壓縮程度仍然受到相關理論發展的限制, 通信數據的壓縮是以更多的通信次數為代價的。除 相關壓縮理論的突破外,未來可能的發展方向還包 括細粒度的模型壓縮方式,如不同層乃至不同算子 采用不同的壓縮方式、壓縮比例,不同訓練輪數采 用不同的壓縮方式、壓縮比例,從而避免最差壓縮 比例限制整體的壓縮效果。另一個可能的方向是綜 合考慮時空相關性的模型壓縮方式,當前的壓縮算 法大多將每個參數值作為單獨個體來處理,部分算 法引入時間序列相關性以將相鄰兩輪訓練間的結 果相關聯,從而降低隨時間累積的壓縮誤差。然而, 參數張量的空間相關性尚未得到充分重視。視頻壓 縮領域中,基于時空相關性的視頻幀間壓縮方法已 得到廣泛應用。因此,模型壓縮可以借鑒視頻壓縮 領域的相關經驗,綜合考慮參數張量的時空相關性 對模型參數采取進一步的有效壓縮。

(2)并行方式優化。除壓縮通信內容外,改 進多節點之間的并行訓練方式也是降低通信開銷 的重要途徑。分布式機器學習訓練通過將訓練數 據、訓練模型分布到多個計算節點來達到并行訓練 的目的。即使對同一訓練模型和相同訓練數據而 言,不同的并行方式也會產生完全不同的流量模式 和通信數據量。現有方案大多在訓練數據、模型不 同層等維度對訓練任務進行并行化分解,最近一些 工作又引入了流水并行來提高計算資源利用率。但 這些方案仍遠未成熟。對流水并行來說,由于層間 計算依賴關系的存在,這些方案或者無法完全消除 “氣泡”,或者需要占用大量顯存來存儲多個模型 版本。如何提高流水并行的效率,同時最小化硬件 資源占用,對流水并行的應用前景至關重要。對模 型并行來說,更細粒度的操作符拆分,使其能夠并 行化計算,從而提高單個操作符的執行速度上限, 也是未來值得探索的重要方向。另外,在大規模分 布式機器學習訓練場景下,如何快速求解最優并行 化方式,將大量的計算節點合理地進行編排,也是 該類方案將來能否得到廣泛應用的重要基礎。

(3)多任務場景下的網絡資源復用。現有的 網絡性能優化方案仍主要針對單任務場景而設計, 對多任務之間的聯合優化方案仍有待研究。但在實 際訓練場景中,計算設備往往被單一訓練任務所獨 占,但網絡設備卻被很多訓練任務共享,導致不同 訓練任務由于彼此競爭網絡資源造成性能的互相 影響。對于分布式機器學習訓練任務來說,流量具 有明顯的周期特征,即,從宏觀結構來看,平均流 量并不高,但縮放到毫秒粒度,則會出現鏈路利用 率在滿載和空載之間頻繁切換的情況。當多個訓練 任務同時使用網絡資源時,所有訓練任務的通信時 間都會被拉長,導致訓練速度的下降。因此,未來 一個可能的發展方向便是通過使不同訓練任務分 時復用網絡資源,盡量減小每個訓練任務所花費的 通信時間,從而提升整體的訓練速度。

(4)專用網絡設備和架構。網絡硬件技術的 提升,對于分布式機器學習系統性能的提升具有顯 著的效果。當前,分布式機器學習訓練任務和其他 業務一樣運行在通用網絡硬件設備之上。但是分布 式機器學習訓練任務具有自己的特點,如流量矩陣 的確定性以及數據傳輸的周期性等。因此,針對分 布式機器學習業務設計專用的網絡設備和架構,如 超低轉發時延交換機、GPU 與網卡的一體化設計 等,也將成為未來的研究熱點。此外,光電互聯技 術的出現也使得數據中心網絡的帶寬和容量大幅 提高。可以預料,未來在如何合理地利用這些新型 網絡設備來提升網絡傳輸性能方面也將會產生更 多的研究成果。

付費5元查看完整內容

相關內容

分布式機器學習研究將具有大規模數據量和計算量的任務分布式地部署到多臺機器上,其核心思想在于“分而治之”,有效提高了大規模數據計算的速度并節省了開銷。

機器學習中差分隱私的數據共享及發布:技術、應用和挑戰

近年來, 基于機器學習的數據分析和數據發布技術成為熱點研究方向。與傳統數據分析技術相比, 機器學習的優點是能 夠精準分析大數據的結構與模式。但是, 基于機器學習的數據分析技術的隱私安全問題日益突出, 機器學習模型泄漏用戶訓練 集中的隱私信息的事件頻頻發生, 比如成員推斷攻擊泄漏機器學習中訓練的存在與否, 成員屬性攻擊泄漏機器學習模型訓練集 的隱私屬性信息。差分隱私作為傳統數據隱私保護的常用技術, 正在試圖融入機器學習以保護用戶隱私安全。然而, 對隱私安 全、機器學習以及機器學習攻擊三種技術的交叉研究較為少見。本文做了以下幾個方面的研究: 第一, 調研分析差分隱私技術 的發展歷程, 包括常見類型的定義、性質以及實現機制等, 并舉例說明差分隱私的多個實現機制的應用場景。初次之外, 還詳細 討論了最新的 Rényi 差分隱私定義和 Moment Accountant 差分隱私的累加技術。其二, 本文詳細總結了機器學習領域常見隱私 威脅模型定義、隱私安全攻擊實例方式以及差分隱私技術對各種隱私安全攻擊的抵抗效果。其三, 以機器學習較為常見的鑒別 模型和生成模型為例, 闡述了差分隱私技術如何應用于保護機器學習模型的技術, 包括差分隱私的隨機梯度擾動(DP-SGD)技術 和差分隱私的知識轉移(PATE)技術。最后, 本文討論了面向機器學習的差分隱私機制的若干研究方向及問題。

1 引言

數據分析和發布技術使得數據分析者可以學習 大數據的共有規律。其中, 統計信息分析[1-2]和機器 學習是熱門應用領域。然而, 所有的數據分析任務如 不添加合適的隱私保護技術都有可能泄漏個人隱私 信息。這導致如今數據擁有者由于擔憂個人隱私泄 漏問題不愿貢獻個人數據供第三方使用。歐洲針對 此類問題, 已經出臺了《通用數據保護法規》(GDPR) 規定第三方數據使用者有權保護個人隱私。

1.1 隱私保護背景

首先, 本文舉例描述數據分析任務場景以及可 能存在的隱私威脅。圖 1 為 Adult 公開數據庫的片段 截取示例。在 Adult 數據庫中, 每一行代表一條個人 (隱私)信息。數據分析者想要分析數據庫中所包含的 模式規律。例如, 統計問題“數據庫中有多少人的信 息滿足屬性P?”屬性P可以是“年收入超過50K?” 或者“年齡超過 50 歲”, 或者兩者的交集。機器學 習二分類任務可以是“基于個人的其他信息預測該 人的年收入是否超過 50K”。

為了在保護數據擁有者的個人信息的同時允許 數據分析者分析數據中暗藏的模式, 傳統隱私保護 方式有非交互式和交互式兩種。其中匿名化為非交 互式保護方式。匿名化指數據收集者把能表示個人 身份信息的唯一識別號(例如身份證號, 學號, 姓名 等)從原始數據庫中去除再發布。然而, Sweeney[3]提 出 87%的美國人可以通過郵編、出生日期和性別這 三個組合屬性唯一識別, 這暗示僅僅去除唯一識別 號不足以保護個人身份不被泄漏。隨后, Narayanan 和 Shmatikov 提出鏈接攻擊(linkage attack)[4]。該攻擊 通過將一個公共數據庫的信息鏈接到私有數據庫從 而暴露私有數據庫里的隱私屬性。為了應對該攻擊, k-匿名[3]、l-多樣化[5]、t-近似[6]等技術相繼提出。但 是, 這些攻擊或受到背景知識攻擊影響, 或缺少嚴 謹量化的隱私定義。這些技術假設數據集中的屬性 可分類為隱私屬性和公共屬性。隱私屬性需要保護 而公共屬性可以公開。但根據后來研究表明[7], 隱私 屬性和公共屬性并不存在明顯的分界, 因為任何屬 性組合皆有可能泄漏個人的獨有特征規律。這個結 論尤其符合如今的大數據環境。

當非交互式數據發布難以兩全個人隱私保護和 數據分析任務時, 交互式問答成為研究者的新方向。然而, 直接回答關于數據庫的統計問答也有可能會 泄漏個人隱私, 例如差分攻擊。攻擊者向某醫療數據 庫提問“數據庫中有多少人患有癌癥?”和“有多少除 了小明的人患有癌癥?”可以直接差分出小明是否 患有癌癥。

在以上案例場景中, 隱私保護目標是在不違反 個人隱私的條件下允許數據分析者學習群體規律。因此, 如何定義個人隱私泄漏至關重要。從信息論的 角度上分析, 群體規律的學習必然會導致數據分析 者得到更多的信息以猜測個人隱私。例如, 某調查結 果“肺癌和吸煙有緊密關系”必然會增強攻擊者猜 測吸煙人群是否患有肺癌的正確概率。在圖 1 中, 某機器學習分類器獲得 80%的測試集正確率。然后其 預測個人年薪是否超過 50K 的正確率會從原本的 50%提高到 80%(假設 income 屬性平衡)。這些情況 是否能稱為隱私泄漏?現有的隱私定義難以回答這 類定性問題, 因此需要新的隱私保護定義。

差分隱私(Differential Privacy, DP)定義了“合理 的可否認性”[8], 即某條個人信息是否參與調查, 調 查結果都維持“大致”相同。這等同于保證攻擊者 幾乎無法察覺某個人的信息是否用于計算調查結果。“大致”是由隱私預算 ? 控制。該參數提供隱私和實 用性的折中。在實際應用中, 差分隱私機制向調查結 果中加入一定量的噪聲。噪聲的量由隱私預算 ? 和 問題敏感度控制。敏感度度量了兩個漢明距離為 1 的數據庫回答同一個問題的最大差值。如今, 差分隱私已經成為執行隱私保護的實 際標準。微軟[9]、蘋果[10]、谷歌[11-12]、美國人口調 查局[13]、哈弗大學 PSI 項目[14]等都通過利用該技術 分析敏感數據。本文旨在分析差分隱私技術在機器 學習領域用于隱私保護的理論與應用。通過剖析差 分隱私與機器學習交叉領域技術, 提出該領域存在 的問題和可能的解決方向。

1.2 相關研究介紹

近年來有以下與差分隱私相關的綜述性分析。在這些綜述分析中, Dwork 等人[2]首先給出隱私保護 分析中存在的問題以及初步的差分隱私解決方案。Dwork和Roth[15]總結了到2014年為止差分隱私出現 的理論性技術。Sarwate 和 Chaudhuri[7], Ji 等人[16], Goryczka 等人[17]和 Jain 等人[18]分別強調信號處理、 機器學習、多方安全計算、大數據中存在的差分隱 私問題。Zhu 等人[19]介紹了差分隱私的數據共享和分 析, 與本文目標類似。然而近年來, 隨著差分隱私技 術及機器學習技術的迅速發展, 許多新的理論突破 和實踐層出不窮。因此本文將涵蓋更多新發展的技術和問題。

本文旨在幫助讀者迅速了解差分隱私的進化發 展歷程, 并熟悉差分隱私機制的在機器學習領域的 應用。圖 2 給出常見的隱私數據分析場景架構, 其中 數據擁有者提供敏感數據集; 服務提供者, 例如機 器學習服務提供商(Machine Learning as a Service, MLaaS)負責數據分析和以及用戶隱私保護; 常規用 戶旨在獲取查詢結果, 同時惡意用戶可能成為竊取 隱私信息的攻擊者。后文結構如下: 第 2 節介紹差分隱私的定義、實 現機制、常用性質定理; 第 3 節介紹機器學習領域熱 門的威脅模型、攻擊以及與差分隱私的聯系; 第 4節介紹差分隱私機制在機器學習中兩種熱門模型: 鑒別模型 (discriminative model) 以及生成模型 (generative model)中的運用; 第 5 節總結差分隱私在 機器學習領域應用存在的公開問題和研究方向。

2. 機器學習中的隱私威脅模型與攻擊

隨著機器學習的深入發展, 深度學習已經成為 尋找數據規律的重要手段。一般的, 機器學習通過建 立模型、優化損失函數來擬合數據。但是, 機器學習 模型如果用來擬合個人敏感數據, 例如醫療數據、人 口普查信息、學校數據、銀行數據等, 會對個人隱私 保護提出挑戰。當攻擊者獲取機器學習模型后, 模型 輸出特性可能泄漏訓練數據的隱私信息。例如某個 人的信息是否存在于隱私數據集中(成員猜測攻擊), 或者猜測某個人的隱私屬性(屬性猜測攻擊)。

2.1 隱私威脅模型

討論攻擊之前, 首先需要定義威脅模型。威脅模 型可以用來度量攻擊者能力及其抵抗方法的有效性。具體包括以下三個方面: 攻擊者的目標、知識和能力。攻擊者的目標根據不同攻擊類型有所不同, 我們將 在 2.2 節詳述。攻擊者的知識和能力在機器學習領域 主要體現在以下兩個方面: 模型知識和數據集知識。 模型知識: 白盒子 和黑盒子。白盒子攻 擊者掌握目標機器學習模型的模型架構和模型參數。黑盒子攻擊指的是攻擊者只能接入模型 API, 即查 詢模型并獲取返回的預測結果(可能包含預測結果 的概率), 但是不知道模型參數。許多黑盒子模型假 設攻擊者知道目標模型的架構。因為當攻擊者使用 現有機器學習及服 MLaaS 時,其能夠復現目標模型 的架構。數據集知識: 攻擊者是否擁有額外數據集。攻擊 者能力由強到弱依次分為: (1)可獲取部分訓練集 ; (2)獲取同分布數據集; (3)無額外數據集 。第一種情況下, 攻擊者獲得部分訓練集; 第二 種情況下, 攻擊者獲取與訓練集同分布但不相交數 據集(例如, 對抗生成網絡生成的人工合成數據集,又叫影子數據集); 第三種情況, 攻擊者沒有任何額 外數據集。綜合以上兩類攻擊者知識, 共有 6 種可能的威 脅模型 :

2.2 隱私威脅攻擊

常見的在機器學習領域與隱私保護(privacy protection)相關的攻擊分為以下幾類: 成員猜測攻擊 (membership inference attack), 模型反演攻擊(model inversion attacks), 屬性猜測攻擊(attribute inference attack), 模型竊取攻擊(model stealing attack), 無意識 記憶(unintended memorization)。值得注意的是, 對抗 樣本攻擊(adversarial samples)[31]是另一類較為熱門 的威脅到機器學習模型安全的議題, 但是屬于模型 安全領域(model security), 與隱私保護無關, 因此不 在本文討論范圍內。

3.3 差分隱私抵抗機制

差分隱私機制從定義上防止成員猜測攻擊, 模 型記憶, 并弱化屬性猜測攻擊。但是, 其對模型反演 攻擊和模型竊取攻擊的弱化效果不明顯。具體可參 考 Liu 等人[38]的研究。表 4 總結了以上提到的五種 攻擊以及差分隱私對它們的抵抗能力。

為了能夠盡量減少對機器學習可用性的影響, 不修改模型結構及損失函數, 主流差分隱私抵抗機 制研究分為梯度擾動(gradient perturbation)[55, 26]和知 識轉移(knowledge transfer)[57-58]兩種差分隱私方案。梯度擾動旨在修改訓練過程中的梯度更新算法, 在 每個迭代周期的隨機梯度遞減算法結果中添加差分 隱私噪聲。知識轉移機制基于采樣和聚合架構 (Sample and Aggregate Framework, SAF), 將非隱私 的學生模型采用差分隱私機制聚合出一個滿足差分 隱私機制的老師模型然后發布。第 4 節將詳細描述 目標/輸出/梯度擾動和知識轉移兩種差分隱私技術 在鑒別模型和生成模型中的運用。

3. 機器學習中的差分隱私方法

鑒別模型主要指的是分類器模型, 即給予目標 屬性, 模型判斷其屬于哪個類別。鑒別模型在機器學 習任務中應用廣泛。生成模型, 本文主要指對抗生成 模型(Generative Adversarial Nets, GAN), 用于生成與 訓練集近似分布的人工合成數據集。由于常見的 GAN 分為一個鑒別器(discriminator)和一個生成器(generator)。所以許多針對鑒別模型的差分隱私機制 可以微調以適應 GAN 模型。下文將首先介紹鑒別模 型中的差分隱私機制, 再介紹這些機制如何微調以 保護 GAN 模型。

3.1 鑒別模型

3.1.1 目標擾動和輸出擾動機制

機器學習領域, 在早期經驗風險最小化(Empirical Risk Minimization, ERM)優化凸函數時, 研究者率先 提出了兩種方式: 目標擾動[59-61]和輸出擾動[58-59]。其 中 Chauhuri 等人[58]以邏輯回歸(logistic regression)為 例, 給出目標擾動和輸出擾動的敏感度分析方法。但 是其敏感度分析方法依賴目標函數為強凸函數。隨 著神經網絡(neural networks)的深入發展, 損失函數 不再是凸函數, 因此依賴強凸函數條件的分析敏感 度的方法不再可行, 隱私保護的方法逐漸轉入梯度 擾動[26, 55]。梯度擾動無需損失函數為強凸性。且敏 感度分析可以通過梯度裁剪實現。表 6 總結了 3 種 擾動的實現機制。

3.1.2 梯度擾動機制

隨機梯度下降(Stochastic Gradient Decent , SGD) 是目前優化神經網絡損失函數的常用方法。它在每 個周期隨機采樣部分訓練集, 計算經驗梯度以估計 總體梯度并更新參數。如果損失函數并非強凸(神經 網絡中, 一般都不是強凸), 則隨機梯度下降會優化 至某個局部最優點。差分隱私的隨機梯度擾動(DPSGD)旨在將符合差分隱私規范的噪聲添加到每個周 期的經驗梯度中, 用擾動的梯度估計更新網絡, 以 使得每個周期更新的網絡參數都滿足差分隱私機制。

3.1.3 知識轉移

知識轉移方法指的是從一群非隱私保護的老師 模型(teacher ensembles)中以隱私保護的模式把模型 知識轉移到一個新的學生模型(student model)中, 使 得學生模型滿足隱私保護, 并將學生模型發布給使 用者。其中代表性的案例為 Private Aggregation of Teacher Ensembles (PATE)①[56]。PATE可以看成是SAF 技術[62]在深度學習中的一個實例化應用。PATE 的訓 練過程可以分解為兩部分: teacher ensembles 訓練 (圖 3 左側)和 student model 訓練(圖 3 右側)。

3.1.4 DP-SGD VS PATE

對于DP-SGD和PATE兩種截然不同的隱私策略,我們從以下三個角度對比其優劣。?· 隱私保護: 基于 SAF 技術的 PATE 架構與 DP-SGD 有略微不同的隱私假設。PATE 假設屬性?及 其分布并非是需要保護的。其保護的是與?關聯的標 簽?的值。拿圖 1 舉例, PATE 保護其他屬性與收入 (income)之間的關聯性, 但是并不保護某個人的公共 屬性(婚姻狀態 marital staturs 等)。該隱私保護對數據 集的假設要強于 DP-SGD, 且并非所有數據集都滿 足此要求。例如圖 1 中的 Adult 數據集、醫療數據集 等的個人屬性也可能也是需要隱私保護的。?· 可用性: PATE 天然適合于分布式架構。PATE 無需修改現有模型架構, 但是 DP-SGD 需要修 改梯度下降策略。PATE 只能用于分類任務, 而 DP-SGD 可以應用于線性回歸、分類任務、生成任務 等。當用分類準確度來衡量發布的差分隱私架構可 用性時, 在同等隱私預算下, PATE可能優于DP-SGD。這是因為 PATE 從公共分布中獲取了更多與分類任 務無關的先驗知識。且其用數據相關的隱私分析。· 計算復雜度: 在計算復雜度這一項, DP-SGD 對 比PATE 有優勢。一個典型的PATE 模型需要250 個老師 模型才能獲取隱私和有效性的較優平衡。除此之外, PATE 如果采用數據相關的隱私預算分析, 計算消耗也很大。

3.2 生成模型

生成模型有多種, 本文專指對抗生成模型 GAN。GAN 有很強的分布模仿能力, 能夠生成與原始訓練集分 布近似的高緯度數據集。因此許多研究者用其當作天然 的規避隱私保護的方法, 生成并發布合成數據集, 并用 人工合成數據集替代隱私數據集發布使用。但是近年來 研究發現GAN本身并沒有嚴格證明的隱私保護性能, 特 別的, 成員猜測攻擊對GAN 也有攻擊效果[40, 42-43, 45, 68]。根據第 3 節, 差分隱私機制能夠抵抗成員猜測攻擊, 因 此研究差分隱私的 GAN 對于隱私保護至關重要。GAN 基本知識: GAN 的基本結構如圖 4 所示,

包括一個鑒別器網絡(Discriminator)和一個生成器網 絡(Generator)。敏感訓練集為Xreal。生成器和鑒別器 相互博弈, 生成器要生成更加逼真的數據, 鑒別器 提高鑒別能力以鑒別出人造數據和訓練集的區別。兩者的損失函數如下。

鑒別器和生成器同時優化自己的損失函數, 最 后達到平衡點。從公式(16)(17)以及圖 4 中的損失函 數流程可以看出, 只有鑒別器網絡 D 的損失函數用 到了敏感訓練集Xreal, 生成器網絡 G 在訓練過程中 沒有直接接觸敏感數據, 而是使用 D 返回的信息進 行梯度更新。因此只需要保證鑒別器網絡的差分隱 私安全, 根據抗后處理定理(定理 4), 生成器的參數 及其輸出也可以自動保持差分隱私。值得注意的是, 生成器的輸出為人工合成數據集, 因此差分隱私的 GAN 可以用來生成并發布滿足差分隱私的合成數 據集。

4 總結和展望

上文詳細討論了差分隱私技術在機器學習領域 的發展歷程, 包括定義、實現機制和常用性質。并且 針對實際攻擊, 分析并比較了差分隱私的抗攻擊能 力。此后, 給出了目前主流的差分隱私的鑒別模型和 生成模型保護方案。本節將討論差分隱私技術在機 器學習領域的公開問題以及研究方向。

(1) 模型隱私安全和功能性安全存在折中

一直以來, 機器學習模型的隱私安全和功能性 安全處于兩個相對平行的研究線路。本文探討的是 模型的隱私安全, 即模型是否泄漏個人隱私。還有一 類安全指模型的功能性安全, 例如對抗樣本攻擊、樣 本毒化等, 指的是存在惡意攻擊者可以用肉眼難以 分辨的數據模型的發生誤判。差分隱私目前公認對 模型的隱私安全有一定的保護效果。但是近期許多 研究[69]發現模型的功能性安全可能與隱私安全有對 立性, 即防止模型的功能性安全的措施可能會加重 隱私安全威脅。因此差分隱私如何同模型功能性安 全的抵抗措施有效結合全面防護機器學習的安全性 有待研究。

(2) 差分隱私保護機制不是萬能

根據本文表 4 的總結, 差分隱私可以防止成員 猜測攻擊和無意識記憶, 對屬性猜測攻擊有一定弱 化效果。但是對防止模型反演、模型竊取攻擊效果 不明顯。甚至有研究發現[38], 模型竊取攻擊和成員猜 測攻擊的成功率是負相關的。差分隱私機制的效果 和攻擊原理有直接關系。如果攻擊依賴于模型過擬 合, 那么差分隱私有明顯效果; 如果攻擊不是依賴于模型過擬合, 甚至利用模型的泛化能力, 那么差 分隱私沒有直接抗攻擊效果。因此依賴差分隱私單 一機制并不能解決機器學習隱私安全的所有攻擊, 應考慮多機制結合以全面防護隱私泄漏問題。

(3) 隱私預算追蹤方法有待提高

許多研究表示目前針對機器學習的差分隱私機 制犧牲過多有效性以保證安全[30]。另外一些研究也 在試圖尋在更加嚴謹的差分隱私預算追蹤方法[70]。例如, 目前的 DP-SGD[26]研究假設攻擊者可以獲取 機器學習模型每一輪迭代參數(權重更新), 而不僅僅 是可以獲取最終訓練好的模型的參數。在實際中, 該 攻擊條件假設太強, 但是這卻是目前唯一一種已知 的分析 DP-SGD 隱私累加的方式[71]。為此, Feldman 等人[70]推導出直接分析最后一輪模型隱私的方法, 但是其證明依賴損失函數是凸函數的假設, 在神經 網絡下還沒有解決方法。另外, Nasr 等人[71]提出在 不同的攻擊者能力下, 應該制定不同的差分隱私下 限。差分隱私一直考慮最惡劣的攻擊條件來保護隱 私安全。然而實際環境中很少有攻擊者能達到如此 強的攻擊能力。因此, 針對不同攻擊強度細化不同的 差分隱私下限有待研究。

(4) 聯邦學習模式中差分隱私存在局限性

聯邦學習通常指掌握自己部分訓練集的多方, 在不泄漏個人訓練集的前提下, 共同訓練綜合模型。原理是訓練的每個周期, 各方先下載綜合模型, 然 后用自己的訓練集計算梯度更新并上傳, 中心利用 各方上傳的梯度加權平均更新綜合模型。差分隱私 機制通常類似 SAF(見圖 3), 用差分隱私的方式傳遞 擾動的梯度平均。但是 2017 年 Hitaj 等人[42]研究發 現, 即使是差分隱私保護的聯邦學習依然不安全。當 有惡意參與者存在時, 其可以竊取其他合規參與者 的隱私信息。目前還沒有可靠的用于聯邦學習的差 分隱私機制。這使得目前聯邦學習的安全性只能依 賴計算量以及通信量開銷巨大的多方安全計算技術 或者是同態加密技術。

(5) GAN 模型中差分隱私存在局限性

差分隱私技術在對抗生成模型(GAN)中的應 用尚在探索階段。比如, 較為先進的 WGAN-GP[72] 尚沒有差分隱私版本。因為梯度懲罰部分用到了真 實訓練集, 其隱私預算追蹤是個難點。除此之外, 對抗生成模型與鑒別模型的網絡架構以及性質也 有所不同。其中, 對抗模型的過擬合程度難以衡量 (差分隱私主要保護模型過擬合) [39, 51]。對抗模型的 隨機性可能使得非差分隱私的 GAN 可能天生含有 弱差分隱私性質[72]。因此, 在 GAN 中的差分隱私機制可能需要考慮其特點進行定制。比如, 實驗性 衡量原始非隱私保護的 GAN 的隱私保護程度, 再 補充加噪。

付費5元查看完整內容

近年來,預訓練模型在自然語言處理領域蓬勃發展,旨在對自然語言隱含的知識進行建模和表示,但主流預訓練模型大多針對英文領域。中文領域起步相對較晚,鑒于其在自然語言處理過程中的重要性,學術界和工業界都開展了廣泛的研究,提出了眾多的中文預訓練模型。文中對中文預訓練模型的相關研究成果進行了較為全面的回顧,首先介紹預訓練模型的基本概況及其發展歷史,對中文預訓練模型主要使用的兩種經典模型Transformer和BERT進行了梳理,然后根據不同模型所屬類別提出了中文預訓練模型的分類方法,并總結了中文領域的不同評測基準,最后對中文預訓練模型未來的發展趨勢進行了展望。旨在幫助科研工作者更全面地了解中文預訓練模型的發展歷程,繼而為新模型的提出提供思路。

1 引言

自然語言處理(NaturalLanguageProcessing,NLP)是計 算機利用人類定義的算法對自然語言形式的輸入進行加工處 理的過程,旨在讓計算機可以像人類一樣理解和生成語言,具 備如人類一樣的聽、說、讀、寫、問、答、對話、聊天等的能力,并 利用已有知識和常識進行推理分析.自然語言處理技術的發 展經歷了從基于規則到基于統計的過程.隨著深度學習的發 展,圖像、文本、聲音、視頻等不同形式的信息載體被自然語言 處理技術突破,大量的神經網絡被引入自然語言理解任務中, 如循環神經網絡、卷積神經網絡、注意力 機制等.在特定的自然語言處理任 務中,神經網絡可以隱性地學習到序列的語義表示與內在特 征,因此,神經網絡成為了解決復雜自然語言處理任務最有效 的方法.隨著計算力的不斷增強,深度學習在自然語言處理 領域中不斷發展,分布式表示占據了主導地位,不僅在指定任 務中可以端到端地學習語義表示,而且可以在大規模無標注 的文本上進行自主學習,能更靈活地運用在各種下游任務中. 然而,早期在有監督數據上訓練淺層模型往往存在過擬合和 標注數據不足等問題,在訓練深層模型參數時,為了防止過擬 合,通常需 要 大 量 的 標 注 數 據,但 有 監 督 的 標 注 數 據 成 本較高,因此模型主要利用網絡中現存的大量無監督數據進行 訓練.在此背景下,預訓練技術被廣泛地應用在自然語言處 理領域.其中,最經典的預訓練模型是 BERT [4]模型,在多個 自然語言處理任務中取得了最好結果(StateoftheArt,SOG TA).此后出現了一系列基于 BERT 的預訓練模型,掀起了 深度學習與預訓練技術的發展浪潮。

隨著國內外研究者在預訓練模型方面的深入研究,目前 已有很多關于預訓練模型的綜述,但缺少專門針對中文領域 的相關綜述.當前,中文預訓練模型蓬勃發展并取得一定的 成績,因此,對現有研究成果進行全面的分析和總結非常必 要.本文期望能為中文預訓練相關領域的學者提供參考,幫 助科研工作者了解目前的研究現狀和未來的發展趨勢.本文 第2節概述預訓練模型的基本情況;第3節主要介紹兩種基 本模型,即 Transformer和 BERT;第4節根據不同模型的所 屬類別提出典型的中文預訓練模型的分類方法,并匯總了中 文預訓練模型的相關資源;第5節梳理了中文領域的不同評 測基準;最后總結全文并展望未來.

2 預訓練模型

2.1 預訓練模型發展史

從預訓練語言模型的發展時間來看,可以將其分為靜態 預訓練模型和動態預訓練模型.2013年,Mikolov等[5]在神 經網絡語言模型(NeuralNetworkLanguageModel,NNLM) 思想的基礎上提出 Word2Vec,并引入大規模預訓練的思路, 旨在訓練具有特征表示的詞向量,其中包括 CBOW 和 SkipG Gram 兩種訓練方式.相比 NNLM 模型,Word2Vec可以更 全面地捕捉上下文信息,彌補 NNLM 模型只能看到上文信息 的不足,提高模型的預測準確性,Word2Vec極大地促進了深 度學習在 NLP中的發展.自 Word2Vec模型被提出以來,一 批訓練詞向量的模型相繼涌現,例如,Glove [6]和 FastText [7] 等模型均考慮如何得到文本單詞較好的詞向量表示,雖然對 下游任務性能有所提升,但其本質上仍是一種靜態的預訓練 模型.

2018年,Peters等[8]提出的 ELMo模型將語言模型帶入 動態的預訓練時代.ELMo模型采用雙層雙向的 LSTM [9]編 碼器進行預訓練,提取上下文信息,并將各層詞嵌入輸入特定 下游任務中進行微調.該模型不僅可以學習到底層單詞的基 礎特征,而且可以學到高層的句法和語義信息.然而,ELMo 模型只能進行串行計算,無法并行計算,模型訓練的效率較 低;此外,該模型無法對長序列文本進行建模,常出現梯度消 失等問題.而 后,OpenAI提 出 了 GPT(GenerativePreGtraiG ning)[10]模 型.與 ELMo模 型 不 同,GPT 采 用 Transformer 深度神經網絡,其處理長文本建模的能力強于 LSTM,僅使用 Transformer解碼器進行特征提取,在機器翻譯等生成式任務 上表現驚人,但這一特點也導致 GPT 只利用到了當前詞前面 的文本信息,并沒有考慮到后文信息,其本質上依舊是一種單 向語言模型.為了解決 GPT等模型單向建模的問題,2018年, Devlin等[4]提出了 BERT 模型,該模型是第一個基于 Transformer的 雙 向 自 監 督 學 習 的 預 訓 練 模 型,在 英 文 語 言 理解評測基準[11]榜單中的多個任務上達到了SOTA 結果,此 后出現了一大批基于 BERT的預訓練模型,大幅提升了下游 自然語言處理任務的性能.中文預訓練模型雖然起步較晚, 但發展迅速,已經取得了一定成果,本文第4節將對其進行重 點介紹.

**2.2 研究中文預訓練模型的原因 **

首先,中文和英文分別是世界上使用人數最多和范圍最 廣的兩種語言,然而在自然語言處理領域,英文預訓練模型較 為普遍,例如,以 BERT 為首及其后出現的大量預訓練模型 均是在單一語料英文數據集上進行訓練,此外模型的設計理 念也更適用于英文,比如分詞方式及掩碼方式等.其次,中文 和英文語言本質上存在差異,它們的主要區別是,中文文本通 常由多個連續的字符組成,詞與詞之間沒有明顯的分隔符. 如果使用英文預訓練模型去處理常見的中文任務,效果往往 不佳.因此,為了推動中文領域自然語言處理技術和預訓練 模型在多語言任務方面的發展,構建以中文為核心的預訓練 模型勢在必行.

3 Transformer和 BERT

自2021年以來,中文預訓練模型進入井噴式的發展階 段,其架構主要基于 Transformer和 BERT 兩種基礎模型,本 節主要介紹這兩種模型. 圖1為典型的 Transformer架構,該架構由6個結構相 同的編碼器和解碼器堆疊而成.單個編碼器由堆疊的自注意 力層和前饋神經網絡組成,解碼器由堆疊的自注意力層、掩碼 注意力層 和 前 饋 神 經 網 絡 組 成.有 關 Transformer的 詳 細 細節介紹請參考文獻[14].

BERT

BERT [4] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一種面向自然語言處理任務 的無監督預訓練語言模型,由 Transformer的雙向編碼器表 示.BERT的架構如圖2所示.

圖2 BERT示意圖[4]

4 中文預訓練模型分類

**在自然語言處理領域,繼 Transformer和 BERT 出現之 后,涌現出大量的預訓練模型,這些模型主要針對英文領域, 中文領域的研究起步較晚.但在近兩年,中文預訓練模型受 到廣大學者的關注并取得了一定的研究成果.為了闡明現有 的中文預訓練模型,本節主要從以下6個方面對現有的預訓練 模型進行分類,圖3展示了典型的中文預訓練模型的分類圖. (1) 預訓練模型的方法改進,主要包括掩碼方式的轉變、 位置編碼的轉變、LN 層的位置變化、MoE 層的使用、多粒度訓練和其他改進. (2) 融入外部信息的預訓練,主要包括命名實體、知識圖 譜、語言學知識和特定知識.(3) 關于多模態融合的預訓練模型. (4) 側重于高效計算的預訓練,主要包括數據處理階段、 預訓練階段以及技術優化. (5) 指特定領域的預訓練,主要包括對話系統和其他領域 的預訓練模型. (6) 介紹一些其他變體,主要側重于典型的英文預訓練模 型開源的中文版本.

圖3 中文預訓練模型分類圖

5. 中文領域的評測基準

5.1 為什么建立中文領域的評測基準

首先,從使用人數上看,中國人口占世界人口的五分之 一,人數龐大,因此中文是世界上使用人數最多的語言;其次, 從語言體系上看,中文與英文差異較大;最后,從數據集角度 出發,中文領域公開可用的數據集較少,此前提出的中文預訓 練模型在英文評測基準上評估,無法完全體現出模型性能. 當下預訓練模型的發展極其迅速,英文領域的評測基準已步 入成熟階段,而中文領域的缺失必然會導致技術落后,因此中 文領域的評測基準必不可少.本節主要介紹4種不同的評測 基準.

6 研究趨勢與展望

中文預訓練模型已在多個領域實現商業化落地,并展現出一定的市場潛力,取得了長足發展,但也存在較多挑戰,例 如預訓練模型規模和性能之間的平衡問題;如何構建更加通 用型的預訓練模型;如何突破現有多模態和輕量化模型的瓶 頸;如何構建融入更多中文特色的預訓練模型等.本文主要 從以下幾個方面對未來進行展望.

6.1 規模隨著以 BERT和 GPT等為代表的大規模預訓練模型的 出現,逐漸掀起了預訓練模型朝大規模方向發展的浪潮.大 量的研究表明,模型參數量越大,訓練數據量越多的預訓練模 型表現更出色.中文領域存在眾多大規模預訓練模型,如源 1.0參數 2457億,訓練數據集達5000GB;ERNIE3.0Titan 參數2600億;中文多模態模型 M6參數量已經擴展至十萬億 級別.目前預訓練模型還未達到模型的性能極限,增大模型 參數量和訓練數據仍是提高模型性能最有效的手段,探索超 大規模預訓練模型的道路還將繼續,也需要更加注重模型的 創新性、訓練的低碳化和應用的高效性. 然而,訓練超大規模的模型仍存在很大挑戰.首先,使用 最大 GPU 也不可能在內存中擬合所有參數;其次,算法優化 不足會耗費極長的訓練時間;最后,搭建超大規模模型會帶來 巨大的成本,讓學術界和小型科技公司望而卻步.如何在模 型性能和成本之間取得平衡也是當前學者探索的另外一條道 路,如探索輕量化的預訓練模型.近期騰訊提出的“神農”、瀾 舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等輕量 化模型,僅以十億左右的參數量就在部分任務上達到了 SOG TA 結果,因此探索輕量化模型勢在必行.

6.2 融入外部信息預訓練模型在部分任務上已無限接近人類,甚至超越人 類,然而,其對知識的掌握依舊不足,如何讓預訓練模型真正 理解并運用知識是一個值得長期研究的課題,尤其是中華民 族上下五千年形成的文化知識頗多,比如“常識性知識”和“特 定領域的知識”等.特定領域的知識可以幫助模型挖掘不同 領域特有的知識,如果能夠將特定領域的行業知識與模型結 合起來訓練,不僅可以將預訓練模型更廣泛地應用到不同的 下游任務,在各行各業中實現良好的產業落地,而且可以與腦 科學、心理學、神經學等其他學科融合,更好地發展人工智能, 服務人類生活. 除了融入知識信息之外,還可以從中文字形和字音等方 面考慮.因為中文語言的特殊性,其字符的符號也包含一些額外信息,這些額外信息能增強中文自然語言的表現力,如 ChineseBERT [46]模型中提出將中文字形和拼音信息融入預 訓練模型中,以此增強模型對中文語料的建模能力,但這一方 向的研究還相對較少,仍有待完善.

6.3 多模態領域現實世界離不開語言,語言離不開語音和視覺信息,類似 于人的感覺器官:眼、耳、嘴,任何一樣的缺失都會影響生活. 當前,互聯網音視頻資源占比較大,純文本信息只能覆蓋互聯 網資源的一小部分,更加豐富的音視頻信息并沒有被充分利 用,因此預訓練模型必然朝著多模態的趨勢發展.目前,多模 態預訓練模型的研究大多只考慮了兩種模態,圖像文本或者 視頻文本,而音頻信息大多被忽視.中文預訓練模型起步雖 晚,但成績斐然.中科院自動化所提出了全球首個圖文音(視 覺G文本G語音)三模態的預訓練模型 OPT [51],該模型同時具 備跨模態理解與生成的能力.通過上述分析可知,多模態的 研究擁有很大的發展空間.

本文主要圍繞中文預訓練模型的研究現狀進行概述.從模型規模上看,中文預訓練模型的發展正處于兩條 道路上.一是朝著超大規模預訓練模型的方向發展;二是尋 求輕量化模型的發展.從外部信息來看,大多數的預訓練模 型都融入了各種知識,預訓練與先驗知識的深度融合刻不容 緩.從高效訓練上看,現有模型都在不斷地探索更加高效的 訓練方式.從多模態的角度上看,中文多模態預訓練模型的 發展正處于上升階段,正朝著更多模態、更加通用的方向發 展.從特定領域的模型來看,預訓練模型可應用于多種領域, 具有較大的發展潛力.綜上所述,中文預訓練模型雖然取得 了不可忽視的成績,但還有更大的發展空間,未來將朝著更大 規模、更加高效、適用更多領域的方向發展.

付費5元查看完整內容

//ruder.io/recent-advances-lm-fine-tuning/index.html

在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。

如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。

標準的pre-train —— fine-tuning 場景

雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示:

付費5元查看完整內容

摘要:隨著日益劇增的海量數據信息的產生以及數據挖掘算法的廣泛應用,人們已經進入了大數據時代.在數據規模飛速增長的前提下,如何高效穩定的存取數據信息以及加快數據挖掘算法的執行已經成為學術界和工業界急需解決的關鍵問題.機器學習算法作為數據挖掘應用的核心組成部分,吸引了越來越多研究者的關注,而利用新型的軟硬件手段來加速機器學習算法已經成為了目前的研究熱點之一.本文主要針對基于ASIC和FPGA等硬件平臺設計的機器學習加速器進行了歸納與總結.首先,本文先介紹了機器學習算法,對代表性的算法進行了分析和歸納.接下來對加速器可能的著眼點進行了列舉綜述,以各種機器學習硬件加速器為主要實例介紹了目前主流的加速器設計和實現,并圍繞加速器結構進行簡單分類和總結.最后本文對機器學習算法硬件加速這個領域進行了分析,并對目前的發展趨勢做出了展望.

付費5元查看完整內容

深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。

然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。

1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。

2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。

本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。

然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。

最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。

目錄:

  1. 介紹
  • 目前使用的深度學習
  • 現有模型和新應用的實際局限性
  • 研究、工業和標準化方面的最新發展
  1. 神經網絡壓縮
  • 背景:資料編碼、信息論
  • 修剪和稀疏化方法
  • 量化和定點推理
  • 神經網絡格式
  • 用例研究:設備上的語音識別

3.問題 4. 休息時間 5. 分布式學習

  • 背景:SGD,學習理論
  • 聯邦和分布式學習的基本概念
  • 減少通信開銷和連接到NN壓縮
  • 聯邦學習和差異隱私
  • 集群聯合學習
  1. 問題
付費5元查看完整內容
北京阿比特科技有限公司