隨著深度學習在視覺、推薦系統、自然語言處理等諸多領域的不斷發展,深度神經網絡(DNNs)在生產系統中得到了廣泛的應用。大數據集的可用性和高計算能力是這些進步的主要因素。這些數據集通常是眾包的,可能包含敏感信息。這造成了嚴重的隱私問題,因為這些數據可能被濫用或通過各種漏洞泄露。即使云提供商和通信鏈路是可信的,仍然存在推理攻擊的威脅,攻擊者可以推測用于訓練的數據的屬性,或者找到底層的模型架構和參數。在這次調查中,我們回顧了深度學習帶來的隱私問題,以及為解決這些問題而引入的緩解技術。我們還指出,在測試時間推斷隱私方面的文獻存在空白,并提出未來可能的研究方向。
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。
題目: An Overview of Privacy in Machine Learning
序言: 在過去幾年中,谷歌、微軟和亞馬遜等供應商已經開始為客戶提供軟件接口,使他們能夠輕松地將機器學習任務嵌入到他們的應用程序中。總的來說,機構現在可以使用機器學習作為服務(MLaaS)引擎來外包復雜的任務,例如訓練分類器、執行預測、聚類等等。他們還可以讓其他人根據他們的數據查詢模型。當然,這種方法也可以在其他情況下使用(并且經常提倡使用),包括政府協作、公民科學項目和企業對企業的伙伴關系。然而,如果惡意用戶能夠恢復用于訓練這些模型的數據,那么由此導致的信息泄漏將會產生嚴重的問題。同樣,如果模型的內部參數被認為是專有信息,那么對模型的訪問不應該允許對手了解這些參數。在本文中,我們對這一領域的隱私挑戰進行了回顧,系統回顧了相關的研究文獻,并探討了可能的對策。具體地說,我們提供了大量關于機器學習和隱私相關概念的背景信息。然后,我們討論了可能的對抗模型和設置,涵蓋了與隱私和/或敏感信息泄漏有關的廣泛攻擊,并回顧了最近試圖防御此類攻擊的結果。最后,我們總結出一系列需要更多工作的開放問題,包括需要更好的評估、更有針對性的防御,以及研究與政策和數據保護工作的關系。
本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同,元學習使用較少的樣本數據集,并考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基于相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合,以提供可行的集成問題解決方案。介紹了元學習方法的性能比較,并討論了今后的研究方向。
題目: Natural Language Processing Advancements By Deep Learning: A Survey
摘要: 自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。算力的最新發展和語言大數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本綜述對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們并進一步分析和比較不同的方法和最先進的模型。
題目: Threats to Federated Learning: A Survey
簡介:
隨著數據孤島的出現和隱私意識,訓練人工智能(AI)模型的傳統集中式方法面臨著嚴峻的挑戰。在這種新現實下,聯邦學習(FL)最近成為一種有效的解決方案。現有的FL協議設計已顯示出存在漏洞,系統內部和外部系統的攻擊者都可以利用這些漏洞來破壞數據隱私。因此,讓FL系統設計人員了解未來FL算法設計對隱私保護的意義至關重要。當前,沒有關于此主題的調查。在本文中,我們 彌合FL文學中的這一重要鴻溝。通過簡要介紹FL的概念以及涵蓋威脅模型和FL的兩種主要攻擊的獨特分類法:1)中毒攻擊 2)推理攻擊,本文提供了對該重要主題的易于理解的概述。我們重點介紹了各種攻擊所采用的關鍵技術以及基本假設,并討論了未來研究方向,以實現FL中更強大的隱私保護。
目錄:
簡介:
當AI在著名的AlphaGo游戲中擊敗人類時,深度學習(DL)一戰成名,深度學習訓練和學習方法已被廣泛認可為“人性化”的機器。 企業AI平臺中的許多高級自動化功能是由機器學習(ML)和深度學習技術的快速增長而引起的。 深度學習的下一步是什么?
2019年的深度學習深入探討了DL在AI的許多方面(無論是NLP還是計算機視覺應用程序)“無處不在”。 逐步地,啟用了AI和DL的自動化系統,工具和解決方案正在滲透并接管所有業務部門-從營銷到客戶體驗,從虛擬現實到自然語言處理(NLP)-到處都有數字化影響。
深度學習的端到端加密引發了公眾對個人數據絕對隱私的需求的爭議。這種消費者需求與Facebook當前的AI研究工作產生直接沖突。 Facebook的AI研究人員需要“大量收集”個人數據來訓練學習算法。
Facebook意識到端到端加密的烏托邦概念確實是一個在研究世界中從大量個人數據中尋求答案的神話。為了將來的努力,研究人員現在正在認真考慮針對單個設備上的“數據”訓練算法,而不是大量收集個人數據。在這種情況下,Facebook工程師將直接在用戶手機上安裝內容審核算法,以繞過違反數據隱私的行為。
在一個有爭議的帖子中,該KD Nugget帖子的作者預測深度學習可能不是AI的未來。根據作者的說法,其背后的原因是,將來許多DL方法不僅會變得不合法,而且將變得完全非法。該帖子還暗示,未來的移動應用很可能沒有DL。
啟用DL的解決方案的另一個嚴重局限性在于,學習算法仍無法提供選擇的詳細原因,這可能會激起用戶盲目接受AI工具提供的決策。
《深度學習的未來預測》表明,在未來5至10年中,DL將通過每個軟件開發平臺實現民主化。 DL工具將成為開發人員工具包的標準組成部分。 納入標準DL庫的可重用DL組件將具有其先前模型的訓練特征,以加快學習速度。 隨著深度學習工具的自動化持續發展,該技術存在一種固有的風險,即技術會變得如此復雜,以至于普通開發人員會發現自己完全無知。
【導讀】分布式機器學習Distributed Machine Learning是學術界和工業界關注的焦點。最近來自荷蘭的幾位研究人員撰寫了關于分布式機器學習的綜述,共33頁pdf和172篇文獻,概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
?論文地址: //www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07 ?
摘要 在過去的十年里,對人工智能的需求顯著增長,而機器學習技術的進步和利用硬件加速的能力推動了這種增長。然而,為了提高預測的質量并使機器學習解決方案在更復雜的應用中可行,需要大量的訓練數據。雖然小的機器學習模型可以用少量的數據進行訓練,但訓練大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于處理訓練數據的需求已經超過了計算機器計算能力的增長,因此需要將機器學習的工作負載分布到多臺機器上,并將集中式的學習任務轉換為分布式系統。這些分布式系統提出了新的挑戰,首先是訓練過程的有效并行化和一致模型的創建。本文概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
1. 引言
近年來,新技術的快速發展導致了數據采集的空前增長。機器學習(ML)算法正越來越多地用于分析數據集和構建決策系統,因為問題的復雜性,算法解決方案是不可行的。例如控制自動駕駛汽車[23],識別語音[8],或者預測消費者行為[82]。
在某些情況下,訓練模型的長時間運行會引導解決方案設計者使用分布式系統來增加并行性和I/O帶寬總量,因為復雜應用程序所需的訓練數據很容易達到tb級的[29]。在其他情況下,當數據本身就是分布式的,或者數據太大而不能存儲在一臺機器上時,集中式解決方案甚至都不是一個選項。例如,大型企業對存儲在不同位置的[19]的數據進行事務處理,或者對大到無法移動和集中的天文數據進行事務處理[125]。
為了使這些類型的數據集可作為機器學習問題的訓練數據,必須選擇和實現能夠并行計算、數據分布和故障恢復能力的算法。在這一領域進行了豐富多樣的研究生態系統,我們將在本文中對其進行分類和討論。與之前關于分布式機器學習([120][124])或相關領域的調查([153][87][122][171][144])相比,我們對該問題應用了一個整體的觀點,并從分布式系統的角度討論了最先進的機器學習的實踐方面。
第2節深入討論了機器學習的系統挑戰,以及如何采用高性能計算(HPC)的思想來加速和提高可擴展性。第3節描述了分布式機器學習的參考體系結構,涵蓋了從算法到網絡通信模式的整個堆棧,這些模式可用于在各個節點之間交換狀態。第4節介紹了最廣泛使用的系統和庫的生態系統及其底層設計。最后,第5節討論了分布式機器學習的主要挑戰
2. 機器學習——高性能計算的挑戰?
近年來,機器學習技術在越來越復雜的應用中得到了廣泛應用。雖然出現了各種相互競爭的方法和算法,但所使用的數據表示在結構上驚人地相似。機器學習工作負載中的大多數計算都是關于向量、矩陣或張量的基本轉換——這是線性代數中眾所周知的問題。優化這些操作的需求是高性能計算社區數十年來一個非常活躍的研究領域。因此,一些來自HPC社區的技術和庫(如BLAS[89]或MPI[62])已經被機器學習社區成功地采用并集成到系統中。與此同時,HPC社區已經發現機器學習是一種新興的高價值工作負載,并開始將HPC方法應用于它們。Coates等人,[38]能夠在短短三天內,在他們的商用現貨高性能計算(COTS HPC)系統上訓練出一個10億個參數網絡。You等人[166]在Intel的Knights Landing(一種為高性能計算應用而設計的芯片)上優化了神經網絡的訓練。Kurth等人[84]證明了像提取天氣模式這樣的深度學習問題如何在大型并行高性能計算系統上進行優化和快速擴展。Yan等人[163]利用借鑒于HPC的輕量級概要分析等技術對工作負載需求進行建模,解決了在云計算基礎設施上調度深度神經網絡應用程序的挑戰。Li等人[91]研究了深度神經網絡在加速器上運行時對硬件錯誤的彈性特性,加速器通常部署在主要的高性能計算系統中。
與其他大規模計算挑戰一樣,加速工作負載有兩種基本的、互補的方法:向單個機器添加更多資源(垂直擴展或向上擴展)和向系統添加更多節點(水平擴展或向外擴展)。
3. 一個分布式機器學習的參考架構
圖1 機器學習的概述。在訓練階段,利用訓練數據和調整超參數對ML模型進行優化。然后利用訓練后的模型對輸入系統的新數據進行預測。
圖2 分布式機器學習中的并行性。數據并行性在di上訓練同一個模型的多個實例!模型并行性將單個模型的并行路徑分布到多個節點。
機器學習算法
機器學習算法學習根據數據做出決策或預測。我們根據以下三個特征對當前的ML算法進行了分類:
反饋、在學習過程中給算法的反饋類型
目的、期望的算法最終結果
方法、給出反饋時模型演化的本質
反饋 訓練算法需要反饋,這樣才能逐步提高模型的質量。反饋有幾種不同類型[165]:
包括 監督學習、無監督學習、半監督學習與強化學習
目的 機器學習算法可用于各種各樣的目的,如對圖像進行分類或預測事件的概率。它們通常用于以下任務[85]: 異常檢測、分類、聚類、降維、表示學習、回歸
每一個有效的ML算法都需要一種方法來迫使算法根據新的輸入數據進行改進,從而提高其準確性。通過算法的學習方式,我們識別出了不同的ML方法組: 演化算法、隨機梯度下降、支持向量機、感知器、神經網絡、規則機器學習、主題模型、矩陣分解。
圖3所示:基于分布程度的分布式機器學習拓撲
4. 分布式機器學習生態系統
圖4所示。分布式機器學習生態系統。通用分布式框架和單機ML系統和庫都在向分布式機器學習靠攏。云是ML的一種新的交付模型。
5 結論和當前的挑戰
分布式機器學習是一個蓬勃發展的生態系統,它在體系結構、算法、性能和效率方面都有各種各樣的解決方案。為了使分布式機器學習在第一時間成為可行的,必須克服一些基本的挑戰,例如,建立一種機制,使數據處理并行化,同時將結果組合成一個單一的一致模型。現在有工業級系統,針對日益增長的欲望與機器學習解決更復雜的問題,分布式機器學習越來越普遍和單機解決方案例外,類似于數據處理一般發展在過去的十年。然而,對于分布式機器學習的長期成功來說,仍然存在許多挑戰:性能、容錯、隱私、可移植性等。
題目: A Survey on Distributed Machine Learning
簡介: 在過去十年中,對人工智能的需求已顯著增長,并且這種增長得益于機器學習技術的進步以及利用硬件加速的能力,但是,為了提高預測質量并在復雜的應用程序中提供可行的機器學習解決方案,需要大量的訓練數據。盡管小型機器學習模型可以使用一定數量的數據進行訓練,但用于訓練較大模型(例如神經網絡)的輸入與參數數量成指數增長。由于處理訓練數據的需求已經超過了計算機器的計算能力的增長,因此急需在多個機器之間分配機器學習工作量,并將集中式的精力分配到分配的系統上。這些分布式系統提出了新的挑戰,最重要的是訓練過程的科學并行化和相關模型的創建。本文通過概述傳統的(集中的)機器學習方法,探討了分布式機器學習的挑戰和機遇,從而對當前的最新技術進行了廣泛的概述,并對現有的技術進行研究。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。
論文題目: Blockchain for Future Smart Grid: A Comprehensive Survey
論文摘要: 智能電網的概念已被引入,作為常規電網的新視野,以尋求一種整合綠色和可再生能源技術的有效方法。通過這種方式,連接互聯網的智能電網(也稱為能源互聯網)也正在作為一種創新的方法出現,以確保隨時隨地的能源供應。這些發展的最終目標是建立一個可持續發展的社會。但是,對于傳統的集中式網格系統而言,集成和協調大量不斷增長的連接可能是一個具有挑戰性的問題。因此,智能電網正在從其集中形式轉變為分散式拓撲。另一方面,區塊鏈具有一些出色的功能,使其成為智能電網范例的有前途的應用程序。本文旨在對區塊鏈在智能電網中的應用進行全面的調查。因此,我們確定了可以通過區塊鏈解決的智能電網場景的重大安全挑戰。然后,我們提出了許多基于區塊鏈的最新研究成果,這些研究成果發表在不同的文獻中,涉及智能電網領域的安全問題。我們還總結了最近出現的幾個相關的實用項目,試驗和產品。最后,我們討論了將區塊鏈應用于智能電網安全問題的基本研究挑戰和未來方向。