近年來數字圖像通信、計算機技術和圖像處理技術發展快速增長,不同的圖像攻擊,致使圖像安全已經成為一個基本需求。圖像安全方法被分為密碼學和數據隱藏技術,包括數字水印和密碼學。本研究報告回顧了現有的圖片數據隱藏技術,其優點和缺點,以及未來的研究方向。除了調查之外,我們還包括對幾種損害圖片傳輸的幾何和圖像處理攻擊的簡要解釋,以及闡述了多媒體安全的基本思想、基本需求和最新應用。我們討論了各種方法及其特點、類型、需求和工作機制。我們根據不同的領域對這些技術進行分類。數據隱藏方法的一般概念,它們的特點,最近的應用,以及最近對擬議技術的研究工作在下面的章節中進行了討論,最后,不同方法之間的比較已經在一個表格中呈現。
使用互聯網來分享和傳輸大量數據的做法已經取得了快速的進展。最近,多媒體安全已成為所有應用中最關鍵的問題之一,以保護通過網絡存儲和傳輸的數據。在最近的十年中,多媒體通信被廣泛使用,這在許多領域都是至關重要的,如娛樂、工業、經濟、電子醫療和軍事應用[1]。
多媒體數據,已經通過互聯網以各種形式,如視頻、音頻、文本和圖像,快速而廣泛地傳輸到目的地。通過互聯網傳輸的數字數據對所有用戶來說都是可獲得和可檢測的。由于數據在傳輸介質上的發送過程、數據存儲庫和數據處理,數據內容可以被自由竊聽、收集、復制和非法分發。多媒體具有獨特的特點,需要對加密方法有特殊的要求[2]。人們提出了多種技術來保護圖像并證明其所有權,例如水印和密碼學,如圖1所示。
如圖2所示,在圖像通過多媒體網絡傳輸時,許多類型的攻擊會對其產生影響。這些攻擊被歸類為噪音攻擊(鹽和胡椒,高斯噪音),幾何攻擊(翻譯,縮放和旋轉),以及其他[3]。另一方面,圖像去噪如平均濾波器、中值濾波器和索貝爾濾波器。直方圖均衡化和自適應直方圖是圖像處理攻擊的一個例子。此外,圖像壓縮攻擊。
密碼學的方法旨在防止對加密數據傳輸的竊聽。密碼學背后的想法是隱藏數字數據。密碼學來自希臘語stegano,意思是 "覆蓋",和graphy,意思是 "書寫"。因此,這兩個詞已成為 "覆蓋式寫作 "的同義詞[4]。使用私鑰,它探索了不同的嵌入方法。秘密信息是賦予隱藏內容的名稱,而覆蓋文件是賦予保存秘密文件的容器的名稱。任何種類的多媒體元素,包括視頻、音樂、照片和文本,都可以被用作封面[5]。
如前所述,密碼學包括在另一個多媒體文件中嵌入關鍵信息,如圖3所示。因此,密碼學模型必須有更多的擴展等效能力[4]。作者在[5和6]中證明了一個好的隱寫系統的三個關鍵標準。安全性、不可知性和有效載荷容量都是重要的考慮因素。圖5描述了他們的研究[8]中確定的第四個質量:穩健性。因此,任何提議的算法都應該保留這些品質中的大部分。
如圖4所示,各種隱寫方法可以分為空間、變換、自適應域、基于區域、人類視覺和機器學習。這種分類將在接下來的章節中更深入地描述,同時也會介紹一些最新的研究[9]。
圖像處理技術的發展使復制、改變和分享數字內容變得更容易,而且成本低,同時保持高質量。數字照片的水印是檢測篡改和證明所有權的另一種方法[60]。如圖6所示,水印是在圖像中插入一段信息而不改變其價值的一種手段,以便識別數據的原始來源。
水印法克服了密碼學的局限性,將水印放入封面圖像中,從而防止水印被發現[61]。圖7中描述了水印方法的多種要求。
一個數字水印系統分為三個階段:生成水印、嵌入和提取。當一個數字圖像的版權出現問題時,提取水印以證明他的版權。
國防科大最新《深度學習視覺語音分析》綜述論文,值得關注!
視覺語音,即語音的視覺領域,因其在公共安全、醫療、軍事防御、影視娛樂等領域的廣泛應用而受到越來越多的關注。深度學習技術作為一種強大的人工智能策略,廣泛地推動了視覺語音學習的發展。在過去的五年中,許多基于深度學習的方法被提出來解決這一領域的各種問題,特別是視覺語音的自動識別和生成。為了進一步推動視覺語音的研究,本文對視覺語音分析中的深度學習方法進行了綜述。我們涵蓋了視覺語音的不同方面,包括基本問題、挑戰、基準數據集、現有方法的分類和最先進的性能。此外,我們還指出了現有研究的不足,并對未來的研究方向進行了探討。
人類的語言本質上是雙峰的: 視覺和聽覺。視覺語言是指語言的視覺領域,即在說話[1]時自然產生的嘴唇、舌頭、牙齒、下顎等面部肌肉的運動,而音頻語言是指說話者發出的聲學波形。語言感知本質上是雙峰的,正如幾十年前著名的McGurk效應[2]所表明的那樣,人類的語言感知不僅依賴于聽覺信息,還依賴于像嘴唇運動這樣的視覺線索。因此,毫無疑問,視覺語言有助于人類的語言感知,特別是對于聽力受損或聽力困難的人,或當聽覺信息被破壞時。
自動視覺語音分析(VSA)作為計算機視覺和多媒體領域的一個基礎性和挑戰性課題,近年來受到越來越多的關注,因為它在各種應用中發揮著重要的作用,其中許多應用是新興的。VSA包括兩個基本的密切相關的形式雙重問題: 視覺語音識別(VSR)或唇讀,視覺語音生成(VSG)或唇序列生成。由于近年來深度學習的蓬勃發展,這一領域已經取得了重大進展。典型的學術界和實際應用包括多模態語音識別和增強、說話人識別和驗證[3]、醫療救助、安全、取證、視頻壓縮、娛樂、人機交互、情感理解等[4,5]。 舉一些應用實例,在語音識別和增強中,可以將視覺語音作為互補信號處理,以提高當前音頻語音識別和分離在各種不利聲學條件下的準確性和魯棒性[6,7,8,9]。在醫學領域,解決VSR任務也可以幫助聽力受損的[10]和聲帶病變的人。在公安領域,VSA可用于人臉偽造檢測[11]和活體檢測[12]。在人機交互中,視覺語音可以作為一種新型的交互信息,提高交互的多樣性和魯棒性[13,14]。在娛樂領域,VSG技術在虛擬游戲中個性化的3D說話頭像生成[15],以及在電影后期如視覺配音[16]中實現高保真真實感的說話視頻生成等方面發揮著至關重要的作用。此外,VSR可以用來轉錄無聲電影檔案。
VSA的核心是視覺語音表示學習和序列建模。在傳統VSA方法為主的時代,視覺語音的淺層表示如visemes[17,18]、口型幾何描述符[19]、線性變換特征[20]、統計表示[21]、序列建模如高斯過程動力學模型[22]、隱馬爾可夫模型(hmm)[23]、決策樹模型[24]被廣泛應用于解決VSA任務。自從深度神經網絡(DNNs)[25]在圖像分類任務中取得重大突破以來,大多數計算機視覺和自然語言問題都明確地集中在深度學習方法上,包括VSA。2016年,基于深度學習的VSA方法[26,27]的表現大大超過了傳統方法,使VSA進入了深度學習時代。同時,大規模VSA數據集的出現[27,28,29,30,31]推動了基于深度學習的VSA研究的進一步發展。在本文中,我們主要研究基于深度學習的VSA方法。VSA技術從2016年到現在的里程碑如圖1所示,包括具有代表性的深度VSR和VSG方法以及相關的視聽數據集。
圖1 從2016年到現在視覺語音分析的時間里程碑,包括代表性的VSR和VSG方法,以及視聽數據集。手工制作的特征工程方法一直占據著VSA的主導地位,直到2016年相關深度網絡的引入才發生了轉變。
盡管在過去的幾年中,深度學習帶來了一些有希望的進展,但VSA技術仍處于早期階段,無法滿足實際應用的要求。這當然不是由于研究人員的努力不足,因為已經有許多關于VSA的優秀工作[6,28,32,33,34,35]。因此,系統地回顧該領域的最新發展,識別阻礙其發展的主要挑戰和開放問題,并確定有希望的未來方向是非常重要的。然而,VSA研究的大部分仍然相當分散,沒有這樣的系統性綜述。
本綜述的主要目的是全面概述當前基于深度學習的VSA方法,特別是VSR和VSG及其相關應用、主要挑戰、基準數據集、方法和最先進(SOTA)結果,以及現有的差距和未來的研究方向。我們把VSR和VSG綜合起來進行概述,主要有三個原因。首先,VSR和VSG作為VSA中最基本的問題,涵蓋了視覺語音分析的大部分方面。其他與VSA相關的任務,如語音增強、說話人驗證、人臉偽造檢測等,都可以看作VSR和VSG的擴展應用。第二,由于VSR和VSG是形式化對偶的,并且相互促進,因此二元學習[36]和生成式對抗學習[37]在現有的許多VSA著作中被廣泛采用[32,38,39,40,41]。因此,我們打算提供一個側面的視角,讓讀者了解VSR和VSG的演變。第三,VSR和VSG具有共同的核心技術要點,如視覺語音表示學習方法和上下文序列建模方法。我們希望這將有助于讀者對這些方法的跨任務可轉移性有一個可理解的理解。
現在我們可以總結我們在本文中的主要貢獻。
據我們所知,這是第一個系統全面地回顧了視覺語音分析的深度學習方法的綜述論文,涵蓋了兩個基本問題,即視覺語音識別和視覺語音生成。
針對每個問題總結了問題定義、主要挑戰、基準數據集和測試協議,值得注意的是,還確定了不同VSA問題之間的關系。
我們提出了一個分類法來對主要方法進行分組。此外,還分析了代表性方法的性能比較、優缺點及其內在聯系。
提供了該領域的開放問題和有前途的方向。
圖像配準是圖像引導手術、圖像融合、器官圖譜生成、腫瘤和骨骼生長監測等臨床任務應用的關鍵技術,也是一個極具挑戰性的問題。近年來,深度學習技術對醫學圖像處理方法的研究產生重要的影響,在醫學圖像配準領域發展迅速。來自美國辛辛那提兒童醫院醫療中心等發布了**《深度學習醫學圖像配準》**綜述,闡述了相關進展。
圖像配準是各種醫學圖像分析應用中的一個重要組成部分。近年來,基于深度學習(DL)的醫學圖像配準模型發展迅速。本文對醫學圖像配準技術進行了綜述。首先,討論了監督配準的分類,如完全監督配準、雙重監督配準和弱監督配準。接下來,基于相似度和基于生成對抗網絡(GAN)的配準被提出作為無監督配準的一部分。然后描述了深度迭代配準,重點是基于深度相似度和基于強化學習的配準。此外,對醫學圖像配準的應用領域進行了綜述。本文主要綜述單模態和多模態配準及其相關成像,如X線、CT掃描、超聲和MRI。本綜述強調了現有的挑戰,其中顯示,一個主要挑戰是缺乏具有已知轉換的訓練數據集。最后,討論了基于深度學習的醫學圖像配準的未來研究方向。
//www.zhuanzhi.ai/paper/1fb1db2059362b38007d8e59df7d6f61
使用圖像配準,可以將不同的圖像集合合并到一個具有相同信息的單一坐標系中。當比較從不同角度多次拍攝的兩幅圖像或使用不同的模態/傳感器時,可能需要配準[1,2]。直到最近,大多數圖像配準都是由醫生手工完成的。人工對齊在很大程度上依賴于用戶的能力,這在臨床上可能不利于某些配準程序的質量。自動配準的產生是為了克服一些可能的缺點手動圖像配準。DL的復興改變了圖像配準研究的背景[3],盡管事實上各種自動圖像配準方法已經被深入研究之前(和期間)。DL[4]使最近的工作在廣泛的計算機視覺任務中得以表現,包括但不限于: 圖像分類[4],分割[5],特征提取[6-8],以及目標識別[9]。作為一個起點,DL在增強基于強度的配準性能方面被證明是有用的。這只是時間問題,直到其他研究人員看到使用強化學習的配準過程的應用[10-12]。由于獲取/創建地面真實數據的困難,人們對開發用于一步轉換估計的無監督框架越來越感興趣[13,14]。圖像相似度量化是這一范式中的一個眾所周知的障礙。應用基于信息理論的相似性度量[13]、生成對抗網絡(GAN)框架[16]和解剖特征分割[17]來解決這一難題,取得了良好的效果。
傳統的圖像配準是一個基于迭代的過程,包括收集必要的特征,確定相似度(以評估配準質量),選擇變換模型,最后是搜索機制[18,149,153]。可以發送到系統的圖片有兩種: 移動和固定,如圖1所示。通過在靜止圖像上反復滑動移動圖像,可以獲得最佳對齊。考慮的相似性度量最初決定了輸入的照片之間的相似度。計算新轉換的參數是通過使用更新機制的優化方法完成的。通過將這些因素作用于運動圖像,就產生了具有改進對齊的圖像。否則,將開始一個新的算法迭代。如果滿足終止要求,則流程結束。直到不能再獲得配準或滿足一定的預定要求,運動圖像才會在每一個循環中改善與靜止圖像的對應關系。該系統的輸出既可以是變換參數,也可以是最終的插值融合圖像。
一個用于醫學圖像的圖像配準框架流程圖
有必要對使用DL的醫學圖像配準領域進行徹底的調研,突出專家面臨的常見問題,并討論可以解決這些挑戰的即將到來的研究可能性。它是一種利用多層神經網絡(NN)來學習數據描述的機器學習(ML)。許多不同種類的神經網絡可以用于不同的目的,最近已經開發出一些重要的設計來解決工程挑戰。在討論神經網絡時,也可以討論許多神經網絡的訓練過程。關于神經網絡類型、訓練范式、網絡結構以及方法的章節構成了DL的介紹。PyTorch[19]、Caffe[20]、Keras[21]、MXNet[22]和TensorFlow[23]都是可用于創建網絡的公共訪問庫。現有的文獻主要集中在醫學圖像分析中使用DL、reinforcement learning和GANs進行醫學圖像分析。
本文綜合回顧了現有文獻中基于離散域的圖像配準的研究進展。本文著重從方法和功能的角度對其創新進行了綜述。本文研究了不同形式的配準,包括無監督和監督變換估計,以及深度迭代配準。討論了當前圖像配準的趨勢、挑戰和局限性。最后,本文對未來的研究方向進行了展望。
對于深度學習模型,監督訓練是各種配準模型的共同基礎。根據在訓練階段中使用的監督程度,有三個子類別的模型: 完全監督、雙重監督和弱監督。完全監督配準利用傳統配準算法中的真DVFs來監督學習過程。這些損失通常是由于地面真實值和預期SVF不匹配造成的,如圖2所示。弱監督配準使用隱式參考標簽,而不是使用廣泛使用的解剖輪廓參考DVF,如圖2所示。經常使用兩種以上的參考數據來訓練雙監督配準模型。這包括解剖結構輪廓、參考SVF以及圖像相似性。
弱監督和完全監督配準模型的示例工作圖
盡管為了解決有監督圖像配準的信息或數據稀缺問題,人們采取了許多策略(如弱監督和數據增強)[43-47],但訓練樣本的創建仍然是一個耗時的過程。由于移動和固定的圖像配對是DL模型需要學習的所有變形,無監督配準是一種方法。表1提供了這個子類別的概述。在這一類別的訓練中仍然需要一個可與傳統迭代配準中使用的損失函數。一個DVF正則化項和一個圖像相似項和通常包括在損失函數中。由于固有卷積的性質,一些相似性度量,即局部NCC (LNCC),被改變為專注于微小斑塊。可以引入各種損失項,如防止過擬合的同一性損失和減少奇異性的循環一致性損失。
基于(a) GAN和(b)相似矩陣的醫學圖像配準通用框架
各種醫學圖像配準通用框架
本文綜述了近年來在醫學圖像配準方面的研究進展。由于每個應用程序都有不同的問題,因此有必要謹慎地開發DL框架。多模態圖像配準,比如涉及TRUS和MRI的配準,也面臨著類似的挑戰,比如無法在多模態應用中使用穩健的相似性度量,缺乏大型數據集,難以獲得地面真實值配準和分割,以及量化模型的偏好。(36、37)。解決這些問題的常用方法包括補丁式框架、應用程序特定的相似性度量、注冊框架和受變分自動編碼器影響的無監督技術。插值和重采樣,盡管在本文中描述的許多方法復雜,通常不是由神經網絡學習。隨著該領域的成熟,我們預計會有更多的學者將這些組件包含到他們基于深度學習的解決方案中。每種策略都有自己的優點和局限性,但比較這兩種策略的研究人員總數大致相同。在這兩個領域,我們預計會出現更多結合這兩種策略的好處的研究和新方法。我們預測在這兩類中還會有進一步的研究。
來自東北大學最新《大規模圖神經網絡系統》綜述論文
圖神經網絡(GNN)是一類基于深度學習的處理圖域信息的方法, 它通過將圖廣播操作和深度學習算法結合, 可以讓圖的結構信息和頂點屬性信息都參與到學習中, 在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性, 已成為一種廣泛應用的圖分析方法. 然而現有主流的深度學習框架(如TensorFlow、PyTorch等)沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持, 這限制了圖神經網絡算法在大規模圖數據上的應用. 目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點, 探索了大規模圖神經網絡系統的設計和實現方案. 首先對圖神經網絡的發展進行簡要概述, 總結了設計圖神經網絡系統需要面對的挑戰; 隨后對目前圖神經網絡系統的工作進行介紹, 從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析; 最后使用部分已開源的圖神經網絡系統進行實驗評估, 從精確度、性能、擴展性等多個方面驗證這些系統的有效性.
圖神經網絡概述
深度學習在對象檢測[1,2]、機器翻譯[3,4]、語音識別[5]、物理系統[6,7]等領域取得了革命性的成功, 推動了對模 式識別和數據挖掘的研究. 現有的深度學習方法能夠處理歐式空間表示下的規則數據, 例如圖像數據可以表示為 歐幾里得空間中的規則網絡, 而現實中的很多應用的數據以圖的形式來表示. 比如在社交網絡[8]中, 可以通過圖來 表示對象之間的關聯關系, 從而能夠進行社區發現、聚類[9]等算法. 在生物領域[10] , 可以通過圖來表示蛋白質分子 之間的關系, 從而能夠對蛋白質進行分類. 在引文網絡[11]領域, 可以用圖來表示論文之間的引用關系, 從而能夠對論文按領域進行分組. 在電子商務領域, 可以用圖來表示用戶和商品之間的交互關系, 從而能夠對用戶進行商品的 推薦. 由于圖數據的不規則性和稀疏性, 每個頂點可能具有不同數量的鄰居, 并且圖數據之間具有依賴性, 圖中每個頂點的計算依賴于其他的頂點, 所以導致很多深度學習方法無法直接應用在圖數據中. 例如, 卷積只能對圖像或文本這樣的歐幾里德數據進行操作, 無法直接應用于圖數據, 限制了深度學習方法在圖領域的發展.
隨著圖領域深度學習方法逐漸受到廣泛關注, 近些年出現了很多圖神經網絡算法, 這些方法通過在傳統深度 學習模型中添加圖操作, 應用圖的結構信息和屬性信息, 來處理圖數據的復雜性, 成為解決圖學習問題的有效方 法. 比較典型的工作有 Structure2Vec[12]、GCN[13]、FastGCN[14]、AS-GCN[15]、GraphSAGE[16]等.
圖神經網絡算法將傳統深度學習的方法, 如卷積, 擴展到了圖數據領域, 并結合數據傳播的思想形成了在圖上的深度學習算法, 其 在社交網絡、推薦系統[17]、知識圖譜[18]、鏈接預測[19]等領域都取得了良好的效果. 圖神經網絡受到廣泛關注的原因如下: 首先, 現有標準神經網絡無法正確處理圖數據的輸入, 因為其按照特定 順序處理節點特征, 而圖中的頂點沒有自然順序. 圖神經網絡算法采用在頂點上傳播信息的計算方式, 忽略頂點的 輸入順序解決了這個問題. 第二, 在標準神經網絡中, 圖中頂點的依賴關系僅能作為頂點特征輸入, 而圖神經網絡 算法根據圖中頂點的依賴關系進行信息傳播, 保留了圖結構的信息, 為下游深度學習任務提供了更加完整的信息. 第三, 推理是高級人工智能的一個重要研究課題, 圖神經網絡強大的表示能力, 為進一步生成強大的神經模型提供 了基礎.
現有的深度學習框架如 TensorFlow[20]、PyTorch[21]、MXNet[22]以及 CNTK[23] , 和圖處理框架 PowerLyra[24]、 PowerGraph[25]、Garaph[26]、Pregel[27]、TuX2[28]都不能很好地支持圖神經網絡的計算, 這阻礙了圖神經網絡的進一 步發展, 也限制了圖神經網絡在大規模數據中的應用. 因此突破現有框架限制, 開發專用于圖神經網絡訓練的系 統, 對于充分發揮圖神經網絡的潛力十分重要.
本文首先分析圖神經網絡算法的計算模式, 提出大規模圖神經系統訓練存在的挑戰, 并對現有系統進行介紹. 然后從系統架構、通信優化等多個維度對這些系統進行詳細的分析和對比, 對圖神經網絡系統的不同優化技術進 行總結和分析, 并對目前已經開源的圖神經網絡系統設計實驗, 從多個方面測評系統的性能, 驗證系統有效性.
大規模圖神經網絡訓練的挑戰
隨著圖神經網絡在不同領域的應用越來越廣, 對訓練圖神經網絡系統的性能要求也越來越高. 結合對圖嵌入[42-44]以及圖神經網絡[45, 46]的分析, 本文對設計開發神經網絡訓練系統存在的挑戰進行如下總結.
(1) 現有深度學習系統不能很好地抽象圖傳播過程. 現有的深度學習系統處理的是規則數據, 規則數據中每個樣本的計算圖是獨立的, 與其他樣本無關, 而圖神經網絡是將深度神經網絡和迭代圖傳播結合起來進行計算的, 圖數據的每個樣本(即圖頂點)之間具有依賴性, 所以現有系統不能自然地表達和有效地支持圖傳播模型. 如何突破現有框架的局限, 設計一種適用于圖神經網絡的系統架構是發展圖神經網絡的重要問題;
(2) 訓練大規模圖神經網絡的計算、存儲復雜度高. 真實世界中的尺寸都非常大, 而且由于頂點之間具有復雜的依賴性, 隨著圖神經網絡層數的增加, 計算成本和內存空間需求呈指數級增長. 例如Facebook的社交網絡圖包含超過20億個頂點和1萬億條邊, 這種規模的圖在訓練時可能會產生100 TB的數據. 所以針對大圖的訓練, 如何設計計算和存儲策略以利用有限的資源來使系統達到理想的性能也是發展圖神經網絡系統的一大挑戰;
(3) 圖計算局部性差導致系統開銷問題. 真實世界圖的稀疏性會導致非常差的空間局部性, 在單機系統中這會導致Cache命中率降低. 而在分布式系統中, 這會導致頻繁的跨節點訪問, 進而產生大量的消息傳遞開銷. 所以如何針對圖的特殊性質減少系統開銷是提高系統性能的一大挑戰;
(4) 圖的冪律分布導致分布式計算負載均衡問題. 對于具有數億個頂點的大型圖, 通常需要對圖進行分布式處理, 圖神經網絡算法不同于傳統的圖算法, 平衡的圖分區不僅依賴于分區內的頂點數量, 還依賴于分區內頂點鄰居的數量, 多層圖神經網絡模型中不同頂點多階鄰居的數量可能相差極大, 并且這些分區之間需要頻繁的數據交換, 如何對圖數據進行合理的分區來保證分布式訓練的性能是對于分布式系統的重大挑戰;
(5) 異構計算架構中的任務劃分和負載調度的合理性問題. GPU的廣泛應用為訓練深度學習模型帶來了很多機會和挑戰. 在利用GPU加速神經網絡的訓練時, 通常將數據存儲在主機內存中, 在計算時需要將數據傳輸到GPU, 由于圖神經網絡算法在反向傳播階段的復雜性, 需要頻繁的在主機和GPU之間進行數據傳輸, 如何設計合理的調度方案來最大程度地減少數據傳輸成本也是提高系統性能的一大挑戰.
為了應對這些挑戰, 出現了很多針對圖神經網絡的訓練框架, 其中單機系統如PyTorch Geomertic、DGL、NeuGraph. 圖神經網絡通常處理非常大且不規則的圖, 這些大圖無法存儲在單個設備中, 因此必須以分布式方式進行分區和處理, 其中分布式圖神經網絡框架如Euler、AliGraph、Roc、AGL. 接下來本文將介紹若干典型的單機圖神經網絡系統以及分布式圖神經網絡系統.
圖神經網絡系統介紹
圖神經網絡算法將深度神經網絡的運算(如卷積、梯度計算)與迭代圖傳播結合在一起: 每個頂點的特征都是由其鄰居頂點的特征結合一組深度神經網絡來計算. 但是, 現有的深度學習框架不能擴展和執行圖傳播模型, 因此缺乏高效訓練圖神經網絡的能力, 并且現有框架一般采用數據/模型并行來分布式訓練深度神經網絡, 這種并行計算方法難以直接應用于圖神經網絡, 因此限制了訓練大規模圖神經網絡的能力. 而現有的圖處理系統雖然能夠表示迭代圖傳播模型, 并能有效支持大規模圖的迭代計算, 但是缺乏支持神經網絡計算的關鍵能力, 如張量抽象、自動微分等. 因此, 為了支持圖神經網絡在大規模圖上的應用, 以及對更復雜圖神經網絡結構的探索, 開發針對圖神經網絡的訓練系統是十分有必要的.
目前具有代表性的圖神經網絡框架: DGL[47]、PyTorch Geometric[48]、NeuGraph[49]、EnGN[50]、Euler[51]、PSGraph[52]、AliGraph[53]、Roc[54]、AGL[55]、PGL[56]. DGL[47]是易于使用, 高性能且可擴展的Python庫, 用于圖結構的深度學習, 能夠與主流的深度學習框架集成, 例如Tensorflow[20]、PyTorch[21]、MXNet[22]. PyTorch Geometric[48]是基于PyTorch構建的深度學習庫, 用于處理非結構化數據的深度學習. NeuGraph[49]是一種將數據流系統和圖處理系統結合起來訓練圖神經網絡的框架, 它構建在現有的數據流引擎之上, 使用Python和C++作為開發語言. EnGN[50]是一種以邊為中心, 專門用于大規模圖神經網絡訓練的加速器. Euler[51]與PSGraph[52]是一個與深度學習工具集成的大規模分布式圖學習框架, 支持用戶在數十億點數百億邊的圖上進行模型訓練. AliGraph[53]是由阿里巴巴團隊開發的采樣建模訓練一體化的圖神經網絡平臺. Roc[54]是一種用于快速圖神經網絡訓練的分布式多GPU框架. AGL[55]是用于工業用途圖學習的集成系統, 利用傳統基礎架構(MapReduce、參數服務器[57])實現了容錯性和一致性. PGL (paddle graph learning)[56]是由百度開發的基于PaddlePaddle的高效靈活的圖學習框架.
圖神經網絡系統總結和分析
本節從系統架構、處理模型、圖分區策略、通信優化策略、以及社區活躍度與系統易用性方面, 對現有圖神經網絡系統進行分析和對比, 并從多個維度對系統的特點進行總結, 以表格的形式清晰的展示系統的共性與不同, 來為研究人員提供有效參考.
(1) 系統架構. DGL和PyTorch Geometric都是結合現有的深度學習框架來實現的, 并且針對圖神經網絡的特點做了多種優化, 達到了很好的性能. 結合現有深度學習框架來實現的系統, 更加方便用戶使用, 能夠幫助其更快地實現圖神經網絡模型. 但結合現有深度學習框架來實現的系統, 在針對圖操作的優化上有很多局限性. NeuGraph采用了一種新的架構, 將圖模型和數據流模型結合起來, 以支持高效的圖神經網絡訓練, 這種架構既彌補了現有數據流引擎不能有效地支持圖計算的缺點, 又彌補了圖引擎不能支持數據流編程模型的缺點. EnGN在統一的處理模型基礎上, 開發了一個定制的EnGN加速器, 它集成了一個神經圖處理單元(NGPU), 可以在統一的體系結構中執行特征提取, 聚合和更新操作. EnGN的專用加速器突破了硬件結構的限制, 相比于其他系統配備的多個CPU或GPU, 大大降低了成本和能源開銷. AliGraph、Euler和PGL的架構類似, 都采用分層架構, 構建于現有數據流框架之上, 并且都構建在CPU平臺上. Roc將圖神經網絡的計算分布在多個計算節點上, 每個計算節點可以包含多個GPU, 每個計算節點在子圖上執行圖神經網絡的訓練, 并與CPU通信來獲得輸入張量并保存中間結果. Roc采用分布式多GPU的架構不僅解決了單節點系統對于大規模圖的限制, 并且比基于CPU的系統更高效. AGL、PSGraph都是利用現有大數據處理系統和參數服務器的并行體系結構來組建的基于CPU的分布式圖神經網絡訓練框架, 這些系統具有良好的容錯性和可伸縮性.
(2) 處理模型. DGL和PyTorch Geometric通過使用面向圖的消息傳遞接口包裝深度學習系統, 來支持針對圖神經網絡的編程. 這種消息傳遞模型很好地表示了圖上的數據流動, 整個模型分為兩步. 第1步: “消息”生成操作, 這個操作定義在每個邊上, 通過將邊的特征與兩端頂點特征組合為每一條邊生成一條“消息”. 第2步: 更新操作, 定義在每個頂點上, 通過匯總頂點入邊傳入的消息來更新頂點特征. 通過系統提供的消息傳遞接口, 用戶可以快速實現圖神經網絡的原型制作. PGL也采用消息傳遞范式構建圖神經網絡的接口, 并提供多種聚合方法, 提高了并行處理效率. NeuGraph提出了一種新的處理模型SAGA-NN, 提高了在頂點和邊上執行批量操作的靈活性, 提供了在圖計算和數據流調度中實現優化的機會, 提高了系統性能. EnGN提供一種以邊為中心的處理模型, 將圖神經網絡的計算抽象為特征提取, 聚合和更新3個階段. EnGN與其他3個系統不同, 在處理模型基礎上定制了針對圖神經網絡的加速器, 不依賴于現有的深度學習系統, 并擁有獨特的數據流處理方法. EnGN優化了頂點數據和邊數據移動的內存訪問模式. 對于大圖中的源頂點數據訪問, 采用圖切片技術, 并確保對源節點的訪問僅引起對連續內存地址的訪問. 對于聚合和更新階段中的隨機目標頂點訪問, EnGN利用哈希邊數據布局和多級緩存方法來避免寫沖突并提高片上緩沖器中的數據命中率.
(3) 圖分區策略. 平衡的圖分區是實現分布式圖神經網絡系統的關鍵之一. Euler采用簡單的哈希方法將圖的頂點進行分片, 這種分片方式使各個節點擁有目標頂點的數量基本一致, 但是在每個頂點的子圖中擁有的鄰居數量是不同的, 所以每個節點的計算負載并不均衡. AliGraph則提供了多種內置的圖分區算法供用戶選擇, 比如適合處理稀疏圖的METIS方法, 適合稠密圖的點割和邊割方法, 這種方法雖然為用戶提供了多種選擇, 但需要用戶自己去判斷使用哪種分區方式, 給用戶造成很大不便. Roc采用一種在線線性回歸模型來優化圖分區. 這種基于線性回歸的圖分區方法在圖神經網絡系統中能夠達到比傳統分區更好的性能.
(4) 通信優化策略. 針對通信開銷影響分布式系統性能的問題, Euler采用的是緩存對應頂點k階內的鄰居頂點信息, 這種方式雖然直接避免了計算節點之間的通信, 但是造成了很嚴重的內存浪費, 并且在冪律分布的圖中還會使各個計算節點之間負載不均衡. AGL采用的策略和Euler相同, 但是AGL提出了重新索引的策略來均衡負載. AliGraph提出了一種緩存重要頂點的鄰居的方法來降低通信開銷, 同時提出了一種對頂點重要性的度量標準, 既能有效減低通信開銷, 又防止產生巨大的存儲成本, 避免資源浪費. ROC引入了代價模型, 可以最大程度地減少CPU和GPU之間的數據傳輸. 這種動態的方法突破了手動優化的局限, 將影響通信的多種因素綜合考慮, 從而更好的降低通信成本, 提高系統性能. PGL的分布式參數服務器提供了一種高效的參數更新策略: GeoSSD, 在全異步的條件下進行參數更新, 并重疊模型訓練與節點通信, 在保證模型效果的前提下提升了訓練效率.
(5)社區活躍度與系統易用性. PyTorch Geometric、DGL、AliGraph、Euler、PSGraph、PGL為開源系統, 這里的社區活躍度以GitHub上討論區的數量為標準, 這其中最活躍的社區為PyTorch Geometric. 在系統易用性方面, 從配置文件的完整度、對其他系統的依賴度、用戶使用的方便度多個角度綜合考量, 這其中DGL和PyTorch Geometric的易用性排在前列, 而Euler與PSGraph雖然給出了配置文件, 但在配置系統時, 需要配置其他多個依賴包, 并且數據處理過程繁瑣, 不易用戶使用. 本文為系統的社區活躍度和易用性給出星級評價, 星級越高, 系統在這兩方面表現越好, 其中空白符號表示系統未開源.
本文對目前的圖神經網絡系統從多個維度進行了綜合分析, 對這些系統的共同特性進行提取, 并總結歸納, 見表1.
總結
本文首先簡要介紹了圖神經網絡的發展, 并對典型的圖神經網絡算法的計算模式進行了介紹, 并簡要分析了圖神經網絡訓練的難點. 然后本文對現有圖神經網絡系統做了詳細描述, 并對這些系統從系統架構、處理模型以及優化策略和系統易用性等多個角度進行分析和總結, 總結了針對圖神經網絡系統的多種優化技術, 最后使用目前可用的開源系統驗證了現有分布式圖神經網絡系統的有效性. 經過論文分析與總結, 發現現有圖神經網絡系統仍存在以下問題, 同時也是未來的研究方向: 首先, 目前系統所采用的架構仍依賴于現有數據流框架, 現有數據流框架針對深度神經網絡的運算做了一系列優化, 但缺少針對圖操作的優化尤其是高效分布式圖操作, 與這些框架結合起來搭建系統, 制約了分布式圖神經網絡系統的進一步發展. 第二, 目前系統所采用的小批量并行計算方式, 并不適用于基于譜方法的圖卷積網絡, 本文通過實驗發現, 采用這種并行計算方式會對基于譜方法圖卷積網絡的訓練精度產生影響. 第三, 圖的分區操作和通信管理是影響系統性能的關鍵因素, 盡管目前的系統已經在這兩方面提出多種優化, 減少了內存消耗和通信開銷, 但這兩者仍存在非常大的優化空間.
對抗樣本攻擊與防御是最近幾年興起的一個研究熱點,攻擊者通過微小的修改生成對抗樣本來使深度神經網絡預測出錯。生成的對抗樣本可以揭示神經網絡的脆弱性,并可以修復這些脆弱的神經網絡以提高模型的安全性和魯棒性。對抗樣本的攻擊對象可以分為圖像和文本兩種,大部分研究方法和成果都針對圖像領域,由于文本與圖像本質上的不同,在攻擊和防御方法上存在很多差異。該文對目前主流的文本對抗樣本攻擊與防御方法做出了較為詳盡的介紹,同時說明了數據集、主流攻擊的目標神經網絡, 并比較了不同攻擊方法的區別。最后總結文本對抗樣本領域面臨的挑戰,并對未來的研究進行展望。
摘要: 圖像分類的應用場景非常廣泛, 很多場景下難以收集到足夠多的數據來訓練模型, 利用小樣本學習進行圖像分類可解決訓練數據量小的問題. 本文對近年來的小樣本圖像分類算法進行了詳細綜述, 根據不同的建模方式, 將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類, 其中基于卷積神經網絡模型的算法包括四種學習范式: 遷移學習、元學習、對偶學習和貝葉斯學習; 基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據, 但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務, 有關的研究成果目前相對較少. 此外, 本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較. 最后, 討論了小樣本圖像分類技術的難點及未來研究趨勢.
圖像到圖像轉換(I2I)的目的是在保留內容表示的同時將圖像從源域傳輸到目標域。I2I由于在圖像合成、分割、風格轉換、復原、姿態估計等計算機視覺和圖像處理問題上的廣泛應用,近年來受到越來越多的關注,并取得了巨大的進展。在本文中,我們對近年來發展起來的I2I工作進行了綜述。我們將分析現有I2I工作的關鍵技術,并闡明社區取得的主要進展。此外,我們將闡述I2I對研究和行業社區的影響,并指出在相關領域仍存在的挑戰。
//www.zhuanzhi.ai/paper/5fe5204f7d9eeb37dc385304f9cb9f62
想象一下,如果你拍了一張自拍照,想讓它更有藝術感,就像漫畫家畫的一樣,你怎么能通過電腦自動實現呢?這類研究工作可以概括為圖像到圖像轉換(I2I)問題。通常,I2I的目標是將輸入圖像x從源域A轉換為目標域B,保留內在源內容并轉移外部目標樣式。例如,可以將自拍圖像作為源域,以一些漫畫作為目標域參考,將其“翻譯”為想要的藝術風格圖像。
從上面I2I的基本定義可以看出,將一幅圖像從一個源域轉換到另一個目標域可以涵蓋圖像處理、計算機圖形學、計算機視覺等方面的許多問題。具體來說,I2I已經廣泛應用于語義圖像合成[3],[4],[5],[6],圖像分割[7],[8],[9],風格轉移[2],[10],[11],[12],[13],圖像修復[14],[15],[16],[17],[18],3 d姿勢估計[19],[20],圖像/視頻彩色化[21], [22]、[23]、[24]、[25]、[26],圖像超分辨率[27]、[28],域適配[29]、[30]、[31],卡通生成[22]0、[22]、[22]、[22]、[22]4、[22]5,圖像注冊[22]。我們將在第五節詳細分析和討論這些相關的應用。
本文就圖像到圖像翻譯的研究進展作一綜述。據我們所知,這是第一個概述了I2I的分析、方法和相關應用的論文。具體來說,我們的論文組織如下:
首先,我們簡要介紹了用于圖像-圖像翻譯的兩種最具代表性和最常用的生成模型,以及一些著名的評價指標,然后分析了這些生成模型如何學習表示和獲得想要的翻譯結果。
其次,我們將I2I問題劃分為兩大類任務,即雙域I2I任務和多域I2I任務,每一組I2I任務都出現了大量的I2I工作,對其他研究領域產生了深遠的影響,如圖2所示。
最后但并非最不重要的是,我們按照相同的I2I方法分類,提供了一個完整的I2I應用程序分類,如表1所示。
摘要:圖像分類的應用場景非常廣泛,很多場景下難以收集到足夠多的數據來訓練模型,利用小樣本學習進行圖像分類可解決訓練數據量小的問題.本文對近年來的小樣本圖像分類算法進行了詳細綜述,根據不同的建模方式,將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類,其中基于卷積神經網絡模型的算法包括四種學習范式:遷移學習、元學習、對偶學習和貝葉斯學習;基于圖神經網絡模型的算法原本適用于非歐幾里得結構數據,但有部分學者將其應用于解決小樣本下歐幾里得數據的圖像分類任務,有關的研究成果目前相對較少.此外,本文匯總了現有文獻中出現的數據集并通過實驗結果對現有算法的性能進行了比較.最后,討論了小樣本圖像分類技術的難點及未來研究趨勢.
深度神經網絡已經被證明可以有效的解決圖像、自然語言等不同領域的問題.同時伴隨著移動互聯網技術的不斷發展,便攜式設備得到了迅速的普及,用戶提出了越來越多的需求.因此,如何設計高效、高性能的輕量級神經網絡是解決問題的關鍵.本文詳細闡述了三種構建輕量級神經網絡的方法,分別是人工設計輕量級神經網絡、神經網絡模型壓縮算法和基于神經網絡架構搜索的自動化神經網絡架構設計,同時簡要總結和分析了每種方法的特點,并重點介紹了典型的構建輕量級神經網絡的算法.最后,總結現有的方法,并給出了未來發展的前景.
論文題目: Adversarial Attacks and Defenses in Images, Graphs and Text: A Review
簡介: 深度神經網絡(DNN)在不同領域的大量機器學習任務中取得了前所未有的成功。然而,對抗性例子的存在引起了人們對將深度學習應用于對安全性有嚴苛要求的應用程序的關注。因此,人們對研究不同數據類型(如圖像數據、圖數據和文本數據)上的DNN模型的攻擊和防御機制越來越感興趣。近期,來自密歇根州立大學的老師和同學們,對網絡攻擊的主要威脅及其成功應對措施進行系統全面的綜述。特別的,他們在這篇綜述中,針對性的回顧了三種流行數據類型(即、圖像數據、圖數據和文本數據)。