在本教程中,我們旨在全面介紹專門為異常檢測(深度異常檢測)而設計的深度學習技術的進展。
深度學習在轉換許多數據挖掘和機器學習任務方面取得了巨大的成功,但由于異常具有一些獨特的特征,如罕見性、異質性、無限性以及收集大規模異常數據的高昂成本,目前流行的深度學習技術并不適用于異常檢測。
通過本教程,讀者將對該領域有一個系統的概述,了解目前最先進的12種不同類型的深度異常檢測方法的主要要點、目標函數、基本假設、優缺點,并認識到其在不同領域的廣泛適用性。我們還討論了當前的深度異常檢測方法可以從多個不同的角度解決和展望該領域的挑戰。
任何對深度學習、異常/離群值/新奇檢測、分布外檢測、帶有有限標記數據的表示學習以及自我監督表示學習感興趣的讀者,都會發現參加本教程非常有幫助。
金融、網絡安全、醫療保健領域的研究人員和從業者也會發現該教程在實踐中有幫助。
異常檢測,幾十年來一直是各個研究領域中一個持續而活躍的研究領域。但仍然有一些獨特的問題、復雜性和挑戰需要先進的方法。近年來,將深度學習應用于異常檢測(即深度異常檢測)已經成為關鍵方向。本文回顧了深度異常檢測方法的研究進展,并對檢測方法進行了分類,包括3個高級類別和11個細粒度類別。本文回顧了檢測方法的主要intuitions、目標函數、基本假設、優勢和劣勢,并討論了他們如何應對上述挑戰。并且進一步討論了一系列未來可能的機遇和應對挑戰的新觀點。
異常檢測,又稱離群值檢測或新穎性檢測,是指檢測與大多數數據實例顯著偏離的數據實例的過程。幾十年來,異常探測一直是一個活躍的研究領域,早期的探測可以追溯到20世紀60年代的[52]。由于在風險管理、合規、安全、金融監控、健康和醫療風險、人工智能安全等廣泛領域的需求和應用日益增長,異常檢測在數據挖掘、機器學習、計算機視覺和統計等各個領域發揮著越來越重要的作用。近年來,深度學習在學習高維數據、時間數據、空間數據和圖形數據等復雜數據的表達表示方面顯示出了巨大的能力,推動了不同學習任務的邊界。深度學習異常檢測,簡稱深度異常檢測,目的是通過神經網絡學習特征表示或異常分數來進行異常檢測。大量的深度異常檢測方法已經被引入,在解決各種現實世界應用中具有挑戰性的檢測問題上,表現出比傳統異常檢測顯著更好的性能。這項工作旨在對這一領域進行全面調研。我們首先討論了異常檢測的問題本質和主要的未解決的挑戰,然后系統地回顧了當前的深度方法及其解決這些挑戰的能力,最后提出了一些未來的機會。
圖是連接數據網絡結構的一種常用表示形式。圖數據可以在廣泛的應用領域中找到,如社會系統、生態系統、生物網絡、知識圖譜和信息系統。隨著人工智能技術的不斷滲透發展,圖學習(即對圖進行機器學習)越來越受到研究者和實踐者的關注。圖學習對許多任務都非常有效,如分類,鏈接預測和匹配。圖學習方法通常是利用機器學習算法提取圖的相關特征。在這個綜述中,我們提出了一個關于圖學習最全面的概述。特別關注四類現有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習。分別回顧了這些類別下的主要模型和算法。我們研究了諸如文本、圖像、科學、知識圖譜和組合優化等領域的圖學習應用。此外,我們還討論了該領域幾個有前景的研究方向。
真實的智能系統通常依賴于機器學習算法處理各種類型的數據。盡管圖數據無處不在,但由于其固有的復雜性,給機器學習帶來了前所未有的挑戰。與文本、音頻和圖像不同,圖數據嵌入在一個不規則的領域,使得現有機器學習算法的一些基本操作不適用。許多圖學習模型和算法已經被開發出來解決這些挑戰。本文系統地綜述了目前最先進的圖學習方法及其潛在的應用。這篇論文有多種用途。首先,它作為不同領域(如社會計算、信息檢索、計算機視覺、生物信息學、經濟學和電子商務)的研究人員和從業者提供圖學習的快速參考。其次,它提供了對該領域的開放研究領域的見解。第三,它的目的是激發新的研究思路和更多的興趣在圖學習。
圖,又稱網絡,可以從現實世界中豐富的實體之間的各種關系中提取。一些常見的圖表已經被廣泛用于表達不同的關系,如社會網絡、生物網絡、專利網絡、交通網絡、引文網絡和通信網絡[1]-[3]。圖通常由兩個集合定義,即頂點集和邊集。頂點表示圖形中的實體,而邊表示這些實體之間的關系。由于圖學習在數據挖掘、知識發現等領域的廣泛應用,引起了人們的廣泛關注。由于圖利用了頂點[4],[5]之間的本質和相關關系,在捕獲復雜關系方面,圖學習方法變得越來越流行。例如,在微博網絡中,通過檢測信息級聯,可以跟蹤謠言的傳播軌跡。在生物網絡中,通過推測蛋白質的相互作用可以發現治療疑難疾病的新方法。在交通網絡中,通過分析不同時間戳[6]的共現現象,可以預測人類的移動模式。對這些網絡的有效分析很大程度上取決于網絡的表示方式。
一般來說,圖學習是指對圖進行機器學習。圖學習方法將圖的特征映射到嵌入空間中具有相同維數的特征向量。圖學習模型或算法直接將圖數據轉換為圖學習體系結構的輸出,而不將圖投影到低維空間。由于深度學習技術可以將圖數據編碼并表示為向量,所以大多數圖學習方法都是基于或從深度學習技術推廣而來的。圖學習的輸出向量在連續空間中。圖學習的目標是提取圖的期望特征。因此,圖的表示可以很容易地用于下游任務,如節點分類和鏈接預測,而無需顯式的嵌入過程。因此,圖學習是一種更強大、更有意義的圖分析技術。
在這篇綜述論文中,我們試圖以全面的方式檢驗圖機器學習方法。如圖1所示,我們關注現有以下四類方法:基于圖信號處理(GSP)的方法、基于矩陣分解的方法、基于隨機游走的方法和基于深度學習的方法。大致來說,GSP處理圖的采樣和恢復,并從數據中學習拓撲結構。矩陣分解可分為圖拉普拉斯矩陣分解和頂點接近矩陣分解。基于隨機游動的方法包括基于結構的隨機游動、基于結構和節點信息的隨機游動、異構網絡中的隨機游動和時變網絡中的隨機游動。基于深度學習的方法包括圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。基本上,這些方法/技術的模型架構是不同的。本文對目前最先進的圖學習技術進行了廣泛的回顧。
傳統上,研究人員采用鄰接矩陣來表示一個圖,它只能捕捉相鄰兩個頂點之間的關系。然而,許多復雜和不規則的結構不能被這種簡單的表示捕獲。當我們分析大規模網絡時,傳統的方法在計算上是昂貴的,并且很難在現實應用中實現。因此,有效地表示這些網絡是解決[4]的首要問題。近年來提出的網絡表示學習(NRL)可以學習低維表示[7]-[9]的網絡頂點潛在特征。當新的表示被學習后,可以使用以前的機器學習方法來分析圖數據,并發現數據中隱藏的關系。
當復雜網絡被嵌入到一個潛在的、低維的空間中時,結構信息和頂點屬性可以被保留[4]。因此,網絡的頂點可以用低維向量表示。在以往的機器學習方法中,這些向量可以看作是輸入的特征。圖學習方法為新的表示空間中的圖分析鋪平了道路,許多圖分析任務,如鏈接預測、推薦和分類,都可以有效地解決[10],[11]。網絡的圖形化表現方式揭示了社會生活的各個方面,如交流模式、社區結構和信息擴散[12],[13]。根據頂點、邊和子圖的屬性,可以將圖學習任務分為基于頂點、基于邊和基于子圖三類。圖中頂點之間的關系可以用于分類、風險識別、聚類和社區檢測[14]。通過判斷圖中兩個頂點之間的邊的存在,我們可以進行推薦和知識推理。基于子圖[15]的分類,該圖可用于聚合物分類、三維可視化分類等。對于GSP,設計合適的圖形采樣方法以保持原始圖形的特征,從而有效地恢復原始圖形[16]具有重要意義。在存在不完整數據[17]的情況下,可以使用圖恢復方法構造原始圖。然后利用圖學習從圖數據中學習拓撲結構。綜上所述,利用圖學習可以解決傳統的圖分析方法[18]難以解決的以下挑戰。
藥物發現是一個非常漫長和昂貴的過程,開發一種新藥平均需要10年以上,花費25億美元。人工智能有潛力通過從大量生物醫學數據中提取證據來顯著加快藥物發現過程,從而徹底改變整個制藥行業。圖表示學習技術是機器學習和數據挖掘領域中一個快速發展的主題,專注于圖形結構數據的深度學習。由于該領域中的許多數據都是分子和生物醫學知識圖等圖形結構的數據,它為藥物發現帶來了巨大的機遇。在本次演講中,我將介紹我們在藥物發現的圖表示學習方面的最新進展,包括: (1)分子性質預測; (2)從頭分子設計與優化; (3)反合成預測。
本課程深入介紹機器學習中的數學理論、算法和核方法的應用。該課程是為研究生開設的,由Julien Mairal和Jean-Philippe Vert于2021年教授,是巴黎高等師范學院“數學、計算機視覺和機器學習”碩士課程的一部分。
//members.cbio.mines-paristech.fr/~jvert/svn/kernelcourse/course/2021mva/index.html
機器學習在現實世界應用中的許多問題可以被形式化為經典的統計問題,例如模式識別、回歸或降維,但要注意的是數據通常不是數字的向量。例如,計算生物學中的蛋白質序列和結構、web挖掘中的文本和XML文檔、圖像處理中的分割圖像、語音識別和金融中的時間序列,都具有包含統計問題相關信息但難以編碼為有限維向量表示的特定結構。
內核方法是一類非常適合于此類問題的算法。實際上,它們將最初為向量設計的許多統計方法的適用性擴展到了幾乎任何類型的數據,而不需要對數據進行明確的向量化。向非向量擴展的代價是需要在對象之間定義一個所謂的正定核函數,形式上相當于數據的隱式向量化。近年來,各種對象內核設計的“藝術”取得了重要的進展,產生了許多最先進的算法,并在許多領域獲得了成功的應用。
本課程的目的是介紹核方法的數學基礎,以及到目前為止在核設計中出現的主要方法。我們將首先介紹正定核的理論和重建核希爾伯特空間,這將允許我們介紹幾種核方法,包括核主成分分析和支持向量機。然后我們再回到定義內核的問題。我們將介紹關于Mercer核和半群核的主要結果,以及字符串和圖的核的一些例子,從計算生物學的應用,文本處理和圖像分析。最后,我們將討論一些活躍的研究課題,如大規模核方法和深度核機器。
邊緣流通常用于捕獲動態網絡中的交互,如電子郵件、社交或計算機網絡。邊緣流異常或罕見事件的檢測問題有著廣泛的應用。然而,由于缺乏標簽,交互的高度動態特性,以及網絡中時間和結構變化的糾纏,它提出了許多挑戰。目前的方法在解決上述挑戰和有效處理大量交互方面能力有限。在此,我們提出了一種檢測邊緣流異常的新方法- F-FADE,它使用一種新的頻率因子分解技術來有效地模擬節點對間相互作用頻率的時間演化分布。然后,根據觀測到的每一次相互作用頻率的可能性來確定異常。F-FADE能夠在在線流媒體設置中處理時間和結構變化的各種異常,而只需要恒定的內存。我們在一個合成和六個真實世界動態網絡上的實驗表明,F-FADE達到了最先進的性能,可以檢測出以前的方法無法發現的異常。
不確定性的概念在機器學習中是非常重要的,并且構成了現代機器學習方法論的一個關鍵元素。近年來,由于機器學習與實際應用的相關性越來越大,它的重要性也越來越大,其中許多應用都伴隨著安全要求。在這方面,機器學習學者們發現了新的問題和挑戰,需要新的方法發展。事實上,長期以來,不確定性幾乎被視為標準概率和概率預測的同義詞,而最近的研究已經超越了傳統的方法,也利用了更一般的形式主義和不確定性計算。例如,不確定性的不同來源和類型之間的區別,例如任意不確定性和認知不確定性,在許多機器學習應用中被證明是有用的。講習班將特別注意這方面的最新發展。
綜述論文:
不確定性的概念在機器學習中是非常重要的,并且構成了機器學習方法的一個關鍵元素。按照統計傳統,不確定性長期以來幾乎被視為標準概率和概率預測的同義詞。然而,由于機器學習與實際應用和安全要求等相關問題的相關性穩步上升,機器學習學者最近發現了新的問題和挑戰,而這些問題可能需要新的方法發展。特別地,這包括區分(至少)兩種不同類型的不確定性的重要性,通常被稱為任意的和認知的。在這篇論文中,我們提供了機器學習中的不確定性主題的介紹,以及到目前為止在處理一般不確定性方面的嘗試的概述,并特別將這種區別形式化。
異常檢測已經得到了廣泛的研究和應用。建立一個有效的異常檢測系統需要研究者和開發者從嘈雜的數據中學習復雜的結構,識別動態異常模式,用有限的標簽檢測異常。與經典方法相比,近年來深度學習技術的進步極大地提高了異常檢測的性能,并將異常檢測擴展到廣泛的應用領域。本教程將幫助讀者全面理解各種應用領域中基于深度學習的異常檢測技術。首先,我們概述了異常檢測問題,介紹了在深度模型時代之前采用的方法,并列出了它們所面臨的挑戰。然后我們調查了最先進的深度學習模型,范圍從構建塊神經網絡結構,如MLP, CNN,和LSTM,到更復雜的結構,如自動編碼器,生成模型(VAE, GAN,基于流的模型),到深度單類檢測模型,等等。此外,我們舉例說明了遷移學習和強化學習等技術如何在異常檢測問題中改善標簽稀疏性問題,以及在實際中如何收集和充分利用用戶標簽。其次,我們討論來自LinkedIn內外的真實世界用例。本教程最后討論了未來的趨勢。
可解釋的機器學習模型和算法是越來越受到研究、應用和管理人員關注的重要課題。許多先進的深度神經網絡(DNNs)經常被認為是黑盒。研究人員希望能夠解釋DNN已經學到的東西,以便識別偏差和失敗模型,并改進模型。在本教程中,我們將全面介紹分析深度神經網絡的方法,并深入了解這些XAI方法如何幫助我們理解時間序列數據。
【導讀】新加坡國立大學的Xiang Wang、Tat-Seng Chua,以及來自中國科學技術大學的Xiangnan He在WSDM 2020會議上通過教程《Learning and Reasoning on Graph for Recommendation》介紹了基于圖學習和推理的推薦系統,涵蓋了基于隨機游走的推薦系統、基于網絡嵌入的推薦系統,基于圖神經網絡的推薦系統等內容。
Tutorial摘要:
推薦方法構建預測模型來估計用戶-項目交互的可能性。之前的模型在很大程度上遵循了一種通用的監督學習范式——將每個交互視為一個單獨的數據實例,并基于“信息孤島”進行預測。但是,這些方法忽略了數據實例之間的關系,這可能導致性能不佳,特別是在稀疏場景中。此外,建立在單獨數據實例上的模型很難展示推薦背后的原因,這使得推薦過程難以理解。
在本教程中,我們將從圖學習的角度重新討論推薦問題。用于推薦的公共數據源可以組織成圖,例如用戶-項目交互(二部圖)、社交網絡、項目知識圖(異構圖)等。這種基于圖的組織將孤立的數據實例連接起來,為開發高階連接帶來了好處,這些連接為協作過濾、基于內容的過濾、社會影響建模和知識感知推理編碼有意義的模式。隨著最近圖形神經網絡(GNNs)的成功,基于圖形的模型顯示了成為下一代推薦系統技術的潛力。本教程對基于圖的推薦學習方法進行了回顧,重點介紹了GNNs的最新發展和先進的推薦知識。通過在教程中介紹這一新興而有前景的領域,我們希望觀眾能夠對空間有更深刻的理解和準確的洞察,激發更多的想法和討論,促進技術的發展。
Tutorial大綱:
臺灣交通大學的Jen-Tzung Chien教授在WSDN 2020會議上通過教程《Deep Bayesian Data Mining》介紹了深度貝葉斯數據挖掘的相關知識,涵蓋了貝葉斯學習、深度序列學習、深度貝葉斯挖掘和學習等內容。
Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度貝葉斯數據挖掘》)介紹了面向自然語言的深度貝葉斯挖掘和學習,包括了它的基礎知識和進展,以及它無處不在的應用,這些應用包括語音識別、文檔摘要、文本分類、文本分割、信息抽取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、自動問答和機器翻譯等。
從傳統上,“深度學習”被認為是一個學習過程,過程中的推斷和優化都使用基于實數的判別模型。然而,從大量語料中提取出的詞匯、句子、實體、行為和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地被這種方式表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能不能被正確分解或估計。
該教程介紹了統計模型和神經網絡的基礎,并聚焦于一系列先進的貝葉斯模型和深度模型,包括層次狄利克雷過程、中國餐館過程、遞歸神經網絡、長短期記憶網絡、序列到序列模型、變分自編碼器、生成式對抗網絡、策略神經網絡等。教程還介紹了增強的先驗/后驗表示。教程展示了這些模型是如何連接的,以及它們為什么適用于自然語言中面向符號和復雜模式的各種應用程序。
變分推斷和采樣被提出解決解決復雜模型的優化問題。詞和句子的嵌入、聚類和聯合聚類被語言和語義約束合并。針對深度貝葉斯挖掘、搜索、學習和理解中的不同問題,一系列的案例研究、任務和應用被提出。最后,教程指出一些未來研究的方向和展望。教程旨在向初學者介紹深度貝葉斯學習中的主要主題,激發和解釋它對數據挖掘和自然語言理解正在浮現的重要性,并提出一種結合不同的機器學習工作的新的綜合方法。
教程的內容大致如下:
完整教程下載
請關注專知公眾號(點擊上方藍色專知關注) 后臺回復“DBDM20” 就可以獲取完整教程PDF的下載鏈接~
教程部分內容如下所示:
參考鏈接:
//chien.cm.nctu.edu.tw/home/wsdm-tutorial/
-END- 專 · 知
專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.zhuanzhi.ai,獲取更多AI知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業干貨知識教程視頻資料和與專家交流咨詢!
請加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會員碼,加入專知人工智能主題群,咨詢技術商務合作~
點擊“閱讀原文”,了解注冊使用專知