深度圖學習在商業和科學領域都取得了顯著的進展,從金融和電子商務,到藥物和先進材料的發現。盡管取得了這些進展,但如何確保各種深度圖學習算法以對社會負責的方式運行并滿足監管要求成為一個新興問題,特別是在風險敏感的領域。可信圖學習(trusted graph learning, TwGL)旨在從技術角度解決上述問題。與傳統的圖學習研究主要關注模型性能不同,TwGL考慮了圖學習框架的可靠性和安全性,包括但不限于魯棒性、可解釋性和隱私性。在這項綜述中,我們從可靠性、可解釋性和隱私保護三個維度,全面回顧了TwGL領域的最新領先方法。我們給出了現有工作的一般分類,并對每個類別的典型工作進行了回顧。為了對TwGL的研究提供更深入的見解,我們提供了一個統一的視角來審視以往的工作,并建立它們之間的聯系。本文還指出了TwGL未來發展中有待解決的一些重要的開放性問題。
摘要
深度長尾學習是視覺識別中最具挑戰性的問題之一,其目標是從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。在過去的十年中,深度學習已經成為一種學習高質量圖像表示的強大的識別模型,并導致了一般視覺識別的顯著突破。然而,長尾類不平衡是實際視覺識別任務中普遍存在的問題,這種不平衡往往限制了基于深度網絡的識別模型在實際應用中的實用性,因為長尾類容易偏向主導類,在尾類上的表現較差。為了解決這一問題,近年來人們進行了大量的研究,在深度長尾學習領域取得了可喜的進展。鑒于該領域的快速發展,本文對深度長尾學習的最新進展進行了綜述。具體地說,我們將已有的深度長尾學習研究分為三類(即類重平衡、信息增強和模塊改進),并根據這三類對這些方法進行了詳細的回顧。之后,我們通過一種新提出的評價指標,即相對準確性,來評估它們在多大程度上解決了階級失衡問題,從而對幾種最先進的方法進行了實證分析。最后,我們強調了深度長尾學習的重要應用,并確定了未來研究的幾個有前景的方向。
引言
深度學習允許由多個處理層組成的計算模型學習具有多級抽象[1]、[2]的數據表示,并在計算機視覺[3]、[4]、[5]、[6]、[7]、[8]方面取得了令人難以置信的進展。深度學習的關鍵因素是大規模數據集的可用性、GPU的出現和深度網絡架構[9]的進步。深度神經網絡具有很強的學習高質量數據表示的能力,在圖像分類[6]、[10]、目標檢測[7]、[11]和語義分割[8]、[12]等視覺識別任務中取得了巨大的成功。
在實際應用中,訓練樣本通常表現為長尾類分布,其中一小部分類有大量的樣本點,而其他類只與少數樣本[13],[14],[15],[16]相關。然而,這種訓練樣本數量的類不平衡,使得基于深度網絡的識別模型的訓練非常具有挑戰性。如圖1所示,訓練后的模型容易偏向訓練數據量大的頭類,導致模型在數據量有限的尾類上表現不佳。因此,經驗風險最小化[20]常用實踐訓練的深度模型無法處理長尾類不平衡的現實應用,如人臉識別[21],[22],物種分類[23],[24],醫學圖像診斷[25],城市場景理解[26],無人機檢測[27]。針對長尾類的不平衡,近年來開展了大量的深度長尾學習研究,包括[15]、[16]、[28]、[29]、[30]。盡管這一領域發展迅速,但仍沒有系統的研究來回顧和討論現有的進展。為了填補這一空白,我們旨在對2021年年中之前進行的近期長尾學習研究進行全面綜述。
如圖2所示,我們根據現有方法的主要技術貢獻將其分為三類,即類重平衡、信息增強和模塊改進;這些類別可以進一步分為九個子類別:重采樣、代價敏感學習、logit調整、遷移學習、數據增強、表示學習、分類器設計、解耦訓練和集成學習。根據這一分類,我們對現有的方法進行了全面的回顧,并對幾種最先進的方法進行了實證分析,使用一個新的評價指標,即相對準確性來評價它們處理類不平衡的能力。我們通過介紹幾個真實的深度長尾學習的應用場景,并確定了幾個有前景的研究方向,可以由社區在未來探索。
我們總結了這項綜述的主要貢獻如下。
? 據我們所知,這是第一次對深度長尾學習的全面調研,將為研究人員和社區提供對深度神經網絡的長尾視覺學習的更好理解。
? 我們提供了對高級長尾學習研究的深入回顧,并通過一個新的相對準確性度量來評估它們在多大程度上處理長尾類別失衡,以實證研究最先進的方法。
? 我們為未來的研究確定了四個潛在的方法創新方向以及八個新的深度長尾學習任務設置。
第二節介紹了問題的定義,并介紹了廣泛使用的數據集、度量和網絡骨架。第3節全面回顧了先進的長尾學習方法,第4節基于一個新的評價指標實證分析了幾種最先進的方法。第5節給出了深度長尾學習的應用場景,第6節給出了未來的研究方向。我們在第7節結束調研。
圖是一種普遍存在的數據結構,它可以表示不同實體之間豐富的關系信息。在社交網絡中建立友好關系,預測蛋白質與蛋白質的相互作用,學習分子指紋,以及分類疾病,這些都是通過通過圖表數據進行學習而成為可能的任務。在過去的幾年里,隨著圖深度學習模型——圖神經網絡(graph neural network, GNNs)的出現,圖機器學習研究發生了革命性的變化。圖神經網絡在各種下游任務的圖表示自動學習方面表現出了卓越的性能。然而,當圖形代表敏感互動或包含個人信息時,通過圖學習可能會引起隱私問題。先前關于保護隱私的機器學習的工作已經在處理歐幾里得數據(如圖像、音頻和文本)時提出了保護用戶隱私的有效解決方案,但由于圖節點之間存在連接性,在圖上應用深度學習算法涉及的隱私問題往往更具挑戰性。本講座旨在介紹圖神經網絡,以及在敏感圖上應用GNNs的潛在隱私風險。然后,將概述可能的隱私攻擊的GNN和建立隱私保護GNN的最新嘗試。
題目: Graph convolutional networks for computational drug development and discovery
摘要:
盡管在過去的十年中,深度學習在各個領域都取得了令人矚目的成功,但其在分子信息學和藥物發現中的應用仍然受到限制。在將深層架構適應結構化數據方面的最新進展為藥物研究開辟了新的范例。 在這項調查中,我們對圖卷積網絡的新興領域及其在藥物發現和分子信息學中的應用進行了系統的綜述。通常,我們對圖卷積網絡為何以及如何能夠幫助完成與藥物有關的任務感興趣。文中通過四個角度闡述了現有的應用程序:分子性質和活性預測,相互作用預測,合成預測和藥物設計。還簡要介紹了圖卷積網絡背后的理論基礎,并說明了基于不同公式的各種體系結構。然后,總結了藥物相關問題中的代表性應用,并討論將圖卷積網絡應用于藥物發現的當前挑戰和未來可能性。
題目: An Overview of Privacy in Machine Learning
序言: 在過去幾年中,谷歌、微軟和亞馬遜等供應商已經開始為客戶提供軟件接口,使他們能夠輕松地將機器學習任務嵌入到他們的應用程序中。總的來說,機構現在可以使用機器學習作為服務(MLaaS)引擎來外包復雜的任務,例如訓練分類器、執行預測、聚類等等。他們還可以讓其他人根據他們的數據查詢模型。當然,這種方法也可以在其他情況下使用(并且經常提倡使用),包括政府協作、公民科學項目和企業對企業的伙伴關系。然而,如果惡意用戶能夠恢復用于訓練這些模型的數據,那么由此導致的信息泄漏將會產生嚴重的問題。同樣,如果模型的內部參數被認為是專有信息,那么對模型的訪問不應該允許對手了解這些參數。在本文中,我們對這一領域的隱私挑戰進行了回顧,系統回顧了相關的研究文獻,并探討了可能的對策。具體地說,我們提供了大量關于機器學習和隱私相關概念的背景信息。然后,我們討論了可能的對抗模型和設置,涵蓋了與隱私和/或敏感信息泄漏有關的廣泛攻擊,并回顧了最近試圖防御此類攻擊的結果。最后,我們總結出一系列需要更多工作的開放問題,包括需要更好的評估、更有針對性的防御,以及研究與政策和數據保護工作的關系。
主題: Explainable Reinforcement Learning: A Survey
摘要: 可解釋的人工智能(XAI),即更透明和可解釋的AI模型的開發在過去幾年中獲得了越來越多的關注。這是由于這樣一個事實,即AI模型隨著其發展為功能強大且無處不在的工具而表現出一個有害的特征:性能與透明度之間的權衡。這說明了一個事實,即模型的內部工作越復雜,就越難以實現其預測或決策。但是,特別是考慮到系統像機器學習(ML)這樣的方法(強化學習(RL))在系統自動學習的情況下,顯然有必要了解其決策的根本原因。由于據我們所知,目前尚無人提供可解釋性強化學習(XRL)方法的概述的工作,因此本調查試圖解決這一差距。我們對問題進行了簡短的總結,重要術語的定義以及提議當前XRL方法的分類和評估。我們發現a)大多數XRL方法通過模仿和簡化一個復雜的模型而不是設計本質上簡單的模型來起作用,并且b)XRL(和XAI)方法通常忽略了方程的人為方面,而不考慮相關領域的研究像心理學或哲學。因此,需要跨學科的努力來使所生成的解釋適應(非專家)人類用戶,以便有效地在XRL和XAI領域中取得進步。
題目: Knowledge Graph Embeddings and Explainable AI
摘要: 知識圖譜嵌入是一種廣泛采用的知識表示方法,它將實體和關系嵌入到向量空間中。在這一章中,我們通過解釋知識圖譜嵌入是什么,如何生成它們以及如何對它們進行評估,向讀者介紹知識圖譜嵌入的概念。我們總結了這一領域的最新研究成果,對向量空間中表示知識的方法進行了介紹。在知識表示方面,我們考慮了可解釋性問題,并討論了通過知識圖譜嵌入來解釋預測的模型和方法。