在許多實際應用中,獲取足夠的大規模標記數據以充分訓練深度神經網絡通常是困難和昂貴的。因此,將學習到的知識從一個單獨的、標記過的源域轉移到一個未標記或標記稀疏的目標域成為一種有吸引力的選擇。然而,直接轉移常常由于域轉移而導致顯著的性能下降。域適應(DA)通過最小化源域和目標域之間域轉移的影響來解決這個問題。多源域自適應(Multi-source domain adaptation, MDA)是一種功能強大的擴展,可以從具有不同分布的多個源收集標記數據。由于DA方法的成功和多源數據的流行,MDA在學術界和工業界都受到越來越多的關注。在本次綜述中,我們定義了各種MDA策略,并總結了可供評估的可用數據集。我們還比較了深度學習時代的MDA方法,包括潛在空間轉換和中間域生成。最后,討論了未來MDA的研究方向。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。
盡管生成式對抗網絡(GAN)的歷史并不長,但它已被廣泛地研究和用于各種任務,包括其最初的目的,即合成樣品的生成。然而,將GAN用于具有不同神經網絡結構的不同數據類型,由于其在訓練方面的局限性,使得模型很容易出現混亂。這種臭名昭著的GAN訓練是眾所周知的,并已在許多研究中提出。因此,為了使GAN的訓練更加穩定,近年來提出了許多正則化方法。本文綜述了近年來引入的正則化方法,其中大部分是近三年來發表的。具體地說,我們關注的是那些可以被普遍使用的方法,而不管神經網絡體系結構如何。根據其運算原理將其分為若干組,并分析了各方法之間的差異。此外,為了提供使用這些方法的實際知識,我們調研了在最先進的GANs中經常使用的流行方法。此外,我們還討論了現有方法的局限性,并提出了未來的研究方向。
【導讀】現有的機器學習方法在很多場景下需要依賴大量的訓練樣本。但機器學習方法是否可以模仿人類,基于先驗知識等,只基于少量的樣本就可以進行學習。本文介紹34頁小樣本學習綜述《Generalizing from a Few Examples: A Survey on Few-Shot Learning》,包含166篇參考文獻,來自第四范式和香港科技大學習的研究學者。
小樣本學習綜述 Few-shot Learning: A Survey
【摘要】機器學習在數據密集型應用中非常成功,但當數據集很小時,它常常受到阻礙。為了解決這一問題,近年來提出了小樣本學習(FSL)。利用先驗知識,FSL可以快速地泛化到只包含少量有監督信息的樣本的新任務中。在這篇論文中,我們進行了一個徹底的調研,以充分了解FSL。從FSL的正式定義出發,我們將FSL與幾個相關的機器學習問題區分開來。然后指出了FSL的核心問題是經驗風險最小化是不可靠的。基于先驗知識如何處理這一核心問題,我們從三個角度對FSL方法進行了分類: (i) 數據,它使用先驗知識來增加監督經驗;(二) 利用先驗知識縮小假設空間大小的模型;(iii)算法,利用先驗知識在給定的假設空間中改變對最佳假設的搜索。有了這種分類法,我們就可以回顧和討論每個類別的優缺點。在FSL問題的設置、技術、應用和理論方面也提出了有前景的方向,為未來的研究提供了見解。
我們給出了FSL的形式化定義。它可以自然地鏈接到以往文獻中提出的經典機器學習定義。這個定義不僅足夠概括,包括所有現有的FSL -shot Learning: A Survey problems,而且足夠具體,明確了什么是FSL的目標,以及我們如何解決它。這一定義有助于確定未來FSL領域的研究目標。
指出了基于誤差分解的FSL在機器學習中的核心問題。我們發現,正是不可靠的經驗風險最小化使得FSL難以學習。這可以通過滿足或降低學習的樣本復雜度來緩解。理解核心問題有助于根據解決核心問題的方式將不同的工作分類為數據、模型和算法。更重要的是,這為更有組織和系統地改進FSL方法提供了見解。
我們對從FSL誕生到最近發表的文獻進行了廣泛的回顧,并將它們進行了統一的分類。對不同類別的優缺點進行了深入的討論。我們還對每個類別下的見解進行了總結。這對于初學者和有經驗的研究人員都是一個很好的指導方針。
我們在問題設置、技術、應用和理論方面展望了FSL未來的四個發展方向。這些見解都是基于當前FSL發展的不足之處,并有可能在未來進行探索。我們希望這部分能夠提供一些見解,為解決FSL問題做出貢獻,為真正的AI而努力。
與已有的關于小樣本概念學習和經驗學習的FSL相關調相比,我們給出了什么是FSL,為什么FSL很難,以及FSL如何將小樣本監督信息與先驗知識結合起來使學習成為可能的正式定義。我們進行了廣泛的文獻審查的基礎上提出的分類法與詳細討論的利弊,總結和見解。我們還討論了FSL與半監督學習、不平衡學習、遷移學習和元學習等相關話題之間的聯系和區別
【導讀】對抗攻擊防御研究用于提升深度學習的魯棒性,是當下的關注焦點。最近,中山大學等學者發布了最新關于圖對抗學習綜述論文,19頁pdf83篇文獻,對在圖形分析任務中對現有的攻防工作進行了梳理和統一,同時給出了適當的定義和分類。此外,我們強調了相關評價指標的重要性,并對其進行了全面的調查和總結。
圖數據的深度學習模型在節點分類、鏈路預測、圖數據聚類等各種圖數據分析任務中都取得了顯著的效果。然而,它們暴露了對于設計良好輸入的不確定性和不可靠性, 對抗樣本。因此,在不同的圖數據分析任務中,出現了各種攻擊和防御的研究,從而導致了圖數據對抗學習中的競爭。例如,攻擊者有投毒和逃避攻擊,防御組相應地有基于預處理和對抗的方法。
盡管工作蓬勃發展,但仍然缺乏統一的問題定義和全面的調研綜述。為了彌補這一不足,我們對已有的關于圖對抗學習任務的研究進行了系統的總結。具體來說,我們在圖形分析任務中對現有的攻防工作進行了梳理和統一,同時給出了適當的定義和分類。此外,我們強調了相關評價指標的重要性,并對其進行了全面的調查和總結。希望我們的工作可以為相關研究者提供參考,為他們的研究提供幫助。更多關于我們工作的細節,
請訪問
//github.com/gitgiter/Graph-Adversarial-Learning
在過去的幾十年里,深度學習已經成為人工智能領域的皇冠上的寶石,在語音和語言處理[72,18]、人臉識別[45]和目標檢測[33]等各種應用中都表現出了令人印象深刻的表現。然而,最近頻繁使用的深度學習模型被證明是不穩定和不可靠的,因為它們容易受到干擾。例如,一張圖片上幾個像素的細微變化,對于人眼來說是難以察覺的,但是對于深度學習模型[44]的輸出卻有很大的影響。此時,定義良好并通過反向傳播學習的深度學習模型具有固有的盲點和非直觀特征,應該以明顯的[59]方式推廣到數據分布中。
圖作為一種強大的表示方法,在現實的[25]中有著重要的作用和廣泛的應用。當然,深度學習對圖形的研究也是一個熱門話題,并在不同的領域帶來了許多令人耳目一新的實現,如社交網絡[46]、電子商務網絡[64]和推薦系統[14,71]。不幸的是,作為機器學習關鍵領域的圖分析領域也暴露了深度學習模型在受到精心設計的攻擊時的脆弱性[81,83]。例如,考慮到節點分類的任務,攻擊者通常控制多個假節點,目的是欺騙目標分類器,通過在這些節點與其他良性節點之間添加或刪除邊緣,從而導致誤分類。通常,這些惡意節點被稱為“攻擊者節點”,而其他受害節點被稱為“受影響節點”。如圖1所示,在一個干凈的圖上執行了小的擾動(增加了兩個鏈接,改變了幾個節點的特征),這導致了圖學習模型的錯誤分類。
隨著對圖數據模型安全性的日益關注,圖數據對抗學習的研究也隨之興起。,一個研究圖數據模型安全性和脆弱性的領域。一方面,從攻擊圖數據學習模型的角度出發,[81]首先研究了圖數據的對抗性攻擊,在節點特征和圖結構受干擾較小的情況下,目標分類器容易對指定的節點進行欺騙和誤分類。另一方面,[65]提出了一種改進的圖卷積網絡(GCNs)模型,該模型具有對抗防御框架,以提高魯棒性。此外,[55]研究了現有的圖數據攻防對抗策略的工作,并討論了它們的貢獻和局限性。然而,這些研究主要集中在對抗性攻擊方面,而對防御方面的研究較少。
挑戰 盡管關于圖表對抗學習的研究大量涌現,但仍然存在一些需要解決的問題。i) 統一與具體的形式化。目前的研究都是將圖對抗學習的問題定義和假設用自己的數學形式化來考慮,大多沒有詳細的解釋,這使得比較和跟進更加困難。ii) 相關評價指標。而對于不同的任務,對應性能的評價指標也有很大的不同,甚至有不同的標準化。此外,圖對抗學習場景的特殊度量還沒有被探索,例如,對攻擊影響的評估。
對于公式和定義不一致的問題,我們考察了現有的攻防工作,給出了統一的定義,并從不同的角度進行了劃分。雖然已經有了一些努力[81,37,19]來概括定義,但大多數公式仍然對自己的模型進行定制。到目前為止,只有一篇文章[55]從綜述的角度概述了這些概念,這不足以全面總結現有的工作。在前人研究的基礎上,我們總結了不同類型的圖,并按層次介紹了三個主要任務,分別在3.1節和4.1節給出了攻擊和防御的統一公式。
自然地,不同的模型伴隨著許多量化的方法,其中提供了一些新的度量。為了幫助研究人員更好地量化他們的模型,也為了系統地總結度量標準,我們在第5節中對度量標準進行了更詳細的討論。特別地,我們首先介紹了防御和攻擊的一些常見度量,然后介紹了它們各自工作中提供的三個類別的度量:有效性、效率和不可感知性。例如,攻擊成功率(ASR)[9]和平均防御率(ADR)[10]分別被用來衡量攻擊和防御的有效性。
綜上所述,我們的貢獻如下:
題目: Time Series Data Augmentation for Deep Learning: A Survey
摘要:
近年來,深度學習在許多時間序列分析任務中表現優異。深度神經網絡的優越性能很大程度上依賴于大量的訓練數據來避免過擬合。然而,許多實際時間序列應用的標記數據可能會受到限制,如醫學時間序列的分類和AIOps中的異常檢測。數據擴充是提高訓練數據規模和質量的有效途徑,是深度學習模型在時間序列數據上成功應用的關鍵。本文系統地綜述了時間序列的各種數據擴充方法。我們為這些方法提出了一個分類,然后通過強調它們的優點和局限性為這些方法提供了一個結構化的審查。并對時間序列異常檢測、分類和預測等不同任務的數據擴充方法進行了實證比較。最后,我們討論并強調未來的研究方向,包括時頻域的數據擴充、擴充組合、不平衡類的數據擴充與加權。
Deep Learning based Recommender System: A Survey and New Perspectives
隨著在線信息量的不斷增長,推薦系統已成為克服此類信息過載的有效策略。鑒于其在許多網絡應用中的廣泛采用,以及其改善與過度選擇相關的許多問題的潛在影響,推薦系統的實用性不容小覷。近年來,深度學習在計算機視覺和自然語言處理等許多研究領域引起了相當大的興趣,不僅歸功于出色的表現,而且還具有從頭開始學習特征表征的吸引人的特性。深度學習的影響也很普遍,最近證明了它在應用于信息檢索和推薦系統研究時的有效性。顯然,推薦系統中的深度學習領域正在蓬勃發展。本文旨在全面回顧最近基于深度學習的推薦系統的研究工作。更具體地說,我們提供并設計了基于深度學習的推薦模型的分類,并提供了最新技術的綜合摘要。最后,我們擴展了當前的趨勢,并提供了有關該領域新的令人興奮的發展的新觀點。