【導讀】聚類是機器學習的一項基本任務。深度學習的發展催生了深度聚類。來自浙江大學等學者發布了關于深度聚類的最新綜述論文,35頁pdf涵蓋246篇文獻概述了深度聚類的概念、方法、體系與應用,值得關注!
聚類是一種基本的機器學習任務,在文獻中得到了廣泛的研究。經典的聚類方法遵循這樣的假設:通過各種表示學習技術,數據被表示為向量化的特征。隨著數據變得越來越復雜和復雜,淺層(傳統)聚類方法不再能夠處理高維數據類型。隨著深度學習,尤其是深度無監督學習的巨大成功,在過去的十年中,許多具有深度架構的表示學習技術被提出。融入深度學習好處的一種直接方法是,在將其輸入淺層聚類方法之前,首先學習深度表示。然而,這是次優的,因為: 1) 表示不是直接學習的聚類,限制了聚類性能;(2)聚類依賴于實例間的復雜關系而非線性關系;3)聚類和表示學習是相互依賴的,應該相互促進。為了應對上述挑戰,深度聚類(Deep Clustering)的概念被提出,即聯合優化表征學習和聚類,因此受到越來越多的關注。基于深度學習在聚類(最基本的機器學習任務之一)中的巨大成功,以及該方向最近的大量進展,本文通過提出不同最新方法的新分類,對深度聚類進行了全面的調研。我們總結了深度聚類的基本組成部分,并通過設計深度表示學習和聚類之間的交互方式對現有方法進行分類。此外,該綜述還提供了流行的基準數據集、評估指標和開源實現,以清楚地說明各種實驗設置。最后,我們討論了深度聚類的實際應用,并提出了值得進一步研究的具有挑戰性的主題作為未來的方向。
//www.zhuanzhi.ai/paper/c46ee4cd4877641a916a18dd389c017e
聚類是機器學習中的一個基本問題,也是許多數據挖掘任務中的一個重要預處理步驟。聚類的主要目的是將實例分配到組中,使相似的樣本屬于同一個集群,而不同的樣本屬于不同的集群。樣本的聚類提供了數據實例的全局表征,可以顯著地促進對整個數據集的進一步分析,如異常檢測[166,201]、域適應[180,240]、社區檢測[121,178]和鑒別表示學習[133,164,214]等。
雖然淺聚類方法已經取得了巨大的成功,但它們假設實例已經在一個具有良好形狀的潛在矢量空間中表示。隨著過去幾十年互聯網和web服務的快速發展,研究人員對發現新的機器學習模型越來越感興趣,這些模型能夠處理沒有明確特征的非結構化數據,如圖像,以及具有數千維的高維數據等。因此,淺聚類方法不能再直接用于處理此類數據。近年來,深度學習的表示學習取得了成功,特別是在非結構化和高維數據中[166,201]。然而,在聚類過程中并沒有探索深度學習技術。由于不能很好地捕捉到實例間復雜的關系,導致聚類結果欠佳。
為了解決這一問題,深度聚類(Deep Clustering)技術應運而生,它旨在將深度表示學習和聚類聯合優化。更具體地說,深度聚類方法關注以下研究挑戰:(1)如何學習能夠產生更好聚類性能的判別表示?(2)如何在一個統一的框架下高效地進行聚類和表示學習?(3)如何打破聚類和表示學習之間的壁壘,使它們以交互迭代的方式相互增強?
為了解決上述挑戰,已經提出了許多具有不同深度架構和數據類型的深度聚類方法。受聚類(最基本的機器學習任務之一)中深度學習的巨大成功以及該方向最近取得的大量進展的激勵,本文通過提出各種最新方法的新分類,對深度聚類進行了全面的調研。
綜上所述,本文旨在從以下幾個方面為潛在讀者理解深度聚類全景圖提供支持:
深度集群的基石。我們總結了深度聚類的兩個基礎模塊,即表示學習模塊和聚類模塊。對于每個模塊,我們強調了從現有方法中總結出的具有代表性和通用性的設計,這些設計很容易推廣到新的模型中。
系統的分類。基于表示學習模塊和聚類模塊之間的交互方式,我們對現有的深度聚類方法進行了系統的分類,提出了四個具有代表性的方法分支。我們還在不同的場景中比較和分析每個分支的屬性。
豐富的資源和參考資料。我們收集了各種類型的基準數據集、評估指標和深度聚類最新論文的開源實現,這些數據與Github (1.8K Star)上的參考文獻一起組織。
未來的發展方向。基于表示學習模塊和聚類模塊的特性及其相互作用,我們討論了現有方法的局限性和挑戰,并對未來值得研究的有前景的研究方向提出了自己的見解和想法。
在這個調研中,我們關注深度學習技術的聚類,特別是深度表示學習和深度神經網絡聚類之間的相互作用。對于其他基礎研究問題,如初始化聚類、自動識別聚類數量等,我們在第8節中進行了討論,并將其留待以后的工作。關于淺聚類、深聚類和表示學習的調研比較見表1。
**摘要: **傳統的多標簽分類算法大多數采用監督學習的方式,但現實生活中有許多數據沒有被標記。通過人工的方式對需要的全部數據進行標記耗費的成本較高。半監督學習算法可以使用大量未標記數據和標記數據來進行工作,因此受到了人們的重視。文中首次從監督和半監督學習的角度對多標簽分類算法進行闡述,同時全面地對多標簽分類算法的應用領域進行了總結。從決策樹、貝葉斯、支持向量機、神經網絡和集成等多個方向對標簽非相關性和標簽相關性的監督學習算法進行概述,從批處理和在線的方向對半監督學習算法進行綜述,從圖像分類、文本分類和其他等角度對多標簽的實際應用領域進行介紹。文中還簡要分析了多標簽的評估指標,最后給出了關于半監督學習下的復雜概念漂移處理、特征選擇處理、標簽復雜相關性處理和類不平衡處理的研究方向。
隨著大數據技術的快速發展,生活中產生了大量的數據, 這些數據中包含著與人類生活密切相關的許多信息,為了從 中獲得需要 的 數 據,學 者 開 展 了 許 多 與 數 據 挖 掘 有 關 的 研 究[1].傳統的分類方法側重于對單標簽進行分類,然而,許多 現實問題卻需要使用多標簽分類(MultiGlabelClassification, MLC)[2]來解決. 給定一個d維輸入空間X=X1×??×Xd 和一個輸出標 簽Y={λ1,λ2,??,λq},q>1.多標簽實例可以定義為一對(x, y),其中x=(x1,??,xd)∈X 并且y?Y,其中y 被稱為標簽 集.當標簽j和實例x 相關時,λj等于1,否則等于0.MLC 的目標是構建一個預測模型h:X→2Y ,為未知實例提供一組 相關標簽.每個實例可能有幾個與其相關的標簽,這些標簽 來自先前定義的標簽集.因此,對于每個x∈X,有標簽空間 Y 的二分集合(y,y -),其中y 是相關標簽的集合,y - 是不相關 標簽的集合. MLC主要可以應用于文本分類[3]、醫學診斷分類[4]、蛋 白質分類[5]、音樂[6]或視頻分類[7]等.例如,在文本分類中, 關于神州十二號發射的報道可以歸類為社會類別,也可以歸 類為科技類別.類似地,在醫學診斷分類中,一位病人可以同 時患有糖尿病和高血壓疾病. 經典的 MLC方法主要分為問題轉化(ProblemTransforG mation,PT)和算法自適應(Algorithm Adaptation,AA).PT 是將多標簽問題轉化成多個簡單的單標簽分類問題,其中最 常用的是二元相關(BinaryRelevance,BR)方法.BR 方法將 多標簽分類問題轉化為|L|個不同的二元單標簽分類問題, 轉化后,選擇任何現有的二元單標簽分類算法作為基分類器. BR方法未考慮標簽之間的相關性,為了解決這一問題,研究 人員提出了分類器鏈方法(ClassifierChains,CC)[8],它是在 BR算法的基礎上,通過鏈的方法連接由 BR 獲得的二元分類 器.標簽冪集(LabelPowerGSet,LP)方法也是一種 PT 方法, LP是將多標簽問題轉化為具有 2|L| 個類標簽的多 類問題. 隨機子標簽集成算法(Random KGLabelsets,RAkEL)[9]是對 LP方法的一種集成使用,其中每個 LP基分類器都是由隨機 生成的且互不相同的小規模標簽子集訓練而成.AA 是修改 現有的算法以適應需要解決的新問題,具體表現為將現有的 單標簽分類問題調整為 MLC問題.構建 AA的流行模型包括 k近鄰[10]、決策樹[11]、支持向量機[12]、神經網絡[13]等. 近年來,已有一些關于 MLC 的綜述.Zhang等[14]介紹 了多標簽學習的基礎知識,對8種經典的算法進行了分析和 討論,總結了多標簽學習的在線資源等.Tsoumakas等[15]從 PT和 AA 的角度對多標簽進行分類的方法進行了詳細的介 紹,簡單介紹了一些評估指標,最后比較了 MLC方法的實驗 結果.Moyano等[16]對20個數據集上的多標簽集成分類算 法進行了比較,根據數據不平衡、標簽間相關性的特征來評價 它們的性能.Zhou等[17]針對評估措施和標簽相關性問題對 多標簽學習進行了討論,同時講述了4種具有代表性的多標 簽算法的基本思想和技術細節.Zheng等[18]從多標簽數據流 分類的角度介紹了 傳 統 的 MLC 方 法 并 討 論 了 它 們 的 優 缺 點,確定了多標簽數據流分類的挖掘約束.至今為止,還沒有 綜述從監督學習和半監督學習的角度對 MLC 進行介紹,同 時也沒有綜述對多標簽的實際應用進行全面的介紹.本文的 總體框架如圖1所示.
本文的主要貢獻有: (1)首次從監督學習和半監督學習兩個方面對 MLC 算 法進行了綜述,角度更加新穎、全面. (2)首次從實際應用領域對 MLC 算法進行了全面的綜 述,總結了近年來應用領域的先進算法. (3)深入分析了 MLC算法中存在的問題,并提出了未來 的研究方向.
近年來,深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會,可以找出數據的結構模式和功能屬性之間的相互關系,并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。
在目標屬性下設計和生成新數據已經吸引了各種關鍵應用,如分子設計、圖像編輯和語音合成。傳統的手工制作方法嚴重依賴專業經驗和密集的人力努力,但仍然受到科學知識的不足和低吞吐量的影響,以支持有效和高效的數據生成。近年來,深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會,可以找出數據的結構模式和功能屬性之間的相互關系,并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。首先,提出了潛在的挑戰,并提供了初步建議。然后正式定義了可控深度數據生成技術,提出了可控深度數據生成技術的分類方法,總結了可控深度數據生成技術的評價指標。在此基礎上,介紹了可控深度數據生成技術的重要應用,并對已有的研究成果進行了實驗分析和比較。最后,指出了可控深度數據生成的未來發展方向,并指出了5個潛在挑戰。
//www.zhuanzhi.ai/paper/9ce23982a0872977f5df286c1f4f388f
數據生成是一個重要的領域,旨在捕捉數據的固有分布,以生成類似的新數據。由于其在分子設計[1-3]、圖像編輯[4-6]、文本生成[7,8]和語音合成[9-11]等關鍵領域的廣泛應用,它是一個持久、快速發展的重要領域。數據生成需要探索和操作復雜的數據結構,這在歷史上導致了高成本,密集的人力,豐富的領域知識在大(通常是離散的)搜索空間。部分由于這個原因,傳統的數據生成方法都是針對特定領域定制的,領域啟發式規則與工程更容易得到應用[12-15]。例如,藥物設計的過程,即產生新的分子結構,通常需要化學家手工制作候選結構,然后測試它們是否能帶來期望的性質,如溶解度和毒性。還可以利用泛型算法等計算方法,根據領域知識[16]設計分子突變和交叉規則,對分子結構進行組合搜索。然而,分子結構空間是巨大的: 例如,現實的類藥物分子的數量估計在10^33[17]左右,這給搜索和識別感興趣的結構帶來了相當大的困難。此外,在許多領域,如神經科學,電路設計,蛋白質結構,我們的領域知識仍然非常有限和不完整。對數據生成過程的缺乏理解限制了我們重新生成甚至創建具有所需屬性的新數據的能力。另一個例子是邏輯電路設計,其目的是輸出所需的集成電路原理圖。傳統的電路設計是一個相當復雜的過程,需要根據電荷的特性對電路元件的行為進行大量的數學建模[13,18],并根據不同電路器件的性質選擇合適的材料[13,19]。值得注意的是,對傳統數據生成技術的詳細綜述可以在特定的領域單獨找到[13,15,20,21]。
近年來,深度學習的發展為我們解決上述數據生成方面的挑戰提供了新的機遇。深度學習技術在學習圖像、文本、序列和圖等各種數據類型的表示方面取得了巨大的成功[22-26]。這進一步使我們能夠適應從數據結構到其相應(潛在)特征的映射,其中前者通常可以是離散的和非結構化的,而后者是連續的向量或矩陣。因此,我們不需要使用昂貴的組合算法來直接探索復雜數據結構的高維空間,而是可以使用高效的算法(如基于梯度的算法)來探索數據在連續向量空間中的潛在特征。例如,蛋白質結構是由氨基酸序列形成的,因此序列數據的分布可以被序列深度學習模型(如遞歸神經網絡(RNNs)和變壓器[27])捕獲和編碼。然后從學習到的蛋白質結構潛在空間[28]中自回歸生成新的氨基酸序列。研究表明,與Rosetta[29]等傳統框架相比,基于深度學習的蛋白質設計方法獲得了更大的序列多樣性。此外,由于深度學習以端到端方式提取潛在特征,可以大大減少對領域知識的依賴。例如,在圖像合成領域,基于深度學習的技術可以學習特定藝術家畫作的潛在語義表示,并很容易地擬合其在潛在空間中的分布,因此合成同一藝術家的新畫作簡單地就是一個采樣+解碼過程[30]。另外,由于領域知識的獨立性更強,基于深度學習的數據生成技術在不同數據類型或應用程序中更容易一般化或交叉使用方面具有更好的潛力。
盡管黑盒深度學習技術有望解決數據生成中的傳統障礙,但如何填補學習到的潛在特征和感興趣的真實屬性之間的空白對于確保生成的數據結構和期望屬性之間的對齊至關重要。在典型的現實世界應用中,生成具有所需特性的數據是事實上的先決條件,從醫學設計[31,32],到電路混淆[33],到藝術設計[34,35],再到音頻合成[36,37]。例如,化學家不僅可以生成新型季銨鹽化合物(QACs),還希望生成的QACs在水中具有強溶解性,最低抑菌濃度(MIC)小于4mg/L,以確保抗菌性[38]。圖像描述社區可能期望從長度小于10個單詞的圖像中以幽默的風格生成更多類似人類的文本[39,40]。因此,為了解決深度學習技術產生的數據屬性控制這一核心問題,近年來可控深度數據生成的需求和研究主體快速增長[1,6,41 - 43]。
迄今為止,已有相當多的研究致力于可控深度數據生成,以應對上述挑戰。為了推進最先進的技術和預見潛在的研究機會,全面了解現有工作的優勢和弱點是很重要的。此外,在控制不同領域的數據生成方面也有廣泛的興趣。雖然大多數提出的方法都是針對單個應用領域設計的,但將它們的技術推廣到其他應用領域是有益的,也是可能的。因此,交叉引用這些服務于不同應用領域的方法是困難的,需要加以解決。此外,可控的深度數據生成結果的質量要求在各個應用領域專門設計評價策略。因此,我們需要對不同領域的不同評價策略進行系統的標準化和總結。此外,人工智能(AI)科學家正在尋找新的可用數據集來測試他們的可控深度數據生成模型,而特定領域的社區正在尋找更強大的控制技術來生成具有期望屬性的復雜結構化數據,鑒于這兩方面的需求不斷增長,對現有可控深度數據生成技術的系統綜述限制了雙方數據生成的進展。為了填補這一空白,本研究旨在通過對可控深度數據生成技術的系統綜述,幫助跨學科研究人員了解可控深度數據生成的基本原理,選擇合適的技術解決相關領域的問題,并以標準化的評估場景推進研究前沿。這項綜述的主要貢獻總結如下:
對現有技術進行系統的總結、分類和比較。根據可控深度數據生成過程的觸發方式,對現有可控深度數據生成技術進行了全面的分類,形成了新的分類框架。討論并比較了該分類法不同子類別的技術細節、技術優缺點。這種分類法的提出是為了使來自不同應用領域的研究人員能夠定位最適合他們需要的技術。
標準化的評估指標和流程。從歷史上看,數據生成方法和它們的評估通常是針對單個領域定制的,盡管它們有共同的抽象問題和目標,但并沒有很好地統一。針對這一問題,本文總結了可控深度數據生成的常用評價指標和流程,并從生成數據質量和屬性可控性兩個角度對其進行標準化。
對主要應用進行全面的分類和總結。對分子合成與優化、蛋白質設計、圖像編輯、情感語音生成等主要應用進行了全面的介紹和總結。本文比較并充分討論了應用于這些應用領域的各種技術。對這些主要應用的全面分類和總結,將有助于人工智能研究人員探索廣泛的應用領域,并指導這些領域的研究人員使用適當的技術生成數據。
對現有基準數據集進行系統綜述,并對現有技術進行實證比較。根據不同的數據模式,系統地總結了各應用領域借鑒的基準數據集。此外。實驗結果由我們和同行評議的文章進行,以比較在這些基準數據集上生成可控深度數據的代表性模型。對現有基準數據集的系統綜述和代表性技術的實證比較將使模型開發人員能夠使用額外的數據集來評估他們的模型,并將他們提出的模型的性能與基準結果進行比較。
對當前的研究現狀和潛在的未來方向進行了深刻的討論。本文通過對可控深度數據生成技術、標準化評價指標、廣泛的應用范圍、基準數據集的系統回顧和現有技術的實證比較,對該領域存在的幾個問題提出了深刻的見解,并展望了該領域未來的發展方向。
在第一部分中,我們首先介紹了可控深度數據生成的背景、挑戰、我們的貢獻、我們的綜述與現有綜述的關系。然后在第2節中,我們將介紹用于深度數據生成的通用框架作為初步介紹。接下來,我們正式闡述了可控深度數據生成問題(章節3.1),并在章節3中根據各種屬性控制技術(章節3.2)提出了分類方法,然后在同一章節中總結了評價指標。在第4節中,我們介紹了可控深度數據生成的技術,并根據我們的分類,詳細解釋了從無開始可控生成(第4.1節)和從源數據可控轉化(第4.2節)的概念和代表工作。在第5節中,我們將展示在4.1節和4.2節中回顧的模型在各種領域特定任務中的應用,然后介紹這些領域中使用的流行數據集。此外,在第6節中,我們對常用的分子、圖像、文本和音頻數據集進行了實驗比較和分析,用于可控的深度數據生成。在后面的第7節中,我們將介紹該領域的潛在挑戰、機會和現有方法的局限性。我們將在第8部分結束我們的綜述。
【導讀】推薦系統是現在習以為常的應用,如何融入元學習方法來解決推薦系統的冷啟動或小數據場景是個有趣的問題。上海交大最新《推薦系統中的深度元學習》綜述,有40頁pdf涵蓋135篇文獻,全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示,提出了一種分類方法,為基于元學習的推薦方法提供了設計空間。值得關注!
作為信息過濾技術,基于深度神經網絡的推薦系統近年來取得了很大的成功。然而,由于從頭開始的模型訓練需要足夠的數據,基于深度學習的推薦方法仍然面臨數據不足和計算效率低下的瓶頸。元學習作為一種新興的學習模式,學習如何提高算法的學習效率和泛化能力,在解決數據稀疏問題方面顯示出了其優勢。最近,越來越多的基于深度元學習的推薦系統的研究出現了,以提高在可用數據有限的推薦場景下的性能,例如用戶冷啟動和項目冷啟動。因此,本研究及時全面地概述了當前基于深度元學習的推薦方法。針對推薦場景、元學習技術和元知識表示,提出了一種分類方法,為基于元學習的推薦方法提供了設計空間。對于每個推薦場景,我們進一步討論了現有方法如何應用元學習來提高推薦模型的泛化能力的技術細節。最后,我們指出了當前研究的局限性,并指出了未來研究的方向。
//www.zhuanzhi.ai/paper/6cff1ae05b9c005089acf0838b5fa0a6
近年來,推薦系統作為緩解信息過載的過濾系統被廣泛應用于電子商務、娛樂服務、新聞等各種網絡應用。推薦系統通過在大量的候選物品中提出個性化的建議,在改善用戶體驗和增加在線平臺吸引力方面取得了巨大的成功。隨著數據驅動的機器學習算法[3,90],特別是基于深度學習的方法[9,32,121]的發展,該領域的學術和行業研究在準確性、多樣性、可解釋性等方面極大地提高了推薦系統的性能。
由于表達表示學習能力能夠從足夠的數據中發現隱藏的依賴關系,基于深度學習的方法在當代推薦模型中被大量引入[26,121]。通過利用大量具有不同數據結構的訓練實例(例如,交互對[121]、序列[20]和圖形[26]),具有深度神經結構的推薦模型通常被設計用于有效捕獲非線性和非微不足道的用戶/物品關系。然而,傳統的基于深度學習的推薦模型通常是基于預定義的學習算法,用足夠的數據從頭開始訓練。例如,常規監督學習范式通常使用從所有用戶收集的交互來訓練一個統一的推薦模型,并基于學習到的特征表示對未看到的交互進行推薦。這種基于深度學習的方法通常需要大量的數據和計算。換句話說,基于深度學習的推薦系統的性能很大程度上依賴于大量訓練數據的可用性和足夠的計算量。在實際的推薦應用中,數據的收集主要來源于用戶在訪問網絡平臺過程中觀察到的用戶互動。存在可用用戶交互數據稀疏(如冷啟動推薦)和模型訓練計算受限(如在線推薦)的推薦場景。因此,數據不足和計算效率低下的問題成為基于深度學習的推薦模型的瓶頸。
最近,元學習提供了一種很有吸引力的學習范式,它針對數據和計算的不足,著重加強機器學習方法的泛化能力[36,98]。元學習的核心思想是從先前的多任務學習過程中獲得關于高效任務學習的先驗知識(即元知識)。元知識可以促進新任務的快速學習,在看不見的任務上具有良好的泛化性能。在這里,任務通常指屬于同一類或具有相同屬性的一組實例,涉及其上的單個學習過程。與提高深度學習模型的表征學習能力不同,元學習側重于學習更好的學習策略來替代固定的學習算法,被稱為學習到學習的概念。由于元學習技術在對看不見的任務進行快速適應方面具有巨大的潛力,它被廣泛應用于圖像識別[4,130]、圖像分割[60]、自然語言處理[48]、強化學習[75,103]等研究領域。
元學習的好處與推薦模型在實例有限和計算效率低下的情況下的推廣需求是一致的。早期基于元學習的推薦方法主要分為個性化推薦算法選擇[13,78],提取元數據集的特征,針對不同的數據集(或任務)選擇合適的推薦算法。通過運用提取元知識和生成任務特定模型的思想,這種元學習的定義更接近自動化機器學習的研究[39,115]。**隨后,深度元學習[38]或神經網絡元學習[36]出現,并逐漸成為推薦模型中典型討論的元學習技術的主流[47,69]。如[36,38]所介紹的,深度元學習旨在提取元知識,以實現深度神經網絡的快速學習,這對目前流行的深度學習范式帶來了增強。2017年以來,深度元學習在推薦系統研究界受到關注。**在訓練傳統的深度推薦模型時,首先應用先進的元學習技術來緩解數據不足(即冷啟動問題)。例如,最成功的基于優化的元學習框架MAML,以神經網絡參數初始化的形式學習元知識,首先在冷啟動推薦場景[47]中表現出極大的有效性。此外,在元學習模式下還研究了點擊率預測[69]、在線推薦[123]、順序推薦[125]等多種推薦場景,以提高在數據不足和計算效率低下的情況下的學習能力。
在本文中,我們對快速增長的基于深度元學習的推薦系統的研究進行了及時和全面的綜述。在我們的研究中,雖然已經有一些關于元學習或深度元學習的研究綜述了通用元學習方法及其應用的細節[36,38,98],但對推薦系統的最新進展仍然缺乏關注。此外,在其他應用領域也有一些關于元學習方法的綜述,如自然語言處理[48,117],多模態[61]和圖像分割[60]。然而,目前還沒有關于深度元學習在推薦系統中的研究。與他們相比,我們的綜述是填補這一空白的第一次嘗試,系統地回顧了元學習和推薦系統相結合的最新論文。在我們的綜述中,我們的目的是全面回顧基于深度元學習的推薦系統的文獻,這將有助于讀者和研究人員對這一主題的全面理解。為了仔細定位該領域的工作,我們提供了一個從三個角度的分類,包括推薦場景、元學習技術和元知識表示。此外,我們還根據推薦場景討論了相關的方法,并介紹了不同的作品如何利用元學習技術提取特定的元知識,包括參數初始化、參數調制、超參數優化等多種形式。我們希望我們的分類可以為開發新的基于深度元學習的推薦方法提供設計空間。此外,我們還總結了構建元學習任務的常見方法,這是構建元學習范式的必要條件。 本次綜述的結構安排如下。在第2節中,我們介紹了元學習技術的共同基礎和典型的推薦場景,其中元學習方法已被研究,以緩解數據不足和計算效率低下。在第3節中,我們將介紹由三個獨立軸組成的分類法。在第4節中,我們總結了文獻中使用的元學習推薦任務構建的不同方法。然后,我們在第5節詳細闡述了在不同推薦場景下使用元學習技術的現有方法的方法論細節。最后,我們在第6部分討論了該領域未來的研究方向,并在第7部分總結了這一綜述。
基于深度元學習的推薦系統分類
在本節中,我們建立了基于深度元學習的推薦系統的分類,并根據分類總結了現有方法的特點。通常,我們根據三個獨立的軸來定義分類,包括推薦場景、元學習技術和元知識表示。圖1顯示了分類法。之前[38,98]對一般元學習方法的分類更多關注2.1節介紹的三種元學習框架,但對元學習技術的實際應用關注有限。此外,[36]提出了一個新的分類法,涉及元表示、元優化器和元目標三個方面。他們提供了一個更全面的分類,可以引導新的元學習方法的發展。但是,它側重于整個元學習領域,不適合反映基于深度元學習的推薦系統的研究現狀和應用場景。
多目標跟蹤是計算機視覺領域的經典研究方向。最近來自浙江大學等《多目標跟蹤MOT嵌入》綜述論文,對現有的MOT嵌入方法進行了分類和總結,并對其優點和局限性進行了深入全面的分析。總結為未來的算法設計和新課題的探索提供了啟示。
多目標跟蹤(MOT)的目的是將視頻幀內的目標物體進行關聯,從而獲得完整的運動軌跡。隨著深度神經網絡的發展和對智能視頻分析需求的增加,MOT在計算機視覺界得到了越來越多的關注。嵌入方法在目標定位估計和時間身份關聯中起著至關重要的作用。與其他計算機視覺任務如圖像分類、目標檢測、再識別、分割等不同,MOT中的嵌入方法變化很大,從未得到系統的分析和總結。本研究首先從patch級嵌入、單幀嵌入、跨幀聯合嵌入、關聯嵌入、順序嵌入、軌跡嵌入和跨軌關系嵌入7個不同的角度對MOT中的嵌入方法進行了全面的綜述和深入的分析。我們進一步總結了現有的廣泛使用的MOT數據集,并根據其嵌入策略分析了現有的先進方法的優勢。最后,討論了一些有待進一步研究的領域和未來的研究方向。
近年來,多目標跟蹤(MULTI-OBJECT tracking, MOT)得到了廣泛的研究,其目的是將被檢測物體跨視頻幀進行關聯,獲得完整的運動軌跡。近年來出現了各種各樣的跟蹤算法,從圖聚類方法[1],[2],[3],[4]到聚合跨幀和對象信息的圖神經網絡[5],[6],[7],[8];從跟蹤檢測模式[9]、[10]、[11],到聯合檢測跟蹤[5]、[12]、[13]、[14]、[15]、[16],提高多幀檢測性能;從卡爾曼濾波[17]到循環神經網絡(RNN)[18]和長短時記憶(LSTM)[19],以提高與運動線索的關聯性能。隨著跟蹤算法的發展,MOT可以應用于許多任務,如交通流分析[1],[20],[21],[22],人類行為預測和姿態估計[23],[24],[25],[26],自動駕駛輔助[27],[28],甚至水下動物豐度估計[29],[30],[31]。
MOT系統的流程主要分為兩部分,即嵌入模型和關聯算法。在輸入多個連續幀的情況下,通過嵌入技術和關聯方法估計目標的位置和軌跡。由于存在光照變化、遮擋、復雜環境、快速相機運動、不可靠檢測、各種低分辨率[32]等問題,MOT具有挑戰性。此外,跟蹤算法的單個步驟,如檢測、特征提取、親和力估計和關聯,也會影響跟蹤性能。這些導致了顯著的變化和不確定性。隨著深度神經網絡表示學習的發展,嵌入方法在MOT中目標位置估計和時間身份關聯中發揮著重要作用。雖然關聯在MOT中也很重要,但在本研究中,我們更多關注的是嵌入學習,而不是關聯。
然而,MOT中的嵌入學習方法還沒有得到系統的分析和總結。不同于其他計算機視覺任務,如圖像分類、目標檢測、再識別(Re-ID)和分割,MOT中的嵌入方法有很大的變化。一些嵌入方法將多任務頭[16]、[33]、[34]、[35]、[36]組合在一起,包括框回歸、對象分類、再識別等。一些嵌入方法考慮了[12],[14],[37],[38],[39]的時空相關性,將外觀信息和運動信息相互協作。一些方法利用目標之間的交互關系,前景和背景,局部和全局信息的相關性和注意,學習軌跡嵌入[40],[41],[42],[43]。嵌入方法的較大偏差促使我們從嵌入的角度進行全面綜述,并討論幾個研究不足的嵌入區域和未來的方向。
圖 1. MOT中嵌入方法的分類。最上面的流程圖是這次調查的大綱。綠色和淺紅色的盒子表示嵌入方法和代表性文獻分別。
近年來已有一些關于MOT的綜述[44],[45],[46],[47],[48]發表。具體來說,[44]總結了一些基于深度學習的跟蹤器和深度神經網絡結構。[45]側重于回顧基于模型的多假設跟蹤與機器學習技術在檢測,過濾和關聯。[46]回顧了深度學習在MOT中的應用,包括檢測、特征提取、親和性計算和關聯。[47]回顧了近幾十年來MOT的發展,重點關注深度學習技術和研究MOT的最新進展。[48]提供了MOT系統的回顧,并從不同的方面討論了方法。與現有研究不同的是,我們關注的是MOT中的嵌入學習,即如何為MOT任務學習面向對象的代表性特征,并根據嵌入策略對最先進的方法進行綜合分析。這項綜述的主要貢獻總結如下:
我們對現有的MOT嵌入方法進行了分類和總結,并對其優點和局限性進行了深入全面的分析。總結為未來的算法設計和新課題的探索提供了啟示。
我們總結了廣泛使用的數據集和基準測試,并根據嵌入方法分析了最先進的方法。
我們試圖討論與嵌入技術相關的幾個重要研究方向和未被充分研究的問題,并對未來的趨勢邁出一步。
這次綜述的概要總結如下。我們首先演示了相關的工作,包括在第2節中最相關的MOT任務。第3節提供了嵌入方法的分類和詳細調研。然后,我們總結了現有的廣泛使用的MOT數據集,評估指標,并根據嵌入方法分析了最先進的方法。在第5節中,我們討論了幾個未被研究的問題,并指出了未來的發展趨勢和潛在的研究方向。結論在第6節得出。
MOT嵌入方法體系**
**嵌入方法是目標位置估計和ID關聯的關鍵。我們提出的MOT嵌入方法分類如圖1所示。在本節中,我們將常用的MOT嵌入方法分為七組,包括patch級嵌入、單幀嵌入、跨幀聯合嵌入、基于相關的嵌入、序列嵌入、軌跡嵌入和交叉軌跡關系嵌入。對于每一類方法,我們都介紹了具有代表性的算法,然后討論了它們的優缺點,希望能為研究人員提供對每一類方法的深入分析。
MOT數據集
我們首先回顧了11個廣泛使用的MOT數據集,包括KITTI [177], [211], [212], mo15 [213], DukeMTMCT [117], MOT16-17 [143], PathTrack [124], UA-DETRAC [214], PoseTrack [215], [216], MOTS [37], CityFlow [20], KITTI MOTS [37], MOT20 [32], [144], nuScenes [217], Waymo [218], BDD100K[219],[220],和VisDrone[221],[222],[223],[224]。這些數據集主要集中在人和車輛的跟蹤。一些用于一般的行人跟蹤,一些用于交通流分析和自動駕駛。注釋包括2D和3D邊框、姿勢和關鍵點以及實例蒙版。表2匯總了這些數據集的統計情況。也有其他針對特定任務的跟蹤數據集,如HiEve [225], [226], DanceTrack [227], Omni-MOT [38], [228], Virtual KITTI [229], Apollo MOTS [111], TAO-person [230], WildTrack[231],和GMOT-40[232]。這些數據集的詳細信息可以在參考資料中找到。
未來方向**
沒有得到充分的研究領域
本文從非完全監督學習、泛化和領域自適應、擁擠場景嵌入、多視圖協作和多模態MOT五個方面探討了MOT嵌入方法的發展趨勢和潛在發展方向。
元學習 輔助任務學習 大規模預訓練 從其他跟蹤相關模型中提取知識,用于嵌入學習,如基于圖像的Re-ID模型和檢測模型。 學習跨域嵌入,以彌合訓練和測試分布差異。 挖掘先驗、約束和一致性,如進入-離開一致性(計數一致性)、幾何一致性和自我運動一致性。 估計隱式對象行為狀態以增強嵌入。 目標軌跡估計的推理與因果學習。
摘要:
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
//ieeexplore.ieee.org/document/9086055
引言
由于深度神經網絡具有學習不同層次一般視覺特征的強大能力,它已被作為基本結構應用于許多計算機視覺應用,如目標檢測[1]、[2]、[3]、語義分割[4]、[5]、[6]、圖像描述[7]等。從像ImageNet這樣的大規模圖像數據集訓練出來的模型被廣泛地用作預訓練模型和用于其他任務的微調模型,主要有兩個原因:(2)在大規模數據集上訓練的網絡已經學習了層次特征,有助于減少在訓練其他任務時的過擬合問題;特別是當其他任務的數據集很小或者訓練標簽很少的時候。
深度卷積神經網絡(ConvNets)的性能在很大程度上取決于其能力和訓練數據量。為了增加網絡模型的容量,人們開發了不同類型的網絡架構,收集的數據集也越來越大。各種網絡,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大規模數據集,如ImageNet [14], OpenImage[15]已經被提出訓練非常深的ConvNets。通過復雜的架構和大規模的數據集,ConvNets的性能在許多計算機視覺任務[1],[4],[7],[16],[17],[18]方面不斷突破先進水平。
然而,大規模數據集的收集和標注是費時和昂貴的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中應用最廣泛的數據集之一,包含約130萬張已標記的圖像,覆蓋1000個類,而每一幅圖像由人工使用一個類標簽進行標記。與圖像數據集相比,視頻數據集由于時間維度的原因,其采集和標注成本較高。Kinetics數據集[19]主要用于訓練ConvNets進行視頻人體動作識別,該數據集由50萬個視頻組成,共600個類別,每個視頻時長約10秒。許多Amazon Turk工作人員花了大量時間來收集和注釋如此大規模的數據集。
為了避免費時和昂貴的數據標注,提出了許多自監督方法來學習大規模無標記圖像或視頻的視覺特征,而不需要任何人工標注。一種流行的解決方案是提出各種各樣的前置任務讓網絡來解決,通過學習前置任務的目標函數來訓練網絡,通過這個過程來學習特征。人們提出了各種各樣的自監督學習任務,包括灰度圖像著色[20]、圖像填充[21]、玩圖像拼圖[22]等。藉口任務有兩個共同的特性:(1)圖像或視頻的視覺特征需要被ConvNets捕捉來解決前置任務;(2)監控信號是利用數據本身的結構(自我監控)產生的。
自監督學習的一般流程如圖1所示。在自監督訓練階段,為ConvNets設計預定義的前置任務,并根據數據的某些屬性自動生成前置任務的偽標簽。然后訓練卷積神經網絡學習任務的目標函數。當使用前置任務進行訓練時,ConvNet的較淺的塊集中于低級的一般特征,如角、邊和紋理,而較深的塊集中于高級任務特定的特征,如對象、場景和對象部分[23]。因此,通過藉由任務訓練的ConvNets可以學習內核來捕獲低級特征和高級特征,這對其他下游任務是有幫助的。在自監督訓練結束后,學習到的視覺特征可以作為預訓練的模型進一步轉移到下游任務中(特別是在數據相對較少的情況下),以提高性能和克服過擬合。通常,在有監督的下游任務訓練階段,僅從前幾層傳遞視覺特征。
摘要
深度半監督學習是一個快速發展的領域,具有一系列的實際應用。
本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。
我們首先提出了一種深度半監督學習分類法,該分類法對現有方法進行分類,包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后,我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。
在總結近年來研究進展的基礎上,進一步探討了現有方法的不足之處,并提出了一些探索性的解決方案。
//arxiv.org/pdf/2103.00550.pdf
引言
深度學習一直是一個活躍的研究領域,在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據,在[9]、[10]的理論和實踐中都取得了巨大的成功,特別是在監督學習場景中。然而,標簽樣品通常是困難的,昂貴的,或耗時獲得。標記過程通常需要專家的努力,這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如,在醫療任務中,測量是用昂貴的機器進行的,標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用,建立一個成功的學習系統是具有挑戰性的。相比之下,未標記的數據通常是豐富的,可以很容易地或廉價地獲得。因此,它是可取的利用大量的未標記的數據,以改善學習性能給定的少量標記樣本。因此,半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。
SSL是一種學習范式,它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比,SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展,可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法,減輕了對大量標記[13]的需求。根據系統的關鍵目標函數,可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:
半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集,半監督分類的目標是同時從有標記的和無標記的數據訓練分類器,這樣它比只在有標記的數據上訓練的有監督分類器更好。
半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成,半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。
半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集,半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能,該回歸算法預測一個實值輸出,而不是一個類標簽。
為了更清楚、更具體地解釋SSL,我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況,如對象檢測,語義分割,聚類,或回歸。因此,在本研究中,我們主要回顧了利用未標記數據進行圖像分類的方法。
SSL方法有很多種,包括生成模型[14],[15],半監督支持向量機[16],[17],基于圖的方法[18],[19],[20],[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23],它們提供了傳統SSL方法的全面概述。目前,深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架,并為深度學習設置開發新的SSL方法,這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征,我們將DSSL分為五類,即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。
在[12],[23]中有很多具有代表性的作品,但是一些新興的技術并沒有被納入其中,尤其是在深度學習取得巨大成功之后。例如,深度半監督方法提出了新的技術,如使用對抗訓練生成新的訓練數據。另外,[13]側重于統一SSL的評價指標,[24]只回顧了SSL的一部分,沒有對SSL進行全面的概述。最近,Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而,它不能與現有的方法相比,基于它們的分類,并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上,結合最新的研究,我們將對基礎理論進行綜述,并對深度半監督方法進行比較。總結一下,我們的貢獻如下:
我們對DSSL方法進行了詳細的回顧,并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。
我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法,每一種方法都有特定的類型。我們回顧了每一類的變體,并給出了標準化的描述和統一的示意圖。
我們確定了該領域的幾個開放問題,并討論了DSSL的未來方向。
簡介: 在許多將數據表示為圖形的領域中,學習圖形之間的相似性度量標準被認為是一個關鍵問題,它可以進一步促進各種學習任務,例如分類,聚類和相似性搜索。 最近,人們對深度圖相似性學習越來越感興趣,其中的主要思想是學習一種深度學習模型,該模型將輸入圖映射到目標空間,以使目標空間中的距離近似于輸入空間中的結構距離。 在這里,我們提供對深度圖相似性學習的現有文獻的全面回顧。 我們為方法和應用提出了系統的分類法。 最后,我們討論該問題的挑戰和未來方向。
在特征空間上學習足夠的相似性度量可以顯著確定機器學習方法的性能。從數據自動學習此類度量是相似性學習的主要目的。相似度/度量學習是指學習一種功能以測量對象之間的距離或相似度,這是許多機器學習問題(例如分類,聚類,排名等)中的關鍵步驟。例如,在k最近鄰(kNN)中分類[25],需要一個度量來測量數據點之間的距離并識別最近的鄰居;在許多聚類算法中,數據點之間的相似性度量用于確定聚類。盡管有一些通用度量標準(例如歐幾里得距離)可用于獲取表示為矢量的對象之間的相似性度量,但是這些度量標準通常無法捕獲正在研究的數據的特定特征,尤其是對于結構化數據。因此,找到或學習一種度量以測量特定任務中涉及的數據點的相似性至關重要。