亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度模型,如CNN和視覺transformer,在封閉世界的許多視覺任務中取得了令人印象深刻的成就。然而,在瞬息萬變的世界中,新穎的類別不斷涌現,這就要求學習系統不斷獲取新知識。例如,機器人需要理解新的指令,而意見監測系統應該每天分析新出現的主題。**類增量學習(class incremental Learning, CIL)使學習者能夠增量地吸收新類別的知識,并在所有見過的類別中構建通用分類器。**相應地,當直接用新的類實例訓練模型時,一個致命的問題發生了——模型傾向于災難性地忘記以前的特征,其性能急劇下降。在機器學習社區中,已經為解決災難性遺忘做出了許多努力。**文中全面綜述了深度類增量學習的最新進展,并從以數據為中心、以模型為中心和以算法為中心3個方面對這些方法進行了總結。**對基準圖像分類任務中的16種方法進行了嚴格統一的評估,從經驗上總結了不同算法的特點。此外,我們注意到目前的比較協議忽略了模型存儲中內存預算的影響,可能會導致不公平的比較和有偏差的結果。因此,本文主張通過在評估中調整內存預算,以及幾個與內存無關的性能度量,來進行公平比較。可以在//github.com/zhoudw-zdw/CIL_Survey/獲得重現這些評估的源代碼。

1, 引言

近年來,深度學習取得了快速的進步,深度神經網絡在許多領域取得了甚至超過人類水平的表現[1],[2],[3]。深度網絡的典型訓練過程需要預先收集數據集,例如大規模圖像[4]或文本[5]——網絡對預收集的數據集進行多個epoch的訓練過程。然而,在開放世界中,訓練數據往往是帶有流格式的[6]、[7]。由于存儲限制[8],[9]或隱私問題[10],[11],這些流數據不能長時間保存,要求模型僅用新的類實例進行增量更新。這種需求催生了類增量學習(Class-Incremental Learning, CIL)領域的興起,旨在在所有可見類之間持續構建一個整體分類器。CIL中的致命問題被稱為災難性遺忘,即直接用新類優化網絡將抹去以前類的知識,并導致不可逆的性能下降。因此,如何有效抵御災難性遺忘成為構建CIL模型的核心問題。

圖1描述了CIL的典型設置。訓練數據以流格式順序出現。在每個時間戳中,我們可以得到一個新的訓練數據集(在圖中表示為“任務”),并需要使用新的類更新模型。例如,該模型在第一個任務中學習"鳥"和"狗",在第二個任務中學習"老虎"和"魚",在第三個任務中學習"猴子"和"羊"等。然后,在所有見過的類中測試該模型,以評估其是否對它們具有區分性。一個好的模型應該在描述新類別的特征和保留之前學習的舊類別的模式之間取得平衡。這種權衡也被稱為神經系統[12]中的"穩定性-可塑性困境",穩定性表示保持以前知識的能力,可塑性表示適應新模式的能力。

除了類增量學習之外,還有其他解決增量學習問題的細粒度設置,例如任務增量學習(TIL)和領域增量學習(DIL)。我們在圖2中展示了這三個協議。TIL的設置與CIL類似,它們都觀察新任務中傳入的新類。然而,區別在于推斷階段,此時CIL要求模型在所有類之間進行區分。相比之下,TIL只需要在相應的任務空間中對實例進行分類。換句話說,它不需要跨任務辨別能力。因此,TIL比CIL更容易,這可以看作是CIL的一個特殊情況。另一方面,DIL集中于概念漂移或分布變化[13],[14]的場景,其中新任務包含來自不同領域但具有相同標簽空間的實例。在這種情況下,新的域對應于剪貼藝術格式的圖像。在本文中,我們將重點討論CIL設置,這是開放世界中更具挑戰性的場景。在深度學習[15]興起之前,也有關于CIL的研究。典型方法試圖用傳統的機器學習模型來解決災難性遺忘問題。然而,它們大多處理兩個任務內的增量學習,即模型只更新了一個新階段[16],[17],[18]。此外,數據收集和處理的快速發展要求模型能夠掌握傳統機器學習模型無法處理的長期、大規模數據流。相應地,具有強大表示能力的深度神經網絡很好地滿足了這些要求。因此,基于深度學習的CIL正在成為機器學習和計算機視覺領域的熱門話題。已有一些研究討論了增量學習問題。例如,[11]專注于任務增量學習問題,并提供了全面的綜述。[19]是一份關于類增量學習領域的相關綜述,但直到2020年才對方法進行討論和評估。然而,隨著CIL領域的快速發展,大量優秀的研究成果不斷涌現,極大地提升了基準測試集[20]、[21]、[22]、[23]的性能。另一方面,隨著視覺Transformer (ViT)[24]和預訓練模型的蓬勃發展,在CIL中關于ViT的熱討論引起了社區的關注。其他的綜述要么集中在[25]、[26]、[27]這一特定領域,要么缺乏最先進的[28]、[29]、[30]的性能演變。因此,迫切需要提供一份包含流行方法的最新綜述,以加快CIL領域的發展。文中從以數據為中心、以模型為中心、以算法為中心三個方面對深度類增量學習方法進行了全面綜述。在CIFAR100[31]和ImageNet100/1000[4]基準數據集上對不同類型的方法進行了整體比較。強調了CIL模型評估中的一個重要因素,即內存預算,并主張在預算一致的情況下對不同方法進行公平比較。相應地,用預算指標全面評估了CIL模型的可擴展性。總的來說,這項調查的貢獻可以概括如下:

  • **本文對深度CIL進行了全面的綜述,包括問題定義、基準數據集和不同的CIL方法族。**將這些算法按分類(表1)和時間順序(圖3)組織起來,以對最先進的技術進行整體概述。

  • **在幾個公開的數據集上對不同方法進行了嚴格和統一的比較,包括傳統的CNN支持的方法和現代ViT支持的方法。**討論了這些見解并總結了常見的規律,以啟發未來的研究。

  • 為了促進實際應用,CIL模型不僅應該部署在高性能計算機上,還應該部署在邊緣設備上。因此,我們主張通過強調內存預算的影響來整體評估不同方法。相應地,對給定特定預算的不同方法以及幾種新的性能指標進行了全面的評估。

本文的其余部分組織如下。第2節給出了類增量學習的問題定義。之后,我們在第3節中對當前的CIL方法進行了分類組織,并在第4節中提供了全面的評估。最后,第五節總結了類增量學習的未來研究方向。類增量方法體系

近年來,關于類增量學習的著作層出不窮,在機器學習和計算機視覺界引起了熱烈的討論。我們從以數據為中心、以模型為中心和以算法為中心三個方面對這些方法進行分類組織,如表1所示。以數據為中心的方法側重于用樣本求解CIL問題,可進一步分為數據重放和數據正則化。以模型為中心的方法,要么對模型參數進行正則化,避免漂移,要么對網絡結構進行擴展,以增強表示能力。最后,以算法為中心的方法利用知識蒸餾來抵抗遺忘或糾正CIL模型中的偏差。我們在圖3中按時間順序列出了具有代表性的方法,以顯示不同時期的研究重點。在接下來的章節中,我們將從這三個方面討論CIL方法。

付費5元查看完整內容

相關內容

本文從統一的角度對視覺識別領域的半監督學習(SSL)和無監督學習(UL)深度學習算法進行了綜述,

最先進的深度學習模型通常使用大量昂貴的標記訓練數據進行訓練。然而,在有限標簽的情況下,需要詳盡的人工標注可能會降低模型的泛化能力。半監督學習和無監督學習為從大量無標簽視覺數據中學習提供了很有前途的范式。這些范式的最新進展表明,利用未標記數據來改進模型泛化和提供更好的模型初始化具有很大的好處。本文從統一的角度對視覺識別領域的半監督學習(SSL)和無監督學習(UL)深度學習算法進行了綜述為了全面了解這些領域的最新技術,我們提出了一個統一的分類法。我們對現有的代表性SSL和UL進行了全面而深刻的分析,突出了它們在不同的學習場景和不同的計算機視覺任務中的應用的設計原理。最后,我們討論了SSL和UL的新興趨勢和公開挑戰,以闡明未來的關鍵研究方向。

//www.zhuanzhi.ai/paper/8f7472afa6b686ae45998a4f31d35ee6

在過去的十年中,深度學習算法和架構[1],[2]一直在推動各種各樣的計算機視覺任務的SOTA水平,從目標識別[3],檢索[4],檢測[5],分割[6]。為了達到人類水平的性能,深度學習模型通常是通過監督訓練在大量標記訓練數據上構建的。然而,手動收集大規模標記訓練集不僅昂貴和耗時,而且可能由于隱私、安全和道德限制而被法律禁止。此外,有監督深度學習模型傾向于記憶標記數據并加入注釋者的偏見,這削弱了其在實踐中對新場景的泛化,這些場景中數據分布不可見。

更便宜的成像技術和更方便的網絡數據訪問,使得獲取大量未標記的視覺數據不再具有挑戰性。因此,從未標記的數據中學習成為一種自然且有希望的方法來將模型擴展到實際場景中,在這種情況下,無法收集一個大的標記訓練集,該訓練集涵蓋了由不同場景、相機位置、一天中的時間和天氣條件引起的照明、視角、分辨率、遮擋和背景雜波等所有類型的視覺變化。半監督學習[7],[8]和無監督學習[9],[10],[11],[12]是兩種最具代表性的利用非標記數據的范例。這些范式建立在不同的假設基礎上,通常是獨立開發的,同時具有相同的目標,即學習使用未標記數據的更強大的表示和模型。

更便宜的成像技術和更方便的網絡數據訪問,使得獲取大量未標記的視覺數據不再具有挑戰性。因此,從未標記的數據中學習成為一種自然且有希望的方法來將模型擴展到實際場景中,在這種情況下,無法收集一個大的標記訓練集,該訓練集涵蓋了由不同場景、相機位置、一天中的時間和天氣條件引起的照明、視角、分辨率、遮擋和背景雜波等所有類型的視覺變化。半監督學習[7],[8]和無監督學習[9],[10],[11],[12]是兩種最具代表性的利用非標記數據的范例。這些范式建立在不同的假設基礎上,通常是獨立開發的,同時具有相同的目標,即學習使用未標記數據的更強大的表示和模型。

半監督和無監督學習范式的概述——兩者都旨在從未標記的數據中學習。

圖1總結了本次調研中涉及的兩種范式,它們都利用未標記數據進行視覺表征學習。根據是否對一小部分訓練數據給出標簽注釋,我們將范式分為半監督學習和無監督學習,明確定義如下。

  • (a) 半監督學習(SSL)旨在共同學習稀疏標記數據和大量輔助無標記數據,這些數據通常來自與標記數據相同的底層數據分布。在標準的封閉集SSL[8]、[13]中,標記數據和未標記數據屬于來自同一域的同一組類。在開放集SSL[14]、[15]中,它們可能不在同一個標簽空間中,也就是說,未標記的數據可能包含未知和/或錯誤標記的類。

  • (b)** 無監督學習(UL)旨在僅從無標簽數據中學習**,而不使用任何與任務相關的標簽監督。訓練完成后,可以使用標記數據對模型進行微調,以在下游任務[16]中實現更好的模型泛化。

按照上述定義,將已標記數據集和未標記數據集分別表示為Dl和Du。SSL和UL統一的整體學習目標是:

式中θ為深度神經網絡(DNN)的模型參數;X是輸入圖像,y是對應的標簽;L_sup和L_unsup是有監督的和無監督的損失條款;λl和λu是平衡超參數。在SSL中,這兩個損失項是聯合優化的。在UL中,只有無監督損失項用于無監督模型的預訓練(即λl = 0)。盡管SSL和UL在無監督目標學習的原理相同,但它們在學習設置上的差異,導致了不同的獨特挑戰。具體來說,SSL假設有限的已標記數據可用,其核心挑戰是用大量的未標記數據擴展已標記集。UL假設主要的學習任務沒有標記數據,它的關鍵挑戰是從未標記的數據中學習任務通用表示。

我們專注于及時全面地回顧利用未標記數據來改善模型泛化的進展,涵蓋了SSL和UL中最具代表性的最先進的方法及其應用領域,以及自監督學習的新興趨勢。重要的是,我們提出了先進深度學習方法的統一分類,為研究人員提供了一個系統的概述,有助于理解當前的SOTA,并確定未來研究的開放挑戰。

我們的貢獻是三方面的。首先,據我們所知,這是同類中第一個深度學習調研,全面回顧了利用無標簽數據進行視覺識別的三種流行的機器學習范式,包括半監督學習(SSL,§2),無監督學習(UL,§3),并進一步討論SSL和UL(§4)。其次,我們提供了一個統一的,有洞察力的分類和分析現有的方法在學習設置和模型制定,以揭示他們的潛在算法連接。最后,我們在§5中展望了新興的趨勢和未來的研究方向,以闡明那些未被探索的和潛在的關鍵的開放途徑。

半監督學習分類

現有的SSL方法通常假設未標記的數據是封閉集和任務特定的,也就是說,所有未標記的訓練樣本都屬于一個預定義的類集。現有的大多數工作都采用了基于某種底層數據結構(如流形結構[42]、[44]和圖結構[73])為每個未標記的樣本分配一個類標簽的思路。我們將最具代表性的半監督深度學習方法分為五類: 一致性正則化、自訓練、基于圖的正則化、深度生成模型和自監督學習(表1),并在§2.2.1、§2.2.2、§2.2.3、§2.2.4和§2.2.5中給出了它們的一般模型公式。

無監督學習分類

現有的無監督深度學習模型主要可以分為三大類: 前置任務、判別模型和生成模型(表2)。前置任務和判別模型也被稱為自監督學習,它們通過代理協議/任務驅動模型學習,并構建偽標簽監督來制定無監督代理損失。生成模型本質上是無監督的,并且明確地對數據分布建模,以學習沒有標簽監督的表示。我們在§3.2.1、§3.2.2和§3.2.3中回顧了這些模型。

付費5元查看完整內容

摘要

與批量學習不同的是,在批量學習中所有的訓練數據都是一次性可用的,而持續學習代表了一組方法,這些方法可以積累知識,并使用序列可用的數據連續學習。與人類的學習過程一樣,不斷學習具有學習、融合和積累不同時間步的新知識的能力,被認為具有很高的現實意義。因此,持續學習在各種人工智能任務中得到了研究。本文綜述了計算機視覺中持續學習的最新進展。特別地,這些作品是根據它們的代表性技術進行分組的,包括正則化、知識蒸餾、記憶、生成重放、參數隔離以及上述技術的組合。針對每一類技術,分別介紹了其特點及其在計算機視覺中的應用。在概述的最后,討論了幾個子領域,在這些子領域中,持續的知識積累可能會有幫助,而持續學習還沒有得到很好的研究。

//www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a

引言

人類的學習是一個漸進的過程。在人類的一生中,人類不斷地接受和學習新知識。新知識在發揮自身積累作用的同時,也對原有知識進行補充和修正。相比之下,傳統的機器學習和深度學習范式通常區分知識訓練和知識推理的過程,模型需要在有限的時間內在預先準備好的數據集上完成訓練,然后使用這些數據集進行推理。隨著相機和手機的廣泛普及,每天都有大量新的圖片和視頻被捕捉和分享。這就產生了新的需求,特別是在計算機視覺領域,模型在推理過程中要連續不斷地學習和更新自己,因為從頭開始訓練模型以適應每天新生成的數據是非常耗時和低效的。

由于神經網絡與人腦的結構不同,神經網絡訓練不易從原來的批量學習模式轉變為新的連續學習模式。特別是存在兩個主要問題。首先,按照序列學習多個類別的數據容易導致災難性遺忘的問題[1,2]。這意味著,在從新類別的數據更新模型參數后,模型在先前學習類別上的性能通常會急劇下降。其次,當按順序從同一類別的新數據中學習時,也會導致概念漂移問題[3,4,5],因為新數據可能會以不可預見的方式改變該類別的數據分布[6]。因此,持續學習的總體任務是解決穩定性-可塑性困境[7,8],這就要求神經網絡在保持學習新知識的能力的同時,防止遺忘之前學習過的知識。

近年來,在計算機視覺的各個子領域中提出了越來越多的持續學習方法,如圖1所示。此外,2020年和2021年還舉辦了若干與計算機視覺中的持續學習有關的比賽[9,10]。因此,本文綜述了計算機視覺中持續學習的最新進展。我們將這一概述的主要貢獻總結如下。(1)系統地綜述了計算機視覺中持續學習的最新進展。(2)介紹了用于不同計算機視覺任務的各種持續學習技術,包括正則化、知識提取、基于記憶、生成重放和參數隔離。(3)討論了計算機視覺中持續學習可能有所幫助但仍未得到充分研究的子領域。

本文的其余部分組織如下。第二節給出了持續學習的定義。第3節介紹了這一領域常用的評估指標。第4節討論了各種類型的持續學習方法及其在計算機視覺中的應用。在第5節中討論了計算機視覺中沒有很好地利用持續學習的子領域。最后,第六部分對全文進行總結。

付費5元查看完整內容

摘要

近年來,深度神經模型在幾乎每個領域都取得了成功,甚至解決了最復雜的問題。然而,這些模型的尺寸非常大,有數百萬(甚至數十億)個參數,需要強大的計算能力,以至于無法部署在邊緣設備上。此外,性能提升高度依賴于大量的標記數據。為了實現更快的速度和處理由于缺乏標記數據而引起的問題,知識蒸餾(KD)被提出,知識蒸餾是將從一個模型學到的信息遷移到另一個模型。KD通常以所謂的“學生-教師”(S-T)學習框架為特征,被廣泛應用于模型壓縮和知識轉移。本文是關于KD和S-T學習的研究,這兩種學習方法是近年來研究比較活躍的。首先,我們旨在解釋KD是什么以及它如何/為什么起作用。然后,我們對KD方法和S-T框架在視覺任務中的最新進展進行了全面的調研。總的來說,我們調研了推動這一研究領域的一些基本問題,并全面概括了研究進展和技術細節。系統分析了KD在視覺應用中的研究現狀。最后,我們討論了現有方法的潛力和開放挑戰,并展望了KD和S-T學習的未來方向。

引言

深度神經網絡(DNNs)的成功與否,通常取決于DNN體系結構的精心設計。在大規模機器學習中,特別是在圖像和語音識別等任務中,大多數基于DNN的模型都被過度參數化,以提取最顯著的特征,確保泛化。這種笨重的模型通常深度和寬度都很大,訓練時需要相當多的計算量,很難實時操作。因此,為了獲得更快的速度,許多研究人員一直試圖利用訓練過的笨重模型來獲得輕量級的DNN模型,這些模型可以部署在邊緣設備上。也就是說,當這個笨重的模型經過訓練后,可以使用它學習一個更適合實時應用或部署[1]的小模型,如圖1(a)所示。

另一方面,DNNs的性能也嚴重依賴于非常大且高質量的標簽來訓練數據集。由于這個原因,許多人都在努力減少標記訓練數據的數量,同時又不太影響DNNs的性能。處理這樣缺乏數據的情況的一種流行方法是從一個源任務轉移知識,以促進對目標任務的學習。一個典型的例子是半監督學習,在這種學習中,一個模型只用一小組有標記的數據和一大組沒有標記的數據來訓練。由于未標記的樣本的監督代價未定義,應用一致性代價或正則化方法來匹配標記和未標記數據的預測是至關重要的。在這種情況下,知識在假定教師和學生[2]雙重角色的模型內轉移。對于未標記的數據,學生照常學習;然而,教師產生目標,然后學生使用這些目標進行學習。如圖1(b)所示,這種學習度量的共同目標是在沒有額外訓練的情況下,從學生身上形成一個更好的教師模型。另一個典型的例子是自監督學習(self-supervised learning),該模型是用輸入轉換(例如,旋轉、翻轉、顏色變化、裁剪)構建的人工標簽來訓練的。在這種情況下,來自輸入轉換的知識被轉移到監督模型本身,以提高其性能,如圖1?所示。

本論文是關于知識蒸餾(KD)和師生學習(S-T)的研究,這是近年來研究的熱點。一般來說,KD被廣泛認為是一種主要的機制,當只給予具有相同或不同類別[3]的小訓練集時,KD可以使人類快速學習新的復雜概念。在深度學習中,KD是一種有效的技術,被廣泛用于在進行建設性訓練的同時將信息從一個網絡轉移到另一個網絡。KD最初由[4]定義,由Hinton等人[1]推廣。KD被廣泛應用于兩個不同的領域:模型壓縮(見圖1(a))和知識轉移(見圖1(b)和?)。對于模型壓縮,一個較小的學生模型被訓練來模擬一個預先訓練過的更大的模型或模型集合。雖然基于目的定義了各種形式的知識,但KD的一個共同特征是通過它的S-T框架來表征的,其中提供知識的模型稱為教師,學習知識的模型稱為學生。

在本研究中,我們重點分析和分類現有的KD方法,并結合不同類型的S-T結構,用于模型壓縮和知識遷移。我們回顧和調研這一迅速發展的領域,并特別強調最近的進展。KD方法在視覺智能、語音識別、自然語言處理(natural language processing, NLP)等各個領域都有應用,但本文主要關注的是視覺領域的KD方法,因為大部分的演示都是在計算機視覺任務上進行的。利用視覺中的KD原型可以方便地解釋用于自然語言處理和語音識別的KD方法。由于目前研究最多的KD方法是用于模型壓縮,我們系統地討論了其技術細節、挑戰和潛力。同時,我們也關注了半監督學習、自我監督學習等知識轉移的KD方法,重點關注了以S-T學習作為學習度量方式的技術。

我們將探索推動這一研究領域發展的一些基本問題。具體來說,KD和S-T學習的理論原理是什么?是什么讓一種蒸餾方法比其他方法更好?使用多個老師比使用一個老師好嗎?更大的模型總是能造就更好的老師和更魯棒的學生嗎?只有在教師模型存在的情況下,學生才能學習知識嗎?學生能自學嗎?離線KD總是比在線學習好嗎?

在討論這些問題的同時,我們結合現有KD方法的潛力,并結合S-T框架展望KD方法的未來發展方向。我們特別強調最近開發的技術的重要性,如神經結構搜索(NAS),圖神經網絡(GNNs),和增強KD的門控機制。此外,我們也強調KD方法的潛力,以解決在特定的領域的挑戰性的問題,如軌道變化是在12個360°的視覺和基于事件的視覺。

本文的主要貢獻有三個方面:

(1)對KD和S-T學習方法進行了全面的概述,包括問題定義、理論分析、一系列具有深度學習的KD方法以及視覺應用。

(2) 對KD方法和S-T框架的最新進展進行了分層、結構化的系統綜述和分析,并對每個類別的潛力和挑戰提出了見解和總結。

(3) 討論問題和開放問題,確定新的趨勢和未來的方向,為該研究領域提供深刻的指導。

本文的組織結構如下。首先,在第二章我們解釋了為什么我們需要關注KD和S-T學習。

請解釋為什么我們需要在第二節中關注KD和S-T學習。第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從**基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD。在討論這些KD方法的技術細節的基礎上,我們也分析了它們的挑戰和潛力。在第9節中,根據分類法,我們將討論第1節中提出的問題的答案。第10節介紹了KD和S-T學習的未來潛力,并在第11節給出了結論。由于篇幅有限,關于KD方法相關的新學習指標和KD應用方法的詳細介紹在suppll材料的第8和9節中給出。這份手稿還包括分類法/比較表和一些插圖的數字,這是不包括在這里由于缺乏空間。

圖2展示了KD和S-T學習的分類圖。

付費5元查看完整內容

聯邦學習旨在在不犧牲本地數據隱私的情況下,從多個分散的邊緣設備(例如移動設備)或服務器中學習機器學習模型。最近的自然語言處理技術依賴于深度學習和大型預訓練語言模型。然而,大型深度神經模型和語言模型都是用大量數據訓練的,這些數據通常位于服務器端。由于文本數據廣泛來自最終用戶,在這項工作中,我們研究了最近使用聯邦學習作為學習框架的 NLP 模型和技術。我們的綜述討論了聯邦自然語言處理的主要挑戰,包括算法挑戰、系統挑戰以及隱私問題。我們還對現有的聯邦 NLP 評估方法和工具進行了嚴格審查。最后,我們強調了當前的研究差距和未來的方向。

//www.zhuanzhi.ai/paper/a7798d2845ab5942e6e095b0be202d08

付費5元查看完整內容

人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。

其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容

異常檢測最新綜述論文

摘要

異常檢測(AD)問題具有重要的意義,近年來引起了許多研究者的關注。

因此,在這一研究領域提出的方法數量穩步增加。AD與重要的計算機視覺和圖像處理任務(如圖像/視頻異常、不規則和突發事件檢測)密切相關。最近,深度神經網絡(DNNs)提供了一組高性能的解決方案,但代價是高昂的計算成本。然而,在前面提出的方法和可應用的實際方法之間有一個明顯的差距。

考慮到對AD的關注是一個持續的具有挑戰性的問題,尤其是在圖像和視頻中,是時候討論一下試圖處理視覺AD任務的方法的陷阱和前景了。因此,在本次綜述中,我們打算對基于圖像/視頻深度學習的AD方法進行深入調研。并對當前面臨的挑戰和未來的研究方向進行了深入探討。

引言

異常檢測(AD)是指檢測出可用的訓練數據中很少出現甚至不存在的樣本和事件。事實上,AD就是尋找看不見的概念的過程。一般來說,在AD環境中,有大量的數據實例遵循目標類分布,即正常數據。另一方面,屬于分布外類(離群值)的樣本不存在,或者很難訪問,但代價是很高的計算成本。總之,任何未知的分布都可能導致異常,從而導致非常復雜的學習過程。因此,研究人員建議將所有正常數據中的共享概念提取為一個(幾個)參考模型,而不是學習不規則性[Bertini et al., 2012; Sabokrou et al., 2015]。在測試階段,一個實例與該模型的偏差表明它是否是異常。圖1顯示了AD概念的總體草圖。

就數據類型而言,AD任務可能會遇到各種困難。AD算法普遍存在的缺點是: (1)高誤報率: 在大多數AD應用中,檢測異常事件被認為比識別正常數據更為重要和關鍵。例如,在監視系統中,如果只忽略一個異常行為,即將異常檢測為正常事件,就會完全損害監視系統的可靠性和安全性。因此,為了自信地檢測出所有的離群值,容忍更多一點的假陽性率是合理的。然而,高的誤報率帶來了不可靠和無效,(2) 高的計算成本: 以前的大多數工作過于復雜,無法在現實應用中快速而恰當地進行操作,(3) 標準數據集無法用于評估: 可用數據集與現實情況相差甚遠。事實上,為了全面研究該研究領域提出的解決方案,獲得更真實和有代表性的數據集是至關重要的。上述缺點證實AD任務面臨著若干需要有效解決的持續挑戰。此外,最近提出的方法只關注簡單場景中的性能。考慮圖像/視頻AD方法的不同方面是一個關鍵的步驟,以改善目前的尖端技術。

受深度神經網絡(DNNs)在不同研究領域的巨大成功的啟發,一系列基于深度學習的解決方案被提出來處理AD任務。他們中的一些人取得了很大的成績。然而,實現和再現性方面的困難,特別是基于生成對抗網絡(GANs)的困難[Goodfellow等人,2014a],以及高計算開銷仍然被認為是嚴重的挑戰。調查的范圍。到目前為止,已經提供了一些信息豐富和有價值的調查。我們簡要地提一下這一領域的一些最新作品。[Chlapathy and Chawla, 2019]關注深度AD用于不同的任務,如入侵檢測系統、視頻監控、醫療等。[Ruff et al., 2019]提出了深度AD的框架以及一般半監督的深度AD問題的實驗場景。針對視頻AD的不同深度學習檢測技術已由[Suarez and Naval Jr, 2020]涵蓋。

為了彌補現有的差距,我們提出了一種新的基于深度學習的圖像/視頻AD分類方法。我們強調無監督方法,因為他們的普遍性,適用性在現實問題和日益流行。在具體研究了每一種類別和最新的方法之后,我們表達了圖像/視頻AD任務中具有挑戰性的方面、開放的問題和未來工作的有效方向。

付費5元查看完整內容

動態神經網絡是深度學習領域的一個新興研究課題。與靜態模型在推理階段具有固定的計算圖和參數相比,動態網絡可以根據不同的輸入調整其結構或參數,在精度、計算效率和適應性等方面具有顯著優勢。在本綜述中,我們通過將動態網絡分為三大類,全面回顧了這一快速發展的領域: 1) 使用依賴數據的架構或參數處理每個實例的實例動態模型; 2) 空間動態網絡,針對圖像數據的不同空間位置進行自適應計算; 3) 時間動態模型,針對視頻、文本等順序數據,沿時間維進行自適應推理。本文系統地評述了動態網絡的結構設計、決策方案、優化技術及應用等重要研究問題。最后,討論了該領域有待解決的問題以及未來的研究方向。

//www.zhuanzhi.ai/paper/c42261b93aa5ce0b2775fc59e546acda

深度神經網絡(DNNs)在計算機視覺(CV)[1]、[2]、[3]、[4]、[5]和自然語言處理(NLP)[6]、[7]、[8]等領域發揮著重要作用。近年來,我們見證了許多成功的深度模型,如AlexNet [1], VGG [2], google [3], ResNet [4], DenseNet [5], Transformers[6]。這些體系結構創新使訓練更深入、更準確和更有效的模型成為可能。最近的神經結構搜索(NAS)[9],[10]進一步加速了設計更強大結構的過程。然而,目前流行的深度學習模型大多采用靜態方式進行推理,即訓練后計算圖和網絡參數都是固定的,這可能會限制其表示能力、效率和可解釋性[11],[12],[13],[14]。

與靜態網絡不同,動態網絡可以在推理過程中根據輸入調整其結構或參數,因此具有靜態模型所缺乏的良好特性。總的來說,深度學習環境下的動態計算具有以下優點:

  1. 效率。動態網絡最顯著的優勢是,它們能夠在測試時根據需要,通過有選擇地激活模型組件(如層[12]、通道[15]或子網絡[16]),以輸入為條件,策略性地分配計算。因此,在相對容易識別的規范樣本上花費的計算量更少,或者在輸入的空間/時間位置上花費的計算量更少。

2)表示能力。動態網絡由于具有數據依賴性的網絡結構/參數,極大地擴大了網絡的參數空間,提高了網絡的表示能力。例如,通過在卷積核[13]、[17]的集合上應用特征約束的注意力權重,可以在計算量的少量增加的情況下提高模型容量。值得注意的是,流行的軟注意力機制也可以統一在動態網絡的框架中,在測試時間對特征的不同通道[18]、空間區域[19]或時間位置[20]進行動態加權。

3)適應能力。動態模型能夠在處理動態變化的計算預算的準確性和效率之間實現理想的平衡。因此,與計算成本固定的靜態模型相比,它們更能適應不同的硬件平臺和不斷變化的環境。

4)兼容性。動態網絡與深度學習中最先進的技術兼容,包括架構設計[4],[5],優化算法[21],[22]和數據預處理[23],[24],這確保他們可以從該領域的最新進展中受益,實現最先進的性能。例如,動態網絡可以繼承輕量級模型[25]中的架構創新,也可以通過NAS方法[9]、[10]來設計。通過使用針對靜態模型的加速方法,如網絡剪枝[26]、權重量化[27]、知識蒸餾[28]和低秩近似[29],也可以進一步提高其效率。

5)通用性。作為靜態深度學習技術的替代品,許多動態模型都是可以無縫應用于廣泛應用的通用方法,如圖像分類[12]、[30]、對象檢測[31]、語義分割[32]。此外,在CV任務中開發的技術被證明可以很好地遷移到NLP任務[33]和[34]的語言模型中,反之亦然。

6)可解釋性。最后,我們發現動態網絡的研究可能會在深層模型的潛在機制和大腦之間架起橋梁,因為我們認為大腦以動態的方式處理信息[35],[36]。使用動態神經網絡,我們可以分析在處理輸入實例時,深度模型的哪些組件被激活,并觀察哪些輸入部分對某些預測負責。這些特性可能有助于解釋DNNs的決策過程。

事實上,動態神經網絡的關鍵思想自適應推理在現代DNNs流行之前就已經被研究過了。最經典的方法是通過級聯[38]或并行[39]結構構建多個模型的自適應集成,并根據輸入條件選擇性地激活它們。spike neural network (SNN)[40],[41]也通過在模型中傳播脈沖信號來執行數據依賴推理。然而,SNN的訓練策略與流行的卷積神經網絡(CNNs)有很大的不同,在視覺任務中并不常用。因此,我們在本次綜述中省略了與SNN相關的工作。

在深度學習的背景下,現代深度架構下的動態推理提出了許多新的研究問題,并在近三年來引起了廣泛的研究興趣。盡管在設計各種類型的動態網絡方面做了大量的工作,但對這一主題的系統和全面的回顧仍然缺乏。為此,我們撰寫本研究,回顧這一快速發展領域的最新進展,目的是:1)為感興趣的研究人員提供一個概述和新的視角; (2)指出不同組件之間的緊密聯系,降低重復發明的風險; (3)總結關鍵挑戰和未來可能的研究方向。

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述:

隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。

在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。

付費5元查看完整內容

實現對新類別進行持續增量學習的能力對于現實世界人工智能系統的發展至關重要。目前的類增量學習(CIL,class-incremental learning)研究往往提供了較為充足的帶標簽新類別樣本,而在諸如智能相冊等實際應用中,用戶可能只有興趣提供極少量有標簽的新類別樣本。因此研究小樣本深度類增量學習迫在眉睫。在本文中,我們著重研究這個面向實際應用但極具挑戰性的小樣本類增量連續學習(FSCIL,few-shot class-incremental learning)問題。FSCIL要求CNN模型從少量的帶標簽樣本中增量式地學習新的類別,而不會忘記先前學習的樣本。

傳統的深度類增量學習研究通常使用知識蒸餾(knowledge distillation)方法。它們通常存儲一部分舊類別的樣本,通過蒸餾損失函數來維持分類模型在舊類別樣本上的輸出。盡管在某種程度上有效,這種基于蒸餾損失的方法也存在一些問題。首先,其面臨嚴重的類別不平衡問題,即分類器輸出會嚴重偏置(baised)到擁有較多樣本的類別上;其次,它們往往面臨在新舊類之間進行性能折衷(trade-off)的困境。由于在極少樣本情況下,需要認為增大學習率以及增強新類損失的梯度才能使新類別的學習變得有意義,而一旦這樣做,對舊類別知識的維持就會更加困難。因此這種性能折衷困境在小樣本類增量環境下會更為嚴重。

為此,我們嘗試從一種新的認知啟發的角度來解決小樣本類增量學習問題。近期的認知學研究表明,物體的拓撲對維持已學知識的記憶非常重要。一旦記憶的拓撲特性發生改變,會導致人類對已見過物體視覺刺激的再認出現大幅退化,這直接導致了災難性遺忘(catastrophic forgetting)的產生。為此,我們認為,保持住舊知識空間的拓撲結構,是解決災難性遺忘的關鍵。因此,我們提出使用神經氣體(NG,neural gas)網絡來對已學知識進行抽取和表示。該網絡可以學習并保留由不同類別形成的特征流形的拓撲。在此基礎上,我們提出了拓撲保持知識增長器(TOPIC,TOPology-Preserving Knowledge InCrementer)框架。TOPIC框架一方面通過穩定神經氣體網絡NG的拓撲結構緩解了舊知識的遺忘,另一方面通過使NG成長并適應新的訓練樣本來改進在少量新類別樣本上的表征學習。

付費5元查看完整內容
北京阿比特科技有限公司