亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著遙感(RS)技術的飛速發展,大量具有復雜的異質的地觀(EO)數據的出現,使得研究人員有機會以一種全新的方式處理當前的地球科學應用。近年來,隨著地觀數據的聯合利用,多模態遙感數據融合的研究取得了巨大的進展,但由于缺乏對這些強異構數據的綜合分析和解釋能力,這些已開發的傳統算法不可避免地遇到了性能瓶頸。因此,這一不可忽視的局限性進一步引發了對具有強大加工能力的替代工具的強烈需求。深度學習(Deep learning, DL)作為一項前沿技術,憑借其出色的數據表示和重構能力,在眾多計算機視覺任務中取得了顯著的突破。自然,該方法已成功應用于多模態遙感數據融合領域,與傳統方法相比有了很大的改進。本研究旨在對基于深度學習的多模態遙感數據融合進行系統的綜述。更具體地說,首先給出了關于這個主題的一些基本知識。隨后,通過文獻調研分析了該領域的發展趨勢。從擬融合數據模態的角度,綜述了多模態遙感數據融合中的一些流行子領域,即空間光譜、時空、光探測和測距光學。從融合數據模態的角度,綜述了多模態遙感數據融合的幾個子領域,即空間光譜、時空、光探測與測距-光學、合成孔徑雷達-光學、RS-地理空間大數據融合。在此基礎上,對多模態遙感數據融合技術的發展進行了有益的總結。最后,強調了剩余的挑戰和潛在的未來方向。

引言

由于RS在觀測地球環境方面的優勢,在各種EO任務中發揮著越來越重要的作用(Hong et al., 2021b; Zhang et al., 2019a)。隨著多模態RS數據的可用性不斷增加,研究人員可以方便地訪問這些數據,這適合于現有的應用。盡管有大量的多模態數據可用,但每個模態幾乎不能捕捉到一個或幾個特定的屬性,因此不能完全描述觀測到的場景,這對后續應用造成了很大的限制。自然,多模態遙感數據融合是突破單模態數據困境的一條可行途徑。通過整合從多模態數據中提取的互補信息,可以在許多任務中做出更穩健可靠的決策,如變化檢測、LULC分類等。與多源、多時相遙感不同,“模態”一詞一直缺乏明確、統一的定義。

基于深度學習的多模態遙感數據融合

本文在前人研究(G′omez-Chova et al., 2015; Dalla Mura et al., 2015)。遙感數據的主要特征有兩個主要因素,即傳感器的技術規格和實際采集條件。具體來說,前者決定了產品的內部特征,如成像機理和空間、光譜、輻射、時間等領域的分辨率。后者控制外部屬性,如采集時間、觀測角度、安裝平臺等。因此,上述因素有助于描述所捕獲的場景,可以被描述為“模態”。顯然,多模態遙感數據融合包括多源數據融合和多時數據融合。

一些典型的RS模態包括Pan、MS、HS、LiDAR、SAR、紅外、夜間燈光和衛星視頻數據。最近,GBD作為RS家族的新成員,在EO任務中受到越來越多的關注。為了整合這些模態提供的互補信息,傳統方法已經被深入研究,基于領域特定知識設計手工特征和利用粗糙融合策略,這不可避免地削弱了融合性能,特別是對于異構數據(Hong et al., 2021a)。隨著人工智能的發展,數字學習通過自適應的自動實現特征提取和融合,在為輸入和輸出數據之間的復雜關系建模方面顯示出巨大的潛力。因此,本文將重點介紹在每個融合子領域提出的方法,并簡要介紹每個模態和相關任務。 目前,有一些關于多模態數據融合的文獻綜述,根據不同的模態融合,綜述如表2所示。現有文獻對多模態遙感數據融合的發展方向關注較少,或只涉及少數子領域,缺乏對這一主題的全面、系統的描述。本研究的目的是全面回顧基于數據挖掘的多模態遙感數據融合研究的熱點領域,進一步推動和促進這一新興領域的相關研究。第二節收集和分析了與本課題相關的文獻,第三節闡述了多模態RS數據融合的代表性子領域。在第四節中,給出了一些有用的教程、數據集和代碼。最后,第五節提供了關于挑戰和前景的評論。為方便讀者,表1列出了本文使用的主要縮寫。

本文將現有的融合方法分為兩大類,即同質融合和異質融合。同質融合包括pansharpening、HS pansharpening、HS- ms和時空融合,異構融合包括HS-optical融合、SAR-optical融合和RS-GBD融合。由于上述子領域的發展差異很大,因此采用不同的標準來引入每個子領域,如圖5所示。為了方便讀者,我們還在每個方向列出了一些經典文獻。

日益增多的多模態遙感數據對地觀任務既是挑戰,也是機遇。近年來,雙方共同利用優勢互補的特點,取得了重大突破。特別是與人工智能相關的技術,由于其在特征提取方面的優勢,已經顯示出其相對于傳統方法的優勢。在上述遙感大數據和前沿工具的推動下,基于深度學習的遙感多模態數據融合成為遙感領域的一個重要課題。因此,本文對這一快速發展的研究領域進行了全面的介紹,包括文獻分析、系統總結了遙感融合研究的幾個主要子領域、現有的研究資源,并對未來的發展進行了展望。具體來說,我們重點研究了第二部分,即不同融合子領域中基于深度學習的方法,并從使用的模型、任務和數據類型等方面進行了詳細的研究。最后,令人鼓舞的是,近年來DL已經應用到多模態遙感數據融合的各個領域,并取得了巨大而有前景的成果,這為研究者今后進行深入研究提供了更多的信心。

付費5元查看完整內容

相關內容

 是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支。

Transformers在自然語言處理和計算機視覺的許多任務中都取得了卓越的性能,這也引起了時間序列社區的極大興趣。在Transformer的眾多優點中,捕獲長期依賴關系和交互的能力對時間序列建模特別有吸引力,這使得各種時間序列應用取得了令人興奮的進展。在本文中,我們系統地回顧了用于時間序列建模的Transformer方案,通過一個新的分類,從兩個角度總結了現有的時間序列Transformer,突出了它們的優勢和局限性。從網絡改造的角度,總結了時間序列Transformers的模塊級適應性和體系結構級適應性。從應用的角度出發,我們根據預測、異常檢測和分類等常用任務對時間序列Transformer進行分類。根據經驗,我們執行穩健分析、模型規模分析和季節性趨勢分解分析,以研究《Transformers》在時間序列中的表現。最后,我們討論并提出未來的研究方向,以提供有用的研究指導。

由于Transformer在自然語言處理(NLP) [Kenton and Toutanova, 2019]、計算機視覺(CV) [Dosovitskiy et al., 2021]、語音處理[Dong et al., 2018]和其他學科[Chen et al., 2021b]方面的出色表現,其在深度學習方面的創新[Vaswani et al., 2017]最近引起了極大的興趣。在過去的幾年中,許多Transformer的變種被提出,以大大提高各種任務的最先進的性能。不同方面的文獻綜述較多,如NLP應用方面的文獻[Qiu et al., 2020;Han et al., 2021], CV applications [Han et al., 2020;Khan等人,2021年;Selva等人,2022年)、高效Transformer [Tay et al., 2020]和注意力模型[Chaudhari et al., 2021; Galassi et al., 2020]。

在時序數據的長距離依賴和交互中,transformer表現出了很強的建模能力,因此在時間序列建模中很有吸引力。由于時間序列數據和時間序列任務的特殊特性,許多Transformer的變體被提出以適應各種時間序列任務中的時間序列數據,如預測[Li et al., 2019; Zhou et al., 2021; Zhou et al., 2022],異常檢測[Xu et al., 2022; Tuli et al., 2022],分類[Zerveas et al., 2021; Yang et al., 2021],等等。例如,季節性或周期性是時間序列的一個重要特征[Wen等人,2021a],如何有效地建模長期和短期的時間相關性,并同時捕獲季節性仍然是一個挑戰[Wu et al., 2021; Zhou et al., 2022]。由于Transformer for time series是深度學習領域的一個新興領域,對Transformer for time series進行系統、全面的研究將對時間序列學界大有裨益。我們注意到,存在一些關于時間序列深度學習的綜述,包括預測[Lim和Zohren, 2021;Benidis等人,2020年;Torres et al., 2021],分類[Ismail Fawaz et al., 2019], anomaly detection [Choi et al., 2021; Blazquez-Garc ′ ′?a et al., 2021]和數據增強[Wen et al., 2021b],但很少或沒有對時間序列的Transformers 進行深入分析。

在本文中,我們旨在通過總結現有的時間序列Transformers來填補上述空白。具體來說,我們首先簡要介紹了普通的Transformer,然后從網絡修改和應用領域的角度提出了一種新的時間序列Transformer分類。對于網絡修改,我們考慮了針對時間序列數據優化的transformer的低層模塊調整和高層架構改進。在應用方面,我們總結和分析了用于流行時間序列任務的transformer,包括預測、異常檢測和分類。對于每個時間系列的《Transformers》,我們都分析了它的見解、優勢以及局限性。為了提供如何在時間序列中使用transformer的實用指南,我們進一步對時間序列transformer進行了一些實證研究,包括穩健性分析、模型規模分析和季節趨勢分解分析。最后,我們提出并討論未來可能的發展方向,包括時間序列Transformers的歸納偏差,時間序列Transformers和GNN,時間序列Transformers的預訓練,以及時間序列Transformers和NAS。據我們所知,本文是第一次全面系統地總結了Transformers在時間序列數據建模方面的最新進展。我們希望這個綜述將點燃對時間系列Transformers的進一步研究興趣。

//arxiv.org/abs/2202.07125

付費5元查看完整內容

摘要

無人機(UAV)由于有效且靈活的數據采集,近年來已成為計算機視覺(CV)和遙感(RS)領域的研究熱點。由于最近深度學習(DL)的成功,許多先進的目標檢測和跟蹤方法已被廣泛應用于與無人機相關的各種任務,例如環境監測、精準農業、交通管理。本文全面綜述了基于DL的無人機目標檢測與跟蹤方法的研究進展和前景。具體來說,我們首先概述了挑戰,統計了現有的方法,并從基于DL的模型的角度提供了解決方案,這三個研究課題分別是:來自圖像的目標檢測,來自視頻的目標檢測,來自視頻的目標跟蹤。利用無人機主導目標檢測與跟蹤相關的開放數據集,利用4個基準數據集,采用最先進的方法進行性能評估。最后,對今后的工作進行了展望和總結。本文對基于DL的無人機目標探測與跟蹤方法進行了綜述,并對其進一步發展提出了一些思考,以期為來自遙感領域的研究人員提供參考。

//www.zhuanzhi.ai/paper/d2cb72aa7da469d6481f2fc9e9c6454a

引言

目標檢測與跟蹤作為遙感領域的重要研究課題,已廣泛應用于環境監測、地質災害檢測、精準農業、城市規劃等各種民用和軍事任務中。傳統的目標捕獲方法主要來源于衛星和載人飛行器。這兩種平臺通常在固定軌道上運行或按照預定的路徑運行,也可以根據委托的任務,如城市規劃和測繪,或在惡劣和不適宜居住的環境下進行物體觀測,如冰凍圈遙感,臨時改變運行路線并懸停。然而,衛星和載人飛機的成本以及飛行員潛在的安全問題不可避免地限制了此類平臺的應用范圍。

隨著微電子軟硬件的發展,導航和通信技術的更新,以及材料和能源技術的突破,無人機(UAV)平臺已經成為國際遙感領域的研究熱點,迅速崛起。無人機遙感系統是將科技與無人機、遙感、全球定位系統(GPS)定位和慣性測量單元(IMU)姿態確定手段相結合的高科技組合。它是一個以獲取低空高分辨率遙感圖像為目標的專用遙感系統。與傳統平臺相比,無人機彌補了由于天氣、時間等限制造成的信息損失。此外,無人機的高機動性使其能夠靈活地采集視頻數據,不受地理限制。這些數據無論在內容上還是時間上都信息量極大,目標檢測與跟蹤進入了大規模無人機[1]-[3]時代,在土地覆蓋測繪[4]、[5]、智慧農業[6]、[7]、智慧城市[8]、交通監控[9]、災害監控[10]等領域發揮著越來越重要的作用。

目標檢測與跟蹤作為計算機視覺的基本問題之一,采用了經典的基于統計的方法[11]、[12]。然而,當前海量數據影響了這些傳統方法的性能,造成了特征維數爆炸的問題,存儲空間和時間成本較高。由于深度神經網絡(deep neural network, DL)技術[13]-[15]的出現,可以用深度復雜網絡學習具有足夠樣本數據的層次特征表示。自2015年以來,深度神經網絡已經成為無人機目標檢測與跟蹤的主流框架[16],[17]。圖1為無人機遙感在城市區域目標檢測與跟蹤的示例。經典的深度神經網絡主要分為兩大類:兩階段網絡和單階段網絡。其中,RCNN[18]、Fast RCNN[19]和Faster RCNN[20]等兩階段網絡首先需要生成region proposal (RP),然后對候選區域進行分類和定位。[21] -[23]的一系列工作證明了兩級網絡適用于具有較高檢測精度的應用。一級網絡,如SSD[24]和YOLO[16],[25],[26],直接產生類概率和坐標位置,比二級網絡更快。同樣,也有一些更快的輕量級網絡,如mobilenet SSD [27], YOLOv3 [28], ESPnet v2[29]等。因此,對高速需求的無人機遙感實際應用而言,一級快速輕量化網絡是最終的贏家。但對于低分辨率的數據,如果不對圖像進行預處理或對經典的神經網絡結構進行修改,則無法產生良好的效果。

本文以最大起飛重量小于30公斤的無人機為研究對象,通過總結最新發表的研究成果,對基于深度學習(DL)的無人機目標檢測與跟蹤方法進行了全面綜述,討論了關鍵問題和難點問題,并描述了未來的發展領域。本文的其余部分組織如下。第二節概述了無人機的統計情況和相關出版物。第六節介紹現有的基于無人機的遙感數據集。第三至第五節綜述了三個分支在基于無人機的目標檢測和跟蹤方面的現有基于DL的工作。第八節討論結論。

付費5元查看完整內容

摘要

作為一種比傳統機器學習方法更有效的訓練框架,元學習獲得了廣泛的歡迎。然而,在多模態任務等復雜任務分布中,其泛化能力尚未得到深入研究。近年來,基于多模態的元學習出現了一些研究。本綜述從方法論和應用方面提供了基于多模態的元學習景觀的全面概述。我們首先對元學習和多模態的定義進行了形式化的界定,并提出了這一新興領域的研究挑戰,如何豐富少樣本或零樣本情況下的輸入,以及如何將模型泛化到新的任務中。然后我們提出了一個新的分類系統,系統地討論了結合多模態任務的典型元學習算法。我們對相關論文的貢獻進行了調研,并對其進行了分類總結。最后,提出了該領域的研究方向。

//www.zhuanzhi.ai/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5

引言

深度學習方法在語音、語言和視覺領域取得了顯著進展[1,2,3]。然而,這些方法的性能嚴重依賴于大量標記數據的可用性,而在大多數應用中,獲取這些數據可能不切實際或成本高昂。僅使用有限的標記數據往往會導致過擬合問題,導致泛化到新數據[4]或完全不同的分布的不確定性。另一方面,人類學習過程中使用的“學會學習”機制[5]使我們能夠從很少的樣本[6]中快速學習新的概念。已有證據表明,通過結合先驗知識和情境,人類可以在有限情景下獲得多個先驗任務的經驗,在有限情景下,習得的抽象經驗被一般化,以提高未來對新概念的學習表現。受此啟發,提出了一種名為元學習(meta-learning)的計算范式[7,8],用來模擬人類學習廣義任務經驗的能力,旨在讓機器從類似任務中獲取先驗知識,并快速適應新任務。通過在動態選擇中提取跨領域任務目標,元學習過程比傳統機器學習模型更具數據效率[9,10]。

由于元學習能夠泛化到新的任務,我們的目的是了解元學習如何發揮作用,當任務更復雜時,例如,數據源不再是單模態的,或原始模態中的數據是有限的。最近的研究集中在將元學習框架應用于復雜任務的分配上[11,12],但僅限于單一的模態。特別是,在多個應用[7]、學習優化步驟[13]的先驗知識、數據嵌入[14,15]或模型結構[16]的多任務和單任務場景中,元學習已經被證明是成功的。然而,在異構任務模態下,如何巧妙地利用元學習給研究人員帶來了獨特的挑戰。要在額外模態的幫助下從這些任務中學習新概念,示例應該以成對或多種方式提供,其中每個示例包含同一概念的兩個或多個項目,但在不同的模態。

首先在圖像分類的零樣本學習(ZSL) /廣義零樣本學習(GSZL)領域探討了不同模態的異質特征。語義模式被認為在模型訓練中提供強大的先驗知識和輔助視覺模式。為了更好地將知識從可見的類遷移到不可見的類,基于元的算法被廣泛引入來捕獲配對模態之間的屬性關系。然而,訓練過程大多將一個模態視為主要模態,并通過添加另一個模態來利用額外的信息。它不涉及在真實的復雜情景中對多種模態的分析,如未配對的模態、缺失的模態以及模態之間的關聯。因此,一些研究進一步將元學習方法應用于由其他模態構成的任務。具體來說,當不同任務的模態來自不同的數據分布,或者不同任務的模態被遺漏或不平衡時,通過充分利用元學習背景下的多模態數據,可以將不同模式的優勢整合到問題中,從而提高績效。另一方面,元學習本身的訓練框架有助于提高原多模態學習者在新任務中的泛化能力。雖然對這兩個概念的跨學科研究聽起來很有前景,但目前的研究大多將元學習算法和多模態學習算法分開進行總結,導致多模態與元學習結合的研究存在差距。

最后,我們希望在本次綜述中對基于多模態的元學習算法進行系統而全面的研究。我們旨在為不同的方法提供直觀的解釋,并有助于:

識別將元學習算法應用于多模態任務的挑戰; 提出一個新的分類,并為每個類別提供深刻的分析; 總結解決不同挑戰的具體貢獻,包括其方法和與其他方法的區別; 強調當前的研究趨勢和未來可能的方向。

本綜述的其余部分組織如下。在第二節中,我們首先對元學習和多模態的定義進行了形式化界定,然后給出了基于多模態的元學習挑戰的總體范式。然后我們在第3節提出了一個基于元學習算法可以學習的先驗知識的新分類。我們分別在第4節、第5節和第6節對如何使原始元學習方法適應多模態數據的相關研究進行了考察,在第7節對這些工作進行了總結。最后,我們總結了目前的研究趨勢在第8節和可能的方向,未來的工作在第9節。

付費5元查看完整內容

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

機器學習(ML)最近的快速進展提出了一些科學問題,挑戰了該領域長期存在的教條。最重要的謎題之一是過度參數化模型的良好經驗泛化。過度參數化的模型對于訓練數據集的大小來說過于復雜,這導致它們完美地擬合(即插值)訓練數據,而訓練數據通常是有噪聲的。這種對噪聲數據的插值傳統上與有害的過擬合有關,但最近觀察到,從簡單的線性模型到深度神經網絡的各種插值模型在新測試數據上都能很好地泛化。事實上,最近發現的雙下降現象表明,在測試性能上,高度過度參數化的模型往往比最好的欠參數化模型更好。理解這種過度參數化的學習需要新的理論和基礎的實證研究,即使是最簡單的線性模型。這種理解的基礎已經在最近對過度參數化線性回歸和相關統計學習任務的分析中奠定,這導致了雙下降的精確分析特征。本文簡要概述了這一新興的過度參數化ML理論(以下簡稱為TOPML),并從統計信號處理的角度解釋了這些最新發現。我們強調將TOPML研究領域定義為現代ML理論的一個子領域的獨特方面,并概述了仍然存在的有趣的未決問題。

//www.zhuanzhi.ai/paper/182ad6c4b994aa517d10319504e9bb3a

引言

深度學習技術已經徹底改變了許多工程和科學問題的解決方式,使數據驅動方法成為實踐成功的主要選擇。當前的深度學習方法是經典機器學習(ML)設置的極限開發版本,以前這些設置受到有限的計算資源和訓練數據可用性不足的限制。目前已建立的實踐是從一組訓練示例中學習高度復雜的深度神經網絡(DNN),這些示例雖然本身很大,但相對于DNN中的參數數量來說相當小。雖然這種過度參數化的DNN在ML實踐中是最先進的,但這種實際成功的根本原因仍不清楚。特別神秘的是兩個經驗觀察結果: 1) 模型中添加更多參數的明顯益處(在泛化方面),2) 這些模型即使完美地擬合了噪聲訓練數據,也能很好地泛化。這些觀察結果在現代ML的不同結構中都得到了體現——當它們首次被用于復雜的、最先進的DNN時(Neyshabur et al., 2014; Zhang et al., 2017)),它們已經在更簡單的模型家族中出土,包括寬神經網絡、核方法,甚至線性模型(Belkin et al., 2018b; Spigler et al., 2019; Geiger et al., 2020; Belkin et al., 2019a)。

在本文中,我們綜述了最近發展起來的過度參數化機器學習理論(簡稱TOPML),該理論建立了與訓練數據插值(即完美擬合)相關的現象相關的基本數學原理。我們很快將提供一個過度參數化ML的正式定義,但在這里描述一些模型必須滿足的顯著屬性,以合格為過度參數化。首先,這樣的模型必須是高度復雜的,因為它的獨立可調參數的數量要遠遠高于訓練數據集中的示例數量。其次,這樣的模型絕不能以任何方式被明確地規范化。DNN是過度參數化模型的常見實例,這些模型通常沒有明確的正則化訓練(參見,例如,Neyshabur et al., 2014; Zhang et al., 2017)。這種過度參數化和缺乏顯式正則化的組合產生了一個可插值訓練示例的學習模型,因此在任何訓練數據集上都實現了零訓練誤差。訓練數據通常被認為是來自底層數據類(即噪聲數據模型)的噪聲實現。因此,插值模型完美地擬合了基礎數據和訓練示例中的噪聲。傳統的統計學習總是將噪聲的完美擬合與較差的泛化性能聯系在一起(例如,Friedman et al., 2001, p. 194);因此,值得注意的是,這些插值解決方案通常能很好地泛化到訓練數據集以外的新測試數據。

在本文中,我們回顧了TOPML研究的新興領域,主要關注在過去幾年發展的基本原理。與最近的其他綜述相比(Bartlett et al., 2021; Belkin, 2021),我們從更基本的信號處理角度來闡明這些原則。形式上,我們將TOPML研究領域定義為ML理論的子領域,其中1. 明確考慮訓練數據的精確或近似插值 2. 相對于訓練數據集的大小,學習模型的復雜性較高。

本文組織如下。在第2節中,我們介紹了過度參數化學習中插值解的基礎知識,作為一個機器學習領域,它超出了經典偏方差權衡的范圍。在第3節中,我們概述了最近關于過度參數化回歸的結果。在這里,我們從信號處理的角度直觀地解釋了過度參數化學習的基本原理。在第4節中,我們回顧了關于過度參數化分類的最新發現。在第5節中,我們概述了最近關于過度參數化子空間學習的工作。在第6節中,我們考察了最近關于回歸和分類以外的過度參數化學習問題的研究。在第7節中,我們討論了過度參數化ML理論中的主要開放問題。

付費5元查看完整內容

隨著以自然為靈感的純粹注意力模型,即transformer的出現,以及它們在自然語言處理(NLP)方面的成功,它們對機器視覺(MV)任務的擴展是不可避免的,而且感覺非常強烈。隨后,視覺變換器(ViTs)的引入給現有的基于深度學習的機器視覺技術帶來了挑戰。然而,純粹的基于注意力的模型/架構,如變換器,需要大量的數據、大量的訓練時間和大量的計算資源。最近的一些工作表明,這兩個不同領域的組合可以證明構建具有這兩個領域的優點的系統。據此,這一現狀的綜述論文是介紹,希望將幫助讀者得到有用的信息,這一有趣的和潛在的研究領域。首先介紹了注意力機制,然后討論了流行的基于注意力的深度架構。隨后,我們討論了基于機器視覺的注意機制與深度學習交叉的主要類別。然后,討論了本文研究范圍內的主要算法、問題和發展趨勢。

付費5元查看完整內容

數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。

//kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JSGG20201119008&v=UVJbamaWiqPhx%25mmd2F%25mmd2BOu5dHCwhPPmxv19yW5mC2ZX1%25mmd2Bqh0bZ9gpg2gmEH78ZzOsc7eT

付費5元查看完整內容

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述:

隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。

付費5元查看完整內容
北京阿比特科技有限公司