【導讀】小樣本學習是研究關注的焦點。最近來自華東師范大學等學者發布了《少樣本學習》全面綜述論文,從近三年200篇文獻闡述小樣本學習的演變、應用、挑戰。
少樣本學習(FSL)已成為一種有效的學習方法,并顯示出巨大的潛力。盡管最近在處理FSL任務方面有一些創造性的工作,但從少量甚至零樣本中快速學習有效信息仍然是一個嚴峻的挑戰。在此背景下,我們對近三年來發表的200多篇關于FSL的最新論文進行了廣泛的調研,旨在及時全面地綜述FSL的最新進展,并對現有工作的優缺點進行公正的比較。為了避免概念混淆,我們首先闡述并比較了一組類似的概念,包括少樣本學習、遷移學習和元學習。此外,針對FSL的挑戰,我們提出了一種新的分類法,根據知識的抽象級別對現有的工作進行分類。為了豐富這一調研,在每個小節中,我們提供了關于這些主題的最新進展的深入分析和深刻的討論。并以計算機視覺為例,重點介紹了FSL的重要應用,涵蓋了各種研究熱點。最后,我們總結了對技術發展趨勢和潛在的未來研究機會的獨特見解,希望為后續研究提供指導。
//www.zhuanzhi.ai/paper/7596f00df5df833013b71075a2849dac
硬件和信息技術的最新進展加快了各種物聯網應用領域中數十億設備的互聯。智能和自適應設備越來越多地應用于關鍵基礎設施,如衛生、交通、工業生產、環境檢測、家庭自動化和許多其他物聯網框架。這些數量龐大的終端設備一直在產生大量的數據,這些數據需要發送回服務器進行中央處理和存儲。雖然邊緣生成的數據總量非常大,但是單個設備或單個場景生成的每個數據集的容量都非常有限,樣本很少。傳統的數據驅動和單域算法在這些設置中表現不佳。為此,在探索基于少量樣本和跨域場景的有效學習方法方面進行了大量的研究。少樣本學習(FSL)和元學習不可避免地成為一種有前途的方法。然而,如何從小樣本甚至跨域的數據集中有效地獲取有效信息仍然是當前FSL面臨的最大挑戰。
此外,現實場景中的數據分布往往具有長尾效應,很難在不同領域泛化相同的模型。以智能制造工業檢測為例,這種泛化能力差的問題已經成為影響其智能模型性能的關鍵挑戰之一。具體來說,目前的工業質量檢測設備對特定的光照條件有一定的要求,在一種光照條件下訓練的AI模型很難“泛化”到其他光照條件下。此外,考慮到工業質量檢測場景對準確性的要求較高,目前的AI模型通常采用監督學習,需要大量的缺陷樣本進行訓練。然而,由于實際生產場景中不良品的比例很小,很難收集到足夠數量的滿意樣品。此外,也不可能跨域進行傳輸。例如,一個PC外觀缺陷檢測模型不能直接用于檢測手機屏幕、冰箱、洗衣機甚至不同型號的PC的缺陷。同樣的,在識別元器件和電路板的字符圖像時,由于元器件供應商多,設備類型多,不同的字符風格多,所以不可能為一個供應商收集到足夠多的各種字符圖像樣本,導致每種類型的樣本很少或沒有。表1提供了這些挑戰的詳細摘要。
為了更有效地應對這些挑戰,FSL在數據、算法和模型方面進行了一些創造性的工作。迄今為止,作為最經典的分類方法之一,FSL分為元學習和基于度量的學習。本文從挑戰的角度,將FSL分為數據增強、遷移學習、元學習和多模態學習。數據增強主要是通過度量或生成方法模擬不同場景下的數據,使實際數據分布最大化。遷移學習主要是將預訓練和微調相結合,從大規模輔助數據集中提取先驗知識。當領域相關性相對不常見或沒有大型輔助數據集時,遷移學習具有一定的局限性。元學習是目前解決FSL問題的主流方法。近年來,一些學者提出了這樣的疑問:“這種元訓練或情景訓練范式真的是對FSL問題負責和最優的嗎?”這引發了關于FSL元學習必要性的廣泛討論。對于多模態學習,它集成了不同維度的信息,如語言、圖像和音頻。多模態學習有望打破現實信息世界中FSL有用信息不足的困境。
由于FSL的特殊性,每一種FSL方法都面臨著不同程度的多方面挑戰。數據增強最直接的挑戰之一是數據樣本太有限,模型不能僅依靠少數樣本來評估真實的數據分布。因此,在這種設置下訓練的模型有偏倚,容易陷入過擬合。在遷移學習中,特征可以有效緩解FSL問題,即數據量小,不能跨相似域遷移。然而,如何有效地表示特征,如何在不同任務之間重用特征,如何建立數據和標簽之間的有效映射,是遷移學習中存在的巨大挑戰。此外,在元學習范式中,當用一組任務訓練元學習器時,它不僅對數據空間采樣,而且對任務空間采樣。通過不斷適應每個特定的任務,使網絡具有抽象的學習能力。當訓練任務和目標任務存在顯著差異時,元學習的效果最小。此外,在多模態學習領域,已經開展了大量的研究來探索如何有效地整合來自多模態的信息來輔助FSL。
已有幾篇綜述論文對FSL的相關工作進行了研究,如[3]研究將FSL方法分為經驗學習和概念學習。工作[4]根據概率分布將FSL方法分為生成模型和判別模型。最近,[5]提出了一種新的分類法,從數據、模型和算法等方面對FSL方法進行分類。然而,據我們所知,還沒有一篇論文從FSL挑戰的角度提供過分類。通過總結FSL的挑戰,讀者可以更好地把握FSL背后的動機和原則,而不是局限于各種模型。表2列出了本文使用的關鍵縮略語。
本綜述的其余部分組織如下。第二節提供了FSL的概述,介紹了FSL,比較分析了機器學習、元學習和遷移學習,并總結了當前FSL的變體和挑戰。此外,為了系統地解決這些障礙,在本節中,我們將演示一種新的分類法來對現有的FSL相關工作進行分類。第3 - 6節從FSL挑戰的角度對當前主流研究進行了系統的調研,并從各個方面進行了比較分析。有了這種分類,討論和總結提供在每一節的結束,給予我們對各自領域的見解,伴隨著一些潛在的研究機會。第7節以計算機視覺為例,按時間順序列出了FSL在圖像分類、目標檢測、語義分割、實例分割等方面的最新進展。第8節深入探討了當前FSL面臨的挑戰,以及如何在每個分支中尋求突破。本文的總體輪廓如圖1所示。
我們從邊緣計算場景開始,在此場景中出現了少樣本學習挑戰,解釋和澄清幾個容易與FSL混淆的類似概念。這將有助于讀者建立少樣本學習、遷移學習和元學習之間的關系。
我們通過知識圖譜和熱圖從挑戰的角度全面考察了FSL相關工作。根據這種分類法,我們將FSL分為幾個不同的級別,其中最高級別是多模態學習,主要使用各種語義知識來輔助判斷,第二、第三和第四級別是單模態學習,分別解決數據級、特征級和任務級的挑戰。值得注意的是,本文還對當前外語教學領域中比較具有挑戰性的跨領域研究方向進行了深入的探討。
本文通過對近三年來大量論文的研究,總結了FSL在計算機視覺領域的主要研究成果,包括圖像分類、目標檢測、語義分割和實例分割等。
結合調研最后提到的這些挑戰,結合實際應用,我們深入研究當前FSL面臨的挑戰,探索如何在各個分支中找到突破點,共同推動FSL的研究向更實用的方向發展。
我們對FSL的演變提供了獨特的見解,并確定了關于每個挑戰的幾個未來方向和潛在的研究機會。
FSL的概念受到人類強大推理和分析能力的啟發,廣泛應用于邊緣計算場景。2020年,Wang et al.[5]通過機器學習的經驗、任務和性能給出了FSL的詳細定義,這是目前為止被認可最多的定義之一: 一個計算機程序在某些類別的任務T和性能度量P上,如果在用P度量的任務上,通過E可以提高它的性能,那么它就從經驗E中學習。這里值得一提的是,FSL中的E很小。
根據知識的融合程度,廣義上可將FSL分為單模態學習和多模態學習。在本研究中,單模態學習可進一步分為數據增強、遷移學習和元學習。它主要是將有限的信息抽象或轉換為更高層次的特征向量或元知識。多模態學習更接近真實的人類智能世界,不再依賴于有限的樣本,而是試圖尋找其他模態的空間來輔助FSL。根據這種分類法,我們詳盡地回顧和討論每一種方法。圖6生動地展示了挑戰視角下的FSL分類。
整個分類以金字塔的形式呈現。底層為“云-端”邊緣計算場景,其特點是在高流量下實現少樣本實時計算。在此基礎上,根據所需知識的整合程度,將FSL挑戰分為四個層次。其中,以數據增強、遷移學習和元學習為代表的挑戰是單模態挑戰。 根據知識的融合程度,廣義上可將FSL分為單模態學習和多模態學習。在本研究中,單模態學習可進一步分為數據增強、遷移學習和元學習。它主要是將有限的信息抽象或轉換為更高層次的特征向量或元知識。多模態學習更接近真實的人類智能世界,不再依賴于有限的樣本,而是試圖尋找其他模態的空間來輔助FSL。根據這種分類法,我們詳盡地回顧和討論每一種方法。圖6生動地展示了挑戰視角下的FSL分類。
在真實的FSL任務中,由于隱私、收集成本和標簽成本,支持和查詢集中的樣本數量通常是有限的。為了緩解這一問題,數據增強被認為是提高FSL中樣本豐富度最直接的方法。然而,FSL數據增強的核心風險是增強數據集評估真實數據背后分布的可能性。根據數據增強技術能否在其他任務上重用,將FSL數據增強分為手工規則和自動學習數據處理。
遷移學習[63]是一種經典的學習范式,其目的是解決FSL中只有很少甚至沒有標記樣本的挑戰性問題[64][65]。特征重用是遷移學習解決FSL缺乏數據設置問題的核心思想。其基本操作是在廣泛的數據集上對模型進行預訓練,然后在有限的支持集上進行微調。當源領域和目標領域存在較大差距時,知識轉移的效率就會大大降低。這種跨域設置給FSL帶來了新的挑戰。在FSL中,遷移學習可以大致分為訓練前階段和微調階段,也可以參考基線階段。圖10說明了一般過程。
元學習從數據和任務的雙重抽樣中學習歷史先驗知識,然后提取元知識應用于未來的任務。元學習獨立于具體問題,在任務空間中探索最優初始化參數,拋棄了傳統監督學習下與任務無關的特征表示。目前,大多數元學習模型采用傳統的梯度下降法進行參數更新。當然,也有基于強化學習和度量方法的非梯度下降方法。在FSL中,元學習可以用于自動學習模型參數、指標函數和信息傳遞。
迄今為止,FSL在單模態領域取得了顯著的進展。在單模態學習中,模型主要負責將信息表示為特征向量,這些特征向量可以由計算機處理,或者進一步抽象為更高層次的語義向量。特別是,FSL中的多模態學習是指通過利用多種模態之間的互補性和消除模態之間的冗余來學習更好的特征表示。在現實生活中,當父母教他們的嬰兒事物時,他們總是包含一般信息和語義描述。這對于FSL來說是至關重要的,因為在FSL中幾乎沒有有效的信息來很好地評估數據或特征分布。受此啟發,許多研究工作[8],[148],[149]考慮在求解FSL時引入其他模態信息。通過融合多模態信息,可以提高模型對小樣本數據的感知能力。圖13顯示了多模態下FSL的主要路徑。
目前,以深度學習為代表的人工智能算法憑借超大規模數據集以及強大的計算資源,在圖像分類、生物特征識別、醫療 輔助診斷等領域取得了優秀的成果并成功落地.然而,在許多實際的應用場景中,因諸多限制,研究人員無法獲取到大量樣本 或者獲取樣本的代價過高,因此研究圖像分類任務在小樣本情形下的學習算法成為了推動智能化進程的核心動力,同時也成為 了當下的研究熱點.小樣本學習指在監督信息數量有限的情況下進行學習并解決問題的算法.首先,從機器學習理論的角度 描述了小樣本學習困難的原因;其次,根據小樣本學習算法的設計動機將現有算法歸為表征學習、數據擴充、學習策略三大類, 并分析其優缺點;然后,總結了常用的小樣本學習評價方法以及現有模型在公用數據集上的表現;最后,討論了小樣本圖像分類 技術的難點及未來的研究趨勢,為今后的研究提供參考。
近年來,人工智能技術在大數據時代迎來了高速發展,從 早期的學術探索迅速轉變為實際應用.目前,以深度學習為 代表的人工智能算法憑借超大規模數據集以及強大的計算資 源,在圖像分類、生物特征識別、醫療輔助診斷等領域取得了優秀的成果并成功落地. 然而,當今現實場景中通常并不具備獲得大規模可訓練 數據的條件,這不利于許多傳統行業的智能化轉型.另一方 面,由于圖像分類算法在實際應用中起著關鍵性的作用,因此 面向圖像分類的小樣本學習的關鍵算法研究成為了產業智能 化轉型的驅動引擎之一.
深度學習以大規模數據集為前提,在圖像分類、目標檢 測、文本分析[1G3]等領域取得了顯著的成功.然而在實際場景 中,首先,由于成本、隱私、安全或道德問題,相關研究者很難 或不可能獲得大規模、高質量的數據及標注.例如,在醫療領 域,醫學影像的產生來源于病例,但少量的病例并不能夠輔助 機器對醫療影像進行分析.其次,在算法設計層面,研究者期 望機器學會以人類的方式進行學習,即在獲取少量樣本的情 況下,對樣本進行分類和識別,并且具有快速理解新概念并將 其泛化的能力. 為了能夠在監督信息數量有限的情況下進行學習,針對 小樣本學習(FewGshotLearning)[4G8]的研究應運而生.在小 樣本分類中,模型在一組具有豐富樣本的類別集上進行訓練, 這些類稱為基類,然后在類別不交叉的僅具有少量樣本的另 一組類別集(新類)上進行訓練與測試.
目前,針對小樣本學習的研究工作越來越豐富,隨著深度 學習的發展,涌現了很多新穎的小樣本學習方法[9G11].例如, 在模型表征階段采用自監督學習以更好地表征出圖像[12G15]; 在數據 擴 充 階 段,采 用 從 原 始 域 擴 充 或 從 語 義 空 間 擴 充 等[11,16G17]方式來處理小樣本學習任務;在學習階段,使用遷移 學習、度量學習、元學習等算法[18G24]以更好地尋找到一個有 良好泛化能力的模型.現有的小樣本綜述文獻[25G26]通常從 算法類別的角度進行歸納總結,而本文將從理論誤差分析以 及算法設計 動 機 的 角 度 來 進 行 綜 述,并 覆 蓋 近 年 來 取 得 的 成果. 本文首先從機器學習理論的角度描述了小樣本學習難以 泛化的原因;其次,依據小樣本學習算法的設計動機將現有算 法歸為表征學習、數據擴充、學習策略三大類,并評價其優缺 點;然后,總結了常用的小樣本學習評價方法以及現有模型在 公用數據集上的表現;最后,提出了一些有前景的研究方向, 為今后的研究提供參考。
悉尼大學最新《基于圖像的自動駕駛三維目標檢測研究進展》論文
基于圖像的三維目標檢測是自動駕駛技術中最基本、最具挑戰性的問題之一,近年來越來越受到業界和學術界的關注。得益于深度學習技術的快速發展,基于圖像的三維檢測已經取得了顯著的進展。特別是,從2015年到2021年,已有200多部著作對這個問題進行了研究,涵蓋了廣泛的理論、算法和應用。然而,到目前為止,還沒有最近的綜述來收集和組織這些知識。在本文中,我們填補了文獻中的這一空白,對這一新興且不斷發展的研究領域進行了首次全面的綜述,總結了基于圖像的三維檢測最常用的方法,并深入分析了它們的每個組成部分。此外,我們還提出了兩種新的分類法,將最先進的方法組織成不同的類別,目的是為現有方法提供一個更系統的回顧,并促進與未來工作的公平比較。回顧了目前所取得的成果,分析了當前該領域面臨的挑戰,并討論了基于圖像的三維檢測研究的未來方向。
//www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2
引言
自動駕駛有可能從根本上改變人們的生活,提高流動性,減少旅行時間、能源消耗和排放。因此,不出所料,在過去的十年里,研究和行業都在大力開發自動駕駛汽車。三維目標檢測作為自動駕駛的關鍵實現技術之一,受到了廣泛的關注。特別是最近,基于深度學習的3D目標檢測方法得到了廣泛的應用。
現有的三維目標檢測方法可以根據輸入數據是圖像還是激光雷達信號(一般表示為點云)大致分為兩類。與基于激光雷達的方法相比,僅從圖像中估計三維邊界框的方法面臨著更大的挑戰,因為從二維輸入數據中恢復三維信息是一個不適定問題。然而,盡管存在這種內在的困難,在過去的六年里,基于圖像的3D目標檢測方法在計算機視覺(CV)社區中得到了廣泛應用。在該領域的頂級會議和期刊上發表論文80余篇,在檢測精度和推理速度方面取得多項突破。
本文首次對基于深度學習技術的基于圖像的三維目標檢測技術的最新進展進行了全面、系統的綜述。特別地,本綜述總結了這一領域的以往研究工作,從開創性的方法[1],[2]到ICLR ' 2022發表的最新方法[3],[4]。該綜述回顧和分析了基于圖像的三維檢測模型的高層框架和每個必需組件的具體設計選擇(如特征提取、損失公式等)。此外,我們提出了兩種新的分類法來分類現有的方法,即根據它們采用的框架和使用的輸入數據。這樣做的目的是為了促進系統地分析目前的方法和對今后的工作進行公平的比較。
本工作的主要貢獻如下:
本文除了詳細介紹這些基于圖像的三維檢測器的技術細節外,還介紹了它們的分類、常用數據集、評價指標和潛在的挑戰/研究方向。此外,我們還提供了一個持續維護的項目頁面: 3dodi-survey
本文組織如下。第2節簡要介紹了基于圖像的三維檢測任務。第3節總結了常用的數據集和評價標準。第4節描述了常用框架。這三個部分是為初學者準備的,以便他們快速對基于圖像的三維檢測問題獲得一個很好的理解。在第5節中,我們比較了3D檢測器中通常需要的每個組件的細節,而第6節討論了常用的輔助輸入數據。這兩個部分可以幫助研究者在這個領域建立一個清晰,深入和更結構化的知識的主題。第7節介紹了本課題的一些討論,并在第8節中指出了未來可能的研究方向。這兩個部分為以后的作品提供了見解。最后,在第9節中得出結論。
任務
在給定RGB圖像和相機參數的條件下,基于圖像的三維目標檢測的目標是對感興趣的目標進行分類和定位。在3D世界空間中,每個對象都由其類別和邊界框表示。通常,三維包圍盒的參數化是相對于預定義的參考坐標系(例如記錄數據的自我車)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多數自動駕駛場景中,只考慮沿上軸方向的航向角θ(偏航角)。圖1在2D圖像平面和鳥瞰圖上顯示了示例結果。雖然一般問題的基于圖像的三維對象檢測可以表示如上所述,值得一提的是:i):除了類別和3D邊界框,需要額外的一些基準預測,如二維邊界框為KITTI數據集[5]和速度/屬性nuScenes數據集[6]。ii):雖然本任務最初只提供圖像和相機參數,但該領域普遍采用輔助數據(如立體對、CAD模型、LiDAR信號等)。
數據集
眾所周知,大規模數據集的可用性對數據驅動的深度學習技術的成功至關重要。對于自動駕駛場景下基于圖像的三維目標檢測,公開的數據集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的數據集,極大地促進了3D檢測的發展。在下面的文章中,我們將根據數據集的大小、多樣性和其他數據提供有關這些基準測試的主要信息。
方法
我們將現有的基于圖像的三維檢測器分為兩類: (1)基于二維特征的方法。這些方法首先從二維特征中估計出圖像平面中物體的二維位置(以及方向、深度等項),然后將二維檢測提升到三維空間中。基于此,這些方法也可以稱為“基于結果提升的方法”。此外,由于這些方法通常與二維檢測模型具有相似的結構,因此可以按照二維檢測中常用的分類方法(即基于區域的方法和單次射擊的方法)進一步進行分類。(ii) 基于三維特征的方法。這些方法基于三維特征對目標進行預測,從而可以在三維空間中直接定位目標。此外,根據如何獲取三維特征,這些方法可以進一步分為“基于特征提升的方法”和“基于數據提升的方法”。顧名思義,前者通過提升二維特征獲得三維特征,后者直接從二維圖像傳輸的三維數據中提取三維特征。根據前面提到的分類法,我們在圖2中突出顯示了具有關鍵基準的重要方法。
由于基于圖像的三維檢測沒有具體的分類方法,以往的工作一般采用經典的二維檢測分類方法,將三維檢測器分為基于區域的方法和單鏡頭的方法。我們提出的分類方法更適合于基于圖像的三維檢測,因為: (i) 我們的分類方法基于特征表示對現有的方法進行分組,從而幫助讀者快速構建結構化的知識。(ii)我們的分類表明了檢測器如何對齊2D輸入數據和3D結果之間的維度不匹配(即結果提升、特征提升或數據提升),這是這項任務的核心問題。(3)我們的分類法可以清晰地定義現有的方法,而以往的分類法不能。例如,基于偽LiDAR的方法(將在4.3.2節中介紹)可以采用任何基于LiDAR的探測器,包括基于區域的方法和單次樣本的方法。因此,很難將這些方法劃分給任何一方。
未來挑戰
基于圖像的三維目標檢測是一個相對較新的領域。性能得到了迅速的提高和不斷的提高,但仍有許多局限性和方向需要進一步分析和探索。在本節中,我們重點介紹了一些最相關的問題,希望為有影響力的未來工作提供相關線索。
深度估計
基于圖像的三維目標檢測方法的性能在很大程度上依賴于目標精確距離的估計能力。因此,分析和提高三維目標探測器的深度估計能力是未來的一個相關方向。最近的許多研究,如[20],[49],[75],[92],[95],[25],試圖解決這個問題,提出了回歸目標和損失公式的替代定義,并表明仍有很大的改進空間。
不止監督學習
創建3D檢測數據集是一個非常昂貴和耗時的操作。它通常涉及不同技術(如激光雷達、GPS、相機)之間的協同作用,以及大量的勞動力。注釋過程的要求很高,即使存在許多質量檢查,它也不可避免地受到錯誤的影響。因此,可以看到,幾乎所有的三維物體檢測方法都是完全監督的,即需要訓練三維包圍盒標注。相反,在其他相關領域,完全的監督要求已被放寬,如深度估計[56],[183]或基于lidar的3D檢測[184],[185],[186],[187],很少有人致力于探索半監督或自監督方法[178],[188],[4]。在這方面,值得強調的是[178]中的方法,該方法引入了一個可微分的渲染模塊,可以利用輸入的RGB圖像作為唯一的監控源。此外,鑒于在通用場景(如NeRF[189])和真實對象(如[190],[191])上可區分渲染領域的最新進展,我們相信這個特定的方向非常有價值,并有可能放松3D框注釋的要求。
多模態
如第7節所述,圖像數據和LiDAR數據都有各自的優勢,一些方法,如[31],[89],[32],[162],[163],最近已經開始將這兩種類型的數據整合到一個模型中。然而,這一領域的研究仍處于起步階段。此外,還可以考慮其他數據形態,進一步提高算法的準確性和魯棒性。例如,與激光雷達相比,雷達設備具有更長的傳感距離,可以用來提高對遙遠物體的精度。此外,在一些極端天氣條件下,如雨天和大霧天氣,雷達更加穩定。然而,雖然在一些數據集[6],[192],[193]中已經提供了雷達同步數據,但研究如何使用的方法卻很少[193],[194],[195]。另一個例子是來自熱相機的數據[196],這為解決不利的照明條件,提高探測精度提供了新的機會。綜上所述,理想的檢測算法應該集成多種數據,覆蓋異構和極端條件。
時間序列
在現實世界中,人類駕駛員依靠連續的視覺感知來獲取周圍環境的信息。然而,該領域的大部分工作都是從單幀的角度來解決三維檢測問題,這顯然是次優的,最近只有一項工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經證明了在許多任務中使用視頻數據的有效性,包括二維檢測[197]、[198]、深度估計[199]、[200]、分割[201]、[202],以及基于LiDAR的三維檢測[203]、[204]、[205]。這些相關領域的成功證明了視頻數據在三維探測任務中的潛力,通過引入時間數據和構建時空空間新約束可以實現新的突破。
泛化性
泛化對自動駕駛汽車的安全性起著重要的作用。在這方面,不幸的是,眾所周知,基于圖像的3D對象檢測方法在測試看不見的數據集、對象或具有挑戰性的天氣條件時,性能會有相當大的下降。
本文綜述了基于圖像的自動駕駛三維檢測技術的最新進展。我們看到,從2015年到2021年,已經有很多關于這個話題的論文發表。為了對這些方法進行系統的總結,我們首先對現有的方法進行了分類。然后,對這些算法進行了詳細的比較,討論了三維檢測中各個必要的組成部分,如特征提取、損耗計算、后處理等。我們還討論了輔助數據在這一領域的應用,支持有必要進行系統的總結,如本次調查和更好的協議,以便在未來的工作中進行公平比較。最后,我們描述了這一領域中一些開放的挑戰和潛在的方向,可能在未來幾年激發新的研究。
摘要
人在環路是通過整合人類的知識和經驗,以最小的代價訓練出準確的預測模型。借助基于機器的方法,人類可以為機器學習應用提供訓練數據,直接完成一些流水線中計算機難以完成的任務。在本文中,我們從數據的角度對現有的關于人在環路的研究進行了綜述,并將其分為三大類: (1) 通過數據處理提高模型性能的工作,(2) 通過干預模型訓練提高模型性能的工作,(3) 系統獨立的人在環路的設計。通過以上分類,我們總結了該領域的主要方法,以及它們的技術優勢/弱點,并在自然語言處理、計算機視覺等方面進行了簡單的分類和討論。此外,我們提供了一些開放的挑戰和機會。本綜述旨在為人在環路提供一個高層次的總結,并激發感興趣的讀者考慮設計有效的人在環路解決方案的方法。
引言
深度學習是人工智能的前沿,旨在更接近其主要目標——人工智能。深度學習已經在廣泛的應用中取得了巨大的成功,如自然語言處理、語音識別、醫療應用、計算機視覺和智能交通系統[1,2,3,4]。深度學習的巨大成功歸功于更大的模型[5]。這些模型的規模包含了數億個參數。這些數以億計的參數允許模型有更多的自由度,足以令人驚嘆的描述能力。
但是,大量的參數需要大量的標簽[6]的訓練數據。通過數據標注提高模型性能有兩個關鍵的挑戰。一方面,數據增長速度遠遠落后于模型參數的增長速度,數據增長主要阻礙了模型的進一步發展。另一方面,新任務的出現遠遠超過了數據更新的速度,對所有樣本進行注釋非常費力。為了應對這一挑戰,許多研究人員通過生成樣本來構建新的數據集,從而加快了模型迭代,降低了數據標注的成本[7,8,9,10,11]。此外,許多研究人員使用預訓練方法和遷移學習來解決這一挑戰[12,13,14,15,16],如transformer[17,18]、BERT[19]和GPT[20]。這些工作取得了令人難以置信的成果。
然而,生成的數據僅用作初始化模型的基礎數據。為了獲得高精度的可用模型,往往需要對具體數據進行標注和更新。因此,一些基于弱監督的工作被提出[21,22,23,24]。一些研究人員提出使用少樣本來促使模型從更少的樣本中學習[25,26,27]。在學習框架中集成先驗知識是處理稀疏數據的有效手段,因為學習者不需要從數據本身[28]中歸納知識。越來越多的研究人員開始嘗試將訓練前的知識納入他們的學習框架[29,30,31,32]。作為代理,人類有著豐富的先驗知識。如果機器可以學習人類的智慧和知識,它將有助于處理稀疏數據。特別是在臨床診斷和訓練數據缺乏等醫學領域[33,34,35,36]。
一些研究人員提出了一種名為“人在環路”(human-in- loop, HITL)的方法來解決這一挑戰,該方法主要通過將人類知識納入建模過程[37]來解決這些問題。如圖1所示,human-in-the-loop(即“human-in-the-loop”和“machine learning”)是機器學習領域一個活躍的研究課題,近十年來發表了大量的論文。
如圖2所示,傳統的機器學習算法一般由[38]三部分組成。第一個是數據預處理,第二個是數據建模,最后一個是開發人員修改現有流程以提高性能。我們都知道,機器學習模型的性能和結果是不可預測的,這就導致了很大程度的不確定性,在人機交互的哪個部分能帶來最好的學習效果。不同的研究者關注的是人工干預的不同部分。本文根據機器學習的處理方法對這些方法進行分類,分為數據預處理階段和模型修改和訓練階段。此外,更多的研究集中在獨立系統的設計上,以幫助完成模型的改進。因此,在本文中,我們首先從數據處理的角度討論了提高模型性能的工作。接下來,我們討論了通過干預模式訓練提高模型性能的工作。最后,討論了獨立于系統的“人在環路”的設計。
少樣本學習(FSL)在機器學習領域具有重要意義和挑戰性。成功地從很少的樣本中學習和歸納的能力是區分人工智能和人類智能的一個明顯的界限,因為人類可以很容易地從一個或幾個例子中建立他們對新穎性的認知,而機器學習算法通常需要數百或數千個監督樣本來保證泛化能力。盡管FSL的悠久歷史可以追溯到21世紀初,近年來隨著深度學習技術的蓬勃發展也引起了廣泛關注,但迄今為止,有關FSL的調研或評論還很少。在此背景下,我們廣泛回顧了2000年至2019年FSL的200多篇論文,為FSL提供了及時而全面的調研。在本綜述中,我們回顧了FSL的發展歷史和目前的進展,原則上將FSL方法分為基于生成模型和基于判別模型的兩大類,并特別強調了基于元學習的FSL方法。我們還總結了FSL中最近出現的幾個擴展主題,并回顧了這些主題的最新進展。此外,我們重點介紹了FSL在計算機視覺、自然語言處理、音頻和語音、強化學習和機器人、數據分析等領域的重要應用。最后,我們對調查進行了總結,并對未來的發展趨勢進行了討論,希望對后續研究提供指導和見解。
地址:
//www.zhuanzhi.ai/paper/ffc99a53aeb6629e21b9a42db76b9dd1
概述:
人類智能的一個令人印象深刻的特點是能夠從一個或幾個例子中迅速建立對新概念的認知。許多認知和心理學證據[184,224,371]表明,人類可以通過很少的圖像[23]識別視覺物體,甚至兒童也可以通過一次偶見就記住一個新單詞[35,51]。雖然從很少的樣本中支持人類學習和歸納能力的確切原因仍是一個深刻的謎,但一些神經生物學研究[285,29,157]認為,人類顯著的學習能力得益于人腦中的前額葉皮層(PFC)和工作記憶,特別是PFC特有的神經生物學機制與大腦中存儲的以往經驗之間的相互作用。相比之下,最先進的機器學習算法都需要大量數據,尤其是最廣為人知的深度學習[186],它將人工智能推向了一個新的高潮。深度學習作為機器學習發展的重要里程碑,在視覺[172,319,120]、語言[231,318]、語言[127]、游戲[308]、人口學[97]、醫學[74]、植物病理學[100]、動物學[252]等廣泛的研究領域都取得了顯著的成就。一般來說,深度學習的成功可以歸結為三個關鍵因素:強大的計算資源(如GPU)、復雜的神經網絡(如CNN[172]、LSTM[129])和大規模數據集(如ImageNet[287]、Pascal-VOC[75])。然而,在現實的應用場景中,比如在醫學、軍事、金融等領域,由于隱私、安全、數據標注成本高等因素,我們無法獲得足夠的標簽訓練樣本。因此,使學習系統能夠有效地從很少的樣本中進行學習和歸納,成為幾乎所有機器學習研究人員所期待的藍圖。
從高層次上看,研究少樣本學習的理論和現實意義主要來自三個方面。首先,FSL方法不依賴于大規模的訓練樣本,從而避免了在某些特定應用中數據準備的高昂成本。第二,FSL可以縮小人類智能和人工智能之間的差距,是發展通用人工智能的必要之旅[191]。第三,FSL可以實現一個新興任務的低成本和快速的模型部署,而這個任務只有幾個暫時可用的樣本,這有利于闡明任務早期的潛在規律。
少數樣本學習(FSL),又稱小樣本學習、少樣本學習或一次性學習,可以追溯到21世紀初。盡管該研究已有近20年的歷史,在理論和應用層面上都具有重要意義,但到目前為止,相關的調查和綜述還很少。在本文中,我們廣泛調查了從21世紀頭十年到2019年幾乎所有與FSL相關的科學論文,以詳細闡述一個系統的FSL調研。我們必須強調,這里討論的FSL與zero-shot learning (ZSL)正交[346],這是機器學習的另一個熱門話題。ZSL的設置需要與概念相關的側面信息來支持跨概念的知識遷移,這與FSL有很大的不同。據我們所知,到目前為止,只有兩份與fsl相關的預先打印的綜述倫恩[305,349]。與他們相比,本次綜述的新穎之處和貢獻主要來自五個方面:
(1) 我們對2000年至2019年的200多篇與FSL相關的論文進行了更全面、更及時的綜述,涵蓋了從最早的凝固模型[233]到最新的元學習方法的所有FSL方法。詳盡的闡述有助于把握FSL的整個發展過程,構建完整的FSL知識體系。
(2) 根據FSL問題的建模原則,我們提供了一種可理解的層次分類法,將現有的FSL方法分為基于生成模型的方法和基于判別模型的方法。在每個類中,我們根據可一般化的屬性進一步進行更詳細的分類。
(3) 我們強調當前主流目前的方法,例如,基于目前的元學習方法,和分類成五大類,他們希望通過元學習策略學習學習,包括Learn-to-Measure Learn-to-Finetune, Learn-to-Parameterize,學會調整和Learn-to-Remember。此外,本調查還揭示了各種基于元學習的FSL方法之間潛在的發展關系。
(4) 總結了最近在普通FSL之外出現的幾個外延研究課題,并回顧了這些課題的最新進展。這些主題包括半監督FSL、無監督FSL、跨域FSL、廣義FSL和多模態FSL,它們具有挑戰性,同時也為許多現實機器學習問題的解決賦予了突出的現實意義。這些擴展主題在以前的綜述中很少涉及。
(5) 我們廣泛總結了現有FSL在計算機視覺、自然語言處理、音頻和語音、增強學習和機器人、數據分析等各個領域的應用,以及目前FSL在基準測試中的表現,旨在為后續研究提供一本手冊,這是之前綜述中沒有涉及到的。
本文的其余部分組織如下。在第2節中,我們給出了一個概述,包括FSL的發展歷史、我們稍后將使用的符號和定義,以及現有FSL方法的分類建議。第3節和第4節分別詳細討論了基于生成模型的方法和基于判別模型的方法。然后,第5節總結了FSL中出現的幾個擴展主題。在第6節中,我們廣泛地研究了FSL在各個領域的應用以及FSL的基準性能。在第8節中,我們以對未來方向的討論來結束這次綜述。
小樣本學習是當前研究關注的熱點。這篇論文總結了2016年到2020年的小樣本元學習文章,劃分為四類:基于數據增強; 基于度量學習,基于元優化; 和基于語義的。值得查看!
摘要:
在圖像識別和圖像分類等方面,深度神經網絡的表現已經超過了人類。然而,隨著各種新類別的出現,如何從有限的樣本中不斷擴大此類網絡的學習能力,仍然是一個挑戰。像元學習和/或小樣本學習這樣的技術表現出了良好的效果,他們可以根據先驗知識學習或歸納到一個新的類別/任務。在本文中,我們研究了計算機視覺領域中現有的小樣本元學習技術的方法和評價指標。我們為這些技術提供了一個分類法,并將它們分類為數據增強、嵌入、優化和基于語義的學習,用于小樣本、單樣本和零樣本設置。然后我們描述在每個類別中所做的重要工作,并討論他們解決從少數樣本中學習的困境的方法。最后,我們在常用的基準測試數據集Omniglot和MiniImagenet上比較了這些技術,并討論了提高這些技術性能的未來方向,從而達到超越人類的最終目標。
地址: //www.zhuanzhi.ai/paper/8d29a5f14fcd0cc9a1aa508d072fb328
概述:
基于人工智能(AI)的系統正在成為人類生活的重要組成部分,無論是個人生活還是專業生活。我們周圍都是基于人工智能的機器和應用程序,它們將使我們的生活變得更容易。例如,自動郵件過濾(垃圾郵件檢測),購物網站推薦,智能手機中的社交網絡等[1,2,3,4]。這一令人印象深刻的進展之所以成為可能,是因為機器或深度學習模型[5]取得了突破性的成功。機器或深度學習占據了AI領域的很大一部分。深度學習模型是建立在多層感知器與應用基于梯度的優化技術的能力。深度學習模型最常見的兩個應用是:計算機視覺(CV),其目標是教會機器如何像人類一樣看和感知事物;自然語言處理(NLP)和自然語言理解(NLU),它們的目標是分析和理解大量的自然語言數據。這些深度學習模型在圖像識別[6,7,8]、語音識別[9,10,11,12,13]、自然語言處理與理解[14,15,16,17,18]、視頻分析[19,20,21,22,23]、網絡安全[24,25,26,27,28,29,30]等領域都取得了巨大的成功。機器和/或深度學習最常見的方法是監督學習,其中針對特定應用程序的大量數據樣本與它們各自的標簽一起被收集并形成一個數據集。該數據集分為三個部分: 訓練、驗證和測試。在訓練階段,將訓練集和驗證集的數據及其各自的標簽輸入模型,通過反向傳播和優化,將模型歸納為一個假設。在測試階段,將測試數據輸入模型,根據導出的假設,模型預測測試數據樣本的輸出類別。
由于計算機和現代系統的強大能力[31,32],處理大量數據的能力已經非常出色。隨著各種算法和模型的進步,深度學習已經能夠趕上人類,在某些情況下甚至超過人類。AlphaGo[33]是一個基于人工智能的agent,在沒有任何人類指導的情況下訓練,能夠擊敗世界圍棋冠軍。圍棋是一種古老的棋盤游戲,被認為比國際象棋[34]復雜10倍;在另一個復雜的多人戰略游戲《DOTA》中,AI-agent打敗了《DOTA[35]》的人類玩家;對于圖像識別和分類的任務,ResNet[6]和Inception[36,37,38]等模型能夠在流行的ImageNet數據集上取得比人類更好的性能。ImageNet數據集包括超過1400萬張圖像,超過1000個類別[39]。
人工智能的最終目標之一是在任何給定的任務中趕上或超過人類。為了實現這一目標,必須盡量減少對大型平衡標記數據集的依賴。當前的模型在處理帶有大量標記數據的任務時取得了成功的結果,但是對于其他帶有標記數據很少的任務(只有少數樣本),各自模型的性能顯著下降。對于任何特定任務,期望大型平衡數據集是不現實的,因為由于各種類別的性質,幾乎不可能跟上產生的標簽數據。此外,生成標記數據集需要時間、人力等資源,而且在經濟上可能非常昂貴。另一方面,人類可以快速地學習新的類或類,比如給一張奇怪動物的照片,它可以很容易地從一張由各種動物組成的照片中識別出動物。人類相對于機器的另一個優勢是能夠動態地學習新的概念或類,而機器必須經過昂貴的離線培訓和再培訓整個模型來學習新類,前提是要有標簽數據可用性。研究人員和開發人員的動機是彌合人類和機器之間的鴻溝。作為這個問題的一個潛在解決方案,我們已經看到元學習[40,41,42,43,44,45,46,47,48,49,50]、小樣本學習[51,52,53,54]、低資源學習[55,56,57,58]、零樣本學習[59,60,61,62,63,63,64,64,65]等領域的工作在不斷增加,這些領域的目標是使模型更好地推廣到包含少量標記樣本的新任務。
什么是小樣本元學習?
在few-shot, low-shot, n-shot learning (n一般在1 - 5之間)中,其基本思想是用大量的數據樣本對模型進行多類的訓練,在測試過程中,模型會給定一個新的類別(也稱為新集合),每個類別都有多個數據樣本,一般類別數限制為5個。在元學習中,目標是泛化或學習學習過程,其中模型針對特定任務進行訓練,不同分類器的函數用于新任務集。目標是找到最佳的超參數和模型權值,使模型能夠輕松適應新任務而不過度擬合新任務。在元學習中,有兩類優化同時運行: 一類是學習新的任務; 另一個是訓練學習器。近年來,小樣本學習和元學習技術引起了人們極大的興趣。
元學習領域的早期研究工作是Yoshua和Samy Bengio[67]以及Fei-Fei Li在less -shot learning[68]中完成的。度量學習是使用的較老的技術之一,其目標是從嵌入空間中學習。將圖像轉換為嵌入向量,特定類別的圖像聚在一起,而不同類別的圖像聚在一起比較遠。另一種流行的方法是數據增強,從而在有限的可用樣本中產生更多的樣本。目前,基于語義的方法被廣泛地研究,分類僅僅基于類別的名稱及其屬性。這種基于語義的方法是為了解決零樣本學習應用的啟發。
遷移學習與自監督學習
遷移學習的總體目標是從一組任務中學習知識或經驗,并將其遷移到類似領域的任務中去[95]。用于訓練模型獲取知識的任務有大量的標記樣本,而遷移任務的標記數據相對較少(也稱為微調),這不足以使模型訓練和收斂到特定的任務。遷移學習技術的表現依賴于兩項任務之間的相關性。在執行遷移學習時,分類層被訓練用于新的任務,而模型中先前層的權值保持不變[96]。對于每一個新的任務,在我們進行遷移學習的地方,學習速率的選擇和要凍結的層數都必須手工決定。與此相反,元學習技術可以相當迅速地自動適應新的任務。
自監督學習的研究近年來得到了廣泛的關注[97,98,99]。自監督學習(SSL)技術的訓練基于兩個步驟:一是在一個預定義代理任務上進行訓練,在大量的未標記數據樣本上進行訓練;第二,學習到的模型參數用于訓練或微調主要下游任務的模型。元學習或小樣本學習技術背后的理念與自監督學習非常相似,自監督學習是利用先前的知識,識別或微調一個新的任務。研究表明,自監督學習可以與小樣本學習一起使用,以提高模型對新類別的表現[100,101]。
方法體系組織:
元學習、小樣本學習、低資源學習、單樣本學習、零樣本學習等技術的主要目標是通過基于先驗知識或經驗的迭代訓練,使深度學習模型從少量樣本中學習能泛化到新類別。先驗知識是在包含大量樣本的帶標簽數據集上訓練樣本,然后利用這些知識在有限樣本下識別新的任務而獲得的知識。因此,在本文中,我們將所有這些技術結合在了小樣本體系下。由于這些技術沒有預定義的分類,我們將這些方法分為四大類: 基于數據增強; 基于度量學習,基于元優化; 和基于語義的(如圖1所示)。基于數據增強的技術非常流行,其思想是通過擴充最小可用樣本和生成更多樣化的樣本來訓練模型來擴展先驗知識。在基于嵌入的技術中,數據樣本被轉換為另一個低級維,然后根據這些嵌入之間的距離進行分類。在基于優化的技術中,元優化器用于在初始訓練期間更好地泛化模型,從而可以更好地預測新任務。基于語義的技術是將數據的語義與模型的先驗知識一起用于學習或優化新的類別。
【導讀】現有的機器學習方法在很多場景下需要依賴大量的訓練樣本。但機器學習方法是否可以模仿人類,基于先驗知識等,只基于少量的樣本就可以進行學習。本文介紹34頁小樣本學習綜述《Generalizing from a Few Examples: A Survey on Few-Shot Learning》,包含166篇參考文獻,來自第四范式和香港科技大學習的研究學者。
小樣本學習綜述 Few-shot Learning: A Survey
【摘要】機器學習在數據密集型應用中非常成功,但當數據集很小時,它常常受到阻礙。為了解決這一問題,近年來提出了小樣本學習(FSL)。利用先驗知識,FSL可以快速地泛化到只包含少量有監督信息的樣本的新任務中。在這篇論文中,我們進行了一個徹底的調研,以充分了解FSL。從FSL的正式定義出發,我們將FSL與幾個相關的機器學習問題區分開來。然后指出了FSL的核心問題是經驗風險最小化是不可靠的。基于先驗知識如何處理這一核心問題,我們從三個角度對FSL方法進行了分類: (i) 數據,它使用先驗知識來增加監督經驗;(二) 利用先驗知識縮小假設空間大小的模型;(iii)算法,利用先驗知識在給定的假設空間中改變對最佳假設的搜索。有了這種分類法,我們就可以回顧和討論每個類別的優缺點。在FSL問題的設置、技術、應用和理論方面也提出了有前景的方向,為未來的研究提供了見解。
我們給出了FSL的形式化定義。它可以自然地鏈接到以往文獻中提出的經典機器學習定義。這個定義不僅足夠概括,包括所有現有的FSL -shot Learning: A Survey problems,而且足夠具體,明確了什么是FSL的目標,以及我們如何解決它。這一定義有助于確定未來FSL領域的研究目標。
指出了基于誤差分解的FSL在機器學習中的核心問題。我們發現,正是不可靠的經驗風險最小化使得FSL難以學習。這可以通過滿足或降低學習的樣本復雜度來緩解。理解核心問題有助于根據解決核心問題的方式將不同的工作分類為數據、模型和算法。更重要的是,這為更有組織和系統地改進FSL方法提供了見解。
我們對從FSL誕生到最近發表的文獻進行了廣泛的回顧,并將它們進行了統一的分類。對不同類別的優缺點進行了深入的討論。我們還對每個類別下的見解進行了總結。這對于初學者和有經驗的研究人員都是一個很好的指導方針。
我們在問題設置、技術、應用和理論方面展望了FSL未來的四個發展方向。這些見解都是基于當前FSL發展的不足之處,并有可能在未來進行探索。我們希望這部分能夠提供一些見解,為解決FSL問題做出貢獻,為真正的AI而努力。
與已有的關于小樣本概念學習和經驗學習的FSL相關調相比,我們給出了什么是FSL,為什么FSL很難,以及FSL如何將小樣本監督信息與先驗知識結合起來使學習成為可能的正式定義。我們進行了廣泛的文獻審查的基礎上提出的分類法與詳細討論的利弊,總結和見解。我們還討論了FSL與半監督學習、不平衡學習、遷移學習和元學習等相關話題之間的聯系和區別