亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Transformer在計算機視覺領域迅速普及,特別是在目標識別和檢測領域。在檢查了最先進的目標檢測方法的結果后,我們注意到Transformer在幾乎每個視頻或圖像數據集上的表現都優于成熟的基于CNN的檢測器。雖然基于Transformer的方法仍然處于小目標檢測(SOD)技術的前沿,但本文旨在探索這種廣泛的網絡提供的性能優勢,并確定其SOD優勢的潛在原因。由于小目標的低可見性,小目標已被確定為檢測框架中最具挑戰性的對象類型之一。我們旨在研究可能提高Transformer在SOD中性能的潛在策略。這項綜述提出了一個關于已開發的Transformer的SOD任務的60多項研究的分類,跨越2020年至2023年。這些研究涵蓋了各種檢測應用,包括通用圖像、航拍圖像、醫學圖像、主動毫米圖像、水下圖像和視頻中的小目標檢測。我們還編譯并列出了12個適合SOD的大規模數據集的列表,這些數據集在以前的研究中被忽視了,并使用流行的度量標準(如平均平均精度(mAP)、每秒幀數(FPS)、參數數量等)比較了所評述的研究的性能。

小目標檢測(SOD)已被認為是當前最先進的目標檢測方法(SOTA)面臨的一個重大挑戰[1]。“小目標”指的是占據輸入圖像一小部分的物體。例如,在廣泛使用的MS COCO數據集[2]中,它定義了在典型的480 × 640圖像中邊框為32 × 32像素或更小的物體(圖1)。其他數據集也有自己的定義,例如占據圖像10%的物體。小目標經常被遺漏或檢測到錯誤的邊框,有時還有錯誤的標簽。SOD中定位不足的主要原因是輸入圖像或視頻幀中提供的信息有限,加劇了它們在深度網絡中通過多個層時所經歷的空間退化。由于小目標經常出現在各種應用領域,如行人檢測[3]、醫學圖像分析[4]、人臉識別[5]、交通標志檢測[6]、交通燈檢測[7]、船舶檢測[8]、基于合成孔徑雷達(SAR)的目標檢測[9],因此值得研究現代深度學習SOD技術的性能。本文比較了基于Transformer的檢測器和基于卷積神經網絡(CNN)的檢測器在小目標檢測方面的性能。在明顯優于CNN的情況下,我們試圖揭示Transformer強大性能背后的原因。一個直接的解釋可能是Transformer對輸入圖像中成對位置之間的相互作用進行了建模。這是一種有效的上下文編碼方式。而且,眾所周知,上下文是人類和計算模型檢測和識別小目標的主要信息來源[10]。然而,這可能不是解釋Transformer成功的唯一因素。具體而言,我們的目標是沿著幾個維度分析這種成功,包括對象表示、高分辨率或多尺度特征圖的快速注意力、完全基于Transformer的檢測、架構和塊修改、輔助技術、改進的特征表示和時空信息。此外,我們指出了可能增強Transformer在SOD中性能的方法。

在我們之前的工作中,我們調查了許多在深度學習中使用的策略,以提高光學圖像和視頻中小目標檢測的性能,直至2022年[11]。我們表明,除了適應新的深度學習結構(如Transformer)外,流行的方法包括數據增強、超分辨率、多尺度特征學習、上下文學習、基于注意力的學習、區域建議、損失函數正則化、利用輔助任務和時空特征聚合。此外,我們觀察到Transformer是大多數數據集中定位小目標的主要方法之一。然而,鑒于[11]主要評估了超過160篇專注于基于CNN的網絡的論文,沒有對以Transformer為中心的方法進行深入探索。認識到該領域的增長和探索步伐,現在有一個及時的窗口來深入研究當前面向小目標檢測的Transformer模型。本文的目標是全面了解在應用于小目標檢測時,變換器令人印象深刻的性能的貢獻因素,以及它們與用于通用目標檢測的策略的區別。為了奠定基礎,我們首先強調了著名的基于Transformer的SOD目標檢測器,并將其與基于CNN的方法的進步進行比較。

自2017年以來,該領域已經發表了許多綜述文章。在我們之前的調查中[11],對這些綜述進行了廣泛的討論和列表。最近的另一篇調查文章[12]也主要關注基于CNN的技術。當前調查的敘述與前人截然不同。本文的重點是將焦點具體縮小到Transformer上——這是以前沒有探討過的一個方面——將Transformer定位為圖像和視頻SOD的主要網絡架構。這需要為這種創新架構量身定制一個獨特的分類法,有意識地將基于CNN的方法邊緣化。鑒于這個主題的新穎性和復雜性,我們的綜述主要將2022年后的工作優先考慮。此外,我們還闡明了在更廣泛的應用領域中用于小目標定位和檢測的新數據集。本調查中研究的主要方法是為小目標定位和分類量身定制的方法,或間接解決了SOD的挑戰。驅動我們分析的是這些論文中針對小目標的檢測結果。然而,早期的研究指出了SOD的結果,但要么證明了低于標準的性能,要么忽略了開發方法中特定的SOD參數,因此沒有考慮納入本綜述。在本調查中,我們假設讀者已經熟悉通用對象檢測技術、它們的架構和相關的性能指標。如果讀者需要對這些領域有基礎的了解,我們建議讀者參考我們以前的工作[11]。

本文的結構如下:第2節概述了基于CNN的物體檢測器、Transformer及其組件,包括編碼器和解碼器。本節還涉及了基于Transformer的物體檢測器的兩個初始迭代:DETR和ViT-FRCNN。在第3節中,我們對基于Transformer的SOD技術進行了分類,并全面深入研究了每類技術。第4節展示了用于SOD的不同數據集,并在一系列應用中對它們進行了評估。在第5節中,我們分析并比較了這些結果與早期從CNN網絡得出的結果。本文在第6節中總結了結論。

付費5元查看完整內容

相關內容

目標檢測,也叫目標提取,是一種與計算機視覺和圖像處理有關的計算機技術,用于檢測數字圖像和視頻中特定類別的語義對象(例如人,建筑物或汽車)的實例。深入研究的對象檢測領域包括面部檢測和行人檢測。 對象檢測在計算機視覺的許多領域都有應用,包括圖像檢索和視頻監視。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

近期的AI生成內容(AIGC)在計算機視覺中取得了顯著的成功,其中擴散模型在這一成就中扮演了至關重要的角色。由于其出色的生成能力,擴散模型正逐漸取代基于GANs和自回歸Transformers的方法,在圖像生成和編輯方面展現出卓越的性能,而且在視頻相關研究領域也是如此。然而,現有的綜述主要集中在圖像生成的擴散模型背景下,對于它們在視頻領域的應用很少有最新的評述。為了解決這一缺陷,本文呈現了AIGC時代視頻擴散模型的全面綜述。具體來說,我們從擴散模型的基礎和演變進行簡要介紹。隨后,我們對視頻領域的擴散模型研究進行了概述,將工作劃分為三個關鍵領域:視頻生成、視頻編輯和其他視頻理解任務。我們對這三個關鍵領域的文獻進行了徹底的綜述,包括進一步的分類和領域內的實際貢獻。最后,我們討論了這個領域研究所面臨的挑戰,并概述了潛在的未來發展趨勢。本次綜述中研究的視頻擴散模型的全面列表可以在//github.com/ChenHsing/Awesome-Video-Diffusion-Models 找到。

AI生成內容(AIGC)目前是計算機視覺和人工智能中最為突出的研究領域之一。它不僅引起了廣泛的關注和學術研究,而且在多個行業和其他應用中產生了深遠的影響,如計算機圖形學、藝術和設計、醫學成像等。在這些努力中,由擴散模型 [1–7] 代表的一系列方法特別成功,迅速取代了基于生成對抗網絡(GANs)[8–12] 和自回歸Transformers [13–16] 的方法,成為圖像生成的主要方法。由于它們強大的可控性、逼真的生成和令人印象深刻的多樣性,基于擴散的方法也在計算機視覺任務的廣泛范圍內蓬勃發展,包括圖像編輯 [17–20]、密集預測 [21–25] 以及如視頻合成 [26–31] 和3D生成 [32–34] 等多樣化領域。作為最重要的媒介之一,視頻在互聯網上嶄露頭角。與純文本和靜態圖像相比,視頻提供了豐富的動態信息,為用戶提供了更為全面和沉浸式的視覺體驗。基于擴散模型的視頻任務研究逐漸受到關注。如圖1所示,自2022年以來,視頻擴散模型的研究出版物數量顯著增加,可以劃分為三大類:視頻生成 [26, 27, 29–31, 35, 36]、視頻編輯 [37–41] 和視頻理解 [42–45]。

隨著視頻擴散模型[27]的快速進步及其展示的令人印象深刻的結果,跟蹤和比較這一主題上的最新研究變得非常重要。已有幾篇綜述文章涵蓋了AIGC時代的基礎模型[46, 47],包括擴散模型本身[48, 49]和多模態學習[50–52]。還有一些特定聚焦于文本到圖像[53]研究和文本到3D[54]應用的綜述。然而,這些綜述要么只粗略地涵蓋視頻擴散模型,要么更多地強調圖像模型[49, 50, 53]。因此,在這項工作中,我們旨在填補這一空白,對擴散模型的方法論、實驗設置、基準數據集和其他視頻應用進行全面回顧。 貢獻:在本綜述中,我們系統地跟蹤和總結了關于視頻擴散模型的最近文獻,涵蓋了如視頻生成、編輯以及其他視頻理解方面的領域。通過提取共享的技術細節,本綜述涵蓋了該領域最具代表性的作品。我們還介紹了關于視頻擴散模型的背景和相關的初步知識。此外,我們對視頻生成的基準和設置進行了全面的分析和比較。據我們所知,我們是首個專注于這個特定領域的團隊。更重要的是,鑒于視頻擴散的快速發展,我們可能沒有涵蓋本綜述中的所有最新進展。因此,我們鼓勵研究者與我們聯系,與我們分享這一領域的新發現,使我們能夠保持最新。這些新的貢獻將被納入修訂版進行討論。

綜述流程:在第2節中,我們將介紹背景知識,包括問題定義、數據集、評估指標和相關研究領域。隨后,在第3節中,我們主要介紹視頻生成領域的方法概覽。在第4節中,我們深入探討關于視頻編輯任務的主要研究。在第5節中,我們闡述了利用擴散模型進行視頻理解的各種方向。在第6節中,我們突出了現有的研究挑戰和潛在的未來發展方向,并在第7節中總結我們的結論性觀點。

視頻生成

在這一部分,我們將視頻生成劃分為四個類別,并為每個類別提供詳細的評論:通用文本到視頻(T2V)生成(第3.1節)、帶其他條件的視頻生成(第3.2節)、無條件視頻生成(第3.3節)以及視頻完成(第3.4節)。最后,我們總結了設置和評估指標,并在第3.5節中對各種模型進行了全面比較。視頻生成的分類細節在圖2中展示。

帶文本條件的視頻生成

如近期研究[1, 2, 171] 所證明的,生成型AI與自然語言之間的互動至關重要。盡管在從文本生成圖像[1–3, 16] 方面取得了重大進展,但文本到視頻(T2V)方法的發展仍處于初級階段。在這個背景下,我們首先簡要概述了一些非擴散方法[172, 173],然后深入介紹了基于訓練和無需訓練的擴散技術的T2V模型。

帶其他條件的視頻生成

之前介紹的大多數方法都與文本到視頻生成有關。在這個小節中,我們關注于基于其他模態(例如姿態、聲音和深度)的視頻生成。我們在圖3中展示了受條件控制的視頻生成示例。

視頻編輯

隨著擴散模型的發展,視頻編輯研究的數量呈指數增長。許多研究[74, 233, 236, 239]的共識是,視頻編輯任務應滿足以下標準:(1) 保真度:每幀的內容應與原視頻的對應幀內容保持一致;(2) 對齊度:輸出視頻應與輸入控制信息對齊;(3) 質量:生成的視頻應在時間上保持一致并且質量高。雖然可以利用預訓練的圖像擴散模型通過逐幀處理進行視頻編輯,但幀與幀之間缺乏語義一致性,使得逐幀編輯視頻變得不可行,使視頻編輯成為一個具有挑戰性的任務。在本節中,我們將視頻編輯分為三類:文本引導的視頻編輯(第4.1節)、模態引導的視頻編輯(第4.2節)和特定領域的視頻編輯(第4.3節)。視頻編輯的分類細節在圖4中總結。

文本引導的視頻編輯在文本引導的視頻編輯中,用戶提供一個輸入視頻和一個描述所需視頻屬性的文本提示。然而,與圖像編輯不同,文本引導的視頻編輯帶來了幀一致性和時間建模的新挑戰。一般來說,文本基視頻編輯有兩種主要方式:(1) 在大規模文本-視頻對數據集上訓練T2V擴散模型;(2) 擴展預訓練的T2I擴散模型進行視頻編輯。后者更受關注,因為大規模文本-視頻數據集很難獲取,且訓練T2V模型在計算上昂貴。為了捕捉視頻中的運動,各種時間模塊被引入到T2I模型中。然而,擴展T2I模型的方法面臨兩個關鍵問題:時間不一致性,其中編輯過的視頻在幀與幀之間的視覺上出現閃爍;以及語義差異,即視頻沒有根據給定文本提示的語義進行更改。幾項研究從不同的角度解決了這些問題。

視頻理解

除了在生成任務中的應用,例如視頻生成和編輯,擴散模型也在基本的視頻理解任務中得到了探索,例如視頻時間段分割[42, 253]、視頻異常檢測[254, 255]、文本-視頻檢索[44, 257]等,這些將在本節中介紹。視頻理解的分類細節在圖5中總結。

結論

本綜述深入探討了AIGC(AI-生成的內容)時代的最新發展,重點關注視頻擴散模型。據我們所知,這是此類工作的首次嘗試。我們提供了對擴散過程的基本概念、熱門基準數據集以及常用評估指標的全面概述。在此基礎上,我們全面地回顧了超過100種不同的工作,這些工作專注于視頻生成、編輯和理解的任務,并根據其技術觀點和研究目標對它們進行了分類。此外,在實驗部分,我們詳細描述了實驗設置,并對多個基準數據集進行了公正的比較分析。最后,我們提出了關于視頻擴散模型未來的幾個研究方向。

付費5元查看完整內容

圖像恢復(IR)一直是低級視覺領域中不可或缺且具有挑戰性的任務,旨在提高由各種形式的退化所扭曲的圖像的主觀質量。近期,擴散模型在AIGC的視覺生成方面取得了顯著進展,從而引起了一個直觀的問題,“擴散模型是否可以提升圖像恢復”。為了回答這個問題,一些開創性的研究試圖將擴散模型整合到圖像恢復任務中,從而取得了比先前基于GAN的方法更好的表現。盡管如此,關于基于擴散模型的圖像恢復的全面而有啟發性的綜述仍然很少。在本文中,我們是第一個全面回顧近期基于擴散模型的圖像恢復方法的,涵蓋了學習范例、條件策略、框架設計、建模策略和評估。具體來說,我們首先簡要介紹擴散模型的背景,然后介紹兩種在圖像恢復中利用擴散模型的流行工作流。隨后,我們分類并強調使用擴散模型進行IR和盲/實際世界IR的創新設計,旨在激發未來的發展。為了徹底評估現有的方法,我們總結了常用的數據集、實施細節和評估指標。此外,我們為開源方法在三個任務中提供了客觀的比較,包括圖像超分辨率、去模糊和修復。最后,受到現有工作中的限制的啟發,我們為基于擴散模型的IR提出了五個潛在的并且具有挑戰性的未來研究方向,包括采樣效率、模型壓縮、扭曲模擬和估計、扭曲不變學習和框架設計。

資源庫將在 //github.com/lixinustc/Awesome-diffusion-model-for-image-processing/ 上發布。

圖像恢復(IR)一直是低層次視覺任務中的長期研究主題,在提高圖像的主觀質量方面發揮著不可替代的作用。流行的IR任務包括圖像超分辨率(SR)[1-10]、去模糊[11-17]、去噪[18-25]、修復[26-31]和壓縮偽影去除[32-38]等。一些IR任務的視覺示例顯示在圖1中。為了恢復扭曲的圖像,傳統的IR方法將恢復視為信號處理,并從空間或頻率的角度使用手工制作的算法減少偽影[18, 39-44]。隨著深度學習的發展,眾多IR工作為各種IR任務定制了一系列數據集,例如,用于SR的DIV2K [45]、Set5 [46]和Set14 [47],用于去雨的Rain800 [48]、Rain200 [?]、Raindrop [49]和DID-MDN [50],以及用于運動去模糊的REDS [51]和Gopro [52]等。利用這些數據集,大多數近期的工作[1-3, 7-11, 13, 16, 19, 21-23, 32-34, 53-55]專注于通過基于卷積神經網絡(CNNs)[56]或Transformer [57]的精心設計的骨干網絡來提高IR網絡針對復雜退化的表示能力。盡管這些工作在客觀質量(例如,PSNR和SSIM)上取得了卓越的進展,但恢復的圖像仍然受到不滿意的紋理生成的困擾,這阻礙了IR方法在實際場景中的應用。

得益于生成模型的發展[58-66],尤其是生成對抗網絡(GAN)[64],一些開創性的IR研究[5, 6, 67-70]指出,先前的像素級損失,例如MSE損失和L1損失容易受到模糊紋理的影響,并將GAN的對抗損失引入到IR網絡的優化中,從而增強其紋理生成能力。例如,SRGAN [5] 和DeblurGAN [12]分別使用像素級損失和對抗損失的組合來實現以感知為導向的SR網絡和去模糊網絡。在他們之后,改進基于GAN的IR的兩個主要方向是增強生成器(即恢復網絡)[5, 6, 71-73]和鑒別器[74-77]。特別是,ESRGAN [6]引入了強大的RRDB [6]作為基于GAN的SR任務的生成器。三種流行的鑒別器,包括像素級鑒別器(U-Net形狀)[74]、塊級鑒別器[75, 78-80]和圖像級鑒別器[76, 77](即VGG類似的架構)被設計來關注不同粒度級別的主觀質量(即從局部到全局)。盡管有上述進展,但大多數基于GAN的IR研究仍然面臨兩個不可避免但至關重要的問題:1) 基于GAN的IR的訓練容易受到模式腐敗和不穩定優化的影響;2) 大多數生成的圖像的紋理似乎是假的和與事實不符的。

近年來,擴散模型作為生成模型的一個新分支浮現出來,為視覺生成任務帶來了一系列的突破。擴散模型的原型可以追溯到工作[81],并由DDPM [82]、NCSN [83]和SDE [84]進一步發展。一般來說,擴散模型由前向/擴散過程和反向過程組成,其中前向過程逐漸增加像素級噪聲到圖像,直到它滿足高斯噪聲,而反向過程旨在通過估算得分的去噪[83]或噪聲預測[82]來重建圖像。與GANs相比,擴散模型產生高保真度和多樣化的生成結果,從而成功地替代了在一系列領域中的GANs,如視覺生成[82-86]和條件視覺生成[86-97]。隨著視覺-語言模型的進步,擴散模型已被擴展到跨模態生成,如StableDiffusion [98]和DALLE-2 [99]。這極大地推動了人工智能生成內容(AIGC)的發展。我們已經在圖2中根據時間線列出了基于擴散模型的代表性作品。

受到擴散模型優越的生成能力的啟發,許多研究探索了它們在圖像恢復任務中的應用,目標是促進紋理的恢復。根據訓練策略,這些工作大致可以分為兩類:1) 第一類[100–109]致力于通過有監督學習從零開始優化用于IR的擴散模型;2) 第二類(即零樣本類)[110–117]努力利用預訓練擴散模型中的生成先驗用于IR。典型地,基于有監督學習的方法需要收集大規模的扭曲/清晰的圖像對,而基于零樣本的方法主要依賴已知的退化模式。這些局限性阻礙了這些基于擴散模型的方法在真實世界場景中的應用,其中的扭曲通常是多種多樣和未知的。為了進一步解決上述問題,一些研究[118–123]已經擴展了擴散模型,通過結合真實世界的扭曲模擬、核估計、領域轉換和扭曲不變學習來處理盲目/真實世界的圖像恢復。

盡管擴散模型在圖像恢復方面已經顯示出顯著的效果,但相關的技術和基準測試顯示出相當的多樣性和復雜性,這使它們難以被追蹤和改進。此外,缺乏一個基于擴散模型的IR的綜合性審查進一步限制了其發展。在本文中,我們首次回顧并總結了基于擴散模型的圖像恢復方法的工作,旨在為圖像恢復社區提供一個結構良好且深入的知識庫,并促進其在該社區內的演變。

在這次綜述中,我們首先在第2部分介紹擴散模型的背景,重點介紹三種基本的建模方法,即NCSN [83]、DDPM [82]和SDE [84],并從優化策略、采樣效率、模型架構和條件策略的角度對擴散模型進行進一步的改進。基于這些初步信息,我們在第3部分從兩個不同的方向闡明了擴散模型在圖像恢復中的進展:1) 基于監督的擴散模型IR,和2) 基于零樣本的擴散模型IR。在第4部分,我們總結了在更實用和具有挑戰性的場景下基于擴散模型的IR,即盲目/真實世界的退化。這旨在進一步增強基于擴散模型的IR方法滿足實際應用需求的能力。為了促進合理和詳盡的比較,在第5部分,我們闡明了在不同的基于擴散模型的IR任務中常用的數據集和實驗設置。此外,還提供了不同任務之間基準的綜合比較。在第6部分,我們深入分析了基于擴散模型的IR的主要挑戰和潛在方向。本次審查的最終結論總結在第7部分。

基于擴散模型的圖像恢復方法

根據擴散模型(DMs)是否針對IR進行無需訓練,我們初步將基于DM的IR方法分類為兩大類,即監督型DM-based方法 [100, 105, 107, 108, 121, 191-194] 和零樣本型DM-based方法 [112, 114, 115, 195-200]。特別地,監督型DM-based IR方法需要從頭開始使用IR數據集的成對的扭曲/干凈圖像來訓練擴散模型。與之前直接將扭曲圖像作為輸入的基于GAN的方法 [201–209] 不同,基于DM的IR采用精心設計的條件機制在反向過程中將扭曲的圖像作為指導。盡管這種方法產生了有希望的紋理生成結果,但它遇到了兩個顯著的限制:1) 從零開始訓練擴散模型依賴于大量的成對訓練數據。2) 在現實世界中收集成對的扭曲/干凈圖像是具有挑戰性的。相反,零樣本型DM-based方法只需扭曲的圖像,無需重新訓練擴散模型,從而提供了一個吸引人的選擇。它不是從IR的訓練數據集中獲得恢復能力,而是從預訓練的擴散模型中挖掘并利用圖像恢復的結構和紋理先驗知識。這一核心思想源于直覺:預訓練的生成模型可以被視為使用大量真實世界數據集(如ImageNet [210] 和FFHQ [211])構建的結構和紋理倉庫。因此,零樣本型DM-based IR方法面臨的一個關鍵挑戰是:如何在保持數據結構的同時提取相應的感知先驗。在接下來的小節中,我們首先簡要回顧代表性的監督型DM-based IR方法:SR3 [100],以及零樣本型DM-based IR方法:ILVR [195]。然后,我們從條件策略、擴散建模和框架的角度對這兩種方法進行進一步分類,這些總結在表1和表2中。此外,擴散模型的整體分類在圖4中進行了說明。

擴散模型用于盲/真實世界的圖像恢復

盡管第3節中的方法在圖像恢復方面取得了巨大的突破,但其中大多數方法 [100, 101, 104, 112–114, 197, 218, 219] 都集中在解決合成扭曲問題上,它們通常在分布外(OOD)的真實世界/盲目退化條件下表現不佳。原因在于真實世界IR的固有挑戰:1) 未知的退化模式很難被識別。2) 在現實世界中收集扭曲/干凈的圖像對是微不足道的,甚至是不可用的。為了克服這一點,先前的工作 [241–248] 嘗試通過模擬真實世界的退化 [72, 241–244, 246] 和無監督學習 [245, 247, 248] 等方法來解決它。受此啟發,一些開創性的工作 [117, 118, 120, 123, 221] 開始探索如何利用擴散模型解決真實世界的退化問題。在本文中,我們將基于DM的盲/真實世界IR [108, 109, 118–121, 123, 220–222, 226] 分為四類,即扭曲模擬 [118, 226],核估計 [119, 120],域轉換 [122, 226],以及扭曲不變的擴散模型 [123, 222, 237]。

結論

本文為圖像恢復 (IR) 的最近受歡迎的擴散模型提供了一個全面的評述,深入探討了其顯著的生成能力以增強結構和紋理恢復。首先,我們闡述了擴散模型的定義和演變。隨后,我們從培訓策略和退化場景的角度提供了現有作品的系統分類。具體來說,我們將現有的工作分為三個主要流程:有監督的 DM-based IR、零鏡頭的 DM-based IR 和基于盲/真實世界的 DM-based IR。對于每一個流程,我們基于技術提供了細粒度的分類,并詳細描述了它們的優點和缺點。對于評估,我們總結了 DM-based IR 常用的數據集和評估指標。我們還在三個典型任務上,包括圖像SR、去模糊和修復,使用扭曲和感知度量比較了開源的 SOTA 方法。為了克服 DMbased IR 中的潛在挑戰,我們強調了未來有望探索的五個潛在方向。

付費5元查看完整內容

最新《Transformers 2D目標檢測》綜述,值得關注!

ransformers在自然語言處理(NLP)中的卓越性能激發了研究者們探索其在計算機視覺任務中的應用。像其他計算機視覺任務一樣,DEtection TRansformer(DETR)通過將檢測視為一種集合預測問題,而無需生成建議和進行后處理步驟,將transformers引入到目標檢測任務中。它是一種用于目標檢測的最先進(SOTA)方法,特別是在圖像中的目標數量相對較少的情況下。盡管DETR取得了成功,但它在訓練收斂速度上存在問題,并且在小目標上的性能有所下降。因此,提出了許多改進方案來解決這些問題,從而對DETR進行了大量的改進。自2020年以來,基于transformer的目標檢測引起了越來越多的關注,并展示了令人印象深刻的性能。盡管已經進行了大量關于視覺領域中transformers的調查,但是關于使用transformers進行2D目標檢測的改進的回顧仍然缺失。本文詳細回顧了關于DETR最近發展的二十一篇論文。我們從Transformers的基本模塊開始,例如自注意力、目標查詢和輸入特性編碼。然后,我們覆蓋了DETR的最新進展,包括骨干修改、查詢設計和注意力精煉。我們還在性能和網絡設計方面比較了所有的檢測transformers。我們希望這項研究將增加研究者對解決將transformers應用于目標檢測領域的現有挑戰的興趣。研究人員可以在此網頁上跟蹤檢測transformers的新進展://github.com/mindgarage-shan/trans_object_detection_survey。

1. 引言

目標檢測是計算機視覺中的基礎任務之一,涉及在圖像中定位和分類對象 [1], [2], [3], [4]。多年來,卷積神經網絡(CNNs)一直是目標檢測模型的主要骨干[1]。然而,Transformers在自然語言處理(NLP)中的最近成功使研究人員開始探索它們在計算機視覺中的潛力[5]。已經證明,Transformer架構[6]在捕獲序列數據中的長距離依賴性方面非常有效[6],這使其成為目標檢測任務的有吸引力的候選者。2020年,Carion等人提出了一種名為DEtection TRansformer (DETR)的新型目標檢測框架[7],它用使用transformer編碼器-解碼器網絡的完全端到端可訓練的架構替換了傳統的基于區域建議的方法。DETR網絡顯示出了令人充滿希望的結果,超過了傳統的基于CNN的目標檢測器[1], [2], [3], [4],同時也消除了對手工制作組件(如區域提議網絡)和后處理步驟(如非最大抑制(NMS))[8]的需求。

自DETR推出以來,已經提出了一些修改和改進來克服其限制,例如訓練收斂慢和對小目標的性能下降。圖1顯示了檢測變換器(DETR)及其改進性能和訓練收斂的文獻概述。Deformable-DETR [9] 修改了注意力模塊來處理圖像特征圖,認為注意力機制是訓練收斂慢的主要原因。UP-DETR [10] 提出了一些修改來預訓練DETR,類似于在自然語言處理中預訓練Transformers。EfficientDETR [11] 基于原始的DETR和Deformable-DETR,檢查了隨機初始化的目標概率,包括參考點和目標查詢,這是多次訓練迭代的原因之一。SMCA-DETR [12] 引入了一個空間調制的共注意模塊,替換了DETR中現有的共注意機制,以克服DETR的訓練收斂慢的問題。TSPDETR [13] 處理交叉注意力和二部匹配的不穩定性,以克服DETR的訓練收斂慢的問題。Conditional-DETR [14] 提出了一種條件交叉注意力機制來解決DETR的訓練收斂問題。WB-DETR [15] 將CNN骨干用于特征提取視為額外的組件,并提出了一個沒有骨干的Transformer編碼器-解碼器網絡。PnP-DETR [16] 提出了一個PnP采樣模塊,以減少空間冗余并使Transformer網絡計算上更有效。Dynamic-DETR [17] 在編碼器-解碼器網絡中引入了動態注意力。YOLOS-DETR [18] 通過使用最少的輸入空間設計信息,展示了Transformer從圖像識別到序列檢測的可轉移性和多功能性,并改進了性能。Anchor-DETR [19] 提出了作為錨點的目標查詢,這在基于CNN的目標檢測器中得到了廣泛的應用。Sparse-DETR [20] 通過使用可學習的交叉注意力圖對編碼器令牌進行過濾,降低了計算成本。D2ETR [21] 使用新的跨尺度注意力模塊在解碼器中使用來自骨干網絡的精細融合特征圖。FP-DETR [22] 重新定義了用于檢測transformers的預訓練和微調階段。CFDETR [23] 通過利用局部信息來優化預測的位置,因為不正確的邊界框位置會降低對小目標的性能。DN-DETR [24] 使用帶有噪聲的目標查詢作為解碼器的額外輸入,以減少DETR中二部匹配機制的不穩定性,這是導致訓練收斂慢的問題。AdaMixer [25] 認為編碼器是骨干網絡和解碼器之間的額外網絡,其設計復雜性限制了性能并減慢了訓練收斂的速度,并提出了一個3D采樣過程和對解碼器的少量修改。REGO-DETR [26] 提出了一種基于RoI的檢測優化方法,以改進檢測transformer中的注意力機制。DINO [27] 考慮使用帶有正面和負面噪聲的目標查詢,以加快訓練收斂的速度,并改進對小目標的性能。 由于基于Transformer的檢測方法的快速進步,跟蹤新的進步變得越來越具有挑戰性。因此,對正在進行的進展進行回顧是必要的,并且對該領域的研究人員將是有幫助的。

本文提供了2D檢測Transformers最近進展的詳細概述。表1顯示了改進檢測Transformer(DETR)以提高性能和訓練收斂的修改概述。我們的貢獻

  1. 從架構角度對基于Transformer的檢測方法進行詳細回顧**。我們根據骨干網絡的修改、預訓練水平、注意力機制、查詢設計等方面,對DEtection TRansformer(DETR)的改進進行分類和總結。我們提出的分析旨在幫助研究人員更深入地理解檢測Transformers的關鍵組件在性能指標方面的含義。

  2. 對檢測Transformers的性能評估。我們使用流行的基準測試MS COCO [30] 來評估檢測Transformers的改進。我們也強調了這些方法的優點和局限性。3) 對改進版本的檢測Transformers的準確性和計算復雜性的分析。我們對最先進的基于Transformer的檢測方法進行評價性比較,關注其在注意力機制、骨干網絡修改、查詢設計改進等方面。4) 對檢測Transformers的關鍵構建模塊的概述,以進一步提高性能和未來的發展方向。我們檢查了各種關鍵的架構設計模塊對網絡性能和訓練收斂的影響,并為未來的研究提供可能的建議。

2 目標檢測和視覺中的Transformers

2.1 目標檢測

本節解釋了目標檢測的關鍵概念以及之前使用過的目標檢測器。關于目標檢測概念的更詳細分析可以在[35],[63]中找到。目標檢測任務通過在每個目標周圍提供一個邊界框和其類別,來在圖像中定位和識別目標。這些檢測器通常在像PASCAL VOC [64]或MS COCO [30]這樣的數據集上進行訓練。骨干網絡將輸入圖像的特征提取為特征圖[65]。通常,像ResNet50 [66]這樣的骨干網絡先在ImageNet [67]上進行預訓練,然后在下游任務上進行微調[68],[69],[70],[71]。此外,許多工作也使用了視覺transformers [72],[73],[74]作為骨干網絡。單階段目標檢測器[3],[4],[75],[76],[77],[78],[79],[80],[81],[82],[83]只使用一個網絡,速度更快,但性能低于兩階段網絡。兩階段目標檢測器[1],[2],[8],[65],[84],[85],[86],[87],[88],[89]包含兩個網絡,提供最終的邊界框和類標簽。輕量級檢測器:輕量級檢測器是一種設計為在計算上高效且相比標準目標檢測模型需要較低計算資源的目標檢測模型。這些是實時目標檢測器,可以在小設備上使用。這些網絡包括[90],[91],[92],[93],[94],[95],[96],[97],[98]。3D目標檢測:3D目標檢測的主要目的是使用3D邊界框識別感興趣的目標,并給出一個類標簽。3D方法分為三個類別,即基于圖像的[99],[100],[101],[102],[103],[104],[105],基于點云的[106],[107],[108],[109],[110],[111],[112],[113],[114]和基于多模態融合的[115],[116],[117],[118],[119]。

2.2 用于分割的Transformer

自注意力機制可以用于分割任務[120],[121],[122],[123],[124],它提供像素級[125]預測結果。全景分割[126]通過提供每像素類別和實例標簽,共同解決語義和實例分割任務。Wang等人[127]提出了針對三個基準[128],[129],[130]的全景分割任務的位置敏感軸向注意力。以上的分割方法都有基于CNN的網絡中的自注意力。最近,提出了包含編碼器-解碼器模塊的分割轉換器[121],[123]。

2.3 用于場景和圖像生成的Transformers

以前的文本到圖像生成方法[131],[132],[133],[134]基于GANs[135]。Ramesh等人[136]提出了一個基于transformer的模型,用于從提供的文本細節生成高質量的圖像。Transformer網絡也被應用于圖像合成[137],[138],[139],[140],[141],這對于學習下游任務的無監督和生成模型很重要。使用無監督訓練過程的特征學習[138]在兩個數據集[142],[143]上達到了最先進的性能,而SimCLR[144]在[145]上提供了相當的性能。iGPT圖像生成網絡[138]不包括類似于語言建模任務的預訓練過程。然而,無監督的基于CNN的網絡[146],[147],[148]考慮了先驗知識作為架構布局,注意力機制和正則化。帶有基于CNN的骨干的生成對抗網絡(GAN)[135]對于圖像合成[149],[150],[151]具有吸引力。TransGAN[140]是一個強大的GAN網絡,其中生成器和鑒別器包含transformer模塊。

2.4 用于低級視覺的Transformers

低級視覺是分析圖像以識別其基本組件并創建中間表示以供進一步處理和高級任務的過程。在觀察到注意力網絡在高級視覺任務中的顯著性能后,已經引入了許多針對低級視覺問題的基于注意力的方法,如[152],[153],[154],[155],[156]。

3. 檢測TRANSFORMERS

本節簡要解釋了DEtection TRansformer (DETR)及其改進,如圖2所示。

DEtection TRansformer (DETR) [7] 的架構比如Faster R-CNN [170]這樣的基于CNN的檢測器更簡單,因為它省去了生成錨點的過程和后處理步驟,如非極大值抑制(NMS),并提供了一個優化的檢測框架。DETR網絡有三個主要模塊:一個帶有位置編碼的主干網絡,一個編碼器和一個帶有注意力機制的解碼器網絡。從主干網絡中提取的特征作為一個單一的向量,和它們的位置編碼[171],[172]一起作為輸入向量送入編碼器網絡。這里,關鍵字,查詢和值矩陣上執行自我注意力,這些結果輸入到多頭注意力和前饋網絡中,以找到輸入向量的注意力概率。DETR解碼器并行處理目標查詢和編碼器輸出。通過并行解碼N個目標查詢,它計算出預測,并使用一種二部匹配算法來標記真實和預測的目標。

Deformable-DETR UP-DETR Efficient-DETR SMCA-DETR TSP-DETR Conditional-DETR WB-DETRP nP-DETR Dynamic-DETR YOLOS-DETR Anchor-DETR Sparse-DETRD 2ETRFP-DETR DAB-DETR CF-DETR DN-DETR AdaMixer REGO-DETR DINO

雖然檢測Transformers在各種對象檢測基準測試上已經顯示出了有希望的結果,但是仍然存在一些開放性的挑戰和改進的未來方向。表4提供了所有提出的DETR改進版本的優點和限制。以下是DETR改進的一些開放性挑戰和未來方向:

擴大到大數據集:DINO,DETR的改進版本,在小型和中型數據集上顯示出了令人印象深刻的結果,但是當擴大到大型數據集時,其性能下降。未來的工作應該探索如何將檢測Transformers擴大到大型數據集,同時保持其性能。

提高樣本效率:檢測Transformers需要大量的訓練數據來學習有效的表示。未來的工作應該研究如何提高樣本效率,比如結合領域特定的知識或者使用主動學習技術。

處理長尾分布:檢測Transformers在處理長尾分布時有困難,這種分布中某些類別的實例比其他類別少得多。未來的工作應該探索如何解決這種類別不平衡,比如使用重新采樣技術。

結合局部和全局信息:DETR關注全局信息,而DINO關注從圖像中學習局部表示。然而,DETR及其改進版本并沒有顯式地模型化圖像不同部分的局部和全局信息。未來的工作應該探索將這兩種信息結合到模型中。 總的來說,檢測Transformers還有很大的改進空間,解決這些開放性的挑戰和未來的方向可能會帶來更加令人印象深刻的結果。

4. 結論

檢測Transformer已經提供了高效且精確的目標檢測網絡,并深入了解了深度神經網絡的運行方式。這篇綜述給出了關于檢測Transformer的詳細概述。特別是,它關注了在DETR中最新的進步,以提高性能和訓練收斂性。檢測Transformer的編碼器-解碼器網絡中的注意力模塊被修改以改進訓練收斂性,并且更新作為解碼器輸入的目標查詢以改善對小目標的性能。我們提供了檢測Transformer的最新改進,包括主干修改、查詢設計和注意力細化。我們還比較了在性能和架構設計方面檢測Transformer的優點和限制。通過關注目標檢測任務,這篇綜述對DETR的最新進展提供了獨特的視角。我們希望這項研究能提高研究者在解決現有挑戰方面的興趣,以便在目標檢測領域應用Transformer模型。

付費5元查看完整內容

點云數據由于其緊湊的形式和在表示復雜3D結構方面的靈活性而得到了廣泛的研究。點云數據準確捕捉和表示復雜3D幾何形狀的能力使其成為計算機視覺、機器人技術和自動駕駛等廣泛應用的理想選擇,這些應用都需要了解底層空間結構。鑒于標注大規模點云數據的挑戰,近年來自監督點云表示學習越來越受到關注。這種方法旨在從未標記的數據中學習通用且有用的點云表示,從而避免了大量的手動標注。在本文中,我們對使用DNNs的自監督點云表示學習進行了全面調查。我們首先介紹研究動機和近期研究的一般趨勢。然后簡要介紹常用的數據集和評估指標。在此基礎上,我們深入探討了基于這些技術的自監督點云表示學習方法。最后,我們分享了一些關于自監督學習在預訓練3D點云方面可能面臨的挑戰和潛在問題的想法。

1. 引言

三維點云是一種緊湊而靈活的表示形式,提供了豐富的幾何、形狀和尺度信息。隨著3D采集技術的快速進步,用于捕獲點云的3D傳感器已經變得越來越容易獲得,包括各種類型的3D掃描儀,激光雷達和RGB-D相機[1],[2]。當與圖像結合時,這些3D點云數據可以幫助機器感知周圍環境,從而被廣泛應用于計算機視覺、機器人、自動駕駛、遙感和醫療[3]等與場景理解相關的應用中。

隨著深度神經網絡(DNN)的不斷發展,點云理解得到了越來越多的關注,導致了近年來許多深度架構和模型的發展。然而,深度網絡的有效訓練通常需要大規模的、人工標注的訓練數據,例如用于目標檢測的3D邊界框和用于語義分割的逐點標注。由于遮擋、形狀變化以及人類感知和點云顯示之間的視覺不一致等因素,收集這些注釋可能是費時費力的。因此,大規模標注點云的高效收集已成為深度神經網絡有效設計、評估和部署的瓶頸。

為了規避耗時且昂貴的數據標記過程,許多自監督方法被提出,以從大規模無標記點云中學習視覺特征,而不依賴任何人工生成的標簽。一種流行的方法涉及設計各種前置任務讓網絡來解決。通過優化前置任務的目標函數來訓練網絡,并在此過程中學習特征。各種前置任務已被提出用于自監督學習,包括點云重建、對比學習和多模態學習等。前置任務具有兩個共性:(1)深度神經網絡在求解前置任務時必須捕獲點云的視覺特征;(2)通過利用數據本身的結構,從數據本身(自監督)中產生監督信號。 為促進方法學的進步并進行全面的比較,本文回顧了3D預訓練的自監督學習(SSL)方法,并為比較和預測技術提供了一個統一的視角。對該問題的綜合方法突出了現有方法的差異和相似性,可能鼓舞人心的新解決方案。我們將本次調查的貢獻總結如下:

統一的框架和系統的分類。本文提出了一個統一的框架,基于該框架,將現有的工作分為兩大類:對象和室內層,以及室外層。構建了下游任務和SSL學習方案的分類,以提供對這一領域的全面理解。 全面和最新的綜述。本文對經典和前沿的3D預訓練SSL方法進行了全面和及時的調查。對于每種類型的方法,都提供了細粒度的分類、深入的比較和總結。據我們所知,本文對SSL進行了首次回顧,特別關注預訓練的3D點云數據。 展望未來方向。本文強調了當前研究的技術局限性,并為未來的工作提出了幾個有希望的途徑,從各種角度提供了見解,以激勵該領域的進一步發展。

本綜述的結構如下:第2節介紹了預訓練點云的自監督學習的背景知識、常用的數據集及其特點。第3節系統地回顧了在物體和室內場景級別預訓練點云的SSL方法,而第4節比較和總結了室外場景級別數據的方法。最后,第5節確定了自監督點云預訓練的幾個有希望的未來方向。

2 物體和室內場景級別的自監督學習(SSL)

物體級別的自監督學習(SSL)方法主要關注使用單個3D物體(如椅子、桌子、汽車等)預訓練模型,這些物體通常與語義標簽關聯,以提供有關其身份的上下文信息。這種類型的數據通常用于物體識別、檢測和分割等任務,旨在識別和定位更大場景中的單個物體。另一方面,室內場景級別的SSL方法專注于使用整個3D室內環境預訓練模型,這些環境通常包含多個物體及其空間布局。室內場景級別的數據通常與物體和建筑元素的語義標簽關聯,例如“墻”、“門”、“窗戶”和“地板”,或者根據功能標簽進行分類,例如“廚房”、“臥室”、“客廳”或“辦公室”。與物體級別的SSL方法相比,室內場景級別的SSL方法通常需要將輸入數據預先分割成語義區域或物體,以提供關于場景的上下文信息。

**2.1 基于重建的自監督學習 **基于重建的自監督學習方法采用重建任務,使網絡能夠學習更好的3D點云表示(見圖3)。根據預設任務的性質,它們可以大致分為兩個主要子類別:基于掩碼的和基于損壞的。還有一些方法不屬于這兩組,它們被歸類為“其他”方法。

2.2 基于對比學習的自監督學習

對比學習是一種流行的自監督學習方法。它通過輔助任務構建正樣本和負樣本,并訓練模型使正樣本對在嵌入空間中靠近,同時將正樣本與負樣本分開。與生成方法相比,對比學習不依賴于特定樣本的細節,而是依賴于在嵌入空間中區分正樣本和負樣本。這一特性使得模型更容易優化和更具泛化性。

3.3 基于空間的自監督學習

基于空間的自監督學習方法利用點云中固有的豐富幾何信息來開發預設任務。圖5展示了一些典型的幾何變換,如裁剪、剪裁、抖動、隨機丟棄、下采樣和歸一化。通過采用這些空間退化點云的恢復過程,可以有效地預訓練模型,利用數據中豐富的空間上下文。

2.4 基于時間的自監督學習

基于時間的自監督學習方法強調利用序列中或人工生成的變換中固有的時間信息。點云序列由連續的點云幀組成,類似于視頻數據。例如,從RGB-D視頻幀轉換的室內點云序列和由連續點云掃描組成的激光雷達序列數據。這些點云序列包含豐富的時間信息,可以通過為自監督學習設計預設任務并利用提取的數據作為監督信號來訓練網絡。所學習的表示可以有效地轉移到各種下游任務。

2.5 多模態自監督學習

多模態學習旨在利用不同模態之間的相關性,如圖像、文本和點云(圖7)。這些方法的優點包括能夠利用來自多個來源的互補信息,對任何一種模態中缺失或嘈雜數據的魯棒性,以及對新環境的改善泛化能力。

3 室外場景級別的自監督學習

室內級別和室外級別自監督學習之間的主要區別源于點云數據的復雜性和稀疏性。室內級別的自監督學習關注具有相對較少變化和較高點云密度的環境,如房間、建筑物或其他封閉空間。另一方面,室外級別的自監督學習處理更復雜和動態的環境,如街道、森林和城市景觀,其中點云通常更稀疏。與物體和室內場景級別數據相比,室外點云的稀疏性導致語義信息的稀缺,因為可能只有少數幾個點表示一個物體或類別。此外,由于各種未見過的類別,室外場景級別點云的感知通常被認為是一個開放集問題,使得任務更具挑戰性。 自動駕駛系統通常依賴于室外場景的LiDAR數據,這些數據稀疏且缺乏顏色信息[95]。雖然無標簽的LiDAR數據很容易獲得1,但有標簽的數據的生產成本很高。這為在自動駕駛中建立依賴大規模標記3D數據的感知模型提出了一個重大挑戰[97]。因此,最近的工作專注于利用對大量未標記3D數據的自監督學習,以提高自動駕駛中下游任務的性能。上述挑戰使得室外場景級點云的預訓練成為一項艱巨的任務。然而,一些基于預測和流的方法已經被開發出來以匹配室外場景級點云的內在特性。

3.1 基于重構的自監督學習

與物體和室內場景級別的數據類似,基于重構的自監督預訓練已成為室外場景級別數據的一個重要研究領域(如圖8所示)。然而,室外場景級別點云的稀疏性給3D重構帶來了挑戰。為了解決直接處理大規模點云所遇到的困難,基于體素的和鳥瞰視圖(BEV)的重構方法已成為解決這些挑戰的有效途徑。 **3.2 基于對比學習的自監督學習 **

與物體或室內場景級別點云相比,室外場景級別點云具有更大的尺寸、噪聲、稀疏性、復雜的天氣和光照條件。這些因素可能會影響基于對比學習的自監督預訓練方法的有效性。因此,在室外場景級別點云中應用基于對比學習的自監督學習需要根據室外場景的特點進行改進,以提高預訓練模型的性能和泛化能力。在本節中,我們主要關注室外場景級別點云的對比學習。 **3.3 多模態自監督學習 **

隨著距離的增加,由于激光束發散,點云的稀疏度會增加,這使得預測小型和遠離的物體的邊界和語義類別變得非常困難。結合多種傳感器,如激光雷達和攝像頭,可以提供互補信息,從而提高自動駕駛系統的整體魯棒性。使用攝像頭提供的高分辨率二維圖像,使系統能夠更好地處理那些僅通過激光雷達數據難以檢測和分類的小型和遠離的物體(如圖10所示)。然而,獲取和處理多模態數據以實現高質量數據融合是非常繁瑣的。盡管可以通常獲得更高的精度,但多模態探測器不可避免地要犧牲推理效率來處理額外的模態[113]。

**3.4 基于預測的自監督學習 **

點云預測有助于車輛提高其在路徑規劃和碰撞避免等任務中的決策能力。由于激光雷達掃描的后續幀中天然提供了地面真實情況,因此可以通過自監督學習進行訓練,無需昂貴的標注,使其成為自動駕駛應用的有前途的方法。基于距離圖像和視覺的預測方法已經被廣泛研究,用于從過去的一系列激光雷達掃描中預測未來的點云。[115]和[116]等方法利用RNN來建模時間相關性,而[117]、[118]、[119]和[120]等方法關注于估計體素化的點云。

**3.5 基于流的自監督學習 **

場景流指的是點云時間序列中每個3D點的相對運動。場景流估計是自動駕駛領域的一個重要主題,因為它通過幫助自動駕駛車輛感知周圍實體的動作來支持安全規劃和導航。

付費5元查看完整內容

Transformer一直被認為是NLP和CV中的主要神經架構,主要是在有監督的環境下。最近,在強化學習(RL)領域也出現了類似的使用transformer的熱潮,但它面臨著RL性質帶來的獨特設計選擇和挑戰。然而,transformer在強化學習中的發展還沒有被很好地解開。本文試圖系統地回顧在強化學習中使用transformer的動機和進展,對現有工作進行分類,討論每個子領域,并總結未來前景

//www.zhuanzhi.ai/paper/a72d26ab035255b1bfc3973fc6150e38

1. 概述

強化學習(RL)為序列決策提供了一種數學形式。利用強化學習,我們可以自動獲取智能行為。雖然強化學習為基于學習的控制提供了一個通用框架,但深度神經網絡的引入,作為一種高容量的函數逼近方式,正在推動在廣泛的領域取得重大進展[Silver et al., 2016; Vinyals et al., 2019; Ye et al., 2020a,b]。近年來,深度強化學習(deep reinforcement learning, DRL)在通用性方面取得了巨大的發展,但樣本效率問題阻礙了其在現實世界應用中的廣泛應用。為了解決這個問題,一種有效的機制是在DRL框架中引入歸納偏差。深度強化學習中一個重要的歸納偏差是函數逼近器架構的選擇,例如深度強化學習智能體的神經網絡參數化。然而,與監督學習(SL)中架構設計的努力相比,在深度強化學習中選擇架構設計的問題仍然較少被探索。大多數現有的強化學習架構工作是由(半)監督學習社區的成功所驅動的。例如,在深度強化學習中處理基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN) [LeCun et al., 1998; Mnih et al., 2015];處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN) [Hochreiter and Schmidhuber, 1997;Hausknecht和Stone, 2015]。

近年來,Transformer架構[Vaswani等人,2017]徹底改變了廣泛的SL任務的學習范式[Devlin等人,2018;Dosovitskiy等人,2020;Dong等人,2018],并展示了比CNN和RNN的優越性能。Transformer架構的顯著優點之一是能夠對長依賴關系進行建模,并具有出色的可擴展性[Khan et al., 2022]。受SL成功的啟發,人們對將transformer應用于強化學習的興趣激增,希望將transformer的好處帶到RL領域。在強化學習中使用transformer可以追溯到Zambaldi等人[2018b],其中自注意力機制用于結構化狀態表示的關系推理。之后,許多研究人員試圖將自注意力應用于表示學習,以提取實體之間的關系,以更好地進行策略學習[Vinyals et al., 2019; Baker et al., 2019]。除了利用transformer進行狀態表示學習外,之前的工作還使用transformer來捕獲多步時間依賴關系,以處理部分可觀測性問題[Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。最近,離線強化學習[Levine等人,2020]因其能夠利用離線大規模數據集而受到關注。在離線強化學習的激勵下,最近的努力表明,Transformer架構可以直接作為序列決策的模型[Chen等人,2021;Janner等人,2021]并將其推廣到多個任務和領域[Lee等人,2022;Carroll等人,2022]。

本綜述的目的是介紹強化學習中的transformer領域,稱為TransformRL。盡管Transformer目前在大多數SL研究中被認為是基礎模型[Devlin et al., 2018; Dosovitskiy et al., 2020],它在RL社區中仍然很少被探索。事實上,與SL域相比,在RL中使用transformer作為函數逼近器面臨著獨特的挑戰。首先,強化學習智能體的訓練數據通常是當前策略的函數,這在學習Transformer時引入了非平穩性。其次,現有的強化學習算法通常對訓練過程中的設計選擇高度敏感,包括網絡架構和容量[Henderson等人,2018]。第三,基于transformer的架構往往存在高計算和內存成本,使其在強化學習學習過程中的訓練和推理都很昂貴。例如,在視頻游戲人工智能的情況下,樣本生成的效率在很大程度上影響訓練性能,取決于強化學習策略網絡和價值網絡的計算成本[Ye et al., 2020a;Berner等人,2019]。本文試圖對TransformRL進行全面的概述,包括當前方法和挑戰的分類。我們還討論了未來的前景,相信TransformRL領域將在釋放強化學習的潛在影響方面發揮重要作用,本綜述可以為那些希望利用其潛力的人提供一個起點。

我們的論文結構如下。第2節介紹了RL和transformer的背景,然后簡要介紹了這兩者是如何結合在一起的。在第3節中,我們描述了強化學習中網絡架構的演變,以及阻止Transformer架構在強化學習中長期被廣泛探索的挑戰。在第4節中,提供了強化學習中transformer的分類,并討論了現有的代表性方法。最后,在第5節中總結并指出了未來的研究方向。 2. Transformers in RL

盡管Transformer已經成為大多數監督學習研究的基礎模型,但由于上述挑戰,它并沒有長期在強化學習社區中廣泛使用。實際上,大多數TransformRL的早期嘗試將transformer應用于狀態表示學習或提供記憶信息,同時仍將標準的強化學習算法應用于智能體學習,如時間差異學習和策略優化。因此,盡管引入transformer作為函數逼近器,但這些方法仍然受到傳統強化學習框架的挑戰。直到最近,離線強化學習才使得從大規模離線數據中學習最優策略成為可能。受離線強化學習的啟發,最近的工作進一步將強化學習問題視為固定經驗上的條件序列建模問題。通過這樣做,它有助于繞過傳統強化學習中bootstrapping error的挑戰,從而使Transformer架構釋放出強大的順序建模能力。回顧了TransformRL的進展,并提供了一個分類法來介紹當前的方法。將現有方法分為四類:表示學習、模型學習、順序決策和綜合智能體。圖2提供了一個分類法草圖,其中包含相應作品的子集。

用于表示學習的transformer考慮到強化學習任務的順序性,嘗試Transformer編碼器模塊是合理的。事實上,強化學習任務中的各種序列需要處理,例如本地每時間步長序列(多實體序列[Vinyals et al., 2019; Baker et al., 2019],多智能體序列[Wen等人,2022年]),時間序列(軌跡[Parisotto et al., 2020; Banino et al., 2021])等等。

用于模型學習的transformer

除了使用Transformer作為序列嵌入的編碼器外,Transformer架構還在一些基于模型的算法中充當環境模型的骨干。與以單步觀察和行動為條件的預測不同,Transformer使環境模型能夠以一定長度的歷史信息為條件來預測轉換。

用于序列決策的transformer

除了作為一個可插入到傳統RL算法組件中的表達性架構,Transformer本身可以作為一個直接進行順序決策的模型。這是因為強化學習可以被視為一個條件序列建模問題——生成可以產生高回報的行動序列。

多面手智能體的Transformer

鑒于決策Transformer已經在各種離線數據任務中展示了它的力量,一些工作轉向考慮Transformer是否可以使一個多面手智能體解決多個任務或問題,如在CV和NLP領域。

3. 總結

**本文簡要回顧了用于強化學習的transformer的進展。**本文對這些進展進行了分類:a) transformer可以作為強化學習的一個強大模塊,例如,作為表示模塊或世界模型;b) transformer可以作為順序決策者;c) transformer可以促進跨任務和領域的泛化。雖然我們介紹了這個主題的代表性工作,但在RL中使用transformer并不限于我們的討論。鑒于transformer在更廣泛的人工智能社區的繁榮,我們相信將transformer和RL結合是一個有希望的趨勢。最后,討論了這一方向的未來前景和開放問題。

**結合強化學習和(自)監督學習。**回顧TransformRL的發展,訓練方法包括強化學習和(自)監督學習。當作為在傳統強化學習框架下訓練的表示模塊時,Transformer架構的優化通常是不穩定的。當使用transformer通過序列建模解決決策問題時,由于(自)監督學習范式,"致命三元組問題" [Van Hasselt等人,2018]被消除。在(自)監督學習框架下,策略的性能與離線數據質量密切相關,利用和探索之間不再存在明確的權衡。因此,當我們在Transformer學習中結合強化學習和(自)監督學習時,可能會學到更好的策略。部分工作[Zheng et al., 2022; Meng et al., 2021]嘗試了有監督的預訓練和涉及強化學習的微調方案。然而,相對固定的策略可以限制探索[Nair等人,2020],這是有待解決的瓶頸之一。此外,用于性能評估的任務也相對簡單。transformer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用,值得進一步探索。此外,我們希望未來的工作提供更多的理論和經驗見解,以描述這種(自)監督學習在哪些條件下有望表現良好[Brandfonbrener et al., 2022]。

**用transformer橋接在線和離線學習。**進入離線強化學習是TransformRL的一個里程碑。在實際應用中,利用transformer獲取決策序列中的依賴關系并抽象策略,主要離不開大量離線數據的支持。然而,在實際應用中,一些決策任務脫離在線框架是不可實現的。一方面,在某些任務中獲取專家數據并不容易;另一方面,有些環境是開放式的(如《Minecraft》),這意味著策略必須不斷調整以處理在線交互過程中未見過的任務。因此,我們認為線上學習和線下學習的銜接是必要的。然而,大多數基于Decision Transformer的研究進展都集中在離線學習框架上。一些工作嘗試采用離線預訓練和在線微調的范式[Xie et al., 2022]。然而,與離線強化學習算法一樣,在線微調中的分布變化仍然存在,因此希望對Decision Transformer進行一些特殊設計來解決這個問題。此外,如何從頭開始訓練一個在線決策Transformer是一個有趣的開放問題。

**為決策問題量身定制的Transformer結構。**目前決策Transformer系列方法中的Transformer結構主要是vanilla Transformer,其最初是為文本序列設計的,可能不適合決策問題的性質。例如,是否適合對軌跡序列采用普通的自注意力機制?在位置嵌入中,是需要區分決策序列中的不同元素還是相同元素的不同部分?此外,由于在不同的Decision Transformer算法中將軌跡表示為序列的變體很多,如何從中選擇仍然缺乏系統的研究。例如,在行業中部署此類算法時,如何選擇可靠的后見之明信息?此外,普通Transformer是一種具有巨大計算成本的結構,這使得它在訓練和推理階段都很昂貴,并且內存占用很高,這限制了它捕獲的依賴項的長度。為了緩解這些問題,NLP中的一些工作[Zhou et al., 2021]從這些方面對結構進行了改進,相似結構是否可以用于決策問題也是值得探索的。

**轉向更多面手的Transformers智能體。**對面向多面手的transformer的綜述顯示了transformer作為一般政策的潛力(第4.4節)。事實上,transformer的設計允許使用類似的處理塊處理多種模態(如圖像、視頻、文本和語音),并對非常大容量的網絡和巨大的數據集表現出出色的可擴展性。最近的工作在訓練能夠執行多個和跨域任務的智能體方面取得了實質性的進展。然而,考慮到這些智能體是在大量數據上訓練的,仍然不確定它們是否只是記住了數據集,以及它們是否可以進行有效的泛化。因此,如何學習一個可以在沒有強假設的情況下泛化到未見任務的智能體是一個值得研究的問題[Boustati等人,2021]。此外,我們很想知道Transformer是否足夠強大,可以學習一個可以在不同任務和場景中使用的通用世界模型。

**Transformer的RL。**雖然我們已經討論了RL如何從Transformer的使用中受益,但相反的方向,即使用RL來受益于Transformer訓練是一個有趣的開放問題,但很少有人探索。我們看到,最近,來自人類反饋的強化學習(RLHF)[歐陽等人,2022]學習了一個獎勵模型,并使用RL算法微調Transformer,以使語言模型與人類意圖保持一致。未來,我們相信RL可以成為進一步提升Transformer在其他領域性能的有用工具。

付費5元查看完整內容

Transformers在自然語言處理和計算機視覺的許多任務中都取得了卓越的性能,這也引起了時間序列社區的極大興趣。在Transformer的眾多優點中,捕獲長期依賴關系和交互的能力對時間序列建模特別有吸引力,這使得各種時間序列應用取得了令人興奮的進展。在本文中,我們系統地回顧了用于時間序列建模的Transformer方案,通過一個新的分類,從兩個角度總結了現有的時間序列Transformer,突出了它們的優勢和局限性。從網絡改造的角度,總結了時間序列Transformers的模塊級適應性和體系結構級適應性。從應用的角度出發,我們根據預測、異常檢測和分類等常用任務對時間序列Transformer進行分類。根據經驗,我們執行穩健分析、模型規模分析和季節性趨勢分解分析,以研究《Transformers》在時間序列中的表現。最后,我們討論并提出未來的研究方向,以提供有用的研究指導。

由于Transformer在自然語言處理(NLP) [Kenton and Toutanova, 2019]、計算機視覺(CV) [Dosovitskiy et al., 2021]、語音處理[Dong et al., 2018]和其他學科[Chen et al., 2021b]方面的出色表現,其在深度學習方面的創新[Vaswani et al., 2017]最近引起了極大的興趣。在過去的幾年中,許多Transformer的變種被提出,以大大提高各種任務的最先進的性能。不同方面的文獻綜述較多,如NLP應用方面的文獻[Qiu et al., 2020;Han et al., 2021], CV applications [Han et al., 2020;Khan等人,2021年;Selva等人,2022年)、高效Transformer [Tay et al., 2020]和注意力模型[Chaudhari et al., 2021; Galassi et al., 2020]。

在時序數據的長距離依賴和交互中,transformer表現出了很強的建模能力,因此在時間序列建模中很有吸引力。由于時間序列數據和時間序列任務的特殊特性,許多Transformer的變體被提出以適應各種時間序列任務中的時間序列數據,如預測[Li et al., 2019; Zhou et al., 2021; Zhou et al., 2022],異常檢測[Xu et al., 2022; Tuli et al., 2022],分類[Zerveas et al., 2021; Yang et al., 2021],等等。例如,季節性或周期性是時間序列的一個重要特征[Wen等人,2021a],如何有效地建模長期和短期的時間相關性,并同時捕獲季節性仍然是一個挑戰[Wu et al., 2021; Zhou et al., 2022]。由于Transformer for time series是深度學習領域的一個新興領域,對Transformer for time series進行系統、全面的研究將對時間序列學界大有裨益。我們注意到,存在一些關于時間序列深度學習的綜述,包括預測[Lim和Zohren, 2021;Benidis等人,2020年;Torres et al., 2021],分類[Ismail Fawaz et al., 2019], anomaly detection [Choi et al., 2021; Blazquez-Garc ′ ′?a et al., 2021]和數據增強[Wen et al., 2021b],但很少或沒有對時間序列的Transformers 進行深入分析。

在本文中,我們旨在通過總結現有的時間序列Transformers來填補上述空白。具體來說,我們首先簡要介紹了普通的Transformer,然后從網絡修改和應用領域的角度提出了一種新的時間序列Transformer分類。對于網絡修改,我們考慮了針對時間序列數據優化的transformer的低層模塊調整和高層架構改進。在應用方面,我們總結和分析了用于流行時間序列任務的transformer,包括預測、異常檢測和分類。對于每個時間系列的《Transformers》,我們都分析了它的見解、優勢以及局限性。為了提供如何在時間序列中使用transformer的實用指南,我們進一步對時間序列transformer進行了一些實證研究,包括穩健性分析、模型規模分析和季節趨勢分解分析。最后,我們提出并討論未來可能的發展方向,包括時間序列Transformers的歸納偏差,時間序列Transformers和GNN,時間序列Transformers的預訓練,以及時間序列Transformers和NAS。據我們所知,本文是第一次全面系統地總結了Transformers在時間序列數據建模方面的最新進展。我們希望這個綜述將點燃對時間系列Transformers的進一步研究興趣。

//arxiv.org/abs/2202.07125

付費5元查看完整內容

視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法。結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系。對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效、精度更高的算法被相繼提出,其發展方向也會越來越好。

//fcst.ceaj.org/CN/abstract/abstract2872.shtml

付費5元查看完整內容

弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。

引言

目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。

為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。

在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。

在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:

  • 分析了WSOD的背景、主要挑戰和基本框架。此外,我們還詳細介紹了幾種主流方法。
  • 對于主要挑戰,我們分析了2016年以來幾乎所有的WSOD方法,并總結了許多技巧和訓練技巧(參見表V)。
  • 在WSOD任務中引入了當前流行的數據集和重要的評估指標。
  • 總結并討論了關于模型和應用方向未來進展的有價值的見解和指南。
付費5元查看完整內容

深度神經網絡(DNNs)在許多計算機視覺任務中是成功的。然而,最精確的DNN需要數以百萬計的參數和操作,這使得它們需要大量的能量、計算和內存。這就阻礙了大型DNN在計算資源有限的低功耗設備中的部署。最近的研究改進了DNN模型,在不顯著降低精度的前提下,降低了內存需求、能耗和操作次數。本文綜述了低功耗深度學習和計算機視覺在推理方面的研究進展,討論了壓縮和加速DNN模型的方法。這些技術可以分為四大類:(1)參數量化和剪枝;(2)壓縮卷積濾波器和矩陣分解;(3)網絡結構搜索;(4)知識提取。我們分析了每一類技術的準確性、優點、缺點和潛在的問題解決方案。我們還討論了新的評價指標,作為今后研究的指導。

付費5元查看完整內容
北京阿比特科技有限公司