亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

從單目圖像中估計人體的姿勢和形狀是計算機視覺領域中一個長期存在的問題。來自南京大學和清華大學的最新研究論文《從單目圖像中恢復三維人體網格》,提出了從而二維數據提升至三維網格過程中基于優化和基于回歸的兩種范式,第一次關注單目3D人體網格恢復任務的研究,并討論了有待解決的問題和未來的發展方向。

摘要

從單目圖像中估計人體的姿勢和形狀是計算機視覺領域中一個長期存在的問題。自統計學人體模型發布以來,三維人體網格恢復一直受到廣泛關注。為了獲得有序的、符合物理規律的網格數據而開發了兩種范式,以克服從二維到三維提升過程中的挑戰:i)基于優化的范式,利用不同的數據項和正則化項作為優化目標;ii)基于回歸的范式,采用深度學習技術以端到端的方式解決問題。同時,不斷提高各種數據集的3D網格標簽的質量。盡管在過去十年中,該研究取得了顯著的進展,但由于肢體動作靈活、外觀多樣、環境復雜以及人工注釋不足,這項任務仍然具有挑戰性。據調查,這是第一次關注單目3D人體網格恢復任務的研究。我們從介紹人體模型開始,通過深入分析其優缺點詳細闡述了恢復框架和訓練目標。我們還總結了數據集、評估指標和基準測試結果。最后討論了有待解決的問題和未來的發展方向,旨在激發研究人員的積極性,促進各位學者在這一領域的研究。定期更新的項目頁面可在 //github.com/tinatiansjz/hmr-survey 查看.

引言

從單目圖像中理解人類是計算機視覺的基本任務之一。在過去的20年里,業界一直致力于預測二維內容,如關鍵點[1]、[2]、[3]、輪廓[4]和RGB圖像的局部分割[5]。隨著這些進展,研究人員進一步尋求在3D空間中預測人類姿勢[6]、[7]、[8]、[9]、[10]、[11]、[12]。雖然簡單的動作可以通過2D內容或一些稀疏的3D關節相對清晰地表示出來,但復雜的人類行為需要更細致地描述人體細節。此外,因為我們使用表面皮膚與外界直接接觸而不是用未觀察到的關節,所以對身體的形狀、接觸面、手勢和表情進行推理也是至關重要的。

近年來,社區已經將他們的興趣轉向了人體的3D網格恢復[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21],以及富有表情的臉和生動細致的手[22]、[23]、[24]、[25]、[26]。這一趨勢與統計人體模型的成功密不可分。如圖1所示,自2015年發布SMPL模型[27]和2019年發布SMPL-X模型[22]以來,隨著它們的年度引用量逐年快速增長,它們獲得了越來越多的關注。人體網格的恢復在促進后續任務(如衣服人體重建[28]、[29]、[30]、動畫[31]、[32]和渲染[33])方面起著關鍵作用。它還涉及廣泛的應用,如VR/AR內容創建、虛擬試穿、計算機輔助指導等等,如圖2所示。

 圖 1 三種具有代表性的3D統計人體模型的年度引用,即SCAPE[34]、SMPL[27]和SMPL-X[22]。

 圖 2 人體網格恢復的現實應用:(a)一款健身視頻游戲(b) 虛擬試穿(c)3D+AI潛水教練系統(d)游泳過程中的動力學模擬

從單目圖像中恢復三維人體網格非常具有挑戰性,因為將二維觀測值提升到三維空間時存在固有的模糊性、柔性身體運動學結構、與環境的復雜性以及人工三維數據注釋不足等問題。為了解決這些問題,在該領域研究了兩種不同的范式,以恢復一致且物理上合理的結果。對于基于優化的范例[13]、[15]、[35],通過迭代的方式將身體模型顯式地應用于二維觀測。以各種數據項和正則化項為優化目標。對于基于回歸的范例[16]、[17]、[18]、[36]、[37]利用神經網絡強大的非線性映射能力,直接從原始圖像像素預測模型參數。設計了不同的網絡架構和回歸目標,以實現更好的性能。同時,為了促進這項任務的研究,還投入了大量精力創建各種數據集。盡管近年來取得了顯著進展,但在實現強健、準確和高效的人體網格恢復的最終目標面前,業界仍然面臨著挑戰。

本綜述主要關注深度學習時代的單目3D人體網格恢復方法(也稱3D人體姿勢和形狀估計)。將單個RGB圖像和單目RGB視頻(統稱為“單目圖像”)作為輸入。除了從單目圖像中恢復單人外,我們還考慮了多人恢復。對于重建目標,使用統計人體模型來估計衣服下的體型。RGBD和多視圖輸入有助于解決歧義,但它們不在本綜述的范圍內。我們只是忽略了服裝的造型,這是向照片現實主義邁進的一步。我們請讀者參考[38]中關于人類服裝重建的內容。我們也不涉及神經渲染方面的工作[33],[39],這些工作側重于外觀的建模,而不是幾何體。這項調查也是對現有調查論文的補充,主要關注2D/3D人體姿勢估計[40]、[41]、[42]。

其余部分組織如下。在第2節中,我們簡要介紹了人類模型的發展歷史,并提供了SMPL模型[27]的詳細信息,SMPL模型是人類推理中使用最廣泛的模板。第3節描述了用手和臉進行身體恢復和全身恢復的方法。方法分為基于優化的范式或基于回歸的范式。在第4節和第5節中,我們將整理出幫助處理視頻或多人恢復的新模塊。然而,如果我們僅僅用常規數據項監督人體,結果可能在物理上不合理,并且存在視覺缺陷。因此,在第6節中,我們討論了通過涉及真實攝像機模型、接觸約束和人類先驗來增強物理合理性的策略。第7節總結了常用的數據集和評估標準,以及基準排行榜。最后,我們在第8節中得出結論并指出一些有價值的未來方向。

人體網格恢復

自從統計身體模型發布以來,研究人員利用它們從單目圖像中估計形狀和姿勢。Balan等[82]率先從圖像中估計SCAPE[34]的參數。目前,學術界普遍采用SMPL[27]進行三維體型恢復。這要歸功于SMPL的開源特性和它周圍快速發展的社區:地面真相采集方法[13],[77],具有擴展SMPL注釋的數據集[35],[83],[84],[85],[86],以及里程碑作品[16],[37],[87]。在本節中,我們將根據預先定義的人體模型[22],[27],[34]來整理人體網格恢復的文章。身體捕捉身材和姿勢的變化,但不考慮衣服或頭發。因此,更準確地說,這些方法可以估計出穿著衣服或緊身衣時身體的形狀和姿勢。在圖4中,我們演示了一些有代表性的方法。我們根據它們采用的人體模型對它們進行分類。

圖 3最相關的參數化人體模型和3D人體網格恢復方法時間軸

圖 4基于回歸的人體網格恢復方法的流程。

回歸網絡中各種輸出類型和中間表示的說明。我們研究了四種輸出類型:(a)參數輸出;(b)網格頂點的三維坐標;(c)UV 位置圖;(d)在姿態和/或形狀參數上的概率分布。在多階段框架中采用的中間表示包括(a)輪廓;(b)分割;(c) 2D位姿熱圖;(d)二維關鍵點坐標;(e) IUV地圖;(d)三維關鍵點坐標,可作為簡化輸入或指導。

表 1 用于人體網格恢復的典型回歸方法總結

總結

在這篇論文告中,我們對過去十年中的3D人體網格恢復方法進行了全面概述。分類基于設計范式、重構粒度和應用場景。我們還特別考慮了物理合理性,包括相機模型、接觸約束和人類先驗。在實驗部分,我們介紹了相關的數據集、評估指標,并提供了性能比較,希望促進這一領域的進步。

參考文獻
  1. Z. Cao, G. Hidalgo, T. Simon, S.-E. Wei, and Y. Sheikh, “Openpose: Realtime multi-person 2d pose estimation using part affinity fields,” TPAMI, 2019.
  2. H.-S. Fang, S. Xie, Y.-W. Tai, and C. Lu, “Rmpe: Regional multiperson pose estimation,” in ICCV, 2017.
  3. S. Kreiss, L. Bertoni, and A. Alahi, “Openpifpaf: Composite fields for semantic keypoint detection and spatio-temporal association,” arXiv preprint arXiv:2103.02440, 2021.
付費5元查看完整內容

相關內容

悉尼大學最新《基于圖像的自動駕駛三維目標檢測研究進展》論文

基于圖像的三維目標檢測是自動駕駛技術中最基本、最具挑戰性的問題之一,近年來越來越受到業界和學術界的關注。得益于深度學習技術的快速發展,基于圖像的三維檢測已經取得了顯著的進展。特別是,從2015年到2021年,已有200多部著作對這個問題進行了研究,涵蓋了廣泛的理論、算法和應用。然而,到目前為止,還沒有最近的綜述來收集和組織這些知識。在本文中,我們填補了文獻中的這一空白,對這一新興且不斷發展的研究領域進行了首次全面的綜述,總結了基于圖像的三維檢測最常用的方法,并深入分析了它們的每個組成部分。此外,我們還提出了兩種新的分類法,將最先進的方法組織成不同的類別,目的是為現有方法提供一個更系統的回顧,并促進與未來工作的公平比較。回顧了目前所取得的成果,分析了當前該領域面臨的挑戰,并討論了基于圖像的三維檢測研究的未來方向。

//www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2

引言

自動駕駛有可能從根本上改變人們的生活,提高流動性,減少旅行時間、能源消耗和排放。因此,不出所料,在過去的十年里,研究和行業都在大力開發自動駕駛汽車。三維目標檢測作為自動駕駛的關鍵實現技術之一,受到了廣泛的關注。特別是最近,基于深度學習的3D目標檢測方法得到了廣泛的應用。

現有的三維目標檢測方法可以根據輸入數據是圖像還是激光雷達信號(一般表示為點云)大致分為兩類。與基于激光雷達的方法相比,僅從圖像中估計三維邊界框的方法面臨著更大的挑戰,因為從二維輸入數據中恢復三維信息是一個不適定問題。然而,盡管存在這種內在的困難,在過去的六年里,基于圖像的3D目標檢測方法在計算機視覺(CV)社區中得到了廣泛應用。在該領域的頂級會議和期刊上發表論文80余篇,在檢測精度和推理速度方面取得多項突破。

本文首次對基于深度學習技術的基于圖像的三維目標檢測技術的最新進展進行了全面、系統的綜述。特別地,本綜述總結了這一領域的以往研究工作,從開創性的方法[1],[2]到ICLR ' 2022發表的最新方法[3],[4]。該綜述回顧和分析了基于圖像的三維檢測模型的高層框架和每個必需組件的具體設計選擇(如特征提取、損失公式等)。此外,我們提出了兩種新的分類法來分類現有的方法,即根據它們采用的框架和使用的輸入數據。這樣做的目的是為了促進系統地分析目前的方法和對今后的工作進行公平的比較。

本工作的主要貢獻如下:

  1. 據我們所知,這是基于圖像的自動駕駛三維檢測方法的首次研究。本文綜述了80余種基于圖像的三維檢測器和200余項相關研究工作。
  2. 我們對問題的關鍵方面,包括數據集、評價指標、檢測流程和技術細節,提供了全面的回顧和深刻的分析。
  3. 我們提出了兩種最新的分類方法,目的是幫助讀者輕松地獲取這一新興的、正在發展的研究領域的知識。
  4. 我們總結了基于圖像的三維檢測的主要問題和未來的挑戰,并對未來工作提出了一些潛在的研究方向。

本文除了詳細介紹這些基于圖像的三維檢測器的技術細節外,還介紹了它們的分類、常用數據集、評價指標和潛在的挑戰/研究方向。此外,我們還提供了一個持續維護的項目頁面: 3dodi-survey

本文組織如下。第2節簡要介紹了基于圖像的三維檢測任務。第3節總結了常用的數據集和評價標準。第4節描述了常用框架。這三個部分是為初學者準備的,以便他們快速對基于圖像的三維檢測問題獲得一個很好的理解。在第5節中,我們比較了3D檢測器中通常需要的每個組件的細節,而第6節討論了常用的輔助輸入數據。這兩個部分可以幫助研究者在這個領域建立一個清晰,深入和更結構化的知識的主題。第7節介紹了本課題的一些討論,并在第8節中指出了未來可能的研究方向。這兩個部分為以后的作品提供了見解。最后,在第9節中得出結論。

任務

在給定RGB圖像和相機參數的條件下,基于圖像的三維目標檢測的目標是對感興趣的目標進行分類和定位。在3D世界空間中,每個對象都由其類別和邊界框表示。通常,三維包圍盒的參數化是相對于預定義的參考坐標系(例如記錄數據的自我車)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多數自動駕駛場景中,只考慮沿上軸方向的航向角θ(偏航角)。圖1在2D圖像平面和鳥瞰圖上顯示了示例結果。雖然一般問題的基于圖像的三維對象檢測可以表示如上所述,值得一提的是:i):除了類別和3D邊界框,需要額外的一些基準預測,如二維邊界框為KITTI數據集[5]和速度/屬性nuScenes數據集[6]。ii):雖然本任務最初只提供圖像和相機參數,但該領域普遍采用輔助數據(如立體對、CAD模型、LiDAR信號等)。

數據集

眾所周知,大規模數據集的可用性對數據驅動的深度學習技術的成功至關重要。對于自動駕駛場景下基于圖像的三維目標檢測,公開的數據集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的數據集,極大地促進了3D檢測的發展。在下面的文章中,我們將根據數據集的大小、多樣性和其他數據提供有關這些基準測試的主要信息。

方法

我們將現有的基于圖像的三維檢測器分為兩類: (1)基于二維特征的方法。這些方法首先從二維特征中估計出圖像平面中物體的二維位置(以及方向、深度等項),然后將二維檢測提升到三維空間中。基于此,這些方法也可以稱為“基于結果提升的方法”。此外,由于這些方法通常與二維檢測模型具有相似的結構,因此可以按照二維檢測中常用的分類方法(即基于區域的方法和單次射擊的方法)進一步進行分類。(ii) 基于三維特征的方法。這些方法基于三維特征對目標進行預測,從而可以在三維空間中直接定位目標。此外,根據如何獲取三維特征,這些方法可以進一步分為“基于特征提升的方法”和“基于數據提升的方法”。顧名思義,前者通過提升二維特征獲得三維特征,后者直接從二維圖像傳輸的三維數據中提取三維特征。根據前面提到的分類法,我們在圖2中突出顯示了具有關鍵基準的重要方法。

由于基于圖像的三維檢測沒有具體的分類方法,以往的工作一般采用經典的二維檢測分類方法,將三維檢測器分為基于區域的方法和單鏡頭的方法。我們提出的分類方法更適合于基于圖像的三維檢測,因為: (i) 我們的分類方法基于特征表示對現有的方法進行分組,從而幫助讀者快速構建結構化的知識。(ii)我們的分類表明了檢測器如何對齊2D輸入數據和3D結果之間的維度不匹配(即結果提升、特征提升或數據提升),這是這項任務的核心問題。(3)我們的分類法可以清晰地定義現有的方法,而以往的分類法不能。例如,基于偽LiDAR的方法(將在4.3.2節中介紹)可以采用任何基于LiDAR的探測器,包括基于區域的方法和單次樣本的方法。因此,很難將這些方法劃分給任何一方。

未來挑戰

基于圖像的三維目標檢測是一個相對較新的領域。性能得到了迅速的提高和不斷的提高,但仍有許多局限性和方向需要進一步分析和探索。在本節中,我們重點介紹了一些最相關的問題,希望為有影響力的未來工作提供相關線索。

深度估計

基于圖像的三維目標檢測方法的性能在很大程度上依賴于目標精確距離的估計能力。因此,分析和提高三維目標探測器的深度估計能力是未來的一個相關方向。最近的許多研究,如[20],[49],[75],[92],[95],[25],試圖解決這個問題,提出了回歸目標和損失公式的替代定義,并表明仍有很大的改進空間。

不止監督學習

創建3D檢測數據集是一個非常昂貴和耗時的操作。它通常涉及不同技術(如激光雷達、GPS、相機)之間的協同作用,以及大量的勞動力。注釋過程的要求很高,即使存在許多質量檢查,它也不可避免地受到錯誤的影響。因此,可以看到,幾乎所有的三維物體檢測方法都是完全監督的,即需要訓練三維包圍盒標注。相反,在其他相關領域,完全的監督要求已被放寬,如深度估計[56],[183]或基于lidar的3D檢測[184],[185],[186],[187],很少有人致力于探索半監督或自監督方法[178],[188],[4]。在這方面,值得強調的是[178]中的方法,該方法引入了一個可微分的渲染模塊,可以利用輸入的RGB圖像作為唯一的監控源。此外,鑒于在通用場景(如NeRF[189])和真實對象(如[190],[191])上可區分渲染領域的最新進展,我們相信這個特定的方向非常有價值,并有可能放松3D框注釋的要求。

多模態

如第7節所述,圖像數據和LiDAR數據都有各自的優勢,一些方法,如[31],[89],[32],[162],[163],最近已經開始將這兩種類型的數據整合到一個模型中。然而,這一領域的研究仍處于起步階段。此外,還可以考慮其他數據形態,進一步提高算法的準確性和魯棒性。例如,與激光雷達相比,雷達設備具有更長的傳感距離,可以用來提高對遙遠物體的精度。此外,在一些極端天氣條件下,如雨天和大霧天氣,雷達更加穩定。然而,雖然在一些數據集[6],[192],[193]中已經提供了雷達同步數據,但研究如何使用的方法卻很少[193],[194],[195]。另一個例子是來自熱相機的數據[196],這為解決不利的照明條件,提高探測精度提供了新的機會。綜上所述,理想的檢測算法應該集成多種數據,覆蓋異構和極端條件。

時間序列

在現實世界中,人類駕駛員依靠連續的視覺感知來獲取周圍環境的信息。然而,該領域的大部分工作都是從單幀的角度來解決三維檢測問題,這顯然是次優的,最近只有一項工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經證明了在許多任務中使用視頻數據的有效性,包括二維檢測[197]、[198]、深度估計[199]、[200]、分割[201]、[202],以及基于LiDAR的三維檢測[203]、[204]、[205]。這些相關領域的成功證明了視頻數據在三維探測任務中的潛力,通過引入時間數據和構建時空空間新約束可以實現新的突破。

泛化性

泛化對自動駕駛汽車的安全性起著重要的作用。在這方面,不幸的是,眾所周知,基于圖像的3D對象檢測方法在測試看不見的數據集、對象或具有挑戰性的天氣條件時,性能會有相當大的下降。

本文綜述了基于圖像的自動駕駛三維檢測技術的最新進展。我們看到,從2015年到2021年,已經有很多關于這個話題的論文發表。為了對這些方法進行系統的總結,我們首先對現有的方法進行了分類。然后,對這些算法進行了詳細的比較,討論了三維檢測中各個必要的組成部分,如特征提取、損耗計算、后處理等。我們還討論了輔助數據在這一領域的應用,支持有必要進行系統的總結,如本次調查和更好的協議,以便在未來的工作中進行公平比較。最后,我們描述了這一領域中一些開放的挑戰和潛在的方向,可能在未來幾年激發新的研究。

付費5元查看完整內容

近年來隨著計算機視覺領域的不斷發展,三維場景的語義分割和形狀補全受到學術界和工業界的廣泛關注.其中,語義場景補全是這一領域的新興研究,該研究以同時預測三維場景的空間布局和語義標簽為目標,在近幾年得到快速發展.本文對近些年該領域提出的基于RGB-D圖像的方法進行了分類和總結.根據有無使用深度學習將語義場景補全方法劃分為傳統方法和基于深度學習的方法兩大類.其中,對于基于深度學習的方法,根據輸入數據類型將其劃分為基于單一深度圖像的方法和基于彩色圖像聯合深度圖像的方法.在對已有方法分類和概述的基礎上,本文對語義場景補全任務所使用的相關數據集進行了整理,并分析了現有方法的實驗結果.最后,本文總結了該領域面臨的挑戰和發展前景.

付費5元查看完整內容

由于信息和錯誤信息在現代媒體生態系統中的傳播速度,事實核查變得越來越重要。因此,研究人員一直在探索如何實現事實核查的自動化,使用基于自然語言處理、機器學習、知識表示和數據庫的技術來自動預測聲明的準確性。在本文中,我們對自然語言處理產生的自動事實檢查進行了綜述,并討論了它與相關任務和學科的聯系。在這個過程中,我們概述了現有的數據集和模型,旨在統一各種定義,并確定共同的概念。最后,我們強調了未來研究的挑戰。

//www.zhuanzhi.ai/paper/c9ad2ec91cd86cc9c8598a6917ecd942

事實核查是評估書面或口頭聲明是否屬實的任務。這是新聞業的一項基本任務,通常由PolitiFact等專門組織手工完成。報紙、雜志、書籍的出版商在出版前,除了進行外部事實核查外,還進行內部事實核查,以促進報道的真實性。圖1顯示了來自PolitiFact的一個示例,以及證據(總結)和結論。

事實核查是一項耗時的任務。為了評估圖1中的說法,記者需要搜索潛在的許多來源,以找到在特朗普和奧巴馬執政期間的就業增長情況,評估每個來源的可靠性,并進行比較。這個過程可能需要專業的事實核查員幾個小時或幾天(Hassan et al., 2015;Adair等人,2017)。更糟糕的是,事實核查員經常在嚴格和緊迫的期限下工作,特別是在內部流程的情況下(Borel, 2016;戈德勒和賴克,2017),一些研究表明,在所有發表的文章中,只有不到一半的文章經過了驗證(Lewis et al., 2008)。考慮到出現的新信息的數量和傳播速度,手工驗證是不夠的。

自動化事實核查過程已經在計算新聞的背景下進行了討論(Flew et al., 2010; Cohen et al., 2011; Graves, 2018),并在人工智能領域得到了極大的關注。Vlachos和Riedel(2014)提出將其構建為一個組件序列——識別需要檢查的聲明,找到合適的證據,得出結論——可以建模為自然語言處理(NLP)任務。這推動了自動化管道的開發,這些自動化管道由子任務組成,可以映射到NLP社區中充分探索的任務。數據集的發展使進展成為可能,這些數據集包括從事實核查網站收集的聲明,如Liar(王,2017),或專門為研究而設計的聲明,如FEVER(Thorne et al., 2018a)。

越來越多的研究機構正在探索事實核查自動化所必需的各種任務和子任務,并滿足應對新出現挑戰的新方法的需要。早期的發展在Thorne和Vlachos(2018)進行了調研,這仍然是最接近該主題的詳盡概述。然而,他們提出的框架不包括確定哪些聲明要求需要驗證的工作(即聲明檢測)的幾篇論文調研了這項任務的各個組成部分。ZZubiaga et al. (2018) 和 Islam et al. (2020)關注識別謠言在社交媒體上,Kucuk(2020)和Hardalov et al。(2021)檢測的立場對聲明證據,Kotonya和托尼(2020)為factchecks生產解釋和理由。雖然這些調研對了解事實核查技術的各個方面非常有用,但它們是碎片化的,并集中于具體的子任務和組件;我們的目標是提供一個全面和詳盡的主題作為一個整體。

一些論文對相關課題進行了調查。Lazer et al. (2018) 和 Zhou 和 Zafarani (2020) 調研了假新聞方面的工作,包括對這個問題的描述性工作,以及試圖通過計算手段打擊假新聞的工作。Oshikawa等人(2020)也對用于假新聞檢測的NLP方法進行了全面綜述。然而,假新聞檢測與事實核查的范圍不同,前者側重于評估新聞文章,包括基于與真實性無關的方面的標簽項目,如諷刺檢測(Oshikawa et al., 2020; Zhou 和 Zafarani, 2020)。此外,還經常考慮其他因素,如索賠要求所觸及的受眾,以及索賠要求的意圖和形式。Da San Martino等人(2020b)最近進行的一項調研顯示,這些因素在宣傳檢測中也很重要。與這些努力不同,本綜述中討論的工作集中于評估一般領域聲明的準確性。最后,Shu et al.(2017)和da Silva et al.(2019)以社交媒體數據為重點,對假新聞檢測和事實核查的研究進行了調研,而這項調研涵蓋了跨領域和來源的事實核查,包括新聞通訊社、科學等。

在這個綜述中,我們提出了一個全面和最新的調研自動化事實核查,統一了各種組成部分和定義,在以前的研究發展成一個共同的框架。首先,我們定義了事實核查框架的三個階段——聲明檢測、證據檢索和聲明驗證,后者包括判決預測和理由生成。然后,我們給出現有數據集和建模策略的概述,根據我們的框架對它們進行分類和上下文化。最后,我們討論了已經解決的關鍵研究挑戰,并給出了我們認為未來研究應該解決的挑戰的方向。我們伴隨調研而來的是一個資料庫,它提供資源和研究進展的及時更新。

付費5元查看完整內容

人體姿態估計的目的是通過圖像、視頻等輸入數據定位人體部位,構建人體表征(如人體骨架)。在過去的十年中,它受到了越來越多的關注,并被廣泛應用于人機交互、運動分析、增強現實和虛擬現實等領域。盡管最近開發的基于深度學習的解決方案在人體姿態估計方面取得了很高的性能,但由于訓練數據不足、深度模糊和遮擋,仍然存在挑戰。本綜述論文的目的是通過對基于輸入數據和推理的解決方案進行系統的分析和比較,對最近基于深度學習的二維和三維姿態估計解決方案進行全面的回顧。這項綜述涵蓋了自2014年以來的240多篇研究論文。此外,還包括了二維和三維人體姿態估計數據集和評估指標。本文總結和討論了現有方法在流行數據集上的定量性能比較。最后,對所涉及的挑戰、應用和未來的研究方向進行了總結。

//www.zhuanzhi.ai/paper/7459265d2fbd81f9b91bf0f7b461bcc7

付費5元查看完整內容

生成對抗網絡(GANs)在過去的幾年里得到了廣泛的研究。可以說,它們最重要的影響是在計算機視覺領域,在這一領域中,圖像生成、圖像-圖像轉換、面部屬性處理和類似領域的挑戰取得了巨大進展。盡管迄今為止已經取得了重大的成功,但將GAN應用于現實世界的問題仍然面臨著重大的挑戰,我們在這里重點關注其中的三個。這是: (1)生成高質量的圖像; (2) 圖像生成的多樣性; (3) 穩定的訓練。我們將重點關注目前流行的GAN技術在應對這些挑戰方面取得的進展程度,并對已發表文獻中GAN相關研究的現狀進行了詳細回顧。我們進一步通過一個分類結構,我們已經采用了基于GAN體系架構和損失函數的變化。雖然到目前為止已經提交了幾篇關于GANs的綜述,但沒有一篇是基于它們在解決與計算機視覺相關的實際挑戰方面的進展來考慮這一領域的現狀。因此,為了應對這些挑戰,我們回顧并批判性地討論了最流行的架構變體和損失變體GANs。我們的目標是在重要的計算機視覺應用需求的相關進展方面,對GAN的研究現狀進行概述和批判性分析。在此過程中,我們還將討論GANs在計算機視覺方面最引人注目的應用,并對未來的研究方向提出一些建議。本研究中所研究的GAN變體相關代碼在

//github.com/sheqi/GAN_Review上進行了總結。

地址:

生成對抗網絡(GANs)在深度學習社區[1]-[6]吸引了越來越多的興趣。GANs已應用于計算機視覺[7]-[14]、自然語言處理[15]-[18]、時間序列合成[19]-[23]、語義分割[24]-[28]等多個領域。GANs屬于機器學習中的生成模型家族。與其他生成模型(如變分自編碼器)相比,GANs提供了一些優勢,如能夠處理清晰的估計密度函數,有效地生成所需樣本,消除確定性偏差,并與內部神經結構[29]具有良好的兼容性。這些特性使GANs獲得了巨大的成功,特別是在計算機視覺領域,如可信圖像生成[30]-[34],圖像到圖像轉換[2],[35]-[41],圖像超分辨率[26],[42]-[45]和圖像補全[46]-[50]。

然而,GANs并非沒有問題。最重要的兩點是,它們很難訓練,也很難評估。由于訓練難度大,在訓練過程中判別器和生成器很難達到納什均衡,生成器不能很好地學習數據集的完整分布是常見的問題。這就是眾所周知的模式崩潰問題。在[51]-[54]這一領域進行了大量的研究工作。在評估方面,首要問題是如何最好地衡量目標pr的真實分布與生成的分布pg之間的差異。不幸的是,不可能準確地估算pr。因此,對pr和pg之間的對應關系進行良好的估計是很有挑戰性的。以往的研究提出了各種對GANs[55] -的評價指標[63]。第一個方面直接關系到GANs的性能,如圖像質量、圖像多樣性和穩定訓練。在這項工作中,我們將研究計算機視覺領域中處理這方面的現有GAN變體,而對第二方面感興趣的讀者可以參考[55][63]。

目前許多GAN研究可以從以下兩個目標來考慮:(1)改進訓練,(2)將GAN應用于現實應用。前者尋求提高GANs性能,因此是后者(即應用)的基礎。考慮到許多已發表的關于GAN訓練改進的結果,我們在本文中對這方面最重要的GAN變體進行了簡要的回顧。GAN訓練過程的改進提供了好處表現如下: (1)改進生成的圖像的多樣性(也稱為模式多樣性) ,(2)增加生成的圖像質量,和 (3) 包含更多 :(1) 介紹相關GAN綜述工作和說明的區別這些評論和這項工作; (2)簡要介紹GANs;(3)回顧文獻中關于“GAN”的架構變體;(4)我們回顧文獻中損失變體的GAN;(5)介紹了GAN在計算機視覺領域的一些應用; (6)引入了GAN的評價指標,并利用部分指標(Inception Score和Frechet Inception Distance, FID)對本文討論的GAN變量進行了比較;(7)我們總結了本研究中的GANs變體,說明了它們的差異和關系,并討論了關于GANs未來研究的幾種途徑。(8)我們總結了這篇綜述,并展望了GANs領域可能的未來研究工作。

文獻中提出了許多GAN變體來提高性能。這些可以分為兩種類型:(1)架構變體。第一個提出的GAN使用完全連接的神經網絡[1],因此特定類型的架構可能有利于特定的應用,例如,用于圖像的卷積神經網絡(CNNs)和用于時間序列數據的循環神經網絡(RNNs);和(2)Loss-variants。這里探討了損失函數(1)的不同變化,以使G的學習更加穩定。

圖2說明了我們對2014年至2020年文獻中具有代表性GANs提出的分類法。我們將目前的GAN分為兩種主要變體,即架構變體和損失變體。在體系架構變體中,我們分別總結了網絡體系結構、潛在空間和應用三大類。網絡架構范疇是指對GAN架構的整體改進或修改,例如PROGAN中部署的漸進機制。潛在空間類別表示基于潛在空間的不同表示方式對架構進行修改,例如CGAN涉及到編碼到生成器和識別器的標簽信息。最后一類,應用,指的是根據不同的應用所做的修改,例如,CycleGAN有特定的架構來處理圖像風格的轉換。根據損失的變化,我們將其分為兩類:損失類型和正則化。損失類型是指GANs需要優化的不同損失函數,正則化是指對損失函數設計的額外懲罰或對網絡進行任何類型的歸一化操作。具體來說,我們將損失函數分為基于積分概率度量和非積分概率度量。在基于IPM的GAN中,鑒別器被限制為一類特定的函數[64],例如,WGAN中的鑒別器被限制為1-Lipschitz。基于非IPM的GAN中的鑒別器沒有這樣的約束。

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容

摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。

付費5元查看完整內容
北京阿比特科技有限公司