人體解析旨在將圖像或視頻中的人體分割成多個像素級的語義部分。在過去的十年中,它在計算機視覺社區中獲得了極大的興趣,并在廣泛的實際應用中得到了應用,從安全監控到社交媒體,再到視覺特效,這只是其中的一小部分。盡管基于深度學習的人工解析方案已經取得了顯著的成就,但許多重要的概念、存在的挑戰和潛在的研究方向仍然令人困惑。全面回顧了單人體解析、多人體解析和視頻人體解析這3個核心子任務,介紹了它們各自的任務設置、背景概念、相關問題和應用、代表性文獻和數據集。還在基準數據集上對所審查的方法進行了定量的性能比較。此外,為了促進社區的可持續發展,提出了基于Transformer的人體解析框架,通過通用、簡潔和可擴展的解決方案,為后續研究提供了高性能的基線。最后,指出了該領域一些未被充分研究的開放問題,并提出了未來研究的新方向。我們還提供定期更新的項目頁面,以持續跟蹤這個快速發展的領域的最新發展://github.com/soeaver/awesome-human-parsing。
1. 引言
人體解析[1]-[5]是以人類為中心的視覺理解[6]的基礎任務,旨在對圖像或視頻中的人體部位和服裝配飾進行像素級分類。人體解析在安防監控、自動駕駛、社交媒體、電子商務、視覺特效、藝術創作等廣泛應用領域發揮著重要作用,已經開展了大量的研究,催生了各種優秀的人體解析解決方案和應用。早在本世紀初,就有研究試圖在非常有限的情況下識別上半身服裝[10]的水平、服裝[11]的語法表征以及人體輪廓[12]的變形。這些早期研究促進了像素級人體部位和服裝識別的研究,即人體解析任務。隨后,利用傳統的機器學習和計算機視覺技術,如結構化模型[1]、[13]、[14]、聚類算法[15]、語法模型[16]、[17]、條件隨機場[18]-[20]、模板匹配[21]、[22]和超像素[23]-[25]等,解決了人體句法分析問題。隨后,深度學習和卷積神經網絡[26]-[32]的繁榮進一步推動了人體解析的蓬勃發展。注意力機制[33]-[36]、尺度感知特征[37]-[40]、樹形結構[3]、[41]、圖結構[4]、[42]、[43]、邊緣感知學習[44]-[46]、姿態感知學習[2]、[47]、[48]等技術[49]-[52]大大提高了人體解析的性能。然而,目前存在的一些挑戰和研究不足使得人體解析仍然是一項值得進一步探索的任務。
隨著人體解析的快速發展,出現了大量的文獻綜述。然而,現有的研究并不精確和深入:一些研究僅從宏觀的時尚/社交媒體角度對人體解析進行了膚淺的介紹[53],[54],或者僅從微觀的人臉解析角度對人體解析的子任務[55]進行了回顧。此外,由于分類的模糊性和方法的多樣性,全面和深入的研究是非常必要的。本文提供了第一篇綜述,系統地介紹了背景概念、最新進展,并對人體解析進行了展望。本綜述從一個全面的角度回顧了人體解析,不僅包括單個人體解析(圖1 (a)),還包括多個人體解析(圖1 (b))和視頻人體解析(圖1 (c))。在技術層面,對近10年基于深度學習的人體分析方法和數據集進行綜述。為了提供必要的背景,還介紹了非深度學習等領域的相關文獻。在實踐層面,對各種方法的優缺點進行了比較,并給出了詳細的性能比較。在總結和分析現有工作的基礎上,展望了人體解析的未來機遇,并提出了一個新的基于transformer的基線,以促進社區的可持續發展。人工解析方法和數據集以及提出的基于transformer的基線列表可以在
圖2顯示了這個綜述的大綱。§2簡要介紹了問題的形成和挑戰(§2.1)、人體分析的分類(§2.2)、相關任務(§2.3)和人體分析的應用(§2.4)。§3詳細回顧了具有代表性的基于深度學習的人體分析研究。常用的數據集和性能比較見§4和§5。在§6中提出了對人體分析未來機會的展望,包括一個新的基于transformer的基線(§6.1),幾個未被研究的開放問題(§6.2)和未來研究的新方向(§6.3)。結論將在§7中得出。2. 基于深度學習的人體解析方法現有的人體解析可分為單人體解析、多人體解析和視頻人體解析3個子任務,分別關注部件關系建模、人體實例判別和時間對應學習。根據這種分類法,我們對具有代表性的作品(圖3下半部分)進行了梳理,并在下文進行了詳細的回顧。**
單人體解析(SHP)模型
SHP考慮通過部件關系建模來提取人體特征。根據建模策略,SHP模型可分為3類:上下文學習、結構化表示和多任務學習。此外,考慮到一些特殊但有趣的方法,我們將其作為“其他建模模型”進行綜述。表1總結了審查過的SHP模型的特點。
多人體解析(MHP)模型MHP尋求在圖像平面上定位和解析每個人體。任務設置類似于實例分割,因此也稱為實例級人工解析。根據其識別人類實例的管道,將MHP分為三種范式:自下而上、單階段自上而下和兩階段自上而下。表3列出了所審查的MHP模型的基本特征。
視頻人體解析(Video humanparsing, VHP)模型現有的VHP研究主要集中在通過親和力矩陣將第一幀傳播到整個視頻中,親和力矩陣表示從原始視頻數據中學習到的時間對應關系。考慮到無監督學習范式,可以將其分為三類:周期跟蹤、重構學習和對比學習。我們在表5中總結了所審查的VHP模型的基本特征。
1、周志華教授:關于深度學習的一點思考
作者:周志華
摘要:深度學習已被廣泛應用到涉及圖像、視頻、語音等的諸多任務中并取得巨大成功。如 果我們問“深度學習是什么?”很可能會得到這樣的回答:“深度學習就是深度神經網 絡”。至少在目前,當“深度學習”作為一個術語時幾乎就是“深度神經網絡”的同義詞, 而當它指向一個技術領域時則如 SIAM News 頭版文章所稱[1],是“機器學習中使用深度 神經網絡的子領域”。關于深度學習有很多問題還不清楚。例如深度神經網絡為什么要“深”?它成功背 后的關鍵因素是什么?深度學習只能是深度神經網絡嗎?本文將分享一些我們關于深度 學習的粗淺思考。
網址: //mp.weixin.qq.com/s/yKzMxJ2pwwLYSO8ry0sJIQ
2、Attention Mechanisms in Computer Vision: A Survey(注意力機制)
清華&南開最新「視覺注意力機制Attention」綜述論文,帶你全面了解六大類注意力機制方法
作者: Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu
摘要:人類可以自然有效地在復雜的場景中找到顯著區域。在這種觀察的推動下,注意力機制被引入到計算機視覺中,目的是模仿人類視覺系統的這方面。這種注意力機制可以看作是一個基于輸入圖像特征的動態權值調整過程。注意力機制在圖像分類、目標檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態任務和自監督學習等視覺任務中取得了巨大的成功。本文綜述了計算機視覺中的各種注意力機制,并對其進行了分類,如通道注意力、空間注意力、時間注意力和分支注意力; 相關的存儲庫
網址:
3、Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges(幾何深度學習)
重磅!《幾何深度學習》新書發布,帝國理工/DeepMind等圖ML大牛共同撰寫,160頁pdf闡述幾何DL基礎原理和統一框架
幾何深度學習是一種從對稱性和不變性的角度對大量ML問題進行幾何統一的嘗試。這些原理不僅奠定了卷積神經網絡的突破性性能和最近成功的圖神經網絡的基礎,而且也提供了一種原則性的方法來構建新型的問題特定的歸納偏差。
在本文中,我們做了一個適度的嘗試,將Erlangen項目的思維模式應用到深度學習領域,最終目標是獲得該領域的系統化和“連接點”。我們將這種幾何化嘗試稱為“幾何深度學習”,并忠實于Felix Klein的精神,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。特別地,我們將重點放在一類用于分析非結構集、網格、圖和流形的神經網絡上,并表明它們可以被統一地理解為對應這些域的結構和對稱性的方法。
我們相信這篇文章將吸引深度學習研究人員、實踐者和愛好者的廣泛受眾。新手可以用它來概述和介紹幾何深度學習。經驗豐富的深度學習專家可能會發現從基本原理推導熟悉架構的新方法,也許還會發現一些令人驚訝的聯系。實踐者可以獲得如何解決各自領域問題的新見解。
網址:
4、A Survey of Transformers(Transformer綜述論文)
復旦大學邱錫鵬教授等「Transformers全面綜述」論文
作者:Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu
摘要:Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer,然后提出了一個x-former的新分類。接下來,我們將從三個方面介紹不同的x -former架構修改,預訓練和應用。最后,展望了未來的研究方向。
網址:
5、Model Complexity of Deep Learning: A Survey(深度學習模型復雜性)
裴健等發布首篇「深度學習模型復雜性」綜述論文,44頁pdf闡述深度學習模型框架、模型規模、優化過程和數據復雜性
作者:Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian
摘要:
模型復雜性是深度學習的一個基本問題。
本文對深度學習中模型復雜性的最新研究進行了系統的綜述。深度學習的模型復雜度可分為表達能力和有效模型復雜度。
從模型框架、模型規模、優化過程和數據復雜性四個方面回顧了現有的研究成果。我們還討論了深度學習模型復雜性的應用,包括理解模型泛化能力、模型優化、模型選擇和設計。
最后,我們提出幾個有趣的未來方向。
網址:
6、Towards Out-Of-Distribution Generalization: A Survey(分布外泛化)
清華大學崔鵬等最新「分布外泛化(Out-Of-Distribution Generalization)」 綜述論文
作者:Zheyan Shen,Jiashuo Liu,Yue He,Xingxuan Zhang,Renzhe Xu,Han Yu,Peng Cui
摘要: 經典的機器學習方法是建立在i.i.d.假設的基礎上的,即訓練和測試數據是獨立同分布的。然而,在真實場景中,i.i.d.假設很難得到滿足,導致經典機器學習算法在分布移位下的性能急劇下降,這表明研究非分布泛化問題的重要性。Out-of-Distribution分布外 (OOD)泛化問題解決了測試分布未知且與訓練不同的挑戰性設置。本文首次系統、全面地探討了OOD泛化問題,從定義、方法、評價到啟示和未來發展方向。首先,給出了OOD泛化問題的形式化定義。其次,根據現有方法在整個學習流程中的位置,將其分為無監督表示學習、有監督模型學習與優化三部分,并詳細討論了每一類的典型方法。然后,我們展示了不同類別的理論聯系,并介紹了常用的數據集和評價指標。最后,對全文文獻進行了總結,并對OOD泛化問題提出了未來的研究方向。本次綜述OOD泛化文獻可在
網址:
7、Deep Long-Tailed Learning: A Survey(深度長尾學習)
NUS顏水成等發布首篇《深度長尾學習》綜述,20頁pdf172篇文獻闡述長尾類別深度學習進展
作者:Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng
摘要:深度長尾學習是視覺識別中最具挑戰性的問題之一,其目標是從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。在過去的十年中,深度學習已經成為一種學習高質量圖像表示的強大的識別模型,并導致了一般視覺識別的顯著突破。然而,長尾類不平衡是實際視覺識別任務中普遍存在的問題,這種不平衡往往限制了基于深度網絡的識別模型在實際應用中的實用性,因為長尾類容易偏向主導類,在尾類上的表現較差。為了解決這一問題,近年來人們進行了大量的研究,在深度長尾學習領域取得了可喜的進展。鑒于該領域的快速發展,本文對深度長尾學習的最新進展進行了綜述。具體地說,我們將已有的深度長尾學習研究分為三類(即類重平衡、信息增強和模塊改進),并根據這三類對這些方法進行了詳細的回顧。之后,我們通過一種新提出的評價指標,即相對準確性,來評估它們在多大程度上解決了階級失衡問題,從而對幾種最先進的方法進行了實證分析。最后,我們強調了深度長尾學習的重要應用,并確定了未來研究的幾個有前景的方向。
網址:
8、Trustworthy AI: From Principles to Practices(可信人工智能)
京東等學者發布《可信賴人工智能》綜述論文,62頁pdf449篇文獻全面闡述可信賴AI的理論與方法
作者:Bo Li,Peng Qi,Bo Liu,Shuai Di,Jingen Liu,Jiquan Pei,Jinfeng Yi,Bowen Zhou
摘要: 人工智能(AI)技術的發展使各種應用系統得以應用于現實世界,影響著人們的日常生活。然而,目前很多人工智能系統被發現容易受到無形的攻擊,對弱勢群體存在偏見,缺乏對用戶隱私的保護等,這不僅降低了用戶體驗,也侵蝕了社會對所有人工智能系統的信任。在這篇綜述中,我們努力為人工智能從業者提供一個全面的指南,以構建可信賴的人工智能系統。我們首先介紹了人工智能可信度的重要方面的理論框架,包括穩健性、泛化性、可解釋性、透明度、再現性、公平性、隱私保護、與人類價值觀的一致性和問責性。然后我們調研了行業中在這些方面的領先方法。為了統一目前零散的人工智能方法,我們提出了一種系統的方法,考慮人工智能系統的整個生命周期,從數據采集到模型開發,到開發和部署,最后到持續監測和治理。在這個框架中,我們向從業者和社會利益相關者(如研究人員和監管機構)提供具體的行動項目,以提高人工智能的可信度。最后,我們確定可信賴的人工智能系統未來發展的關鍵機遇和挑戰,我們確定需要向全面可信賴的人工智能系統轉變范式。
網址:
9、Masked Autoencoders Are Scalable Vision Learners(簡單實用的自監督學習掩碼自編碼MAE)
何愷明最新一作論文:簡單實用的自監督學習掩碼自編碼MAE,ImageNet-1K 87.8%!
作者:Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollár,Ross Girshick
摘要:
何愷明提出一種用于計算機視覺的可擴展自監督學習方案Masked AutoEncoders(MAE)。所提MAE極為簡單:對輸入圖像進行塊隨機mask并對遺失像素進行重建。它基于以下兩個核心設計:
我們設計了一種非對稱編解碼架構,其中編碼器僅作用于可見塊(無需mask信息),而解碼器則通過隱表達與mask信息進行原始圖像重建;
我們發現對輸入圖像進行高比例mask(比如75%)可以產生一項重要且有意義的自監督任務。
上述兩種設計促使我們可以更高效的訓練大模型:我們加速訓練達3x甚至更多,同時提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能:僅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度 。下游任務的遷移取得了優于監督訓練的性能,證實了所提方案的可擴展能力。 網址:
10、徐宗本院士談人工智能的10個重大數理基礎問題
徐宗本院士:人工智能的10個重大數理基礎問題
作為新一代信息技術的代表,人工智能已經廣泛應用于科學、社會、經濟、管理的方方面面,已經和正在成為創新驅動發展的核心驅動力之一。然而,就其技術發展而言,人工智能還只是突破了從“不可用” 到“可以用”的技術拐點,從“可以用”到“很好用” “用得好”還存在諸多技術瓶頸,正呼喚重大技術變革。
技術變革的先導是理論創新,即基礎研究。它是指對事物本質和規律的科學化探尋和揭示,是啟發、促動技術變革的激發源和理論依據。理論創新既應包括對原有理論體系或框架的新突破、對原有理論 和方法的新修正和新發展,也包括對理論禁區和未知領域的新探索。
本文主要關注人工智能技術發展當前亟待解決的重大數理基礎問題。為什么要特別關注 AI 的數理基礎問題呢?這是因為當前人工智能技術和發展主要是靠“算例、算法、算力”所驅動的,其基礎是數據,其核心是算法,這二者都深刻地以數學為基礎。數學主要提供對所研究問題的形式化手段、模型化工具和科學化語言。沒有形式化就沒有程式化和計算機化,沒有模型化就沒有定量化和知識化,沒有科學化就沒有系統化和現代化。所以,數學在科學技術中具有獨特的作用和價值。對人工智能而言,數學不僅僅是工具,還是技術內涵本身, 而且常常也是最能體現本質、原始創新的部分。
本文提出并闡述人工智能研究與應用中凾待解決的10個重大數理基礎問題,包括:
(1) 大數據的統計學基礎; (2) 大數據計算的基礎算法; (3) 數據空間的結構與特性; (4) 深度學習的數學機理; (5) 非正規約束下的最優輸運; (6) 如何學習學習方法論; (7) 如何突破機器學習的先驗假設; (8) 機器學習的自動化; (9) 知識推理與數據學習的融合; (10) 智能尋優與人工智能芯片問題.
摘要
深度學習(Deep Learning, DL)是當前計算機視覺領域應用最廣泛的工具。它精確解決復雜問題的能力被用于視覺研究,以學習各種任務的深度神經模型,包括安全關鍵應用。然而,現在我們知道,DL很容易受到對抗性攻擊,這些攻擊可以通過在圖像和視頻中引入視覺上難以察覺的擾動來操縱它的預測。自2013年~[1]發現這一現象以來,引起了機器智能多個子領域研究人員的極大關注。在[2]中,我們回顧了計算機視覺社區在深度學習的對抗性攻擊(及其防御)方面所做的貢獻,直到2018年到來。這些貢獻中有許多啟發了這一領域的新方向,自見證了第一代方法以來,這一領域已顯著成熟。因此,作為[2]的后續成果,本文獻綜述主要關注自2018年以來該領域的進展。為了確保文章的真實性,我們主要考慮計算機視覺和機器學習研究的權威文獻。除了全面的文獻綜述外,本文還為非專家提供了該領域技術術語的簡明定義。最后,本文在文獻綜述和[2]的基礎上,討論了該方向面臨的挑戰和未來的展望。
//www.zhuanzhi.ai/paper/884c8b91ceec8cdcd9d3d0cc7bd2cf85
引言
深度學習(DL)[3]是一種數據驅動技術,可以在大數據集上精確建模復雜的數學函數。它最近為科學家在機器智能應用方面提供了許多突破。從DNA[4]的突變分析到腦回路[5]的重建和細胞數據[6]的探索; 目前,深度學習方法正在推進我們對許多前沿科學問題的知識。因此,機器智能的多個當代子領域迅速采用這種技術作為“工具”來解決長期存在的問題也就不足為奇了。隨著語音識別[7]和自然語言處理[8],計算機視覺是目前嚴重依賴深度學習的子領域之一。
計算機視覺中深度學習的興起是由Krizhevsky等人在2012年的開創性工作觸發的,他們報告了使用卷積神經網絡(CNN)[11]在硬圖像識別任務[10]上的記錄性能改善。自[9]以來,計算機視覺社區對深度學習研究做出了重大貢獻,這導致了越來越強大的神經網絡[12]、[13]、[14],可以在其架構中處理大量層——建立了“深度”學習的本質。計算機視覺領域的進步也使深度學習能夠解決人工智能(AI)的復雜問題。例如,現代人工智能的一個最高成就,即tabula-rasa learning[15],很大程度上要歸功于源于計算機視覺領域的殘差學習[12]。
由于深度學習[15]的(明顯)超人類能力,基于計算機視覺的人工智能被認為已經達到部署在安全和安保關鍵系統所需的成熟度。汽車自動駕駛[18],ATM的面部識別[19]和移動設備的面部識別技術[20]都是一些早期的真實世界的例子,描繪了現代社會對計算機視覺解決方案的發展信念。隨著高度活躍的基于深度學習的視覺研究,自動駕駛汽車[21],人臉識別[22],[23],機器人[24]和監控系統[25]等,我們可以預見,深度學習在關鍵安全計算機視覺應用中的無處不在。然而,由于深度學習[1]的對抗漏洞的意外發現,人們對這種前景產生了嚴重的擔憂。
Szegedy等人[1]發現,深度神經網絡預測可以在極低量級輸入擾動下被操縱。對于圖像而言,這些擾動可以限制在人類視覺系統的不可感知范圍內,但它們可以完全改變深度視覺模型的輸出預測(見圖1)。最初,這些操縱信號是在圖像分類任務[1]中發現的。然而,它們的存在現在已被公認為各種主流計算機視覺問題,如語義分割[27],[28];目標檢測[29],[30];目標跟蹤[31],[32]。文獻強調了對抗式干擾的許多特征,這使它們對作為實用技術的深度學習構成了真正的威脅。例如,可以反復觀察到,受攻擊的模型通常對操縱圖像[2],[17]的錯誤預測具有很高的置信度。同樣的微擾常常可以欺騙多個模型[33],[34]。文獻也見證了預先計算的擾動,稱為普遍擾動,可以添加到“任何”圖像,以高概率[35],[36]欺騙給定模型。這些事實對關鍵安全應用有著深遠的影響,特別是當人們普遍認為深度學習解決方案具有超越人類能力[15],[37]的預測能力時。
由于其重要性,對抗性攻擊(及其防御)的話題在過去五年中受到了研究團體的相當大的關注。在[2]中,我們調研了這個方向的貢獻,直到2018年到來。這些工作中的大多數可以被視為第一代技術,探索核心算法和技術,以欺騙深度學習或防御它的對抗性攻擊。其中一些算法激發了后續方法的靈感,進一步改進和適應核心攻擊和防御技術。這些第二代方法也被發現更多地關注其他視覺任務,而不僅僅是分類問題,這是這一方向早期貢獻的主要興趣主題。
自2018年以來,該研究方向的論文發表數量不斷增加(見圖2-a,b)。當然,這些出版物也包括文獻綜述的實例,如[38],[39],[40],[41],[42]。我們在這里提供的文獻綜述在許多方面不同于現有的綜述。這篇文章的獨特之處在于它是2的繼承。隨后的調研,如[41],通常緊跟[2];或者針對特定問題在[2]上建立[42]。近年來,這一方向在計算機視覺領域已經顯著成熟。通過構建[2]和后續文獻的見解,我們能夠為這一快速發展的研究方向提供更精確的技術術語定義。這也導致了本文所回顧的文獻的更連貫的結構,為此我們提供了基于研究團體當前對術語的理解的簡明討論。此外,我們關注出現在著名的計算機視覺和機器學習研究出版刊物的論文。專注于領先的貢獻使我們能夠為計算機視覺和機器學習研究人員提供一個更清晰的方向展望。更不用說,本文回顧了這個快速發展領域的最新貢獻,以提供迄今為止在這個方向上最全面的回顧。
本文的其余部分組織如下。在第二節中,我們提供了本文其余部分中使用的技術術語的定義。在第三節中,我們闡述了對抗性攻擊這一更廣泛的問題。第一代攻擊將在第四節中討論,接下來是第五節中關注分類問題的最近的攻擊。我們在第六節中關注分類問題之外的最近的攻擊,在第七節中關注針對物理世界的量身定制的攻擊。更多側重于存在對抗性例子的理論方面的貢獻將在第九節中討論。最近的防御方法是第十部分的主題。文章對第十一部分的文獻趨勢進行了反思,并對這一研究方向的前景和未來方向進行了討論。最后,我們在第十二節結束。
摘要: 隨著互聯網上多媒體數據的爆炸式增長,單一模態的檢索已經無法滿足用戶需求,跨模態檢索應運而生。跨模態檢索旨在以一種模態的數據去檢索另一種模態的相關數據,其核心任務是數據特征提取和不同模態間數據的相關性度量。文中梳理了跨模態檢索領域近期的研究進展,從傳統方法、深度學習方法、手工特征的哈希編碼方法以及深度學習的哈希編碼方法等角度歸納論述了跨模態檢索領域的研究成果。在此基礎上,對比分析了各類算法在跨模態檢索常用標準數據集上的性能。最后,分析了跨模態檢索研究存在的問題,并對該領域未來發展趨勢以及應用進行了展望。
摘要
視頻分割,即將視頻幀分割成多個片段或對象,在電影的視覺效果輔助、自動駕駛中的場景理解、視頻會議中的虛擬背景創建等廣泛的實際應用中起著至關重要的作用。最近,由于計算機視覺中的連接主義的復興,出現了大量基于深度學習的方法,這些方法致力于視頻分割,并提供了引人注目的性能。本文通過對視頻中未知類別的一般目標分割和視頻語義分割這兩項研究的任務設置、背景概念、感知需求、發展歷史和主要挑戰的介紹,全面回顧了這兩項研究的基本方向。我們還提供了一個詳細的概述的代表性文獻的方法和數據集。此外,我們在基準數據集上提出了評測方法的量化性能比較。最后,指出了該領域尚未解決的問題,并提出了進一步研究的機會。
引言
視頻分割是機器視覺中一個基本的、具有挑戰性的問題,它是識別視頻場景中具有特定特征屬性或語義值的目標集。由于其在廣泛應用領域(如自動駕駛、機器人技術、自動監控、社交媒體、增強現實、電影產業、視頻會議等)中的重要作用,它長期以來一直受到計算機視覺和圖形界的廣泛關注和積極研究。
視頻分割在過去已經被用來解決各種傳統的計算機視覺和機器學習技術,包括手工特征(例如,顏色,直方圖統計,光流等),啟發式先驗知識(例如,視覺注意力機制[1],運動邊界[2]等),低/中級視覺表示(例如,超級體素[3]、軌跡[4]、對象proposal [5]等),以及經典的機器學習模型(如聚類算法[6]、圖模型[7]、隨機漫步[8]、支持向量機[9]、隨機決策森林[10]、馬爾可夫隨機場[11]、條件隨機場[12]等)。近年來,隨著深度神經網絡的蓬勃發展,特別是全卷積網絡(FCN)[13]的發展,視頻分割取得了顯著的進展。這些基于深度學習的視頻分割算法在準確性和有時甚至效率方面大大超過了其他老方法,并繼續提高技術水平。
隨著這一領域的快速發展,出現了大量的新文獻。然而,現有的綜述大多是過時的(發表在現代深度學習時代之前)[14]、[15],而且往往視野狹窄,即只關注前/背景視頻分割[16]、[17]。該領域的不斷變化和技術發展的快節奏給啟動帶來了困難。因此,由于視頻分割設置的多樣性和概念的模糊性,進行全面深入的綜述是非常困難和費時的,但非常有必要和幫助。
為此,我們首先系統地介紹了視頻分割的最新進展,從任務制定到分類,從算法到數據集,從尚未解決的問題到未來的研究方向。它涵蓋了幾個關鍵方面,包括任務類別(前景/背景分離vs語義分割),處理模式(即自動、半自動和交互式),學習范式(即監督、無監督和弱監督),以及澄清混淆的術語(如背景減法、運動分割,等等)。我們希望這項綜述可以為感興趣的研究者提供一個全面的回顧,并促進對提出的開放問題的研究。
本文主要研究了視頻分割的兩個主要分支,即視頻對象分割(圖1(a-e))和視頻語義分割(圖1(f-h))的最新進展,并進一步劃分為八個子領域。雖然我們將重點局限于基于深度學習的視頻分割解決方案,但在這個快速發展的領域仍有數百篇論文發表,因此不太可能(幸運的是,也沒有必要)對它們全部進行調研。相反,我們選擇在著名期刊和會議上發表的有影響力的論文。因此,我們將引入一些非深度學習的視頻分割模型和其他領域的相關文獻,如視頻對象檢測和視覺跟蹤,以提供必要的背景。
本文的研究進展如下。§2給出了分類學、術語、研究歷史和相關研究領域的簡要背景。§3和§4分別回顧了深度學習算法和視頻分割數據集方面的代表性工作。§5進行性能評估和分析。此外,§6指出了一系列開放式問題和方向。最后,在§7中給出了結論。
時尚是我們向世界展示自己的方式,已經成為世界上最大的產業之一。時尚主要通過視覺來傳達,因此近年來受到了計算機視覺研究者的廣泛關注。鑒于智能時尚的快速發展,本文對200多部主要時尚相關工作進行了全面的綜述,涵蓋了實現智能時尚的四個主要方面: (1)時尚檢測包括地標檢測、時尚解析、時尚條目檢索等。(2)時尚分析包含屬性識別、風格學習和流行度預測,(3)時尚合成包括風格轉換、姿勢變換、物理模擬等,(4)時尚推薦包括時尚搭配、服裝搭配、發型建議。針對每個任務,總結了基準數據集和評估協議。展望了未來的研究方向。
導論
時尚是我們向世界展示自己的方式。我們的著裝和化妝方式定義了我們獨特的風格,并將我們與他人區分開來。時尚在現代社會已經成為了我這個人不可或缺的一部分。不出所料,僅全球服裝市場就已超過3萬億美元,占世界國內生產總值的近2%。具體來說,到2020年,時尚領域的收入將超過7180億美元,預計每年增長8.4%。
隨著計算機視覺與人工智能(AI)的革命正在進行,人工智能開始沖擊寬宏大量的時尚領域,從電子零售到個性化設計師,再到服裝設計流程,各種應用創新正在重塑我們的時尚生活。在本文中,我們將計算機視覺驅動的時尚技術稱為智能時尚。從技術上講,智能時尚是一項具有挑戰性的任務,因為與一般對象不同,時尚項目在風格和設計上存在顯著差異,最重要的是,可計算的低級特性和它們所編碼的高級語義概念之間存在著長期存在的語義鴻溝。
之前很少有工作[120,165]與時尚綜述相關。2014年,Liu等[120]提出了一項以人臉美容和服裝分析為重點的智能時尚分析的初步文獻調查,介紹了2006-2013年發表的代表著作。然而,由于計算機視覺的快速發展,智能時尚的領域遠遠不止這兩個領域,如風格遷移、物理模仿、時尚預測。有很多相關的工作需要更新。2018年,Song and Mei[165]介紹了多媒體時尚研究的進展,將時尚任務分為三個方面: 低級像素計算、中級時尚理解和高級時尚分析。低像素計算的目的是在圖像上生成像素級標簽,如人體分割、地標檢測和人體姿態估計。中級時尚理解旨在識別時尚形象,如時尚物品和時尚風格。高級時尚分析包括時尚推薦、時尚綜合、時尚趨勢預測。然而,目前還缺乏一個系統、全面的綜述來描繪智能時尚的全貌,從而總結和分類最先進的方法,討論數據集和評價指標,并為未來的研究方向提供見解。
目前關于智能時尚的研究課題不僅包括檢測以圖像形式呈現的時尚物品,還包括對其進行分析,綜合創意新產品,最后給出個性化的建議。因此,在本文中,我們將相應的研究主題組織起來,分類如圖1所示,包括時尚圖像檢測、分析、合成和推薦。此外,我們還概述了智能時尚在時尚領域的主要應用,展示了智能時尚在時尚行業的力量。總的來說,我們工作的貢獻可以總結如下:
我們提供時尚領域的最新研究進展的全面綜述,并將時尚研究主題分為四個主要類別:檢測、分析、合成和推薦。
對于智能時尚研究中的每個類別,我們提供了一個深入和有組織的回顧,其中最重要的方法及其貢獻。同時, 我們總結基準數據集以及相應的門戶網站的鏈接。
我們為不同的問題收集評估指標,并對不同的方法進行性能比較。
我們列出了可能的未來方向,這將有助于即將到來的進步,并激勵研究社區。
本綜述的組織部分如下。第二節回顧了時尚檢測任務,包括地標檢測、時尚解析和條目檢索。第3節說明了包含屬性識別、風格學習和流行度預測的時裝分析工作。第4節提供了時裝合成任務的概述,包括風格轉換、人體姿勢轉換和物理紋理模擬。第五節介紹時尚推薦作品,包括時尚搭配、服裝搭配、發型建議。此外,第6節展示了選定的應用和未來的工作。最后但并非最不重要的是,結束語在第7節給出。
【導讀】2020注定是寫入到歷史的一年,新冠變成主題詞。在2019年機器學習領域繼續快速發展,深度學習理論、對比學習、自監督學習、元學習、持續學習、小樣本學習等取得很多進展。在此,專知小編整理這一年這些研究熱點主題的綜述進展,共十篇,了解當下,方能向前。
1、Recent advances in deep learning theory(深度學習理論)
陶大程院士等最新《深度學習理論進展》綜述論文,41頁pdf255篇文獻闡述六大方面進展
作者:Fengxiang He,Dacheng Tao
摘要:深度學習通常被描述為一個實驗驅動的領域,并不斷受到缺乏理論基礎的批評。這個問題已經部分地被大量的文獻解決了,這些文獻至今沒有被很好地組織起來。本文對深度學習理論的最新進展進行了綜述和整理。文獻可分為六類: (1)基于模型復雜度和容量的深度學習泛化; (2)用于建模隨機梯度下降及其變量的隨機微分方程及其動力學系統,其特征是深度學習的優化和泛化,部分受到貝葉斯推理啟發; (3)驅動動力系統軌跡的損失的幾何結構; (4)深度神經網絡的過參數化從積極和消極兩個方面的作用; (5)網絡架構中幾種特殊結構的理論基礎; (6)對倫理和安全及其與泛化性的關系的日益關注。
網址: //www.zhuanzhi.ai/paper/b5ac0f259b59817b890b6c253123ee84
2、Learning from Very Few Samples: A Survey(少樣本學習)
清華大學張長水等最新《少樣本學習FSL》2020綜述論文,30頁pdf414篇參考文獻
作者:Jiang Lu,Pinghua Gong,Jieping Ye,Changshui Zhang
摘要:少樣本學習(FSL)在機器學習領域具有重要意義和挑戰性。成功地從很少的樣本中學習和歸納的能力是區分人工智能和人類智能的一個明顯的界限,因為人類可以很容易地從一個或幾個例子中建立他們對新穎性的認知,而機器學習算法通常需要數百或數千個監督樣本來保證泛化能力。盡管FSL的悠久歷史可以追溯到21世紀初,近年來隨著深度學習技術的蓬勃發展也引起了廣泛關注,但迄今為止,有關FSL的調研或評論還很少。在此背景下,我們廣泛回顧了2000年至2019年FSL的200多篇論文,為FSL提供了及時而全面的調研。在本綜述中,我們回顧了FSL的發展歷史和目前的進展,原則上將FSL方法分為基于生成模型和基于判別模型的兩大類,并特別強調了基于元學習的FSL方法。我們還總結了FSL中最近出現的幾個擴展主題,并回顧了這些主題的最新進展。此外,我們重點介紹了FSL在計算機視覺、自然語言處理、音頻和語音、強化學習和機器人、數據分析等領域的重要應用。最后,我們對調查進行了總結,并對未來的發展趨勢進行了討論,希望對后續研究提供指導和見解。
網址:
3、A Survey on Knowledge Graphs: Representation, Acquisition and Applications(知識圖譜研究綜述論文)
最新!知識圖譜研究綜述論文: 表示學習、知識獲取與應用,25頁pdf詳述Knowledge Graphs技術趨勢
作者:Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu
摘要:人類知識提供了對世界的認知理解。表征實體間結構關系的知識圖譜已經成為認知和人類智能研究的一個日益流行的方向。在本次綜述論文中,我們對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。知識圖譜嵌入從表示空間、得分函數、編碼模型和輔助信息四個方面進行組織。對知識獲取,特別是知識圖譜的補全、嵌入方法、路徑推理和邏輯規則推理進行了綜述。我們進一步探討了幾個新興的主題,包括元關系學習、常識推理和時序知識圖譜。為了方便未來對知識圖的研究,我們還提供了不同任務的數據集和開源庫的集合。最后,我們對幾個有前景的研究方向進行了深入的展望。
網址:
4、A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications(生成式對抗網絡綜述論文)
密歇根大學28頁最新《GANs生成式對抗網絡綜述:算法、理論與應用》最新論文,帶你全面了解GAN技術趨勢
作者:Jie Gui,Zhenan Sun,Yonggang Wen,Dacheng Tao,Jieping Ye
摘要:生成對抗網絡(GANs)是最近的熱門研究主題。自2014年以來,人們對GAN進行了廣泛的研究,并且提出了許多算法。但是,很少有全面的研究來解釋不同GANs變體之間的聯系以及它們是如何演變的。在本文中,我們嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。首先,詳細介紹了大多數GANs算法的動機,數學表示形式和結構。此外,GANs已與其他機器學習算法結合用于特定應用,例如半監督學習,遷移學習和強化學習。本文比較了這些GANs方法的共性和差異。其次,研究了與GANs相關的理論問題。第三,說明了GANs在圖像處理和計算機視覺,自然語言處理,音樂,語音和音頻,醫學領域以及數據科學中的典型應用。最后,指出了GANs未來的開放性研究問題。
網址:
5、A Survey on Causal Inference(因果推斷綜述論文)
最新「因果推斷Causal Inference」綜述論文38頁pdf,阿里巴巴、Buffalo、Georgia、Virginia
作者:Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang
摘要:數十年來,因果推理是一個跨統計、計算機科學、教育、公共政策和經濟學等多個領域的重要研究課題。目前,與隨機對照試驗相比,利用觀測數據進行因果關系估計已經成為一個有吸引力的研究方向,因為有大量的可用數據和較低的預算要求。隨著機器學習領域的迅速發展,各種針對觀測數據的因果關系估計方法層出不窮。在這項綜述中,我們提供了一個全面的綜述因果推理方法下的潛在結果框架,一個眾所周知的因果推理框架。這些方法根據是否需要潛在結果框架的所有三個假設分為兩類。對于每一類,分別對傳統的統計方法和最近的機器學習增強方法進行了討論和比較。并介紹了這些方法的合理應用,包括在廣告、推薦、醫藥等方面的應用。此外,還總結了常用的基準數據集和開放源代碼,便于研究者和實踐者探索、評價和應用因果推理方法。
網址:
6、Pre-trained Models for Natural Language Processing: A Survey(預訓練語言模型)
【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻
作者:Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
摘要:近年來,預訓練模型(PTMs)的出現將自然語言處理(NLP)帶入了一個新的時代。在這項綜述中,我們提供了一個全面的PTMs調研。首先簡要介紹了語言表示學習及其研究進展。然后,我們根據四種觀點對現有的PTMs進行了系統的分類。接下來,我們將描述如何將PTMs的知識應用于下游任務。最后,我們概述了未來PTMs研究的一些潛在方向。本調查旨在為理解、使用和開發各種NLP任務的PTMs提供實際指導。
網址:
7、A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources(異質圖網絡嵌入)
異質圖嵌入綜述: 方法、技術、應用和資源, 23頁pdf
作者:Xiao Wang, Deyu Bo, Chuan Shi, Shaohua Fan, Yanfang Ye, Philip S. Yu
摘要:
異質圖(Heterogeneous Graph, HG)也稱為異質信息網絡(Heterogeneous Information Network, HIN),在現實世界中已經無處不在。異質圖嵌入(Heterogeneous Graph Embedding, HGE),旨在在低維的空間中學習節點表示,同時保留異質結構和語義用于下游任務(例如,節點/圖分類,節點聚類,鏈接預測),在近年來受到了廣泛的關注。在綜述中,我們對異質圖嵌入的方法和技術的最新進展進行了全面回顧,探索了異質圖嵌入的問題和挑戰,并預測了該領域的未來研究方向。
該論文的主要貢獻如下:
討論了與同質圖相比,異質圖的異質性帶來的獨特挑戰 。該論文對現有的異質圖嵌入方法進行了全面的調研,并基于它們在學習過程中使用的信息進行分類,以解決異質性帶來的特定的挑戰。 對于每類代表性的異質圖嵌入方法和技術,提供詳細的介紹并進一步分析了其優缺點。此外,該論文首次探索了異質圖嵌入方法在現實工業環境中的可轉換性和適用性。 總結了開源代碼和基準數據集,并對現有的圖學習平臺進行了詳細介紹,以促進該領域的未來研究和應用。 探討異質圖嵌入的其他問題和挑戰,并預測該領域的未來研究方向。
網址:
8、Graph Neural Networks: Taxonomy, Advances and Trends(圖神經網絡)
太原理工最新《圖神經網絡:分類,進展,趨勢》綜述論文,50頁pdf400篇文獻
作者:Yu Zhou,Haixia Zheng,Xin Huang
摘要:圖神經網絡為根據特定任務將真實世界的圖嵌入低維空間提供了一個強大的工具包。到目前為止,已經有一些關于這個主題的綜述。然而,它們往往側重于不同的角度,使讀者看不到圖神經網絡的全貌。本論文旨在克服這一局限性,并對圖神經網絡進行了全面的綜述。首先,我們提出了一種新的圖神經網絡分類方法,然后參考了近400篇相關文獻,全面展示了圖神經網絡的全貌。它們都被分類到相應的類別中。為了推動圖神經網絡進入一個新的階段,我們總結了未來的四個研究方向,以克服所面臨的挑戰。希望有越來越多的學者能夠理解和開發圖神經網絡,并將其應用到自己的研究領域。
網址:
9、Efficient Transformers: A Survey(高效Transformer)
【Google】最新《高效Transformers》綜述大全,Efficient Transformers: A Survey
作者:Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
摘要:Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。
圖片
網址:
10、Self-supervised Learning: Generative or Contrastive(自監督學習)
作者:Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, Jie Tang
摘要:深度監督學習在過去的十年中取得了巨大的成功。然而,它依賴于手工標簽的缺陷和易受攻擊的弱點促使人們探索更好的解決方案。作為另一種學習方式,自監督學習以其在表征學習領域的飛速發展吸引了眾多研究者的關注。自監督表示學習利用輸入數據本身作為監督,并使得幾乎所有類型的下游任務從中受益。在這項綜述中,我們著眼于新的自監督學習方法,用于計算機視覺、自然語言處理和圖學習。我們全面回顧了現有的實證方法,并根據它們的目的將它們歸納為三大類:生成型、對比型和生成-對比型(對抗型)。我們進一步研究了相關的理論分析工作,以提供對自監督學習如何工作的更深層次的思考。最后,我們簡要討論了自監督學習有待解決的問題和未來的發展方向。
網址: