【導讀】時尚是我們向世界展示自己的方式,并已成為世界上最大的產業之一。時尚主要通過視覺傳達,近些年來已經吸引了諸多計算機視覺研究者的關注。基于這個領域的快速發展,本文對200多篇與時尚相關的論文進行了全面的概述,從四個方面對實現智能型時尚進行介紹與探討;(1)時尚檢測包括特征點檢測(landmark detection),時尚解析和條目檢索,(2)時尚分析包括屬性識別,款式學習和流行預測,(3)時尚合成包括風格轉換、姿勢轉換和物理模擬,(4)時尚推薦包括時尚搭配、服裝搭配、發型建議。針對每項任務,我們總結了基準數據集和各種評估方式。此外,我們強調了未來有希望的研究方向。
介紹
時尚就是某種我們把自己展示給世界的方式。我們的穿著和打扮方式決定了我們獨一無二的風格和與眾不同。時尚在現代社會已經成為我們不可或缺的一部分。不出所料,僅全球服裝市場就已超過3萬億美元,占世界國內生產總值(GDP)的近2%。具體來說,到2020年,時尚領域的收入將超過7180億美元,預計年增長率將達到8.4%。
隨著人工智能中計算機視覺的高速發展,人工智能已經開啟了時尚界的大門,通過電子零售,個性化的設計師到時尚設計流程來重塑我們的時尚生活。在這篇論文中我們把計算機視覺時裝技術稱為智能時裝。從技術上講,智能時尚是一項具有挑戰性的任務,因為與一般對象不同,時尚物品在風格和設計上存在很大的差異,最重要的是,可計算的低級特征和我們所編碼的高級語義概念之間存在著巨大且長期的語義鴻溝。
文章的貢獻點如下:
我們對目前在時尚領域最先進的研究成果進行了全面的調查,并將時尚研究主題分為四個主要類別:檢測,分析,合成和建議。
對于智能時尚研究中的每一個類別,我們都會對其中最重要的方法及其貢獻進行深入和系統的回顧。此外,我們還總結了各種基準數據集以及到相應門戶網站的鏈接。
我們收集了不同任務的評估指標,并給出不同方法性能之間的比較。
我們列出了未來可能的研究方向,這有助于促進和激勵這一領域的發展。
2.時尚檢測
由于大多數和時尚相關的研究工作的第一步就是檢測,所以時尚檢測技術是重中之重。以虛擬試穿為例,它需要提前探測輸入的圖片中關于人體的各種信息,包括但不限于體型的信息、身體的位置,然后對推薦的服飾進行合成。因此,檢測是大多數后續工作的基礎。在這一章節中,我們主要關注時尚檢測任務,從三個方面對其進行介紹:特征點檢測,時尚解析和條目檢索。每一個方面都會介紹先進的方法,基準數據集以及方法之間的比較。
3.時尚分析
時尚不僅僅是關于人們應該穿什么而且還反應了人們的性格特點,會流露出其他社會線索。智能時尚分析在時尚產業、精準營銷、社會學分析等領域有著巨大的發展潛力,因此,對人們選擇穿什么款式的衣服進行推薦的智能時尚分析近年來受到越來越多的關注。在這一章節,我們主要關注時尚分析領域中的三個領域:屬性識別,款式學習和流行預測。對于每一個領域,我們都會介紹該領域中的先進方法,基準數據及和方法之間的比較。
4.時尚合成
給出一個人的照片,我們要能夠想象這個人喜歡什么樣的打扮風格和服飾穿著。我們可以通過一張現實生活中的照片進行綜合分析。在這一章節中,我們回顧了這項任務的發展歷程,包括風格轉換、姿態轉換和物理模擬。
5.時尚推薦
盡管不是每個人天生就是一個時尚家。根據自身的需求,時尚推薦已經吸引了越來越多的關注。和時尚推薦相關的文獻可以被分為三個主要的類別:時尚搭配,服裝搭配和發型建議。
目標檢測作為機器視覺中重要任務之一,是人工智能體系中一個具有重要研究價值的技術分支。對于卷積神經網絡框架、anchor-based模型和anchor-free模型三個主流的目標檢測模型進行梳理。首先,綜述了主流卷積神經網絡框架的網絡結構、優缺點以及相關的改進方法;其次從one-stage和two-stage兩個分支對anchor-based類模型進行深入分析,總結了不同目標檢測方法的研究進展;從早期探索、關鍵點和密集預測三部分分析anchor-free類模型。最后對該領域的未來發展趨勢進行了思考與展望。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題,在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題,即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步,并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而,仍然有幾個挑戰影響自然圖像中的文本,導致現有的方法表現不佳,因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次,識別在自然圖像中檢測或識別文本存在的幾個挑戰,即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后,本文還提出了這一領域的潛在研究方向,以解決場景文本檢測和識別技術仍面臨的一些挑戰。
語義圖像分割任務包括將圖像的每個像素分類為一個實例,其中每個實例對應一個類。這個任務是場景理解或更好地解釋圖像的全局上下文概念的一部分。在醫學圖像分析領域,圖像分割可用于圖像引導干預、放療或改進的放射診斷。本綜述將基于深度學習的醫學和非醫學圖像分割解決方案分為六大組:深度架構、基于數據合成、基于損失函數、排序模型、弱監督和多任務方法,并對每一組的貢獻進行全面綜述。然后,針對每一組,我們分析了每一組的不同,并討論了當前方法的局限性和未來語義圖像分割的研究方向。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
隨著機器學習、圖形處理技術和醫學成像數據的迅速發展,機器學習模型在醫學領域的使用也迅速增加。基于卷積神經網絡(CNN)架構的快速發展加劇了這一問題,醫學成像社區采用這種架構來幫助臨床醫生進行疾病診斷。自2012年AlexNet取得巨大成功以來,CNNs越來越多地被用于醫學圖像分析,以提高臨床醫生的工作效率。近年來,三維(3D) CNNs已被用于醫學圖像分析。在這篇文章中,我們追溯了3D CNN的發展歷史,從它的機器學習的根源,簡單的數學描述3D CNN和醫學圖像在輸入到3D CNNs之前的預處理步驟。我們回顧了在不同醫學領域,如分類、分割、檢測和定位,使用三維CNNs(及其變體)進行三維醫學成像分析的重要研究。最后,我們討論了在醫學成像領域使用3D CNNs的挑戰(以及使用深度學習模型)和該領域可能的未來趨勢。
【導讀】辭九迎零,我們迎來2020,到下一個十年。在2019年機器學習領域繼續快速發展,元學習、遷移學習、小樣本學習、深度學習理論等取得很多進展。在此,專知小編整理這一年這些研究熱點主題的綜述進展,共十篇,了解當下,方能向前。
1、A guide to deep learning in healthcare(醫療深度學習技術指南)
斯坦福&谷歌Jeff Dean最新Nature論文:醫療深度學習技術指南(29頁綜述)
Google 斯坦福 Nature Medicine
作者:Andre Esteva, Alexandre Robicquet, Bharath Ramsundar, Volodymyr Kuleshov, Mark DePristo, Katherine Chou, Claire Cui, Greg Corrado, Sebastian Thrun & Jeff Dean
摘要:我們介紹了醫療保健的深度學習技術,重點討論了計算機視覺、自然語言處理、強化學習和廣義方法的深度學習。我們將描述這些計算技術如何影響醫學的幾個關鍵領域,并探討如何構建端到端系統。我們對計算機視覺的討論主要集中在醫學成像上,我們描述了自然語言處理在電子健康記錄數據等領域的應用。同樣,在機器人輔助手術的背景下討論了強化學習,并綜述了基因組學的廣義深度學習方法。
網址:
//www.nature.com/articles/s41591-018-0316-z
2、Multimodal Machine Learning: A Survey and Taxonomy(多模態機器學習)
人工智能頂刊TPAMI2019最新《多模態機器學習綜述》
CMU TPAMI
作者:Tadas Baltru?aitis,Chaitanya Ahuja,Louis-Philippe Morency
摘要:我們對世界的體驗是多模態的 - 我們看到物體,聽到聲音,感覺質地,聞到異味和味道。情態是指某種事物發生或經歷的方式,并且當研究問題包括多種這樣的形式時,研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進展,它需要能夠將這種多模態信號一起解釋。多模態機器學習旨在構建可以處理和關聯來自多種模態的信息的模型。這是一個充滿活力的多學科領域,具有越來越重要的意義和非凡的潛力。本文不是關注特定的多模態應用,而是研究多模態機器學習本身的最新進展。我們超越了典型的早期和晚期融合分類,并確定了多模式機器學習所面臨的更廣泛的挑戰,即:表示,翻譯,對齊,融合和共同學習。這種新的分類法將使研究人員能夠更好地了解該領域的狀況,并確定未來研究的方向。
網址:
3、Few-shot Learning: A Survey(小樣本學習)
《小樣本學習(Few-shot learning)》最新41頁綜述論文,來自港科大和第四范式
香港科大 第四范式
作者:Yaqing Wang,Quanming Yao
摘要:“機器會思考嗎”和“機器能做人類做的事情嗎”是推動人工智能發展的任務。盡管最近的人工智能在許多數據密集型應用中取得了成功,但它仍然缺乏從有限的數據示例學習和對新任務的快速泛化的能力。為了解決這個問題,我們必須求助于機器學習,它支持人工智能的科學研究。特別地,在這種情況下,有一個機器學習問題稱為小樣本學習(Few-Shot Learning,FSL)。該方法利用先驗知識,可以快速地推廣到有限監督經驗的新任務中,通過推廣和類比,模擬人類從少數例子中獲取知識的能力。它被視為真正人工智能,是一種減少繁重的數據收集和計算成本高昂的培訓的方法,也是罕見案例學習有效方式。隨著FSL研究的廣泛開展,我們對其進行了全面的綜述。我們首先給出了FSL的正式定義。然后指出了FSL的核心問題,將問題從“如何解決FSL”轉變為“如何處理核心問題”。因此,從FSL誕生到最近發表的作品都被歸為一個統一的類別,并對不同類別的優缺點進行了深入的討論。最后,我們從問題設置、技術、應用和理論等方面展望了FSL未來可能的發展方向,希望為初學者和有經驗的研究者提供一些見解。
網址:
4、meta Learning: A Survey(元學習)
元學習(Meta-Learning) 綜述及五篇頂會論文推薦
作者:Joaquin Vanschoren
摘要:元學習,或學習學習,是一門系統地觀察不同機器學習方法如何在廣泛的學習任務中執行的科學,然后從這種經驗或元數據中學習,以比其他方法更快的速度學習新任務。這不僅極大地加快和改進了機器學習管道或神經體系結構的設計,還允許我們用以數據驅動方式學習的新方法取代手工設計的算法。在本文中,我們將概述這一迷人且不斷發展的領域的最新進展。
網址:
5、A Comprehensive Survey on Transfer Learning(遷移學習)
中科院發布最新遷移學習綜述論文,帶你全面了解40種遷移學習方法
作者:Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Senior Member, IEEE, Hui Xiong, Senior Member, IEEE, and Qing He
摘要:遷移學習的目的是通過遷移包含在不同但相關的源域中的知識來提高目標學習者在目標域上的學習表現。這樣,可以減少對大量目標域數據的依賴,以構建目標學習者。由于其廣泛的應用前景,遷移學習已經成為機器學習中一個熱門和有前途的領域。雖然已經有一些關于遷移學習的有價值的和令人印象深刻的綜述,但這些綜述介紹的方法相對孤立,缺乏遷移學習的最新進展。隨著遷移學習領域的迅速擴大,對相關研究進行全面的回顧既有必要也有挑戰。本文試圖將已有的遷移學習研究進行梳理使其系統化,并對遷移學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。與以往的文章不同,本文從數據和模型的角度對40多種具有代表性的遷移學習方法進行了綜述。還簡要介紹了遷移學習的應用。為了展示不同遷移學習模型的性能,我們使用了20種有代表性的遷移學習模型進行實驗。這些模型是在三個不同的數據集上執行的,即Amazon Reviews,Reuters-21578和Office-31。實驗結果表明,在實際應用中選擇合適的遷移學習模型是非常重要的。。
網址:
6、Multimodal Intelligence: Representation Learning, Information Fusion, and Applications(多模態智能論文綜述:表示學習,信息融合與應用) 【IEEE Fellow何曉東&鄧力】多模態智能論文綜述:表示學習,信息融合與應用,259篇文獻帶你了解AI熱點技術
京東
作者:Chao Zhang,Zichao Yang,Xiaodong He,Li Deng
【摘要】自2010年以來,深度學習已經使語音識別、圖像識別和自然語言處理發生了革命性的變化,每種方法在輸入信號中都只涉及一種模態。然而,人工智能的許多應用涉及到多種模態。因此,研究跨多種模態的建模和學習的更困難和更復雜的問題具有廣泛的意義。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究的一個重要領域。本文從學習多模態表示、多模態信號在不同層次上的融合以及多模態應用三個新角度對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,將多模態信號統一到同一個向量空間中,從而實現了多模態信號的交叉處理。我們還回顧了許多類型的嵌入的性質,構造和學習的一般下游任務。在多模態融合方面,本文著重介紹了用于集成單模態信號表示的特殊結構。在應用方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題回答。我們相信這項綜述可促進未來多模態智能的研究。
網址:
7、Object Detection in 20 Years: A Survey(目標檢測)
密歇根大學40頁《20年目標檢測綜述》最新論文,帶你全面了解目標檢測方法
作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye
摘要:目標檢測作為計算機視覺中最基本、最具挑戰性的問題之一,近年來受到了廣泛的關注。它在過去二十年的發展可以說是計算機視覺歷史的縮影。如果我們把今天的目標檢測看作是深度學習力量下的一種技術美學,那么讓時光倒流20年,我們將見證冷兵器時代的智慧。本文從目標檢測技術發展的角度,對近四分之一世紀(20世紀90年代至2019年)的400余篇論文進行了廣泛的回顧。本文涵蓋了許多主題,包括歷史上的里程碑檢測器、檢測數據集、度量、檢測系統的基本構建模塊、加速技術以及最新的檢測方法。本文還綜述了行人檢測、人臉檢測、文本檢測等重要的檢測應用,并對其面臨的挑戰以及近年來的技術進步進行了深入分析。
網址:
8、A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications(中文知識圖譜)
作者:Tianxing Wu, Guilin Qi ,*, Cheng Li and Meng Wang
摘要:隨著智能技術的不斷發展,作為人工智能支柱的知識圖譜以其強大的知識表示和推理能力受到了學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。構建中文知識圖譜的技術也在迅速發展,不同的中文知識圖譜以支持不同的應用。同時,我國在知識圖譜開發方面積累的經驗對非英語知識圖譜的開發也有很好的借鑒意義。本文旨在介紹中文知識圖譜的構建技術及其應用,然后介紹了典型的中文知識圖譜,此外我們介紹了構建中文知識圖譜的技術細節,并介紹了了中文知識圖譜的幾種應用。
網址:
9、Advances and Open Problems in Federated Learning(聯邦學習)
【重磅】聯邦學習FL進展與開放問題萬字綜述論文,58位學者25家機構聯合出品,105頁pdf438篇文獻
摘要:聯邦學習(FL)是一種機器學習設置,在這種設置中,許多客戶(例如移動設備或整個組織)在中央服務器(例如服務提供商)的協調下協作地訓練模型,同時保持訓練數據分散。FL體現了集中數據收集和最小化的原則,可以減輕由于傳統的、集中的機器學習和數據科學方法所帶來的許多系統隱私風險和成本。在FL研究爆炸性增長的推動下,本文討論了近年來的進展,并提出了大量的開放問題和挑戰。
網址:
10、Optimization for deep learning: theory and algorithms(深度學習優化理論算法)
【2019年末硬貨】深度學習的最優化:理論和算法綜述論文,60頁pdf257篇文獻
摘要:什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸/消失問題和更一般的不期望譜問題,然后討論了實際的解決方案,包括仔細的初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法,以及這些算法的現有理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、彩票假設和無限寬度分析。
網址: