圖像分類作為計算機視覺領域中的重要研究方向之一,應用領域非常廣泛.基于深度學習的圖像分類技術取得的成功,依賴大量的已標注數據,然而數據的標注成本往往是昂貴的.主動學習作為一種機器學習方法,旨在以盡可能少的高質量標注數據達到期望的模型性能,緩解監督學習任務中存在的標注成本高、標注信息難以大量獲取的問題.主動學習圖像分類算法根據樣本選擇策略,從未標記樣本數據集合中選擇出信息量豐富,對分類模型訓練貢獻更高的樣本進行標注,以更新已標注訓練數據池,如此循環直至滿足給定的停止條件或模型標注預算耗盡.本文對近年來提出的主動學習圖像分類算法進行了詳細綜述,并根據所用樣本數據處理及模型優化方案,將現有算法分為三類:基于數據增強的算法,包括利用圖像增廣來擴充訓練數據,或者根據圖像特征插值后的差異性來選擇高質量的訓練數據;基于數據分布信息的算法,根據數據分布的特點來優化樣本選擇策略;優化模型預測的算法,包括優化獲取和利用深度模型預測信息的方法、基于生成對抗網絡和強化學習來優化預測模型的結構,以及基于Transformer結構提升模型預測性能,以確保模型預測結果的可靠性.此外,本文還對各類主動學習圖像分類算法下的重要學術工作進行了實驗對比,并對各算法在不同規模數據集上的性能和適應性進行了分析.另外,本文探討了主動學習圖像分類技術所面臨的挑戰,并指出了未來研究的方向. 圖像分類是計算機視覺領域中的一大基本任務 . 圖像分類任務的核心在于圖像特征提取和分類器的設 計. 隨著深度學習(Deep Learning,DL)[1] 技術的不斷發 展,基于卷積神經網絡(Convolutional Neural Networks, CNN)[2] 的圖像特征提取技術取得了巨大的成就. 卷積 神經網絡可以通過組合簡單特征形成更復雜和抽象的 特征,從而提高圖像分類任務的準確性和魯棒性. 作為 一種數據表示學習的方法,深度學習可以通過迭代更 新深度網絡層級參數來訓練和優化模型,從而使結果 更加接近真實值 . 常用于圖像分類的深度網絡包括 LeNet[3],GoogLeNet[4],AlexNet[5],VGGNet[6],ResNet[7] 等. 然而,在圖像分類領域,為了得到高精度的分類器, 深度學習模型很大程度上依賴大量已標注數據來優化 模型參數. 特別是在需要高水平專業知識的領域,如醫 學圖像[8] 、遙感圖像[9] 等,獲取大量的高質量已標注數 據集需要消耗大量的人力. 主動學習(Active Learning,AL)[10] 作為一種能夠降 低樣本標注成本的學習方法,正逐漸受到越來越多的 關注. 主動學習作為監督式機器學習中的一種范式,旨 在標注盡可能少的樣本,同時最大化模型的性能增益. 具體來講,主動學習根據樣本選擇策略從未標記的數 據集中選擇信息豐富的樣本,交由 Oracle 進行標注,以 降低模型所需數據量、計算資源和存儲資源的需求,同 時保持分類器性能. Oracle是一個能夠提供準確標簽的 信息源,可以是人類專家或自動化系統. 樣本選擇策略 決定了算法選擇哪些樣本以獲得最大的模型性能提 升 . 目前,主動學習已被應用于分類與檢索[11] 、圖像分 割[12] 、目標檢測[13] 等多種圖像處理任務.
在早期研究中,文獻[10]將目前主動學習方法定 義為三種基本框架:基于成員查詢的主動學習、基于流 的選擇性采樣和基于池的主動學習 . 基于成員查詢的 主動學習方法是指學習器可以請求查詢輸入空間中任 何未標記樣本的標簽,包括學習器生成的樣本. 基于流 的選擇性采樣是指每次從未標記數據源中提取一個樣本數據,學習器必須決定是查詢標簽還是丟棄該數據. 基于池的主動學習框架則維護一個未標注數據集合, 由樣本選擇策略從未標記集合中選擇要標注的樣本. 目前,基于池的主動學習框架更適用于圖像分類 任務中. 該框架能同時處理批量數據,從未標記數據集 中選出對模型訓練最有幫助的數據進行標注,提高標 注數據效率,降低成本 . 此外,該框架適用于數據集規 模較大、標注數據較少的情況,符合多數圖像分類技術 場景. 相比之下,基于成員查詢的主動學習算法需要逐 個查詢成員并進行標注,不適用于大規模的數據集. 基 于流的選擇性采樣在處理流數據時,對每個數據點進 行快速分類來實現快速標注,從而處理大量的數據流. 但在圖像分類中,每個數據點都是一個獨立的圖像,對 每個圖像進行分類和標注可能會帶來更多的標注成 本,因此該方法在圖像分類中使用較少. 該方法主要適 用于需要時效性的小型移動設備的應用場景,因為這 些小型設備通常具有有限的存儲和計算能力 . 圖 1 展 示了基于池的主動學習的基本框架.
圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。
基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.
近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.
首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列
,預測隨后一段幀視頻序列
.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.
此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列
,以及機器人未來可能選取的動作序列
,以視頻幀
的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。
本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.
近年來,機器學習技術逐漸成為主流網絡入侵檢測方案。然而機器學習模型固有的安全脆弱性,使其難以抵抗對抗攻擊,即通過在輸入中施加細微擾動而使模型得出錯誤結果。對抗機器學習已經在圖像識別領域進行了廣泛的研究,在具有高對抗性的入侵檢測領域中,對抗機器學習將使網絡安全面臨更嚴峻的安全威脅。為應對此類威脅,從攻擊、防御2個角度,系統分析并整理了將對抗機器學習技術應用于入侵檢測場景的最新工作成果。首先,揭示了在入侵檢測領域應用對抗機器學習技術所具有的獨特約束和挑戰;其次,根據對抗攻擊階段提出了一個多維分類法,并以此為依據對比和整理了現有研究成果;最后,在總結應用現狀的基礎上,討論未來的發展方向。
//www.infocomm-journal.com/txxb/CN/10.11959/j.issn.1000-436x.2021193
細粒度圖像分類旨在從某一類別的圖像中區分出其子類別,通常細粒度數據集具有類間相似和類內差異大的特點,這使得細粒度圖像分類任務更加具有挑戰性。隨著深度學習的不斷發展,基于深度學習的細粒度圖像分類方法表現出更強大的特征表征能力和泛化能力,能夠獲得更準確、穩定的分類結果,因此受到了越來越多研究人員的關注和研究。首先,從細粒度圖像分類的研究背景出發,介紹了細粒度圖像分類的難點和研究意義。其次,從基于強監督和弱監督兩個角度,綜述了基于深度學習的細粒度圖像分類算法的研究進展,并介紹了多種典型的分類性能優秀的算法。此外,進一步論述了目前關于YOLO、多尺度CNN和生成對抗網絡(GAN)等前沿深度學習模型在細粒度圖像識別方面的應用,并且對比了最新的相關細粒度圖像的數據增強方法的分類效果以及在復雜場景下不同類型的細粒度識別方法的性能特點分析。最后,通過對算法的分類性能進行對比和總結,探討了未來發展方向和面臨的挑戰。
?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下,深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮,但效率實際上是相當重要的,有時對學術研究和工業應用都至關重要。此外,整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研,但據我們所知,很少有系統地關注視覺識別,因此不清楚哪些進展適用于視覺識別,還有哪些需要關注。在本文中,我們回顧了近年來的研究進展,并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研,而且還從數據的角度進行調研(在現有的調研中并非如此),并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研,對視覺識別問題進行系統的總結,以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。
深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界,包括研究圖像和視頻字幕[4]-[6],身體姿勢估計[7],和許多其他。然而,這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然,在大多數成本敏感的應用程序中,這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力,人們確實有了足夠的高質量訓練數據,但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型,通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力),在終端用戶的實際應用程序中部署模型仍然不容易,因為運行時推斷必須適合可用的或負擔得起的資源,而且運行速度必須滿足實際需要,可以是實時的,甚至是更高的。因此,除了學術界通常最關注的準確性之外,效率是另一個重要問題,在大多數情況下,是實際應用中不可缺少的需求。
雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面,但在效率方面仍有許多可喜的進展,特別是在最近幾年。在過去的兩年中,已經發表了許多關于DNN效率問題的調研論文,詳細內容見下文I-A小節。然而,這些方法都沒有重點關注視覺識別任務,特別是缺少有效處理視覺數據的專項工作,而視覺數據處理有其自身的特點。在實踐中,有效的視覺識別必須是一個系統的解決方案,不僅要考慮到緊湊/壓縮的網絡和硬件加速,而且還要正確處理視覺數據,這些數據可能是各種類型(如圖像、視頻和點),具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此,就我們所知,本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗,本課程旨在從各個方面系統地概述最近的進展和趨勢。
相比之下,本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率,希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展,這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題,包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域,綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡,圖1是作為組織的藍圖。具體來說,在第二節中,我們將介紹視覺識別問題中常見的三種主要數據類型,并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結,這對基于DNN的視覺識別系統的實際部署非常重要。最后,第六節概述了所有努力,以產生一個清晰的總體映射,并討論了一些重要的未發現的方面和新的研究方向。
隨著數據驅動的機器學習研究的發展,各種各樣的預測問題得到了解決。探索如何利用機器學習,特別是深度學習方法來分析醫療數據已經變得至關重要。現有方法的一個主要局限性是專注于網格數據; 然而,生理記錄的結構通常是不規則的和無序的,這使得很難把它們作為一個矩陣來概念化。因此,圖神經網絡通過利用生物系統中的隱式信息,利用邊緣連接的交互節點吸引了大量的關注,這些邊的權重可以是時間關聯或解剖連接。在本綜述中,我們全面回顧了不同類型的圖架構及其在醫療保健中的應用。我們以系統的方式概述了這些方法,并按照它們的應用領域組織起來,包括功能連接、解剖結構和基于電的分析。我們還概述了現有技術的局限性,并討論了未來研究的潛在方向。
//www.zhuanzhi.ai/paper/93391ccf2368809646650183224eee1c
引言
醫學診斷是指一個人可以確定哪種疾病或狀況可以解釋病人的癥狀的過程。疾病診斷所需的信息來自患者的病史和各種醫學測試,這些測試通過診斷成像數據獲取患者的功能和解剖結構,如功能磁共振成像(fMRI)、磁共振成像(MRI)、計算機斷層掃描(CT)、超聲(美國)和X射線; 其他診斷工具包括腦電圖(EEG)。然而,考慮到通常耗時的診斷過程容易產生主觀解釋和觀察者間的變異,臨床專家已經開始從計算機輔助干預中獲益。自動化在醫療保健服務和醫生有限的情況下也有好處。自動化正在努力提高醫療保健系統的質量和降低成本[1]。通過將特征工程任務合并到學習任務[2]中,深度學習提供了一個解決這些需求的有效途徑。有幾篇綜述論文分析了傳統機器學習和深度學習方法在醫學異常和解剖結構檢測和分割、運動障礙和序列數據分析、計算機輔助檢測和計算機輔助診斷方面的好處。
圖網絡屬于一個新興領域,它也在許多技術領域產生了巨大的影響。來自化學、生物學、遺傳學和醫療保健等學科的許多信息并不適合基于矢量的表示,而是需要復雜的數據結構。圖本質上捕獲實體之間的關系,因此在這些應用中可能非常有用,可以對變量之間的關系信息進行編碼。例如,在醫療保健領域,可以通過在醫生的決策過程[7]中將疾病或癥狀與主題關聯起來,或為乳腺癌分析[8]建立RNA序列模型來構建知識圖譜。因此,特別將圖神經網絡(GNN)推廣為非結構(無序)和結構(有序)場景。然而,盡管基于圖的表示在醫學領域的使用越來越普遍,但與傳統的深度學習方法相比,此類方法仍然稀缺,而且它們解決許多具有挑戰性的醫學問題的潛力尚未完全實現。
關于GNNs的深度學習領域迅速增長,其受歡迎程度也反映在最近對圖形表示及其應用的大量綜述中。現有綜述全面概述了非歐氏數據深度學習、圖深度學習框架和現有技術的分類[9],[14];或者介紹包括生物學和信號處理領域[15]-[18]的一般應用。盡管一些論文使用深度學習技術概述了醫學圖像分析,并引入了GNN的概念來評估神經疾病[19],據我們所知,目前還沒有系統介紹和討論GNN在非結構化醫學數據中的當前應用。
在本文中,我們致力于提供一個多圖神經網絡(GNN)模型在醫療診斷和分析方面的全面回顧。我們試圖解釋為什么GNN在這個領域值得研究的根本原因,并強調了新興的醫療分析挑戰,GNN可以很好地解決。圖神經網絡在醫學信號處理和分析中的應用尚處于起步階段。在本文中,我們提出了一項綜述,將圖神經網絡應用于醫療診斷任務,并提出了該領域的最新方法和趨勢的現狀。
我們確定了傳統深度學習在應用于醫學信號分析時面臨的一些挑戰,并強調了了圖神經網絡在克服這些挑戰方面的貢獻。
我們介紹并討論了為醫療診斷提出的各種圖框架及其具體應用。我們涵蓋使用圖網絡與深度學習技術相結合的生物醫學成像應用的工作。
我們總結了當前基于圖的深度學習所面臨的挑戰,并基于目前觀察到的趨勢和局限性提出了醫學健康領域未來的發展方向。
視覺多目標跟蹤是計算機視覺領域的熱點問題,然而,場景中目標數量的不確定、目標之間的相互遮擋、目標特征區分度不高等多種難題導致了視覺多目標跟蹤現實應用進展緩慢。近年來,隨著視覺智能處理研究的不斷深入,涌現出多種多樣的深度學習類視覺多目標跟蹤算法。在分析了視覺多目標跟蹤面臨的挑戰和難點基礎上,將算法分為基于檢測跟蹤(Detection-Based-Tracking,DBT)、聯合檢測跟蹤(Joint-Detection-Tracking,JDT)兩大類及六個子類,研究不同類別算法的優缺點。分析表明,DBT類算法結構簡單,但算法各子環節的關聯度不高,JDT類算法融合多模塊聯合學習,在多項跟蹤評價指標中占優。DBT類算法中特征提取模塊是解決目標遮擋問題的關鍵,但損失了算法速度,JDT類算法對檢測模塊更為依賴。目前,多目標跟蹤跟蹤總體是從DBT類算法向JDT發展,分階段實現算法準確度與速度的均衡。提出多目標跟蹤算法未來在數據集、各子模塊、具體場景應用等方面的發展方向。