亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,人工智能(AI)及其應用引發了極大的興趣。這一成就可以部分歸因于人工智能子領域的進步,包括機器學習(ML)、計算機視覺(CV)和自然語言處理(NLP)。深度學習是機器學習的一個子領域,它采用人工神經網絡的概念,使這些領域增長最快。因此,視覺和語言的融合引發了很多關注。這些任務的創建方式恰當地示范了深度學習的概念。本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了現有的數據集、方法及其問題表述和評估措施,用于VQA和視覺推理任務,以理解視覺和語言表示學習。本文還提出了該研究領域的一些潛在未來路徑,希望我們的研究可以產生新的想法和新方法,以處理現有的困難和開發新的應用。

//www.zhuanzhi.ai/paper/c05fe89db0bbc0ddc6f7535150f36371

1. 引言

深度神經網絡(DNNs)的最新進展促進了人工智能(AI)許多領域的研究,如自然語言處理(NLP)和計算機視覺(CV)。隨著計算資源的指數級增長和數據集規模的不斷增大,卷積神經網絡(CNN)[1]、循環神經網絡(RNNs)[2]和自編碼器[3]等DNNs模型在目標檢測[4]、機器翻譯[5]、圖像標題生成[6]、語音識別[7]等機器學習(ML)任務中取得了巨大的勝利。盡管如此,在處理混合了兩個通常獨立領域的語義和視覺數據的問題時,仍然存在一些好奇心。解決集成問題的方法應該支持視覺或文本信息的全面知識。

盡管最近取得了一些進展,但在一些需要對關系和圖結構數據進行推理的研究領域,如場景圖[8]和自然語言理解,智能體和人腦之間仍然存在巨大的差距。人類可以快速識別物體、它們在網格上的位置和圖像等歐幾里得數據,推斷它們的關系,識別活動,并響應關于圖像的隨機問題。建立一個具有計算機視覺和自然語言能力的系統模型,該系統可以回答關于圖像的隨機問題,這似乎很鼓舞人心。

有效地解決上述及相關問題可以帶來許多可能的應用。例如,視覺障礙者可以受益于視覺場景理解,這允許他們通過生成的描述獲取有關場景的信息并提出有關問題。理解監控視頻是另一個用途。[9]、自動駕駛[10]、視覺解說機器人、人機交互[11]、城市導航[12]等解決這些問題通常需要對圖像內容進行更高層次的推理。鑒于基礎和應用研究的廣泛跨度,近年來進行了各種調查,以提供視覺和語言任務集成的徹底概述。另一方面,這些研究側重于涉及語言和視覺融合的特定任務,如圖像描述[13-15]視覺問答[16,17]、動作識別[18]和視覺語義[19]。

本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了用于VQA和視覺推理任務的現有數據集和方法,以理解視覺和語言表示學習。首先,以視覺和語言表示學習任務為例介紹了視覺問答(VQA)和視覺推理。詳細探索了現有的標注數據集驅動的這些領域的巨大進步。然后,進一步介紹了視覺問答和視覺推理的現有方法和最新進展;最后,討論了存在的問題和未來可能的研究方向。

2. 視覺與語言

視覺和語言(V+L)研究是CV和NLP交叉的一個迷人的領域,它受到了兩個群體的大量關注。許多V+L挑戰促使組合式多模態表示學習取得了重大進展,已經在大規模人工標注數據集上進行了基準測試。V+L的基礎是視覺理解主題,例如流行的ResNet,它提取CNN特征。其次是語言理解,其最終目標是多模態學習。

3. 數據集

我們有許多大規模的標注數據集,這些數據集正在推動這一領域的巨大進步。VQA領域是如此復雜,一個合適的數據集應該足夠大,以表示現實世界中問題和視覺材料中的各種各樣的選項。事實上,在過去的幾年里,有許多流行的數據集來解決VQA和視覺推理的挑戰。我們將在接下來的幾節中討論在這項艱巨任務中經常使用的數據集。

4. 方法

在過去的五年中,發展了大量的視覺問答和視覺推理方法。另一方面,所有已知的方法都是從問題和圖像中提取特征,然后將特征組合起來給出答案。詞袋模型(BOW)[61],長短期記憶網絡(LSTM)[62],門控循環單元(GRU),編碼器和跳過思維向量都可以用于文本。在ImageNet上預訓練的CNN是最受歡迎的圖像特征選擇。在生成答案時,大多數技術都將問題表示為分類練習。因此,這些技術之間的主要區別在于它們如何合并文本和視覺數據。例如,將它們連接起來并通過線性分類器運行。此外,貝葉斯模型也可以用來表示問題、圖像和答案特征分布之間的核心關系。在本節中,我們將介紹幾種最近為VQA和視覺推理任務提出的架構。將這些模型分為三個主要部分:外部知識、神經網絡和顯式推理。下面我們將更詳細地討論每一節。

付費5元查看完整內容

相關內容

視覺問答(Visual Question Answering,VQA),是一種涉及計算機視覺和自然語言處理的學習任務。這一任務的定義如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻譯為中文:一個VQA系統以一張圖片和一個關于這張圖片形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,VQA就是給定的圖片進行問答。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

圖神經網絡(GNNs)在圖表示學習中取得了發展勢頭,并推動了各種領域的先進水平,例如數據挖掘(如社會網絡分析和推薦系統),計算機視覺(如目標檢測和點云學習),自然語言處理(如關系提取和序列學習),等等。隨著Transformer在自然語言處理和計算機視覺中的出現,圖Transformer將圖結構嵌入到Transformer架構中,以克服局部鄰域聚集的局限性,同時避免嚴格的結構歸納偏差。本文從面向任務的角度對計算機視覺中的GNNs和圖transformer進行了全面的回顧。具體而言,我們將其在計算機視覺中的應用根據輸入數據的形式分為五類,即2D自然圖像、視頻、3D數據、視覺+語言和醫學圖像。在每個類別中,我們根據一組遠景任務進一步劃分應用程序。這種面向任務的分類法允許我們檢查每個任務是如何由不同的基于GNN的方法處理的,以及這些方法的性能如何。基于必要的初步準備,我們提供了任務的定義和挑戰,對代表性方法的深入報道,以及關于見解、局限性和未來方向的討論。

引言

深度學習[1]為計算機視覺帶來了許多突破,其中卷積神經網絡(CNN)占據了主導地位,成為許多現代視覺系統的基礎設施。特別是,許多最先進的CNN模型,如AlexNet[2]、ResNet[3]和EfficientNet[4],在過去十年中被提出,并在各種視覺問題中取得了前所未有的進展,包括圖像分類、目標檢測、語義分割和圖像處理等。另一方面,現有的視覺系統可以像人類一樣建立在各種輸入模態之上,如2D圖像(如自然圖像和醫學圖像)、視頻、3D數據(如點云和網格)以及多模態輸入(如圖像+文本)。 盡管基于CNN的方法在處理像圖像這樣的網格狀數據結構方面表現出色,但在計算機視覺社區中出現了一種新意識,即數據的非網格拓撲信息對表示學習至關重要,但還有待徹底研究。觀察到人類的組合泛化能力在很大程度上依賴于他們表示結構和推理關系的認知機制[5],模仿人類的學習和決策過程可以提高視覺模型的性能,并為最終的預測提供邏輯證據。例如,在物體識別的任務中,最先進的神經網絡更傾向于單獨感知物體的存在,而不同物體之間的依賴性和相互作用卻很少受到關注。

此外,與具有內在邊連接和節點概念的自然圖數據(如社交網絡和生物蛋白質網絡)相比,基于規則網格數據(如圖像和文本)的圖(如關系圖)構建缺乏原則性方法,嚴重依賴于領域知識。另一方面,視覺問題中的一些數據格式,如點云和網格,自然不是定義在笛卡爾網格上的,并且涉及復雜的關系信息。從這個意義上說,無論是規則的還是不規則的視覺數據格式都將受益于拓撲結構和關系的探索,特別是在理解復雜場景、從有限的經驗中學習和跨領域的知識轉移等具有挑戰性的場景。

在過去的幾年中,在深度學習的最新進展下,GNNs[6]在建模圖結構方面展示了突破性的性能。在計算機視覺的范圍內,目前許多與GNN相關的研究都有以下兩個目標之一:(1)GNN和CNN主干的混合(2)用于表示學習的純GNN架構。前者通常尋求提高CNN學習到的特征的遠程建模能力,適用于以前純CNN架構解決的視覺任務,如圖像分類和語義分割。后者在一些可視化數據格式(如點云)中充當特征提取器,與其他方向相比,它是并行開發的。例如,在點云[7]的三維形狀分類任務中,主要有三個研究方向,分別是基于點的MLP方法、基于卷積的方法和基于圖的方法。 然而,盡管取得了豐碩的成果,仍然沒有一篇綜述來系統和及時地回顧基于GNN的計算機視覺的進展。本文對現有研究進行了文獻綜述,從任務導向的角度對計算機視覺中的圖神經網絡進行了完整的介紹,包括(i)任務的定義和挑戰,(ii)代表性方法的深入覆蓋,以及(iii)關于見解、局限性和未來方向的系統討論。具體而言,我們將GNN在計算機視覺中的應用根據輸入數據的形式分為五種類型。在每種類型中,我們根據它們執行的計算機視覺任務對應用程序進行分類。我們還回顧了視覺任務中使用的圖變形函數,考慮到它們在架構[8]、[9]方面與GNN的相似性。本次調查的組織如圖1所示。 背景知識

在本節中,我們將回顧在計算機視覺中使用的GNN和圖transformer。讀者可以參考之前的幾個GNN調研[10],[11],[12],全面介紹GNN的發展。此外,我們要強調的是,許多現有的基于GNN的視覺方法實際上是使用CNN和GNN的混合,而我們專注于GNN方面。

目錄

圖像建模 圖像分類 多標簽分類 少樣本學習 零樣本學習 遷移學習 目標檢測 圖像分割 場景圖生成 視頻理解 視頻動作識別 時序動作定位 視覺+語言 視覺問答基準 視覺Grounding 圖像描述 3D 數據分析 3D表示學習 3D理解 3D 生成 醫學圖像分析


盡管在感知方面取得了突破性進展,但如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的一個艱巨挑戰。在這方面,GNN和圖transformer在處理"關系"任務方面表現出了極大的靈活性和優越性。本文首次從面向任務的角度全面綜述了計算機視覺中的GNN和圖transformer。具體來說,根據輸入數據的形式,將各種經典和最新的算法分為5類,如圖像、視頻和點云。通過系統地梳理每個任務的方法,我們希望這項調查可以揭示未來更多的進展。通過對關鍵創新、局限性和潛在研究方向的討論,我們希望讀者能夠獲得新的見解,并向類似人類的視覺理解更進一步。

付費5元查看完整內容

帝國理工等最新《膠囊網絡綜述》論文,29頁pdf闡述膠囊的概念、方法與應用

膠囊網絡作為卷積神經網絡(Convolutional Neural networks, CNNs)的另一種學習以對象為中心表示的方法,可以提高泛化能力和樣本復雜度。與cnn不同,膠囊網絡使用神經元組對視覺實體進行編碼,顯式地建模部分-整體層次關系,并學習這些實體之間的關系。膠囊網絡早期取得的有前景的成果激勵了深度學習社區繼續努力提高其在多個應用領域的性能和可擴展性。然而,膠囊網絡研究的一個主要障礙是缺乏可靠的參考點來理解它們的基本思想和動機。這項綜述的目的是提供一個全面的概述膠囊網絡的研究景觀,這將為社區的未來提供寶貴的資源。為此,我們首先介紹膠囊網絡背后的基本概念和動機,例如計算機視覺中的等變推理。然后,我們將介紹膠囊路由機制的技術進展和膠囊網絡的各種公式,如生成和幾何。此外,我們還詳細解釋了膠囊網絡與Transformers中流行的注意力機制之間的關系,并強調了它們在表征學習背景下的非微不足道的概念相似性。隨后,我們探索了膠囊網絡在視頻和運動(如視頻對象分割、回歸跟蹤和動作視頻識別)、自然語言處理(如文本分類、關系提取、語言和視覺、推薦系統)、醫學成像(如病變的語義分割、腦腫瘤分類)、故障診斷(如軸承故障診斷)、高光譜成像和偽造檢測等方面的廣泛應用。最后,我們對膠囊網絡研究的主要障礙進行了深入的討論,并指出了未來的研究方向。

引言

計算機視覺的核心任務是從圖像中提取的特征向量對物體進行分類,并提供更全面的描述,如姿態、形狀、外觀等。幾十年來,構建適合下游任務的數據表示(特征)需要大量的手工工程和專家知識。表示學習[1]由一組工具組成,使機器能夠自動發現原始數據的有用表示,然后用于下游的預測任務。近年來最成功的表示學習方法是深度學習(Deep learning, DL)[2]。盡管現代基于深度學習的視覺系統[2]、[3]、[4]取得了許多成功,但普遍缺乏對分布轉移的魯棒性[5]仍然很普遍。事實上,與目前的系統不同,人類能夠快速適應分布的變化,只需要很少的例子來學習[6],[7],[8]。有令人信服的證據表明,人類將視覺場景分解為部分-整體層次結構,我們通過對部分和整體之間的視點不變的空間關系建模,如分配給它們的內在坐標系[9],[10],[11]之間的坐標變換。讓神經網絡(NN)更加透明和可解釋的一種方法是,嘗試讓它們像人類一樣理解圖像。然而,這對于標準神經網絡來說是困難的,因為它們不能動態地表示每個圖像[12]的不同的部分-整體層次樹結構。這種無能是一系列模型的動機被稱為膠囊網絡[12],[13],[14],[15],[16]。膠囊網絡是一種NN,它比卷積神經網絡(Convolutional Neural Networks, CNNs)更明確地建模部分-整體層次關系,通過使用神經元組來編碼實體,并學習這些實體之間的關系[17]。和機器學習[18],[19]的其他發展一樣,膠囊網絡也是受到生物啟發的,他們的目標是能夠學習更健壯的、以對象為中心的、具有姿態感知和可解釋性的表示。來自神經科學的證據表明,緊密連接的附近神經元群(即超列)可以表示一個向量值單位,它不僅能夠傳遞標量,而且能夠傳遞一組協調值[8]。向量值單位的概念是膠囊網絡和軟注意機制[8],[20],[21]的核心,包括transformer [22]。如后面所示,在膠囊網絡中,這些向量值單位被稱為膠囊,在transformer 中,它們被表示為查詢向量、鍵向量和值向量。通過執行神經活動向量之間的標量乘積等操作,可以計算出強大的算法概念,如符合過濾和注意力。

盡管在膠囊工作上取得了有希望的進展,Barham等人[23]解釋說,盡管他們的卷積膠囊模型所需的浮點運算(FLOPS)比CNN少4倍,參數比CNN少16倍,但在TensorFlow[24]和PyTorch[25]中的實現運行速度明顯更慢,并且在更小的模型中耗盡內存。雖然后來有人提出了幾個更有效的膠囊路由版本[26],[27],[28],[29],但潛在的問題不僅是由路由引起的,還由膠囊投票過程引起。在他們的分析中,[23]得出結論,當前的框架已經針對一個流行的模型家族所使用的一小部分計算進行了高度優化,而且這些框架已經變得不適合研究,因為標準和非標準計算負載之間的性能差異巨大。因此,非標準的工作負載(如膠囊網絡中由路由和投票過程引起的工作負載)比它們本可以達到的速度要慢得多。正如[30]所指出的,雖然膠囊網絡的操作可以在CPU上很好地實現,但在GPU和TPU這樣的加速器上,性能會急劇下降,因為它們使用常見架構中的構建塊對標準工作負載進行了大量優化。我們希望這項綜述將激勵研究人員為膠囊網絡開發合適的工具。

在這項綜述中,我們提供了一個全面的概述,使用膠囊網絡和相關的注意為基礎的模型表征學習。雖然相對而言,膠囊的研究仍處于早期階段,但圖1a向我們顯示,盡管最初流行程度迅速增長,但每年的出版物總數有些停滯。這可能是由于進入該領域的高壁壘和缺乏可靠的參考點。盡管如此,如圖1b所示,頂級會議的膠囊網相關出版物數量持續穩步增長。我們相信,現在有足夠的材料來保證對各種概念、技術和基本思想進行詳細的組織,這將有利于社區和激發該領域的研究興趣。在撰寫本文時,僅存在三個基于Capsule Network的綜述。[31]是在Capsule Networks首次引入后不久編寫的,因此它沒有涵蓋最近取得的重大里程碑。同樣,[32]的寫作目的也很簡短,因此只涵蓋了相關文獻的很小一部分。[33]是最近的,涵蓋了更廣泛的論文,但沒有以我們認為必要的方式對該領域進行足夠詳細的廣泛綜述。相反,本綜述的目的是提供膠囊網絡和以對象為中心的表征學習的相關研究的第一次全面和詳細的分解。具體而言,我們的目標是:(a)詳細解釋膠囊網絡背后的基礎、動機和基本概念;(b)調查膠囊網在各個應用領域的研究現狀;(c)將膠囊和協議路由與Transformers 剛和自注意進行關聯和比較。(d)討論有待解決的問題,并提出有前景的研究方向。我們期望我們的綜述將作為膠囊網絡未來的主要參考文獻,并將有助于促進該領域的發展

本次綜述的組織方式如下。在第1節中,我們對膠囊網絡背后的思想做了一個介紹性的概述。在第2節中,我們開始溫和地介紹不變性和等方差,并解釋為什么這些概念在表示學習中是基本的。在第3節中,我們解釋了膠囊網絡背后的基本思想和動機,并介紹了協議和膠囊路由等基本概念。在第4節中,我們深入研究了文獻中提出的最突出的膠囊路由算法。在第5節中,我們將揭示膠囊路由和Transformers中流行的自我注意機制之間的概念相似性。第6至10節討論膠囊網絡在視頻和運動、圖形、自然語言處理和醫學成像方面的一些主要應用。第11節重點介紹膠囊網絡的其他應用,如故障診斷、高光譜成像、偽造檢測和對抗攻擊。最后,在第12節中,我們討論了膠囊網絡的公開挑戰和缺點,以及我們認為未來有希望的研究方向。

付費5元查看完整內容

圖像配準是圖像引導手術、圖像融合、器官圖譜生成、腫瘤和骨骼生長監測等臨床任務應用的關鍵技術,也是一個極具挑戰性的問題。近年來,深度學習技術對醫學圖像處理方法的研究產生重要的影響,在醫學圖像配準領域發展迅速。來自美國辛辛那提兒童醫院醫療中心等發布了**《深度學習醫學圖像配準》**綜述,闡述了相關進展。

圖像配準是各種醫學圖像分析應用中的一個重要組成部分。近年來,基于深度學習(DL)的醫學圖像配準模型發展迅速。本文對醫學圖像配準技術進行了綜述。首先,討論了監督配準的分類,如完全監督配準、雙重監督配準和弱監督配準。接下來,基于相似度和基于生成對抗網絡(GAN)的配準被提出作為無監督配準的一部分。然后描述了深度迭代配準,重點是基于深度相似度和基于強化學習的配準。此外,對醫學圖像配準的應用領域進行了綜述。本文主要綜述單模態和多模態配準及其相關成像,如X線、CT掃描、超聲和MRI。本綜述強調了現有的挑戰,其中顯示,一個主要挑戰是缺乏具有已知轉換的訓練數據集。最后,討論了基于深度學習的醫學圖像配準的未來研究方向。

//www.zhuanzhi.ai/paper/1fb1db2059362b38007d8e59df7d6f61

引言

使用圖像配準,可以將不同的圖像集合合并到一個具有相同信息的單一坐標系中。當比較從不同角度多次拍攝的兩幅圖像或使用不同的模態/傳感器時,可能需要配準[1,2]。直到最近,大多數圖像配準都是由醫生手工完成的。人工對齊在很大程度上依賴于用戶的能力,這在臨床上可能不利于某些配準程序的質量。自動配準的產生是為了克服一些可能的缺點手動圖像配準。DL的復興改變了圖像配準研究的背景[3],盡管事實上各種自動圖像配準方法已經被深入研究之前(和期間)。DL[4]使最近的工作在廣泛的計算機視覺任務中得以表現,包括但不限于: 圖像分類[4],分割[5],特征提取[6-8],以及目標識別[9]。作為一個起點,DL在增強基于強度的配準性能方面被證明是有用的。這只是時間問題,直到其他研究人員看到使用強化學習的配準過程的應用[10-12]。由于獲取/創建地面真實數據的困難,人們對開發用于一步轉換估計的無監督框架越來越感興趣[13,14]。圖像相似度量化是這一范式中的一個眾所周知的障礙。應用基于信息理論的相似性度量[13]、生成對抗網絡(GAN)框架[16]和解剖特征分割[17]來解決這一難題,取得了良好的效果。

傳統的圖像配準是一個基于迭代的過程,包括收集必要的特征,確定相似度(以評估配準質量),選擇變換模型,最后是搜索機制[18,149,153]。可以發送到系統的圖片有兩種: 移動和固定,如圖1所示。通過在靜止圖像上反復滑動移動圖像,可以獲得最佳對齊。考慮的相似性度量最初決定了輸入的照片之間的相似度。計算新轉換的參數是通過使用更新機制的優化方法完成的。通過將這些因素作用于運動圖像,就產生了具有改進對齊的圖像。否則,將開始一個新的算法迭代。如果滿足終止要求,則流程結束。直到不能再獲得配準或滿足一定的預定要求,運動圖像才會在每一個循環中改善與靜止圖像的對應關系。該系統的輸出既可以是變換參數,也可以是最終的插值融合圖像。

一個用于醫學圖像的圖像配準框架流程圖

有必要對使用DL的醫學圖像配準領域進行徹底的調研,突出專家面臨的常見問題,并討論可以解決這些挑戰的即將到來的研究可能性。它是一種利用多層神經網絡(NN)來學習數據描述的機器學習(ML)。許多不同種類的神經網絡可以用于不同的目的,最近已經開發出一些重要的設計來解決工程挑戰。在討論神經網絡時,也可以討論許多神經網絡的訓練過程。關于神經網絡類型、訓練范式、網絡結構以及方法的章節構成了DL的介紹。PyTorch[19]、Caffe[20]、Keras[21]、MXNet[22]和TensorFlow[23]都是可用于創建網絡的公共訪問庫。現有的文獻主要集中在醫學圖像分析中使用DL、reinforcement learning和GANs進行醫學圖像分析。

本文綜合回顧了現有文獻中基于離散域的圖像配準的研究進展。本文著重從方法和功能的角度對其創新進行了綜述。本文研究了不同形式的配準,包括無監督和監督變換估計,以及深度迭代配準。討論了當前圖像配準的趨勢、挑戰和局限性。最后,本文對未來的研究方向進行了展望。

監督配準模型

對于深度學習模型,監督訓練是各種配準模型的共同基礎。根據在訓練階段中使用的監督程度,有三個子類別的模型: 完全監督、雙重監督和弱監督。完全監督配準利用傳統配準算法中的真DVFs來監督學習過程。這些損失通常是由于地面真實值和預期SVF不匹配造成的,如圖2所示。弱監督配準使用隱式參考標簽,而不是使用廣泛使用的解剖輪廓參考DVF,如圖2所示。經常使用兩種以上的參考數據來訓練雙監督配準模型。這包括解剖結構輪廓、參考SVF以及圖像相似性。

弱監督和完全監督配準模型的示例工作圖

盡管為了解決有監督圖像配準的信息或數據稀缺問題,人們采取了許多策略(如弱監督和數據增強)[43-47],但訓練樣本的創建仍然是一個耗時的過程。由于移動和固定的圖像配對是DL模型需要學習的所有變形,無監督配準是一種方法。表1提供了這個子類別的概述。在這一類別的訓練中仍然需要一個可與傳統迭代配準中使用的損失函數。一個DVF正則化項和一個圖像相似項和通常包括在損失函數中。由于固有卷積的性質,一些相似性度量,即局部NCC (LNCC),被改變為專注于微小斑塊。可以引入各種損失項,如防止過擬合的同一性損失和減少奇異性的循環一致性損失。

基于(a) GAN和(b)相似矩陣的醫學圖像配準通用框架

各種醫學圖像配準通用框架

本文綜述了近年來在醫學圖像配準方面的研究進展。由于每個應用程序都有不同的問題,因此有必要謹慎地開發DL框架。多模態圖像配準,比如涉及TRUS和MRI的配準,也面臨著類似的挑戰,比如無法在多模態應用中使用穩健的相似性度量,缺乏大型數據集,難以獲得地面真實值配準和分割,以及量化模型的偏好。(36、37)。解決這些問題的常用方法包括補丁式框架、應用程序特定的相似性度量、注冊框架和受變分自動編碼器影響的無監督技術。插值和重采樣,盡管在本文中描述的許多方法復雜,通常不是由神經網絡學習。隨著該領域的成熟,我們預計會有更多的學者將這些組件包含到他們基于深度學習的解決方案中。每種策略都有自己的優點和局限性,但比較這兩種策略的研究人員總數大致相同。在這兩個領域,我們預計會出現更多結合這兩種策略的好處的研究和新方法。我們預測在這兩類中還會有進一步的研究。

付費5元查看完整內容

近年來,深度學習技術在通用目標檢測領域取得了顯著的突破,并催生了許多場景理解任務。場景圖因其強大的語義表達能力和在場景理解中的應用而成為研究的熱點。場景圖生成(Scene Graph Generation, SGG)是指將圖像自動映射為語義結構的場景圖,需要正確標注被檢測對象及其關系。雖然這是一個具有挑戰性的任務,但社區已經提出了許多SGG方法,并取得了良好的效果。在本文中,我們提供了一個全面的綜述,在這一領域的最新成就帶來了深度學習技術。本文綜述了138個具有代表性的研究成果,并從特征提取和融合的角度系統總結了現有的基于圖像的SGG方法。我們試圖將現有的視覺關系檢測方法進行連接和系統化,以全面的方式總結和解釋SGG的機制和策略。最后,我們對目前存在的問題和未來的研究方向進行了深入的討論,完成了本次綜述。這一綜述將有助于讀者更好地了解目前的研究現狀和思路。

計算機視覺(CV)的最終目標是構建智能系統,能夠像人類一樣從數字圖像、視頻或其他形式中提取有價值的信息。在過去的幾十年里,機器學習(ML)為CV的發展做出了巨大的貢獻。受人類能夠輕松解讀和理解視覺場景能力的啟發,視覺場景理解一直被推崇為CV的圣杯,并已經引起了研究界的廣泛關注。

視覺場景理解包括許多子任務,一般可分為識別和應用兩部分。這些識別任務可以在幾個語義級別上進行描述。早期的大部分作品主要集中在圖像分類上,只給圖像分配了一個標簽,例如一只貓或一輛車的圖像,并進一步分配了多個標注,而沒有定位每個標注在圖像中的位置,即[38]。大量的神經網絡模型已經出現,甚至在圖像分類任務[27],[29],[33],[34]中達到了接近人類的性能。此外,其他一些復雜的任務,如像素級的語義分割,對象檢測和實例級的實例分割,都建議將圖像分解為前景對象和背景雜波。像素級任務的目標是將圖像(或多個)的每個像素分類到一個實例中,其中每個實例(或類別)對應于一個類[37]。實例級任務的重點是在給定的場景中檢測和識別單個的對象,以及分別用包圍框或分割蒙版勾畫一個對象。最近提出的一種名為Panoptic Segmentation (PS)的方法同時考慮了逐像素類和實例標簽[32]。隨著深度神經網絡(DNN)的發展,以對象為中心的任務和基于[17]、[19]、[21]、[22]、[23]模型的各種商業化應用取得了重要突破。然而,場景理解超出了對象的定位。更高層次的任務側重于探索對象之間豐富的語義關系,以及對象與周圍環境的交互,如視覺關系檢測[15]、[24]、[26]、[41]和人-物交互(HOI)[14]、[16]、[20]。這些任務同樣重要,也更具挑戰性。在一定程度上,它們的發展取決于個體實例識別技術的性能。同時,對圖像內容進行更深層次的語義理解也有助于完成視覺識別任務[2],[6],[36],[39],[120]。Divvala等人[40]研究了各種形式的上下文模型,它們可以提高以物體為中心的識別任務的準確性。近年來,研究者們將計算機視覺與自然語言處理(NLP)相結合,提出了一些先進的研究方向,如圖像描述、視覺問答(VQA)、視覺對話等。這些視覺和語言主題需要對我們的視覺世界有豐富的理解,并提供智能系統的各種應用場景。

圖1 一個場景圖結構的可視化說明和一些應用。場景圖生成模型以圖像為輸入,生成視覺基準的場景圖。圖像描述可以直接從場景圖生成。與此相反,圖像生成模型通過從給定的句子或場景圖生成逼真的圖像來逆過程。引用表達式(REF)標記輸入圖像中與給定表達式對應的區域,該區域與表達式映射場景圖的同一子圖。基于場景圖的圖像檢索以查詢為輸入,將檢索視為場景圖匹配問題。對于Visual Question answer (VQA)任務,答案有時可以直接在場景圖中找到,即使對于更復雜的視覺推理,場景圖也很有幫助。

盡管在各個層次的場景理解方面已經取得了長足的進步,但還有很長的路要走。信息的整體感知和有效表達仍然是瓶頸。正如之前的一系列作品[1],[44],[191]所指出的,構建一種高效的、能夠捕獲全面語義知識的結構化表示是深入理解視覺場景的關鍵一步。這種表征不僅可以為基本的識別挑戰提供上下文線索,也為高級智力視覺任務提供了一個有前途的替代方案。場景圖由Johnson et al.[1]提出,是一種基于特定場景中對象實例的可視化圖形,其中節點對應于對象邊界框及其對象類別,邊表示其成對關系。

由于與圖像特征相比,場景圖具有結構化的抽象和更大的語義表達能力,因此場景圖具有處理和提高其他視覺任務的本能潛力。如圖1所示,場景圖將圖像解析為一個簡單而有意義的結構,是視覺場景與文本描述之間的橋梁。許多結合視覺和語言的任務都可以通過場景圖來處理,包括圖像描述[3]、[12]、[18]、視覺問題回答[4]、[5]、基于內容的圖像檢索CBIR、[7]、圖像生成[8]、[9]和參考表達理解[35]。有些任務將圖像作為輸入,并將其解析為場景圖,然后生成合理的文本作為輸出。其他任務則從文本描述中提取場景圖,然后生成逼真的圖像或檢索相應的視覺場景。

  • 我們涵蓋了幾乎所有與該領域相關的當代文獻,并對138篇有關場景圖生成的論文進行了全面的綜述。這些論文按輸入模式(即圖像、視頻和三維網格)進行分類。

  • 從全局的角度提出了二維場景圖生成的通用框架,并從特征提取和更新的角度對這些方法進行了分析。

  • 我們對場景圖生成的各個方面進行了深入的分析,包括生成框架、對象和關系特征表示、輸入模式、訓練

付費5元查看完整內容

雖然在許多領域生成并提供了大量未標記數據,但對自動理解可視化數據的需求比以往任何時候都要高。大多數現有的機器學習模型通常依賴于大量帶標簽的訓練數據來實現高性能。不幸的是,這樣的需求在真實的應用中無法滿足。標簽的數量是有限的,手動注釋數據是昂貴和耗時的。通常需要將知識從現有的標記領域遷移到新的領域。然而,模型性能會因為域之間的差異而降低(域移位或數據集偏差)。為了克服標注的負擔,領域適應(Domain Adaptation, DA)旨在緩解知識從一個領域轉移到另一個相似但不同的領域時的領域轉移問題。無監督DA (UDA)處理有標記的源域和無標記的目標域。UDA的主要目標是減少帶標簽源數據和未帶標簽目標數據之間的域差異,并在訓練過程中學習跨兩個域的域不變表示。本文首先定義了UDA問題。其次,我們從傳統方法和基于深度學習的方法兩方面概述了用于不同類別UDA的最新方法。最后,我們收集了常用的基準數據集,并報告了UDA在視覺識別問題上的最新方法的結果。

//www.zhuanzhi.ai/paper/a3132aabda946e6540ff6c1a9b745303

在這個大數據時代,產生了大量的文本、圖像、聲音和其他類型的數據。工業和研究團體對多媒體數據的自動分類、分割和回歸有很大的需求[1;2) 1。監督學習是機器學習中最普遍的一種,在不同的應用領域都取得了很大的成功。近年來,我們已經見證了深度神經網絡在一些標準基準如ImageNet[4]和CIFAR-10[5]上取得的巨大成功。然而,在現實世界中,我們經常遇到一個嚴重的問題,即缺乏用于訓練的標記數據。眾所周知,機器學習模型的訓練和更新依賴于數據注釋。此外,機器學習模型的高性能依賴于大量帶標簽的訓練數據的存在。不幸的是,在許多實際場景中,這樣的要求無法滿足,因為收集的數據有限制或沒有標簽。此外,一個主要的假設是訓練和測試數據具有相同的分布。如果背景、質量或形狀變形在不同的域之間是不同的,那么這樣的假設很容易被扭曲。此外,手動注釋數據通常非常耗時且昂貴。這給正確訓練和更新機器學習模型帶來了挑戰。因此,一些應用領域由于沒有足夠的標注數據進行訓練而沒有得到很好的發展。因此,常常需要將知識從一個已有的標簽領域轉移到一個相似但不同的、有限或沒有標簽的領域。

然而,由于數據偏置或區域移位的現象6,機器學習模型并不能很好地從一個現有的域推廣到一個新的無標記域。對于傳統的機器學習方法,我們通常假設訓練數據(源域)和測試數據(目標域)來自相同的分布,并從訓練數據中優化模型,直接應用到測試數據中進行預測。忽略訓練數據和測試數據之間的差異。然而,源域和目標域之間常常存在差異,如果存在域遷移問題,傳統方法的性能較低。因此,減輕領域遷移問題對提高模型跨不同領域的性能非常重要。

域適應(DA)是遷移學習(TL)的一種特殊設置,其目的是利用豐富的帶標簽源域的知識,為標簽有限或無標簽的目標域學習有效的預測器,同時緩解域遷移問題。近年來,DA在計算機視覺領域受到越來越多的關注,如圖1所示。每年與DA相關的論文越來越多,說明了DA應用的重要性。有三種類型的DA(有監督的、半監督的和無監督的DA),它們取決于目標域中的標簽數量。對于監督DA,所有的目標數據標簽都是可用的。對于半監督DA,部分目標數據標簽是可用的。對于無監督域適配(UDA),目標域沒有標簽。為了克服標注不足所帶來的限制,技術將有標記的源域和來自目標域的未標記樣本結合起來。此外,UDA中源域和目標域的類別數量相同,也稱為閉集域適應。

現有的域自適應方法假設源域和目標域的數據分布不同,但共享相同的標簽空間。傳統的DA方法高度依賴于從原始圖像中提取特征。隨著深度神經網絡的發展,研究人員正在利用更高性能的深度特征(如AlexNet [7], ResNet50 [8], Xception [9], InceptionResNetv2[10])來代替較低級別的SURF特征。然而,傳統方法的預測精度受到深度神經網絡[11]特征提取質量的影響。近年來,深度神經網絡方法在領域適應問題上取得了巨大的成功。特別是,對抗學習在嵌入深度神經網絡學習特征表示以最小化源域和目標域之間的差異方面表現出強大的能力[12;13)。但是,它只局限于將現有的解決方案從源域改進到目標域,而目標樣本的結構信息很難保存。此外,很難移除目標域中有噪聲的預測標簽。

本文主要研究了圖像識別中的域自適應問題。本次綜述的貢獻如下。(i)我們提出了一種基于傳統和深度學習的DA分類方法。(ii) 我們是第一個在特征選擇、分布適應和子空間學習三種不同背景下研究傳統技術的人。(iii)我們還討論了基于深度學習的方法,包括基于差異的方法、基于對抗的方法、基于偽標簽的方法、基于重構的方法、基于表征的方法和基于注意力的方法。(4)我們收集了幾個基準數據集,這些數據集在UDA中得到了廣泛的應用,并報告了最新方法的結果。本文的其余部分組織如下:在第2、3節中,我們介紹了DA問題的符號和泛化界。在第四部分,我們回顧了傳統的UDA方法。在第5節中,我們描述了用于圖像識別的深度DA方法。在第6節中,我們列出了DA的基準數據集,并報告了最新方法的準確性。

付費5元查看完整內容

摘要: 圖像描述生成結合了計算機視覺和自然語言處理2個研究領域,不僅要求完備的圖像語義理解,還要求復雜的自然語言表達,是進一步研究符合人類感知的視覺智能的關鍵任務.對圖像描述生成的研究進展做了回顧.首先,歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術,包括整體架構、學習策略、特征映射、語言模型和注意機制.然后,按照發展進程將現有的圖像描述生成方法分為4大類,即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法,并闡述了各類方法的基本概念、代表性方法和研究現狀,重點討論了基于編碼器-解碼器架構的各種方法及其創新思路,如多模態空間、視覺空間、語義空間、注意機制、模型優化等.接著,從實驗的角度給出圖像描述生成的常用數據集和評估措施,并在2個基準數據集上比較了一些典型方法的性能.最后,以提升圖像描述的準確性、完整性、新穎性、多樣性為依據,展示了圖像描述生成的未來發展趨勢.

隨著互聯網與信息技術的發展,多媒體數據呈現 爆炸性增長的趨勢,從各種信息源(如網絡、新聞、 相機等)上可獲得的圖像數據越來越多.由于圖像數 據具有海量特性和非結構化特性,如何快速有效的組 織、存儲和檢索圖像,成為重要的研究課題,而完備 的圖像語義理解則是其中的關鍵問題[1].盡管從信息 源上獲取的大多數圖像并沒有對應的語義描述,但人 類仍然能夠在很大程度上理解它們.也就是說,人類 很容易就能完成涉及復雜視覺識別以及場景理解的 各種任務、涉及自然語言交流的各種任務以及 2 種模 態之間的轉換任務.例如,只需快速瀏覽圖像就足以 讓人指出并描述關于視覺場景的大量細節,而這對于 機器來說目前仍然是難以完成的任務.為了實現圖像 數據的結構化和半結構化,從語義上更完備地理解圖 像數據,從而進一步研究更符合人類感知的視覺智 能,迫切需要機器能夠為給定圖像自動地生成自然語 言描述.

計算機視覺研究如何理解圖像和視頻,而自然語 言處理研究如何分析和生成文本.盡管這 2 個領域的 研究都采用類似的人工智能和機器學習方法,但在很 長一段時間里它們都是各自發展而很少交叉.近幾 年,結合視覺和語言的跨模態問題受到了廣泛關 注.事實上,許多日常生活中的任務都具有這種跨模 態的特性.例如,看報紙時解釋圖片的上下文信息, 聽報告時為理解講話而搭配圖表,網頁上提供大量結 合視覺信息和自然語言的數據(帶標簽的照片、新聞 里的圖片視頻、具有多模態性質的社交媒體)等.為 完成結合視覺和語言的任務并充分利用多模態數據, 計算機視覺和自然語言處理 2 個領域的聯系越來越 緊密. 在這個新的視覺和語言交叉的研究領域中,圖像 描述生成是個重要的任務,該任務包括獲取圖像信 息、分析其視覺內容、生成文本描述以說明圖像中的 顯著物體和行為等步驟[2-5].圖 1 給出了幾個根據圖 像內容生成描述語句的實例.

付費5元查看完整內容
北京阿比特科技有限公司