亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

醫學圖像分割在各種醫療保健應用中起著關鍵作用,可實現準確診斷、治療計劃和疾病監測。近年來,視覺 Transformer (ViTs)作為一種有前景的技術,用于解決醫學圖像分割的挑戰。在醫學圖像中,結構通常高度互連和全局分布。ViTs利用其多 Scale 注意機制來模擬圖像中的長程關系。然而,它們確實缺乏與圖像相關的歸納偏見和翻譯不變性,這可能會影響它們的性能。近年來,研究人員提出了一些將卷積神經網絡(CNNs)納入其結構的ViTs基方法,稱為混合視覺 Transformer (HVTs),以捕獲圖像中的局部相關性,并捕捉圖像中的全局信息。本文詳細介紹了ViTs和HVTs在醫學圖像分割方面的最新進展。除了對ViTs和HVTs基醫學圖像分割方法的分類外,作者還概述了它們在幾種醫學圖像模式中的實時應用。本文可作為研究人員、醫療保健從業者和學生的有益資源,以了解基于ViTs的醫學圖像分割的最新方法。

1 Introduction

在醫學圖像分析中,圖像分割起著重要作用。在醫學圖像中進行準確而高效的分割可以幫助醫生識別和評估特定的解剖特征、疾病或感興趣的區域。這些分割區域然后被分析,以估計疾病預后并制定有效的治療策略。 在過去的十年中,利用深度學習技術在醫學圖像分割領域取得了顯著的進步,尤其是卷積神經網絡(CNNs),因為它們能夠從未處理的數據中捕獲復雜的模式。CNNs傾向于捕獲圖像中的局部相關性,這使得它們能夠學習整個圖像中分布的局部模式。從圖像中提取2D特征的固有性質使它們優于傳統方法。UNet是改變了醫學圖像分割任務的一類基于CNN的編碼器-解碼器技術。 隨著時間的推移,許多UNet類似的算法被提出用于各種醫學圖像分割任務,在各種醫學圖像模式中取得了顯著的改進。然而,它們在圖像中的全局關系建模能力受到卷積算子的局部性質的限制。 研究人員提出了一些方法來將全局信息納入基于CNN的分割架構中。在這方面,各種基于注意力的方法已經發展起來,以關注醫學圖像中的重要區域。最近,最初用于自然圖像的視覺 Transformer (ViTs)在計算機視覺和醫學圖像分析等各種圖像相關領域中取得了突出地位。 ViTs中的多 Scale 自注意力機制(MSA)具有捕獲圖像內全局關系的功能。基于ViTs的架構在處理各種圖像模式下的復雜醫學圖像分割任務中取得了顯著結果。ViTs固有的從醫學圖像中建模全局特征的能力涉及首先將圖像分割成patch,然后通過他們的自注意力機制處理每個patch。然而,ViT架構不包括與圖像相關的歸納偏差,以處理圖像中的位置變化。此外,它們的性能可能會受到訓練數據量的影響,因為ViT模型需要大量的訓練數據進行學習。

近年來,將卷積神經網絡(CNN)的歸納偏差集成到ViT架構中的興趣日益增長,導致CNN-transformer的產生,也稱為混合視覺 Transformer (HVTs)。這些CNN-transformer架構將ViTs的多 Scale 自注意力機制(MSA)機制與CNN的卷積操作相結合,以在圖像中建模局部和全局關系。已經開發了許多新穎的框架,利用CNN-Transformer架構在醫學圖像分割等相關任務上展示出令人印象深刻的結果。 由于基于ViTs的醫學圖像分割技術迅速發展,已經進行了許多有趣的調查以回顧這些方法。這些調查大多數是針對特定器官或回顧特定模式。在本論文中,作者綜合調查了各種模態的ViTs基分割方法。此外,作者將這些方法分為兩類:

  1. ViTs基礎方法
  2. HVTs基礎方法

其次,作者為HVT設計了一個分類法,包括:

  1. 基于編碼器的方法
  2. 基于解碼器的方法
  3. 編碼器-解碼器集成方法

圖1是本綜述的具體的流程:

2. Medical Image Segmentation Overview

診斷和治療疾病和其他醫療狀況需要醫學測試來幫助醫生查看體內的情況。在這方面,醫學影像是必不可少的,因為它允許非侵入性觀察和診斷各種醫療狀況。不同的成像模式提供對人類身體不同方面的獨特見解。 醫學圖像在診斷和治療疾病方面具有重要意義,因為它提供了有關癥狀的有價值信息。然而,在像素級別的醫學圖像檢查中,只有某些區域對準確診斷和治療有所貢獻,如CT掃描中的腫瘤區域。因此,將感興趣的區域(無論是感染區域還是異常器官)進行分割仍然是一個對研究人員來說既重要又具有挑戰性的任務。準確地識別感興趣區域是醫學影像特征分割中最關鍵的一步,這對于輔助診斷、圖像引導手術和治療計劃至關重要。圖像分割包括將圖像劃分為根據感興趣區域劃分成幾部分和目標。因此,醫學影像中最重要特征分割的任務就是準確地識別感興趣區域。 醫學圖像分割可以分為語義分割、實例分割和全像素分割三個子任務。語義分割通常被視為像素級別的分類,即對圖像中的每個像素進行標簽。實例分割檢測和勾勒出圖像中的每個關注項目或目標,并繪制實例的邊界框。而全像素分割的目標是提供更全面的了解,通過結合語義分割和實例分割。它不僅為圖像中的每個像素分配一個類別標簽(如語義分割),而且還對同一類別中的不同實例(如實例分割)進行分類。 在臨床病理學中,金標準是通過病理學家進行手工醫學圖像分析。這種手工檢查涉及經過高度訓練的病理學家通過視覺觀察醫學圖像并手動勾勒或 Token 感興趣的區域,如腫瘤、病變或特定解剖結構。這種手工評估既費時又費力,且可能受到人類主觀性的影響,需要專家醫生[26]。然而,數字病理學引入了一種新的范式轉變,通過提供研究人員設計自動化系統的能力,實現快速、準確的診斷。這些自動化系統可以通過為病理學家提供快速診斷(可用作第二意見)來幫助他們減輕負擔[27]。在醫學影像的不同模式中,描述了人體內部結構。 這些模態的分割可以隔離特定器官,同時幫助在特定器官內識別疾病。 對于自動化診斷,多年來已經應用了許多傳統的醫學圖像分割方法。這些方法包括基于區域的分割技術、邊緣檢測技術、統計形狀模型、活動輪廓模型、閾值、聚類和機器學習方法[28]。然而,精確自動分割醫學圖像仍然是一個巨大的挑戰,原因有:

  1. 醫學圖像中目標的大小范圍很大
  2. 結構輪廓的歧義,以及與多樣紋理變化和復雜形狀相結合,容易產生不準確的結果
  3. 低強度對比度下從背景中隔離感興趣目標的挑戰
  4. 缺乏足夠多的訓練數據集

在過去的幾年里,深度學習領域的進步,尤其是卷積神經網絡(CNNs)的勝利,大大提高了醫學圖像分割算法的性能。基于深度學習的分割算法在具有密集標簽的情況下表現出卓越的性能,特別是每個像素的標注。CNN有效地應用于醫學圖像分割和分類,以評估臨床實踐中的各種成像技術,包括超聲、MRI、X光等。然而,由于卷積濾波器的限制接收域,它們無法捕獲醫學圖像中的持久依賴關系。U-Net在該領域占主導地位,因為其高效性能和出色準確性,這得益于包括跳接連接和擴展解碼器網絡至今。V-Net是基于FCN的U-Net的杰出架構變體,其操作在3D中進行,以處理體積圖像。 隨著ViTs的出現, Transformer (Transformer)已成為執行各種與圖像相關的任務的可行方法,包括圖像分割、圖像識別和目標檢測[33]。 Transformer ,由于其學習全局上下文的能力,在精確醫學圖像分割方面表現出色。這導致了顯著的性能改進,尤其是在具有較大感受野的器官分割中,如肺分割。 Transformer 通過自注意力機制提取全局和長期依賴關系,而CNN,具有局部感受野,通常在圖像中學習局部相關性。 基于 Transformer 的方法在各種實際分割任務中已被證明非常有效,包括大腦腫瘤/組織分割,細胞核分割,結直腸癌分割,肝病灶分割,腎腫瘤分割,多器官分割,以及皮膚病變分割。最近,研究人員將兩種架構相結合,以合并其優勢。這些進步促進了醫學圖像分割領域的發展。

3 Introduction to Vision Transformers

在過去的十年里,CNN廣泛應用于各種計算機視覺任務,如醫學圖像分析。然而,卷積濾波器的有限感受野限制了CNN在醫學圖像中捕捉持久依賴關系的能力,這可能會影響它們的性能。最近,Transformer和ViTs由于其出色的性能引起了研究人員的廣泛關注。Transformer最初被提出用于機器翻譯,但由于它們能夠通過自注意力機制處理序列,因此在許多自然語言處理(NLP)任務中變得流行。 受到自然語言處理(NLP)中Transformer的成功啟發,Dosovitskiy等人提出了一種ViT,用于處理圖像作為一個序列的 Token (tokens),而不是一個2D像素網格。ViT架構在多個與圖像相關的任務中取得了顯著的成功,這鼓勵研究人員使用改進的ViTs。這些改進包括更改位置編碼技術、自注意力機制或創建新的架構變體。

Fundamentals of ViTs

ViTs基于Transformer架構來處理圖像數據,從而顛覆了計算機視覺領域。通過將輸入圖像像素轉換為序列,并使用自注意力機制來識別圖像部分之間的長程依賴性和交互,ViT可以識別出存在于圖像中的內在結構。 ViT將輸入圖像分割成非重疊的固定大小的 Patch ,并將每個 Patch 轉換為特征表示,稱為 Patch 嵌入。這些 Patch 嵌入經過線性變換,并作為 Transformer 編碼器的輸入 Token 。 Patch 允許模型觀察整個圖像并捕捉全局上下文。為了編碼位置信息,在 Patch 嵌入中添加了位置嵌入。這有助于模型保持 Patch 在原始圖像中的空間排列意識。 Transformer 編碼器是ViT架構的基本構建模塊。它包含多個MSA(多 Scale 自注意力機制)和前饋神經網絡。MSA頭使模型能夠捕獲 Patch 之間的局部和全局關系,而前饋網絡引入非線性以改進特征。最后,編碼器層的輸出通常被池化,并添加一個分類頭以進行預測。對于圖像分類任務,通常在池化表示后跟隨一個全連接層,其中使用softmax激活函數進行類概率預測,而對于圖像分割,使用專門的解碼器塊以獲得圖像掩碼。

4. ViTs在醫學圖像分割中的應用

ViTs在醫學圖像分割方面的應用取得了顯著的成果。ViTs架構基于Transformer,可以處理圖像數據,從而在計算機視覺領域引起了革命性的變革[13]。通過將輸入圖像像素轉換為序列,并使用自注意力機制來識別圖像部分之間的長程依賴性和交互,ViTs可以識別出存在于圖像中的內在結構[49]。 ViTs將輸入圖像分割成非重疊的固定大小的 Patch ,并將每個 Patch 轉換為特征表示,稱為 Patch 嵌入[50]。這些 Patch 嵌入經過線性變換,并作為 Transformer 編碼器[50]的輸入 Token 。 Patch 允許模型觀察整個圖像并捕捉全局上下文。為了編碼位置信息,位置嵌入[51]被添加到 Patch 嵌入[51]中。這有助于模型保持 Patch 在原始圖像中的空間排列意識。 Transformer 編碼器是ViT架構的基本構建模塊。它包含多個MSA(多 Scale 自注意力機制)和前饋神經網絡[52]。MSA頭使模型能夠捕獲 Patch 之間的局部和全局關系,而前饋網絡引入非線性以改進特征[52]。最后,編碼器層的輸出通常被池化,并添加一個分類頭以進行預測。對于圖像分類任務,通常在池化表示[53]后跟隨一個全連接層,其中使用softmax激活函數進行類概率預測,而對于圖像分割,使用專門的解碼器塊[53]以獲得圖像掩碼[53]。 近年來,ViTs在醫學圖像分割方面取得了許多進展。一些研究人員提出了基于ViTs的醫學圖像分割方法,如Hybrid Vision Transformers (HVTs)[16]。這些CNN-Transformer架構將ViTs的多 Scale 自注意力機制(MSA)機制與CNN的卷積操作相結合,以在圖像中建模局部和全局關系。這些新穎的框架在醫學圖像分割等相關任務上展示了令人印象深刻的結果[17]。 在本文中,作者對最近的ViTs基醫學圖像分割方法進行了詳細調查。作者將其分為兩類:

  1. 基于ViTs的方法
  2. 基于HVTs的方法

作者進一步將HVTs方法分為三類:

  1. 基于編碼器的方法
  2. 基于解碼器的方法
  3. 編碼器-解碼器集成方法

作者詳細介紹了這些方法,并對其在各種醫學圖像模式中的實時應用進行了概述。本文可能對研究人員、臨床醫生等在理解基于ViTs的醫學圖像分割的最新方法方面具有很大的價值。 CNNs在醫學圖像分析中經常被用于各種應用,如腫瘤檢測[54, 55],COVID-19檢測[56],皮膚病變檢測[57],以及分割[58]。然而,由于其感受野有限,CNNs可能難以學習顯式的長程依賴性[59]。相比之下,基于ViT的醫學診斷系統可以捕獲大的感受野,并在各種醫學圖像相關任務上表現出卓越的性能[60]。 已經開發了許多基于ViT的醫學圖像模式系統,包括:

  1. 基于分類的系統
  2. 基于檢測的系統
  3. 基于分割的系統

在醫學影像中,對各種類型的癌變細胞的分類和檢測對于病理學家及時進行疾病診斷至關重要。ViTs和更 recently 由于它們在CNNs上的明顯優勢,已成為高度有效的解決方案[64]。基于ViT和HVT的系統在各種醫學圖像分類任務上表現出顯著的性能[65],包括乳腺超聲圖像分類[66],COVID-19檢測[67, 68, 69, 70],組織學圖像分類[71, 72, 73, 74],有絲分裂檢測[75, 76, 77],皮膚病變檢測[78, 79, 80, 81]。這些方法顯著提高了醫學圖像分類的準確性和效率,并有可能增強臨床診斷和決策。

ViT-based Medical Image Segmentation Approaches

基于分割的ViTs已經提出,可以根據其架構修改和采用的不同訓練策略進行廣泛分類。大多數基于ViTs的醫學圖像分割方法使用類似于UNet的編碼器-解碼器架構,其中ViT架構可以采用以下:

  1. 在編碼器中
  2. 在解碼器中
  3. 在編碼器-解碼器之間
  4. 編碼器和解碼器都是ViTs架構

下面對這些類別的詳細信息進行討論。

**4.1.1 ViT in Encoder

編碼器-解碼器架構是大多數醫學圖像分割技術的基石。編碼器架構負責學習圖像中的隱藏嵌入,然后通過解碼器解碼到分割掩碼。為了在編碼器和解碼器之間實現有效信息傳遞,還添加了跳接連接和傳統的順序流。這些跳接路徑可以是直接連接或基于CNN的處理塊。許多基于ViT的醫學圖像分割方法在其編碼器中使用ViT架構,以將全局關系融入其學習的潛在空間中。這種技術得益于ViT的MSA,可以利用全局特征,同時特征提取在編碼器塊中。基于CNN的解碼器則利用這種高級信息進行像素級分割掩碼的預測。

在Hatamizadeh等人的一項研究中,開發了一種基于Transformer的UNETR(UNet Transformer)架構,通過克服UNet的局部相關性限制,實現3D醫學圖像分割。它具有基于ViT的編碼器,有效地捕獲輸入體積的多 Scale 全局信息。為了計算最終語義分割輸出,編碼器通過跳接連接直接鏈接到不同分辨率的解碼器,通過跳接連接,類似于U-Net。

**4.1.2 ViT in Decoder

一些編碼器-解碼器技術只在其解碼部分將ViT集成,以準確預測分割圖像。由于全局上下文對于預測邊界完美的分割掩碼和區分背景和感興趣的目標非常重要,因此MHSA在解碼階段對于這種目標非常有利。ConvTransSeg使用基于CNN的編碼器進行特征學習,并使用ViT基解碼器,在多個階段鏈接。ConvTransSeg在二分類和多分類分割問題上顯示出優越的結果,包括皮膚病變、息肉、細胞和腦組織。

**4.1.3 ViT in both Encoder-Decoder

許多研究人員在編碼器和解碼器架構中都利用了ViTs,以充分利用注意力機制。Coa等人引入了Swin-Unet,用于醫學圖像分割。他們的架構基于Swin Transformer,其中編碼器采用移位窗口方法,解碼器中具有patch嵌入層。編碼器和解碼器架構都是分層設計的,以增強分割準確性和魯棒性。Zhou等人提出了nnFormer,這是一種體積 Transformer 網絡,用于進行分割。該架構利用基于注意力的跳接連接,以將體積圖像中的局部和長期關系相結合。

此外,他們利用了體積-MSA(V-MSA)和移位版本-MSA(SV-MSA)的多頭自注意力,以降低計算復雜性和捕捉多 Scale 信息。黃等人提出的MISSFormer是一種編碼器-解碼器架構,它融合了增強Transformer Block和增強Transformer Context Bridge,以減少計算復雜性。TransDeepLab[88]將DeepLabv3網絡[89][90]與基于移位窗口的Swin Transformer相結合。它在Swin-Transformer模塊內使用可變窗口大小來融合多個 Scale 上的信息。

**4.1.4 ViT in between Encoder-Decoder

李等人提出了一種基于ViTs的ATTransUNet架構,該架構利用自適應 Token 。在他們模型中,ViTs被集成到跳接連接[90]中。他們使用自適應 Token 提取模塊(ATEM)在編碼器中提取圖像中最有判別力的視覺 Token 。這導致復雜性降低和性能增強。 在解碼器架構中,他們采用了一種選擇性特征強化模塊(SFRM)來關注最具有貢獻的特征。 雙交叉注意力(DCA),這是一種簡單但強大的注意力模塊,可改進U-Net基礎架構中的跳接連接,用于醫學圖像分割,由Ates及其同事提出[91]。通過從多 Scale 編碼器獲得的特征建模信道和空間關系,DCA在編碼器和解碼器特征之間建立了語義鴻溝。DCA首先使用通道交叉注意力(CCA)和空間交叉注意力(SCA)模塊來建模信道和空間關系。最后,將編碼器特征上采樣以對應解碼器的相應層。

ViT-V-Net在CNN編碼器和解碼器之間的瓶頸層應用ViT塊,用于無監督的體積醫學圖像配準任務[92]。CoTr提供了一種高效的混合架構,使用CNN進行特征提取,使用可變形自注意力機制進行全局上下文建模[93]。使用的選擇性多 Scale 可變形多頭自注意力(MS-DMSA)減少計算復雜性,并允許更快地收斂。

Hybrid ViT-Based Medical Image Segmentation Approaches

純粹的ViT架構,完全依賴于注意力機制,缺乏卷積運算符,可能導致低級細節丟失,從而導致不準確的分割結果。HVTs通過集成ViTs和CNN架構的優勢,展示了捕獲輸入數據中長程和局部上下文的能力。這種獨特的組合使HVTs在各種任務上都能實現尖端性能,特別是在醫學圖像分割方面表現尤為突出。

**4.2.1 Hybrid ViT in Encoder

最近研究中最常見的趨勢是將HVTs集成到編碼器階段。TransUNet在其編碼器階段使用HVT架構,在解碼器階段使用級聯上采樣器[94]。它結合了ViT和U-Net的優勢,捕捉輸入圖像中的局部相關性和長期關系,以獲得準確的分割結果。Wang等人提出了一種名為TransBTS的分割架構,將ViT和3D CNN分別用于獲取全局上下文信息和局部細節[95]。它處理3D醫學體積數據,以捕捉圖像切片中的局部相關性和長期依賴關系。TransFuse利用了一個雙融合模塊來結合其編碼器和解碼器分支,分別是CNN和ViT架構[96]。

MedT引入了一種新穎的注意力和訓練策略,用于醫學圖像分割[97]。它包括一個全局模塊(基于ViT)和一個局部模塊(基于CNN)來捕捉像素中的高層次和細粒度細節。Swin-UNETR將Swin Transformer與U形架構相結合,用于分割腦腫瘤區域[98]。這涉及將輸入劃分為非重疊的 Patch ,并利用窗口機制。然而,將自注意力機制集成到CNN中可能導致由于空間尺寸大而計算復雜性高。在這方面,H2Former被引入,以有效結合MSA和CNN的優勢,進行醫學圖像分割[99]。H2Former在保持模型參數、浮點運算(FLOPs)和推理時間方面的計算效率方面超過了以前的技術。

**4.2.2 Hybrid ViT in Decoder

為了在解碼階段利用Hybrid ViT的優勢,近年來研究將HVT集成到解碼器架構中。最近一項研究提出了一種統一的框架UNetFormer,在編碼側使用3D Swin Transformer,在解碼側使用CNN和Transformer的組合。

**4.2.3 Hybrid ViT in both Encoder-Decoder

許多研究人員在他們的架構中同時使用ViT和基于CNN的模塊,在編碼器和解碼器部分。最近,MaxViT-UNet作為一種創新的高ViT-UNet解碼器,專門用于醫學圖像分割[101]。作者有效地利用了多軸自注意力機制,允許模型在局部和全局軸上關注特征,從而增強目標和背景區域之間的判別能力,從而提高分割效率[102]。

5 ViT-based Medical Image Segmentation Applications

由于ViTs能夠捕捉像素之間的全局關系,醫學圖像分析領域出現了指數級的增長。基于ViTs的醫學圖像分割可以廣泛地根據特定的圖像模式進行分類。這些方法包括但不限于:

  1. CT圖像上的醫學圖像分割
  2. 組織學圖像上的醫學圖像分割
  3. 顯微鏡圖像上的醫學圖像分割
  4. MRI圖像上的醫學圖像分割
  5. 超聲圖像上的醫學圖像分割
  6. X光圖像上的醫學圖像分割

醫學圖像處理是醫學分析的主要步驟,通過各種任務,如細胞計數、分類、檢測和分割,促進診斷的熟練程度。然而,醫學圖像分割是醫學診斷中最常用的任務[103, 104, 105]。

CT Images

CT(計算機斷層掃描)是一種先進的醫學影像技術,它使用X射線來生成詳細的斷層身體圖像,用于疾病檢測和診斷。目前,用于CT圖像分割的技術大多數使用CNN,但ViTs的最近進展已經改變了這一趨勢,許多針對CT模態的框架已經出現[106, 107, 108]。 TAU-Net3+用ViT替換了UNet的CNN編碼器,用于腎臟腫瘤分割,并在跳接連接中添加了一種新穎的注意力機制,稱為編碼器-解碼器 Transformer (EDformer),以學習局部特性。 為了應對在CT圖像中實現準確前列腺分割所遇到的挑戰,FocalUNetR引入了一種創新圖像分割框架,利用一個關注 Transformer [108]。這種架構設計有效地捕獲了局部視覺特征和全面上下文信息,具有高效性和有效性。作者創新地引入了一個輔助模塊,稱為“邊界誘導的標簽回歸”,以補充主要的前列腺分割任務。Hoa等人提出了DBM-ViT,用于利用CT和胸X光圖像對COVID-19和其他肺炎類型進行鑒別[110]。DBM-ViT中使用具有不同擴展率的逐點卷積增強了全局信息的捕捉。STHarDNet由Gu等人開發,用于進行腦出血分割[111]。在他們方法中,HarDNet和Swin Transformer被集成,以增強每個模型單獨實現的分割性能。

Histopathological Images

組織病理學圖像是從組織學檢查樣本中獲得的,由病理學家用來研究細胞結構和發現顯微鏡異常或疾病[112]。基于組織病理學的分析對于及時的癌癥診斷和預防至關重要。雖然ViTs在組織病理學圖像上的應用還處于早期階段,但它們已經在各種組織病理學分割任務上取得了有前景的結果[113, 114, 115]。 Wang等人提出了DHUnet,這是一種創新的功能融合方法,將全局和局部特征融合在一起,用于分割WSI(Whole Slide Image)。這種方法將Swin Transformer和ConvNeXt模塊集成在一個雙分支分層的U形架構中[116]。 另一種最近的方法是引入了具有級聯上采樣(SwinCup)的Swin Transformer來分割組織病理學圖像[117]。為了提高SwinCup提出的特征聚合,作者引入了一個與編碼器結合的級聯上采樣解碼器。 在另一種技術中,MaxViT-UNet,作者提出了一種類似于Unet的編碼器-解碼器CNN-Transformer框架[101]。提出的混合解碼器利用多軸自注意力(Max-SA)來提高分割結果。這些模型隨后有可能在臨床試驗中為患者分層,為目標療法選擇患者以及個性化治療計劃做出貢獻。

Microscopy Images

顯微鏡技術涉及使用顯微鏡觀察微小的物體,如細胞、組織和微生物[118]。不同類型的顯微鏡,如光學顯微鏡、電子顯微鏡和熒光顯微鏡,提供了不同程度的細節和分辨率[119, 120]。皮膚病變的分割是計算機輔助診斷和治療計劃中的關鍵步驟。它使可以客觀地識別和測量病變的大小、形狀和特征,在分類良性病變和惡性病變、早期檢測和監測時間變化中發揮重要作用。從ViTs在各種醫學領域的成功應用中得到啟示,最近的方法提出使用ViTs為基礎的解決方案進行皮膚病變分割[78, 79, 80]。值得注意的是,在LesionAid框架[80]中,作者提出了一種新穎的多類預測方法用于皮膚病變,使用了ViT和ViTGAN[121]。為了解決類別不平衡問題,這些技術中使用了基于ViTs的生成對抗網絡(GANs)。 視網膜血管的結構和功能改變與心血管疾病有關,包括冠狀動脈疾病、動脈粥樣硬化和高血壓。對視網膜圖像的自動分割和隨后的分析對于評估和預測相關疾病至關重要,從而有助于公共衛生。在之前的視網膜血管分割研究中,各種研究方法創新地利用了 Transformer 的能力[122, 123, 124, 125, 126, 127, 128]。OCT2Former [125] 采用編碼器-解碼器架構,使用動態 Transformer 編碼器與輕量級解碼器相結合。動態 Token 聚合 Transformer 在動態 Transformer 編碼器中捕獲視網膜血管的全局上下文信息,而輔助卷積分支解決了 Transformer 固有的歸納偏差。Du等人提出了一種集成策略,將不同基礎深度學習模型集成起來,如FCN-Transformer和金字塔視覺 Transformer (PVT),用于視網膜血管分割[124]。

MRI Images

磁共振成像(MRI)通過應用強大的磁場在人體內生成復雜的視覺表示,用于顯示組織和器官。這種成像模式在檢查關節、肌肉、心臟和肝臟等解剖區域時特別有價值。 近年來,ViT-based方法在心臟磁共振成像(MRI)數據分割方面的應用顯著增加,如[130, 131, 132, 133]所示的方法。范等人提出了一種知識細化技術,稱為視覺Transformer與特征再組合和特征蒸餾(ViT-FRD)。在他們方法中,ViT作為學生網絡,吸收CNN的知識,并通過優化的蒸餾損失作為教師網絡。ViT-FRD將兩種改進措施納入以提高訓練效率和效果。 腦腫瘤分割的自動化和準確方法的發展有可能加速跨一系列腫瘤表型的診斷。近年來,采用Transformer-based模型有效地分割腦腫瘤的研究明顯增加。例如,DenseTrans創造性地將Swin Transformer與增強的UNet++網絡相結合。這種集成旨在從高分辨率層的卷積層中提取局部特征,并從Swin Transformer的位移窗口操作和自注意力機制中提取全局特征。 在3DCATBraTs的情況下,研究人員將Swin Transformer用于3D MRI圖像中的腦腫瘤分割。這種Transformer包括一個修改后的CNN-encoder架構,具有殘差塊和通道注意力模塊。此外,在不同的調查中,研究人員引入了一個強大的3D融合分割網絡AMTNet,該網絡基于傳統的U形結構。值得注意的是,AMTNet包括一個基于Transformer的特征融合模塊,旨在增強多模態特征的集成。 在利用MRI圖像進行乳腺癌病變分割領域,如[139, 140, 141]等最近的研究,Iqbal等人提出BTS-ST,該方法受到Swin Transformer的啟發,以增強特征表示能力,特別是對于形狀不規則的腫瘤。BTS-ST創新地將Swin Transformer塊中的像素級相關性編碼空間知識。 為解決信息損失問題,引入了特征壓縮塊,并使用關系聚合塊將Swin Transformer與CNN的特征進行有序的層次組合。在另一項研究中,Muller Franzes等人提出了TraBS[98],該方法增強了對多機構MRI數據中乳腺癌分割的原始SwinUNETR模型。TraBS策略性地利用非等距 Kernel 和步長在初始兩階段保持一致的深度,并集成深度監督以處理低分辨率層。

Ultrasound Images

超聲或聲學,使用高頻聲波產生器官和組織的實時圖像。在產科中廣泛使用,用于監測懷孕和評估胎兒發育,超聲在醫療保健中占據重要地位。早期發現乳腺癌的潛力,可降低40%以上的死亡率,突顯了對于醫療保健從業者進行自動化乳腺腫瘤檢測的重要性。 朱等人[144]提出了區域感知 Transformer 網絡(RAT-Net),該網絡巧妙地將不同 Scale 的乳腺癌區域的信息集成在一起,從而實現精確的分割。同樣,劉等人[145]設計了一種混合架構,將 Transformer 層集成到3D UNet的解碼器部分,以便在 Voxel 乳腺數據中實現高效的腫瘤分割。LET-Net架構[146]最近提出,結合了 Transformer 和卷積方法。其特征對齊局部增強模塊有助于提取獨特的局部特征,同時保持與相鄰級別特征的對齊。此外,逐步局部誘導解碼器專注于通過一系列局部重構和細化階段恢復高分辨率的空間細節,受自適應重構核的指導,并通過拆分注意力機制增強。 類似地,MRC-TransUNet [147] 提出了一個創新的方法,將 Transformer 和UNet組件合并。它包括一個輕量級的MR-ViT,以彌合語義差距,并利用一個相互關注模塊(RPA)來抵消潛在的細節損失。這些研究努力共同表明,基于ViTs的技術具有顯著提高醫學圖像分割準確性的潛力,并有望在各種臨床應用中發揮作用。

X-Ray Images

X射線圖像在診斷和治療上都起著重要的作用,為人體內部器官提供了無價之寶的見解。現代深度學習模型可以有效地使用X射線圖像來診斷各種醫學疾病,它們在這個過程中的重要作用是眾所周知的。 牙根分割是牙科圖像分析的一個重要階段,因為它允許牙醫精確測量牙根的大小和形狀,并發現可能存在的任何異常。許多最近的工作都采用了ViTs進行牙根分割[129, 149, 150]。楊等人引入了ImplantFormer,這是一個基于Transformer的種植體位置回歸網絡,使用口腔CT數據自動預測種植體的位置[149]。ImplantFormer使用牙齒冠部區域的2D軸向圖像來預測種植體的位置,并在擬合中心線之前精確定位種植體在牙根中。在另一項研究中[151],趙等人引入了SwinUnet,這是一個專門用于全景X光片分割的U形Transformer基礎架構,包括編碼器、解碼器和跳接連接。 乳腺X線攝影是一種特定的X射線檢查方法,用于檢查乳腺組織是否有乳腺癌的跡象。某些研究已經針對改進腫瘤邊界分割的架構設計進行了努力[148, 152]。CSwin-PNet最近被提出用于乳腺病變分割任務。其架構基于一個金字塔網絡,將CNN和Swin Transformer相結合[148]。

6 Challenges

VITs在醫學圖像分割方面具有巨大的潛力,可以徹底改變醫學影像。通過使用Transformer,這是一種在自然語言分析中非常成功的方法,ViTs提供了一種創新的方法來分析和提取醫學圖像中的有價值的數據。然而,盡管它們具有潛力,但ViTs在臨床設置中應用之前仍然面臨許多挑戰和限制。 1. 缺乏空間信息 1. 擴展性和計算成本 1. 數據稀缺和類別不平衡 1. 標注質量 1. 可解釋性模型泛化

7 Future Recommendations

鑒于醫學圖像分割領域中視覺 Transformer 所面臨的獨特挑戰,以下是一些可能的未來研究和創新方向: 1. 開發新的架構 1. 改進訓練范式和方法 1. 探索集成方法 1. 將領域知識集成 1. 遷移學習 1. 多模態學習

8 Conclusion

基于ViTs的圖像分割技術在許多與圖像相關的應用中表現出優越性能,包括醫學圖像。ViTs中的自注意力機制使模型能夠學習圖像中的全局關系。本文詳細討論了幾種架構修改以及一些最新的趨勢和訓練技術,以提高基于ViTs的醫學圖像分割方法的表現。 然而,ViTs缺乏捕捉醫學圖像中局部相關性的趨勢,這可能影響其性能。因此,研究人員提出了一些利用CNNs的ViTs醫學圖像分割方法,以同時捕捉圖像的局部和全局視角。作者還詳細討論了基于CNN和ViTs的醫學圖像分割技術,并按照它們在基于編碼器-解碼器架構中的位置進行分類。此外,作者還對各種ViTs和HVTs在實際醫學圖像分割應用中的使用方式進行了器官級別的概述。

參考

[1]. A Recent Survey of Vision Transformers for Medical Image Segmentation.

付費5元查看完整內容

相關內容

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容

對話系統的進步已經革命性地改變了信息獲取方式,超越了單一查詢的局限性。然而,開發對話系統需要大量訓練數據,這在資源匱乏的領域和語言中是一個挑戰。傳統的數據收集方法如眾包是勞動密集型和耗時的,因此在這種情況下效率不高。數據增強(DA)是一種有效的方法,可以減輕對話系統中數據稀缺的問題。這個教程提供了一個全面且最新的數據增強方法綜述,在對話系統背景下。它突出了最近在對話增強、開放領域和任務導向對話生成方面的進展,以及評估這些模型的不同范式。我們還討論了當前的挑戰和未來的方向,以幫助研究人員和從業者在這一領域進一步推進。 目錄內容:

講者:

付費5元查看完整內容

圖像恢復(IR)一直是低級視覺領域中不可或缺且具有挑戰性的任務,旨在提高由各種形式的退化所扭曲的圖像的主觀質量。近期,擴散模型在AIGC的視覺生成方面取得了顯著進展,從而引起了一個直觀的問題,“擴散模型是否可以提升圖像恢復”。為了回答這個問題,一些開創性的研究試圖將擴散模型整合到圖像恢復任務中,從而取得了比先前基于GAN的方法更好的表現。盡管如此,關于基于擴散模型的圖像恢復的全面而有啟發性的綜述仍然很少。在本文中,我們是第一個全面回顧近期基于擴散模型的圖像恢復方法的,涵蓋了學習范例、條件策略、框架設計、建模策略和評估。具體來說,我們首先簡要介紹擴散模型的背景,然后介紹兩種在圖像恢復中利用擴散模型的流行工作流。隨后,我們分類并強調使用擴散模型進行IR和盲/實際世界IR的創新設計,旨在激發未來的發展。為了徹底評估現有的方法,我們總結了常用的數據集、實施細節和評估指標。此外,我們為開源方法在三個任務中提供了客觀的比較,包括圖像超分辨率、去模糊和修復。最后,受到現有工作中的限制的啟發,我們為基于擴散模型的IR提出了五個潛在的并且具有挑戰性的未來研究方向,包括采樣效率、模型壓縮、扭曲模擬和估計、扭曲不變學習和框架設計。

資源庫將在 //github.com/lixinustc/Awesome-diffusion-model-for-image-processing/ 上發布。

圖像恢復(IR)一直是低層次視覺任務中的長期研究主題,在提高圖像的主觀質量方面發揮著不可替代的作用。流行的IR任務包括圖像超分辨率(SR)[1-10]、去模糊[11-17]、去噪[18-25]、修復[26-31]和壓縮偽影去除[32-38]等。一些IR任務的視覺示例顯示在圖1中。為了恢復扭曲的圖像,傳統的IR方法將恢復視為信號處理,并從空間或頻率的角度使用手工制作的算法減少偽影[18, 39-44]。隨著深度學習的發展,眾多IR工作為各種IR任務定制了一系列數據集,例如,用于SR的DIV2K [45]、Set5 [46]和Set14 [47],用于去雨的Rain800 [48]、Rain200 [?]、Raindrop [49]和DID-MDN [50],以及用于運動去模糊的REDS [51]和Gopro [52]等。利用這些數據集,大多數近期的工作[1-3, 7-11, 13, 16, 19, 21-23, 32-34, 53-55]專注于通過基于卷積神經網絡(CNNs)[56]或Transformer [57]的精心設計的骨干網絡來提高IR網絡針對復雜退化的表示能力。盡管這些工作在客觀質量(例如,PSNR和SSIM)上取得了卓越的進展,但恢復的圖像仍然受到不滿意的紋理生成的困擾,這阻礙了IR方法在實際場景中的應用。

得益于生成模型的發展[58-66],尤其是生成對抗網絡(GAN)[64],一些開創性的IR研究[5, 6, 67-70]指出,先前的像素級損失,例如MSE損失和L1損失容易受到模糊紋理的影響,并將GAN的對抗損失引入到IR網絡的優化中,從而增強其紋理生成能力。例如,SRGAN [5] 和DeblurGAN [12]分別使用像素級損失和對抗損失的組合來實現以感知為導向的SR網絡和去模糊網絡。在他們之后,改進基于GAN的IR的兩個主要方向是增強生成器(即恢復網絡)[5, 6, 71-73]和鑒別器[74-77]。特別是,ESRGAN [6]引入了強大的RRDB [6]作為基于GAN的SR任務的生成器。三種流行的鑒別器,包括像素級鑒別器(U-Net形狀)[74]、塊級鑒別器[75, 78-80]和圖像級鑒別器[76, 77](即VGG類似的架構)被設計來關注不同粒度級別的主觀質量(即從局部到全局)。盡管有上述進展,但大多數基于GAN的IR研究仍然面臨兩個不可避免但至關重要的問題:1) 基于GAN的IR的訓練容易受到模式腐敗和不穩定優化的影響;2) 大多數生成的圖像的紋理似乎是假的和與事實不符的。

近年來,擴散模型作為生成模型的一個新分支浮現出來,為視覺生成任務帶來了一系列的突破。擴散模型的原型可以追溯到工作[81],并由DDPM [82]、NCSN [83]和SDE [84]進一步發展。一般來說,擴散模型由前向/擴散過程和反向過程組成,其中前向過程逐漸增加像素級噪聲到圖像,直到它滿足高斯噪聲,而反向過程旨在通過估算得分的去噪[83]或噪聲預測[82]來重建圖像。與GANs相比,擴散模型產生高保真度和多樣化的生成結果,從而成功地替代了在一系列領域中的GANs,如視覺生成[82-86]和條件視覺生成[86-97]。隨著視覺-語言模型的進步,擴散模型已被擴展到跨模態生成,如StableDiffusion [98]和DALLE-2 [99]。這極大地推動了人工智能生成內容(AIGC)的發展。我們已經在圖2中根據時間線列出了基于擴散模型的代表性作品。

受到擴散模型優越的生成能力的啟發,許多研究探索了它們在圖像恢復任務中的應用,目標是促進紋理的恢復。根據訓練策略,這些工作大致可以分為兩類:1) 第一類[100–109]致力于通過有監督學習從零開始優化用于IR的擴散模型;2) 第二類(即零樣本類)[110–117]努力利用預訓練擴散模型中的生成先驗用于IR。典型地,基于有監督學習的方法需要收集大規模的扭曲/清晰的圖像對,而基于零樣本的方法主要依賴已知的退化模式。這些局限性阻礙了這些基于擴散模型的方法在真實世界場景中的應用,其中的扭曲通常是多種多樣和未知的。為了進一步解決上述問題,一些研究[118–123]已經擴展了擴散模型,通過結合真實世界的扭曲模擬、核估計、領域轉換和扭曲不變學習來處理盲目/真實世界的圖像恢復。

盡管擴散模型在圖像恢復方面已經顯示出顯著的效果,但相關的技術和基準測試顯示出相當的多樣性和復雜性,這使它們難以被追蹤和改進。此外,缺乏一個基于擴散模型的IR的綜合性審查進一步限制了其發展。在本文中,我們首次回顧并總結了基于擴散模型的圖像恢復方法的工作,旨在為圖像恢復社區提供一個結構良好且深入的知識庫,并促進其在該社區內的演變。

在這次綜述中,我們首先在第2部分介紹擴散模型的背景,重點介紹三種基本的建模方法,即NCSN [83]、DDPM [82]和SDE [84],并從優化策略、采樣效率、模型架構和條件策略的角度對擴散模型進行進一步的改進。基于這些初步信息,我們在第3部分從兩個不同的方向闡明了擴散模型在圖像恢復中的進展:1) 基于監督的擴散模型IR,和2) 基于零樣本的擴散模型IR。在第4部分,我們總結了在更實用和具有挑戰性的場景下基于擴散模型的IR,即盲目/真實世界的退化。這旨在進一步增強基于擴散模型的IR方法滿足實際應用需求的能力。為了促進合理和詳盡的比較,在第5部分,我們闡明了在不同的基于擴散模型的IR任務中常用的數據集和實驗設置。此外,還提供了不同任務之間基準的綜合比較。在第6部分,我們深入分析了基于擴散模型的IR的主要挑戰和潛在方向。本次審查的最終結論總結在第7部分。

基于擴散模型的圖像恢復方法

根據擴散模型(DMs)是否針對IR進行無需訓練,我們初步將基于DM的IR方法分類為兩大類,即監督型DM-based方法 [100, 105, 107, 108, 121, 191-194] 和零樣本型DM-based方法 [112, 114, 115, 195-200]。特別地,監督型DM-based IR方法需要從頭開始使用IR數據集的成對的扭曲/干凈圖像來訓練擴散模型。與之前直接將扭曲圖像作為輸入的基于GAN的方法 [201–209] 不同,基于DM的IR采用精心設計的條件機制在反向過程中將扭曲的圖像作為指導。盡管這種方法產生了有希望的紋理生成結果,但它遇到了兩個顯著的限制:1) 從零開始訓練擴散模型依賴于大量的成對訓練數據。2) 在現實世界中收集成對的扭曲/干凈圖像是具有挑戰性的。相反,零樣本型DM-based方法只需扭曲的圖像,無需重新訓練擴散模型,從而提供了一個吸引人的選擇。它不是從IR的訓練數據集中獲得恢復能力,而是從預訓練的擴散模型中挖掘并利用圖像恢復的結構和紋理先驗知識。這一核心思想源于直覺:預訓練的生成模型可以被視為使用大量真實世界數據集(如ImageNet [210] 和FFHQ [211])構建的結構和紋理倉庫。因此,零樣本型DM-based IR方法面臨的一個關鍵挑戰是:如何在保持數據結構的同時提取相應的感知先驗。在接下來的小節中,我們首先簡要回顧代表性的監督型DM-based IR方法:SR3 [100],以及零樣本型DM-based IR方法:ILVR [195]。然后,我們從條件策略、擴散建模和框架的角度對這兩種方法進行進一步分類,這些總結在表1和表2中。此外,擴散模型的整體分類在圖4中進行了說明。

擴散模型用于盲/真實世界的圖像恢復

盡管第3節中的方法在圖像恢復方面取得了巨大的突破,但其中大多數方法 [100, 101, 104, 112–114, 197, 218, 219] 都集中在解決合成扭曲問題上,它們通常在分布外(OOD)的真實世界/盲目退化條件下表現不佳。原因在于真實世界IR的固有挑戰:1) 未知的退化模式很難被識別。2) 在現實世界中收集扭曲/干凈的圖像對是微不足道的,甚至是不可用的。為了克服這一點,先前的工作 [241–248] 嘗試通過模擬真實世界的退化 [72, 241–244, 246] 和無監督學習 [245, 247, 248] 等方法來解決它。受此啟發,一些開創性的工作 [117, 118, 120, 123, 221] 開始探索如何利用擴散模型解決真實世界的退化問題。在本文中,我們將基于DM的盲/真實世界IR [108, 109, 118–121, 123, 220–222, 226] 分為四類,即扭曲模擬 [118, 226],核估計 [119, 120],域轉換 [122, 226],以及扭曲不變的擴散模型 [123, 222, 237]。

結論

本文為圖像恢復 (IR) 的最近受歡迎的擴散模型提供了一個全面的評述,深入探討了其顯著的生成能力以增強結構和紋理恢復。首先,我們闡述了擴散模型的定義和演變。隨后,我們從培訓策略和退化場景的角度提供了現有作品的系統分類。具體來說,我們將現有的工作分為三個主要流程:有監督的 DM-based IR、零鏡頭的 DM-based IR 和基于盲/真實世界的 DM-based IR。對于每一個流程,我們基于技術提供了細粒度的分類,并詳細描述了它們的優點和缺點。對于評估,我們總結了 DM-based IR 常用的數據集和評估指標。我們還在三個典型任務上,包括圖像SR、去模糊和修復,使用扭曲和感知度量比較了開源的 SOTA 方法。為了克服 DMbased IR 中的潛在挑戰,我們強調了未來有望探索的五個潛在方向。

付費5元查看完整內容

有各種各樣的NLP問題可以用圖結構最好地表達。基于圖的深度學習技術(即圖神經網絡(GNNs))在建模非歐氏數據(如圖)方面的巨大優勢,為解決具有挑戰性的圖類NLP問題打開了一扇新的大門,并取得了巨大的成功。盡管取得了成功,但在圖上的深度學習(DLG4NLP)仍然面臨許多挑戰(如自動圖的構造、復雜圖的圖表示學習、復雜數據結構之間的映射學習)。

本教程將介紹深度學習技術在自然語言處理中的應用,包括自然語言處理的自動圖構造、自然語言處理的圖表示學習、自然語言處理的基于GNN的高級模型(如graph2seq和graph2tree),以及GNN在各種自然語言處理任務中的應用(如機器翻譯、圖像處理和圖像處理)。自然語言生成、信息提取和語義解析)。此外,我們還將舉辦實際演示課程,以幫助觀眾獲得應用GNN解決具有挑戰性的自然語言問題的實際經驗,使用我們最近開發的開源庫Graph4NLP,這是第一個供研究人員和實踐者方便地使用gnn完成各種自然語言任務的庫。

付費5元查看完整內容

本教程將介紹自注意力機制在計算機視覺中的應用。Self-Attention在NLP中被廣泛采用,完全注意的Transformer模型已經在很大程度上取代了RNN,現在被用于最先進的語言理解模型,如GPT、BERT、XLNet、T5、Electra和Meena。因此,人們對研究自注意力是否能在計算機視覺中產生同樣巨大而深遠的影響產生了極大的興趣。然而,由于視覺任務與語言任務具有不同的性質,因此許多研究都致力于探索自注意力在視覺模型中的最佳應用方式。本教程將涵蓋視覺中自注意力的許多不同應用,以便讓用戶對這個子領域有一個廣泛而精確的理解。

//icml.cc/Conferences/2021/Schedule

付費5元查看完整內容

弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。

引言

目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。

為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。

在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。

在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:

  • 分析了WSOD的背景、主要挑戰和基本框架。此外,我們還詳細介紹了幾種主流方法。
  • 對于主要挑戰,我們分析了2016年以來幾乎所有的WSOD方法,并總結了許多技巧和訓練技巧(參見表V)。
  • 在WSOD任務中引入了當前流行的數據集和重要的評估指標。
  • 總結并討論了關于模型和應用方向未來進展的有價值的見解和指南。
付費5元查看完整內容

基于AI的視頻分析是視頻監控行業討論很多的話題之一。某些應用程序能夠顯著提升數據分析 速度,自動開展重復性任務。但現今,AI解決方案無法取代人類操作員的經驗和決策制定能 力。它的切實優勢在于組合:利用AI解決方案,改善和提高人工效率。

AI概念包含機器學習算法和深度學習算法。這兩種類型都能夠使用大量采樣數據(訓練數據) 自動構建數學模型,以便能夠在無需專門編程的情況下計算結果。AI算法的開發通過迭代過程 實現,其中,在得到所需的質量水平之前,要反復執行如下操作循環:收集訓練數據、對 訓練數據加標記、使用加標記的數據訓練算法以及測試經訓練的算法。此后,可隨時將算 法用于分析應用程序中,此應用程序在購買后即可部署在監控點。這時,所有訓練都已完 成,應用程序將不再進行任何新的學習。

基于AI的視頻分析的典型任務是,以視覺方式偵測視頻流中的人和車輛,并對它們加以區 分。機器學習算法已學習對這些目標予以定義的視覺特征的組合。深度學習算法是進一步 優化,在經過相應訓練后,能夠偵測復雜得多的目標。但在使用最終的應用程序時,它需 要的開發量和訓練量以及計算資源也多得多。因此,應依據明確的監控需求,考慮專門 的、經優化的機器學習算法是否已經足夠。

攝像機的算法開發和不斷提升的處理能力使得能夠直接在攝像機上(基于前端)運行先進的 基于AI的視頻分析工具,而不必在服務器上(基于服務器)執行計算。這樣就能夠改善實 時功能性,因為應用程序能夠直接訪問未壓縮的視頻材料。相比CPU或GPU(圖形處理單 元),利用攝像機中的專用硬件加速器,如MLPU(機器學習處理單元)和DLPU(深度學習 處理單元),能夠更省電地實現前端分析。

在安裝基于AI的視頻分析應用程序之前,必須仔細研讀并遵守制造商基于已知前提條件和限制 要求所提出的建議。每套監控安裝都具有唯一性,應針對每個監控點評估應用程序的性能。如果質量低于預期,應開展全面調查,而不是僅著眼于分析應用程序本身。視頻分析性能取 決于多方面因素,涉及攝像機硬件、攝像機配置、視頻質量、場景動態和照明等。在許多情 況下,了解這些因素的影響并進行相應的優化有助于提升系統的視頻分析性能。

隨著AI在監控領域的應用日益廣泛,必須嚴謹評估這項技術的使用時機和場合,從而在運 行效率優勢與新應用場合之間合理平衡。

付費5元查看完整內容

視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。理解和建模不同模態之間的交互是視頻分析任務的關鍵,如分類,目標檢測,活動識別等。然而,數據模態并不總是相關的——因此,了解模態何時相關并使用它來引導一種模態對另一種模態的影響是至關重要的。視頻的另一個顯著特征是連續幀之間的連貫性,這是由于視頻和音頻的連續性,我們稱之為時間連貫性。我們展示了如何使用非線性引導的跨模態信號和時間相干性來提高多模態機器學習(ML)模型在視頻分析任務(如分類)中的性能。我們在大規模YouTube-8M數據集上的實驗表明,我們的方法在視頻分類方面顯著優于最先進的多模式ML模型。在YouTube-8M數據集上訓練的模型,在不需要再訓練和微調的情況下,在一個來自實際電視頻道的視頻片段的內部數據集上也表現出了良好的性能,顯示了我們的模型較強的泛化能力。

付費5元查看完整內容

深度神經網絡(DNNs)在許多計算機視覺任務中是成功的。然而,最精確的DNN需要數以百萬計的參數和操作,這使得它們需要大量的能量、計算和內存。這就阻礙了大型DNN在計算資源有限的低功耗設備中的部署。最近的研究改進了DNN模型,在不顯著降低精度的前提下,降低了內存需求、能耗和操作次數。本文綜述了低功耗深度學習和計算機視覺在推理方面的研究進展,討論了壓縮和加速DNN模型的方法。這些技術可以分為四大類:(1)參數量化和剪枝;(2)壓縮卷積濾波器和矩陣分解;(3)網絡結構搜索;(4)知識提取。我們分析了每一類技術的準確性、優點、缺點和潛在的問題解決方案。我們還討論了新的評價指標,作為今后研究的指導。

付費5元查看完整內容
北京阿比特科技有限公司