摘要—AI生成的媒體的迅猛發展對信息真實性和社會信任提出了重大挑戰,因此對可靠的檢測方法需求日益增加。檢測AI生成媒體的方法隨著多模態大語言模型(MLLMs)的發展而迅速演變。目前的檢測方法可分為兩大類:非MLLM方法和基于MLLM的方法。前者利用深度學習技術驅動的高精度、領域特定檢測器,而后者則采用基于MLLM的通用檢測器,集成了真實性驗證、可解釋性和定位能力。盡管該領域取得了顯著進展,但關于從領域特定到通用檢測方法轉變的全面綜述仍然存在文獻空白。本文通過提供對這兩種方法的系統評審來填補這一空白,從單模態和多模態的角度進行分析。我們對這兩類方法進行了詳細的比較分析,探討了它們在方法論上的相似性和差異性。通過這一分析,我們探索了潛在的混合方法,并識別了偽造檢測中的關鍵挑戰,為未來的研究提供了方向。此外,隨著MLLM在檢測任務中的日益普及,倫理和安全問題已成為全球關注的關鍵問題。我們審視了不同司法管轄區內關于生成性AI(GenAI)的監管環境,提供了對該領域研究人員和從業者的寶貴見解。 關鍵詞—AI生成媒體檢測,MLLM,深度學習,文獻綜述
摘要
大規模語言模型(LLM)在多個領域具有變革性的潛力,包括推薦系統(RS)。已有一些研究專注于通過LLM賦能推薦系統。然而,之前的工作主要集中于將LLM作為推薦系統,這可能面臨LLM推理成本過高的問題。最近,LLM與推薦系統的結合——即LLM增強推薦系統(LLMERS)——因其在實際應用中解決延遲和內存限制的潛力,受到了廣泛關注。本文對最新的研究工作進行了全面的綜述,旨在利用LLM提升推薦系統的能力。我們發現,隨著LLM被引入在線系統,特別是通過避免在推理階段使用LLM,領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型:知識增強、交互增強和模型增強。我們深入分析了每個類別,討論了相關方法、挑戰以及近期研究的貢獻。此外,我們還指出了幾個有前景的研究方向,這些方向可能進一步推動LLMERS領域的發展。
大規模語言模型(LLM)在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統(RS)僅利用協同信號 [2, 65, 66],通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此,許多研究提出了彌合自然語言與推薦之間差距的方法,從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功,但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應,而LLM(例如LLaMA-7B)在響應時間上通常需要幾秒鐘。然而,許多早期的研究主要集中在直接使用LLM進行推薦 [13],這使得它們難以滿足實際應用的需求。最近,越來越多的研究者開始關注這一問題,并深入探索LLM增強推薦系統的實踐應用。因此,本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍,我們首先給出LLMERS的定義:傳統推薦系統通過LLM的輔助來增強訓練或補充數據,但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述,但存在三點關鍵差異: i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統,包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下,我們的綜述專門探討LLM增強推薦系統(LLMERS)。 ii) LLM在推薦系統中的應用是一個前沿方向,發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下,本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33],但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS,包括特征和模型兩個方面。
由于LLM增強推薦系統是基于傳統推薦系統的,因此有必要先介紹其組件和面臨的挑戰,以便理解為什么以及在何處需要使用LLM。如圖1所示,傳統推薦系統通常由交互數據和推薦模型組成。
交互數據
傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練,因此數據中的交互信息對訓練是必不可少的。此外,許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此,特征和交互數據是數據中的兩個必要組成部分。然而,數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展:
推薦模型
隨著深度學習技術的廣泛應用,推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88],而深度網絡則捕捉用戶的興趣 [84]。然而,它們也面臨一個獨特的挑戰:
LLMERS通過增強傳統推薦系統的基本組件,即交互數據和推薦模型,從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用,我們將LLM增強推薦系統分為三大類,如圖1所示:
這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征,補充推理和理解的知識,從而解決挑戰1。(第二部分)
為了解決數據稀疏性問題(即挑戰2),一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)
LLM能夠從語義角度分析交互數據,因此一些研究嘗試利用LLM來輔助傳統的推薦模型,從而解決挑戰3。(第四部分) 為清晰起見,我們在圖2中根據分類法展示了所有相關的LLMERS論文。
摘要—遙感中的時序圖像分析傳統上集中于變化檢測,即識別在不同時間拍攝的圖像之間的變化區域。然而,變化檢測仍然局限于其對視覺層面解讀的關注,往往缺乏上下文或描述性信息。視覺-語言模型(VLMs)的興起為遙感時序圖像分析引入了一個新維度,通過將視覺信息與自然語言相結合,為時序圖像變化的高級解讀開辟了新的方向。遙感時序視覺-語言模型(RSTVLMs)允許動態交互,生成描述性字幕、回答問題,并提供對時序圖像更豐富的語義理解。這種時序視覺-語言能力對于復雜的遙感應用尤為重要,其中高層次的洞察力至關重要。本文全面回顧了RSTVLM研究的進展,重點介紹了最新的VLM在時序圖像分析中的應用。我們對核心方法、數據集和評估指標進行了分類和討論,突出了時序視覺-語言任務中的最新進展,并概述了該新興領域的主要挑戰和未來研究方向。本綜述填補了文獻中的關鍵空白,提供了RSTVLM的綜合概述,為遙感時序圖像理解的進一步發展奠定了基礎。我們將在//github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM上持續追蹤相關工作。
關鍵詞—遙感,時序圖像理解,視覺-語言模型,大型語言模型。
I. 引言遙感技術通過衛星、無人機等各種平臺獲取地球表面的圖像信息【1】–【4】。它在環境監測、城市規劃、災害預警和評估等關鍵領域中發揮著重要作用【5】–【8】。早期的遙感圖像解譯主要集中于單時相圖像的分析,包括土地覆蓋分類【9】、物體檢測【11】【12】和語義分割【13】【14】等任務。然而,單時相圖像僅反映特定時刻的表面狀況,無法捕捉跨時間的動態變化。隨著遙感技術和設備的快速進展,獲取多時相遙感圖像的能力得到了顯著提高【15】–【17】。多時相遙感圖像提供了不同時間點下某些位置的表面特征信息,為地表變化的動態監測開辟了新途徑【18】【19】。這一時序維度至關重要,因為它使研究人員能夠分析隨時間變化的趨勢,從而對環境動態有更全面的了解。早期的時序圖像理解主要集中于變化檢測技術,通過比較不同時間段的圖像來定位變化區域,如植被覆蓋變化或新建筑物的出現【20】【21】。然而,變化檢測通常僅在視覺層面上檢測變化位置,缺乏對變化的更高層次語義理解,如變化對象的類型、變化過程中的狀態,以及對象之間的關系【22】–【24】。近年來,像Llava【25】和GPT-4【26】等視覺-語言模型(VLMs)取得了突破性進展,推動了多模態研究領域對視覺-語言模型的關注【27】–【29】。VLMs結合了計算機視覺和自然語言處理技術,能夠全面理解視覺和文本信息。與專注于單一圖像模態的視覺模型不同,VLMs不僅識別圖像中的目標對象,還理解它們之間的關系,生成描述性語言或回答問題。這一能力在遙感領域具有巨大的應用潛力【30】–【32】。在遙感領域,已有研究探討了各種視覺-語言模型,如圖像描述【33】–【36】、視覺問答(VQA)【37】–【40】、視覺問題生成【41】【42】、圖像檢索【43】–【45】和視覺定位【46】–【48】等。一些近期的研究探索了基于大型語言模型(LLMs)的遙感視覺語言模型,如RSGPT【49】、GeoChat【50】、H2RSVLM【51】、LHRS-Bot【52】和EarthGPT【53】。然而,這些VLMs主要關注單時相遙感圖像,無法實現多時相遙感圖像的理解。隨著VLM的不斷發展,針對多時相遙感圖像的研究進入了一個新的發展階段。研究人員越來越多地探索專為時序圖像理解設計的遙感時序視覺-語言模型(RS-TVLMs),涉及變化描述【22】【23】和變化視覺問答【54】【55】等任務。RS-TVLMs的研究豐富了時序圖像解譯的工具。語言作為人類溝通和知識的載體【56】,在融入時序圖像分析時能夠增強模型的高層次理解。通過將時序視覺信息與語言結合,RS-TVLMs不僅可以識別目標和變化,生成描述性文字,回答相關問題,還能進行多模態交互,從而將時序圖像的解譯擴展到超越單純的視覺判斷。圖1展示了一些具有代表性的RS-TVLM及其發表日期,表明該領域的研究可追溯到2021年。目前,相關研究數量正在迅速增加。盡管RS-TVLMs的研究興趣日益增長,但系統性的綜述仍然較少。現有的許多研究集中于特定任務的孤立方法,這使得研究人員很難全面了解該領域的進展和未來方向。貢獻。鑒于RS-TVLMs的快速進展和良好的發展前景,我們撰寫了本綜述,旨在讓研究人員了解基本概念、主要方法、數據集、評估指標及變化描述和變化視覺問答等任務的當前進展。據我們所知,這是關于RS-TVLMs的首篇綜述。通過回顧現有研究,我們希望為該領域的研究描繪清晰的路徑和未來方向,彌補當前相關綜述中的空白,并為遙感時序圖像理解的RS-TVLM研究奠定基礎。IV. 遙感時序視覺-語言模型目前,遙感時序圖像中的視覺-語言理解研究主要集中在幾個關鍵領域:變化描述、變化視覺問答、變化檢索和變化定位。這些任務旨在通過多模態建模和語言理解增強遙感時序圖像的解譯。此外,隨著大型語言模型(LLMs)的發展,一些近期的研究探索了將LLMs集成進來,進一步提升遙感時序圖像的視覺-語言理解。
當前,遙感時序圖像的視覺-語言理解研究主要集中在遙感變化描述(RS-CC)任務上。該任務旨在生成詳細準確的自然語言,描述不同時間拍攝的遙感圖像中的地理特征變化【22】【23】【140】。這種描述有助于用戶快速理解關鍵變化,并為時序遙感數據的決策和分析提供直觀的語義支持。變化描述要求模型準確識別重要變化,并將其轉化為自然、連貫的語言。這個轉化過程不僅依賴于精確的視覺變化識別,還要求具有較強的語言生成能力,以確保語言的準確性和流暢性。以往的變化描述方法通常基于深度學習,并遵循三階段架構,如圖4所示:視覺編碼、雙時相融合和語言解碼。每個階段對整體模型性能有重要影響,因此近期的研究集中在提高這三個階段的性能。表I總結了一些代表性的方法。視覺編碼旨在從雙時相圖像中提取豐富的語義特征,通常采用Siamese編碼器以促進雙時相圖像之間的比較。編碼器通常基于卷積神經網絡(CNNs)或視覺變換器(ViTs)。CNNs在捕捉空間細節方面表現優異,而ViTs則通過全局注意力機制提取廣泛的地理信息。許多方法利用預訓練的圖像編碼器,如ResNet【141】或ViT【142】。例如,Chang等人【22】使用ResNet-101作為編碼器,Liu等人【143】使用ViT,并比較了在ImageNet【144】和CLIP【145】上訓練的ViT的性能。此外,一些研究探索了通過自監督學習訓練專門適應變化提取的編碼器。例如,Zhou等人【24】提出了一種在大規模雙時相遙感圖像數據集上預訓練的單流提取器,顯著增強了變化特征提取的魯棒性。大多數研究集中在提高雙時相融合階段的模型性能,這是變化描述的核心階段。該階段旨在整合雙時相特征,捕捉潛在的時序變化模式。在雙時相融合過程中,模型應準確識別兩張圖像之間的顯著差異,同時抑制無關的偽變化(例如,由于光照或天氣變化導致的變化)。以往的研究通常采用CNN或Transformer作為基本模塊,并提出一些注意力機制來增強模型的變化感知能力。例如,Liu等人【23】提出了一種基于Transformer的方法,稱為RSICCformer,該方法由多個交叉編碼模塊組成,利用差異特征,允許模型關注每張圖像中的變化區域。此外,研究人員還將多尺度策略融入到方法中,以進一步增強模型識別多樣變化的能力【148】【149】。語言解碼器將融合后的視覺特征轉化為自然語言描述。早期的方法使用支持向量機(SVM)或長短期記憶(LSTM)網絡進行語言生成。Chouaf和Hoxha等人【150】【151】比較了RNN和支持向量機(SVM)作為語言解碼器的性能。鑒于Transformer解碼器具有強大的生成能力,RSICCformer【23】首次將Transformer引入遙感變化描述任務,采用交叉注意力機制,使模型在生成單詞時能專注于特定的圖像區域。盡管Transformer表現良好,但隨著序列長度的增加,模型的計算復雜度呈平方級增長。為了解決這一挑戰,近期的研究引入了Mamba模型【116】,該模型以線性復雜度運行。Liu等人【122】提出了空間差異感知SSM(SDSSM)和時空遍歷SSM(TT-SSM)以改善時空聯合建模的能力。此外,他們比較了三種不同的語言解碼器,包括Mamba、生成預訓練Transformer(GPT)風格解碼器和Transformer解碼器。上述的編碼-融合-解碼框架以耦合方式處理變化和不變的圖像對。與此不同,Liu等人【143】提出了一種解耦范式,將變化描述解耦為兩個問題:“是否發生變化”和“發生了什么變化”。他們將解耦結果輸入到預訓練的大型語言模型(LLM)中,通過多提示學習策略進行語言生成。解耦范式使研究人員能夠獨立集中于改善變化圖像對和不變圖像對的描述。
在遙感時序圖像分析中,變化檢測和變化描述任務側重于不同層次的變化信息提取【103】【166】。變化檢測主要關注生成像素級的變化掩膜,通過雙時相圖像識別和突出變化區域。相比之下,變化描述則旨在對這些變化進行語義層次的理解,包括對象屬性和上下文關系。鑒于這兩個任務之間的內在聯系,近期的研究將變化檢測和變化描述整合為統一的多任務學習框架,以提高變化解譯的整體效率和準確性。表II總結了一些代表性的方法。Change-Agent【103】是該領域的代表性工作之一,建立了一個多任務學習框架,為后續的研究奠定了基礎【166】–【170】。如圖5所示,該框架基于共享的視覺編碼器,分別為變化檢測和變化描述任務采用兩個任務特定的分支。在視覺編碼階段,模型從雙時相圖像中提取時序特征,這些融合的特征為每個任務的后續分支提供支持。值得注意的是,與傳統的變化檢測模型類似,變化檢測分支通常利用視覺編碼器提取的多尺度雙時相特征,以確保變化掩膜的精確性和細節。與此同時,變化描述分支通常僅利用最深層的視覺特征,關注變化的語義,設計上與單任務變化描述模型相似。在多任務框架中平衡兩項任務的訓練是一項關鍵挑戰。當前的研究通常應用加權損失,通過不同的權重將變化檢測和變化描述的損失結合起來。例如,文獻【166】采用了通過調整輔助任務梯度大小的元平衡策略【171】,而【169】和【170】則采用了動態權重平均策略【172】。此外,一些近期研究探索了變化檢測如何專門幫助變化描述提高描述的準確性【163】【173】。核心思想是,像素級的變化檢測能夠增強變化描述模型識別變化的能力,特別是在低光照條件下或針對小結構的變化。例如,MV-CC【163】使用低分辨率的變化檢測掩膜作為顯式指導,幫助模型準確關注變化區域。 C. 遙感變化視覺問答
遙感變化視覺問答(RS-CVQA)任務旨在根據時間變化的遙感圖像和用戶特定問題生成自然語言回答。與變化檢測和圖像標注任務不同,RS-CVQA強調用戶與時間變化圖像之間的互動語言交流,提供了一種更加靈活和高效的方式來獲取圖像中變化的信息。圖6展示了一個典型的RS-CVQA模型框架,包括以下關鍵階段:視覺編碼、問題編碼、多模態交互和答案生成。一些代表性的方法在表III中進行了總結。在視覺編碼階段,模型通常采用雙重編碼器分別從雙時相遙感圖像中提取特征,并融合這些時間特征以捕捉圖像中的變化信息。 在問題編碼階段,通常使用預訓練的語言模型(如BERT [130] 或 GPT [174])將用戶的復雜問題轉化為適合模型理解的語義嵌入。 在多模態交互階段,廣泛應用注意力機制(如自注意力和交叉注意力)來對齊和融合視覺變化與語言特征,使得模型能夠根據問題中的語義提示,關注圖像中的關鍵變化區域。這種多模態交互增強了模型對圖像變化的理解,并確保生成的答案與視覺內容緊密相關。 最后,答案生成階段將融合的多模態特征轉化為自然語言回答。根據答案生成方法,RS-CVQA方法大致分為兩類:基于候選答案的RS-CVQA和逐字生成的RS-CVQA。在基于候選答案的RS-CVQA中,答案生成模塊被設計為多類別分類器,從預定義的候選答案集中選擇最佳答案。Yuan等人[175]首次提出了這個任務,將答案分為幾個固定類別,并允許分類器從中直接選擇答案。這種方法計算效率高且穩定,適用于目標明確且變化類型固定的任務。然而,由于其依賴于有限的預定義答案池,這種方法的靈活性較差,可能不適用于處理更復雜、開放性的問題。 相比之下,逐字生成的RS-CVQA采用生成語言模型(如Transformer解碼器)逐字生成答案。這種方法更適合開放性問題,能夠生成靈活且細膩的回答。隨著大規模語言模型(LLM)的興起,基于生成模型的RS-CVQA逐漸成為主流,許多最新的方法開始整合LLM,以提供更豐富的答案生成能力。例如,ChangeChat[176]和CDChat[177]使用與先前的LLava[25]和Minigpt-4[178]類似的架構,使用雙時相視覺嵌入和用戶文本嵌入作為LLM Vicuna-v1.5[179]的前綴。 D. 遙感文本到變化檢索
隨著遙感圖像數據的快速增長,如何高效地檢索符合特定用戶需求的圖像,已成為環境監測、災害評估和城市規劃等領域的關鍵問題。傳統的基于文本的圖像檢索技術將用戶提供的查詢文本與單時相圖像進行匹配。然而,這種技術忽略了遙感圖像中的時間變化,難以滿足用戶對動態場景的檢索需求。 遙感文本到變化檢索(RSI-TCR)應運而生,以解決這一限制。其核心目標是高效檢索符合用戶輸入查詢描述的圖像變化的雙時相圖像對。RSI-TCR顯著減少了篩選大規模數據集所需的人工工作量,提高了龐大遙感數據集的可用性。這項技術在實際場景中展現了巨大的價值。例如,在災害管理中,RSI-TCR可以根據查詢文本(如“洪水淹沒”)迅速定位受影響區域的時相圖像,為災后應急響應提供必要的數據。 與傳統的基于文本的圖像檢索任務(通常涉及“文本”和“圖像”之間的二元匹配)相比,RSI-TCR更加復雜,因為它需要進行三模態匹配——“事件前圖像”、“事件后圖像”和“文本”。這種復雜性要求模型在多模態語義空間內處理時空變化和文本信息之間的復雜關系。Ferrod等人[102]首次使用LEVIR-CC數據集[23]研究了RSI-TCR任務,并提出了該任務的框架,如圖7所示。在他們的方法中,Chg2Cap模型[22]的編碼器被用來從雙時相圖像中提取語義變化嵌入。用戶提供的查詢文本通過Transformer解碼器編碼為文本嵌入。然后,他們通過對比學習損失函數(特別是InfoNCE [181])將圖像變化嵌入與查詢文本嵌入對齊。RSI-TCR中的核心挑戰之一是偽負樣本的問題。具體來說,在訓練批次中標記為負樣本的圖像對,實際上可能是與查詢文本匹配的正樣本,這可能干擾模型訓練。這個問題在許多使用對比學習的任務中都很常見,并且已有解決方案來應對這個問題[182][183]。為了解決這個問題,Ferrod等人[102]采用了兩種常見的策略來提高復雜變化場景中的檢索精度:1)偽負樣本排除(FNE):排除可能的偽負樣本以防干擾。2)偽負樣本吸引:將可能的偽負樣本重新標記為正樣本,以更好地對齊數據中的真實關系。E. 遙感變化定位
遙感變化定位(RS-CG)旨在在雙時相遙感圖像中識別和定位由用戶提供的查詢文本所指示的變化區域。通過將自然語言作為查詢模態,RS-CG顯著增強了用戶交互的靈活性,相比傳統的變化檢測方法(僅限于固定類別的輸出)。RS-CG的輸出通常以兩種形式呈現:邊界框和像素級掩模,如圖8所示。 邊界框通過矩形輪廓標注變化區域,提供目標變化的直觀空間位置。而像素級掩模則提供變化區域形狀和邊界的精確劃分,非常適合細粒度分析。 Irvin等人[101]采用了受LLaVA-1.5[25]啟發的模型架構。他們使用時間共享的ViT-L/14對時間變化圖像進行編碼,通過MLP將嵌入映射后再送入LLaMA-2[107]。LLM輸出邊界框的坐標,以文本格式有效地將檢測到的變化定位到輸入查詢中。Li等人[55]提出了一種名為VisTA的新型多任務模型,設計用于變化檢測問答和定位。VisTA不僅能夠回答用戶問題,還能同時生成與文本答案相關的像素級變化掩模。文本答案通過雙層MLP生成,而掩模解碼器由兩個注意力模塊組成。這種雙重輸出方法使VisTA能夠提供語義和視覺的雙重解釋,成為RS-CG任務的多功能解決方案。
結論通過將計算機視覺與自然語言處理相結合,遙感時間變化視覺語言模型(RS-TVLMs)大大增強了分析時間變化遙感數據的能力,在災害監測、環境分析和城市規劃等領域具有廣泛應用。本文綜述了RS-TVLMs的進展,包括基本概念、主要方法、數據集和評估指標。通過回顧現有研究,我們旨在為該領域的研究提供清晰的發展路徑和未來方向。此外,仍然存在一些挑戰,如大規模數據集的收集、基礎模型的設計以及多時相圖像序列的處理等。
開放詞匯3D物體檢測最近因其在自動駕駛和機器人領域的廣泛應用而受到廣泛關注,旨在有效識別之前未見過的新類別。然而,現有的基于點云的開放詞匯3D檢測模型受限于高昂的部署成本。在本研究中,我們提出了一種新穎的開放詞匯單目3D物體檢測框架,稱為OVM3D-Det,該框架僅使用RGB圖像訓練檢測器,使其在成本效益和可擴展性方面具有優勢,并能夠利用公開數據。與傳統方法不同,OVM3D-Det不需要高精度的LiDAR或3D傳感器數據作為輸入,也不需要用于生成3D邊界框。相反,它采用開放詞匯的2D模型和偽LiDAR自動標注RGB圖像中的3D物體,促進了開放詞匯單目3D檢測器的學習。然而,直接使用偽LiDAR生成的標簽訓練3D模型是不夠的,因為從噪聲點云中估計的邊界框往往不精確,且嚴重遮擋的物體會進一步影響效果。為了解決這些問題,我們提出了兩項創新設計:自適應偽LiDAR侵蝕和基于大語言模型的先驗知識進行的邊界框精細調整。這些技術有效地校準了3D標簽,并使得僅用RGB圖像進行3D檢測器訓練成為可能。大量實驗表明,OVM3D-Det在室內和室外場景中均優于基線方法。代碼將公開發布。
虛假信息的日益泛濫及其帶來的嚴重影響,促使工業界和學術界開發虛假信息檢測和事實核查的方法。近年來,雖然大型語言模型(LLMs)在各種任務中表現出色,但LLMs是否以及如何有助于虛假信息檢測仍然相對未被充分探索。大多數現有的先進方法要么不考慮證據,僅關注與聲明相關的特征,要么假定證據已經提供。少數方法將證據檢索作為虛假信息檢測的一部分,但依賴于微調模型。在本文中,我們研究了在零樣本設置下使用LLMs進行虛假信息檢測的潛力。我們將證據檢索組件納入流程,因為從各種來源收集相關信息以檢測聲明的真實性至關重要。為此,我們提出了一種新的使用LLMs和大型視覺語言模型(LVLM)的多模態證據檢索重排序方法。檢索到的證據樣本(圖像和文本)作為基于LVLM的多模態事實驗證方法(LVLM4FV)的輸入。為了實現公平評估,我們通過為現有證據檢索數據集中的證據樣本注釋更完整的圖像和文本檢索證據樣本,解決了證據樣本的真值不完整問題。我們在兩個數據集上的實驗結果表明,所提出的方法在證據檢索和事實驗證任務中均表現優越,并且在跨數據集的泛化能力方面也優于有監督的基線。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
醫學圖像分割在各種醫療保健應用中起著關鍵作用,可實現準確診斷、治療計劃和疾病監測。近年來,視覺 Transformer (ViTs)作為一種有前景的技術,用于解決醫學圖像分割的挑戰。在醫學圖像中,結構通常高度互連和全局分布。ViTs利用其多 Scale 注意機制來模擬圖像中的長程關系。然而,它們確實缺乏與圖像相關的歸納偏見和翻譯不變性,這可能會影響它們的性能。近年來,研究人員提出了一些將卷積神經網絡(CNNs)納入其結構的ViTs基方法,稱為混合視覺 Transformer (HVTs),以捕獲圖像中的局部相關性,并捕捉圖像中的全局信息。本文詳細介紹了ViTs和HVTs在醫學圖像分割方面的最新進展。除了對ViTs和HVTs基醫學圖像分割方法的分類外,作者還概述了它們在幾種醫學圖像模式中的實時應用。本文可作為研究人員、醫療保健從業者和學生的有益資源,以了解基于ViTs的醫學圖像分割的最新方法。
在醫學圖像分析中,圖像分割起著重要作用。在醫學圖像中進行準確而高效的分割可以幫助醫生識別和評估特定的解剖特征、疾病或感興趣的區域。這些分割區域然后被分析,以估計疾病預后并制定有效的治療策略。 在過去的十年中,利用深度學習技術在醫學圖像分割領域取得了顯著的進步,尤其是卷積神經網絡(CNNs),因為它們能夠從未處理的數據中捕獲復雜的模式。CNNs傾向于捕獲圖像中的局部相關性,這使得它們能夠學習整個圖像中分布的局部模式。從圖像中提取2D特征的固有性質使它們優于傳統方法。UNet是改變了醫學圖像分割任務的一類基于CNN的編碼器-解碼器技術。 隨著時間的推移,許多UNet類似的算法被提出用于各種醫學圖像分割任務,在各種醫學圖像模式中取得了顯著的改進。然而,它們在圖像中的全局關系建模能力受到卷積算子的局部性質的限制。 研究人員提出了一些方法來將全局信息納入基于CNN的分割架構中。在這方面,各種基于注意力的方法已經發展起來,以關注醫學圖像中的重要區域。最近,最初用于自然圖像的視覺 Transformer (ViTs)在計算機視覺和醫學圖像分析等各種圖像相關領域中取得了突出地位。 ViTs中的多 Scale 自注意力機制(MSA)具有捕獲圖像內全局關系的功能。基于ViTs的架構在處理各種圖像模式下的復雜醫學圖像分割任務中取得了顯著結果。ViTs固有的從醫學圖像中建模全局特征的能力涉及首先將圖像分割成patch,然后通過他們的自注意力機制處理每個patch。然而,ViT架構不包括與圖像相關的歸納偏差,以處理圖像中的位置變化。此外,它們的性能可能會受到訓練數據量的影響,因為ViT模型需要大量的訓練數據進行學習。
近年來,將卷積神經網絡(CNN)的歸納偏差集成到ViT架構中的興趣日益增長,導致CNN-transformer的產生,也稱為混合視覺 Transformer (HVTs)。這些CNN-transformer架構將ViTs的多 Scale 自注意力機制(MSA)機制與CNN的卷積操作相結合,以在圖像中建模局部和全局關系。已經開發了許多新穎的框架,利用CNN-Transformer架構在醫學圖像分割等相關任務上展示出令人印象深刻的結果。 由于基于ViTs的醫學圖像分割技術迅速發展,已經進行了許多有趣的調查以回顧這些方法。這些調查大多數是針對特定器官或回顧特定模式。在本論文中,作者綜合調查了各種模態的ViTs基分割方法。此外,作者將這些方法分為兩類:
其次,作者為HVT設計了一個分類法,包括:
圖1是本綜述的具體的流程:
診斷和治療疾病和其他醫療狀況需要醫學測試來幫助醫生查看體內的情況。在這方面,醫學影像是必不可少的,因為它允許非侵入性觀察和診斷各種醫療狀況。不同的成像模式提供對人類身體不同方面的獨特見解。 醫學圖像在診斷和治療疾病方面具有重要意義,因為它提供了有關癥狀的有價值信息。然而,在像素級別的醫學圖像檢查中,只有某些區域對準確診斷和治療有所貢獻,如CT掃描中的腫瘤區域。因此,將感興趣的區域(無論是感染區域還是異常器官)進行分割仍然是一個對研究人員來說既重要又具有挑戰性的任務。準確地識別感興趣區域是醫學影像特征分割中最關鍵的一步,這對于輔助診斷、圖像引導手術和治療計劃至關重要。圖像分割包括將圖像劃分為根據感興趣區域劃分成幾部分和目標。因此,醫學影像中最重要特征分割的任務就是準確地識別感興趣區域。 醫學圖像分割可以分為語義分割、實例分割和全像素分割三個子任務。語義分割通常被視為像素級別的分類,即對圖像中的每個像素進行標簽。實例分割檢測和勾勒出圖像中的每個關注項目或目標,并繪制實例的邊界框。而全像素分割的目標是提供更全面的了解,通過結合語義分割和實例分割。它不僅為圖像中的每個像素分配一個類別標簽(如語義分割),而且還對同一類別中的不同實例(如實例分割)進行分類。 在臨床病理學中,金標準是通過病理學家進行手工醫學圖像分析。這種手工檢查涉及經過高度訓練的病理學家通過視覺觀察醫學圖像并手動勾勒或 Token 感興趣的區域,如腫瘤、病變或特定解剖結構。這種手工評估既費時又費力,且可能受到人類主觀性的影響,需要專家醫生[26]。然而,數字病理學引入了一種新的范式轉變,通過提供研究人員設計自動化系統的能力,實現快速、準確的診斷。這些自動化系統可以通過為病理學家提供快速診斷(可用作第二意見)來幫助他們減輕負擔[27]。在醫學影像的不同模式中,描述了人體內部結構。 這些模態的分割可以隔離特定器官,同時幫助在特定器官內識別疾病。 對于自動化診斷,多年來已經應用了許多傳統的醫學圖像分割方法。這些方法包括基于區域的分割技術、邊緣檢測技術、統計形狀模型、活動輪廓模型、閾值、聚類和機器學習方法[28]。然而,精確自動分割醫學圖像仍然是一個巨大的挑戰,原因有:
在過去的幾年里,深度學習領域的進步,尤其是卷積神經網絡(CNNs)的勝利,大大提高了醫學圖像分割算法的性能。基于深度學習的分割算法在具有密集標簽的情況下表現出卓越的性能,特別是每個像素的標注。CNN有效地應用于醫學圖像分割和分類,以評估臨床實踐中的各種成像技術,包括超聲、MRI、X光等。然而,由于卷積濾波器的限制接收域,它們無法捕獲醫學圖像中的持久依賴關系。U-Net在該領域占主導地位,因為其高效性能和出色準確性,這得益于包括跳接連接和擴展解碼器網絡至今。V-Net是基于FCN的U-Net的杰出架構變體,其操作在3D中進行,以處理體積圖像。 隨著ViTs的出現, Transformer (Transformer)已成為執行各種與圖像相關的任務的可行方法,包括圖像分割、圖像識別和目標檢測[33]。 Transformer ,由于其學習全局上下文的能力,在精確醫學圖像分割方面表現出色。這導致了顯著的性能改進,尤其是在具有較大感受野的器官分割中,如肺分割。 Transformer 通過自注意力機制提取全局和長期依賴關系,而CNN,具有局部感受野,通常在圖像中學習局部相關性。 基于 Transformer 的方法在各種實際分割任務中已被證明非常有效,包括大腦腫瘤/組織分割,細胞核分割,結直腸癌分割,肝病灶分割,腎腫瘤分割,多器官分割,以及皮膚病變分割。最近,研究人員將兩種架構相結合,以合并其優勢。這些進步促進了醫學圖像分割領域的發展。
在過去的十年里,CNN廣泛應用于各種計算機視覺任務,如醫學圖像分析。然而,卷積濾波器的有限感受野限制了CNN在醫學圖像中捕捉持久依賴關系的能力,這可能會影響它們的性能。最近,Transformer和ViTs由于其出色的性能引起了研究人員的廣泛關注。Transformer最初被提出用于機器翻譯,但由于它們能夠通過自注意力機制處理序列,因此在許多自然語言處理(NLP)任務中變得流行。 受到自然語言處理(NLP)中Transformer的成功啟發,Dosovitskiy等人提出了一種ViT,用于處理圖像作為一個序列的 Token (tokens),而不是一個2D像素網格。ViT架構在多個與圖像相關的任務中取得了顯著的成功,這鼓勵研究人員使用改進的ViTs。這些改進包括更改位置編碼技術、自注意力機制或創建新的架構變體。
ViTs基于Transformer架構來處理圖像數據,從而顛覆了計算機視覺領域。通過將輸入圖像像素轉換為序列,并使用自注意力機制來識別圖像部分之間的長程依賴性和交互,ViT可以識別出存在于圖像中的內在結構。 ViT將輸入圖像分割成非重疊的固定大小的 Patch ,并將每個 Patch 轉換為特征表示,稱為 Patch 嵌入。這些 Patch 嵌入經過線性變換,并作為 Transformer 編碼器的輸入 Token 。 Patch 允許模型觀察整個圖像并捕捉全局上下文。為了編碼位置信息,在 Patch 嵌入中添加了位置嵌入。這有助于模型保持 Patch 在原始圖像中的空間排列意識。 Transformer 編碼器是ViT架構的基本構建模塊。它包含多個MSA(多 Scale 自注意力機制)和前饋神經網絡。MSA頭使模型能夠捕獲 Patch 之間的局部和全局關系,而前饋網絡引入非線性以改進特征。最后,編碼器層的輸出通常被池化,并添加一個分類頭以進行預測。對于圖像分類任務,通常在池化表示后跟隨一個全連接層,其中使用softmax激活函數進行類概率預測,而對于圖像分割,使用專門的解碼器塊以獲得圖像掩碼。
ViTs在醫學圖像分割方面的應用取得了顯著的成果。ViTs架構基于Transformer,可以處理圖像數據,從而在計算機視覺領域引起了革命性的變革[13]。通過將輸入圖像像素轉換為序列,并使用自注意力機制來識別圖像部分之間的長程依賴性和交互,ViTs可以識別出存在于圖像中的內在結構[49]。 ViTs將輸入圖像分割成非重疊的固定大小的 Patch ,并將每個 Patch 轉換為特征表示,稱為 Patch 嵌入[50]。這些 Patch 嵌入經過線性變換,并作為 Transformer 編碼器[50]的輸入 Token 。 Patch 允許模型觀察整個圖像并捕捉全局上下文。為了編碼位置信息,位置嵌入[51]被添加到 Patch 嵌入[51]中。這有助于模型保持 Patch 在原始圖像中的空間排列意識。 Transformer 編碼器是ViT架構的基本構建模塊。它包含多個MSA(多 Scale 自注意力機制)和前饋神經網絡[52]。MSA頭使模型能夠捕獲 Patch 之間的局部和全局關系,而前饋網絡引入非線性以改進特征[52]。最后,編碼器層的輸出通常被池化,并添加一個分類頭以進行預測。對于圖像分類任務,通常在池化表示[53]后跟隨一個全連接層,其中使用softmax激活函數進行類概率預測,而對于圖像分割,使用專門的解碼器塊[53]以獲得圖像掩碼[53]。 近年來,ViTs在醫學圖像分割方面取得了許多進展。一些研究人員提出了基于ViTs的醫學圖像分割方法,如Hybrid Vision Transformers (HVTs)[16]。這些CNN-Transformer架構將ViTs的多 Scale 自注意力機制(MSA)機制與CNN的卷積操作相結合,以在圖像中建模局部和全局關系。這些新穎的框架在醫學圖像分割等相關任務上展示了令人印象深刻的結果[17]。 在本文中,作者對最近的ViTs基醫學圖像分割方法進行了詳細調查。作者將其分為兩類:
作者進一步將HVTs方法分為三類:
作者詳細介紹了這些方法,并對其在各種醫學圖像模式中的實時應用進行了概述。本文可能對研究人員、臨床醫生等在理解基于ViTs的醫學圖像分割的最新方法方面具有很大的價值。 CNNs在醫學圖像分析中經常被用于各種應用,如腫瘤檢測[54, 55],COVID-19檢測[56],皮膚病變檢測[57],以及分割[58]。然而,由于其感受野有限,CNNs可能難以學習顯式的長程依賴性[59]。相比之下,基于ViT的醫學診斷系統可以捕獲大的感受野,并在各種醫學圖像相關任務上表現出卓越的性能[60]。 已經開發了許多基于ViT的醫學圖像模式系統,包括:
在醫學影像中,對各種類型的癌變細胞的分類和檢測對于病理學家及時進行疾病診斷至關重要。ViTs和更 recently 由于它們在CNNs上的明顯優勢,已成為高度有效的解決方案[64]。基于ViT和HVT的系統在各種醫學圖像分類任務上表現出顯著的性能[65],包括乳腺超聲圖像分類[66],COVID-19檢測[67, 68, 69, 70],組織學圖像分類[71, 72, 73, 74],有絲分裂檢測[75, 76, 77],皮膚病變檢測[78, 79, 80, 81]。這些方法顯著提高了醫學圖像分類的準確性和效率,并有可能增強臨床診斷和決策。
基于分割的ViTs已經提出,可以根據其架構修改和采用的不同訓練策略進行廣泛分類。大多數基于ViTs的醫學圖像分割方法使用類似于UNet的編碼器-解碼器架構,其中ViT架構可以采用以下:
下面對這些類別的詳細信息進行討論。
編碼器-解碼器架構是大多數醫學圖像分割技術的基石。編碼器架構負責學習圖像中的隱藏嵌入,然后通過解碼器解碼到分割掩碼。為了在編碼器和解碼器之間實現有效信息傳遞,還添加了跳接連接和傳統的順序流。這些跳接路徑可以是直接連接或基于CNN的處理塊。許多基于ViT的醫學圖像分割方法在其編碼器中使用ViT架構,以將全局關系融入其學習的潛在空間中。這種技術得益于ViT的MSA,可以利用全局特征,同時特征提取在編碼器塊中。基于CNN的解碼器則利用這種高級信息進行像素級分割掩碼的預測。
在Hatamizadeh等人的一項研究中,開發了一種基于Transformer的UNETR(UNet Transformer)架構,通過克服UNet的局部相關性限制,實現3D醫學圖像分割。它具有基于ViT的編碼器,有效地捕獲輸入體積的多 Scale 全局信息。為了計算最終語義分割輸出,編碼器通過跳接連接直接鏈接到不同分辨率的解碼器,通過跳接連接,類似于U-Net。
一些編碼器-解碼器技術只在其解碼部分將ViT集成,以準確預測分割圖像。由于全局上下文對于預測邊界完美的分割掩碼和區分背景和感興趣的目標非常重要,因此MHSA在解碼階段對于這種目標非常有利。ConvTransSeg使用基于CNN的編碼器進行特征學習,并使用ViT基解碼器,在多個階段鏈接。ConvTransSeg在二分類和多分類分割問題上顯示出優越的結果,包括皮膚病變、息肉、細胞和腦組織。
許多研究人員在編碼器和解碼器架構中都利用了ViTs,以充分利用注意力機制。Coa等人引入了Swin-Unet,用于醫學圖像分割。他們的架構基于Swin Transformer,其中編碼器采用移位窗口方法,解碼器中具有patch嵌入層。編碼器和解碼器架構都是分層設計的,以增強分割準確性和魯棒性。Zhou等人提出了nnFormer,這是一種體積 Transformer 網絡,用于進行分割。該架構利用基于注意力的跳接連接,以將體積圖像中的局部和長期關系相結合。
此外,他們利用了體積-MSA(V-MSA)和移位版本-MSA(SV-MSA)的多頭自注意力,以降低計算復雜性和捕捉多 Scale 信息。黃等人提出的MISSFormer是一種編碼器-解碼器架構,它融合了增強Transformer Block和增強Transformer Context Bridge,以減少計算復雜性。TransDeepLab[88]將DeepLabv3網絡[89][90]與基于移位窗口的Swin Transformer相結合。它在Swin-Transformer模塊內使用可變窗口大小來融合多個 Scale 上的信息。
李等人提出了一種基于ViTs的ATTransUNet架構,該架構利用自適應 Token 。在他們模型中,ViTs被集成到跳接連接[90]中。他們使用自適應 Token 提取模塊(ATEM)在編碼器中提取圖像中最有判別力的視覺 Token 。這導致復雜性降低和性能增強。 在解碼器架構中,他們采用了一種選擇性特征強化模塊(SFRM)來關注最具有貢獻的特征。 雙交叉注意力(DCA),這是一種簡單但強大的注意力模塊,可改進U-Net基礎架構中的跳接連接,用于醫學圖像分割,由Ates及其同事提出[91]。通過從多 Scale 編碼器獲得的特征建模信道和空間關系,DCA在編碼器和解碼器特征之間建立了語義鴻溝。DCA首先使用通道交叉注意力(CCA)和空間交叉注意力(SCA)模塊來建模信道和空間關系。最后,將編碼器特征上采樣以對應解碼器的相應層。
ViT-V-Net在CNN編碼器和解碼器之間的瓶頸層應用ViT塊,用于無監督的體積醫學圖像配準任務[92]。CoTr提供了一種高效的混合架構,使用CNN進行特征提取,使用可變形自注意力機制進行全局上下文建模[93]。使用的選擇性多 Scale 可變形多頭自注意力(MS-DMSA)減少計算復雜性,并允許更快地收斂。
純粹的ViT架構,完全依賴于注意力機制,缺乏卷積運算符,可能導致低級細節丟失,從而導致不準確的分割結果。HVTs通過集成ViTs和CNN架構的優勢,展示了捕獲輸入數據中長程和局部上下文的能力。這種獨特的組合使HVTs在各種任務上都能實現尖端性能,特別是在醫學圖像分割方面表現尤為突出。
最近研究中最常見的趨勢是將HVTs集成到編碼器階段。TransUNet在其編碼器階段使用HVT架構,在解碼器階段使用級聯上采樣器[94]。它結合了ViT和U-Net的優勢,捕捉輸入圖像中的局部相關性和長期關系,以獲得準確的分割結果。Wang等人提出了一種名為TransBTS的分割架構,將ViT和3D CNN分別用于獲取全局上下文信息和局部細節[95]。它處理3D醫學體積數據,以捕捉圖像切片中的局部相關性和長期依賴關系。TransFuse利用了一個雙融合模塊來結合其編碼器和解碼器分支,分別是CNN和ViT架構[96]。
MedT引入了一種新穎的注意力和訓練策略,用于醫學圖像分割[97]。它包括一個全局模塊(基于ViT)和一個局部模塊(基于CNN)來捕捉像素中的高層次和細粒度細節。Swin-UNETR將Swin Transformer與U形架構相結合,用于分割腦腫瘤區域[98]。這涉及將輸入劃分為非重疊的 Patch ,并利用窗口機制。然而,將自注意力機制集成到CNN中可能導致由于空間尺寸大而計算復雜性高。在這方面,H2Former被引入,以有效結合MSA和CNN的優勢,進行醫學圖像分割[99]。H2Former在保持模型參數、浮點運算(FLOPs)和推理時間方面的計算效率方面超過了以前的技術。
為了在解碼階段利用Hybrid ViT的優勢,近年來研究將HVT集成到解碼器架構中。最近一項研究提出了一種統一的框架UNetFormer,在編碼側使用3D Swin Transformer,在解碼側使用CNN和Transformer的組合。
許多研究人員在他們的架構中同時使用ViT和基于CNN的模塊,在編碼器和解碼器部分。最近,MaxViT-UNet作為一種創新的高ViT-UNet解碼器,專門用于醫學圖像分割[101]。作者有效地利用了多軸自注意力機制,允許模型在局部和全局軸上關注特征,從而增強目標和背景區域之間的判別能力,從而提高分割效率[102]。
由于ViTs能夠捕捉像素之間的全局關系,醫學圖像分析領域出現了指數級的增長。基于ViTs的醫學圖像分割可以廣泛地根據特定的圖像模式進行分類。這些方法包括但不限于:
醫學圖像處理是醫學分析的主要步驟,通過各種任務,如細胞計數、分類、檢測和分割,促進診斷的熟練程度。然而,醫學圖像分割是醫學診斷中最常用的任務[103, 104, 105]。
CT(計算機斷層掃描)是一種先進的醫學影像技術,它使用X射線來生成詳細的斷層身體圖像,用于疾病檢測和診斷。目前,用于CT圖像分割的技術大多數使用CNN,但ViTs的最近進展已經改變了這一趨勢,許多針對CT模態的框架已經出現[106, 107, 108]。 TAU-Net3+用ViT替換了UNet的CNN編碼器,用于腎臟腫瘤分割,并在跳接連接中添加了一種新穎的注意力機制,稱為編碼器-解碼器 Transformer (EDformer),以學習局部特性。 為了應對在CT圖像中實現準確前列腺分割所遇到的挑戰,FocalUNetR引入了一種創新圖像分割框架,利用一個關注 Transformer [108]。這種架構設計有效地捕獲了局部視覺特征和全面上下文信息,具有高效性和有效性。作者創新地引入了一個輔助模塊,稱為“邊界誘導的標簽回歸”,以補充主要的前列腺分割任務。Hoa等人提出了DBM-ViT,用于利用CT和胸X光圖像對COVID-19和其他肺炎類型進行鑒別[110]。DBM-ViT中使用具有不同擴展率的逐點卷積增強了全局信息的捕捉。STHarDNet由Gu等人開發,用于進行腦出血分割[111]。在他們方法中,HarDNet和Swin Transformer被集成,以增強每個模型單獨實現的分割性能。
組織病理學圖像是從組織學檢查樣本中獲得的,由病理學家用來研究細胞結構和發現顯微鏡異常或疾病[112]。基于組織病理學的分析對于及時的癌癥診斷和預防至關重要。雖然ViTs在組織病理學圖像上的應用還處于早期階段,但它們已經在各種組織病理學分割任務上取得了有前景的結果[113, 114, 115]。 Wang等人提出了DHUnet,這是一種創新的功能融合方法,將全局和局部特征融合在一起,用于分割WSI(Whole Slide Image)。這種方法將Swin Transformer和ConvNeXt模塊集成在一個雙分支分層的U形架構中[116]。 另一種最近的方法是引入了具有級聯上采樣(SwinCup)的Swin Transformer來分割組織病理學圖像[117]。為了提高SwinCup提出的特征聚合,作者引入了一個與編碼器結合的級聯上采樣解碼器。 在另一種技術中,MaxViT-UNet,作者提出了一種類似于Unet的編碼器-解碼器CNN-Transformer框架[101]。提出的混合解碼器利用多軸自注意力(Max-SA)來提高分割結果。這些模型隨后有可能在臨床試驗中為患者分層,為目標療法選擇患者以及個性化治療計劃做出貢獻。
顯微鏡技術涉及使用顯微鏡觀察微小的物體,如細胞、組織和微生物[118]。不同類型的顯微鏡,如光學顯微鏡、電子顯微鏡和熒光顯微鏡,提供了不同程度的細節和分辨率[119, 120]。皮膚病變的分割是計算機輔助診斷和治療計劃中的關鍵步驟。它使可以客觀地識別和測量病變的大小、形狀和特征,在分類良性病變和惡性病變、早期檢測和監測時間變化中發揮重要作用。從ViTs在各種醫學領域的成功應用中得到啟示,最近的方法提出使用ViTs為基礎的解決方案進行皮膚病變分割[78, 79, 80]。值得注意的是,在LesionAid框架[80]中,作者提出了一種新穎的多類預測方法用于皮膚病變,使用了ViT和ViTGAN[121]。為了解決類別不平衡問題,這些技術中使用了基于ViTs的生成對抗網絡(GANs)。 視網膜血管的結構和功能改變與心血管疾病有關,包括冠狀動脈疾病、動脈粥樣硬化和高血壓。對視網膜圖像的自動分割和隨后的分析對于評估和預測相關疾病至關重要,從而有助于公共衛生。在之前的視網膜血管分割研究中,各種研究方法創新地利用了 Transformer 的能力[122, 123, 124, 125, 126, 127, 128]。OCT2Former [125] 采用編碼器-解碼器架構,使用動態 Transformer 編碼器與輕量級解碼器相結合。動態 Token 聚合 Transformer 在動態 Transformer 編碼器中捕獲視網膜血管的全局上下文信息,而輔助卷積分支解決了 Transformer 固有的歸納偏差。Du等人提出了一種集成策略,將不同基礎深度學習模型集成起來,如FCN-Transformer和金字塔視覺 Transformer (PVT),用于視網膜血管分割[124]。
磁共振成像(MRI)通過應用強大的磁場在人體內生成復雜的視覺表示,用于顯示組織和器官。這種成像模式在檢查關節、肌肉、心臟和肝臟等解剖區域時特別有價值。 近年來,ViT-based方法在心臟磁共振成像(MRI)數據分割方面的應用顯著增加,如[130, 131, 132, 133]所示的方法。范等人提出了一種知識細化技術,稱為視覺Transformer與特征再組合和特征蒸餾(ViT-FRD)。在他們方法中,ViT作為學生網絡,吸收CNN的知識,并通過優化的蒸餾損失作為教師網絡。ViT-FRD將兩種改進措施納入以提高訓練效率和效果。 腦腫瘤分割的自動化和準確方法的發展有可能加速跨一系列腫瘤表型的診斷。近年來,采用Transformer-based模型有效地分割腦腫瘤的研究明顯增加。例如,DenseTrans創造性地將Swin Transformer與增強的UNet++網絡相結合。這種集成旨在從高分辨率層的卷積層中提取局部特征,并從Swin Transformer的位移窗口操作和自注意力機制中提取全局特征。 在3DCATBraTs的情況下,研究人員將Swin Transformer用于3D MRI圖像中的腦腫瘤分割。這種Transformer包括一個修改后的CNN-encoder架構,具有殘差塊和通道注意力模塊。此外,在不同的調查中,研究人員引入了一個強大的3D融合分割網絡AMTNet,該網絡基于傳統的U形結構。值得注意的是,AMTNet包括一個基于Transformer的特征融合模塊,旨在增強多模態特征的集成。 在利用MRI圖像進行乳腺癌病變分割領域,如[139, 140, 141]等最近的研究,Iqbal等人提出BTS-ST,該方法受到Swin Transformer的啟發,以增強特征表示能力,特別是對于形狀不規則的腫瘤。BTS-ST創新地將Swin Transformer塊中的像素級相關性編碼空間知識。 為解決信息損失問題,引入了特征壓縮塊,并使用關系聚合塊將Swin Transformer與CNN的特征進行有序的層次組合。在另一項研究中,Muller Franzes等人提出了TraBS[98],該方法增強了對多機構MRI數據中乳腺癌分割的原始SwinUNETR模型。TraBS策略性地利用非等距 Kernel 和步長在初始兩階段保持一致的深度,并集成深度監督以處理低分辨率層。
超聲或聲學,使用高頻聲波產生器官和組織的實時圖像。在產科中廣泛使用,用于監測懷孕和評估胎兒發育,超聲在醫療保健中占據重要地位。早期發現乳腺癌的潛力,可降低40%以上的死亡率,突顯了對于醫療保健從業者進行自動化乳腺腫瘤檢測的重要性。 朱等人[144]提出了區域感知 Transformer 網絡(RAT-Net),該網絡巧妙地將不同 Scale 的乳腺癌區域的信息集成在一起,從而實現精確的分割。同樣,劉等人[145]設計了一種混合架構,將 Transformer 層集成到3D UNet的解碼器部分,以便在 Voxel 乳腺數據中實現高效的腫瘤分割。LET-Net架構[146]最近提出,結合了 Transformer 和卷積方法。其特征對齊局部增強模塊有助于提取獨特的局部特征,同時保持與相鄰級別特征的對齊。此外,逐步局部誘導解碼器專注于通過一系列局部重構和細化階段恢復高分辨率的空間細節,受自適應重構核的指導,并通過拆分注意力機制增強。 類似地,MRC-TransUNet [147] 提出了一個創新的方法,將 Transformer 和UNet組件合并。它包括一個輕量級的MR-ViT,以彌合語義差距,并利用一個相互關注模塊(RPA)來抵消潛在的細節損失。這些研究努力共同表明,基于ViTs的技術具有顯著提高醫學圖像分割準確性的潛力,并有望在各種臨床應用中發揮作用。
X射線圖像在診斷和治療上都起著重要的作用,為人體內部器官提供了無價之寶的見解。現代深度學習模型可以有效地使用X射線圖像來診斷各種醫學疾病,它們在這個過程中的重要作用是眾所周知的。 牙根分割是牙科圖像分析的一個重要階段,因為它允許牙醫精確測量牙根的大小和形狀,并發現可能存在的任何異常。許多最近的工作都采用了ViTs進行牙根分割[129, 149, 150]。楊等人引入了ImplantFormer,這是一個基于Transformer的種植體位置回歸網絡,使用口腔CT數據自動預測種植體的位置[149]。ImplantFormer使用牙齒冠部區域的2D軸向圖像來預測種植體的位置,并在擬合中心線之前精確定位種植體在牙根中。在另一項研究中[151],趙等人引入了SwinUnet,這是一個專門用于全景X光片分割的U形Transformer基礎架構,包括編碼器、解碼器和跳接連接。 乳腺X線攝影是一種特定的X射線檢查方法,用于檢查乳腺組織是否有乳腺癌的跡象。某些研究已經針對改進腫瘤邊界分割的架構設計進行了努力[148, 152]。CSwin-PNet最近被提出用于乳腺病變分割任務。其架構基于一個金字塔網絡,將CNN和Swin Transformer相結合[148]。
VITs在醫學圖像分割方面具有巨大的潛力,可以徹底改變醫學影像。通過使用Transformer,這是一種在自然語言分析中非常成功的方法,ViTs提供了一種創新的方法來分析和提取醫學圖像中的有價值的數據。然而,盡管它們具有潛力,但ViTs在臨床設置中應用之前仍然面臨許多挑戰和限制。 1. 缺乏空間信息 1. 擴展性和計算成本 1. 數據稀缺和類別不平衡 1. 標注質量 1. 可解釋性模型泛化
鑒于醫學圖像分割領域中視覺 Transformer 所面臨的獨特挑戰,以下是一些可能的未來研究和創新方向: 1. 開發新的架構 1. 改進訓練范式和方法 1. 探索集成方法 1. 將領域知識集成 1. 遷移學習 1. 多模態學習
基于ViTs的圖像分割技術在許多與圖像相關的應用中表現出優越性能,包括醫學圖像。ViTs中的自注意力機制使模型能夠學習圖像中的全局關系。本文詳細討論了幾種架構修改以及一些最新的趨勢和訓練技術,以提高基于ViTs的醫學圖像分割方法的表現。 然而,ViTs缺乏捕捉醫學圖像中局部相關性的趨勢,這可能影響其性能。因此,研究人員提出了一些利用CNNs的ViTs醫學圖像分割方法,以同時捕捉圖像的局部和全局視角。作者還詳細討論了基于CNN和ViTs的醫學圖像分割技術,并按照它們在基于編碼器-解碼器架構中的位置進行分類。此外,作者還對各種ViTs和HVTs在實際醫學圖像分割應用中的使用方式進行了器官級別的概述。
[1]. A Recent Survey of Vision Transformers for Medical Image Segmentation.
大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。
少樣本圖像生成(FSIG)通過使用少量(例如,10個)參考樣本來學習生成目標領域中多樣且高保真的圖像。現有的FSIG方法選擇、保留并將源生成器(在相關領域上預訓練)的先驗知識轉移到目標生成器中進行學習。在本文中,我們研究了FSIG中一個鮮為人知的問題,稱為不兼容知識遷移,它會大大降低合成樣本的真實感。實證觀察表明,這個問題源于源生成器中最不重要的過濾器。為此,我們提出了知識截斷來緩解FSIG中的這個問題,它是一種與知識保護互補的操作,并通過一種輕量級的剪枝方法實現。大量實驗表明,知識截斷簡單且有效,始終實現最先進的性能,包括源和目標領域距離較遠的具有挑戰性的設置。項目頁面:yunqing-me.github.io/RICK。
知識圖譜(KG)是一種靈活的結構,能夠描述數據實體之間的復雜關系。目前,大多數KG嵌入模型都是基于負采樣進行訓練的,即模型的目標是最大限度地增加KG內被連接實體的某些相似度,同時最小化被采樣的斷開實體的相似度。負抽樣通過只考慮負實例的子集,降低了模型學習的時間復雜度,這可能會由于抽樣過程的不確定性而無法提供穩定的模型性能。為了避免這一缺陷,我們提出了一種新的KG嵌入高效非采樣知識圖譜嵌入框架(NS-KGE)。其基本思想是在模型學習中考慮KG中的所有負面實例,從而避免負面抽樣。框架可應用于基于平方損失的知識圖譜嵌入模型或其損失可轉換為平方損失的模型。這種非抽樣策略的一個自然副作用是增加了模型學習的計算復雜度。為了解決這一問題,我們利用數學推導來降低非采樣損失函數的復雜度,最終為我們提供了比現有模型更好的KG嵌入效率和精度。在基準數據集上的實驗表明,NS-KGE框架在效率和準確率方面均優于傳統的基于負采樣的模型,該框架適用于大規模知識圖譜嵌入模型。
時序知識圖譜推理是信息檢索和語義搜索的關鍵任務。當TKG頻繁更新時,這是特別具有挑戰性的。該模型必須適應TKG的變化,以便進行有效的訓練和推理,同時保持其對歷史知識的表現。最近的工作通過增加一個時間感知編碼函數來實現TKG補全(TKGC)。然而,使用這些方法在每個時間步驟中直接微調模型并不能解決以下問題:1)災難性遺忘;2)模型不能識別事實的變化(例如,政治派別的變化和婚姻的結束);3)缺乏訓練效率。為了解決這些挑戰,我們提出了時間感知增量嵌入(TIE)框架,該框架結合了TKG表示學習、經驗回放和時間正則化。我們引入一組度量標準來描述模型的不妥協性,并提出一個約束,將刪除的事實與負面標簽相關聯。在Wikidata12k和YAGO11k數據集上的實驗結果表明,本文提出的TIE框架減少了大約10倍的訓練時間,并在提出的指標上有所改進。對于任何傳統的度量方法,它都不會造成性能上的重大損失。廣泛的消融研究揭示了不同評估指標之間的性能權衡,這對于真實世界的TKG應用的決策是至關重要的。