亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要遙感 (RS) 是一種關鍵技術,用于觀測、監測和解讀我們的星球,廣泛應用于地球科學、經濟學、人道主義等領域。雖然人工智能 (AI),特別是深度學習,在遙感領域取得了顯著進展,但開發更智能的遙感系統仍面臨諸多挑戰,包括地球環境的復雜性、多樣的傳感器模式、獨特的特征模式、不同的空間和光譜分辨率以及時間動態等問題。同時,隨著大型基礎模型 (Foundation Models, FMs) 的最新突破,由于其卓越的泛化能力和零樣本遷移能力,AI 在多個領域的潛力得到了擴展。然而,它們的成功主要局限于自然數據,如圖像和視頻,而對于各種非光學模式的遙感數據表現較差,甚至失敗。這激發了開發遙感基礎模型 (RSFMs) 的興趣,以應對覆蓋地表、大氣和海洋等地球觀測 (EO) 任務的復雜需求。本綜述系統性地回顧了新興的 RSFMs 領域。首先,概述了它們的動機和背景,隨后介紹了其基礎概念。接著對現有的 RSFM 研究進行分類和評審,包括它們的數據集及其在視覺基礎模型 (VFMs)、視覺-語言模型 (VLMs)、大型語言模型 (LLMs) 等方面的技術貢獻。此外,我們基于公開數據集對這些模型進行了基準測試,討論了現有的挑戰,并提出了這一快速發展的領域未來的研究方向。

關鍵詞—基礎模型、遙感、地球科學、多模態、視覺識別、視覺-語言模型、大型語言模型、地球觀測、人工智能。

1 引言

深度學習的快速發展為遙感 (RS) 和各種地球觀測 (EO) 應用帶來了顯著進展。然而,當前的大多數模型依賴于明確設計的、任務特定的學習目標。這種方法需要大量的人力進行數據集收集和標注,同時也需要大量的計算資源進行模型訓練和評估。此外,這些模型在不同任務之間的泛化和遷移能力有限,從而限制了 RS 系統的廣泛采用。RS 數據來自多種傳感器和平臺,具有大規模、復雜、動態和異構的特性。如何以協同、穩健和多功能的方式準確智能地解讀 RS 數據,仍是推動 RS 解讀系統進步的一個關鍵但尚未充分探索的挑戰。

隨著深度學習的持續進展,一種革命性趨勢正朝向大型基礎模型 (Foundation Models, FMs) 演進,定義為“任何基于廣泛數據訓練(通常使用大規模自監督學習)并能夠適應多種下游任務的模型(例如,通過微調)”[1]。FMs 包括大型語言模型 (LLMs)視覺基礎模型 (VFMs)視覺-語言模型 (VLMs),在不同任務上展示了顯著的泛化能力和小樣本遷移能力。這一轉變標志著從單一用途模型向通用模型的過渡,以及從監督預訓練向自監督預訓練的過渡,大大減少了訓練資源的需求,同時擴展了模型的應用范圍。

然而,這些進展主要集中在自然數據領域,如圖像和文本,面對分布外領域如 RS 時常面臨重大挑戰。例如,RS 與自然圖像的根本區別——如傳感器模式、捕捉視角、空間分辨率、光譜帶以及時間規律性——阻礙了 FMs 在 RS 應用中的直接應用。盡管存在這些挑戰,FMs 在自然領域的成功為遙感基礎模型 (RSFMs) 的開發提供了有希望的啟示,RSFMs 在利用大規模地理空間數據、建模復雜動態地球表面、提高數據效率、擴展應用范圍、增強任務性能和減少碳足跡方面顯示出巨大潛力。

相比于一般領域的 FMs,開發 RSFM 面臨幾大關鍵挑戰:(1) 自然數據與 RS 數據之間的顯著領域差異;(2) 缺乏用于 RSFM 預訓練的大規模數據集;(3) 缺少適合 RSFMs 的深度架構;(4) 需要應對不同于自然領域通用 FMs 的獨特 RS 應用。為了應對這些挑戰,近年來不斷有努力致力于開發先進的 RSFMs,并在 RS 領域內更好地整合各種 FMs,如圖 1 所示。

盡管取得了快速進展,RSFMs 領域仍然缺乏一篇全面的綜述,提供對這一新興且多方面領域的深入概述。本文旨在彌補這一空白,通過呈現對 RSFMs 最新進展的廣泛調查,涵蓋學習范式、數據集、技術方法、基準測試以及未來研究方向。如圖 2 所示,我們根據模型類型將現有方法分為三大類:用于 RS 的 VFMs、用于 RS 的 VLMs,以及其他 RSFMs,如 LLMs 和生成式 FMs。這些類別將在后續章節中詳細回顧。 本文的主要貢獻有三方面:首先,它對 RSFMs 的最新進展進行了全面系統的回顧。根據我們所知,這是首篇跨越不同類型 FMs 的綜述,涵蓋了這一快速發展的領域。其次,它對各種傳感器模式和任務下應用的 RSFMs 進行了基準測試和深入分析。第三,它確定了多個研究挑戰,并提出了 RSFMs 領域的潛在研究方向。

本綜述的結構如下:第二部分介紹 RSFMs 的背景知識,包括學習范式、常見的 RS 傳感器模式以及相關綜述。第三部分探討了 RSFMs 的基礎,涵蓋了深度網絡架構和典型的 RS 解讀任務。第四、第五和第六部分系統性地回顧了用于 RS 的 VFMs、用于 RS 的 VLMs 及其他類型的 RSFMs 的方法。第七部分總結并比較了現有方法在多個基準數據集上的性能。最后,第八部分提出了 RSFMs 的幾個有前途的未來研究方向。

付費5元查看完整內容

相關內容

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。

本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構

深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。

為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。

在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。

在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸

  • SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。

  • SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。

  • SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。

  • Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。

  • 數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。

總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:

  • 我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。

  • 我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。

  • 我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。

  • 我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。

Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。

  • 初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。

  • 樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。

  • 標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。

  • 采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。

  • 通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。

Mixup方法的主要步驟

如圖2頂部所示,Mixup方法遵循以下步驟:

  1. 從訓練數據集中加載mini-batch原始樣本;
  2. 對于一些下游任務,包括選擇原始樣本和保留可靠樣本,一些基于顯著性或注意力的方法通過加載預訓練模型獲得特征區域或tokens。然后,定義從Beta分布或均勻分布采樣的混合比例λ;
  3. 初始化后,原始樣本通過樣本Mixup策略與其他樣本混合。我們在3.1小節中展示了這些策略;
  4. 當生成混合樣本x^\hat{x}x^ 后,有兩種選擇:一種是采樣,一些方法通過掩碼M的總像素更新混合比例,一些方法選擇混合樣本以保留更多的多樣性或具有挑戰性的樣本,另一些方法重新定義混合比例。另一種是標簽Mixup策略,我們在3.2小節中展示了這些策略并進一步挖掘標簽y^\hat{y}y^;
  5. 最后一步是通道Mixup策略,混合樣本x^\hat{x}x^ 通過網絡編碼并映射到高維潛在空間,一些方法相互插值或選擇特征圖用于高維特征z^\hat{z}z^。然后繼續對特征向量進行編碼以執行不同的任務,并根據不同的損失函數優化網絡。

結論

在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。

付費5元查看完整內容

摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。

引言

自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。

最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。

研究范圍概述

本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

摘要—偽裝目標檢測(Camouflaged Object Detection, COD)指的是識別和分割那些與周圍環境無縫融合的目標的任務,這對計算機視覺系統構成了重大挑戰。近年來,由于其在監控、野生動物保護、自主系統等領域的潛在應用,COD引起了廣泛關注。盡管已有一些關于COD的綜述存在,但它們通常在所覆蓋的論文數量和范圍上存在局限性,特別是自2023年中期以來該領域的快速進展。為彌補這一空缺,我們呈現了迄今為止最全面的COD綜述,涵蓋了該領域的理論框架和實際貢獻。本文從傳統方法和深度學習方法的角度,探討了四個領域內的各種COD方法,包括圖像級別和視頻級別的解決方案。我們深入研究了COD與其他偽裝場景方法之間的關聯,從而為后續分析奠定理論基礎。此外,我們還探討了之前研究未充分涉及的新任務,如基于引用的COD和協作式COD。除了目標級別的檢測外,我們還總結了實例級別任務的擴展方法,包括偽裝實例分割、計數和排序。此外,我們概述了COD任務中常用的基準測試和評估指標,對圖像和視頻領域基于深度學習的技術進行了全面評估,考慮了定性和定量的表現。最后,我們討論了當前COD模型的局限性,并提出了9個未來研究的有前景方向,重點解決固有挑戰并探索新的、有意義的技術。這一全面的審查旨在加深對COD模型及其在偽裝場景中的相關方法的理解。對于感興趣的讀者,可以在//github.com/ChunmingHe/awesome-concealed-object-segmentation找到一份精心整理的COD相關技術、數據集和其他資源的列表。關鍵詞—偽裝目標檢測、偽裝場景理解、深度學習、人工智能

1 引言

目標檢測是計****算機視覺中的一項基礎任務,涉及識別和定位圖像或視頻中的目標。它包含多個細分領域:通用目標檢測(GOD)[1]–[4]、顯著目標檢測(SOD)[5]–[7]和偽裝目標檢測(COD)[8]–[10]。GOD的目標是檢測一般對象,而SOD識別那些從背景中突顯出來的顯著對象。相比之下,COD針對的是那些與周圍環境融合在一起的目標,這使得它成為一項極具挑戰性的任務。圖1展示了GOD、SOD和COD任務中目標狗與背景的關系,這些圖像來自經典數據集[11]–[13]。近年來,COD因其在促進視覺感知的細微差別識別方面的優勢,以及在實際生活應用中廣泛的價值,如工業中的隱蔽缺陷檢測[14]、農業中的害蟲監測[15]、[16]、醫學診斷中的病灶分割[17]以及藝術領域,如娛樂藝術[18]和照片真實感融合[19],而獲得了越來越多的關注和快速發展。然而,與GOD和SOD不同,COD涉及檢測那些被設計成難以察覺的目標,如圖1右側的斑點狗因與周圍環境偽裝在一起而難以檢測到,這需要更為復雜的檢測策略。COD可進一步分為圖像和視頻任務[20]、[21]。普通的COD,即圖像級別COD,用于檢測靜態圖像中的偽裝目標,而視頻級別COD,稱為VCOD,則用于檢測視頻序列中的這些目標。后者由于時間連續性和動態變化的引入而增加了復雜性,要求模型能夠有效地提取空間和時間特征。

傳統的COD和VCOD方法,包括紋理[22]、強度[23]、顏色[24]、運動[25]、光流[26]和多模態分析[27],在特定場景中展示了它們的優勢,但也表現出明顯的缺陷。這些依賴于手工設計操作符的方法在特征提取能力上有限,因此在處理復雜背景和變化的目標外觀時,準確性和魯棒性受到了限制。相比之下,基于深度學習的COD方法,如卷積神經網絡(CNN)、變換器(Transformer)和擴散模型(Diffusion Model),通過自動學習豐富的特征表示,提供了顯著優勢[8]、[10]。此外,這些方法采用了多種策略來應對這一挑戰性任務,例如,多尺度特征聚合[28]–[32]、仿生機制模擬[13]、[20]、[33]–[37]、多源信息融合[10]、[15]、[38]–[40]、多任務學習[9]、[41]–[44]、聯合SOD[40]、[45]–[47]以及新任務設定[48]–[52]。盡管這些方法具有優勢,但也面臨難以克服的挑戰,包括高計算需求[53]和對大量標注、干凈且成對數據集的需求[29]。已有幾篇關于COD的綜述文章,其中三篇開創性的工作[54]–[56]為該領域提供了寶貴的概述。然而,這些綜述由于涵蓋的范圍有限和涉及的論文數量不足而存在局限性。例如,這些綜述中討論的大多數方法來自2023年上半年之前,導致在歷史深度和領域廣度上存在不足。如圖2所示,COD領域在2023年發展迅速。為彌補這些空白,我們提出了一篇更為全面的綜述,涵蓋了圖像和視頻領域中的傳統和深度學習COD方法,并基準測試了這些領域中的深度學習模型。此外,據我們所知,這篇綜述是首篇深入探索如基于引用的COD[49]和協作式COD[51]等新任務的綜述。我們還對常用的COD數據集進行了更廣泛的回顧,并全面覆蓋了最新的進展、挑戰和未來趨勢。本文的動機源于COD的重要性以及現有綜述的不足。我們的綜述旨在對COD進行更為深入和詳細的探討,填補當前文獻中的空白,并強調最近的發展。我們系統地分類和分析了現有的前沿技術,識別關鍵挑戰,并提出未來研究方向,以推動該領域的發展。我們的貢獻總結如下

  • 我們對現有的COD方法和偽裝場景理解(CSU)相關任務,以及常用的數據集和評估指標進行了全面的綜述。據我們所知,這項工作代表了迄今為止最廣泛的調查,涵蓋了大約180篇CSU相關的前沿研究。

  • 我們系統地基準測試了基于深度特征的40個代表性圖像級模型和8個代表性視頻級模型,使用6個特征性數據集和6個典型評估指標,并對它們進行了定量和定性分析。

  • 我們系統地識別了現有COD方法的局限性,并提出了未來研究的潛在方向。通過揭示這些挑戰和機會,我們的工作旨在指導和激發進一步的研究,以推進COD技術的前沿發展。

  • 我們創建了一個存儲COD方法、數據集和相關資源的庫,并將持續更新以確保最新信息的可獲取性。 我們希望這篇COD綜述不僅能加深對該領域的理解,還能在計算機視覺社區中激發更大的興趣,促進相關領域的進一步研究。注意:在制定我們的搜索策略時,我們對包括DBLP、Google Scholar和ArXiv Sanity Preserver在內的多種數據庫進行了深入調查。我們的重點特別放在可信來源上,如TPAMI和IJCV,以及CVPR、ICCV和ECCV等著名會議。我們優先考慮了那些提供官方代碼以增強可重復性的研究,以及那些引用率高且在Github上獲得較多星標的研究,這些都表明它們在學術界得到了顯著認可和采用。在初步篩選之后,我們的文獻選擇過程涉及對每篇論文的新穎性、貢獻和重要性的嚴格評估,并評估其在該領域中作為開創性工作的地位。盡管我們承認可能遺漏了一些值得注意的論文,但我們的目標是呈現對最具影響力和影響力的研究的全面概述,推動研究進展并提出未來的潛在趨勢和方向。

付費5元查看完整內容

人工智能(AI)技術已經深刻地改變了遙感領域,徹底革新了數據收集、處理和分析的方式。傳統上依賴于手工解釋和特定任務模型的遙感,因基礎模型的出現得到了顯著增強。基礎模型是指大規模、預訓練的AI模型,能夠以前所未有的精度和效率執行各種任務。本文對遙感領域的基礎模型進行了全面的綜述,涵蓋了2021年6月至2024年6月期間發布的模型。我們根據這些模型在計算機視覺和特定領域任務中的應用對其進行分類,并提供了關于其架構、預訓練數據集和方法論的深入見解。通過詳細的性能比較,我們突出了這些基礎模型所取得的顯著進展和新興趨勢。此外,我們還討論了技術挑戰、實際影響和未來研究方向,特別是針對高質量數據的需求、計算資源以及模型泛化能力的提升。我們的研究還發現,預訓練方法,尤其是對比學習和掩碼自編碼器等自監督學習技術,顯著提升了基礎模型在遙感任務中的性能和穩健性,例如場景分類、目標檢測等應用。本文旨在為研究人員和從業者提供資源,通過對基礎模型在遙感中的進展和未來發展路徑的全景式綜述,推動該領域的持續發展和應用。

關鍵詞——遙感、機器學習、人工智能、圖像處理、計算機視覺、Transformers

人工智能(AI)技術已經深刻地變革了遙感領域,徹底革新了數據的收集、處理和分析方式。傳統上,遙感項目嚴重依賴于手動解釋和任務特定模型,這些模型需要大量的標記數據集和顯著的計算資源。然而,隨著AI和深度學習(DL)的出現,一個新的時代已經到來。在這個時代中,大規模的預訓練模型,即基礎模型,能夠以前所未有的精度和效率執行各種任務。這些進步不僅增強了遙感的能力,還為其在各個領域的應用開辟了新的途徑。近年來,出現了許多基礎模型,它們在處理多樣的遙感任務方面表現出了卓越的性能。這些模型有可能顯著提升多個下游任務的性能,如場景分類、語義分割、目標檢測等。通過利用海量的預訓練數據和復雜的架構,這些基礎模型在該領域設立了新的基準,使其成為研究人員和工程師不可或缺的工具。本文旨在提供遙感領域基礎模型的全面綜述,涵蓋了2021年6月至2024年6月期間發布的基礎模型。在圖1中,按時間順序列出了51個視覺模型。為了方便研究人員的導航和使用,我們根據這些模型在計算機視覺任務和特定領域任務中的應用對其進行了分類。這樣的分類方式可以更清晰地了解哪些模型適用于特定目的,無論是一般的基于圖像的挑戰,還是更為專業的應用,如環境監測、土地覆蓋和土地利用、考古勘探、災害管理或其他領域。我們的貢獻包括

  1. 對遙感領域提出的基礎模型進行了詳盡的回顧,從基礎模型的背景和方法論到不同領域和任務中的具體應用,進行了分層和結構化的綜述。
  2. 對這些模型在計算機視覺任務(表I)和特定領域任務(表5)中的應用進行了分類和分析。我們討論了每個模型的架構、預訓練數據集、預訓練方法及其性能。
  3. 針對遙感中基礎模型相關的挑戰和未解決的問題進行了討論。我們指出了新趨勢,提出了重要問題,并為進一步探索提供了未來的研究方向。

基礎模型(FMs)指的是大規模的預訓練模型,這些模型為不同領域的各種下游任務提供了堅實的起點。基礎模型利用廣泛的數據集和先進的架構,能夠捕捉復雜的模式和特征,并通過較少的額外訓練進行微調以適應特定的應用。在遙感領域,由于數據的多樣性和復雜性,包括多光譜和多時相影像,基礎模型顯得尤為重要。諸如自監督學習(SSL)和Transformers等技術顯著提高了圖像分類、目標檢測和變化檢測等任務的性能和效率,解決了遙感數據所帶來的獨特挑戰。

基礎模型的發展得益于深度學習的進步和大型數據集的可用性。最初,卷積神經網絡(CNNs)如ResNet為圖像識別和分類任務的改進鋪平了道路。Transformers的引入,利用自注意力機制來建模遠程依賴關系,進一步提升了基礎模型在處理大規模圖像數據方面的能力。

遙感中的基礎模型的特點在于它們能夠通過SSL技術利用大量未標記數據,從而在無需大量標記數據集的情況下學習到穩健的表示。主要的SSL方法包括對比學習,它通過比較同一數據點的不同增強視圖來學習表示;以及預測編碼,它通過觀察部分數據來預測輸入數據的缺失部分。

遙感領域的知名基礎模型包括SatMAE,它為時間和多光譜衛星影像預訓練Transformers;Scale-MAE,一種用于多尺度地理空間表示學習的尺度感知掩碼自動編碼器;以及DINO-MC,它通過全球-局部視圖對齊擴展了SSL在遙感影像中的應用。這些模型在場景分類、目標檢測和變化檢測等各種遙感任務中表現出色。

盡管取得了成功,基礎模型仍面臨諸多挑戰,包括對高質量和多樣化訓練數據的需求、顯著的計算資源消耗,以及將模型有效適配于特定遙感任務的領域適應性。這些挑戰的解決對于基礎模型在遙感中的持續進步至關重要。

方法論

近年來,遙感基礎模型(FMs)的發展依賴于各種復雜的方法學,包括自監督學習(SSL)、Transformers及視覺Transformers(ViT),以及殘差神經網絡(ResNet)。這些方法顯著增強了基礎模型的能力,使其能夠在沒有大量人工監督的情況下從大量數據中學習,處理復雜的數據結構,并改善特征提取和表示能力。本節將回顧這些方法在遙感領域的機制和貢獻。

**A. 自監督學習(SSL)訓練策略在遙感基礎模型中的應用

自監督學習(SSL)在基礎模型的預訓練階段起著至關重要的作用。通過SSL,模型能夠從輸入數據的部分信息中預測另一部分,從而減少對大量標注數據集的依賴。在遙感中,由于標注數據的稀缺性,SSL顯得尤為重要。使用SSL預訓練的模型能夠有效地從大量未標注的遙感數據中捕捉模式和特征,使其在下游任務中非常高效。圖3展示了自監督學習的一般流程。 在遙感應用中,常用的兩種SSL方法是對比學習和預測編碼。 1. 對比學習:對比學習旨在通過比較同一數據點的不同增強視圖來學習表示。其核心思想是在特征空間中將相似(正樣本)對拉近,而將不相似(負樣本)對推遠。這種方法高度依賴于數據增強,以創建同一圖像的多個視圖。 1. 預測編碼:預測編碼是另一種SSL技術,模型通過觀察部分數據來預測輸入數據的缺失部分。這種方法有助于捕捉數據中的空間和時間依賴性。常見的預測編碼方法包括自動編碼器(AE)和掩碼自動編碼器(MAE)。

常用的SSL方法包括SimCLR、MoCo(動量對比)、BYOL(自我引導潛在空間)和DINO(無標簽自蒸餾)。這些方法各有特色,在生成正負樣本對和更新模型參數方面采取了不同的策略。這些方法在遙感中的場景分類、語義分割和目標檢測等任務中表現出色。例如,SSL可以幫助模型在標注數據有限的情況下,學習分類土地覆蓋類型、識別建筑物和車輛等目標,并分割衛星圖像中的不同區域。

**B. 主干網絡(Backbones)

在深度學習中,主干網絡是作為特征提取器的關鍵神經網絡架構。它們構成了模型的基礎層,處理輸入數據以生成豐富的、層次化的特征表示。這些表示可以被模型的后續組件用來執行各種任務,如分類、檢測和分割。通過利用強大的主干網絡,模型能夠高效地處理復雜數據,并在不同應用中提升性能。

主干類型I:Transformers和視覺Transformers(ViT):Transformers最初為自然語言處理設計,通過自注意力機制建模長距離依賴關系,徹底改變了計算機視覺領域。視覺Transformers(ViT)將Vaswani等人(2017)提出的Transformers架構適用于圖像數據,將圖像塊視為序列的token。這種適應在遙感中尤為有用,因為圖像往往較大且包含復雜的空間結構。圖4展示了用于遙感分割任務的ViT基本結構。

ViT的關鍵組件包括圖塊嵌入、位置編碼、Transformer編碼器和分類頭。圖塊嵌入將圖像分割為固定大小的塊,并將每個塊線性嵌入到向量中。位置編碼則為圖塊嵌入添加空間結構信息。Transformer編碼器由多層多頭自注意力和前饋神經網絡組成,處理嵌入塊的序列以捕捉全局依賴關系。最后,分類頭是一個全連接層,用于處理最終的序列表示以執行下游任務,如圖像分類。Transformer中的自注意力機制允許每個token關注所有其他token,為捕捉全局上下文提供了強大的方式。 ViT在遙感任務中表現出色,如土地覆蓋分類、城市區域識別和植被分析,利用其捕捉局部和全局模式的能力。

主干類型II:卷積神經網絡(CNN):卷積神經網絡(CNN),如殘差神經網絡(ResNet),通過引入殘差連接解決了深層神經網絡中的退化問題,這些連接允許梯度繞過某些層,從而促進非常深的網絡訓練。這一能力在遙感中尤為重要,因為通常需要深度模型來捕捉衛星圖像中的復雜細節和變化。

ResNet的特點是其殘差塊,包括繞過一個或多個層的快捷連接。殘差塊可以描述為以下公式:y=F(x,{Wi})+x\mathbf{y} = \mathcal{F}(\mathbf{x}, {W_i}) + \mathbf{x}y=F(x,{Wi})+x其中,y\mathbf{y}y是輸出,F\mathcal{F}F表示要學習的殘差映射,x\mathbf{x}x是輸入,{Wi}{W_i}{Wi}是塊中各層的權重。根據維度,快捷方式可以是恒等映射(如果輸入和輸出維度匹配)或卷積層(如果維度不同)。

ResNet有多種架構,如ResNet-50、ResNet-101和ResNet-152,數字表示總層數。這些網絡在各種視覺任務中表現出色,因為它們能夠在不退化的情況下訓練更深的網絡。在遙感中,ResNet廣泛用于圖像分類、目標檢測和變化檢測任務。例如,基于ResNet的模型可以分類不同的土地覆蓋類型,檢測建筑物和車輛等目標,并通過比較時間序列衛星圖像來監測景觀變化。

通過結合這些方法,遙感基礎模型能夠利用大量數據,處理復雜結構,并在各種應用中實現最先進的性能。這些方法使模型能夠有效應對遙感的獨特挑戰,如大圖像尺寸、多樣化數據源,以及在環境監測和分析中對高精度的需求。

在接下來的部分中,我們將探討這些方法在不同遙感任務中的具體應用,分析其性能,并討論用于訓練和評估這些模型的數據集。

在這篇全面的綜述中,我們回顧了2021年6月至2024年6月間開發的遙感基礎模型的進展。我們將這些模型分類為視覺模型和視覺-語言模型,重點介紹了它們獨特的方法論和能力。我們的分析涵蓋了多種先進技術,包括自監督學習(SSL)、視覺Transformers(ViTs)和殘差神經網絡(ResNets)。這些模型在場景分類、語義分割和目標檢測等任務中,以及在環境監測、數字考古、農業、城市規劃和災害管理等特定領域的應用中,顯著提高了性能。盡管取得了顯著進展,但仍存在若干挑戰,如需要更多樣化和高質量的數據集、較高的計算需求以及任務特定的困難。解決這些挑戰需要進一步的研究和跨學科的合作。總而言之,這篇綜述提供了當前遙感基礎模型的詳細概述,提出了寶貴的見解并指明了未來的研究方向。我們建議繼續努力開發高效的模型架構、增強多模態數據整合以及擴大數據集的多樣性,以充分發揮這些模型在遙感領域的潛力。

付費5元查看完整內容

摘要——在數據爆炸性增長和技術快速發展的時代,多模態大型語言模型(MLLMs)處于人工智能(AI)系統的前沿。MLLMs旨在無縫集成包括文本、圖像、視頻、音頻和生理序列在內的多種數據類型,解決遠遠超出單一模態系統能力范圍的復雜現實應用問題。在本文中,我們系統地梳理了MLLM在自然語言、視覺和音頻等多模態任務中的應用。我們還對不同MLLM在任務中的關注點進行了對比分析,并深入探討了當前MLLMs的不足之處,并提出了未來研究的潛在方向。通過這些討論,本文希望為MLLM的進一步發展和應用提供寶貴的見解。關鍵詞——MLLMs, 任務, AI應用, 融合技術。多模態大型語言模型(MLLMs)是設計用來處理和集成各種類型數據的復雜人工智能(AI)系統,包括文本、圖像、視頻、音頻和生理序列數據[1],[2],[3]。隨著我們進入多模態數據融合的時代,信息技術的快速進步和數據量的爆炸性增長,單一模態系統的能力已不足以應對復雜的現實任務[4],[5],[6]。因此,MLLMs的發展不僅是技術進化的必然趨勢,也是提高AI應用有效性的關鍵改進。通過融合來自多個數據源的信息,MLLMs培育了更全面和準確的信息表示,這種能力不僅釋放了巨大的潛力,還展示了在各個領域的顯著實際應用價值。多樣化數據集的整合使得MLLMs能夠更有效地執行任務,確立其作為下一代技術的不可或缺地位,致力于充分發揮AI技術的潛力[7],[8],[9]。值得注意的是,MLLMs在語言、圖像、視頻和音頻處理等多種多模態任務中表現出了顯著的性能。這些模型在集成多模態信息以增強多模態任務的有效性方面表現出色。在自然語言處理(NLP)任務中,如文本生成和機器翻譯,MLLMs利用圖像、視頻和音頻提供上下文支持,增強生成文本的準確性和表達力[10],[11],[12]。這些模型在情感分析和對話系統中也表現出色,通過整合多模態信息來提高理解和生成能力。特別是,MLLMs通過結合視覺和聽覺數據,豐富了文本生成和機器翻譯[13],[14],[15]。這些模型提高了生成文本的準確性和表達力,提供了傳統模型無法實現的細膩上下文支持。在情感分析和對話系統中,MLLMs能夠整合多模態信息,進一步加深系統的理解和響應能力,展示了在人機交互方面的重大進步[16],[17]。此外,在視覺任務中,MLLMs顯著提升了任務的理解、分析和生成能力。整合文本描述和圖像指令使得圖像分類、目標檢測和圖像注釋等任務更加準確。例如,像GPT-4V[13]和Gemini[18]這樣的MLLMs結合圖像內容和自然語言描述,產生更生動和精確的注釋結果。這些模型在圖像生成方面也取得了進展,可以從文本描述生成圖像或實現跨模態圖像風格遷移,從而拓寬了該領域的可能性。同時,由于視頻處理的復雜性,它提出了獨特的挑戰。然而,MLLMs的出現推動了語言模型在這一領域的能力發展。像NExT-GPT[19]和Sora[20]這樣的模型在多模態視頻生成方面處于領先地位,通過學習多模態數據生成更豐富和逼真的視頻內容。此外,智能視頻理解技術的進步,如VideoChat[21]和Video-LLaVA[22],顯著增強了分析和處理視頻內容的能力。這些發展在虛擬現實、電子游戲和教育應用中承諾了增強的用戶體驗。在音頻任務中,MLLMs為音頻處理任務帶來了新的技術變革。傳統的音頻處理通常依賴于單一模態的信號處理方法,如語音識別[23]或音頻分類[24],這些方法在處理復雜的多模態數據時存在局限性。MLLMs通過結合音頻信號、文本和視覺信息,能夠更好地理解和生成音頻相關內容。例如,在語音生成任務中,MLLMs可以利用文本和視覺信息生成更自然和上下文相關的語音輸出[25],[26]。在音頻理解任務中,這些模型可以結合視覺線索和文本描述,更準確地執行情感識別、音頻分類或音頻事件檢測。此外,MLLMs在跨模態音頻文本翻譯、音頻配樂生成和多模態情感分析等任務中顯示出強大的潛力[27],[18]。這些技術進步不僅提高了音頻處理的有效性,還擴展了其在智能家居、虛擬助手、影視制作等現實應用中的場景。本文回顧了MLLM應用的最新進展,在第二節介紹了MLLMs的基本概念和主要架構,第三節描述了它們在不同領域的表現,以識別其優缺點,第四節通過比較分析突出MLLMs的變革性影響,并在第五節提供了未來研究的路線圖。我們的討論旨在激勵持續創新,確保MLLMs在AI技術發展的前沿位置。通過對當前實施和進展的全面回顧,本文旨在總結研究成果,提供有價值的參考,并為MLLM領域的未來研究提供指導。我們的目標是激發新思想和新方向,以確保MLLMs在AI技術發展中保持領先地位。

II. 多模態大型語言模型概述

**A. 定義和基本概念

總體而言,MLLMs 代表了人工智能和機器學習領域的重大進展,具備處理和解釋多種數據類型(包括文本、圖像、音頻和視頻)的能力[28], [29], [30]。通過整合和合成這些不同模態的數據,MLLMs 實現了對信息更全面和精確的理解和生成[3]。

特別是,MLLMs 是專門設計用來同時處理和解碼多模態數據的復雜系統。MLLMs 的核心原理在于不同模態的整合和交互,這顯著增強了模型的有效性。這種多模態方法不僅提升了對單一數據類型的理解,還促進了它們之間的更細致的互動,從而擴展了 AI 應用的范圍和準確性。例如,在圖像描述任務中,MLLMs 利用文本和視覺數據生成準確且上下文相關的圖像描述。這種協同作用使模型能夠超越單一模態系統的限制,提供更豐富和詳細的輸出。此外,音頻和視覺數據的結合可以大大提高視頻理解和注釋任務的性能,使 MLLMs 成為需要詳細多媒體分析的應用中的寶貴工具。

通過利用各種數據類型的集體優勢,MLLMs 不僅增強了 AI 解釋和與世界互動的能力,還為機器理解復雜、多方面的信息開辟了新的發展方向。

**B. 多模態大型語言模型的主要組件

MLLM 通過多個關鍵組件有效地處理和整合來自不同模態的數據。這些組件設計用于將各種來源的原始輸入轉化為可操作的見解,使這些模型非常通用和有效。這些模型的架構大致可以分為三個主要組件:多模態輸入編碼器、特征融合機制和多模態輸出解碼器。

多模態輸入編碼器:多模態輸入編碼器是 MLLMs 中的關鍵組件,設計用于將來自不同模態的原始輸入數據轉化為模型可以有效處理的結構化格式。這個重要模塊專門處理不同類型的數據,確保每種數據形式都能被優化編碼,從而有效地貢獻于模型的整體功能。以下是編碼器如何處理每種數據類型的細節:

文本:對于文本數據,編碼器利用嵌入層技術,將詞匯映射到連續數字向量中,以及多層感知器(MLP)或更高級的 Transformer 來管理文本中的長程依賴和上下文。

圖像:視覺數據通過最先進的架構如 Vision Transformer (ViT) [31] 處理,ViT 將圖像部分視為序列以更好地捕捉關系,或通過殘差網絡(ResNet)[32] 處理,ResNet 幫助在各層中學習更深的特征而不丟失上下文。

音頻:音頻數據使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型進行分析。這些模型專門捕捉聲音的獨特特性,從基本音調到復雜的語言,增強了模型準確解釋聽覺信息的能力。

序列數據:對于如腦電圖(EEG)和心跳等序列數據,編碼器采用 1D 卷積神經網絡(1D-CNN)和長短期記憶網絡(LSTM)單元的組合。該設置特別有效于捕捉數據中的時間和空間模式,這對于醫療應用中的早期診斷至關重要。

通用編碼器:一種較新的創新是通用編碼器,旨在標準化處理各種高度多樣化的數據類型,包括音頻、視頻和功能性磁共振成像(fMRI)。該編碼器利用一種通用方法來處理和整合多種形式的數據,促進數據處理的一致性和效率。這些編碼器將原始輸入轉換為特征向量,然后轉化為固定長度的特征序列。這種標準化對于進一步處理數據至關重要,確保模型的后續層可以有效地執行特征融合和解碼。

通過適應和優化各種數據類型的初始處理,多模態輸入編碼器不僅提升了模型的性能,還擴展了其在不同領域的適用性。無論是提高圖像描述的準確性,豐富機器翻譯的上下文,還是推進醫療診斷工具的精度,這個編碼器在使 AI 模型能夠執行復雜任務方面發揮了基礎性作用。 特征融合機制:多模態模型的核心在于整合不同模態的特征。這個整合可以在不同階段進行[37],[38]:

早期融合:在初始階段結合輸入數據,利用不同模態的原始互聯性。

中期融合:在特征提取階段融合特征,使每種模態都能為統一表示做出獨特貢獻。

晚期融合:在決策階段整合單獨模態路徑的最終輸出,通常用于需要多種數據類型綜合判斷的任務。

聯合融合:一種混合方法,結合早期、中期和晚期融合,最大化各階段的數據利用。這些融合過程通常利用預訓練的大型語言模型(LLM),這些模型雖然最初設計用于文本數據,但通過高級特征投影和序列化技術適應處理和綜合多模態輸入。

多模態輸出解碼器:最后,多模態輸出解碼器將融合、綜合的多模態信息重新轉換為特定任務所需的可用形式。比如在圖像描述任務中,解碼器可能基于視覺輸入生成描述性文本。在視頻理解任務中,它可能生成結合視覺和聽覺數據的注釋或摘要。每個解碼器都經過精心設計以優化準確性和質量,確保輸出精確反映從綜合模態中獲得的見解。

總之,多模態大型語言模型的復雜架構使其能夠通過整合和合成文本、圖像和音頻數據來處理復雜任務。這種能力不僅提升了 AI 應用的性能,還為我們理解和互動技術開辟了新的創新途徑。

**C. 大型語言模型中的多模態特征概述

在融合多模態特征時,通常不會從零開始訓練新模型,而是利用現有的預訓練大型模型,如 LLMs。盡管預訓練的 LLMs 主要設計用于處理文本輸入,但可以通過各種技術使這些模型適應處理多模態數據。我們將在本節介紹一個具體示例,以詳細說明融合過程并進行理解。

首先,需要將每種模態的數據編碼并投影到統一的特征空間中。例如,可以使用預訓練模型如 ResNet 或 Vision Transformer 將圖像數據轉換為特征向量 Vimage。文本數據可以使用預訓練文本編碼器如 BERT [39] 轉換為特征向量 Vtext,音頻數據可以通過預訓練音頻編碼器如 wav2vec [40] 轉換為特征向量 Vaudio。然后,通過線性變換或其他投影方法將不同模態的特征向量映射到共享特征空間中。為了將這些多模態特征輸入到預訓練的 LLM 中,需要將來自不同模態的特征組織成一個序列。可以簡單地通過連接來自不同模態的特征(如 [Vimage, Vtext, ..., Vaudio, Vtext])來形成多模態特征序列。

接下來,將構建的多模態特征序列輸入到預訓練的 LLM 中進行處理。Transformer 模型通過多層自注意力機制和前饋神經網絡處理輸入特征序列。每一層包含自注意力和前饋網絡模塊,更新和整合特征表示,逐步提取更高層次的特征。經過多層 Transformer 處理后,模型生成一個包含綜合信息的特征表示序列。根據任務需求,可以通過特定的輸出層生成最終結果。例如,如果任務是生成文本描述,可以將綜合特征表示輸入到文本生成器中以生成描述性文本。

通過遵循這些步驟,可以有效地由 LLM 處理多模態特征。盡管預訓練語言模型如 GPT 和 LLAMA 主要設計用于文本輸入,但其能力可以通過特征投影和序列化方法擴展,以處理和整合多模態數據,從而執行復雜的多模態任務。

付費5元查看完整內容

摘要

無人機(UAV)由于有效且靈活的數據采集,近年來已成為計算機視覺(CV)和遙感(RS)領域的研究熱點。由于最近深度學習(DL)的成功,許多先進的目標檢測和跟蹤方法已被廣泛應用于與無人機相關的各種任務,例如環境監測、精準農業、交通管理。本文全面綜述了基于DL的無人機目標檢測與跟蹤方法的研究進展和前景。具體來說,我們首先概述了挑戰,統計了現有的方法,并從基于DL的模型的角度提供了解決方案,這三個研究課題分別是:來自圖像的目標檢測,來自視頻的目標檢測,來自視頻的目標跟蹤。利用無人機主導目標檢測與跟蹤相關的開放數據集,利用4個基準數據集,采用最先進的方法進行性能評估。最后,對今后的工作進行了展望和總結。本文對基于DL的無人機目標探測與跟蹤方法進行了綜述,并對其進一步發展提出了一些思考,以期為來自遙感領域的研究人員提供參考。

//www.zhuanzhi.ai/paper/d2cb72aa7da469d6481f2fc9e9c6454a

引言

目標檢測與跟蹤作為遙感領域的重要研究課題,已廣泛應用于環境監測、地質災害檢測、精準農業、城市規劃等各種民用和軍事任務中。傳統的目標捕獲方法主要來源于衛星和載人飛行器。這兩種平臺通常在固定軌道上運行或按照預定的路徑運行,也可以根據委托的任務,如城市規劃和測繪,或在惡劣和不適宜居住的環境下進行物體觀測,如冰凍圈遙感,臨時改變運行路線并懸停。然而,衛星和載人飛機的成本以及飛行員潛在的安全問題不可避免地限制了此類平臺的應用范圍。

隨著微電子軟硬件的發展,導航和通信技術的更新,以及材料和能源技術的突破,無人機(UAV)平臺已經成為國際遙感領域的研究熱點,迅速崛起。無人機遙感系統是將科技與無人機、遙感、全球定位系統(GPS)定位和慣性測量單元(IMU)姿態確定手段相結合的高科技組合。它是一個以獲取低空高分辨率遙感圖像為目標的專用遙感系統。與傳統平臺相比,無人機彌補了由于天氣、時間等限制造成的信息損失。此外,無人機的高機動性使其能夠靈活地采集視頻數據,不受地理限制。這些數據無論在內容上還是時間上都信息量極大,目標檢測與跟蹤進入了大規模無人機[1]-[3]時代,在土地覆蓋測繪[4]、[5]、智慧農業[6]、[7]、智慧城市[8]、交通監控[9]、災害監控[10]等領域發揮著越來越重要的作用。

目標檢測與跟蹤作為計算機視覺的基本問題之一,采用了經典的基于統計的方法[11]、[12]。然而,當前海量數據影響了這些傳統方法的性能,造成了特征維數爆炸的問題,存儲空間和時間成本較高。由于深度神經網絡(deep neural network, DL)技術[13]-[15]的出現,可以用深度復雜網絡學習具有足夠樣本數據的層次特征表示。自2015年以來,深度神經網絡已經成為無人機目標檢測與跟蹤的主流框架[16],[17]。圖1為無人機遙感在城市區域目標檢測與跟蹤的示例。經典的深度神經網絡主要分為兩大類:兩階段網絡和單階段網絡。其中,RCNN[18]、Fast RCNN[19]和Faster RCNN[20]等兩階段網絡首先需要生成region proposal (RP),然后對候選區域進行分類和定位。[21] -[23]的一系列工作證明了兩級網絡適用于具有較高檢測精度的應用。一級網絡,如SSD[24]和YOLO[16],[25],[26],直接產生類概率和坐標位置,比二級網絡更快。同樣,也有一些更快的輕量級網絡,如mobilenet SSD [27], YOLOv3 [28], ESPnet v2[29]等。因此,對高速需求的無人機遙感實際應用而言,一級快速輕量化網絡是最終的贏家。但對于低分辨率的數據,如果不對圖像進行預處理或對經典的神經網絡結構進行修改,則無法產生良好的效果。

本文以最大起飛重量小于30公斤的無人機為研究對象,通過總結最新發表的研究成果,對基于深度學習(DL)的無人機目標檢測與跟蹤方法進行了全面綜述,討論了關鍵問題和難點問題,并描述了未來的發展領域。本文的其余部分組織如下。第二節概述了無人機的統計情況和相關出版物。第六節介紹現有的基于無人機的遙感數據集。第三至第五節綜述了三個分支在基于無人機的目標檢測和跟蹤方面的現有基于DL的工作。第八節討論結論。

付費5元查看完整內容

摘要

遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。

引言

遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。

概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。

與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。

本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。

付費5元查看完整內容

摘要: 圖異常檢測旨在大圖或海量圖數據庫中尋找“陌生”或“不尋常”模式,具有廣泛的應用場景.深度學習可以從數據中學習隱含的規律,在提取數據中潛在復雜模式方面表現出優越的性能. 近年來隨著基于深度神經網絡的圖表示學習取得顯著進展,如何利用深度學習方法進行圖異常檢測引起了學術界和產業界的廣泛關注. 盡管最近一系列研究從圖的角度對異常檢測技術進行了調研,但是缺少對深度學習技術下的圖異常檢測技術的關注. 首先給出了靜態圖和動態圖上各類常見的異常定義,然后調研了基于深度神經網絡的圖表示學習方法,接著從靜態圖和動態圖的角度出發,梳理了基于深度學習的圖異常檢測的研究現狀,并總結了圖異常檢測的應用場景和相關數據集,最后討論了圖異常檢測技術目前面臨的挑戰和未來的研究方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200685

圖作為一種通用的數據結構,被廣泛用于表示 復雜的結構化數據.相對于其他數據結構,它能更好 地存儲和表達實體及其聯系.現實世界中,圖在社交 網絡分析、Web網絡分析、交通路網優化、知識圖譜 構建等領域均有廣泛的應用.針對這些語義豐富、樣 式多樣、規模龐大的圖數據,如何快速、準確地檢測 其中的異常引起了學術界和產業界的廣泛關注.圖 異常檢測是指在一個大圖或海量圖數據庫中尋找包 含“陌生”或者“不尋常”模式的結構(包括節點、邊或 者子圖),具有廣泛的應用場景,例如英特網中的惡 意攻擊、社交網絡中的突發事件檢測、電子商務中的 水軍發現等.相較于傳統的異常檢測方法,基于圖的 異常檢測由于圖具有強大的表達能力,不僅可以將 復雜的數據加以直觀的呈現,同時也能將數據中隱 含的相關性融入到異常檢測過程中.

面向圖的異常檢測工作最早發表于2003年[1], 現有工作大致可分為基于靜態圖和基于動態圖 2 類.在基于靜態圖的異常檢測工作中,一類方法利用 ego網絡[2]或者基于團體[3]研究問題;一類方法基 于圖的結構信息進行異常檢測[4G6],也有一些工作基 于子空間選擇,試圖在節點特征的子空間中發現異 常[7G9].還有一些工作通過概率、統計方法獲取圖的 統計信息進行異常檢測[10G13].盡管這些工作在異常 檢測上取得了不錯的進展,但這些方法如利用ego 網絡的方法,由于處理圖數據,必須考慮節點之間的 交互,在圖較為稀疏時難以實現較好的效果;或者如 子空間選擇和統計方法,由于淺層學習機制難以綜 合利用節點的屬性和結構信息.在基于動態圖的異 常檢測方面,同樣有一些工作基于團體[14G15]、基于結 構[6,16]、或基于概率統計[17G19]進行異常檢測.另外一 類典型的方法是首先獲取圖的概要,然后通過聚類 和異常 檢 測 來 確 定 概 要 中 的 異 常,例 如 文 獻 [20G 21],但是這些方法獲得的概要無法保留重要的結構 信息,比如鄰接節點的信息.現有的基于動態圖的異 常檢測方法大多依賴于啟發式規則,通常只是簡單 地考慮某一類特征;雖然有部分方法[22G23]考慮了內 容甚至時間因素,但并不靈活,導致其應用局限于特 定的場景.

近年來,深度學習成為人工智能和機器學習中極為重要的部分,在提取數據中潛在復雜模式方面 表現出優越的性能,并在音頻、圖像和自然語言處理 等領域得到了廣泛應用.深度學習方法能夠合理處 理復雜的屬性信息,并且可以從數據中學習隱含的 規律;此外,通過神經網絡對圖進行嵌入不僅可以很 好地保留信息[24G26],還可以很好地處理節點或邊的 屬性,同時保留結構信息,進而方便檢查隱空間中節 點或邊表示的相似性.近年來隨著對圖進行嵌入表 示取得顯著進展,如何利用深度學習方法進行圖異 常檢測在過去幾年中吸引了廣泛關注.基于深度學 習的圖異常檢測方法通常使用圖的嵌入表示方法先 將圖表示為隱空間中的向量,然后使用該向量重構 圖從而剔除異常信息的影響,最后通過重構誤差進 行異常檢測.

關于異常和離群點檢測,已經存在非常全面的 綜述類文章,例如Zimek等人[27]重點介紹了關于高 維離群值檢測,Schubert等人[28]討論了局部離群值 檢測技術.但是,這些文章通常關注多維數據實例的 點,沒有或者不是直接地關注基于圖的檢測技術.盡管文獻[29]從圖的角度對異常檢測技術進行了調 研,但是缺少對深度學習技術下的圖異常檢測技術 的關注.與以往關于異常檢測的綜述不同,本文專注 于大圖或海量圖數據庫中的異常檢測,并對基于深 度學習的圖異常檢測技術進行全面地梳理和總結, 是最早聚焦基于深度學習的圖異常檢測技術方面的研究綜述.

本文首先對圖上的異常定義做了全面的分析, 然后詳細介紹了基于深度神經網絡的圖表示學習方 法,接著從靜態圖和動態圖的角度出發,對現有基于 深度學習的圖異常檢測方法進行系統地總結和歸 類,并討論相關方法的局限性.接著簡單介紹圖異常 檢測技術的實際應用場景和相關的數據集,最后討論基于深度學習的圖異常檢測研究面臨的挑戰及未 來可行的研究方向.本文期望通過對目前基于深度 學習的圖異常檢測研究現狀的梳理,為后續研究提 供可借鑒的思路.

付費5元查看完整內容
北京阿比特科技有限公司