如何探索CV中的AGI?華為這篇論文進行了論述
人工智能社區一直在追求被稱為通用人工智能(AGI)的算法,這些算法可以應用于任何類型的現實世界問題。最近,由大型語言模型(LLMs)驅動的聊天系統嶄露頭角,并迅速成為在自然語言處理(NLP)中實現AGI的有力候選,但是在計算機視覺(CV)中實現AGI的道路仍然不明朗。這種困境可能歸因于視覺信號比語言信號更復雜,但我們對尋找具體原因以及吸取來自GPT和LLMs的經驗以解決問題充滿了興趣。在這篇論文中,我們從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統解決各種任務。這個分析啟示我們,統一性是CV的下一個重要目標。但是,盡管在這個方向上做出了各種努力,CV仍然遠離像GPT那樣自然集成所有任務的系統。我們指出,CV的根本弱點在于缺乏從環境中學習的范式,然而NLP已經在文本世界中完成了這項任務。然后,我們設想了一個流程,將一個CV算法(即,一個代理)放置在世界級的、可交互的環境中,預先訓練它根據其行動預測未來的幀,然后對其進行細化訓練以完成各種任務。我們期望通過大量的研究和工程努力推動這個想法向前發展并進行擴大,對此,我們分享了我們對未來研究方向的觀點。
1. 引言
世界正在見證向人工通用智能(AGI)的史詩般的奧德賽,我們按照慣例將AGI定義為可以復制人類或其他動物可以做的任何智能任務的計算機算法。特別是,在自然語言處理(NLP)中,已經開發出了一些可以通過與人類聊天來解決各種任務的計算機算法。一些研究人員認為,這樣的系統可以被看作是AGI的早期火花。這些系統大多是基于大型語言模型(LLMs)建立的,并通過指令調優進行增強。它們配備了外部知識庫和專門設計的模塊,可以完成諸如解決數學問題、生成視覺內容等復雜任務,反映了它強大的理解用戶意圖和進行初步思維鏈的能力。盡管在某些方面(例如,講述科學事實和命名人物之間的關系)存在已知的弱點,但這些開創性的研究已經顯示出一個明確的趨勢,即將NLP中的大多數任務統一到一個系統中,這反映了對AGI的追求。 與自然語言處理(NLP)中統一化的快速進展相比,計算機視覺(CV)領域離統一所有任務的目標還很遠。常規的CV任務,如視覺識別、追蹤、字幕、生成等,大多使用大不相同的網絡架構和/或特別設計的流程進行處理。研究人員期待有一個像GPT那樣的系統,可以用統一的提示機制處理各種CV任務,但在實現個別任務的良好實踐與在多種任務中實現泛化之間存在著權衡。例如,為了在物體檢測和語義分割中報告高識別準確率,最好的策略是在強大的骨干網絡上設計特定的頭部模塊,但這種設計一般不適用于圖像字幕或視覺內容生成等其他問題。顯然,統一化是CV的趨勢。近年來,這個方向有許多努力,我們大致將它們分為五個研究主題,即(i) 基于視覺-語言對齊的開放世界視覺識別,(ii) 用于通用視覺識別的“分割任何物體”任務,(iii) 統一視覺任務的通用視覺編碼,(iv) LLM引導的視覺理解,以增強CV中的邏輯,以及(v) 多模態對話,以促進視覺-語言交互。這些工作都顯示出統一化的希望,但是,它們還不能組成一個像GPT那樣可以解決現實世界中通用CV任務的系統。
因此,產生了兩個問題:(1)為什么在CV中實現統一如此困難?(2)我們可以從GPT和LLMs中學到什么來實現這個目標?為了回答這些問題,我們重新審視GPT,將其理解為在文本世界中建立一個環境,并允許一個算法(或代理)通過交互學習。計算機視覺研究缺乏這樣的環境。因此,算法無法模擬世界,所以它們只能采樣世界,并學習在所謂的代理任務中實現良好的性能。在深度學習的史詩般的十年之后,代理任務不再能夠表示CV算法的能力;越來越明顯的是,繼續追求它們的高精度可能會使我們遠離AGI。基于上述分析,我們提出了一個朝向CV中的AGI的想象流程。它涉及三個階段。第一階段是建立一組忠實的、豐富的、可交互的環境。第二階段的目標是通過迫使代理探索環境并預測未來幀來訓練代理:這對應于NLP中的自回歸預訓練階段。第三階段涉及教代理完成各種任務:在這個階段,可能需要引入人類的指令,這對應于NLP中的指令微調階段。可選地,可以通過簡單和統一的提示來調整代理以執行代理任務。這個想法與一些現有的研究主題有關,包括3D環境建立、視覺預訓練、強化學習和具身CV。但是,現有的工作大多是初步的,我們預期需要大量的努力,才能使它成為解決現實世界問題的有效范式。
本文的其余部分組織如下。首先,在第2部分,我們簡要介紹了AGI的歷史和思想,并繼承了AGI是一種最大化獎勵的算法的定義。接著是第3部分,我們展示了GPT的能力,這是一種最先進的NLP算法,被認為是AGI的火花。然后,在第4部分,我們根據CV研究的當前狀態,分析了在計算機視覺中實現AGI為什么困難,并指出了基本的困難在于過時的學習范式。這個分析引導我們到了第5部分,我們在那里設想了一種將CV推向AGI的流程,并基于此對未來的研究方向進行了一些評論。最后,在第6部分,我們對本文進行了總結并分享了我們的思考。
2. CV:AGI的下一個戰場
人類基于多種數據模式感知世界。我們都知道,我們學到的大約85%的東西是通過我們的視覺系統。因此,鑒于NLP社區已經展現了AGI的前景,自然而然地將計算機視覺(CV)或多模態(至少包括視覺和語言領域)視為AGI的下一個戰場。在此,我們提供兩個額外的評論來補充上述陳述。首先,顯然,CV是NLP的超集,因為人們閱讀文章是首先通過識別捕獲圖像中的字符,然后理解內容。換句話說,CV(或多模態)的AGI應該覆蓋NLP的所有AGI能力。其次,我們認為在許多情況下,僅依靠語言是不夠的。例如,當人們試圖找到關于一個未知對象(例如,動物、時尚等)的詳細信息時,最好的方式是拍攝一張圖片并用它進行在線搜索;純粹依賴文本描述可能會引入不確定性和不準確性。另一個例子,如我們將在第4.3節中看到,不總是容易指出場景中的細粒度語義(用于識別或圖像編輯),并且以視覺友好的方式思考更有效,例如,使用一個點或框來定位一個對象,而不是說一些像“穿著黑色夾克,在黃色汽車前站著和另一個人交談”的人這樣的話。
我們期望有一個CV算法能解決一般性任務,可能通過與環境的交互。注意,這個要求不僅限于識別所有事物或者基于圖像或視頻片段進行對話。它應該是一個全面的系統,接收來自人類的通用命令并產生所需的結果。但是,當前的CV狀態還很初級。如圖7所示,CV社區一直在為不同的視覺任務使用不同的模塊甚至系統。
**統一化是趨勢 **
下面,我們將朝向計算機視覺統一化的最近研究主題總結為五個類別。
**開放世界視覺識別 **
在很長一段時間里,大多數CV算法只能識別出現在訓練數據中的概念,導致了一個“封閉世界”的視覺概念。相反,“開放世界”的概念指的是CV算法能夠識別或理解任何概念,無論它是否以前出現過。開放世界的能力往往通過自然語言引入,因為這是人類理解新概念的自然方式。這解釋了為什么與語言相關的任務,如圖像字幕 [73],[74] 和視覺問題回答 [91],[92],[93] 對視覺識別的開放世界設定做出了最早的貢獻。最近,隨著視覺語言預訓練(例如 CLIP [13] 和 ALIGN [94])的出現,將視覺和語言領域的特征對齊變得更容易。統一的特征空間不僅為圖像字幕 [75],[76],[77] 和視覺問題回答 [11],[76],[95] 提供了更簡單的管道,而且創造了一種新的方法 [13] 用于傳統的視覺識別任務。例如,圖像分類可以通過簡單地將查詢圖像與一組模板(也被稱為“提示”)匹配來完成,說一張{某物}的照片,其中某物可以是任何(因此是開放世界的)概念,比如貓或西伯利亞雪橇犬,并將結果設置為匹配得分最高的候選者。除了原始版本之外,研究人員開發了名為“學習提示”的算法 [96],[97] 來提高分類準確性。后來,該方法從圖像分類繼承到物體檢測 [87],[98],語義分割 [88],[99],實例分割 [100],全景分割 [101],[102],并進一步擴展到視覺接地 [103] 和復合視覺識別 [90] 任務。這些任務可以從視覺語言模型中受益,這些模型經過增強的定位預訓練 [103],[104]。開放世界視覺識別與零樣本視覺識別密切相關,因為它們都試圖將識別能力泛化到訓練集中未出現的概念。
"分割任何事物"任務
"分割任何事物"任務 [14] 最近被引入作為一個通用模塊,將原始圖像像素聚類為多個組,其中許多對應于圖像中的基本視覺單元。該任務支持包括點、輪廓、文本等在內的多種提示,并為每個提示或每個提示的組合產生一些掩碼和分數。該模型,SAM,在一個包含約1000萬圖像的大規模數據集上進行了訓練,能夠轉移到廣泛的分割任務,包括醫學圖像分析 [111],[112],[113],偽裝對象分割 [110],[114],3D對象分割 [108],對象跟蹤 [115],以及應用場景如圖像修復 [109]。SAM也可以與最先進的視覺識別算法一起使用,例如將視覺接地 [116] 算法產生的邊界框精煉為掩碼,并將分割的單元輸入到開放集分類算法中進行圖像標記 [107],[117]。
技術上,SAM的關鍵在于提示機制和數據閉合,即通過標注者的少量反饋來閉合分割任務。提示的統一形式使SAM看起來像是視覺基礎模型或管道的一部分,但仍然存在許多未解決的問題。例如,關于SAM的上游和下游模塊(如果SAM確實是管道的一部分)仍然不清楚,而且SAM可能會嚴重受到像素級外觀的影響,例如,手臂可以精確地在衣服的邊界處從軀干上分割出來,這意味著顏色是分割的主導因素。總的來說,SAM可能已經過度適應了"分割任何事物"任務本身,從而削弱了其分類能力。
通用視覺編碼
另一種統一計算機視覺任務的方式是為它們提供一個通用的視覺編碼。有幾種方法可以實現這個目標。一個關鍵的困難在于視覺任務之間的巨大差異,例如,對象檢測需要一組邊界框,而語義分割需要對整個圖像進行密集預測,這兩者都與圖像分類所需的單個標簽非常不同。正如我們都能理解的,自然語言提供了一種統一的形式來表示所有事物。一個名為 pix2seq [15] 的早期工作顯示,對象檢測結果(即邊界框)可以被形式化為自然語言和坐標,然后轉換為視覺模型的輸出標記。在稍后的版本,pix2seq-v2 中,他們將表示形式一般化,以統一對象檢測、實例分割、關鍵點檢測和圖像字幕的輸出。類似的想法也被用于其他的圖像識別 [120]、視頻識別 [121] 和多模態理解 [16],[122],[123] 任務。
LLM指導的視覺理解
視覺識別可以非常復雜,尤其是當涉及到組合概念和/或視覺實例之間的關系時。對于端到端模型(視覺-語言預訓練模型用于視覺問題回答[11],[76],[95])來說,按照人類容易理解的程序生成答案是困難的。為了緩解這個問題,一個實際的方法是生成可解釋的邏輯來協助視覺識別。這個想法并不新鮮。幾年前,在Transformer架構出現之前,研究人員提出使用長短期記憶模型(LSTM)[72]生成程序,以便將視覺模塊作為復雜問題回答的模塊[126]。在那個時候,LSTM的能力在很大程度上將這個想法限制在相對簡單和模板化的問題范圍內。最近,大型語言模型(尤其是GPT系列)的出現使得任意問題的轉換成為可能。具體來說,GPT可以以不同的方式與人類交互。例如,它可以將基本識別結果總結為最終答案[125],或者生成代碼[18],[124]或自然語言腳本[19]來調用基本視覺模塊。因此,視覺問題可以被分解為基本模塊。這對于邏輯問題特別有效,例如,詢問對象之間的空間關系或依賴于對象數量的問題。LLMs可能理解這種邏輯,但它們尚未展示出協助基本視覺識別模塊的能力。也就是說,一旦基本的識別結果錯誤(例如,檢測算法錯過了一些小的和/或部分遮擋的對象),答案仍然會是錯誤的。我們期望在未來形成一種基本的視覺邏輯(例如,算法可以按照順序算法來檢測每個對象,或者被常識[127]指導來解決難題),可能是在LLMs的幫助下,從而提升基本的視覺識別。
多模態對話
多模態對話將基于文本的對話擴展到視覺領域。早期的工作涉及到視覺問題回答,其中構建了各種簡單問題的數據集 [128],[129],[130]。隨著LLMs的快速發展,通過對預訓練的視覺和語言模型進行微調,實現了多輪問答 [11],[95]。還展示了在多模態中可以通過上下文學習 [76] 或使用GPT作為邏輯控制器 [131] 來回答各種問題。最近,在GPT系列中開發的一種新的范式,稱為指導學習 [4],已被繼承用于提高多模態對話的質量 [20],[46]。其思想是提供一些參考數據(例如,對象、描述)來自于基準標注或識別結果,并要求GPT模型生成指導數據(即,豐富的問答對)。通過這些數據(無需參考),用于視覺和語言的基礎模型可以通過輕量級的網絡模塊(例如,Q-former [11])相互交互。多模態對話為計算機視覺提供了一個初步的交互性基準,但作為一個由語言引導的任務,它也具有開放世界視覺識別中分析的弱點(見第4.2.1節)。我們期望豐富查詢形式的方法(例如,使用通用的視覺編碼方法,參見第4.2.3節)可以將多模態對話推向更高的水平。
3 未來:從環境中學習
上述分析要求我們為計算機視覺(CV)的強大代理制定一個新的范式。在本節中,我們將我們的觀點和洞見轉化為一個假想的流程,回顧與這個流程相關的現有工作,并基于這個流程對未來的研究方向提出評論。
圖14展示了我們的想法。這個流程包括三個階段:第0階段建立環境,第1階段進行預訓練,第2階段進行微調。在需要的時候,微調后的模型可以被用于傳統的視覺識別任務。下面,我們將詳細描述每個階段。
?** 第0階段:建立環境**。正如前面的分析,高質量的環境對于計算機視覺(CV)中的人工通用智能(AGI)是非常必要的。這里的"高質量"概念包括但不限于豐富性(應該有充足和多樣化的環境)、真實性(視覺外觀和其他代理的行為應接近真實世界)以及交互性的豐富性(代理可以通過與環境交互來執行廣泛的任務)。
?** 第1階段:生成式預訓練**。算法被要求探索環境并預訓練以預測未來的幀。這與自然語言處理(NLP)中的 GPT 任務(預測下一個詞元)的最大區別在于,未來的幀取決于代理的行動(在 NLP 中,預訓練的文本語料庫保持不變),所以模型試圖學習狀態和行動的聯合分布。這個策略在已經建立的環境集無法近似世界分布時特別有用。需要注意的是,由于計算機視覺(CV)是自然語言處理(NLP)的超集(參見第4.1節前的段落),預訓練的計算機視覺模型的大小(例如,參數的數量)應該比自然語言處理模型大幾個數量級。
第2階段:指導微調。預訓練模型被指導完成真實世界的任務,遵循人類的指示。直觀上說,代理與環境之間允許的交互類型有很多,包括探索、導航、使用語言、執行物理動作等等。一個合理的推測是,應該收集更多的指示數據,這也對應于基礎計算機視覺模型的大小。
? 可選:下游感知。我們期望計算機視覺算法可以從前一階段學習到所有需要的感知能力,例如,為了完成一個非常簡單的任務,比如"給我買一杯咖啡",模型必須至少學會(i) 安全地四處探索,(ii) 識別咖啡店在哪里,(iii) 用語言與店員交流,并且(iv) 抓取買到的咖啡。這樣的模型,當適當地提供提示時,應該輸出期望的感知結果,包括追蹤另一個代理(以避免與其碰撞),開放集的視覺識別(用于找到酒吧和買到的咖啡)等等。這與通過合成進行分析的想法[136]有關。
4 結論
在這篇論文中,我們討論了如何推動計算機視覺(CV)算法向人工通用智能(AGI)發展。我們首先回顧了計算機視覺為統一而進行的當前狀態和最近的努力,然后我們繼承了來自自然語言處理(NLP),尤其是 GPT 系列的想法和洞見。我們的結論是,計算機視覺缺乏一個可以從環境中學習的范式,為此我們提出了一個假想的流程。我們期望需要實質性的技術進化來使這個流程成為現實。
人工智能(AI)的發展迅速,為許多實際應用帶來了顯著的進步。但是,AI決策的普及也引發了對其潛在安全風險的擔憂,因為眾所周知AI系統在多個領域都會出現故障,例如自動駕駛、醫療診斷和內容審查。在這篇論文中,我們通過生成模型的角度探討AI的安全挑戰,這是一類能夠逼近訓練數據集的基礎分布并合成新樣本的機器學習模型。通過將生成模型與AI安全連接起來,我們揭示了生成模型在解決安全挑戰方面的巨大潛力,同時也識別了現代生成模型帶來的安全風險。首先,我們重點研究了如何通過將生成模型納入現有的機器學習流程并合成新的合成圖像來提高對抗性強健學習中的泛化能力。我們評估了各種生成模型,并提出了一個新的指標(ARC),基于對抗性擾動的合成數據和真實數據的不可區分性,來準確確定不同生成模型的泛化優勢。接下來,我們探討了生成模型的任務感知知識蒸餾,首先證明了單個合成圖像在提高泛化中的不同貢獻。為了自適應地采樣具有最高泛化效益的圖像,我們提出了一種自適應采樣技術,引導擴散模型的采樣過程以最大化生成的合成圖像的泛化效益。然后,我們利用生成模型從低密度區域生成高保真樣本,來解決長尾數據分布的不足,這些長尾分布是AI安全中的許多挑戰的基礎。我們為擴散模型提出了一種新的低密度采樣過程,引導該過程走向低密度區域同時保持保真度,并嚴格證明我們的過程成功地從低密度區域生成了新的高保真樣本。最后,我們展示了現有生成模型的一些關鍵限制。我們首先考慮了異常值檢測任務,并展示了現代生成模型在解決它時的不足。考慮到我們的發現,我們提出了SSD,這是一個基于未標記的分布數據的無監督異常值檢測框架。我們進一步發現,數百萬用戶使用的現代擴散模型泄漏了訓練數據的隱私,我們從預訓練的擴散模型中提取了大量的訓練圖像。總之,這篇論文解決了多個AI安全挑戰,并為新的生成AI范式下的AI系統的安全性和可靠性提供了一個綜合框架。
視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里,基于深度學習的方法在這個領域取得了顯著進展。最近,一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer,在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說,視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述,總結了近期的進展。我們首先回顧背景,包括問題定義、數據集和先前的卷積方法。接下來,我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構,我們檢查各種方法設計,包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置,包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外,我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后,我們確定了這個領域的開放性挑戰,并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題,涉及到諸多實際應用,如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始,分割問題已經得到了大量的研究關注。在過去的十年里,深度神經網絡,如卷積神經網絡(CNNs)[6]、[7]、[8],例如全卷積網絡(FCNs)[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功,并帶來了更好的結果。與傳統分割方法相比,基于CNN的方法具有更好的泛化能力。由于它們的卓越性能,CNN和FCN架構一直是分割研究工作的基本組成部分。
最近,隨著自然語言處理(NLP)的成功,變換器(Transformer)[13]被引入作為循環神經網絡(RNNs)[14]的替代品。Transformer包含一個新穎的自注意力設計,并可以并行處理各種標記。然后,基于Transformer設計,BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能,加速了變換器進入視覺領域的發展。最近,研究人員將變換器應用于計算機視覺(CV)任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時,一些工作[19]、[20]使用純自注意力層替換卷積層。之后,兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer(ViT)[21],它是一種純粹的Transformer,直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer(DETR)[22],它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計,簡化了檢測和分割的流程。然后,隨后的工作在各種視覺任務上采用改進的設計,包括表示學習[23]、[24],對象檢測[25],分割[26],低級圖像處理[27],視頻理解[28],3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面,最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比,大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起,有關視覺變換器的調查有很多[31]、[32]、[33]。然而,其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時,還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而,在我們所知范圍內,尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信,總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中,我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始,然后轉向基于Transformer的方法,涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是,對于主要的綜述部分,我們首先在第3.1節中將現有方法的核心框架總結為一個元架構,這是DETR的擴展。通過改變元架構的組件,我們將現有方法分為六類,包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外,我們還研究了密切相關的具體設置,包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外,還提供了以前基于CNN的模型和其他領域的相關文獻的概述,如目標檢測,目標跟蹤,以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務,包括語義分割、實例分割、全景分割及其變體,如視頻和點云分割。此外,我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法,只回顧了一些與cnn密切相關的方法,以供參考。雖然有很多預印本或已出版的作品,但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說,圖1顯示了我們調查的流程。在第2節中,首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后,回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后,我們在第六節提出了未來的研究方向,并在第七節總結了本文的研究。2. 方法綜述****在本節中,基于類似DETR的元架構,回顧了基于transformer的分割的關鍵技術。如圖3所示,元架構包含一個特征提取器、對象查詢和transformer解碼器。然后,以元體系結構為主線,綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后,在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。
在本節中,我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術,而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。
2.1 強表征
學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例,SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果,沒有花哨的東西。在vit之后,研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。
2.2 解碼器中的交互設計
本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域,用于VOD、VIS和VPS,重點是建模時間一致性和關聯。
3 優化對象查詢
與Faster-RCNN[111]相比,DETR[22]需要更長的收斂時間。由于對象查詢的重要作用,已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法,將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索,以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。
使用查詢進行關聯
得益于查詢表示的簡單性,最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯,另一種用于任務級關聯。前者采用實例判別的思想,解決視頻中的實例匹配問題,如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。
條件返回查詢融合
除了使用對象查詢進行多任務預測外,一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢,解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源,將這些工作分為兩方面:語言特征和圖像特征
4 相關的領域
在本節中,我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。
點云分割
包括語義級點云分割,實例級點云分割
調優基礎模型
我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法,使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識,并設計更好的方法來適應下游設置。對于開放詞匯表學習,核心思想是將預訓練的VLM特征與當前檢測器對齊,以實現新的類別分類。
領域感知分割
領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下,將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置,包括語義分割和目標檢測。在vit之前,之前的工作[291],[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干,并提出了三種訓練策略,包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果,是UDA分割的強大基線。然后,HRDA[293]通過多分辨率訓練方法改進了DAFormer,并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發,MIC[294]提出了掩碼圖像一致性,以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊,在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反,它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是,通過引入領域查詢來實現對齊,并在解碼器上執行領域分類。同時,DA-DETR[295]提出了一種混合注意力模塊(HAM),其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。
Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后,接下來的工作試圖通過各種方法來避免分類沖突。例如,Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法,LMSeg[252]使用可學習標記[268]擴展了這種嵌入,并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時,也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是,Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同,它基于公共語言嵌入來學習每個數據集的語義偏差,以避免領域鴻溝。最近,TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型,其中將Mask2Former擴展到視頻領域,并采用統一的圖像數據集預訓練和視頻微調。
標簽和模型高效分割
類無關的分割和跟蹤
醫學圖像分割
CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335],[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功,最近的代表工作[260],[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net,其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣,再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN,其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像,并設計了類似U-Net的架構。提取transformer中不同層的編碼表示,并通過跳躍連接與解碼器合并,以獲得最終的3D掩碼輸出。
5 基準測試結果
在本節中,我們報告了最近基于transformer的視覺分割,并列出了之前討論的算法的性能。對于每個審閱的領域,第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意,我們僅列出已發表的工作供參考。為簡單起見,我們排除了一些關于表示學習的工作,只介紹了特定的分割方法。關于全面的方法比較,請參閱補充資料,提供了更詳細的分析。
6 未來方向
通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26],[153],[162],[163],[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割,例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大,包括機器人導航和自動駕駛汽車。
多模態聯合學習。由于缺乏歸納偏差,transformer在處理任何模式方面都是通用的。因此,使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索,這也可能有利于相關的視覺語言任務,包括文本-圖像檢索和標題生成[343]。最近的工作[224],[344]在一個通用的transformer架構中共同學習分割和視覺語言任務,這為結合跨多模態的分割學習提供了一個方向。
終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準,即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而,現實的場景通常是開放世界和非平穩的,其中新的類別可能連續出現[249],[345]。例如,在自動駕駛汽車和醫療診斷中,可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中,使模型具有終身學習的能力。
動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入,可能難以關聯較長時間的實例。因此,新的方法必須納入長期記憶設計,并在更長的時期內考慮實例的關聯。其次,在長時間內保持分割掩碼的一致性可能是困難的,特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三,長視頻中可能會出現嚴重的遮擋,使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后,長視頻輸入往往涉及多種場景輸入,給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術,以確保模型可以處理不同的場景輸入。簡而言之,解決這些挑戰需要開發新的長視頻分割模型,該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。
生成式分割。隨著更強大的生成模型的興起,最近的工作[346],[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發,通過生成建模解決了圖像分割問題[348]。采用生成式設計,避免了transformer解碼器和對象查詢設計,使整個框架更加簡單。然而,這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。
使用視覺推理進行分割。視覺推理[349],[350]要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向,在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程,研究人員可以利用推理的力量來提高分割精度,而分割可以為視覺推理提供更好的輸入
7 結論
本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧,據我們所知,這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述,并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外,回顧了5個密切相關的領域,并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較,我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后,指出了基于transformer的視覺分割的未來研究方向。
大多數視覺識別研究在深度神經網絡(DNN)訓練中嚴重依賴群體標記數據,通常為每個視覺識別任務訓練一個DNN,導致耗時費力的視覺識別范式。為應對這兩個挑戰,視覺-語言模型(VLM)最近得到了深入研究,它從互聯網上幾乎無限可用的網絡規模的圖像-文本對中學習豐富的視覺-語言相關性,并用一個VLM對各種視覺識別任務進行零樣本預測。**文中對面向各種視覺識別任務的視覺語言模型進行了系統綜述,包括: (1)視覺識別范式發展的背景; (2) VLM的基礎,總結了廣泛采用的網絡架構、預訓練目標和下游任務; (3) VLM預訓練和評估中廣泛采用的數據集;(4)對現有的VLM預訓練方法、VLM遷移學習方法和VLM知識蒸餾方法進行綜述和分類;(5)對所述方法的基準化、分析和討論;(6)視覺識別中VLM研究面臨的挑戰和未來可能的研究方向。**與此調研相關的項目已在//github.com/jingyi0000/VLM survey上創建。
1. 引言
視覺識別(如圖像分類、目標檢測和語義分割)是計算機視覺研究中長期存在的挑戰,也是自動駕駛[1]、[2]、遙感[3]、[4]、機器人[5]、[6]等無數計算機視覺應用的基石。隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練深度神經網絡(DNNs)取得了巨大的成功。然而,從傳統機器學習[10]、[11]、[12]、[13]向深度學習的轉變帶來了兩個新的重大挑戰,即深度學習從零開始[7]、[8]、[9]的經典設置下的DNN訓練收斂緩慢,以及在DNN訓練中費力耗時地收集大規模、特定任務、眾標數據[14]。 最近,一種新的學習范式預訓練、微調和預測在廣泛的視覺識別任務[15]、[16]、[17]、[18]、[19]中表現出了巨大的有效性。在這種新范式下,DNN模型首先用某些現成的大規模訓練數據(被標注或未標注)進行預訓練,然后用圖2(a)和(b)所示的特定任務標注訓練數據對預訓練模型進行微調。通過在預訓練模型中學習到的全面知識,這種學習范式可以加速網絡收斂,并為各種下游任務訓練表現良好的模型。
盡管如此,預訓練、微調和預測范式仍然需要一個額外的階段,使用來自每個下游任務的標記訓練數據進行特定任務的微調。受自然語言處理[20],[21],[22],[23]進展的啟發,一種名為視覺-語言模型預訓練和零樣本預測的新的深度學習范式最近受到越來越多的關注[14],[24],[25]。**在這種范式中,一種視覺-語言模型(VLM)是用互聯網上幾乎無限可用的大規模圖像-文本對進行預訓練的,預訓練的VLM可以直接應用于下游視覺識別任務,而無需微調,如圖2(c)所示。**VLM預訓練通常由某些視覺-語言目標[14],[25],[26]指導,使其能夠從大規模圖像-文本對[27],[28]中學習圖像-文本對應關系,例如:CLIP[14]采用圖像-文本對比目標,通過在嵌入空間中將成對的圖像和文本拉近并將其他圖像和文本推遠來進行學習。通過這種方式,預訓練的vlm捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入來進行零樣本預測。這種新的學習范式能夠有效地利用網絡數據,并允許零樣本預測,而不需要特定任務的微調,實現起來很簡單,但表現得非常好,例如,預訓練的CLIP在36個視覺識別任務中實現了出色的零樣本性能,從經典圖像分類[29],[30],[31],[32],[33]到人類行為和光學字符識別[14],[34],[35],[36],[37]。
隨著視覺-語言模型預訓練和零樣本預測的巨大成功,在各種VLM預訓練研究之外,人們還深入研究了兩條研究路線。第一行探索了帶有遷移學習[38],[39],[40],[41]的vlm。幾個遷移方法證明了這一點,例如,提示調優[38],[39],視覺適應[40],[41]等,所有預訓練的vlm對各種下游任務的有效適應都具有相同的目標。第二行通過知識蒸餾[42],[43],[44]探索vlm,例如,[42],[43],[44]探索如何從VLM中提取知識到下游任務,旨在在目標檢測,語義分割等方面取得更好的性能。
盡管從圖1所示的大量近期論文中證明了從VLM中獲取大量知識的濃厚興趣,但研究界缺乏一份全面的調查,可以幫助梳理現有的基于VLM的視覺識別研究、面臨的挑戰以及未來的研究方向。我們的目標是通過對各種視覺識別任務(包括圖像分類、目標檢測、語義分割等)中的VLM研究進行系統的綜述來填補這一空白。 從不同的角度進行了綜述,包括背景、基礎、數據集、技術方法、基準和未來的研究方向。我們相信,這項調查將為我們已經取得的成就提供一個清晰的藍圖,我們可以沿著這個新興但非常有前瞻性的研究方向進一步取得成就。
總而言之,這項工作的主要貢獻有三個方面。首先,對用于圖像分類、目標檢測和語義分割等視覺識別任務的VLMs進行了系統綜述。據我們所知,這是視覺識別VLMs的第一次綜述,通過對現有研究的全面總結和分類,為這個有前途的研究領域提供了一個大的圖景。其次,研究了視覺識別VLM的最新進展,包括對多個公共數據集上的現有工作進行全面的基準測試和討論。第三,分享了幾個用于視覺識別的VLM中可以追求的研究挑戰和潛在研究方向。
**本綜述的其余部分組織如下。**第2節介紹了視覺識別的范式發展和幾個相關的調查。第3節描述了VLM的基礎,包括廣泛使用的深度網絡架構、預訓練目標和VLM評估中的下游任務。第4節介紹了常用的VLM預訓練和評估中的數據集。第5節回顧并分類了VLM預訓練方法。第6節和第7節分別對VLM的遷移學習和知識蒸餾方法進行了系統綜述。第8節在多個廣泛采用的數據集上對所審查的方法進行了基準測試和分析。最后,我們在第9節中分享了視覺識別的幾個有前途的VLM研究方向。
2 背景
本節介紹了視覺識別訓練范式的發展,以及它如何向視覺-語言模型預訓練和零樣本預測范式演進。我們還討論了幾個相關的綜述,以突出本綜述的范圍和貢獻。
2.1 視覺識別的訓練范式
視覺識別范式的發展大致可以分為五個階段,包括(1)傳統機器學習和預測,(2)深度從頭學習和預測,(3)有監督的預訓練、微調和預測,(4)無監督的預訓練、微調和預測和(5)視覺-語言模型預訓練和零樣本預測。在接下來的內容中,我們將對這五種訓練范式進行詳細介紹、比較和分析。
2.1.1 傳統的機器學習和預測
在深度學習時代[7]之前,視覺識別研究嚴重依賴特征工程,使用手工特征[13]、[45]、[46]、[47]、[48]、[49]、[50]、[51]和輕量級學習模型[10]、[11]、[12]將手工特征分類為預定義的語義類別。例如,經典的SIFT特征[51]對圖像尺度、平移和旋轉的變化具有容忍度,實現了非常令人印象深刻的視覺識別性能。然而,這種范式需要領域專家為特定的視覺識別任務制作有效的特征,不能很好地應對復雜的任務,也具有較差的可擴展性。
2.1.2深度學習從零開始和預測
隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練dnn,用單一框架統一特征提取和分類過程,取得了巨大的成功。基于dnn的視覺識別繞開了復雜的特征工程,在很大程度上專注于神經網絡的架構工程,以學習有效特征。例如,ResNet[9]通過跳躍設計實現了有效的深度網絡,并可以從大量群體標記的數據中學習語義特征,在具有挑戰性的1000類ImageNet分類任務[52]上取得了前所未有的性能。另一方面,從傳統機器學習向深度學習的轉變提出了兩個新的重大挑戰,包括從頭開始深度學習的經典設置下的DNN訓練收斂緩慢,以及DNN訓練中費力且耗時地收集大規模、特定任務和眾標數據[14]。
2.1.3 有監督的預訓練、微調和預測
隨著發現從標記的大規模數據集中學習到的特征可以遷移到下游任務[15],[16],[17],從頭學習和預測的范式已經逐漸被有監督的預訓練、微調和預測的新范式所取代。這種新的學習范式,如圖2(a)所示,以監督損失對大規模標記數據(如ImageNet)進行預訓練DNN,然后用特定任務的訓練數據[15]、[16]、[17]對預訓練的DNN進行微調。由于預訓練的dnn已經學習了一定的視覺知識,它可以加速網絡收斂,并幫助用有限的特定任務訓練數據訓練出表現良好的模型。
雖然范式監督預訓練、微調和預測在許多視覺識別任務上實現了最先進的性能,但它在預訓練中需要大規模的標記數據。為了緩解這一限制,最近的研究[18]、[19]采用了一種新的學習范式無監督預訓練、微調和預測,探索自監督學習從無標記數據中學習有用和可轉移的表示,如圖2(b)所示。為此,各種自監督訓練目標(即,偽裝任務)[18]、[53]、[54]、[55]、[56]被提出,包括學習上下文信息的圖像修復[53],建模跨塊關系的掩碼圖像建模[54],通過對比訓練樣本[18]來學習判別式特征的對比學習等。然后,自監督預訓練模型在帶有標記任務特定訓練數據的下游任務上進行微調。由于這種范式在預訓練中不需要標記數據,它可以利用更多的訓練數據來學習有用的和可遷移的特征,與監督預訓練[18]、[19]相比,導致甚至更好的性能。
2.1.5 VLM預訓練和零樣本預測
盡管有監督或無監督預訓練的預訓練和微調范式提高了網絡收斂性,但它仍然需要一個額外的階段對圖2(a)和(b)所示的帶標簽的特定任務訓練數據進行微調。受自然語言處理的預訓練成功[20],[21],[22],[23]的激勵,一種名為視覺-語言模型預訓練和零樣本預測的新深度學習范式被提出用于視覺識別,如圖2(c)所示。在互聯網上幾乎無限可用的大規模圖像-文本對的情況下,VLM由特定的視覺-語言目標[14],[25],[26]進行預訓練。通過這種方式,預訓練的VLM捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入,對下游視覺識別任務進行零樣本預測(無需微調)。
與預訓練和微調相比,這種新的范式可以在不進行特定任務微調的情況下有效利用大規模網絡數據和零樣本預測。大多數現有研究探索從三個角度來改進VLM: 1) 收集大規模信息豐富的圖像-文本數據,2) 設計高容量模型以從大數據中有效學習,3) 設計新的預訓練目標用于學習有效的視覺-語言關聯。本文對視覺識別的這一新的視覺-語言學習范式進行了系統的綜述,旨在為現有的VLM研究、這一具有挑戰性但非常有前途的研究領域面臨的挑戰和未來方向提供一個清晰的藍圖。
3 VLM基礎
VLM預訓練[14],[24]旨在預訓練一個VLM來學習圖像-文本相關性,針對視覺識別任務的有效零樣本預測[9],[66],[67],[68]。給定圖像-文本對[27],[28],它首先采用一個文本編碼器和一個圖像編碼器來提取圖像和文本特征[9],[20],[69],[70],然后學習與某些預訓練目標[14],[24]的視覺-語言相關性。有了學習到的視覺-語言相關性,VLMs可以在未見過的數據上以零樣本的方式進行評估[14],[24],通過匹配任何給定圖像和文本的嵌入。在本節中,我們介紹了VLM預訓練的基礎,包括用于提取圖像和文本特征的常見深度網絡架構,用于建模視覺-語言相關性的預訓練目標,以及用于評估預訓練的VLM的下游任務。
4 數據集
本節總結了用于VLM預訓練和評估的常用數據集,如表1-2所示。
5 視覺-語言模型預訓練
如第3.2節所述,VLM預訓練已經用三種典型的方法進行了探索,包括對比目標、生成目標和對齊目標。本節通過表3所列的多個VLM預訓練研究對它們進行了回顧。
5.1 具有對比目標的VLM預訓練
對比學習在VLM預訓練中已經被廣泛探索,它為學習具有判別力的圖像-文本特征設計了對比目標[14],[80],[138]。
5.2 帶有生成目標的VLM預訓練
生成式VLM預訓練通過學習通過掩碼圖像建模、掩碼語言建模、掩碼跨模態建模和圖像到文本生成生成圖像或文本來學習語義知識。
5.3 帶有對齊目標的VLM預訓練
對齊目標通過學習預測給定的文本是否正確描述了給定的圖像,強制vlm對齊成對的圖像和文本。它可以大致分為全局圖像-文本匹配和局部區域-單詞匹配,用于VLM預訓練。
5.4 總結和討論
總而言之,VLM預訓練對具有不同跨模態目標的視覺-語言相關性進行建模,如圖像-文本對比學習、掩碼跨模態建模、圖像到文本生成和圖像-文本/區域-單詞匹配。還探索了各種單模態目標,以充分挖掘其自身模態的數據潛力,如針對圖像模態的掩碼圖像建模和針對文本模態的掩碼語言建模。另一方面,最近的VLM預訓練專注于學習全局視覺-語言相關性,在圖像級識別任務(如圖像分類)中有好處。同時,多項研究[84]、[89]、[91]、[150]、[151]、[152]、[153]通過區域-單詞匹配對局部細粒度視覺-語言相關性進行建模,旨在在目標檢測和語義分割中實現更好的密集預測。
6 VLM遷移學習
除了在沒有微調的情況下直接將預訓練的VLM應用于下游任務的零樣本預測外,最近研究了遷移學習,通過提示微調[38],[154],特征適配器[40],[41]等使VLM適應下游任務。本節介紹了預訓練VLM的遷移學習動機、常見的遷移學習設置以及三種遷移學習方法,包括提示調優方法、特征適配器方法和其他方法。
7 VLM知識蒸餾
由于VLM捕獲了涵蓋廣泛的視覺和文本概念的通用知識,一些研究探索了如何提取通用和魯棒的VLM知識,同時解決復雜的密集預測任務,如目標檢測和語義分割。本節介紹了從VLM中提取知識的動機,以及兩組關于語義分割和目標檢測任務的知識蒸餾研究。
8. 結論
用于視覺識別的視覺-語言模型能夠有效地使用web數據,并允許零樣本預測,而無需特定任務的微調,這很容易實現,但在廣泛的識別任務中取得了巨大的成功。本綜述從背景、基礎、數據集、技術方法、基準測試和未來研究方向等幾個角度廣泛回顧了視覺識別的視覺-語言模型。以表格的形式對VLM數據集、方法和性能進行了比較總結,為VLM預訓練的最新發展提供了一個清晰的藍圖,這將極大地有利于這個新興但非常有前途的研究方向的未來研究。
隨著大型語言模型(LLMs)能力的不斷提高,語境學習( in-context learning,ICL)已經成為自然語言處理(NLP)的一種新范式,其中LLMs僅根據由少量訓練樣本增強的上下文進行預測。探索ICL來評估和推斷LLM的能力已經成為一個新的趨勢。文中對ICL的研究進展、面臨的挑戰以及未來的研究方向進行了綜述和總結。
本文首先給出了ICL的形式化定義,并闡明了其與相關研究的相關性。然后,我們組織討論了ICL的先進技術,包括訓練策略、激勵策略等;最后,指出了ICL面臨的挑戰,并指出了進一步研究的方向。希望我們的工作能夠促進更多關于揭示ICL工作原理和改進ICL的研究。1. 引言隨著模型規模和語料庫規模的擴大(Devlin et al., 2019; Radford et al., 2019; Brown et al., 2020; Chowdhery et al., 2022),大型語言模型展示了從由上下文中的幾個示例組成的演示中學習的新能力(簡稱語境學習)。許多研究表明,LLMs可以使用ICL執行一系列復雜的任務,如解決數學推理問題(Wei et al., 2022c)。這些強大的能力已經被廣泛驗證為大型語言模型的新興能力(Wei等人,2022b)。
語境學習的核心思想是類比學習。圖1給出了一個示例,描述了語言模型如何使用ICL進行決策。首先,ICL需要一些示例來形成演示上下文。這些示例通常使用自然語言模板編寫。然后,ICL將一個查詢問題和一個演示上下文連接在一起形成一個提示,然后將其輸入到語言模型中進行預測。與監督學習需要一個使用后向梯度更新模型參數的訓練階段不同,ICL不需要參數更新,而是直接對預訓練語言模型進行預測。該模型被期望學習隱藏在演示中的模式,并相應地做出正確的預測。ICL作為一種新的范式,具有許多吸引人的優勢。首先,由于演示是用自然語言格式編寫的,它提供了一個可解釋的接口來與大型語言模型通信(Brown et al., 2020)。這種范式通過更改演示和模板使將人類知識納入語言模型變得容易得多(Liu等人,2022;陸等人,2022;吳等人,2022;Wei等,2022c)。第二,上下文學習類似于人類的類比決策過程。第三,與有監督學習相比,ICL是一種無訓練學習框架。這不僅可以大大降低使模型適應新任務的計算成本,還可以使語言模型即服務(Sun等人,2022)成為可能,并且可以很容易地應用于大規模的現實世界任務。盡管前景看好,但ICL中還有一些有趣的問題和有趣的性質需要進一步研究。雖然普通的GPT-3模型本身顯示出有希望的ICL能力,但一些研究觀察到,通過預訓練期間的自適應,能力可以顯著提高(Min et al., 2022b; Chen et al., 2022c)。此外,ICL的性能對特定的設置很敏感,包括提示模板、上下文示例的選擇和示例順序等(Zhao et al., 2021)。此外,盡管從直觀上看是合理的,但ICL的工作機制仍然不明確,很少有研究提供初步解釋(Dai et al., 2022; von Oswald et al., 2022)。我們提供了一份詳細的論文綜述,并將不斷更新論文列表,對ICL的相關研究進行深入討論。本文強調了面臨的挑戰和潛在的方向,希望所做的工作可以為對該領域感興趣的初學者提供有用的路線圖,并為未來的研究提供啟發。2. 概述ICL的強大性能依賴于兩個階段:(1)訓練階段,訓練LLM的ICL能力,(2)推理階段,LLM根據特定任務的演示進行預測。在訓練階段,語言模型直接在語言建模目標上進行訓練,如從左到右的生成。雖然這些模型并沒有針對上下文學習進行特別優化,但ICL仍然具有令人驚訝的能力。現有的ICL研究基本上以訓練有素的語言模型為骨干,因此本綜述不會涵蓋預訓練語言模型的細節。在推理階段,由于輸入和輸出標簽都在可解釋的自然語言模板中表示,因此有多個方向來提高ICL的性能。本文將給出詳細的描述和比較,如選擇合適的示例進行演示,針對不同的任務設計具體的評分方法等。本文按照上述分類法(如圖2所示)組織ICL目前的進展,給出了ICL的正式定義(§3),詳細討論了熱身方法(§4)、演示設計策略(§5)和主要評分功能(§6)。§7對揭開ICL背后秘密的當前探索進行了深入討論。進一步為ICL(§8)提供了有用的評估和資源,并介紹了ICL顯示其有效性的潛在應用場景(§9)。最后,總結了挑戰和潛在的方向(§10),希望這可以為該領域的研究人員鋪平道路。
ICL的主要流程如圖3所示。預訓練對于發展LLM的ICL能力具有重要意義,而可選的預熱階段可以進一步提高其能力。對于演示來說,最重要的步驟是演示設計。通過預訓練的LLM和精心設計的演示,適當的評分策略最終產生任務輸出。
來自悉尼科技大學最新《可解釋圖神經網絡研究》綜述,重點研究可解釋圖神經網絡,并基于可解釋方法對其進行分類。
圖神經網絡(GNNs)已經證明了對圖數據的預測性能的顯著提高。與此同時,這些模型做出的預測往往難以解釋。在這方面,已經有很多人從GNNExplainer、XGNN和PGExplainer等角度來解釋這些模型的預測機制。雖然這些工作提供了解釋GNN的系統框架,但對可解釋GNN的全面綜述還沒有。在這項綜述中**,我們提出了一個可解釋GNN的全面綜述。重點研究可解釋圖神經網絡,并基于可解釋方法對其進行分類**。在此基礎上,我們進一步給出了解釋GNN的常用性能指標,并指出了未來的研究方向。 圖G可以看作是一組節點Ni (i = 1,2,···,n)和邊Ej (j = 1,2,···,m)組成的某種關系的表示,它是一種理想的數據結構,可用于對各種現實世界的數據集(如分子)建模。隨著深度學習的復興,圖神經網絡(GNNs)已經成為對圖數據建模的強大工具,并在推薦、化學、醫學等許多領域和應用中取得了令人印象深刻的性能[27,7,24]。然而,將圖結構和特征信息結合在一起,產生了復雜的非線性模型,增加了理解其工作機制和預測的難度。另一方面,一個可解釋的模型是受歡迎的,甚至是必要的,特別是在實際場景中(例如,醫療診斷),因為解釋可以在多種方面使用戶受益,例如提高模型的公平性/安全性,它還可以增強對模型建議的信任。因此,可解釋GNN(eXplainable gnn, XGNN)近年來得到了相當多的研究關注,可分為兩類:1)采用可解釋AI (eXplainable- AI, XAI)方法直接解釋GNN;2)基于圖的內在結構和特征制定策略,不涉及XAI方法。 雖然近年來對GNN可解釋性的研究越來越多,但對其進行系統的討論卻很少。我們認為,全面分析XGNN最近的這些工作,將有助于更好地理解這些方法,激發新的想法,并為開發新的可解釋的方法提供見解。因此,我們對目前研究GNN的可解釋方法進行了分析和總結。特別地,我們將它們分為兩組——第2節中的基于XAI的XGNN和第3節中的非基于XAI的XGNN。然后,我們將在第4節中介紹用于衡量XGNN可解釋性的指標。第5節討論了XGNN的常見問題,最后在第6節指出了今后的研究方向。 我們的貢獻可以概括為:
我們系統地分析了最新的XGNNs方法,并將其分為兩組: 基于XAI的XGNNs,利用現有的XAI方法來解釋GNN;基于非XAI的XGNNs,它脫離了當前的XAI方法,同時試圖通過利用圖的固有結構和特性來解釋GNN。
我們提出了XGNNs的評估指標,可以用來衡量XGNNs方法的性能,因為評估指標的知識對于教育XGNNs的最終用戶/從業者是必要的。
討論了XGNNs研究中經常出現的問題和可能的解決方案,最后指出了進一步提高XGNNs可解釋性的幾個潛在研究方向。
基于XAI的可解釋圖神經網絡
通過分析XGNNs的文獻,我們對可解釋GNN的方法進行了二元分類,分為基于XAI的方法和基于非XAI的方法兩類。XGNN的分類如圖1所示。我們首先簡要介紹XAI,然后介紹XGNN,因為它將有助于理解XGNN基于XAI的可解釋技術。
可解釋人工智能
在過去的幾年里,XAI已經成為一個熱門的研究課題,在這一領域的研究越來越多。多項研究綜述了它的歷史、分類、評價、挑戰和機遇,主要集中在深度神經網絡(DNNs)[1][4][6][20][8]的解釋。XAI技術可以按照[6]中討論的三種分類: (i)可解釋范圍的差異,(ii) 方法的差異,和 (iii) ML模型使用的差異(見圖2)。
根據ML模型使用的不同,我們還可以將XAI分為模型特定的XAI和模型無關的XAI。特定于模型的XAI是指專注于單個或一組特定AI模型的可解釋性的任何方法;而模型無關的XAI并不強調底層的AI模型。
模型無關的XAI可以用于評估大多數AI模型,通常在訓練后應用,因此它們通常被視為事后方法。模型無關的XAI依賴于分析輸入和輸出特征對,并且無法訪問AI模型的具體內部工作方式(例如,權重或結構信息),否則將不可能將其與黑箱模型[21]解耦。通過分析模型特定型XAI和模型無關XAI的特點可以看出,模型特定型XAI方法對特定參數的依賴程度較高,而模型架構的任何變化都可能導致解釋方法本身或對應的可解釋算法發生顯著變化。因此,特定于模型的XAI方法無法擴展以解釋GNN。然而,一些模型無關的XAI方法可以被擴展來解釋GNN。
用XAI方法解釋圖神經網絡
卷積神經網絡(CNNs)通過將卷積運算擴展到圖和一般的非歐幾里得空間,可用于圖結構數據。將神經網絡擴展到非歐幾里得空間視為圖卷積神經網絡(GCNNs)。因此,我們可以將最初為CNN設計的常見解釋方法,擴展到GCNN。我們發現XAI的多種方法都可以很容易地推廣到GNN,如LRP [2], LIME [16], Grad-CAM[18]。表1總結了這些擴展。
分層關聯傳播(LRP)假設分類器可以分解為多個計算層,并將頂層的DNNs輸出傳播到輸入層。在每一層,應用一個傳播規則[2]。對目標輸出節點的貢獻反向傳播到輸入特征,形成對該節點貢獻的特征映射。因此,LRP在可視化輸入特征對模型預測的貢獻方面非常有用,特別是對于基于核的分類器和多層神經網絡。受此激勵,研究人員[22]在GNN中使用LRP來獲得GNN模型黑箱的洞見。Schnake等人[17]提出了基于GNN-LRP的高階泰勒展開法。GNN- LRP生成包含GNN模型和輸入圖之間復雜嵌套交互的詳細解釋。此外,Cho等人[5]使用LRP對個體預測進行了事后解釋。LRP通過網絡反向傳播計算每個神經元的相關性,從預測的輸出水平到輸入水平,相關性表示給定神經元對預測的定量貢獻。此外,Baldassarre等[3]也將LRP應用于圖模型。LRP方法通過將輸出預測分解為輸入的組合來計算顯著性映射。
局部可解釋模型無關解釋(LIME)是XAI中另一種流行的方法。LIME從黑盒模型中提取單個預測實例,并生成一個更簡單、可解釋的模型,如線性模型,以近似其決策特征。然后可以解釋這個簡單的模型,并使用它來解釋原始的黑盒預測[16]。許多其他的論文已經改進和擴展了LIME。Zhao等人[35]引入了BayLIME,將LIME與貝葉斯相結合。Zafar等人[33]使用了多個生成解釋之間的Jaccard相似性,并提出了一個確定性版本的LIME。此外,LIME也被廣泛應用于GNN中來解釋GNN模型。Huang等[9]提出了GraphLIME,一種使用Hilbert-Schmidt獨立準則(HSIC) Lasso的圖的局部可解釋模型解釋,這是一種非線性特征選擇方法來實現局部可解釋。它們的框架是通用的GNN模型解釋框架,該框架在被解釋節點的子圖中局部學習非線性可解釋模型。
梯度加權類激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)通過放松倒數第二層必須是卷積[18]的架構限制來改進CAM。通過將目標概念的梯度流到最終的卷積層,生成粗略的定位圖,以突出輸入圖像中的重要區域。CAM已廣泛應用于各種卷積神經網絡模型族[18]。Pasa[14]直接將其作為卷積神經網絡解釋的可視化工具。Vinogradova等人[25]進一步擴展了Grad-CAM,并將其應用于局部生成熱圖,顯示語義分割中單個像素的相關性。Grad-CAM也可以擴展到GNN。Pope等人[15]描述了將CNN可解釋方法擴展到GCNNs。他們為GCNNs的決策引入了解釋法(Grad-CAM)。Grad-CAM能夠生成關于網絡不同層的熱圖。
基于非XAI的可解釋圖神經網絡
大多數基于XAI的XGNN方法不需要知道GNN模型的內部參數,用于解釋的XAI方法也不是專門為CNN模型設計的。因此,當人們需要進一步探索GNN模型的結構時,尤其是對于大型和復雜的模型來說,這些方法可能無法給出令人滿意的解釋,這并不奇怪。為了緩解這一問題,近年來,研究人員開始考慮圖結構的特點,開發適合GNN模型的可解釋方法。有三種不同的方法來實現這個目標:(1)通過找到重要的子圖來解釋GNN模型;(2)通過生成新的圖來解釋GNN模型,而生成的圖應該保持最多的信息特征(如節點、節點特征和邊);(3)通過添加中間層次解釋GNN模型。
通過子圖可解釋的GNN
通過子圖可解釋的GNN是一組使用子圖添加GNN模型可解釋性的方法,它通常專注于局部特性,然后只產生最重要的子圖
通過圖生成可解釋的GNN
與關注子圖不同,通過圖生成解釋GNN需要考慮整個圖結構(或全局結構)。它考慮了圖的整體結構。然后生成一個新的圖,其中只包含GNN進行決策所需的結構。
可通過中間層解釋GNN
通過中間層注入解釋GNN可以直接將知識/信息作為因子圖編碼到模型體系結構中。如Ma等人[12]建立的因子圖神經網絡(Factor Graph Neural Network, FGNN)模型,將基因本體等生物知識直接編碼到模型架構中。因子圖神經網絡模型中的每個節點對應一些生物實體,如基因或基因本體術語,使模型具有透明性和可解釋性。
可解釋技術的評估指標
由于解釋者被用來解釋為什么做出了某個決定,而不是描述整個黑盒,所以解釋者本身的保真度存在不確定性。因此,使用正確的度量來評估可解釋性技術的正確性和完整性是至關重要的。此外,XAI[36]的一些評估指標也可以應用到XGNNs 中。本節簡要介紹xgnn解釋的常用評估指標。我們特別關注保真度、稀疏性、準確性、魯棒性和對比度。
討論
本綜述的重點是為可解釋GNN提供一個清晰的分類。通過對可解釋GNN相關文獻的分析,我們總結出以下問題。
如何解釋圖神經網絡? 主要有兩種觀點。
GNN可以被視為一個黑箱,并找到一種獨立的方式來解釋輸入和輸出之間的聯系,如GraphLIME或RelEx。
另一種方法試圖解釋GNN的細節,利用節點和邊本身的信息。
如何將XAI方法擴展到神經網絡圖?有一些研究使用XAI方法來解釋gnn(見第2.2節)。XAI方法包括Saliency Maps、LRP、LIME、Guided BP、Grad-CAM等,具有較好的性能,可以推廣用于解釋GNN。然而,這些方法并不是專門為gnn設計的,需要了解模型的內部參數。
如何找到影響圖神經網絡預測的最重要的子圖結構?正如我們在第3.2節中提到的,有幾種方法可以通過聚焦子圖結構來解釋GNN。例如,GNNExplainer識別出一個緊湊的子圖結構和一個小子集的節點特征,這可能在GNN的預測中發揮關鍵作用。此外,PGMExplainer和GISST通過生成與任何基于圖的任務相關的重要子圖和節點特征子集來生成解釋。然而,這些方法只關注局部信息的子圖結構,而沒有考慮任何全局特征。
如何從全局角度解釋圖神經網絡?相對于通過局部圖結構獲得的分段信息,全局結構往往可以提供更有趣、更完整的信息。例如,PGExplainer專注于解釋完整的圖結構,并提供了GNN所做預測的全局理解。它可以在一組實例上集體解釋GNN的預測,并很容易將學習到的解釋器模型推廣到其他實例。
圖神經網絡(GNNs)最近變得越來越受歡迎,因為它們能夠學習復雜的關系或交互系統,這些系統產生于廣泛的問題,從生物學和粒子物理到社會網絡和推薦系統。盡管關于圖的深度學習有很多不同的模型,但迄今為止,很少有人提出處理具有某種動態性質(例如,隨著時間的推移,進化的特征或連接性)的圖的方法。在本文中,我們提出了時序圖網絡(TGNs),這是一個通用的、有效的框架,用于在以時間事件序列表示的動態圖上進行深度學習。由于內存模塊和基于圖形的操作符的新穎組合,TGN能夠顯著優于以前的方法,同時計算效率更高。我們進一步表明,幾個以前的模型學習動態圖可以鑄為我們的框架的具體實例。我們對我們的框架的不同組成部分進行了詳細的消融研究,并設計出最佳配置,以在動態圖形的幾個轉導和歸納預測任務上達到最先進的性能。
//www.zhuanzhi.ai/paper/b52c8ed9452450b0793e8f0470ef69d8
在過去的幾年里,圖表示學習(Bronstein et al., 2017; Hamilton et al., 2017b; Battaglia et al., 2018)已經取得了一系列成功,在機器學習領域越來越受歡迎。在許多領域,圖普遍被用作關系和交互系統的模型(Battaglia et al., 2016; Qi et al., 2018; Monti et al., 2016; Choma et al., 2018; Duvenaud et al., 2015; Gilmer et al., 2017; Parisot et al., 2018; Rossi et al., 2019),特別是社會科學(Ying et al., 2018; Monti et al., 2019; Rossi et al., 2020)和生物學(Zitnik et al., 2018; Veselkov et al., 2019; Gainza et al., 2019)。神經網絡學習等數據可以使用圖(衛星系統)進行(漢密爾頓et al ., 2017),通常由一個消息傳遞機制運作(巴塔利亞et al ., 2018)聚合信息節點并創建節點的鄰居嵌入,然后用于節點分類(Monti et al., 2016; Velickovic et al., 2018; Kipf & Welling, 2017),圖分類(Gilmer et al., 2017),或邊緣預測(Zhang & Chen, 2018)任務。
大多數關于圖的深度學習方法都假設底層圖是靜態的。然而,大多數現實生活中的互動系統,如社會網絡或生物互動是動態的。雖然通常可能應用靜態圖深度學習模型(Liben-Nowell & jonkleinberg, 2007)動態圖,忽略了時間進化,這已被證明是最優(徐et al ., 2020),在某些情況下,它是關于系統的動態結構,其中包含關鍵的見解。動態圖的學習是最近才開始的,大多數的工作都局限于將離散時間動態圖設置(Liben-Nowell & Kleinberg, 2007; Dunlavy et al., 2011; Yu et al., 2019; Sankar et al., 2020; Pareja et al., 2019; Yu et al., 2018)。這種方法不適合有趣的現實世界設置,如社交網絡,動態圖是連續的(即邊可以隨時出現)和不斷進化的(即新節點不斷加入圖)。直到最近,人們才提出了幾種支持連續時間假設的方法(Xu et al., 2020; Trivedi et al., 2019; Kumar et al., 2019; Ma et al., 2018; Nguyen et al., 2018; Bastas et al., 2019)。
在本文中,我們首先提出了運行在連續時間動態圖上的時序圖網絡(TGNs)的一般歸納框架,并表明許多以前的方法都是TGNs的具體實例。其次,我們提出了一種新的訓練策略,允許模型從數據的順序性中學習,同時保持高效的并行處理。第三,我們對該框架的不同組成部分進行了詳細的消融研究,并分析了速度和精度之間的權衡。最后,我們展示了最先進的性能在多個任務和數據集在轉導和感應設置,同時比以前的方法快得多。
知識表示和推理是人工智能挑戰的核心: 要充分理解智能和認知的本質,使計算機能夠表現出類似人類的能力。早在1958年,約翰·麥卡錫(John McCarthy)就考慮過可以運用常識的人工智能系統。從這些早期工作中,研究人員確信(人工)智能可以被形式化為具有明確知識表征的符號推理,而研究的核心挑戰是弄清楚如何在計算機中表示知識,并使用它的算法來解決問題。
多年以后,這本書調研了構成知識表示和推理領域的大量科學和工程見解。在三個方面取得了進展。首先,研究人員探索了知識表示和推理的一般方法,解決了跨越應用領域的基本問題。其次,研究人員開發了專門的知識表示和推理方法來處理核心領域,如時間、空間、因果關系和行動。第三,研究人員處理了知識表示和推理的重要應用,包括查詢回答、規劃和語義網。因此,本書分為三個部分來涵蓋這些主題。
//www.elsevier.com/books/handbook-of-knowledge-representation/van-harmelen/978-0-444-52211-5
第一部分主要介紹人工智能系統中表示知識的一般方法。它從經典邏輯和定理證明的背景開始,然后轉向擴展經典邏輯的新方法——例如,處理定性的或不確定的信息——并改進其計算可處理性。
第二部分探討了用知識的一些核心領域(包括時間、空間、因果關系和行動)來表示和推理的特殊挑戰。這些挑戰在應用程序領域中普遍存在,因此解決方案必須是通用的和可組合的。
第三部分介紹了知識表示和推理的重要應用。應用領域涵蓋了人工智能的廣度,包括問題回答、語義網、計劃、機器人和多智能體系統。每一項應用都廣泛借鑒了第一部分和第二部分中所述的研究結果。
此外,這25章,組織在三個部分“一般方法”,“專門的表示和“應用”,提供了一個獨特的調研,最好的知識表示已經取得,由幫助塑造領域的研究人員寫。我們希望學生,研究人員和從業者在所有領域的人工智能和認知科學將發現這本書是一個有用的資源。