強化學習(Reinforcement Learning,RL)與視覺智能交叉領域的最新進展,使得智能體不僅能夠感知復雜的視覺場景,還能在其中進行推理、生成與行動。本文對該領域進行了批判性且最新的綜合綜述。我們首先對視覺RL問題進行了形式化,并梳理了策略優化方法的演變脈絡——從基于人類反饋的強化學習(RLHF)到可驗證獎勵范式,從近端策略優化(PPO)到群體相對策略優化(GRPO)。隨后,我們將200余篇代表性工作歸納為四個主題支柱:多模態大型語言模型、視覺生成、統一模型框架,以及視覺-語言-動作模型。針對每一類,我們分析了算法設計、獎勵工程、基準進展,并提煉出諸如課程驅動訓練、偏好對齊擴散、統一獎勵建模等趨勢。最后,我們回顧了涵蓋集合級保真度、樣本級偏好、狀態級穩定性的評估協議,并指出了包括樣本效率、泛化能力與安全部署在內的開放挑戰。我們的目標是為研究者和從業者提供一幅連貫的視覺RL領域全景圖,并突出未來值得探索的方向。相關資源可在以下鏈接獲取://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。
強化學習(Reinforcement Learning,RL)在大型語言模型(Large Language Models,LLMs)領域取得了顯著成功(Jaech 等,2024;Rafailov 等,2023),其中最具代表性的范式包括基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)(Ouyang 等,2022)以及諸如 DeepSeek-R1(Guo 等,2025a)等創新框架。這些方法顯著增強了 LLM 的能力,使生成結果更貼近人類偏好,并賦予其通過單純監督學習難以獲得的細膩、復雜的推理與交互能力。 近年來,受 LLM 成就的啟發,研究界對將這些在 LLM 上取得成功的 RL 方法擴展至多模態大模型產生了爆炸性興趣,包括視覺-語言模型(Vision-Language Models,VLM)(Zhou 等,2025a;Zheng 等,2025;Zhang 等,2025f)、視覺-語言-動作模型(Vision-Language-Action,VLA)(Lu 等,2025b;Tan 等,2025b;Luo 等,2025;Yuan 等,2025b)、基于擴散的視覺生成模型(Fan 等,2023b;Black 等,2023;Zhou 等,2025c)以及統一多模態框架(Mao 等,2025;Wang 等,2024b;2025a)(如圖 1 所示)。例如,Gemini 2.5(DeepMind,2025)等多模態模型利用 RL 來對齊視覺-文本推理過程,從而生成具有更高語義一致性且更契合人類判斷的輸出。同時,集成視覺與語言并生成面向動作輸出的 VLA 模型,也已采用 RL 來優化交互式環境中的復雜序列決策過程,在 GUI 自動化(Yuan 等,2025b;Shi 等,2025)、機器人操作(Lu 等,2025b)以及具身導航(Kim 等,2025)等任務中顯著提升了特定任務性能。 基于擴散的生成模型的快速發展進一步推動了這一 RL 驅動的創新浪潮。例如,ImageReward(Xu 等,2023)將強化學習引入生成過程,以提升生成結果的語義一致性與視覺質量,通過基于人類偏好或自動化獎勵評估器的迭代反饋機制來優化擴散生成。此外,將理解與生成等多種任務統一到單一架構中的統一模型(Mao 等,2025;Jiang 等,2025b)也越來越多地依賴于 RL 驅動的微調,從而實現了此前被認為具有挑戰性的泛化與任務遷移能力。 盡管 RL 與多模態大語言模型的結合已取得了重大進展,但仍存在若干核心挑戰,包括:在復雜獎勵信號下穩定策略優化、處理高維且多樣化的視覺輸入,以及設計可擴展的獎勵函數以支持長時序決策。應對這些挑戰,需要在算法設計與評估協議上同時進行方法學創新。 在本綜述中,我們系統總結了 2024 年以來多模態大模型視覺強化學習領域的最新進展。我們首先回顧了 LLM 中奠定多模態適配基礎的 RL 成功案例,如 RLHF(Ouyang 等,2022)與 DeepSeek-R1(Guo 等,2025a)。隨后,我們討論這些策略在視覺領域的演化過程,并將 200 余篇代表性工作劃分為四大類別:(i)多模態大型語言模型,(ii)視覺生成,(iii)統一 RL 框架,以及(iv)視覺-語言-動作智能體(如圖 1 所示)。在每個類別中,我們分析了算法設計、獎勵建模以及基準測試方法的關鍵進展。最后,我們指出了開放挑戰與未來研究方向,包括更高效的多模態推理、適用于 VLA 任務的穩健長時序學習策略,以及面向視覺生成的可擴展高保真獎勵信號需求。 本文的主要貢獻如下: * 系統性與最新性:我們提供了一份涵蓋 200 余篇視覺強化學習研究的系統化、最新綜述,涵蓋多模態大型語言模型、視覺生成、統一模型以及視覺-語言-動作智能體。 * 關鍵技術分析:我們分析了各子領域在策略優化、獎勵建模和基準測試方面的進展,揭示了獎勵設計在視覺生成中的挑戰,以及推理和 VLA 任務中缺乏中間監督等問題。 * 方法學框架:我們提出了一種基于指標粒度與獎勵監督的視覺 RL 方法分類體系,包括三種圖像生成獎勵范式。該框架闡明了跨領域設計的權衡,并為選擇與開發 RL 策略提供了可操作的參考。
摘要 —— 強化學習(Reinforcement Learning, RL)已成為對齊與增強大語言模型(Large Language Models, LLMs)的一種變革性方法,能夠應對指令遵循、倫理對齊以及推理能力等方面的關鍵挑戰。本文綜述了強化學習與語言模型結合的全面基礎,重點介紹了如近端策略優化(Proximal Policy Optimization, PPO)、Q學習(Q-Learning)和演員-評論家(Actor-Critic)等主流算法。此外,文章系統回顧了專為LLM定制的強化學習技術,包括基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)和基于AI反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)等基礎方法,以及偏好直接優化(Direct Preference Optimization, DPO)和群體相對策略優化(Group Relative Policy Optimization, GRPO)等先進策略。我們系統性地分析了這些技術在各領域的應用,從代碼生成到工具增強推理不等。本文還基于獎勵建模、反饋機制與優化策略提出了一套對比性分類體系。評估結果揭示了一些關鍵趨勢:RLHF 仍然是主導性的對齊技術,而基于結果的強化學習(如 RL with Verified Rewards, RLVR)顯著提升了逐步推理能力。然而,獎勵欺騙、計算成本高昂以及反饋收集的可擴展性等持續性挑戰,凸顯了持續創新的必要性。我們進一步探討了若干新興方向,包括混合RL算法、驗證器引導訓練,以及多目標對齊框架。本綜述可為研究人員提供一份關于RL驅動的大語言模型開發的路線圖,致力于在提升能力的同時兼
性與可擴展性。
關鍵詞 —— 強化學習、大語言模型、RLHF、對齊、推理、自然語言處理、人工智能 **
**
一、引言
大語言模型(Large Language Models, LLMs)已成為人工智能領域的變革性技術,在理解和生成自然語言方面展現出卓越能力。從 GPT-3 擁有的 1750 億參數 [1],到近年來如 LLaMA 3.1 的 4050 億參數 [2],以及 DeepSeek-V3 的 6710 億參數 [3],這些模型在規模和能力上持續擴展。盡管它們在多種任務中表現出色,LLMs 仍然面臨“對齊”(alignment)問題,即確保模型輸出始終反映人類的價值觀、偏好與意圖,仍是一項重大挑戰。LLMs 往往會產生“幻覺”(hallucination)[4],存在生成有害內容的風險 [5]–[7],并且在執行復雜指令方面常常表現不佳 [8]。
強化學習(Reinforcement Learning, RL)是一種智能體通過與環境交互中的試錯過程進行學習的范式,近年來成為應對對齊挑戰的強有力框架。與傳統依賴標注樣本的監督學習方法不同,強化學習能夠引入不可微分的反饋信號,并優化多目標的復雜任務。在 LLM 中引入強化學習,標志著人工智能對齊研究的一項重大進展,使模型能夠學習人類偏好、提升推理能力,并更好地遵循倫理規范。本文旨在全面審視應用于 LLM 的強化學習技術,聚焦于模型在“對齊人類價值”與“增強推理能力”兩方面的提升。
將強化學習應用于 LLM 面臨一系列區別于傳統 RL 場景的獨特挑戰。在 LLM 中,狀態空間通常由輸入提示或對話歷史構成,而動作空間則涵蓋模型完整的詞匯表,形成了一個極其龐大且離散的動作集合。這種高維動作空間對算法設計提出了更高要求,與機器人控制或游戲等傳統 RL 應用場景有顯著不同。此外,LLM 中的獎勵信號通常來自于人類對文本質量、有用性、無害性和誠實性等復雜維度的主觀判斷,這些屬性本質上難以量化。
基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[9] 已成為對齊 LLM 與人類偏好的事實標準。該方法通常包含三個階段:首先基于高質量示范數據進行有監督微調,其次利用人類偏好數據訓練獎勵模型,最后使用如近端策略優化(PPO)[10]等算法對策略進行優化。RLHF 在提升指令遵循能力、減少有害輸出方面取得了顯著成效,OpenAI 的 InstructGPT 即為代表性成果 [9]。
然而,人類標注的可擴展性問題推動了替代方案的發展。基于 AI 反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)[11] 用其他 AI 系統的評估結果來替代或增強人類反饋,在維持相近性能的同時大幅降低了標注成本。憲法 AI(Constitutional AI)[12] 是 RLAIF 的一種特化形式,模型根據預定義的原則對自身輸出進行批判與修正,尤其適用于無害性對齊。近期的研究進一步致力于簡化 RLHF 流程,例如偏好直接優化(Direct Preference Optimization, DPO)[13],跳過顯式獎勵建模,直接通過偏好對進行策略優化,在計算效率和訓練穩定性方面具有優勢。實證研究顯示,DPO 在情感控制與摘要等任務中的表現可與基于 PPO 的 RLHF 相媲美甚至超越,同時大大降低了系統復雜度。
除了人類偏好對齊之外,RL 技術也越來越多地用于提升 LLM 的推理能力。基于結果的強化學習(Outcome-Based Reinforcement Learning)[14] 關注最終答案的正確性,即使中間推理步驟未被監督也可進行優化。更先進的方法如帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)[15],能為推理過程中的每一步提供反饋,顯著提升模型在數學與邏輯推理任務上的表現。例如,RLVR 將 GPT-3.5 在數學推理基準 GSM8K 上的準確率從 56.8% 提升至 72.5%,且僅需少量訓練樣本。盡管已有顯著進展,將 RL 應用于 LLM 仍存在諸多挑戰,例如獎勵函數被模型“鉆空子”的獎勵欺騙現象(reward hacking)[16], [17];以及 RL 訓練所需的龐大計算成本,尤其是在參數量級為數十億的模型上,給實際部署帶來困難。此外,不論是來自人類還是 AI 系統,確保反饋的質量與代表性 [18], [19] 仍是一個復雜難解的問題。
本文在該領域的貢獻包括以下幾點:第一,我們提供了一份關于 RL 技術在 LLM 中應用的全面技術綜述,涵蓋了如 RLHF 與 RLAIF 等基礎方法,以及 DPO 和群體相對策略優化(Group Relative Policy Optimization, GRPO)等前沿方法。第二,我們系統分析了 RL 技術在多個領域的應用,如代碼生成與工具增強推理,展現其廣泛適應性與有效性。第三,我們提出了一個基于獎勵建模、反饋機制與優化策略的對比分類體系,為理解 RL 在 LLM 中的技術生態提供結構化框架。最后,我們還討論了若干新興研究方向,包括混合 RL 算法、驗證器引導訓練,以及多目標對齊框架。
本文其余部分安排如下:第二節介紹 LLM 與強化學習的基礎概念;第三節詳細講解為 LLM 改編的具體 RL 算法;第四節探討用于對齊與推理增強的 RL 技術;第五節展示 RL 在各類應用場景中的實踐;第六節提供一套比較分析與評估;第七節討論現有挑戰與局限;第八節展望未來研究方向;第九節總結全文。我們希望通過本綜述為研究者與實踐者提供一份推動 RL 驅動 LLM 發展的技術路線圖,在提升模型能力的同時兼顧安全性與可擴展性。
大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。
大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。
本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。
機器人視覺正持續受益于多模態融合技術與視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解、同步定位與地圖構建(SLAM)、三維目標檢測、導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊、高效融合策略、實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習、基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV
文 / 吳建龍
摘 要:
圖像分類、動作識別等視覺理解任務通常依賴于大量的標注數據,而在實際場景中,獲取足夠的標注數據往往成本很高且具有挑戰性。本文主要探討標注受限場景下的視覺表征學習與理解任務。首先聚焦于圖像與視頻兩種數據,提出一系列無監督表征學習算法,使模型能夠從大量未標注數據中捕獲高層次、具有判別 性的語義表征;其次,將半監督學習應用于具的視覺理解任務上,以實現標注受限場景下高性能、低成本視覺模型的構建。通過對無監督和半監督學習算法的深入探索與應用,為解決實際場景中標注數據不足的問題提供了有效的解決方案。
關鍵詞:
無監督學習;半監督學習;表征學習;視覺理解;圖像分類;視頻動作識別
0 引言
近年來,隨著計算機視覺和人工智能技術的迅猛發展,視覺理解任務成為了學術界和工業界的熱點之一。視覺理解旨在賦予計算機對圖像和視頻進行高層次的理解和推理能力,使其能夠像人類一樣感知、分析和理解視覺信息在自動駕駛、智能監控、醫學影像診斷等不同領域都有廣泛的應用,具有重要的研究意義。
在大多數的視覺理解任務中,傳統的方法通常依賴于大量的標注數據進行監督學習。然而,獲取大規模的標注數據卻是一項極具挑戰性的任務,一方面,人工標注數據的過程需要大量的時間、精力和資源投入,成本高昂;另一方面,隨著目前深度學習模型復雜性的增加,需要標注的數據量也呈指數級增長,導致數據獲取成本進一步上升。
為了降低現有視覺理解任務對標注數據的依賴性,本文基于圖像和視頻數據,深入探究了無監督表征學習和半監督學習兩種范式。無監督表征學習能夠在不需要任何標注的情況下發現數據中的潛在模式和規律,從而為后續的視覺理解任務提供有價值的特征表示;而半監督學習則結合有限的標注數據和大量未標注數據來提高視覺模型的性能和泛化能力,能夠有效減少標注投入。本文全面分析了現有相關方法的局限性,并針對性提出了一系列創新性算法,以在標注受限的場景下實現高效的視覺表征學習與理解分析。
1 主要研究成果
本文以標注受限場景下的視覺表征和理解為主題,以學習判別性表征和構建高性能、低成本的視覺模型為兩條主線。對于第一條主線,創新性提出了基于圖對比聚類的表征學習算法(成果一);特別地,針對視頻數據的表征學習,提出了一種基于記憶增強預測器的自監督預訓練方法(成果二)。對于第二條主線,依次提出了基于對比層次匹配和魯棒自適應閾值的半監督圖像分類算法(成果三)和基于近鄰一致性和對比學習的半監督動作識別算法(成果四)。下面將對上述成果進行簡要介紹。
成果一 基于圖對比聚類的表征學習算法
傳統的無監督學習方法主要通過對數據的統計分析或者降維等手段來提取特征,但這些方法往往難以充分挖掘數據之間的潛在關系和結構信息。而對比學習作為一種新興范式,為無監督特征學習領域帶來了全新的思路和方法。相比傳統方法,對比學習通過比較樣本之間的差異性來學習特征,在一定程度上提高了表征的可區分度和泛化性。
與對比學習的核心思想相契合,聚類任務的目標是將數據分成若干個不同的組,每個組內的數據點具有相似的特征,而組間的數據點則有較大的差異性。因此,近期出現了一系列研究將對比學習算法與聚類任務相結合,希望實現兩種任務的相互促進。盡管這些研究取得了一定成效,但它們都仍然遵循對比學習的基本框架,僅假設樣本及其經過隨機增強后的樣本在特征空間中應該相似,而忽視了潛在的類別信息。
為此,提出了一種基于圖對比聚類的表征學習算法。該算法結合了樣本的潛在類別信息,假設一個集群中的樣本及其增強應該共享相似的表示和聚類分配,將傳統的實例級一致性提升到集群級一致性,從而能夠更好地減少類內方差并增加類間方差。如圖1所示,首先基于當前特征構建一個相似度圖,相似度較高的樣本間的邊將在圖中保留。基于此相似度圖所提供的樣本關系,設計了表示圖對比模塊和分配圖對比模塊來分別學習樣本表征和聚類分配。在表示圖對比模塊中,提出了一種基于圖拉普拉斯的對比損失,該損失通過拉近樣本與其鄰居樣本間(相似度圖中存在邊連接的樣本)的加權距離來學習更具區分性和聚類友好的特征。而針對分配圖對比模塊,傳統的基于對比學習的聚類假設樣本及其增強樣本應該具有相似的聚類分配分布,這雖然是合理的,但是并沒有利用到相似樣本的信息。因此提出了一種新的對比策略來學習更緊湊的聚類分配,即利用相似度圖隨機挑選一個鄰居,并約束樣本與隨機挑選的鄰居所對應的聚類分配分布越接近越好。實驗結果表明,我們提出的基于圖對比聚類的表征學習方法能在學習到高質量判別性表征的同時,獲得當前最好的聚類分配結果。
圖 1 基于圖對比聚類的表征學習算法框架
成果二 基于記憶增強預測機制的無監督視頻表****征學習算法
針對視頻數據,基于預測的方法在時空表示學習領域取得了顯著成果。這些方法通常使用基于多層感知機的預測器,來對齊同一視頻的不同時間段提取的特征。然而,這樣的預測器存在三個限制。
(1)缺乏全面利用訓練過程中學到的知識的能力
理想情況下,模型應該能夠累積并整合數據集中的時空關聯信息以提高預測的準確性。然而,現有方法通常只根據特定片段的局部特征進行同一視頻的另一時間段的特征,從而導致模型無法充分利用整個數據集中蘊含的知識進行精確預測。
(2)忽視了不同編碼器之間的特征分布差距
現有方法的訓練目標通常是最小化在線編碼器和動量更新編碼器輸出特征之間的差異。然而,基于多層感知機的預測器對來自不同參數的編碼器產生的特征分布進行對齊時,未能充分考慮編碼器間的特征分布差異,從而導致對齊效果受限。
(3)缺乏對細節視覺概念跨片段對齊的能力
現有方法主要關注全局特征的對齊,忽視了對不同時間段視頻蘊含的細粒度視覺概念的對齊。
針對以上限制,提出了記憶增強預測器來增強視頻表征模型的預測能力,模型架構如圖2所示。記憶增強預測器利用了記憶網絡架構的特性,通過引入可以被動態更新和查詢的外部記憶槽作為存儲機制,以在整個訓練過程捕獲和保留所有訓練視頻中的關鍵信息,并在預測時利用存儲的相關知識來提升預測精度。記憶槽通常以矩陣的形式實現,其中每一行代表一個記憶單元。在模型訓練時,這個矩陣會作為可訓練的參數,通過反向傳播算法進行更新。這樣的預測器主要具有四種能力。
圖 2 基于記憶增強預測機制的無監督視頻表征學習框架
(1)存儲能力
我們采用了分離的鍵和值存儲機制,其中鍵用于存儲來自在線編碼器的特征表示,而值則存儲目標編碼器的特征表示。鍵部分充當信息的索引,而值部分則包含了與鍵相對應的具體知識內容。通過這種鍵值對的形式,模型能夠獨立地處理來自不同編碼器的信息,將視頻數據中的豐富信息和知識以結構化的方式存儲起來,從而更有效地管理和利用這些信息。
(2)查詢檢索能力
在預測時,我們基于當前輸入或情境查詢鍵記憶,從而生成一個知識相關性向量。該向量反映了輸入特征與存儲在鍵記憶中特征的相關度。
(3)總結能力
預測特征通過使用加權求和的方式組合值記憶中存儲的記憶單元得到,并根據相關性向量的權重賦予各個記憶單元的貢獻度。
(4)更新能力
在訓練過程中,如果預測特征與目標特征之間存在偏差,損失函數將引導記憶網絡調整存儲的特征,從而減少預測誤差。這種更新機制確保了預測器不僅能回憶過去的信息,還能從每次迭代的反饋中學習。當模型在預測過程中犯錯時,它可以利用這些錯誤來調整其記憶內容。
基于上述四種能力,所提出的鍵值記憶預測器能夠有效地利用整個訓練過程中學習到的視頻數據集的知識,提高模型預測的準確性,并彌合不同編碼器之間特征分布的差距。
此外,為了實現不同視頻片段間細粒度視覺細節的語義對齊,引入了細粒度視覺概念對齊模塊。通過為在線和動量更新編碼器創建視覺概念字典,為不同的視頻片段編碼視覺概念代碼。通過最小化不同編碼器編碼的視覺概念代碼之間的KL散度,促進相同視頻的不同視圖之間包含的細粒度共享視覺概念。在各類基準數據集上的廣泛實驗表明,該方法在動作識別和檢索任務上相比于其他算法取得了顯著的提升,展示了其在學習泛化視頻表示方面的先進性和有效性。
成果三 基于對比層次匹配和魯棒自適應閾值的半監督圖像分類方法
在標注受限場景下,半監督學習是一種很好的選擇。通過挖掘大量未標注數據中的信息,半監督只需簡單結合少量的標注數據即可學習到與全監督學習模式下性能接近的模型,大大降低了數據收集和標記的成本。
目前主流的半監督學習算法主要基于偽標簽技術,即利用未標注樣本的預測分布構造偽標簽作為自身的監督信號指導模型訓練。能否生成偽標簽的準則是預測分布中的最大概率是否超過設定的閾值,若超過則該最大概率所對應的類別將作為偽標簽。因此,閾值對于基于偽標簽技術的半監督學習來說直觀重要。根據閾值的設計思路,主要可以分為兩類方法,一類基于固定閾值;另一類基于動態閾值。基于固定閾值的方法對所有樣本、所有類別“一視同仁”,訓練全程閾值唯一且保持不變。而基于動態閾值的方法結合了課程學習的思想,根據樣本和不同類別學習的難易程度動態調節,因此性能一般好于固定閾值的方案。但是目前這兩類方法仍然存在一定局限性,一方面,基于固定閾值的方法樣本利用率很低,而基于動態閾值的方法樣本利用率不穩定,因此導致產生的結果都很不穩定且方差很大,特別是在只有少量標記樣本參與訓練的情況下;另一方面,這些方法僅研究了實例層級的一致性,忽略了類間關系,因此會使學習到的特征難以區分;此外,現有方法還忽略了類別間的層次結構,例如不同細粒度類別的狗和貓都屬于動物這個粗粒度類別。
為了解決上述問題,提出了基于對比層次匹配和魯棒自適應閾值的半監督圖像分類方法。該方法設計了一種更加穩定的動態閾值策略,并結合標簽的層次化信息充分考慮了實例層級的預測匹配和基于圖的相似度匹配。算法框架如圖3所示,與常規只有一個分類層的半監督分類算法不同,該算法共包含粗粒度分類層、細粒度分類層和投影層三層。細粒度和粗粒度分類層分別用來進行實例層級的預測匹配,即粗、細粒度偽標簽學習;而投影層則用來進行基于圖的相似度匹配,即特征對比學習。
在進行粗、細粒度偽標簽學習之前,首先提出了一種基于動態比例的魯棒自適應閾值學習策略。該策略維護了一個從小到大排序的分數隊列來存儲歷史樣本的最大概率,這個分數隊列近似模擬了目前樣本的學習狀態。若我們期望選擇一定比例的樣本進行偽標簽學習,則只需要在隊列中找到該比例位置(從右往左)所對應的最大概率作為閾值即可,這樣高于該閾值的樣本都將參與到偽標簽學習中。在訓練過程中逐漸增加比例即可實現樣本的穩定利用。
此外,提出了一種基于粗、細偽標簽圖的對比損失來學習判別性表征。粗/細偽標簽圖的構造準則為:若樣本生成的粗/細偽標簽一致,那么在圖中有邊連接;反之無邊。在一般情況下,如果兩個樣本屬于同一個細粒度類,那么它們應該具有相同的粗粒度偽標簽,然而,在真正的訓練過程中并不總是滿足這種關系,尤其是在訓練早期階段。因此,我們利用粗偽標簽圖來糾正細偽標簽圖,從而得到更加準確的偽標簽圖。新的偽標簽圖中仍然保留相連關系的樣本將作為正樣本對,非相連關系的作為負樣本對,以此進行特征對比學習。在各種主流的數據集上,該方法均獲得了最好的分類性能,并且極大地提升了結果的穩定性。
圖 3 基于對比層次匹配和魯棒自適應閾值的半監督學習算法框架
成果四 基于近鄰一致性學習和近鄰對比學習的半監督動作識別方法
目前,半監督學習在圖像分類領域已經非常成熟,有些方法的性能甚至超越了全監督學習方法,但是在基于視頻的動作識別(視頻分類)領域卻表現欠佳。相對于圖像分類任務,動作識別任務更為復雜。動作識別所處理的數據是視頻,視頻中不僅包含圖像的外貌信息,還包含了幀與幀之間運動關系,這種時空信息的綜合進一步加大了動作識別任務的難度。
實現半監督動作識別最直接的方式就是將目前主流的基于偽標簽技術的半監督圖像分類學習方法遷移到視頻數據上,然而得到的效果并不好。這種現象主要由以下三個原因導致,首先,這些方法只能關注到RGB圖像中的外貌信息,忽略了視頻中的運動信息,而運動信息恰恰是視頻正確分類的關鍵;其次,這些方法利用閾值構造監督信息,只對超過閾值的樣本進行偽標簽學習,而對于無法產生偽標簽的樣本將會采取丟棄策略,這會導致監督信號不足、訓練效率低下等問題;最后,正如上文所述,這些方法僅關注了實例層級的一致性,忽略了類別層級的一致性。
因此,提出一種基于近鄰一致性學習和近鄰對比學習的半監督動作識別方法。如圖4所示,該方法將關注外貌信息的RGB模態和反映運動信息的TG模態相結合,并基于更加穩定的教師 - 學生架構構建模型。教師網絡集成RGB和TG模態間的互補信息生成高置信度的偽標簽,以指導學生網絡學習。
然而僅依賴偽標簽學習對于更有難度的動作識別任務來說監督信息仍顯不足。為此,提出了近鄰一致性學習,即對于那些未達到閾值的樣本,“求助”其近鄰來輔助生成額外的監督信息——近鄰標簽。為了得到高置信度的近鄰,設計了一種提純策略,以過濾掉噪聲近鄰。該策略統籌不同模態間的意見,將在不同模態下所找到的樣本的近鄰的交集作為該樣本的真正近鄰。其近鄰中心將作為近鄰標簽引導樣本向其靠近。
另外,考慮到樣本特征對所生成的監督信息質量有著重要影響,為此基于提純后的近鄰信息進一步提出了近鄰對比損失,即在不同視角和不同模態間縮小樣本與近鄰之間的距離,同時確保樣本與非其近鄰樣本之間的距離盡可能遠。該損失充分探究了樣本間的相互關系,將原本基于實例層級的對比拓展到了類別層級。
我們在多個動作識別數據集上對所提方法進行了驗證,其性能要明顯優于現有的半監督學習算法。
圖 4 基于近鄰一致性學習和近鄰對比學習的半監督動作識別算法框架
2 結束語
目前,視覺理解任務在很大程度上依賴于大量的標注數據,然而這種依賴性往往使得這些任務需要花費大量的成本,并且難以應用到實際的工業場景中。因此,本文從實際角度出發,深入探討標注受限場景下的視覺表征學習和理解分析。針對無監督表征學習和半監督學習在視覺數據(包括圖像和視頻)上的已有工作,系統地分析了其目前存在的不足之處,并針對性地提出了一系列解決方案,為相關領域的研究提供更多的技術支持與經驗。未來工作中,我們將借助當前流行的大模型作為輔助知識,進一步提升受限場景下的視覺任務的性能;同時關注知識蒸餾與量化等模型壓縮技術,以實現受限場景下的輕量化視覺模型構建。
(參考文獻略)
吳建龍
哈爾濱工業大學(深圳)副教授。主要研究興趣包括多模態學習、計算機視覺和機器學習等。主持國家自然科學基金面上和青年項目等3項國家級項目,近五年在TPAMI、TIP、ICML、CVPR和ICCV等頂級期刊和會議上發表論文40余篇。入選中國科協青年人才托舉工程、哈爾濱工業大學青年拔尖人才計劃和鵬城孔雀計劃特聘崗位;榮獲CCF A類會議SIGIR 2021最佳學生論文獎、2021年山東省科學技術進步一等獎和2023年山東省技術發明一等獎等。
選自《中國人工智能學會通訊》 2024年第14卷第5期 青托專欄
強化學習作為人工智能領域的重要分支,以其在多智能體系統決策中的卓越表現,成為當前主流方法. 然而,傳統的 多智能體強化學習算法在面對維度爆炸、訓練樣本稀缺和難以遷移等方面仍然存在困難. 為了克服這些挑戰并提升算法性 能,本文從學習機制的角度入手,深入研究學習機制與強化學習的深度融合,以推動多智能體強化學習算法的發展. 首先,介 紹了多智能體強化學習算法的基本原理、發展歷程以及算法所面臨的難點. 隨后,引入了基于學習機制的多智能體強化學習 方法這一種新興方向. 這些學習機制,如元學習和遷移學習,被證明可以有效提升多智能體的學習速度,并緩解維度爆炸等問 題. 按照課程學習、演化博弈、元學習、分層學習、遷移學習等學習機制在多智能體強化學習中的應用進行了綜述,通過羅列 這些方法的研究成果,論述了各種方法的局限性,并提出了未來改進的方向. 總結了這類融合算法在實際應用中取得的提升 成果和實際應用,具體列舉了基于學習機制的多智能體強化學習算法在交通控制、游戲領域的實際應用案例. 同時,對這類 融合算法未來在理論、算法和應用方面的發展方向進行了深入分析. 這涵蓋了對新穎理論的探索、算法性能的進一步優化, 以及在更廣泛領域中的推廣應用. 通過這樣的綜述和分析,為未來多智能體強化學習算法的研究方向和實際應用提供了有益 的參考.
本文總結了視覺 Transformer 處理多種識別任務的百余種代表性方法,并對比分析了不同任務內的模型表 現,在此基礎上總結了每類任務模型的優點、不足以及面臨的挑戰。本文根據識別粒度的不同,分別著眼于諸如圖 像分類、視頻分類的基于全局識別的方法,以及目標檢測、視覺分割的基于局部識別的方法。考慮到現有方法在三 種具體識別任務的廣泛流行,本文總結了在人臉識別、動作識別和姿態估計中的方法。同時,也總結了可用于多種 視覺任務或領域無關的通用方法的研究現狀。基于 Transformer 的模型實現了許多端到端的方法,并不斷追求準確率 與計算成本的平衡。全局識別任務下的 Transformer 模型對補丁序列切分和標記特征表示進行了探索,局部識別任務 下的 Transformer 模型因能夠更好地捕獲全局信息而取得了較好的表現。在人臉識別和動作識別方面,注意力機制減 少了特征表示的誤差,可以處理豐富多樣的特征。Transformer 可以解決姿態估計中特征錯位的問題,有利于改善基 于回歸的方法性能,還減少了三維估計時深度映射所產生的歧義。大量探索表明了視覺 Transformer 在識別任務中的 有效性,并且在特征表示或網絡結構等方面的改進有利于提升性能。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?edit_id=202302&flag=2&file_no=202208300000009&journal_id=jig 計算機視覺(Computer Vision, CV)涉及對圖像 或視頻中有用信息的提取和分析。在所有CV任務中, 識別任務占有很大的比重。隨著深度學習技術的引 入,經典的方法是利用卷積神經網絡(Convolutional Neural Network, CNN)來解決此類問題。CNN通過局 部感知和參數共享,降低了網絡模型的復雜度,并 且可以直接將圖像數據作為輸入,避免了人工提取 特征的過程。但由于CNN擅長關注局部特征,難以 很好地利用對結果同樣十分重要的全局信息,使得 該領域的發展受到了一定的阻礙。 Transformer(Vaswani 等,2017)是一個從序列 到序列(Sequence to Sequence)的模型,最大特點是 拋棄了傳統的卷積神經網絡和循環神經網絡 (Recurrent Neural Network, RNN),采用注意力機制 組成網絡,使得模型可以并行化訓練,而且能夠關 注全局信息。Transformer被提出后在自然語言處理 (Natural Language Processing, NLP)領域大放異彩,例如備受關注的基于Transformer的雙向編碼器表 示 (Bidirectional Encoder Representations from Transformers, BERT)模型(Devlin 等,2019),以及 生成式預訓練Transformer(Generative Pre-Training, GPT) 系列模型 GPT1(Radford 和 Narasimhan , 2018),GPT2(Radford 等,2019),GPT3(Brown 等, 2020)。 這些基于Transformer的模型表現出的強大性 能使NLP研究取得了重大突破,同時吸引住了計算 機視覺研究人員的目光,他們將Transformer移植到 視覺任務中,并發現了其中的巨大潛力。 如首次使 用 純 Transformer 進行圖像識別的方法 Vision Transformer(ViT)(Dosovitskiy 等,2021),以及解決 目標檢測問題的Detection Transformer(DETR)模型 (Carion 等,2020)。 隨著越來越多的視覺Transformer模型被探索 出來,關于此研究的綜述文章也逐漸出現。按照分 類標準的不同,目前的綜述文章從不同的角度總結 現有的方法,包括輸入數據(Han 等,2020)、網絡 結構(Khan 等,2022)、應用場景(Liu 等,2021f, Liu 和 Lu,2021d,Khan 等,2022)。其中,從應 用場景角度進行總結的文章占大多數。Liu 等人 (2021f)分別從計算機視覺領域的三個基礎任務(分 類、檢測、分割)總結現有的方法。除了這三個基礎 任務外,Liu 和 Lu(2021d),Khan 等人(2022)又增 加了在識別、視頻處理、圖像增強和生成應用場景 下的方法總結。然而,這些不同的應用都是孤立存 在的,不能形成一個系統的各種方法的總結。此外, 現有的綜述文章多關注于視覺Transformer模型與 傳統的CNN模型結果的比較,對不同Transformer模 型間結果的比較分析較少。 為了解決以上問題,本文從視覺識別的角度出 發,總結比較了視覺Transformer處理多種識別任務 的代表性方法。按照識別粒度的不同,可以分為基 于全局識別的方法和基于局部識別的方法。基于全 局識別的方法,即對視覺數據(圖片、視頻)整體進行 識別,例如圖像分類、視頻分類。基于局部識別的 方法,即對視覺數據中的部分進行識別,例如目標 檢測等。考慮到現有方法在三種具體識別任務的廣 泛流行,本文也總結對比了在人臉識別、動作識別 和姿態估計三種識別任務的方法。在每類任務下, 對不同方法的特點和在公共數據集上的表現進行 了對比分析,并進一步總結了該類方法的優點與不 足,以及不同識別任務面臨的問題與挑戰。 本文與現有的綜述文章對比,具有以下優點: 1)本文從識別的角度分類,可以更系統地將現有方 法聯系起來;2)雖然一些綜述文章(Liu 和 Lu, 2021d,Khan 等,2022)也對識別任務的方法進行了 總結,但是涉及的內容不全面,而本文不但對基礎 識別任務的方法進行了總結,還總結了三種具體識 別任務的方法,并且對于每類任務方法,在對比分 析公共數據集結果的基礎上,總結了其發展現狀和 不足。 綜上所述,近年來 CNN 的局限性以及 Transformer研究的突破性使得視覺Transformer已廣 泛應用于CV領域,而關于視覺Transformer的綜述文 章還不夠豐富,特別是對其應用場景的總結存在著 較為孤立的現象。又因流行的CV應用場景大多能夠 以視覺識別的角度分析,所以本文系統地對用于識 別任務的視覺Transformer進行綜述具有必要性,同 時,本文通過每類任務對應的基準數據集上的實驗 對比分析,反映各類Transformer模型間的區別與聯 系也是十分必要的。最后,本綜述的出現帶來了更 系統的總結和更全面的內容,將為相關領域讀者快 速了解和認識Transformer在視覺識別任務中的應 用提供重要幫助。
序列決策,通常形式化為馬爾可夫決策過程(MDP)優化,是人工智能的一個重要挑戰。解決這個問題的兩種關鍵方法是強化學習(RL)和規劃。這項綜述是這兩個領域的集成,更廣為人知的是基于模型的強化學習。基于模型的RL有兩個主要步驟。首先,我們系統地介紹了動力學模型學習的方法,包括處理隨機性、不確定性、部分可觀察性和時間抽象等挑戰。其次,我們提出了規劃-學習集成的系統分類,包括:從哪里開始規劃,為規劃和實際數據收集分配哪些預算,如何規劃,以及如何在學習和行動循環中集成規劃。在這兩個部分之后,我們還討論了隱式基于模型的RL作為模型學習和規劃的端到端替代方案,并討論了基于模型的RL的潛在好處。在此過程中,調研還與幾個相關的RL領域建立了聯系,如分層RL和傳輸。
圖像目標檢測是找出圖像中感興趣的目標,并確定他們的類別和位置,是當前計算機視覺領域的研 究熱點。近年來,由于深度學習在圖像分類方面的準確度明顯提高,基于深度學習的圖像目標檢測模型逐漸 成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述;最后,根據在公共數據集上的檢測結果分析模型的優 勢和缺點,總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。
計算機視覺(computer vision)是人工智能 (artificial intelligence,AI)的關鍵領域之一,是 一門研究如何使機器“看”的科學。圖像目標檢 測又是計算機視覺的關鍵任務,主要對圖像或視 頻中的物體進行識別和定位,是 AI 后續應用的基 礎。因此,檢測性能的好壞直接影響到后續目標 追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理 解,但隨目標大小而變化的窗口對圖像進行從左 至右、從上至下的全局搜索導致效率低下。為了 在滑動窗口檢測器的基礎上提高搜索速度, Uijlings 等[5]提出了選擇性搜索方法(selective search method),該方法的主要觀點是圖像中的 目標存在的區域具有相似性和連續性,基于這一 想法采用子區域合并的方式進行候選區域的提取 從而確定目標。Girshick 等[6]提出的基于區域的卷 積神經網絡(region-based convolutional neural network,R-CNN)就是采用了選擇性搜索方法提 取候選區域,進而越來越多的學者在不斷改進確 定目標的方法的基礎上提出新的檢測模型。
本文首先介紹了圖像目標檢測模型中常用的 卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模 型進行綜述;最后,根據在公共數據集上的檢 測結果分析模型的優勢和缺點,總結了現有圖 像目標檢測研究中存在的問題并對未來發展做 出展望。
本節將介紹近幾年提出的基于候選區域、回 歸和 anchor-free 的圖像目標檢測模型,總結各模 型相比之前模型的改進策略以及自身的創新點和 不足,并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上 做出比較。
R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的,它是候選區域和卷積神經網絡這 一框架的開山之作,也是第一個可以真正應用于 工業級圖像目標檢測的解決方案,為基于 CNN 圖 像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的 圖像中提取出 2 000 個候選區域,使用剪裁[9]和變 形[19]的方法將候選區域的尺寸固定為 277×277 以 適應全連接層的輸入,通過 CNN 前向傳播對每個 候選區域進行特征計算;然后將每個候選區域的 特征向量送入特定線性分類器中進行分類和預測 概率值;最后使用非極大值抑制(non-maximum suppression,NMS)[20]算法消除多余的目標框, 找到目標的最佳預測位置。
R-CNN 圖像目標檢測模型雖然將 mAP(mean average precision,平均精度值)[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%,在基于深度學習的圖像目標檢測領域取得 了重大突破,但由于其輸入圖像經過剪裁和變形 后會導致信息丟失和位置信息扭曲,從而影響識 別精度,并且 R-CNN 需要對每張圖片中的上千個 變形后的區域反復調用 CNN,所以特征計算非常 耗時,速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測 速度較慢的缺點,2014年He等[21]提出了SPP-Net, 該模型先是計算整個輸入圖像的卷積特征圖,根 據選擇性搜索方法提取候選區域,通過對特征圖 上與候選區域相對應位置的窗口使用金字塔池化 (spatial pyramid pooling,SPP)可以得到一個固定 大小的輸出,即全連接層的輸入。與 R-CNN 相比, SPP-Net 避免了反復使用 CNN 計算卷積特征,在 無須對輸入圖像進行剪裁和變形的情況下實現了 多尺度輸入卷積計算,保留了圖像的底層信息, 在VOC2007數據集上測試時 mAP達到了59.2%, 在達到相同或更好的性能前提下,比 R-CNN 模型 快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集 上都獲得了很高的精度,但兩者將分類和回歸分 為多階段進行,使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域 的卷積網絡模型(fast R-CNN)。該網絡首先用 選擇性搜索方法提取候選區域,將歸一化到統一 格式的圖片輸入 CNN 進行卷積計算,然后借鑒了 SPP-Net 中金字塔池化的思想,用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征 輸入全連接層進行目標分類和位置回歸。該網絡 采用多任務訓練模式,用 softmax 替代 SVM (support vector machine,支持向量機)[23]進行分 類,將分類和回歸加入網絡同時訓練,在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存,提高了檢測速度, 初步實現了端對端的圖像目標檢測,并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9%和 66.0%。
由于 fast R-CNN 無法滿足實時檢測的需求, Ren 等[24]提出了改進模型 faster R-CNN。該網絡 的最大創新就是提出了區域提議網絡(region proposal network,RPN),即在基礎卷積網絡提 取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡,網絡結構如圖 3 所示,該網 絡可以同時在每個位置上預測出目標邊界和目標 概率并產生高質量候選區域,然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入 全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積 特征合并為單一網絡,解決了區域計算的瓶頸問 題,在實現真正端對端訓練模式的基礎上滿足了 實時應用的需求[23]。
2017 年 He 等[25]提出了 mask R-CNN 目標檢 測模型,該模型以faster R-CNN為原型,即在faster R-CNN 中生成的候選區域中融入 FCN(fully convolutional network,全卷積神經網絡)[26]作為 新的支路用于生成每個候選區域的掩膜,同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概 率和掩膜,但在預測時通過將目標邊界和目標概 率的結果輸入掩膜預測中以生成最后的掩膜,該 方法減弱了類別間的競爭優勢,從而達到了更好 的效果,在 MS COCO 數據集上的 mAP 測試結果 達到 35.7%。
**YOLO 及擴展模型 **
檢測精度和檢測速度是評判圖像目標檢測模 型好壞的重要標準[27]。基于候選區域的圖像目標 檢測模型,雖然在檢測精度方面首屈一指,但是 它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO(you only look once)檢 測模型,該模型將圖像目標檢測抽象為回歸問題, 通過對完整圖片的一次檢測就直接預測出感興趣 目標的邊界框和類別,避免了 R-CNN 系列中將檢 測任務分兩步進行的煩瑣操作,解決了之前圖 像目標檢測模型檢測效率低的問題。檢測網絡 將輸入的圖片分成 s×s 個網格,如圖 4 所示,各 網格只負責檢測中心落在該網格的目標,預測 出網格的類別信息以及多個邊界框和各個邊界 框的置信度,通過設定閾值過濾掉置信度較低 的邊界框,然后對保留的邊界框進行 NMS 處理 以確定最終的檢測結果。YOLO 以回歸替代了 之前圖像目標檢測模型的候選區域方法,在滿足 實時需求的基礎上檢測速度達到 45 f/s,但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框 作為最終的輸出,即每個網格最多只檢測出一個 物體,因此 YOLO 在檢測緊鄰群體目標或小目標 時效果不佳,在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問 題,2017 年 Redmon 等[29]提出了 YOLO 的擴展模 型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積 層中添加批量歸一化(batch normalization,BN)[30]技術使得模型的收斂性有顯著的提升,然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代 了 YOLO 中預測出的邊界框,最后通過輸入更高 的分辨率圖像并對其進行遷移學習[31]從而提升網 絡對高分辨率圖像的響應能力,訓練過程中無須 固定圖像的尺寸,因此在一定程度上提升了網絡 的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速 度。而 YOLO9000 則是在 YOLOv2 的基礎上提出 了目標分類和檢測的聯合訓練方法,使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型,它借鑒了殘差網絡結 構,形成網絡層次更深的 Darknet-53,通過特征 融合的方式采用 3 個不同尺度的特征圖進行目標 檢測,并且用 logistic 代替 softmax 進行類別預測 實現了多標簽目標檢測,該網絡不僅提升了小目 標檢測效果,在邊界框預測不嚴格并且檢測精度 相當的情況下檢測速度是其他模型的 3~4倍。
2016 年 Liu 等[33]提出 SSD 圖像目標檢測模 型,該模型徹底淘汰了生成候選區域和特征重采 樣階段,選擇將所有計算封裝在單個深層神經網 絡中,網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思 想,采用特征金字塔的方式進行檢測,即利用不 同卷積層產生不同的特征圖,使用一個小的卷積 濾波器來預測特征圖上一組固定的默認邊界框類 別和位置偏移量。為了實現較高的檢測精度,在 不同尺度的特征圖中進行不同尺度的預測,并設 置不同長寬比的邊界框進行分離預測。由于圖 像中的目標具有隨機性,大小不一,所以小目 標的檢測是由 SSD 使用底層特征圖來實現的, 大目標的檢測是由 SSD 使用高層特征圖來實現 的,相對于 YOLO 精確度大幅度提高,并且效 率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型,即將 Resnet-101 作為 SSD 的骨干網,在分類回歸之前 引入殘差模塊,并且在原本 SSD 添加的輔助卷積 之后又添加了反卷積層,與 SSD 相比,DSSD 在 小目標的檢測精度上有了很大的提升,但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD(rainbow SSD)檢測 模型,該網絡同時采用池化和反卷積的方式進行 特征融合,不僅增強了不同特征層之間的關系, 由于融合后的特征大小相同,還一定程度上增加 了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題,同時提升了對小目標 的檢測效果,但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD,該模型通過重構一組金字 塔特征圖充分融合了不同層不同尺度的特征,在 保證檢測速度與 SSD 相當的同時使得檢測精度有 了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模 塊,該注意力模塊基于全局特征關系可以分析出 不同位置特征的重要性,從而達到在網絡中突出 有用信息和抑制無用信息的效果,ASSD[37]檢測精 度提高,但與 SSD 相比,檢測速度較慢。
圖像目標檢測發展日新月異,越來越多優秀 目標檢測模型陸續被提出,基于候選區域和回歸 方法的檢測模型目前發展穩定并且成熟,而基于 anchor-free 的檢測模型是當下目標檢測領域中新 的熱門研究方向,anchor-free 檢測模型有兩種, 分別為基于關鍵點的檢測和基于分類和回歸進行 改進的檢測。
2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet,這是一種 新型的圖像目標檢測方法。CornerNet 將一個目標 檢測為一對關鍵點,即目標邊界框的左上角點和 右下角點,是第一個將圖像目標檢測任務表述為 利用嵌入角點進行分組和檢測任務的模型,開啟 了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一 層卷積特征,骨干網后接兩個分支模塊,分別進 行左上角點預測和右下角點預測,每個分支模塊 包含一個 Corner pooling(角池化)和 3 個輸出, 網絡結構如圖 7 所示。heatmaps(熱圖)輸出的 是預測角點的位置信息,當圖像中出現多個目標時,embeddings(嵌入)根據左上角點和右下角 點嵌入向量之間的距離對屬于同一目標的一對角 點進行分組;offsets(誤差)是輸出從圖像到特征 圖的量化誤差,用來對預測框進行微調。
當角點在目標之外時,此時獲取的信息不足 以進行當前的定位,為了能夠更好地定位邊界框 的角點,Law 等[42]介紹了一種新型池化層—角池 化層,該池化層包含兩個特征圖,在每個像素位 置,它將第一個特征圖下側的所有特征向量和第 二個特征圖右方的所有特征向量最大化,然后將 兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出,徹底消除了 圖像目標檢測對候選區域和候選框的需要,在 MS COCO 上實現了 42.1%的 mAP,但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部 特征表現不強烈,并且在判斷兩個角點是否屬 于同一目標時,由于缺乏全局信息的輔助導致 匹配角點時產生錯誤目標框,因此存在一定的 誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出 一種新的檢測思路,即通過關鍵點估計[48-50]網絡 對每個目標預測出 4 個極值點和 1 個中心點,然 后提取極值點的峰值,暴力枚舉所有的組合并計 算出每個組合的幾何中心點,若幾何中心點與預 測的中心點匹配度高于設定閾值,則接受該組合, 并將這 5 個極值點的得分平均值作為組合的置信 度。ExtremeNet[47]將目標檢測問題轉化成單純的 基于外觀信息的關鍵點估計問題,避免了對目標 隱含特征的學習,相對于 CornerNet 更好地反映了物體的信息,檢測效果更好。
自 2018 年 CornerNet 提出以來,基于 anchor-free 的目標檢測模型在分類和回歸的方法 上又有了新的創新,如 2019 年 Zhu 等[53]提出一種 基于 anchor-free 的動態選擇特征層的方法,該方 法主要是在 RetinaNet 的基礎上建立一個 FSAF(feature selective anchor-free)模塊,即對每個層 次的特征都建立一個可以將目標分配到合適特性 級別的 anchor-free 分支,使得目標框能夠在任意 特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結 果,有效地提升了 RetinaNet 的穩健性,解決了傳統 基于錨框檢測的網絡根據候選框選擇特征層的局限 性,并在 MS COCO 上實現了 42.8%的 mAP。傳統基于錨框的檢測網絡面對變化較大的目 標時需要根據檢測任務預定義錨框尺寸,通過手 工設置錨框提高召回率這一操作不僅占用較大的 計算和內存資源,還在一定程度上深化了正負樣 本不平衡問題。2019 年 Tian 等[54]提出一種全卷積 目標檢測網絡 FCOS,類似語義分割中[55]利用逐 像素點預測的方式解決目標檢測問題。為了提高 檢測效果,FCOS 引入 center-ness 分支用于降低檢 測效果不理想的目標框權重,然后通過 NMS 算法 確定最終檢測結果。基于 anchor-free 的 FCOS 檢 測網絡極大地降低了參數計算,可以與其他視覺 任務相結合,并且盡可能多地使用正樣本參與訓 練,解決了之前檢測模型中出現的正負樣本不平 衡問題,但在檢測時由于目標真實框重疊,可能 會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測 網絡,結合人類視覺系統是通過眼球中對物體感 應最敏銳的中央凹(Fovea)結構確定物體位置的 原理對目標真實框進行位置變換,更具體地說是 通過目標真實框找到目標對應在特征圖中的中心 位置,然后設定兩個縮放因子分別對目標真實框 向中心點進行收縮和擴展,將收縮邊框的內部點 作為正樣本,擴展邊框外部點作為負樣本。這種 通過位置變化忽略兩個邊框中間點的方法不僅增 加了正負樣本之間的識別度、解決了樣本不平衡 問題,還有效提升了檢測性能,但與其他 anchor-free 模型相比檢測精度略低,在 MS COCO 上實現的 mAP 僅有 40.6%。
本文對現有經典圖像目標檢測模型的創新點 及優缺點做出對比,見表 1。無論是候選區域法、 回歸法還是 anchor-free 法,提出模型的主要目的 都是為了能夠高精度、高速率地識別并檢測出目 標。由表 1 可以看出,基于候選區域法模型的提 出開啟了用 CNN 提取特征的大門使圖像目標檢 測進入深度學習時代,回歸法則解決了候選區域 法的速度瓶頸問題,實現了端對端的圖像目標檢 測。而基于 anchor-free 的算法消除了候選區域法 和回歸法中候選框的設計,生成高質量的目標框 并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數 據集上的檢測結果做出對比,見表 2。“—”表示 此數據集沒有該模型的測試結果,2007 表示數據 集 VOC 2007,2012 表示數據集 VOC 2012;[email protected] 表示該模型在 MS COCO 數據集上是取 閾值為 0.5 計算精度的,AP@[0.5,0.95]表示該模 型在 MSCOCO 數據集上是取 10 個閾值(間隔 0.05)計算精度的,即 mAP,表 2 中所有的數據 集精確率檢測結果均以百分比為單位。FPS 表示 該模型每秒處理圖片的數量。