摘要——強化學習(Reinforcement Learning, RL)是解決序列決策問題的重要機器學習范式。近年來,得益于深度神經網絡的快速發展,該領域取得了顯著進展。然而,當前RL的成功依賴于大量訓練數據和計算資源,且其跨任務泛化能力有限,制約了其在動態現實環境中的應用。隨著持續學習(Continual Learning, CL)的興起,持續強化學習(Continual Reinforcement Learning, CRL)通過使智能體持續學習、適應新任務并保留既有知識,成為解決上述局限性的重要研究方向。本文對CRL進行了系統梳理,圍繞其核心概念、挑戰和方法展開論述:首先,詳細回顧現有研究,對其評估指標、任務設定、基準測試和場景配置進行歸納分析;其次,從知識存儲/遷移視角提出新的CRL方法分類體系,將現有方法劃分為四種類型;最后,剖析CRL的特有挑戰,并為未來研究方向提供實踐性見解。 關鍵詞——持續強化學習,深度強化學習,持續學習,遷移學習
強化學習(Reinforcement Learning, RL)已成為機器學習中的一種強大范式,使智能體能夠通過與環境的交互學習最優的決策策略 [1]。當強化學習與深度神經網絡的表示學習能力相結合時,便產生了深度強化學習(Deep Reinforcement Learning, DRL),其在多個領域取得了顯著的成功 [2]。DRL 展現了在解決高維復雜決策問題方面的巨大潛力,從精通國際象棋、日本將棋和圍棋等棋類游戲 [3],到推動科學發現,如蛋白質結構預測 [4]、量子計算誤差校正 [5],以及大型語言模型的訓練 [6],[7]。此外,DRL 也被廣泛應用于現實世界中的控制任務,如熱電聯產系統優化 [8]、托卡馬克核聚變反應堆中等離子體配置控制 [9],以及實現安全的自動駕駛 [10]。 盡管 DRL 已取得諸多成就,但其當前的成功主要歸因于在特定任務上學習固定策略的能力,通常需要大量的訓練數據和計算資源 [11]。這為 DRL 在現實應用中的部署帶來了重大挑戰。具體來說,現有的 DRL 算法普遍缺乏跨任務高效遷移知識或適應新環境的能力。面對新任務時,這些算法通常需要從頭開始學習,導致樣本效率低下以及泛化能力差 [12]–[14]。 為應對上述挑戰,研究人員開始探索如何使 RL 智能體避免災難性遺忘并有效遷移知識,其最終目標是推動該領域向更具類人智能的方向發展。人類在解決新任務時,能夠靈活地利用已有知識,同時不會顯著遺忘已掌握的技能 [15]。受到這一能力的啟發,持續學習(Continual Learning, CL),又稱終身學習或增量學習,旨在構建能夠適應新任務并保留過往知識的學習系統 [16]–[19]。CL 面臨的核心挑戰在于穩定性與可塑性的平衡——即在維持已學知識穩定性的同時,又具備足夠的靈活性來適應新任務。其總體目標是構建能在整個生命周期內持續學習和適應的智能系統,而不是每次面對新任務時都從零開始。當前 CL 的研究主要聚焦于兩個方面:災難性遺忘的緩解以及知識遷移的實現。災難性遺忘指的是學習新任務會導致模型覆蓋并遺失先前已學任務的知識;而知識遷移則是指利用過往任務中積累的知識來提升新任務(甚至是已見任務)的學習效率與表現。成功解決這兩個問題對于構建穩健的持續學習系統至關重要。 持續強化學習(Continual Reinforcement Learning, CRL),又稱終身強化學習(Lifelong Reinforcement Learning, LRL),是 RL 與 CL 的交叉領域,旨在突破當前 RL 算法的多種局限,構建能夠持續學習并適應一系列復雜任務的智能體 [20],[21]。圖 1 展示了 CRL 的基本設置。與傳統 DRL 主要聚焦于單一任務性能最優化不同,CRL 更強調在任務序列中保持并增強泛化能力。這種焦點的轉變對于將 RL 智能體部署于動態、非平穩環境中尤為關鍵。 需要指出的是,“lifelong” 與 “continual” 兩個術語在 RL 文獻中常被交替使用,但不同研究中的定義與使用方式可能存在顯著差異,從而引發混淆 [22]。一般而言,大多數 LRL 研究更強調對新任務的快速適應,而 CRL 研究更關注避免災難性遺忘。本文采用更廣義的 CRL 作為統一術語,呼應當前 CL 研究中同時兼顧這兩個方面的趨勢。 CRL 智能體需實現兩個核心目標:(1)最小化對先前任務知識的遺忘;(2)利用已有經驗高效學習新任務。達成這兩個目標將有助于克服 DRL 當前的局限,推動 RL 技術向更廣泛、更復雜的應用場景拓展。最終,CRL 旨在實現類人的終身學習能力,使其成為推動 RL 研究的重要方向。 目前,關于 CRL 的綜述工作仍相對較少。部分綜述文獻 [18],[23] 對 CL 領域進行了全面回顧,包括監督學習與強化學習。值得注意的是,Khetarpal 等人 [21] 從非平穩 RL 的視角對 CRL 進行了綜述,首先對通用 CRL 問題進行了定義,并通過數學刻畫提出了不同 CRL 形式的分類體系,強調了非平穩性所涉及的兩個關鍵屬性。然而,該綜述在 CRL 中的一些重要方面——如挑戰、基準測試與場景設置等——缺乏詳細的對比與討論,而這些因素對于指導實際研究至關重要。此外,過去五年中 CRL 方法數量快速增長。鑒于此,本文旨在系統回顧近年來關于 CRL 的研究工作,重點提出一種新的 CRL 方法分類體系,并深入探討知識在 CRL 中的存儲與遷移機制。 本綜述深入探討了 CRL 這一不斷發展的研究領域,旨在彌合傳統 RL 與現實動態環境需求之間的差距。我們全面審視了 CRL 的基本概念、面臨的挑戰與關鍵方法,系統性地回顧了當前 CRL 的研究現狀,并提出了一套將現有方法劃分為不同類別的新分類體系。該結構化方法不僅清晰地描繪了 CRL 研究的整體圖景,也突出了當前的研究趨勢與未來的潛在方向。我們還從策略、經驗、動態與獎勵等多個角度審視方法間的聯系,為優化 CRL 的學習效率與泛化能力提供了細致的理解。此外,我們也關注推動 CRL 邊界的新興研究領域,并探討這些創新如何助力構建更復雜的人工智能系統。 本綜述的主要貢獻體現在以下幾個方面: 1. 挑戰分析:我們強調了 CRL 所面臨的獨特挑戰,提出其需要在可塑性、穩定性與可擴展性三者之間實現平衡; 1. 場景設定:我們將 CRL 場景劃分為終身適應、非平穩學習、任務增量學習與任務無關學習,為不同方法提供了統一的對比框架; 1. 方法分類:我們提出了一種基于知識存儲與遷移方式的新 CRL 方法分類體系,涵蓋策略導向、經驗導向、動態導向與獎勵導向方法,幫助讀者結構性地理解 CRL 策略; 1. 方法綜述:我們對現有 CRL 方法進行了最全面的文獻回顧,包括開創性工作、最新發表的研究成果以及有前景的預印本; 1. 開放問題:我們討論了 CRL 當前的開放問題與未來研究方向,如任務無關的 CRL、評估與基準建設、可解釋知識建模以及大模型的集成使用。
表 I 展示了本文的結構安排。接下來的內容如下:第二節介紹 RL 與 CL 的基礎背景,有助于理解 CRL 的核心理念;第三節概述 CRL 的研究范疇,包括定義、挑戰、評價指標、任務設置、基準與場景分類;第四節詳細介紹我們提出的 CRL 方法分類體系,并回顧現有方法,按知識類型劃分為策略導向(第四節 B)、經驗導向(第四節 C)、動態導向(第四節 D)與獎勵導向(第四節 E)四類;第五節探討 CRL 的開放問題與未來發展方向;第六節為本文的總結與展望。
摘要——視頻超分辨率(Video Super-Resolution,簡稱 VSR)是計算機視覺低層次任務中的一個重要研究方向,其中深度學習技術發揮了關鍵作用。近年來,深度學習的快速發展及其在 VSR 領域中的廣泛應用,推動了相關方法與技術的蓬勃發展。然而,這些方法的使用方式往往缺乏充分解釋,其設計決策更多是基于定量性能的提升。考慮到 VSR 在多個領域中具有廣泛而深遠的潛在影響,有必要對 VSR 研究中所采用的關鍵要素和深度學習方法進行系統的分析。這樣的系統性分析有助于針對具體應用需求開發更合適的模型。 本文對基于深度學習的視頻超分辨率模型進行了全面綜述,詳細探討了模型的各個組成部分及其潛在影響。同時,我們總結了當前主流以及早期 VSR 模型中所采用的關鍵技術和組件。通過對相關方法的解析與系統分類,我們揭示了該領域的發展趨勢、實際需求與面臨的挑戰。作為首個專門針對基于深度學習的 VSR 模型的綜述性工作,本文還建立了一個多層次的分類體系,為當前及未來的 VSR 研究提供指導,推動 VSR 技術在多種實際應用中的發展與理解。
關鍵詞——視頻超分辨率,深度學習,上采樣,融合,綜述,下采樣,對齊,損失函數
一、引言
近年來,隨著視頻采集技術、傳輸網絡以及顯示設備的不斷進步,視頻類多媒體內容的使用量顯著增加。這些技術的發展促使用戶對更高質量視頻信號的需求不斷增長。視頻質量可以從兩個角度來定義:服務質量(Quality of Service,QoS)和體驗質量(Quality of Experience,QoE)。 從 QoS 的角度看,較高的視頻質量意味著更高的碼率、更大的空間分辨率和/或更高的時間分辨率(即每秒幀數更多)。而從 QoE 的角度看,較高的質量則是一種主觀感受,難以量化,因為它取決于用戶的觀感體驗,這種體驗因人而異。
已有研究表明,在視頻信號的時空維度上進行增強,通常能夠提高 QoS,從而進一步改善用戶的 QoE 感知體驗【1】。更高的分辨率不僅提升了視頻的視覺效果,也增強了整體用戶體驗。因此,越來越多的視頻超分辨率(Video Super-Resolution,VSR)模型被提出和開發【2】【3】。VSR 的目標是從給定的低分辨率(Low-Resolution,LR)視頻輸入中生成高分辨率(High-Resolution,HR)的視頻輸出,從而提升圖像質量。
我們可以假設高分辨率視頻經歷了如下操作后生成低分辨率視頻: 其中,LR 表示低分辨率視頻,其來源是將高分辨率視頻 HR 的每一幀與模糊核進行卷積處理,隨后再進行其他降采樣操作。 其中,LR 表示低分辨率視頻,是在將高分辨率視頻 HR 的每一幀與模糊核或三次插值核 kkk 進行卷積處理后,接著執行下采樣操作 ddd,并疊加噪聲 nsn_sns 所得到的結果。因而,從 LR 視頻中重建出 HR 視頻的超分辨任務,實質上是對模糊核、下采樣過程以及噪聲的估計過程,是一個典型的逆問題。正如公式(1)所示,VSR 是一個病態的逆問題,是計算機視覺低層任務中的一個尚未完全解決的研究方向。 VSR 在研究中通常被視為單圖像超分辨(Single-Image Super-Resolution,SISR)和多圖像超分辨(Multi-Image Super-Resolution,MISR)的擴展。然而,與 SISR 和 MISR 不同,VSR 面臨更大的挑戰,因為它需要對視頻序列中高度相關但時空對齊不一致的幀進行有效建模【4】【5】。若直接將傳統 SISR 或 MISR 的方法應用于視頻超分辨任務,往往難以捕捉視頻幀之間的時間依賴性【6】【7】。因此,近年來研究者轉而采用基于學習的方法,充分挖掘低分辨率視頻中的時空特征,將其還原為高分辨率視頻【8】–【13】。
在傳統方法中,通常采用反投影(Back-Projection)方法【14】或基于最小均方(Least Mean Squares, LMS)的卡爾曼濾波方法【15】來插值圖像或視頻幀中的像素。這些方法主要基于確定性函數,將 LR 輸入映射為 HR 輸出。然而,傳統方法的確定性本質限制了它們在不同視頻內容上的泛化能力,所求得的逆函數也無法充分刻畫從 HR 到 LR 的非線性變換過程。
相比之下,近年來基于深度學習的視頻超分辨模型因其具有隨機性和數據驅動的特點,受到了廣泛關注。這類模型不僅具有良好的泛化能力,還能學習復雜的非線性映射函數,將 LR 視頻有效還原為 HR 視頻。學習型的 VSR 方法通常包括特征提取、對齊、融合、重建和上采樣等關鍵步驟。在這類模型中,從精確對齊的幀中提取相關特征并進行融合,是整個重建過程的核心【13】【16】【17】。 本文將深入探討基于深度學習的視頻超分辨模型的各個組成部分。迄今為止,僅有一項研究在該方向上進行過綜述【18】,但該研究僅以對齊過程為核心,采用了單層分類體系,未能充分覆蓋 VSR 領域中的多樣性與復雜性。而事實上,VSR 中的多個子模塊具有極高的多樣性,導致模型的行為和性能結果難以解釋與歸因。
因此,本文旨在彌補這些空白,具體目標包括: * 提出一個新的多層次分類體系,并全面梳理各 VSR 組件中的方法與研究趨勢; * 深入評述深度學習在視頻超分辨任務中的應用方法; * 系統總結 VSR 相關文獻中的研究現狀、發展趨勢、典型應用和挑戰; * 增強 VSR 模型及其性能的可解釋性; * 為未來 VSR 的研究提供基于當前需求與研究空白的實踐指導。
摘要—時空數據在交通、氣象、能源等諸多現實世界領域中日益增長。時空深度學習模型旨在利用這類數據中的有用模式,支持預測、補全、異常檢測等任務。然而,傳統面向特定任務的一對一深度學習模型通常需要針對每個用例單獨訓練,導致計算和存儲成本顯著增加。為了解決這一問題,近年來出現了一對多的時空基礎模型,它們提供了一個統一的框架,能夠同時解決多種時空任務。這類基礎模型通過在時空數據中學習通用知識,或遷移預訓練語言模型的通用能力,取得了顯著成功。盡管已有綜述分別探討了時空數據和方法,但對基礎模型的設計、選擇、預訓練與適應過程尚缺乏系統性的審視。因此,時空基礎模型的整體流程仍不清晰。 為彌補這一空白,本文創新性地從流程視角出發,系統回顧了現有的時空基礎模型。我們首先介紹了不同類型的時空數據,隨后詳述了數據預處理與嵌入技術。在此基礎上,提出了一個新穎的數據屬性分類體系,根據數據來源與依賴關系對現有方法進行劃分,從而為研究者提供高效有效的模型設計與選擇參考。隨后,我們進一步闡述了原始模型的訓練目標以及遷移模型的適配策略。 總體而言,本文構建了一個清晰且結構化的流程框架,有助于理解時空基礎模型各核心要素之間的聯系,并為研究者快速入門提供指導。此外,我們還介紹了時空基礎模型領域中如多目標訓練等新興研究機遇,為研究人員和實踐者提供了寶貴的見解。
GitHub 倉庫://github.com/LMissher/AwesomeSpatio-Temporal-Foundation-Models 關鍵詞—基礎模型,時空數據,預訓練,適應方法。
時空數據正持續從交通、能源和氣象等多個現實世界領域中產生。這類數據天然地展現出隨時間演化的復雜時間特性以及跨區域的空間交互關系【1】。多種形式的時空數據(如軌跡數據、交通數據和視頻數據)在捕捉時空依賴關系方面面臨共通挑戰,需要專門的技術方法以有效提取其內在關聯。挖掘與分析這些時空關聯對于構建智能系統至關重要,使得現實應用能夠在規劃、推理、異常檢測等基礎任務中輔助決策。
近年來,隨著深度學習的發展,基于專用模型的一對一時空數據挖掘取得了顯著進展。這些方法主要依賴于順序建模和空間建模的神經網絡能力,如循環神經網絡(RNN)【2】、Transformer【3】、卷積神經網絡(CNN)【4】以及圖神經網絡(GNN)【5】。然而,面對多樣化的應用場景與任務類型,往往需要訓練大量任務專屬模型,帶來了巨大的計算資源消耗和存儲成本。 幸運的是,隨著自監督學習策略的提出以及“縮放定律”(scaling laws)【6】的發現,基礎模型(Foundation Models)在自然語言處理和計算機視覺領域被設計出來,可以通過高效的少樣本微調(few-shot)甚至無需訓練的零樣本提示(zero-shot prompting)來通用地解決多種任務【7】【8】。 在自然語言處理領域的基礎模型(如 ChatGPT)取得巨大成功之后,“一對多”的基礎模型理念被引入到時空領域,成為一條頗具前景的研究路徑。如圖1所示,時空基礎模型(Spatio-Temporal Foundation Models,STFMs)的目標是在單一的通用模型中學習通用的時空知識,從而應對多樣化的任務與應用,顯著降低對多個任務特定模型的依賴,減少訓練與存儲開銷。通過擴大時空數據的訓練規模,并利用通用的自監督學習目標來構建原始基礎模型,或遷移其他領域(如 NLP)的預訓練基礎模型所具備的通用知識構建遷移型基礎模型,現有的 STFMs 在多種任務中展現了優異效果,展現出統一框架推進該領域的巨大潛力。 盡管 STFMs 已取得明顯進展,但現有綜述仍面臨若干關鍵問題: 1. 數據與模型之間的聯系薄弱:如表 I 所示,盡管已有綜述對不同類型的時空數據進行了分類介紹,但往往忽視了數據對齊中的關鍵步驟(如嵌入技術),這使得時空數據如何有效對接基礎模型變得模糊。 1. 缺乏數據屬性視角:已有綜述大多采用粗粒度的 STFMs 分類方式(例如基于數據類型或深度學習方法),但未解釋為何相似方法被應用于具備共性的數據類型,忽略了從數據屬性出發進行模型選擇或設計的深入洞見。 1. 內容呈現零散:時空數據、基礎模型、訓練目標與遷移適應技術往往被孤立討論,導致無法系統理解在不同任務、數據集與實際場景中應選用哪些模型、目標與策略。
為解決上述問題,本文從“流程視角”出發,系統性地審視 STFMs 的整體開發與應用流程,從數據對齊與模型構想到訓練、適配再到實際應用,全面梳理工作流程。除了簡要介紹時空數據與可用數據集外,如圖2底部所示,我們詳細說明了數據預處理、嵌入技術及多種時空數據類型的輔助信息,從而完成 STFMs 流程中的第一階段:數據對齊。通過引入輔助信息與合適的預處理方式,可顯著提升數據質量,進而增強模型性能。此外,時空數據獨特的空間與時間依賴特性使其嵌入技術在與基礎模型的對接中扮演關鍵角色,是連接原始數據與模型輸入表示的重要橋梁。 STFM 流程的第二階段是基于多樣數據構建模型。為解決粗粒度分類帶來的混淆,我們提出了一種新穎的數據屬性分類體系(如圖2中部所示)。在該體系頂層,我們將 STFMs 分為兩類:原始模型與遷移模型,依據是否直接在原始時空數據上訓練,或是否由其他領域(如語言或圖像模型)遷移而來。此外,我們將原始模型按時間、空間、時空依賴進一步劃分;遷移模型則根據模態分為視覺類、語言類與多模態類。該分類體系基于數據來源與依賴關系進行細粒度建模,便于模型設計與選擇,并可擴展至其他數據類型。 STFM 流程的第三階段聚焦于原始模型的訓練目標與遷移模型的適配技術(如圖2頂部所示)。我們對這些方法進行深入分析,強調其在不同數據類型、任務或應用場景下的優勢與挑戰。 在流程的最后階段,我們總結 STFMs 在現實世界中的典型應用,如能源、金融、氣象、醫療、交通與公共服務等領域(圖1所示),展示其廣泛影響力。 通過逐步明晰的流程式解析,本文不僅理清了 STFMs 的核心組成要素,也揭示了它們之間的深層聯系,有助于模型的快速部署與高效落地。此外,表 I 顯示,現有綜述常常遺漏如關鍵數據類型、訓練目標和適配技術等核心內容,導致對 STFMs 的理解不夠全面。本文通過覆蓋最全面的關鍵要素,提供了一種更具整體視角的理解框架。 最后,我們還討論了 STFMs 當前所面臨的挑戰與未來發展機遇。
本文的主要貢獻總結如下:
全面且最新的綜述:本文提供了當前最系統的 STFMs 綜述,涵蓋數據類型、模型、訓練目標和適配技術等廣泛內容。 * 創新的數據屬性分類體系:我們提出了基于數據來源與依賴關系,從粗到細的 STFMs 分類方法,有助于高效模型設計與選擇。 * 首次基于流程視角的綜述:據我們所知,本文是首個從流程出發系統分析 STFMs 的綜述,有助于理解模型為何表現優越、如何構建。 * 未來研究方向的識別:我們總結了 STFMs 當前應用中的關鍵挑戰,并提出了未來研究的潛在機遇,激勵后續更先進模型的發展。
文章結構如下:第二節回顧時空數據的對齊過程;第三節探討原始基礎模型的設計與訓練目標;第四節深入分析遷移型基礎模型的選擇與適配技術;第五節介紹 STFMs 的典型應用場景;第六節識別新興研究機會與開放挑戰;第七節總結本文的關鍵內容。
摘 要 聯邦學習是一種基于分布式訓練的機器學習技術,有效地解決了因聯合建模而引發的用戶間數據隱私泄 露問題,因此在多個領域得到了廣泛應用。然而,在實際的聯邦學習應用中,統計異質性與長尾分布的共存成為一 大挑戰,嚴重影響了模型性能。因此,如何在保護數據隱私的前提下解決長尾問題,已成為當前的研究熱點。本文 綜述了聯邦長尾學習的研究成果,首先簡要闡述了聯邦學習的架構,并介紹了統計異質性、長尾學習及聯邦長尾學 習的核心概念與定義。接著,依據優化方法的差異,將聯邦長尾學習的算法分為兩大類:模型組件改進和基于算法 的優化,并深入分析了每種算法的實現細節及其優缺點。同時,為了更好地為不同任務提供參考,本文整合了一些 具有代表性的開源數據集、長尾劃分策略、評價指標與對比實驗。最后,針對未來的應用場景和研究方向,對聯邦長 尾學習進行了展望。期望通過本文的深入研究,能為這類問題提供更全面的解決方案,進一步推動聯邦長尾學習技 術在各個領域的廣泛應用和發展。 關鍵詞 聯邦學習;長尾學習;聯邦長尾學習;統計異質性;隱私保護;邊緣智能
**摘要 **多智能體強化學習 (Multi-agent Reinforcement Learning, MARL) 近年來獲得廣泛關注并在 不同領域取得進展. 其中, 協作多智能體強化學習專注于訓練智能體團隊以協同完成單智能體難以 應對的任務目標, 在路徑規劃, 無人駕駛, 主動電壓控制和動態算法配置等場景展現出巨大的應用潛 力. 如何提升系統協作效能是協作多智能體強化學習領域研究重點之一, 以往的研究工作主要在簡 單, 靜態和封閉的環境設定中展開. 隨著人工智能技術落地的驅使, 目前在多智能體協作領域也有部 分研究開始對開放環境下的多智能體協作展開研究, 這些工作從多個方面對智能體所處環境中要素 可能發生改變這一情況進行探索與研究, 并取得一定進展. 但是當前主流工作仍然缺乏對該方向的 綜述. 本文從強化學習概念著手, 針對多智能體系統, 協作多智能體強化學習, 典型方法與測試環境 進行介紹, 對封閉到開放環境下的協作多智能體強化學習研究工作進行總結, 提煉出多類研究方向并 對典型工作進行介紹. 最后, 本文對當前研究的優勢與不足進行了總結, 對未來開放環境下協作多智 能體強化學習的發展方向與待研究問題進行展望, 以吸引更多研究人士參與這個新興方向的研究與 交流. 關鍵詞 強化學習, 多智能體系統, 多智能體協作, 開放環境機器學習, 開放環境多智能體協作
摘要
離線強化學習也稱為批量強化學習,是深度強化學習領域的一項重要研究內容。它利用行為策略生成靜態數據集,無需在線和環境交互,成功地將大規模數據轉換成強大的決策引擎。近年來,離線強化學習方法得到了廣泛關注和深入研究,并在實際應用中取得了矚目的成績。目前,該方法已經應用于推薦系統、導航駕駛、自然語言處理、機器人控制以及醫療與能源等應用領域,并被看作是現實世界應用強化學習最具潛力的技術途徑之一。該文首先介紹了離線強化學習的背景與理論基礎。隨后從決策思路出發,將離線強化學習方法分為無模型、基于模型和基于Transformer模型3大類,并對各類方法的研究現狀與發展趨勢進行分析。同時,對比了目前3個最流行的實驗環境D4RL、RL Unplugged和NeoRL,進而介紹了離線強化學習技術在現實世界諸多領域的應用。最后,對離線強化學習進行了總結與展望,以此推動更多領域的研究工作。 關鍵詞
人工智能;強化學習;深度強化學習;離線強化學習;批量強化學習
摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。
工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。
在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。
為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。
本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:
本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。
近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。
如表I所示,本文通過以下幾個關鍵貢獻來區分自身:
新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。
跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。
持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。
近年來, 深度強化學習(deep reinforcement learning, DRL)已經在諸多序貫決策任務中取得矚目成功, 但當前, 深度強化學習的成功很大程度依賴于海量的學習數據與計算資源, 低劣的樣本效率和策略通用性是制約其進一步發展的關鍵因素. 元強化學習(meta-reinforcement learning, Meta-RL)致力于以更小的樣本量適應更廣泛的任務, 其研究有望緩解上述限制從而推進強化學習領域發展. 以元強化學習工作的研究對象與適用場景為脈絡, 對元強化學習領域的研究進展進行了全面梳理: 首先, 對深度強化學習、元學習背景做基本介紹; 然后, 對元強化學習作形式化定義及常見的場景設置總結, 并從元強化學習研究成果的適用范圍角度展開介紹元強化學習的現有研究進展; 最后, 分析了元強化學習領域的研究挑戰與發展前景.
摘要: 強化學習(Reinforcement learning, RL)在圍棋、視頻游戲、導航、推薦系統等領域均取得了巨大成功. 然而, 許多強化學習算法仍然無法直接移植到真實物理環境中. 這是因為在模擬場景下智能體能以不斷試錯的方式與環境進行交互, 從而學習最優策略. 但考慮到安全因素, 很多現實世界的應用則要求限制智能體的隨機探索行為. 因此, 安全問題成為強化學習從模擬到現實的一個重要挑戰. 近年來, 許多研究致力于開發安全強化學習(Safe reinforcement learning, SRL)算法, 在確保系統性能的同時滿足安全約束. 本文對現有的安全強化學習算法進行全面綜述, 將其歸為三類: 修改學習過程、修改學習目標、離線強化學習, 并介紹了5大基準測試平臺: Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL. 最后總結了安全強化學習在自動駕駛、機器人控制、工業過程控制、電力系統優化和醫療健康領域中的應用, 并給出結論與展望.
作為一種重要的機器學習方法, 強化學習 (Reinforcement learning, RL) 采用了人類和動物學習中 “試錯法” 與 “獎懲回報” 的行為心理學機制, 強調智能體在與環境的交互中學習, 利用評價性的反饋信號實現決策的優化[1]. 早期的強化學習主要依賴于人工提取特征, 難以處理復雜高維狀態和動作空間下的問題. 近年來, 隨著計算機硬件設備性能的提升和神經網絡學習算法的發展, 深度學習由于其強大的表征能力和泛化性能受到了眾多研究人員的關注[2-3]. 于是, 將深度學習與強化學習相結合就成為了解決復雜環境下感知決策問題的一個可行方案. 2016年, Google公司的研究團隊DeepMind創新性地將具有感知能力的深度學習與具有決策能力的強化學習相結合, 開發的人工智能機器人AlphaGo成功擊敗了世界圍棋冠軍李世石[4], 一舉掀起了深度強化學習的研究熱潮. 目前, 深度強化學習在視頻游戲[5]、自動駕駛[6]、機器人控制[7]、電力系統優化[8]、醫療健康[9]等領域均得到了廣泛的應用.
近年來, 學術界與工業界開始逐步注重深度強化學習如何從理論研究邁向實際應用. 然而, 要實現這一階段性的跨越還有很多工作需要完成, 其中尤為重要的一項任務就是保證決策的安全性. 安全對于許多應用至關重要, 一旦學習策略失敗則可能會引發巨大災難. 例如, 在醫療健康領域, 微創手術機器人輔助醫生完成關于大腦或心臟等關鍵器官手術時, 必須做到精準無誤, 一旦偏離原計劃位置, 則將對病人造成致命危害. 再如, 自動駕駛領域, 如果智能駕駛車輛無法規避危險路障信息, 嚴重的話將造成車毀人亡. 因此, 不僅要關注期望回報最大化, 同時也應注重學習的安全性.
García和Fernández[10]于2015年給出了安全強化學習 (Safe reinforcement learning, SRL) 的定義: 考慮安全或風險等概念的強化學習. 具體而言, 所謂安全強化學習是指在學習或部署過程中, 在保證合理性能的同時滿足一定安全約束的最大化長期回報的強化學習過程. 自2015年起, 基于此研究, 學者們提出了大量安全強化學習算法. 為此, 本文對近年來的安全強化學習進行全面綜述, 圍繞智能體的安全性問題, 從修改學習過程、修改學習目標以及離線強化學習三方面進行總結, 并給出了用于安全強化學習的5大基準測試平臺: Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL, 以及安全強化學習在自動駕駛、機器人控制、工業過程控制、電力系統優化以及醫療健康領域的應用. 安全強化學習中所涉及的方法、基準測試平臺以及應用領域之間的關系如圖1所示.
摘要
通信技術和醫療物聯網的最新進展改變了由人工智能(AI)實現的智能醫療。傳統上,人工智能技術需要集中的數據收集和處理,但由于現代醫療網絡的高度可擴展性和日益增長的數據隱私問題,這在現實的醫療場景中可能不可行。聯邦學習(FL)是一種新興的分布式協同人工智能范式,通過協調多個客戶(如醫院)在不共享原始數據的情況下進行人工智能訓練,對智能醫療保健特別有吸引力。因此,我們提供了一個關于FL在智能醫療中的使用的全面綜述。首先,我們介紹了FL的最新進展、在智能醫療中使用FL的動機和要求。最近FL設計智能醫療然后討論,從resource-aware FL,安全和privacy-aware FL激勵FL和個性化FL。隨后,我們提供在關鍵的新興應用FL醫療領域的綜述,包括健康數據管理、遠程健康監測,醫學成像,和COVID-19檢測。本文分析了最近幾個基于FL的智能醫療項目,并強調了從綜述中得到的關鍵教訓。最后,我們討論了有趣的研究挑戰和未來FL研究在智能醫療可能的方向。
引言
醫療物聯網(IoMT)的革命改變了醫療保健行業,改善了人類的生活質量。在智能醫療環境中,IoMT設備(如可穿戴傳感器)被廣泛用于收集醫療數據,用于人工智能(AI)[2]啟用的智能數據分析,以實現大量令人興奮的智能醫療應用,如遠程健康監測和疾病預測。例如,人工智能技術,如深度學習(DL)已證明其在生物醫學圖像分析方面的巨大潛力,可通過處理大量健康數據來促進醫療服務[3]的提供,從而有助于慢性病的早期檢測。
傳統上,智能醫療系統通常依賴于位于云或數據中心的集中AI功能來學習和分析健康數據。隨著現代醫療網絡中健康數據量的增加和IoMT設備的增長,由于原始數據傳輸的原因,這種集中式解決方案在通信延遲方面效率不高,無法實現很高的網絡可擴展性。此外,依賴這樣的中央服務器或第三方進行數據學習引起了關鍵的隱私問題,例如,用戶信息泄露和數據泄露[4]。在電子醫療保健領域尤其如此,在電子醫療保健領域,與健康有關的信息高度敏感,屬于私人信息,受《美國健康保險便攜性和問責法》(HIPPA)[5]等衛生法規的約束。此外,在未來的醫療系統中,這種集中式AI架構可能不再適用,因為健康數據不是集中放置的,而是分布在大規模的IoMT網絡上。因此,迫切需要采用分布式AI方法,在網絡邊緣實現可擴展和保護隱私的智能醫療保健應用程序。
在這種背景下,聯邦學習(FL)已經成為一種很有前途的解決方案,可以實現具有成本效益的智能醫療應用程序,并改善隱私保護[6-9]。從概念上講,FL是一種分布式人工智能方法,通過平均從多個健康數據客戶(如IoMT設備)匯總的本地更新,而不需要直接訪問本地數據[10],從而能夠訓練高質量的人工智能模型。這可能防止泄露敏感用戶信息和用戶偏好,從而降低隱私泄露風險。此外,由于FL吸引了來自多個衛生數據客戶的大量計算和數據集資源來訓練人工智能模型,衛生數據訓練質量(如準確性)將得到顯著提高,而使用數據較少和計算能力有限的集中式人工智能方法可能無法實現這一目標。
目前還沒有針對FL在智能醫療中的應用進行全面綜述的工作。此外,在開放文獻中仍然缺少在新興醫療保健應用中使用FL的整體分類。這些限制促使我們對FL在智能醫療中的集成進行廣泛的綜述。特別地,我們首先確定了在智能醫療中使用FL的關鍵動機并強調了其需求。然后,我們發現了用于智能醫療的最新先進FL設計。隨后,我們提供了關于FL在智能醫療領域新興應用的最新調研,如電子健康記錄(EHR)管理、遠程健康監測、醫學成像和COVID-19檢測。本文還總結了調研所得的經驗教訓,供讀者參考。本文總結貢獻如下:
(1) 我們介紹了在智能醫療中使用FL的最新調研,首先介紹了FL的概念,并討論了使用FL智能醫療的動機和技術要求。
(2) 我們介紹了最近先進的FL設計,這些設計將有助于聯合智能醫療應用,包括資源感知的FL、安全和隱私增強的FL、激勵感知的FL和個性化的FL。
(3) 我們通過廣泛的關鍵領域提供了關于FL在智能醫療中的關鍵應用的最新綜述。即聯邦EHRs管理、聯邦遠程健康監視、聯邦醫學成像和聯邦COVID-19檢測。本文提供了與FL醫療保健用例相關的正在出現的實際項目,并強調了從調研中吸取的關鍵教訓。
(4) 最后,我們強調了FL-smart 醫療的有趣挑戰并討論了未來的發展方向。
摘要: 編碼計算將編碼理論融于分布式計算中,利用靈活多樣的編碼方式降低數據洗牌造成的高通信負載,緩解掉隊節點導致的計算延遲,有效提升分布式計算系統的整體性能,并通過糾錯機制和數據掩藏等技術為分布式計算系統提供安全保障.鑒于其在通信、存儲和計算復雜度等方面的優勢,受到學術界的廣泛關注,成為分布式計算領域的熱門方向.對此,首先介紹編碼計算的研究背景,明確編碼計算的內涵與定義;隨后對現有編碼計算方案進行評述,從核心挑戰入手,分別對面向通信瓶頸,計算延遲和安全隱私的編碼計算方案展開介紹、總結和對比分析;最后指出未來可能的研究方向和技術挑戰,為相關領域的研究提供有價值的參考.