摘 要 聯邦學習是一種基于分布式訓練的機器學習技術,有效地解決了因聯合建模而引發的用戶間數據隱私泄 露問題,因此在多個領域得到了廣泛應用。然而,在實際的聯邦學習應用中,統計異質性與長尾分布的共存成為一 大挑戰,嚴重影響了模型性能。因此,如何在保護數據隱私的前提下解決長尾問題,已成為當前的研究熱點。本文 綜述了聯邦長尾學習的研究成果,首先簡要闡述了聯邦學習的架構,并介紹了統計異質性、長尾學習及聯邦長尾學 習的核心概念與定義。接著,依據優化方法的差異,將聯邦長尾學習的算法分為兩大類:模型組件改進和基于算法 的優化,并深入分析了每種算法的實現細節及其優缺點。同時,為了更好地為不同任務提供參考,本文整合了一些 具有代表性的開源數據集、長尾劃分策略、評價指標與對比實驗。最后,針對未來的應用場景和研究方向,對聯邦長 尾學習進行了展望。期望通過本文的深入研究,能為這類問題提供更全面的解決方案,進一步推動聯邦長尾學習技 術在各個領域的廣泛應用和發展。 關鍵詞 聯邦學習;長尾學習;聯邦長尾學習;統計異質性;隱私保護;邊緣智能
摘要——強化學習(Reinforcement Learning, RL)是解決序列決策問題的重要機器學習范式。近年來,得益于深度神經網絡的快速發展,該領域取得了顯著進展。然而,當前RL的成功依賴于大量訓練數據和計算資源,且其跨任務泛化能力有限,制約了其在動態現實環境中的應用。隨著持續學習(Continual Learning, CL)的興起,持續強化學習(Continual Reinforcement Learning, CRL)通過使智能體持續學習、適應新任務并保留既有知識,成為解決上述局限性的重要研究方向。本文對CRL進行了系統梳理,圍繞其核心概念、挑戰和方法展開論述:首先,詳細回顧現有研究,對其評估指標、任務設定、基準測試和場景配置進行歸納分析;其次,從知識存儲/遷移視角提出新的CRL方法分類體系,將現有方法劃分為四種類型;最后,剖析CRL的特有挑戰,并為未來研究方向提供實踐性見解。 關鍵詞——持續強化學習,深度強化學習,持續學習,遷移學習
強化學習(Reinforcement Learning, RL)已成為機器學習中的一種強大范式,使智能體能夠通過與環境的交互學習最優的決策策略 [1]。當強化學習與深度神經網絡的表示學習能力相結合時,便產生了深度強化學習(Deep Reinforcement Learning, DRL),其在多個領域取得了顯著的成功 [2]。DRL 展現了在解決高維復雜決策問題方面的巨大潛力,從精通國際象棋、日本將棋和圍棋等棋類游戲 [3],到推動科學發現,如蛋白質結構預測 [4]、量子計算誤差校正 [5],以及大型語言模型的訓練 [6],[7]。此外,DRL 也被廣泛應用于現實世界中的控制任務,如熱電聯產系統優化 [8]、托卡馬克核聚變反應堆中等離子體配置控制 [9],以及實現安全的自動駕駛 [10]。 盡管 DRL 已取得諸多成就,但其當前的成功主要歸因于在特定任務上學習固定策略的能力,通常需要大量的訓練數據和計算資源 [11]。這為 DRL 在現實應用中的部署帶來了重大挑戰。具體來說,現有的 DRL 算法普遍缺乏跨任務高效遷移知識或適應新環境的能力。面對新任務時,這些算法通常需要從頭開始學習,導致樣本效率低下以及泛化能力差 [12]–[14]。 為應對上述挑戰,研究人員開始探索如何使 RL 智能體避免災難性遺忘并有效遷移知識,其最終目標是推動該領域向更具類人智能的方向發展。人類在解決新任務時,能夠靈活地利用已有知識,同時不會顯著遺忘已掌握的技能 [15]。受到這一能力的啟發,持續學習(Continual Learning, CL),又稱終身學習或增量學習,旨在構建能夠適應新任務并保留過往知識的學習系統 [16]–[19]。CL 面臨的核心挑戰在于穩定性與可塑性的平衡——即在維持已學知識穩定性的同時,又具備足夠的靈活性來適應新任務。其總體目標是構建能在整個生命周期內持續學習和適應的智能系統,而不是每次面對新任務時都從零開始。當前 CL 的研究主要聚焦于兩個方面:災難性遺忘的緩解以及知識遷移的實現。災難性遺忘指的是學習新任務會導致模型覆蓋并遺失先前已學任務的知識;而知識遷移則是指利用過往任務中積累的知識來提升新任務(甚至是已見任務)的學習效率與表現。成功解決這兩個問題對于構建穩健的持續學習系統至關重要。 持續強化學習(Continual Reinforcement Learning, CRL),又稱終身強化學習(Lifelong Reinforcement Learning, LRL),是 RL 與 CL 的交叉領域,旨在突破當前 RL 算法的多種局限,構建能夠持續學習并適應一系列復雜任務的智能體 [20],[21]。圖 1 展示了 CRL 的基本設置。與傳統 DRL 主要聚焦于單一任務性能最優化不同,CRL 更強調在任務序列中保持并增強泛化能力。這種焦點的轉變對于將 RL 智能體部署于動態、非平穩環境中尤為關鍵。 需要指出的是,“lifelong” 與 “continual” 兩個術語在 RL 文獻中常被交替使用,但不同研究中的定義與使用方式可能存在顯著差異,從而引發混淆 [22]。一般而言,大多數 LRL 研究更強調對新任務的快速適應,而 CRL 研究更關注避免災難性遺忘。本文采用更廣義的 CRL 作為統一術語,呼應當前 CL 研究中同時兼顧這兩個方面的趨勢。 CRL 智能體需實現兩個核心目標:(1)最小化對先前任務知識的遺忘;(2)利用已有經驗高效學習新任務。達成這兩個目標將有助于克服 DRL 當前的局限,推動 RL 技術向更廣泛、更復雜的應用場景拓展。最終,CRL 旨在實現類人的終身學習能力,使其成為推動 RL 研究的重要方向。 目前,關于 CRL 的綜述工作仍相對較少。部分綜述文獻 [18],[23] 對 CL 領域進行了全面回顧,包括監督學習與強化學習。值得注意的是,Khetarpal 等人 [21] 從非平穩 RL 的視角對 CRL 進行了綜述,首先對通用 CRL 問題進行了定義,并通過數學刻畫提出了不同 CRL 形式的分類體系,強調了非平穩性所涉及的兩個關鍵屬性。然而,該綜述在 CRL 中的一些重要方面——如挑戰、基準測試與場景設置等——缺乏詳細的對比與討論,而這些因素對于指導實際研究至關重要。此外,過去五年中 CRL 方法數量快速增長。鑒于此,本文旨在系統回顧近年來關于 CRL 的研究工作,重點提出一種新的 CRL 方法分類體系,并深入探討知識在 CRL 中的存儲與遷移機制。 本綜述深入探討了 CRL 這一不斷發展的研究領域,旨在彌合傳統 RL 與現實動態環境需求之間的差距。我們全面審視了 CRL 的基本概念、面臨的挑戰與關鍵方法,系統性地回顧了當前 CRL 的研究現狀,并提出了一套將現有方法劃分為不同類別的新分類體系。該結構化方法不僅清晰地描繪了 CRL 研究的整體圖景,也突出了當前的研究趨勢與未來的潛在方向。我們還從策略、經驗、動態與獎勵等多個角度審視方法間的聯系,為優化 CRL 的學習效率與泛化能力提供了細致的理解。此外,我們也關注推動 CRL 邊界的新興研究領域,并探討這些創新如何助力構建更復雜的人工智能系統。 本綜述的主要貢獻體現在以下幾個方面: 1. 挑戰分析:我們強調了 CRL 所面臨的獨特挑戰,提出其需要在可塑性、穩定性與可擴展性三者之間實現平衡; 1. 場景設定:我們將 CRL 場景劃分為終身適應、非平穩學習、任務增量學習與任務無關學習,為不同方法提供了統一的對比框架; 1. 方法分類:我們提出了一種基于知識存儲與遷移方式的新 CRL 方法分類體系,涵蓋策略導向、經驗導向、動態導向與獎勵導向方法,幫助讀者結構性地理解 CRL 策略; 1. 方法綜述:我們對現有 CRL 方法進行了最全面的文獻回顧,包括開創性工作、最新發表的研究成果以及有前景的預印本; 1. 開放問題:我們討論了 CRL 當前的開放問題與未來研究方向,如任務無關的 CRL、評估與基準建設、可解釋知識建模以及大模型的集成使用。
表 I 展示了本文的結構安排。接下來的內容如下:第二節介紹 RL 與 CL 的基礎背景,有助于理解 CRL 的核心理念;第三節概述 CRL 的研究范疇,包括定義、挑戰、評價指標、任務設置、基準與場景分類;第四節詳細介紹我們提出的 CRL 方法分類體系,并回顧現有方法,按知識類型劃分為策略導向(第四節 B)、經驗導向(第四節 C)、動態導向(第四節 D)與獎勵導向(第四節 E)四類;第五節探討 CRL 的開放問題與未來發展方向;第六節為本文的總結與展望。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
摘要—時空數據在交通、氣象、能源等諸多現實世界領域中日益增長。時空深度學習模型旨在利用這類數據中的有用模式,支持預測、補全、異常檢測等任務。然而,傳統面向特定任務的一對一深度學習模型通常需要針對每個用例單獨訓練,導致計算和存儲成本顯著增加。為了解決這一問題,近年來出現了一對多的時空基礎模型,它們提供了一個統一的框架,能夠同時解決多種時空任務。這類基礎模型通過在時空數據中學習通用知識,或遷移預訓練語言模型的通用能力,取得了顯著成功。盡管已有綜述分別探討了時空數據和方法,但對基礎模型的設計、選擇、預訓練與適應過程尚缺乏系統性的審視。因此,時空基礎模型的整體流程仍不清晰。 為彌補這一空白,本文創新性地從流程視角出發,系統回顧了現有的時空基礎模型。我們首先介紹了不同類型的時空數據,隨后詳述了數據預處理與嵌入技術。在此基礎上,提出了一個新穎的數據屬性分類體系,根據數據來源與依賴關系對現有方法進行劃分,從而為研究者提供高效有效的模型設計與選擇參考。隨后,我們進一步闡述了原始模型的訓練目標以及遷移模型的適配策略。 總體而言,本文構建了一個清晰且結構化的流程框架,有助于理解時空基礎模型各核心要素之間的聯系,并為研究者快速入門提供指導。此外,我們還介紹了時空基礎模型領域中如多目標訓練等新興研究機遇,為研究人員和實踐者提供了寶貴的見解。
GitHub 倉庫://github.com/LMissher/AwesomeSpatio-Temporal-Foundation-Models 關鍵詞—基礎模型,時空數據,預訓練,適應方法。
時空數據正持續從交通、能源和氣象等多個現實世界領域中產生。這類數據天然地展現出隨時間演化的復雜時間特性以及跨區域的空間交互關系【1】。多種形式的時空數據(如軌跡數據、交通數據和視頻數據)在捕捉時空依賴關系方面面臨共通挑戰,需要專門的技術方法以有效提取其內在關聯。挖掘與分析這些時空關聯對于構建智能系統至關重要,使得現實應用能夠在規劃、推理、異常檢測等基礎任務中輔助決策。
近年來,隨著深度學習的發展,基于專用模型的一對一時空數據挖掘取得了顯著進展。這些方法主要依賴于順序建模和空間建模的神經網絡能力,如循環神經網絡(RNN)【2】、Transformer【3】、卷積神經網絡(CNN)【4】以及圖神經網絡(GNN)【5】。然而,面對多樣化的應用場景與任務類型,往往需要訓練大量任務專屬模型,帶來了巨大的計算資源消耗和存儲成本。 幸運的是,隨著自監督學習策略的提出以及“縮放定律”(scaling laws)【6】的發現,基礎模型(Foundation Models)在自然語言處理和計算機視覺領域被設計出來,可以通過高效的少樣本微調(few-shot)甚至無需訓練的零樣本提示(zero-shot prompting)來通用地解決多種任務【7】【8】。 在自然語言處理領域的基礎模型(如 ChatGPT)取得巨大成功之后,“一對多”的基礎模型理念被引入到時空領域,成為一條頗具前景的研究路徑。如圖1所示,時空基礎模型(Spatio-Temporal Foundation Models,STFMs)的目標是在單一的通用模型中學習通用的時空知識,從而應對多樣化的任務與應用,顯著降低對多個任務特定模型的依賴,減少訓練與存儲開銷。通過擴大時空數據的訓練規模,并利用通用的自監督學習目標來構建原始基礎模型,或遷移其他領域(如 NLP)的預訓練基礎模型所具備的通用知識構建遷移型基礎模型,現有的 STFMs 在多種任務中展現了優異效果,展現出統一框架推進該領域的巨大潛力。 盡管 STFMs 已取得明顯進展,但現有綜述仍面臨若干關鍵問題: 1. 數據與模型之間的聯系薄弱:如表 I 所示,盡管已有綜述對不同類型的時空數據進行了分類介紹,但往往忽視了數據對齊中的關鍵步驟(如嵌入技術),這使得時空數據如何有效對接基礎模型變得模糊。 1. 缺乏數據屬性視角:已有綜述大多采用粗粒度的 STFMs 分類方式(例如基于數據類型或深度學習方法),但未解釋為何相似方法被應用于具備共性的數據類型,忽略了從數據屬性出發進行模型選擇或設計的深入洞見。 1. 內容呈現零散:時空數據、基礎模型、訓練目標與遷移適應技術往往被孤立討論,導致無法系統理解在不同任務、數據集與實際場景中應選用哪些模型、目標與策略。
為解決上述問題,本文從“流程視角”出發,系統性地審視 STFMs 的整體開發與應用流程,從數據對齊與模型構想到訓練、適配再到實際應用,全面梳理工作流程。除了簡要介紹時空數據與可用數據集外,如圖2底部所示,我們詳細說明了數據預處理、嵌入技術及多種時空數據類型的輔助信息,從而完成 STFMs 流程中的第一階段:數據對齊。通過引入輔助信息與合適的預處理方式,可顯著提升數據質量,進而增強模型性能。此外,時空數據獨特的空間與時間依賴特性使其嵌入技術在與基礎模型的對接中扮演關鍵角色,是連接原始數據與模型輸入表示的重要橋梁。 STFM 流程的第二階段是基于多樣數據構建模型。為解決粗粒度分類帶來的混淆,我們提出了一種新穎的數據屬性分類體系(如圖2中部所示)。在該體系頂層,我們將 STFMs 分為兩類:原始模型與遷移模型,依據是否直接在原始時空數據上訓練,或是否由其他領域(如語言或圖像模型)遷移而來。此外,我們將原始模型按時間、空間、時空依賴進一步劃分;遷移模型則根據模態分為視覺類、語言類與多模態類。該分類體系基于數據來源與依賴關系進行細粒度建模,便于模型設計與選擇,并可擴展至其他數據類型。 STFM 流程的第三階段聚焦于原始模型的訓練目標與遷移模型的適配技術(如圖2頂部所示)。我們對這些方法進行深入分析,強調其在不同數據類型、任務或應用場景下的優勢與挑戰。 在流程的最后階段,我們總結 STFMs 在現實世界中的典型應用,如能源、金融、氣象、醫療、交通與公共服務等領域(圖1所示),展示其廣泛影響力。 通過逐步明晰的流程式解析,本文不僅理清了 STFMs 的核心組成要素,也揭示了它們之間的深層聯系,有助于模型的快速部署與高效落地。此外,表 I 顯示,現有綜述常常遺漏如關鍵數據類型、訓練目標和適配技術等核心內容,導致對 STFMs 的理解不夠全面。本文通過覆蓋最全面的關鍵要素,提供了一種更具整體視角的理解框架。 最后,我們還討論了 STFMs 當前所面臨的挑戰與未來發展機遇。
本文的主要貢獻總結如下:
全面且最新的綜述:本文提供了當前最系統的 STFMs 綜述,涵蓋數據類型、模型、訓練目標和適配技術等廣泛內容。 * 創新的數據屬性分類體系:我們提出了基于數據來源與依賴關系,從粗到細的 STFMs 分類方法,有助于高效模型設計與選擇。 * 首次基于流程視角的綜述:據我們所知,本文是首個從流程出發系統分析 STFMs 的綜述,有助于理解模型為何表現優越、如何構建。 * 未來研究方向的識別:我們總結了 STFMs 當前應用中的關鍵挑戰,并提出了未來研究的潛在機遇,激勵后續更先進模型的發展。
文章結構如下:第二節回顧時空數據的對齊過程;第三節探討原始基礎模型的設計與訓練目標;第四節深入分析遷移型基礎模型的選擇與適配技術;第五節介紹 STFMs 的典型應用場景;第六節識別新興研究機會與開放挑戰;第七節總結本文的關鍵內容。
摘要
離線強化學習也稱為批量強化學習,是深度強化學習領域的一項重要研究內容。它利用行為策略生成靜態數據集,無需在線和環境交互,成功地將大規模數據轉換成強大的決策引擎。近年來,離線強化學習方法得到了廣泛關注和深入研究,并在實際應用中取得了矚目的成績。目前,該方法已經應用于推薦系統、導航駕駛、自然語言處理、機器人控制以及醫療與能源等應用領域,并被看作是現實世界應用強化學習最具潛力的技術途徑之一。該文首先介紹了離線強化學習的背景與理論基礎。隨后從決策思路出發,將離線強化學習方法分為無模型、基于模型和基于Transformer模型3大類,并對各類方法的研究現狀與發展趨勢進行分析。同時,對比了目前3個最流行的實驗環境D4RL、RL Unplugged和NeoRL,進而介紹了離線強化學習技術在現實世界諸多領域的應用。最后,對離線強化學習進行了總結與展望,以此推動更多領域的研究工作。 關鍵詞
人工智能;強化學習;深度強化學習;離線強化學習;批量強化學習
摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml
人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。
聯邦學習用于解決數據共享與隱私安全之間的矛盾,旨在通過安全地交互不可逆的信息(如模型參數或梯度更新)來 構建一個聯邦模型.然而,聯邦學習在模型的本地訓練、信息交互、參數傳遞等過程中依然存在惡意攻擊和隱私泄漏的風險,這 給聯邦學習的實際應用帶來了重大挑戰.文中針對聯邦學習在建模和部署過程中存在的攻擊行為及相應的防御策略進行了詳 細調研.首先,簡要介紹了聯邦學習的基本流程和相關攻防知識;接著,從機密性、可用性和正直性3個角度對聯邦學習訓練和 部署中的攻擊行為進 行 了 分 類,并 梳 理 了 相 關 的 隱 私 竊 取 和 惡 意 攻 擊 的 最 新 研 究;然 后,從 防 御 誠 實 但 好 奇 (honestGbutG curious)攻擊者和惡意攻擊者兩個方向對防御方法進行了劃分,并分析了不同策略的防御能力;最后,總結了防御方法在聯邦學 習實踐中存在的問題及可能導致的攻擊風險,并探討了聯邦系統的防御策略在未來的發展方向.
大數據和人工智能的快速發展促進了傳統產業的變革升 級.以數據驅動的人工智能模型(如深度學習)在計算機視 覺、語音識別、自然語言理解等領域取得了巨大成功,但在海 量數據的準備過程中,往往需要將各個數據源的數據匯聚到 一個中心 的 數 據 倉 庫 中.然 而,不 斷 出 現 的 數 據 泄 漏 事 件 使得人們開始懷疑中心化收集數據的可靠性.聯邦學習在這 種背景下被提出,它旨在利用去中心化的數據源訓練一個中 心化的聯邦模型,并且在訓練的過程中保證原始數據的隱私 安全.聯邦學習整體的流程被劃分成3個階段:1)共享模型 分發;2)本地模型訓練;3)模型信息收集、聚合與模型更新. 雖然聯邦學習針對數據共享與隱私安全的沖突提供了一種全 新的解決方案,但是它仍然面臨4個挑戰[1]:1)高昂的通信成本;2)系統異質性;3)數據統計異質性;4)數據安全.前三 種挑戰被認為是功能性挑戰,它們描述了聯邦學習在實際應 用過程中可能遇到的困難,而如何處理數據安全問題決定了 聯邦學習在應對各種法律條規 (如一般隱私保護條例[2])時 是否具有可行性.在樸素聯邦學習框架中,數據的機密性主 要依賴于不可逆的信息無法恢復出原始數據這一假設來保 證.但是文獻[3G6]證明了可以從傳輸的模型信息中推斷出 一些隱私數據.成員推斷攻擊(MembershipInference)最早 在文獻[6]中被提出,它旨在利用已訓練的模型來判斷某一樣 本是否屬于對應的訓練集,這在特定的情況下會泄露隱私信 息,如判斷某個病人的臨床記錄是否被用于訓練與某個疾病 相關的分類模型.隨著攻擊手段的強化,Fredrikson等[7]提 出利用已訓練模型的預測置信值進行反轉攻擊(ModelInverG sion),Hitaj等[8]則在已有工作的基礎上將反轉攻擊拓展到 了多層感 知 神 經 網 絡 上,并 利 用 生 成 對 抗 網 絡 (Generative AdversarialNetwork,GAN)恢復出特定類別的數字圖片.除 了原始數據的隱私安全外,作為各方參與者共同訓練的聯邦 模型也 被 視 為 參 與 者 的 隱 私 數 據.當 聯 邦 模 型 通 過 接 口 (ApplicationProgrammingInterface,API)向外部開放時,原 始的模型參數也存在被竊取的可能[9].
機密性攻擊是聯邦學習的主要防御方向,但聯邦學習的 建模目標是利用多方數據訓練出更加精準、健壯的聯合模型, 而這樣的目標很容易被正直性和可用性攻擊危害.關于正直 性和可用性的定義,本文延續了 Papernot等[10]的定義,并根據 聯邦學習的場景進行了對應的修正.其中,正直性攻擊被定 義為攻擊者誘導聯合模型在接收特定輸入時輸出錯誤結果的 行為;可用性攻擊被定義為攻擊者阻止參與者構建或訪問有 效聯合模型的行為.聯邦學習場景中的正直性攻擊主要分為 兩類:對抗攻擊[11G12]和后門攻擊[13G16].其中,對抗攻 擊 旨 在 利用目標模型的弱點構造對抗樣本,使 得 目 標 模 型 在 接 收 到對抗樣本時輸出錯誤的預測結果;而 后 門 攻 擊 旨 在 將 后 門觸發器嵌入到目標模型中,從而使目 標 模 型 在 接 收 到 包 含觸發標志的 樣 本 時 輸 出 錯 誤 的 預 測 結 果.與 正 值 性 攻 擊不同,可用性攻擊旨在阻止正常參與者構建或訪問有效的 聯邦模型,如利用拒絕訪問(DenialofService,DoS)[17]癱瘓服 務器.
為了應對上述機密性、正直性和可用性攻擊,多種防御策 略被提出.這些防御策略根據攻擊者的性質被分為兩類,即 針對誠實但好奇攻擊者的防御策略和針對惡意攻擊者(MaliG cious)的防御策略.誠實但好奇攻擊者表示該參與者遵守設 定的訓練規則,但對傳輸數據背后的信息感到好奇;而惡意攻 擊者則會通過污染數據[18]和模型[19]等手段來破壞目標模型 的正直性和可用性.誠實但好奇攻擊者主要針對機密性攻 擊,對應的防御手段包括安全多方計算[20]、同態加密[21]、信 息掩蓋[22G23]以及混合方案[13,24];而惡意攻擊者則針對正直性 攻擊和可用性攻擊,對應的防御策略分為兩類(見表1):利用 中和策略緩解惡意攻擊帶來的影響[12];對惡意攻擊行為進行 檢測,并拒絕其參與聯合建模[25G26].
綜上所述,聯邦學習在建模的過程中面臨著巨大的數據 安全與模型攻擊挑戰.文獻[64]只對攻防的基礎方法進行介 紹,未對聯邦學習中的攻防工作進行細致討 論.而 在 Chen 等[65]的討論中,未對針對模型可用性的攻擊策略(如拜占庭 攻擊)進行綜述.本文從機密性、正直性和可用性3種攻擊性 質出發,重點介紹了聯邦學習在建模過程中可能出現的攻擊 行為,同時從誠實但好奇和惡意兩個角度歸納了不同防御策 略的優點與缺點,攻防策略的對比如表1所列,最后對聯邦學 習中攻防場景的發展方向和可能的應用進行了探索與展望.
摘要
在大數據時代下,深度學習理論和技術取得的突破性進展,為人工智能提供了數據和算法層面的強有力 支撐,同時促進了深度學習的規模化和產業化發展.然而,盡管深度學習模型在現實應用中有著出色的表現,但 其本身仍然面臨著諸多的安全威脅.為了構建安全可靠的深度學習系統,消除深度學習模型在實際部署應用中的潛在安全風險,深度學習模型魯棒性分析問題吸引了學術界和工業界的廣泛關注,一大批學者分別從精確和 近似的角度對深度學習模型魯棒性問題進行了深入的研究,并且提出了一系列的模型魯棒性量化分析方法. 在本綜述中,我們回顧了深度學習模型魯棒性分析問題當前所面臨的挑戰,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足,最后探討了深度學習模型魯棒性研究以及未來潛在的研究方向.
引言
受益于計算力和智能設備的飛速發展,全世界正在經歷第三次人工智能浪潮。人工智能以計算機 視覺、序列處理、智能決策等技術為核心在各個應 用領域展開,并延伸到人類生活的方方面面,包括 自適應控制[1]、模式識別[2]、游戲[3]以及自動駕駛[4] 等安全攸關型應用。例如,無人駕駛飛機防撞系統 (Aircraft Collision Avoidance System, ACAS)使用 深度神經網絡根據附近入侵者飛機的位置和速度 來預測最佳行動。然而,盡管深度神經網絡已經顯 示出解決復雜問題的有效性和強大能力,但它們僅 限于僅滿足最低安全完整性級別的系統,因此它們 在安全關鍵型環境中的采用仍受到限制,主要原因 在于在大多數情況下神經網絡模型被視為無法對 其預測行為進行合理解釋的黑匣子,并且在理論上難以證明其性質。
隨著深度學習的對抗攻擊領域日益廣泛,對抗 樣本的危險性日益凸顯[7,12,13],即通過向正常樣例中添加精細設計的、人類無法感知的擾動達到不干 擾人類認知卻能使機器學習模型做出錯誤判斷。以圖像分類任務為例,如圖 1 所示,原始樣本以 57.7% 的置信度被模型分類為“熊貓”,而添加對抗擾動之 后得到的樣本則以 99.3%的置信度被錯誤地分類為 “長臂猿”,然而對于人而言,對抗樣本依然會被 視為熊貓。由于這種細微的擾動通常是人眼難以分辨的,因而使得攻擊隱蔽性極強、危害性極大,給 ACAS 等安全攸關型應用中部署的深度學習模型帶 來了巨大的安全威脅。
為了防御對抗樣本攻擊,研究者進行了一系列的防御方法探索[5-11]。然而,即使是被廣泛認可并且迄今為止最成功的?∞防御[5],它的?0魯棒性比未防御的網絡還低,并且仍然極易受到?2的擾動影響[14]。這些結果表明,僅對對抗攻擊進行經驗性的防御無法保證模型的魯棒性得到實質性的提升,模型的魯棒性需要一個定量的、有理論保證的指標進行評估。因此,如果要將深度學習模型部署到諸如自 動駕駛汽車等安全攸關型應用中,我們需要為模型 的魯棒性提供理論上的安全保證,即計算模型的魯 棒性邊界。模型魯棒性邊界是針對某個具體樣本而 言的,是保證模型預測正確的條件下樣本的最大可 擾動范圍,即模型對這個樣本的分類決策不會在這 個邊界內變化。具體地,令輸入樣本??的維度為??, 輸出類別的個數為??,神經網絡模型為??: ??? → ???, 輸入樣本的類別為 ?? = ???????????? ???? ?? ,?? = 1,2, … ,??,在???空間假設下,模型對??提供?-魯棒性 保證表明模型對??的分類決策不會在這個樣本???空 間周圍?大小內變化。
在本文中,我們首先闡述了深度學習模型魯棒性分析現存的問題與挑戰,然后從精確與近似兩個角度對現有的魯棒性分析方法進行系統的總結和科學的歸納,并討論了相關研究的局限性。最后,我們討論了深度學習模型魯棒性分析問題未來的研究方向。
問題與挑戰
目前,深度神經網絡的魯棒性分析問題的挑戰主要集中在以下幾個方面:
(1)神經網絡的非線性特點。由于非線性激 活函數和復雜結構的存在,深度神經網絡具有非線 性、非凸性的特點,因此很難估計其輸出范圍,并 且驗證分段線性神經網絡的簡單特性也已被證明 是 NP 完全問題[15]。這一問題的難點在于深度神經 網絡中非線性激活函數的存在。具體地,深度神經 網絡的每一層由一組神經元構成,每個神經元的值 是通過計算來自上一層神經元的值的線性組合,然 后將激活函數應用于這一線性組合。由于這些激活 函數是非線性的,因此這一過程是非凸的。以應用 最為廣泛的激活函數 ReLU 為例,當 ReLU 函數應 用于具有正值的節點時,它將返回不變的值,但是 當該值為負時,ReLU 函數將返回 0。然而,使用 ReLU 驗證 DNN 屬性的方法不得不做出顯著簡化 的假設,例如僅考慮所有 ReLU 都固定為正值或 0 的區域[16]。直到最近,研究人員才能夠基于可滿足 性模理論等形式方法,對最簡單的 ReLU 分段線性 神經網絡進行了初步驗證[15,21]。由于可滿足性模理 論求解器難以處理非線性運算,因此基于可滿足性 模理論的方法通常只適用于激活函數為分段線性的神經網絡,無法擴展到具有其它類型激活函數的神經網絡。
(2)神經網絡的大規模特點。在實際應用中, 性能表現優秀的神經網絡通常具有大規模的特點。因此,盡管每個 ReLU 節點的線性區域可以劃分為 兩個線性約束并有效地進行驗證,但是由于線性片 段的總數與網絡中節點的數量成指數增長[17,18],對 整個網絡進行精確驗證是非常困難的。這是因為對 于任何大型網絡,其所有組合的詳盡枚舉極其昂 貴,很難準確估計輸出范圍。此外,基于可滿足性 模理論的方法嚴重受到求解器效率的限制,僅能處 理非常小的網絡(例如,只有 10 到 20 個隱藏節點 的單個隱藏層[20]),無法擴展到大多數現實世界中 的大型網絡,而基于采樣的推理技術(例如黑盒蒙 特卡洛采樣)也需要大量數據才能在決策邊界上生 成嚴格的準確邊界[19]。
總之,由于不同學者所處的研究領域不同,解 決問題的角度不同,所提出的魯棒性分析方法也各 有側重,因此亟需對現有的研究工作進行系統的整 理和科學的歸納、總結、分析。典型的模型魯棒性 分析方法總結如表 1 所示。目前的模型魯棒性分析 方法主要分為兩大類:(1)精確方法:可以證明精 確的魯棒性邊界,但計算復雜度高,在最壞情況下 計算復雜度相對于網絡規模是成指數增長的,因此 通常只適用于極小規模的神經網絡;(2)近似方法:效率高、能夠擴展到復雜神經網絡,但只能證明近似的魯棒性邊界。
精確方法
精確方法主要是基于離散優化 (DiscreteOptimization)理論來形式化驗證神經網 絡中某些屬性對于任何可能的輸入的可行性,即利 用可滿足性模理論(Satisfiability Modulo Theories, SMT)或混合整數線性規劃(Mixed Integer Linear Programming, MILP)來解決此類形式驗證問題。這 類方法通常是通過利用 ReLU 的分段線性特性并在 搜索可行解時嘗試逐漸滿足它們施加的約束來實 現的。圖 2 梳理了典型模型魯棒性精確分析方法的 相關研究工作。
近似方法
由于在??? ? ????????假設空間內,對于激活函數為 ReLU 的神經網絡,計算其精確的魯棒性邊界是一 個 NP 完備(NP-Complete,NPC)問題[15],因此大 多數研究者通常利用近似方法計算模型魯棒性邊 界的下界,下文提到模型魯棒性邊界時通常也指的 是這個下界。此外,對抗攻擊[12]可以得到模型魯棒 性邊界的上界[24]。因此,精確的模型魯棒性邊界可 以由上界和下界共同逼近。這類方法通常基于魯棒 優化思想,通過解決公式(1)的內層最大化問題 來估計模型魯棒性邊界:
其中,??代表正常樣本,?? 代表對抗樣本,???? (??)代 表對抗樣本可能存在的范圍,??代表樣本真實標簽, ????代表以θ為參數的模型,??代表損失函數。圖 3 梳 理了典型模型魯棒性近似分析方法的相關研究工 作。
未來研究方向
本文介紹了模型魯棒性分析問題的背景與挑戰,探討了相關定義,進而對目前主流的模型魯棒性方法與性能做了介紹。從目前已有的相關方法來 看,我們認為今后對模型魯棒性分析方法的研究, 將主要圍繞以下幾個方向展開:
(1)進一步拓展對抗擾動的類型。從攻擊者 添加擾動的類型來看,現存的大多數模型魯棒性方 法都是針對在像素點上添加擾動的對抗攻擊進行 的魯棒性分析,然而在實際中,對抗性圖像有可能 經過旋轉、縮放等幾何變換,而現存大多數方法無 法擴展到此類變換。雖然 Balunovic 等人提出的 DeepG[102]初步嘗試了將抽象解釋的思想用于分析 幾何變換對抗攻擊的模型魯棒性空間,但是這個方 向仍然值得更多深入研究,進一步提升精度和可擴展性。
(2)不同魯棒性類型之間的平衡。輸入樣本?? 的局部魯棒性(即神經網絡應為以??為中心的半徑 為?的球中的所有輸入產生相同的預測結果)依賴 于在輸入空間上定義的合適的距離度量標準,在實 際中,對于在非惡意環境中運行的神經網絡而言, 這可能是太過苛刻的要求。同時,由于僅針對特定 輸入定義了局部魯棒性,而對于未考慮的輸入不提 供保證,因此局部魯棒性也具有固有的限制性。全 局魯棒性則通過進一步要求輸入空間中的所有輸 入都滿足局部魯棒性來解決這個問題。除了在計算 上難以控制之外,全局魯棒性仍然太強而無法實際 使用。因此,在實際中如何更好地平衡局部魯棒性 與全局魯棒性,仍然是一個亟待解決的挑戰。
(3)進一步提升模型魯棒性驗證方法。從實 證結果來看,大多數基于經驗的防御方法非常容易 被更強的攻擊所攻破,而其他魯棒性分析方法在很 大程度上取決于神經網絡模型的體系結構,例如激 活函數的種類或殘差連接的存在。相比之下,隨機 平滑不對神經網絡的體系結構做任何假設,而僅依 靠在噪聲假設下傳統模型進行良好決策的能力,從 而將魯棒分類問題擴展為經典監督學習問題,可用 于社區檢測[103]等任務。因此,基于隨機平滑的魯 棒性分析方法可能是研究模型魯棒空間的最有前 途的方向之一。此外,由于基于概率的方法具有更 寬松的魯棒性定義,更有可能被實用的神經網絡所 滿足和驗證,因此在合適的擾動分布假設下也是較 有前景的方向之一。
(4)研究可證明魯棒模型訓練方法。此外, 如何訓練對對抗性擾動具有可證明魯棒的神經網 絡以及如何訓練更容易驗證魯棒性的神經網絡,也 是未來的研究方向之一。目前研究者在這個方向進 行的初步探索包括利用正則化技術將模型的形式 化魯棒邊界與模型的目標函數結合起來[104]、經驗 性對抗風險最小化(Empirical Adversarial Risk Minimization,EARM)[36,105]、隨機自集成[106]、剪 枝[82,107]以及改善神經網絡的稀疏性[108]。但是現存 技術主要集中于圖像領域,難以擴展到惡意軟件等 安全攸關型應用,并且仍然存在精度以及可擴展性 上的不足,需要進一步的深入研究。
摘要: 編碼計算將編碼理論融于分布式計算中,利用靈活多樣的編碼方式降低數據洗牌造成的高通信負載,緩解掉隊節點導致的計算延遲,有效提升分布式計算系統的整體性能,并通過糾錯機制和數據掩藏等技術為分布式計算系統提供安全保障.鑒于其在通信、存儲和計算復雜度等方面的優勢,受到學術界的廣泛關注,成為分布式計算領域的熱門方向.對此,首先介紹編碼計算的研究背景,明確編碼計算的內涵與定義;隨后對現有編碼計算方案進行評述,從核心挑戰入手,分別對面向通信瓶頸,計算延遲和安全隱私的編碼計算方案展開介紹、總結和對比分析;最后指出未來可能的研究方向和技術挑戰,為相關領域的研究提供有價值的參考.
數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。