強化學習作為機器學習的一種范式,因其強大的策略試錯學習能力,受到關注 .隨著深度學習的融入,強 化學習方法在許多復雜的控制任務中取得了巨大成功.然而,深度強化學習網絡作為黑盒模型,其缺乏可解釋性所 帶來的不安全、不可控及難理解等問題限制了強化學習在諸如自動駕駛、智慧醫療等關鍵領域中的發展.為了解決 這一問題,科研人員開展了對強化學習可解釋性的研究 .然而,這些研究開展相對較晚,且缺少針對多智能體強化 學習可解釋性方法的系統性總結,同時,可解釋性的定義存在人為主觀性,導致系統性面向強化學習過程的可解釋 性研究較為困難.本文對當前強化學習的可解釋性研究工作進行了全面的整理與總結.首先,對強化學習的可解釋 性進行定義并總結了相關評估方法.隨后,基于馬爾可夫決策過程,劃分了行為級解釋、特征級解釋、獎勵級解釋及 策略級解釋四個類別 .此外,在每個類別中,分析了單智能體及多智能體的策略解釋方法,并特別關注可解釋性研 究中的人為因素,描述了人機交互式的解釋方法.最后,對當前強化學習可解釋性研究面臨的挑戰以及未來的研究 方向進行總結與展望.
強化學習 (Reinforcement learning, RL) 通過智能體與環境在線交互來學習最優策略, 近年來已成為解決復雜環 境下感知決策問題的重要手段. 然而, 在線收集數據的方式可能會引發安全、時間或成本等問題, 極大限制了強化學習在實 際中的應用. 與此同時, 原始數據的維度高且結構復雜, 解決復雜高維數據輸入問題也是強化學習面臨的一大挑戰. 幸運的 是, 基于表征學習的離線強化學習能夠僅從歷史經驗數據中學習策略, 而無需與環境產生交互. 它利用表征學習技術將離線 數據集中的特征表示為低維向量, 然后利用這些向量來訓練離線強化學習模型. 這種數據驅動的方式為實現通用人工智能 提供了新契機. 為此, 對近期基于表征學習的離線強化學習方法進行全面綜述. 首先給出離線強化學習的形式化描述, 然后 從方法、基準數據集、離線策略評估與超參數選擇 3 個層面對現有技術進行歸納整理, 進一步介紹離線強化學習在工業、推 薦系統、智能駕駛等領域中的研究動態. 最后, 對全文進行總結, 并探討基于表征學習的離線強化學習未來所面臨的關鍵挑 戰與發展趨勢, 以期為后續的研究提供有益參考.
借助人工神經網絡(Artificial Neural Network, ANN),深度強化學習在游戲、機器人等復雜控制任務中 取得了巨大的成功.然而,在認知能力與計算效率等方面,深度強化學習與大腦中的獎勵學習機制相比仍存在著巨 大的差距.受大腦中基于脈沖的通信方式啟發,脈沖神經網絡(Spiking Neural Network, SNN)使用擬合生物神經 元機制的脈沖神經元模型進行計算,具有處理復雜時序數據的能力、極低的能耗以及較強的魯棒性,并展現出了持 續學習的潛力.在神經形態工程以及類腦計算領域中,SNN受到了廣泛的關注,被譽為是新一代的神經網絡.通過 將SNN與強化學習相結合,脈沖強化學習算法被認為是發展人工大腦的一個可行途徑,并能夠有效解釋生物大腦 中的發現.作為神經科學與人工智能的交叉學科,脈沖強化學習算法涵蓋了一大批杰出的研究工作.根據對不同領 域的側重,這些研究工作主要可以分為兩大類:一類是以更好地理解大腦中的獎勵學習機制為目的,用于解釋動物 實驗中的發現,并對大腦學習進行仿真,例如R-STDP學習規則;另一類則是以實際控制任務中的性能、功耗等具 體指標為導向,用作人工智能的一種魯棒且低能耗的解決方案,在機器人、自主控制等領域具有巨大的應用潛力 . 本文首先介紹了脈沖強化學習算法的基礎(即脈沖神經網絡以及強化學習),然后對當前這兩大類脈沖強化學習算 法的研究特點與研究進展等進行分析 .對于第一類算法,本文重點分析了利用三因素學習規則實現的強化學習算 法,并回顧了其生理學背景以及具體實現方式 . 根據在訓練過程中是否使用 ANN,本文將第二類算法分為依托 ANN實現的脈沖強化學習算法與基于脈沖的直接強化學習算法,并率先對這一脈沖強化學習算法的最新進展進行 了系統性的梳理與分析,同時全面展示了在深度強化學習算法中應用SNN的不同方式.最后,本文對該領域的研究 挑戰以及后續研究方向進行了深入地探討,總結了當前研究的優勢與不足,并對其未來對神經科學以及人工智能領 域可能產生的影響進行展望,以吸引更多研究人士參與這個新興方向的交流與合作.
神經科學在人工智能(Artificial Intelligence, AI)發展史上扮演了重要的角色,許多經典神經網 絡結構的出發點都是為了理解大腦的工作機制[1-3] . 此外,神經科學不僅可以為已存在的AI技術提供生 物學解釋[4-7] ,還可以為構建人工大腦時所需的新算 法與新架構提供豐富的靈感來源[8-10] . 近些年來,隨 著計算機算力的增強以及大數據的積累,以深度學 習[11] 為代表的人工智能領域得到了蓬勃的發展. 然 而,現有的計算系統執行相同的任務所需要的能耗 往往要比人腦高出至少一個數量級[12] . 因此,AI 研 究人員將目光轉回大腦,對神經元之間脈沖驅動的通信方式產生了極大的興趣 . 在人腦的指引下,通 過脈沖驅動通信實現的神經元-突觸硬件計算系統 有望解決當前深度學習算法面臨的高能耗問題[13] . 這種神經形態計算技術[14] 始于 20 世紀 80 年代,并 在21世紀初期促成了大規模神經形態芯片的出現, 例如IBM的TrueNorth芯片[15] 、Intel的Loihi芯片[16] 以及英國曼徹斯特大學的 SpiNNaker 芯片[17] . 通過 采用存算一體的架構,神經形態芯片解決了傳統 馮·諾依曼計算架構中處理單元與存儲單元物理分 離(存算分離)的固有缺陷,從而減輕“內存墻瓶頸” 對計算吞吐量和能源效率的影響,將硬件功耗降低 到毫瓦級[13] .
在硬件不斷發展的同時,相關的算法也在不斷 協同演化. 通過將生物神經元之間通信的稀疏脈沖 信號和事件驅動的性質抽象為神經單元,生物學合 理的脈沖神經元模型[18] 被應用到神經網絡之中,由 此誕生了脈沖神經網絡(Spiking Neural Network, SNN). SNN 是為了彌合神經科學與機器學習之間 的差異而設計的新一代神經網絡[19] ,被認為是人工 智能硬件實現的一種極具前景的解決方案[13] . SNN 與目前流行的神經網絡和機器學習方法有著根本上 的不同,即其使用脈沖,而非常見的浮點值進行學 習 . 脈沖是一種發生在時間點上的離散事件,一般 可以由0和1進行表示,與生物神經元中的動作電位 (Action Potential)相對應 . 通常來說,SNN 的輸入 和輸出均為脈沖序列,神經元之間通過突觸進行連 接 . 理論分析表明,SNN 在計算性能上與常規神經 元模型相當[19] . 由于其處理復雜時序數據的能力、 極低的能耗[13] 以及深厚的生理學基礎[20] ,SNN受到 了廣大學者的關注,在圖像分類[21-23] 、目標識別[24-25] 、 語音識別[26-27] 以及其他領域[28-30] 上取得了飛速的發 展,展現出了極強的上升勢頭 . 最近的研究表明, SNN 在許多領域接近或達到了與經典人工神經網 絡(Artificial Neural Network, ANN)相 當 的 性 能[21,27] . 相比 ANN,SNN 還表現出了較強的魯棒 性 . 首先,脈沖神經元動態中的隨機性可以提高網 絡對外部噪聲的魯棒性[31] . 其次,近期有研究表明 脈沖神經元的發放機制使得 SNN 之于對抗攻擊存 在內在的魯棒性[32] . 此外,生物體的一生都在從與 環境之間的交互中學習,而人工系統若要在現實世 界中行動和適應,同樣需要能夠實現持續學習 (Continual Learning)[33] . 為了解決這一難題,許多生 物學啟發的模型以及機制被應用到人工系統中,并 取得了不錯的效果[34] . 由于額外的時間維度,SNN 被認為具有實現持續學習的潛力[35-36] .
盡管深度學習在很多領域都取得了突破性的成 就,達到甚至超過了人類水平,為 SNN 設下了很高 的競爭門檻 . 研究表明,相比于目前已經較為成熟 的計算機視覺任務,SNN 能夠在機器人、自主控制 等領域取得優于深度學習的表現[13,37] . 在這些領域 中,傳統深度學習算法需要的大量計算資源在處理 實際問題時往往難以滿足,而借助專用的神經形態 硬件,SNN 能夠極大地降低任務所需的能耗,這與 移動設備上有限的主板能量資源之間具有天然適 配性.
強化學習(Reinforcement Learning, RL)作為 AI研究的一個重要分支,用于解決在智能體與環境 交互過程中的序列決策問題,通過學習策略以實現 期望未來獎勵最大化,并且已經在廣泛的控制任務 上證明了其有效性[10,38-40]. 因此,通過將SNN與強化 學習相結合,脈沖強化學習算法[41-43] 為連續控制任 務提供了一種低能耗的解決方案,已經被廣泛應用 在車輛、機器人等移動設備的控制任務中[29,44] ,受到 了 不 少 學 者 的 關 注 . 同 時,借 助 神 經 形 態 傳 感 器[45-46] ,脈沖強化學習算法能夠充分利用多模態的 脈沖序列數據,令智能體像人腦一樣進行感知與決 策,為仿生機器人的研究提供了一個可行的解決方 案[44] . 更令人驚喜的是,脈沖強化學習算法能夠有 效解決強化學習中的魯棒性問題[43,47] ,這是決定策 略是否實用的關鍵因素.
此外,強化學習在誕生初期就與動物學習中心 理學中的試錯法以及神經科學中大腦的獎勵學習機 制密切相關,其中最顯著的聯系就是時序差分 (Temporal Difference, TD)誤差與多巴胺之間的相 似關系,這被歸納為多巴胺的獎勵預測誤差假說[48] . 多巴胺的獎勵預測誤差假說認為,多巴胺的功能之 一就是將未來期望獎勵的新舊估計值之間的誤差傳 遞給大腦中的所有目標區域. 這一假說利用強化學 習中的 TD 誤差概念,成功解釋了哺乳動物中多巴 胺神經元的相位活動特征 . 在計算神經科學領域 里,大量的研究工作利用強化學習算法對大腦的獎 勵學習機制進行建模[49-51] ,這些都屬于脈沖強化學 習算法的研究范疇. 綜上所述,脈沖強化學習算法不僅是脈沖神經 網絡與強化學習算法的有機結合,還是連通神經科 學與AI兩個領域的橋梁. 根據時間順序,脈沖強化 學習算法的發展歷程可以被分為三個時期:SNN與 強化學習的基礎研究時期、基于突觸可塑性的脈沖強化學習算法時期以及深度強化學習算法與SNN的 結合時期,如圖1所示. 在基礎研究時期,圖1列舉了 SNN與強化學習各自的一些早期代表性工作,這些 工作為后續脈沖強化學習算法的誕生與發展奠定了 基礎. 以深度學習的興起為時間節點,脈沖強化學習 算法有著明顯的不同. 早期的算法注重突觸可塑性 與強化學習理論的結合,而后期的算法側重于將 SNN應用到深度強化學習算法中. 由此,圖1進一步 地劃分出了兩個時期,分別列舉了脈沖強化學習算 法在早期與晚期的代表性工作. 盡管近些年也出現 了一些優秀的突觸可塑性算法(例如e-prop[52] ),但這 已經不是計算機科學領域的主流,所以未被列入圖1 中. 由于圖的大小有限,部分SNN與強化學習的經 典工作并未在圖中展現,這將在本文的后續章節中 進行更為系統的梳理 . 此外,出于美觀考慮,圖 1根 據事件線分為上下兩側,不存在事件類型的區別.
關于相關工作在脈沖強化學習算法的發展歷程 中的地位以及作用,其概述如下:1949 年 Hebb[53] 提 出了突觸可塑性的經典理論,對突觸可塑性的基本 原理進行了描述 . 1972 年 Klopf [54] 提出了智能自適 應系統的新理論,其中的一系列思想促成了資格跡 (Eligibility Trace)在強化學習中的應用[48] . 1989 年 Watkins[55] 提出了Q學習,這是強化學習早期的一個 重要突破,實現了異策(Off-policy)[48] 下的時序差分 控制 . 1992 年 Williams[56] 提出了 REINFORCE 算 法,這是一個經典的策略梯度算法,動作選擇不再直 接依賴于價值函數,而是可以直接學習參數化的策 略. 1997年Markram等人[57] 提出了一個較為通用的 SNN 學習規則,即脈沖時序依賴可塑性(Spiketiming-dependent Plasticity, STDP),這是無監督學 習的重要生物學基礎 . 2000 年 Bohte 等人[58] 提出了 SpikeProp 算法,首次使用誤差反向傳播對 SNN 進 行訓練 . 2003 年 Seung[59] 基于策略梯度算法提出了 R-max學習規則. 2007年Izhikevich[60] 受到動物學實 驗的發現啟發,提出了 R-STDP 學習規則 . 2009 年 Urbanczik 和 Senn[50] 提出了利用基于群體響應的反 饋配合全局獎勵對突觸可塑性進行調節,豐富了三 因素學習規則中全局信號的選擇范圍 . 2010 年 Frémaux 等人[61] 總結了基于基線的 R-STDP 與 Rmax 學習規則,利用基線函數對原本的學習規則進 行 改 進,使 其 能 夠 同 時 學 習 多 個 任 務 . 2013 年 Frémaux 等人[51] 提出了 TD-LTP 學習規則,成功解 決了如何在非離散框架下實現強化學習以及如何在 神經元中計算獎勵預測誤差的問題 . O'Brien 和 Srinivasa[62] 提出了將多種突觸可塑性結合的學習算 法以解決同時學習多個遠端獎勵的問題 . Patal 等 人[47] 首次將 ANN-SNN 轉換應用到強化學習領域, 避免了強化學習直接訓練 SNN 的困難,并證明了 SNN 能夠提高模型對于遮擋的魯棒性 . Tang 等 人[63] 提 出 了 一 個 混 合 的 行 動 器 -評 判 器(ActorCritic)網絡,對脈沖行動器網絡與深度評判器網絡 進行聯合訓練,證明了脈沖行動器網絡可以作為原 本深度行動器網絡的一個低能耗替代方案 . Zhang 等人[64] 受到知識蒸餾[65] 啟發,提出了一種間接訓練 SNN 的方法,利用強化學習訓練得到的 ANN 教師 網絡指導 SNN 學生網絡的學習 . Liu等人[66] 提出了DSQN 算法,擺脫了原本的深度脈沖強化學習算法 在訓練過程中對ANN的依賴. 由于脈沖強化學習算法的領域交叉性,脈沖強 化學習算法的研究在脈沖神經網絡與強化學習算法 的文獻綜述中少有提及 . 例如 Taherkhani等人[67] 簡 單提及了基于獎勵的突觸可塑性學習 . Hu 等人[68] 介紹了三因素學習規則. Sutton和Barto[48] 闡述了神 經科學中大腦獎勵系統與強化學習理論之間的對應 關系,并對神經科學與強化學習如何相互影響進行 了討論 . 此外,之前關于脈沖強化學習算法的綜述 由于時間較早,其關注的都是與突觸可塑性相關的 內容 . 例如 Frémaux 和 Gerstner[69] 系統總結了利用 三因素學習規則實現的強化學習算法. Bing等人[37] 介紹了利用三因素學習規則實現的強化學習算法及 其相應的機器人應用.
本文首先介紹了SNN與強化學習的基本原理, 然后以SNN學習算法的分類為基礎,從更長的時間 線對傳統的利用三因素學習規則實現的強化學習算 法與近些年來出現的新型脈沖強化學習算法進行了 系統性回顧與綜述 . 不同于已有的綜述,本文率先 對依托 ANN 實現的脈沖強化學習算法與基于脈沖 的直接強化學習算法進行了系統梳理與全面總結, 并介紹了最新的研究挑戰與未來研究方向 . 最后, 本文對脈沖強化學習算法的優點與不足進行了總 結,并展望了其對未來人工智能和神經科學領域的 潛在影響,希望通過跨學科的交流與合作,推動該領 域的快速發展.
終身學習(LLL)作為一種新興方法打破了傳統機器學習的局限性,并賦予了模型能夠像人類一樣在學習 過程中不斷積累、優化并轉移知識的能力。近年來,隨著深度學習的廣泛應用,越來越多的研究致力于解決深度神經 網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境,并將LLL方法應用于各種各樣的實際場景中,以推進人工 智能由弱向強的發展。針對計算機視覺領域,首先,在圖像分類任務中將LLL方法歸納為四大類型:基于數據驅動的 方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法;然后,介紹了 LLL方法在其他視覺任務中 的典型應用和相關評估指標;最后,針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向。
傳統的機器學習總是被限制在一個封閉的靜態環境中, 通常被稱為孤立學習,這種學習方式不考慮任務以外的信 息,即針對一個任務,模型的訓練和推理只在符合獨立同分 布假設的數據上進行;然而這樣的學習方式是低效的,畢竟 現實場景顯然是一個開放的動態環境,人類在這種環境下會 不斷地積累知識并優化形成經驗,用于幫助解決出現的 問題[1] 。 終身學習(LifeLong Learning, LLL)范式是通過模仿人類 的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知 識的能力,例如會騎自行車的人能夠很快學會騎摩托車,在 遇到新任務或者新問題時會很快產生聯想并無縫地將這些 知識遷移,然后根據特定的問題進行特別的學習。這樣的學 習方式是高效且自然的,這也是終身學習過程中最為重要的 一環。
在計算機視覺領域,以深度學習為代表的學習框架尚未 達到終身學習范式的要求。例如要單獨訓練一個過參數化 的深度模型,就必須為每個任務收集大量的數據和進行繁瑣 的人工預處理等,這使得學習成本隨著任務量大幅增加,這 無疑是耗時且低效的方式,尤其是在一些對時間和性能有特 殊要求的應用場景下甚至是不被允許的。深度學習獨特的 訓練和推理模式使得深度學習模型還遠遠達不到人類的學 習效果,例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰:1)災難性遺忘,即網絡在學習了新的知識之后,可能會 徹底遺忘在先前任務上學到的知識[2] ;2)概念漂移,即網絡 對屬于同類但是不同分布的新數據表現效果差[3] 。因此要 求深度學習模型既要滿足一定的可塑性以適應新數據的輸 入,又要具備一定的穩定性以避免在整合新知識的同時產生 大量的遺忘,即擺脫穩定性-可塑性困境[4] 。 此外,一個簡單的思路是融合所有的數據訓練一個大規 模模型,即聯合訓練或者多任務學習,但這并不在本文定義 的終身學習范式內;因為把時間線拉長,無休止地存儲所有 數據必然無法實現,所以需要對它進行一定程度的限制,其 次每當接受新任務時就要重新訓練所有的數據也不符合人 類的學習方式。針對深度學習的框架,直觀上聯合訓練或許 是終身學習方法的一個上界,因為深度學習是一個優化問 題,聯合訓練更有可能找到所有任務的全局最優解。 為滿足對模型存儲上的限制要求,大量的研究者從深度 學習的框架入手,從多個角度探索終身學習的解決方式,并 在多個應用方向展現了它的可行性。本文調研并跟蹤了近 年來的終身學習相關文獻,相較于文獻[5-6],本文增加了評 估終身學習模型性能的相關指標,不僅考慮了模型在終身學 習過程中識別的能力,同時考慮了存儲即資源利用的能力; 相較于文獻[7-8],本文不僅在圖像分類中詳細調研了終身 學習的相關應用,還介紹了終身學習在其他計算機視覺如目 標檢測等中的應用。終身學習不僅要解決實際應用環境中 的成本問題,更有可能是現階段弱人工智能邁向未來強人工 智能的重要一步。
1 終身學習的定義
終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1,T2,?,TN,其中每個任務都 有對應的數據集 D1,D2,?,DN,任務之間沒有嚴格的約束并 且此時模型積累了源自這 N 個任務的知識并存儲于知識庫 中。當面對新的任務 TN + 1 及其數據 DN + 1 時,Mt 可以利用知 識庫中積累的先驗知識幫助學習 TN + 1,并且在學習 TN + 1 后, Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供 未來繼續使用,同時 Mt + 1 能最大限度地保留在先前 N 個任 務上的性能。由此可見,終身學習的關鍵是持續地學習和不 斷積累知識,即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲 新知識演化為 Mt + 1。在這個定義下,還額外需增加一個存儲 限制,即知識庫不能保留所有的訓練數據,否則將會與多任 務學習無異,違背終身學習的初衷。
2 終身學習方法的分類
計算機視覺作為深度學習最為成功的應用,框架一般可 以拆解為輸入、優化和結構這 3 個部分,用于積累和再應用 的知識就可以以這 3 個部分作為切入點,同時也可以組合使 用它們。本文將從知識的角度對終身學習方法進行分類與 歸納,如表 1所示。
3 終身學習的其他應用
終身學習不僅在解決基礎問題中開闊了研究空間,也逐 漸 助 力 于 目 標 檢 測(Object Detection)[77-81] 、語 義 分 割 (Semantic Segmentation)[77-81] 、圖像生成[90-95] 和其他[96-102] 等各 類計算機視覺的研究方向。
4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方 法,介紹了在其他計算機視覺任務上的成功應用,最后簡要 探討了在未來可以進一步推動終身學習發展的方向。終身 學習給予了模型在動態環境中更多更強大的學習能力,雖然 目前仍處于起步階段,但不可置疑這是人工智能發展的重要 一環,無論是理論上的研究,還是工業界的落地都具有非常 大的意義。
深度學習模型通常限定在固定數據集中進行訓練,訓練完成之后模型無法隨著時間而擴展其行為. 將已訓練好的模型在新數據上訓練會出現災難性遺忘現象. 持續學習是一種能夠緩解深度學習模型災難性遺 忘的機器學習方法,它旨在不斷擴展模型的適應能力,讓模型能夠在不同時刻學習不同任務的知識. 目前,持 續學習算法主要分為 4 大方面,分別是正則化方法、記憶回放方法、參數孤立方法和綜合方法. 對這 4 大方面 方法的研究進展進行了系統總結與分析,梳理了衡量持續學習算法性能的評估方法,討論了持續學習的新興 研究趨勢. //www.yndxxb.ynu.edu.cn/yndxxbzrkxb/article/doi/10.7540/j.ynu.20220312?viewType=HTML 得益于更大的數據集、更強的計算能力以及 網絡結構創新,深度學習在圖像分類[1]、人臉識別[2] 等任務上已經實現了接近人類甚至超越人類的性 能. 然而大多數神經網絡只能在預先知道所有類的 批量學習設定下進行訓練直至擬合,當有新數據出 現時,必須使用全部數據重新訓練模型,以適應數 據分布變化[3] . 隨著移動設備和互聯網的飛速發展, 人們每天都會拍攝和分享大量圖片和視頻. 而從零 開始重新訓練模型是耗時且低效的,這就要求模型 擁有以序列方式進行持續學習和更新的能力,以適 應每天新產生的數據. 神經網絡從原來的批量學習模式轉變為序列 學習模式時,很容易出現對舊知識的遺忘,這意味 著,在使用新數據更新模型后,模型在先前學習的 任務中所達到的性能會急劇下降[4],出現災難性遺 忘. 早在 30 多年前,人們就在多層感知器中發現了 災難性遺忘現象[5],產生災難性遺忘的根本原因是 新任務訓練過程需要改變神經網絡權值,這不可避 免地修改了某些對于舊任務來說至關重要的權重, 使得模型不再適用于舊任務. 與此相反,人類可以 不斷學習和適應新知識,并且在自身積累新知識的 同時,也會對原有知識進行了補充和修正,學習新 知識很少會導致人類災難性地忘記之前的知識[6] . 如自然視覺系統,先前的知識得到了保留的同時, 新的視覺信息被不斷地整合到已有知識中. 為了克服災難性遺忘,學習系統一方面要在新 任務上表現出獲取新知識和提煉現有知識的能力, 另一方面要防止新任務對現有知識的顯著干擾. 持 續學習,也稱為終身學習,它建立在不斷學習外部 世界的想法之上,神經網絡通過持續學習算法能夠 漸進地學習新知識,并且保留過去學習的內容. 近 年來,如圖 1 所示,持續學習在計算機視覺領域獲 得了蓬勃發展,同時各單位也如火如荼開展著持續 學習的相關比賽[7] . 鑒于持續學習深刻的應用場景 和該領域飛速的發展,本文對持續學習的研究工作 進行綜述,從而幫助讀者掌握持續學習研究的最新 趨勢.
強化學習 (reinforcement learning, RL) 技術經歷了數十年的發展, 已經被成功地應用于連續決 策的環境中. 如今強化學習技術受到越來越多的關注, 甚至被冠以最接近通用人工智能的方法之一. 但 是, 客觀環境中往往不僅包含一個決策智能體. 因此, 我們更傾向于以多智能體強化學習 (multi-agent reinforcement learning, MARL) 為技術手段, 應對現實的復雜系統.** 近十年來, 多智能體系統 (multiagent system, MAS) 和強化學習的結合日漸緊密, 逐漸形成并豐富了多智能體強化學習這個研究方向. 回顧 MARL 的相關工作, 我們發現研究者們大致從學習框架的討論、聯合動作學習, 以及基于通信的 MARL 這 3 個角度解決 MARL 的問題**. 而本文重點調研基于通信的 MARL 的工作. 首先介紹選取基 于通信的 MARL 進行討論的原因, 然后列舉出不同性質的多智能體系統下的代表性工作. 希望本文能 夠為 MARL 的研究者提供參考, 進而提出能夠解決實際問題的 MAS 方法.
1 引言
如今, 強化學習 (reinforcement learning, RL) 作為人工智能領域中的熱門話題之一, 吸引了很多不 同專業領域學者的關注. 強化學習的本質 [1] 是讓智能體在與環境的不斷交互中, 通過嘗試和犯錯, 學 習如何在特定的時間段中作出合適的序列性決策以解決社會和工程中遇到的問題. 強化學習的發展過程有著鮮明的特征. 在 20 世紀 50 ~ 60 年代以前, 關于 RL 的探索都局限于 反復的試錯. 而后, 貝爾曼提出貝爾曼方程 (Bellman equation) 以及離散的動態系統中的最優控制理 論并且將其建模為馬爾可夫決策過程 (Markov decision process, MDP). 然而最優控制的潛在前提是我 們知道系統相關的所有特性, 實際上這個前提往往是無法滿足的. 這一點恰恰是強化學習的獨特研究 背景之一. 在 20 世紀 60 年代, “Reinforcement Learning” 第一次出現在了工程領域的試錯方法總結 中. 其中影響最深遠的就是 Minsky 的工作 [2], 其中提到了試錯和信任分配 (credit assignment) 的問題, 這些都是強化學習的起源. 此后研究者們從未知環境中試錯的出發點提出了基于時序差分的方法 (temporal differences, TD) [3]、Q- 學習 [4] 和 SARSA [5] . 當時的 RL 技術還處于比較樸素的階段, 主要針對的是規模較小的離散狀態離散動作的場景. 當 狀態或者動作空間連續時, 便無法得到準確的值函數. 這時就需要對值函數進行近似, 從而產生了基 于值函數 (value based) 的強化學習方法. 此外, 如果直接對策略進行近似, 學習的目標就可以直接定 義為最優策略搜索 (policy search) 的性能. 如果在策略近似的同時還引入了值函數的近似, 并且策略 是基于值函數的評價而更新的, 這類方法屬于策略近似的一種特殊形式, 稱為 Actor-Critic 方法, 其中 的 Actor 指的是策略, Critic 指的是值函數. 自從 2015 年, Mnih 等 [6] 在 Atari 環境中利用深度 Q- 學習取得了突破性進展之后, 深度強化學 習 (deep reinforcement learning, DRL) 便開始在機器學習、人工智能領域掀起了一陣熱潮. 研究者們 不斷發現 DRL 的巨大潛力, 不論是機器人控制 [7]、優化與調度 [8] , 或者是游戲和博弈 [6, 9] 等方面都 能夠借助于 DRL 來解決. 而當 DRL 在解決現實問題的時候, 研究者們往往高估了它的能力, 低估了 實現它的難度 [10] . 事實上, 現實世界中的問題是十分復雜的. 本文總結, 現實世界的復雜性很大程度上體現在: 多 數任務所涉及的系統規模較為龐大, 并且根據一些規則或者常識可以分解為多個完成不同子任務的個 體. 為了完成某個任務, 系統需要多個智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但 從任務層面來看, 這些智能體需要互相配合并且子決策的結果會互相影響. 這樣的系統可以被稱為多 智能體系統 (multi-agent system, MAS). 在多智能體系統中, 各個智能體需要在環境不完全可知的情 況下互相關聯進而完成任務. 簡而言之, 它們可以互相協同, 或者互相競爭, 也可以有競爭有合作. 如 果將強化學習技術用于上述場景中, 相異于傳統強化學習場景的是, 在這種系統中, (1) 至少有兩個智 能體; (2) 智能體之間存在著一定的關系, 如合作關系、競爭關系, 或者同時存在競爭與合作的關系; (3) 每個智能體最終所獲得的獎賞會受到其余智能體的影響. 通常, 我們將這種場景下的強化學習技術稱 為多智能體強化學習 (multi-agent RL, MARL). MARL 場景中的環境是復雜的、動態的. 這些特性給 學習過程帶來很大的困難, 例如, 隨著智能體數量的增長, 聯合狀態及動作空間的規模會呈現出指數擴 大, 帶來較大的計算開銷; 多個智能體是同時學習的, 當某個智能體的策略改變時, 其余智能體的最優 策略也可能會變化, 這將對算法的收斂性和穩定性帶來不利的影響。
針對上述 MARL 的困難, 研究者們提出智能體可以在動態的環境中借助于一些輔助信息彌補其 不可見的信息, 從而高效學得各自的策略. 為了達到這個目的, 研究者們提出了一些方法, 可以大致被 分為以下幾類: (1) 學習框架的討論, 這類工作意在探索一種可行的學習框架, 因此這類工作更多地 偏向于將已有的機器學習 (machine learning, ML) 研究背景或者 RL 技術向 MAS 的場景中作融合; (2) 聯合動作學習, 這類方法基于單智能體的視角, 即將多個智能體合并為一個整體, 而原本各個智能 體的動作則被視為系統 “子部件” 的動作, 但是這類方法在狀態動作空間維數較高時會面臨學習效率 不高的問題; (3) 智能體之間的通信, 即智能體通過發送和接收抽象的通信信息來分析環境中其他智能 體的情況從而協調各自的策略. 學習框架和聯合的多動作學習算法主要依賴于集中式的訓練學習或者 直接共享某些局部信息等條件. 不難發現, 更容易適應于現實系統的是基于通信的這類方法: 集中各 個智能體, 并使各個智能體分享的局部信息的訓練模式在實際應用中很難滿足. 因此, 我們希望智能 體之間可以不依賴于集中式的訓練學習方式, 依舊能夠在不完全可知的環境中分析感知其他智能體的 信息, 從而完成任務. 所以, 通過通信信息來補充環境的缺失信息的這種思路更容易被泛化. 近期, 更 為迫切的實際需求是參與任務的多個智能體不愿意進行諸如策略參數等信息的共享. 這就是聯邦學習 (federated learning, FL) 的要求. 在這種情況下, 算法更需要保證智能體之間只有有限的抽象信息用來傳輸, 從而滿足各個智能體對于隱私的需求。
在多智能體系統中, 如果對智能體的保護程度較高, 即智能體不會直接分享重要的內部信息, 智能 體則需要一些輔助的信息來補充這一部分缺失的不可觀測狀態. 最直觀的做法就是互相傳遞有意義的 通信信息, 這種信息可以在一定程度上幫助智能體對環境進行理解. 但是, 在滿足嚴格的互相不可見, 且有限信息共享的要求的前提下, 智能體之間要做到完全的獨立學習與通信是十分困難的事情. 即便 是在基于通信的 MARL 的工作中, 也有很大一部分工作依賴于集中式的訓練學習或者依賴于智能體 之間重要信息的共享 (例如智能體的動作). 而這樣的學習方式有悖于實際的需求. 因此, 智能體需要 能夠自主地在更新策略的同時自行調整通信信息, 從而做到完全的不依賴于集中式的或基于局部信息 共享的學習. 本文重點回顧基于通信的 MARL 的工作. 我們總結了基于通信的 MARL 的發展歷程, 以及不同 性質的多智能體系統場景下的代表性工作, 進一步給出不同工作的分析以及適用條件. 最后, 我們總結 并展望未來可能進行的探索方向. 我們由衷希望本文能夠為對研究 MARL 的讀者提供幫助.
2 單智能體強化學習
本節主要介紹單智能體 DRL 的基礎知識. 首先, 回顧傳統的強化學習, 即單智能體 (single-agent RL, SARL) 的相關概念, 然后, 介紹深度強化學習的興起、前沿的算法和現存的問題以及挑戰. 方便后 續章節為大家引入多智能體 RL 的問題設定、前沿研究的大致分類和框架.
3 多智能體強化學習
MARL DRL 面對的問題的復雜性很大程度上體現在: 多數任務所涉及的系統結構較為繁雜, 往往根據一 些規則或者常識可以分解為多個完成不同子任務的個體. 也就是說, 為了完成某個任務, 系統需要多個 智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但從任務層面來看, 它們需要互相配合并 且這些智能體各自的子決策結果會互相影響. 在這樣的多智能體系統中, 各個智能體需要在環境不完全可知的情況下互相關聯, 進而完成任務. 它們需要互相配合. “配合” 沒有限定一定要合作, 可以互相競爭也可以有競爭有合作, 依據任務本身 來定. 對于 MAS 的場景, 同樣需要對這類問題進行建模然后探索解決問題的方法.
4 基于通信的多智能體強化學習
在實際系統中, 參與任務的各個智能體往往會考慮安全或者隱私, 不希望過多地依賴于直接共享 各自領域的局部信息來完成任務. 這些關鍵的局部信息可能包括: 各個智能體的動作, 或者直接共享 同樣的策略網絡結構, 甚至是集中起來共享經驗池以更新各個智能體的策略, 也就是中心化的學習 (centralized learning) 的概念. 下面我們簡要地將現有的基于通信的 MARL 或者 MADRL 算法歸類, 然后列舉現在每一類的研究進展. 依據算法利用的 DRL 技術, 現有的基于通信的多智能體深度強化 學習算法 (communication-based multi-agent deep reinforcement learning, CB-MADRL) 大致可以分為 以下幾類: (1) 基于值函數的 CB-MADRL. 這種方法依靠對值函數 (以 Q- 值函數為主) 進行重構使之適用 于 MA 系統, 這部分工作在表 1 中總結. (2) 包含直接策略搜索的 CB-MADRL. 由于表現不夠穩定, 單純使用直接策略搜索作 MAS 決策 的工作十分少見. 現在大多學者都傾向于選擇基于 Actor-Critic 框架作 CB-MADRL 的研究, Actor 是 各個智能體的局部子策略, 通信的過程和效果主要依靠 Critic 來判定, 這部分算法在表 2 中總結. (3) 提升通信效率的突破. 我們發現在以上兩類方法逐漸發展的過程中, 學者們對這些算法也嘗 試了改進, 意在提升通信的效率進而提升算法的學習性能, 相關工作總結于表 3. (4) 關于應急通信的研究. 如今研究領域間的交叉已經極為常見, 很多語言研究領域的研究者們開 始嘗試從通信語言如何產生, 以及通信信息的質量度量等方向進行研究, 從而豐富了多智能體通信的 研究方向, 相關工作總結于表 4. 如果要求智能體通過通信的方式彼此協同完成一項任務, 智能體就需要通過將自己的信息, 例如 狀態和動作等, 編碼成一條有限長的信息, 傳遞給其余智能體, 同時也接受來自其余智能體的信息. 其 目的就是希望智能體能夠將收到的信息作為觀測的補充, 盡可能地還原不可見狀態的信息, 進而得到 近似全局狀態下的最優動作. 上述過程中, 通信的問題主要集中在如何傳遞高質量的通信信息, 具體來 說主要考慮: 通信信息需要包含哪些內容, 以及如何及時地更新通信信息. 在接下來的幾個小節中, 我們將主要從以上兩點為大家介紹并分析現有算法的特性.
5 歸納與展望
通過前面的回顧不難發現, 隨著 DRL 技術的發展, MAS 場景的問題越來越多地可以利用 DRL技術的遷移得到解決. 并且在各種 MAS 環境中都得到了測試, 甚至在星際這樣的游戲上也取得了勝 利. MADRL 的技術和突破是值得肯定的, 并且 MADRL 大背景下的現有工作已經有學者進行了總 結[62] . 我們更加希望各個智能體通過互相必要的溝通, 就能在不完全可知的環境中分析感知環境中其 他智能體的信息, 從而完成既定的任務. 本節主要對現存的 CB-MADRL 算法進行歸納, 然后進一步探 討未來可能需要解決的問題和工作方向.
6 結束語
多智能體強化學習的發展離不開深度強化學習的突破性進展. 而從多智能體強化學習這個層面來 說, 在看到已有的成績的同時, 提高學習效率、提高魯棒性和泛化性的困難依舊存在. 這種困難是多智 能體系統本身固有的性質, 例如環境的非穩定性、獎賞的延遲性和稀疏性、獎賞分配的困難性等. 盡 管這些困難依舊是牽制這個領域發展的因素, 但多智能體強化學習服務于現實系統解決現實問題是學 界的目標. 選擇基于通信的多智能體強化學習算法進行介紹的主要原因是通信本身更迎合實際的應用場景 的需求. 通信信息能夠很自然地使得智能體擺脫中心化的學習的框架. 智能體之間的有效的信息傳遞 不是簡單的私密的信息共享, 而是智能體在不斷地跟環境交互中所給出的有意義的反饋. 這種反饋通 常是抽象的, 是需要協同的智能體互相理解的. 通過對現有的基于通信的多智能體深度強化學習算法的分析, 不難發現能用于現實多智能體系統 中的基于通信的多智能體強化學習算法需要盡可能擺脫其對信息共享的依賴, 也就是盡可能保證較少 的信息共享, 做到完全基于通信. 完全基于通信的隱含意義是智能體在互相不可知的情況下僅僅依靠 通信信息實現缺失信息的補充, 進而擺脫過多的內部信息交流以及中心化學習的需求. 從而有如下的 結果.
? 智能體的隱私需求得到保障: 智能體可以根據自身狀態及接收的信息自行調整傳送信息. ? 算法的泛化性得到提升: 如果智能體可以僅通過通信信息互相理解進而協同完成任務, 在面對不 同任務時智能體可以根據不同的任務需求, 自適應地調整通信信息. 最后, 希望通過我們的介紹能夠對多智能體強化學習, 特別是基于通信手段的多智能體強化學習 方向有所關注的學者們提供一些幫助; 希望通過廣大學者們的努力使得多智能體強化學習技術更快更好地服務于現實世界中的系統.
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.
近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.
首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列
,預測隨后一段幀視頻序列
.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.
此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列
,以及機器人未來可能選取的動作序列
,以視頻幀
的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。
本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.
強化學習是一種從試錯過程中發現最優行為策略的技術,已經成為解決環境交互問題的通用方法.然而,作為一類機器學習算法,強化學習也面臨著機器學習領域的公共難題,即難以被人理解.缺乏可解釋性限制了強化學習在安全敏感領域中的應用,如醫療、駕駛等,并導致強化學習在環境仿真、任務泛化等問題中缺乏普遍適用的解決方案.為了克服強化學習的這一弱點,涌現了大量強化學習可解釋性(Explainable Reinforcement Learning,XRL)的研究.然而,學術界對XRL尚缺乏一致認識.因此,本文探索XRL的基礎性問題,并對現有工作進行綜述.具體而言,本文首先探討了父問題——人工智能可解釋性,對人工智能可解釋性的已有定義進行了匯總;其次,構建了一套可解釋性領域的理論體系,從而描述XRL與人工智能可解釋性的共同問題,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性;然后,根據強化學習本身的特征,定義了XRL的三個獨有問題,即環境解釋、任務解釋、策略解釋;之后,對現有方法進行了系統的歸類,并對XRL的最新進展進行綜述;最后,展望了XRL領域的潛在研究方向.
//www.jos.org.cn/jos/article/abstract/6485
人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML) 在計算機視覺[1] 、自然語言處理 [2] 、智能體策略[3] 等研究領域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問題具有良好表 現,但由于算法缺乏可解釋性,模型實際使用中常受到質疑[4] [5] ,尤其在安全敏感的應用領域,如自動駕駛、醫 療等.缺乏可解釋性的問題已經成為機器學習的瓶頸問題之一.
強化學習(Reinforcement Learning, RL)被驗證適用于復雜的環境交互類問題[6]-[8] ,如機器人控制[9] ,游 戲 AI[10] 等.但作為機器學習的一類方法,RL 同樣面臨著缺乏可解釋性的問題,主要表現在如下 4 個方面:
(1) 安全敏感領域中的應用受限.由于缺乏可解釋性,RL 策略難以保證其可靠性,存在安全隱患.這一問題 在安全敏感任務(如醫療、駕駛等)中難以被忽略.因此,為避免模型不可靠帶來的危險,RL 在安全敏感 任務中大多局限于輔助人類的決策,如機器人輔助手術[11] ,輔助駕駛[12] 等;
(2) 真實世界知識的學習困難.雖然目前 RL 應用在一些仿真環境中具有優異表現,如 OpenAI gym[13] , 但這些仿真環境以簡單游戲為主,與真實世界存在較大差異.另外,RL 應用難以避免對環境的過擬合. 當過擬合發生時,模型學到環境的背景信息,而非真正的知識.這導致了兩難的問題,一方面,在真實世 界中訓練 RL 模型通常消耗巨大,另一方面,難以確定在虛擬環境中訓練的模型學到了真實的規律.
(3) 相似任務的策略泛化困難.RL 策略通常與環境存在強耦合,難以被應用到相似環境中.甚至在同樣的 環境下,環境參數的微小變化也會極大影響模型性能.這一問題影響了模型的泛化能力,難以確定模 型在相似任務中的表現.
(4) 對抗攻擊的安全隱患難于應對.對抗攻擊[14] 是一種針對模型輸入的攻擊技術,通過將微小的惡意擾 動加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺,然而對于模型 而言,對抗樣本會使模型的輸出產生極大的偏差.對抗攻擊從深度學習擴展到 RL[15] [16] ,成為 RL 算 法的安全隱患.對抗攻擊的有效性進一步暴露了 RL 缺乏可解釋性的問題,同時也進一步說明 RL 模 型并未學到真正的知識.
解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能體現模型所學的知識,便于 通過人的經驗驗證模型是否學到魯棒的知識,從而使人高效地參與到模型的設計和優化中;對于特定領域的專 家使用者,解釋提供模型的內部邏輯,當模型表現優于人時,便于從模型中提取知識以指導人在該領域內的實 踐.對于普通用戶,解釋呈現模型的決策的原因,從而加深用戶對模型的理解,增強用戶對模型的信心.
強化學習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問題,用于增強人對模型理解,優化模型性能,從而解決上述缺乏可 解釋性導致的 4 類問題. XRL 與 XAI 之間存在共性,同時 XRL 具備自身的獨特性.
一方面,XRL 與 XAI 存在共性.首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找 等,其特點是完備的輸入,固定的解法以及明確的解.而智能算法因為輸入的不完備以及解法的不確定,導致算 法必須在解空間中尋找較優的解;其次,人和模型是兩個直接面對的關鍵實體.與其他技術不同,可解釋性方法 關注人對模型的理解.由于人對大量條例混亂的數據缺乏理解,因此解釋通常對模型內在邏輯的抽象,這一過程 必然伴隨對模型策略的簡化.其中的難點是,如何在向人提供解釋時,保證該解釋與模型主體邏輯的一致性;最 后,解釋的難度是相對的,同時由問題規模和模型結構兩個因素決定,并且這兩個因素在一定條件下相互轉化. 例如,結構簡單的模型(如決策樹、貝葉斯網絡等)在通常可以直觀的展示輸入和輸出之間的邏輯關系,但面對由 大量簡單結構組成的龐大模型,其錯綜復雜的邏輯關系仍然導致模型的整體不可理解.同時,雖然結構復雜的模 型(如神經網絡)通常難以被理解,但當模型被極致約減時(如將神經網絡塌縮為具有少數變量的復合函數),模型本身仍然可以被人所理解。
另一方面,XRL 也具備自身的獨特性.強化學習問題由環境、任務、智能體策略三個關鍵因素組成,因此, 解決 XRL 問題必須同時考慮這三個關鍵因素.由于 XRL 的發展仍處于初步階段,大部分方法直接從 XAI 的研 究中繼承,導致現有研究集中于對智能體策略的解釋,即解釋智能體行為的動機及行為之間的關聯.然而,缺乏 對環境和任務的認識使得一些關鍵問題無從解決:缺乏對環境的認識使人在面臨復雜任務時,缺乏對環境內部 規律的理解,導致對環境狀態進行抽象時忽略有利信息,使智能體難以學到真實的規律;缺乏對任務的解釋使任 務目標與過程狀態序列之間的關聯不明確,不利于智能體策略與環境的解耦合,影響強化學習智能體策略在相 似任務或動態環境中的泛化能力.因此,對環境、任務和策略的解釋存在強關聯,是實現強化學習解釋必然面臨 的問題.
目前,XRL 已經成為 AI 領域的重要議題,雖然研究者們為提高強化學習模型的可解釋性做出了大量工作, 但學術界對 XRL 尚且缺乏一致的認識,導致所提方法也難以類比.為了解決這一問題,本文探索 XRL 的基礎性 問題,并對現有工作進行總結.首先,本文從 XAI 出發,對其通用觀點進行總結,作為分析 XRL 問題的基礎;然后, 分析 XRL 與 XAI 的共同問題,構建出一套可解釋性領域的理論體系,包括界定智能算法和機械算法、定義解釋 的含義、討論影響可解釋性的因素、劃分解釋的直觀性;其次,探討 XRL 問題的獨特性,提出包括環境解釋、任 務解釋和策略解釋的三個 XRL 領域的獨有問題;隨后,對現有 XRL 領域的研究進展進行總結.以技術類別和解 釋效果為依據將對現有方法進行分類,對于每個分類,根據獲取解釋的時間、解釋的范圍、解釋的程度和 XRL 的獨有問題,確定每類方法的屬性;最后,展望了 XRL 領域的潛在研究方向,重點對環境和任務的解釋、統一的 評估標準兩個方向進行展開.
1 人工智能可解釋性的觀點總結
對 XRL 的研究不能脫離 XAI 的基礎.一方面,XRL 是 XAI 的子領域,其方法和定義密切相關,因此 XRL 的 現有研究廣泛借鑒了 XAI 在其他方向(如視覺)的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的討論 較少,而對于 XAI,研究者們長期以來進行了廣泛的研究和討論[17] -[24] ,具有深刻的借鑒意義.基于上述原因, 本文從 XAI 的角度探討可解釋性問題,整理出學術界對 XAI 的共識,以此作為 XRL 的研究基礎.
雖然學者們從不同角度對 XAI 的定義在特定情況下指導著一類研究.然而,缺乏精確而統一的定義使得學 術界對 XAI 的認識存在一定差異.本文對 XAI 相關的定義進行總結,并將其分為形而上的概念描述、形而下的 概念描述兩類.
形而上的概念描述使用抽象概念對可解釋性進行定義[25] -[28] .這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等.其中可信性意味著人以較強的信心相信模型所做的決定,而可 靠性意味著模型不同場景下總是能保持其性能.雖然這樣抽象的概念不夠精確,只能產生直觀的解釋,但仍然可以使人準確了解可解釋性的目標、對象和作用,建立對可解釋性的直覺認知.這些概念表明,可解釋性算法具備 兩個關鍵實體,即人和模型.換而言之,可解釋性是一項以模型為對象,以人為目標的技術.
形而下的概念描述從哲學、數學等的觀點出發,基于解釋的現實意義對其進行定義.如 Páez 等人[17] 從哲 學角度出發,認為解釋所產生的理解并不完全等同于知識,同時理解的過程也不一定建立在真實的基礎上.我們 認為,解釋作為媒介存在,這個媒介通過呈現模型的真實知識或構建虛擬邏輯的方式,增強人對模型的理解.同 時,人對模型的理解不必建立在完全掌握模型的基礎上,只要求掌握模型的主要邏輯,并能對結果進行符合認知 的預測. Doran 等人[29] 認為,可解釋性系統使人們不僅能看到,更能研究和理解模型輸入和輸出之間的數學映 射. 一般而言,AI 算法的本質是一組由輸入到輸出的數學映射,而解釋則是將這樣的數學映射以人類可理解和 研究的方式展現出來.雖然數學映射也是人們為描述世界而創造的一種方式,但對于復雜的數學映射(如用于表 示神經網絡的高維多層嵌套函數),人們卻無法將其與生活中的直觀邏輯相聯系. Tjoa 等人[19] 認為,可解釋性 是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學模型或推導.這一解釋也 基于數學表達,反映出人們更多地通過模型的決策模式來理解模型,而非數學上的可重現性.
一些觀點與上述文獻存在微小出入,但仍具有借鑒意義.例如,Arrieta 等人[21] 認為可解釋性是模型的被動 特征,指示模型被人類觀察者理解的程度.這個觀點將模型的可解釋性視為被動特征,忽略了模型為了更強的可 解釋性而主動提出解釋的可能. Das 等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式.這一觀點 傾向于關注模型的結果,其目的是為了確保模型一貫的性能.然而該描述忽略了一個事實,即模型本身意味著知 識,可解釋性不僅是對模型結果的驗證,同時也有助于從模型中提取人們尚未掌握的知識,促進人類實踐的發 展.雖存在較小出入,但上述觀點也提出了獨特的角度,例如,可以將模型的可解釋性視為模型的一個特性,而評 估模型的性能是解釋的重要功能.
雖然對 XAI 的定義眾多,但就整體而言,學術界對 XAI 的基本概念仍然是一致的.本文嘗試提取其中的共 性作為研究 XRL 問題的理論基礎.通過對以上文獻的分析,我們總結出學術界對 XAI 的共識:
(1) 人與模型是可解釋性直接面對的兩個關鍵的實體,可解釋性是一項以模型為對象,以人為目標的技 術; (2) 解釋作為理解的媒介存在,該媒介可以是真實存在的事物,也可以是理想構建的邏輯,亦或是二者并 舉,達到讓人能夠理解模型的目的; (3) 人的對模型的理解不需要建立在完全掌握模型的基礎上; (4) 可準確重現的數學推導不可取代可解釋性,人對模型的理解包括感性和理性的認知; (5) 可解釋性是模型的特性,這一特性可用于驗證模型的性能.
2 強化學習可解釋性與人工智能可解釋性的共同問題
在對 XAI 定義進行總結的基礎上,本節討論 XRL 與 XAI 面臨的共同問題.由于 XRL 與 XAI 之間存在強 耦合,因此本節內容既適用于 XAI,同時也是 XRL 的基礎問題.
2.1 智能算法和機械算法界定
可解釋性的對象是智能算法而非機械算法.傳統認知中的機械算法,如排序、查找等,面對確定的任務目標, 同時具有固定的算法程序.強化學習作為一種智能算法,在與環境動態交互的過程中尋找最優的策略,最大化獲 得的獎賞.界定智能算法和機械算法可用于確定被解釋的對象,進而回答“什么需要被解釋”的問題.一方面,智能 算法與機械算法存在差異,而解釋只在面向智能算法時存在必要性;另一方面,即使對于強化學習,也無需對其 所有過程產生解釋,而應針對其具有智能算法特性的部分進行解釋,如動作生成、環境狀態轉移等.因此,在討論 可解釋性問題前,有必要區分智能算法和機械算法.
本文根據算法對已知條件的獲取程度和建模的完整性,定義“完全知識”和“完全建模”:
完全知識:已知足夠任務相關的有效知識,具備以機械過程獲得最優解的條件;
完全建模:進行完整的問題建模,具備完成任務所需的計算能力;
完全知識是以機械方法確定最優解的前提.例如,求解系數矩陣的秩為 的線性方程組,完全知識表示其增 廣矩陣的秩大于等于系數矩陣的秩,此時可以根據當前知識,獲得確定的解或者確定其無解;完全建模意味著對 現有知識的充分利用,換言之,完全建模從建模者的角度出發,表示在解決任務的過程中有能力(包括程序設計 者的設計能力和硬件的算力)利用所有的知識.例如,在 19×19 圍棋游戲中,存在理論上的最優解法,但目前尚不具備足夠的計算能力在有限時間內獲取最優解.
根據上述對完全知識和完全建模的定義,本文進一步提出“任務完全”的概念來確定機械算法與智能算法 之間的邊界:
任務完全:對特定任務,具備完全知識并進行完全建模.
任務完全必須在完全知識的前提下進行完全建模.滿足任務完全的條件后,算法的優劣取僅決于建模方式 和使用者的實際需求.任務完全的定義考慮了知識和建模兩方面因素(圖 1).
任務完全的概念可以用來區分機械算法和智能算法.機械算法是任務完全的,具體來說,算法已知足夠的 知識,并進行了無簡化的建模.此時,算法具備獲取最優解的條件,因此算法的過程是確定的,獲得的解也是可預期的.例如,經典排序算法、傳統數據查詢、3×3 井字棋游戲算法等都屬于機械算法.智能算法是任務不完全的, 這意味著算法不具備足夠的知識,或者采取了簡化的建模方式.智能算法無法直接獲取最優解,通常在解空間中 尋找較優的解.如基于貪心策略的算法,線性回歸方法,19×19 傳統圍棋策略,機器學習類算法等。
導致任務不完全的可能有二,即知識不完全和建模不完全.在知識不完全的情況下,算法無法直接確定最 優解,因此只能在解空間中逼近最優解.此時,智能算法的實際作用是在解空間中進行解的選擇.導致知識不完 全的因素通常是客觀的,如環境狀態無法被完全觀測,任務目標不可預知,任務評價指標的不可知,任務始終點 不可知等等;在建模不完全的情況下,算法通常忽略某些知識,導致算法過程沒有充分利用知識,從而無法獲得 最優解.建模不完全的原因有客觀和主觀兩方面,客觀原因如建模偏差,不完全建模等,主觀原因包括降低硬件 需求,模型提速等.在強化學習中,并非所有過程具備任務不完全的特點,因此只有部分需要進行解釋,如策略生 成、環境狀態轉移等.
2.2 對“解釋”的定義
在漢語詞典中,解釋有“分析、闡明”的含義.這不僅符合生活中對該詞的理解,同時也與可解釋性研究中“解 釋”的含義相近.然而,具體到可解釋性的研究中,這一含義顯得寬泛.我們希望結合對可解釋性的理解,細化“解 釋”的含義,使之具有更強的指導意義.以強化學習模型為例,模型學習使獎勵最大化的策略,其中包含著環境、獎 勵和智能體之間的隱式知識,而 XRL 算法則是將這些隱式知識顯式地表現出來.本文將多個知識視為集合,稱 為知識體系,從知識體系相互之間關系的角度,對“解釋”做出如下定義:
解釋:知識體系之間的簡潔映射.簡潔映射是在不引入新知識的條件下對目標知識進行表達;
具體來說,解釋是將基于原知識體系的表達轉換為目標知識體系表達的過程,這個過程僅使用目標知識體 系的知識,而不引入新的知識.而 XRL 算法的目的在于產生解釋,從而使原知識體系能夠被目標知識體系簡潔 的表達出來.在 XRL 中,原知識體系通常指代強化學習模型,而目標知識體系通常指人的認知,模型和人是可解 釋性的兩個關鍵實體.本文將原知識體系看作由多個元知識及其推論構成的集合.以 表示元知識, 表示知識 體系,則 .假設智能體習得的知識屬于知識體系 ,而人類能夠理解的知識屬于知識體系 ,則解釋 是將知識體系 轉換為知識體系 表達的過程.對于解釋而言,簡潔映射是必要的,非簡潔的映射可能提升解釋 本身的被理解難度,進而導致解釋本身讓人無法理解(見 2.3 ).
在對知識進行轉換表達的過程中,待解釋的知識可能無法完全通過目標知識體系進行描述,這時只有部分 知識可以被解釋.本文使用“完全解釋”和“部分解釋”的概念描述這一情況:
完全解釋:待解釋的知識完全被目標知識體系表達.其中,被解釋的知識屬于目標知識體系是其必要條件;
部分解釋:待解釋的知識的部分被目標知識體系表達.
具體來說,完全解釋和部分解釋描述的是知識體系之間的包含情況(圖 2).只有當待解釋的知識體系完全 被目標知識體系所包含時,才可能進行完全解釋,否則只能進行部分解釋.在 XRL 中,完全解釋通常是不必要的.
一方面,待解釋知識體系和目標知識體系的邊界難以確定,導致完全解釋難度高且耗費巨大;另一方面,實現對 模型的解釋通常不需要建立在對模型完全掌握的基礎上.因此,部分解釋是大部分可解釋性研究中采用的方法, 即只描述算法的主要決策邏輯.
2.3 可解釋性的影響因素
一個觀點認為,傳統 ML(RL 為其子集)方法是易于解釋的,而深度學習的引入使得可解釋性產生了短板,導 致 ML難于解釋,因此 ML 解釋的本質是對深度學習的解釋[21] .這與可解釋性領域的認知相悖[28] .這一觀點只 關注模型而忽略了人在可解釋性中的地位.對于人而言,即使是理論上可被理解的模型,當規模擴張到一定程度 時,仍然會導致整體的不可理解.本文對可解釋性的影響因素進行如下定義:
透明度:待解釋模型結構的簡潔程度;
模型規模:待解釋模型包含的知識量和知識組合多樣化程度;
本文認為,可解釋性是對模型組件透明度和模型規模的綜合描述.透明度和模型規模是影響可解釋性的兩 個主要因素.具體來說,可解釋性強意味著同時具備高透明度和低復雜度,而單一因素,如復雜度高或透明度低 將導致模型的弱可解釋性(圖 3).
在不同語境下,“透明”一詞具有不同的含義.例如,在軟件結構中,透明指的是對底層過程的抽象程度,意味 著上層程序無需關注底層的實現.類似的,透明度在可解釋性領域也存在不同的含義,如文獻[26] [27] 認為透明 度是模型可以被理解的程度,將透明度與可解釋性等價.以強化學習為例,基于值表的強化學習算法在規模一定 時通常具有更強的可解釋性,而使用深度學習擬合值表則可解釋性更弱,這是因為通過查詢值表而產生策略的 過程符合人的直觀理解,但神經網絡傳播過程僅在數學上可被準確描述,于人而言透明度更低.然而,這一思考 將構建模型的基礎結構作為可解釋性的重點,而忽略了模型規模對解釋帶來的難度,并忽略了解釋的目標—— 人.因此,為突出模型規模對解釋的影響,我們僅將透明度狹義理解為待解釋模型的結構的簡潔程度.
模型規模從人理解能力的角度衡量解釋的難度.具體來說,假設模型中的知識由一系列元知識構成,則模 型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模 超過特定范圍(人的理解能力)時模型將無法被理解.例如,線性加性模型、決策樹模型、貝葉斯模型,由于計算過 程簡潔,使我們能夠輕易了解模型基于何因素得到何種結果,因此被認為是易于理解的.然而,當模型規模逐漸 龐大時,各因素之間的邏輯不可避免地相互交織,變得錯綜復雜,使我們最終無法抓住其主從關系.對于以簡潔 結構(如決策樹分支)構成的大規模模型,雖然所有結果在理論上有跡可循,但當模型規模已超越人類的理解能 力,導致系統整體將仍然不具備可解釋性.
2.4 可解釋性的程度劃分
人的學習過程與強化學習過程存在一定的相似性,因此,如果將人腦看作目前最先進的智能模型,則人對 模型的理解不僅僅是人對模型的直觀感受,也是一個先進的智能體對強化學習模型的綜合評估.然而,一個無法 理解的模型不可能被有效評估,因此對模型的解釋成為人理解模型的媒介.作為人和模型之間媒介,可解釋性算 法不同程度的具備兩個相互平衡特點:接近模型和接近人的感知.具體來說,不同的解釋有的更注重準確的描述 模型,而另一些更注重與人的感知一致.基于這一概念,本文將可解釋性分為如下三個層次:
(1) 數學表達: 通過理想化的數學推導解釋模型.數學表達是使用數學語言簡化模型的表達.由于強化學 習模型建立在數學理論的基礎上,因此通過數學表達可以準確地描述和重構模型.雖然數學理論體 系是人描述世界的一種重要方式,但其與人的普遍直覺之間存在較大差異.以深度學習為例,雖然存 在大量文章論證了其在數學上的合理性,但深度學習方法仍然被認為是不可解釋的.因此,數學的表 達能夠在微觀(參數)層面對模型進行描述,但難以遷移至人類知識體系;
(2) 邏輯表達: 通過將模型轉換為顯性的邏輯規律解釋模型.邏輯表達是對模型中主體策略的提取,即忽 略其細微分支,凸顯主體邏輯.一方面,邏輯表達保留了模型的主體策略,因此與模型真實決策結果相 近,解釋本身可以部分重現模型的決策;另一方面,邏輯表達簡化了模型,符合人的認知.邏輯表達是較 為直觀的解釋,但需要人具備特定領域的知識,是面對人類專家的解釋,而對一般用戶尚不夠直觀;
(3) 感知表達: 通過提供符合人類直覺感知的規律解釋模型.感知表達基于模型生成符合人類感知的解 釋,由于不需要人具備特定領域的知識,因此易于理解.例如,可視化關鍵輸入、示例對比等解釋形式 都屬于感知表達的范疇.然而,感知表達通常是對模型策略的極大精簡,因為無法重現模型的決策,導 致其只解釋決策的合理性.
在可解釋性的三個層次中,數學表達作為第一個層次,也是構建強化學習算法的理論基礎.在已知模型所 有參數的情況下,數學表達通常可以較為準確的推斷出模型的結果,然而,數學上的合理性不意味著能被人所理 解;邏輯表達介于數學表達和感知表達之間,是對模型策略的近似,但邏輯表達方法產生的解釋通常要求用戶具 備特定領域的專業知識;感知表達對模型決策的重要因素進行篩選,并使用清晰、簡潔的形式進行呈現,雖然結 果易于理解,但已經不具備重構策略的能力.總而言之,不同的解釋在接近模型和接近人類感知之間存在著平 衡,難以兼顧.
3 強化學習可解釋性的獨有問題
與其他 ML 方法不同,RL 問題由環境、任務、智能體三個關鍵因素組成.其中,環境為給定的具有一定內部規律的黑盒系統;任務為智能體為最大化其平均獎賞的而擬合的目標函數;策略是智能體行為的依據和一系 列行為之間的關聯.根據強化學習的三個關鍵組成因素,本文歸納出 XRL 的三個獨有問題,即環境解釋,任務解 釋,策略解釋.三個獨有問題之間存在著密切的關聯,與整個強化學習過程密不可分,是實現強化學習解釋直接 面臨的問題.
4 強化學習可解釋性研究現狀
由于 XRL 涉及的領域廣泛,學者從各領域的角度出發,導致所提出的方法具有較大差異.因此,本節分兩步 對相關方法進行總結.首先,根據技術類別和解釋的展現形式,將現有方法分為視覺和語言輔助解釋、策略模仿、 可解釋模型、邏輯關系提取和策略分解五個類別.然后,在通用分類方法(即獲取解釋的時間、解釋的范圍)的基 礎上,結合本文所提出的分類依據(即解釋的程度,面對的關鍵科學問題),確定不同類別方法的屬性.
在可解釋性領域中,分類通常基于獲取解釋的時間和解釋的范圍兩個因素[31] .具體而言,根據獲取解釋的 時間,可解釋性方法被分為固有(intrinsic)解釋和事后(post-hoc)解釋.固有解釋通過限制模型的表達,使模型在運 行時生成具備可解釋性的輸出.例如,基于較強可解釋性的原理和組件(決策樹、線性模型等)構造模型,或者通過 增加特定過程使模型生成可解釋性的輸出;事后解釋是通過對模型行為的分析,總結模型的行為模式,從而達到 解釋的目的.通常而言,固有解釋是策略產生過程中的解釋,特定于某個模型,而事后解釋是策略產生后的解釋, 與模型無關.根據解釋的范圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋,全局解釋忽略模型的微 觀結構(如參數、層數等因素),從宏觀層面提供對模型的解釋,局部解釋從微觀入手,通過分析模型的微觀結構獲 得對模型的解釋.
除上述可解釋性的通用分類之外,本文基于解釋與模型和人類感知的符合程度,將可解釋性方法分為數學 表達、邏輯表達和感知表達三類(見 2.4 ).這三類可解釋性方法體現出可解釋性算法在解釋的形式、解釋與模 型結果的近似程度和解釋的直觀度等方面的區別.前文(見 3 )分析了 XRL 面臨的 3 個關鍵問題,即環境解釋, 任務解釋和策略解釋.目前,單個 XRL 方法難以同時解決三類問題,因此,我們也以此為依據,對當前 XRL 方法所 著眼的問題進行區分.
綜上所述,本文以“獲取解釋的時間”、“解釋的范圍”、“解釋的程度”以及“關鍵問題”為依據,對 XRL 方法 進行分類(見表 1).由于算法多樣,表 1 僅顯示大類別算法的特點,部分算法可能不完全符合
總結
本文以 XRL 的問題為中心,討論了該領域的基礎問題,并對現有方法進行總結.由于目前在 XRL 領域,乃至 整個 XAI 領域尚未形成完整、統一的共識,導致不同研究的基礎觀點存在較大差異,難于類比.本文針對該領域 缺乏一致認知的問題,進行了較為深入的研究工作.首先,本文參考 XRL 領域的父問題——XAI,收集 XAI 領域 的現有觀點,并整理出 XAI 領域較為通用的認識;其次,以 XAI 領域的定義為基礎,討論 XAI 與 XRL 面臨的共同 問題;然后,結合強化學習自身的特點,提出 XRL 面臨的獨有問題;最后,總結了相關的研究方法,并對相關方法進 行分類.分類中包括作者明確指出為 XRL 的方法,也包括作者雖未著重強調,但實際對 XRL 有重要意義的方法. XRL 目前尚處于初步階段,因此存在大量亟待解決的問題.本文重點提出環境和任務的解釋、統一的評估標準 兩類問題.本文認為這兩類問題是為類 XRL 領域的基石,是值得重視的研究領域.
目標檢測是計算機視覺領域中最基礎且最重要的任務之一,是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展,目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比,深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時,大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題,其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型,最后對目標檢測算法中待解決的問題和未來研究方向做出展望.
目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一,其包含物體分類和定位[1].與此同時,目標檢測作為圖像理解和計算機視覺的基石,它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎,因此探索高效實時的目標檢測模型是近年來研究的熱點.
傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇,在PASCAL VOC數據集[2]上的檢測準確率以較小步幅增長.Deformable Part?based Model(DPM)[3] 算法三次在PASCAL VOC目標檢測競賽上獲得冠軍,是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間,目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來,主要包括:(1)算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉圖像的高級語義特征和上下文內容;(3)傳統檢測算法分階段進行,整體缺乏一種全局優化策略.
最近,深度學習經歷了一段前所未有的發展熱浪,AlexNet[6]在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法,深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展,在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展,如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛[7,8]等領域.
本文首先介紹目標檢測數據集及其評估指標,之后總結基于深度學習的目標檢測基準模型,再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型,最后討論目標檢測技術的未來發展趨勢與總結全文.
在大數據時代下,深度學習、強化學習以及分布式學習等理論和技術取得的突破性進展,為機器學習提供了數據和算法層面的強有力支撐,同時促進了機器學習的規模化和產業化發展.然而,盡管機器學習模型在現實應用中有著出色的表現,但其本身仍然面臨著諸多的安全威脅.機器學習在數據層、模型層以及應用層面臨的安全和隱私威脅呈現出多樣性、隱蔽性和動態演化的特點.機器學習的安全和隱私問題吸引了學術界和工業界的廣泛關注,一大批學者分別從攻擊和防御的角度對模型的安全和隱私問題進行了深入的研究,并且提出了一系列的攻防方法. 在本綜述中,我們回顧了機器學習的安全和隱私問題,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足. 最后,我們探討了機器學習模型安全與隱私保護研究當前所面臨的挑戰以及未來潛在的研究方向,旨在為后續學者進一步推動機器學習模型安全與隱私保護研究的發展和應用提供指導.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1