亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

雖然強化學習(RL)在許多領域的連續決策問題上取得了巨大的成功,但它仍然面臨著數據效率低下和缺乏可解釋性的關鍵挑戰。有趣的是,近年來,許多研究人員利用因果關系文獻的見解,提出了大量統一因果關系優點的著作,并很好地解決了RL帶來的挑戰。因此,整理這些因果強化學習(CRL)著作,回顧CRL方法,研究因果強化學習的潛在功能是非常必要和有意義的。**特別是,我們根據現有CRL方法是否預先給出基于因果關系的信息,將其分為兩類。我們從不同模型的形式化方面進一步分析了每個類別,包括馬爾可夫決策過程(MDP)、部分觀察馬爾可夫決策過程(POMDP)、多臂賭博機(MAB)和動態處理制度(DTR)。**此外,我們總結了評估矩陣和開源,同時我們討論了新興的應用程序。

//www.zhuanzhi.ai/paper/2831beac5d3d0e0e8a42fa338f171c62

強化學習(RL)是智能體在[1]-[3]環境中學習最大化期望獎勵的策略(從狀態到動作的映射函數)的通用框架。當智能體與環境交互時,它試圖通過試錯方案來解決序列決策問題。由于其在性能上的顯著成功,已在各種真實世界應用中得到快速開發和部署,包括游戲[4]-[6]、機器人控制[7]、[8],以及推薦系統[9]、[10]等,受到不同學科研究人員的越來越多的關注。

然而,強化學習仍有一些關鍵挑戰需要解決。例如,**(一)數據效率低下。以前的方法大多需要交互數據,而在現實世界中,例如在醫療或醫療健康[11]中,只有少量記錄數據可用,這主要是由于昂貴、不道德或困難的收集過程。(二)缺乏可解釋性。**現有的方法往往通過深度神經網絡將強化學習問題形式化,將序列數據作為輸入,策略作為輸出,屬于黑盒理論。它們很難揭示數據背后的狀態、動作或獎勵之間的內部關系,也很難提供關于策略特征的直覺。這種挑戰將阻礙其在工業工程中的實際應用。有趣的是,因果關系可能在處理上述強化學習[12],[13]的挑戰中發揮著不可或缺的作用。因果關系考慮兩個基本問題[14]:(1)因果關系的合法推斷需要什么經驗證據?利用證據發現因果關系的過程簡稱為因果發現。(2)給定一個現象的公認的因果信息,我們可以從這些信息中得出什么推論,如何推斷?這種推斷因果效果或其他利益的過程稱為因果推斷。因果關系可以授權智能體進行干預或通過因果階梯進行反事實推理,放松了對大量訓練數據的要求;它還能夠描述世界模型,可能為智能體如何與環境交互提供可解釋性。

**在過去的幾十年里,因果學習和強化學習各自取得了巨大的理論和技術發展,而它們本可以相互融合。**Bareinboim[15]通過將它們放在相同的概念和理論框架下,開發了一個名為因果強化學習的統一框架,并提供了一個在線介紹教程;Lu[16]受當前醫療健康和醫學發展的啟發,將因果強化學習與強化學習相結合,引入因果強化學習并強調其潛在的適用性。近年來,一系列與因果強化學習相關的研究相繼提出,需要對其發展和應用進行全面的綜述。本文致力于為讀者提供關于因果強化學習的概念、類別和實際問題的良好知識。 盡管已有相關綜述,如Grimbly等人對[17]因果多智能體強化學習進行了綜述;Bannon等人,[18]關于批量強化學習中的因果效應估計和策略外評估,本文考慮了但不限于多智能體或策略外評估的情況。最近,Kaddour等人,[19]在arXiv上上傳了一篇關于因果機器學習的綜述,其中包括一章關于因果強化學習的內容。他們根據因果關系可以帶來的不同強化學習問題總結了一些方法,例如因果匪類、基于模型的強化學習、off-policy策略評估等。這種分類方法可能不完整或不完整,從而遺漏了其他一些強化學習問題,例如多智能體強化學習[18]。本文只是但完整地為這些因果強化學習方法構建了一個分類框架。我們對這份調研綜述的貢獻如下:

**本文正式定義了因果強化學習,并首次從因果性的角度將現有方法分為兩類。**第一類是基于先驗因果信息,通常這樣的方法假設關于環境或任務的因果結構是由專家給出的先驗信息,而第二類是基于未知的因果信息,其中相對的因果信息必須為策略學習。對每個類別上的當前方法進行了全面的回顧,并有系統的描述(和草圖)。針對第一類,CRL方法充分利用了策略學習中的先驗因果信息,以提高樣本效率、因果解釋能力或泛化能力。對于因果信息未知的CRL,這些方法通常包含因果信息學習和策略學習兩個階段,迭代或依次進行。進一步分析和討論了CRL的應用、評估指標、開源以及未來方向。

因果強化學習

定義18(因果強化學習,CRL): CRL是一套算法,旨在將因果知識嵌入到RL中,以實現更高效的模型學習、策略評估或策略優化。它被形式化為元組(M, G),其中M代表RL模型設置,如MDP、POMDP、MAB等,G代表關于環境或任務的基于因果的信息,如因果結構、因果表示或特征、潛在混雜因素等。

根據因果信息是否由經驗提供,因果強化學習方法大致分為兩類:(i)基于已知或假設的因果信息的方法;(2)基于技術學習的未知因果信息的方法。因果信息主要包括因果結構、因果表示或因果特征、潛在混淆因素等。

CRL框架的示意圖如上圖所示,概述了規劃和因果啟發學習程序之間可能的算法聯系。因果關系啟發的學習可以發生在三個地方:在學習因果表示或抽象(箭頭a),學習動態因果模型(箭頭b),以及學習策略或值函數(箭頭e和f)。大多數CRL算法只實現與因果關系的可能聯系的子集,在數據效率、可解釋性、魯棒性或模型或策略的泛化方面享受潛在好處。例如,t時刻的所有狀態會影響(t + 1)時刻的所有狀態。對于離線策略的學習和評估,因果信息未知的CRL會評估不同行為的影響,而因果信息已知的CRL通常通過敏感性分析來研究混淆對策略的影響。傳統的強化學習不會對混淆效應進行建模。對于數據增強問題,經典RL有時基于基于模型的RL,而CRL基于結構因果模型。CRL在學習到這樣的模型后,可以進行反事實推理來實現數據增強。在泛化方面,經典RL試圖探索不變性,而CRL試圖利用因果信息來產生因果不變性,例如結構不變性、模型不變性等。在理論分析方面,經典強化學習通常關注收斂性問題,包括學習策略的樣本復雜度、后悔界或模型誤差;CRL關注的是收斂性,但關注的是因果信息,側重于因果結構的可識別性分析。

付費5元查看完整內容

相關內容

 摘要: 基于因果建模的強化學習技術在智能控制領域越來越受歡迎. 因果技術可以挖掘控制系統中的結構性因果知識, 并提供了一個可解釋的框架, 允許人為對系統進行干預并對反饋進行分析. 量化干預的效果使智能體能夠在復雜的情況下 (例如存在混雜因子或非平穩環境) 評估策略的性能, 提升算法的泛化性. **本文旨在探討基于因果建模的強化學習控制技術 (以下簡稱因果強化學習) 的最新進展, 闡明其與控制系統各個模塊的聯系. 首先介紹了強化學習的基本概念和經典算法, 并討論強化學習算法在變量因果關系解釋和遷移場景下策略泛化性方面存在的缺陷. **其次, 回顧了因果理論的研究方向, 主要包括因果效應估計和因果關系發現, 這些內容為解決強化學習的缺陷提供了可行方案. 接下來, 闡釋了如何利用因果理論改善強化學習系統的控制與決策, 總結了因果強化學習的四類研究方向及進展, 并整理了實際應用場景. 最后, 對全文進行總結, 指出了因果強化學習的缺點和待解決問題, 并展望了未來的研究方 向.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220823

近年來, 人工智能的研究范圍不斷拓寬, 并在醫療健康、電力系統、智慧交通和機器人控制等多個重要領域取得了卓越的成就. 以強化學習為代表的行為決策和控制技術是人工智能驅動自動化技術的典型代表, 與深度學習相結合構成了機器智能決策的閉環[1]. 強化學習控制是指基于強化學習技術制定控制系統中行動策略的方法. 強化學習的主體, 即智能體, 通過交互的手段從環境中獲得反饋, 以試錯的方式優化行動策略. 由于擅長處理變量間復雜的非線性關系, 強化學習在面對高維和非結構化數據時展現出了極大的優勢. 隨著大數據時代的到來, 強化學習控制技術快速崛起, 在學術界和產業界獲得了廣泛關注, 并在博弈[2-5]、電力系統[6-7]、自動駕駛[8-9]和機器人系統[10]等領域取得了巨大突破. 在實際系統應用中, 強化學習被廣泛應用于路徑規劃和姿態控制等方面, 并在高層消防無人機路徑規劃[11]和多四旋翼無人機姿態控制[12]等實際任務中取得了良好的控制性能.盡管如此, 強化學習在處理控制任務時仍面臨一些缺陷, 主要體現在以下兩個方面. 一是難以在強化學習過程中進行因果推理. 大多數強化學習控制算法是基于采樣數據間的相關關系完成對模型的訓練, 缺少對變量間因果效應的判斷. 而在控制任務中, 任務的泛化和模型的預測通常建立在因果關系之上. 越來越多的證據表明, 只關注相關性而不考慮因果性, 可能會引入虛假相關性, 對控制任務造成災難性的影響[13]. 二是無法在遷移的場景下保證控制算法的泛化性. 泛化性是指強化學習模型遷移到新環境并做出適應性決策的能力, 要求學習的策略能夠在相似卻不同的環境中推廣. 然而在面臨環境改變或者任務遷移時, 智能體收集到的觀測數據表現出非平穩性或異構性, 訓練數據和測試數據的獨立同分布條件受到破壞. 在這種情況下, 強化學習算法常常表現不佳, 無法保證策略的泛化性[14-15], 難以直接推廣到更普遍的控制場景.為了解決上述問題, 目前研究人員嘗試在強化學習任務中引入因果理論, 提出了基于因果建模的強化學習控制算法. 因果強化學習的中心任務是在控制問題中建立具有因果理解能力的模型, 揭示系統變量之間的因果關系, 估計數據之間的因果效應, 進一步通過干預和推斷, 理解智能體的運行機理. 近年來, 包括ICLR, NeurIPS, ICML和AAAI在內的人工智能重要國際會議多次設立研討會, 探索因果理論在機器學習領域的發展和應用[16-19]. 越來越多控制性能優異的因果強化學習算法被陸續提出, 成為最新的研究熱點. 建立可解釋的因果模型并保證算法的合理決策, 是加速推廣強化學習控制算法落地的必要條件, 具有理論意義和應用價值. 本文的主旨是梳理目前因果強化學習的研究現狀, 討論因果理論如何提供變量間因果關系的解釋, 幫助改善非平穩或異構環境下的可遷移的決策, 提高數據利用率, 并對未來工作方向提供可借鑒的思路.本文內容安排如下: 第1節介紹強化學習的基本概念和經典算法, 并指出傳統強化學習算法的缺陷. 第2節介紹因果關系和因果模型的概念, 總結因果效應估計和因果關系發現的研究內容, 為解決強化學習的缺陷提供了可行方案. 第3節構建因果強化學習系統的抽象模型, 在此基礎上整理出四個研究方向, 綜述了因果強化學習的最新研究進展并總結了應用場景. 第4節總結全文, 指出了因果強化學習的缺點和待解決的問題, 并對未來的發展趨勢進行展望.

  1. 因果強化學習控制

在本節中, 我們將詳細闡述如何利用因果關系改善強化學習控制與決策. 強化學習的目標是最大化期望累積獎勵, 智能體本身不具備因果推理的能力. 如1.3節所述, 現有的強化學習算法存在兩類缺陷. 幸運的是, 這兩類缺陷恰好可以通過引入因果關系來解決. 與一般的強化學習控制不同, 因果強化學習可以區分系統變量之間的虛假相關性和因果關系. 接下來以倒立擺系統為例, 說明如何將因果分析融入強化學習系統, 辨別虛假相關性. 倒立擺系統是強化學習領域的基準測試環境. 智能體對小車施加動作a, 令其沿著無摩擦水平軌道左右移動, 控制目標是防止車上的桿跌落. 因此在桿保持直立的每個時刻, 智能體獲得獎勵rt=+1,. 狀態變量s分別為小車位置、小車速度、桿與車之間的角度和角速度. 因果強化學習的處理流程如下: 首先從控制任務 (如圖3(a)所示) 中采樣觀測數據, 具體包括狀態變量、動作變量和獎勵變量 (如圖3(b)所示); 然后利用因果理論, 從觀測數據中提取高層的因果特征, 并將其形式化表示成一個能夠反映數據生成過程的因果結構 (如圖3(c)所示). 通過這種方式直觀地展示虛假關系 (虛線) 和因果關系 (實線), 降低冗余信息的影響, 提高數據利用率. 此外, 強化學習數據采集過程中常常存在選擇偏倚問題. 在控制系統中引入因果分析有助于理解偏倚, 并利用do算子實現對干預效果的形式化推理. 例如, 在圖3(c)中對動作at進行干預do(A=a′t)(如綠線所示) 只會影響因果圖中的子代變量st+1,i 而對其他非因果變量st+1,j不產生影響, 從而可以進行有針對的干預.

圖 3 在倒立擺系統中提取系統變量之間的因果關系與一般機器學習算法不同, 在強化學習中, 智能體不僅能夠觀測環境, 還可以用行動 (或干預) 塑造環境. 因此與其他機器學習應用場景相比, 強化學習更易于融合因果理論. 目前, 因果理論在強化學習領域的研究已初現端倪. 因果強化學習的基本任務是將因果建模的思想融入強化學習過程中, 旨在解決強化學習的可解釋性問題和泛化性問題, 提高數據利用率. 研究的關鍵問題是如何利用因果知識顯式地提取系統的結構不變性, 同時提升控制性能.**2.1 學習算法的結構 **根據已有的研究成果, 我們在圖 4 中展示了如 何將因果技術集成到強化學習控制系統中, 并將因 果強化學習的研究方向分為兩大類: 1) 利用因果發 現構建因果模型, 即給定觀測數據 (尤其是高維和 非結構化數據), 提取系統的低維因果特征和因果關 系, 搭建系統的因果模型; 2) 利用因果推理實現策 略優化, 即給定因果模型, 分析系統對干預將作出 何種反應并進行策略規劃. 現有因果強化學習算法 總結在表 3 中.

  1. 利用因果發現構建因果模型. 如上文所述, 虛假的相關性和選擇偏倚會導致模型預測不可靠或不公平. 這類研究將因果發現的技術引入強化學習領域, 基于歷史數據推斷狀態、動作和獎勵信號之間的因果關系, 去除變量之間的虛假關聯, 指導構建因果模型. 基于有模型的強化學習框架, 提取系統中的結構不變性, 并去除模型中和因果鏈條無關的參數. 這樣不僅簡化了模型, 同時能夠識別出不同任務間發生改變的因果鏈條有哪些, 從而讓模型能夠更容易地遷移到新的任務, 提升模型的可解釋性和魯棒性. 該方法具體可以分為以下兩類.a) 因果表征提取. 人類擅長構造復雜世界的簡單藍圖, 對事物的理解往往是基于正確的因果結構并能自動忽略不相關的細節. 越來越多的證據表明, 使用恰當的結構化表征對于理解系統內部因果關系很有幫助. 良好的表征可以幫助智能體對其周圍環境進行簡潔的建模, 進而支持復雜環境下的有效決策. 以像素化游戲為例, 智能體可以根據對動作的共同反應, 對像素進行分組, 從而識別物體. 此時物體可視為允許單獨干預或操控的模塊化結構. 因果表征提取是基于獨立因果機制的結構化生成方法, 其目的是將環境相關的原始觀測數據轉化為因果模型的結構化變量. 關鍵問題在于如何從原始數據中抽取高級因果變量, 這不僅關乎系統的感知能力, 還涉及智能體與環境的交互方式.b) 建立可遷移的環境因果模型. 因果模型允許將環境建模為一組潛在的獨立因果機制. 在此情況下, 如果數據分布發生變化, 并非所有機制都需要重新學習. 此類方法致力于從數據中學習合理的因果模型, 構建對分布變化具有魯棒性的預測因子[79], 并找到一種恰當的方式將知識分解為能夠匹配微小變化的組件和機制. 因果模型不僅能幫助智能體更好地實現遷移學習, 還能啟發包括因果機制變化檢測、因果骨架估計、因果方向識別和非平穩機制估計的框架設計在內的多個研究領域[50,80]. 首先, 為了對強化學習環境進行因果建模, 智能體通過干預觀察變量間的因果影響, 進而發現因果結構. 此外, 不同于傳統的強化學習通常假設系統動態遵循固定的概率分布, 此類方法提供了處理非穩態和異構分布的解決方案. 假定系統的潛在因果結構是固定的, 但是與因果結構相關的機制或參數可能會隨任務或時間發生變化. 該類方法能夠將非穩態因素導致的分布變化轉換成訓練信號, 學習系統的不變性結構, 并基于獨立因果機制將知識分解為能夠匹配變化的組件, 顯式地展示哪些部分發生了變化, 遵從什么樣的規則在變, 以端到端的方式在任務間實現快速遷移. 智能體可以有針對性地重新訓練模型中因果關系改變的部分, 降低了采樣需求和模型復雜度.2) 利用因果推理實現策略優化. 強化學習的目標是生成最優策略, 構建因果模型只能展示變量間的因果關系, 還需要引入因果推理才能實現策略優化. 因果推理作為一種校正偏見的手段, 通過采取不同的策略(干預)觀察環境狀態的變化, 使任務中的規則更加清晰, 幫助智能體更高效地學習值函數或探索策略. 此外, 在因果結構已知的前提下, 不需要或只需要很少的實驗就可以回答大量的干預性問題和反事實性問題. 因此因果推理可以大幅減少算法對數據的依賴, 提高數據利用率. 具體來說, 我們可以通過在線學習(真正實施干預)和離線學習(想象中干預)兩種模式進行策略改進, 主要分為以下兩類.a) 動作效果估計. 人類可以通過干預獲得因果啟示. 例如在倒立擺實驗中, 在桿左傾的情況下向左移動小車, 可以維持桿的直立狀態; 向右移動則會導致桿失衡. 動作效果估計旨在對動作變量進行干預, 觀察智能體的行為對環境的影響. 通過對動作進行恰當的規劃, 智能體可以觀察到干預導致的聯合分布變化. 此外, 智能體還可以推斷不同動作帶來的效果, 進而了解何時或何種行為對狀態能夠產生何種影響, 有效地指導策略優化.b) 反事實動作推理. 在強化學習控制領域中, 擁有反事實推理的能力對于實驗成本高昂或存在安全隱患的任務至關重要. 在已有觀測數據的前提下, 反事實動作推理旨在推斷出采取不同的動作導致的結果. 智能體可以通過制定假想策略, 在想象空間中進行反事實干預, 驗證干預效果, 進而不斷優化策略[63]. 此外, 反事實動作推理可以在想象空間中產生新的數據, 智能體可以充分利用可用信息 (包括觀測數據和反事實數據) 進行推理, 從而提高算法的數據利用率[81].

**2.2 利用因果發現構建因果模型

2.2.1 因果表征提取在強化學習控制系統中, 系統的輸入狀態可能是高維或非結構化數據. 因此引入恰當的結構化表征可以對冗余的原始數據進行信息提取, 有助于解決強化學習的可解釋性問題. 總的來說, 和強化學習控制相關的因果表征提取主要分為基于POMDP的表征提取和存在混雜因子的表征提取.基于POMDP的表征提取通常假設觀測數據O(通常是高維或非結構化數據, 如像素輸入) 由潛在狀態S 生成, 智能體根據策略π(A|O)采取行動, 通過與環境交互獲得觀測數據, 并基于觀測數據恢復潛在狀態. 與顯式的MDP不同 (如圖5(a)所示), 基于POMDP的表征提取 (如圖5(b)所示) 的關鍵問題在于如何找到O→S的映射, 并根據過去的動作A≤t 和過去的潛在狀態S≤t預測未來的潛在狀態S>t, 學習底層因果圖結構. Yao和Sun等[82]指出潛在時序因果狀態在一定場景下是可識別的, 該研究為基于POMDP的表征提取提供了理論保證. 該類方法的代表性工作包括動作充分狀態表示ASR (Action-sufficient state representation)[83]和因果正確部分模型CCPM (Causally correct partial models)[84]. ASR以最大化累積獎勵為目標, 基于變量結構關系建立環境生成模型, 以因果結構為約束提取出足夠決策的最小狀態表示集. 在ASR的框架下, 策略學習與表征學習可以分開進行, 且策略函數只依賴于低維狀態表征, 從而提高了樣本利用率, 缺點是沒有擴展到可遷移的場景下. 為了在策略發生變化的情況下對模型進行修正, 解決部分模型中因果不正確的問題, CCPM結合概率模型和因果推理, 提出了因果正確的部分可觀模型, 提高了模型的魯棒性. 此外, 部分研究人員致力于將因果技術和POMDP融入一個框架內進行分析. Sontakke等[85]引入了因果好奇心 (Causal curiosity) 作為內在獎勵, 鼓勵智能體在探索性交互時, 通過自監督的方式發現環境中變化的因果機制. Gasse等[86]通過引入do算子, 將有模型的強化學習表示為因果推理問題, 并且使用觀測數據和干預數據共同推斷POMDP的狀態轉移方程. 由于假設觀測空間要小于離散狀態空間, 因此該方法的缺點是只能處理維數較低的觀測空間. 為了解決高維觀測空間問題, Zhang等[87]利用循環神經網絡從觀測數據中學習近似的因果狀態表示, 并在Lipschitz假設下為該表示連續版本的最優性提供了理論保證.

存在混雜因子的表征提取方法則考慮更一般的實際場景, 假設系統中存在未能直接觀測到的混雜因子. 此時, 系統的狀態轉移模型和獎勵模型將會受到影響, 阻礙行為策略的有效學習. 以自動駕駛場景為例, 智能體從不同場景中收集的離線數據可能依賴于某些未被觀測的因素 (如交通的復雜度或道路設計的合理性). 當訓練場景為行人過馬路時, 智能體可能會從觀測中錯誤地推斷出“只要踩下剎車, 就會有行人出現在汽車前面”這種結論, 從而引入虛假相關性. 這種由混雜因子導致的虛假相關性, 使得觀測數據無法提供有效信息, 甚至會誤導因果效應識別. 在此情況下, POMDP模型可能會被未能準確描述的觀測數據迷惑, 推導出錯誤的因果模型, 進而導致不正確的策略規劃. 因此存在混雜因子的表征提取方法的關鍵問題在于去除或估計混雜因子, 以減少虛假相關性對后續因果模型推導的影響. 在混雜因子建模上, 早期的工作包括存在未觀測混雜因子的多臂老虎機問題MABUC (Multi-armed bandit problem with unobserved confounders)[88]和Kullback-Leibler置信上限B-kl-UCB (B-Kullback–Leibler upper confidence bounds)[89]. MABUC通過引入結構因果模型, 將具有混雜因子的多臂老虎機問題表示為因果推理問題. MABUC首次將混雜因子和強化學習融入一個框架之中進行分析, 缺點是模型需要在線學習, 而且沒有考慮知識遷移的場景. 在MABUC的框架下, B-kl-UCB利用結構知識推導智能體分布的界限, 將工作拓展到離線且可遷移的場景下. 在混雜因子去除方面, Lu等[90]提出了去混雜強化學習框架, 使用自動變分編碼器估計潛在變量模型, 發現隱藏的混雜因子并推斷因果效應. 盡管該框架允許嵌入強化學習算法進行策略更新, 缺點是要求每一個混雜因子都需要體現在潛在變量模型中, 且無法給出明確的遺憾值③. 為了在有限遺憾值內識別最優治療方案, Zhang等[91]在觀測數據存在混雜因子的情況下, 利用結構因果模型和獨立性約束, 降低候選策略空間的維度, 簡化問題的復雜度, 缺點是模型需要在線學習. 為了充分利用離線數據提高樣本效率, Wang等[92]提出了一種去混雜的最優值迭代方法, 綜合考慮了部分可觀的混雜因子和完全不可觀的混雜因子兩種情況, 通過后門準則和前門準則顯式地調整觀測數據中的混雜偏差, 并且提供了遺憾值的表達.2.2.2 建立可遷移的環境因果模型強化學習問題通常假定訓練樣本和測試樣本滿足獨立同分布的條件. 在面臨環境改變或者任務遷移時, 獨立同分布的假設受到破壞, 在特定領域學習的最優策略無法推廣到其他領域, 導致控制性能下降[93]. 因此在面對非平穩或異構環境時, 智能體不僅需要識別變化, 更需要適應這些變化. 幸運的是, 非平穩或異構數據已被證明有助于識別因果特征. 可遷移的環境因果模型致力于實現可靠、低成本、可解釋的模型遷移, 關鍵問題在于提取正確的知識表示, 找出哪些因素發生了變化、在哪里變化、如何變化, 使得在源域訓練的模型能夠在新的場景下實現快速遷移. 可遷移的環境因果模型通常基于以下三個原則[94]: 1) 獨立因果機制. 系統變量的因果生成過程由互不影響的獨立模塊組成. 給定原因, 每個變量的條件分布不會影響其他模塊. 2) 最小變化原則[50]或稀疏機制遷移. 細微的分布變化往往以稀疏或局部的方式在因果分解P(X1,?,Xn)=∑ni=1P(Xi|Pa(Xi))中表現出來. 當數據分布發生變化時, 僅有少量的模塊和參數需要改變. 3) 相似因果動態. 該假設允許訓練數據和測試數據來自不同的分布, 但涉及 (大致) 相同的因果狀態轉移方程. 例如在機器人導航過程中, 房間內的光照條件可能會發生變化, 但環境的動力學模型仍然是相同的. 基于以上原則, 目前有三種研究方向用于構建可遷移的因果環境模型.1) 利用結構因果模型編碼變化模塊. 根據最小變化原則或稀疏機制遷移原則, 當因果模型得到恰當表示時, 僅需要更新少量的模塊和參數就可以實現分布遷移, 進而提高策略的魯棒性. 在強化學習框架下, 結構因果模型不僅能夠表征變量之間的結構關系, 還可以顯式地編碼跨域的變化模塊. 因此這類問題的研究重點在于如何編碼最小的可遷移模塊. 在MDP的框架下, Sun等[79]基于結構因果模型擬合環境的動態轉移方程, 并將跨域變化的模塊集成為一個外生變量λ, 通過更新λ實現環境分布的遷移. 在POMDP的框架下, Huang等[95]提出一種自適應強化學習算法AdaRL (Adaptive reinforcement learning). AdaRL利用圖模型實現最小狀態表征, 包括特定域的變化因素和共享域的狀態表示, 同時對狀態動態、觀察函數和獎勵函數的變化進行建模, 利用因子分解提高數據利用率, 只需要來自目標域的少量樣本就可以實現穩健有效的策略遷移.2) 尋找因果不變性. 得益于獨立因果機制, 我們可以將數據生成過程視為一些獨立模塊, 通過尋找因果不變性發現因果結構. 在這種情況下, 研究人員通常需要基于相似動態的多個環境挖掘環境的潛在結構, 進而實現良好的泛化. 對于觀測分布不同但是潛在因果結構相同的環境族, Zhang等[96]考慮區塊MDP的因果不變性預測, 其中不同場景下的觀測分布會發生變化, 但潛在狀態空間中環境動態和獎勵函數是相同的. 文章提出一種不變預測方法提取潛在狀態, 并將其遷移到多環境場景下, 解決了潛在空間動態結構的泛化問題. 遵循類似的思路, 因果情景強化學習算法CCRL (Causal contextual reinforcement learning)[97]假設情景變量的變化會導致狀態分布的變化. CCRL利用情景注意力模塊提取解耦特征, 并將其視為因果機制. 通過改變解耦特征, 提高智能體在新場景下的泛化性能. Zhu等[98]將不同狀態下的動作效果作為不變性來推斷因果關系, 提出了不變動作效果模型IAEM (Invariant action effect model). IAEM將相鄰狀態特征的殘差作為動作效果, 在不同場景下實現自適應遷移, 提高了樣本的利用率和策略的泛化性.3) 引入因果關系的模仿學習. 在模仿學習任務中, 智能體直接從專家提供的范例中學習控制策略. 由于傳統的模仿學習是非因果的, 智能體不知道專家與環境交互的因果結構. 忽略因果關系的盲目模仿會導致反直覺的因果錯誤識別現象[99], 進而導致模仿策略失效. Haan等[99]指出, 基于專家行為的真實因果模型可以減少因果錯誤識別的影響. 文章通過環境交互或專家查詢的方式對觀測數據進行有針對性的干預, 學習正確的因果模型. Etesami等[100]假定系統中某些模塊因果機制發生變化, 但動作效果機制保持不變, 并在此基礎上分析了因果機制的可識別情況, 解決了傳感器偏倚情況下的策略遷移問題. 盡管大多數模仿學習任務都假定專家變量可完全觀測, 但是實際系統中可能存在混雜因子, 對模仿學習造成不利影響. 針對存在未被觀測的混雜因子場景, Zhang等[101]利用結構因果模型學習專家范例的數據生成過程, 并利用觀測數據中包含的定量知識學習模仿策略. Park等[102]以提取語義對象的方式調整模仿策略, 提出了對象感知正則化算法OREO (Object-aware regularization). 為了防止策略學習到與專家行為密切相關的混雜因子, OREO鼓勵策略統一關注所有語義對象, 顯著提高了模仿學習的性能.

**2.3 利用因果推理實現策略優化

2.3.1 動作效果估計在強化學習的場景下, 動作效果估計的關鍵問題在于: 1) 量化智能體動作對環境造成的影響, 2) 獲得數據的無偏估計, 進而通過干預因果圖改變策略分布, 有效地指導策略更新.針對稀疏獎勵下的探索和信用分配問題, Corcoll等[103]提出了一種基于受控效果的分層強化學習結構CEHRL (Controlled effects for hierarchical reinforcement learning). CEHRL智能體基于隨機效應進行探索, 并依靠反事實推理識別動作對環境的因果影響. 分層式的結構允許高層策略設置跟時間有關的目標, 以此實現長期信用分配, 高效地學習特定任務的行為. Seitzer等[104]引入了基于條件互信息的情境相關因果影響度量SDCI (Situation-dependent causal influence), 用于衡量動作對環境的因果影響, 進而有效地指導學習. 通過將SDCI集成到強化學習算法中, 改進智能體探索能力和離線策略學習性能. 針對強化學習樣本效率不高的問題, Pitis等[105]定義了局部因果模型, 并提出了一種用于反事實數據增強的算法, 使用基于注意力的方法在解耦狀態空間中發現局部因果結構. 這種局部因果結構可用于提高模型的預測性能, 改善非策略強化學習的樣本效率. 為了構建與強化學習智能體相關的有效因果表示, Herlau等[106]以最大化自然間接效應為目標識別因果變量. 識別的因果變量可以集成環境的特征, 從而確保因果表征與智能體相關.此外, 雖然動作效果估計可以量化干預和結果之間的影響, 但是采集的觀測數據受現有的策略影響, 可能會間接造成選擇偏倚問題. 為了實現數據的無偏估計, 研究人員常常采用重要性采樣加權[107]進行離線策略評估, 但是該方法具有高方差和高度依賴權重的缺陷. 為了從觀測數據中選擇最佳策略, Atan等[108]考慮了觀測數據評估新策略時的產生的估計誤差, 提供了估計誤差的理論界限, 并提出了一種使用域對抗神經網絡選擇最優策略的方法, 結果表明估計誤差取決于觀測數據和隨機數據之間的H散度. 在批量學習的場景下, Swaminathan等[109]指出僅對離策略系統的性能進行無偏估計不足以實現穩健學習, 還需要在假設空間中推斷估計量的方差有何不同. 該項研究通過傾向性評分設計了反事實估計器, 提出了反事實風險最小化原則, 證明了傾向加權經驗風險估計計量方差的廣義誤差界限. 為了學習結構化輸出預測的隨機線性規則, 提出了指數模型策略優化器, 從而實現有效的隨機梯度優化. 為了消除由舊策略和新策略引起的分布偏倚, 精確評估新策略的效果, Zou等[110]提出了重點上下文平衡算法FCB (Focused context balancing), 用于學習上下文平衡的樣本權重.2.3.2 反事實動作推理利用因果框架, 智能體可以進一步回答與強化學習控制任務相關的反事實問題. 例如在已有觀測數據的前提下, “如果策略中的某些動作發生變化, 系統的控制性能能否提升”? 目前, 反事實動作推理已經被證明可以提高強化學習算法的樣本效率和可解釋性[81,111]. Madumal等[112]提出了一種基于結構因果模型的行為影響模型, 利用因果模型進行反事實分析, 提高了模型的可解釋性. 在非平穩數據的場景下, Lu等[81]提出了一種基于反事實的數據增強算法. 該算法利用結構因果模型對環境動態進行建模, 并基于多領域數據的的共性和差異進行因果模型估計. 智能體可以根據結構因果模型進行反事實推理, 解決了有限經驗導致策略偏倚的問題, 避免風險性探索. 同時利用反事實推理進行數據集擴充, 提高了數據利用率. 在POMDP的框架下, Buesing等[111]提出了反事實指導的策略搜索算法CF-GPS (Counterfactually-guided policy search), 基于結構因果模型對任意策略進行反事實評估, 改善策略性能, 消除模型預測的偏差.

**2.4 因果強化學習的應用

因果強化學習作為一種通用的學習算法, 目前在機器人控制[104,113]、醫療健康[91]、推薦系統[114]、金融投資[115]和游戲控制[116]等多個領域中有著廣泛的應用. 在機器人控制領域, Liang等[113]在仿真機械臂控制系統中, 將神經網絡與概率圖模型相結合, 構建了觀測數據的因果圖模型, 控制機械臂進行繪畫操作和輪胎拆卸, 提高了數據利用率和強化學習算法的可解釋性. 在醫療健康領域, Zhang等[91]基于因果強化學習在肺癌和呼吸困難數據集上設計了最佳動態治療方案, 提升了算法的在線性能和數據效率. 在推薦系統領域, Bottou等[114]基于Bing搜索引擎的廣告投放系統, 利用因果推理理解用戶與環境交互的行為, 致力于合理地使用因果推理和機器學習技術進行廣告投放. 在金融投資領域, Wang等[115]提出了一種優化投資策略的深度強化學習方法DeepTrader. 該方法將風險收益平衡問題構建為強化學習問題, 并利用分層圖結構建模資產的時空相關性. 其估計的因果結構能夠反映資產之間的相互關系, 有效平衡收益與風險. 在游戲控制領域, Shi等[116]針對Atari 2600游戲環境, 提出了時空因果解釋模型, 對觀測數據與智能體決策之間的時序因果關系進行建模, 并使用一個單獨的因果發現網絡來識別時空因果特征. Madumal等[112]在星際爭霸游戲環境中使用因果模型來推導無模型強化學習智能體行為的因果解釋. 利用結構因果模型對系統進行建模, 然后基于反事實推理生成對動作的解釋.

3. 總結與展望

由于在可解釋性以及跨域遷移等方面展現出優勢, 因果理論已經被廣泛應用于強化學習領域, 并且在控制系統中表現出了良好的性能. 本文致力于闡述因果強化學習算法如何探索數據之間的因果關系, 并在決策過程中提供因果解釋. 因果強化學習以無監督的的方式構建環境的因果模型, 實現跨域分布泛化, 并利用因果模型進行推理, 設計有效的干預措施進行策略更新. 本文首先概述了強化學習和因果理論的背景知識, 在此基礎上, 對因果強化學習的研究現狀進行闡述. 針對強化學習領域的兩類研究缺陷, 總結了四類研究方向, 具體包括: 1) 因果表征提取; 2) 可遷移的環境因果模型; 3) 動作效果估計和4) 反事實動作推理.雖然基于因果建模的強化學習控制可以解決強化學習可解釋性和可遷移性的問題, 提升數據利用率, 但是仍存在以下缺點: 1) 依賴不可測試假設. 盡管目前已有多項研究成果可以根據觀測數據估計因果結構, 但這些方法通常是不可擴展的, 依賴于不可測試的假設 (如因果忠誠性假設), 因此難以融入高維、復雜和非線性的強化學習系統. 2) 欠缺理論研究基礎. 目前針對因果強化學習理論層面上的研究還遠遠不夠. 例如在因果表征領域, 現有的可識別性理論研究大多基于非平穩或時序數據, 并且需要對模型類型做出較強的假設. 在更一般的場景下 (如因果關系發生變化或存在瞬時因果關系) 的可識別性理論研究目前還是空白. 3) 難以保證控制性能. 雖然利用因果理論, 動作策略能夠表現出良好的控制效果, 但是基于探索與試錯的方法并不能在理論上保證控制性能的收斂. 目前還沒有一套完善的框架能夠評估因果強化學習的控制策略是否穩定, 這可能阻礙因果理論在強化學習控制系統中的研究發展.綜上, 雖然因果強化學習展現出了具有潛力的應用前景, 但是目前研究成果相對較少, 研究的廣度和深度都略顯不足, 還存在以下待解決的問題.1) 探索歸納偏置對因果強化學習的影響. 歸納偏置指的是學習算法中假設的集合. 目前大多數因果遷移強化學習的研究都是基于獨立因果機制和最小變化原則. 當不滿足條件獨立性假設或沒有額外輔助信息的情況下, 如何選取歸納偏置, 使算法能夠自動檢測分布的變化并在有限時間內保證算法收斂是一個亟待解決的問題.2) 完善潛在因果變量的可識別性理論. 從因果表征的角度來說, 潛在因果變量的可識別性是因果變量提取和因果動態分析的理論基礎. 雖然已有研究表明在非參數非平穩模型或者線性高斯平穩模型的假設下, 潛在因果變量可識別性可以得到保證[82], 但是當變量間因果關系發生變化或存在瞬時因果關系時, 如何基于觀測數據恢復潛在因果變量是一個值得研究的問題.3) 構造因果強化學習框架的穩定性評估機制. 從策略學習的角度來說, 確保控制器的穩定是控制理論中首要考慮的問題. 雖然已有研究表明, 在反事實數據增強的場景下, Q學習可以收斂到最優值函數[81], 但是如何構造一套完整的因果強化學習框架以評估控制策略的穩定性是一個亟待解決的問題.解決上述問題并將因果強化學習推向更廣闊、更現實的應用場景將是未來的研究方向, 具體來說包括以下幾個方面.1) 合理利用觀測數據和干預數據. 在因果強化學習中, 根據有無人為干預可以將數據分為無人為干預的觀測數據和有人為干預的干預數據. 從數據分布上來看, 觀測數據可能受控制策略、混雜因子和潛在因果變量的影響, 干預數據受人為控制的影響, 由這些原因導致的分布不匹配會造成選擇偏倚的問題. 但是如果對選擇偏倚進行適當的修正, 則可以提高數據利用率, 增加模型的可解釋性. 因此在強化學習中合理地利用觀測數據和干預數據, 采取適當的方式將知識分解為獨立因果機制非常具有研究價值.2) 構建普適的基準測試環境. 在強化學習的應用背景下, 傳統的評估指標不足以判斷因果模型的好壞. 大多數研究成果都在不同的實驗場景下驗證算法性能, 無法橫向判斷模型結構的好壞, 也難以衡量因果模型和強化學習算法對控制性能的貢獻程度. 因此構建一個普適的因果強化學習基準數據集, 驗證和比較各類因果強化學習方法就顯得至關重要.3) 將因果強化學習拓展到多智能體場景. 目前針對因果強化學習的研究都是針對單智能體. 在多智能體場景下, 聯合狀態空間和聯合動作空間將隨著智能體個數的增加呈指數性擴大, 極大地加重了計算負擔. 考慮到使用恰當的結構化表征有利于提高系統控制性能, 如何在多智能體系統中構建可遷移的環境因果模型, 減輕計算負擔并提高系統的可解釋性, 將是非常有趣且可行的研究方向.

付費5元查看完整內容

**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。

**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。

付費5元查看完整內容

解耦表征學習(Disentangled Representation Learning,DRL)旨在學習一種能夠識別并解耦蘊含在可觀察數據中的潛在生成因子(underlying factors)的模型。將數據生成的潛在因子解耦出來獲得具有語義意義的解耦表征的過程,有利于學習數據的可解釋表示,它模仿了人類在觀察和理解事物的過程。作為一種通用的學習策略,解耦表征學習在大量的場景中,比如計算機視覺、自然語言處理、數據挖掘,證明了它在提高模型的解釋性、可控性、魯棒性以及泛化能力等方面的強大能力。**本文從動機、定義、方法、評價、應用等方面對解耦表征學習進行了全面的綜述。本文還對解耦模型的設計進行了探討,分析了不同場景下設計解耦表征學習模型的原則。**最后,本文討論了當前解耦表征學習所面臨的挑戰以及未來可能的研究方向。我們希望這篇文章能夠促進解耦表征學習相關研究。

//www.zhuanzhi.ai/paper/2eba883e987ada96eb625dfdeabe8e02

1. 引言

當人類觀察一個物體時,我們試圖在一定先驗知識的基礎上理解這個物體的各種屬性(如形狀、大小和顏色等)。然而,現有的端到端的、黑盒的深度學習模型采用了直接學習對象的表征,來擬合數據分布和判別標準的捷徑策略,而無法類人地提取數據生成的潛在因子。為了填補這一空白,一種重要的表征學習范式——解耦表征學習被提出,并繼而引發了學術界的廣泛關注。

**作為一種通用的學習范式,解耦表征學習泛指能夠識別和解耦觀察數據的潛在生成因子的機器學習模型。**現有文獻證明了解耦表征學習能夠像人類一樣學習和理解世界的潛力。解耦表征學習也在計算機視覺、自然語言處理和數據挖掘等領域得到了廣泛得到應用,證明了它在提高模型的解釋性、可控性、魯棒性以及泛化能力等方面的強大能力。

解耦表征學習旨在學習數據的潛在生成因子,并在表征空間為每個生成因子學習到互相解耦的隱變量,即為潛在生成因子學習到解耦的表征。以Shape3D數據集上的解耦為例,如下圖,對于觀察到的3D圖形組合,我們需要識別并解耦物體大小、物體形狀、物體顏色以及墻的背景色、地板顏色、觀察角度這6個生成因子。 本文從動機、定義、方法、評價、應用等方面對解耦表征學習(DRL)進行了全面的綜述。我們將DRL的方法分為四大類即,傳統統計方法,基于變分自編碼器的方法,基于生成對抗網絡的方法以及其他方法;我們討論了解耦表征學習在計算機視覺、自然語言處理和推薦系統等方面的應用;我們還為在不同場景下如何設計解耦模型提供了一些思考和見解;最后我們探討了解耦表征學習未來的研究方向。

2. 定義

直觀的定義。根據Bengio在提出解耦表征學習時給出的定義以及學術界廣泛使用的定義,我們將常用的定義總結為:解耦表征學習應該分離數據中不同的、獨立的和信息豐富的生成因子。單個隱變量對單個潛在生成因子的變化敏感,而對其他因子的變化保持不變。

除了直觀的定義,也有人從群論和因果推斷的角度給出了更為形式化的定義。

3. 方法

我們將DRL的方法分為四大類即,傳統統計方法,基于變分自編碼器的方法,基于生成對抗網絡的方法以及其他方法,對每一種方法我們都闡述了其中的一些代表性工作。方法的分類如下圖所示。

傳統統計方法

傳統的統計方法雖然沒有深度架構,但一直以來都能有效地解耦向量空間中的潛在因子,其中以主成分分析和獨立成分分析最具代表性。雖然這些淺層模型不是本文的重點,但我們仍然提供了簡要的描述,以確保完整性。有興趣的讀者可以參考更多的統計文獻。

基于變分自編碼器(VAE)的方法

變分自動編碼器(VAE)[16]是自動編碼器的一個變種,它采用了變分推理的思想。VAE最初是作為圖像生成的深度生成概率模型提出的。后來的研究人員發現VAE還具有學習簡單數據集上解糾纏表示的潛在能力(例如,FreyFaces [16], MNIST[49])。為了獲得更好的解糾纏性能,研究人員設計了各種額外的正則化子與原有的VAE損失函數相結合,形成了基于VAE的方法族。通用VAE模型結構如下圖所示。

基于生成對抗網絡(GAN)的方法

GAN (Generative Adversarial Nets)[17]作為Goodfellow等人提出的另一種重要的生成模型,引起了研究人員的廣泛關注。GAN沒有采用傳統的貝葉斯統計方法,而是直接從先驗分布p(z)中采樣潛表示z。具體來說,GAN有一個生成網絡(生成器)G和一個判別網絡(鑒別器)D,其中生成器G模擬一個復雜的未知生成系統,將潛表示z轉換為生成的圖像,而鑒別器D接收一個圖像(真實的或由G生成的)作為輸入,然后輸出輸入圖像為真實的概率。在訓練過程中,生成器G的目標是生成可以欺騙鑒別器D的圖像,使其相信生成的圖像是真實的。同時,鑒別器D的目標是區分生成器G生成的圖像與真實圖像。因此,生成器G和鑒別器D構成了一個動態對抗性極大極小博弈。理想情況下,生成器G最終可以生成一個看起來像真實圖像的圖像,因此鑒別器D無法確定生成器G生成的圖像是否是真實的。

層次方法

在實踐中,許多生成過程自然涉及分層結構[70],其中變異因素具有不同層次的語義抽象,或跨層次依賴或獨立。例如,在CelebA數據集[50]中,控制性別的因子比控制眼影的獨立因子具有更高的抽象程度,而在Spaceshapes數據集[70]中,控制形狀的因子和控制相位的因子之間存在依賴關系,例如,只有當物體形狀等于“月亮”時,“相位”的維度才是活躍的。為了捕獲這些層次結構,人們提出了一系列工作來實現層次解纏

4. 應用

**

**

鑒于解耦表征學習能夠高效地學習可解釋性、可控性和魯棒性的表征,其被廣泛運用于各類機器學習任務。 在圖像和視覺領域,DRL往往被用于實現語義可控的圖像生成及圖像翻譯。解耦的潛在生成因子有助于實現圖像生成場景的連貫和穩健性,并進一步增強和圖像生成的可控性和可用性。此外,DRL也被用于圖像分類、圖像檢索、圖像分割、事件檢測、特征學習等任務。 除了靜態圖像,DRL也有助于視頻分析任務,包括視頻預測、視頻檢索和動作重定向(Motion Retargeting)等。 在自然語言處理領域,DRL被廣泛地應用于文本表征學習、文本風格遷移。在此類任務中,解耦的對象往往是特定語義的、粗粒度的表征,例如解耦文本的詞法和語義表征、語句的風格和內容表征等。此外,DRL也在文本語義匹配、社交文本分析、大語言模型分析中起到了有效的作用。 在推薦領域和圖學習領域,DRL往往能夠捕捉不同抽象層次的特征、學習不同領域的信息,并從錯綜復雜的關聯關系中學習潛在因子,得到更本質的表征,因此也得到了極大的研究應用。 另外,在多模態場景下,DRL有助于實現不同模態表征的分離、對齊和泛化,因此被應用于跨模態表征學習、跨模態情感分析、文本驅動圖像生成等多模態任務中。

5. 設計

基于對實際應用中普遍采用的解耦表征學習策略的討論,我們提出了針對特定任務設計各種DRL模型的策略。我們總結了設計DRL模型的兩個關鍵因素: 1)根據具體的任務設計恰當的表征結構,通常根據解耦的表征形式分為dimension-wise或vector-wise的表征結構; 2)設計相應的損失函數,鼓勵表征被解耦,同時不損失特定任務的信息。對于損失函數的設計,我們將DRL模型分為生成式模型(generative model)和鑒別式模型(discriminative model)。簡而言之,生成式模型注重學習過程中的解耦和重建,而鑒別式模型注重在解耦表征的基礎上完成特定的下游任務。

6. 未來方向

最后,我們提出了一些解耦表征學習的潛在研究方向,包括: 1)多樣化場景。在更多樣化的場景和更復雜的數據集上對DRL進行理論性分析和評估。 2)多樣的學習范式。除了基于VAE和GAN的范式外,使用更多的學習范式實現DRL模型。 3)可解釋性和泛化性。繼續在不同學習形式、不同任務上探究DRL的可解釋性和泛化性。

付費5元查看完整內容

為了應對現實世界的動態變化,智能體需要在其生命周期中增量地獲取、更新、積累和利用知識。這種能力被稱為持續學習,為人工智能系統自適應發展提供了基礎

在一般意義上,持續學習明顯受到災難性遺忘的限制,學習新任務通常會導致舊任務的性能急劇下降。除此之外,近年來出現了越來越多的進展,在很大程度上擴展了持續學習的理解和應用。人們對這一方向日益增長和廣泛的興趣表明了它的現實意義和復雜性。本文對持續學習進行了全面的調研,試圖在基本設置、理論基礎、代表性方法和實際應用之間建立聯系。基于現有的理論和實證結果,將持續學習的一般目標總結為:在資源效率的背景下,確保適當的穩定性-可塑性權衡,以及充分的任務內/任務間泛化能力。提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續學習,以及它們如何適應各種應用中的特定挑戰。通過對持續學習當前趨勢、跨方向前景和與神經科學的跨學科聯系的深入討論,相信這種整體的視角可以極大地促進該領域和其他領域的后續探索。

1. 引言

學習是智能系統適應環境的基礎。為了應對外界的變化,進化使人類和其他生物具有很強的適應性,能夠不斷地獲取、更新、積累和利用知識[148]、[227]、[322]。自然,我們期望人工智能(AI)系統以類似的方式適應。這激發了持續學習的研究,其中典型的設置是逐一學習一系列內容,并表現得就像同時觀察到的一樣(圖1,a)。這些內容可以是新技能、舊技能的新示例、不同的環境、不同的背景等,并包含特定的現實挑戰[322],[413]。由于內容是在一生中逐步提供的,因此在許多文獻中,持續學習也被稱為增量學習或終身學習,但沒有嚴格的區分[70],[227]。

與傳統的基于靜態數據分布的機器學習模型不同,持續學習的特點是從動態數據分布中學習。**一個主要的挑戰被稱為災難性遺忘[291],[292],對新分布的適應通常會導致捕獲舊分布的能力大大降低。**這種困境是學習可塑性和記憶穩定性權衡的一個方面:前者過多會干擾后者,反之亦然。除了簡單地平衡這兩方面的“比例”外,持續學習的理想解決方案應該獲得強大的泛化能力,以適應任務內部和任務之間的分布差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕松解決上述挑戰,但會產生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。

**許多努力致力于解決上述挑戰,可以在概念上分為五組(圖1,c):**參考舊模型添加正則化項(基于正則化的方法);逼近和恢復舊數據分布(基于回放的方法);顯式操作優化程序(基于優化的方法);學習魯棒和良好泛化的表示(基于表示的方法);以及使用正確設計的體系結構構建任務自適應參數(基于體系結構的方法)。該分類法擴展了常用分類法的最新進展,并為每個類別提供了細化的子方向。總結了這些方法是如何實現所提出的一般目標的,并對其理論基礎和典型實現進行了廣泛的分析。特別是,這些方法是緊密聯系的,例如正則化和重放最終糾正優化中的梯度方向,并且具有高度的協同性,例如,重放的效果可以通過從舊模型中提取知識來提高。 現實應用對持續學習提出了特殊的挑戰,可以分為場景復雜性和任務特異性。對于前者,例如,在訓練和測試中可能缺少任務oracle(即執行哪個任務),訓練樣本可能是小批量甚至一次引入的。由于數據標記的成本和稀缺性,持續學習需要在少樣本、半監督甚至無監督的場景中有效。對于后者,雖然目前的進展主要集中在視覺分類,但其他視覺領域(如目標檢測、語義分割和圖像生成)以及其他相關領域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關注,其機遇和挑戰。

**考慮到持續學習的興趣顯著增長,我們相信這項最新和全面的調研可以為后續的工作提供一個整體的視角。**盡管有一些關于持續學習的早期調研,覆蓋面相對較廣[70],[322],但近年來的重要進展并未被納入其中。相比之下,最新的調研通常只整理持續學習的局部方面,關于其生物學基礎[148],[156],[186],[227],視覺分類的專門設置[85],[283],[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據我們所知,這是第一個系統總結持續學習的最新進展的調研。基于這些優勢,我們就當前趨勢、跨方向前景(如擴散模型、大規模預訓練、視覺轉換器、具體AI、神經壓縮等)以及與神經科學的跨學科聯系,深入討論了持續學習。

主要貢獻包括:

(1) 對持續學習進行了最新而全面的綜述,以連接理論、方法和應用的進步;

(2) 根據現有的理論和實證結果,總結了持續學習的一般目標,并對具有代表性的策略進行了詳細的分類; (3) 將現實應用的特殊挑戰分為場景復雜性和任務特殊性,并廣泛分析了持續學習策略如何適應這些挑戰; (4)深入探討了當前研究趨勢和發展方向,以期為相關領域后續工作提供參考本文的組織如下: 在第2節中,我們介紹了持續學習的設置,包括其基本公式,典型場景和評估指標。在第3節中,我們總結了一些針對其一般目標的持續學習的理論努力。在第4節中,我們對具有代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現。在第5節和第6節中,我們描述了這些策略如何適應場景復雜性和任務特異性的現實挑戰。在第7節中,我們提供了當前趨勢的討論,交叉方向的前景和神經科學的跨學科聯系。

在本節中,我們詳細介紹了代表性持續學習方法的分類(參見圖3和圖1,c),并廣泛分析了它們的主要動機、典型實現和經驗屬性。

Regularization-based 方法

該方向的特點是添加顯式正則項來平衡新舊任務,這通常需要存儲舊模型的凍結副本以供參考(見圖4)。根據正則化的目標,這類方法可以分為兩類。

Replay-based 方法

將近似和恢復舊數據分布的方法分組到這個方向(見圖5)。根據回放的內容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰。

Optimization-based 方法

持續學習不僅可以通過向損失函數添加額外的項(例如正則化和重放)來實現,還可以通過顯式地設計和操作優化程序來實現。

Representation-based 方法

將創建和利用持續學習表示優勢的方法歸為這一類。除了早期通過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結合自監督學習(SSL)[125]、[281]、[335]和大規模預訓練[295]、[380]、[456]的優勢,以改進初始化和持續學習中的表示。請注意,這兩種策略密切相關,因為預訓練數據通常數量巨大且沒有明確的標簽,而SSL本身的性能主要通過對(一系列)下游任務進行微調來評估。下面,我們將討論具有代表性的子方向。

Architecture-based 方法

上述策略主要集中在學習所有具有共享參數集的增量任務(即單個模型和一個參數空間),這是導致任務間干擾的主要原因。相反,構造特定于任務的參數可以顯式地解決這個問題。以往的工作通常根據網絡體系結構是否固定,將該方向分為參數隔離和動態體系結構。本文專注于實現特定任務參數的方式,將上述概念擴展到參數分配、模型分解和模塊化網絡(圖8)。

付費5元查看完整內容

摘要

強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。

在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。

簡介

強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。

然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。

從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。

這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。

雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。

總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。

付費5元查看完整內容

摘要

推薦系統已經被廣泛應用于不同的現實生活場景,幫助我們找到有用的信息。近年來,基于強化學習(RL)的推薦系統已經成為一個新興的研究課題。由于其交互性和自主學習能力,它常常超過傳統的推薦模型,甚至是最基于深度學習的方法。然而,在推薦系統中應用RL還面臨著各種挑戰。為此,我們首先對五種典型推薦場景的RL方法進行了全面的概述、比較和總結,以下是三個主要的RL類別: 價值函數、策略搜索和演員-評論員(Actor-Critic)。然后,在現有文獻的基礎上,系統分析了面臨的挑戰和相應的解決方案。最后,通過對RL研究中存在的問題和局限性的討論,指出了該領域潛在的研究方向。

//arxiv.org/abs/2109.10665

引言

個性化推薦系統能夠提供符合用戶喜好的有趣信息,從而有助于緩解信息過載問題。在過去的二十年中,人們對推薦系統進行了廣泛的研究,開發了許多推薦方法。這些方法通常根據用戶的喜好、商品特征和用戶與商品的交互來進行個性化的推薦。一些推薦方法還利用其他附加信息,如用戶之間的社會關系(例如,社會推薦)、時間數據(例如,順序推薦)和位置感知信息(例如,POI(“興趣點”的縮寫)推薦。

推薦技術通常利用各種信息為用戶提供潛在的項目。在現實場景中,推薦系統根據用戶與商品的交互歷史進行商品推薦,然后接收用戶反饋進行進一步推薦。也就是說,推薦系統的目的是通過交互獲取用戶的偏好,并推薦用戶可能感興趣的項目。為此,早期的推薦研究主要集中在開發基于內容和基于協同過濾的方法[2],[3]。矩陣分解是傳統推薦方法中最具代表性的方法之一。近年來,由于深度學習的快速發展,各種神經推薦方法被開發出來[4]。然而,現有的推薦方法往往忽略了用戶與推薦模型之間的交互。它們不能有效地捕捉到用戶的及時反饋來更新推薦模型,往往導致推薦結果不理想。

一般來說,推薦任務可以建模為這樣一個交互過程——用戶被推薦一個商品,然后為推薦模型提供反饋(例如,跳過、點擊或購買)。在下一次交互中,推薦模型從用戶的顯式/隱式反饋中學習,并向用戶推薦一個新項目。從用戶的角度來看,高效的交互意味著幫助用戶盡快找到準確的商品。從模型的角度看,有必要在推薦的多輪中平衡新穎性、相關性和多樣性。交互式推薦方法已成功應用于現實世界的推薦任務中。然而,該方法經常遇到一些問題,如冷啟動[5]和數據稀疏[6],以及挑戰,如可解釋性[7]和安全性[8]。

作為一個機器學習領域,強化學習(RL)專注于智能代理如何與環境交互,提供了潛在的解決方案來模擬用戶和代理之間的交互。最近RL的成功推動了人工智能[9],[10]的研究。特別是,深度強化學習(DRL)[11]具有強大的表示學習和函數逼近特性,可以解決人工智能的挑戰。它已被應用于各個領域,如游戲[12],機器人[13],網絡[14]。近年來,應用RL解決推薦問題已成為推薦研究的一個新趨勢。具體來說,RL使推薦代理能夠不斷地與環境(例如,用戶和/或記錄的數據)交互,以學習最佳推薦策略。在實踐中,基于RL的推薦系統已經被應用到許多特定的場景中,如電子商務[18]、電子學習[19]、電影推薦[20]、音樂推薦[21]、新聞推薦[22]、工作技能推薦[23]、醫療保健[24]、能量優化[25]等。

為促進基于RL的推薦系統的研究,本文總結了現有的推薦問題的相關解決方案,系統分析了在推薦方法中應用RL所面臨的挑戰,并探討了未來潛在的研究方向。本文從理論研究的角度,回顧了已有的研究工作,包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。環境建設可以緩解勘探開發的取舍。先驗知識和獎勵定義是進行推薦決策的關鍵。此外,任務結構化可以很好地解決維度的詛咒。從應用的角度,我們還提供了基于RL的推薦系統的全面調研,分別遵循價值函數、策略搜索和演員評論。值得注意[26]的是還提供了對基于RL和drl的推薦算法的回顧,并在推薦列表、架構、可解釋性和評估方面提出了幾個研究方向。[27]主要從基于模型的方法和無模型的算法兩方面對基于drl的推薦系統進行了概述,并重點介紹了基于drl的推薦中一些有待解決的問題和新興的課題。與[26]和[27]不同的是,我們根據其他分類算法(即價值函數、策略搜索和角色-評論)概述了現有的(D)RL推薦方法,并分析了在推薦系統中應用(D)RL的挑戰。

本工作的主要貢獻如下:

  • 我們全面回顧了為五種典型推薦方案開發的RL方法。對于每個推薦場景,我們提供了有代表性的模型的詳細描述,總結了文獻中使用的具體RL算法,并進行了必要的比較。

  • 我們系統地分析了在推薦系統中應用RL所面臨的挑戰,包括環境構建、先驗知識、獎勵函數定義、學習偏差和任務構建。

  • 我們還討論了RL的開放問題,分析了該領域的實際挑戰,并提出了未來可能的研究和應用方向。

本文的其余部分結構如下。第2節介紹了RL的背景,定義了相關的概念,列出了常用的方法。第三節給出了基于rl的推薦方法的標準定義。第4節全面回顧了為推薦系統開發的RL算法。第五部分討論了在推薦系統中應用RL所面臨的挑戰和相應的解決方案。接下來,第6節討論了基于rl的推薦系統的各種限制和潛在的研究方向。最后,第7節總結了本研究。

付費5元查看完整內容

強化學習(RL)[17]和因果推理[10]都是機器學習不可缺少的組成部分,在人工智能中都發揮著至關重要的作用。最初促使我整合這兩者的是機器學習在醫療保健和醫學領域的最新發展。回顧過去,人類自出生以來就不可避免地伴隨著疾病,并為追求健康而不懈地與疾病作斗爭。近幾十年來,機器學習的蓬勃發展促進了醫療保健領域的革命性發展:一些人工智能系統在癌癥分類[1]、癌癥檢測[8]、糖尿病視網膜病變檢測[3]、致盲性視網膜疾病診斷[7]等方面已經接近甚至超過了人類專家。得益于計算能力和能力的持續激增,人工智能(AI)無疑將幫助重塑醫學的未來。想象一下這樣的場景:在未來,每個人都有一個個性化的人工智能醫生在自己的桌子上,記錄著他們從出生開始的所有病歷數據。根據個人的醫療數據,可以提前預測和預防個人的死亡,或至少及時治愈,這在很大程度上可以延長人的預期壽命。

然而,目前成功應用于上述醫療問題的方法僅僅是基于關聯而不是因果關系。在統計學中,人們普遍認為關聯在邏輯上并不意味著因果關系[10,12]。關聯與因果之間的關系由萊辛巴赫·[14]將其形式化為著名的共同原因原理:如果兩個隨機變量{X}和{Y}在統計學上是相互依存的,那么下面的一個因果解釋必須成立:a) {X}導致{Y};b) {Y}導致{X};c)存在一個隨機變量{Z},它是引起{X}和{Y}的共同原因。因此,與關聯相比,因果關系更進一步,探索變量之間更本質的關系。因果推理的中心任務是揭示不同變量之間的因果關系。理解一個系統的因果結構將使我們具備以下能力:(1)預測如果某些變量被干預會發生什么;(2)評估影響干預及其結果[9]的混雜因素的影響;(3)使我們能夠預測以前從未觀察到的情況的結果。如果我們將醫學中的治療視為干預,將治療效果視為結果(例如,理解藥物對患者健康的影響,評估未觀察到的混雜因素對治療和患者總體福祉的影響,評估患者疾病的不同治療的存活率,等等),這些能力正是醫療保健所需要的,但大多數現有的方法尚未具備。這就是為什么因果關系在開發真正智能的醫療保健算法中扮演著關鍵角色。

在因果推理中實施干預概念的一個自然想法是利用RL中的動作概念[17,2]。更具體地說,agent可以根據其當前狀態,通過采取不同的行動(干預)來觀察環境狀態的變化,并獲得即時的回報(結果)。然而,agent的目標是最大化預期累積報酬,這表明RL本身不具備進行因果推理的能力。因此,因果推理通過推斷狀態之間或狀態與動作之間的因果關系,如減少狀態或動作空間,處理混淆,進而幫助RL更高效、更有效地學習價值函數或策略。可見因果關系與強化學習是互補的,可以從因果關系的角度加以整合,從而促進兩者的發展。

為此,我們建議將因果推理整合到RL中,使RL能夠在復雜的現實醫學問題中推斷數據之間的因果效應。利用這兩方面的優勢,我們可以根據未觀察到的對患者健康的混雜因素的存在來評估治療的真正實際效果,并在與患者互動的過程中進一步找到最佳的治療策略。以敗血癥為例,敗血癥是一種危及生命的疾病,當身體對感染的反應導致自身組織和器官受損時就會出現,它是重癥監護病房死亡的主要原因,每年給醫院造成數十億[13]的損失。在解決敗血癥治療策略方面,RL通常將所測量的生理參數,包括人口統計、實驗室值、生命體征和攝入/輸出事件[6,13]視為指導患者進一步治療和劑量的狀態。然而,在這一過程中可能不可避免地會有一些未被觀察到的混雜因素對治療策略產生重大影響,這在目前的RL框架內很難處理。幸運的是,我們可以利用因果推理來解決這個問題,評估潛在的隱性混雜因素對治療和患者健康的影響,從而相應地調整治療策略。

事實上,回顧科學史,人類總是以一種類似因果強化學習(causal reinforcement learning,因果RL)的方式前進。更具體地說,人類從與大自然的互動中總結出規則或經驗,然后利用這些經驗來提高自己在下一次探索中的適應能力。因果關系RL所做的就是模擬人類行為,從與環境溝通的agent那里學習因果關系,然后根據所學到的因果關系優化其策略。

我強調這個類比的原因是為了強調因果性RL的重要性,毫無疑問,它將成為人工通用智能(AGI)不可缺少的一部分,不僅在醫療保健和醫藥領域,而且在所有其他的RL場景中都有巨大的潛在應用。與RL相比,因果RL繼承了因果推理的兩個明顯優勢:數據效率和最小的變化。眾所周知,RL算法非常需要數據。相反,因果性RL不是由數據驅動的,因為因果圖是最穩定的結構,它由“必須擁有”關系組成,而不是由聯想圖中的“nice-to-have”關系組成。換句話說,只要存在因果關系,他們就不會受到數據的影響,不管影響有多大。從因果推理的角度來看,一旦我們知道了因果結構,我們就可以不需要或只需要很少的實驗就可以回答大量的干涉性和反事實性問題,這將大大減少我們對數據的依賴。例如,如果事先提供了一些關于行為的因果知識,或者可以從最初的實驗中學到一些知識,那么行為空間就會按指數方式縮小。另一個吸引人的特性是最小變化,我指的是當環境或領域發生變化時,只有最小的(條件)分布集會發生變化。從因果的觀點來看,假設條件的不變性是有意義的,如果條件代表因果機制[4,15,10]。直觀上,因果機制可以被看作是物理世界的屬性,就像牛頓的運動定律,它不取決于我們給它喂食什么。如果輸入發生了變化,其因果機制仍保持不變[5,11]。然而,反因果方向的條件將受到輸入[6]的影響。因此,當環境發生變化時,因果關系的RL將發生最小的變化。事實上,最小更改的一個直接好處是數據效率,因為代理可以將它們從一個環境學到的不變的因果知識轉移到另一個環境,而不需要從頭學習。

參考鏈接:

//causallu.com/2018/12/31/introduction-to-causalrl/

付費5元查看完整內容
北京阿比特科技有限公司