約束強化學習(CRL)最近引起了人們的極大興趣,因為滿足安全約束對現實世界的問題至關重要。然而,現有的CRL方法對折現累積成本的約束通常缺乏嚴格的定義和安全性保證。另一方面,在安全控制研究中,安全被定義為持續滿足一定的狀態約束。這種持久安全只在狀態空間的一個子集上是可能的,這個子集被稱為可行集,對于給定的環境存在一個最優最大可行集。近年來的研究利用基于能量的方法,如控制屏障函數(CBF)、安全指數(SI)等,將安全控制與CRL相結合,利用可行集的先驗保守估計,影響了學習策略的性能。針對這一問題,本文提出了一種可達性CRL (RCRL)方法,利用可達性分析來刻畫最大可行集。我們用建立的自一致性條件刻畫可行集,然后學習一個安全值函數作為CRL的約束。我們還利用多時間尺度隨機逼近理論證明了所提算法收斂于局部最優,其中最大可行集是可以保證的。不同基準上的經驗結果,如safecontrol-gym和Safety-Gym驗證了學習的可行集,在最優標準中的性能,以及RCRL的約束滿足,與最先進的CRL基線進行了比較。
//www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8
反事實的解釋提供了從機器學習模型中獲得預期結果的方法。然而,這樣的解釋對于基礎模型中的某些真實世界的變化(例如,重新訓練模型,改變超參數,等等)并不是魯棒的,在幾個應用中質疑它們的可靠性,例如,信貸。在這項工作中,我們提出了一種新的策略——我們稱之為RobX——來為基于樹的集成生成魯棒的反事實,例如XGBoost。基于樹的集成在魯棒的反事實生成中帶來了額外的挑戰,例如,它們具有非光滑和不可微的目標函數,并且在非常相似的數據上進行再訓練時,它們可以在參數空間中發生很大的變化。我們首先引入了一種新的度量——我們稱之為反事實穩定性——它試圖量化反事實對再訓練下的模型變化的穩健性,并帶來理想的理論屬性。我們提出的策略RobX適用于任何反事實生成方法(基礎方法),并通過使用我們的度量反事實穩定性迭代改進基礎方法生成的反事實來搜索魯棒的反事實。我們在基準數據集上比較了RobX與流行的反事實生成方法(基于樹的集成)的性能。結果表明,我們的策略生成的反事實比現有的最先進的方法更魯棒(在實際模型更改后,其有效性接近100%),而且也更現實(就局部異常因素而言)。
隨著時間的推移,對反事實結果的估計有可能幫助決策者回答“如果”問題,從而解鎖個性化醫療保健。現有的因果推斷方法通常考慮觀察和處理決定之間的規則的、離散的時間間隔,因此無法自然地對不規則采樣數據建模,而這是實踐中常見的設置。為了處理任意的觀察模式,我們將數據解釋為一個連續時間過程的樣本,并提出使用控制微分方程數學對其潛在軌跡進行顯式建模。這導致了一種新的方法,即治療效果神經控制微分方程(TE-CDE),它允許在任何時間點評估潛在的結果。此外,對抗性訓練用于調整時間依賴性混淆,這在縱向設置中是至關重要的,是傳統時間序列中沒有遇到的額外挑戰。為了評估這個問題的解決方案,我們提出了一個基于tumor生長模型的可控模擬環境,用于一系列場景,不規則抽樣反映各種臨床場景。TE-CDE在不規則采樣的所有模擬場景中都優于現有方法。 //www.zhuanzhi.ai/paper/ea43838ec44c8c99431d950f48ed55d4
時間序列對齊方法需要具有高度表達性、可微性和可逆性的扭曲函數來保持時間拓撲,即差分同構。在常微分方程(ODE)控制下的速度場積分可以產生異形扭曲函數。包含異構變換的基于梯度的優化框架需要計算微分方程的解對模型參數的導數,即敏感性分析。不幸的是,深度學習框架通常缺乏自動微分兼容的靈敏度分析方法;隱函數,比如ODE的解,需要特別小心。目前的解決方案呼吁伴隨靈敏度方法,特別的數值求解或ResNet的歐拉離散化。在這項工作中,我們提出了一個閉合形式的ODE解及其梯度在連續分段仿射(CPA)速度函數。我們提出了一個高度優化的結果在CPU和GPU上的實現。此外,我們在多個數據集上進行了大量的實驗,以驗證我們的模型對不可見數據的泛化能力。結果表明,在效率和準確性方面都有顯著提高。 //www.zhuanzhi.ai/paper/6bf12cef7552c6267240f4067265d338
論文題目:Learning to Weight Imperfect Demonstrations (ICML 2021)
作者:Yunke Wang, Chang Xu, Bo Du, Honglak Lee
論文概述:這篇論文主要解決的問題是如何在生成對抗模仿學習(GAIL)中為不完美專家演示加權。模仿學習期望智能體通過模仿專家的行為來進行學習,然而在許多現實世界的任務中專家也會犯錯,由此產生的不完美專家演示將會嚴重誤導智能體的學習。目前,已有的一些基于加權和偏好學習的解決不完美專家演示的方法往往依賴額外的先驗信息,無法在更普遍和通用的模仿學習設置下使用。因此,本文提出了一種在生成對抗模仿學習的框架下為專家演示自動生成權重的方法,通過嚴格的數學證明,我們發現專家演示的權重可以在訓練中由GAIL中的判別器和智能體策略估算得到。理論分析顯示,當我們使用該估算的權重,智能體事實上在學習一個比原始給定的專家策略更優的策略。在Mujoco和Atari上的實驗結果顯示了算法的優越性。
在現實世界中,存在許多難以用數學方法指定的約束條件。然而,對于強化學習(RL)的現實部署來說,RL agent意識到這些約束條件是至關重要的,這樣它們才能安全地行動。在這項工作中,我們考慮了學習約束的問題,從一個遵守約束的行為的示范。我們通過實驗驗證了我們的方法,并證明了我們的框架能夠成功地學習agent所尊重的最有可能的約束。我們進一步證明,這些習得的約束是可轉移到新個體的,這些新個體可能具有不同的形態和/或獎賞功能。在這方面,之前的工作要么主要局限于表格(離散)設置、特定類型的約束,要么假設環境的過渡動力學。相比之下,我們的框架能夠在完全無模型的環境中學習高維中的任意文本{馬爾可夫}約束。代碼可在:\url{//github.com/shehryar-malik/icrl}。
Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。
當前的大多數自監督表示學習 (SSL) 方法都基于對比損失和實例判別任務,即其中同一圖像實例的數據增強版本(“正樣本”)與從其他圖像中提取的實例(“負樣本”)進行對比。為了保證學習有效,應將許多負樣本與正樣本對進行比較,這在計算上要求很高。在本文中,我們為SSL提出了一個不同的方向和一個新的損失函數,它基于對隱空間特征的白化操作,且只需要正樣本對,無需負樣本對的訓練。白化操作對批量樣本具有“散射”效應,避免只用正樣本時所有樣本表示收斂到單個點的退化解。同時,和先前無需負樣本的SSL相比,所提方法不需要非對稱網絡,并且在概念上也很簡單。
本篇論文的貢獻有:
1.本文提出了一種新的SSL損失函數,Whitening MSE (W-MSE)。W-MSE 將批量樣本限制在球形分布中,它是對比損失的替代方法。 2.所提的損失函數不需要大量的負樣本,因此我們可以在當前批次中包含更多的正樣本對。同時,論文實驗證明了從一張圖像中提取的多個正樣本對可提高了模型性能。 3.通過相關實驗驗證了W-MSE的在各個任務上的有效性。
當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。