亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

高效探索高維狀態空間的能力對于深度強化學習(RL)的實際成功至關重要。本文介紹了一種名為隨機潛在探索(Random Latent Exploration,RLE)的新探索技術,該技術結合了獎勵加成和噪聲加成(兩種深度RL中有效探索的流行方法)的優勢。RLE利用了通過在環境的某些(隨機)狀態中向原始任務獎勵添加結構化隨機獎勵來擾動獎勵的想法,以鼓勵代理在訓練過程中探索環境。RLE實現簡單,實踐效果良好。為了展示RLE的實際有效性,我們在具有挑戰性的ATARI和ISAACGYM基準上進行了評估,結果表明RLE在所有任務中表現出的總體得分高于其他方法。

付費5元查看完整內容

相關內容

在本文中,我們考慮了多目標強化學習,這在具有多個優化目標的許多實際問題中出現。我們采用最大-最小框架來解決這一問題,重點關注多個目標之間的公平性,并在最大-最小框架下開發了相關理論和實用的無模型算法。所開發的理論在多目標強化學習方面提供了理論上的進步,而提出的算法在性能上顯著優于現有的基準方法。

付費5元查看完整內容

時空時間序列預測在許多現實世界應用中起著關鍵作用。盡管在這一領域已經取得了顯著進展,但完全捕捉和利用時空異質性仍然是一個基本挑戰。因此,我們提出了一種新穎的異質性知情的元參數學習方案。具體而言,我們的方法通過學習空間和時間嵌入隱式地捕捉時空異質性,這可以看作是一個聚類過程。然后,提出了一種新的時空元參數學習范式,從元參數池中學習時空特定的參數,這些參數是由捕捉到的異質性信息提供的。 基于這些想法,我們開發了一種用于時空時間序列預測的異質性知情時空元網絡(HimNet)。在五個廣泛使用的基準數據集上進行了廣泛的實驗,結果表明我們的方法達到了最先進的性能,同時表現出優越的可解釋性。我們的代碼可在 //github.com/XDZhelheim/HimNet 獲取。

付費5元查看完整內容

圖級異常檢測 (GLAD) 旨在識別與集合中的大多數相比呈現顯著差異的圖。然而,當前的研究主要集中在評估圖級的異常性,而未能為預測提供有意義的解釋,這在很大程度上限制了它們的可靠性和應用范圍。在本文中,我們研究了一個新的具有挑戰性的問題,即可解釋的GLAD,其學習目標是預測每個圖樣本的異常性及相應的解釋,即導致預測的關鍵子圖。為了解決這一具有挑戰性的問題,我們提出了一個自解釋的圖異常檢測模型(簡稱SIGNET),它可以同時檢測異常圖并生成有益的解釋。具體地說,我們首先介紹多視圖子圖信息瓶頸 (MSIB) 框架,作為我們自解釋GLAD方法的設計基礎。這樣,SIGNET不僅能夠基于交叉視圖互信息測量每個圖的異常性,而且還能夠通過從輸入圖和其雙重超圖中提取瓶頸子圖以自我監督的方式提供有益的圖理由。在16個數據集上的廣泛實驗展示了SIGNET的異常檢測能力和自解釋性。

付費5元查看完整內容

在許多實際情境中,安全探索對于增強學習(RL)的實用性至關重要。在本文中,我們提出了一個通用安全探索(GSE)問題,作為常見安全探索問題的統一公式。接著,我們提出了一個安全探索的元算法MASE作為GSE問題的解決方案,該算法結合了一個無約束的RL算法和一個不確定性量化器,以保證在當前情節中的安全,同時在實際安全違規之前適當地懲罰不安全的探索,以防止它們在未來的情節中出現。MASE的優勢在于,我們可以在保證有很高概率不會違反任何安全約束的情況下,優化策略。具體來說,我們提出了兩種不同構造的不確定性量化器的MASE變體:一種基于帶有安全和接近最優性理論保證的廣義線性模型,另一種結合了高斯過程以確保安全性和深度RL算法以最大化獎勵。最后,我們證明了我們提出的算法在格子世界和Safety Gym基準測試中比現有技術更優秀,即使在訓練期間也不違反任何安全約束。

//www.zhuanzhi.ai/paper/bfda323a5d9d59281497f4e599b516b8

付費5元查看完整內容

持續學習系統從以前看到的任務中遷移知識,以最大限度地提高新任務的性能的能力,是該領域的一個重大挑戰,限制了持續學習解決方案對現實場景的適用性**。因此,本研究旨在拓展我們對持續強化學習中遷移及其驅動力的理解**。我們采用SAC作為底層RL算法,連續世界作為一組連續控制任務。我們系統地研究了SAC的不同組成部分(參與者和批評者、探索和數據)如何影響傳輸效果,并提供了關于各種建模選項的建議。最好的一組選擇被稱為ClonEx-SAC,是根據最近的Continual World基準進行評估的。ClonEx-SAC的最終成功率為87%,而PackNet的成功率為80%,是基準測試中最好的方法。此外,根據Continual World提供的度量,轉移從0.18增長到0.54。

//www.zhuanzhi.ai/paper/99cc5ece0419e33748b0af9d2cd8fdff

付費5元查看完整內容

本文介紹被AAAI22接收的新工作。我們是第一個探索了 針對隨機平滑(Randomized Smoothing)的高效的針對隨機平滑的魯棒性認證方法。隨機平滑是一種常見且SOTA 的認證防御(certified defense),但其一個主要缺點在于 魯棒認證的時候計算開銷過大。

論文題目:Input-Specific Robustness Certification for Randomized Smoothing

作者信息:Ruoxin Chen, Jie Li*, Junchi Yan, Ping Li, Bin Sheng

關鍵詞:對抗攻擊、可認證魯棒、魯棒性認證。

付費5元查看完整內容

多標簽圖像識別是一項具有挑戰性的實用計算機視覺任務。然而,該領域的進展往往具有方法復雜、計算量大、缺乏直觀解釋的特點。為了有效地捕捉來自不同類別的對象所占據的不同空間區域,我們提出了一個非常簡單的模塊,稱為類特定的殘差注意力(CSRA)。CSRA 通過提出一個簡單的空間注意力分數為每個類別生成特定于類的特征,然后將其與與類別無關的平均池化特征相結合。CSRA 在多標簽識別上取得了 state-of-the-art 的結果,同時比它們簡單得多。此外,僅用 4 行代碼,CSRA 還可以在許多不同的預訓練模型和數據集上實現一致的改進,而無需任何額外的訓練。CSRA 既易于實現又易于計算,還具有直觀的解釋和可視化。

//www.zhuanzhi.ai/paper/8f84476df0173f68ac402363bc8ffff9

付費5元查看完整內容

協同過濾(CF)作為推薦系統的一種基本方法,通常建立在具有可學習參數的潛在因子模型上,預測用戶對產品的偏好。但是,為給定的數據設計適當的CF模型并不容易,因為數據集的屬性是高度多樣化的。在本文中,基于自動機器學習(AutoML)的最新進展,我們提出利用AutoML技術設計一個數據特定的CF模型。這里的關鍵是一個新的框架,它將最先進的CF方法統一起來,并將它們劃分為輸入編碼、嵌入函數、交互函數和預測函數等不相交的階段。我們進一步開發了一種易于使用、健壯和高效的搜索策略,它利用隨機搜索和性能預測器在上述框架內進行高效搜索。通過這種方式,我們可以從SOTA模型中組合概括出文獻中沒有訪問過的特定于數據的CF模型。在五個真實數據集上的大量實驗表明,對于各種CF任務,我們的方法可以持續優于SOTA方法。進一步的實驗驗證了所提框架的合理性和搜索策略的有效性。搜索的CF模型還可以為將來探索更有效的方法提供見解。

//www.zhuanzhi.ai/paper/9f6f6b9ea06d5249f6a1e91d9635a429

付費5元查看完整內容

當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。

//www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

付費5元查看完整內容

盡管主動學習在圖像識別方面取得了長足的進步,但仍然缺乏一種專門適用于目標檢測的示例級的主動學習方法。在本文中,我們提出了多示例主動目標檢測(MI-AOD),通過觀察示例級的不確定性來選擇信息量最大的圖像用于檢測器的訓練。MI-AOD定義了示例不確定性學習模塊,該模塊利用在已標注集上訓練的兩個對抗性示例分類器的差異來預測未標注集的示例不確定性。MI-AOD將未標注的圖像視為示例包,并將圖像中的特征錨視為示例,并通過以多示例學習(MIL)方式對示例重加權的方法來估計圖像的不確定性。反復進行示例不確定性的學習和重加權有助于抑制噪聲高的示例,來縮小示例不確定性和圖像級不確定性之間的差距。實驗證明,MI-AOD為示例級的主動學習設置了堅實的基線。在常用的目標檢測數據集上,MI-AOD和最新方法相比具有明顯的優勢,尤其是在已標注集很小的情況下。

代碼地址為//github.com/yuantn/MI-AOD

付費5元查看完整內容
北京阿比特科技有限公司