亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

促進行為多樣性對于解決具有非傳遞性的動態博弈至關重要,因為這些博弈的策略存在周期性,而且沒有一致的贏家(例如,剪刀石頭布)。然而,在定義多樣性和構建具有多樣性意識的學習動態方面缺乏嚴格的處理。這項工作提供了游戲中行為多樣性的幾何解釋,并引入了一種基于決定點過程(DPP)的新的多樣性度量。通過將多樣性度量納入最佳響應動態,我們開發了多樣化的策略空間響應機制,用于解決正常形式的博弈和開放式博弈。我們證明了不同最佳響應的唯一性和我們算法在兩人博弈上的收斂性。重要的是,我們證明了最大化基于DPP的多樣性度量保證了擴大由代理策略混合跨越的凸多面體。為了驗證我們的多樣性感知求解器,我們在數十個顯示出強非傳遞性的博弈上進行了測試。結果表明,通過找到有效和多樣化的策略,可以實現比最先進的求解器更低的可利用性。

//www.zhuanzhi.ai/paper/92bae43a935a4cb28d57af4652726ba7

付費5元查看完整內容

相關內容

序列推薦的目的是利用用戶的歷史行為來預測他們的下一次互動。現有的工作還沒有解決序列推薦的兩個主要挑戰。首先,在豐富的歷史序列中,用戶行為往往是隱式的、有噪聲的偏好信號,不能充分反映用戶的實際偏好。此外,用戶的動態偏好往往會隨著時間的推移而迅速變化,因此很難在其歷史序列中捕獲用戶模式。在本研究中,我們提出一種稱為SURGE的圖神經網絡模型(即序列推薦圖神經網絡)來解決這兩個問題。具體來說,SURGE通過基于度量學習將松散的項目序列重構為緊密的項目興趣圖,將不同類型的長期用戶行為偏好集成到圖中的簇中。通過在興趣圖中形成密集的集群,這有助于明確區分用戶的核心興趣。然后,我們在構建的圖上執行集群感知和查詢感知的圖卷積傳播和圖池化。它從嘈雜的用戶行為序列中動態融合并提取用戶當前激活的核心興趣。我們在公共和專有的工業數據集上進行了廣泛的實驗。實驗結果表明,與現有方法相比,我們提出的方法有顯著的性能提高。對序列長度的進一步研究表明,該方法能夠有效地對較長的行為序列進行建模。

//www.zhuanzhi.ai/paper/f38fd2a93f7755f804cf37f333aca1d8

付費5元查看完整內容

Density Constrained Reinforcement Learning

Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan

//www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821

我們從一個新的角度研究約束強化學習(CRL),通過直接設置狀態密度函數的約束,而不是以往研究中考慮的值函數。狀態密度具有清晰的物理和數學解釋,并能夠表達各種各樣的約束,如資源限制和安全要求。密度約束還可以避免設計和調優成本功能的耗時過程,這些成本功能是基于價值功能的約束來編碼系統規范所需要的。利用密度函數與Q函數之間的對偶性,提出了一種求解密度約束的RL問題的有效算法,保證了約束條件的滿足。我們證明了當策略更新不完美時,所提出的算法收斂到一個有界誤差的接近最優解。我們使用一組全面的實驗來證明我們的方法相對于最先進的CRL方法的優勢,包括廣泛的密度約束任務和標準的CRL基準測試,如Safety-Gym。

付費5元查看完整內容

模仿學習試圖通過利用專家行為來規避在為訓練代理設計適當的獎勵功能方面的困難。由于環境建模為馬爾可夫決策過程(MDP),大多數現有的模仿算法取決于專家演示的可用性,在同一MDP中,一個新的模仿策略是要學習的。本文研究了專家和代理MDP存在差異時如何進行任務模擬的問題。這些領域之間的差異可能包括不同的動態、觀點或形態; 我們提出了一個新的框架來學習通信跨這些領域。重要的是,與之前的工作相比,我們使用僅包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用在狀態空間和領域未知的潛在空間上的周期一致性約束來做到這一點。另外,我們通過一個歸一化的位置估計函數強制狀態的時間位置的一致性,以使兩個區域的軌跡對齊。一旦找到了這種對應關系,我們就可以直接將一個域上的演示轉移到另一個域,并使用它進行模仿。在各種具有挑戰性的領域進行的實驗證明了我們方法的有效性。

付費5元查看完整內容

近年來,人們致力于提高推薦系統的準確性和相關性。多樣性是衡量所推薦項目之間差異的一個關鍵因素,但很少受到仔細研究。與用戶滿意度直接相關的是,在生成候選條目后,多樣化通常被考慮在內。然而,這種多樣化和候選生成的解耦設計使得整個系統處于次優狀態。在本文中,我們的目標是利用圖卷積網絡(GCN)將多元化推至上游候選生成階段。盡管基于GCN的推薦算法在建模復雜的協同過濾效果以提高推薦的準確性方面表現出了巨大的能力,但在這些先進的工作中,多樣性變化是如何被忽略的。我們提出在GCN的基礎上執行重新平衡的鄰居發現、類別增強的負采樣和對抗學習。我們在真實世界的數據集上進行大量的實驗。實驗結果驗證了本文方法的有效性。進一步的消融研究驗證了我們提出的方法顯著緩解了準確性-多樣性的困境。

//fi.ee.tsinghua.edu.cn/public/publications/b344fd48-92b0-11eb-96bc-0242ac120003.pdf

付費5元查看完整內容

推薦系統作為人工智能的一個重要應用,是最普遍的計算機輔助系統之一,幫助用戶找到潛在的興趣項目。近年來,人工智能應用的公平性問題引起了研究人員的廣泛關注。這些方法大多假定實例獨立,并設計復雜的模型來消除敏感信息,以促進公平。然而,推薦系統與這些方法有很大的不同,因為用戶和商品自然形成一個用戶-商品二部圖,并且在圖結構中相互協作。在本文中,我們提出了一種新的基于圖的技術來保證任何推薦模型的公平性。這里的公平性要求指的是在用戶建模過程中不暴露敏感特性集。具體來說,給定任何推薦模型的原始嵌入,我們學習一組過濾器,這些過濾器將每個用戶和每個物品的原始嵌入轉換為一個基于敏感特征集的過濾嵌入空間。對于每個用戶,這種轉換是在以用戶為中心的圖的對抗學習下實現的,以便在過濾后的用戶嵌入和該用戶的子圖結構之間模糊每個敏感特征。最后,大量的實驗結果清楚地表明了我們所提出的模型在公平推薦方面的有效性。

//github.com/newlei/FairGo

付費5元查看完整內容

最近的小樣本學習方法幾乎都是基于場景式(元任務式)訓練,即為了模仿測試時的情況,每個元任務中對于每個類只采樣少量訓練樣本(支撐樣本)。然而,這種嚴格仿照測試情況的訓練方式有個副作用,即訓練得到的模型容易受到少量支撐樣本的壞采樣的影響。在本工作中,我們第一次以探索場景之間關系的方式來嘗試解決該問題。特別地,我們提出了一個新穎的建模場景級別關系的元學習(MELR)框架:通過采樣兩個擁有相同類別集合的場景用于元訓練,MELR用來保證訓練得到的模型在元測試階段對于質量不高的支撐樣本的存在是魯棒的。這可以通過設計兩個關鍵部件來實現:(1)一個跨場景注意力模塊(CEAM)來提高模型減少壞采樣支撐樣本帶來的反作用的能力;(2)一個跨場景一致性正則(CECR)來保證分別在兩個場景下獨立得到的兩個分類器有一致的表現。在兩個基準數據集上,大量標準小樣本學習實驗顯示我們的MELR相比于我們使用的基準方法(原型網絡)取得了1.0%- 5.0%的性能提升,而且在相同設置下打敗了最新的方法。

//openreview.net/forum?id=D3PcGLdMx0

付費5元查看完整內容

組合優化是計算機視覺的常用方法。例如,在諸如語義分割、人體姿態估計和動作識別等應用中,為解決條件隨機域(CRFs)中的推理問題而編寫的程序可以生成與圖像視覺特征一致的結構化輸出。然而,在CRFs中求解推理通常是棘手的,而近似方法在計算上要求很高,并且僅限于一元的、成對的和手工制作的高階勢形式。在這篇論文中,我們證明了我們可以學習程序啟發式。策略,用于解決高階CRFs中推理任務的語義分割,采用強化學習。我們的方法有效地解決了推理任務,而沒有對勢的形式施加任何約束。我們在Pascal VOC和MOTS數據集上展示了引人注目的結果。

付費5元查看完整內容
北京阿比特科技有限公司