亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在許多實際情境中,安全探索對于增強學習(RL)的實用性至關重要。在本文中,我們提出了一個通用安全探索(GSE)問題,作為常見安全探索問題的統一公式。接著,我們提出了一個安全探索的元算法MASE作為GSE問題的解決方案,該算法結合了一個無約束的RL算法和一個不確定性量化器,以保證在當前情節中的安全,同時在實際安全違規之前適當地懲罰不安全的探索,以防止它們在未來的情節中出現。MASE的優勢在于,我們可以在保證有很高概率不會違反任何安全約束的情況下,優化策略。具體來說,我們提出了兩種不同構造的不確定性量化器的MASE變體:一種基于帶有安全和接近最優性理論保證的廣義線性模型,另一種結合了高斯過程以確保安全性和深度RL算法以最大化獎勵。最后,我們證明了我們提出的算法在格子世界和Safety Gym基準測試中比現有技術更優秀,即使在訓練期間也不違反任何安全約束。

//www.zhuanzhi.ai/paper/bfda323a5d9d59281497f4e599b516b8

付費5元查看完整內容

相關內容

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。

付費5元查看完整內容

本文提出了一種融合了對比學習和概率表示的自監督表示學習方法——概率視頻對比學習。我們假設構成視頻的片段在短期內有不同的分布,但可以通過組合在一個共同的嵌入空間中來表示復雜和復雜的視頻分布。因此,該方法將視頻片段表示為正態分布,并將它們組合成混合高斯分布來建模整個視頻分布。通過從整個視頻分布中進行采樣嵌入,我們可以繞過仔細的采樣策略或轉換來生成視頻片段的增強視圖,而不像以前的確定性方法主要關注對比學習中的這種樣本生成策略。我們進一步提出了一種隨機對比損失來學習合適的視頻分布和處理原始視頻的固有不確定性。實驗結果證明,在UCF101和HMDB51等最流行的基準上,我們的概率嵌入是一種最先進的視頻表示學習,用于動作識別和視頻檢索。

//www.zhuanzhi.ai/paper/e9a8860b49e4b44cee3e7cf2b74a4c33

付費5元查看完整內容

本文介紹了一種綜合任務——少樣本分類與分割(FS-CS),該任務的目的是在給出目標類的情況下,對查詢圖像中的目標對象進行分類和分割。該任務結合了兩個傳統的少樣本學習問題:少樣本分類和分割。FS-CS將它們推廣到具有任意圖像對的更真實的事件中,其中每個目標類可能出現在查詢中,也可能不出現。為了解決這一問題,我們提出了FS-CS的整合少樣本學習(iFSL)框架,該框架訓練學習者構建類方向的前景圖,用于多標簽分類和像素方向的分割。我們還開發了一種有效的iFSL模型——注意力擠壓網絡(ASNet),該模型利用深度語義相關性和全局自注意力來生成可靠的前景圖。在實驗中,該方法在FS-CS任務中表現出了良好的性能,并在標準的少樣本分割基準上達到了目前的水平。

付費5元查看完整內容

無監督域自適應是一種將深度神經網絡泛化到新目標域的有效范式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基于能量的模型表現出自由能量偏差。受這一內在機制的啟發,我們從經驗上揭示了一個簡單而有效的基于能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基于能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在//github.com/BIT-DA/EADA上找到。

付費5元查看完整內容

多標簽圖像識別是一項具有挑戰性的實用計算機視覺任務。然而,該領域的進展往往具有方法復雜、計算量大、缺乏直觀解釋的特點。為了有效地捕捉來自不同類別的對象所占據的不同空間區域,我們提出了一個非常簡單的模塊,稱為類特定的殘差注意力(CSRA)。CSRA 通過提出一個簡單的空間注意力分數為每個類別生成特定于類的特征,然后將其與與類別無關的平均池化特征相結合。CSRA 在多標簽識別上取得了 state-of-the-art 的結果,同時比它們簡單得多。此外,僅用 4 行代碼,CSRA 還可以在許多不同的預訓練模型和數據集上實現一致的改進,而無需任何額外的訓練。CSRA 既易于實現又易于計算,還具有直觀的解釋和可視化。

//www.zhuanzhi.ai/paper/8f84476df0173f68ac402363bc8ffff9

付費5元查看完整內容

知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰的解決方案。最后,我們總結并討論了一些仍具有挑戰的未來研究方向。

知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。

最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。

付費5元查看完整內容

盡管主動學習在圖像識別方面取得了長足的進步,但仍然缺乏一種專門適用于目標檢測的示例級的主動學習方法。在本文中,我們提出了多示例主動目標檢測(MI-AOD),通過觀察示例級的不確定性來選擇信息量最大的圖像用于檢測器的訓練。MI-AOD定義了示例不確定性學習模塊,該模塊利用在已標注集上訓練的兩個對抗性示例分類器的差異來預測未標注集的示例不確定性。MI-AOD將未標注的圖像視為示例包,并將圖像中的特征錨視為示例,并通過以多示例學習(MIL)方式對示例重加權的方法來估計圖像的不確定性。反復進行示例不確定性的學習和重加權有助于抑制噪聲高的示例,來縮小示例不確定性和圖像級不確定性之間的差距。實驗證明,MI-AOD為示例級的主動學習設置了堅實的基線。在常用的目標檢測數據集上,MI-AOD和最新方法相比具有明顯的優勢,尤其是在已標注集很小的情況下。

代碼地址為//github.com/yuantn/MI-AOD

付費5元查看完整內容

圖神經網絡中的注意力機制旨在將較大的權重分配給重要的鄰居節點,以實現更好的表示。但是,人們對圖的學習了解得不好,尤其是當圖嘈雜時。在本文中,作者提出了一種自監督圖注意力網絡(SuperGAT),這是一種針對noisy圖改進的圖注意力模型。自監督的關鍵是找到數據中存在的監督信息,其中預測邊存在和不存在是一個能夠編碼節點之間關系的監督信息,也被廣泛的使用。本文利用這個與自監督任務兼容的兩種注意力形式來預測邊的存在和缺失。提出的SuperGAT通過對邊進行編碼,在區分錯誤link的鄰居時會獲得更多的表達注意。另外本文發現兩個圖上的基本屬性會影響注意力的形式和自監督的有效性:同構和平均度(homophily and average degree)。這兩個圖的屬性,可為使用哪種注意力設計提供指導。本文對17個現實世界數據集進行的實驗表明,該方法可以泛化到其中的15個數據集,并且得到比基線更高的性能。

付費5元查看完整內容

在最大化源與目標之間的互信息方面的最新進展已經證明了它在文本生成方面的有效性。然而,以往的工作對MI(即MI)的后向網絡建模關注較少。這對于變分信息最大化下界的緊密性至關重要。在本文中,我們提出了一個對抗互信息(AMI):一個文本生成框架,它是一個新的鞍點(min-max)優化,旨在識別源與目標之間的聯合交互。在這個框架中,通過比較真實和合成的數據分布,前向網絡和后向網絡能夠迭代地提升或降級彼此生成的實例。我們還開發了一個潛在噪聲采樣策略,利用高級語義空間的隨機變化來增強生成過程中的長期依賴性。基于不同文本生成任務的大量實驗表明,所提出的AMI框架能夠顯著優于多個強基線,我們還表明,AMI有可能為變分信息最大化問題帶來更緊密的互信息上限。

//www.zhuanzhi.ai/paper/ccd8403755c153d155bec032656f8c49

付費5元查看完整內容

圖神經網絡(GNNs)最近被成功地用于節點和圖的分類任務中,但GNNs對鄰近節點屬性之間的依賴關系建模,而不是對觀察到的節點標簽之間的依賴關系建模。在這項工作中,我們考慮了在監督和半監督設置中使用GNNs進行歸納節點分類的任務,其目標是合并標簽依賴項。因為當前的GNN不是通用的。為了提高現有GNN的表達能力,我們提出了一種通用的集體學習方法。我們的框架結合了集體分類和自監督學習的思想,并使用蒙特卡羅方法來采樣嵌入圖的歸納學習。我們評估了5個真實網絡數據集的性能,并證明了在各種最先進的GNN中,節點分類精度的一致性和顯著提高。

付費5元查看完整內容
北京阿比特科技有限公司