亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在本文中,我們考慮了多目標強化學習,這在具有多個優化目標的許多實際問題中出現。我們采用最大-最小框架來解決這一問題,重點關注多個目標之間的公平性,并在最大-最小框架下開發了相關理論和實用的無模型算法。所開發的理論在多目標強化學習方面提供了理論上的進步,而提出的算法在性能上顯著優于現有的基準方法。

付費5元查看完整內容

相關內容

時空時間序列預測在許多現實世界應用中起著關鍵作用。盡管在這一領域已經取得了顯著進展,但完全捕捉和利用時空異質性仍然是一個基本挑戰。因此,我們提出了一種新穎的異質性知情的元參數學習方案。具體而言,我們的方法通過學習空間和時間嵌入隱式地捕捉時空異質性,這可以看作是一個聚類過程。然后,提出了一種新的時空元參數學習范式,從元參數池中學習時空特定的參數,這些參數是由捕捉到的異質性信息提供的。 基于這些想法,我們開發了一種用于時空時間序列預測的異質性知情時空元網絡(HimNet)。在五個廣泛使用的基準數據集上進行了廣泛的實驗,結果表明我們的方法達到了最先進的性能,同時表現出優越的可解釋性。我們的代碼可在 //github.com/XDZhelheim/HimNet 獲取。

付費5元查看完整內容

多模態查詢的知識檢索在支持知識密集型多模態應用中扮演著關鍵角色。然而,現有方法在有效性和訓練效率方面面臨挑戰,特別是在訓練和集成多個檢索器以處理多模態查詢時。在本文中,我們提出了一個創新的端到端生成式框架,用于多模態知識檢索。我們的框架利用了大型語言模型(LLMs)即使在有限數據訓練的情況下,也可以有效地作為虛擬知識庫的事實。我們通過兩步過程檢索知識:1)生成與查詢相關的知識線索;2)使用知識線索搜索數據庫以獲取相關文檔。特別是,我們首先引入了一個對象感知的前綴調優技術來指導多粒度的視覺學習。然后,我們將多粒度的視覺特征對齊到LLM的文本特征空間中,利用LLM捕獲跨模態交互。隨后,我們構建了具有統一格式的指導數據進行模型訓練。最后,我們提出了知識引導的生成策略,以在解碼步驟中施加先前約束,從而促進獨特知識線索的生成。通過在三個基準測試上進行的實驗,我們展示了與強大基線相比,在所有評估指標上的顯著提升,范圍從3.0%到14.6%。

付費5元查看完整內容

近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。

//arxiv.org/abs/2305.16683

付費5元查看完整內容

強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。

//dspace.mit.edu/handle/1721.1/144562

付費5元查看完整內容

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。

付費5元查看完整內容

構建能夠有效解決各種問題的通用RL算法需要將正確的結構和表示編碼到我們的模型中。我們泛化能力的一個關鍵組成部分是我們開發世界內部模型的能力,該模型可以用于穩健的預測和有效的規劃。在本論文中,我們討論了如何利用表示學習來學習更好的物理場景預測模型,并使agent能夠在基于模型的RL框架下通過規劃學習到的模型來推廣到新的任務。我們將介紹兩種能夠實現良好泛化的抽象:對象級表示形式的狀態抽象和分層RL的技能表示形式的時間抽象。通過將這些抽象概念整合到我們的模型中,我們可以在長期、多階段的問題上實現高效的學習和組合推廣。我們還討論了元學習在自動學習一般RL算法的正確結構中的作用。利用大規模的基于進化的計算,我們可以學習通用的RL算法,這些算法在各種任務中具有更好的樣本效率和最終性能。最后,我們將介紹如何使用這些內部模型來計算RL目標本身,并在不設計獎勵函數的情況下訓練具有復雜行為的一般RL代理。

付費5元查看完整內容

隨著機器學習模型和數據量的增大,大規模分布式訓練決定了模型部署的效率。去中心化,作為一種經典的分布式系統設計原型,近年來在擴展機器學習規模上顯示出良好的效率和魯棒性。本文基于此背景,探究了不同去中心化系統下訓練復雜度的理論極限;并進一步提出了兩種算法,其復雜度可以達到該理論極限。 論文鏈接:

//proceedings.mlr.press/v139/lu21a/lu21a.pdf

付費5元查看完整內容

從合成生物學到計算機架構,計算設計問題出現在許多環境中。在本文中,我們的目標是解決基于數據驅動模型的優化(MBO)問題,其中的目標是找到一個設計輸入,使一個未知的目標函數最大化,只提供訪問先前實驗的靜態數據集。這種數據驅動的優化過程是許多現實領域中唯一實用的方法,在這些領域中,主動數據收集是昂貴的(如優化蛋白質)或危險的(如優化飛機設計)。針對已知模型優化設計的典型MBO方法遭遇了分布轉移:很容易找到一種設計,它“愚弄”了模型,使其預測出高價值。為了克服這一點,我們提出了保守目標模型(COMs),一種學習目標函數模型的方法,該模型下界的真實目標的實際值在非分布輸入外,并使用它進行優化。在結構上,COMs類似于用來克服對抗性例子的對抗性訓練方法。COM易于實現,并且在許多MBO問題上優于現有的一些方法,包括優化蛋白質序列、機器人形態、神經網絡權值和超導材料。

//www.zhuanzhi.ai/paper/eaa6ff747a559f00731e498e36ddb232

付費5元查看完整內容

知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數據集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰的解決方案。最后,我們總結并討論了一些仍具有挑戰的未來研究方向。

知識庫(KB)是一個結構化的數據庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。

最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數值運算或上述幾種組合的問題。

付費5元查看完整內容
北京阿比特科技有限公司