亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

我們提出了一種新的可視化數據表示方法,將對象的位置從外觀中分離出來。我們的方法被稱為深度隱式粒子(Deep Latent Particles, DLP),將視覺輸入分解為低維潛伏“粒子”,其中每個粒子都由其空間位置及其周圍區域的特征來描述。為了推動對這種表示的學習,我們遵循了一種基于虛擬空間的方法,并引入了基于空間-softmax架構的粒子位置先驗,以及由粒子之間的倒角距離啟發的證據下限損失修正。我們證明了我們的DLP表示對于下游任務是有用的,如無監督關鍵點(KP)檢測,圖像操作,以及由多個動態對象組成的場景的視頻預測。此外,我們展示了我們對問題的概率解釋自然地提供了粒子位置的不確定性估計,這可以用于模型選擇等任務。視頻和代碼: //taldatech.github.io/ deep-latent-particles-web/。

付費5元查看完整內容

簡介

現代推薦系統從歷史交互中學習用戶表征,這就存在著用戶特征變化帶來的問題,比如收入的增加。歷史交互會將過時的信息注入到與最新的用戶特征相沖突的表示中,從而導致不恰當的推薦。在這項工作中,作者考慮了在用戶特征發生變化的Out-Of-Distribution (OOD) 環境中的推薦問題,并為表征學習設定了額外的兩個目標:強大的OOD泛化能力以及快速的OOD適應能力。OOD場景的推薦問題如圖所示:

這項工作從因果關系的角度闡明并解決了這個問題。作者將用戶特征的轉變表述為一種干預措施,將OOD推薦表述為交互概率的干預后推斷,并采用了因果模型為用戶特征到交互結果的生成過程建模。作者設計了一個新型變分自動編碼器來進行因果建模,利用編碼器從歷史上的互動中推斷出未觀察到的用戶特征,利用解碼器來對交互的生成過程進行建模并進行干預后推斷,并且進一步進行反事實推理,來減輕過時的交互的影響。固有的快速的OOD適應能力來自于部分用戶表征的再利用。變分自動編碼器結構如圖所示:

最后,作者設計了一個擴展的因果圖,對從用戶特征到用戶偏好的細粒度因果關系進行編碼。在三個數據集上的實證結果驗證了所提方法的強大OOD泛化和快速適應能力。

問題定義

首先通過因果關系的視角定義推薦問題,包括了用戶交互的生成過程的因果視角和對OOD推薦問題的規范。用戶交互生成的因果關系圖如圖所示:

對于每個用戶,用戶的偏好同時受可觀測的特征(例如收入和年齡),和不可觀測的特征例如心理狀態的影響。僅受不可觀測特征的影響,而受所有特征的影響。用戶偏好會影響最終的交互結果。 將和分別定義為用戶索引和產品索引,為用戶偏好,交互為,用戶特征從到的轉移表示為干預 ,OOD推薦系統的任務即為推斷出經過干預后用戶交互的分布,具體分為兩個任務:第一是在只能夠獲取到用戶特征變化前的歷史交互信息的情況下,為特征變化后的用戶推薦合適的產品;第二是當用戶特征變化后的交互能被獲取時,推薦系統具有快速適應到OOD環境的能力。

方法

作者提出了Causal OOD Recommendation(COR)框架為交互的生成過程進行建模來解決用戶特征變化后的OOD場景下的推薦問題。相對的,用戶變化前的環境即傳統的訓練環境(擁有用戶特征與對應的歷史交互信息)被稱作Independent and Identically Distribution (IID)環境。 1. 目標函數

假設用戶的不可觀測變量服從標準正態分布,同時受觀測特征與不可觀測特征影響的用戶偏好,和僅受不可觀測特征影響的用戶偏好均服從分解高斯分布。交互信息則服從多項式分布。

其中和diag分別表示從和估計的高斯分布的均值和方差。和diag則分別表示從估計的高斯分布的均值和方差。多項式分布的參數,代表用戶的產品交互數量。則表示用對輸出歸一化的結果。 模型參數通過重構用戶的歷史交互進行優化。具體地,給定一個用戶,和該用戶的特征以及交互歷史,想要最大化log-likelihood log:

但是對不可觀測變量進行積分顯然是難以實現的。為了解決這個問題,作者利用變分推斷將難以實現的積分轉變為可計算的ELBO:

其中最后一條等式的第一項為重構損失,第二項則是用戶特征的分布預估誤差,即估計分布和先驗分布的KL散度。于是現在只需要通過最大化ELBO,來實現log-likelihood的最大化。 2. 實現方法

我們已經知道目標函數為ELBO,而要計算ELBO,就需要計算得到和log。關于第一項

作者通過引入一個編碼器來獲取和。而關于第二項

作者通過蒙特卡羅方法并引入一個解碼器獲取作為對的估計,最終可以得到

其中表示用戶是否和產品交互,是對經過歸一化后的結果,該式最終可以計算出重構時用戶產生交互的概率。 綜上,訓練模型時就可以通過最大化ELBO來優化編碼器和解碼器的參數。而在測試的時候,通過估計的交互概率為所有產品排序并作出推薦。 3. 因果推斷方法

我們已經知道在用戶特征沒有發生變化時(IID),通過最大化ELBO來優化模型參數。但是在用戶特征發生變化時,作者提出用反事實推理來估計用戶對產品的交互概率。該反事實推理是通過設想如果并沒有受到歷史交互的影響,用戶的推薦產品會是哪些?反事實推理分為三個步驟:(1)通過用戶可觀測特征和估計出用戶偏好。(2)干預,即視用戶沒有歷史交互信息,估計不可觀測的用戶特征以及用戶偏好,這樣就能夠消除過時的交互信息的影響。(3)利用和計算用戶和產品的交互概率。 4. OOD環境的微調

在用戶特征發生變化后,會逐漸獲取新的歷史交互信息。在OOD環境中,重復利用用戶特征沒有發生變化時的,并微調模型更新OOD環境下的用戶偏好為用戶做OOD環境下的推薦。由于作者所提出的模型是基于因果關系建立的,因此在用戶特征發生變化后,該模型會有更穩定的推薦表現并且在OOD環境中需要更少的交互信息來調微調。

實驗

  • 作者在三個數據集上驗證了COR的強大OOD泛化能力,在不同數據集下IID和OOD環境下模型的表現如圖所示: image-202205 可以看到在OOD環境下,COR的召回率相比最高的基準模型提升了超過34%,同時在IID的環境下與基準模型具有相近的表現,從而驗證了COR框架的較強的OOD泛化能力

  • 而對于第二個OOD推薦任務的目標即快速適應能力,作者也在不同數據集上進行了驗證,如圖所示: image-202205 通過對比在用戶特征發生變化后的OOD環境下,分別對沒有最新交互信息(0%),和10%,20%以及30%的最新交互信息微調在IID上預訓練好的模型。實驗結果驗證COR框架能夠讓模型擁有很快的OOD適應能力

  • 反事實推理和細粒度因果圖的消融實驗:

  • 案例分析:在IID環境中用戶收入較低,真實消費更偏向于低價產品,而在OOD環境中用戶的收入較高,真實消費更偏向于高價產品。IID和OOD環境下不同模型為用戶推薦的產品在價格的分布如下圖所示:

可以看到COR推薦的分布最逼近不同環境下的真實交互產品分布。

結論

作者提出且規范了用戶特征發生變化的OOD推薦問題。為了達到較強的OOD泛化能力和快速的OOD適應能力,作者提出了COR框架,從因果關系的視角為用戶的交互過程進行建模,利用干預和反事實推理減輕了OOD環境中過時的交互信息對推薦結果的影響。此外,通過在OOD環境的微調,推薦模型能夠快速適應并給出更恰當的推薦。

付費5元查看完整內容

傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。

//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf

付費5元查看完整內容

構建能夠有效解決各種問題的通用RL算法需要將正確的結構和表示編碼到我們的模型中。我們泛化能力的一個關鍵組成部分是我們開發世界內部模型的能力,該模型可以用于穩健的預測和有效的規劃。在本論文中,我們討論了如何利用表示學習來學習更好的物理場景預測模型,并使agent能夠在基于模型的RL框架下通過規劃學習到的模型來推廣到新的任務。我們將介紹兩種能夠實現良好泛化的抽象:對象級表示形式的狀態抽象和分層RL的技能表示形式的時間抽象。通過將這些抽象概念整合到我們的模型中,我們可以在長期、多階段的問題上實現高效的學習和組合推廣。我們還討論了元學習在自動學習一般RL算法的正確結構中的作用。利用大規模的基于進化的計算,我們可以學習通用的RL算法,這些算法在各種任務中具有更好的樣本效率和最終性能。最后,我們將介紹如何使用這些內部模型來計算RL目標本身,并在不設計獎勵函數的情況下訓練具有復雜行為的一般RL代理。

付費5元查看完整內容

盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

導師:Pieter Abbeel and Sergey Levine

網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要:

在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容
北京阿比特科技有限公司