亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

今天,機器學習正在從研究過渡到廣泛的部署。這一轉變需要能夠從異質數據集中學習的算法和能夠在復雜的多任務環境中運行的模型。那么,在為這種情況設計模型和算法時,我們是否有一套原則可以遵循?在這篇論文中,我們從概率的角度來探討這個問題,開發了一個聲明性的框架來表示、分析和解決不同的多任務學習問題,并考慮了多個案例研究,從多智能體游戲、多語言翻譯到聯合學習和個性化。

本論文中提出的觀點組織如下。首先,我們介紹我們的核心概率多任務建模框架。從學習任務的一般定義開始,我們展示了如何將多個相關的任務集合到一個聯合概率模型中并加以表示。然后,我們闡述了多任務環境中的不同概括概念,并展示了如何推導出實用的學習算法和一致的目標函數,從而利用概率學習和推理的技術實現某些類型的概括。接下來,我們通過多個具體的案例研究來說明我們提出的框架。我們的每一個案例研究都是獨立的,都集中在一個特定的領域,展示了我們框架的多功能性。我們不僅從概率的角度重新解釋了不同的問題,而且還開發了新的學習算法和推理技術,在每個考慮的領域中改進了當前的最先進技術。

付費5元查看完整內容

相關內容

“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。機器學習理論主要是設計和分析一些讓 可以自動“ ”的算法。機器學習算法是一類從數據中自動分析獲得規律,并利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多 問題屬于 ,所以部分的機器學習研究是開發容易處理的近似算法。” ——中文維基百科

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

我們介紹了概率世界構建模型(PWM),這是一個新的完全符號化的語義解析和推理的貝葉斯模型,作為向更通用的領域和任務 NLU 和 AI 的研究計劃的第一步。人類為他們的觀察建立了內部心理模型,這大大有助于他們理解和推理各種問題的能力。在PWM中,句子的含義、獲得的關于世界的知識以及推理的中間證明步驟都用統一的人類可讀的形式語言來表達,其設計目標是可解釋性。PWM是貝葉斯式的,專門設計為能夠推廣到新的領域和任務。我們推導并實現了一種推理算法,該算法通過解析和產生對其潛伏世界模型的更新來讀取句子,從而捕獲這些句子的語義。我們表明,PWL能夠利用獲得的知識來解決解析過程中的歧義,如介詞短語的連接、主語的解決和詞匯的歧義,并且能夠理解具有更復雜語義的句子,如新概念的定義。此外,我們在兩個域外問題回答數據集上評估了PWL:(1)ProofWriter和(2)我們稱之為FictionalGeoQA的新數據集,該數據集被設計為更能代表真實語言,但仍然足夠簡單,以專注于評估推理能力,同時對啟發式方法具有魯棒性。我們的方法在這兩方面的表現都優于基線,從而證明了其作為概念驗證的價值。

付費5元查看完整內容

強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。

《元強化學習》最新,70頁ppt

付費5元查看完整內容

摘要

對于許多人工智能系統的應用領域來說,多目標連續決策問題是常見的。由于這些系統越來越多地被用于與人打交道或做出對人有影響的決策,因此它們的推理對終端用戶和利益相關者來說是很重要的,以促進信任和有效的人-Agent協作。然而,即使在使用馬爾科夫決策過程(MDP)等白盒決策模型時,最終用戶也很難理解解決順序決策問題背后的推理。這種理解性的挑戰是由于解決長視距問題存在爆炸式的潛在策略組合。多目標優化方面使問題進一步復雜化,因為不同的目標可能發生沖突,需要權衡推理。這些復雜的問題給終端用戶帶來了障礙,使他們無法知道Agent是否為特定環境做出了正確的決定,并且可能禁止他們在Agent錯誤的情況下進行干預。本論文的目標是開發一個可解釋的框架,使做出順序決策的Agent能夠向最終用戶傳達其目標和行為的緣由

我們提出了一個用于MDP的可解釋規劃框架,特別是支持具有多個優化目標的問題域。我們提出以結果為導向的對比性解釋,其中對Agent策略的論證是以其對任務目標的預期后果為基礎的,放在所選擇的可行方案的背景下,以展示Agent的優化和權衡推理。我們的建模框架支持獎勵分解,并增強了MDP表示法,以使獎勵或成本函數的組成部分以領域級概念和語義為基礎,從而促進解釋的生成。我們的解釋生成方法計算策略層面的對比襯托,描述Agent決策中的拐點,即對分解的任務目標進行優化和權衡推理。我們通過將我們的可解釋規劃框架應用于三個規劃問題領域來證明它的適用性:基于航路點的導航、無人機任務規劃和診所調度。

我們設計并進行了人類受試者實驗,以根據可衡量的任務表現來評估解釋的有效性。我們把實驗中用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以結果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策能力,以及用戶對其評估的信心。

最后,我們研究了面向后果的對比性解釋范式的用戶指導方法的可行性。我們提出了一個理論框架和方法,將"為什么不"的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯約束,并得出滿意的策略,以解釋被詢問的行為對后續決策和任務目標的全部影響。

第一章 簡介

由于人工智能推理的算法復雜性和所使用的信息不為用戶所知,因此,由帶有人工智能(AI)組件的系統做出的自動決策對最終用戶來說往往是不透明的,難以理解。特別是順序決策過程,在這個過程中,隨著時間的推移連續采取多個依賴性行動,由于可能策略的組合爆炸,特別是涉及到不確定性下的推理時,對終端用戶的理解構成了重大挑戰。隨著人工智能系統越來越多地被用于許多領域,與人們一起工作或做出影響人們的決定,這些系統必須使其推理能夠被最終用戶和利益相關者理解。理解系統的目標和行為,相信系統為他們的任務做出了正確的決定,或者知道他們什么時候沒有做出正確的決定,這對于讓人們信任并有效地使用這些人工智能系統或與之合作至關重要。本論文的目標是開發一個可解釋性框架,使做出順序決策的Agent能夠將其目標和行為的理由傳達給終端用戶。

對于許多順序決策或規劃的應用領域,經常有多種實現目標的方法,這些方法可能在一些重要的品質上有所不同,如執行時間和各種性能和成本的衡量標準。這樣的順序決策問題涉及到特定領域數量屬性的優化[78]。對于這類應用領域的終端用戶或利益相關者來說,一個重要的可理解性類型[61]是:為什么Agent的決策是最優的?這個問題有幾個方面。正在使用的順序決策框架、領域模型、任務目標(即目標和優化目標)以及解決問題的算法都在選擇最優決策方面起作用。因此,問題的多個方面可以得到解釋。在本論文中,我們特別關注領域模型和任務目標方面,以馬爾可夫決策過程(MDP)作為順序決策框架。我們研究了與算法無關的方法,向用戶解釋為什么MDP規劃Agent的策略是最優的,與Agent的決策模型有關。也就是說,我們的方法是根據Agent的MDP模型來解釋他們的最優策略,與解決MDP的具體算法無關。我們的目的是向用戶解釋產生規劃解決方案的推理,這些解決方案對他們來說可能是不明顯的,基于Agent的決策模型所做的,而不是基礎規劃算法如何實現的。

我們認為,對比性解釋對于回答為什么一項計劃或策略是最優的至關重要,因為最優性從根本上說是一種比較性屬性。對比性解釋的思想源于這樣一種社會現象:當人們要求對某一事件,即事實("為什么會發生P?")進行解釋時,他們往往要求相對于某種對比情況,即箔("為什么會發生P而不是Q?")進行解釋[69, 70]。

在可解釋的人工智能規劃中,現有的工作采用對比性解釋來進行推理調和(意味著幫助用戶的推理過程更好地理解規劃者的決策)[18],主要集中在單個行動層面的對比性襯托。這些工作通常旨在回答 "為什么這個行動在這個計劃中?"和 "為什么不是這個其他行動?"的問題。[36]. 然而,為了回答 "為什么這個策略是最優的?"的問題,我們認為在單個行動層面的對比性襯托是不夠的。對于用戶來說,要理解為什么一個策略是最優的,知道在某個狀態下選擇另一個行動會有一個較低的值(即Q(s, a0 )值,或其分解成分,對于在狀態s下的另一個行動a0)可能是不夠的。較低的值可能是沒有向用戶解釋的后續狀態和行動的結果。此外,有許多可能的后續狀態和行動的集合,Agent可以選擇,這將導致不同的策略值。如果解釋將對比性的襯托作為單獨的行動,這些替代性的決定就沒有得到解決。相反,我們認為應該探索導致較低策略值的行動組合,以便為用戶提供更多關于一個策略為什么是最優的洞察力。關鍵的挑戰是如何從一個指數級的大空間中找出適當的行動組合作為對比性的襯托。

在這篇論文中,我們研究了什么是構成策略最優的有效對比性解釋,以及如何自動生成這種解釋的問題。我們專注于解釋馬爾科夫決策過程規劃,對其而言,即使規劃模型是一個白盒,決策的長跨度順序性和概率性仍然使Agent的推理難以被用戶理解。我們的工作特別有動力針對涉及多個獎勵或成本目標的問題域,因為它們反映了規劃的許多現實應用[78]。問題的多目標優化性質增加了用戶需要理解的Agent推理的復雜性。

我們在本論文中研究的解釋的主要目標是使用戶能夠評估規劃Agent的決定對于用戶的目標和偏好來說是否是最優的,這些目標和偏好可能與Agent的目標和偏好不同。我們關注這一目標的原因有兩個方面。首先,在為規劃問題設計獎勵或成本函數時,將Agent和用戶的目標和偏好統一起來是一個困難的問題[37, 59]。特別是,當規劃目標有多個組成部分時,可能會發生錯位。能夠幫助用戶發現這種(錯誤的)排列的解釋可能是有影響的。第二,為解釋建立一個以任務為導向的目標,可以為衡量擬議的解釋方法的有效性提供一個更客觀的評價方法。

我們研究如何使用對比性解釋作為一種機制來描述Agent的規劃目標如何將其決策引向某種策略而不是其他策略。與可解釋人工智能文獻中常用的對比性解釋的定義不同,我們不關注因果差異條件或與不同情況相關的屬性的非因果差異。相反,我們的主要想法是關注Agent決策中的拐點,使其選擇某種策略而不是其他一些合理的選擇。也就是說,我們關注的是Agent改變其優化軌跡以平衡競爭性任務目標的點。為了從一個指數級的大空間中找出一套可管理的信息對比襯托--在行動組合層面上,我們利用規劃問題的多目標性質來解釋。通過獎勵分解,我們確定了一個帕累托有效策略的子集作為候選的對比性襯托。我們的對比性解釋方法的主要思想是描述獎勵或成本值的組成部分如何在帕累托效率子空間中驅動優化決策的拐點,以及如何進行權衡以調和競爭的任務目標。我們對這種類型的對比性解釋的論點是雙重的。首先,它忠實于規劃算法的基本數學方法,即計算多目標獎勵或成本函數的最優價值函數。其次,它支持本論文中所激勵的解釋的目標,即幫助用戶認識到Agent的目標和偏好與他們的目標和偏好之間的一致或不一致。

1.1 論文聲明

本論文的論述是:

我們可以通過面向結果的對比性解釋來提高馬爾科夫決策過程(MDP)規劃Agent對終端用戶的透明度和可理解性,即他們如何推理尋找最優策略。我們提出的方法允許用戶從不同序列決策對各種任務目標的影響以及競爭目標之間的權衡角度來理解規劃原理。我們提出的解釋機制使最終用戶能夠評估基于規劃的Agent的目標和他們自己的目標之間的一致性,并有可能從用戶的角度解決Agent的意外決定。

接下來,我們闡述一下論文聲明。

這篇論文的重點是針對最終用戶的馬爾科夫決策過程(MDP)規劃的推理協調問題(即幫助用戶的推理過程更好地理解規劃者的決定[18]),特別是對于涉及多個優化目標的問題領域。也就是說,我們的目標是產生解釋,說明為什么一個Agent的策略是關于任務目標和先驗偏好的最佳選擇。我們將我們的方法設計為算法無關和基于模型。也就是說,我們的方法是根據MDP模型來解釋Agent的最優策略,與解決MDP的具體算法無關。我們提出了以結果為導向的對比性解釋,其中對策略的論證是以其對任務目標的預期后果為基礎的,放在選定的可行替代方案的背景下,以證明Agent的優化和權衡推理。

利用獎勵分解,我們的方法通過對獎勵或成本函數的各個組成部分的價值函數的約束進行重新規劃,計算出一小套替代策略作為對比性的襯托,這與問題的任務目標相對應。價值約束的設置是為了解決帕累托前沿的拐點上的替代策略,這些拐點表明Agent的權衡決定,以調和競爭的任務目標。我們的方法制定了解釋,描述了在行動組合層面上不同的對比性襯托如何影響與Agent策略相比的任務目標。

本論文表明,使用以結果為導向的對比性解釋可以提高終端用戶對規劃原理的理解,其衡量標準是他們評估Agent的決策是否與用戶自己的目標和對任務的偏好相一致的能力,這可能與Agent的目標和偏好不同[59]。我們在本論文中提出,這種解釋為終端用戶提供了關于Agent決策的可操作性的見解。也就是說,用戶可以相信Agent已經做出了正確的決定,或者他們可以確定Agent有可能出錯的地方并進行相應的干預。

此外,我們研究了對我們方法的擴展,允許用戶直接查詢Agent策略中的意外決定。我們探索了一種用戶引導的、以結果為導向的對比性解釋方法,以 "為什么不 "查詢的形式使用用戶的輸入來引導搜索對用戶的具體問題有參考價值的對比性襯托。為此,我們提出了一個理論框架和方法,將 "Why-Not "查詢制定為規劃問題上的狀態-行動約束和線性時間邏輯(LTL)約束,并解決滿足的策略,以解釋被查詢行為對后續決策和任務目標的全部影響。使用這個解釋框架的重要考慮因素是:對于滿足被查詢的時間模式的對比性箔,計算出的策略對于原始MDP問題中的狀態抽象來說可能是非馬爾可夫的。必須承認Agent原始推理中的馬爾科夫獎勵假設和用于生成用戶查詢的對比性襯托的非馬爾科夫方法之間的差異。盡管如此,我們認為,允許對比性襯托來挑戰Agent的正式規劃框架中的假設,對于用戶理解和評估他們對Agent的任務所期望的最優性標準是有參考價值的。這項調查是一個概念驗證。它的主要目標是探索在我們面向結果的對比性解釋范式中超越獨白的可行性,并納入復雜的用戶查詢,以確定更相關的對比性襯托,從而實現更好的推理協調。

1.2 貢獻

在這篇論文中,我們做出了以下貢獻:

1.我們為馬爾科夫決策過程(MDP)規劃設計了一種算法無關的、基于模型的可解釋規劃方法[94]。我們的解釋目標是提供推理調節,說明為什么一個策略對于任務目標和規劃Agent的先驗偏好來說是最優的。我們提出了一種方法來產生面向結果的對比性解釋。我們的方法由兩部分組成:

(a) 一個支持獎勵分解的建模框架,并增強了MDP表示法,使獎勵或成本函數的組成部分在領域級概念和語義中有了基礎,以促進解釋的生成。

(b) 一種計算策略層面的對比襯托的方法,它描述了Agent在分解任務目標的優化和權衡推理方面的決策拐點。我們的方法通過對分解的任務目標的價值函數進行硬性和軟性約束的重新規劃來計算對比性箔。我們將約束性規劃問題表述為混合整數線性規劃(MILP)問題。特別是,我們制定MILP問題來解決滿足價值函數的硬約束的確定性策略[28]。我們使用懲罰方法[23]和非線性懲罰函數的分片線性近似[25]在MILP表述中用于軟約束。

2.我們通過將我們的方法應用于三個規劃問題領域來證明我們提出的可解釋規劃框架的適用性:基于航點的室內機器人導航、無人駕駛飛行器(UAV)任務規劃和門診調度。我們展示了每個問題域如何在我們的可解釋規劃表示中建模,并討論了我們的方法對不同問題實例產生的解釋的例子。

3.我們設計并進行了一個人體實驗,以評估基于可測量的任務表現的解釋的有效性。特別是,我們將用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以后果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策的能力,以及用戶對他們的評估的信心。

4.我們研究了面向后果的對比性解釋范式的用戶指導方法的可行性。提出了一個理論框架和方法,將 "為什么不 "的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯(LTL)約束,并解決滿足的策略,以解釋被詢問的行為對后續決策和任務目標的全部影響。為了解決具有LTL約束的MDP,我們利用現有的問題制定方法[82]來構建產品MDP,其中包含了由LTL屬性生成的確定性拉賓自動機(DRA),而產品MDP的獎勵或成本函數是根據DRA的接受條件來定義。對于原始MDP問題中的狀態抽象,通過這種方法計算的對比性箔的策略可能是非馬爾科夫的。

付費5元查看完整內容

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。

//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf

付費5元查看完整內容

盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

與線下工作方式不同,在線學習有兩種研究模式: (1) 在線元學習(OML)[6, 20, 26]在任務依次揭示的序列設置中學習模型參數的良好先驗(或學習學習)。盡管它提供了一個次線性遺憾界限,這種技術完全忽略了公平學習的重要性,而公平學習是人類智能的一個重要標志。(2) 在線公平感知學習[1,8,21]。這種設置捕獲了許多涉及公平性的分類問題。但它的目標是在沒有任何特定任務適應性的情況下實現零概率泛化。因此,這限制了模型適應新到達數據的能力。為了克服這些問題,彌補這一差距,本文首次提出了一種新的在線元學習算法,即FFML,該算法是在不公平預防的背景下進行的。FFML的關鍵部分是學習在線公平分類模型的原始參數和對偶參數的良好先驗,它們分別與模型的準確性和公平性有關。這個問題的形式是一個雙層次的凸-凹優化。理論分析提供了損失后悔的次線性上界??(log??),違反累積公平約束的上界??(p??log??)。我們的實驗通過將FFML應用于三個真實數據集上的分類,證明了它的通用性,并在公平性和分類準確性之間的權衡上顯示了比最好的預先工作的實質性改進。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司