亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

CMU最新《可信賴強化學習》綜述為可信的RL的魯棒性、安全性和可泛化性提供一個統一的框架。

一個可信的強化學習算法應該能夠解決具有挑戰性的現實世界問題,包括魯棒地處理不確定性,滿足安全約束以避免災難性故障,以及在部署過程中泛化到未見過的場景。考慮到可信強化學習在魯棒性、安全性和泛化性等方面的內在脆弱性,對可信強化學習的主要研究方向進行了綜述。特別地,我們給出了嚴格的公式,分類了相應的方法,并討論了每個視角的基準。此外,我們還提供了一個展望部分,通過對考慮到人類反饋的外部漏洞的簡要討論來促進有希望的未來方向。我們希望這項綜述能將不同的研究線索整合到一個統一的框架中,促進強化學習的可信性。

//www.zhuanzhi.ai/paper/03e8a85b822658f3d9de0c2b3d84d958

強化學習(RL)[173]具有解決世界上一些最緊迫問題的巨大潛力,被應用于交通[68]、制造[133]、安全[75]、醫療[211]和世界饑餓[44]。隨著RL開始轉向在現實問題上的部署,它的快速發展伴隨著風險和回報[3,42,161]。在消費者接受rl授權的服務之前,研究人員的任務是證明他們創新的可信性。

針對內在漏洞的可信RL概覽圖:魯棒性、安全性、泛化性

可信度是為了最大化人工智能系統的利益,同時最小化它們的風險[3]。它有超出其字面意義的豐富含義,并激發了一個包括多種原則、要求和標準[3]的綜合框架。最近,可信的RL領域取得了令人振奮的進展[2,5,48,107,108,121,129,137,140,145,148,165,171,201],這極大地促進了我們對可信的RL的內在漏洞和特定方面的潛在解決方案的理解。很明顯,邁向值得信賴的RL的下一個飛躍將需要對這些問題的挑戰、現有值得信賴的RL方法的弱點和優點進行全面和根本的理解,并在現有工作的基礎上對值得信賴的RL進行范式轉變。與傳統機器學習(ML)中的可信性問題相比,強化學習中的問題要復雜幾個數量級,因為強化學習是一個多方面的系統,包含多個馬爾可夫決策過程(MDP)組件(觀察、環境動態、行動和獎勵)[173]。值得注意的是,這些組件可能受到不同的魯棒性、安全性、泛化和安全方面的考慮,這些在傳統的ML中已經或沒有考慮過。比較靜態的部分(例如,觀察)中的考慮可以在ML研究中找到根源,而那些與系統交互特性更相關的部分(例如,動作)是RL所獨有的,研究較少。此外,當將RL看作兩個階段(模型訓練之后是模型部署)時,我們可以單獨研究兩個階段的漏洞以及它們之間的聯系。 為了促進該領域的發展,本文從MDP的四個要素和兩個階段三個方面對可信RL進行了全面的考察

擾動和不確定性的魯棒性, RL的安全性,以限制破壞性成本,以及 泛化到域內和域外未見過的環境。

對于具有強互連的智能體來說,這些要求通常是同時需要的。以自動駕駛汽車為例,具體闡述了可信度的三個方面。首先,自動駕駛汽車的觀察結果容易受到對手干擾相機或激光雷達輸入的影響,在訓練自動駕駛汽車時,環境動力學和獎勵可能被毒化,執行部署的良性策略時,執行器也可能被對手操縱。關于兩個階段及其連接,在訓練過程中,希望安全探索,使汽車不會發生碰撞;在部署過程中,還應遵守安全約束,以避免危險后果。此外,還需要從自動駕駛汽車的訓練環境到測試環境進行良好的泛化。AV應該在不同的城市、不同的天氣和季節之間進行泛化。

盡管可信度存在這些相互關聯的方面,但現有的調查主要集中在有限的部分。García等[52]、Gu等[62]和Brunke等[25]研究安全RL,而Moos等[121]和Kirk等[88]分別關注魯棒性和泛化。它們通過提供值得信任的RL的一個方面的具體描述來推進該領域,但是缺乏我們前面所設想的對RL內在弱點的全面描述。在本次綜述中,我們希望為可信的RL的三個方面提供一個統一的框架。對于每個方面,我們將1)闡明術語,2)分析它們的內在漏洞,3)介紹解決這些漏洞的方法,4)總結流行的基準測試。如圖1所示,魯棒性、安全性和泛化性與智能體、環境、獎勵和成本有很強的相關性,這些與MDP的組成部分相對應。為了在讀者容易理解的范圍內,我們將綜述限制在MDP設置中。本文將該綜述視為RL固有的可信方面,因為我們假設人類的偏好和智能體和環境的設置是預定義的。在展望部分,我們將討論內在可信性和外在可信性之間的聯系。特別地,我們將對四個基本問題進行展望

如何認證和評估值得信賴的強化學習? 可信度的不同方面之間有什么關系? 如何與物理智能體和環境共同設計可信的RL ? 如何實現以人為本的值得信賴的RL設計?

我們希望這項綜述將把不同的研究線索匯集在一個統一的框架中,并激發新的研究,以全面了解值得信賴的強化學習的內在方面。調查的其余部分組織如下。從第2節到第4節,每一節都涉及可信性的一個方面。我們將在第5節解釋我們對調查之外的未來方向的關鍵挑戰的三個方面的展望。我們將在第6節中總結10個結論。

魯棒強化學習

魯棒強化學習旨在確定性地或統計地提高算法在面對不確定性和對抗性攻擊時的最差性能。訓練任務和測試任務之間的差異普遍存在。例如,在連續控制任務中,真實的物理參數可能與仿真中不同,而在自動駕駛場景中,周圍的智能體可能具有新穎的駕駛行為。這種差異促進了魯棒RL的發展。此外,現實世界應用程序的安全關鍵特性使得魯棒性成為幫助避免災難性故障的重要特性。研究RL中有效的攻擊和防御的興趣激增。這兩個領域的詳細綜述可在[28,76,121]中找到。在本節中,我們首先從不同MDP組件(包括觀察/狀態、操作、轉換和獎勵)對不確定性的魯棒性方面總結第2.2節中的魯棒性RL公式。然后,我們在第2.3節中提出了魯棒訓練和測試方法,以提高對每個組件的不確定性或人為設計的攻擊的魯棒性。我們在圖2中總結了魯棒RL方法。最后,我們在第2.4節中介紹了用于測試所提議的魯棒RL算法的魯棒性的應用程序和基準。

安全強化學習

在將它們部署到現實世界的安全關鍵應用程序(如自動駕駛汽車)時,安全性也是另一個主要問題。傳統的強化學習只關注從環境中獲得的任務獎勵最大化,缺乏滿足安全約束的保證。安全的策略應該明確考慮訓練期間的安全約束,并防止強化學習智能體造成破壞性成本或處于危險狀態。例如,如果將RL算法部署在真實的機器人手臂上,安全約束將是避免碰撞脆弱的物體和周圍的人,這可能會破壞寶貴的財產或造成傷害。類似地,自動駕駛應用中的RL智能體應該遵守交通規則,并避免與周圍障礙物的碰撞。因此,為現實世界的應用開發安全的強化學習算法是很重要的,這些算法允許它們在滿足一定的安全約束的情況下完成任務。安全強化學習又稱約束強化學習,其目的是在滿足安全約束條件的情況下,學習最大化預期任務獎勵的策略。根據安全要求和訓練要求,safe RL有不同的配方。在安全要求方面,有軌跡方面的安全約束和狀態方面的安全約束。從訓練需求的角度,我們可以將安全的RL分為兩類:安全部署和安全探索,安全部署的目的是在模型訓練結束后安全行動,但在訓練過程中可能會違反約束;安全部署是指在訓練過程中提供安全保障,使整個訓練過程能夠完成,而不會造成災難性的不安全行為。注意在RL設置中,智能體需要從故障中學習,在安全RL設置中類似。有人可能會說,我們應該始終使用領域知識而不是主動學習來避免任何安全關鍵故障。然而,在這項調查中,我們發現在許多情況下,對環境風險的精確描述是不可用的。這也是我們既要注意安全部署,又要注意安全探索,管理風險的原因。

強化學習泛化性

強化學習中的泛化側重于設計算法,以產生可以遷移或適應各種環境的策略,而不會對訓練環境過度擬合。這種能力對于現實生活中RL智能體的部署至關重要,因為測試時的環境通常不同于訓練環境,或者本質上是動態的。現有的一些調查根據他們的方法[88,188,225]對RL泛化研究進行了分類。然而,在本次調查中,我們采用了一種不同的方法,根據他們的評價變化進行分類。

付費5元查看完整內容

相關內容

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

因果性是現在機器學習關注的焦點之一。倫敦大學學院和牛津大學的學者發布了《因果機器學習》綜述,非常值得關注!

因果機器學習(CausalML)是將數據生成過程形式化為結構因果模型(SCM)的機器學習方法的總稱。這使得人們可以對這一過程的變化的影響(即干預)和事后會發生什么(即反事實)進行推理。根據他們所解決的問題,我們將CausalML中的工作分為五組:(1)因果監督學習,(2) 因果生成模型,(3) 因果解釋,(4) 因果公平,(5) 因果強化學習。對每一類方法進行了系統的比較,并指出了有待解決的問題。此外,我們回顧了特定模式在計算機視覺、自然語言處理和圖形表示學習中的應用。最后,我們提供了因果基準的概述,并對這一新興領域的狀態進行了批判性的討論,包括對未來工作的建議。

引言

機器學習(ML)技術今天擅長在獨立和同分布(i.i.d)數據中尋找關聯。一些基本原則,包括經驗風險最小化、反向傳播和架構設計中的歸納偏差,已經為解決計算機視覺、自然語言處理、圖表示學習和強化學習等領域的問題帶來了巨大的進步。然而,在將這些模型部署到現實環境中時,出現了新的挑戰。這些挑戰包括: (1) 當數據分布轉移[1]時泛化性能大幅下降,(2) 生成模型[2]樣本缺乏細粒度控制,(3) 有偏見的預測強化了某些子種群的不公平歧視[3,4],(4) 可解釋性[5]的概念過于抽象和問題獨立,(5)強化學習方法對真實世界問題[6]的不穩定轉換。

許多工作認為,這些問題的部分原因在于現代ML系統缺乏因果形式主義[7,8,9,10,11]。隨后,研究社區對因果機器學習(CausalML)的興趣激增,這是利用關于被建模系統的因果知識的方法本調查涵蓋了因果關系如何被用來解決開放式ML問題。簡而言之,因果推理提供了一種語言,通過結構因果模型(SCMs)[12]將關于數據生成過程(DGP)的結構知識形式化。使用SCM,我們可以估計在對數據生成過程進行更改(稱為干預)后,數據會發生什么變化。更進一步,它們還允許我們在事后模擬變化的后果,同時考慮實際發生的情況(稱為反事實)。我們將在第2章中更詳細地介紹這些概念,假設沒有因果關系的先驗知識。

盡管在設計各種類型的CausalML算法方面做了大量的工作,但仍然缺乏對其問題和方法論的明確分類。我們認為,部分原因在于CausalML通常涉及對大部分ML不熟悉的數據的假設,這些假設在不同的問題設置之間聯系起來通常很棘手,這使得很難衡量進展和適用性。這些問題是本次綜述的動機。

**1. 我們對完全獨立的因果關系中的關鍵概念進行了簡單的介紹(第2章)。**我們不假設對因果關系有任何先驗知識。在整個過程中,我們給出了如何應用這些概念來幫助進一步的地面直覺的例子。

2. 我們將現有的CausalML工作分類為因果監督學習(第3章)、因果生成模型(第4章)、因果解釋(第5章)、因果公平(第6章)、因果強化學習(第7章)。對于每個問題類,我們比較現有的方法,并指出未來工作的途徑。

3.我們回顧了特定模式在計算機視覺、自然語言處理和圖表示學習中的應用(第8章),以及因果基準(第9章)。

4. 我們討論了好的、壞的和丑陋的:我們關于與非因果ML方法相比,因果ML可以給我們帶來哪些好處的觀點(好的),人們必須為這些方法付出什么代價(壞的),以及我們警告從業者要防范哪些風險(丑陋的)(第10章)

結論發現**

  • 因果推理(第二章),與統計或概率推理相反,允許我們對介入和反事實的估計進行推理。
  • 因果監督學習(第3章)通過學習不變特征或機制來改進預測泛化,兩者都旨在消除模型對虛假關聯的依賴。未來的工作應該研究學習不變性的目標基準測試、對抗魯棒性的聯系以及元學習,以及額外監督信號的潛在利用。
  • 因果生成模型(第4章)支持從介入的或反事實的分布中采樣,自然地分別執行原則可控的生成或樣本編輯任務。所有現有的方法都學習結構作業;一些人還從數據中推斷出因果結構。對于不同的應用程序應該考慮什么層次的抽象,如何將分配學習擴展到更大的圖,以及反事實生成的數據增強何時有效(何時無效),這些都有待探索。
  • 因果解釋(第5章)解釋模型預測,同時解釋模型機制或數據生成過程的因果結構。方法可以分為特征歸因(量化輸入特征的因果影響)和對比解釋(表示獲得期望結果的改變實例)。到目前為止,還不清楚如何最好地統一這兩類方法,擴大解釋范圍,使它們對分布轉移具有魯棒性,對攻擊者安全和私有,以及如何規避不可避免的對追索敏感性的魯棒性權衡。
  • 因果公平(第6章)為評估模型的公平性以及減輕潛在數據因果關系的有害差異的標準鋪平了道路。該標準依賴于反事實或介入性分布。未來的工作應該闡明在標準預測設置之外的平等、公平、較弱的可觀察性假設(例如隱藏的混淆)以及對社會類別的干預主義觀點的有效性。
  • 因果強化學習(第7章)描述了考慮決策環境的顯性因果結構的RL方法。我們將這些方法分為7類,并觀察到它們比非因果方法的好處包括反發現(導致更好的泛化)、內在獎勵和數據效率。開放的問題表明,一些形式主義可能是統一的,離線數據的反發現在離線RL部分很大程度上沒有解決,而代理根據反事實做出的決定可能會提供進一步的好處。
  • 模態-應用:我們回顧了之前介紹的和模態特定原則如何提供機會來改善計算機視覺、自然語言處理和圖形表示學習設置。
付費5元查看完整內容

在實際情況下,決策面臨很多不確定性狀況,如何量化這些不確定性以及進行推理是個很關鍵的問題。最近來自弗吉尼亞理工最新《不確定性推理與量化的決策研究綜述》,51頁pdf闡述信念理論與深度學習結合下的不確定性決策,值得關注!

深入理解不確定性是在不確定性下做出有效決策的第一步。深度/機器學習(ML/DL)在解決涉及處理高維數據的復雜問題方面發揮了巨大作用。然而,與其他人工智能(AI)領域相比,ML/DL中對不同類型的不確定性進行推理和量化以實現有效決策的研究要少得多。特別是自20世紀60年代以來,KRR研究了信念/證據理論,以推理和衡量不確定性,以提高決策有效性。我們發現,只有少數研究利用ML/DL中信念/證據理論中成熟的不確定性研究來解決不同類型不確定性下的復雜問題。在這篇綜述論文中,我們討論了幾種流行的關于不確定性原因和類型的信念理論及其核心思想,并對它們進行了量化,并討論了它們在ML/DL中的適用性。此外,我們討論了利用深度神經網絡(DNNs)中的信念理論的三種主要方法,包括證據型DNNs、模糊型DNNs和粗糙型DNNs,就它們的不確定性原因、類型、量化方法及其在不同問題領域的適用性進行了討論。在深入調研的基礎上,我們討論了目前最先進的連接信念理論與ML/DL的見解、經驗教訓、局限性以及未來的研究方向。

//www.zhuanzhi.ai/paper/5ffe9344a3d2d7ed61531d9d1fcb859f

在各種業務流程和我們的私人生活中,我們面臨著各種各樣的決策,涉及多種選擇和相對的不確定性。對不確定性的清晰認識是進行合理有效的決策的先決條件。盡管不確定性下的推理和決策問題已經在包括信念/證據理論、博弈論和機器/深度學習(ML/DL)在內的各種人工智能(AI)領域研究了幾十年,但基于其根本原因的不確定性的不同表現尚未得到深入研究。互聯網和大數據時代帶來了大量可以用于決策的信息。在這種情況下,對及時、準確的決策的挑戰不再是缺乏信息,而是缺乏對不可靠、不完整、具有欺騙性和相互沖突的信息所帶來的內在不確定性的理解和管理的風險。

在人工智能中,一系列研究不確定性下的推理和/或決策的信念或證據理論有著悠久的歷史。然而,人們對不確定性的理解仍然有限,因為不確定性不僅僅是由于缺乏證據或不可預測性造成的。此外,ML/DL算法還考慮了不確定性(如任意不確定性或認知不確定性),為有效決策提供解決方案。然而,對于多維不確定性,即使在追求有效決策的共同目標時,每個領域對不確定性的理解都是不同的和/或有限的,對多維不確定性沒有共同的、堅實的理解。

我們的綜述論文旨在對一系列信念模型進行深入的調研,并引入一個新的解決域,利用信念/證據理論中的不確定性研究來開發ML/DL解決方案,以實現有效的決策。我們特別感興趣的是量化由不同根本原因引起的不同類型的不確定性。這將有助于ML/DL提供解決方案,通過提供不確定性是如何產生的,背后的原因是什么,以及最終它如何影響決策的有效性,從而滿足可解釋AI,即所謂的XAI。最先進的決策研究已經充分認識到考慮不確定性對有效決策的重要意義。然而,目前還很少有研究廣泛綜述已有的信念模型來研究不確定性及其在ML/DL領域的決策適用性。

在這項工作中,我們旨在回答以下研究問題:

RQ1。信念理論和深度學習研究的不確定性的主要原因和類型是什么? RQ2。如何根據信念模型和深度學習中研究的多維不確定性定義不確定性本體? RQ3。每個信念模型如何考慮和測量不確定性? RQ4。每個信念模型如何應用于深度學習,反之亦然,以便在不確定性下進行有效的決策? RQ5。信念理論和深度學習中不確定性推理和量化的關鍵區別是什么? RQ6。如何將信念模型應用于深度學習以解決復雜的決策問題?

雖然不確定性已經在許多領域得到了考慮,但本文將范圍限制在信任模型及其在深度學習算法中的應用上。請注意,當我們提到“決策”時,我們指的是在多個選項中做出選擇。例如,它可以是分類任務中的某個類以最大化預測精度,可以是在多個可用操作中選擇的一個操作以最大化決策效用,或者是為了優化系統性能而選擇的一個策略。在本文中,我們的主要貢獻如下:(1)我們首次在識別各種信念模型和深度學習中研究的不確定性的原因和類型方面進行了廣泛的調研,并提供了不確定性本體。(2)我們首先調研不同的信念理論如何考慮不確定性,并量化它,以有效的決策。(3)我們還首先討論了信念理論如何有效地用于基于深度學習的決策解決方案。(4)我們確定了每個信念理論如何導致和量化不確定性,以及它如何在深度學習環境中應用或與之一起應用的關鍵共性和差異。(5)我們提供了從廣泛調研中獲得的見解和教訓以及局限性的整體視角,并提出了有前景的未來研究方向。

第2節提供了不確定性的各種分類類型,以及不同類型不確定性產生的原因,并在調研不確定性多維概念的基礎上提出了不確定性本體。

第3節提供了8個信念模型的細節,并討論了信念的形成、不確定性的原因和類型、不確定性量化及其作為決策應用的應用。8種信念模型包括Dempster Shafer理論(DST)、可轉移信念模型(TBM)、Dezert-Smarandache理論(DSmT)、不精確Dirichlet模型(IDM)、Kleene三值邏輯(TVL)、模糊邏輯(FL)、貝葉斯推理(BI)和主觀邏輯(SL)。

第4節討論如何將信念理論應用于DL的背景下,作為不確定性下的決策應用,特別是在證據神經網絡、模糊深度神經網絡和粗糙深度神經網絡方面。

第5節提供了第1節中提出的關鍵研究問題的答案。 第6部分通過討論從我們的調研中獲得的局限性、見解和教訓來總結我們的論文。在此基礎上,展望了信念模型在解決基于深度學習的決策問題中的應用前景。

圖1 不確定性分類

圖2 不確定性體系

付費5元查看完整內容

在過去十年中,自動駕駛在研發方面取得了重大的里程碑。人們有興趣在道路上部署自行操作車輛,這預示著交通系統將更加安全和生態友好。隨著計算能力強大的人工智能(AI)技術的興起,自動駕駛車輛可以高精度地感知環境,做出安全的實時決策,在沒有人為干預的情況下運行更加可靠。

然而,在目前的技術水平下,自動駕駛汽車中的智能決策通常不為人類所理解,這種缺陷阻礙了這項技術被社會接受。因此,除了做出安全的實時決策外,自動駕駛汽車的AI系統還需要解釋這些決策是如何構建的,以便在多個政府管轄區內符合監管要求。

該研究為開發自動駕駛車輛的可解釋人工智能(XAI)方法提供了全面的信息。首先,全面概述了目前最先進的自動駕駛汽車行業在可解釋方面存在的差距。然后,展示該領域中可解釋和可解釋受眾的分類。第三,提出了一個端到端自動駕駛系統體系結構的框架,并論證了XAI在調試和調控此類系統中的作用。最后,作為未來的研究方向,提供自主駕駛XAI方法的實地指南,提高操作安全性和透明度,公開獲得監管機構、制造商和所有密切參與者的批準。

//www.zhuanzhi.ai/paper/9810a4af041ac0189ca8750d0a25958c

付費5元查看完整內容

摘要

深度強化學習 (RL) 中的泛化研究旨在產生 RL 算法,其策略可以很好地泛化到部署時新的未知情況,避免過度擬合其訓練環境。如果要在現實世界的場景中部署強化學習算法,解決這個問題至關重要,在現實世界中,環境將是多樣的、動態的和不可預測的。本綜述是對這一新興領域的概述,在已有研究的基礎上,通過提供了一個統一的格式和術語來討論不同的泛化問題。繼續對現有的泛化基準以及解決泛化問題的方法進行分類。最后,對該領域的現狀進行了批判性討論,包括對未來研究的建議。本文認為對基準設計采用純程序性內容生成方法不利于推廣,其建議快速在線適應和解決RL特定問題,并在未充分探索的問題環境中建立基準,如離線RL概括和獎勵函數變化。

引言

強化學習(RL)可以用于一系列應用,如自動駕駛汽車[1]和機器人[2],但為了實現這一潛力,我們需要可以在現實世界中使用的RL算法。現實是動態的、開放的、總是在變化的,RL算法需要對其環境的變化具有健壯性,并在部署過程中具有遷移和適應不可見(但類似)環境的能力。

然而,目前許多RL研究工作都是在諸如Atari[3]和MuJoCo[4,5]等基準測試上進行的,這些基準測試不具備上述屬性:它們在訓練策略時所處的環境中評估策略,這與現實場景不匹配(圖1左列)。這與監督學習的標準假設形成了鮮明的對比,在監督學習中,訓練集和測試集是不相交的,很可能導致強評估過擬合[6]。這導致策略即使在稍微調整的環境實例(環境中的特定關卡或任務)上表現也很糟糕,并且經常在用于隨機初始化上失敗[7,8,9,10]。

許多研究人員已經認真對待這些批評,現在專注于提高RL的泛化(從這項綜述的內容可以看出)。本研究的重點是生成策略具有預期魯棒性、遷移和自適應特性的算法,挑戰訓練和測試將是相同的基本假設(圖1中右列)。雖然這項研究是有價值的,但目前它經常缺乏清晰或連貫的論文。我們認為,這部分是因為泛化(尤其是在RL中)是一類問題,而不是一個特定的問題。改進“泛化”,但不明確需要哪種泛化,這是不明確的;我們不太可能從總體上改進泛化,因為這類問題太廣泛了,以至于適用于一些類似于No Free Lunch定理[11]的類比:在某些情況下改進泛化可能會損害在其他情況下的泛化。圖1中右兩欄顯示了兩大類泛化問題。

我們將泛化概念作為一個單一的問題來解決。我們提出了一種理解這類問題的形式化(建立在以前的工作[12,13,14,15,16]),以及在指定一個泛化問題時有哪些選擇。這是基于特定基準所做出的選擇,以及為驗證特定方法而做出的假設,我們將在下面討論這些。最后,我們在泛化中提出了一些尚未被探索的設置,但對于RL的各種現實應用仍然至關重要,以及未來在解決不同泛化問題的方法上的許多途徑。我們的目標是使該領域的研究人員和實踐者在該領域內外更容易理解,并使討論新的研究方向更容易。這種新的清晰性可以改善該領域,并使更通用的RL方法取得穩健的進展。

綜述結構。綜述的結構如下。我們首先在第2節中簡要描述相關工作,如其他概述。在第3節中,我們介紹了RL中泛化的形式化和術語,包括相關的背景。然后,在第4節中,我們繼續使用這種形式化來描述用于RL泛化的當前基準,討論環境(第4.1節)和評估協議(第4.2節)。我們將在第5節中對處理泛化的工作產生方法進行分類和描述。最后,我們將在第6節中對當前領域進行批判性的討論,包括在方法和基準方面對未來工作的建議,并在第7節中總結綜述的關鍵結論。

  • 我們提出了關于泛化的一種形式主義和術語,這是建立在以往多部工作[12,13,14,15,16]中提出的形式主義和術語基礎上的。我們在這里的貢獻是將這些先前的工作統一為RL中被稱為泛化的一類問題的清晰的正式描述。

  • 我們提出了一個現有基準的分類,可以用來進行泛化測試,將討論分為分類環境和評估協議。我們的形式主義讓我們能夠清楚地描述純粹的PCG方法在泛化基準和環境設計方面的弱點:擁有一個完全的PCG環境限制了在該環境下進行研究的精確度。我們建議未來的環境應結合PCG和可控變異因素。

  • 我們提出現有的分類方法來解決各種泛化問題,出于希望使它容易對從業人員選擇的方法給出一個具體的問題。我們指出了許多有待進一步研究的途徑,包括快速在線適應、解決RL特定的一般化問題、新穎的架構、基于模型的RL和環境生成。

  • 我們批判性地討論了RL研究的泛化現狀,并提出了未來的研究方向。特別地,我們指出,構建基準將使離線的RL一般化和獎勵功能變化取得進展,這兩者都是重要的設置。此外,我們指出了幾個值得探索的不同設置和評估指標:調查上下文效率和在連續的RL設置中工作都是未來工作的必要領域。

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

強化學習(RL)是一種流行的處理順序決策任務的范式,其中agent只有有限的環境反饋。盡管在過去的三十年里取得了許多進步,但是在許多領域的學習仍然需要大量的與環境的交互,這在現實的場景中是非常昂貴的。為了解決這個問題,遷移學習被應用于強化學習,這樣在一個任務中獲得的經驗可以在開始學習下一個更困難的任務時得到利用。最近,有幾項研究探索了如何將任務(或數據樣本本身)排序到課程中,以便學習一個可能很難從頭學起的問題。在本文中,我們提出了一個課程學習的強化學習框架,并利用它來調查和分類現有的課程學習方法的假設、能力和目標。最后,我們使用我們的框架來發現開放的問題,并為未來的RL課程學習研究提出方向。

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容
北京阿比特科技有限公司