亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

對于許多人工智能系統的應用領域來說,多目標連續決策問題是常見的。由于這些系統越來越多地被用于與人打交道或做出對人有影響的決策,因此它們的推理對終端用戶和利益相關者來說是很重要的,以促進信任和有效的人-Agent協作。然而,即使在使用馬爾科夫決策過程(MDP)等白盒決策模型時,最終用戶也很難理解解決順序決策問題背后的推理。這種理解性的挑戰是由于解決長視距問題存在爆炸式的潛在策略組合。多目標優化方面使問題進一步復雜化,因為不同的目標可能發生沖突,需要權衡推理。這些復雜的問題給終端用戶帶來了障礙,使他們無法知道Agent是否為特定環境做出了正確的決定,并且可能禁止他們在Agent錯誤的情況下進行干預。本論文的目標是開發一個可解釋的框架,使做出順序決策的Agent能夠向最終用戶傳達其目標和行為的緣由

我們提出了一個用于MDP的可解釋規劃框架,特別是支持具有多個優化目標的問題域。我們提出以結果為導向的對比性解釋,其中對Agent策略的論證是以其對任務目標的預期后果為基礎的,放在所選擇的可行方案的背景下,以展示Agent的優化和權衡推理。我們的建模框架支持獎勵分解,并增強了MDP表示法,以使獎勵或成本函數的組成部分以領域級概念和語義為基礎,從而促進解釋的生成。我們的解釋生成方法計算策略層面的對比襯托,描述Agent決策中的拐點,即對分解的任務目標進行優化和權衡推理。我們通過將我們的可解釋規劃框架應用于三個規劃問題領域來證明它的適用性:基于航路點的導航、無人機任務規劃和診所調度。

我們設計并進行了人類受試者實驗,以根據可衡量的任務表現來評估解釋的有效性。我們把實驗中用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以結果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策能力,以及用戶對其評估的信心。

最后,我們研究了面向后果的對比性解釋范式的用戶指導方法的可行性。我們提出了一個理論框架和方法,將"為什么不"的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯約束,并得出滿意的策略,以解釋被詢問的行為對后續決策和任務目標的全部影響。

第一章 簡介

由于人工智能推理的算法復雜性和所使用的信息不為用戶所知,因此,由帶有人工智能(AI)組件的系統做出的自動決策對最終用戶來說往往是不透明的,難以理解。特別是順序決策過程,在這個過程中,隨著時間的推移連續采取多個依賴性行動,由于可能策略的組合爆炸,特別是涉及到不確定性下的推理時,對終端用戶的理解構成了重大挑戰。隨著人工智能系統越來越多地被用于許多領域,與人們一起工作或做出影響人們的決定,這些系統必須使其推理能夠被最終用戶和利益相關者理解。理解系統的目標和行為,相信系統為他們的任務做出了正確的決定,或者知道他們什么時候沒有做出正確的決定,這對于讓人們信任并有效地使用這些人工智能系統或與之合作至關重要。本論文的目標是開發一個可解釋性框架,使做出順序決策的Agent能夠將其目標和行為的理由傳達給終端用戶。

對于許多順序決策或規劃的應用領域,經常有多種實現目標的方法,這些方法可能在一些重要的品質上有所不同,如執行時間和各種性能和成本的衡量標準。這樣的順序決策問題涉及到特定領域數量屬性的優化[78]。對于這類應用領域的終端用戶或利益相關者來說,一個重要的可理解性類型[61]是:為什么Agent的決策是最優的?這個問題有幾個方面。正在使用的順序決策框架、領域模型、任務目標(即目標和優化目標)以及解決問題的算法都在選擇最優決策方面起作用。因此,問題的多個方面可以得到解釋。在本論文中,我們特別關注領域模型和任務目標方面,以馬爾可夫決策過程(MDP)作為順序決策框架。我們研究了與算法無關的方法,向用戶解釋為什么MDP規劃Agent的策略是最優的,與Agent的決策模型有關。也就是說,我們的方法是根據Agent的MDP模型來解釋他們的最優策略,與解決MDP的具體算法無關。我們的目的是向用戶解釋產生規劃解決方案的推理,這些解決方案對他們來說可能是不明顯的,基于Agent的決策模型所做的,而不是基礎規劃算法如何實現的。

我們認為,對比性解釋對于回答為什么一項計劃或策略是最優的至關重要,因為最優性從根本上說是一種比較性屬性。對比性解釋的思想源于這樣一種社會現象:當人們要求對某一事件,即事實("為什么會發生P?")進行解釋時,他們往往要求相對于某種對比情況,即箔("為什么會發生P而不是Q?")進行解釋[69, 70]。

在可解釋的人工智能規劃中,現有的工作采用對比性解釋來進行推理調和(意味著幫助用戶的推理過程更好地理解規劃者的決策)[18],主要集中在單個行動層面的對比性襯托。這些工作通常旨在回答 "為什么這個行動在這個計劃中?"和 "為什么不是這個其他行動?"的問題。[36]. 然而,為了回答 "為什么這個策略是最優的?"的問題,我們認為在單個行動層面的對比性襯托是不夠的。對于用戶來說,要理解為什么一個策略是最優的,知道在某個狀態下選擇另一個行動會有一個較低的值(即Q(s, a0 )值,或其分解成分,對于在狀態s下的另一個行動a0)可能是不夠的。較低的值可能是沒有向用戶解釋的后續狀態和行動的結果。此外,有許多可能的后續狀態和行動的集合,Agent可以選擇,這將導致不同的策略值。如果解釋將對比性的襯托作為單獨的行動,這些替代性的決定就沒有得到解決。相反,我們認為應該探索導致較低策略值的行動組合,以便為用戶提供更多關于一個策略為什么是最優的洞察力。關鍵的挑戰是如何從一個指數級的大空間中找出適當的行動組合作為對比性的襯托。

在這篇論文中,我們研究了什么是構成策略最優的有效對比性解釋,以及如何自動生成這種解釋的問題。我們專注于解釋馬爾科夫決策過程規劃,對其而言,即使規劃模型是一個白盒,決策的長跨度順序性和概率性仍然使Agent的推理難以被用戶理解。我們的工作特別有動力針對涉及多個獎勵或成本目標的問題域,因為它們反映了規劃的許多現實應用[78]。問題的多目標優化性質增加了用戶需要理解的Agent推理的復雜性。

我們在本論文中研究的解釋的主要目標是使用戶能夠評估規劃Agent的決定對于用戶的目標和偏好來說是否是最優的,這些目標和偏好可能與Agent的目標和偏好不同。我們關注這一目標的原因有兩個方面。首先,在為規劃問題設計獎勵或成本函數時,將Agent和用戶的目標和偏好統一起來是一個困難的問題[37, 59]。特別是,當規劃目標有多個組成部分時,可能會發生錯位。能夠幫助用戶發現這種(錯誤的)排列的解釋可能是有影響的。第二,為解釋建立一個以任務為導向的目標,可以為衡量擬議的解釋方法的有效性提供一個更客觀的評價方法。

我們研究如何使用對比性解釋作為一種機制來描述Agent的規劃目標如何將其決策引向某種策略而不是其他策略。與可解釋人工智能文獻中常用的對比性解釋的定義不同,我們不關注因果差異條件或與不同情況相關的屬性的非因果差異。相反,我們的主要想法是關注Agent決策中的拐點,使其選擇某種策略而不是其他一些合理的選擇。也就是說,我們關注的是Agent改變其優化軌跡以平衡競爭性任務目標的點。為了從一個指數級的大空間中找出一套可管理的信息對比襯托--在行動組合層面上,我們利用規劃問題的多目標性質來解釋。通過獎勵分解,我們確定了一個帕累托有效策略的子集作為候選的對比性襯托。我們的對比性解釋方法的主要思想是描述獎勵或成本值的組成部分如何在帕累托效率子空間中驅動優化決策的拐點,以及如何進行權衡以調和競爭的任務目標。我們對這種類型的對比性解釋的論點是雙重的。首先,它忠實于規劃算法的基本數學方法,即計算多目標獎勵或成本函數的最優價值函數。其次,它支持本論文中所激勵的解釋的目標,即幫助用戶認識到Agent的目標和偏好與他們的目標和偏好之間的一致或不一致。

1.1 論文聲明

本論文的論述是:

我們可以通過面向結果的對比性解釋來提高馬爾科夫決策過程(MDP)規劃Agent對終端用戶的透明度和可理解性,即他們如何推理尋找最優策略。我們提出的方法允許用戶從不同序列決策對各種任務目標的影響以及競爭目標之間的權衡角度來理解規劃原理。我們提出的解釋機制使最終用戶能夠評估基于規劃的Agent的目標和他們自己的目標之間的一致性,并有可能從用戶的角度解決Agent的意外決定。

接下來,我們闡述一下論文聲明。

這篇論文的重點是針對最終用戶的馬爾科夫決策過程(MDP)規劃的推理協調問題(即幫助用戶的推理過程更好地理解規劃者的決定[18]),特別是對于涉及多個優化目標的問題領域。也就是說,我們的目標是產生解釋,說明為什么一個Agent的策略是關于任務目標和先驗偏好的最佳選擇。我們將我們的方法設計為算法無關和基于模型。也就是說,我們的方法是根據MDP模型來解釋Agent的最優策略,與解決MDP的具體算法無關。我們提出了以結果為導向的對比性解釋,其中對策略的論證是以其對任務目標的預期后果為基礎的,放在選定的可行替代方案的背景下,以證明Agent的優化和權衡推理。

利用獎勵分解,我們的方法通過對獎勵或成本函數的各個組成部分的價值函數的約束進行重新規劃,計算出一小套替代策略作為對比性的襯托,這與問題的任務目標相對應。價值約束的設置是為了解決帕累托前沿的拐點上的替代策略,這些拐點表明Agent的權衡決定,以調和競爭的任務目標。我們的方法制定了解釋,描述了在行動組合層面上不同的對比性襯托如何影響與Agent策略相比的任務目標。

本論文表明,使用以結果為導向的對比性解釋可以提高終端用戶對規劃原理的理解,其衡量標準是他們評估Agent的決策是否與用戶自己的目標和對任務的偏好相一致的能力,這可能與Agent的目標和偏好不同[59]。我們在本論文中提出,這種解釋為終端用戶提供了關于Agent決策的可操作性的見解。也就是說,用戶可以相信Agent已經做出了正確的決定,或者他們可以確定Agent有可能出錯的地方并進行相應的干預。

此外,我們研究了對我們方法的擴展,允許用戶直接查詢Agent策略中的意外決定。我們探索了一種用戶引導的、以結果為導向的對比性解釋方法,以 "為什么不 "查詢的形式使用用戶的輸入來引導搜索對用戶的具體問題有參考價值的對比性襯托。為此,我們提出了一個理論框架和方法,將 "Why-Not "查詢制定為規劃問題上的狀態-行動約束和線性時間邏輯(LTL)約束,并解決滿足的策略,以解釋被查詢行為對后續決策和任務目標的全部影響。使用這個解釋框架的重要考慮因素是:對于滿足被查詢的時間模式的對比性箔,計算出的策略對于原始MDP問題中的狀態抽象來說可能是非馬爾可夫的。必須承認Agent原始推理中的馬爾科夫獎勵假設和用于生成用戶查詢的對比性襯托的非馬爾科夫方法之間的差異。盡管如此,我們認為,允許對比性襯托來挑戰Agent的正式規劃框架中的假設,對于用戶理解和評估他們對Agent的任務所期望的最優性標準是有參考價值的。這項調查是一個概念驗證。它的主要目標是探索在我們面向結果的對比性解釋范式中超越獨白的可行性,并納入復雜的用戶查詢,以確定更相關的對比性襯托,從而實現更好的推理協調。

1.2 貢獻

在這篇論文中,我們做出了以下貢獻:

1.我們為馬爾科夫決策過程(MDP)規劃設計了一種算法無關的、基于模型的可解釋規劃方法[94]。我們的解釋目標是提供推理調節,說明為什么一個策略對于任務目標和規劃Agent的先驗偏好來說是最優的。我們提出了一種方法來產生面向結果的對比性解釋。我們的方法由兩部分組成:

(a) 一個支持獎勵分解的建模框架,并增強了MDP表示法,使獎勵或成本函數的組成部分在領域級概念和語義中有了基礎,以促進解釋的生成。

(b) 一種計算策略層面的對比襯托的方法,它描述了Agent在分解任務目標的優化和權衡推理方面的決策拐點。我們的方法通過對分解的任務目標的價值函數進行硬性和軟性約束的重新規劃來計算對比性箔。我們將約束性規劃問題表述為混合整數線性規劃(MILP)問題。特別是,我們制定MILP問題來解決滿足價值函數的硬約束的確定性策略[28]。我們使用懲罰方法[23]和非線性懲罰函數的分片線性近似[25]在MILP表述中用于軟約束。

2.我們通過將我們的方法應用于三個規劃問題領域來證明我們提出的可解釋規劃框架的適用性:基于航點的室內機器人導航、無人駕駛飛行器(UAV)任務規劃和門診調度。我們展示了每個問題域如何在我們的可解釋規劃表示中建模,并討論了我們的方法對不同問題實例產生的解釋的例子。

3.我們設計并進行了一個人體實驗,以評估基于可測量的任務表現的解釋的有效性。特別是,我們將用戶的任務設計為:評估Agent的規劃決策,以確定它們是否是給定問題背景下的最佳決策。我們的實驗結果表明,我們提出的以后果為導向的對比性解釋方法明顯提高了用戶正確評估Agent的規劃決策的能力,以及用戶對他們的評估的信心。

4.我們研究了面向后果的對比性解釋范式的用戶指導方法的可行性。提出了一個理論框架和方法,將 "為什么不 "的行為問題表述為規劃問題上的狀態-動作約束和線性時間邏輯(LTL)約束,并解決滿足的策略,以解釋被詢問的行為對后續決策和任務目標的全部影響。為了解決具有LTL約束的MDP,我們利用現有的問題制定方法[82]來構建產品MDP,其中包含了由LTL屬性生成的確定性拉賓自動機(DRA),而產品MDP的獎勵或成本函數是根據DRA的接受條件來定義。對于原始MDP問題中的狀態抽象,通過這種方法計算的對比性箔的策略可能是非馬爾科夫的。

付費5元查看完整內容

相關內容

在現實生活中部署人工智能體的一個基本問題是它們快速適應環境的能力。傳統的強化學習(RL)以兩種方式與這一需求作斗爭。首先,對不受約束的環境動態的迭代探索會產生大量信息不足的更新,從而導致適應速度緩慢。其次,最終的策略沒有能力適應未來的觀察結果,必須隨著觀察結果的發生緩慢地無限學習或完全重新訓練。本文探討了兩種旨在解決這些問題的表述。元強化學習對整個任務分布的考慮使策略能夠快速適應特定實例。通過強迫智能體特定地請求反饋,主動強化學習強制進行選擇性的觀察和更新。這兩個公式都簡化為貝葉斯-自適應設置,在其中保持對可能環境的概率信念。許多現有的解只提供了在實際環境中使用有限的漸近保證。我們開發了一種近似信念管理的變分方法,并通過廣泛的消融實證支持其有效性。然后,我們考慮最近成功的規劃方法,但發現和討論它們在應用到所討論的設置中的障礙。影響RL系統的數據需求和穩定性的一個重要因素是選擇合適的超參數。我們開發了一種貝葉斯優化方法,利用訓練過程的迭代結構,其經驗性能超過現有基線。本文的最后一個貢獻是提高高斯過程(GPs)的可擴展性和表達性。雖然我們沒有直接使用現有的框架,但GPs已經被用于在密切相關的設置中建模概率信念。

//ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077

付費5元查看完整內容

今天,機器學習正在從研究過渡到廣泛的部署。這一轉變需要能夠從異質數據集中學習的算法和能夠在復雜的多任務環境中運行的模型。那么,在為這種情況設計模型和算法時,我們是否有一套原則可以遵循?在這篇論文中,我們從概率的角度來探討這個問題,開發了一個聲明性的框架來表示、分析和解決不同的多任務學習問題,并考慮了多個案例研究,從多智能體游戲、多語言翻譯到聯合學習和個性化。

本論文中提出的觀點組織如下。首先,我們介紹我們的核心概率多任務建模框架。從學習任務的一般定義開始,我們展示了如何將多個相關的任務集合到一個聯合概率模型中并加以表示。然后,我們闡述了多任務環境中的不同概括概念,并展示了如何推導出實用的學習算法和一致的目標函數,從而利用概率學習和推理的技術實現某些類型的概括。接下來,我們通過多個具體的案例研究來說明我們提出的框架。我們的每一個案例研究都是獨立的,都集中在一個特定的領域,展示了我們框架的多功能性。我們不僅從概率的角度重新解釋了不同的問題,而且還開發了新的學習算法和推理技術,在每個考慮的領域中改進了當前的最先進技術。

付費5元查看完整內容

摘要

現實生活中的問題是動態的,并且與具有多種選擇的決策過程有關。我們需要通過優化來解決其中的一些動態決策問題。當我們需要在決策過程中對多個參數進行權衡時,特別是在動態環境中,解決這些問題具有挑戰性。然而,在人工智能(AI)的幫助下,我們可以有效地解決這些問題。本研究旨在研究利用深度強化學習(DRL)算法為動態多目標環境開發一個智能決策方案。這包括在強化學習(RL)環境中開發一個動態多目標優化領域的基準,這刺激了使用傳統的深海寶藏(DST)基準開發一個改進的測試平臺。擬議的測試平臺是在改變最佳帕累托前沿(PF)和帕累托集(PS)的基礎上創建的。就我所知,這是第一個用于RL環境的動態多目標測試平臺。此外,還提出了一個框架來處理動態環境中的多目標,從根本上保持不同目標之間的平衡,以提供一個與真正的PF相近的折衷方案。為了證明這一概念,所提出的模型已經在現實世界的場景中實施,以預測基于巴西圣保羅水質彈性的脆弱區域。

所提出的算法,即奇偶深度Q網絡(PQDQN)被成功實施和測試,智能體在實現目標(即獲得獎勵)方面表現優異。盡管與多目標蒙特卡洛樹搜索(MO-MCTS)智能體相比,該智能體需要更多的訓練時間(即步驟數),但與多策略DQN(MPDQN)和多帕累托Q學習(MPQ)算法相比,其尋找帕累托最優解決方案的準確性明顯提高。

結果顯示,所提出的算法可以在動態環境中找到最優解。它允許在不對智能體進行任何再訓練和行為調整的情況下適應新的目標。它也制約著需要選擇的策略。就動態DST測試平臺而言,它將為研究人員提供一個進行研究的新維度,使他們能夠在解決動態性質的問題時測試他們的算法。

關鍵詞:深度強化學習,多策略,多目標優化,動態環境,深度Q網絡,矢量獎勵,基準,水質評價,復原力。

第1章 簡介

今天的人類生活受益于科學及其各種應用。特別是,人工智能(AI)增加了一個新的層面,使人們相信人類的智慧可以被人工取代。然而,智能本身是如此龐大、自發、原始和不確定,以至于在不久的將來,它可能無法被純粹地復制或取代。盡管如此,還是有強大的科學團體相信這種替代,從學術角度來看,它確實值得贊賞(Jarrahi, 2018; King and Grudin, 2016)。

然而,智能的機制可以通過建立機器、智能體和系統,甚至編寫計算機程序,在一定的邊界內進行分析。這種人工開發的系統可以協助人類做出更好的決定,或根據人類定義的一套規則行事(Duan, Edwards and Dwivedi, 2019)。換句話說,科學界在開發學習如何智能并相應執行的系統方面會有更大的成功(Julian Togelius,2007;Yannakakis和Togelius,2015)。本論文的重點是建立一個智能決策方案,處理多目標(MO)環境中的動態問題。更具體地說,本研究指導如何開發一個計算機應用程序,使其學習到智能,并在動態多目標(DMO)環境中使用深度強化學習(DRL)執行識別優化的解決方案。

人類生活由各種問題組成,這些問題是動態的、多參數的和復雜的。每一個問題都需要遵循不同的步驟來做出最終決定,如果有一個以上的選擇,就需要進行優化。因此,多目標優化,一個為問題尋找最佳解決方案的過程,在最近幾年變得很流行(Zaroliagis和Christos,2005;Botte和Sch?bel,2019)。許多問題涉及連續變化的屬性,需要從許多可用的解決方案中找到一個最佳解決方案,這非常具有挑戰性。例如,預訂航班或酒店,安排班級常規,以適應因工作人員缺席和房間不可用而產生的不斷變化,在戰爭中部署一支軍事部隊等等。這些場景需要動態優化,因為決策需要根據情況經常改變。另一個例子是癌癥患者的用藥,其目標不僅僅是在較短的時間內治愈他們,而且要盡量減少藥物的副作用(Preissner等人,2012)。這個問題還涉及到用藥期間可能出現的任何新情況的風險。

在計算智能領域,解決這些動態多目標優化問題(DMOPs)的常見方法是進化方法(Azzouz, Bechikh and Said, 2017; Lam, Branke and Abbass, 2005)。然而,最近,多目標優化領域的許多科學文獻顯示,在使用多目標馬爾科夫決策過程(MOMDP),特別是使用強化學習(RL)技術來解決問題時,出現了截然不同的視角(Lizotte和Laber,2016;Drugan等人,2017;Bamakan、Nurgaliev和Qu,2019)這種技術的主要目標之一是達到被稱為帕累托最優解(POS)的解決方案集,它盡可能接近真正的帕累托最優前沿(POF)。這些技術不僅可以找到帕累托前沿的形狀,而且還有助于調查和解碼解決方案可能具有的有趣事實(Gopakumar等人,2018)。此外,最近多目標馬爾科夫決策過程(MOMDP)不僅因其適用性,而且在解決實際的多目標問題方面也受到了極大的關注(Lizotte和Laber,2016)。為了解決MOMDP,常見的方法是使用狀態、行動和獎勵函數來定義RL模型。獎勵函數可以是標量或矢量。然而,根據獎勵假設(Sutton和Barto,2018),目標和目的可以用收到的標量信號(即獎勵)的累積總和的期望值最大化來正式確定。換句話說,所產生的MOMDPs總是可以轉化為具有聚合回報的單一目標MDPs。

然而,Roijers等人(2013)拒絕了Sutton的觀點,質疑其在現實世界中的應用。他們提出了三種靜態場景(即已知權重、未知權重和決策支持場景),作者表明其中一種或兩種轉換是不可能的、不可行的或不可取的。此外,就DMOPs而言,由于缺乏測試平臺,該領域的研究非常少(Azzouz、Bechikh和Said,2017)。在這項研究中,通過提出一個動態多目標測試平臺(即動態深海尋寶)來解決這一研究空白,這可能會引導研究人員在這一領域做進一步調查。據我所知,這是在使用DRL的動態多目標優化方面的第一項工作。此外,關于RL環境的動態多目標優化基準的必要性的論證已經確立,因為問題空間的復雜性和在合理的時間范圍內找到一個解決方案是計算密集型的,如NP-hard或NP-complete問題(Plaisted,1984)。此外,還提出了一種算法,該算法主要負責在定義的動態環境中處理一個以上的目標。之后,該算法的實施被認為是根據巴西圣保羅(SP)22個地區的水質恢復力來識別和預測脆弱地區,這確保了所提算法的適用性和效率。這種實施方式打破了理論知識的界限,有助于解決實際問題。

關于實施,只考慮了基本網絡,它有461個數據采集點。水體的流量測量是由圣保羅環境公司(CETESB)與圣保羅州水和能源部合作進行的。其結果是通過讀取刻度來測量水體中的流量來取樣。2017年,核心網絡產生了約118,000個(如物理、化學、生物、生物分析和生態毒理學)數據量(Publica??es e Relatórios | águas Interiores, 2017)。這一實施也可能導致解決我們每天面臨的其他一些動態的現實世界問題。

1.1 動機

我們生活在這樣一個時代,毫無疑問,技術已經極大地改變了我們的工作方式。根據牛津大學的經濟學家Carl Frey博士和Michael Osborne博士的說法,所有類別的工作有40%都有可能因為自動化而失去(Benedikt Frey等人,2013)。人工智能(AI)和機器學習(ML)將不可避免地對這種替代產生嚴重影響(Chris Graham,2018),甚至在政策制定方面(Federico Mor,2018)。關于人工智能對人類的影響,有兩派不同的觀點(Dwivedi等人,2019;Zanzotto,2019)。一派認為,人工智能很可能對人類產生破壞性影響(Clarke,2019),而另一派則期望人工智能對人類的進步起到積極作用(Woo,2020)。然而,這種爭論只有在未來人工智能技術充分發展的時候才能得到解決。在這個自動化過程中,未來將對就業部門產生重大影響,而人工智能將是這種數字化的開拓者(Syed等人,2020)。

為此,計算智能研究人員將更多地參與到使用機器人、增強和虛擬現實以及游戲環境的模擬中。在這整個過程中,游戲或游戲環境將是分析不同算法、模擬問題和提供解決方案的關鍵組成部分之一。明顯的原因是,游戲環境可以作為設計、開發、實施、測試、修改和改進算法的小白鼠(Justin Francis,2017)。遵循同樣的宗旨,本研究解決了DMOP領域的一個空白,并在模擬環境的幫助下提出了一個基準,作為對該領域的貢獻。

在這篇論文中,我們創造了一個動態的游戲環境,其中有一組相互沖突的目標。如前所述,問題的目標和約束條件相互之間是動態變化的,而且總是在不斷發展。為了解決這個問題,進化算法(EA)被廣泛用于處理優化問題。然而,由于隨時間變化的動態性,DMOPs的解決更具挑戰性,EA在解決這些問題時常常面臨困難(Jiang等人,2018)。

盡管如此,在2015年DeepMind的成功之后(Mnih等人,2015),人們對使用RL特別是深度強化學習(DRL)解決順序決策中的多目標優化的興趣越來越大(Arulkumaran等人,2017)。本研究也是受這一成就的激勵,打算從深度RL的角度增加價值,解決動態多目標優化的問題。此外,還考慮了一個水質測試案例,這是由人類非常關鍵的需求之一所鼓勵的,特別是在21世紀。在這項研究中,對水質恢復力進行了深入研究,并使用機器學習(ML)技術(即DRL)來確定巴西某個城市的關鍵區域。在這項研究中,提出了一種稱為奇偶性Q深Q網絡(PQDQN)的新方法,它能夠在動態DST環境中找到非主導的解決方案,并根據動態多目標環境中的水質復原力預測脆弱區域。智能體在這些環境中進行互動,這些環境是基于多目標馬爾科夫決策過程(MOMDP)的,并且能夠在RL環境中獲得獎勵。

1.2 目的和目標

在這項研究中,主要目的是解決現有測試平臺在強化學習背景下的動態多目標優化的挑戰。本研究的次要目的是為動態多目標環境研究和開發一個適當的決策框架。為了實現這些目標,我們確定了以下目標。

a) 調查當前在RL背景下動態多目標優化的最新進展。

b) 設計和開發一個用于RL環境下動態多目標優化的概念和數學模型。

c) 設計和開發一個新的動態多目標優化測試平臺,用于RL環境。

d) 設計和開發一種使用深度強化學習的新算法,該算法可以處理動態和優化多目標環境下的決策。

e) 應用所提出的算法來解決一個現實世界的問題,即利用巴西圣保羅州的水質復原力來識別和預測脆弱區域。

1.3 研究問題

本研究對以下研究問題的答案進行了調查。

  • Q1: 提出的基準能否解決RL環境的DMOP研究領域的空白?

  • Q2:基于DRL的算法如何處理多個目標并根據水質預測脆弱區域?

1.4 主要的科學貢獻

本研究工作的主要科學貢獻如下。

a. 為RL環境的動態多目標優化設計和開發了一個新的和創新的測試平臺。

b. 首次使用目標關系映射(ORM)來構建不同目標之間的元策略(如治理策略),以找出折中的解決方案。

c. 開發了一種新的方法來驗證所提出的算法在現實世界中的適用性,該算法根據巴西圣保羅的水質復原力來識別和預測脆弱區域。

d. 通過廣泛的文獻回顧,在RL環境的DMOP背景下確定研究差距。

1.5 測試案例

1.5.1 測試案例1

深海寶藏(DST)是一個游戲環境。它是一個標準的多目標問題,也是由(Vamplew等人,2011)引入的RL環境的測試平臺。這是流行的測試平臺之一,在多目標RL研究的背景下,已經多次出現在文獻中。這個環境由10行和9列組成,有三種不同類型的單元,如船只可以穿越的水單元,不能穿越的海面單元,因為這些單元是網格的邊緣,還有提供不同獎勵的寶藏單元。當智能體到達寶藏單元時,DST游戲結束。

在這里,智能體控制著一艘潛水艇,在海底尋找寶藏。智能體的目標是在最短的時間內找到價值最高的寶藏(即沖突的方式)。它有決定性的過渡,有非凸邊界。潛水艇從網格的左上角開始,可以向上、向下、向右和向左移動。與單目標環境不同的是,智能體獲得矢量獎勵。獎勵由每次移動的懲罰-1(即RL的負獎勵)和取得的寶物價值組成,寶物價值為0,除非智能體到達寶物的位置時收到寶物的數量(即RL的正獎勵)。最佳帕累托前線有10個非支配性的解決方案,每一個寶藏都有一個。鋒面是全局凹陷的,在寶藏值為74、24和8時有局部凹陷。最佳前線帕累托前線的超體積值為10455。圖1.1顯示了一個經典的和靜態的DST測試平臺,其中最低的寶藏值是1,最高的是124。

圖1. 1:作為測試案例1的深海尋寶(DST)環境

1.5.2 測試案例2

選擇測試案例2是為了讓所提出的算法(即PQDQN)和方法(即MOMDP)能夠解決巴西一個擁擠的城市中的實際問題。考慮到這一龐大人口的公共供水問題,圣保羅州政府正在努力實現該州各市鎮的普遍衛生設施,在那里,各種服務(如測量和維護水質、污水處理服務等)的人口比例增加。然而,水污染惡化了水的質量,阻礙了圣保羅的可持續發展(Governo do Estado de S?o Paulo | Elei??es, 2018)。河流、水庫、河口和沿海地區水域中存在的污水降低了水質,限制了其多種用途,同時增加了因初次接觸或攝入受污染的水而引起的水傳播疾病的發生(Nogueira等人,2018)。

為了確定脆弱地區并在這些地區采取適當的行動,需要大量的人力和費用。這些行動涉及綜合管理行動,涉及與工農業污水使用管理、人力資源(HR)管理的復雜性、固定資產和反應性或計劃性維護有關的各個部門和組織(Barbosa, Alam and Mushtaq, 2016)。因此,重要的是實現流程自動化,以盡可能快地檢測出脆弱區域。因此,基于人工智能的最佳決策支持系統可以減少管理這種巨大任務的成本,并可以產生社會經濟影響,這可能有助于可持續發展。圖1.2顯示了測試案例2的鳥瞰圖,其中智能體能夠根據水質恢復力預測脆弱區域。

圖1.2:測試案例2的示意圖

簡而言之,該測試案例中發現的問題如下:

  1. 這是一個動態問題,考慮到水質數據因各種因素而隨時間變化。

  2. 收集這些數據是昂貴的,需要人力資源。

  3. 由于手工檢查和計算,識別脆弱區很困難。

  4. 針對不同區域的投資優化很復雜。

  5. 確定各區的優先次序以提高水質是非常耗時的。

1.6 可交付的成果

本研究的成果在下面列出了出版物清單。

雜志

Md Mahmudul Hasan, Khin Lwin, Maryam Imani, Antesar Shabut, Luiz Fernando Bittencourt, M.A. Hossain, "Dynamic multi-objective optimisation using deep reinforcement learning: benchmark, algorithm and an application to identify vulnerable zones based on water quality", Engineering Applications of Artificial Intelligence, Publisher: Elsevier, Volume 86, 2019, Pages 107-135, ISSN 0952-1976, //doi.org/10.1016/j.engappai.2019.08.014.

IEEE會議

1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Alamgir Hossain, "Design and Development of a Benchmark for Dynamic Multi-objective Optimisation Problem in the Context of Deep Reinforcement Learning", 22nd International Conference on Computer and Information Technology, Dhaka, 2019. IEEE Xplore數字檔案鏈接:

2.Md Mahmudul Hasan, Ali Mohsin, Maryam Imani, Luiz Fernando Bittencourt, "A novel method to predict water quality resilience using deep reinforcement learning in Sao Paulo, Brazil", International Conference on Innovation in Engineering and Technology(ICIET), Dhaka, 2019.

3.M. M. Hasan, K. Abu-Hassan, Khin Lwin and M. A. Hossain, "可逆決策支持系統。Minimising cognitive dissonance in multi-criteria based complex system using fuzzy analytic hierarchy process," 2016 8th Computer Science and Electronic Engineering (CEEC), Colchester, UK, 2016, pp.210-215. IEEE Xplore數字檔案。鏈接:

其他國際會議

1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Miltu Kumar Ghosh, M A Hossain, "Deep Reinforcement Learning for Dynamic Multi-objective Optimisation", 17th International Conference on Operational ResearchKOI 2018, Zadar, Croatia, 2018.

其他貢獻

1.Md Mahmudul Hasan, Md Shahinur Rahman, Khin Lwin, Antesar Shabut, Adrian Bell, M A Hossain, "Deep Reinforcement Learning for Optimisation", "Handbook of Research on Deep Learning Innovations and Trends "的書籍章節,出版商。IGI Global,2018。鏈接:

2.2017年PACKT出版社出版的《Machine Learning for Developers》一書的技術評審員。鏈接:

3.Md Mahmudul Hasan, "Predicting Water Quality Resilience: A Machine Learning Approach", 8th FST Conference, ARU, UK, 2019.

4.Md Mahmudul Hasan, "A robust decision support system in dynamic multiobjective optimization using deep reinforcement learning", 12th Research Student Conference, ARU, UK, 2018.

5.最佳博士論文發表,第7屆FST會議,ARU,英國,2017。

6.Md Mahmudul Hasan, "Optimising decision in a multi-criteria based environment", seminar at ARITI, ARU, UK, 2017.

1.7 術語和風格說明

以下部分代表了本研究中經常使用的常用術語。

智能體:智能體或算法生活在模擬環境中,幫助做出決策。

狀態:狀態有助于確定由智能體決定的下一個步驟。

行動:智能體通過觀察新的狀態和接受獎勵,在不同的狀態之間可能的移動。

政策:政策通常表示智能體選擇行動的行為。

環境:環境是智能體的外部實體,它與狀態相互作用。環境可以是完全可觀察的(即智能體直接觀察環境)或部分可觀察的(即智能體間接觀察環境)。

靜態環境:不發生變化的環境,或受變化的參數和約束的影響。

動態環境:隨時間變化的環境。更具體地說,受目標函數、約束條件和問題參數影響的變化狀態。

獎勵:智能體有一個特定的任務,需要通過行動來完成。在有限水平線或偶發環境中,預期回報通常是標量獎勵的未貼現的有限總和,直到智能體達到終端狀態。

決策空間:這個術語用來定義代表選擇的空間,以做出決策。

目標空間:這個空間定義了基于目標的支配性和非支配性解決方案。

值得一提的是,為了讓讀者合理地閱讀這篇論文,我們使用了最少的首字母縮寫詞和數學術語,使讀者感到輕松和愉快。在一些章節的末尾,提供了一個圖形表示,以提供一個可視化和概念性的理解。此外,有些地方的數學公式是以可讀的形式描述的。然而,在某些地方已經向讀者做了充分的介紹,以便他們可以從相關的來源收集更多的信息。此外,一些詞語(如快、慢、快、長)被用來例證收斂性、耗費的訓練時間和識別真正的PF的性能,由于在優化和RL領域對真正的PF的近似(如移動全局最優),這些詞語被廣泛陳述和利用(Moffaert和Nowé,2014;Lin等人,2017;Farina、Deb和Amato,2004;Mehnen、Wagner和Rudolph,2006;Sutton和Barto,2018)。此外,之前對強化學習的熟悉程度可能會對讀者跟隨和享受閱讀產生明顯的影響。

1.8 論文的組織

本論文的組織結構如下所示。

第二章回顧了相關的研究工作,其中強調了智能應用、決策支持系統、馬爾科夫決策過程、機器學習、強化、深度強化學習、現有基準和優化技術的概述。本章還代表了對基本組成部分的全面分析,以增強論文成果的可讀性,如回顧分析算法的性能指標。最后,本章對研究的理由進行了說明。

第三章涉及研究的方法,其中解釋了研究設計。本章還涉及到方法的細節和進行這項研究的必要方法。它還對數據準備、水質參數選擇和彈性計算方法進行了全面分析。

第四章討論了問題背景和實驗背景,其中描述了數學和概念模型。在這一章中,描述了擬議的基準、網絡結構和對現實世界場景中MOMDP的形式化的詳細討論,以及兩個測試案例的實驗背景。

第五章解釋了擬議算法的高層結構。在這一章中,已經解釋了所提出的算法的一步一步的工作程序。此外,本章還討論了開發擬議算法所需的工具,如必要的軟件、庫和機器環境。

第章介紹了實證分析和討論,其中也闡述了關鍵的審查和限制。在這一章中,還提到了性能測量標準和選擇這些標準的理由。此外,還解釋了擬議算法的優點和缺點。

最后,第七章闡述了本論文的結論和未來方向。未來方向包括開展現有研究的近期和長期目標。本章還解釋了兩個測試案例的進一步可能方向。

付費5元查看完整內容

深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。

在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。

//arxiv.org/pdf/2112.01423.pdf

付費5元查看完整內容

隨著越來越多的優化和人工智能(AI)方法用于輔助高風險的現實生活決策,公平已經成為這些工具的設計者和用戶考慮的一個基本因素。本文研究的是制定、實現和引出公平的新途徑。第一章通過優化模型研究公平與效率的平衡。我們提出新的社會福利函數(SWFs)作為羅爾斯法則公平性和功利主義兩大著名標準的綜合衡量。然后,我們設計了一個程序,用混合整數/線性規劃模型順序地最大化這些SWFs,以找到社會最優解。該方法具有廣泛的資源分配應用的實際潛力,并在醫療保健提供和災害準備避難所分配的實際規模應用中得到了證明。第二章考慮了一個由公平機器學習驅動的優化任務。在開發公平的ML算法時,了解公平的計算代價與標準的不公平設置相比是很有用的。對于利用優化模型進行訓練的公平ML方法,專門的優化算法可能比通用求解器提供更好的計算性能。在本章中,我將探討支持向量機(SVM)的這個問題,并設計塊坐標下降型算法來訓練包含線性公平性約束的SVM。數值實驗表明,在訓練公平支持向量機方面,新的專門算法比現成的求解器更有效。

第三章探討了優化作為人工智能系統中基于福利的公平正式化的一般范式。與公平人工智能中常用的統計偏差指標相反,優化社會福利目標支持基于分配正義考慮的更廣泛的公平視角。我們提出了社會福利優化和人工智能,特別是機器學習之間的處理中和處理后的集成方案。我們以按揭貸款處理為動機,進行個案研究,以評估整合方案的有效性。接下來的兩章探討了以人為中心的觀點,以引出人們的公平偏好,即了解在不同的決策環境下人們認為什么是公平。第四章從揭示的偏好出發,研究了基于在線學習(OL)的一般偏好學習框架:學習者在變化的環境中通過相互作用學習代理的私人效用函數。通過設計一個新的凸損失函數,我們設計了一個靈活的OL框架,可以統一處理文獻中常見的損失函數,并支持各種在線凸優化算法。該框架在后悔性能和求解時間方面優于文獻中的其他OL算法。最后,第五章研究了資源順序配置過程中人們動態倫理判斷的建模和引出問題。我們利用馬爾可夫決策過程(MDP)模型來表示順序分配任務,其中國家獎勵捕獲了人們的道德偏好,從而人們的道德判斷通過政策獎勵反映出來。我們設計了一個偏好推理模型,它依賴于基于主動偏好的獎勵學習來推斷未知的獎勵函數。將該學習框架應用于Amazon Mechanical Turk的人-被試實驗,以理解人們在分配稀缺醫療資源的假設情景下的道德推理。

//www.cmu.edu/tepper/programs/phd/program/assets/dissertations/2022-operations-research-chen-violet-dissertation.pdf

付費5元查看完整內容

摘要

無人駕駛飛行器 (UAV) 在過去十年中受到無人機硬件和監管框架的快速創新推動,被設想用于為未來社會多種服務應用。從下一代無線網絡的角度來看,無人機不僅有望充當被動蜂窩連接用戶的角色,而且還可以作為無人機輔助網絡的一部分,作為連接的主動推動者。用例范圍從貨物的“最后一英里”交付、客運、基礎設施檢查、環境監測和測量到智能農業的推動者。它們快速靈活的部署使它們在地面通信基礎設施不堪重負或被破壞的情況下特別有用,例如在自然災害和搜救情況下。在擴展永久性網絡基礎設施不可行或經濟上不可行的偏遠地區,無人機可以為目前沒有移動互聯網的世界一半人口提供移動互聯網接入。

圖 1.1 無人機提供通信服務和支撐固定基礎設施的應用示例。

圖 1.2 無人機分類。

無人機在所有潛在應用場景中的決定性優勢是它們的移動性。為了充分利用它們的能力,靈活高效的路徑規劃方法是必要的。本論文的重點是探索機器學習 (ML),特別是強化學習 (RL),作為解決無人機移動管理挑戰的一類有前途的解決方案。隨著近年來RL與神經網絡相結合的研究進展,deep RL是為數不多的能夠直接解決通信場景下無人機控制與部署復雜任務的框架之一,因為這些問題通常是NP-hard優化問題,且受到非凸性的嚴重影響。此外,深度 RL 提供了以直接方式平衡無人機輔助網絡的多個目標的可能性,它在先驗或模型信息的可用性方面非常靈活,而深度 RL 推理在計算上是高效的。

中小型無人機路徑規劃的一個關鍵限制是它們的最大活動任務時間受到機載電池能量密度的限制。當用作向地面用戶提供數據服務的空中基站 (BS) 時,自主無人機需要共同優化其飛行時間和系統的通信性能目標。論文的第一部分探討了使用深度 Q 學習來控制空中 BS,該 BS 從地面用戶那里收集數據,同時集成專用著陸點,無人機可以在著陸點著陸,從而在繼續為用戶服務的同時在其軌跡上節省能源。深度 Q 學習允許無人機在沒有任何關于環境或任務的明確信息的情況下找到有效的軌跡。

圖 3.1 空中 BS 移動決策是根據無人機的當前狀態做出的,即位置和電池電量。 UAV 完全不知道環境的先驗知識,即不知道著陸點(LS)的存在或位置、用戶位置、信道模型或最終 UAV 著陸位置。雖然 LS 提供了節能的可能性,但 UAV BS 可能不得不為某些用戶犧牲一些 QoS。

雖然 RL 范式為解決無人機輔助網絡中的優化問題提供了許多優勢,但仍然存在一些實際挑戰,尤其是在無人機可以學習的訓練數據需求的背景下。在現實世界中收集訓練數據是一個昂貴且耗時的過程,而在傳統的 RL 方法中,如果任務參數發生變化,則需要重復冗長的訓練過程,例如無人機的電池容量。在本論文中,我們通過提出一種深度 RL 算法來解決這個問題,該算法將訓練擴展到來自分布式物聯網 (IoT) 設備的無人機數據收集任務的隨機實例,如果任務參數發生變化,則無需重新訓練。與傳統方法相比,結果是一個復雜得多的問題,因為需要同時找到數千個任務實例的解決方案。這可以通過利用任務密集城市環境的智能處理地圖信息來實現。我們將此設置擴展到協作多無人機案例,其中出現機群協作的額外挑戰,以及大型、復雜和現實的城市環境挑戰。

圖 4.7 同一智能體適應設備數量和設備位置差異以及飛行時間限制的圖示,顯示了曼哈頓場景中已使用和可用的飛行時間以及收集和可用的總數據。

圖 5.8 軌跡圖說明傳播條件的變化對已經訓練好的智能體的影響。圖 5.8a 顯示了在智能體訓練時使用路徑損耗指數的原始行為。圖 5.8b 顯示了相同智能體在其他情況不變的情況下,路徑損耗指數略低。

論文的以下部分探討了無人機輔助通信和機器人技術,這是兩個通常不相交的研究界。 RL 范式的固有靈活性為提出可在多個無人機路徑規劃實例中工作的解決方案提供了機會,例如物聯網數據收集和覆蓋路徑規劃 (CPP),這是一個經典的機器人問題。最后,在本文的最后一部分,研究了基于模型輔助學習框架的另一種解決RL算法訓練數據需求挑戰的方法。在這種方法中,UAV首先學習真實環境的模型,然后利用學習的模型生成模擬訓練數據,大大減少了對昂貴的真實世界數據的需求

付費5元查看完整內容

隨著機器學習模型越來越多地用于做出涉及人類的重大決策,重要的是,這些模型不能因為種族和性別等受保護的屬性而歧視。然而,模型持有人并不是受到歧視性模型傷害的首當其沖的人,因此模型持有人修復歧視性模型的自然動機很少。因此,如果其他實體也能發現或減輕這些模型中的不公平行為,將對社會有益。只需要對模型進行查詢訪問的黑盒方法非常適合這個目的,因為它們可以在不知道模型的全部細節的情況下執行。

在這篇論文中,我考慮了三種不同形式的不公平,并提出了解決它們的黑盒方法。第一個是代理使用,模型的某些組件是受保護屬性的代理。其次是個體公平性的缺乏,這使模型不應該做出任意決定的直覺觀念形式化。最后,模型的訓練集可能不具有代表性,這可能導致模型對不同的保護組表現出不同程度的準確性。對于這些行為中的每一個,我提出使用一個或多個方法來幫助檢測模型中的此類行為或確保缺乏此類行為。這些方法只需要對模型的黑箱訪問,即使模型持有者不合作,它們也能有效地使用。我對這些方法的理論和實驗分析證明了它們在這種情況下的有效性,表明它們是有用的技術工具,可以支持對歧視的有效回應。

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容
北京阿比特科技有限公司