亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器人系統正在進入舞臺。在硬件組件和軟件技術進步的推動下,機器人越來越能夠在工廠外運作,協助人類,并與人類一起工作。機器人擴張的限制因素仍然是機器人系統的編程。由于建立一個多機器人系統需要許多不同的技能,只有最大的組織能夠在機器人提供的服務空間中進行創新。

只有最大的組織能夠在機器人提供的服務空間中進行創新。為了使開發新的機器人服務更容易,我在這篇論文中提出了一個規劃模型,在這個模型中,用戶(程序員)給出了需要完成的聲明性規范,然后一個后臺系統確保該規范被安全、可靠地執行。我介紹了Antlab,一個這樣的后端系統。Antlab接受來自多個用戶的線性時態邏輯(LTL)規范,并使用一組不同能力的機器人來執行它們。

在實施Antlab的經驗基礎上,我確定了由所提出的規劃模型產生的問題。這些問題分為兩大類:規范和規劃。

在規范問題的類別中,我解決了從正反兩方面的例子中推斷LTL公式的問題,以及僅從一組正面例子中推斷LTL公式的問題。在這些解決方案的基礎上,我開發了一種方法來幫助用戶將他們的意圖轉移到正式的規范中。本論文所采取的方法是將來自單個演示的意圖信號和用戶給出的自然語言描述結合起來。通過將問題編碼為命題邏輯的可滿足性問題,推斷出一組候選規范。通過與用戶的互動,這組規格被縮小到一個單一的規格;用戶批準或拒絕對機器人在不同情況下的行為進行的模擬。

在規劃問題類別中,我首先解決了目前正在執行任務的機器人的規劃問題。在這種情況下,不清楚應該把什么作為規劃的初始狀態。我通過考慮多個推測的初始狀態來解決這個問題。從這些狀態出發的路徑是根據一個質量函數來探索的,該函數反復估計規劃時間。第二個問題是獎勵函數為非馬爾科夫時的強化學習問題。建議的解決方案包括反復學習代表獎勵函數的自動機,并使用它來指導探索。

付費5元查看完整內容

相關內容

這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。

本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。

我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。

付費5元查看完整內容

隨著深度學習方法多年來取得了巨大的成功,對這些模型的理解還沒有跟上模型的發展。可解釋機器學習是致力于理解復雜機器學習模型的主要研究領域之一。雖然提出解釋的例子越來越多,但對解釋的評估一直是一個懸而未決的問題。在解釋的開發階段,涉及人類的評估是昂貴的。為了解決解釋設計過程中涉及到人的困難,本文旨在定義客觀標準,允許人們在沒有人的情況下衡量一些好的屬性解釋和相對于客觀標準可取的設計解釋。

在本文中,我們討論了使可解釋AI方法的評估更加客觀的不同標準,其中我們的方法主要可以分為三個方面:(a)忠實導向(b)理論驅動的(c)應用驅動的。面向忠實度的度量通常與模型的解釋應該忠實地“解釋”模型這一核心概念相關聯。理論動機的客觀標準通常具有“當模型和數據滿足某種性質時,解釋應滿足相應的性質”的形式。應用驅動的客觀標準定量模擬解釋如何在沒有人類的情況下幫助某些應用。我們為不同類型的解釋設計客觀標準,并使用這些客觀標準來指導新的解釋的設計。最后,通過一些人體研究來驗證這些新解釋的設計。

Chih-Kuan Yeh

//chihkuanyeh.github.io/ 谷歌Brain的研究科學家。在CMU讀博期間,研究興趣集中在通過更客觀的解釋(可能是功能評價或理論性質)來理解和解釋機器學習模型。最近,對用更少(但更有效)的數據構建更好的大尺度模型感興趣,并通過模型解釋獲得的理解來改進模型。

**引言

可解釋人工智能(XAI)領域關注的是解釋機器學習模型的任務,隨著現代機器學習模型復雜性的增長,這一領域受到了越來越多的關注。解釋機器學習模型復雜的內部工作原理的需求也顯著增加,特別是當機器學習模型被應用于高風險決策時,包括金融、法律、醫療、社會應用和自動駕駛。在這些應用中,對高風險決策的解釋有助于理解和調試模型,增強用戶對模型的信任,明確模型的責任,并與模型就人- ai協作進行溝通。例如,使用人工智能幫助診斷的醫生將通過了解人工智能如何預測來決定是否信任它,從而受益。在社交應用中,理解模型為什么會做出某些決定來檢驗算法是否公平也很關鍵。此外,《通用數據保護條例》聲稱,數據保護當局有權解釋算法的輸出[123]。

解釋機器學習模型的一個關鍵困難是術語“解釋”或“可解釋性”沒有明確定義。目前的大多數解釋都解釋了復雜模型的某些類型的“屬性”,這些屬性可以被人類消化。一些常見的屬性包括但不限于模型使用的最顯著的數據輸入特征,模型使用的最顯著的訓練數據,模型使用的最顯著的人類可理解的概念,以及如何改變數據點的特征來改變模型的預測。然而,有許多不同的解釋和相互矛盾的哲學。例如,給定一個圖像分類器,圖像分類器的關鍵像素可能被認為是對某些用戶的一個很好的解釋,因為它闡明了模型如何進行預測,但也可能被認為是不可解釋的,因為最顯著的特征可能不足以推斷模型的推理原理。可以進行用戶研究和訪談,并要求用戶在給定的一組不同的解釋中選擇最具解釋性的算法,這與公正性的度量啟發有關[27,75]。然而,要求人類選擇最容易解釋的解釋也有其缺陷。眾所周知,人類存在認知偏差,解釋似乎是可以解釋的,但與模型無關。最近的研究甚至表明,許多關鍵的解釋彼此不一致,用戶可以根據個人喜好來決定使用哪種解釋[92]。如何選擇一個復雜機器學習模型的正確“屬性”來解釋?

衡量解釋有效性的另一種方法可能是評估解釋在應用中與人類一起的有用性,這是許多最近的研究提出的。Doshi-Velez和Kim[39]、Murdoch等人[116]提出要評估涉及人類用戶的現實應用中的解釋,并測試解釋如何在現實應用中幫助用戶。類似地,Chen等人。[25]鼓勵可解釋的機器學習問題與目標用例更緊密地聯系起來,并建議考慮基于真實任務的模擬版本的模擬。雖然這種評價是基于實際的應用,但利用這種類型的評價可能代價高昂,特別是在解釋的發展階段,因為這種評價往往需要真正的人參與。因此,合理的基于功能的評估對于設計/選擇要使用的解釋可能是有用的,而應用程序驅動的評估可以用于驗證設計/選擇的解釋可以在真實的應用程序或模擬用例中幫助人類。我們將這類基于功能的評估稱為客觀標準,主要是因為它在評估階段不需要實際的人員參與。

在本文中,我們主要考慮三類客觀標準(基于功能的評價):(1)以忠實度為動機的客觀標準,其動機是解釋對模型的描述能力如何;(2)以應用為動機的客觀標準,其動機是解釋在現實應用中如何被使用;(3)以理論為動機的公理標準,其動機是通過解釋的某些理論特性來幫助解釋的設計。下面,我們將更深入地討論這三類客觀標準。

  • 忠實導向的客觀標準

一類基于功能的評價是基于解釋對給定模型的忠實程度,也被稱為解釋的忠實度或描述準確性[116]。解釋的忠實度是至關重要的,因為“忠實度”通常很難用人類來衡量——人類可能更喜歡那些在視覺上有吸引力但與要解釋的模型無關的解釋。客觀標準的一種形式是基于“解釋是否解釋了這個模型?”這個問題。這些評估的核心思想是確定一個忠實的解釋應該滿足的屬性,并在模型-解釋對上執行測試,以驗證屬性是否滿足。Murdoch等人[116]也將其稱為描述性準確性,因為它衡量了解釋解釋模型的準確性。例如,許多解釋是局部鄰域內的線性近似,而忠實度度量度量解釋在局部鄰域內近似模型的程度。Adebayo等人[2]的一個流行例子是為解釋設計一個完整性檢查,即隨機改變模型權重也應該改變結果解釋。令人驚訝的是,并不是所有的解釋都令人信服地通過了這個理性檢查,這可能意味著一些解釋不忠實于模型。

應用驅動客觀標準

另一種形式的客觀標準是基于與解釋相關的應用,特別是那些不需要人工參與或可以自動模擬的應用。例如,尋找有害的訓練例是基于例解釋的一個關鍵應用,而基于例解釋的某些評估涉及到根據解釋刪除有害的訓練例,并對模型進行再訓練,并衡量新模型的性能。由于在這種應用中不需要人工參與,移除和再訓練評估已經成為由現實應用驅動的基于實例的解釋的一個關鍵的客觀標準。

理論動機的客觀標準

基于功能的解釋評估的另一種形式是公理形式的理論性質。公理可以被看作是解釋在特定輸入中應該如何表現的理論約束。如果要解釋的機器學習模型具有某種期望的特性,人們會希望這種期望的特性可以反映在解釋中。這種解釋的約束稱為公理性質。例如,如果機器學習模型在兩個特征上是完全對稱的,并且這兩個特征對于某個給定的輸入具有相同的值,那么這兩個特征對這個輸入的解釋值應該是相同的。這就是被廣泛用于解釋方法的對稱公理。也許將公理融入設計解釋中最常見的工作是Shapley值家族[139],它起源于合作博弈論社區。

本文的目標是開發和定義有意義的客觀標準,并使用這些客觀標準來幫助我們設計不同類型的解釋。由于不同的解釋類型自然會遵循不同的客觀標準,我們旨在為各種解釋類型設計客觀標準,包括特征重要性解釋、特征集解釋、特征交互重要性解釋、示例重要性解釋和基于概念的解釋。

付費5元查看完整內容

多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。

這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。

本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類

首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。

其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。

最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。

付費5元查看完整內容

在現實生活中部署人工智能體的一個基本問題是它們快速適應環境的能力。傳統的強化學習(RL)以兩種方式與這一需求作斗爭。首先,對不受約束的環境動態的迭代探索會產生大量信息不足的更新,從而導致適應速度緩慢。其次,最終的策略沒有能力適應未來的觀察結果,必須隨著觀察結果的發生緩慢地無限學習或完全重新訓練。本文探討了兩種旨在解決這些問題的表述。元強化學習對整個任務分布的考慮使策略能夠快速適應特定實例。通過強迫智能體特定地請求反饋,主動強化學習強制進行選擇性的觀察和更新。這兩個公式都簡化為貝葉斯-自適應設置,在其中保持對可能環境的概率信念。許多現有的解只提供了在實際環境中使用有限的漸近保證。我們開發了一種近似信念管理的變分方法,并通過廣泛的消融實證支持其有效性。然后,我們考慮最近成功的規劃方法,但發現和討論它們在應用到所討論的設置中的障礙。影響RL系統的數據需求和穩定性的一個重要因素是選擇合適的超參數。我們開發了一種貝葉斯優化方法,利用訓練過程的迭代結構,其經驗性能超過現有基線。本文的最后一個貢獻是提高高斯過程(GPs)的可擴展性和表達性。雖然我們沒有直接使用現有的框架,但GPs已經被用于在密切相關的設置中建模概率信念。

//ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077

付費5元查看完整內容

強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。

《元強化學習》最新,70頁ppt

付費5元查看完整內容

摘要

現實生活中的問題是動態的,并且與具有多種選擇的決策過程有關。我們需要通過優化來解決其中的一些動態決策問題。當我們需要在決策過程中對多個參數進行權衡時,特別是在動態環境中,解決這些問題具有挑戰性。然而,在人工智能(AI)的幫助下,我們可以有效地解決這些問題。本研究旨在研究利用深度強化學習(DRL)算法為動態多目標環境開發一個智能決策方案。這包括在強化學習(RL)環境中開發一個動態多目標優化領域的基準,這刺激了使用傳統的深海寶藏(DST)基準開發一個改進的測試平臺。擬議的測試平臺是在改變最佳帕累托前沿(PF)和帕累托集(PS)的基礎上創建的。就我所知,這是第一個用于RL環境的動態多目標測試平臺。此外,還提出了一個框架來處理動態環境中的多目標,從根本上保持不同目標之間的平衡,以提供一個與真正的PF相近的折衷方案。為了證明這一概念,所提出的模型已經在現實世界的場景中實施,以預測基于巴西圣保羅水質彈性的脆弱區域。

所提出的算法,即奇偶深度Q網絡(PQDQN)被成功實施和測試,智能體在實現目標(即獲得獎勵)方面表現優異。盡管與多目標蒙特卡洛樹搜索(MO-MCTS)智能體相比,該智能體需要更多的訓練時間(即步驟數),但與多策略DQN(MPDQN)和多帕累托Q學習(MPQ)算法相比,其尋找帕累托最優解決方案的準確性明顯提高。

結果顯示,所提出的算法可以在動態環境中找到最優解。它允許在不對智能體進行任何再訓練和行為調整的情況下適應新的目標。它也制約著需要選擇的策略。就動態DST測試平臺而言,它將為研究人員提供一個進行研究的新維度,使他們能夠在解決動態性質的問題時測試他們的算法。

關鍵詞:深度強化學習,多策略,多目標優化,動態環境,深度Q網絡,矢量獎勵,基準,水質評價,復原力。

第1章 簡介

今天的人類生活受益于科學及其各種應用。特別是,人工智能(AI)增加了一個新的層面,使人們相信人類的智慧可以被人工取代。然而,智能本身是如此龐大、自發、原始和不確定,以至于在不久的將來,它可能無法被純粹地復制或取代。盡管如此,還是有強大的科學團體相信這種替代,從學術角度來看,它確實值得贊賞(Jarrahi, 2018; King and Grudin, 2016)。

然而,智能的機制可以通過建立機器、智能體和系統,甚至編寫計算機程序,在一定的邊界內進行分析。這種人工開發的系統可以協助人類做出更好的決定,或根據人類定義的一套規則行事(Duan, Edwards and Dwivedi, 2019)。換句話說,科學界在開發學習如何智能并相應執行的系統方面會有更大的成功(Julian Togelius,2007;Yannakakis和Togelius,2015)。本論文的重點是建立一個智能決策方案,處理多目標(MO)環境中的動態問題。更具體地說,本研究指導如何開發一個計算機應用程序,使其學習到智能,并在動態多目標(DMO)環境中使用深度強化學習(DRL)執行識別優化的解決方案。

人類生活由各種問題組成,這些問題是動態的、多參數的和復雜的。每一個問題都需要遵循不同的步驟來做出最終決定,如果有一個以上的選擇,就需要進行優化。因此,多目標優化,一個為問題尋找最佳解決方案的過程,在最近幾年變得很流行(Zaroliagis和Christos,2005;Botte和Sch?bel,2019)。許多問題涉及連續變化的屬性,需要從許多可用的解決方案中找到一個最佳解決方案,這非常具有挑戰性。例如,預訂航班或酒店,安排班級常規,以適應因工作人員缺席和房間不可用而產生的不斷變化,在戰爭中部署一支軍事部隊等等。這些場景需要動態優化,因為決策需要根據情況經常改變。另一個例子是癌癥患者的用藥,其目標不僅僅是在較短的時間內治愈他們,而且要盡量減少藥物的副作用(Preissner等人,2012)。這個問題還涉及到用藥期間可能出現的任何新情況的風險。

在計算智能領域,解決這些動態多目標優化問題(DMOPs)的常見方法是進化方法(Azzouz, Bechikh and Said, 2017; Lam, Branke and Abbass, 2005)。然而,最近,多目標優化領域的許多科學文獻顯示,在使用多目標馬爾科夫決策過程(MOMDP),特別是使用強化學習(RL)技術來解決問題時,出現了截然不同的視角(Lizotte和Laber,2016;Drugan等人,2017;Bamakan、Nurgaliev和Qu,2019)這種技術的主要目標之一是達到被稱為帕累托最優解(POS)的解決方案集,它盡可能接近真正的帕累托最優前沿(POF)。這些技術不僅可以找到帕累托前沿的形狀,而且還有助于調查和解碼解決方案可能具有的有趣事實(Gopakumar等人,2018)。此外,最近多目標馬爾科夫決策過程(MOMDP)不僅因其適用性,而且在解決實際的多目標問題方面也受到了極大的關注(Lizotte和Laber,2016)。為了解決MOMDP,常見的方法是使用狀態、行動和獎勵函數來定義RL模型。獎勵函數可以是標量或矢量。然而,根據獎勵假設(Sutton和Barto,2018),目標和目的可以用收到的標量信號(即獎勵)的累積總和的期望值最大化來正式確定。換句話說,所產生的MOMDPs總是可以轉化為具有聚合回報的單一目標MDPs。

然而,Roijers等人(2013)拒絕了Sutton的觀點,質疑其在現實世界中的應用。他們提出了三種靜態場景(即已知權重、未知權重和決策支持場景),作者表明其中一種或兩種轉換是不可能的、不可行的或不可取的。此外,就DMOPs而言,由于缺乏測試平臺,該領域的研究非常少(Azzouz、Bechikh和Said,2017)。在這項研究中,通過提出一個動態多目標測試平臺(即動態深海尋寶)來解決這一研究空白,這可能會引導研究人員在這一領域做進一步調查。據我所知,這是在使用DRL的動態多目標優化方面的第一項工作。此外,關于RL環境的動態多目標優化基準的必要性的論證已經確立,因為問題空間的復雜性和在合理的時間范圍內找到一個解決方案是計算密集型的,如NP-hard或NP-complete問題(Plaisted,1984)。此外,還提出了一種算法,該算法主要負責在定義的動態環境中處理一個以上的目標。之后,該算法的實施被認為是根據巴西圣保羅(SP)22個地區的水質恢復力來識別和預測脆弱地區,這確保了所提算法的適用性和效率。這種實施方式打破了理論知識的界限,有助于解決實際問題。

關于實施,只考慮了基本網絡,它有461個數據采集點。水體的流量測量是由圣保羅環境公司(CETESB)與圣保羅州水和能源部合作進行的。其結果是通過讀取刻度來測量水體中的流量來取樣。2017年,核心網絡產生了約118,000個(如物理、化學、生物、生物分析和生態毒理學)數據量(Publica??es e Relatórios | águas Interiores, 2017)。這一實施也可能導致解決我們每天面臨的其他一些動態的現實世界問題。

1.1 動機

我們生活在這樣一個時代,毫無疑問,技術已經極大地改變了我們的工作方式。根據牛津大學的經濟學家Carl Frey博士和Michael Osborne博士的說法,所有類別的工作有40%都有可能因為自動化而失去(Benedikt Frey等人,2013)。人工智能(AI)和機器學習(ML)將不可避免地對這種替代產生嚴重影響(Chris Graham,2018),甚至在政策制定方面(Federico Mor,2018)。關于人工智能對人類的影響,有兩派不同的觀點(Dwivedi等人,2019;Zanzotto,2019)。一派認為,人工智能很可能對人類產生破壞性影響(Clarke,2019),而另一派則期望人工智能對人類的進步起到積極作用(Woo,2020)。然而,這種爭論只有在未來人工智能技術充分發展的時候才能得到解決。在這個自動化過程中,未來將對就業部門產生重大影響,而人工智能將是這種數字化的開拓者(Syed等人,2020)。

為此,計算智能研究人員將更多地參與到使用機器人、增強和虛擬現實以及游戲環境的模擬中。在這整個過程中,游戲或游戲環境將是分析不同算法、模擬問題和提供解決方案的關鍵組成部分之一。明顯的原因是,游戲環境可以作為設計、開發、實施、測試、修改和改進算法的小白鼠(Justin Francis,2017)。遵循同樣的宗旨,本研究解決了DMOP領域的一個空白,并在模擬環境的幫助下提出了一個基準,作為對該領域的貢獻。

在這篇論文中,我們創造了一個動態的游戲環境,其中有一組相互沖突的目標。如前所述,問題的目標和約束條件相互之間是動態變化的,而且總是在不斷發展。為了解決這個問題,進化算法(EA)被廣泛用于處理優化問題。然而,由于隨時間變化的動態性,DMOPs的解決更具挑戰性,EA在解決這些問題時常常面臨困難(Jiang等人,2018)。

盡管如此,在2015年DeepMind的成功之后(Mnih等人,2015),人們對使用RL特別是深度強化學習(DRL)解決順序決策中的多目標優化的興趣越來越大(Arulkumaran等人,2017)。本研究也是受這一成就的激勵,打算從深度RL的角度增加價值,解決動態多目標優化的問題。此外,還考慮了一個水質測試案例,這是由人類非常關鍵的需求之一所鼓勵的,特別是在21世紀。在這項研究中,對水質恢復力進行了深入研究,并使用機器學習(ML)技術(即DRL)來確定巴西某個城市的關鍵區域。在這項研究中,提出了一種稱為奇偶性Q深Q網絡(PQDQN)的新方法,它能夠在動態DST環境中找到非主導的解決方案,并根據動態多目標環境中的水質復原力預測脆弱區域。智能體在這些環境中進行互動,這些環境是基于多目標馬爾科夫決策過程(MOMDP)的,并且能夠在RL環境中獲得獎勵。

1.2 目的和目標

在這項研究中,主要目的是解決現有測試平臺在強化學習背景下的動態多目標優化的挑戰。本研究的次要目的是為動態多目標環境研究和開發一個適當的決策框架。為了實現這些目標,我們確定了以下目標。

a) 調查當前在RL背景下動態多目標優化的最新進展。

b) 設計和開發一個用于RL環境下動態多目標優化的概念和數學模型。

c) 設計和開發一個新的動態多目標優化測試平臺,用于RL環境。

d) 設計和開發一種使用深度強化學習的新算法,該算法可以處理動態和優化多目標環境下的決策。

e) 應用所提出的算法來解決一個現實世界的問題,即利用巴西圣保羅州的水質復原力來識別和預測脆弱區域。

1.3 研究問題

本研究對以下研究問題的答案進行了調查。

  • Q1: 提出的基準能否解決RL環境的DMOP研究領域的空白?

  • Q2:基于DRL的算法如何處理多個目標并根據水質預測脆弱區域?

1.4 主要的科學貢獻

本研究工作的主要科學貢獻如下。

a. 為RL環境的動態多目標優化設計和開發了一個新的和創新的測試平臺。

b. 首次使用目標關系映射(ORM)來構建不同目標之間的元策略(如治理策略),以找出折中的解決方案。

c. 開發了一種新的方法來驗證所提出的算法在現實世界中的適用性,該算法根據巴西圣保羅的水質復原力來識別和預測脆弱區域。

d. 通過廣泛的文獻回顧,在RL環境的DMOP背景下確定研究差距。

1.5 測試案例

1.5.1 測試案例1

深海寶藏(DST)是一個游戲環境。它是一個標準的多目標問題,也是由(Vamplew等人,2011)引入的RL環境的測試平臺。這是流行的測試平臺之一,在多目標RL研究的背景下,已經多次出現在文獻中。這個環境由10行和9列組成,有三種不同類型的單元,如船只可以穿越的水單元,不能穿越的海面單元,因為這些單元是網格的邊緣,還有提供不同獎勵的寶藏單元。當智能體到達寶藏單元時,DST游戲結束。

在這里,智能體控制著一艘潛水艇,在海底尋找寶藏。智能體的目標是在最短的時間內找到價值最高的寶藏(即沖突的方式)。它有決定性的過渡,有非凸邊界。潛水艇從網格的左上角開始,可以向上、向下、向右和向左移動。與單目標環境不同的是,智能體獲得矢量獎勵。獎勵由每次移動的懲罰-1(即RL的負獎勵)和取得的寶物價值組成,寶物價值為0,除非智能體到達寶物的位置時收到寶物的數量(即RL的正獎勵)。最佳帕累托前線有10個非支配性的解決方案,每一個寶藏都有一個。鋒面是全局凹陷的,在寶藏值為74、24和8時有局部凹陷。最佳前線帕累托前線的超體積值為10455。圖1.1顯示了一個經典的和靜態的DST測試平臺,其中最低的寶藏值是1,最高的是124。

圖1. 1:作為測試案例1的深海尋寶(DST)環境

1.5.2 測試案例2

選擇測試案例2是為了讓所提出的算法(即PQDQN)和方法(即MOMDP)能夠解決巴西一個擁擠的城市中的實際問題。考慮到這一龐大人口的公共供水問題,圣保羅州政府正在努力實現該州各市鎮的普遍衛生設施,在那里,各種服務(如測量和維護水質、污水處理服務等)的人口比例增加。然而,水污染惡化了水的質量,阻礙了圣保羅的可持續發展(Governo do Estado de S?o Paulo | Elei??es, 2018)。河流、水庫、河口和沿海地區水域中存在的污水降低了水質,限制了其多種用途,同時增加了因初次接觸或攝入受污染的水而引起的水傳播疾病的發生(Nogueira等人,2018)。

為了確定脆弱地區并在這些地區采取適當的行動,需要大量的人力和費用。這些行動涉及綜合管理行動,涉及與工農業污水使用管理、人力資源(HR)管理的復雜性、固定資產和反應性或計劃性維護有關的各個部門和組織(Barbosa, Alam and Mushtaq, 2016)。因此,重要的是實現流程自動化,以盡可能快地檢測出脆弱區域。因此,基于人工智能的最佳決策支持系統可以減少管理這種巨大任務的成本,并可以產生社會經濟影響,這可能有助于可持續發展。圖1.2顯示了測試案例2的鳥瞰圖,其中智能體能夠根據水質恢復力預測脆弱區域。

圖1.2:測試案例2的示意圖

簡而言之,該測試案例中發現的問題如下:

  1. 這是一個動態問題,考慮到水質數據因各種因素而隨時間變化。

  2. 收集這些數據是昂貴的,需要人力資源。

  3. 由于手工檢查和計算,識別脆弱區很困難。

  4. 針對不同區域的投資優化很復雜。

  5. 確定各區的優先次序以提高水質是非常耗時的。

1.6 可交付的成果

本研究的成果在下面列出了出版物清單。

雜志

Md Mahmudul Hasan, Khin Lwin, Maryam Imani, Antesar Shabut, Luiz Fernando Bittencourt, M.A. Hossain, "Dynamic multi-objective optimisation using deep reinforcement learning: benchmark, algorithm and an application to identify vulnerable zones based on water quality", Engineering Applications of Artificial Intelligence, Publisher: Elsevier, Volume 86, 2019, Pages 107-135, ISSN 0952-1976, //doi.org/10.1016/j.engappai.2019.08.014.

IEEE會議

1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Alamgir Hossain, "Design and Development of a Benchmark for Dynamic Multi-objective Optimisation Problem in the Context of Deep Reinforcement Learning", 22nd International Conference on Computer and Information Technology, Dhaka, 2019. IEEE Xplore數字檔案鏈接:

2.Md Mahmudul Hasan, Ali Mohsin, Maryam Imani, Luiz Fernando Bittencourt, "A novel method to predict water quality resilience using deep reinforcement learning in Sao Paulo, Brazil", International Conference on Innovation in Engineering and Technology(ICIET), Dhaka, 2019.

3.M. M. Hasan, K. Abu-Hassan, Khin Lwin and M. A. Hossain, "可逆決策支持系統。Minimising cognitive dissonance in multi-criteria based complex system using fuzzy analytic hierarchy process," 2016 8th Computer Science and Electronic Engineering (CEEC), Colchester, UK, 2016, pp.210-215. IEEE Xplore數字檔案。鏈接:

其他國際會議

1.Md Mahmudul Hasan, Khin Lwin, Antesar Shabut, Miltu Kumar Ghosh, M A Hossain, "Deep Reinforcement Learning for Dynamic Multi-objective Optimisation", 17th International Conference on Operational ResearchKOI 2018, Zadar, Croatia, 2018.

其他貢獻

1.Md Mahmudul Hasan, Md Shahinur Rahman, Khin Lwin, Antesar Shabut, Adrian Bell, M A Hossain, "Deep Reinforcement Learning for Optimisation", "Handbook of Research on Deep Learning Innovations and Trends "的書籍章節,出版商。IGI Global,2018。鏈接:

2.2017年PACKT出版社出版的《Machine Learning for Developers》一書的技術評審員。鏈接:

3.Md Mahmudul Hasan, "Predicting Water Quality Resilience: A Machine Learning Approach", 8th FST Conference, ARU, UK, 2019.

4.Md Mahmudul Hasan, "A robust decision support system in dynamic multiobjective optimization using deep reinforcement learning", 12th Research Student Conference, ARU, UK, 2018.

5.最佳博士論文發表,第7屆FST會議,ARU,英國,2017。

6.Md Mahmudul Hasan, "Optimising decision in a multi-criteria based environment", seminar at ARITI, ARU, UK, 2017.

1.7 術語和風格說明

以下部分代表了本研究中經常使用的常用術語。

智能體:智能體或算法生活在模擬環境中,幫助做出決策。

狀態:狀態有助于確定由智能體決定的下一個步驟。

行動:智能體通過觀察新的狀態和接受獎勵,在不同的狀態之間可能的移動。

政策:政策通常表示智能體選擇行動的行為。

環境:環境是智能體的外部實體,它與狀態相互作用。環境可以是完全可觀察的(即智能體直接觀察環境)或部分可觀察的(即智能體間接觀察環境)。

靜態環境:不發生變化的環境,或受變化的參數和約束的影響。

動態環境:隨時間變化的環境。更具體地說,受目標函數、約束條件和問題參數影響的變化狀態。

獎勵:智能體有一個特定的任務,需要通過行動來完成。在有限水平線或偶發環境中,預期回報通常是標量獎勵的未貼現的有限總和,直到智能體達到終端狀態。

決策空間:這個術語用來定義代表選擇的空間,以做出決策。

目標空間:這個空間定義了基于目標的支配性和非支配性解決方案。

值得一提的是,為了讓讀者合理地閱讀這篇論文,我們使用了最少的首字母縮寫詞和數學術語,使讀者感到輕松和愉快。在一些章節的末尾,提供了一個圖形表示,以提供一個可視化和概念性的理解。此外,有些地方的數學公式是以可讀的形式描述的。然而,在某些地方已經向讀者做了充分的介紹,以便他們可以從相關的來源收集更多的信息。此外,一些詞語(如快、慢、快、長)被用來例證收斂性、耗費的訓練時間和識別真正的PF的性能,由于在優化和RL領域對真正的PF的近似(如移動全局最優),這些詞語被廣泛陳述和利用(Moffaert和Nowé,2014;Lin等人,2017;Farina、Deb和Amato,2004;Mehnen、Wagner和Rudolph,2006;Sutton和Barto,2018)。此外,之前對強化學習的熟悉程度可能會對讀者跟隨和享受閱讀產生明顯的影響。

1.8 論文的組織

本論文的組織結構如下所示。

第二章回顧了相關的研究工作,其中強調了智能應用、決策支持系統、馬爾科夫決策過程、機器學習、強化、深度強化學習、現有基準和優化技術的概述。本章還代表了對基本組成部分的全面分析,以增強論文成果的可讀性,如回顧分析算法的性能指標。最后,本章對研究的理由進行了說明。

第三章涉及研究的方法,其中解釋了研究設計。本章還涉及到方法的細節和進行這項研究的必要方法。它還對數據準備、水質參數選擇和彈性計算方法進行了全面分析。

第四章討論了問題背景和實驗背景,其中描述了數學和概念模型。在這一章中,描述了擬議的基準、網絡結構和對現實世界場景中MOMDP的形式化的詳細討論,以及兩個測試案例的實驗背景。

第五章解釋了擬議算法的高層結構。在這一章中,已經解釋了所提出的算法的一步一步的工作程序。此外,本章還討論了開發擬議算法所需的工具,如必要的軟件、庫和機器環境。

第章介紹了實證分析和討論,其中也闡述了關鍵的審查和限制。在這一章中,還提到了性能測量標準和選擇這些標準的理由。此外,還解釋了擬議算法的優點和缺點。

最后,第七章闡述了本論文的結論和未來方向。未來方向包括開展現有研究的近期和長期目標。本章還解釋了兩個測試案例的進一步可能方向。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司