亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多智能體強化學習(MARL)是一種廣泛使用的人工智能(AI)技術。然而,當前的研究和應用需要解決其可擴展性,非平穩性,以及可信度的問題。本文旨在回顧MARL的方法和應用,并指出未來十年的研究趨勢和遠景。首先,本文總結了MARL的基本方法和應用場景。其次,本文概述了相應的研究方法及其在實際應用MARL時需要解決的安全性,魯棒性,泛化性,以及倫理約束的局限性。特別地,我們認為,未來十年,可信的MARL將成為熱門的研究主題。此外,我們認為考慮人類互動對于MARL在各種社會中的實際應用至關重要。因此,本文還分析了將MARL應用于人機交互時的挑戰。

1. 引言

由于其在解決序列決策任務中的巨大潛力,強化學習(RL)得到了廣泛的探索[88, 107, 129, 131, 168, 169, 197, 216, 218]。Kaelbling等人在1996年指出[76],RL將在游戲和機器人技術中得到廣泛應用。Mnih等人[130]提出深度強化學習(DRL),將具有推理能力的強化學習和具有代表性能力的深度學習(RL)結合起來,訓練出的智能體在各種雅達利游戲中的表現超過了人類玩家。Silver等人在2007年使用RL解決圍棋游戲[180],并在2016年提出使用深度神經網絡和蒙特卡洛樹搜索的AlphaGo[179]。在機器人技術方面,DRL也取得了如四足運動[92, 233]等突出的發展。最新的ChatGPT在全世界范圍內都是眾所周知的,并且使用了與RL相關的技術。自DRL提出以來的20年間,游戲和機器人技術的研究興趣一直在不斷提高。RL的前瞻性應用總結在[76]中。

在整合人類因素時,我們需要考慮的不僅僅是智能體的協作,還要考慮智能物理信息系統與人類文明的互動。在將MARL應用于人機交互時,我們提出了四個挑戰:由于人類干預而產生的非馬爾可夫性質,人類行為的多樣性,復雜的異質性,以及多人多機的可擴展性。本文與其他相關綜述的區別列在表1中。本文的大綱顯示在圖1中。接下來的這個調查組織如下。在第2部分,我們給出了MARL的相關定義,并總結了典型的研究方法。第3部分展示了MARL的具體應用場景。第4部分總結了可信MARL的定義、相關研究和局限性。在第5部分,我們指出了人類兼容的MARL面臨的挑戰。第6部分對整篇文章進行了總結。

2. 方法

強化學習(RL)智能體旨在通過與環境的嘗試和錯誤交互,最大化總的折扣預期獎勵。馬爾可夫決策過程(MDP)有助于為序列決策定義模型。在多智能體系統(MAS)中,每個智能體都通過與環境的嘗試和錯誤接觸解決序列決策問題。然而,它比單智能體場景更復雜,因為環境返回的下一個狀態和獎勵都基于所有智能體的聯合行動,這使得對于任何智能體來說環境都是非馬爾可夫的。隨機博弈(SG)可以用來模擬多智能體序列決策問題。

**3 多智能體強化學習的應用 **

通過MARL,智能體能夠學習并與彼此溝通,從而實現更有效的任務完成和更好的決策結果。這種方法廣泛應用于工程和科學,例如,智能交通,無人駕駛飛機,智能信息系統,公共衛生和智能醫療診斷,智能制造,金融貿易,網絡安全,智能教育,以及科學研究中的強化學習。

**3.1 智能交通 **

智能交通利用物聯網(IoT)和人工智能等先進技術來提高安全性,提高交通效率,并減少其對環境的負面影響。在基于MARL的智能交通中,我們描述了兩個已知的場景:交通燈控制和自動駕駛,并展示了人類在這些智能系統中的作用。這個應用與強化學習方法之間的對應關系顯示在表2中。

**3.2 無人駕駛飛行器 **

在基于MARL的無人駕駛飛行器(UAVs)應用中,我們描述了三個已知的場景:集群控制[124, 158, 207, 210, 222-224],環境監控[75, 134, 148, 204],以及協同運輸[66, 74, 177]。這個應用與強化學習方法之間的對應關系顯示在表3中。

**3.3 智能信息系統 **

MARL在智能信息系統中具有巨大的應用潛力,包括自然語言處理(NLP)[13, 83, 98, 104, 120, 183, 195, 226],編程生成[26, 104, 178],以及推薦系統[40, 51, 72, 231, 245]。基于SARL的技術已在NLP和編程生成中得到研究,我們將總結這些研究并指出MARL在這些應用中的顯著優點。這個應用與強化學習方法之間的對應關系顯示在表4中。

**3.4 公共衛生和智能醫療診斷 **

MARL在公共衛生和智能醫療診斷中得到了廣泛的探索和應用。例如,MARL可以應用于COVID-19的預測和管理、醫療圖像處理和疾病診斷,以提高疾病預防、診斷和治療的效率和準確性。這個應用與強化學習方法之間的對應關系顯示在表5中。

**3.5 智能制造 **

智能制造是將先進技術(如物聯網、人工智能等)整合到制造過程中,以優化生產過程。對于智能制造,MARL是一種有前景的方法。在智能制造的背景下,MARL可以作為生產調度、車間工業機器人控制、質量控制和設備維護的工具,實現智能高效的生產過程[97]。這個應用與強化學習方法之間的對應關系顯示在表6中。

**3.6 金融交易 **

金融交易是一項挑戰性的活動,需要快速判斷并適應不斷變化的市場條件。過去的單智能體方法和深度學習技術已經無法滿足市場的期望。MARL通過結合各種智能體之間的合作與競爭,為應對金融交易中的困難提供了新的思路。我們從投資組合管理[60, 95, 123, 150, 175]、交易策略優化[79, 143, 156, 157]和風險管理[6, 34, 49]的角度總結了MARL在金融交易中的應用。這個應用與強化學習方法之間的對應關系顯示在表7中。

**3.7 網絡安全 **

網絡安全是當今社會面臨的重要問題,攻擊者利用各種技術和手段侵入計算機系統和網絡,威脅到個人、組織和國家的安全。MARL是一種有前景的方法,可以應用在網絡安全領域,主要應用在入侵檢測[54, 118, 118, 132, 172, 173]和網絡資源優化[103, 135, 145, 186, 190]。這個應用與強化學習方法之間的對應關系顯示在表8中。

**3.8 智能教育 **

智能教育利用物聯網和人工智能將學習過程數字化,并根據特定學生的學習風格和特點提供個性化的學習體驗和支持。傳感器可以用來捕捉學生的學習行為和數據。通信使學生與教師之間以及學生之間的協作學習實現實時互動。人工智能可以用來分析學習行為,提供個性化學習和評價教學。虛擬現實技術使得場景重建、實驗模擬和遠程教學變得更加容易。在基于MARL的智能教育中,我們總結了現有的技術[31, 48, 112, 194]。教育4.0旨在將人工智能技術融入學生自主學習的每個階段,以提高學習過程中的興趣和效果[19, 46, 170]。Tang和Hare[194]創建了一個自適應輔導游戲,讓學生在沒有教師指導的情況下個性化學習。為了優化學生學習,該系統使用Petri網圖結構監控學生在游戲中的進展,使用強化學習智能體適應性地改變系統行為以響應學生表現。然后,他們應用Petri網和層次化強化學習算法,基于上述游戲個性化學生的幫助[48]。該算法可以幫助教師根據學生的需求,為他們在游戲中提供定制的指導和反饋,使他們通過將游戲中的任務分解為幾個階段,逐漸掌握復雜的知識和技能。該算法可以幫助教育工作者為游戲中的學生提供定制的支持和反饋,通過將游戲中的任務分為多個層次,逐漸掌握復雜的知識和技能。[112]和[31]都使用傳感器收集的數據監測學生的學習進度,并使用強化學習技術為學生提供個性化的學習建議。

3.9 科學領域的強化學習

近年來,人工智能在科學領域的應用已經成為熱門話題,人工智能被高度評價為實現科學進步的關鍵工具[127]。強化學習已經在化學、物理和材料研究等領域展示出顯著的科學潛力,尤其在探索未知的物理現象等挑戰中,強化學習被證明是解決這些挑戰的關鍵工具。這個應用和強化學習方法之間的對應關系顯示在表9中。Seo等人[171]利用強化學習來控制KSTAR托卡馬克的前饋??。Degrave等人[22]介紹了一種創新的強化學習方法,使托卡馬克聚變裝置的磁控系統能夠自主學習,從而實現對各種等離子體配置的精確控制,大大減少了設計工作量,是強化學習在聚變領域的開創性應用。Bae等人[5]引入了一種科學多智能體強化學習(SciMARL),用于在湍流模擬中發現壁面模型,大大降低了計算成本,同時復制了關鍵流量,并提供了對湍流模擬的前所未有的能力。強化學習的科學研究提供了更多的可能性,我們相信未來強化學習在科學應用中的范圍將會更廣。

4 展望

盡管多智能體強化學習(MARL)在許多領域都已表現出優越的性能,但一些問題,如安全性、魯棒性和泛化能力,限制了MARL在實際環境中的應用。我們認為,要想最大化地利用未來實踐應用中MARL的優越性,首先需要解決這些問題,并需要考慮到人類社會的道德約束。本節回顧了在四個方面的研究現狀:安全性、魯棒性、泛化能力和道德約束,并討論了未來研究需要解決的差距。

4.1 多智能體強化學習的安全性

隨著多智能體強化學習(MARL)的日益普及,確保這些系統的安全性的需求日益突出。在MARL中,一個智能體的行動可能會對任務或其他參與的智能體造成傷害。因此,開發安全的MARL方法的需求迫在眉睫。為了在MARL中實現安全,一種常見的方法是在訓練過程中添加約束。通過引入安全性約束,可以鼓勵智能體避免可能導致任務失敗或對其他智能體造成傷害的不安全行動。已經有很多關于強化學習安全性的綜述,如[35],[39]和[225]所總結的。然而,目前還沒有關于MARL安全性的系統性綜述,而且關于這個話題的研究相對較少。在本節中,我們給出了在[38]中使用的安全MARL的定義。

4.2 多智能體強化學習的魯棒性

在分類任務中,深度學習的魯棒性已有一系列的研究 [36, 58, 69, 71, 142]。強化學習是一個序列決策問題,其中在一個時間步的錯誤分類并不等同于期望最小的獎勵。在多智能體強化學習(MARL)中,任何智能體的決策失敗都可能導致團隊任務失敗,這使得MARL的魯棒性研究具有挑戰性。此外,MARL在現實世界的應用中面臨各種挑戰,例如環境的不確定性,其他智能體的政策不確定性,以及傳感器噪聲。所有這些因素都可能導致訓練的模型表現不佳或者失敗。因此,提高MARL的魯棒性至關重要,這將有助于確保模型在各種情況下都能穩定可靠地運行。以下是關于魯棒MARL的相關定義。我們使用了[253]和[241]的定義。

4.3 多智能體強化學習的泛化

在MARL領域,泛化涉及到智能體將其在特定環境或場景中學到的知識和技能,無需進行大幅度的修改或重新訓練,就能轉移到新的、多樣的環境或場景中的能力。有幾個調查研究了強化學習的泛化 [87, 201, 225, 247]。在SARL的泛化中,各種技術如領域隨機化[133, 160, 165],因果推理[82, 167, 237],以及元學習[3, 27, 77]已被用來解決泛化問題。然而,與單智能體設置相比,對MARL的泛化研究相對較少。在這方面,我們從兩個角度,即多任務學習和sim2real,提供了相關工作的概述,如圖4所示。

4.4 遵循道德約束的學習

隨著AI技術的不斷發展,考慮AI系統的道德含義變得越來越重要[4]。MARL系統涉及多個智能體的互動,其行為可能對現實世界產生重大影響。因此,確保MARL系統的設計和訓練考慮到道德因素至關重要。我們將有關MARL的道德約束的研究總結為隱私保護、公平性和透明度,如圖5所示。

5. 人機協同多智能體強化學習面臨的挑戰

人機協同物理系統(HCPS)是基于物理系統(CPS)發展起來的,它融合了計算機科學、自動化技術、通信科學等領域[9, 115]。本文第3節總結的MARL應用是HCPS的典型應用。人類被視為HCPS的重要組成部分,因此,MARL算法的設計需要考慮人的因素。除了可擴展性和非平穩性的挑戰之外,HCPS中的MARL面臨著許多額外的挑戰,這是由于人類、物理系統和計算機系統之間的相互作用導致的。

6. 結論

本文綜述了MARL的基本方法,并對MARL在智能交通、無人機、智能信息系統、公共健康與智能醫療診斷、智能制造、金融貿易、網絡安全、智慧教育、科學強化學習等各個領域的相關研究進行了綜述。為了更好地服務于人類社會,有必要發展一個值得信賴的MARL。從安全性、魯棒性、泛化性和倫理約束等角度定義了可信MARL,并總結了這些領域的當前研究和局限性。最后,討論了在MARL中考慮HCPS時面臨的其他挑戰,這對其在人類社會的實際應用至關重要。希望本文能夠對各種研究方法和應用場景進行全面綜述,鼓勵和推動MARL在人類社會中的應用,更好地服務于人類。

付費5元查看完整內容

相關內容

推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理?

推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司