亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度強化學習(DRL)已經在單智能體學習中得到了廣泛的研究,但在多智能體領域還需要進一步發展和理解。作為最復雜的集群問題之一,競爭性學習評估了多智能體團隊合作實現某些目標的性能,同時超越了其他候選方案。這樣的動態復雜性使得即使是小眾的DRL方法也難以解決多智能體問題。在一個競爭性的框架內,我們研究了最先進的演員評論家算法和Q算法,并從性能和收斂性方面深入分析了它們的改型(如優先化、雙重網絡等)。為了討論的完整性,我們提出并評估了一個異步和優先版本的近似策略優化行為批判技術(P3O)與其他基準的對比。結果證明,在給定的環境中,基于Q的方法比演員評論家的配置更加穩健和可靠。此外,我們建議納入本地團隊通信,并將DRL與直接搜索優化相結合,以提高學習效果,特別是在具有部分觀察的挑戰性場景中。

圖3 多智能體深度強化學習系統。已實現的深度強化學習技術所使用的主要算法數據流圖。a) 具有單一團隊經驗重放緩沖區的深度Q網絡。盡管保存了異步強化學習轉換,但樣本是隨機的。目標網絡,其參數以緩慢的方式更新,給學習過程帶來了穩定性。b) 帶有優先團隊經驗重放緩沖器的決斗雙深Q網絡。根據時差誤差為每個存儲的過渡分配隨機優先級。c) 帶有分布式記憶的近似策略優化。網絡更新由團隊智能體異步進行。d) 帶有智能體分布式記憶、演員評論家網絡的優先級近似策略優化。每個智能體存儲自己的經驗,并使用它們來進行異步網絡更新。同時,根據有效的召回系數建立優先的數據集,然后用來訓練網絡。此外,該算法還與團隊共享的演員評論家網絡以及團隊共享的演員評論家網絡進行了研究。e)具有分布式記憶的異步優勢演員評論家。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

針對典型海空協同作戰中指揮控制技術對時效性、準確性和跨域融合能力的高要求, 提出了一種先驗知識啟發的雙層強化學習框架. 通過研究先驗知識啟發的獎勵塑造方式, 提取作戰子任務設計狀態聚合方法, 從而把具體狀態映射到抽象狀態; 基于抽象狀態使用馬爾科夫決策過程(Markov decision process, MDP)理論進行建模, 使用強化學習算法求解該模型; 使用最終求解出的抽象狀態價值函數進行基于勢能的獎勵塑造. 以上流程與下層具體MDP 過程并行求解, 從而搭建了一個雙層強化學習算法框架.基于全國兵棋推演大賽的兵棋推演平臺進行了實驗, 在狀態空間、動作空間、獎勵函數等方面細化算法. 指出了先驗知識代表從上而下的任務式指揮方式, 而多智能體強化學習在某些結構上符合自下而上的事件式指揮方式. 兩種方式結合, 使得該算法控制下的作戰單元學習到協同作戰戰術, 面對復雜環境具有更好的魯棒性. 經過仿真實驗, 該算法控制的紅方智能體對抗規則智能體控制的藍方可以獲得70 %的勝率.海空協同作戰是高技術戰爭條件下最為典型的 作戰樣式之一[1] , 其作戰空間包含海、空、天、電磁等領 域, 具有典型的跨域作戰特征. 海空協同作戰面臨戰場態勢復雜快變、信息不完 全、不同域之間戰術協同困難、決策時效性要求高等 問題[2] , 需要指揮員從跨域的視角審視問題, 將不同領 域的能力予以互補, 對指揮控制技術提出了更高的要 求[3-4] . 傳統的指揮控制理論具有局限性[5] , 較多考慮同 一領域力量的疊加性利用, 缺乏跨域視角[6] . 近年來, 以 多智能體強化學習(multi-agent-reinforcement-learning, MARL)為代表的智能決策技術發展迅速, 在星際 爭霸[7]、足球[8]比賽等大型實時策略類游戲應用中甚至 能夠擊敗人類頂尖玩家, 該技術在解決多智能體對抗 博弈問題領域中具有顯著優勢, 為研究海空協同作戰 的指揮控制技術開辟了新的技術路線. 綜上所述, 研究多智能體強化學習技術在海空協 同作戰的指揮決策中的應用, 有助于輔助指揮官制定 戰略戰術, 推動新型指揮控制技術的研究.

首先介紹典型多智能體強化學習算法(monotonic value function factorisation for deep multi-agent reinforcement learning, QMIX)的研究現狀, Tabish 等研究 者提出的 QMIX 算法[9]采用分布式決策、集中式訓練 的方法, 在理論上可以較好地適應海空協同作戰的特 點. 作戰編成中的各個作戰單元可以根據局部觀測進 行決策, 同時在全局信息和獎勵分解的幫助下兼顧全 局最優策略. 但是在實際應用中, 海空協同作戰往往 比較復雜, 存在獎勵稀疏的問題, 單純的 QMIX 算法 存在探索效率不高 [10] , 魯棒性較差的問題, 這會導致 算法最后無法學習到較好的協作策略. 為提升 QMIX 算法性能, 本文將目光投向了專家 先驗知識[11] . 在海空協同作戰中, 往往存在許多與作 戰相關的高階先驗知識[12] , 子任務是其中最重要也是 最常見的一種. 指揮員通過對作戰階段的劃分, 在時 間上把復雜的總作戰任務分解成多個子任務, 通過從 上而下的任務式指揮方式, 指導作戰集群完成一系列 子任務, 最終實現總作戰任務. 如何使用子任務相關的先驗知識提高 QMIX 算 法的性能, 成為了本文的關鍵研究問題之一. 為有效使用子任務相關的先驗知識, 首先研究先 驗知識與強化學習算法的結合方式, 在強化學習中, 先驗知識可以是一種偏好, 或是一種目標狀態. 為了 將先驗知識嵌入到算法中, 偏好可以用智能體在選擇 不同動作的概率分布表示[13]; 目標狀態可以用相應的 獎勵進行表示. 這些先驗知識發生在強化學習訓練以 前, 由人類根據以往的實踐經驗或是主觀想法設定. Takato 等研究者將獎勵函數的自動塑造方法與 狀態聚合方法結合, 提出了使用在線獎勵塑造加速單 智能體強化學習訓練的方法[14] . 但是該方法使用的狀 態聚合由志愿者人工指定, 且沒有驗證在多智能體強 化學習中的可行性.

針對上述研究背景與研究問題, 本文提出了一種 戰術先驗知識啟發的多智能體雙層強化學習算法. 根 據人類先驗知識, 把 MARL 問題的總任務分解成一 系列的子任務, 設計狀態聚合方法, 構建了狀態聚合 函數, 把具體狀態映射到抽象狀態. 接著基于抽象狀 態對抽象 MDP 進行建模[15] , 使用強化學習算法求解該 模型. 最后使用求解出的抽象狀態價值函數進行基于 勢能的獎勵塑造. 以上流程與下層具體 MDP 并行求 解, 從而搭建了一個雙層強化學習算法框架, 使得獎 勵稠密化, 加速下層 MDP 的求解. 為驗證算法效果, 本文基于海空協同作戰這一任務背景進行了仿真實 驗. 實驗結果表明, 使用戰術先驗知識啟發的多智能 體雙層強化學習算法能夠指揮智能體團體實現總體 作戰意圖, 學習到協同作戰的策略. 與此同時, 各智能 體仍可以根據自身觀察和全局信息作出獨立決策, 具 有較好的魯棒性, 符合作戰要素融合化和去中心化的 特點.

付費5元查看完整內容

本項目的目標是提高具有智能體間通信基礎設施的多智能體分布式任務協調的效率。在這個項目的第一階段,我們探索了基于共識的捆綁算法(CBBA)在預算約束下的分布式任務分配的改進。CBBA技術的局限性在于,環境必須被所有的智能體預先知道,任務必須被明確定義,并有已知的成本和獎勵。這種技術顯然不適合在未知環境中的合作任務,在這種環境中,智能體必須一起探索和即興行動。在這個項目的第二階段,我們研究了在未知環境中執行任務的合作技術,其中智能體只有部分觀察。該研究使用多智能體捕食者和獵物游戲作為平臺。目標是讓智能體聯合定位并捕獲獵物。智能體對環境和獵物的逃逸算法沒有事先了解。他們相互交流,以獲得超出他們自己本地觀察范圍的環境信息。基于他們對環境的局部理解,智能體選擇自己的行動,包括在哪里移動以及是否與其他智能體溝通,以使團隊獎勵最大化。強化學習被應用于優化智能體的政策,以便用最少的步驟完成游戲。

第二階段研究的主要貢獻是信仰圖譜輔助的多智能體系統(BAMS)。信念圖代表了智能體在融合了傳入的信息后所保持的環境的隱藏狀態。通過將信仰圖譜與強化學習框架相結合,并向信仰圖譜提供反饋,我們加速了訓練并提高了系統可以獲得的獎勵。在不同復雜程度的環境中,使用合作的捕食者和獵物游戲對BAMS的性能進行了評估。與現有的具有信息傳遞能力的多智能體模型相比,BAMS具有以下優點。

1)訓練收斂速度快68%,使用BAMS模型訓練的智能體完成游戲的步驟少27.5%。

2)它具有強大的性能。在應用模式中,智能體的數量不必與訓練環境相同。

3)智能體之間的信息是加密的。BAMS中的信息是智能體對環境信念的學習表示的向量。它們不僅包含關于智能體和環境的當前狀態的信息,而且還包含未來的狀態。每個數字都與智能體或環境的任何物理屬性沒有對應關系。除非有經過訓練的BAMS模型,否則不可能解碼這些信息。

4)智能體在訓練中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎不需要明確的交流就能理解對方的意圖。

  1. 解碼后的信念圖為智能體的決定提供了一個粗略的解釋。信念圖解碼器與BAMS中的策略網絡一起訓練。通過比較信仰地圖和實際地圖,系統收到額外的反饋渠道,從而監督訓練過程。在執行過程中,信仰圖譜提供了一種解釋智能體隱藏狀態的方法,這可以進一步用來解釋智能體的行為。

付費5元查看完整內容

序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標

在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199

付費5元查看完整內容

最近,深度強化學習(RL)方法已被成功應用于多智能體場景。通常情況下,分布式決策的觀測向量是由一個智能體收集的關于其他智能體(局部)信息的串聯來表示。然而,串聯法在具有大量同質智能體的集群系統中的擴展性很差,因為它沒有利用這些系統固有的基本特性:(i)集群中的智能體是可以互換的;(ii)集群中智能體的確切數量是不相關的。因此,我們提出了一種新的基于分布式均值嵌入的深度多智能體RL狀態表示,我們將智能體視為樣本,并使用經驗的均值嵌入作為分布式策略的輸入。我們使用直方圖、徑向基函數和端到端訓練的神經網絡來定義均值嵌入的不同特征空間。我們對集群文獻中的兩個著名問題--交會和追趕逃避--在全局和局部可觀察的設置中評估了該表示。對于本地設置,我們進一步引入了簡單的通信協議。在所有的方法中,使用神經網絡特征的平均嵌入表示能夠在相鄰的智能體之間進行最豐富的信息交流,促進復雜的集體策略的開發。

付費5元查看完整內容

移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。

Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。

付費5元查看完整內容

Setting the Variance of Multi-Agent Policy Gradients

策略梯度方法是常見的強化學習方法之一,其中基線函數通常用于減少梯度估計的方差。在多智能體強化學習中,雖然策略梯度定理可直接被擴展使用,但隨著梯度估計的方差隨著智能體數量的增加而迅速增加,多智能體策略梯度方法的性能會逐漸惡化。本文中,我們首先通過量化智能體數量及各智能體探索對多智能體策略梯度估計方差的貢獻,對策略梯度方法進行了嚴格的分析。基于此分析,可獲得實現最小方差的最佳基線函數。進而我們測量了現有多智能體強化學習算法如vanilla MAPG和COMA的過量方差。考慮到現有方法大多使用深度神經網絡,為此我們提出了可以直接與現有多智能體強化學習策略梯度方法相兼容的代理最優基線函數。在多智能體MuJoCo和星際爭霸基線任務上,所提方法有效地穩定了訓練過程,并顯著提高了MAPPO和COMA算法的性能。

//www.zhuanzhi.ai/paper/44143cf9491f61bb2ca14e5c6a0abe27

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

多智能體深度強化學習中的Q值路徑分解

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺

簡介:

近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。

方法:

  • 在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。

  • 在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。

  • 使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。

效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司