亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

智能集群系統是人工智能的重要分支,所涌現出的智能形態被稱為集群智能,具有個體激發時的自組織性 和群體匯聚時的強魯棒性等特征.智能集群系統的協同決策過程是融合人-機-物,覆蓋多元空間,囊括感知-決策反饋-優化的復雜非線性問題,具有開放的決策模型和龐大的解空間.然而,傳統的算法依賴大量的知識與經驗,使 其難以支持系統的持續演化.強化學習是一類兼具感知決策的端到端方法,其通過試錯的方式不斷迭代優化,具有 強大的自主學習能力 .近些年來,受生物群體和人工智能的啟發,強化學習算法已由求解個體的決策問題,向優化 集群的聯合協同問題演進,為增強集群智能的匯聚和涌現注入了新動能.但是,強化學習在處理集群任務時面臨感 知環境時空敏感、群內個體高度自治、群間關系復雜多變、任務目標多維等挑戰 .本文立足于智能集群系統的協同 決策過程與強化學習運行機理,從聯合通信、協同決策、獎勵反饋與策略優化四個方面梳理了強化學習算法應對挑 戰的方法,論述了面向智能集群系統的強化學習算法的典型應用,列舉了相關開源平臺及其適用算法 .最后,從實 際需求出發,討論總結了今后的研究方向.//cjc.ict.ac.cn/online/onlinepaper/lll-20231210115504.pdf

付費5元查看完整內容

相關內容

近年來, 基于環境交互的強化學習方法在機器人相關應用領域取得巨大成功, 為機器人行為控制策略優化提供一個現實可行的解決方案. 但在真實世界中收集交互樣本存在高成本以及低效率等問題, 因此仿真環境被廣 泛應用于機器人強化學習訓練過程中. 通過在虛擬仿真環境中以較低成本獲取大量訓練樣本進行策略訓練, 并將 學習策略遷移至真實環境, 能有效緩解真實機器人訓練中存在的安全性、可靠性以及實時性等問題. 然而, 由于仿真環境與真實環境存在差異, 仿真環境中訓練得到的策略直接遷移到真實機器人往往難以獲得理想的性能表現. 針對這一問題, 虛實遷移強化學習方法被提出用以縮小環境差異, 進而實現有效的策略遷移. 按照遷移強化學習過 程中信息的流動方向和智能化方法作用的不同對象, 提出一個虛實遷移強化學習系統的流程框架, 并基于此框架 將現有相關工作分為 3 大類: 基于真實環境的模型優化方法、基于仿真環境的知識遷移方法、基于虛實環境的策略迭代提升方法, 并對每一分類中的代表技術與關聯工作進行闡述. 最后, 討論虛實遷移強化學習研究領域面臨的 機遇和挑戰. 當前, 強化學習 (reinforcement learning, RL)[1]方法在一系列復雜決策問題上取得了巨大成功, 如棋牌[2?4]和實 時戰略類游戲[5,6]、推薦系統[7?9]、自動駕駛[10,11]等. 在諸如機器人運動控制[12,13]、機器人操控[14?17]、運動導航[18?21] 和機器人足球[22,23]等任務上, 強化學習也取得了令人矚目的進展. 為了得到有效機器人控制策略, 強化學習依賴大 量交互樣本進行訓練, 而在真實環境中獲取樣本具有較高的成本代價與安全風險; 此外, 由于機器人結構復雜且真 實世界動態變化, 在機器人控制中運用強化學習依然面臨有效性、安全性以及實時性等問題. 為減輕真實樣本的 需求, 仿真環境被廣泛用于機器人策略學習當中. 基于仿真的機器人策略學習有如下優點: (1**) 廉價性**: 仿真環境的 物理引擎能夠以比實時更快的速度對真實環境進行計算模擬, 以較低成本生成訓練樣本用于機器人策略學習, 從 而提高機器人策略的訓練效率. (2) 真實性: 仿真環境不但能模擬機器人的完整運動特性, 如關節及關節之間的運 動關聯等, 還能模擬機器人和環境作用之間的物理屬性, 如重力、壓力、摩擦力等, 從而為真實世界建立逼真的物 理模型. (3) 多維性: 在特定的機器人任務中可以利用多個仿真環境對真實世界進行不同粒度建模, 從不同層次反 映真實場景的環境屬性, 提供與真實世界相關的數據與信息以滿足不同的應用需求. (4) 安全性: 在仿真環境中的 試錯行為沒有實際風險, 可以重復不斷地執行現實世界中耗時且危險的任務.

綜上可知, 基于仿真的強化學習在機器人控制中具有一定優勢. 為使機器人成功地完成現實世界中的一系列 操作, 需要將仿真環境中學習的策略遷移至真實世界中. 然而, 由于仿真環境和真實世界之間存在現實差距 (reality gap)[24] , 包括在不同平臺中機器人動力模型的差異以及環境物理屬性的差異 (如動作感知延遲、地面狀況與大氣 狀況等[25?27] ), 即使最高逼真度的仿真環境也難以對真實世界進行完全一致的建模. 因此, 將仿真環境中學到的策 略直接遷移到真實機器人上, 效果通常難以達到預期. 為了彌合仿真環境和現實之間的差異, 基于虛實遷移 (sim-toreal transfer)[24,28?30]的機器人強化學習方法通過解決仿真環境和真實環境之間的差異性問題, 從而實現學習策略的 有效遷移. 近年來, 一系列虛實混合遷移強化學習方法被提出, 包括系統識別[31?33]、域隨機化[34?37]、域自適應[38?40]、 多保真度學習[41?43]等, 廣泛地應用于運動控制、運動操控以及運動導航等機器人任務上, 取得了巨大的成功, 為機 器人行為控制策略優化提供了一個現實可行的解決方案. 已有一些工作對現有的機器人虛實遷移學習方法進行了總結. Zhao 等人[30]對虛實遷移中基本概念與具體技 術進行了簡要的介紹. Dimitropoulos 等人[29]按照是否需要真實數據將現有虛實遷移方法分類為模擬器方法以及 自適應方法, 前者不依賴真實數據, 后者則需要真實數據用于策略遷移. Salvato 等人[24]將虛實遷移方法分為 3 類: 域隨機化、對抗強化學習以及遷移學習方法. Zhu 等人[28]按照不同的應用目標, 將仿生機器人研究中使用的虛實 遷移方法分為 4 類: 基于精準的模擬器、基于運動學和動力學模型、基于分層與分布式控制器、基于演示的方 法. 盡管這些工作對現有的虛實遷移學習研究工作進行了總結, 但缺乏一個通用的框架對現有工作進行全面梳理 和分類. 因此, 本文對當前研究進行全面梳理, 從方法執行過程中信息流動和智能化方法作用對象的角度建立一個 通用的虛實遷移學習框架, 并基于此框架將當前主要的虛實遷移強化學習方法劃分為 3 類: 基于真實環境的模型優化方法、基于仿真環境的知識遷移方法和基于虛實環境的策略迭代提升方法, 并對相關具體理論和應用進行討論. 本文第 2 節介紹強化學習與遷移學習中重要的概念. 第 3 節深入探討為了縮小仿真與現實之間的差異所采取 的不同方法, 并提出一個通用的虛實遷移學習框架, 對遷移步驟中的數據信息流動和智能化方法作用的對象進行 闡述與分析, 并在此基礎上對現有方法進行分類, 分析它們的基本差異與優缺點. 第 4 節對該領域的目前的挑戰進 行分析, 并對于未來研究進行展望. 最后, 第 5 節對本文工作進行總結.

虛實遷移強化學習

虛實遷移[24,30,100]指機器人在仿真環境中進行訓練, 獲得的策略被遷移部署至真實機器人控制系統中, 其中仿 真環境作為源域, 真實環境作為目標域, 機器人的控制策略作為遷移對象, 核心內容是實現環境信息與控制信息在 真實環境與仿真環境之間的遷移. 虛實遷移對遷移效果提出了 4 個重要的目標: 有效性、效率性、安全性、泛化 性. 有效性[101,102]是指在仿真環境中學到的策略能在真實世界中發揮預期作用, 即在仿真環境中獲得高回報的策略 在真實環境中也能獲得較高回報, 針對有效性的研究大多從縮小環境差異角度著手. 效率性[103,104]從采樣的時間與 經濟成本出發, 強調在真實世界中進行盡可能少的探索采樣, 針對效率性的研究關注對真實樣本中環境信息的充 分挖掘與利用. 安全性[105,106]強調現實中的探索與直接的策略部署具有潛在的安全風險及較高的成本代價, 需要指 導真實機器人進行安全的探索與樣本收集. 泛化性[107,108]針對多任務遷移場景, 強調獲得的策略能在盡可能少的微 調下快速適應不同環境的任務. 本文主要關注圍繞虛實遷移的有效性以及效率性開展的相關研究工作, 在此基礎 上對現有方法進行梳理總結. 本文從遷移學習過程中的信息流動和智能化方法作用對象的角度提出了一個通用的虛實遷移強化學習系統 流程框架, 如圖 1 所示. 首先將策略學習與遷移過程分為以下 5 個主要步驟: 基于真實環境的仿真模型優化、仿真 策略優化、基于仿真環境的知識遷移、真實環境探索與評估, 以及基于虛實環境的策略迭代提升.  (1) 基于真實環境的仿真模型優化: 通過修正或調整仿真模型來縮小仿真環境與真實環境的差異. (2) 仿真環境策略優化: 通過仿真環境的交互樣本對策略進行學習訓練. (3) 基于仿真環境的知識遷移: 將仿真環境中獲取的學習知識向真實環境遷移.(4) 真實環境探索與評估: 對真實環境進行充分探索以及部署策略性能評估. (5) 基于虛實環境的策略迭代提升

:上述 4 個步驟的循環迭代實現策略的不斷提升. 真實環境信息包含了真實任務場景中的動力學模型以及獎勵模型, 前者受復雜的環境參數, 如溫度、濕度、 摩擦力系數等影響, 后者則由最終的任務目標及獎勵結構決定. 復雜的真實環境難以被精準且完整地表征, 但蘊含 于樣本數據、評估指標以及人類對任務的先驗認知中的真實環境信息能夠被有效利用, 這些信息蘊藏于人類在建 立仿真環境時所用的物理方程、環境參數的估計以及對參數范圍的約束中. 基于真實環境的仿真模型優化通過真 實世界的樣本數據修正或調整仿真環境, 其本質是將仿真模型中的先驗但不精確信息與真實樣本中的真實但局部 信息相融合以還原真實環境. 在仿真環境策略優化中, 機器人與仿真環境進行高效交互生成大量廉價樣本并利用 當前已有的深度強化學習算法如 DDPG[49]、PPO[50]等實現策略優化, 在此過程中融合真實環境信息后的仿真環境 信息被轉化成仿真控制策略中的控制信息. 在基于仿真環境的知識遷移中, 仿真環境中優化得到的策略控制信息 通過分解、組合或者直接遷移等手段從仿真策略中被提煉并遷移到真實策略. 最后, 遷移得到的真實策略又用于 真實環境探索與評估, 通過樣本采集以及策略評估從真實環境中提取局部信息, 通過真實策略的控制信息引導機器人探索真實環境的未知部分以建立更加精準的環境模型. 虛實遷移中的仿真環境策略優化、真實環境探索與評估是傳統強化學習領域中獨立的研究方向. 現有的虛實 遷移強化學習方法通常針對基于真實環境的仿真模型優化、基于仿真環境的知識遷移以及基于虛實環境的策略 迭代提升這 3 個部分開展, 所以本文著重從上述 3 個角度出發對虛實遷移方法及代表工作進行分類與總結, 并闡 述每類方法內在動機與關聯.****

本文總結了有關于機器人虛實遷移學習的主要工作, 從遷移學習過程中數據信息流動和智能化方法作用對象 的角度提出一個虛實遷移的流程框架, 并在此基礎上提出了當前虛實遷移學習技術的 3 個主要方向: 基于真實環 境的仿真模型優化、基于仿真環境的知識遷移、基于虛實環境的策略迭代提升. 接著, 對每個方向中的主要方法 以及相關工作進行闡述, 并對比了一些代表性工作的實驗內容. 最后, 介紹虛實遷移學習領域未來面臨的挑戰, 給 出了相應的解決思路與發展方向. 值得說明的是, 除了機器人領域, 虛實遷移強化學習相關思想與技術也可廣泛應 用于其他領域, 以避免高風險的真實環境交互并提高訓練效率. 如在金融交易中, 虛實遷移強化學習可應用于虛擬 金融市場環境中的交易策略開發和優化, 以提高交易策略的性能和魯棒性, 并將其應用于實際市場中進行交易. 另 外, 在醫療決策場景中, 虛實遷移強化學習可用于在虛擬環境中訓練智能代理來模擬醫療治療決策, 并將其遷移到 實際臨床實踐中, 以提高醫療決策的準確性和效果. 我們希望通過對當前相關工作的分類與總結, 為相關研究人員 提供一種新的視角解讀虛實遷移強化學習領域的研究現狀與方向.

付費5元查看完整內容

深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。

如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。

付費5元查看完整內容

智能博弈是認知決策智能領域的挑戰性問題, 是輔助聯合作戰籌劃與智能任務規劃的關鍵支撐. 從協作式團隊博弈、競爭式零和博弈和混合式一般和博弈共3 個角度梳理了智能博弈模型, 從認知角度出發定義了運籌型博弈(完全/ 有限理性)、不確定型博弈(經驗/知識)、涌現探索型博弈(直覺+ 靈感)、群體交互型博弈(協同演化)共4 類智能博弈認知模型, 從問題可信任解、策略訓練平臺、問題求解范式共3 個視角給出智能博弈求解方案. 基于Transformer 架構重點梳理了架構增強(表示學習、網絡組合、模型擴展)與序列建模(離線預訓練、在線適變、模型擴展)共2 大類6 小類決策Transformer 方法, 相關研究為開展“離線預訓練+ 在線適變”范式下滿足多主體、多任務、多模態及虛實遷移等應用場景的決策預訓練模型構建提供了初始參考. 為智能博弈領域的決策基石模型相關研究提供可行借鑒.

博弈一詞的英文單詞為 Game, 英文直譯為游戲, 早年國內譯為對策、賽局. 博弈問題的研究本質是通 過將除己方外其他參與方的行為策略考慮在內制定 己方對策過程. 未來軍事對抗具有環境高復雜、信息 不完整、博弈強對抗、響應高實時、自主無人化等突 出特征, 無人集群自主協同、作戰仿真推演和智能任 務規劃等挑戰課題都亟需智能博弈相關技術的支撐. 協作與競爭是雙生體, 廣泛存在于認知決策博弈領 域. 博弈智能是認知智能的高階表現形式. 近年來, 借助各類計算機博弈平臺, 面向智能博弈(intelligent gaming)的相關人工智能技術得到迅猛發展. 智能博 弈本質是指協作、競爭或對抗場景下, 利用博弈理論 分析問題、智能方法求解應對策略的過程. 人機對抗 (human computer gaming)作為圖靈測試的典型范式, 是測試人工智能(artificial intelligence, AI)技術程序 的主要手段和基準[1] , 是智能博弈的重要表現形式. 智 能博弈作為智能指揮與控制領域研究決策智能的基 準挑戰, 是當前研究決策大模型的試驗場和果蠅. 當 前圍繞智能博弈問題的求解, 已然傳統的“知識與搜 索”、“博弈學習”范式過渡到“模型與適應”范式, 其 中, 包括面向小模型的“預訓練+微調”和面向大模型 的“基石模型+情境學習”.

圍繞人類認知能力的認知建模技術已然成為 AI 領域的前沿課題. 近年來, 隨著 AI 技術的發展和 GPU 性能的逐年翻倍, AI 大模型/基石模型[2]在視覺 與語言智能計算、智能博弈領域取得了快速發展. 基 于大模型的 AI 生成內容(AI-generated context, AIGC) 技術未來將成為一種基礎設施, AI 生成行動 (AIgenerated action, AIGA)相關技術(行為生成、模型生 成)為決策問題求解提供了可行方案. 伴隨著 2022年 年末 ChatGPT 的出現, 各類基石的出現已然引發了 AI 各賽道里的“軍備競賽”, 但一般的語言能力無法 完全匹配決策需要的推理能力, 如何構建“決策基石 模型”已然成為當前 AI 與智能決策領域的前沿問題. Transformer 作為一種利用注意力機制來完成序 列到序列變換的表示學習模型, 利用此類模型構建 智能博弈問題的決策策略求解方法是熱門研究方向. 基于 Transformer 的表示學習方法[3]和序列建模方法[4] 及多模態融合學習方法[5]引發了各大領域(自然語言 處理、計算機視覺、語音與視頻、智能博弈決策)的 持續關注. LI 等[6]從表示學習、模型學習、序貫決策 和通才智能體 4 個角度對基于 Transformer 的強化學 習方法進行了綜述分析. HU 等[7]從架構增強(特征表 示、環境表示), 軌跡優化(條件行為克隆、經典強化 學習、預訓練、泛化性)和典型應用(機器人操控、文 字游戲、導航、自動駕駛) 共 3 大類對基于 Trans原 former 的強化學習方法進行了總結對比分析. 當前圍 繞決策 Transformer 的方法可分為 3 大類:直接利用 大語言模型類(百科、視頻、互聯網知識)、基于框架 變換的表示及模型學習類 (表示學習、環境學習)、 基于決策問題重構的條件生成類(序列建模、行為生 成、世界模型生成). 如何為規劃與決策領域的智能博弈問題設計新 型求解框架仍充滿挑戰. 本文圍繞智能博弈問題展開, 梳理各類問題的博弈模型, 創新性構建智能博弈認知 模型, 探索性給出智能博弈問題的求解范式;重點梳 理面向智能博弈問題求解的決策 Transformer 方法

付費5元查看完整內容

強化學習 (reinforcement learning, RL) 技術經歷了數十年的發展, 已經被成功地應用于連續決 策的環境中. 如今強化學習技術受到越來越多的關注, 甚至被冠以最接近通用人工智能的方法之一. 但 是, 客觀環境中往往不僅包含一個決策智能體. 因此, 我們更傾向于以多智能體強化學習 (multi-agent reinforcement learning, MARL) 為技術手段, 應對現實的復雜系統.** 近十年來, 多智能體系統 (multiagent system, MAS) 和強化學習的結合日漸緊密, 逐漸形成并豐富了多智能體強化學習這個研究方向. 回顧 MARL 的相關工作, 我們發現研究者們大致從學習框架的討論、聯合動作學習, 以及基于通信的 MARL 這 3 個角度解決 MARL 的問題**. 而本文重點調研基于通信的 MARL 的工作. 首先介紹選取基 于通信的 MARL 進行討論的原因, 然后列舉出不同性質的多智能體系統下的代表性工作. 希望本文能 夠為 MARL 的研究者提供參考, 進而提出能夠解決實際問題的 MAS 方法.

1 引言

如今, 強化學習 (reinforcement learning, RL) 作為人工智能領域中的熱門話題之一, 吸引了很多不 同專業領域學者的關注. 強化學習的本質 [1] 是讓智能體在與環境的不斷交互中, 通過嘗試和犯錯, 學 習如何在特定的時間段中作出合適的序列性決策以解決社會和工程中遇到的問題. 強化學習的發展過程有著鮮明的特征. 在 20 世紀 50 ~ 60 年代以前, 關于 RL 的探索都局限于 反復的試錯. 而后, 貝爾曼提出貝爾曼方程 (Bellman equation) 以及離散的動態系統中的最優控制理 論并且將其建模為馬爾可夫決策過程 (Markov decision process, MDP). 然而最優控制的潛在前提是我 們知道系統相關的所有特性, 實際上這個前提往往是無法滿足的. 這一點恰恰是強化學習的獨特研究 背景之一. 在 20 世紀 60 年代, “Reinforcement Learning” 第一次出現在了工程領域的試錯方法總結 中. 其中影響最深遠的就是 Minsky 的工作 [2], 其中提到了試錯和信任分配 (credit assignment) 的問題, 這些都是強化學習的起源. 此后研究者們從未知環境中試錯的出發點提出了基于時序差分的方法 (temporal differences, TD) [3]、Q- 學習 [4] 和 SARSA [5] . 當時的 RL 技術還處于比較樸素的階段, 主要針對的是規模較小的離散狀態離散動作的場景. 當 狀態或者動作空間連續時, 便無法得到準確的值函數. 這時就需要對值函數進行近似, 從而產生了基 于值函數 (value based) 的強化學習方法. 此外, 如果直接對策略進行近似, 學習的目標就可以直接定 義為最優策略搜索 (policy search) 的性能. 如果在策略近似的同時還引入了值函數的近似, 并且策略 是基于值函數的評價而更新的, 這類方法屬于策略近似的一種特殊形式, 稱為 Actor-Critic 方法, 其中 的 Actor 指的是策略, Critic 指的是值函數. 自從 2015 年, Mnih 等 [6] 在 Atari 環境中利用深度 Q- 學習取得了突破性進展之后, 深度強化學 習 (deep reinforcement learning, DRL) 便開始在機器學習、人工智能領域掀起了一陣熱潮. 研究者們 不斷發現 DRL 的巨大潛力, 不論是機器人控制 [7]、優化與調度 [8] , 或者是游戲和博弈 [6, 9] 等方面都 能夠借助于 DRL 來解決. 而當 DRL 在解決現實問題的時候, 研究者們往往高估了它的能力, 低估了 實現它的難度 [10] . 事實上, 現實世界中的問題是十分復雜的. 本文總結, 現實世界的復雜性很大程度上體現在: 多 數任務所涉及的系統規模較為龐大, 并且根據一些規則或者常識可以分解為多個完成不同子任務的個 體. 為了完成某個任務, 系統需要多個智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但 從任務層面來看, 這些智能體需要互相配合并且子決策的結果會互相影響. 這樣的系統可以被稱為多 智能體系統 (multi-agent system, MAS). 在多智能體系統中, 各個智能體需要在環境不完全可知的情 況下互相關聯進而完成任務. 簡而言之, 它們可以互相協同, 或者互相競爭, 也可以有競爭有合作. 如 果將強化學習技術用于上述場景中, 相異于傳統強化學習場景的是, 在這種系統中, (1) 至少有兩個智 能體; (2) 智能體之間存在著一定的關系, 如合作關系、競爭關系, 或者同時存在競爭與合作的關系; (3) 每個智能體最終所獲得的獎賞會受到其余智能體的影響. 通常, 我們將這種場景下的強化學習技術稱 為多智能體強化學習 (multi-agent RL, MARL). MARL 場景中的環境是復雜的、動態的. 這些特性給 學習過程帶來很大的困難, 例如, 隨著智能體數量的增長, 聯合狀態及動作空間的規模會呈現出指數擴 大, 帶來較大的計算開銷; 多個智能體是同時學習的, 當某個智能體的策略改變時, 其余智能體的最優 策略也可能會變化, 這將對算法的收斂性和穩定性帶來不利的影響。

針對上述 MARL 的困難, 研究者們提出智能體可以在動態的環境中借助于一些輔助信息彌補其 不可見的信息, 從而高效學得各自的策略. 為了達到這個目的, 研究者們提出了一些方法, 可以大致被 分為以下幾類: (1) 學習框架的討論, 這類工作意在探索一種可行的學習框架, 因此這類工作更多地 偏向于將已有的機器學習 (machine learning, ML) 研究背景或者 RL 技術向 MAS 的場景中作融合; (2) 聯合動作學習, 這類方法基于單智能體的視角, 即將多個智能體合并為一個整體, 而原本各個智能 體的動作則被視為系統 “子部件” 的動作, 但是這類方法在狀態動作空間維數較高時會面臨學習效率 不高的問題; (3) 智能體之間的通信, 即智能體通過發送和接收抽象的通信信息來分析環境中其他智能 體的情況從而協調各自的策略. 學習框架和聯合的多動作學習算法主要依賴于集中式的訓練學習或者 直接共享某些局部信息等條件. 不難發現, 更容易適應于現實系統的是基于通信的這類方法: 集中各 個智能體, 并使各個智能體分享的局部信息的訓練模式在實際應用中很難滿足. 因此, 我們希望智能 體之間可以不依賴于集中式的訓練學習方式, 依舊能夠在不完全可知的環境中分析感知其他智能體的 信息, 從而完成任務. 所以, 通過通信信息來補充環境的缺失信息的這種思路更容易被泛化. 近期, 更 為迫切的實際需求是參與任務的多個智能體不愿意進行諸如策略參數等信息的共享. 這就是聯邦學習 (federated learning, FL) 的要求. 在這種情況下, 算法更需要保證智能體之間只有有限的抽象信息用來傳輸, 從而滿足各個智能體對于隱私的需求。

在多智能體系統中, 如果對智能體的保護程度較高, 即智能體不會直接分享重要的內部信息, 智能 體則需要一些輔助的信息來補充這一部分缺失的不可觀測狀態. 最直觀的做法就是互相傳遞有意義的 通信信息, 這種信息可以在一定程度上幫助智能體對環境進行理解. 但是, 在滿足嚴格的互相不可見, 且有限信息共享的要求的前提下, 智能體之間要做到完全的獨立學習與通信是十分困難的事情. 即便 是在基于通信的 MARL 的工作中, 也有很大一部分工作依賴于集中式的訓練學習或者依賴于智能體 之間重要信息的共享 (例如智能體的動作). 而這樣的學習方式有悖于實際的需求. 因此, 智能體需要 能夠自主地在更新策略的同時自行調整通信信息, 從而做到完全的不依賴于集中式的或基于局部信息 共享的學習. 本文重點回顧基于通信的 MARL 的工作. 我們總結了基于通信的 MARL 的發展歷程, 以及不同 性質的多智能體系統場景下的代表性工作, 進一步給出不同工作的分析以及適用條件. 最后, 我們總結 并展望未來可能進行的探索方向. 我們由衷希望本文能夠為對研究 MARL 的讀者提供幫助.

2 單智能體強化學習

本節主要介紹單智能體 DRL 的基礎知識. 首先, 回顧傳統的強化學習, 即單智能體 (single-agent RL, SARL) 的相關概念, 然后, 介紹深度強化學習的興起、前沿的算法和現存的問題以及挑戰. 方便后 續章節為大家引入多智能體 RL 的問題設定、前沿研究的大致分類和框架.

3 多智能體強化學習

MARL DRL 面對的問題的復雜性很大程度上體現在: 多數任務所涉及的系統結構較為繁雜, 往往根據一 些規則或者常識可以分解為多個完成不同子任務的個體. 也就是說, 為了完成某個任務, 系統需要多個 智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但從任務層面來看, 它們需要互相配合并 且這些智能體各自的子決策結果會互相影響. 在這樣的多智能體系統中, 各個智能體需要在環境不完全可知的情況下互相關聯, 進而完成任務. 它們需要互相配合. “配合” 沒有限定一定要合作, 可以互相競爭也可以有競爭有合作, 依據任務本身 來定. 對于 MAS 的場景, 同樣需要對這類問題進行建模然后探索解決問題的方法.

4 基于通信的多智能體強化學習

在實際系統中, 參與任務的各個智能體往往會考慮安全或者隱私, 不希望過多地依賴于直接共享 各自領域的局部信息來完成任務. 這些關鍵的局部信息可能包括: 各個智能體的動作, 或者直接共享 同樣的策略網絡結構, 甚至是集中起來共享經驗池以更新各個智能體的策略, 也就是中心化的學習 (centralized learning) 的概念. 下面我們簡要地將現有的基于通信的 MARL 或者 MADRL 算法歸類, 然后列舉現在每一類的研究進展. 依據算法利用的 DRL 技術, 現有的基于通信的多智能體深度強化 學習算法 (communication-based multi-agent deep reinforcement learning, CB-MADRL) 大致可以分為 以下幾類: (1) 基于值函數的 CB-MADRL. 這種方法依靠對值函數 (以 Q- 值函數為主) 進行重構使之適用 于 MA 系統, 這部分工作在表 1 中總結. (2) 包含直接策略搜索的 CB-MADRL. 由于表現不夠穩定, 單純使用直接策略搜索作 MAS 決策 的工作十分少見. 現在大多學者都傾向于選擇基于 Actor-Critic 框架作 CB-MADRL 的研究, Actor 是 各個智能體的局部子策略, 通信的過程和效果主要依靠 Critic 來判定, 這部分算法在表 2 中總結. (3) 提升通信效率的突破. 我們發現在以上兩類方法逐漸發展的過程中, 學者們對這些算法也嘗 試了改進, 意在提升通信的效率進而提升算法的學習性能, 相關工作總結于表 3. (4) 關于應急通信的研究. 如今研究領域間的交叉已經極為常見, 很多語言研究領域的研究者們開 始嘗試從通信語言如何產生, 以及通信信息的質量度量等方向進行研究, 從而豐富了多智能體通信的 研究方向, 相關工作總結于表 4. 如果要求智能體通過通信的方式彼此協同完成一項任務, 智能體就需要通過將自己的信息, 例如 狀態和動作等, 編碼成一條有限長的信息, 傳遞給其余智能體, 同時也接受來自其余智能體的信息. 其 目的就是希望智能體能夠將收到的信息作為觀測的補充, 盡可能地還原不可見狀態的信息, 進而得到 近似全局狀態下的最優動作. 上述過程中, 通信的問題主要集中在如何傳遞高質量的通信信息, 具體來 說主要考慮: 通信信息需要包含哪些內容, 以及如何及時地更新通信信息. 在接下來的幾個小節中, 我們將主要從以上兩點為大家介紹并分析現有算法的特性.

5 歸納與展望

通過前面的回顧不難發現, 隨著 DRL 技術的發展, MAS 場景的問題越來越多地可以利用 DRL技術的遷移得到解決. 并且在各種 MAS 環境中都得到了測試, 甚至在星際這樣的游戲上也取得了勝 利. MADRL 的技術和突破是值得肯定的, 并且 MADRL 大背景下的現有工作已經有學者進行了總 結[62] . 我們更加希望各個智能體通過互相必要的溝通, 就能在不完全可知的環境中分析感知環境中其 他智能體的信息, 從而完成既定的任務. 本節主要對現存的 CB-MADRL 算法進行歸納, 然后進一步探 討未來可能需要解決的問題和工作方向.

6 結束語

多智能體強化學習的發展離不開深度強化學習的突破性進展. 而從多智能體強化學習這個層面來 說, 在看到已有的成績的同時, 提高學習效率、提高魯棒性和泛化性的困難依舊存在. 這種困難是多智 能體系統本身固有的性質, 例如環境的非穩定性、獎賞的延遲性和稀疏性、獎賞分配的困難性等. 盡 管這些困難依舊是牽制這個領域發展的因素, 但多智能體強化學習服務于現實系統解決現實問題是學 界的目標. 選擇基于通信的多智能體強化學習算法進行介紹的主要原因是通信本身更迎合實際的應用場景 的需求. 通信信息能夠很自然地使得智能體擺脫中心化的學習的框架. 智能體之間的有效的信息傳遞 不是簡單的私密的信息共享, 而是智能體在不斷地跟環境交互中所給出的有意義的反饋. 這種反饋通 常是抽象的, 是需要協同的智能體互相理解的. 通過對現有的基于通信的多智能體深度強化學習算法的分析, 不難發現能用于現實多智能體系統 中的基于通信的多智能體強化學習算法需要盡可能擺脫其對信息共享的依賴, 也就是盡可能保證較少 的信息共享, 做到完全基于通信. 完全基于通信的隱含意義是智能體在互相不可知的情況下僅僅依靠 通信信息實現缺失信息的補充, 進而擺脫過多的內部信息交流以及中心化學習的需求. 從而有如下的 結果.

? 智能體的隱私需求得到保障: 智能體可以根據自身狀態及接收的信息自行調整傳送信息. ? 算法的泛化性得到提升: 如果智能體可以僅通過通信信息互相理解進而協同完成任務, 在面對不 同任務時智能體可以根據不同的任務需求, 自適應地調整通信信息. 最后, 希望通過我們的介紹能夠對多智能體強化學習, 特別是基于通信手段的多智能體強化學習 方向有所關注的學者們提供一些幫助; 希望通過廣大學者們的努力使得多智能體強化學習技術更快更好地服務于現實世界中的系統.

付費5元查看完整內容

深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].

付費5元查看完整內容

移動增強現實(AR)借助智能移動終端將虛擬信息和真實世界進行實時融合,能否實時準確地對 環境中需要增強的物體進行目標檢測直接決定了系統的性能。隨著深度學習的快速發展,近年來出現了大量的 基于深度學習的目標檢測方法。由于存在移動增強設備計算能力有限、能耗大、模型尺寸大以及卸載任務到邊 緣云端的網絡延遲嚴重等問題,將深度學習方法應用于移動 AR 的目標檢測是一項具有挑戰性的問題。首先從 Two stage 和 One stage 的 2 方面對目前深度學習目標檢測算法進行綜述;然后對面向移動 AR 的目標檢測系統 架構進行歸納分類,分析了基于本地端、云端或邊緣端和協作式的移動 AR 目標檢測系統并總結了各自的優勢 和局限性;最后對移動 AR 中目標檢測亟待解決的問題和未來發展方向進行了展望和預測。

//www.txxb.com.cn/CN/10.11996/JG.j.2095-302X.2021040525

付費5元查看完整內容

目標檢測是計算機視覺領域中最基礎且最重要的任務之一,是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展,目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比,深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時,大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題,其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型,最后對目標檢測算法中待解決的問題和未來研究方向做出展望.

目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一,其包含物體分類和定位[1].與此同時,目標檢測作為圖像理解和計算機視覺的基石,它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎,因此探索高效實時的目標檢測模型是近年來研究的熱點.

傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇,在PASCAL VOC數據集[2]上的檢測準確率以較小步幅增長.Deformable Part?based Model(DPM)[3] 算法三次在PASCAL VOC目標檢測競賽上獲得冠軍,是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間,目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來,主要包括:(1)算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉圖像的高級語義特征和上下文內容;(3)傳統檢測算法分階段進行,整體缺乏一種全局優化策略.

最近,深度學習經歷了一段前所未有的發展熱浪,AlexNet[6]在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法,深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展,在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展,如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛[7,8]等領域.

本文首先介紹目標檢測數據集及其評估指標,之后總結基于深度學習的目標檢測基準模型,再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型,最后討論目標檢測技術的未來發展趨勢與總結全文.

付費5元查看完整內容

顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.

付費5元查看完整內容

小目標檢測一直是目標檢測領域中的熱點和難點,其主要挑戰是小目標像素少,難以提取有效的特征信息.近年來,隨著深度學習理論和技術的快速發展,基于深度學習的小目標檢測取得了較大進展,研究者從網絡結構、訓練策略、數據處理等方面入手,提出了一系列用于提高小目標檢測性能的方法.該文對基于深度學習的小目標檢測方法進行詳細綜述,按照方法原理將現有的小目標檢測方法分為基于多尺度預測、基于數據增強技術、基于提高特征分辨率、基于上下文信息,以及基于新的主干網絡和訓練策略等5類方法,全面分析總結基于深度學習的小目標檢測方法的研究現狀和最新進展,對比分析這些方法的特點和性能,并介紹常用的小目標檢測數據集.在總體梳理小目標檢測方法的研究進展的基礎上,對未來的研究方向進行展望.

//journal.bjut.edu.cn/article/2021/0254-0037/20210310.html

付費5元查看完整內容
北京阿比特科技有限公司