亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著大數據、云計算、物聯網等一系列新興技術的大量涌現,人工智能技術不斷 取得突破性進展。深度強化學習技術作為人工智能的最新成果之一,正被逐漸引入軍事領域 中,促使軍事領域走向信息化和智能化。在未來戰爭作戰模式及軍隊發展建設中,網絡化、 信息化、智能化和無人化形成重要特征已經成為不可逆轉的趨勢。因此,本文在回顧了深度 強化學習基本原理和主要算法的基礎上,對當前深度強化學習在武器裝備、網絡安全、無人 機編隊、智能決策與博弈等方面的應用現狀進行了系統的梳理與總結。最后,針對實際推進 深度強化學習技術在軍事領域應用落地所面臨的一系列問題和挑戰,提供了未來進一步研究 的思路。

近年來,隨著大數據、云計算、物聯網等 一系列新興技術的大量涌現,人工智能技術不 斷取得突破性進展。作為 21 世紀的頂尖技術之 一,人工智能給各個領域的發展都帶來了前所 未有的機遇和挑戰,軍事領域也不例外。2016 年 6 月,由國防大學舉辦的“戰爭復雜性與信息化戰爭模擬”學術研討會,對大數據時代的軍事 信息體系與發展戰略進行了重點研究[1],軍事 智能化已不再是一個陌生的概念,正在全面影 響著軍隊建設和未來戰爭形態[2]。從應用角度 來看,軍事智能化主要體現在五個層次[3]:以 無人機、無人車等仿生智能為主的單裝智能;以人機融合、集群、協同等概念為核心的協同 智能;以智能感知、決策、打擊、防御等多要 素作戰力量綜合運用的體系智能;以通信、網 絡、電子、輿情等專業領域管控的專項智能;以作戰體系基于數據、模型、算法獲取涌現效 應為目標的進化智能。人工智能技術為這些應 用的落地提供了堅實的基礎。深度學習(deep learning,DL)和強化學 習(reinforcement learning,RL)作為實現人工 智能的先進技術,分別在信息感知和認知決策 領域有著出色的表現[4]-[5]。深度強化學習(Deep Reinforcement Learning,DRL)[6]則是近幾年 提出的新興概念,結合了 DL 與 RL 的優勢, 是人工智能的最新成果之一,在機器人控制、 計算機視覺、自然語言處理、博弈論等領域都 取得了重要研究成果。在軍事領域中,針對作 戰任務規劃、智能軍事決策與智能博弈對抗等 問題的解決,DRL 也有著巨大的應用潛力,引 起了研究人員的廣泛關注。

目前,關于 DRL 的研究已經取得了較大進 展,有一些關于 DRL 的綜述性文獻陸續發表 [6]-[7],但它們更加偏向于對 DRL 算法的總結。除此之外,也有一些關于 DRL 在領域應用中的 綜述,如無人機[8]、通信與網絡[9]、智能制造[10] 等領域,然而關于 DRL 在軍事領域中的應用, 并沒有專門的綜述性文獻對其進行深入梳理和 總結。基于此,本文首先回顧了 DRL 的理論發 展歷程;然后對 DRL 的基本算法及改進算法進 行了歸納總結;最后對前人研究中 DRL 在軍事 領域武器裝備、網絡安全、無人機編隊、智能 決策與博弈等問題的應用現狀進行了系統性的 總結,并展望了其發展方向和前景。

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

目的 對軍事領域中人機協作的應用現狀和理論現狀進行歸納與分析,指出未來的發展趨勢,旨 在為人機協作軍事系統的技術發展和設計研究提供理論方向。方法 以無人機系統、無人車系統、無人 艇系統的實際應用場景為代表,分析人機協作的軍事應用現狀;剖析軍事背景下國內外人機協作任務分 配、人機交互方式、人機交互界面設計、人機協作效能評估的研究進展;綜合前人的研究現狀對未來的 研究發展趨勢進行總結。結論 根據國內外研究的現狀、熱點與趨勢可知,人機協作的任務分配需綜合 考慮人員行為和任務時序等因素,以提高人機協作效率,探尋更優的分配模式;多模態智能交互將成為 未來人與無人集群交互的主流形態,多通道結合的信息交流將改變操作員與指控系統互動的方式,實現 人與無人集群的高效交互;態勢認知是未來智能戰場面臨的挑戰,人機協作為智能態勢認知領域的研究 奠定了基礎。

隨著戰場信息化趨勢的發展,現代化戰場的整體 規模不斷擴大,戰場要素也愈加復雜,涉及多目標任 務和多資源的體系化作戰成為了主要的戰爭形態。人 機協作是指發生在人和自動化之間的協同交互,通常 被稱作 Human-Agent Teaming 或者 Human-Automation Collaboration[1]。在軍事層面,龐大的有人/無人協同 系統會參與到信息化戰場的協同作業中,復雜的操作 任務和作戰資源需要作戰體系具備規劃任務和自主 完成目標的能力[2]。因此,在復雜多變的戰場環境下, 自主規劃系統及監督指揮人員的協同作業顯得至關 重要[3]。人機協同作戰一直是軍事領域的研究熱點, 是指將無人系統與有人系統進行有機融合,基于共享 任務或信息的形式完成共同目標,這是智能化戰爭中 具有代表性的作戰方式之一[4]。基于對相關領域的研 究及應用資料的調查,美軍于 2003 年的伊拉克戰爭 中首次實現了有人/無人機協同作戰,通過有人機指 揮“MQ-1 捕食者”無人機發射導彈,實現作戰目標 物的發射打擊任務[5]。當前,國內外對無人機領域的 人機協作應用研究愈加廣泛。為實現資源的最大化利 用,通常采用單一操作員監督多個無人機的作戰模 式,但這種方式往往會增加人機系統的總體操作負 荷[6]。例如,美國在 2018 年的“拒止環境下無人機 協同作戰 CODE”項目中采用單一操作員控制多架無 人機的模式,執行偵察、打擊等作戰任務[7]。隨著未 來作戰化的趨勢向協同一體化的方向發展,在操作者 層面和武器平臺層面,實現資源的合理利用及充分配 置是人機協同作業的重要目標。 隨著人工智能、大數據等技術的發展,智能計算 等高新技術廣泛應用于軍事領域中的指揮控制系統、 無人作戰系統及輔助決策系統等自動化系統[8]。上述 系統注重人工智能技術的應用,突破了戰場環境下人 類生理疲勞等方面的限制,通過與人類合作來執行作 戰任務,形成人機協同作戰系統。人機協同作戰主要 有以下三種類型:第一種是智能化無人系統指引有人 系統實施作戰;第二種是智能化無人系統輔助有人系 統實施作戰;第三種是智能化無人系統掩護有人系統 實施作戰[4]。在人機協作系統中,智能系統運行速度 快,適用于執行規范化的繁雜任務,而人擔任監督規 劃的角色,通常在指定或突發階段,與智能系統聯合 完成協同作業[3]。然而,值得注意的是,雖然當前的 自動化系統能夠在一定程度上實現智能化任務,但是 在態勢感知及知識理解等方面仍存在固化思維,難以 完全替代人類[9]。例如,在指揮控制系統中,人類可 以發揮態勢感知的能力優勢,分析敵方的作戰意圖, 合理地分配作戰任務。而自動化系統主要是程序化的 定量感知,對動態的戰場環境感知的靈活度較低[10]。 總體來說,智能化作戰系統距離全自主性仍有較大差 距,需要和操作人員聯合完成作戰任務。 綜上所述,人和智能系統相互配合、執行任務, 可以發揮各自的優勢,提高作戰效率。人機協作過程 涉及任務分配、人機交互、效能評估等諸多方面,只 有實現各層面的高效融合和技術突破,才能達到理想 的協同作戰效果。然而,在動態、大規模的作戰環境 下,受限于智能技術的發展程度及未知的戰場態勢等 因素,人機協同技術仍處于探索階段,有許多工程技 術方面的難題需要解決,比如如何實現合理的協同任 務分配、如何實現靈活的人機交互等問題。因此,現 階段的研究重點是探究如何將人的經驗知識與機器智 能高效融合,最大化地發揮人機協同作戰系統的效能。

付費5元查看完整內容

為利用智能技術解決現代戰爭中的意圖判斷、威脅評估與指揮控制, 提高軍事決策水平, 將軍事問題轉化為博弈問題, 綜 合利用博弈論和人工智能(artificial intelligence, AI)技術尋求策略均衡解. 通過深入剖析游戲智能博弈的最新進展, 梳理美軍人工 智能軍事應用項目研究情況, 總結常用智能方法的優缺點, 分析軍事博弈面臨的挑戰及應對措施, 為突破復雜戰場環境下高動態 不確定的軍事智能決策問題提供借鑒.

現代戰爭無疑是一場激烈博弈, 隨著信息化程 度不斷提高, 作戰空間由物理域、信息域向認知域拓 展[1] , 快變的戰場態勢、緊湊的作戰節奏以及跨域軍事力量運用對作戰指揮的時效性和精確性提出了更 高要求. 敵方意圖判斷、行動威脅評估、指揮決策與 控制的難度不斷增加, 迫切需要利用智能技術延伸 人腦, 以提高軍事決策的自動化和自主化水平, 決策 智能成為軍事領域研究熱點之一. 近年來, 諸多游戲博弈系統在邊界和規則確定 的對抗中取得了顯著成績, 不僅極大推動了認知智 能發展, 更為軍事決策智能研究指明了探索方向[2] . 智能博弈也稱為機器博弈 (computer game), 主要研 究如何讓機器像人一樣在競爭環境下進行對抗, 屬 于認知智能范疇. 眾多知名學者很早便開始涉足該 領域研究, 如馮·諾依曼、香農、圖靈和塞繆等[3] . 隨著 計算機硬件不斷升級, 智能博弈理論和技術迅猛發 展. IBM 于 1997 年開發“深藍(deep blue)”系統, 以 絕對優勢戰勝了卡斯帕羅夫, 成為智能博弈系統“叫 板”人類的歷史性里程碑[4] . Deep Mind 于 2016 年至 2017 年相繼推出圍棋 AlphaGo 系列 AI 系統, 成功解 決了有限狀態零和完全信息兩人博弈問題[5-7];美國 卡耐基梅隆大學分別于 2017 年和 2019 年開發了 Li原 bratus 系統和 Pluribus 系統[8-9] , 突破了多人游戲智能 博弈的壁壘. 繼以圍棋、德州撲克等序貫博弈之后, 以實時策略游戲為代表的同步博弈問題成為新的 研究熱點, Deep Mind 在 2019 年公布的 AlphaStar 系 統的底層技術[10] , 對未來開發具有安全性、魯棒性和 實用性的通用 AI 系統具有重要意義. 然而軍事對抗 不同于游戲博弈, 兩者存在顯著區別[11] , 難以直接借 鑒應用.

本文闡述了軍事智能博弈的概念及應用前景, 提出在博弈論框架下利用 AI 技術應尋找策略均衡 解, 而非傳統求解最優解. 通過比較完全信息、不完 全信息和即時戰略類游戲的特點, 深入剖析不同智 能博弈技術框架的原理, 梳理美軍智能決策項目的 最新發展情況, 而后根據戰爭復雜性特征, 分析軍事 博弈面臨的主要困難以及智能技術軍事應用的挑戰. 有助于把握智能博弈最新進展, 為軍事決策智能發展儲備必要的理論與技術, 進而為利用 AI 技術突破 復雜戰場環境下高動態不確定的決策問題提供借鑒.

1 軍事智能博弈

軍事智能博弈(military intelligence game, MIG), 是指將軍事問題轉化為博弈問題, 綜合利用博弈論 (game theory)和 AI 技術尋求軍事對抗中的策略均衡 解. 博弈論為解決軍事問題提供了理論框架, AI 技術 為策略求解提供了高效方法. 隨著智能理論與技術 的迅猛發展, 博弈論和 AI 技術在現實應用中結合的 更加緊密, 為突破軍事決策智能發展瓶頸提供了新 思路. 軍事智能博弈具有廣闊的應用場景, 如圖 1 所 示. 利用智能博弈技術構建虛擬藍軍, 為作戰方案分 析、武器裝備檢驗和人員技能訓練提供逼真的作戰 對手, 可獲得更好的客觀真實性;智能博弈系統可充 當“決策大腦”或“智能參謀”, 面向動態戰場環境快 速生成博弈策略, 輔助指揮員開展對抗推演, 并在訓 練中與人類共同學習, 不斷提升指揮決策能力;構建 智能博弈對抗平臺, 作戰模擬仿真系統雖然大大降 低了實兵對抗訓練組織難、消耗大的弊端, 但大規模 聯合作戰推演仍需上百人員協作, 智能博弈平臺上 雙方“智能體”自主對抗, 不僅能對作戰方案進行快 速驗證, 還能通過分析智能體行為發現新戰法.

軍事智能博弈主要有兩大研究內容:一是軍事博 弈規則構建. 局中人為最大化自身利益進行決策, 不 同的規則設計將會導致策略選擇的不同, 如何設計 博弈規則以使最終均衡解達到整體利益最大化成為 首要問題. 二是博弈策略求解, 博弈論提供了問題建模 框架, 納什定理證明了均衡解的存在性, 但現實問題 的求解通常面臨狀態決策空間大、信息不完備等問 題, 如何利用高效算法搜索最優策略成為關鍵問題.

2 智能博弈研究現狀

梳理游戲智能博弈最新成果和美軍智能決策項 目發展情況, 深入剖析所用理論方法和技術框架, 有 助于把握領域的研究進展和方向.

2.1 游戲智能博弈研究

研究人員一直熱衷于將游戲作為測試和評估 AI 算法的平臺, 從最初的 Atari 游戲到后來的圍棋、德 州撲克和星際爭霸等, 人類攻克了越來越復雜的游 戲堡壘, 其技術方法為解決現實問題和實現通用人 工智能奠定了基礎.

2.1.1 完全信息博弈游戲

完全信息博弈中, 局中人可獲取即時完整的決 策信息, 雙方行動有先后順序, 并能在有限步后得到 結果, 是研究成果最顯著的領域, 如圍棋、國際象棋. 該類問題通常采用博弈樹搜素算法, 將博弈過程轉 化為樹的擴展過程. 博弈樹的根節點為初始狀態, 子 節點表示在根節點選擇動作后達到的新狀態(state), 從一個節點通向其他節點的邊表示動作(action), 通 過評估葉節點來判斷博弈結果. 樹中每一層代表了 雙方的狀態, 同層中的所有邊為局中人在狀態下所 有可選動作, 局中人在不同層間交替執行動作, 允許 一次執行若干動作但只看作是一個動作. 博弈目的 就是尋找博弈樹根節點的最優子節點, 而通往最優 子節點的動作即為最優動作.

2.1.2 不完全信息博弈游戲

不完全信息博弈中, 局中人行動順序雖有先后, 但無法完全獲取其他局中人的特征、收益及策略空 間等決策信息, 如德州撲克、麻將等. 不完全信息博 弈更符合現實場景, 但求解納什均衡解的復雜度和 難度也更大. 由于信息的非完備性和局勢的動態變 化, 需對其他局中人的未知信息進行推理和猜測, 同 一狀態下采取的行動可能有多種, 甚至可以利用信 息迷霧進行欺騙, 通常需要根據局勢縮小博弈搜索 空間, 如圖 4 所示.

2.1.3 即時戰略博弈

即時戰略游戲(real time strategy, RTS)具有以下 特點:局中人需同時決策是否采取行動以及采取何 種行動, 而非輪流決策;局中人需在短時間內進行一 系列決策并付諸實施, 以滿足實時對抗要求, 而動作 可能需要持續一段時間, 完全不同于棋牌類游戲“決策的交替性和間斷性、動作的瞬時性和突發性”;游 戲中存在各種功能角色, 如何發揮各角色作用和協 作效果, 是制定最優策略的關鍵問題;游戲中多角色 多任務、高度不確定性和不完備不完美信息等問題, 導致狀態空間規模和決策可選動作十分巨大;由于 無法準確預測對手行為, 游戲并不存在理論上的最 優解. 因此, RTS 游戲研究對解決具有實時對抗、長 遠規劃、多角色多任務和信息不完備不完美等特點 的問題更具借鑒意義, 如軍事決策、應急規劃等.

2.2 美軍智能博弈系統應用及進展

美軍早已預見智能技術在軍事領域的應用前景,力求在“第三次抵消戰略”中憑借智能技術形成絕對 軍事優勢. 美軍提出“馬賽克戰”概念, 希望構建一個 具有超強適應能力的彈性殺傷網絡, 實現要素的快 速聚合與分解, 重塑在大國博弈中的競爭力[20] . 智能博 弈技術, 必將成為未來智能化戰爭條件下進行指揮 決策的基礎.

3 智能博弈技術的軍事應用展望

3.1 軍事博弈面臨的困難

戰爭具有非線性和不確定性, 軍事博弈是一個 典型的面向不完美不完備信息的序貫決策和同步博 弈問題, 必須兼顧宏觀策略規劃和微觀戰術選擇, 平 衡短期利益、長期目標以及意外情況處置能力. 現有 智能博弈技術難以直接利用, 主要因為軍事博弈具 有以下突出特點。

3.1.1 戰爭充滿“迷霧”和不確定性

在完全信息博弈中, 雙方可以完全掌握棋局狀 態, 即使是在德州撲克等非完全信息博弈中, 未知的 牌局信息也只發生在一定概率區間內, 通過多輪博 弈可進行概率判斷. 而在真實戰場中, 由于預警范圍 和偵察注意力受限, 只能從戰場環境中獲取部分信 息, 而且敵方行動策略和作戰企圖無法完全知曉, 基 于部分可觀察的態勢估計是不可回避的. 指揮員需 要在一個非完全信息環境下進行決策, 必須具備高 效準確的偵察、探索、記憶和推測能力, 信息的缺失 導致以求解局部最優來獲取全局最優的方式無法完 成策略回溯. 戰場各類偵察系統獲取的信息可能是隨機模糊 的, 敵我雙方為隱藏企圖而采取各種欺騙行為和佯 裝動作, 導致獲取的信息不一定準確, 產生“信息獲 取的不確定性”;信息在各層級傳播和融合過程中, 會出現衰減、丟失和出錯等現象, 產生“信息融合的 不確定性”;事物的描述和表示會因知識表示方法不 同而不同, 產生“知識表示的不確定性”;利用證據信 息與軍事知識進行戰場態勢和敵方策略行動推理時, 不同的推理算法會產生不同的估計結果, 產生“推理 結果的不確定性”. 戰爭信息的高度不確定性, 導致 基于先驗知識推理未知領域的方式難以奏效.

3.1.2 軍事博弈對抗激烈、連續且非零和

戰爭博弈日趨激烈. 無論戰前還是戰中, 博弈發 生在時時刻刻、方方面面, 雙方意圖互為對抗且此消 彼長. 戰爭節奏緊張, 戰場態勢劇變, 雙方需要更快速 更準確地進行決策. 決策過程不僅要考慮作戰目的和 戰場態勢, 還要持續判斷敵方可能采取的戰法和行 動, 更需要在交戰過程中反復迭代更新策略, 以掌握 戰爭主動權. 為保證自身方案計劃順利實施, 達成“出 其不意攻其不備”的效果, 還要巧妙地利用佯裝行動 誘騙敵方;相反, 為避免被敵方牽著鼻子走, 也需通過 有效的信息推理來識別和預測敵方的真實意圖. 軍事決策是動態連續的. 與棋牌類游戲的輪次 博弈不同, 戰爭態勢連續演進, 交戰雙方決策無順序 約束, 任何時刻既要決策是否采取行動, 還需決策采 取哪些行動, 決策的速度和準確度共同決定了指揮 效率. 從理論上講, 可將動態連續決策過程離散為更 精細的時間片段, 而后采用輪次博弈的靜態解決方 法. 但戰爭系統具有整體性和不確定性, 以離散方式 進行抽象建模, 必然需要解決時間尺度、模型精確度 和問題求解復雜度三者之間的關系. 軍事博弈具有典型的“非零和”特性. 戰爭開始 及結束時機, 需要綜合考慮政治意圖、戰略目的、敵 我能力變化和國際環境等, 以實現國家利益最大化. 達成國家利益最大化時, 有可能是雙方軍事作戰在 某一階段的“雙輸”“/ 雙贏”局勢, 也可能是在實現政 治、經濟等目的后的“僵持”局勢. 這種模糊、復雜、 稀疏及非零和的博弈收益, 無法依靠單一指標的價 值網絡來評價。

3.1.3 策略空間巨大且難以達成均衡解

軍事博弈具有異常龐大的狀態策略空間, 難以 依靠遍歷求解或模擬仿真等傳統方法進行求解. 指 揮員每次決策都會涉及任務類型、執行單位、空間 和時間的選擇, 不同作戰單位和作戰行動之間的時 間協同、效果協同和任務協同進一步增大了策略空 間. 棋牌類游戲的狀態空間復雜度均是有限的, 星際 爭霸游戲的狀態空間仍在現有算法算力解決范圍內. 而解決擁有巨大狀態策略空間的軍事博弈問題, 不 僅對構建戰爭抽象模型提出了挑戰, 更對軟硬件運 算能力提出了要求. 軍事博弈策略求解面臨三大難題. 一是多方博 弈增大了達成納什均衡的難度. 在當今全球一體化 現狀下, 各國在政治、經濟、文化和軍事等多方面密 切相連, 戰爭不僅僅是兩國之事, 更多情況下會涉及多國利益. 在多方博弈問題中, 納什均衡求解的復雜 度隨著局中人數量的增加呈指數上升. 二是多軍兵 種參戰增加了協同難度. 作戰力量多元化是聯合作 戰一大特征, 不同領域作戰力量的合理利用和協同 互補是擬制作戰方案計劃的重要內容, 這也是實現 決策智能無法回避的內容. 三是不存在最優策略能 穩定勝過其他策略. 在策略學習與探索過程中, 策略 之間相互克制和歷史遺忘的特性十分明顯, 單純采 用自博弈訓練方式, 可能會陷入在不同策略間游移 但水平停滯不前的境地. 由于難以推理敵方策略行 動, 需要在不同子博弈之間尋找平衡. 戰爭規則的多樣性、創新性和復雜性, 進一步增 大了狀態策略空間的規模和納什均衡的求解難度. 戰爭參與者都試圖通過作戰行動來達成作戰目的, 策略會因戰場態勢的不斷更新而時刻變化, 出奇制 勝和另辟蹊徑的戰法創新為各方所推崇追尋. 面對 同一戰場態勢, 各方可能采取不同的響應動作, 而指 揮員的決策風格也不盡相同.

3.1.4 面向任務使命的長程規劃難以實現

現代作戰已從傳統的由外及內逐層消滅敵人的 線性作戰, 轉變為集中全域力量進行全縱深整體打 擊的非線性作戰. 戰爭事件因果關系復雜, 通常難以 在短時間內呈現, 作戰行動的執行效果可能在長時 間后才會有所體現. 方案計劃的制定要始終圍繞使 命任務進行主動籌劃和戰爭設計, 研究作戰行動與 作戰效果之間的非線性關系. 這種長遠且全局的規劃視野, 體現了人類指揮 員的指揮藝術和大局觀. 美軍率先提出基于效果作 戰(effect based operation, EBO)概念, 通過逆向規 劃將目標分解為具體預期效果. EBO 理論從邏輯上 講難以實現, 因為在不確定環境中無法確定某一行 動的結果, 同時也忽視了對抗性這一戰爭本質[23] . 中 外學者通常使用影響網進行研究, 結合博弈論實 現對抗條件下作戰方案計劃的生成[24] . 強化學習天生 具有“行動-效果”的探索能力, 為解決 EBO 提供了新 思路. 長程規劃應能夠體現戰爭設計的前瞻性、各領 域各層級的協同性以及指揮藝術性. 一是主動籌劃 行動以掌握戰場主動權, 瞄準作戰目的, 確保作戰進 程朝著終止態勢發展而不“走偏”, 優先完成“觀察判斷-決策-行動”循環;二是適應性調整方案以應對 戰場中的不確定干擾, 確保己方作戰過程持續進行 而不會“中斷”, 具有較強的學習能力和泛化性. 為此, 策略學習應具有記憶功能, 以判斷什么樣的行動產 生了好的效果、什么樣的策略更具有獲勝的可能性. 正如 AlphaStar 使用長短時記憶網絡捕捉歷史信息, 構建虛擬競技場保持策略穩定, 并采用持續強化學 習實現策略不斷更新進化.

3.2 智能博弈應用展望

3.2.1 基于知識規則的智能技術

知識來源于實踐, 人類在解決問題時更傾向于 遵循成熟規則. 機器還難以模仿人類大腦的復雜學 習能力, 智能博弈水平需要漫長的成長過程. 傳統基 于知識的專家系統, 利用人類經驗和專家知識, 便可 解決各領域復雜問題. 在深度學習盛行之后, 基于知 識規則的智能技術依舊取得了不凡成績. 例如, 東京 大學日麻 AI 系統利用 9.6 萬多條規則進行監督學習, 達到了專業六段水平;韓國三星的 SAIDA 系統完全 憑借職業玩家總結的規則知識, 在 2018 年 IEEE 舉 辦的星際爭霸比賽中獲得第一. 即便是融合了深層 神經網絡的 AlphaGo 和 AlphaStar, 依然需要在預訓 練中使用大量人類對局數據進行模仿學習. 雖然 AlphaZero 和 Muzero 能夠完全通過自主學 習實現成長[25] , 但圍棋游戲與戰爭對抗存在天壤之 別, 難以直接應用于軍事領域. 強化學習算法還難以 實現從基本策略中總結出高層策略, 現有的條令條 例、規劃流程、作戰規則等大量知識可轉化為知識 網絡以引導 AI 系統決策.

3.2.2 人機融合實現決策智能

戰爭的非透明性和不確定性, 使得作戰籌劃及 指揮控制過程極其復雜, 單純依靠人類大腦難以滿 足決策速度和精度要求, 而完全依賴機器又難以滿 足決策的可解釋性. 人機融合決策具有兩個明顯特 性, 如圖 10 所示. 一是層次性, 指揮決策具有科學性 和藝術性, 科學性隨指揮層次提升而降低, 藝術性與 之相反. 低層級指揮決策可采用傳統運籌學、貝葉斯 網絡、機器學習等科學方法, 這是實現決策智能的基 礎;中間層級指揮決策采用不同程度的人機協作決 策, 重點研究人機協作的時機、場合和方式等;而高 層級指揮決策需要由指揮員及參謀機構擬制. 二是 交替性, 傳統的 OODA 環已轉化為具有學習機制的 OODA 螺旋[11] , 指揮決策成為一個滾動迭代、不斷優 化的過程. 人與機器在各環節都有擅長與不足之處, 例如:態勢理解環節, 機器善于處理海量數據、提取 態勢特征和簡單戰斗戰術級態勢理解, 人來負責復 雜戰術戰役級態勢理解及意圖判斷;行動決策環節, 機器善于快速運籌計算和基于數據挖掘關聯關系, 人來負責基于因果關系進行非即時反饋決策. 在 OODA 循環中, 人與機器交替進行智能決策, 并推進 其螺旋上升.

3.2.3 混合技術突破軍事智能瓶頸

軍事博弈的復雜性決定了需要依靠多種技術手 段, AlphaStar 結合了神經網絡、多智能體、強化學 習、模仿學習、聯盟機制以及各種網絡結構和參數 的巧妙設計, 才實現了最終效果. ONTANON 等總結 了多智能體 RTS 游戲的難點及應對措施[26] , 為軍事 智能博弈研究發展提供了很好借鑒. 如圖 11 所示, 軍事智能博弈需重點關注以下幾點: 1)任務分解. 采用分層任務網絡、影響網絡和 影響圖等技術, 將戰役任務按時間、因果和邏輯等關 系進行分解, 降低整體求解難度. 2)策略分層. 模擬人類思維流程進行分層決策 和多尺度規劃, 上層策略為下層規劃目標, 而下層策 略的執行支撐了上層策略, 如高層策略關注戰役全 局問題、底層策略聚焦短期利益、即時策略控制反 應式動作. 3)規劃方法. 靈活運用多種規劃方法:低層次局 部任務規劃與高層次全局作戰規劃的一致性耦合;復 雜多目標問題求解的優化與效率的均衡;在理論和技 術條件下, 若能基于知識規則進行規劃, 則應避免使 用強化學習. 4)策略學習. 一是基于歷史或仿真數據的策略 模仿學習, 解決復雜問題從零學習的困境;二是基于 聯盟機制的策略持續學習, 解決策略持續優化、避免 陷入死循環的困境;三是基于通用 AI 技術的策略遷 移學習, 解決知識經驗和學習機制在不同場景下的 共享問題. 5)不確定性推理. 針對戰場信息不完全性增加 偵察策略, 構建預測模型對戰場態勢、敵方意圖及行 動策略進行推理;針對廣闊戰場空間和作戰單位功能 各異, 需要合理安排力量跨域作戰、資源空間轉移和 行動空間協同等問題, 進行空間不確定性推理;針對 戰爭非即時反饋特點, 既需要解決當前危機, 又要長 遠地規劃資源利用和策略轉換等問題, 進行時間不 確定推理. 6)知識圖譜. 以圖譜形式組織軍事領域知識, 構 建基礎知識圖譜;基于歷史數據及專家經驗, 構建敵 方意圖圖譜;針對不同決策場景, 結合指揮員經驗總 結, 構建我方行動推薦圖譜.

**3.2.4 對抗博弈用于強化訓練和戰法研究 **

戰爭謀略是長期作戰實踐的經驗總結. 通過對 抗博弈, 機器學習人類已有經驗知識, 人類從機器行 為表現中得到啟發, 實現人類決策能力與機器智能 水平的共同提升. 以戰役級計算機兵棋系統為訓練 平臺, 基于敵軍戰法規則構建智能對手, 通過人機博 弈對抗進行戰法研究和方案檢驗, 持續提升指揮員 的決策能力和戰場大局觀. 借鑒 AlphaStar 的虛擬競 技場思路, 通過機器自博弈探索不同行動方案并進 行評估, 從而克服指揮員傳統思維禁錮, 尋找好招、 奇招與妙招. 面向未來無人作戰領域, 大力發展多智 能體博弈策略生成的關鍵技術[27] .

4 結論

通過梳理經典智能博弈理論方法和軍事博弈特 征, 得出以下結論:1)軍事博弈與游戲存在顯著區 別, 戰爭注重指揮藝術性和決策科學性的結合, 強調 戰爭設計和“運籌帷幄”;2)軍事博弈更加強調面向 戰役使命進行長遠規劃, 而非游戲的反應式規劃, 必 須兼顧宏觀策略規劃和微觀戰術選擇;3)軍事博弈 問題規模遠遠大于游戲場景, 種種不確定性因素和 動態連續的激烈對抗, 增大了均衡策略的求解難度. 因此, 智能博弈相關技術方法還難以完全用于解決 戰爭問題. 面對復雜的戰爭系統, 長期積累的軍事知 識和作戰經驗能夠引導機器減少盲目搜索, 并避免 犯下違背軍事常識的錯誤;人機交互式決策在保證速 度和精度的同時, 還可通過“人在回路”提高決策的 適應性;如何利用已有技術手段解決現有復雜問題, 聚焦于智能技術混合使用方式, 是亟需研究的內容.

付費5元查看完整內容

軍事領域體系結構研究已經歷 20 余年,對于促進軍事領域體系建設發揮了重要作用。通過文獻分析識 別出軍事領域體系結構研究的 3 個主要方向,即體系結構框架與設計方法、體系結構概念與建模、體系結構管理設計 與操作,對每個方向的主要內容和研究進展進行了綜述,綜合相關研究情況,提出下一步的研究建議。 現代戰爭強調體系對抗,加強體系建設是軍事 領域的重要課題。自 20 世紀 90 年代美國國防部推 出 C4ISR 體系結構框架后,體系結構方法論在軍事 領域的研究與應用已經歷了 20 余年的歷程,在軍 事體系的需求與設計、集成與構建、演化與評價中 發揮了重要作用,正得到越來越多的關注。軍事領域體系結構研究與其他領域在研究內 容、技術上既有共性也有特性,既包含體系結構基 礎理論探索,也包含大量方法研究和應用實踐。Aier 等在分析國外大量體系結構文獻的基礎上,按照研 究內容把體系結構研究劃分為體系結構理解、體系 結構表達、體系結構使用 3 個方面[1]。Simon 等通過 文獻分析,把體系結構研究劃分為體系結構框架、 體系結構概念與建模、體系結構管理設計與操作 3個方面[2]。高松等從關鍵技術角度劃分為體系結構 框架、體系結構設計方法及工具、體系結構綜合評 估方法 3 個方面[3]。本文綜合上述劃分方式,通過 文獻分析識別出 3 個主要研究方向,即體系結構框 架與設計方法、體系結構概念與建模、體系結構管 理設計與操作,并建立了邏輯關系框圖,如圖 1 所 示。以下分別對 3 個方向研究進行綜述,進而得出 下一步的研究建議。

付費5元查看完整內容

深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

摘要:復雜未知環境下智能感知與自動控制是目前機器人在控制領域的研究熱點之一,而新一代人工智能為其實現智能自動化賦予了可能.近年來,在高維連續狀態-動作空間中,嘗試運用深度強化學習進行機器人運動控制的新興方法受到了相關研究人員的關注.本篇綜述首先回顧了深度強化學習的興起與發展,將用于機器人運動控制的深度強化學習算法分為基于值函數和策略梯度2類,并對各自典型算法及其特點進行了詳細介紹;其次,針對仿真至現實之前的學習過程,簡要介紹了5種常用于深度強化學習的機器人運動控制仿真平臺;然后根據研究類型的不同,綜述了目前基于深度強化學習的機器人運動控制方法在自主導航、物體抓取、步態控制、人機協作以及群體協同等5個方面的研究進展.最后,對其未來所面臨的挑戰以及發展趨勢進行了總結與展望.

//kzyjc.cnjournals.com/kzyjc/article/pdf/2020-1382

付費5元查看完整內容

深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。

付費5元查看完整內容

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容

強化學習是機器學習領域的研究熱點, 是考察智能體與環境的相互作用, 做出序列決策、優化策略并最大化累積回報的過程. 強化學習具有巨大的研究價值和應用潛力, 是實現通用人工智能的關鍵步驟. 本文綜述了強化學習算法與應用的研究進展和發展動態, 首先介紹強化學習的基本原理, 包括馬爾可夫決策過程、價值函數、探索-利用問題. 其次, 回顧強化學習經典算法, 包括基于價值函數的強化學習算法、基于策略搜索的強化學習算法、結合價值函數和策略搜索的強化學習算法, 以及綜述強化學習前沿研究, 主要介紹多智能體強化學習和元強化學習方向. 最后綜述強化學習在游戲對抗、機器人控制、城市交通和商業等領域的成功應用, 以及總結與展望.

//www.c-s-a.org.cn/csa/article/abstract/7701

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容
北京阿比特科技有限公司