亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

武器裝備體系的作戰效能呈現非線性、對抗性、動態性等特點,武器裝備體系的建設發展對評估模型的應用分析提出更高的要求。由于貝葉斯網絡具備對武器裝備體系的效能與指標之間的非線性關系的良好映射能力、對動態過程良好的描述能力、良好的推理分析的能力,基于貝葉斯網絡的作戰效能評估成為了該領域目前的研究熱點之一。論述了武器裝備體系的作戰效能評估以及貝葉斯網絡的發展現狀,及基于貝葉斯網絡的作戰效能評估方法的研究現狀,指出了基于貝葉斯網絡的武器裝備體系作戰效能評估方法的發展方向。 作戰效能是衡量作戰單位在作戰過程中能否 取得勝利的重要指標,對作戰效能進行評估可以為 作戰指揮提供輔助決策。隨著戰爭科技與作戰理念 的不斷發展,現代戰爭呈現武器裝備種類復雜、作 戰高效、制勝手段豐富等特點,因此,對作戰過程中 武器裝備所發揮的效能進行準確評估成為了制勝 關鍵。 武器裝備體系的作戰效能與其性能和作戰運 用方式緊密相關,已經不是線性映射關系可以刻畫 的,迫切需要尋找新的方法來解決非線性和不確定 性條件下的武器裝備體系的作戰效能評估問題。目 前解決該問題的方法中比較熱門的有結構方程模 型、作戰環、BP 神經網絡等[1-3],以上方法能夠較好 地刻畫效能與指標之間的非線性關系。隨著武器裝 備的復雜程度越來越大,國內外學者也在不斷探索 新的評估方法,貝葉斯網絡因其因果關系的揭示以 及強大的非線性映射能力備受關注,該方法能夠很 好地揭示復雜評估問題的映射關系并進行因果推 理,因此,該方法逐漸成為武器裝備體系作戰效能 評估方法的研究熱點方向之一。 本文將對非線性和不確定性條件下武器裝備 體系的作戰效能評估問題進行分析,論述貝葉斯網 絡方法的研究現狀,指出了目前基于貝葉斯網絡的 武器裝備體系的作戰效能評估方法中存在的問題, 展望了其未來發展方向。

付費5元查看完整內容

相關內容

貝葉斯網絡是一種概率網絡,它是基于概率推理的圖形化網絡,而貝葉斯公式則是這個概率網絡的基礎。貝葉斯網絡是基于概率推理的數學模型,所謂概率推理就是通過一些變量的信息來獲取其他的概率信息的過程,基于概率推理的貝葉斯網絡(Bayesian network)是為了解決不定性和不完整性問題而提出的,它對于解決復雜設備不確定性和關聯性引起的故障有很大的優勢,在多個領域中獲得廣泛應用。

針對復雜作戰環境下的體系對抗問題,對聯合作戰背景下的體系效能評估方法進行 了梳理,闡述了聯合作戰體系效能評估的重要意義。總結了評估方法的研究現狀和典型方 法,闡明了其優缺點;歸納了現有方法存在的問題及挑戰,提出了未來可能的發展方向。

隨著武器裝備信息化進程的不斷推進,面對聯 合作戰、跨域作戰等復雜作戰環境下體系對抗的任 務需求,最大限度地利用好分布在不同區域的信 息、火力平臺以及跨兵種作戰資源是聯合制勝的關 鍵所在[1-4] 。因此在裝備建設、資源規劃、力量編 成、體系構建以及任務協同等規劃與設計過程中, 就需要充分借助系統工程思想,通過計算、評估、模 擬、推演、仿真等手段對體系效能進行評估,確定出 影響體系效能發揮的薄弱環節,從而進行相應調整 以達到體系效能的最優化。同時,如何基于體系作 戰效能進行裝備編成、配置構建,如何根據在體系 中的定位牽引具體裝備的性能指標,如何評價體系 配置、作戰任務完成率、裝備對體系的貢獻率等,在 工業設計和裝備應用中變得愈來愈重要[3, 5-9] 。然 而,由于體系組成復雜、各種影響因素交織,作戰環 境的復雜性、多樣性、瞬變性和難以預測性等對體 系建設和評估帶來了極大的困難。因此,對現有的 各種體系效能評估方法進行梳理與總結,分析各方 法的優缺點以及在體系效能評估中的具體應用,進 而為體系效能評估策略的選擇和設計提供依據是非常必要的。

付費5元查看完整內容

聚焦陸戰場信息系統設計問題, 結合分布式計算最新成果, 基于“云網端”融合理念, 構建了一套適用于分布式戰場節點 和智能需求的信息系統架構. 針對所構建架構中, 智能應用和智能性提升的關鍵需求, 綜合分布式陸戰場節點資源受限、任務多樣 等特點, 在分層聯邦學習基礎上, 依據資源狀況進行自適應調整, 提供資源開銷和智能提升相均衡的使用途徑. 經實驗驗證, 該架 構和方法效果良好, 更能適應分布式條件下陸戰場節點智能性需求.

從雞鳴狗吠到汽笛轟鳴, 從人喊馬嘶到隆隆炮 聲, 科技在社會生產發展和軍事形態變遷中扮演著 至關重要的角色. 進入信息時代以來, 新興技術已經 邁上爆炸式增長之路, 軍事變革又一次走上歷史舞 臺. 作為繼機械化、信息化之后的又一個峰谷, 智能 化已成為未來戰爭的主要趨勢. 面向新的戰爭起點 和斗爭形態, 美針對中俄日益發展的“反介入/區域拒 止”能力[1] , 提出分布式作戰[2]概念, 通過“馬賽克”[3]編 成作戰力量, 以分布式殺傷網替代原有的集中式殺 傷鏈[4] , 力爭取得決策優勢[5] , 打亂我方作戰節奏, 維 持其世界霸權. 目前, 分布式作戰已經成為美軍主流 作戰概念, 對我軍未來作戰行動具有重大威脅, 亟需 開展針對性的研究. 現有技術條件下, 一旦對方將兵力全部進行分 布式部署, 兵力集中的一方將無法一擊制敵, 并遭到 來自各個方向的打擊. 此時, 必須將兵力進行合理部 署, 以分布式對分布式, 讓對方同樣無法集中火力從 各個方面襲來, 才能形成新型戰線, 層層防御. 因此, 戰場局勢將進一步呈現出分布式態勢, 分布式作戰 條件也必將成為各域戰場所必須解決的問題.

陸地是人類的傳統居住環境, 也是人類戰爭最 終需要控制的目標區域. 在聯合全域作戰視角下, 陸戰場既是決勝之所, 也是制勝之地, 發揮著至關 重要的作用. 智能化戰爭背景下, 智能信息系統是 陸戰場的神經, 是聯結分布式陸戰場節點和作戰體 系中心的重要載體, 也是作戰力量獲取智能能力的 主要途徑, 對于應對智能化背景下的分布式作戰具 有重要意義. 然而, 分布式作戰條件和陸戰場自身 特點使得陸戰場智能信息系統構建存在諸多難點具體如下:1)兵力分布廣, 干擾因素多, 體系支撐難. 現代 戰爭視野下, 陸戰場范圍不斷擴大, 兵力分布更加廣 泛, 難以為所有節點提供遠程體系支撐. 加上地形、 氣象、水文、天候等多維要素影響, 已經和體系聯結 的諸多節點隨時可能與上級斷開而成為孤立節點, 實時提供體系支撐愈發困難. 2)任務多樣化, 人文高復雜, 智能適應難. 兵種 專業分化, 武器裝備操作難度不斷增加, 陸戰場節點 面臨越來越多樣的各類任務, 預先訓練的單一智能 模型存在失效風險. 作為人類的直接居住場所, 陸戰 場復雜的人文環境對智能認知模型的準確率和時效 性提出了巨大挑戰, 更加劇了預訓練智能模型失效 的風險. 3)計算需求大, 資源高受限, 統籌協調難. 智能 信息系統的核心是不斷演化的智能能力, 現有人工 智能手段對算力的需求十分巨大, 而陸戰場資源補 給相對困難, 節點機動能力較弱, 資源高度受限, 此 時, 如何兼顧陸戰場節點智能性需求和計算、電量等 資源效率, 統籌協調全局, 極具挑戰. 為了更好地支撐分布式作戰條件下陸戰場的諸 多作戰力量, 解決分布式陸戰場中信息系統面臨的 諸多問題, 提供高效可靠智能的陸戰場信息系統支 撐, 本文基于“云網端”融合理念, 設計了一種多層自 適應的智能信息系統體系結構, 通過信息流動集成 分布作戰力量, 形成對上聯通體系、向下獲得支撐、 對敵自成體系的高效作戰體系;在此基礎上瞄準分布 式陸戰場節點任務多樣, 預訓練模型易失效的挑戰, 結合分層自適應聯邦學習方法, 進行分布式陸戰場 智能模型訓練, 盤活作戰訓練過程中產生的新數據, 實現持續學習不斷演化的戰場學習能力;對于智能模 型計算需求和分布式陸戰場節點資源受限的問題, 考慮從模型的智能訓練和智能推理兩部分入手, 結 合聯邦學習的模型替換機制, 當計算資源充足時, 參 與作戰模型的持續訓練, 當計算資源不足時, 直接利 用獲得的智能模型進行推理, 實現資源可容忍情況 下的分布式陸戰場節點智能作戰.

付費5元查看完整內容

無人作戰飛機(unmanned combat aerial vehicle,UCAV)在進行空戰自主機動決策時,面臨大規模計算,易受敵方不確定性操縱的影響。針對這一問題,提出了一種基于深度強化學習算法的無人作戰飛機空戰自主機動決策模型。利用該算法,無人作戰飛機可以在空戰中自主地進行機動決策以獲得優勢地位。首先,基于飛機控制系統,利用MATLAB/Simulink仿真平臺搭建了六自由度無人作戰飛機模型,選取適當的空戰動作作為機動輸出。在此基礎上,設計了無人作戰飛機空戰自主機動的決策模型,通過敵我雙方的相對運動構建作戰評估模型,分析了導彈攻擊區的范圍,將相應的優勢函數作為深度強化學習的評判依據。之后,對無人作戰飛機進行了由易到難的分階段訓練,并通過對深度Q網絡的研究分析了最優機動控制指令。從而無人作戰飛機可以在不同的態勢情況下選擇相應的機動動作,獨立評估戰場態勢,做出戰術決策,以達到提高作戰效能的目的。仿真結果表明,該方法能使無人作戰飛機在空戰中自主的選擇戰術動作,快速達到優勢地位,極大地提高了無人作戰飛機的作戰效率。 目前無人作戰飛機(unmanned combat aerial vehicle, UCAV)被廣泛應用于軍事領域[1],UCAV在過去主要從事戰場監視、吸引火力和通信中繼等任務,隨著武器裝備的傳感器、計算機及通信等技術的發展,性能不斷提升,未來的UCAV將逐步升級成為可以執行空中對抗、對地火力壓制和參與制空權的奪取等作戰任務的主要作戰裝備之一。盡管UCAV的性能提升很大,但大多數的任務都離不開人工干預,控制人員通過基站在地面對UCAV進行控制,這種控制方法有延遲且易受到電磁干擾。因此研究UCAV的自主作戰能力已經成為空軍發展的必然趨勢,裝備了無人作戰決策系統的UCAV將逐步取代飛行員的位置,以達到減少成本,提高戰斗力的作用。在近距離格斗的階段,UCAV應根據當前的空戰態勢及時選取合適的飛行控制指令,搶占有利的位置,尋找擊落敵機的機會并保護自己[2]。

在空戰條件下,飛機模型本身為非線性同時目標的飛行軌跡是不確定的,這些都將給UCAV的機動決策帶來許多不便,因此良好的機動決策是UCAV自主空戰的一個重要環節,自動機動決策要求UCAV能在不同的空戰環境下自動生成飛行控制指令。常規的機動決策控制方法包括最優化方法、博弈論法、矩陣對策法、影響圖法、遺傳算法、專家系統、神經網絡方法以及強化學習方法等。文獻[3]將空戰視為一個馬爾可夫過程,通過貝葉斯推理理論計算空戰情況,并自適應調整機動決策因素的權重,使目標函數更加合理,保證了無人戰斗機的優越性。文獻[4]設計了一個基于遺傳學習系統的飛機機動決策模型,通過對機動的過程加以優化來解決空戰環境未知情況下的空戰決策問題,可以在不同的空戰環境中產生相應的戰術動作,但該方法的參數設計存在主觀性,不能靈活應用。文獻[5]利用統計學原理研究UCAV的空戰機動決策問題,具有一定的魯棒性,但該算法實時性能較差無法應用于在線決策。文獻[6]將可微態勢函數應用于UCAV微分對策中,可以快速反應空戰環境,但由于實時計算的局限性很難解決復雜的模型。文獻[7]采用博弈論對UCAV空戰決策進行建模,對不同的空戰環境具有通用性。雖然這些決策算法可以在一定程度上提高決策的效率、魯棒性和尋優率,但由于這些決策模型存在推理過程較為頻繁,會浪費大量時間尋優等問題,導致UCAV的響應變慢,并不適用于當今的戰場環境。

基于人工智能的方法包括神經網絡法、專家系統法以及強化學習算法。文獻[8]采用了專家系統法,通過預測雙方的態勢和運動狀態生成相應的機動指令控制UCAV飛行,但不足之處在于規則庫的構建較為復雜,通用性差。文獻[9]采用了自適應神經網絡技術設計PID控制器,對高機動目標具有較強的跟蹤精度,但神經網絡方法需要大量的空戰樣本,存在學習樣本不足的問題。與以上兩種方法相比,強化學習算法是一種智能體與環境之間不斷試錯交互從而進行學習的行為,智能體根據環境得到的反饋優化自己的策略,再根據策略行動,最終達到最優策略。由于強化學習的過程通常不考慮訓練樣本,僅通過環境反饋得到的獎勵對動作進行優化,可以提高了學習的效率,是一種可行的方法[10]。文獻[11]將空戰時的狀態空間模糊化、歸一化作為強化學習算法的輸入,并將基本的空戰動作作為強化學習的輸出,使得UCAV不斷與環境交互從而實現空戰的優勢地位。在此基礎上,文獻[12-13]將神經網絡與強化學習相結合,提高了算法的運算效率,但這些文章都沒有考慮飛機的姿態變化。

本文提出了一種深度強化學習(deep reinforcement learning, DRL)算法來解決UCAV自主機動決策作戰的問題,并在MATLAB/Simulink環境中搭建了某種六自由度UCAV模型,充分考慮了其非線性。同時選取適當的空戰動作作為UCAV的機動輸出,建立空戰優勢函數并設計UCAV空戰機動決策模型。通過強化學習方法可以減少人為操縱的復雜性,保證計算結果的優越性,提高UCAV的作戰能力,而神經網絡可以提升實時決策能力。最后通過仿真將該方法應用于UCAV機動作戰決策中,證明了其有效性和可行性。

付費5元查看完整內容

為了應對在未來復雜的戰場環境下, 由于通信受限等原因導致的集中式決策模式難以實施的情況, 提出了一個基于多智 能體深度強化學習的分布式作戰體系任務分配算法, 該算法為各作戰單元均設計一個獨立的策略網絡, 并采用集中式訓練、分布 式執行的方法對智能體的策略網絡進行訓練, 結果顯示, 經過學習訓練后的各作戰單元具備一定的自主協同能力, 即使在沒有中 心指揮控制節點協調的情況下, 依然能夠獨立地實現作戰任務的高效分配.

馬賽克戰[1]、聯合全域指揮控制[2]等新型作戰概 念所構想的未來作戰場景中, 傳統的多任務平臺被 分解為了眾多的小型作戰單元, 這些小型作戰單元 通常具備更高的靈活性, 能夠根據戰場環境的變化 快速對自身所承擔的任務進行調整, 以實現更好的 整體作戰效果. 在未來的新型作戰場景中, 傳統的集 中式指揮控制模式存在著指揮鏈路過長、決策復雜 度過高等問題, 從而導致決策時效性和決策質量難 以滿足要求[3] . 近年來, 邊緣指揮控制等新型指揮控制 模式應運而生, 邊緣節點也即各作戰實體將具備一 定程度的自主決策能力[4] . 由于戰場環境的復雜多變 特性, 以及作戰實體的小型化、智能化發展趨勢, 分 布式決策的模式將在未來的戰場決策中發揮越來越 重要的作用. 作戰體系是為了完成特定的作戰任務由一系列 具備各項能力的作戰單元動態構建而成, 在以往的 集中式決策模式下, 體系設計人員會根據作戰任務 的能力需求以及作戰單元所具備的各項能力, 以最 大化作戰效能或最小化作戰單元的使用成本等為目 標, 來統一地對各作戰任務和作戰單元進行匹配. 作 戰體系的“作戰任務—作戰單元”匹配問題可以建模 為一個優化問題, 當問題規模較小時, 可以采用集中 式決策的模式運用整數線性規劃等運籌學方法快速 得到全局最優解[5] , 而當問題規模較大時可以采用遺 傳算法等啟發式算法[6]或者強化學習算法[7] , 得到問 題的近似最優解. 采用集中式決策的一個重要前提 條件是中心決策節點和作戰單元葉節點之間的通信 暢通, 因為葉節點需要將自身的狀態信息和觀測信 息發送給中心決策節點, 而中心節點需要將決策命 令發送給葉節點. 然而在未來的作戰場景中, 由于敵 方的通信干擾等原因, 中心節點和葉節點之間的通 信鏈接很難保證連續暢通, 同時頻繁的信息交互會 造成一定的通信負載和通信延遲, 因此, 在未來很多 的任務場景中, 需要作戰單元根據自身的狀態信息 和觀測到的信息獨立地進行決策.

強化學習是一種利用智能體與環境的交互信息 不斷地對智能體的決策策略進行改進的方法, 隨著深度強化學習技術的快速發展, 強化學習算法在無 人機路徑規劃[8]、無線傳感器方案調度[9]等領域都取 得了非常成功的應用, 同時近年來多智能體強化學 習算法在 StarCraft域[10]等環境中也取得了很好的效 果. 在作戰體系任務分配場景中, 可以將各作戰單元 視為多個決策智能體, 那么“作戰任務—作戰單元” 的匹配任務可以視為一個多智能體強化學習任務. 而當前尚未有將多智能體強化學習方法應用到類似 作戰體系的任務分配環境中的先例. 本文的主要工 作如下: 1)建立一個通信受限情況下的作戰體系“作 戰任務—作戰單元”匹配的任務場景;2)提出了一 個基于多智能體強化學習技術的作戰體系任務分配 算法;3)通過實驗驗證了采用上述算法訓練的各智 能體, 可以在通信受限的場景下, 實現一定程度的自 主協同, 在沒有中心決策節點的情況下依然能夠實 現作戰體系任務的有效分配

付費5元查看完整內容

無人機集群協同作戰的自主化、智能化是未來軍事指揮控制技術發展的重要趨勢, 為滿足日趨重視的集群應用需求, 提出了面向協同作戰任務的無人機集群自主決策技術概念與體系, 建立了無人機集群多任務的通信-決策-規劃-控制(communication, decision, planning, control;CDPC)自主決策框架. 根據通信拓撲結構建立了集中式、完全分布式和混合式的決策樣式, 在此基礎上, 分別建立了感性任務推理決策模型和理性任務推理決策模型, 探討了模型的求解框架以及關鍵技術解決途徑, 表示無人機集群任務決策對協同作戰的規劃和實施具有較好的指導意義.

2020 年 1 月, 中國科學院發布的 《2019 年人工 智能發展白皮書》中將“群體智能技術”列為八大人工 智能關鍵技術之一[1] , 隨著智能系統與復雜體系、感 知與判斷、分布式協同、人工智能和算法戰等理論 與技術的不斷發展與突破, 智能系統已呈現出無人 化、集群化和自主化等特征[2] . 無人機集群作為未來集 群智能系統的主要形式, 能夠實現單平臺行為決策、 多平臺任務協同, 具有集群涌現特性, 表現出了巨大 的應用前景. 無人機集群任務環境彈性大、態勢變化 快、傳感器信息不完全、通信結構不穩定, 是以決策 為主的對抗. 因此, 協同自主決策作為“感知-判斷決策-行動 (observation-orientation-decision-action, OODA)”環路循環中的關鍵技術引起了國內外廣泛 關注[3-5] . 無人機集群在復雜動態變化的環境下, 如何 根據不確定的態勢信息, 實施可解釋的自主決策推 理, 確定高效可靠的任務協同執行方式對保障集群 安全, 提升作戰效能至關重要.

按照系統科學的觀點[6] , 無人機集群系統多平臺 異構、任務需求眾多、輸入態勢變化、戰術目的復 雜、約束條件耦合, 為解決以上問題, 需要面向無人 機集群多任務設計自主決策規劃框架, 降低系統研 究的復雜性. 文獻[7]基于不確定攻防博弈態勢信息 搭建了無人機集群對抗博弈模型, 并設計博弈成本 函數計算最優策略;文獻[8]提出了一種多無人機分 布式智能自組織算法, 將集群偵察-打擊任務優化問 題分解為多個局部優化問題, 并通過集群與環境和 集群之間的信息交流實現全局優化決策;文獻[9]針 對區域偵察等典型集群任務, 采用深度學習方法構 建任務決策模型, 然后基于遺傳算法對決策模型進 行優化, 為集群實現離線學習和在線決策提供了有 效支撐, 然而現有成果從多任務角度出發, 對集群自 主決策問題進行研究相對較少.

對于集群系統協同作戰任務方面的研究, 主要 以任務規劃問題為主[10] , 此類問題大都是事先擬定好 了任務輸入類型和約束, 是一種有目標信息的多約 束優化問題. 然而對于集群如何獲得準確的任務目 標信息, 并根據態勢進行動態任務調整并沒有考慮, 此問題正是集群協同任務決策的研究重點. 現階段 無人機決策問題研究大都聚焦于空戰過程中的機動 動作決策[11-12] , 或者某個明確任務場景中的決策, 如集 群打擊任務等[13-14] , 沒有從集群協同作戰過程中戰術 戰略及任務的多樣性和復雜性方面開展自主決策研 究. 因此, 本文針對這個問題, 分析了集群任務自主 決策概念、任務定義與分類, 設計了自主決策的流 程;應用分層研究思想提出一種自主決策框架, 并根 據通信結構定義不同的決策模式;結合多種技術途徑 對無人機集群自主決策建模的體系結構和求解框架 進行了分析和探討.

付費5元查看完整內容

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容
北京阿比特科技有限公司