亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

無人機在軍事上的應用越來越廣泛和深入,尤其是無人機集群在協同探測、全域打擊、戰術騙擾等作戰任務中,發揮著越來越重要作用,可靠高效的無人機集群博弈方法是當前的研究熱點。本文將反事實基線思想引入到無人機集群對抗博弈環境,提出面向多無人機場景的反事實多智能體策略梯度(Counterfactual multi-agent policy gradients, COMA)博弈方法;在具有連續無限狀態、動作的無人機作戰環境中,構建基于多智能體深度強化學習的無人機集群對抗博弈模型。利用多智能體粒子群環境(Multi-agent particle environment, MPE)對紅藍雙方無人機集群進行非對稱性對抗實驗,實驗結果表明COMA方法在平均累積獎勵、平均命中率和平均勝率方面均優于目前流行的深度強化學習方法。最后,通過對COMA方法的收斂性和穩定性的深入分析,保證了COMA方法在無人機集群對抗博弈任務上的實用性和魯棒性。

無人機 (Unmanned aerial vehicle, UAV) 集群是由若干配備多種任務載荷的低成本小型無人機 組成的無人化作戰系統,通過自主學習共同完成特定復雜作戰任務. 作為典型的多智能體系統,無 人機集群以難防御、強進攻、低成本、自主學習,使用靈活等優勢深刻改變著現代戰爭模式 [1~4].隨著無人機智能化水平的提高和集群控制技術的飛速發展,無人機集群對抗自主決策方法將成為未 來無人機作戰的關鍵技術. 解決無人機集群對抗自主決策問題的一種思路是利用進化方法,進化方法是一類受生物進化理 論啟發而形成的計算方法,常用于解決優化、搜索和對抗等問題,其核心思想是通過模擬生物進化 的過程,找到問題的最優或次優解. John Kaneshige 等 [5] 使用人工免疫機制解決空戰機動選擇問 題,將敵機視為抗原,通過相對位置速度表征,將機動動作視為抗體,利用遺傳算法和進化算法模 仿免疫系統對應抗原的自適應能力,這種機制使得智能體具有較強的記憶能力,能記錄過往成功的 經驗以在相似場景下快速響應. Duan 等 [6] 提出了一種基于捕食者-獵物粒子群優化 (Predator-prey particle swarm optimization,PP-PSO) 的博弈方法,將多無人機作戰任務建模為雙人博弈,并通過 PP-PSO 方法來解決. 周文卿等 [7] 針對多無人機協同飛抵作戰空域完成作戰任務的問題進行了建 模,利用蟻群算法和所提的多無人機控制算法進行仿真實驗,實驗表明該算法能有效提升無人機集 群空戰獲勝率. Isler 等 [8] 將隨機策略與獅子追捕策略結合,研究了兩個追蹤者對一個高速運動逃 跑者的協同追捕算法,在簡單連通多邊形環境中驗證了所提算法的有效性. Chen 等 [9] 利用模糊規 則對多無人機空戰問題進行離散化,并采用粒子群優化方法求解納什均衡,該方法解決了協同博弈 問題,模擬結果呈現了該方法的可行性和有效性. 然而,用進化方法解決博弈問題需要固定一個策 略并且和對手博弈多次,或者與對手的仿真模型進行大量模擬博弈. 盡管獲勝頻率作為該策略獲勝 概率的無偏估計,可用于指導下一輪策略選擇,然而每一次策略的調整都源于多次博弈. 僅有每一 輪比賽的最終結果會被納入考慮,而博弈過程中的中間事件將被忽略. 如果對抗獲勝,就會認為這 次對抗中所有的動作都有功勞,而與每一步具體動作有多關鍵無關. 這些功勞甚至會被分配給那些 從未出現的動作. 因此,進化方法在面對多智能體長時間持續性對抗任務時能力略顯不足. 解決無人機集群對抗自主決策問題的另一種思路是利用強化學習方法 [10]. 強化學習是一種對 目標導向與決策問題進行理解并自動化處理的計算方法,它常用馬爾可夫決策過程建立數學模型, 已在解決智能決策方面體現出不俗能力和良好發展態勢,特別是在復雜動態博弈環境中. 強化學習 在智能體和環境交互的靈活性方面具備天然優勢 [11]. 強化學習利用智能體與環境的直接交互來學 習,不需要可仿效的監督信號和對周圍環境的完全建模,在解決持續性復雜決策任務時有較大優勢. 多智能體強化學習是強化學習的一個分支,其研究多個智能體在共享環境中相互作用,并通過智能 體的學習來實現其目標. 無人機集群屬于典型的多智能體系統,與單智能體強化學習相比,多智能 體強化學習的復雜度更高、更難以訓練:一方面隨著智能體數量的增加,相應的策略空間呈指數級 增加,其難度遠超圍棋等棋類游戲;另一方面隨著異構智能體的加入,多智能體間需要更高效和可 靠的通信、協作和配合. 近年來,隨著 AlphaGo [12]、AlphaGo Zero [13]、AlphaZero [14]、AlphaStar [15]、AlphaFold [16] 等深度強化學習 (Deep reinforcement learning, DRL) 方法的出現,深度強化學習已成為一個熱門 的研究方向. Deepmind 提出了基于值方法的深度 Q 網絡 (Deep Q-networks, DQN) [17],率先將 深度神經網絡與 Q-Learning 相結合,為深度強化學習的發展奠定了堅實基礎. 隨后產生了許多基于 DQN 的變種,如 Dueling DQN [18]、Double DQN [19] 等,并獲得了更好性能. 針對無人機集群博弈的復雜性和強化學習自身特點,一些學者應用強化學習對無人機集群博弈 進行了研究. Gong 等 [20] 針對多無人機協同空戰問題,建立了多無人機空戰環境. 提出了一種基于 網絡化分散的部分可觀測馬爾可夫決策過程 (NDec-POMDP) 的空戰協同策略框架,仿真結果驗證了所提協同空戰決策框架的可行性和有效性. 陳燦等 [21] 基于多智能體強化學習理論,建立多無人 機協同攻防演化模型,提出一種多無人機協同攻防自主決策方法,提高了多無人機攻防對抗的效能. Li 等 [22] 基于強化學習的演員-評論家框架,在無人機的演員網絡中引入門循環單元,使得無人機 能根據歷史決策信息做出合理決策,采用注意力機制來設計集中式的評論家網絡,并在無人機集群 空戰場景中對算法進行了驗證. Zhang 等 [23] 提出了一種基于注意力機制的深度強化學習分布式方 法,該方法設計了可用于無人機協作短程作戰任務的獎勵函數,并采用 Unity3D 無人機仿真平臺進 行了訓練. 但是,在多智能體強化學習環境中,如果團隊內部共同完成一個任務,則智能體會共享一個獎 勵函數,從而帶來多智能體的信用分配問題,即無法區分團隊中某個智能體的策略對整個團隊任務 的貢獻. 如果不考慮信用分配問題,則可能導致智能體學到的策略是局部最優 [24]. 雖然可以為每 個智能體設計單獨的獎勵函數,但這些單獨的獎勵在合作環境中并不普遍存在,也不能鼓勵單個智 能體為更大的團隊利益犧牲,這將在很大程度上阻礙多智能體在挑戰性任務中的學習效率. Foerster 等 [25] 提出了反事實多智能體策略梯度 (Counterfactual multi-agent policy gradient, COMA) 方法, 該方法利用反事實基線來減少估計方差,并解決了多智能體信用分配問題. 事實上,在無人機集群對抗博弈中,無人機集群內部往往需要協調和配合,以提高整體任務完 成率. 如何最大化無人機之間的協同,對信用進行合理分配,以獲得最優的無人機行為策略,仍是當 前需要面對的主要挑戰. 本文將 COMA 方法引入到具有無限連續狀態和動作的無人機作戰環境中, 基于無人機動力學和攻防態勢,設計符合實際環境的擊敵條件和獎勵函數,構建基于多智能體深度 強化學習的無人機集群對抗博弈模型. 紅藍雙方無人機采取不同的對抗博弈方法,利用多智能體粒 子群環境進行非對稱性對抗實驗,使用平均累積獎勵、平均命中率和平均勝率作為評價指標. 結果 表明平均累積獎勵能夠收斂到納什均衡,COMA 方法比其它流行的深度強化學習方法更具優越性, 對 COMA 方法收斂性和穩定性的驗證分析保證了其在無人機集群對抗任務上的實用性和魯棒性.

付費5元查看完整內容

相關內容

針對陸戰對抗中智能體狀態動作空間復雜和行為模式固定的問題, 提出任務分層架構下的博弈策略生成方法. 使用策略 式博弈模型對陸戰對抗問題進行分析建模, 給出智能體任務執行中的收益矩陣構建方法, 并通過求解混合策略, 使智能體行為同 時具有合理性和多樣性. 以陸軍戰術對抗兵棋推演為平臺進行測試, 實驗證明智能體策略可解釋性強, 行為模式多樣, 在與 AI 和 人類選手對抗時都具有較高的勝率. 智能體是人工智能的一個基本術語, 廣義的智 能體包括人類、機器人、軟件程序等[1] . 狹義的智能 體是能感知環境, 根據環境變化作出合理判斷和行 動, 從而實現某些目標的計算機程序. 從感知序列集 合到執行動作集合的映射也稱為智能體的策略[2] . 智 能體策略的研究對實現無人系統自主能力[3]和人機混 合智能[4]具有重要意義. 決策指根據一定目標選擇備選方案或動作的過 程. 傳統使用腳本規則[5]、有限狀態機[6]、行為樹[7]等 方法進行智能體決策行為建模, 決策模型對應了智 能體的策略. 這類智能體的策略具有較強的可解釋 性, 但是其需要大量的領域專家知識. 另一方面上述 智能體通常使用基于專家知識的純策略, 其行為模 式是固定的, 在復雜對抗場景中存在適應性不強和 靈活度不夠的問題. 近年, 深度強化學習成為智能體 策略生成的重要方法, 在 Atari 游戲[8]、圍棋[9-11]、德 州撲克[12]、無人駕駛[13]等領域取得了突破進展, 部分 場景中已經達到或超越了人類專家水平. 然而基于 強化學習的智能體在更為復雜的場景中面臨著感知 狀態空間巨大、獎勵稀疏、長程決策動作組合空間 爆炸等難題[14] . 戰爭對抗作為一種復雜對抗場景, 一直是智能 體策略生成研究的重點, 并越來越受到關注[15-17] , 但 當前研究還缺少實質性的進展, 特別是在人機對抗 中[18] , 人類對手策略變化造成的環境非靜態性會使智 能體顯得呆板、缺少應變能力. 針對陸軍戰術級對抗場景中智能體狀態動作空 間復雜和行為模式固定的問題, 以中科院“廟算·智勝 即時策略人機對抗平臺”陸軍戰術對抗兵棋(以下簡 稱“廟算”陸戰對抗兵棋)為實驗平臺, 提出了基于博 弈混合策略的智能體對抗策略生成方法. 本文工作 主要有 3 個方面: 1)對陸戰對抗中實體動作進行抽象、分層, 建 立智能體任務分層框架, 降低問題求解的復雜度. 2)對陸戰對抗實體任務中關鍵要素進行分析, 構建對抗問題博弈模型, 并給出收益矩陣的計算 方法. 3)給出陸戰對抗兵棋推演場景中智能體混合策略均衡的求解方法, 對本文所提方法的可行性進行 了驗證.

付費5元查看完整內容

在目標檢測技術的驅動下,被賦予智能感知能力的無人機得以實現高效靈活的數據收集能力。隨著無人機 的普及與智能技術的成熟,無人機視角下的目標檢測在諸多領域中作為關鍵核心技術,具有重要的研究意義。為了 進一步促進無人機視角下目標檢測研究的發展,本文對無人機視角下的目標檢測算法進行了全面的總結,并對已有 算法進行了歸類、分析和比較。首先,介紹無人機視角下的目標檢測概念,并總結了無人機視角下目標檢測所面臨 的目標尺度、空間分布、樣本數量、類別語義以及優化目標等五大不均衡挑戰。**在介紹現有研究方法的基礎上,本 文特別整理并介紹了無人機視角下目標檢測算法在交通監控、電力巡檢、作物分析和災害救援等實際場景中的應用。**然后,重點闡述從數據增強策略、多尺度特征融合、區域聚焦策略、多任務學習、以及模型輕量化等方面來提升無 人機視角下目標檢測性能的方法,總結這些方法的優缺點并分析了其與現存挑戰之間的關聯性。之后,全面介紹基 于無人機視角的目標檢測數據集,并呈現已有算法在兩個較為常用的公共數據集上的性能評估。最后本文對無人機 視角下目標檢測技術的未來發展方向進行了展望。

0. 引言

計算機視覺技術為無人機賦予了自主感知、分 析和決策能力,而目標檢測則是提高無人機感知能 力的關鍵技術之一。無人機結合智能目標檢測技術 可充分發揮其高機動性優勢,在廣闊的空中視野中 定位感興趣目標,進而實現靈活高效的數據收集能 力。在目標檢測技術的驅動下,無人機在交通監控 (Byun 等,2021)、電力巡檢(Abdelfattah 等, 2020)、作物分析(Osco 等,2021a)和災害救援 (Bo?i?-?tuli? 等,2019)等多個領域中展現出廣闊 的應用前景。例如在交通監控領域,無人機可以空 中飛行進行偵測,不受道路限制,具有速度快、自 由度高、視野寬廣等優點。當交通事故等突發事件 發生時,無人機可以第一時間進行響應,到達現場 進行圖像采集與分析,為應急救援與管理提供及時 有效的數據支撐。在深度學習的驅動下,目標檢測 技術獲得了長足的發展,取得了諸多令人矚目的成 就。然而,大多數研究聚焦于地面視頻監控圖像的 分析,面向無人機視角圖像的目標檢測還未得到充 分的研究。目前,即使是最好的目標檢測算法,在 無人機圖像上的平均精確率也難以達到40%(Cao 等,2021)。

**無人機視角下的目標檢測之所以難,其主要原 因在于無人機圖像存在尺度變化、疏密分布、目標 數量較多且小目標占比較高等問題,特別是無人機 高分辨率圖像高計算需求與現階段低功耗芯片有 限算力之間的矛盾難以平衡。**相對于地面視角拍攝 的自然圖像,無人機視角下的廣闊視場意味著更為 復雜的場景和更加多樣的目標,在提供更為豐富的 可視化信息的同時,也帶來了更多無用噪聲的干擾。特別是無人機視角下,圖像中的目標往往因遠端拍 攝、背景遮擋或光照影響等因素檢測難度較大,需 要使用高分辨率圖像提供更多的信息以達到較好 的檢測效果。這極大地增加了目標檢測算法的計算 開銷與內存需求,特別是直接使用未經過特殊設計 的通用目標檢測算法將帶來難以承受的計算開銷 與內存需求,進一步加劇了目標檢測的難度。在實 際應用場景中,往往面臨著類似于識別車輛種類這 種細粒度分類的問題,這些相似目標給模型正確識 別目標帶來了巨大的挑戰。此外,受限于現實世界 中的目標數量,無人機視角下某些類別的樣本數量 往往極為有限,這種數據不均衡的狀況也對模型的 學習能力提出了更高的要求。因此,緊密地結合智能目標檢測技術,針對無 人機圖像的特性設計行之有效的方法,促使模型學 習理解無人機視角下的視覺數據,對于無人機在實 際場景中充分發揮其效用是至關重要的。無人機視 角下的目標檢測在應用廣泛的同時面臨著諸多挑 戰,具有深刻的現實意義與重要的研究意義。對無 人機視角下的目標檢測展開研究將有助于推動目 標檢測領域的進一步發展,增強目標檢測在面對真 實場景時的應用能力。

目標檢測作為計算機視覺領域的基礎研究,已 有學者對此進行研究與總結,并發表許多優秀的綜 述。Zou等人(2019)梳理了400多篇關于目標檢測 技術發展的論文,系統而全面地展現了目標檢測領 域。Oksuz等人(2020)則從目標檢測中存在的類別 不平衡、尺度不平衡、空間不平衡以及優化目標不 平衡等四大不平衡問題出發,對現有的目標檢測算 法進行了深入的總結。Chen等人(2020)則從小目 標四大基礎方法的角度出發,總結并分析了小目標 檢測的相關優化思路。曹家樂等人(2022)回顧并 總結了基于單目相機的視覺目標檢測方法,并對比 介紹了單目目標檢測和雙目目標檢測的國內外研 究進展情況。然而,以上綜述對于無人機視角下目 標檢測的關注不夠,未能系統地梳理無人機視角下 的目標檢測方法和面臨的挑戰。 **聚焦到無人機視角下的目標檢測,Mittal等人 (2020)關注低空無人機數據集,評估并總結了當 前流行的目標檢測算法,但是局限于簡單的性能對 比,沒有深入的總結分析。**Sambolek等人(2020) 介紹了在搜索和救援行動中使用無人機的可能性, 并提供了在無人機圖像中檢測相關人員的方法概 述。Srivastava等人(2021)則關注無人機圖像的車 輛檢測,從提高精度和減少計算開銷兩個方面回顧 了這些工作。Bouguettaya等人(2021)則關注于無 人機視角下的車輛檢測應用,總結并介紹了多種網 絡結構對于改善車輛檢測的貢獻。江波等人(2021) 對常見的航空影像數據集進行了梳理,并對近期的 無人機目標檢測研究進行了歸納和分析。楊浩然等 人(2022a)則對目標檢測相關算法進行了簡單的優 缺點分析。然而,這些綜述對于無人機視角下面臨 的挑戰總結不夠系統,算法方面的趨勢總結較為薄 弱,而且對于目標檢測算法的實際應用闡述也較少。

與以往關注通用領域的目標檢測綜述或僅關 注于無人機相關的特定應用場景下的綜述不同,**本 文著重于對無人機視角下的目標檢測這一意義重大且極具挑戰性的研究領域進行系統且深入的分 析與總結。**本文首先簡要闡述無人機視角下目標檢 測的重要研究意義,然后將對無人機視角下目標檢 測領域中存在的挑戰進行系統的歸納和總結,隨之 將介紹并分析無人機視角下的目標檢測優化思路, 包括數據增強、多尺度特征融合、區域聚焦策略、 多任務學習、模型輕量化以及其他優化策略等。本 文將特別展示無人機視角下目標檢測算法的應用, 闡明該研究的實際意義。此外,本文將介紹無人機 視角下適用于檢測任務的相關數據集,并在常用的 數據集上分析對比現有算法的檢測性能。最后,對 本文內容進行簡要的總結,并討論無人機視角下的 目標檢測未來可能的研究方向和發展趨勢。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容
北京阿比特科技有限公司