亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本研究探討超視距(BVR)環境下的2v2空戰機動問題(ACMP)。通過構建離散時間、無限視野的馬爾可夫決策過程(MDP)模型對BVR-ACMP進行建模,旨在為雙機協同的自主飛行器確定執行戰術機動與火力決策的高質量策略。高級仿真、集成與建模框架(AFSIM)被用于表征復雜的六自由度(6-DOF)飛行器動態,涵蓋運動學、傳感器與武器系統特性。鑒于狀態與決策變量的高維度和連續性特征,研究采用深度強化學習(RL)解決方法,通過神經網絡(NN)實現價值函數近似。研究內容包括設計中立初始狀態場景用于訓練,并評估對抗行為與導彈特性對決策策略的影響。通過三階段超參數調優實驗獲取高質量策略,并開展多案例研究驗證深度RL方法在空戰行為建模中的有效性,論證了該方法為基于AFSIM的空戰仿真研究生成飛行器行為模型的可行性。

人工智能(AI)方法論的持續發展,包括強化學習(RL)的進步,對全球軍事力量而言既是復雜化的挑戰,也是戰略機遇。2022年美國《國家國防戰略》明確指出AI技術進步帶來的復雜性,強調美國對手可能引入復雜的升級動態,并對美國戰略穩定性構成新型挑戰。尤其是受這些技術飛躍推動的自主系統廣泛擴散,使軍事力量面臨來自非國家行為體與政府實體通過技術削弱其優勢的潛在脆弱性。針對這些已識別的威脅,美國空軍(USAF)認識到AI在增強自身能力、決策流程與作戰效能方面的潛力。隨著聯合部隊作戰日益依賴數據驅動技術,美國國防部(DoD)計劃實施機構改革,通過提供競爭性激勵與更靈活的任務分配來強化AI研發。此外,推動強化學習領域的國內進展可為美國空軍的一項核心任務——獲取對對手的空中優勢——提供支持力量。自主載具系統領域,尤其是空中領域的自主系統,對美國空軍具有重大戰略意義。隨著該研究領域的技術突破,美國軍方必須正視AI對實現空中優勢的潛在威脅與利益。

美國空軍正與國防高級研究計劃局(DARPA)合作推進自主無人戰斗飛行器(AUCAVs)領域的技術發展。DARPA“空戰演進”(ACE)項目下開發的AI算法已成功完成概念驗證,展示了AI指揮全尺寸戰斗機并在模擬視距內(WVR)環境中超越經驗豐富的F-16戰斗機飛行員的能力。然而,在視距內學習算法取得進展的同時,雷達制導導彈的進步使得從超視距(BVR)發起攻擊成為可能,為空戰策略帶來了新挑戰。

超視距(BVR)空戰的起源可追溯至第二次世界大戰后,其標志性事件是1946年美國海軍研發的AIM-7“麻雀”導彈的問世。在冷戰的緊張態勢中,蘇聯轟炸機或戰斗機可能配備新興BVR導彈技術被視為對美國國家安全利益的重大威脅。盡管這一威脅從未真正實現,但隨著冷戰接近尾聲,戰斗機領域先進機動性與導彈技術的融合顯著推動了BVR空戰活動的發展。與受光照條件、目標尺寸、視覺敏銳度及目標方位等因素高度影響的視距內空對空(A2A)作戰不同,現代BVR空戰的機制主要圍繞遠程制導導彈的使用展開。在實際作戰場景中,配備先進雷達系統的技術優勢戰斗機通過此類高精度遠程導彈實現對敵機的壓制。BVR空戰的性質帶來了獨特挑戰:由于缺乏成熟的戰斗機戰術與敵我識別(IFF)技術,飛行員常面臨有效運用此類武器的局限性。為解決這些難題,基于強化學習(RL)的人工智能方法有望突破這些限制,提升美國空軍(USAF)及其作戰人員在BVR場景下的能力。

自主載具訓練的傳統策略通常采用基于規則的邏輯,即自主智能體根據預定義標準做出決策。然而,該方法已被證明易受挫敗,且無法為此復雜問題提供新穎的智能解決方案。針對基于規則邏輯的局限性,強化學習(RL)提供了一種解決途徑,其核心在于考慮目標導向型智能體在不確定環境中的整體交互問題。RL具備運用先進搜索技術的能力,例如AlphaZero算法在象棋等復雜游戲中實現超越人類水平的性能即為明證。空對空作戰固有的復雜性與不確定性要求開發獨特且具有挑戰性的戰略方法。

強化學習已展現出為這一多維度問題設計制勝策略的能力,泰勒(Taylor)、波普(Pope)等人、麥格魯(McGrew)等人、樸(Piao)等人以及克倫帕克(Crumpacker)等人早期的研究均對此進行了驗證。麥格魯等人開創性地采用基于模型的方法解決空戰機動問題(ACMP),為后續ACMP的無模型研究奠定了基礎。在麥格魯等人工作的基礎上,樸等人提出了一種端到端的基于RL的競爭性空戰智能體訓練方法。泰勒則致力于以獨特方法填補超視距空戰機動問題(BVR-ACMP)研究領域的空白,其利用Q-Learning對1v1 BVR作戰場景中的自主無人戰斗飛行器(AUCAV)進行建模,以優化其作戰機動與武器運用能力。

本研究主要擴展泰勒(Taylor)的研究成果,旨在設計與評估一種基于強化學習(RL)的方法,以解決雙機對抗(2v2)超視距空戰機動問題(BVR-ACMP),并通過概念驗證填補文獻空白——該驗證不僅評估潛在新型武器能力,還探索兩架自主無人戰斗飛行器(AUCAV)因交互與通信產生的涌現行為。本研究通過多種通信方案及其實施路徑的探究,確定雙AUCAV在空戰中高效協同與通信的最優模式。

本研究將2v2 BVR-ACMP概念化為馬爾可夫決策過程(MDP)。求解MDP需要在既定策略集中識別出能夠優化該MDP對應準則的最優策略。泰勒的研究聚焦于1v1場景,其模型負責控制一架飛行器相對于被稱為敵機的對抗目標進行定位。本研究中引入的2v2場景顯著增加了環境模型的復雜性。為模擬真實戰場條件,研究在概念驗證中引入第二架敵機實施監視,要求每個智能體在機動過程中追蹤三架飛行器。除了每個智能體需追蹤敵我雙方戰斗機的復雜性外,友方戰斗機之間還需一定程度的協同合作,以在空戰中實現最優結果。這種合作體現為友方戰斗機在機動與導彈部署方面的戰略協調,從而有效壓制敵方編隊。

為應對2v2 BVR-ACMP帶來的更高復雜度,本研究采用深度Q學習(DQN)算法的能力。DQN作為Q學習算法的進階版本,通過神經網絡優化長期累積獎勵。研究中使用的RL方法依托政府所有的C++仿真框架——高級仿真、集成與建模框架(AFSIM)構建空戰環境。AFSIM專為開發與實施交戰級、任務級分析仿真及虛擬實驗設計,具備空戰戰術建模、武器運動學模擬與傳感器系統仿真的能力。作為研究的基礎平臺,AFSIM支持RL解決方案的實現,并協助生成效能指標(MOE)。這些指標(如任務成功率(友方成功交戰次數)與交戰時長)為評估RL算法性能提供了量化依據。

本研究的剩余章節分為四部分,分別聚焦2v2 BVR-ACMP的不同維度。第二章系統綜述現有BVR-ACMP相關文獻,深入解析1v1 BVR-ACMP并探討其他潛在解決方案。第三章闡述本研究針對2v2 BVR-ACMP的RL方法,詳細解釋構建的模型框架。第四章展示模型運行結果及基于AFSIM環境生成的效能指標。第五章總結研究成果,提出未來研究方向,并給出2v2 BVR-ACMP研究的最終結論。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本研究提出分層多智能體強化學習框架,用于分析異構智能體參與的仿真空戰場景,旨在通過預設模擬識別促成任務成功的有效行動方案(CoA),從而低成本、低風險探索現實防務場景。在此背景下應用深度強化學習面臨特定挑戰,包括復雜飛行動力學、多智能體系統狀態與動作空間指數級擴展,以及實時單元控制與前瞻規劃融合能力。為解決這些問題,決策過程被分解為雙層抽象:底層策略控制單個單元,高層指揮官策略發布與總體任務目標匹配的宏觀指令。該分層結構通過利用智能體策略對稱性及控制與指揮任務分離,顯著優化訓練流程。底層策略通過漸進復雜度的課程學習訓練單兵作戰控制能力,高層指揮官則在預訓練控制策略基礎上學習任務目標分配。實證驗證證實了該框架的優越性。

本研究探索深度強化學習(RL)作為低成本、低風險空戰場景模擬分析方法的可行性。RL在各類環境中展現的行動方案發現能力構成研究動機,涵蓋棋類博弈[1]、街機游戲實時控制[2]以及現代兵棋推演[3]等融合控制與戰略決策的場景。空戰場景中應用RL存在多重挑戰:仿真場景結構特性(如單元復雜飛行動力學、聯合狀態動作空間規模)、規劃深度、隨機性與信息不完備性等。戰略博弈與防務場景的決策樹(即潛在行動方案集合)規模遠超常規搜索能力邊界。此外,現實作戰需同步協調單元機動與戰略布局及全局任務規劃,整合部隊層級實時控制與指揮官層級任務規劃的聯合訓練極具挑戰性,因二者對系統需求、算法架構及訓練配置存在本質差異。

為應對挑戰并復現現實防務行動,本研究構建分層多智能體強化學習(MARL)框架分析異構智能體空戰仿真場景。該方法將決策過程解耦為雙層結構:底層策略負責單元實時控制,高層策略依據全局任務目標生成宏觀指令。底層策略通過預設場景(如攻擊/規避)訓練,場景目標由指令標識符標記。為增強魯棒性與學習效率,采用漸進復雜度場景課程學習與聯盟自博弈機制。高層策略學習基于動態任務目標為下屬智能體分配合適標識符。戰略規劃權責上移至高層指揮官,底層執行單元自主完成控制任務。該架構通過底層策略對稱性利用與信息流定向傳輸,大幅簡化策略訓練過程,并實現控制與指揮的清晰分離,支持任務定制化訓練方案。

本研究核心貢獻包括:(1)開發輕量化環境平臺,快速模擬智能體核心動力學與交互行為。通過固定飛行高度將運動約束至2D空間,仍能精確捕捉智能體交互與機動特征。(2)采用課程學習虛構自博弈機制,通過漸進復雜度提升作戰效能。(3)設計集成注意力機制、循環單元與參數共享的神經網絡架構,聯合訓練底層控制策略與高層指揮官策略。(4)針對深度學習系統黑箱特性與科學評估風險,通過分層組件解析實現決策可解釋性。

第2節綜述前沿進展并闡明本研究對現有文獻的拓展;第3節介紹飛行器模擬器基礎特性與MARL原理;第4節闡述空戰對抗場景及訓練流程;第5節呈現實驗結果;第6節討論結論與未來研究方向。

付費5元查看完整內容

在對抗性空域環境中,決策者間的安全協調至關重要。盡管美國國防部(DoD)將人工智能僚機(AI wingmen)開發列為空戰優先事項,但目前缺乏在同一環境中設計人機僚機間安全、整體協調的方法論。本論文提出一種框架,采用系統理論過程分析協調擴展(STPA-Coord)方法,分析并設計空優任務中忠誠僚機(Loyal Wingman)概念的整體協調機制。STPA-Coord是一種基于系統理論的安全與危害分析流程,用于在系統之系統架構中分析與設計決策者間的協調關系。通過該框架,本研究識別出290個損失場景與因果因素,最終提煉出83項適用于忠誠僚機架構的設計考量。

此外,本研究采用基于模型的系統工程(MBSE)方法,運用風險分析與評估建模語言(RAAML)實施STPA-Coord分析。論文建議修改SysML的RAAML指導規范,以優化SysML中STPA文檔的生成,并適配STPA的協調擴展特性。研究結果揭示了相較于傳統基于文檔的方法論,采用基于模型的方法執行STPA-Coord分析的優勢,并量化了在SysML中實施STPA-Coord所需的時間成本。

對工程知識的貢獻包括:

  1. ?用于分析并設計忠誠僚機概念安全協調的STPA-Coord框架。已有研究強調空戰環境中人機僚機安全協調的重要性(Dantas等,2021;de Lima Filho等,2021;Floyd等,2017;Hobbs等,2022;Li等,2022;Ma等,2020),但設計安全協調的方法論稀缺。本研究的忠誠僚機STPA-Coord框架具備系統無關性,不依賴戰術、技術與流程(TTPs),可隨對手與環境變化適配不同物理環境。該框架通過抽象化設計保持通用性,使任務工程、軟件開發、網絡安全等領域的專家均能將其應用于特定領域。據作者所知,這是首個為空戰環境中的忠誠僚機設計安全協調的框架。本研究還通過忠誠僚機用例分析驗證了該框架的實用性,最終提出83項適用于忠誠僚機架構的設計考量。

?2. 基于SysML的RAAML實施STPA-Coord分析的建議。隨著STPA與基于模型的系統工程(MBSE)在國防部的普及,工程實踐者需要一種有效方法利用SysML(國防部最主流的MBSE建模語言)完成復雜系統的STPA-Coord分析。這些建議符合國防部數字工程戰略中關于構建"權威真相源"(Department of Defense, 2018a)的目標,可提升分析效能并減少SysML建模時間,從而為國防部節約成本。

本論文后續結構如下:第二、三章包含基于本研究的待發表成果。第二章提出并描述用于空戰人工智能體安全協調設計的STPA-Coord框架。第三章展示通過SysML(而非傳統文檔方法)實施STPA-Coord的發現,并提出基于RAAML的STPA-Coord分析方法論。第二章回應研究問題1與2,第三章回應問題3與4。第四章總結研究目標、提出未來研究方向,并闡述對學術界與國防部的影響。附錄包含第二章未列出的補充STPA-Coord分析結果。

付費5元查看完整內容

由于全球定位系統在室內容易受到干擾和失去覆蓋范圍,因此在全球定位系統缺失的環境中進行可靠導航仍然是自主無人系統面臨的一項挑戰。本研究通過將卷積神經網絡(CNN)與視覺傳感器集成,研究如何在不依賴 GPS 的情況下實現實時姿態估計,從而解決無人地面車輛(UGV)面臨的這一挑戰。針對位置和航向估算實施了雙 CNN 架構,并在具有相應姿態的大量圖像數據集上進行了訓練。通過與改進的勢場算法集成,實現了周期性漂移估計和校正。其中一個主要貢獻是用于漂移校正的世界表示調整方法,該方法可根據 CNN 估計值動態調整航點位置。利用這種方法,在受控環境中實現了連續多圈的成功導航,大大提高了沒有漂移校正的基線性能。這項研究的結果表明,通過這種方法可以大大降低自主導航系統對全球定位系統的依賴性,從而有可能提高無人系統對電子戰戰術的應變能力,使其能夠在有爭議的環境中持續運行。

美海軍部(DON)無人作戰框架強調了海軍部 “投資于先進自主和無人系統 ”的承諾。隨著這些技術的進步和實施,無人系統對可靠定位能力的依賴程度也在增加。然而,在干擾和欺騙等電子攻擊成為普遍威脅的有爭議環境中,期望全球定位系統(GPS)成為可靠的定位手段變得不那么可行。此外,在室內環境或衛星能見度有限的區域工作時,GPS 的可靠性也會降低。隨著無人駕駛系統的使用日益增多,在 GPS 無法使用或不可靠的情況下,有必要提供替代解決方案。

隨著無人駕駛系統的分布越來越廣,相互連接越來越緊密,GPS 拒絕或欺騙所造成的脆弱性也隨之加劇。定位中的單點故障會產生連鎖效應,降低整個系統的能力并增加風險。因此,為自主輪式無人飛行器探索可靠、精確的導航技術至關重要,這種技術可在 GPS 信號被屏蔽的環境中有效運行,確保無人駕駛行動在有爭議的復雜場景中繼續取得成功。

這項研究旨在為在室內環境或 GPS 信號不可靠或不可用的地區運行的無人潛航器開發一種穩健的導航解決方案。該方法將利用兩個主要來源的數據:車輪編碼器和視覺傳感器。車輪編碼器數據將使用死算模型進行處理,而 CNN 將用于分析視覺傳感器數據。通過將這些技術相結合,該系統將實現無需 GPS 的同步自主導航。這種方法的一個關鍵方面是實時激活 CNN,CNN 可以解釋環境的獨特特征,并相應地引導 UGV。

這項研究的范圍包括利用深度學習技術為 UGV 開發無 GPS 定位和導航解決方案。將通過 P3-DX Pioneer 機器人系統在室內實驗室環境中使用模擬 UGV 進行廣泛的驗證和測試。不過,某些領域被認為不屬于本研究的范圍。其中包括路徑規劃算法的開發,因為車輛將使用現有的反應式自主方法。此外,除視覺數據外,也不會考慮探索其他傳感器模式。研究重點將不是在有移動障礙物的高動態環境中進行導航。預計面臨的主要技術挑戰是優化計算時間以實現實時性能、減少長時間漂移以及在激烈機動過程中保持定位精度。在項目限制條件下,將盡可能利用和調整現有技術和算法,以最大限度地提高魯棒性。

本論文共分五章,每一章都側重于研究的一個特定方面。第 2 章:“背景 ”通過介紹和解釋與論文工作相關的基本概念,為研究奠定了基礎。本章包括對該領域現有文獻的全面回顧,重點介紹了當前的技術,并指出了本研究要解決的差距。

第 3 章:“方法與實驗設計 ”介紹了論文工作中采用的方法和手段。它詳細描述了實驗中使用的硬件組件和實施的具體算法。本章還討論了實驗設置、數據收集過程以及用于評估所提解決方案性能的評價指標。

第 4 章:“結果與分析 ”主要評估本研究中開發的 CNN 的性能。本章介紹了獲得的實驗結果,并對結果進行了深入分析。本章還包括圖表等可視化內容,以支持對結果的解釋。本章討論了所提方法的優勢和局限性,并將結果與文獻中的現有方法進行了比較。

第 5 章:“結論與未來工作 ”總結了論文研究的主要發現和貢獻。本章強調了這項工作的意義及其對自主導航和定位領域的潛在影響。此外,本章還確定了未來的研究領域,并為進一步改進和擴展所提出的方法提供了建議。

最后,為簡潔起見,“UGV ”和 “機器人 ”這兩個術語在本論文中交替使用。

圖 3.8. 增強型數據存儲過程的可視化表示,這是 CNN 訓練的準備階段。這既減少了圖像所需的存儲空間,又為 CNN 訓練過程保持了適當的預期輸出響應。

付費5元查看完整內容

人工智能的最新進展為研究自主空對空作戰提供了機會。本研究考慮了一個單對單空戰機動問題(ACMP),其中友方自主飛機必須在超視距(BVR)環境中與敵方自主飛機交戰并擊敗敵方自主飛機。馬爾可夫決策過程描述了 BVR-ACMP 的特征,提供了一個數學建模框架,用于確定高質量的決策策略,使友方自主飛機能夠做出智能機動和導彈發射決策。高級仿真、集成和建模框架(AFSIM)對 BVR 空中格斗中使用的飛機的復雜和相互依存的操作進行建模,包括運動學以及傳感器和武器使用。BVR-ACMP 中的狀態和決策變量具有高維度和連續性的特點,因此無法使用精確的求解程序。相反,采用了強化學習(RL)求解程序,實施線性值函數近似方案來表示狀態-決策對的值。創建了一個具有代表性的中性起始狀態場景,用于訓練友好型自主飛行器和評估 RL 求解方法的性能。通過設計實驗來確定友機特性如何影響求解程序所獲得的策略。在評估各種飛機參數重要性的實驗中,進行了兩階段超參數調整實驗,以獲得超級策略。為了了解友機如何利用從 BVR-ACMP 文獻中獲得的固定策略擊敗敵機,考慮了幾個案例研究,并檢查了 RL 求解方法確定的高質量機動和射擊策略。結果驗證了在AFSIM中使用RL求解方法訓練自主飛機的可行性,并為未來研究人員利用AFSIM的建模能力研究更復雜的空戰場景提供了途徑。

技術進步和創新使現代軍隊的作戰能力不斷提高。美國軍方認識到,人工智能(AI)的發展為維持空中優勢帶來了越來越大的安全風險(Morgan 等人,2020 年)。美國空軍(USAF)的主要任務是空中優勢,即在友軍行動不受敵方干擾的情況下實現空中優勢(美國空軍部,2016 年)。人工智能的崛起為敵方戰斗人員以前所未有的方式破壞美國空軍的空中優勢目標提供了機會。Hoadley 和 Lucas(2018 年)指出,人工智能技術為軍事行動帶來了獨特的挑戰,因為絕大多數人工智能研究都發生在私營部門。因此,美國空軍已通過國防高級研究計劃局(DARPA)調查的倡議認識到,它必須在空對空作戰領域利用人工智能的進步。眾所周知的 F-16 飛機已經接受了人工智能方法的訓練,可以在測試試驗中自主飛行并執行各種任務(馬丁,2017 年)。

目前,一些國家正在對人工智能技術民主化后建立的半自動飛機進行飛行測試。Byrnes(2014)得出結論認為,這些自主飛機代表著空戰戰術新一天的到來。2015 年,美國前海軍部長表示,F-35 幾乎肯定會成為最后一種有人駕駛的戰斗機(LaGrone,2015)。通常情況下,飛機由人類飛行員在空中或通過無人機系統控制。由人類飛行員在空中控制的飛機面臨著基于人體機能的限制。不受人類飛行員限制的飛機有可能承受以前無法想象的機動動作(Halpern,2022 年)。美國國防部研究機構的 “空戰進化 ”項目計劃于 2024 年在四架由人工智能控制的飛機之間進行一次空對空實戰演習。盡管這些演習只是初步的,但如前所述,在不遠的將來,各國軍隊使用人工智能增強型飛機來對付敵人并非不可想象。

從第一次世界大戰到 20 世紀 50 年代中期,空對空作戰的形式是視距內(WVR)空戰,也稱為 “狗斗”。WVR 空戰要求飛行員操縱飛機部署火炮摧毀目標。20 世紀中期的武器發展包括紅外(IR)和雷達制導導彈。制導導彈的首次使用是在 1958 年 9 月(Stillion,2015 年)。這些導彈允許在超視距(BVR)環境下進行攻擊,在這種環境下,敵人可以被摧毀,而無需像在 WVR 環境下那樣機動到有利位置使用火炮。現在,BVR作戰占據了空對空交戰的大部分(Stillion,2015)。因此,美國空軍的當務之急是充分利用在飛機探測、傳感和空對空導彈(AAM)方面取得的技術進步,獲取并保持空中優勢。

過去,由于缺乏敵我識別(IFF)能力,BVR 技術的進步及其實施受到了限制。在 BVR 環境下,無法識別飛機是敵是友會讓飛行員猶豫不決(Stillion,2015 年)。IFF 技術不斷進步,使飛行員能夠在遠程 BVR 環境中辨別飛機是敵是友(Stillion,2015 年)。基于這一現代現實,Stillion(2015)預計空對空作戰將趨向于傳感器技術和遠程信息的較量,而不是飛機速度和機動性的較量,而速度和機動性在 WVR 空對空作戰環境中是非常可取的。

隨著傳感器技術的進步,為 BVR 空戰部署的反坦克導彈可使飛行員增加可能的摧毀射擊集,而不受 WVR 武器的限制。使用反坦克導彈的一個顯著特點是知道應在何時何地發射反坦克導彈以摧毀敵人。一個有用的概念是 “無逃逸區”,在這一區域內,無論是否有任何機動逃逸嘗試,導彈都有近乎確定的概率擊中敵方目標(Neuman,1988 年)。因此,人工智能方法可以發現人類飛行員過去可能沒有考慮或利用的信息,從而了解最佳的反坦克導彈發射時間。然而,人工智能的使用是雙向的。摩根等人(2020 年)指出,對手可以利用人工智能方法來顛覆部署人工智能技術的組織的目的。

此外,軍用人工智能對美軍構成了獨特的威脅,因為美軍并不壟斷該技術。美國國防部對《2022 年國防戰略》的總結肯定了這一現實,其中觀察到俄羅斯和中國等國家為在各自軍隊中利用人工智能進行了大量投資(United States Department of Defense, 2022)。因此,如果美國及其盟國希望在現代保持空中優勢,那么人工智能在國防領域的發展就必須繼續下去。

人工智能技術(或更具體地說,機器學習)性能的基礎是自主系統用于 “學習 ”的訓練經驗(Jordan and Mitchell, 2015)。訓練自主系統的一種方法是基于規則的邏輯,即在給定一組信息要素的情況下,自主智能體根據預先設定的選擇做出決策。一旦知道了智能體將要做出的舉動,這類人工智能就很容易被打敗。同樣,新的智能行為也不是通過簡單地將已知信息嵌入人工智能體內部就能獲得的。為了應對軍事領域自主系統所面臨的難題,人工智能需要提供新的信息,為用戶帶來優勢。

與基于規則的邏輯相比,更好的方法是用強化學習(RL)來訓練自主系統。強化學習是智能體發現哪些行為能給它們帶來最大回報的過程(Sutton 和 Barto,2018 年)。正如摩根等人(2020 年)所說明的,RL 非常適合復雜的游戲式場景,在這種場景中,學習智能體可以利用游戲環境的優勢來發現制勝策略。例如,RL 可以訓練計算機智能體在最復雜的活動中擊敗人類冠軍,如經典的圍棋游戲(Silver 等人,2016 年)。即便如此,這些擊敗冠軍的智能體也可能被另一個通過 RL 訓練的智能體利用對手的策略擊敗(Silver 等人,2017 年)。研究人員利用空對空作戰的博弈特性,使用博弈論對其進行建模(Austin 等人,1990 年)。由于空對空作戰非常適合建模,而 RL 已被證明能夠為決策者提供高質量的行動,因此在研究中使用 RL 是非常合適的。

因此,試圖模擬在一對一(1v1)BVR 戰斗中的自主無人戰斗飛行器(AUCAV),在這種戰斗中,AUCAV 做出機動和武器部署決策以擊敗對手飛機。采用 RL 技術優化 AUCAV 的能力,以生成這種智能體。制定了一個無限視距、貼現馬爾可夫決策過程(MDP)模型來模擬這一場景。馬爾可夫決策過程是一種順序決策模型,用于確定基于系統環境的最優決策(Puterman,2005 年)。順序決策問題可通過 RL Powell (2022) 求解。本研究采用無模型 RL 算法 Q-learning 來確定最佳決策策略。

RL 算法與仿真、集成和建模高級框架(AFSIM)(West 和 Birkmire,2020 年)相連接。AFSIM 為RL 智能體提供了訓練和獲得高質量解決方案的環境。在美國國防部,AFSIM 是標準的任務級仿真工具(Zhang 等人,2020 年)。由于它是面向對象和基于智能體的,AFSIM 為實施 RL 解決方案程序提供了理想的基礎,同時還包含了兩架競爭飛機的必要領域信息。利用 Python 編程語言來構建算法,并與 AFSIM 接口,以測試和訓練智能體。

本研究旨在填補 BVR 空中格斗場景 RL 解決方案方面的文獻空白。從 McGrew 等人(2010 年)開始,空戰機動問題(ACMP)被證明可以通過 ADP(即基于模型的 RL)求解。Yang等人(2019)、Wang等人(2020)、Pope等人(2021)和Crumpacker等人(2022)將McGrew等人(2010)的研究擴展到了高保真模型和不同的ADP求解程序。不過,McGrew 等人(2010 年)的研究以及他們的延伸研究考慮的是可視范圍內(WVR)的設置。貢獻包括采用無模型 RL 求解程序來解決 1v1 BVR-ACMP 問題,這在 ACMP 文獻中尚未成為研究對象。此外,還探討了不同環境問題特征的重要性,以及它們在使 AUCAV 戰勝敵方 AUCAV 方面的能力。

本論文的其余部分安排如下。第二章概述了與 ACMP、一般 AAM 和 AAM 控制相關的文獻、用于解決以前版本 ACMP 的求解程序,以及與無模型 RL 算法相關的文獻。第三章介紹了BVR-ACMP 和相應的 MDP 模型表述,以及用于為AUCAV 尋找高質量決策策略的 RL 求解程序。第四章介紹了用于訓練AUCAV 的計算實驗結果,同時還分析了AUCAV 在訓練過程中獲得的決策策略。第五章總結了研究,并提供了未來研究的潛在途徑。

付費5元查看完整內容

無人水面艦艇(USV)通常依靠全球定位系統(GPS)和射頻(RF)通信進行導航和多車協調。在戰時環境中,全球定位系統和無線電信號屏蔽對 USV 的有效導航和控制提出了挑戰。本論文研究了使用低成本人工智能(AI)立體相機作為傳感器,實現 USV 的無 GPS 和 RF 導航與協調。這些相機還可用于對水面船只進行分類和定位。我們使用安裝在多艘 Mokai USV 上的 OAK-D AI 攝像機進行了實驗。對神經網絡 (NN) 模型進行了訓練,以識別兩個對象類別:Mokai USV 和其他船只。利用開源 Python 庫,該模型被直接加載到攝像頭上,并集成到機器人操作系統 (ROS) 軟件中,以提取檢測到的物體的相對姿態信息。為了分析該模型的有效性,我們在未見過的視頻上以及使用 Mokai USV 和其他水面艦艇進行的現場實驗中對 NN 進行了測試。將攝像機估計的物體定位與在實驗室環境中通過物理驗證收集的物體地面實況位置進行了比較。最后,還探討了特定相機硬件和立體視覺在此應用中的局限性,以評估其進一步開發的可行性。

付費5元查看完整內容

該項目與美國軍事采購、海軍財務管理和海軍水面戰有關。研究了潛在的美國海軍水面艦艇電子戰(EW)和垂直發射導彈系統(VLS)的成本效益分析。目的是通過說明電子戰和導彈系統的能力和成本,為信息戰系統項目執行辦公室(PEO/IWS)和 OPNAV N96/N2N6 提供信息。研究了海軍系統對各種威脅導彈的有效性,采用了估計命中率(Pk)計算方法,包括指揮與控制、通信、探測、交戰和跟蹤等基礎傳感器。研究結果表明,電子戰系統,特別是 SLQ-32 (v)7,是威懾威脅導彈的最具成本效益的系統,因為與導彈系統,特別是 SM-6、SM-2 和 ESSM 相關的重新裝載成本很高。雖然 SLQ-32 是最具成本效益的系統,但冗余有必要性,不能完全忽視防御導彈系統。希望這項研究最終能幫助做出戰略決策,在不同級別的艦艇上長期部署武器。如果在電子戰防御系統上投入更多資金,理論上水面資產的裝載可以轉向更具進攻性的思維方式,同時仍然保持防御性導彈,以應對適用的威脅環境。

付費5元查看完整內容

當需要執行任務時,美國防部(DoD)通常會組織和整合整個企業的任務能力,作為一支聯合部隊開展行動,在任務完成后進行解散,并為下一次潛在任務做好準備。本論文介紹了一種組織結構和關聯映射工具,可用于這種偶發性聯合作戰任務能力的系統工程。作戰任務架構框架(OMAF)將聯合作戰能力的關鍵要素組織到一個直觀的框架中,引導系統工程師從這一關鍵角度出發。有了架構形式的作戰任務能力,企業架構方法就可以直接應用于作戰任務。作戰混合架構圖(OBAM)是一種整合機制。通過這種混合方法,作戰團體可以用自己的術語與系統工程師進行交流,而系統工程師則可以用自己的術語開展企業架構活動,這種關聯映射矩陣為交流提供了便利。OMAF/OBAM 使聯合作戰能力和系統開發所需的自上而下的系統工程工作得以實現。OMAF/OBAM 的累積效應為DoD能力開發企業架構提供了整合功能。沒有企業方法,DoD將繼續面臨提供 21 世紀聯合作戰能力的挑戰。

同時在多個作戰領域開展行動的聯合部隊,在世界各地開展行動。這些部隊通常是反應性的,由多個不同的企業(軍種、機構、伙伴國、非政府組織、私營企業)組成,以滿足預計的任務要求。派遣組織帶來其有機能力和系統、人力和文化要素,然后將這些要素組合成 "聯合 "能力,作為條令上的聯合部隊運作,在任務完成后解散,并為下一個潛在任務做好準備。這種 "偶發性 "的國防部(DoD)企業能力是通過 "基于知識的綜合企業 "方法發展和維持的(備戰和戰備),在參謀長聯席會議(CJCS)主席的聯合部隊發展(JFD)生命周期(CJCS 2013)下執行。

JFD 系統作為一個整體,"提供 "了聯合作戰能力中以知識為基礎的國防部組成部分,但并未與物資開發系統集成。聯合作戰并非系統工程,而是由現有的軍種能力組裝而成。雖然不能等待系統工程師獲得聯合經驗,或等待聯合指揮官和參謀人員成為系統工程師,或等待國防部企業修改其能力發展系統,但可以找到共同點。

美國防部國防采購系統(DAS)、聯合能力集成與開發系統(JCIDS)和國防部架構框架(DODAF)都支持集成架構的開發。這些流程可提供物理系統,但并不是為了提供這些系統所提供的作戰能力的可追溯性而設計的。考慮到這些流程的特定預期應用,當相關系統是偶發企業系統(負責利用偶發企業系統完成軍事目標的作戰任務式指揮)時,不可能確保按照這些流程開發的系統能滿足實際利益相關者的需求。本論文通過聯合作戰架構框架構造為能力開發提供了共同基礎,該框架是針對這些企業作戰能力和系統的偶發性質所面臨的獨特挑戰而量身定制的,充分利用了國防部對集成架構的重視。

與偶發性作戰系統(超出用于聯合作戰的傳統系統)相關的挑戰是獨特的。具體來說,永遠不可能兩次解決完全相同的問題,但也知道必須使用相同的系統解決許多類似的問題。因此,需要一種方法來做到這一點。本論文介紹了一種組織結構和關聯映射工具,可用于這種偶發聯合作戰任務能力(或稱偶發企業系統)的系統工程。這一類新的偶發系統具有時間性、過渡性、異步性和多任務性等特征,這些特征推動了系統的設計。

部署的系統能力是根據系統要求進行定義、管理、工程設計、開發和測試,隨后進行安排、測試和維持,以提供滿足驗證要求的能力。通常情況下,這些要求的定義過于寬泛,無法提供在復雜的 21 世紀作戰環境中獲得并保持優勢所必需的特定任務、偶發事件和作戰能力。本研究試圖通過以下方式在架構層面解決這一脫節問題:

1.通過組織結構正式確定 "作戰級能力 "的含義。

2.定義一個可應用于廣泛的企業能力,而非特定物理系統或特定作戰環境的架構框架。

3.定義企業架構關聯圖。

4.提供整合功能,創建國防部能力發展企業架構。

作戰任務架構框架(OMAF) 將聯合作戰能力的關鍵要素組織成一個直觀的框架,引導系統工程師從這一關鍵角度出發。有了架構形式的作戰任務能力,企業架構方法就可以直接應用于作戰任務。OMAF 的組織結構和設計并不是要取代國防部的任何或所有能力開發系統,而是要將它們整合起來,使聯合作戰能力的十個作戰要素的系統工程成為可能。

運行混合架構圖(OBAM)是一種整合機制。開發 OBAM 是為了使用美國防部的企業架構模型(DODAF)。這種混合方法允許作戰人員用自己的術語與系統工程師進行交流,而系統工程師則可以用自己的術語開展企業架構活動,這種關聯映射矩陣為交流提供了便利。由于聯合作戰能力是由根據 JCIDS 和 DAS 開發的系統和系統之系統(SoS)架構來支持的,因此應用現有的企業架構工具和流程可促進一種包容性和高效的企業方法。OMAF/OBAM 可為聯合作戰能力和 SoS 開發提供所需的自上而下的系統工程。

OMAF/OBAM 的累積效應還為美國防部能力開發企業架構提供了整合功能。沒有企業方法,國防部將繼續面臨提供 21 世紀聯合作戰能力的挑戰。

通過整合 JFD、DAS 和 JCIDS 流程,可以確定提供特定企業作戰級能力所需的物理系統(以及與使用這些系統相關的集成要求),并針對廣泛的作戰應用重復該流程。其核心思想是將聯合作戰的指導原則、作戰背景和作戰系統組織到一個可視化的參考架構框架中,以便開發偶發的企業系統并整合國防部的能力開發系統。

所有三個系統/文化/社區都在該框架中得到體現:聯合作戰指揮部聯合背景和基于知識的決策要素;DAS物資/系統能力;以及JCIDS作戰架構。這種混合方法為傳統的計劃/項目系統工程活動提供了聯合作戰層面的背景,也為國防部系統工程方法在聯合作戰層面的直接應用(偶發作戰能力)提供了背景。OMAF 旨在利用國防部企業(以及合作伙伴企業)的思想多樣性、多元文化視角和現有能力,而不是提供一個新的或另一個能力開發系統。

OMAF 使作戰任務利益相關者、參與者和能力提供者能夠實現統一行動(CJCS 2017, I-9),以實現作戰級任務能力。開發聯合作戰能力的國防部企業架構產生于 OMAF 的集成功能。這些系統在架構層面上的整合對企業的干擾最小,因為現有的授權/流程仍然存在。

除美國防部外,偶發能力的概念也適用于所有企業。所有企業都有能力利用現有的企業系統、流程和關系來應對獨特的挑戰,以實現預期成果,從而在瞬息萬變的 21 世紀技術環境中保持相關性。

付費5元查看完整內容

該項目為與使用無人系統支持分布式海戰(DMO)有關的作戰概念和系統設計決策提供信息。研究通過系統地改變仿真模型中的系統設計特征和作戰活動,支持對無人系統(UVC)進行能力級分析。分析結果表明,UVC 可提高各種無人系統的作戰可用性(Ao)和使用時間(TOS),因為它可隨時進入維護、加油和重新武裝設施,而無需長時間前往岸基設施或分布式支援艦艇。在比較使用 UVC 的配置與在自適應兵力包 (AFP) 中分配無人系統支持的配置時,單個無人系統的 Ao 提高了 6% 到 31%。仿真模型分析確定了 UVC 架構,其中包括至少 8 個無人機發射回收站、至少 3 個船舷托架和至少 5 個甲板井托架,以最大限度地提高 Ao。

在支持分布式海上作戰(DMO)時,無人系統有可能發揮兵力倍增器的作用,在提高殺傷力的同時降低有人系統的風險。然而,無人系統到岸基維護、加油和重新武裝設施的轉運時間減少了可用于支持執行 DMO 的自適應兵力包(AFP)的總體駐扎時間(TOS)。本項目研究了無人水面艦艇 (USV)、無人水下航行器 (UUV) 和無人機 (UAV) 在美國海軍現有艦艇上的集成問題,該艦艇已被重新改裝為無人載具 (UVC)。在本報告中,"UxV "一詞用于描述無人系統這一類別。

如 Van Bossuyt 等人(2019 年)所述,項目團隊采用了系統定義、系統建模和系統分析的通用系統工程流程序列。在系統定義過程中,項目團隊重點開發了作戰概念(CONOPS),并定義了 UVC 的系統要求。系統建模活動的重點是構建 UVC 的離散事件仿真模型。在系統分析階段,團隊利用所開發的模型來評估 UVC 的各種設計參數對每種無人系統類型的運行可用性(Ao)的影響。

A. 系統定義

在系統定義階段,從自上而下和自下而上的角度開發和考慮了 UVC 要求。從自上而下的角度來看,團隊分析并確定了滿足總體任務有效性目標所需的能力,而與任何現有的候選平臺無關。從自下而上的角度來看,團隊評估了一艘登陸直升機船塢(LHD)艦,以確定該平臺可實現的最大 UVC 能力。通過查閱文獻和分析利益相關者的需求,項目團隊確定了 UVC 的以下關鍵能力:指揮與控制 (C2)、UxV 發射、UxV 維護和 UxV 回收。根據設想,UVC 將包括著陸甲板無人機發射和回收站、無人機維護/布防/燃料艙、用于大型 USV/UUV 操作的船舷艙或站,以及用于小型 USV/UUV 操作的井甲板艙。

B. 系統建模

項目構想將 UVC 視為針對地面和岸上敵對兵力實施 DMO 的 AFP 的一部分。UVC 的作用是支持 UxV 對敵方岸基導彈基地進行偵察和打擊。在打擊階段之前、期間和之后,UxV 提供全天候的情報、監視和偵察(ISR)、目標定位和戰損評估服務。UVC 的總體目標是通過消除到岸基支持設施的較長運輸時間來增加 UxV 的全時服務時間。為實現這一總體目標,研究小組選擇 "航程 "和 "持續停留時間 "作為性能指標(MOP),并選擇 "UxV 任務時間"、"UxV 停機時間 "和 "維護灣利用率 "作為效果指標(MOE)。

設計并開發了一個離散事件仿真模型,用于分析 UVC 設計參數對 MOP 和 MOE 的影響。該模型是通過 ExtendSim10 建模程序開發的。該模型包括 UxV 發射和回收、UxV 維護活動以及 UxV 重新武裝和加油活動。UxV 的發射時間表和總模擬運行時間是根據擬議的 UVC CONOPS 制定的。目前,該模型并未考慮 UxV 的損失或故障;這是未來可能開展工作的一個領域。模型的主要輸出是每種 UxV 的 Ao。

C. 系統分析

為了廣泛探索實驗空間,同時減少試驗總數和模型運行時間,我們專門設計了一個填充空間的拉丁超立方設計。每次試驗重復模擬 30 次并收集結果。合并所得的 Ao 值,得出每個試驗的統計平均值。

分析結果表明,UVC 可隨時提供維護、加油和重新武裝設施,而無需在岸基設施或分布式支援艦艇之間進行長時間的轉運,從而改善了每種 UxV 的 Ao 值和 TOS 值。對于任何特定的 UxV,通過增加 UVC 發射、回收和維護站的數量,從而消除或減少這些服務的排隊時間,可獲得最大的 Ao。分析表明,UVC 在設計時應至少配備 8 個無人機發射/回收站、至少 3 個船舷托架和至少 5 個焊接甲板托架。這些參數沒有確定上限,這也是未來研究的一個潛在領域。

有趣的是,雖然 UVC 的存在改善了大型無人水面艦艇(LUSV)的航速,但 UVC 的實際設計似乎對 LUSV 的航速沒有影響。這可能是由于 LUSV 的假定任務持續時間長,假定維護間隔長,因此不可能出現任何排隊現象。單個船側停泊區似乎足以為多艘 LUSV 提供服務,但即使是單個船側停泊區,也可通過消除到岸基設施的轉運時間來改善 Ao。

付費5元查看完整內容

作為分布式海上作戰(DMO)的一個關鍵原則,盡管有人和無人、水面和空中、作戰人員和傳感器在物理時空上都有分布,但它們需要整合成為一支有凝聚力的網絡化兵力。本研究項目旨在了解如何為 DMO 實現有凝聚力的作戰人員-傳感器集成,并模擬和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境,尤其側重于有人和無人飛機的情報、監視和偵察 (ISR) 任務。

在半個世紀的建模和仿真研究與實踐(例如,見 Forrester, 1961; Law & Kelton, 1991),特別是四分之一世紀的組織建模和仿真工作(例如,見 Carley & Prietula, 1994)的基礎上,獲得了代表當前技術水平的計算建模和仿真技術(即 VDT [虛擬設計團隊];見 Levitt 等人, 1999)。這種技術利用了人們熟知的組織微觀理論和通過基于代理的互動而產生的行為(例如,見 Jin & Levitt, 1996)。

通過這種技術開發的基于代理的組織模型在大約三十年的時間里也經過了數十次驗證,能夠忠實地反映對應的真實世界組織的結構、行為和績效(例如,參見 Levitt, 2004)。此外,幾年來,已將同樣的計算建模和仿真技術應用到軍事領域(例如,見 Nissen, 2007),以研究聯合特遣部隊、分布式作戰、計算機網絡行動和其他任務,這些任務反映了日益普遍的聯合和聯盟努力。

本報告中描述的研究項目旨在利用計算建模來了解如何為 DMO 實現有凝聚力的戰斗傳感器集成,并建模和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境。在這第一項工作中,將對當今的海上行動進行建模、模擬和分析,重點是有人駕駛和無人駕駛飛機的情報、監視和偵察(ISR)任務。這為與執行 ISR 任務的一個或多個 DMO 組織進行比較確立了基線。這也為與其他任務(如打擊、防空、水面戰)進行比較建立了基線。第二階段接著對一個或多個備用 DMO 組織進行建模、模擬和分析。

在本技術報告的其余部分,首先概述了 POWer 計算實驗環境,并列舉了一個實例,以幫助界定 DMO 組織和現象的計算建模。依次總結了研究方法。最后,總結了沿著這些方向繼續開展研究的議程。這些成果將極大地提高理解和能力,使能夠為 DMO 實現戰斗員與傳感器的集成,并為集成實施所需的系統能力和行為建模和概述。

付費5元查看完整內容

本論文的目標是為已知封閉道路網絡中的戰術車輛提供目的地預測。這些戰術車輛以輪式野戰炮兵部隊為模型。美海軍研究生院(NPS)的建模虛擬環境與仿真(MOVES)研究所在一個虛構的場景中建模并生成數據。該場景包括典型野戰炮兵部隊在部署環境中會遇到的各種地點和事件。軍事組織由兩個營組成一個團,每個營有四個炮兵連,每個炮兵連有 11 輛車。每個炮兵連有四輛發射車、四輛裝填車、兩輛支援車和一輛指揮控制(C2)車。生成的數據在團、營、炮兵連和車輛一級進行記錄。本研究以炮兵連的移動模式為中心。每個場景都被分解成較小的行程,其中只有一個先前地點和未來目的地。模型擬合中的預測變量描述了每個炮兵連的各種位置屬性。響應變量是每次行程的目的地位置。

本論文主要研究兩個問題。

1.機器學習模型能否準確預測戰術車輛的未來目的地?

2.在戰術應用中,什么是足夠的預測準確度?

本論文只能使用 MOVES 研究所生成的數據。因此,存在一些限制。第一個限制是數據缺乏測量或傳感器誤差。在實際作戰環境中收集完美的數據是不現實的。第二個限制是,生成數據的大小足以適合我們的模型。在新的作戰場景中,數據可能稀少或不可用。

為了預測這些戰術部隊的未來目的地,我們使用了兩種機器學習的監督技術:隨機森林和神經網絡。為了客觀地比較這兩種模型,我們得出了兩個標準來判斷目的地預測的成功與否。每個模型都為行程中每分鐘間隔內的每個地點擬合了一個概率。第一個標準是一半以上的正確地點分配概率超過 80%。第二個標準是,在行程的最后三分鐘內,模型分配給正確目的地的概率是否超過 80%。一個模型必須同時滿足這兩個標準才算成功。在驗證集的所有行程中,隨機森林的成功率為 38.9%,而神經網絡的成功率為 43.2%。我們使用這兩個標準考慮了真實世界的場景。每個行程被縮減到只有最初的五分鐘。在真實情況下,決策者必須在敵人完成行動之前決定行動。在這種情況下,決策者在做出決定前有五分鐘的時間窗口。隨機森林的預測準確率為 19.1%,而神經網絡的預測準確率為 33.9%。這是時間受限情況下預測準確率的上限。隨著誤差和噪聲的引入,預測準確率可能會降低。

本論文通過使用完美數據設定了目的地預測的上限。基于我們的論文,未來的研究領域如下:進一步研究預測建模、處理在不規則時間間隔內收集的帶有測量誤差的數據、使用真實世界數據建模以及多域建模。第一個領域是通過進一步的預測建模來提高預測精度。第二個領域是引入與現實生活中數據收集和匯總困難相似的誤差項。戰場傳感器并不完美,存在局限性。第三個方面是利用實戰部署和訓練中的真實數據建模。最后一個領域是將我們的研究推廣到其他作戰領域:海上、海面下和空中。運動輪廓和運動行為在這些領域中都同樣重要。戰術層面的模型可以為戰略層面的決策提供參考。

付費5元查看完整內容
北京阿比特科技有限公司