亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

復雜領域的團隊訓練往往需要大量資源,如車輛、機器和角色扮演者。因此,要在真實世界中實現高效和有效的訓練場景可能比較困難。相反,部分訓練可以在計算機生成的合成環境中進行。在這些環境中,受訓人員可以操作模擬器來代替真實車輛,而合成演員則可以代替人類角色扮演者,從而以較低的操作成本提高模擬場景的復雜性。然而,為合成演員構建行為模型極具挑戰性,尤其是對于通常不具備人工智能專業知識的終端用戶而言。在本論文中,我們研究了如何利用機器學習來簡化基于仿真訓練的智能體的構建。本論文以一個模擬空戰訓練系統為例進行研究。

論文的貢獻分為兩個部分。第一部分旨在提高對基于模擬訓練領域的強化學習的理解。首先,進行了一項用戶研究,以確定旨在支持戰斗機飛行員訓練的學習智能體的重要能力和特征。研究發現,在基于模擬的訓練中,學習智能體最重要的能力之一是其行為可以適應訓練的不同階段,以及人類受訓者個人的訓練需求。其次,在簡化的訓練場景中研究了學習如何與其他智能體協調的方法,以探究智能體的觀察空間、行動空間和獎勵信號的設計如何影響學習的表現。研究發現,時間抽象和分層強化學習可以提高學習效率,同時還能為條令行為建模提供支持。在更復雜的環境中,即使使用稀疏、抽象的獎勵信號,課程學習和相關方法也有望幫助找到新戰術。第三,根據用戶研究和實際實驗的結果,提出了用戶自適應訓練系統的系統概念,以支持進一步的研究。

貢獻的第二部分側重于基于效用的多目標強化學習方法,這種方法在尋找平衡多個相互沖突的目標的策略時納入了用戶效用函數的知識。本文提出了兩個用于多目標強化學習的新智能體:可調智能體(T-Actor)和多目標夢想家(MO-Dreamer)。T-Actor 通過學習一組帕累托最優策略為教師提供決策支持,這些策略由一個以目標偏好為條件的神經網絡表示。這樣就能調整智能體的行為,以適應學員當前的訓練需求。在網格世界和目標系統中進行的實驗評估表明,T-Actor 減少了學習所需的訓練步驟數量。MO-Dreamer 可根據用戶效用的變化(如訓練需求的變化)進行在線調整。它通過學習環境模型來做到這一點,并可利用該環境模型與一系列不同的效用函數進行預測性推出,以探索應遵循哪種策略來優化給定目標偏好的回報。實驗評估表明,對于效用的頻繁變化和稀疏變化,MO-Dreamer 在經驗遺憾方面優于先前的無模型方法。

總之,本論文所進行的研究有助于提高人們對如何將機器學習方法應用于構建模擬訓練環境的認識。雖然我們的研究重點是空戰訓練,但研究結果的通用性足以適用于其他領域。

圖 1.1: LVC 分布式模擬集成了實時飛機、虛擬飛行模擬器和由人工智能控制的合成模擬。

1 引言

復雜領域的團隊訓練通常需要大量資源,如車輛、角色扮演者和教員。因此,要在真實環境中實現高效和有效的訓練場景可能比較困難。相反,部分訓練可以在計算機生成的合成環境中進行。在這些環境中,受訓者可以操作模擬器來代替真實車輛,而合成演員則可以代替人類角色扮演者,從而以較低的操作成本提高模擬場景的復雜性。然而,構建能控制這類角色的智能體是一項挑戰[136, 14, 137, 37],尤其是對于訓練系統的最終用戶來說,他們通常不具備人工智能方面的專業知識。在本論文中,我們將研究如何利用機器學習來簡化智能體的構建,使其行為適應人類學員的需求。通過構建更智能的代理,可以減少對人類訓練提供者的依賴,同時提高訓練的可用性和質量。作為一個案例研究,我們使用了一個基于模擬的空戰訓練系統,該系統在完成模擬世界中的任務以及為人類學員提供高效和有效的訓練方面,對合成智能體提出了許多挑戰。

1.1 動機

為戰斗機飛行員提供高效和有效的訓練解決方案正變得越來越具有挑戰性。由于飛機運營成本高、可用空域有限以及嚴格的安全規定,很難在實戰環境中實現所需的訓練內容和密度。此外,在公開場合進行訓練有可能泄露有關戰術和系統性能的敏感信息。為了應對這些挑戰,必須在更大程度上利用虛擬和建設性模擬資源。如圖 1.1 所示,實戰、虛擬和建構(LVC)仿真旨在將真實飛機、地面系統和士兵(實戰)、載人模擬器(虛擬)和計算機控制的合成實體(建構)[100]整合在一起。通過使用建設性模擬來增強受訓者和角色扮演者操作的實機和虛擬飛機,可以模擬有大量友軍、敵軍和中立實體參與的場景,從而提高訓練效率和效果[51, 111, 55]。理想情況下,智能體應能充當訓練者,并根據人類受訓者的訓練需求調整自己的行為。這將使我們能夠最大限度地減少開展訓練所需的人力支持人員數量,從而降低成本并提高訓練的可用性。

如圖 1.2 所示,我們可以將訓練系統的用戶分為兩大類:訓練受眾和訓練提供者。訓練對象包括接受訓練的人員,如學習如何操作新飛機的飛行員。訓練提供者包括提供訓練的人員,如教員、角色扮演者、場景操作員和場景開發人員。教員負責訓練課程的教學內容,而角色扮演者和場景操作員則分別作為演員或通過控制部分模擬場景來幫助開展訓練。場景開發人員負責開發應模擬的場景,包括控制合成演員的行為模型。實際上,一個人可以扮演多個角色。例如,由于資源有限,一個人可以同時擔任教員、角色扮演者和操作員。

圖 1.2:模擬訓練系統的用戶。

這通常會造成很大的工作量,而且可能無法實現理想的訓練場景。我們希望減少對訓練提供者的需求,以提高訓練效率和效果。如果合成智能體變得更加智能,它們就可以取代或增強人類角色扮演者,減少場景操作員的輸入量,使訓練場景按預期方式進行。為了進一步提高系統的自主水平,智能體還可以協助教員評估學員的表現,并調整訓練場景的內容和特點[16]。然而,為智能體創建行為模型具有挑戰性,尤其是對于訓練系統的最終用戶(如教員)來說,他們可能不具備所需的專業知識和經驗[37]。過去,這制約了智能體在訓練中的應用。現在,隨著人工智能(AI)的最新進展,人們希望數據驅動方法能簡化構建智能體的過程,從而在基于模擬的訓練中取代或協助人類輔助人員。

在學習順序決策方面,強化學習 [128] 已成為最先進的方法。在人類設計的獎勵信號引導下,這類智能體可以純粹通過與環境互動來學習決策策略。通過將深度學習[38]與強化學習相結合,在經典棋盤游戲和多人電腦游戲中擊敗人類冠軍成為可能[122, 123, 61, 148]。這些成果激發了研究強化學習在許多領域應用的興趣,包括空戰模擬,學習智能體既可以充當隊友,也可以充當對手。雖然一般的強化學習研究往往側重于在某些領域(如游戲)實現超人的表現,但這項工作并不側重于將強化學習用于開發新的空戰戰術,而是研究智能體如何學習行為,從而提高參與模擬場景的人類的表現。在開發新智能體的過程中,我們重點關注多目標強化學習,它可以在多個相互沖突的目標之間找到權衡,特別是基于效用的方法,它利用有關用戶效用函數的知識,使學習更加高效和有效。

1.2 目的

本論文的目的是分析基于模擬的訓練系統并為其建模,其中包含合成學習智能體,以提高效率和效果;通過開發基于效用的強化學習方法,支持提供基于自適應模擬的訓練,該方法旨在根據有關應用領域的知識及其用戶的效用函數提供最佳解決方案。長期目標是使訓練能夠有效地適應每個學員的需要,而不是提供一刀切的解決方案。

1.3 研究問題

為了實現論文的目標,我們探討了以下研究問題:

問題 1:合成智能體需要具備哪些能力和特征,才能作為行動者參與基于合作和競爭的混合模擬訓練場景?

問題 2:強化學習方法如何協助教員開展訓練?

問題 3: 如何調整模擬內容以適應受訓者的訓練需求?

研究問題 RQ1 的重點是強化學習智能體作為合成角色扮演者,與人類受訓者進行互動,從而有效地提供有效的訓練環境。研究問題 RQ2 的重點是強化學習智能體作為合成助手,為教員的工作提供支持。研究問題 RQ3 涉及在用戶自適應訓練環境中部署的合成角色扮演者和合成教員助手的理想特性。

1.4 研究方法

論文工作中使用的方法包括三個迭代和互動過程:領域分析、概念開發和實驗評估,如圖 1.3 所示。領域分析旨在增進對應用領域(包括其用戶及其需求)的了解,從而引導概念開發朝著最有前途的方向發展。由來自工業界和空軍的主題專家(SMEs)組成的參考小組將為這一過程提供支持。概念開發的目的是更詳細地研究和比較幾個有前途的概念,以便在進行實驗評估之前進一步縮小選擇范圍和進行專業化。在實驗評估中,將在簡單的模擬場景中對概念進行研究,以找出其優缺點。概念開發和實驗評估的結果將用于支持反饋循環中的進一步領域分析。

圖 1.3:三個相互作用的迭代過程:確定用戶需求、開發可滿足這些需求的概念,然后在實驗中對概念進行評估。

1.5 局限性

在本論文中研究的方法是在模擬場景中進行評估的,這些場景與實際訓練中使用的場景相比較為簡單。原因在于,當前的強化學習算法需要智能體在復雜環境中尋找決策策略,這需要大量的計算資源。此外,大多數評估都不包括人類參與者,因為要得出具有統計學意義的結果,需要大量的參與者。因此,實驗應被視為對想法和概念的初步評估。通過使用較簡單的場景,可以根據第 1.4 節中介紹的方法完成更多的迭代。更高級的驗證性實驗最好與其他研究工作結合進行,并作為操作訓練的一部分,一旦所研究的方法發展到更高的成熟度。

1.6 貢獻

本論文的貢獻可概括如下:

C1:進行了領域分析,以確定不同類型空戰訓練場景中的用戶需求和理想的智能體功能。分析包括用戶訪談、書面調查和目標系統中的實際實驗。該分析有助于解決研究問題 RQ1 和 RQ2。

C2: 根據領域分析的結果,制定了一個系統概念,以確定該領域未來研究工作的框架。該系統概念提出了用戶自適應訓練系統的架構,旨在不斷調整模擬環境,以適應每個學員的訓練需求。該系統概念有助于解決研究問題 RQ1、RQ2 和 RQ3。

C3:開發了一個可調智能體(T-Actor)。T-Actor 通過學習一組參數化效用函數的策略,為教員提供決策支持。效用函數模擬智能體對一系列目標的偏好,并影響其行為。教員可以通過對效用函數進行后驗調整,為每個學員選擇合適的策略。T-Actor 有助于解決研究問題 RQ2 和 RQ3。

C4:我們開發了基于多目標模型的演員評判器--多目標夢想家(MO-Dreamer)。MO-Dreamer 在具有動態效用函數的環境中進行在線學習,并利用所學世界模型中的想象力滾動來改進其政策,以預測效用的變化。MO-Dreamer 有助于解決研究問題 RQ2 和 RQ3。

第一部分:領域分析和概念設計

用戶研究

圖 3.2:敵對實體沿紅色路線接近空中戰斗巡邏隊 (CAP)。CAP 的飛機正在保護藍色的戰斗機責任區 (FAOR),有標記為黃色的高價值資產。

本章以用戶為中心,分析了在基于模擬的飛行員訓練系統中引入智能學習代理的問題。首先,我們討論了教員在使用實時、虛擬和建構模擬提供訓練時必須應對的制約因素,以及如果解決目前代理技術的不足,合成代理如何消除部分制約因素。然后,我們構建了一個飛行員在反空中作戰中的決策模型,以確定智能體設計應支持哪些決策模式。最后,通過訪談和調查來確定在飛行員訓練的不同階段對智能體能力和特性的要求。

我們發現,學習智能體有可能提高建設性模擬的能力,從而在減少使用現場和虛擬仿真資源的同時,仍能為學員提供有效的訓練場景。我們還注意到,改進后的用戶界面可以讓在人工智能方面幾乎沒有專業知識的主題專家構建高質量的智能體,從而減少對模擬器工程師支持的需求,并有可能縮短根據訓練需求更新系統的周轉時間。

用戶的反饋意見表明,必須使智能體的行為能夠適應不同類型的訓練以及具有不同訓練需求的學員。此外,智能體還必須能夠在各組智能體競爭的場景中扮演不同的角色,如對手、組長和僚機等。最后,能夠解釋合成智能體的行為對于支持匯報環節的分析非常重要。目前為合成飛行員開發行為模型的方法很難滿足這些要求。例如,用戶認為建構實體無法在空戰場景中扮演領導角色,無法與人類受訓者有效合作,也缺乏以可信方式響應命令的能力[7, 106, 159]。因此,改進行為模型可以提高 LVC 仿真的訓練價值。

學習互動和協調

在本章中,在四個與反空作戰有關的簡化場景中對多智能體強化進行了實驗評估: 進攻性對空作戰、防御性對空作戰、人機協作防御性對空作戰和空中偵察。學習智能體在這些場景中的表現能力關系到它們在場景中是作為友好實體還是敵對實體行動。

在 "進攻性反空 "和 "防御性反空 "場景中,我們看到具有時間延伸的行動可以顯著提高學習性能。此外,還可以將條令行為編碼到此類行動中,使合成智能體的行為顯得更加真實。利用智能體組隊進行空中防御的結果表明,利用低級動作進行學習反而會產生不必要的定性效果,如飛機頻繁轉向,即使定量結果表明行為得體。可以通過在獎勵功能中增加額外的目標來減少這種不必要的副作用,例如對不受歡迎的行為進行懲罰。不過,這將使獎勵設計變得更加復雜。例如,在近距離戰斗中很自然的飛行動作,如果在沒有任何敵人的情況下進行巡航,可能會顯得不自然。防空反擊場景中的結果表明,交流機制可以提高學習績效,正如討論中所說,這種機制在某種程度上也可以在人類-智能體團隊合作中實施。

進攻型和防御型空中對抗場景的結果表明,在學習低層次行動時,智能體可能需要先學習實現子目標的策略,然后才能找到完成整個任務的策略。為了提高學習效率,智能體的行為可以取決于當前的場景背景。例如,可以使用不同的策略來處理進攻性對空方案中的進入、攻擊和出口階段。完整的策略可以組織成一個決策層次結構,其中位于層次結構頂端的智能體負責在 LACC 的第 6 層 FRA 中確定當前形勢,然后將背景情況分配給負責導航、傳感器管理和武器投放等工作的下層智能體。

空中偵察場景中的結果表明,即使是簡單的問題,獎勵設計也會極大地影響學習智能體的表現,通過構建學習課程,可以顯著提高學習成績。然而,為更復雜的問題構建這樣的課程可能具有挑戰性。相反,也可以采用學習方法來定義課程,就像人類教員利用他們獲得的領域知識來更新人類受訓者的訓練內容一樣。這就要求負責課程的智能體評估學習代理當前的表現,并確定如何調整環境以實現難度的適當變化。

在本研究中,我們采用了集中式訓練和分布式執行(CTDE)的方法。由于在我們的實驗設置中,學習型智能體在訓練過程中與人類沒有互動,因此學習到的策略有可能會過度適應環境中其他合成的學習型智能體的行為。當智能體需要與人類互動時,這可能會導致性能損失,因為人類的行為可能與合成智能體不同。此外,預計不同人類飛行員的行為也會有所不同,特別是當飛行員正在接受訓練和完善技能時。避免過擬合風險的一種方法是在智能體群體中強制執行多樣性,例如,按照文獻[84]的建議,通過學習政策集合。另一種方法是使智能體具備從開發環境轉移到運行系統后迅速調整其行為的能力。

我們還注意到,我們使用的 MADDPG 參考實現并沒有實現優先經驗重放,因為在訓練中央批判者時,所有智能體的經驗都需要來自同一時間步。當使用較大的重放緩沖區進行學習時,這可能會對性能產生負面影響,因為對學習最有價值的經驗可能不會經常被采樣。

圖 4.5:防空反擊模擬場景。

概念設計

圖 5.1:使用學習智能體的訓練系統架構。

在本章中,我們介紹了用戶自適應訓練系統的概念,該系統可幫助教員提供適合學員個人能力的訓練。這一概念基于通過訪談、調查和實際實驗獲得的有關空戰訓練領域及其用戶的知識。系統架構有兩個主要元素,可實現訓練適應性:場景適應智能體和合成訓練器智能體。

場景適應智能體負責高層次的適應,其作用類似于教官。這包括根據受訓者過去的表現對其進行分析,并確定當前的訓練需求。為滿足這些需求,訓練環境將通過改變訓練場景、訓練任務和分配給學員的任務進行調整。

合成訓練師智能體作為演員參與訓練場景,其行為方式與人類角色扮演者類似。它的行為特征由場景適應智能體通過其效用函數進行調整,就像人類角色扮演者可以根據教員的輸入調整自己的行為一樣。

我們討論了與架構各組成部分相關的要求,以及實現這些要求的不同方法。在構建這些智能體時,我們建議采用基于效用的多目標強化學習方法,因為其使用案例與我們的領域分析和用戶研究中確定的案例相吻合。作為第一步,論文的第二部分介紹并評估了合成訓練智能體的兩種實現方式。

圖 5.2:強化學習多目標方法的激勵場景[45]:(a) 未知效用函數場景,(b) 決策支持場景,(c) 已知效用函數場景,(d) 交互式決策支持場景,(e) 動態效用函數場景,以及 (f) 審查和調整場景。

第二部分 基于效用的仿真強化學習

基于智能體的可調動態模擬

圖 6.1: 左圖:可調actor結構。右圖:效用條件神經網絡

在本章中,我們為基于智能體的模擬提出了一種智能體架構和訓練方案。該架構允許我們在多目標環境中使用標準的深度強化學習算法。通過指定智能體對一組目標的偏好,我們提出的方法可用于訓練可在運行時調整其行為的智能體。我們的實驗證明,這些可調整的智能體可以近似于具有固定目標偏好的幾種不同行為類別的智能體的策略。實驗還表明,訓練時間與具有固定偏好的智能體的訓練時間相當,這意味著與從頭開始學習一套策略相比,可以提高采樣效率。一旦發現了解決方案前沿的有趣區域,例如與主題專家的互動,就可以通過進一步的訓練來改進這些區域的政策。我們認為,這一功能對于高效構建適應用戶需求的智能體模擬(如應用于訓練系統)非常有價值。

我們所使用的線性效用函數的一個缺點是,如果使用的是確定性策略,而問題的帕累托前沿是一個凹面,則可能無法找到所有理想的策略[144, 141]。為了更好地覆蓋解空間,必須使用非線性標量化函數。如果允許使用隨機策略,則可以使用 CCS 中的凸混合策略來形成帕累托前沿的連續估計值,該估計值在凹面中支配所有解[141]。不過,如果我們感興趣的是每個事件的結果(ESR),而不是多個事件的平均結果(SER),這可能就沒有什么用處了。對于基于用戶自適應模擬的訓練,ESR 設置是合適的,這將在第 5 章中討論。

我們研究的環境相對簡單。在現實世界中,訓練這類智能體可能更具挑戰性。在未來的工作中,我們希望研究擬議方法在更復雜環境中的性能,包括具有大型行動空間、部分可觀測性的環境,以及需要智能體之間進行更復雜交互的任務。我們還想研究智能探索策略,讓智能體在訓練時可以有很多目標和高維度的偏好空間,以及對未見權重的高效遷移學習。未來工作的另一個有趣課題是開發有效的方法來激發用戶對智能體特征的偏好,從而構建符合用戶需求的模擬。最后,我們還希望研究基于模擬的訓練系統中的人機互動。

在本章研究的場景中,風險意識飛行路線選擇場景面臨的挑戰最大,在該場景中,可調代理需要在連續空間中選擇飛行路線。要為效用空間中的每個效用函數找到合適的航線,需要進行大量的學習,而這對于復雜的場景來說可能需要進行昂貴的計算。作為進一步提高多效用函數學習效率的第一步,下一章將提出一種基于模型的方法,用于用戶效用函數隨時間變化的環境中的多目標強化學習。

用動態效用函數構想

圖 7.1: MO-Dreamer 與環境互動,建立了一個包含各種經驗的數據集,用于構建一個想象力推廣模型,在這個模型中,過去的經驗狀態與經驗和想象中的效用函數一起被重新審視,以改進材料。

在本章中,提出了MO-Dreamer,一種基于模型的多目標actor-critic,用于在具有動態效用函數的環境中進行學習。MO-Dreamer 強化了經驗回放緩沖區中存儲和采樣的軌跡回報的多樣性,以便在學習過程的早期進行高強度訓練,同時降低過度擬合的風險。此外,MO-Dreamer 還利用具有多種效用函數的想象力,探索在給定目標偏好的情況下,應遵循哪種策略來優化收益。

在效用函數頻繁變化和稀疏變化的 Minecart 基準上進行的實驗評估表明,在動態效用函數情況下,MO-Dreamer 在累積遺憾和平均偶發遺憾方面明顯優于無模型的多目標強化學習最先進算法。在 "深海寶藏 "基準測試中,MO-Dreamer 的收斂速度很快,總體上優于無模型智能體,但在完全可觀測的情況下,MO-Dreamer 學習到的最終策略較差。在部分可觀測性條件下,MO-Dreamer 的表現明顯優于無模型基線。在簡單的 "深海寶藏 "任務中,MO-Dreamer 的表現與無模型算法不相上下,這說明了世界模型學習的效率。

基于模型的方法可以更有效地適應學員訓練需求的變化。在操作訓練系統中,世界模型可以根據每次訓練的數據進行優化。然后,該模型可用于優化合成智能體的策略,這些策略對訓練中心學員群體觀察到的每個效用函數都是最優的。與飛行模擬器的戰術環境模擬相比,學習到的世界模型更加緊湊,計算效率更高。這意味著,只要模型的質量足夠好,利用世界模型進行學習就能對政策進行更大程度的微調。

在今后的工作中,我們打算擴展世界模型,以處理具有多個學習智能體的環境。除了支持政策學習外,這種世界模型還可以在線使用,對其他智能體的未來決策進行預測。這既可以支持合作決策,也可以支持競爭決策。未來工作的另一個有趣方向是研究如何將學習到的世界模型用于各種形式的遷移學習。例如,我們想研究在使用線性效用函數行動時學習到的世界模型如何用于非線性效用函數的遷移學習。這可能需要新的探索策略,在與非線性效用函數相關而與線性效用函數無關的環境中改進世界模型。最后,我們希望將實驗評估擴展到與戰術飛行員訓練更相關的環境中。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

現代戰場環境為指揮官和分析人員提供了大量信息。在任何特定時刻,這些信息中只有部分是有用的,往往需要人工干預才能分辨出哪些是有意義的,哪些是無意義的。在分秒必爭的環境中,加快向決策者提供有用信息的方法至關重要。為了從共同作戰圖中保持態勢感知,需要一種技術來應對認知和系統信息過載。這種技術應使信息系統能夠學習和適應動態的戰場環境,并相應地提供最有用和最相關的信息。

機器學習被廣泛用于預測數據結構復雜和高維的各種應用中的模式和結果。監督學習是一種傳統的機器學習方法,在這種方法中,算法在進行預測之前要在大量數據集上進行訓練。另一方面,在線學習是一種機器學習技術,算法通過增量學習或在獲得新數據和反饋時進行學習。Hoi 等人討論了有關在線學習方法的全面調查,其中包括技術細節以及在線學習相對于傳統機器學習方法的優勢。

這項工作旨在開發一種概念驗證,通過在線學習方法為用戶預測傳入傳感器數據的實用價值。在這一框架中,數據點的效用值是用戶接受該數據可能性的衡量標準,用戶可以根據自己對數據效用的內部評估選擇接受或拒絕該數據。

本文介紹了這種概念驗證的開發過程。本文還通過模擬實驗,研究了模型性能隨超參數配置的變化,以及導致用戶在每次試驗演示中接受該信息的條件。

付費5元查看完整內容

盡管最近在美國防部參謀培訓和兵棋推演模擬中對后勤因素的表現有所進步,但后勤信息系統(IS)的表現仍然不足。許多指揮與控制(C2)系統可通過通用協議(如 OTH-Gold)與仿真集成,但許多后勤信息系統與仿真-信息系統(sim-IS)的集成則需要人力密集的 "人在回路"(HitL)過程。在已實現自動仿真-IS 集成的地方,通常無法仿真重要的社會技術系統(STS)動態,如信息延遲和人為錯誤,從而使決策者無法真實地了解物流 C2 的能力。本研究試圖通過開發和驗證一種通過機器人流程自動化(RPA)進行模擬-信息系統信息交換的新方法,克服傳統模擬-信息系統互操作性方法的局限性。RPA 軟件通過 IS 現有的圖形用戶界面支持 IS 信息交換的自動化。這種 "由外而內 "的 IS 集成方法減少了為自動信息交換而對 IS(或模擬)進行工程更改的需要。除了驗證基于 RPA 的模擬-IS 集成方法的潛力外,本研究還提出了分布式模擬工程和執行過程(DSEEP)覆蓋的建議,以指導模擬-IS 環境的工程設計和執行。

在現代工作場所和戰場上,日益強大的信息系統和相關業務流程的激增,需要有能夠體現信息系統(IS)和相關社會技術系統(STS)動態的人員培訓環境。需要這樣的環境來鍛煉組織流程和信息系統,并培養人員的能力。盡管在仿真支持的人員培訓環境中,一些指揮與控制(C2)系統的表現形式取得了進步,但在表現包括許多后勤信息系統在內的 "人在回路"(HitL)信息系統以及影響這些信息系統如何在作戰環境中填充的 STS 動態方面,仍然存在局限性。現有的模擬和 C2 系統集成手段不足以支持自動模擬信息系統(sim-IS)的信息交換和 STS 動態模擬。

這項研究探索了機器人流程自動化(RPA)如何促進模擬信息系統信息交換和 STS 動態模擬自動化的新方法。研究采用了設計科學研究(DSR)方法,以確定基于 RPA 的模擬-IS 信息交換方法能否支持自動化模擬-IS 信息交換和 STS 動態模擬,以及如何設計和開發這種基于 RPA 的模擬-IS 環境。這些研究問題是通過開發和驗證兩個 DSR 工件來解決的:一個是基于 RPA 的模擬-IS 信息交換架構原型形式的實例化工件,另一個是分布式仿真工程和執行過程(DSEEP)(IEEE Std 1730,2011 年)模擬-IS 環境覆蓋建議形式的方法工件。從 DSR 的意義上講,實例化工件已通過驗證,能夠支持自動模擬-IS 信息交換和指定 STS 動態模擬。模擬的 STS 動態包括時間動態(信息延遲和及時性變化)和信息內容退化(準確性、精確性和完整性變化)。這是通過建模與仿真(M&S)驗證和確認過程實現的,包括在實驗室和現場環境中對實例化工件進行定量和定性分析。

通過在受控實驗室環境中的兩個模擬-IS 環境中對原型的性能進行定量分析,對基于 RPA 的模擬-IS 架構支持自動模擬-IS 信息交換和特定 STS 動態模擬的能力進行了驗證。在一個模擬-IS 環境中,海軍陸戰隊空地特遣部隊(MAGTF)戰術戰爭模擬(MTWS)與海軍陸戰隊通用后勤指揮與控制系統(CLC2S)集成在一起。在另一個模擬-IS 環境中,實體級建設性模擬--聯合沖突與戰術模擬(JCATS)與 CLC2S 集成。在這兩個模擬-信息系統環境中,都使用了圖 1 所示的基于 RPA 的模擬-信息系統信息交換架構,將建構模擬和 HitL 后勤信息系統集成在一起。

圖 1. 基于 RPA 的模擬信息系統信息交換架構

對原型架構在兩種模擬-IS 環境中的性能進行定量分析的結果表明,基于 RPA 的模擬-IS 信息交換方法可支持自動模擬-IS 信息交換和 STS 動態模擬。在時間動態模擬方面,發現及時性和延遲分布的模擬與目標分布充分吻合,每個場景的奇平方擬合度檢驗值都超過了 0.95 臨界值。對信息內容退化的模擬觀察具有實際意義,但不具有統計意義。雖然該架構為模擬信息系統信息交換提供了足夠的準確性和精確性,但確定基于 RPA 的模擬信息系統信息交換的及時性需要考慮所支持的特定模擬信息系統環境。在設計和開發基于 RPA 的模擬-IS 環境時,開發了解決這一問題的技術,并在模擬-IS 環境的 DSEEP 重疊建議中得到了解決。

定量分析的結果是必要的,但不足以支持對基于 RPA 的模擬-IS 架構的驗證。在實地環境中為領域主題專家 (SME) 進行了架構演示,以支持對該工具在支持其預期用途方面的實用性進行定性驗證。演示和隨后的中小型企業訪談結果表明,擬議的基于 RPA 的架構將支持在促進員工培訓的模擬信息系統環境中的預期用途。這包括支持在人員培訓環境中表現更多的 HitL 信息系統的潛力,以及模擬 STS 動態的潛力,否則人力或成本將無法表現。

為 DSEEP 開發的方法工件--模擬-信息系統疊加建議,旨在促進模擬-信息系統環境的設計和開發,這些環境代表了目標集成業務流程和相關 STS 動態,包括使用基于 RPA 的模擬-信息系統信息交換方法。雖然 DSEEP 為分布式仿真環境的工程設計和執行提供了指導,但它并沒有為支持仿真-IS 環境提供必要的指導。本研究針對 DSEEP 重疊中需要解決的問題提出了 43 項具體建議,以指導模擬-IS 環境的工程設計和執行,重點是支持基于 RPA 的模擬-IS 信息交換。這些建議是在設計、開發和驗證基于 RPA 的模擬-IS 架構的同時提出的。提供的許多建議與設計、開發和測試基于 RPA 的模擬信息系統架構原型過程中發現的障礙以及為克服這些障礙而開發的工具和技術直接相關。

除了展示和驗證一種基于 RPA 的新方法,用于 Sim-IS 信息交換和工作人員培訓的 STS 動態模擬之外,這項研究還為設計支持其他領域的模擬-IS 環境提供了新的機遇。基于 RPA 的模擬-信息系統信息交換方法所帶來的低成本、模塊化模擬-信息系統環境,可以支持一種新的兵棋推演環境,增強對現實世界中的 HitL 信息系統以及填充這些系統的綜合業務流程的表現力。它還可以為集成業務流程本身的持續共同發展提供一個靈活的環境。本研究為探索和開發基于 RPA 的模擬信息系統信息交換方法邁出了第一步,該方法可支持在模擬支持環境中增強 HitL 信息系統的代表性,以支持人員培訓和其他重要問題空間。

付費5元查看完整內容

在訓練中,從演習文件中獲取背景信息可增強真實感。在真實世界行動中創建的文件必須為訓練演習而制作,這是一個耗時耗力的過程,產生的文件無法用于海軍陸戰隊的模擬演習。海軍陸戰隊正在制作 "實時、虛擬、建設性訓練環境"(LVC-TE),使分離的部隊能夠與模擬演習相結合。LVC-TE 包括演習設計工具,但不包括演習文件制作工具。本論文的重點是為直接空中支援中心(DASC)使用 FLAMES 自動仿真訓練器(FAST)進行的指揮與控制(C2)演習制作空中任務指令(ATO)。DASC 部隊無法獲得真實世界的 ATO 進行演習,這意味著 ATO 必須從檔案中提取或手工創建。存檔的 ATO 包括過時的飛機和彈藥,而手工輸入的 ATO 極易出錯。FAST 提供了上傳 ATO 的選項,如果文件正確,系統就會填充航空場景。本論文表明,可以設計和實施一種工具,以方便為任何空中 C2 演習創建 ATO 文件,FAST 可以正確攝取這些文件,從而加快場景生成。通過這一概念驗證,對擴展這一能力進行了初步調查,以簡化所有作戰功能的演習文件創建,并與 LVC-TE 的演習設計工具套件集成。

付費5元查看完整內容

本論文的目標是為已知封閉道路網絡中的戰術車輛提供目的地預測。這些戰術車輛以輪式野戰炮兵部隊為模型。美海軍研究生院(NPS)的建模虛擬環境與仿真(MOVES)研究所在一個虛構的場景中建模并生成數據。該場景包括典型野戰炮兵部隊在部署環境中會遇到的各種地點和事件。軍事組織由兩個營組成一個團,每個營有四個炮兵連,每個炮兵連有 11 輛車。每個炮兵連有四輛發射車、四輛裝填車、兩輛支援車和一輛指揮控制(C2)車。生成的數據在團、營、炮兵連和車輛一級進行記錄。本研究以炮兵連的移動模式為中心。每個場景都被分解成較小的行程,其中只有一個先前地點和未來目的地。模型擬合中的預測變量描述了每個炮兵連的各種位置屬性。響應變量是每次行程的目的地位置。

本論文主要研究兩個問題。

1.機器學習模型能否準確預測戰術車輛的未來目的地?

2.在戰術應用中,什么是足夠的預測準確度?

本論文只能使用 MOVES 研究所生成的數據。因此,存在一些限制。第一個限制是數據缺乏測量或傳感器誤差。在實際作戰環境中收集完美的數據是不現實的。第二個限制是,生成數據的大小足以適合我們的模型。在新的作戰場景中,數據可能稀少或不可用。

為了預測這些戰術部隊的未來目的地,我們使用了兩種機器學習的監督技術:隨機森林和神經網絡。為了客觀地比較這兩種模型,我們得出了兩個標準來判斷目的地預測的成功與否。每個模型都為行程中每分鐘間隔內的每個地點擬合了一個概率。第一個標準是一半以上的正確地點分配概率超過 80%。第二個標準是,在行程的最后三分鐘內,模型分配給正確目的地的概率是否超過 80%。一個模型必須同時滿足這兩個標準才算成功。在驗證集的所有行程中,隨機森林的成功率為 38.9%,而神經網絡的成功率為 43.2%。我們使用這兩個標準考慮了真實世界的場景。每個行程被縮減到只有最初的五分鐘。在真實情況下,決策者必須在敵人完成行動之前決定行動。在這種情況下,決策者在做出決定前有五分鐘的時間窗口。隨機森林的預測準確率為 19.1%,而神經網絡的預測準確率為 33.9%。這是時間受限情況下預測準確率的上限。隨著誤差和噪聲的引入,預測準確率可能會降低。

本論文通過使用完美數據設定了目的地預測的上限。基于我們的論文,未來的研究領域如下:進一步研究預測建模、處理在不規則時間間隔內收集的帶有測量誤差的數據、使用真實世界數據建模以及多域建模。第一個領域是通過進一步的預測建模來提高預測精度。第二個領域是引入與現實生活中數據收集和匯總困難相似的誤差項。戰場傳感器并不完美,存在局限性。第三個方面是利用實戰部署和訓練中的真實數據建模。最后一個領域是將我們的研究推廣到其他作戰領域:海上、海面下和空中。運動輪廓和運動行為在這些領域中都同樣重要。戰術層面的模型可以為戰略層面的決策提供參考。

付費5元查看完整內容

射擊技術是特種作戰訓練的一個重要方面,但目前許多評估射擊技術的方法都是基于過時的手工流程。在每次射擊迭代之間,士兵必須走到各自的目標前分析他們的分組情況,并經常將結果記錄在紙質筆記本上。這一過程不支持即時分析反饋或射擊技術的長期分析,嚴重限制了教練的有效性和射手的評估。擬議的解決方案 "致命射擊分析檢測技術"(DTKA)可監測目標的射擊情況,并將結果存儲在遠程數據庫中。該研究成果旨在促進即時的射擊反饋,并為特種作戰領域的長期射擊分析提供必要的數據。

關鍵詞:射擊檢測 自動化 射擊技術分析 機器視覺 射擊技術輔導

引言

在特種作戰訓練中,高效、準確的射擊技術對建立一支隨時待命的致命部隊至關重要。當前訓練過程的特點是個別指導和評估,任何數據收集都來自手工紙質流程。目標射擊檢測自動化將提供即時反饋的機會,并為射手長期評估提供更好的數據。系統化的射擊分析方法可提高陸軍靶場的能力,為陸軍最寶貴、最具殺傷力的資產--士兵提供工具。

本文概述了擬議的自動槍彈探測系統解決方案--致命射擊分析探測技術(DTKA)的功能。作者將首先討論該問題領域的現有技術及其在提供準確槍彈分析方面的有效性。接下來,他們將介紹他們提出的系統及其功能,然后展示一些輸出示例。最后,本文將討論開發該系統時面臨的挑戰,并為解決這一關鍵問題的未來研究提供路線圖。

方法

圖1顯示了DTKA的高級方法。在射擊并擊中目標后,攝像機會檢測到變化,從而觸發代碼在目標上尋找新的彈孔。如果檢測到槍聲,彈孔中心的坐標將連同時間戳和槍手身份(如果提供)一起保存到CSV文件中。然后可以手動或使用隨附的WiFi模塊無線卸載數據。本節的其余部分將詳細介紹構成DTKA的硬件和軟件。

付費5元查看完整內容

在購置海軍平臺的資本有限的限制下,需要應對海上挑戰。像波浪滑翔機這樣的無人平臺可能有助于解決這個問題。波浪滑翔機是一種無人水下航行器,它可以配備一個被動陣列,并可以在感興趣的區域(AOI)保持長時間的部署。它們能夠提供分層防御,防止對手在不被發現的情況下穿越該區域,從而提供低成本、持久性的反潛戰(ASW)解決方案。在2016年由英國皇家海軍領導的 "無人勇士 "演習中,展示了反潛波浪滑翔機成功追蹤一艘載人潛艇的能力。然而,如何部署一定數量的波浪滑翔機來探測一艘過境的對手潛艇的問題仍然相對沒有被探索。本論文旨在開發一個模型,以確定部署的波浪滑翔機的探測能力,該模型考慮了與探測水下接觸有關的變量,在具有聲學挑戰性的水下環境中使用被動聲納,并在部署無人資產方面受到限制。該模型規定了實現特定探測概率所需的波浪滑翔機的最佳數量,并為其在AOI中的位置提供了參考,以盡量減少對手潛艇穿越該區域而不被發現的概率。

為了利用無人系統提供的無數優勢,近年來,它們在軍事行動中的地位越來越突出。無人系統,在這里是指無人水下航行器(UUV),被用于各種任務,如海洋學、反地雷、情報、監視和偵察(ISR),僅舉幾例。最近,UUV在反潛戰(ASW)領域的使用也有所發展。本論文探討了在反潛戰中使用 "波浪滑翔機"--一種配備了被動陣列的UUV。該方案圍繞著反潛波浪滑翔機在AUO中的最佳位置發展,以最大限度地提高探測到穿越該地區的敵方潛艇的概率。開發了一個模型來計算具有特定估計聲納范圍(ESR)的特定數量的波浪滑翔機所累積的探測概率。

為了開發這個模型,使用被動聲納方程闡明了裝有被動聲納的波浪滑翔機的水下探測特性。諸如設備、目標和環境特征等方面的因素被考慮到方程中。還考慮了影響聲音在水下傳播的各種因素,如傳輸損耗和水下噪聲的存在,它阻礙了從目標接收的整體聲音。被動聲納方程和其中涉及的參數被用來計算聲納的性能,稱為優點數字(FOM)和信號過剩(SE),它告訴我們目標發出的信號是否會被波浪滑翔機上的傳感器檢測到(Urick,1967)。此后,Poisson掃描模型(Washburn,2014年),它將探測模擬成一個Poisson過程,被用來制定探測的累積概率的表達。該表達式為橫向范圍函數鋪平了道路,該函數描述了在給定的環境條件下,波浪滑翔機在特定范圍內探測目標的能力。

為了最大限度地提高總體探測概率,探索了將波浪滑翔機置于不同的編隊中--即AOO中的障礙物、扇形、圓形和多障礙物。實驗是通過模擬潛艇穿越該地區周邊的隨機點來進行的。然后改變不同編隊中的ESR和波浪滑翔機的數量,以深入了解特定情況下的最佳位置。通過改變關鍵參數,如目標速度、泊松過程的檢測率和模擬中的FOM,也進行了敏感性分析,以分析它們對總體檢測概率的影響。模擬結果表明,將波浪滑翔機放置在AOO的障礙物陣中,可以最大限度地探測到穿越該區域的海底接觸物的概率。盡管屏障編隊總是比多屏障編隊提供更高的探測概率,但它可以作為一種戰術選擇,使潛艇在較長的時間內處于防御狀態,因為潛艇必須穿越穿插在一起的波浪滑翔機層。探測的概率隨著ESR探測率的增加而增加,而保持所有其他因素不變,則隨著目標速度的增加而減少。

付費5元查看完整內容

戰斗機飛行員通常使用模擬器來練習他們需要的戰術、技術和程序。訓練可能涉及計算機生成的力量,由預定的行為模型控制。這種行為模型通常是通過從有經驗的飛行員那里獲取知識而手工制作的,并且需要很長的時間來開發。盡管如此,這些行為模型由于其可預測性和缺乏適應性而通常是不夠的,教官必須花時間手動監測和控制這些力量的各個方面。然而,最近人工智能(Al)研究的進展已經開發出能夠產生智能代理的方法,在復雜的游戲(如圍棋和《星際爭霸II》)中擊敗人類專家玩家。

同樣,人們可以利用人工智能的方法來組成空戰的高級行為模型,使教官能夠更專注于飛行員的訓練進展,而不是手動控制他們的對手和隊友。這種智能行為必須表現得逼真,并遵循正確的軍事理論,以證明對飛行員訓練是有用的。實現這一目標的一個可能方法是通過模仿學習,這是一種機器學習(ML)類型,代理學習模仿專家飛行員提供的例子。

本報告總結了使用模仿學習技術優化空戰行為模型的工作。這些行為模型被表述為控制計算機生成的部隊的行為轉換網絡(BTN),由下一代威脅系統(NGTS)模擬,這是一個主要針對空域的軍事模擬應用。遺傳算法Neuroevolution of Augmenting Topologies (NEAT)的一個改編版本優化了BTNs,使其行為與飛行員行為的演示相似。與大多數ML方法一樣,NEAT需要許多連續的行為模擬來產生滿意的解決方案。NGTS不是為ML目的而設計的,因此圍繞NGTS開發了一個系統,該系統自動處理模擬和數據管理并控制優化過程。

進行了一組實驗,其中開發的ML系統對BTN進行了優化,以模仿三個簡單空戰場景中的例子行為。實驗表明,NEAT的改編版本(BTN-NEAT)產生的BTN能成功地模仿簡單的示范行為。然而,優化過程需要相當長的時間,計算時間長達44小時或模擬飛行時間為92天。緩慢的優化主要是受NGTS不能快速運行同時保持可靠的影響。這個可靠性問題是由NGTS缺乏時間管理造成的,它可以將代理人的狀態與模擬時間戳聯系起來。為了在更復雜的場景和演示中實現成功的行為優化,人們應該在高可靠性的前提下以比實時快得多的速度模擬行為。因此,我們認為NGTS并不適合于未來的ML工作。相反,需要一個為ML目的設計的輕量級空戰模擬,能夠快速可靠地運行。

引言

戰斗機飛行員通過嚴格的訓練學習并保持他們的戰術技能。相當多的訓練是以模擬為基礎的,在訓練中,受訓者面對友軍和敵軍,他們的行為最好能加速訓練并建立起理想的能力。計算機生成的部隊(CGFs),是自主的、計算機控制的實體,被用來扮演這些友軍和敵軍的角色。理想情況下,在基于模擬的訓練中使用CGF應該提供一些好處,如增加飛行員的訓練可用性,減少訓練中對主題專家(SME)的需求。然而,手動模擬CGF的行為,使其對教學作用有足夠的代表性,這是很繁瑣的,而且已被證明具有挑戰性。因此,目前手工制作的行為模型往往是可預測的,不能適應新的情況或在軍事理論、戰術、技術和程序(TTP)方面表現得很真實。在基于模擬的空戰訓練中保持真實的體驗對于確保受訓者獲得必要的技能至關重要。然而,由于CGF的表現和行為被認為是不足的,中小企業往往在訓練中對CGF進行微觀管理,這是不幸的,因為中小企業的成本很高,他們的時間很寶貴,而且數量有限。

人工智能研究的最新進展已經開發出能夠產生智能代理的方法,在復雜的游戲中擊敗人類專家玩家,如圍棋[1]和星際爭霸II[2]。隨著這些進展,學習用于空戰的指導性和適應性代理行為已成為一個越來越受關注的研究領域。然而,為了發揮作用,飛行員模擬的對手和盟友的行為必須是真實的,并符合軍事理論,而不是,例如,試圖不惜一切代價贏得交戰。該研究領域的一些貢獻集中在強化學習方法上,并且已經顯示出一些有希望的結果。然而,即使仔細設計目標函數,強化學習代理也有可能學習到用于飛行員訓練的次優政策,這意味著他們的行為與根據既定理論和TTP所期望的不同。另一種方法是向ML算法提供專家示范,從中提取飛行員的具體知識,并將其納入代理人使用的行為模型。據我們所知,在空戰領域,很少或沒有先前的研究探討過這種方法。

本報告介紹了基于達爾文自然選擇原則的模仿學習算法被用來產生以行為轉換網絡(BTNs)表示的空戰行為模型。雖然BTNs已經出現在之前使用強化學習的空戰行為建模的相關工作中,但這項工作研究了BTNs是否適合模仿學習。下一代威脅系統(NGTS)被用來模擬BTNs,并進行了評估以考慮該模擬系統對機器學習(ML)的適用性。已經開發了一個ML系統,包括使用NGTS和選定的學習算法成功生產空中戰斗機代理所需的工具和方法。這個ML系統自動處理模擬和數據管理并控制學習算法。簡單的空戰場景被定義,并在使用該ML系統進行的一系列實驗中使用,在這些實驗中產生了反映示范飛行員行為的BTN。

為了限制這項工作的范圍,我們做了一些限定。開發的ML系統不是生產級的,而是一個概念驗證。因此,實驗中使用的場景和試點演示保持簡單。具體來說,這些都是一對一的場景,演示僅限于二維空間的運動。此外,行為演示是基于報告作者手工制作的BTN,而不是由專業飛行員制作的。

本報告是為從事軍事訓練和人工智能相關課題的研究人員準備的,最好具有空戰和行為建模的知識,其組織結構如下。第2章介紹了工作的背景,包括與空戰訓練和模擬有關的概念、人工智能理論和相關工作。第3章涵蓋了實驗中使用的選定的學習算法及其配置,而第4章介紹了構成ML系統的過程和工具。第5章和第6章通過定義空戰場景和行為演示來回顧實驗的設置和執行,并介紹了結果。第7章討論了這些結果,以及ML系統和NGTS的性能。第8章本報告的總結和對未來工作的思考。

圖5.2 第一個場景的總結: 逃亡。CGF從它們的初始位置向對方飛去。一旦藍色飛機進入紅色飛機的導彈射擊范圍內,紅色飛機就會轉身向相反方向逃離。

付費5元查看完整內容

隨著海軍特種作戰從過去20年的反恐行動轉向有爭議環境中的同行競爭,他們需要地面部隊指揮官(GFC)為減輕認知過載、運用綜合效應和平衡戰略任務風險做好準備。如果地面部隊指揮官的培訓能夠以合格的理論標準為基礎,那么就可以通過系統化的培訓管道來減少任務的剩余風險和部隊的風險,這可以通過整合目前可用的虛擬現實技術來增加、啟用和加強。GFC崗位傳統上是一個批判性思維、決策和應急管理的角色。隨著戰場的發展,GFC將有比過去更多的資產需要控制,更多的突發事件需要計劃。這項研究評估了當前的GFC培訓和虛擬現實生態系統。海軍特戰界應采用地面部隊指揮官的虛擬現實訓練器,因為它將使GFC在零威脅的環境下進行反復訓練。

由于現行訓練準則的限制,海軍特種作戰社區的地面部隊指揮官沒有充分發揮他們的潛力。初級軍官為成為一名地面部隊指揮官總共接受了八周的正式培訓:六周在初級軍官培訓課程,兩周在地面部隊指揮官課程。初級軍官被期望成功地計劃和執行現實世界的行動,同時只完成極少的現實訓練場景。海軍特戰部隊的士兵至少屬于許多類別中的一種;他們是突破者、聯合終端攻擊控制者、狙擊手、偵察負責人或通信專家。這些專業中的每一個都有正式的訓練和持續演習,可以持續八個星期。訓練也是年復一年地進行,而地面部隊指揮官通常只經過一次正式訓練。想象一下,在未來,海軍特種作戰初級軍官準備在明天的戰爭中帶領各排對抗同行的競爭對手。挑戰將是巨大的,因為地面部隊指揮官沒有足夠的專門訓練時間來完善成為有效的戰斗領導人所需的技能。

本頂點研究主要關注以下內容。海軍特種作戰部如何能更好地準備和訓練其地面部隊指揮官,同時整合不斷進步的虛擬現實技術?通過海軍研究生院國防分析系和計算機科學系的共同努力,這項研究開始在一個合成環境中設計場景,初級軍官最終將能夠使用這些場景作為現有地面部隊指揮官培訓的補充。

虛擬現實在軍隊中并不是一個新概念;不同軍種都在某種程度上使用虛擬現實來加強訓練。海軍特種作戰部甚至有一個虛擬現實系統,是其JTACs的一個記錄項目。該記錄項目證明了特種作戰司令部致力于虛擬現實技術的采用,以確保其操作人員得到最好的培訓質量。這項研究不是為了創造一種新的虛擬現實技術,而是為了了解虛擬現實生態系統,然后為海軍特種作戰找到一種合適的采用方法。虛擬現實生態系統正在成倍增長,正因為如此,倫理和道德正在成為其開發者和使用者中更受歡迎的話題。隨著虛擬現實技術越來越容易被終端用戶使用,在短期內需要進行更多關于虛擬現實技術對個人行為的長期影響的研究。

地面部隊指揮官虛擬現實訓練器并不打算取代現有的培訓或正式課程。它只是作為一種補充。評價是,沒有足夠的專門時間讓初級軍官在成為地面部隊指揮官方面得到有意義的重復訓練。如果虛擬現實訓練器要對海軍特種作戰指揮部產生積極的影響,初級軍官的訓練就需要修改。建議在初級軍官培訓課程中初步實施這項技術,而不是干擾正在準備進行單位級別訓練和部署的海軍特種作戰排。初級軍官在這一階段的訓練中處于學生狀態,還沒有被引入深入的任務規劃或復雜的決策練習。向學生介紹虛擬現實訓練器將提供充足的時間來測試硬件和軟件,然后再將其用于更嚴峻的情況。

在海軍特戰基礎訓練司令部和海軍研究生院的模擬虛擬環境和模擬實驗室之間建立一個反饋回路,將使未來的場景發展和持續的伙伴關系成為可能。對未來研究和發展的建議包括以下內容:海軍研究生院的Bucklew小組和海軍特種作戰基本訓練司令部之間繼續合作,與工業界合作以加快合成環境訓練場景的創建,以及對特種作戰部隊的虛擬現實訓練的有效性進行正式評估。

付費5元查看完整內容

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。

人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題:

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?

3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容

美海軍陸戰隊長期以來一直使用戰術決策游戲(TDG)來訓練和評估領導和決策能力。使用紙筆或干擦板的陳舊過程需要一個主題專家在場,以評估和評價每個海軍陸戰隊員的演習計劃,并對他們的演習計劃提供即時反饋。這個過程很耗時,而且不允許海軍陸戰隊員進行必要的演練和集訓,以建立他們在各種情況下的直覺決策并獲得經驗。無論任務如何,海軍陸戰隊要求領導者在戰斗中取得成功,要做好準備,即使是在第一次遇到這種情況時也要采取行動。

基于計算機的TDG被設計為允許海軍陸戰隊員在時間有限的環境下,在未知的地形和不同的敵人情況下,通過連續的重復練習來獲得排級演習的經驗。這個系統使海軍陸戰隊員能夠獲得他們需要的重復訓練,以建立他們的決策技能,并補充教官指導的訓練。使用重復測量設計,數據表明,使用基于計算機的TDG縮短了海軍陸戰隊員的決策周期,并顯示出通過快速重復選擇正確機動路徑的準確性有所提高。

研究問題

  • 研究問題1:通過計算機模擬訓練排級決策,能在多大程度上縮短從數據收集到決策的周期?

  • HA1: 有效的訓練將體現在參與者在規定的時間內為每個場景選擇可接受的決定(70%的分數),μ>0.70。

  • HA2:參與者在整個培訓迭代過程中,完成TDG的平均時間減少,?μtime < 0。

  • 研究問題2:基于計算機的戰術決策游戲(TDG)在多大程度上是一種可用的戰術決策培訓設備?

付費5元查看完整內容
北京阿比特科技有限公司