人工智能在空戰領域正變得越來越重要。目前,大多數空戰研究都假定所有飛機信息都是已知的。但在實際應用中,由于現實限制和傳感器誤差,一些飛機信息,如位置、姿態、速度等,可能是不正確的,或者是不可能獲得的。在本文中,我們提出了一種基于深度強化學習的框架,用于開發一種能夠在信息不足的部分可觀測馬爾可夫決策過程(POMDP)條件下執行可視范圍(WVR)內空對空作戰的模型。為了穩健地應對這種情況,我們使用了遞歸神經網絡,并應用了軟評價器(SAC)算法,以有效應對現實限制和傳感器誤差。此外,為了提高學習效率和效果,我們還應用了課程學習技術來限制狀態空間的探索范圍。最后,模擬和實驗結果表明,所提出的技術能夠在嘈雜的環境中處理傳感器限制和誤差引起的實際問題,同時還能高效地減少學習的訓練時間。
圖 2 顯示了本研究提出的空戰模型學習框架概覽,該框架由矢量化空戰模擬環境和包括重放緩沖器在內的循環 SAC 模塊組成。環境中有兩個動態模型:己方和目標。它們分別從 SAC 模塊的角色和基于規則的行為模型中獲得動作 at 和 atarget,并輸出飛機狀態 sownship 和 starget。模擬器根據這些狀態生成獎勵 rt 和觀測值 ot,同時考慮到配置的傳感器特性。軌跡(ot、at、rt)被存儲在重放緩沖區中,固定長度的軌跡序列將被采樣用于批判。
應用人工智能模擬空對空作戰場景正引起越來越多的關注。迄今為止,高維狀態和行動空間、高度復雜的情況信息(如不完全信息和過濾信息、隨機性、對任務目標的不完全了解)以及非線性飛行動態對準確的空戰決策構成了巨大挑戰。當涉及多個異構代理時,這些挑戰會更加嚴峻。我們為具有多個異構代理的空對空作戰提出了一個分層多代理強化學習框架。在我們的框架中,決策過程分為兩個抽象階段,異構的低級策略控制單個單位的行動,而高級指揮官策略則根據總體任務目標下達宏觀命令。低層次政策是為精確控制部隊作戰而訓練的。它們的訓練是按照學習課程安排的,其中包括日益復雜的訓練場景和基于聯賽的自我比賽。根據預先訓練好的低級策略,對指揮官策略進行任務目標訓練。經驗驗證證明了我們設計方案的優勢。
我們介紹了一個基于統計分類的對話系統,該系統用于在協作導航領域實現人機對話自動化。分類器是在一個小型的多層 Wizard-of-Oz 對話語料庫中訓練的,其中包括兩個向導:一個代表對話能力,另一個代表導航能力。下面,我們將介紹分類器的實現細節,并展示如何將其用于自動對話向導。我們在語料庫中的幾組源數據上評估了我們的系統,發現即使使用非常有限的訓練數據,響應準確率也普遍很高。這項工作的另一個貢獻是新穎地展示了對話管理器,它使用分類器與兩個不同的人類角色進行多樓層對話。總之,這種方法有助于口語對話系統對自然語言輸入做出穩健而準確的回應,也有助于需要在團隊環境中與人類互動的機器人。
我們目前正在開發一個端到端口語對話系統,用于人機協作導航領域。該系統在涉及雙 WoZ 設置的小型語料庫上進行訓練,其中一個向導負責對話管理(DM),另一個向導負責機器人導航(RN)。使用這種語料庫的理由是,我們希望系統能以適當的、類似人類的方式解釋語音并做出反應。這種方法提供了數據驅動的見解,讓我們了解在協作導航任務的背景下,這樣的回應會是什么,以及我們應該期待什么樣的回應。我們的最終目標是創造一個完全自主的機器人。在本文中,我們介紹了利用基于跨語言信息檢索的統計分類器實現自然語言對話功能自動化的初步嘗試。該系統跨多個樓層(即不同的通信渠道)運行,"翻譯 "人類用戶與 RN 組件或向導之間的信息,并向人類用戶提供積極和消極的反饋。
鑒于我們的語料庫規模較小,我們有興趣探索一下,利用如此有限的訓練數據和注釋,我們能在多大程度上采用數據驅動方法。大多數端到端系統需要大量的訓練集才能獲得合理的性能,但之前對類似分類器的評估顯示,與其他系統(如 [20])所需的數十萬條訓練數據相比,我們只用了幾百條語料就獲得了相當高的準確率 [9]。請注意,我們并不是說我們的方法可以避免其他數據驅動系統的局限性,我們將在第 5 節中討論其中的一些局限性。然而,我們的目標是通過我們的分類和 DM 方法來減輕其中的一些局限性。
下面,我們將介紹我們的任務領域,并提供所用語料的詳細信息。接下來,我們將介紹我們的分類方法以及實施的 DM 策略。最后,我們將在語料庫中不同規模的數據集上對我們的系統進行評估,以比較響應的準確性。在評估中,我們將關注以下幾點:(1) 分類器的準確性(尤其是與訓練數據的大小和組成有關的方面),(2) DM 響應的充分性,以及 (3) 系統在機器人架構中的集成。
我們的任務領域涉及類似 USAR 場景的協作導航。在任務中,人類擔任指揮官,監督遠程定位的機器人在一個陌生的物理環境中執行導航任務。該環境以房屋為模型,包括各種房間和與該環境類型一致的物體(房間、走廊等)。任務的目標是團隊合作完成兩項子任務--一項與搜索有關(如尋找鞋子),另一項與分析有關(如評估該區域是否可用作總部)。
在整個任務過程中,指揮官都坐在電腦前,電腦界面顯示與任務相關的信息。界面包括顯示機器人位置的二維占位網格、機器人拍攝的最后一張圖像快照,以及顯示機器人對話回復的文本框(見圖 1 右上方)。為了指揮機器人,指揮官可以使用不受約束的自然語言自由發言。常見的指令包括 "向前移動 10 英尺"、"拍照 "和 "右轉 45?"。人們也會使用基于地標的指令,如 "移動到黃色圓錐體前 "和 "到你右邊的門口去",不過這些指令不如基于度量的指令那么常見[15]。
圖 1 具有雙向導設置的實驗任務域(摘自 [13] )。
任務使用雙 WoZ 設置運行,其中一個向導控制 DM,另一個向導控制 RN。重要的是,向導之間必須相互通信,以確保正確及時地執行操作和做出響應[14]。該任務已進行了多次實驗,其他實驗目前正在進行中。在實驗(Exp.)1 中,DM 向導根據預先制定的指南(見 [13]),向指揮官和 RN 向導自由輸入回復。在此基礎上,我們開發了一個圖形用戶界面,供 DM 向導在實驗 2 中使用,以提供更快、更統一的回復[2, 16]。在實驗 3 中,我們使用了相同的圖形用戶界面,但這里我們使用的是模擬機器人和環境,而不是物理環境。實驗 1 和實驗 2 各有 10 名參與者,而實驗 3 則有 62 名參與者。
我們的研究展示了如何將技術和數據科學實踐與用戶知識相結合,既提高任務性能,又讓用戶對所使用的系統充滿信心。在本手稿中,我們重點關注圖像分類,以及當分析師需要及時、準確地對大量圖像進行分類時出現的問題。利用著名的無監督分類算法(k-means),并將其與用戶對某些圖像的手動分類相結合,我們創建了一種半監督圖像分類方法。這種半監督分類方法比嚴格的無監督方法具有更高的準確性,而且比用戶手動標記每張圖像所花費的時間要少得多,這表明機器和人工優勢的結合比任何替代方法都能更快地產生更好的結果。
美國陸軍對人工智能和輔助自動化(AI/AA)技術在戰場上的應用有著濃厚的興趣,以幫助整理、分類和澄清多種態勢和傳感器數據流,為指揮官提供清晰、準確的作戰畫面,從而做出快速、適當的決策。本文提供了一種將作戰模擬輸出數據整合到分析評估框架中的方法。該框架有助于評估AI/AA決策輔助系統在指揮和控制任務中的有效性。我們的方法通過AI/AA增強營的實際操作演示,該營被分配清理戰場的一個區域。結果表明,具有AI/AA優勢的模擬場景導致了更高的預期任務有效性得分。
美國陸軍目前正在開發將人工智能和輔助自動化(AI/AA)技術融入作戰空間的決策輔助系統。據美國陸軍機動中心稱,在決策輔助系統等人工智能/輔助自動化系統的協助下,士兵的作戰效率可提高10倍(Aliotta,2022年)。決策輔助工具旨在協助指揮官在作戰場景中減少決策時間,同時提高決策質量和任務效率(Shaneman, George, & Busart, 2022);這些工具有助于整理作戰數據流,協助指揮官進行戰場感知,幫助他們做出明智的實時決策。與使用AI/AA決策輔助工具相關的一個問題是,陸軍目前缺乏一個有效的框架來評估工具在作戰環境中的使用情況。因此,在本文中,我們將介紹我們對分析框架的研究、設計和開發,并結合建模和仿真來評估AI/AA決策輔助工具在指揮和控制任務中的有效性。
作為分析框架開發的一部分,我們進行了廣泛的文獻綜述,并與30多個利益相關者進行了利益相關者分析,這些利益相關者在人工智能/AA、決策輔助、指揮與控制、建模與仿真等領域具有豐富的知識。根據他們對上述主題的熟悉程度,我們將這些利益相關者分為若干焦點小組。我們與每個小組舉行了虛擬焦點小組會議,收集反饋意見,并將其用于推動我們的發現、結論和建議(FCR)。同時,我們還開發了一個逼真的戰場小故事和場景。利用該場景和我們的FCR輸出,我們與美國陸軍DEVCOM分析中心(DAC)合作開發了一個功能層次結構,通過建模和仿真來測量目標。我們將假設的戰斗場景轉移到 "一個半自動化部隊"(OneSAF)中,該模擬軟件利用計算機生成部隊,提供部分或完全自動化的實體和行為模型,旨在支持陸軍戰備(PEOSTRI, 2023)。使用分析層次過程,我們征詢了評估決策者的偏好,計算了功能層次中目標的權重,并創建了一個電子表格模型,該模型結合了OneSAF的輸出數據,并提供了量化的價值評分。通過A-B測試,我們收集了基線模擬和模擬AI/AA效果的得分。我們比較了A情景和B情景的結果,并評估了AI/AA對模擬中友軍任務有效性的影響。
分析評估框架可針對多標準決策問題對定量和/或定性數據進行評估。定性框架,如卡諾模型(Violante & Vezzetti, 2017)、法式問答(Hordyk & Carruthers, 2018)和定性空間管理(Pascoe, Bustamante, Wilcox, & Gibbs, 2009),主要用于利益相關者的投入和頭腦風暴(Srivastava & Thomson, 2009),不需要密集的計算或勞動。定量評估框架以數據為導向,提供一種數學方法,通過衡量性能和有效性來確定系統的功能。分析層次過程(AHP)適用于我們的問題,因為它使用層次設計和成對的決策者偏好比較,通過比較權重提供定性和定量分析(Saaty,1987)。雖然AHP已被廣泛應用,但據我們所知,該方法尚未被用于評估人工智能/自動分析決策輔助工具,也未與A-B測試相結合進行評估。
指揮與控制(C2)系統用于提供更詳細、更準確、更通用的戰場作戰畫面,以實現有效決策;這些C2系統主要用于提高態勢感知(SA)。研究表明,使用數字化信息顯示方法的指揮官比使用無線電通信收集信息的指揮官顯示出更高水平的態勢感知(McGuinness和Ebbage,2002年)。AI/AA與C2的集成所帶來的價值可以比作戰斗視頻游戲中的 "作弊器":它提供了關于敵方如何行動的信息優勢,并幫助友軍避免代價高昂的后果(McKeon,2022)。對C2系統和SA的研究有助于推動本文描述的小故事和場景的發展。
建模與仿真(M&S)是對系統或過程的簡化表示,使我們能夠通過仿真進行預測或了解其行為。M&S生成的數據允許人們根據特定場景做出決策和預測(TechTarget,2017)。這使得陸軍能夠從已經經歷過的作戰場景和陸軍預計未來將面臨的作戰場景中生成并得出結論。模擬有助于推動陸軍的能力評估。測試和評估通常與評估同時進行,包括分析模型以學習、改進和得出結論,同時評估風險。軍隊中使用了許多不同的M&S工具。例如,"步兵戰士模擬"(IWARS)是一種戰斗模擬,主要針對個人和小單位部隊,用于評估作戰效能(USMA, 2023)。高級仿真、集成和建模框架(AFSIM)是一種多領域M&S仿真框架,側重于分析、實驗和戰爭游戲(West & Birkmire, 2020)。在我們的項目范圍內,"一支半自動化部隊"(OneSAF)被用于模擬我們所創建的戰斗情況,以模擬在戰場上擁有人工智能/自動機優勢的效果。
如前所述,人工智能/AA輔助決策的目標是提高決策的質量和速度。人工智能可用于不同的場景,并以多種方式為戰場指揮官和戰士提供支持。例如,人工智能/AA輔助決策系統可以幫助空中和地面作戰的戰士更好地 "分析環境 "和 "探測和分析目標"(Adams, 2001)。人工智能/自動機輔助決策系統可以幫助減少人為錯誤,在戰場上創造信息和決策優勢(Cobb, Jalaian, Bastian, & Russell, 2021)。這些由AI/AA輔助決策系統獲得的信息分流優勢指導了我們的作戰小故事和M&S場景開發。
在我們的作戰小故事中,第1營被分配到一個小村莊,直到指定的前進路線。營情報官羅伊上尉(BN S2)使用AI/AA輔助決策系統(即助手)準備情報態勢模板(SITTEMP),該系統可快速收集和整合積累的紅色情報和公開來源情報衍生的態勢數據。然后,它跟隨瓊斯少校和史密斯上尉,即營行動指揮員(BN S3)和S3助理(AS3),使用AI/AA輔助決策系統制定機動行動方案(COA),以評估 "假設 "情景、 她根據選定的機動方案開發指定的利益區域(NAI),然后在其內部資產和上層資源之間協調足夠的情報、監視和偵察(ISR)覆蓋范圍。假設時間為2030年,雙方均不使用核武器或采取對對方構成生存威脅的行動,天氣條件對藍軍和紅軍的影響相同,時間為秋季,天氣溫暖潮濕。
作為解決方案框架背景研究的一部分,我們與32位民用和軍用利益相關者進行了接觸,他們都是AI/AA及其對決策和仿真建模的貢獻方面的專家。我們進行的利益相關者分析過程如下: 1)定義和識別利益相關者;2)定義焦點小組;3)將利益相關者分配到焦點小組;4)為每個焦點小組制定具體問題;5)聯系利益相關者并安排焦點小組會議;6)進行焦點小組會議;7)綜合并分析利益相關者的反饋;以及8)制定FCR矩陣。我們利用FCR矩陣的結果來繪制功能層次圖,其中包括從模擬場景中生成/收集的目標、衡量標準和度量。然后根據這些目標、措施和指標對任務集的重要性進行排序。這為使用層次分析法(如下所述)奠定了基礎。
AHP是托馬斯-薩蒂(Thomas Saaty)于1987年提出的一種方法,它利用專家判斷得出的一系列成對比較,將功能層次結構中的每個功能和子功能放入一個優先級表中。然后通過有形數據或專家定性意見對各種屬性進行排序。如表1所示,這些排序被置于1-9的范圍內。在賦予每個屬性1-9的權重后,再賦予標準和次級標準權重,以顯示其相對重要性(Saaty,1987)。
這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。
在現代空戰中,超視距(BVR)交戰越來越頻繁。飛行員面臨的主要挑戰之一是機動計劃,這反映了他們的決策能力,并能決定成敗。為確保采用虛擬BVR空戰模擬的飛行員訓練取得成功,計算機生成部隊(CGF)的高精度水平至關重要。要實現這一目標,不僅要充分復制和模擬實體的物理特性,還要使其具有接近人類的行為。在本文中,我們提出了應對這些挑戰的總體概念: 首先,我們引入飛行運動動態模型(飛機、導彈、箔條)以及干擾器。然后,我們分析典型的超視距空戰的工作流程,將其分為攻擊、自衛和決定。在此背景下,我們引入行為樹作為這些任務的建模方法,并解釋其優點。進一步的計劃包括在未來由人類控制的對手飛機(飛行員)與CGF對飛的實驗活動中驗證和確認CGF的行為。最后,我們對未來的工作進行了展望,我們打算在包含多個自由度的任務中采用強化學習。
圖4. 人工智能對目標定位的增強:人工智能可以通過搜索目標并在發現后發出警報來增強動態目標定位周期。
開發和使用新的軍事技術是一個軍事專業人員工作的一部分。事實上,軍事歷史在很大程度上是一個技術革新的故事,士兵需要學習如何操作新系統。因此,關于整合人工智能的很多東西并不新鮮。就像坦克、飛機甚至弩一樣,隨著時間的推移,士兵們學會了使用和運用技術,工業界學會了以足夠的數量和質量生產技術,高級領導人學會了運用技術來實現戰略效果。如前所述,人工智能技術與它們的顛覆性“前輩”之間的區別在于,前者有能力改善廣泛的軍事武器、系統和應用。由于這種潛在的普遍性,幾乎所有的士兵都必須在某種程度上變得熟練,才能有效地和道德地運用AI技術。隨著這項技術在應用上的擴展,戰爭將像管理暴力一樣管理數據。
這種普遍性也提出了關于人類發展和人才管理的問題。盡管培訓計劃最終會培養出更多的知識型士兵,人事系統也會提高管理士兵的能力,但軍警人員能夠獲得知識和技能的限制仍然存在,特別是在作戰層面。盡管討論的目的不是要建立嚴格的指導方針,但討論確定了士兵需要獲得的許多知識。例如,士兵將需要知道如何策劃和培訓數據庫,而該數據庫對他們正在執行的任務有著重要作用。這樣做需要確保數據的準確、完整、一致和及時。使用這些數據需要熟練應用推薦模型卡中描述的條件,而熟練的操作有助于確保算法以有效和道德的方式執行。
當然,信任不能僅靠政策和程序來保證。指揮官、參謀員和操作員需要知道他們被信任做什么,以及他們信任系統做什么。指揮官、參謀員和操作員信任人工智能系統來識別合法目標,并避免識別非法目標。參與這一過程的人必須在使用這些信息時,既需要擊敗敵人,又必須避免友軍和非戰斗人員的傷亡。要找到這種平衡,就需要判斷人應該承擔多大的風險。
只要參與流程的人類能夠與系統進行有效的互動,由人工智能賦能的系統就能促進找到這種平衡。在將人類控制整合到機器流程中時,人們經常被迫在控制和速度之間做出選擇:強加的人類控制越多,系統的運行速度就越慢。但本研究發現這種兩難的局面是錯誤的。盡管在某些情況下,在人的控制和速度之間進行平衡可能是必要的,但如果系統要最佳地運作,人的輸入是必要的。
實現最佳性能首先要求指揮官確保參謀和操作人員了解模型能力,理解數據質量的重要性,以及洞悉模型在作戰環境中的表現。盡管它可能不會使系統更加精確或準確,但實現這些任務可使系統能夠更好地對輸出進行概率分配。第二,指揮官需要確定對任務、友軍戰斗人員和敵方非戰斗人員的風險有多大才合適。這一決定很復雜,其中關鍵任務可能是需要容忍更多的友軍和非戰斗人員傷亡。同樣,如果非戰斗人員的密度較低,即使任務不那么緊急,也可以容忍較高的風險。尋找這種平衡將是人類的工作。
但在前面描述的模糊邏輯控制器的幫助下,指揮官可以更好地確定什么時候可以信任一個人工智能系統在沒有人類監督的情況下執行一些目標定位步驟。此外,可以通過構建交互的邏輯,以找到多種不同的人機互動配置,確保系統的最佳使用,同時避免不必要的傷害。在LSCO期間,讓指揮官在需要時選擇智能和負責任地加快目標定位過程將是至關重要的,本報告中提出的設計實現了這一目標。這一成就在未來尤其重要,因為為了保護部隊并實現任務目標,指揮官將面臨大量時間敏感目標,及面臨承擔更多風險的操作條件。
在培養具有正確技能的足夠數量士兵以充分利用人工智能技術方面,仍有大量的工作。目前的人才管理計劃尚未達到管理這一挑戰的要求,盡管多個有前途的計劃準備最終滿足需求。然而,在大多數情況下,這些計劃都是為了滿足機構層面的要求,在機構層面上做出全軍采買人工智能和相關技術的決策。但是,這些技能將如何滲透到作戰陸軍,尚不清楚。
盡管人工智能在目標定位中的使用并不違反當前的戰爭法,但它確實引起了一些道德倫理問題。在所討論的目標定位系統背景下,這些倫理問題中最主要的是問責制差距和自動化偏見。第一個問題對于回答核心問題至關重要,“指揮官在什么基礎上可以信任人工智能系統,從而使指揮官可以對這些系統的使用負責?”自動化偏見和數據衛生與問責制差距有關,因為當這些問題存在時,它們會破壞指揮官可能希望實施的有意義的人類控制措施。指揮官可以通過以下方式縮小問責差距:首先,確保人員受到適當的教育、技能和培訓,以整理相關數據;其次,確保指揮官允許的風險,準確地反映完成任務與保護友軍士兵和非戰斗人員之間的平衡需求。指揮官還可以通過在機器需要更多監督時向參與該過程的人類發出信號來減少自動化偏見的機會及其潛在影響。
作為一個專業人員,不僅僅意味著要提供服務,還要在出問題時承擔責任。專業人員還必須了解各種利益相關者,包括公眾和政府及私營部門實體,如何與本行業互動和競爭。鑒于這些技術的潛力,軍事專業人員必須首先學會在技術及其應用的發展中管理預期。由于這種演變影響到專業工作的特點,軍事專業人員還必須注意專業以外的人如何重視、獎勵和支持這項工作。因此,隨著美軍繼續將人工智能和數據技術整合到各種行動中,對其專業性的考驗將在于擁有專業知識的能力,以及建立能夠繼續發展、維護和認證這種專業知識的機構,這些機構既能滿足美國人民的國防需求,又能反映他們的價值觀。
近幾十年來,國防系統的規劃已經演變成基于能力的規劃(CBP)過程。本文試圖回答兩個問題:首先,如何表達一個復雜的、真實世界的能力需求;其次,如何評估一個具有交互元素的系統是否滿足這一需求。我們建議用一套一致的模型以可追蹤的方式來表達能力需求和滿足該需求的解決方案。這些模型將目前的能力模型,具體到規劃級別和能力觀點,與系統思維方法相結合。我們的概念模型定義了環境中的防御系統,數據模型定義并組織了CBP術語,類圖定義了CBP規劃元素。通過給出一個能力參數化的例子來說明這個方法,并將其與DODAF能力觀點和通用CBP過程進行比較。我們的數據模型描述了能力在行動中是如何退化的,并將該方法擴展到能力動態。定量能力定義的目的是支持解決現實世界中相互作用的子系統,這些子系統共同實現所需的能力。
在本節中,能力被定義為執行任務的效果或功能并作為系統時,我們討論CBP;在1.2小節中進一步討論Anteroinen的分類中的第三和第五類。為了專注于軍事系統或軍事單位的結構定義和未來的數學建模,只考慮系統的物理組成部分,即人員和物資,以及他們與能力的關系。環境的影響--天氣條件、地形、周圍的基礎設施和其他軍事單位--被省略,以關注兩種力量之間的相互作用;盡管在實踐中,環境和其他更廣泛的系統問題顯然是相關的。通常情況下,CBP過程定義了環境的相關方面和軍事行動的類型,為能力需求定義、能力評估和解決方案選擇制定了可能的規劃情況集合。
一個軍事單位或一個組織由其人員和物資組成。經過組織和訓練的人員配備了適當的物資,代表、擁有或產生能力。當兩個軍事單位相互作戰時,他們會啟動自己的能力,以造成敵人的物資和人員的退化。為了定義能力需求并計劃如何作為軍事單位或系統來實施,需要解決的問題是:在與敵人的互動過程中,能力將如何演變,而敵人的能力卻鮮為人知?圖1說明了在敵人能力的作用下,自己的軍事作戰和維持能力的動態互動。我們的能力削弱了敵方的人員和物資,對敵方的能力產生了影響;而敵方的能力削弱了我們的人員和物資,對我們的能力產生了影響。外部資源,也就是供應和維持能力,維持著被削弱的人員和物資。如因果循環圖所示,敵方的能力可以與我方的能力對稱地表示。第3節的進一步建模集中在我們自己的能力上,由圖1中的虛線表示,以便更純粹地表示。
對我們自己的能力的定義說明,由人員和物資提供,表明了復雜的結構和與能力有關的功能和元素之間的相互作用。此外,真正的軍事單位,通常由較小的編隊組成,有幾種能力,由大量不同的物資和人員組成,并與環境互動。
架構被定義為 "一個系統在其環境中的基本概念或屬性,體現在其元素、關系以及設計和進化的原則中"。因此,架構描述是一種表達架構的工作產品。架構框架是在一些應用領域或社區應用架構描述的基礎。架構框架為網絡系統的復雜性管理提供了結構化的方法,使利益相關者之間能夠進行溝通,并支持未來和現有系統的系統分析和設計。企業架構的Zachman框架是這類通用框架的一個例子。DoDAF、MODAF和NAF是用于國防系統分析和定義的架構框架,特別是用于指揮、控制、通信、計算機、情報、監視和偵察系統(C4ISR)。這些架構框架由觀點組成,定義了代表特定系統關注點的一組架構視圖的規則。架構視圖由一個或多個模型組成。架構框架基礎的元模型定義了不同視點中元素之間的關系。DoDAF元模型DM2有一個概念數據模型圖(DIV-1),用來向管理者和執行者傳達架構描述的高層數據構造的概念。MODAF元模型詳細定義了每個架構視圖的數據模型。
利益相關者需要適當的支持,以促進他們彼此之間以及與規劃專家團體的溝通,從而從CBP方法中獲益。軍事專家的作用不是參與復雜的工具和方法,而是為規劃過程提供重要的領域專業知識。架構框架是一個很好的工具,可以定義當前的防御系統,確定能力需求,并描述系統解決方案。不幸的是,架構框架和相關元模型的精確但復雜的機制與復雜的符號并不一定能以明顯的方式解釋能力觀點和要素之間的關系。因此,架構觀點和典型的CBP流程并沒有明顯的聯系。因此,參與能力規劃的軍事專家和決策者很少能夠加深理解,或者在沒有專門掌握這些工具和方法的人員的情況下,通過應用架構框架確定解決方案。需要對能力進行更簡單的定義,與流程兼容。
圖2提出了一個高層次的數據模型,它代表了能力定義問題的抽象。數據模型描述了能力模型類型及其關系,作為能力和防御系統建模的框架。符號的選擇是為了保持信息量,但對更多的人來說是可讀的,因此它不遵循任何特定的方法,但與SODA的認知圖譜有一些共同點。
能力的現實世界實例在圖的左邊,而概念模型類型在右邊。該模型的第一個版本已經被Koivisto和Tuukkanen應用于一個基于研發的自下而上的過程和概念性的未來系統,即認知無線電。原始模型描述,系統模型定義了物資、戰斗力和功能能力。實際上,這是一種雙向的關系:在所需能力和所需資源的驅動下建立系統模型,然后用系統模型來預測特定環境和實例中的結果。
防御系統由系統、系統要素及其相互作用組成,其突發屬性由系統、系統要素和它們的相互作用界定。圖3中的模型代表了系統層次結構中的防御系統層次。防御系統可以被看作是SoS,但我們應用一般的系統術語來保持模型的可擴展性,并為防御系統層次結構的較低層次提供合適的術語。在國防系統層次結構的任何一級,系統代表一個由系統元素組成的軍事單位:人員和物資。
圖3 國防系統在其背景下的概念系統模型。防御系統,即利益系統(SOI),被環境和其他行為者的系統所包圍。這些系統包括相互作用的系統要素人員(P)和物資(M)。子系統和系統元素之間的聯系是示范性的。
除了系統元素和它們的組織之外,還要定義功能和相應的輸出,以獲得更全面的系統定義。我們將能力定義為執行任務的效果或功能,是一種功能能力。在CBP過程中,功能能力定義了一些當前或計劃中的軍事單位或由物資和人員組成的系統的能力潛力。最終,能力發展過程必須以現實世界的軍事單位來定義系統的實施。力量要素的概念定義了最終的系統結構,也就是要生產的現實世界的軍事單位的組織。在我們的數據模型中,功能能力被安排在SOI內部,以代表系統的涌現屬性。當這種潛力或涌現被計劃為引起某種效果時,系統,具體來說是其功能能力,在計劃過程中被分配到一個任務中。此外,當軍事單位執行任務時,效果就會產生。高層數據模型的作用,如圖4,是將關鍵的術語及其關系可視化。
圖 4 基于能力的規劃中術語及其關系的高級數據模型表示
圖5中的類圖將圖3所示的概念系統模型中確定的國防系統規劃要素與圖4中的能力模型類型結合起來。由于我們關注的是國防系統,國家權力和軍事力量的要素被認為是其環境的一部分,不在圖中。然而,我們建議,國家權力也可以通過效應來表示。
圖 5 基于能力的規劃元素的統一建模語言 (UML) 類圖表示
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。