亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

應用人工智能模擬空對空作戰場景正引起越來越多的關注。迄今為止,高維狀態和行動空間、高度復雜的情況信息(如不完全信息和過濾信息、隨機性、對任務目標的不完全了解)以及非線性飛行動態對準確的空戰決策構成了巨大挑戰。當涉及多個異構代理時,這些挑戰會更加嚴峻。我們為具有多個異構代理的空對空作戰提出了一個分層多代理強化學習框架。在我們的框架中,決策過程分為兩個抽象階段,異構的低級策略控制單個單位的行動,而高級指揮官策略則根據總體任務目標下達宏觀命令。低層次政策是為精確控制部隊作戰而訓練的。它們的訓練是按照學習課程安排的,其中包括日益復雜的訓練場景和基于聯賽的自我比賽。根據預先訓練好的低級策略,對指揮官策略進行任務目標訓練。經驗驗證證明了我們設計方案的優勢。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

人工智能在空戰領域正變得越來越重要。目前,大多數空戰研究都假定所有飛機信息都是已知的。但在實際應用中,由于現實限制和傳感器誤差,一些飛機信息,如位置、姿態、速度等,可能是不正確的,或者是不可能獲得的。在本文中,我們提出了一種基于深度強化學習的框架,用于開發一種能夠在信息不足的部分可觀測馬爾可夫決策過程(POMDP)條件下執行可視范圍(WVR)內空對空作戰的模型。為了穩健地應對這種情況,我們使用了遞歸神經網絡,并應用了軟評價器(SAC)算法,以有效應對現實限制和傳感器誤差。此外,為了提高學習效率和效果,我們還應用了課程學習技術來限制狀態空間的探索范圍。最后,模擬和實驗結果表明,所提出的技術能夠在嘈雜的環境中處理傳感器限制和誤差引起的實際問題,同時還能高效地減少學習的訓練時間。

圖 2 顯示了本研究提出的空戰模型學習框架概覽,該框架由矢量化空戰模擬環境和包括重放緩沖器在內的循環 SAC 模塊組成。環境中有兩個動態模型:己方和目標。它們分別從 SAC 模塊的角色和基于規則的行為模型中獲得動作 at 和 atarget,并輸出飛機狀態 sownship 和 starget。模擬器根據這些狀態生成獎勵 rt 和觀測值 ot,同時考慮到配置的傳感器特性。軌跡(ot、at、rt)被存儲在重放緩沖區中,固定長度的軌跡序列將被采樣用于批判。

付費5元查看完整內容

在未來的數據密集型作戰環境中,威脅可能會有很大的不同。其中一個例子就是速度可達 5 馬赫及以上的導彈。要單獨應對這類威脅,至少需要做到兩點。第一,提供適當的作戰設想,考慮到未來的遠程威脅。其次,能夠收集、過濾、處理和理解相關數據,以便在短時間內確定優先次序并做出正確決策,這一點可能會更加重要。第三,在考慮網絡戰威脅時,可將這些威脅視為以光速進行。總之,在未來戰場上,從直接控制的傳感器到人工智能(AI)引導的傳感器,現有的不同類型的傳感器很可能需要高效、動態的指揮和控制(C2)。在本文中,我們提出了一項實驗研究,以調查傳感器指揮與控制可以集中在哪個層面、分散在哪個層面或兩者結合在哪個層面,以及哪個層面似乎足以在地理和信息擴大的作戰環境中及時應對威脅。

1 引言

指揮與控制(C2)作為一個術語,在許多方面都是一個二分法,它指向組織管理任務中兩個相互矛盾的方面。首先,它指向行使指揮權的創造性過程。其次,它指出了既制約指揮又使指揮成為可能的結構、規則和關系。指揮員要想提高效率,不僅要有能力應對手頭的問題,還必須了解、有時甚至克服作為其所要指揮的組織基礎的控制結構。無論控制結構是如何設計和實施的,一個軍事組織都必須具備基本的 C2 功能,才能發揮作用。軍事領域的一些思想家提出了這些功能的建模方法,如博伊德的觀察-定向-決策-行動循環(又稱 "OODAloop")[1, 2]、布雷默的動態-觀察-決策-行動循環(又稱 "DOODA loop")[3, 4, 5]、勞森的指揮與控制模型[6]等。幾乎所有這些模型都包含以下 C2 功能:監控、感知(此處等同于布雷默晚期定義的定向)、決策/規劃和執行/行動。在這些功能中,定向和決策功能一直是眾多研究的主題[例如,見 3、4、7]。

收集情報的職能(以下簡稱 "監測")傳統上一直由專業人員負責,他們匯總各種來源的信息,然后提交給規劃者和決策者。如今,一些武器系統的能力和速度對這種方法提出了挑戰。這不僅對近乎實時地更新態勢圖提出了挑戰,也對指揮和分配傳感器的 C2 流程提出了挑戰。

在繼續討論時,我們將使用布雷默的 C2 理論框架,該框架通常以 DOODAloop 的形式描述[例如,見 3、4]。動態 OODAloop 這個名稱基于博伊德上校著名的 OODAloop [1] 。最初,布雷默在其 DOODA 概念中定義了四個必要功能[7]:(1) 數據收集;(2) 感知,后來被重新命名為定向[見 5];(3) 規劃;(4) 軍事活動。

Spak 和 Carlerby 對最初的 DOODAloop 進行了改編[8]。在這里,C2 系統被視為系統環境中的相關系統 (SOI),其邊界是任務響應系統(圖 1)。在研究 C2 系統時,它基本上是由布雷默(Brehmer)提出的功能和流程組成的[例如,見 3、4、5],但在標注方面做了一些調整,并增加了一些元素。不過,考慮到構成任務響應系統的要素,即 C2 系統和執行系統及其相互關聯的部分,它們本身都可以被視為系統。

圖 1:系統背景下經過調整的 DOODAloop。

1.1. C2 系統的子系統和功能

由子系統組成的 C2 系統與 Brehmer 關于設計邏輯的討論有關[7,第 212 頁]。由此,Brehmer 認為,C2 系統的設計基本上是一個自上而下的過程,首先要確定設計該系統的目的。下一步是描述系統應實現的目標,即系統實現目標所需的不同功能。最后,布雷默提出,設計的最后一步是通過考慮如何實現系統的功能來描述系統的形式。布雷默還強調,該方案可自下而上地用于理解現有系統的運行方式[5](圖 2)。

盡管布雷默將他提出的設計邏輯與拉斯穆森的抽象層次[9]相聯系,但他在最新的出版物[5,第 66 頁]中也提到了阿科夫和埃默里[10]。不過,后兩位作者確實使用了 "結構 "一詞,而不是 "形式"。一般來說,這兩個詞可以等同看待。但在本文中,我們更傾向于使用 "結構 "的含義,即 "復雜事物各部分或元素之間的排列和關系"[參見,11]。此外,我們還贊同阿科夫和埃默里的觀點,他們寫道[10,第 16 頁]:"目的的含義取決 于其所處的環境: "目的的含義取決于功能的含義,而功能是相對于結構而言的[......]。結構是一個非常籠統的概念,包括幾何、運動、機械、物理和形態概念"。此外[第 26 頁],"[f ]unction 和 structure 一樣,是一個通用概念。它在任何意義上都不與結構相對立,而是[......]與結構完全兼容"。

這也與約翰森[12]提出的論點相一致,即結構既制約 C2 功能的實現方式,也使 C2 功能得以實現。因此,既然我們認為 C2 系統是由具有特定目的和功能的相互關聯的子系統創建的,那么 C2 系統及其子系統的結構就值得關注。

顯然,"系統 "一詞是本文的核心,因此我們要界定其含義。正如 Spak 和 Carlerby [8]指出的那樣,系統一詞的含義多種多樣,因此商定一個基本定義是有益的。由于我們的興趣在于設計有目的的 C2 系統,因此我們在此采用了 Wasson [13, 第 3 頁] 提供的系統定義: "一套綜合的可互操作的元素或實體,每個元素或實體都具有特定的、有限制的能力,通過各種組合配置,使用戶在規定的操作環境中,以成功的概率實現基于性能的任務結果,從而產生特定的指揮與控制、C2 行為"。

這一定義也與 Flood 和 Carson 所討論的系統識別規則相一致[14,第 71 頁]。在此,我們主要強調系統定義的規則,即系統本身或其組成部分可以控制潛在組成部分的功能或活動。因此,如果系統本身的任何方面能夠控制其潛在要素,那么它就被視為系統的一部分。如果不能,而且它只能受到影響,或只能為系統提供輸入(或接收輸出),那么它就只能是已定義的系統環境的一部分。這句話很重要,在定義系統邊界時也至關重要。

1.2. C2 系統的功能和子系統

將圖 1 中的不同功能視為各自獨立的系統,在 Brehmer [例如,參見 4、7、5]中找不到對這種觀點的任何支持。因此,Brehmer 沒有為上層任務或 C2 系統可能需要的目的性子系統提供任何支持。當然,布雷默與西蒙[15]的推論一致,認為每個系統[功能]都需要分解,直到達到可以找到特定系統結構的適當級別。例如,在設計生產適當產品的子系統時。總之,布雷默給出了一些子功能的例子[5, pp. 89];然而,由于布雷默主要將 DOODAloop 視為一個過程模型[5],因此缺少關于從功能到結構的轉換,以及如何通過設計實現有目的和目標導向(目的論)的子系統的指導原則。

在此,我們的首要目標是提出一個基于控制論和系統科學的框架,在分析、設計和衡量 C2 系統的不同子系統的效率和有效性時可以加以利用。在此基礎上,我們將提出實驗研究的指導原則,以研究傳感器 C2 的哪個級別(集中式、分布式或兩者的結合)似乎足以在未來作戰環境中及時應對威脅。

2. 系統、子系統和遞歸控制的必要性

一個簡單的 C2 系統至少需要兩個相互關聯的系統。一個系統可以行使指揮和控制權,另一個系統接受命令和/或控制。然而,當考慮到 C2 系統包含一定程度的復雜性(例如,由相互關聯的子系統組成)時,它們通常具有一些一般特性。Lawson [16]舉了一個例子,很容易與設計聯系起來,如下圖所示(圖 3)。

在 Lawson [16]中,系統耦合圖可以舉例說明基于系統資產的應答系統設計。這些資產可視為由上層系統提供,用于處理某種情況,或稱為 "情況系統"。情況系統和應答系統之間的兩條線說明了兩個系統的接口。在這里,情境系統既為應答系統提供輸入,也是應答系統行動輸出的接收者。

此外,在系統耦合圖的支持下,還提供了具體的原則,確立了勞森[16,第 37 頁]定義的十三條系統規則。其中一條規則是,應答系統的其中一個元素必須提供對自身資產的控制。然而,控制元素和應答系統的所有可用資產都可以被視為應答系統本身的功能或子系統。根據這一推理,我們可以得出一個前提,即設計的子系統必須包括一個控制元件,這也突出了將系統部件分解為所含子系統的遞歸性質。

3.C2 系統的適當功能和結構

在進一步探討布雷默的 DOODAloop(圖 1)時,可將 C2 系統視為上層系統(即任務響應系統)的一部分。任務響應系統可被視為旨在影響情況的響應系統,也可被視為情況系統,按照 Lawson [16] 的觀點,情況系統本身就是一個系統。因此,按照 Lawson [16] 和 Flood 與 Carson [14] 的上述推理,我們可以使用這樣一種觀點,即 SOI 的邊界要么環繞 C2 系統及其要素,要么擴展到也環繞所設計的任務響應系統,其中包括 C2 系統及其子系統。由此可見,任務響應系統的結構是由相互關聯的子系統組成的,這些子系統提供了重要的功能,以實現預期的運行。如上所述,圖 1 中描述的 DOODAloop 缺乏在更廣泛的背景下探索 C2 系統結構和功能的特性。

我們發現,有兩種著名的系統理論可以支持結構和功能現象。第一個理論是斯塔福德-比爾的可行系統理論(VSM)[17, 18]。在他的理論中,比爾著重強調了控制一個在動態環境中運行的組織所必須處理的內容。比爾提供了一個連接五個相互影響的系統的基本結構;不過,他只把每個系統作為一個黑盒子來展示,而沒有詳細說明。

我們在此考慮的第二種理論是米勒的一般生命系統理論(LST)[19]。米勒并沒有為生命系統建立結構。不過,米勒指出了子系統與所謂的超系統之間的等級關系,以及系統雖然以物質和能量的形式表現出來,但卻受信息支配這一事實。顯然,這兩種理論的側重點不同,針對的細節也不同,這也意味著存在一些問題。

Nechansky 將 Beer 和 Miller 的兩種理論進行了綜合[如見 20、21、22、23、24、25、26],旨在克服兩種理論側重不同細節的困境。Nechansky 提議根據 Miller 的 LST [23],將 Beer 的數據處理結構轉化為面向目標系統的功能和結構方法。

根據 Nechansky 提出的如何將兩種理論結合起來的建議,也可以推導出應答系統的必要輸入、組件、其功能、關系和系統輸出(參見圖 3)。此外,尼燦斯基還探討了社會系統的目標價值及其走向,可表述如下[26]:

if{[(external sensor data S1) (relation) (goal-value G1)]} AND {[(internal sensor data S2) (relation) (goal-value G2)]}, then {trigger for a goal-orientated action}

根據這一表述,從運行(外部)環境中收集數據的傳感器和提供有關內部目標值實現情況數據的傳感器都可以被考慮在內。Nechansky 提供了一個綜合模型,其中包括 Beer 的系統 1 至 5 和 Miller 的生命系統。因此,內昌斯基[26]認為,米勒的物質能量處理子系統與比爾的系統 1(操作)相對應(見圖 4)。不過,在討論他提出的方法的有效性和局限性時,Nechansky 提出了一些可能會影響傳感器 C2 的有趣意見[24,第 106 頁]: "結構方面的考慮可能會明顯松動,因為 Beer 的分級問題和相關的分級決策并不一定需要 [圖 4] 所示的分級結構,也不一定需要為匹配 Beer(1979 年)的方案而開發的分級結構。任何具有足夠數據處理能力的復雜系統都可以按順序處理所有這些問題的邏輯層次,只需使用兩個層次即可。然后,上層必須控制當前處理的是系統 1-5 中的哪些問題,并確保下層的決策使用正確的數據和目標值。這就是計算機處理這些問題的原理。這將把比爾的系統 1-5 問題的處理轉化為兩個結構層次,而不是如[圖 4]所示的四個層次"。

上述針對 C2 的系統方法為同一個基本問題提供了不同的視角,即各種結構安排如何實現一系列基本功能。這一點已被應用到 C2 靈活性理論中,該理論認為,實現 C2 的不同結構安排或多或少適合應對不同類型的問題,用勞森的術語來說,就是情況系統[16]。

圖 4:比爾提出的可行系統結構與米勒提出的生命系統結構(左下),以及一個可控制任何生產系統的放大反饋系統。改編自 [26]。

C2 靈活性理論認為,可以從三個基本維度來描述 C2,這三個維度是實現 C2 的方法框架:決策權分配(描述系統中控制權的分配方式,以及誰實際有權分配與情境系統互動的資源)、信息分配(描述系統中信息的傳播方式,以及誰實際有權獲取有關情境系統和自身資產的關鍵信息)和互動(誰實際可以與誰互動--通常與系統的組織結構相對應)。

如上所述,C2 靈活性理論的基本論點是,不同的結構配置將以不同的方式實現基本的 C2 功能,這些方式或多或少適合不同的情況。這一點在數據收集(感知)和數據處理(從人的角度看是 "感知 "或 "定位")層面就已顯而易見。根據系統的結構配置,可用數據將被收集并傳輸到系統的某些部分,在那里進行處理并轉化為某種類型的信息。根據系統內信息傳播的安排和決策權的分配,這些信息又會被某些人處理和用于決策。

與任何控制任務一樣,信息流動的速度必須使控制人員能夠及時利用資產,以表達對目標流程或情況系統保持控制所需的各種信息。由于通信技術的局限性(或缺乏通信技術),C2 在信息流、互動和決策權分配方面,歷來都是按等級組織的。由于戰爭一直是人類進行的活動,因此這種方法在很長一段時間內都是可行的。

二十世紀和二十一世紀的技術發展從根本上挑戰了這一點,因為技術提高了戰爭的速度,遠距離武器和后勤的地理分布也使士兵和武器系統的運輸更加快捷。作為軍事指揮中心結構的等級制度一再受到質疑[27, 28, 29],但作為組織/構建軍隊的主要方式,等級制度仍未受到挑戰。正如本文開頭所指出的,某些動能武器(如彈道導彈)的速度甚至已將數據收集的感知部分變成了一個重要議題。此外,非動能能力(如網絡戰)也是開發新型傳感器的一個促進因素,以便對侵略者采取快速有效的反制措施。

如何在正確的時間將正確的傳感器集中到正確的位置,越來越具有挑戰性。在傳統的科層制組織中,信息渠道的結構和決策權的分配通常是繁瑣的。他們也不是傳感器產生的數據的解釋者。所有功能都被劃分為若干子任務,由少數有權控制其他人的個人協調執行。這就在系統內形成了 "知識氣泡",同時又承擔著控制任務。

高度耦合系統(通常是自動化系統)形式的技術通過匯總來自多個傳感器的數據并對數據進行計算機化分析來克服這一問題。物體被檢測到、分類為目標、分配身份(ID)并進行跟蹤,而不涉及任何人類活動。然而,實現其他功能(如定位和決策)的結構仍以等級形式體現。對于某些武器系統,存在局部變通辦法,如將關鍵系統的決策權分配給操作同一系統的個人,如某些地對空導彈系統。這類系統通常是高度自動化的,留給人類操作員的唯一決定權就是是否攻擊目標。然而,這種系統的位置和傳感器的定向方式仍然是由軍事組織中的參謀職能部門執行的高層決策。

4. 總結和未來工作討論

傳感器的 C2 是一個需要進一步研究的領域。正如上文對 C2 和控制模型的討論所表明的,系統的傳感能力是有效利用系統資產的關鍵因素。因此,我們的出發點與我們對設計具有適當功能和結構的有目的 C2 系統的興趣有關。此外,本文的一個目標是提出一個基于控制論和系統科學的框架,在分析、設計和衡量 C2 系統不同子系統的效率和有效性時加以利用。然而,實現這些功能的結構可能有無數種分配方式。軍事組織中常見的等級結構源于對其他人實施控制的需要。現在情況已不再如此。今天的系統是真正的社會技術系統,因為它們由具有先進傳感能力的技術系統和人類操作員組成。

以往的研究表明,即使有大量關于時間壓力下決策制定的研究,如 "動態決策制定",也主要集中在調節任務而非高級決策制定上[參見 30, 31]。利用微世界或所謂的縮放世界進行模擬研究是此類研究的一大突破,因為它允許在互動環境中進行受控實驗[32]。這樣就可以研究抽象的現實世界任務,如森林滅火和化學過程。實際上,這些問題需要對相關過程進行持續調節。與此相反,其他研究人員則應用微世界來研究復雜問題的解決,如扮演大城市的市長或第三世界援助項目的經理[30]。這些例子都沒有真正反映上述問題,就人類而言,主要是預測威脅可能從哪個方向發生的問題。要研究這個問題,微型世界方法可能仍然有效。Gonzales、Vanyukov 和 Martin [33]提供了一份最常用的微世界的詳細清單,對于想要從廣闊的視角了解已開發的問題和模擬類型的人來說,這份清單很有參考價值。因此,微世界的目的是向參與研究的受試者展示一個可識別的問題。不過,微觀世界必須足夠復雜,以便讓研究對象體驗到具有一定不確定性的動態情境。Johansson、Persson(又名 Carlerby)、Granlund 和 Mattsson[34]認為,微世界可用于研究 C2,并提供了使用 C3Fire 系統進行研究的實例。

4.1.未來的工作

許多以前由人類執行的任務現在完全由技術系統來完成,而技術系統的運行速度之快,甚至需要更多的技術來監督。人類決策越來越多地涉及政策或目標設定層面的決策,而技術系統則以自動響應的形式執行復雜的任務鏈,接近我們所說的自動化。例如,"愛國者 "系統 MIM104 可識別身份標識,并將潛在目標呈現給人類操作員,人類操作員的主要任務是核實目標是否具有敵意,以及是否應與之交戰。系統的所有其他方面都是自動化的。因此,系統中的人類部分只執行部分感知決策或布雷默定位和決策。不過,這要假定有人已經決定了傳感器應該在哪里以及對哪些潛在目標進行感知。如果可以確定威脅可能來自哪個方向,而且威脅的移動速度足以讓人類操作員有足夠的時間確認目標是否具有敵意并決定是否與之交戰,那么這對人類來說就是一項可行的任務。 另一方面,在未來的作戰環境中,這可能意味著人類的任務越來越多地變成決定傳感器的位置和方向,而不是執行 C2 循環中的定向-行動部分,因為后者需要比人類可能的速度更快的執行。這也與上文引用的 Nechansky 和圖 4 中描述的模型有關。因此,在作戰環境中實施現有技術和設想中的技術,也可能意味著被迫對 C2 進行 "技術壓縮",在這種情況下,C2 周期中的定向-行動部分可由技術單獨處理。例如,作為系統 2 實現的人工智能(AI)可以指揮和控制系統 1 的實例,并在一段時間內可以覆蓋系統 3、4 和 5 的輸入(參見圖 4)。因此,傳感器的 C2 已經是 C2 循環的一個重要組成部分,在不久的將來,它將變得更加重要。那么,應該如何處理理解傳感器 C2 的問題呢?

要研究一個由人類代理和具有定位和決策能力的技術系統組成的社會技術系統如何應對安置和指揮傳感器的任務,以應對高速威脅,需要一個能反映這些方面的模擬系統。它必須提出一個與現實世界系統類似的問題,盡管不一定要有很高的逼真度。沒有必要模擬傳感器射擊鏈的每一個步驟。相反,它必須只反映傳感器的布置和引導這一基本問題,然后根據有意義的目標,對傳感器的布置和引導結果進行足夠逼真的評估。這種模擬應能進一步進行模擬運行,以評估從何處發起攻擊和使用多少彈藥所造成的后果。因此,這種模擬可以是針對每種特定傳感器配置的 "一擊游戲",盡管可以模擬敵方采取的幾種不同的似是而非的行動的結果。

付費5元查看完整內容

我們的研究展示了如何將技術和數據科學實踐與用戶知識相結合,既提高任務性能,又讓用戶對所使用的系統充滿信心。在本手稿中,我們重點關注圖像分類,以及當分析師需要及時、準確地對大量圖像進行分類時出現的問題。利用著名的無監督分類算法(k-means),并將其與用戶對某些圖像的手動分類相結合,我們創建了一種半監督圖像分類方法。這種半監督分類方法比嚴格的無監督方法具有更高的準確性,而且比用戶手動標記每張圖像所花費的時間要少得多,這表明機器和人工優勢的結合比任何替代方法都能更快地產生更好的結果。

付費5元查看完整內容

這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。

付費5元查看完整內容

為了解決如何利用現有數據的增長來建立有用的模型的問題,一個自動發現模型和管道的方法是有序的,它可以利用這些數據。我們已經探索了自動發現模型和管道所需的許多方面:建立一個模型知識庫和基于推薦系統方法的模型排名,通過數據集的圖形表示進行模型推薦,通過擴展基于樹的管道優化工具(TPOT)和基于強化學習的方法進行管道生成。我們探索了一種預算意識到的超參數調整算法和神經網絡的不確定性估計。我們探索了不同的訓練方法,包括無梯度優化、零點學習和持續學習。我們還解決了神經網絡架構的問題。我們將所有這些結合起來,形成了一個模塊化的自動機器學習(AutoML)系統,該系統支持廣泛的任務類型,在項目評估中一直處于前三名。

付費5元查看完整內容

圖4. 人工智能對目標定位的增強:人工智能可以通過搜索目標并在發現后發出警報來增強動態目標定位周期。

開發和使用新的軍事技術是一個軍事專業人員工作的一部分。事實上,軍事歷史在很大程度上是一個技術革新的故事,士兵需要學習如何操作新系統。因此,關于整合人工智能的很多東西并不新鮮。就像坦克、飛機甚至弩一樣,隨著時間的推移,士兵們學會了使用和運用技術,工業界學會了以足夠的數量和質量生產技術,高級領導人學會了運用技術來實現戰略效果。如前所述,人工智能技術與它們的顛覆性“前輩”之間的區別在于,前者有能力改善廣泛的軍事武器、系統和應用。由于這種潛在的普遍性,幾乎所有的士兵都必須在某種程度上變得熟練,才能有效地和道德地運用AI技術。隨著這項技術在應用上的擴展,戰爭將像管理暴力一樣管理數據。

這種普遍性也提出了關于人類發展和人才管理的問題。盡管培訓計劃最終會培養出更多的知識型士兵,人事系統也會提高管理士兵的能力,但軍警人員能夠獲得知識和技能的限制仍然存在,特別是在作戰層面。盡管討論的目的不是要建立嚴格的指導方針,但討論確定了士兵需要獲得的許多知識。例如,士兵將需要知道如何策劃和培訓數據庫,而該數據庫對他們正在執行的任務有著重要作用。這樣做需要確保數據的準確、完整、一致和及時。使用這些數據需要熟練應用推薦模型卡中描述的條件,而熟練的操作有助于確保算法以有效和道德的方式執行。

當然,信任不能僅靠政策和程序來保證。指揮官、參謀員和操作員需要知道他們被信任做什么,以及他們信任系統做什么。指揮官、參謀員和操作員信任人工智能系統來識別合法目標,并避免識別非法目標。參與這一過程的人必須在使用這些信息時,既需要擊敗敵人,又必須避免友軍和非戰斗人員的傷亡。要找到這種平衡,就需要判斷人應該承擔多大的風險。

只要參與流程的人類能夠與系統進行有效的互動,由人工智能賦能的系統就能促進找到這種平衡。在將人類控制整合到機器流程中時,人們經常被迫在控制和速度之間做出選擇:強加的人類控制越多,系統的運行速度就越慢。但本研究發現這種兩難的局面是錯誤的。盡管在某些情況下,在人的控制和速度之間進行平衡可能是必要的,但如果系統要最佳地運作,人的輸入是必要的。

實現最佳性能首先要求指揮官確保參謀和操作人員了解模型能力,理解數據質量的重要性,以及洞悉模型在作戰環境中的表現。盡管它可能不會使系統更加精確或準確,但實現這些任務可使系統能夠更好地對輸出進行概率分配。第二,指揮官需要確定對任務、友軍戰斗人員和敵方非戰斗人員的風險有多大才合適。這一決定很復雜,其中關鍵任務可能是需要容忍更多的友軍和非戰斗人員傷亡。同樣,如果非戰斗人員的密度較低,即使任務不那么緊急,也可以容忍較高的風險。尋找這種平衡將是人類的工作。

但在前面描述的模糊邏輯控制器的幫助下,指揮官可以更好地確定什么時候可以信任一個人工智能系統在沒有人類監督的情況下執行一些目標定位步驟。此外,可以通過構建交互的邏輯,以找到多種不同的人機互動配置,確保系統的最佳使用,同時避免不必要的傷害。在LSCO期間,讓指揮官在需要時選擇智能和負責任地加快目標定位過程將是至關重要的,本報告中提出的設計實現了這一目標。這一成就在未來尤其重要,因為為了保護部隊并實現任務目標,指揮官將面臨大量時間敏感目標,及面臨承擔更多風險的操作條件。

在培養具有正確技能的足夠數量士兵以充分利用人工智能技術方面,仍有大量的工作。目前的人才管理計劃尚未達到管理這一挑戰的要求,盡管多個有前途的計劃準備最終滿足需求。然而,在大多數情況下,這些計劃都是為了滿足機構層面的要求,在機構層面上做出全軍采買人工智能和相關技術的決策。但是,這些技能將如何滲透到作戰陸軍,尚不清楚。

盡管人工智能在目標定位中的使用并不違反當前的戰爭法,但它確實引起了一些道德倫理問題。在所討論的目標定位系統背景下,這些倫理問題中最主要的是問責制差距和自動化偏見。第一個問題對于回答核心問題至關重要,“指揮官在什么基礎上可以信任人工智能系統,從而使指揮官可以對這些系統的使用負責?”自動化偏見和數據衛生與問責制差距有關,因為當這些問題存在時,它們會破壞指揮官可能希望實施的有意義的人類控制措施。指揮官可以通過以下方式縮小問責差距:首先,確保人員受到適當的教育、技能和培訓,以整理相關數據;其次,確保指揮官允許的風險,準確地反映完成任務與保護友軍士兵和非戰斗人員之間的平衡需求。指揮官還可以通過在機器需要更多監督時向參與該過程的人類發出信號來減少自動化偏見的機會及其潛在影響。

作為一個專業人員,不僅僅意味著要提供服務,還要在出問題時承擔責任。專業人員還必須了解各種利益相關者,包括公眾和政府及私營部門實體,如何與本行業互動和競爭。鑒于這些技術的潛力,軍事專業人員必須首先學會在技術及其應用的發展中管理預期。由于這種演變影響到專業工作的特點,軍事專業人員還必須注意專業以外的人如何重視、獎勵和支持這項工作。因此,隨著美軍繼續將人工智能和數據技術整合到各種行動中,對其專業性的考驗將在于擁有專業知識的能力,以及建立能夠繼續發展、維護和認證這種專業知識的機構,這些機構既能滿足美國人民的國防需求,又能反映他們的價值觀。

付費5元查看完整內容

近幾十年來,國防系統的規劃已經演變成基于能力的規劃(CBP)過程。本文試圖回答兩個問題:首先,如何表達一個復雜的、真實世界的能力需求;其次,如何評估一個具有交互元素的系統是否滿足這一需求。我們建議用一套一致的模型以可追蹤的方式來表達能力需求和滿足該需求的解決方案。這些模型將目前的能力模型,具體到規劃級別和能力觀點,與系統思維方法相結合。我們的概念模型定義了環境中的防御系統,數據模型定義并組織了CBP術語,類圖定義了CBP規劃元素。通過給出一個能力參數化的例子來說明這個方法,并將其與DODAF能力觀點和通用CBP過程進行比較。我們的數據模型描述了能力在行動中是如何退化的,并將該方法擴展到能力動態。定量能力定義的目的是支持解決現實世界中相互作用的子系統,這些子系統共同實現所需的能力。

能力規劃問題的定義

在本節中,能力被定義為執行任務的效果或功能并作為系統時,我們討論CBP;在1.2小節中進一步討論Anteroinen的分類中的第三和第五類。為了專注于軍事系統或軍事單位的結構定義和未來的數學建模,只考慮系統的物理組成部分,即人員和物資,以及他們與能力的關系。環境的影響--天氣條件、地形、周圍的基礎設施和其他軍事單位--被省略,以關注兩種力量之間的相互作用;盡管在實踐中,環境和其他更廣泛的系統問題顯然是相關的。通常情況下,CBP過程定義了環境的相關方面和軍事行動的類型,為能力需求定義、能力評估和解決方案選擇制定了可能的規劃情況集合。

一個軍事單位或一個組織由其人員和物資組成。經過組織和訓練的人員配備了適當的物資,代表、擁有或產生能力。當兩個軍事單位相互作戰時,他們會啟動自己的能力,以造成敵人的物資和人員的退化。為了定義能力需求并計劃如何作為軍事單位或系統來實施,需要解決的問題是:在與敵人的互動過程中,能力將如何演變,而敵人的能力卻鮮為人知?圖1說明了在敵人能力的作用下,自己的軍事作戰和維持能力的動態互動。我們的能力削弱了敵方的人員和物資,對敵方的能力產生了影響;而敵方的能力削弱了我們的人員和物資,對我們的能力產生了影響。外部資源,也就是供應和維持能力,維持著被削弱的人員和物資。如因果循環圖所示,敵方的能力可以與我方的能力對稱地表示。第3節的進一步建模集中在我們自己的能力上,由圖1中的虛線表示,以便更純粹地表示。

對我們自己的能力的定義說明,由人員和物資提供,表明了復雜的結構和與能力有關的功能和元素之間的相互作用。此外,真正的軍事單位,通常由較小的編隊組成,有幾種能力,由大量不同的物資和人員組成,并與環境互動。

現有的能力模型

  • 軍事能力是外交政策的工具
  • 作為軍事單位戰斗力的能力
  • 作為執行任務效果和功能的能力
  • 作為武器系統或平臺的能力
  • 作為系統的能力

軍事背景下能力規劃的概念模型架構描述

架構被定義為 "一個系統在其環境中的基本概念或屬性,體現在其元素、關系以及設計和進化的原則中"。因此,架構描述是一種表達架構的工作產品。架構框架是在一些應用領域或社區應用架構描述的基礎。架構框架為網絡系統的復雜性管理提供了結構化的方法,使利益相關者之間能夠進行溝通,并支持未來和現有系統的系統分析和設計。企業架構的Zachman框架是這類通用框架的一個例子。DoDAF、MODAF和NAF是用于國防系統分析和定義的架構框架,特別是用于指揮、控制、通信、計算機、情報、監視和偵察系統(C4ISR)。這些架構框架由觀點組成,定義了代表特定系統關注點的一組架構視圖的規則。架構視圖由一個或多個模型組成。架構框架基礎的元模型定義了不同視點中元素之間的關系。DoDAF元模型DM2有一個概念數據模型圖(DIV-1),用來向管理者和執行者傳達架構描述的高層數據構造的概念。MODAF元模型詳細定義了每個架構視圖的數據模型。

利益相關者需要適當的支持,以促進他們彼此之間以及與規劃專家團體的溝通,從而從CBP方法中獲益。軍事專家的作用不是參與復雜的工具和方法,而是為規劃過程提供重要的領域專業知識。架構框架是一個很好的工具,可以定義當前的防御系統,確定能力需求,并描述系統解決方案。不幸的是,架構框架和相關元模型的精確但復雜的機制與復雜的符號并不一定能以明顯的方式解釋能力觀點和要素之間的關系。因此,架構觀點和典型的CBP流程并沒有明顯的聯系。因此,參與能力規劃的軍事專家和決策者很少能夠加深理解,或者在沒有專門掌握這些工具和方法的人員的情況下,通過應用架構框架確定解決方案。需要對能力進行更簡單的定義,與流程兼容。

能力模型框架

圖2提出了一個高層次的數據模型,它代表了能力定義問題的抽象。數據模型描述了能力模型類型及其關系,作為能力和防御系統建模的框架。符號的選擇是為了保持信息量,但對更多的人來說是可讀的,因此它不遵循任何特定的方法,但與SODA的認知圖譜有一些共同點。

能力的現實世界實例在圖的左邊,而概念模型類型在右邊。該模型的第一個版本已經被Koivisto和Tuukkanen應用于一個基于研發的自下而上的過程和概念性的未來系統,即認知無線電。原始模型描述,系統模型定義了物資、戰斗力和功能能力。實際上,這是一種雙向的關系:在所需能力和所需資源的驅動下建立系統模型,然后用系統模型來預測特定環境和實例中的結果。

防御系統和能力——上下文模型

防御系統由系統、系統要素及其相互作用組成,其突發屬性由系統、系統要素和它們的相互作用界定。圖3中的模型代表了系統層次結構中的防御系統層次。防御系統可以被看作是SoS,但我們應用一般的系統術語來保持模型的可擴展性,并為防御系統層次結構的較低層次提供合適的術語。在國防系統層次結構的任何一級,系統代表一個由系統元素組成的軍事單位:人員和物資。

圖3 國防系統在其背景下的概念系統模型。防御系統,即利益系統(SOI),被環境和其他行為者的系統所包圍。這些系統包括相互作用的系統要素人員(P)和物資(M)。子系統和系統元素之間的聯系是示范性的。

能力模型類型和術語——高級數據模型

除了系統元素和它們的組織之外,還要定義功能和相應的輸出,以獲得更全面的系統定義。我們將能力定義為執行任務的效果或功能,是一種功能能力。在CBP過程中,功能能力定義了一些當前或計劃中的軍事單位或由物資和人員組成的系統的能力潛力。最終,能力發展過程必須以現實世界的軍事單位來定義系統的實施。力量要素的概念定義了最終的系統結構,也就是要生產的現實世界的軍事單位的組織。在我們的數據模型中,功能能力被安排在SOI內部,以代表系統的涌現屬性。當這種潛力或涌現被計劃為引起某種效果時,系統,具體來說是其功能能力,在計劃過程中被分配到一個任務中。此外,當軍事單位執行任務時,效果就會產生。高層數據模型的作用,如圖4,是將關鍵的術語及其關系可視化。

圖 4 基于能力的規劃中術語及其關系的高級數據模型表示

基于能力的規劃元素——UML類圖

圖5中的類圖將圖3所示的概念系統模型中確定的國防系統規劃要素與圖4中的能力模型類型結合起來。由于我們關注的是國防系統,國家權力和軍事力量的要素被認為是其環境的一部分,不在圖中。然而,我們建議,國家權力也可以通過效應來表示。

圖 5 基于能力的規劃元素的統一建模語言 (UML) 類圖表示

付費5元查看完整內容

許多軍事人工智能的研究和開發資金是針對短期內可以實現的戰術級系統的改進。在這里,人工智能(AI)的潛在好處往往受到感官輸入質量和機器解釋能力的限制。然而,為了充分理解人工智能在戰爭中的影響,有必要設想它在未來戰場上的應用,傳感器和輸入被優化為機器解釋。我們還必須嘗試理解人工智能在質量上和數量上與我們的有什么不同。本文介紹了綜合作戰規劃過程中自動化和機器自主決策的潛力。它認為,人工智能最重要的潛力可能是在戰役和戰略層面,而不是戰術層面。然后探討了更多機器參與高級軍事決策的影響,強調了其潛力和一些風險。人工智能在這些情況下的應用發展應該被描述為一場我們輸不起的軍備競賽,但我們必須以最大的謹慎來進行。

1 引言

目前,人工智能(AI)的民用發展大大超過了其在軍事方面的應用。盡管知道網絡將是一個重要的未來領域,但國防部門還沒有習慣于數字-物理混合世界,因此,國防部門與新的社會技術的顛覆性變化相對隔絕。在軍事上運用人工智能的努力往往集中在戰術應用上。然而,人工智能在這些領域的好處受到輸入傳感器的限制,它們被用來復制人類的行為,并在需要與物理環境互動的角色中使用。在作戰和戰略層面上,軍事總部的特點是信息的流入和流出。如今,這些產品無一例外都是完全數字化的。考慮到作戰計劃的過程,可以看出,即使在目前的技術水平下,其中有很大一部分可以可行地實現自動化。這種自動化的大部分并不構成可能被理解的最純粹意義上的人工智能,即 "擁有足夠的通用智能來全面替代人類的機器智力"。然而,軟件可以在特定任務中勝過人類的事實,再加上高級軍事決策過程被細分為此類特定任務的事實,使其成為比較人類和機器決策的優點、限制和能力的有用工具。這樣做,人類的能力似乎有可能被輕易取代。因此,追求軍事決策自動化的動機肯定是存在的。本文討論了部分自動化軍事決策的潛力和實用性,并想象了為這些目的無限制地發展人工智能可能帶來的一些風險和影響。

付費5元查看完整內容

本文考慮使用衛星上的傳感器將觀察結果分配到一個離散網格化地理區域的情況。重要的是,至少要在所有網格單元瀏覽一次,以看到整個行動區域;因此,我們希望獲得最大的覆蓋范圍。其次,我們希望通過任何額外的觀察來重新審視高優先級的網格單元。傳感器產生一個二維帶,在每次經過地理區域時,它可以尋找網格單元,我們將其稱為 "掃描"。我們用來觀察網格單元的分辨率決定了觀察的有效性。我們可以選擇使用高分辨率,使我們在更細的細節上有更少的觀察,或者使用低分辨率,使我們在粗略的細節上有更多的觀察。這使我們可以選擇準確地觀察少數地方,或不準確地觀察許多地方。

這篇論文是在與作為五角大樓聯合參謀部一部分的J8局的密切協作下產生和發展的。J8在部隊結構、資源和評估方面向參謀長聯席會議主席(CJCS)提供建議。這個問題已被提煉為一般的情報、監視和偵察(ISR)問題,但延伸到J8在名為STORM的戰區級戰役模型中遇到的真正問題。STORM使用一種啟發式方法來確定哪些網格單元接受觀察。STORM的啟發式方法往往會產生不理想的結果,即大面積的興趣區域被忽略。我們希望改進搜索資產能夠執行的網格單元覆蓋率。

在這篇論文中,我們制定了一個新穎的、大規模的、混合整數的優化模型,以超越STORM的啟發式搜索ISR的表現。該模型被稱為SOM,使用間隙指數對自上次查看每個網格單元以來的掃描次數進行懲罰。我們希望避免收集這些懲罰,這促使我們重新訪問網格單元。目標函數最小化了這種產生間隙的懲罰。我們使用幾個約束條件來維護、重置和跟蹤間隙計數器,一個訪問所有網格單元的軟約束條件,以及一個對網格單元施加最小分辨率的約束條件。SOM的一個獨特的特點是它是事件驅動的,在戰斗空間上掠過,不以時間為基礎。SOM使用實際的STORM數據,有1300多行代碼,包括在R中收集數據,在Pyomo中處理和實現模型。

我們在STORM中未分類的Punic21場景上實現了這個模型。在這個場景中,有兩個戰斗人員。紅方和藍方。我們可以從任何一個角度來實現SOM,每個戰斗人員都產生他們自己的變量和約束。為了說明SOM的大規模,在Punic21中,紅方搜索藍方的網格單元,并在92個區域內進行優化,這相當于48小時的時間,我們有超過2500萬個變量和1500萬個約束。

案例研究以計算和操作結果為中心。計算結果表明,我們可以通過在國際商業機器ILOG CPLEX Optimization Studio(CPLEX)的算法中實施不同的選項來減少運行時間。最重要的選項是提供一個熱啟動,使用沒有外觀發生的最壞可能的解決方案。例如,當我們用默認的CPLEX選項在一個有超過200萬個變量和100萬個約束條件的單處理器上運行SOM時,它需要超過1400分鐘,而且沒有產生一個解決方案。我們確定了定制的CPLEX選項,減少了運行時間,并在不到5分鐘內解決了這個實例。這使我們能夠將問題的規模增加到超過2200萬個變量和1100萬個約束條件,并在不到50分鐘的時間內實現11%的優化差距。業務案例研究結果顯示,與STORM相比,SOM提供了平均54.6%和中位數22.8%的覆蓋率。額外的選項,是SOM原生的,在STORM中不具備的,確保SOM將超過STORM,快速達到最大的覆蓋率,隨后集中精力將目光分配到最重要的網格單元。

我們看到,根據操作結果,優化模型優于STORM的啟發式,并允許我們平衡所有單元的搜索,而啟發式則傾向于集中在重要的單元。與STORM的啟發式方法重復搜索相同的網格單元相比,SOM指導衛星在哪里尋找,以允許訪問每個網格單元并避免大的重訪間隙。

付費5元查看完整內容

摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。

索引詞:基于智能體的建模,智能體,機器學習,多智能體系統

I. 引言

只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。

圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。

近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。

在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:

  • 首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰

  • 其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。

具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。

付費5元查看完整內容
北京阿比特科技有限公司