亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在給定時間內可分析的選項數量限制了對行動方案 (COA) 的考慮。計算機在這一過程中提供了幫助,提高了計算能力,相當于分析了更多的行動方案。然而,每個行動方案的詳細程度和需要時的計算能力限制了這一過程。確定方案的顯著特征--即驅動每個 COA 之間的差異和影響的特征--可以抽象為更直接的形式,從而更容易進行比較,并以更少的資源實現更快的優化。在時間和計算資源有限的軍事行動中,提高 COA 的效率至關重要。本文回顧了與 COA 開發和比較相關的摘要技術文獻,并考慮了這些技術在軍事行動條件下的適用性。

在機器人、決策理論規劃和博弈論等不同領域,決策和規劃面臨的主要挑戰是處理大量詳細信息所涉及的高計算復雜性和大量內存需求。這種復雜性使計算資源緊張,決策速度減慢,在實時和動態環境中往往不切實際。例如,在機器人技術中,處理和存儲大量環境數據的需求會阻礙機器人系統的效率和適應性[1]。同樣,在決策理論規劃中,納入不確定性和計算效用會增加復雜性,從而使尋找最優或接近最優解決方案的工作變得計算密集[2],[3]。在博弈論中,由于需要考慮的可能性和結果的規模巨大,在詳細、復雜的博弈中尋找均衡點可能會令人生畏[4]。問題的關鍵在于如何在管理這種復雜性的同時做出明智、知情的決策。在軍事行動環境中,戰斗的速度是時間的限制,而設備的機動性和有限的云訪問限制了處理能力的可用性,這使得摘要成為輔助決策的寶貴工具。摘要不僅可以在資源有限的情況下考慮行動方案 (COA),還可以考慮更多可能的行動。

摘要是對特定問題或情景進行概括的過程,通常是通過消除與問題邏輯無關的細節來實現[5]。Cheng 舉了一個文字問題的例子:“如果有人給了你一塊餅干,然后又給了你一塊餅干,你可能有兩塊,但也可能吃了一塊”[5]。讀者要解決的問題是 “1 ”和 “1 ”的加法;現實世界中可能發生的事情,比如有人可能吃掉了你的一部分,都與此無關。從情景中摘要出邏輯,就消除了這種模糊性 [5]。對于軍事 COA 這樣的真實情況,摘要的過程就是將細節縮減為與分析和比較相關的特征。

本文將根據下文第 1 節所述情況,分三個階段介紹這一挑戰。第 2 節回顧了摘要技術;第 3 節討論了這些技術在軍事 COA 中的適用性;第 4 節介紹了未來的工作,包括一般規劃摘要以及如何將其應用于軍事決策環境。

行動方案的摘要方法

摘要的本質是精簡和簡化復雜的過程,通過聚焦于最相關的信息,使決策更加有效。這對于機器人、決策理論規劃和博弈論等數據和可能性錯綜復雜的領域至關重要。這些領域采用的摘要方法和算法多種多樣,每一種都是針對特定的挑戰和目標量身定制的。

每種方法和算法對于將復雜信息提煉成更易于管理和操作的形式都至關重要。專注于關鍵要素和模式可顯著提高各自領域決策過程的效率和效果。下文將按照開發或提出的時間順序,進一步詳細討論每種技術。需要注意的是,這些技術并不相互排斥--它們往往建立在先前技術的基礎上,或側重于規劃的不同方面(例如,馬爾可夫決策過程中的摘要狀態空間就是決策理論規劃的一種完善)。

COA 摘要技術的適用性

在第 2 節描述的技術中,有幾種似乎有望在 MDMP 框架內提高軍事行動目標規劃和評估的效率。例如,分層解決問題法適合軍事梯隊的分層組織結構,在這種結構中,下級梯隊在更細的層次上執行上級梯隊的意圖。高層梯隊的計劃應更加摘要,以便將意圖轉化為下層梯隊的行動[32]。Bennett 等人[33]確定了從 “目標、目的和限制 ”到 “物質對象的外觀、位置和配置 ”的摘要層次。博伊德的 “沖突模式”[6]在特定的實施層次上似乎是通用的,盡管每場戰爭的參與者和目標可能不同,每種情況下的車輛、裝備和武器也可能不同。層級對規劃的 “嵌套 ”性質也至關重要,因為規劃是逐級進行的。高層的控制范圍更廣,能對總體戰略問題(如長期影響)做出反應。相比之下,下層則更關注陸軍公理:“射擊、移動和溝通”。

考慮到軍事行動中相互競爭的目標(包括實現軍事目標、在特定時間內完成目標、保護生命和資源以及更廣泛的外交目標),以及不可控情景中固有的不確定性,決策理論規劃是一種有價值的技術。Aberdeen 等人[24]建議使用馬爾可夫決策過程來模擬計劃情景,包括一個有限的狀態空間(如行動區域)、一組有限的行動(COA)、一個初始狀態(位置、可用資源)、一組終端狀態(任務目標)以及每個 COA 實現任務目標的概率。雖然這最初只是一個簡單的模型,但這些狀態的詳細程度可以更詳細或更抽象。

博弈論摘要[4]可模擬對立雙方(如友軍與敵軍)之間的互動。這可用于決策理論規劃,以詳細說明考慮到對方部隊可能采取的反擊行動的作戰行動方案的成功概率。在 MDMP 第 2 步的任務分析過程中,可通過戰場情報準備工作獲得有關對方部隊的信息。

COA 評估標準也是在第 2 步中制定的,它定義了每個 COA 的參數(如預期友軍傷亡、不確定性、戰術風險)。COA 的摘要必須包括驅動這些評分的行動,例如 ? 什么行動會造成友軍傷亡?是否有替代行動? ? 哪些信息不確定?是否有行動可以核實該信息? ? 什么行動會產生戰術風險?哪些行動可以降低風險?

對評估標準無實質性影響的計劃細節可以摘要化(即縮減維度)。重大行動及其替代方案可以優化作戰行動,以滿足評估標準的客觀值。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

荷蘭的 "智能強盜"(Smart Bandits)項目旨在開發計算機生成部隊(CGF),展示逼真的戰術行為,從而提高戰斗機飛行員模擬訓練的價值。雖然該項目的重點是展示空對空任務中的對抗行為,但其成果在模擬領域的應用更為廣泛。

傳統的 CGF 行為受腳本控制,腳本規定了特定事件發生時的預定行動。腳本的使用存在一些缺陷,例如,在考慮整個任務場景時,腳本的復雜性較高,而且腳本化的 CGF 往往會表現出僵化和不切實際的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。智能強盜項目探索了應用這些人工智能技術的可能性。

本文介紹了在理論行為模型與用于戰斗機訓練的 CGF 實際應用之間架起橋梁的主要架構。測試 CGF 的訓練環境由四臺聯網的 F-16 戰斗機模擬器組成。這種設置能夠為飛行員提供與敵方戰斗機編隊(以智能 CGF 的形式)作戰的實驗性訓練。該架構具有通用性,可以滿足各種人類行為模型的需要,這些模型在人工智能技術的使用、認知的內部表示以及學習能力等方面都存在概念上的差異。基于認知理論(如態勢感知理論、心智理論、直覺和驚訝)的行為模型和基于機器學習技術的行為模型實際上都嵌入了該架構。

在模擬器中對戰斗機飛行員進行戰術訓練已得到廣泛應用。戰術訓練的一個基本特征是除受訓者外還有其他參與者。這些參與者可以是隊友(如編隊中的其他戰斗機)、支援部隊(如前方空中管制員)、中立部隊(如平民)或敵方部隊(如對手戰斗機)。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAF)或 CGF 來扮演。半自動化部隊具有執行與角色相關任務的某些功能,例如一個人可以控制多個虛擬實體。然而,使用人類專家參與戰術模擬可能既不符合成本效益,在操作上也不有效。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的并不是為他們提供培訓,他們可以用在其他地方。因此,由 CGF 來扮演這些角色更為有效,只要這些 CGF 能夠以適當的方式扮演這些角色。

然而,目前最先進的 CGF 由于其行為簡單,在許多情況下并不能滿足戰術訓練的目的。除了上述的 SAF 外,CGF 行為還可分為四類(Roessingh、Merk & Montijn,2011 年):

  1. 無反應行為,即 CGF 按照預先確定的行動順序行事,對環境的觀察和反應能力極低;例如,這種 CGF 能夠按照航點確定的路線行駛。

2)刺激-反應(S-R)行為,即 CGF 在對來自環境的特定刺激或輸入做出反應時,始終表現出一致的行為;例如,當可以持續觀察飛機位置時,這種 CGF 能夠攔截飛機。

  1. 延遲響應(DR)行為,在這種行為中,CGF 不僅要考慮當前環境中的一組刺激,還要考慮存儲在 CGF 記憶中的以前時刻的刺激。這樣的 CGF 可以通過記憶以前的位置來攔截飛機,即使無法持續觀察到這架飛機。

  2. 基于動機的行為,這種 CGF 結合了 S-R 和 DR 行為,但還考慮了其動機狀態。這些動機狀態是內部過程的結果,可能代表目標、假設、期望、生物和情感狀態。例如,這樣的 CGF 可以假設目標飛機燃料不足,將返回基地。因此,CGF 可能決定放棄攔截。另一種情況是,飛行情報組可能預計飛機會改變航線,并決定在更有利的位置攔截飛機。

迄今為止,CGF 的一個特征尚未納入討論范圍,那就是學習行為或適應行為(Russell 和 Norvig,2003 年)。CGF 的行為表現可以是 S-R、DR 或基于動機的行為,可以在機器學習(ML)的基礎上進行擴展,使其具有適應這種行為的能力。通過 ML 技術,可以開發出更適合受訓者專長的 CGF。此外,ML 技術還能避免費力地制定一套規則(例如 "if-then 規則"),這些規則需要針對每個要解決的具體問題或情況進行推導,而推導的基礎是對操作專業知識的人工誘導,這些專業知識在很大程度上是隱含的,不能簡單地用邏輯規則來解釋。

本文旨在說明智能匪幫項目(2010-2013 年)中智能 CGF 的開發情況。該項目旨在為模擬任務場景中出現的 CGF 植入類似人類的智能。荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)希望通過 "智能強盜 "項目在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的中心思想是,認知建模是在 CGF 中創建基于動機的行為的有力手段。然而,為了減少認知建模的缺點,我們提倡額外使用多重學習技術。這些技術對于減少在復雜領域開發智能體時的知識汲取工作至關重要。我們展示了如何將不同的方法結合到混合模型中。

付費5元查看完整內容

這項工作研究了在任務式指揮設備中嵌入模擬器的實用性和有效性。其目標是僅使用戰區作戰計劃作為模擬輸入,向操作員隱藏所有模擬器細節,使其無需學習新工具。本文討論了一種原型功能,該功能可根據 SitaWare 中生成的作戰計劃以及嵌入式無頭 MTWS 和 OneSAF 模擬器的模擬結果,生成行動方案(COA)分析。在輸入作戰計劃后,指揮官選擇要執行的模擬運行次數,并按下按鈕啟動模擬,模擬在后臺的運行速度比實時運行更快。模擬運行完成后,指揮官可通過圖形和圖表查看結果,對多次運行進行比較。預計未來的能力將允許指揮官模擬任何梯隊和命令,用于訓練和兵棋推演。

付費5元查看完整內容

事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。

付費5元查看完整內容

許多人都有這樣的設想:學習者通過沉浸在激勵性的學習環境(如游戲)中,將學習者的掌握程度提高到新的水平,從而獲得STEM科目。STEM(科學、技術、工程和數學)的概念是復雜和困難的,需要在更深的層次上學習,而不僅僅是記住事實、規則和程序。在理想情況下,學習者會受到挑戰和激勵,在掌握傳統培訓方法可能無法獲得的復雜課題方面有所提高。他們將花費數百個小時來尋找一個很少有人解決的問題的解決方案,尋找兩個或更多因素之間的權衡點,或解決一組不相容的約束。這正是21世紀培訓的進步愿景。如何在一個激勵性的學習環境中實現深度學習?游戲提供了一個尋找答案的好地方,因為設計良好的游戲是有激勵作用的,而且一些元分析已經報告了游戲對學習的積極影響(Mayer, 2011; O'Neil & Perez, 2008; Ritterfeld, Cody, & Vorderer, 2009; Shute & Ventura, 2013; Tobias & Fletcher, 2011; Wouters, van Nimwegen, van Oostendorp, & van der Spek, 2013)。

本章探討了將游戲與智能輔導系統(ITSs)整合的前景。希望能有這樣的學習環境,通過游戲優化學習動機,通過ITS技術優化深度學習。深度學習指的是獲得布盧姆(1956)分類法或知識-學習-教學(KLI)框架(Koedinger, Corbett, & Perfetti, 2012)中較高層次的知識、技能、策略和推理過程,如將知識應用于新案例、知識分析和綜合、問題解決、批判性思維以及其他困難的認知過程。相比之下,淺層學習涉及感知學習,記憶明確的材料,以及掌握簡單的僵化程序。淺層的知識可能足以應付知識/技能的近距離轉移測試,但無法應付具有一定復雜性的新情況的遠距離轉移測試。

已經有一些人嘗試開發游戲-ITS混合體(Adams & Clark, 2014; Halpern等人, 2012; Jackson & McNamara, 2013; Johnson & Valente, 2008; McNamara, Jackson, & Graesser, 2010; McQuiggan, Robison, & Lester, 2010; Millis等人, 2011; Sabourin, Rowe, Mott, & Lester, 2013)。然而,要知道游戲和ITS之間的“結合”是最終慶祝數十年的紀念日,還是因為兩個世界之間不相容的限制而以“分離”告終,現在還為時過早。深度學習需要努力,往往令人沮喪,通常被視為工作而不是游戲(Baker, D'Mello, Rodrigo, & Graesser, 2010; D'Mello, Lehman, Pekrun, & Graesser, 2014)。事實上,在目前沒有游戲屬性的ITS研究中,喜歡和深度學習之間的關聯往往是負面的(Graesser & D'Mello, 2012; Jackson & Graesser, 2007)。也許游戲屬性可以通過足夠的娛樂性、學習者自由和自我調節的活動將這項工作變成游戲(Lepper & Henderlong, 2000),從而將相關性從負數轉為正數(Sabourin等人,2013)。如果不是這樣,那么游戲可能是為獲取淺顯的知識和技能而保留的,如記憶事實、簡單的技能和僵硬的程序。相反,游戲可能不適合獲取深層次的知識和策略,如理解復雜系統、推理因果心理模型和應用復雜的定量算法。

本章不會揭開在游戲環境中建立一個成功的ITS的秘密。現在講這個故事還為時過早。相反,我們希望實現三個目標。首先,我們將回顧ITS研究和開發中的成功和挑戰。第二,我們將描述通用智能輔導框架(GIFT)中的ITS的組成部分。GIFT最近由美國陸軍研究實驗室開發,作為未來開發ITS的穩定藍圖和指南(Sottilare, Graesser, Hu, & Holden, 2013; Sottilare, Graesser, Hu, & Goldberg, 2014)。第三,我們將反思這些工作如何與游戲相結合。對ITS組件和基礎研究的充分理解是制定ITS和游戲之間有意義的求愛的必要前提。

有必要指出本章不會涉及的兩個研究和應用領域。本章不涉及游戲在獲得和掌握淺層學習方面的作用。經驗證據使我們相信,設計良好的游戲可以有效地提高淺層學習,而對于深層學習是否可以從游戲中獲益,文獻中還沒有確定的說法。本章也不涉及團隊背景下的學習和問題解決。我們的重點是與ITS互動的個人的深度學習。

付費5元查看完整內容

長期目標

在決策或推理網絡中進行適當的推理,需要指揮官(融合中心)對每個下屬的輸入賦予相對權重。最近的工作解決了在復雜網絡中估計智能體行為的問題,其中社會網絡是一個突出的例子。這些工作在各種指揮和控制領域具有相當大的實際意義。然而,這些工作可能受限于理想化假設:指揮官(融合中心)擁有所有下屬歷史全部信息,并且可以假設這些歷史信息之間具有條件統計獨立性。在擬議的項目中,我們打算探索更普遍的情況:依賴性傳感器、(可能的)依賴性的未知結構、缺失的數據和下屬身份被掩蓋/摻雜/完全缺失。對于這樣的動態融合推理問題,我們建議在一些方向上擴展成果:探索數據源之間的依賴性(物理接近或 "群體思維"),在推理任務和量化不一定匹配的情況下,采用有用的通信策略,甚至在每個測量源的身份未知的情況下,采用無標簽的方式--這是數據關聯問題的一種形式。

我們還認識到,對動態情況的推斷是關鍵目標所在。考慮到一個涉及測量和物理 "目標 "的傳統框架,這是一個熟悉的跟蹤問題。但是,來自目標跟蹤和多傳感器數據關聯的技術能否應用于提取非物理狀態(物理狀態如雷達觀察到的飛機)?一個例子可能是恐怖主義威脅或作戰計劃--這些都是通過情報報告和遙測等測量手段從多個來源觀察到的,甚至可能被認為包含了新聞或金融交易等民用來源。這些都不是標準數據,這里所關注的動態系統也不是通常的運動學系統。盡管如此,我們注意到與傳統的目標追蹤有很多共同點(因此也有機會應用成熟的和新興的工具):可能有多個 "目標",有雜波,有可以通過統計學建模的行為。對于這種動態系統的融合推理,我們的目標是提取不尋常的動態模式,這些模式正在演變,值得密切關注。我們特別建議通過將雜波建模為類似活動的豐富集合,并將現代多傳感器數據關聯技術應用于這項任務,來提取特征(身份)信息。

目標

研究的重點是在具有融合觀測的動態系統中進行可靠推理。

方法

1.決策人身份不明。在作戰情況下,融合中心(指揮官)很可能從下屬那里收到無序的傳感器報告:他們的身份可能是混合的,甚至完全沒有。這種情況在 "大數據 "應用中可能是一個問題,在這種情況下,數據血統可能會丟失或由于存儲的原因被丟棄。前一種情況對任務1提出了一個有趣的轉折:身份信息有很強的先驗性,但必須推斷出身份錯誤的位置;建議使用EM算法。然而,這可能會使所有的身份信息都丟。在這種情況下,提出了類型的方法來完成對局部(無標簽)信念水平和正在進行的最佳決策的聯合推斷。

2.動態系統融合推理的操作點。在以前的支持下,我們已經探索了動態事件的提取:我們已經開發了一個合理的隱馬爾科夫模型,學會了提取(身份)特征,有一個多伯努利過濾器啟發的提取方法 - 甚至提供了一些理論分析。作為擬議工作的一部分,將以兩種方式進行擴展。首先,打算將測量結果作為一個融合的數據流,這些數據來自必須被估計的未知可信度的來源。第二,每個這樣的信息源必須被假定為雜亂無章的 "環境 "事件(如一個家庭去度假的財務和旅行足跡),這些事件雖然是良性的,可能也不復雜,但卻是動態的,在某種意義上與所尋求的威脅類似。這些必須被建模(從數據中)和抑制(由多目標追蹤器)。

3.數據融合中的身份不確定性。當數據要從多個來源融合時,當這些數據指的是多個真相對象時,一個關鍵的問題是要確定一個傳感器的哪些數據與另一個傳感器的哪些數據相匹配:"數據關聯 "問題。實際上,這種融合的手段--甚至關聯過程的好方法--都是相當知名的。缺少的是對所做關聯的質量的理解。我們試圖提供這一點,并且我們打算探索傳感器偏差和定位的影響。

4.具有極端通信約束的傳感器網絡。考慮由位置未知、位置受漂移和擴散影響的傳感器網絡進行推理--一個泊松場。此外,假設在這樣的網絡中,傳感器雖然知道自己的身份和其他相關的數據,但為了保護帶寬,選擇不向融合中心傳輸這些數據。可以做什么?又會失去什么?我們研究這些問題,以及評估身份與觀察的作用(在信息論意義上)。也就是說,假設對兩個帶寬相等的網絡進行比較;一個有n個傳感器,只傳輸觀察;另一個有n/2個傳感器,同時傳輸數據和身份。哪一個更合適,什么時候更合適?

5.追蹤COVID-19的流行病狀況。誠然,流行病學并不在擬議研究的直接范圍內,但考慮到所代表的技能以及在目前的健康緊急情況下對這些技能的迫切需要,投機取巧似乎是合理的。通過美國和意大利研究人員組成的聯合小組,我們已經證明,我們可以從當局提供的每日--可能是不確定的--公開信息中可靠地估計和預測感染的演變,例如,每日感染者和康復者的數量。當應用于意大利倫巴第地區和美國的真實數據時,所提出的方法能夠估計感染和恢復參數,并能很準確地跟蹤和預測流行病學曲線。我們目前正在將我們的方法擴展到數據分割、變化檢測(如感染人數的增加/減少)和區域聚類。

付費5元查看完整內容

由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。

本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。

付費5元查看完整內容

利用AI智能體的一個關鍵因素是它們對新事物的穩健性。AI智能體包括經過設計或訓練的模型。設計型模型包括環境中那些被工程師認為是重要的知識。學習型模型通過訓練數據建立的聯系來形成環境各個方面的嵌入。然而,在操作過程中,豐富的環境很可能會出現訓練集中沒有的挑戰,沒有在工程模型中考慮到。更糟糕的是,對抗性環境會被對手改變。美國國防部高級研究計劃局(DARPA)的一項計劃旨在發展必要的科學,以開發和評估對新事物具有魯棒性的智能體。人工智能在關鍵任務環境中發揮設想的作用之前,將需要這種能力。

作為DARPA人工智能科學和開放世界新事物學習(SAIL-ON)的一部分,我們正在將可能的軍事領域新事物類型映射到一個獨立于領域的本體上,作為新事物理論的一部分來開發。從數學和本體論的角度來描述可能的新穎性空間,將使我們能夠在相關的軍事環境中對來自DARPA SAIL-ON項目的智能體設計進行實驗。利用在實驗室實驗中使用的相同技術,我們將能夠測量智能體檢測、描述和適應新事物的能力。

動機

軍隊不斷遇到新奇的概念。特別是在面對對手時,他們被迫解決這些新奇的問題,而決策的時間往往很少。例如,1999年,北約部隊在科索沃戰爭期間對塞爾維亞進行了一次空中轟炸,稱為 "盟軍行動"。這被證明是北約盟國的一次學習經歷,因為在整個行動中遇到了多個新奇事件。首先,塞爾維亞軍隊比預期的更加堅定,裝備也更好。第二,塞爾維亞人嚴重依賴地對空導彈(SAM)和高射炮(AAA),這就要求盟軍飛得比預期的要高,使目標定位具有挑戰性。第三,塞爾維亞人意外地使用了帶有雷達發射控制的導彈。所有這些新事物都需要盟軍在當下有效地解決,同時還要克服其他困難,如不規則的天氣和地形(Lambeth, 2001)。能夠在軍事領域內定義和描述新事物是DARPA SAIL-ON項目的一個目標。

新奇性對AI智能體的影響

目前的人工智能(AI)系統擅長于范圍狹窄的封閉世界的任務,如玩棋盤游戲(Silver,2017)和加強圖像分類。然而,眾所周知,這些人工智能系統在面對分散的輸入時很困難(Langely,2020),當它們在不受控制和不可預見的條件下進行測試時,它們的性能會嚴重下降(Chao,2020),而這正是軍事作戰人員普遍面臨的。對于人工智能系統和人類在軍事領域的合作,人工智能系統需要能夠檢測、描述和適應作戰人員操作的開放世界環境中的新情況。

為了進一步說明這一點,我們將提到一個名為 "零號方案 "的模擬戰術場景,其中一架藍色部隊的戰斗機(由AI智能體控制),根據各種傳感器數據幫助其做出決定,任務是摧毀紅方敵人的彈藥儲存地,同時躲避附近兩支紅方敵軍的地對空導彈(SAM)發射器。在創新前的情況下,薩母導彈射程保持不變,AI智能體理可以成功地執行任務,而不會讓戰斗機被擊落。然而,當考慮到技術的快速發展時,假設薩母的導彈射程永遠保持不變是一個明顯的疏忽。在創新后的開放世界場景中,薩姆導彈的射程增加,超過了藍方戰斗機之前所習慣的范圍,導致智能體在執行任務前被擊落。

零號方案場景中的AI智能體沒有重新規劃路線以避免被擊落,而是根本沒有意識到發生了新奇的情況,它繼續派出更多的資產去執行任務,結果卻被摧毀。在一個理想的場景中,AI智能體被創建為意識到新奇事物的可能性,一個更強大的智能體反而可以學習檢測、描述和適應現實世界的新奇事物。

對新奇性的數學建模

為了創造豐富的新奇事物,模擬真實世界的不確定性和混亂性,我們引入了統計分布。并非每一個新事物都會有一個適當的統計分布。例如,在零號方案中,如果其中一個薩母被改為誘餌,這將是一個靜態的新事物,不包括任何變化。另一方面,我們可以通過為誘餌薩姆的運作方式增加更多的參數來增加這種新穎性的復雜性。這只是想說,統計分布對于增加豐富性和幫助模擬真實世界是很有用的,但對于引入新奇性卻不是必須的。

新奇性往往涉及連續變量的參數變化。例如,在零號方案中,導彈射程、導彈速度、紅/藍方生存能力和可用彈頭數量都是定量變量。

我們可以用統計分布來模擬這些新變量。對于連續變量,我們要使用正態分布或均勻分布。當然,均勻分布的好處是有嚴格的最小和最大參數值,以避免重疊或潛在的不可能值。具體到SAIL-ON,每個新奇的執行者通常會將新奇性進一步細分為簡單、中等和困難。因此,同一個新奇事物會有三個不同的版本。

讓我們用定義為R的導彈射程作為一個例子。我們將使用一個具有正態分布的模型,其平均值為μ,標準差為σ。

我們可以創建三個分布,分別為簡單(RE)、中等(RM)和困難(RH),定義為:

在圖1中作了圖表。我們可以在這些分布中的每一個范圍內對新穎的導彈進行采樣,這取決于難度水平。此外,三個難度級別將進一步幫助我們測試智能體對同一新奇事物的不同變化進行定性、檢測和適應的能力。此外,智能體對三種難度級別的新奇事物的反應方法可能有很大的不同,并提供關于智能體如何處理不同情況的進一步信息。

圖1:導彈射程的新奇性分布

SAIL-ON執行者有各種方法來定義新穎性。有些人可能會使用上述的分布,通常使用均勻分布或離散均勻分布,這有助于避免易、中、難三個級別之間的重疊。另一些人可能對一些新奇的事物使用靜態數字。以導彈射程為例,有些人可能會簡單地選擇????=50????,????=55??,以及??=60????。目前,我們正在使用靜態數字開始我們的測試。接下來,我們計劃向統計學方法發展,以建立一個更豐富、更真實的開放世界中的新奇事物模型。請注意,這種統計分布方法將需要大量的樣本集,以收集足夠的數據來創建關于智能體性能的準確指標。

導彈射程的例子是針對一個特定的連續、定量的變量。然而,每個新事物都會有自己的分布分配給它們。有時,正態分布或均勻分布不會是最適合的。對于二進制變量,如存活率,我們可以使用伯努利分布。對于罕見事件,如傳感器故障,我們可以使用泊松分布。

付費5元查看完整內容

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容

多智能體系統在解決復雜和動態領域的問題方面顯示出巨大的潛力。這種系統由多個單獨的實體組成,稱為智能體。系統的整體行為是由其組成的智能體的許多相互作用產生的。大多數研究的系統由同質的智能體組成,它們擁有相同的行為或物理形式。然而,最近的工作表明,擁有不同行為或形式的異質智能體可以提高系統性能。這項研究考察了異質性對多智能體系統有效性的影響,并研究了多智能體系統在聯合武器戰中的應用,聯合武器戰同時應用異質單位類型來完成軍事目標。數百個形態上同質和異質的多Agent團隊被演化出來,并對其完成某些目標的能力進行評估。結果表明,沒有一個團隊配置在所有情況下都表現出色,在異質和同質配置之間轉換的能力對團隊的成功比任何配置的異質性更重要。結果進一步表明,美國海軍陸戰隊理論中描述的聯合武器戰術可以從簡單的、分散的智能體的互動中產生,表明該領域的未來研究可能被證明對聯合武器戰爭的軍事藝術有價值

引言

1.1 問題背景

現代聯合武器理論要求同時應用多種武器類型,以達到大于其各部分之和的效果[1, 2]。復雜適應性系統(CASs)的研究人員對這句話很熟悉,它是一種涌現的語言,通過這種現象,一個相對簡單的智能體系統表現出復雜的總體行為,從而創造出 "小中見大 "的效果--大于其部分之和[3, 4, 5]。約翰-博伊德(John Boyd)的工作是基于當前的聯合軍備理論,他將武裝部隊視為由處于不同角色的自主單位組成的復雜網絡,并借鑒了CAS文獻來發展其戰爭理論[6]。對博伊德來說,每個軍事單位都填補了一個專門的利基,有助于整體的運作,因此,發展一支有效的聯合武器部隊是一個多智能體系統工程問題。在這樣的問題中,每個智能體必須被設計成通過與同伴的互動,在系統層面上幫助產生一些理想的特征。例如,戰斗的勝利是軍隊的一個理想特征,每個士兵的訓練和裝備都是針對贏得戰斗的整體任務。

聯合武器部隊具體來說是一個異質的多智能體系統。異質性一詞表示智能體之間在形態上、行為上或兩者上的差異。形態上的異質性指的是物理特性上的差異,而行為上的異質性指的是智能體對感知數據的行為方式上的差異。因此,形態上的異質性智能體就像坦克與飛機或警犬與警察一樣不同。行為上的異質性智能體不同,就像兩架相同的飛機在執行任務時可能扮演不同的角色,或者一個士兵可能在另一個士兵前進時提供火力掩護[3, 7]。

聯合武器戰爭的歷史提供了許多異質系統的例子,從古代的小兵、步兵和騎兵的聯合編隊到現代空軍的復合翼概念[8, 9]。現代計算機模擬和人工智能(AI)的研究提供了新的機會,通過建模和評估部隊的組成和戰術來推進聯合武器理論。最近的研究表明,智能體能夠在戰略游戲中產生新的戰術[10],協調多個物理和行為上不同的單位,在物理世界中執行協作任務[11],并在智能體的合作團隊中產生新的和多樣化的行為[12]。所有這些結果都與聯合武器理論有直接關系。這樣的研究既促進了軍事藝術的發展,也促進了人工智能和多智能體系統的研究。

1.2 研究問題

假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。

1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?

2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?

假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。

1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?

2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?

3.給定一組形態不同的單元,多Agent系統能否在沒有明確的中央指令的情況下表現出協同的聯合武器行為?

問題一和問題二涉及到可以將多樣性引入到智能體群體中的方式。采用具有物理或形態差異的智能體是否有益?為了回答這些問題,本研究在各種不同的任務中測試并比較了行為上和形態上的異質團隊。第三個問題是評估多智能體系統參與聯合武器戰爭中的合作行為類型的潛力。

這項研究提出了幾個戰斗單位的異質團隊的模擬,并評估了形態和行為異質性對團隊有效性的影響。多個異質和同質團隊被生成并在四個場景中測試,每個場景都有不同的目標。隊伍根據其勝利率進行分級,并與所受傷害成反比。測試結果被用來確定最有效和最高效的團隊配置和行為。

最合適的團隊表現出合作戰術,包括側翼機動、偵察、多管齊下的攻擊和其他行為。這些戰術產生于每個團隊成員智能體的互動,并且經常結合不同的智能體形態或行為。這項研究表明,異質性對團隊適應性的影響因情況而異,最有效的團隊傾向于演化出異質性行為和形態來克服戰術挑戰,而且聯合武器戰術可以從簡單智能體的相互作用中出現。

1.3 貢獻

這項研究提供了一個動態領域中同質和異質多智能體系統的比較。它支持國防部(DoD)發展自主武器系統的優先事項[13],并通過展示從簡單的智能體互動中出現的可識別的戰術行為,將多智能體系統理論應用于聯合武器的軍事藝術。提供了一個新的和可擴展的模擬器,用于未來對單體和多體系統的研究。

1.4 概要

第二章提供了多智能體系統的相關背景和研究,并概述了該領域與聯合武器理論的關系。還提供了RoboCodePlus模擬器的描述。第三章描述了用于執行實驗的方法,概述了智能體架構、測試場景以及用于生成和進化單個團隊的遺傳算法。第四章分析了每個實驗的結果并得出結論,而第五章總結了所做的工作并為未來的工作提供了建議。

付費5元查看完整內容

目的:應用綜合決策支持關鍵--評估框架(IDSK-EF)后的任務工程(ME)來評估能力,并為概念、科技、P&E、PoR、CPM和操作領域的決策提供信息。

概念:任務工程研究確定/驗證了任務能力差距和擬議的技術解決方案。IDSK-EF將能力評估作為框架,為整個概念到實戰的決策提供信息。

  • 科學和技術(S&T)開發技術解決方案

    • IDSK-EF評估技術能力;為投資和成熟度決策提供信息。
  • 原型開發與試驗(P&E)使技術解決方案得以實施

    • IDSK-EF評估原型性能;為過渡決策提供信息
  • 收購計劃(PoR)開發、獲取操作能力

    • IDSK-EF評估技術和操作能力;為采購決策提供信息。
  • 能力組合管理(CPM)管理能力組合的實戰化

    • IDSK-EF評估SoS性能;為能力組合管理決策提供信息

付費5元查看完整內容
北京阿比特科技有限公司