結合復雜不確定系統的框架(FICUS)提供了地理時間風險分析能力,將極大地改進美國陸軍工程研究與發展中心(ERDC)人類基礎設施系統評估(HISA)和城市安全模型建立和校準地點的軍事情報(MI)。再經過一年的開發,FICUS 工具可以提供復原力監測,并進行全面的地理和時間風險分析,通過整合美國國家地理空間情報局 (NGA)、ERDC 和 FICUS 原型模型的現有工具,改進情報產品:即使在沒有人類基礎設施系統評估或城市安全能力的地方也是如此。FICUS 將支持對人口、環境和基礎設施相互作用進行更高保真的情報分析。
近幾十年來,世界各地重大、復雜的緊急事件都發生在人口稠密的城市地區。雖然許多技術解決方案對當今復雜的多維城市地形有一定的了解,但要在城市物理系統的背景下建立人類系統模型,還需要做更多的工作。FICUS 填補了這一信息空白,它系統地將多種來源的人類數據和調查(已例行收集)結合起來,提供了一種包含分析和預測復雜人類行為所需的相互關系的人口表征。
FICUS 能夠將不同的調查和數據源(如家庭信息)與基礎設施系統的數字網絡結合起來,在采取不同行動的情況下生成一系列可能的情景。FICUS 能以更高的分辨率和保真度為決策者提供最壞和最好的情況,其效果遠遠超出了以往的設想,從而極大地提高了作戰指揮官或基地指揮官計算和管理城市行動風險的能力。
FICUS 可通過計算處理人口密集地區內部和周圍的物理、人類和信息系統的復雜重疊,使規劃人員、分析人員和作戰人員能夠跟蹤、監控和評估人類與物理系統之間的聯系如何影響軍事行動。反過來,FICUS 還能為決策者提供在密集的城市環境以及農村和較小城市中各種軍事決策和行動方案的二級和三級階梯效應。從根本上說,FICUS 是一種重要的補充分析工具,可用于任何類型的定性分析,并從利用大型不同數據集所獲得的情報中獲益。
本研究項目的目標是開發一種認知助手,以支持美國防部(DoD)對新成本估算人員的培訓。認知助手(CA)在這里被定義為一種人工智能(AI)工具,通常具有自然語言界面,通過檢索和處理來自多個信息源的相關信息,并在適當的時候將其提供給用戶,從而在特定任務中增強人類的智力。它還具有學習和適應用戶和手頭問題的能力。
成本估算是一個復雜的迭代過程,由多個步驟組成:收集所需信息、選擇總體戰略和一個或多個現有模型、根據需要開發新模型(包括校準和驗證)、執行估算以及酌情進行敏感性分析。初級成本估算人員在每個步驟中都會遇到挑戰,包括處理不完整的數據集、適當評估新模型的性能、預測歷史有效范圍之外的情況、充分報告點估算的不確定性水平、了解如何使用成本-進度聯合分布等。
目前,對新成本估算人員的培訓主要是通過現場課堂的傳統教學進行的,因此這是一個耗時的過程。傳統教學通常意味著實踐學習機會的減少,而眾所周知,實踐學習可以提高學習效果。這種教學方式也不是根據每個人的具體情況量身定做的,因此對于某些學員來說,教學進度可能太快,而對于另一些學員來說,教學進度可能太慢。正如其他教育領域的智能輔導系統所證明的那樣(Corbett et al.)
使用人工智能工具來提高受訓人員的學習能力并不是什么新想法,幾十年來一直在研究(Ong 和 Ramachandran,2003 年)。然而,在國防部采購領域,仍處于將先進的人工智能工具納入工作流程的早期階段,特別是 CA 還沒有被用作培訓工具。由于底層機器學習(ML)模型性能不足和用戶不熟悉這種交互模式,以前在工作場所采用這種技術的嘗試都失敗了。隨著 CA 在日常生活中無處不在,以及最近在機器學習方面取得的重大進展,將這種技術引入工作場所的時機已經成熟。
在該項目的第一孵化階段(10 萬美元,2021 年 9 月至 2022 年 6 月),研究團隊與贊助商和其他利益相關者合作,確定了 CA 的用例。決定將重點放在已經熟悉成本估算方法,但希望學習一種新商品(即空間系統)的用戶身上。該工具將幫助用戶以個性化的方式學習新材料。在團隊開發的名為 Daphne 的現有智能體的基礎上開發了 CA 的初始版本。這使能夠快速取得進展,因為一些軟件基礎架構可以重復使用。此外,還展示了在為各種學習評估和學習機會選擇問題時進行個性化培訓的能力,這些問題和機會最能滿足用戶的需求(例如,強化薄弱環節)。對美國防部開發和維護這種工具所需的資源進行了初步估算。
該項目被批準進入第二階段,目標是進一步開發智能體,并與實際用戶進行驗證。本文件報告了第二階段第一年的成果(13.4 萬美元,2022 年 9 月至 2023 年 9 月)。在此期間,開發了第二版智能體,利用大語言模型(LLMs)使系統更加靈活、可擴展、易維護。此外,還開發了一個包含幻燈片、例題和測驗的三模塊空間系統在線課程,并已開始在德克薩斯農工大學(TAMU)對該工具的有效性進行全面測試。
未來的研究計劃包括提供更長的在線課程,并與成本評估和項目評價辦公室 (CAPE) 的真實用戶進行測試。此外,研究小組還將完善對開發和維護成本的估算。
該項目是為了支持美國國防部高級研究計劃局(DARPA)的 "開放世界新奇事物的人工智能與學習科學"(SAIL-ON)計劃。在第二階段基期工作中,我們推進了第一階段 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。在第二階段的選擇階段,我們將基礎階段的工作擴展到更廣泛的新奇事物生成和實施形式。
這項工作的主要成果包括:完成了新奇事物生成器的開發;對來自 3 個不同 SAIL-ON TA1 團隊的新奇事物進行了性能分析;開發了自動且可最大程度減少人為偏差的新奇事物生成與實施流程;將我們的新奇事物生成流程應用于 Monopoly、Vizdoom 和 Blocksworld 領域,從而證明我們的新奇事物生成器與領域無關;以及為 SAIL-ON 計劃提供支持。下面的項目總結和后續報告將更詳細地介紹這些成就。
目前最先進的人工智能可以在已知已知甚至未知的情況下穩健運行。然而,人工智能仍無法可靠地檢測、描述和適應開放世界中的新奇事物。隨著研究界不斷努力實現先進的自主性,我們需要有科學依據的方法來評估人工智能體在開放世界環境中的表現。
PacMar Technologies(PMT)和 Parallax 高級研究公司開發了一套獨立于領域的理論、原則性技術和軟件工具,用于生成、描述和評估新穎性。這些理論和技術涵蓋了與領域無關的新穎性。在合同基期內,我們開發了一個測試平臺,用于評估智能體在自動駕駛汽車領域對新奇事物的反應性能,我們還在南加州大學 SAIL-ON 團隊提供的大富翁領域中實施了由我們的軟件工具自動生成的新奇事物。
我們的新奇事物生成器方法使用原則性技術自動生成新奇場景。這些場景被加載到模擬環境中,與給定的第三方人工智能體對接,以收集該智能體的性能數據。然后評估智能體在各種不同情況下處理各類新奇事物的能力。
我們將新奇定義為環境中的變化。簡而言之,變化可以是過渡函數的變化,也可以是狀態空間的變化。我們的方法有能力在過渡函數(包括行動和事件)、狀態空間定義和觀察函數中生成新穎性。精確生成新穎性的計算方法可分為兩種類型的轉換,其方式與創造性系統框架(Wiggins,2006 年)一致。我們方法的關鍵在于從八個維度對新穎性進行表征,從而支持將情景生成的重點放在可能挑戰智能體魯棒性的情況上。
我們的方法目標如下
1.為新奇性的特征描述奠定科學基礎。 2.開發生成可用于評估智能體的新情景的技術。 3.確定這些技術的可行性及其在各領域的適用性。
本報告旨在清晰地描述我們的方法,包括新穎性生成、模擬和評估的方法。將我們的方法應用于 CARLA 的自動駕駛汽車領域、Monopoly、VizDoom 和海洋領域,有助于進一步發展理論和測試平臺軟件。最后,我們對本報告進行了總結,并提出了進一步研究的思考和啟示。
在第一階段的工作中,我們開發了一個基于新穎性多維表征的新穎情景生成框架。我們正式規定了這一多維表征、收集受測智能體數據的指標,以及評估智能體對不同類型新穎性的魯棒性的方法。在使用轉換生成新穎性的過程中,我們定義了 24 個函數簽名,并計算了應用這些簽名生成新穎性的上限復雜度。我們的研究表明,根據我們對新穎性的多維表征,使用這兩種類型的變換來改變場景生成,我們能夠顯著減少新穎場景的空間。為了支持新穎性的精確生成,我們構思了 TALONS 模擬器抽象語言(T-SAL)來描述環境和這些環境中的各個場景。我們利用這些概念來支持第三方智能體對新奇事物的魯棒性評估。
在第二階段基期工作中,我們推進了 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。我們制作了三個源代碼庫,詳見基礎階段最終報告,其中包含以下內容的實現:(1) TSAL 語言;(2) 新穎性生成器(實現 R 變換);(3) 使用 CARLA 自動駕駛汽車模擬器的評估框架。從理論角度來看,我們利用第一階段工作中開發的新穎性維度理論對新穎性進行了初步分析研究,并正式定義了 R 變換,然后利用這些定義正式定義了新穎性層次結構級別。
我們在第二階段選擇期內做出的獨特貢獻包括以下內容:
無人地面系統(UGS)的軍事試驗正在迅速展開。拆彈機器人已在武裝部隊服役數十年。現在,具有更強能力和自主性的系統正在開發和測試中。
其潛在用途包括運載貨物、傷員后送、偵察、化學智能體探測、通信和火力支援。然而,理想用途與現有技術能力之間存在巨大差距。將系統運送到使用地點、到達目的地后的實際用途以及機器與士兵的互動等問題經常未得到充分研究,但這些問題對于如何將 UGS 納入陸軍并提供真正的作戰優勢至關重要。UGS 的技術局限性必須反映在如何在陸軍中組織任務上。必須適當考慮 UGS 在戰場上的移動方式,因為這往往不是靠它們自己的動力。維護和修理 UGS 需要新的培訓課程以及與工業合作伙伴的密切關系。
可以得出的主要結論是,UGS 將需要人類的大力支持。此外,還必須考慮和管理操作人員的認知負擔。系統移動速度緩慢,在復雜地形中導航困難,這意味著它們不適合執行某些已提出的任務,如在復雜地形中的徒步近戰。重要的是讓盡可能多的士兵參與實驗,并讓他們盡早和經常接觸 UGS。要做到這一點,可以在士兵人數最多的地方(如射擊場和演習場)使用 UGS,并進行模擬。此外,初始培訓應包括對新兵的 UGS 教育和演示。這將有助于建立對這些系統的熟悉、好感和信任。
人機小組的潛力巨大,但炒作不應掩蓋 UGS 的局限性和將新技術融入現有結構的難度。
1.作用和管理:由于目前的技術限制,在有使用紅利的情況下,應在后方地區使用 UGS。將較大型的 UGS 視為可以競標獲得支持的飛機,這樣就可以對供需進行管理,并避免 UGS 成為低空編隊的負擔。
2.部隊設計:現在就需要在部隊規劃中考慮到 UGS 對工程師和輔助人員(隱形尾巴)的額外需求。事實上,管理 UGS 可能需要更多士兵。
3.后勤負擔:必須對 UGS 的運輸和儲存以及電池管理進行詳細規劃,不能簡單地將其添加到現有任務中,否則會進一步消耗稀缺資源。這將確保新技術對整個部隊的影響得到充分考慮。
4.教育:與 UGS 有關的教育和培訓應在實驗進行時立即開展,而不是等到系統正式投入使用時才進行。基本培訓應包括有關 UGS 的教育,哪怕是最基本的形式,以便開始建立信任和熟悉感,為大規模整合 UGS 提供便利。
5.試驗:應將 UGS 試驗納入那些有大量士兵的地區,如射擊場。此外,應確保決策者和進行試驗的人員了解 UGS 試驗和活動的整體情況,并確保領導者在項目的整個生命周期中保持參與,而不是在開始和結束時。明確整個生態系統的所有權是至關重要的,同時鼓勵自下而上的參與將創建一個準備好充分利用用戶信 息系統的用戶群。
數字孿生(DT)應用和相關技術有可能提高兵棋推演模擬的準確性,從而提供風險知情的決策支持建議。理論上可以開發作戰環境的 DT,以持續收集來自作戰兵力的數據,并創建計算模型或模擬來測試作戰空間條件。有效實施 DT 可以為指揮官提供及時更新和調整的建議,從而為決策過程提供幫助。如果根據持續運行的模擬結果,先前建議的行動方案不再被認為是最佳方案,那么實時更新將告知指揮官。本論文對將支持 DT 的決策支持系統整合到海軍陸戰隊規劃流程并作為各級指揮領導的有效工具進行了定性評估。研究人員認為,通過將實時數據納入模擬未來沖突,可以增強戰爭博弈過程,從而促進將數據分析納入時效性決策,并有可能改善決策過程中的不確定性管理。提高對資源分配決策的認識和量化協助將使領導者受益。預期的挑戰將是作戰兵力的數字化進程以及讓領導者適應新技術。
圖. 數字孿生賦能在線戰場學習,及在無人作戰中的作戰模式。
美國海軍陸戰隊歷來將兵棋推演作為一種訓練工具,用于培養海軍陸戰隊員的決策技能,并在可控環境中評估領導者的計劃過程,從而提供有用的反饋。兵棋推演還被用于測試不同的作戰概念和發展條令(Bae & Brown,2021 年)。2017 年,海軍陸戰隊司令羅伯特-奈勒將軍建立了海軍陸戰隊戰爭博弈與分析中心。戰爭博弈與分析中心計劃于 2024 年開放,其主要任務是能力開發。該實驗室將設在弗吉尼亞州的匡蒂科,海軍陸戰隊作戰實驗室、海軍陸戰隊大學和海軍陸戰隊系統司令部可利用該實驗室提出有分析支持的建議,以塑造未來的兵力設計和發展活動(岡薩雷斯,2021 年)。
海軍陸戰隊還希望利用大數據分析、人工智能(AI)和機器學習(ML)等新興技術,運行超過 1000 次的模擬,以確定戰斗場景中各種結果的概率(South,2018 年)。這將有助于開發分析決策支持工具,為戰術指揮官提供數據驅動的建議。為使系統能提出可行的建議,模擬必須由準確且最新的數據驅動。創建海軍陸戰隊兵力的數字孿生(DT)以及從物聯網(IOT)中收集的數據,可為海軍陸戰隊提供必要的工具,以建立其希望采用的決策支持設備(Madni 等人,2019 年)。目前,海軍陸戰隊的 DT 計劃主要局限于網絡管理和供應鏈協調。然而,隨著數據傳輸的加快和物聯網的普及,最先進的人工智能/ML 對 DT 的增強可以改善 DT 與指揮、控制、通信、計算機和情報(C4I)各方面的整合,從而推動戰斗空間感知、持續決策支持分析以及在復雜的互聯戰場中保持決策優勢。
A. 問題陳述
只有在數據本身可靠的情況下,利用人工智能和大數據分析進行決策支持才是有益的。例如,當指揮官審查數據并決定行動方案時,為其決策提供支持的建議可能已經過時。基于錯誤或過時數據輸入的錯誤建議可能比沒有數據更具破壞性。即使模擬使用的是準確的最新數據,只要變量保持靜態,系統提供的建議也將一直有效。由于戰術建議需要靈活適應戰場條件的動態性質,因此有必要采用可將實時數據饋送納入決策支持模擬工具的系統。
B. 目的說明
本研究的目的是探索數據傳輸應用和相關技術的潛力,以提高戰棋模擬的準確性,從而為指揮官提供風險知情的決策支持建議。理論上可以開發作戰環境 DT,以持續收集來自作戰兵力的數據,并創建計算模型或模擬來測試作戰空間條件。有效實施 DT 可以為指揮官提供及時更新和調整的建議,幫助決策過程。如果根據持續運行的模擬結果,先前建議的行動方案不再被認為是最佳方案,那么實時更新將告知指揮官。我們將研究私營部門和政府的 DT 計劃,以確定此類系統的潛力。
C. 研究問題
1.1兵棋推演的哪些應用將受益于 DT?
1.2 DT 如何增強海軍陸戰隊規劃流程和快速反應規劃流程?
1.3 DT 能否增強參與者的知識流程?
2.DT 綜合決策支持系統如何改進指揮官的決策周期?
2.1 決策支持系統能否減少戰場上的不確定性?
2.2 需要哪些數據輸入來開發海軍陸戰隊兵力或作戰環境的綜合 DT?
2.3 決策支持系統能否縮短決策所需的時間?
2.4 何時需要自動決策,何時需要人工決策?
3.決策支持系統應納入哪一級指揮系統?
3.1 在戰爭戰術層面整合決策支持系統有何影響?
3.2 在作戰層面整合決策支持系統有何意義?
3.3 在作戰層面整合決策支持系統有哪些影響?
3.3 在戰爭戰略層面整合決策支持系統有何影響?
D. 論文結構
本論文的其余部分由另外四章組成。第二章是對決策科學、兵棋推演和數字孿生應用及相關技術等主題的現有文獻綜述。第 III 章是對所選研究方法的概述。第 IV 章分析了將數字孿生融入兵棋推演和決策支持的可能性,以協助不同戰爭級別的指揮官。第 V 章介紹了由此得出的結論,包括建議以及對未來研究領域的建議。
這個項目利用RL的一些最新進展來開發實時戰略游戲的規劃器,特別是MicroRTS來代替Stratagem計劃的兵棋。PI實驗室的這些進展之一被稱為強化學習作為預演(RLaR)。在此之前,RLaR只在玩具基準任務中進行了評估,以確定其在減少樣本復雜性方面的功效。這個項目為行為者-評論者架構開發了RLaR,并首次將其應用于具有不完整信息的復雜領域,如MicroRTS。本項目中應用的另一項技術源于最近在復雜的《星際爭霸II》游戲中多智能體學習的成功,特別是多階段訓練的架構,在訓練穩健策略的中間階段發展聯盟和聯盟開拓者策略。
我們針對MicroPhantom--最近MicroRTS比賽的亞軍--對RLaR進行了訓練,結果表明它能夠對這個對手進行有效的計劃,但使用的樣本比相關基線少。另外,我們使用4個階段的訓練方案在自我博弈中訓練RLaR,并針對MentalSeal(冠軍程序)和MicroPhantom評估了訓練后的策略。雖然該策略在面對MicroPhantom時再次顯示出良好的性能,但它在面對MentalSeal時卻沒有表現得很好。根據先前的初步發現,針對MentalSeal的訓練是非常緩慢的,我們推測需要大量的訓練時間,而不是我們在這個項目的延長期內能夠投入到這個步驟中的。
這個項目的主要目標是為無人駕駛飛行器(UAVs)設計、開發和制作一個自動化和自組織控制框架的原型。通過結合軟化和抽象原則、優化和人工智能(AI)成功地實現了目標,能夠開發出一個原型,能夠理解網絡操作者的目標,適應網絡參數和功能,以應對不斷變化的環境條件并保證高性能。
智能無人駕駛飛行器(UAVs)作為提供新功能、擴展無線網絡基礎設施和使網絡更靈活的工具,已經獲得了發展勢頭[1-4]。由于其獨特的特點,如快速部署、高機動性、處理能力和縮小的尺寸,無人機是未來眾多無線應用的一項有利技術。其中,增加網絡覆蓋面和為用戶提供情境感知的網絡服務是顯著的例子。
盡管有上述優勢,但如何部署能夠自適應和自組織的無人機群,以提供可靠、高性能和無處不在的服務并不是一件容易的事。事實上,網絡的無線和分布式性質使無人機暴露在干擾、障礙物和不斷變化的信道條件下,可能會對網絡運行產生負面影響(或者在最壞的情況下完全阻止)。這些挑戰在成功取決于無人機、移動終端用戶、基站、運營中心等之間無線通信的可靠性和效率的應用中更為重要。在這個項目中,我們通過設計、開發和原型驗證SwarmControl,推進了無人機網絡群的技術水平,這是一個新的軟件定義的無人機群控制框架,其目標是實現網絡操作的自動和智能重新配置,以保證高性能并適應不斷變化的網絡條件。SwarmControl結合了各種優化和數據驅動工具、軟件定義無線電(SDR)和分布式網絡控制原則,為網絡操作者提供了一個統一的網絡和飛行控制功能的抽象。有了SwarmControl,操作員可以通過在一個集中的抽象上指定無人機網絡的高級控制指令和要求來定義和實施復雜的網絡控制問題。SwarmControl(i)構建網絡操作員指令的網絡控制問題表示;(ii)將其分解為一組分布式子問題;以及(iii)自動生成數據驅動和分布式優化解決方案算法,在各個無人機上執行。
在下文中,我們將詳細介紹我們在該項目中所進行的研究活動,具體重點是描述SwarmControl從基于優化的框架[2-4]到數據驅動的框架[3]的演變,強調我們的原型設計工作和相應的實驗結果如何幫助我們證明其有效性。
這個項目在兩個不同的階段中發展。第一階段涉及基于模型的優化,其中無人機通過傳統的優化工具調整其位置和網絡功能[2,4,5]。第二階段則涉及優化工具被無模型人工智能解決方案所取代的研究活動,其中網絡的底層模型是由一組合作代理(即無人機)學習的,它們協調其移動性和網絡操作以滿足網絡操作者的目標[3]。
該項目第一階段開展的研究活動主要是為無人機群開發一個網絡操作系統,利用分解和分布式優化理論來實現網絡操作者的目標。為此,我們開發了圖1所示的系統。
該系統包括兩個關鍵部分:控制框架和無人機可編程協議棧(DPPS)。
如圖1所示,該組件負責(i)為網絡操作者提供控制接口,以指定所需的網絡行為;(ii)構建網絡操作者指令的數學網絡控制問題(NCP)表示;以及(iii)將NCP分解為一組獨立的子問題,并將其分配給各個無人機。
控制界面。與網絡操作者的互動是通過一個控制界面實現的。通過控制界面上的幾個輸入字符,網絡操作員可以指定所需的網絡行為、要實現的網絡協議和節點特定的約束。高層指令的例子包括通過最大化網絡吞吐量來提高網絡性能,通過最小化能源消耗來延長無人機網絡壽命,通過指定最小速率約束來確保QoS要求,以及覆蓋一個特定的空中空間,等等。控制接口為網絡操作者提供了一個無人機網絡的抽象,隱藏了低層網絡功能和底層網絡架構的細節,如無人機的數量以及它們的計算能力和電池水平等。通過SwarmControl,控制無人機網絡變得非常簡單,只需在預定義的控制模板中進行選擇,選擇首選的網絡協議,并指定單個節點的約束。
網絡控制問題的構建。一旦網絡控制問題被定義,SwarmControl將網絡操作員的指令和要求轉化為一組數學表達式,然后將其合并并重新排列成一個NCP。由此產生的NCP是網絡操作員通過控制接口定義的高級網絡行為的集中表示,它跨越了網絡和飛行控制領域,涉及多個節點和協議棧的所有層。
分布式解決方案算法生成。通過網絡控制問題構建得到的NCP的跨層性質以及其變量之間的耦合性,使得它很難以分布式方式計算出一個理想的解決方案。為了應對這一挑戰,SwarmControl采用了水平和垂直分解理論,將具有跨層和跨節點依賴關系的NCP解耦為一組分布式子問題,每個子問題只涉及一個網絡節點和協議棧的一個層。對于所產生的每個子問題,SwarmControl以自動化的方式生成一個分布式數字解決方案算法,然后將其轉發給各個無人機,并在網絡運行時根據本地網絡狀態信息執行。
無人機可編程協議棧(DPPS)。如圖1所示,DPPS安裝在每個單獨的無人機上,以分布式和自動化的方式解決從控制框架收到的數值解算法。DPPS跨越了網絡協議棧的所有層次,并與飛行控制器固件緊密互動。DPPS為復雜的跨層和跨域網絡協議的原型化提供了必要的構件和基元,允許在協議棧的所有層對網絡、傳感和運動參數進行完全控制。
SwarmControl DPPS接收將在各個無人機上執行的分布式數值解算法(如運動解算法、傳輸率解算法),并在其決策平面上運行,如圖2所示。這個平面有一個協議庫,包含不同網絡協議和運動策略的軟件實現(如TCP、Bellman-Ford路由算法),以及運行調度腳本的數學求解器。
決策平面監督分布式優化算法的實時運行,使用最新的網絡狀態和運動信息作為輸入參數(例如,噪音功率、隊列狀態、與其他無人機的距離)。這些信息從注冊平面檢索,注冊平面也被用來存儲計算的數值解決方案。DPPS在運行時根據計算出的數值解配置數據平面中包含的網絡和飛行控制操作參數(例如,根據優化的路由表改變當前無人機的位置,根據注入網絡的優化應用層速率配置TCP窗口大小)。
該平面實現了一個完全可編程和可重新配置的協議棧,橫跨所有網絡層和運動層,并通過SDR和飛行控制器驅動器與無線電和運動前端接口,如圖2下部所示。
數據平面對無線電前端(由軟件定義的無線電和運動前端實現)以及協議棧功能都有完全的控制權;它負責將實際的網絡狀態和無人機位置信息反饋給注冊平面。如圖2所示,網絡狀態信息和計算的數字解決方案都存儲在寄存器平面的專用查找表(LUT)中。
每個DPPS層在寄存器平面都有一個專門的網絡狀態LUT,用于存儲所有與層相關的網絡狀態參數(例如,物理層L1 LUT中的信號干擾加噪聲比(SINR)和鏈路容量;網絡層L3 LUT中的鄰居集合和它們的距離;運動層L0 LUT中的物理位置和附近的障礙物)。數值解決方案以類似的方式存儲在專用的數值解決方案LUT中,每個DPPS層一個(例如,傳輸層L4 LUT中的TCP窗口大小;網絡后期L3 LUT的路由表;物理層L1 LUT的位置)。
對SwarmControl進行評估的第一個挑戰是缺乏具有SDR的商用現成無人機平臺。為了解決這個問題,我們設計并建立了一個定制的無人機網絡節點平臺,稱為Dron-SDR,將Ettus Research通用軟件無線電外圍設備(USRP)B205mini-i SDR安裝在英特爾航空即興飛行無人機上,如圖3所示。
圖3 帶有SDR的SwarmControl原型:(左)原型的圖片;(右)結構
英特爾Aeros的飛行自主權超過20分鐘,輪轂到輪轂的對角線長度為360毫米,基座到頂部的高度為222毫米,具有高度的便攜性和可操作性。同樣,B205mini-i SDR是市場上最緊湊、最輕、最低功耗的SDR設備。英特爾航空容納了一塊計算板,提供足夠的計算能力來運行Ubuntu 16.04和SDR開發框架,如GNU Radio。飛行管理、電機控制和傳感器融合在直接連接到計算板的Pixhawk 4飛行控制單元(FCU)上進行。所有FCU的參數和命令(例如,遠程控制和傳感器讀數)都是通過MAVLink路由器的UDP通信來訪問。與傳統的無人機不同,SwarmControl無人機節點被賦予了一個DPPS運動層(圖3中的L0:運動),它承載了基于Pymavlink的控制實現,允許每個節點自主地執行飛行控制操作。
值得指出的是,SwarmControl完全依賴于開源軟件。具體來說,DPPS完全由高級腳本語言(即Python)實現,并在原生的Linux操作系統上運行,它與FCU和GNU Radio直接對接。這使得SwarmControl與所有基于MAVLink的可編程無人機接口(如Pymavlink、DroneKit)兼容。圖3顯示了Dron-SDR原型的概況、其結構和硬件設計。
在項目的第一階段,我們已經展示了SwarmControl如何通過優化理論提升網絡性能并利用自動化和分布式控制來適應當前的網絡條件。然而,第一代SwarmControl框架依賴于基于模型的優化,當環境過于復雜,無法用一個可行的模型來捕捉時,可能會導致不準確的近似。事實上,基于模型的優化方法的性能往往受到通過凸優化或類似技術解決無人機網絡控制問題所需的近似和放松的準確性以及所使用的信道網絡模型的準確性的限制。為了應對這些挑戰,該項目第二階段的重點是開發一個新的架構框架,以控制和優化基于無模型的深度強化學習(DRL)的無人機網絡。為了克服基于模型的優化的局限性,我們還開發了一個虛擬化的、"即用即飛 "的模擬環境,以生成訓練DRL算法所需的大量無線數據痕跡,這些數據在電池供電的無人機網絡上是很難生成和收集的。訓練環境將項目第一階段開發的DPPS與CORE/EMANE仿真工具結合起來,對無人機網絡進行精確仿真。
我們設計了一個由控制框架和DRL DPPS組成的兩層架構。網絡運營商使用控制框架來決定分布式無人機網絡的預期行為。我們的解決方案自動生成一組DRL代理(即一組神經網絡(NN)形式的政策),這些代理在控制框架內的虛擬環境中進行訓練。訓練完成后,NN配置經過測試并自動分發到各個網絡節點,在那里它們將被用來控制DRL DPPS中的網絡和運動參數。通過這種方式,各個無人機通過實時優化其網絡性能,分布式地實現網絡運營商的目標。
通過一次分配NN配置,并在網絡的邊緣節點執行所需的網絡控制政策,這種方法不會受到集中式控制系統所特有的陳舊信息檢索和延遲命令的影響。此外,由于使用了可編程的運動和射頻前端,擬議的基于NN的政策設想了飛行和無線網絡參數的全堆棧和跨層優化。
新開發的SwarmControl框架通過DRL解決了無人機網絡控制問題。我們考慮了一個多智能體的DRL方案,每個無人機都是一個不同的智能體,并在虛擬環境中為特定的飛行任務集體訓練復雜的無人機出動。訓練完成后,我們測試并向各個無人機分發適合任務的NN配置。這些用于計算網絡和運動策略,以通過適應動態網絡條件來實現網絡運營商的預期網絡行為。
與基于模型的優化相比,我們的數據驅動方法解決了不準確的建模表述和優化近似。與優化方法不同,DRL智能體不受優化求解器延遲的影響,可以以O(1)的復雜度推導出策略。
為了收集電池供電的無人機網絡的大量性能數據,我們開發了一個極具代表性的仿真虛擬環境。我們重新審視了第一階段開發的DPPS,并將其與深度強化學習(DRL)的功能相結合,將其稱為DRL DPPS。我們將DRL DPPS與CORE/EMANE仿真工具整合在一起,以獲得一個高保真的虛擬環境,同時捕捉到運動、無線信道和高層協議棧的互動。我們系統地使用我們的 "可飛行 "虛擬環境來收集大量高保真網絡性能數據。最終,這種整合工作產生了一個具有高度代表性的模擬環境,使我們能夠擴大學習時間,并以高度的真實性訓練我們的DRL智能體。
圖4報告了DRL無人機可編程協議棧(DRL DPPS)架構的概況。DRL DPPS用于單個無人機,在協議棧的所有層進行運動和無線操作,也用于控制框架的學習引擎,以訓練和測試特定任務目標的NN策略制定。在后者中,物理層和運動操作由虛擬化的CORE/EMANE環境執行,而在前者中,這些操作通過硬件運動和射頻前端實現。
通過在控制框架的學習引擎中采用整個DRL DPPS架構(不包括硬件前端),我們獲得了一個真實的模擬環境,這是我們高保真性能數據收集和有效的DRL訓練的關鍵。
我們對項目第一階段開發的DPPS進行了擴展,用新的DRL平面取代了決策平面,但仍保持其架構功能;以跨層的方式一次性優化網絡和運動控制參數。具體來說,控制邏輯是通過采用一種叫做Q-learning的DRL變體來實現的,其目的是優化我們試圖最大化的目標函數(即網絡運營商的目標)的估計值(稱為Q函數)。DRL采用的NN是一個深度Q網絡(DQN),它使用隨機梯度下降法(SGD)來近似Q函數。
本項目的主要貢獻之一是將DRL DPPS與CORE/EMANE仿真工具相結合。
這項整合工作的目標有兩個方面:
開發一個高保真仿真環境,捕捉實時無線信道現象(如路徑損耗、延遲傳播、干擾)和協議棧各層的網絡操作(如分組、分段、重傳、流量突發、處理延遲),這些都是很難或很昂貴的模型,只能在仿真中近似地進行;
為研究人員提供一個可重新配置的仿真工具,以設計不同的無人機網絡配置和拓撲結構,并大規模地收集高保真無人機網絡性能數據。這項工作是對收集電池供電的無人機網絡實驗性能數據的有效替代,因為后者既費時又費力。
同時,這個仿真工具可以在實驗實施前用于測試無人機網絡配置。
圖5說明了DRL DPPS和CORE/EMANE之間的架構整合。在控制框架的學習引擎中,虛擬訓練環境和虛擬測試環境都使用了相同的架構。此外,圖6描述了DRL智能體(即嵌入SwarmControl的DRL DPPS的無人機)之間的互動,其中我們展示了多個DRL代理如何與CORE/EMANE中模擬的同一環境進行互動。值得一提的是,盡管每個DRL智能體在一個單獨的容器中執行,但它們都通過所有DRL智能體共享的同一個CORE/EMANE容器進行交互。
根據陸軍多域作戰(MDO)條令,從戰術平臺生成及時、準確和可利用的地理空間產品是應對威脅的關鍵能力。美國陸軍工程兵部隊、工程師研究與發展中心、地理空間研究實驗室(ERDC-GRL)正在進行6.2研究,以促進從戰術傳感器創建三維(3D)產品,包括全動態視頻、取景相機和集成在小型無人機系統(sUAS)上的傳感器。本報告描述了ERDCGRL的處理管道,包括定制代碼、開源軟件和商業現成的(COTS)工具,對戰術圖像進行地理空間校正,以獲得權威的基礎來源。根據美國國家地理空間情報局提供的地基數據,處理了來自不同傳感器和地點的四個數據集。結果顯示,戰術無人機數據與參考地基的核心登記從0.34米到0.75米不等,超過了提交給陸軍未來司令部(AFC)和陸軍采購、后勤和技術助理安全局(ASA(ALT))的簡報中描述的1米的精度目標。討論總結了結果,描述了解決處理差距的步驟,并考慮了未來優化管道的工作,以便為特定的終端用戶設備和戰術應用生成地理空間數據。
圖3. ERDC-GRL的自動GCP處理管道。輸入數據為JPEG格式的FMV/Drone圖像、參考/地基圖像和參考/地基高程。藍色方框代表地理空間數據,而綠色方框是處理和分析步驟。
美國陸軍未來司令部的士兵致命性(SL)跨職能小組(CFT)正在研究通過頭戴式和武器式能力的組合來增強下馬步兵的新方法。根據SLCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室的研究人員探索了加強輔助目標識別能力的技術,作為陸軍下一代智能班組武器計劃的一部分。
敵對環境中涉及潛在目標的復雜決策必須由下馬的士兵做出,以保持戰術優勢。這些決定可能是人工智能(AI)技術的強大信息,如AI支持的火力或指揮和控制決策輔助工具。例如,一個士兵發射武器是一個明確的跡象,表明該地區有一個敵對的目標。然而,一個士兵在環境中追蹤一個潛在的目標,然后放下他們的武器,這是一個模糊的、隱含的跡象,表明該目標受到關注,但最終被該士兵認為不是一個直接的威脅。在近距離作戰的環境中,與士兵狀態相關的隱性標記數據(如光電視頻、位置信息或火力行動)可用于輸入決策輔助工具,以得出真實的戰場背景。然而,需要對這些行動進行更徹底的檢查。此外,來自單個士兵的突發非交流行為在整個班級中的匯總可以增強戰術態勢感知。盡管它們有可能產生戰術影響,但這些狀態估計或行為指標往往不能以立即可用的形式獲得。
DEVCOM陸軍研究實驗室(ARL)的研究人員調查了一種通過機會主義感應來進行下馬士兵狀態估計的方法--一種不需要人類明確行動就能收集和推斷關鍵的真實世界數據的方法。在通過正常使用武器追蹤和攻擊移動和靜止目標時,連續獲得數據以解釋士兵的行為。這項工作中使用的士兵-武器行為分類方法主要來自人類活動識別(HAR)研究。然而,在這項工作中,為了提高行為結果的生態有效性,在眼球追蹤文獻中經常使用的實驗范式被反映出來,將眼球運動和認知推理聯系起來。具體來說,眼動跟蹤研究的一個子集的目標是收集和解釋與公開的視覺注意力有關的眼動事件(即固定、囊狀運動和追逐),這可以揭示認知過程和關于環境的客觀內容。在戰斗中,士兵們可能會將他們的目標停留在一個靜態的目標上(固定),當出現新的目標時迅速轉換目標點,有潛在的目標出現(囊狀運動),或者在潛在目標移動時跟蹤他們的目標點(平滑追擊)。
目前,頭戴式眼動跟蹤技術正在開發用于戰斗。然而,與校準誤差有關的凝視數據中的噪聲使其難以有效地使用這些數據。一個更突出的解決方案可能存在于士兵和他們的武器之間的互動中,這項工作使用傳統的HAR技術進行。執行HAR的主要方法是在一個人進行一些身體活動時,使用慣性測量單元收集時間序列數據。然后使用機器學習技術來訓練分類模型,根據數據信號預測行動。這種方法可以擴展到包括在人類與物體互動時對其運動的分類。在這種情況下,當近距離作戰的士兵與潛在的威脅進行互動時,武器的運動特征被伺機獲得,這為這些士兵在這種環境中做出的復雜決定提供了一個窗口。
論文中記錄并發表了對這一評估的全面分析。對來自動態士兵狀態估計的運動數據進行建模和分析以實現對形勢的理解。
無人機系統和下一代戰車(NGCV)集成的重點是由美國國防部航空航天教育、研究和創新中心團隊推動的,以支持美國陸軍士兵的項目合作。通過與克里斯-克羅寧格和巴勃羅-古茲曼的雙周互動,與美國陸軍作戰能力發展中心陸軍研究實驗室合作,提出了創造一個盒子的想法,這個盒子可以作為無人機的存儲和平臺,讓無人機降落、起飛,并在航行中得到保護。這項工作的最初目標是開發一個高效和有效的移動無人機平臺原型,供士兵們在戰場上最終使用。計劃是對無人機停留在盒子的蓋子(平臺)上的方法進行多次測試,在盒子里時提供額外保護。
為了支持未來的多域作戰分析,美國DEVCOM分析中心(DAC)正在探索如何在陸軍的作戰模擬中體現天基情報、監視和偵察(ISR)資產的貢獻。DAC正在使用基于能力的戰術分析庫和模擬框架(FRACTALS)作為方法開發的試驗基礎。用于預測衛星軌道路徑簡化一般擾動的4種算法已經被納入FRACTALS。本報告的重點是來自商業衛星群的圖像產品,其分辨率為1米或更低。報告介紹了預測分辨率與傳感器特性、傾斜范圍(包括地球曲率)和觀察角度的關系的方法。還討論了在不同分辨率下可以感知的例子。
在2021年建模與仿真(M&S)論壇期間,空間情報、監視和偵察(ISR)建模被確定為當前/近期的建模差距。美國陸軍作戰能力發展司令部(DEVCOM)分析中心(DAC)提交了一份陸軍M&S企業能力差距白皮書(Harclerode, 2021),描述了幫助填補這一差距的行動方案。陸軍建模和仿真辦公室已經資助DAC開發方法,以代表商業、國家和軍事空間和低地球軌道資產的性能及其對聯合作戰的影響,并在基于能力的戰術分析庫和模擬框架(FRACTALS)內進行測試實施。
FRACTALS是DAC開發的一個仿真框架,它提供了通用的結構 "構件",用于模擬、仿真和評估ISR系統在戰術級任務和工作中的性能。FRACTALS作為DAC開發的各種ISR性能方法的測試平臺,將文件或數據被納入部隊的模擬中。FRACTALS還作為DAC的一個分析工具,在戰術環境中對ISR系統進行性能分析比較。
這項工作需要在一定程度上體現衛星飛行器(高度、軌跡和運動學)、傳感器有效載荷(光電[EO]、紅外、合成孔徑雷達和信號情報)、網絡、控制系統、地面站(時間線、通信、處理、利用和傳播)、終端用戶以及連接它們的過程和行為。本報告描述了DAC為支持這一工作所做的一些基礎工作,重點是可見光波段相機圖像。