迅速設計專門針對特定應用的材料的能力取決于預測性材料模型的使用。在過去的幾十年里,多尺度建模已經成為構建材料模型的主要范式。本報告總結了作為美國陸軍作戰能力發展司令部陸軍研究實驗室跨領域工作的一部分,即2011年至2021年的材料多尺度研究企業(PE 611102.AA7.13 "新型材料的多尺度建模")在發展多尺度建模方法方面的工作。這項工作包括與兩個為期5年的合作研究聯盟(CRAs)的耦合研究:極端動態環境中的材料CRA和電子材料的多尺度/多學科建模CRA(PE 611104.AB7.09 "材料的多尺度建模中心")。
三個研究方向構成了整體工作。
第一個研究方向的首要目標是構建計算方法,以促進多尺度模型層次中的尺度模型之間的數據傳輸,以便通過直接連接尺度模型來構建多尺度模型。這個研究方向的一個主要貢獻是為尺度橋接開發了一個靈活的模塊化軟件環境。
第二個重點是開發新的方法,以便能夠從第一原理上探索真實材料的原子尺度結構特征與其宏觀特性之間的關系。該研究方向對一個領先的大規模第一原理軟件套件進行了重大改進,大大降低了對凝聚相系統的計算要求,同時擴展了該套件的功能,以解決軍隊的問題。
最后,第三個方向是致力于小規模塑性的中尺度建模的新方法,即材料內部位錯的運動。這個研究方向導致了一種獨特的計算能力的發展,使我們能夠將最先進的小規模塑性計算模型與有限元相融合。這種能力允許在有微觀結構的情況下對小尺度塑性進行精確建模。
圖6 嵌入協議的摘要。(a) 進行MD模擬以產生溶劑配置的平衡集合。(b) 對MD模擬中的單個分子("活性區域")進行嵌入CCSD(T)計算,紅圈表示。活躍區氧化時產生的電子洞由藍色電子云表示。附近的分子在B3LYP水平上處理,由藍色圓圈表示。更遠的分子使用點電荷MM模型處理,用棕色圓圈表示。
所有電力驅動的自主平臺都擁有一個系統,將電力分配給平臺的所有重要部件。在美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL),幾個項目正在使用無人駕駛航空系統(UAS)作為平臺。一些正在使用的無人機系統被歸類為第一組,這意味著它們的重量低于20磅。ARL進行研究的第一組無人機系統是非常快速和靈活的四旋翼飛機。這種四旋翼飛機通常有四個旋翼和輕型有效載荷,可以非常迅速地加速,毫不費力地達到每小時100公里以上的速度。為了做到這一點,這些四旋翼飛機可以在30直流電壓下突擊消耗高達400安的電流。為了滿足這些要求,相對于無人機系統的尺寸,電機/螺旋槳組合需要大量的功率。
到目前為止,ARL的無人機系統一直在使用商業現成的配電板(PDB)來滿足配電需求。定制的PDB將滿足美國防部在國內采購更多UAS組件的愿望,因為它將是美國設計和制造的,這對這種類型的UAS組件來說是獨一無二的。
本報告考慮了PDB設計的所有方面,包括形狀、尺寸、組件、成本、電壓調節器、外圍設備等等。本報告以一個特定的ARL項目所需的定制設計的PDB為背景探討了這些問題,但可以作為正在從事半自主和完全自主車輛項目的ARL工程師的起點。
網絡物理系統(CPS)由相互作用的計算和物理組件組成。該項目旨在開發創新的驗證技術以保證網絡物理系統的安全行為。混合系統[5]是一個富有表現力的數學模型,有助于描述涉及連續和離散狀態及其演變的復雜動態過程,這使得它們特別適合于為CPS建模。在這個項目中,我們專注于開發混合系統可達性分析的新技術,即自動探索給定動態系統的狀態空間并計算系統軌跡的包絡,給定其不確定參數的邊界的技術。為了減輕系統的復雜性,我們的目標是發展組合方法,即把系統分析分解為各部分的分析方法。考慮到這一總體目標,我們在這個項目中的活動可以大致分為以下幾個研究方向:
以線性微分方程為特征的系統的可達性方法。雖然現代線性代數軟件包對數萬維的矩陣是有效的,但基于集合的圖像計算卻僅限于幾百維。在[9]中,我們提出了分解到達集的計算,使集的操作在低維度上進行,而像指數化這樣的矩陣操作則在全維度上進行。我們的方法適用于密集型和離散型的設置。對于一組標準的基準,它顯示出與各自的最先進的工具相比,速度提高了兩個數量級,而在精度上只有少量的損失。對于密集時間的情況,我們展示了一個超過10,000個變量的實驗,大約比以前的方法高兩個數量級。這些算法為JuliaReach[10]奠定了基礎,JuliaReach是一個用于基于集合的動態系統可達性分析的工具箱。JuliaReach由兩個主要包組成。Reachability,包含連續和混合系統的可達性算法的實現,以及LazySets,一個獨立的庫,實現最先進的凸集計算算法。該庫同時提供了具體的和懶惰的集合表示,后者代表了將集合計算延遲到需要時才進行的能力。我們擴展了[8]中的這些結果,增加了對任意大小分區和任意低維集合表示的支持。在一個相關的工作中[11],我們沿著復雜度的不同維度擴展了這些結果,即提出了一種有效處理混合系統離散轉換的組合方式。
偽造方法。混合系統的證偽是與驗證相對應的,目的是找到違反給定安全屬性的軌跡。這是一個具有挑戰性的問題,目前偽造算法的實際適用性仍然受制于其高時間復雜性。在[13]中,我們試圖利用我們已經開發的可達性算法的力量來提高偽造技術的可擴展性。特別是,我們從現有的偽造問題的編碼作為一個非線性優化問題開始[25],并提出了一個擴展,通過增加用可達性算法獲得的線性狀態約束來減少優化問題的搜索空間。我們在一些標準的混合系統基準上展示了我們方法的效率,證明了在速度和可偽造實例數量上的性能提升。在[12]中,我們通過將非線性優化問題分解為兩個更簡單的優化問題,并以交替的方式解決它們來增強這種算法。
并行方法。如上所述,可達性分析技術是目前驗證網絡物理系統安全屬性的最先進技術的核心。在這個主旨中,我們研究了如何利用現代CPU中強大的并行多核架構來擴展此類技術。在文獻[18]中,我們首次提出了一套并行狀態空間探索算法,利用多核CPU,能夠對CPS的線性連續和混合自動機模型進行可達性分析,從而解決了這一限制。為了證明在多核處理器上實現的性能加速,我們在幾個基準上對所提出的并行算法進行了實證評估,比較其關鍵性能指標。
庫普曼算子理論。非線性動力系統的可達性分析是一項具有挑戰性和計算成本的任務。同時,如上所述,計算線性系統的可達狀態,通常可以在高維度上有效地完成。在[6]中,我們探討了利用這兩類系統之間的聯系的驗證方法,該方法基于Koopman算子的概念[23]。Koopman算子將非線性系統的行為與嵌入高維空間的線性系統聯系在一起,并增加了一組所謂的可觀察變量。盡管新的動態系統有線性微分方程,但初始狀態集是用非線性約束條件定義的。由于這個原因,現有的線性系統可達性方法不能直接使用。我們提出了第一個可達性算法,以處理這種未曾探索過的可達性問題的類型。我們的評估考察了幾種優化方法,并表明所提出的工作流程是驗證非線性系統行為的一個很有前途的途徑。
可達性分析的混合方法。這些方法[7]通過用較簡單的動力學(如常數或仿生動力學)來近似非線性動力學。這一步使我們有可能利用現有的線性動力學混合系統的算法的力量。在[20]中,我們提出了基于動力學比例模型轉換的混合方法的改進。該轉換旨在減少線性化域的大小,從而減少超近似誤差。我們在一些非線性基準實例上展示了我們方法的效率。
在線驗證。在這個研究方向中,我們的目標是將可達性分析應用于在線環境中。換句話說,我們考慮的環境是,可達性分析所提供的信息被實時用于指導自主系統的控制算法。這反過來又對可達性分析的性能效率提出了特別嚴格的時間限制。在[14]中,我們提出了一種方法,利用深度神經網絡在有限的時間內對可達集進行保守的近似。我們提供了基于統計模型檢查方法的概率性保證。該方法被評估為自主車輛在模擬環境中幾個動作的彈性安全架構的一部分。我們的評估表明,可達性分析可以在幾分之一秒內完成,并且比傳統的非線性可達性工具要好兩個數量級。我們還提出了另一種方法[1],通過將障礙證書[22]的計算泛化到動態變化的初始條件,以及在運行時使用生成的安全集來對抗先前未知的、可能與時間有關的不安全集,從而有效地進行實時可達性分析。這些方法得到了[15]的補充,在那里我們探討了如何將可達性分析作為模型預測控制[17]的一部分來支持動態避障。
通過驗證進行規劃。在我們的早期工作[16]中,我們通過提供從PDDL+(一種描述規劃領域的形式主義)到混合系統的轉換方案,在彌合混合自動機的規劃和驗證領域之間的差距方面邁出了第一步。這使得模型檢驗工具能夠在混合規劃領域得到應用。通過這種方式,我們可以解決最先進規劃器范圍之外的PDDL+領域。在這個項目中,我們將[19]中的這些想法改編為時態規劃,并將我們的方法納入到細化循環中。我們還提出了一個基于抽象的放松[21],用于推理線性數字規劃問題。
混合系統的Event-B。在這個研究方向上,我們考慮了Event-B[2]和混合系統之間的協同作用。我們在這一領域的成果包括開發了一個通用的混合鐵路信號系統模型[3],該模型可以進一步完善,以捕捉特定的鐵路信號系統。另外,在[4]中,我們提出了一種網絡物理系統的多元開發方法,該方法建立在基于細化和證明的建模語言Event-B及其對混合系統建模的擴展。為了提高該方法中所產生的Event-B模型的低演繹驗證自動化程度,這項工作描述了一種在證明過程中整合可達性分析的新方法。此外,為了提供更全面的網絡物理系統開發和基于仿真的驗證,我們描述了將網絡物理系統Event-B模型轉化為Simulink的機制。
隨機常微分方程(RODEs)。顧名思義,這些是在其向量場函數中包含隨機過程的常微分方程(ODEs)。它們已經在廣泛的應用中使用了很多年,但一直是隨機微分方程(SDEs)的影子存在,盡管能夠對更廣泛的、通常在物理上更充分的干擾進行建模。在[24]中,我們研究了包含維納過程的RODEs在有限時間跨度和無限時間跨度上的安全驗證問題。更詳細地說,我們研究了p-安全問題,其中我們確定了滿足安全規范的概率至少為p的初始狀態集。基于確定概率測量大于p的樣本路徑集,我們提出了一種將ODEs的隨機可達性減少為對抗性可達性的方法,以解決有限時間范圍內的p-安全問題。這種方法允許將擾動的ODEs的可達性計算方法有效地提升到RODEs。在這個方法中,有限時間范圍內的p-安全問題被簡化為具有時間變化的擾動輸入的ODEs的內部逼近魯棒的后向可達集問題。然后,我們將該方法擴展到無限時間跨度的p-安全問題。最后,我們在幾個例子上演示了我們的方法。
人工智能指的是一系列技術的集合,這些技術產生的系統能夠以類似于人類邏輯和推理的方式追蹤復雜問題。機器學習技術根據大量的數據來學習如何完成一項特定的任務。
人工智能技術正在飛速發展,已經可以對各種來源的海量數據進行分類和解釋,以執行廣泛的任務,幫助解決世界上許多最緊迫的挑戰。人工智能具有巨大的潛力,可以加速許多核領域的技術發展,從核醫學到水資源管理,再到核科學和工業。
2021年,IAEA主辦了一次關于核技術和應用的人工智能技術會議,旨在提供一個國際交叉論壇,討論和促進核科學、技術和應用、輻射保護和核安全以及保障監督核查方面的合作。其目的是確定這些領域未來活動的優先事項以及IAEA如何能夠支持這些活動的實施。這次會議--第一次這樣的會議--也是一次思考人工智能和核技術融合的倫理考慮的機會。
本出版物概述了當前的技術狀況,概述了挑戰并確定了利用人工智能加速核應用、科學和技術的機會。
本出版物對目前的技術狀況進行了回顧,并概述了利用人工智能加速核應用、科學和技術的挑戰,并確定了機會。在介紹了人工智能及其在核領域應用的背景資料后,第2章概述了人工智能和核技術的倫理學,以及人工智能在核應用、科學、電力、輻射防護、安全和保障監督核查方面的應用。
以下各章介紹了技術現狀、核領域未來人工智能活動的優先事項以及IAEA在支持其實施方面的作用。第3章討論了人工智能與核技術融合的倫理影響。第4-12章重點介紹人工智能在與IAEA工作領域相對應的核領域的應用,包括人類健康、食品和農業、水和環境、核數據、核物理、核聚變、核電、核安全和保障監督核查。
近年來,人工智能(AI)和機器學習(ML)方法已經在科學和技術領域產生了重大影響。這些從數據集或基于邏輯的算法中生成模型的方法,可以類似地加快核應用、科學和技術領域的發展,實現原子能機構促進和平、健康和繁榮的目標。如圖1所示,為了在這些領域實現人工智能,特別是ML的進步,IAEA可以通過建立、托管和策劃集中的資源,包括數據庫,遵守FAIR(可查找、可訪問、可互操作和可重用)原則和開放科學的最佳實踐,提供數據共享的管理,支持培訓工作和相關勞動力的發展,以及促成科學、技術、數學、人工智能和倫理學界之間的聯系,發揮重要作用。
許多領域可以從人工智能在核應用領域的使用中受益。在人類健康方面,這些領域包括臨床研究、流行病學、營養學、醫學成像、放射治療和衛生專業人員的教育。基于人工智能的工具也被用來促進成像、乳房X光檢查和肺癌篩查計劃中的計算機輔助診斷,以及核醫學程序中的劑量預測等不同的臨床任務。特別是ML方法還可以提高分析計算機斷層掃描和雙能量吸收儀掃描的效率和準確性,以便進行身體成分和骨骼分析。將人工智能方法應用于食品和農業的核技術和相關技術,可以在優化農業生產、食品產品開發、供應鏈管理、食品安全和食品真實性控制方面取得重大進展和提高效率。在水和環境領域,人工智能可以幫助為政策提供信息,以緩解世界的水問題。將人工智能技術應用于水文學和環境科學,有望改善模式識別,并能在變化的氣候下進行模型預測。
在核科學中,人工智能驅動的研究側重于核數據管道的自動化。這些努力包括,例如,通過使用自然語言處理應用程序從出版物中匯編數據集,并且正在努力使用ML方法進行有意義的不確定性預測的穩健推理。此外,人工智能可以協助驗證任務和設計驗證的實驗。在核物理學界,人工智能和ML方法被應用于數據分析和理論建模,以改善科學理解,提高數據處理和管理的效率。進一步的努力涉及到未來實驗的設計和現有裝置的優化,以及核物理專用設施的運行,如粒子加速器。最近在應用人工智能和ML方法解決磁和慣性約束核聚變研究中的突出問題方面取得的成功表明,這些方法有可能大大加快核聚變研發。通過人工智能和ML使更多的人參與到核聚變問題的解決中來,全世界的核聚變研發工作可以從中受益。
在核電領域,該行業可以從人工智能中受益,如自動化、設計優化、數據分析、預測和預知,以及洞察力提取。目前的工作重點是將人工智能技術從試點研究轉移到更廣泛的應用。在輻射防護方面,人工智能的應用及其與控制和監測過程的整合(如外部照射的個人劑量測定)預計將產生更快、更靈活和更有效的過程,有可能在該領域進行深入的技術改造。特別是,人工智能能夠在分析、解釋和理解包括輻射照射在內的復雜工作過程中模擬人類的認知。
在核安全領域,人工智能的可能應用包括分析光譜和地理空間數據,以改善對監管控制之外的核材料的檢測,增強核材料核算和控制系統,以及識別核設施中可能的內部和外部威脅的潛力。另一方面,在核安全系統中使用人工智能可能會帶來人類操作員或人工智能系統本身無法立即識別的潛在漏洞。對人工智能技術的網絡攻擊威脅進行重大調查在這一領域是至關重要的。
保障措施的實地活動依賴于通過不同技術獲得的越來越多的數據,以探測核材料,包括衛星成像和伽馬射線光譜。再加上受保障的材料數量的增加,顯然需要更有效的核保障程序。人工智能和ML方法的實施將通過提高這些現場活動的效率而大大有利于保障措施。
最后,人工智能和核技術的融合可能會加劇這兩個學科中現有的道德問題,并在它們的交匯處產生新的問題。由于這兩個學科都涉及到風險和不確定性,并具有巨大的潛力,既能帶來利益,也可能造成嚴重的社會和環境危害,因此有必要在這個界面上建立一個新的學科,即核與人工智能技術倫理學(ENAI)。ENAI的目的是建立一個非二元的倫理學,它可以在核領域的人工智能應用的設計、開發、部署和使用中起到先導作用。這將有助于提高從業人員對人工智能和核技術融合的倫理影響的認識,同時建立與利益相關者的有力對話機制。ENAI可以進一步確保社會接受的和道德上知情的決策,最終實現對人工智能在核領域應用的負責任的治理。
圖1:原子能機構在使用人工智能和機器學習方法加速核應用、科學和技術進步方面的作用。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置,適合于基礎研究,以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。
要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識,抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模,會產生一些不確定的特征,如表面壓力分布和熱通量,這對飛行器技術,包括穩定性、控制和熱負荷管理,都有負面影響。
幸運的是,有一個先例,即通過定義政府基準飛行器來促進全社會的科學討論,這些飛行器包含功能相關的工件,但對具體的發展計劃不敏感(見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究)。本報告的目標是定義一個典型的、與軍隊相關的配置,適合于基礎研究,以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。
2022 年 10 月 11 日,美國陸軍發布了一份綜合數據計劃(ADP),這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。
該計劃是一項為期三年的工作,將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用,從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計,以實現這一目標。
陸軍首席信息官 Raj Iyer 博士說:“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策,才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”
數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據,以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。
與早期的軍事行動相比,現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分,多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。
每個領域都有自己的信息和數據流,一些信息來自開源情報,一些來自天基傳感器,還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。
ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力,未來將被另一個更新所取代。
通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。
小型無人駕駛飛機系統(sUAS)的指數式增長為美國防部帶來了新的風險。技術趨勢正極大地改變著小型無人機系統的合法應用,同時也使它們成為國家行為者、非國家行為者和犯罪分子手中日益強大的武器。如果被疏忽或魯莽的操作者控制,小型無人機系統也可能對美國防部在空中、陸地和海洋領域的行動構成危害。越來越多的 sUAS 將與美國防部飛機共享天空,此外美國對手可能在美國防部設施上空運行,在此環境下美國防部必須保護和保衛人員、設施和資產。
為了應對這一挑戰,美國防部最初強調部署和使用政府和商業建造的物資,以解決無人機系統帶來的直接風險;然而,這導致了許多非整合的、多余的解決方案。雖然最初的方法解決了近期的需求,但它也帶來了挑戰,使美國防部跟上不斷變化問題的能力變得復雜。為了應對這些挑戰,美國防部需要一個全局性的戰略來應對無人機系統的危害和威脅。
2019年11月,美國防部長指定陸軍部長(SECARMY)為國防部反小型無人機系統(C-sUAS,無人機1、2、3組)的執行機構(EA)。作為執行機構,SECARMY建立了C-sUAS聯合辦公室(JCO),該辦公室將領導、同步和指導C-sUAS活動,以促進整個部門的統一努力。
美國防部的C-sUAS戰略提供了一個框架,以解決國土、東道國和應急地點的sUAS從危險到威脅的全過程。國防部的利益相關者將合作實現三個戰略目標:(1)通過創新和合作加強聯合部隊,以保護國土、東道國和應急地點的國防部人員、資產和設施;(2)開發物資和非物資解決方案,以促進國防部任務的安全和可靠執行,并剝奪對手阻礙實現目標的能力;以及(3)建立和擴大美國與盟友和合作伙伴的關系,保護其在國內外的利益。
美國防部將通過重點關注三個方面的工作來實現這些目標:準備好部隊;保衛部隊;和建立團隊。為了準備好部隊,國防部將最大限度地提高現有的C-sUAS能力,并使用基于風險的方法來指導高效和快速地開發一套物質和非物質解決方案,以滿足新的需求。為了保衛部隊,國防部將協調以DOTMLPF-P考慮為基礎的聯合能力的交付,并同步發展作戰概念和理論。最后,作為全球首選的軍事伙伴,國防部將通過利用其現有的關系來建設團隊,建立新的伙伴關系,并擴大信息共享,以應對新的挑戰。
通過實施這一戰略,美國防部將成功地應對在美國本土、東道國和應急地點出現的無人機系統威脅所帶來的挑戰。在這些不同操作環境中的指揮官將擁有他們需要的解決方案,以保護國防部人員、設施、資產和任務免受當前和未來的無人機系統威脅。
本報告描述了北約STO RTG IST-149無人地面系統和C2內互操作性能力概念演示器的研究和實驗工作。無人地面車輛(UGVs)在現代戰斗空間中正變得越來越重要。這些系統可以攜帶大量的傳感器套件,從前線提供前所未有的數據流。另一方面,這些系統在大多數情況下仍然需要遠程操作。重要的是要認識到,如果沒有適當的方式在聯盟伙伴之間交換信息和/或將其納入C2系統,ISR數據在很大程度上將是無用的。該小組的主要目的是找到改善這種情況的方法,更具體地說,調查從操作員控制單元(OCU)控制UGV和接收數據的可能標準,并在現實世界的場景中測試它們。
該項目的努力有兩個方面。比利時的貢獻是在歐盟項目ICARUS中所做的工作。這個項目涉及一個用于搜索和救援的輔助性無人駕駛空中、地面和海上車輛團隊。互操作性在幾個不同的實驗中得到了驗證。ICARUS聯盟由幾個國際合作伙伴組成,其中比利時是這個小組的鏈接。第二項工作是該小組的聯合努力,在小組內進行實驗,展示UGV和OCU之間的互操作性。該小組于2018年在挪威的Rena進行了最后的演示。
這兩項工作都使用了無人系統聯合架構(JAUS)和互操作性配置文件(IOP),以成功實現系統間的互操作性。試驗表明,有可能相當容易地擴展系統,并在相對較短的時間內實現與部分標準的兼容。弗勞恩霍夫FKIE和TARDEC都開發了軟件,將信息從IOP域傳遞到機器人操作系統(ROS),并從該系統中獲取信息。ROS是一個廣泛使用的軟件,用于開發UGV和其他類型機器人的自主性,并被該小組的許多合作伙伴所使用。Fraunhofer FKIE和TARDEC提供的軟件對試驗的成功至關重要。
報告還討論了如何在采購前利用IOP標準來定義系統的要求。該標準本身定義了一套屬性,可以在采購新系統時作為要求來指定,可以是強制性要求,也可以是選擇性要求。這使得采購部門更容易定義要求,供應商也更容易符合要求,同時也明確了OCU在連接到系統時,在控制系統和可視化系統中的數據方面需要具備哪些能力。
該小組2018年在挪威瑞納的試驗重點是對UGV進行遠程操作,以及接收UGV的位置和視頻反饋。由于這是一次成功的試驗,下一步將是使用更高層次的控制輸入和反饋來測試互操作性,例如,向UGVs發送航點,并根據系統的感知接收系統周圍環境的地圖。
全球信息網絡架構(GINA)是一個語義建模框架,旨在促進特設傳感器資產和指揮與控制系統的整合,因為它們可以通過被稱為矢量關系數據建模的實施方式提供給戰斗空間中的操作人員。為了評估GINA的互操作性和推理能力,開發了一個概念驗證評估,并在真實世界的傳感器數據上進行測試。
正如美國陸軍的多域作戰(MDO)概念所指出的,美國的對手試圖通過在政治、軍事和經濟領域的分層對峙來實現他們的戰略目標,而不是通過沖突來對抗美國軍隊和聯盟伙伴。此外,MDO概念指出,對手可能采用多層跨域對峙--跨越陸地、海洋、空中、太空和網絡空間,在時間、空間和功能上威脅美國和聯盟部隊。反擊這些戰略的中心思想是快速和持續地整合所有領域的戰爭(即融合),跨越時間、空間和能力,以戰勝敵人。
為了實現MDO的執行,聯合軍種、政府機構和多國伙伴之間的互操作性是一個關鍵要求。戰術行動已經越來越依賴于信息網絡的傳感、通信、協調、情報和指揮與控制(C2)。因此,美國陸軍不斷尋求提高其整合網絡系統的能力,并在不同的作戰節奏水平上實現同步效果。從歷史上看,由于沒有足夠的能力來支持現有的和新興的技術和進程,這種整合在以無處不在的物聯網(IoT)和軍事C2系統為特征的不斷發展的網絡化戰斗空間中帶來了技術挑戰。這種限制因不同系統的孤島而進一步加劇,限制了戰術、技術和程序的跨系統使用,以及支持硬件和軟件組件。這些限制使作戰人員面臨不一致和缺失的關鍵任務數據,促使作戰功能在孤立中運作。例如,行動和情報之間的數據交換是有限的,范圍也受到限制,增加了指揮官決策過程中的風險和延誤。
為了實現陸軍網絡現代化,陸軍未來司令部網絡跨職能小組(N-CFT)正在調查通過創新、整體和適應性的信息技術解決方案來實現網絡互操作性的顛覆性方法,以滿足既定的C2互操作性挑戰。根據NCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的研究人員評估了一項名為全球信息網絡架構(GINA)的技術,作為多源傳感器數據融合的系統解決方案,以支持決策。 根據其軟件規格,GINA的目的是減少在互操作和集成方面存在的技術挑戰,并支持及時的共同情報/作戰圖景和決策的情報分析。
目前,語義互操作是一個活躍的研究領域;近十年來,已經開發了一些軍事技術解決方案。語義互操作提供了促進快速整合來自臨時傳感器資產和異質C2系統的信息的手段,因為它們為戰斗空間中的操作人員所了解。這項初步評估表明,GINA能夠整合不同的傳感器系統,并對數據進行同質化和協調,以便在本次評估的實驗場景下提供解釋、分析和推理。在這一評估的基礎上,在與MDO的規模和復雜性相匹配的實地演習或實驗中進行進一步的評估可能是有意義的。具體來說,進一步評估的能力是:1)來自多個部門的傳感器和通信設備之間及時的互操作性;2)連接來自不同結構和標準的盟國、合作伙伴或商業數據流系統;3)豐富、數據分析、推理或增強其他決策支持C2系統;以及4)與其他技術解決方案的比較。
這項評估的綜合分析已經在DEVCOM ARL技術報告ARL-TR-9100中記錄和公布。
態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外(EOIR)傳感器同時使用可見光和紅外傳感器,使其能夠在光照和黑暗(日/夜)情況下使用。這些系統經常被用來探測無人駕駛飛機系統(UAS)。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的。
該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡,該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向,以便在未來進行擴展。建議包括微調這個模型,以及在這個數據集上使用其他機器學習方法,如目標檢測和 YOLO算法。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。