模擬真實的人類行為,包括決策和創造力,是戰斗模擬中最難和最復雜的挑戰。行為樹(BTs)是一種相對較新的、越來越流行的為人工智能(AI)和智能代理開發行為模型的方法。這種方法在為計算機游戲中的非玩家角色(NPC)、機器人和自動駕駛汽車創建行為模型方面變得特別流行。
BTs被表示為具有控制流節點和任務節點的層次結構的有向樹,這些節點控制著一個代理的行為。使得BT如此強大的原因是其可組合性和模塊化。任務節點和控制流節點被組成子樹,代表更復雜的行動,這些行動可以被組成更高級別的行為。
在本文中,我們將根據現有文獻對BTs進行介紹,并討論在戰斗模擬中采用這種建模技術為計算機生成的部隊(CGF)創建行為模型的可能性和局限性。此外,我們將給出一個具體的例子,說明如何從戰斗演習的文本描述中創建一個BT,并提供如何創建BT的一般技巧和竅門。最后,我們將總結我們在BT方面的工作經驗。
如今的建設性戰斗模擬不能自動生成現實的戰斗計劃。造成這種情況的一個原因是缺乏一個火力支援規劃算法來支持一個給定的機動計劃。我們提出了一種對火力支援規劃問題進行建模的方法,假定有一個戰術風險的數字定義。解決方案的空間似乎很難窮盡搜索,因此提供了一種火力支援規劃算法,該算法可以在多項式時間內產生一個合理的、盡管是次優的計劃。
我們用單元(unit)這個詞來指任何由一個或多個模擬戰斗人員組成的團體,他們作為一個單一的編隊一起移動和戰斗。一個單元的移動是按照路線進行的,而路線是由一系列的航點或三維空間中的位置定義的。單元沿著地表以現實的、已知地形類型的速度向他們的下一個節點直線行進。在這個問題上,有任務的機動部隊的路線是預先確定的和固定的。沒有任務的機動部隊被認為是火力支援部隊。
圖1. 友軍單位1的任務是遵循一條由六個節點組成的路線,用三角形標記。敵方單位1(菱形符號)可以在風險段r2期間損害友方單位1。敵方單位2在r1和r3期間可以損害它。[0,10]標記表示火力支援資源的可用間隔,標有ci的方框是可能的火力支援地點。兩者都將在下文中描述。
我們提供以下貪心算法來生成一個火力支援計劃。當然,鑒于上述優化和滿足的解釋,它既不是最優的也不是完整的,但它可以有效地產生一個合理的計劃。
對于每個資源,該算法在其搜索邊界(N和M集)上保持著壓制每個敵人單位的任務。在每次通過主循環時,它選擇N∪M中最能降低總風險的任務。為了限制復雜性,不需要移動的潛在任務(N中的任務)被優先考慮。每當一個任務w被添加到當前計劃W中時,我們就從N和M中刪除w的所有兄弟姐妹,這些兄弟姐妹是由相同的可用任務產生的。然后,我們從γ給出的新的(更短的)可用性任務中為N和M生成新的選項。
當總風險足夠小或沒有任務選擇時,該算法就會終止。如果我們假設火力支援任務有一個最小的有用持續時間,例如發射一發子彈的時間,那么每次選擇任務都會移除一個持續時間為t的資源,并用兩個持續時間之和為t-
或更小的資源取代它。由于所有資源持續時間的總和至少在每個循環迭代中減少,我們最終將得到一個小于的總和,這只有在邊界沒有任務,終止執行時才可能是真的。
從歷史上,美國作戰測試與評估主任(DOT&E)網絡評估計劃(CAP)已經證明了其對美國防部的獨特價值,它收集了國防部網絡紅隊(模仿對手)和國防部網絡防御者之間的網絡沖突的地面真實戰術數據。這些評估通常在作戰司令部或軍種一級演習期間進行,也是國防部高級官員之間戰略互動的特征。然而,由于必須確保指揮官的訓練目標得到實現,并且由于法律或風險因素禁止國防部網絡紅隊在商業、民用和社會媒體網絡和應用程序上進行破壞性活動,因此對行動層面的決策審查得不太徹底。
DOT&E指示IDA開發一個網絡兵棋,使美國防部組織能夠探索有關網絡空間部隊雇傭和網絡安全態勢的作戰級決策。IDA設計的兵棋推演,即“網絡演習、行動和戰斗:一款知識型兵棋(CMOCKW)”,真實地模擬了作戰網絡沖突的性質,有一個動態的對方部隊(OPFOR)有機會 "贏",一個雙盲的方法,通過向每一方透露有限的信息來復制網絡的不確定性,一個部隊對部隊的方法,使用分配給友好和敵人單位和網絡的能力值來促進半隱藏的、隨機的裁決,以及一個不現實地限制對方部隊的 "手套 "方法。
CMOCKW可以根據需要在SECRET或更高的機密級別上進行計劃和執行,在一小時的游戲回合中模擬一周的 "真實場景時間",可以根據 "客戶 "所需的決策和網絡空間地形進行定制和擴展,并且在計劃、教學和執行方面相對簡單和 "輕便"。
IDA于2021年4月開始開發CMOCKW,并已進行了四次游戲測試,參與者來自CAP和其他國防部合作伙伴。在DOT&E的熱情支持下,IDA于2022年7月27日在連接美國2022年戰爭游戲會議上介紹了CMOCKW的概況。
無人機蜂群來了!美國、中國和俄羅斯處于無人機群開發和利用的最前沿。然而,無人機的低成本和易得性使非國家行為者能夠以富有想象力和創造力的方式利用無人機,包括蜂群。本專著的目的是要解決以下問題:無人機群為軍隊提供什么效用?無人機群提供了許多優勢,包括持續的情報、監視、偵察和目標定位;對軍事人員和組織的低風險和低成本,以及癱瘓個體和組織決策的潛力。相比之下,無人機群有其脆弱性和挑戰。脆弱性包括從對手的黑客攻擊到反蜂群武器的存在,而一些挑戰包括組織上的抵制和國際法。無人機群就在這里,而且很快就會出現在戰場上,現在是解決如何最好地運用它們的時候了。在概述了無人機群的潛在好處和局限性之后,該專著最后提出了四項建議:需要敘述、建立無人機群理論、了解人機界面以及為無人機群的使用進行組織過渡。
(圖:作家兼戰略家彼得辛格(左)于 2018 年 11 月 1 日在一個未命名的空軍設施與一名軍官和一名國防部文職人員討論新技術。人工智能和腦機接口等進步將改變陸軍作戰的方式。)
長期以來,決策一直是戰爭的核心。最近,戰爭的節奏、規模、不透明性、非線性和連通性的增加對當代決策過程提出了越來越多的挑戰。在未來,這種變化將同時增加及時和有效決策的重要性,同時進一步加劇許多指揮官的認知和決策挑戰。指揮官將尋找結構不良、高度復雜的問題的解決方案,這些問題延伸到空中、陸地、海上、信息、網絡和空間這六個領域。隨著新技術和新應用的實現,未來的事態對復雜性構成了潛在的增長,并將以指數級的速度增加。人類的學習,甚至是最老練的指揮官的直覺能力都無法跟上不斷變化的戰爭特征。要想把贏得戰斗的洞察力帶到未來,必須對人類的認知、決策過程進行改進,或對其進行增強。
決策能力和現有支持的割裂造成了分析性決策過程、指揮官的直覺和有效決策之間日益擴大的能力差距。當前和未來的環境表明,有必要開發更加靈活的決策支持工具,以阻止這種差距,并為指揮官重新獲得決策優勢。在一個不透明和復雜的環境中有效地預測未來幾場戰斗的能力將是成功的關鍵。同時,在一個能夠迅速使以前的計劃失效的動態環境中,理解并首先做出反應的能力對于奪取和保持主動權至關重要。
復雜性科學和混沌研究已經與類似的問題進行了斗爭,并為軍事指揮官的突發挑戰提供了相關的見解。計算機建模和人工智能(AI)方面的工作已經取得了巨大的進展。在許多游戲中,計算機已經超越了人類的決策能力。
從人工智能的主導地位中適應和發展,國際象棋中的人機團隊已經達到了決策的新巔峰,將提前數個回合評估未來動作的算法的卓越戰術與人類的戰略能力相結合。目前美國與人工智能和決策有關的國防努力似乎集中在大數據和數據分析上。然而,如果沒有一個改進的軍事決策框架,就不能利用預測性分析。否則,增加的數據和分析只會加劇理解日益復雜和動態的作戰環境的挑戰。
軍事決策過程(MDMP)雖然在分析上是合理的,但其結構并沒有跟上未來環境的步伐。沖突的速度將超過工作人員處理分析貢獻的能力。
用人工智能對MDMP進行修改和增強,將創造一個過程,以更快的速度產生對環境的理解,并以物理信息的框架為基礎。行動方案的制定將不會像現在這樣,從一個理想的最終狀態向后發展,在理論上運用方法和手段來創造一個想象的未來。由人工智能支持的MDMP將從當前狀態向前工作。它將通過友軍和敵軍決策樹的可能分支向前探索,走向各種環境和敵軍的行動路線,通過最小化風格的決策樹,將其作為適應性代理來實現。替代行動的未來將通過可行性的出現來建立,并通過優化作戰功能的貢獻來完成,固有的區別,然后由人機團隊的人類部分來判斷是否合適和可接受。重新設想的人-機MDMP將與未來的操作環境保持同步,通過以接近機器的速度操作來保持相關性,使人能夠在日益濃厚的戰爭迷霧中獲得卓越的視野。
指揮官雖然得到參謀部的支持,但最終還是利用自己的能力進行決策。當指揮官在進行問題解決以制定對其工作人員或下屬的指導時,他們基本上是在進行 "手段-目的分析,這是一個尋找手段或步驟的過程,以減少當前情況與預期目標之間的差異"。即使是直覺,即對一個事件或數據的突然有洞察力的解釋,也以類似的方法發揮作用。"盡管表面上突然閃現的洞察力似乎產生了問題的解決方案,但研究表明,人們在解決洞察力問題時使用的思維過程最好被描述為一種漸進的、手段-目的的分析。" 領導者認識到相似性,并將其與個人和所研究的歷史聯系起來,從而獲得洞察力。心理學家、經濟學家和諾貝爾獎獲得者丹尼爾-卡尼曼(Daniel Kahneman)用這樣的描述來解釋內部的、經常是半意識的過程:"產生印象、直覺和許多決定的心理工作在我們的頭腦中默默地進行"。數學物理學家、科學哲學家和諾貝爾獎獲得者羅杰-彭羅斯描述了一種無意識的思想發展和對這些思想的有意識判斷。
MDMP有一個類似的、不亞于人類的動態。參謀部通過行動方案(COA)的制定產生備選方案,并由指揮官決定。然而,在行動方案的制定過程中,正如在手段-目的推理中一樣,用于簡化計算的啟發式方法以及一些神經心理學上的缺陷,限制了選擇并注入主觀性。歸根結底,目前MDMP內部的COA開發過程仍然需要大量的頭腦風暴來解決。
與主觀開發選項形成對比的是基于衡量和計算的選項開發,而這一過程將由人工智能支持的程序執行。通過一些基于現有信息和過去沖突的數據的計算,可以對比出AI賦能的MDMP會提供的建議。
對2008年俄格戰爭期間的決策和計劃進行評估,在與歷史上的決策、行動和結果進行對比時,可以深入了解人工智能驅動的MDMP的好處。以下是人工智能驅動的MDMP背后的邏輯和過程。
俗話說,如果情報是用來推動機動的,那么對戰場的情報準備的產出必須作為COA發展的起點,使友軍COA的創建能夠實現對對手的不對稱,并執行對對手行動最有利的行動。
從對敵方力量的評估中,可以根據具體的任務變量來確定所需的友軍力量。要做到這一點,需要一種衡量對手戰斗力的方法。有許多復雜程度不同的方法來確定一個代表戰斗力的數值。
人工智能程序可以使最繁瑣的系統變得可行,所以它不像參謀部那樣受到復雜性的限制,特別是在時間有限的時候。雖然這個例子使用了戰區分析模型(TAM),但TAM并不是重點。指揮官、參謀部或學說推薦的任何東西都可以使用。
在2008年俄格戰爭爆發前,俄羅斯部隊在北奧塞梯駐扎。這些部隊可以按地點轉化為戰斗力值。例如,在馬米森山口附近的俄羅斯部隊可以按其組成部件進行統計,如人員、T-72主戰坦克、2S3自行火炮和BM-21多管火箭炮系統。
圖 1. 俄羅斯軍隊戰斗力計算
圖1中顯示的戰斗力范圍可以告知所需的戰斗力,這些戰斗力來自于格魯吉亞部隊的位置,用藍色矩形標注,以便在各種可能的情況下擊敗這支俄羅斯部隊。圖1中描述的兩種情況是俄羅斯使用西面的馬米森山口或東面的羅基隧道(帶箭頭的紅線)。
與戰斗力計算一樣,從計算機建模中得出的計算結果可以用來預測基于部隊和手段的相應相關性的傷亡。在這里使用的算法中,戰斗力是根據地形和任務類型對每種能力或系統進行調整。一旦對戰斗力進行了調整,該模型描述了在部隊比例為1:1時的傷亡分布情況,有一條非線性曲線,在戰斗力比例大約為4.4:1時趨于平緩,顯示了一個粗略的收益遞減點。這種計算方法不能提供 "任務成功 "的百分比機會,但可以提供預期戰損和傷亡的迭代,顯示雙方的戰斗力如何隨著時間的推移而受到影響。必須對將導致失敗或撤退的戰斗力損失做出假設,但這是一個很好的例子,說明人類的洞察力可以被迫提供具體的情況。從這些計算中出現的洞察力的開端是,1:1的比例仍然是消耗性的,而2:1的比例有可能在兩次反復中增長到2.4:1然后是4.5:1。這就形成了一種機制,在時間上尋求有利的戰斗比例,可以決定性地改變平衡。這不是一個水晶球,而是現有的最佳估計,能夠由工作人員有條不紊地進行,或由程序以機器速度進行。由于戰爭是一種明顯的人類努力,因此可以將士氣或本例中未包括的其他因素納入到額外的修改因素中。這種對戰斗力隨時間推移的理解提供了一個關鍵的洞察力,并可以為部隊分配的決策提供參考。在這一點上,可以產生一個對應于特定地點的友軍的有利戰斗力要求。圖2強調了格魯吉亞部隊如果在俄羅斯入侵路線上的起伏地形中進行防守時的理想戰斗力。
隨著南奧塞梯局勢的升級,格魯吉亞總統米哈伊爾-薩卡什維利于2008年8月7日為軍隊確定了三個目標。他指示他們 "第一,阻止所有軍車從俄羅斯通過羅基隧道進入格魯吉亞;第二,鎮壓所有攻擊格魯吉亞維和人員和內政部崗位或格魯吉亞村莊的陣地;第三,在執行這些命令的同時保護平民的利益和安全"。正如格魯吉亞國家安全委員會秘書亞歷山大-洛馬亞后來所證實的,"我們行動的邏輯是解除茨欣瓦利郊區的射擊陣地,并試圖通過繞過茨欣瓦利,盡快向羅基隧道靠近"。這一指令和支撐格魯吉亞軍事反應的邏輯為本文中繼續發展人工智能的COA提供了一個有益的對比。
圖2. 兵力比的正反饋循環
前面分析的圖1中的俄羅斯部隊是后來試圖通過羅基隧道進入格魯吉亞的第一梯隊部隊。被描述為向格魯吉亞部隊和村莊開火的部隊在茨欣瓦利附近活動,由奧塞梯人組成,由俄羅斯和奧塞梯 "維和 "營協助,人數增加到830人,大約300名雇傭兵,以及更多的大炮。由于他們有相當多的步兵,不同的任務,以及從茨欣瓦利城市中心倉促防守的地形,通過以前使用的相同方法,他們的戰斗潛力被計算為60。
談到格魯吉亞部隊和繼續發展他們最有利的行動路線,格魯吉亞第二、第三、第四和第五步兵旅以及戈里的一個單獨的坦克營的戰斗力和位置,作為計算的起點。他們與俄軍的距離和旅行時間,或關鍵地形,都可以計算出來。將這些信息與之前概述的俄羅斯部隊和之前討論的兵力比例知識結合起來,就可以利用目標編程,從數學上優化從每個格魯吉亞地點到羅基隧道或茨欣瓦利的戰斗力,以滿足有利的兵力比例,同時最大限度地減少總的旅行距離,從而最大限度地減少時間和后勤要求。
圖3. 戰斗潛力優化Python計劃的結果和建議的第4旅的分步任務組織結果
圖3左上角的優化程序結果顯示,格魯吉亞的戰斗力分配足以達到2:1的兵力比,以對抗進攻的俄羅斯部隊。對于第4步兵旅,建議在各目標之間分配戰斗力,后續的優化程序是按作戰功能確定各目標的不同作戰系統的數量,如圖3右上方所示。其結果是以理論為基礎的理性選擇解決方案,并通過在后期MDMP的COA分析步驟中為裁決戰爭游戲而保留的計算類型形成。人工智能支持的MDMP所實現的是使用詳細的分析來告知行動方案的最初發展,防止未來對次優COA的路徑依賴。
這種輸出就像分析數據以創造信息。合并這些信息的組成部分可以創造出知識,指揮官或參謀部可以對其運用智慧。這種方法不是像直覺所注入的那樣擁有不可解釋的因素,而是可以解釋的,并且可以在指揮官的具體規劃指導下進行修改。在這種情況下,裝甲、步兵和炮兵在進攻和防守中的有效性,以及丘陵和城市地形,都被納入優化的考慮范圍,輸出結果將炮兵優先送到羅基隧道。這一建議,雖然源于算法,但遵守人類的軍事判斷,認識到在城市中使用火炮的相對困難,以及步兵的相對優勢。毫不奇怪,行動后的審查指出,格魯吉亞的炮兵在丘陵地帶對付前進中的俄羅斯縱隊是有效的。
同樣,在這種修改中,通常為COA分析的后期步驟保留的計算類型被應用于COA的最初發展。正如加里-卡斯帕羅夫所描述的與計算機合作的好處一樣,人類也可以將作戰藝術應用于已經納入科學的概念。
許多計算可以被整合到程序中,以減少認知負擔,讓工作人員進步到更高層次的人工分析,其中一個例子就是時間。對于建議的每條路線,可以進行計算,根據車輛數量和其他變量確定更準確的時間。
將上述初級人機開發的COA的輸出與格魯吉亞國家安全委員會對其一般行動方案的闡述相比較,突出了人工智能支持的MDMP可以提供的優勢。人工智能的建議將一支更強大的格魯吉亞部隊引向羅基隧道,同時向茨欣瓦利投入部隊。很可能更早和更多地將部隊投入到羅基隧道附近的防御中,會極大地擾亂已經被渠化的入侵俄羅斯部隊,并阻止他們將火箭系統移到茨欣瓦利的射程內,并通過隧道將彈道導彈炮組進一步嵌入格魯吉亞,這對俄羅斯人來說是決定性的。
到目前為止,修改后的方法已經建立了一種發展 "下一步行動 "的方法,其基礎是對友軍和敵軍戰斗力的理解,這種戰斗力如何受到任務類型和地形的影響,以及部隊在移動和機動接觸中的時間關系。地面部隊的這些例子必須自然延伸到所有領域的戰斗力和效果的應用。這種技術能夠同時分析各個領域,并為跨領域效果的整合提供一個機制。近距離空中支援的架次可以被整合到地面領域,以便在地面戰斗的關鍵地點和時間提供更好的戰斗力比率。此外,在進行空對空作戰計算時,可以將地面防空資產納入空對空計算的因素。圖4顯示了通過羅基隧道進攻的俄羅斯地面部隊和推薦的格魯吉亞地面部隊的戰斗力,另外還強調了如何將俄羅斯的蘇-25戰斗機或格魯吉亞的SA-11系統納入其中。這為在領域內和跨領域進行的作戰行動創建了一個多維框架,并提供了一種同步匯合的方法。當一個領域的條件發生變化時,對其他領域和行動的影響可以在開始大大超過工作人員計算的復雜程度上進行。
隨著核心COA的制定,每個作戰功能的最佳整合可以通過算法來確定。例如,有了通往目標的路線和距離,以及燃燒率和其他規劃因素,可以計算出支持概念的要素。
這個例子表明,有能力在多個領域整合所有作戰功能的規劃。有了充分的細節說明COA的完成和廣度,現在可以把解釋轉向深度。為了在作戰層面創建一個在時間和空間上都有深度的COA,它必須提前預測幾個交戰,以實現相對優勢的位置,并尋求實現轉化為成功的失敗機制。而之前的過程主要是將現有的軍事理論或學術研究進行算法連接的創造,它們很難實現超越即時決策的飛躍,并創造出作戰藝術。對于這一點,現有的人工智能提供了適用的例子。
國際象棋人工智能中使用的基本微分法對所有棋盤上的處置方式提前兩步進行打分,包括行動和反應,然后根據程序對分數進行比較,分數最差的那個選項被修剪掉。在排除了未來兩步棋中最差的選項后,剩下的最佳選項被選中。修剪和消除的過程可以防止出現這樣的情況:人們可以在最近的一步棋中拿下一個低價值的棋子,但在下一步棋中又會失去一個高價值的棋子。該算法基于每一步后續棋重復這一過程。在許多程序中,該算法會分析更多的未來棋步,以指數形式增加棋盤的處置,以評估和排列潛在的棋步。為了簡化計算機的計算,一個被稱為阿爾法-貝塔修剪的過程可以在明確它們不會是最佳選擇時刪除分支,并停止評估它們。根據已經證明的根據力量和手段的相關性來評估軍事編隊的能力,可以看到即使是簡單的國際象棋人工智能方法也可以成為發展作戰藝術的基礎。
圖4. 多域COFM框架
當使用決策樹和國際象棋人工智能的最小算法時,程序會對棋盤上的大多數或所有的替代性未來進行評估,并產生一個可比較的值。俄羅斯軍隊最初從西邊的馬米森山口進攻,而不是從東邊的羅基隧道進攻,就是一個選項的例子。這將產生一個不同的動作,格魯吉亞部隊需要對此作出反應。除了國際象棋人工智能中棋子的總價值外,還經常使用位置的修改器。對每一方的剩余棋子進行估值的方法在概念上類似于之前用于分析俄羅斯和格魯吉亞部隊的戰斗力的TAM計算方法。而不是單個棋子的價值,將考慮軍事編隊的戰斗力。這種機制設計起初似乎是以消耗為重點,保留友軍的戰斗力,消除對手的戰斗力,并根據價值來確定優先次序。從一開始看起來非常機械的東西中出現的顯著特征是在時間和空間上創造和連接有利的力量比例,實現不對稱性,以大量消耗對手并保存友軍的戰斗力。簡而言之,它創造了作戰藝術。
當以這種方式對格魯吉亞的多個行動方案進行比較時,就會出現與圖3中描述的不同的行動方案。由于通往羅基隧道的旅行時間的變化,以及對交戰的預測是如何沿著各自的決策樹展開的,因此確定了對通往羅基隧道的部隊的改變,如圖5所示。
當人工智能支持的COA開發過程繼續向前搜索時,在Troitskye的俄羅斯第503摩托步槍團(MRR)和在Khankala的第42摩托步槍師和第50自行火炮團被確定為需要考慮的俄羅斯作戰力量。以最小的方式,在最初決定在羅基隧道和茨欣瓦利之間分配部隊之前,沿著決策樹進一步考慮這一事件。一旦理解了時間上的力量以及二階和三階效應,就會發現一個非直覺性的決定,即與戈里的坦克營和第比利斯的第4旅一起向羅基隧道進攻,這是由于預測到俄羅斯第二梯隊部隊在未來的行動。
圖 5. 俄羅斯-格魯吉亞聯合決策樹和進化
如圖3所示,如果俄軍同時開始行動,格魯吉亞部隊的原始部署無法及時趕到羅基隧道進行防御。然而,當動用哥里的坦克營或第4步兵旅時,一支有利的部隊能夠在迪迪古普塔或爪哇附近進行防御,使俄軍在山丘上保持渠化,有足夠的戰斗力來預測俄軍的進攻會被擊敗。這種防御可以抵御俄軍第二梯隊的第503摩托化步兵師,但不能抵御緊隨其后的第42摩托化步兵師,圖5右上方描繪的是第503步兵師。正因為如此,格魯吉亞的防御部隊如果要完成他們的任務,就需要在503摩托化步兵師到來之前向隧道進行反擊,以在嚴重的渠化隧道處進行防御。有了這些從復雜中出現的聯系,格魯吉亞的領導層可以及時思考并產生贏得戰斗的洞察力。
建立可用COA的算法過程在很大程度上緩解了因時間不足而產生的差距,同時為MDMP引入了一定程度的學術嚴謹性,否則可能只是主觀評估,而這種評估中隱含著所有未知的危險。
在目前的作戰環境中,往往沒有時間來制定多個作戰行動方案,對所有制定的作戰行動方案進行戰爭演習,應用作戰行動方案評估標準,然后確定一個推薦的作戰行動方案。有了人工智能支持的MDMP,COA分析和比較就被烘托出來,并最大限度地利用現有的技術,所有這些都是在傳統的工作人員可以收集到的工具。
通過COA分析和COA比較步驟合并和修改COA開發步驟,以利用當前人工智能能力的速度、力量和洞察力,將提高預測多種替代性未來和選擇的能力,使指揮官不僅能夠在三維空間中思考,而且能夠在時間中思考。鑒于時間越來越稀少,了解時間,并擁有在多個領域與之合作并通過它的工具,可能是人工智能提供的最大優勢。
其他領域的人工智能工具已經展示了它們在提供快速、一致和準確計算的任務方面的能力。為了具有價值,人工智能不需要自主運作或復制有生命的人。人工智能只需要彌合當前規劃和決策工具的適用性與人類認知在復雜適應性系統中的有效性之間不斷擴大的差距。處理復雜性的適度改進,即使只是減少導致錯誤的認知負擔,也會確保比無助的指揮官有決策優勢。
在人工智能支持的MDMP的意義上更進一步,人工智能可以在第一次迭代后半自動地完成MDMP,幾乎連續地進行完整的MDMP過程,沒有疲勞感,納入每一個新發展。一個持續的人工智能運行的MDMP將提供關于部隊當前位置和行動的反饋。近乎實時的反饋將使我們能夠跟蹤下屬單位的當前行動、控制措施的遵守情況和進展。
其次,近乎連續的MDMP可以通過評估根據當前條件應該執行什么COA來預測分支,甚至預測隨著條件的變化,未來決定性交戰的設置。持續的人工智能支持的MDMP將與敵人而不是計劃作戰。一個人工智能支持的過程將有額外的好處,即為任何新出現的COA整合資源,同步和優化所有領域的效果,并使過渡到一個新的分支計劃更加可行。這種能力將在使部隊迅速適應在未來動蕩環境中的混亂邊緣茁壯成長方面取得不可思議的進展。
在未來部隊結構的發展和評估過程中,兵棋推演是深入了解其優勢和劣勢的一項關鍵活動。十多年來,挪威國防研究機構(FFI)在不同程度的計算機支持下,開發支持挪威軍隊進行能力規劃的兵棋。在此期間,這些已經從可被描述為計算機輔助的兵棋發展為更逼真的仿真支持的兵棋。此外,為了更密切地了解部隊結構的威懾效果(這在實際游戲中可能無法觀察到),我們的重點也轉向了更恰當地復制規劃過程--特別是監測對方部隊的規劃過程。例如,研究特定的結構元素在多大程度上阻止了對方部隊采取某些行動,這一點很重要。在這篇文章中,我們描述了我們開發的仿真支持的兵棋推演方法,其中包括一個準備階段;一個執行階段,含有一個聯合行動規劃過程;以及一個分析階段。此外,我們還討論了我們能夠從兵棋推演中提取什么類型的數據和結果,并提出了一套我們發現的關于如何成功進行仿真支持兵棋的最佳實踐。
關鍵詞:兵棋推演;建模與仿真;實驗;國防結構;能力分析;國防規劃
在發展和評估未來的部隊結構時,兵棋推演是深入了解和更好地理解部隊結構的優勢和劣勢的關鍵活動。今天,基于計算機的仿真系統使我們能夠創造出高度復制真實世界物理特性的合成環境。此外,人工智能(AI)和行為模型的進步給我們提供了更真實的計算機生成部隊(CGF),可以高度逼真地執行戰斗演習和低級戰術。兵棋可以從這些進展中受益。然而,在指揮系統的較高層次上,人工智能還不能與人類決策者相提并論,在兵棋中規劃和實施仿真行動需要人類官員的參與。
十多年來,挪威國防研究機構(FFI)一直支持挪威軍隊在不同程度的計算機支持下開發能力規劃的兵棋。在此期間,這些已經從可被描述為計算機輔助的兵棋發展為更逼真的仿真支持的兵棋。此外,為了更密切地了解部隊結構的威懾效果(這在實際游戲中可能無法觀察到),我們的重點也轉向了更恰當地復制規劃過程,特別是監測對方部隊的規劃過程。例如,研究特定的結構要素在多大程度上阻止了對方部隊采取某些行動--或者換句話說,正在推演的概念有怎樣的戰爭預防或維護和平效果,這一點很重要。
能力規劃過程和高調的兵棋總是會涉及或吸引利益者--例如高級軍官、政治家、官僚和國防工業領導人--的利益沖突。一般來說,參與的利益者有可能想把兵棋框定在一個有利于他們利益的背景下(Evensen等人,2019)。重要的是要意識到這個問題,而且關鍵是要避免兵棋成為利益者利益的戰場。本文所描述的方法和最佳實踐試圖通過使用基于計算機裁決的仿真,以及通過提高對元游戲的認識,或對兵棋所有階段的沖突,從準備到執行,再到分析和報告,來減少這個問題。
本文的組織結構如下。首先,我們簡要地描述了這項工作的背景。接下來,我們描述了我們開發的仿真支持的兵棋推演方法,其中包括準備階段;執行階段,包括聯合行動規劃過程;以及分析階段。之后,我們討論了我們能夠從兵棋推演中提取的數據和結果類型。最后,我們提出了一套我們發現的關于如何成功進行仿真支持的兵棋推演的最佳實踐。
雖然各種形式的兵棋推演已經在FFI進行了數十年,但當FFI的研究人員開始合作研究單個仿真支持的系統評估方案時,首次出現了實施仿真支持的部隊結構評估的想法(Martinussen等人,2008)。
2010年,FFI首次將使用半自動部隊(SAF)的互動式旅級仿真系統作為兵棋推演的基礎。在 "未來陸軍 "項目中,通過一系列計算機輔助的兵棋推演,對五種基本不同的陸軍結構的性能進行了評估(霍夫等人,2012;霍夫等人,2013)。其目的是根據這些結構的相對性能進行排名。此外,兵棋推演揭示了被評估結構中固有的一些優勢和劣勢。雖然我們使用的仿真工具相當簡單,但它對于跟蹤部隊的運動和計算決斗和間接火力攻擊的結果很有用。
在此之后,FFI支持挪威陸軍進行了幾次仿真支持的能力規劃系列兵棋推演。這些兵棋推演是雙面的(藍方/友方和紅方/敵方),封閉的(可用信息有限),在戰術和戰役層面進行。
玩家總數在10到100人之間,兵棋推演的時間從一天到兩周不等。圖1顯示的是2014年FFI的一次仿真支持的兵棋推演會議的照片。
圖1 2014年FFI的仿真支持的兵棋推演會議。
自2010年以來,我們的兵棋推演逐漸從計算機輔助的兵棋推演(使用非常簡單的仿真模型),向使用更詳細和更真實的仿真模型的兵棋推演演變。此外,為了更密切地了解部隊結構的威懾效果(這在實際游戲中可能無法觀察到),我們的重點也轉向了更恰當地復制規劃過程,特別是監測紅方部隊的規劃過程。圖2說明了我們兵棋推演的演變過程。
圖2 我們的兵棋推演的演變過程。
使用基于計算機的仿真來支持兵棋推演的價值首先在于有一個系統來自動跟蹤部隊,計算其傳感器的探測情況,并評估決斗情況和間接火力攻擊的結果。此外,基于計算機的仿真非常適用于通過在地面實況上添加過濾器來真實地表現不確定性和戰爭迷霧。
戰術仿真是開發、測試和分析新的部隊結構的一個重要工具。通過兵棋推演,可以深入了解一個部隊結構對特定場景的適合程度,并揭示該結構的優勢和劣勢。然而,擁有一個好的執行計劃對于成功地進行兵棋推演實驗和從活動中獲得有用的數據是至關重要的。在本節中,我們將介紹我們的仿真支持的兵棋推演方法,該方法是通過我們在過去10年中對兵棋推演實驗的規劃、執行和分析的經驗發展而來的。我們還將討論兵棋推演的背景,以及規劃和組織兵棋推演活動的過程,這可以被視為一種元游戲。
一般來說,有幾本關于兵棋推演的書和指南可以參考(Perla,1990;Appleget等人,2020;Burns,2015;英國國防部[UK MoD],2017)。本節描述的方法是專門為支持未來部隊結構發展的分析性兵棋推演而定制的。通常情況下,我們使用這種方法來評估和比較不同部隊結構備選方案的性能,這些方案可能在物資和裝備的構成、戰術組織或作戰概念方面有所不同。
我們的兵棋推演實驗方法包括三個主要階段:
1.準備階段
2.規劃和執行階段
3.分析階段
這些階段將在下文中詳細描述。圖3說明了它們之間的關系,其中規劃過程和兵棋推演的執行階段構成了實驗的核心。
圖3 兵棋推演實驗的方法說明。
小國在發展兵力結構以威懾擁有更多兵力要素的敵人時面臨著兩難境地。敵人可能會觀察到防御結構中的變化,并可能在運用軍事力量時從集合中選擇其他更合適的元素。例如,如果小國的部隊結構是專業化的,為了對付預期的敵人行動方案(COA),敵人可能會從庫中選擇完全不同的東西,敵人的COA可能會發生巨大變化。
對所有國家來說,發展部隊結構是一個緩慢而公開的過程。從現有的、龐大的部隊要素庫中選擇部隊并創造新的行動方案是一個快速和隱蔽的過程。對于一個小國來說,在這種情況下實現威懾似乎是一項不可能完成的任務,但我們已經在幾個案例中觀察到,對部隊結構的低成本改變是如何對敵人的COA選擇產生巨大影響的(Daltveit等人,2016;Daltveit等人,2017;Haande等人,2017)。1988年為圣戰者引入手持防空導彈后,蘇聯在阿富汗的戰術發生了變化(Grau, 1996),這就是我們在兵棋推演中看到的紅方(對手)小組規劃過程中產生影響的一個很好示例。據觀察,存在感和姿態也有威懾作用。此外,社會、景觀和氣候也影響了紅方的規劃過程。這一切都歸結于敵方在規劃和制定作戰行動期間的風險評估。
為了研究部隊結構變化的威懾作用,有必要讓分析人員在兵棋推演前觀察紅方的規劃過程,而不僅僅是在仿真戰斗中。阻止敵人進攻是任何部隊結構發展的意圖,而觀察威懾效果的唯一方法是在敵人的規劃期間。
在決策理論中,風險是一個必須考慮的因素,以便能夠做出理性的選擇。馮-諾伊曼-摩根斯坦(vNM)決策理論的基礎是行為者通過考慮給定概率和結果的彩票來評估選擇(von Neumann & Morgenstern, 1944)。風險因素也需要存在于規劃過程中。如果一方的規劃過程被參與兵棋推演的其他任何一方知道,那么一部分風險因素就會消失。這將使規劃過程減少到只是評估一個已知的敵人COA,而不是評估一系列可能的COA及其概率。因此,重要的是,場景定義不能限制敵人的規劃過程,所有的規劃過程都要受到監控--特別是敵人的規劃過程。
盡管兵棋推演在最終開始時有規則,但在選擇兵棋的類型和周圍環境的過程中,并沒有明確的規則。因此,策劃和組織一場兵棋推演活動的過程可以被看作是一種元游戲--一種可以在對抗分析的規則中進行分析的游戲(Curry & Young, 2018)。例如,聯合層面的兵棋推演將包括傳統上的資金競爭對手的參與者。來自空軍、海軍和陸軍的參與者,在涉及到應該如何制定場景、應該對未來技術做出什么樣的假設、應該如何評估戰斗效果等方面,可能有不同的利益。每個領域內的分支也是如此。因此,存在著一種危險,即元游戲對部隊結構分析結果的影響可能比實際兵棋推演的影響更大。元游戲并不局限于兵棋的執行。分析和事后的報告也會受到與準備期間相同類型的沖突影響。在圖4中,存在于核心方法論之外的元游戲層就說明了這一點。
圖4 圍繞兵棋推演實驗方法的元游戲圖解。
能力規劃過程總是會涉及或吸引利益沖突的利益者,國防規劃和兵棋推演包含許多利益者爭奪地盤的例子(Evensen等人,2019;Perla,1990)。這在兵棋推演的準備階段尤其明顯。應對這種情況的一個可能的方法是,適當地將擁有發明改變部隊結構的權力角色與擁有評估和接受改變的權力角色分開。當這些角色沒有被分開時,利益者會試圖影響什么是兵棋的目標,以及使用什么類型或風格的兵棋。在最壞的情況下,我們可能會有有限數量的利益者提出新的部隊結構,然后讓同樣的利益者通過基于場景的討論來驗證他們自己的想法是否良好。如果被評估的是利益者所珍視的想法,這就特別容易出問題。
聯合需求監督委員會(JROC)是一個很好的例子,該機構以健全的決策結構處理地盤戰(參謀長聯席會議主席[CJCS],2018)。美國軍方將思想的發明者與審查其有用性的權力進行分開,這完全符合孟德斯鳩的分權原則。在挪威進行國防規劃和兵棋推演的方式,在許多情況下,人們會發現行為者既產生了對未來部隊結構的想法,又通過參與基于場景的討論來評估相同的結構。基于場景的討論如果不包括專門的紅方小組,就不是兵棋推演。引入 "紅方小組 "成員,以及對方的自由和無阻礙的規劃,消除了一些濫用權力的可能性。沒有對提議的部隊結構進行適當兵棋推演的一個特殊結果是,建議采用次優化的部隊結構來打擊固定的假設敵方作戰行動。由于沒有對這種部隊結構進行適當的推演,結構改革的支持者成功地擊敗了他們喜歡的敵人COA,但卻沒有挑戰他們自己的想法。
準備階段包括在兵棋推演執行階段開始前需要做的一切。最重要的準備工作是:
建立對兵棋推演實驗目標的共同理解。
確定總體方案,包括外部條件、假設和限制。
選擇一個或多個仿真系統,并對仿真模型進行校準。
確定藍方(友軍)和紅方(敵軍)的作戰順序(OOB)。
規劃和執行階段包括兩個獨立的活動:(1)雙方的聯合行動規劃過程,以及(2)仿真支持的兵棋推演。
在這項活動中,由軍事主題專家(SME)和軍官組成的藍方和紅方小組,根據總體方案和受控的情報信息流,分別制定他們的初步行動計劃。根據偏好,這些計劃不是整體方案的一部分,雙方都可以自由制定自己的計劃。這也意味著,對立雙方制定的計劃對另一方來說仍然是未知的。
原則上,聯合行動規劃過程可以按照與現實中基本相同的方式進行,不做任何簡化。這是一項應該與仿真支持的兵棋推演一樣優先考慮的活動,在人員配置方面也是如此。
在規劃過程中,參與者必須討論不同的選擇,并根據所感知的對方部隊結構的優勢和劣勢來制定一個COA。觀察雙方的規劃過程并揭示決定COA的根本原因,可以提供有關部隊結構的寶貴信息,而這些信息在執行兵棋推演本身時可能無法觀察到威懾效果。
兵棋推演本身是作為仿真支持的兩方(藍方和紅方)兵棋推演進行的,其中行動是在一個具有SAF的建設性仿真系統中仿真的。在博弈論中,這種類型的兵棋推演可以被歸類為非合作性的、不對稱的、不完全信息的連續博弈。
兵棋的參與者是兩組對立的玩家和一個公斷人或裁決人的小組。重要的是要記住,一個兵棋的好壞取決于它的玩家。玩家是軍事主題專家和軍官。要想有一個平衡的兵棋,關鍵是不要忽視紅色單元。如果做得好,這種類型的兵棋,由適應性強且思維不受限制的對手主導,往往會變得高度動態、對抗性和競爭性。
對于分析性兵棋推演來說,現實的仿真對于加強結果的有效性和可信度非常重要。軍事行動,尤其是陸軍行動,本質上是復雜的,對這種行動的仿真,要有足夠的真實性,是非常具有挑戰性的(Evensen & Bentsen, 2016)。此外,仿真系統可能包含錯誤,人類操作員可能會犯一些在現實生活中不會犯的錯誤。因此,重要的是要有經驗豐富的裁判員來監控仿真,并在必要時對結果進行適當的人工調整。
在某種程度上,在仿真支持的兵棋中,元游戲也會發揮作用。曾經有這樣的例子,利益者將有能力的官員從兵棋推演中撤出,只是用不太熟練的人員取代他們,很可能是為了降低利益者不希望成功的兵棋可信度。其他的例子是公斷人與參觀兵棋的更高等級利益者的干預作斗爭。歷史上有很多類似的例子(Perla,1990),挪威也不例外(Evensen等人,2019)。這里所描述的清晰的方法,意在抵制以往兵棋推演實驗的一些缺陷。
除了從仿真支持的兵棋本身的執行中收集的觀察和數據外,分析還基于規劃過程中的觀察和數據。
在規劃過程中,密切監測和記錄討論情況是很重要的。由于國防軍的主要目的--至少在挪威是這樣--是為了防止戰爭,因此在規劃過程中的考慮可能是整個兵棋中最重要的結果。只有當敵人在兵棋開始前考慮到這些因素時,才能觀察到部隊結構和態勢的預防特性。在規劃階段,通常會考慮幾個備選的作戰行動和機動性。其中許多被放棄,有些被保留,原因各異,必須記錄下來。為什么紅方決定某個行動方案不可行,可能是由于某些結構要素或來自藍方的預期策略。如果紅方由于藍方的OOB要素而不得不放棄一個計劃,那么這些要素已經證明了對藍方的價值--即使這些要素在接下來的仿真行動中最終沒有對紅方部隊造成任何直接傷害。
在仿真支持的兵棋中可能會記錄大量的數據。很容易把各種結構元素的損失交換率等數據看得很重。在實際的兵棋推演中,也許更應該注意的是雙方指揮官的決定。如果其中一方出現了機會,這是為什么?該方是如何利用這樣的機會的?是否有什么方法可以讓他們考慮利用這個機會,但不知為何卻無法利用或執行?如果有,為什么?為了收集這樣的信息,指揮官們公開討論他們的選擇是很重要的。重要的不僅僅是告知積極選擇的原因;往往可能同樣重要的是為什么沒有做出其他選擇。
確定部隊結構的主要優勢和劣勢及其利用是分析階段的一個重要部分。考察雙方在規劃階段和推演階段的考慮,是做到這一點的最好方法。這不是一門精確的科學,因為這種數據具有定性的性質。通過觀察參與者的考慮和決策,比單純看哪些武器系統摧毀了哪些敵人的系統,可以更好地確定使用某種COA的關鍵因素,或者是允許敵人有更好選擇的缺失能力。分析階段的結果是對測試的部隊結構進行評估。
分析階段也可能會在商定的兵棋推演方法范圍之外發生爭吵。甚至在事件發生后的報告撰寫中也可能受到影響,當角色沒有被很好地分開,利益者被允許過度地影響這個過程時。
一般來說,我們努力從兵棋推演環節中獲取盡可能多的數據。根據用于支持兵棋推演的仿真系統,可以記錄各種輸出數據。例如,通常可以記錄各個單位移動了多遠,他們使用了多少彈藥和燃料,以及其他后勤數據。通常,殺傷力矩陣--基本上是顯示一方的哪些單位殺死了另一方的哪些單位的矩陣--也會被記錄。其他許多定量數據也可以被記錄下來。除此以外,還有定性的數據。如前所述,這包括對規劃過程的觀察,以及與參與規劃過程的參與者的討論。此外,它還包括對兵棋推演期間所做決策的觀察,以及在兵棋推演期間或之后與玩家的討論。
人們往往傾向于把大量的注意力放在定量數據上,如殺傷力矩陣,而對定性數據的關注可能較少。定量數據更容易分析,而且通常被認為比定性數據(如隊員的決策和考慮)更客觀。但重要的是要記住,定量數據取決于雙方玩家的決策,以及對模型的輸入數據。玩家認為各種單位應該如何運用,對殺傷力矩陣有相當大的影響。因此,盡管這些數據是定量的,但它們并不比定性數據更客觀。
諸如殺傷力矩陣這樣的數據也忽略了重要的信息。雖然人們可以看到哪些部隊殺死了哪些敵方部隊,但卻失去了原因;其他部隊雖然沒有直接摧毀敵方部隊,但卻可能在為其他部隊創造有效條件方面起到了關鍵作用。雖然某些部隊可能只消滅了很少的敵人,但他們在戰場上的存在可能對阻止敵人進行某些行動至關重要。例如,雖然近距離防空可能不直接負責消滅敵人的直升機,但它可能阻止了敵人像其他情況下那樣積極地使用直升機。因此,在分析一個兵棋時,對于只看殺傷力矩陣這樣的量化數據應該謹慎。必須考慮到整體情況。
理想情況下,在比較不同的部隊結構時,應該對每個部隊結構進行幾次推演,并允許敵人在每次戰役中改變其行為。自己的部隊應該找到在特定情況下使用其結構的 "最佳 "方式,而敵人應該找到反擊這一策略的 "最佳 "方式。只有這樣,人們才能真正比較不同部隊結構的兵棋推演結果,并得出哪種部隊結構最適合給定場景的結論。然后,當然,確實有廣泛的潛在場景需要考慮。因此,雖然這也許是應該進行兵力結構比較的方式,但在這方面,時間和資源通常對大量的兵棋推演是不夠的。
所有模型都有局限性。它們可能是為某一特定目的而設計的,并適合于此,但不太適合于其他事情。在考慮哪些問題可以通過兵棋推演來回答,哪些問題應該用其他工具來調查時,必須記住這一點。從兵棋推演中到底可以推導出什么,將取決于所使用的模型--但一般來說,應該把重點放在實驗所要回答的那些問題上。如果在實驗中出現了其他的結果,就應該對其有效性進行檢查,而且這些結果往往需要在專門為調查這些新出現的問題而設計的實驗中進行評估。
兵棋推演是比較兩個(或更多)部隊結構在特定情況下的表現的一個重要工具。然而,兵棋推演并不能對任何給定的部隊結構的有效性給出任何精確的衡量,但適合于確定主要的優勢和劣勢。與具體單位有關的參數的效果,如它們的火力和裝甲,應在單獨的研究中進一步考察。這些因素雖然很重要,但它們的層次太細,無法通過我們這里討論的兵棋類型來研究它們對結果的影響。彼得-佩拉強調,"兵棋只是研究和學習國防問題所需的工具之一"(佩拉,1990,第11頁)。其他工具應被用來補充兵棋和研究這些因素的重要性。
兵棋推演通常是實質性的活動,涉及大量的人,并需要大量的時間。因此,我們通常被限制在有限的數量上--通常對于我們所分析的每個部隊結構只有一個。重要的是要記住,一個單一的兵棋推演的結果只是:特定情況下的一個可能的結果。雙方玩家可以采取不同的做法,事件的發展也可能不同。細微的變化可能會影響到對整體結果至關重要事件的結果。
在本節中,我們將列出我們發現的進行仿真支持的分析性兵棋的最佳做法,以評估部隊結構。我們發現的一些最佳實踐與處理元游戲的需要有關,或者與兵棋的沖突有關。這些最佳實踐的用處可能僅限于其他尚未將發明權與測試部隊結構的權力分開的小國。其他的最佳實踐來自于提供仿真支持和取代基于場景的討論以發展防御結構的需要。
在準備階段,必須盡早明確兵棋推演實驗的目的,這將是實驗設計的基礎。
擁有一個帶有SAF的交互式仿真系統,對玩家來說易于操作,并且需要相對較少的操作人員,這就減少了進行仿真支持的兵棋推演所需的資源,從而也降低了門檻。
一個好的紅方小組是發現自己的部隊結構、計劃和程序中弱點的關鍵。紅色小組的成員也應該對預期對手的理論有很好的了解。我們觀察到,一個好的紅色小組能迅速地阻止我們自己的規劃人員對可能的敵人行動進行集體思考的傾向。
自己部隊結構的變化也必須允許對方部隊結構的變化。部隊結構的改變是一個緩慢的過程,肯定會被預期的對手觀察到。
盡可能地復制現實生活中的規劃過程。
觀察規劃過程,以便更全面地了解部隊結構的優勢和劣勢。為了記錄藍軍部隊結構的威懾效果,觀察對方部隊的規劃過程尤為重要。據觀察,自己的部隊結構中的幾個要素對對方部隊的行動有威懾作用,存在和姿態也是如此。此外,我們還觀察到,社會、地形和氣候也會影響對方部隊的規劃。
在部隊相互靠近的情況下開始一場兵棋推演,可能會使它變成一場簡單的消耗戰。發展良好的兵棋推演,在提供了空間和時間的情況下,就像武術比賽中的對手互相周旋,評估對方的弱點,并尋找攻擊的機會。評估避免遭遇的能力可能與評估戰斗的能力一樣重要。
建立對正在發生的事情的了解需要時間,是領導軍事行動的一個自然組成部分。只有當不確定性得到適當體現時,部隊結構中某些要素的真正價值才會顯現。例如,存在的力量的影響可能是巨大的。當戰術形勢不是所有人都能看到的,而且戰斗的結果被認為是非決定性的,以至于現實是隨機的,那么不確定性就得到了最好的體現
讓參與者為兵棋推演的目的做好準備。當使用指揮和參謀訓練器作為支持兵棋推演的仿真系統時,一些參與者傾向于按照程序行事,就好像這是一場演習。如果兵棋推演的目的是探索新的部隊結構要素、作戰行動或戰術、技術和程序(TTPs),則需要鼓勵參與者在執行任務時發揮創造性。
讓與兵棋推演無關的人員遠離它,特別是高級軍官,是很重要的。在人在回路(HITL)仿真中,人類玩家是整個仿真的一部分,來訪的高級軍官(或其他人)將對人類玩家的互動方式和他們如何進行規劃產生影響。限制來訪人員也減少了外部影響結果的機會(Hoppe, 2017)。
十多年來,FFI支持挪威陸軍為能力規劃開發仿真支持的兵棋。本文介紹了我們進行仿真支持的兵棋推演的方法,并提供了一套進行仿真支持的兵棋推演的最佳實踐。該方法和最佳實踐特別針對分析性兵棋以支持能力規劃。
該方法由準備階段、規劃和執行階段以及分析階段組成。在過去的10年中,該方法通過使用更詳細和更現實的仿真模型,以及在仿真行動前復制和監測規劃過程,以更深入地了解測試的部隊結構的威懾效果,而逐漸發展起來。
我們進行仿真支持的兵棋推演的最佳做法包括:為兵棋推演實驗確定一個明確的目標,使用一個便于玩家操作的仿真系統,擁有一個良好的紅方小組,不受太多限制,提供空間和時間,使戰爭不會立即開始,并提供一個不確定性和信息收集的現實表現。最后,為了更全面地了解一個部隊結構的優勢和劣勢,分析小組必須同時觀察規劃過程和兵棋推演本身。
將擁有發明部隊結構變化的權力角色和擁有測試、評估和接受這種變化的權力角色正式分開,將解決我們在國防規劃中看到的許多問題。我們已經發現,組織兵棋推演活動的過程可以被看作是一個元游戲。當用建模、仿真和分析來支持兵棋推演時,元游戲被看作是發生在各個層面的東西,其中一些我們可能沒有任何影響力。希望這篇文章能有助于提高對這些挑戰的認識,并能對我們能影響的那部分元游戲提供一些調整。
荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。
傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。
本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。
戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。
然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。
1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。
2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。
3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。
4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。
到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。
本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。
產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。
由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。
驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。
出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。
有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。
在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。
圖1:情況意識的認知模型:概述
另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。
機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。
強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。
強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。
強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。
在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。
1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。
2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。
對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。
人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。
進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。
由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。
圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。
為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。
多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。
Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。
傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。
為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。
圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。
本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。
認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。
這里提出的主要架構的目標有三個方面:
將智能CGF模型與戰術戰斗機模擬脫鉤。
促進人類行為模型與上述模擬的連接過程。
使得智能CGF模型能夠在不同的客戶端進行分配。
這三個特點共同促成了對混合方法的追求。
在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:
實施混合模型,其中認知建模和ML相結合,以及
根據具體的學習目標或能力來調整智能機器人的行為。
網絡空間行動的早期成功為壓制對手提供了新途徑可能性。隨著美國陸軍開始向多域作戰過渡,他們依賴網絡空間并支持其他領域的行動。一個問題出現了:"軍隊如何將網絡空間行動納入支持其他領域的行動?" 對于如何將網絡行動納入其他領域的行動,目前還沒有有證據支持的實際規劃原則。基于最初的研究,產生了一個假設,即支持戰爭作戰層面的網絡空間行動與物理領域和虛擬信息領域的行動同步。利用美國軍方對作戰層面和作戰領域的公認定義,分析了作戰層面活動的案例研究。通過收集每個案例的以下信息,對盟軍行動以及以色列-哈馬斯沖突進行了分析:戰略背景、網絡空間行為者、網絡空間行動以及網絡空間行動如何支持其他領域的行動。分析的結果是,戰爭行動層面的網絡空間行動通過收集對手的情報來支持其他領域的行動;拒絕或破壞虛擬信息領域的傳遞途徑;以及影響在物理領域的實體。
1806年10月,法軍在耶拿-奧爾斯塔特戰役中迅速擊敗了普魯士軍隊。普魯士軍官卡爾-菲利普-戈特弗里德-馮-克勞塞維茨(Carl Philipp Gottfried von Clausewitz)出席了這次戰斗,這次失敗讓他深感不安和困惑。 普魯士軍隊的人數超過了法國軍隊,但是,法國軍隊的戰術優于普魯士過時的線性作戰方式。克勞塞維茨見證了戰爭的未來,并決心將普魯士軍隊發展成為一支再次讓歐洲羨慕的力量。
2014年7月俄烏戰爭期間,在烏克蘭澤勒諾皮亞村附近,烏克蘭陸軍地面部隊的四個旅準備對俄羅斯邊境附近的分離主義分子的部隊發動進攻。2014年7月11日,一場三分鐘的密集炮擊襲擊了烏克蘭四個旅的人員,并摧毀了烏克蘭第79空中機動旅的一個營。對這次攻擊的分析表明,俄羅斯部隊使用無人駕駛飛行器來定位烏克蘭部隊,并將位置提供給間接火力平臺。從識別到效果的時間如此之快,以至于烏克蘭各旅無法采取保護行動。俄烏戰爭中的這一小段時間非常重要,以至于美國陸軍能力整合中心發起了對俄羅斯新一代戰爭研究,以確定俄烏沖突對未來戰爭的影響。
2015年,在美國陸軍戰爭學院的一次演講中,國防部副部長鮑勃-沃克概述了二十一世紀戰爭的問題,并責成美國陸軍開發空地戰2.0。2018年12月,美國陸軍邁出了理論演進的一步,出版了《2028年多域作戰中的美國陸軍》,以解決陸軍如何在多個層次和領域內作戰的問題。
耶拿-阿爾斯泰特戰役和俄烏戰爭雖然相隔幾個世紀,但都顯示了卓越戰術和行動安排的力量。克勞塞維茨和美國陸軍目睹了失敗,并作出了類似的反應,進行了深入的戰斗研究,以改善他們各自的軍隊。這些研究的成果是對未來戰爭行為的指導性文件。
美國陸軍采用多域作戰作為未來的作戰結構,依靠網絡空間作戰來支持其他領域的作戰。然而,關于如何將網絡行動納入其他領域的行動,目前還沒有基于證據的實際規劃原則。軍事規劃者的問題是如何整合網絡空間行動以支持其他領域的行動而不至于遭遇慘敗。該論點認為,網絡空間行動通過收集對手的情報來支持其他領域的行動;拒絕或破壞虛擬信息領域的傳遞途徑;以及影響物理領域的實體。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
Wargaming in Professional Military Education: Challenges and Solutions
職業軍事教育中的兵棋推演:挑戰與解決方案
美國海軍陸戰隊埃里克·沃爾特斯(Eric M. Walters)上校(退役)
鑒于強調在專業軍事教育中使用兵棋推演,學校、作戰部隊和支持機構的教官——尤其是那些本身沒有經驗的兵棋推演者——如何去做呢?本文解釋了在經驗豐富專家的幫助下,為選定、修改或內部設計的嚴格兵棋式推演制定理想的學習成果的必要性。總結了最近的相關學術成果,它提供了促進協作對話的基本術語和概念,并就這種動態和沉浸式教學方法的常見但可避免的陷阱提供了建議。
對于那些認為兵棋推演不僅僅是一種娛樂消遣的人來說,商業兵棋推演曾經是——而且可以說仍然是——一種小眾愛好。在 20 世紀和 21 世紀初的歷史中,只有相對較小比例的軍人和學者經常進行所謂的嚴格式兵棋推演。過去,這一想法受到制度性的抵制,在職業軍事教育(PME)中使用一些人認為是兒童游戲的東西;雖然最近這種恥辱感有所減輕,但對于外行來說,兵棋推演的學習障礙仍然很高。兵棋推演可能很難學習,甚至更難戰勝有能力的對手。然而,我們已經到了 2021 年,軍事兵棋推演似乎正在 PME 學校、作戰部隊甚至支持機構中復活。海軍陸戰隊司令大衛 H. 伯杰將軍在他的指揮官規劃指南中,強調了在 PME 中練習軍事決策的必要性,這是教育兵棋推演的主要目的。但一個事實仍然存在。對于那些有興趣使用和設計兵棋推演來教授軍事判斷力的人來說,這種教學方法似乎很難有效實施。學術界的成功案例涉及作戰部隊中已經是兵棋推演者的教授、教官和海軍陸戰隊領導人。不是兵棋推演者但教軍事決策的人如何弄清楚要使用什么兵棋推演?如何使用它?各種可用游戲的優點和局限性是什么?整合兵棋推演和課程有哪些挑戰,如何克服這些挑戰?本文旨在幫助那些不熟悉兵棋推演的人定位,并就在教授決策中的軍事判斷時使用它們的經過驗證的最佳實踐提供建議。
1 教育者如何使用游戲來教學生?
1.1 了解戰術、作戰和戰略中力量、空間和時間之間的關系
?1.2 在兵棋推演中模擬現實“決策環境”以解決決策困境
?1.3 在兵棋推演環境中體驗摩擦、不確定性、流動性、無序和復雜性的交互動力學
1.4 鍛煉創造性和批判性思維:準備、參與和分析兵棋推演活動
2 哪種類型的兵棋推演最適合學習目標?
?2.1 角色扮演游戲 (RPG)
? ?2.2 研討會矩陣游戲
2.3 系統游戲
?2.4 紙牌游戲
3 哪種情況最適合使用——歷史情景還是假設情景?
4 兵棋推演教學——挑戰與解決方案
?4.1 克服設計偏見
?4.2 時間和復雜性的挑戰
?4.3 對教師要求的考慮
?4.4 兵棋推演支持單位教育和凝聚力