機器人是一個具有挑戰性的領域,需要軟件和硬件的融合來完成所需的自主任務。任何工作流程的關鍵是在部署到生產環境之前對軟件進行自動構建和測試。本報告討論了美國陸軍作戰能力發展司令部陸軍研究實驗室(ARL)的無人自主車輛軟件研究平臺MAVericks的軟件開發過程中使用的持續集成/持續交付工具的重要性和創建情況。這個工具在ARL進行的快速研究和開發中起著至關重要的作用--包括模擬和嵌入式硬件目標的自動構建測試,以及驗證軟件在環模擬中的預期行為。
持續集成/持續交付(CI/CD)是軟件開發中常用的工具,用于自動構建、測試和部署代碼。這個工具對于提高研究的速度和效率至關重要,同時確保在增加或改變新功能時功能不受阻礙。在CI/CD之前,軟件開發過程是具有挑戰性的,隨著越來越多的合作者修改代碼庫,任何新的開發都有可能破壞現有的功能--比如代碼不再構建,自主行為和故障保護裝置不再按預期工作。
本報告重點關注美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的MAVericks無人自主飛行器(UAV)軟件平臺的CI/CD集成,該平臺建立在開源平臺ROS2和PX4之上。ROS2是一套用于構建機器人應用的軟件庫和工具,而PX4是一個強大的無人機飛行控制軟件。利用這兩個平臺,MAVericks是一個專注于敏捷飛行的大型合作項目,在模擬和機器人平臺上都能發揮作用。MAVericks的目標是在ModalAI的VOXL和RB5硬件平臺上運行,因為它提供了尺寸、重量和功率,同時也是藍色無人機項目的合作伙伴,這意味著他們得到了國防創新部門的資助,以符合2020年國防授權法第848條的規定。
合作者包括美國軍事學院的西點軍校,作為分布式和協作式智能系統和技術項目的一部分;加州大學伯克利分校,作為規模化和穩健的自治項目的一部分;以及馬里蘭大學的人工智能和多代理系統的自治項目--而且這個名單一直在增加。此外,ARL一直在尋求提高其算法的穩健性和成熟的能力,以過渡到DEVCOM和國防部的其他組織。隨著許多合作者加入MAVericks,重要的是要確保每次修改后有最低限度的可用功能,以鼓勵快速加入和貢獻。MAVericks是一個由一百多個軟件包組成的大型研究平臺,重要的是每個軟件包都能可靠地構建和運行。通常情況下,合作者只關心幾個軟件包,他們可以很容易地進行修改和添加,而不需要對不相關的問題進行排查,這一點至關重要。由于這種不斷增長的社區,很容易偶然地引入錯誤或破壞不相關的功能。因此,CI/CD是一個很好的解決方案,它將為不同的用戶群體提高平臺的可靠性和可用性。
CI/CD管道實現了許多簡化開發的功能。它可以完全構建整個平臺,確保新用戶的依賴性安裝成功,在模擬環境中運行和測試平臺,以確保自主行為正常工作,并快速構建壓縮的工作空間,以防止在無人機上構建。
在自主系統的軟件開發中,一個有問題的情況是,用戶修改了幾個包,但只構建和測試了一個特定包。這樣,代碼就被合并到了生產中,而沒有驗證它對其他人是否有效。如果未經測試的修改被合并,依賴這些修改的包可能不再構建或通過所有的測試案例。
從用戶的角度來看,CI/CD是由用戶創建代碼合并請求(MR)來觸發的,將他們的修改添加到主分支。這就啟動了CI/CD,建立了一個管道。該管道包括四個階段:構建-依賴、構建-完整、測試和部署。對于每個階段,可以并行地運行多個作業來完成該階段。在每個作業中,流水線首先將合并后的變化復制到一個新的環境中,并完成一個特定的任務。在流水線的最后,一個完全構建的版本被上傳,并準備在無人機上閃現。如果任何步驟失敗,其余的管道階段將被中止,并通知用戶到底是什么地方出了問題,以便他們能夠解決任何問題。管線的概述見圖1。
在本報告中,描述了MAVericks CI/CD的基礎,然后詳細介紹了管道中的每個階段,以及所克服的幾個挑戰。
(圖:作家兼戰略家彼得辛格(左)于 2018 年 11 月 1 日在一個未命名的空軍設施與一名軍官和一名國防部文職人員討論新技術。人工智能和腦機接口等進步將改變陸軍作戰的方式。)
長期以來,決策一直是戰爭的核心。最近,戰爭的節奏、規模、不透明性、非線性和連通性的增加對當代決策過程提出了越來越多的挑戰。在未來,這種變化將同時增加及時和有效決策的重要性,同時進一步加劇許多指揮官的認知和決策挑戰。指揮官將尋找結構不良、高度復雜的問題的解決方案,這些問題延伸到空中、陸地、海上、信息、網絡和空間這六個領域。隨著新技術和新應用的實現,未來的事態對復雜性構成了潛在的增長,并將以指數級的速度增加。人類的學習,甚至是最老練的指揮官的直覺能力都無法跟上不斷變化的戰爭特征。要想把贏得戰斗的洞察力帶到未來,必須對人類的認知、決策過程進行改進,或對其進行增強。
決策能力和現有支持的割裂造成了分析性決策過程、指揮官的直覺和有效決策之間日益擴大的能力差距。當前和未來的環境表明,有必要開發更加靈活的決策支持工具,以阻止這種差距,并為指揮官重新獲得決策優勢。在一個不透明和復雜的環境中有效地預測未來幾場戰斗的能力將是成功的關鍵。同時,在一個能夠迅速使以前的計劃失效的動態環境中,理解并首先做出反應的能力對于奪取和保持主動權至關重要。
復雜性科學和混沌研究已經與類似的問題進行了斗爭,并為軍事指揮官的突發挑戰提供了相關的見解。計算機建模和人工智能(AI)方面的工作已經取得了巨大的進展。在許多游戲中,計算機已經超越了人類的決策能力。
從人工智能的主導地位中適應和發展,國際象棋中的人機團隊已經達到了決策的新巔峰,將提前數個回合評估未來動作的算法的卓越戰術與人類的戰略能力相結合。目前美國與人工智能和決策有關的國防努力似乎集中在大數據和數據分析上。然而,如果沒有一個改進的軍事決策框架,就不能利用預測性分析。否則,增加的數據和分析只會加劇理解日益復雜和動態的作戰環境的挑戰。
軍事決策過程(MDMP)雖然在分析上是合理的,但其結構并沒有跟上未來環境的步伐。沖突的速度將超過工作人員處理分析貢獻的能力。
用人工智能對MDMP進行修改和增強,將創造一個過程,以更快的速度產生對環境的理解,并以物理信息的框架為基礎。行動方案的制定將不會像現在這樣,從一個理想的最終狀態向后發展,在理論上運用方法和手段來創造一個想象的未來。由人工智能支持的MDMP將從當前狀態向前工作。它將通過友軍和敵軍決策樹的可能分支向前探索,走向各種環境和敵軍的行動路線,通過最小化風格的決策樹,將其作為適應性代理來實現。替代行動的未來將通過可行性的出現來建立,并通過優化作戰功能的貢獻來完成,固有的區別,然后由人機團隊的人類部分來判斷是否合適和可接受。重新設想的人-機MDMP將與未來的操作環境保持同步,通過以接近機器的速度操作來保持相關性,使人能夠在日益濃厚的戰爭迷霧中獲得卓越的視野。
指揮官雖然得到參謀部的支持,但最終還是利用自己的能力進行決策。當指揮官在進行問題解決以制定對其工作人員或下屬的指導時,他們基本上是在進行 "手段-目的分析,這是一個尋找手段或步驟的過程,以減少當前情況與預期目標之間的差異"。即使是直覺,即對一個事件或數據的突然有洞察力的解釋,也以類似的方法發揮作用。"盡管表面上突然閃現的洞察力似乎產生了問題的解決方案,但研究表明,人們在解決洞察力問題時使用的思維過程最好被描述為一種漸進的、手段-目的的分析。" 領導者認識到相似性,并將其與個人和所研究的歷史聯系起來,從而獲得洞察力。心理學家、經濟學家和諾貝爾獎獲得者丹尼爾-卡尼曼(Daniel Kahneman)用這樣的描述來解釋內部的、經常是半意識的過程:"產生印象、直覺和許多決定的心理工作在我們的頭腦中默默地進行"。數學物理學家、科學哲學家和諾貝爾獎獲得者羅杰-彭羅斯描述了一種無意識的思想發展和對這些思想的有意識判斷。
MDMP有一個類似的、不亞于人類的動態。參謀部通過行動方案(COA)的制定產生備選方案,并由指揮官決定。然而,在行動方案的制定過程中,正如在手段-目的推理中一樣,用于簡化計算的啟發式方法以及一些神經心理學上的缺陷,限制了選擇并注入主觀性。歸根結底,目前MDMP內部的COA開發過程仍然需要大量的頭腦風暴來解決。
與主觀開發選項形成對比的是基于衡量和計算的選項開發,而這一過程將由人工智能支持的程序執行。通過一些基于現有信息和過去沖突的數據的計算,可以對比出AI賦能的MDMP會提供的建議。
對2008年俄格戰爭期間的決策和計劃進行評估,在與歷史上的決策、行動和結果進行對比時,可以深入了解人工智能驅動的MDMP的好處。以下是人工智能驅動的MDMP背后的邏輯和過程。
俗話說,如果情報是用來推動機動的,那么對戰場的情報準備的產出必須作為COA發展的起點,使友軍COA的創建能夠實現對對手的不對稱,并執行對對手行動最有利的行動。
從對敵方力量的評估中,可以根據具體的任務變量來確定所需的友軍力量。要做到這一點,需要一種衡量對手戰斗力的方法。有許多復雜程度不同的方法來確定一個代表戰斗力的數值。
人工智能程序可以使最繁瑣的系統變得可行,所以它不像參謀部那樣受到復雜性的限制,特別是在時間有限的時候。雖然這個例子使用了戰區分析模型(TAM),但TAM并不是重點。指揮官、參謀部或學說推薦的任何東西都可以使用。
在2008年俄格戰爭爆發前,俄羅斯部隊在北奧塞梯駐扎。這些部隊可以按地點轉化為戰斗力值。例如,在馬米森山口附近的俄羅斯部隊可以按其組成部件進行統計,如人員、T-72主戰坦克、2S3自行火炮和BM-21多管火箭炮系統。
圖 1. 俄羅斯軍隊戰斗力計算
圖1中顯示的戰斗力范圍可以告知所需的戰斗力,這些戰斗力來自于格魯吉亞部隊的位置,用藍色矩形標注,以便在各種可能的情況下擊敗這支俄羅斯部隊。圖1中描述的兩種情況是俄羅斯使用西面的馬米森山口或東面的羅基隧道(帶箭頭的紅線)。
與戰斗力計算一樣,從計算機建模中得出的計算結果可以用來預測基于部隊和手段的相應相關性的傷亡。在這里使用的算法中,戰斗力是根據地形和任務類型對每種能力或系統進行調整。一旦對戰斗力進行了調整,該模型描述了在部隊比例為1:1時的傷亡分布情況,有一條非線性曲線,在戰斗力比例大約為4.4:1時趨于平緩,顯示了一個粗略的收益遞減點。這種計算方法不能提供 "任務成功 "的百分比機會,但可以提供預期戰損和傷亡的迭代,顯示雙方的戰斗力如何隨著時間的推移而受到影響。必須對將導致失敗或撤退的戰斗力損失做出假設,但這是一個很好的例子,說明人類的洞察力可以被迫提供具體的情況。從這些計算中出現的洞察力的開端是,1:1的比例仍然是消耗性的,而2:1的比例有可能在兩次反復中增長到2.4:1然后是4.5:1。這就形成了一種機制,在時間上尋求有利的戰斗比例,可以決定性地改變平衡。這不是一個水晶球,而是現有的最佳估計,能夠由工作人員有條不紊地進行,或由程序以機器速度進行。由于戰爭是一種明顯的人類努力,因此可以將士氣或本例中未包括的其他因素納入到額外的修改因素中。這種對戰斗力隨時間推移的理解提供了一個關鍵的洞察力,并可以為部隊分配的決策提供參考。在這一點上,可以產生一個對應于特定地點的友軍的有利戰斗力要求。圖2強調了格魯吉亞部隊如果在俄羅斯入侵路線上的起伏地形中進行防守時的理想戰斗力。
隨著南奧塞梯局勢的升級,格魯吉亞總統米哈伊爾-薩卡什維利于2008年8月7日為軍隊確定了三個目標。他指示他們 "第一,阻止所有軍車從俄羅斯通過羅基隧道進入格魯吉亞;第二,鎮壓所有攻擊格魯吉亞維和人員和內政部崗位或格魯吉亞村莊的陣地;第三,在執行這些命令的同時保護平民的利益和安全"。正如格魯吉亞國家安全委員會秘書亞歷山大-洛馬亞后來所證實的,"我們行動的邏輯是解除茨欣瓦利郊區的射擊陣地,并試圖通過繞過茨欣瓦利,盡快向羅基隧道靠近"。這一指令和支撐格魯吉亞軍事反應的邏輯為本文中繼續發展人工智能的COA提供了一個有益的對比。
圖2. 兵力比的正反饋循環
前面分析的圖1中的俄羅斯部隊是后來試圖通過羅基隧道進入格魯吉亞的第一梯隊部隊。被描述為向格魯吉亞部隊和村莊開火的部隊在茨欣瓦利附近活動,由奧塞梯人組成,由俄羅斯和奧塞梯 "維和 "營協助,人數增加到830人,大約300名雇傭兵,以及更多的大炮。由于他們有相當多的步兵,不同的任務,以及從茨欣瓦利城市中心倉促防守的地形,通過以前使用的相同方法,他們的戰斗潛力被計算為60。
談到格魯吉亞部隊和繼續發展他們最有利的行動路線,格魯吉亞第二、第三、第四和第五步兵旅以及戈里的一個單獨的坦克營的戰斗力和位置,作為計算的起點。他們與俄軍的距離和旅行時間,或關鍵地形,都可以計算出來。將這些信息與之前概述的俄羅斯部隊和之前討論的兵力比例知識結合起來,就可以利用目標編程,從數學上優化從每個格魯吉亞地點到羅基隧道或茨欣瓦利的戰斗力,以滿足有利的兵力比例,同時最大限度地減少總的旅行距離,從而最大限度地減少時間和后勤要求。
圖3. 戰斗潛力優化Python計劃的結果和建議的第4旅的分步任務組織結果
圖3左上角的優化程序結果顯示,格魯吉亞的戰斗力分配足以達到2:1的兵力比,以對抗進攻的俄羅斯部隊。對于第4步兵旅,建議在各目標之間分配戰斗力,后續的優化程序是按作戰功能確定各目標的不同作戰系統的數量,如圖3右上方所示。其結果是以理論為基礎的理性選擇解決方案,并通過在后期MDMP的COA分析步驟中為裁決戰爭游戲而保留的計算類型形成。人工智能支持的MDMP所實現的是使用詳細的分析來告知行動方案的最初發展,防止未來對次優COA的路徑依賴。
這種輸出就像分析數據以創造信息。合并這些信息的組成部分可以創造出知識,指揮官或參謀部可以對其運用智慧。這種方法不是像直覺所注入的那樣擁有不可解釋的因素,而是可以解釋的,并且可以在指揮官的具體規劃指導下進行修改。在這種情況下,裝甲、步兵和炮兵在進攻和防守中的有效性,以及丘陵和城市地形,都被納入優化的考慮范圍,輸出結果將炮兵優先送到羅基隧道。這一建議,雖然源于算法,但遵守人類的軍事判斷,認識到在城市中使用火炮的相對困難,以及步兵的相對優勢。毫不奇怪,行動后的審查指出,格魯吉亞的炮兵在丘陵地帶對付前進中的俄羅斯縱隊是有效的。
同樣,在這種修改中,通常為COA分析的后期步驟保留的計算類型被應用于COA的最初發展。正如加里-卡斯帕羅夫所描述的與計算機合作的好處一樣,人類也可以將作戰藝術應用于已經納入科學的概念。
許多計算可以被整合到程序中,以減少認知負擔,讓工作人員進步到更高層次的人工分析,其中一個例子就是時間。對于建議的每條路線,可以進行計算,根據車輛數量和其他變量確定更準確的時間。
將上述初級人機開發的COA的輸出與格魯吉亞國家安全委員會對其一般行動方案的闡述相比較,突出了人工智能支持的MDMP可以提供的優勢。人工智能的建議將一支更強大的格魯吉亞部隊引向羅基隧道,同時向茨欣瓦利投入部隊。很可能更早和更多地將部隊投入到羅基隧道附近的防御中,會極大地擾亂已經被渠化的入侵俄羅斯部隊,并阻止他們將火箭系統移到茨欣瓦利的射程內,并通過隧道將彈道導彈炮組進一步嵌入格魯吉亞,這對俄羅斯人來說是決定性的。
到目前為止,修改后的方法已經建立了一種發展 "下一步行動 "的方法,其基礎是對友軍和敵軍戰斗力的理解,這種戰斗力如何受到任務類型和地形的影響,以及部隊在移動和機動接觸中的時間關系。地面部隊的這些例子必須自然延伸到所有領域的戰斗力和效果的應用。這種技術能夠同時分析各個領域,并為跨領域效果的整合提供一個機制。近距離空中支援的架次可以被整合到地面領域,以便在地面戰斗的關鍵地點和時間提供更好的戰斗力比率。此外,在進行空對空作戰計算時,可以將地面防空資產納入空對空計算的因素。圖4顯示了通過羅基隧道進攻的俄羅斯地面部隊和推薦的格魯吉亞地面部隊的戰斗力,另外還強調了如何將俄羅斯的蘇-25戰斗機或格魯吉亞的SA-11系統納入其中。這為在領域內和跨領域進行的作戰行動創建了一個多維框架,并提供了一種同步匯合的方法。當一個領域的條件發生變化時,對其他領域和行動的影響可以在開始大大超過工作人員計算的復雜程度上進行。
隨著核心COA的制定,每個作戰功能的最佳整合可以通過算法來確定。例如,有了通往目標的路線和距離,以及燃燒率和其他規劃因素,可以計算出支持概念的要素。
這個例子表明,有能力在多個領域整合所有作戰功能的規劃。有了充分的細節說明COA的完成和廣度,現在可以把解釋轉向深度。為了在作戰層面創建一個在時間和空間上都有深度的COA,它必須提前預測幾個交戰,以實現相對優勢的位置,并尋求實現轉化為成功的失敗機制。而之前的過程主要是將現有的軍事理論或學術研究進行算法連接的創造,它們很難實現超越即時決策的飛躍,并創造出作戰藝術。對于這一點,現有的人工智能提供了適用的例子。
國際象棋人工智能中使用的基本微分法對所有棋盤上的處置方式提前兩步進行打分,包括行動和反應,然后根據程序對分數進行比較,分數最差的那個選項被修剪掉。在排除了未來兩步棋中最差的選項后,剩下的最佳選項被選中。修剪和消除的過程可以防止出現這樣的情況:人們可以在最近的一步棋中拿下一個低價值的棋子,但在下一步棋中又會失去一個高價值的棋子。該算法基于每一步后續棋重復這一過程。在許多程序中,該算法會分析更多的未來棋步,以指數形式增加棋盤的處置,以評估和排列潛在的棋步。為了簡化計算機的計算,一個被稱為阿爾法-貝塔修剪的過程可以在明確它們不會是最佳選擇時刪除分支,并停止評估它們。根據已經證明的根據力量和手段的相關性來評估軍事編隊的能力,可以看到即使是簡單的國際象棋人工智能方法也可以成為發展作戰藝術的基礎。
圖4. 多域COFM框架
當使用決策樹和國際象棋人工智能的最小算法時,程序會對棋盤上的大多數或所有的替代性未來進行評估,并產生一個可比較的值。俄羅斯軍隊最初從西邊的馬米森山口進攻,而不是從東邊的羅基隧道進攻,就是一個選項的例子。這將產生一個不同的動作,格魯吉亞部隊需要對此作出反應。除了國際象棋人工智能中棋子的總價值外,還經常使用位置的修改器。對每一方的剩余棋子進行估值的方法在概念上類似于之前用于分析俄羅斯和格魯吉亞部隊的戰斗力的TAM計算方法。而不是單個棋子的價值,將考慮軍事編隊的戰斗力。這種機制設計起初似乎是以消耗為重點,保留友軍的戰斗力,消除對手的戰斗力,并根據價值來確定優先次序。從一開始看起來非常機械的東西中出現的顯著特征是在時間和空間上創造和連接有利的力量比例,實現不對稱性,以大量消耗對手并保存友軍的戰斗力。簡而言之,它創造了作戰藝術。
當以這種方式對格魯吉亞的多個行動方案進行比較時,就會出現與圖3中描述的不同的行動方案。由于通往羅基隧道的旅行時間的變化,以及對交戰的預測是如何沿著各自的決策樹展開的,因此確定了對通往羅基隧道的部隊的改變,如圖5所示。
當人工智能支持的COA開發過程繼續向前搜索時,在Troitskye的俄羅斯第503摩托步槍團(MRR)和在Khankala的第42摩托步槍師和第50自行火炮團被確定為需要考慮的俄羅斯作戰力量。以最小的方式,在最初決定在羅基隧道和茨欣瓦利之間分配部隊之前,沿著決策樹進一步考慮這一事件。一旦理解了時間上的力量以及二階和三階效應,就會發現一個非直覺性的決定,即與戈里的坦克營和第比利斯的第4旅一起向羅基隧道進攻,這是由于預測到俄羅斯第二梯隊部隊在未來的行動。
圖 5. 俄羅斯-格魯吉亞聯合決策樹和進化
如圖3所示,如果俄軍同時開始行動,格魯吉亞部隊的原始部署無法及時趕到羅基隧道進行防御。然而,當動用哥里的坦克營或第4步兵旅時,一支有利的部隊能夠在迪迪古普塔或爪哇附近進行防御,使俄軍在山丘上保持渠化,有足夠的戰斗力來預測俄軍的進攻會被擊敗。這種防御可以抵御俄軍第二梯隊的第503摩托化步兵師,但不能抵御緊隨其后的第42摩托化步兵師,圖5右上方描繪的是第503步兵師。正因為如此,格魯吉亞的防御部隊如果要完成他們的任務,就需要在503摩托化步兵師到來之前向隧道進行反擊,以在嚴重的渠化隧道處進行防御。有了這些從復雜中出現的聯系,格魯吉亞的領導層可以及時思考并產生贏得戰斗的洞察力。
建立可用COA的算法過程在很大程度上緩解了因時間不足而產生的差距,同時為MDMP引入了一定程度的學術嚴謹性,否則可能只是主觀評估,而這種評估中隱含著所有未知的危險。
在目前的作戰環境中,往往沒有時間來制定多個作戰行動方案,對所有制定的作戰行動方案進行戰爭演習,應用作戰行動方案評估標準,然后確定一個推薦的作戰行動方案。有了人工智能支持的MDMP,COA分析和比較就被烘托出來,并最大限度地利用現有的技術,所有這些都是在傳統的工作人員可以收集到的工具。
通過COA分析和COA比較步驟合并和修改COA開發步驟,以利用當前人工智能能力的速度、力量和洞察力,將提高預測多種替代性未來和選擇的能力,使指揮官不僅能夠在三維空間中思考,而且能夠在時間中思考。鑒于時間越來越稀少,了解時間,并擁有在多個領域與之合作并通過它的工具,可能是人工智能提供的最大優勢。
其他領域的人工智能工具已經展示了它們在提供快速、一致和準確計算的任務方面的能力。為了具有價值,人工智能不需要自主運作或復制有生命的人。人工智能只需要彌合當前規劃和決策工具的適用性與人類認知在復雜適應性系統中的有效性之間不斷擴大的差距。處理復雜性的適度改進,即使只是減少導致錯誤的認知負擔,也會確保比無助的指揮官有決策優勢。
在人工智能支持的MDMP的意義上更進一步,人工智能可以在第一次迭代后半自動地完成MDMP,幾乎連續地進行完整的MDMP過程,沒有疲勞感,納入每一個新發展。一個持續的人工智能運行的MDMP將提供關于部隊當前位置和行動的反饋。近乎實時的反饋將使我們能夠跟蹤下屬單位的當前行動、控制措施的遵守情況和進展。
其次,近乎連續的MDMP可以通過評估根據當前條件應該執行什么COA來預測分支,甚至預測隨著條件的變化,未來決定性交戰的設置。持續的人工智能支持的MDMP將與敵人而不是計劃作戰。一個人工智能支持的過程將有額外的好處,即為任何新出現的COA整合資源,同步和優化所有領域的效果,并使過渡到一個新的分支計劃更加可行。這種能力將在使部隊迅速適應在未來動蕩環境中的混亂邊緣茁壯成長方面取得不可思議的進展。
在21世紀初,美國軍隊專注于反叛亂行動,而俄羅斯等競爭對手則專注于常規軍事力量的現代化,威脅著美國的軍事主導地位。美國軍事能力差距的縮小,加上新興技術,如網絡空間、太空和電磁波譜,改變了戰爭的特點。美國陸軍的應對措施,即多域作戰(MOO),試圖利用融合的概念,快速而持續地整合所有軍事領域、電磁波譜和信息環境,以賦予軍事優勢。為了實現融合,美國陸軍必須與其他軍種進行聯合開發,制定軍種間協議,修改人員結構,并修改人事政策。后越南時代空地戰的發展和隨后的 "沙漠風暴行動 "提供了一個歷史案例研究,重點是為實現陸域和空域的融合而進行的組織變革。目前美國軍隊現代化的體制機制主要是在空地戰時期發展起來的,可能需要調整,以確保適應實現MDO融合。
隨著2015年國家安全戰略的發布,標志著美國正式將國家安全重點從過去14年的沖突中轉移。盡管在阿富汗和伊拉克的行動仍在進行,但該文件提到部署的部隊兵力從2009年的約18萬人減少到公布時的不到15000人。雖然仍然承認暴力極端主義組織的威脅,但美國開始將國家安全重點從全球反恐戰爭(GWOT)轉向大國競爭。這種轉變隨著2017年《國家安全戰略》和2021年《臨時國家安全戰略》的發布而加劇,該戰略特別指出俄羅斯等是挑戰美國實力、利益、安全和繁榮的國家。俄羅斯和其他國家競爭者專注于其部隊的現代化,而美國則專注于在伊拉克和阿富汗的反叛亂行動。這增加了競爭者的能力,并對美國的軍事主導地位構成了威脅。美國陸軍的多域作戰(MDO)概念是對美國陸軍領導層提出的安全問題的回應。它是美國陸軍理論、組織、訓練、物資解決方案、領導、人員、設施和政策(DOTMLPFP)現代化的核心重點,以保持對所有對手的競爭優勢。
MDO的一個核心主題給軍隊帶來了新的問題,即技術的出現和普及改變了戰爭的特征。互聯網的發展和全球日常生活的許多方面對這一現象的依賴引起了網絡空間的競爭,其影響可能會影響傳統的戰爭形式。對基于空間的能力的更多依賴和公認的空間軍事化,同樣代表了在以前的沖突或理論中沒有完全實現的戰爭轉變。能夠利用電磁波譜(EMS)的技術,雖然在整個20世紀都在使用,但在21世紀更加普遍,對戰爭的可能影響也更大。所有這些發展都是隨著信息時代的到來而出現的,增加了信息環境在影響戰爭行為和結果方面的重要性。
擺在作戰人員面前的問題是如何將這些新出現的能力與現有的和經過驗證的框架進行最佳整合。美國陸軍的答案是:"......在所有領域、電磁波譜和信息環境中快速和持續地整合能力,通過跨領域的協同作用優化效果,以戰勝敵人......" 為了完成這一任務,美國陸軍必須與其他軍種進行聯合開發,制定軍種間的協議,修改人員結構,并修改人事政策。海灣戰爭時期空地戰的發展代表了美國空軍和美國陸軍的成功整合,以實現其主要領域的融合,并在DOTMLPFP的各個類別中發生變化。對這一時期土地和領域整合的分析可以為未來網絡空間、空間、信息環境和環境管理系統的領域整合提供有益的見解。
MDO結構廣泛地使用了領域一詞,這一概念是理解融合的一個核心概念。MDO中使用的領域一詞符合聯合出版物(JP)3-0《聯合作戰》中描述的該術語的聯合用法。 聯合條令沒有明確定義領域;然而,它確實將領域的概念貫穿于理解作戰環境和如何組織聯合作戰的描述中。該術語并不意味著所有權或排他性,因為單一軍種可以在多個領域內運作。目前公認的聯合行動的物理領域有四個:陸地、空中、海上和太空。信息環境產生了第五個聯合領域,即網絡空間。
聯合條令并不承認信息環境是一個領域。然而,與四個物理領域和環境管理系統一起,聯合條令將其視為作戰環境的一個主要組成部分,并將其視為一種聯合功能。JP 3-0將信息環境定義為"......包括并聚集了眾多的社會、文化、認知、技術和物理屬性,它們作用于并影響知識、理解、信仰、世界觀,并最終影響個人、團體、系統、社區或組織的行動。" 網絡空間作為一個領域存在于信息環境中。電磁環境,即所有頻率的電磁輻射范圍,也是作戰環境的一個重要因素,但聯合條令并不承認它是一個獨立的領域。
將四個物理領域、網絡空間、信息環境和環境管理系統結合起來,就產生了MDO的融合概念。簡單地說,融合是美國陸軍編隊利用作戰環境的所有可能方面,在武裝沖突中創造對敵人的優勢,利用這種優勢,并取得勝利。部隊通過跨領域的協同作用實現融合,這是MDO理念的核心原則。這個術語也起源于聯合條令,被定義為 "在不同領域的能力的互補性,而不僅僅是相加,從而使每一種能力都能增強其他能力的有效性并彌補其他能力的脆弱性"。融合的產生是由于接受了美國將無法在近距離或同行沖突中享有未來領域的優勢,而是需要使用來自多個領域的協調效應來讓出優勢。
支撐這一分析的理論框架是作戰藝術,即 "在......技能、知識、經驗、創造力和判斷力的支持下,制定戰略、戰役和行動,通過整合目的、方式、手段和評估風險來組織和使用軍隊的認知方法"。MDO是一個作戰層面的構造,旨在為指揮官提供一種方法,通過協調使用所有可用資源,在競爭、危機或武裝沖突中取得戰術勝利。然而,除非在政治目標的背景下實現,否則這種勝利是沒有意義的。然而,將戰術結果與政治目標聯系起來,不屬于本研究的范疇,本研究的重點是戰爭的作戰和戰術層面。
MDO融合領域的新興性質和已發表作品的匱乏限制了這項研究。對后越南時代到今天的發展時期的研究限定了本項目的范圍。雖然在整個軍事史上還有其他領域融合的成功案例,但本研究沒有考慮這些案例。這種劃分也排除了海上、空中和陸地融合的成功案例,這些案例可能會產生比只考慮空中和陸地領域更多或相互矛盾的見解。本研究重點關注美國在空中和陸地融合方面的努力以及對美國陸軍MDO的影響,排除了其他國家的MDO概念發展案例和其他領域融合的歷史案例。最后,本研究主要分析了MDO融合的作戰和戰術影響,因為戰略分析不是MDO構建的重點。
這個項目接受了MDO的一般方法,將其作為一個有效的結構來處理后GWOT時代出現的近距離或同行競爭問題,并作為美國軍隊現代化的基礎。這種方法的一個固有的假設是,實現所有領域、信息環境和EMS的MDO融合會產生對對手的明顯優勢。鑒于持續增加總部組織的規模和復雜性的趨勢,如從2001財年到2012年,作戰指揮部人員增長了50%,增加人員的規模和復雜性可能會阻礙決策和組織適應。最后一個假設是,美國陸軍不能以目前現有的框架實現MDO的最佳融合,這意味著美國陸軍需要進行組織變革以充分實現現代作戰環境的好處。
這個項目采用了案例研究的方法,研究了空地戰發展背后的理由和事件,它的持續演變,以及這個過程在目前的服務和聯合DOTMLPFP類別中是如何體現的。這既代表了極端的情況,因為美國陸軍和美國空軍元素在作戰環境中的接近帶來了自相殘殺的危險,也代表了關鍵的情況,因為空陸一體化的發展可能適用于其他領域、信息環境和環境管理系統。這種分析也可能發現案例研究是務實的,揭示了一種有效的方法來實現與新的戰爭領域的銜接。本研究的一般格式是從文獻回顧,到方法概述,案例研究本身,分析和發現,最后是結論。
所有電力驅動的自主平臺都擁有一個系統,將電力分配給平臺的所有重要部件。在美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL),幾個項目正在使用無人駕駛航空系統(UAS)作為平臺。一些正在使用的無人機系統被歸類為第一組,這意味著它們的重量低于20磅。ARL進行研究的第一組無人機系統是非常快速和靈活的四旋翼飛機。這種四旋翼飛機通常有四個旋翼和輕型有效載荷,可以非常迅速地加速,毫不費力地達到每小時100公里以上的速度。為了做到這一點,這些四旋翼飛機可以在30直流電壓下突擊消耗高達400安的電流。為了滿足這些要求,相對于無人機系統的尺寸,電機/螺旋槳組合需要大量的功率。
到目前為止,ARL的無人機系統一直在使用商業現成的配電板(PDB)來滿足配電需求。定制的PDB將滿足美國防部在國內采購更多UAS組件的愿望,因為它將是美國設計和制造的,這對這種類型的UAS組件來說是獨一無二的。
本報告考慮了PDB設計的所有方面,包括形狀、尺寸、組件、成本、電壓調節器、外圍設備等等。本報告以一個特定的ARL項目所需的定制設計的PDB為背景探討了這些問題,但可以作為正在從事半自主和完全自主車輛項目的ARL工程師的起點。
美陸軍統一網絡計劃正在推動網絡在2028年之前從一個被認為是看不見的資產變成一個支持多域作戰(MDO)方式的部隊武器系統。美陸軍的統一網絡將提供一種可生存的、安全的、端到端的能力,使陸軍在競爭、危機或沖突期間以及在所有作戰領域(海洋、陸地、太空、網絡、空中)作為聯合/聯盟部隊的一部分進行運作。
美陸軍參謀長的《陸軍向多領域作戰轉型白皮書》和到2028年擁有一支具備多域作戰能力部隊的目標,突出了對陸軍統一網絡的關鍵需求。決策主導權和超額配給能力是MDO的核心,而陸軍只有通過彈性、安全的全球網絡能力和容量才能實現這一目標。在此基礎上,美陸軍統一網絡計劃將多種復雜的網絡現代化工作調整為支持MDO所需的單一、一致的方法。
通過跨領域的努力,美陸軍統一網絡計劃為2028年的Way Point部隊提供了一個統一的網絡,然后隨著信息技術的持續快速發展而不斷進行現代化。
美陸軍統一網絡計劃與陸軍戰略的重點相一致,即建立戰備、現代化、改革陸軍以及加強聯盟和伙伴關系。現有的戰術網絡現代化戰略和實施計劃與陸軍統一網絡計劃相銜接,并保持一致。此外,陸軍統一網絡計劃在多個階段和時間范圍內與2019+陸軍戰役計劃并行,并使其得以實施。
第一階段:近期(目前-2024年)--建立統一的網絡
這一階段已經開始,同步進行綜合戰術網絡(ITN)和綜合企業網絡(IEN)的現代化。這一階段的主要工作包括:
對這一階段具有決定性意義的是建立一個基于標準的安全架構,該架構建立在零信任原則之上,最初的主要重點是SIPR網絡的現代化,然后是NIPR的關鍵能力,包括工資、后勤、合同等。
美陸軍開始實施一個整體的方法,隨著時間的推移發展統一網絡,使多種努力同步進行,并利用新興技術,如軟件定義和5G及以上的無線網絡,也符合零信任原則。
美陸軍正在追隨美國防部副部長辦公室,將無線蜂窩網絡作為戰術和企業網絡使用的一項關鍵技術。這將補充網絡整合,減少對非無線網絡的依賴。
這一階段開始時,能力加速進入云基礎設施,同時迅速剝離傳統能力和流程。關鍵是建立共同的數據標準,以實現人工智能(AI)和機器學習(ML)等新興能力。
任務伙伴環境(MPE)的持續發展將繼續進行,因為企業努力建立一個持久的能力,并消除浪費的偶發努力。
美陸軍將繼續調整部隊結構,以實施國防部信息網絡行動(DODIN Ops)的建設,在一個有爭議和擁擠的環境中運營、維護和捍衛統一網絡。
美陸軍必須完成整個企業的網絡融合,以調整單一的陸軍服務提供商,提高網絡的準備程度、標準化和互操作性;提高陸軍的網絡安全態勢;并使DCO快速響應。這種融合為統一網絡的建立創造了條件。
這一階段結束時,建立了一個標準化的綜合安全架構,為統一網絡奠定了基礎,并能在世界任何地方快速部署和立即開展行動。
第二階段:中期(2025-2027)--統一網絡的運作
這一階段從25財政年度開始,繼續融合ITN和IEN的能力。這一階段的主要工作包括:
完成DODIN行動的構建,支持部隊結構,使統一網絡在競爭和擁擠的環境中得到防御和運作。
這一階段完成了混合云能力的建立,包括加速Al/ML能力發展的戰術編隊。
美陸軍將建立一個持久的任務伙伴網絡(MPN),包括從企業到戰術邊緣的所有硬件、軟件、基礎設施和人員,包括在所有戰斗訓練中心(CTC)和任務訓練綜合體的就業。
這一階段在統一網絡完全支持2028年的MDO目標部隊時結束。
第三階段:遠期(2028年及以后)--持續實現統一網絡的現代化
這個階段從28財政年度開始,當陸軍統一網絡在操作上、技術上和組織上完全準備好支持2028年的MDO Way Point部隊。
鑒于信息技術和網絡領域快速和持續的變化速度,這個階段是沒有盡頭的--現代化演變為統一網絡的成熟。這是一個持續的過程,統一網絡沒有固定的結束狀態。
美陸軍統一網絡計劃伴隨著陸軍統一網絡的實施,這是一個美國陸軍執行令(EXORD),它將框架分解為與追求框架內的努力方向(LOE)和支持目標有關的近期和中期的關鍵任務。作為網絡整合和管理的領導者,首席信息官(CIO)和副參謀長(DCS),G-6將使用陸軍統一網絡實施計劃來同步和評估整個部隊和所有任務領域的努力,以建立統一網絡,支持2028年具有MDO能力的軍隊。
本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。
同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。
本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。
美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。
2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。
在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。
在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。
簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。
美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。
隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。
到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。
DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。
ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。
作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。
在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:
DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?
我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?
在人工智能支持的C2系統中,人類的干預有什么影響?
該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。
作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。
圖1 C2基礎設施概述
虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。
圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。
星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。
作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。
圖3 《星際爭霸II》中的虎爪地圖
虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。
我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。
圖4 《星際爭霸II》編輯器中的初始虎爪地圖
在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。
距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。
圖5 修改后的《星際爭霸II》編輯地圖
最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。
為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。
首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。
表1 虎爪部隊與《星際爭霸II》部隊的映射關系
為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。
修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。
圖6 使用MILSTD2525符號的星際爭霸II
獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。
我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。
為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。
圖7 《星際爭霸II》中的區域和目標
觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。
事件。啟動觸發器(例如,一個單位進入一個區域)。
變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。
條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。
行動。事件的結果或成果(例如,單位獲得積分)。
圖8 《星際爭霸II》中虎爪場景的觸發實例
作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。
OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。
強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。
對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。
圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架
DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。
同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。
利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。
我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。
在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。
圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。
圖10 《星際爭霸II》的狀態輸入處理
表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵
A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。
圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。
我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。
我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。
圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。
為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。
政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。
觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。
表3 OpSim模擬的觀察空間、行動空間和獎賞
訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。
圖13 主題專家和人工智能指揮員之間的實體損失比較
圖14 一次推廣的開始和結束的快照
作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。
初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。
浮動航天器模擬器(FSS)是模仿衛星在空間運動的機器人載體。使用FSS可以在地球上對制導、導航和控制算法進行實驗驗證,然后再將其應用于空間,因為空間的錯誤是災難性的。此外,FSS是空間系統工程課程中大學生的一個重要研究和教育工具。然而,目前使用的所有FSS都是定制開發和昂貴的項目。本論文涵蓋了用于教學和研究目的的新型浮動航天器模擬器的開發、組裝和測試過程,該模擬器被命名為MyDAS,代表微型動態自主航天器模擬器。通過介紹MyDAS,一個小型的、簡單的和低成本的FSS,使FSS在大學和中學階段的研究和教育中得到更廣泛的利用。討論了MyDAS的不同推進配置及其相應的運動方程。對于一個特定的配置,選擇并測試了現成的氣動和電子組件。一個模塊化和標準化的3D打印框架將所有部件固定在一起,形成一個最終的剛性載體。最后,MyDAS在各種實驗中被測試,完成了全部的硬件功能。
本論文進行小型化和簡化的浮動航天器模擬器(FSS)工作。本章簡要介紹了這項工作的動機和目標,以及本論文的結構。
未來空間任務中的航天器需要靈活、自主的制導、導航和控制(GNC)算法,如對接、接近或清除碎片的操縱[1], [2], [3]。用硬件在回路中驗證GNC算法的一種方法是使用FSS,而無需將測試對象送入太空。盡管不向太空發射任何東西而大大降低了成本,但目前的FSS仍然需要大量的經濟和費時的工作來建造和操作,這只有專門的機構或公司才可能做到。除此之外,目前的FSS都是獨特的設計,沒有標準化。引入一種新的、負擔得起的、小而簡單的FSS可以使本科生甚至高中生以及業余用戶能夠使用FSS工作。提供這種機會可以增加為未來空間任務創造更好的GNC算法的成功機會。
先前工作提出了一個更便宜、更小、更簡單的FSS的概念[4],稱為MyDAS,代表微型動態自主航天器模擬器。提出了初步的計算機輔助設計(CAD)模型、材料清單、氣動圖、接線圖、兩種浮動配置和三種推進配置。本論文的目的是建立一個MyDAS的物理工作實例。為此,所有定制設計的部件應與購買的現成部件一起制造和組裝。所有的功能部件應先單獨測試,然后再組合。最終的裝置必須能夠使用壓縮空氣供應漂浮和推動自己。如果可能的話,在不使用推進系統的空氣的情況下,漂浮時間應超過5分鐘。此外,推進系統必須由機載計算機和機載電池控制。該裝置的硬件和軟件應是開源的,以使其可重復使用。作為其中的一部分,將提出一個成本估算。在未來的工作中,希望MyDAS能被積極用于驗證和改進GNC算法。
如上所述,本論文是基于以前的工作,其中介紹了關于FSS的理論基礎和技術現狀[4]。理論基礎和技術現狀同樣適用于本論文,這就是為什么它們在本文件中沒有明確重復。在第2章運動方程中,以前工作中的簡化運動方程被指定用于其中一個推進配置。第3章氣動系統討論了MyDAS的氣動系統。第4章電子學中解釋了MyDAS的電路以及所有的電子元件。第5章框架設計的主要內容是構建和制造一個定制的、3D打印的框架,該框架將所有的部件固定在一起。第6章設置和測試描述了在組裝MyDAS的過程中對單個和組合部件的若干測試。在第7章實驗中,全功能的FSS被用在一個花崗巖試驗臺上,以證明其功能,以及描述某些推進方面的特征。最后一章的結論是對工作的總結以及對未來工作的建議。復制MyDAS的基本信息,如技術圖紙、材料清單和Python列表,可以在附錄中找到。此外,該代碼與CAD文件和更多不能打印在紙上的數據一起在網上提供。
《應用于致命性自主武器系統的任務指揮原則》,Curtis R. Michael少校,56頁。
這部專著研究了任務指揮的七項原則及其在致命性自主武器系統中的應用。像機器人和人工智能這樣的創新技術正在迅速重塑社會規范。只是在過去幾年里,美國軍方才認真考慮自主技術在戰場上的影響。隨著政治和軍事領導人處理這個新的戰爭時代,有關人類和機器在戰爭中的角色的新問題正在呈現。盡管圍繞自主系統的知識和經驗還很有限,但有一個既定的框架,即任務指揮原則,它經過了戰斗的檢驗,非常適合解決模糊性問題。任務指揮原則是使用致命自主武器的明智方法。這七項原則是幫助軍事指揮官應對復雜戰爭穩定的指導性方針。更重要的是,這些原則確保指揮官是最終的決策者,人民和信任是任務指揮的重點。信任在這個新的戰爭時代的重要性是不可低估的。信任確保了軍事行動的凝聚力和統一性。了解自主武器系統中的人機信任關系,對于釋放人機團隊的競爭優勢以及維護美國的國家安全利益至關重要。
“第一臺超智能機器是人類需要做出的最后一項發明,只要機器足夠溫順,告訴我們如何控制它。奇怪的是,這一點在科幻小說之外很少被提及。有時,認真對待科幻小說是值得的。”歐文-約翰-古德,《第一臺超智能機器》
今天,沖突的復雜特征也許比以往任何時候都更加明顯。混合戰爭、網絡攻擊和非國家行為者正在不斷地使戰斗空間變得更加不確定、動態和模糊。革命性的技術,如高超音速武器、人工智能(AI)和自主系統(AS)進一步增加了這種復雜性。商業和軍事工業對創新技術的空前依賴似乎是戰爭特征變化的催化劑,可能也是戰爭性質的催化劑。前美國國防部長吉姆-馬蒂斯在評論人工智能和戰爭這個話題時說:"我當然質疑我原來的前提,即基本性質不會改變。你現在必須質疑這一點。"隨著政治和軍事領導人小心翼翼或不顧一切地跳入這個幾乎沒有先例的戰爭新時代,關于人類和機器在戰爭中的作用的新問題在等待著他們。
2014年,前國防部副部長羅伯特-沃克和他的同事發表了一份報告,解釋了未來的戰爭會是什么樣子。他們認為,未來的戰爭將主要由無人駕駛和自主武器等機器人技術來進行。"這種走向機器人時代的主要驅動力是來自商業公司的創新,而不是由政府研究和開發項目資助的軍工綜合體。"雖然這些新技術使眾多民用行業受益,如醫療保健和金融,但軍隊以及恐怖組織越來越依賴它們。2019年9月對沙特阿拉伯能源基礎設施的襲擊就是一個例子,恐怖分子輕松地改裝了少量的無人機,破壞了該國一半的石油和天然氣生產。此外,在過去十年中,使用軍用無人機的主權國家有九十五個,增加了百分之五十八。
從商業角度來看,機器人技術和自主技術的市場已經大大增長。例如,在過去六年中,工業機器人的銷售量每年都在增加,導致全世界的機器人存量超過240萬臺。此外,2018年有1630萬臺服務機器人用于家庭用途,比前一年增加了59%。另一個說明自主技術增長趨勢的例子是自動駕駛汽車。自動駕駛汽車在商業上和軍事上都有很大的前景。用先進的傳感器套件改裝的車輛有可能消除對人類操作員的需求,或通過提高駕駛員的態勢感知來減少人為錯誤。
美國軍方利用人工智能通過致命和非致命的應用來加強國家安全。人工智能的一個非致命性應用是一個名為Maven項目的軟件套件。Maven是國防部的一個人工智能應用,它研究遙控飛機的圖像和視頻資料,目的是改善無人機的打擊。人工智能的致命應用,也被稱為致命自主武器系統(LAWS),不僅被美國軍隊使用,也被世界各地的軍隊使用。本專著將致命性自主武器系統定義為:一旦啟動,就可以在沒有人類操作員進一步干預的情況下選擇和攻擊目標。
LAWS的例子包括以色列國防軍的HARPY導彈。HARPY是一種旨在有選擇地攻擊敵方防空設施的游蕩彈藥。同樣地,美國空軍最近出動了它的第一枚自主巡航導彈--遠程反艦導彈(LRASM)。LRASM的設計是獨特的,因為它可以根據敵方軍艦的圖像識別、紅外、雷達和其他傳感器的特征,自主地探測和攻擊敵方軍艦。
美國國防部(DoD)將人工智能定義為機器執行通常需要人類智能來執行任務的能力,無論是數字還是作為自主物理系統背后的智能軟件。從本質上講,人工智能是一個處理數據以識別模式、學習、建議作戰方案或指導行動的融合系統。與商業行業一樣,軍方認識到人工智能支持的硬件和軟件的好處。
隨著自主武器的發展和使用變得突出,與它們的道德使用和可信度有關的問題將浮出水面。朱莉婭-麥克唐納和杰奎琳-施耐德進行了一項調查,顯示了目前無人駕駛飛行器的信任障礙。他們的調查顯示,聯合終端攻擊控制人員(JTAC)和聯合火力觀察員(JFO)認為無人機 "比有人駕駛的飛機風險更大,更不值得信任"。此外,他們得出結論,在 "人類與敵人直接接觸的領域,部隊不愿意將決策權交給機器"。然而,他們有限的調查確實顯示,當JTAC和JFO對無人駕駛飛機有更多的經驗時,他們更可能傾向于無人駕駛飛機。這一發現表明,經驗可能有助于解決控制人員對無人駕駛飛機的一些信任問題。
前面的例子說明了國防部的采購和企業在開發致命性自主武器系統時遇到的許多挑戰之一。軍方開發的新武器系統要經過廣泛的測試和政策審查。在某些情況下,這一過程需要多年時間才能完成。然而,這一深思熟慮和務實的過程的總體目標是推出一種有能力和強大的武器,使軍事指揮官能夠在戰場上自信地使用。致命武器系統是獨特的,因為它們挑戰了這種傳統的武器采購和部署模式。使致命性自主武器系統的開發更加復雜的是國防部的3000.09號指令。該指令指出,指揮官和作戰人員必須對武力的使用進行適當的人為判斷。指令中沒有明確界定什么是 "適當的判斷水平"。此外,在當前的作戰環境中,對手正專注于爭奪、拒絕和降低通信系統,對適當控制的理解變得更加不明確。
人工智能技術的普遍性及其在整個民用和軍用部門的廣泛增長表明,戰爭的特征正在發生變化。美國的核心政治和軍事戰略文件,國家安全戰略(NSS)和國防戰略(NDS)承認這些技術的重要性,因為他們指示美國優先考慮并保持在新興技術方面的競爭優勢。在未來的沖突中,這些新興技術將很可能超過人類的理解能力。Robert Latiff寫道,時間將更加寶貴,戰斗的純粹速度將給決策帶來壓力。考慮到未來戰爭的這一背景,軍隊應該預期軍事主動權的鐘擺將逐漸從軍事指揮官手中擺開,轉到自主代理人身上。為了在人工智能主導的戰斗空間中做好準備并取得成功,指揮官將需要把任務指揮的一些原則擴展到致命性自主武器系統。
美國在太空的成功以及在這一領域不斷升級的軍事任務,需要在太空和陸地上有一個永久和強大的醫療支持裝置。這項研究試圖回答這個問題:載人軍事空間任務的醫療支持需要如何組織、培訓和裝備,以實現國家安全戰略(NSS)的目標,將空間作為一個安全領域加以推進?假設是有必要建立一個專門針對美國防部空間作戰的醫療支持結構。使用了情景規劃研究方法,并對四種情景進行了比較。這四種模式包括使用目前的空軍醫療服務,目前的NASA醫療支持,兩者的混合,和一個完全獨立的醫療服務。關鍵的發現是,這些設想在很大程度上是基于美國防部選擇如何組織其空間資產。是否使用太空部隊、太空軍團或其他一些變革組織將極大地改變特定醫療支持結構的可行性。此外,與美國宇航局的合作,特別是在美國防部載人航天行動的早期階段,將是至關重要的。此外,美國防部缺乏一個可持續的空間醫學專家的培訓管道。建議包括:在美國空軍航空醫學院(USAFSAM)與德克薩斯大學醫學部(UTMB)合作開發一個培訓管道,利用美國宇航局的醫療支持進行早期的國防部載人任務,包括載人航天任務中的醫生,在可能的情況下提供任務中的醫療支持,并保持對空間醫療支持的靈活性和適應性。
美國國防部(DOD)報告稱,人工智能(AI)是一項革命性的技術,有望改變未來的戰場和美國面臨的威脅的速度。人工智能能力將使機器能夠執行通常需要人類智能的任務,如得出結論和做出預測此外,人工智能機器可以以人類操作員無法企及的速度操縱和改變戰術。由于AI具有廣泛用途的潛力,國防部將其指定為頂級現代化領域,并投入大量精力和資金開發和獲取AI工具和能力,以支持作戰人員。在2022財年,國防部為科學和技術項目申請了147億美元,以及8.74億美元用于直接支持其人工智能努力。根據國防部2018年的人工智能戰略,未能將人工智能能力納入武器系統可能會阻礙戰士保護我們的國家抵御近同行對手的能力其他國家正在這一領域進行大量投資,這可能會削弱美國的軍事技術和作戰優勢。
美國國防部(DOD)正在積極追求人工智能(AI)能力。人工智能指的是旨在復制一系列人類功能,并不斷在分配的任務上做得更好的計算機系統。GAO之前確定了三種AI類型,如下圖所示。
國防部認識到開發和使用人工智能不同于傳統軟件。傳統軟件的編程是根據靜態指令執行任務,而人工智能的編程則是學習如何改進給定的任務。這需要大量的數據集、計算能力和持續監控,以確保功能按預期執行。支持國防部作戰任務的大部分人工智能能力仍在開發中。這些能力主要集中在分析情報,增強武器系統平臺,如不需要人工操作的飛機和艦船,并在戰場上提供建議(如將部隊轉移到哪里)。
當獲取依賴于復雜軟件的新能力時,國防部一直面臨著挑戰,例如長時間的獲取過程和熟練工人的短缺。GAO發現,它繼續面臨這些挑戰,同時還面臨人工智能特有的其他挑戰,包括有可用的數據來訓練人工智能。例如,人工智能探測對手的潛艇需要收集各種潛艇的圖像,并標記它們,這樣人工智能就可以學會自己識別。國防部還面臨著將訓練有素的人工智能集成到非為其設計的現有武器系統中的困難,以及在其人員中建立對人工智能的信任。國防部發起了一系列努力,如為人工智能和人工智能特定培訓建立一個跨服務的數字平臺,以應對這些挑戰,并支持其對人工智能的追求,但現在評估有效性還為時過早