本技術說明對選定的軍事技術及其在2050年的地面戰爭中的應用進行了簡要的技術預測。本文件是一篇呈現作者觀點的思考文章,旨在激發討論和對軍事技術未來方向的持續探索。本技術說明重溫了早期美國陸軍研究實驗室2015年報告《2050年戰術地面戰場的可視化》中的觀點。它還闡述了一些出版物的背景,在這些出版物中,作者調查了在未來戰場上運作的未來自主智能代理和機器人的可能特征和能力。
美陸軍目前為準備大規模地面作戰行動(LSGCO)而進行的現代化和轉型工作,部分是由于回到了一個同行競爭的時期。這個新時期與越戰后的時期并不一樣,當時陸軍利用其發展的空地戰條令和五大武器系統的實戰化,因為需要將重點從反叛亂轉向常規戰爭以對抗蘇聯的常規優勢,主要是在歐洲。20世紀80年代的空地戰條令也可以被看作是陸軍試圖重新獲得機動戰所需的密切的空地協調。這種密切協調是在第一次世界大戰期間獲得的,并一直持續到第二次世界大戰。 在美國空軍獨立和戰略轟炸作為美國國防的靈丹妙藥崛起之后,這種協調已經減弱。但陸軍的空地戰條令取決于與空軍達成的一系列協議,從未成為官方的聯合條令。
美陸軍最初的多域作戰概念本質上是信息時代對空地戰的一種模擬。最初的陸軍-海軍陸戰隊多域作戰白皮書指出,雖然空地戰主要集中在兩個領域,但現代作戰環境需要新的概念,以便在所有領域內以協調一致的方式進行戰斗。今天,美國在空中、陸地、海洋和空間等物理領域,以及網絡空間、電磁波譜、信息環境和認知層面等抽象領域與對手對抗。因此,美國部隊必須發展他們的組織、訓練、裝備和姿態,以阻止并在必要時擊敗潛在的對手。
美空軍陸戰隊有可能是進行組織變革的一個很好例子,而且今天也確實存在相似之處。但是,空地戰應該被放在背景中來看,它不應該是唯一的歷史制高點。正如布萊恩-林恩(Brian Linn)所說,陸軍的錯誤比正確的多,部分原因是應用了狹隘的、矛盾的和邏輯上可疑的思想。 為了避免這種陷阱,我們必須審視我們的失敗和成功。康拉德-克雷恩在2017年8月的一篇《巖石上的戰爭》文章中明確表示,他認為任務指揮和多域作戰不能混為一談,因為任務指揮中明顯受到鼓勵的 "有紀律的不服從 "與 "面對有能力的近戰對手所需的同步性 "之間存在矛盾。美國遠征軍(AEF)在第一次世界大戰中的經驗提供了一個相關的歷史例子,說明士兵們由于沒有能力為未來戰爭的要求做好準備和預測而付出的代價。
美國方面的不準備表現在許多方面,但特別相關的是美國空軍在條令、領導、組織和訓練方面的不足,這部分是由于不了解戰爭性質的變化,以及不能發展和使用聯合武器的條令。但是,盡管美國在第一次世界大戰中的作戰行動持續時間很短,這場戰爭為發展和整合美國的空中能力提供了一種引人注目的緊迫感。隨著空間和網絡等新領域的出現,我們目前缺乏同樣的緊迫感。此外,我們可以在新的美國網絡司令部和美國太空部隊中看到新組織尋求從更傳統的司令部和部門中獲得機構自主權的正常愿望。
2018年12月,美國陸軍訓練與條令司令部(TRADOC)公布了《2028年多域作戰中的美國陸軍》作為陸軍的作戰概念。這一概念旨在作為轉變陸軍條令的基礎,以應對21世紀戰爭的挑戰。該概念擴展了之前在《多域作戰》中解釋的觀點。闡述了陸軍如何為《國防戰略》非保密版本中定義的聯合部隊主要任務做出貢獻。 盡管現今的美國陸軍并不像AEF那樣處于劣勢,但陸軍正在改變,以應對不斷變化的戰爭特征以及由此帶來的向其他領域的擴展。由于任務指揮方法將是支撐陸軍反應的關鍵,因此分析多域作戰(MDO)概念及其對任務指揮的影響將是必要的。
多域作戰既需要一個更加立體的描述,也需要一個更加強調作戰信息環境(OIE)的框架。這些要求將是重要的,因為像戰略和特種作戰司令部一樣,空間和網絡部隊和司令部將具有全球影響,包括直接攻擊對手本土的能力,因此不能由擁有前沿地理責任區的作戰司令官完全控制。但同樣是這些前沿作戰指揮官可能需要新的授權,以改進在其指定邊界內開展更傳統的認知活動(如欺騙和心理行動)以及聯合電磁頻譜行動(包括電子戰)。此外,美國北方司令部將繼續負責協調大陸本土防御的所有方面(見圖3-5)。
圖3-5. 信息環境框架中的多域作戰
新興的聯合條令解決了在全球和戰區層面上跨越競爭連續性的戰役挑戰。在這種情況下,作戰指揮部在沖突的連續過程中不斷進行戰役,以實現國家戰略目標。MDO的概念通過關注三種戰役活動來解決跨競爭連續體的戰役問題:低于武裝沖突的競爭,武裝沖突,以及回到低于武裝沖突的競爭(見圖3-6)。
圖3-6. 多域作戰:解決整個競爭的連續問題
如上所述,陸軍必須在所有領域和環境中運作,因為它提供了四個戰略角色:塑造、預防、在LSGCO中獲勝和鞏固成果。為了實現這些作用,陸軍必須為OPE和OIE提供能力。但是,在低于武裝沖突的合作與競爭期間以及恢復競爭期間,OIE可能代表主要活動,而OPE則發揮輔助作用。在更傳統的武裝沖突期間,這些關系可能會顛倒過來,OPE官網成為主要活動,而OIE則是輔助活動。
MDO的內在含義是承認其他部門、機構和國家也會提供部隊和能力。已經超越了聯合作戰的范疇,而是越來越多的聯合、機構間和多國在多個領域作戰。啟用MDO將要求任務指揮部的指揮和控制方法從獨立行動轉向協同行動,并在適當情況下轉向相互依賴的行動。實現必要的協同和協調將需要改變思維方式,從縱向關注接受和單方面完成上級指揮官的任務轉變為關注與我們的橫向任務伙伴更緊密地合作。這種轉變必須體現在提高互操作性和全面的團隊方法上。這項任務是聯合指揮官所面臨的最重要的任務之一,而且由于戰略環境的原因,這項任務從一開始就需要正確執行。這項任務是有風險的,因為任務的成功將依賴于對陸軍指揮官不擁有或控制的能力的更多依賴。指揮官必須愿意接受這種相互依賴的需要。這些考慮需要仔細檢查我們的指揮和控制系統的結構,以確定必須做出的改變,以促進支持MDO的任務指揮。
(本文由國家情報委員會的戰略未來小組與外部專家和情報界分析師協商后制作,以幫助為 2021 年 3 月發布的綜合全球趨勢產品提供信息。但是,該分析并不反映美國政府的官方政策、廣度情報來源,或美國情報界的全方位觀點。)
在未來20年里,軍事沖突很可能是由歷史上引發戰爭的相同因素驅動的--從資源保護、經濟差距、意識形態差異到追求權力和影響力--但隨著新技術、應用和理論的出現以及更多行為體獲得這些能力,發動戰爭的方式將發生變化。改進的傳感器、自動化和人工智能(AI)與高超音速技術和其他先進技術的結合,將產生更準確、連接更好、速度更快、射程更遠和更具破壞性的武器,主要供最先進的軍隊使用,但一些較小的國家和非國家行為者也可以獲得。隨著時間的推移,這些系統的擴散和傳播將使更多的資產變得脆弱,加劇升級的風險,并使戰斗可能更加致命,盡管不一定更具有決定性。
本評估主要關注未來20年內可能發生的戰爭和戰斗方式的變化,包括技術、理論和行為者。它沒有詳細討論未來沖突背后的潛在原因或動機,也沒有試圖預測戰爭的每一個潛在發展。
到2040年,一系列潛在的革命性技術和新用途可能會改變戰爭的特征。我們在戰爭的三個不同方面考慮這些潛在的變化:硬件(武器系統和新技術本身)、軟件(理論、訓練和使用這些新技術的方式)和用戶(使用這些武器和理論的國家或非國家行為者)。對于戰爭的未來,新技術的應用和組合與技術本身一樣重要。
例如,在1919年,不難預測飛機、航空母艦、坦克和潛艇--所有這些都在第一次世界大戰中出現過--將在下一場大戰中使用。各個交戰國--每個國家都有自己的軍事經驗、觀念和傳統--將以何種不同的方式使用它們,以及哪些技術將戰勝其他技術,是真正的問題,也是最難預測的問題。今天的情況也是如此。
在未來的20年里,新的和正在出現的技術可以在四個廣泛的領域改變并可能徹底改變戰場:連接性、致命性、自主性和可持續性。
連接性:戰斗人員探測和定位其對手、相互溝通和指導行動的方式。
致命性:新的武器和武器系統可以在戰場上造成的損害。
自主性:機器人和人工智能可以改變誰(或什么)戰斗和決策的方式。
可持續性:軍隊供應和支持其部署部隊的方式。
未來的戰爭可能會減少對火力的關注,而更多地關注信息的力量以及通過指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)概念連接軍隊的方式。與以往任何時候相比,優勢將在于哪一方能夠收集最重要的信息,準確和快速地分析它,然后迅速和安全地將信息和相關指令傳播給部隊。
更加廉價的傳感器和大數據分析的結合表明,到2040年,在實時檢測和處理信息方面可能會出現一場革命。世界上許多國家的軍隊認識到這一潛力,并已在努力利用信息的力量來擴大其作戰戰略和能力。他們正在探索新興技術,包括但不限于人工智能,如何能夠迎來一個持續監視的時代并改善他們的決策。
在那些希望隱藏其活動的人--無論是在戰術、作戰還是戰略層面的戰爭--與那些尋求識別和跟蹤他們的人之間的較量中,到2040年,平衡可能會轉向 "尋求者",因為日益先進和可獲得的技術為他們提供了持續的全球監視能力。
例如,在海底領域,更多的、改進的和相對便宜的傳感器與商業化處理能力的進步相結合,可以使潛艇--被認為是世界上第一個隱形技術--更容易被發現。
這種信息優勢和實現這種優勢的技術也可能成為未來沖突中對手的重要目標。連通性越是被視為一方的決定性優勢,另一方就越會尋求破壞、降低和禁用高度連接的、依賴信息的系統。
這種努力可能集中在戰術層面,使用先進或傳統的武器來消除關鍵的基礎設施和節點,或通過更微妙的--可能更具破壞性的--先進手段,如網絡或電子戰來改變GPS信號以誤導對手的平臺和智能武器,這種技術被稱為 "欺騙"。在更大的戰略層面上,網絡攻擊和電子戰可能被用來破壞軍隊的整體C4ISR基礎設施,以混淆或凍結決策,大大削弱其戰斗能力。
現代軍隊特別容易受到任何精確導航的損失,包括全球定位系統及其同等產品。例如,在2010年,一個軟件故障使多達10,000個軍用GPS接收器暫時失效,影響了美國海軍的X-47B原型無人機等系統。
依靠天基基礎設施的C4ISR或其他系統,如GPS,可能會因動能--甚至可能是定向能--反衛星武器系統的進步而面臨進一步的風險,無論是基于地面的還是空間本身的。
圖 連接戰爭:GPS 欺騙誤導平臺
一旦通過多樣化的監視技術找到了對手的部隊,就可以用越來越先進的武器來對付他們。武器裝備中最重要的、正在進行的趨勢之一是高速、遠程、增強的破壞潛力和精確性的日益結合。到2040年,通過在大多數武器系統中整合衛星提供的圖像和定位、定時和導航信息,精確度將進一步提高。這種進步將有可能改善能夠跨越大陸進行打擊的系統,以及更多的戰術武器,如制導火箭、炮彈和迫擊炮彈。
到2040年,此類系統的數量和精度不斷增加,特別是彈道導彈和巡航導彈系統,將對總部、通信設施、機場、后勤基礎設施和其他關鍵目標構成重大威脅。
遠程精確打擊武器庫存可能包括越來越多的高超音速系統,它們可以以前所未有的機動性和速度打擊遠距離目標。這些系統將給那些試圖開發能夠探測、跟蹤和攔截這種快速移動和機動武器的反措施的人帶來艱巨的挑戰。
盡管尚未在戰斗中得到證實,但定向能武器--包括激光和高功率微波--可能成為2040年戰場的特征。遠程精確打擊武器,如高超音速武器,有可能徹底改變進攻,而定向能武器可以徹底改變防御,例如,提供一種有效的手段來對抗高超音速武器的高速和可操作性。如果能夠克服部署此類武器系統的挑戰,包括能源消耗和補充,那么能量武器以光速發射的每一發子彈的成本幾乎可以降至零,而理論上其射速可以超過任何機械系統。
圖 高超音速滑翔機軌跡和彈道軌跡
無人駕駛系統。無人機已經是全世界戰場上公認的--甚至是假定的--作戰工具。未來20年可能會看到大量其他無人駕駛飛行器的開發和部署,從地面飛行器到海基地面和地下平臺。這些飛行器是執行平凡的、重復性活動的理想選擇,如為載人平臺執行補給任務,以及執行危險任務,如偵察敵人的掩體和據點,鋪設或清除陸基和海基水雷,或搜索潛艇。
致命的自主武器。隨著自主技術的發展,一些國家可能不擔心人類會在發射決策中出現問題。因此,到2040年,盡管有相關的倫理和法律挑戰,真正的自主致命武器可能會在戰場上游蕩,并做出自己的目標和交戰決定。
蜂群。所有類型的無人駕駛系統正在迅速變得更多、更有能力和更便宜。已經觀察到小型無人機群的攻擊--例如,當美國特種部隊在2016年秋天為從ISIS手中奪回伊拉克城市摩蘇爾而戰斗時,他們受到了至少十幾架武裝無人機的攻擊,它們投放了手榴彈和簡易爆炸物。然而,蜂群的力量不僅僅是數量--無人駕駛車輛的蜂群可以相互溝通,并隨著情況的變化調整其戰術和目標。
圖 在伊拉克的一次訓練演習中,一個Talon 3B機器人正在接近一枚殺傷地雷。
這些自主系統的發展和不斷發展的能力與人工智能的進步密切相關。人工智能已經被用來提高各種現有武器系統的性能,如精確彈頭中的目標識別,并可在人機合作中用于支持人類,包括決策工具,或作為決策引擎本身。到2040年,源于人工智能的軍事決策可能會在實時支持行動中納入可用的天基數據。
例如,中國正在積極尋求將人工智能用于廣泛的應用,包括信息和數據分析;用于兵棋推演、模擬和訓練;以及用于指揮決策。俄羅斯總統弗拉基米爾-普京在2017年說,引領人工智能發展的國家將 "成為世界的統治者"。
然而,人工智能面臨著技術障礙和缺陷,它必須克服這些障礙和缺陷,以滿足其在戰場上的全部潛力。人工智能和支撐它的機器學習算法在界限分明的任務中表現出色,但如果面對混亂或意外的輸入,就會出錯。例如,可以想象這樣的情景:在動態的、往往是混亂的戰斗環境中,由人工智能驅動的致命自主武器被輸入所淹沒,要么關閉,要么游離,甚至開始瞄準友軍。
最后,其他新技術,特別是機器人技術、增材制造、生物技術和能源技術,可能會大大改善軍事后勤和維持。
無人車可用于后勤支持,在后方基地和部署在戰場上的部隊之間進行相對平凡但往往危險的供應。
增材制造能力--如使用包括先進金屬或陶瓷在內的新材料進行3-D打印--有可能通過廉價、快速和在需要的地方生產供應品、零件和可能的設備來徹底改變軍事后勤。
生物技術可以提高士兵個人在戰場上的戰斗力和生存能力。士兵們可能會使用他們身上或體內的醫療設備來監測他們的身體狀況,并且隨著戰場的進展,使用設備來診斷健康問題或傷害,并注射藥物--甚至在戰斗中。
新能源技術--如小型核反應堆,或高密度電力儲存--可以通過減少操作前沿部署的設施和設備所需的燃料數量,或作為未來定向能源武器的動力源,對后勤和武器系統產生同樣的變革性影響。
圖 2020 年 5 月對安裝在波特蘭號航空母艦 (LPD 27) 上的激光武器系統進行的測試。據美國海軍稱,該系統成功地禁用了用作目標的無人機。
定向能武器:威力強大,但依賴于能量:激光和其他定向能武器(DEWs),以及正在開發的軌道炮,都依賴電能來運作。因此,定向能武器的一個潛在缺點是,如果它們被剝奪了電源,例如在戰斗中遭到破壞,它們就會變得無法使用。
在戰場上使用新武器和新技術的方式將與技術本身一樣重要,特別是在確定軍事突破是真正的革命還是僅僅是當今軍事藝術的先進版本方面。正如第一次和第二次世界大戰前對新的和未經試驗的理論概念進行辯論一樣,世界各地的軍隊正在努力開發如何使用這些新的戰爭工具的理論("軟件")--有些是以新穎的方式,但有些則更多地反映了從今天的戰術和戰略的演變。至少有四種相互獨立但并不相互排斥的設想,即行為者在未來幾年內如何使用新武器和技術。
作為毀滅性的開場炮,高超音速武器,也許與更多的先進常規導彈相結合,可以在防御者能夠做出任何形式的反應之前,幾乎同時打擊對手的軍事和民用基礎設施。由于這種武器的射程和精度,攻擊者很可能不必事先廣泛部署部隊,從而限制了對手的指標和警告。
雖然一些新技術似乎有利于進攻或遠征戰爭,但某些其他新技術似乎為防御提供了更多的幫助,特別是對于專注于確保其國土安全的小國。例如,今天的無人駕駛系統通常需要大型和昂貴的機身,以容納必要的發動機和燃料箱,以便在遠離其基地的地方運行或在外國或敵對領土上長時間徘徊。然而,如果目標是保持對局勢的了解,并保衛一個國家的領空、海洋主張或本土領土,那么大量小型和廉價的無人駕駛系統可能同樣有效。
高速和高度精確的致命武器的擴散將使昂貴的、高價值的、難以快速替換的平臺和武器系統的生存能力受到質疑。一個潛在的緩解策略可能是進一步發展和實施分布式部隊和行動。
精確的地理位置、高保真戰場感知、即時通信和對抗性武器的結合意味著,到2040年,軍隊可能不再需要在時間和空間上集結部隊,達到歷史上或傳統上認為必要的程度來實現其目標。
然而,有一種風險是,如果促進分布式戰爭所需的任何關鍵使能器--特別是通信--被敵對行動破壞、擾亂或摧毀,那么軍隊的整體作戰系統可能從一個相互聯系的、有凝聚力的網絡演變成一個無法進行有效作戰行動的斷裂的馬賽克。
各國可能會越來越多地在 "灰色地帶 "進行競爭,除其他外,還使用非官方或看似可否認的代理人,包括私營軍事公司(PMC)。盡管使用代理人并不是一個全新的現象--冷戰時期美國和蘇聯之間的競爭大多涉及代理人沖突、可否認的部隊和假情報運動--但日益緊密聯系的環境正在改變一些工具和技術。
最終,新技術的選擇和作戰概念的發展可能取決于各個行為體獨特的威脅意識、實力和脆弱性。潛在的行為者包括從大國和地區大國到非國家行為者,如PMCs和叛亂及恐怖組織。國家和組織文化以及內部動態可能會在不同行為體如何采用和使用新技術方面發揮作用。這些行為體在多大程度上鼓勵主動性和創新,或在其他方面對變化持開放態度,可能會決定他們能否成功掌握新技術和理論的全部潛力。
一些先進的或新興的技術--如高超音速技術--可能仍然屬于大國和較富裕的國家行為者的范圍,但相對較低的國家和非國家行為者可以利用成本較低和更廣泛的自動化系統和網絡工具來實現高影響甚至是戰略層面的效果。較小的國家或正在崛起的國家可能更具創新性,因為它們冒險的損失較小,受遺留系統的負擔較輕,有時可以通過跳過幾代人的發展或投資于新的和未經測試的軍事或商業技術來跨越式發展。
2019年,伊朗利用武裝無人機和巡航導彈對沙特阿拉伯的石油生產設施進行了一次協調的遠程打擊,展示了創造性地將不同的技術和工藝編織在一起的能力--這次攻擊短暫地關閉了全球5%以上的石油生產,導致油價飆升。
私營軍事公司,特別是那些在某個大國要求下運作并有可能獲得最佳技術的公司,也有可能將先進的武器和監視設備納入其行動中。由于不受國家軍隊的官僚主義、理論和傳統的約束,私營軍事公司有可能在確定新的和創新的方法,在戰場上應用日益先進的技術方面發揮領導作用。
叛亂和恐怖組織可能會試圖進一步利用先進技術,因為這些技術變得越來越便宜和容易獲得。現在,潛在的恐怖分子很容易建造或購買無人機,并將其改裝為攜帶幾磅炸藥。
在歷史上,新的作戰技術不斷涌現,往往大受好評,但只對戰場產生了有限的影響,而其他技術--如火藥--則繼續產生了深遠的影響。準確地確定哪些以及在多大程度上新技術和工藝將對未來戰爭的特點產生最大的影響是眾所周知的困難。然而,已經在戰場上出現的或即將出現的先進能力,指出了一些趨勢和對2040年的戰爭與和平的潛在影響。
許多可能在未來20年內被開發和部署的先進系統代表著擴散的威脅。在持續的技術變革和擴散的速度下,許多與軍事相關的技術可能會變得更容易獲得,并且對國家和非國家行為者來說都很普遍。
例如,空間技術和服務在本質上是雙重用途的,這意味著先進的、基于空間的服務--如高分辨率圖像--將可用于軍事應用以及民用政府和商業使用。
技術的擴散和相對較低的成本已經為網絡空間的沖突創造了一個特別低的障礙,使小國家或團體能夠在沒有昂貴的武器系統和人員的情況下實現戰略效果。低成本的網絡空間能力的應用也可以為打擊依賴技術的國家或組織提供一個優勢。
鑒于技術的傳播和商業行業在新的應用和系統開發中發揮的核心作用,有可能想象一種動態的融合,即出現一種新的私營軍事公司,提供最先進的軍事能力--如機器人武器和由雇傭軍操作的平臺--以獲得報酬。這可以使較小的軍事強國避免發展現代軍事和培訓熟練人員的費用。
遠程精確打擊能力意味著曾經因為距離而被認為相對安全的地區將變得越來越脆弱,包括機場、集結區、指揮和控制中心。各國還可能面臨不受地域限制的、針對關鍵基礎設施的協同網絡攻擊,以擾亂部隊行動,在平民中造成混亂,并削弱公眾對軍事行動的決心。
先進武器系統的日益普及以及混合戰爭和非動能戰爭的不斷使用,可能會進一步挑戰長期以來對國家間威懾的理解,可能會有意外升級為國家間直接沖突的風險。
如果高超音速和其他先進的精確打擊武器被證明像傳統智慧所認為的那樣有效和難以防御,這些系統可能成為理想的第一打擊武器。如果局勢高度緊張,領導人可能會感到有壓力,因為害怕在對手的第一次打擊中失去他們先進的高超音速武器和其他武器庫。
增加灰色地帶的活動,即使是為了避免全面的軍事對抗,也會帶來另一個風險變量,特別是隨著時間的推移,能力的增長。在對抗中,任何一方都不可能完全確定對方會如何反應,例如,當國家支持的私人軍事承包商在戰斗中被殺,或網絡攻擊破壞了關鍵的基礎設施或破壞了選舉。從本質上講,使用這些方法的前提是對方不會尋求升級。
涉及大國或中等國家的未來沖突從一開始就可能是異常激烈的,但也是曠日持久的,沒有結果的。幾個世紀以來,對手發動戰爭,認為他們有一些優勢,可以使他們迅速和決定性地獲勝。有時他們是正確的,但在其他情況下,那些認為自己擁有贏得戰爭的技術或軍事戰略的領導人卻證明是錯誤的。隨著各種各樣新的但尚未嘗試過的作戰技術和概念的出現,這種動態可能會在未來20年內繼續重復。
作為歷史對比,日本在1941年對珍珠港的攻擊使美國海軍的太平洋戰艦艦隊癱瘓,并殺死了2400多名美國人。在未來,先進和日益致命的武器可以達到類似的影響,并在沖突開始的幾分鐘內對一個國家的武裝力量造成類似的傷亡。
這種破壞的速度和規模可能導致任何在未來沖突中遭受類似損失的國家因喪失軍事能力和信心、對傷亡的震驚或破壞其戰斗意志的組合而認輸或退出戰斗。然而,這種明顯的決定性損失有可能激勵一個國家繼續戰斗,而不顧流血和財富的代價,就像珍珠港事件后的美國一樣。這種情況也可能迫使一個國家采用新的武器技術或新的戰爭方法,否則它可能不會考慮去試圖擊敗對手。
美國防部第5100.01號指令要求美陸軍 "進行空中和導彈防御,以支持聯合戰役并協助實現空中優勢"。FM3-01描述了美陸軍專門的AMD部門--ADA對AMD行動的計劃、協調和執行的貢獻,以支持大規模作戰行動中的聯合和陸軍部隊。
防空和導彈防御是直接(主動和被動)的防御行動,以摧毀、消除或降低敵對的空中和彈道導彈對友軍和資產的威脅(JP 3-01)。它包括在陸地、空中、海上以及網絡空間和太空中可能采取的行動。反彈道導彈行動是擊敗空中和導彈威脅的防衛性反空結構的一個關鍵因素。在整個防空框架內,AMD行動通常與其他進攻性和防御性的防空任務相結合。雖然本手冊涉及進攻性反空和被動反空的各個方面,但它側重于主動反空戰術和程序。
FM3-01涉及到今天的作戰環境,它所設想的對美陸軍和聯合部隊的威脅是這些部隊在25年內沒有遇到過的。在這種環境下,反坦克部隊必須適應并準備在一個高度競爭的空域中進行大規模作戰行動。FM3-01為反坦克部隊提供了一個應對未來沖突的理論方法,解釋了反坦克部隊的梯隊如何為陸軍的四個戰略角色做出貢獻:塑造作戰環境、預防沖突、進行大規模地面作戰和鞏固成果。
這個FM3-01版本是以ADA梯隊為單位組織的,而不像以前的版本是以ADA系統的角度來介紹。它介紹了從陸軍航空和導彈防御司令部(AAMDC)到防空空域管理(ADAM)單元的ADA梯隊的作用、功能、基本原則和就業宗旨。它進一步描述了ADA梯隊在當前或近期行動中的AMD部隊行動和交戰行動,并討論了這些行動的持續挑戰。
這個版本引入并定義了新的AMD術語。它還定義了在其他AMD理論出版物中反復使用但從未定義的舊術語。
FM3-01由12章組成:
第1章提供了美陸軍AMD的概述。它介紹了一個新的ADA角色聲明,并確定了五個關鍵的ADA基本能力。它介紹了AMD的基本原則和就業宗旨。它總結了支持聯合和統一陸地行動的ADA行動。第1章重新介紹了短程防空(SHORAD),這是保護機動部隊的一個關鍵因素。本章最后討論了ADA士兵和領導人的培訓。本章中提出了大量的定義和術語的擴展解釋,以方便理解適用于所有ADA梯隊的AMD行動和語言。
第2章從AMD的角度討論了美陸軍行動過程。AMD部隊行動一般包括支持空中和導彈威脅的交戰所需的計劃和準備行動。AMD交戰行動包括執行和評估交戰的所有行動。
第3章涉及作戰環境,重點是空中和導彈威脅,從火箭、火炮、迫擊炮到洲際和潛射彈道導彈,以及它們的通用能力。它還涉及美國部隊可能面臨的來自太空和網絡空間威脅的挑戰。
第4章描述了任務指揮以及與陸軍AMD相關的指揮與控制(C2)。它通過AMD的視角討論了任務指揮的原則。它還介紹了適用的權力和C2要素,以及在進行交戰時的駐地。
第5章至第10章分別討論了AMD作戰框架以及基礎原則和宗旨在ADA梯隊中的應用,從AAMDC到機動旅編隊的ADAM單元。每一章都介紹了各自梯隊的角色和能力、組成和行動--在C2、部隊行動、交戰行動和維持行動方面。
第11章描述了非AMD陸軍部隊對執行AMD行動的貢獻。它總結了C2、計劃和使用以及與空中和火箭彈、大炮和迫擊炮(RAM)威脅有關的交戰考慮。它介紹了關于機動部隊 "毒刺 "小組的使用的理論和行動信息。
第12章概述了ADA數據和通信架構以及美陸軍、聯合和多國AMD要素之間的聯系。
附錄A和B分別介紹了美陸軍AMD戰略組織和系統以及ADA系統(那些通常支持作戰和戰術層面的系統)。
根據目前的理論變化,FM3-01的某些術語被添加、修改或廢除。這些術語的清單在第9頁的引言表1和2中提出。詞匯表包含了所定義的術語。
第x頁的引言圖-1說明了FM3-01的邏輯圖。第x頁的引言圖-2說明了ADA理論出版物的層次結構。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置,適合于基礎研究,以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配。
美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。
要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識,抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模,會產生一些不確定的特征,如表面壓力分布和熱通量,這對飛行器技術,包括穩定性、控制和熱負荷管理,都有負面影響。
幸運的是,有一個先例,即通過定義政府基準飛行器來促進全社會的科學討論,這些飛行器包含功能相關的工件,但對具體的發展計劃不敏感(見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究)。本報告的目標是定義一個典型的、與軍隊相關的配置,適合于基礎研究,以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。
美國陸軍未來與概念中心 未來戰爭部主任 克里斯-羅杰斯上校
歷史上的戰爭包含了大量改變戰爭性質的工具和技術的例子。自最初研究多域作戰(MDO)以來,美國陸軍發現人工智能是一種新興技術,有可能改變戰爭的特點,也許也會改變戰爭的性質。使用人工智能(AI)解決方案來緩解軍事問題是過去兩年未來戰爭研究、檢查和學習的一個反復出現的主題。作為2019年未來研究計劃的一部分,我們與陸軍、聯合、多國、學術和科技組織合作,探索和了解人工智能對多軍種的影響,并為未來的研究和發展制定一個操作框架。
多域作戰的人工智能運作最終報告提供了采用人工智能的組織框架,以幫助陸軍和聯合部隊更好地定義所需的能力以及相關的數據和網絡架構,以實現多域能力部隊。描述聯合部隊如何采用人工智能解決方案,為了解人工智能在時間和空間上對多域作戰的影響提供了一個操作說明。本報告確定并解決了與人工智能相關的好處、機會和挑戰,為進一步分析提供了基礎。諸如人工智能等新興技術使陸軍不僅可以改進當前的戰術、技術和程序,而且可以創造新的運用和融合能力的方法。
該報告支持美國陸軍人工智能任務組,該組織負責制定陸軍的人工智能戰略和政策。本文通過描述部隊如何在整個MDO框架內采用人工智能解決方案和相關技術,啟動了陸軍的人工智能運用工作。這份報告使概念發展團體能夠修改陸軍功能概念和戰場發展計劃。它為能力發展團體提供了作戰視角和部隊在確定所需能力時必須考慮的技術影響。此外,該報告還為作戰概念文件或基于能力的評估提供了開發情景或小插曲的基礎。該文件為科學和技術界提供了行動背景,以便為人工智能研究、開發、建模和模擬提供信息和指導。最后,它支持制定一個在未來使用人工智能的全面愿景,以告知陸軍現代化的努力,這將創造有能力的MDO部隊,準備好與任何對手作戰并取得勝利。
人工智能(AI)是未來聯合部隊實現多域作戰(MDO)全部潛力的基礎。人工智能系統提供了跨越領域、電磁頻譜和信息環境戰勝對手的能力。在競爭中使用這些系統使聯合部隊能夠近乎實時地了解作戰環境,從而更好地運用能力來擊敗旨在破壞區域穩定的威脅行動,阻止暴力升級,并將被拒絕的空間變成有爭議的空間。在從競爭到武裝沖突的過渡中,人工智能的機動、火力以及情報、監視和偵察能力為聯合部隊提供了拒絕敵人奪取優勢地位的能力。改進的維持能力與攻擊敵人的反介入/空中拒止網絡的能力相結合,為美國部隊提供了奪取作戰、戰略和戰術優勢位置的能力。通過由人工智能支持的多領域聯合行動圖(MDCOP)增加了解,使美國部隊有能力協調多領域的效果以創造優勢窗口。
制定人工智能的作戰概念使陸軍能夠更好地理解這些技術對戰爭的性質和特征的潛在影響。描述陸軍如何在未來的作戰環境中使用人工智能,有助于說明其對戰爭的暴力、互動和基本的政治性質的影響,以及戰爭不斷演變的特點。本文提供了一些小插曲(附錄A),說明了人工智能的組織運用,為美國陸軍RAS總體概念、作戰和組織概念、基于編隊的作戰概念以及系統或單個系統的運用概念的潛在發展提供信息。
人工智能的運作影響到未來部隊將如何運作,如何針對對手開展行動,以及指揮官如何利用軍事藝術和科學,運用部隊能力來實現預期效果和目標。在2019年未來研究計劃(FSP19)期間,人工智能工作線(LoE)確定了與實施人工智能支持的多領域解決方案有關的以下問題:
數據管理--AI/ML應用程序依賴于對策劃的數據的訪問,以便發揮作用。陸軍必須培養一種以數據為中心的文化,以標準化的格式和協議有效地生成、存儲和訪問數據。人才管理的努力必須側重于發展、培訓和保留一支精通數據的員工隊伍。這可以通過以下方式實現:
在整個部門培養一種以數據為中心的文化
投資于整個員工隊伍的數據科學培訓
簡化數據訪問
設計和實施協議,以確保數據的可發現、可訪問、可共享和可互操作性
功能分解--狹義的人工智能本質上是有限的,構建算法的數據科學家需要精確的問題定義,準確確定聯合部隊的要求。
可解釋人工智能--人工智能支持的系統需要有能力解釋決策/建議和所采取的行動背后的邏輯。這種解釋 "為什么"的能力是人類對人工智能智能體的信任基礎。
邊緣計算/人工智能--未來的作戰環境與有爭議的電磁頻譜預期要求有能力向前處理極其龐大的數據集,以及能夠自主行動的人工智能平臺。
利用商業部門--美國防部實驗室繼續在人工智能/ML發展方面取得重大進展,特別是與聯邦資助的研究和發展中心合作。商業部門繼續探索和擴大可能適用于軍事應用的工作。
作為FSP19的一部分,人工智能LoE開發了五個小插曲和一個概念草圖(見附錄A),以協助人工智能和機器學習的運作。這些小插曲說明了聯合部隊如何利用人工智能/ML來解決多領域行動所需的關鍵能力。MDCOP概念將依靠幾個有限內存的人工智能來建立和維護描繪整個戰場的藍、紅、綠活動。一個反應式機器人工智能將為特定的指揮官和總部定制MDCOP。合作傳感、維持、攻擊和瞄準的小插曲依靠反應式機器人工智能來優化傳感器覆蓋、維持吞吐量、攻擊順序和射手選擇。
未來部隊需要人工智能來充分實現多領域作戰的潛力。人工智能支持的系統使未來部隊能夠進行信息收集和分析,以便在時間有限和信息競爭的環境中增加對形勢的了解。這種能力使快速、知情和合理的決策成為可能。人工智能的決策支持代理將減輕作戰人員的認知工作量并提高整體效率。由人工智能支持的無人系統將探測、識別和穿透高風險區域,以提高開展行動和保護部隊、人口和資源的能力。人工智能使MDO在與近似對手的沖突規模下實現了作戰速度的要求。
美國缺乏一套專門的人工智能(AI)戰爭的理論。這導致了在戰爭的作戰層面上缺乏對人工智能影響的討論。人工智能的定義通常采用技術視角,不考慮對作戰藝術的影響。提議的作戰藝術的新要素 "抓手(Grip)"解釋了人工智能和人類在兩個方面的基本關系:自主性和角色交換。“抓手”為人工智能戰爭的理論奠定了基礎,除了揭示改變任務指揮理論的必要性外,還提出了作戰的假設。美國空軍陸戰隊的發展以及由此產生的戰爭作戰水平(和作戰藝術)在歷史上有類似的案例,說明關鍵假設如何影響戰場的可視化。去除“人在回路中”的人工智能戰爭的假設,揭示了需要一種新的作戰藝術元素來安排部隊的時間、空間和目的,此外,美國陸軍任務指揮理論需要調整,以使指揮官能夠在各種形式的控制之間移動。
“機器人和人工智能可以從根本上改變戰爭的性質......誰先到達那里,誰就能主宰戰場。”- 美國陸軍部長馬克-埃斯佩爾博士,2018年
預計人工智能(AI)將極大地改變21世紀的戰爭特征。人工智能的潛在應用只受到想象力和公共政策的限制。人工智能擁有縮短決策周期的潛力,超過了人類的理論極限。人工智能也有望執行人類、機器和混合編隊的指揮和控制功能。人工智能在自主武器系統(AWS)中的潛力同樣是無限的:分布式制造、蜂群和小型化的先進傳感器為未來的指揮官創造了大量的配置變化。與圍繞人工智能的技術、倫理和概念問題相關的無數問題,為如何將這項技術整合到戰爭的戰術層面上蒙上了陰影。現代軍隊幾個世紀以來一直在為正確整合進化(和革命)的技術進步而奮斗。美國內戰期間的鐵路技術對 "鐵路頭 "軍隊和格蘭特將軍在維克斯堡戰役中的勝利都有貢獻。25年后,法國人忽視了普魯士的鐵路試驗,給第三帝國帶來了危險,同時也沒能把握住小口徑步槍的優勢。卡爾-馮-克勞塞維茨在《論戰爭》中指出,每個時代都有自己的戰爭和先入為主的觀念。本專著將探討當前的先入為主的觀念和人工智能在戰爭的操作層面的出現。
對作戰層面的討論側重于作戰藝術,以及指揮官和他們的參謀人員如何通過整合目的、方式和手段,以及在時間、空間和目的上安排部隊來發展戰役。在作戰藝術中缺乏以人工智能為主題的討論,增加了不適當地部署裝備和以不充分的理論進行戰斗的風險;實質上是在邦聯的火車上與追兵作戰。美國的政策文件和技術路線圖主要集中在能力發展和道德影響上,而沒有描述一個有凝聚力的人工智能戰爭的理論。但美國和中國在自主行動方面的實驗趨于一致;這引起了沖突的可能性,其特點是越來越多的被授權的人工智能和AWS沒有得到實際理論框架的支持。這個問題導致了幾個問題。美國軍隊的人工智能戰爭理論是什么?大國競爭者的人工智能戰爭理論是什么?有哪些關于顛覆性技術的歷史案例?理論應該如何改變以解釋顛覆性技術?
本專著旨在回答上述問題。它還提出了兩個概念,以使指揮官能夠在戰場上可視化和運用人工智能;一個被暫時稱為 "抓手"的作戰藝術的新元素和一個任務指揮理論的延伸。該論點將分三個主要部分進行闡述。第一節(理論)將證明人工智能需要一個認知工具來在時間、空間和目的上安排部隊,方法是:綜合美國的人工智能戰爭理論,描述中國的人工智能戰爭理論,以及揭示當前文獻中的“抓手”理論。第二節(歷史)是對1973年為應對技術轉變而從主動防御演變而來的空地戰(ALB)的案例研究。第二節將重點討論戰場維度的思想、任務指揮理論的演變以及相關的作戰藝術的正式出現。第三節(新興理論)提出了作戰藝術的新要素,作為一種認知工具,幫助指揮官和參謀部將21世紀的戰場可視化。第三節將把以前的章節整合成一個有凝聚力的模型,讓指揮官和參謀部在時間、空間和目的方面可視化他們與AI和AWS的關系。第三節還將提供一個任務指揮理論的建議擴展,以說明人機互動的情況。
人工智能的復雜性導致了正式的戰爭理論的缺乏;然而,在美國的政策和發展文件中存在著一個初步的美國人工智能戰爭理論。人工智能戰爭理論必須解釋人類和人工智能之間的關系,這樣才能完整。通過作戰藝術和任務指揮的視角來看待人工智能,揭示了自主性和角色互換的兩個頻譜,通過不同的組合創造了人工智能戰爭理論的維度。這些維度,或者說掌握的形式,代表了作戰藝術的一個新元素。同樣,需要將任務指揮理論擴展到一個過程-產出模型中,以實現掌握形式之間的移動。
綜合美國目前的人工智能政策和AWS的發展路線圖,提供了一幅戰略領導人如何看待人工智能的圖景,允許發展一個暫定的戰爭理論。由于缺乏關于武器化人工智能的歷史數據,政策和發展路線圖是必需的,因此本專著中提出的理論是由提煉出來的概念產生的。由于中國的工業和技術基礎的規模,中國被選為對抗模式,預計在10到15年內,中國將超越俄羅斯成為美國最大的戰略競爭對手。
圖文并茂的案例研究方法將被用來分析主動防御和空地戰之間的過渡。該案例研究將整合技術、政策和戰爭理論,以喚起人們對多域作戰(MDO)和人工智能在21世紀戰爭中作用的疑問。第二節的批判性分析側重于理論的發展,而不是其應用。第二節的詳細程度是有限制的,因為它仍然是一個更大(和有限)整體的一部分,因此重點應繼續揭示戰場可視化和認知輔助工具之間的聯系。第三節通過作戰藝術的新元素和任務指揮理論的調整來回答每一節中發現的問題,從而將前幾節連接起來。人工智能缺乏歷史,考慮到人們不能直接分析以前的沖突,以獲得教訓或原則。在這種情況下,任務指揮理論提供了一種間接的方法來理解使人類能夠集中式和分布式指揮和控制功能的機制,以及為什么人工智能缺乏相應的機制會抑制我們感知機會的能力。第三節將把美國現行政策和路線圖中的幾個抓手成分匯總到任務指揮理論提供的框架中。
本專著存在于美國陸軍多域作戰概念的框架內,其理解是解決方案是聯合性質的,因為 "陸軍不能單獨解決問題,概念發展必須在整個聯合部隊中保持一致,清晰的語言很重要。"本專著不能被理解為對MDO中提出的問題的單一解決方案,而是一種幫助實現戰斗力聚合的方法。
關于人工智能的討論充滿了倫理、法律和道德方面的考慮,本專著不會涉及這些方面。本專論的假設是,人工智能的軍事用途在政治上仍然是可行的,而且 "戰略前提 "允許該技術的軍事應用走向成熟。由于運用的變化幾乎是無限的,人工智能的戰術實施將不會被詳細討論,而重點是在作戰層面上的概念整合。一般能力將被限制在與作戰藝術和作戰過程有關的具體趨勢上。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
?在日益復雜的軍事行動環境中,下一代兵棋推演平臺可以減少風險,降低作戰成本,并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能(AI)兵棋推演方法,對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域:由人工智能引導的決策指導,高計算力下的決策過程,以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展,以滿足當今戰斗空間日益增長的規模和復雜性。
關鍵詞:決策、交互、兵棋推演、人工智能、增強/混合現實、可視化
在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并在軍事決策過程(MDMP,方框1)中模擬各種因素的組合如何產生行動方案(COA)、可能的反擊行動、資源使用估計和預測結果(美國陸軍,1997年,2014年,2015年)。在幾天或幾周的時間里,MDMP過程導致了一套精煉的COAs,它對作戰環境做出了一定的假設,包括地形、天氣以及戰區資產的可用性和能力(即塑造支持主要作戰行動的活動)。
方框1. 軍事決策過程(MDMP) | |
---|---|
MDMP是美國陸軍解決問題的理論方法,從接到任務開始,到生成作戰命令結束。MDMP被用作一種工具,幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識(美陸軍,1997年,2015年)。 | |
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中,所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求,包括進行MDMP的可用時間量。確定進行任務分析所需的工具,并收集與任務和作戰區有關的文件。步驟2,執行任務分析,建立對任務的全面理解,包括關鍵的事實和假設,形成擬議的任務說明和任務分析簡報,為制定COA做準備。 | |
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括:第3步,制定COA;第4步,COA分析(兵棋推演);第5步,COA比較;第6步,COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性,如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演,它試圖在考慮到友軍力量和敵人能力的情況下,將行動的順序流程可視化,同時考慮到行動區域內平民的影響和要求(美陸軍,2014)。戰術模擬(兵棋推演)方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程,對作戰行動方案進行評估,然后根據需要進行修改,直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。 | |
在一個具體的行動方案得到指揮部的批準后,MDMP的最后一步是制作行動指令,這是一份給下屬和鄰近單位的指令,旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作,并建立起對局勢的共同理解。 |
盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法,但這個過程有很多局限性,如時間密集、假設僵化、跨場景訓練的機會有限,以及將人工智能(AI)指導納入決策過程的機會很少。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于當今多域作戰(MDO)的復雜性增加(Feickert,2021年),有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏,可能會導致不同步和不協調的行動,從而最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,集成了先進可視化能力的新系統和新技術已經被開發出來,它們可以提高態勢感知,從而增強決策過程。美陸軍的例子包括Nett Warrior(Gilmore,2015),它使下馬戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺(BVI,前身為增強現實沙盤,ARES)是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力(Su等人,2021)。BVI架構的制定是為了拉入外部計算服務,如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI,包括用于加強決策支持的人工智能。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架(APF)(Bailey,2017)開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具,在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。
提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊(OneSAF),為計算機生成的地面部隊提供建模和模擬能力(PEO_STRI, 2022)。OneSAF提供了半自動和全自動的軍事實體(即士兵、坦克、直升機和綜合單位)的建模,在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練,并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而,OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制,而且眾所周知,士兵需要大量的培訓來學習如何操作模擬,使用起來很困難(Ballanco,2019)。OneSAF的復雜功能并不適合開發人工智能能力,以實現快速和敏捷的戰士-機器決策。
除了MDMP和上面提到的陸軍平臺外,最近將人工智能納入決策過程的工作包括一些方法(Goecks等人,2021a),在模擬人類決策過程方面取得了一些成功。一般來說,人工智能在決策變量有限的問題上取得了一些成功,如資源分配(Surdu等人,1999)、飛行模擬器(Drubin,2020)和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力,以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。
以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域,并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口(WMI)的發展方向,重點是與決策有關的人-人工智能團隊的跨學科研究。
軍事決策過程在支持MDO復雜決策方面的局限性,突出了在三個研究領域的改進需要。首先,有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃,也包括進一步改善人工智能決策過程的可解釋性和透明度(Chen等人,2018)。第二,有必要在戰略層面以及戰術邊緣,盡可能地將決策分析與高性能計算(HPC)的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何相互作用的,并利用混合現實技術來提高理解的吞吐量,并產生平面顯示不可能的洞察力。
除了MDMP之外,其他更廣泛適用的支持戰斗性問題解決的軍事理論包括:DOTMLPF[例如,學說、組織、訓練、物資、領導、人員和設施;(美陸軍,2018年)],這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架;以及METT-TC[例如,任務、敵人、地形和天氣、部隊、可用時間和民事考慮;(美陸軍,2019年)],這是一個結構化框架,用于捕捉任務相關因素的狀態,以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景,構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示,在為人類和人工智能指揮開發復雜軍事決策空間的新表述時,研究進展和MDO相關理論相互借鑒、相互啟發、相互加強(美陸軍,2010)。
圖1. 新型作戰人員-機器交互(WMIs)和人工智能輔助決策所需的三個研究發展領域,以支持和加強基本的MDO理論[右下圖來源:Lebsack(2021)]。
需要新的人工智能支持的WMI,以利用人工智能決策方面正在取得的進展,并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步,也是將人工智能納入更成熟的戰斗空間平臺(即BVI、OneSAF)的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。
圖2. 兩個ARL人工智能測試平臺的例子。左邊:ARL Battlespace(Hare等人,2021)( //github.com/USArmyResearchLab/ARL_Battlespace )。右邊:ARL的Simple Yeho測試平臺。圖片由C. Hung制作。
人工智能測試平臺能夠開發出匯集所有領域信息的AI,并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺(Hare等人,2021年),它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則,在這種情況下,用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理,有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺,它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力,有多個基于地形的海拔高度、視線范圍、障礙物、樹葉(隱蔽)、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合,包括DOTMLPF和METT-TC,并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。
使用漸進式和可擴展的人工智能測試平臺,可以調查現有人工智能的幾個基本限制,特別是對于具有不確定性的復雜和適應性決策,以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜,因為其遞歸性質,其他智能體是模型的一部分(Goldman,1973;Grüning和Krueger,2021),需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,并幫助人工智能發現決策的隱含規則。下面,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功(Silver等人,2017;Goecks等人,2021b;Haliem等人,2021)是基于對世界現有狀態有完整了解的游戲(即 "開放 "游戲),而兵棋推演平臺通常包括關于作戰環境的不完整(如星際爭霸)、不確定或欺騙性信息(Vinyals等人,2019)。不確定性也可能來自變化的物理學或其他環境規則,正如在《憤怒的小鳥》中所探索的那樣(Gamage等人,2021)。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性,知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況(Cassenti和Kaplan,2021)。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(Lavine,2019),即由于信息有限而選擇錯誤的選項,這種情況并不罕見,因為人類在制定有效探索隱藏信息的策略時,采用啟發式方法進行有效的選擇和預測(Gardner,2019)。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策景觀,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習(Lance等人,2020)。這種機會主義學習可以包括:例如,凝視跟蹤,以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法,以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習,這取決于任務相關的背景。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度(Gil等人,2018)。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動化的決策,以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景,即可以解釋一小部分最優和接近最優的決策策略(例如,圖3中的決策樹)。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計(Hare等人,2020),以使有效的博弈論決策能夠被共同開發和相互理解。
圖3. 在頂部,是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角,例如,顯示友軍(藍色)和敵軍(紅色)機載預警系統(AEWs)和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹,為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策,例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。
這些挑戰為有效的WMIs設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)提取信息,以及一個能夠承載整合這些信息的計算能力的架構,同時還要處理基礎的人工智能計算(用于學習和部署)。我們還需要共同開發一個界面和算法設計,以適時地利用人類和人工智能agent的優勢并減少其局限性。
在復雜的決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析性的見解,并在決策背景下創建有用的表述。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問,而不像傳統的HPC環境,計算節點在特定的時間段內以批處理模式分配給用戶。此外,PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問(Su等人,2021)。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實施人工智能輔助決策機制,利用大數據攝取和分析,同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景,從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境(Dennison等人,2020;Hung等人,2020;Raglin等人,2020)。戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平(Kase等人,2020;Larkin等人,2020;Hung等人,2021)。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力(Su等人,2021)。當需要一個共享的戰斗空間表示時,可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式,以根據分布式指揮人員的輸入進行互動更新。
BVI(Garneau等人,2018)平臺表示地理空間地形信息和地圖圖像,允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器,BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
例如,圖3(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景(Wikipedia, 2021)。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化(美國防部,2014)。可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖3,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性。
人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測,并能更好地處理復雜的決策,它們也必須利用人類的專業知識,學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反,人工智能的推理必須既抽象又能與兵棋推演環境相聯系,以實現透明和信任,同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力(Welchman等人,2005;Kamitani和Tong,2006;Kim等人,2014;Boyce等人,2019;Krokos等人,2019),如果設計得當,其交互將感覺自然,同時擴大顯示多個領域的信息的能力,同時使AI能夠適時地從用戶的決策中學習。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
信息作戰和指揮與控制(C2)是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中,不僅要為動能作戰做準備,而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展,在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展,以及在人與人工智能協作決策和機會主義學習方面取得進展,以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力,以克服復雜的技術挑戰,創造新的決策原則、理論和理論方法,包括持續開發綜合測試平臺和技術,以實現政府、學術界和工業界的合作和協同發展。
人工智能領域的進展繼續擴大這組技術的潛在軍事應用范圍。本文探討了信任在人機聯合作戰中的關鍵作用,以及依靠人工智能來補充人類認知的潛在影響。如果依靠人工智能來準確處理傳感器數據,操作自主系統和平臺,或通過擬議的作戰概念(如以決策為中心的戰爭)提供有利的決策支持,設想機器智能的中央指揮和控制作用,那么信任機器智能將是未來作戰中的一個關鍵組成部分。鑒于這些技術和理論的發展,信任的概念對于機器智能在戰術和作戰層面的軍事行動中的使用變得高度相關,正確校準的信任水平是安全和有效行動的基礎。在簡要回顧了機器智能的最新進展和對信任概念的探索之后,本文概述了人工智能在戰場上的當前和潛在應用,以及由不充分或不合理的高信任度帶來的挑戰。
縱觀歷史,技術已經擴大了武裝沖突的領域,戰術交戰的節奏,戰場的地理范圍,以及指揮官與部隊溝通的手段。技術創新--包括軍事和民用--改變了軍隊的作戰方式以及國家計劃和進行這些沖突的方式。在21世紀,迄今為止,很少有進步能像統稱為人工智能(AI)的一組技術那樣獲得如此多的關注。人工智能正準備迎來一個新的時代,在這個時代,機器智能和自主性正在為軍事行動的規劃和執行產生明顯的新概念。算法戰爭可能會帶來一些獨特的東西:增強甚至取代人類決策過程的系統,其速度可能超過人類規劃者的認知能力。
新興技術的整合提出了任何數量的基本組織和倫理問題,值得關注。本文將采用定性的社會科學方法,重點討論人類-自治團隊(HAT)的一個重要方面:鼓勵對機器智能的適當信任程度。有大量的學術文獻關注自動化或機器人技術中的信任問題,但有關具體軍事應用的工作較少。當人工智能在聯合作戰中被實際部署時,在信任方面有哪些挑戰和機會?在簡要回顧人工智能和概述機器智能在戰場上的可能應用之后,本文在分析鼓勵適當信任水平的陷阱和潛在解決方案之前,探討了信任和信任校準的概念。
幾十年來,人類一直對賦予機器某種形式的人工智能的可能性著迷,Nils Nilsson將其定義為 "致力于使機器智能化的活動,而智能是使一個實體在其環境中適當運作并具有預見性的品質"。在數字時代的早期,出現了兩種廣泛的人工智能方法。自上而下的專家系統方法使用復雜的預編程規則和邏輯推理來分析一個特定的數據集。對于具有可預測規則的明確定義的環境--諸如分析實驗室結果或下棋等應用--專家系統或 "符號 "人工智能(基于符號邏輯)的性能主要取決于處理速度和算法的質量。另一大類使用自下而上的機器學習方法,模擬人類通過檢測數據中的模式進行學習的方式。神經網絡是一種以人腦為模型的機器學習形式,能夠通過使用多個(因此是 "深")人工神經元層來識別復雜的模式,是被稱為 "深度學習 "的技術的基礎。通過其在數據集中尋找關系的能力,這種技術也被稱為 "連接主義"。
自上而下、基于規則的符號系統和自下而上的機器學習連接主義技術之間的差異是很大的,特別是關于它們的潛在應用范圍和靈活性。深度學習方法的顯著特點是能夠將學習與它所訓練的數據集分開,因此可以應用于其他問題。基于規則的算法可以在狹義的任務中表現得非常好,而深度學習方法能夠迅速找到模式,并在 "蠻力 "專家系統計算方法無效的情況下有效地自學應用。最近的一些人工智能進展顯示了模仿創造力的能力,產生了有效的解決問題的方法,這些方法對人類來說可能是反直覺的。
然而,總的來說,人工智能仍然是狹窄的或 "脆弱的",即它們在特定的應用中功能良好,但在用于其他應用時仍然不靈活。與人類的認知相比,鑒于機器的計算速度遠遠超過人腦,機器智能在將邏輯規則應用于數據集時要優越得多,但在嘗試歸納推理時,它必須對數據集或環境進行一般性的觀察,這就顯得不足。大多數機器學習仍然需要大量的訓練數據集,盡管新的方法(包括生成對抗網絡(GAN)和 "小于一次 "或LO-shot學習)正在出現,需要非常小的數據集。圖像識別算法很容易被混淆,不能像人類那樣立即或直觀地理解情景背景。這種脆性也延伸到了其他問題,比如游戲。雖然人工智能在視頻游戲中經常表現出超人的能力,但他們往往不能將這種專業知識轉移到具有類似規則或玩法的新游戲中。
雖然人工智能技術繼續在變得更加適應方面取得重大進展,但任何接近人類的人工通用智能仍然難以實現。評估人工智能的近期前景因該技術的漸進式進展而變得更加復雜。圍繞著人工智能的炒作--在很大程度上被深度學習方法的成功所推動--既導致了對該技術未來的不切實際的期望,也導致了對其非常大的進展的正常化。正如一份報告所指出的,"人工智能將一項新技術帶入普通人的視野,人們對這項技術習以為常,它不再被認為是人工智能,而出現了更新的技術"。盡管象征性的人工智能和各種形式的機器學習構成了該領域最近的大部分進展,也許除了融合這兩種方法的嘗試之外,未來仍然不確定。一些人猜測,機器學習技術帶來的進展可能會趨于平穩,而另一些人則保持樂觀。相關的技術進步,如短期內的計算機芯片設計和長期內的量子計算,可能會影響進一步進展的速度。