自人工智能(AI)誕生以來,復雜的游戲為測試和探索搜索技術提供了一個具有挑戰性的領域。甚至阿蘭-圖靈也提出將國際象棋游戲作為人工智能的基準,提出了一種他親手執行的游戲算法[1]。游戲在搜索算法中的重要性后來在1958年得到了擴展,當時阿瑟-塞繆爾使用早期版本的強化學習創造了一個跳棋游戲程序[2]。自20世紀70年代以來,重點是國際象棋比賽,最終為IBM深藍程序在1996年擊敗世界國際象棋冠軍加里-卡斯帕羅夫鋪平了道路[3]。在最近幾年,玩游戲的人工智能仍然處于該領域的前沿。2016年,谷歌DeepMind的經典大狀態空間游戲Go的智能體在比賽中擊敗了世界冠軍[4],標志著人工智能發展的一個里程碑。
游戲有很大的搜索空間,很難完全探索。盡管一個人可以采取的狀態和行動組合的數量很多,但人類在為復雜的游戲制定策略方面卻異常出色。然而,隨著計算能力和算法理論的進步,人工智能Agent現在能夠在復雜游戲中擊敗世界冠軍人類。這些現代游戲算法往往擺脫了人類的理解能力,并試圖取代人類的決策,而不是增強它。
在整個人工智能領域,存在著使人工智能更加透明、可解釋和可說明的普遍工作[5]。然而,在玩游戲的人工智能領域,這種努力對學習Agent來說是稀疏的,因為現代Agent傳統上使用非符號方法。符號Agent通過使用所學概念的符號描述來表示其知識,而非符號Agent則以內部格式表示其知識,如加權突觸、邏輯單元或連接網絡[6]。游戲可以特別受益于符號方法的可解釋性,以幫助人類用戶理解游戲,并在人工智能的輔助推理被移除后提高他們的表現[7]。
符號化人工智能用于游戲的一個例子是學習分類器系統(LCS)算法家族。LCS是基于規則的學習機器,采用遺傳算法(GA)來發現新的規則[8]。LCS的實現分為兩個系列,即密歇根式和匹茲堡式。密歇根式LCS評估單個規則的適用性,而匹茲堡式LCS則評估規則集的適用性。最近的研究工作絕大部分集中在密歇根式的實現上[8]。此外,由于較小的評估時間和在線學習能力,密歇根式的LCS實現在游戲中比匹茲堡式的對應系統受到廣泛青睞。然而,由于規則數量眾多,它們的推理能力較低[7]。雖然匹茲堡式的LCS在實時戰略游戲中經常擁有局限性[9],但它們在其他游戲環境中顯示出了前景,因為在這些環境中可以進行離線學習[10],同時保持可解釋性[11] 。
本論文探討了LCS在一類特殊游戲中的應用:兵棋推演。兵棋推演并沒有一個標準的定義。2020年版的《聯合出版物5-0》將兵棋推演定義為 "在合成環境中的沖突或競爭的表現,其中人們做出決定并對這些決定的后果做出反應"。[12] 相比之下,國防建模與仿真協調辦公室(DMSCO)使用現已失效的電氣和電子工程師協會(IEEE)610.3-1989的兵棋推演定義,將其定義為 "一種模擬游戲,參與者在預先確定的資源和約束條件下尋求實現特定的軍事目標;例如,模擬參與者做出戰場決策,計算機決定這些決策的結果。" [13] 在本論文中,我們將兵棋推演定義為以現實世界的邏輯為模型的戰場模擬,其中參與者做出決定以完成一個或多個目標,并由計算機決定結果和互動。
這篇論文的重點是LCS在回合制、同時移動和多行動游戲Stratagem MIST中的實現。Stratagem MIST是空軍研究實驗室(AFRL)正在開發的一個游戲,作為戰時沖突的多域模擬器。據作者所知,專門用于軍事戰爭游戲的LCS Agent目前還沒有被探索。此外,在一般的游戲中缺乏涉及匹茲堡式的LCS的研究,這也提供了一個興趣點和未開發的領域。我們的假設是,LCS,特別是匹茲堡式LCS,除了產生可解釋的輸出,可以讓外部觀察者理解其決策過程外,還可以成為Stratagem MIST的有效的符號游戲Agent。
兵棋推演對于軍事科學領域尤其重要,因為它們可以用于發展作戰理論[14]。現代兵棋推演的概念是1780年在普魯士發明的,記錄顯示,年輕的軍官通過玩桌面兵棋推演來學習軍事戰略。從歷史上看,從兵棋推演中學到的經驗往往能轉化為現實世界的場景。在第一次世界大戰中,每個主要作戰國都采用了兵棋推演來幫助戰爭計劃[15]。在第二次世界大戰中,美國和英國皇家海軍利用分析后的兵棋推演結果來制定更好的戰術,而軸心國部隊則利用兵棋推演來預測盟軍的戰略[14]。近年來,一些項目證明了應用人工智能技術解決復雜兵棋推演的成功[16]。然而,解決游戲或開發先進的搜索技術以勝過人類的目標可能與兵棋推演的既定目的相沖突。如果兵棋推演的目的是通過模擬為人類玩家準備實際的沖突,那么非符號Agent的行動可能無法轉移到現實世界的表現。相反,一個能夠很好地發揮兵棋能力,并以可解釋的形式呈現其理由的Agent有可能幫助發現新的戰略和戰術,從而轉化為現實世界的場景。
戰略MIST是探索兵棋推演中使用LCS的一個主要領域。其巨大的復雜性、一般的兵棋結構以及對多個多領域場景的適應性,促使人們在多個方面產生研究興趣。由于在兵棋和Stratagem MIST中沒有其他LCS的實現,因此跟蹤LCS規則在條件分布、行動分布和行動選擇傾向方面的內部構成是很重要的。這些數據可以回答關于LCS在保持可解釋性和性能的同時做出復雜決策的能力的問題。
本論文試圖回答以下研究問題:
1.在兵棋環境中,LCS Agent的有效性如何?
2.在Stratagem MIST中,LCS生成的規則的內部構成是怎樣的?
3.LCS Agent生成的默認規則集的可解釋性如何,如何才能提高可解釋性?
為回答上述研究問題,進行了以下任務:
1.開發能夠使用已知的LCS方法有效發揮Stratagem MIST的Agent。
2.進行實驗,比較使用不同符號和非符號游戲方法的Agent勝率。
3.分析LCS Agent能夠為一般的Stratagem MIST場景制定策略的程度。
4.檢查最終確定的LCS規則集中的條件和行動的分布。
5.分析如何解釋所產生的規則集,并將其簡化為可讀的形式。
第二章介紹了博弈論的概念,LCS研究的概述,以及Stratagem MIST的描述。第三章概述了為回答研究問題所實施的工作。第四章分析和討論了所得數據。最后,第五章提出結論并討論了未來的工作。
多Agent系統研究關注的是相對簡單的Agent互動所產生的系統級行為。迄今為止,多Agent系統研究主要涉及同質Agent系統,其成員Agent在物理上和行為上都是相同的。具有不同物理或行為特征的異質Agent系統可能比同質團隊更有效地完成任務,通過相互補充的Agent類型之間的合作。在這篇文章中,我們比較了同質和異質團隊在聯合武器情況下的表現。聯合武器理論提出,異質力量的集體應用可以產生遠遠大于同質力量或個別武器的連續使用所取得的效果。實驗結果表明,聯合武器的戰術可以從簡單的Agent互動中產生。
多Agent系統研究領域試圖開發出開發單個Agent的方法和算法,以產生理想的系統行為。該領域已經產生了著名的算法,如粒子群優化(PSO)和蟻群優化(ACO),但主要集中在相同的、同質的Agent系統。最近的工作已經開始探索異質系統的潛力,或具有不同行為或物理形式的Agent系統。我們特別感興趣的是這種系統在發展和驗證聯合武器理論方面的應用。
聯合軍備的軍事理論將不同類型的軍備結合起來,以達到比同樣的軍備單獨或依次應用所能達到的效果更大(陸軍2019年)。它將互補的武器結合在一起,為了避免一種武器,敵人必須將自己暴露在另一種武器之下(軍團1997a)。因此,一支聯合武器部隊是異質的,因為它所包括的武器或制劑彼此不同。由于聯合武器部隊是一個異質的多Agent系統,對多Agent系統的研究可能會給聯合武器的軍事研究帶來成果。本文介紹了一組實驗,旨在探索聯合武器戰術在異質代理系統中的出現,即在行為或物理形式上不同的Agent。
實驗是在一個二維(2D)戰斗模擬中進行的,在這個模擬中,各Agent團隊為實現既定目標而競爭。遺傳算法被用來為每個場景演化出有效的團隊,并將每個演化出的團隊的行為與現有軍事學說中的聯合武器行為的定義進行比較。假設被證明是正確的,即聯合武器戰術可以從簡單的異質Agent的相互作用中產生。
這項工作的其余部分按主題分為幾個部分。第2節回顧了同質和異質多Agent系統的現有研究。第3節描述了實驗過程中使用的平臺和措施。第4節概述了測試場景,第5節討論了每個實驗的結果。第6節提供了結束語和對未來工作的建議。
美國海軍陸戰隊信息作戰中心(MCIOC)每年進行一到兩次信息作戰人員演練(IWX)--旨在提供信息環境(IOE)下的作戰訓練。MCIOC要求蘭德公司幫助開發一個具有正式裁決程序的IWX結構化兵棋。本文件包含在2020年IWX周期中開發、測試和實施的規則集。
IWX兵棋是一個對立的事件,其中兩隊玩家在信息環境中競爭,以在一個概念場景中更好地支持各自的一方。團隊代表信息作戰工作組 (IOWG) 或與信息相關的作戰規劃小組 (OPT),或其對等力量,由場景決定。在游戲過程中,每個團隊為OIE生成一個計劃,然后玩家被要求為他們的計劃添加細節,根據游戲中的事件動態地修正該計劃,并準備離散的游戲行動,并為支持他們團隊的行動和反對對方團隊的行動提出有力的論據。一個專家評委小組使用結構化的程序和隨機元素(骰子)來裁決從玩家計劃中提取的行動成敗。
規則手冊介紹了IWX兵棋的全部規則,包括一系列可選規則,以便根據特定的偏好、培訓對象的需要或場景來定制游戲。游戲的講義和輔助工具,以及簡短的玩家指南,也可下載。
深度學習技術在計算機視覺領域的快速發展,促進了基于人工智能(AI)應用的廣泛傳播。分析不同種類的圖像和來自異質傳感器數據的能力使這項技術在軍事和國防應用中特別有趣。然而,這些機器學習技術并不是為了與智能對手競爭而設計的;因此,使它們如此有趣的特性也代表了它們在這一類應用中的最大弱點。更確切地說,輸入數據的一個小擾動就足以損害機器學習算法的準確性,并使其容易受到對手的操縱--因此被稱為對抗性機器學習。
對抗性攻擊對人工智能和機器人技術的穩定性和安全性構成了切實的威脅。這種攻擊的確切條件對人類來說通常是相當不直觀的,所以很難預測何時何地可能發生攻擊。此外,即使我們能估計出對手攻擊的可能性,人工智能系統的確切反應也很難預測,從而導致進一步的意外,以及更不穩定、更不安全的軍事交戰和互動。盡管有這個內在的弱點,軍事工業中的對抗性機器學習話題在一段時間內仍然被低估。這里要說明的是,機器學習需要在本質上更加強大,以便在有智能和適應性強的對手的情況下好好利用它。
在很長一段時間里,機器學習研究人員的唯一關注點是提高機器學習系統的性能(真陽性率/敏感度、準確性等)。如今,這些系統缺乏穩健性的問題已不容忽視;許多系統已被證明非常容易受到蓄意的對抗性攻擊和/或操縱。這一事實使它們不適合現實世界的應用,特別是關鍵任務的應用。
一個對抗性的例子是,攻擊者故意設計了一個機器學習模型的輸入,以導致該模型犯錯。一般來說,攻擊者可能無法接觸到被攻擊的機器學習系統的架構,這被稱為黑盒攻擊。攻擊者可以利用 "可轉移性 "的概念近似于白盒攻擊,這意味著旨在迷惑某個機器學習模型的輸入可以在不同的模型中觸發類似的行為。
最近針對這些系統的對抗性攻擊的演示強調了對抗性行為對穩定性影響的普遍關注,無論是孤立的還是互動的。
也許最廣泛討論的攻擊案例涉及圖像分類算法,這些算法被欺騙成 "看到 "噪聲中的圖像,即隨機產生的不對應于任何圖像的白噪聲被檢測為圖像,或者很容易被像素級的變化所欺騙,因此它們將一輛校車分類為鴕鳥,例如。同樣,如果游戲結構或規則稍有改變,而人類不會受到影響,那么表現優于人類的游戲系統(如國際象棋或AlphaGo)就會突然失敗。在普通條件下運行良好的自動駕駛汽車,只要貼上幾張膠帶,就會被誘導轉向錯誤的車道或加速通過停車標志。
許多北約國家利用人工智能和機器學習來改善和簡化軍事行動和其他國家安全舉措。關于情報收集,人工智能技術已經被納入在伊拉克和敘利亞的軍事行動中,其中計算機視覺算法被用來檢測人和感興趣的物體。軍事后勤是這一領域的另一個重點領域。美國空軍使用人工智能來跟蹤其飛機何時需要維護,美國陸軍使用IBM的人工智能軟件 "沃森 "來預測維護和分析運輸請求。人工智能的國防應用還延伸到半自主和自主車輛,包括戰斗機、無人機或無人駕駛飛行器(UAV)、地面車輛和船舶。
人們認為對抗性攻擊在日常生活中相對罕見,因為針對圖像分類算法的 "隨機噪音 "實際上遠非隨機。不幸的是,對于國防或安全技術來說,這幾乎是不可能的。這些系統將不可避免地被部署在對方有時間、精力和能力來開發和構建正是這些類型的對抗性攻擊的環境中。人工智能和機器人技術對于部署在敵人控制或敵人爭奪的地區特別有吸引力,因為這些環境對于我們的人類士兵來說是最危險的環境,在很大程度上是因為對方對環境有最大的控制。
在意識到人工智能發展和應用的技術領先的重要性后,北約于2020年在多國能力發展運動(MCDC)下啟動了人工智能、自動化和機器人技術的軍事用途(MUAAR)項目。該項目的范圍是開發概念和能力,以應對開展聯合聯盟行動的挑戰,并對其進行評估。項目的目標是評估可能受益于人工智能、自動化和機器人技術的當前和未來的軍事任務和功能。它還考慮了效率和成本節約方面的回報。
在國防應用中,對抗性地操縱機器學習分類器所帶來的危險的例子很多,嚴重程度各不相同。例如,致命的自主武器系統(LAWS)可能會將友軍戰車誤認為是敵軍戰車。同樣,一個爆炸裝置或一架敵方戰斗機可能會被錯誤地識別為一塊石頭或一只鳥。另一方面,知道人工智能垃圾郵件過濾器跟蹤某些單詞、短語和字數進行排除,攻擊者可以通過使用可接受的單詞、短語和字數來操縱算法,從而進入收件人的收件箱,進一步增加基于電子郵件的網絡攻擊的可能性。
綜上所述,人工智能支持的系統可能會因為對抗性攻擊而失敗,這些攻擊是故意設計來欺騙或愚弄算法以使其犯錯的。這種攻擊可以針對分類器的算法(白盒攻擊),也可以通過訪問輸入來針對輸出(黑盒攻擊)。這些例子表明,即使是簡單的系統也能以意想不到的方式被愚弄,有時還可能造成嚴重后果。隨著對抗性學習在網絡安全領域的廣泛應用,從惡意軟件檢測到說話人識別到網絡物理系統再到許多其他的如深度造假、生成網絡等,隨著北約增加對自動化、人工智能和自主代理領域的資助和部署,現在是時候讓這個問題占據中心位置了。在將這些系統部署到關鍵任務的情況下之前,需要對這些系統的穩健性有高度的認識。
已經提出了許多建議,以減輕軍事環境中對抗性機器學習的危險影響。在這種情況下,讓人類參與其中或在其中發揮作用是至關重要的。當有人類和人工智能合作時,人們可以識別對抗性攻擊,并引導系統采取適當的行為。另一個技術建議是對抗性訓練,這涉及給機器學習算法提供一組潛在的擾動。在計算機視覺算法的情況下,這將包括顯示那些戰略性放置的貼紙的停車標志的圖像,或包括那些輕微圖像改變的校車的圖像。這樣一來,盡管有攻擊者的操縱,算法仍然可以正確識別其環境中的現象。
鑒于一般的機器學習,特別是對抗性機器學習,仍然是相對較新的現象,對兩者的研究仍在不斷涌現。隨著新的攻擊技術和防御對策的實施,北約軍隊在關鍵任務的行動中采用新的人工智能系統時需要謹慎行事。由于其他國家,特別是中國和俄羅斯,正在為軍事目的對人工智能進行大量投資,包括在引起有關國際規范和人權問題的應用中,北約保持其戰略地位以在未來戰場上獲勝仍然是最重要的。
Elie Alhajjar博士是美國陸軍網絡研究所的高級研究科學家,同時也是紐約州西點軍校數學科學系的副教授,他在那里教授和指導各學科的學員。在來到西點軍校之前,Alhajjar博士曾在馬里蘭州蓋瑟斯堡的國家標準與技術研究所(NIST)從事研究。他的工作得到了美國國家科學基金會、美國國立衛生研究院、美國國家安全局和ARL的資助,最近他被任命為院長的研究人員。他的研究興趣包括數學建模、機器學習和網絡分析。他曾在北美、歐洲和亞洲的國際會議上展示他的研究工作。他是一個狂熱的科學政策倡導者,曾獲得民用服務成就獎章、美國國家科學基金會可信CI開放科學網絡安全獎學金、Day One技術政策獎學金和SIAM科學政策獎學金。他擁有喬治-梅森大學的理學碩士和數學博士學位,以及圣母大學的碩士和學士學位。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
在可視范圍內執行空戰,需要飛行員在接近1馬赫的飛行速度下,每秒鐘做出許多相互關聯的決定。戰斗機飛行員在訓練中花費數年時間學習戰術,以便在這些交戰中取得成功。然而,他們決策的速度和質量受到人類生物學的限制。自主無人駕駛戰斗飛行器(AUCAVs)的出現利用了這一限制,改變了空戰的基本原理。然而,最近的研究集中在一對一的交戰上,忽略了空戰的一個基本規則--永遠不要單獨飛行。我們制定了第一個廣義的空戰機動問題(ACMP),稱為MvN ACMP,其中M個友軍AUCAVs與N個敵軍AUCAVs交戰,開發一個馬爾可夫決策過程(MDP)模型來控制M個藍軍AUCAVs的團隊。該MDP模型利用一個5自由度的飛機狀態轉換模型,并制定了一個定向能量武器能力。狀態空間的連續和高維性質阻止了使用經典的動態規劃解決方法來確定最佳策略。相反,采用了近似動態規劃(ADP)方法,其中實施了一個近似策略迭代算法,以獲得相對于高性能基準策略的高質量近似策略。ADP算法利用多層神經網絡作為價值函數的近似回歸機制。構建了一對一和二對一的場景,以測試AUCAV是否能夠超越并摧毀一個優勢的敵方AUCAV。在進攻性、防御性和中立性開始時對性能進行評估,從而得出六個問題實例。在六個問題實例中的四個中,ADP策略的表現優于位置-能量基準策略。結果顯示,ADP方法模仿了某些基本的戰斗機機動和分段戰術。
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。
可解釋的人工智能(XAI)提供了克服這一問題的手段,它基于有關深度學習(DL)算法結果的額外補充信息。雖然完全透明對于復雜的DL算法來說仍然是不可行的,但解釋有助于用戶在關鍵情況下對AI信息產品進行判斷。應該指出的是,XAI是透明度、因果關系、可信度、信心、公平、信心和隱私等方面的總稱。因此,基本的方法論是多方面的。一種已經流行的方法是局部可解釋模型-預知解釋(LIME)方法,因為它可以很好地應用于各種應用中的不同模型。在本文中,LIME算法是在戰略運營的決策建議背景下進行研究的。在簡單介紹了其概念后,介紹了文獻中的應用。然后,一個戰略博弈的場景被認為是軍事戰爭的替代環境。一個基于DL的國際象棋人工智能被做成 "可解釋的",以評估信息對人類決定者的價值。得出了與戰略混合行動有關的結論,這反映了所提出的方法的局限性。
根據設想,未來戰略戰爭的決策將在很大程度上受到基于人工智能(AI)方法的信息產品的影響。特別是混合作戰,是在一個高維和變異的環境中進行的,在這種環境中,對潛在的威脅和機會的評估是人類操作者難以掌握的,戰略規劃必須納入異質的、多功能的和高容量的數據源。因此,基于人工智能方法的算法產生的分類、預測和建議在這種復雜的場景中變得越來越重要。在過去的幾年里,人工智能的方法已經獲得了巨大的發展,有大量的創新和令人尊敬的成果,可以從大型數據集中獲得更高層次的信息。然而,深度學習(DL)方法的一個主要缺點是其固有的黑箱屬性,即由于計算模型的復雜性,其結果是不透明的。例如,后者可能有數百個層和數百萬個參數,這些參數是在訓練階段通過算法發現和優化的。因此,即使結果是準確的,用戶也沒有機會理解它或掌握輸入數據的因果部分。這反過來又會影響到用戶對輔助設備的信任,在兩個方向上都是如此。這個問題在某些民事應用中起著次要的作用,例如語音識別,它經常被應用于與設備的互動,因為除了體面的失望之外沒有潛在的風險。對于其他非常具體的任務,如手寫字符識別,DL算法的性能超出了人類的平均水平,這意味著失敗的可能性很小,因此關于因果關系的問題可能成為附屬品。然而,在許多軍事應用中,當涉及到與人工智能的互動時,人類的信任是一個關鍵問題,因為錯誤的決定可能會產生嚴重的后果,而用戶始終要負責任。這實際上是兩方面的。一方面,操作者往往需要了解人工智能產品的背景,特別是如果這些產品與他或她自己的本能相悖。另一方面,不可理解的技術會對算法信息產品產生偏見,因為很難確定在哪些條件下它會失敗。因此,適當的信任程度可能很難計算。
可解釋的人工智能(XAI)是向黑盒人工智能模型的用戶提供 "透明度"、"可解釋性 "或 "可解釋性 "的方法的集合。這些術語幾乎沒有一個共同的定義,但許多出版物提到了:
XAI不能完全 "解釋 "DL模型,然而,它為工程師或操作員提供了更好地理解特定AI產品背后的因果關系的手段。而且很多時候,這可以幫助看到,從合理的因果關系鏈暗示算法決策或預測的意義上來說,該模型是否是合理的(或不是)。因此,XAI可以成為人工智能模型工程的一個重要工具,用于安全方面的驗證,甚至用于認證過程,以及為操作員提供額外的信息,以支持明智的決策。
雖然關于XAI的大多數文獻都集中在圖像識別的方法上,但這些結果很難轉化為基于特定挑戰性競爭形勢的戰術和戰略決策領域。在本文中,我們研究了人工智能模型在棋盤評估中的可解釋性。對更復雜的軍事戰略模擬的一些影響進行了討論。
本文的結構如下。在下一節中,簡要介紹了選定的XAI方法。然后,這些方法之一(LIME)被應用于棋盤評估問題,以證明在支持信息方面的解釋的質量。在最后一節,得出了結論,并討論了對更復雜的戰爭博弈和模擬的概括。
實時戰略游戲已經成為開發和分析人工智能(AI)和基于深度機器學習的競爭、攻擊者與防御者場景的算法的一個有吸引力的環境。基于計算機的實時戰略游戲和用于軍事訓練的戰爭游戲的特征之間的相似性也提供了一種手段,可以將基于人工智能的實時戰略游戲的結果和教訓過渡到幫助和告知作戰人員的決策能力。我們的論文研究了基于人工智能的實時戰略游戲和軍事決策中的戰略規劃之間的這種交集,這個領域被稱為對抗性人工智能。我們描述了在實時戰略游戲中開發有效的對抗性人工智能的問題和挑戰,我們最近組織了一次對抗性人工智能競賽,使用的是海洋環境中的模擬版奪旗游戲。我們討論了比賽的條目、結果和從競爭者的反饋中獲得的教訓,并為基于人工智能的、復雜的、對立的實時戰略游戲規定了未來的方向和公開的挑戰。
近年來,人工智能(AI)已經成為用于軍事和民用領域的自動化系統背后的主要使能技術。自動化系統必須不斷與環境中的其他實體互動,包括人類、智能設備、計算機和其他人工智能。傳統上,基于人工智能的系統在設計時假定與它們互動的其他實體是良性的。換句話說,互動的實體不會故意做出對抗性的行為來打敗或顛覆人工智能。然而,在現實世界中,隨著基于人工智能的系統變得更加普遍,敵對行為者不斷想出新的方法來迷惑基于人工智能的系統,使其失敗并以不正確、不安全甚至危險的方式運行。我們的論文描述了正在進行的應對這些挑戰的努力,作為 "五眼"(FVEY)技術合作計劃(TTCP)人工智能戰略挑戰(AISC)的一部分,在一個被稱為對立人工智能(OAI)的技術領域。
OAI的目標是更好地理解來自不同利益相關者的基于人工智能的系統在以噪聲和低質量數據為特征的環境中相互作用時出現的問題,這些利益相關者的心態和目標是不一致的,可能是相反的。OAI支柱的一個主要方向是將OAI問題建模為一個防御者與攻擊者的游戲,并使用強化學習技術開發和分析不同的游戲策略。為了實現這一目標,我們正在使用一個名為Aquaticus奪旗(CTF)的多人游戲。游戲編程界面是用Python和OpenAI Gym編寫的,以便與強化學習算法輕松靈活地整合,通過分析可能的攻擊和防御策略空間,智能地學習游戲和贏得比賽。在本文中,我們描述了與開發有效的基于人工智能的技術有關的問題和挑戰,這些技術可以使玩家在OAI場景中獲得決定性的優勢,以及我們在組織首屆OAI Aquaticus CTF比賽中的經驗。最后,我們討論了從比賽中獲得的一些經驗,并確定了未來的方向,這些方向將使人工智能研究普遍化,并使其更適于過渡到戰場上的對立場景中的有效決策。
本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來進行決策——而不是將環境視為一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及規劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式,以及在設計未來的MBRL系統時,從人類認知中可以得到什么啟示。
//sites.google.com/view/mbrl-tutorial
近年來,強化學習領域取得了令人印象深刻的成果,但主要集中在無模型方法上。然而,社區認識到純無模型方法的局限性,從高樣本復雜性、需要對不安全的結果進行抽樣,到穩定性和再現性問題。相比之下,盡管基于模型的方法在機器人、工程、認知和神經科學等領域具有很大的影響力,但在機器學習社區中,這些方法的開發還不夠充分(但發展迅速)。它們提供了一系列獨特的優勢和挑戰,以及互補的數學工具。本教程的目的是使基于模型的方法更被機器學習社區所認可和接受。鑒于最近基于模型的規劃的成功應用,如AlphaGo,我們認為對這一主題的全面理解是非常及時的需求。在教程結束時,觀眾應該獲得: