隨著互聯網的快速發展,防范敵對威脅的要求已成為一個值得關注的問題。本文創建一個基于人工智能算法的建議性模型,以了解潛在威脅所構成的計算威脅性質,并在認為合適時采取必要的行動。該建議性模型有助于政策制定者和相關行業考慮單方面或集體開展更多研究工作。
自主武器和戰車系統可以利用美國陸軍創造的傳感器技術和機器視覺定位目標。美國陸軍目前正在評估各國防承包商的想法,以努力開發一種可與人類士兵并肩作戰的全自動地面車輛。先進目標定位與致命性自動系統是他們對目前設計(ATLAS)的命名。2017年,ATLAS系統進行了首次演示和最新測試。陸軍夜視和電子傳感器局負責ATLAS開發項目(NVESD)。他們可能將其傳感器技術整合到項目中,以支持機器視覺并實現可靠的讀數。
集成傳感器架構(ISA)已成為一種可能的架構。這種設計可以實現傳感器和人工操作的計算機之間的信息共享,而不需要點對點的硬件互連。在美國陸軍工業日上討論了制造ATLAS所需技術的各個方面。只有少數人真正提到了人工智能或機器學習方法,盡管每種技術都有自己的潛在用途。以下是當天討論人工智能和機器學習的部分內容:
1.圖像處理主題,包括人工智能/機器學習算法和自動圖像搜索。
2.數據收集,包括管理數據、在數據庫中組織數據以及使用數據訓練ML算法。
3.火控,或先進目標定位算法。
中國軍方對人工智能的部署凸顯了該技術的不可預測性和顛覆性。由于人工智能正在改變游戲規則,常規戰斗在今天的戰場上可能沒有太大作用,而中國正在最大限度地利用這一優勢。
中國在多項人工智能相關指標上領先全球,包括學術論文數量、專利申請和初創企業資金。值得注意的是,獲得外國融資和技術進步在這一主導地位中發揮了重要作用。
據估計,2021年軍用無人機市場價值為134億美元,預計年復合增長率為11.7%,到2028年將達到260億美元。隨著越來越多的軍事組織在全球范圍內部署無人機執法,該行業正在不斷擴大。此外,政府在軍用無人機上的支出不斷增長,以提高軍事行動的效率,這也提高了對軍用無人機生產的需求。因此,政府在無人機上的支出增加推動了軍用無人機市場的發展。
全球軍用無人機市場受到軍事預算擴大、對更好的監視系統的需求增加以及技術進步等重要方面的影響。
在發達國家和新興國家,軍用無人機市場一直被強大的產品系列所主導。控制全球軍用無人機市場的頂級公司包括通用原子航空系統公司(GA-ASI)(美國)、泰雷茲集團(法國)、諾斯羅普-格魯曼公司(美國)、以色列航空航天工業有限公司(以色列)、埃爾比特系統有限公司(以色列)、洛克希德-馬丁公司(美國)、AeroVironment公司(美國)和波音公司(美國)。
馬特烏斯-皮特科夫斯基(Mateusz Pitkowski)討論了20世紀軍事技術的進步,這種進步減少了軍事人員所從事工作的數量和復雜性,同時擴大了機器和計算機的能力。然而,機器從未被賦予生死攸關的決策能力。隨著 "宙斯盾 "反導彈艦艇防御系統等高度先進系統的出現,機載、陸地和海洋系統的整合預計將大大改變當前的戰場。然而,目前的國際人道法結構無疑將面臨這些未來武器的巨大挑戰。在歷史上,"戰斗的非人化 "并不是一個新詞。自從箭和弩問世以來,使用者與武器之間的正常距離一直在穩步增長。然而,目標定位過程中的一個重要組成部分仍然存在,即人類仍然必須決定何時發射或不發射,海軍接觸雷是一個獨特的例外。自從火炮、航空和其他不明軍事機器發明以來,這種現象一直存在。美國空軍和英國皇家空軍使用UCAV(未命名的戰斗飛行器),例如 "捕食者 "和 "死神 "無人機在有人系統中工作,操作員在遠處控制移動和目標定位。
另一方面,權力中心的轉移使各國意識到非對稱威脅的重要性,全球化、恐怖主義、武器擴散、東方日益壯大和技術崛起導致沖突迅速發展。為了妥善解決這些困難,美國軍方也做出了類似的調整,杰西-麥克默多的研究表明了這一點。新的發展形勢包括創造一個新的戰場,網絡空間已經擁有了幾乎等同于二戰時期傳統的陸、海、空、天戰爭的不同地位。在空域,如果現代戰斗機的機載系統和目標定位網絡被滲透,那么它的戰斗力就會大打折扣,這表明網絡空間已經成為當前戰爭能力的基礎層面。多年來,美國國會一直對巡航導彈防御感興趣。巡航導彈的機身、推進系統、制導系統和武器載荷使其實際上成為一種無人攻擊機。正如Hichkad等人所討論的那樣,巡航導彈可能擁有極其復雜的導航和目標定位系統,使其能夠保持低空、陸地飛行路線并進行高精度攻擊。集束彈藥可配備常規武器或大規模殺傷性武器,并可從空中、陸地或海上等各種平臺發射。美國國防部一直在開展許多項目,以加強對不可預測的危險巡航導彈威脅的防御。
F.費爾南德斯的另一項重要研究討論了巡航導彈的機身、推進系統、制導系統和武器載荷,這使其在無人攻擊機上有效。巡航導彈可配備極其復雜的導航和目標定位系統,使其能夠保持低空、地面飛行路線并進行高精度攻擊。集束彈藥還可配備常規武器或大規模殺傷性武器,并可從空中、陸地或海上等各種平臺發射。邁克爾-霍洛維茨(Michael C. Horowitz)在其論文中探討了致命性自主武器系統如何影響兩個結果領域:系統的發展和部署,包括軍備競賽;威懾的穩定性,包括戰略穩定性、危機不穩定風險和戰時升級。它通過借鑒經典的安全研究成果和軍事史上的實例來實現這一目標。它重點關注的問題是LAWS的兩個特點:提高作戰速度的可能性和減少人類對戰場戰術決策控制的可能性。它還探討了這些問題如何與目前基于人工智能的未來軍事武器在可能性和編程透明度方面的高度不確定性相交織。
艾米麗-克勞福德(Emily Crawford)提到了非常適合遵守區分原則的遠程戰爭類型。無人駕駛飛行器(又稱UAV或無人機)是一種技術先進的武器,可以實施精確攻擊,以導彈或炸彈等早期技術無法比擬的精確度和確定性殺傷目標。在網絡戰的世界里,精心制作的軟件或計算機代碼可以鎖定并禁用極其特定的目標,確保只有這些目標受到攻擊的影響,而其他系統不受影響。Brian Sanders等人還指出了將基于智能材料的執行系統集成用于飛機巡航和機動控制的目標。一些相關問題包括評估人工智能在軍事系統中越來越多的集成,著眼于對危機穩定性的影響,特別是國家如何考慮制造和部署武器,以及何時可能開戰和軍備控制的可能性。程雷等人提到,由于網絡應用的不斷普及和發展,早期離散和獨立的個體現在變得極為相關和相互依賴。萬物互聯不僅促進了新的社會規范的發展,也有助于國家重要基礎設施的有效運行。
最近,Jing-lei Tan等人的一項研究討論了軟件定義網絡(SDN)的可用性,由于其集中控制特性(APT),SDN很容易受到高級持續性威脅。移動目標防御作為一種防御工具正在不斷改進。就目前的博弈模型而言,要準確描述MTD攻擊和防御博弈,并準確選擇防御時機以平衡MTD決策和SDN服務質量的益處,具有挑戰性。K.Zaffarano補充說,對網絡攻擊的脆弱防御在靜態防御上可能更具實質性,而靜態防御可利用的主動防護措施仍然有限。這是由于移動目標防御(MTD)等適應性強的主動防御技術有可能阻礙網絡支持任務的能力,就像它們有能力防御網絡一樣。Daesung Moon等人以APT攻擊為例探討了攻擊過程,并論證了對綜合檢測系統的需求。在本研究中,我們提出了多層防御系統(MLDS),通過在網絡設備、服務器和終端用戶安裝代理,分析來自網絡、服務器、終端用戶、日志等的數據,從而進行深度防御。為了提高性能,MLDS可識別來自多個層面的APT攻擊。此外,當系統受到APT攻擊時,MDLS可降低危害。
正如T.Ender所討論的,彈道導彈防御系統(BMDS)有效性檢查的另一個強化概念歷來是不完善的。事實上,BMDS的戰斗管理過程需要關注和管理大量相互依賴的參與者(如雷達傳感器、通信網絡和攔截導彈)的行動,在這個過程中,目標從發射到傳感器探測再到攔截殺傷評估。本文提出了一個建模和仿真(M&S)框架,支持BMDS的架構級分析。關鍵的創新是神經網絡代理模型的應用,它是其他高保真或中保真M&S工具的代表,可以在保真度可忽略不計的情況下快速執行。建立了BMDS分析工具的代理模型,其中包括多傳感器目標跟蹤和融合代碼。結果將顯示將M&S集成到架構級分析的好處。具體例子包括作戰級指標對集成跟蹤圖像形成的敏感性,以及使架構級決策成為可能。
就網絡物理系統而言,攻擊可能包括代碼注入、代碼重用和非控制數據攻擊。利用移動目標防御(MTD)技術,包括指令集隨機化(ISR)、地址空間隨機化(ASR)和數據空間隨機化(DSR),可以實現系統對此類攻擊的防御。正如Bradley Potteiger等人所討論的,MTD安全方法在正常運行期間提供可預測和可靠的行為,并在檢測到攻擊時快速檢測和重新配置。目前已經提出了許多MTD機制,其中一些機制通常按照一些基本模式運行,這些模式定義了它們如何發揮作用。研究了MTD機制的三個主要流派,然后定義并確定了這些MTD過程所使用的三個核心運行模式。在這些提供的模式上運行了五個MTD機制,從而形成了三個思想流派。David Evans等人提出,MTD如何通過改變系統的功能,使攻擊者更難利用薄弱系統,而這些功能可能會給攻擊者提供一個可變的攻擊面。防御系統必須能夠納入動態變化,這些變化可能會干擾漏洞利用的操作,并且不會受到攻擊者學習現有防御機制的影響。由于世界上許多國家本土技術的進步,軍事動態和能力的快速變化,未來可能的威脅領域不斷擴大。阿德爾-阿爾沙姆拉尼(Adel Alshamrani)討論了將私人和企業部門作為應對此類威脅的措施之一。這些類型的威脅也被稱為高級持續性威脅(APT),幾乎每個國家和成熟的組織都意識到這些威脅,并希望抵御這些威脅,發展長期可持續的反威懾力量。研究了一些APT攻擊案例,并提出了可能的可部署監控和緩解措施,以確保網絡系統的安全。
Ido Kilovaty指出,大量有關互聯網用戶的個人和非個人數據是如何在網上被收集起來,并越來越多地以復雜的方式被用于網絡政治操縱。這說明了數據利用的一種新模式,即行為者利用尖端的人工智能技術進行數據分析,使他們更容易獲得人們的認知和潛在的未來行為,而不是基于數據的表面價值直接追求經濟利益。盡管網絡操縱的概念最近引起了一些學者和政策的興趣,但網絡安全法與網絡操縱之間的理想聯系尚未得到深入研究。換言之,監管機構和法院尚未充分理解網絡安全法與個人自主權、隱私權和民主之間的關聯。這些事實使人們對許多企業保護敏感數據和關鍵任務數據免受競爭對手、敵對國家和有組織犯罪分子侵害的生存潛力產生了疑問。正如Massimiliano Albanese所揭示的,MTD是一種前沿的革命性網絡防御方法,是僵尸網絡識別和緩解的一種有前途的解決方案。針對此類威脅的突出解決方案之一可能是修改網絡資源漏洞,即移動目標防御,作為網絡戰中 "改變游戲規則 "的安全解決方案,挫敗攻擊者的明顯保證。在譚景雷等人的研究中,基于馬爾可夫魯棒博弈,利用移動目標防御技術開發了一種獨特的最優策略選擇技術,以提高對未知安全威脅的防御能力。第一步是創建一個基于移動攻擊和探索面的移動目標防御模型。該模型結合了馬爾可夫決策理論和魯棒博弈理論,舉例說明了不完全信息假設中的未知先驗信息。此外,該模型還證明了馬爾可夫穩健博弈的最優方法。通過將最優策略的選擇等價轉換為非線性編程問題,創建了防御策略。對所建議方法的進一步模擬和推導表明了所創建博弈模型的可行性和所建議方法的有效性。
盡管在一些MTD應用領域的研究取得了重大進展,但仍有大量問題亟待解決。新方法的不斷發展和多個學科的交叉也為MTD研究的概念和進展提供了新的視角。
Jianjun Zheng和A.S. Namin指出了網絡的弱點,即隨著網絡復雜性和規模的不斷增加,網絡管理員面臨著持續的艱巨任務。許多網絡設備可能無法得到及時更新,從而使網絡面臨潛在攻擊。此外,由于當前網絡基礎設施的靜態性質,攻擊者有時間研究網絡的靜態配置,并在方便的時候實施精心策劃的攻擊,而防御系統必須全天候運行以保護網絡。本文通過對MTD和實施策略(物聯網)的全面調查,介紹了MTD的動機、MTD關鍵概念的解釋、MTD的持續研究工作及其在網絡系統各個層面的實施,以及軟件定義網絡(SDN)和物聯網等新技術提供的潛在未來研究機會。6G網絡具有更快的數據傳輸速率、更低的延遲和超高的可靠性等其他功能,將把5G提供的數字功能提升到一個全新的水平。要實現6G的潛力,這些系統的安全性至關重要。正如Wissem Soussi等人所討論的那樣,對6G基礎設施和服務進行有效而廣泛的保護是這一需求的重要組成部分。在這篇文章中,研究人員將MTD視為主動防御的重要組成部分,并詳細介紹了如何將其納入5G以外的系統。此外,文章還討論了未來研究前景、相關研究障礙以及標準化觀點。
根據上述文獻的討論,似乎迫切需要開發一種有效的模型,利用所述事實開發一種人工智能驅動的、同步的、快速的攻擊結構,用于實時目標定位敵對目標,這些敵對目標可能是未來的潛在威脅,可以是單獨的,也可以是與其他潛在敵對目標一起的。
二手數據(Secondary Data)用于收集與文獻相關的數據。此外,具有高準確率的人工智能算法的不同模型也被建模成識別類型的架構布局。
數據是通過二手研究廣泛收集的,包括期刊和網站在內的不同出版來源記錄并說明了各種發展情況。所提出的模型包括不同研究人員所建議的具有固有算法的各個階段,并將其組合在一起以產生應用和執行的一致性可能性。
圖1 目標檢測和識別(TDR)的結構
需要高度先進的傳感器來收集數據,并輔以衛星圖像進行確認和分析。可以使用多個傳感器分別進行面部識別、語音識別、行為識別、身體磨損識別和盔甲識別,也可以使用一個先進的傳感器收集所有這些數據。
如圖1所示,TDR系統由四個基本部分組成,即
i. 人類類型
人類類型被分為兩類,即與任何國家的軍隊、民兵或與某些軍隊有合同關系的無關聯民事類型和與任何國家的軍隊、民兵或與某些軍隊有合同關系的某些或完全關聯的軍事類型。
ii. 識別類型
在識別類型下,系統應通過面部識別、語音識別、行為識別、貼身衣物識別、臂鎧識別(如有)(使用分類算法)驗證人的類型分類。
iii. 數據庫匹配
一旦識別類型可用,社交網絡、購買網絡和任何其他可用的網絡都可以通過這種人類身份的主鍵進行搜索。然后可以使用神經網絡對獲得的數據進行分析,以驗證可用性、可行性、習慣和其他認知細節,從而確定每個網絡的10分評分標準。
iv. 評分卡
對每個網絡計算出的單項得分進行綜合,計算出百分比,并進一步分類如下:
a. 高T.S得分:介于(81%及以上)
b. 中等T.S得分:在(61%-80%)之間
c. 低T.S分數:61%以下
見圖2,TDEP模型與記分卡和目標物附近可用的支持結構有關,該結構基于自身火炮支持、聯合支持和自身目標支持(當其他兩個支持系統不可用時)。
記分卡主要包括獲得的目標得分,并將其分為高分(H.S)、中分(M.S)和低分(L.S)。在分類完成后,可將其轉發給支持結構進行實施。
根據所感知威脅的閾值、強度和類別,高分可以通知基地支援部門進行炮火支援,中分可以通知聯合支援部門進行聯合支援,低分可以自備彈藥進行自我支援。
圖2 TDEP架構
正在考慮的可能對人類造成威脅的特征包括 (將由單獨的傳感器或組合傳感器收集)(見表1)。
1.人臉
2.人的聲音
3.人的行為(個性、態度)
4.人體穿著
5.人的盔甲和武器(從輕武器到重武器)
表1 擬議的算法選擇
序號 | 識別類型 | 算法 | 用法 |
---|---|---|---|
1 | 面部識別 | 樸素貝葉斯(參數)、K 最近鄰(非參數)、支持向量機 (SVM)、深度學習卷積網絡 (DLCNN) - Facebox。 | 樣本分類(參數或非參數) |
2 | 語音識別 | 1.語音識別: 隱馬爾可夫模型(HMM)和動態時間扭曲(DTW) 使用的成分:發聲、共鳴和發音。語音識別可以在沒有NLP的情況下工作,但NLP不能直接處理音頻輸入。 2. 自然語言處理(NLP) NLP的組成部分 自然語言理解(NLU)從內容中提取元數據,如概念、實體、關鍵詞、情感、關系和語義角色。 自然語言生成 (NLG) 用用戶的自然語言生成輸出。 |
基于: a. 一種稱為揚聲器依賴型,另一種稱為揚聲器獨立型。 b. 基于性別:女性(3 組):女高音、女中音和女低音。男性(4 組):反男高音、男高音、男中音和男低音 |
3 | 行為識別 | 也稱為動作分類和識別算法(見圖3) | 比較不同算法在不同數據集上的性能,選擇準確率更高、誤差更小的最佳算法。 |
4 | 行為識別 | 生物信號監測算法(參見參考文獻) | 必須解決的關鍵問題是皮膚接觸,為了檢測整個心動周期中皮膚上出現的微小電壓,皮膚接觸必須盡可能好。 |
5 | 盔甲識別 | SMCA-_-YOLOv5,多尺度表示網絡(MS-RN)和形狀固定導向錨(SF-GA) | 對盔甲(輕型、中型、重型)、背景、其他敵人進行分類的關鍵問題 |
圖3 動作分類和識別算法
圖4 TDRD各子系統的相互連接
因此,建議的模型可命名為TDRD,即TDR(系統R+系統A)和TDEP(系統D)的組合(見圖4)。
有幾種先進目標定位系統用于各種應用。下面是幾個例子:
a. 激光制導系統: 這些系統使用激光技術目標定位特定位置。激光發射的光束在目標上反射,反射的光束被武器或平臺上的傳感器探測到。然后,系統調整武器目標定位,以準確擊中目標。
b. GPS制導系統: 這些系統使用全球定位系統(GPS)技術目標定位特定位置。武器或平臺上的GPS接收器接收GPS衛星信號并計算其位置。然后,系統調整武器目標定位,以準確擊中目標。
c. 慣性導航系統: 這些系統使用加速度計和陀螺儀跟蹤武器或平臺的運動并計算其位置。即使沒有全球定位系統,該系統也能調整武器目標定位,以準確命中目標。
d. 圖像導航系統: 這些系統使用攝像機和傳感器探測和跟蹤目標。系統分析圖像并計算目標的位置和速度。然后,系統調整武器目標定位,以精確打擊目標。
e. 雷達制導系統: 這些系統使用雷達技術探測和跟蹤目標。系統分析雷達信號并計算目標的位置和速度。然后系統調整武器目標定位,以準確命中目標。
這些目標定位系統應用廣泛,如軍事武器、商業航空和自動駕駛汽車。每種系統都有其優勢和局限性,目標定位系統的選擇取決于具體應用的要求。
該TDRD系統模型可安裝在無人機(無人駕駛飛行器)、其他航空系統、地面系統、地面戰車、海基系統上,能夠有目的地確定人類或被人類占據的系統所構成威脅的性質,并精確地消除這些威脅。
此外,TDRD可以將這些數據和信息發送到指揮站,以便對威脅進行分析,并采取其他措施消除目標人員或系統的影響。
從上述文獻和對擬議模型開發的討論中,我們可以得出結論,迫切需要開發相互集成的快速人工智能算法,以促進建立一個獨特的超級系統,該系統可以確定潛在的人類和系統所構成的計算威脅,并在認為合適時采取必要的行動。上述系統可作為開發實時改進系統的基礎模型,該系統可根據國家安全需要,協助印度武裝部隊打擊印度境內外的敵人。
算法和數據驅動的決策和建議通常用于刑事司法、醫學和公共政策等高風險決策環境中。我們利用 1969 年底推出的安全評估算法后立即測量的結果,研究是否有可能改進該算法。這一實證應用提出了在高風險算法決策中經常出現的幾個方法論挑戰。首先,在實施新算法之前,必須確定并控制產生比現有算法更差結果的風險。其次,現有算法是確定性的,學習新算法需要透明的外推法。第三,現有算法涉及離散決策表,這些決策表很常見,但很難優化。
為了應對這些挑戰,我們引入了平均條件風險 (ACRisk),它首先量化了新算法政策導致個體單位子群結果變差的風險,然后將其平均到子群分布上。我們還提出了一個貝葉斯政策學習框架,在控制后驗預期 ACRisk 的同時,最大化后驗預期值。這一框架將異質性治療效果的估計與政策優化分離開來,實現了對效果的靈活估計和對復雜政策類別的優化。我們將由此產生的機會受限優化問題描述為受限線性規劃問題。我們的分析表明,與越戰期間使用的實際算法相比,學習算法將大多數地區評估為更安全的地區,并強調經濟和政治因素而非軍事因素。
算法和數據驅動的決策與建議早已應用于信貸市場(Lauer,2017 年)和戰爭(Daddis,2012 年)等不同領域。現在,它們越來越成為當今社會許多方面不可或缺的一部分,包括在線廣告(如 Li 等人,2010 年;Tang 等人,2013 年;Schwartz 等人,2017 年)、醫療(如 Kamath 等人,2001 年;Nahum-Shani 等人,2018 年)和刑事司法(如 Imai 等人,2023 年;Greiner 等人,2020 年)。將數據驅動政策應用于重大決策任務時,面臨的一個主要挑戰是如何描述和控制從數據中學到的任何新政策的相關風險。醫學、公共政策和軍事等領域的利益相關者可能會擔心,采用新的數據衍生政策可能會無意中導致某些人在某些情況下出現更糟糕的結果。
在本文中,我們考慮了一個特別高風險的環境,分析了在越南戰爭中使用的美國軍事安全評估政策。戰爭期間,美國軍方開發了一種名為 "哈姆雷特評估系統"(Hamlet Evaluation System,HES)的數據驅動評分系統,為每個地區得出一個安全分數(PACAF,1969 年);指揮官利用這些分數做出空襲決定。最近一項基于回歸不連續設計的分析表明,空襲對包括地區安全、經濟和公民社會措施在內的發展成果產生了顯著的負面影響,因此在很大程度上適得其反(Dell 和 Querubin,2018 年)。我們考慮是否有可能利用美國軍方和相關機構收集的同期數據來改進 HES,以反映這一事實,同時通過改變評估系統來避免許多地區發展成果惡化的風險。
特別是,最初的 HES 是由各種 "子模型分數 "組成的,這些分數根據調查反饋來衡量每個地區的不同方面(如經濟變量、地方行政管理、敵方軍事存在)。然后,該系統通過使用預定義決策表確定如何合并不同分數的三級分層匯總方法,將這些分數合并為一個單一的安全分數。然后將安全分數提交給空軍指揮官,由他們做出目標選擇決策。因此,我們的目標是通過改變基本決策表來修改 HES,找到能優化各種發展目標的決策表,同時限制個別地區這些目標惡化的風險。
這一經驗性問題提出了幾個在高風險數據驅動決策環境中通常會遇到的方法論挑戰。首先,我們希望描述和控制新的決策、分類或建議政策可能導致某些地區組(即單個單位)結果惡化的風險。其次,HES 是輸入數據的確定性函數,這意味著要學習新政策,就必須進行外推。第三,安全得分是通過使用決策表進行一系列匯總而得出的。事實上,決策表在許多公共政策和醫療決策環境中都得到了廣泛應用(例如,美國刑事司法系統中的風險評分 Greiner 等人,2020 年;Imai 等人,2023 年),但在實踐中對其進行優化卻具有挑戰性。
為了應對這些挑戰,我們引入了一種風險度量--平均條件風險(ACRisk),它首先量化了特定政策對具有一組特定協變量的個體單位群體的風險,然后將這種條件風險平均到協變量的分布上。與描述政策平均績效不確定性的現有風險度量(如 Delage 和 Mannor,2010 年;Vakili 和 Zhao,2015 年;Bai 等人,2022 年)不同,ACRisk 度量的是所學政策對子群產生負面影響的程度。這使我們能夠更好地描述應用新政策的潛在異質性風險。
有了這個風險度量指標,我們提出了一個貝葉斯安全政策學習框架,在控制后驗預期 ACR 風險的同時,最大化觀測數據的后驗預期值。我們將其表述為一個機會受限的優化問題,并展示了如何利用條件平均治療效果(CATE)的后驗分布樣本高效地解決該問題。
擬議框架的主要優勢在于其靈活性。由于偶然性約束優化問題只依賴于后驗樣本,因此可以使用流行的貝葉斯非參數回歸模型,如 BART 和高斯過程回歸(Rasmussen 和 Williams,2006 年;Chipman 等人,2010 年;Branson 等人,2019 年),同時在復雜的政策類別中高效地找到最優政策。這對于像我們這種協變量重疊有限或沒有協變量重疊的情況尤其有幫助,我們的框架允許通過貝葉斯先驗進行靈活的外推。相比之下,頻數主義的安全政策學習概念依賴于穩健優化,需要解決潛在模型類和潛在政策類的最小優化問題,因此很難同時考慮非參數模型和復雜政策類(Pu 和 Zhang,2020 年;Kallus 和 Zhou,2021 年;Ben-Michael 等,2022 年;Zhang 等,2022 年)。
我們通過模擬研究表明,控制后預期 ACR 風險可有效限制各種情況下的 ACR 風險,降低損害某些單位子群的風險。我們還發現,盡管所提出的方法設計得比較保守,但在某些信噪比較低的情況下,它所產生的新政策的平均值要高于沒有安全約束的政策。這證明所提出的安全約束能有效地規范政策優化問題。
在我們的實證分析中,我們應用所提出的方法來尋找對 HES 的調整,以獲得更好的總體結果(以軍事、經濟和社會目標為衡量標準),同時限制某些地區在新系統下的結果比在原始 HES 下更差的后驗概率。我們考慮了兩個政策學習問題--一個是我們只改變分層匯總最后一層中使用的決策表,另一個是我們同時修改所有三層分層匯總中使用的決策表。為了處理后一種復雜情況,我們開發了一種基于有向無環圖分區隨機行走的隨機優化算法,該算法普遍適用于決策表。我們的分析一致表明,原始的 HES 過于悲觀--將地區評估得過于不安全--并且過于強調軍事因素,而對 HES 進行的數據化調整則將地區評估得更為安全,并更多地依賴經濟和社會因素來得出地區安全分數。
近年來,統計學家和機器學習研究人員對從隨機實驗和觀察研究中尋找最優政策的興趣與日俱增(例如,Beygelzimer 和 Langford, 2009; Qian 和 Murphy, 2011; Dud′?k et al、 2011;Zhao 等人,2012;Zhang 等人,2012;Swaminathan 和 Joachims,2015;Luedtke 和 Van Der Laan,2016;Zhou 等人,2017;Kitagawa 和 Tetenov,2018;Kallus,2018;Athey 和 Wager,2021;Zhou 等人,2022)。這些研究通常在頻繁主義框架下考慮以下兩個步驟--首先通過 CATE 確定給定政策的平均性能或價值,然后根據觀察到的數據,通過最大化估計值來學習最優政策
與此相反,我們采用貝葉斯視角--首先根據觀察到的數據獲得 CATE 的后驗分布,然后通過最大化后驗期望值來學習最優政策。貝葉斯方法已被廣泛用于因果推理(近期綜述見 Li 等人,2022b)。特別是,BART 和高斯過程經常被用來靈活估計 CATE(Hill,2011 年;Branson 等人,2019 年;Taddy 等人,2016 年;Hahn 等人,2020 年)。然而,貝葉斯方法似乎很少應用于政策學習。我們提出的框架利用了這些流行的貝葉斯非參數方法來實現安全的政策學習。
關于在無法識別 CATE 的情況下進行政策學習的文獻也在不斷增加。這些文獻包括帶有未測量混雜因素的觀察研究(Kallus 和 Zhou,2021 年)、帶有不遵守或工具變量的研究(Pu 和 Zhang,2020 年)、由于確定性治療規則而缺乏重疊的研究(Ben-Michael 等,2021 年;Zhang 等,2022 年)以及涉及潛在結果聯合集的效用函數(Ben-Michael 等,2022 年)。這些研究首先部分確定了給定政策的價值,然后通過穩健優化找到使最壞情況價值最大化的政策。我們的方法與之不同,我們只依靠后驗樣本進行政策學習,從而將估計與政策優化分離開來。
在強化學習(RL)文獻中,人們以不同的名稱研究了各種安全概念(如安全強化學習、風險規避強化學習、悲觀強化學習;見 Garc?a 和 Fernandez ′ (2015))。例如,Geibel 和 Wysotzki(2005 年)在尋找最優策略時,通過明確施加風險約束來控制代理訪問 "危險狀態 "的風險。相比之下,Sato 等人(2001 年)和 Vakili 和 Zhao(2015 年)在尋找高預期收益和低方差的最優政策時,將收益方差作為目標中的懲罰項。這些 RL 文獻主要關注在線環境,在在線環境中,算法的設計是為了避免探索過程中的風險,而我們研究的是在離線環境中應用數據驅動策略的風險。
我們還擴展了現有工作,提出了 ACRisk 概念,并將其作為優化新策略后驗預期值的約束條件。相關文獻是悲觀離線 RL,它使用值的置信下限(LCB)來量化給定策略的風險,并找到一個具有最佳 LCB 的策略(Jin 等人,2021 年;Buckman 等人,2020 年;Zanette 等人,2020 年)、 2020;Zanette 等人,2021;Xie 等人,2021;Chen 和 Jiang,2022;Rashidinejad 等人,2021;Yin 和 Wang,2021;Shi 等人,2022;Yan 等人,2022;Uehara 和 Sun,2021;Bai 等人,2022;Jin 等人,2022)。相比之下,擬議的 ACR 風險衡量的是與基線政策相比,新政策對某些群體產生負面影響的程度。
最后,我們的工作還與機會約束優化有關,后者被廣泛應用于不確定性下的決策分析(例如,Schwarm 和 Nikolaou,1999 年;Filar 等人,1995 年;Delage 和 Mannor,2007 年、2010 年;Farina 等人,2016 年)。例如,Delage 和 Mannor(2010 年)考慮了馬爾可夫決策過程的機會約束控制。他們假定獎勵分布為高斯模型,并使用機會約束優化來找到一種能以高后驗概率實現低遺憾的策略。我們的方法考慮了高斯模型之外的更一般的設置,并使用 ACRisk 的后驗期望值作為約束,這與現有的工作有所不同。
本文的其余部分安排如下。第 2 節介紹了美國在越南戰爭中的軍事安全評估、HES 以及相關的經驗政策學習問題。第 3 節介紹了正式設置,第 4 節介紹了貝葉斯安全政策學習框架和機會約束優化程序,以及通過高斯過程和貝葉斯因果森林實現。第 5 節介紹了評估我們建議的數值實驗。第 6 節將貝葉斯安全策略學習方法應用于軍事安全評估問題。第 7 節總結并討論了局限性和未來方向。
圖 1:20 個子模型分數的匯總。哈姆雷特評估系統 (HES) 使用 20 個子模型分數作為輸入,并使用雙向和三向決策表對其進行匯總。每個圓圈對應一個基于雙向或三向決策表的聚合,不同圓圈使用的決策表相同。
現在,我們介紹貝葉斯安全政策學習框架。首先,我們引入了一個新的風險度量--平均條件風險(ACRisk),它表示新政策在協變量條件下產生比基準政策更差的預期效用的概率。然后,我們建議最大化新政策的后驗預期值,同時限制后驗預期 ACRisk。我們的方法包括兩個步驟:首先使用靈活的貝葉斯模型估計條件平均治療效果(CATE),然后找到最優政策。我們將其表述為一個機會約束優化問題,而這個問題又可以使用基于馬爾可夫鏈蒙特卡羅(MCMC)從 CATE 后驗分布中抽取的線性規劃來解決。
本研究的主題是研究人工通用智能系統的挑戰--能夠獨立解決人類生活中不同領域問題的系統。本評論性專論研究的目的是探索當前人工狹義智能系統的性質、應用和風險,以及它們演變為具有通用智能的解決方案的可能性。
根據目的,將我們的工作指向以下任務:
1.分析人工智能領域的發展,描述其中的主要研究方法。
2.強調人工狹義智能系統的能力和領域。
3.對狹義智能的解決方案中實施的方法、原理和算法進行系統化。
4.概念化 "通用智能"的特征和具有這種特征的系統的挑戰。
5.將人工狹義智能系統的危害劃分為幾個關鍵點。
6.指導道德人工智能系統發展的監管工具和效果的系統化。
本文的主要研究論點是,盡管自二十世紀初以來,人工智能技術有了不可否認的進化發展,但人工通用智能系統的實現尚未被證明是可能的,應在長期的時間范圍內尋求。
人工狹義智能系統的發展在過去十年中取得了顯著的進步,并對人們、機構和文化產生了真正的影響。執行復雜的語言和圖像處理任務的可能性,即計算機程序在早期進化階段的主要問題,已經有了巨大的改善。目前,深度學習人工智能系統在解決視覺物體識別、機器翻譯、語音識別、語音合成、圖像合成、強化學習、社交媒體內容分析、藝術品識別、醫學圖像分析、移動廣告、金融欺詐檢測、軍事機器人訓練、評價建議等問題上應用最為廣泛。
盡管目前人工智能技術的現狀離在機器中重新創造完全的人類智能能力這一股的基礎愿望還很遠,但一些研究人員和開發人員正在努力將所取得的進展納入到具有生產、商業、運輸、醫療、教育、金融、軍事、實用和文化目的的應用中,面向社會。試圖提供更先進和規模化的服務,許多傳統和新興的人工智能系統制造商繼續投資于此類技術。
人工智能領域的理論和應用成功在該股作為一個獨立的科學分支建立后僅80年就達到了一個拐點。使用人工狹義智能系統的風險和挑戰引起了學術界和社會的嚴重關切。不斷增加的機器自動決策的智能可能性有其黑暗的一面:故意使用深度假象和不受控制的算法來推薦軍事攻擊,會導致誤導、歧視,甚至對人造成身體傷害。訓練有素的人工智能系統的偏見傾向,有助于加劇現有的社會不平等現象。
人工智能的研究已經超越了傳統的計算機和認知科學,也涵蓋了關于這些技術的社會影響問題。盡量減少人工智能系統對社會的負面影響需要創造可持續的技術解決方案。最終應用和具有普遍智能的機器的積極社會影響可以通過其創造者的道德承諾和地方、國家和國際層面的監管政策來實現。
在追求開發和使用人工通用智能系統的過程中,最重要的角色是政府,他們需要應對該股快速發展帶來的挑戰。國家監管部門對人工狹義智能系統的科學、經濟和管理重要性的認可,需要對時間和資源進行可持續的研究和開發投資,并建立一個知情和受教育的社會。
探索人工智能領域當前和未來發展的學術界和研究界在與公眾分享人工智能系統的正反兩方面趨勢和發現方面也發揮著關鍵作用。研究和評估機器學習算法對社會的影響,以實現更高的自主性,應以創造安全和與人類合作的解決方案為前提。人工智能系統必須被整合到社會福利系統中,以便在決策中明確區分人類和機器的特權。
這條線的最終成功將由人工智能系統如何幫助開展我們的日常活動來衡量,而不是它們如何有效地貶低了它們應該服務的人。目前,它們的發展仍受人類因素的制約,但沒有人知道出現什么樣的技術創新會使決策的結果有利于 "創造物 "而不是它們的 "創造者"。
無源雷達(PR)是加強公共安全和國防有前途的新興技術,可以作為保護關鍵基礎設施和邊界的補充解決方案。本文介紹了一個基于獨立PR節點的傳感器網絡,用于監測沿海邊界的情況。通過完整的覆蓋率分析,研究了部署PR傳感器網絡進行邊境監控的可行性。電磁仿真器被用來包括特定的雷達場景特征和空中和海上軍事目標的雙態雷達截面建模。仿真結果與選定的沿海場景中的真實雷達數據進行了驗證。對不同的目標進行了探測和跟蹤:合作的DJI Phantom 3無人機、船舶和降落在羅塔軍事機場的飛機。結果證實了基于DVB-T的PRs在監測邊境沿海場景方面的可行性。
視覺分析是一門通過交互式視覺界面促進分析推理的科學。北約科技組織調查、研究并促進可視化分析方面的合作--促進知識提取和數據分析,以便及時理解態勢并作出有效決策。因此,本報告目標是研究、開發和應用探索性視覺分析技術:1)利用和理解大量復雜的數據,即大數據;2)幫助隱性知識顯性化;3)提供敏銳的態勢感知;4)支持廣泛的國防領域的知情決策,包括網絡、海事、基因組學和社交媒體領域,以及仿真數據的后期分析和現場可視化。
信息優勢是軍事優勢的關鍵因素之一;利用來自多個來源的所有相關信息是北約信息優勢的一個關鍵因素。可視化和可視化分析研究對于滿足2015年北約在信息分析(IA)和決策支持(DS)方面的重點目標的需求至關重要:關于決策支持的IA&DS-1和關于大數據和長數據處理與分析的IA&DS-2。
視覺分析(VA)是一門通過交互式視覺界面促進分析推理的科學[1]。VA有三個主要組成部分,即交互式可視化、分析性推理和計算性分析[2]。在專家組所考慮的VA背景下:
北約研究任務組(RTG)探索性視覺分析調查、研究和促進了知識提取/發現和數據分析方面的合作,以便及時了解情況,支持有效決策。該小組探索了可視化如何有效地傳達信息:利用人類的感知和增強人類的認知,即把可視化和用戶的心理模型結合起來(見第2章和[4])。因此,目標是研究、開發和應用探索性視覺分析技術:1)利用和理解大量復雜的數據集,即大數據;2)幫助隱性知識顯性化;3)提供敏銳的態勢感知,以及4)支持廣泛的不同國防領域的知情決策,如海事、社交媒體、基因組學和網絡領域,以及模擬數據的后期分析和現場可視化。
本技術報告的目的是討論研究小組進行的研究、開發和應用探索性視覺分析的工作,這些數據集涉及到
這項工作證明了探索性視覺分析在檢測、監測、分析和理解大型復雜數據集(即大數據)方面的有效性,以提高對態勢的認識和決策支持。
本報告還將討論該小組在以下方面的工作:
1)可視化和視覺分析技術的研究和開發。
2)提高對研究小組工作的認識。
通過在著名的國際會議上發表論文,如IEEE VIS;以及
為北約的兩個系列講座(IST-143和IST-170)作出貢獻。
3)促進視覺分析和可視化技術在北約國防和安全領域及其他領域的開發和應用。
4)拓寬對可視化和可視化分析的理解和探索的視野。
5)利用新想法的產生。
6)通過以下方式發展北約小組間/組內合作。
組織(并在其中介紹小組的工作)一次北約專家聯合小組會議(IST-HFM-154:網絡符號學)和一次北約小組間/組間研討會(IST-178:大數據挑戰--情況意識和決策支持)。
參加其他國家組織的北約活動;以及
與來自不同小組的許多RTG組織聯合會議。
報告中的各章總結了在這個RTG過程中進行的工作。
第2章討論了視覺分析的人因考慮。它首先定義了人為因素,并描述了人為因素/以用戶為中心的設計過程。它討論了一些關于設計過程的常見迷思,供設計者注意和避免。視覺分析系統的用戶很多,也很多樣化,所以了解任何項目的用戶對于確保輸出產品的有用性和可用性是最重要的。本章提供了關于如何最佳地顯示信息的標準、指南、啟發式方法和最佳實踐的參考資料。本章還包括討論和數字,描述了對特定數據集使用立體三維可視化的優勢。最后,有一節是關于如何評估可視化的有用性和可用性。包括情況意識和工作負荷指標的資源。
第3章討論了海事領域的信息可視化和視覺分析。
第4章和第5章關注社會媒體數據和模擬數據。
第6章討論了可視化分析和深度學習之間的相互作用。
第7章討論了網絡態勢感知和網絡符號學。
第8章和第9章探討了視覺分析和可視化在北約數據中的應用,如:
這兩章討論了基于網絡訪問這些數據集的發展和由此產生的設計原則,這些數據集的用戶范圍很廣,從普通公眾到研究人員和政策制定者,即來自不同背景、具有不同專業水平和知識的人。對簡易爆炸裝置數據的分析采用了互動式講故事的方法來吸引普通公眾,而HFM-259數據的視覺分析/可視化也適合公眾參與。
第10章得出了結論并提出了建議。
船舶交通監測與探索性分析的交互式可視化:文獻中提出的方法研究了海洋數據的可視化,以便交互式地探索它們的空間分布和時間演變,或者通過結合聚合和過濾能力促進它們的比較。以地圖為基礎的可視化占主導地位,偶爾也會以數據匯總的統計圖為補充。最近,基于圖形的海洋數據可視化也出現了。基于圖形的可視化可以將匯總統計與交通動態的可視化相結合。
海事模式檢測的可視化分析:視覺分析,將有效的海事數據可視化與數據分析相結合,有多種應用。文獻中討論的用途之一是運動模式搜索和匹配,與數據過濾相結合,能夠減少數據泛濫,幫助用戶關注相關的數據特征。這種方法根據經驗來定義運動模式,例如使用基于函數的定義或規則。運動模式也可以從數據中提取,例如使用數據聚類、聚合和過濾技術。地理特征被利用來支持模式的定義和可視化。不同的聚合技術可以被結合起來,有時還可以使用語義學,以支持數據探索。其他工作專門解決異常或不一致的模式檢測。例如,密切接觸的檢測或預測被應用于海上安全,用于船舶碰撞的識別和預防。
海事模式和移動性的三維可視化:很少有作品在海洋領域利用三維可視化,因為由此產生的可視化的復雜性增加,會對用戶體驗產生負面影響。領域無關的三維可視化被用來支持單一船只動力學參數的比較。時空立方體可視化對海洋事件的分析是有效的,因為它使空間和時間特征的當代可視化。在培訓中使用的沉浸式虛擬現實模型,可能比二維地圖更有效地支持用戶(和船只)的定向行動。
網絡媒體是影響輿論以及反映輿論的最重要工具之一。這份報告分析了BBC、RussiaToday、DayKiev和delfi.lt(立陶宛的主要新聞門戶網站)對烏克蘭沖突動態的反映。采用了兩種不同的分析方法:共同發生網絡分析來反映沖突期間四個不同媒體渠道的語言變化,以及基于情感的故事情節(syuzhet)分析來監測BBC從2013年到2014年的情感變化。將沖突分為三個階段:開始(2013/11/21-2014/01/15)、升級(2014/01/16-2014/02/17)和占領克里米亞(2014/02/18-2014/02/28)。這些方法可以對媒體中的沖突動態進行可視化分析。從人工智能(AI)、自然語言處理(NLP)和大數據的可視化技術的應用中,可以更好地了解對沖突動態的看法和公眾對特定主題的情緒,以及信息分析的自動化。此外,其他類型的類似應用也是可能的。
仿真被廣泛用作生產前測試系統的一種安全且通常具有成本效益的手段,并作為一種估計其他無法訪問的系統的預期行為的方法。仿真的共同點是隨著時間的推移而發生的事件鏈,導致由仿真算法決定的結果。本章將詳細闡述使用可視化來分析仿真條件和結果,以及如何應用可視化分析(VA)來更好地理解高級仿真算法的內部生活。
有大量不同的工具用于仿真數據的可視化分析;然而,現有工具的適用性高度依賴于被分析的數據及其背景。通用的可視化軟件包并不總是能夠滿足人們的需求。通用的可視化軟件包并不總是容易被有效地用于特定領域的任務。如果沒有資源花在定制軟件上,最好的辦法是將不同的軟件組合成一個工具箱,共同滿足可視化需求。有時,尋找合適的工具必須延伸到自己的領域之外。本報告介紹了適用于批量仿真數據分析的一系列工具:時間線圖(TLG)、可視化工具箱(VTK)和ParaView、VisIt。
視覺分析(VA)技術可以應用于增強與三個目標有關的深度學習方法:1)了解深度神經網絡的內部運作;2)解釋DL的結果;以及3)利用VA和DL之間的協同作用。
在VA和DL技術的交叉點上的應用如何能夠更好地理解深度神經網絡及其結果,并實現強大的應用。將VA與AI相結合的方法將成為未來國防和安全系統的關鍵驅動力,這些系統具有日益增長的任務復雜性所要求的高級處理能力,但人們不能盲目相信AI的預測而采取行動。
網絡SA與人類的認知過程和數據處理有關。在復雜和動態的網絡環境中,通過敏銳的態勢感知,人類決策的質量和速度可以大大提高。初步評估發現,以用戶為中心的SA方法提供了分析、檢測、發現和識別模式、異常、違規和威脅以及相關事件的有效方法。這些可視化適用于提供關于網絡組件性能的詳細信息。另一方面,生態接口設計(EID)方法提供了有效的可視化,以指導用戶理解網絡應該如何運行,以及這些網絡實際如何運行;因此,分析人員可以很容易地看到網絡的運行層面,即整體態勢。這兩種方法在提供有關網絡情況的不同方面的認識和信息方面相輔相成。網絡符號有可能實現網絡態勢的可視化,盡管目前還沒有明確的方法或解決方案可以最好地實現這一點。
收集和分析有關事件的數據集可以幫助分析人員得出活動水平評估,進行趨勢分析,并對他們所監測的問題有更深入的了解。為了更好地了解簡易爆炸裝置(IED)攻擊的動態,并支持反簡易爆炸裝置(C-IED)的工作,本報告決定采用一種帶有敘事元素的探索性視覺分析方法。分析有關事件的數據集可以幫助得出活動水平評估,進行趨勢分析,并獲得更好的情況意識。探索性視覺分析的目的是讓用戶探索數據集,發現有趣的模式和見解。一些可視化分析工具提供了復雜的互動,可能會讓新用戶感到恐懼。敘事技術可以幫助新用戶開始使用一個新的交互式可視化應用程序,以了解數據集包含什么,以及如何利用探索性視覺分析工具的能力來對數據集進行新的分析。使用探索性視覺分析工具可以在北約反簡易爆炸裝置卓越中心(NATO C-IED COE)制作的烏克蘭簡易爆炸裝置事件數據集中發現有趣的模式,通過應用敘事技術作為交互式可視化工具的一部分將這些見解傳達給用戶。一旦用戶開始探索所提供的見解,他們會被邀請繼續探索,允許他們從數據中獲得更多發現。
特定領域的建模先驗和專門組件對機器學習領域越來越重要。這些組件將我們作為人類的專業知識整合到模型中。我們在這篇論文中認為,優化方法提供了一套具有表現力的操作,應該成為機器學習從業者建模工具箱的一部分。
我們提出了兩種基于優化的建模的基礎方法。1)OptNet架構,該架構將優化問題整合為更大的端到端可訓練深度網絡中的各個層,以及2)輸入凸神經網絡(ICNN)架構,該架構有助于使基于能量的深度模型和結構化預測中的推理和學習變得更有吸引力。
然后,我們展示了如何使用OptNet方法:1)作為一種結合無模型和基于模型的強化學習的方式;2)用于top-k學習問題。最后,我們展示了如何區分錐體程序,并將cvxpy領域的特定語言轉化為可區分的優化層,使本論文中的方法能夠快速建立原型。
本論文文件的源代碼以開放源碼的形式在以下網站提供:
受自然界中蜂群的啟發,蜂群機器人技術已被開發出來,用于執行各種具有挑戰性的任務,如環境監測、災難恢復、物流,甚至軍事行動。盡管蜂群對社會有重大的潛在影響,但對針對蜂群機器人技術的對抗性情景的關注相對較少。
在本文中,我們探索了一種系統化的方法,以找到對手可以利用的蜂群機器人算法的邏輯缺陷。具體來說,我們為蜂群算法開發了一個自動測試系統,蜂群缺陷探測器(SWARMFLAWFINDER)。我們確定并克服了在理解和推理蜂群算法執行方面的各種挑戰。特別是,我們提出了一個新的機器人行為抽象,我們稱之為因果貢獻度(DCC),基于反事實的因果關系的想法。然后,我們建立了一個名為SWARMFLAWFINDER的反饋指導的灰盒模糊測試系統,利用DCC作為反饋指標。我們用四個進行導航、搜索和救援任務的蜂群算法來評估SWARMFLAWFINDER。SWARMFLAWFINDER在蜂群算法中發現了42個邏輯缺陷(并且所有這些缺陷都得到了開發者的承認)。我們對這些缺陷的分析表明,蜂群算法存在關鍵的邏輯錯誤/漏洞,或者存在不完整的實現,可以被對手利用。
我們研究了不確定環境中的穩健和適應性的最大網絡流量問題,其中網絡參數(如容量)是已知和確定的,但網絡結構(如邊)容易受到對手的攻擊或失敗。我們提出了一個穩健和可持續的網絡流模型,以有效和主動地對抗在預算約束下運作的對手的合理攻擊行為。具體來說,我們引入了一種新的場景生成方法,該方法基于防御者和對手之間的迭代式雙人博弈。我們假設對手總是采取最佳的近視反應(在一些可行的攻擊中)來對付防御者準備的當前流量場景。另一方面,我們假設防御者考慮到對手在之前的博弈迭代中所揭示的所有攻擊行為,以產生一個新的保守的流量策略,該策略對所有這些攻擊是穩健的(最大化)。這種迭代博弈一直持續到對手和管理員的目標都趨于一致。我們表明,防御者要解決的穩健網絡流量問題是NP-hard,而對手的決策問題的復雜性隨著網絡規模和對手的預算值呈指數級增長。我們提出了兩種原則性的啟發式方法來解決大型城市網絡規模下的對抗者問題。在多個合成和真實世界數據集上的廣泛計算結果表明,與四種最先進的基準方法相比,防御者問題提供的解決方案大大增加了通過網絡推送的流量,并減少了預期的流量損失量。
本文的主要貢獻有以下幾點。
1.我們正式定義了計算關鍵基礎設施網絡的穩健和自適應的最大流量策略的問題,即利用一個被破壞的邊緣的流量可能通過有剩余容量的相鄰的邊緣改道的事實。為了解決這個問題,我們提出了一個網絡管理員和對手之間的迭代式雙人博弈,這被稱為網絡流量博弈(NFG)。
2.我們開發了新的優化模型來解決雙方在博弈的每個迭代中的決策問題。管理者的優化模型考慮到對手在以前的迭代中產生的所有攻擊策略,并計算出一個穩健的流量策略,在所有以前的攻擊中,在最壞的情況下使通過網絡推動的流量最大化。對手的決策問題檢查管理員在當前迭代中產生的流量策略,并產生一個攻擊(在給定預算約束下的可行攻擊中),以最佳方式破壞當前流量策略。
3.我們提出了兩種新的啟發式方法,用于解決大型城市網絡規模下的對手的復雜決策問題。第一種啟發式方法是一種加速的貪婪方法,它可以逐步確定要攻擊的最佳邊緣。第二種啟發式方法是一種基于網絡分區的方法,它迭代地確定網絡中要攻擊的一組最佳候選邊,然后在這些候選邊上解決對手的決策問題。
4.我們在多個合成和真實世界的基準數據集上提供了大量的計算結果,以證明我們提出的解決方法可以優雅地擴展到大規模的問題,并且比四個最先進的基準方法顯著增加了通過網絡推送的流量。
武裝部隊能力的發展受到使用新的進步技術的顯著影響。這種趨勢不僅反映在開展作戰行動及其后勤支持的新方法上,而且還反映在新型沖突、風險和威脅的形式上。本文討論了新興技術對發展軍事后勤能力的可能性。討論了軍事后勤能力發展在短期和長期內的潛在適用性。
社會發展與技術變革有著非常密切的聯系。技術的影響總是對武裝沖突的過程和行為產生重大影響。無論是農業社會還是工業社會,武裝沖突總是使用人們常用的技術和方法進行的。在當前的信息社會中,情況很可能也是如此。出于這個原因,監測在民用領域已經普遍遇到的所謂 "新興 "和 "顛覆性技術 "的使用發展和方法是非常有用的。這些進步往往已經成為商業領域競爭的一部分。這些新興技術以顯著的競爭優勢的形式為其用戶帶來了巨大的潛力,無論是在商業還是在武裝沖突中。
與這些技術變化相關,還值得一提的是,武裝沖突的特點正在從純粹的對稱性向非對稱性轉變。就軍事沖突中的對稱性和不對稱性的定義而言,目前還沒有明確的定義。作為識別軍事能力定義和可能的技術后果的初步框架,可以應用塞繆爾-亨廷頓(Huntington,2001)的觀點,從以下四個方面衡量軍事力量。
數量維度:如士兵數量、武器、軍事裝備和資源。
技術維度:武器和軍事裝備的效率和水平。
組織方面:部隊的團結、紀律、訓練和士氣,指揮和控制環節的有效性。
社會層面:社會有效運用軍事力量的能力和意愿。
如果兩支具有不同潛力的軍事部隊發生對抗,這就是不對稱行動。在20世紀90年代初,仍有一些對稱的因素發生,例如,1990年至1991年在伊拉克。從那時起,不對稱沖突盛行(Foltin, 2018)。就供應系統而言,這些沖突的要求更高,因為被支持的單位部署在離父母基地很遠的地方,因此整體的交付時間在延長,整個后勤鏈的資金需求也在增加。同時,在不對稱沖突中沒有后方地區,這最終意味著后勤鏈受到攻擊或破壞的概率會隨著與支持的最終受益者的距離減少而上升。
另一個需要戰略考慮的問題是技術優勢的變化及其對各個國家的地位和經濟及軍事潛力分布的影響(Lipowsky, et al., 2020)。一般來說,可以假設技術發展將進一步打開所謂的超級大國和世界其他國家的能力之間的剪刀差。就目前而言,很難想象占主導地位的國家或聯盟會就阻止或限制這些技術發展的措施達成一致。技術發展也被看作是獲得對潛在對手或競爭者的決定性優勢的一個機會。出于這個原因,最好是不斷監測技術發展的趨勢,并學習如何最好地評估其影響和對未來發展的影響。
在軍事領域,將努力應用創新技術,特別是在指揮和控制系統、偵察設備、電子戰和軍事裝備現代化方面。技術領域的一個重要方面將是其相互連接和互動的可能性,這將提高其使用效率。技術發展不再是個別發明家和創新者的事了。涉及科學和教育機構以及生產基地的廣泛平臺的組織良好和資金充足的系統正在發揮越來越重要的作用。因此,創新能力也正在成為當今追求的國際趨勢之一,特別是在國際投資和潛在的知識共享能力方面。為了監測這些創新趨勢,人們開發并維護了其變化指標,如全球創新指數(WIPO)、國際創新指數(BCG)、創新指數(GlobalEconomy.com)或TCdata360(World Bank)。這些都是技術發展的指標,有可能在國家和部門之間進行比較或監測這些變化的動態。
技術可以高度靈活地應對現實,即應對當前的威脅,也應對新出現的風險。甚至與潛在對手將掌握的技術發展有關的風險。技術發展和使用的任何重大延誤不僅會產生經濟后果,也會影響軍事能力的發展。新的分析方法使我們有可能捕捉到這些技術和社會趨勢,并在使用適當工具的情況下,提前預測這些趨勢,從而有時間準備適當的應對措施。一般來說,這種預見性與復原力和穩定性直接相關,這不僅對社會的進一步可持續的社會和經濟發展至關重要,而且對武裝部隊的能力發展也至關重要。然而,與此同時,我們也應該感知到不確定性的增加,即一些國家或其他實體是否在某些重要領域的發展中取得了先機,甚至擁有新的顛覆性技術。
二戰期間,美國最好的科學家集中在洛斯阿拉莫斯,合力開發原子武器。今天,硅谷(美國)和中國深圳的研究中心也是按照類似的集中科學和發展能力的原則運作。因此,在這方面,集中必要的能力和資源的需要可以被看作是實現預期成功的一個重要因素。然而,在這一組織措施之外,往往更難找到必要的專家和高級項目經理,或首先為實施預期項目分配足夠的財政資源。不僅僅是小國,在對這些項目的安全性有很高要求的情況下,國際合作,將教育、科學和發展機構、工業以及政府和聯盟實體聯系起來,無論是歐洲防務局(EDA)還是北約科學和技術組織(STO),以及可能與個別北約卓越中心(NATO CoE)重疊,將是至關重要的。因此,與國家撥款和技術機構一起,有可能充分利用研究和創新能力,并在國際層面上將其適當地聯系起來。
技術進步不僅僅是要努力使我們自己的防御更加有效。我們也應該意識到技術應用的潛在影響,并提前做好準備,應對未來到來的相關威脅和風險。然而,即使是對未來發展的良好預測,本身也不意味著我們將能夠完全避免未來的威脅。但是,新技術可以幫助我們調集必要的資源,并對其進行適當的調整,以做出充分的反應。我們今天需要認識到,技術的發展不僅關系到競爭優勢,而且還關系到安全,在軍事領域,關系到我們的生存。因此,沒有任何地方可以消極等待進一步的威脅或其他刺激。
后勤是所有行動成功的關鍵動力,包括戰斗和非戰斗。盡管現實和潛在的變化都有很大的動態性,但供應系統一直是一個運作良好的社會的支柱。在民用領域,供應路線的交匯點代表著貿易中心,而且往往也是區域教育中心。特定中心、城市和國家的國際重要性是基于供應流的規模。同樣,在軍事上也是如此,從保存下來的關于孫子大師的戰爭記錄中可以看出這一點。補給設計得好與壞的差異直接影響了戰爭運動的最終結果。即使是最好的戰略家也不會用巧妙的戰術來取代必要資源的缺乏,這一點仍然適用。
如今,當后勤鏈的完整性和功能性的破壞被認為是一種具有戰略意義的威脅時,物資的重要性也是顯而易見的。自20世紀下半葉以來,當通信技術被大規模傳播時,信息、金融和后來的知識流動的重要性已經上升。通訊平臺發揮了關鍵作用,但主要是由互聯網帶來的可能性。然而,另一方面,這些強大的好處也帶來了新的威脅,這些威脅是由各國經濟不斷增長的相互依存關系演變而來的。多國聯合努力的目的是盡量減少這些流動的潛在破壞,如果它是由故意的人類行為或難以預測的自然災害造成的。
為了發展武裝部隊的能力,有必要考慮到新技術,因為軍事裝備的生命周期往往很長。這些周期通常在15至20年之間。
注意到顛覆性技術、漸進式技術變革以及其未來發展的趨勢,是一個具有戰略意義的問題。這方面的例子包括使用小型移動核反應堆,以及在用電動馬達取代內燃機的同時實現遠程電力傳輸的可能性。鑒于高達70%的戰場運輸能力是用于燃料的,這些技術的使用可以被認為是 "破壞性的",也就是突破性的。同樣,在滿足被支持單位的能源需求方面也可能是這樣的情況。當然,我們也應該期待那些全新的技術將被開發出來,甚至是那些超越現有知識和想法的技術。
在這方面,我們可能會受到人工智能(AI)的解決方案和發現的啟發,人工智能已經在各個領域超越了專業人士的表現。今天一些最具顛覆性的技術將包括人工智能、量子計算、物聯網(IoT)、云技術、5G網絡和3D打印。此外,這些技術的互連和互動大大增加了系統的整體效率,并實現了所謂的協同效應。隨著每項技術達到更高的水平,以及顛覆性技術的數量從越來越多的新興技術中擴大,這種效應將有更大的潛力,按比例計算。例如,人工智能的性能取決于計算,今天最強大的計算形式是以量子計算機為代表。信息是實現最大預期效果的另一個基本要素(例如,處理分析或進行模擬)。今天,這是大量的數據,即所謂的大數據,使用算法進行處理,通常已經在使用人工智能的情況下,由于其使用機器學習的能力,可以進一步提高自己。再加上我們可以存儲在數據中心的大量可用數據,物聯網技術的合適技術應用的普及只是時間問題。來自物聯網的數據的信息價值也將在于其及時性。5G網絡使高速的大量數據成為可能。此外,系統的速度、容量或整體效率將在包括軍事在內的所有領域發揮重要的、有時是決定性的作用。
目前生物技術的發展也讓我們看到,在接收、處理和評估潛在戰場上的信息畫面方面,人腦與人工智能系統的直接支持可能存在著越來越大的互連。如果我們考慮到目前所謂的工業4.0的技術概念,直接的軍事應用只是時間問題。與生物技術相結合,不僅會實現人類能力的提高,而且可能還會延長人類的生命或增強人體的能力。這種昂貴但也敏感的研究及其實施的結果很可能最初就會得到應用,特別是在技術最先進國家的國防和安全結構中。目前,人體的增強是通過外骨骼結構的模范使用來實現的,不僅是在醫療保健或體育方面,而且還用于軍事目的。在這種情況下,它是關于人體性能的物理改善。在軍事環境中,這些系統可用于任何我們需要加強士兵舉起或攜帶更高的負荷的能力,同時延長他們的耐力和耐久性,以執行所需的任務。
一個重要的問題是,人在許多沖突中會扮演什么角色,以及隨著新技術的動態出現,部隊的結構和能力將如何演變。盡管有一些與長期發展和不可預測的事件有關的不確定性,但可以首先指出,武裝部隊的發展將以步兵的減少為特征,相反,能夠使用現代軍隊的軍事專家將增加。系統,直到現在,我們總是把人放在第一位,但他的首要地位將越來越取決于他的創造。最重要的是,人們對人工智能的發展抱有很大期望,它將越來越能夠控制人。在人工智能的某些領域,它的表現已經被超越了。此外,這不僅僅是與世界上最好的棋手進行國際象棋對決,而且還涉及到人工智能參與軍事系統,包括軍事技術。例如,來自美國的信息證實了這一點,即人工智能在空戰中戰勝了一名訓練有素的飛行員。除了上述技術(人工智能、量子計算、物聯網、云技術、5G網絡),目前還在使用小型衛星、高性能傳感器、自主和自動化系統、能源儲存、部署高超音速武器、改進機器人設備和其他一些技術。解決軍事技術趨勢,其中一些技術將在符合其所有者利益的情況下被引入。
文章旨在確定重大新興技術對軍事后勤能力的影響。從方法上看,選擇了一種內容分析方法,以確定被兩個最重要的科學論文數據庫,即Web of Science(WoS)和Scopus索引的文章和專業論文數量的擴大。主要關注的是所提出的產出的增加趨勢,一般來說,隨后與軍事后勤領域有關。
本研究的局限性在于所選方法的適用性有限,而且研究的時間范圍僅限于確定2015年至2021年期間的趨勢。
捷克武裝部隊能力發展的關鍵技術將特別包括人工智能的使用。武裝部隊及其后勤能力發展的其他重要技術包括控制信息系統、自主系統、機器人系統、包括數據存儲在內的大數據、量子技術(如加密和解密)、高超音速武器系統(不僅用于使用,而且用于防御)、增強人類能力的系統(增強--如外骨骼)或使用3D打印備件的可能性、受損軍事材料的修復或智能能源(Lipowsky等人,2020)。無人駕駛飛行器的使用將大有可為(其能力也由使用新的傳感器、控制和信息系統或使用新的彈藥類型和選擇決定)。未來也將受到生物技術發展的影響。
技術發展帶來了新的社會挑戰和機遇。除了支持國民經濟、知識共享和合作機會外,它們也會帶來潛在的風險。同時,它們的潛力也可以用來解決新出現的風險或潛在的安全威脅。經濟和政治競爭在規模上的復雜性、相互關聯性和強度需要政府和超國家組織的關注,因為這是積累必要資源和知識以實現技術應用的唯一途徑。在整個技術創新領域,量子力學領域的新知識的應用以及將其轉化為未來的量子計算機可以說是意義重大。
盡管成熟的量子計算機仍然相當理論化,但已經有早期的計算機可以至少在有限程度上根據量子原理工作。然而,這一領域的發展非常迅速,因此值得監測,特別是關于未來的潛在應用。人們越來越認識到量子計算機的重要性,它可能已經超越了其作為新興技術的地位,成為顛覆性技術。關于這些技術的簡要描述,請參見A Report 11/2020中的文章 "新興技術的影響"。量子計算機利用粒子的特性,可以同時處理大量的計算操作,因為它們能夠在1和0的狀態下運行(而不是傳統計算機的1或0)。它們的大規模推廣目前受到阻礙,因為需要在沒有電磁場干擾的環境中和接近零的低溫下使用它們。人工智能的參與和越來越多的信息量可望幫助這一發展。通過調查植物中在正常條件下發生的量子現象,可能會發現關鍵的新信息。
大量數據處理速度的提高代表了一種技術轉變,將逐漸影響到許多領域。正是在相對較短的時間內處理大量數據的能力,將使新的模型和分析工具的應用成為可能,無論是在醫療保健、工業還是研究領域。量子計算的潛力將使我們有可能放棄簡單化的模型,更多地利用 "數字孿生 "的方法,即生物或非生物物理實體的數字孿生。就軍事應用而言,這可能意味著創建整個武裝部隊的數字模型,包括針對特定對手的可能部署場景的潛在測試,以及隨后對潛在漏洞的識別。這可以導致提前進行有針對性的采購、能力發展和人員準備(見Lipowsky, 2020)。然而,現實是,即使是一個可能的技術裝備的對手也可能擁有這種準確預測的能力。量子計算機在軍事上的預期使用也與使用新的復雜算法進行加密或解密的可能性有關。量子算法可以快速解決非結構化數據集中的問題。因此,加密數據和通信的內容可能會變得可追溯,這將有助于在未來揭開大量被截獲但迄今無法破譯的信息。更有必要通過改進目前使用的系統,為新的解密可能性做準備。
軍事戰術網絡 "Link 16 "用于在北約作戰活動的框架內通過數據傳輸的方式傳輸機密信息,通過該網絡可以在北約成員國武裝部隊的結構中傳輸信息。它主要是顯示數據戰術或作戰圖像的情況,包括引導作戰車輛前往敵方目標等。"鏈接16 "目前是在飛機或船舶上使用,除了加密之外,還很難捕捉到這種類型的通信希望)。因此,這種網絡的優勢是具有相當強的抗干擾性和已經證明的可靠性。然而,恰恰與量子計算機和其他技術的發展有關,有必要開始對這種通信系統可能的脆弱性進行預測性準備。它進一步擴展到北約武裝力量的其他元素,是以實現所需的互操作性和成員國軍隊的其他元素(指揮所、軍事裝備等)之間的協調為條件的。量子計算機是許多有前途的技術之一,可以對許多其他領域的發展產生重大影響。
與其他技術一起,如人工智能或互聯網,它們將發揮重要作用,特別是在相對較新的戰爭領域,如網絡空間或太空。正是在這些領域,量子計算機將發揮作用,不僅是在更高的信息處理速度方面,而且在全面解決現有計算機無法處理或需要太長時間的大量數據的能力方面。與人工智能相結合,量子計算機的性能將限制或允許其使用。數據處理速度快很多倍,將為更有效地執行指定任務提供人工前提條件。同樣在量子計算機的情況下,一方面,它是一個更有效地使用新型計算機技術的機會,但在錯誤的手中,它是一個具有重大影響的威脅。
很明顯,新技術的發展為利用空間這一最后公認的軍事領域創造了新的機會。我們目前正在見證該領域內的大量努力和投資的轉移。它不僅僅是一個軍事用途的領域,而且一般來說,它是一個相對較新的擴大生活空間的機會。正如我們從過去的許多案例中知道的那樣,生活空間的擴大往往與武裝沖突有關。另一方面,我們必須要求尋找新的棲息地或新的稀缺資源的礦藏應該有各種原因。它往往真的與生存問題聯系在一起,唯一的解決辦法是遷移到對生命更有利的地區,或者用武力占領稀缺資源。今天,非常清楚的是,新技術的發展將使我們越來越多地滲透到太空中,這將有助于獲得了解和利用其他資源的新機會,如能源。出于這個原因,有必要監測技術發展的趨勢,及時捕捉新興技術或現有技術的新應用。
然而,就整體技術發展而言,有必要將進一步研究的范圍限制在確定那些已經在短期和長期內對軍事后勤具有最大應用潛力的新興技術。為此,以下技術被確定為未來軍事后勤能力發展的關鍵技術(Fridbertsson, 2022)。
人工智能(AI)。
大數據。
物聯網(IoT)。
數字結對。
自主系統。
機器人技術。
外骨骼。
3D打印。
根據在WoS和Scopus數據庫中的搜索,發現在一般領域和后勤領域的選定領域的出版物數量的發展(見表1-4,圖1)。WoS和Scopus數據庫是廣泛認可的科學和研究數據庫,包含高水平的出版物。檢索是基于關鍵詞的。搜索詞包括AI(人工智能)、大數據、IoT(物聯網)、數字結對、自主系統、機器人、外骨骼和3D打印。這些術語被單獨檢查(見表1-2)或在關鍵詞后勤下檢查(見表3-4)。
表1: 科學網和Scopus數據庫中出版物數量的發展情況 來源:(Clarivate,2022),(Elsevier B.V.,2022)。
表2: 科學網和Scopus數據庫中后勤領域選定領域的出版物數量的發展情況 來源:(Clarivate,2022),(Elsevier B.V.,2022)。
圖1 選定領域在科學網和SCOPUS數據庫中的出版物數量的發展,一般來說,在后勤領域來源:(Clarivate,2022),(Elsevier B.V.,2022)。
本文討論了新興技術在軍事后勤能力發展中可能的應用。在短期和長期范圍內,討論了對軍事后勤能力發展的潛在適用性。通過內容分析,確定了關鍵的新興技術,在軍事后勤條件下具有潛在的最高程度的適用性,從長期來看,但在短期內具有初步適用的真正潛力。
對WoS數據庫中數據的分析,總體上顯示了2015年至2021年期間研究和預期應用的顯著增加,特別是在數字纏繞(在此期間增加了20倍)、人工智能和物聯網(增加了6倍)以及3D打印(增加了5倍)。就Scopus數據庫中的文章和已發表的研究而言,情況類似。
當關注后勤中的潛在應用時,很明顯,數字結對仍在尋找其實際應用,不久之后,我們可以預期提出研究成果的研究數量將大幅增加,在這種聯系中,研究項目也會增加,從而導致后續的實際應用。在人工智能和物聯網的情況下,這是一個類似的趨勢,在一般的應用層面上,提出的成果數量增加。在后勤應用層面,WoS和Scopus數據庫之間沒有明顯差異。
注意研究中提出的成果數量增加的速度也是合適的。一般來說,人工智能、物聯網和數字結對的應用潛力不斷增加是顯而易見的。相反,機器人和自主系統領域的成果增長率可能已經達到其公共潛力,即解決研究項目的潛力,因此也有可能在該領域帶來新的知識。因此,這些應用領域逐漸從新興類別重疊到經典研究的分類中。在后勤領域的應用 "新興 "潛力方面,分別是。軍事后勤,可以預期在數字結對或自主系統領域的研究結果數量會有顯著增加。在后勤領域,機器人和大數據等研究領域的應用開始趨于飽和。
確定新興技術的意義和潛在影響的基本出發點應該是選擇合理的方法,在這個技術密集發展的環境中找到自己的位置。然而,有一些技術使開發和實際實施的成本巨大,對大多數國家來說,要跟上領先的技術大國是不現實的。與空間項目一樣,分享研究和生產潛力是不停步的重要前提。而這意味著在國家能力范圍內的分享和國際合作。對于不那么富裕的國家來說,找到一個跟上的方法其實并不容易。然而,應該找到它,因為技術落后將產生越來越大的后果,包括對國家安全。對于未來的決策,有必要監測變化的趨勢和相關的威脅。除了做好應對這些威脅的準備外,還有必要關注對其未來進一步發展的可能預測,包括設定適當的應對和決策方案。需要采取有效的方法,這將包括減少所需的官僚主義步驟和措施的數量。這不僅可以提高自己決策的速度和準確性,還可以減少個別決策的財務成本,所實施的措施所產生的效果應該總是大于實現它的成本。
分析的結果確定了一些正在普遍出現的領域,但其潛力已經在下降。在應用于后勤條件的情況下,大約比一般應用晚3-4年的時間轉變是明顯的。因此,這種趨勢在短期內可以預期,但從長期來看也是如此。從進一步研究的角度來看,應該把重點放在其他具體的應用上,確定研究團體,并確定他們對趨勢的建議,例如以調查問卷和專家評估的形式。
該項目基于博弈論、不確定性量化和數值逼近等方法,致力于兩個主要目標:(I)將它們應用于計算數學中具有實際意義的高影響問題;(II)它們向機器學習方向發展。本著這一目的,以及對概念/理論進步和算法/計算復雜性進步的雙重強調,本計劃的成就如下:(1) 我們開發了學習核的一般穩健方法,包括:(a) 通過核流(交叉驗證的一種變體)進行超參數調整,并應用于學習動態系統和天氣時間序列的外推;(b) 通過可解釋回歸網絡(核模式分解)對核進行規劃,并應用于經驗模式分解。(2) 我們發現了一種非常穩健和大規模并行的算法,基于Kullback-Liebler發散(KL)最小化,計算密集核矩陣的反Cholesky因子的精確近似值,具有嚴格的先驗復雜度與準確度的保證。(3) 我們引入了競爭梯度下降法,這是梯度下降法在雙人博弈環境中的一個令人驚訝的簡單而強大的概括,其中更新是由基礎游戲的正則化雙線性局部近似的納什均衡給出。該算法避免了交替梯度下降中出現的振蕩和發散行為,而且選擇較大步長的能力進一步使所提出的算法實現更快的收斂。(4)我們開發了一個嚴格的框架,用于分析人工神經網絡作為離散化的圖像注冊算法,圖像被高維空間的高維函數所取代。(5) 我們引入了一種通用的高斯過程/核方法來解決和學習任意的非線性PDEs。(6) 我們引入了一個新的不確定性量化框架,解決了傳統方法的局限性(在準確性、穩健性和計算復雜性方面)。
本文研究了以數據驅動的方式創建軍事決策行為模型的可能性。由于實際作戰行動的數據不多,而且在軍事背景下不容易創建數據,因此大多數方法都使用模擬器來學習行為。然而,模擬器并不總是可用的,或者很難創建。本研究的重點是通過在實地演習中收集的數據創建行為模型。由于數據通常是有限的、有噪音的和錯誤的,這使得創建真實的模型具有挑戰性。除了使用基于數據手工制作模型的傳統方法外,我們還調查了新興的模仿學習研究領域。其技術之一,獎勵工程,被應用于學習城市戰爭行動中士兵的行為。我們學習了基本的、但現實的士兵行為,這為將來建立更復雜的模型打下了基礎。
【關鍵詞】行為, 模型, 模仿學習, 仿真, 軍事數據
在教育、培訓、分析和決策支持中越來越多地使用模擬仿真,這導致了對軍事決策行為模型的更高要求。除了需要準確模擬物理行為,如坦克運動或子彈/導彈軌跡外,還需要模擬實體或車輛的真實戰術行為。這些虛擬參與者的決策過程被記錄在一個行為模型中。行為模型最早是在[1]中提出的,我們將它們定義為類人、人控或自主操作的現實世界系統行為的操作、概念、心理或戰術模型。
這種現實世界系統的例子可以是由指揮官指揮的坦克;由船長指揮的船舶;由飛行員駕駛的戰斗機;由地面操作員控制的無人駕駛飛行器(UAV);或人類行為者本身,例如,一個步兵。此外,我們不限制系統的大小。例如,我們也考慮將一個坦克營、一個艦隊或一個無人機群作為行為模型的合適對象。在軍事模擬中,當機器決定一個單位或部隊的行動時,這些系統被稱為計算機生成部隊(CGFs)。
新行為模型的開發和應用是一個復雜的過程。由于缺乏互操作性的方法和標準,導致各種模型四分五裂,大多只在單一的仿真系統中使用。早期的工作[2]調查了在開發的哪個階段可以實現行為模型的有效重用,以及需要哪些支持過程、技術和標準。一個結論是,人們對這一研究領域很感興趣,工具和標準也在不斷發展,AI(人工智能)及其創建性能良好模型的能力將在各種軍事應用中發揮巨大作用。另一個結論是,目前對于荷蘭國防部來說,在不同環境中重復使用行為模型的價值不足。與其說是重復使用模型,不如說是希望建立更加高效和有效的模型。實現這一目標的方法之一,是使用人工智能研究領域的最先進技術[3]。
在機器學習的應用中,正確和不正確的行為或決定的例子被提交給一個學習系統,希望該系統能夠歸納出這些例子。這被稱為監督學習[4],它的成功取決于許多因素(例如,算法、數據的大小和類型,以及實施技術)。在軍事背景下使用實際數據的一個問題是,數據可能被分類或根本無法獲得,因為軍事沖突的數量很少。
第二種常見的方法是在模擬器中部署行為模型,并使用生成的數據來改進模型的參數;而最常見的方法是強化學習[5]。強化學習的一個困難是,獎勵函數必須精心設計,模擬器中的任何錯誤都可能被利用,導致學習不希望的行為[6]。這種錯誤可能發生在人類從未遇到的不可預見的情況下,但算法由于在數百萬次的模擬中對搜索空間的探索而發生。此外,必須首先開發一個準確的模擬器,因為模擬中的錯誤可能被利用或導致學習不現實的行為[7]。在軍事環境中,強化學習方法是困難的,但也是有希望的[8]。
對于監督學習來說,需要大量高質量的數據,對于強化學習來說,需要高質量的獎勵函數和模擬器,而很多用例都存在兩者都沒有的情況。如果沒有大量的高質量數據,或者沒有能夠創建這種數據的模擬器,那么人工智能領域的許多技術就不適用。在這種情況下,并不清楚哪種方法能以最少的努力獲得最好的結果。因此,本研究旨在創建行為模型,以有效的方式顯示真實的行為,同時擁有很少的數據和沒有模擬器可用。為此,我們采用了模仿學習[9]研究領域的方法。模仿學習的重點是在師生環境中用專家的行為明確地訓練模型。如果模型能夠模仿老師的行為,它就正確地學會了行為。我們在研究中應用了這些技術,為在城市戰爭行動演習中行動的士兵和Boxer車輛創建行為模型。收集到的數據非常有限,而且沒有辦法創造更多的數據或能夠在模擬器中測試模型。
通過這項研究,我們的目標是行為模型,它可以促進(1)創建新的訓練場景,其中計算機生成部隊的行為被用于創建更好的場景[10];(2)通過將受訓者產生的數據與事先用我們的方法學到的正確行為模型進行比較,支持行動后的審查;(3)將基本戰斗技術的模型行為與士兵在戰場上的行為進行比較。如果士兵的行為看起來更成功,這可以促使調整基本作戰技術的想法;(4)為合成包裝生成逼真的模擬實體行為[11,12];(5)通過使用學到的行為為決策者提供建議,實現對指揮官提供基于模擬的決策支持。
第二節研究了創建行為模型所需的數據要求。第三節介紹了本研究的用例。第四節介紹了手工制作模型的傳統方法。我們在第五節中介紹了模仿學習這一新興領域的背景信息,并在第六節中介紹了其在本用例中的應用。最后,第七節提供了結論性意見。
為了創建有效的行為模型,我們必須了解在什么情況下,用什么情報和什么命令來記錄行為。行為數據和模型必須與決策過程相匹配。因此,在開始檢索數據之前,我們首先要了解軍事決策過程。
在軍事環境中做出任何決策之前,必須先了解情況。通過分析所有可用的信息,就能建立起態勢感知(SA)[13, 14]。在軍事術語中,SA是指揮官對戰場的理解[15]。SA可以分為三個層次[16]。第一個層次是對當前局勢要素的感知,例如,了解自己和敵人部隊的位置和狀態。第二是對局勢的理解。通過了解局勢中的物理元素和人員的動態,可以對局勢進行解釋。例如,一架敵機是在攻擊飛行路線上還是在執行偵察任務。第三個層次是對局勢的未來狀態的預測,例如,如果不攔截,敵機將向航母運送危險的有效載荷。只有達到高水平的SA,才能做出有效的決策[17]。有了足夠的經驗,可以在一瞬間做出決定,因為情況被即時識別。這些被稱為識別激勵決策[18],本質上是數據驅動的(經驗)心理行為模型。提高指揮官的安全意識的技術,有助于更好地做出決策[19]。
當情況變得復雜時,為了不忽略重要的信息,要遵循系統的方法。這種過程的一個例子是軍事決策過程(MDMP)[20]。這是一個漫長的過程,不適合在戰場上幾分鐘或幾秒鐘內做出決策。另一個例子是北約綜合行動指令(NATO COPD)[21]。在所有這些情況下,都要詳細研究環境信息以獲得SA,只有在獲得足夠的SA后才會做出決策。我們將行為區分為四個層次:在(1)戰略層面上,決策是基于(多)國家目標做出的。在(2)戰役層面上,決策是為了開展大型行動而作出的。
根據當前的行為水平,所考慮的信息量也不同,決策的速度也不同。盡管行為模型可用于從瞬間決策到大型規劃環節的任何級別的行為,但我們在本文中將范圍限制在戰術行為上。
就其本質而言,行為模型在做決定時遵循與人類相同的步驟。一個突出的框架是OODA循環[22]。這個循環的四個階段是觀察、定位、決定和行動。觀察和定向階段的唯一目的是獲得安全保障。這個軍事模型已經成功地應用于各種自主代理[23],并被應用于大量的情況[24, 25, 26]。
第二個框架被稱為BDI:信念、欲望和意圖[27, 28]。基本的BDI范式被廣泛用于在基于代理的方法中實現類似人類的智能,但往往達不到真正的 "智能代理",因為代理缺乏 "協調和學習"等理想特征[25]。BDI在[29]中得到了擴展,現在被廣泛用于實踐中。BDI可以用于OODA循環步驟中,并且通常被應用于定向和決策步驟中[30]。
在這兩種情況下,模型的創建者決定世界的哪些相關因素被包括在所謂的世界模型中,以及這些因素如何被允許相互作用。如果互動是嚴格定義的,那么就會使用一個更經典的方法,如規則引擎或決策樹。如果不能創建足夠明確的模型,那么機器可以接受任務,根據數據學習各因素的相關性(例如,用神經網絡)。在所有情況下,如果一個因素被遺漏了,要么是模型設計者沒有包括它的定義,要么是排除了相關的數據,那么模型就不可能考慮到它。因此,模型的性能與創造者對問題的洞察力息息相關。
在仔細設計、調整或學習模型之后,模型的使用就很簡單了。設計的因素輸入到模型中,并通過預先設計或學習的步驟進行轉換,以產生所需的輸出。由于設計、調整和學習的方法和組合的數量是巨大的,因此出現了各種研究學科,專注于高效創建模型的研究領域。許多這些研究領域需要數據來創建行為模型。
當談到軍事數據時,首先想到的是分類和分享數據的限制[31]。由于信息的分類級別通常是受限制的,例如國家或北約的級別,可以獲得的數據量是有限的。這意味著,任何研究都取決于是否有適當的許可,以及是否在數據供應界(通常是國防部)內有適當的聯系。在獲得接收數據的許可之前,人們必須知道并確定需要什么樣的數據。
創建行為模型的最佳數據來自于實際的戰斗行動。然而,從實際作戰行動中記錄的數據并不多,而且記錄的數據往往不能用于創建行為模型。為研究目的生成數據是不可行的,因為這需要與敵對勢力交戰。使用歷史數據也是有問題的,因為軍事技術和理論變化很快,所需背景的數據并不存在。
一個合理的方法是使用在訓練和演習中收集的數據。這樣的訓練可以是(1)在模擬環境中執行,使用建設性的模擬,如VR部隊,它可以模擬許多規模的部隊[32],或者(2)在現場與實際士兵一起執行。使用實際數據的承諾是,可以創建行為模型,而不需要創建(復雜的)模擬器來促進訓練。在這項研究中,我們希望能實現這一承諾,盡管使用原始數據會帶來各種問題,如噪音和缺失的背景。如第三節所述,我們選擇了移動作戰訓練中心的一次演習作為使用案例。
移動作戰訓練中心(MCTC)[33]于2003年由荷蘭國防部引進,使士兵能夠在真實的環境中練習作戰,但不使用彈藥。激光器和傳感器被用來模擬發射武器。該系統跟蹤士兵和車輛的位置、使用的彈藥和健康狀況。各種武器(如步槍、重機槍、間接射擊)、車輛(如Fennek、Boxer)和地形(如越野、城市)都可以納入演習。系統產生的所有數據都被記錄下來,以便在行動后的審查中使用。圖1顯示了一名使用MCTC訓練的士兵。注意頭盔上的激光傳感器在士兵被擊中時進行記錄,而槍上的激光則用于射擊對方的部隊。
圖1:一名士兵在MCTC中訓練[35]
我們選擇了一個在荷蘭訓練村Marnehuizen進行的演習,該村完全是為了訓練城市地形上的軍事行動而建造的[34]。圖2顯示了該村的概況。在選定的演習中,藍方部隊從東北部的橋上進入村莊,任務是清除村莊中的敵軍。一場挨家挨戶的戰斗持續了兩天,直到村子西側的最后一棟房子被宣布沒有敵人。
圖2:荷蘭Marnehuizen的城市環境中軍事行動訓練場的地形圖。(右圖)解析過的地形圖,半自動地從左圖中得出[34]。
記錄的MCTC數據包含士兵和車輛的定期位置。此外,數據中還包括射擊事件、命中事件、殺傷事件和車輛關聯(當士兵進入或離開車輛時)。這些數據可以讓訓練員對戰場的當前狀態有一個大致的了解。數據的一致性在幾個方面有所欠缺。士兵的位置每15秒才提供一次,而且是在網格上的一個單元中(單元大小大約為1米×1米)。士兵的方向沒有被報告。有時士兵會同時移動幾個網格單元,例如車輛快速行駛時。也并不總是清楚一個士兵是在建筑物內還是在建筑物外,因為建筑物的墻可能穿過這樣一個網格單元的中心。其他的局限性包括,并不總是清楚士兵在向什么地方開火,而且(未)登上車輛的不確定性很大。這些局限性對于獲得數據所針對的行動狀態的粗略概述來說不是問題,但對于訓練模型來說確實是一個額外的障礙。
提高軍事行為模型真實性的一個直接方法是手動創建模型的結構,并根據收集的數據調整其參數。通過這種方式,專家保持對模型所能學習的內容控制,并且參數的調整應該很容易執行。創建的模型可以被看作是一種將數據與專家知識相結合的方法。該模型最常反映的是當前學說中明確定義的戰術或行為,如邊界超視距[36, 37]。然而,在這樣的方法中,模型永遠不會比它的創造者更聰明,因為在人造的結構中不存在創造力的空間。當更多的自由被賦予算法時,可以觀察到更多的創造力,甚至可以超過人類的表現[38, 39]。然而,手工制作的模型確實有一個優勢,那就是對軍事專家來說非常容易理解和解釋,因為該模型的結構與專家的決策過程非常相似。例如,這樣的模型可以通過比較從數據中產生的模型和正確行為的模型來用于行動后的審查,從而幫助只有有限時間分析訓練中所有數據的訓練教官向受訓者介紹情況。模型參數的巨大差異是學習點的指標。
在這一節中,我們想說明如何用Marnehuizen軍事演習的數據來創建和調整手工制作的行為模型。確定的用例是一輛Boxer車的行為,它為進行挨家挨戶作戰的士兵提供火力支援。該車被召喚到建筑物中,提供壓制性火力,并撤退,以便在很長一段時間內不容易受到反裝甲彈藥的影響。這種行為的示意圖見圖3。
圖3:Boxer車提供的火力支援示意圖。(1) 左上角:Boxer手的初始位置用紅色表示,一個步兵小組用藍色表示。(2) 右上角:Boxer車輛接近右下角的建筑物并提供火力壓制。(3) 左下角:步兵接近建筑物。(4) 右下角:Boxer的車輛撤退。
圖3中顯示的行為必須被抽象成一個模型。在這項研究中,我們純粹考慮時間方面。其他方面,如Boxer和步兵之間的相對位置,或Boxer和建筑物之間的相對位置,則留待今后的工作。我們對五個步驟進行了區分:
1.Boxer進入射擊位置所需的時間。
2.在步兵開始移動之前,Boxer提供壓制火力的時間。
3.步兵移動到建筑物所需的時間。
4.步兵到達建筑物和Boxer出發之間的時間間隔。
5.清理建筑物并從步驟1重新開始所需的時間。
在這項研究中,我們重點關注步驟2和3。為了確定這些參數,必須知道Boxer和步兵何時到達建筑物。其他參數可以用下面描述的類似方法得出。在練習中,如圖3所示,要接近幾座建筑物,可以對這一程序的每一次迭代進行分析。根據Boxer車輛和步兵小組的位置,對建筑物的位置以及這種迭代的開始和結束時間進行注釋,是手工完成的,這已經是一項具有挑戰性的任務。由于有多輛車,第一個問題是:哪輛Boxer目前正在提供壓制火力?這輛Boxer是否真的在向選定的建筑物開火?射擊事件是數據集的一部分,但是當射擊沒有與命中事件相聯系時,就不知道射擊的方向是什么。特別是在壓制火力的情況下,大多數的射擊都沒有擊中任何可以記錄射擊方向的傳感器。這就使得人們猜測Boxer是在對建筑物進行壓制射擊,還是在對其他東西進行射擊。另外,步兵群的移動也不是微不足道的。從一個建筑到另一個建筑的小組并沒有被定義為戰斗順序(Orbat)中的小組:他們是在現場從排(Orbat中定義的)的可用士兵中挑選出來的,并在每次迭代中進行改變。為了能夠衡量任何必須學習(一組)士兵和輔助車輛行為的算法的有效性,數據集通過選擇提供火力支援的Boxer車輛和步兵清理建筑物的時間段進行了人工注釋。
從算法的角度來看,我們把Boxer到達現場提供火力支援的時刻定義為車輛離建筑物最近的時間段。圖4顯示了Boxer車輛的距離如何隨時間變化的例子。演習開始時的大峰值是因為Boxer在沒有積極參與的情況下停在一個大的距離上。
圖4:隨著時間的推移(X軸),Boxer(Y軸,以英里為單位)與目標建筑的距離。
Boxer車輛到建筑物的最小距離被選為火力支援的開始。這個衡量標準可能是有問題的,因為在建筑物被清理后駛過可能會進一步減少距離,但這是一個直接的計算方法。圖5顯示了計算出的事件和人工注釋的事件之間的絕對差異,以分鐘為單位。在最壞的情況下,該算法的錯誤超過600分鐘。由于演習需要兩天時間,而且晚上沒有運動,在錯誤的一天選擇一個時刻就會產生很大的誤差。可以得出結論,這種檢測Boxer何時提供火力支援的方法并不十分準確。
圖5:通過選擇 Boxer 到建筑物的最近距離,以分鐘為單位測量與手動注釋事件的差異。每棟樓都是單獨的一列,各列已按誤差排序(即第1列的建筑物誤差最大,第25列的樓房是誤差最小的建筑物)
對于檢測步兵何時在清理建筑物,可以采取稍微不同的方法。由于在演習過程中,清理建筑物的士兵小組會被定期洗牌,我們必須在數據中找到哪些(子)士兵小組實際上正在清理哪座建筑物。為此,我們把清場的時刻定義為X個士兵在距離建筑物Y米范圍內的時刻,而X和Y的參數應該被仔細選擇。請注意,藍軍的任何X名士兵,無論他們在戰斗順序中的分配如何,都足以觸發這一條件。對于每個建筑,不同的士兵可以觸發該條件。參數X和Y可以通過使用提供的數據來選擇,如表1所示。通過選擇5名士兵在建筑物15米半徑范圍內的時間戳,可以獲得最佳效果。圖6顯示了每個建筑物在這種設置下獲得的誤差。
表1 在不同的士兵人數和距離參數下,檢測到士兵清理建筑物的時間與人工標注的時間戳的平均差異。(x)表示在該設置下,有x次沒有檢測到建筑物的清場,因為在演習中沒有出現所需數量的士兵足夠接近建筑物的情況。這個數字代表了演習中26座建筑物的平均誤差。
圖6:與手動注釋事件的差異,以分鐘為單位,選擇 5 名士兵,建筑半徑為 15 米。每棟樓都是一個單獨的列,并且列已經按錯誤排序(即第 1 列中的建筑物錯誤最高,第 25 列的建筑物是錯誤最低的)
本節表明,用軍事數據調整專家模型是可能的,但并不容易。主要的挑戰是,在記錄數據的行為層面和我們試圖建立模型的層面之間存在著不匹配(見第二節A)。數據是在技術層面上記錄的(例如,在不知道射擊方向的情況下開槍),而我們試圖模擬的決策是在戰術層面上(例如,清除建筑物)。如果數據能在戰術層面上創建(例如,清除建筑物的時間戳),以及更精確和一致,專家模型就能更容易地創建。在數據采集步驟中,用戰術信息自動充實技術層面的數據,這本身就是一個具有挑戰性的課題。我們現在已經創建了兩個模型,為Boxer的火力支援理論做出了貢獻(見圖3)。為了完成Boxer的理論,還需要幾個模型,但由于很難從軍事數據中創建專家模型,我們決定研究一種完全不同的方法:模仿學習。
模仿學習技術試圖模仿人類在特定任務中的行為[9, 40]。這些技術屬于更廣泛的觀察性學習范疇。在一般的觀察性學習中,原始行為不一定是由愿意或知道的參與者創造的[41]。模仿學習可以被看作是觀察學習的一個特例,學習的目的是在相同的情況下再現與原行為完全相同的動作,以及展現以前未見過情況的逼真行為。模仿學習與示范學習密切相關,在示范學習中,人有目的地示范如何執行任務,以使代理執行同樣的任務[42, 43]。從示范中學習這一術語經常被用于機器人技術[44, 45, 46, 47]。
除了在機器人領域的廣泛應用外,模仿學習也被應用于模擬器和游戲。玩家的行為可以通過這種方式被輕易地記錄下來,模擬器或游戲可以被用于訓練目的[48, 49, 50, 51]。一些應用側重于模仿玩家的確切行為,以便將學到的行為用于其他目的。例如,在[52]中,玩家在賽道上的行為被學習,這樣新的賽道就可以使用模型進行測試,而不是由人類游戲測試員進行測試。其他工作的重點是利用人類的例子來創造超人類的表現[53, 54, 55]。
模仿學習大致可以歸為三類。(1) 在最基本的形式中,人們有一個標記的狀態集。這些標簽是人類在給定狀態下選擇的行動。現在,這個問題可以被當作一個有監督的學習任務來處理,類似于分類任務。這種方法被稱為行為克隆[47]。行為克隆不需要訪問一個模擬器。(2) 當一個人確實有機會接觸到模擬器,因此也有機會接觸到狀態轉換內核時,我們說的是直接策略學習[50]。在這個類別中,我們知道行為人在每個狀態下的可用行動是什么,并且可以學習一個過渡策略。過渡策略在所有可用的行動中選擇最理想的行動。(3) 當人們對學習人類在評估未來狀態時使用的狀態屬性值權重感興趣時,我們說的是反強化學習[56]。這些方法通常使用過渡核來觀察可能的未來狀態,以便創建一個類似于人類演示者偏好狀態的可解釋評價函數。
手工制作的模型和模仿學習的主要區別在于算法在正確再現行為方面的自由度。在提供火力支援的Boxer的手工模型中,我們選擇距離是決定當前提供火力支援的最有辨識度的因素。唯一需要調整的參數是距離閾值。在模仿學習的環境中,算法被提供了所有的狀態信息,并被給予自由來決定最相關的特征是什么。這種方法在很難手動創建合適的模型領域中特別成功[57]。
模仿學習在軍事領域也有一些應用[58, 59]。例如在[60]中,模仿學習被應用于學習計算機生成部隊的決策策略。所學到的行為隨后可以在模擬器中用于訓練士兵[39]。
前面提到的研究有一個共同點,就是使用人在環模擬器來收集人類案例。它確切地知道當前的狀態是什么,可能的行動是什么,以及采取了行動后的下一個狀態會是什么。這使得行為模型的創建成為可能。然而,在MCTC數據的情況下,只有狀態信息是可用的,沒有關于當前可用行動的知識,也沒有關于士兵的信息位置是什么。例如,只知道士兵的位置,而不知道士兵所面對的方向或士兵正在考慮的潛在行動。這個問題在文獻中被定義為從觀察中模仿(Ifo)[61]。Ifo可以進一步細分為基于模型和無模型。在基于模型的情況下,要么必須學習從狀態到行動的轉換,要么必須學習從狀態-行動對到下一個狀態的轉換。MCTC的用例屬于無模型的范疇。在這個類別中,我們可以進一步區分為:(1)使用模擬器收集數據并將數據與專家示范進行比較的對抗性方法,以及(2)獎勵工程[62],用于學習狀態獎勵函數。典型的例子是通過觀看一個人執行所需任務的視頻圖像來學習一個任務[63, 64]。
由于MCTC沒有可執行的模擬器,對于MCTC的用例來說,只有獎勵工程是一個可行的選擇。我們開發了一個系統,當給定當前的參與狀態時,能夠預測未來一定秒數的狀態。這與[65]密切相關,后者在強化學習環境中使用預測狀態和實際狀態之間的差異作為獎勵函數。主要的區別是,由于沒有模擬器,所以不能用MCTC的數據進行強化學習。
我們必須定義 "狀態"在MCTC方面的含義。收集到的數據包擁有完整的數據,包括所有士兵和車輛、藍色和紅色部隊的數據。如果把整個交戰過程看作是狀態(即所有玩家和環境中一切事物的狀態),那么就有可能出現天文數字般的許多下一個狀態,例如每個士兵或車輛可以向任何方向移動。而且,士兵也不是用所有的全局信息來決定自己的行動,而是用自己的局部信息。因此,我們將狀態定義簡化為士兵的局部環境,并試圖預測士兵的下一個位置。盡管士兵的狀態還有很多,如射擊狀態、健康狀態、當前姿勢,但我們目前只關注預測下一個位置,以便評估獎勵工程的適用性和MCTC提供的數據的適用性。
周圍的狀態特征被抽象為一個網格,每個網格單元和特征的組合都是決策的輸入。做出決策的士兵位于網格的中心位置。真正的士兵有可能考慮到網格外的信息(例如,當能見度好時,或通過無線電接收信息時),但我們只考慮到屬于網格單元內的信息。也有可能目前考慮了太多的信息,因為包括了不在視線范圍內的信息(例如,當有建筑物擋住時)。可以增加士兵可能考慮的各種特征:河流的位置、一天中的時間、當前的任務、剩余的彈藥、當前的健康狀況、過去采取的行動等等。這與士兵的實際推理方式越接近,預計學習結果就越準確。
在我們的環境中,我們使用一個8x8的網格,每個網格的實際大小為83米乘83米,如圖7所示。我們考慮到友軍和敵軍士兵的鄰近情況。在圖7的狀態中,士兵西北面的單元格中有1名友軍士兵,而其他單元格都有0名友軍士兵,西南面有一名敵軍士兵。位于網格外的士兵沒有被考慮在內。我們還考慮到過去采取了什么行動(即過去三個episode的位置)。這個輸入網格是重復的,并為三個歷史episode中的每一個填補。我們選擇以15秒為一個episode的步驟,因為這符合MCTC收集數據的速度。任何更短的時間都是沒有用的,因為在各集之間沒有新的位置被告知。
作為監督學習的目標,如圖8所示,使用3乘3的網格,單元的寬度和高度為2米。單元的大小與數據記錄的分辨率一致。網格在單元移動到的位置上有一個1,其他地方有0。在單元的下一個已知位置在網格之外的情況下,將選擇最近的網格位置作為目標。
圖7:用于決策的局部特征的輸入網格。每個單元是83x83米,我們計算每個單元中友軍和敵軍的數量。最后三個episode的輸入網格構成了神經網絡的輸入。
圖8:決策的輸出。一個3x3的運動位置的網格,每個單元是2x2米。箭頭表示根據MCTC的數據,15秒后士兵的位置在左下角的網格單元,這個單元被用作情況的監督標簽。
我們訓練一個具有3個隱藏層的全連接神經網絡,每層有100個隱藏神經元。我們使用整流的線性單元激活函數和平均平方誤差作為損失函數。一個有趣的討論是如何評估創建的神經網絡的性能。雖然預測位置的小差異看起來并不壞,但一系列的小差異會在以后累積成一個大的差異。同時,一個決定可以將士兵帶入一個不同的環境(例如,通過左邊或右邊的建筑物)。這個決定點之后的行動可能會有很大的不同(例如,向左走時要找掩護,而向右走時要成功清除建筑物)。因此,我們無法評估士兵行為的真實性,除非準確的位置和狀態已經在原始數據中出現。
因此,我們以兩種方式來衡量學習行為的真實性。(1) 基于原始數據,使用測試集上的精度和召回率,這是定量的衡量標準。(2) 我們重新播放軍事演習,其中一個或幾個單位由所學模型控制,并判斷其行為。所有其他單位都使用原始數據進行放置和移動。這提供了對所學行為的洞察力,這是一種定性的衡量標準。
表2顯示了監督學習方法的衡量標準:準確度、精確度、召回率和f1-score。請記住,有9個輸出單元,隨機猜對的概率是0.11,在這種情況下,所有四個衡量標準的值預計都在0.11左右,用于隨機猜測。訓練集是平衡的,所以每個輸出單元都有同等數量的例子。表2顯示,準確度比隨機猜測高,但離穩定地預測下一個狀態仍有距離。
表2:預測士兵下一個狀態的量化
為了分析所學模型的行為,我們在演習中放置了一個由該模型控制的單一士兵。顯示了由模型創建的士兵的運動路徑與原始士兵的運動路徑的比較。這里我們看到,神經網絡的移動方式與原始士兵的移動方式大致相同。這個例子也突出了處理這些數據的難度。原始士兵的位置(綠色)有時會出現大的跳躍(例如,東部的第一個數據點附近沒有鄰居)。
圖9:模型的移動和實際的移動比較。突出顯示的藍色位置是由神經網絡引導的士兵。高亮的綠色位置是原始士兵的實際位置。兩者的起點都是在城鎮的東邊,并且都逐漸向西移動。
通過分析這些痕跡中的幾個,我們可以得出結論,該模型學到了兩個與實際士兵行為相似的行為特征。(1) 靠近友軍士兵是有益的。士兵們經常作為一個群體移動,模型通常選擇向友軍單位移動。(2) 當歷史上的移動是朝著一個方向的時候,下一次移動也是朝著這個方向的概率很高。由于士兵有一定的任務,即清除建筑物,所以士兵一直向目標方向移動,直到到達目標為止,這是合理的。盡管這些特征是有道理的,但它們也在某些情況下產生了不現實的行為。(1) 當多個士兵被模型控制時,他們往往會相互粘在一起,停止移動。人造的士兵并不想與對方拉開距離。(2)當一個模型控制的士兵進入一個沒有朋友或敵人的領地時,它傾向于一直朝同一方向行走,直到退出戰場。由于預測是由最近的歷史移動主導的,而所有其他的輸入都是0,所以模型決定繼續朝同一方向移動。造成這種情況的原因之一是,當前的任務不是輸入特征的一部分。
我們認為,這一結果表明,在自動創建一個基于獎勵工程方法的士兵決策過程模型方面邁出了第一步。雖然目前只學到了基本的行為,但我們預見到,當更多類型的輸入,如地形特征和命令,被納入學習過程中時,會出現更復雜的模式。
本文研究了以數據驅動的方式,利用軍事決策創建單位行為模型的可能性。我們表明,用軍事數據調整由主題專家創建的模型參數是可能的。但對于數據而言即使是手動注釋的,也不能直接使用。由于數據的收集是為了其他目標,行為背景是不同的,這阻礙有效使用數據達成我們的目的。我們調查了模仿學習這一新興的研究領域,并將其應用于學習預測城市建筑清理工作中的士兵行動這一用例。這種技術不僅可以在相同的情況下再現真實的士兵行為,而且還可以對行為進行概括,以獲得以前未見過情況下的真實行為。雖然該研究領域有許多子領域,但目前只有獎勵工程似乎是適用的,在既沒有模擬器,也沒有可能性在一個狀態下檢索一組動作來學習動作策略的情況下。我們通過嘗試根據本地狀態信息來預測士兵的下一個狀態來證明獎勵工程的方法。神經網絡學習了兩種基本的士兵行為特征,在某些情況下創造了現實行為,而在其他情況下則表現出不合邏輯的行為。我們認為,不符合邏輯的行為仍然可以通過額外的特征輸入進行改進。
我們的總體結論是,模仿學習對于創建軍事決策的行為模型似乎很有希望。如果成功的話,以這種方式創建的行為模型可以在幾個方面給軍隊帶來好處。例如,可以考慮為創造新的訓練場景做出貢獻,在這些場景中,計算機生成部隊的行為得到了改善,通過比較受訓者的行為和學到的正確行為來支持行動后的審查,比較并調整基本的戰斗程序以適應戰場上的行為,能夠顯示準確行為的模擬實體合成包。根據所開發模型的準確性,一些應用可能比其他應用更容易支持。例如,在決策支持環境中,與合成包環境相比,對精度的要求可能更高。
在未來,我們希望(1)創建自動方法,通過在戰術層面上創建額外的背景來預處理MCTC的數據。我們想到的方法有:估計當前的觀點,或當前執行的是什么(類型的)命令。這種額外的背景可以幫助改善模型的參數調整。(2)我們想改進獎勵工程方法的特征集,以使行為更加真實。(3) 我們想探索可解釋的學習方法,以便使學習的行為更加明確。然后,解釋可以用于各種目的,如行動后審查。
這項研究有助于V/L1801 AIMS(AI for Military Simulation)研究計劃,研究如何有效地創建軍事行為模型,用于解釋和模擬(人類和實體)行為。