本文介紹了一種新的 L-V-C 模擬框架,用于開發空戰戰術、技術和程序(TTP),從而推進了實戰(L)、虛擬(V)和建構(C)模擬方法。在該框架中,戰術、技術和程序(TTP)是在獨立的 C、V 和 L 模擬階段反復開發的。這樣既能利用每類模擬的優勢,又能避免純 LVC 模擬的挑戰。C 階段在不考慮人機交互(HMI)的情況下,根據飛機的存活概率(Ps)和擊落概率(Pk)提供最佳 TTP。在 V 階段,通過評估 Pk 和 Ps 的適用性,以及有關飛行員態勢感知、心理工作量和 TTP 堅持性的人機交互措施,對最佳 TTP 進行修改。在 L 階段,使用真實飛機來評估所開發的 TTP 是否能在真實環境中實現可接受的 Pk、Ps 和 HMI 測量。該框架的迭代性質使 V 階段或 L 階段能夠揭示 TTP 的缺陷,并將不完善的 TTP 返回 C 階段或 V 階段進行修訂。本文是兩部分研究的第一部分。第二部分展示了該框架在作戰使用的 C- 和 Vs 模擬器以及真實的 F/A-18C 飛機和飛行員中的應用。
關鍵詞:空戰、人為因素、人機交互、實時-虛擬-建構、心理工作量、性能、模擬、態勢感知、測試與評估
本文是兩部分研究的第一部分。在第 1 部分中,介紹了用于 TTP T&E 的實時-建設性-虛擬(L-V-C)模擬評估框架。在第 2部分中,使用實際使用的 C 和 V 模擬器以及真實的 F/A18C 飛機和合格的戰斗機飛行員演示了該 L-V-C 框架的使用。與 LVC 模擬不同,L-V-C 框架并不試圖混合不同的模擬類別,因此避免了 LVC 模擬所面臨的挑戰。建議的框架由獨立的 C、V 和 L 階段組成,在這些階段中,TTP 在給定的空戰場景中反復發展。在 C 階段,不考慮 TTP 的定性規則,但使用 C 仿真來確定 TTP 定量規則的 MP 最佳值。在 V 階段,采用這些最優定量規則,并改進定性規則的口頭描述,直到使用 Pk 和 Ps 衡量的 HMP 輸出足夠,且 NP、SA 和 MWL 分數可接受為止。這樣,在模擬環境中就得到了由定量規則的 MP 最佳值和定性規則的 HMP 最佳描述組成的 HMP 最佳規則。最后,使用這些 HMP 最佳規則對 TTP 進行 L 階段的 L 模擬評估。如果 HMP 最佳規則在現實生活中的使用能產生適當的 HMP 輸出,且 NP、SA 和 MWL 分數可以接受,則 HMP 最佳規則可用于實際操作。換句話說,根據 Pk 和 Ps 得出的運行 HMP 最佳規則可確保實現飛行的主要目標,同時在實際環境中 NP、SA 和 MWL 仍可接受。這樣,即使最終使用任務的要求和復雜程度超過了 TTP T&E 期間的要求和復雜程度,也能在人類能力和限制方面保持理想的安全系數。
L-V-C 模擬框架的一大優勢在于其迭代性。也就是說,如果需要修改定性規則,可以在 L 階段或 V 階段之后重復 V 階段。或者,如果需要修改定量規則,TTP 可以從 V- 或 L 階段返回 C 階段。在 L 階段和 V 階段,HMP 輸出,特別是 SA、NP 和 MWL 分數,為檢測 TTP 可能存在的缺陷和確定如何改進 TTP 提供了強有力的工具。此外,如果需要,TTP T&E 需要反復進行 C 仿真,V 階段和 L 階段的這些分數還可用于生成修改后的優化標準和 C 階段應用的約束條件。最終的 TTP 在 MWL、NP、SA 和最終的 HMP 輸出之間實現了很好的平衡,這反映了飛行的主要目標。
圖 2 顯示了由 C、V 和 L 三個階段組成的 L-V-C 模擬框架。在使用該框架之前,必須根據 TTP T&E 的總體目標,定義初始 TTP 及其使用場景。情景描述了所涉及的友機和敵機及其主要目標。TTP 是一種描述友機如何在特定場景中以最佳方式實現其目標的方法。TTP 通常以相對于敵方飛機的時間表的形式向飛行員簡要介紹。場景中使用的飛機和系統均以 C- 和 V- 模擬建模。這些模型必然是對現實的不完全抽象。不過,這并不會對 L-V-C 框架構成重大挑戰,因為 TTP T&E 的 L 階段是使用真實飛機和系統進行的。初始 TTP 的定量規則值和定性規則描述均基于現有的最佳假設和實踐。L-V-C 模擬框架用于確定部分或全部規則的作戰 HMP 最佳值或描述。它可用于確定整個飛行、一個要素或單個飛行員的運行 HMP 最佳規則。
由于實彈演習可用性有限、成本高、風險大,空中和地面火力與機動的協調為模擬訓練提供了理想的目標。目前的模擬系統為操作員提供任務導向型訓練,但沒有機會練習與其他機構的溝通和協調。本文采用分布式仿真工程和執行程序來指導仿真環境的創建,通過在一個逼真的聯合武器場景中演示地面觀察員、近距離空中支援、建設性水面火力和通信工具仿真的互操作性,來彌補這一訓練能力上的差距。使用分布式交互仿真(DIS)標準和 ASTi Voisus 通信軟件開發了一個仿真環境,其中包括波希米亞交互仿真公司的 VBS4、洛克希德-馬丁公司的 PREPAR3D 和 Battlespace Simulations 公司的 MACE。雖然有一個研究虛擬專用網絡(VPN),但 VPN 客戶端之間無法支持 DIS 廣播通信。模擬環境在本地網絡上運行,遠距離用戶使用遠程桌面連接。雖然 VBS4 存在性能問題,PREPAR3D 也不是近距離空中支援的理想選擇,但 MACE 和 ASTi Voisus 表現良好,模擬環境取得了成功。對于物理分布式訓練,建議采用高級架構 (HLA) 或多架構聯盟。
本文采用七步分布式仿真工程與執行流程(DSEEP)來指導仿真環境的規劃、開發和執行(IEEE 計算機協會,2010a)。本論文分為以下幾章。第二章--背景。本章討論了火力支援協調訓練所涉及的當前作戰和訓練組織、系統和角色。本章概述了海軍陸戰隊當前的記錄訓練系統計劃以及為實現互操作性所做的努力。最后,本章在概述 DSEEP 之前討論了分布式模擬互操作性標準框架。第三章-方法。本章旨在記錄 DSEEP 第 1-3 步的仿真環境規劃。第 1 步--確定仿真環境目標,包括論文的初步規劃、資源和期望。第 2 步-進行概念分析,涉及情景設計和所需模擬環境的更細化。第 3 步-設計仿真環境涉及仿真系統和集成仿真環境的詳細規劃。第四章--實施。本章包括 DSEEP 第 4-5 步中仿真環境的開發、集成和測試。第 4 步--開發仿真環境包括在每個仿真系統中實施場景,并確認網絡和基礎設施支持仿真環境要求。步驟 5-集成和測試仿真環境包括對每個仿真系統進行系統集成和測試,以確認所需的功能。隨著問題的發現以及解決方案的開發和實施,本章涉及對模擬環境的多次更改。第五章--結果。本章記錄了在 DSEEP 第 6-7 步指導下對模擬環境的執行和分析。步驟 6-執行模擬包括在模擬環境中全面演示培訓場景的執行。第 7 步--分析數據和評估結果包括研究小組對成員應用的適用性、模擬環境的互操作性以及模擬環境在實現既定培訓目標方面的整體有效性進行評估。第六章-結論。本章總結了研究結果,并提出了將該模擬環境應用于培訓的建議和未來研究工作的建議。
本文論證了人類操作員與基于人工智能(A.I.)的軟件在規劃和執行有人和無人駕駛軍用直升機聯合任務方面的合作。此外,還對這種基于人工智能的合作軟件的設計和性能提出了要求。
為了建立論證,本文簡要介紹了人類和人工智能的不同認知優勢。在從中推導出最適合描述為 “混合主動性 ”的人機合作概念并描述了合作式人工智能系統原型的設計和實施之后,以主題專家(SMEs)為測試人員的實證分析為這種方法提供了進一步的支持論據。
這里提出的合作概念基于這樣一個假設,即幾乎不可能事先知道哪個子任務(或子問題)適合分配給人類或自動化這兩個合作伙伴中的任何一方。這是因為雙方的能力各不相同,而且每項任務或問題都可能有不同的結構,需要特定的解決問題的能力。因此,人機混合團隊中的每一個伙伴都應能夠掌握解決問題的主動權,即調整或改進任務計劃和開始執行任務的主動權。這就是混合主動規劃、重新規劃和計劃執行方法,也是作者設計和實施的混合主動任務規劃器(MMP)的基礎,它利用了象征性人工智能技術(經典的、與領域無關的自動規劃)。
實證分析是以德國陸軍專業飛行員作為主題專家,在兩種主要配置下進行的全任務模擬實驗:有人工智能任務規劃和執行組件支持和無人工智能任務規劃和執行組件支持。如本論文所示,中小型企業驗證了分析的代表性。然而,由于只有 8 名測試人員,因此難以進行統計驗證,主要證據是基于他們系統收集的主觀反饋,這些反饋表明,飛行任務管理系統提供的建議和解決方案被認為是有用的,而不是有礙觀瞻的。
最后,本論文能夠為這一應用領域的合作式人工智能系統的需求和設計提供依據。這也是通過系統地收集試驗人員在試驗活動后對用戶需求的主觀反饋來實現的。這些反饋還包括有關備選任務規劃工作流程和人機界面設計的信息。
本論文的結構如下。下一章介紹本論文的相關背景。其中包括人與無人機交互的發展現狀和該領域的最新研究,以及人機合作規劃的主題和名為 “有人-無人編隊協同”(MUM-T)的具體項目。第 2 章還將詳細介紹本論文關于 MUM-T 任務混合主動規劃的研究問題。隨后,在第 3 章和第 4 章中,詳細介紹了 MMP 的要求、構思、設計和實施,以回答上述研究問題 1。第 5 章介紹了為評估 MMP 而進行的實驗以及相應的結果。其中包括收集用戶對混合動力多無人機任務規劃系統的需求(研究問題二)。最后,第 6 章討論了全部工作,并提出了與未來研究相關的問題。第 7 章總結了本論文的全部內容。
本文展示了本研究第一部分討論的 L-V-C 模擬框架的實施。在空戰 TTP 的測試與評估 (T&E) 中演示了該框架的實施。TTP 由描述飛機飛行員如何協調行動以實現空戰目標的規則組成。在演示中,TTP 規則分別在 C、V 和 L 模擬階段反復制定。在 C 階段,在不考慮人機交互(HMI)中人類行為影響的情況下,確定與飛機存活概率(Ps)和擊落概率(Pk)相關的最優規則。在 V 階段,通過評估 Pk 和 Ps 的適用性,以及有關飛行員態勢感知、心理工作量和 TTP 規則遵守情況的人機交互措施,對最佳規則進行修改。在 L 階段,使用 F/A-18 飛機和合格的戰斗機飛行員來評估在 C 和 L 階段開發的 TTP 是否能在真實環境中實現可接受的 Pk、Ps 和 HMI 測量。
如圖 1 所示,L-V-C 仿真框架分為 C、V 和 L 三個階段。在第一個 C 階段,初始 TTP 的定量規則被實施到 C 仿真中,敵機被設定為遵循初始場景中確定的行為。進行 C 模擬運行,直到找到最大殺傷概率(Pk)和滿足生存概率(Ps)=1 約束條件的機器性能(MP)最優值(見第 1 部分)。C 階段不考慮僚機的態勢感知 (SA)、腦力勞動負荷 (MWL)、標準性能 (NP) 或人機性能 (HMP) 輸出。有關 SA、MWL、NP、HMP 及其測量的完整說明,請參見第 1 部分。如果因 Vor L 階段的 SA、MWL、NP 或 HMP 輸出不可接受而重復 C 階段(見圖 1 中從 V- 和 L 階段到 C 階段的虛線),則通過最小化 (Pk-Pkref)^2 放寬原始優化標準,其中參考殺傷概率(用 Pkref 表示)根據 V- 或 L 階段的結果以及之前 C 階段獲得的 Pk 最佳值進行選擇。通過分析前一個 V 或 L 階段的結果,選出在新的 C 階段應調整其值的定量規則。
第一個 V 階段既考慮初始 TTP 的定性規則,也考慮源自 C 階段的 MP 最佳定量規則。如果重復 V 階段,則定性規則源自前一個 V 階段或 L 階段(見圖 1 中從 L 階段到 V 階段的虛線,以及從 V 階段到 V 階段的虛線)。
僚機作為參與者在 V 仿真中飛行,而所有其他飛機則作為構造實體在仿真中執行。記錄僚機的 NP、SA、MWL 和 HMP 輸出。Pk 是根據模擬開始和結束時敵機存活率估算的,Ps 是根據模擬開始和結束時友機存活率估算的。友方建設性實體被設定為遵循 TTP T&E 前幾個階段得出的規則,敵方建設性實體被設定為遵循與 C 階段相同的情景。參與者的任務是遵循定向定性規則和 MP 最佳定量規則。參與者不會被告知情景是如何展開的。
如果在 V 階段結束時 Pk 和 Ps 不盡如人意,則會確定可修改的規則,以改進總體 HMP 輸出。如果 Pk 和 Ps 都令人滿意,則目標是確定可改善 NP、SA 或 MWL 的規則。如果修改了定量規則,則 TTP 返回 C 階段,而不修改定性規則(見圖 1 中從 V 階段到 C 階段的虛線)。如果定性規則被修改,則重復 V 階段,對參與者的定性規則進行精煉的口頭描述(見圖 1 中從 V- 到 V 階段的虛線)。只有當建構實體的定性規則影響到參與者遵守規則的能力時,才會對其進行調整。
每次重復 V 階段時,都會將 NP、SA、MWL、Pk 和 Ps 與前一個 V 階段的結果進行比較,目的是找出模擬的 Pk、Ps 與 NP、SA 和 MWL 分數之間的顯著差異。一旦 V 階段的結果令人滿意,就會獲得模擬環境中的 HMP 最佳規則,TTP T&E 就會進入 L 階段。
在 L 階段,先前確定的 HMP 最佳規則將在真實環境中進行評估。L 階段使用真實的飛機和飛行員。參與者的任務是遵循 V 階段確定的 HMP 最佳規則。所有其他飛行員作為輔助飛行員,遵循前一階段使用的建設性實體規則。以 Pk 和 Ps 衡量的 HMP 輸出以及參與者的 NP、SA 和 MWL 分數將被記錄下來。這里,Pk 和 Ps 的估算方法與 V 仿真相同。對 V 階段和 L 階段的結果進行綜合比較。如果 L 階段的 Pk 和 Ps 是可接受的,并且 NP、MWL 和 SA 的得分沒有明顯低于 V 階段的得分,則結果是平衡的。如果情況并非如此,則以與 V 階段相同的方式確定可能需要修訂的規則。然后,根據對規則進行定性或定量調整的需要,將 TTP 返回 C 階段或 V 階段(見圖 1 中從 L 階段到 C 階段和 V 階段的虛線)。如果 V 階段和 L 階段的結果平衡,則 TTP T&E 結束。下一節將演示 L-V-C 模擬框架的實施。
美軍在戰術層面的組織、能力和授權方面存在差距,無法在信息環境(OIE)中開展行動。本論文通過分析和應用從空地一體化中汲取的經驗教訓,確定了潛在的解決方案:空地一體化是戰爭的一個層面,曾是可與現代信息、網絡和太空相媲美的新概念。空地一體化從第一次世界大戰中的戰略偵察發展到現代攻擊直升機、手動發射的殺手級無人機和戰術聯合終端攻擊控制員(JTACs)。如今,聯合終端攻擊控制員為地面指揮官提供了一名處于戰術邊緣的空地一體化專家,該專家裝備有致命和非致命能力,其權限因地點和行動類型而異。JTAC 的資格得到了整個聯合部隊和北約的認可,并最大限度地減少了地面單元所需的飛行員數量。本論文認為,建立一個與 JTAC 相當的信息、網絡和空間管制員可使聯合部隊更有效地開展戰術 OIE。這種多域終端效應控制員(MDTEC)將獲得聯合認證、資格和指定,就信息環境向地面指揮官提供建議,使用戰術信息工具,并利用聯合信息、網絡和空間資產創造效應。
本文認為,仿照聯合終端攻擊控制員(JTAC)建立 "多域終端效果控制員(MDTEC)"模型,將使戰術部隊能夠更有效地實施 OIE。MDTEC 將作為戰場戰術邊緣的 OIE 使用專家,為地面指揮官提供建議,規劃信息效果,操作信息能力,并向作戰和國家級 OIE 部隊請求效果。模擬 JTAC 計劃的認證、資格和指定方面,將創建整個聯合部隊和北大西洋公約組織 (NATO) 標準化的 MDTEC,使 MDTEC 和 OIE 部隊之間具有一定程度的信任和互操作性。
MDTEC 的能力和權限也可參照 JTAC 的模式。為 MDTEC 配備自主信息能力將使地面部隊能夠識別信息目標,傳遞準確的位置信息,并實施有限的 OIE 效果。MDTEC 應能隨時操作這些設備,而無需上級指揮部的批準。將任何進一步 OIE 行動的授權保留在較高級別,可為協調和目標審查留出更多時間,而將授權推向較低級別則可加快行動節奏。不過,MDTEC 將接受培訓并配備裝備,以識別敵方目標,并在獲得適當級別指揮官批準后開展 OIE 行動。
本報告探討了將移動和固定水下傳感器組合成一個連貫、分布式網絡的概念。該項目提出了數據融合系統的基準架構,該架構有助于近乎實時地交換來自不同來源的信息。該架構反過來又為進一步的系統開發提供了基礎,并指導今后對相關數據/信息融合概念和技術的研究,以應用于反潛戰(ASW)和水雷戰。
本研究采用獨特的逆向系統工程方法,根據反潛戰殺傷鏈以及探測、分類和跟蹤水下物體的成功概率設計了一個架構。然后將成功概率與人類反潛戰操作員的相同成功概率進行比較,以確定設計的適當性。研究小組利用 ExtendSim 軟件對架構進行建模和仿真,以驗證其功能能力和優于人類反潛潛航器操作員的性能。
由此產生的架構有助于將被動聲學傳感器信息與情報產品成功整合,并在有人和無人平臺上及時分發融合數據。該架構還允許未來向主動聲源、環境數據源、非傳統反艦導彈源(如雷達和 ESM)發展。
圖 1. 反潛戰數據融合系統背景圖
圖 1 描述了項目的范圍。反潛戰數據融合系統架構封裝在綠色框中。黑框描述的是受架構影響的系統,而架構之外的系統則對架構產生影響。團隊決定,被動聲學傳感器將是此次架構迭代中唯一包含的傳感器。圖中還顯示了灰色標記的非被動傳感器功能。團隊建議在未來的架構迭代中加入這些傳感器。圖中增加的非被動傳感器說明了反潛戰數據融合問題的真正范圍,并影響了系統設計對未來發展的預期(即,不要建立一個限制性太強的系統,以至于只能使用被動聲學傳感器)。
研究小組采用標準的殺傷鏈范式來構思反潛戰數據融合系統的成功。殺傷鏈的串行性質支持盧瑟定律的應用。通常所理解的魯瑟定律指出,串聯系統的可靠性等于其組成子系統可靠性的乘積(邁爾斯,2010 年)。就反潛戰數據融合系統而言,該系統就是使用殺傷鏈表示的反潛戰任務,殺傷鏈的每一步都由反潛戰數據融合系統功能表示。將盧瑟定律應用于殺傷鏈,反潛戰任務的成功概率可以用殺傷鏈中每個環節的成功概率來表征。具體來說,反潛戰數據融合系統的成功概率等于探測(發現)、分類(固定)、定位(跟蹤)、交戰(目標)和殺傷(交戰)概率的乘積。圖 2 描述了反潛戰殺傷鏈的盧瑟定律。
圖 2. 反潛戰殺傷鏈的盧瑟法則
反潛戰的現狀在很大程度上依賴于人類操作員。實質上,人類操作員充當了數據融合系統的角色。由于目前的處理能力有限,操作員無法評估所有接收到的信息,從而丟失了潛在的相關數據。此外,在殺傷鏈流程的每一個步驟中,人為錯誤都可能在不知不覺中注入解決方案。反潛戰數據融合架構力求使融合過程自動化,以提高效率,消除人為主觀因素和相關錯誤,從而提高性能,增強反潛戰任務的有效性。反潛戰數據融合系統的成功取決于該系統的性能至少與人類操作員的性能相當。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
通過與被稱為計算機生成兵力(CGF)的虛擬對手進行訓練,受訓戰斗機飛行員可以積累空戰行動所需的經驗,而其成本僅為使用真實飛機訓練的一小部分。但實際上,計算機生成兵力的種類并不豐富。這主要是由于缺乏 CGF 的行為模型。在本論文中,我們研究了空戰訓練模擬中 CGF 的行為模型在多大程度上可以通過使用機器學習自動生成。空戰領域非常復雜,在該領域內運行的機器學習方法必須適合該領域帶來的挑戰。我們的研究表明,動態腳本算法極大地促進了空戰行為模型的自動生成,同時又具有足夠的靈活性,可以根據挑戰的需要進行調整。然而,確保新生成行為模型的有效性仍是未來研究的一個關注點。
人工智能(ai)領域可以為行為建模過程提供一種替代方法,并通過糾正上一節中提到的兩種后果來提高模擬訓練的效果。這種替代方法是通過機器學習生成行為模型。機器學習程序在各種任務中的表現都優于人類,例如信用卡欺詐檢測、云計算資源分配,以及玩撲克和圍棋等游戲。對于此類任務,機器學習程序能夠通過以下三種特性的結合產生創造性的解決方案:(1)計算速度;(2)精確的約束滿足能力;(3)巧妙的學習算法。利用這三個特性并將其應用于行為模型的開發,我們就能獲得以下能力:(1) 以更快的速度開發行為模型;(2) 開發出比目前更多變化的行為模型。因此,使用機器學習程序開發行為模型有可能消除當前行為建模過程對訓練效果造成的兩種影響。
不過,在將機器學習應用于空戰模擬之前,我們必須先考慮空戰領域。空戰領域十分復雜,在這一領域內運行的機器學習方法必須適合該領域帶來的挑戰。五項挑戰:(a) 形成團隊合作,(b) 對 cgf 行為進行計算評估,(c) 有效重用已獲得的知識,(d) 驗證生成的行為模型,以及 (e) 生成可訪問的行為模型。這五大挑戰并非空戰領域所獨有。但是,這些挑戰需要適合該領域的解決方案。
研究問題 1:能在多大程度上生成能產生團隊協調的空戰行為模型?
動態腳本使用獎勵函數來評估使用生成的行為模型的空戰 cgf 所顯示的行為。獎勵函數產生的獎勵用于調整新生成的行為模型,以尋找最佳模型。如前所述(見挑戰 b),空戰行為評估存在兩個問題。在文獻中,這兩個問題分別被稱為獎勵稀疏和獎勵不穩定(見第 4 章)。不過,文獻中提出的空戰行為獎勵函數并不總是考慮到這兩個問題。然而,這樣做可能會產生更理想的行為模型。這就引出了第二個研究問題。
研究問題 2:能在多大程度上改進空戰 cgf 的獎勵功能?
動態腳本將 cgf 在整個學習過程中積累的知識以權重值的形式存儲在規則庫中的規則上。每條規則的權重值表示該規則相對于規則庫中其他規則的重要性。就重復使用而言,在一個空戰場景中構建的知識也有可能在另一個空戰場景中得到有效應用。我們將知識重用置于遷移學習的背景下,即讓一個 cgf 在一個場景中學習,然后將其知識遷移到一個新的、未見過的場景中。這就引出了第三個研究問題。
研究問題 3:使用動態腳本構建的知識在多大程度上可以在不同場景下的 cgf 之間成功轉移?
我們的目標是將生成的行為模型用于模擬訓練。驗證模型是實現有效使用模型的重要一步。行為建模過程中的第 4 步說明了驗證的重要性。然而,由于行為模型驗證沒有放之四海而皆準的解決方案,我們首先必須確定驗證的正確方法。這就引出了第四個研究問題。
研究問題 4:我們應該如何驗證機器生成的空戰行為模型以用于模擬訓練?研究問題 4 的答案就是驗證程序。通過該程序,我們可以確定我們在研究中生成的行為模型的有效性。所選擇的研究方法引出了第五個研究問題。
研究問題 5:通過動態腳本生成的空戰行為模型在多大程度上可用于模擬訓練?
回答了這五個研究問題,我們就能回答問題陳述。
在第 1 章中,我們介紹了問題陳述和五個研究問題。此外,還介紹了解決研究問題的研究方法。
在第 2 章中,我們提供了有關四個主題的文獻背景信息(另見第 1.1 節): (1) 行為建模過程的詳細步驟;(2) 在模擬訓練中使用機器學習的潛在好處和缺點;(3) 過去使用機器學習生成空戰行為模型的方法;(4) 動態腳本及其在空戰模擬中的適用性。
在第 3 章中,我們介紹了團隊協調的三種方法:(1) 默契;(2) 中心;(3) 體面。我們通過實驗研究團隊協調方法的益處,然后回答研究問題 1。
在第 4 章中,我們將深入研究動態腳本編寫過程的一個特定部分,即獎勵功能。我們將展示三種不同獎勵函數的使用如何影響我們的 cgfs 的行為,然后回答研究問題 2。
在第 5 章中,我們研究了 cgf 在某種空戰場景中積累的知識在多大程度上可以成功轉移到不同空戰場景中的 cgf 上,然后回答了研究問題 3。
在第 6 章中,我們設計了一個驗證程序,通過該程序可以驗證為空戰 cgf 生成的行為模型。此外,我們還介紹了 atacc,然后回答了研究問題 4。
在第 7 章中,我們將驗證程序應用于戰斗機 4 艦模擬器中新生成的行為模型,然后回答研究問題 5。
在第 8 章中,我們將對五個研究問題的答案進行總結,從而結束本論文。最后,基于這些答案,我們提出了問題陳述的答案。之后,我們將對未來的工作提出兩點建議。
本論文利用強化學習(RL)來解決空戰機動模擬中的動態對抗博弈問題。空戰機動模擬是運籌學領域常見的一種順序決策問題,傳統上依賴于智能體編程方法,需要將大量領域知識手動編碼到模擬環境中。這些方法適用于確定現有戰術在不同模擬場景中的有效性。然而,為了最大限度地發揮新技術(如自動駕駛飛機)的優勢,需要發現新的戰術。作為解決連續決策問題的成熟技術,RL 有可能發現這些新戰術。
本論文探討了四種 RL 方法--表式、深度、離散到深度和多目標--作為在空戰機動模擬中發現新行為的機制。它實現并測試了每種方法的幾種方法,并從學習時間、基準和比較性能以及實現復雜性等方面對這些方法進行了比較。除了評估現有方法對空戰機動這一特定任務的實用性外,本論文還提出并研究了兩種新型方法,即離散到深度監督策略學習(D2D-SPL)和離散到深度監督 Q 值學習(D2D-SQL),這兩種方法可以更廣泛地應用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究領域:
本論文旨在研究飛行員在不同模擬環境中的表現與認知、情緒、疲勞和生理的關系。本論文拓寬了對飛行員在作戰環境中非技術技能發展的理解并擴大了其可能性。論文在低保真和高保真兩種環境下對這些現象進行了研究。在研究 I 中,使用低保真模擬對商業飛行員的動態決策進行了調查。接下來,在研究二、三和四中,使用高仿真環境,重點調查了軍事背景下長時間飛行任務中的認知、情緒及其生理關聯。
研究 I 表明,低保真模擬有助于了解商業飛行員動態決策中的認知過程。使用此類模擬可幫助飛行員識別可用于不明確問題的有用信息,這對成功的決策過程至關重要。飛行員決策能力的培養可以通過使用低保真模擬來補充。這可能有利于整個決策過程,包括診斷、判斷、選擇、反饋提示和執行。
研究二、研究三和研究四表明,在評估個人心理方面的情況時,需要高保真環境,這就要求對自然環境有較高的再現水平。長時間單人駕駛飛機執行任務時,應考慮到飛行員在執行任務約 7 小時后可能會出現持續注意力下降、積極情緒減少和消極情緒增加的情況。然而,在 11 小時的飛行任務中,更復雜的認知任務的表現可能不會下降。心率變異性與情緒評級之間的關聯可能表明生理喚醒水平。這可能有助于評估飛行員在這種情況下的整體心理狀態。對飛行員在這種環境下的心理狀態進行全面評估,可能有助于飛行員做好準備,并有助于制定長時間飛行任務的計劃。
綜上所述,本論文的結論表明,適當使用低保真和高保真模擬可促進飛行員認識到適應環境變化的必要性。這促進了作為安全基本要素的應變能力。