序列分析涉及統計評估,在這種情況下,數據的數量、模式或組成并不是在調查開始時就確定的,而是取決于在整個調查過程中獲得的信息。盡管序列分析的正式起源于二戰期間美國防部的彈道測試(Wald,1945;Wallis,1980),但我們發現它在最近的美國防部測試中使用不足。擴大序列分析的使用范圍,有可能節省大量的資金并減少測試時間(國家研究委員會,1998)。本文總結了關于序列分析的文獻,并為提供美國防部測試和評估中使用序列分析的建議提供了基本信息。
為美國防部測試和評估中序列分析的應用建立路線圖的第一步可能是考慮其在試驗中的應用,并審查FDA的指導意見,作為制定標準的手段。序列程序在臨床試驗中經常被使用。美國食品和藥物管理局定期發布指南,代表了他們對這一主題的當前想法。在他們最新的指導意見1中,FDA列出了使用序列程序的以下優勢:統計效率、倫理考慮、改善理解和利益相關者的接受度。美國防部測試和臨床試驗有許多相似之處。兩者都需要仔細的計劃,每一個從業者都對減少測試事件的數量、加快測試速度、節省資金而不犧牲支持決策所需的信息表現出極大的興趣。
這篇文獻綜述按照序列分析中的大類來組織,并在最后列出了帶注釋的參考文獻。為了總結這個主題,我們將序列分析領域細分為三個廣泛的功能類別:序列測試、序列設計和序列估計。因為這種分類并不意味著相互排斥,所以一個引文有可能出現在一個以上的類別中。
其中,人們必須決定是否需要在每次假設測試后收集更多的數據。這可能涉及對同一假設的重復測試或對多個假設的測試。特別是,序列測試程序允許觀察的數量取決于在測試程序中獲得的信息,而不是在調查開始時就預先確定的。序列測試的一個主要好處是,與非序列或固定樣本量的測試程序相比,預期會減少得出關于假設的結論所需的樣本量。
MIL-HDBK-781A和STAT COE(2017)推薦使用專門用于可靠性測試的序列測試。可靠性測試的意圖是確定故障時間的分布;它使用頂層指標,如平均故障間隔時間(MTBF),或故障的概率。可靠性抽樣計劃的大小或長度是由可靠性要求和所需的統計指標決定的。通常選擇一個固定期限的測試計劃來估計可靠性,因為測試的長度必須事先知道。MIL-HDBK-781A介紹了基于Wald(1945)SPRT的序列概率比試驗(SPRT)計劃的使用,以確定是否符合特定的可靠性要求。當證明的平均無故障時間很高或很低時,與具有類似風險的固定時間測試計劃相比,SPRT計劃將節省測試時間。關于在使用序列測試計劃時確定初始測試長度,MIL-HDBK-781A指出,"對于序列測試計劃,應根據最大允許的測試時間(截斷)來計劃測試時間,而不是預期的決定點,以避免計劃外測試成本和進度超支的可能性"。
序列設計是指與實驗設計(DOE)有關的一類問題和程序,對于這些問題和程序,所得到的數據的模式和組成以及觀察的數量不是在調查開始時就預先確定的,而是取決于在整個調查過程中獲得的信息。除了觀察的數量外,收集這些觀察的條件也取決于從以前的實驗中獲得的信息。
T&E社區已經接受了使用非連續的DOE來規劃開發和操作測試(Freeman等人,2017)。DOE是一種方法,在確定這些因素對輸出的影響過程中,允許可控輸入因素的系統變化。DOE本質上不是一種序列技術,但包括Montgomery(2017)在內的許多人強烈建議根據以前的實驗結果來規劃和執行DOE,以增強或告知以后的測試。
序列估計描述了一種點或區間估計程序,它允許觀察的數量取決于調查過程中獲得的信息。雖然有些序列估計程序與固定樣本程序相比似乎沒有什么好處,但其他程序可以解決固定樣本程序無法解決的問題。一般來說,有各種各樣的序列估計方法,每一種方法的構建都有一個特定的目的。這類程序可能涉及到停止標準,表明觀察的數量何時足夠。其他序列估計程序只是尋求在新數據到來時遞歸地更新估計值,而不考慮停止問題。
Johnson等人(2014年)在彈道阻力測試的應用中說明了幾種序列估計的方法。美國防部進行的彈道阻力測試是為了估計彈丸穿透被測系統的裝甲的概率。耐彈力測試通常采用敏感性實驗技術,其中序列方法被用來估計穿孔概率的特定四分法。
我們審查的最后一類是專題,并包括對相關準則、政策和最佳實踐的參考,以及實施序列分析的具體挑戰。例如,Avery和Simpson(2020年)指出,序列程序在美國防部的使用具有挑戰性,因為測試運行的數量、這些運行的條件以及執行這些運行所需的資源通常在早期決定,并編入測試和評估主計劃(TEMP)和測試計劃中。此外,當單個測試事件的評分和執行分析所需的時間長于測試之間的預定時間時,以及當利益相關者對測試運行有不同的評估時,序列程序可能被證明具有實施的挑戰性。
事實證明,在美國防部T&E中實施序列程序比非序列程序更具挑戰性。然而,在可以應用的情況下,我們從審查中發現,序列程序為獲得測試效率提供了更多的機會--比如自主防御系統,在過去幾年中獲得了很多關注。序列方法的使用被強調為一個關鍵的工具,可以幫助測試人員適應性地、有效地執行測試(Ahner和Parson,2016;Porter等人,2020)。
機器人和自主系統(RAS)涉及多個學科的豐富整合,如控制工程和機器人學、機械工程、電子和軟件工程。RAS的確認和驗證需要對傳統的測試技術進行非簡單的擴展,以處理其多學科的性質。特別是,對于軟件測試界的研究人員和從業人員來說,將現有的軟件測試技術擴展到RAS是一個挑戰,這導致了大量關于提出和評估不同技術和過程的文獻。這些豐富的文獻需要進行二次研究,為這一領域提供一個結構,并確定現有結果的相對優勢和劣勢。本文通過對RAS測試進行結構化的文獻調查來解決這一問題。
早期有許多關于相關主題的調查;在第2節對相關工作和調查進行了深入的比較。然而,簡單地說,其中一些調查有不同的或更有限的范圍,例如,考慮機器學習組件[79],形式化規范和驗證技術[139]或驅動數據集[109],或不旨在提供該領域的結構概述,以回答特定受眾的具體問題[20]。據我們所知,這是第一個系統的二次研究,涵蓋了測試RAS的結果的廣度(關于其他具有不同焦點的研究,見相關工作部分),此外,提供了對這些結果的分析,目的是描述技術的類型,過程和分析其適用性的證據(在工具和案例研究的類型方面)。
范圍包括涉及測試機器人和自主系統的新成果(包括技術、過程、工具和其應用)。把這種新的結果稱為 "干預",遵循二次研究的傳統,以及最近測試領域的系統回顧[3]。在我們的術語中,干預是 "為使測試適應特定環境、解決測試問題、診斷測試或改進測試而實施的行為(如使用一種技術或流程改變)"[68]。我們的調查范圍包括幾種驗證和核查技術,包括物理測試、基于模型的測試、運行時監控、形式化驗證和模型檢查。
受眾是軟件和系統工程的研究人員和從業人員。因此,我們從兩個角度進行分析:
(1) 研究人員:確定測試RAS研究領域的優勢和差距,特別是關于傳統的軟件測試分類法,是否存在軟件測試分類法沒有涵蓋的新挑戰
(2) 從業人員:鑒于環境和可用資源,確定具有適用性證據的干預措施。
我們在本文的其余部分提供了RAS的精確定義,以便推導出嚴格的納入和排除標準。但簡而言之,為了使我們的干預措施對目標受眾有用,我們把范圍限制在那些干預措施上,即
(1) 在其方法論中涉及測試集成在RAS中的計算機系統(而不是僅僅物理、機械或控制部分);這是因為我們的目標受眾是軟件和系統工程的研究人員和從業人員。
(2) 有一些關于RAS的適用性、效率或有效性的證據;這是由我們的范圍(RAS的測試、驗證和確認)以及我們為研究人員和從業人員提供優勢(或劣勢)證據的目標所決定的
(3) 考慮到系統級的確認和驗證,不關注此類系統的特定單元或組件(例如,特定類型的學習或規劃算法或此類系統的物理或機械部分的測試),這是由于RAS固有的多學科性和任何系統級測試RAS需要適應它。
接下來,定義了一些研究問題,這些問題有助于對兩組受眾的現有干預措施進行結構化和分析。
如上所述,我們想回顧和分析那些適用于RAS的測試、確認和驗證的干預措施;特別是,我們強調那些考慮到RAS中的計算機系統及其與物理環境和人類用戶的交互的干預措施。在本節的其余部分以及本文的其余部分,我們用測試這個詞來指代各種測試、確認和驗證技術。
一個結構化的測試、確認和驗證方法通常由模型引導,描述被測試系統的結構或行為。模型的類型往往決定了可以應用的分析類型,因此,對技術的適用性和有效性有著深遠的影響。然而,并不是所有包含的干預措施都是基于模型的(甚至與測試用例有關),因為我們也考慮其他形式的驗證,如運行時監控。此外,用于評估被測系統和干預措施本身的有效性、效率和覆蓋率的指標都是決定干預措施適用性的主要因素,因此,構成了我們研究問題的主要部分。最后,為評估該技術而進行的案例研究是適用性的一個主要證據來源。基于這些觀察,我們的研究問題具體如下。
(1) 用于測試RAS的模型類型有哪些?
我們將 "模型 "一詞寬泛地解釋為任何信息源或領域抽象,用于結構或引導測試過程或評估測試結果。這有助于我們理解和決定在測試RAS時常用或需要的抽象類型。他們幫助研究人員和從業人員確定可以使用當前測試干預措施解決的RAS的類型/方面,以及為了使這些干預措施適用而需要提供的信息類型。它還指出了目前的干預措施所沒有涵蓋的RAS的各個方面。根據上述目標,我們分析了兩種類型的模型:針對被測系統或其環境的模型,與描述其質量屬性的模型。
(2) 哪些效率、效果和覆蓋率措施被引入或用于評估RAS測試干預措施?
效率是指一項干預措施為實現其目標所需的時間和資源。有效性指的是測試干預所恢復的故障類型和數量,覆蓋率指的是用于決定測試干預的充分性和停止標準的任何措施。回答這兩個問題也為研究人員和從業人員提供了現有技術、流程和工具的強度和適用性的現有證據。
(3) 在這個領域,有哪些干預措施得到了(公開的)工具的支持?
工具支持是在實踐中應用測試干預措施以及在研究背景下將其與其他干預措施整合的關鍵推動因素。我們通過提供每種干預措施可用和所需的工具信息來分析有關這個研究問題的文獻;我們把第一類工具,即那些為支持特定干預措施而開發的工具稱為效果工具,以及那些效果工具發揮作用所使用和需要的工具。第二類,稱為背景工具,提供關于特定干預措施在其背景下自動化所需的進一步信息。我們還報告了有關許可證的信息,如果可以的話,以促進決策。
(4) 哪些干預措施有證據表明適用于大規模和工業系統?
我們從審查的干預措施中收集案例研究方面的證據,并將其分為小規模、基準和工業案例研究。
本文的其余部分結構如下。在第2節,回顧了相關的工作,重點是關于相關主題的二次研究(文獻調查和評論)。在第3節中,定義了本文的范圍,并解釋了這個結構化回顧的背景。報告了核心成果集,作為搜索的種子,以形成這項研究。在第4節中,回顧了用于系統回顧的方法;這包括描述搜索和選擇策略,開發用于編碼結果的分類法,我們的數據提取和綜合方法。在第5節,介紹了編碼結果,并對其進行分析以回答我們的研究問題。在第6節中,對分析進行了反思,并為我們的目標受眾,即研究人員和從業人員提供了具體的建議。在第7節中,總結了本文并提出了一些未來研究的方向。
本文總結了關于自主軍事系統的測試、評估、驗證和確認(TEV&V)的挑戰和建議的部分文獻。本文獻綜述僅用于提供信息,并不提出任何建議。
對文獻的綜合分析確定了以下幾類TEV&V挑戰:
1.自主系統的復雜性產生的問題。
2.當前采購系統的結構所帶來的挑戰。
3.缺少測試的方法、工具和基礎設施。
4.新的安全和保障問題。
5.在政策、標準和衡量標準方面缺乏共識。
6.圍繞如何將人類融入這些系統的操作和測試的問題。
關于如何測試自主軍事系統的建議可以分為五大類:
1.使用某些程序來編寫需求,或設計和開發系統。
2.進行有針對性的投資,以開發方法或工具,改善我們的測試基礎設施,或提高我們勞動力的人工智能技能組合。
3.使用特定的擬議測試框架。
4.采用新的方法來實現系統安全或網絡安全。
5.采用具體的建議政策、標準或衡量標準。
在過去的十年中,計算和機器學習的進步導致了工業、民用和學術應用中人工智能(AI)能力的激增(例如,Gil & Selman,2019;Narla, Kuprel, Sarin, Novoa, & Ko, 2018;Silver等人,2016;Templeton,2019)。由人工智能促成的系統往往在某種意義上表現得很自主:它們可能會接管傳統上由人類做出的決定,或者在較少的監督下執行任務。然而,與武裝沖突期間的錯誤決定相比,一個真空機器人、一個高頻股票交易系統,甚至一輛自主汽車做出錯誤的選擇是可以通過糾正措施相對恢復的。軍事系統將面臨與民用系統相同的大部分挑戰,但更多地是在結構化程度較低的環境中運作,所需的反應時間較短,而且是在對手積極尋求利用錯誤的情況下。人工智能和自主軍事系統將需要強有力的測試,以保證不理想的結果,如自相殘殺、附帶損害和糟糕的任務表現是不太可能的,并且在可接受的風險參數范圍內。
為了自信地投入使用自主軍事系統(AMS),必須相信它們會對設計時可預見的問題和它們必須適應的不可預見的情況做出適當的決定。簡而言之,這些系統必須是熟練的、靈活的和值得信賴的。 當AMS要在狹義的情況下運行時(例如,要求一個 "智能"地雷在一天中的特定時間內施加特定的壓力時爆炸),要保證系統的行為符合要求就容易多了。它能遇到的相關不同情況的數量和它的行為反應(即其決策的狀態空間)都是有限的。擴大這個狀態空間會使保證更加困難。例如,一個自主的基地防御系統旨在根據目前的ROE用適當的武力來應對任何可能的威脅,預計會遇到更多的情況,包括設計的和不可預見的。要在這種情況下適當地運作,需要更多的靈活性,這反過來又要求系統更加熟練,允許它運作的人類更加信任。這些需求的相互作用是這些系統的許多T&E困難的一個核心驅動因素。
人工智能技術為美國防部(DoD)內的采購項目的測試和評估過程帶來了一系列的挑戰。首先,這些系統純粹的技術復雜性和新穎性可能難以駕馭。此外,美國防部的采購流程是在假設的基礎上進行優化的,而自主權可能不再成立(Tate & Sparrow, 2018)。例如,將承包商、開發和操作測試分開,假設我們有離散的、相對線性的開發階段,導致系統的 "生產代表 "版本。對于AMS來說,這可能不是真的,特別是如果它們在整個生命周期中繼續學習。此外,在我們擁有一個系統之前就寫需求,是假設我們事先了解它將如何被使用。因為AMS的熟練度、靈活性和可信度會隨著時間的推移而發展,并會影響人類如何使用或與系統互動,所以與標準系統相比,作戰概念(CONOPS)和戰術、技術和程序(TTPs)將需要與系統共同開發,其程度更高(Haugh, Sparrow, & Tate, 2018; Hill & Thompson, 2016; Porter, McAnally, Bieber, & Wojton, 2020; Zacharias, 2019b)。
然而,即使美國防部的采購流程被更新,美國防部員工用于測試和評估(T&E)的具體方法、工具和基礎設施將無法保證系統的性能達到預期。開發和設計工作包含了測試,通過內部儀器建立可測試性;提高軟件的透明度、可追溯性或可解釋性;對培訓和其他數據進行良好的管理和驗證,可以改善開發過程,同時也為測試和評估鋪平道路,但它們沒有被普遍采用。此外,能夠幫助項目克服所有這些挑戰的政策和標準要么缺乏,要么不存在。
自主性的定義繁雜眾多,有些定義對美國防部來說不如其他定義有用。許多定義包含了獨立、不受外部控制或監督、或與其他實體分離的概念(例如,牛津英語詞典,2020年)。然而,假設任何參與者將在沒有控制或監督的情況下運作,甚至是人類作戰人員,這與美國防部的政策和指揮與控制(C2)的思想相悖。不希望自主系統擁有選擇行動路線的完全自由,而是在其分配的任務中擁有一些受約束的自由。
與作戰人員一樣,可能希望與自主系統有一個C2或智能體關系。希望:1. 明確具體任務和/或整體任務的目標或目的,可能還有這些目標的更大原因,如指揮官的意圖(即做什么和為什么)。2.明確與任務相關的約束,如交戰規則(ROE,即不能做什么)。3. 不指定使用的方法或對每一種情況給出明確的應急措施,如對對手的反應做出反應(即如何完成任務)。
一個系統是否被授權為一項任務做出這些 "如何 "的決定,是本文將區分自主系統和非自主系統的方法。
在 "是什么"、"不是什么 "和 "為什么 "的限制下,為 "如何 "做出有用的、理想的選擇,假定了某種程度的智能。因為這些是機器,這就意味著存在某種程度的人工智能。需要人工智能來實現對非瑣碎任務的有用的自主性,這可能解釋了為什么人工智能和自主性經常被混為一談。在本文件中,我們將自主性稱為系統在其操作環境中的行為,而人工智能則是與該環境進行有意義的互動的 "內在 "促成因素。
英國防部數字骨干網的一個重要組成部分是跨所有分類的超大規模云功能。路線圖闡述了明確意圖,即協調和加速整個英國防部最雄心勃勃的超大規模云計算采用計劃。
英國防部將數據作為一種戰略資產,使其未來能夠比對手更快地行動。英國防部將擁有無與倫比的能力來消費、匯總、分析和利用數據,這將適合未來在所有領域的全球綜合作戰。
英國防部正在制定一個強大的愿景,并制定支持計劃和方案,以凝聚和授權消費先進云服務。
將整合現有的能力,同時設計和提供新的能力,通過交付工具--Cirrus組合,為整個英國防提供單一的服務。將與世界領先的供應商合作,并與那些已經在美國軍隊中提供類似能力的供應商合作。
本國防云戰略路線圖的目的是闡述英國防部使用更多世界級云計算能力所需的愿景和變革。云是實現英國防部數字骨干和數據戰略的關鍵推動因素。建立正確的云平臺將極大地提高事業內部和戰術邊緣的用戶體驗質量,加速數據的利用,并提供更復雜的方式來提供國防產品。
該路線圖闡明了戰略成果、緊密相連的依賴關系以及加速英國防部超大規模云服務的交付和利用的漸進步驟。該路線圖將"方法"與"手段"結合起來,以實現英國防部的云計算目標,重點是消費超大規模的平臺即服務(PaaS)和基礎設施即服務(IaaS)產品,并輔之以MODCloud軟件即服務(SaaS)服務。英國防部需要投資于徹底的文化轉變、流程和云技能,以在數字時代進行轉型和競爭,并與我們更廣泛的國防數字戰略保持一致。
該文件為英國防部的所有職能部門、指揮部和授權機構提供了明確的意圖、方向和指導。本路線圖面向廣大讀者,包括云計算的用戶、所有者和客戶、政府和國際盟友的決策者和合作伙伴。該路線圖將對能力發起人、SORs、采購組織和運營當局;FLCs、TLBs和國防客戶的領導人;實現數字骨干的CIO和項目團隊;國防數字架構和安全團隊以及正常業務團隊特別感興趣。
國防云戰略路線圖應與其他國防戰略一起閱讀,包括數字戰略、數據戰略、網絡彈性戰略、技術戰略,以及任何相關的即將出臺的數字功能子戰略。
國防數字戰略。國防數字戰略概述了國防數字功能將如何通過提供一個安全的、單一的、現代的數字骨干來進行轉變。云是它的基礎技術。
數據戰略。數據戰略闡述了國防部利用數據作為戰略資產所需的數據愿景和轉型變化。
網絡彈性戰略。網絡彈性戰略闡述了建立網絡彈性國防所需的原則和轉變。
國防技術戰略。技術戰略制定了泛國防數字技術的愿景,指導實現國防數字戰略的轉型變革,并提供數字骨干。
國防云戰略路線圖。該文件概述了采用更多現代云平臺和實現數字骨干的過程。
英國防部的數字戰略概述了國防部利用數字和數據作為促進更快、更好決策的手段所需的步驟變化。作為數字主干的一個重要推動者,云是一個支撐平臺,它將 "通過適當的決策者,將傳感器和效應器連接起來"。
云將提供一個基礎,在此基礎上建立和提供所需的未來能力。它支持并實現了所需的先進應用和服務的速度,因此可以跟上對手的步伐,并成功戰勝對手。它將促成并提供易于獲取和快速擴展的按需服務和應用。反過來,這將使部署的用戶能夠在戰場上迅速和安全地檢索和處理數據,并使商業用戶能夠從任何地方訪問企業系統。
自助服務和自動云服務將為國防用戶帶來共同的合同、共同的定義和共同的直接認證方式。
由參考架構、通用模式和公認標準支撐的云服務,使利用云服務更加安全、一致和可互操作,并在整個國防部提供一致的云部署。
通用技術架構(CTA)是一個框架和架構方法,在此框架和方法下,可以開發數字骨干及其基礎組件和服務的詳細技術定義。它也是政策、標準和參考模式的框架,可以指導和管理數字骨干的交付和采用。
支撐CTA的政策和標準將確定內部和外部合作伙伴需要遵循的規則,以確保整個技術領域的一致性,并使國防部能夠充分實現其無縫數據共享、整合和互操作性的愿景。
在正確的時間提供正確的架構
由于云計算的采用在相互依賴、網絡整合、數據分散、安全和保證方面的復雜性,在為云計算設計時,獲得正確的架構指導是非常重要的,它可以傳達最佳實踐并提示常見陷阱。
英國防部的架構師將與FLCs、TLBs和行業合作伙伴合作,確保正確的CTA構件可用,以支持實施符合要求的適當的云功能,并支持利益相關者在遷移到云的過程中采用云服務。這些人工制品包括模式、參考架構和標準,隨著時間的推移,將提供一個不斷發展的 "積木 "參考庫,可用于整個國防。
人工智能(AI)在國防領域的使用帶來了重大的倫理問題和風險。隨著人工智能系統的開發和部署,澳國防部將需要解決這些問題,以維護澳大利亞國防軍的聲譽,維護澳大利亞的國內和國際法律義務,并支持國際人工智能制度的發展。
這份報告《案例研究:國防中的倫理人工智能方法應用于戰術指揮和控制系統》是總理與內閣部(PM&C)、澳國防部和澳大利亞國立大學(ANU)3A研究所之間的科技(S&T)合作的產物。它使用《國防中的倫理人工智能方法》[1]來探討設想中的人工智能戰術指揮和控制(C2)系統的倫理風險,該系統整合了各種自主功能,以協助單個人類操作員同時管理多個無人駕駛車輛。
使用 "國防中的倫理人工智能方法 "對這一設想的C2系統進行分析,為三個利益相關者群體提供了關鍵的發現:澳國防部;人工智能技術開發者,以及那些尋求使用或迭代 "國防中的倫理人工智能方法 "的人。
對于澳國防部,該報告確定了關鍵的政策差距,并建議在以下方面采取行動。
對人工智能所做的決定和使用人工智能所做的決定制定一個問責框架
對操作員、指揮和系統開發人員的教育和培訓
管理支撐許多人工智能應用的數據,包括其收集、轉換、存儲和使用。
如果不采取行動,這些差距使澳國防部容易受到重大的聲譽和業務損害。
對人工智能技術開發者的其他關鍵發現涉及到有效性、整合、授權途徑、信心和復原力等主題。總的來說,這些發現鼓勵開發者考慮最有效的系統或算法(例如,在速度或準確性方面),是否一定是為決策者提供幫助的最佳選擇。在某些情況下,與規范性決策更一致的效率較低的算法可能更合適。此外,顯然需要研究哪些信息是做出好的判斷所必需的(特別是在問題復雜、背景重要的情況下);以及應該如何快速傳達這些信息。通過考慮作為分析的一部分而開發的七種假設的道德風險情景,可以進一步探討這些關鍵的發現。
對于那些尋求應用或迭代《國防倫理人工智能方法》的人來說,報告建議開發更多的工具,以幫助從業者確定對其特定需求具有最大相關性和效用的領域;以及一套全面的定義,以幫助應用該方法。
鑒于網絡工作在美陸軍中的重要性日益增加,以及網絡工作所需能力與其他作戰人員工作相比的獨特性,建立一個有效的選拔和分類系統來識別和分配那些有很大潛力在這些工作中取得成功的新兵變得越來越重要。在這個項目中,我們開發了一個創新的評估,稱為通用網絡能力(C^3)測試,以衡量七個被認為與美陸軍多個網絡工作的成功相關的結構:主動學習、解決復雜問題、批判性思維、演繹推理、歸納推理、選擇性注意和排除故障。
為了識別那些目前不具備網絡知識和技能的、在這些工作中具有很大成功潛力的新兵,C^3測試的一個關鍵規定是創建一個不需要網絡或信息技術(IT)知識的評估。因為像復雜問題解決這樣的構架不可能是完全無背景的,應試者需要解決的問題和他們可以利用的信息來解決這些問題。此外,為了測量主動學習,應試者需要一個學習的機會。為了滿足這些需求,我們為C^3測試創建了一個虛構的情境,在這個情境中,應試者開始了一份新的工作,并得到了關于這份工作的信息。在開始他們的新工作時,應試者通過 "學習階段"和 "應用階段 "進行。這種兩階段的結構使應試者能夠在評估的第一階段學習相關信息,然后在評估的第二階段應用這些信息來解決問題。
在C^3測試中,應試者扮演一個虛構的未來運輸公司的新雇員,該公司使用真空管進行運輸。在評估中,應試者必須首先通過一系列的培訓模塊來學習與工作相關的知識,這些模塊描述了公司、真空管旅行的發展以及與他們的虛構工作相關的具體部件和設備。然后,應試者開始新的工作,并將這些知識應用于測試的應用階段出現的問題。在這個整體評估的背景下,每一個C^3構架都是根據構架的定義和對現有措施的審查來操作的。初步數據是從67名完成C^3測試的受試者中收集的,這些受試者完成了少量的相關測量,一份人口統計問卷和一份反饋問卷。
C^3測試的初步心理測量證據是很有希望的。大多數測量方法都有足夠的方差,分數的分布也近乎正常。雖然有些分布稍有偏斜,表明對參與者來說,這些測量有些太容易或太難,但這些特征的原因很容易確定,可以在后續版本的測試中加以修正。有幾個測量項目的分布顯示出中心傾向的偏差,并將從增加方差的程序中受益。
許多C^3構架和子維度之間的相關關系顯示出預期的模式。盡管在最初的研究中不可能為所有的測量方法收集構架有效性數據,但C^3構架和子維度之間的相關性提供了一些構架有效性的確認。大多數相互關系是顯著的,但幅度很小到中等。相關性小到中等的事實表明,沒有兩個工具在測量相同的構架。由于每個C^3測試都被設計用來測量一個不同的構架,這提供了辨證有效性的初步證據。應該進行更多的研究,以更仔細地檢查這些測量與其他類似測量的分歧。C^3構面和一般智力測驗之間的相關性也是小到中等的,這表明與一般智力有分歧。未來的研究應該考察C^3測試的標準相關有效性,以及C^3構面在多大程度上可以預測超出一般智力的標準。
盡管受測者報告說發現測試很復雜,完成起來很有挑戰性,但對于一個主要側重于評估認知技能的測試來說,這在某種程度上是必要的。測試者的反饋和每個構架的具體結果都被詳細地介紹和討論。
研究結果的利用和傳播:
本研究的結果可用于改進C^3測試,并為評估評估的標準相關有效性的研究做準備。一旦得到驗證,C^3測試可以用來識別新兵和新戰士的能力,這些能力是在網絡相關工作中取得成功的關鍵,即使他們沒有預先存在的網絡知識和技能。此外,如果陸軍的其他工作需要類似于C^3測試的能力,該測試也可以用來識別陸軍其他工作的候選人。
對美國國防部(DoD)采購的武器系統進行嚴格的作戰測試(OT)是確保這些復雜的系統不僅滿足其既定要求,而且在面對使用其自身高能力進攻和防御武器的堅定對手時,在現實的作戰條件下也能發揮作用的根本。如果沒有足夠的OT,作戰指揮官將無法最有效地利用他們的能力,而作戰人員將對他們帶到戰場上的武器缺乏信心,或者,更糟糕的是,由于他們沒有從根本上了解他們的武器的能力和限制,可能無意中將自己置于危險之中。美國防部的測試和訓練場提供了地理、基礎設施、技術、專業知識、流程和管理,使安全、可靠和全面的OT成為可能。然而,靶場,以及使該系統發揮作用的有才能和有決心的靶場工作人員,正處于巨大的壓力之下。除非迅速采取行動解決長期存在和新出現的挑戰,包括測試能力、現代化、數字基礎設施、侵占和資源,否則國防部的靶場將無法在未來支持及時或充分的OT。
國家靶場基礎設施面臨的挑戰正在增加和加速。物質資源和勞動力的有限測試能力,測試基礎設施的年齡,測試先進技術的能力,以及侵占影響了告知系統性能的能力,綜合系統性能,以及測試的整體速度。對美國測試基礎設施的投資以及測試和評估(T&E)方法和數據處理的改變是必要的,以便為以與作戰需求相關的速度向戰場提供致命的、可生存的、可靠的和可負擔的武器系統提供信息。本研究借鑒了來自作戰、采購和測試背景的高級軍官和官員的證詞,以及測試和培訓專家、領先的技術專家、相關商業企業的領導人,以及在國防部和國會預算過程中有深厚經驗的個人。研究委員會對具有代表性的試驗場進行了虛擬和實際的實地考察;收集了試驗場在現代化、維持、操作和資源挑戰方面的意見;并審查了先前的研究和來自作戰測試與評估主任辦公室(DOT&E)、軍種測試組織和測試資源管理中心(TRMC)的報告。本報告提出了一系列相互依存的建議,委員會認為這些建議將使國防部靶場企業進入現代化軌道,以滿足未來幾年OT的需求。該報告強調了以下三個基本主題:
1.未來的戰斗將要求在聯合全域作戰(JADO)的環境下建立連接的殺傷鏈。美國防部設計、規定、開發和測試系統,以確保它們在這種新的現實中投入使用時是非常有效的,這是至關重要的。美國防部的采購流程、組織結構、測試方法和為測試單一領域的單個武器系統而優化的靶場基礎設施將不足以測試未來的綜合武器系統,因為它們將在跨越所有作戰領域(包括陸地、海洋、空中、太空和網絡空間)的機速戰爭中運行。
2.數字技術正在極大地重塑測試的性質、實踐和基礎設施。今天和明天的武器系統從根本上說是由數據和軟件促成的,美國防部的試驗場也不例外。自主性、人工智能(AI)和機器學習在整個國防系統中的重要性迅速增加,為OT創造了新的挑戰。此外,數字孿生和高性能建模與仿真(M&S)的出現使新的測試方式成為可能,甚至新領域和操作限制的組合使虛擬測試成為某些應用的唯一實用方法。
3.現場速度是今天衡量業務相關性的標準,而這又是一個不斷變化的目標。在許多基于數字、軟件和通信技術的全球擴散的推動下,美國的對手正在迅速和持續地部署新一代的武器,旨在否定美國的作戰優勢。同時,新的武器系統正在采用從未投入使用的技術,這些技術也在以摩爾定律所允許的速度發展。可用的武器系統被迅速投入使用,但也需要持續的測試和評估。
為了應對與這些主題相關的挑戰,委員會制定了結論和建議,分為以下五大類:
1.開發 "未來的靶場",在聯合防務環境中測試完整的殺傷鏈。靶場企業必須適應新的作戰概念和新的測試方法,以進行真實的作戰測試,這包括為系統集成測試和不同領域的多個靶場的互操作性提供有利的基礎設施。[建議3-1] 2.
2.調整靶場能力要求程序,以實現持續的現代化和維持。在保持嚴格的作戰測試和評估的同時,實現快速進入戰場,需要快速實現新武器技術和新威脅的靶場現代化。同時,關鍵能力需要保持,甚至增加,以確保所需的測試能力和吞吐量,同時減輕物理和無線電頻率環境中的侵占所造成的問題。[建議3-2、3-3、3-4、3-5] 。
3.在整個武器系統開發和測試生命周期中,為無處不在的M&S啟動一個新的范圍操作系統。今天的許多美國防部項目不能僅在現場測試中得到有效的測試。高保真虛擬測試可以提高實際硬件測試的準備程度和成功的可能性,并且可能是進行某些類型測試的唯一環境。然而,廣泛和標準化地使用M&S進行作戰測試,將取決于一個新的M&S基礎設施,測試界的重大文化變化,以及在不斷變化的威脅和技術環境中驗證M&S的新方法。[建議4-1]
4.為未來的作戰測試和無縫靶場企業互操作性創建 "TestDevOps "數字基礎設施。重新定義TRMC和試驗場的企業支持的核心數字標準和能力,以利用國防部在軟件、數據、網絡、AI、網絡安全和M&S方面的規模。使基于模型的工程、不間斷的數字線路和持續集成/持續交付的軟件實踐成為試驗場敏捷性、快速測試演化和快速到場的基礎。超高帶寬的信息流必須變得無摩擦、按需和安全。[建議4-2、4-3]
5.重塑靶場企業的籌資模式,使之具有響應性、有效性和靈活性。今天和明天的資源需求反映了快速變化的技術和威脅的現實;持續的資本投資用于創建、升級和維護長壽命的靶場系統;以及對跨領域的系統測試和無縫整合的M&S的需求不斷增加。將DOT&E更早和持續地納入需求開發和采購過程,將更好地建立和證明靶場投資的及時性和充分性。[建議5-1, 5-2;結論5-1, 5-2] 。
圖 3.2 多域戰場中真實殺傷鏈測試場景的表示。 A表示潛在運輸的豎立發射器; B 表示敵方代表雷達; C 表示敵機。
圖 4.3 將測試與模擬相結合的新范例。
"沙漠盾牌"和 "沙漠風暴"行動為美國的大規模作戰行動提供了一個成功的當代范例。然而,對軍事預測的仔細檢查顯示,第三軍的規劃人員對實際結果,特別是傷亡人數和戰爭持續時間的估計過高,數額巨大。規劃人員利用當時的 "空地戰"理論,產生了嚴重的高估。與此同時,杜普伊研究所使用基于歷史數據的定量方法產生了遠為準確的預測。本研究旨在調查在沙漠盾牌和沙漠風暴行動期間,定量的情報預測方法會如何使第三軍的計劃人員在戰爭的戰役層面上受益。該研究采用案例研究方法,考察了每個組織如何制定其預測。此外,本研究還審查了高估所造成的風險及其對當前理論和大規模作戰行動的應用。這項研究發現,雖然第三軍同時使用定性和定量方法進行預測,但定量方法容易出錯。杜普伊研究所使用更廣泛的數據集和測量更多的戰斗力變量,在行動中提供了更好的結果。如果充分運用,定量方法有可能幫助規劃者制定更準確的、基于數字的預測,在未來的沖突中幫助決策者。
收購分析和政策辦公室是國防部負責收購和維持的副部長辦公室(OUSD(A&S))的一部分,該辦公室委托IDA評估使用機器精益分析主要國防收購項目(MDAPs)合同的可行性。分析的目的是從合同中提取數據,并預測項目績效。該研究分為三個階段:爬行、步行和跑步。
爬行階段包括建立一個數據集。在分析的這一階段,收集和處理合同。所選擇的合同在1997年12月至2018年12月期間被列入選定的采購報告(SARs),并且來自截至2019年11月不再報告的MDAPs。對這一時期的合同進行檢查,確保了每個項目都有90%以上的完整性。此外,數據集被限制在這一時期,因此計劃的績效結果是已知的,這在使用機器學習算法進行預測時是必要的。我們收集了24,364份PDF格式的合同文件,涉及149個合同號和34個MDAPs。(最后,我們使用國防分析研究所的文本分析(IDATA)功能,將收集到的文件變成機器可讀的數據集。
在步行階段,通過在我們的數據上訓練機器學習算法來評估合同數據,以回答相對簡單的問題。這項活動確保了數據集具有合理的質量,機器學習算法運行正常,并能產生合理的答案。在這個階段,每個程序都產生了詞云。下圖顯示了兩個程序的詞云,分別是CH-47F和ATACMS-APAM。
ATACMS-APAM計劃的詞云
字云顯示了每個計劃的合同中各種詞匯的頻率,去掉了 "和"、"的"等常見詞匯。這些圖形對于揭示每個項目的文件中最頻繁使用的詞語很有幫助,并有助于確保我們收集到合理的數據。
接下來,我們在這些數據的訓練集上訓練了一個天真貝葉斯分類器,并要求它將每份合同按五個類別之一進行區分:(1)研究、開發、測試和評估(RDT&E);(2)RDT&E修改;(3)采購;(4)采購修改;以及(5)采購運營和維護(O&M)修改。這些類別很容易由人類確定,預計機器學習也會產生同樣的結果。下表顯示了合同類別的分布和每種合同類型的數量。
該算法對80%的文件進行了訓練,然后用來預測其余20%的文件的類別。下面的混淆矩陣顯示了該算法預測合同類型的效果。
文件類型識別的混淆矩陣
對角線元素,也就是最大的數字,顯示了算法在測試樣本中正確識別合同類型的地方。總的來說,該算法對4872個文件中的4607個進行了正確分類,導致總體準確率為94.6%。準確率取決于樣本大小。例如,該算法預測測試數據中的52個文件是RDT&E合同,而95個文件是RDT&E合同,導致近55%的準確率,而3238個采購模式中的3080個,或剛剛超過95%,被正確分類。
后面描述的其他模型表明,合同被成功地轉化為數據。因此,這表明有可能將我們的算法應用于這個數據集,提出相對簡單的問題并獲得合乎邏輯的答案。
在跑步階段,我們提出了更難的預測問題,以測試機器學習算法使用合同數據集來預測項目績效的能力。我們使用Q-比率作為數量增長的衡量標準,使用數量調整后的項目采購單位成本作為成本增長的衡量標準,以及項目結束日期。使用70%的項目來訓練支持向量機(SVM)模型,并對其余30%的項目的績效指標進行預測。支持向量機無法比隨機猜測更好地預測績效。我們還研究了使用聚類來識別類似程序。盡管我們可以識別相似的程序,但很難確定這些程序為什么相似,這表明在這個領域還需要更多的研究。
我們發現,文本分析和機器學習算法很適合從合同中提取信息,并將這些信息轉化為結構化的數據集。盡管我們的分析使用了幾個不同的指標,表明提取的數據對描述性的目的是有用的,但我們無法確定機器學習算法是否能預測項目的表現。然而,這一結果并不意味著用合同數據集預測項目績效是不可行的。它可能意味著,更完整(或不同)的合同集、其他績效指標或替代算法將改善預測結果。此外,為了改善預測,可能有必要將合同數據與其他來源的數據相結合。
自 2011 年起,瑞典國防大學 (SEDU) 的國防與安全系統科學部應瑞典國防物資管理局 (FMV) 的要求進行了技術預測。目標是在設定的時間范圍內評估所選技術對瑞典武裝部隊 (SwAF) 的潛在未來軍事用途。
出于2021技術預測的目的,瑞典國防物資管理局和瑞典武裝部隊選擇了德國弗勞恩霍夫研究所的五份報告,并將其交給國防和安全系統科學部門進行分析和評估,時間跨度為2040年。
瑞典國防大學工作組審查了以下研究報告:
本報告的目的是評估所審查技術的潛在軍事用途,以及它們如何根據提出的概念和情景對瑞典武裝部隊的作戰能力做出貢獻。
軍事效用按以下四種評估之一分類:顯著、中等、可忽略或不確定。
以下技術被評估為可能具有重要的軍事用途:
以下技術被評估為可能具有中等軍事用途:
以下技術被評估為具有不確定的軍事用途:
圖 1. 軍事用途包括軍事有效性、軍事適用性和可負擔性。軍事有效性維度(級別)對應于 MUAFT 方法中的能力影響評估,而軍事適用性和可負擔性對應于足跡。