亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

美國陸軍旋轉翼飛機的下一個機群除了擁有一套先進的技術和武器裝備外,還將允許在戰斗中使用更長的時間。這些飛機將可能是陸軍武庫中最先進和最復雜的系統。這意味著這些飛機可能需要飛行員在遠高于目前直升機的水平上進行多重任務。由于在駕駛這些飛行器時對飛行員的要求越來越高,實時監測飛行員的認知負荷、健康和福祉的需要已經成為完成任務的組成部分。有了實時的生理監測,就有可能跟蹤和了解任務認知需求的程度,以及在多域作戰(MDO)任務集的各個階段對飛行員的相關認知負荷(CWL)。然后,這些數據可以為領導層和團隊成員提供信息,并為操作人員提供關鍵的反饋。這些數據還將為駕駛艙布局的關鍵決策點提供信息,具體到人機互動。然而,仍有許多工作要做,因為在哪些措施能最有效地捕獲和量化CWL、如何最好地在駕駛艙內部署這些傳感器、以及如何量化數據以便于實時解釋結果以幫助決策方面還存在未知數。

為了支持擴大的未來垂直升降(FVL)任務,美國陸軍航空醫學研究實驗室(USAARL)正在進行研究。最終的目標是實施生理測量,作為在操作員狀態監測(OSM)驅動的適應性自動化環境中,評估CWL的一種手段。本報告對最近的CWL文獻進行了系統回顧,以確定哪些CWL評估技術在航空領域得到了最多的使用和成功,特別是在旋轉翼航空領域。首先,提供了CWL的正式定義,以及對CWL結構越來越感興趣的證據。隨后,對不同的CWL指標進行了簡要總結,并對使用多種指標,即綜合指標來評估CWL進行了考慮。

認知負荷定義

統一使用的CWL正式定義還沒有被整個研究界普遍接受。因此,人們經常發現,不同的研究人員使用不同的定義(Cain,2007)。為了保持一致性,我們采用了Van Acker等人(2018)的概念分析所提出的資源需求框架的定義: "心理負荷是一種主觀體驗的生理處理狀態,揭示了一個人有限的、多維的認知資源與所接觸的認知工作需求之間的相互作用。"

為了消除任何混淆點,請注意Van Acker等人(2018)使用了 "心理負荷"(MWL)一詞,而我們在本評論中使用的是 "認知負荷"。有關評估認知工作需求導致的認知資源支出的文獻,已經交替使用了這兩個術語(即心理和認知)(甚至有時在同一篇論文中交替使用)。圖1詳細說明了幾十年來每個術語的使用情況;"心理負荷 "一詞在文獻中出現的時間較早(Westbrook等人,1966年),比 "認知負荷 "使用的頻率更高。在USAARL進行的工作中,已經采用了 "認知負荷 "這一術語。

Van Acker等人(2018)的定義包括三個關鍵部分(關于這些要點的更廣泛討論,請參考Vogl等人,2020)。首先,CWL的發生是由于特定的人和特定的任務/環境(或任務+環境組合)的互動。這種應用認知資源來滿足任務需求的互動導致了對CWL的感知。這為資源需求框架奠定了基礎,該框架自卡尼曼(1973年)在其《注意力與努力》一書中首次提出以來,一直在不斷發展。第二,當認知資源被用于一項任務時,對于努力工作的人來說,他們的資源是有限的,如果一項任務對資源的需求超過了可用的限度,人的表現就會減弱。對內省的人來說,還可以觀察到,在某些情況下,可以比其他情況下更有效地滿足多種任務需求。Wickens(2008)通過多重資源理論澄清了這一看法,該理論指出,與其說有一個有限的資源庫可用于解決任務需求,不如用多重資源庫的模式來解釋多任務經驗。第三,Van Acker等人(2018)指出,CWL是一種主觀體驗的生理處理狀態;也就是說,人類理解并能夠溝通他們正在經歷CWL,他們的生理變化是CWL的一個功能。因此,評估CWL不僅可以通過任務本身的表現措施,還可以通過自我報告措施(即主觀措施)和監測生理信號的變化(即生理措施)。最后要說明的是,Van Acker等人(2018)的定義很適合于對這個概念的簡要介紹,但我們希望有一個更全面的定義,明確強調人類經驗的其他方面(如個體差異、情景因素、注意力等)以及CWL和績效的動態關系。關于CWL概念的更深入的定義和重新分析,見Longo等人(2022)。

自20世紀60年代首次正式提及CWL以來,它已成為一個越來越受歡迎的研究領域。在過去的十年里,根據谷歌學術搜索引擎的索引,CWL研究的出版物數量激增(圖1)。在過去的十年里,整個文章和標題中的精確短語匹配都遵循同樣的加速增長模式。這種加速增長的興趣說明了對更先進、更有效的生理指標、建模技術的調查,以及對改善航空和駕駛等安全關鍵領域性能的普遍重視。2015年,Young等人(2015)研究了CWL文獻,并確定了幾十年來的主要研究領域。在20世紀80年代,在CWL主要理論進展的持續發展中,軟件工程/計算機輔助設計(CAD)和自適應界面(即響應操作者CWL的自動化)等領域成為主要興趣。20世紀90年代,對CWL的研究在航空和駕駛領域繼續進行得最為頻繁。最終,在2000年代的前十年,駕駛領域將遠遠領先于其他領域,而鐵路領域的研究變得越來越有意義,航空和空中交通管制(ATC)保持穩定(圖5)。考慮到幾十年來的關注領域,很明顯,CWL評估是安全關鍵領域的一個重要組成部分,特別是在交通領域。

圖 1. 60 年來腦力負荷和認知負荷出版物的頻率。從谷歌學術搜索引擎獲得的頻率數據。

綜合認知負荷評估

正如所提出的CWL定義中所概述的那樣,CWL的概念在操作上是可以使用性能、生理學和主觀評價的措施進行量化的。這些測量類別在整個CWL文獻中被持續使用,每個類別都提供了一些不同評價標準的權衡(O'Donnell & Eggemeier, 1986)。快速的文獻搜索顯示,對這些測量技術已經進行了超過20,000次檢查(評論見Cain, 2007; Heard等人, 2018; Tao等人, 2019; Charles & Nixon, 2019; Vogl等人, 2020)。

表現和CWL是以一種反向的方式聯系在一起的,特別是在最佳的任務需求水平下,但這種關系并不簡單地歸結為一個上升,另一個下降。相反,通過自愿招募認知資源(即導致CWL增加的努力),性能可以保持在高水平而負荷增加。也就是說,人類可以付出更多的努力,調動更多的資源,或者隨著需求的增加而 "更努力地 "完成一項任務,以保持他們的表現。只有到了一定程度,也就是傳統上所說的 "紅線",績效才會開始動搖,從而與高水平的CWL形成反向關系。圖2詳細說明了作為任務需求增加的函數的績效-負荷關系(改編自De Waard, 1996和Young等人, 2015)。這個修改后的區域模型說明了績效和負荷在D、A2和C區域有一致的反向關系,而在A1、A2和B區域則有更多的動態變化。以這個模型為框架,我們很容易看到,除非在D或B區域內觀察,否則主要的任務績效測量可能缺乏敏感性。由于績效指標通常是對任務效率的全面調查,它們很少對不同資源的認知負荷進行診斷性描述。雖然這些類型的性能指標可能在一個相對粗略的尺度上發揮作用,但它們對整個任務性能的干擾是最小的,因為數據往往是現成的。在航空領域,標準偏差、輸入活動和教員飛行員評級的措施已被廣泛用于區分高和低水平的CWL。

圖 2. 績效-認知負荷關系的描述(改編自 De Waard,1997 年和 Young 等人,2015 年)。

已經觀察到可識別的生理信號在不同程度的有經驗的CWL下發生變化,一些生理指標已經發現成功地作為CWL的操作措施。心率、心率變異性、瞳孔直徑、腦電圖(EEG)信號帶、通過功能性近紅外光譜(fNIRS)測量的腦氧飽和度以及許多其他指標,都有大量文獻支持它們作為CWL的代理測量。與性能指標不同,生理學指標允許研究人員挖掘發生在性能保持穩定(即A1和A2區域)而CWL正在積極變化的區域的CWL變化。在某種程度上,生理指標允許研究人員看到隨著任務需求的增加,"引擎蓋 "下發生了什么。這種在接近紅線時觀察CWL變化的能力說明了測量類別的普遍高靈敏度。此外,它為應用領域的研究人員提供了一種手段,以預測性能故障的發生,并在性能開始受到影響之前補救任務要求。然而,其他生理現象,如疲勞、焦慮或身體運動,可以高度干擾這些指標的整體敏感性。生理指標在其診斷性方面可以有很大的不同。一些生理指標提供了一個更全面的有經驗的CWL尺度,如瞳孔直徑或心率變異性。其他指標通過確定大腦內的激活區域,如EEG或fNIRS指標,或由特定的任務要求(即眨眼動態)驅動,顯示出更高的CWL資源診斷能力。目前正在進行的工作是限制生理傳感器的整體侵入性,以便向現實世界的應用邁進。一些傳感器的侵入性很小(如心電圖[ECG]、遠程眼球追蹤器等),而另一些則會造成較高的侵入性(如頭戴式眼球追蹤器、fNIRS、皮膚電活動等)。在航空領域,心率和心率變異性指標是使用最廣泛的生理學指標之一,因為它在敏感性、診斷性和對操作環境的干擾性之間有一個公平的平衡(Backs,1995)。然而,最近的研究已經接近于優化瞳孔直徑、fNIRS和EEG等指標,作為額外的生理測量指標在航空領域使用。

CWL是一種獨特的體驗,人類可以通過自省來識別和描述。因此,可以通過使用結構化的、經過驗證的、采取主觀測量形式的問題來捕捉這種自我報告的體驗。多年來,許多不同的CWL主觀量表已經在各研究領域進行了測試,并表明人類可以可靠地指出他們在特定任務中體驗到的CWL水平。總的來說,主觀衡量標準對CWL的變化顯示出很大的敏感性。主觀評分允許研究人員對圖2中描述的所有區域的CWL進行采樣。主觀指標也可以通過使用單維和多維措施,分別從低到高的診斷性范圍。單維主觀指標要求操作者評估他們所經歷的CWL的單一方面,例如通過評價努力支出、資源能力或一般CWL本身。多維度的主觀衡量標準更具有診斷性,因為多個問題或子量表涉及到CWL體驗的許多相似但不同的元素。不幸的是,如果在任務執行過程中完成主觀測量,其干擾性通常很高。因此,大多數主觀測量是在任務執行后完成的,要求操作者在回答問題時反思他們之前的CWL體驗。當然,一些單維的主觀衡量標準試圖規避這一限制,提示受試者在任務執行期間表明他們的主觀CWL,從而與診斷性進行權衡。總的來說,主觀指標被用作驗證系統和其他CWL指標的手段。這個研究領域中最普遍的衡量標準是美國國家航空航天局的任務負荷指數(NASATLX),它至今仍被廣泛使用。 NASA-TLX經常被用作航空領域的多維CWL主觀衡量標準,但有些衡量標準,如貝德福德負荷表和修正的Cooper Harper處理質量評分表,是專門為航空領域設計的,如今也被普遍用作單維衡量標準。

由于每種類型的認知負荷評估技術都有其自身的優勢和缺點,因此,將表現、生理和主觀測量結合起來,形成認知負荷的綜合測量似乎是很自然的。其邏輯是,由于這些認知負荷的每個反應都是從同一個人身上測量出來的,因此這些反應會相互關聯,如果一個反應失敗,其他的反應可以作為一個冗余的備份。當綜合測量顯示每個單項測量中的認知負荷都在增加時,我們可以確信所研究的操作者正經歷著更高水平的認知負荷,反之亦然,認知負荷的反應也在不斷減少。如果每個認知負荷評估指標出現不同的反應,考慮到這些反應是從一個人身上收集的,被研究的操作者的經驗就變得不那么清晰了,而且更令人費解。例如,操作員可以在主觀測量中報告低水平的認知負荷,但他們的生理測量表明負荷水平在增加,而他們的性能指標卻保持穩定。同樣,同樣的不一致性可以在不同的認知負荷測量中建模,每個人的反應都表示高、低或穩定的認知負荷。Hancock和Matthews(2019)探討了認知負荷評估的關聯、不敏感和不一致(AID)的概念,以創建一個框架,用它來理解綜合負荷評估指標的可能狀態。定義這些可能的復合認知工作負荷評估狀態的三維矩陣可以在圖3中看到。

圖3. Hancock和Matthews(2019)的認知負荷評估技術的關聯、不敏感和分離(AID)框架矩陣。每項措施都可以表明認知負荷反應的增加(+)、減少(-)或穩定(O)。由于每個狀態都由矩陣中的一個立方體表示,跨越性能(主要任務)、生理學和主觀測量的27種結果組合是可能的。當測量結果相互一致時(即所有測量結果都顯示認知負荷減少或增加),就會出現雙重關聯(用A-表示減少,用A+表示增加)。

Hancock和Matthews(2019)的AIDs分類法為復合認知負荷評估狀態,沿立方體矩陣的軸線呈現了認知負荷評估的三種主要方法。每種方法允許三種反應中的一種: 增加的認知負荷反應(+),減少的認知負荷反應(-),以及穩定的(即不敏感的)認知負荷反應(o)。結合每個單獨的測量的反應結果,產生一個三維矩陣,定義復合認知負荷測量的27個獨特狀態。當不同類型的負荷測量的反應相互匹配時(例如,生理和主觀測量所顯示的負荷增加),兩個測量之間就會發生關聯。如果兩種測量方法的反應彼此不一致,就會發生分離。雙重關聯(如圖1中A+和A-狀態所表示的)發生在所有三種測量方法都報告了相同的反應的情況下(即所有測量方法都顯示了認知負荷增加、穩定或減少的匹配反應)。同樣,當這時所有的測量方法都彼此不一致時,就會發生雙重離析。雖然雙重關聯簡化了認知負荷數據的解釋問題,但認識到影響測量結果趨同的因素可以幫助理解為什么會發生離散。Hancock和Mathews(2019)詳細闡述了這些措施之間的銜接問題,并確定了可能影響措施之間反應不匹配的常見問題。諸如測量方法之間的顆粒度、不同測量方法之間的認知負荷反應的時間、自我調節策略和負荷歷史等因素都會導致不同測量技術之間的不一致。歸根結底,這些問題仍未解決,但認識到它們的存在可以幫助解釋即使是最不相關的數據集。

本報告的目標

本報告研究了過去十年(2010年代)的CWL文獻,以擴展Young等人(2015)報告的趨勢。為了指導USAARL正在進行的CWL研究的發展,對航空領域的復合CWL評估文獻進行了重點搜索。旋轉翼和固定翼航空平臺都包括在搜索范圍內。從這些航空文章中,報告了不同CWL指標的使用頻率和成功率。同時還研究了作為個體差異(即飛行經驗)和研究平臺(即模擬器或飛機)功能的CWL評估的差異數據。最后,通過CWL評估的AIDs模型對綜合CWL指標的結果進行了研究。

付費5元查看完整內容

相關內容

摘要

這項工作探討了使用人工智能(AI)來加強海軍戰術殺傷鏈。海軍行動對水兵提出了很高的要求,要求他們在與艦隊指揮結構協同操作各種作戰系統的同時,保持對態勢的認識,執行任務,并為沖突做好準備。海軍行動由于涉及到武器的使用而變得更加復雜。涉及武器使用的一系列戰術過程和決策被稱為殺傷鏈。一個有效的殺傷鏈需要識別和了解威脅,確定行動方案,執行選定的行動,并評估其效果。殺傷鏈是一個特別緊張的戰術行動類別,因為它們必須在有限和不確定的知識下,在關鍵和苛刻的時限內,依靠各種先進的技術系統,在高度動態和變化的環境中實施,并造成嚴重后果。海軍正在研究人工智能作為一種新興技術,通過減少不確定性、提高決策速度、加強決策評估來改善殺傷鏈行動。本文介紹了對人工智能方法在支持海軍戰術殺傷鏈的特定功能方面的功效評估。

引言

海軍作戰是動態的,在沖突期間,它們變得高度復雜。在海洋環境中與作戰人員團隊一起操作各種先進的技術系統(包括艦艇、飛機、傳感器、通信系統和武器),建立了一個具有挑戰性的行動基線。在沖突或危機情況下,行動的節奏加快,并可能變得非常不穩定;對形勢的認識和對戰斗空間的了解充滿了不確定性;有效的決定對任務的成功至關重要,并會帶來沉重的后果。

一場涉及武器交戰的海軍悲劇是1998年美國海軍 "文森 "號巡洋艦發射的地對空導彈擊落了商用飛機空客A300,機上290名乘客全部死亡(Pasley,2020)(如圖1所示)。這場悲劇涉及到壓力下的時間關鍵性決策(Johnston等人,1998)。

圖1.美國海軍文森號從甲板上發射導彈。

這一事件代表了海軍行動中決策的復雜性,并特別強調了觀察-定向-決定-行動(OODA)循環中的挑戰,這是由約翰-博伊德在1950年代開發的行動活動模型(瓊斯,2020)。人為錯誤、人類認知的局限性和海軍行動固有的決策復雜性導致OODA環路的挑戰,更具體地說,是殺傷鏈過程的挑戰(馮-盧比茨等人,2008,Szeligowski,2018)。殺傷鏈功能是涉及使用武器系統的戰術活動和決策。一個有效的殺傷鏈需要正確設置和使用艦載傳感器,識別和分類未知的接觸,根據運動學和情報分析接觸意圖,認識環境,以及決策分析和戰爭資源選擇(O'Donoughue等人,2021,史密斯,2010,趙等人,2016)。這項研究源于尋找方法來支持水手和作戰人員以及他們在海軍行動中必須做出的經常是復雜的決定。

最近在人工智能和先進數據分析方面的進展導致了海軍的研究,以確定如何利用這些方法來支持廣泛的海軍應用。正在研究人工智能方法在海軍后勤、任務規劃、物理安全、自主系統和網絡安全方面的潛在應用(Heller,2019,Mittu和Lawless 2015)。

在海軍研究使用人工智能方法的過程中,殺傷鏈是另一個備受關注的主要應用。概念性研究提出將人工智能用作認知助手和人機協作(Iversen和DiVita,2019年;Ding等人,2022年;Johnson 2019年;Grooms,2019年;Albarado等人,2022年)。使用人工智能從多個來源的數據融合中提取知識和作戰環境的情況意識的研究正在成熟(Zhao等人,2018)。

這項研究著眼于整個海軍戰術OODA環,以評估使用人工智能來改善每個特定的殺傷鏈功能。圖2顯示了海軍海上戰術領域的概念圖,作為利用人工智能方法和技術的重點。該圖用軍事術語描述了殺傷鏈OODA循環功能的循環性質:發現-修復-追蹤-目標-接觸-評估。該研究探討了使用人工智能來加強這些功能,因為它們被用于海軍藍軍在海洋領域防御紅軍的威脅。

圖2. 概念圖:人工智能賦能海軍戰術殺傷鏈行動。

本文首先回顧了海軍戰術殺傷鏈,描述了戰術戰爭過程模型,并確定了一組28個殺傷鏈功能作為本研究的主題。下一節總結了適用于殺傷鏈的人工智能方法。隨后描述了為本研究開發的評估框架。本文最后介紹了這項研究的結果--人工智能方法與殺傷鏈的映射。

海軍戰術殺傷鏈

分析開始于對海軍作戰相關的戰術操作模型的研究,以便以一種能夠與人工智能方法相一致的形式獲取對殺傷鏈的描述。目標是建立一個海軍戰術殺傷鏈的描述,以: (1)代表海軍戰術領域中與戰斗有關的行動,(2)具有足夠的通用性,以模擬廣泛的戰術決策和行動,(3)被分解到適當的水平,以確定個別和獨特的過程。

殺傷鏈這個術語是指涉及使用武器的攻擊結構。該過程被描述為一個鏈條,以說明用武器攻擊目標需要一套完整的端到端決策和行動,任何階段的中斷都會破壞該過程。Clawson等人(2015)將殺傷鏈描述為 "成功使用特定武器對付特定威脅所需的任務或功能"。殺傷鏈過程包括目標檢測、選擇與目標交戰和選擇武器所涉及的決策,以及攻擊的實際執行。

約翰-博伊德的OODA循環模型是理解戰術行動的基礎,它代表著觀察、定向、決定和行動。圖3展示了OODA循環模型--強調了循環發生的四個階段的行動或過程。在觀察階段,數據和信息被收集。在定向階段,這些信息被處理、融合和分析,以提供對形勢的認識。在決定階段,藍軍決定是否需要采取行動以及這些行動應該是什么。在行動階段,行動被執行,并收集更多信息以確定是否產生了預期的效果。OODA循環對軍事思想有半個多世紀的影響,并幫助塑造了戰爭系統的發展和戰爭理論(Angerman 2004)。OODA循環模型已被用于預測和理解軍事行動反應時間(Hightower 2007)、認知戰術決策(Plehn 2000)、指揮和控制系統及網絡的設計目標(Revay 2017),甚至是高級軍事戰略制定(Hasik 2013)。在現實世界的戰術行動中,許多OODA循環的活動都是動態的、循環的和并發的。

圖3. 殺傷鏈OODA環

OODA循環模型為理解殺傷鏈過程提供了基礎,并導致了對圖4所示的查找-修復-跟蹤-目標-評估(F2T2EA)殺傷鏈過程模型(參謀長聯席會議,2013)的研究。F2T2EA是另一個以軍事術語描述殺傷鏈的過程模型。F2T2EA模型將戰術功能分為六類,并強調戰術行動的周期性。F2T2EA抓住了戰術戰爭功能、決策和行動的細微差別,為人工智能的映射提供了一個更詳細的框架,以激發具體、全面和獨立的殺傷鏈功能。

圖4. F2T2EA殺傷鏈周期。

這項研究開發了一套28個殺傷鏈功能,列于表1。該表顯示了這些功能是如何被歸入OODA和F2T2EA殺傷鏈過程模型的。建立一套具有一定獨立性的不同功能的目的是為了支持特定的人工智能方法與特定的殺傷鏈功能的映射,同時保持它們能夠代表戰術行動中發生的各種海軍決策和行動。

表1. 28個殺傷鏈功能

殺傷鏈的功能是通用的,適用于涉及 "殺傷"行動的各種戰術行動。在這項研究中,殺傷鏈可以支持進攻性打擊和防御性任務;殺傷可以是硬的,也可以是軟的。這允許使用非致命性和反措施行動,以消除對手的資產,完成戰術任務。

在沖突或危機期間,戰術行動的實施涉及殺傷鏈功能的復雜、動態和循環組合。這些功能會重疊、同時發生、重復出現,并且往往需要根據威脅情況進行多次實例化。"尋找 "和 "修復 "將是持續的功能;"跟蹤 "將出現在探測到的每個物體上;"瞄準 "將對被認為有威脅的物體進行;"交戰 "和 "評估 "將對需要殺傷(或解除)行動的威脅實施。

隨著海軍探索殺傷鏈功能的自動化并考慮使用人工智能方法,殺傷鏈功能的特點也開始發揮作用。殺傷鏈與它的威脅情況密切相關。這種作戰環境在許多方面決定了殺傷鏈的時間軸、交戰幾何、局勢動態、不確定性水平和整體復雜性。表2確定并描述了影響人工智能如何被利用來提高自動化和支持戰術決策的殺傷鏈功能的條件。

表2. 殺傷鏈功能特征

表2中列出和描述的特征具有相互依賴性,這些特征源于任務目標、威脅情況的復雜性以及藍軍資產的結構和能力。任務的性質--進攻性或防御性--確定了事件的初始時間線。威脅情況會影響這個時間線,并影響動態、決策風險水平和整體不確定性。藍軍資產的結構和能力影響到可用的決策選擇。殺傷鏈的決策有許多考慮因素,包括傳感器的覆蓋范圍、對對手意圖的評估、交戰策略、交戰規則和要使用的武器。這些復雜和相互依存的特性影響到可接受的決策風險和不確定性水平,并最終影響到整個殺傷鏈過程中可接受的自動化水平。

這項研究檢查和評估了特定人工智能方法的潛力,以加強特定的殺傷鏈功能。其目的是通過提高自動化程度來改善整體戰術任務--不一定要取代人類決策者,但要支持戰術決策--特別是當殺傷鏈決策過程變得高度復雜時。

人工智能

美國國防部(DoD)將人工智能描述為 "機器執行通常需要人類智慧的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的小軟件"(艾倫2020)。人工智能是一個包括許多不同方法的領域,目標是創造具有智能的機器(Mitchell 2019)。人工智能領域正在迅速發展,國防部正在積極研究如何將人工智能有效地應用于軍事任務(GAO 2022)。

DARPA的Launchbury(2017)將人工智能的發展描述為三波,如圖5所示。第一次浪潮(約1970年代至1990年代)產生了基于規則的專家系統,可以推理,但沒有學習或歸納的能力。第二波(約2000年至今)產生了先進的統計大數據學習和深度神經網絡,它們可以感知和學習,但推理或概括的能力有限。第三次浪潮,剛剛開始(2020年及以后),將以上下文適應為特征,在推理和概括能力方面取得進展。未來學家預測,第四次浪潮(2030年及以后)將導致人工通用智能,使機器能夠執行人類能夠執行的任何智力任務(Jones 2018)。

圖5. 三次人工智能浪潮

這項研究專注于三次人工智能浪潮中的人工智能方法,這些方法已經在不同的應用領域得到了證明,或者目前正在研究和開發中。該團隊研究了廣泛的人工智能相關主題(在表3中列出并描述),以便為評估提供知識基礎。

表3中描述的主題是方法、學科和支持能力的類別,它們可能直接影響到為殺傷鏈有效部署AI的能力。每種方法的實施方式將決定未來人工智能支持的殺傷鏈的不同方面。人工智能內部工作的可解釋性和人機合作的能力將影響作戰人員與人工智能系統的互動和信任。特征工程、數據管理和實用功能將影響到人工智能系統的內部運作,因此也影響到人工智能系統的輸出和決策建議。博弈論、決策論、模糊邏輯、融合、空間-時間推理、進化和遺傳算法、預測性和規定性分析以及聯邦學習等學科被納入的方式將決定未來人工智能系統的設計和架構。表3中的人工智能相關主題被用于本文下一節解釋的定性評價。

表3. 人工智能相關主題在殺傷鏈研究中的考慮

該團隊選擇了八種具體的人工智能方法(在表4中列出并描述)用于殺傷鏈的映射。這八種人工智能方法是感知、學習、抽象和推理以獲得更好的知識、預測性能、開發和評估決策選項(或戰術行動路線)的不同技術。它們被認為有可能為殺傷鏈過程的不同方面提供價值,同時也代表了一組不同的人工智能方法,以促進對人工智能如何改善殺傷鏈的更全面的評估。

表4. 八種具體的人工智能方法用于殺傷鏈的映射

目前,人工智能方面的許多進展正在進行中。這項研究確定了感興趣的主題和具體方法,顯示出加強戰術殺傷鏈的強大潛力。本文對這些主題和方法進行了總結。關于人工智能主題和方法的更詳細描述載于本研究的頂點報告(Burns等人,2021)。

評估框架

這項研究開發了一個框架,以評估人工智能方法對殺傷鏈特定功能的適用性。該評估包括兩個部分: (1)從殺傷鏈功能的角度進行的定量分析,以及(2)從人工智能主題的角度進行的定性分析。

第一個部分是基于一套決策點問題形式的四個評價標準(列于表5)、一種評分方法(列于表6)以及與四個決策點中的每一個相關的評價過程。該框架的這一部分產生了一個量化的評價,以評分的形式表明特定人工智能方法對支持或實現特定殺傷鏈功能的適用程度。該小組在應用評分標準時進行了主觀判斷。

表5. 評估決策點問題

表6. 評分標準

第一個決定點要求對每個殺傷鏈功能進行評估,以確定需要什么樣的輸出,并對每個人工智能方法進行評估,以確定其產生的輸出類型的特點。表5顯示了每個決策點的輸出類型。定量輸出包含實數值。定性輸出包括分類數據。集群形式的輸出指的是由強烈關聯的質量分組的數據,通常用于在數據集中尋找模式。基于規則的輸出是一系列的if/then因果規則。表7顯示了對28個殺傷鏈功能之一的評分評估的例子,第25條 "確認影響"。對于這個功能,團隊確定可以使用數據集群來協助特征描述過程,還注意到可解釋的輸出是強制性的,而且預測器的數量較少,以便能夠有更高的準確性。顏色方案表明,聚類是最適合的人工智能/ML方法,邏輯回歸和關聯也可能為殺傷鏈功能提供一些支持。

表7. 25號功能(確認影響)的評分示例

第二個決策點需要對殺傷鏈過程進行評估,以確定什么類型的數據可用,什么類型的學習方式適合每個功能。如果一個包含預測因子和響應變量的完全標記的數據集可用于人工智能的訓練和開發,監督學習將是一個合適的方法。如果殺傷鏈過程中的一個步驟在其數據集中包含預測因素,但沒有響應變量,那么無監督學習將是合適的方法。最后,如果一個殺傷鏈過程有部分或無標記的數據集可用,并且還與一套定義明確的一般規則有關,可以為訓練人工智能學習系統提供反饋,那么強化學習將是一個合適的方法。

第三個決策點根據對人工智能方法的內部運作需要多少可解釋性(或透明的洞察力)來評估每個殺傷鏈功能(XAI=可解釋的人工智能)。為了本研究的目的,這三個選項是基于對要求強制性XAI、希望的XAI或不要求XAI的定性評估。

第四個決策點是根據充分代表殺傷鏈過程不同方面所需的預測因子(或特征)的數量來評估特定人工智能方法的功效。表征與每個殺傷鏈功能相關的決策空間的特征可能會根據現實世界的情況而改變。ML模型需要代表這些特征,并使用輸入變量或預測器來實現。ML模型代表現實世界的方式和相關的特征數量將影響適當方法的選擇。本研究根據輸入特征的數量確定了三類預測器: 1-9,10-99,和100+。

評價框架的第二部分是基于對人工智能相關主題和方法的調查,以及對每種方法的好處和局限性或挑戰的定性評估,因為它們可能適用于殺人鏈領域。這部分評價是從人工智能方法及其對殺傷鏈的普遍適用性這一更廣泛的角度進行的。上一節中的表4列出了被評估的人工智能主題和方法。

人工智能到殺傷鏈的映射

這項研究的結果被總結為兩個人工制品:表8中的映射為每個殺傷鏈功能推薦了最合適的人工智能/ML方法,表9中對戰術領域的人工智能相關方法進行了定性評價。

表8. AI/ML方法到殺傷鏈的映射

表9. 對戰術領域的人工智能相關方法進行了定性評價

表8所示的定量圖譜是對28個殺傷鏈功能中的每一個功能進行決策點評估的結果。每個功能的單獨記分卡可以在相關的頂點報告中找到(Burns et al, 2021)。雖然大多數記分卡導致了一個明確的主導AI/ML方法的適用性,但有四個殺傷鏈功能被評估為有一個以上的潛在方法可供選擇。在8種打分的AI/ML方法中,只有4種得分高到可以進入最終映射:聚類、關聯、邏輯回歸和線性回歸。

定性分析的結果是對人工智能相關的方法和主題以及它們與殺雞用牛的相關性的評價。表9包含了定性評價的結果。

結論

總之,這種映射分析從兩個方向進行:(1)從殺傷鏈開始,將人工智能方法映射到各個殺傷鏈的功能;(2)從人工智能方法和相關主題開始,評估它們對殺傷鏈的潛在效用。由該研究小組開發的第一種方法遵循了一種使用四個決策點的量化評分方法。第二種方法是對各種人工智能方法和相關主題進行調查,并對每種方法與未來人工智能殺傷鏈決策輔助工具的潛在關聯性進行定性評估。

定量分析顯示,一小部分人工智能方法將是為殺傷鏈功能提供高級自動化支持的最佳候選方法。這些方法是:聚類、關聯、邏輯回歸和線性回歸。他們被評估的對殺傷鏈的優越效用是基于他們產生的輸出類型,他們使用的機器學習類型,他們對用戶的可解釋能力,以及他們需要的代表性預測器或特征的數量。這種分析性映射方法是 "自下而上 "的,因為它的起點是傳統的殺傷鏈功能集。它假設各個人工智能方法將被分到各個獨立的殺傷鏈功能中。這預設了一個特定的設計方案,并對殺傷鏈決策輔助工具的未來架構做出了限制。

第二個映射分析是定性的和高層次的,它想象了各種人工智能方法和相關主題的未來潛力,以實現和/或支持未來的人工智能輔助殺傷鏈的決策。這種分析方法是 "自上而下 "的,因為它從一種人工智能方法或感興趣的領域開始,并從整體上評估其與殺傷鏈的一般相關性,而不強加一個特定的設計或被分配到一個特定的功能。這項分析確定了13個與人工智能有關的主題,這些主題可能為未來的殺傷鏈提供效用。人工智能正在成為許多軍事應用中的一項技術。海軍將從人工智能在許多行動中的應用中獲益,包括殺傷鏈。對人工智能增強和/或人工智能啟用的殺傷鏈進行有效和適當的設計和工程,對于實現對同行競爭對手的戰術優勢以及確保其用于支持武器系統的安全性和可靠性至關重要。該項目提供了一個分析基礎,作為繼續研究人工智能在殺傷鏈中的應用的起點。該分析將具體的人工智能方法與殺傷鏈的28個功能相聯系,并確定了人工智能方法和相關主題,這些方法和主題顯示了加強和促成未來海軍殺傷鏈的潛力。這項研究建議繼續研究人工智能和ML在戰術殺傷鏈中的應用。

付費5元查看完整內容

人工智能(AI)的最新進展預示著一個信息周期加速和技術擴散加劇的未來。隨著人工智能的應用變得越來越普遍和復雜,特種作戰部隊(SOF)面臨著辨別哪些工具能最有效地滿足作戰需要并在信息環境中產生優勢的挑戰。然而,SOF目前缺乏一個以終端用戶為中心的評估框架,它可以幫助信息從業者確定人工智能工具的操作價值。本論文提出了一個從業人員的評估框架(PEF),以解決SOF應該如何評估人工智能技術以在信息環境中開展行動(OIE)的問題。PEF通過信息從業者的角度來評估人工智能技術,他們熟悉任務、行動要求和OIE過程,但對人工智能的技術知識有限甚至沒有。PEF包括一個四階段的方法--準備、設計、執行、推薦--評估九個評價領域:任務的一致性;數據;系統/模型性能;用戶體驗;可持續性;可擴展性;可負擔性;道德、法律和政策考慮;以及供應商評估。通過一個更加結構化、方法化的方法來評估人工智能,PEF使SOF能夠識別、評估和優先考慮OIE的人工智能工具。

人工智能(AI)的最新進展預示著一個加速信息周期和加強技術傳播的未來。特種作戰部隊(SOF)目前缺乏一個以終端用戶為中心的評估框架,該框架可以幫助信息從業者確定人工智能工具的操作價值。這篇論文提出了一個從業人員的評估框架(PEF),以解決SOF應該如何評估人工智能技術以在信息環境中開展行動的問題(OIE)。

PEF通過信息從業者的角度來評估人工智能技術,他們熟悉任務、操作要求和OIE過程,但對人工智能的技術知識有限甚至沒有。該框架包括一個簡單的四階段方法--準備、設計、執行、建議--評估九個評價領域,如圖1所示。

根據現有文獻和對美國政府、工業界和學術界的人工智能和世界動物衛生組織專家的采訪,PEF是通過對四個主要研究領域的分析制定的。

1.OIE的潛在AI應用。論文發現,人工智能可以幫助從業者解決OIE中的四個傳統挑戰:分析信息環境,實現內部產品開發,提高信息傳播的及時性和規模,以及提高衡量有效性的能力。

2.人機合作(HMT)的主要原則和考慮。研究強調了 "合理的信任 "對有效的HMT的重要性。 由于OIE的認知性、以人為本的性質,信息部隊在HMT中面臨著額外的復雜性,這就需要人工智能系統進一步透明和可解釋。

3.技術接受和采用理論。理論分析揭示了相對優勢、兼容性和復雜性在技術采用中的突出作用。對技術的信任和用戶可用的時間也影響到人工智能在OIE的采用潛力。組織層面的因素,如準備情況、管理支持和政府政策也是重要的考慮因素。

4.正在進行的增加人工智能透明度的倡議。對現有框架的分析--國防創新股的負責任的人工智能(RAI)指南、模型卡、數據表、概況表和系統卡--揭示了考慮透明度和評估人工智能有效性的關鍵因素。這些要素包括對預期用途、數據出處、模型性能、模型的局限性和道德考慮有一個清晰的認識。

為了測試擬議框架的可行性,PEF被用來評估Pulse,這是一個目前由美國陸軍特種作戰內部的OIE單位使用的數據收集和參與平臺。評估發現,PEF使從業者在使用人工智能工具時,能夠劃分出優勢以及需要額外考慮的領域。特別是,對系統/模型性能和用戶體驗的評估突出了兩個關鍵點。首先,與系統相關的復雜程度需要重點了解誰是目標用戶。第二,為了正確地評估人工智能,模型的性能指標--這些指標在傳統上沒有被傳達給終端用戶--應該被從業者所接受并可以解釋。

這篇論文建議美國特種作戰部利用PEF作為從業人員對人工智能技術進行初步評估的準則。通過一個更加結構化、有條不紊的方法來評估人工智能,這個框架使SOF能夠識別、評估和優先考慮人工智能支持的工具,這些工具能夠有效地解決行動需求,并在信息環境中產生優勢。PEF還確保從業人員考慮納入美國防部RAI戰略的評價標準。

本論文包括六個主要部分(第二章至第七章)。第二章建立了基礎,首先解釋了人工智能和OIE的關鍵概念和定義。該章還討論了從業者在計劃、執行和評估OIE時面臨的挑戰,并確定了可以解決其中一些挑戰的人工智能技術。第三章闡述了信任在人機協作中的關鍵作用,它影響了人工智能在軍事行動中的有效使用。第四章深入研究了技術接受和采用理論,以確定影響OIE單位內人工智能技術采用性的重要因素。第五章評估了現有的框架,這些框架有助于提高人工智能系統的透明度,并可由SOF利用這些框架來評估技術。進行了定性分析,以確定通過開源研究發現的50個模型卡的共同主題。第四章和第五章的發現被用來建立第六章提出的從業人員評價框架(PEF)。在第七章中,該框架被用來評估Pulse--一個目前被OIE單位采用的人工智能工具。第八章最后提出了對未來研究的總體建議和意見。

付費5元查看完整內容

提綱

  • 戰術無人機營--一個場景
  • 背景和框架
    • 未來戰斗行動的開展
    • 人工智能
    • 政治和法律框架
  • 目標
    • G1:提高日常工作的效率
    • G2: 提高行動能力
    • G3: 解決潛在的能力差距
  • 驅動力
    • DF1: 潛在對手的人工智能能力
    • DF2:作戰行動的動態性不斷增強
    • DF3: 更少的合格人員
    • DF4: 資源短缺
    • DF5: 信息的數量和密度
    • DF6:信息技術和人工智能發展的動態性
  • 陸軍發展的行動領域(FoA)
    • FoA1:現有系統的進一步發展
    • FoA2:新的武器系統和武器裝備
    • FoA3:人員/物資的人工智能能力管理
    • FoA4:在培訓中使用人工智能
  • 組織結構的行動領域
    • 招聘人工智能專家
    • 軍隊、研究和工業之間的合作
    • 國際合作
    • 使用測試和實驗結構
    • AI數據基礎設施和組織
  • 總結
  • 附件:德國陸軍概念和能力發展中的實施措施

在軍事上有許多行動領域使用人工智能。除了對正在使用的系統進行持續的進一步開發和人工智能鑒定,特別是具有新特性的未來系統將能夠從人工智能的應用中受益。日常工作中的人員和物資管理,以及培訓,也提供了主要的潛在行動領域。

一個精心定義的政治和法律框架是必不可少的,特別是對于軍事力量的使用。因此,目前和將來使用自動化和自主系統必須符合FMoD的政治和法律要求。除了政治和法律方面,從軍事角度來看,使用致命性自主武器系統也是一種不可取的、非預期的選擇。

人工智能是一種高技術,需要大量的專業知識和開發努力。為了實現這一目標,德國陸軍正在尋求與歐洲工業和研究的密切合作。在德國陸軍發展的背景下已經建立的技術與能力(TmC)模式正被用作進一步活動的起點。

為了能夠充分應對未來所有與人工智能相關的挑戰,德國陸軍必須擁有合格的人工智能人才。在這方面,聯邦國防軍面臨著來自民用部門的強烈競爭。為了滿足短期內的需求,軍隊正在依靠現有的OR/M&S人員。

目前所有的數據表明,利用人工智能的方法和程序可以大幅提高陸軍的效率和效力。為了能夠適當地應對即將到來的挑戰,必須采取與組織程序和結構有關的措施。因此,"陸軍中的人工智能 "立場文件建議為陸軍設立人工智能工作臺,為陸軍設立人工智能開發中心,為陸軍設立人工智能數據中心。只有這樣才能全面覆蓋人工智能領域的創新、人工智能系統的培訓和數據的提供。

下文將在附件中詳細介紹使早期實現成為可能所需的所有措施。

德國陸軍概念和能力發展中的實施措施

2018/2019年,在德國陸軍概念和能力發展中心開展了關于人工智能(AI)主題的 "技術與能力 "形式。在一系列研討會的過程中,根據北約綜合作戰計劃指令(COPD),確定了人工智能在陸軍所有能力領域以及武器和服務中的應用,并按行動路線進行分類。下面詳細列出了五個應用領域,每個領域都有不同的行動路線。

根據內容和發展的成熟度,這些措施和行動方針的實施是通過CD&E和R&T活動進行的,或者在CPM的范圍內通過適當的舉措進行。與聯邦國防軍的能力概況相匹配是至關重要的。陸軍概念和能力發展中心負責實施。

  • 1 圖像分析

這個領域匯集了基于人工智能的目標識別和分類系統領域的所有活動。這些項目正在逐步建立起一種功能,以模塊化的方式擴展陸軍的各種保護和效果組件,包括從ISR到基于效果的自動系統。一個重點是將現有的民用方法用于軍事目的。

  • 2 戰術無人機

這一領域匯集了與不同幾何形狀的小型無人機系統有關的所有活動。這些活動包括從偵察到障礙物,再到進攻性武器系統。不管是什么活動,重點都是在防御和部署自己的TaUAS的能力。一個重要的挑戰是,特別是創造出足夠堅硬和強大的TaUAS,使其能夠使用被動傳感器系統,在非常有限的通信和沒有GPS的情況下,在白天和晚上半自主地行動。

  • 3 下一代戰斗管理系統(NGBMS)

這一領域匯集了所有側重于指揮和控制的活動。它既包括實現單一的功能,在適用的情況下,也可以在已經進行的活動中進行改裝,也包括將可能用于超戰爭情況的系統和方法概念化。沒有任何跡象表明有任何明顯的雙重用途。挑戰在于對指揮和控制過程的相關部分進行建模,以創建超戰可行的指揮和控制組件。理想情況下,指揮和控制過程的一部分可以按照博弈論的思路被描述為一個游戲,這樣人工智能就可以在決策支持或指揮和控制的自動手段的意義上使用。MUM-T是這方面的一個關鍵挑戰。

  • 4 材料和基礎設施

這一領域匯集了后勤、維護和IT管理領域的所有活動。該行動路線包含了各種可以相對快速實施的措施,并有助于更好地應對當前在支持方面的挑戰。許多力爭實現的功能正在民用部門以非常類似的形式使用或開發。

  • 5 分析方法

這個領域匯集了各種單獨的解決方案,其中人工智能和大數據可以為有關數據分析和優化的經典問題提供支持。數字化和人工智能提供了一個新的質量機會,因為某些問題(識別,......)可以實時和提前解決(也適用于車輛)或技術設備(如防火墻)。

付費5元查看完整內容

美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置,適合于基礎研究,以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配

美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。

要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識,抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模,會產生一些不確定的特征,如表面壓力分布和熱通量,這對飛行器技術,包括穩定性、控制和熱負荷管理,都有負面影響。

幸運的是,有一個先例,即通過定義政府基準飛行器來促進全社會的科學討論,這些飛行器包含功能相關的工件,但對具體的發展計劃不敏感(見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究)。本報告的目標是定義一個典型的、與軍隊相關的配置,適合于基礎研究,以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。

付費5元查看完整內容

2022 年 10 月 11 日,美國陸軍發布了一份綜合數據計劃(ADP),這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。

該計劃是一項為期三年的工作,將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用,從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計,以實現這一目標。

陸軍首席信息官 Raj Iyer 博士說:“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策,才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”

數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據,以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。

與早期的軍事行動相比,現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分,多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。

每個領域都有自己的信息和數據流,一些信息來自開源情報,一些來自天基傳感器,還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。

ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力,未來將被另一個更新所取代。

通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。

付費5元查看完整內容

對指揮官的認知要求正在增加。由于創新和變化的速度,指揮官做出良好風險決策的能力受到挑戰。未來的戰爭不太可能像以前的沖突或訓練演習那樣以常規戰斗為主。美國的對手避免使用既定的理論,這提出了難以預料或減輕的危險。鑒于指揮官不能僅僅避免風險,而是要接受風險以獲得并保持戰爭的主動權,指揮官及其參謀部應考慮陸軍的風險理論和陸軍風險管理中心的理論風險梯度法是否足以應對多域作戰概念中描述的未來戰爭。

從對認知的研究來看,"風險認知 "的概念為風險管理人員(通常是參謀人員或主題專家)和風險決策者(通常是指揮官)如何評價風險分析方法提供了啟示。風險感知,即對風險水平的主觀判斷,這種想法與提出事實和數據就一定有說服力的想法形成鮮明對比。風險感知的研究已經證明了背景、敘述和簡單性在風險交流中的重要性。在風險決策者中,不熟悉、不了解、以及深深的偏見或恐懼會導致對風險水平的認知與專家的認知相差甚遠。

另外三種風險分析方法與陸軍理論風險梯度進行了比較。這些工具源自民用方法,被用于項目管理、工程和其他與風險和預見有關的領域。它們是故障樹、場景假設和風險三要素。雖然它們都有一些量化的元素,但它們為風險管理人員提供了同樣多的空間,甚至更多的空間,以應用批判性思維和分享背景,如預測的不確定性或與規劃行動的聯系。

正如陸軍出版物和文章所描述的那樣,未來的戰爭預計需要指揮官掌握五個領域--包括不熟悉的網絡和空間領域--在作戰領域往往比以前更廣闊,在行動中趨向于提高機動速度和創新。在這樣的環境中,無論是競爭、沖突、反叛亂,還是大規模的地面作戰,所有軍事專業人員都應該使用盡可能好的風險分析來保護生命和實現目標。為此,本文對理論、領導人發展和參謀部行動提出了潛在改變方法。

付費5元查看完整內容

本報告是“飛行決策和態勢感知”項目的第一個成果。該項目的總體目標是提供系統評估新興技術的方法建議,這些技術可能會影響或促成決策,并提高美國陸軍未來垂直升降機(FVL)飛行員的態勢感知(SA)。

這第一份報告的目標是:(1)回顧描述決策和SA的主要理論方法,以及(2)確定在美陸軍航空兵環境中,新技術對決策和SA的影響,及替代理論對作戰評估方法的影響。

為了理解FVL航空環境下的決策,我們采用了以下決策的定義:決策包括形成和完善一個信念或行動方案所涉及的認知活動。

回顧了人的因素和自然決策(NDM)研究界最突出的與FVL航空有關的決策模型。對于每一個模型,我們都簡要地總結了對評估決策的方法和措施的影響,以及新技術對個人和團隊決策的影響。審查的模型包括 "雙系統 "模型(Kahneman,2011)、識別-判斷(RPD)模型(Klein,1989)和SA模型(Endsley,1995)。我們還回顧了OODA循環模型,這是一個在軍事上很有影響力的模型,由一名戰斗機飛行員開發(Boyd, 1987),以及從過程控制界產生的決策階梯模型(Rasmussen, 1976),以及最近從NDM界出現的決策宏觀認知模型系列。我們還描述了兩個高度專業化的數學模型,它們在分析和評估新技術對人類決策的影響方面被證明非常有用--信號檢測理論和LENS模型。

我們包括一個題為 "把它放在一起 "的部分,綜合了我們審查的一系列模型,以(1)確定各模型的核心概念,這些概念對描述FVL環境中的決策特點很重要;(2)總結來自不同決策模型傳統的方法和措施,它們與評估新技術對FVL環境中決策的影響有關;以及(3)提出一個與FVL有關的決策綜合框架。這個框架綜合了我們所審查的各種決策模型中常見的核心概念,這些概念對于FVL背景下的建模和支持決策非常重要。

各個模型所確定的核心概念包括:

  • 決策可以產生于直覺過程、審議過程或兩者的結合。

  • 專家的表現往往是基于更直觀的、以識別為基礎的過程。

  • 決策是一個動態的、循環的過程,與其他認知活動密不可分,而這些活動又反過來影響著決策(如感知、感性認識、計劃)。

  • 感知包括自上而下(即根據預期搜索信息)和自下而上的過程(即檢測環境中的突出信息,然后影響理解并進一步反饋預期)。

  • 人們積極嘗試了解當前的情況(即感覺),這種了解是決策的核心。

  • 人們隨著對當前形勢的理解的發展而制定、修改和調整計劃。

  • 有效的團隊合作需要對當前形勢和目標有共同的理解,有時稱為共同的SA或共同點。

這些核心概念為我們開發的綜合框架提供了基礎,以指導我們接下來的工作。

我們審查的決策模型為評估新技術對個人和團隊決策的影響提供了重要的觀點、方法和措施。最特別的是,我們審查的所有決策模型都強調了在現實條件下研究決策的重要性,這些條件反映了在感興趣的現實世界中出現的挑戰。許多模型對設計和進行評估決策的研究做出了方法上的貢獻。最重要的是,他們強調需要創造研究條件(例如,通過設計評價情景),以便觀察和測量決策的重要方面。許多模型還激發了用于評估決策的新措施。關于SA的文獻記載最多,使用最廣泛,但其他決策模型也導致了更多的新措施。這些都在報告中進行了總結,并將在項目的下一階段進行更充分的探討。

在本階段研究中開發的綜合框架強調了使有效決策得以實現的宏觀認知活動,以及它們是如何相互關聯的。它特別強調了感覺認知功能(對態勢的理解),這種功能產生的期望反過來又會驅動感知、注意和工作量管理(期望循環)。感知也會產生目標,反過來驅動決定和計劃,以及有效的團隊工作所需的溝通和協調(目標到行動的循環)。綜合框架為下一組任務的執行提供了基礎,最終確定了可用于評估新技術對動態陸軍航空決策的各種認知活動的影響的方法和措施。

圖11. 一個表征決策的綜合框架

付費5元查看完整內容

執行摘要

研究要求:

21世紀的美國陸軍領導人面臨著無與倫比的復雜情況。越來越多的陸軍領導人被賦予管理作戰環境的任務,這些環境是多方面的、高度動態的,而且經常在 "灰色地帶 "進行,沖突的性質本身并不明確(ISAB,2017)。這些極其復雜的環境對軍事領導人提出了空前的要求。雖然技術能力和戰斗力是過去常規武力沖突中的關鍵區別,但今天的沖突中的關鍵區別是精神力量和敏捷性(Kay,2016)。軍隊領導人需要先進的認知和行為技能來理解和管理領導人面臨的模糊和復雜的問題,并有效地領導他們的單位。為了做出有效的決策,領導人需要能夠進行整體思考,認識到各種聯系,預測決策的二階和三階效應,質疑假設,想象情況可能會演變到未來,并向他人傳達他們的理解。

為了滿足對能夠有效理解和管理復雜作戰問題的陸軍領導人的需求,陸軍于2010年將陸軍設計方法學(ADM)引入條令。陸軍條令將ADM定義為"......一種應用批判性和創造性思維來理解、想象和描述不熟悉的問題和解決方法的方法"(陸軍部,2015,第1-3頁)。在2010年推出ADM條令后不久,美國陸軍行為和社會科學研究所(ARI)啟動了一項關于設計思維、陸軍設計方法和戰略思維的多年研究計劃。ARI的研究計劃包含了一系列的研究,以確定與設計和戰略思維相關的行為和高級認知技能的發展和維持有關的挑戰和要求。這里報告的工作目標是對設計和戰略思維研究項目的結果進行總體分析、綜合和整合,并根據項目的關鍵見解向軍隊提出建議。

程序:

為了支持研究要求,研究小組對ARI的研究項目進行了系統的檢查,以提取整個研究項目中出現的關鍵見解。分析和綜合過程是由報告或產品審查、分析、討論、綜合和記錄的反復循環組成的,既可以單獨進行,也可以作為一個團隊進行。

研究結果:

在各種研究工作中出現了幾個突出的發現。研究項目的一個核心發現是,與戰略思維和設計相關的語言是提高軍隊這些能力的障礙。使用替代框架與作戰部隊交流這些概念(例如,"管理復雜問題")可能為分享相關見解帶來希望。第二個發現是,設計和戰略思維共享相關的知識、技能和能力(KSAs),這可以作為培訓和教育、評估和績效管理以及實際指導的組織結構。第三個發現是,士兵們應該在職業生涯的早期就發展設計和戰略思維能力,接觸替代性的觀點。第四,有必要為設計和戰略思維能力開發有效和可靠的評估工具。第五,士兵們需要接觸到支持管理復雜問題的實用工具和資源。最后一個突出的發現是,軍隊文化應該更加積極地支持與設計和戰略思維相關的關鍵行為、心態和高級認知技能。

研究結果的利用和傳播:

研究結果和產品可以使各種利益相關者受益,包括那些有興趣為自己和自己的部隊在作戰環境中管理復雜問題做準備的現任和新任陸軍領導人,以及那些有興趣創造鼓勵與設計和戰略思維相關的心態和行為的部隊氛圍的人。一些研究產品已被開發出來,供那些在課堂上教授與設計和戰略思維相關的高級認知技能的教官使用,以及供那些希望為自己或單位發展這些高級認知技能的士兵或單位指揮官使用。最后,這些研究結果對致力于軍隊人才管理的政策制定者,以及那些希望進行與培養管理復雜問題的軍隊領導人有關的額外研究的人都是有用的。

付費5元查看完整內容

全球信息網絡架構(GINA)是一個語義建模框架,旨在促進特設傳感器資產和指揮與控制系統的整合,因為它們可以通過被稱為矢量關系數據建模的實施方式提供給戰斗空間中的操作人員。為了評估GINA的互操作性和推理能力,開發了一個概念驗證評估,并在真實世界的傳感器數據上進行測試。

正如美國陸軍的多域作戰(MDO)概念所指出的,美國的對手試圖通過在政治、軍事和經濟領域的分層對峙來實現他們的戰略目標,而不是通過沖突來對抗美國軍隊和聯盟伙伴。此外,MDO概念指出,對手可能采用多層跨域對峙--跨越陸地、海洋、空中、太空和網絡空間,在時間、空間和功能上威脅美國和聯盟部隊。反擊這些戰略的中心思想是快速和持續地整合所有領域的戰爭(即融合),跨越時間、空間和能力,以戰勝敵人。

為了實現MDO的執行,聯合軍種、政府機構和多國伙伴之間的互操作性是一個關鍵要求。戰術行動已經越來越依賴于信息網絡的傳感、通信、協調、情報和指揮與控制(C2)。因此,美國陸軍不斷尋求提高其整合網絡系統的能力,并在不同的作戰節奏水平上實現同步效果。從歷史上看,由于沒有足夠的能力來支持現有的和新興的技術和進程,這種整合在以無處不在的物聯網(IoT)和軍事C2系統為特征的不斷發展的網絡化戰斗空間中帶來了技術挑戰。這種限制因不同系統的孤島而進一步加劇,限制了戰術、技術和程序的跨系統使用,以及支持硬件和軟件組件。這些限制使作戰人員面臨不一致和缺失的關鍵任務數據,促使作戰功能在孤立中運作。例如,行動和情報之間的數據交換是有限的,范圍也受到限制,增加了指揮官決策過程中的風險和延誤。

為了實現陸軍網絡現代化,陸軍未來司令部網絡跨職能小組(N-CFT)正在調查通過創新、整體和適應性的信息技術解決方案來實現網絡互操作性的顛覆性方法,以滿足既定的C2互操作性挑戰。根據NCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的研究人員評估了一項名為全球信息網絡架構(GINA)的技術,作為多源傳感器數據融合的系統解決方案,以支持決策。 根據其軟件規格,GINA的目的是減少在互操作和集成方面存在的技術挑戰,并支持及時的共同情報/作戰圖景和決策的情報分析。

目前,語義互操作是一個活躍的研究領域;近十年來,已經開發了一些軍事技術解決方案。語義互操作提供了促進快速整合來自臨時傳感器資產和異質C2系統的信息的手段,因為它們為戰斗空間中的操作人員所了解。這項初步評估表明,GINA能夠整合不同的傳感器系統,并對數據進行同質化和協調,以便在本次評估的實驗場景下提供解釋、分析和推理。在這一評估的基礎上,在與MDO的規模和復雜性相匹配的實地演習或實驗中進行進一步的評估可能是有意義的。具體來說,進一步評估的能力是:1)來自多個部門的傳感器和通信設備之間及時的互操作性;2)連接來自不同結構和標準的盟國、合作伙伴或商業數據流系統;3)豐富、數據分析、推理或增強其他決策支持C2系統;以及4)與其他技術解決方案的比較。

這項評估的綜合分析已經在DEVCOM ARL技術報告ARL-TR-9100中記錄和公布。

付費5元查看完整內容

本報告記錄了美國海軍卡勒研究金(Karle’s Fellowship)研究項目的第一年,調查機器學習在增強航天器運行方面的應用。研究金的第一年主要包括研究范圍的確定、文獻回顧、數據收集以及算法選擇和開發。近年來,美國國防部(DoD)越來越重視自主能力的發展,這在美國海軍的研究和發展戰略中也得到了響應。機器學習技術代表了一個近期的機會,通過增強現有技術來逐步提高自主能力。從長遠來看,這是對新技術的投資機會,可能會極大地提高國防部系統能力。在更復雜的技術成為現實之前,解決自主性問題的實際方法必須側重于消除自主性的最重要障礙。在空間系統運行的背景下,健康監測和故障管理已被政府和商業實體確定為空間系統自主性的最大障礙之一。空間系統日益增長的規模和復雜性,以及衛星群的快速采用,使傳統的地面人類監測迅速變得不切實際,難以持續。這項工作主要研究在衛星遙測中使用機器學習進行自動異常檢測。異常檢測是自主健康監測的基本職責之一,因為對非正常狀態的檢測通常是運行故障檢測和補救過程中的第一步。近期的自動異常檢測可以通過對大量的遙測數據進行分類并只標記需要調查的數據來幫助人類操作員。從長遠來看,它可能被用作綜合自主健康監測系統的一部分。異常檢測的機器學習領域一直是廣泛研究的主題,因此,該技術已經足夠成熟,可應用于當前的健康監測系統。此外,異常檢測在海軍的其他方面也有一些潛在的應用,包括海洋領域感知(MDA)和指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)工作。研究金的第二年將著重于進行實驗,建立概念驗證,并將該技術整合到現有的空間系統中。

1. 引言

本報告記錄了一個為期兩年的卡勒研究金研究項目的第一年,該項目是關于機器學習(ML)用于增強航天器運行的主題。它旨在全面回顧迄今為止的所有研究,包括美國國防部(DoD)和海軍的需求、研究范圍的確定、背景領域知識、文獻回顧、數據收集、算法選擇和開發、實驗設計以及其他發現。此外,它應作為最后一年研究和后續項目的動力和基礎。

1.1 杰羅姆和伊莎貝拉-卡勒研究金計劃

美國海軍研究實驗室(NRL)設立了Jerome和Isabella Karle杰出學者研究金計劃,以紀念Jerome和Isabella Karle博士,他們在化學領域的杰出貢獻為他們贏得了美國和國際上的認可,Jerome Karle博士獲得的諾貝爾獎。該計劃為研究人員提供了進行為期12至24個月的獨立研究項目的機會,這些項目由NRL內部資助。NRL的海軍空間技術中心(NCST)接受了一項卡勒研究金,從2020年7月開始,到2022年7月結束,題為 "機器學習促進增強航天器運行"。該研究金的主要重點是識別、調整和應用有前途的ML算法到航天器運行中,并創建一個概念驗證,以評估ML如何改善空間系統的性能。為這個概念驗證提供的規定如下。

1.一個ML算法

2.一個用于訓練該算法的數據集

3.用于評估該算法的航天器模擬測試平臺

4.量化任何性能變化的分析結果

ML有許多潛在的應用于空間任務,為運行和任務性能的改進提供了可能性[1]。為了使這項研究與美國海軍的需求保持一致,并為概念驗證保持一個可操作的范圍,該項目開始調查海軍在空間領域的需求和目標。隨后是對一般航天器運行和現有技術差距的審查,以確定ML有希望的應用領域。剩下的介紹性內容和背景概述了研究范圍和方向的細化。

1.2 美國海軍對增強空間系統自主性的需求

美國海軍在空間領域進行許多活動,包括海洋領域感知(MDA)、定位導航和定時(PNT),以及指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)[2]。這些活動為關鍵決策信息的收集、分析和分布提供了基礎設施。這些系統的重要性體現在國防部的投資戰略中。例如,2018年國防戰略(NDS)和海軍研究與發展框架都將具有彈性和持久性的C4ISR作為投資重點[2,3]。隨著提供這些能力的系統在規模和復雜性上繼續增加,以應對日益增長的作戰需求,有必要整合更多的自主功能,以保持系統性能的最大可能水平。國防部已經認識到這一需求,因此,2018年國家發展戰略和其他一些戰略文件明確列出了自主能力的進步是一項關鍵的技術投資[2-5]。因此,美國海軍有必要繼續發展自主技術,以使關鍵系統能夠隨著部隊的需要而擴展。

在美國海軍空間系統中發展自主能力將有助于提高可操作信息的數量、質量和及時性。自主性可以應用于空間系統的多個方面,包括航天器運行和任務性能。從純粹的運行角度來看,更大的自主性允許空間系統在不壓倒人類操作員的情況下擴大規模。例如,當決策的時間尺度或信息處理的規模排除了人工控制時,自主性就變得有必要[6]。隨著分布式多衛星任務變得越來越普遍,這種情況也變得越來越普遍。此外,自主性提供了以更低的成本獲得更高的系統性能的機會,因為它的運行更加穩健和高效[7]。從任務的角度來看,自主性的提高可以采取改進數據收集、處理、分析和傳輸的形式,提高任務的效率和效果。運行和任務執行的改進都會減少對環形系統的壓力,在某些情況下可能完全不需要人,使操作人員能夠承擔更高級別的任務[5,8]。

盡管從長遠來看,海軍應繼續投資于各種自主能力,但近期的努力必須集中在消除自主性的最重要障礙上。多個權威機構已經確定航天器故障管理(FM)是最大的空間系統自主性障礙之一,包括國防科學委員會(DSB)和美國國家航空和航天局(NASA)[4, 9-11]。一般來說,FM是自主系統的一項有利技術,因為它允許系統在非正常情況下繼續運行[12]。對于海軍來說,自主FM,以及更廣泛的健康監測,提供了幾個好處,包括增加彈性和可靠性。有能力預測、預防、隔離和恢復故障的系統在本質上更有可能在關鍵時期保持運行。此外,自主健康監測可以幫助緩解評估空間系統健康狀態的困難,因為空間系統正變得越來越大和復雜。

1.3 研究問題

美國海軍顯然需要對自主空間系統能力進行持續投資。由于這個原因,目前的工作范圍涉及到確定ML如何可能被應用于空間系統的自主性。特別考慮到航天器FM系統,因為它們作為自主性使能器所帶來的重大挑戰和機會。這項研究試圖獲得以下問題的答案:

1.ML在自主空間系統運行中最有希望的應用是什么?

2.如何將ML納入航天器FM系統?

3.哪些FM任務適合于ML?

2. 背景情況

為了激勵和提供后續章節的背景,本章包括關于自主性和自動化、ML基礎、空間系統運行和航天器FM的信息。每一節都旨在為每個相關主題提供足夠的背景信息,以便在本報告的大背景下理解其作用。

2.1 自動化、自主性和人工智能

自動化、自主性和人工智能(AI)是三個不同的概念,由于其概念上的相似性,常常被混為一談。當創建一個至少部分不受人類控制的系統時,必須注意考慮應該采用這些概念中的哪一個。例如,一個必須是嚴格的可重復性和確定性的過程是比自主性或人工智能更適合自動化的候選者。相反,一個必須能夠適應不可預見的情況并做出決定的系統必須采用某種程度的自主性。這些概念也可以被利用來一起工作;例如,一個自主系統可以依靠自動化組件來執行重復的功能,而基于人工智能的組件來協助決策任務。重要的是要強調,一個特定的系統可以采用這些概念中的一個或多個,同時仍然利用某種形式的人在回路中的控制。為了提供一個清晰的劃分,本報告采用了[6]的以下定義。

自動化是自動控制的設備、過程或系統的運行,它取代了人類的勞動。盡管自動化過程可能很復雜,但它們是嚴格的確定性的,系統采取的所有行動都是通過預先確定的決策標準選擇的。換句話說,自動化過程通過遵循明確的指令運作,不能在這些指令之外運作。

自主性是指一個系統在獨立于外部控制運作時實現目標的能力。自主系統的兩個關鍵特征是自我指導和自給自足。請注意,運行邊界--對系統可以和不可以做什么的限制--可以而且應該由系統設計者來實現。此外,具體的自主能力可以存在于一個在人類控制下運行的更大系統中。關于這個話題的更深入的處理,請看[4]。

人工智能是計算機系統執行通常需要人類智能的任務的能力。一個使用人工智能的系統可以用它來幫助一些不同層次的自主決策,并且可以在明確的運行范圍內與人類操作員一起工作。雖然人工智能是具有某種程度自主性的系統的一個常見組成部分,但重要的是要注意,自主系統不一定需要人工智能組件。

2.2 機器學習的基本概念

機器學習可以被定義為人工智能的一個子集,在這個子集中,計算機算法在反復接觸數據的情況下,會自動改進給定任務。利用大型人工神經網絡的現代深度學習技術是最普遍的ML方法之一。圖1顯示了人工智能、ML和深度學習之間的關系。本報告使用機器學習一詞是指當今采用對目標任務效果最好的算法;這被稱為 "弱人工智能",或執行單一任務的人工智能,其范圍很窄。這方面的常見應用包括分類和回歸任務。相比之下,人工通用智能、"強人工智能 "和相關術語廣泛指的是人類擁有的認知智能類型。盡管這一領域的研究正在進行,但這種類型的人工智能不太可能在短期內適用,因此將不再進一步討論。

圖1-人工智能領域的常見歐拉圖[13]

雖然ML模型在架構上可能有很大的不同,但大多數采用相同的基本實現模式。一般來說,一個ML模型將一些輸入數據映射到一個相應的輸出。訓練數據在模型優化過程中被用來確定最佳模型參數。因此,用于訓練ML模型的數據必須盡可能全面地代表問題。數據中的任何偏見、缺失的模式或其他問題的代表錯誤都會導致模型給出有偏見的預測,或者只是表現不佳。此外,用于優化和評估模型的指標必須被仔細選擇,以便它們能夠準確地描述模型的性能。無論一個給定的算法是單獨工作還是作為一個更大的綜合系統的一部分,這都是正確的。無論學習范式如何,這也是真實的。

本報告將學習范式廣泛定義為調整ML模型參數的方式。圖2顯示了三種主要范式:監督學習、無監督學習和強化學習。這些基本范式可以作為其他衍生范式(如半監督學習)的構成要素。監督學習是研究得最多的,也是實踐中最常使用的。在這個范式中,每個訓練數據樣本都是有標簽的:它包括模型的輸入數據以及相應的地面真相,或目標輸出。通過調整模型參數來優化模型,使一些任意的損失函數的值最小化,該函數將模型輸出與地面實況進行比較。相比之下,無監督學習算法在輸入數據中搜索模式和結構,而不需要利用來自標記的地面真實數據的明確反饋。最后,強化學習使用反饋系統來訓練智能Agent在其環境中采取的行動,這些行動使根據Agent的預期性能定制的獎勵方案最大化[14]。

圖2-三種基本的機器學習范式[15]。

2.3 空間系統的解剖和運行

發射后,由無人駕駛航天器組成的衛星系統通常由三個主要運行部分組成:空間部分、地面部分和用戶部分。典型的空間系統部分和它們在系統中的作用顯示在圖3中。本節的重點是空間和地面部分,因為它們是用戶部分的基礎結構,而用戶部分又為終端用戶提供衛星系統的產品。

2.3.1 空間部分

空間部分包括衛星系統中的所有航天器;這可能包括一個單一的航天器或一個由許多航天器組成的星座。衛星在其具體結構上可能有很大的不同,但典型的衛星可以分解成兩個主要部分:總線和有效載荷。雖然有效載荷服務于特定的任務,但任何航天器總線的主要目標是通過提供必要的基礎設施來支持有效載荷,從而促進在空部分任務。雖然具體子系統的存在和重要性可能因任務而異,但本討論包括地球軌道衛星的典型子系統,如圖4所示。

為了簡潔起見,這些子系統將不會被詳細討論。然而,重要的是要注意,每一個都在航天器的基礎設施中發揮著特定的作用。因此,通常從這些子系統中的每一個收集遙測數據,以評估航天器的健康狀態,通常在多個層次上,如組件、子系統和系統層面。一個航天器記錄的遙測通道的數量可能從幾十個到幾千個不等。通常,收集的遙測數據的類型和數量是由主題專家決定的,他們決定什么級別的信息對支持一個特定的任務是必要的。

圖3-典型的空間系統部分[16]。在運行上(即發射后),三個相關部分是地面、空間和用戶部分。

圖4-一個衛星通常由一個總線和有效載荷組成,前者為任務提供基礎設施,后者執行任務。圖中是典型的總線子系統。

2.3.2 地面部分

地面段的主要責任是與空間段對接,并在整個系統的其他部分分發各種類型的數據。一個典型的地面部分由幾個元素組成,包括任務控制中心或任務運行中心、地面站、地面網絡和遠程基礎設施。圖5給出了典型的地面部分組件的概述。地面部分與空間和發射部分接口,并在發射后從發射控制中心接管對任務的控制。表1[17]中給出了各部分的主要功能。地面部分的主要運行作用是促進與空間部分的通信,允許數據與航天器上行連接和下行連接。任何沒有在航天器上實現的空間段功能必須由地面段通過指揮和控制通信進行監測和執行。傳輸到地面的數據類型包括任務數據、遙測或內務數據,以及跟蹤數據。通常情況下,傳輸到航天器的數據是指揮和控制數據。遙測和跟蹤數據被任務操作員用來執行各種內務活動,如軌道計算和維護、任務規劃和航天器健康評估[17]。

表1-地面段功能

2.4 航天器故障管理

航天器故障管理仍然是一門成熟的學科。盡管FM實踐與航天飛行本身一樣久遠,但FM仍然普遍是在臨時的、逐個任務的基礎上實施的。然而,在過去十年中,航天工業的多個成員已經認識到標準化的需要,并已開始將FM組織成一個正式的系統工程學科[18]。因此,在FM活動的正式化以及最佳做法和從以前的任務中吸取的教訓的匯總方面,已經取得了重大進展。這一努力的一部分包括對FM術語的定義。關于FM實踐,本報告采用了NASA故障管理手冊[19]中的定義。一些重要的定義在此重復。

異常 - 預期功能的意外表現。

失敗 - 預期功能的不可接受的表現。

故障 - 一個物理或邏輯的原因,它解釋了一個故障。

故障診斷 - 確定故障的可能位置和/或原因。

故障管理 - 包括實踐的工程學科,使運行系統能夠遏制、預防、檢測、隔離、診斷、響應和恢復可能干擾額定任務運行的條件。

標稱 - 一個預期的、可接受的狀態或行為。

非標稱 - 超出可能的預期狀態或行為界限的狀態或行為。有三種非正常狀態:異常、退化和失敗。

預測 - 對未來狀態或行為的預測。

圖5-地面部分組件及其與空間和發射部分的接口的簡化概述[20]。

2.4.1 基本要求和責任

與其他學科一樣,對一個特定的FM系統的具體要求來自基本的任務目標。必須特別考慮到任務的目標、重要性和風險容忍度,這有助于確定任務的風險態勢。要求以類似于其他學科的方式從任務層面流向系統、子系統和組件層面。一旦建立了整體的FM要求,工程團隊的工作就是確定如何滿足這些要求,同時遵守任務的資源限制。自下而上和自上而下的分析都要進行,以獲得對系統最完整的看法。常見的分析包括故障模式和影響分析(FMEA)、成功樹分析、故障樹分析和事件排序。與其他空間系統任務類似,任何不存在于航天器上的FM功能必須在地面實現。一個具體的FM功能可能被分配給空間段、地面段或兩者的混合[21]。

NASA的FM手冊將FM策略細分為兩種方法:預防和容忍[19]。預防策略是為了完全避免故障,而容忍策略則是為了在出現故障的情況下使任務能夠繼續。預防可以進一步分為設計時預防和運行時預防。設計時的預防是指將故障發生的可能性最小化的工程實踐。運行時預防的工作方式是首先對運行系統進行預測,然后采取預防措施,避免任何預期的故障。容忍策略可分為掩蔽、恢復和目標改變方法。掩蔽方法試圖通過防止故障在系統功能中進一步傳播來最小化故障的影響。掩蔽的例子包括冗余和糾錯,它們允許故障發生,但通過在故障傳播之前對其進行修正,將其 "隱藏 "在系統的其他部分。恢復方法尋求診斷故障的根本原因和位置,并隨后采取行動恢復系統的正常運行。這個過程通常被稱為故障檢測、隔離(定位)和恢復/響應(FDIR)。最后,目標改變方法通過修改任務目標來應對故障,以適應故障造成的系統能力的任何變化。

圖6-根據NASA的FM手冊[19],五個主要的FM策略的組織結構

一般來說,一個任務的FM系統的具體能力取決于來自任務目標、復雜性和整體可靠性期望的要求。在實踐中,一個特定的任務在建立FM系統和戰略時,通常會采用圖6所示的一些方法的組合。對于關鍵任務,可能會采用大部分或所有列出的戰略,以最大限度地提高任務成功的可能性。

2.4.2 目前的運行方法

一旦系統開始運行,有一些基本任務是FM系統必須執行的。圖7給出了運行中的FM過程的概述。雖然沒有畫出來,但預測也是該過程中的一個常見步驟。空間和地面部分之間的功能分配取決于幾個因素,包括任務的關鍵性、預算、資源和運行限制。然而,無論系統配置如何,同樣的基本任務都適用。傳統上,FM任務一直偏向于地面部分,因為它提供了更多的分析能力[22]。雖然現代航天器運行通常在地面和空間部分都使用一些功能,但唯一的機載FM功能仍然是那些由于時間或通信限制而實際上不能在地面上執行的功能:當必須采取時間關鍵的行動以確保航天器的安全時,機載系統必須能夠獨立于外部援助采取適當的行動。此外,由于感知到的風險,歷史上一直存在著對廣泛使用航天器飛行軟件的文化偏見[4,23]。

圖7-運行中的FM過程概述(圖中沒有預示)[19] 。

遙測監測和分析是進行預知和FDIR等運行調控工作的主要方法。遙測被用來預測、診斷和隔離故障,以及幫助確定適當的響應行動。在預期的或實際的非正常情況下,響應行動采取指令序列的形式,目的是保持或恢復正常的運行狀態。如果對特定故障的響應已經預先確定,這些指令序列可能會自動生成,或者在發生新的或未知的故障時,它們可能由工程師手動構建。監測通常在地面上通過下行鏈路遙測數據進行,也可以通過一些硬件和軟件的組合在機上進行。集成在硬件中的機載FM的一些例子包括看門狗定時器和內置測試,以及各種特定的子系統措施,如電氣系統中的過壓/欠壓監視器。在軟件中,最常見的機載FM故障響應是安全模式程序,它暫停所有非必要的功能,直到任務工程師能夠指揮航天器恢復到名義狀態[21]。

超限(OOL)方法也許是最簡單和最常見的遙測監控方法[23]。這種方法依靠的是假設和期望,每個遙測通道都有明確定義的額定和非額定范圍。這些范圍通常是由具有主題專業知識的航天器工程師確定或在他們的協助下確定的。此外,OOL方法通常采用分層系統,其中建立了多個限制,每一個連續的限制標志著過渡到一個更嚴重的非正常狀態。分層的OOL系統由于其易于實施、使用和解釋而一直非常受歡迎。限值本身是由專家確定的,該系統易于實施,而且結果可以直接解釋。此外,通過使用遙測趨勢分析,建立的極限可以用來幫助預后。極限檢查是地面和太空中最常見的遙測監測方法,并經常作為更先進方法的基礎[24]。

目前大多數包含某種程度的自動化FM系統都依賴于監測-反應范式中的基于規則的方法[12]。基于規則的方法的基本前提是直截了當的:對于每個規則,一個或多個條件被持續監測,如果所有條件都滿足,則執行預定的響應。規則可以是簡單的,也可以是復雜的,就條件的數量和它們的復雜性而言都是如此。同樣,響應可以是簡單的,也可以是由擴展的指令序列組成的。一個有效的響應也可能是在系統無法解決的非正常情況下提醒人類操作員。當故障條件和適當的響應是已知的,基于規則的系統提供了強大的自動化。然而,它們通常不適合處理未知的故障,除非包括推理部分,如形式專家系統[25]。

2.4.3 挑戰和機遇

傳統的FM方法有許多缺點,FM界已經強調了這些缺點。這既包括運行的基本概念,也包括具體方法。在文化上,由于缺乏標準化和對FM作為一項正式工程任務的認可,使得幾乎不可能將任務與任務之間的做法落實到位。此外,很少有有效的工具或資源的再利用[18]。從系統工程的角度來看,FM是一項具有挑戰性的任務,因為它不可能事先模擬或預測一個復雜系統的每個可能的故障模式。無論多么徹底,像FMEA這樣的分析都不能預測所有可能的故障。這種大的故障空間 "使全面的測試變得不可行",對可靠的核查和驗證(V&V)構成重大挑戰[26]。雖然分析和測試仍然是任何FM方法的關鍵步驟,但人們已經認識到,從V&V的角度來看,它們不能被認為是完全詳盡的。

還有運行上的挑戰,特別是對于高可靠性的任務。值得注意的是,目前的監測-響應范式有幾個缺點。地面部分在執行FM的能力方面受到固有的限制,因為它不能實際接觸到航天器。此外,并非所有由航天器收集的遙測數據都能被下連和監測,使地面FDIR工作復雜化。隨著星座變得越來越普遍,這種現象已經開始變得復雜。安全模式,最常見的自動FM功能,在操作人員診斷和恢復航天器時,可能會導致長時間的任務停機。失敗的航天器恢復嘗試可能導致 "恢復循環",其中誘發了其他故障并必須加以解決[22]。大多數極限檢查系統是相當僵硬的,隨著時間的推移,航天器功能的自然退化,極限必須被手動改變。基于規則的系統可以提供復雜的自動化,但通常是基于傳統的FM分析,因此在故障空間方面受到同樣的限制。此外,隨著規則的數量和復雜性的增加,基于規則的系統在驗證和確認方面變得越來越復雜[12]。

對有效的航天器FM的現有挑戰導致了FM實踐界的若干反應。工程方面的改進涉及到需求開發和分配、成本驅動因素、風險評估以及整個產品開發生命周期的V&V。在運行上,感興趣的主要話題是創建可擴展的FM實踐,以滿足空間任務日益增長的需求[27]。與航天器運行的其他方面一樣,隨著航天器數量和復雜性的增加,人在環的做法正變得越來越不可持續。在NRL,這導致了海王星地面系統軟件中自動化功能的發展[28]。更廣泛地說,它促使人們對基于模型的系統工程(MBSE)和綜合系統健康管理(ISHM)等領域的興趣增加[29] 。

3 方法

航天器FM是一門廣泛的學科,它的一些組成任務并不適合自主或ML。從根本上說,除非能從數量上證明ML組件不構成降低系統性能的風險,否則ML增強的系統永遠找不到實際用途,而這對航天器的運行來說將證明是特別真實的。在短期內,某些FM任務對于目前的技術來說可能過于復雜。對于某些任務,增加ML可能永遠不會比簡單的方法提供合法的好處,事實上應該有意避免。這可以在FDIR過程的恢復部分中得到證明;如果對一個特定的故障或故障模式的響應策略是已知的,那么自動化就是唯一必要的工具。在這種情況下,用非決定性的ML代替決定性的自動化可能會給系統帶來更多的風險,而不是消除風險。在這種情況下,更適合ML的任務可能是在發生未知故障時提出恢復指令。因此,最有希望的ML應用是那些從未將系統帶入更壞狀態的應用,在某種可量化的確定性措施內。

將ML應用于系統健康監測的努力正在多個領域進行,包括結構和工業健康監測以及網絡和物聯網系統的重要研究[30, 31]。將ML應用于航天器FM和健康監測也是一個活躍的研究領域,可以追溯到幾十年前[32]。一些自主FM的最初嘗試是基于規則的ML專家系統[11, 25]。歷史上,遙測中的異常檢測一直是ML在航天器健康監測中最常見的應用之一[7, 24, 33, 34]。已經使用了各種異常檢測技術,包括聚類和基于距離的方法、神經網絡、支持向量機和譜技術等等[23]。最近,現代深度學習技術已經成為一個流行的研究領域[30, 35]。一般來說,絕大部分的研究只集中在運行FM周期的預測和檢測部分,因為它們是最直接的應用。然而,將這些方法整合到一個完整的FM系統中存在著大量的機會。

異常檢測是自主健康監測的一個基礎構件,因為非正常狀態檢測往往是預知和FDIR過程的第一步。一個自動遙測異常檢測系統為當今的空間系統運行以及未來的空間自主健康監測提供了好處。在這兩種情況下,最大的好處將通過整合到一個運行系統中來實現。在近期,自動異常檢測提供了機會,在故障發生之前提醒操作者注意異常行為。此外,一個自動化系統可以將大量的遙測數據提煉成少數需要人工調查的事件,極大地提高了效率[7]。近期的系統可以被集成到地面站以及高度優先任務的航天器上。作為綜合自主FM系統的一部分,對異常行為的檢測可以傳遞給更高層次的推理器,該推理器可以根據環境執行下一個FM任務。

一般的異常檢測問題可以大致分為純粹的數據驅動和綜合模型方法。數據驅動的方法依賴于模型的輸入數據來提供解決問題所需的所有信息。即使沒有明確納入領域知識,成功的異常檢測系統仍然是以這種方式創建的。此外,當創建其他類型的模型不可能或不現實時,數據驅動的方法可能是唯一可行的方法。然而,試圖通過純粹的數據驅動方法來描述一個復雜系統的名義行為,存在著固有的缺點。這對于航天器來說尤其如此,因為其遙測值取決于各種各樣的內部和外部因素,如航天器運行模式、指令序列、環境條件和物理現象。在實踐中,即使是極高容量的模型也不可能捕捉到所有的這種背景。因此,文獻中的許多方法為每個單獨的遙測通道構建一個新的模型[23]。這在系統層面上是不切實際的,因為系統可能需要幾十個通道來監測。

與其他領域一樣,可以利用領域知識來創建一個更有針對性的任務來解決。在航天器異常檢測的背景下,名義性能的概念通常在系統設計期間通過建模和仿真來獲取。正如這些工具被用來幫助告知極限檢查和基于規則的方法,它們也可以被用來進一步告知ML方法。綜合模型方法試圖通過應用領域知識來提高算法的能力。這可以通過各種方式實現,但在空間系統的背景下,最常見的方法通常是通過物理或程序模型,這些模型描述了系統的預期行為。作為一個激勵性的例子,考慮圖8中的信號分解;通過對信號的趨勢和周期部分建模,有可能以殘差的形式提取任何未建模的影響。通過這種方式,殘差提供了對偏離預期行為的直接測量。因此,將異常檢測技術應用于殘差而不是整個信號是一個更有針對性的問題,因為它直接描述了與模擬的名義行為的偏差。一般來說,"黑匣"(即純粹的數據驅動)ML方法必須學習更復雜的函數映射,因為它們未能明確地納入關于系統的任何種類的領域知識。通過使用一個給定系統的非ML模型來說明容易表征的名義行為,有可能構建一個可能更容易解決的ML問題。

3.1 實際考慮

由于目前的研究是在概念驗證的技術準備水平(TRL)上進行的,所以對概念化系統的許多實際實施考慮還沒有深入探討。尺寸、重量、功率和成本(SWaP-C)方面的問題在本研究中沒有得到解決,計算方面的限制也沒有得到解決,如計算成本、復雜性或內存。雖然這些限制對于地面FM系統來說可能不那么嚴重,但對于在空間實施任何ML系統來說,它們是關鍵的考慮因素。所需的硬件往往是大型的、大規模的和功率密集型的,而且算法消耗大量的計算資源。此外,ML硬件在空間環境中的行為還沒有得到很好的理解,在廣泛使用之前需要進一步研究[37]。航天器是資源受限的系統,在苛刻的環境中運行;因此,一旦建立了概念證明,就必須對系統的實施實用性以及資源使用和系統性能之間的妥協進行評估。該評估將有助于確定一個可用于太空的產品所面臨的工程挑戰。

圖8-單變量信號的時間序列分解[36]。

3.2 數據收集、匯總和準備

雖然有大量的開源異常檢測數據集,但遙測數據集相對較少。為了在特定領域的數據上建立模型,數據收集工作包括開放源碼數據、NRL提供的數據以及與政府和行業的聯系。這產生了多個遙測數據集,其大小、復雜性、格式和異常類型各不相同。政府和行業的數據收集工作正在進行中。根據最佳做法,所有的測試數據都保留給最終評估,不以任何方式用于或查看培訓目的。無論用于訓練的學習范式是什么,所有的測試數據必須包含地面真實信息,以便對結果進行定量評估。

3.2.1 開源數據

開源數據搜索的最有希望的結果是NASA的一個異常檢測庫。作為調查ML在遙測異常檢測中使用的項目的一部分,NASA噴氣推進實驗室(JPL)的一個研究小組已經發布了一個數據集,其中包含來自土壤水分主動被動(SMAP)和火星科學實驗室(MSL)任務的總共82個遙測通道[23]。這些數據包含了點狀異常和背景異常。每個遙測通道都包含每個時間步驟的遙測值以及指令信息。圖9顯示了來自SMAP航天器的訓練遙測通道的例子。訓練數據中沒有提供地面真相標簽,這意味著監督學習方法不能用來直接預測異常情況。測試數據被貼上了地面真相信息的標簽,提供了該通道遙測值中存在的任何異常的指數。除了數據本身,開發的算法也同時發布,可以作為基線性能基準。應該指出的是,通道A-3被任意選擇作為一個純粹的開發性數據集;也就是說,訓練和測試集都被用來協助開發模型、測試線束和實驗。從這個數據集中選擇了一個通道,因為它以前被清理、規范化和格式化,作為NASA研究的副產品,供模型攝取。因為這個通道的測試數據已經被多次使用,所以這個通道不能用于評估。相反,將對其余的通道進行評估。

圖 9-SMAP A-3 遙測通道訓練數據

3.2.2 NRL提供的數據

WindSat有效載荷是 "第一個完全極化的空間微波輻射計"[38]。2003年作為科里奧利任務的一部分發射,該有效載荷提供天基海洋風速和風向測量。雖然該任務不再活躍,但該衛星已經遠遠超過了最初的三年任務壽命,仍在運行。該航天器目前由NRL的Blossom Point Tracking Facility(BPTF)運行,該設施記錄并將科里奧利遙測數據儲存在一個記錄數據庫中。WindSat遙測數據庫包含了多年的運行遙測數據的記錄。這為在真實世界的數據集上評估算法提供了極好的機會,與大多數異常檢測問題一樣,該數據集包含作為極端少數類的異常現象。在評估過程中,可以使用已知的故障記錄作為基礎事實,但不會用于訓練任何算法。對這個數據集的最終評估可以由BPTF的運營工程師證實。除了WindSat之外,NRL還在進行其他一些數據收集工作。作為各種開發項目的一部分,NCST已經開發了能夠生成遙測數據的工具。這些工具可以用來模擬航天器的運行并注入合成故障數據;重要的是,這提供了快速創建具有可變類型和數量的故障和異常情況的大規模數據集的機會。此外,這些工具可以直接用于生成相應的地面真實數據。

3.3 機器學習異常檢測方法

[39]提供的異常檢測的一般定義是檢測 "不符合預期正常行為 "的模式。這是一個不斷發展的廣泛領域,在很大程度上是由物聯網大數據挖掘工作推動的。異常檢測的機器學習方法已經成為一個非常受歡迎的研究課題,因為它們被應用于金融欺詐檢測、網絡入侵檢測、醫療診斷和工業健康監測等任務[40]。所有這些領域的共同點是需要自動數據處理技術來協助檢測不斷增加的數據量中的非正常模式。在某些情況下,異常檢測也可以被稱為離群點檢測或新奇點檢測,盡管這些術語的語義略有不同[41]。其他相關問題包括概念漂移和變化檢測,它們泛指檢測數據中出現的或變化的行為。概念漂移和變化檢測都給異常檢測帶來了挑戰。概念漂移的可能性要求有效的算法不斷地更新其名義行為的概念,而數據中的變化可能代表著異常或僅僅是一個新的名義模式的開始[42]。

圖10-不同類型數據中的異常現象[43]

文獻通常規定了三種基本的異常類型:點、集體和背景。點狀異常是最簡單的,指的是相對于其他數據而言,單一的數據點是異常的。集體異常指的是一組數據點,這些數據點在一起是異常的,但可能不是孤立的。背景異常是指那些在不了解某些空間或時間背景的情況下無法識別的異常。如果某種形式的背景被用來識別,那么點狀和集體狀的異常現象也可以被歸類為背景性異常現象[39]。圖10說明了一些異常現象的例子。左上圖和右上圖都顯示了點狀異常,左下圖和右下圖都顯示了集體異常。請注意,這兩個集體異常現象也可以被認為是上下文異常現象,因為它們在周圍數據的背景下是異常的。

異常檢測面臨許多挑戰,特別是對于具有大型多變量數據空間的應用。創建一個包含系統所有可能的標稱和非標稱行為的模型是很困難的,尤其是在使用包含噪聲并經常隨時間變化的真實世界數據時。在ML模型的背景下,由于標記的名義和非名義數據的可用性有限,采購訓練數據集往往是困難的或令人望而卻步[39]。這些挑戰導致了各領域的各種方法。本文詳細介紹了作為文獻回顧的一部分被檢查的異常檢測算法的類型。具體的算法不會被詳細討論;相反,算法的類別將被討論,以達到激勵的目的,并突出潛在的優勢和劣勢。由于本研究的范圍限制以及該領域的快速發展,本評論不應視為詳盡無遺。關于異常檢測技術和挑戰的更全面的處理,見[39-41, 44, 45]。

3.3.1 監督方法

異常檢測的監督方法與其他ML任務的工作方式基本相同。如果標記的數據是可用的,包含名義的和異常的樣本,一個任意的模型可以被建立和訓練來對新的輸入樣本進行預測。一般來說,大多數異常檢測問題都存在著嚴重的類不平衡,其中名義數據遠遠超過非名義數據。由于這個原因,完全監督的方法是不常見的,因為典型的類不平衡禁止收集全面的訓練數據集。在某些情況下,有可能合成一個包含名義和非名義樣本的數據集,盡管一般來說很難合成一個能準確代表所有可能的名義和非名義行為的數據集[39]。部分監督學習在支持主動或交互式學習方案中可能是有用的,該方案利用人類在環路中的反饋來幫助以半監督的方式訓練系統[46]。參見[47, 48]對主動和互動學習的深入評論。

3.3.2 半監督方法

半監督學習的經典解釋是監督和非監督學習的結合,其中有限的標記數據和大量的未標記數據被用來創建一個模型,該模型比其純粹的監督或非監督的等價物具有更好的預測能力[49]。在ML異常檢測的背景下,半監督學習通常是指以監督的方式對單一類別--名義或非名義--進行模型訓練,然后使用該模型來區分訓練類別和相反類別的做法[40, 50]。這通常是通過在名義數據上訓練模型來進行的,因為名義數據的可用性更高,而且很難創建一個包含所有可能的異常行為的異常數據集。

3.3.3 自我監督的方法

在自監督學習中,創建一個模型來解決一個 "前臺"任務,該任務可以被表述為使用未標記數據的監督學習問題。通過這種方式,訓練有素的模型學習了數據本身的表征,然后可以在 "下游"任務中使用[49]。在異常檢測的背景下,"前臺"任務通常是學習名義行為的表示,然后可以用來執行區分名義和非名義樣本的下游任務。這經常被用于創建單類(即名義或非名義)分類器。

預測

基于預測的異常檢測技術是一種自我監督的學習形式,根據輸入數據的性質,也可能是半監督的。預測任務使用一個預測模型來預測未來的數據點。通過表征模型和現實之間的誤差--通常稱為殘差--可以使用下游技術,通過比較名義殘差和樣本的殘差來識別異常的樣本。如果模型沒有明確地在純名義數據上進行訓練,通常會假設非名義類足夠罕見,不會影響模型學習名義行為的能力[39]。圖11顯示了一個基于回歸的異常檢測的例子。前提任務是根據建模的名義系統行為生成 "預期 "曲線,下游任務是對名義殘差進行定性,以確定何種程度的差異是異常的[51] 。基于回歸的異常檢測最適合于殘差對標稱和非標稱樣本表現出明顯不同特征的問題。直觀地說,該方法不適合于不能可靠地建模的系統,如高度隨機或其他不可預測的系統的情況。

圖11-基于預測的異常檢測:預測和實際行為之間的巨大差異表明存在異常[51] 。

重構

重構模型試圖通過強迫模型從潛在的表征中重建輸入數據來學習一種表征[52]。最常見的版本是不完全重構,其中模型必須從一個壓縮的、低維度的潛在表征中重建輸入。這與過度完整模型相反,后者的空間比輸入大。在異常檢測的背景下,重建技術通常使用不完全模型。這是基于這樣的觀察:為了從有限的潛表征中形成最好的重構,模型必須只學習數據最相關的屬性,忽略不相關或錯誤的信息。通過這種方式,它學習了一個名義行為的表征。當應用于異常檢測時,該方法基于這樣的假設:如果訓練學習行為的名義表征,該模型在名義數據上的重建誤差較低,而在非名義數據上的誤差較高。然后,以類似于其他半監督方法的方式,一些下游技術可以被用來識別異常情況。現代重構模型最常以神經網絡的形式實現,在文獻中被稱為自動編碼器,因為它們可以被視為一般編碼器-解碼器網絡結構的一個特例。圖12顯示了一個不完全自動編碼器的一般表示方法。文獻中對復制器網絡進行了廣泛的研究,并且通常是各種復雜的異常檢測技術的基礎,如對抗性自動編碼器和生成對抗網絡(GANs)[53, 54]。

圖12-一個不完全的自動編碼器,其中x?是輸入x的重構[55] 。

3.3.4 無監督的方法

統計學

雖然許多統計異常檢測技術嚴格來說不屬于ML領域,但它們在異常檢測任務中的普遍性值得一提。在多步驟的異常檢測管道中,它們經常被用作最后的處理步驟之一。統計測試可用于確定異常分數本身,也可用于確定對這些分數的信心估計。統計學異常檢測依賴于這樣的假設:名義數據和非名義數據分別存在于隨機模型的高概率和低概率區域。方法的類型可以分為參數技術和非參數技術,前者對數據的分布做了假設,后者對基礎分布不做假設。一個流行的參數方法是假設數據的高斯分布,這樣就可以使用各種技術--如圖13中的Z-score--來獲得數據樣本的異常得分。由于經驗上的成功,即使正態性假設在現實中不成立,也常常會做出這種假設。統計技術最大的優勢和劣勢是假設數據符合一個任意分布。如果假設成立,那么結果在統計學上是合理的,而且容易解釋;但是,如果不成立,該技術可能產生無效或錯誤的結果。關于統計學異常檢測和正式的統計學離群點檢測的評論,見[39,56]。

圖13-Z-score可以用來尋找高斯分布數據中的離群點[57] 。

聚類和基于鄰域的檢測

盡管它們是不同類別的技術,但用于異常檢測的聚類和鄰域方法都是基于這樣一個前提:異常數據可以通過某種距離指標來識別,從而將其與名義數據區分開來。聚類方法假定名義數據和非名義數據空間可以被分成若干個定義明確的聚類。鄰域方法通過計算它們與本地鄰域的相對距離或密度來檢測異常情況。雖然學習本身通常是以無監督的方式進行的,但整個方法通常可以被認為是半監督的,因為隱含的假設是實際上所有的訓練數據都是名義的。另外,一些方法還試圖為異常情況形成明確的聚類。由于這些方法的借口任務通常是對預先存在的無監督技術的直接應用,因此存在大量的基于聚類、鄰域和密度的異常檢測算法。有關概述,見[39]。

基于隔離的檢測

許多異常檢測方法首先對名義行為進行剖析,然后使用該剖析來區分名義和非名義樣本,而基于隔離的異常檢測方法采取了一種根本不同的方法,明確地試圖將異常現象從數據的其余部分中分離出來。直觀地講,這種方法可以通過觀察來解釋,即異常點應該比名義數據點更容易從其他數據中分離出來。最初的基于ML隔離的異常檢測器是隔離森林(IF或iForest)算法,它是相關方法的激勵基礎,如擴展隔離森林(EIF)和半空間樹(HS-Tree)[58-60]。IF算法的工作原理是建立一個隨機決策樹的集合。每棵樹對數據進行隨機分割,直到每個數據點都被隔離(即與其他數據分離)。平均路徑長度--隔離數據點所需的分割數量,在所有樹中的平均值--被用作確定異常得分的基礎。根據經驗,異常點的路徑長度明顯較短。EIF算法消除了原始IF算法中存在的固有偏見。半空間樹(HS-Trees)采取與IF類似的分區方法,可以應用于流式數據。圖14顯示了隔離森林的代表。

圖14-隔離森林使用隔離路徑長度作為異常檢測的基礎 [61] 。

3.3.5 其他方法

已經提出了各種其他的異常檢測技術。信息理論技術是基于這樣的假設:通過測量異常現象對數據集的信息復雜性的貢獻,可以識別異常現象。譜技術試圖通過將數據投射到一個不同維度的子空間來尋找異常,在這個子空間中,異常現象更容易被發現。一些版本的復制器和對抗性模型在數據壓縮階段隱含地進行這種類型的數據投影。最近對該領域的貢獻包括將深度強化學習應用于主動半監督的異常檢測方法[62]。

3.3.6 組合方法

應該指出的是,各種算法可以作為集合方法或多步驟算法的組成部分。例如,經典的集合方法可以應用于異常檢測,將一些不同模型的預測結合起來,努力創造一個比其任何成分都要好的綜合預測。此外,一些技術適合創建一個算法的管道,其中一個特定步驟的輸出被用作另一個步驟的輸入。例如,一個ML模型可用于執行表征學習,如特征提取或降維,模型的輸出可用于進一步處理或確定異常分數的后續步驟。這是一種常見的處理技術,適用于處理復雜的高維數據的方法和利用ML作為整個檢測管道的預處理步驟的方法。

3.3.7 對航天器的考慮

航天器遙測異常檢測問題的性質對可能使用的算法施加了某些限制。遙測是典型的時間序列數據,意味著在確定異常時,時間背景很重要。直觀地說,在某個時間點上正常的遙測值在另一個時間點上可能是異常的。因此,沒有納入時間信息的算法可能處于不利地位。一些方法將時間信息作為所用模型的副產品,如基于長短期記憶(LSTM)的方法。其他方法試圖通過在整個序列中應用滑動窗口來擴展非時間性的算法。此外,遙測數據通常是高維和多變量的。例如,一個熱控系統可能由其他多個子系統的若干遙測通道組成。為了形成一個全面的系統視圖,需要某種程度的系統層次和抽象化。因此,僅限于單變量數據的算法在其適用性上比多變量的算法更有限。

學習范式也是一個主要考慮因素,特別是對于航天器遙測。對于大多數異常檢測問題,名義行為的例子遠遠超過非名義的例子。這對航天器來說尤其如此。因為航天器的故障和異常通常是相當罕見的,所以使用監督學習來直接訓練一個模型通常是不可靠的。到目前為止,以半監督或無監督的方式操作的方法,在沒有大量標記數據的任務中,經驗顯示出更好的性能。雖然半監督和自我監督的方法更為普遍,但它們通常不能通過使用關于特定檢測是否正確的明確反饋來逐漸提高檢測能力。從長遠來看,主動學習和其他相關范式可能允許這些方法通過少量的專家標記的例子來逐步改進。

3.4 評價原則

對一個綜合系統的評價要求能夠量化系統的整體性能以及每個組成元素的單獨貢獻。這對FM系統來說是一項困難的任務,這在很大程度上是由于在該領域已經存在的V&V挑戰。一般來說,預測一個復雜系統的所有可能的故障模式是不可行的,因此,所有的分析和測試本質上是不詳盡的[26]。在遙測監測和異常檢測這一較窄的范圍內,有可能通過與已經在實踐中使用的其他基線遙測監測方法進行比較來簡化評估問題。在最簡單的情況下,一個基線方法可以直接與一個或多個ML方法進行比較。然而,如果ML組件被整合到一個更大的系統中,就有必要證明它對整個系統的具體貢獻。

3.4.1 異常檢測算法的評估

對于每個輸入樣本,異常檢測算法的最終輸出通常有兩種形式:一種是衡量樣本的異常程度的異常分數,另一種是將樣本歸入名義類或非名義類的二進制標簽。一般來說,分數被認為是一種更靈活和信息量更大的方法,因為它們允許異常水平的連續光譜,而不是兩個離散的狀態。分數也可以在任何時候通過應用一個閾值轉換為二進制標簽。然而,在實踐中,直接比較使用不同評分方法的算法變得很困難,因為分數本身往往是從根本上不同的概念和假設得出的。此外,選擇一個將分數轉換為標簽的閾值可能具有挑戰性,而且往往依賴于關于數據的特定領域假設[39]。這些挑戰使得建立明確的評價標準并明確說明可能影響結果的任何假設變得至關重要。

為了確保完整和客觀的評估,需要謹慎地選擇指標。異常檢測問題所固有的典型的類不平衡意味著許多傳統的衡量標準,如準確度、F-Measure、平均精度(AVPR)和接收運行特征曲線下面積(AUROC)可能會人為地夸大性能[63]。這方面的一個例子是二進制準確度;一個二進制分類器如果天真地將給定數據集中的每一個樣本都歸入名義類,那么由于類的不平衡度很高,它的得分可能會相對較高[64]。使用二元的真-假-正-負(TFPN)指標--真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)--作為評價的基礎是很常見的,因為它們可以用來計算眾多的其他衍生指標。混淆矩陣是使用TFPN指標來描述整體性能的一種常見方式,既直觀又數字。異常檢測混淆矩陣的布局示例如圖15所示。給定評估數據集中的每個樣本都被分配到四個象限中的一個,每個象限的總數被用來確定性能。文獻中的普遍共識是,雖然一些數值如Matthews相關系數比其他數值更客觀,但沒有一個從TFPN指標中得出的單一數量能夠完整和客觀地描述。在比較可能具有不同統計質量的數據集的結果時,必須要有額外的考慮。一般來說,只有在可以明確量化并在分析中指出其偏差的情況下,才可以使用具有已知偏差的指標。關于兩類分類指標及其相關優缺點的深入討論,見[63-66]。

時間序列數據中的異常檢測因數據樣本之間的時間依賴性而進一步復雜化。值得注意的是,經典的混淆矩陣并不考慮時間維度,所以雖然它可以提供一個全局的性能視圖,但它沒有提供對一個給定算法在時間上的局部表現的洞察力[67]。這是一個固有的缺點,因為時間序列數據通常是高度非平穩的,因此,一個模型的性能可能因時間背景的不同而有很大的差異。此外,跨越多個時間點的上下文和集體異常的存在導致了對每個TFPN指標來說什么是 "擊中 "的模糊性。文獻中提出了許多方法;例如,與集體異常窗口部分重疊的預測檢測可能被評為真陽性、假陰性或兩者的某種組合[23]。一般來說,應根據檢測問題的優先級創建特定應用的TFPN指標定義[65, 67]。

3.5 軟件產品

目前正在開發一些有助于ML和異常檢測研究的軟件包。選擇Python作為主要的開發語言是由于它的開源許可、易于開發、靈活性以及預先存在的對ML和數據科學的支持和基礎設施。雖然它是為支持這項研究而開發的,但我們已經做出了一切合理的努力來創建高度模塊化的軟件,并支持記錄完備的應用編程接口(API),以便它可以很容易地擴展到其他類似或相關的問題。

圖15-異常檢測混淆矩陣

3.5.1 通用軟件工具

為了支持這項研究,已經創建了幾個工具,這些工具可能在異常檢測或ML領域之外廣泛適用。在開發過程中發現的這些工具已經被轉移到單獨的存儲庫中,在那里它們可以被開發、測試,并作為獨立的產品在NRL社區或作為開源軟件發布。已經建立了一個Python工具庫,其中存放了各種常見的便利和實用功能。對于更大規模的工具,已經建立了專門的存儲庫。目前,兩個主要的工具是一個集合生成器和一個統計分析庫。

合并構建器

合并ML方法通過合并多個單獨模型的預測結果形成一個復合模型。這樣做的目的是為了產生優于任何組成模型的綜合預測。作為該代碼庫一部分開發的集合生成器與API無關,可以結合任意數量和類型的模型的預測,允許跨庫組合。對于大型模型或數據集,支持批量處理。它還支持模型停用功能,這樣就可以很容易地確定任何給定模型對整個組合的貢獻。雖然大多數常見的預測組合方案都是預先實現的,并且是現成的,但如果有必要,也可以實現自定義的組合策略。

統計學工具

探索性數據分析是許多ML項目中常見的初始步驟。為了幫助EDA過程的自動化,創建了幾個工具,包括數據集統計的計算和繪圖,以及統計報告的生成。報告工具還可以比較多組數據的統計數據;這可以用來檢測單一數據流中的概念漂移,或比較不同數據集的特征。在異常檢測方面,許多算法假設數據的高斯分布,以證明關于特定數據集中異常的性質和數量的統計結論是正確的。為了測試這個假設的有效性,開發了一個工具,對數據樣本進行Kolmogorov-Smirnov測試,以確定正態性假設是否有效。因為該檢驗可以支持任何連續分布,所以該工具被擴展到Scipy軟件包中的所有連續分布[68]。該工具可以用來快速擬合100多個候選統計分布,以確定哪些分布(如果有的話)是對數據的合理擬合。

3.5.2 異常檢測代碼庫

主要的軟件開發工作包括創建一個異常檢測代碼庫,作為大量異常檢測算法以及實驗和評估工具的主機。在可能的情況下,利用算法的開源實現來減少開發時間。否則,算法將根據需要手動實施。某些類型的模型,如神經網絡,可以進行廣泛的定制和架構調整;對于這些模型,我們創建了模型構建工具,以便快速創建和測試模型。目前,代碼庫支持50多個異常檢測模型,包括來自PyOD[69]和PySAD[70]庫的開源模型、單獨發布的開源算法和自定義模型。定制實現的模型包括傳統的和基于LSTM架構的變異自動編碼器。模型和算法將繼續根據需要被添加到資源庫中。

諸如TensorFlow、Keras和Scikit-Learn等軟件包都擁有一套廣泛的指標,通過使用API-agnostic接口[71-73],可以在異常檢測代碼庫中互換使用。對于簡單的評估,可以使用無狀態度量。對于較大的數據集,代碼庫支持可以分批更新的有狀態指標。自定義指標可以從這些指標中衍生出來,或者根據評估的需要來實現。除了指標之外,還創建了一個評估和排名工具,能夠自動比較任意數量的算法在給定問題上的性能。該評估過程類似于AutoML,并受其啟發,AutoML能夠自動調整一些模型,使其在訓練數據上達到最佳性能,隨后在測試數據上對其進行評估[74]。

在Plotly庫的基礎上,還開發了一套繪圖工具,與其他代碼庫同步進行[75]。繪圖模塊為開發、演示和部署提供了許多功能。首先,它通過提供數據可視化幫助探索性數據分析(EDA)以及算法開發和調試。第二,它允許對檢測結果進行展示和分析。第三,它的目的是允許在應用環境中進行實時數據和算法監測。一個正在進行的努力是創建一個近乎實時的儀表板,顯示流數據以及任何異常的檢測。這個儀表板可用于基于人的反饋的學習、運行監控和技術演示。

4. 結論

圖16-突出SMAP A-3通道測試異常的異常繪圖儀

自主能力的發展仍然是國防部和美國海軍的一個投資重點。健康監測和FM是阻礙海軍空間系統更有彈性、更可靠、更自主的一些最重要的挑戰,而自動異常檢測代表了實現這一目標的一個步驟。第一年的研究確定,ML方法提供了一個快速改善現有航天器異常檢測工作的機會,并有可能被應用于系統健康監測的其他領域。第二年的研究將著重于通過繼續開發異常檢測代碼庫和完成對遙測數據的各種算法進行評估的實驗來證明這一概念。此外,綜合模型方法將被進一步研究,并與數據驅動的方法進行比較。健康監測代表了ML在美國海軍空間系統運行中最有希望的應用之一。這種類型的技術已經足夠成熟,可以擴展到現有的系統,并能使近期海軍的地面基礎設施和未來海軍的機載衛星系統受益。

附錄A

異常檢測的其他應用

第一年的研究暴露了異常檢測在航天器運行中的一些應用,這些應用超出了航天器FM的范圍。盡管到目前為止還沒有深入探討,但海軍可以從多個領域的自動異常檢測中受益;其中一個應用是檢測名義和非名義行為,作為海軍C4ISR工作的一部分。隨著數據處理需求的不斷擴大,自動化方法的應用變得越來越重要。在短期內,自動異常檢測可以作為C4ISR數據處理管道的一個初步步驟,通過將大量的數據提煉成只需要進一步調查的數據來協助人類操作員。這可能適用于通信、態勢感知工作和環境監測中的利益信號檢測。所有這些應用將有助于縮短收集原始數據和提供可運行信息之間的延遲。

圖A1-全球AIS數據

作為一個激勵性的例子,考慮到異常檢測算法可以通過模擬正常的船舶行為和標記異常行為來協助基于ML的MDA工作,以便進一步分析。鑒于美國海軍必須對數以百萬計的船只進行核算,存在著異常檢測的巨大機會,以大幅減少必須由人類檢查的數據量。圖A1顯示了全球自動識別系統(AIS)數據的一個例子,它可以作為訓練模型的基礎。在短期內,諸如來自NRL的Sea-Link高級分析(S2A)系統的船舶軌跡數據可以用來模擬正常的船舶行為,并幫助減少人類操作員的處理負荷。從長遠來看,這些模型可以與人類一起工作,并通過學習模式識別提供先進的決策洞察力。

付費5元查看完整內容
北京阿比特科技有限公司