疲勞是導致水域事故的一個已知因素,降低了操作效率,并影響了作戰人員的健康。戰士認知狀態的實時反饋將允許提高對能力/限制的認識,并根據戰士的準備情況作出適應性決策。使用機器學習(ML)和可穿戴技術的疲勞檢測/預測項目旨在開發一種ML算法,能夠檢測出副交感神經系統(PNS)的變化,這些變化通過使用商用現成(COTS)腕戴設備檢測,進一步可分析認知疲勞。收集了30名參與者(包括一些現役軍人)執行可量化的警戒任務的生物識別數據集,并對操作者的表現指標和認知負荷進行了注釋。麥克沃思(Mackworth )時鐘是一項廣泛用于心理測量研究以量化認知參與和疲勞的警覺性任務,它的變體被用來生成定量的操作者績效指標和離散的認知負荷狀態。在有注釋的生物識別數據集上訓練和驗證了ML模型,以:1)回歸操作者任務表現的準確性,以及2)對認知負荷/任務難度進行分類。一個訓練有素的卷積神經網絡(CNN)回歸模型能夠預測麥克沃思鐘任務表現的準確性,平均絕對誤差在2.5%以內。此外,一個單獨的CNN分類器模型達到了86.5%的二元任務類型分類準確率,不同類型的任務對應著較高和較低的認知負荷。該研究與開發(R&D)工作的下一階段將包括與海軍有關的任務(即船舶導航、軌道管理和其他站崗任務)的額外測試活動,參與者僅包括現役人員。這項工作的最終目標是提供一個可穿戴設備和配套的軟件,能夠檢測和預測各種與海軍有關的任務的認知疲勞,目的是優化作戰人員的表現,以減少用戶的錯誤或最大限度地提高性能。
聯合戰區級模擬--全球行動(JTLS-GO?)是一個互動的、網絡化的、聯合和聯盟的兵棋推演系統。JTLS-GO從全球一體化作戰層面的角度表現軍民決策環境,其中包括空中、陸地、海上、太空、情報、后勤和特種作戰。這些環境可以被配置和擴展,以考察國家戰略(SN)、戰略戰區(ST)、作戰(OP)和戰術(TA)戰爭層面的聯合任務、行動、功能和使命。重要的是要理解JTLS-GO主要是一個作戰層面的模擬。
執行概述描述了模擬的基本操作,包括主要的軟件程序和構成系統的眾多小型支持程序。這些不同的、相互依賴的程序相互配合,以準備場景,運行模擬,并分析結果。本概述還提供了運行模擬系統所需的軟件和標準硬件的描述。JTLS-GO可以在一臺或幾臺計算機上同時運行,可以是單一的,也可以是多個分布的站點,這取決于訓練或分析環境和場景的大小。它是獨立于戰場的,不需要編程知識就可以執行。第4頁強調了一些新的模擬能力和特點。
JTLS-GO是一個復雜的模擬,專門設計來研究不斷變化的戰爭模式。來自作戰指揮部(COCOMs)、軍種、后備部隊、國民警衛隊、戰斗支援機構(CSA)、聯合參謀部(JS)和聯合特遣部隊(JTFs),包括北約和聯盟軍隊的領導人和主管都了解這一點,因為他們必須在國家戰略的背景下不斷地規劃、計劃、預算和執行財政政策。
本出版物針對JTLS-GO的主要版本和維護版本進行了更新和修訂。
自動目標檢測在自動化戰爭行動中發揮著重要作用。自動目標檢測背后的關鍵概念是從捕獲的圖像中識別軍事目標。對于給定圖像中的目標識別,卷積神經網絡(CNN)是一個強大的分類網絡。CNN是位置不變的,其性能主要取決于訓練集的大小。由于軍事目標的操作和安全問題,訓練數據的大小一般來說可利用的比例較小。因此,CNN的性能可能會急劇下降。為了解決軍事物體的問題,引入了一個相對較新的神經網絡架構,即膠囊網絡(CapsNet)。因此,在這篇文章中,一個名為多層CapsNet框架的CapsNet變體被用于小型訓練集情況下的軍事目標識別。本文介紹的框架在一個從互聯網上收集的軍事目標數據集上得到了驗證。該數據集特別包含五個軍事目標和類似的民用目標。本文提出的框架在軍事目標識別方面有很大的改進,準確率達到96.54%。實驗表明,所提出的框架可以實現較高的識別精度,優于許多其他算法,如傳統的支持向量機和基于轉移學習的CNN。
在過去的幾十年里,戰爭越來越依賴尖端技術,因此,戰爭模式從傳統戰爭轉變為信息化戰爭,這已成為當今戰爭的主要類型。快速、熟練和精確地發現軍事目標,以達到精確攻擊的目的,這不僅是當今戰爭的基本利益,而且也是改進早期基本警報系統的重要組成部分[1]。
目標檢測是跟蹤和識別目標的基礎。所有的后續操作都取決于檢測圖像中的目標。到目前為止,普遍使用的目標識別策略基本上包括一些常規的策略;例如,特征匹配策略、背景顯示技術、邊緣劃分策略、依賴于深度學習的技術,以及依賴于視覺質量的策略。傳統識別方法中的特征匹配技術,[2],[3],[4]具有較高的識別精確性和準確性,但是它的獨立性和估計有效性較低,而且其項目應該是物理安裝的。背景識別策略[5],[6],[7]可以完成項目與背景的程序化分離,但是模型的建立和更新很繁瑣,動態背景會干擾結果。閾值分割策略[8],[9]對于有正常背景和明顯目標的情況是有利的和熟練的,然而在復雜條件下的識別效果是不能接受的。總而言之,傳統的識別計算有一些限制,這使得它很難解決現實生活中復雜多樣的情況下的問題。此外,這些技術依賴于人工阻抗,其通用能力還遠遠不夠。
近年來,在計算機視覺的研究問題上有了快速和富有成效的發展。計算機視覺領域預計將在視頻處理、醫療保健和安全等不同的應用中受到很大沖擊。計算機視覺使機器有能力看到并向外感知其總體環境,就像人們利用自己的眼睛一樣。這一成就的一部分來自于人工智能技術的實施和調整,而另一部分則來自于對明確的計算機視覺問題的新描述和模型的發展,或來自于有效安排的改進。
近年來,計算機視覺的一個子領域取得了非凡的進展,那就是目標識別。目標識別是計算機視覺的一種類型,正在企業和消費者網絡中獲得力量。鑒于一組不同的物體,目標識別包括決定圖片中所有目標的面積和大小。因此,目標識別器是發現所有的目標,這些目標至少有一個是給定的目標類別,幾乎不考慮比例、面積、目前的情況、關于相機的情況、中途的障礙物和光線條件。目標識別正在進入一個廣泛的業務范圍,其使用案例包括從個人安全到工作環境的效率。面部識別是其中的一種類型,它可以作為一種安全努力,只允許某些人進入一個有深刻特征的區域,例如國防或軍事。它還可以用來檢查預先定義的戰爭區域內的個人數量,從而改變其他專門的設備,以幫助減少用于戰斗的時間。它也可以被用于視覺網絡搜索工具,以幫助買家找到他們正在追逐的特定東西,例如,Pinterest就是一個例子,因為整個社交和購物階段都是圍繞著這種創新進行的。
在許多計算機視覺框架中,目標識別是前面的主要任務,因為它可以獲得關于被識別的物品和場景的額外數據。當目標識別為臉部時,可以想象獲得額外的數據,如感知特定的目標,即識別主體的臉部,在一連串的圖像中跟蹤該目標,如在視頻中跟蹤戰爭車輛的運動,并刪除有關該目標的額外數據。目標識別已被用于眾多的應用中,其中最著名的是:人與計算機之間的互動、機器人技術、先進的移動電話等購物電子產品、追蹤和跟蹤軍事中的物體、搜索引擎和自動駕駛車輛。所有這些應用都有不同的需求,包括:處理時間(如在線、實時和離線),對故障的反應能力,以及在姿勢變化情況下的識別。雖然許多應用考慮從單一視角定位單一目標,但其他應用需要從不同角度識別不同的目標或單一目標。
基于深度學習的目標識別技術[10],[11],[12]可以應用于不同的應用場景,因為它們在從一個視角顯示時具有適應性和優勢,而在發現和識別不同種類的目標時具有特殊的差異性。這就是為什么它們被應用于許多應用的動機,比如觀察和識別車輛和步行者。無論如何,這種技術的檢測效果在很大程度上依賴于集合,特別是巨大的信息索引和物理標記的信息索引,這進一步需要大量的計算資產。人眼的視覺機制使視覺框架能夠從巨大的圖片信息中擠出最吸引人的特征,從而大大提高了處理數據的熟練程度。因此,視覺注意力策略已經逐漸成為計算機視覺領域的一個有趣的問題,并以這種方式吸引了眾多研究人員的關注。一段時間以來,許多科學家提出了不同的策略來獲取重要的目標,例如,基于圖形的視覺顯著性[13],頻率調整檢測[14],基于區域對比度的目標檢測[15],成本敏感的支持向量機(SVM)[16],等等。除了前面提到的策略及其改進的變體之外,在過去兩年中,還出現了許多利用深度學習的新目標檢測技術,例如監督顯著目標檢測 [17]、循環全連接網絡 [18],其標準是通過開發和準備神經網絡來生成顯著性圖。
由于對數據進行分類的軍事準則,國內外在這一領域所做的有效調查很少。通過對最近所做的工作進行分析,我們發現,需要為軍事目標檢測任務設計有效的方法或系統。為了提高戰爭中使用的武器和車輛的生存能力,它們將在非戰爭時期進行偽裝。因此,偽裝,加上令人困惑和可改變的戰區,確實使識別軍事目標變得更加困難。考慮到軍事目標識別任務的質量和先決條件,本文通過對人類視覺感知策略的模仿,提出了一種檢測軍事目標的方法。本文的工作探討了以下幾個部分:a)介紹一種基于深度學習的膠囊網絡(CapsNet)的新方法,用于檢測給定圖像中的軍事目標;b)收集一個包括足夠數量的軍事目標的數據集,以驗證所提出的方法。
收購分析和政策辦公室是國防部負責收購和維持的副部長辦公室(OUSD(A&S))的一部分,該辦公室委托IDA評估使用機器精益分析主要國防收購項目(MDAPs)合同的可行性。分析的目的是從合同中提取數據,并預測項目績效。該研究分為三個階段:爬行、步行和跑步。
爬行階段包括建立一個數據集。在分析的這一階段,收集和處理合同。所選擇的合同在1997年12月至2018年12月期間被列入選定的采購報告(SARs),并且來自截至2019年11月不再報告的MDAPs。對這一時期的合同進行檢查,確保了每個項目都有90%以上的完整性。此外,數據集被限制在這一時期,因此計劃的績效結果是已知的,這在使用機器學習算法進行預測時是必要的。我們收集了24,364份PDF格式的合同文件,涉及149個合同號和34個MDAPs。(最后,我們使用國防分析研究所的文本分析(IDATA)功能,將收集到的文件變成機器可讀的數據集。
在步行階段,通過在我們的數據上訓練機器學習算法來評估合同數據,以回答相對簡單的問題。這項活動確保了數據集具有合理的質量,機器學習算法運行正常,并能產生合理的答案。在這個階段,每個程序都產生了詞云。下圖顯示了兩個程序的詞云,分別是CH-47F和ATACMS-APAM。
ATACMS-APAM計劃的詞云
字云顯示了每個計劃的合同中各種詞匯的頻率,去掉了 "和"、"的"等常見詞匯。這些圖形對于揭示每個項目的文件中最頻繁使用的詞語很有幫助,并有助于確保我們收集到合理的數據。
接下來,我們在這些數據的訓練集上訓練了一個天真貝葉斯分類器,并要求它將每份合同按五個類別之一進行區分:(1)研究、開發、測試和評估(RDT&E);(2)RDT&E修改;(3)采購;(4)采購修改;以及(5)采購運營和維護(O&M)修改。這些類別很容易由人類確定,預計機器學習也會產生同樣的結果。下表顯示了合同類別的分布和每種合同類型的數量。
該算法對80%的文件進行了訓練,然后用來預測其余20%的文件的類別。下面的混淆矩陣顯示了該算法預測合同類型的效果。
文件類型識別的混淆矩陣
對角線元素,也就是最大的數字,顯示了算法在測試樣本中正確識別合同類型的地方。總的來說,該算法對4872個文件中的4607個進行了正確分類,導致總體準確率為94.6%。準確率取決于樣本大小。例如,該算法預測測試數據中的52個文件是RDT&E合同,而95個文件是RDT&E合同,導致近55%的準確率,而3238個采購模式中的3080個,或剛剛超過95%,被正確分類。
后面描述的其他模型表明,合同被成功地轉化為數據。因此,這表明有可能將我們的算法應用于這個數據集,提出相對簡單的問題并獲得合乎邏輯的答案。
在跑步階段,我們提出了更難的預測問題,以測試機器學習算法使用合同數據集來預測項目績效的能力。我們使用Q-比率作為數量增長的衡量標準,使用數量調整后的項目采購單位成本作為成本增長的衡量標準,以及項目結束日期。使用70%的項目來訓練支持向量機(SVM)模型,并對其余30%的項目的績效指標進行預測。支持向量機無法比隨機猜測更好地預測績效。我們還研究了使用聚類來識別類似程序。盡管我們可以識別相似的程序,但很難確定這些程序為什么相似,這表明在這個領域還需要更多的研究。
我們發現,文本分析和機器學習算法很適合從合同中提取信息,并將這些信息轉化為結構化的數據集。盡管我們的分析使用了幾個不同的指標,表明提取的數據對描述性的目的是有用的,但我們無法確定機器學習算法是否能預測項目的表現。然而,這一結果并不意味著用合同數據集預測項目績效是不可行的。它可能意味著,更完整(或不同)的合同集、其他績效指標或替代算法將改善預測結果。此外,為了改善預測,可能有必要將合同數據與其他來源的數據相結合。
本報告記錄了美國海軍卡勒研究金(Karle’s Fellowship)研究項目的第一年,調查機器學習在增強航天器運行方面的應用。研究金的第一年主要包括研究范圍的確定、文獻回顧、數據收集以及算法選擇和開發。近年來,美國國防部(DoD)越來越重視自主能力的發展,這在美國海軍的研究和發展戰略中也得到了響應。機器學習技術代表了一個近期的機會,通過增強現有技術來逐步提高自主能力。從長遠來看,這是對新技術的投資機會,可能會極大地提高國防部系統能力。在更復雜的技術成為現實之前,解決自主性問題的實際方法必須側重于消除自主性的最重要障礙。在空間系統運行的背景下,健康監測和故障管理已被政府和商業實體確定為空間系統自主性的最大障礙之一。空間系統日益增長的規模和復雜性,以及衛星群的快速采用,使傳統的地面人類監測迅速變得不切實際,難以持續。這項工作主要研究在衛星遙測中使用機器學習進行自動異常檢測。異常檢測是自主健康監測的基本職責之一,因為對非正常狀態的檢測通常是運行故障檢測和補救過程中的第一步。近期的自動異常檢測可以通過對大量的遙測數據進行分類并只標記需要調查的數據來幫助人類操作員。從長遠來看,它可能被用作綜合自主健康監測系統的一部分。異常檢測的機器學習領域一直是廣泛研究的主題,因此,該技術已經足夠成熟,可應用于當前的健康監測系統。此外,異常檢測在海軍的其他方面也有一些潛在的應用,包括海洋領域感知(MDA)和指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)工作。研究金的第二年將著重于進行實驗,建立概念驗證,并將該技術整合到現有的空間系統中。
本報告記錄了一個為期兩年的卡勒研究金研究項目的第一年,該項目是關于機器學習(ML)用于增強航天器運行的主題。它旨在全面回顧迄今為止的所有研究,包括美國國防部(DoD)和海軍的需求、研究范圍的確定、背景領域知識、文獻回顧、數據收集、算法選擇和開發、實驗設計以及其他發現。此外,它應作為最后一年研究和后續項目的動力和基礎。
美國海軍研究實驗室(NRL)設立了Jerome和Isabella Karle杰出學者研究金計劃,以紀念Jerome和Isabella Karle博士,他們在化學領域的杰出貢獻為他們贏得了美國和國際上的認可,Jerome Karle博士獲得的諾貝爾獎。該計劃為研究人員提供了進行為期12至24個月的獨立研究項目的機會,這些項目由NRL內部資助。NRL的海軍空間技術中心(NCST)接受了一項卡勒研究金,從2020年7月開始,到2022年7月結束,題為 "機器學習促進增強航天器運行"。該研究金的主要重點是識別、調整和應用有前途的ML算法到航天器運行中,并創建一個概念驗證,以評估ML如何改善空間系統的性能。為這個概念驗證提供的規定如下。
1.一個ML算法
2.一個用于訓練該算法的數據集
3.用于評估該算法的航天器模擬測試平臺
4.量化任何性能變化的分析結果
ML有許多潛在的應用于空間任務,為運行和任務性能的改進提供了可能性[1]。為了使這項研究與美國海軍的需求保持一致,并為概念驗證保持一個可操作的范圍,該項目開始調查海軍在空間領域的需求和目標。隨后是對一般航天器運行和現有技術差距的審查,以確定ML有希望的應用領域。剩下的介紹性內容和背景概述了研究范圍和方向的細化。
美國海軍在空間領域進行許多活動,包括海洋領域感知(MDA)、定位導航和定時(PNT),以及指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)[2]。這些活動為關鍵決策信息的收集、分析和分布提供了基礎設施。這些系統的重要性體現在國防部的投資戰略中。例如,2018年國防戰略(NDS)和海軍研究與發展框架都將具有彈性和持久性的C4ISR作為投資重點[2,3]。隨著提供這些能力的系統在規模和復雜性上繼續增加,以應對日益增長的作戰需求,有必要整合更多的自主功能,以保持系統性能的最大可能水平。國防部已經認識到這一需求,因此,2018年國家發展戰略和其他一些戰略文件明確列出了自主能力的進步是一項關鍵的技術投資[2-5]。因此,美國海軍有必要繼續發展自主技術,以使關鍵系統能夠隨著部隊的需要而擴展。
在美國海軍空間系統中發展自主能力將有助于提高可操作信息的數量、質量和及時性。自主性可以應用于空間系統的多個方面,包括航天器運行和任務性能。從純粹的運行角度來看,更大的自主性允許空間系統在不壓倒人類操作員的情況下擴大規模。例如,當決策的時間尺度或信息處理的規模排除了人工控制時,自主性就變得有必要[6]。隨著分布式多衛星任務變得越來越普遍,這種情況也變得越來越普遍。此外,自主性提供了以更低的成本獲得更高的系統性能的機會,因為它的運行更加穩健和高效[7]。從任務的角度來看,自主性的提高可以采取改進數據收集、處理、分析和傳輸的形式,提高任務的效率和效果。運行和任務執行的改進都會減少對環形系統的壓力,在某些情況下可能完全不需要人,使操作人員能夠承擔更高級別的任務[5,8]。
盡管從長遠來看,海軍應繼續投資于各種自主能力,但近期的努力必須集中在消除自主性的最重要障礙上。多個權威機構已經確定航天器故障管理(FM)是最大的空間系統自主性障礙之一,包括國防科學委員會(DSB)和美國國家航空和航天局(NASA)[4, 9-11]。一般來說,FM是自主系統的一項有利技術,因為它允許系統在非正常情況下繼續運行[12]。對于海軍來說,自主FM,以及更廣泛的健康監測,提供了幾個好處,包括增加彈性和可靠性。有能力預測、預防、隔離和恢復故障的系統在本質上更有可能在關鍵時期保持運行。此外,自主健康監測可以幫助緩解評估空間系統健康狀態的困難,因為空間系統正變得越來越大和復雜。
美國海軍顯然需要對自主空間系統能力進行持續投資。由于這個原因,目前的工作范圍涉及到確定ML如何可能被應用于空間系統的自主性。特別考慮到航天器FM系統,因為它們作為自主性使能器所帶來的重大挑戰和機會。這項研究試圖獲得以下問題的答案:
1.ML在自主空間系統運行中最有希望的應用是什么?
2.如何將ML納入航天器FM系統?
3.哪些FM任務適合于ML?
為了激勵和提供后續章節的背景,本章包括關于自主性和自動化、ML基礎、空間系統運行和航天器FM的信息。每一節都旨在為每個相關主題提供足夠的背景信息,以便在本報告的大背景下理解其作用。
自動化、自主性和人工智能(AI)是三個不同的概念,由于其概念上的相似性,常常被混為一談。當創建一個至少部分不受人類控制的系統時,必須注意考慮應該采用這些概念中的哪一個。例如,一個必須是嚴格的可重復性和確定性的過程是比自主性或人工智能更適合自動化的候選者。相反,一個必須能夠適應不可預見的情況并做出決定的系統必須采用某種程度的自主性。這些概念也可以被利用來一起工作;例如,一個自主系統可以依靠自動化組件來執行重復的功能,而基于人工智能的組件來協助決策任務。重要的是要強調,一個特定的系統可以采用這些概念中的一個或多個,同時仍然利用某種形式的人在回路中的控制。為了提供一個清晰的劃分,本報告采用了[6]的以下定義。
自動化是自動控制的設備、過程或系統的運行,它取代了人類的勞動。盡管自動化過程可能很復雜,但它們是嚴格的確定性的,系統采取的所有行動都是通過預先確定的決策標準選擇的。換句話說,自動化過程通過遵循明確的指令運作,不能在這些指令之外運作。
自主性是指一個系統在獨立于外部控制運作時實現目標的能力。自主系統的兩個關鍵特征是自我指導和自給自足。請注意,運行邊界--對系統可以和不可以做什么的限制--可以而且應該由系統設計者來實現。此外,具體的自主能力可以存在于一個在人類控制下運行的更大系統中。關于這個話題的更深入的處理,請看[4]。
人工智能是計算機系統執行通常需要人類智能的任務的能力。一個使用人工智能的系統可以用它來幫助一些不同層次的自主決策,并且可以在明確的運行范圍內與人類操作員一起工作。雖然人工智能是具有某種程度自主性的系統的一個常見組成部分,但重要的是要注意,自主系統不一定需要人工智能組件。
機器學習可以被定義為人工智能的一個子集,在這個子集中,計算機算法在反復接觸數據的情況下,會自動改進給定任務。利用大型人工神經網絡的現代深度學習技術是最普遍的ML方法之一。圖1顯示了人工智能、ML和深度學習之間的關系。本報告使用機器學習一詞是指當今采用對目標任務效果最好的算法;這被稱為 "弱人工智能",或執行單一任務的人工智能,其范圍很窄。這方面的常見應用包括分類和回歸任務。相比之下,人工通用智能、"強人工智能 "和相關術語廣泛指的是人類擁有的認知智能類型。盡管這一領域的研究正在進行,但這種類型的人工智能不太可能在短期內適用,因此將不再進一步討論。
圖1-人工智能領域的常見歐拉圖[13]
雖然ML模型在架構上可能有很大的不同,但大多數采用相同的基本實現模式。一般來說,一個ML模型將一些輸入數據映射到一個相應的輸出。訓練數據在模型優化過程中被用來確定最佳模型參數。因此,用于訓練ML模型的數據必須盡可能全面地代表問題。數據中的任何偏見、缺失的模式或其他問題的代表錯誤都會導致模型給出有偏見的預測,或者只是表現不佳。此外,用于優化和評估模型的指標必須被仔細選擇,以便它們能夠準確地描述模型的性能。無論一個給定的算法是單獨工作還是作為一個更大的綜合系統的一部分,這都是正確的。無論學習范式如何,這也是真實的。
本報告將學習范式廣泛定義為調整ML模型參數的方式。圖2顯示了三種主要范式:監督學習、無監督學習和強化學習。這些基本范式可以作為其他衍生范式(如半監督學習)的構成要素。監督學習是研究得最多的,也是實踐中最常使用的。在這個范式中,每個訓練數據樣本都是有標簽的:它包括模型的輸入數據以及相應的地面真相,或目標輸出。通過調整模型參數來優化模型,使一些任意的損失函數的值最小化,該函數將模型輸出與地面實況進行比較。相比之下,無監督學習算法在輸入數據中搜索模式和結構,而不需要利用來自標記的地面真實數據的明確反饋。最后,強化學習使用反饋系統來訓練智能Agent在其環境中采取的行動,這些行動使根據Agent的預期性能定制的獎勵方案最大化[14]。
圖2-三種基本的機器學習范式[15]。
發射后,由無人駕駛航天器組成的衛星系統通常由三個主要運行部分組成:空間部分、地面部分和用戶部分。典型的空間系統部分和它們在系統中的作用顯示在圖3中。本節的重點是空間和地面部分,因為它們是用戶部分的基礎結構,而用戶部分又為終端用戶提供衛星系統的產品。
空間部分包括衛星系統中的所有航天器;這可能包括一個單一的航天器或一個由許多航天器組成的星座。衛星在其具體結構上可能有很大的不同,但典型的衛星可以分解成兩個主要部分:總線和有效載荷。雖然有效載荷服務于特定的任務,但任何航天器總線的主要目標是通過提供必要的基礎設施來支持有效載荷,從而促進在空部分任務。雖然具體子系統的存在和重要性可能因任務而異,但本討論包括地球軌道衛星的典型子系統,如圖4所示。
為了簡潔起見,這些子系統將不會被詳細討論。然而,重要的是要注意,每一個都在航天器的基礎設施中發揮著特定的作用。因此,通常從這些子系統中的每一個收集遙測數據,以評估航天器的健康狀態,通常在多個層次上,如組件、子系統和系統層面。一個航天器記錄的遙測通道的數量可能從幾十個到幾千個不等。通常,收集的遙測數據的類型和數量是由主題專家決定的,他們決定什么級別的信息對支持一個特定的任務是必要的。
圖3-典型的空間系統部分[16]。在運行上(即發射后),三個相關部分是地面、空間和用戶部分。
圖4-一個衛星通常由一個總線和有效載荷組成,前者為任務提供基礎設施,后者執行任務。圖中是典型的總線子系統。
地面段的主要責任是與空間段對接,并在整個系統的其他部分分發各種類型的數據。一個典型的地面部分由幾個元素組成,包括任務控制中心或任務運行中心、地面站、地面網絡和遠程基礎設施。圖5給出了典型的地面部分組件的概述。地面部分與空間和發射部分接口,并在發射后從發射控制中心接管對任務的控制。表1[17]中給出了各部分的主要功能。地面部分的主要運行作用是促進與空間部分的通信,允許數據與航天器上行連接和下行連接。任何沒有在航天器上實現的空間段功能必須由地面段通過指揮和控制通信進行監測和執行。傳輸到地面的數據類型包括任務數據、遙測或內務數據,以及跟蹤數據。通常情況下,傳輸到航天器的數據是指揮和控制數據。遙測和跟蹤數據被任務操作員用來執行各種內務活動,如軌道計算和維護、任務規劃和航天器健康評估[17]。
表1-地面段功能
航天器故障管理仍然是一門成熟的學科。盡管FM實踐與航天飛行本身一樣久遠,但FM仍然普遍是在臨時的、逐個任務的基礎上實施的。然而,在過去十年中,航天工業的多個成員已經認識到標準化的需要,并已開始將FM組織成一個正式的系統工程學科[18]。因此,在FM活動的正式化以及最佳做法和從以前的任務中吸取的教訓的匯總方面,已經取得了重大進展。這一努力的一部分包括對FM術語的定義。關于FM實踐,本報告采用了NASA故障管理手冊[19]中的定義。一些重要的定義在此重復。
異常 - 預期功能的意外表現。
失敗 - 預期功能的不可接受的表現。
故障 - 一個物理或邏輯的原因,它解釋了一個故障。
故障診斷 - 確定故障的可能位置和/或原因。
故障管理 - 包括實踐的工程學科,使運行系統能夠遏制、預防、檢測、隔離、診斷、響應和恢復可能干擾額定任務運行的條件。
標稱 - 一個預期的、可接受的狀態或行為。
非標稱 - 超出可能的預期狀態或行為界限的狀態或行為。有三種非正常狀態:異常、退化和失敗。
預測 - 對未來狀態或行為的預測。
圖5-地面部分組件及其與空間和發射部分的接口的簡化概述[20]。
與其他學科一樣,對一個特定的FM系統的具體要求來自基本的任務目標。必須特別考慮到任務的目標、重要性和風險容忍度,這有助于確定任務的風險態勢。要求以類似于其他學科的方式從任務層面流向系統、子系統和組件層面。一旦建立了整體的FM要求,工程團隊的工作就是確定如何滿足這些要求,同時遵守任務的資源限制。自下而上和自上而下的分析都要進行,以獲得對系統最完整的看法。常見的分析包括故障模式和影響分析(FMEA)、成功樹分析、故障樹分析和事件排序。與其他空間系統任務類似,任何不存在于航天器上的FM功能必須在地面實現。一個具體的FM功能可能被分配給空間段、地面段或兩者的混合[21]。
NASA的FM手冊將FM策略細分為兩種方法:預防和容忍[19]。預防策略是為了完全避免故障,而容忍策略則是為了在出現故障的情況下使任務能夠繼續。預防可以進一步分為設計時預防和運行時預防。設計時的預防是指將故障發生的可能性最小化的工程實踐。運行時預防的工作方式是首先對運行系統進行預測,然后采取預防措施,避免任何預期的故障。容忍策略可分為掩蔽、恢復和目標改變方法。掩蔽方法試圖通過防止故障在系統功能中進一步傳播來最小化故障的影響。掩蔽的例子包括冗余和糾錯,它們允許故障發生,但通過在故障傳播之前對其進行修正,將其 "隱藏 "在系統的其他部分。恢復方法尋求診斷故障的根本原因和位置,并隨后采取行動恢復系統的正常運行。這個過程通常被稱為故障檢測、隔離(定位)和恢復/響應(FDIR)。最后,目標改變方法通過修改任務目標來應對故障,以適應故障造成的系統能力的任何變化。
圖6-根據NASA的FM手冊[19],五個主要的FM策略的組織結構
一般來說,一個任務的FM系統的具體能力取決于來自任務目標、復雜性和整體可靠性期望的要求。在實踐中,一個特定的任務在建立FM系統和戰略時,通常會采用圖6所示的一些方法的組合。對于關鍵任務,可能會采用大部分或所有列出的戰略,以最大限度地提高任務成功的可能性。
一旦系統開始運行,有一些基本任務是FM系統必須執行的。圖7給出了運行中的FM過程的概述。雖然沒有畫出來,但預測也是該過程中的一個常見步驟。空間和地面部分之間的功能分配取決于幾個因素,包括任務的關鍵性、預算、資源和運行限制。然而,無論系統配置如何,同樣的基本任務都適用。傳統上,FM任務一直偏向于地面部分,因為它提供了更多的分析能力[22]。雖然現代航天器運行通常在地面和空間部分都使用一些功能,但唯一的機載FM功能仍然是那些由于時間或通信限制而實際上不能在地面上執行的功能:當必須采取時間關鍵的行動以確保航天器的安全時,機載系統必須能夠獨立于外部援助采取適當的行動。此外,由于感知到的風險,歷史上一直存在著對廣泛使用航天器飛行軟件的文化偏見[4,23]。
圖7-運行中的FM過程概述(圖中沒有預示)[19] 。
遙測監測和分析是進行預知和FDIR等運行調控工作的主要方法。遙測被用來預測、診斷和隔離故障,以及幫助確定適當的響應行動。在預期的或實際的非正常情況下,響應行動采取指令序列的形式,目的是保持或恢復正常的運行狀態。如果對特定故障的響應已經預先確定,這些指令序列可能會自動生成,或者在發生新的或未知的故障時,它們可能由工程師手動構建。監測通常在地面上通過下行鏈路遙測數據進行,也可以通過一些硬件和軟件的組合在機上進行。集成在硬件中的機載FM的一些例子包括看門狗定時器和內置測試,以及各種特定的子系統措施,如電氣系統中的過壓/欠壓監視器。在軟件中,最常見的機載FM故障響應是安全模式程序,它暫停所有非必要的功能,直到任務工程師能夠指揮航天器恢復到名義狀態[21]。
超限(OOL)方法也許是最簡單和最常見的遙測監控方法[23]。這種方法依靠的是假設和期望,每個遙測通道都有明確定義的額定和非額定范圍。這些范圍通常是由具有主題專業知識的航天器工程師確定或在他們的協助下確定的。此外,OOL方法通常采用分層系統,其中建立了多個限制,每一個連續的限制標志著過渡到一個更嚴重的非正常狀態。分層的OOL系統由于其易于實施、使用和解釋而一直非常受歡迎。限值本身是由專家確定的,該系統易于實施,而且結果可以直接解釋。此外,通過使用遙測趨勢分析,建立的極限可以用來幫助預后。極限檢查是地面和太空中最常見的遙測監測方法,并經常作為更先進方法的基礎[24]。
目前大多數包含某種程度的自動化FM系統都依賴于監測-反應范式中的基于規則的方法[12]。基于規則的方法的基本前提是直截了當的:對于每個規則,一個或多個條件被持續監測,如果所有條件都滿足,則執行預定的響應。規則可以是簡單的,也可以是復雜的,就條件的數量和它們的復雜性而言都是如此。同樣,響應可以是簡單的,也可以是由擴展的指令序列組成的。一個有效的響應也可能是在系統無法解決的非正常情況下提醒人類操作員。當故障條件和適當的響應是已知的,基于規則的系統提供了強大的自動化。然而,它們通常不適合處理未知的故障,除非包括推理部分,如形式專家系統[25]。
傳統的FM方法有許多缺點,FM界已經強調了這些缺點。這既包括運行的基本概念,也包括具體方法。在文化上,由于缺乏標準化和對FM作為一項正式工程任務的認可,使得幾乎不可能將任務與任務之間的做法落實到位。此外,很少有有效的工具或資源的再利用[18]。從系統工程的角度來看,FM是一項具有挑戰性的任務,因為它不可能事先模擬或預測一個復雜系統的每個可能的故障模式。無論多么徹底,像FMEA這樣的分析都不能預測所有可能的故障。這種大的故障空間 "使全面的測試變得不可行",對可靠的核查和驗證(V&V)構成重大挑戰[26]。雖然分析和測試仍然是任何FM方法的關鍵步驟,但人們已經認識到,從V&V的角度來看,它們不能被認為是完全詳盡的。
還有運行上的挑戰,特別是對于高可靠性的任務。值得注意的是,目前的監測-響應范式有幾個缺點。地面部分在執行FM的能力方面受到固有的限制,因為它不能實際接觸到航天器。此外,并非所有由航天器收集的遙測數據都能被下連和監測,使地面FDIR工作復雜化。隨著星座變得越來越普遍,這種現象已經開始變得復雜。安全模式,最常見的自動FM功能,在操作人員診斷和恢復航天器時,可能會導致長時間的任務停機。失敗的航天器恢復嘗試可能導致 "恢復循環",其中誘發了其他故障并必須加以解決[22]。大多數極限檢查系統是相當僵硬的,隨著時間的推移,航天器功能的自然退化,極限必須被手動改變。基于規則的系統可以提供復雜的自動化,但通常是基于傳統的FM分析,因此在故障空間方面受到同樣的限制。此外,隨著規則的數量和復雜性的增加,基于規則的系統在驗證和確認方面變得越來越復雜[12]。
對有效的航天器FM的現有挑戰導致了FM實踐界的若干反應。工程方面的改進涉及到需求開發和分配、成本驅動因素、風險評估以及整個產品開發生命周期的V&V。在運行上,感興趣的主要話題是創建可擴展的FM實踐,以滿足空間任務日益增長的需求[27]。與航天器運行的其他方面一樣,隨著航天器數量和復雜性的增加,人在環的做法正變得越來越不可持續。在NRL,這導致了海王星地面系統軟件中自動化功能的發展[28]。更廣泛地說,它促使人們對基于模型的系統工程(MBSE)和綜合系統健康管理(ISHM)等領域的興趣增加[29] 。
航天器FM是一門廣泛的學科,它的一些組成任務并不適合自主或ML。從根本上說,除非能從數量上證明ML組件不構成降低系統性能的風險,否則ML增強的系統永遠找不到實際用途,而這對航天器的運行來說將證明是特別真實的。在短期內,某些FM任務對于目前的技術來說可能過于復雜。對于某些任務,增加ML可能永遠不會比簡單的方法提供合法的好處,事實上應該有意避免。這可以在FDIR過程的恢復部分中得到證明;如果對一個特定的故障或故障模式的響應策略是已知的,那么自動化就是唯一必要的工具。在這種情況下,用非決定性的ML代替決定性的自動化可能會給系統帶來更多的風險,而不是消除風險。在這種情況下,更適合ML的任務可能是在發生未知故障時提出恢復指令。因此,最有希望的ML應用是那些從未將系統帶入更壞狀態的應用,在某種可量化的確定性措施內。
將ML應用于系統健康監測的努力正在多個領域進行,包括結構和工業健康監測以及網絡和物聯網系統的重要研究[30, 31]。將ML應用于航天器FM和健康監測也是一個活躍的研究領域,可以追溯到幾十年前[32]。一些自主FM的最初嘗試是基于規則的ML專家系統[11, 25]。歷史上,遙測中的異常檢測一直是ML在航天器健康監測中最常見的應用之一[7, 24, 33, 34]。已經使用了各種異常檢測技術,包括聚類和基于距離的方法、神經網絡、支持向量機和譜技術等等[23]。最近,現代深度學習技術已經成為一個流行的研究領域[30, 35]。一般來說,絕大部分的研究只集中在運行FM周期的預測和檢測部分,因為它們是最直接的應用。然而,將這些方法整合到一個完整的FM系統中存在著大量的機會。
異常檢測是自主健康監測的一個基礎構件,因為非正常狀態檢測往往是預知和FDIR過程的第一步。一個自動遙測異常檢測系統為當今的空間系統運行以及未來的空間自主健康監測提供了好處。在這兩種情況下,最大的好處將通過整合到一個運行系統中來實現。在近期,自動異常檢測提供了機會,在故障發生之前提醒操作者注意異常行為。此外,一個自動化系統可以將大量的遙測數據提煉成少數需要人工調查的事件,極大地提高了效率[7]。近期的系統可以被集成到地面站以及高度優先任務的航天器上。作為綜合自主FM系統的一部分,對異常行為的檢測可以傳遞給更高層次的推理器,該推理器可以根據環境執行下一個FM任務。
一般的異常檢測問題可以大致分為純粹的數據驅動和綜合模型方法。數據驅動的方法依賴于模型的輸入數據來提供解決問題所需的所有信息。即使沒有明確納入領域知識,成功的異常檢測系統仍然是以這種方式創建的。此外,當創建其他類型的模型不可能或不現實時,數據驅動的方法可能是唯一可行的方法。然而,試圖通過純粹的數據驅動方法來描述一個復雜系統的名義行為,存在著固有的缺點。這對于航天器來說尤其如此,因為其遙測值取決于各種各樣的內部和外部因素,如航天器運行模式、指令序列、環境條件和物理現象。在實踐中,即使是極高容量的模型也不可能捕捉到所有的這種背景。因此,文獻中的許多方法為每個單獨的遙測通道構建一個新的模型[23]。這在系統層面上是不切實際的,因為系統可能需要幾十個通道來監測。
與其他領域一樣,可以利用領域知識來創建一個更有針對性的任務來解決。在航天器異常檢測的背景下,名義性能的概念通常在系統設計期間通過建模和仿真來獲取。正如這些工具被用來幫助告知極限檢查和基于規則的方法,它們也可以被用來進一步告知ML方法。綜合模型方法試圖通過應用領域知識來提高算法的能力。這可以通過各種方式實現,但在空間系統的背景下,最常見的方法通常是通過物理或程序模型,這些模型描述了系統的預期行為。作為一個激勵性的例子,考慮圖8中的信號分解;通過對信號的趨勢和周期部分建模,有可能以殘差的形式提取任何未建模的影響。通過這種方式,殘差提供了對偏離預期行為的直接測量。因此,將異常檢測技術應用于殘差而不是整個信號是一個更有針對性的問題,因為它直接描述了與模擬的名義行為的偏差。一般來說,"黑匣"(即純粹的數據驅動)ML方法必須學習更復雜的函數映射,因為它們未能明確地納入關于系統的任何種類的領域知識。通過使用一個給定系統的非ML模型來說明容易表征的名義行為,有可能構建一個可能更容易解決的ML問題。
由于目前的研究是在概念驗證的技術準備水平(TRL)上進行的,所以對概念化系統的許多實際實施考慮還沒有深入探討。尺寸、重量、功率和成本(SWaP-C)方面的問題在本研究中沒有得到解決,計算方面的限制也沒有得到解決,如計算成本、復雜性或內存。雖然這些限制對于地面FM系統來說可能不那么嚴重,但對于在空間實施任何ML系統來說,它們是關鍵的考慮因素。所需的硬件往往是大型的、大規模的和功率密集型的,而且算法消耗大量的計算資源。此外,ML硬件在空間環境中的行為還沒有得到很好的理解,在廣泛使用之前需要進一步研究[37]。航天器是資源受限的系統,在苛刻的環境中運行;因此,一旦建立了概念證明,就必須對系統的實施實用性以及資源使用和系統性能之間的妥協進行評估。該評估將有助于確定一個可用于太空的產品所面臨的工程挑戰。
圖8-單變量信號的時間序列分解[36]。
雖然有大量的開源異常檢測數據集,但遙測數據集相對較少。為了在特定領域的數據上建立模型,數據收集工作包括開放源碼數據、NRL提供的數據以及與政府和行業的聯系。這產生了多個遙測數據集,其大小、復雜性、格式和異常類型各不相同。政府和行業的數據收集工作正在進行中。根據最佳做法,所有的測試數據都保留給最終評估,不以任何方式用于或查看培訓目的。無論用于訓練的學習范式是什么,所有的測試數據必須包含地面真實信息,以便對結果進行定量評估。
開源數據搜索的最有希望的結果是NASA的一個異常檢測庫。作為調查ML在遙測異常檢測中使用的項目的一部分,NASA噴氣推進實驗室(JPL)的一個研究小組已經發布了一個數據集,其中包含來自土壤水分主動被動(SMAP)和火星科學實驗室(MSL)任務的總共82個遙測通道[23]。這些數據包含了點狀異常和背景異常。每個遙測通道都包含每個時間步驟的遙測值以及指令信息。圖9顯示了來自SMAP航天器的訓練遙測通道的例子。訓練數據中沒有提供地面真相標簽,這意味著監督學習方法不能用來直接預測異常情況。測試數據被貼上了地面真相信息的標簽,提供了該通道遙測值中存在的任何異常的指數。除了數據本身,開發的算法也同時發布,可以作為基線性能基準。應該指出的是,通道A-3被任意選擇作為一個純粹的開發性數據集;也就是說,訓練和測試集都被用來協助開發模型、測試線束和實驗。從這個數據集中選擇了一個通道,因為它以前被清理、規范化和格式化,作為NASA研究的副產品,供模型攝取。因為這個通道的測試數據已經被多次使用,所以這個通道不能用于評估。相反,將對其余的通道進行評估。
圖 9-SMAP A-3 遙測通道訓練數據
WindSat有效載荷是 "第一個完全極化的空間微波輻射計"[38]。2003年作為科里奧利任務的一部分發射,該有效載荷提供天基海洋風速和風向測量。雖然該任務不再活躍,但該衛星已經遠遠超過了最初的三年任務壽命,仍在運行。該航天器目前由NRL的Blossom Point Tracking Facility(BPTF)運行,該設施記錄并將科里奧利遙測數據儲存在一個記錄數據庫中。WindSat遙測數據庫包含了多年的運行遙測數據的記錄。這為在真實世界的數據集上評估算法提供了極好的機會,與大多數異常檢測問題一樣,該數據集包含作為極端少數類的異常現象。在評估過程中,可以使用已知的故障記錄作為基礎事實,但不會用于訓練任何算法。對這個數據集的最終評估可以由BPTF的運營工程師證實。除了WindSat之外,NRL還在進行其他一些數據收集工作。作為各種開發項目的一部分,NCST已經開發了能夠生成遙測數據的工具。這些工具可以用來模擬航天器的運行并注入合成故障數據;重要的是,這提供了快速創建具有可變類型和數量的故障和異常情況的大規模數據集的機會。此外,這些工具可以直接用于生成相應的地面真實數據。
[39]提供的異常檢測的一般定義是檢測 "不符合預期正常行為 "的模式。這是一個不斷發展的廣泛領域,在很大程度上是由物聯網大數據挖掘工作推動的。異常檢測的機器學習方法已經成為一個非常受歡迎的研究課題,因為它們被應用于金融欺詐檢測、網絡入侵檢測、醫療診斷和工業健康監測等任務[40]。所有這些領域的共同點是需要自動數據處理技術來協助檢測不斷增加的數據量中的非正常模式。在某些情況下,異常檢測也可以被稱為離群點檢測或新奇點檢測,盡管這些術語的語義略有不同[41]。其他相關問題包括概念漂移和變化檢測,它們泛指檢測數據中出現的或變化的行為。概念漂移和變化檢測都給異常檢測帶來了挑戰。概念漂移的可能性要求有效的算法不斷地更新其名義行為的概念,而數據中的變化可能代表著異常或僅僅是一個新的名義模式的開始[42]。
圖10-不同類型數據中的異常現象[43]
文獻通常規定了三種基本的異常類型:點、集體和背景。點狀異常是最簡單的,指的是相對于其他數據而言,單一的數據點是異常的。集體異常指的是一組數據點,這些數據點在一起是異常的,但可能不是孤立的。背景異常是指那些在不了解某些空間或時間背景的情況下無法識別的異常。如果某種形式的背景被用來識別,那么點狀和集體狀的異常現象也可以被歸類為背景性異常現象[39]。圖10說明了一些異常現象的例子。左上圖和右上圖都顯示了點狀異常,左下圖和右下圖都顯示了集體異常。請注意,這兩個集體異常現象也可以被認為是上下文異常現象,因為它們在周圍數據的背景下是異常的。
異常檢測面臨許多挑戰,特別是對于具有大型多變量數據空間的應用。創建一個包含系統所有可能的標稱和非標稱行為的模型是很困難的,尤其是在使用包含噪聲并經常隨時間變化的真實世界數據時。在ML模型的背景下,由于標記的名義和非名義數據的可用性有限,采購訓練數據集往往是困難的或令人望而卻步[39]。這些挑戰導致了各領域的各種方法。本文詳細介紹了作為文獻回顧的一部分被檢查的異常檢測算法的類型。具體的算法不會被詳細討論;相反,算法的類別將被討論,以達到激勵的目的,并突出潛在的優勢和劣勢。由于本研究的范圍限制以及該領域的快速發展,本評論不應視為詳盡無遺。關于異常檢測技術和挑戰的更全面的處理,見[39-41, 44, 45]。
異常檢測的監督方法與其他ML任務的工作方式基本相同。如果標記的數據是可用的,包含名義的和異常的樣本,一個任意的模型可以被建立和訓練來對新的輸入樣本進行預測。一般來說,大多數異常檢測問題都存在著嚴重的類不平衡,其中名義數據遠遠超過非名義數據。由于這個原因,完全監督的方法是不常見的,因為典型的類不平衡禁止收集全面的訓練數據集。在某些情況下,有可能合成一個包含名義和非名義樣本的數據集,盡管一般來說很難合成一個能準確代表所有可能的名義和非名義行為的數據集[39]。部分監督學習在支持主動或交互式學習方案中可能是有用的,該方案利用人類在環路中的反饋來幫助以半監督的方式訓練系統[46]。參見[47, 48]對主動和互動學習的深入評論。
半監督學習的經典解釋是監督和非監督學習的結合,其中有限的標記數據和大量的未標記數據被用來創建一個模型,該模型比其純粹的監督或非監督的等價物具有更好的預測能力[49]。在ML異常檢測的背景下,半監督學習通常是指以監督的方式對單一類別--名義或非名義--進行模型訓練,然后使用該模型來區分訓練類別和相反類別的做法[40, 50]。這通常是通過在名義數據上訓練模型來進行的,因為名義數據的可用性更高,而且很難創建一個包含所有可能的異常行為的異常數據集。
在自監督學習中,創建一個模型來解決一個 "前臺"任務,該任務可以被表述為使用未標記數據的監督學習問題。通過這種方式,訓練有素的模型學習了數據本身的表征,然后可以在 "下游"任務中使用[49]。在異常檢測的背景下,"前臺"任務通常是學習名義行為的表示,然后可以用來執行區分名義和非名義樣本的下游任務。這經常被用于創建單類(即名義或非名義)分類器。
預測
基于預測的異常檢測技術是一種自我監督的學習形式,根據輸入數據的性質,也可能是半監督的。預測任務使用一個預測模型來預測未來的數據點。通過表征模型和現實之間的誤差--通常稱為殘差--可以使用下游技術,通過比較名義殘差和樣本的殘差來識別異常的樣本。如果模型沒有明確地在純名義數據上進行訓練,通常會假設非名義類足夠罕見,不會影響模型學習名義行為的能力[39]。圖11顯示了一個基于回歸的異常檢測的例子。前提任務是根據建模的名義系統行為生成 "預期 "曲線,下游任務是對名義殘差進行定性,以確定何種程度的差異是異常的[51] 。基于回歸的異常檢測最適合于殘差對標稱和非標稱樣本表現出明顯不同特征的問題。直觀地說,該方法不適合于不能可靠地建模的系統,如高度隨機或其他不可預測的系統的情況。
圖11-基于預測的異常檢測:預測和實際行為之間的巨大差異表明存在異常[51] 。
重構
重構模型試圖通過強迫模型從潛在的表征中重建輸入數據來學習一種表征[52]。最常見的版本是不完全重構,其中模型必須從一個壓縮的、低維度的潛在表征中重建輸入。這與過度完整模型相反,后者的空間比輸入大。在異常檢測的背景下,重建技術通常使用不完全模型。這是基于這樣的觀察:為了從有限的潛表征中形成最好的重構,模型必須只學習數據最相關的屬性,忽略不相關或錯誤的信息。通過這種方式,它學習了一個名義行為的表征。當應用于異常檢測時,該方法基于這樣的假設:如果訓練學習行為的名義表征,該模型在名義數據上的重建誤差較低,而在非名義數據上的誤差較高。然后,以類似于其他半監督方法的方式,一些下游技術可以被用來識別異常情況。現代重構模型最常以神經網絡的形式實現,在文獻中被稱為自動編碼器,因為它們可以被視為一般編碼器-解碼器網絡結構的一個特例。圖12顯示了一個不完全自動編碼器的一般表示方法。文獻中對復制器網絡進行了廣泛的研究,并且通常是各種復雜的異常檢測技術的基礎,如對抗性自動編碼器和生成對抗網絡(GANs)[53, 54]。
圖12-一個不完全的自動編碼器,其中x?是輸入x的重構[55] 。
統計學
雖然許多統計異常檢測技術嚴格來說不屬于ML領域,但它們在異常檢測任務中的普遍性值得一提。在多步驟的異常檢測管道中,它們經常被用作最后的處理步驟之一。統計測試可用于確定異常分數本身,也可用于確定對這些分數的信心估計。統計學異常檢測依賴于這樣的假設:名義數據和非名義數據分別存在于隨機模型的高概率和低概率區域。方法的類型可以分為參數技術和非參數技術,前者對數據的分布做了假設,后者對基礎分布不做假設。一個流行的參數方法是假設數據的高斯分布,這樣就可以使用各種技術--如圖13中的Z-score--來獲得數據樣本的異常得分。由于經驗上的成功,即使正態性假設在現實中不成立,也常常會做出這種假設。統計技術最大的優勢和劣勢是假設數據符合一個任意分布。如果假設成立,那么結果在統計學上是合理的,而且容易解釋;但是,如果不成立,該技術可能產生無效或錯誤的結果。關于統計學異常檢測和正式的統計學離群點檢測的評論,見[39,56]。
圖13-Z-score可以用來尋找高斯分布數據中的離群點[57] 。
聚類和基于鄰域的檢測
盡管它們是不同類別的技術,但用于異常檢測的聚類和鄰域方法都是基于這樣一個前提:異常數據可以通過某種距離指標來識別,從而將其與名義數據區分開來。聚類方法假定名義數據和非名義數據空間可以被分成若干個定義明確的聚類。鄰域方法通過計算它們與本地鄰域的相對距離或密度來檢測異常情況。雖然學習本身通常是以無監督的方式進行的,但整個方法通常可以被認為是半監督的,因為隱含的假設是實際上所有的訓練數據都是名義的。另外,一些方法還試圖為異常情況形成明確的聚類。由于這些方法的借口任務通常是對預先存在的無監督技術的直接應用,因此存在大量的基于聚類、鄰域和密度的異常檢測算法。有關概述,見[39]。
基于隔離的檢測
許多異常檢測方法首先對名義行為進行剖析,然后使用該剖析來區分名義和非名義樣本,而基于隔離的異常檢測方法采取了一種根本不同的方法,明確地試圖將異常現象從數據的其余部分中分離出來。直觀地講,這種方法可以通過觀察來解釋,即異常點應該比名義數據點更容易從其他數據中分離出來。最初的基于ML隔離的異常檢測器是隔離森林(IF或iForest)算法,它是相關方法的激勵基礎,如擴展隔離森林(EIF)和半空間樹(HS-Tree)[58-60]。IF算法的工作原理是建立一個隨機決策樹的集合。每棵樹對數據進行隨機分割,直到每個數據點都被隔離(即與其他數據分離)。平均路徑長度--隔離數據點所需的分割數量,在所有樹中的平均值--被用作確定異常得分的基礎。根據經驗,異常點的路徑長度明顯較短。EIF算法消除了原始IF算法中存在的固有偏見。半空間樹(HS-Trees)采取與IF類似的分區方法,可以應用于流式數據。圖14顯示了隔離森林的代表。
圖14-隔離森林使用隔離路徑長度作為異常檢測的基礎 [61] 。
已經提出了各種其他的異常檢測技術。信息理論技術是基于這樣的假設:通過測量異常現象對數據集的信息復雜性的貢獻,可以識別異常現象。譜技術試圖通過將數據投射到一個不同維度的子空間來尋找異常,在這個子空間中,異常現象更容易被發現。一些版本的復制器和對抗性模型在數據壓縮階段隱含地進行這種類型的數據投影。最近對該領域的貢獻包括將深度強化學習應用于主動半監督的異常檢測方法[62]。
應該指出的是,各種算法可以作為集合方法或多步驟算法的組成部分。例如,經典的集合方法可以應用于異常檢測,將一些不同模型的預測結合起來,努力創造一個比其任何成分都要好的綜合預測。此外,一些技術適合創建一個算法的管道,其中一個特定步驟的輸出被用作另一個步驟的輸入。例如,一個ML模型可用于執行表征學習,如特征提取或降維,模型的輸出可用于進一步處理或確定異常分數的后續步驟。這是一種常見的處理技術,適用于處理復雜的高維數據的方法和利用ML作為整個檢測管道的預處理步驟的方法。
航天器遙測異常檢測問題的性質對可能使用的算法施加了某些限制。遙測是典型的時間序列數據,意味著在確定異常時,時間背景很重要。直觀地說,在某個時間點上正常的遙測值在另一個時間點上可能是異常的。因此,沒有納入時間信息的算法可能處于不利地位。一些方法將時間信息作為所用模型的副產品,如基于長短期記憶(LSTM)的方法。其他方法試圖通過在整個序列中應用滑動窗口來擴展非時間性的算法。此外,遙測數據通常是高維和多變量的。例如,一個熱控系統可能由其他多個子系統的若干遙測通道組成。為了形成一個全面的系統視圖,需要某種程度的系統層次和抽象化。因此,僅限于單變量數據的算法在其適用性上比多變量的算法更有限。
學習范式也是一個主要考慮因素,特別是對于航天器遙測。對于大多數異常檢測問題,名義行為的例子遠遠超過非名義的例子。這對航天器來說尤其如此。因為航天器的故障和異常通常是相當罕見的,所以使用監督學習來直接訓練一個模型通常是不可靠的。到目前為止,以半監督或無監督的方式操作的方法,在沒有大量標記數據的任務中,經驗顯示出更好的性能。雖然半監督和自我監督的方法更為普遍,但它們通常不能通過使用關于特定檢測是否正確的明確反饋來逐漸提高檢測能力。從長遠來看,主動學習和其他相關范式可能允許這些方法通過少量的專家標記的例子來逐步改進。
對一個綜合系統的評價要求能夠量化系統的整體性能以及每個組成元素的單獨貢獻。這對FM系統來說是一項困難的任務,這在很大程度上是由于在該領域已經存在的V&V挑戰。一般來說,預測一個復雜系統的所有可能的故障模式是不可行的,因此,所有的分析和測試本質上是不詳盡的[26]。在遙測監測和異常檢測這一較窄的范圍內,有可能通過與已經在實踐中使用的其他基線遙測監測方法進行比較來簡化評估問題。在最簡單的情況下,一個基線方法可以直接與一個或多個ML方法進行比較。然而,如果ML組件被整合到一個更大的系統中,就有必要證明它對整個系統的具體貢獻。
對于每個輸入樣本,異常檢測算法的最終輸出通常有兩種形式:一種是衡量樣本的異常程度的異常分數,另一種是將樣本歸入名義類或非名義類的二進制標簽。一般來說,分數被認為是一種更靈活和信息量更大的方法,因為它們允許異常水平的連續光譜,而不是兩個離散的狀態。分數也可以在任何時候通過應用一個閾值轉換為二進制標簽。然而,在實踐中,直接比較使用不同評分方法的算法變得很困難,因為分數本身往往是從根本上不同的概念和假設得出的。此外,選擇一個將分數轉換為標簽的閾值可能具有挑戰性,而且往往依賴于關于數據的特定領域假設[39]。這些挑戰使得建立明確的評價標準并明確說明可能影響結果的任何假設變得至關重要。
為了確保完整和客觀的評估,需要謹慎地選擇指標。異常檢測問題所固有的典型的類不平衡意味著許多傳統的衡量標準,如準確度、F-Measure、平均精度(AVPR)和接收運行特征曲線下面積(AUROC)可能會人為地夸大性能[63]。這方面的一個例子是二進制準確度;一個二進制分類器如果天真地將給定數據集中的每一個樣本都歸入名義類,那么由于類的不平衡度很高,它的得分可能會相對較高[64]。使用二元的真-假-正-負(TFPN)指標--真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)--作為評價的基礎是很常見的,因為它們可以用來計算眾多的其他衍生指標。混淆矩陣是使用TFPN指標來描述整體性能的一種常見方式,既直觀又數字。異常檢測混淆矩陣的布局示例如圖15所示。給定評估數據集中的每個樣本都被分配到四個象限中的一個,每個象限的總數被用來確定性能。文獻中的普遍共識是,雖然一些數值如Matthews相關系數比其他數值更客觀,但沒有一個從TFPN指標中得出的單一數量能夠完整和客觀地描述。在比較可能具有不同統計質量的數據集的結果時,必須要有額外的考慮。一般來說,只有在可以明確量化并在分析中指出其偏差的情況下,才可以使用具有已知偏差的指標。關于兩類分類指標及其相關優缺點的深入討論,見[63-66]。
時間序列數據中的異常檢測因數據樣本之間的時間依賴性而進一步復雜化。值得注意的是,經典的混淆矩陣并不考慮時間維度,所以雖然它可以提供一個全局的性能視圖,但它沒有提供對一個給定算法在時間上的局部表現的洞察力[67]。這是一個固有的缺點,因為時間序列數據通常是高度非平穩的,因此,一個模型的性能可能因時間背景的不同而有很大的差異。此外,跨越多個時間點的上下文和集體異常的存在導致了對每個TFPN指標來說什么是 "擊中 "的模糊性。文獻中提出了許多方法;例如,與集體異常窗口部分重疊的預測檢測可能被評為真陽性、假陰性或兩者的某種組合[23]。一般來說,應根據檢測問題的優先級創建特定應用的TFPN指標定義[65, 67]。
目前正在開發一些有助于ML和異常檢測研究的軟件包。選擇Python作為主要的開發語言是由于它的開源許可、易于開發、靈活性以及預先存在的對ML和數據科學的支持和基礎設施。雖然它是為支持這項研究而開發的,但我們已經做出了一切合理的努力來創建高度模塊化的軟件,并支持記錄完備的應用編程接口(API),以便它可以很容易地擴展到其他類似或相關的問題。
圖15-異常檢測混淆矩陣
為了支持這項研究,已經創建了幾個工具,這些工具可能在異常檢測或ML領域之外廣泛適用。在開發過程中發現的這些工具已經被轉移到單獨的存儲庫中,在那里它們可以被開發、測試,并作為獨立的產品在NRL社區或作為開源軟件發布。已經建立了一個Python工具庫,其中存放了各種常見的便利和實用功能。對于更大規模的工具,已經建立了專門的存儲庫。目前,兩個主要的工具是一個集合生成器和一個統計分析庫。
合并構建器
合并ML方法通過合并多個單獨模型的預測結果形成一個復合模型。這樣做的目的是為了產生優于任何組成模型的綜合預測。作為該代碼庫一部分開發的集合生成器與API無關,可以結合任意數量和類型的模型的預測,允許跨庫組合。對于大型模型或數據集,支持批量處理。它還支持模型停用功能,這樣就可以很容易地確定任何給定模型對整個組合的貢獻。雖然大多數常見的預測組合方案都是預先實現的,并且是現成的,但如果有必要,也可以實現自定義的組合策略。
統計學工具
探索性數據分析是許多ML項目中常見的初始步驟。為了幫助EDA過程的自動化,創建了幾個工具,包括數據集統計的計算和繪圖,以及統計報告的生成。報告工具還可以比較多組數據的統計數據;這可以用來檢測單一數據流中的概念漂移,或比較不同數據集的特征。在異常檢測方面,許多算法假設數據的高斯分布,以證明關于特定數據集中異常的性質和數量的統計結論是正確的。為了測試這個假設的有效性,開發了一個工具,對數據樣本進行Kolmogorov-Smirnov測試,以確定正態性假設是否有效。因為該檢驗可以支持任何連續分布,所以該工具被擴展到Scipy軟件包中的所有連續分布[68]。該工具可以用來快速擬合100多個候選統計分布,以確定哪些分布(如果有的話)是對數據的合理擬合。
主要的軟件開發工作包括創建一個異常檢測代碼庫,作為大量異常檢測算法以及實驗和評估工具的主機。在可能的情況下,利用算法的開源實現來減少開發時間。否則,算法將根據需要手動實施。某些類型的模型,如神經網絡,可以進行廣泛的定制和架構調整;對于這些模型,我們創建了模型構建工具,以便快速創建和測試模型。目前,代碼庫支持50多個異常檢測模型,包括來自PyOD[69]和PySAD[70]庫的開源模型、單獨發布的開源算法和自定義模型。定制實現的模型包括傳統的和基于LSTM架構的變異自動編碼器。模型和算法將繼續根據需要被添加到資源庫中。
諸如TensorFlow、Keras和Scikit-Learn等軟件包都擁有一套廣泛的指標,通過使用API-agnostic接口[71-73],可以在異常檢測代碼庫中互換使用。對于簡單的評估,可以使用無狀態度量。對于較大的數據集,代碼庫支持可以分批更新的有狀態指標。自定義指標可以從這些指標中衍生出來,或者根據評估的需要來實現。除了指標之外,還創建了一個評估和排名工具,能夠自動比較任意數量的算法在給定問題上的性能。該評估過程類似于AutoML,并受其啟發,AutoML能夠自動調整一些模型,使其在訓練數據上達到最佳性能,隨后在測試數據上對其進行評估[74]。
在Plotly庫的基礎上,還開發了一套繪圖工具,與其他代碼庫同步進行[75]。繪圖模塊為開發、演示和部署提供了許多功能。首先,它通過提供數據可視化幫助探索性數據分析(EDA)以及算法開發和調試。第二,它允許對檢測結果進行展示和分析。第三,它的目的是允許在應用環境中進行實時數據和算法監測。一個正在進行的努力是創建一個近乎實時的儀表板,顯示流數據以及任何異常的檢測。這個儀表板可用于基于人的反饋的學習、運行監控和技術演示。
圖16-突出SMAP A-3通道測試異常的異常繪圖儀
自主能力的發展仍然是國防部和美國海軍的一個投資重點。健康監測和FM是阻礙海軍空間系統更有彈性、更可靠、更自主的一些最重要的挑戰,而自動異常檢測代表了實現這一目標的一個步驟。第一年的研究確定,ML方法提供了一個快速改善現有航天器異常檢測工作的機會,并有可能被應用于系統健康監測的其他領域。第二年的研究將著重于通過繼續開發異常檢測代碼庫和完成對遙測數據的各種算法進行評估的實驗來證明這一概念。此外,綜合模型方法將被進一步研究,并與數據驅動的方法進行比較。健康監測代表了ML在美國海軍空間系統運行中最有希望的應用之一。這種類型的技術已經足夠成熟,可以擴展到現有的系統,并能使近期海軍的地面基礎設施和未來海軍的機載衛星系統受益。
第一年的研究暴露了異常檢測在航天器運行中的一些應用,這些應用超出了航天器FM的范圍。盡管到目前為止還沒有深入探討,但海軍可以從多個領域的自動異常檢測中受益;其中一個應用是檢測名義和非名義行為,作為海軍C4ISR工作的一部分。隨著數據處理需求的不斷擴大,自動化方法的應用變得越來越重要。在短期內,自動異常檢測可以作為C4ISR數據處理管道的一個初步步驟,通過將大量的數據提煉成只需要進一步調查的數據來協助人類操作員。這可能適用于通信、態勢感知工作和環境監測中的利益信號檢測。所有這些應用將有助于縮短收集原始數據和提供可運行信息之間的延遲。
圖A1-全球AIS數據
作為一個激勵性的例子,考慮到異常檢測算法可以通過模擬正常的船舶行為和標記異常行為來協助基于ML的MDA工作,以便進一步分析。鑒于美國海軍必須對數以百萬計的船只進行核算,存在著異常檢測的巨大機會,以大幅減少必須由人類檢查的數據量。圖A1顯示了全球自動識別系統(AIS)數據的一個例子,它可以作為訓練模型的基礎。在短期內,諸如來自NRL的Sea-Link高級分析(S2A)系統的船舶軌跡數據可以用來模擬正常的船舶行為,并幫助減少人類操作員的處理負荷。從長遠來看,這些模型可以與人類一起工作,并通過學習模式識別提供先進的決策洞察力。
本文介紹了一個使用人工神經網絡的人工智能模型,該模型提供了改善超視距(BVR)空戰飛行員態勢感知的參數。在這種作戰方式中,有必要根據來自傳感器(主要是雷達)的信息做出決策。此外,由于有關敵機系統的信息有時是未知的,而飛行員的決策通常是基于對手的。所提出的模型建議處理這些特征,為在建設性模擬環境中的實體進行行為生成,即模擬人操作系統。我們創建了兩架飛機之間的BVR空戰模擬,每架飛機只有一枚導彈,通過拉丁超立方采樣(LHS)來選擇輸入變量,幾乎均勻地覆蓋所有的范圍。這些飛機有類似的行為,它們的參數只在模擬開始時發生變化。仿真環境生成一萬個空戰場景,改變了三十六個輸入參數,用于案例研究中提出的分析。從這些數據中,我們可以創建監督機器學習模型,大大提高BVR空戰飛行員對進攻情況的態勢感知能力,在這種情況下,參考飛機使用導彈攻擊目標或防御陣地,而不是參考飛機試圖避免敵人導彈向其方向發射。進攻型和防御型模型的準確度分別為0.930和0.924,F1分數為0.717和0.678。因此,這項工作的貢獻是使用機器學習算法來產生有關戰術狀態的反應,以提高飛行員的態勢感知,從而改善飛行中的決策過程。
拒絕和欺騙(D&D)技術利用錯誤信息和對手的認知偏差,長期以來一直是混合作戰的一部分。這種戰術給傳統上由人類分析員制作的情報、監視和偵察(ISR)產品帶來了不確定性和懷疑。在一個由人工智能(AI)擴散主導的未來戰斗空間中,算法生成的ISR產品數量可能會增加。因此,D&D戰術將越來越多地被顛覆人類而非機器推理的需要所驅動。對抗性機器學習(AML)的發展,即對欺騙性人工智能的研究,對未來混合作戰空間中的實踐狀態有重大影響。**本文回顧了對抗性機器學習技術之間的關鍵區別,以及它們對敵方對作戰人工智能的了解和訪問做出的假設。然后,我們總結了我們團隊最近與混合作戰有關的幾個對抗機器學習研究方向:對成像系統的物理對抗性攻擊,數據中毒攻擊,以及AML與設計強大的人工智能系統的相關性。
混合戰爭指的是使用顛覆性的、非軍事的手段來推進民族國家的利益,特別是俄羅斯近年來采用的技術,在不訴諸公開的、常規的軍事行動的情況下占領領土并影響各國的政治和政策[1]。所采用的混合戰術包括網絡攻擊、動員智能體團體采取行動、施加經濟影響以及其他秘密措施。由于混合作戰存在于常規軍事沖突和平民生活之間的 "灰色地帶",因此戰術上采用了拒絕和欺騙(D&D),通過利用民眾或敵對勢力的認知偏差來迷惑、威懾或影響理想的行為。D&D戰術在常規戰場上的歷史使用是有據可查的[3]。有效的D&D技術通過對依賴人類專家分析的軍事情報、監視和偵察(ISR)產品產生懷疑而獲得成功。在混合軍事行動中,情況不一定如此,在混合軍事行動中,D&D也可能試圖影響平民的看法。此外,隨著人工智能(AI)成為國家軍事投資戰略的重點(如[4]和[5]),以及商業信息技術部門越來越多地采用人工智能[6],人工智能在未來的 "灰色地帶 "可能會無處不在。因此,我們必須考慮在未來由人工智能的使用主導的混合戰斗空間中可能存在的D&D威脅。
當前的人工智能能力是由機器學習的進步所帶來的,特別是在深度學習這個子領域,在過去的10年里。機器學習(ML)涉及將系統的輸入映射到預測結果的問題,例如,將車輛的圖像映射到一個類別的標簽。通常情況下,這是在大型數據集中通過統計模式識別實現的。深度學習具體涉及到多層神經網絡的使用,它是具有數百萬自由參數的高度非線性回歸模型,作為模式識別的統計模型。雖然深度網絡在各種任務上的表現優于人類(最著名的是圖像分類[7]),但在諸如[8]和[9]等作品中觀察到它們容易被愚弄之后,對抗性機器學習(AML)領域作為一個活躍的研究領域出現了。許多作者指出,ML算法所犯的錯誤可能會在民用領域產生嚴重后果[10]-[15]。我們也認為必須提出類似的擔憂,即軍事人工智能系統在常規戰場和混合戰斗空間中的脆弱性。
本文的其余部分組織如下:第2.0節將提供關于對抗性機器學習的進一步背景介紹,以及我們認為目前在解決其與混合軍事行動的相關性方面存在的差距。在第3.0節中,我們描述了約翰霍普金斯大學應用物理實驗室(JHU/APL)目前正在進行的三項研究工作,以解決這些知識差距。最后,我們在第4.0節中做了總結性發言,并總結了我們到目前為止的發現。
圖 6. AI 開發周期(圓形流程圖)和采用機器學習的典型算法步驟(橙色大框)。
在工業資產運行過程中出現的異常情況可能表明存在退化和故障,隨著時間的推移,會導致不期望的行為、運行條件的喪失以及系統的最終崩潰。預測性維護技術負責監測系統的狀態,以便在初始階段對這些異常情況進行檢測,從而以最佳方式安排維護任務。本文介紹了一種基于機器學習的人工智能技術的海軍資產預測性維護解決方案。為此,使用了由船舶實時收集并通過控制中心傳輸的傳感器(溫度、壓力等)的信息。所開發的系統(SOPRENE)能夠從我們軍艦上的發動機的歷史數據中預測不同的故障模式或異常運行狀況的發生。此外,該系統的使用可擴展到大型艦隊,該解決方案已使用Spark分布式環境來實現,以促進預測的分布式計算。
維護成本是工業運營成本的一個重要部分。在某些情況下,如在冶金行業,這些成本可以達到總生產成本的15%-60%。此外,其中三分之一的投資由于不必要的或不正確的活動而被浪費。然而,維護是至關重要的,因為系統的故障會導致巨大的財務成本。
在過去,由于不可能處理大量連續的數據流,所以在很多情況下,只能使用統計技術。然而,今天的預測性維護則遵循更先進的理念:
與其依靠這些行業統計數據(如平均故障間隔時間)來安排維護活動,不如對系統進行實時監測,以確定其狀態和真實狀況。目前的計算能力允許處理更多的數據,以及使用更復雜的技術來進行預測、檢測異常情況和對系統進行可能的診斷。因此,預測性維護可以理解為基于系統的當前狀態或條件以及根據運行歷史進行的未來預測的預防性維護。
這項研究工作介紹了在SOPRENE項目中開發的預測性維護系統在海軍艦艇發動機上的應用。擬議的系統已經分析并使用了分布式環境中的機器學習技術。在這個意義上,所考慮的方法論可以根據Ran等人的說法來劃分。
2019 年的項目提案征集產生了 10 個項目,共包含 15 個研究工作流。這些項目涉及 140 多名教職員工、研究人員和學生,他們隸屬于麻省理工學院校園和麻省理工學院林肯實驗室的 20 多個不同的組織單位。所有項目團隊都涉及空軍人員,他們嵌入研究團隊并充當項目與國防部利益相關者之間的聯絡人。這些項目于 2020 年 1 月開始,推進了廣泛領域的人工智能研究,包括天氣建模和可視化、培訓計劃優化以及增強自主性以增強和放大人類決策。人工智能加速器的研究活動已成功擴展,包括與海軍研究生院和美國太空部隊合作的種子研究項目,以及于 2021 年 1 月啟動的人工智能教育研究項目。總共11個項目 。
Guardian Autonomy for Safe Decision Making
Air Guardian 旨在通過開發用于增強和放大人類決策的算法和工具來推進人工智能和自主性。AI Guardian 通過使用過去的數據建議行動并融合來自傳感器和信息源的輸入來幫助人類。AI Guardian 系統的支持在出現意外和復雜情況時特別有用。Guardian 的端到端機器學習算法向專家學習如何在高度動態和令人驚訝的情況下以常識推理做出反應。我們的目標是使代理能夠感知其環境,識別短期風險,對其操作員以及其他合作和對抗代理的意圖和行為進行推理,以確定最佳行動方案。
該項目旨在開發一種新的框架和算法類別,使無人機系統能夠在模擬器環境中學習復雜的多智能體行為,然后將其知識從模擬無縫轉移到現實世界的現場環境中。該團隊設想了一個急救系統,在該系統中,一群自動駕駛飛機接受了虛擬訓練,了解如何在新的災區模擬中導航和合作。然后,系統將在模擬中獲得的學習轉移到真正的自主飛機群中。一架飛機部署了一個大型“母艦”地面站,該地面站釋放這些訓練有素的自主飛機,以自動執行時間緊迫、勞動密集型的任務,例如勘測災區以及定位和識別幸存者。
合成孔徑雷達 (SAR) 是一種能夠產生高分辨率景觀圖像的雷達成像技術。由于能夠在所有天氣和光照條件下生成圖像,與光學系統相比,SAR 成像在人道主義援助和救災 (HADR) 任務中具有優勢。該項目旨在通過利用來自相關模式(例如,EO/IR、LiDAR、MODIS)、模擬數據和基于物理的模型的補充信息,提高 SAR 圖像的人類可解釋性、SAR 目標檢測和自動目標識別 (ATR) 的性能. 項目結果和產生的技術將在整個政府企業中共享,以便在 HADR 問題空間中受益,跨服務的多個合作伙伴可能能夠利用已開發的技術。
為了改善人工調度飛機航班的極其復雜和耗時的過程,該項目旨在實現飛機航班調度的自動化,以提高調度效率和在存在不確定性的情況下的魯棒性。這將優化培訓飛行計劃,同時提供可解釋性并消除決策中的孤島。該技術使調度人員能夠在快速變化的環境中快速有效地重新構建調度,從而大大加快計劃和決策周期。雖然最初專注于飛機航班調度,但該技術適用于許多部門的所有復雜資源分配任務。
大量標記數據、新算法和計算機性能的可用性使人工智能革命成為可能。但漫長的計算機在環開發周期阻礙了人類發明和部署創造性的人工智能解決方案。此外,摩爾的終結削弱了半導體技術提供性能的歷史能力。AI 性能越來越依賴于硬件架構、軟件和算法。Fast AI 項目專注于為快速構建 AI 解決方案奠定基礎,在現代和傳統硬件平臺上實現性能和可移植性。我們在編程語言、編譯器技術、綜合儀器、分析生產力工具和并行算法等領域進行創新。
人工智能技術成功的核心要求是高質量的數據。讓系統做好“AI 就緒”的準備工作包括收集和解析原始數據以供后續攝取、掃描、查詢和分析。該項目將開發 ML 增強數據庫技術,以降低存儲和處理成本,同時實現各種數據庫孤島之間的數據共享。此外,我們將開發一個異常值檢測引擎來識別來自多個來源的復雜事件流中的時間異常。
AI Accelerator 自然語言處理項目旨在推進平面/文本圖像數據和空軍任務中的會話代理、知識表示和預測算法。隨著人工智能領域的進步,隨著我們在數據中記錄更多的工作,并在我們的家中找到更多的設備,人們能夠以有意義的方式與技術交互至關重要——就像人類一樣,語言很重要——尤其是在發現關于數字系統的信息。目標是通過對話交互和知識提取來推進人工智能社區,以進行開放域對話和非結構化信息。
AI加速器自然語言處理外語項目專注于構建個性化的外語教育框架,其中包括要獲得的語言知識模型。這項工作利用當前的外語,根據學習者在課程作業各個階段的預期知識水平量身定制,并制定標準化的能力測試措施。該模型將有助于個性化學習體驗,并闡明學習結果何時和/或何處對學生不利。
用于天氣和氣候的地球情報 (EI) 引擎包括一個新穎的 AI 測試平臺,以支持美國空軍的快速、有效決策和長期戰略規劃和運營。人工智能的進步有助于縮小人工智能研究人員與可用地球系統數據之間的差距,通過一個連接數據和模型的平臺、新穎的算法和圖像填補任務,將低質量的天氣和氣候數據集與高質量的天氣和氣候數據集聯系起來。EI引擎將為美國空軍提供改進的異常檢測算法;對集中式地球情報數據的關鍵遠程訪問;用于任務支持的地球智能的直觀超級計算機可視化;改進任務行動的臨近預報天氣預報;以及受氣候變化影響的戰略位置識別,以加強資源配置。
盡管機器學習模型的性能令人難以置信,但它們仍然難以理解——我們不明白它們是如何或為什么得出結論的。因此,我們不可能對模型的決策充滿信心,并在它們出現故障時對其進行調試。這種“黑盒”性質限制了我們部署和節約維護機器學習系統的能力,尤其是在高風險的環境中。該項目以全新的思維方式處理機器學習的可解釋性:將機器學習和人機交互方法相結合,使實際用戶的可操作性成為主要目標。目標是確定可解釋機器學習的標準,從而能夠開發具有與人類和任務一致的數據表示和決策界面的模型。
人工智能技術已被證明在許多關鍵應用中非常成功,例如對象識別、語音識別等。然而,這些成功依賴于收集大量數據集和仔細的手動注釋。這個過程成本高、耗時長,而且在很多情況下,沒有足夠的數據可用。遷移學習通過利用機器看到的過去數據僅使用少數帶注釋的示例來解決未來問題,從而為這些問題提供了解決方案。這項研究側重于遷移學習中的挑戰,旨在開發可以從根本上從多個異構任務中學習的算法,超越低級任務相似性,以實現跨不同任務的更廣泛遷移。此類算法將在包括計算機視覺和自然語言處理在內的多個領域具有普遍適用性,并將大大減少對大量注釋數據的依賴,從而降低部署和維護人工智能系統的成本和時間。
人工智能和機器學習 (ML) 方法已為美國空軍展示了巨大的前景。然而,當數據輸入或任務目標與算法訓練期間遇到的目標發生變化時,許多現有的 ML 算法通常會發生災難性的失敗。這種缺乏可靠性以及現代 ML 技術的不透明性使得無法在關鍵任務環境中自信地部署機器學習系統。此外,模型無法適應不斷變化的環境,這意味著每當環境發生變化時都需要(通常是昂貴且困難的)模型重新調整。本研究將側重于以魯棒性為中心的方法來開發 ML 算法。強大的 AI 開發環境 (RAIDEN) 優先考慮 ML 的可靠性、多功能性和適應性。我們努力提供的模型、框架和算法將簡化真正可靠和高效的機器學習系統的部署。
該項目匯集了生物醫學儀器、信號處理、神經生理學、心理物理學、計算機視覺、人工智能 (AI) 和機器學習 (ML) 方面的專家以及空軍飛行員,以開發和測試基于人工智能的多模式用于客觀性能預測和優化的生理傳感器融合方法。該項目將利用身臨其境的虛擬環境來訓練飛行員并不引人注目地測量性能預測指標。從該計劃開發的一系列挑戰數據集將用于參與社區。該團隊與多個政府研究工作以及空中教育和培訓司令部的無數飛行員培訓單位合作,尋求通過明顯加快飛行員培訓時間表來提供概念驗證,從而更快地培養“更好的飛行員”。
國防部和民用部門正在研究幾種不同的 GPS 替代方案,以解決 GPS 替代方案;但是,每種替代方案都會帶來額外的成本和用例。磁導航提出了一種替代 GPS 系統,該系統依賴于地球的磁共振——一個眾所周知且不變的系統——進行導航。磁導航當前的一些問題涉及 1) 減少系統上的多余噪聲,例如飛機本身的磁輸出,2) 以與軍事系統一致的實時速度或速度確定位置,以及 3) 與其他系統相結合系統來展示一個完全替代的 GPS 系統。目前的項目著眼于使用魯棒的神經微分模型來解決磁導航的缺點并提供 GPS 的可行替代方案。
該項目旨在應用人??工智能來增強美國空軍檢測、識別和地理定位未知射頻 (RF) 信號的能力,同時提供自適應干擾緩解和智能頻譜分析工具。這些能力增強了空軍情報監視和偵察 (ISR) 任務、通信、信號情報 (SIGINT) 和電子戰。結果將提高帶寬利用效率和頻譜共享,提高空軍在高干擾環境中的通信性能,產生更高質量的射頻信號情報,并提高系統對對抗性攻擊和干擾的魯棒性。
KAL 是一個探索性研究項目,旨在推進教育研究活動,為具有不同角色和教育背景的學習者(從空軍和國防部 (DoD) 人員到公眾)大規模促進最大的學習成果。項目團隊將研究和評估與在各種現有課程中培訓空軍人員人工智能主題相關的各種教學實踐和學習效益,繪制教育需求和能力的格局,并試點實驗學習經驗,目標是盡早概述用于創新技術支持的培訓和學習的原型。
當前的海軍作戰要求水手們根據動態作戰環境中的不確定態勢信息做出時間緊迫和高風險的決策。最近的悲慘事件導致了不必要的傷亡,海軍行動中涉及決策復雜性,并特別突出了 OODA 循環(觀察、定向、決策和評估)中的挑戰。涉及使用武器系統的殺傷鏈決策是 OODA 循環中一個特別緊張的類別——具有難以確定的意外威脅、縮短的決策反應時間和致命的后果。有效的殺傷鏈需要正確設置和使用船上傳感器;未知接觸者的識別和分類;基于運動學和智能的接觸意圖分析;環境意識;以及決策分析和資源選擇。
該項目探索了使用自動化和人工智能 (AI) 來改進海軍殺傷鏈決策。該團隊研究了海軍殺傷鏈功能,并為每個功能制定了特定的評估標準,以確定特定 AI 方法的功效。該團隊確定并研究了 AI 方法,并應用評估標準將特定的 AI 方法映射到特定的殺傷鏈功能。
圖:利用人工智能改進海軍殺傷鏈的作戰概念
當前的海軍行動通常是快節奏的、關鍵的,并且需要做出高風險的決策,這些決策有時基于非常動態的戰區中的不確定信息。許多例子強調了提高決策效率的必要性以及減輕觀察團隊負擔的必要性。缺乏上述情況的例子包括 2017 年的菲茨杰拉德號航空母艦 (DDG 62) 和 MV ACX Crystal相撞,以及 2009 年皇家港口號航空母艦 (CG 73) 的擱淺。一些根本原因是相關人員缺乏經驗、疲勞和壓力.
上述事故展示了軍事行動的難度,并展示了 OODA(觀察、定向、決策和評估)循環中的挑戰(Jones 等人,2020 年)。人為錯誤、人的認知限制和海軍作戰固有的決策復雜性導致了 OODA 循環中的挑戰,更具體地說,是殺傷鏈過程中的挑戰。
現代戰斗空間由來自常規陸地、空中和海洋等多個領域以及來自太空和網絡空間的大量數據組成。決策者需要考慮許多因素,包括交戰規則 (ROE)、要使用的武器、傳感器和意圖評估。發現、修復、跟蹤、瞄準、參與、評估 (F2T2EA) 殺傷鏈模型緩解了該過程的一些困難(參謀長聯席會議,2013 年)。人工智能 (AI) 和機器學習 (ML) 可以通過分析備選方案和使用評估標準將 AI 方法映射到殺傷鏈功能,從而幫助海軍在戰術領域做出殺傷鏈決策。這是在本報告的五個章節中分三個階段完成的。
本報告利用了數百個資源,主要利用了美海軍研究生院 AI-OODA 團隊在其 Capstone 報告(2020 年)中進行的先前研究,“利用人工智能 (AI) 進行空中和導彈防御 (AMD):以結果為導向的決策援助。”他們將他們的工作與 John Boyd 的觀察、定向、決定和行動決策框架相結合。作為他們分析的初步步驟,AI-OODA 團隊將特定的 OODA 功能明確且緊密地耦合到特定的 F2T2EA 功能。然而,本報告斷言 OODA 循環是一個決策循環,它嵌套在殺傷鏈的每個功能中,而不是在高壓力或低壓力情況下專門映射到一個或多個殺傷鏈功能。團隊基于 F2T2EA 模型開發了一組 28 個殺傷鏈功能。
在制定將 AI 方法映射到殺傷鏈的評估標準時,很難確定一個好的決策,這對于決策評估至關重要。在評估決策時,必須考慮選擇行動時的知識意識狀態以及解釋能力。使用了幾種對決策進行評分的方法,從定義和優先考慮感興趣的“武器-目標”到制定評分標準和報告評估結果,以供其他人審查。
目前,人工智能的狀態非常廣泛,必須對其進行解釋,以了解人工智能對殺傷鏈中功能的適用性。本報告討論了所選 AI 方法的高級概述,并突出顯示了部分最流行的方法。首先,沒有普遍接受的定義,這很難定義人工智能。其次,人工智能與機器學習 (ML) 存在差異。 ML 允許在準確性和可預測性方面取得增量收益; AI 接收數據并通過算法提供輸出。人工智能的歷史從 1940 年代艾倫·圖靈 (Alan Turing) 的加密機器到 1980 年代美國政府在戰略計算計劃中的使用,再到今天在聯合人工智能中心 (JAIC) 中的人工智能戰略五個支柱,從領先的人工智能人力到安全和倫理。美國國防高級研究計劃局 (DARPA) 在 3-wave 框架中描述了 AI 的發展方向,分為手工知識 (Wave 1)、統計學習 (Wave 2) 和上下文推理 (Wave 3) 在 1-4 個維度內情報參數的屬性(Launchbury 2017)。這些屬性包括感知、推理、抽象和學習。
人工智能涉及可以根據輸入值預測結果的監督學習。有幾種使用監督學習進行學習的技術。包括線性回歸和分類。此外,許多數值方法可以分析發生的學習有效性,例如 F-score 和 Accuracy score。人工智能還可以使用無監督學習,它使用算法來發現未標記數據集中的數據模式或分組。在分析未知(y)響應以揭示標記(x)數據中的模式時,無監督學習是有益的。數據分析界的一個著名例子是鳶尾花(Iris flower)數據集。僅使用標記的數據,可以看到響應聚集在一起,并且可以確定響應中存在模式(花的種類)。無監督學習的方法包括聚類和 K-means,但還有其他方法。強化學習有一個代理能夠接收來自環境的反饋并理解基本目標。此外,正如 Sutton 和 Barto 在(2018 年)中解釋的那樣,探索和開發之間存在權衡。最后,生成對抗網絡 (GAN) 利用無監督學習和強化學習,通常用于神經網絡 (NN)。神經網絡是機器學習算法的極好來源,它有大量的輸入,而這些輸入又會產生大量的計算。 NN 非常適合用于模擬、自然語言處理、博弈論和計算機視覺。 NN 只是一種將輸入映射到輸出的簡單方法,可以在此過程中進行學習。然而,NN 可以被描述為一種“黑盒”學習技術,因為很難解釋正在發生的事情,并且通常需要一種可解釋的 AI (XAI) 技術。 XAI 的三個主要組成部分是可解釋模型、解釋界面和解釋心理學(Gunning 2019)。數據安全必須與“大數據”一起考慮,“大數據”是指非結構化、復雜和大型數據集,具有五個 v 特征:數量、速度(數據量隨時間變化的增加)、多樣性、真實性和價值。其他理論包括決策理論、模糊邏輯和效用函數
使用上述文獻綜述,該團隊開發了一個框架,用于將 AI/ML 映射到 AMD(空中導彈防御)殺傷鏈。采取了四個步驟:1) 建立模型框架,2) 確定決策點,3) 應用 AI/ML 方法,以及 4) 分析結果。該團隊確定了以下用于殺傷鏈映射分析的 AI/ML 方法:線性回歸、邏輯回歸、聚類、關聯、隨機森林、神經網絡、GAN 和樸素貝葉斯。評估標準被稱為“決策點”并提出四個問題:(1)所需輸出的類型是什么,(2)所需的學習類型是什么,(3)可解釋性(XAI)是什么水平需要,以及 (4) 需要多少個預測變量?該團隊通過基于一組決策點和評分過程評估每個殺傷鏈功能的每種方法來執行映射。對于被認為非常適合某項任務的方法,得分為+1,如果該方法適合但次優,則為0,如果該方法不適合該任務,則為–1。
該團隊進行了映射分析,根據與殺傷鏈的 28 個功能中的每一個功能相關的評估標準(決策點)分析 AI 方法。該團隊使用評分方法來確定每個殺傷鏈功能的最佳整體 AI/ML 分數。團隊的映射顯示為 0。
該團隊的 AI/ML 映射到殺傷鏈功能為國防部和海軍提供了兩個關鍵好處。首先,映射本身是設計和開發支持殺傷鏈決策的人工智能戰術決策輔助工具的重要起點和基礎。其次,該團隊將 AI 方法映射到殺傷鏈的分析過程可用于了解 AI 在許多其他軍事和非軍事領域的應用。識別適當的人工智能方法、制定評估標準和評分過程以及制定過程功能以進行分析映射的過程對于支持許多不同人工智能系統的工程具有深遠的潛力。
表1:AI/ML方法到殺傷鏈的映射
空軍專業 (AFS) 初始技能培訓 (IST) 的最新趨勢表明,美國空軍 (USAF) 入伍人員重新分類為其他職業專業的人數近年來有所增加,并且在財政年度之間出現了穩步增長2013 年和 2017 年。職業領域重新分類可能會導致廣泛的負面結果,包括成本增加、人員配備延遲、培訓計劃挑戰和士氣下降。為了理解和解決 IST 重新分類的挑戰,作者考慮了改進流程的選項,以對 IST 的現役非在職飛行員進行分類和重新分類。在本報告中,他們概述了 2019 年一項研究的主要發現,該研究采用了定性和定量分析,包括機器學習 (ML) 模型、評估 IST 成功(和失敗)的預測因素。他們還描述了他們對優化模型的測試,該模型旨在確定修改重新分類決策的機會,以便不僅減少重新分類飛行員的數量,而且提高飛行員的工作滿意度和生產力,并提高美國空軍的保留率。
01 研究問題
02 主要發現
2.1 IST 分類旨在優化訓練成功,但不優化其他重要結果
2.2 增加相關變量的數量可以提高 ML 預測的準確性
2.3 重新分類是一個手動過程,可以進行優化以實現不同的結果
2.4 與 IST 飛行員就選定的 AFS 進行的焦點小組討論確定了促成 IST 成功和挑戰的因素,并確定了改進建議
飛行員的特征(例如,動機)和先前的經驗(例如,教育)、支持性教官和學習小組有助于 IST 的成功。
IST 挑戰涉及飛行員特征和訓練基地環境。
改進涵蓋了諸如 AFS 的先驗知識以及對 IST 的期望、課程設計、非 IST 要求和宿舍安排等領域。
03 建議
通過保留有關 IST 資格和結果的數據庫,要求新兵完成職業評估和招聘人員提供有關 IST 和 AFS 的信息,系統地收集有關工作要求的信息,開發生物數據工具,從而擴展 USAF 入伍分類中使用的預測變量集。由所有入伍新兵完成,并使用同行和教官對飛行員的個性進行評分。
通過定義和系統地測量與 IST 成功相關的結果以及通過監控專業畢業的移動平均值來擴展 USAF 入伍分類中使用的結果集。
提高數據質量、全面性和可訪問性,以便 ML 模型能夠提供準確且有用的預測。
更新分類和重新分類流程以優化 IST 的成功和工作匹配,從而提高績效和職業滿意度。
在實施任何 ML 模型之前,應對道德和隱私、ML 模型的可解釋性和模型性能等領域的挑戰。
04 報告目錄
第一章
簡介和背景
第二章
空軍分類和重新分類過程
第三章
可用于預測空軍訓練和職業成果的數據
第四章
預測成功的模型
第五章
重新分類訓練消除的優化模型
第六章
飛行員在選擇專業的初始技能培訓中的經驗
第七章
結論和建議
附錄 A
定義和衡量人員選拔的成功
附錄 B
描述性統計和分析建模結果
附錄 C
優化模型方法論
附錄 D
焦點小組方法論