雖然在高風險的武裝沖突環境中,可能很難在地面上收集信息,但衛星提供了一種非侵入式的概述情況的形式。當涉及到監測城市損害時,這通常與高成本有關,因為必須購買非常高分辨率的圖像。同時,有一些衛星的圖像只有中等分辨率,但它們以較高的重訪頻率覆蓋世界,并向公眾開放其圖像。因此,本論文旨在回答這樣一個研究問題:是否有可能利用深度學習在中等分辨率的光學衛星圖像中自動檢測武裝沖突的破壞。從語義分割的角度出發,創建了一個伊拉克和敘利亞的參考數據集,其中包括用來自UNOSAT的損害信息按像素標注的Sentinel-2圖像。該數據集被用來訓練FCN、U-net以及簡化的6層ResNet。雖然表現最好的模型在識別較稀疏的損害模式時有困難,但在檢測損害集群時表現良好。實驗顯示了避免失去分辨率的重要性,例如,將步長保持在1。此外,標簽對模型的性能有很大的影響,這表明為了避免在地面實況中出現錯誤的負面標簽,最好標記得太多。提出了一種跨學科的方法來創建和維護武裝沖突損害的數據庫,這可能對武裝沖突的空間發展研究有重大影響。納入不確定性測量和驗證的方法對其適用性至關重要。
防火墻是維護安全網絡的關鍵,但不能假設設法通過防火墻的網絡流量是完全安全的。異常檢測指的是可用于發現特定數據集中的獨特或不尋常現象的方法。無監督的機器學習技術涉及到對無標記數據的機器學習,可以利用它來進行異常檢測,通過攝取給定的數據集,發現那些以有意義的方式與其他數據不同的實例,這些實例對人眼來說可能并不明顯。在這項研究中,我們旨在分析檢測到的成功通過防火墻的傳入數據包和網絡流量數據的異常情況,并確定這種異常情況可能存在的意義。考慮到大量存在并定期產生的惡意流量,本研究表明,高斯混合物可用于發現通過防火墻的網絡流量中的異常現象,以發現潛在的不良或惡意流量。
盡管人們對聯邦學習和貝葉斯神經網絡進行了研究,但對貝葉斯網絡的聯邦學習的實現卻很少。在本論文中,使用公共代碼庫Flower開發了一個貝葉斯神經網絡的聯邦學習訓練環境。隨之而來的是對最先進的架構、殘差網絡和貝葉斯版本的探索。然后用獨立同分布(IID)數據集和從Dirichlet分布得到的非IID數據集測試這些架構。結果顯示,貝葉斯神經網絡的MC Dropout版本可以通過聯邦學習對CIFAR10數據集的IID分區取得最先進的結果--91%的準確性。當分區為非IID時,通過概率權重的反方差聚合的聯邦學習與它的確定性對應物一樣好,大約有83%的準確性。這表明貝葉斯神經網絡也可以進行聯邦學習并取得最先進的結果。
使用FL是一個在邊緣采用人工智能的機會,并減少收集大量數據集的需要。這將極大地幫助海軍在艦隊中部署和訓練AI模型的工作。例如,通過傳統的人工智能管道,為海軍創建一個人工智能模型將需要每個指揮部合作創建一個全球數據集,無論是被動聲納還是網絡流量分析、維護或人力資源。這是一項非常昂貴和耗時的任務,隨著新數據的出現,在完成時可能已經過時了。然而,FL提供了一種方法,讓每個指揮部在他們本地的、當前的數據上訓練和部署一個模型,并將他們的模型與另一個指揮部的人工智能模型匯總。由于只傳遞模型的權重而不是整個數據集,所以通信成本也是最小的。雖然FL提出了一種在邊緣部署和訓練人工智能模型的方法,但貝葉斯網絡是一種不僅能提供預測,而且能對其評估的不確定性進行估計的模型。士兵在不確定的環境中工作,知道部署的人工智能模型何時對其預測不確定,可以防止人工智能和戰士的過度自信。這一特點可以極大地幫助人工智能-士兵團隊以更高的效率水平運作。將FL的分布式和持續學習特性以及貝葉斯NN的不確定性這兩個方面結合起來,將是海軍在各種應用中的巨大優勢,如網絡流量分析、合成孔徑雷達或無人機圖像分析,或無源聲納分析。
為了證明這一點,開發了一個FL框架來比較貝葉斯NN和它們的確定性對應物,并在本論文中分析了它們的結果。本論文的主要貢獻是在一個已知的數據集CIFAR10[2]上對這個框架進行了基準測試,以比較結果。該數據集在FL研究中被充分研究[3]-[6]。使用的人工智能模型架構是殘差網絡(ResNet)[7]。它是一個最先進的神經網絡架構,為CIFAR10數據集設定了一個基線。這使得貝葉斯ResNets可以在集中式和FL設置中與原始的最先進結果進行比較。本論文打算回答的主要問題有以下幾個:
確保信息和武器系統免受網絡威脅是美國國防部及其盟國合作伙伴的一個重要目標。了解這些系統在現實操作條件下的端到端性能,包括網絡干擾,對于實現任務目標至關重要。在不利的操作條件下,識別和減輕操作性能的不足,可以為我們的防御能力提供重要價值,并直接拯救生命。
作為一個說明性的例子,我們考慮聯合全域指揮與控制(JADC2)系統。JADC2從根本上依靠通信和網絡來包含、提取和傳播時間敏感的、與任務相關的信息,以決定性地戰勝對方的部隊。未來的沖突很可能涉及到試圖破壞對JADC2通信和高度復雜的武器系統的可靠運行至關重要的信息系統。破壞已經是潛在對手部隊的一種能力,并將蔓延到與他們結盟的次要威脅。JADC2綜合網絡和動能戰場的復雜性要求訓練、分析、測試和評估部門充分考慮到網絡操作退化和/或利用網絡漏洞對整體任務結果的潛在影響。這促使人們對工具、技術和方法進行大量的持續研究和開發,以評估一般軍事系統,特別是作戰系統的網絡彈性(復原力)。
戰斗系統之間的復雜性和相互依賴性以及它們之間的聯系使目前的彈性分析方法變得復雜。例如,假設故障是隨機的硬件故障,那么與網絡中的單點故障相關的風險可以通過冗余的組件來緩解。然而,一個未被緩解的網絡漏洞也可能導致冗余組件出現相同的故障。即使組件本身沒有漏洞,成功干擾數據交換時間的攻擊,例如通過加載數據總線,也可能導致作戰系統性能下降。同樣,通過延遲的、間歇性連接的、低帶寬的環境建立通信聯系,可能需要使用多跳來轉發信息,這增加了對中間人攻擊的敏感性。
還有一種情況是,武器系統的網絡漏洞不一定是任務漏洞,因為利用該漏洞可能會也可能不會影響實現任務目標所需的整體系統能力。為了保證任務免受網絡威脅,武器系統的網絡彈性必須在現實的戰術環境中進行評估,以便。
使用虛擬機(VM)的傳統網絡靶場是網絡系統的最高保真表現,因為它們不僅虛擬了通信協議,還虛擬了操作系統和應用程序,因此在這些模塊中發現了漏洞。因此,網絡范圍經常被用于網絡攻擊和防御評估和培訓。然而,虛擬機往往需要大量的硬件足跡來模擬大型網絡,并需要大量的時間和人力來配置特定實驗的范圍。這種類型的網絡范圍受到以下額外的限制:
在本文的其余部分,我們從以任務為中心的角度研究了使用網絡數字孿生來提高軍事(戰斗)系統的網絡彈性。網絡數字孿生依靠高保真模擬和仿真來對物理系統進行建模,并在可移植性、可擴展性、對無線網絡和通信進行建模的能力以及支持整個產品開發周期的網絡分析方面提供好處。我們還提出了一組用例,說明數字孿生在不同系統的網絡彈性評估中發揮的作用。
將基于虛擬機的網絡范圍與網絡數字孿生體相結合的網絡框架,可以為調查各種戰術系統的網絡彈性和脆弱性提供一個理想的平臺。
"數字孿生"利用系統的高保真軟件模型,以高效和全面的方式支持復雜系統和系統中系統的分析、測試和生命周期管理。數字孿生體從多個來源不斷學習和更新自己,以代表物理系統的近實時狀態和運行條件。這些來源包括傳達其運行狀況各個方面的傳感器數據;人類專家,如具有深刻和相關領域知識的工程師;數字孿生體可能是其中一部分的更大的物理系統和環境;以及連接的人工智能和機器學習(ML)系統。數字孿生還可以整合來自過去操作的歷史數據,將其納入數字模型。
網絡數字孿生體是一個通信網絡的數字孿生體,它使用實時數據來實現整個生命周期的理解、學習和推理。網絡數字孿生體使用網絡模擬和仿真,但與之不同的是,它通過傳感器輸入和上下文信息保持當前的網絡狀態,并能在其生命周期內不斷學習和更新模型。
通過相應的物理系統從設計到部署的演變,數字孿生體還可以作為一個權威的真相來源(ASOT)。通過在系統設計的早期階段構建網絡數字孿生,也許通過利用基于模型的系統工程(MBSE)工具和方法,系統設計者和開發者可以保持從最初的系統規范到最終部署的系統的需求流的跟蹤,并保持在整個產品生命周期中如何修改或增強需求的文件跟蹤。特別是,數字孿生可以直接連接產品生命周期的系統設計和系統測試階段。具體來說,網絡漏洞和緩解策略可以被評估和跟蹤,從系統設計階段開始,經過各個階段的完善和發展。這種方法可以極大地提高已部署系統對網絡威脅的整體復原力。
我們注意到,即使在相應的系統被部署后,數字孿生體仍然是有用的。特別是,通過構建多個替代系統配置,并選擇能夠提高運行性能的配置,以滿足包括網絡彈性在內的關鍵性能措施(MOPs),孿生體可用于監測和持續改善運行系統的性能。
以下是網絡數字孿生的一些關鍵屬性,以支持其用于評估軍事系統的網絡彈性:
保真度。網絡數字孿生體必須以足夠的保真度捕捉系統通信基礎設施的具體配置、拓撲結構、流量負載和動態,以便該模型能夠準確地再現物理網絡的行為。系統行為的例子包括具有不同服務質量要求的流量之間對鏈路帶寬和緩沖空間的競爭,拒絕服務攻擊包對系統控制器的影響,或農村或城市地形對信息接收的影響。對任何設備的配置文件的改變必須導致數字孿生的行為與物理網絡的行為有相同的可觀察的變化。
可擴展性。網絡數字孿生體必須有能力擴展到大量的網絡和基礎設施設備,并有能力模擬真實世界場景中典型的端到端流量。
執行速度。為了能夠評估一些現實的 "what-if "場景,網絡數字孿生體應采用先進的仿真技術,提供比實時更快的執行速度。為了提供一個與現場設備相結合的測試平臺,網絡數字孿生體應該能夠實時運行,以便現場和模擬的組件能夠同步運行。
與現場軟件、硬件和人類操作員的整合。與實時軟件(如網絡管理器或物理組件控制器)和/或流量跟蹤集成的能力將使網絡數字孿生體能夠評估現實的操作場景,并從相應的物理網絡中創建或更新模型狀態。同樣,包括物理系統中使用的實時網絡和網絡物理防御組件的子集的能力將大大改善保真度,并促進模型的驗證和確認。
統計數據的收集和分析。與相應的物理系統相比,數字孿生通常可以在數據收集方面有更多的工具。詳細的統計資料,特別是在跨越一系列操作參數的多次運行中收集的資料,有助于確定復雜網絡系統性能下降或故障背后的根本原因。
易用性。用于構建網絡數字孿生體的平臺必須提供一套豐富的預構建設備模型,從而可以快速配置系統模型,最好使用自動或半自動工具來配置設備、網絡拓撲結構和流量分布。仿真器還必須支持建立模型和發起各種適應性和/或協調性網絡攻擊的能力,以評估系統中的系統在各種操作條件下的彈性。
圖1說明了實時-虛擬-結構性網絡數字孿生的概念,它將軟件網絡模型與實時組件和其他適合相關用例的模擬器結合起來。
圖1. 網絡數字孿生。
網絡數字孿生也可以很容易地與人工智能或機器學習系統對接,以測試AI/ML系統預測的準確性,或使用其結果來優化相應網絡的運行。
考慮網絡數字孿生平臺的一個具體例子--EXata,它滿足了上一節中提出的許多要求。
逼真度。EXata在通信協議棧和網絡設備的所有層中使用高保真模擬/仿真模型,以高保真的方式表示端到端的系統。
可擴展性。EXata仿真內核使用一套并行離散事件仿真算法(PDES)9和適當的分區算法,以有效地細分計算,在服務器或云平臺的多個處理器中模擬大規模網絡。因此,使用EXata模擬的網絡規模沒有固有的限制。
執行速度:EXata已被移植到當代共享內存和分布式內存并行架構上,并有一個原生的云實現。這些實現已被用于支持實時和比實時速度更快的具有成千上萬個無線電臺的網絡模擬。
與實時組件的互操作。EXata支持一種 "仿真 "執行模式,其中內核使用低偏移同步模塊與物理時鐘同步運行。這種模式可以用來與實時應用程序連接,這些應用程序在網絡數字孿生體上運行,就像它們在真實網絡上運行一樣。網絡模擬還可以在一個或多個協議層與網絡管理和監控工具、實時中間件、實時路由器、防火墻和其他網絡設備進行互操作。
可擴展的網絡模型庫。EXata支持一個可擴展的庫,包括商業(如Wi-Fi、蜂窩、企業、多媒體網絡)、軍事(如多域戰場網絡)和兩用(如5G、衛星通信)網絡。具體而言,它支持聯合網絡仿真器(JNE),這是一個美國軍用波形和網絡模型庫,涵蓋了從水下通信到海上網絡、戰術空中鏈接、衛星通信網絡和地面網絡,包括當前和新興的波形。EXata還支持物理環境的高保真模擬模型,包括城市和農村的地形、干擾和流動性。
網絡模型。EXata支持一套模擬網絡空間的攻擊和防御,與模擬網絡的每一層互動。這些包括網絡安全協議、防火墻模型、端口和網絡掃描、拒絕服務、刺激入侵檢測系統、數據包修改、漏洞利用、病毒/蠕蟲傳播和防御、后門、rootkits、僵尸網絡以及其他。主機模型可以配置內存、CPU周期、漏洞、進程和可以被感染的共享文件。自適應攻擊腳本可用于修改攻擊載體,這取決于先前嘗試的攻擊的成功率。模擬網絡攻擊影響網絡模擬中的虛擬節點,而不影響任何物理設備。模擬攻擊對虛擬節點的影響反映了物理設備上信息的保密性、完整性和可用性的影響,如果它們是模擬攻擊模型的真實攻擊目標。
場景導入器:EXata支持一些工具,以自動將網絡拓撲結構、流量和設備配置從物理網絡導入其EXata模型。圖2總結了在EXata中支持自動創建網絡數字孿生的能力。
圖2. 使用EXata自動創建網絡數字孿生。
網絡數字孿生可用于各種兵棋推演、分析、培訓、測試和評估背景下。我們考慮以下三個具體的用例:
雖然許多兵棋推演軟件在表現平臺的機動性和行為方面很出色,但大多數都假定通信接近完美,沒有充分考慮到對通信系統的威脅以及隨之而來的影響網絡性能的退化。在現代戰爭中,幾乎每一種情況都依賴于及時的通信,而當這些情況沒有被準確地模擬出來時,就會導致不正確的兵棋推演結果。這就要求兵棋推演平臺能夠模擬真實的網絡和通信效果以及網絡攻擊,以支持有效戰術、技術和程序(TTP)的發展。這種能力將確保在確定兵棋推演的結果時,可以適當考慮到網絡漏洞或多領域戰場上的不良網絡性能的任何影響。
網絡數字孿生為兵棋推演提供了一個真實的平臺,以模擬任務的所有通信方面。兵棋推演平臺處理平臺的流動性和動能任務,而網絡數字孿生體處理底層的通信、網絡和網絡效應。圖3顯示了一個簡單的架構,將兵棋推演模擬器(如ONESAF、NGTS、AFSIM)或商業工具(如Command PE、VR Forces)與網絡數字孿生平臺(如EXata)相連接,以模擬用于連接相應平臺的通信網絡。
圖3. 兵棋模擬器與網絡數字孿生的接口。
最初的平臺位置和隨后的位置更新是由兵棋推演模擬器傳播到網絡數字孿生體。平臺之間的任何通信都被路由到網絡數字孿生體,它根據當前的位置、發射器和接收器的特性、網絡協議、環境因素等計算出信息的端到端可達性和延遲,并將結果返回給兵棋推演模擬器。我們注意到,這樣的孿生體可以用來準確描繪紅方和藍方部隊的通信,以及一方發動的網絡攻擊(如干擾)對另一方的網絡和通信的影響。
這些網絡效果有助于分析人員在現實的網絡競爭環境中用不同的行動方案(CoAs)測試他們的兵棋推演計劃。例如,紅方部隊可以使用干擾攻擊來破壞藍方部隊的情報、監視和偵察(IRS)行動,以掩蓋其戰術行動,并在特定的行動區域獲得力量優勢。隨后,作戰者可以在藍方的射頻通信系統中加入抗干擾能力作為反制措施。然后,分析員可以根據紅方的干擾能力和藍方的反制措施,檢查兵棋推演計劃中的不同CoA,并評估這些能力在任務中的部署是否有效和及時。
這個用例說明了使用網絡數字孿生體來支持多域戰場網絡的任務規劃和分析模式。在這個大國競爭重新開始和復雜的網絡威脅的時代,我們必須根據網絡支持的任務來評估網絡的彈性和生存能力。這種評估應基于以下幾點:
1.任務目標。
2.武器系統的屬性和弱點。
3.網絡防御能力。
4.對手在多域任務行動中使用網絡威脅,包括TTPs。
我們以聯合全域指揮與控制(JADC2)為例,說明網絡數字孿生體如何被用來識別性能特征,并根據實際情況優化配置和部署。
JADC2依靠一個地理上分散的、由傳感器、平臺和武器系統組成的連接網絡,在嚴酷和有爭議的環境中運行,以實現任務的成功。JADC2可以使用原地環境數據和實時平臺位置。實際情報和/或聯網的傳感器可以自動提供目標軌跡、部隊位置、情報和環境因素,然后用頻譜管理和網絡威脅來完善這些因素。
如前所述,由于通信協議、設備配置、網絡拓撲結構、應用流量、物理環境和網絡攻擊之間的相互作用,JADC2的數字孿生必須有足夠的保真度,以準確反映網絡動態。例如,對手發起的干擾或拒絕服務攻擊的位置、強度和持續時間將決定對任務至關重要的通信的影響。數字孿生體必須有足夠的保真度來捕捉網絡動態,從而適當區分那些僅僅是煩人的網絡攻擊和那些有可能破壞任務時間表的攻擊。例如,強度足以破壞流媒體視頻但不會破壞位置信息(PLI)的干擾傳輸可以被忽略。
JADC2的網絡數字孿生體的執行速度比實時快,可以根據OPFOR的位置、發射范圍和EW/cyber能力,承受真實的或與任務相關的潛在網絡空間行動。它提供可視化和詳細的指標,如連接、延遲、丟包等,以及它們對任務的影響。如圖4所示,網絡數字孿生體可用于根據不斷變化的METOC、頻譜管理、網絡性能、連接性和對網絡攻擊的敏感性,比較和評估具有不同路線和搜索區域的多種行動方案(COA),以協助優化網絡配置,并幫助評估任務中的網絡威脅緩解策略。
圖4. 使用網絡數字孿生進行網絡分析。
使用網絡數字評估JADC2系統的網絡彈性也可以增加網絡彈性測試的范圍:許多網絡攻擊,如漏洞利用、病毒/蠕蟲傳播或分布式拒絕服務(DDoS)不能在JADC2本身上進行,但可以使用數字孿生進行演練,而沒有損害JADC2系統的風險。
CPS是網絡犯罪分子的新的軟目標。CPS可能包括諸如電網、自主車輛系統、醫療監測系統、過程控制系統和飛機自動駕駛儀等系統。一個典型的CPS包括一個連接到遠程操作中心的傳感器、執行器和控制器的網絡。許多這樣的CPS迅速利用互聯網連接性來提高運營效率,并為客戶提供新的服務。不幸的是,這些改進帶來了一個嚴重的缺點--對網絡攻擊的敏感性增加。如果成功的話,對CPS的攻擊會對商業和日常生活造成廣泛的破壞。因此,保護關鍵基礎設施,如電網或運輸網絡,對國家安全至關重要。對關鍵基礎設施的網絡攻擊已被視為地緣政治沖突或軍事行動劇本中的一個選項,如當前的烏克蘭戰爭。因此,對CPS的網絡復原力的評估與任何防御系統一樣重要。
CPS(以及工業控制系統或SCADA系統)的運作通常需要傳感器和監測或控制單元之間的定期通信和反饋;這些互動有嚴格的時間限制。例如,IEC61850標準是電力變電站的全球標準,它要求某些控制信息在3毫秒內傳遞,以保護電網。即使是對這些信息的時間或內容的輕微擾動也會造成嚴重的影響。位于發電機的傳感器和控制中心之間的信息通信可能被 "黑",導致服務中斷或設備故障。如果信息的內容被破壞,它可能導致CPS控制器低估了正在產生的電力數量。在另一種網絡攻擊情況下,"中間人 "或拒絕服務攻擊可能會導致從控制器到執行器的 "關閉 "信息丟失或只是延遲接收,可能會導致電網部分設備的連帶故障。
2015年12月,世界目睹了一個令人不安的新事件--第一次由網絡攻擊引起的電網中斷。該地區是烏克蘭西部,惡意的行為者使大約30個變電站和兩個配電中心斷電。對電網中發現的工業控制系統的網絡攻擊威脅的擔憂繼續出現。2019年3月5日,能源部報告了美國電網有記錄以來的第一個破壞性網絡事件。
那么,CPS的運營商如何評估其網絡漏洞,并評估潛在緩解策略的有效性?集成數字孿生(IDTs)通過創建通信網絡和物理系統的綜合模型提供了一個創新的解決方案。作為一個具體的例子,我們考慮使用EXata和HYPERSIM的整合來模擬烏克蘭的攻擊,EXata用來模擬通信網絡,HYPERSIM用來模擬電網組件、控制系統和輸電線路(圖5)。在這種情況下,這兩個組件被集成在同一個計算平臺上,以確保許多基于SCADA網絡的控制系統回路所需的高性能和低延遲。
圖5. 集成EXata-HYPERSIM數字孿生。
諸如此類的IDT有助于促進對組件和技術之間相互作用的廣泛理解,以防止、減輕并最終從系統中斷中恢復。雖然網絡和受控物理系統的獨立模擬可以提供有用的見解,但在IDT中,模型之間相互作用,提供共享的時間和元數據來描述整個系統狀態。這使分析人員能夠測試局部事件在整個系統中傳播的影響,提高系統的整體保真度。
EXata-HYPERSIM IDT被用來復制烏克蘭的三個區域電力控制系統是如何被網絡攻擊破壞的,導致大范圍的停電長達6小時。這種對電話系統的拒絕服務攻擊阻礙了運營商的通信,使情況進一步復雜化。只有當技術人員被派往子站手動控制電力系統時,電力才最終得到恢復。
對停電和攻擊的分析確定,子站的串行到以太網轉換器的固件被破壞。機房和電話系統的不間斷電源(UPS)被遠程關閉,許多電腦的硬盤被破壞。對電力系統的攻擊是分階段進行的,16其中后期的攻擊依賴于早期的成功入侵。攻擊者首先利用魚叉式網絡釣魚郵件滲入IT網絡,安裝惡意軟件,對公司網絡進行全面偵察和列舉,發現和訪問活動目錄服務器,并竊取證書。然后,攻擊者利用企業網絡和OT網絡之間不恰當的防火墻配置,訪問HMI服務器,在被攻擊的工作站上安裝后門,從HMI操作員那里獲得控制權,并打開斷路器,破壞電力分配。
對這一鏈條進行建模是確定適當的緩解措施的關鍵。圖6顯示了流經電網網絡的控制數據包的可視化,重點是電力系統網絡的大規模拓撲結構、各組件之間的相互連接以及流經每個環節的流量。網絡中斷和電力系統性能之間的關系在IDT中被高保真地模擬出來。發起的攻擊類型及其對協議和設備的影響被準確建模。此外,用于跟蹤電力系統運行的指標中的瞬態,在中斷之前和之后,都被高保真地建模。這些指標包括中斷對中間系統電壓和公用事業輸出頻率的影響,以及由于斷開命令導致的電力輸出變化。因此,IDT促進了對電網組件和互連網絡的完整的端到端表示。
圖6. 電網網絡中控制包的可視化。
在多域戰場上,作戰人員依靠地理上分散的、由傳感器、平臺和武器系統組成的連接網絡,在嚴酷和有爭議的環境中執行任務。連接傳感器、C2和武器系統的網絡構成了任務的關鍵組成部分,因為人類的決策從根本上依賴于它來包含、提取和傳播時間敏感的、與任務相關的信息,以決定性地戰勝對方的力量。
盡管網絡性能、安全性和完整性對系統的正確運行至關重要,但網絡本身也暴露了攻擊面,并受到破壞和網絡攻擊。由于需要快速部署和重新配置任務網絡以應對現代戰斗空間中快速變化的條件,這個問題變得更加嚴重。
這些問題不僅僅是軍事領域所特有的,而是滲透到今天的許多互聯系統中,包括關鍵基礎設施、智能運輸、物聯網、網絡物理系統和企業網絡。敵人可以對這些網絡系統中的任何一個發起網絡攻擊,并對日常生活的許多領域造成嚴重破壞。
本文考慮了網絡數字孿生的適用性,它有可能使用現場、虛擬和構造模型的組合,來評估任務的網絡彈性。我們通過一組使用案例,展示了網絡數字孿生如何在整體生存能力的背景下,基于對對手在多領域任務操作中如何部署網絡威脅的理解,促進這種分析。總之,網絡數字孿生提供了以下主要好處。
我們相信,將網絡數字孿生體與基于虛擬機的網絡范圍相整合,為進一步進行此類分析提供了一個強大的平臺。這種整合可以提供一個兩全其美的測試平臺能力:網絡范圍可以用來測試真實的攻擊,以利用基于虛擬機的主機上的真實漏洞,而像EXata這樣的網絡數字孿生平臺可以準確和更容易地模擬主機之間的(無線)網絡。因此,在網絡范圍內不容易建模的各種網絡和操作條件都可以被建模,特別是包括衛星和其他無線設備的網絡。
隨著最近在敘利亞、納戈爾諾-卡拉巴赫和烏克蘭的沖突,無人駕駛航空系統(無人機)已經成為人們關注和辯論的話題。這些小型且相對便宜的系統在復雜性、速度和有效載荷承載能力方面繼續增長。飽受戰爭蹂躪地區的公民業余愛好者繼續尋找方法,成功地將第1組無人機系統軍事化,尋求進行秘密的空中監視,最近還使用世界各地軍隊普遍使用的人造小當量彈藥進行精確打擊。在許多情況下,愛好無人機的飛行者變成了好戰的戰斗人員,他們使用簡易爆炸物,對點狀目標進行毀滅性的打擊。
這些新的戰術和技術已經變得令人震驚,對美國本土構成了真正的威脅。隨著這些沖突的繼續,戰術和技術通過社交媒體被分享,使潛在的內部持不同政見者有機會在我們的邊界內進行恐怖主義和破壞活動。下一章包含了一些最近的使用案例,在這些案例中,無人機被成功地用來對付其預定的目標,使用的方法從簡單的自制炸藥到投擲迫擊炮彈和自制燃燒彈,再到無人機被用來游蕩,自行獵殺目標,并隨意迅速地進行打擊。
軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。
兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。
軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。
1.訓練用的兵棋推演
最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。
2.用于分析的兵棋推演
兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。
3.實驗性的兵棋推演
在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。
4.兵棋推演的好處
盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。
這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。
人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。
美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。
基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。
雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。
問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。
除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。
這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?
本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。
雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。
兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。
本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。
本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。
本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。
目標姿態估計和目標點選擇在直接能量武器系統中至關重要,因為它使系統能夠指向目標的特定和戰略區域。然而,這是一項具有挑戰性的任務,因為需要一個專門的姿態傳感器。在新出現的深度學習能力的激勵下,本工作提出了一個深度學習模型,以歐拉角的方式估計目標航天器的姿態。深度學習模型的數據是通過實驗從三維無人機模型中產生的,其中包括大氣背景和湍流等效應。目標姿態來自于二維關鍵點的訓練、驗證和預測。有了關鍵點檢測模型,就有可能檢測到圖像中的興趣點,這使我們能夠估計有關目標的姿勢、角度和尺寸。利用弱透視直接線性變換算法,可以從三維到二維的對應關系中確定三維物體相對于攝像機的姿勢。此外,從這種對應關系中,可以確定目標上的瞄準點,模仿激光跟蹤。這項工作評估了這些方法及其在模擬真實世界環境中實驗產生的數據的準確性。
混合戰爭為沖突推波助瀾,以削弱對手的實力。相關的行動既發生在物理世界,也發生在媒體空間(通常被稱為 "信息空間")。防御混合戰爭需要全面的態勢感知,這需要在兩個領域,即物理和媒體領域的情報。為此,開源情報(OSInt)的任務是分析來自媒體空間的公開信息。由于媒體空間非常大且不斷增長,OSInt需要技術支持。在本文中,我們將描述對物理世界的事件以及媒體事件的自動檢測和提取。我們將討論不同類型的事件表征如何相互關聯,以及事件表征的網絡如何促進情景意識。
開源情報(OSInt)的任務是探索和分析可公開獲取的媒體空間,以收集有關(潛在)沖突的信息,以及其他主題。所謂 "媒體空間",我們指的是通過傳統媒體(如電視、廣播和報紙)以及社交媒體(包括各種網絡博客)傳播的非常龐大、快速且持續增長的多語種文本、圖像、視頻和音頻數據語料庫。社會媒體大多是平臺綁定的。平臺包括YouTube、Twitter、Facebook、Instagram和其他[1,2]。在很大程度上,媒體空間可以通過互聯網訪問。很多部分是對公眾開放的。然而,也存在一些半開放的區域,其中有潛在的有價值的信息,但并不打算讓所有人都能接觸到,例如Telegram和Facebook頁面。
媒體空間提供關于物理世界的信息:發生了什么?哪些事件目前正在進行?未來計劃或預測會發生什么?它對物理世界的事件反應非常快,也就是說,幾乎是立即提供信息[3]。因此,媒體空間似乎是物理世界中事件的一個有希望的 "傳感器"。然而,從鋪天蓋地的大量信息中檢索出特別相關的信息仍然是一個挑戰,因為到目前為止,所提供的大多數信息是完全不相關的,至少對軍隊來說是如此。此外,媒體空間并不一致--它包括真實和虛假信息,因此,事實核查是一個進一步的挑戰。
除了作為物理世界的傳感器,媒體空間還是意識形態、意見和價值觀的論壇。它是一個重要的空間,用于協商一個社會認為是允許的、規定的或禁止的東西,并用于表現情緒和偏見。因此,它已成為混合戰爭的戰場,即以 "通過暴力、控制、顛覆、操縱和傳播(錯誤的)信息"([4],第2頁)為目的進行的行動。(錯誤的)信息行動導致我們稱之為 "媒體事件"。媒體事件可以被觸發,以影響情緒、意識形態和公眾對物質世界的看法。
研究了一種新型的射頻(RF)輔助算法,用于在具有小尺寸麥克風陣列傳感器的情況下對無人駕駛飛行器(UAV)進行聲學識別和定位,其中聲學信號的多通道處理得到了射頻功率模式分析的幫助。不明身份的無人機的螺旋槳產生的噪聲可以用來獲得關于它的一些線索,因為具有不同尺寸、重量或機械特性的無人機產生不同的聲學信號。具體來說,在這項工作中,由多通道麥克風陣列檢測到的聲學信號的光譜特征被用來識別無人機。此外,射頻信號由Wi-Fi天線發射,并測量接收信號強度(RSS)以協助聲學定位。到達方向(DOA)和與聲源的距離都可以被預測。提出了一個解決方案,其中一個四階段卷積神經網絡(CNN)通過其聲譜特征進行無人機識別,并通過內在特征提取、射頻和聲學特征的融合以及回歸產生射頻輔助聲學定位。應用是反無人機監測策略,從飛行的無人機反對非法使用無人機和外部無人機攻擊。提出了一個集中式架構,用于從多個空中節點獲取數據和流。一個名為Zylia的19通道球形麥克風陣列被采用。為了分析這項研究的現狀,提出了實驗與結果描述。
我們解決的問題是檢測作為聲源的不明無人機的存在,通過處理螺旋槳噪聲產生的聲學信號在不同的無人機中識別它,并通過估計聲學信號的到達方向(DOA)和與無人機的距離對無人機進行定位。我們提出了一個解決方案,其中聲學處理得到了射頻(RF)傳輸模式分析的幫助。這樣,當聲學定位前端檢測到來自射頻天線組件估計方向的聲學活動時,聲源定位可以得到完善,并通過波束成形增強記錄信號。這是因為,當使用安裝在多旋翼無人機(UAV)上的小尺寸麥克風陣列進行聲學記錄時,如[1,2,3],由于對麥克風陣列尺寸的限制,可能導致信號-噪聲增強不佳、空間分辨率低和空間信息不完整等問題,對感興趣的聲源的處理和信號增強變得特別具有挑戰性。為了解決這些限制,最近在[4,5]中介紹了一種新的基于射頻的聲源定位處理方法,該方法也能進行距離估計,但沒有引入識別能力。因此,我們現在研究射頻輔助算法的性能,該算法也能識別未識別的空中聲源。我們的算法可以應用于針對非法使用無人機和外部無人機攻擊的反無人機監測策略[6,7],即使是在敵對環境中。
最近,深度學習(DL)和深度神經網絡(DNN)研究領域的發展所帶來的計算和性能上的進步,促進了文獻中無人機識別算法的增加,如[8,9,10]。特別是,已經證明主要由螺旋槳、馬達和機體的機械振動產生的綜合聲學信號具有足夠獨特的特征,可以用來在現實的開放世界條件下在一些無人機類別中識別無人機類型。DL和DNN也被研究用于涉及多通道聲學處理的各種應用,如[11,12]和[13]中,多通道頻譜相位信息被用作卷積神經網絡(CNN)的輸入,用于DOA估計。在我們的研究中,一個基于CNN的四級網絡的算法的性能被引入到識別和定位任務中。兩個平行階段處理射頻數據和聲學數據的內在特征。第三階段進行聲源識別,第四階段進行回歸。這種算法既能產生無人機識別,又能對DOA和與聲源的距離進行聯合預測。本文對這一研究的現狀進行了討論。
為了研究我們的方法,我們用兩個不同的無人機產生的實驗聲學數據和來自分布式天線陣列的合成射頻數據創建了一個半模擬的場景。麥克風陣列是一個19通道的球形陣列,能夠進行三維聲學場景分析。還提出了一個實驗性的傳感器數據流架構,其中只有小尺寸和低成本的硬件用于采集系統和機載處理單元,稱為單板計算機(SBC),將數據流向地面站(GS),在那里可以用高計算能力進行基于CNN的定位處理。
胸部 X 射線 (CXR) 成像是當今放射科最常見的檢查類型。自動疾病分類可以幫助放射科醫生減少工作量并提高患者護理質量。醫學圖像分析在過去十年中經歷了范式轉變,這主要歸功于卷積神經網絡 (CNN) 在許多圖像分類、分割和量化任務中實現超人性能的巨大成功。 CNN 正在應用于 CXR 圖像,但在臨床環境中應用時,高空間分辨率、缺乏具有可靠基本事實的大型數據集以及種類繁多的疾病是重大的研究挑戰。值得注意的是,這些挑戰激發了本論文的新穎貢獻。
本論文對 CNN 的四個主要設計決策進行了系統評估和分析:損失函數、權重初始化、網絡架構和非圖像特征集成。為了利用年齡、性別和視圖位置等信息,提出了一種整合這些信息以及學習圖像表示的新穎架構,并為 ChestXray14 數據集產生了最先進的結果。此外,研究了兩種先進的圖像預處理技術以提高 CNN 的性能:骨抑制(一種從 CXR 中人工去除胸腔的算法)和自動肺野裁剪(一種提高 CNN 輸入分辨率的方法)。兩種方法結合起來略微增加了 OpenI 數據集的平均結果。最后,**開發了一個框架來研究用于智能工作列表優先級的 CNN,是否可以優化放射學工作流程,**并減少 CXR 中關鍵發現的報告周轉時間 (RTAT)。仿真表明,使用 CNN 進行緊急優先級排序可以將氣胸等關鍵發現的平均 RTAT 降低兩倍。總之,對特定的設計決策進行了改進,例如網絡架構、圖像預處理和使用小型數據集進行 CXR 分析的訓練。結果用于證明關鍵發現的平均 RTAT 顯著降低,這可以大大提高患者護理的質量。
在英國,護理質量委員會最近報告說,在過去的 12 個月中,僅亞歷山德拉女王醫院一名訓練有素的放射科專家就沒有對總共 26,345 次胸部 X 光 (CXR) 和 2,167 次腹部 X 光進行正式審查。結果,三名肺癌患者因胸部 X 光檢查未得到適當評估而遭受重大傷害 [Care Quality Commission, 2017]。
圖 2.2:典型的檢查類型,其中兩個對應的胸部 X 射線圖像取自一名患者。 (a) 顯示正面 PA 胸部 X 光片和 (b) 側面胸部 X 線片。在兩張 X 光片中,可以看到解剖結構:(1) 氣管、(2) 鎖骨、(3) 肩胛骨、(4) 肋骨、(5) 心臟、(6) 橫膈膜和 (7) 構成脊柱的椎骨.示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016]。
圖 2.3:基于氣胸的高分辨率和低分辨率胸部 X 光片的比較。 (a) 以 2828 × 2320 像素的全圖像尺寸顯示原始胸部 X 光片。在 (b) 中,顯示了 (a) 的兩個區域,放大了 10 倍。黃色箭頭指向胸膜邊緣,表示氣胸。為了比較,(c) 顯示 (a) 通過雙線性插值縮小到 256 × 256 像素的圖像大小。 (d) 顯示與 (b) 相同的放大區域,胸膜邊緣不再可見。示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016] (ID: 3378)。
作為一種診斷工具,醫學成像是近幾十年來醫學領域最具革命性的進步之一。通過提供人體內部的視覺表示,醫學成像可以幫助放射科醫生做出更早、更準確的診斷。因此,可以更有效地治療疾病以提高患者護理質量。多年來,醫學成像在測量速度、空間分辨率和對比度方面都有所提高。擁有這個有用的工具需要有足夠的能力讓專家放射科醫生評估相關數據。我們已經遇到了無法讓放射科醫生審查所有 X 射線圖像的情況 [Care Quality Commission, 2017;皇家放射學院,2018]。隨著各種醫學成像模式產生的數據量不斷增加 [Kesner et al., 2018] 和不斷增長的世界人口 [United Nations DESA, 2019],預計對專家閱讀能力的需求將會增加。在放射科可用的成像方式中,平片是最常見的,而胸部 X 射線是最常見的檢查類型 [Bundesamt für Strahlenschutz, 2020; NHS 英格蘭,2020]。
自動圖像分析工具使放射科醫生能夠顯著減少他們的工作量并提高患者護理質量。早期的方法通常結合手工特征表示和分類器。不幸的是,開發特征提取方法需要大量的領域專業知識,并且通常是一個耗時的過程。然而,深度學習可能會改變這些要求。2012年Krizhevsky 等人[2012] 提出了 AlexNet——一種卷積神經網絡——用于計算機視覺中的圖像分類,并在 ImageNet 挑戰賽中大獲全勝。由于計算能力的提高(即圖形處理單元(GPU)的并行計算)和大量可用數據,這是可能的。這種成功有助于復興神經網絡作為機器學習的一種方法,機器學習是人工智能 (AI) 的一個子領域。在計算機視覺中,深度學習已經證明了它能夠以超人類的準確度分析圖像 [He等人, 2016;Simonyan等人,2015; Szegedy 等人,2014 年;Tan等人,2019]。醫學圖像分析領域正在深入探索深度學習。
以下段落概述了本文的結構,并概述了每一章及其貢獻。第 2 至第 4 章總結了背景信息和重要文獻。然后,第 4 章到第 7 章介紹了為本論文進行的研究。最后,第 8 章以總結和對未來的展望結束了本文。
第 2 章簡要介紹了醫學成像及其自動化分析。此后,對深度學習的胸部 X 射線分析進行了全面回顧。作為深度學習快速發展的最重要推動力之一,我們討論了 ChestX-ray14 [Wang et al., 2017] 和 OpenI [Demner-Fushman et al., 2016] 等開源數據集。隨后討論了由自然語言處理 (NLP) 生成的噪聲注釋以及高分辨率胸部 X 射線數據所帶來的挑戰。最后,我們在當前挑戰的背景下檢查了胸部 X 射線分類的臨床應用。
第 3 章概述了神經網絡的歷史動機和時間順序。解釋了它們的基本元素——人工神經元,并討論了不同類型的激活函數。隨后,解釋了前饋神經網絡的原理以及分類與回歸任務之間的差異。為了計算最佳權重參數變化——并作為神經網絡的更新規則——Rumelhart 等人。 [1986] 提出了反向傳播。最后,本章解釋了梯度下降如何用作神經網絡的優化技術,并概述了該方法在神經網絡優化方面的重大改進。
第 4 章描述了標準前饋神經網絡的主要變化,這些變化導致了深度神經網絡及其在高維信號中的成功應用——尤其是在圖像處理中。解釋了卷積神經網絡作為分層特征提取器的基本理解以及在高維圖像中的應用。為了實現這一點,提出了最先進的網絡架構(例如,卷積、池化和歸一化層)的重要構建塊。當在非常深的網絡中天真地堆疊層時,使用梯度下降進行優化存在梯度爆炸和消失的風險。梯度消失通過殘差連接和密集連接架構來解決——這兩者都允許堆疊額外的層。這種高級模型通常有數百萬個參數需要訓練;因此,它們很容易過度擬合訓練數據。出于這個原因,數據增強通常用于人為地擴大數據集。這也有助于提高神經網絡的泛化性,因為模型對于仿射變換變得不變。訓練模型后,評估其泛化能力和性能非常重要。首先,不同的重采樣方法(例如,k 折交叉驗證或蒙特卡洛子采樣)可以將數據集拆分為訓練測試子集,這有助于泛化評估。其次,使用接收器操作曲線和精確召回曲線等評估指標來量化模型在疾病分類中的性能。
第 5 章深入介紹了不同的訓練方法及其在胸部 X 線疾病分類中的應用。在該領域的先前工作的基礎上,考慮了遷移學習,無論是否進行微調,以及從頭開始訓練專用 X 射線網絡。由于 X 射線數據的高空間分辨率,我們提出了一種經過調整的 ResNet-50 架構,具有更大的輸入尺寸,并與其他模型相比展示了其優越的性能 [Baltruschat et al., 2019c]。由于放射科醫師通常包含比胸部 X 射線更多的信息來進行診斷,因此模型架構會進一步改變,并且引入了一種新模型以包含有助于患者信息采集的非圖像特征。最后,通過使用 Grad-CAM 分析模型,突出了 ChestX-ray14 數據集的局限性。這些發現激發了以下章節的貢獻。
圖 5.5:兩個示例圖像的 Grad-CAM 結果。在頂行中,氣胸的位置用黃色框標記。如旁邊的 Grad-CAM 圖像所示,模型對預測的最高激活位于正確區域內。第二行顯示了一個負例,其中負責最終預測“氣胸”的最高激活位于排水管。排水管標有黃色箭頭。這表明經過訓練的卷積神經網絡將引流檢測為“氣胸”的主要特征。
圖 5.6:本論文中最佳模型與其他組的比較。病理按照所有組的平均 AUROC 增加進行分類。對于本文提出的模型,將所有折疊的最小和最大 AUROC 報告為誤差條,以說明隨機數據集拆分的影響。
第 6 章處理胸部 X 射線數據的標準化,以在小型數據集(即只有幾千個樣本)上進行訓練——OpenI 數據集 [Demner-Fushman 等人,2016 年]。此外,還研究了增加輸入數據分辨率對神經網絡的影響。手動標記的數據集通常具有較小的樣本量——盡管 OpenI 數據集是最大的數據集之一(3,125 張圖像)——這使得從頭開始訓練深度神經網絡變得復雜。作為第一種預處理方法,提出了基于分割和邊界框計算的肺野裁剪。這一步驟大大減少了胸部 X 射線外觀的變化,并提高了它們作為輸入圖像的分辨率,因為縮小的因素也降低了。第二種方法是骨抑制,可以通過從胸部X光片中去除骨骼結構來減少信息疊加。值得注意的是,這兩種方法都有助于提高疾病分類性能 [Baltruschat et al., 2019e]。此外,本章概述了放射科專家為胸部 X 光片生成注釋的過程以及與觀察者間變異性相關的問題 [Ittrich et al., 2018; Steinmeister 等人,2019]。
圖 6.2:肺田間種植方法概述。原始胸部 X 射線圖像 (a) 由中心凹卷積神經網絡處理以生成肺野分割 (b)。 (c) 以紫色顯示計算的兩個最大連接區域周圍的邊界框。在(d)中,由于分割掩碼中的錯誤,藍色區域強調了邊界框的安全區域。 (e) 顯示了最終的裁剪圖像,(f) 顯示了骨抑制和肺野裁剪的組合。
圖 6.3:用于組合高級預處理圖像的集成方法。四個 ResNet50-large 模型在不同的圖像數據上進行了訓練:原始、軟組織、肺野裁剪 (LFC) 和使用 LFC 的骨抑制 (BS)。每個模型預測了測試集 Ntest 中五個裁剪圖像(即中心和所有四個角)的分數,具有八個類別。此后,對所有模型的預測分數進行平均,以獲得最終的多標簽分類結果。
圖 6.6:正常訓練模型 (a) 和使用預處理圖像訓練的模型 (b) 的 Pearson 相關系數。正常模型之間的相關性已經很高,除了模型“Normal-2”,它似乎收斂到不同的最優值。使用預處理圖像訓練的模型具有較低的相關性(大約 92%)。這表明(b)中顯示的模型的集合可以對分類性能產生更大的影響。
第 7 章介紹了將深度學習的疾病分類轉化為特定的臨床應用。在獲得胸部 X 光片后,通常會將它們分類到工作清單中。根據每個放射科的工作流程,該工作清單按采集時間或手動優先級標簽進行排序,并且在很大程度上,放射科醫生按順序處理他們的工作清單項目。因此,工作清單只按照先進先出的原則進行處理。一種最先進的胸部 X 光疾病分類算法可以自動分配優先級標簽,這可以大大改善工作列表的排序。本章介紹了一種用于模擬臨床工作日的新穎模擬框架,它突出了自動優先工作列表的效果。該框架使用來自漢堡-埃彭多夫大學醫學中心的經驗數據,可以模擬一個臨床工作日,其中包括胸部 X 射線生成過程、胸部 X 射線的自動疾病分類以及放射科醫師生成最終報告所需的時間 [ Baltruschat 等人,2020b]。值得注意的是,使用了第 5 章和第 6 章中提出的用于胸部 X 線疾病分類的改進方法。
圖 7.6:報告所有八種病理結果和正常檢查的周轉時間 (RTAT),基于四種不同的模擬:FIFO(綠色)、Prio-lowFNR(黃色)、Prio-lowFPR(紫色)和 Prio-MAXwaiting(紅色),最長等待時間(淺紫色)。綠色三角形標記平均 RTAT,而垂直線標記中值 RTAT。每個 simu 的最大 RTAT。
第 8 章總結了論文及其主要貢獻。它還提出了本文提出的新問題。
圖 8.1:來自中心靜脈導管數據集的示例圖像。原始圖像 (a) 顯示在左側,相應的分割結果 (c) 顯示為右側的疊加層。藍色代表心臟,綠色代表肺,青色代表鎖骨,棕色突出導管。
?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!
地址:
//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132
摘要
雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。
1. 概述
深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。
圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。
深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。
對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。
由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。
大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。
2. 圖像分類技術
在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。
2.1 分類方法
監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。
圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。
監督學習 Supervised Learning
監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。
遷移學習
監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。
遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。
半監督學習
半監督學習是無監督學習和監督學習的混合.
Self-supervised 自監督學習
自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。
2.2 分類技術集合
在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。
一致性正則化 Consistency regularization
一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。
虛擬對抗性訓練(VAT)
VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。
互信息(MI)
MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。
熵最小化(EntMin)
Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。
Overclustering
過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。
Pseudo-Labels
一種估計未知數據標簽的簡單方法是偽標簽
3. 圖像分類模型
3.1 半監督學習
四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。
3.2 自監督學習
四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗
3.3 21種圖像分類方法比較
21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。
4. 實驗比較結果
報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。
5 結論
在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。
我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。
ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。
監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。
我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。
參考文獻:
[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.
[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.
[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.
[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.
[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.