本報告概述了在基于模型的自適應目標跟蹤以及識別來自電磁干擾(EMI)源的衛星欺騙和干擾攻擊方面所做的研究工作。我們假設可以利用不同電磁干擾源的射頻(RF)特征來識別和跟蹤主動和被動電磁干擾源。射頻信號被輸入一個基于模型的深度神經網絡(DNN),該網絡可對不同物體進行分類和跟蹤。
我們的初步結果表明,對于有源電磁干擾源,即使用不同調制方案發射射頻信號的源,使用 DNN 識別電磁干擾源射頻調制方案的準確性在很大程度上取決于射頻信號的質量,而射頻信號的質量又是信道的函數。特別是,如果信道是視距信道,且信噪比(SNR)較大,則調制類型的分類準確率很高(> 95%)。另一方面,如果信道參數未知和/或波動較大,信噪比較低,則分類準確率較低(< 60%)。調制類型識別的性能使我們得出結論,在現實世界中基于調制類型的目標跟蹤將非常困難。因此,這項研究的主要工作集中在使用有源雷達對無源信號源進行分類,并以人員計數系統為原型。
我們沒有使用模擬,而是在實驗室建立了一個小規模的測試環境來驗證假設。我們提出的人員計數系統使用多個發射天線,通過發送毫米波雷達啁啾掃描環境。物體反彈回來的信號由多個接收天線接收、處理并存儲到數字數據庫中。然后,我們對數字數據進行特征提取,并將特征輸入卷積神經網絡,以進行物體分類和跟蹤。在這些實驗中,我們將行走的人視為移動物體。我們的初步結果表明,在有限的環境中(如實驗室環境),卷積神經網絡可以利用射頻信號準確識別不同的目標(> 95%)。
許多科學和工程學科都對目標識別和跟蹤進行了深入研究[1][2][3][4][5]。從用于早期探測和跟蹤飛行中導彈的全球定位系統(GPS)[6][7][8] 到自動駕駛汽車[9],它們都是許多技術的基礎組件。此外,未來的無線通信系統使用大規模多輸入多輸出(MIMO)波束成形[10]和自由空間光學(FSO)通信技術[11][12][13],使發送方能夠通過將射頻光束或激光束直接聚焦到接收方來傳輸數據。這些聚焦傳輸提高了信噪比(SNR),降低了所需的發射功率以及多用戶干擾。然而,聚焦傳輸在很大程度上依賴于準確跟蹤和識別接收器位置的能力。
傳統的物體跟蹤和識別技術都是基于模型的,這是因為其數學上的優雅和高效,也許更重要的原因是缺乏訓練數據。基于模型的方法通過數學模型將有關問題的先驗知識納入其中,這些先驗知識或基于物理定律,或基于成熟的直覺,以捕捉物體的動態和屬性,從而實現精確的跟蹤和分類。因此,基于模型的方法在許多只需幾個參數就能精確建模的環境中非常有效。卡爾曼濾波器就是基于模型方法的一個典范 [14][15][16]。卡爾曼濾波器在許多應用中都取得了成功,特別是在跟蹤受噪聲觀測影響的目標時。卡爾曼濾波器在跟蹤中取得成功的關鍵在于將目標動態(如速度、加速度等)的精確數學模型與這些值的經驗實時噪聲測量相結合。卡爾曼濾波器根據增量測量/觀測數據和假定的數學模型動態,通過一組更新參數值的遞推方程,高效(快速)地估計模型參數。
用于跟蹤的卡爾曼濾波器的一個主要缺點是,其性能在很大程度上取決于基于一些合理假設(如物理定律或經驗)的所謂精確數學模型。然而,如果數學模型不夠豐富,無法捕捉所考慮環境的所有微小細節,那么卡爾曼濾波器的最佳性能就會受到所考慮的數學模型系列的限制。
為此,本研究調查了用于識別和跟蹤物體的深度神經網絡(DNN)。DNN 是一類基于人工神經網絡(ANN)的機器學習方法,在現實世界的許多應用場景中都表現出色。DNN 架構允許模型從大型數據庫中學習難以用數學建模的復雜動態和特征。
本節將介紹兩項不同的工作。第一項工作是使用不同類型的卷積神經網絡 (CNN) 檢測 EMI 源的射頻調制類型。這項研究完全在 Matlab 仿真環境中完成。第二項研究是利用有源雷達系統的射頻信號作為 3-D CNN 的輸入,檢測房間內的人數并跟蹤他們。這類系統通常被稱為人員計數系統 [17][18][19]。與第一個系統不同的是,所有射頻信號都不是模擬的。相反,它們是使用基于 MIMO 的毫米波雷達系統實時收集的。接下來,我們對原始數據進行特征提取,并將特征輸入三維卷積神經網絡以檢測人數。
本報告概述了我們在基于模型的自適應目標跟蹤以及識別來自電磁干擾(EMI)源的衛星欺騙和干擾攻擊方面所做的研究工作。我們假設可以利用不同電磁干擾源的射頻(RF)特征來識別和跟蹤主動和被動電磁干擾源。射頻信號被輸入一個基于模型的深度神經網絡(DNN),該網絡可對不同物體進行分類和跟蹤。
我們的初步結果表明,對于有源電磁干擾源,即使用不同調制方案發射射頻信號的源,使用 DNN 識別電磁干擾源射頻調制方案的準確性在很大程度上取決于射頻信號的質量,而射頻信號的質量又是信道的函數。特別是,如果信道是視距信道,且信噪比(SNR)較大,則調制類型的分類準確率很高(> 95%)。另一方面,如果信道參數未知和/或波動較大,信噪比較低,則分類準確率較低(< 60%)。調制類型識別的性能使我們得出結論,在現實世界中基于調制類型的目標跟蹤將非常困難。因此,這項研究的主要工作集中在使用有源雷達對無源信號源進行分類,并以人員計數系統為原型。
我們沒有使用模擬,而是在實驗室建立了一個小規模的測試環境來驗證假設。我們提出的人員計數系統使用多個發射天線,通過發送毫米波雷達啁啾掃描環境。物體反彈回來的信號由多個接收天線接收、處理并存儲到數字數據庫中。然后,我們對數字數據進行特征提取,并將特征輸入卷積神經網絡,以進行物體分類和跟蹤。在這些實驗中,我們將行走的人視為移動物體。我們的初步結果表明,在有限的環境中(如實驗室環境),卷積神經網絡可以利用射頻信號準確識別不同的物體(> 95%)。
圖 4. 從射頻信號中提取特征。特征/物體包含已識別物體的數量、其多普勒速度、其 x、y、z 位置和相對信噪比。
研究目的是利用相鄰視頻幀來提高卷積神經網絡(CNN)分類器對受壓目標的魯棒性。我們確定并下載了可適度改變縱向角度的目標視頻片段。軍用車輛目標類別的視頻片段以前曾用于通過遷移學習對預訓練的 CNN 進行微調。我們從這些視頻片段中獲得了幀序列,每幀中的目標都受到了不同的連貫應力。我們沒有依賴于單幀圖像的分類,而是使用了分類器類別概率上的不同運行平均值和運行乘積,以提高分類的魯棒性,使其能夠在目標與傳感器的縱向角度發生變化時,不受所施加應力的影響。結果表明,當我們對輸出類概率使用移動平均/乘積濾波器時,分類器的穩健性發生了適度變化。當對少量元素進行平均時,這種穩健性的提高最為明顯,而當我們應用的濾波器元素數量增加時,穩健性又恢復了穩定(穩健性提高)。
由于用于訓練卷積神經網絡(CNN)的圖像與 CNN 將嘗試分類的圖像存在差異,因此軍事系統中使用的人工智能分類器與商業行業中使用的人工智能分類器有些不同。這些差異可能是有意的,也可能是無意的,即使是訓練有素的分類器最終也會因為目標圖像無法識別而失效。
我們的目標是使這些 CNN 分類系統對目標應力具有更強的魯棒性,以擴大其在戰場環境中的應用,因為在戰場環境中,目標會被有意隱藏和改變,傳感器會被遮擋,敵對分子會有意干擾傳感器圖像。CNN 模型的分類效果和魯棒性已在很大程度上得到了優化,目前最先進的 CNN 正處于高原狀態。
CNN 分類器必須經過識別目標的訓練才能對目標進行分類。由于施加在目標上的應力可能多種多樣,要針對戰場上可能出現的各種類型和強度的目標應力訓練軍用 CNN 分類器既困難又不切實際;因此,必須找到其他方法來提高分類器對戰場應力的魯棒性。目前正在進行分類器融合和傳感器融合分類的研究。研究人員以前曾構建過 CNN 架構,利用視頻剪輯的時間方面來訓練 CNN,并直接從視頻中對物體進行分類,但大部分工作都花在了提高算法過程的效率上,在實施之后,研究人員發現,雖然從視頻中訓練 CNN 的效率提高了,但分類效果并沒有顯著改善。
在本報告中,我們使用多個傳感器圖像來擴大 CNN 分類器在分類目標高度緊張時的分類成功范圍。我們使用相鄰幀的傳感器視頻,并不是在每一幀中對目標進行分類,而是將分類器的分類概率加總平均,然后選擇概率最大的一類作為正確答案。我們相信,這將增加在壓力環境下成功分類的幾率。由于每個類別的分類概率從 0 到 1 不等,因此也可以使用移動積濾波器來提高分類的成功率。移動平均濾波器和移動乘積濾波器中的元素數量也可以改變,以檢測其最佳長度。
我們假設,隨著相鄰幀的使用,特別是當目標相對于傳感器的方位角逐漸變化時,目標上方的相對應力位置可能會發生變化,從而揭示出分類器用于正確分類目標的新特征。
這種想法與雷達信號疊加的做法類似,即把雷達回波疊加在一起,以增加目標的響應并減少系統噪聲。如果我們將其應用到相鄰視頻幀的分類中,如果我們在受壓環境下的目標分類中使用移動平均值和移動乘積,那么我們或許就能開發出更穩健的分類方法。
為了驗證這一假設,從網上下載了軍用陸地車輛的視頻剪輯。選擇的車輛視頻片段與之前開發的軍用車輛訓練數據庫相吻合,該數據庫用于在壓力環境下進行 CNN 分類分析。我們特別尋找了能以緩慢變化的視角顯示目標的視頻片段。利用預訓練 CNN 的遷移學習開發的六個類別如下:
目前的自動空中加油(AAR)工作利用機器視覺算法來估計接收飛機的姿勢。然而,這些算法取決于幾個條件,如精確的三維飛機模型的可用性;在沒有事先給出高質量信息的情況下,管道的準確性明顯下降。本文提出了一個深度學習架構,該架構基于立體圖像來估計物體的三維位置。研究了使用機器學習技術和神經網絡來直接回歸接收飛機的三維位置。提出了一個新的位置估計框架,該框架基于兩個立體圖像之間的差異,而不依賴于立體塊匹配算法。分析了其預測的速度和準確性,并證明了該架構在緩解各種視覺遮擋方面的有效性。
圖3:利用的坐標系統。紅軸代表X軸,綠軸代表Y軸,藍軸代表Z軸。所有顯示的箭頭表示該軸上的正方向。
該研究項目解決了下一代自主蜂群網絡系統的分布式控制和優化的挑戰,其中快速變化和超動態的網絡狀態(如網絡拓撲結構、頻譜和信道狀態信息、數據緩沖區排隊狀態等)需要分布式優化算法的快速收斂和低延時。最近基于PI對網絡控制和優化的研究,利用二階信息(SOI),在這個研究計劃中,我們提出了一系列新的分布式算法技術,與傳統方法相比,在收斂速度和排隊延遲方面都有數量級的改進,同時達到了同樣的可證明的網絡效用優化。
具體來說,我們在這個項目中的研究任務集中在基于動量(Heavy-ball)的聯合擁堵控制和多路徑路由(部分SOI)的EMANE仿真實現上。我們提出的研究計劃采取了一種綜合的、整體的方法,從數學建模、優化理論、控制理論、排隊理論和隨機分析等領域吸取技術。擬議的研究不僅將推進我們在下一代復雜網絡的算法設計方面的知識,而且還將通過探索基于SOI的網絡控制和優化的新領域來滿足一般網絡研究界的關鍵需求。
所提出的方法將影響廣泛的應用,如機載網絡和無人機系統的圖像/視頻,特別是在控制和優化行動不能承受大的延遲和緩慢收斂的系統。將尋求與AFRL進行實質性的合作,以促進這一研究工作的潛在過渡途徑。
圖1:在高度動態的無線網絡下,無人機系統通信有嚴格的延遲要求。
隨著部署在戰場上的通信網絡的激增以及它們所產生的大量移動數據,今天的無線網絡技術正被拉伸到極限。不僅戰術信息的爆炸性增長要求不斷增加網絡容量,大規模無線網絡的復雜協調也在實時控制和優化中引入了嚴格的延遲和收斂速度要求。為了設計高效的優化算法來應對新興的戰術無線網絡,一個關鍵的方面是有效地處理擁塞控制和鏈路調度之間的交叉互動,包括在協議棧層內和跨協議棧。因此,近年來出現了對戰術無線網絡的低延遲和快速轉換的聯合擁堵控制和調度算法的迫切需求。此外,聯合擁塞控制和路由優化不僅是信息網絡設計的要求,也是許多復雜網絡運行的核心問題,如智能電網需求響應[1-3]、供應鏈管理[4-7]、交通網絡流量控制[8, 9],僅舉幾例。
一個動機示例: 為了說明快速收斂、低延遲和分布式設計的重要性,我們在此以無人機系統網絡為例。控制和優化無人機系統網絡的一大挑戰來自于快速變化和高度動態的網絡狀態(如網絡拓撲結構、頻譜/信道狀態、數據緩沖區排隊狀態等),這使得傳統的擁堵控制、路由和頻譜訪問技術變得無效(見圖1的說明性例子)。這種高度動態的性質需要網絡控制和優化算法的快速收斂。否則,在完成緩慢的收斂過程后,網絡拓撲結構、頻譜/信道狀態信息和排隊狀態很可能被大大改變,使所有的計算結果和控制行動變得過時和無用。
使網絡控制問題更加嚴重的是,控制行動與需要實時傳輸大量數據的時間密切相關(例如,無人機系統圖像或視頻監控等)。因此,當數據到達量激增時,需要低延遲的網絡控制算法來避免過度延遲和大量的丟包(由于超時事件)。否則,可能會發生突然的大規模網絡中斷,這不僅會導致大范圍的不便,而且會導致毀滅性的戰斗失敗甚至是生命損失。此外,機載網絡的地理規模大,網絡子系統之間物理層技術的異質性,以及快速響應時間的要求,意味著控制和優化算法既不能集中,也不能有高的復雜性。這就要求開發出完全分布式的算法,以規避單點故障問題,簡單易行,又能達到可證明的優化性能。
由于移動數據需求的快速增長,近年來出現了大量關于資源分配的工作,旨在使無線網絡中的網絡效用最大化(例如,見[10-13],和[14]的調查)。這導致了一個優雅的數學分解框架,"松散耦合 "的擁堵控制、調度和路由算法自然而然地出現。這些算法不需要關于到達或信道狀態的統計知識。相反,它們只依賴隊列長度和信道狀態信息來做出控制決策。這些算法也與非線性優化理論中的拉格朗日對偶分解框架和子梯度方法有內在聯系[10, 11],其中(按比例)隊列長度可以被解釋為拉格朗日對偶變量,隊列長度更新起到子梯度方向的作用。
盡管這些基于隊列長度的算法(QLA)具有吸引人的特點,但它們受到了幾個關鍵的限制。首先,在現有的QLA框架中,已經證明了效用優化差距O(1/K)可以通過排隊延遲的O(K)懲罰來實現,其中K>0是一個系統參數。因此,一個小的效用優化差距需要一個大的K,并導致大的排隊延遲。為了解決這一局限性,近年來有大量的工作(如[13,15-17]等)集中在減少這些方案的排隊延遲上(后面對相關工作有更深入的討論)。同時,在現有的QLA框架中,基于隊列長度的權重調整忽略了目標函數輪廓的曲率,并且在每次迭代中使用小的步長[10-13],這導致收斂速度不理想。為了解決這個問題,最近提出了一些二階擁塞控制和路由/調度算法來提高收斂速度(見,例如,[18,19])。然而,由于其復雜的算法結構,這些二階方法需要更大的信息交換開銷,并且不能隨著網絡規模的擴大而很好地擴展。現有方法的這些限制促使我們在這個項目中追求一種新的重球設計。
更具體地說,在這個項目中,我們開發了一個基于重球的權重調整方案,在不影響網絡效用性能和不增加任何計算復雜性的情況下,大幅減少隊列長度,提高收斂速度。我們的方法是基于將隊列長度與權重分離的巧妙想法,然后使用一個權重更新方案,該方案只利用前一個時隙的權重變化的一個更多的記憶槽。令人驚訝的是,我們表明這個簡單的方案提供了兩個控制自由度,使我們能夠實現效用優化、低延遲以及快速收斂。
從歷史上看,重球法是由Polyak在20世紀60年代首次提出的[20],用于解決無約束的凸優化問題,其最初的目標是加速梯度下降法的收斂。重球法的基本思想是,不是只使用當前迭代的(子)梯度信息和完全不記憶過去迭代的軌跡,而是使用當前梯度(類似于 "勢")和上一步的更新方向(類似于 "動量")的線性組合來計算搜索方向。該方法是由物理學中描述重體在勢場中運動的二階常微分方程(ODE)激發的,并可被視為該方程的離散版本,因此被稱為 "重球(HeavyBall)"。在[21]中已經表明,通過適當地權衡當前的 "勢 "和 "動量",該算法對目標輪廓不敏感,這導致了更快的收斂。事實上,收斂加速的優勢是我們在無線網絡跨層優化中采用重球方法的第一個基本理由。但令人驚訝的是,我們隨后的研究表明,采用重球思想的好處遠遠超出了收斂加速的范圍。
然而,我們注意到,由于一些技術上的挑戰,為無線網絡中的效用最大化問題開發一個基于重球的解決方案并不簡單。首先,由于重球法最初是為無約束的靜態優化問題設計的,目前還不清楚如何為無線網絡效用最大化修改重球法,因為無線網絡是一個有約束的隨機優化問題,問題結構要復雜得多。其次,與QLA設計中隊列長度和拉格朗日對偶變量之間的明顯聯系不同,重球法與可觀測的網絡狀態信息(如隊列長度、信道狀態等)之間的關系是未知的。因此,在重球法下,延遲和網絡效用之間的權衡仍然是一個開放的問題。第三,由于包含了過去的迭代值,重球方法的算法結構與QLA方法不同。因此,QLA中用于建立吞吐量-優化和效用-延遲權衡的傳統技術并不適用。因此,在重球方法的性能分析中需要新的分析技術。
本項目的主要貢獻是,我們首次開發了一個基于重球的無線網絡效用優化框架,克服了上述的技術挑戰。我們建立了一系列關于大幅減少延遲和快速收斂的新分析結果,同時保留了效用優化的特點。本文的主要結果和技術貢獻如下:
在重球思想的啟發下,我們提出了一個新的權重調整方案,用于無線網絡中的聯合擁塞控制和路由/調度。我們的工作不僅提供了重球算法和可觀察的網絡狀態信息(隊列長度和信道狀態)之間的協同作用,允許在實踐中簡單實現,它還擴展和概括了經典的重球方法,從無約束的靜態優化到約束的隨機網絡效用優化范式,從而推進了數學優化理論中重球方法的先進性。
在我們的基于重球的聯合擁堵控制和調度方案下,有一個β參數化的動量(β∈[0,1]是一個系統參數,通常選擇接近1),我們表明,延遲是(1-β)-QLA方法的小數部分。更具體地說,我們的理論分析表明,可以用O((1-β)K)+O((1+β)√K)的排隊延遲成本實現效用最優差距O(1/K),其中參數K與重球法的步長成反比。此外,在β被選為β=1-O(1/ √ K)的K的漸進制度中,我們的重球算法實現了[O(1/K), O( √ K)]效用-延遲權衡,這明顯優于眾所周知的QLA方法的[O(1/K), O(K)]權衡。
鑒于參數K和β,我們表明我們基于重球的算法的收斂時間擴展為O[log(√ K) (- log-1 (1 + β - √ β))]。結合前面的結果,我們提出的重球算法提供了一個重要而優雅的三方權衡關系,由K和β中的兩個控制旋鈕控制。最值得注意的是,通過權衡收斂速度,同時實現效用最優和低延遲。我們注意到,這種重要的三向權衡關系迄今在文獻中尚未被發現。
除了理論結果,本項目的一個重點是開發高保真的基于EMANE的模擬,以測試和驗證我們上述的理論結果和見解。在這個項目中,我們已經成功地開發了一個基于Shim層的EMANE跨層仿真平臺來測試我們的HeavyBall算法。我們基于EMANE的仿真結果表明,所有的理論預測在高保真仿真中是可以觀察到的。此外,值得一提的是,我們的基于EMANE的跨層仿真平臺具有很強的通用性,對于AFRL所重視的其他基于EMANE的無線網絡跨層仿真來說,可以具有獨立的利益。
在本節中,我們首先回顧了與本文密切相關的QLA文獻的最新進展。如前所述,在減少QLA方法的延遲方面已經有了很大的努力。例如,在[13]中,采用了類似于[22-24]中的虛擬隊列技術,其中虛擬隊列長度根據服務速率演變,是實際服務速率的一小部分。在[16]中,提出了一種用占位者比特代替真實數據的虛擬積壓機制。研究表明,通過接受一些非零的丟包概率,這種方法實現了[O(1/K), O(log2 (K))]效用-延遲權衡。在[15]中還提出了一個指數Lyapunov虛擬積壓方法與基于閾值的丟包方案相結合,以實現O(log(K))的延遲。雖然具有對數型的時延擴展,但[15,16]的一個主要限制是,[16]中選擇占位器比特的大小和[15]中的閾值都需要非因果的全局到達和信道統計(參見[15,公式(17)],[16,公式(45)]),這通常是不可能實現的。另外,如果參數設置不當,這些方案可能會導致不可忽略的丟包概率。為了解決這個問題,在[17]中提出了一個每迭代學習,以在線方式學習最佳的占位比特大小。然而,每迭代學習組件大大增加了算法的復雜性。在某種意義上,所有這些減少延遲的方案都可以被看作是為了減少延遲而犧牲了一些吞吐量的優化(體現在降低服務速率或丟包)。相比之下,在不犧牲任何吞吐量優化和不需要任何非因果統計知識的情況下,我們的重球方案通過設置β=1-O( 1/√ K),實現了[O(1/K), O( √ K)]效用-延遲折衷。此外,我們的重球算法實現了一個優雅的三方權衡,這是現有作品[13, 15-17]所不能提供的。
接下來,我們進一步提供重球法的背景,然后回顧重球領域的相關工作。在優化文獻中,重球法也被稱為多步驟或動量法。自其誕生以來[20],重球法已經在信號處理和機器學習中找到了應用(見,例如,[25]和其中的參考文獻)。然而,到目前為止,重球法在網絡研究中仍然基本上沒有被探索。據我們所知,重球法在網絡領域的唯一應用可以在[26]中找到,作者在那里開發了一個基于重球的互聯網擁堵控制方案。我們注意到,我們的工作與[26]在以下關鍵方面有所不同: 首先,我們提出的重球算法是一個動態方案,適用于隨機的無線信道,而[26]中提出的算法解決的是有線網絡的靜態擁塞控制速率優化問題。其次,[26]中的算法需要一些假設(參見[26, Sec. VII-C])來把問題變成無約束的表述,這樣經典的重球方法就可以被應用。然而,正如[26]中所指出的,這些假設限制了重球法的使用,使其只能用于具有某些路由結構的問題。相比之下,我們提出的方法可以處理所有的網絡約束,并適用于所有的效用優化問題。第三,我們在本文中推導出明確的效用-延遲-收斂權衡比例法,而[26]中沒有提供這樣的結果。
總的來說,我們的成果為跨層網絡控制和優化理論貢獻了一個令人興奮的新設計范式,該范式利用了動量/記憶信息。本報告的其余部分組織如下。第2節介紹了我們提出的重球算法和擬議算法的性能分析。第3節介紹了數值結果,第4節是本文的結論。
本報告記錄了通過利用深度學習(DL)和模糊邏輯在空間和光譜領域之間整合信息,來加強多模態傳感器融合的研究成果。總的來說,這種方法通過融合不同的傳感器數據豐富了信息獲取,這對情報收集、數據傳輸和遙感信息的可視化產生了積極的影響。總體方法是利用最先進的數據融合數據集,為并發的多模態傳感器數據實施DL架構,然后通過整合模糊邏輯和模糊聚合來擴展這些DL能力,以擴大可攝入信息的范圍。這項研究取得的幾項進展包括:
出版物[1, 2, 3, 4, 5]進一步詳細介紹了取得的進展。
在這項工作中,我們解決了雷達波形優化和目標跟蹤的問題。提出了一種基于控制論方法的優化波形設計和目標跟蹤算法,其中波形參數是通過最小化跟蹤均方誤差(MSE)而自適應設計的。在這項工作中,采取了幾種方法來提高雷達跟蹤性能。首先,卡爾曼濾波器被用來估計目標位置,用它來優化波形參數。實驗結果表明,所提出的算法有能力在笛卡爾空間內跟蹤飛行目標,它提供了對目標位置和目標速度笛卡爾矢量以及徑向速度的準確估計。該算法根據估計矢量在飛行中調整波形參數。在文獻中,多普勒效應理論被大量用于估計目標速度。在某些條件下,如跟蹤高速目標或惡劣的海洋和天氣條件下,多普勒效應就不那么有效。因此,在這第一個方法中,引入了一種依賴于卡爾曼濾波估計的算法,而不依賴于多普勒效應。一個具有實時自適應參數的低通濾波器被應用于估計的速度矢量,并提取準確的速度估計。此外,從一個現實的角度來解決雷達跟蹤問題,承認目標運動不能像我們提出的使用卡爾曼濾波器那樣用矩陣來描述,因此引入了交互式多模型算法來估計目標位置。通過模擬,我們證明了所提算法的良好性能,并證明波形優化可以提高雷達的跟蹤性能。最后,考慮從兩個天線而不是一個天線收集信息,并使用其中一個數據融合算法,以及IMM算法,我們能夠減少跟蹤誤差,并為跟蹤問題提供一個更穩健可靠的解決方案。
圖 1. 大腦/認知雷達感知-行動周期。
認知被定義為參與認識、學習和理解事物的心理過程。這個定義介紹了定義CR的三個主要成分:
系統與環境持續互動并感知其地標的能力,包括潛在的目標和障礙物;這使得相控陣天線成為CR的主要組成部分,因為它們能夠快速掃描環境。
智能地處理接收到的回波,并提取有關目標和周圍環境的測量值的能力。
能夠提取有關目標和環境的信息,并相應地使用它來做出有關波形和目標運動估計的決定。
認知型雷達在某種程度上模仿了大腦的學習方式,并根據感官采取行動,遵循一個類似的循環:感知、學習、調整、行動。它們不斷地從環境中學習,并作出決定以提高跟蹤性能。類似的循環,即眾所周知的感知-行動循環(PAC),在解釋大腦如何工作或描述一些智能系統的文獻中被多次提及([2][3][4])。引用[2],神經科學家Joaquin Fuster將感知-行動循環描述為 "在處理目標導向行為的過程中,信息從環境到感覺結構,再到運動結構,再次回到環境,再到感覺結構,如此循環往復"。圖1解釋了與認知雷達相關的大腦的運行周期。在這項工作中,我們討論了這個閉環循環的所有步驟,這些步驟制約著CR的性能。提出了一個系統模型,并進一步討論了以估計和波形優化過程為重點的內容。
在文獻中,討論了兩種主要的波形選擇方法:控制論和信息論。在這項工作中,考慮了控制理論方法中的波形選擇標準。雷達波形參數主要通過最小化跟蹤均方誤差(MSE)來確定。
CR有一個閉環的工作循環。該系統依靠接收器的反饋來收集關于目標和環境的知識。這些知識然后被用來優化發射波形,并改進對目標的探測、跟蹤、估計和識別。這個概念在2006年由S.Haykin[1]在文獻中首次提出,他寫道,我們引用[1]"整個雷達系統構成了一個動態的封閉反饋回路,包括發射器、環境和接收器。
CR的運行周期(即上述閉環)從發射器對環境的照射開始。然后,從環境中反彈出來的傳輸波形(即目標回波、雜波等)被接收器截獲。關于目標和環境的有用信息從接收到的回波中提取出來,然后更新一個信息庫(記憶塊),在下一個周期由目標估計器(TE)作為一組關于環境的先驗知識使用。根據TE提供的估計結果,波形被優化。通常考慮用貝葉斯方法來實現目標估計器。
在CR中,提取的信息不僅在接收機層面發揮作用,而且在發射機層面通過改變波形和一些相關參數,如脈沖重復頻率(PRF)、脈沖寬度、脈沖數N和雷達發射時間表來發揮作用。這方面是CR與經典的自適應雷達的區別,后者只能在接收層面使用提取的信息。
波形優化設計作為一個重要的研究課題出現在信號處理界,因為它在許多領域都有廣泛的應用,如通信系統、聲納,以及在我們感興趣的情況下,改善雷達系統的性能。文獻中討論了許多設計標準,其中我們提到了最大信噪比(SINR)標準[9]、最大探測概率標準[14]、最大互感信息(MI)[8]標準和最小化均方誤差標準(MMSE)[10]、[11]。這些設計標準方法可以分為兩類:控制理論方法,其目的是為連續運行的動態系統開發一個控制模型;信息理論方法,更側重于研究信息流和從接收的測量數據中提取更多的目標信息。本文采用了控制理論方法,通過最小化跟蹤MSE來確定最佳波形選擇/設計。
本文介紹了在卡勒獎學金第一年內進行的研究,研究如何自主控制檢查平臺向故障平臺行駛以完成檢查相關任務。這項研究的目的是開發一個有限時間的相對位置控制框架,使檢查衛星能夠安全地接近發生故障的平臺,因為平臺的通信能力受到阻礙,導致其在接近過程中根本無法通信。故障平臺導致獨特的挑戰,即平臺的狀態被認為是先驗未知的,檢查器可能無法從故障平臺提供的準確和連續的信息中受益;故障平臺也可能受到機動和干擾。
在該獎學金的第一期內,使用 MATLAB 和 Simulink 開發了仿真軟件,以演示檢查平臺與故障平臺執行會合操作。首先引入基于視線的相對運動模型,直接使用導航信息,然后以自適應非奇異終端滑模控制器的形式開發魯棒控制框架,以確保閉環系統穩定并保證有限時間收斂到所需的狀態。然后在最終討論未來的工作和目標之前展示和討論模擬結果。
本文考慮使用衛星上的傳感器將觀察結果分配到一個離散網格化地理區域的情況。重要的是,至少要在所有網格單元瀏覽一次,以看到整個行動區域;因此,我們希望獲得最大的覆蓋范圍。其次,我們希望通過任何額外的觀察來重新審視高優先級的網格單元。傳感器產生一個二維帶,在每次經過地理區域時,它可以尋找網格單元,我們將其稱為 "掃描"。我們用來觀察網格單元的分辨率決定了觀察的有效性。我們可以選擇使用高分辨率,使我們在更細的細節上有更少的觀察,或者使用低分辨率,使我們在粗略的細節上有更多的觀察。這使我們可以選擇準確地觀察少數地方,或不準確地觀察許多地方。
這篇論文是在與作為五角大樓聯合參謀部一部分的J8局的密切協作下產生和發展的。J8在部隊結構、資源和評估方面向參謀長聯席會議主席(CJCS)提供建議。這個問題已被提煉為一般的情報、監視和偵察(ISR)問題,但延伸到J8在名為STORM的戰區級戰役模型中遇到的真正問題。STORM使用一種啟發式方法來確定哪些網格單元接受觀察。STORM的啟發式方法往往會產生不理想的結果,即大面積的興趣區域被忽略。我們希望改進搜索資產能夠執行的網格單元覆蓋率。
在這篇論文中,我們制定了一個新穎的、大規模的、混合整數的優化模型,以超越STORM的啟發式搜索ISR的表現。該模型被稱為SOM,使用間隙指數對自上次查看每個網格單元以來的掃描次數進行懲罰。我們希望避免收集這些懲罰,這促使我們重新訪問網格單元。目標函數最小化了這種產生間隙的懲罰。我們使用幾個約束條件來維護、重置和跟蹤間隙計數器,一個訪問所有網格單元的軟約束條件,以及一個對網格單元施加最小分辨率的約束條件。SOM的一個獨特的特點是它是事件驅動的,在戰斗空間上掠過,不以時間為基礎。SOM使用實際的STORM數據,有1300多行代碼,包括在R中收集數據,在Pyomo中處理和實現模型。
我們在STORM中未分類的Punic21場景上實現了這個模型。在這個場景中,有兩個戰斗人員。紅方和藍方。我們可以從任何一個角度來實現SOM,每個戰斗人員都產生他們自己的變量和約束。為了說明SOM的大規模,在Punic21中,紅方搜索藍方的網格單元,并在92個區域內進行優化,這相當于48小時的時間,我們有超過2500萬個變量和1500萬個約束。
案例研究以計算和操作結果為中心。計算結果表明,我們可以通過在國際商業機器ILOG CPLEX Optimization Studio(CPLEX)的算法中實施不同的選項來減少運行時間。最重要的選項是提供一個熱啟動,使用沒有外觀發生的最壞可能的解決方案。例如,當我們用默認的CPLEX選項在一個有超過200萬個變量和100萬個約束條件的單處理器上運行SOM時,它需要超過1400分鐘,而且沒有產生一個解決方案。我們確定了定制的CPLEX選項,減少了運行時間,并在不到5分鐘內解決了這個實例。這使我們能夠將問題的規模增加到超過2200萬個變量和1100萬個約束條件,并在不到50分鐘的時間內實現11%的優化差距。業務案例研究結果顯示,與STORM相比,SOM提供了平均54.6%和中位數22.8%的覆蓋率。額外的選項,是SOM原生的,在STORM中不具備的,確保SOM將超過STORM,快速達到最大的覆蓋率,隨后集中精力將目光分配到最重要的網格單元。
我們看到,根據操作結果,優化模型優于STORM的啟發式,并允許我們平衡所有單元的搜索,而啟發式則傾向于集中在重要的單元。與STORM的啟發式方法重復搜索相同的網格單元相比,SOM指導衛星在哪里尋找,以允許訪問每個網格單元并避免大的重訪間隙。
這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法,重點是多Agent情報、監視和偵察(ISR)場景。我們為深度卷積神經網絡開發了一個新的架構,支持通過去卷積因子化的終身學習(DF-CNN),探索了通過Distral和Sobolev訓練的策略提煉的組合,并開發了一個混合控制器,將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。
我們的主要貢獻是反卷積因子卷積神經網絡(DFCNN)。DF-CNN框架調整了標準卷積神經網絡(CNN)框架,以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫,并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的,隨著網絡在多個任務中的訓練,這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。
實驗表明,DF-CNN在終身中的基準識別任務上的表現優于其他方法(包括單任務學習、低層的硬參數共享和漸進式神經網絡)。此外,該框架能夠抵抗災難性遺忘,同時仍然允許從未來的學習中反向轉移到以前學習的模型。
對于深度強化學習,我們研究了將Sobolev訓練整合到Distral多任務框架中,以努力改善轉移和訓練,探索了DF-CNN在深度RL中的應用,并開發了一個混合控制器,將本地學習的深度RL策略結合在一起,在ATE3仿真環境中完成ISR場景。
這項工作研究了使用深度神經網絡(DNN)來進行武器交戰區(WEZ)最大發射距離的估算。WEZ允許飛行員確定一個空域,在這個空域中,可用的導彈有更大的概率成功地攻擊一個特定的目標,即一個假想的飛機周圍的區域,在這個區域中,對手容易被擊中。我們提出了一種方法,使用50,000次不同條件下的模擬發射來確定一個特定導彈的WEZ。這些模擬被用來訓練一個DNN,它可以預測飛機在不同發射條件下的WEZ,其決定系數為0.99。它提供了有關前述研究的另一個步驟,因為它采用了一個非具體化的模型,即它一次性考慮了WEZ的所有方向,這在以前是沒有的。此外,建議的方法采用了一種實驗設計,允許較少的模擬運行,提供更快的模型訓練。
在模擬的計算環境中,軍事系統必須與真實相似,其保真度要達到一定程度,才能得出有用的結論[15]。這是通過使用可靠的計算模型來實現的,這些模型被認為包含了它們所代表系統的主要特征[16]。
在處理空戰時,需要建模的最關鍵部分之一是導彈。關于導彈系統本身和何時使用它的決定,即開火,都是如此。在考慮超視距(BVR)空戰時,這一點甚至更為關鍵,因為這一決定必須只根據態勢感知系統顯示給飛行員的內容來做出[11]。
在建設性模擬的背景下,飛機的行為是自主的,有必要為其控制算法提供類似于真正的飛行員會收到的數據,以便執行一致[9]。飛行員可以用來決定是否向對方飛機發射導彈的一個最重要的方面是武器交戰區(WEZ),簡單地說,它代表武器的射程[10]。這個定義將在第2.1節中進一步深入討論。然而,這個范圍的確定不是一個簡單的任務,因為它受到射手和目標的一系列變量的影響。此外,它自然也取決于導彈本身。在這項工作中,我們提出了一種方法,利用一系列不同條件下的模擬發射來確定特定導彈的WEZ。這些模擬被用來訓練一種機器學習算法,當飛機發現自己處于不同的發射條件時,可以預測WEZ。以前的工作已經采用了一些類型的人工神經網絡(ANN),如小波神經網絡(WNN)[29]和帶有貝葉斯正則化人工神經網絡(BRANN)的多層感知器(MLP)[4],對WEZ進行預測,也是基于模擬數據進行預測。文獻內也有純粹的數學方法,如[14]和[23],但它們提供了考慮固定導彈射程的不切實際的導彈模型和基于仿真的更復雜模型之間的中間步驟。
公司和政府內部可能已經開展了更多關于WEZ確定的研究[5],但這仍然很少公開。這項工作的貢獻是采用了深度神經網絡(DNN)和一個新的非離散模型,即該模型同時考慮了WEZ的所有方向,而不是像我們所知的那樣離散了off-boresight角度(圖5)。此外,它使用的實驗設計允許較少的模擬運行次數,這提供了一個更快的模型訓練。
本文的其余部分組織如下。第2節提供了背景,更深入地解釋了WEZ的概念,并介紹了所采用的特定導彈模型和所使用的實驗設計。在第3節中,詳細介紹了所提出的方法,而在第4節中介紹和分析了由此產生的結果。最后,第5節闡述了該工作的主要結論,并提出了一些未來的發展建議。