雷達是一種通過電磁波探測物體的電子設備。其主要包括:發射機、發射天線、接收機、接收天線以及信號處理部分。發射機通過發射天線,將電磁波向外發射,在某方向上與物體發生碰撞,電磁波發生反射,反射回波則被接收天線和接收設備接收,傳至信號處理部分進行分析。該過程能夠有效提取物體距雷達的距離、物體徑向運動速度等信息。并且這些信息能夠滿足許多應用場景的需求。例如,在軍事方面,其根據雷達所實現的功能不同,可分為預警雷達[1–3]、搜索警戒雷達[4–6]、導航雷達[7–9]以及防撞和敵我識別雷達等等。在社會科學發展方面,雷達可應用于氣象預報[10–12]、資源探測[13–15]、環境監測[16–18]等。鑒于雷達的廣泛應用場景,對雷達信號處理的研究就顯得至關重要。
近些年,深度學習成為各個領域的研究熱點,且在雷達領域同樣如此。本文主要介紹通過深度學習方法對不同形式雷達數據進行處理的研究情況,整體框架如圖1所示。經過調研發現,針對不同雷達成像原理以及信號處理方法,可獲得不同形式的雷達數據。例如,合成孔徑雷達(Synthetic Aperture Radar, SAR)圖像[19–24]、高分辨距離像(High Range Resolution Profiles, HRRP)[25–28]、微多普勒(Micro-Doppler)譜圖[29–32]以及距離多普勒(Range-Doppler, R-D)[33–36]譜圖等。本文則主要針對上述可獲取的雷達數據進行深度學習方法處理。其中,深度學習在SAR圖像處理領域已得到廣泛應用,典型應用的網絡包括卷積神經網絡(Convolutional Neural Network, CNN)[37]、稀疏自編碼器(Sparse AutoEncoder, SAE)[38]以及深度置信網絡(Deep Belief Network, DBN)[39]等等。其中,由于CNN在圖像處理中具有明顯優勢,因此,基于CNN的SAR圖像處理應用最為廣泛。本文同時介紹了通過上述3類網絡以及其他深度學習方法對HRRP, Micro-Doppler特征, R-D譜圖等雷達數據進行處理的研究近況。
雷達是一種通過電磁波探測物體的電子設備。 其主要包括:發射機、發射天線、接收機、接收天 線以及信號處理部分。發射機通過發射天線,將電 磁波向外發射,在某方向上與物體發生碰撞,電磁 波發生反射,反射回波則被接收天線和接收設備接 收,傳至信號處理部分進行分析。該過程能夠有效 提取物體距雷達的距離、物體徑向運動速度等信 息。并且這些信息能夠滿足許多應用場景的需求。 例如,在軍事方面,其根據雷達所實現的功能不 同,可分為預警雷達[1–3]、搜索警戒雷達[4–6]、導航 雷達[7–9]以及防撞和敵我識別雷達等等。在社會科 學發展方面,雷達可應用于氣象預報[10–12]、資源探 測[13–15]、環境監測[16–18]等。鑒于雷達的廣泛應用場 景,對雷達信號處理的研究就顯得至關重要。 近些年,深度學習成為各個領域的研究熱點, 且在雷達領域同樣如此。本文主要介紹通過深度學 習方法對不同形式雷達數據進行處理的研究情況, 整體框架如圖1所示。經過調研發現,針對不同雷 達成像原理以及信號處理方法,可獲得不同形式的雷達數據。例如,合成孔徑雷達(Synthetic Aperture Radar, SAR)圖像[ 19 – 24 ]、高分辨距離像(High Range Resolution Profiles, HRRP)[25–28]、微多普勒 (Micro-Doppler)譜圖[29–32]以及距離多普勒(RangeDoppler, R-D)[33–36]譜圖等。本文則主要針對上述 可獲取的雷達數據進行深度學習方法處理。其中, 深度學習在SAR圖像處理領域已得到廣泛應用,典 型應用的網絡包括卷積神經網絡(Convolutional Neural Network, CNN)[37]、稀疏自編碼器(Sparse AutoEncoder, SAE)[38]以及深度置信網絡(Deep Belief Network, DBN)[39]等等。其中,由于CNN在圖像處 理中具有明顯優勢,因此,基于CNN的SAR圖像 處理應用最為廣泛。本文同時介紹了通過上述3類 網絡以及其他深度學習方法對HRRP, Micro-Doppler 特征, R-D譜圖等雷達數據進行處理的研究近況。
多功能雷達的設計目的是在有限的資源(時間、頻率和能量)預算內執行不同的功能,如監視、跟蹤、火控等。雷達系統中的雷達資源管理(RRM)模塊對相關任務的優先級、參數選擇和調度做出決策。然而,最佳的 RRM 算法通常計算復雜,操作雷達需要采用啟發式方法。另一方面,基于人工智能(AI)的算法已被證明能以可控的計算復雜度產生接近最優的雷達資源分配結果。本調查研究旨在通過對基于人工智能的 RRM 技術進行全面的文獻綜述,使研究人員和從業人員更好地了解人工智能在 RRM 相關問題中的應用。我們首先介紹了 RRM 的背景概念,然后簡要回顧了用于 RRM 的符號 AI 技術。主要關注最先進的機器學習技術在 RRM 中的應用。我們強調最近的研究成果及其在實時資源分配優化的實際 RRM 場景中的潛力。本研究最后根據所做的調查,討論了有待解決的研究問題和未來的研究方向。
無線電探測和測距(俗稱雷達)的工作原理是向潛在目標發射電磁波,目標散射入射電磁波,接收終端接收散射信號,然后對接收到的能量進行信號處理,以提取有關目標的有意義信息。雷達最初是在第二次世界大戰期間為軍事應用而設計的,現在已被廣泛應用于軍事(如多目標跟蹤)、安全相關(如穿墻探測和跟蹤)或民用(如生物醫學和汽車雷達)領域。雷達有三種基本功能,即:(i) 搜索、(ii) 跟蹤和 (iii) 成像。在搜索操作中,雷達系統試圖通過在預設的仰角和/或方位角范圍內掃描來探測和獲取感興趣的目標。為了跟蹤移動目標,雷達會多次探測目標,獲取目標在射程、方位角/仰角范圍內的狀態觀測數據。在探測和跟蹤目標后,可啟動成像模式,從目標的大小、形狀、方位角、仰角和速度等方面獲取有關目標的信息[1]。
多功能雷達(MFR)[2]是雷達系統中相對較新的發展,能夠同時執行多種雷達功能,如監視、多目標跟蹤、波形生成和電子波束轉向[3, 4]。然而,所有雷達,甚至所有系統的資源都是有限的;就雷達而言,關鍵資源是時間、能量、頻率和計算。當需要同時執行多項任務時,這些資源必須以某種結構化的方式分配給各項任務。因此,雷達資源管理(RRM)[5] 需要在 MFR [6] 內進行任務優先級排序、參數選擇和資源分配。當雷達任務超載時,有效的資源管理尤為重要,也就是說,要正確執行所有分配的任務,需要的資源要多于可用資源。因此,RRM 背后的基本前提圍繞著 MFR 任務之間的優化和折衷。優化的目標是找到一種盡可能高效地分配資源的方法。在需要折衷的情況下,某些任務被認為更為重要,因此會在其他任務之前分配資源[7]。事實上,為了執行其他關鍵任務,一些優先級較低的任務可能會被放棄。
在 RRM 的第一階段,任務參數(如優先級、停留時間和重訪間隔)是在嚴格的資源限制條件下,通過啟發式方法 [8] 或聯合優化技術 [9] 確定的。優先級分配在情況層進行,而參數優化則根據資源管理的聯合實驗室主任數據融合模型[10]在對象層進行[4]。在第二階段,在測量層面進行任務調度,以確定任務執行的確切時間和順序,從而在雷達時間軸上容納盡可能多的任務,而不會造成重大延誤。
任務調度可使用基于隊列或基于幀的調度器[11]。基于隊列的調度器根據某些標準從有序列表中執行任務,如最早開始時間(EST)和最早截止時間優先調度器[6]。另一方面,基于幀的調度器則使用各種啟發式算法[12]或基于機器學習(ML)的算法[13]來逐幀估計要執行的最佳任務。RRM 調度算法可分為自適應算法和非自適應算法。自適應算法對任務進行優先級排序和調度,以優化雷達在動態變化環境中的性能雷達;而非自適應算法則預先確定任務優先級,任務調度采用一些預設的啟發式規則,不做任何優化[6]。
由于現代雷達必須執行越來越復雜的任務,最近的研究重點是開發認知雷達,即從環境和過去的行動中學習以提高性能的計算系統[14]。重要的是,認知雷達在學習了過去的性能和環境感知后,將以高效的計算方式做出接近最優的決策。參考文獻[14]中的最初建議是概念性的,而后來的研究則將這一概念進一步擴展到了認知雷達。[14]中的最初建議是概念性的,而最近 ML 技術的使用呈指數級增長,使得認知雷達的實現成為可能。
人工智能(AI)已應用于許多不同領域,如無線通信[15-18]、語音信號處理、計算機視覺和自然語言處理[19]等。人工智能算法涉及多個領域,如邏輯編程、推薦系統和 ML [20] 等。人工智能大致可分為符號人工智能(Symbolic-AI)和多重智能(ML),前者是通過規則引擎、專家系統和知識圖譜等人工干預進行符號推理,后者則是通過數據學習、識別模式,并在盡量減少人工干預的情況下做出決策[21]。近年來,美國國防部高級研究計劃局啟動了許多與雷達中的 ML 應用有關的項目,如射頻 ML 系統項目[22]、自適應電子戰行為學習項目[23]和自適應雷達對抗項目[24]。基于雷達的 ML 應用包括發射器識別和分類 [25,26]、圖像處理 [27,28]、圖像去噪 [29,30]、目標自動重建 [31,32]、目標檢測 [33,34]、抗干擾 [35]、最佳波形設計 [36] 和陣列天線選擇 [37]。此類應用中使用的一些基于 ML 的算法包括傳統的 ML 技術,如決策樹(DT)、支持向量機(SVM)、K-means 算法和隨機森林(RF)。一些值得注意的深度學習(DL)技術包括卷積神經網絡(CNN)、自動編碼器(AE)、深度信念網絡、遞歸神經網絡(RNN)和生成對抗網絡(GAN)。
雷達研究界認識到 ML 技術在不同領域的廣泛適用性,因此除了傳統的符號人工智能技術外,還開始將基于 ML 的算法應用到 RRM 任務中。由于這些工作相對較新,因此尚未對這一領域的文獻進行全面系統的調查。我們在本文中的工作填補了這一空白,對現有的 RRM 中的 ML 應用文獻進行了廣泛概述,同時還強調了雷達研究界需要關注的一些關鍵領域。一些相關的調查論文(摘要見表 1)討論了聯合雷達和通信 (JRC) 中的 RRM [42]、雷達信號處理中的 ML 應用 [43],以及 RRM 算法概述 [44]。對人工智能研究的調查,尤其是對用于 RRM 的 ML 的調查,仍是一個未知領域,本文將對此進行探討。簡而言之,本文的貢獻如下:
我們簡要回顧了符號-人工智能領域一些著名的 RRM 作品,這些作品是最近基于 ML 的 RRM 的基準結果(第 3 節)。
將對應用于雷達 RRM 問題的 ML 進行全面回顧。討論將包括對 RRM 任務的分析,其中包括任務調度、時間資源管理、目標跟蹤、目標分類、頻譜分配和服務質量 (QoS) 資源管理。
將解釋研究人員如何將 ML 技術用于這些任務,以及使用這些技術的相關利弊(第 4 節)。
此外,為了完整起見,我們還將回顧近期有關人工智能的部分文獻,特別是人工智能在雷達非 RRM 相關任務中的應用。其中一些用例包括無人機探測、雷達監控、波形合成與識別以及醫學成像(第 5 節)。
最后,我們強調了基于 ML 的雷達所面臨的挑戰,并討論了潛在的研究方向。特別是,我們提出了強化學習(RL)的理由,以及它將如何在基于 RRM 的用例中發揮作用(第 6 節)。
基礎主題涵蓋了符號人工智能領域更多的傳統基準工作,而文章的后半部分則回顧了過去 4-5 年間與基于 ML 的 RRM 應用相關的最新成果,這些成果來自 IEEE Xplore 和 IET 等公共數據庫。我們特別關注了 IEEE 國際雷達會議、IEEE 雷達會議、Asilomar、IEEE 航空航天和電子系統論文集、IEEE 航空航天和電子系統雜志以及 IET 雷達聲納和導航論文集中的論文。我們希望我們的論文能幫助雷達領域的研究人員和專業人士找出研究差距,并在這一重要領域開展有意義的工作。
本節簡要回顧了一些基于人工智能方法的雷達資源管理算法,這些算法具有問題、邏輯和搜索的高級符號表示。基于符號-人工智能的雷達資源管理方法分為六類:(i) 模糊邏輯算法;(ii) 信息論方法;(iii) 動態編程(DP);(iv) 基于服務質量的資源分配模型(Q-RAM);(v) 波形輔助算法;(vi) 自適應更新率算法。
模糊邏輯控制器計算效率高,因此非常適合在雷達任務調度器中執行優先級任務。模糊邏輯處理單元包括三個步驟: (i) 模糊化,(ii) 模糊規則,(iii) 去模糊化。由于雷達調度器中可能存在相互沖突的任務,模糊邏輯可通過分配模糊值作為目標優先級因素來解決沖突。在共享資源中,模糊邏輯允許任務具有一定程度的靈活性,以實現高效的資源分配。許多研究工作都提出在雷達任務優先級和調度中使用基于模糊邏輯的方法。例如,參考文獻[45, 46]提出了一種包含五個模糊變量(航跡質量、敵情、武器系統、威脅和位置)的決策樹結構,用于確定雷達任務的優先級。[45, 46]提出了雷達任務優先排序的決策樹結構。另一篇論文[51]提出了一種動態模糊邏輯方法,用于雷達系統模擬測試平臺中的波形選擇和能量管理。
由克勞德-香農[52]創立的信息論研究對整個科學,特別是通信、信號處理和控制產生了巨大影響。信息論方法在傳感器管理中的主要優勢在于,它將系統設計分為兩個獨立的任務:信息收集和風險/回報優化,從而簡化了系統設計 [53]。參考文獻[54]認為,信息理論方法可用于傳感器管理。[54]中提出,信息論方法能以直接的方式為多種性能標準提供增益,因此適合應用于多功能 RRM。參考文獻[55]中的工作引入了信息論測量方法。參考文獻[55]介紹了與 RRM 相關的信息論措施,這些措施已被證明適用于控制軌道更新的調度。
信息論中的一個關鍵指標是熵,它可以衡量系統的無序性,或者是從穩定狀態過渡到混亂狀態的跡象。這一指標可用于調度 [56] 或資源分配 [57]。在雷達系統中,參考文獻[58]首次提出了用于 RRM 的熵概念。[58]. 作者將不確定性因素用于有時間和資源限制的雷達系統。特別是,應用任務是使用單個多功能相控陣雷達確定目標位置并更新軌跡。所提出的方法使用了一個制定的熵度量來平衡分配給每個任務的資源。在實際系統中,需要使用自適應濾波器來更準確地確定熵值,從而獲得更可靠的性能。
動態規劃是多階段優化問題中一種常用的資源分配方案。該規劃首先將優化問題分割成若干子問題。然后,建立最優遞歸關系,并決定采用正向或逆向方法解決問題。在進行必要的計算后,就能找到每個階段的最優策略,進而得出總體最優策略。在 RRM 中,DP 算法可同時解決任務優先級和調度問題。在參考文獻[59]中,作者部署了一個任務優先級算法。[59]中,作者采用了一種 DP 算法來最小化相控陣雷達的目標跟蹤誤差。參考文獻[60]采用了隱馬爾可夫模型的多臂強盜問題,以優化波束調度。[60]中采用了隱馬爾可夫模型的多臂強盜問題,以優化電子掃描陣列跟蹤系統中的波束調度。另一篇論文[61]提出了一種基于 DP 的解決方案,用于更新相控陣雷達系統中搜索任務的調度。盡管文獻中已將 DP 廣泛用于雷達配置和參數維度的優化,但其計算復雜度較高,難以實際應用。
Q-RAM 是一種分析方法,用于在資源受限的環境中同時滿足多個 QoS 指標。利用該模型,可將可用資源在多個任務之間進行合理分配,從而最大化所選的凈效用函數。這種方法還允許在系統內的多個目標之間進行權衡。在 RRM 環境中,Q-RAM 的優化是為了保持可接受的服務質量水平,其模型是成本函數。其數學公式是在資源限制條件下,最大限度地提高基于服務質量的系統效用函數。參考文獻[62]介紹了 RRM 的 Q-RAM 框架。[62],該框架由可調度包絡、Q-RAM 單元和基于模板的調度器組成。Q-RAM 單元作為資源分配單元,采用快速凸優化技術為雷達任務分配參數,同時考慮任務重要性和當前利用水平等因素。雷達 QoS 優化基于 Q-RAM 的早期工作[63],最初用于自適應 QoS 中間件,用于基于 QoS 的資源分配和可調度性分析[64]。參考文獻[65]提出了一種基于預約的任務調度機制,可保證性能。[65] 中提出了一種基于預約的任務調度機制,可保證實時雷達的性能要求。另一項相關工作是[66],它提出了一種基于模板的調度算法,可在離線情況下構建一組模板,同時考慮時序和功耗約束。參考文獻[67]則提出了一種動態 Q-RR 算法。[67]中,針對雷達跟蹤應用提出了一種動態 Q-RAM 方案,其中納入了影響任務 QoS 的物理和環境因素。參考文獻[68]中介紹的 Q-RAM 方法表明,基于時間的限制如何影響任務的 QoS。[68]展示了如何將基于時間的約束條件建模為利用率,以便使用資源管理技術。此外,在雷達跟蹤應用等高度可配置的任務中,優化時間被證明是可以縮短的。
雷達波形可從照明環境中提取所需的時間、頻率、空間、偏振和調制信息。它可以是連續波,也可以是脈沖波。就雷達內的任務調度和任務優先級功能而言,智能波形選擇可提高資源管理效率。不同的波形可優化雷達中的監視、探測、跟蹤和分類操作 [6]。
參考文獻[69]介紹了一種概率數據關聯方案,用于選擇最佳波形。[69] 中介紹了一種概率數據關聯方案,用于選擇最優波形參數,使每個時間步的平均總均方跟蹤誤差最小。同樣,參考文獻[70]還介紹了另一種波形輔助交互多重模型(IMM),其目的是選擇最優的波形參數,使每個時間步的平均總均方跟蹤誤差最小。[70],其目標是根據目標動態模型的預期信息最大化,選擇能降低任意相關目標不確定性的波形。文獻[71]提出了波束和波形調度跟蹤器,研究了實用方法。[71]研究了實現 RRM 監視和跟蹤統一的實用方法。該方法引入了在雷達視場中明智地放置一個永久性的智能體,因此被命名為 "偏執跟蹤器"。 其他波形輔助探測、跟蹤和分類方法包括[72-74]。參考文獻[72]提出了一種自適應波形調度方法,用于在有限視界隨機 DP 的背景下探測新目標。[72] 中提出了一種在有限視界隨機 DP 背景下探測新目標的自適應波形調度方法,這種方法能以最小的雷達資源使用量最大限度地減少探測新目標所需的時間。Scala 等人[73] 提出了一種最小化跟蹤誤差的算法。參考文獻[74]中報告說,雷達波形在探測新目標時會產生誤差。[74]中指出,雷達波形可以通過最大化 Kullback-Leibler 信息數來區分目標,該信息數是觀測到的目標與備選目標之間差異的度量。研究表明,由此選擇的信號波形可顯著提高探測性能。
自適應選擇采樣時間間隔可提高相控陣雷達的跟蹤性能[75]。這是因為高更新率適用于機動目標,而低更新率多用于非機動運動。因此,單一的更新率效率低下,可能不足以跟蹤執行復雜機動的目標。許多研究人員提出了自適應速率更新技術,如參考文獻[76]。[76],其中波束調度、定位和檢測閾值根據計算負荷進行了優化。參考文獻[77]提出了一種 IMM 模型,具有雙重目的:一是通過優化計算負荷來優化光束調度、定位和檢測閾值;二是通過優化計算負荷來優化光束調度、定位和檢測閾值。[77]中介紹了一種 IMM 模型,其雙重目標是估計和預測目標狀態以及估計動態過程噪聲的水平。總體目標是減少單元時間內的軌道更新次數。另一項研究對軌跡更新進行了優化調度,以盡量減少雷達能耗[78]。能量最小化被模擬為一個非線性優化控制問題,并通過優化產生了一對軌跡更新間隔和信噪比(SNR)值的最佳序列。
符號人工智能具有出色的推理能力,但很難向其灌輸學習能力,而這正是人類智能的關鍵部分。由于符號人工智能依賴于顯性表征,而不考慮隱性知識,因此它很難發揮作用,尤其是在理解非結構化數據時(在雷達環境中,就 RRM 而言)。為此,人工智能領域引入了專注于機器自學的 ML1 范式。此后,ML 在許多領域都取得了巨大成功。最近,雷達研究界越來越傾向于將不同的 ML 技術用于 RRM 任務。下一節,我們將回顧基于 ML 的 RRM 的相關文獻。
在本節中,我們將介紹這項工作的核心貢獻--對近期利用機器學習技術執行雷達資源管理任務的一些工作進行回顧。
大多數 RRM 任務都包括一定程度的優化,以選擇當前或規劃未來行動,尤其是對于認知雷達系統而言。然而,相關的計算成本可能會根據 RRM 任務的復雜程度而過度增加。例如,在有限的時間內同時執行多項任務的多目標飛行器中,最佳任務選擇和調度是一個 NP 難問題,當考慮到多條時間線時,復雜度會呈指數級增長。已有多種啟發式方法應用于該問題。雖然啟發式方法大大減少了計算時間,但啟發式方法的性能與全局最優解之間存在明顯差距。可以利用機器學習來彌補這一性能差距,同時保持較低的復雜度。通過使用離線學習、深度神經網絡(DNN)、在線學習和 RL,機器學習有能力在實時實施中降低計算成本。此外,一些 ML 模型還可以與啟發式方法一起訓練和使用,從而在相同的低復雜度水平下產生接近最佳的性能。
我們將在附錄中介紹一些最著名的 ML 算法,如圖 2 所示。這些算法已廣泛應用于通信領域,包括 RRM 和信號處理。傳統的 ML 算法大致分為以下幾種: (i) 監督算法;(ii) 無監督算法;(iii) RL 算法。監督學習算法通過標記的訓練數據來訓練一個函數,學習從輸入到輸出的映射。另一方面,無監督學習算法處理基于無標簽數據的聚類和關聯規則挖掘問題。在 RL 中,馬爾可夫決策過程(Markov decision processes,MDPs)等范例將利用和探索相結合,在環境中采取行動,以最大限度地提高累積獎勵。除上述三類算法外,一些 ML 算法還能從無標簽數據中結合少量標簽數據進行學習,這被稱為半監督學習(semi-supervised learning)。
深度學習是 ML 的另一種范式,據說其結構和功能以人腦為基礎,因此在科學計算領域大受歡迎。深度學習使用人工神經網絡對大量數據進行復雜計算。深度學習可以是監督式、非監督式或強化式,主要取決于神經網絡(NN)的使用方式。如圖 2 所示,用于深度監督學習的不同 NN 架構在深度 RL(DRL)中作為函數近似器特別有用。對于不熟悉 ML 范例背景和使用的讀者,可以參考最近的 ML 算法教程和概述 [79,80]。
本節的討論將根據 RRM 任務和功能進行劃分。具體而言,我們將討論最近基于人工智能的 RRM 文獻,涉及以下 RRM 任務領域:(i) 目標識別和跟蹤,(ii) 頻譜分配,(iii) 波形合成和選擇,(iv) 時間資源管理,(v) 任務調度和參數選擇,以及 (vi) Q-RAM。
我們發現最近有許多關于目標檢測、目標跟蹤、雜波估計和雜波抑制的工作都采用了基于 ML 的技術。由于高效的 RRM 對進行實時識別和跟蹤至關重要,因此我們在本節中討論了這一功能。眾所周知,利用雷達之間的跟蹤和數據共享的協調 RRM 比獨立 RRM 任務的性能更好,而且占用的軌跡和幀時間更少 [81]。在參考文獻[82]中,貝葉斯多路復用(Bayesian multi-multi-RRM)技術被認為是最有效的方法。[82]中,使用高斯混合概率假設密度濾波器和長短期記憶網絡(LSTM)轉換函數進行貝葉斯多目標過濾。這項工作的目標是防止過濾器高估目標數量。該網絡架構基于高斯多變量密度估計,被稱為多維 LSTM(MD-LSTM)網絡。該架構由 3 個模塊組成: LSTM、密集層和輸出層。經過訓練的 MD-LSTM 模型將用于動態概率假設密度估計。在性能驗證方面,將提議模型的狀態估計與基準近恒速模型進行了比較。在另一項實驗中,利用不同的檢測概率評估了漏檢的影響。即使在誤報或漏檢的情況下,該模型也能防止濾波器過高估計目標[82]。這些性能僅代表了一種簡單的模擬場景,因此有必要利用真實數據為更復雜的場景探索最先進的 ML 技術。
另一項最新研究涉及用于認知雷達目標跟蹤的深度 Q 學習(DQL)[83]。假設環境要求雷達與通信共存,并使用馬爾可夫決策過程建模。單點目標被假定遵循某種直線恒速軌跡。馬爾可夫決策過程的狀態包括目標位置、目標速度和干擾模式。作者通過有限次數的訓練運行建立了過渡概率矩陣和獎勵矩陣。在完成訓練運行后,對基準 MDP 進行貝爾曼方程建模,同時根據特定動作的獎勵對神經網絡進行訓練。深度 Q 網絡(DQN)的權重會進行更新,以選擇被認為能帶來最高獎勵的最優行動。經過訓練的 DQN 將當前狀態作為輸入,并估算每個潛在行動的 Q 值,然后選擇 Q 值最高的行動。結果表明,當 DQN 在兩者都未訓練過的頻段內運行時,以及當計算復雜度增加而 MDP 變得低效時,DQN 的性能優于 MDP。
參考文獻 參考文獻[84]在雷達目標跟蹤應用中采用了極端梯度提升(XGB)監督學習,其效果優于著名的貝葉斯濾波方法。由于貝葉斯跟蹤器需要準確的先驗信息來進行估計,因此在未知環境中性能不佳。監督學習模型以極坐標為基礎,并根據雷達測量結果進行訓練。損失函數用于預測最優樹結構和估計相應的葉值。設計的 XGB 過濾器(XGBF)的性能與粒子濾波(PF)的結果進行了比較。結果表明,就估計均方根誤差(RMSE)而言,XGBF 優于 PF,并且在 10,000 個、20,000 個和 40,000 個樣本中表現出相似的性能。本文主要關注的是單目標過濾問題;將雜波和多目標測量相關性問題納入其中將是一個挑戰,尤其是在由于無法獲得真實數據而需要生成訓練數據的情況下,本工作就是如此。
在目標識別和檢測領域。Bauw 等人利用半監督異常檢測方法(SAD)解決了檢測異常雷達目標的難題[85]。利用 ML 識別高分辨率測距剖面目標最近在雷達研究界受到了廣泛關注。作者提出了一種 SAD 方法,它是對早期提出的深度支持向量數據描述模型[86]的擴展。無監督異常檢測,即使有訓練污染,也能產生可靠的結果,但船舶檢測場景除外,因為船舶的形狀和大小差異很大。半監督異常檢測有可能用較少的標注數據點來改善檢測結果;這是一個重要的優點,因為標注圖像數據是一個耗時且成本高昂的過程。另一方面,參考文獻[87]中的研究成果也能提高檢測結果。另一方面,參考文獻[87]中的工作使用了一種展開魯棒 PCA(RPCA)方法,用于雷達中的目標識別和干擾緩解。文中討論的用例專門針對安裝在自動駕駛車輛上的雷達。這項工作的主要創新點是在展開式 RPCA 的遞歸結構中引入殘余超完全自動編碼器塊,從而能夠估計環境中干擾的振幅和相位。汽車雷達推理緩解數據集 [88] 被用來訓練所提出的模型。無論是在接收器工作特征下面積(ROC)方面,還是在根據標簽信號計算的測距輪廓振幅與預測信號之間的平均絕對誤差方面,所提出的模型都優于選定的基準。
由于匹配濾波器和似然比檢驗在沒有先驗信息的情況下不可行,因此也有人提出了基于 DL 的無線電信號檢測技術。例如,在參考文獻[89]中,雙向 LL 檢測器被用于檢測無線電信號。[89] 中提出了基于 LSTM 的雙向去噪編碼器,用于檢測環境中是否存在雷達信號。LSTM 的雙向版本包含前向和后向傳遞,這使得非因果信息(即前向和后向相關性)的推導成為可能,從而提高了性能[90]。基于 RNN 的去噪自動編碼器在低誤報概率和更高的 ROC 下面積方面優于能量檢測器和時頻域檢測器等業界基準檢測器。
從背景干擾中分辨目標的能力在海事應用中變得更加重要,因為只有在掌握先驗環境信息的情況下,才能準確估計海面雜波。卷積神經網絡和自動編碼器 (AE) 在基于圖像的數據集方面表現出極高的分類準確性。為了研究它們在海面雜波檢測中的適用性,參考文獻[91]的作者使用了一個混合模型,其中包含了一個自動編碼器。參考文獻 [91] 使用包括 CNN 和 LSTM 的混合模型,以較低的計算復雜度估計 K 加噪聲分布的參數。CNN-LSTM 采用 CNN 層進行特征提取,LSTM 層支持序列預測。在均方誤差 (MSE) 和計算復雜度方面,一維 CNN-LSTM 估計器優于 z log(z) 算法。參考文獻[92]中的研究工作也側重于減輕對圖像的影響。[92]中的工作也側重于緩解海雜波回波造成的問題,這些問題會影響小型目標檢測時的性能。由于目標檢測方案使用的振幅分布需要特定參數的知識,這些參數估計不準確會導致檢測結果不佳。作者在參考文獻中使用了在線字典學習,用于學習信號的稀疏表示,收斂速度比字典學習更快。
使用大量測距/多普勒圖上的目標信號干擾比和小型船只的信號回波對性能進行了評估。所提出的基于 DL 的海雜波抑制技術在外來雜波區域的性能略優于其他算法。還有一些關于人工智能和 ML 在雷達監視系統中應用的調查論文值得一提。在參考文獻[93]中,作者對雷達監視系統中的大數據進行了預測。[93]中,作者將大數據軌跡作為改進雷達監視系統的有效方法。他們特別關注異常檢測的方法和用例,描述了數據源、數據預處理框架和工具、數據平滑以及基于 ML 的技術中滑動窗口的作用。兩種架構: 討論了用于實時監控的 Lambda 和 Kappa。熱圖在船舶風險評估中的應用案例表明,熱圖非常有助于對情況進行可視化評估。同樣,通過使用分層基于密度的噪聲應用空間聚類[94]對感興趣的區域進行聚類,可以相對容易地提取物體和港口之間的關系。Wrabel 等人[95] 綜述了利用雷達傳感器進行目標監視的人工智能技術。這項工作的重點是 (1) 雜波識別,(2) 目標分類和 (3) 目標跟蹤。雜波識別采用了多種人工智能方法,包括貝葉斯分類器、集合方法、k-近鄰(kNN)、SVM 和神經網絡模型。除這些技術外,還使用 RNN、CNN 和決策樹模型進行了目標分類。同樣,還對目標跟蹤方面的工作進行了審查,其中比較流行的技術有集合技術、神經網絡、SVM 和 RNN。
我們發現最近有兩篇論文都在雷達頻譜分配領域使用了 RL 技術。在參考文獻[96]中,作者將 RL 作為一種分散的頻譜分配方法,用于避免汽車故障。[96]中,作者將 RL 作為一種分散的頻譜分配方法,以避免汽車雷達之間的相互干擾。由于 RL 算法可以在未知環境中學習決策策略,因此適用于雷達傳感器對環境信息掌握有限的情況。LSTM 網絡通過時間匯總觀察結果,這樣,模型就能學會利用當前和過去的觀察結果選擇最佳子頻段。這項工作假設整個頻段被劃分為不重疊的子頻段,且雷達設備的數量大于子頻段的數量。
基于 RL 的頻譜分配工作原理如下。首先,處理上一步的信號并構建當前觀測值。然后,發射器 Q 網絡通過匯總歷史觀測數據選擇一個子頻段。接收器終端產生的獎勵將指導發射器 Q 網絡選擇更好的子頻段選擇策略。與隨機策略和近視策略等基準分散頻譜分配方法相比,對所提出的算法進行了評估。結果表明,在不同流量密度場景下,該算法在成功率方面表現出色。不過,Q-網絡是在模擬環境中用相對簡單的場景模型進行訓練和測試的,以顯示所提方法的可行性。現實世界的環境可能很復雜,因此有必要進行建模,以更好地代表實際場景。
我們已經將 Q-learning 確立為資源管理問題的有力候選方案,因為它具有無需任何環境模型即可找到最佳行動價值函數的內在能力。在參考文獻[97]中,作者建立了一個基于資源管理問題的模型。[97]中,作者將雷達-通信帶寬分配問題建模為一個 MDP,然后應用策略迭代來確定最優策略。為了減輕雷達和通信網絡之間的干擾,基于 MDP 和 Q 學習的模型學習了干擾的時頻譜占用模式。模擬在三種干擾環境下進行: (i) 持續干擾;(ii) 高傳輸概率的間歇干擾;(iii) 低傳輸概率的間歇干擾。雷達不僅能學習頻率上的干擾模式,還能在目標靠近雷達的情況下以信號干擾加噪聲比(SINR)換取帶寬的增加。這項工作只研究了五個子帶;更多的子帶會使狀態空間的大小呈指數增長,導致更復雜的訓練需要更長的時間。基于策略的 DRL 技術的目標是學習一組遠遠小于狀態空間的參數,可以解決這個問題,擴展工作[98]已經證明了這一點。
參考文獻[98]中的工作應用了非線性 DRL 技術。[98]中的工作通過 DRL 應用非線性值函數近似來解決認知脈沖雷達與通信系統之間的動態非合作共存問題。基于 DRL 的方法允許雷達改變其線性頻率調制器的帶寬和中心頻率,從而提高了目標探測能力和頻譜效率。作者特別使用了 DQL 算法,并將其擴展到雙深遞歸 Q 網絡 (DDRQN),結果表明 DDRQN 進一步提高了 DQL 方法的穩定性和策略迭代。這項工作是對早期使用 MDP 進行雷達波形選擇的方法的擴展[97]。與參考文獻[97]中的模型不同的是,該模型采用了默認的波形。[97] 中的模型在狀態轉換模型未指定的情況下采取默認行動,而本文提出的模型則利用估計的函數值來執行更明智的行動。通過在軟件定義無線電上進行的實驗,對擬議算法與策略迭代算法和感知-規避(SAA)算法的性能進行了比較。與基準方案相比,已公布的結果表明在新場景中收斂更快,學習效果更好。
波形優化是具有自適應發射機和接收機的認知雷達的主要特征之一。從預定義波形庫或編碼本(CB)中選擇波形,可同時完成特定或多個雷達任務。波形優化的核心在于利用任何形式的分集(如空間分集、波束模式、頻率分集、編碼分集和極化)所帶來的多因子效應。
優化波形選擇可采用基于 NN 的框架,如參考文獻 [99] 所述。[在該文中,作者分析了雷達的蝕變、盲速、雜波、傳播和干擾因素。使用非線性 NN 模型估算了最佳波形參數。
參考文獻[100]中的討論提供了對雷達波形參數的總體概述。[100]對神經網絡和 ML 在認知雷達開發中的應用進行了總體概述,目的是降低實時實施的計算成本。該文討論了一個用例場景,即利用 RL 生成帶有 26 dB 功率譜密度 (PSD) 缺口的波形。問題是如何在雷達帶寬內放置凹口,從而最大限度地減少來自干擾器和其他通信設備的干擾。我們的想法是選擇一組相位,通過選擇波形在所創建信號的 PSD 范圍內形成一個凹口。相位選擇的非線性優化問題采用深度確定性策略梯度(DDPG)算法解決。從本質上講,深度確定性策略梯度是一種行動者批判模型,用于生成訓練輸入,并根據 NN 輸出的質量進行獎勵。行動者產生一組階段,供模擬環境評估。環境執行離散傅立葉變換,并計算所制定的目標函數值。該值即為該行動的獎勵,并反饋給批判性 NN。批判 NN 的設計是這樣的:它將狀態和行動作為不同層的輸入,并輸出 Q 值,該值反向傳播到行動輸入層,以獲得行動的誤差。DDPG RL 算法通過一個簡單的環境模擬器減輕了對標記數據集的需求。生成的 26 dB PSD 缺口可能不足以滿足實際部署的需要,但可以通過微調模型參數來增加缺口。重要的是,這種 RL 方法消除了對大量標注數據的需求,而這些數據在雷達部署前是無法用于模型訓練的。
雷達波形優化的另一個重要方面是合成具有理想模糊函數(AF)形狀和恒定模量特性的新型雷達波形。由于雷達編碼系列中可用的編碼序列數量有限,因此在操作 MFR 或基于多輸入多輸出的通信系統時會出現問題。如第 2 節所述,基于 GAN 的方法目前已被廣泛用于生成真實的合成數據,從而改善 DL 應用中的訓練結果。在參考文獻[101]中,基于 GAN 的神經網絡被廣泛使用。[101]中,基于 GAN 的 NN 結構用于從已有波形的訓練集中生成逼真的波形。其中,針對復值輸入數據開發了一種 Wasserstein GAN [102] 結構。該模型在 Frank 和 Oppermann 編碼上進行訓練,合成出與現有編碼具有高自相關性、相同 AF 和低交叉相關性的新波形。合成波形的 AF 圖與訓練數據集的波形高度相似。GAN 生成的波形與訓練數據集的交叉相關性幾乎可以忽略不計,這清楚地表明 GAN 可以生成逼真而獨特的雷達波形。合成的波形還被限制為具有恒定模量,以便有效地使用放大器。
由于雷達信號表現出時間相關性,因此與基準最小預期均方跟蹤誤差相比,在部分狀態信息上應用基于記憶的學習算法來學習波形選擇策略,可提高雷達性能[103]。參考文獻[104]中的工作建立了一個波形選擇模型,并將其應用于雷達系統中。文獻[104]利用上下文樹建立了雷達環境模型,并進一步利用該模型在與信號相關的目標信道中選擇波形。作者提出了一種基于 Lempel- Ziv 的波形選擇算法,該算法是有限階馬爾可夫目標信道的成本最優解。通用學習算法根據當前的上下文信息,對觀察到特定狀態的過渡概率進行估計。上下文樹通過向后遍歷之前觀察到的結果進行更新。在每一步中,通過利用已知的獎勵信息或探索新的行動來選擇行動。目標函數側重于目標檢測的準確性以及互信息的最大化。與基準方案相比,通用學習方法能產生更高的平均 SINR 和更低的 RMSE。由于通用學習算法非常復雜,作者考慮了大小有限的波形目錄和狀態空間離散化,以保持其可操作性;這可能會影響其在更實際場景中的性能。
另一個波形合成方案[105]專門針對反干擾雷達,研究了基于 RL 的聯合自適應跳頻和脈寬分配反干擾方案,因為當前的反干擾策略(使用跳頻和脈寬分配)往往難以適應復雜和不可預測的環境。與所描述的其他 RL 作品一樣,目標函數被模擬為 MDP。在部分信息環境情況下,利用 Q-Learning 學習優化的雷達抗干擾策略。獎勵函數值是雷達抗干擾函數的量化版本,包含兩個 RRM 任務,即跳頻和脈寬分配。基于 Q 學習的聯合優化算法與基準隨機跳頻策略進行了比較,后者在每個實例中從頻帶中隨機選擇一個頻率[106]。在不同的跳頻成本和傳輸脈沖數的情況下,基于 Q 學習的策略獲得了更高的平均回報。
在有限的時間預算內調度多個任務是多任務飛行器中最關鍵的 RRM 任務之一。時間是有限的資源,因此需要根據優先級謹慎地分配給不同的任務。這種優化問題的目標是盡量減少丟棄和延遲任務的數量,是一個 NP 難問題[7]。眾所周知,分支與邊界(B&B)方案可為該問題提供最優解[107];然而,B&B 算法的計算復雜度會隨著待調度任務數量的增加而呈指數級增長。
Shaghaghi 等人在其關于 RRM 中 ML 的開創性工作中研究了多通道雷達 RRM 領域中的參數選擇、優先級和調度問題[108]。為了克服復雜性問題,在這項工作中,作者利用離線運行 B&B 算法獲得的數據訓練了一個由 DNN 組成的價值網絡。從本質上講,訓練好的 DNN 可以估算搜索樹節點的值,從而通過剔除遠離最優解的節點來加快 B&B 進程。基于 DNN 的解決方案在收斂到接近最優解的同時,大大減輕了計算負擔。為了使算法對估計誤差更加穩健,引入了一個縮放因子,選擇足夠高的縮放因子意味著從搜索樹中剔除的節點更少。在這種情況下,調度性能與 B&B 方法非常接近,但節點訪問的計算負擔略有增加。
為了進一步減少計算時間,同時提供接近最優的結果,作者在參考文獻[109]中實施了蒙特卡洛樹搜索(MCTS)。[109]中,除了 B&B 的優勢規則外,還使用 DNN 作為策略網絡,將搜索重點放在樹形結構中更有前景的分支上。MCTS 與 DNN 的結合使用了流行的 AlphaGo 和 AlphaZero 方法 [110,111]。在每個樹節點上,通過對 B&B 方法獲得的理想解決方案進行監督學習而訓練出的策略網絡會創建一個優先級分布。雖然該方法與參考文獻[108]有些相似,但有一些明顯的不同。[108]有些相似,但也有一些明顯的區別。例如,參考文獻[108]中的算法需要固定數量的策略網絡。例如,參考文獻 [108] 中的算法需要固定數量的任務,而在本文中,輸入狀態側重于下一個要安排的任務。這樣就能實現任意數量的活動輸入任務。與采用值函數的文獻[108]不同,本文采用的是以 7 層 DNN 為模型的策略網絡。仿真結果表明,隨著蒙特卡羅滾動次數的增加,平均成本接近最佳 B&B 性能。與基準方案相比,該方案實現了接近最優的性能,而且計算復雜度比 B&B 方法低幾個數量級。
雖然參考文獻[108, 109]中的工作 [108、109] 中的工作雖然能產生接近最優的結果,同時減少了計算負擔,但兩者都需要通過離線執行 BnB 生成訓練數據,這同樣需要大量的計算時間。此外,不同的問題規模和/或任務分布需要不同的訓練數據。最重要的是,這兩種方法都無法讓雷達適應動態環境。
為此,同一作者開發了一種基于 MCTS 方法的近似算法,利用雷達與環境交互的數據訓練認知調度程序[112]。RL 模型用于在多種約束條件下訓練策略網絡,如非同質信道、阻塞信道和周期性任務。策略網絡的目的是減少 MCTS 搜索的寬度。每個 RRM 任務都有相關的開始時間、完成時間期限和下降成本。假設任務在不同信道上的執行方式不同。Q 函數值提供了在給定節點上采取特定行動時所獲得的預期效用的估計值。通過運行 MCTS 獲得的統計數據用于訓練網絡參數,然后對參數進行調整,以盡量減少交叉熵損失。策略網絡有七層深度,前四層為卷積層,后三層為全連接層。所提出的 MCTS + 策略網絡模型的平均成本和任務丟棄率均低于基準算法。
在 Shaghaghi 等人的監督學習方法[109]和參考文獻[111]中的 RL 工作的基礎上,Gaafar 等人提出了任務調度問題的修正 MCTS 解決方案,以找到有效的低復雜度解決方案[113]。[112]的基礎上,Gaafar 等人針對任務調度問題提出了一種改進的 MCTS 解決方案,以找到一種有效的低復雜度解決方案[113]。改進后的 MCTS 進一步得到了基于 RL 的模型的補充,該模型可以利用基于獎勵的機制進行學習,而無需大量的訓練數據集。對經典 MCTS 算法的第一項修改是,不允許重訪已訪問過所有與其分支相關的解的狀態。其次,任務排序基于開始時間,因此選擇較早任務的概率較高
效用函數由三個相互沖突的因素組成: (i) 支持基于較早開始時間的任務選擇;(ii) 支持基于已知低成本的任務選擇;(iii) 探索訪問次數較少的任務。在基于 RL 的方法中,通過訓練 DNN 來學習所有任務概率向量的最佳值。MCTS 會產生具有更好解決方案的行動,但 DNN 會利用訓練數據引導 MCTS 采取更好的搜索策略。參考文獻 [113] 中的 DNN 引導 MCTS 系統如圖 3 所示。[113] 的 MCTS 系統如圖 3 所示。使用 5 層 DNN 作為 DNN 結構,結果顯示平均驗證成本降低了,放棄任務的比例降低了,平均成本接近最優。
不過,該算法在訓練和調度單個問題時在線時間較長。此外,這項工作沒有考慮對環境重大變化的適應性,因為在算法的訓練和測試階段,任務特征的概率分布被認為是固定的。最終,如果任務分配和環境發生突然變化,算法需要更長時間的自我訓練。該方法對兩個階段任務特征概率分布之間可能存在的差異的穩健性尚不清楚。
最近的另一項研究[114]將重點放在 MFR 中的自適應重訪間隔選擇(RIS)上,將其視為一個時間管理問題,并將其表述為具有未知狀態轉換概率和獎勵分布的 MDP。提出的獎勵函數是在保持軌跡損失概率作為優化約束條件的同時,最大限度地降低跟蹤負荷|轉移學習(TL)。采用 Q-learning 算法和 epsilon-greedy 策略來解決這個問題。最小化時間預算和跟蹤損失的目標體現在智能體的即時獎勵和累計獎勵中。建議算法的性能與基于預測誤差協方差矩陣 (PECM) 的基準解決方案進行了比較 [115]。比較使用的是跟蹤損失和位置預測誤差的平均值和峰值。在這兩項指標上,所提出的基于 RL 的方案都明顯優于基準方案,從而鞏固了基于 RL 的算法在與 RIS 相關的時間管理 RRM 任務中的實用性。不過,結果表明,學習速度會隨著狀態空間大小的增加而降低,這對于基于表格的 RL 方法來說是一個主要問題。此外,Q-learning 在非穩態環境中也很難發揮作用,而這正是認知雷達 RRM 的具體情況。
最近的另一項研究利用 Q-learning 在 MFR 中進行動態任務調度[116]。首先,為執行任務的 MFR 網絡創建一個 MDP,并以掉落任務比率作為評估標準。然后,為 Q-learning 算法設計狀態-行動空間。在進行行動選擇時,要同時考慮新狀態會產生的當前和未來回報。與先到先執行的基準方法相比,基于 Q-learning 算法的方案明顯降低了放棄任務的比例。但是,該方法沒有考慮延遲成本,而延遲成本是雷達任務調度問題中的一個重要指標。
最近的一項研究 [117],開發了一種深度 Q 網絡智能體,并使用兩種不同的獎勵方案對其進行了測試,結果表明,僅在任務重疊隊列的情況下,其性能優于 EST。對于另一種有非重疊任務隊列的情況,EST 的性能則優于 DQN 智能體。此外,DQN 只顯示了四項任務的結果,考慮到實際情況,這是一個很小的數字。
我們從數據庫中找到了幾篇最近的論文,這些論文利用了基于 RRM 的任務調度和參數選擇的 ML 技術。第一項研究是參考文獻[37]。[37]中,作者采用 CNN 對相控陣雷達天線系統中的到達方向(DoA)進行估計。該問題被模擬為多類分類,其中每一類指定一個不同的子陣列。在不預先知道目標位置的情況下,從接收到的陣列信號的協方差樣本中提取特征圖來訓練 CNN。創建訓練數據時,要使用能產生最低最小 MSE 邊界的子陣列。在這項工作中,CNN 模型被選擇為有九層深度,它不依賴天線幾何形狀來優化天線子陣列的選擇。基于 CNN 的結構比早期基于 SVM 的模型[118]的分類效果好 32%,DoA 估計精度也高 72%。
我們的調查清楚地表明,基于 RL 的算法在 RRM 的調度優化問題中很受歡迎,因為它具有以下優點 (i) 它不像監督學習那樣需要外部訓練數據來學習,(ii) 它能減少計算時間,同時產生接近最優的結果,(iii) 它具有適應動態環境的潛力。
參考文獻[119]正式介紹了基于 QoS 的資源分配模型。參考文獻[119]正式介紹了基于 QoS 的資源分配模型,其在基于符號 AI 的 RRM 中的應用已在第 3.4 節中討論過。Q-RAM 的目標是在滿足資源限制的前提下,最大限度地提高一組雷達任務在波形、停留時間和跟蹤濾波器等操作參數上的效用。對于動態環境,Q-RAM 的計算效率很低,因為它必須在資源分配幀中重復重新計算運行參數,這對算法的反應時間也造成了限制。為此,參考文獻[7, 120]提出了連續雙拍賣參數選擇算法。參考文獻 [7, 120]提出了連續雙拍賣參數選擇算法,該算法可將前一時間步的解決方案調整到當前時間步,而無需重新計算全部資源分配,從而減少了動態 RRM 問題的計算量。
在最近有關 RRM 的文獻中,有一篇論文采用了基于 QoS 的資源分配模型 ML,用于雷達系統的智能決策[121]。這項工作使用了 DRL 模型,其中一個 NN 智能體預測了一連串理想的任務配置,而不需要資源效用空間中的所有配置。具體來說,智能體學習輸出與輸入配置相比資源效用差商最大的任務配置。每個行動的獎勵都是該特定行動實現的上述效用-資源-商數的直接函數。智能體采用單工優勢行為批判網絡建模 [122]。經過 RL 訓練的智能體在選擇任務配置時相當成功,因為給定的資源能產生很高的效用。特別是,在 120,000 個訓練步驟中,Q-RAM 性能達到了 97%-99%。
這種基于 RL 的技術的真正優勢在于降低了計算復雜度。用數學術語來說,其改進幅度為對數 c,其中 c 是每個任務可能配置的數量。參考文獻[121]中報告的性能似乎并不理想。121]的性能似乎并不比參考文獻[7]更好。[不過,它顯示了基于 RL 的 RRM 在超載情況下的潛力,而且不需要極高的計算復雜度。在現實應用中,每個任務的配置數量可能會變得很高,在這種情況下,可以通過 Wolpertinger 算法[123]來訓練 RL 智能體。此外,基于 RL 智能體的方法可以很容易地集成到現有的 Q-RAM 實現中,并實現認知雷達系統所需的 "自學習 "能力。
語義分割作為計算機視覺領域的重要研究方向之一,應用十分廣泛,其目的是根據預先定義好的類別對輸入圖像進行像素級別的分類,實時語義分割則在一般語義分割的基礎上又增加了對速度的要求,被廣泛應用于如無人駕駛、醫學圖像分析、視頻監控與航拍圖像等領域。其要求分割方法不僅要取得較高的分割精度,且分割速度也要快。隨著深度學習和神經網絡的快速發展,實時語義分割也取得了一定的研究成果。本文在前人已有工作的基礎上對基于深度學習的實時語義分割算法進行系統地歸納總結,特別是最新的基于transformer和剪枝的方法,全面介紹實時語義分割方法在各領域中的應用。本文首先介紹實時語義分割的概念,再根據標簽的數量和質量,將現有的基于深度學習的實時語義分割方法分為強監督學習、弱監督學習和無監督學習三個類別;在分類的基礎上,結合各個類別中最具有代表性的方法,對其優缺點展開分析,并從多個角度進行比較。隨后介紹目前實時語義分割常用的數據集和評價指標,并對比分析各算法在各數據集上的實驗效果。闡述現階段實時語義分割的應用場景。最后,討論了基于深度學習的實時語義分割存在的挑戰,并對實時語義分割未來值得研究的方向進行展望,為研究者們解決存在的問題提供便利。
天域感知是太空能力的基礎和關鍵,各軍事大國均競相發展天域感知能力。隨著太空目標的迅速增多和感知技術的快速進步,獲取的天域感知數據呈指數級增長,實體關聯關系高度復雜化。傳統的知識獲取和表述方式難以滿足天域感知領域應用需求。知識圖譜是基于圖的知識網絡庫,具備強大的語義處理能力和開放組織能力。文中在天域感知領域引入知識圖譜技術,研究自動化天域感知知識圖譜技術架構和構建流程,提出基于本體和三元組模型的領域知識圖譜建模技術以及基于RoBERTa-BiLSTM-CRF的領域知識抽取技術,為天域感知上層應用賦能賦慧。
太空所特有的全時、全域、能夠自由進出等特 點,以及航天技術、信息技術的快速發展,使得各國 對于太空資源的爭奪愈加激烈,太空平臺對于國家 安全重要性日益突出,來自太空的威脅也日益嚴重。 傳統的軍事大國均競相大力發展太空能力,天域感 知能力是太空能力的基礎和關鍵。2018 年 4 月,美 參聯會發布《太空作戰》條令,用十大能力代替原有 五大任務領域,太空態勢感知為十大能力之一[1]。 2019 年 10 月,美國空軍司令部副司令通知要求用 “天域感知”( Space Domain Awareness,SDA) 來代替 原來的“太空態勢感知”,并將其定義為“識別、表征 和理解與天域相關、有可能影響到太空作戰并進而 影響國家安保、安全、經濟或環境的任何被動或主動 因素”[2]。2020 年 8 月,美軍發布太空領域頂層文 件《太空力量》( Spacepower) ,明確了太空安全、作戰 力量投射、太空機動和后勤、信息傳輸、天域感知等 為五項核心能力,天域感知位列其中[3]。 知識是對信息的組織和抽象,是所有概念、事 實、規則、公理的集合,通常采用本體進行規范化描 述和建模[4]。知識圖譜( Knowledge Graph,KG) 是 一種基于圖的網絡知識庫,用圖對知識和知識關系 進行建模和表征,將各類知識連接到語義網絡中,由 實體、關系和屬性組成,用于描述各種實體及實體之 間的關系,基本構成單元包括“實體-屬性”和“實 體-屬性-實體”“實體-關系-實體”三元組[5-7]。按 照知識覆蓋范圍和應用領域,知識圖譜可以分為通 用知識圖譜( General-purpose Knowledge,GKG) 和領 域 知 識 圖 譜 ( Domain-specific Knowledge Graph, DKG) [8]。知識圖譜具備強大的語義處理能力和開 放組織能力,已成為人工智能和大數據的一項關鍵 技術。 天域感知領域需對空間實體、地面站、航天發射 基地、偵察對象、隸屬單位等態勢要素,信息、對抗、 協同、隸屬、來源等關聯關系,以及要素、狀態、能力 屬性等進行表征,隨著天域感知技術的發展,獲取的 信息種類越來越多樣化,實體間關系將更加復雜化, 知識應用將愈加廣泛,難以依托現有的通用領域知 識圖譜技術進行天域感知領域知識圖譜構建。另 外,隨著天域感知數據獲取手段的進步,半結構化和 結構化數據急劇增多,現有的隱馬爾科夫模型 ( Hidden Markov Model,HMM) 、循環神經網絡( Recurrent Neural Network,RNN) 、雙向長短記憶網絡 ( Bi-directional Long Short-Term Memory,BiLSTM) 、 條件隨機場( Conditional Random Fields,CRF) 等技 術存在分詞、標注、上下文語義表達等方面能力不 足,知識抽取效果有待提升。因此,針對上述天域感 知領域特點和現有方法不足,本文充分考慮天域感 知專業特點,基于天域感知領域專家經驗知識對天 域感知領域的知識圖譜進行建模,同時,采用結合 RoBERTa、BiLSTM、CRF 等方法優點的知識抽取技 術,實現天域感知知識的高質量抽取,構建天域感知 領域 知 識 圖 譜 ( Space Domain Awareness Domain - specific Knowledge Graph,SDADKG) ,為天域感知知 識語義檢索、智能分析推理、輔助認知決策等應用打 下基礎。
三維重建是指從單幅或多幅二維圖像中重建出物體的三維模型并對三維模型進行紋理映射的過程。三維重建可獲取從任意視角觀測并具有色彩紋理的三維模型,是計算機視覺領域的一個重要研究方向。傳統的三維重建方法通常需要輸入大量圖像,并進行相機參數估計、密集點云重建、表面重建和紋理映射等多個步驟。近年來,深度學習背景下的圖像三維重建受到了廣泛關注,并表現出了優越的性能和發展前景。本文對深度學習背景下的圖像三維重建的技術方法、評測方法和數據集進行全面綜述。首先對三維重建進行分類,根據三維模型的表示形式可將圖像三維重建方法分類為基于體素的三維重建、基于點云的三維重建和基于網格的三維重建;根據輸入圖像的類型可將圖像三維重建分類為單幅圖像三維重建和多幅圖像三維重建。隨后介紹了不同類別的三維重建方法,從三維重建方法的輸入、三維模型表示形式、模型紋理顏色、重建網絡的基準值類型和特點等方面進行總結,歸納了深度學習背景下的圖像三維重建方法的常用數據集和實驗對比,最后總結了當前圖像三維重建領域的待解決問題以及未來的研究方向。
三維重建的目標是從單幅或多幅二維圖像中重 建出物體和場景的三維模型并對三維模型進行紋理 映射。三維重建是計算機視覺領域的一個重要研究 方向,利用計算機重建出物體的三維模型,已經成為 眾多領域進行深入研究前不可或缺的一部分。在醫 療領域中,利用三維模型診斷身體狀況;在歷史文化 領域中,將文物進行立體重建,供科學研究及游客參 觀。除此之外,在游戲開發、工業設計以及航天航海 等領域,三維重建技術具有重要的應用前景。目前, 研究人員主要利用 3 類方法來重建三維模型,1)直 接操作的人工幾何建模技術;2)利用三維掃描設備 對目標進行掃描,然后重建目標的三維模型;3)圖像 三維重建,采集單幅或多幅圖像,運用計算機視覺技 術來重建三維模型。在上述 3 種方法中,圖像三維 重建成本低、操作簡單,可以對不規則的自然或人工 合成物體進行建模,重建真實物體的三維模型。傳 統的圖像三維重建是從多視圖幾何(Andrew,2001) 的角度進行處理,從幾何上理解和分析從三維到 二維的投影過程,設計從二維到三維的逆問題解決方案進行三維重建。傳統的三維重建通常需要大量 已知相機參數的圖像,并進行相機參數估計、密集點 云重建和表面重建等多個步驟。隨著卷積神經網絡 (convolutional neural network,CNN)的發展,深度學 習廣泛應用于計算機視覺中的各種領域,基于深度 學習的技術方法利用先驗知識來解決各種復雜問 題。人們通常能夠對物體和場景建立豐富的先驗知 識,便于從單一視角重建物體的立體模型,推斷物體 的大小和其他視角的形狀。深度學習背景下的圖像 三維重建方法利用大量數據建立先驗知識,將三維 重建轉變為編碼與解碼問題,從而對物體進行三維 重建。隨著三維數據集的數量不斷增加,計算機的 計算能力不斷提升,深度學習背景下的圖像三維重 建方法能夠在無需復雜的相機校準的情況下從單幅 或多幅二維圖像中重建物體的三維模型。 三維模型的表示形式有3種:體素模型、網格模 型和點云模型。體素是三維空間中的正方體,相當 于三維空間中的像素;網格是由多個三角形組成的 多面體結構,可以表示復雜物體的表面形狀;點云是 坐標系中的點的集合,包含了三維坐標、顏色和分類 值等信息。三維模型的表示形式如圖1所示。 根據三維模型的表示形式可以將圖像三維重建 方法分類為基于體素的三維重建、基于點云的三維 重建和基于網格的三維重建。其中,基于網格的三 維重建方法包含單一顏色的網格三維重建和具有色 彩紋理的網格三維重建。根據輸入圖像的類型可將 圖像三維重建分類為單幅圖像三維重建和多幅圖像 三維重建。圖像三維重建方法分類如圖2所示。典 型的三維重建算法時間順序概述如圖3所示。 盡管目前已有一些三維重建相關綜述文獻(鄭 太 雄 等,2020;吳 博 劍 和 黃 惠,2020;龍 霄 瀟 等, 2021),但已有的綜述文獻主要介紹傳統方法或特殊 物體的三維重建,介紹深度學習背景下的圖像三維 重建技術的文獻相對偏少。本文主要對近年來深度 學習背景下的圖像三維重建的分類和研究現狀進行 總結。
現代數字雷達在其波形、雷達參數設置和傳輸方案方面提供了前所未有的靈活性,以支持多種雷達系統目標,包括目標探測、跟蹤、分類和其他功能。這種靈活性為提高系統性能提供了潛力,但需要一個閉環感知和響應方法來實現這種潛力。完全自適應雷達(FAR),也被稱為認知雷達,是模仿認知的感知-行動周期(PAC),以這種閉環方式適應雷達傳感器。在這項工作中,我們將FAR概念應用于雷達資源分配(RRA)問題,以決定如何將有限的雷達資源如時間、帶寬和天線波束寬度分配給多個相互競爭的雷達系統任務,并決定每個任務的傳輸參數,使雷達資源得到有效利用,系統性能得到優化。
已經提出了一些感知-行動的RRA方法。這一領域的最新工作被稱為認知雷達資源管理,而較早的相關工作則被稱為簡單的傳感器管理或資源分配。這些算法依賴于兩個基本步驟。首先,它們以概率方式捕獲(感知)監視區域的狀態。其次,他們使用這種概率描述,通過確定哪些行動有望實現效用最大化來選擇未來的傳感行動。
任何RRA算法的一個關鍵挑戰是平衡目標探測、跟蹤、分類和其他雷達任務的多個競爭性目標。這一點通過優化步驟中用于選擇下一步雷達行動的目標函數來解決。目標函數也被稱為收益、標準、價值或成本函數。因此,以適合優化的數學形式闡明系統目標,對完全自適應雷達資源分配(FARRA)系統的運行至關重要。隨著可用于適應的參數數量和雷達系統任務數量的增加,這變得越來越困難。這種優化有兩種基本方法:任務驅動和信息驅動。
在任務驅動的方法中,為每個任務指定性能服務質量(QoS)要求,如探測目標的預期時間或跟蹤的均方根誤差(RMSE),并通過加權各種任務的效用來構建一個綜合目標函數。這樣做的好處是能夠分別控制任務性能,并確定任務的相對重要性。然而,它需要用戶有大量的領域知識和判斷力,以指定任務要求和傳感器成本,并構建成本/效用函數和加權,以結合不同的任務性能指標。
在信息驅動的方法中,一個全局信息測量被優化。常見的信息測量包括熵、相互信息(MI)、Kullback-Leibler分歧(KLD)和Renyi(alpha)分歧。信息指標隱含地平衡了一個雷達可能獲得的不同類型的信息。這具有為所有任務提供共同的衡量標準(信息流)的理想特性,但沒有明確優化諸如RMSE等任務標準。因此,信息理論的衡量標準可能很難被終端用戶理解并歸結為具體的操作目標。此外,如果沒有額外的特別加權,它們不允許單獨控制任務,并可能產生以犧牲其他任務為代價而過度強調某些任務的解決方案,或者選擇在用戶偏好判斷下只提供邊際收益的傳感器行動。
在這項工作中,我們考慮一個雷達系統對多個目標進行同步跟蹤和分類。基于隨機優化的FAR框架[28],為我們的PAC提供了結構。我們開發并比較了用于分配系統資源和設置雷達傳輸參數的任務和信息驅動的FARRA算法,并在模擬機載雷達場景和俄亥俄州立大學的認知雷達工程工作區(CREW)實驗室測試平臺上說明其性能。這項工作結合并擴展了我們以前在傳感器管理[8-14]和FAR[18, 21, 27, 29-31]的工作。初步版本發表于[32]。結果表明,任務和信息驅動的算法具有相似的性能,但選擇不同的行動來實現其解決方案。我們表明,任務和信息驅動的算法實際上是基于共同的信息理論量,所以它們之間的區別在于所使用的指標的粒度和指標的加權程度。
本章的組織結構如下。在第10.2節中,我們提供了FAR框架的概述,在第10.3節中,我們通過為這個問題指定FAR框架的組成部分來開發多目標多任務FARRA系統模型。在第10.4節中,我們描述了組成FARRA PAC的感知和執行處理器,包括我們采用的任務和基于信息的目標函數。在第10.5節中,我們提供了比較優化方法的機載雷達仿真結果,在第10.6節中,我們展示了CREW測試平臺的結果。最后,第10.7節介紹了這項工作的結論。
單個PAC的FAR框架是在[18, 27]中開發的,在此總結一下。圖10.1是一個系統框圖。PAC由感知處理器和執行處理器組成。PAC通過硬件傳感器與外部環境互動,通過感知處理器和執行處理器與雷達系統互動。感知處理器接收來自硬件傳感器的數據,并將其處理為對環境的感知。該感知被傳遞給雷達系統以完成系統目標,并傳遞給執行處理器以決定下一步行動。執行處理器接收來自感知處理器的感知以及來自雷達系統的要求,并解決一個優化問題以決定下一個傳感器的行動。執行處理器通知硬件傳感器下一次觀察的設置,傳感器收集下一組數據,然后循環往復。
圖10.1: 單一PAC FAR框架