多功能雷達的設計目的是在有限的資源（時間、頻率和能量）預算內執行不同的功能，如監視、跟蹤、火控等。雷達系統中的雷達資源管理（RRM）模塊對相關任務的優先級、參數選擇和調度做出決策。然而，最佳的 RRM 算法通常計算復雜，操作雷達需要采用啟發式方法。另一方面，基于人工智能（AI）的算法已被證明能以可控的計算復雜度產生接近最優的雷達資源分配結果。本調查研究旨在通過對基于人工智能的 RRM 技術進行全面的文獻綜述，使研究人員和從業人員更好地了解人工智能在 RRM 相關問題中的應用。我們首先介紹了 RRM 的背景概念，然后簡要回顧了用于 RRM 的符號 AI 技術。主要關注最先進的機器學習技術在 RRM 中的應用。我們強調最近的研究成果及其在實時資源分配優化的實際 RRM 場景中的潛力。本研究最后根據所做的調查，討論了有待解決的研究問題和未來的研究方向。

無線電探測和測距（俗稱雷達）的工作原理是向潛在目標發射電磁波，目標散射入射電磁波，接收終端接收散射信號，然后對接收到的能量進行信號處理，以提取有關目標的有意義信息。雷達最初是在第二次世界大戰期間為軍事應用而設計的，現在已被廣泛應用于軍事（如多目標跟蹤）、安全相關（如穿墻探測和跟蹤）或民用（如生物醫學和汽車雷達）領域。雷達有三種基本功能，即：(i) 搜索、(ii) 跟蹤和 (iii) 成像。在搜索操作中，雷達系統試圖通過在預設的仰角和/或方位角范圍內掃描來探測和獲取感興趣的目標。為了跟蹤移動目標，雷達會多次探測目標，獲取目標在射程、方位角/仰角范圍內的狀態觀測數據。在探測和跟蹤目標后，可啟動成像模式，從目標的大小、形狀、方位角、仰角和速度等方面獲取有關目標的信息[1]。

多功能雷達（MFR）[2]是雷達系統中相對較新的發展，能夠同時執行多種雷達功能，如監視、多目標跟蹤、波形生成和電子波束轉向[3, 4]。然而，所有雷達，甚至所有系統的資源都是有限的；就雷達而言，關鍵資源是時間、能量、頻率和計算。當需要同時執行多項任務時，這些資源必須以某種結構化的方式分配給各項任務。因此，雷達資源管理（RRM）[5] 需要在 MFR [6] 內進行任務優先級排序、參數選擇和資源分配。當雷達任務超載時，有效的資源管理尤為重要，也就是說，要正確執行所有分配的任務，需要的資源要多于可用資源。因此，RRM 背后的基本前提圍繞著 MFR 任務之間的優化和折衷。優化的目標是找到一種盡可能高效地分配資源的方法。在需要折衷的情況下，某些任務被認為更為重要，因此會在其他任務之前分配資源[7]。事實上，為了執行其他關鍵任務，一些優先級較低的任務可能會被放棄。

在 RRM 的第一階段，任務參數（如優先級、停留時間和重訪間隔）是在嚴格的資源限制條件下，通過啟發式方法 [8] 或聯合優化技術 [9] 確定的。優先級分配在情況層進行，而參數優化則根據資源管理的聯合實驗室主任數據融合模型[10]在對象層進行[4]。在第二階段，在測量層面進行任務調度，以確定任務執行的確切時間和順序，從而在雷達時間軸上容納盡可能多的任務，而不會造成重大延誤。

任務調度可使用基于隊列或基于幀的調度器[11]。基于隊列的調度器根據某些標準從有序列表中執行任務，如最早開始時間（EST）和最早截止時間優先調度器[6]。另一方面，基于幀的調度器則使用各種啟發式算法[12]或基于機器學習（ML）的算法[13]來逐幀估計要執行的最佳任務。RRM 調度算法可分為自適應算法和非自適應算法。自適應算法對任務進行優先級排序和調度，以優化雷達在動態變化環境中的性能雷達；而非自適應算法則預先確定任務優先級，任務調度采用一些預設的啟發式規則，不做任何優化[6]。

由于現代雷達必須執行越來越復雜的任務，最近的研究重點是開發認知雷達，即從環境和過去的行動中學習以提高性能的計算系統[14]。重要的是，認知雷達在學習了過去的性能和環境感知后，將以高效的計算方式做出接近最優的決策。參考文獻[14]中的最初建議是概念性的，而后來的研究則將這一概念進一步擴展到了認知雷達。[14]中的最初建議是概念性的，而最近 ML 技術的使用呈指數級增長，使得認知雷達的實現成為可能。

人工智能（AI）已應用于許多不同領域，如無線通信[15-18]、語音信號處理、計算機視覺和自然語言處理[19]等。人工智能算法涉及多個領域，如邏輯編程、推薦系統和 ML [20] 等。人工智能大致可分為符號人工智能（Symbolic-AI）和多重智能（ML），前者是通過規則引擎、專家系統和知識圖譜等人工干預進行符號推理，后者則是通過數據學習、識別模式，并在盡量減少人工干預的情況下做出決策[21]。近年來，美國國防部高級研究計劃局啟動了許多與雷達中的 ML 應用有關的項目，如射頻 ML 系統項目[22]、自適應電子戰行為學習項目[23]和自適應雷達對抗項目[24]。基于雷達的 ML 應用包括發射器識別和分類 [25，26]、圖像處理 [27，28]、圖像去噪 [29，30]、目標自動重建 [31，32]、目標檢測 [33，34]、抗干擾 [35]、最佳波形設計 [36] 和陣列天線選擇 [37]。此類應用中使用的一些基于 ML 的算法包括傳統的 ML 技術，如決策樹（DT）、支持向量機（SVM）、K-means 算法和隨機森林（RF）。一些值得注意的深度學習（DL）技術包括卷積神經網絡（CNN）、自動編碼器（AE）、深度信念網絡、遞歸神經網絡（RNN）和生成對抗網絡（GAN）。

貢獻和組織

雷達研究界認識到 ML 技術在不同領域的廣泛適用性，因此除了傳統的符號人工智能技術外，還開始將基于 ML 的算法應用到 RRM 任務中。由于這些工作相對較新，因此尚未對這一領域的文獻進行全面系統的調查。我們在本文中的工作填補了這一空白，對現有的 RRM 中的 ML 應用文獻進行了廣泛概述，同時還強調了雷達研究界需要關注的一些關鍵領域。一些相關的調查論文（摘要見表 1）討論了聯合雷達和通信 (JRC) 中的 RRM [42]、雷達信號處理中的 ML 應用 [43]，以及 RRM 算法概述 [44]。對人工智能研究的調查，尤其是對用于 RRM 的 ML 的調查，仍是一個未知領域，本文將對此進行探討。簡而言之，本文的貢獻如下：

利用 RRM 模型提供了 RRM 的基本知識和一些基本概念。此外，我們簡要討論了網絡雷達和認知雷達的 RRM 以及量化 RRM 領域性能的重要指標（第 2 節）。

我們簡要回顧了符號-人工智能領域一些著名的 RRM 作品，這些作品是最近基于 ML 的 RRM 的基準結果（第 3 節）。

將對應用于雷達 RRM 問題的 ML 進行全面回顧。討論將包括對 RRM 任務的分析，其中包括任務調度、時間資源管理、目標跟蹤、目標分類、頻譜分配和服務質量 (QoS) 資源管理。
將解釋研究人員如何將 ML 技術用于這些任務，以及使用這些技術的相關利弊（第 4 節）。
此外，為了完整起見，我們還將回顧近期有關人工智能的部分文獻，特別是人工智能在雷達非 RRM 相關任務中的應用。其中一些用例包括無人機探測、雷達監控、波形合成與識別以及醫學成像（第 5 節）。
最后，我們強調了基于 ML 的雷達所面臨的挑戰，并討論了潛在的研究方向。特別是，我們提出了強化學習（RL）的理由，以及它將如何在基于 RRM 的用例中發揮作用（第 6 節）。

基礎主題涵蓋了符號人工智能領域更多的傳統基準工作，而文章的后半部分則回顧了過去 4-5 年間與基于 ML 的 RRM 應用相關的最新成果，這些成果來自 IEEE Xplore 和 IET 等公共數據庫。我們特別關注了 IEEE 國際雷達會議、IEEE 雷達會議、Asilomar、IEEE 航空航天和電子系統論文集、IEEE 航空航天和電子系統雜志以及 IET 雷達聲納和導航論文集中的論文。我們希望我們的論文能幫助雷達領域的研究人員和專業人士找出研究差距，并在這一重要領域開展有意義的工作。

雷達資源管理的符號AI

本節簡要回顧了一些基于人工智能方法的雷達資源管理算法，這些算法具有問題、邏輯和搜索的高級符號表示。基于符號-人工智能的雷達資源管理方法分為六類：(i) 模糊邏輯算法；(ii) 信息論方法；(iii) 動態編程（DP）；(iv) 基于服務質量的資源分配模型（Q-RAM）；(v) 波形輔助算法；(vi) 自適應更新率算法。

3.1 模糊邏輯算法

模糊邏輯控制器計算效率高，因此非常適合在雷達任務調度器中執行優先級任務。模糊邏輯處理單元包括三個步驟： (i) 模糊化，(ii) 模糊規則，(iii) 去模糊化。由于雷達調度器中可能存在相互沖突的任務，模糊邏輯可通過分配模糊值作為目標優先級因素來解決沖突。在共享資源中，模糊邏輯允許任務具有一定程度的靈活性，以實現高效的資源分配。許多研究工作都提出在雷達任務優先級和調度中使用基于模糊邏輯的方法。例如，參考文獻[45, 46]提出了一種包含五個模糊變量（航跡質量、敵情、武器系統、威脅和位置）的決策樹結構，用于確定雷達任務的優先級。[45, 46]提出了雷達任務優先排序的決策樹結構。另一篇論文[51]提出了一種動態模糊邏輯方法，用于雷達系統模擬測試平臺中的波形選擇和能量管理。

3.2 信息論方法

由克勞德-香農[52]創立的信息論研究對整個科學，特別是通信、信號處理和控制產生了巨大影響。信息論方法在傳感器管理中的主要優勢在于，它將系統設計分為兩個獨立的任務：信息收集和風險/回報優化，從而簡化了系統設計 [53]。參考文獻[54]認為，信息理論方法可用于傳感器管理。[54]中提出，信息論方法能以直接的方式為多種性能標準提供增益，因此適合應用于多功能 RRM。參考文獻[55]中的工作引入了信息論測量方法。參考文獻[55]介紹了與 RRM 相關的信息論措施，這些措施已被證明適用于控制軌道更新的調度。

信息論中的一個關鍵指標是熵，它可以衡量系統的無序性，或者是從穩定狀態過渡到混亂狀態的跡象。這一指標可用于調度 [56] 或資源分配 [57]。在雷達系統中，參考文獻[58]首次提出了用于 RRM 的熵概念。[58]. 作者將不確定性因素用于有時間和資源限制的雷達系統。特別是，應用任務是使用單個多功能相控陣雷達確定目標位置并更新軌跡。所提出的方法使用了一個制定的熵度量來平衡分配給每個任務的資源。在實際系統中，需要使用自適應濾波器來更準確地確定熵值，從而獲得更可靠的性能。

3.3 動態規劃

動態規劃是多階段優化問題中一種常用的資源分配方案。該規劃首先將優化問題分割成若干子問題。然后，建立最優遞歸關系，并決定采用正向或逆向方法解決問題。在進行必要的計算后，就能找到每個階段的最優策略，進而得出總體最優策略。在 RRM 中，DP 算法可同時解決任務優先級和調度問題。在參考文獻[59]中，作者部署了一個任務優先級算法。[59]中，作者采用了一種 DP 算法來最小化相控陣雷達的目標跟蹤誤差。參考文獻[60]采用了隱馬爾可夫模型的多臂強盜問題，以優化波束調度。[60]中采用了隱馬爾可夫模型的多臂強盜問題，以優化電子掃描陣列跟蹤系統中的波束調度。另一篇論文[61]提出了一種基于 DP 的解決方案，用于更新相控陣雷達系統中搜索任務的調度。盡管文獻中已將 DP 廣泛用于雷達配置和參數維度的優化，但其計算復雜度較高，難以實際應用。

3.4 基于服務質量的資源分配模型算法

Q-RAM 是一種分析方法，用于在資源受限的環境中同時滿足多個 QoS 指標。利用該模型，可將可用資源在多個任務之間進行合理分配，從而最大化所選的凈效用函數。這種方法還允許在系統內的多個目標之間進行權衡。在 RRM 環境中，Q-RAM 的優化是為了保持可接受的服務質量水平，其模型是成本函數。其數學公式是在資源限制條件下，最大限度地提高基于服務質量的系統效用函數。參考文獻[62]介紹了 RRM 的 Q-RAM 框架。[62]，該框架由可調度包絡、Q-RAM 單元和基于模板的調度器組成。Q-RAM 單元作為資源分配單元，采用快速凸優化技術為雷達任務分配參數，同時考慮任務重要性和當前利用水平等因素。雷達 QoS 優化基于 Q-RAM 的早期工作[63]，最初用于自適應 QoS 中間件，用于基于 QoS 的資源分配和可調度性分析[64]。參考文獻[65]提出了一種基于預約的任務調度機制，可保證性能。[65] 中提出了一種基于預約的任務調度機制，可保證實時雷達的性能要求。另一項相關工作是[66]，它提出了一種基于模板的調度算法，可在離線情況下構建一組模板，同時考慮時序和功耗約束。參考文獻[67]則提出了一種動態 Q-RR 算法。[67]中，針對雷達跟蹤應用提出了一種動態 Q-RAM 方案，其中納入了影響任務 QoS 的物理和環境因素。參考文獻[68]中介紹的 Q-RAM 方法表明，基于時間的限制如何影響任務的 QoS。[68]展示了如何將基于時間的約束條件建模為利用率，以便使用資源管理技術。此外，在雷達跟蹤應用等高度可配置的任務中，優化時間被證明是可以縮短的。

3.5 波形輔助算法

雷達波形可從照明環境中提取所需的時間、頻率、空間、偏振和調制信息。它可以是連續波，也可以是脈沖波。就雷達內的任務調度和任務優先級功能而言，智能波形選擇可提高資源管理效率。不同的波形可優化雷達中的監視、探測、跟蹤和分類操作 [6]。

參考文獻[69]介紹了一種概率數據關聯方案，用于選擇最佳波形。[69] 中介紹了一種概率數據關聯方案，用于選擇最優波形參數，使每個時間步的平均總均方跟蹤誤差最小。同樣，參考文獻[70]還介紹了另一種波形輔助交互多重模型（IMM），其目的是選擇最優的波形參數，使每個時間步的平均總均方跟蹤誤差最小。[70]，其目標是根據目標動態模型的預期信息最大化，選擇能降低任意相關目標不確定性的波形。文獻[71]提出了波束和波形調度跟蹤器，研究了實用方法。[71]研究了實現 RRM 監視和跟蹤統一的實用方法。該方法引入了在雷達視場中明智地放置一個永久性的智能體，因此被命名為 "偏執跟蹤器"。其他波形輔助探測、跟蹤和分類方法包括[72-74]。參考文獻[72]提出了一種自適應波形調度方法，用于在有限視界隨機 DP 的背景下探測新目標。[72] 中提出了一種在有限視界隨機 DP 背景下探測新目標的自適應波形調度方法，這種方法能以最小的雷達資源使用量最大限度地減少探測新目標所需的時間。Scala 等人[73] 提出了一種最小化跟蹤誤差的算法。參考文獻[74]中報告說，雷達波形在探測新目標時會產生誤差。[74]中指出，雷達波形可以通過最大化 Kullback-Leibler 信息數來區分目標，該信息數是觀測到的目標與備選目標之間差異的度量。研究表明，由此選擇的信號波形可顯著提高探測性能。

3.6 自適應更新率算法

自適應選擇采樣時間間隔可提高相控陣雷達的跟蹤性能[75]。這是因為高更新率適用于機動目標，而低更新率多用于非機動運動。因此，單一的更新率效率低下，可能不足以跟蹤執行復雜機動的目標。許多研究人員提出了自適應速率更新技術，如參考文獻[76]。[76]，其中波束調度、定位和檢測閾值根據計算負荷進行了優化。參考文獻[77]提出了一種 IMM 模型，具有雙重目的：一是通過優化計算負荷來優化光束調度、定位和檢測閾值；二是通過優化計算負荷來優化光束調度、定位和檢測閾值。[77]中介紹了一種 IMM 模型，其雙重目標是估計和預測目標狀態以及估計動態過程噪聲的水平。總體目標是減少單元時間內的軌道更新次數。另一項研究對軌跡更新進行了優化調度，以盡量減少雷達能耗[78]。能量最小化被模擬為一個非線性優化控制問題，并通過優化產生了一對軌跡更新間隔和信噪比（SNR）值的最佳序列。

符號人工智能具有出色的推理能力，但很難向其灌輸學習能力，而這正是人類智能的關鍵部分。由于符號人工智能依賴于顯性表征，而不考慮隱性知識，因此它很難發揮作用，尤其是在理解非結構化數據時（在雷達環境中，就 RRM 而言）。為此，人工智能領域引入了專注于機器自學的 ML1 范式。此后，ML 在許多領域都取得了巨大成功。最近，雷達研究界越來越傾向于將不同的 ML 技術用于 RRM 任務。下一節，我們將回顧基于 ML 的 RRM 的相關文獻。

雷達資源管理的機器學習

在本節中，我們將介紹這項工作的核心貢獻--對近期利用機器學習技術執行雷達資源管理任務的一些工作進行回顧。

大多數 RRM 任務都包括一定程度的優化，以選擇當前或規劃未來行動，尤其是對于認知雷達系統而言。然而，相關的計算成本可能會根據 RRM 任務的復雜程度而過度增加。例如，在有限的時間內同時執行多項任務的多目標飛行器中，最佳任務選擇和調度是一個 NP 難問題，當考慮到多條時間線時，復雜度會呈指數級增長。已有多種啟發式方法應用于該問題。雖然啟發式方法大大減少了計算時間，但啟發式方法的性能與全局最優解之間存在明顯差距。可以利用機器學習來彌補這一性能差距，同時保持較低的復雜度。通過使用離線學習、深度神經網絡（DNN）、在線學習和 RL，機器學習有能力在實時實施中降低計算成本。此外，一些 ML 模型還可以與啟發式方法一起訓練和使用，從而在相同的低復雜度水平下產生接近最佳的性能。

我們將在附錄中介紹一些最著名的 ML 算法，如圖 2 所示。這些算法已廣泛應用于通信領域，包括 RRM 和信號處理。傳統的 ML 算法大致分為以下幾種： (i) 監督算法；(ii) 無監督算法；(iii) RL 算法。監督學習算法通過標記的訓練數據來訓練一個函數，學習從輸入到輸出的映射。另一方面，無監督學習算法處理基于無標簽數據的聚類和關聯規則挖掘問題。在 RL 中，馬爾可夫決策過程（Markov decision processes，MDPs）等范例將利用和探索相結合，在環境中采取行動，以最大限度地提高累積獎勵。除上述三類算法外，一些 ML 算法還能從無標簽數據中結合少量標簽數據進行學習，這被稱為半監督學習（semi-supervised learning）。

深度學習是 ML 的另一種范式，據說其結構和功能以人腦為基礎，因此在科學計算領域大受歡迎。深度學習使用人工神經網絡對大量數據進行復雜計算。深度學習可以是監督式、非監督式或強化式，主要取決于神經網絡（NN）的使用方式。如圖 2 所示，用于深度監督學習的不同 NN 架構在深度 RL（DRL）中作為函數近似器特別有用。對于不熟悉 ML 范例背景和使用的讀者，可以參考最近的 ML 算法教程和概述 [79，80]。

本節的討論將根據 RRM 任務和功能進行劃分。具體而言，我們將討論最近基于人工智能的 RRM 文獻，涉及以下 RRM 任務領域：(i) 目標識別和跟蹤，(ii) 頻譜分配，(iii) 波形合成和選擇，(iv) 時間資源管理，(v) 任務調度和參數選擇，以及 (vi) Q-RAM。

4.1 目標識別和跟蹤

我們發現最近有許多關于目標檢測、目標跟蹤、雜波估計和雜波抑制的工作都采用了基于 ML 的技術。由于高效的 RRM 對進行實時識別和跟蹤至關重要，因此我們在本節中討論了這一功能。眾所周知，利用雷達之間的跟蹤和數據共享的協調 RRM 比獨立 RRM 任務的性能更好，而且占用的軌跡和幀時間更少 [81]。在參考文獻[82]中，貝葉斯多路復用（Bayesian multi-multi-RRM）技術被認為是最有效的方法。[82]中，使用高斯混合概率假設密度濾波器和長短期記憶網絡（LSTM）轉換函數進行貝葉斯多目標過濾。這項工作的目標是防止過濾器高估目標數量。該網絡架構基于高斯多變量密度估計，被稱為多維 LSTM（MD-LSTM）網絡。該架構由 3 個模塊組成： LSTM、密集層和輸出層。經過訓練的 MD-LSTM 模型將用于動態概率假設密度估計。在性能驗證方面，將提議模型的狀態估計與基準近恒速模型進行了比較。在另一項實驗中，利用不同的檢測概率評估了漏檢的影響。即使在誤報或漏檢的情況下，該模型也能防止濾波器過高估計目標[82]。這些性能僅代表了一種簡單的模擬場景，因此有必要利用真實數據為更復雜的場景探索最先進的 ML 技術。

另一項最新研究涉及用于認知雷達目標跟蹤的深度 Q 學習（DQL）[83]。假設環境要求雷達與通信共存，并使用馬爾可夫決策過程建模。單點目標被假定遵循某種直線恒速軌跡。馬爾可夫決策過程的狀態包括目標位置、目標速度和干擾模式。作者通過有限次數的訓練運行建立了過渡概率矩陣和獎勵矩陣。在完成訓練運行后，對基準 MDP 進行貝爾曼方程建模，同時根據特定動作的獎勵對神經網絡進行訓練。深度 Q 網絡（DQN）的權重會進行更新，以選擇被認為能帶來最高獎勵的最優行動。經過訓練的 DQN 將當前狀態作為輸入，并估算每個潛在行動的 Q 值，然后選擇 Q 值最高的行動。結果表明，當 DQN 在兩者都未訓練過的頻段內運行時，以及當計算復雜度增加而 MDP 變得低效時，DQN 的性能優于 MDP。

參考文獻參考文獻[84]在雷達目標跟蹤應用中采用了極端梯度提升（XGB）監督學習，其效果優于著名的貝葉斯濾波方法。由于貝葉斯跟蹤器需要準確的先驗信息來進行估計，因此在未知環境中性能不佳。監督學習模型以極坐標為基礎，并根據雷達測量結果進行訓練。損失函數用于預測最優樹結構和估計相應的葉值。設計的 XGB 過濾器（XGBF）的性能與粒子濾波（PF）的結果進行了比較。結果表明，就估計均方根誤差（RMSE）而言，XGBF 優于 PF，并且在 10,000 個、20,000 個和 40,000 個樣本中表現出相似的性能。本文主要關注的是單目標過濾問題；將雜波和多目標測量相關性問題納入其中將是一個挑戰，尤其是在由于無法獲得真實數據而需要生成訓練數據的情況下，本工作就是如此。

在目標識別和檢測領域。Bauw 等人利用半監督異常檢測方法（SAD）解決了檢測異常雷達目標的難題[85]。利用 ML 識別高分辨率測距剖面目標最近在雷達研究界受到了廣泛關注。作者提出了一種 SAD 方法，它是對早期提出的深度支持向量數據描述模型[86]的擴展。無監督異常檢測，即使有訓練污染，也能產生可靠的結果，但船舶檢測場景除外，因為船舶的形狀和大小差異很大。半監督異常檢測有可能用較少的標注數據點來改善檢測結果；這是一個重要的優點，因為標注圖像數據是一個耗時且成本高昂的過程。另一方面，參考文獻[87]中的研究成果也能提高檢測結果。另一方面，參考文獻[87]中的工作使用了一種展開魯棒 PCA（RPCA）方法，用于雷達中的目標識別和干擾緩解。文中討論的用例專門針對安裝在自動駕駛車輛上的雷達。這項工作的主要創新點是在展開式 RPCA 的遞歸結構中引入殘余超完全自動編碼器塊，從而能夠估計環境中干擾的振幅和相位。汽車雷達推理緩解數據集 [88] 被用來訓練所提出的模型。無論是在接收器工作特征下面積（ROC）方面，還是在根據標簽信號計算的測距輪廓振幅與預測信號之間的平均絕對誤差方面，所提出的模型都優于選定的基準。

由于匹配濾波器和似然比檢驗在沒有先驗信息的情況下不可行，因此也有人提出了基于 DL 的無線電信號檢測技術。例如，在參考文獻[89]中，雙向 LL 檢測器被用于檢測無線電信號。[89] 中提出了基于 LSTM 的雙向去噪編碼器，用于檢測環境中是否存在雷達信號。LSTM 的雙向版本包含前向和后向傳遞，這使得非因果信息（即前向和后向相關性）的推導成為可能，從而提高了性能[90]。基于 RNN 的去噪自動編碼器在低誤報概率和更高的 ROC 下面積方面優于能量檢測器和時頻域檢測器等業界基準檢測器。

從背景干擾中分辨目標的能力在海事應用中變得更加重要，因為只有在掌握先驗環境信息的情況下，才能準確估計海面雜波。卷積神經網絡和自動編碼器 (AE) 在基于圖像的數據集方面表現出極高的分類準確性。為了研究它們在海面雜波檢測中的適用性，參考文獻[91]的作者使用了一個混合模型，其中包含了一個自動編碼器。參考文獻 [91] 使用包括 CNN 和 LSTM 的混合模型，以較低的計算復雜度估計 K 加噪聲分布的參數。CNN-LSTM 采用 CNN 層進行特征提取，LSTM 層支持序列預測。在均方誤差 (MSE) 和計算復雜度方面，一維 CNN-LSTM 估計器優于 z log(z) 算法。參考文獻[92]中的研究工作也側重于減輕對圖像的影響。[92]中的工作也側重于緩解海雜波回波造成的問題，這些問題會影響小型目標檢測時的性能。由于目標檢測方案使用的振幅分布需要特定參數的知識，這些參數估計不準確會導致檢測結果不佳。作者在參考文獻中使用了在線字典學習，用于學習信號的稀疏表示，收斂速度比字典學習更快。

使用大量測距/多普勒圖上的目標信號干擾比和小型船只的信號回波對性能進行了評估。所提出的基于 DL 的海雜波抑制技術在外來雜波區域的性能略優于其他算法。還有一些關于人工智能和 ML 在雷達監視系統中應用的調查論文值得一提。在參考文獻[93]中，作者對雷達監視系統中的大數據進行了預測。[93]中，作者將大數據軌跡作為改進雷達監視系統的有效方法。他們特別關注異常檢測的方法和用例，描述了數據源、數據預處理框架和工具、數據平滑以及基于 ML 的技術中滑動窗口的作用。兩種架構：討論了用于實時監控的 Lambda 和 Kappa。熱圖在船舶風險評估中的應用案例表明，熱圖非常有助于對情況進行可視化評估。同樣，通過使用分層基于密度的噪聲應用空間聚類[94]對感興趣的區域進行聚類，可以相對容易地提取物體和港口之間的關系。Wrabel 等人[95] 綜述了利用雷達傳感器進行目標監視的人工智能技術。這項工作的重點是 (1) 雜波識別，(2) 目標分類和 (3) 目標跟蹤。雜波識別采用了多種人工智能方法，包括貝葉斯分類器、集合方法、k-近鄰（kNN）、SVM 和神經網絡模型。除這些技術外，還使用 RNN、CNN 和決策樹模型進行了目標分類。同樣，還對目標跟蹤方面的工作進行了審查，其中比較流行的技術有集合技術、神經網絡、SVM 和 RNN。

4.2 頻譜分配

我們發現最近有兩篇論文都在雷達頻譜分配領域使用了 RL 技術。在參考文獻[96]中，作者將 RL 作為一種分散的頻譜分配方法，用于避免汽車故障。[96]中，作者將 RL 作為一種分散的頻譜分配方法，以避免汽車雷達之間的相互干擾。由于 RL 算法可以在未知環境中學習決策策略，因此適用于雷達傳感器對環境信息掌握有限的情況。LSTM 網絡通過時間匯總觀察結果，這樣，模型就能學會利用當前和過去的觀察結果選擇最佳子頻段。這項工作假設整個頻段被劃分為不重疊的子頻段，且雷達設備的數量大于子頻段的數量。

基于 RL 的頻譜分配工作原理如下。首先，處理上一步的信號并構建當前觀測值。然后，發射器 Q 網絡通過匯總歷史觀測數據選擇一個子頻段。接收器終端產生的獎勵將指導發射器 Q 網絡選擇更好的子頻段選擇策略。與隨機策略和近視策略等基準分散頻譜分配方法相比，對所提出的算法進行了評估。結果表明，在不同流量密度場景下，該算法在成功率方面表現出色。不過，Q-網絡是在模擬環境中用相對簡單的場景模型進行訓練和測試的，以顯示所提方法的可行性。現實世界的環境可能很復雜，因此有必要進行建模，以更好地代表實際場景。

我們已經將 Q-learning 確立為資源管理問題的有力候選方案，因為它具有無需任何環境模型即可找到最佳行動價值函數的內在能力。在參考文獻[97]中，作者建立了一個基于資源管理問題的模型。[97]中，作者將雷達-通信帶寬分配問題建模為一個 MDP，然后應用策略迭代來確定最優策略。為了減輕雷達和通信網絡之間的干擾，基于 MDP 和 Q 學習的模型學習了干擾的時頻譜占用模式。模擬在三種干擾環境下進行： (i) 持續干擾；(ii) 高傳輸概率的間歇干擾；(iii) 低傳輸概率的間歇干擾。雷達不僅能學習頻率上的干擾模式，還能在目標靠近雷達的情況下以信號干擾加噪聲比（SINR）換取帶寬的增加。這項工作只研究了五個子帶；更多的子帶會使狀態空間的大小呈指數增長，導致更復雜的訓練需要更長的時間。基于策略的 DRL 技術的目標是學習一組遠遠小于狀態空間的參數，可以解決這個問題，擴展工作[98]已經證明了這一點。

參考文獻[98]中的工作應用了非線性 DRL 技術。[98]中的工作通過 DRL 應用非線性值函數近似來解決認知脈沖雷達與通信系統之間的動態非合作共存問題。基于 DRL 的方法允許雷達改變其線性頻率調制器的帶寬和中心頻率，從而提高了目標探測能力和頻譜效率。作者特別使用了 DQL 算法，并將其擴展到雙深遞歸 Q 網絡 (DDRQN)，結果表明 DDRQN 進一步提高了 DQL 方法的穩定性和策略迭代。這項工作是對早期使用 MDP 進行雷達波形選擇的方法的擴展[97]。與參考文獻[97]中的模型不同的是，該模型采用了默認的波形。[97] 中的模型在狀態轉換模型未指定的情況下采取默認行動，而本文提出的模型則利用估計的函數值來執行更明智的行動。通過在軟件定義無線電上進行的實驗，對擬議算法與策略迭代算法和感知-規避（SAA）算法的性能進行了比較。與基準方案相比，已公布的結果表明在新場景中收斂更快，學習效果更好。

4.3 波形合成與選擇

波形優化是具有自適應發射機和接收機的認知雷達的主要特征之一。從預定義波形庫或編碼本（CB）中選擇波形，可同時完成特定或多個雷達任務。波形優化的核心在于利用任何形式的分集（如空間分集、波束模式、頻率分集、編碼分集和極化）所帶來的多因子效應。

優化波形選擇可采用基于 NN 的框架，如參考文獻 [99] 所述。[在該文中，作者分析了雷達的蝕變、盲速、雜波、傳播和干擾因素。使用非線性 NN 模型估算了最佳波形參數。

參考文獻[100]中的討論提供了對雷達波形參數的總體概述。[100]對神經網絡和 ML 在認知雷達開發中的應用進行了總體概述，目的是降低實時實施的計算成本。該文討論了一個用例場景，即利用 RL 生成帶有 26 dB 功率譜密度 (PSD) 缺口的波形。問題是如何在雷達帶寬內放置凹口，從而最大限度地減少來自干擾器和其他通信設備的干擾。我們的想法是選擇一組相位，通過選擇波形在所創建信號的 PSD 范圍內形成一個凹口。相位選擇的非線性優化問題采用深度確定性策略梯度（DDPG）算法解決。從本質上講，深度確定性策略梯度是一種行動者批判模型，用于生成訓練輸入，并根據 NN 輸出的質量進行獎勵。行動者產生一組階段，供模擬環境評估。環境執行離散傅立葉變換，并計算所制定的目標函數值。該值即為該行動的獎勵，并反饋給批判性 NN。批判 NN 的設計是這樣的：它將狀態和行動作為不同層的輸入，并輸出 Q 值，該值反向傳播到行動輸入層，以獲得行動的誤差。DDPG RL 算法通過一個簡單的環境模擬器減輕了對標記數據集的需求。生成的 26 dB PSD 缺口可能不足以滿足實際部署的需要，但可以通過微調模型參數來增加缺口。重要的是，這種 RL 方法消除了對大量標注數據的需求，而這些數據在雷達部署前是無法用于模型訓練的。

雷達波形優化的另一個重要方面是合成具有理想模糊函數（AF）形狀和恒定模量特性的新型雷達波形。由于雷達編碼系列中可用的編碼序列數量有限，因此在操作 MFR 或基于多輸入多輸出的通信系統時會出現問題。如第 2 節所述，基于 GAN 的方法目前已被廣泛用于生成真實的合成數據，從而改善 DL 應用中的訓練結果。在參考文獻[101]中，基于 GAN 的神經網絡被廣泛使用。[101]中，基于 GAN 的 NN 結構用于從已有波形的訓練集中生成逼真的波形。其中，針對復值輸入數據開發了一種 Wasserstein GAN [102] 結構。該模型在 Frank 和 Oppermann 編碼上進行訓練，合成出與現有編碼具有高自相關性、相同 AF 和低交叉相關性的新波形。合成波形的 AF 圖與訓練數據集的波形高度相似。GAN 生成的波形與訓練數據集的交叉相關性幾乎可以忽略不計，這清楚地表明 GAN 可以生成逼真而獨特的雷達波形。合成的波形還被限制為具有恒定模量，以便有效地使用放大器。

由于雷達信號表現出時間相關性，因此與基準最小預期均方跟蹤誤差相比，在部分狀態信息上應用基于記憶的學習算法來學習波形選擇策略，可提高雷達性能[103]。參考文獻[104]中的工作建立了一個波形選擇模型，并將其應用于雷達系統中。文獻[104]利用上下文樹建立了雷達環境模型，并進一步利用該模型在與信號相關的目標信道中選擇波形。作者提出了一種基于 Lempel- Ziv 的波形選擇算法，該算法是有限階馬爾可夫目標信道的成本最優解。通用學習算法根據當前的上下文信息，對觀察到特定狀態的過渡概率進行估計。上下文樹通過向后遍歷之前觀察到的結果進行更新。在每一步中，通過利用已知的獎勵信息或探索新的行動來選擇行動。目標函數側重于目標檢測的準確性以及互信息的最大化。與基準方案相比，通用學習方法能產生更高的平均 SINR 和更低的 RMSE。由于通用學習算法非常復雜，作者考慮了大小有限的波形目錄和狀態空間離散化，以保持其可操作性；這可能會影響其在更實際場景中的性能。

另一個波形合成方案[105]專門針對反干擾雷達，研究了基于 RL 的聯合自適應跳頻和脈寬分配反干擾方案，因為當前的反干擾策略（使用跳頻和脈寬分配）往往難以適應復雜和不可預測的環境。與所描述的其他 RL 作品一樣，目標函數被模擬為 MDP。在部分信息環境情況下，利用 Q-Learning 學習優化的雷達抗干擾策略。獎勵函數值是雷達抗干擾函數的量化版本，包含兩個 RRM 任務，即跳頻和脈寬分配。基于 Q 學習的聯合優化算法與基準隨機跳頻策略進行了比較，后者在每個實例中從頻帶中隨機選擇一個頻率[106]。在不同的跳頻成本和傳輸脈沖數的情況下，基于 Q 學習的策略獲得了更高的平均回報。

4.4 時間資源管理/任務調度和參數選擇

在有限的時間預算內調度多個任務是多任務飛行器中最關鍵的 RRM 任務之一。時間是有限的資源，因此需要根據優先級謹慎地分配給不同的任務。這種優化問題的目標是盡量減少丟棄和延遲任務的數量，是一個 NP 難問題[7]。眾所周知，分支與邊界（B&B）方案可為該問題提供最優解[107]；然而，B&B 算法的計算復雜度會隨著待調度任務數量的增加而呈指數級增長。

Shaghaghi 等人在其關于 RRM 中 ML 的開創性工作中研究了多通道雷達 RRM 領域中的參數選擇、優先級和調度問題[108]。為了克服復雜性問題，在這項工作中，作者利用離線運行 B&B 算法獲得的數據訓練了一個由 DNN 組成的價值網絡。從本質上講，訓練好的 DNN 可以估算搜索樹節點的值，從而通過剔除遠離最優解的節點來加快 B&B 進程。基于 DNN 的解決方案在收斂到接近最優解的同時，大大減輕了計算負擔。為了使算法對估計誤差更加穩健，引入了一個縮放因子，選擇足夠高的縮放因子意味著從搜索樹中剔除的節點更少。在這種情況下，調度性能與 B&B 方法非常接近，但節點訪問的計算負擔略有增加。

為了進一步減少計算時間，同時提供接近最優的結果，作者在參考文獻[109]中實施了蒙特卡洛樹搜索（MCTS）。[109]中，除了 B&B 的優勢規則外，還使用 DNN 作為策略網絡，將搜索重點放在樹形結構中更有前景的分支上。MCTS 與 DNN 的結合使用了流行的 AlphaGo 和 AlphaZero 方法 [110，111]。在每個樹節點上，通過對 B&B 方法獲得的理想解決方案進行監督學習而訓練出的策略網絡會創建一個優先級分布。雖然該方法與參考文獻[108]有些相似，但有一些明顯的不同。[108]有些相似，但也有一些明顯的區別。例如，參考文獻[108]中的算法需要固定數量的策略網絡。例如，參考文獻 [108] 中的算法需要固定數量的任務，而在本文中，輸入狀態側重于下一個要安排的任務。這樣就能實現任意數量的活動輸入任務。與采用值函數的文獻[108]不同，本文采用的是以 7 層 DNN 為模型的策略網絡。仿真結果表明，隨著蒙特卡羅滾動次數的增加，平均成本接近最佳 B&B 性能。與基準方案相比，該方案實現了接近最優的性能，而且計算復雜度比 B&B 方法低幾個數量級。

雖然參考文獻[108, 109]中的工作 [108、109] 中的工作雖然能產生接近最優的結果，同時減少了計算負擔，但兩者都需要通過離線執行 BnB 生成訓練數據，這同樣需要大量的計算時間。此外，不同的問題規模和/或任務分布需要不同的訓練數據。最重要的是，這兩種方法都無法讓雷達適應動態環境。

為此，同一作者開發了一種基于 MCTS 方法的近似算法，利用雷達與環境交互的數據訓練認知調度程序[112]。RL 模型用于在多種約束條件下訓練策略網絡，如非同質信道、阻塞信道和周期性任務。策略網絡的目的是減少 MCTS 搜索的寬度。每個 RRM 任務都有相關的開始時間、完成時間期限和下降成本。假設任務在不同信道上的執行方式不同。Q 函數值提供了在給定節點上采取特定行動時所獲得的預期效用的估計值。通過運行 MCTS 獲得的統計數據用于訓練網絡參數，然后對參數進行調整，以盡量減少交叉熵損失。策略網絡有七層深度，前四層為卷積層，后三層為全連接層。所提出的 MCTS + 策略網絡模型的平均成本和任務丟棄率均低于基準算法。

在 Shaghaghi 等人的監督學習方法[109]和參考文獻[111]中的 RL 工作的基礎上，Gaafar 等人提出了任務調度問題的修正 MCTS 解決方案，以找到有效的低復雜度解決方案[113]。[112]的基礎上，Gaafar 等人針對任務調度問題提出了一種改進的 MCTS 解決方案，以找到一種有效的低復雜度解決方案[113]。改進后的 MCTS 進一步得到了基于 RL 的模型的補充，該模型可以利用基于獎勵的機制進行學習，而無需大量的訓練數據集。對經典 MCTS 算法的第一項修改是，不允許重訪已訪問過所有與其分支相關的解的狀態。其次，任務排序基于開始時間，因此選擇較早任務的概率較高

效用函數由三個相互沖突的因素組成： (i) 支持基于較早開始時間的任務選擇；(ii) 支持基于已知低成本的任務選擇；(iii) 探索訪問次數較少的任務。在基于 RL 的方法中，通過訓練 DNN 來學習所有任務概率向量的最佳值。MCTS 會產生具有更好解決方案的行動，但 DNN 會利用訓練數據引導 MCTS 采取更好的搜索策略。參考文獻 [113] 中的 DNN 引導 MCTS 系統如圖 3 所示。[113] 的 MCTS 系統如圖 3 所示。使用 5 層 DNN 作為 DNN 結構，結果顯示平均驗證成本降低了，放棄任務的比例降低了，平均成本接近最優。

不過，該算法在訓練和調度單個問題時在線時間較長。此外，這項工作沒有考慮對環境重大變化的適應性，因為在算法的訓練和測試階段，任務特征的概率分布被認為是固定的。最終，如果任務分配和環境發生突然變化，算法需要更長時間的自我訓練。該方法對兩個階段任務特征概率分布之間可能存在的差異的穩健性尚不清楚。

最近的另一項研究[114]將重點放在 MFR 中的自適應重訪間隔選擇（RIS）上，將其視為一個時間管理問題，并將其表述為具有未知狀態轉換概率和獎勵分布的 MDP。提出的獎勵函數是在保持軌跡損失概率作為優化約束條件的同時，最大限度地降低跟蹤負荷|轉移學習（TL）。采用 Q-learning 算法和 epsilon-greedy 策略來解決這個問題。最小化時間預算和跟蹤損失的目標體現在智能體的即時獎勵和累計獎勵中。建議算法的性能與基于預測誤差協方差矩陣 (PECM) 的基準解決方案進行了比較 [115]。比較使用的是跟蹤損失和位置預測誤差的平均值和峰值。在這兩項指標上，所提出的基于 RL 的方案都明顯優于基準方案，從而鞏固了基于 RL 的算法在與 RIS 相關的時間管理 RRM 任務中的實用性。不過，結果表明，學習速度會隨著狀態空間大小的增加而降低，這對于基于表格的 RL 方法來說是一個主要問題。此外，Q-learning 在非穩態環境中也很難發揮作用，而這正是認知雷達 RRM 的具體情況。

最近的另一項研究利用 Q-learning 在 MFR 中進行動態任務調度[116]。首先，為執行任務的 MFR 網絡創建一個 MDP，并以掉落任務比率作為評估標準。然后，為 Q-learning 算法設計狀態-行動空間。在進行行動選擇時，要同時考慮新狀態會產生的當前和未來回報。與先到先執行的基準方法相比，基于 Q-learning 算法的方案明顯降低了放棄任務的比例。但是，該方法沒有考慮延遲成本，而延遲成本是雷達任務調度問題中的一個重要指標。

最近的一項研究 [117]，開發了一種深度 Q 網絡智能體，并使用兩種不同的獎勵方案對其進行了測試，結果表明，僅在任務重疊隊列的情況下，其性能優于 EST。對于另一種有非重疊任務隊列的情況，EST 的性能則優于 DQN 智能體。此外，DQN 只顯示了四項任務的結果，考慮到實際情況，這是一個很小的數字。

我們從數據庫中找到了幾篇最近的論文，這些論文利用了基于 RRM 的任務調度和參數選擇的 ML 技術。第一項研究是參考文獻[37]。[37]中，作者采用 CNN 對相控陣雷達天線系統中的到達方向（DoA）進行估計。該問題被模擬為多類分類，其中每一類指定一個不同的子陣列。在不預先知道目標位置的情況下，從接收到的陣列信號的協方差樣本中提取特征圖來訓練 CNN。創建訓練數據時，要使用能產生最低最小 MSE 邊界的子陣列。在這項工作中，CNN 模型被選擇為有九層深度，它不依賴天線幾何形狀來優化天線子陣列的選擇。基于 CNN 的結構比早期基于 SVM 的模型[118]的分類效果好 32%，DoA 估計精度也高 72%。

我們的調查清楚地表明，基于 RL 的算法在 RRM 的調度優化問題中很受歡迎，因為它具有以下優點 (i) 它不像監督學習那樣需要外部訓練數據來學習，(ii) 它能減少計算時間，同時產生接近最優的結果，(iii) 它具有適應動態環境的潛力。

4.5 基于QoS的資源分配模型

參考文獻[119]正式介紹了基于 QoS 的資源分配模型。參考文獻[119]正式介紹了基于 QoS 的資源分配模型，其在基于符號 AI 的 RRM 中的應用已在第 3.4 節中討論過。Q-RAM 的目標是在滿足資源限制的前提下，最大限度地提高一組雷達任務在波形、停留時間和跟蹤濾波器等操作參數上的效用。對于動態環境，Q-RAM 的計算效率很低，因為它必須在資源分配幀中重復重新計算運行參數，這對算法的反應時間也造成了限制。為此，參考文獻[7, 120]提出了連續雙拍賣參數選擇算法。參考文獻 [7, 120]提出了連續雙拍賣參數選擇算法，該算法可將前一時間步的解決方案調整到當前時間步，而無需重新計算全部資源分配，從而減少了動態 RRM 問題的計算量。

在最近有關 RRM 的文獻中，有一篇論文采用了基于 QoS 的資源分配模型 ML，用于雷達系統的智能決策[121]。這項工作使用了 DRL 模型，其中一個 NN 智能體預測了一連串理想的任務配置，而不需要資源效用空間中的所有配置。具體來說，智能體學習輸出與輸入配置相比資源效用差商最大的任務配置。每個行動的獎勵都是該特定行動實現的上述效用-資源-商數的直接函數。智能體采用單工優勢行為批判網絡建模 [122]。經過 RL 訓練的智能體在選擇任務配置時相當成功，因為給定的資源能產生很高的效用。特別是，在 120,000 個訓練步驟中，Q-RAM 性能達到了 97%-99%。

這種基于 RL 的技術的真正優勢在于降低了計算復雜度。用數學術語來說，其改進幅度為對數 c，其中 c 是每個任務可能配置的數量。參考文獻[121]中報告的性能似乎并不理想。121]的性能似乎并不比參考文獻[7]更好。[不過，它顯示了基于 RL 的 RRM 在超載情況下的潛力，而且不需要極高的計算復雜度。在現實應用中，每個任務的配置數量可能會變得很高，在這種情況下，可以通過 Wolpertinger 算法[123]來訓練 RL 智能體。此外，基于 RL 智能體的方法可以很容易地集成到現有的 Q-RAM 實現中，并實現認知雷達系統所需的 "自學習 "能力。

付費5元查看完整內容

1 引言

人工智能（AI）是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此，它自然也是陸軍現代化的優先事項。從陸軍多域作戰（MDO）的角度來看，人工智能是解決問題的重要因素，而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義，但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如，識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是，當機器在沒有人類幫助的情況下獨立完成這些任務時，它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是，它們絕大多數都符合模式識別模式；在大多數情況下，它們根據經過訓練的人工神經網絡（ANN）對相同輸入數據的輸出結果，將輸入數據分配到數據類別中。具體來說，深度學習神經網絡（DNN）由多層人工神經元和連接權重組成，最初在已知類別的大量數據上進行訓練以確定權重，然后用于對應用中的實際輸入數據進行分類。因此，機器學習（ML），即自動機（這里指DNN）在訓練階段學習模式的過程，一直是一個主導主題。事實上，DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具（如tensorflow）的進步、圖形處理器（GPU）等計算能力的可用性，以及通過社交媒體等途徑獲取大量數據，使得深度學習模型在許多應用中得到了快速探索。

在監督學習中，人類專家創建一組樣本來訓練ML算法，訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢：

它們帶有準確的地面實況。
使用現成的模擬產品可輕松生成大量各種類型的數據。
它們在程序上的障礙較少，例如，生物識別數據需要獲得機構審查委員會的許可。

然而，最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明，在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而，并沒有普遍或分類的結果表明，當全部或部分使用合成數據進行訓練時，真實世界的ML性能會得到一致的提高。因此，有必要進行系統調查，以確定使用合成數據訓練ML方法的可信度。我們有理由假設，合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法，并提出了通過適當指標評估保真度的問題。以圖像為例，合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議（ASPSM）的一個主要目的是讓合成數據生成、人工智能和機器學習（AI & ML）以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據，反映了組織者在計算機視覺和場景感知方面的任務領域。

2 組織

根據上一節提出的問題，會議圍繞三個主題展開：

1.人類的學習和概括：人類可以從最小的抽象和描述概括到復雜的對象。例如，在許多情況下，觀察一個物體的卡通圖像或線描，就足以讓人類在真實場景中識別出實際的三維物體，盡管后者比卡通圖像或線描具有更復雜的屬性。這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力，將大大減輕數據合成機器的負擔，確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實，即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此，這項研究的重點是探索人類和動物的學習，以啟發ML和數據合成的新方法。

2.數據合成方法和驗證：大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然，我們必須確定執行此類評估的指標或標準。通常情況下，合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器（如電影中使用的）、基于物理的模擬（如紅外圖像）和生成模型（目前傾向于基于神經網絡）。

3.領域適應挑戰： ML中的領域適應是指使用一個領域（稱為源領域）的數據訓練ML模型，然后將ML應用于不同但相關領域（稱為目標領域）的數據。例如，使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法，然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時，它們通常構成源域，而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。

ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題，第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出，每個主題會議首先由該領域的學術專家進行40分鐘的主講，然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論，與會者可以討論與主題相關的各個方面。

3 口頭報告和小組討論

麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習"，深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。

同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程，將 "正向工程 "定義為創建ANN模型，以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準，人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果，并提出了ANN通過結合這些適應密切模擬人類行為，進而準確描述大腦功能的理由。

第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講，題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一，綽號 "寶貝"，其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點：與其創建一個模擬成人思維的程序，不如從模擬兒童思維開始。從本質上講，這意味著創造一種人工智能，通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為，監督學習本質上是處理靜態數據集，因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言，他認為監督訓練方法不適合創建能夠提供人類水平的世界理解，特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat"，這是一個由他和他的合作者開發的平臺，用于嵌入式人工智能的研究。在隨后的小組討論中，與會人員討論了演講者所涉及的主題，以及與機器人學習和當前兒童智力發展模型相關的主題。

第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”，作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中，他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是，無論合成數據是用于訓練ML還是供人類使用，其生成效率和真實性都非常重要。不過，他表示其他質量指標還沒有得到很好的定義，需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時，ML的物體識別性能有所提高，但他也承認很難得出可推廣的結論。

卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講，題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程，她的研究小組創造了一些實例，說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。

第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景"，分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術，用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。第二部分涉及增強和自我監督學習。發言人提出，當前的對比學習方法在合成增強數據時建立了不變量，而這些不變量可能是有益的，也可能是無益的。例如，建立旋轉不變性可能有利于識別場景中的花朵，但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法，并展示了與現有技術相比性能有所提高的結果。第三部分介紹了一種名為 "Tent"（測試熵）的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同，從而導致性能下降。因此，需要對DNN參數進行實時或測試時調整，以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰，尤其是紅外圖像方面的挑戰。

第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷，即如果在合成過程中考慮到真實數據的物理特性，那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程，涵蓋了正規數學方法以及較新的生成對抗網絡（GANs）。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布，使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。

佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型，然后將模型應用于現實世界。她指出了四個挑戰：生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說，用于泛化的特定領域掩碼（DMG）方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型，從而解決多源領域學習問題。

第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授，他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題，介紹了視覺領域適應的歷史，并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中，講座詳細討論了領域適應。特別重要的是，Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性，就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題，包括訓練域和測試域的不同，不是感興趣的對象不同，而是對象所處的環境不同，例如訓練時軍用車輛在沙漠環境中，而測試時則在熱帶植被背景中。

4 分組討論

三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中，首先討論了 "人類如何學習？"、"ML模型如何模仿人類過程？"以及 "合成數據如何實現這些過程？"等問題。從童年到青春期和成年期，學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。

關于 "數據綜合：方法與驗證 "分論壇確定了數據合成的幾個問題，特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術（包括GANs技術）的局限性。據觀察，合成圖像和視頻生成至少已有幾十年的歷史，但大多數產品要么是為視覺效果而設計，要么是為再現物理測量而設計（例如，紅外模擬中的輻射剖面）。它們并不適合用于ML培訓。提出的另一個問題是，合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出，能夠在特定的感興趣的環境中生成大量合成數據，可以作為第一道工序測試新的人工智能和ML方法，而不管這些方法是否能夠在真實數據中很好地工作。

專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力，即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到，這些領域的工作才剛剛開始。分組討論的牽頭人強調，需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。

5 差距和建議

根據本次ASPSM的討論，我們確定了以下值得陸軍進一步進行科技投資的領域：

1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集（如農村環境中的車輛圖像）相比，有必要開發更能代表支持持續學習的體現性體驗的模擬器，就像我們在人類身上看到的那樣，并實現對世界更豐富的表征。混合方法（如增強現實）也可將人類監督的優勢與合成環境的靈活性結合起來。

2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法，如基于圖的卷積神經網絡，已經在學習空間和時間的層次關系（如物體-部件和因果關系）方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性，合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。

3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略，如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性，通常讓代理與（通常是人類）教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習（即融合來自多個傳感器的數據）相結合，以實現更豐富的世界表征，使其更穩健、更具通用性。同樣，在這一領域難以獲得大量經過整理的數據，這也為探索合成引擎提供了動力。

4.學習物理或具備相關物理領域知識的算法和架構。在許多領域（例如紅外光下的物體感知），從圖像感知和合成圖像需要了解世界的基本物理特性，例如光與材料之間的相互作用。然而，當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。

5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距，必須進一步推動當前建立領域不變中間表征的趨勢，特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構（如光照、旋轉、顏色）的表征更有可能成功抽象出合成數據中不重要的細節。

6.深入了解ML模型內部表征的方法，以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層，允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征，有助于識別所學內容的關鍵差異，從而找到克服這些差異的解決方案。

6 結論

為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點，即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法，尤其是當前的學習架構，是如何創建場景的內部表示的。另外兩個重要領域是：1）理解人類學習與ML世界中可能存在的學習之間的異同；2）多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。

付費5元查看完整內容

AI與軍事 · 完全自適應雷達 · 美國空軍研究實驗室（AFRL） ·

2022 年 12 月 23 日

[付費5元查看完整內容]《完全自適應雷達的數學和算法挑戰》美國空軍研究實驗室

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

研究目標

諸如困難目標、嵌入復雜雜波和相互競爭的背景目標設置以及日益嚴重的有意和無意 RF 干擾等幾個因素，繼續增加現代高性能雷達的復雜性和挑戰。認知型全自適應雷達（CoFAR）的推出是為了應對日益復雜的工作環境的挑戰。CoFAR的特點是通過感知-學習-適應（SLA）方法學習和理解完整的多維雷達信道（目標、雜波、干擾等），實現完全自適應發射、接收和控制器/調度器功能。該系統能夠通過估計由雜波和其他干擾信號組成的雷達信道，共同優化自適應發射和接收功能。

隨后的脈沖或相干脈沖間隔（CPI）的雷達波形和CoFAR的接收濾波器基本上是利用對雷達信道的了解來計算的，其中包括雜波和其他干擾信號。在實踐中，信道信息是未知的，應該從探測信號中估計。因此，這些CoFAR系統的有效性高度依賴于雷達信道的靜止性以及信道估計算法的準確性。我們開發了新的信道估計算法，利用了相鄰脈沖的信道脈沖響應之間的關系。所提出的算法優于傳統的無約束的最小二乘法解決方案。

我們還解決了下一步的問題，該框架涉及一個由 "我們 "和 "對手 "組成的對抗性信號處理問題。"我們 "指的是一種資產，如無人機/UAV或探測 "對手 "認知雷達的電磁信號。認知型傳感器將我們在噪聲中的運動狀態作為觀察對象。然后，它使用貝葉斯跟蹤器來更新我們狀態的后驗分布，并根據這個后驗選擇一個行動。我們在噪聲中觀察傳感器的行動。鑒于對 "我們的 "狀態序列和對手的傳感器所采取的觀察到的行動的了解，我們將重點放在以下相互關聯的方面。我們認為敵方雷達通過實施維納濾波器來選擇其發射波形以跟蹤目標，從而使其信號-雜波-噪聲比（SCNR）最大化。通過觀察雷達選擇的最佳波形，我們將制定一個智能策略來估計對手的認知雷達信道，然后通過信號相關的干擾產生機制來迷惑對手的雷達。

研究總結

2020財年的研究報告分為兩大重點：

1 約束信道估計算法

我們的主要目的是開發一種新的信道估計算法，以改善無約束的最小二乘法解決方案，特別是在低信噪比的情況下，因為沒有任何約束的最小二乘法解決方案受到低信噪比值的影響。我們提出了在余弦相似性約束和前一個脈沖的信道脈沖響應與當前脈沖之間的內積約束下的約束最小二乘法問題，該信道脈沖響應正在被估計。

我們首先研究了RFView數據集中相鄰脈沖的信道脈沖響應之間的余弦相似度測量和內積值，觀察到較近的脈沖之間的信道脈沖響應顯示出較高的余弦相似度和內積值。我們還觀察到，無約束的最小二乘法解決方案顯示出更低的余弦相似度值，尤其是在低信噪比環境下。

然后，我們提出了一個新的帶有余弦相似性約束的約束最小平方問題，以改善最小平方解。由于最小二乘法的解決方案不符合余弦相似性約束的理想值，我們強制要求估計的信道脈沖響應有一個理想的余弦相似性測量。由此產生的優化問題是一個非凸問題，然而，我們將其轉換為一個非凸的二次約束二次程序，對其而言，強對偶性是成立的。此外，我們觀察到，無論信噪比水平如何，相鄰信道脈沖響應之間的內積值都不會變化。我們將內積約束添加到帶有余弦相似性約束的非凸式QCQP中，然后得出一個凸式優化問題。

我們使用RFView的真實數據集，提供了所提方法與傳統的無約束租賃平方解決方案的數值結果。我們表明，所提出的兩種方法都優于最小二乘法的解決方案。這也表明，具有余弦相似性約束和內積約束的凸問題顯示出最好的性能，盡管計算復雜度比具有余弦相似性約束的非凸QCQP低得多。我們還提供了使用RFView挑戰數據集的仿真結果，帶有內積約束的凸問題在挑戰數據集中表現良好。

2 通過逆濾波進行信道/參數估計和智能干擾設計

我們考慮了涉及認知雷達的相互關聯的對抗性推理問題，并解決了如何在物理層層面設計干擾來迷惑雷達，從而迫使它改變發射波形。對手雷達通過實施維納濾波器來選擇目標跟蹤的發射波形，以使其信號-雜波-噪聲比（SCNR）最大化。通過觀察雷達選擇的最佳波形，我們開發了一種智能策略來估計對手的認知雷達信道，然后通過信號相關的干擾生成機制來迷惑對手的雷達。

我們的目標是使我們產生的干擾的信號功率最小化，同時確保對手雷達的SCNR不超過預先定義的閾值。其設置示意圖見圖1。

圖1. 涉及對抗性認知雷達和我們的發射信道、雜波信道和干擾信道的示意圖。我們在噪聲中觀察雷達的波形W。我們的目的是設計干擾信道P來迷惑認知雷達。

我們首先描述了認知型雷達如何根據其感知的干擾來優化選擇其波形的特點。該雷達的目標是選擇使其SCNR最大化的最佳波形。然后，我們設計最佳干擾信號，通過解決一個概率約束的優化問題來迷惑對手的認知雷達。最佳干擾信號使其功率最小，從而使雷達的SCNR以規定的概率低于閾值。為了解決由此產生的非凸優化問題，我們首先從觀測中估計發射和雜波信道脈沖響應，并使用信道脈沖響應的估計值來產生干擾信號。

認知型雷達在其目標脈沖響應和傳遞函數的方向上使其能量最大化。只要我們從脈沖中準確估計出目標信道的傳遞函數，我們就可以立即產生與信號相關的干擾，使目標回波無效。即使在我們自適應地進行估計后，雜波信道脈沖響應發生變化，因為目標信道在較長時間內是靜止的。因此，在我們結束估計后，信號依賴干擾將在幾個脈沖中成功工作。這種方法的主要收獲是，我們正在利用認知雷達通過優化與環境有關的波形來提供其信道信息的事實。

付費5元查看完整內容

AI與軍事 · 完全自適應雷達 · 美國空軍研究實驗室（AFRL） ·

2022 年 7 月 14 日

[付費5元查看完整內容]美國空軍研究實驗室支持《用于跟蹤和分類的完全自適應雷達資源分配》35頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代數字雷達在其波形、雷達參數設置和傳輸方案方面提供了前所未有的靈活性，以支持多種雷達系統目標，包括目標探測、跟蹤、分類和其他功能。這種靈活性為提高系統性能提供了潛力，但需要一個閉環感知和響應方法來實現這種潛力。完全自適應雷達（FAR），也被稱為認知雷達，是模仿認知的感知-行動周期（PAC），以這種閉環方式適應雷達傳感器。在這項工作中，我們將FAR概念應用于雷達資源分配（RRA）問題，以決定如何將有限的雷達資源如時間、帶寬和天線波束寬度分配給多個相互競爭的雷達系統任務，并決定每個任務的傳輸參數，使雷達資源得到有效利用，系統性能得到優化。

已經提出了一些感知-行動的RRA方法。這一領域的最新工作被稱為認知雷達資源管理，而較早的相關工作則被稱為簡單的傳感器管理或資源分配。這些算法依賴于兩個基本步驟。首先，它們以概率方式捕獲（感知）監視區域的狀態。其次，他們使用這種概率描述，通過確定哪些行動有望實現效用最大化來選擇未來的傳感行動。

任何RRA算法的一個關鍵挑戰是平衡目標探測、跟蹤、分類和其他雷達任務的多個競爭性目標。這一點通過優化步驟中用于選擇下一步雷達行動的目標函數來解決。目標函數也被稱為收益、標準、價值或成本函數。因此，以適合優化的數學形式闡明系統目標，對完全自適應雷達資源分配（FARRA）系統的運行至關重要。隨著可用于適應的參數數量和雷達系統任務數量的增加，這變得越來越困難。這種優化有兩種基本方法：任務驅動和信息驅動。

在任務驅動的方法中，為每個任務指定性能服務質量（QoS）要求，如探測目標的預期時間或跟蹤的均方根誤差（RMSE），并通過加權各種任務的效用來構建一個綜合目標函數。這樣做的好處是能夠分別控制任務性能，并確定任務的相對重要性。然而，它需要用戶有大量的領域知識和判斷力，以指定任務要求和傳感器成本，并構建成本/效用函數和加權，以結合不同的任務性能指標。

在信息驅動的方法中，一個全局信息測量被優化。常見的信息測量包括熵、相互信息（MI）、Kullback-Leibler分歧（KLD）和Renyi（alpha）分歧。信息指標隱含地平衡了一個雷達可能獲得的不同類型的信息。這具有為所有任務提供共同的衡量標準（信息流）的理想特性，但沒有明確優化諸如RMSE等任務標準。因此，信息理論的衡量標準可能很難被終端用戶理解并歸結為具體的操作目標。此外，如果沒有額外的特別加權，它們不允許單獨控制任務，并可能產生以犧牲其他任務為代價而過度強調某些任務的解決方案，或者選擇在用戶偏好判斷下只提供邊際收益的傳感器行動。

在這項工作中，我們考慮一個雷達系統對多個目標進行同步跟蹤和分類。基于隨機優化的FAR框架[28]，為我們的PAC提供了結構。我們開發并比較了用于分配系統資源和設置雷達傳輸參數的任務和信息驅動的FARRA算法，并在模擬機載雷達場景和俄亥俄州立大學的認知雷達工程工作區（CREW）實驗室測試平臺上說明其性能。這項工作結合并擴展了我們以前在傳感器管理[8-14]和FAR[18, 21, 27, 29-31]的工作。初步版本發表于[32]。結果表明，任務和信息驅動的算法具有相似的性能，但選擇不同的行動來實現其解決方案。我們表明，任務和信息驅動的算法實際上是基于共同的信息理論量，所以它們之間的區別在于所使用的指標的粒度和指標的加權程度。

本章的組織結構如下。在第10.2節中，我們提供了FAR框架的概述，在第10.3節中，我們通過為這個問題指定FAR框架的組成部分來開發多目標多任務FARRA系統模型。在第10.4節中，我們描述了組成FARRA PAC的感知和執行處理器，包括我們采用的任務和基于信息的目標函數。在第10.5節中，我們提供了比較優化方法的機載雷達仿真結果，在第10.6節中，我們展示了CREW測試平臺的結果。最后，第10.7節介紹了這項工作的結論。

完全自適應雷達框架

單個PAC的FAR框架是在[18, 27]中開發的，在此總結一下。圖10.1是一個系統框圖。PAC由感知處理器和執行處理器組成。PAC通過硬件傳感器與外部環境互動，通過感知處理器和執行處理器與雷達系統互動。感知處理器接收來自硬件傳感器的數據，并將其處理為對環境的感知。該感知被傳遞給雷達系統以完成系統目標，并傳遞給執行處理器以決定下一步行動。執行處理器接收來自感知處理器的感知以及來自雷達系統的要求，并解決一個優化問題以決定下一個傳感器的行動。執行處理器通知硬件傳感器下一次觀察的設置，傳感器收集下一組數據，然后循環往復。

圖10.1: 單一PAC FAR框架

付費5元查看完整內容

AI與軍事 · 機器學習 · 紅外視頻 · 美國陸軍 · 態勢感知 ·

2022 年 7 月 7 日

[付費5元查看完整內容]美國陸軍《機器學習方法對紅外視頻數據的適用性》27頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外（EOIR）傳感器同時使用可見光和紅外傳感器，使其能夠在光照和黑暗（日/夜）情況下使用。這些系統經常被用來探測無人駕駛飛機系統（UAS）。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的。

該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡，該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向，以便在未來進行擴展。建議包括微調這個模型，以及在這個數據集上使用其他機器學習方法，如目標檢測和 YOLO算法。

付費5元查看完整內容

自動駕駛 · 邊緣計算 · 協同感知 ·

2021 年 5 月 3 日

[付費5元查看完整內容]面向自動駕駛的邊緣計算技術研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

邊緣計算在自動駕駛的環境感知和數據處理方面有著極其重要的應用。自動駕駛汽車可以通過從邊緣節點獲得環境信息來擴大自身的感知范圍，也可以向邊緣節點卸載計算任務以解決計算資源不足的問題。相比于云計算，邊緣計算避免了長距離數據傳輸所導致的高時延，能給自動駕駛車輛提供更快速的響應，并且降低了主干網絡的負載。基于此，首先介紹了基于邊緣計算的自動駕駛汽車協同感知和任務卸載技術及相關挑戰性問題，然后對協同感知和任務卸載技術的研究現狀進行了分析總結，最后討論了該領域有待進一步研究的問題。

付費5元查看完整內容