圖 5-30： YOLOv3 在重新分配的半標簽視譜圖上探測到的船只。(為便于說明，圖像對比度有所增強）。

在復雜的計算機視覺應用中，卷積神經網絡（CNN）的性能已經超過了人類水平，并有可能大大提高紅外反艦導彈尋的器算法的性能。但是，基于卷積神經網絡的算法的性能非常依賴于用于優化這些算法的數據，通常需要大量完全標注的真實世界訓練示例集。

本論文分為四個技術章節，探討了將 CNN 應用于長波紅外船舶探測、識別和鑒定所面臨的挑戰。為了解決缺乏合適的長波紅外訓練數據的問題，我們合成生成了一個由 972,000 張帶有不同海景和背景雜波的軍用艦船全標記圖像組成的大型熱仿真數據集。該數據集--IRShips--是全球最大的公開可用的此類圖像庫。

圖 3-14：數據后處理算法概覽。

可配置的自動工作流程管道極大地促進了基于 CNN 算法的開發。這項工作開始時還沒有這樣的工具，因此我們創建了一個集成的模塊化深度學習開發環境--Deeplodocus。該環境已公開發布，目前已躋身 Python 軟件包索引庫前 50%軟件包的行列。利用 Deeplodocus，對全卷積單級 YOLOv3 物體檢測算法進行了訓練，以檢測真實世界長波紅外圖像序列中高度雜亂的船只。進一步增強 YOLOv3 后，F 分數達到 0.945，這是首次使用合成數據來訓練 CNN 算法，以成功檢測長波紅外圖像中的軍用艦船。

圖 2-5：說明必須將多個不同的流程和軟件組件編譯成單一的互聯系統，才能訓練、驗證和測試深度學習算法。

利用新加坡海事數據集的視覺光譜和近紅外數據，將 YOLOv3 的檢測準確率與兩個替代 CNN（Faster R-CNN 和 Mask R-CNN）進行了基準比較，結果顯示 YOLOv3 比 Mask R-CNN 快三倍，但準確率低 3%。通過使用依賴光譜域的編碼對 YOLOv3 進行修改后，近紅外測試數據的準確性達到了一流水平，同時保持了 YOLOv3 在速度上的顯著優勢。

圖 1-3: 現代制導導彈所含關鍵子系統示意圖

表 1-1：部分現役反艦導彈的最大速度和射程，以及推進、導航和末端制導方式。

圖 3-5：作為合成紅外數據集基礎的 10 個 CAD 模型。(不按比例）。

付費5元查看完整內容

方法

首先，有必要建立一個全像素方法，它將作為一個控制和基準。這種算法的作用是找到強度最大的像素位置。在出現平局的情況下，解決方案將是峰值位置的平均值。因此，如果像素值是飽和的，全像素估計有可能產生一個小數值。請注意，由于圖像生成的性質，最大值，因此整個像素的估計值將出現在子圖像的中心（或在飽和圖像的情況下接近中心）。這意味著，只要圖像被裁剪并以ROI為中心，其余算法的結果對任何尺寸的圖像都有效。

由相機記錄的真正的點源可以在數學上表示為一個艾瑞盤。由于這個函數相當復雜，可以用眾所周知的高斯分布做一個稍不準確的估計。這是一個非常常見的簡化，雖然這兩個函數的尾部不匹配，但中心，即估計的最重要的位置，卻非常匹配（參考文獻1）。候選點源，給定適當的距離，預計將表現出類似于艾瑞盤或高斯分布的特征。因此，尋找子像素中心的最合理的方法是將一個二維（2D）高斯函數擬合到圖像區域，獲得其中心的坐標。在實踐中，使用MATLAB擬合二維高斯分布需要運行一個優化，這可能是相當緩慢的。因此，盡管這種方法可以非常精確，但最好還是能有一個能更快運行的解決方案。將二維高斯分布擬合到圖像區域的方法被稱為優化高斯擬合。

為了獲得一個計算成本較低的解決方案，需要尋求一種確定性的分析方法。首先，參考文獻2中描述了一種擬合拋物線估計器的新方法。雖然這同時滿足了確定性和分析性的要求，但它只針對一維（1D）的情況。為了對估計點源的子像素中心有用，它必須在二維上推導。這個估算器可以根據方程1到9擴展到二維空間。

付費5元查看完整內容

AI與軍事 · 合成孔徑雷達 · 數據增強 · 美國海軍研究生院 ·

2023 年 5 月 5 日

[付費5元查看完整內容]《基于alpha混合和深層訓練的合成孔徑雷達數據增強》2023最新127頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

合成孔徑雷達（SAR）圖像中基于人類的目標檢測是復雜的、技術性的、費力的、緩慢的，但時間很關鍵，是機器學習（ML）的完美應用。訓練一個用于目標檢測的ML網絡需要非常大的圖像數據集，這些數據集中嵌入了準確和精確標記的目標。不幸的是，不存在這樣的SAR數據集。因此，本文提出一種方法，通過結合兩個現有的數據集來合成寬視場（FOV）SAR圖像： SAMPLE，由真實和合成的單物體芯片組成，以及MSTAR雜波，由真實的寬視場SAR圖像組成。合成目標使用基于閾值的分割從SAMPLE中提取，然后再與MSTAR雜波中的斑塊進行α-混合。為了驗證新的合成方法，使用一個簡單的卷積神經網絡（CNN）創建了單個物體芯片并進行了分類；針對測量的SAMPLE子集進行測試。還開發了一種新穎的技術來研究深層的訓練活動。擬議的數據增強技術使測量的SAR圖像分類的準確性增加了17%。這一改進表明，來自分割和混合的任何殘余偽影都不會對ML產生負面影響，這對于未來在廣域SAR合成中的使用是很有希望的。

"在MSTAR數據收集期間拍攝的M1的EO圖像（a，c）和同一車輛的真實CAD模型（b，d）從兩個角度進行了比較。請注意，即使是小的細節，如火炮的位置、艙門和車輛側面的電纜，在兩張圖像之間也很一致。提供CAD模型的顏色是為了識別零件組裝，并不表示任何影響電磁模擬的具體屬性" [10]。

"SAMPLE數據集中每個飛行器的一個圖像的例子。測量的MSTAR圖像在最上面一行，相應的合成圖像在最下面一行....，我們看到諸如陰影、方向和相對回波幅度等細節都很一致"[10]。

付費5元查看完整內容

AI與軍事 · 自主蜂群 · 美國空軍研究實驗室（AFRL） ·

2023 年 4 月 24 日

[付費5元查看完整內容]《戰術自主蜂群網絡優化中的時延與收斂速度》美空軍36頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

該研究項目解決了下一代自主蜂群網絡系統的分布式控制和優化的挑戰，其中快速變化和超動態的網絡狀態（如網絡拓撲結構、頻譜和信道狀態信息、數據緩沖區排隊狀態等）需要分布式優化算法的快速收斂和低延時。最近基于PI對網絡控制和優化的研究，利用二階信息（SOI），在這個研究計劃中，我們提出了一系列新的分布式算法技術，與傳統方法相比，在收斂速度和排隊延遲方面都有數量級的改進，同時達到了同樣的可證明的網絡效用優化。

具體來說，我們在這個項目中的研究任務集中在基于動量（Heavy-ball）的聯合擁堵控制和多路徑路由（部分SOI）的EMANE仿真實現上。我們提出的研究計劃采取了一種綜合的、整體的方法，從數學建模、優化理論、控制理論、排隊理論和隨機分析等領域吸取技術。擬議的研究不僅將推進我們在下一代復雜網絡的算法設計方面的知識，而且還將通過探索基于SOI的網絡控制和優化的新領域來滿足一般網絡研究界的關鍵需求。

所提出的方法將影響廣泛的應用，如機載網絡和無人機系統的圖像/視頻，特別是在控制和優化行動不能承受大的延遲和緩慢收斂的系統。將尋求與AFRL進行實質性的合作，以促進這一研究工作的潛在過渡途徑。

圖1：在高度動態的無線網絡下，無人機系統通信有嚴格的延遲要求。

引言

背景和動機：

隨著部署在戰場上的通信網絡的激增以及它們所產生的大量移動數據，今天的無線網絡技術正被拉伸到極限。不僅戰術信息的爆炸性增長要求不斷增加網絡容量，大規模無線網絡的復雜協調也在實時控制和優化中引入了嚴格的延遲和收斂速度要求。為了設計高效的優化算法來應對新興的戰術無線網絡，一個關鍵的方面是有效地處理擁塞控制和鏈路調度之間的交叉互動，包括在協議棧層內和跨協議棧。因此，近年來出現了對戰術無線網絡的低延遲和快速轉換的聯合擁堵控制和調度算法的迫切需求。此外，聯合擁塞控制和路由優化不僅是信息網絡設計的要求，也是許多復雜網絡運行的核心問題，如智能電網需求響應[1-3]、供應鏈管理[4-7]、交通網絡流量控制[8, 9]，僅舉幾例。

一個動機示例：為了說明快速收斂、低延遲和分布式設計的重要性，我們在此以無人機系統網絡為例。控制和優化無人機系統網絡的一大挑戰來自于快速變化和高度動態的網絡狀態（如網絡拓撲結構、頻譜/信道狀態、數據緩沖區排隊狀態等），這使得傳統的擁堵控制、路由和頻譜訪問技術變得無效（見圖1的說明性例子）。這種高度動態的性質需要網絡控制和優化算法的快速收斂。否則，在完成緩慢的收斂過程后，網絡拓撲結構、頻譜/信道狀態信息和排隊狀態很可能被大大改變，使所有的計算結果和控制行動變得過時和無用。

使網絡控制問題更加嚴重的是，控制行動與需要實時傳輸大量數據的時間密切相關（例如，無人機系統圖像或視頻監控等）。因此，當數據到達量激增時，需要低延遲的網絡控制算法來避免過度延遲和大量的丟包（由于超時事件）。否則，可能會發生突然的大規模網絡中斷，這不僅會導致大范圍的不便，而且會導致毀滅性的戰斗失敗甚至是生命損失。此外，機載網絡的地理規模大，網絡子系統之間物理層技術的異質性，以及快速響應時間的要求，意味著控制和優化算法既不能集中，也不能有高的復雜性。這就要求開發出完全分布式的算法，以規避單點故障問題，簡單易行，又能達到可證明的優化性能。

目前的技術狀況：

由于移動數據需求的快速增長，近年來出現了大量關于資源分配的工作，旨在使無線網絡中的網絡效用最大化（例如，見[10-13]，和[14]的調查）。這導致了一個優雅的數學分解框架，"松散耦合 "的擁堵控制、調度和路由算法自然而然地出現。這些算法不需要關于到達或信道狀態的統計知識。相反，它們只依賴隊列長度和信道狀態信息來做出控制決策。這些算法也與非線性優化理論中的拉格朗日對偶分解框架和子梯度方法有內在聯系[10, 11]，其中（按比例）隊列長度可以被解釋為拉格朗日對偶變量，隊列長度更新起到子梯度方向的作用。

盡管這些基于隊列長度的算法（QLA）具有吸引人的特點，但它們受到了幾個關鍵的限制。首先，在現有的QLA框架中，已經證明了效用優化差距O(1/K)可以通過排隊延遲的O(K)懲罰來實現，其中K>0是一個系統參數。因此，一個小的效用優化差距需要一個大的K，并導致大的排隊延遲。為了解決這一局限性，近年來有大量的工作（如[13，15-17]等）集中在減少這些方案的排隊延遲上（后面對相關工作有更深入的討論）。同時，在現有的QLA框架中，基于隊列長度的權重調整忽略了目標函數輪廓的曲率，并且在每次迭代中使用小的步長[10-13]，這導致收斂速度不理想。為了解決這個問題，最近提出了一些二階擁塞控制和路由/調度算法來提高收斂速度（見，例如，[18，19]）。然而，由于其復雜的算法結構，這些二階方法需要更大的信息交換開銷，并且不能隨著網絡規模的擴大而很好地擴展。現有方法的這些限制促使我們在這個項目中追求一種新的重球設計。

更具體地說，在這個項目中，我們開發了一個基于重球的權重調整方案，在不影響網絡效用性能和不增加任何計算復雜性的情況下，大幅減少隊列長度，提高收斂速度。我們的方法是基于將隊列長度與權重分離的巧妙想法，然后使用一個權重更新方案，該方案只利用前一個時隙的權重變化的一個更多的記憶槽。令人驚訝的是，我們表明這個簡單的方案提供了兩個控制自由度，使我們能夠實現效用優化、低延遲以及快速收斂。

從歷史上看，重球法是由Polyak在20世紀60年代首次提出的[20]，用于解決無約束的凸優化問題，其最初的目標是加速梯度下降法的收斂。重球法的基本思想是，不是只使用當前迭代的（子）梯度信息和完全不記憶過去迭代的軌跡，而是使用當前梯度（類似于 "勢"）和上一步的更新方向（類似于 "動量"）的線性組合來計算搜索方向。該方法是由物理學中描述重體在勢場中運動的二階常微分方程（ODE）激發的，并可被視為該方程的離散版本，因此被稱為 "重球（HeavyBall）"。在[21]中已經表明，通過適當地權衡當前的 "勢 "和 "動量"，該算法對目標輪廓不敏感，這導致了更快的收斂。事實上，收斂加速的優勢是我們在無線網絡跨層優化中采用重球方法的第一個基本理由。但令人驚訝的是，我們隨后的研究表明，采用重球思想的好處遠遠超出了收斂加速的范圍。

然而，我們注意到，由于一些技術上的挑戰，為無線網絡中的效用最大化問題開發一個基于重球的解決方案并不簡單。首先，由于重球法最初是為無約束的靜態優化問題設計的，目前還不清楚如何為無線網絡效用最大化修改重球法，因為無線網絡是一個有約束的隨機優化問題，問題結構要復雜得多。其次，與QLA設計中隊列長度和拉格朗日對偶變量之間的明顯聯系不同，重球法與可觀測的網絡狀態信息（如隊列長度、信道狀態等）之間的關系是未知的。因此，在重球法下，延遲和網絡效用之間的權衡仍然是一個開放的問題。第三，由于包含了過去的迭代值，重球方法的算法結構與QLA方法不同。因此，QLA中用于建立吞吐量-優化和效用-延遲權衡的傳統技術并不適用。因此，在重球方法的性能分析中需要新的分析技術。

技術貢獻：

本項目的主要貢獻是，我們首次開發了一個基于重球的無線網絡效用優化框架，克服了上述的技術挑戰。我們建立了一系列關于大幅減少延遲和快速收斂的新分析結果，同時保留了效用優化的特點。本文的主要結果和技術貢獻如下：

在重球思想的啟發下，我們提出了一個新的權重調整方案，用于無線網絡中的聯合擁塞控制和路由/調度。我們的工作不僅提供了重球算法和可觀察的網絡狀態信息（隊列長度和信道狀態）之間的協同作用，允許在實踐中簡單實現，它還擴展和概括了經典的重球方法，從無約束的靜態優化到約束的隨機網絡效用優化范式，從而推進了數學優化理論中重球方法的先進性。
在我們的基于重球的聯合擁堵控制和調度方案下，有一個β參數化的動量（β∈[0，1]是一個系統參數，通常選擇接近1），我們表明，延遲是（1-β）-QLA方法的小數部分。更具體地說，我們的理論分析表明，可以用O((1-β)K)+O((1+β)√K)的排隊延遲成本實現效用最優差距O(1/K)，其中參數K與重球法的步長成反比。此外，在β被選為β=1-O(1/ √ K)的K的漸進制度中，我們的重球算法實現了[O(1/K), O( √ K)]效用-延遲權衡，這明顯優于眾所周知的QLA方法的[O(1/K), O(K)]權衡。
鑒于參數K和β，我們表明我們基于重球的算法的收斂時間擴展為O[log(√ K) (- log-1 (1 + β - √ β))]。結合前面的結果，我們提出的重球算法提供了一個重要而優雅的三方權衡關系，由K和β中的兩個控制旋鈕控制。最值得注意的是，通過權衡收斂速度，同時實現效用最優和低延遲。我們注意到，這種重要的三向權衡關系迄今在文獻中尚未被發現。
除了理論結果，本項目的一個重點是開發高保真的基于EMANE的模擬，以測試和驗證我們上述的理論結果和見解。在這個項目中，我們已經成功地開發了一個基于Shim層的EMANE跨層仿真平臺來測試我們的HeavyBall算法。我們基于EMANE的仿真結果表明，所有的理論預測在高保真仿真中是可以觀察到的。此外，值得一提的是，我們的基于EMANE的跨層仿真平臺具有很強的通用性，對于AFRL所重視的其他基于EMANE的無線網絡跨層仿真來說，可以具有獨立的利益。

報告組織：

總的來說，我們的成果為跨層網絡控制和優化理論貢獻了一個令人興奮的新設計范式，該范式利用了動量/記憶信息。本報告的其余部分組織如下。第2節介紹了我們提出的重球算法和擬議算法的性能分析。第3節介紹了數值結果，第4節是本文的結論。

付費5元查看完整內容

AI與軍事 · 完全自適應雷達 · 美國空軍研究實驗室（AFRL） ·

2023 年 1 月 2 日

[付費5元查看完整內容]《全自適應雷達建模和仿真開發》美國空軍49頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

認知方法在幾乎所有方面可提高現有雷達的性能，這導致了近年來研究的激增，空軍雷達建模和仿真（M&S）工具的一個關鍵差距是缺乏針對分布式全適應雷達（FAR）系統的全面、動態分布式雷達情景生成能力。截至2015年初，所有的研究都是在理論上推進概念，并通過模擬檢驗其性能，或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告，主要是因為還沒有開發出測試它們的必要硬件。然而，為了確定應用認知處理方法的真正性能潛力，這一步驟是至關重要的。為了解決這個問題，俄亥俄州立大學（OSU）電子科學實驗室（ESL）的認知傳感實驗室（CSL）與Metron公司、空軍研究實驗室（AFRL）和空軍科學研究辦公室（AFOSR）一起，已經開始了一項研究計劃，從分析和實驗上開發和檢驗認知雷達處理概念。

CSL設計并建造了認知雷達工程工作區（CREW），這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺，Metron和OSU開發了一個認知FAR系統的理論框架，在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力，以證明FAR系統比傳統的前饋雷達（FFR）系統取得的性能改進。我們從OSU的軟件定義雷達（SDR）系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。

這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構，從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段，我們開發了一個基線FAR M&S架構，該架構采用面向對象編程（OOP）方法在MATLAB中編碼。它包括一個控制感知-行動（PA）周期運行的FAR引擎和確定下一組傳感參數的軟件對象；從傳感器獲取數據；處理數據以跟蹤目標；存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例，以及實時和模擬的CREW數據實例。

第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間，以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法，通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能，因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。

付費5元查看完整內容

AI與軍事 · 近端策略優化 · 導彈 · 課程學習 · 強化學習 ·

2022 年 11 月 24 日

[付費5元查看完整內容]《基于近端策略優化(PPO)算法的制導彈體控制行為學習》美國陸軍2022最新27頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在這份報告中，我們提出了一種數據驅動的方法，用于實驗室技術載具的閉環控制。我們使用近似策略優化（PPO）算法，這是一種強化學習算法，已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性，此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的，但在獎勵稀疏的情況下，它確實受到了影響；這恰好是我們的精確彈藥應用的情況，其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題，我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段，這些階段的復雜度逐漸增加，緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近，用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展，特別是深度學習和人工神經網絡。強化學習（RL）是深度學習的一種類型，旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射，從而使所需的輸出最大化。這個程序的靈感來自于自然過程，因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中，來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動，而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中，我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化（PPO）RL算法的。

快速發展的機器學習行業導致了RL的新進展，使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入，如圖像幀，也可以推斷出行動，使性能最大化。很多時候，這種方法使閉環控制更加直接，如在基于視覺的系統中，基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反，它是一種基于模型的方法，依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似，往往阻礙了基于模型的方法，導致控制器性能不足或保守的控制器。例如，自主特技飛行是一個具有挑戰性的控制問題，因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳，但它們確實對已知的操作領域提供了寶貴的性能保證，使它們通常是安全的和可預測的。另外，無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動，無模型方法可以學習系統的復雜性，甚至可以擴展使用的代理數量。然而，他們需要更多的數據，而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化，如獎勵的塑造或行動空間和狀態的離散化，以實現更快的學習。在經典的RL任務中，可以同時收集行動和獎勵，以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如，當訓練一個自主代理找到一個迷宮的盡頭時，在每個時間步驟中，沒有跡象表明代理正在對系統應用正確的行動，直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習，設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點，即無意中支配了閉環控制的解決方案，減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而，當有廣泛的領域知識可供利用時，這種方法仍有其優點。好奇心驅動的方法采取相反的方法，鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的，因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化，使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習，其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是，當任務容易時，獎勵會在開始時更頻繁地出現，為RL算法提供有價值的反饋，以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現，包括醫療、社會和工程應用。在本報告中，我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述，這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學，自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰，比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何，這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性，這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分，這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而，由于稀疏的獎勵信號，機器學習過程非常困難。

2.1 貢獻

在這份報告中，我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境，其中嵌入了一個功能模擬單元（FMU）模型，以密切模擬真實的射彈。因此，由于尋找有用的控制策略所需的探索任務的規模，這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵，因此實施了一種課程學習方法，其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明，通過這個系統，我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬，在第4節中提供了PPO算法的概述，在第5節中介紹了我們的課程學習方法，在第6節中給出了訓練的概述，然后在第7節中介紹了我們的結果。

付費5元查看完整內容

AI與軍事 · 生成式對抗網絡 · 無人機 · 圖像分類 · 美國空軍技術學院 ·

2022 年 11 月 14 日

[付費5元查看完整內容]《用生成性對抗網絡增強無人機圖像分類訓練集》美國空軍技術學院2022最新209頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習（ML）模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的，這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像，這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性，可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術，如圖像的旋轉和變暗，在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡（GAN）是一種ML數據增強技術，它可以從數據集中學習樣本的分布，并產生合成的復制，被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器（UAV）訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題，我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"（YOLOv4-Tiny）目標檢測模型。使用各種GAN架構重新創建幀中的突出目標，并將其放回原始幀中，然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度（mAP）平均增加6.75%，最佳情況下增加15.76%。同樣，在交叉聯合（IoU）率方面，平均增加了4.13%，最佳情況下增加了9.60%。最后，產生了100.00%的真陽性（TP）、4.70%的假陽性（FP）和零的假陰性（FN）檢測率，為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查，目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要，否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說，用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術，例如旋轉、添加噪音和翻轉圖像，被用來增加訓練集的多樣性，但由于它們無法向數據集添加任何新的圖像，所以是弱的方法。研究新的圖像增強和分類方法，其中包括機器學習（ML）技術，有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近，使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年，但在圖像上，我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大，可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器（RAM）和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元（GPU）的改進，它允許以更快的速度處理大量的數據，這是實時圖像處理的兩個重要能力[2]。

人工神經網絡（ANNs）是ML的一個子集，其靈感來自于大腦中神經元的生物結構，旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集，它創建了多個相互連接的層，以努力提供更多的計算優勢[3]。卷積神經網絡（CNN）是ANN的一個子集，它允許自動提取特征并進行統一分類。一般來說，CNN和ANN需要有代表性的數據，以滿足操作上的需要，因此，由于現實世界中的變化，它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據，但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練，導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能，但在模型訓練完成后，卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集，以及降低模型的復雜性和引入正則化，可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式，并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺，如無人機或汽車時，存在Bang等人[5]所描述的進一步問題。首先，一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次，移動平臺收集的圖像有時會模糊和失真，這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離，以及目標的顏色/形狀等，都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀，以復制在真實世界的圖像收集中發現的那些特征，從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性，希望提高在數據上訓練的分類模型的結果準確性，可以使用數據增強技術來扭曲由無人駕駛飛行器（UAV）收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性，但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡（GAN）是一種ML技術，它從數據集的概率分布和特征中學習，以生成數據集的新的合成實例，稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術，因為它為訓練集增加了新的、從未見過的實例，這些實例仍然是可信的，并能代表原生群體。為ML模型提供這種新的訓練實例，可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏，使模型在用于實時檢測時表現很差。找到增加這些數據集的方法，無論是通過額外的數據收集還是其他方法，對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集，不能為訓練集增加任何額外的實例，這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術，在不需要收集更多數據的情況下提供新的實例，這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題：

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡（CNN）目標檢測模型的分類精度和可推廣性？

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性？

3.從未增強的數據集和增強的數據集中可以得出什么推論，顯示它們的相似性和不相似性？

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式，并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類，而且要訓練一個強大的目標檢測模型，使其能夠在圖像中找到感興趣的目標，并具有較高的交叉聯合（IoU）值，這就驗證了該模型能夠找到移動的目標，這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似，以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由，即來自GAN的增強對象在性質上是否與原始樣本相似，并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱，需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器（CPU）上執行，但本論文中的模型在單個CPU上運行需要幾天，甚至幾周的時間。在運行深度學習模型時，GPU的效率要高得多，尤其是那些為圖像探索設計的模型。在整個研究過程中，GPU的使用非常有限，這給CNN和GAN模型的復雜性增加了限制，也增加了每個模型完成訓練迭代的時間。模型不可能同時運行，大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降，以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中，我們采取了一些措施來減輕這些影響，包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外，在訓練和測試過程中，將數據集劃分為多個批次，有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域，以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧，研究了CNNs和GANs的理論。此外，它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后，第8章討論了從結果中得出的結論，以及對使用生成性對抗網絡（GANs）對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容

AI與軍事 · 美國陸軍研究實驗室（ARL） · 目標位置誤差 · 定位、導航和授時 ·

2022 年 10 月 25 日

[付費5元查看完整內容]【估計定位、導航和授時（PNT）傳感器和系統的目標位置誤差】《多用途通用簡化目標位置誤差（TLE）計算器（MUSTC）》2022最新112頁技術報告，美國陸軍研究實驗室

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國陸軍作戰能力發展指揮部分析中心創建了一種算法，用于估計定位、導航和授時（PNT）傳感器和系統的目標位置誤差。即使系統用來尋找感興趣目標的確切算法是專有的或未知的，該算法也可以使用。該程序具有高度的模塊化和可擴展性；因此，相對來說，添加各種不同的PNT傳感器、系統和目標是很容易的。然而，目前僅有的傳感器是使用到達時間差、到達頻率差和/或到達角度的信號智能系統，以及可能有激光測距儀和測量校準源輻射的光子計數探測器的電子光學/紅外（EO/IR）系統。

美國防部有各種傳感器，作戰人員可以用它們來尋找位置。一些傳感器可以讓作戰人員找到潛在的威脅。如果作戰人員目前不能使用GPS，他們可能需要使用傳感器來確定自己的位置。傳感器可以單獨使用，也可以在更復雜的情況下連接在一起，以估計一個感興趣的物體的位置。為了確保美國陸軍為作戰人員配備能夠執行任務的傳感器，建立一個能夠估計這些位置傳感器在任何情況下的性能的模型至關重要。

美國陸軍作戰能力發展司令部（DEVCOM）分析中心需要一種算法來估計正在進行定位、導航和授時（PNT）計算的各種傳感器和系統的性能。DEVCOM分析中心（DAC）開發了多用途通用簡化TLE計算器（MUSTC）模型，該模型可用于查找各種傳感器的目標位置誤差（TLE），進而用于定位各種物體。

MUSTC算法并不要求用戶了解系統如何使用傳感器的測量結果來確定位置。在MUSTC軟件中添加一個新的傳感器類型所需要的只是一個模型，該模型可以估計傳感器測量的原始值，作為傳感器和目標參數以及它們的位置的函數。

為了使算法能夠確定TLE，算法需要知道所有參考傳感器和目標在場景中的位置、可能影響位置測量的變量和這些變量的不確定性，以及用戶希望為感興趣的項目計算TLE值的空間位置。然后，該算法將假定感興趣的物品在名義上位于用戶想要估計TLE的位置。一旦知道了位置，軟件就可以使用測量模型來確定傳感器將為該場景測量什么。然后，該軟件可以使用這些測量結果，以及優化算法，來確定感興趣的項目在空間指定點的TLE。

該算法的主要優點是，它可以擴展到確定來自不同傳感器類型的測量的各種不確定性如何影響總TLE，或找到感興趣的項目的位置的不確定性。

該算法的主要缺點是，由于反復調用實現優化算法的函數來計算TLE，所以計算有時會很耗時。程序可以使用許多優化算法，有些算法比其他算法快。即使程序使用一個相對較快的優化算法，如果優化算法被調用足夠多的次數，計算時間仍然會增加。DAC努力減輕這一缺點，找到了可用的最快的優化算法，但仍能產生正確的答案，將程序寫成多線程應用程序，以便利用大多數現代計算機處理器的多個核心，并試圖在最終結果的準確性和必須調用優化算法的次數之間找到最佳平衡。