空中平臺的使用,如無人駕駛飛行器(UAVs),配備了攝像傳感器,對民用安全和安保領域的廣泛應用至關重要。其中,突出的應用包括監視和偵察、交通監測、搜索和救援、救災和環境監測。然而,由于大量的視覺數據和由此產生的認知過載,僅由人類操作員分析航空圖像數據往往是不可行的。在實踐中,基于適當的計算機視覺算法的自動處理鏈被用來協助人類操作員評估航空圖像數據。這種處理鏈的關鍵部分是在分析和解釋場景之前,準確檢測相機視野內的所有相關物體。由于相機和地面之間的距離較大,空間分辨率較低,這使得航空圖像中的物體檢測成為一項具有挑戰性的任務,而運動模糊、遮擋或陰影又進一步阻礙了這項工作。盡管在文獻中存在許多用于航空圖像中物體檢測的傳統方法,但由于物體的尺度、方向、顏色和形狀的高差異性,所使用的手工制作的特征的有限表示能力常常抑制了可靠的檢測精度。
在本文的范圍內,開發了一種新的基于深度學習的檢測方法,其重點是在俯視記錄的航空圖像中檢測車輛。為此,選擇了Faster R-CNN作為基礎檢測框架,因為與其他基于深度學習的檢測器相比,它的檢測精度更高。針對航空圖像的具體特點,特別是小物體的尺寸,系統地研究了相關的適應性,并確定了現實世界應用方面的問題,即由類似車輛的結構引起的大量錯誤檢測和推理時間差。我們提出了兩個新的組成部分,通過提高所采用的特征表示的上下文內容來提高檢測精度。第一個組件旨在通過結合淺層和深層的特征來增加空間背景信息,以說明精細和粗略的結構,而后一個組件利用語義標簽--圖像的像素級分類--來引入更多的語義背景信息。實現了將語義標簽整合到檢測框架中的兩種不同的變體:利用語義標簽的結果來過濾掉不可能的預測,以及通過共享特征表示將語義標簽網絡明確地并入檢測框架來誘導場景知識。這兩個部分都明顯減少了錯誤檢測的數量,從而大大地提高了檢測精度。為了減少計算量,從而減少推理時間,在本論文的背景下開發了兩種替代策略。第一個策略是將用于特征提取的默認CNN結構替換為針對航空圖像中的車輛檢測而優化的輕量級CNN結構,而后一個策略包括一個新的模塊,將搜索區域限制在感興趣的區域。所提出的策略使檢測框架的每個組成部分的推理時間明顯減少。與作為基線的標準Faster R-CNN檢測器相比,結合所提出的方法明顯提高了檢測性能。此外,在不同的航空圖像數據集上,現有的航空圖像中的車輛檢測方法在數量和質量上都優于其他方法。在從具有不同屬性的新的航空圖像數據集上收集的大量以前未見過的數據上,進一步證明了其泛化能力。
目前的自動空中加油(AAR)工作利用機器視覺算法來估計接收飛機的姿勢。然而,這些算法取決于幾個條件,如精確的三維飛機模型的可用性;在沒有事先給出高質量信息的情況下,管道的準確性明顯下降。本文提出了一個深度學習架構,該架構基于立體圖像來估計物體的三維位置。研究了使用機器學習技術和神經網絡來直接回歸接收飛機的三維位置。提出了一個新的位置估計框架,該框架基于兩個立體圖像之間的差異,而不依賴于立體塊匹配算法。分析了其預測的速度和準確性,并證明了該架構在緩解各種視覺遮擋方面的有效性。
圖3:利用的坐標系統。紅軸代表X軸,綠軸代表Y軸,藍軸代表Z軸。所有顯示的箭頭表示該軸上的正方向。
對使用無人駕駛飛行器(UAV),即無人機,在不同的應用中,如包裹遞送、交通監測、搜索和救援行動以及軍事戰斗交戰,有越來越多的需求。在所有這些應用中,無人機被用來自主導航環境--沒有人的互動,執行特定的任務和避免障礙。自主的無人機導航通常是通過強化學習(RL)完成的,智能體作為一個領域的專家,在避開障礙物的同時導航環境。了解導航環境和算法限制在選擇適當的RL算法以有效解決導航問題中起著至關重要的作用。因此,本研究首先確定了主要的無人機導航任務并討論了導航框架和仿真軟件。接下來,根據環境、算法特點、能力和在不同無人機導航問題中的應用,對RL算法進行了分類和討論,這將有助于從業人員和研究人員為他們的無人機導航用例選擇合適的RL算法。此外,確定的差距和機會將推動無人機導航研究。
自主系統(AS)是能夠在沒有人類干擾的情況下執行所需任務的系統,如機器人在沒有人類參與的情況下執行任務、自動駕駛汽車和無人機送貨。自主系統正在侵入不同的領域,以使操作更加有效,并減少人為因素產生的成本和風險。
無人駕駛航空器(UAV)是一種沒有人類飛行員的飛機,主要被稱為無人機。自主無人機由于其多樣化的應用而受到越來越多的關注,如向客戶交付包裹、應對交通事故以滿足傷員的醫療需求、追蹤軍事目標、協助搜索和救援行動,以及許多其他應用。
通常情況下,無人機配備有攝像頭和其他傳感器,可以收集周圍環境的信息,使無人機能夠自主地導航該環境。無人機導航訓練通常是在虛擬的三維環境中進行的,因為無人機的計算資源和電源有限,而且由于墜毀而更換無人機部件可能很昂貴。
不同的強化學習(RL)算法被用來訓練無人機自主導航的環境。強化學習可以解決各種問題,在這些問題中,代理人就像該領域的人類專家一樣。代理人通過處理環境的狀態與環境互動,用行動作出回應,并獲得獎勵。無人機相機和傳感器從環境中捕捉信息,用于表示狀態。代理人處理捕捉到的狀態并輸出一個行動,決定無人機的運動方向或控制螺旋槳的推力,如圖1所示。
圖1:使用深度強化智能體的無人機訓練
研究界對不同的無人機導航問題進行了回顧,如視覺無人機導航[1, 2]、無人機植群[3]和路徑規劃[4]。然而,據作者所知,目前還沒有與RL在無人機導航中的應用有關的調查。因此,本文旨在對各種RL算法在不同無人機自主導航問題上的應用進行全面系統的回顧。這項調查有以下貢獻:
本文的其余部分組織如下: 第2節介紹了系統回顧過程,第3節介紹了RL,第4節全面回顧了各種RL算法和技術在無人機自主導航中的應用,第5節討論了無人機導航框架和仿真軟件,第6節對RL算法進行分類并討論了最突出的算法,第7節解釋了RL算法的選擇過程,第8節指出了挑戰和研究機會。最后,第9節對本文進行了總結。
近年來,手勢識別(HGR)已經取得了巨大的成功,并在人機交互領域開辟了一個新的趨勢。然而,一些現有的手勢識別系統在實際應用中的部署仍然遇到一些挑戰,如傳感器的可測量范圍有限;由于使用單一的模式,缺乏重要的信息;由于復雜的深度模型的訓練,通信成本高,延遲和隱私負擔。本項目旨在克服這些主要問題,通過開發邊緣智能技術,使用可穿戴多模態傳感器(如加速度計和攝像頭)進行手勢識別,并減少注釋工作。在這個項目中,我們設計了一個可穿戴式多模態原型,能夠捕捉多模態信息,如RGB和運動數據。然后我們設計了一套在人機交互中常用的12種動態手勢。我們使用所設計的原型在不同的環境條件下對50名受試者收集了此類手勢的數據集。據我們所知,這個數據集可以被認為是研究界從腕戴式多模態傳感器識別手勢的第一個基準數據集。我們部署了各種最先進的CNN模型,對使用RGB和運動數據的手勢識別進行了比較研究。實驗結果顯示了該基準的挑戰,以及現有模型的最佳性能和未來的改進空間。此外,在該項目框架內,我們改進了帶有時間信息的手部姿勢估計和連續手勢識別的算法。我們還對用于時間序列預測的混合CNN-LSTM模型中的形狀分析和貝葉斯推理進行了基礎研究。我們引入了一個框架,便于研究聯邦學習。該原型和研究成果已在12個國際會議上發表,并提交給一個IEEE傳感器雜志。
隨著無人駕駛飛行器(UAVs),也被稱為無人機,變得容易獲得和負擔得起,這些設備的應用已經大大增加。其中一種應用是使用無人機飛越大面積區域并探測所需實體。例如,一群無人機可以探測海洋表面附近的海洋生物,并向用戶提供發現的動物的位置和類型。然而,即使無人機技術的成本降低,由于使用內置先進功能的定制硬件,這種應用的成本也很高。因此,本論文的重點是編制一個容易定制的、低成本的無人機設計,并配備必要的硬件,以實現自主行為、蜂群協調和機載物體探測能力。此外,本論文概述了必要的網絡結構,以處理無人機群的互連和帶寬要求。
無人機機載系統使用PixHawk 4飛行控制器來處理飛行機械,使用Raspberry Pi 4作為通用計算能力的配套計算機,并使用NVIDIA Jetson Nano開發套件來實時進行物體檢測。實施的網絡遵循802.11s標準,采用HWMP路由協議進行多跳通信。這種拓撲結構允許無人機通過網絡轉發數據包,大大擴展了蜂群的飛行范圍。我們的實驗表明,所選的硬件和實現的網絡可以在高達1000英尺的范圍內提供直接的點對點通信,通過信息轉發可以擴大范圍。該網絡還為帶寬密集型數據(如實時視頻流)提供了足夠的帶寬。預計飛行時間約為17分鐘,擬議的設計為中程空中監視應用提供了低成本的無人機群解決方案。
使用空間分布的多個雷達節點,在不受約束的運動方向上研究了連續人類活動的識別,在使用單個節點時,活動可能發生在不利的角度或被遮擋的視角。此外,這種網絡不僅有利于實現上述目標,而且也有利于可能需要不止一個傳感器的更大的受控監視區域。具體來說,當目標位于長距離和不同角度時,分布式網絡可以在節點之間顯示出顯著的特征差異。雷達數據可以用不同的域來表示,其中人類活動識別(HAR)的一個廣為人知的域是微多普勒頻譜圖。然而,其他域可能更適合于更好的分類性能,或對計算資源有限的低成本硬件更有優勢,如范圍-時間或范圍-多普勒域。一個開放的問題是如何利用從上述數據域以及從同時觀察監視區域的不同分布式雷達節點中提取信息的多樣性。為此,數據融合技術可以在每個雷達節點的數據表示層面以及網絡中不同節點之間使用。將利用所介紹的決策融合方法(通常在每個節點上操作一個分類器)或特征融合方法(在使用一個單一的分類器之前對數據進行串聯),研究它們在連續序列分類中的性能,這是一種更加自然和現實的人類運動分類方式,同時也考慮到數據集中固有的不平衡。
圖 1:所提出方法的示意圖:從各個雷達節點提取的數據域被組合(“數據域融合”)。然后應用決策融合或特征融合來組合來自節點的信息。
雷達網絡在適應能力、分類指標和跟蹤性能方面已經顯示出其優勢。這是通過增加整體信息內容來實現的,這要歸功于對場景和感興趣的目標的多視角觀察。然而,網絡中雷達的有效利用依賴于可靠地結合來自不同傳感器的各種信息的能力。最近,具有多個合作雷達的分布式網絡引起了人們的極大興趣,以解決在不利角度記錄的微多普勒(mD spec.)信號、遮擋或僅對少數觀察者節點可見的目標問題[1]-[10]。
在這種情況下,為了提高分類性能,找到融合網絡中多個雷達節點信息的最佳技術,仍然是一個突出的研究問題。這對于連續人類活動序列的分類特別重要。相對于更傳統的對單獨記錄的人工分離活動的分類,這些活動在文獻中被越來越多地研究,因為它們更加真實和自然[11]-[13]。
本文研究了應用于來自節點網絡的融合數據的機器學習分類器,重點是特征融合("早期融合")和決策融合("后期融合")方法,這些方法在一個公開的數據集上得到了驗證[14]。在這種情況下,大多數研究工作主要集中在微多普勒(mD)頻譜圖上,作為感興趣的數據格式,而這項工作還利用了以下領域,即范圍多普勒(RD)、傅里葉同步擠壓變換(FSST)頻譜和范圍時間(RT)圖。本文將這些數據域的信息融合與整個網絡的雷達節點融合聯合起來進行研究。應該指出的是,這種跨越不同數據格式和網絡中不同雷達節點的高效和有效的數據融合問題不僅與人類活動分類有關,而且在任何可以使用來自分布式雷達節點的信息的監視和態勢感知問題上也是如此。
在方法上,首先通過利用基于奇異值分解(SVD)的一維主成分分析(PCA)來提取上述每個數據域的信息,這是一個簡單而有效的工具,用于提取圖像的特征進行分類。Fioranelli等人[3]舉例說明了使用SVD相關的特征來分析具有不同角度軌跡的人類多態行走場景。他們提出,SVD可以用來從mD頻譜圖中提取最相關的特征,方法是使用有限數量的左側奇異向量,這些奇異向量與最高奇異值有關。在[3]中證明,在使用極少的甚至只是單一的最高相關奇異值的情況下,可以達到90%以上的分類結果,最好是96%的最佳角度軌跡。
然后,在這項工作中,還研究了基于矩陣eigendecomposition的二維主成分分析(2D PCA),它被證明能帶來更好的準確性和減少計算時間。對于這兩種特征提取方法,采用了四種機器學習分類器,即決策樹(DT)分類器、k-近鄰(KNN)分類器、天真貝葉斯(NB)分類器和支持向量機(SVM),以評估上述融合方法,圖1為示意圖。
本文的其余部分組織如下。第2.0節顯示了包括數據處理參數在內的數據域。第3.0節提供了特征融合和機器學習方法。第4節介紹了實驗結果,第5節給出了最后的評論。
近年來,人臉識別技術有了長足的進步,這主要是因為有了用于深度學習模型的大型且日益復雜的訓練數據集。然而,這些數據集通常包括從新聞網站或社交媒體平臺刮來的圖像,因此,在更先進的安全、取證和軍事應用中的效用有限。這些應用需要更低的分辨率、更遠的距離和更高的視角。為了滿足這些關鍵需求,我們收集并策劃了一個大型多模態生物識別數據集的第一和第二子集,旨在用于在極具挑戰性的條件下進行生物識別技術的研究和開發。到目前為止,該數據集包括超過350,000張靜態圖像和超過1,300小時的視頻片段,涉及約1,000個對象。為了收集這些數據,我們使用了尼康單反相機、各種商業監控相機、專門的長焦研發相機,以及第一組和第二組無人機平臺。其目的是支持開發能夠在高達1000米的范圍內和從高仰角準確識別人的算法。
這些進展將包括對人臉識別技術現狀的改進,并將支持使用基于步態和人體測量的方法在全身識別領域的新研究。本文介紹了用于收集和整理數據集的方法,以及數據集在當前階段的特點。
高度和范圍的生物識別和鑒定(BRIAR)計劃的構想是在具有挑戰性的、不受控制的全動態視頻條件下,推進面部、步態和全身(WB)生物識別領域的現有技術水平。這包括支持能力,如人員檢測和跟蹤、圖像增強和大氣湍流緩解。為了實現這些目標,BRIAR計劃正在建立一個獨一無二的數據集,以促進創建算法來解決這些具有挑戰性的情況。BRIAR計劃將分幾個階段實施,每個階段都包括新的數據收集,以增加該數據集,以及研究階段,旨在產生在這個新數據集上訓練的模型,其性能目標不斷提高。單獨的數據收集是專門計劃的,以跨越不同的地形、天氣和大氣條件,并加強對象的人口多樣性。在該計劃的第一階段,BRIAR政府數據集1(BGC1)和2(BGC2)被設計用來支持針對這些問題的算法開發。
現有的人臉和WB識別算法在現實世界中的實現,通常是通過商業安全攝像機攝取視頻媒體。這些傳感器采集的數據質量不一,會降低算法的性能,是生物識別的一個重要缺陷[14]。為了在成像來源方面提供一個真正折衷的數據集,BRIAR數據集將包含不僅由商業監控攝像機捕獲的圖像和視頻數據,而且由能夠在高達1,000米的范圍內和高達50°的視角下獲得高質量的主體視頻片段的專門傳感器捕獲的數據。
由于缺乏從安裝在無人駕駛飛行器(UAV)平臺上的傳感器捕捉到的訓練數據,生物識別算法的許多有前途的應用受到進一步限制。這種平臺在商業、工業和國防應用中越來越多地出現。為了推動更新的算法,BRIAR BGC1和BGC2數據集還將包括從四個不同的平臺上拍攝的高達400米的人臉和WB視頻片段,這些平臺都是靜止的,在一次記錄過程中沿著三個軸線改變位置。
BRIAR數據集有兩個重大貢獻。首先,它建立了一個獨一無二的數據集,包括來自多個范圍和海拔高度的受試者的靜態圖像和視頻,跨越兩套衣服。其次,它使研究人員能夠通過利用數據集的獨特性和它所提供的未開發的成像挑戰來擴展目前最先進的算法。
有幾個關鍵特征使這個數據集真正具有新穎性。盡管許多現有的數據集提供的圖像和/或視頻要么是完全受限的,要么是完全不受限的[16][18],但BRIAR數據集包含高質量的特寫圖像和受大氣條件(如湍流、雨、陰影)影響的可變質量的不受限視頻。每個主題的視頻可以從小于10米的4K質量到距離達1,000米的高清晰度,并包括合作和不合作行為的表現。
該數據集的獨特功能將使IARPA的研發團隊能夠推進當前在人臉和WB檢測和識別以及人員跟蹤和重新識別領域的技術水平。目前,BRIAR數據集可供美國政府(USG)研究人員及其承包商索取。有興趣的各方應與作者聯系,作者將把請求轉給適當的美國政府代表。
本文的其余部分組織如下。在第2節中,我們提供了關于BRIAR數據集所要解決的局限性的背景信息,并討論了數據集開發過程中的幾個關鍵考慮。第3節對相關工作進行了考察,并總結了與收集該數據集有關的獨特目標挑戰。在第4節中,我們討論了數據集的收集協議和方法,收集中使用的無約束成像的性質,以及收集地點的細節。在第5節中,我們描述了數據的后處理方法、元數據和注釋的手段。在第6節中,我們提供了數據集的特點,并討論了其目前狀態下的局限性。最后,第7節介紹了未來擴展BRIAR數據集的路線圖。
認知型雷達,根據IEEE標準雷達定義686[1],是 "在某種意義上顯示智能的雷達系統,根據不斷變化的環境和目標場景調整其操作和處理"。特別是,嵌入認知型雷達的主動和被動傳感器使其能夠感知/學習動態變化的環境,如目標、雜波、射頻干擾和地形圖。為了達到探測、跟蹤和分類等任務的優化性能,認知雷達中的控制器實時適應雷達結構并調整資源分配策略[2, 3, 4]。對于廣泛的應用,已經提出了不同的適應技術和方法,例如,自適應重訪時間調度、波形選擇、天線波束模式和頻譜共享,以推進認知雷達背景下的數學基礎、評估和評價[5, 6, 7, 8, 9, 10]。
雖然認知方法和技術在提高雷達性能方面取得了很大進展,但認知雷達設計和實施的一個關鍵挑戰是它與最終用戶的互動,即如何將人納入決策和控制的圈子。在國家安全和自然災害預報等關鍵情況下,為了提高決策質量和增強態勢感知(SA),將人類的認知優勢和專業知識納入其中是必不可少的。例如,在電子戰(EW)系統中,在設計適當的反措施之前,需要探測到對手的雷達。在這種情況下,戰役的進程和成功取決于對一個小細節的觀察或遺漏,僅靠傳感器的自動決策可能是不夠的,有必要將人納入決策、指揮和控制的循環中。
在許多應用中,人類也充當了傳感器的角色,例如,偵察員監測一個感興趣的現象(PoI)以收集情報。在下一代認知雷達系統中,最好能建立一個框架來捕捉基于人類的信息來源所建議的屬性,這樣,來自物理傳感器和人類的信息都可以被用于推理。然而,與傳統的物理傳感器/機器4的客觀測量不同,人類在表達他們的意見或決定時是主觀的。人類決策的建模和分析需要考慮幾個因素,包括人類的認知偏差、處理不確定性和噪音的機制以及人類的不可預測性,這與僅由機器代理組成的決策過程不同。
已經有研究工作利用信號處理和信息融合的理論來分析和納入決策中的人類特定因素。在[11]中,作者采用了先驗概率的量化來模擬人類在貝葉斯框架下進行分類感知而不是連續觀察的事實,以進行協作決策。在[12,13]中,作者研究了當人類代理人被假定使用隨機閾值進行基于閾值的二元決策時的群體決策性能。考慮到人類受到起點信念的影響,[14]中研究了數據的選擇、排序和呈現對人類決策性能的影響。在人類協作決策范式中,已經開發了不同的方案和融合規則來改善人類人群工作者的不可靠和不確定性[15, 16]。此外,在[17,18]中,作者將前景理論(PT)用于描述人類的認知偏見,如風險規避,并研究了現實環境中的人類決策行為。在[19, 20]中也探討了基于人類和機器的信息源在不同場景下的信息融合。在[19]中,作者表明,人類的認知力量可以利用多媒體數據來更好地解釋數據。一個用戶細化階段與聯合實驗室主任(JDL)融合模型一起被利用,以在決策中納入人類的行為因素和判斷[20]。
未來的戰場將需要人類和機器專業知識的無縫整合,他們同時在同一個環境模型中工作,以理解和解決問題。根據[21],人類在隨機應變和使用靈活程序、行使判斷和歸納推理的能力方面超過了機器。另一方面,機器在快速反應、存儲大量信息、執行常規任務和演繹推理(包括計算能力)方面勝過人類。未來雷達系統中的高級認知尋求建立一種增強的人機共生關系,并將人類的優點與機器的優點融合在一起[22]。在本章中,我們概述了這些挑戰,并重點討論了三個具體問題:i)人類決策與來自物理傳感器的決策的整合,ii)使用行為經濟學概念PT來模擬人類在二元決策中的認知偏差,以及iii)在相關觀測下半自主的二元決策的人機協作。
本章的其余部分組織如下。在第11.1節中,我們介紹了一項工作,說明如何將人類傳感器的存在納入統計信號處理框架中。我們還推導出當人類擁有機器無法獲得的輔助/側面信息時,這種人機一體化系統的漸進性能。我們采用行為經濟學的概念前景理論來模擬人類的認知偏差,并在第11.2節中研究人類在二元假設檢驗框架下的決策行為。第11.3節討論了一種新的人機協作范式來解決二元假設檢驗問題,其中人的知識和機器的觀察的依賴性是用Copula理論來描述的。最后,我們在第11.4節中總結了與這個問題領域相關的當前挑戰和一些研究方向,然后在第11.5節中總結。
計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。
對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。
最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。
人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。
過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。
為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。
生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。
圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。
計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。
本研究試圖回答以下問題:
1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?
2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?
3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?
提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。
對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。
本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。
另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。
本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。
態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外(EOIR)傳感器同時使用可見光和紅外傳感器,使其能夠在光照和黑暗(日/夜)情況下使用。這些系統經常被用來探測無人駕駛飛機系統(UAS)。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的。
該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡,該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向,以便在未來進行擴展。建議包括微調這個模型,以及在這個數據集上使用其他機器學習方法,如目標檢測和 YOLO算法。
神經形態相機非常適合檢測無人駕駛航空系統(UAS)或無人機上螺旋槳(葉片)的運動。在本文中,我們介紹了虛擬圍欄的概念,它是一種低成本的網絡化態勢感知裝置,可以快速提醒無人機進入圍欄區域。與傳統相機相比,神經形態的相機大大減少了必須處理的數據量。只有在事件產生時才需要處理。這些事件可以由無人機、低空飛行物(射彈或鳥類)或背景的變化產生。我們提出了兩種互補的算法,使我們能夠將螺旋槳葉片的特征與其他事件區分開來。這些算法利用了螺旋槳信號的周期性和檢測到的信號中存在的次諧波。當相機像素錯過一些高頻事件時,這些次諧波會被引入信號中。我們還展示了如何調整相機的光學系統,以減少背景事件的對比度,從而簡化分類任務。我們提出了一個在正常運行時消耗5.14瓦的系統原型,其電池自主性達到27小時。該原型可以使用IniVation公司的DAVIS 346檢測高度為9米的無人機,視野約為70度。基于當前和下一代神經形態相機分辨率的實際提高,預計探測范圍將擴大,虛擬圍欄的概念可在未來幾年內進行實際部署。