近年來,人臉識別技術有了長足的進步,這主要是因為有了用于深度學習模型的大型且日益復雜的訓練數據集。然而,這些數據集通常包括從新聞網站或社交媒體平臺刮來的圖像,因此,在更先進的安全、取證和軍事應用中的效用有限。這些應用需要更低的分辨率、更遠的距離和更高的視角。為了滿足這些關鍵需求,我們收集并策劃了一個大型多模態生物識別數據集的第一和第二子集,旨在用于在極具挑戰性的條件下進行生物識別技術的研究和開發。到目前為止,該數據集包括超過350,000張靜態圖像和超過1,300小時的視頻片段,涉及約1,000個對象。為了收集這些數據,我們使用了尼康單反相機、各種商業監控相機、專門的長焦研發相機,以及第一組和第二組無人機平臺。其目的是支持開發能夠在高達1000米的范圍內和從高仰角準確識別人的算法。
這些進展將包括對人臉識別技術現狀的改進,并將支持使用基于步態和人體測量的方法在全身識別領域的新研究。本文介紹了用于收集和整理數據集的方法,以及數據集在當前階段的特點。
高度和范圍的生物識別和鑒定(BRIAR)計劃的構想是在具有挑戰性的、不受控制的全動態視頻條件下,推進面部、步態和全身(WB)生物識別領域的現有技術水平。這包括支持能力,如人員檢測和跟蹤、圖像增強和大氣湍流緩解。為了實現這些目標,BRIAR計劃正在建立一個獨一無二的數據集,以促進創建算法來解決這些具有挑戰性的情況。BRIAR計劃將分幾個階段實施,每個階段都包括新的數據收集,以增加該數據集,以及研究階段,旨在產生在這個新數據集上訓練的模型,其性能目標不斷提高。單獨的數據收集是專門計劃的,以跨越不同的地形、天氣和大氣條件,并加強對象的人口多樣性。在該計劃的第一階段,BRIAR政府數據集1(BGC1)和2(BGC2)被設計用來支持針對這些問題的算法開發。
現有的人臉和WB識別算法在現實世界中的實現,通常是通過商業安全攝像機攝取視頻媒體。這些傳感器采集的數據質量不一,會降低算法的性能,是生物識別的一個重要缺陷[14]。為了在成像來源方面提供一個真正折衷的數據集,BRIAR數據集將包含不僅由商業監控攝像機捕獲的圖像和視頻數據,而且由能夠在高達1,000米的范圍內和高達50°的視角下獲得高質量的主體視頻片段的專門傳感器捕獲的數據。
由于缺乏從安裝在無人駕駛飛行器(UAV)平臺上的傳感器捕捉到的訓練數據,生物識別算法的許多有前途的應用受到進一步限制。這種平臺在商業、工業和國防應用中越來越多地出現。為了推動更新的算法,BRIAR BGC1和BGC2數據集還將包括從四個不同的平臺上拍攝的高達400米的人臉和WB視頻片段,這些平臺都是靜止的,在一次記錄過程中沿著三個軸線改變位置。
BRIAR數據集有兩個重大貢獻。首先,它建立了一個獨一無二的數據集,包括來自多個范圍和海拔高度的受試者的靜態圖像和視頻,跨越兩套衣服。其次,它使研究人員能夠通過利用數據集的獨特性和它所提供的未開發的成像挑戰來擴展目前最先進的算法。
有幾個關鍵特征使這個數據集真正具有新穎性。盡管許多現有的數據集提供的圖像和/或視頻要么是完全受限的,要么是完全不受限的[16][18],但BRIAR數據集包含高質量的特寫圖像和受大氣條件(如湍流、雨、陰影)影響的可變質量的不受限視頻。每個主題的視頻可以從小于10米的4K質量到距離達1,000米的高清晰度,并包括合作和不合作行為的表現。
該數據集的獨特功能將使IARPA的研發團隊能夠推進當前在人臉和WB檢測和識別以及人員跟蹤和重新識別領域的技術水平。目前,BRIAR數據集可供美國政府(USG)研究人員及其承包商索取。有興趣的各方應與作者聯系,作者將把請求轉給適當的美國政府代表。
本文的其余部分組織如下。在第2節中,我們提供了關于BRIAR數據集所要解決的局限性的背景信息,并討論了數據集開發過程中的幾個關鍵考慮。第3節對相關工作進行了考察,并總結了與收集該數據集有關的獨特目標挑戰。在第4節中,我們討論了數據集的收集協議和方法,收集中使用的無約束成像的性質,以及收集地點的細節。在第5節中,我們描述了數據的后處理方法、元數據和注釋的手段。在第6節中,我們提供了數據集的特點,并討論了其目前狀態下的局限性。最后,第7節介紹了未來擴展BRIAR數據集的路線圖。
數據科學的目標是通過從大型數據集中提取的見解來改進決策。作為一個活動領域,數據科學包括一組原則、問題定義、算法和從大型數據集中提取非明顯和有用模式的過程。它與數據挖掘和機器學習領域密切相關,但范圍更廣。如今,數據科學幾乎在現代社會的所有領域推動著決策的制定。數據科學可能會影響你的日常生活,包括確定哪些廣告會在網上呈現給你;哪些電影、書籍和朋友被推薦給你;哪些郵件會被過濾到垃圾郵件文件夾中;當你更新你的手機服務時,你會收到什么優惠;你的健康保險費的費用;你所在區域紅綠燈的順序和時間;你可能需要的藥物是如何設計的;還有你所在城市警方的目標是哪些地方。 大數據和社交媒體的出現、計算能力的提升、計算機內存成本的大幅降低,以及更強大的數據分析和建模方法(如深度學習)的發展,推動了整個社會對數據科學使用的增長。這些因素一起意味著組織從未像現在這樣容易地收集、存儲和處理數據。與此同時,這些技術創新和數據科學更廣泛的應用意味著,與數據使用和個人隱私相關的道德挑戰從未像現在這樣緊迫。這本書的目的是提供數據科學的介紹,涵蓋了該領域的基本元素在一個深度,提供了一個原則性的理解該領域。第一章介紹了數據科學領域,并簡要介紹了它是如何發展和演變的。它還研究了為什么數據科學在今天是重要的,以及推動采用它的一些因素。本章最后回顧并揭穿了一些與數據科學相關的神話。第二章介紹與數據相關的基本概念。它還描述了數據科學項目中的標準階段:業務理解、數據理解、數據準備、建模、評估和部署。第三章重點介紹了數據基礎設施和大數據帶來的挑戰以及多源數據的集成。典型數據基礎設施可能具有挑戰性的一個方面是,數據庫和數據倉庫中的數據通常駐留在不同于用于數據分析的服務器上。因此,當處理大型數據集時,在數據庫或數據倉庫所在的服務器和用于數據分析和機器學習的服務器之間移動數據會花費大量的時間。第3章首先描述了一個組織的典型數據科學基礎設施和一些新興的解決方案,以應對在數據基礎設施中移動大型數據集的挑戰,其中包括數據庫內機器學習的使用,使用Hadoop進行數據存儲和處理,以及混合數據庫系統的開發,將傳統數據庫軟件和類似Hadoop的解決方案無縫結合。本章最后強調了在將來自整個組織的數據集成為適合機器學習的統一表示時所面臨的一些挑戰。第4章介紹了機器學習領域,并解釋了一些最流行的機器學習算法和模型,包括神經網絡、深度學習和決策樹模型。第5章通過回顧一系列標準業務問題并描述如何通過機器學習解決方案來將機器學習專業知識與現實問題聯系起來。第6章回顧了數據科學的倫理影響,數據監管的最新發展,以及在數據科學過程中保護個人隱私的一些新的計算方法。最后,第7章描述了數據科學在不久的將來將產生重大影響的一些領域,并列出了決定數據科學項目是否成功的一些重要原則。
計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。
對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。
最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。
人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。
過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。
為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。
生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。
圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。
計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。
本研究試圖回答以下問題:
1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?
2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?
3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?
提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。
對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。
本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。
另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。
本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。
美國空軍應追求新一代的中程備用殺傷性武器,以開發一種在與中國或俄羅斯的重大沖突中能夠打擊10萬個或更多目標點的彈藥庫存。
下一代中程PGM的尺寸應該是可以由隱形戰斗機和轟炸機大量內部攜帶的,以減少攻擊高度分散和位于有爭議和高度爭議環境深處的目標集的時間和成本。
這些PGMs還應該被設計成具有低可觀察性和其他特征,以穿透先進的綜合防空系統,減少美國空軍在同行沖突中所需要的飛行架次和武器數量。
用下一代備用PGM穿透隱身飛機將具有射程、生存能力和獨立完成殺傷鏈的能力,以對付越來越具有移動性和可遷移性的目標集。
經過幾十年的推遲和取消的現代化計劃,空軍對美國同行競爭對手的領先優勢正在被削弱,其部隊規模不足以滿足其被要求的作戰需求。同時,對國防開支的擠壓威脅著空軍的年度預算,而空軍的年度預算長期以來一直低于陸軍和海軍的單獨預算份額。這些挑戰使空軍處于一個脆弱的地位,其現代化投資中的錯誤步驟可能是災難性的。空軍必須做出明智的選擇,如果它要用它將獲得的稀缺資源來最大限度地提高其戰斗力。一個關鍵的選擇將是它為發展精確制導武器(PGM)庫存而采取的戰略,該庫存的大小適合于同行沖突。如果空軍要保持對中國和俄羅斯的精確打擊優勢,就必須平衡其庫存彈藥的射程、尺寸、速度、生存性和能力。這將要求空軍開發一系列負擔得起的下一代中程(50至250海里)空對地PGM,可以由其第五代戰斗機和隱形轟炸機大量攜帶。這個武器系列將大大有助于最大限度地提高美國在有爭議環境中的打擊行動的能力和降低其成本。空軍未來的PGM庫存應
1.支持未來對高度分散和位于有爭議地區深處的目標進行遠程穿透性打擊。
2.由設計成能在有爭議的環境中生存并到達其指定目標的武器組成。
3.能夠有效地打擊具有挑戰性的目標,這些目標具有移動性,能夠迅速轉移,或者被加固或深埋。
4.在針對同行對手的長期行動中,有能力打擊100,000個或更多的目標瞄準點。
5.包括各種武器的組合,使大規模的穿透性打擊行動的成本效益最大化。
重新平衡空軍的PGM組合,使之包括下一代中程PGM系列,用于替補打擊,這將補充美國空軍第五代戰斗機和轟炸機的能力,提高其擊敗挑戰性目標的能力,并將以足夠的價格采購同行沖突所需的規模。