亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

將前景目標從背景中分離出來是許多視頻處理管道的第一步。雖然現有的背景分離方法能夠充分解決許多技術難題,如光照變化、動態背景(如飄動的樹葉、揮舞的旗幟等)、相機抖動等),但它們在處理移動傳感器方面有局限性,而且計算復雜性也很高。這是未來智能系統的一個主要限制,因為最近流行的移動傳感器和小型平臺需要在尺寸、重量和功率(SWaP)限制下進行板載處理。

這項小企業創新研究(SBIR)工作進行了一些創新,以處理這些挑戰和解決最先進的限制: 這些創新包括:i)開發創新的數學模型和先進的算法,在此基礎上有效地處理小型平臺上的高效背景減除的挑戰;以及ii)開發移動傳感器和圖像形成的觀察幾何的數學模型,并利用三維世界中剛體運動的低等級約束來有效檢測獨立移動的目標。第二階段的工作開發了計算機視覺和機器學習算法,利用背景外觀和運動的低等級約束來區分前景區域和背景。背景外觀的低秩約束是基于理論和經驗結果,這些結果表明,在不同的變換(如光照變化)下,對應于特定目標的矢量圖像大約位于一個低維子空間上。此外,對運動的低秩約束利用了自由移動的傳感器的觀察幾何學來區分前景和背景運動。通過將傳感器運動與外觀模型相結合,所開發的方法能夠處理靜態和移動的相機。背景分離算法也被移植到移動設備上,以提供實時性能,并在標準和內部數據集上進行了評估。在該項目中開發的技術為低成本移動設備上穩健有效的自動計算機視覺提供了一個自然的框架和基礎。

擬議工作的首要目標是開發技術,在靜態和自由移動的視頻傳感器中使用移動處理器實現實時背景/前景分離。

圖1:提議的背景分離技術將使移動平臺上的視頻傳感器得到利用,并有廣泛的應用,包括:空中視頻的利用、增強現實和游戲、高分辨率視頻的邊緣處理、可穿戴傳感器和自主車輛。

視頻傳感器已經成為生活中所有領域中無處不在的信息來源(圖1)。從國防到商業到消費領域,它們正被越來越多地用于實現廣泛的應用。例如,固定和傾斜變焦(PTZ)相機通常被用來提供視覺監控、關鍵基礎設施安全、商業智能和建筑自動化。同樣,安裝在無人機平臺上的攝像機很容易成為情報、偵察和監視(ISR)數據和態勢感知的最關鍵來源之一。此外,世界各地的消費者正在從手持設備(如智能手機)和可穿戴設備(如谷歌眼鏡、GoPro等)產生大量的視頻數據。

這些傳感器產生的大量數據推動了對能夠從豐富的視頻數據中提取有用信息的自動化技術的需求。例如,自動視覺監控系統和空中視頻開發工具被廣泛用于檢測和跟蹤感興趣的目標,并從視頻中識別活動。然而,大多數現有的視覺分析系統都假定有大型的處理基礎設施(強大的PC、服務器、GPU等),因此不能輕易應用于許多新的移動傳感設備,或具有嚴格的尺寸、重量和功率(SWaP)限制的小型平臺。因此,有必要開發高效的計算機視覺技術,使其能夠使用易于與傳感設備集成的低功耗、低成本的移動計算平臺對視頻進行實時利用。

圖2:最先進的背景建模方法所使用的馬賽克(上)和基于體素(下)的表示方法在計算上成本非常高,對移動平臺來說不可行。

先進的背景分離技術的局限性:

許多視頻處理管道的第一步是將前景目標與背景分離。這是通過背景分離算法完成的,該算法試圖通過自適應地學習和模擬背景的特征來識別視頻流中最相關的部分,并找到不符合學習模型的像素。作為自動視覺監控系統最關鍵的組成部分之一,背景分離問題已經在計算機視覺文獻中得到了廣泛的研究。人們提出了許多方法來解決其技術難題,如光照變化、動態背景(如飄動的樹葉、揮舞的旗幟、噴泉等)、攝像機抖動、陰影和移動攝像機等。雖然現有的方法相當善于處理其中的許多挑戰,但它們也有很高的計算復雜性(以像素數計),不適合移動平臺。另一方面,如今產生的很大一部分視頻數據是由移動傳感器捕獲的,例如,手持式智能手機、可穿戴設備(GoPro、谷歌眼鏡等)以及安裝在小型無人機上的傳感器。然而,大多數現有的背景分離工作都集中在視頻監控中使用的靜態和PTZ相機的視頻上。即使對于一些使用先進的在線優化和子空間估計技術[GK15, HBS12]進行快速背景分離的最新算法也是如此。因此,這些算法不能直接應用于來自移動傳感器的視頻。

那些試圖解決移動傳感器問題的方法也借鑒了靜態攝像機算法的基本方法。這些方法首先創建新的表征(圖2),以消除平臺運動的影響,例如,背景馬賽克(通過拼接后續幀的圖像生成)或明確的三維模型(使用結構-運動和立體技術創建)。然后,從靜態攝像機領域借來的背景分離技術被應用于這些新的表示。除了原始分離技術的復雜性之外,這種方法還為處理管道引入了更多計算上的復雜元素。例如,生成馬賽克所需的圖像拼接算法涉及非常昂貴的圖像扭曲(轉換)組件。同樣,如果不使用GPU進行繁重的并行處理,從運動中獲得結構和立體感的技術以及由此產生的三維體素代表就無法實時創建。

創新總結

為了應對上述挑戰,Novateur Research Solutions和賓夕法尼亞大學的通用機器人、自動化、傳感和感知(GRASP)實驗室(以下簡稱Novateur團隊)在SBIR工作期間進行了多項數學創新。這些創新包括開發創新的數學模型以及先進的計算機視覺和機器學習技術,能夠有效地從各種場景的移動和靜止傳感器中分離背景和前景。

特別是,在第二階段的工作中,該團隊開發了代數模型,利用背景外觀的低等級約束以及運動來區分前景區域和背景。背景外觀的低秩約束是基于理論和經驗結果,這些結果表明,在不同的變換(如光照變化)下,對應于給定物體的矢量圖像大約位于一個低維子空間上。此外,對運動的低秩約束利用了自由移動的傳感器的觀察幾何,以區分前景和背景運動。然后,該團隊開發了基于代數優化(矩陣分解)和機器學習(神經網絡)的新型算法,利用這些約束從移動平臺上進行背景減除。

第一階段開發的背景分離技術是

  • 不需要創建昂貴的場景表征;
  • 不對場景或平臺運動做出假設;
  • 與特定的計算架構或指令集無關。

因此,它們能夠使用各種低成本、低功耗和輕量級的處理單元在靜態和移動傳感器的高分辨率圖像中進行有效的背景分離。

第二階段的成就:

在第二階段的研究和開發工作中,完成的主要目標包括

在移動傳感器視頻中高效在線提取多個移動目標的新型代數框架--在第一階段的工作中,Novateur團隊將發現和分割獨立移動物體的問題作為一個低等級的近似問題來解決。更具體地說,我們開發的技術涉及檢測和跟蹤各幀之間的特征,然后將這些跟蹤結果匯總到不完整的矩陣中,其中缺失的條目反映了這樣一個事實:隨著攝像機在空間中的移動,特征會隨著時間的推移而被遮擋。然后我們表明,我們可以利用這樣的假設,即大部分場景是剛性移動的,以及仿射模型的結構,該模型規定這些軌跡中的大部分必須位于高維空間的三維流形上。我們方法的下一個關鍵想法是利用在線不完全矩陣分解技術,快速有效地從測量中提取這個三維子空間結構。一旦這樣做了,獨立移動的障礙物就可以通過識別低等級模型的離群值來恢復,然后根據圖像中的接近程度將這些特征分組。第二階段的工作在第一階段模型的基礎上進一步發展,納入了子空間跟蹤[HBS12]和動態模式分解[GK15, KFB15],并利用背景模型的低秩屬性來實時提取前景像素。此外,第二階段的工作還開發了新的機器學習模型,利用低維約束將靜態的三維場景幾何與獨立移動的物體分開。

利用背景分離技術作為注意力集中機制,改進移動計算平臺上的移動目標檢測--第二階段工作開發了一種新型計算機視覺算法,能夠在移動平臺上檢測移動目標,如無人機。該算法結合了光流、深度神經網絡以及低等級約束,并為進一步處理任務提供了注意力集中機制。

測試和評估--Novateur團隊還利用標準基準數據集以及由真實世界場景組成的內部數據集,展示了所提出的背景分離技術的能力。該團隊還對提議的技術進行了定量和定性評估,其中包括對真實世界數據的性能特征和權衡分析。

實施端到端軟件,實現視頻中移動目標的穩健檢測--第二階段實施了一個基于ROS架構的端到端軟件,利用移動計算平臺對靜態和移動傳感器的視頻中的目標進行穩健檢測。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

傳感器信息推薦系統是一個確定并向終端用戶傳播高價值信息的軟件系統。該系統的主要組成部分是推薦服務器、戰術攻擊套件(TAK)服務器、安卓團隊感知套件(ATAK)和ATAK插件。作為一個實戰化的系統,每個組件都能在自己分散的實例上獨立運行。然而,在開發過程中,在同一平臺上運行系統的每個部分,以快速測試數據流是很有幫助的。在一個獨立的環境中運行所有的組件,向觀眾展示信息價值(VOI)系統,也是很有幫助的。本報告描述了在一個獨立的環境中部署這些組件的步驟,以便進行測試和開發。

系統組件

系統結構如圖1所示。推薦服務器接收來自部署的傳感器的數據,并通過TAK服務器將來自傳感器的推薦信息對象發送到ATAK。

圖1 傳感器信息推薦系統工作流程中的TAK服務器

付費5元查看完整內容

目標檢測是用于軍事應用的計算機視覺的最流行領域之一。在這種情況下,目標檢測模型的使用方式之一是用于戰場上的實時目標識別。許多這些模型開始被納入士兵使用的技術中(即無人駕駛地面車輛和平視顯示器),以幫助他們識別周圍可能代表對其安全的潛在威脅的目標。通過正確檢測和分類戰場上的危險目標,這些模型能夠為士兵提供關于他們周圍環境的有用信息,以便他們能夠就如何進行任務做出決定。

目前的目標檢測模型出現的一個主要問題是,它們難以檢測到只有部分可見或被遮擋的目標。在這些情況下,目標探測模型往往根本無法探測到這些目標。它們也可能檢測到部分被遮擋的目標,但卻用錯誤的目標類別對它們進行分類。遮擋是許多研究人員在開發和訓練他們的目標檢測模型時沒有考慮的一個條件,盡管它在現實世界中很常見。為了確保士兵的安全,以及改善未來目標檢測模型的狀況,有必要確定當前的目標檢測模型在面對這種情況時的工作情況。

這項工作的主要目的是對三種最先進的目標檢測模型進行基線評估,這些模型是在一個包含許多部分遮擋目標的流行目標識別數據集上進行的。這樣做之后,對每個模型的結果進行了比較。本實驗中使用的模型是Gonzalez-Garcia模型、Detectron的Faster R-CNN和YOLOv5。它們被訓練和測試的數據集是流行的模式分析、統計建模和計算學習視覺對象類(PASCAL VOC)挑戰數據集之一,特別是VOC 2010。本報告首先介紹了每個目標檢測模型和VOC數據集的概況。然后給出了關于實驗的更多細節,以及結果和結論。

付費5元查看完整內容

目前的自動空中加油(AAR)工作利用機器視覺算法來估計接收飛機的姿勢。然而,這些算法取決于幾個條件,如精確的三維飛機模型的可用性;在沒有事先給出高質量信息的情況下,管道的準確性明顯下降。本文提出了一個深度學習架構,該架構基于立體圖像來估計物體的三維位置。研究了使用機器學習技術和神經網絡來直接回歸接收飛機的三維位置。提出了一個新的位置估計框架,該框架基于兩個立體圖像之間的差異,而不依賴于立體塊匹配算法。分析了其預測的速度和準確性,并證明了該架構在緩解各種視覺遮擋方面的有效性。

圖3:利用的坐標系統。紅軸代表X軸,綠軸代表Y軸,藍軸代表Z軸。所有顯示的箭頭表示該軸上的正方向。

付費5元查看完整內容

本報告的目的是探討可用于估計紅外(IR)目標中心的多種方法。具體的重點是在一個非常小的空間區域發出信號的目標,近似于一個點源。如果只需要一個簡單的解決方案,中心可以被大致估計為感興趣區域(ROI)中最亮的像素。雖然很容易實現,但這種方法只能產生一個精確到單個像素的估計。如果沒有任何進一步的細化,這將建立一個精度的下限。然而,通過考慮鄰近的像素,有可能將估計值細化到一個像素的一小部分。因此,選定的算法必須能夠進行亞像素估計,以便為高精確度的應用建立必要的精確程度。這些應用中的幾個可能包括在整個視頻中跟蹤一個投射物或使用紅外目標進行相機校準。

將這些算法限制在點源上的重要性在于,它允許對目標中心進行非常精確的估計。理想的候選人將在圖像的一個小區域內擁有一個單一的、定義明確的峰值。一個物體作為點源的能力根據所涉及的距離而變化。一個較大的物體可能不被認為是一個點源,除非是在非常長的距離上,而一個短距離的點源可能在較長的距離上根本無法注冊。在這方面,有幾個物體可以被認為是適用的。鹵素燈泡從燈泡中心的一個小燈絲產生熱量。帶有示蹤劑的射彈會在子彈底部有一個小的,但很亮的燃燒點。鉚釘的頭部在外部邊緣迅速冷卻,但在中心緩慢冷卻,在死角處形成一個熱斑。所有這些元素都是這種算法的良好候選者。附近的車輛,可能看起來很大(幾百個像素),其紅外特征的梯度很淺,將不適合這種跟蹤算法。

方法

首先,有必要建立一個全像素方法,它將作為一個控制和基準。這種算法的作用是找到強度最大的像素位置。在出現平局的情況下,解決方案將是峰值位置的平均值。因此,如果像素值是飽和的,全像素估計有可能產生一個小數值。請注意,由于圖像生成的性質,最大值,因此整個像素的估計值將出現在子圖像的中心(或在飽和圖像的情況下接近中心)。這意味著,只要圖像被裁剪并以ROI為中心,其余算法的結果對任何尺寸的圖像都有效。

由相機記錄的真正的點源可以在數學上表示為一個艾瑞盤。由于這個函數相當復雜,可以用眾所周知的高斯分布做一個稍不準確的估計。這是一個非常常見的簡化,雖然這兩個函數的尾部不匹配,但中心,即估計的最重要的位置,卻非常匹配(參考文獻1)。候選點源,給定適當的距離,預計將表現出類似于艾瑞盤或高斯分布的特征。因此,尋找子像素中心的最合理的方法是將一個二維(2D)高斯函數擬合到圖像區域,獲得其中心的坐標。在實踐中,使用MATLAB擬合二維高斯分布需要運行一個優化,這可能是相當緩慢的。因此,盡管這種方法可以非常精確,但最好還是能有一個能更快運行的解決方案。將二維高斯分布擬合到圖像區域的方法被稱為優化高斯擬合。

為了獲得一個計算成本較低的解決方案,需要尋求一種確定性的分析方法。首先,參考文獻2中描述了一種擬合拋物線估計器的新方法。雖然這同時滿足了確定性和分析性的要求,但它只針對一維(1D)的情況。為了對估計點源的子像素中心有用,它必須在二維上推導。這個估算器可以根據方程1到9擴展到二維空間。

付費5元查看完整內容

近年來,手勢識別(HGR)已經取得了巨大的成功,并在人機交互領域開辟了一個新的趨勢。然而,一些現有的手勢識別系統在實際應用中的部署仍然遇到一些挑戰,如傳感器的可測量范圍有限;由于使用單一的模式,缺乏重要的信息;由于復雜的深度模型的訓練,通信成本高,延遲和隱私負擔。本項目旨在克服這些主要問題,通過開發邊緣智能技術,使用可穿戴多模態傳感器(如加速度計和攝像頭)進行手勢識別,并減少注釋工作。在這個項目中,我們設計了一個可穿戴式多模態原型,能夠捕捉多模態信息,如RGB和運動數據。然后我們設計了一套在人機交互中常用的12種動態手勢。我們使用所設計的原型在不同的環境條件下對50名受試者收集了此類手勢的數據集。據我們所知,這個數據集可以被認為是研究界從腕戴式多模態傳感器識別手勢的第一個基準數據集。我們部署了各種最先進的CNN模型,對使用RGB和運動數據的手勢識別進行了比較研究。實驗結果顯示了該基準的挑戰,以及現有模型的最佳性能和未來的改進空間。此外,在該項目框架內,我們改進了帶有時間信息的手部姿勢估計和連續手勢識別的算法。我們還對用于時間序列預測的混合CNN-LSTM模型中的形狀分析和貝葉斯推理進行了基礎研究。我們引入了一個框架,便于研究聯邦學習。該原型和研究成果已在12個國際會議上發表,并提交給一個IEEE傳感器雜志。

付費5元查看完整內容

長期目標

在決策或推理網絡中進行適當的推理,需要指揮官(融合中心)對每個下屬的輸入賦予相對權重。最近的工作解決了在復雜網絡中估計智能體行為的問題,其中社會網絡是一個突出的例子。這些工作在各種指揮和控制領域具有相當大的實際意義。然而,這些工作可能受限于理想化假設:指揮官(融合中心)擁有所有下屬歷史全部信息,并且可以假設這些歷史信息之間具有條件統計獨立性。在擬議的項目中,我們打算探索更普遍的情況:依賴性傳感器、(可能的)依賴性的未知結構、缺失的數據和下屬身份被掩蓋/摻雜/完全缺失。對于這樣的動態融合推理問題,我們建議在一些方向上擴展成果:探索數據源之間的依賴性(物理接近或 "群體思維"),在推理任務和量化不一定匹配的情況下,采用有用的通信策略,甚至在每個測量源的身份未知的情況下,采用無標簽的方式--這是數據關聯問題的一種形式。

我們還認識到,對動態情況的推斷是關鍵目標所在。考慮到一個涉及測量和物理 "目標 "的傳統框架,這是一個熟悉的跟蹤問題。但是,來自目標跟蹤和多傳感器數據關聯的技術能否應用于提取非物理狀態(物理狀態如雷達觀察到的飛機)?一個例子可能是恐怖主義威脅或作戰計劃--這些都是通過情報報告和遙測等測量手段從多個來源觀察到的,甚至可能被認為包含了新聞或金融交易等民用來源。這些都不是標準數據,這里所關注的動態系統也不是通常的運動學系統。盡管如此,我們注意到與傳統的目標追蹤有很多共同點(因此也有機會應用成熟的和新興的工具):可能有多個 "目標",有雜波,有可以通過統計學建模的行為。對于這種動態系統的融合推理,我們的目標是提取不尋常的動態模式,這些模式正在演變,值得密切關注。我們特別建議通過將雜波建模為類似活動的豐富集合,并將現代多傳感器數據關聯技術應用于這項任務,來提取特征(身份)信息。

目標

研究的重點是在具有融合觀測的動態系統中進行可靠推理。

方法

1.決策人身份不明。在作戰情況下,融合中心(指揮官)很可能從下屬那里收到無序的傳感器報告:他們的身份可能是混合的,甚至完全沒有。這種情況在 "大數據 "應用中可能是一個問題,在這種情況下,數據血統可能會丟失或由于存儲的原因被丟棄。前一種情況對任務1提出了一個有趣的轉折:身份信息有很強的先驗性,但必須推斷出身份錯誤的位置;建議使用EM算法。然而,這可能會使所有的身份信息都丟。在這種情況下,提出了類型的方法來完成對局部(無標簽)信念水平和正在進行的最佳決策的聯合推斷。

2.動態系統融合推理的操作點。在以前的支持下,我們已經探索了動態事件的提取:我們已經開發了一個合理的隱馬爾科夫模型,學會了提取(身份)特征,有一個多伯努利過濾器啟發的提取方法 - 甚至提供了一些理論分析。作為擬議工作的一部分,將以兩種方式進行擴展。首先,打算將測量結果作為一個融合的數據流,這些數據來自必須被估計的未知可信度的來源。第二,每個這樣的信息源必須被假定為雜亂無章的 "環境 "事件(如一個家庭去度假的財務和旅行足跡),這些事件雖然是良性的,可能也不復雜,但卻是動態的,在某種意義上與所尋求的威脅類似。這些必須被建模(從數據中)和抑制(由多目標追蹤器)。

3.數據融合中的身份不確定性。當數據要從多個來源融合時,當這些數據指的是多個真相對象時,一個關鍵的問題是要確定一個傳感器的哪些數據與另一個傳感器的哪些數據相匹配:"數據關聯 "問題。實際上,這種融合的手段--甚至關聯過程的好方法--都是相當知名的。缺少的是對所做關聯的質量的理解。我們試圖提供這一點,并且我們打算探索傳感器偏差和定位的影響。

4.具有極端通信約束的傳感器網絡。考慮由位置未知、位置受漂移和擴散影響的傳感器網絡進行推理--一個泊松場。此外,假設在這樣的網絡中,傳感器雖然知道自己的身份和其他相關的數據,但為了保護帶寬,選擇不向融合中心傳輸這些數據。可以做什么?又會失去什么?我們研究這些問題,以及評估身份與觀察的作用(在信息論意義上)。也就是說,假設對兩個帶寬相等的網絡進行比較;一個有n個傳感器,只傳輸觀察;另一個有n/2個傳感器,同時傳輸數據和身份。哪一個更合適,什么時候更合適?

5.追蹤COVID-19的流行病狀況。誠然,流行病學并不在擬議研究的直接范圍內,但考慮到所代表的技能以及在目前的健康緊急情況下對這些技能的迫切需要,投機取巧似乎是合理的。通過美國和意大利研究人員組成的聯合小組,我們已經證明,我們可以從當局提供的每日--可能是不確定的--公開信息中可靠地估計和預測感染的演變,例如,每日感染者和康復者的數量。當應用于意大利倫巴第地區和美國的真實數據時,所提出的方法能夠估計感染和恢復參數,并能很準確地跟蹤和預測流行病學曲線。我們目前正在將我們的方法擴展到數據分割、變化檢測(如感染人數的增加/減少)和區域聚類。

付費5元查看完整內容

認知方法在幾乎所有方面可提高現有雷達的性能,這導致了近年來研究的激增,空軍雷達建模和仿真(M&S)工具的一個關鍵差距是缺乏針對分布式全適應雷達(FAR)系統的全面、動態分布式雷達情景生成能力。截至2015年初,所有的研究都是在理論上推進概念,并通過模擬檢驗其性能,或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告,主要是因為還沒有開發出測試它們的必要硬件。然而,為了確定應用認知處理方法的真正性能潛力,這一步驟是至關重要的。為了解決這個問題,俄亥俄州立大學(OSU)電子科學實驗室(ESL)的認知傳感實驗室(CSL)與Metron公司、空軍研究實驗室(AFRL)和空軍科學研究辦公室(AFOSR)一起,已經開始了一項研究計劃,從分析和實驗上開發和檢驗認知雷達處理概念。

CSL設計并建造了認知雷達工程工作區(CREW),這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺,Metron和OSU開發了一個認知FAR系統的理論框架,在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力,以證明FAR系統比傳統的前饋雷達(FFR)系統取得的性能改進。我們從OSU的軟件定義雷達(SDR)系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。

這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構,從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段,我們開發了一個基線FAR M&S架構,該架構采用面向對象編程(OOP)方法在MATLAB中編碼。它包括一個控制感知-行動(PA)周期運行的FAR引擎和確定下一組傳感參數的軟件對象;從傳感器獲取數據;處理數據以跟蹤目標;存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例,以及實時和模擬的CREW數據實例。

第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間,以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法,通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能,因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。

付費5元查看完整內容

在學習型網絡物理系統(LE-CPS)中使用的機器學習模型,如自動駕駛汽車,需要能夠在可能的新環境中獨立決策,這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域,如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上,學習型組件(LEC),特別是深度神經網絡(DNN)的成功并不代表它們在開放世界中的表現,在那里輸入可能不屬于DNN被訓練的訓練分布。因此,這抑制了它們在安全關鍵系統中的部署,如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統(CPS)網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能(AI)系統的不信任,由于對DNN預測的高度信任而變得更加嚴重,甚至在預測通常不正確的情況下,對超出分布范圍(OOD)的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外(OOD)輸入的不正確預測的高信心,并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型,就必須檢測那些 DNN 不能被信任的輸入和場景,因此,必須放棄做出決定。那么問題來了:我們能不能把這些機器學習模型放在一個監測架構中,在那里它們的故障可以被檢測出來,并被掩蓋或容忍?

我們認為,我們已經確定了這樣一個用于高安全性學習的CPS的候選架構:在這個架構中,我們建立一個預測性的上下文模型,而不是直接使用深度學習模型的輸出,我們首先驗證并將其與上下文模型融合,以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋,這些解釋構成了模型的輸入,并隨著時間的推移進行整理--但我們認為,我們提出的監測架構相當于重點的轉移,并帶來了新的技術,正如我們將在本報告中說明的。我們建議,一個更好的方法是根據背景模型來評估輸入:模型是我們所學到的和所信任的一切的積累,根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎,但我們把它定位在一個被稱為預測處理(PP)的感知模型中[10],并輔以推理的雙重過程理論[11]。在這份報告中,我們還提供了這個運行時監控架構的候選實現,使用基于歸一化流的特征密度建模來實現第一層監控,以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理,并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線,自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似,我們肯定應該利用這一點作為搜索的種子,而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到,而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型,通過預測車道的位置,用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性,因此發送給視覺系統的將是最好的猜測,或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子,并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型,旨在最小化未來的預測誤差,從而使其更接近現實。

這是一個 "綜合分析 "的例子,意味著我們提出假設(即候選世界模型),并偏向于那些預測與輸入數據相匹配的模型。在實際應用中,我們需要考慮有關 "預測 "的層次:我們是用世界模型來合成我們預測傳感器將檢測到的原始數據(如像素),還是針對其局部處理的某個更高層次(如物體)?

這種自上而下的方法的重要屬性是,它專注于世界模型(或模型:一個常見的安排有一個模型的層次)的構建和前利用,與更常見的自下而上的機器學習模型形成對比。我們將展開論證,自上而下的方法對于自主系統中感知的解釋和保證是有效的,但有趣的是,也許可以放心的是,人們普遍認為這是人類(和其他)大腦中感知的工作方式,這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13],也被稱為預測編碼[14]和預測誤差最小化[15],認為大腦建立了其環境的模型,并使用這些模型來預測其感覺輸入,因此,它的大部分活動可以被視為(近似于)迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官,貝葉斯的 "修正 "又流回來,使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論,包括行動:大腦 "預測 "手,比如說,在某個地方,為了盡量減少預測誤差,手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的:模型和預測是向下流動的,只有修正是向上流動的。

有趣的是,大腦似乎以這種方式工作,但有獨立的理由認為,PP是組織自主系統感知系統的好方法,而不是一個主要是自下而上的系統,其中傳感器的測量和輸入被解釋和融合以產生一個世界模型,很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數,這就排除了從位置計算速度的可能性。因此,感知系統通常保持一個簡單的模型,允許這樣做:林的視覺處理管道的物體跟蹤器[18]就是一個例子,Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型:攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個,其自身的物體檢測器都會指出每個檢測到的物體的位置,并試圖將其分類為,例如,車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入,該方案促進某些追蹤方法而不是其他方法,并且還取決于觀察的最近時間"[17,第8頁]。在亞利桑那車禍的案例中,這導致了對受害者的識別 "閃爍不定",因為傳感器系統自己的分類器改變了它們的識別,而且物體追蹤器先是喜歡一個傳感器系統,然后是另一個,如下所示[17,表1]。

  • 撞擊前5.6秒,受害者被列為車輛,由雷達識別
  • 撞擊前5.2秒,受害者被歸類為其他,通過激光雷達
  • 撞擊前4.2秒,根據激光雷達,受害者被歸類為車輛
  • 在撞擊前3.8秒和2.7秒之間,通過激光雷達,在車輛和其他之間交替進行分類
  • 撞擊前2.6秒,根據激光雷達,受害者被歸類為自行車
  • 撞擊前1.5秒,根據激光雷達,受害者被歸類為不知名。
  • 撞擊前1.2秒,根據激光雷達,受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是:"如果感知模型改變了檢測到的物體的分類,在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17,第8頁]。因此,物體追蹤器從未為受害者建立軌跡,車輛與她相撞,盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題:一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型,另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型;因此,它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法;小的分歧應該表明世界的常規演變,并可以作為模型的更新納入;大的分歧需要更多的關注:它是否表明一個新的發展,或者它可能是對原始傳感器數據解釋的缺陷?在后面兩種情況中的任何一種,我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體,以及它們的屬性,如類型、軌跡、推斷的意圖等,并對其中的一些或全部進行概率分布函數(pdf s)。觀察更新這些先驗,以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分,因此預測處理采用了被稱為變異貝葉斯的方法,將問題轉化為后驗模型的迭代優化,以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此,像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法,但名稱不同,由不同的歷史派生。思考PP的一種方式是,它將卡爾曼濾波的思想從經典的狀態表征(即一組連續變量,如控制理論)擴展到更復雜的世界模型,其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是,它為我們提供了一種系統的方法來利用多個輸入和傳感器,并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型,并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么,這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了,那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器(如照相機、雷達、超聲波)具有完全不同的解釋功能,并在不同的數據集上進行訓練,這似乎是可信的,它們會有獨立的故障。在一個完全集成的預測處理監視器中,情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性,監測器將因此降低其對機器學習模型的信心,直到差異得到解決。

請注意,上下文模型可以是相當簡單粗暴的:我們不需要場景的照片,只需要知道我們附近的重要物體的足夠細節,以指導安全行動,所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異,例如,可能沒有什么意義,因為我們需要知道的是他們的存在,位置,類型和推斷的意圖。事實上,正如我們將在后面討論的那樣,我們可以在不同的細節層次上對上下文進行建模,自上而下的生成模型的目標是生成不同層次的感知輸入的抽象,而不是準確的傳感器值。在報告中討論的我們的實現中,我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征,第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器,感知的上層也將獲得關于世界的知識,可能還有人工智能對世界及其模型的推理能力。例如,它可能知道視線和被遮擋的視野,從而確定在我們附近的車輛可能無法看到我們,因為一輛卡車擋住了它的去路,這可以作為有關車輛的可能運動("意圖")的增加的不確定性納入世界模型中。同樣,推理系統可能能夠推斷出反事實,比如 "我們將無法看到可能在那輛卡車后面的任何車輛",這些可以作為 "幽靈 "車輛納入世界模型,直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面,另一個關于人腦組織的理論很有意思;這就是 "雙過程 "模型[20, 21],由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的;系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的,這就是我們所說的 "思考"。就像預測處理一樣,我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式,而是因為它似乎是獨立的,是一個好架構。在這里,我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1",而更多的深思熟慮的神經符號模型構成一個 "系統2",當系統1遇到大的預測錯誤時,該系統會主動參與。系統1維持一個單一的生成性世界模型,而系統2或者對其進行潤色,或者維持自己的更豐富的世界模型,具有對符號概念進行反事實的 "what-if "推理能力。人們認為,人類保持著一個模型的層次結構[20, 21, 22],這似乎也是自主系統的一個好方法。我們的想法是,在每一對相鄰的模型(在層次結構中)之間都有一個預測處理的循環,因此,較低的層次就像上層的傳感器,其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式,或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用,以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷,例如,檢測到前面有許多剎車燈,就可以推斷出某種問題,這將被表示為世界模型中增加的不確定性。這樣一來,本來可能是意外情況的驚奇出現,反而會發展為不確定性的逐漸變化,或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制,既可以對這些關系和更豐富的背景進行建模,又可以通過反事實查詢和背景知情的預測進行審議。因此,雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知,但我們將這些作為運行時監控器來計算底層模型的驚喜,因此,當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時,就會被發現。

圖 1:基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示,該架構有兩個層次(由雙重過程理論激發)。在第一層,我們使用生成模型,學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層,我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系(更一般地說,輸入的組成部分)。在這兩層中,我們在本報告中的重點是運行時監測,而不是開發一個認知系統本身(而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步)。因此,由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構(低級別的自動化和高級別的審議),并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較,并提出了結論和額外研究的建議。

付費5元查看完整內容

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。

人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題:

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?

3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容
北京阿比特科技有限公司